JP6527000B2 - 発音誤り検出装置、方法およびプログラム - Google Patents

発音誤り検出装置、方法およびプログラム Download PDF

Info

Publication number
JP6527000B2
JP6527000B2 JP2015070328A JP2015070328A JP6527000B2 JP 6527000 B2 JP6527000 B2 JP 6527000B2 JP 2015070328 A JP2015070328 A JP 2015070328A JP 2015070328 A JP2015070328 A JP 2015070328A JP 6527000 B2 JP6527000 B2 JP 6527000B2
Authority
JP
Japan
Prior art keywords
phoneme
word
recognized
speech recognition
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015070328A
Other languages
English (en)
Other versions
JP2016191739A (ja
Inventor
祥子 山畠
祥子 山畠
智彦 原田
智彦 原田
洋和 小間
洋和 小間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2015070328A priority Critical patent/JP6527000B2/ja
Publication of JP2016191739A publication Critical patent/JP2016191739A/ja
Application granted granted Critical
Publication of JP6527000B2 publication Critical patent/JP6527000B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、発音誤り検出装置および方法に関する。具体的には、会議音声など任意の音声に対して音響モデルおよび言語モデルに基づく単語音声認識処理ならびに音響モデルに基づく音素音声認識処理を実行し、それぞれの結果を対応付けることにより発話者の発音誤りを検出することができる発音誤り検出装置および方法に関する。
近年、音声認識技術は、TV会議システムの字幕や翻訳機能、コールセンターの自動応答機能、ロボット等に広く利用されている。このような広い利用用途に対しても、頑健に音声認識が可能であるような、音声認識技術の向上が望まれている。一方で、発話者が正しく音声を発音することで音声認識の精度を向上させる方法も考えられる。発音が誤っている場合、その傾向を発話者に提示して、発音を修正させることで、音声認識の精度は格段に向上する。
発話者の発音の誤りを検出するためには、一般的な音声認識技術を応用することが可能である。例として、予め、模範的な発音をする話者の音声データおよびその書き起こしテキストを蓄積し、この学習データから学習した模範的話者の音響モデル・言語モデルを含む音声認識技術を利用して、発音の誤りを検出する方法が知られている。発話者が、発音誤り検出システムが示した所定の文章や単語(正解文)を読むと、システムは模範的な発音をする話者から学習したモデルを用い、音声認識を実施する。音声認識の結果、模範音声と異なる発音をした部分は、誤って音声認識されるため、話者に提示した正解文と音声認識の結果とを比較して、誤った部分を抽出することで、発話者の苦手な発音を検出することができる。
従来の技術では、どの部分が誤って音声認識されたかを検出するためには、正解文と、認識結果のペアが必要であった。しかしながら、例えば、会議音声など任意の音声に対しては、正解文をあらかじめ用意することはできず、音声認識をしても、どの部分の発音が誤っているかを検出することはできない。そのため、会議音声など任意の音声に対して発音誤りを検出できる装置および方法が求められている。
本発明は、このような課題を解決するために、会議音声など任意の音声に対して音声認識処理を実行し、発音誤り検出を行なう装置であって、前記装置は、
音声データに対して音響モデルおよび言語モデルに基づく単語音声認識処理を実行する手段と、
前記音声データに対して音響モデルに基づく音素音声認識処理を実行する手段と、
前記単語音声認識処理の実行結果と、前記音素音声認識処理の実行結果とを対応付ける手段であって、前記単語音声認識処理の実行結果は少なくとも認識された単語と前記認識された単語の認識信頼度を含み、前記単語音声認識処理の実行結果は少なくとも認識された音素を含む、手段と、
予め定められた閾値以上の前記認識信頼度を持つ前記認識された単語(高スコア単語)と前記高スコア単語に対応付けられた前記音素音声認識処理の実行結果を抽出する手段と を備えたことを特徴とする。
また、前段落に記載の発明において、前記単語読み列と一致しない前記認識された誤り音素に対応する前記単語読み列の前、後、もしくは両方のいずれか、または全ての音素を含む音素を誤り音素として抽出する手段をさらに備えたことを特徴とする。
さらに、前2段落に記載の発明において、前記単語読み列と前記認識された音素とが置換関係にあり、前後の音素は正しく、その音素のみが誤っている音素、前記単語読み列には存在するが前記認識された音素には存在しない音素、および前記単語読み列に対して前記認識された音素が増えている音素のうちの少なくとも1つを誤り音素として抽出する手段をさらに備えたことを特徴とする。
そして、前2段落に記載の発明において、前記誤り音素の数(音素誤り数)をカウントする手段と、
前記カウントした音素誤り数、および前記誤り音素または前記誤り音素に係る単語を発音の誤り傾向データとして出力する手段と
をさらに備えたことを特徴とする。
以上説明したように、本発明により、会議音声など正解文のない任意の音声に対しても、どの発音が誤った発音であるかを検出することができる。
本発明の一実施形態に係る発音誤り検出システムの構成を示す図である。 本発明の一実施形態に係る単語認識結果データ記憶部に格納されたデータを示す図である。 本発明の一実施形態に係る音素認識結果データ記憶部に格納されたデータを示す図である。 本発明の一実施形態に係る高スコア単語データ記憶部に格納されたデータを示す図である。 本発明の一実施形態に係る音素誤り傾向データ記憶部に格納されたデータを示す図である。 本発明の一実施形態に係る発音誤り検出処理を示すフローチャートである。
以下、添付した図面を参照して、会議音声など任意の音声に対して音響モデルおよび言語モデルに基づく単語音声認識処理ならびに音響モデルに基づく音素音声認識処理を実行し、それぞれの結果を対応付けることにより発音誤りを検出することができる発音誤り検出装置および方法を詳細に説明する。
まず始めに、本システムの概要を説明する。図1は、本発明の一実施形態に係る発音誤り検出システムの構成を示す図である。図1において、例えば、データセンタなどに設置された音声認識サーバ100は、インターネット101を介して、ユーザ端末102a、・・・、102n(以下、まとめて「ユーザ端末102」という)と通信を行うように構成されている。図1では、音声認識サーバ100を単一のサーバコンピュータとして示しているが、複数台のサーバコンピュータによる構成も可能である。
ユーザ端末102は、例えば、会議システムとして各会議室に設置される、マイクが接続または内蔵されたコンピュータ端末である(デスクトップ端末であっても、モバイル端末であってもよい)。ユーザ端末102に対し、マイクを介して発話者の音声が入力される。また、ユーザ端末102は、入力音声データを音声認識サーバ100に送信する。さらに、ユーザ端末102は、発音誤り検出結果を音声認識サーバ100から受信し、および出力する。
音声認識サーバ100は、ユーザ端末102から送信された音声データを受信し、音声認識および発音誤り検出処理を実行する。また、音声認識サーバ100は、発音誤り検出結果をユーザ端末102に送信する。
なお、ユーザ端末102は必要なデータを音声認識サーバ100から受信、または自身の記憶部に記憶することにより、ユーザ端末102において音声認識および発音誤り検出処理を実行することもできる。
次に、音声認識サーバ100の構成を詳細に説明する。なお、図1では、単一のサーバコンピュータを想定し、必要な機能構成のみを示している。
音声認識サーバ100は、CPU110に、システムバス115を介してRAM111、入力装置112、出力装置113、通信制御装置114、および不揮発性記憶媒体(ROMやHDDなど)で構成される記憶装置116が接続された構成を有する。記憶装置116は、発音誤り検出システムの各機能を奏するためのソフトウェアプログラムを格納するプログラム格納領域と、当該ソフトウェアプログラムが取り扱うデータを格納するデータ格納領域とを備えている。以下に説明するプログラム格納領域の各手段は、実際は独立したソフトウェアプログラム、そのルーチンやコンポーネントなどであり、CPU110によって記憶装置116から呼び出された後、RAM111のワークエリアに展開され、かつデータベースなどを適宜参照しながら順次実行されることで、各機能を奏するものである。
記憶装置116におけるプログラム格納領域に格納されているソフトウェアプログラムは、本発明に関連するもののみを列挙すると、単語音声認識手段120、音素音声認識手段121、単語音素認識結果対応付け手段122、高スコア単語抽出手段123、および音素誤り傾向検出手段124を備えている。これらの手段は、CPU110によって実行される。
単語音声認識手段120は、ユーザ端末102から受信した音声データに対し音響モデルおよび言語モデルに基づく単語音声認識処理を実行し、認識結果を単語認識結果データ記憶部131に格納する。
音素音声認識手段121は、ユーザ端末102から受信した音声データに対し音響モデルに基づく音素音声認識処理を実行し、認識結果を音素認識結果データ記憶部132に格納する。
単語音素認識結果対応付け手段122は、単語認識結果データ記憶部131に格納された単語認識結果データにおける各単語と、音素認識結果データ記憶部132に格納された音素認識結果データとを対応付ける。
高スコア単語抽出手段123は、単語音素認識結果対応付け手段122によって音素認識結果データと対応付けられた各単語のうち、閾値以上の認識信頼度を持つ高スコア単語を抽出し、抽出した高スコア単語の音素認識結果と共に高スコア単語を、高スコア単語データ記憶部133に格納する。
音素誤り傾向検出手段124は、高スコア単語抽出手段123によって抽出された高スコア単語に対応付けられた音素の正誤判定をし、誤って認識されたものと判断した数を音素ごとにカウントし、音素誤り傾向データ記憶部134に格納する。
次に、記憶装置116におけるデータ格納領域は、本発明に関連するもののみを列挙すると、単語認識結果データ記憶部131、音素認識結果データ記憶部132、高スコア単語データ記憶部133、および音素誤り傾向データ記憶部134を備えている。いずれも、記憶装置116内に確保された一定の記憶領域である。
単語認識結果データ記憶部131は、入力音声に対する音響モデルおよび言語モデルに基づく単語音声認識の結果データを格納する。図2は、本発明の一実施形態に係る単語認識結果データ記憶部131に格納されたデータを示す図である。図2における単語認識結果データは、入力音声において何番目に現れる単語かを示す「単語インデックス」、認識された単語を示す「単語」、および認識された単語の認識信頼度を示す「スコア」を含む。認識信頼度については後述するが、認識信頼度が高いほど、認識された単語が、発話者が意図した単語(正解単語)である可能性が高くなる。
音素認識結果データ記憶部132は、入力音声に対する音響モデルに基づく音素音声認識の結果データを格納する。図3は、本発明の一実施形態に係る音素認識結果データ記憶部133に格納されたデータを示す図である。図3における音素認識結果データは、入力音声において何番目に現れる音素かを示す「音素インデックス」、および認識された音素を示す「音素」を含む。なお、図3における「音素」は日本語を想定して示されているが、認識対象の音声が英語の場合は、発音記号などであってもよい。
高スコア単語データ記憶部133は、閾値以上の認識信頼度を持つ高スコア単語に係るデータを格納する。図4は、本発明の一実施形態に係る高スコア単語データ記憶部133に格納されたデータを示す図である。図4における高スコア単語データは、入力音声において何番目に現れる高スコア単語かを示す「単語インデックス」、認識された高スコア単語を示す「単語」、認識された高スコア単語の読み列を示す「単語読み列」、認識された高スコア単語に対応付けられた音素を示す「音素認識結果」、および認識された高スコア単語の認識スコアを示す「スコア」を含む。
音素誤り傾向データ記憶部134は、高スコア単語に対応付けられた音素のうち、誤って認識されたものと判断した音素の数に係るデータを格納する。図5は、本発明の一実施形態に係る音素誤り傾向データ記憶部134に格納されたデータを示す図である。図5における発生記録結果データは、認識された音素を示す「音素」、認識された音素の誤り数を示す「音素誤り数」を含む。なお、図5は誤りを検出した音素のみを示している。また、図5における「音素」は本来認識されるべき正しい音素を示すものであり、「音素誤り数」は誤って認識されたものと判断した音素の数である。図5の例では、音素「ta」の音素誤り数が20個であり、これは、本来認識されるべき正しい音素は“ta”(タ)であったが、“te”(テ)や“ca”(チャ)などと誤って認識されたと判断した音素の数である。また、音素組み合わせ「i/ta」や「e/ta」は、さらに音素の組み合わせによる誤り傾向を示すものであり、「i」の後に「ta」が来る場合に14個の誤りが、「e」の後に「ta」が来る場合に3個の誤りが検出されたことを示している。
次に、本発明の発音誤り検出処理について流れに沿って説明する。図6は、本発明の一実施形態に係る発音誤り検出処理を示すフローチャートである。まず、ステップ101にて、単語音声認識手段120は、ユーザ端末102から受信した音声データに対し音響モデルおよび言語モデルに基づく単語音声認識処理を実行し、認識した単語列と、認識信頼度とを出力する。出力した単語列および認識信頼度は、単語認識結果データ(図2)として単語認識結果データ記憶部131に格納される。図2の単語認識結果データは、音声データ「明日は晴れです」の単語認識結果を示すものである。図2は、当該音声データに対して単語音声認識手段120が「明日」、「は」、「まれ」、「です」という4つの単語を認識したことを示す。それぞれの認識信頼度は「0.8」、「0.8」、「0.4」、「0.9」であり、認識信頼度が高いほど認識された単語が正解である可能性が高いと判断したものである。
一般に、音声認識では、入力音声に対する音響モデルおよび言語モデルの尤度が一番高い単語列を認識結果として出力することになるが、発音の仕方や語順などの理由により、尤度が同程度の対立候補が現れる場合がある。上述した認識信頼度は、このような音声認識を行ったときに認識結果として出力された単語について、どれだけ上記対立候補があるかを指標にその単語の正解らしさを表す指標であり、この信頼度が高ければ(閾値以上の場合)その出力は正解である可能性が高く、低ければ(閾値未満の場合)その出力は正解である可能性が低くなることが知られている(例えば、特許第554655号の明細書段落0034−0036等を参照)。より具体的には、認識信頼度は、一実施形態において、音響スコアと言語スコアに基づいて算出される。音響スコアは、音声の周波数パターンから音素ごとに前後の音素の発生確率を判断し、一般的に約−10,000〜−1,000,000の数値範囲で出力される。言語スコアは、単語同士の繋がりから単語ごとの発生確率を判断し、一般的に約1,000〜100,000の数値範囲で出力される。本実施形態では、各単語の認識信頼度は、対立候補である単語間の認識スコアの比率により算出される。認識スコアとは、音響スコアと言語スコアの加算値である。例えば、「明日」、「芦屋」、「アキバ」という3つの単語が対立候補の関係であったとする。それぞれの認識スコアが、「明日」は、−120,000(音響スコア)+70,000(言語スコア)=−50,000(認識スコア)、「芦屋」は、−80,000(音響スコア)+70,000(言語スコア)=−10,000(認識スコア)、および「アキバ」は、−72,500(音響スコア)+70,000(言語スコア)=−2,500(認識スコア)であったとする。各単語の認識信頼度は、次の式(1)によって算出することができる。
対象単語の認識スコア/(対象単語の認識スコア+対立候補単語1の認識スコア+対立候補単語2の認識スコア+対立候補3の・・・) ・・・式(1)
式(1)に、上記例を当てはめると、「明日」を対象単語とした場合、−50,000/(−50,000+−10,000+−2,500)となり、単語「明日」の認識信頼度は、「0.8」となる。同様に、単語「芦屋」および「アキバ」の認識信頼度は、「0.16」、「0.04」となる。すなわち、単語「明日」が最も認識信頼度が高くなり、正解である可能性が最も高い単語として判断される。
次に、ステップ102にて、音素音声認識手段121は、ユーザ端末102から受信した音声データに対し音響モデルに基づく音素音声認識処理を実行し、認識した音素列を出力する。出力した音素列は、音素認識結果データ(図3)として音素認識結果データ記憶部132に格納される。図3の音素認識結果データは、ステップ101同様、音声データ「明日は晴れです」の音素認識結果を示すものである。図3は、当該音声データに対して音素音声認識手段121が「a」、「sh」、「i」、「te」、「wa」、「ma」、「re」、「de」、「su」という9つの音素を認識したことを示す。
なお、ステップ101および102の実行は必ずしも図6の流れ順である必要はなく、逆であっても並列であってもよい。
ステップ101および102を実行した後、単語音素認識結果対応付け手段122は、ステップ101で出力した単語認識結果データと、ステップ102で出力した音素認識結果データとの対応付けを行なう(ステップ103)。当該対応付けは、単語認識結果である「明日/は/まれ/です」を読み列「a/sh/i/ta」、「wa」、「ma/re」、「de/su」に変換し、例えば、DP(dynamic programming/動的計画法)マッチングなどを使用して、各単語と音素認識結果を対応付ける。当該対応付けにより、単語認識結果データ(図2)と音素認識結果データ(図3)は、「明日」と「a/sh/i/te」、「は」と「wa」、「まれ」と「ma/re」、「です」と「de/su」のそれぞれを対応付けることができる。
次に、ステップ103にて音素認識結果データと対応付けられた各単語のうち、閾値以上の認識信頼度を持つ高スコア単語と高スコア単語に対応付けられた音素認識結果を抽出する(ステップ104)。抽出した高スコア単語は、対応付けられた音素認識結果と共に高スコア単語データ記憶部133に格納される。図4に示す高スコア単語データの例では、閾値0.8以上の認識信頼度を持つ高スコア単語が抽出されたことを示している。なお、当該閾値を設定する理由は、認識信頼度が高いほど認識された単語が正解単語である可能性が高く、正解単語と判断した単語の中から発音誤りを検出するためである。また、発音誤りを検出する単語をどの程度の範囲で行なうかについて、閾値の値を調整することもできる。
次に、音素誤り傾向検出手段124は、高スコア単語データ(図4)における高スコア単語に対応付けられた音素の正誤判定をし、誤って認識されたものと判断した音素の数(音素誤り数)をカウントすることにより発音誤りを検出する(ステップ105)。具体的には、図4において、単語「明日」の単語読み列「a/shi/ta」と音素認識結果「a/shi/te」とを比較すると、「ta」と「te」とが一致していないのがわかる。これは、本来「ta」と認識されるところを「te」と認識されてしまったと判断することができる。すなわち、発話者の「ta」の発音は誤った発音(もしくは誤り易い傾向にある発音)と判断することができる。音素誤り傾向検出手段124は、音素誤り数をカウントし、音素誤り傾向データ(図5)として音素誤り傾向データ記憶部134に格納する。図5の例では音素「ta」の音素誤り数が20個となっており、本来認識されるべき正しい音素は“ta”(タ)であったが、会議中の発話者による発言(音声)データの中に、“te”(テ)や“ca”(チャ)などと誤って認識された(すなわち正しく発音されていない)と判断した音素の数が20個あったことを示している。
ステップ105の後、本処理は終了するが、その後、検出した発音誤りを発話者などに提示することもできる。例えば、音声認識サーバ100は、単に図5の音素誤り傾向データを、発話者が利用するユーザ端末102に送信し、ユーザ端末102によって画面表示させることができる。また、別の実施形態では、いずれの単語の音素“ta”(タ)が“te”(テ)と認識され、別の単語の音素“ta”(タ)が“ca”(チャ)と認識されたなどと、より具体的に示すこともできる。具体的な表示とは、“「明日(a/sh/i/ta)は晴れです」の「明日」の発音「ta(タ)」は「te(テ)」と認識されています”などである。
また、別の実施形態では、例えば、音素誤り傾向検出手段124は、誤って認識されたものと判断した音素に該当する読み列の前後の音素を含めてカウントすることでより細かな音素誤り傾向を検出することができる。例えば、本来「ta」と認識されるところを別音素と認識されてしまった音素が20個あったとする。さらにその音素に該当する読み列の音素の前後の音素を含めて音素誤りとしてカウントすると、図5に示すように、音素誤り数が、音素の組み合わせ「i/ta」の場合に14個、「e/ta」の場合に3個、・・・と、より細かい音素誤り傾向を検出することができる。
さらに別の実施形態では、以下のような発音誤りパターンを定義して、音素誤り傾向検出手段124によってパターンごとの音素誤り数をカウントすることで、より具体的な音素誤り傾向を検出することができる。発音誤りのパターンの例として、(1)単語読み列と認識された音素とが置換関係にあり、前後の音素が正しく、その音素のみ誤っているパターン(例えば、「ta」と「te」)、(2)単語読み列には「ta」が存在するが認識された音素では「ta」が存在しないパターン、および(3)単語読み列では「ta」であるが認識された音素では「ta/u」と音素が増えているパターンなどが想定される。
さらに発音誤りパターンごとの音素誤り数をカウントする際も、音素誤り傾向検出手段124によって前後の音素に係る読み列と認識結果をさらに比較することにより、より細かな音素誤り傾向を検出することができる。例えば、発音誤りパターン(3)のように音素「u」が抜けてしまう場合、さらにその前後の音素に係る読み列と認識結果を比較し、「ma/u」より「ta/u」の場合に「u」が抜けて発音されてしまう傾向にある、などと発話者に対して提示することができる。
発話者に対して発音の誤り傾向を提示する際も幾つかの実施形態が考えられる。例えば、ある実施形態では、音素誤り傾向データ(図5)の「音素誤り数」を発話者に対してそのまま提示するのでは誤った音素が多い場合は特に、発話者はどの音素がより誤り易く、注意すべきなのか判断しづらい。そのため、「音素誤り数」を降順ソートしてランキング形式で提示することにより、より誤り易い音素を優先的に発話者に対して提示することができる。
発音誤り傾向の提示に関する別の実施形態では、音素誤り数を閾値により任意の段階に分類し、発話者に対し提示することができる。例えば、誤り易さ「大」:誤り数≧20個、「中」:10個≦誤り数<20個、「小」:誤り数<10と、誤り易い各音素を分類し、発話者に提示することができる。
さらに発音誤り傾向の提示に関する別の実施形態では、発話者に対して誤り易い単語を提示することができる。発話者に対して誤り易い音素のみを提示するのでは、発話者は具体的にどの単語を発音する際に注意すべきか判断しづらい。そのため、誤り易い音素を含む単語の数をカウントし、誤り易い単語とその数を発話者に対して提示することができる。
さらに発音誤り傾向の提示に関する別の実施形態では、発話者が発話した単語のみならず、発話者がまだ発話したことのない単語についても、誤る可能性が高い単語として発話者に提示することができる。これは、単語とその単語の音素を記録した辞書を予め設定しておき、発話者が発話した単語から誤り易い音素を検出した際、当該辞書に対して誤り易い音素を検索キーとして、当該誤り易い音素を含む単語を取得する。取得した単語から発話者が発話した単語を除外したものを、発話者がまだ発話したことはないが発話者の誤り傾向から誤る可能性が高い単語として、発話者に対して提示することができる。
さらに発音誤り傾向の提示に関する別の実施形態では、発音誤りの改善状況を発話者に対し提示することができる。当該改善状況は、前回の誤り検出の際、誤り易い音素や単語として検出されたもの(以下、「前回誤り音素・単語」という)が、今回の誤り検出でどれだけ改善されたかを示すものである。例えば、前回誤り音素・単語の前回の出現回数および誤り回数の比率と、今回の出現回数および誤り回数の比率とを発話者に対し比較できるように提示する。これにより、発話者は、前回80%の比率で発音が誤っていた単語が、今回は20%に改善された、などと判断することができる。
本発明は、発音が誤っている単語や文章を発話したとき、音響モデルに基づく音素音声認識結果では発音がそのまま結果として出力されるが、音響モデルおよび言語モデルに基づく単語音声認識結果では、言語モデルにより誤った発音が補正され、正しい単語が出力される可能性が高いことを利用して、この2つの音声認識を併用することで、誤っている発音を検出するものである。
ただし、音響モデルおよび言語モデルに基づく単語音声認識結果は、言語モデルによる補正があっても正しい単語が出力されない場合がある。そこで、言語モデルによる補正の結果、正しく認識された可能性の高い単語のみを正解単語として利用するため、認識信頼度を利用する。
以上より、会議音声など正解文のない任意の音声に対しても、どの発音が誤っているかを検出することができる。

Claims (5)

  1. 会議音声など任意の音声に対して音声認識処理を実行し、発音誤り検出を行なう装置であって、前記装置は、
    音声データに対して音響モデルおよび言語モデルに基づく単語音声認識処理を実行する手段と、
    前記音声データに対して音響モデルに基づく音素音声認識処理を実行する手段と、
    前記単語音声認識処理の実行結果と、前記音素音声認識処理の実行結果とを対応付ける手段であって、前記単語音声認識処理の実行結果は少なくとも認識された単語と前記認識された単語の認識信頼度を含み、前記音素音声認識処理の実行結果は少なくとも認識された音素を含む、手段と、
    予め定められた閾値以上の前記認識信頼度を持つ前記認識された単語(高スコア単語)と前記高スコア単語に対応付けられた前記音素音声認識処理の実行結果を抽出する手段と
    前記認識された単語の単語読み列と一致しない前記認識された音素に対応する前記単語読み列の前、後、もしくは両方のいずれか、または全ての音素を含む音素を誤り音素として抽出する手段と、
    前記誤り音素の数(音素誤り数)をカウントする手段と、
    前記カウントした音素誤り数、および前記誤り音素または前記誤り音素に係る単語を発音の誤り傾向データとして出力する手段と
    を備えたことを特徴とする装置。
  2. 前記単語読み列と前記認識された音素とが置換関係にあり、前後の音素は正しく、その音素のみが誤っている音素、前記単語読み列には存在するが前記認識された音素には存在しない音素、および前記単語読み列に対して前記認識された音素が増えている音素のうちの少なくとも1つを誤り音素として抽出する手段をさらに備えたことを特徴とする請求項1に記載の装置。
  3. 会議音声など任意の音声に対して音声認識処理を実行し、発音誤り検出を行なう方法であって、前記方法は、
    音声データに対して音響モデルおよび言語モデルに基づく単語音声認識処理を実行するステップと、
    前記音声データに対して音響モデルに基づく音素音声認識処理を実行するステップと、
    前記単語音声認識処理の実行結果と、前記音素音声認識処理の実行結果とを対応付けるステップであって、前記単語音声認識処理の実行結果は少なくとも認識された単語と前記認識された単語の認識信頼度を含み、前記音素音声認識処理の実行結果は少なくとも認識された音素を含む、ステップと、
    予め定められた閾値以上の前記認識信頼度を持つ前記認識された単語(高スコア単語)と前記高スコア単語に対応付けられた前記音素音声認識処理の実行結果を抽出するステップと
    前記認識された単語の単語読み列と一致しない前記認識された音素に対応する前記単語読み列の前、後、もしくは両方のいずれか、または全ての音素を含む音素を誤り音素として抽出するステップと、
    前記誤り音素の数(音素誤り数)をカウントするステップと、
    前記カウントした音素誤り数、および前記誤り音素または前記誤り音素に係る単語を発音の誤り傾向データとして出力するステップと
    を備えたことを特徴とする方法。
  4. 会議音声など任意の音声に対して音声認識処理を実行し、発音誤り検出を行なう方法をコンピュータに実行させるプログラムであって、前記プログラムは、前記コンピュータによって実行されると、前記コンピュータに、
    音声データに対して音響モデルおよび言語モデルに基づく単語音声認識処理を実行させ、
    前記音声データに対して音響モデルに基づく音素音声認識処理を実行させ、
    前記単語音声認識処理の実行結果と、前記音素音声認識処理の実行結果とを対応付けさせ、前記単語音声認識処理の実行結果は少なくとも認識された単語と前記認識された単語の認識信頼度を含み、前記音素音声認識処理の実行結果は少なくとも認識された音素を含み、
    予め定められた閾値以上の前記認識信頼度を持つ前記認識された単語(高スコア単語)と前記高スコア単語に対応付けられた前記音素音声認識処理の実行結果を抽出させ、
    前記認識された単語の単語読み列と一致しない前記認識された音素に対応する前記単語読み列の前、後、もしくは両方のいずれか、または全ての音素を含む音素を誤り音素として抽出させ、
    前記誤り音素の数(音素誤り数)をカウントさせ、
    前記カウントした音素誤り数、および前記誤り音素または前記誤り音素に係る単語を発音の誤り傾向データとして出力させる
    ことを特徴とするプログラム。
  5. 会議音声など任意の音声に対して音声認識処理を実行し、発音誤り検出を行なう方法をコンピュータに実行させるコンピュータ実行可能命令を記憶したコンピュータ可読記憶媒体であって、前記方法は、
    音声データに対して音響モデルおよび言語モデルに基づく単語音声認識処理を実行するステップと、
    前記音声データに対して音響モデルに基づく音素音声認識処理を実行するステップと、
    前記単語音声認識処理の実行結果と、前記音素音声認識処理の実行結果とを対応付けるステップであって、前記単語音声認識処理の実行結果は少なくとも認識された単語と前記認識された単語の認識信頼度を含み、前記音素音声認識処理の実行結果は少なくとも認識された音素を含む、ステップと、
    予め定められた閾値以上の前記認識信頼度を持つ前記認識された単語(高スコア単語)と前記高スコア単語に対応付けられた前記音素音声認識処理の実行結果を抽出するステップと
    前記認識された単語の単語読み列と一致しない前記認識された音素に対応する前記単語読み列の前、後、もしくは両方のいずれか、または全ての音素を含む音素を誤り音素として抽出するステップと、
    前記誤り音素の数(音素誤り数)をカウントするステップと、
    前記カウントした音素誤り数、および前記誤り音素または前記誤り音素に係る単語を発音の誤り傾向データとして出力するステップと
    を備えたことを特徴とするコンピュータ可読記憶媒体。
JP2015070328A 2015-03-30 2015-03-30 発音誤り検出装置、方法およびプログラム Active JP6527000B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015070328A JP6527000B2 (ja) 2015-03-30 2015-03-30 発音誤り検出装置、方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015070328A JP6527000B2 (ja) 2015-03-30 2015-03-30 発音誤り検出装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2016191739A JP2016191739A (ja) 2016-11-10
JP6527000B2 true JP6527000B2 (ja) 2019-06-05

Family

ID=57245521

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015070328A Active JP6527000B2 (ja) 2015-03-30 2015-03-30 発音誤り検出装置、方法およびプログラム

Country Status (1)

Country Link
JP (1) JP6527000B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6840858B2 (ja) * 2017-09-26 2021-03-10 日本電信電話株式会社 発音誤り検出装置、発音誤り検出方法、プログラム
CN117083669A (zh) * 2021-05-28 2023-11-17 微软技术许可有限责任公司 检测和改进单词实时误读的方法和系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11250078A (ja) * 1998-02-27 1999-09-17 Fujitsu Ten Ltd 音声認識機能付案内装置
JP2015049254A (ja) * 2013-08-29 2015-03-16 株式会社日立製作所 音声データ認識システム及び音声データ認識方法

Also Published As

Publication number Publication date
JP2016191739A (ja) 2016-11-10

Similar Documents

Publication Publication Date Title
CN107622054B (zh) 文本数据的纠错方法及装置
CN105632499B (zh) 用于优化语音识别结果的方法和装置
US6985863B2 (en) Speech recognition apparatus and method utilizing a language model prepared for expressions unique to spontaneous speech
JP4680714B2 (ja) 音声認識装置および音声認識方法
US20140019131A1 (en) Method of recognizing speech and electronic device thereof
CN109979484B (zh) 发音检错方法、装置、电子设备及存储介质
US9799350B2 (en) Apparatus and method for verifying utterance in speech recognition system
JP2011002656A (ja) 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム
US20120078630A1 (en) Utterance Verification and Pronunciation Scoring by Lattice Transduction
CN111951825A (zh) 一种发音测评方法、介质、装置和计算设备
KR102199246B1 (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
CN102439660A (zh) 基于置信度得分的语音标签方法和装置
US20150179169A1 (en) Speech Recognition By Post Processing Using Phonetic and Semantic Information
US11620992B2 (en) Automated speech recognition confidence classifier
CN112331229A (zh) 语音检测方法、装置、介质和计算设备
US20170270923A1 (en) Voice processing device and voice processing method
JP6527000B2 (ja) 発音誤り検出装置、方法およびプログラム
CN113053414A (zh) 一种发音评测方法及装置
US10553205B2 (en) Speech recognition device, speech recognition method, and computer program product
JP2000352993A (ja) 音声認識システム及びヒドン・マルコフ・モデルの学習方法
KR20120046627A (ko) 화자 적응 방법 및 장치
KR20200036419A (ko) 음성을 이용한 키워드 추출 방법 및 서버
JP2009031328A (ja) 音声認識装置
JP6325770B2 (ja) 音声認識誤り修正装置及びそのプログラム
KR102299269B1 (ko) 음성 및 스크립트를 정렬하여 음성 데이터베이스를 구축하는 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190416

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190509

R150 Certificate of patent or registration of utility model

Ref document number: 6527000

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250