JP2016191739A

JP2016191739A - 発音誤り検出装置、方法およびプログラム

Info

Publication number: JP2016191739A
Application number: JP2015070328A
Authority: JP
Inventors: 祥子山畠; Shoko Yamahata; 智彦原田; Tomohiko Harada; 洋和小間; Hirokazu Koma
Original assignee: NTT Data Corp
Current assignee: NTT Data Group Corp
Priority date: 2015-03-30
Filing date: 2015-03-30
Publication date: 2016-11-10
Anticipated expiration: 2035-03-30
Also published as: JP6527000B2

Abstract

【課題】従来の音声認識技術では、どの部分が誤って音声認識されたかを検出するためには、正解文と、認識結果のペアが必要であった。しかしながら、例えば、会議音声など任意の音声に対しては、正解文をあらかじめ用意することはできず、音声認識をしても、どの部分の発音が誤っているかを検出することはできない。
【解決手段】会議音声など任意の音声に対して音響モデルおよび言語モデルに基づく単語音声認識処理ならびに音響モデルに基づく音素音声認識処理を実行し、それぞれの結果を対応付けることにより発話者の発音誤りを検出する。
【選択図】図６

Description

本発明は、発音誤り検出装置および方法に関する。具体的には、会議音声など任意の音声に対して音響モデルおよび言語モデルに基づく単語音声認識処理ならびに音響モデルに基づく音素音声認識処理を実行し、それぞれの結果を対応付けることにより発話者の発音誤りを検出することができる発音誤り検出装置および方法に関する。

近年、音声認識技術は、ＴＶ会議システムの字幕や翻訳機能、コールセンターの自動応答機能、ロボット等に広く利用されている。このような広い利用用途に対しても、頑健に音声認識が可能であるような、音声認識技術の向上が望まれている。一方で、発話者が正しく音声を発音することで音声認識の精度を向上させる方法も考えられる。発音が誤っている場合、その傾向を発話者に提示して、発音を修正させることで、音声認識の精度は格段に向上する。

発話者の発音の誤りを検出するためには、一般的な音声認識技術を応用することが可能である。例として、予め、模範的な発音をする話者の音声データおよびその書き起こしテキストを蓄積し、この学習データから学習した模範的話者の音響モデル・言語モデルを含む音声認識技術を利用して、発音の誤りを検出する方法が知られている。発話者が、発音誤り検出システムが示した所定の文章や単語（正解文）を読むと、システムは模範的な発音をする話者から学習したモデルを用い、音声認識を実施する。音声認識の結果、模範音声と異なる発音をした部分は、誤って音声認識されるため、話者に提示した正解文と音声認識の結果とを比較して、誤った部分を抽出することで、発話者の苦手な発音を検出することができる。

従来の技術では、どの部分が誤って音声認識されたかを検出するためには、正解文と、認識結果のペアが必要であった。しかしながら、例えば、会議音声など任意の音声に対しては、正解文をあらかじめ用意することはできず、音声認識をしても、どの部分の発音が誤っているかを検出することはできない。そのため、会議音声など任意の音声に対して発音誤りを検出できる装置および方法が求められている。

本発明は、このような課題を解決するために、会議音声など任意の音声に対して音声認識処理を実行し、発音誤り検出を行なう装置であって、前記装置は、
音声データに対して音響モデルおよび言語モデルに基づく単語音声認識処理を実行する手段と、
前記音声データに対して音響モデルに基づく音素音声認識処理を実行する手段と、
前記単語音声認識処理の実行結果と、前記音素音声認識処理の実行結果とを対応付ける手段であって、前記単語音声認識処理の実行結果は少なくとも認識された単語と前記認識された単語の認識信頼度を含み、前記単語音声認識処理の実行結果は少なくとも認識された音素を含む、手段と、
予め定められた閾値以上の前記認識信頼度を持つ前記認識された単語（高スコア単語）と前記高スコア単語に対応付けられた前記音素音声認識処理の実行結果を抽出する手段とを備えたことを特徴とする。

また、前段落に記載の発明において、前記単語読み列と一致しない前記認識された誤り音素に対応する前記単語読み列の前、後、もしくは両方のいずれか、または全ての音素を含む音素を誤り音素として抽出する手段をさらに備えたことを特徴とする。

さらに、前２段落に記載の発明において、前記単語読み列と前記認識された音素とが置換関係にあり、前後の音素は正しく、その音素のみが誤っている音素、前記単語読み列には存在するが前記認識された音素には存在しない音素、および前記単語読み列に対して前記認識された音素が増えている音素のうちの少なくとも１つを誤り音素として抽出する手段をさらに備えたことを特徴とする。

そして、前２段落に記載の発明において、前記誤り音素の数（音素誤り数）をカウントする手段と、
前記カウントした音素誤り数、および前記誤り音素または前記誤り音素に係る単語を発音の誤り傾向データとして出力する手段と
をさらに備えたことを特徴とする。

以上説明したように、本発明により、会議音声など正解文のない任意の音声に対しても、どの発音が誤った発音であるかを検出することができる。

本発明の一実施形態に係る発音誤り検出システムの構成を示す図である。本発明の一実施形態に係る単語認識結果データ記憶部に格納されたデータを示す図である。本発明の一実施形態に係る音素認識結果データ記憶部に格納されたデータを示す図である。本発明の一実施形態に係る高スコア単語データ記憶部に格納されたデータを示す図である。本発明の一実施形態に係る音素誤り傾向データ記憶部に格納されたデータを示す図である。本発明の一実施形態に係る発音誤り検出処理を示すフローチャートである。

以下、添付した図面を参照して、会議音声など任意の音声に対して音響モデルおよび言語モデルに基づく単語音声認識処理ならびに音響モデルに基づく音素音声認識処理を実行し、それぞれの結果を対応付けることにより発音誤りを検出することができる発音誤り検出装置および方法を詳細に説明する。

まず始めに、本システムの概要を説明する。図１は、本発明の一実施形態に係る発音誤り検出システムの構成を示す図である。図１において、例えば、データセンタなどに設置された音声認識サーバ１００は、インターネット１０１を介して、ユーザ端末１０２ａ、・・・、１０２ｎ（以下、まとめて「ユーザ端末１０２」という）と通信を行うように構成されている。図１では、音声認識サーバ１００を単一のサーバコンピュータとして示しているが、複数台のサーバコンピュータによる構成も可能である。

ユーザ端末１０２は、例えば、会議システムとして各会議室に設置される、マイクが接続または内蔵されたコンピュータ端末である（デスクトップ端末であっても、モバイル端末であってもよい）。ユーザ端末１０２に対し、マイクを介して発話者の音声が入力される。また、ユーザ端末１０２は、入力音声データを音声認識サーバ１００に送信する。さらに、ユーザ端末１０２は、発音誤り検出結果を音声認識サーバ１００から受信し、および出力する。

音声認識サーバ１００は、ユーザ端末１０２から送信された音声データを受信し、音声認識および発音誤り検出処理を実行する。また、音声認識サーバ１００は、発音誤り検出結果をユーザ端末１０２に送信する。

なお、ユーザ端末１０２は必要なデータを音声認識サーバ１００から受信、または自身の記憶部に記憶することにより、ユーザ端末１０２において音声認識および発音誤り検出処理を実行することもできる。

次に、音声認識サーバ１００の構成を詳細に説明する。なお、図１では、単一のサーバコンピュータを想定し、必要な機能構成のみを示している。

音声認識サーバ１００は、ＣＰＵ１１０に、システムバス１１５を介してＲＡＭ１１１、入力装置１１２、出力装置１１３、通信制御装置１１４、および不揮発性記憶媒体（ＲＯＭやＨＤＤなど）で構成される記憶装置１１６が接続された構成を有する。記憶装置１１６は、発音誤り検出システムの各機能を奏するためのソフトウェアプログラムを格納するプログラム格納領域と、当該ソフトウェアプログラムが取り扱うデータを格納するデータ格納領域とを備えている。以下に説明するプログラム格納領域の各手段は、実際は独立したソフトウェアプログラム、そのルーチンやコンポーネントなどであり、ＣＰＵ１１０によって記憶装置１１６から呼び出された後、ＲＡＭ１１１のワークエリアに展開され、かつデータベースなどを適宜参照しながら順次実行されることで、各機能を奏するものである。

記憶装置１１６におけるプログラム格納領域に格納されているソフトウェアプログラムは、本発明に関連するもののみを列挙すると、単語音声認識手段１２０、音素音声認識手段１２１、単語音素認識結果対応付け手段１２２、高スコア単語抽出手段１２３、および音素誤り傾向検出手段１２４を備えている。これらの手段は、ＣＰＵ１１０によって実行される。

単語音声認識手段１２０は、ユーザ端末１０２から受信した音声データに対し音響モデルおよび言語モデルに基づく単語音声認識処理を実行し、認識結果を単語認識結果データ記憶部１３１に格納する。

音素音声認識手段１２１は、ユーザ端末１０２から受信した音声データに対し音響モデルに基づく音素音声認識処理を実行し、認識結果を音素認識結果データ記憶部１３２に格納する。

単語音素認識結果対応付け手段１２２は、単語認識結果データ記憶部１３１に格納された単語認識結果データにおける各単語と、音素認識結果データ記憶部１３２に格納された音素認識結果データとを対応付ける。

高スコア単語抽出手段１２３は、単語音素認識結果対応付け手段１２２によって音素認識結果データと対応付けられた各単語のうち、閾値以上の認識信頼度を持つ高スコア単語を抽出し、抽出した高スコア単語の音素認識結果と共に高スコア単語を、高スコア単語データ記憶部１３３に格納する。

音素誤り傾向検出手段１２４は、高スコア単語抽出手段１２３によって抽出された高スコア単語に対応付けられた音素の正誤判定をし、誤って認識されたものと判断した数を音素ごとにカウントし、音素誤り傾向データ記憶部１３４に格納する。

次に、記憶装置１１６におけるデータ格納領域は、本発明に関連するもののみを列挙すると、単語認識結果データ記憶部１３１、音素認識結果データ記憶部１３２、高スコア単語データ記憶部１３３、および音素誤り傾向データ記憶部１３４を備えている。いずれも、記憶装置１１６内に確保された一定の記憶領域である。

単語認識結果データ記憶部１３１は、入力音声に対する音響モデルおよび言語モデルに基づく単語音声認識の結果データを格納する。図２は、本発明の一実施形態に係る単語認識結果データ記憶部１３１に格納されたデータを示す図である。図２における単語認識結果データは、入力音声において何番目に現れる単語かを示す「単語インデックス」、認識された単語を示す「単語」、および認識された単語の認識信頼度を示す「スコア」を含む。認識信頼度については後述するが、認識信頼度が高いほど、認識された単語が、発話者が意図した単語（正解単語）である可能性が高くなる。

音素認識結果データ記憶部１３２は、入力音声に対する音響モデルに基づく音素音声認識の結果データを格納する。図３は、本発明の一実施形態に係る音素認識結果データ記憶部１３３に格納されたデータを示す図である。図３における音素認識結果データは、入力音声において何番目に現れる音素かを示す「音素インデックス」、および認識された音素を示す「音素」を含む。なお、図３における「音素」は日本語を想定して示されているが、認識対象の音声が英語の場合は、発音記号などであってもよい。

高スコア単語データ記憶部１３３は、閾値以上の認識信頼度を持つ高スコア単語に係るデータを格納する。図４は、本発明の一実施形態に係る高スコア単語データ記憶部１３３に格納されたデータを示す図である。図４における高スコア単語データは、入力音声において何番目に現れる高スコア単語かを示す「単語インデックス」、認識された高スコア単語を示す「単語」、認識された高スコア単語の読み列を示す「単語読み列」、認識された高スコア単語に対応付けられた音素を示す「音素認識結果」、および認識された高スコア単語の認識スコアを示す「スコア」を含む。

音素誤り傾向データ記憶部１３４は、高スコア単語に対応付けられた音素のうち、誤って認識されたものと判断した音素の数に係るデータを格納する。図５は、本発明の一実施形態に係る音素誤り傾向データ記憶部１３４に格納されたデータを示す図である。図５における発生記録結果データは、認識された音素を示す「音素」、認識された音素の誤り数を示す「音素誤り数」を含む。なお、図５は誤りを検出した音素のみを示している。また、図５における「音素」は本来認識されるべき正しい音素を示すものであり、「音素誤り数」は誤って認識されたものと判断した音素の数である。図５の例では、音素「ta」の音素誤り数が２０個であり、これは、本来認識されるべき正しい音素は“ta”（タ）であったが、“te”（テ）や“ca”（チャ）などと誤って認識されたと判断した音素の数である。また、音素組み合わせ「i/ta」や「e/ta」は、さらに音素の組み合わせによる誤り傾向を示すものであり、「i」の後に「ta」が来る場合に１４個の誤りが、「e」の後に「ta」が来る場合に３個の誤りが検出されたことを示している。

次に、本発明の発音誤り検出処理について流れに沿って説明する。図６は、本発明の一実施形態に係る発音誤り検出処理を示すフローチャートである。まず、ステップ１０１にて、単語音声認識手段１２０は、ユーザ端末１０２から受信した音声データに対し音響モデルおよび言語モデルに基づく単語音声認識処理を実行し、認識した単語列と、認識信頼度とを出力する。出力した単語列および認識信頼度は、単語認識結果データ（図２）として単語認識結果データ記憶部１３１に格納される。図２の単語認識結果データは、音声データ「明日は晴れです」の単語認識結果を示すものである。図２は、当該音声データに対して単語音声認識手段１２０が「明日」、「は」、「まれ」、「です」という４つの単語を認識したことを示す。それぞれの認識信頼度は「０．８」、「０．８」、「０．４」、「０．９」であり、認識信頼度が高いほど認識された単語が正解である可能性が高いと判断したものである。

一般に、音声認識では、入力音声に対する音響モデルおよび言語モデルの尤度が一番高い単語列を認識結果として出力することになるが、発音の仕方や語順などの理由により、尤度が同程度の対立候補が現れる場合がある。上述した認識信頼度は、このような音声認識を行ったときに認識結果として出力された単語について、どれだけ上記対立候補があるかを指標にその単語の正解らしさを表す指標であり、この信頼度が高ければ（閾値以上の場合）その出力は正解である可能性が高く、低ければ（閾値未満の場合）その出力は正解である可能性が低くなることが知られている（例えば、特許第５５４６５５号の明細書段落００３４−００３６等を参照）。より具体的には、認識信頼度は、一実施形態において、音響スコアと言語スコアに基づいて算出される。音響スコアは、音声の周波数パターンから音素ごとに前後の音素の発生確率を判断し、一般的に約−１０，０００〜−１，０００，０００の数値範囲で出力される。言語スコアは、単語同士の繋がりから単語ごとの発生確率を判断し、一般的に約１，０００〜１００，０００の数値範囲で出力される。本実施形態では、各単語の認識信頼度は、対立候補である単語間の認識スコアの比率により算出される。認識スコアとは、音響スコアと言語スコアの加算値である。例えば、「明日」、「芦屋」、「アキバ」という３つの単語が対立候補の関係であったとする。それぞれの認識スコアが、「明日」は、−１２０，０００（音響スコア）＋７０，０００（言語スコア）＝−５０，０００（認識スコア）、「芦屋」は、−８０，０００（音響スコア）＋７０，０００（言語スコア）＝−１０，０００（認識スコア）、および「アキバ」は、−７２，５００（音響スコア）＋７０，０００（言語スコア）＝−２，５００（認識スコア）であったとする。各単語の認識信頼度は、次の式（１）によって算出することができる。
対象単語の認識スコア／（対象単語の認識スコア＋対立候補単語１の認識スコア＋対立候補単語２の認識スコア＋対立候補３の・・・）・・・式（１）
式（１）に、上記例を当てはめると、「明日」を対象単語とした場合、−５０，０００／（−５０，０００＋−１０，０００＋−２，５００）となり、単語「明日」の認識信頼度は、「０．８」となる。同様に、単語「芦屋」および「アキバ」の認識信頼度は、「０．１６」、「０．０４」となる。すなわち、単語「明日」が最も認識信頼度が高くなり、正解である可能性が最も高い単語として判断される。

次に、ステップ１０２にて、音素音声認識手段１２１は、ユーザ端末１０２から受信した音声データに対し音響モデルに基づく音素音声認識処理を実行し、認識した音素列を出力する。出力した音素列は、音素認識結果データ（図３）として音素認識結果データ記憶部１３２に格納される。図３の音素認識結果データは、ステップ１０１同様、音声データ「明日は晴れです」の音素認識結果を示すものである。図３は、当該音声データに対して音素音声認識手段１２１が「a」、「sh」、「i」、「te」、「wa」、「ma」、「re」、「de」、「su」という９つの音素を認識したことを示す。

なお、ステップ１０１および１０２の実行は必ずしも図６の流れ順である必要はなく、逆であっても並列であってもよい。

ステップ１０１および１０２を実行した後、単語音素認識結果対応付け手段１２２は、ステップ１０１で出力した単語認識結果データと、ステップ１０２で出力した音素認識結果データとの対応付けを行なう（ステップ１０３）。当該対応付けは、単語認識結果である「明日／は／まれ／です」を読み列「a/sh/i/ta」、「wa」、「ma/re」、「de/su」に変換し、例えば、ＤＰ（dynamic programming／動的計画法）マッチングなどを使用して、各単語と音素認識結果を対応付ける。当該対応付けにより、単語認識結果データ（図２）と音素認識結果データ（図３）は、「明日」と「a/sh/i/te」、「は」と「wa」、「まれ」と「ma/re」、「です」と「de/su」のそれぞれを対応付けることができる。

次に、ステップ１０３にて音素認識結果データと対応付けられた各単語のうち、閾値以上の認識信頼度を持つ高スコア単語と高スコア単語に対応付けられた音素認識結果を抽出する（ステップ１０４）。抽出した高スコア単語は、対応付けられた音素認識結果と共に高スコア単語データ記憶部１３３に格納される。図４に示す高スコア単語データの例では、閾値０．８以上の認識信頼度を持つ高スコア単語が抽出されたことを示している。なお、当該閾値を設定する理由は、認識信頼度が高いほど認識された単語が正解単語である可能性が高く、正解単語と判断した単語の中から発音誤りを検出するためである。また、発音誤りを検出する単語をどの程度の範囲で行なうかについて、閾値の値を調整することもできる。

次に、音素誤り傾向検出手段１２４は、高スコア単語データ（図４）における高スコア単語に対応付けられた音素の正誤判定をし、誤って認識されたものと判断した音素の数（音素誤り数）をカウントすることにより発音誤りを検出する（ステップ１０５）。具体的には、図４において、単語「明日」の単語読み列「a/shi/ta」と音素認識結果「a/shi/te」とを比較すると、「ta」と「te」とが一致していないのがわかる。これは、本来「ta」と認識されるところを「te」と認識されてしまったと判断することができる。すなわち、発話者の「ta」の発音は誤った発音（もしくは誤り易い傾向にある発音）と判断することができる。音素誤り傾向検出手段１２４は、音素誤り数をカウントし、音素誤り傾向データ（図５）として音素誤り傾向データ記憶部１３４に格納する。図５の例では音素「ta」の音素誤り数が２０個となっており、本来認識されるべき正しい音素は“ta”（タ）であったが、会議中の発話者による発言（音声）データの中に、“te”（テ）や“ca”（チャ）などと誤って認識された（すなわち正しく発音されていない）と判断した音素の数が２０個あったことを示している。

ステップ１０５の後、本処理は終了するが、その後、検出した発音誤りを発話者などに提示することもできる。例えば、音声認識サーバ１００は、単に図５の音素誤り傾向データを、発話者が利用するユーザ端末１０２に送信し、ユーザ端末１０２によって画面表示させることができる。また、別の実施形態では、いずれの単語の音素“ta”（タ）が“te”（テ）と認識され、別の単語の音素“ta”（タ）が“ca”（チャ）と認識されたなどと、より具体的に示すこともできる。具体的な表示とは、“「明日（a/sh/i/ta）は晴れです」の「明日」の発音「ta（タ）」は「te（テ）」と認識されています”などである。

また、別の実施形態では、例えば、音素誤り傾向検出手段１２４は、誤って認識されたものと判断した音素に該当する読み列の前後の音素を含めてカウントすることでより細かな音素誤り傾向を検出することができる。例えば、本来「ta」と認識されるところを別音素と認識されてしまった音素が２０個あったとする。さらにその音素に該当する読み列の音素の前後の音素を含めて音素誤りとしてカウントすると、図５に示すように、音素誤り数が、音素の組み合わせ「i/ta」の場合に１４個、「e/ta」の場合に３個、・・・と、より細かい音素誤り傾向を検出することができる。

さらに別の実施形態では、以下のような発音誤りパターンを定義して、音素誤り傾向検出手段１２４によってパターンごとの音素誤り数をカウントすることで、より具体的な音素誤り傾向を検出することができる。発音誤りのパターンの例として、（１）単語読み列と認識された音素とが置換関係にあり、前後の音素が正しく、その音素のみ誤っているパターン（例えば、「ta」と「te」）、（２）単語読み列には「ta」が存在するが認識された音素では「ta」が存在しないパターン、および（３）単語読み列では「ta」であるが認識された音素では「ta/u」と音素が増えているパターンなどが想定される。

さらに発音誤りパターンごとの音素誤り数をカウントする際も、音素誤り傾向検出手段１２４によって前後の音素に係る読み列と認識結果をさらに比較することにより、より細かな音素誤り傾向を検出することができる。例えば、発音誤りパターン（３）のように音素「u」が抜けてしまう場合、さらにその前後の音素に係る読み列と認識結果を比較し、「ma/u」より「ta/u」の場合に「u」が抜けて発音されてしまう傾向にある、などと発話者に対して提示することができる。

発話者に対して発音の誤り傾向を提示する際も幾つかの実施形態が考えられる。例えば、ある実施形態では、音素誤り傾向データ（図５）の「音素誤り数」を発話者に対してそのまま提示するのでは誤った音素が多い場合は特に、発話者はどの音素がより誤り易く、注意すべきなのか判断しづらい。そのため、「音素誤り数」を降順ソートしてランキング形式で提示することにより、より誤り易い音素を優先的に発話者に対して提示することができる。

発音誤り傾向の提示に関する別の実施形態では、音素誤り数を閾値により任意の段階に分類し、発話者に対し提示することができる。例えば、誤り易さ「大」：誤り数≧２０個、「中」：１０個≦誤り数＜２０個、「小」：誤り数＜１０と、誤り易い各音素を分類し、発話者に提示することができる。

さらに発音誤り傾向の提示に関する別の実施形態では、発話者に対して誤り易い単語を提示することができる。発話者に対して誤り易い音素のみを提示するのでは、発話者は具体的にどの単語を発音する際に注意すべきか判断しづらい。そのため、誤り易い音素を含む単語の数をカウントし、誤り易い単語とその数を発話者に対して提示することができる。

さらに発音誤り傾向の提示に関する別の実施形態では、発話者が発話した単語のみならず、発話者がまだ発話したことのない単語についても、誤る可能性が高い単語として発話者に提示することができる。これは、単語とその単語の音素を記録した辞書を予め設定しておき、発話者が発話した単語から誤り易い音素を検出した際、当該辞書に対して誤り易い音素を検索キーとして、当該誤り易い音素を含む単語を取得する。取得した単語から発話者が発話した単語を除外したものを、発話者がまだ発話したことはないが発話者の誤り傾向から誤る可能性が高い単語として、発話者に対して提示することができる。

さらに発音誤り傾向の提示に関する別の実施形態では、発音誤りの改善状況を発話者に対し提示することができる。当該改善状況は、前回の誤り検出の際、誤り易い音素や単語として検出されたもの（以下、「前回誤り音素・単語」という）が、今回の誤り検出でどれだけ改善されたかを示すものである。例えば、前回誤り音素・単語の前回の出現回数および誤り回数の比率と、今回の出現回数および誤り回数の比率とを発話者に対し比較できるように提示する。これにより、発話者は、前回８０％の比率で発音が誤っていた単語が、今回は２０％に改善された、などと判断することができる。

本発明は、発音が誤っている単語や文章を発話したとき、音響モデルに基づく音素音声認識結果では発音がそのまま結果として出力されるが、音響モデルおよび言語モデルに基づく単語音声認識結果では、言語モデルにより誤った発音が補正され、正しい単語が出力される可能性が高いことを利用して、この２つの音声認識を併用することで、誤っている発音を検出するものである。

ただし、音響モデルおよび言語モデルに基づく単語音声認識結果は、言語モデルによる補正があっても正しい単語が出力されない場合がある。そこで、言語モデルによる補正の結果、正しく認識された可能性の高い単語のみを正解単語として利用するため、認識信頼度を利用する。

以上より、会議音声など正解文のない任意の音声に対しても、どの発音が誤っているかを検出することができる。

Claims

会議音声など任意の音声に対して音声認識処理を実行し、発音誤り検出を行なう装置であって、前記装置は、
音声データに対して音響モデルおよび言語モデルに基づく単語音声認識処理を実行する手段と、
前記音声データに対して音響モデルに基づく音素音声認識処理を実行する手段と、
前記単語音声認識処理の実行結果と、前記音素音声認識処理の実行結果とを対応付ける手段であって、前記単語音声認識処理の実行結果は少なくとも認識された単語と前記認識された単語の認識信頼度を含み、前記単語音声認識処理の実行結果は少なくとも認識された音素を含む、手段と、
予め定められた閾値以上の前記認識信頼度を持つ前記認識された単語（高スコア単語）と前記高スコア単語に対応付けられた前記音素音声認識処理の実行結果を抽出する手段と
を備えたことを特徴とする装置。
前記単語読み列と一致しない前記認識された誤り音素に対応する前記単語読み列の前、後、もしくは両方のいずれか、または全ての音素を含む音素を誤り音素として抽出する手段をさらに備えたことを特徴とする請求項１に記載の装置。
前記単語読み列と前記認識された音素とが置換関係にあり、前後の音素は正しく、その音素のみが誤っている音素、前記単語読み列には存在するが前記認識された音素には存在しない音素、および前記単語読み列に対して前記認識された音素が増えている音素のうちの少なくとも１つを誤り音素として抽出する手段をさらに備えたことを特徴とする請求項１または２に記載の装置。
前記誤り音素の数（音素誤り数）をカウントする手段と、
前記カウントした音素誤り数、および前記誤り音素または前記誤り音素に係る単語を発音の誤り傾向データとして出力する手段と
をさらに備えたことを特徴とする請求項２または３に記載の装置。
会議音声など任意の音声に対して音声認識処理を実行し、発音誤り検出を行なう方法であって、前記方法は、
音声データに対して音響モデルおよび言語モデルに基づく単語音声認識処理を実行するステップと、
前記音声データに対して音響モデルに基づく音素音声認識処理を実行するステップと、
前記単語音声認識処理の実行結果と、前記音素音声認識処理の実行結果とを対応付けるステップであって、前記単語音声認識処理の実行結果は少なくとも認識された単語と前記認識された単語の認識信頼度を含み、前記単語音声認識処理の実行結果は少なくとも認識された音素を含む、ステップと、
予め定められた閾値以上の前記認識信頼度を持つ前記認識された単語（高スコア単語）と前記高スコア単語に対応付けられた前記音素音声認識処理の実行結果を抽出するステップと
を備えたことを特徴とする方法。
会議音声など任意の音声に対して音声認識処理を実行し、発音誤り検出を行なう方法をコンピュータに実行させるプログラムであって、前記プログラムは、前記コンピュータによって実行されると、前記コンピュータに、
音声データに対して音響モデルおよび言語モデルに基づく単語音声認識処理を実行させ、
前記音声データに対して音響モデルに基づく音素音声認識処理を実行させ、
前記単語音声認識処理の実行結果と、前記音素音声認識処理の実行結果とを対応付けさせ、前記単語音声認識処理の実行結果は少なくとも認識された単語と前記認識された単語の認識信頼度を含み、前記単語音声認識処理の実行結果は少なくとも認識された音素を含み、
予め定められた閾値以上の前記認識信頼度を持つ前記認識された単語（高スコア単語）と前記高スコア単語に対応付けられた前記音素音声認識処理の実行結果を抽出させる
ことを特徴とするプログラム。
会議音声など任意の音声に対して音声認識処理を実行し、発音誤り検出を行なう方法をコンピュータに実行させるコンピュータ実行可能命令を記憶したコンピュータ可読記憶媒体であって、前記方法は、
音声データに対して音響モデルおよび言語モデルに基づく単語音声認識処理を実行するステップと、
前記音声データに対して音響モデルに基づく音素音声認識処理を実行するステップと、
前記単語音声認識処理の実行結果と、前記音素音声認識処理の実行結果とを対応付けるステップであって、前記単語音声認識処理の実行結果は少なくとも認識された単語と前記認識された単語の認識信頼度を含み、前記単語音声認識処理の実行結果は少なくとも認識された音素を含む、ステップと、
予め定められた閾値以上の前記認識信頼度を持つ前記認識された単語（高スコア単語）と前記高スコア単語に対応付けられた前記音素音声認識処理の実行結果を抽出するステップと
を備えたことを特徴とするコンピュータ可読記憶媒体。