JP2015118354A - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法 Download PDF

Info

Publication number
JP2015118354A
JP2015118354A JP2013263627A JP2013263627A JP2015118354A JP 2015118354 A JP2015118354 A JP 2015118354A JP 2013263627 A JP2013263627 A JP 2013263627A JP 2013263627 A JP2013263627 A JP 2013263627A JP 2015118354 A JP2015118354 A JP 2015118354A
Authority
JP
Japan
Prior art keywords
speech recognition
candidate
recognition
language model
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013263627A
Other languages
English (en)
Inventor
知宏 成田
Tomohiro Narita
知宏 成田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2013263627A priority Critical patent/JP2015118354A/ja
Publication of JP2015118354A publication Critical patent/JP2015118354A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】 学習コーパスへの付帯情報を含むパタンの追加で生じる言語尤度の偏りに起因した認識性能の低下を抑制するために必要なメモリ量を削減した音声認識装置を得る。
【解決手段】 認識対象の単語に付して発話される認識対象の単語に関連した情報である付帯情報の表記の少なくとも一部と読みが音響的に類似する認識対象の単語に含まれた部分である対立候補の表記を記憶する付帯情報メモリ105と、対立候補の表記と組み合わされて認識対象の単語を構成するキーワードを記憶するキーワードメモリ107と、認識対象の単語に付帯情報を付した例文を学習コーパスに含んだ統計的言語モデルを用いて得られた複数の音声認識の結果候補の認識スコアをその音声認識の結果候補と付帯情報メモリに記憶された対立候補の表記とキーワードメモリに記憶されたキーワードに基づいて算出し、複数の音声認識の結果候補の順位付けを行う認識候補評価部104と、を備える。
【選択図】 図1

Description

この発明は、統計的言語モデルを用いる音声認識技術に関する。
音声認識装置において用いられる統計的言語モデルでは単語間の接続のしやすさが言語尤度と呼ばれる数値で表されている。言語尤度は学習コーパスから学習され、学習コーパス内に高頻度で出現する単語の組み合わせに対して高い数値の言語尤度が与えられる。
統計的言語モデルは学習した単語数に応じてサイズが増大するため、メモリ量などのリソースに制限のある機器では統計的言語モデルの大きさが問題となる。このような場合、例えば「美術館」という1つの単語を「美術」と「館」というより小さな単語に分割して学習することが行われる。また、さらにこのような単語の組み合わせで表現できない単語については、例えば「近代」を「き」「ん」「だ」「い」という4つの音節の連鎖で学習することが行われる。このようにして統計的言語モデルに学習された単語数を一定数に保ったまま大語彙の音声認識に対応する。
上述のような統計的言語モデルを用いる音声認識装置において認識結果の精度をあげる方式の提案がなされている。例えば特許文献1には、検索対象辞書に記憶された単語の表記から生成したキーワード辞書に音声認識の結果候補と一致するものがあるか否かを判定して、一致した場合には言語尤度を使用せず音響モデルに基づく音響尤度のみを使用するようにして音声認識の結果候補の評価順位を変更する音声検索装置が開示されている。
特開2009-145548号公報(図1)
音声認識に用いられる統計的言語モデル(以降、単に言語モデルとも称す)の学習コーパスに、認識対象の単語にその単語の付帯情報を付したパタンの例文を追加することが行われる。ここで付帯情報とは、認識対象の単語に付して発話される認識対象の単語に関連した情報である。例えば施設名を認識対象の単語とする音声認識で使用される言語モデルの学習コーパスでは、施設名の前にその施設が所在する都道府県名を付帯情報として付したパタンが追加される場合がある。このようにすることで、所在地を含んだ発話がなされた場合にも認識対象の施設名を正しく認識することが可能となり、使用者の利便性を高めることができる。
しかしながら、このように付帯情報を付したパタンの例文を学習コーパスに追加した場合、学習コーパスにおいて付帯情報の単語の出現頻度が高くなるため、言語モデルにおけるその付帯情報の単語の言語尤度が高くなるという問題がある。
前述の施設名の音声認識の場合で考えると、例えば「国会議事堂」の所在地は東京都なので施設名単独の「国会議事堂」に加えて「東京都の国会議事堂」「東京都にある国会議事堂」等のパタンが学習コーパスに追加される。東京都に存在する施設について同様のパタンの追加を行った場合、学習コーパスにおいて付帯情報である「東京都」の出現頻度が過度に高くなり、このため言語モデルにおいて「東京都」の言語尤度が高くなる。
このとき、例えば「東京駅」という発話がなされ、音響的に類似した「東京駅」と「東京都き」を音声認識の結果候補として得た場合に、「東京」よりも「東京都」の方が高い言語尤度を有するために「東京都き」に誤認識してしまうという現象が発生する。
このように認識対象の単語に付帯情報を付したパタンを学習コーパスに追加した場合には、付帯情報の単語の出現頻度が高くなることによりその単語と音響的に類似した単語を含む音声認識の結果候補が認識されにくくなるという問題がある。
上述の特許文献1に記載された音声検索装置の従来の音声認識では、キーワード辞書に正解の音声認識の結果候補と一致するものが無い場合には、その正解の候補の評価に言語尤度が用いられる。したがって、この音声検索装置において上述の問題を解決するためには認識対象の単語をすべてキーワード辞書に記憶する必要があり、キーワード辞書を記憶するメモリが大規模化してしまうという課題がある。
この発明は上述のような課題を解決するためになされたものであり、認識対象の単語に付帯情報を加えたパタンの例文が追加された学習コーパスから作成された統計的言語モデルを使用する場合に、付帯情報を含むパタンの追加によって生じる言語尤度の偏りに起因した認識性能の低下を抑制するために必要なメモリ量を削減した音声認識装置を得ることを目的とする。
この発明の音声認識装置は、認識対象の単語に付して発話されるその認識対象の単語に関連した情報である付帯情報の表記の少なくとも一部と読みが音響的に類似する認識対象の単語に含まれた部分である対立候補の表記を記憶する付帯情報メモリと、対立候補の表記と組み合わされて認識対象の単語を構成するキーワードを記憶するキーワードメモリと、認識対象の単語にその単語の付帯情報を付した例文を含んだ学習コーパスを基に作られた統計的言語モデルを用いて行われる音声信号の認識処理によって得られた複数の音声認識の結果候補が入力され、その入力された音声認識の結果候補と付帯情報メモリに記憶された対立候補の表記とキーワードメモリに記憶されたキーワードに基づいて認識スコアを算出し、算出した認識スコアに基づいて入力された複数の音声認識の結果候補の順位付けを行う認識候補評価部と、を備えるようにしたものである。
この発明の音声認識方法は、プロセッサとメモリを備えたハードウェアのプロセッサに入力された音声信号の音声認識をさせる音声認識方法であって、認識対象の単語に付して発話されるその認識対象の単語に関連した情報である付帯情報をその認識対象の単語に付した例文を含んだ学習コーパスを基に作られた統計的言語モデルを用いて行われる音声信号の認識処理によって得られた複数の音声認識の結果候補を受信するステップと、付帯情報の少なくとも一部と音響的に類似した読みの認識対象の単語に含まれた部分である対立候補と対立候補と組み合わされて認識対象の単語を構成するキーワードと受信した音声認識の結果候補とに基づいてその音声認識の結果候補の認識スコアを算出するステップと、算出した認識スコアを基に複数の音声認識の結果候補の順位づけをするステップと、を有するようにしたものである。
この発明によれば、上述のように構成したので、認識対象の単語に付帯情報を加えたパタンが追加された学習コーパスから作成された統計的言語モデルを使用する場合に、付帯情報を含むパタンの追加によって生じる言語尤度の偏りに起因した認識性能の低下を抑制するために必要なメモリ量を削減することができる。
この発明の実施の形態1の音声認識装置の構成を示すブロック図である。 この発明の実施の形態1の音声認識装置の付帯情報メモリの記憶例を説明するテーブルである。 この発明の実施の形態1の音声認識装置のキーワードメモリの記憶例を説明するテーブルである。 この発明の実施の形態1の音声認識装置の音声認識部の音声認識の結果候補の出力例を説明するテーブルである。 この発明の実施の形態1の音声認識装置の認識候補評価部のフローチャートである。 この発明の実施の形態1の音声認識装置の認識候補評価部の出力例を説明するテーブルである。 この発明の実施の形態2の音声認識装置の構成を示すブロック図である。 この発明の実施の形態2の言語モデル更新部のフローチャートである。 この発明の実施の形態2の音声認識装置の言語モデルの1グラム確率及びバックオフ係数の例を説明するテーブルである。 この発明の実施の形態2の言語モデル更新部の1グラム確率及びバックオフ係数を更新する処理のフローチャートである。 この発明の実施の形態2の言語モデルメモリの更新後の1グラム確率及びバックオフ係数の記憶例を説明するテーブルである。 この発明の実施の形態2の言語モデルメモリの2グラム確率の記憶例を説明するテーブルである。 この発明の実施の形態2の言語モデル更新部の2グラム確率を更新する処理のフローチャートである。 この発明の実施の形態2の言語モデルメモリの更新後の2グラム確率の記憶例を説明するテーブルである。 この発明の実施の形態3の音声認識装置の構成を示すブロック図である。 この発明の実施の形態3の音声データメモリの記憶例を説明するテーブルである。 この発明の実施の形態3の再発声判定部のフローチャートである。
以下、この発明の実施の形態を、図面を参照して説明する。なお、参照する図面において同一もしくは相当する部分には同一の符号を付している。
実施の形態1.
図1は、この発明の実施の形態1に係る音声認識装置の構成を示すブロック図である。この実施の形態の音声認識装置は、音声認識部101、音響モデルメモリ102、言語モデルメモリ103、認識候補評価部104、付帯情報メモリ105、キーワードメモリ106を備えている。
音声認識部101は発話音声の音声信号が入力され、入力された音声信号の認識処理を行い、認識処理結果を出力する。ここで音声信号とは発話音声をデジタル化した信号である。なお、音声認識部101は認識処理結果として、複数の音声認識の結果候補(この複数個の候補をNベスト候補とも称す)を出力する。
音響モデルメモリ102は音声認識部101が音声信号の認識処理において参照する音響モデルが格納されたメモリである。音響モデルは音声の特徴をモデル化したデータベースである。この実施の形態では一例としてHMM(Hidden Markov Model)の音響モデルが音響モデルメモリ102に格納されているものとする。また、音声の特徴は音声信号から抽出される例えばMFCC(Mel Frequency Cepstrum Coefficient)やΔMFCCなどの特徴量で表される。なお、この発明は特定の形式の音響モデルに限定されるものではなく、他の形式の音響モデルであっても良い。また、この発明は音声信号の特徴量を特定の特徴量に限定するものではない。
言語モデルメモリ103は認識対象の単語とその単語に付帯情報を付したパタンを例文に含んだ学習コーパスから作成された統計的言語モデルが格納されたメモリである。ここで付帯情報とは上述の通り、認識対象の単語に付して発話される認識対象の単語に関連した情報である。なお、この実施の形態では統計的言語モデルはNグラムモデルの言語モデルとする。また以降では、認識対象の単語を日本全国の施設名とし、付帯情報を認識対象の施設が所在する都道府県名として説明する。すなわち、この実施の形態の言語モデルは日本全国の施設名と付帯情報である都道府県名を前に付した施設名を学習コーパスとして作成されているものとする。なお、認識対象の単語を施設名とし、付帯情報を施設が所在する都道府県名とするのは一例であり、この発明はこの組み合わせに限定されるものではない。
またこの言語モデルでは、認識対象の施設名がより小さな単語に分割して表現できる場合には、その施設名は小さな単語に分割して学習されるものとする。例えば「美術館」は「美術」と「館」という単語に分割することができる。さらに、言語モデルに記憶される施設名に係る単語数に上限(例えば5000個程度)を設け、施設名の中で出現頻度の高い単語が記憶されるものとする。また、それ以外の言語モデルに記憶された単語で表現できない施設名に係る単語は音節の連鎖で学習されるものとする。例えば「近代」という単語が音節の連鎖で学習される場合、「き」「ん」「だ」「い」という音節の連鎖として学習される。
認識候補評価部104は、音声認識部101が出力したNベスト候補について、付帯情報メモリ105及びキーワードメモリ106の記憶内容を参照してNベスト候補のそれぞれの認識スコアを算出し、この認識スコアに従ってNベスト候補の順位づけをする。
付帯情報メモリ105は、付帯情報の対立候補の表記を示す付帯情報テーブルが格納されたメモリである。ここで対立候補とは、その読みが付帯情報の表記の一部(部分表記)もしくは全体の読みと音響的に類似する認識対象の単語の表記に含まれた部分である。なお以降では、付帯情報である都道府県名から「都」、「道」、「府」、「県」を除いたものを対立候補として説明する。例えば、付帯情報の表記である「東京都」に対し、施設名「東京タワー」における「東京」は対立候補の表記である。
ここで示す例では、付帯情報テーブルに付帯情報の表記と対応する対立候補の表記の組み合わせが登録されているものとする。この付帯情報の表記と対立候補の表記の組み合わせは、<対立候補の表記>+<キーワード>で構成される音声認識の結果候補が、<付帯情報の表記>+<音節の連鎖>で構成される音声認識の結果候補に対立する結果候補に該当することを示す。なお、ここでキーワードとはキーワードメモリに記憶されたキーワードである。付帯情報メモリ105に記憶された付帯情報テーブルの一例を図2に示す。この例のIndex=1のエントリは、「東京都」+<音節の連鎖>に対し、例えば「タワー」をキーワードとした場合の上述の「東京タワー」のような「東京」+<キーワード>が対立する音声認識の結果候補になり得ることを意味している。
キーワードメモリ106は付帯情報テーブルに登録された対立候補の表記と組み合わされて認識対象の単語を構成する単語(キーワード)の表記を示すキーワードテーブルを記憶する。この実施の形態では重要度の高いキーワードのみを記憶することとし、ここでは「駅」「城」「ホテル」等の施設名の属性を明示する単語を重要度の高いキーワードとする。なお、上記とは別の基準で重要度を判定するようにしても良い。例えば付帯情報メモリ105に記憶された対立候補の表記と共起する頻度で重要度を判定すること、あるいは音節数の長い単語に比べて相対的に言語的な影響を受け易い音節数の短い単語の重要度を高くすることなどが考えられる。また、認識対象が施設名でない場合など、その認識対象に対応した基準で重要度を判定して良い。また、キーワードテーブルには言語モデルに学習された形態で記載されるものとする。例えば「公園」が言語モデルに「こ」「う」「え」「ん」という音節の連鎖で学習されている場合には「こうえん」という表記で記載される。この実施の形態のキーワードメモリ106に記憶されたキーワードテーブルの例を図3に示す。
上述の音声認識部101、音響モデルメモリ102、言語モデルメモリ103、認識候補評価部104、付帯情報メモリ105、キーワードメモリ106はそれぞれ専用の回路により構成されるものとする。しかしながらこの発明の特徴はこれらの回路によってなされる処理の方法にある。また、当業者であればこれらの説明から他の回路構成、例えば汎用的なCPUなどで構成した制御回路とコンピュータプログラムとの組み合わせにより実現することは極めて容易なことである。また、音響モデルメモリ102等を着脱可能なデバイスを用いて構成することも可能であるし、あるいは音声認識部101と認識候補評価部104との間などを通信回線で接続し、地理的に離れた場所に配置して構成することも考えられる。
次にこの実施の形態の音声認識装置の動作を説明する。まず音声認識部101が音響モデルおよび言語モデルを参照して入力された音声信号の認識処理を行う。なお、音声認識部101が行う音声認識処理の方法に関しては例えば鹿野清宏、他編著「音声認識システム」(2001年5月発行)に記載されているような既存の方法を使用すれば良い。
音声認識部101が備える入力端子(図示せず)に音声信号が入力されると、音声認識部101は音響モデルメモリ102に記憶されている音響モデルと言語モデルメモリ103に記憶されている言語モデルとを用いて音声信号の認識処理を行い、認識スコアの大きい順に上位N個(Nは2以上の自然数)の、単語もしくは音節もしくは単語と音節の1つ以上の連鎖で構成される組み合わせを音声認識の結果候補(すなわちNベスト候補)としてその表記、音響尤度、言語尤度、および認識スコアを出力する。なお、ここでの認識スコアは音響尤度と言語尤度の和であるものとする。
一例として、入力された音声信号の内容が「東京駅」である場合の音声認識部101から出力されるNベスト候補の出力例を図4に示す。この時点では正解の候補の「東京駅」は、音響尤度は一番高いものの、言語尤度が「東京都き」のほうが高いため認識スコアは第2位となっている。このような現象は言語モデルの学習コーパスで「東京都」+(読みが「き」で始まる音節)に分解される施設名の例文の出現頻度が「東京」+「駅」の出現頻度よりも高いために発生する。
次に認識候補評価部104が、音声認識部101から出力されたNベスト候補の各候補について、付帯情報メモリ105に記憶された付帯情報テーブルとキーワードメモリ106に記憶されたキーワードを参照して認識スコアを再計算し、Nベスト候補の評価を行う。このとき、Nベスト候補の表記が付帯情報テーブルに記されている対立候補の表記とキーワードテーブルに記されているキーワードの表記の組合せになっている場合の認識スコアにおける言語尤度の影響度を、組み合わせになっていない場合の言語尤度の影響度よりも小さくして認識スコアの再計算を行う。図4に示したようにこの例では言語尤度が負の値をとっており、言語尤度の影響度を小さくすると認識スコアが高なる。図5は認識候補評価部104が行うNベスト候補の評価の処理の一例の詳細フローである。以下に図5を参照して認識候補評価部104の具体的な処理内容を説明する。
まず、処理中の候補の識別子を保持する変数mを1に初期化する(ST101)。なお、入力されたNベスト候補の順位をその候補を示す識別子とする。
次に全候補の認識スコアの再計算を完了したか判定する(ST102)。mがNベスト候補の数(Mと表記する)以下の場合にST103に進む。
次に、ST103の処理ではm番目の候補の表記が付帯情報テーブルに記されている対立候補の表記とキーワードテーブルに記されているキーワードの表記の組合せとなっているか否かを判定する。対立候補の表記とキーワードの表記の組合せになっている場合はST104に進む。
次にST104の処理では、m番目の候補について言語尤度に予め定められた重み係数を乗じて言語尤度の影響度を小さくして新しい認識スコアを計算する。ここでは以下の式(1)により更新することとする。これは重み係数が0である場合の例である。式(1)においてS’(m)はm番目の候補の新しい認識スコアを、Sa(m)はm番目の候補の音響尤度を表している。
Figure 2015118354
一方、ST103においてm番目の候補が対立候補の表記とキーワードの表記の組合せになっていないと判定した場合は、ST105に進む。ST105の処理では以下の式(2)で新しい認識スコアを計算する。式(2)においてSl(m)はm番目の候補の言語尤度を表している。wは新しい認識スコアにおける言語尤度の影響度を調整するための重み係数であり、この重み係数は新しい認識スコアにおける言語尤度の影響度がST104の処理の場合よりも大きくなるように調整して予め定められたものである。また、pは新しい認識スコアの値を調整する予め定められたペナルティ値(調整定数)である。ここではw=1.0、p=0.0とする。
なお、上述のST104の処理およびST105の処理におけるそれぞれの重み係数およびペナルティ値は動作の整合性が保たれるように実験的に定められたものとする。
Figure 2015118354
ST104もしくはST105の処理の後、次の候補を処理するためにnに1を加算してST102に戻る(ST106)。ST102の処理ではmがM以下である場合には前述の通りST103に進み、ST103以降の処理を実施する。また、mがMを越えた場合にはST107に進む。
ST107の処理では新しい認識スコアの大きい順にNベスト候補の並べ替えをしてNベスト候補の順位付けを行う。図6は図5に示した例についてST107の処理後のNベスト候補の順位と認識スコアを示している。図5の例では、「東京駅」は対立候補の表記である「東京」とキーワードである「駅」の組み合わせであるので、上述のST104の処理の対象となり、認識スコアが音響尤度と同じ値の130に更新されている。一方、「東京都き」は付帯情報の表記である「東京都」と音節「き」の組み合わせであり、対立候補の表記とキーワードの組み合わせではないので上述のST105の処理対象となり、式(2)に従って認識スコアは110に更新されている。この結果、ST107の処理で並べ替えが行われ、図6では「東京都き」の上位に「東京駅」が位置されている。なお、図6において1位の東京駅の言語尤度を0としているが、これは言語尤度が認識スコアに反映されなくなったことが分かり易く示すためにしたものであり、例えば括弧内に示すようにもともとの−30のままであってもよい。
上述のようにこの実施の形態の音声認識装置は、付帯情報テーブルを記憶する付帯情報メモリ103とキーワードテーブルを記憶するキーワードメモリ106と、入力された複数の音声認識の結果候補の評価を行う認識候補評価部104を備え、入力された音声信号に対する音響モデルと言語モデルを参照して行う音声信号の認識処理により得られた複数の音声認識の結果候補について、認識候補評価部104が付帯情報テーブルとキーワードテーブルを参照して認識スコアを算出して評価し、この評価に基づいてこれらの複数の候補の順位付けを行うように構成した。
認識対象の単語の個数に比べて、上述の都道府県名のように付帯情報の個数は限られたものであり、また、施設名の属性を明示する単語のようにキーワードの個数も限られたものであるので、付帯情報メモリおよびキーワードメモリが必要とするメモリサイズを抑制することができる。そして、言語モデルの学習コーパスに認識対象の単語の付帯情報を付したパタンを追加したことにより言語尤度に偏りが生じた場合にも、認識候補評価部104において音声認識の結果候補の順位付けを行うことにより、<付帯情報の表記>+<音節の連鎖>で構成される誤りの候補が正解の候補よりも尤度が高く評価される可能性を低減し、認識精度を向上することができる。
特に言語モデルが、学習コーパスから学習する単語数に上限があり、学習コーパスに現れる認識対象の単語の一部を単語として学習し、その他の認識対象の単語についてはその単語を構成する音節の連鎖を学習して作成されている場合には、<付帯情報の表記>+<音節の連鎖>で学習される学習コーパスの例文が増えるため、<付帯情報の表記>+<音節の連鎖>で構成される結果候補がNベスト候補に含まれる可能性が高くなることからこの発明が有効である。
また、さらに認識対象の単語がより小さな単語に分解されて学習されている場合には、上述の「東京駅」の例のように分解後の小さな単語が付帯情報の対立候補になる可能性が高く、この対立候補の表記を含む正解の代わりに<付帯情報の表記>+<音節の連鎖>で構成される候補に誤認識する可能性が高くなることからこの発明が有効である。
実施の形態2.
実施の形態1では音声認識部101の処理で得られたNベスト候補を認識候補評価部104で評価をする構成を取っているため、Nベスト候補に正解候補が入っていない場合は正しい認識結果を得ることができないという問題がある。この実施の形態では、音声認識部101の処理で用いる言語モデルを調整し、正解の候補がNベスト候補に残り易くすることで、正しい認識結果をより取得し易くすることを目的とする。
図7は、この発明の実施の形態2に係る音声認識装置の構成を示すブロック図である。図1に示した実施の形態1の音声認識装置と異なるのは言語モデル更新部107を設けた点と、言語モデル103bが記憶する言語モデルが言語モデル更新部107によって更新されるようになっている点である。なお、言語モデル更新部107は他のブロックと同様に専用の回路により構成されるものとする。また、言語モデル更新部107も他のブロックと同様に、例えば汎用的なCPUなどで構成した制御回路とコンピュータプログラムとの組み合わせにより実現することが可能である。
言語モデル更新部107は付帯情報メモリ105に記憶された付帯情報の表記に係る言語モデルの言語尤度を更新する。なお、ここでは言語モデルメモリに記憶された言語モデルは2グラムのNグラム言語モデルであるものとする。ただし、この発明は2グラム言語モデルに限定されるものではない。2グラムのNグラム言語モデルでは、単語(音節を含む)1グラムの確率(1グラム確率)とそのバックオフ係数、および単語(音節を含む)2グラムの確率(2グラム確率)が規定される。
この実施の形態の言語モデル更新部107が行う言語モデルの言語尤度の更新は、付帯情報テーブルに登録された付帯情報の表記の単語の1グラム確率とバックオフ係数の値にそれぞれ予め定められた重み係数を乗じるとともに予め定められた定数を加算する(1グラムの更新)ことと、付帯情報の単語の表記が連続する2つの単語の先行する単語となっている2グラムの2グラム確率の値に予め定められた重み係数を乗じ、さらに予め定められた定数を加算する(2グラムの更新)ことで行われる。なお、1グラム確率、バックオフ係数、2グラム確率の更新は独立に行なうことが可能である。またこの発明は言語モデルの更新を行うタイミングを特定のタイミングに限定するものではない。例えば、言語モデル全体が変更された場合であるとか、あるいは付帯情報メモリ、キーワードメモリが変更されたときなど種々のタイミングが考えられる。
次に動作を説明する。言語モデル更新部107が行う言語モデルを更新する処理以外は実施の形態1と同様であるので、言語モデル更新部107が行う言語モデルを更新する処理について説明する。図8は言語モデル更新部107が行う言語モデルを更新する処理のフローチャートである。ST200の処理で言語モデルの1グラムの更新を実施し、次にST300の処理で2グラムの更新を行う。以下、ST200とST300の各処理を詳細に説明する。
図9は言語モデルの1グラム確率及びバックオフ係数の格納例を示すテーブルである。このテーブルでIndexはこのテーブルの各エントリを識別するための番号であり、このテーブルの各エントリは単語とその1グラム確率とバックオフ係数を示す。ST200の処理では言語モデル更新部107は言語モデルを参照してこのIndexの順に更新処理を実施する。図10は図8に示した1グラムの更新の処理(ST200)の詳細なフローチャートである。以下、図10を参照して1グラムの更新の処理を説明する。なお、ここでは1グラム確率とバックオフ係数を一緒に更新するようにしているが、別々に実施するようにしても良い。
まず処理中のエントリを識別するためにそのエントリのIndexの値を保持する変数iを1に初期化する(ST201)
次に、iが図9に示したテーブルのエントリの総数(Iとする)を超えたか否かを判定する(ST202)。iがI以下の場合はST203に進む。
次に、i番目のエントリの単語の表記が付帯情報メモリ105の付帯情報テーブルに登録されている付帯情報の表記と一致するか否かを判定する(ST203)。そして、一致する場合はST204に進む。
ST204に進むとこの処理では、下記の式(3)、式(4)によって1グラム確率とバックオフ係数を更新する。式(3)、式(4)においてP1(i)、B(i)は更新前の1グラム確率とバックオフ係数をそれぞれ示し、P1’(i)、B’(i)は更新後の1グラム確率とバックオフ係数を示す。なお、w1、p1はそれぞれ1グラム確率とバックオフ係数に重み付けをするための重み係数、wb、pbはそれぞれ1グラム確率とバックオフ係数の値を調整するためのペナルティ値(調整定数)であり、いずれも予め定められた値を用いるものとする。ここでは、w1=0.001、wb=0.0、p1=0.0、pb=0.0とする。なお、wl、plを変更してP1’(i)の値が小さくなると1グラム確率から求める場合の言語尤度が低くなる。なお、これは2グラム確率においても同様である。また、wb、pbを変更してB’(i)が小さくなると、バックオフスムージングでバックオフ係数を用いて求める場合の言語尤度が低くなる。
Figure 2015118354
Figure 2015118354
ST203の処理において、i番目のエントリの単語の表記と付帯情報メモリ105の付帯情報テーブルに登録されている付帯情報の表記が一致しなかった場合にはST205に進む。ST205に進むと、下記の式(5)、式(6)によって1グラム確率とバックオフ係数を更新する。
Figure 2015118354
Figure 2015118354
ST204もしくはST205の処理を実行後、iに1を加算してST202に戻る(ST206)。ST202の処理ではiがI以下である場合には前述の通りST203に進み、ST203以降の処理を実施する。また、iがIを越えた場合には1グラムの更新の処理を終了する。
図11は、図10を用いて説明した処理により図9に示した言語モデルの1グラム確率及びバックオフ係数の例を更新した時の更新後の1グラム確率及びバックオフ係数を示している。なお、付帯情報メモリ105には図2に示した付帯情報テーブルが記憶されているものとする。このとき、言語モデルの「東京都」は付帯情報テーブルの付帯情報の表記に一致するものがあるためST204の処理が行われ、1グラム確率とバックオフ係数が変更されている。一方、「東京」はST205の処理が行われて更新され、更新前と同じ値になっている。この例ではw1=0.001、p1=0.0であるので「東京都」の1グラム確率が0.00001に引き下げられ、対立候補である「東京」と同じ値になっている。また、バックオフ係数は、wb=0.0、pb=0.0であることから0となり、「東京」よりも低い値に更新されている。
1グラム確率とバックオフ係数は値が小さいほどその単語を含む認識候補の言語尤度は低くなるので、「東京都」+<音節の連鎖>の言語尤度が低く算出されることとなり、結果として「東京」+<キーワード>で構成される認識候補がNベスト候補に残り易くなり、正しい認識結果をより取得し易くなる。
次にST300の2グラムの更新の処理を詳細に説明する。図12は言語モデルの2グラム確率の記憶例を示すテーブルである。このテーブルの各エントリには単語とその単語に後続する単語(音節を含む)の2単語の連鎖とその確率(2グラム確率)が記されている。ここで、2グラムにおいて先行する単語を先行単語、先行単語に後続する単語を後続単語と称することにする。図13はST300の2グラムの更新の処理の詳細を示すフローチャートである。以下、図13を参照して2グラムの更新の処理を説明する。
まず処理中のエントリを識別するためにそのエントリのIndexの値を保持する変数jを1に初期化する(ST301)
次に、jが図12に示したテーブルのエントリの総数(Jとする)を超えたか否かを判定する(ST302)。jがJ以下である場合はST303に進む。
j番目のエントリの2グラムの先行単語の表記が付帯情報メモリ105に記憶されている付帯情報テーブルの付帯情報の表記と一致するか否かを判定する(ST303)。そして、一致するものがあった場合はST304に進む。
ST304に進むと、この処理では以下の式(7)により2グラム確率を更新する。式(7)においP2’(j)はj番目のエントリの更新後の2グラム確率、P2(j)は更新前の2グラム確率を表している。また、w2は2グラム確率に重み付けをする重み係数、p2は2グラム確率の値を調整するためのペナルティ値(調整定数)であり、いずれも予め定められた値を用いるものとする。なお、ここではw2=0.01、p2=0.0とする。
Figure 2015118354
一方、ST303でj番目のエントリの2グラムの先行単語の表記と一致する付帯情報の表記が付帯情報テーブルに存在しなかった場合にはST305に進む。ST305の処理では以下の式(8)で2グラム確率を更新する。
Figure 2015118354
ST304もしくはST305の処理を実行した後は、jに1を加算してST302に戻る(ST306)。ST302の処理ではjがJ以下である場合には前述の通りST303に進み、ST303以降の処理を実施する。また、jがJを越えた場合には2グラムの更新の処理を終了する。
図14は、図13を用いて説明した処理により図12に示した言語モデル2グラム確率の例を更新した時の更新後の2グラム確率を示している。なお、付帯情報メモリ105には図2に示した付帯情報テーブルが記憶されているものとする。「東京都」を先行単語に持つ2グラムの2グラム確率は式(7)によって変更されている。また、「東京」を先行単語にもつ2グラムの2グラム確率は式(8)よって更新され更新前の値のままとなっている。この結果、「東京都」を先行単語に持つ2グラムは、対立候補である「東京」を先行単語に持つ2グラムよりも2グラム確率が小さくなっている。これにより、「東京都」+<音節の連鎖>の言語尤度が低く算出されるようになるため、「東京」+<キーワード>で構成される認識候補がNベスト候補に残り易くなり、正しい認識結果をより取得し易くなる。
上述のように言語モデル更新部107を備え、付帯情報メモリに記憶された付帯情報テーブルに基づいて、付帯情報の単語の表記を含む音声認識の結果候補の言語尤度が、対立候補の単語を含む音声認識の結果候補の言語尤度よりも低くなるように言語モデルを更新するようにしたので、Nベスト候補に正解の候補が含まれる可能性を高くすることができ、これにより実施の形態1に示したこの発明の音声認識装置よりも正しい認識結果を取得する可能性を高くすることができる。
実施の形態3.
実施の形態2では付帯情報テーブルの登録内容に基づいて単語1グラムの1グラム確率とバックオフ係数、および単語2グラムの2グラム確率の更新を行なった言語モデルを用いて音声認識処理を行うようにした。このように構成することで、<付帯情報の表記>+<音節の連鎖>の認識候補に対立する「東京」+「駅」等の認識語彙に対しては正しい認識結果を取得しやすくなる。一方、付帯情報の表記に対応する1グラム確率、バックオフ係数、2グラム確率を過度に低くしてしまうと、施設名の付帯情報である「東京都」を含む「東京都の〇〇ホテル」のような発話を認識しづらくなるという問題が発生する。
この実施の形態は利用者が同じ発話内容を再発声しているかを判定し、再発声していると判定した場合のみ、言語モデル更新部107による言語モデルの更新を行なうようにすることで、付帯情報を含む発話の認識性能を低下させることなく、付帯情報を含まない<対立候補の表記>+<キーワード>のような発話の認識誤りが繰り返されないようにすることを目的としている。
図14は、この発明の実施の形態3に係る音声認識装置の構成を示すブロック図である。図7に示した実施の形態2の音声認識装置と異なるのは再発声判定部108と音声データメモリ109を設けた点である。なお、再発声判定部108および音声データメモリ109は他のブロックと同様に専用の回路により構成されるものとする。また、他のブロックと同様に、例えば汎用的なCPUなどで構成した制御回路とコンピュータプログラムとの組み合わせにより実現することが可能である。
再発声判定部108は音声認識部101bに入力された音声信号が再発声された内容であるのか否かを判定し、言語モデル更新部107cが行う言語モデル更新処理を制御するブロックである。
また、音声データメモリ109は音声認識部101bに入力された音声信号の特徴量を発話毎に保存するメモリであり、再発声判定部108によって特徴量の読み書きが行われる。ここで音声信号の特徴量とは、音響モデルメモリ102に記憶された音響モデルを参照する際に音声認識部101bが入力された音声信号から抽出する特徴量であるものとする。
図16は音声データメモリ109に記憶された音声信号の特徴量の例を示すテーブルである。なお、入力された音声信号からの特徴量の抽出は予め定められた単位時間(例えば50ミリ秒)毎に行われるものとする。なお、この単位時間に区切られた音声信号を以降はフレームと称すこととする。図16においてVは個々の発話から抽出された音声信号の特徴量を表し、特徴量Vが時系列に沿ったフレームの特徴量vの集合であることを示している。例えば、1行目のVはv(0)からv(U)までのU+1個のフレームの特徴量の集合である(Uは1以上の自然数、U2も同じ)。なお各発話の長さは同じとは限らないので各発話のフレームの特徴量の個数は同じとは限らない(つまりU=U2とは限らない)。
次に動作を説明する。実施の形態2の音声認識装置との主な差分は再発声判定部108の動作であるので、再発声判定部108の動作を中心に説明する。再発声判定部108は音声認識部101bより入力された音声信号から抽出された特徴量(以降、音声認識部101bより再発声判定部108が受け取った特徴量をSと表記する)を受信して、入力された音声信号が再発声された内容であるか否かの判定処理を開始する。図17はこの判定処理の詳細なフローチャートである。以下、図17を参照して再発声判定部108の動作を説明する。
再発声判定部108は図16に例を示した各発話の音声信号の特徴量を順に入力された特徴量Sと比較する。このためにまず、現在処理中の音声データメモリの特徴量を示す変数kを1に初期化する(ST401)。
kが音声データメモリに記憶されている音声信号の特徴量の総数(Kとする)以下であるか否かを判定する(ST402)。kがK以下であったはST403に進む。
ST403に進むと、この処理では音声認識部101bから入力された特徴量Sと音声データメモリ109に記憶されている特徴量Vとの距離値Lを算出する。特徴量Sと特徴量Vはフレーム数が異なるが、このように長さの異なる時系列間の距離値を算出するアルゴリズムは様々なものが提案されている。ここでは、公知の技術であるDP(Dynamic Programming)法により距離値を算出することとする。DP法による距離値の算出は、以下の擬似的なプログラムコードで定義されるように式(9)で逐次的に計算を行っていき、最終的に得られるL(T,U)を最終的な距離値Lとするものである。ここでTは入力音声の特徴量Sのフレーム数、Uは特徴量Vのフレーム数である。また、D(t,u)は特徴量Sのtフレーム目と特徴量Vのuフレーム目の特徴量間の局所的な距離値(例えばベクトル間のユークリッド距離)である。Lが小さいほど入力音声の特徴量Sと特徴量Vの一致度が高いことになる。
Figure 2015118354
ST403で距離値Lを求めた次に、Lと予め定められたしきい値(Lthとする)の大小を判定する(ST404)。Lがしきい値Lthよりも大きい場合には場合はST405へ進み、そうでない場合はST406へ進む。なお、しきい値Lthを大きく設定すると再発声判定の正解率が向上するが、再発声でないときに再発声と判定される湧き出しの頻度が増加する傾向がある。一方、しきい値Lthを小さく設定すると、再発声判定の正解率が低下するが、再発声でないときに再発声と判定される湧き出しの頻度は減少する傾向がある。
ST405に進むとこの処理では再発声判定フラグ(Reflgとする)に1を代入する。一方、ST406に進んだ場合には、kに1を加算してST402に戻る。ST402では、kがK以下である場合にはST403以降の処理を継続し、kがKよりも大きい場合にはST407に進む。ST407に進むとこの処理では、再発声判定フラグReflgに0を代入する。
ST405もしくはST407の処理の後、ST408に進むとVk+1=V(k=K,…,k=1)となるように順に音声データメモリ109に記憶している特徴量のコピー処理を行う(ST408)。そしてST408の処理の後、音声データメモリ109のVにSをコピーする(ST409)。
以上が再発声判定部108の動作例である。再発声判定部108は再発声判定フラグReflgを言語モデル更新部107に対して出力する。言語モデル更新部107では再発声判定部108が出力する再発声判定フラグReflgが1の場合に、実施の形態2で示した言語モデルの更新処理を実施し、Reflgが0の場合には更新処理を実施しない。
上述のように実施の形態2の構成に加えて、入力された音声信号の特徴量を記憶する音声データメモリ109と、音声データメモリ109を参照して入力された音声信号の内容が再発声されたものであるか否かを判定する再発声判定部108を備え、利用者が音声認識装置の認識誤りにより同じ発話内容を再発声しているかどうかを判定し、再発声と判定した場合のみ言語モデルの付帯情報の単語に対応する1グラム確率とバックオフ係数、および2グラム確率の更新を行なうようにしたので、付帯情報を含む発話内容に対する認識性能を低下させることなく、付帯情報メモリ104に記憶された付帯情報の対立候補を含む発話がなされた場合に、言語モデルに学習された付帯情報の影響によりその対立候補を含む発話の認識誤りが繰り返されることを防止することができる。
なお、ここでは再発声判定部108の再発声判定の結果に応じて言語モデル更新部107bが言語モデルの更新を実施するようにしたが、さらにNベスト候補の中に付帯情報メモリ105に記憶された付帯情報の表記を含む候補があることを言語モデル更新部107bが言語モデルの更新を実施する条件に加えるようにしても良い。
上述の実施の形態1〜3では施設名を認識対象、施設の所在地である都道府県名を付帯情報として、説明を行なっているが、この発明はこの例に限定するものではないことは明らかである。例えば楽曲名を認識対象、その曲を歌っている歌手名を付帯情報とすることも可能である。この場合も施設名の例と同様に、<歌手名>+<楽曲名>というパタンを学習コーパスに追加した場合、大量に存在する歌手名の言語尤度が高くなり、その歌手名の部分表記または部分表記と一致する読みをもつ表記が存在する楽曲名が<歌手名>+<音節の連鎖>に誤認識し易くなる問題が生じる。本発明を適用することで、施設名の場合と同様にこの問題を解決することができる。
101,101b 音声認識部、102 音響モデルメモリ、103,103b 言語モデルメモリ、104 認識候補評価部、105 付帯情報メモリ、106 キーワードメモリ、107,107b 言語モデル更新部、108 再発声判定部、109 音声データメモリ

Claims (10)

  1. 認識対象の単語に付して発話されるその認識対象の単語に関連した情報である付帯情報の表記の少なくとも一部と読みが音響的に類似する前記認識対象の単語に含まれた部分である対立候補の表記を記憶する付帯情報メモリと、
    前記対立候補の表記と組み合わされて前記認識対象の単語を構成するキーワードを記憶するキーワードメモリと、
    前記認識対象の単語にその単語の前記付帯情報を付した例文を含んだ学習コーパスを基に作られた統計的言語モデルを用いて行われる音声信号の認識処理によって得られた複数の音声認識の結果候補が入力され、その入力された音声認識の結果候補と前記付帯情報メモリに記憶された前記対立候補の表記と前記キーワードメモリに記憶された前記キーワードに基づいて認識スコアを算出し、算出した認識スコアに基づいて前記複数の音声認識の結果候補の順位付けを行う認識候補評価部と、
    を備えることを特徴とする音声認識装置。
  2. 前記認識候補評価部は、前記音声認識の結果候補とともに前記統計的言語モデルに基づいて得られたその音声認識の結果候補に関する言語尤度と音響モデルに基づいて得られたその音声認識の結果候補に関する音響尤度が入力され、前記音声認識の結果候補の表記と一致する前記付帯情報メモリに記憶された前記対立候補の表記と前記キーワードメモリに記憶された前記キーワードの表記の組み合わせが存在した場合は存在しない場合よりも言語尤度の影響度を小さくして前記言語尤度と前記音響尤度からその音声認識の結果候補の前記認識スコアを算出することを特徴とする請求項1に記載の音声認識装置。
  3. 前記認識候補評価部は、前記音声認識の結果候補の表記と一致する前記組み合わせが存在した場合は予め定められた重み係数を乗じた前記言語尤度と前記音響尤度を加算してその音声認識の結果候補の前記認識スコアを算出し、前記音声認識の結果候補の表記と一致する前記組み合わせが存在しない場合は存在した場合の前記重み係数以上の予め定められた別の重み係数を乗じた言語尤度と前記音響尤度と予め定められた調整定数を加算してその音声認識の結果候補の前記認識スコアを算出することを特徴とする請求項2に記載の音声認識装置。
  4. 前記音声認識の結果候補は、前記学習コーパスに含まれる単語の一部をその単語を構成する音節の連鎖として学習した前記統計的言語モデルを用いた音声認識処理によって得られたことを特徴とする請求項1から請求項3のいずれか一項に記載の音声認識装置。
  5. 前記音声認識の結果候補は、前記学習コーパスに含まれる単語の一部をその単語を構成する2個以上の単語に分割してその分割された単語の連鎖として学習した前記統計的言語モデルを用いた音声認識処理によって得られたことを特徴とする請求項4に記載の音声認識装置。
  6. 前記音声認識の結果候補は、前記付帯情報に基づいて調整された前記統計的言語モデルを用いて得られたことを特徴とする請求項1から請求項5のいずれか一項に記載の音声認識装置。
  7. 前記統計的言語モデルはNグラムモデルの言語モデルであり、前記音声認識の結果候補は、前記付帯情報の表記に係る前記統計的言語モデルの確率およびバックオフ係数にそれぞれ予め定められた重み係数を乗じ、予め定められた調整定数を加算して調整された前記統計的言語モデルを用いて得られたことを特徴とする請求項6に記載の音声認識装置。
  8. 前記付帯情報メモリは前記対立候補の表記に加えて前記対立候補の表記に対応する前記付帯情報の表記を記憶し、
    前記付帯情報メモリに記憶された前記付帯情報に基づいて、前記統計的言語モデルに対して前記調整を行う言語モデル更新部を備えたことを特徴とする請求項6もしくは請求項7に記載の音声認識装置。
  9. 前記音声信号から抽出された特徴量を記憶する音声データメモリと、
    前記音声信号から抽出された特徴量を受信して前記音声データメモリに受信した前記特徴量を保存して記憶させ、前記音声データメモリに記憶された過去に受信した前記特徴量と新たに受信した前記特徴量を比較して同じ発話が繰り返されたかどうかを判定する再発声判定部と、を備え、
    前記言語モデル更新部は、前記再発声判定部が同じ発話が繰り返されたと判定した場合に前記統計的言語モデルの前記調整を行うことを特徴とする請求項8に記載の音声認識装置。
  10. プロセッサとメモリを備えたハードウェアの前記プロセッサに入力された音声信号の音声認識をさせる音声認識方法であって、
    認識対象の単語に付して発話されるその認識対象の単語に関連した情報である付帯情報をその認識対象の単語に付した例文を含んだ学習コーパスを基に作られた統計的言語モデルを用いて行われる前記音声信号の認識処理によって得られた複数の音声認識の結果候補を受信するステップと、
    前記付帯情報の少なくとも一部と音響的に類似した読みの前記認識対象の単語に含まれた部分である対立候補と前記対立候補と組み合わされて前記認識対象の単語を構成するキーワードと受信した前記音声認識の結果候補とに基づいてその音声認識の結果候補の認識スコアを算出するステップと、
    前記算出した認識スコアを基に前記複数の音声認識の結果候補の順位づけをするステップと、
    を有することを特徴とする音声認識方法。
JP2013263627A 2013-12-20 2013-12-20 音声認識装置および音声認識方法 Pending JP2015118354A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013263627A JP2015118354A (ja) 2013-12-20 2013-12-20 音声認識装置および音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013263627A JP2015118354A (ja) 2013-12-20 2013-12-20 音声認識装置および音声認識方法

Publications (1)

Publication Number Publication Date
JP2015118354A true JP2015118354A (ja) 2015-06-25

Family

ID=53531085

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013263627A Pending JP2015118354A (ja) 2013-12-20 2013-12-20 音声認識装置および音声認識方法

Country Status (1)

Country Link
JP (1) JP2015118354A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109215637A (zh) * 2017-06-30 2019-01-15 三星Sds株式会社 语音识别方法
CN112420020A (zh) * 2019-08-23 2021-02-26 株式会社东芝 信息处理装置及信息处理方法
WO2021137637A1 (en) * 2020-01-02 2021-07-08 Samsung Electronics Co., Ltd. Server, client device, and operation methods thereof for training natural language understanding model

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109215637A (zh) * 2017-06-30 2019-01-15 三星Sds株式会社 语音识别方法
CN109215637B (zh) * 2017-06-30 2023-09-01 三星Sds株式会社 语音识别方法
CN112420020A (zh) * 2019-08-23 2021-02-26 株式会社东芝 信息处理装置及信息处理方法
CN112420020B (zh) * 2019-08-23 2024-05-03 株式会社东芝 信息处理装置及信息处理方法
WO2021137637A1 (en) * 2020-01-02 2021-07-08 Samsung Electronics Co., Ltd. Server, client device, and operation methods thereof for training natural language understanding model
US11868725B2 (en) 2020-01-02 2024-01-09 Samsung Electronics Co., Ltd. Server, client device, and operation methods thereof for training natural language understanding model

Similar Documents

Publication Publication Date Title
US10176802B1 (en) Lattice encoding using recurrent neural networks
US9934777B1 (en) Customized speech processing language models
JP6188831B2 (ja) 音声検索装置および音声検索方法
JP5533042B2 (ja) 音声検索装置、音声検索方法、プログラム及び記録媒体
US10152971B2 (en) System and method for advanced turn-taking for interactive spoken dialog systems
JP4802434B2 (ja) 音声認識装置及び音声認識方法、並びにプログラムを記録した記録媒体
US7606708B2 (en) Apparatus, method, and medium for generating grammar network for use in speech recognition and dialogue speech recognition
US8380505B2 (en) System for recognizing speech for searching a database
US8321218B2 (en) Searching in audio speech
US8990086B2 (en) Recognition confidence measuring by lexical distance between candidates
US20050182628A1 (en) Domain-based dialog speech recognition method and apparatus
US9081868B2 (en) Voice web search
US8352265B1 (en) Hardware implemented backend search engine for a high-rate speech recognition system
Wester Pronunciation modeling for ASR–knowledge-based and data-derived methods
JP5310563B2 (ja) 音声認識システム、音声認識方法、および音声認識用プログラム
JPWO2010100977A1 (ja) 音声認識装置
US10515637B1 (en) Dynamic speech processing
CN111462748B (zh) 语音识别处理方法、装置、电子设备及存储介质
JP2013125144A (ja) 音声認識装置およびそのプログラム
JP2015118354A (ja) 音声認識装置および音声認識方法
JP4966324B2 (ja) 音声翻訳装置、および方法
KR20120052591A (ko) 연속어 음성인식 시스템에서 오류수정 장치 및 방법
Kou et al. Fix it where it fails: Pronunciation learning by mining error corrections from speech logs
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP2009271117A (ja) 音声検索装置および音声検索方法