JP2016110087A

JP2016110087A - 音声認識方法及び音声認識装置

Info

Publication number: JP2016110087A
Application number: JP2015210588A
Authority: JP
Inventors: 喜烈崔; Hee Youl Choi; 鎬式李; Ho-Shik Lee
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2014-12-02
Filing date: 2015-10-27
Publication date: 2016-06-20
Anticipated expiration: 2035-10-27
Also published as: EP3029669A1; US20180226078A1; EP3029669B1; US9940933B2; JP6762701B2; US11176946B2; KR102380833B1; KR20160066441A; US20160155436A1; CN105654946A; CN105654946B

Abstract

【課題】文章内の前後文脈に基づいた言語モデルに基づいて音声認識された文章の正確度を向上させる音声認識方法及び音声認識装置を提供する。【解決手段】第２認識部１２０において、音声認識によって生成した文章を受信する。文章内の他の単語との関係に基づいて、文章に含まれた単語それぞれの適合度を算出する算出部１２１と、単語それぞれの適合度に基づいて、単語のうち修正が求められる対象単語を検出する検出部１２２と、対象単語に応する候補単語のいずれか１つにより対象単語を代替する代替部１２３と、を含む。【選択図】図８

Description

以下の実施形態は、音声認識方法及び音声認識装置等に関する。

一般に、音声認識システムに適用されている現在の音声認識方式は技術的に完璧ではなく、ノイズなどの様々な要因によって必然的な認識エラーを有する。従来における音声認識装置は、このような音声認識エラーに対して正解候補を提示することができず、あるいは正解候補を提示するとしても当該の音声認識装置の復号化過程で正解である可能性の高い候補を提示するにすぎず、音声認識正確度は低い。

実施形態は、文章内の前後文脈に基づいた言語モデルに基づいて音声認識された文章の正確度を向上させる技術を提供する。

一側面に係る音声認識方法は、音声認識によって生成した文章を受信するステップと、前記文章内の他の単語との関係に基づいて、前記文章に含まれた単語それぞれの適合度を算出するステップと、前記単語それぞれの適合度に基づいて、前記単語のうち修正が求められる対象単語を検出するステップと、前記対象単語に対応する候補単語のいずれか１つにより前記対象単語を代替するステップとを含む。

前記適合度を算出するステップは、双方向回帰神経網言語モデルを用いて前記単語それぞれの適合度を算出するステップを含んでもよい。

前記対象単語を検出するステップは、予め決定した閾値未満の適合度を有する単語を検出するステップと、適合度が小さい順に予め決定した数の単語を検出するステップと、のうち少なくとも１つを含んでもよい。

前記対象単語を代替するステップは、前記文章で前記対象単語を除いた残り単語との関係、前記対象単語の音素シーケンスとの類似度、及び前記文章に先行する以前文章の文脈のうち少なくとも１つに基づいて前記候補単語を決定するステップを含むんでもよい。

前記候補単語を決定するステップは、予め備えられた単語辞書から前記候補単語を取得するステップを含んでもよい。

前記対象単語を代替するステップは、前記候補単語それぞれに対して前記対象単語の音素シーケンスとの類似度に基づいた第１モデル、及び前記文章から前記対象単語を除いた残り単語との関係に基づいた第２モデルのうち少なくとも１つに基づいて当該候補単語の適合度を算出するステップを含んでもよい。

前記対象単語を代替するステップは、前記第１モデルのための第１重み及び前記第２モデルのための第２重みを設定するステップをさらに含んでもよい。

前記第１重み及び前記第２重みを設定するステップは、前記文章に関する第１モデル基盤確率分布に基づいて、前記第１重み及び前記第２重みを動的に制御するステップを含んでもよい。

前記音声認識方法は、ユーザの音声を受信するステップと、前記音声から特徴を抽出するステップと、音声モデルを用いて前記特徴から音素シーケンスを認識するステップと、言語モデルを用いて前記音素シーケンスから単語を認識することによって前記文章を生成するステップとをさらに含んでもよい。

前記言語モデルはバイグラム（Ｂｉ−Ｇｒａｍ）言語モデルを含んでもよい。

他の一実施形態に係る音声認識装置は、ユーザの音声を認識することによって文章を生成する第１認識部と、前記文章内の前後文脈に基づいた言語モデルに基づいて、前記文章内の少なくとも１つの単語を修正する第２認識部とを含む。

前記第１認識部は、前記音声を受信する受信部と、前記音声から特徴を抽出する抽出部と、前記特徴から音素シーケンスをデコーディングするデコーディング部と、前記音素シーケンスから単語を認識することによって前記文章を生成する生成部とを含んでもよい。

前記言語モデルは双方向回帰神経網言語モデルを含んでもよい。

前記第２認識部は、前記文章内の他の単語との関係に基づいて前記文章に含まれた単語それぞれの適合度を算出する算出部と、前記単語それぞれの適合度に基づいて前記単語のうち修正が求められる対象単語を検出する検出部と、前記対象単語に対応する候補単語のいずれか１つにより前記対象単語を代替する代替部とを含んでもよい。

前記検出部は、予め決定した閾値未満の適合度を有する単語を検出し、適合度が小さい順に予め決定した数の単語を検出してもよい。

前記代替部は、前記文章内前記対象単語の位置、前記文章から前記対象単語を除いた残り単語との関係、前記対象単語の音素シーケンスとの類似度、及び前記文章に先行する以前文章の文脈のうち少なくとも１つに基づいて前記候補単語を決定してもよい。

前記代替部は、予め備えられた単語辞書から前記候補単語を取得してもよい。

前記代替部は、前記候補単語それぞれに対して前記対象単語の音素シーケンスとの類似度に基づいた第１モデル、及び前記文章から前記対象単語を除いた残り単語との関係に基づいた第２モデルのうち少なくとも１つに基づいて当該候補単語の適合度を算出してもよい。

前記代替部は、前記文章に関する第１モデル基盤確率分布に基づいて前記第１モデルのための第１重み及び前記第２モデルのための第２重みを動的に制御してもよい。

一実施形態に係る音声認識装置は、第１言語モデルを用いてユーザによって表現された音声から文章を認識する第１認識装置と、前記第１言語モデルよりも高い複雑度を有する第２言語モデルを用いて前記文章の正確度を向上させる第２認識装置とを含む。

前記第１認識装置は、音声モデルを用いて前記音声から音素を認識し、前記第１言語モデルを用いて前記音素から前記文章を認識してもよい。

前記第２認識装置は、前記第２言語モデルを用いて前記文章内の単語のうち最も不正確なものとして予測される単語を識別し、前記第２言語モデルを用いて前記識別された単語を前記文章の正確度を向上させる単語に代替してもよい。

前記第２認識装置は、前記第２言語モデルと音声モデルを用いて前記識別された単語を前記文章の正確度を向上させる単語に代替してもよい。

前記第１認識装置は、前記言語モデルを用いて前記音声から音素を認識し、前記第１言語モデルを用いて前記音素から前記文章を認識してもよい。

前記第２認識装置は、前記識別された単語に基づいて候補単語を取得し、前記候補単語から前記文章の正確度を向上させる単語を選択してもよい。

前記第２認識装置は、前記第２言語モデル及び音声モデルのうち少なくとも１つ、前記識別された単語及び前記文章内の他の単語に基づいて予め備えられた辞書から前記候補単語を取得してもよい。

本発明によると、文章内の前後文脈に基づいた言語モデルに基づいて、音声認識された文章の正確度を向上させる技術を提供することができる。

一実施形態に係る音声認識装置を示すブロック図である。一実施形態に係る双方向回帰神経網言語モデルを説明する図である。一実施形態に係る双方向回帰神経網言語モデルを説明する図である。一実施形態に係る双方向回帰神経網言語モデルを説明する図である。一実施形態に係る双方向回帰神経網言語モデルを説明する図である。一実施形態に係る双方向回帰神経網言語モデルを説明する図である。一実施形態に係る音声認識装置の動作を説明する図である。一実施形態に係る第２認識部を示すブロック図である。実施形態に係る第２認識部の動作を説明する図である。実施形態に係る第２認識部の動作を説明する図である。実施形態に係る第２認識部の動作を説明する図である。実施形態に係る第２認識部の動作を説明する図である。実施形態に係る第２認識部の動作を説明する図である。実施形態に係る第２認識部の動作を説明する図である。一実施形態に係る第１認識部を示すブロック図である。他の実施形態に係る音声認識装置を示すブロック図である。実施形態に係る音声認識方法を示した動作フローチャートである。実施形態に係る音声認識方法を示した動作フローチャートである。実施形態に係る音声認識方法を示した動作フローチャートである。

以下、実施形態を添付する図面を参照しながら詳細に説明する。各図面に提示された同一の参照符号は同一の部材を示す。下記で説明する実施形態は音声認識方式に適用することができ、音声認識方式が活用される移動端末、スマート家電製品、医療装置、車制御装置、及びその他のコンピュータ装置で利用され得る。

図１は、一実施形態に係る音声認識装置を示すブロック図である。図１を参照すると、一実施形態に係る音声認識装置１００は、第１認識部１１０と第２認識部１２０を含む。第１認識部１１０は、ユーザの音声を一次的に認識することで臨時認識結果を生成し得る。第１認識部１１０は、臨時認識結果に該当する文章を生成することができる。

第１認識部１１０は臨時認識結果に該当する文章を生成するため、第１言語モデルに基づいてユーザの音声を認識する。第１言語モデルは、第２認識部１２０によって用いられる第２言語モデルに比べて単純な言語モデルであり、例えば、Ｎ−グラム（Ｎ−Ｇｒａｍ）言語モデルなどを含む。第２言語モデルは、第１言語モデルに比べて複雑なモデルである。この場合、第２言語モデルは第１言語モデルよりも高い複雑度を有する。

第１認識部１１０は、様々な方式でユーザの音声を受信できる。例えば、第１認識部１１０は、マイクロホンを用いて入力されるユーザの音声を受信したり、予め備えられた格納装置に格納されたユーザの音声を受信したり、ネットワークを介して遠隔に位置するユーザの音声を受信し得る。第１認識部１１０の動作に関する詳細な事項は後述する。

第２認識部１２０は、臨時認識結果に基づいて最終認識結果を生成する。以下、最終認識結果は音声認識結果と称されてもよい。第２認識部１２０は、第２言語モデルに基づいて臨時認識結果に該当する文章内の少なくとも１つの単語を修正することによって音声認識結果を出力することができる。音声認識結果は、少なくとも１つの単語が修正された文章である。第２認識部１２０は、第１認識部１１０によって認識された臨時結果に対応する文章の正確度を向上させることができる。

第２言語モデルは文章内の前後文脈に基づいた言語モデルであって、例えば、双方向回帰神経網言語モデルを含む。第２認識部１２０の動作を具体的に説明する以前に、図２〜図６を参照して双方向回帰神経網言語モデルを簡略に説明することにする。

図２を参照すると、神経網２００は、連結線に連結された複数の人工ニューロンを用いて生物学的なシステムの算出能力を模倣する認識モデルである。神経網２００は、生物学的なニューロンの機能を単純化した人工ニューロンを用いる。人工ニューロンはノードと称されてもよい。人工ニューロンは、結合重み（ｃｏｎｎｅｃｔｉｏｎｗｅｉｇｈｔ）を有する連結線を介して相互連結されている。神経網２００は、人工ニューロンを介して人の認知作用や学習過程を行うことができる。

神経網２００は複数のレイヤを含む。例えば、神経網２００は、入力レイヤ２１０、隠れレイヤ２２０、出力レイヤ２３０を含む。入力レイヤ２１０は、学習を行うための入力を受信して隠れレイヤ２２０に伝達し、出力レイヤ２３０は、隠れレイヤ２２０から受信した信号に基づいて神経網２００の出力を生成する。隠れレイヤ２２０は、入力レイヤ２１０と出力レイヤ２３０との間に位置し、入力レイヤ２１０によって伝えられた学習データを予測しやすい値に変化させることができる。

入力レイヤ２１０に含まれた入力ノードと隠れレイヤ２２０に含まれた隠れノードは、結合重みを有する連結線を用いて連結され得る。隠れレイヤ２２０に含まれた隠れノードと出力レイヤ２３０に含まれた出力ノードは、結合重みを有する連結線を介して連結され得る。

神経網２００の学習過程で、人工ニューロン間の結合重みは、エラー逆伝搬学習（ｂａｃｋ−ｐｒｏｐａｇａｔｉｏｎｌｅａｒｎｉｎｇ）によりアップデートされることができる。エラー逆伝搬学習は、与えられた学習データに対してフォワード算出によってエラーを推定した後、出力レイヤ２３０から開始して隠れレイヤ２２０及び入力レイヤ２１０に向かう逆方向に推定したエラーを伝搬しながら、エラーを減らすように結合重みをアップデートする方法である。

図３を参照すると、回帰神経網３００は、互いに異なる時間区間で隠れノードの間に再帰的な連結がある神経網である。一般的な神経網とは異なって、回帰神経網は、任意のインプットシーケンスを処理する内部メモリを用いることができる。以前の時間区間３１０における隠れノードの出力は、現在の時間区間３２０における隠れノードに連結されている。現在の時間区間３２０における隠れノードの出力は、次の時間区間３３０における隠れノードに連結されている。

一例として、以前の時間区間３１０における第１隠れノード３１１、現在の時間区間３２０における第２隠れノード３２１、及び次の時間区間３３０における第３隠れノード３３１は、互いに図４に示すように連結されてもよい。図４を参照すると、第１隠れノード３１１の出力は第２隠れノード３２１に入力され、第２隠れノード３２１の出力は第３隠れノード３３１に入力されてもよい。

図５を参照すると、双方向回帰神経網５００は、互いに異なる時間区間で隠れノードの間に双方向に再帰的な連結のある神経網である。双方向回帰神経網も回帰神経網のように任意のインプットシーケンスを処理する内部メモリを用いることができる。以前の時間区間５１０における隠れノードの出力は、現在の時間区間５２０における隠れノードに連結され、現在の時間区間５２０における隠れノードの出力は、次の時間区間５３０における隠れノードに連結されている。また、次の時間区間５３０における隠れノードの出力は、現在の時間区間５２０における隠れノードに連結され、現在の時間区間５２０における隠れノードの出力は、以前の時間区間５１０における隠れノードに連結されている。

一例として、以前の時間区間５１０における第１−１隠れノード５１１、第１−２隠れノード５１２、現在の時間区間５２０における第２−１隠れノード５２１、第２−２隠れノード５２２、次の時間区間５３０における第３−１隠れノード５３１、及び第３−２隠れノード５３２は互いに図６に示すように連結されている。図４を参照すると、第３−１隠れノード５３１の出力は第２−１隠れノード５２１に入力され、第２−１隠れノード５２１の出力は第１−１隠れノード５１１から入力される。また、第１−２隠れノード５１２の出力は第２−２隠れノード５２２に入力され、第２−２隠れノード５２２の出力は第３−２隠れノード５３２から入力されている。

双方向回帰神経網言語モデルは、双方向回帰神経網を用いて言語の文脈及び文法などを学習したモデルである。再び図１を参照すると、第２認識部１２０は、双方向回帰神経網言語モデルを用いることで、文章の前後文脈に基づいて臨時認識結果に該当する文章内の単語を修正することができる。例えば、臨時認識結果に該当する文章内任意の単語が双方向回帰神経網で現在の時間区間に対応すると仮定すれば、当該の単語よりも前に位置する単語は、双方向回帰神経網で以前の時間区間に対応する。また、臨時認識結果に該当する文章内の当該単語よりも後に位置する単語は、双方向回帰神経網で次の時間区間に対応する。

以下、説明の便宜のために第２認識部１２０が双方向回帰神経網言語モデルを用いる場合を説明するが、第２認識部１２０の動作はこれに制限されることはない。例えば、第２認識部１２０は、双方向回帰神経網言語モデルの他にも文章内の前後文脈に基づくいずれの言語モデルでも利用できる。

図７は、一実施形態に係る音声認識装置の動作を説明する図である。図７を参照すると、第１認識部１１０は、ユーザの音声７１０を一次的に認識することによって臨時認識結果を生成し、第２認識部１２０は、臨時認識結果を２次的に検証することによって最終認識結果を生成することができる。

例えば、第１認識部１１０は、「Ｔｏｄａｙｍｙｍｏｍｔａｕｇｈｔｍｅａｓｔｏｒｙ．」という音声７１０を受信してもよい。第１認識部１１０は、ノイズなどの影響で音声７１０を正確に認識できないことがある。例えば、音声７１０のうち「ｔａｕｇｈｔ」が受信される時点にノイズ７１５が発生した場合、第１認識部１１０は、「ｔａｕｇｈｔ」を「ｓｏｕｇｈｔ」に間違って認識することがある。この場合、第１認識部１１０により生成される臨時認識結果は、「Ｔｏｄａｙｍｙｍｏｍｓｏｕｇｈｔｍｅａｓｔｏｒｙ」となる。

第２認識部１２０は、双方向回帰神経網言語モデルを用いて前後文脈上「ｓｏｕｇｈｔ」が適していないと判断する。第２認識部１２０は、適していないと判断された「ｓｏｕｇｈｔ」を「ｔａｕｇｈｔ」に修正することができる。第２認識部１２０は、修正された文章を出力する。この場合、第２認識部１２０によって生成される最終認識結果は、「Ｔｏｄａｙｍｙｍｏｍｔａｕｇｈｔｍｅａｓｔｏｒｙ」である。以下、図８〜図１３を参照して第２認識部１２０の動作を詳細に説明する。

図８は、一実施形態に係る第２認識部を示すブロック図である。図８を参照すると、第２認識部１２０は、算出部１２１、検出部１２２、及び代替部１２３を含む。算出部１２１、検出部１２２、及び代替部１２３は、ソフトウェアモジュール、ハードウェアモジュール、又はその組合で実現し得る。

算出部１２１は、第１認識部１１０によって生成した文章に含まれた単語それぞれに対して、文章内の残り単語との関係に基づいた適合度を算出し得る。検出部１２２は、算出された単語の適合度に基づいて単語のうち修正が求められる対象単語を検出することができる。代替部１２３は、検出された対象単語に対応する候補単語のいずれか１つに対象単語を代替できる。

図９Ａ〜図１３は、実施形態に係る第２認識部の動作を説明する図である。一例として、図９Ａを参照すると、算出部１２１は、双方向回帰神経網言語モデルを用いて臨時認識結果に該当する文章に含まれた単語の適合度を算出し得る。双方向回帰神経網言語モデルは、臨時認識結果に該当する文章が入力され、当該文章に含まれた単語それぞれの適合度を出力する。

双方向回帰神経網言語モデルは、文章の前後文脈に基づいて「Ｔｏｄａｙ」の適合度（ｓ１）を出力する。「Ｔｏｄａｙ」の適合度（ｓ１）は条件付き確率（ｃｏｎｄｉｔｉｏｎａｌｐｒｏｂａｂｉｌｉｔｙ）である。例えば、「Ｔｏｄａｙ」の適合度（ｓ１）は残り単語が与えられた状況で「Ｔｏｄａｙ」が文章の当該位置に登場する可能性として表現される。双方向回帰神経網言語モデルは、「ｍｙ」の適合度（ｓ２）、「ｍｏｍ」の適合度（ｓ３）、「ｓｏｕｇｈｔ」の適合度（ｓ４）、「ｍｅ」の適合度（ｓ５）、「ａ」の適合度（ｓ６）、「ｓｔｏｒｙ」の適合度（ｓ７）など、臨時認識結果に該当する文章内の残り単語の適合度も出力することができる。

検出部１２２は算出された適合度（ｓ１〜ｓ７）に基づいて、修正が求められる対象単語を検出することができる。例えば、検出部１２２は、予め決定した閾値未満の適合度を有する単語を検出したり、適合度の小さい順に予め決定した数の単語を検出する。以下、説明の便宜のために適合度が最も小さい１つの単語を検出する場合について説明する。

前述した例示で、算出された適合度（ｓ１〜ｓ７）のうち、「ｓｏｕｇｈｔ」の適合度（ｓ４）が最も小さい。例えば、「ｓｏｕｇｈｔ」は、前後文脈上、他の単語と似合わず、「ｓｏｕｇｈｔ」は言語文法上、５形式の文章構造（例えば、主語＋他動詞＋目的語＋目的補語）に適していないなど、様々な要因によって「ｓｏｕｇｈｔ」の適合度（ｓ４）が最も小さく算出される。この場合、検出部１２２は、「ｓｏｕｇｈｔ」を修正の求められる対象単語として検出することができる。

他の例として、図９Ｂを参照すると、算出部１２１は「Ｔｏｄａｙ」と文章内の残り単語の間の関係に基づいて「Ｔｏｄａｙ」の適合度（ｓ１）を算出し得る。「Ｔｏｄａｙ」と文章内の残り単語の間の関係は、双方向回帰神経網言語モデルを用いてスコアとして表現され得る。例えば、算出部１２１は、「Ｔｏｄａｙ」と「ｍｙ」の間の関係に対応するスコア（ｓ１−１）、「Ｔｏｄａｙ」と「ｍｏｍ」の間の関係に対応するスコア（ｓ１−２）、「Ｔｏｄａｙ」と「ｓｏｕｇｈｔ」の間の関係に対応するスコア（ｓ１−３）、「Ｔｏｄａｙ」と「ｍｅ」の間の関係に対応するスコア（ｓ１−４）、「Ｔｏｄａｙ」と「ａ」の間の関係に対応するスコア（ｓ１−５）、及び「Ｔｏｄａｙ」と「ｓｔｏｒｙ」の間の関係に対応するスコア（ｓ１−６）を算出し得る。

算出部１２１は、スコア（ｓ１−１）、スコア（ｓ１−２）、スコア（ｓ１−３）、スコア（ｓ１−４）、スコア（ｓ１−５）、及びスコア（ｓ１−６）に基づいて「Ｔｏｄａｙ」の適合度（ｓ１）を算出することができる。例えば、算出部は、スコア（ｓ１−１）、スコア（ｓ１−２）、スコア（ｓ１−３）、スコア（ｓ１−４）、スコア（ｓ１−５）、及びスコア（ｓ１−６）の合計、平均、分散、標準偏差などの様々な統計を用いて「Ｔｏｄａｙ」の適合度（ｓ１）を算出し得る。算出部１２１は、同じ方式で「ｍｙ」の適合度（ｓ２）、「ｍｏｍ」の適合度（ｓ３）、「ｓｏｕｇｈｔ」の適合度（ｓ４）、「ｍｅ」の適合度（ｓ５）、「ａ」の適合度（ｓ６）、及び「ｓｔｏｒｙ」の適合度（ｓ７）を算出し得る。

図１０を参照すると、代替部１２３は、対象単語のための候補単語１０２０を決定し、決定された候補単語１０２０のうち最適の候補単語を選択することができる。代替部１２３は、様々な方式で候補単語１０２０を決定することができる。例えば、代替部１２３は、臨時認識結果に該当する文章内の対象単語の位置、臨時認識結果に該当する文章から対象単語を除いた残り単語との関係、対象単語の音素シーケンス（ｐｈｏｎｅｍｅｓｅｑｕｅｎｃｅ）との類似度、臨時認識結果に該当する文章に先行する以前文章の文脈（ｃｏｎｔｅｘｔ）などに基づいて候補単語１０２０を決定することができる。又は、代替部１２３は、前述した方式の様々な組合を用いて単語辞書１２４から候補単語１０２０を取得できる。

代替部１２３は、単語辞書１２４から候補単語１０２０を取得するために前述した第２言語モデルを用いる。又は、代替部１２３は、単語辞書１２４から候補単語１０２０を取得するために前述した第１言語モデルを用いる。又は、代替部１２３は、単語辞書１２４から候補単語１０２０を取得するために、図１１によって後述する言語モデルを用いることができる。又は、代替部１２３は、単語辞書１２４から候補単語１０２０を取得するために、図１１又は図１５によって後述する音声モデルを用いることができる。又は、代替部１２３は、単語辞書１２４から候補単語１０２０を取得するために前述した第１言語モデル、図１１に示す言語モデル、図１１及び図１５に示す音声モデルのうち２以上の組合を用いることができる。第２言語モデルは、図１１によって後述する言語モデル、図１５によって後述する第２言語モデル１５４５、又は他の言語モデルであってもよい。第１言語モデルは、図１１によって後述する言語モデル、図１５によって後述する第１言語モデル１５３５、又は、他の言語モデルであってもよい。音声モデルは、図１１によって後述する音声モデル、図１５によって後述する音声モデル１５２５、又は、他の音声モデルであってもよい。

代替部１２３は、予め備えられた単語辞書１２４から候補単語１０２０を取得することができる。代替部１２３は、臨時認識結果に該当する文章内の対象単語の位置、臨時認識結果に該当する文章から対象単語を除いた残り単語との関係、対象単語の音素シーケンスとの類似度、臨時認識結果に該当する文章に先行する以前文章の文脈などに基づいて、予め備えられた単語辞書１２４から候補単語１０２０を取得し得る。

例えば、代替部１２３は、対象単語１０１０を除いた残り単語との関係で文脈的に対象単語１０１０の位置に代入可能な候補単語１０２０を単語辞書１２４から取得し得る。又は、代替部１２３は、文法的に臨時認識結果に該当する文章内の対象単語１０１０の位置に代入可能な候補単語１０２０を単語辞書１２４から取得し得る。又は、代替部は１２３は、対象単語１０１０の音素シーケンスと類似度が一定以上である候補単語１０２０を単語辞書１２４から取得したり、対象単語１０１０の音素シーケンスと類似度が一定以上差異のある単語を候補単語１０２０から排除することができる。又は、代替部１２３は、以前文章の文脈により対象単語１０１０の位置に代入するのに適切な候補単語１０２０を単語辞書１２４から取得し得る。

候補単語１０２０が決定されれば、代替部１２３は候補単語１０２０のうち最適の候補単語を選択する。代替部１２３は、様々な方式で最適の候補単語を選択することができる。例えば、代替部１２３は、候補単語１０２０のうち対象単語の音素シーケンス１０１５と最も類似の音素シーケンスを有する候補単語を最適の候補単語として選択することができる。代替部１２３は、対象単語１０１０を最適の候補単語１０３０に代替することができる。

一例として、候補単語１０２０は、「ｔｏｌｄ」、「ｔａｕｇｈｔ」、「ｓａｉｄ」、「ａｓｋｅｄ」などを含んでもよい。代替部１２３は、候補単語１０２０のうち、対象単語の音素シーケンス１０１５である「ｓｏｕｇｈｔ」と最も類似の音素シーケンスを有する候補単語である「ｔａｕｇｈｔ」を最適の候補単語として選択する。代替部１２３は、臨時認識結果に該当する文章で「ｓｏｕｇｈｔ」を「ｔａｕｇｈｔ」に修正した後、修正された文章を出力することができる。

代替部１２３は、言語モデルに基づいた情報と音声モデルに基づいた情報をともに考慮して候補単語１０２０のうち最適の候補単語を選択することができる。図１１を参照すると、言語モデルに基づいた情報１１１５と音声モデルに基づいた情報１１２５をともに考慮して候補単語の適合度１１３０を算出し得る。

言語モデルに基づいた情報１１１５は、言語モデルに基づいて算出された候補単語の文脈点数を含む。言語モデルは、双方向回帰神経網言語モデルを含む。候補単語それぞれの文脈点数は条件付き確率であってもよい。例えば、文章内の残り単語が与えられた状況で、言語モデルに基づいて候補単語それぞれの条件付き確率を算出することができる。

音声モデルに基づいた情報１１２５は、音声モデルに基づいて算出された候補単語の発音点数を含む。候補単語それぞれの発音点数は、音素シーケンスの類似度である。例えば、言語モデルに基づいて、対象単語の音素シーケンスと候補単語それぞれの音素シーケンスの間の類似度が算出される。

代替部１２３は、言語モデルの重み１１１０と音声モデルの重み１１２０を用いて、言語モデルに基づいた情報１１１５及び音声モデルに基づいた情報１１２５が候補単語の適合度１１３０に反映される比率を調整する。代替部１２３は、言語モデルの重み１１１０と音声モデルの重み１１２０を動的に制御し得る。例えば、代替部１２３は、音声モデルの信頼度が高い場合、音声モデルの重み１１２０を増加させたり言語モデルの重み１１１０を減少させる。又は、代替部１２３は、言語モデルの信頼度が高い場合、言語モデルの重み１１１０を増加させたり音声モデルの重み１１２０を減少させる。

図１２は、音声モデルの信頼度に応じて言語モデルの重み及び音声モデルの重みを動的に制御する実施形態を説明する図である。図１２を参照すると、代替部１２３は、臨時認識結果に含まれた各単語の確率分布に基づいて音声モデルの信頼度を判断する。臨時認識結果が生成されるとき、音声認識結果に含まれた各単語は、音声モデル基盤確率分布（音声モデルに基づく確率分布）に基づいて複数の候補単語のうち選択されたものである。例えば、グラフ１２００の実線１２１０に示すように、特定の候補単語に対して音声モデル基盤確率分布が集中している場合にエントロピーが低いと表現される。エントロピーが低い場合、複数の候補単語のうち特定の候補単語を選択するための認識信頼度が高いものと理解され、音声モデルの信頼度が高いと判断される。この場合、代替部１２３は、音声モデルの重みを言語モデルの重みに比べて相対的に高く設定する。又は、代替部１２３は、言語モデルの重みを音声モデルの重みに比べて相対的に低く設定してもよい。

また、グラフ１２００の点線１２２０に示すように、複数の候補単語に対して音声モデル基盤確率分布が等しく分布している場合、エントロピーが高いと表現される。エントロピーが高い場合、特定の候補単語を選択するための認識信頼度が低いと理解され、音声モデルの信頼度が低いと判断される。この場合、代替部１２３は、音声モデルの重みを言語モデルの重みに比べて相対的に低く設定する。又は、代替部１２３は、言語モデルの重みを音声モデルの重みに比べて相対的に高く設定してもよい。

代替部１２３は、候補単語の適合度に基づいて候補単語のうち最適の候補単語を選択することができる。例えば、代替部１２３は、最も高い適合度を有する候補単語を最適の候補単語として選択する。

実施形態によると、前述した音声認識装置１００の動作方式は様々に応用される。図１３を参照すると、第１認識部１１０は、複数の候補文章を生成することができる。第１認識部１１０は、受信された音声に基づいて様々な候補文章を生成することができる。

候補文章は、互いに異なる音素の長さの単語を含んだり、互いに異なる数の単語を含むことができる。例えば、第１候補文章１３１１の最初の単語の音素の長さは、第２候補文章１３１２の最初の単語の音素の長さよりも短い。また、第１候補文章１３１１及び第２候補文章１３１２は合わせて４つの単語を含むものの、第３候補文章１３１３は合わせて３つの単語のみを含んでもよい。

候補文章それぞれは文章スコアで評価され得る。例えば、第１候補文章１３１１の文章スコアは７０であり、第２候補文章１３１２の文章スコアは６５であり、第３候補文章１３１３の文章スコアは５０であってもよい。

第２認識部１２０は、候補文章それぞれに対して修正が求められる少なくとも１つの対象単語を検出することができる。第２認識部１２０は、前述した方式によって候補文章それぞれのための対象単語を最適の候補単語に修正することができる。１つの候補文章に２以上の対象単語が選択されてもよく、第２認識部１２０は対象単語を順次修正したり、同時に修正してもよい。

修正された候補文章は、文章スコアで評価され得る。例えば、修正された第１候補文章１３２１の文章スコアは７５であり、修正された第２候補文章１３２２の文章スコアは７０であり、修正された第３候補文章１３２３の文章スコアは６０であってもよい。

第２認識部１２０は、一定レベル以上の文章スコアを有する候補文章が生成されるまで修正作業を繰り返す。第２認識部１２０は、修正された候補文章から対象単語を検出し、検出された対象単語を最適の候補単語に修正できる。

繰り返される修正過程により、候補文章の間の文章スコアの順位が逆転することもある。例えば、再修正された第１候補文章１３３１の文章スコアは８０であり、再修正された第２候補文章１３３２の文章スコアは９０であり、再修正された第３候補文章１３３３の文章スコアは７０であってもよい。第２認識部１２０は、再修正された第２候補文章１３３２を最終結果として出力する。

第２認識部１２０は、候補文章に対するリスコアリング（ｒｅｓｃｏｒｉｎｇ）によって最適の候補文章を検出することに終わることなく、双方向回帰神経網言語モデルを用いて候補文章内の対象単語を修正することができる。第２認識部１２０は、ノイズなどによって候補文章に正解がない場合であっても、音声認識の正確度を向上させ得る。このように、双方向回帰神経網言語モデルを用いて単語を検索する第２認識部１２０の動作は、人の音声認識機構（メカニズム）と同様である。

図１４は、一実施形態に係る第１認識部を示すブロック図である。図１４を参照すると、第１認識部１１０は、受信部１１１、抽出部１１２、デコーディング部１１３、及び生成部１１４を含む。受信部１１１、抽出部１１２、デコーディング部１１３、及び生成部１１４は、ソフトウェアモジュール、ハードウェアモジュール、又はその組合で実現し得る。

受信部１１１はユーザの音声を受信し、抽出部１１２は受信された音声から特徴を抽出できる。抽出部１１２は、様々な方式で特徴を抽出することができる。例えば、抽出部１１２は、ＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ）方式、ＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔｓ）方式などを用いて音声から特徴を抽出する。

デコーディング部１１３は、抽出された特徴から音素シーケンスを復号化する。例えば、デコーディング部１１３は、音声モデルを用いて特徴から音素シーケンスを復号化する。音声モデルは、テンプレート基盤でパターンをマッチングするＤＴＷ（ＤｙｎａｍｉｃＴｉｍｅＷａｒｐｉｎｇ）方式を用いるか、統計的にパターンを認識するＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｉｎｇ）方式を用いる。

生成部１１４は、音素シーケンスから単語を認識することで臨時認識結果に該当する文章を生成する。例えば、生成部１１４は、第１言語モデルを用いて音素シーケンスから単語を認識する。第１言語モデルは、バイグラム（Ｂｉ−Ｇｒａｍ）などの第２認識部１２０によって用いられる第２言語モデルに比べて単純な言語モデルであり得る。

図面には図示していないが、第１認識部１１０は、受信された音声で認識区間を抽出し、認識区間内雑音を処理するなど前処理作業を行う前処理部をさらに含む。

図１５は、他の実施形態に係る音声認識装置を示すブロック図である。図１５を参照すると、音声認識装置１５００は、特徴抽出部１５１０、音素認識部１５２０、デコーディング部１５３０、評価部１５４０、及びサンプリング部１５５０を含む。特徴抽出部１５１０、音素認識部１５２０、デコーディング部１５３０、評価部１５４０、及びサンプリング部１５５０は、ソフトウェアモジュール、ハードウェアモジュール、又はその組合で実現し得る。

特徴抽出部１５１０は、音声から特徴を抽出する。特徴抽出部１５１０は、ＬＰＣ方式、ＭＦＣＣ方式などを用いて音声から特徴を抽出できる。音素認識部１５２０は、音声モデル１５２５を用いて特徴から音素を認識する。音声モデル１５２５は、ＤＴＷ基盤音声モデル、ＨＭＭ基盤音声モデルなどであってもよい。デコーディング部１５３０は、第１言語モデル１５３５を用いて音素から単語を認識することで、臨時認識結果に該当する文章を生成することができる。第１言語モデル１５３５は、Ｎ−グラム言語モデルであり得る。

評価部１５４０は、臨時認識結果に該当する文章内の単語に対する適合度を評価する。評価部１５４０は、第２言語モデル１５４５に基づいて臨時認識結果に該当する文章内の各単語に対して前後文脈に基づいて適合度を評価する。第２言語モデル１５４５は、双方向回帰神経網言語モデルであってもよい。評価部１５４０は、評価結果に基づいて、全体文章のうち修正が求められる対象単語があるか否かを判別する。例えば、評価部１５４０は、全体文章の全ての単語に対する条件付き確率を算出した後、修正が求められる対象単語を検出することができる。

サンプリング部１５５０は、対象単語のための候補単語を推薦し得る。例えば、サンプリング部１５５０は、第２言語モデル１５４５に基づいて対象単語の位置に適する単語を推薦し得る。第２言語モデル１５４５は、双方向回帰神経網言語モデルであってもよい。サンプリング部１５５０は、双方向回帰神経網言語モデルを用いることで、文章全体を考慮して対象単語の位置に推薦される候補単語の確率を提示することができる。例えば、サンプリング部１５５０は、文章の前部から対象単語の位置までの第１部分と文章の後部分から対象単語の位置までの第２部分を考慮し、対象単語の位置に適する単語の確率を算出し得る。サンプリング部１５５０は、単語辞書１５６０から確率が高い順に予め決定した数の候補単語を選択することができる。

場合に応じて、サンプリング部１５５０は、各候補単語と対象単語の位置における音声モデル基盤音素シーケンスとの距離を比較することができる。サンプリング部１５５０は、対象単語の位置における音声モデル基盤音素シーケンスとの距離が一定以上離れた候補単語は脱落させてもよい。候補単語の音素シーケンスは、単語辞書１５６０に格納されている。

サンプリング部１５５０は、文脈情報を活用して候補単語を推薦し得る。例えば、サンプリング部１５５０は以前文章のトピックを検出し、検出されたトピックを用いてその次の文章から候補単語を推薦する。サンプリング部１５５０は、単語辞書１５６０に格納された単語のトピックと以前文章から検出されたトピックとを比較した後、トピックが類似の単語を集中的に候補単語として推薦し得る。

評価部１５４０は、サンプリングされた単語に対して適合度を評価する。評価部１５４０は、対象単語と第２言語モデル１５４５に基づいて推薦された候補単語を比較することにより最適の候補単語を選択できる。評価部１５４０は、対象単語と候補単語とを比較するとき、第２言語モデルの重みと音声モデル１５２５の重みを動的に制御することができる。例えば、音声モデル１５２５に基づいて算出された確率分布が特定の候補単語に集中するなどエントロピーが低い場合、音声モデル１５２５に高い重みを与える。一方、音声モデル基盤確率分布が複数の候補単語に等しく分布するなどエントロピーが高い場合、音声モデル１５２５に低い重みを与える。

音声モデル１５２５、第１言語モデル１５３５、及び第２言語モデル１５４５は、それぞれ音声認識装置１５００内に予め備えられた格納空間に格納されたり、遠隔に位置するサーバに格納されてもよい。音声モデル１５２５、第１言語モデル１５３５、又は第２言語モデル１５４５が遠隔のサーバに格納される場合、音声認識装置１５００は、ネットワークを介してサーバに格納されたモデルを用いることができる。

音声認識装置１５００は、イベント性ノイズに対して剛健な音声認識結果を出力する。音声認識装置１５００は、ノイズなどにより認識率が低下する状況で言語モデルに基づいたサンプリングによって認識率を向上させる技術を提供することができる。

前述した実施形態で候補単語を推薦するためにサンプリング部１５５０が第２言語モデル１５４５を使用するが、実施形態は様々に変形され得る。例えば、図１５において点線で表示したように、サンプリング部１５５０は、候補単語を推薦するために第１言語モデル１５３５又は音声モデル１５２５を用いることができる。又は、サンプリング部１５５０は、第２言語モデル１５４５、第１言語モデル１５３５、及び音声モデル１５２５のうち２以上の様々な組合を用いて候補単語を推薦することができる。

図１６〜図１８は、実施形態に係る音声認識方法を示した動作フローチャートである。図１６を参照すると、一実施形態に係る音声認識方法は、音声認識によって生成した文章を受信するステップＳ１６１０と、文章に含まれた単語それぞれに対して文章内の残り単語との関係に基づいた適合度を算出するステップＳ１６２０と、単語の適合度に基づいて単語のうち修正が求められる対象単語を検出するステップＳ１６３０と、対象単語に対応する候補単語のいずれか１つに対象単語を代替するステップＳ１６４０とを含む。図１６に示された各ステップには図１に示す第２認識部１２０の動作がそのまま適用され得るため、より詳細な説明は省略する。

図１７を参照すると、一実施形態に係る音声認識方法は、ユーザの音声を受信するステップＳ１７１０と、音声から特徴を抽出するステップＳ１７２０と、音声モデルを用いて特徴から音素シーケンスを認識するステップＳ１７３０と、言語モデルを用いて音素シーケンスから単語を認識することにより文章を生成するステップＳ１７４０とをさらに含む。図１７に示された各ステップには、図１に示す第１認識部１１０の動作がそのまま適用され得るため、より詳細な説明は省略する。

図１８を参照すると、一実施形態に係る音声認識方法は、音声から特徴を抽出するステップＳ１８１０と、特徴から音素を認識するステップＳ１８２０と、音素から単語をデコーディングするステップＳ１８３０と、単語を評価するステップＳ１８４０と、適していない単語が存在するか否かを判断するステップＳ１８５０と、適していない単語が存在する場合に、当該単語を代替するための候補単語をサンプリングするステップＳ１８６０とを含む。

ステップＳ１８４０において、サンプリングされた候補単語が評価されるものであって、適していない単語を代替するための最適の候補単語が選択される。ステップＳ１８４０、ステップＳ１８５０、及びステップＳ１８６０は、適していない単語が存在しないまで繰り返される。これ以上、適していない単語が存在しない場合にステップＳ１８７０で最適の文章が出力される。

図１８に示された各ステップには、図１５に示す音声認識装置１５００の動作がそのまま適用され得るため、より詳細な説明は省略する。

以上で説明された実施形態は、ハードウェア構成要素、ソフトウェア構成要素、及び／又はハードウェア構成要素及びソフトウェア構成要素の組合で実現してもよい。例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、マイクロコンピュータ、ＦＰＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサー、または、命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行して応答できる異なる装置のように、１つ以上の汎用コンピュータまたは特殊目的のコンピュータを用いて実現され得る。処理装置は、オペレーティングシステム（ＯＳ）及び前記オペレーティングシステム上で行われる１つ以上のソフトウェアアプリケーションを行ってもよい。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理及び生成してもよい。理解の便宜のために、処理装置は１つ使用されるものと説明される場合もあるが、当該の技術分野で通常の知識を有する者は、処理装置が複数の処理要素（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）及び／又は複数類型の処理要素を含んでいることが分かる。例えば、処理装置は、複数のプロセッサまたは１つのプロセッサ及び１つのコントローラを含んでもよい。また、並列プロセッサ（ｐａｒａｌｌｅｌｐｒｏｃｅｓｓｏｒ）のような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、またはこのうちの１つ以上の組合せを含んでもよく、希望の通りに動作するよう処理装置を構成したり独立的または結合的に処理装置を命令してもよい。ソフトウェア及び／又はデータは、処理装置によって解釈されたり処理装置に命令またはデータを提供するためどのような類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体または装置、送信される信号波に永久的または一時的に具体化できる。ソフトウェアは、ネットワークに接続されたコンピュータシステム上に分散し、分散された方法で格納されたり実行されてもよい。ソフトウェア及びデータは１つ以上のコンピュータで読み出し可能な記録媒体に格納されてもよい。

実施形態に係る方法は、多様なコンピュータ手段を介して様々な処理を実行することができるプログラム命令の形態で実現され、コンピュータで読取可能な記録媒体に記録されてもよい。コンピュータ読取可能な媒体は、プログラム命令、データファイル、データ構造などのうち１つまたはその組合せを含んでもよい。媒体に記録されるプログラム命令は、本発明の目的のために特別に設計されて構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり、使用可能なものであってもよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、光ディスクのような光磁気媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれてもよい。プログラム命令の例には、コンパイラによって作られるような機械語コードだけでなく、インタープリタなどを用いてコンピュータによって実行できる高級言語コードが含まれる。前記したハードウェア装置は、本発明の動作を行うために１つ以上のソフトウェアモジュールとして動作するように構成されてもよく、その逆も同様である。

上述したように、本発明を限定された実施形態と図面によって説明したが、本発明は、上記の実施形態に限定されることなく、本発明が属する分野における通常の知識を有する者であれば、このような実施形態から多様な修正及び変形が可能である。

したがって、本発明の範囲は、開示された実施形態に限定されるものではなく、特許請求の範囲だけではなく特許請求の範囲と均等なものなどによって定められるものである。

Claims

音声認識によって生成した文章を受信するステップと、
前記文章内の他の単語との関係に基づいて、前記文章に含まれた単語それぞれの適合度を算出するステップと、
前記単語それぞれの適合度に基づいて、前記単語のうち修正が求められる対象単語を検出するステップと、
前記対象単語に対応する候補単語のいずれか１つにより前記対象単語を代替するステップと、
を含む、音声認識方法。
前記適合度を算出するステップは、双方向回帰神経網言語モデルを用いて前記単語それぞれの適合度を算出するステップを含む、請求項１に記載の音声認識方法。
前記対象単語を検出するステップは、
予め決定した閾値未満の適合度を有する単語を検出するステップと、
適合度が小さい順に予め決定した数の単語を検出するステップと、
のうち少なくとも１つを含む、請求項１又は２に記載の音声認識方法。
前記対象単語を代替するステップは、前記文章で前記対象単語を除いた残り単語との関係、前記対象単語の音素シーケンスとの類似度、及び前記文章に先行する以前文章の文脈のうち少なくとも１つに基づいて前記候補単語を決定するステップを含む、請求項１〜３のうち何れか一項に記載の音声認識方法。
前記候補単語を決定するステップは、予め備えられた単語辞書から前記候補単語を取得するステップを含む、請求項４に記載の音声認識方法。
前記対象単語を代替するステップは、前記候補単語それぞれに対して前記対象単語の音素シーケンスとの類似度に基づいた第１モデル、及び前記文章から前記対象単語を除いた残り単語との関係に基づいた第２モデルのうち少なくとも１つに基づいて当該候補単語の適合度を算出するステップを含む、請求項１に記載の音声認識方法。
前記対象単語を代替するステップは、前記第１モデルのための第１重み及び前記第２モデルのための第２重みを設定するステップをさらに含む、請求項６に記載の音声認識方法。
前記第１重み及び前記第２重みを設定するステップは、前記文章に関する第１モデル基盤確率分布に基づいて、前記第１重み及び前記第２重みを動的に制御するステップを含む、請求項７に記載の音声認識方法。
ユーザの音声を受信するステップと、
前記音声から特徴を抽出するステップと、
音声モデルを用いて前記特徴から音素シーケンスを認識するステップと、
言語モデルを用いて前記音素シーケンスから単語を認識することによって前記文章を生成するステップと、
をさらに含む、請求項１〜８のうち何れか一項に記載の音声認識方法。
前記言語モデルはバイグラム（Ｂｉ−Ｇｒａｍ）言語モデルを含む、請求項９に記載の音声認識方法。
請求項１〜請求項１０のいずれか一項に記載の音声認識方法を、音声認識装置のコンピュータに実行させるコンピュータプログラム。
ユーザの音声を認識することによって文章を生成する第１認識部と、
前記文章内の前後文脈に基づいた言語モデルに基づいて、前記文章内の少なくとも１つの単語を修正する第２認識部と、
を含む、音声認識装置。
前記第１認識部は、
前記音声を受信する受信部と、
前記音声から特徴を抽出する抽出部と、
前記特徴から音素シーケンスをデコーディングするデコーディング部と、
前記音素シーケンスから単語を認識することによって前記文章を生成する生成部と、
を含む、請求項１２に記載の音声認識装置。
前記言語モデルは双方向回帰神経網言語モデルを含む、請求項１２又は１３に記載の音声認識装置。
前記第２認識部は、
前記文章内の他の単語との関係に基づいて前記文章に含まれた単語それぞれの適合度を算出する算出部と、
前記単語それぞれの適合度に基づいて前記単語のうち修正が求められる対象単語を検出する検出部と、
前記対象単語に対応する候補単語のいずれか１つにより前記対象単語を代替する代替部と、
を含む、請求項１２〜１４のうち何れか一項に記載の音声認識装置。
前記検出部は、予め決定した閾値未満の適合度を有する単語を検出し、適合度が小さい順に予め決定した数の単語を検出する、請求項１５に記載の音声認識装置。
前記代替部は、前記文章内前記対象単語の位置、前記文章から前記対象単語を除いた残り単語との関係、前記対象単語の音素シーケンスとの類似度、及び前記文章に先行する以前文章の文脈のうち少なくとも１つに基づいて前記候補単語を決定する、請求項１５又は１６に記載の音声認識装置。
前記代替部は、予め備えられた単語辞書から前記候補単語を取得する、請求項１７に記載の音声認識装置。
前記代替部は、前記候補単語それぞれに対して前記対象単語の音素シーケンスとの類似度に基づいた第１モデル、及び前記文章から前記対象単語を除いた残り単語との関係に基づいた第２モデルのうち少なくとも１つに基づいて当該候補単語の適合度を算出する、請求項１５〜１８のうち何れか一項に記載の音声認識装置。
前記代替部は、前記文章に関する第１モデル基盤確率分布に基づいて前記第１モデルのための第１重み及び前記第２モデルのための第２重みを動的に制御する、請求項１９に記載の音声認識装置。
第１言語モデルを用いてユーザによって表現された音声から文章を認識する第１認識装置と、
前記第１言語モデルよりも高い複雑度を有する第２言語モデルを用いて前記文章の正確度を向上させる第２認識装置と、
を含む、音声認識装置。
前記第１認識装置は、音声モデルを用いて前記音声から音素を認識し、前記第１言語モデルを用いて前記音素から前記文章を認識する、請求項２１に記載の音声認識装置。
前記第２認識装置は、
前記第２言語モデルを用いて前記文章内の単語のうち最も不正確なものとして予測される単語を識別し、
前記第２言語モデルを用いて前記識別された単語を前記文章の正確度を向上させる単語に代替する、請求項２１又は２２に記載の音声認識装置。
前記第２認識装置は、前記第２言語モデルと音声モデルを用いて前記識別された単語を前記文章の正確度を向上させる単語に代替する、請求項２３に記載の音声認識装置。
前記第１認識装置は、前記言語モデルを用いて前記音声から音素を認識し、前記第１言語モデルを用いて前記音素から前記文章を認識する、請求項２４に記載の音声認識装置。
前記第２認識装置は、前記識別された単語に基づいて候補単語を取得し、前記候補単語から前記文章の正確度を向上させる単語を選択する、請求項２３〜２５のうち何れか一項に記載の音声認識装置。
前記第２認識装置は、前記第２言語モデル及び音声モデルのうち少なくとも１つ、前記識別された単語及び前記文章内の他の単語に基づいて予め備えられた辞書から前記候補単語を取得する、請求項２６に記載の音声認識装置。