JP2017076127A

JP2017076127A - 音響モデル入力データの正規化装置及び方法と、音声認識装置

Info

Publication number: JP2017076127A
Application number: JP2016202591A
Authority: JP
Inventors: 仁哲宋; In Chul Song; 榮相崔; Youngsang Choi; 輝棟羅; Hwi Dong Na
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2015-10-16
Filing date: 2016-10-14
Publication date: 2017-04-20
Anticipated expiration: 2036-10-14
Also published as: KR20170045041A; CN106601240A; EP3157004A1; CN106601240B; EP3157004B1; US9972305B2; JP6875819B2; KR102192678B1; US20170110115A1

Abstract

【課題】音響モデル入力データの正規化装置及び方法と、音声認識装置と、を提供する。【解決手段】音響モデル入力データの正規化装置は、認識する音声のフレームデータから、音響モデルに入力するフレームデータのウィンドウを抽出するウィンドウ抽出部と、音響モデルに入力するフレームデータを抽出されたウィンドウ単位で正規化する正規化部と、を含みうる。【選択図】図１

Description

本発明は、音声認識で漸進的デコーディングのために音響モデル入力データを正規化する技術に関する。

一般的に、音声認識エンジンは、音響モデル、言語モデル及びデコーダで構成される。音響モデルは、入力される音声信号の各フレームに対して発音別の確率を計算し、言語モデルは、特定の単語や文章がどれほどよく使われるかに関する情報を提供する。デコーダは、音響モデルと言語モデルとで提供する情報に基づいて入力された音声が、如何なる単語や文章に近いかを計算して出力する。一般的に、ＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）音響モデルが主に使われ、最近、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）音響モデルの登場によって音声認識性能が向上した。ＢＲＤＮＮ（ＢｉｄｉｒｅｃｔｉｏｎａｌＲｅｃｕｒｒｅｎｔＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）は、音声の各フレームに対して発音別の確率を計算するとき、双方向情報、すなわち、前側と裏側とのフレーム情報を共に考慮して計算するために、全体音声を入力として受ける。ＢＲＤＮＮ音響モデルは、モデル練習のときに入力される音声信号の各フレームをＮ次元ベクトルと表現するとき、ベクトルの各次元の値が、特定の範囲内にあるように正規化を行い、一般的に、正規化は、全体練習データを基準に行うこともでき、各発話（Ｕｔｔｅｒａｎｃｅ）を基準に行うこともできるが、ＢＲＤＮＮ音響モデルは、発話を単位にして正規化を行う。

本発明が解決しようとする課題は、音響モデル入力データの正規化装置及び方法と、音声認識装置と、を提供するところにある。

一実施形態によれば、音響モデル入力データの正規化装置は、認識する音声のフレームデータから、音響モデルに入力するフレームデータのウィンドウを抽出するウィンドウ抽出部と、音響モデルに入力するフレームデータを抽出されたウィンドウ単位で正規化する正規化部と、を含みうる。

ウィンドウ抽出部は、認識する音声のフレームデータの各フレームが入力される間に、所定個数のフレーム単位で連続してウィンドウを抽出することができる。

正規化部は、現在ウィンドウの両側に追加されたパディングフレームが存在すれば、現在ウィンドウに属したフレームとパディングフレームとを共に正規化することができる。

正規化部は、現在ウィンドウに属したフレームを正規化するとき、現在ウィンドウの以前ウィンドウに属したフレームを考慮して正規化することができる。

正規化部は、現在ウィンドウに属するフレームを正規化するとき、以前ウィンドウに属するフレームの個数が十分ではない場合、練習データのフレームをさらに考慮して正規化することができる。

正規化部は、現在ウィンドウ及び以前ウィンドウに属するフレームの総個数が基準値よりも小さい場合、総個数と基準値との差に該当する個数のフレームを練習データから獲得することができる。

正規化部は、抽出されたウィンドウに属するフレームデータに対する平均が０、標準偏差が１になるように正規化することができる。

一態様によれば、音響モデル入力データの正規化方法は、認識する音声のフレームデータから、音響モデルに入力するフレームデータのウィンドウを抽出する段階と、音響モデルに入力するフレームデータを抽出されたウィンドウ単位で正規化する段階と、を含みうる。

ウィンドウを抽出する段階は、認識する音声のフレームデータの各フレームが入力される間に、所定個数のフレーム単位で連続してウィンドウを抽出することができる。

正規化する段階は、現在ウィンドウの両側に追加されたパディングフレームが存在すれば、現在ウィンドウに属したフレームとパディングフレームとを共に正規化することができる。

正規化する段階は、現在ウィンドウに属したフレームを正規化するとき、現在ウィンドウの以前ウィンドウに属したフレームを考慮して正規化することができる。

正規化する段階は、現在ウィンドウに属するフレームを正規化するとき、以前ウィンドウに属するフレームの個数が十分ではない場合、練習データのフレームをさらに考慮して正規化することができる。

正規化する段階は、現在ウィンドウが抽出されれば、現在ウィンドウ及び以前ウィンドウに属するフレームの総個数と基準値とを比較する段階と、比較の結果、総個数が基準値よりも小さければ、総個数と基準値との差に該当する個数のフレームを前記練習データから獲得する段階と、を含みうる。

正規化する段階は、抽出されたウィンドウに属するフレームデータに対する平均が０、標準偏差が１になるように正規化することができる。

一態様によれば、コンピュータで読み取り可能な記録媒体は、プロセッサに、前述した方法を行わせるための命令語を収録することができる。

一態様によれば、音声認識装置は、認識する音声のフレームデータから音響モデルに入力するフレームデータのウィンドウを抽出し、該抽出されるウィンドウ単位で正規化を行う前処理部と、多層構造ニューラルネットワーク（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）に基づく音響モデルを用いて、正規化が行われたウィンドウ単位で音響点数を計算する音響点数計算部と、ウィンドウ単位で計算される音響点数を解析して、認識する音声の認識結果を出力する解析部と、を含みうる。

前処理部は、現在ウィンドウを正規化するとき、現在ウィンドウの以前ウィンドウに属したフレームを考慮して正規化することができる。

前処理部は、以前ウィンドウに属するフレームの個数が十分ではない場合、練習データのフレームをさらに考慮して、現在ウィンドウを正規化することができる。

解析部は、認識する音声の入力が進行する途中で、既定の基準を満足するか、ユーザの入力があれば、現在ウィンドウの認識結果を認識する音声全体に対する最終認識結果として出力することができる。

多層構造ニューラルネットワークは、双方向再帰型多層構造ニューラルネットワーク（ＢｉｄｉｒｅｃｔｉｏｎａｌＲｅｃｕｒｒｅｎｔＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）であり得る。

音声認識装置は、言語モデルを用いて言語点数を計算する言語点数計算部をさらに含み、言語点数をさらに基にして、認識結果を出力することができる。

他の態様による音響モデル入力データの正規化装置は、認識する音声のフレームデータから、音響モデルに入力するフレームデータのウィンドウを抽出するウィンドウ抽出部と、音声認識が可能な十分な量のフレームデータに基づいて、音響モデルに入力するフレームデータを正規化する正規化部と、を含みうる。

正規化部は、最初に抽出されたウィンドウから現在抽出されたウィンドウまでのあらゆるウィンドウのフレームに基づいて、フレームデータを正規化することができる。

正規化部は、最初に抽出されたウィンドウから現在抽出されたウィンドウのあらゆるフレーム及び練習データのフレームに基づいて、フレームデータを正規化することができる。

この際、練習データのフレームの個数は、最初に抽出されたウィンドウから現在抽出されたウィンドウまでのあらゆるウィンドウのフレームの総個数と音声認識が可能な最小限の個数を示す基準値との差と同一であり得る。

正規化部は、ウィンドウが抽出される度に現在抽出されたウィンドウのフレームを正規化することができる。

一実施形態による音声認識装置のブロック図である。一実施形態による正規化装置のブロック図である。他の実施形態による正規化装置のブロック図である。一実施形態による正規化方法を説明する図面である。一実施形態による正規化方法を説明する図面である。一実施形態による正規化方法を説明する図面である。一実施形態による正規化方法を説明する図面である。一実施形態による正規化方法のフローチャートである。他の実施形態による正規化方法のフローチャートである。一実施形態による音声認識技術が適用された電子装置のブロック図である。

その他の実施形態の具体的な事項は、詳細な説明及び図面に含まれている。記載の技術の利点及び特徴、そして、それらを果たす方法は、図面と共に詳細に後述されている実施形態を参照すると、明確になる。明細書の全般に亘って同じ参照符号は、同じ構成要素を指称する。

以下、音響モデル入力データの正規化装置及び方法と、音声認識装置の実施形態を図面を参考にして詳しく説明する。

図１は、一実施形態による音声認識装置のブロック図である。音声認識装置１００は、入力された音声信号に対する音声認識結果を出力する独立したハードウェア装置として具現されるか、音声認識結果を用いて、各種の機能（例：翻訳／通訳、自律走行／ＴＶ／ナビゲーション関連制御命令など）を行う電子装置にハードウェアまたはソフトウェアモジュールとして搭載されうる。

図１を参照すれば、音声認識装置１００は、前処理部１１０、音響点数計算部１２０、言語点数計算部１３０及び解析部１４０を含みうる。音声認識装置１００の各構成１１０、１２０、１３０、１４０は、それぞれ独立して、または２つ以上が共に具現可能である。一例として、前処理部１１０は、図２を参照して後述するように、別途の正規化装置２００として具現可能である。

前処理部１１０は、認識する音声信号が入力されれば、音声認識のための前処理作業を行う。

例えば、入力された音声信号がアナログ信号であれば、それをデジタル信号に変換して多数の音声フレームに分けることができる。一般的に、１秒の音声信号に対して１００フレームに分けられうる。また、前処理部１１０は、このように分けられた音声フレームデータを用いて音響モデルに入力するウィンドウを抽出することができる。この際、前処理部１１０は、認識する音声信号全体が入力されるまで待たず、音声信号が入力されている間にウィンドウサイズに該当するフレームが入力される度にウィンドウを抽出することができる。

ここで、ウィンドウは、音響モデルに入力されるフレームデータの単位を示し、ウィンドウサイズは、ウィンドウに含まれるフレームの個数を意味し、認識する音声信号の全体フレーム個数よりも少ない個数で設定しうる。この際、ウィンドウサイズは、音声認識の適用分野、装置のコンピュータ性能などに基づいて、設定及び調整されうる。例えば、音声認識の適用分野が、翻訳または通訳であれば、迅速性よりも正確性がさらに重要であるので、ウィンドウサイズは、相対的に大きく設定しうる。また、音声認識の適用分野が、ＴＶなどの装置に内蔵されている命令語を処理することであれば、その装置と関連した命令語の数は制限されており、迅速に命令を処理することがさらに重要であるので、ウィンドウサイズは、相対的に小さく設定しうる。

前処理部１１０は、このように音響モデルに入力するためのウィンドウが抽出されれば、該抽出されたウィンドウ単位で正規化を行うことができる。すなわち、前処理部１１０は、ウィンドウが抽出される度に、抽出されたウィンドウに属した各フレームを正規化することができる。

音響点数計算部１２０は、音響モデルを用いて抽出されるウィンドウ単位で音響点数を計算することができる。この際、音響モデルは、ＤＮＮ音響モデルのうちの何れか１つ、例えば、ＢＲＤＮＮ音響モデルであり得る。音響点数計算部１２０は、前処理部１１０によってウィンドウが抽出されて、そのウィンドウに属したフレームが正規化されれば、該正規化されたフレームを音響モデルに入力して音響点数を計算することができる。この際、音響点数は、発音別の確率であり得る。但し、点数算出の単位において、例示された発音に限定されず、音素、形態素、単語、句、文章などの多様な言語認識単位のうちの何れか１つであり得る。

一方、前処理部１１０は、音響点数計算部１２０がより正確に音響点数を計算できるように、抽出したウィンドウの両側にパディングフレームを追加することができる。この際、パディングフレームの追加有無及び追加されるパディングフレームの個数は、あらかじめ設定しうる。前処理部１１０は、現在ウィンドウを抽出してパディングフレームを追加した場合、追加されたパディングフレームも、そのウィンドウに属したものと仮定し、ウィンドウに属したフレーム及びパディングフレームを共に正規化することができる。

前処理部１１０は、パディングフレームを追加すると設定されている場合、抽出された現在ウィンドウの最初のフレームと最後のフレームとに隣接する左右側フレームをそれぞれ現在ウィンドウの左右に追加することができる。したがって、最初のウィンドウの左側と最後のウィンドウの右側には、パディングフレームが追加されないこともある。例えば、もし、２つのパディングフレームが追加され、現在ウィンドウが、フレーム１、２、３、４を含む最初のフレームであれば、現在ウィンドウの左側には、パディングフレームが追加されず、フレーム５、６が、現在ウィンドウの右側に追加される。もし、現在ウィンドウが、フレーム５、６、７、８を含む二番目のウィンドウであれば、フレーム３、４が、現在ウィンドウの左側に追加され、フレーム９、１０が、現在ウィンドウの右側に追加される。もし、現在ウィンドウが、フレーム１３、１４、１５、１６を含む最後のウィンドウであれば、フレーム１１及び１２が、現在ウィンドウの左側に追加され、現在ウィンドウの右側には、パディングフレームが追加されない。

音響点数計算部１２０は、ウィンドウにパディングフレームが追加された場合、ウィンドウに属したフレームとパディングフレームとを共にＤＮＮ音響モデルに入力して音響点数を計算することができる。この際、ＤＮＮ音響モデルは、ＢＲＤＮＮ音響モデルであり得る。音響点数計算部１２０は、以前ウィンドウに追加されたパディングフレームに対して計算された音響点数に基づいて、そのパディングフレームと重畳する現在ウィンドウのフレームに対する音響点数を計算することができる。この際、音響点数計算部１２０は、現在ウィンドウに属したフレームと以前ウィンドウのパディングフレームとが重畳する場合、その重畳する現在ウィンドウのフレームとパディングフレームとに対して算出された各音響点数を平均した値、または、各音響点数に加重値を付与した後の平均した値を、その重畳する現在ウィンドウのフレームに対する音響点数として使うことができる。

例えば、以前ウィンドウのフレームが、フレーム９、１０、１１、１２であると仮定すれば、フレーム７、８は、以前ウィンドウのパディングフレームとしてフレーム９の左側に追加され、フレーム１３、１４は、以前ウィンドウのパディングフレームとしてフレーム１２の右側に追加される。現在ウィンドウのフレームが、フレーム１３、１４、１５、１６であると仮定すれば、現在ウィンドウのフレーム１３は、以前ウィンドウのパディングフレーム１３と重畳される。音響点数計算部１２０は、現在ウィンドウのフレーム１３に対して計算された音響点数と以前ウィンドウのパディングフレーム１３に対して計算された音響点数との平均を使うことができる。この際、音響点数計算部１２０は、数式Ｙ＝（ａ＋ｂ）／２を使って平均を計算し、ここで、Ｙは、現在ウィンドウのフレーム１３に対して再計算された音響点数であり、ａは、以前ウィンドウのパディングフレーム１３の音響点数であり、ｂは、現在ウィンドウのフレーム１３の音響点数を示す。但し、これに制限されるものではなく、音響点数計算部１２０は、現在ウィンドウのフレーム１３及び以前ウィンドウのパディングフレーム１３に対して計算された音響点数を加重値を付与して計算された値の平均を、現在ウィンドウのフレーム１３に対する音響点数として使うことができる。この際、音響点数計算部１２０は、数式Ｙ＝（（１−α）ａ＋αｂ）／２、ここで、Ｙは、現在ウィンドウのフレーム１３に対する再計算された音響点数であり、αは、加重値（０≦α≦１）、ａは、以前ウィンドウのパディングフレーム１３の音響点数、及びｂは、現在ウィンドウ１３に対して計算された音響点数を示す。

言語点数計算部１３０は、音響点数計算部１２０によって計算された音響点数及び言語モデルを用いて単語や文章などに関する情報、例えば、単語や文章の使用頻度に関する言語点数を出力することができる。この際、言語モデルは、Ｎ−Ｇｒａｍまたはニューラルネットワークを基盤とすることができる。

解析部１４０は、多様な解析技法を活用してウィンドウ単位で音響点数計算部１２０及び言語点数計算部１３０から出力される音響点数及び言語点数を解析して、ウィンドウ単位の認識結果を出力することができる。すなわち、解析部１４０は、最後の音声信号に対するウィンドウの音響点数及び言語点数を待つ必要なしに、現在ウィンドウの音響点数及び言語点数が計算されれば、現在ウィンドウの音響点数及び言語点数に基づいて、全体音声に対する認識結果を出力することができる。

解析部１４０は、現在ウィンドウの認識結果が、既定の基準を満足するか、ユーザの入力がある場合、その現在ウィンドウの認識結果を全体音声信号に対する最終認識結果として出力することができる。この際、既定の基準は、抽出されるウィンドウの個数であるか、認識結果に対する臨界値であり得る。但し、これは、１つの例を説明するものであって、例示されたものに限定されるものではない。例えば、迅速な音声認識が必要な場合、相対的に少ない個数のウィンドウサイズ（例：２）に設定され、この場合、解析部１４０は、二番目のウィンドウの認識結果が出力されれば、その認識結果を認識しようとする全体音声信号に対する最終認識結果として出力することができる。他の例として、二番目のウィンドウに対して特定の単語／文章の使用確率が既定の臨界値（例：７０％）よりも大きければ、解析部１４０は、二番目のウィンドウまでの認識結果を認識する全体音声信号に最終認識結果として出力することができる。

図２は、一実施形態による正規化装置のブロック図である。本実施形態の正規化装置２００は、図１の前処理部１１０の一実施形態であって、漸進的デコーディングのために必要な音響モデル入力データの抽出及びその入力データの正規化方法をさらに詳細に説明する。

図２を参照すれば、正規化装置２００は、ウィンドウ抽出部２１０及び正規化部２２０を含みうる。

ウィンドウ抽出部２１０は、認識する音声信号に対する音声フレームデータの入力が進行すれば、全体フレームが入力されるまで待たず、既定のウィンドウサイズの単位で音響モデルに入力するフレームデータであるウィンドウを順次に抽出することができる。

例えば、認識する音声信号に対する音声フレームの個数がＮ、設定されたウィンドウのサイズがＫであるとすれば、ウィンドウ抽出部２１０は、最初のフレームからＫ番目のフレームが入力されるまで待機し、Ｋ番目のフレームが入力されれば、最初のフレームからＫ番目のフレームまでを最初のウィンドウとして抽出し、以後、２Ｋ番目のフレームまで入力されれば、Ｋ＋１番目のフレームから２Ｋ番目のフレームまでを二番目のウィンドウとして抽出することができる。このような過程を最後のフレームが入力されるまで繰り返し行うことができる。

また、ウィンドウ抽出部２１０は、ウィンドウが抽出されれば、該抽出されたウィンドウの両側にパディングフレームを追加することができる。すなわち、ＢＲＤＮＮ音響モデルでより正確な音響点数が計算されるように、ウィンドウにパディングフレームを追加し、この際、パディングフレームの追加有無及び追加されるパディングフレームのサイズは、あらかじめ設定しうる。特定のウィンドウに追加されたパディングフレームは、そのウィンドウの音響点数計算のときに共に計算され、他のウィンドウの音響点数計算のときに用いられうる。

正規化部２２０は、ウィンドウ抽出部２１０によって音響モデルに入力するウィンドウが順次に抽出されれば、該抽出されるウィンドウ単位で正規化することができる。この際、正規化部２２０は、現在ウィンドウが抽出されて正規化を行うとき、現在ウィンドウにパディングフレームが追加されている場合、パディングフレームも、ウィンドウに属したフレームと見なし、正規化を行うことができる。

一例として、正規化部２２０は、現在ウィンドウに属した各フレームを正規化するとき、現在ウィンドウの以前ウィンドウに属したフレームの情報を考慮して正規化することができる。この際、下記の（式１）のように、現在ウィンドウに属した最後のフレームが、Ｌ番目のフレーム、すなわち、最初のウィンドウから現在ウィンドウまで総Ｌ個のフレームが抽出され、該抽出されたフレームをｄ次元のベクトルｘと表現するとき、ベクトルの各次元ｄの値ｘ［ｄ］の分布が、平均（Ｍ（ｄ））が０、標準偏差（ＳＤ（ｄ））が１になるようにｘ［ｄ］をｘ＾［ｄ］に正規化することができる。この際、ｘ_ｉは、ｉ番目のフレームの値を意味し、ウィンドウの右側にパディングフレームが追加されている場合には、Ｌは、ウィンドウの最後のフレームにパディングフレームの個数を合わせた値であり得る。例えば、現在ウィンドウの最後のフレームの番号が１６であり、２つのパディングフレームが、現在ウィンドウの右側に追加されるならば、Ｌ＝１６＋２＝１８。

図３は、他の実施形態による正規化装置のブロック図である。図３を参照すれば、他の実施形態による正規化装置３００は、ウィンドウ抽出部３１０、正規化部３２０及び練習データ３３０を含みうる。この際、ウィンドウ抽出部３１０及び正規化部３２０は、図２を参照して説明した構成２１０、２２０と同一なので、重複されていない機能を中心に簡単に説明する。練習データ３３０は、いくつかのメモリ、他の保存機器に保存され、図１の音響点数計算部に含まれた音響モデルを練習させるために使われる練習データであり得る。その練習データは、図１の音声認識分野が適用される分野から獲得される。したがって、音声認識装置１００に入力される音声信号は、練習データ３３０に含まれる構文であり得る。本実施形態によれば、正規化部３２０は、練習データ３３０をさらに考慮して現在抽出されたウィンドウに属した各フレームを正規化することができる。この際、正規化部３２０は、現在ウィンドウが抽出されれば、最初のウィンドウから現在ウィンドウまで抽出された総フレームの個数が正確な音声認識のために十分であるか否かを判断し、十分ではない場合、練習データ３３０をさらに考慮することができる。

例えば、正規化部３２０は、現在ウィンドウが抽出されれば、最初のウィンドウから現在ウィンドウまで抽出された総フレームの個数（Ｌ）と既定の基準値（Ｇ）とを比較し、総フレームの個数（Ｌ）が、基準値（Ｇ）よりも小さければ、練習データ３３０から必要なフレーム、例えば、基準値（Ｇ）と総フレーム個数（Ｌ）との差（Ｇ−Ｌ）に該当する個数のフレームを練習データ３３０から獲得して、現在ウィンドウの正規化のときに考慮することができる。

このために、前記の（式１）で、平均（Ｍ（ｄ））と標準偏差（ＳＤ（ｄ））の計算式は、下記の（式２）のように変更されうる。

この際、ｘ_ｊは、練習データのｊ番目のフレーム値を意味し、Ｎは、練習データの総フレーム数を示す。

正規化部３２０は、（式２）のように、練習データを反映して平均（Ｍ（ｄ））と標準偏差（ＳＤ（ｄ））とを算出すれば、該算出された平均と標準偏差とを（式１）の最初の式に代入してｘ［ｄ］をｘ＾［ｄ］に正規化することができる。

図２及び図３の実施形態によれば、認識する全体フレームのうちから漸進的デコーディングのために、音響モデルに一部のフレームのみを入力して音声認識を行っても、正確な音声認識が可能となる。すなわち、一実施形態によれば、最初のウィンドウや二番目のウィンドウのように十分ではないフレームに対して正規化を行っても、音声認識が可能な十分なフレームを考慮することによって、十分ではないフレームを正規化する場合、そのフレームが、ユーザの音声に該当するフレームではないとしても、音声としての誤認識を防止することができる。

但し、図２及び図３の実施形態に限定されるものではなく、正規化部２２０は、現在抽出されたウィンドウに属したフレームの個数が十分な場合、例えば、正確な音声認識のためにウィンドウのサイズを十分に大きく設定した場合には、以前ウィンドウのフレームや練習データのフレームを考慮する必要なしに、現在ウィンドウに属したフレームの情報のみを用いて正規化することも可能である。

図４Ａないし図４Ｄは、一実施形態による正規化方法を説明する図面である。図２ないし図４Ｄを参照して、正規化を行う実施形態を例として説明する。まず、認識する音声信号の全体フレームデータの個数は１８、ウィンドウサイズは４であると仮定する。

図４Ａは、認識する音声信号に対するフレームデータから、音響モデルに入力するウィンドウを抽出する例を図示したものであって、ウィンドウ抽出部２１０、３１０は、音声信号に対するフレームデータがフレーム１から順次に入力され始めれば、ウィンドウサイズ４に該当するフレーム４が入力されるまで待機し、フレーム４が入力されれば、最初のウィンドウＷ１を抽出する。次いで、フレーム８まで入力されれば、フレーム５からフレーム８を二番目のウィンドウＷ２として抽出する。ウィンドウ抽出部２１０、３１０は、認識する音声信号に対するあらゆるフレームが入力されるまで、この過程を繰り返す。この際、総フレームの個数１８がウィンドウサイズ４の倍数ではないので、最後のウィンドウは、フレーム個数が４にならないこともある。このように、抽出されるウィンドウは、順次に音響モデルに入力され、ウィンドウ単位で音響点数、例えば、発音別の確率が計算されうる。

図４Ｂは、正規化部２２０によって行われる正規化方法の一実施形態であって、正規化部２２０は、抽出された現在ウィンドウＷ３に属したフレーム９、１０、１１、１２のみを考慮して正規化を行うことができる。本実施形態は、ウィンドウのサイズが正確な音声認識のために十分に大きく設定された場合に適用可能である。

図４Ｃは、正規化部２２０によって行われる正規化方法の他の実施形態であって、正規化部２２０は、抽出された現在ウィンドウＷ３を正規化するとき、以前ウィンドウに属するフレーム、すなわち、フレーム１ないしフレーム８を考慮して正規化し、この際、（式１）を用いて正規化することができる。

図４Ｄは、正規化部３２０によって行われる正規化方法の実施形態であって、既定の基準値が８であるとするとき、正規化部３２０は、最初のウィンドウＷ１が抽出されれば、現在総抽出されたフレームの個数が４なので、基準値８よりも小さいので、その差である４つのフレームを練習データから持って来て正規化を行うことができる。この際、正規化部３２０は、（式２）によって平均及び標準偏差を計算し、（式１）によって正規化することができる。

図５は、一実施形態による正規化方法のフローチャートである。

図５の正規化方法は、図２の正規化装置２００によって行われる実施形態であって、正規化装置２００は、認識する音声信号に対するフレームを順次に入力される（５１０）。

次いで、音声信号のフレームが入力される間に、既定のウィンドウサイズに該当するフレームが入力されれば、音響モデルに入力するフレームデータとしてウィンドウを抽出する（５２０）。この際、正規化装置２００は、抽出されたウィンドウの両側にパディングフレームを追加することができる。

次いで、正規化装置２００は、音響モデルに入力するウィンドウが抽出されれば、現在抽出されたウィンドウの正規化を行うことができる（５３０）。この際、正規化装置２００は、現在ウィンドウにパディングフレームが追加されている場合、パディングフレームを共に考慮して正規化を行うことができる。正規化装置２００は、現在ウィンドウに属した各フレームを正規化するとき、より正確な音声認識のために、以前に抽出されたあらゆるウィンドウに属したフレームの情報を考慮して正規化することができる。この際、（式１）を用いて正規化することができる。但し、これに限定されず、以前ウィンドウのうちの一部を用いて正規化し、現在ウィンドウのサイズが正規化に十分な場合には、現在ウィンドウに属したフレームのみを用いて正規化することも可能である。

次いで、正規化装置２００は、次に抽出されるウィンドウが存在するか、すなわち、現在ウィンドウが最後のウィンドウであるか否かを判断し（５４０）、現在ウィンドウが最後のウィンドウではなければ、段階（５２０）に移動して、次のウィンドウを抽出する。

一方、図１の音声認識装置１００は、段階（５３０）から抽出された現在ウィンドウに対して正規化が行われれば、そのウィンドウに属したフレームを音響モデルに入力して音響点数を計算することができる（５５０）。

図６は、他の実施形態による正規化方法のフローチャートである。

図６の正規化方法は、図３の正規化装置３００によって行われる実施形態であって、正規化装置３００は、認識する音声信号に対するフレームを順次に入力される（６１０）。

次いで、音声信号のフレームが入力される間に、既定のウィンドウサイズに該当するフレームが入力されれば、音響モデルに入力するフレームデータとしてウィンドウを抽出する（６２０）。この際、正規化装置３００は、抽出されたウィンドウの両側にパディングフレームを追加することができる。

次いで、正規化装置３００は、抽出された現在ウィンドウに属したフレームを正規化するために必要な情報が十分であるか否かを判断することができる（６３０）。例えば、最初のフレームから現在ウィンドウに属した最後のフレームまでの総個数と既定の基準値とを比較して、総個数が基準値よりも小さければ、情報が十分ではないと判断することができる。

次いで、正規化装置３００は、正規化のために必要な情報が十分ではないと判断されれば、練習データから必要なフレームを獲得することができる（６４０）。この際、基準値と総フレーム個数との差に該当する個数のフレームを練習データから獲得して、現在ウィンドウの正規化のときに考慮することができる。

次いで、正規化装置３００は、練習データから獲得されたフレームをさらに考慮して現在抽出されたウィンドウに属した各フレームを正規化することができる（６５０）。この際、正規化装置３００は、（式２）を通じて正規化を行うことができる。

次いで、正規化装置３００は、次に抽出されるウィンドウが存在するか、すなわち、現在ウィンドウが最後のウィンドウであるか否かを判断し（６６０）、現在ウィンドウが最後のウィンドウではなければ、段階（６２０）に移動して、次のウィンドウを抽出する。

一方、図１の音声認識装置１００は、段階（６７０）で現在ウィンドウに対して正規化を行えば、そのウィンドウに属したフレームを音響モデルに入力して音響点数を計算することができる（６７０）。

図７は、一実施形態による音声認識技術が適用された電子装置のブロック図である。

図７を参照すれば、電子装置７００は、音声入力部７１０、音声認識部７２０及び処理部７３０を含みうる。音声認識部７２０は、図１の音声認識装置１００の一実施形態であり得る。

音声入力部７１０は、電子装置７００のマイクロホンを通じて、ユーザが入力する音声信号を受信することができる。ユーザの音声信号は、他の言語への翻訳／通訳、ＴＶ制御や自動車走行制御のために電子装置７００にエンベデッドされた命令の遂行と関連する。

音声認識部７２０は、入力される音声信号に対するフレームが順次に入力されれば、該入力されるフレームデータから音響モデルに入力するためのウィンドウを抽出することができる。音声認識部７２０は、抽出されたウィンドウ単位で正規化を行い、この際、ウィンドウの両側にパディングフレームを追加した場合、パディングフレームを共に正規化することができる。また、音声認識部７２０は、ウィンドウ単位で正規化が行われれば、音響モデル及び／または言語モデルを適用し、音響点数及び／または音響点数を漸進的に解析して認識結果を出力することができる。

処理部７３０は、音声認識結果が出力されれば、それに相応する動作を行うことができる。例えば、音声認識結果を音声として出力するか、ディスプレイにテキスト形式で提供し、電子装置７００にエンベデッドされた命令語（例：電源オン／オフ、ボリューム調節、自動車走行制御など）の処理動作を行うことができる。また、翻訳／通訳などを行うことができる。但し、これに限定されるものではなく、その他の多様な分野で活用が可能である。

一方、本実施形態は、コンピュータで読み取り可能な記録媒体にコンピュータで読み取り可能なコードとして具現することが可能である。コンピュータで読み取り可能な記録媒体は、コンピュータシステムによって読み取れるデータが保存されるあらゆる種類の記録装置を含む。

コンピュータで読み取り可能な記録媒体の例としては、ＲＯＭ、ＲＡＭ、ＣＤ−ＲＯＭ、磁気テープ、フロッピーディスク、光データ保存装置などがあり、また、搬送波（例えば、インターネットを介した伝送）の形態で具現するものを含む。また、コンピュータで読み取り可能な記録媒体は、ネットワークで連結されたコンピュータシステムに分散されて、分散方式でコンピュータで読み取り可能なコードとして保存されて実行可能である。そして、本実施形態を具現するための機能的なプログラム、コード及びコードセグメントは、本発明が属する技術分野のプログラマーによって容易に推論されうる。

当業者ならば、開示された技術的思想や必須的な特徴を変更せずとも、他の具体的な形態で実施可能であることを理解できるであろう。したがって、前述した実施形態は、あらゆる面で例示的なものであり、限定的ではないということを理解せねばならない。

本発明は、音響モデル入力データの正規化装置及び方法と、音声認識装置関連の技術分野に適用可能である。

１１０前処理部
１２０音響点数計算部
１３０言語点数計算部
１４０解析部

Claims

認識する音声のフレームデータから、音響モデルに入力するフレームデータのウィンドウを抽出するウィンドウ抽出部と、
前記音響モデルに入力するフレームデータを前記抽出されたウィンドウ単位で正規化する正規化部と、
を含む音響モデル入力データの正規化装置。
前記ウィンドウ抽出部は、
前記認識する音声のフレームデータの各フレームが入力される間に、前記認識する音声のフレームデータから所定個数のフレーム単位で連続してウィンドウを抽出する請求項１に記載の音響モデル入力データの正規化装置。
前記正規化部は、
現在ウィンドウの両側に追加されたパディングフレームが存在すれば、現在ウィンドウに属したフレームと前記パディングフレームとを共に正規化する請求項１又は２に記載の音響モデル入力データの正規化装置。
前記正規化部は、
現在ウィンドウに属したフレームを正規化するとき、前記現在ウィンドウの以前ウィンドウに属したフレームを考慮して正規化する請求項１乃至３のいずれか一項に記載の音響モデル入力データの正規化装置。
前記正規化部は、
前記現在ウィンドウに属するフレームを正規化するとき、前記以前ウィンドウに属したフレームの個数が十分ではない場合、練習データのフレームをさらに考慮して正規化する請求項４に記載の音響モデル入力データの正規化装置。
前記正規化部は、
前記現在ウィンドウ及び以前ウィンドウに属するフレームの総個数が基準値よりも小さい場合、前記総個数と基準値との差に該当する個数のフレームを前記練習データから獲得する請求項５に記載の音響モデル入力データの正規化装置。
前記正規化部は、
抽出されたウィンドウに属するフレームデータに対する平均が０、標準偏差が１になるように正規化する請求項１乃至６のいずれか一項に記載の音響モデル入力データの正規化装置。
認識する音声のフレームデータから、音響モデルに入力するフレームデータのウィンドウを抽出する段階と、
前記音響モデルに入力するフレームデータを前記抽出されたウィンドウ単位で正規化する段階と、
を含む音響モデル入力データの正規化方法。
前記ウィンドウを抽出する段階は、
前記認識する音声のフレームデータの各フレームが入力される間に、前記認識する音声のフレームデータから所定個数のフレーム単位で連続してウィンドウを抽出する請求項８に記載の音響モデル入力データの正規化方法。
前記正規化する段階は、
現在ウィンドウの両側に追加されたパディングフレームが存在すれば、現在ウィンドウに属したフレームと前記パディングフレームとを共に正規化する請求項８又は９に記載の音響モデル入力データの正規化方法。
前記正規化する段階は、
現在ウィンドウに属したフレームを正規化するとき、前記現在ウィンドウの以前ウィンドウに属したフレームを考慮して正規化する請求項８乃至１０のいずれか一項に記載の音響モデル入力データの正規化方法。
前記正規化する段階は、
前記現在ウィンドウに属するフレームを正規化するとき、前記以前ウィンドウに属したフレームの個数が十分ではない場合、練習データのフレームをさらに考慮して正規化する請求項１１に記載の音響モデル入力データの正規化方法。
前記正規化する段階は、
現在ウィンドウが抽出されれば、前記現在ウィンドウ及び以前ウィンドウに属するフレームの総個数と基準値とを比較する段階と、
前記比較の結果、総個数が基準値よりも小さければ、前記総個数と基準値との差に該当する個数のフレームを前記練習データから獲得する段階と、
を含む請求項１２に記載の音響モデル入力データの正規化方法。
前記正規化する段階は、
抽出されたウィンドウに属するフレームデータに対する平均が０、標準偏差が１になるように正規化する請求項８乃至１３のいずれか一項に記載の音響モデル入力データの正規化方法。
プロセッサに、請求項８乃至１４のいずれか一項に記載の方法を実行させるコンピュータプログラム。
認識する音声のフレームデータから音響モデルに入力するフレームデータのウィンドウを抽出し、前記抽出されるウィンドウ単位で正規化を行う前処理部と、
多層構造ニューラルネットワークに基づく音響モデルを用いて、前記正規化が行われたウィンドウ単位で音響点数を計算する音響点数計算部と、
前記ウィンドウ単位で計算される音響点数を解析して、前記認識する音声の認識結果を出力する解析部と、
を含む音声認識装置。
前記前処理部は、
現在ウィンドウを正規化するとき、前記現在ウィンドウの以前ウィンドウに属したフレームを考慮して正規化する請求項１６に記載の音声認識装置。
前記前処理部は、
前記以前ウィンドウに属したフレームの個数が十分ではない場合、練習データのフレームをさらに考慮して、前記現在ウィンドウを正規化する請求項１７に記載の音声認識装置。
前記解析部は、
前記認識する音声の入力が進行する途中で、既定の基準を満足するか、ユーザの入力があれば、現在ウィンドウの認識結果を前記認識する音声全体に対する最終認識結果として出力する請求項１６乃至１８のいずれか一項に記載の音声認識装置。
前記多層構造ニューラルネットワークは、双方向再帰型多層構造ニューラルネットワークである請求項１６乃至１９のいずれか一項に記載の音声認識装置。
言語モデルを用いて言語点数を計算する言語点数計算部をさらに含み、
前記解析部は、
前記解析された点数及び言語点数を基にして、前記認識結果を出力する請求項１６乃至１８のいずれか一項に記載の音声認識装置。
認識する音声のフレームデータから、音響モデルに入力するフレームデータのウィンドウを抽出するウィンドウ抽出部と、
音声認識が可能な十分な量のフレームデータに基づいて、前記音響モデルに入力するフレームデータを正規化する正規化部と、
を含む音響モデル入力データの正規化装置。
前記正規化部は、
最初に抽出されたウィンドウから現在抽出されたウィンドウまでのあらゆるウィンドウのフレームに基づいて、前記フレームデータを正規化する請求項２２に記載の音響モデル入力データの正規化装置。
前記正規化部は、
最初に抽出されたウィンドウから現在抽出されたウィンドウのあらゆるフレーム及び練習データのフレームに基づいて、前記フレームデータを正規化する請求項２２に記載の音響モデル入力データの正規化装置。
前記練習データのフレームの個数は、前記最初に抽出されたウィンドウから現在抽出されたウィンドウまでのあらゆるウィンドウのフレームの総個数と音声認識が可能な最小限の個数を示す基準値との差と同一である請求項２４に記載の音響モデル入力データの正規化装置。
前記正規化部は、
ウィンドウが抽出される度に現在抽出されたウィンドウのフレームを正規化する請求項２２に記載の音響モデル入力データの正規化装置。