JP6837298B2

JP6837298B2 - 音響点数を計算する装置及び方法、音声を認識する装置及び方法並びに電子装置

Info

Publication number: JP6837298B2
Application number: JP2016134954A
Authority: JP
Inventors: 仁哲宋; 榮相崔
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2015-07-24
Filing date: 2016-07-07
Publication date: 2021-03-03
Anticipated expiration: 2036-07-07
Also published as: US20170025119A1; EP3121810A1; KR20170011905A; JP2017027044A; CN106373561B; US10714077B2; KR102413692B1; EP3121810B1; CN106373561A

Description

本発明は、音声認識技術に係り、双方向循環深層神経網（ＢｉｄｉｒｅｃｔｉｏｎａｌＲｅｃｕｒｒｅｎｔＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ；以下、ＢＲＤＮＮと称する）を用いて漸進的音声認識を行う技術に関する。

一般的に、音声認識エンジンは、音響モデル（ａｃｏｕｓｔｉｃｍｏｄｅｌ）、言語モデル（ｌａｎｇｕａｇｅｍｏｄｅｌ）及びデコーダ（ｄｅｃｏｄｅｒ）を含む。デコーダは、入力された音声信号の解釈を行うために、音響モデル及び言語モデルを使う。例えば、入力された音声信号を受信すれば、音声認識エンジンは、入力される音声信号の各フレームに対して発音別の確率を計算する音響モデルと、特定の単語や文章がどれほどよく使われるかに関する情報を提供する言語モデルと、を使うことができる。デコーダは、入力された音声信号をシーケンスや単語に変換するために、音響モデルと言語モデルとで提供する情報に基づいて入力された音声が、如何なる単語や文章に近いかを計算して出力する。ＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）音響モデルが主に使われていたが、最近、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）音響モデルの登場によって音声認識性能が大きく向上した。特に、ＢＲＤＮＮは、音声のように経時的に変わるデータをよくモデリングすることができ、現在、音声認識分野で比較的優れた性能を有する音響モデルとして知られている。

しかし、ＢＲＤＮＮは、音声の各フレームに対して発音別の確率を計算する時、双方向情報、すなわち、前側と裏側とのフレーム情報を共に考慮して計算するために、常に全体音声を入力として受ける。したがって、ユーザの音声が入力される途中で認識結果を出す漸進的デコーディング方式への適用には難点がある。

本発明が解決しようとする課題は、音声認識及び音響点数計算装置及び方法を提供するところにある。

一態様によれば、音声認識のための音響点数計算装置は、音声フレームを順次にウィンドウに抽出する前処理部と、深層神経網（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）に基づく音響モデルを用いて、順次に抽出されたウィンドウの音響点数を計算する点数計算部と、を含みうる。

この際、深層神経網は、双方向循環深層神経網であり得る。

また、音響点数計算装置は、抽出されたウィンドウの両側にパッディングフレームを追加するパッディング追加部をさらに含みうる。

この際、抽出されたウィンドウの一部のフレームは、抽出されたウィンドウの隣接ウィンドウに追加されたパッディングフレームと重畳することができる。

点数計算部は、抽出されたウィンドウに対して音響点数が計算されれば、隣接ウィンドウのパッディングフレームに対して、既計算の音響点数に基づいて統計的技法を用いて、抽出されたウィンドウの重畳する一部のフレームに対する音響点数を再計算することができる。

この際、統計的技法は、算術平均及び幾何平均のうちの少なくとも１つを計算することを含みうる。

この際、ウィンドウのサイズ及びパッディングサイズは、音声認識の適用分野、装置が適用された機器のコンピューティング性能のうちの１つ以上に基づいて決定されうる。

一態様によれば、音声認識のための音響点数計算方法は、音声フレームを順次にウィンドウに抽出する段階と、深層神経網音響モデルを用いて抽出されるウィンドウの音響点数を計算する段階と、を含みうる。

音響点数計算方法は、抽出されたウィンドウの両側にパッディングフレームを追加する段階をさらに含みうる。

隣接ウィンドウに追加されたパッディングフレームに対して、既計算の音響点数に基づいて統計的技法を用いて、抽出されたウィンドウの重畳された一部のフレームに対する音響点数を再計算する段階をさらに含みうる。

この際、ウィンドウサイズ及びパッディングサイズは、音声認識の適用分野、音響点数計算方法を行う機器のコンピューティング性能のうちの１つ以上に基づいて決定されうる。

一態様によれば、音声認識装置は、認識する音声信号のフレームが連続して入力される間に、フレームをウィンドウに抽出する前処理部と、深層神経網に基づく音響モデルを用いて、抽出されたウィンドウの音響点数を出力する音響モデル適用部と、順次に出力されるウィンドウの音響点数に基づいて、現在ウィンドウまでの漸進的認識結果を出力する解釈部と、を含みうる。

音声認識装置は、言語モデルを用いて単語／文章別の点数を出力する言語モデル適用部をさらに含み、解釈部は、出力された単語／文章別の点数をさらに基にして、現在ウィンドウまでの漸進的認識結果を出力することができる。

解釈部は、既定の基準を満足する場合、現在ウィンドウまでの漸進的認識結果を音声信号に対する最終認識結果として出力することができる。

この際、言語モデルは、Ｎ−Ｇｒａｍまたは神経網（ＮｅｕｒａｌＮｅｔｗｏｒｋ）モデルを基礎とすることができる。

音響モデル適用部は、抽出されたウィンドウの両側にパッディングフレームを追加して、パッディングフレームが追加されたウィンドウの各フレームに対して音響点数を計算するが、抽出されたウィンドウの隣接ウィンドウに追加されたパッディングフレームに対して、既計算の音響点数を考慮して、抽出されたウィンドウの音響点数を計算することができる。

一態様によれば、音声認識方法は、認識する音声信号のフレームが連続して入力される間に、そのフレームをウィンドウに抽出する段階と、深層神経網に基づく音響モデルを用いて、抽出されたウィンドウの音響点数を出力する段階と、順次に出力されるウィンドウ単位の音響点数に基づいて、現在ウィンドウまでの漸進的認識結果を出力する段階と、を含みうる。

また、音声認識方法は、言語モデルを用いて単語／文章別の点数を出力する段階をさらに含み、漸進的認識結果を出力する段階は、出力された単語／文章別の点数をさらに基にして、現在ウィンドウまでの漸進的認識結果を出力することができる。

また、音声認識方法は、既定の基準を満足するか否かを判断する段階と、判断の結果、既定の基準を満足する場合、現在ウィンドウまでの漸進的認識結果を音声信号に対する最終認識結果として出力する段階と、をさらに含みうる。

また、音声認識方法は、抽出されたウィンドウの両側にパッディングフレームを追加する段階をさらに含み、音響点数を出力する段階は、パッディングフレームが追加されたウィンドウの各フレームに対して音響点数を計算するが、抽出されたウィンドウの隣接ウィンドウに追加されたパッディングフレームに対して、既計算の音響点数を考慮して、抽出されたウィンドウの音響点数を計算することができる。

一態様によれば、電子装置は、ユーザから音声信号を入力される音声入力部と、ユーザの音声信号が入力される間に、深層神経網音響モデルを用いて現在入力された音声信号のフレームをウィンドウ単位で音響点数を出力し、該出力されたウィンドウ単位の音響点数を漸進的に解釈してユーザの音声信号を認識する音声認識部と、認識結果に該当する動作を行う処理部と、を含みうる。

この際、動作は、認識結果を、テキストまたは音声として出力、他の言語に翻訳、及び電子装置に関する命令語の処理のうち、少なくとも１つを含みうる。

一実施形態による音響点数計算装置のブロック図である。他の実施形態による音響点数計算装置のブロック図である。一般的なＢＲＤＮＮに基づく音響モデルを説明する図面である。一実施形態によるＢＲＤＮＮに基づく音響モデルを説明する図面である。一実施形態によるＢＲＤＮＮに基づく音響モデルを説明する図面である。一実施形態による音響点数計算方法のフローチャートである。他の実施形態による音響点数計算方法のフローチャートである。一実施形態による音声認識装置のブロック図である。一実施形態による音声認識方法のフローチャートである。一実施形態による音声認識技術が適用された電子装置のブロック図である。図１０の電子装置が行う音声認識動作のフローチャートである。

その他の実施形態の具体的な事項は、詳細な説明及び図面に含まれている。記載の技術の利点及び特徴、そして、それらを果たす方法は、図面と共に詳細に後述されている実施形態を参照すると、明確になる。明細書の全般に亘って同じ参照符号は、同じ構成要素を指称する。

以下、音声認識のための音響点数計算装置及び方法、音声認識装置及び方法、電子装置の実施形態を図面を参考にして詳しく説明する。

図１は、一実施形態による音響点数計算装置のブロック図である。図１を参照すれば、音声認識のための音響点数計算装置１００は、前処理部１１０及び点数計算部１２０を含みうる。前処理部１１０及び点数計算部１２０は、１つ以上の回路、プロセッサ、メモリまたはそれらの組合わせによって具現化されうる。

前処理部１１０は、認識しようとする音声信号を音声フレームに変換し、該変換された音声フレームをウィンドウ単位で抽出する。一例として、前処理部１１０は、音声フレームを互いに重畳されないように連続したウィンドウに分けて順に抽出することができる。前処理過程は、音声信号から特定の特徴を抽出し、音声信号を音声フレームに変換することを含みうる。音声フレームは、言語で意味のある最も小さな音の単位である１つ以上の音素を含みうる。

例えば、認識しようとする全体音声信号に対する音声フレームの個数がＮ、設定されたウィンドウのサイズがＫであるとする時、前処理部１１０は、最初のフレームからＫ番目のフレームが入力されるまで待機し、Ｋ番目のフレームが入力されれば、最初のフレームからＫ番目のフレームまでを最初のウィンドウＷ１に出力する。以後、引き続きＫ＋１番目のフレームから２Ｋ番目のフレームまでを二番目のウィンドウＷ２に出力し、最後のフレームが入力されるまでＫ個のフレーム単位でウィンドウを抽出する過程を行う。

ここで、ウィンドウのサイズは、音声認識適用分野、適用装置のコンピューティング性能などに基づいて決定されうる。但し、これに制限されず、その他の多様な基準が共に考慮されうる。この際、ウィンドウサイズは、全体音声信号のフレーム個数よりも少ない個数で設定しうる。

一例として、音声認識分野が、他の言語への翻訳であれば、音声認識結果を迅速に提供するよりは正確に提供することがさらに重要であるので、ウィンドウサイズは、相対的に大きく設定しうる。

他の例として、音声認識分野が、ＴＶのような装置の命令語を処理することであれば、その装置と関連した命令語の数は制限されており、迅速に命令を処理することがさらに重要であるので、ウィンドウサイズは、相対的に小さく設定しうる。

この際、ウィンドウのサイズは、音声認識技術が適用されている装置のコンピューティング性能が共に考慮されうる。ここで、装置は、ＴＶ、ナビゲーション、自動車電子装置、スマートフォン、タブレットＰＣ、スマートウォッチ、デスクトップコンピュータ、ノート型パソコンなどを含むが、これらに制限されるものではない。

一方、ウィンドウサイズは、このような多様な基準に基づいてあらかじめ設定されうる。または、前処理部１１０が、音声認識過程でユーザによって設定された基準やコンピューティング性能などを収集して動的に決定するか、調整することも可能である。

点数計算部１２０は、ＤＮＮ音響モデルを用いて順次に抽出されるウィンドウ単位で音響点数を計算することができる。この際、ＤＮＮ音響モデルは、ＢＲＤＮＮ音響モデルであり得る。この際、音響点数は、音素別、発音別、形態素別、音節別または単語別の確率や状態情報を含みうる。但し、これらに制限されるものではなく、言語を形態学的に区分することができるあらゆる単位に係る確率や状態情報などを含みうる。以下、説明の便宜上、音響点数中の発音別の点数、例えば、発音別の確率を例として説明する。

点数計算部１２０は、前処理部１１０によってウィンドウが抽出される度に、抽出されたウィンドウに属したフレームを音響モデルに入力して、抽出されたウィンドウに属した各フレームに対する発音別の点数を計算することができる。このように、点数計算部１２０は、前処理部１１０によって抽出されるウィンドウ単位で発音別の点数を計算することができる。この際、発音別の点数は、特定のフレームに対して発音（例：ａ、ｅ、ｉ、ｏ、ｕ）別の確率や状態情報を含みうる。

開示された実施形態によれば、全体音声フレームを音響モデルに入力せず、ウィンドウ単位で音響モデルに入力して発音別の点数を計算するので、図８を参照して詳しく後述するところによっても分かるように、音声認識装置は、ユーザが音声を入力する途中でウィンドウ単位で漸進的に解釈して音声認識結果を返還することが可能となる。

図２は、他の実施形態による音響点数計算装置のブロック図である。図２を参照すれば、音響点数計算装置２００は、前処理部２１０、点数計算部２２０及びパッディング追加部２３０を含みうる。前処理部２１０、点数計算部２２０及びパッディング追加部２３０は、１つ以上の回路、プロセッサ、メモリまたはそれらの組合わせによって具現されうる。一例として、前処理部２１０は、全体または部分的にパッディング追加部２３０の機能を行える。前処理部２１０及び点数計算部２２０の構成は、図１の音響点数計算装置１００の前処理部２１０及び点数計算部２２０と同一なので、詳しい説明は省略する。

前処理部２１０は、認識しようとする音声信号を音声フレームに変換し、該変換された音声フレームを互いに重畳されないように連続したウィンドウに分けて順に抽出することができる。この際、ウィンドウのサイズは、前述したように音声認識の適用分野、適用装置のコンピューティング性能のような多様な基準を考慮して決定され、全体音声信号のフレーム個数よりも少ない個数で設定しうる。

例えば、翻訳のように正確性がより重要な分野の場合には、ウィンドウサイズが相対的に大きく設定され、制限された命令語を処理する組み込み環境では、迅速性がより重要なので、ウィンドウサイズは、相対的に小さく設定しうる。

前処理部２１０は、既定のウィンドウサイズを参考にしてウィンドウを抽出し、このような基準に基づいて動的に決定してウィンドウを抽出することもできる。

パッディング追加部２３０は、前処理部２１０によってウィンドウが抽出されれば、抽出された現在ウィンドウの両側にパッディングフレームを追加する。

一般的なＢＲＤＮＮ音響モデルは、特定のフレームの発音別の確率を計算する時、双方向フレーム情報を共に考慮する。本実施形態において、特定のウィンドウに属したフレームのうちの左側、右側端に近いフレームは、それぞれ左側、右側フレーム情報が不足であって計算される発音別の点数が比較的正確ではないこともある。

このために、パッディング追加部２３０は、現在ウィンドウに隣接する両側ウィンドウの一部のフレームを現在ウィンドウのパッディングフレームで追加することができる。追加されたパッディングフレームは、現在ウィンドウに属したフレームの発音別の確率を計算する時、追加情報として活用される。この際、パッディングサイズ、すなわち、現在ウィンドウに追加されるパッディングフレームの個数は、前述したように音声認識分野、適用装置のコンピューティング性能のような多様な基準を考慮して決定されうる。

例えば、ウィンドウのサイズＫが４であり、左側パッディングサイズＬＰが２、右側パッディングサイズＲＰが２であるとすれば、抽出された現在ウィンドウのフレーム４個と両側にそれぞれ２個のフレームが追加されて、総８個のフレームが点数計算部２２０に入力される１つのウィンドウ単位になりうる。但し、現在ウィンドウが最初のウィンドウＷ１である場合には、左側に実際に追加されるパッディングフレームの個数は０になる。現在ウィンドウが最後のウィンドウである場合には、右側に追加されるパッディングフレームの個数は０から２までになりうる。

すなわち、前処理部２１０が、フレーム１からフレーム４までを最初のウィンドウＷ１に抽出すれば、パッディング追加部２３０は、引き続き入力されるフレーム５と６とを最初のウィンドウＷ１の右側にパッディングフレームで追加する。この際、前処理部２１０は、フレーム５からフレーム８までを二番目のウィンドウＷ２に抽出し、パッディング追加部２３０は、隣接する最初のウィンドウＷ１に属するフレーム３と４とを二番目のウィンドウＷ２の左側にパッディングフレームで追加し、引き続き入力されるフレーム９及び１０をウィンドウＷ２の右側にパッディングフレームで追加する。前処理部２１０とパッディング追加部２３０は、最後の音声フレームが入力されるまでこのような過程を繰り返して行う。

点数計算部２２０は、ＤＮＮ音響モデルを用いて順次に抽出されるウィンドウ単位で発音別の点数を計算することができる。この際、ＤＮＮ音響モデルは、ＢＲＤＮＮ音響モデルであり得る。

また、点数計算部２２０は、前処理部２１０によってウィンドウが抽出され、パッディング追加部２３０によって抽出されたウィンドウにパッディングフレームが追加されれば、パッディングフレームが追加された現在ウィンドウを音響モデルに入力して、ウィンドウに属した各フレーム及びパッディングフレームに対する発音別の点数を計算することができる。

一実施形態によれば、点数計算部２２０は、音響モデルを通じて現在ウィンドウに属した各フレーム及びパッディングフレームに対する発音別の点数が計算されれば、現在ウィンドウに属した一部のフレームと隣接ウィンドウのパッディングフレームとが重畳されるか否かを判断することができる。判断の結果、重畳するフレームが存在すれば、重畳する隣接ウィンドウのパッディングフレームに対して、既計算の発音別の点数に基づいて現在ウィンドウの一部のフレームに対して発音別の点数を再び計算することができる。

一例として、点数計算部２２０は、現在ウィンドウの一部のフレーム（ｆ）に対する特定の発音の点数ａと隣接ウィンドウのパッディングフレーム（ｆ）に対する特定の発音の点数をｂであるとする時、下記の数式（１）のように算術平均（ａｒｉｔｈｍｅｔｉｃｍｅａｎ）して、現在ウィンドウの一部のフレーム（ｆ）に対する最終点数ｓ（ｆ）を計算することができる。

他の例として、点数計算部２２０は、下記の数式（２）のように幾何平均（ｇｅｏｍｅｔｒｉｃｍｅａｎ）を活用して、現在ウィンドウの一部のフレーム（ｆ）に対する最終点数ｓ（ｆ）を計算することができる。

さらに他の例として、点数計算部２２０は、ａとｂとに加重値（α）を互いに異ならせて付与し、下記の数式（３）または数式（４）のように算術平均または幾何平均して、最終点数ｓ（ｆ）を計算することができる。

このように、連続して隣接する２つのウィンドウに対して２回計算された発音別の点数を総合して最終点数を計算するので、さらに正確な点数計算が可能となる。また、数式（１）ないし数式（４）は、一例に過ぎず、その他の多様な統計的技法を活用して重畳されるフレームに対する点数計算が可能である。

図３は、一般的なＢＲＤＮＮに基づく音響モデルを説明する図面である。図４及び図５は、一実施形態によるＢＲＤＮＮに基づく音響モデルを説明する図面である。図３を参照すれば、一般的なＢＲＤＮＮ音響モデルでは、全体音声信号が入力されれば、全体音声信号に対する音声フレーム全体がＢＲＤＮＮ音響モデルの入力ノードに入力され、全体音声フレームに対して発音（例：ａ、ｅ、ｉ、ｏ、ｕ）別の確率を出力する。

図４及び図５を参照すれば、音声信号が入力される途中で音響点数計算装置２００は、ウィンドウの音声フレームをＢＲＤＮＮ音響モデルの入力ノードに入力し、ＢＲＤＮＮ音響モデルは、各ウィンドウの発音別の確率を出力する。

この際、図４及び図５は、ウィンドウサイズは４、パッディングサイズは２に設定されたことを例示したものであって、音声フレームは、時間順序上、左側から右側に入力が進行し、順に１、２、３、４…、１８番フレームであると仮定する。

図４を参照すれば、前処理部２１０は、音声信号が入力される途中でウィンドウサイズに該当する４個の音声フレームが入力されるまで待ち、１番から４番フレームまで入力されれば、最初のウィンドウＷ１を抽出する。この際、パッディング追加部２３０は、５、６番フレームが入力されれば、５、６番フレームを抽出された最初のウィンドウＷ１の右側にパッディングフレームで追加する。

点数計算部２２０は、最初のウィンドウＷ１に対するパッディングフレーム追加が完了されれば、ウィンドウＷ１の各フレーム、すなわち、１番から６番フレームを音響モデルに入力して発音別の確率点数を出力する。

次いで、前処理部２１０は、５番から８番フレームまで入力されれば、二番目のウィンドウＷ２を抽出する。この際、パッディング追加部２３０は、二番目のウィンドウＷ２が抽出されれば、最初のウィンドウに属した３、４番フレームを二番目のウィンドウＷ２の左側にパッディングフレームで追加し、引き続き連続して入力される９、１０番フレームをウィンドウＷ２の右側にパッディングフレームで追加する。

同様に、点数計算部２２０は、二番目のウィンドウＷ２に対するパッディングフレーム追加が完了されれば、ウィンドウＷ２の各フレーム、すなわち、３番から１０番フレームを音響モデルに入力して発音別の確率点数を出力する。

前処理部２１０、パッディング追加部２３０及び点数計算部２２０は、音声信号が連続して入力される間に、このような過程を繰り返しながらウィンドウ単位で発音別の点数を計算する。

図５は、連続する二番目のウィンドウＷ２と三番目のウィンドウＷ３とを音響モデルに順次に入力して発音別の点数を計算したことを例示したものである。この際、音響モデル、特に、ＢＲＤＮＮ音響モデルは、ウィンドウＷ２に属したフレームの点数計算時に、左右パッディングフレームＬＰ２、ＲＰ２を活用し、三番目のウィンドウＷ３に属したフレームの点数計算時に、左右パッディングフレームＬＰ３、ＲＰ３を活用する。

この際、示したように、三番目のウィンドウＷ３に属した一部のフレームは、二番目のウィンドウＷ２の右側パッディングフレームＲＰ２と重畳される。この場合、点数計算部２２０は、二番目のウィンドウＷ２の右側パッディングフレームＲＰ２に対して計算された発音別の点数と三番目のウィンドウＷ３に属したフレームに対して計算された発音別の点数とを前述したような統計的技法を活用して再計算し、その結果を三番目のウィンドウＷ３に属した重畳されるフレームに対する発音別の点数で最終出力することができる。

図６は、一実施形態による音響点数計算方法のフローチャートである。図６の実施形態は、図１の音響点数計算装置１００によって行われる。前述したところによって解釈され、詳しい説明は省略する。

まず、音響点数計算装置１００は、認識しようとする音声信号を音声フレームに変換し、該変換された音声フレームをウィンドウ単位で抽出する（３１０）。この際、音声フレームを互いに重畳されないように連続して抽出することができる。ここで、ウィンドウのサイズは、音声認識分野、適用装置のコンピューティング性能などの多様な基準によって決定され、あらかじめ設定されるか、音声認識過程で動的に設定または調整されることもある。

次いで、音響点数計算装置１００は、ＤＮＮ音響モデルを用いて順次に抽出されるウィンドウ単位で発音別の点数を計算することができる（３２０）。この際、ＤＮＮ音響モデルは、ＢＲＤＮＮ音響モデルであり得る。

音響点数計算装置１００は、ウィンドウが抽出される度に、順次にウィンドウを音響モデルに入力してウィンドウ単位で発音別の点数を計算することができる。

次いで、音響点数計算装置１００は、音声認識装置が漸進的音声認識を行うように段階（３２０）から計算されたウィンドウの発音別の点数を出力することができる（３３０）。

次いで、引き続き入力される音声フレームが存在すれば（３４０）、ウィンドウを抽出する段階（３１０）に移動して、以下の過程を繰り返して行い、音声入力が終了して、これ以上の音声フレームが存在しなければ（３４０）、点数計算過程を終了する。

図７は、他の実施形態による音響点数計算方法のフローチャートである。図７の実施形態の音響点数計算方法は、図２の音響点数計算装置２００が行うことができる。図２ないし図５を参照して詳しく説明したので、以下、詳細な説明は省略する。

音響点数計算装置２００は、認識しようとする音声信号を音声フレームに変換し、該変換された音声フレームを互いに重畳されないように連続したウィンドウに分けて順に抽出することができる（４１０）。この際、ウィンドウのサイズは、前述したように音声認識分野、適用装置のコンピューティング性能のような多様な基準を考慮して決定され、全体音声信号のフレーム個数よりも少ない個数で設定しうる。

次いで、ウィンドウが抽出されれば、抽出された現在ウィンドウの両側にパッディングフレームを追加する（４２０）。この際、現在ウィンドウに隣接する両側ウィンドウの一部のフレームを現在ウィンドウのパッディングフレームで追加することができる。追加されたパッディングフレームは、現在ウィンドウに属したフレームの発音別の確率を計算する時、追加情報として活用されうる。この際、パッディングサイズは、前述したように音声認識分野、適用装置のコンピューティング性能のような多様な基準を考慮して決定されうる。

次いで、ＤＮＮ音響モデルを用いて順次に抽出されるウィンドウの各フレームに対して発音別の点数を計算する（４３０）。この際、ＤＮＮ音響モデルは、ＢＲＤＮＮ音響モデルであり得る。

次いで、音響モデルを通じて現在ウィンドウに属した各フレーム及びパッディングフレームに対する発音別の点数が計算されれば、現在ウィンドウに属した一部のフレームと隣接ウィンドウのパッディングフレームとが重畳されるか否かを判断することができる（４４０）。

次いで、重畳するフレームが存在すれば（４４０）、重畳する隣接ウィンドウのパッディングフレームに対して、既計算の発音別の点数に基づいて現在ウィンドウの一部のフレームに対して発音別の点数を再び計算することができる（４５０）。

この際、前述したように、重畳する２つのウィンドウのフレームに対して計算された発音別の点数を算術平均や幾何平均を行って、最終点数を計算し、必要に応じて重畳するフレームに対して計算された発音別の点数に加重値を付与し、算術平均や幾何平均を行って、最終点数を計算することができる。

次いで、現在抽出されたウィンドウに対して計算された発音別の点数を音声認識装置が漸進的音声認識を行うように出力することができる（４６０）。

次いで、音声信号が引き続き入力されて、まだ処理されていない音声フレームが存在する場合（４７０）、その音声フレームからウィンドウを抽出する段階（４１０）に移動し、そうでなければ、終了する。

図８は、一実施形態による音声認識装置のブロック図である。図８の音声認識装置５００は、前述した実施形態による音響点数計算装置１００、２００がハードウェアまたはソフトウェア形態として具現された装置であり得る。

図８を参照すれば、前処理部５１０、音響モデル適用部５２０、言語モデル適用部５３０及び解釈部５４０を含みうる。

前処理部５１０は、認識する音声信号のフレームが連続して入力される間に、ウィンドウサイズに該当するフレームが入力されれば、ウィンドウを抽出する。

音響モデル適用部５２０は、前処理部５１０によって抽出されたウィンドウをＤＮＮ音響モデル、特に、ＢＲＤＮＮ音響モデルに入力してウィンドウの各フレームに対して発音別の点数を計算する。

一実施形態によれば、前処理部５１０は、抽出されたウィンドウの両側にパッディングフレームを追加し、音響モデル適用部５２０は、パッディングフレームが追加されたウィンドウをＤＮＮ音響モデルに入力してパッディングフレームを含んだウィンドウの各フレームに対して発音別の点数を計算することができる。この際、ＤＮＮ音響モデルは、ＢＲＤＮＮ音響モデルであり得る。

この際、ウィンドウにパッディングフレームの追加によって、現在ウィンドウの一部のフレームと隣接するウィンドウ、例えば、現在ウィンドウの直前に抽出されたウィンドウの右側パッディングフレームが重畳することができる。この場合、音響モデル適用部５２０は、現在ウィンドウの重畳されたフレームに対して直前ウィンドウの右側パッディングフレームに対する発音別の点数に基づいて統計的技法を活用して再計算することができる。

言語モデル適用部５３０は、言語モデルを用いて単語／文章に関する情報、例えば、単語／文章の実際使用頻度に関する点数を出力することができる。この際、言語モデルは、Ｎ−Ｇｒａｍまたは神経網を基礎とすることができる。

解釈部５４０は、多様な解釈技法を活用してウィンドウ単位で出力される発音別の点数及び言語モデル適用部５３０の出力結果を漸進的に解釈して、現在ウィンドウまでの漸進的認識結果を出力することができる。

例えば、音声フレームが入力される間に、最初のウィンドウに対する発音別の点数が出力されれば、言語モデルの単語／文章別の点数を共に考慮して最初のウィンドウに対して認識結果を出力する。引き続き二番目のウィンドウに対する発音別の点数が出力されれば、二番目のウィンドウに対して出力された発音別の点数と言語モデルの単語／文章別の点数とを考慮して、二番目のウィンドウまでの認識結果を出力する。このように、新たなウィンドウに対して発音別の点数が出力されれば、漸進的に解釈しながら認識結果を出力することができる。

この際、解釈部５４０は、最終認識結果出力に関する既定の基準を確認し、既定の基準を満足する場合、現在ウィンドウまでの漸進的認識結果を認識しようとする全体音声信号に対する最終認識結果として出力することができる。この際、既定の基準は、ウィンドウの個数であるか、認識結果に対する臨界値であり得る。但し、これは、１つの例を説明するものであって、例示されたところに限定されるものではない。

例えば、迅速な認識結果提供のために、ウィンドウ個数が相対的に少ない数（例：２）に設定される場合、解釈部５４０は、二番目のウィンドウまでの漸進的認識結果を最終認識結果として出力することができる。

また、二番目のウィンドウまでの発音別の点数と言語モデルの単語／文章別の点数とを解釈した結果、特定の単語／文章が使われる確率が既定の臨界値（例：７０％）以上である場合、二番目のウィンドウまでの認識結果を最終認識結果として出力することができる。

開示された実施形態によれば、ＢＲＤＮＮに基づく音響モデルを適用して正確な音声認識が可能であると共に、全体音声が入力される前でも、最終認識結果の提供が可能となる。

図９は、一実施形態による音声認識方法のフローチャートである。図９の音声認識方法は、図８の音声認識装置５００によって行われる。

まず、音声認識装置５００は、認識する音声信号のフレームが連続して入力される間に、入力された音声信号のフレームをウィンドウ単位で抽出する（６１０）。

次いで、音声認識装置５００は、抽出されたウィンドウをＤＮＮ音響モデル、特に、ＢＲＤＮＮ音響モデルに入力して、ウィンドウの各フレームに対して発音別の点数を計算して出力することができる（６２０）。

一実施形態によれば、音声認識装置５００は、抽出されたウィンドウの両側にパッディングフレームを追加し、パッディングフレームが追加されたウィンドウをＤＮＮ音響モデルに入力して、パッディングフレームを含んだウィンドウの各フレームに対して発音別の点数を計算することができる。この際、ウィンドウにパッディングフレームの追加によって、現在ウィンドウの一部のフレームと隣接するウィンドウのパッディングフレームとが重畳する場合、現在ウィンドウの重畳されたフレームに対して直前ウィンドウのパッディングフレームに対して、既計算の発音別の点数に基づいて統計的技法を活用して再計算することができる。

次いで、音声認識装置５００は、言語モデルを用いて単語／文章別の点数を出力することができる（６３０）。この際、言語モデルは、Ｎ−Ｇｒａｍまたは神経網に基づく言語モデルであり得る。

次いで、音声認識装置５００は、多様な解釈技法を活用してウィンドウ単位で出力される発音別の点数及び言語モデル適用部５３０の出力結果を漸進的に解釈して、現在ウィンドウまでの漸進的認識結果を出力することができる（６４０）。

次いで、音声認識装置５００は、所定の基準を確認して（６５０）、満足する場合、現在ウィンドウまでの漸進的認識結果を全体音声信号に対する最終認識結果として出力することができる（６６０）。この際、既定の基準は、ウィンドウの個数または認識結果の臨界値であり得るが、これに限定されるものではない。

確認の結果（６５０）、所定の基準を満足しなければ、音声フレームから次のウィンドウを抽出する段階（６１０）に移動する。

図１０は、一実施形態による音声認識技術が適用された電子装置のブロック図である。

一実施形態による電子装置７００は、ＴＶ、ナビゲーション、自動車電子装置、スマートフォン、タブレットＰＣ、スマートウォッチ、デスクトップコンピュータ、ノート型パソコンなどを含みうるが、これらに制限されるものではない。

図１０を参照すれば、電子装置７００は、音声入力部７１０、音声認識部７２０及び処理部７３０を含みうる。音声認識部７２０は、図８の実施形態による音声認識装置５００をハードウェアまたはソフトウェア形態で製作して搭載したものであり得る。この際、音声認識部７２０は、前述した実施形態によって解釈されうるので、詳しい説明は省略する。

音声入力部７１０は、電子装置７００のマイクロホンなどを通じて、ユーザが入力する音声信号を受信することができる。示したように、ユーザの音声信号は、他の言語への翻訳のための文章や、ＴＶ制御、自動車走行制御などのための命令語などと関連する。

音声認識部７２０は、アナログ形態に入力されるユーザの音声信号をデジタル信号に変換して多数の音声フレームに分ける前処理過程を行うことができる。また、音声フレームを音響モデルに入力するために、ウィンドウ単位で抽出することができる。

また、音声認識部７２０は、抽出されたウィンドウの両側にパッディングフレームを追加し、パッディングフレームが追加されたウィンドウのあらゆるフレームを音響モデルに入力して、各フレームに対する発音別の点数を計算することができる。この際、パッディングフレームの追加によって、連続するウィンドウの間の重畳されるフレームが存在すれば、その重畳されるフレームに対する発音別の点数は、多様な統計的技法を活用して再計算されうる。また、音声認識部７２０は、言語モデルを用いて単語／文章別の点数を出力することができる。

また、音声認識部７２０は、音響モデル及び言語モデルの出力結果を活用してウィンドウ単位で漸進的に解釈して、現在ウィンドウまでの漸進的認識結果を出力し、所定の基準を満足する場合、現在ウィンドウまでの認識結果を認識する全体音声信号に対する最終認識結果として出力することができる。

処理部７３０は、電子装置７００の機能を制御する電子装置７００のプロセッサであり得る。処理部７３０は、音声認識部７２０によって出力された音声認識結果に基づいて相応する動作を行うことができる。例えば、ユーザが入力した音声の認識結果を、スピーカーなどを通じて、音声として出力するか、ディスプレイにテキスト形式で提供することができる。または、電子装置７００と関連した命令語（例：電源オン／オフ、ボリューム調節など）の処理動作を行うことができる。

または、他の言語に翻訳する場合、音声認識結果を翻訳しようとする他の言語に翻訳し、該翻訳された結果を音声やテキスト形式で出力することができる。但し、これに限定されるものではなく、その他の多様な分野で活用が可能である。

図１１は、図１０の電子装置７００が行う音声認識動作のフローチャートである。

まず、電子装置７００は、マイクロホンなどを通じて、ユーザが入力する音声信号を受信することができる（８１０）。

次いで、電子装置７００は、ユーザの音声信号のフレームをウィンドウ単位で抽出し、音響モデルを用いて抽出されたウィンドウ単位で発音別の点数を計算し、ウィンドウ単位で順に出力される発音別の点数を漸進的に解釈して音声信号を認識することができる（８２０）。この際、言語モデルを用いて単語／文章別の点数を計算し、該計算された単語／文章別の点数を共に考慮して解釈することができる。

この際、電子装置７００は、抽出されたウィンドウの両側にパッディングフレームを追加して音響モデルに入力し、パッディングフレームの追加によって、重畳されるウィンドウのフレームに対しては、そのウィンドウフレームと重畳される隣接ウィンドウのパッディングフレームの計算結果に基づいて、統計的技法を活用して再計算することによって、より正確な発音別の点数を計算することができる。

一実施形態によれば、電子装置７００は、電子装置７００のコンピューティング性能や、音声認識分野（例：翻訳、命令語処理）によって、既定の基準を満足するか否かをチェックし、満足する場合、現在ウィンドウまでの認識結果を全体音声信号に対する最終認識結果に返還することができる。

次いで、電子装置７００は、出力された音声認識結果に基づいて相応する動作を行うことができる（８３０）。例えば、ユーザが入力した音声の認識結果を、スピーカーなどを通じて、音声として出力するか、ディスプレイにテキスト形式で提供することができる。または、電子装置７００と関連した命令語（例：電源オン／オフ、ボリューム調節など）の処理動作を行うことができる。または、他の言語に翻訳する場合、音声認識結果を翻訳しようとする他の言語に翻訳し、該翻訳された結果を音声やテキスト形式で出力することができる。

一方、本実施形態は、コンピュータで読み取り可能な記録媒体にコンピュータで読み取り可能なコードとして具現することが可能である。コンピュータで読み取り可能な記録媒体は、コンピュータシステムによって読み取れるデータが保存されるあらゆる種類の記録装置を含む。

コンピュータで読み取り可能な記録媒体の例としては、ＲＯＭ、ＲＡＭ、ＣＤ−ＲＯＭ、磁気テープ、フロッピーディスク、光データ保存装置などがあり、また、キャリアウェーブ（例えば、インターネットを介した伝送）の形態で具現するものを含む。また、コンピュータで読み取り可能な記録媒体は、ネットワークで連結されたコンピュータシステムに分散されて、分散方式でコンピュータで読み取り可能なコードとして保存されて実行可能である。そして、本実施形態を具現するための機能的なプログラム、コード及びコードセグメントは、本発明が属する技術分野のプログラマーによって容易に推論されうる。

当業者ならば、開示された技術的思想や必須的な特徴を変更せずとも、他の具体的な形態で実施可能であることを理解できるであろう。したがって、前述した実施形態は、あらゆる面で例示的なものであり、限定的ではないということを理解せねばならない。

本発明は、音声認識及び音響点数計算装置及び方法関連の技術分野に適用可能である。

１００音響点数計算装置
１１０前処理部
１２０点数計算部

Claims

音声認識のための音響点数計算装置において、
音声フレームを順次にウィンドウに抽出する前処理部と、
深層神経網に基づく音響モデルを用いて、前記順次に抽出されたウィンドウの音響点数を計算する点数計算部と、
を含み、前記点数計算部は、前記抽出されたウィンドウにパッディングフレームが追加された対象ウィンドウの各フレームに対して音響点数を計算し、前記対象ウィンドウの隣接ウィンドウに追加されたパッディングフレームに対して既に計算された音響点数を考慮して、前記対象ウィンドウの音響点数を計算する、音響点数計算装置。
前記深層神経網は、双方向循環深層神経網である請求項１に記載の音響点数計算装置。
前記抽出されたウィンドウの両側にパッディングフレームを追加するパッディング追加部をさらに含む請求項１又は２に記載の音響点数計算装置。
前記抽出されたウィンドウの一部のフレームは、前記抽出されたウィンドウの隣接ウィンドウに追加されたパッディングフレームと重畳する請求項３に記載の音響点数計算装置。
前記点数計算部は、
前記抽出されたウィンドウに対して音響点数が計算されると、前記隣接ウィンドウのパッディングフレームに対して既に計算された音響点数に基づく統計的技法を用いて、前記抽出されたウィンドウの重畳する一部のフレームに対する音響点数を再計算する請求項４に記載の音響点数計算装置。
前記統計的技法は、算術平均及び幾何平均のうちの少なくとも１つを計算することを含む請求項５に記載の音響点数計算装置。
前記ウィンドウのサイズ及びパッディングのサイズは、音声認識適用分野及び前記音響点数計算装置が適用された機器のコンピューティング性能のうちの１つ以上に基づいて決定される請求項３に記載の音響点数計算装置。
音声認識のための音響点数計算方法において、
音声フレームを順次にウィンドウに抽出する段階と、
深層神経網に基づく音響モデルを用いて、前記順次に抽出されたウィンドウの音響点数を計算する段階と、
を含み、前記音響点数を計算する段階は、前記抽出されたウィンドウにパッディングフレームが追加された対象ウィンドウの各フレームに対して音響点数を計算し、前記対象ウィンドウの隣接ウィンドウに追加されたパッディングフレームに対して既に計算された音響点数を考慮して、前記対象ウィンドウの音響点数を計算する、音響点数計算方法。
前記深層神経網は、双方向循環深層神経網である請求項８に記載の音響点数計算方法。
前記抽出されたウィンドウの両側にパッディングフレームを追加する段階をさらに含む請求項８又は９に記載の音響点数計算方法。
前記抽出されたウィンドウの一部のフレームは、前記抽出されたウィンドウの隣接ウィンドウに追加されたパッディングフレームと重畳する請求項１０に記載の音響点数計算方法。
前記隣接ウィンドウに追加されたパッディングフレームに対して既に計算された音響点数に基づく統計的技法を用いて、前記抽出されたウィンドウの重畳された一部のフレームに対する音響点数を再計算する段階をさらに含む請求項１１に記載の音響点数計算方法。
前記統計的技法は、算術平均及び幾何平均のうちの少なくとも１つを計算することを含む請求項１２に記載の音響点数計算方法。
前記ウィンドウのサイズ及びパッディングのサイズは、音声認識適用分野及び前記音響点数計算方法を行う機器のコンピューティング性能のうちの１つ以上に基づいて決定される請求項１１に記載の音響点数計算方法。
認識する音声信号のフレームが連続して入力される間に、前記フレームをウィンドウに抽出する前処理部と、
深層神経網に基づく音響モデルを用いて、前記抽出されたウィンドウの音響点数を出力する音響モデル適用部と、
前記出力されたウィンドウの音響点数に基づいて、現在ウィンドウまでの漸進的認識結果を出力する解釈部と、
を含み、前記音響モデル適用部は、抽出されたウィンドウにパッディングフレームが追加された対象ウィンドウの各フレームに対して音響点数を計算し、前記対象ウィンドウの隣接ウィンドウに追加されたパッディングフレームに対して既に計算された音響点数を考慮して、前記対象ウィンドウの音響点数を計算する、音声認識装置。
言語モデルを用いて単語／文章別の点数を出力する言語モデル適用部をさらに含み、
前記解釈部は、
前記出力された単語／文章別の点数をさらに基にして、前記現在ウィンドウまでの漸進的認識結果を出力する請求項１５に記載の音声認識装置。
前記解釈部は、
既定の基準を満足する場合、前記現在ウィンドウまでの漸進的認識結果を、前記音声信号に対する最終認識結果として出力する請求項１５又は１６に記載の音声認識装置。
前記深層神経網は、双方向循環深層神経網である請求項１５ないし１７のうちの何れか１項に記載の音声認識装置。
前記言語モデルは、Ｎ−Ｇｒａｍまたは神経網モデルを基礎とする請求項１６に記載の音声認識装置。
前記音響モデル適用部は、
前記抽出されたウィンドウの両側にパッディングフレームを追加して、パッディングフレームが追加されたウィンドウの各フレームに対して音響点数を計算し、前記対象ウィンドウの隣接ウィンドウに追加されたパッディングフレームに対して既に計算された音響点数に基づく統計的技法を用いて、前記対象ウィンドウの音響点数を計算する請求項１５ないし１９のうちの何れか１項に記載の音声認識装置。
認識する音声信号のフレームが連続して入力される間に、前記フレームをウィンドウに抽出する段階と、
抽出されたウィンドウにパッディングフレームを追加する段階と、
深層神経網に基づく音響モデルを用いて、前記抽出されたウィンドウの音響点数を出力する段階と、
前記出力されたウィンドウの音響点数に基づいて、現在ウィンドウまでの漸進的認識結果を出力する段階と、
を含み、前記音響点数を出力する段階は、対象ウィンドウの各フレームに対して音響点数を計算し、前記対象ウィンドウの隣接ウィンドウに追加されたパッディングフレームに対して既に計算された音響点数を考慮して、前記対象ウィンドウの音響点数を計算する、音声認識方法。
言語モデルを用いて単語／文章別の点数を出力する段階をさらに含み、
前記漸進的認識結果を出力する段階は、
前記出力された単語／文章別の点数をさらに基にして、前記現在ウィンドウまでの漸進的認識結果を出力する請求項２１に記載の音声認識方法。
既定の基準を満足するか否かを判断する段階と、
前記判断の結果、既定の基準を満足する場合、前記現在ウィンドウまでの漸進的認識結果を、前記音声信号に対する最終認識結果として出力する段階と、
をさらに含む請求項２１又は２２に記載の音声認識方法。
前記音響点数を出力する段階は、
前記パッディングフレームが追加された対象ウィンドウの各フレームに対して音響点数を計算し、前記対象ウィンドウの隣接ウィンドウに追加されたパッディングフレームに対して既に計算された音響点数に基づく統計的技法を用いて、前記対象ウィンドウの音響点数を計算する請求項２１ないし２３のうち何れか１項に記載の音声認識方法。
ユーザから音声信号を入力される音声入力部と、
ユーザの音声信号が入力される間に、深層神経網音響モデルを用いて現在入力された音声信号のフレームをウィンドウ単位で音響点数を出力し、該出力されたウィンドウ単位の音響点数を漸進的に解釈してユーザの音声信号を認識する音声認識部と、
認識結果に該当する動作を行う処理部と、
を含み、前記音声認識部は、前記音声信号から抽出されたウィンドウにパッディングフレームが追加された対象ウィンドウの各フレームに対して音響点数を計算し、前記対象ウィンドウの隣接ウィンドウに追加されたパッディングフレームに対して既に計算された音響点数を考慮して、前記対象ウィンドウの音響点数を計算する、電子装置。
前記動作は、前記認識結果を、テキストまたは音声として出力、他の言語に翻訳、及び前記電子装置に関する命令語の処理のうち、少なくとも１つを含む請求項２５に記載の電子装置。