JP7170405B2

JP7170405B2 - ニューラルネットワークを用いた認識方法及び装置並びにトレーニング方法

Info

Publication number: JP7170405B2
Application number: JP2018042978A
Authority: JP
Inventors: 尚賢柳
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-08-14
Filing date: 2018-03-09
Publication date: 2022-11-14
Anticipated expiration: 2038-03-09
Also published as: EP3444807B1; EP3444807A1; KR102410820B1; KR20190018278A; US10504506B2; CN109410924A; CN109410924B; JP2019035936A; US20190051291A1

Description

以下の実施形態は、ルックアヘッド畳み込みレイヤ（ｌｏｏｋａｈｅａｄｃｏｎｖｏｌｕｔｉｏｎｌａｙｅｒ）を含むニューラルネットワークに基づいた認識方法及び装置、並びに前記ニューラルネットワークをトレーニングする方法及び装置に関する。

近年、プロセッサ基盤ニューラルネットワークモデルによって実行される音声認識技術に対する研究が盛んに行われている。トレーニングされたニューラルネットワークモデルによって入力パターンと出力パターンとの間のマッピングが生成される。また、人工ニューラルネットワークは、学習された結果に基づいて学習に利用されていない入力パターンに対して比較的に正しい出力を生成することができる。

本発明の目的は、ニューラルネットワークを用いた認識方法及び装置及び前記ニューラルネットワークをトレーニングする方法及び装置を提供することにある。

一実施形態に係るプロセッサ基盤認識方法は、メインニューラルネットワーク及びサブニューラルネットワークに音声信号を提供するステップと、前記サブニューラルネットワークを用いて、前記提供された音声信号を解釈することにより、スケーリングファクターを取得するステップと、音声認識を行うメインニューラルネットワークで考慮する未来コンテキストの長さを前記スケーリングファクターに基づいて決定するステップと、前記決定された未来コンテキストの長さが適用された前記メインニューラルネットワークを用いて前記音声信号の認識結果を取得するステップとを含む。

一実施形態に係る認識方法において、前記メインニューラルネットワークは、以前時間連結を含む第１レイヤ及び未来時間連結を含む第２レイヤを含み得る。

一実施形態に係る認識方法において、前記未来コンテキストの長さを決定するステップは、前記メインニューラルネットワークによる音声認識それぞれに対する未来コンテキストそれぞれの長さを決定し、前記未来コンテキストそれぞれの長さは、前記サブニューラルネットワークによる音声信号の対応するコンテキスト解釈に基づいて動的に決定され得る。

一実施形態に係る認識方法において、前記メインニューラルネットワーク及び前記サブニューラルネットワークに前記音声信号を提供するステップは、前記音声信号に含まれた複数の音声フレーム又はウィンドウを前記メインニューラルネットワークに提供し、前記複数の音声フレーム又はウィンドウの一部を前記サブニューラルネットワークに提供し、前記サブニューラルネットワークは、前記複数の音声フレーム又はウィンドウの一部を解釈することによって前記スケーリングファクターを生成し、前記メインニューラルネットワークは、前記複数の音声フレーム又はウィンドウに基づいて音声信号を認識し得る。

一実施形態に係る認識方法において、前記メインニューラルネットワーク及び前記サブニューラルネットワークに前記音声信号を提供するステップは、前記スケーリングファクターを取得するために、前記複数の音声フレーム又はウィンドウの全て又は一部のいずれか１つを前記サブニューラルネットワークに提供し得る。

一実施形態に係る認識方法において、前記スケーリングファクターを取得するステップは、前記サブニューラルネットワークを用いて、前記音声信号が認識されるとき前記メインニューラルネットワークで考慮される未来コンテキストの時点ごとの重要度を示すスケーリングファクターを取得し得る。

一実施形態に係る認識方法において、前記スケーリングファクターを取得するステップは、前記サブニューラルネットワークによって解釈された前記音声信号に含まれたノイズ程度、及び前記音声信号に含まれたユーザ発音の正確度のうち少なくとも１つに基づいて決定されたスケーリングファクターを取得し得る。

一実施形態に係る認識方法において、前記スケーリングファクターを取得するステップは、前記サブニューラルネットワークによって相対的に低く解釈された音声信号の明確性に基づいて予め決定された閾値よりも大きい値を有する成分が多くなるよう前記スケーリングファクターを決定し得る。

一実施形態に係る認識方法において、前記未来コンテキストの長さを決定するステップは、前記スケーリングファクターに基づいて前記サブニューラルネットワークによって相対的に低く解釈された音声信号の明確性により前記未来コンテキストの長さを大きく決定し、前記サブニューラルネットワークによって相対的に高く解釈された音声信号の明確性により前記未来コンテキストの長さを小さく決定し得る。

一実施形態に係る認識方法において、前記未来コンテキストの長さを決定するステップは、前記スケーリングファクターに含まれた成分の値と予め決定された閾値との間の比較によって前記未来コンテキストの長さを決定し得る。

一実施形態に係る認識方法において、前記未来コンテキストの長さを決定するステップは、前記予め決定された閾値よりも大きい値を有する前記スケーリングファクターの成分のうち最も高い次元に基づいて前記未来コンテキストの長さを決定し得る。

一実施形態に係る認識方法において、前記音声信号の認識結果を取得するステップは、前記メインニューラルネットワークに含まれたルックアヘッド畳み込みレイヤの未来コンテキストの長さを前記決定された未来コンテキストの長さに調整するステップと、前記調整されたルックアヘッド畳み込みレイヤを含むメインニューラルネットワークに前記音声信号を入力するステップと、前記調整されたルックアヘッド畳み込みレイヤを含むメインニューラルネットワークから出力される音声信号の認識結果を取得するステップとを含み得る。

一実施形態に係る認識方法において、前記ルックアヘッド畳み込みレイヤの未来コンテキストの長さを前記決定された未来コンテキストの長さに調整するステップは、前記決定された未来コンテキストの長さに基づいて、前記ルックアヘッド畳み込みレイヤに対するゼロ未来コンテキスト、一部の未来コンテキスト、全ての未来コンテキストのうちいずれか１つを選択し得る。

一実施形態に係る認識方法において、前記未来コンテキストの長さを決定するステップは、前記音声信号の複数のウィンドウのうち最初のウィンドウで取得したスケーリングファクターに基づいて前記未来コンテキストの長さを決定し、前記音声信号の認識結果を取得するステップは、前記決定された未来コンテキストの長さが適用された前記メインニューラルネットワークを用いて、前記音声信号に含まれた複数のウィンドウに対する認識結果を取得し得る。

一実施形態に係る認識方法において、前記メインニューラルネットワークは、ルックアヘッド畳み込みレイヤを含む単方向リカレントニューラルネットワークであり得る。

一実施形態に係る認識方法において、前記メインニューラルネットワーク及び前記サブニューラルネットワークは、共にトレーニングされるニューラルネットワークであり得る。

一実施形態に係るプロセッサ基盤トレーニング方法は、トレーニング入力が入力されたサブニューラルネットワークからスケーリングファクターを取得するステップと、前記スケーリングファクターに基づいてメインニューラルネットワークで考慮する未来コンテキストの長さを決定するステップと、前記決定された未来コンテキストの長さが適用された前記メインニューラルネットワークに前記トレーニング入力が入力されることによって、前記メインニューラルネットワークで前記トレーニング入力にマッピングされたトレーニング出力が出力されるよう、前記メインニューラルネットワーク及び前記サブニューラルネットワークをトレーニングさせるステップとを含む。

一実施形態に係るトレーニング方法において、前記メインニューラルネットワーク及び前記サブニューラルネットワークをトレーニングさせるステップは、前記メインニューラルネットワークと前記サブニューラルネットワークを同時にトレーニングさせ得る。

一実施形態に係る認識装置は、プロセッサを含み、前記少なくとも１つの命令語が前記プロセッサで実行されれば、前記プロセッサは、メインニューラルネットワーク及びサブニューラルネットワークに音声信号を提供し、前記サブニューラルネットワークを用いて、前記提供された音声信号を解釈することにより、スケーリングファクターを取得し、音声認識を行うメインニューラルネットワークで考慮する未来コンテキストの長さを前記スケーリングファクターに基づいて決定し、前記決定された未来コンテキストの長さが適用された前記メインニューラルネットワークを用いて、前記音声信号の認識結果を取得する。

一実施形態に係る認識装置は、前記プロセッサによって実行されれば、前記プロセッサによって音声認識が提供され、前記スケーリングファクターを取得し、前記未来コンテキストの長さを決定し、前記認識結果を取得するようにする少なくとも１つの命令語を含むメモリをさらに含み得る。

一実施形態に係る認識装置は、前記メインニューラルネットワーク及び前記サブニューラルネットワークのトレーニングされたパラメータそれぞれを含むメモリをさらに含み、前記プロセッサは、前記メインニューラルネットワーク及び前記サブニューラルネットワークが実行される場合、前記トレーニングされたパラメータそれぞれを前記メインニューラルネットワーク及び前記サブニューラルネットワークに適用させ得る。

一実施形態に係る認識装置において、前記プロセッサは、前記サブニューラルネットワークを用いて前記音声信号が認識されるとき、前記メインニューラルネットワークで考慮される未来コンテキストの時点ごとの重要度を示すスケーリングファクターを取得し得る。

一実施形態に係る認識装置において、前記プロセッサは、前記サブニューラルネットワークによって解釈された前記音声信号に含まれたノイズ程度及び前記音声信号に含まれたユーザ発音の正確度のうち少なくとも１つに基づいて決定されたスケーリングファクターを取得し得る。

一実施形態に係る認識装置において、前記プロセッサは、前記サブニューラルネットワークによって相対的に低く解釈された音声信号の明確性に基づいて予め決定された閾値よりも大きい値を有する成分が多くなるように前記スケーリングファクターを決定し得る。

一実施形態に係る認識装置において、前記プロセッサは、前記スケーリングファクターに含まれた成分の値と予め決定された閾値との間の比較によって前記未来コンテキストの長さを決定し得る。

一実施形態に係る認識装置において、前記認識装置は、電子装置であり、前記オーディオをキャプチャーする音声受信機をさらに含み、前記プロセッサは、前記キャプチャーされたオーディオから前記音声信号を抽出し、前記プロセッサは、前記認識結果に基づいて解釈された命令に基づいて前記認識装置の非音声認識機能を制御し得る。

一実施形態に係る電子装置は、オーディオをキャプチャーする音声受信機と、メインニューラルネットワークのトレーニングされたパラメータ及びサブニューラルネットワークのトレーニングされたパラメータを含むメモリと、前記オーディオから取得された音声信号が入力される前記サブニューラルネットワークを実現させるために前記サブニューラルネットワークのトレーニングされたパラメータを適用して、前記メインニューラルネットワークを実現させるために前記メインニューラルネットワークのトレーニングされたパラメータを適用することにより、前記サブニューラルネットワークから取得された結果に応じて決定された未来コンテキストに基づいて前記音声信号を認識するプロセッサとを含み、前記メインニューラルネットワークは、過去コンテキストを考慮するリカレントレイヤを含む。

一実施形態に係る電子装置は、前記サブニューラルネットワークのトレーニングされたパラメータは、前記サブニューラルネットワークによって前記音声信号の明確性が解釈され、前記サブニューラルネットワークによって前記明確性が相対的に低く解釈された場合、前記メインニューラルネットワークの前記未来コンテキストの長さは大きく決定され、前記サブニューラルネットワークによって前記明確性が相対的に大きく解釈された場合、前記メインニューラルネットワークの前記未来コンテキストの長さは小さく決定され得る。

一実施形態に係る電子装置において、前記プロセッサは前記音声信号の認識結果を表示し得る。

本発明によると、ニューラルネットワークを用いた認識方法及び装置、並びに前記ニューラルネットワークをトレーニングする方法及び装置を提供することができる。

一実施形態に係る認識装置で音声信号が認識される過程を示す図である。一実施形態によりメインニューラルネットワークを示す図である。一実施形態によりスケーリングファクターがメインニューラルネットワークに適用される過程を示す図である。一実施形態によりサブニューラルネットワークを示す図である。一実施形態によりスケーリングファクターに基づいて未来コンテキストの長さが決定される過程を示す図である。一実施形態によりメインニューラルネットワーク及びサブニューラルネットワークをトレーニングする過程を示す図である。一実施形態によりスケーリングファクターを説明するための図である。一実施形態によりスケーリングファクターを決定する過程を示す図である。一実施形態に係る認識方法を示す図である。一実施形態に係るトレーニング方法を示す図である。一実施形態に係る認識装置を示す図である。一実施形態に係るトレーニング装置を示す図である。一実施形態に係る電子装置を示す図である。

本明細書に開示されている本発明の概念による実施形態に対して特定の構造的又は機能的な説明は、単に本発明の概念による実施形態を説明するための目的として例示されたものであり、本発明の概念による実施形態は様々な形態で実施され、本明細書に説明された実施形態に限定されることはない。

第１又は第２などの用語を複数の構成要素を説明するために用いることができるが、このような用語は１つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第１構成要素は第２構成要素と命名することができ、同様に第２構成要素は第１構成要素にも命名することができる。

単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、１つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。

異なるように定義さがれない限り、技術的であるか又は科学的な用語を含むここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。

下記で説明される実施形態は、音声を認識したり音声認識のためのニューラルネットワークをトレーニングさせるために使用される。実施形態は、パーソナルコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、スマートフォン、スマート家電機器、知能型自動車、キオスク、ウェアラブル装置などの様々な形態の製品に実現できる。例えば、実施形態は、スマートフォン、モバイル機器、スマートホームシステムなどでユーザの音声を認識したり、当該の装置でユーザの音声を認識するためのニューラルネットワークをトレーニングさせるために適用される。また、実施形態は、音声認識を通した装置制御にも適用される。以下、実施形態を添付する図面を参照しながら詳細に説明する。各図面に提示された同一の参照符号は同一の部材を示す。

図１は、一実施形態に係る認識装置で音声信号が認識される過程を示す図である。

図１を参照すると、一実施形態に係る認識装置１００は、メインニューラルネットワーク１１０及びサブニューラルネットワーク１２０を含む。

一実施形態に係る認識装置１００は、メインニューラルネットワーク１１０及びサブニューラルネットワーク１２０を用いて音声信号を認識する装置として、例えば、下記で説明される少なくとも１つの動作のための命令語を格納するメモリ及び当該の命令語を実行するプロセッサを含む。例えば、例示的なメインニューラルネットワーク１１０及びサブニューラルネットワーク１２０の各構成要素は、認識装置１００のメモリに格納されるものであって、認識装置１００のプロセッサ又はプロセッシングエレメントによって読み出し及び実行されるハイパーパラメータ及びトレーニングされたパラメータ（例えば、トレーニングされた加重値）によってメインニューラルネットワーク１１０及びサブニューラルネットワーク１２０が構成され得る。

一実施形態に係るメインニューラルネットワーク１１０及びサブニューラルネットワーク１２０は、複数のレイヤを含むニューラルネットワークであってもよい。複数のレイヤのそれぞれは複数のニューロンを含む。隣接するレイヤのニューロンはシナプスに接続される。学習によりシナプスには加重値が付与され、パラメータはこのような加重値を含む。

ニューラルネットワークの複数のレイヤには、入力レイヤ、隠しレイヤ、及び出力レイヤが含まれている。例えば、入力レイヤは、トレーニング又は認識の対象となる入力を受信して隠しレイヤに伝達し、出力レイヤは、隠しレイヤのニューロンから受信した信号に基づいてニューラルネットワークの出力を生成する。隠しレイヤは、入力レイヤと出力レイヤとの間に位置する中間レイヤとして、入力レイヤによって伝達された学習データ又は認識の対象となるデータを予測しやすい値に変化し得る。

一実施形態に係るメインニューラルネットワーク１１０は、入力された音声信号に対応する認識結果をスケーリングファクター（ｓｃａｌｉｎｇｆａｃｔｏｒ）に基づいて出力する。音声信号は、ユーザ音声を含む信号として音声シーケンスに称してもよく、複数の音声フレームに区分する。ここで、フレームはウィンドウにも称してもよい。

一実施形態に係るメインニューラルネットワーク１１０は、音響モデルを含む。音響モデルは、入力される音声信号の各フレームがどのような音素に近いかに関する情報を出力する。例えば、音響モデルは、入力される音声信号の各フレームの最も可能性の大きい音素を指示する情報を多次元ベクトル又は確率値などに提供する。音響モデルから出力される情報を用いて、入力された音声信号がどのような単語に近いか、又はどのような文章に近いかが確認できる。また、メインニューラルネットワーク１１０は、言語モデル及び／又はデコーダをさらに含む。言語モデルによって、入力された音声信号がどのような文章に近いかに関する情報が出力され得る。

メインニューラルネットワーク１１０は、少なくとも１つのリカレントレイヤ及びルックアヘッド畳み込みレイヤを含み得る。ルックアヘッド畳み込みレイヤは、単方向リカレントニューラルネットワーク（ＵｎｉｄｉｒｅｃｔｉｏｎａｌＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ；ＵｎｉｄｉｒｅｃｔｉｏｎａｌＲＮＮ）で一定の長さ（ｓｉｚｅ）の未来コンテキストをさらに用いて出力を生成するレイヤを示す。言い換えれば、単方向リカレントニューラルネットワークにルックアヘッド畳み込みレイヤが適用されることで、過去コンテキストのみならず、未来コンテキストがメインニューラルネットワーク１１０で考慮され得る。ルックアヘッド畳み込みレイヤについては図２を参照して後述する。

メインニューラルネットワーク１１０で考慮される未来コンテキストの長さは、サブニューラルネットワーク１２０から受信した１つ以上のスケーリングファクターに基づいて決定される。例えば、メインニューラルネットワーク１１０は、現在フレーム又は時間に対する音素を予測したり推定するため、例えば、１つ以上の未来フレーム又は時間に対応する動的にリアルタイム選択された未来コンテキストの長さを考慮する。

一実施形態に係るサブニューラルネットワーク１２０は、入力される音声信号に基づいてスケーリングファクターを決定する。サブニューラルネットワーク１２０は、リカレントニューラルネットワーク（ＲＮＮ）、畳み込みニューラルネットワーク、又はディープニューラルネットワーク（ＤＮＮ）を含む。

一実施形態に係るスケーリングファクターは、音声信号が認識されるとき、メインニューラルネットワークで考慮される未来コンテキストの時点ごとの重要度を示す。スケーリングファクターは、音声信号の明確性に基づいて決定される。例えば、スケーリングファクターは、音声信号に含まれたノイズ程度、及び音声信号に含まれたユーザ発音の正確度のうち少なくとも１つに基づいて決定される。このようなスケーリングファクターに基づいて、メインニューラルネットワーク１１０で考慮される未来コンテキストの長さが決定される。

例えば、サブニューラルネットワーク１２０によって音声信号に含まれたノイズが多い場合、又は、音声信号に含まれたユーザの発音が不正確なものとして解釈又は決定された場合、当該の音声信号を正確に認識するためには、より多くの未来コンテキストが動的に考慮される必要がある。一方、音声信号に含まれたノイズが少ない場合、又は、音声信号に含まれたユーザ発音が正確な場合、少ない未来コンテキストだけでも当該の音声信号を正確に認識することができる。

このように、スケーリングファクターを用いてメインニューラルネットワーク１１０で考慮する未来コンテキストの長さを適応的に調整することで、音声認識を効率よく行うことができる。また、スケーリングファクターに基づいて最小の未来コンテキストだけを考慮して音声認識を行うことで、高い正確度で音声認識を実行しながらも反応速度を最大化することができる。

図２は、一実施形態によりメインニューラルネットワークを示す図である。

図２を参照すると、一実施形態に係るメインニューラルネットワーク１１０は、リカレントレイヤ１１１及びルックアヘッド畳み込みレイヤ１１３を含む。図２には、説明の便宜のためにメインニューラルネットワーク１１０内に２つの隠しレイヤが図示されているが、メインニューラルネットワーク１１０には１つ以上の隠しレイヤが制限されることなく含まれてもよい。また、隠しレイヤには、１つ以上の隠しノードが制限されることなく含まれてもよい。

メインニューラルネットワーク１１０で隣接するレイヤに属するノードはシナプスによって接続され、シナプスには、予めトレーニングされた加重値が付与される。

一実施形態に係るリカレントレイヤ１１１は回帰ループを有し、図２では説明の便宜のために、リカレントレイヤ１１１が広げられた又は展開された（ｕｎｆｏｌｄｅｄ）状態に図示されている。例えば、時点ｔのリカレントレイヤ１１１の出力ｘ_ｔは時点ｔ＋１のリカレントレイヤ１１１に再び入力されることで、時点ｔ＋１で新しい出力ｘ_ｔ＋１が出力される。

一実施形態に係るルックアヘッド畳み込みレイヤ１１３は、所定の長さの未来コンテキストを考慮する。図２では、説明の便宜のために未来コンテキストの長さτが２であると例示されている。

言い換えれば、時点ｔのルックアヘッド畳み込みレイヤ１１３は、時点ｔのリカレントレイヤ１１１の出力ｘ_ｔのみならず、時点ｔ＋１、ｔ＋２のリカレントレイヤ１１１の出力ｘ_ｔ＋１、ｘ_ｔ＋２をさらに考慮して出力h_tを生成する。ここで、時点ｔのリカレントレイヤ１１１の出力ｘ_ｔには加重値ベクトルｗ_０が適用され、時点ｔ＋１のリカレントレイヤ１１１の出力ｘ_ｔ＋１には加重値ベクトルｗ_１が適用され、時点ｔ＋２のリカレントレイヤ１１１の出力ｘ_ｔ＋２には加重値ベクトルｗ_２が適用される。

ルックアヘッド畳み込みレイヤ１１３で考慮される未来時点におけるリカレントレイヤ１１１の出力を未来コンテキストと称し、ルックアヘッド畳み込みレイヤ１１３でカバーする未来時点の範囲を未来コンテキストの長さと称する。

整理すれば、時点ｔのルックアヘッド畳み込みレイヤ１１３の出力h_tについて、下記のように示すことができる。

上記の数式（１）において、h_tは時点ｔにおけるルックアヘッド畳み込みレイヤ１１３の出力を示し、x_t+jは時点ｔ＋ｊにおけるリカレントレイヤ１１１の出力を示し、w_jは時点ｔ＋ｊにおけるリカレントレイヤ１１１の出力に適用される加重値ベクトルを示す。

図３は、一実施形態によりスケーリングファクターがメインニューラルネットワークに適用される過程を示す図である。

図３を参照すると、一実施形態に係るメインニューラルネットワーク１１０は、リカレントレイヤ１１１及びルックアヘッド畳み込みレイヤ１１３を含み、リカレントレイヤ１１１の出力にスケーリングファクターがさらに適用される。

一実施形態に係るスケーリングファクターは、図２を参照して説明した加重値ベクトルと共にリカレントレイヤ１１１の出力に適用される。例えば、時点ｔのリカレントレイヤ１１１の出力ｘ_ｔには加重値ベクトルｗ_０のみならず、スケーリングファクター内の０次元成分α₀も適用され、ルックアヘッド畳み込みレイヤ１１３に伝達され得る。同様に、時点ｔ＋１のリカレントレイヤ１１１の出力ｘ_ｔ＋１には加重値ベクトルｗ_１とスケーリングファクター内の１次元成分α₁が全て適用され、時点ｔ＋２のリカレントレイヤ１１１の出力ｘ_ｔ＋２には加重値ベクトルｗ_２とスケーリングファクター内の２次元成分α₂が全て適用されて、ルックアヘッド畳み込みレイヤ１１３に伝達される。

整理すれば、スケーリングファクターが適用された時点ｔのルックアヘッド畳み込みレイヤ１１３の出力h_tについては、下記のように示すことができる。

上記の数式（２）において、α_jは時点ｔ＋ｊにおけるリカレントレイヤ１１１の出力に適用されるスケーリングファクター内のｊ次元成分を示す。

スケーリングファクターを用いてルックアヘッド畳み込みレイヤ１１３で考慮する未来コンテキストの長さを調整する過程については、図５を参照して説明する。

図４は、一実施形態によりサブニューラルネットワークを示す図である。

図４を参照すると、一実施形態によりサブニューラルネットワーク１２０でスケーリングファクター４１０が決定される例示が示されている。図４では、説明の便宜のためにサブニューラルネットワーク１２０内の１つの隠しレイヤが図示されているが、サブニューラルネットワーク１２０には１つ以上の隠しレイヤが制限されることなく含まれてもよい。また、隠しレイヤは、１つ以上の隠しノードを制限されることなく含まれてもよい。

サブニューラルネットワーク１２０で隣接するレイヤに属するノードは、シナプスによって接続され、シナプスには予めトレーニングされた加重値が付与される。

一実施形態に係るサブニューラルネットワーク１２０は、図３を参照して説明したメインニューラルネットワーク１１０と区別されるニューラルネットワークとして、例えば、リカレントニューラルネットワーク、畳み込みニューラルネットワーク、又は、一般的なディープニューラルネットワークであり得る。例えば、サブニューラルネットワーク１２０は、音声信号に対するコンテキストモデルであり得る。

サブニューラルネットワーク１２０は、認識の対象となる入力を受信して当該の入力に対応するスケーリングファクター４１０を出力する。例えば、サブニューラルネットワーク１２０は、認識の対象となる音声信号を受信し、当該の音声信号に対するスケーリングファクター４１０を出力する。

一実施形態に係るスケーリングファクター４１０は、図３に示すメインニューラルネットワーク１１０のリカレントレイヤ１１１からルックアヘッド畳み込みレイヤ１１３に接続される加重値ベクトルをスケーリングする要素として、ｎ次元ベクトルを含む。図４では、説明の便宜のためにスケーリングファクター４１０が合計３次元ベクトルに該当するものと図示したが、スケーリングファクター４１０は制限されることなく１つ以上の次元ベクトルを有し得る。

一実施形態に係るスケーリングファクター４１０内の各成分は、当該の成分に対応するコンテキストの重要度を示す。例えば、スケーリングファクター４１０内の０次元成分α₀は、時点ｔのリカレントレイヤ１１１の出力に適用されることにより、時点ｔのコンテキストに対する重要度を示す。同様に、１次元成分α₁は、時点ｔ＋１のリカレントレイヤ１１１の出力に適用されて時点ｔ＋１のコンテキストに対する重要度を示し、２次元成分α₂は、時点ｔ＋２のリカレントレイヤ１１１の出力に適用されて時点ｔ＋２のコンテキストに対する重要度を示す。

サブニューラルネットワーク１２０から出力されるスケーリングファクター４１０は、音声信号が認識されるとき、メインニューラルネットワークで考慮される未来コンテキストの時点ごとの重要度を示す。スケーリングファクター４１０は、認識の対象となる音声信号の明確性に基づいて決定される。例えば、スケーリングファクター４１０は、音声信号に含まれたノイズ程度及び音声信号に含まれたユーザ発音の正確度のうち少なくとも１つに基づいて決定される。

もし、音声信号に含まれたノイズ程度が大きい場合、又は、音声信号に含まれたユーザ発音の正確度が低い場合（例えば、ユーザが明確に発音せず、発音を曖昧にする場合）、スケーリングファクター４１０は、予め決定された閾値よりも大きい値を有する成分が多くなるよう決定される。例えば、音声信号の明確性が低いほど、スケーリングファクター４１０に含まれた低次元成分から順次予め決定された閾値よりも大きい値を有するよう決定される。したがって、音声信号の明確性が極めて低い場合、スケーリングファクター４１０に含まれた低次元成分のみならず、高次元成分も予め決定された閾値よりも大きい値を有するよう決定される。

反対に、音声信号に含まれたノイズ程度が小さい場合、又は、音声信号に含まれたユーザ発音の正確度が高い場合、スケーリングファクター４１０は予め決定された閾値よりも大きい値を有する成分が少なくなるように決定される。例えば、音声信号の明確性が高いほど、スケーリングファクター４１０に含まれた高次元成分から順次予め決定された閾値よりも小さい値を有するよう決定される。したがって、音声信号の明確性が相当高い場合、スケーリングファクター４１０に含まれた高次元成分のみならず、低次元成分も予め決定された閾値よりも小さい値を有するよう決定される。ただし、このような場合にも、スケーリングファクター４１０の０次元成分α₀は、予め決定された閾値よりも大きい値を有するように決定され、同じ時点のコンテキストが考慮されるようにする必要がある。

図５は、一実施形態によりスケーリングファクターに基づいて未来コンテキストの長さが決定される過程を示す図である。

図５を参照すると、一実施形態に係るメインニューラルネットワーク１１０に含まれたルックアヘッド畳み込みレイヤ１１３の未来コンテキストの長さがスケーリングファクターに基づいて調整される例示が示されている。

図４に示すサブニューラルネットワーク１２０で決定されたスケーリングファクターの成分を予め決定された閾値εと比較することで、メインニューラルネットワーク１１０に適用される未来コンテキストの長さを決定する。

例えば、スケーリングファクターに含まれた成分のうち、２次元成分α₂が予め決定された閾値εよりも低い値を有し、残りの成分α₀，α₁が全て閾値εよりも大きい値を有する場合、未来コンテキストの長さが１に決定され、時点ｔのルックアヘッド畳み込みレイヤ１１３の出力を決定するとき、時点ｔ＋２のリカレントレイヤ１１１の出力が排除される。

このように、予め決定された閾値εよりも大きい値を有するスケーリングファクターの成分のうち、最も高い次元の成分に基づいて未来コンテキストの長さが決定され得る。例えば、認識装置は、スケーリングファクターに含まれた複数の成分を高次元成分から順に予め決定された閾値εと比較し、予め決定された閾値εよりも大きい値を有するものとして最初に確認された成分の次元に基づいて、未来コンテキストの長さが決定され得る。

一実施形態に係る予め決定された閾値εは、未来コンテキストの長さを決定するために基準となる値として、試験的に予め決定される。例えば、予め決定された閾値εは、メインニューラルネットワーク１１０のトレーニング過程のうち決定され、又はトレーニング過程より前もって決定されてもよい。

認識装置は、スケーリングファクターに基づいてメインニューラルネットワーク１１０に含まれたルックアヘッド畳み込みレイヤ１１３の未来コンテキストの長さを適応的に調整することで、最小の未来コンテキストを用いて高い正確度及び迅速な反応速度を期待することができる。

図６は、一実施形態によりメインニューラルネットワーク及びサブニューラルネットワークをトレーニングする過程を示す図である。

図６を参照すると、一実施形態に係るメインニューラルネットワーク及びサブニューラルネットワークは同時にトレーニングされてもよい。

一実施形態に係るメインニューラルネットワーク及びサブニューラルネットワークは、トレーニングデータに基づいてトレーニングされる。トレーニングデータは、トレーニング入力及びトレーニング出力を含む。トレーニング出力は、トレーニング入力にマッピングされた出力として、例えば、トレーニング入力から出力されなければならないレーベル（ｌａｂｅｌ）であり得る。例えば、音声認識においてトレーニング入力は音声信号であり、トレーニング出力は当該の音声信号が示す音素情報である。

メインニューラルネットワーク及びサブニューラルネットワークは、バックプロパゲーション学習（ｂａｃｋｐｒｏｐａｇａｔｉｏｎｌｅａｒｎｉｎｇ）６１０によってメインニューラルネットワーク及びサブニューラルネットワークのレイヤ間の接続加重値、ノードの状態パラメータなどをトレーニングさせ得る。

例えば、メインニューラルネットワーク及びサブニューラルネットワークは、監督学習によってトレーニングされる。監督学習とは、トレーニング入力とそれに対応するトレーニング出力を共に神経網に入力し、トレーニング入力に対応するトレーニング出力が出力されるよう接続線の接続加重値をアップデートする方法である。

バックプロパゲーション学習６１０は、与えられたトレーニングデータに対して前方算出で損失を推定した後、出力レイヤから始まって隠しレイヤと入力レイヤへの逆方向に推定した損失を伝搬し、損失を減らす方向に接続加重値を調整する方法である。神経網の認識のための処理は、入力レイヤ、隠しレイヤ、出力レイヤの順に行われるが、バックプロパゲーション学習６１０で接続加重値のアップデート方向は、出力レイヤ、隠しレイヤ、入力レイヤの順に行われる。

ここで、サブニューラルネットワークで出力されたスケーリングファクターに基づいてルックアヘッド畳み込みレイヤの未来コンテキストの長さが調整された状態でバックプロパゲーション学習６１０が行われる。例えば、スケーリングファクターの２次元成分α₂が予め決定された閾値よりも低い値を有し、１次元成分α₁が予め決定された閾値よりも大きい値を有する場合、ルックアヘッド畳み込みレイヤの未来コンテキストの長さは１に調整されてトレーニングが実行される。そのため、認識を行うメインニューラルネットワークのみならず、スケーリングファクターを出力するサブニューラルネットワークも共に学習され得る。

一実施形態に係るサブニューラルネットワークは、出力されるスケーリングファクターの各成分が０に近い値を有するよう正規化によりトレーニングされる。そのため、スケーリングファクターに含まれた複数の成分のうち高次元成分であるほど、０に近い値を有するようサブニューラルネットワークがトレーニングされる。

図７は、一実施形態によりスケーリングファクターを説明するための図である。

図７を参照すると、一実施形態に係る第１スケーリングファクター７１０及び第２スケーリングファクター７２０が示されている。

第１スケーリングファクター７１０及び第２スケーリングファクター７２０は、互いに異なる音声信号に対応してサブニューラルネットワークで出力されたｎ次元ベクトルを有する。例えば、第１スケーリングファクター７１０は、第２スケーリングファクター７２０よりも高い明確性を有する音声信号に対応する。音声信号の明確性が高いことは当該の音声信号に含まれたノイズ程度が小さいか、当該の音声信号に含まれたユーザ発音の正確度が高いことを意味し、この場合、未来コンテキストを少なく考慮しても高い正確度で音声認識を実行することができる。

このように音声信号の明確性に基づいて決定された第１スケーリングファクター７１０は、第２スケーリングファクター７２０よりも大体的に小さい値を有する。第１スケーリングファクター７１０と第２スケーリングファクター７２０は、予め決定された閾値εとの比較によって、メインニューラルネットワーク内のルックアヘッド畳み込みレイヤで考慮する未来コンテキストの長さが決定され得る。

例示的に示された図７に示す第１スケーリングファクター７１０の場合、ａ＋１次元成分は予め決定された閾値εよりも低い値を有し、１次元成分からａ次元成分は予め決定された閾値εよりも大きい値を有する。したがって、第１スケーリングファクター７１０の場合、未来コンテキストの長さはａ－１に決定される。また、第２スケーリングファクター７２０の場合、ｂ＋１次元成分は予め決定された閾値εよりも低い値を有し、１次元成分からｂ次元成分は予め決定された閾値εよりも大きい値を有する。したがって、第２スケーリングファクター７２０の場合、未来コンテキストの長さはｂ－１に決定され得る。

図８は、一実施形態によりスケーリングファクターを決定する過程を示す図である。

図８を参照すると、一実施形態に係る音声信号のウィンドウを基準としてスケーリングファクター８２０が決定される例示が示されている。

一実施形態に係る音声信号は、連続した一連のシーケンスデータとして、所定の長さのウィンドウに区分されて認識される。ウィンドウ長さは、設計に応じて相違に設定されてもよい。例えば、音声信号が入力されれば、これを２００ｍｓｅｃのウィンドウに分割して音声認識が実行され得る。

このようなウィンドウを基準としてサブニューラルネットワークを介してスケーリングファクター８２０も決定されるが、このようなスケーリングファクター８２０はウィンドウごとに決定される。音声信号が所定のウィンドウの大きさの連続的なデータで前処理されたキャプチャーされた音声であるか否か、又は音声信号が所定のウィンドウの大きさの連続的なデータのトレーニングデータであるか否かに応じて、当該のウィンドウで決定されたスケーリングファクター８２０によりルックアヘッド畳み込みレイヤの未来コンテキストの長さを調整し、当該のウィンドウに対する認識又はトレーニングが実行されることができる。

他の一実施形態に係るスケーリングファクター８２０は、認識の対象となる音声信号の最初のウィンドウ８１０に対して決定され、最初のウィンドウ８１０に対して決定されたスケーリングファクター８２０に基づいて調整された未来コンテキストの長さを有するルックアヘッド畳み込みレイヤを用いて全体ウィンドウに対する認識が実行されてもよい。これは、同じ音声信号内ではノイズ程度やユーザ発音の正確度が大きく変わらないことに着眼したものである。

例えば、反応速度に相対的に敏感でないトレーニングの場合、ウィンドウごとにスケーリングファクター８２０を決定するが、反応速度に敏感な認識の場合、音声信号の最初のウィンドウ８１０に対して決定したスケーリングファクター８２０を用いて全体ウィンドウに対して認識を行う。

図９は、一実施形態に係る認識方法を示す図である。

図９を参照すると、一実施形態に係る認識装置のプロセッサで実行される認識方法が示されている。

ステップＳ９１０において、認識装置は、サブニューラルネットワークを用いて音声信号からスケーリングファクターを取得する。スケーリングファクターは、音声信号が認識されるとき、メインニューラルネットワークで考慮される未来コンテキストの時点ごとの重要度を示す。例えば、スケーリングファクターは、音声信号に含まれたノイズ程度及び音声信号に含まれたユーザ発音の正確度のうち少なくとも１つに基づいて決定される。スケーリングファクターはτ次元ベクトルを含む。

ステップＳ９２０において、認識装置は、スケーリングファクター内の最も高い次元成分から先に考慮される。認識装置は、考慮しようとするｊ次元をτに設定する。

ステップＳ９３０において、認識装置は、スケーリングファクターのｊ次元成分α_jが予め決定された閾値εよりも小さいか否かを判断する。

もし、スケーリングファクターのｊ次元成分α_jが予め決定された閾値εよりも小さい場合、ステップＳ９４０において、認識装置は、メインニューラルネットワークから加重値ベクトルｗ_ｊを除去する。加重値ベクトルｗ_ｊは、時点ｔのルックアヘッド畳み込みレイヤに伝えられる時点ｔ＋ｊのリカレントレイヤの出力に適用される加重値であり得る。言い換えれば、メインニューラルネットワークから加重値ベクトルｗ_ｊを除去することにより、時点ｔ＋ｊの未来コンテキストは考慮から除外され得る。

ステップＳ９５０において、認識装置は次に考慮する次元をステップＳ９３０で判断した次元よりも一次元低くして設定する。

そして、ステップＳ９３０において、認識装置は、スケーリングファクターのｊ次元成分α_jが予め決定された閾値εよりも小さいか否かを判断する。予め決定された閾値εよりも大きい値を有するｊ次元成分α_jが確認されるまで、ステップＳ９３０～ステップＳ９５０が繰り返して実行される。

もし、ステップＳ９３０でスケーリングファクターのｊ次元成分α_jが予め決定された閾値εよりも大きい場合、ステップＳ９６０において、認識装置は、メインニューラルネットワークに含まれたルックアヘッド畳み込みレイヤの未来コンテキストの長さをｊに調整する。

ステップＳ９７０において、認識装置は、未来コンテキストの長さがｊに調整された畳み込みレイヤを含むメインニューラルネットワークを用いて音声信号を認識する。

図９に示された各ステップには図１～図８を参照して前述した事項が同様に適用され得るため、より詳細な説明は省略する。

図１０は、一実施形態に係るトレーニング方法を示す図である。

図１０を参照すると、一実施形態に係るトレーニング装置のプロセッサで実行されるトレーニング方法が示されている。

ステップＳ１０１０において、トレーニング装置は、サブニューラルネットワークを用いてトレーニング入力からスケーリングファクターを取得する。

ステップＳ１０２０において、トレーニング装置は、スケーリングファクター内の最も高い次元成分から先に考慮される。トレーニング装置は、考慮しようとするｊ次元をτに設定する。

ステップＳ１０３０において、トレーニング装置は、スケーリングファクターのｊ次元成分α_jが予め決定された閾値εよりも小さいか否かを判断する。

もし、スケーリングファクターのｊ次元成分α_jが予め決定された閾値εよりも小さい場合、ステップＳ１０４０において、トレーニング装置は、メインニューラルネットワークから加重値ベクトルｗ_ｊを除去する。加重値ベクトルｗ_ｊは、時点ｔのルックアヘッド畳み込みレイヤに伝えられる時点ｔ＋ｊのリカレントレイヤの出力に適用される加重値である。言い換えれば、メインニューラルネットワークから加重値ベクトルｗ_ｊを除去することにより、時点ｔ＋ｊの未来コンテキストは考慮から除外される。

ステップＳ１０５０において、トレーニング装置は、次に考慮する次元をステップＳ１０３０で判断した次元よりも一次元低くして設定する。

そして、ステップＳ１０３０においてトレーニング装置は、スケーリングファクターのｊ次元成分α_jが予め決定された閾値εよりも小さいか否かを判断する。予め決定された閾値εよりも大きい値を有するｊ次元成分α_jが確認されるまで、ステップＳ１０３０～ステップＳ１０５０が繰り返して実行される。

もし、ステップＳ１０３０で、スケーリングファクターのｊ次元成分α_jが予め決定された閾値εよりも大きい場合、トレーニング装置は、メインニューラルネットワークに含まれたルックアヘッド畳み込みレイヤの未来コンテキストの長さをｊに調整する。

ステップＳ１０６０において、トレーニング装置は、未来コンテキストの長さがｊに調整された畳み込みレイヤを含むメインニューラルネットワークとサブニューラルネットワークをトレーニングさせる。例えば、トレーニング装置は、未来コンテキストの長さがｊに調整された畳み込みレイヤを含むメインニューラルネットワークとサブニューラルネットワークを用いてトレーニング入力からトレーニング出力が出力されるよう、メインニューラルネットワークとサブニューラルネットワークを同時にトレーニングさせ得る。

図１０に示された各ステップには、図１～図９を参照して前述した事項が同様に適用され得るため、より詳細な説明は省略する。

図１１は、一実施形態に係る認識装置を示す図である。

図１１を参照すると、一実施形態に係る認識装置１１００はプロセッサ１１１０及びメモリ１１２０を含む。

メモリ１１２０は先に説明したメインニューラルネットワーク１１２１及びサブニューラルネットワーク１１２３のパラメータを格納する。また、メモリ１１２０は、コンピュータで読み出し可能な命令語を含む。プロセッサ１１１０は、メモリ１１２０に格納された命令語がプロセッサ１１１０で実行されることにより、先に言及された動作を行う。メモリ１１２０は、揮発性メモリ又は不揮発性メモリであり得る。

プロセッサ１１１０は、メモリ１１２０でメインニューラルネットワーク１１２１及びサブニューラルネットワーク１１２３に関するデータを取得し、メインニューラルネットワーク１１２１及びサブニューラルネットワーク１１２３に関する動作を処理する。

一実施形態に係るプロセッサ１１１０は、音声信号が入力されたサブニューラルネットワーク１１２３からスケーリングファクターを取得し、スケーリングファクターに基づいてメインニューラルネットワーク１１２１で考慮する未来コンテキストの長さを決定し、決定された未来コンテキストの長さが適用されたメインニューラルネットワーク１１２１に音声信号が入力されることで、メインニューラルネットワーク１１２１から出力される音声信号の認識結果を取得する。

その他に、認識装置１１００には前述された事項が適用することができ、より詳細な説明は省略する。

図１２は、一実施形態に係るトレーニング装置を示す図である。

図１２を参照すると、一実施形態に係るトレーニング装置１２００はプロセッサ１２１０及びメモリ１２２０を含む。

メモリ１２２０は、先に説明したメインニューラルネットワーク１２２１及びサブニューラルネットワーク１２２３のパラメータを格納する。また、メモリ１２２０はコンピュータで読み出し可能な命令語を含む。

プロセッサ１２１０は、メモリ１２２０に格納された命令語がプロセッサ１２１０で実行されることにより、先に言及された動作を行う。プロセッサ１２１０は、メモリ１２２０でメインニューラルネットワーク１２２１及びサブニューラルネットワーク１２２３を取得する。メインニューラルネットワーク１２２１及びサブニューラルネットワーク１２２３の各トレーニングされたパラメータが最終決定されるまで、プロセッサ１２１０は、トレーニングデータ１２０１に基づいてメインニューラルネットワーク１２２１及びサブニューラルネットワーク１２２３をトレーニングさせ得る。

トレーニングデータ１２０１は、トレーニング入力及びトレーニング出力を含む。トレーニング入力は、メインニューラルネットワーク１２２１及びサブニューラルネットワーク１２２３に入力される入力データであって、例えば、音声データを含む。トレーニング出力は、トレーニング入力にマッピングされたデータであって、例えば、トレーニング入力がメインニューラルネットワーク１２２１及びサブニューラルネットワーク１２２３に入力されることで、メインニューラルネットワーク１２２１で出力されなければならないレーベルであり得る。

プロセッサ１２１０は、トレーニング入力からトレーニング出力が生成されるよう、メインニューラルネットワーク１２２１及びサブニューラルネットワーク１２２３をトレーニングさせる。メインニューラルネットワーク１２２１及びサブニューラルネットワーク１２２３を訓練させることは、メインニューラルネットワーク１２２１及びサブニューラルネットワーク１２２３のパラメータを訓練させること、メインニューラルネットワーク１２２１及びサブニューラルネットワーク１２２３を更新すること、あるいはメインニューラルネットワーク１２２１及びサブニューラルネットワーク１２２３のパラメータを更新することを含む。

プロセッサ１２１０は、トレーニング入力が入力されたサブニューラルネットワーク１２２３からスケーリングファクターを取得し、スケーリングファクターに基づいてメインニューラルネットワーク１２２１で考慮する未来コンテキストの長さを決定する。そして、プロセッサ１２１０は、決定された未来コンテキストの長さが適用されたメインニューラルネットワーク１２２１にトレーニング入力が入力されることによって、メインニューラルネットワーク１２２１でトレーニング入力にマッピングされたトレーニング出力が出力されるよう、メインニューラルネットワーク１２２１及びサブニューラルネットワーク１２２３をトレーニングさせる。

メインニューラルネットワーク１２２１は、サブニューラルネットワーク１２２３の出力（例えば、スケーリングファクター）に基づいて動作するため、メインニューラルネットワーク１２２１及びサブニューラルネットワーク１２２３は同時にトレーニングされ得る。

その他に、トレーニング装置１２００には前述された事項が適用することができ、より詳細な説明は省略する。

図１３は、一実施形態に係る電子装置を示す図である。

図１３を参照すると、一実施形態により音声認識装置が電子装置１３００として図示されている。

一実施形態によると、電子装置１３００は、図１に示す音声認識装置１００及び／又は図１１に示す音声認識装置１１００のような音声認識装置及び／又は図１２に示すトレーニング装置１２００を含む。電子装置１３００は、ＴＶｓｅｔ、セットトップボックス、デスクトップコンピュータ、ラップトップコンピュータ、翻訳マシーン、スマートフォン、タブレットＰＣ、スマートウォッチ、ウェアラブル装置、車両の電子制御装置など、電子装置１３００によって音声認識されたユーザ命令を処理できる装置である。ただし、電子装置１３００の実施形態がこれに制限されることなく、音声認識が適用される異なる電子装置にも適用可能である。

図１３によると、一実施形態に係る電子装置１３００は、音声受信機１３１０、音声認識器１３２０、及びプロセッサ１３３０を含む。ここで、音声認識器１３２０は、図１～図１２を参照して説明された音声認識装置及び／又はトレーニング装置に当該する。音声認識器１３２０は、前述した１つ以上のプロセッシング装置によって実現されるハードウェア、又は電子装置１３００の他の動作を制御するように構成される前述した１つ以上のプロセッシング装置によって実現される。音声認識部１３２０により認識されたユーザの命令又はクエリに応答してユーザインターフェース動作が実行される。

音声受信機１３１０は、マイクロホンによって入力されたユーザのオーディオ信号を受信する。又は、音声受信機１３１０は、対応する音声認識システムの別途の装置（例えば、無線又は有線マイクロホン、又は受信されたりキャプチャーされたオーディオを送信するコントローラなど）に該当する。オーディオ信号は、電子装置１３００又はその他の電子装置を制御するための単語、構文文章、命令に関する信号である。また、受信又はキャプチャーされたオーディオに対する前処理は、受信又はキャプチャーされたアナログオーディオ信号をデジタル信号にコンバーティングする動作、デジタル信号を複数のオーディオフレーム、又はウィンドウに分割する動作、及びオーディオフレームを音声認識器１３２０に送信する動作を含む。格納されたオーディオ又は格納された前処理されたオーディオは、音声認識器１３２０に提供される。したがって、実施形態によってコンテキストモデル、音響モデル、言語モデル、及びデコーダが１つ以上の遠隔サーバとして実現され得る。例えば、音声認識器１３２０は遠隔サーバで構成され、電子装置１３００はキャプチャーされたオーディオを送信し、（ａ）音響モデル、（ｂ）音響モデル及び言語モデル、又は（ｃ）デコーダの適切な出力を受信する。

したがって、音声認識器１３２０は、音響モデル又は音響モデル及び言語モデルの結果をデコーダ又は次のレイヤに入力させ、デコーダの出力結果に基づいてオーディオ信号の最終認識結果を出力することができる。

プロセッサ１３３０は、電子装置１３００の追加的な動作を制御したり行う。プロセッサ１３３０は、音声認識器１３２０からリターンされた最終の認識結果に応答して電子装置１３００の現在又は追加動作を制御する。例えば、プロセッサ１３３０は、ユーザから入力された音声の認識結果をテキスト形態にディスプレイ上に表示する。そのため、メッセージ又は文書作成が実行され得る。加えて、プロセッサ１３３０は、追加的な非音声認識動作を行ったり、電子装置１３００に関する命令（例えば、電源オン／オフ、ボリューム制御、音楽選択など）を行う。認識装置１３００は、認識結果をディスプレイ上に表示したり、音声的に出力する。インターフェース１３４０は、電子装置１３００のスピーカ、１つ以上のユーザインターフェースを示す。例えば、インターフェース１３４０は、ディスプレイ、キーボード及び／又はタッチスクリーン、及び／又はその他の外部装置とデータをやり取りするための１つ以上の通信ハードウェアモジュールを示す。その他にも、様々なインターフェースが制限されることなく適用されてもよい。また、インターフェース１３４０は、音声認識器１３２０によって前処理されたオーディオ信号を生成するマイクロホンを示してもよい。

図１１に示すメモリ１１２０及び図１２に示すメモリ１２２０などのような電子装置１３００のメモリは、コンテキストモデル、音響モデル、及び言語モデルなどを格納する。メモリは電子装置１３００の１つ以上のプロセッサに、前述の動作を行わせる実行可能な命令語を含む。

以上述した実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、マイクロコンピュータ、ＦＰＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサー、又は命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行して応答する異なる装置のように、１つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム（ＯＳ）及びオペレーティングシステム上で実行される１つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は１つが使用されるものとして説明する場合もあるが、当該技術分野で通常の知識を有する者は、処理装置が複数の処理要素（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）及び／又は複数類型の処理要素を含むことが分かる。例えば、処理装置は、複数のプロセッサ又は１つのプロセッサ及び１つのコントローラを含む。また、並列プロセッサ（ｐａｒａｌｌｅｌｐｒｏｃｅｓｓｏｒ）のような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、又はこれらのうちの１つ以上の組合せを含み、希望通りに動作するように処理装置を構成し、独立的又は結合的に処理装置に命令する。ソフトウェア及び／又はデータは、処理装置によって解釈され、処理装置に命令又はデータを提供するためのあらゆる類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、或いは送信される信号波を介して永久的又は一時的に具現化される。ソフトウェアは、ネットワークに接続されたコンピュータシステム上に分散され、分散された方法で格納されるか又は実行される。ソフトウェア及びデータは１つ以上のコンピュータ読み取り可能な記録媒体に格納される。

本実施形態による方法は、多様なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであり得る。コンピュータ読み取り可能な記録媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスクのような磁気－光媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードのみならず、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明の動作を実行するために１つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。

上述したように実施形態をたとえ限定された図面によって説明したが、当該技術分野で通常の知識を有する者であれば、前記に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順序で実行されたり、及び／又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組合わせられたり、他の構成要素又は均等物によって置き換えたり置換されても適切な結果を達成することができる。

Claims

プロセッサによる認識方法において、
メインニューラルネットワーク及びサブニューラルネットワークに音声信号を提供するステップと、
前記サブニューラルネットワークを用いて、前記提供された音声信号を解釈することにより、スケーリングファクターを取得するステップと、
前記スケーリングファクターに基づいて、音声認識を行うメインニューラルネットワークで考慮する未来コンテキストの長さを決定するステップと、
前記決定された未来コンテキストの長さが適用された前記メインニューラルネットワークを用いて前記音声信号の認識結果を取得するステップと、
を含む認識方法。
前記メインニューラルネットワークは、以前時間連結を含む第１レイヤ及び未来時間連結を含む第２レイヤを含む、請求項１に記載の認識方法。
前記未来コンテキストの長さを決定するステップは、
前記メインニューラルネットワークによる音声認識それぞれに対する未来コンテキストそれぞれの長さを決定し、
前記未来コンテキストそれぞれの長さは、前記サブニューラルネットワークによる音声信号の対応するコンテキスト解釈に基づいて動的に決定される、請求項１に記載の認識方法。
前記メインニューラルネットワーク及び前記サブニューラルネットワークに前記音声信号を提供するステップは、
前記音声信号に含まれた複数の音声フレーム又はウィンドウを前記メインニューラルネットワークに提供し、前記複数の音声フレーム又はウィンドウの一部を前記サブニューラルネットワークに提供し、
前記サブニューラルネットワークは、前記複数の音声フレーム又はウィンドウの一部を解釈することによって前記スケーリングファクターを生成し、
前記メインニューラルネットワークは、前記複数の音声フレーム又はウィンドウに基づいて音声信号を認識する、請求項１ないし３のうち何れか一項に記載の認識方法。
前記メインニューラルネットワーク及び前記サブニューラルネットワークに前記音声信号を提供するステップは、前記スケーリングファクターを取得するために、前記複数の音声フレーム又はウィンドウの全て又は一部のいずれか１つを前記サブニューラルネットワークに提供する、請求項４に記載の認識方法。
前記スケーリングファクターを取得するステップは、前記サブニューラルネットワークを用いて、前記音声信号が認識されるとき前記メインニューラルネットワークで考慮される未来コンテキストの時点ごとの重要度を示すスケーリングファクターを取得する、請求項１ないし５のうち何れか一項に記載の認識方法。
前記スケーリングファクターを取得するステップは、前記サブニューラルネットワークによって解釈された前記音声信号に含まれたノイズ程度、及び前記音声信号に含まれたユーザ発音の正確度のうち少なくとも１つに基づいて決定されたスケーリングファクターを取得する、請求項６に記載の認識方法。
前記スケーリングファクターを取得するステップは、前記サブニューラルネットワークによって相対的に低く解釈された音声信号の明確性に基づいて予め決定された閾値よりも大きい値を有する成分が多くなるよう前記スケーリングファクターを決定する、請求項６に記載の認識方法。
前記未来コンテキストの長さを決定するステップは、前記スケーリングファクターに基づいて前記サブニューラルネットワークによって相対的に低く解釈された音声信号の明確性により前記未来コンテキストの長さを大きく決定し、前記サブニューラルネットワークによって相対的に高く解釈された音声信号の明確性により前記未来コンテキストの長さを小さく決定する、請求項１に記載の認識方法。
前記未来コンテキストの長さを決定するステップは、前記スケーリングファクターに含まれた成分の値と予め決定された閾値との間の比較によって前記未来コンテキストの長さを決定する、請求項１に記載の認識方法。
前記未来コンテキストの長さを決定するステップは、前記予め決定された閾値よりも大きい値を有する前記スケーリングファクターの成分のうち最も高い次元に基づいて前記未来コンテキストの長さを決定する、請求項１０に記載の認識方法。
前記音声信号の認識結果を取得するステップは、
前記メインニューラルネットワークに含まれたルックアヘッド畳み込みレイヤの未来コンテキストの長さを前記決定された未来コンテキストの長さに調整するステップと、
前記調整されたルックアヘッド畳み込みレイヤを含むメインニューラルネットワークに前記音声信号を入力するステップと、
前記調整されたルックアヘッド畳み込みレイヤを含むメインニューラルネットワークから出力される音声信号の認識結果を取得するステップと、
を含む、請求項１ないし１１のうち何れか一項に記載の認識方法。
前記ルックアヘッド畳み込みレイヤの未来コンテキストの長さを前記決定された未来コンテキストの長さに調整するステップは、前記決定された未来コンテキストの長さに基づいて、前記ルックアヘッド畳み込みレイヤに対するゼロ未来コンテキスト、一部の未来コンテキスト、全ての未来コンテキストのうちいずれか１つを選択する、請求項１２に記載の認識方法。
前記未来コンテキストの長さを決定するステップは、前記音声信号の複数のウィンドウのうち最初のウィンドウで取得したスケーリングファクターに基づいて前記未来コンテキストの長さを決定し、
前記音声信号の認識結果を取得するステップは、前記決定された未来コンテキストの長さが適用された前記メインニューラルネットワークを用いて、前記音声信号に含まれた複数のウィンドウに対する認識結果を取得する、請求項１に記載の認識方法。
前記メインニューラルネットワークは、ルックアヘッド畳み込みレイヤを含む単方向リカレントニューラルネットワークである、請求項１ないし１４のうち何れか一項に記載の認識方法。
前記メインニューラルネットワーク及び前記サブニューラルネットワークは、共にトレーニングされるニューラルネットワークである、請求項１ないし１４のうち何れか一項に記載の認識方法。
プロセッサによるトレーニング方法において、
トレーニング入力が入力されたサブニューラルネットワークからスケーリングファクターを取得するステップと、
前記スケーリングファクターに基づいてメインニューラルネットワークで考慮する未来コンテキストの長さを決定するステップと、
前記決定された未来コンテキストの長さが適用された前記メインニューラルネットワークに前記トレーニング入力が入力されることによって、前記メインニューラルネットワークで前記トレーニング入力にマッピングされたトレーニング出力が出力されるよう、前記メインニューラルネットワーク及び前記サブニューラルネットワークをトレーニングするステップと、
を含むトレーニング方法。
前記メインニューラルネットワーク及び前記サブニューラルネットワークをトレーニングするステップは、前記メインニューラルネットワークと前記サブニューラルネットワークを同時にトレーニングする、請求項１７に記載のトレーニング方法。
請求項１ないし請求項１８のいずれか一項に記載の方法をプロセッサに実行させる命令語を含むコンピュータプログラム。
プロセッサと
少なくとも１つの命令語を含むメモリと
を有する認識装置であって、前記命令語が前記プロセッサにより実行されると、前記プロセッサは、
メインニューラルネットワーク及びサブニューラルネットワークに音声信号を提供し、
前記サブニューラルネットワークを用いて、前記提供された音声信号を解釈することによりスケーリングファクターを取得し、
音声認識を行うメインニューラルネットワークで考慮する未来コンテキストの長さを前記スケーリングファクターに基づいて決定し、前記決定された未来コンテキストの長さが適用された前記メインニューラルネットワークを用いて、前記音声信号の認識結果を取得する、認識装置。
前記少なくとも１つの命令語は、前記プロセッサによって音声認識が提供され、前記スケーリングファクターを取得し、前記未来コンテキストの長さを決定し、前記認識結果を取得することを、前記プロセッサに実行させる、請求項２０記載の認識装置。
前記メモリは、前記メインニューラルネットワーク及び前記サブニューラルネットワークのトレーニングされたパラメータそれぞれを含み、
前記プロセッサは、前記メインニューラルネットワーク及び前記サブニューラルネットワークが実行される場合、前記トレーニングされたパラメータそれぞれを前記メインニューラルネットワーク及び前記サブニューラルネットワークに適用する、請求項２０又は２１に記載の認識装置。
前記プロセッサは、前記サブニューラルネットワークを用いて前記音声信号が認識される場合に、前記メインニューラルネットワークで考慮される未来コンテキストの時点ごとの重要度を示すスケーリングファクターを取得する、請求項２０ないし２２のうち何れか一項に記載の認識装置。
前記プロセッサは、前記サブニューラルネットワークによって解釈された前記音声信号に含まれたノイズ程度及び前記音声信号に含まれたユーザ発音の正確度のうち少なくとも１つに基づいて決定されたスケーリングファクターを取得する、請求項２３記載の認識装置。
前記プロセッサは、前記サブニューラルネットワークによって相対的に低く解釈された音声信号の明確性に基づいて予め決定された閾値よりも大きい値を有する成分が多くなるように前記スケーリングファクターを決定する、請求項２０ないし２２のうち何れか一項に記載の認識装置。
前記プロセッサは、前記スケーリングファクターに含まれた成分の値と予め決定された閾値との間の比較によって前記未来コンテキストの長さを決定する、請求項２０ないし２５のうち何れか一項に記載の認識装置。
前記認識装置は、電子装置であり、オーディオをキャプチャーする音声受信機をさらに含み、前記プロセッサは、前記キャプチャーされたオーディオから前記音声信号を抽出し、
前記プロセッサは、前記認識結果に基づいて解釈された命令に基づいて前記認識装置の非音声認識機能を制御する、請求項２１ないし２６のうち何れか一項に記載の認識装置。