JP2018109760A

JP2018109760A - 音声認識方法及び音声認識装置

Info

Publication number: JP2018109760A
Application number: JP2017245280A
Authority: JP
Inventors: 鎬式李; Ho-Shik Lee; 輝棟羅; Hwi Dong Na
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-01-04
Filing date: 2017-12-21
Publication date: 2018-07-12
Anticipated expiration: 2037-12-21
Also published as: EP3346462A1; CN108269569A; US20180190268A1; JP7093626B2; KR20180080446A; US10679612B2; CN108269569B; EP3346462B1

Abstract

【課題】ニューラルネットワーク基盤の音声認識モデルを用いた音声認識方法及び音声認識装置を提供する。【解決手段】音声認識方法は、ニューラルネットワークの１つ以上のレイヤが以前時間で出力した出力値に基づいてアテンション加重値を決定するステップと、アテンション加重値を現在時間の音声信号に適用するステップと、音声認識モデルを用いて前記アテンション加重値が適用された音声信号を認識するステップとを含む。【選択図】図３

Description

本発明は、音声認識に用いられる音声認識モデルを学習させる技術及び音声認識モデルを用いて音声信号を認識する技術に関する。

音声認識技術は、人がコミュニケーションのために話す音声言語をコンピュータが解釈して文字データに切り替える技術であって、便利さを所望するユーザの要求により迅速に発展している。最近では、ニューラルネットワーク（ｎｅｕｒａｌｎｅｔｗｏｒｋ）を用いて音声認識を行う技術が盛んに研究されている。ニューラルネットワークは、人の生物学的な神経細胞の特性を数学的な表現によりモデリングしたモデルであって、人が有している学習という能力を模倣したアルゴリズムを用いる。ニューラルネットワークは、学習された結果に基づいて学習に利用されていない入力パターンに対して比較的に正しい出力を生成することのできる一般化能力を有する。このような一般化能力が有する長所により、ニューラルネットワークが音声認識技術の分野に幅広く利用されている。

本発明の目的は、音声認識において雑音成分の影響を減らしたり、又は特定話者の音声信号に集中して認識できることによって、認識性能を改善させることにある。

一実施形態に係るニューラルネットワーク基盤の音声認識モデルを用いた音声認識方法は、前記ニューラルネットワークの１つ以上のレイヤが以前時間で出力した出力値に基づいてアテンション加重値を決定するステップと、前記決定されたアテンション加重値を現在時間の音声信号に適用するステップと、前記音声認識モデルを用いて前記アテンション加重値が適用された音声信号を認識するステップとを含む。

一実施形態に係る音声認識方法において、前記決定するステップは、前記以前時間で前記ニューラルネットワークの隠れレイヤ及び出力レイヤのうちの１つ以上が出力した出力値に基づいて前記アテンション加重値を決定し得る。

一実施形態に係る音声認識方法において、前記決定するステップは、前記以前時間で前記１つ以上のレイヤが出力した出力値及び認識しようとする話者の情報に基づいて決定されるコンテキスト値に基づいて前記アテンション加重値を決定し得る。

一実施形態に係る音声認識方法において、前記決定するステップは、前記以前時間で前記１つ以上のレイヤが出力した出力値及び前記現在時間で前記音声認識モデルに入力される音声フレームの特徴値に基づいて前記アテンション加重値を決定し得る。

一実施形態に係る音声認識方法において、前記決定するステップは、前記音声認識モデルに前記音声信号に含まれた複数の音声フレームが入力される場合、前記音声フレームそれぞれに対するアテンション加重値を決定し、前記適用するステップは、前記決定されたアテンション加重値を前記アテンション加重値それぞれに対応する音声フレームに適用し得る。

他の実施形態に係るニューラルネットワーク基盤の音声認識モデルを用いた音声認識方法は、音線信号を受信するステップと、前記音声認識モデルを用いて前記音声信号を認識するステップとを含み、前記認識するステップは、前記ニューラルネットワークの１つ以上のレイヤが以前時間で出力した出力値に基づいてアテンション加重値を決定するステップと、前記決定されたアテンション加重値を前記ニューラルネットワークのレイヤが現在時間で出力した出力値に適用するステップとを含む。

他の実施形態に係る音声認識方法において、前記決定するステップは、前記以前時間で前記ニューラルネットワークの隠れレイヤ及び出力レイヤのうちの１つ以上が出力した出力値に基づいて前記アテンション加重値を決定し得る。

他の実施形態に係る音声認識方法において、前記決定するステップは、前記以前時間で前記１つ以上のレイヤが出力した出力値及び認識しようとする話者の情報に基づいて決定されるコンテキスト値に基づいて前記アテンション加重値を決定し得る。

他の実施形態に係る音声認識方法において、前記アテンション加重値が、前記ニューラルネットワークの現在レイヤが出力した出力値に適用される場合、前記アテンション加重値によって前記現在レイヤの上位レイヤに伝達される前記現在レイヤの出力値のサイズが調整され得る。

一実施形態に係るニューラルネットワーク基盤の音声認識モデルを用いた音声認識装置は、プロセッサと、前記プロセッサによって実行可能な１つ以上の命令を格納するメモリとを含み、前記１つ以上の命令が前記プロセッサによって実行されれば、前記プロセッサは、前記ニューラルネットワークの１つ以上のレイヤが以前時間で出力した出力値に基づいてアテンション加重値を決定し、前記決定されたアテンション加重値を現在時間の音声信号に適用し、前記音声認識モデルを用いて前記アテンション加重値が適用された音声信号を認識できる。

一実施形態に係るニューラルネットワーク基盤の音声認識モデルを用いた音声認識装置は、プロセッサと、前記プロセッサによって実行可能な１つ以上の命令を含むメモリとを含み、前記１つ以上の命令が前記プロセッサによって実行されれば、前記プロセッサは、前記音声認識モデルを用いて音声信号を認識するとき、前記ニューラルネットワークの１つ以上レイヤが以前時間で出力した出力値に基づいてアテンション加重値を決定し、前記決定されたアテンション加重値を前記ニューラルネットワークのレイヤが現在時間で出力した出力値に適用し、前記適用結果に基づいて前記音声信号の認識結果を推定できる。

一実施形態によると、音声認識において雑音成分の影響を減らしたり、又は特定話者の音声信号に集中して認識できることによって、認識性能を改善させることができる。

一実施形態に係る音声認識過程を説明するための図である。一実施形態に係る音声認識方法の動作を示すフローチャートである。一実施形態に係る音声認識過程をより具体的に説明するためのフローチャートである。一実施形態に係る音声認識モデルに基づいて音声認識が実行される過程を説明するための図である。一実施形態に係る音声認識モデルに基づいて音声認識が実行される過程を説明するための図である。他の実施形態に係る音声認識過程をより具体的に説明するためのフローチャートである。他の実施形態に係る音声認識モデルに基づいて音声認識が実行される過程を説明するための図である。他の実施形態に係る音声認識モデルに基づいて音声認識が実行される過程を説明するための図である。更なる実施形態に係る音声認識過程をより具体的に説明するためのフローチャートである。一実施形態に係る音声認識装置の構成を示す図である。一実施形態に係る音声認識モデルの学習方法の動作を示すフローチャートである。

本明細書で開示されている特定の構造的又は機能的説明は単に実施形態を説明するための目的として例示されたものであり、実施形態は様々な異なる形態で実施され、本明細書に説明された実施形態に限定されることはない。

第１又は第２などの用語を複数の構成要素を説明するために用いることができるが、このような用語は１つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第１構成要素は第２構成要素と命名することができ、同様に第２構成要素は第１構成要素にも命名することができる。

いずれかの構成要素が他の構成要素に「連結されて」いると言及された場合、その次の構成要素に直接的に連結されてもよく、又は、中間に他の構成要素が存在することもあり得ると理解されなければならない。一方、構成要素が他の構成要素に「直接連結されて」いるか「直接接続されて」いると言及される場合には、中間に他の構成要素が存在しないものとして理解されなければならない。構成要素間の関係を説明する表現、例えば「〜間に」と「すぐ〜の間に」、又は「〜に隣接する」と「〜に直接に隣接する」などのように解釈されなければならない。

異なるように定義さがれない限り、技術的であるか又は科学的な用語を含むここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。

以下、実施形態を例示的である図面によって詳細に説明する。各図面の構成要素に参照符号を付加するにおいて、同一の構成要素に対してはたとえ他の図面上に表示されたとしても、可能な限り同一の符号を付加したことに留意しなければならない。また、実施形態を説明するにおいて、関連する公知構成又は機能に対する具体的な説明が実施形態に対する理解を妨げると判断される場合にはその詳細な説明は省略する。

図１は、一実施形態に係る音声認識過程を説明するための図である。

音声認識装置１１０は、音声認識を行う装置として、音声認識装置１１０に入力された音声信号を認識して音声認識の結果を出力する。音声認識は、音声信号に含まれた言語情報をこれに対応するテキスト情報に変換する過程である。音声認識装置１１０は、入力された音声信号を分析して音声信号に含まれた言語情報がいかなるテキスト情報を示すかを推定する。

一実施形態によると、音声認識装置１１０は、モバイルフォン、セルラーフォン、スマートフォン、パーソナルコンピュータ、ラップトップ、ノート型パソコン、ネットブック又はタブレット、携帯情報端末（ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ；ＰＤＡ）、デジタルカメラ、ゲームコンソール、ＭＰ３プレーヤー、パーソナルマルチメディアプレーヤー（ｐｅｒｓｏｎａｌｍｕｌｔｉｍｅｄｉａｐｌａｙｅｒ；ＰＭＰ）、電子ブック（Ｅ−Ｂｏｏｋ）、ナビゲーション、ディスクプレーヤー、セットトップボックス、家庭用電子機器（ｈｏｍｅａｐｐｌｉａｎｃｅ）、通信装置、ディスプレイ装置、又は、その他の電子機器に内蔵されたり、これと相互に動作する。また、音声認識装置１１０は、スマート家電機器、知能型車両、自律走行装置、スマートホーム環境、スマートビルディング環境、スマートオフィス環境、スマート電子セキュリティーシステムなどに内蔵されたり、又はこれと相互に動作する。また、音声認識装置１１０は、ユーザの体に着用されるウェアラブル機器（ｗｅａｒａｂｌｅｄｅｖｉｃｅ）に含まれて動作したり、これと相互に動作する。ウェアラブル機器は、例えば、指輪、時計、メガネ、腕輪、ベルト、バンド、ネックレス、イヤリング、ヘルメット、又は服の形態を有する。

音声認識装置１１０は音声信号から特徴を抽出し、抽出された特徴に基づいて音声認識の結果を推定する。一例として、音声認識装置１１０は、音声信号からスペクトログラム（ｓｐｅｃｔｒｏｇｒａｍ）を取得し、スペクトログラムから音声信号の周波数特徴を抽出する。音声認識装置１１０は、音声信号をフーリエ変換（Ｆｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）を用いたスペクトルの分析結果を時間・周波数に対して表現すれば、スペクトログラムを取得できる。音声認識装置１１０は、フーリエ変換によって音声信号の基本周波数を算出し、基本周波数の自然数倍（１、２、３．．．倍）に該当する周波数の振幅値を算出して周波数値をｘ軸に、振幅値をｙ軸に示してスペクトルを生成する。スペクトログラムは、生成されたスペクトルで振幅値が大きいほどビン（ｂｉｎ）のサイズを大きく示し、振幅値が小さいほどビンのサイズを小さく示し、それぞれの周波数位置に対して振幅値のサイズを連続に表示したものである。音声認識装置１１０は、スペクトログラムに示された周波数特徴情報を音声信号の特徴として抽出する。

音声信号から特徴を抽出する方法は上記の実施形態に限定されることなく、音声信号の特徴を抽出するために様々な方法を用いてもよい。例えば、音声認識装置１１０は、音声認識のために人の耳が有する非線形である周波数特徴を用いたＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔｓ）の特徴値を用いてもよい。ＭＦＣＣの特徴値は、（１）時間ウィンドウに基づいて音声信号を音声フレーム単位に分割、（２）ＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を用いて音声フレームを周波数領域に変換、（３）フィルタバンク（ｆｉｌｔｅｒｂａｎｋ）を用いて音声フレームを様々な周波数帯域の信号に分割、（４）各周波数帯域の信号のエネルギーを算出、（５）算出されたエネルギーにＤＣＴ（ＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）を適用の過程により取得される。

音声認識装置１１０は、音声認識の結果を推定するために音声認識モデルとして、音響モデル１２０と言語モデル１３０を用いる。音響モデル１２０は、音声信号から抽出された特徴に基づいて音声信号を音素（ｐｈｏｎｅｍｅ）単位として認識するために用いられる。音声認識装置１１０は、音響モデル１２０によって取得された音素単位の認識結果に基づいて音声信号が示す単語を推定する。言語モデル１３０は、単語間の連結関係に基づいた確率情報を取得するために用いられる。言語モデル１３０は、言語モデル１３０に入力された単語に連結される次の単語に対する確率情報を提供する。例えば、言語モデル１３０に「ｔｈｉｓ」の単語が入力される場合、言語モデル１３０は「ｔｈｉｓ」の次に「ｉｓ」又は「ｗａｓ」が連結される確率情報を提供する。一実施形態に係る音声認識装置１１０は、言語モデル１３０によって確率情報に基づいて最も確率の高い単語間の連結関係を選択し、選択結果を音声認識の結果として出力する。

上記のような音響モデル１２０及び言語モデル１３０として、ニューラルネットワークを用いてもよい。ニューラルネットワークは、複数の人工ニューロン（又は、ノード）を用いて生物学的なシステムの算出能力を模倣するソフトウェアやハードウェアで具現化された認識モデルである。ニューラルネットワークは、人工ニューロンを用いて人の認知作用や学習過程を行う。一例として、以前時間の隠れレイヤの出力値が現在時間の隠れレイヤに再び入力されるリカレントニューラルネットワーク（ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ；ＲＮＮ）が音響モデル１２０及び言語モデル１３０に用いられてもよい。

一実施形態に係るニューラルネットワークに基づいた音声認識モデルは、以前時間で当該ニューラルネットワークによって算出された結果がフィードバックされ、動的にスペックトロールマスキングを実現し得る。スペックトロールマスキングでは、音声信号の周波数帯域ごとの特徴値そのままが音声認識に用いられるものではなく、各周波数帯域ごとの特徴値のサイズを調整した結果が音声認識に用いられる。例えば、騒音が混合された音声信号において、騒音ではない人の音声のみが集中的に認識したり、又は音声信号に様々な人の話者（ｓｐｅａｋｅｒ）が存在する場合認識しようとする話者の音声のみを集中して認識しようとするとき、スペックトロールマスキングが用いられる。

人は入力される音声により、特定のスペクトル領域の信号に集中し、音声信号に含まれた騒音を適応的に除去する能力がある。人の聴覚器官は、脳の聴覚器官から末梢にくる下り経路が存在し、その下り経路は、選択的注意集中能力と騒音環境で音声を知覚するために影響を及ぼすことが知られている。音声認識モデルは、このような人の聴覚器官に存在する下り経路をモデリングして騒音環境で音声を円満に認識することができ、選択的注意集中能力を実現可能にする効果を提供する。そのために、音声認識モデルを形成しているニューラルネットワークは、アテンション加重値を用いてニューラルネットワークに入力される音声信号を調整し得る。ニューラルネットワークには、アテンション加重値が適用された音声フレームの特徴が入力され、アテンション加重値によって音声フレームの周波数領域ごとの特徴値のうち、いずれかの周波数領域の特徴値をより重要に見るかが決定される。例えば、アテンション加重値は、音声認識モデルに音声フレームの周波数領域ごとの特徴値が入力されるとき、各周波数領域の特徴値に対する比重を決定する。

一実施形態によると、音声認識装置１１０は、以前時間でニューラルネットワークの１つ以上のレイヤが出力した出力値に基づいて音声信号に適用されるアテンション加重値を決定する。他の実施形態によると、ニューラルネットワークは、コンテキスト値を追加的に考慮してアテンション加重値を決定してもよい。更なる実施形態では、現在時間から入力される音声信号の特徴値がアテンション加重値を決定するために追加的に用いてもよい。

音声認識装置１１０は、以前時間における情報を用いてアテンション加重値を決定し、アテンション加重値により現在時間で認識しようとする音声信号の周波数領域ごとの比重を適応的に調整することができる。これにより、音声信号の認識結果から雑音成分の影響を減らしたり、又は、特定話者の音声信号に集中して認識することができることから認識性能を改善することができる。

以下は、音声認識装置１１０がニューラルネットワーク基盤の音声認識モデルを用いて音声信号を認識する過程をより具体的に説明する。

図２は、一実施形態に係る音声認識方法の動作を示すフローチャートである。

音声認識方法は、音声認識装置（例えば、図１に示す音声認識装置１２０、又は図１０に示す音声認識装置１０００）によって実行される。図２を参照すると、ステップＳ２１０において、音声認識装置は音声信号を受信する。一例として、音声信号は、時間により変化する音声情報を含む複数の音声フレームから構成される。音声フレームは、例えば、スペクトログラムに示された周波数成分によるビン（ｂｉｎ）の値又はＭＦＣＣの周波数特徴値を含んでもよい。音声認識装置は、音声信号を互いに異なる周波数成分の信号に分離し、分離した信号から当該の周波数特徴値を抽出する。各音声フレームは、周波数成分による複数のチャネルに構成されてもよく、各チャネルごとに対応する周波数成分の周波数特徴値を含んでもよい。

ステップＳ２２０において、音声認識装置は、ニューラルネットワーク基盤の音声認識モデルを用いて音声信号を認識する。音声認識モデルには、１つの音声フレームが入力されてもよく、複数の音声フレームが同時に入力されてもよい。ここで、音声認識モデルには、音声信号に分離した互いに異なる周波数成分の信号に対する特徴値が入力される。

一実施形態における音声認識装置は、以前時間で音声認識モデルを形成するニューラルネットワークの１つ以上のレイヤが出力した出力値、コンテキスト値及び現在時間での音声認識モデルの入力値のうち１つ以上に基づいてアテンション加重値を決定し、決定されたアテンション加重値を音声認識モデルに入力される音声信号に適用する。音声認識装置は、音声認識モデルに入力される音声フレームで周波数成分ごとにアテンション加重値を適用する。一例として、アテンション加重値は、入力された情報に基づいてアテンション加重値を決定するよう、学習されたニューラルネットワーク又は音声認識モデルのニューラルネットワークに含まれた１つ以上のレイヤによって決定されてもよい。

アテンション加重値によって音声認識モデルに入力される音声フレームで特定周波数成分の信号に対する比重が大きくなるか、小さくなるか、又は保持される。ここで、比重が大きくなることは、音声認識モデルが音声フレームの認識結果を推定することにおいて、当該の周波数成分の信号をより多く考慮することを示す。反対に、比重が小さくなることは、音声認識モデルが音声フレームの認識結果を推定することにおいて、当該周波数成分の信号をより少なく考慮することを示す。このように、アテンション加重値は、スペックトロールマスキングの役割を行う。

他の実施形態において、音声認識装置は、アテンション加重値をニューラルネットワークのレイヤの間で伝達される値に適用してもよい。ニューラルネットワークの下位レイヤと上位レイヤとの間の連結関係のうち、１つ以上にアテンション加重値が適用される。アテンション加重値が適用される場合、下位レイヤから上位レイヤに伝達される値のサイズがアテンション加重値によって変わり得る。アテンション加重値は、以前時間でニューラルネットワークの１つ以上のレイヤが出力した出力値、コンテキスト値、及び現在時間における音声認識モデルの入力値のうちの１つ以上に基づいて決定される。

音声認識装置は、音声認識モデルを用いてアテンション加重値が適用された音声信号を認識して認識結果を出力する。一実施形態における音声認識モデルは、音声信号に含まれた言語情報を音素単位に推定する音響モデルである。音素単位に推定された認識結果は、言語モデルのような他の音声認識モデルに入力され、他の音声認識モデルによって音声信号に含まれた言語情報の全体的なテキスト情報が推定される。音声認識モデルを形成するニューラルネットワークは、入力された情報に対応する認識結果を出力するよう予め学習される。音声認識モデルが出力する認識結果は、学習過程で決定されたニューラルネットワークの構造的な特徴に起因する。

音声認識装置が音声認識モデルを用いて音声信号を認識する実施形態を以下の図３ないし図９を参照して詳しく説明する。

図３は、一実施形態に係る音声認識過程をより具体的に説明するためのフローチャートである。図３の実施形態において、音声認識装置は、アテンション加重値を音声認識モデルに入力される音声信号に適用し、アテンション加重値が適用された音声信号に対して音声認識を行う。

図３を参照すると、ステップＳ３１０において、音声認識装置は、音声認識モデルを形成するニューラルネットワークの１つ以上のレイヤ（例えば、隠れレイヤ及び出力レイヤのうちの１つ以上のレイヤ）が以前時間で出力した出力値に基づいてアテンション加重値を決定する。一実施形態に係る音声認識モデルには、互いに異なる周波数成分の信号を含む音声フレームが入力され、音声認識装置は、互いに異なる周波数成分の信号それぞれに対するアテンション加重値を決定する。アテンション加重値は、音声フレームが音声認識モデルによって認識されるとき、音声認識モデルに入力される互いに異なる周波数成分の信号間の比重を決定する。他の実施形態において、音声認識装置は、現在時間で音声認識モデルに入力される音声フレームの特徴値をさらに用いてアテンション加重値を決定してもよい。

更なる実施形態において、音声認識装置は、以前時間でニューラルネットワークの１つ以上のレイヤが出力した出力値のみならず、認識しようとする話者の情報に基づいて決定されるコンテキスト値をさらに用いて、アテンション加重値を決定してもよい。コンテキスト値は、音声信号に様々な話者の音声が含まれた場合、認識しようとする話者の音声のみを集中して認識しようとするときに利用される。コンテキスト値は、例えば、話者の年齢、性別、話者に対するサンプル音声、又は話者が位置する方向に関する情報に基づいて決定される。また、音声認識装置は、コンテキスト値だけではなく、現在時間で音声認識モデルに入力される音声フレームの特徴値をさらに用いて、アテンション加重値を決定してもよい。

ステップＳ３２０において、音声認識装置は、決定されたアテンション加重値を現在時間の音声信号に適用する。音声認識装置は、音声認識モデルに入力される音声フレームの各周波数成分の信号にアテンション加重値を適用する。アテンション加重値によって各周波数成分ごとに音声認識モデルに入力される信号の比重が調整され、これにより、音声認識で雑音成分の影響を減らしたり、特定話者の音声に集中して音声認識を行うことができる。

他の実施形態によると、音声認識モデルに音声信号に含まれた複数の音声フレームが同時に入力されてもよい。この場合、音声認識装置は、入力される音声フレームそれぞれに対するアテンション加重値を決定し、決定されたアテンション加重値をアテンション加重値それぞれに対応する音声フレームに適用する。

ステップＳ３３０において、音声認識装置は、音声認識モデルを用いてアテンション加重値が適用された音声信号を認識する。一実施形態における音声認識モデルは、アテンション加重値が適用された音声信号が入力されれば、当該の音声信号が示す言語情報を音素単位に推定し、推定結果を出力する。

図４及び図５は、一実施形態に係る音声認識モデルに基づいて音声認識が実行される過程を説明するための図である。

図４を参照すると、音声認識モデル４１０には、毎時間のステップごとに音声信号の特徴が入力される。例えば、第１時間で音声認識モデル４１０には音声信号Ｖ_ｔ−１の特徴が入力され、第２及び第３時間ではそれぞれ音声信号Ｖ_ｔ及びＶ_ｔ＋１の特徴が音声認識モデル４１０に入力される。Ｖ_ｔ−１、Ｖ_ｔ及びＶ_ｔ＋１は、時間により順次音声認識モデルに入力される音声フレームである。音声信号の特徴は、例えば、スペクトログラムから抽出された特徴値（例えば、周波数成分値）、フィルタバンクを用いて抽出された特徴値及びＭＦＣＣの特徴値を含む。

音声認識モデル４１０を形成しているニューラルネットワークは、様々なレイヤ４１５，４２０，４２５を含むが、レイヤ４１５，４２０は隠れレイヤであり、レイヤ４２５は音声認識モデル４１０の認識結果であるＹ_ｔ−１、Ｙ_ｔ、Ｙ_ｔ＋１を出力する出力レイヤである。ニューラルネットワークは、以前時間ステップで算出された情報を現在時間ステップで用いる循環状の連結を有するリカレントニューラルネットワーク（ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ）である。循環状連結によって、以前時間で算出された情報が現在時間のレイヤに入力される。例えば、第１時間でレイヤ４２０から出力された出力値は、第１時間の次の時間である第２時間で再びレイヤ４２０に入力され、第２時間でレイヤ４２０から出力された出力値は再び第２時間の次の時間は、第３時間でレイヤ４２０に入力される。レイヤ４２０は、第１時間で出力されたレイヤ４２０の出力値に基づいて第２時間で出力する値を算出する。

音声認識モデル４１０に含まれる加重値決定器４３０は、ニューラルネットワークの上位レイヤから以前時間の情報がフィードバックされ、フィードバックされた情報に基づいて、音声信号に適用されるアテンション加重値を適応的に決定する。例えば、加重値決定器４３０は、第１時間でニューラルネットワークのレイヤ４１５，４２０，４２５のうちの１つ以上のレイヤが出力した出力値がフィードバックされ、フィードバックされた情報に基づいて第２時間で音声信号Ｖ_ｔに適用するアテンション加重値を決定する。アテンション加重値によって音声信号Ｖ_ｔに含まれた様々な周波数領域の信号間の比重が調整される。加重値決定器４３０は、以前時間で出力されたニューラルネットワークの隠れレイヤの出力値又は出力レイヤの出力値（又は、音声認識モデル４１０の出力値）が入力され、入力された情報に基づいて入力される音声信号の周波数成分を動的に調整することから、人の聴覚器官に存在する下り経路のような役割を果たす。一実施形態に係る加重値決定器４３０は、音声認識モデル４１０のニューラルネットワークに含まれる１つ以上のレイヤから構成されたり、又は別途のニューラルネットワークから形成される。

他の実施形態によると、加重値決定器４３０は、コンテキスト値Ｃ_ｔ及び現在時間から入力される音声信号Ｖ_ｔのうち１つ以上をさらに考慮してアテンション加重値を決定する。コンテキスト値は、認識しようとする話者の情報（例えば、話者の年齢、性別、話者に対するサンプル音声、又は話者が位置する方向）に基づいて決定される。

一実施形態では、加重値決定器４３０は、次の数式（１）及び（２）に基づいてアテンション加重値を決定する。

ここで、Ｖ_ｔは、現在時間ｔで音声認識モデル４１０に入力される音声信号として、音声信号は、例えば、音声フレームの周波数特徴値を含んでもよい。ｈ^１ _ｔ−１、ｈ^２ _ｔ−１、ｈ^３ _ｔ−１、・・・は、以前時間ｔ−１で隠れレイヤｈ^１、ｈ^２、ｈ^３、．．．から出力された出力値（又は、隠れステート値）である。Ｓ_ｔ−１は以前時間ｔ−１で出力レイヤから出力された出力値である。例えば、Ｓ_ｔ−１はニューラルネットワークに含まれたソフトマックス（ｓｏｆｔｍａｘ）レイヤ（例えば、レイヤ４２５）の出力値として、以前音声フレームに対する認識結果値（例えば、音素に対する確率値又は確率ベクトル）であり得る。アテンション加重値を決定するためにｈ^１ _ｔ−１、ｈ^２ _ｔ−１、ｈ^３ _ｔ−１、・・・、Ｓ_ｔ−１のうち１つ以上のレイヤの出力値を用いる。Ｃ_ｔは認識しようとするターゲットの話者に関する情報を含むコンテキスト値として、ターゲット話者の音声に集中して音声認識を行うためのパラメータである。Ｃ_ｔは、例えば、ターゲット話者の映像、声、ＩＤ、ターゲット話者が位置する方向に関する情報を含む。例えば、Ｃ_ｔとして、Ａという話者の音声に対するサンプル情報が入力されれば、音声認識モデル４１０はＡの話者の音声に適切な音声信号フィルタとして機能する。アテンション加重値を決定するために上記のパラメータのうちの１つ以上を用いてもよい。

ａｔｔｅｎｄ（）は、上記のパラメータに基づいて中間結果値ｅ_ｔを算出する関数である。一例として、ａｔｔｅｎｄ（）は、ニューラルネットワークでパラメータが入力されれば、ｅ_ｔを算出する１つ以上のレイヤで実現できる。

σ()は、（）の中の値を０から１までの値のいずれか１つの値に出力するシグモイド関数（ｓｉｇｍｏｉｄｆｕｎｃｔｉｏｎ）である。α_ｔはシグモイド関数に中間結果値ｅ_ｔを適用した結果値として、アテンション加重値を示す。一例として、ｅ_ｔは、音声認識モデルに入力される音声フレームの特徴値（入力ベクトル）のような次元を有するベクトルであってもよい。

数式（１）及び（２）によると、加重値決定器４３０は、入力された１つ以上のパラメータに基づいて０から１の間の値を有するアテンション加重値α_ｔを算出する。一例として、音声認識モデル４１０に入力される音声フレームは、周波数帯域により様々なチャネルで構成され、各チャネルごとに対応するα_ｔが算出される。

一実施形態においてアテンション加重値が音声信号に適用されたとき、図４でニューラルネットワークの隠れレイヤ４１５の出力値Ｏ_ｔは、次の数式（３）のように算出される。

Ｖ_ｔは現在時間ｔで音声認識モデル４１０に入力される入力値であり、α_ｔは現在時間ｔで加重値決定器４３０によって決定されたアテンション加重値である。(×)は、エレメントごとの乗算（ｅｌｅｍｅｎｔｗｉｓｅｍｕｌｔｉｐｌｉｃａｔｉｏｎ）演算を示す。ｈ_ｔ−１は以前時間ｔ−１で隠れレイヤから出力された出力値である。Ｗ_ｆは下位レイヤと現在レイヤとの間に適用されるフォワード加重値であり、Ｗ_ｒはｈ_ｔ−１に適用されるリカレントニューラルネットワークにおけるリカレント加重値である。ｂは、現在時間ｔで隠れレイヤ４１５によって出力された出力値Ｏ_ｔを調整するためのバイアス（ｂｉａｓ）値である。σ()は、シグモイド関数である。ニューラルネットワークの学習過程では、α_ｔ、Ｗ_ｆ、Ｗ_ｒ、ｂが学習される。

数式（３）によると、ニューラルネットワークの隠れレイヤは、アテンション加重値が適用された音声信号に基づいて上位レイヤに伝達する出力値を算出する。

他の実施形態によると、音声認識モデル４１０に音声信号に含まれた複数の音声フレームが同時に入力されてもよい。この場合、音声認識装置は、入力される音声フレームそれぞれに対するアテンション加重値を決定し、決定されたアテンション加重値をアテンション加重値それぞれに対応する音声フレームに適用する。音声認識モデル４１０が複数の音声フレームの入力された場合、隣接している時間の音声フレームのコンテキストまで考慮して音声認識を行う。

図５を参照すると、加重値決定器の機能は、音声認識モデル５１０のニューラルネットワークに含まれる１つ以上のレイヤ５１５に実現される。レイヤ５１５には、ニューラルネットワークの１つ以上のレイヤが以前時間で出力した出力値、現在時間で音声認識モデルに入力される音声フレームの特徴値、及びコンテキスト値のうちの１つ以上が入力される。一例として、レイヤ５１５は、上記の数式（１）及び（２）によりアテンション加重値を決定する。レイヤ５１５は、アテンション加重値を入力された音声信号に適用し、アテンション加重値が適用された音声信号に基づいてレイヤ５１５の出力値を算出する。レイヤ５１５の出力値は、上位レイヤ５２０に伝達され、レイヤ５２５及びレイヤ５３０を経て音声認識モデル５１０の認識結果Ｙ_ｔが決定される。

図６は、他の実施形態に係る音声認識過程をより具体的に説明するためのフローチャートである。図６の実施形態において、音声認識装置は、アテンション加重値をニューラルネットワークのレイヤの間で伝達される値に適用する。上記で説明した図３に対する内容については、下記の図６に対する説明に適用される。

図６を参照すると、ステップＳ６１０において、音声認識装置は、音声認識モデルを形成するニューラルネットワークの１つ以上のレイヤが以前時間で出力した出力値に基づいて、アテンション加重値を決定する。アテンション加重値は、ニューラルネットワークの現在レイヤの上位レイヤに伝達される現在レイヤの出力値のサイズを調整する役割をする。一実施形態において、音声認識装置は、以前時間でニューラルネットワークの隠れレイヤと出力レイヤのうちの１つ以上が出力した出力値に基づいてアテンション加重値を決定する。他の実施形態において、音声認識装置は、現在時間で音声認識モデルに入力される音声フレームの特徴値をさらに用いてアテンション加重値を決定してもよい。

更なる実施形態において、音声認識装置は、以前時間でニューラルネットワークの１つ以上のレイヤが出力した出力値だけではなく、認識しようとする話者の情報に基づいて決定されるコンテキスト値をさらに用いてアテンション加重値を決定してもよい。異なる例として、音声認識装置は、以前時間でニューラルネットワークの１つ以上のレイヤが出力した出力値、現在時間の音声フレームの特徴値、及びコンテキスト値を全てを用いてアテンション加重値を決定してもよい。

ステップＳ６２０において、音声認識装置は、決定されたアテンション加重値を１つ以上のレイヤが現在時間で出力した出力値に適用する。音声認識装置は、アテンション加重値をニューラルネットワークの下位レイヤと上位レイヤとの間の連結関係のうちの１つ以上に適用する。アテンション加重値が適用される場合、下位レイヤから上位レイヤに伝達される値のサイズがアテンション加重値によって変わり得る。例えば、アテンション加重値によって当該の伝達される値が０になったり、又は、本来の値の１／２、１／４、又は、１／８倍になってもよい。

アテンション加重値は、様々な連結関係に適用されてもよく、１つの連結関係にのみ適用されてもよい。アテンション加重値が様々な連結関係に適用される場合、適用される各アテンション加重値は互いに同一であってもよく、それぞれ異なってもよい。例えば、アテンション加重値が一回決定されれば、決定された同じ値のアテンション加重値が様々な連結関係に適用される。又は、アテンション加重値が適用される連結関係ごとに適用されるアテンション加重値が独立的に決定されることで、適用されるアテンション加重値が連結関係の間でそれぞれ異なってもよい。

ステップＳ６３０において、音声認識装置は、音声信号の認識結果を出力する。一例として、認識結果は音素に対する確率値又は確率ベクトルの情報であってもよい。

図７及び図８は、他の実施形態に係る音声認識モデルに基づいて音声認識が実行される過程を説明するための図である。

図７を参照すると、音声認識モデル７１０は、現在時間ｔで入力された音声信号Ｖ_ｔに基づいて認識結果Ｙ_ｔを出力する。音声認識モデル７１０を形成するニューラルネットワークは、様々なレイヤ７１５，７２０，７３０，７３５を含む。ニューラルネットワークは、循環状連結を有するリカレントニューラルネットワークであってもよい。

図４を参照して説明したように、加重値決定器７４０は、ニューラルネットワークの上位レイヤから受信した以前時間の情報に基づいてアテンション加重値を決定する。例えば、加重値決定器７４０は、以前時間でニューラルネットワークのレイヤ７１５，７２０，７３０，７３５のうち１つ以上のレイヤが出力した出力値がフィードバックされ、フィードバックされた情報に基づいて現在時間におけるアテンション加重値を決定する。例えば、加重値決定器７４０は、上記の数式（１）及び（２）に基づいてアテンション加重値を決定する。ここで、数式（１）及び（２）のα_ｔとｅ_ｔは、アテンション加重値が適用されるレイヤの出力値のような次元を有するベクトルである。

加重値決定器７４０は、音声認識モデル７１０のニューラルネットワークに含まれる１つ以上のレイヤから構成されたり、又は、別途のニューラルネットワークで形成される。又は、加重値決定器７４０は、コンテキスト値Ｃ_ｔ及び現在時間から入力される音声信号Ｖ_ｔのうちの１つ以上をさらに考慮してアテンション加重値を決定する。アテンション加重値の決定については、上記で説明した図４を参照して説明した内容の通りである。

加重値決定器７４０によって決定されたアテンション加重値は、ニューラルネットワークの下位レイヤと上位レイヤとの間の連結関係のうち１つ以上に適用される。図７に示された実施形態では、アテンション加重値がレイヤ７２０の出力値に適用された後、上位レイヤ７３０に伝達される。他の実施形態では、アテンション加重値がレイヤの間の連結関係ごとに適用されてもよく、適用されるアテンション加重値がそれぞれ異なってもよい。アテンション加重値によって音声認識で特定のコンポーネントの影響を減らすマスキング機能が実現される。

図８を参照すると、加重値決定器の機能は、音声認識モデル８１０のニューラルネットワークに含まれる１つ以上のレイヤ８２５で実現される。現在時間ｔで、音声信号Ｖ_ｔがレイヤ８１５に入力されれば、レイヤ８１５，８２０を経て算出された値がレイヤ８２５に伝達される。レイヤ８２５には、また、ニューラルネットワークの１つ以上のレイヤが以前時間で出力した出力値及びコンテキスト値のうちの１つ以上が入力され、レイヤ８２５は、入力された情報に基づいてアテンション加重値を決定する。レイヤ８２５は、アテンション加重値を下位レイヤから受信した値に適用した後、適用された値を上位レイヤ８３０に伝達する。レイヤ８３０及びレイヤ８３５を経て音声認識モデル８１０の認識結果Ｙ_ｔが決定される。音声認識モデル８１０のニューラルネットワークは、上記のレイヤ８２５の機能を行うレイヤを１つ以上含む。

図９は、更なる実施形態に係る音声認識過程をより具体的に説明するためのフローチャートである。図９に示された動作は、図示するように順次実行されたり、又は、説明された実施形態の範囲及び技術的な思想から離れることなく動作の順序が変更されてもよい。また、図９に示された動作は、並列的又は同時に実行されてもよい。

図９を参照すると、ステップＳ９１０において、音声認識装置は、音声フレームのスペクトログラムを取得する。一例として、音声認識装置は、フーリエ変換などを用いて音声信号を周波数領域の信号に変換してスペクトログラムを生成し、スペクトログラムから音声信号の特徴を抽出する。スペクトログラムから音声信号の特徴を抽出することについては、上記で説明された図１を参照して説明した内容の通りである。ステップＳ９２０において、音声認識装置は、音声フレームに適用されるアテンション加重値を決定する。アテンション加重値は、決定する過程に対する説明は、図１〜図５を参照して説明した内容が参照としてここに含まれている。ステップＳ９３０において、音声認識装置は、音声認識モデルを用いてアテンション加重値が適用された音声フレームを音素単位として認識する。音声認識装置は、音素単位の認識結果に基づいて音声信号が示す単語を推定する。

ステップＳ９４０において、音声認識装置は、現在の音声フレームが最後の音声フレームであるか否かを判断する。判断の結果で、現在の音声フレームが最後の音声フレームであれば上記の過程を終了し、現在の音声フレームが最後の音声フレームでなければ、次の音声フレームに対して上のステップＳ９１０〜ステップＳ９４０の過程を再び行う。

図１０は、一実施形態に係る音声認識装置の構成を示す図である。

図１０を参照すると、音声認識装置１０００は、メモリ１０２０及びプロセッサ１０１０を含む。メモリ１０２０は、プロセッサ１０１０によって実行可能な１つ以上の命令を格納する。プロセッサ１０１０は、メモリ１０２０に格納された１つ以上の命令を実行する。プロセッサ１０１０は、命令を実行することによって図２〜図９に関して上述した１つ以上の動作を実行する。プロセッサ１０１０は、命令に応じてニューラルネットワーク基盤の音声認識モデルを用いて音声信号を認識する。ニューラルネットワークの構造及び動作については、図３、図４、図７及び図８を参照して説明した内容の通りである。

一実施形態によると、プロセッサ１０１０は、ニューラルネットワークの１つ以上のレイヤが以前時間で出力した出力値に基づいてアテンション加重値を決定する。プロセッサ１０１０は、決定されたアテンション加重値を現在時間の音声信号に適用し、音声認識モデルを用いて上記のアテンション加重値が適用された音声信号を認識する。

他の実施形態によると、プロセッサ１０１０は、音声認識モデルを用いて音声信号を認識するとき、ニューラルネットワークの１つ以上レイヤが以前時間で出力した出力値に基づいてアテンション加重値を決定し、決定されたアテンション加重値をニューラルネットワークのレイヤが現在時間で出力した出力値に適用する。プロセッサ１０１０は、適用結果に基づいて音声信号の認識結果を推定する。

図１１は、一実施形態に係る音声認識モデルの学習方法の動作を示すフローチャートである。図１１に示す学習方法はトレーニング装置によって実行され、図１ないし図１０の音声認識モデルを学習するために適用される。

図１１を参照すると、ステップＳ１１１０において、トレーニング装置は、学習データに適用されるアテンション加重値を決定する。学習データは、音声認識モデルの学習過程に用いられるデータとして、音声信号及びコンテキスト値を含む。一例として、トレーニング装置は、上記の数式（１）及び（２）によりアテンション加重値を決定する。

ステップＳ１１２０において、トレーニング装置は、音声認識モデルを用いて学習データの認識結果を取得する。トレーニング装置は、学習のための音声信号にアテンション加重値を適用し、アテンション加重値が適用された音声信号を音声認識モデルに入力させ得る。一例として、音声認識モデルは、アテンション加重値が適用された音声信号に基づいて音素単位の認識結果を出力する。

ステップＳ１１３０において、トレーニング装置は、ステップＳ１１２０の認識結果に基づいて音声認識モデルを学習させる。一実施形態によると、トレーニング装置は、監督学習の方式により音声認識モデルを学習させることができる。例えば、トレーニング装置は、音声認識モデルが学習データに対応する好ましい認識結果を出力するように、音声認識モデルのニューラルネットワークを構成する人工ニューロン間の連結加重値をアップデートする。トレーニング装置は、損失逆伝搬学習（ｂａｃｋ−ｐｒｏｐａｇａｔｉｏｎｌｅａｒｎｉｎｇ）によって人工ニューロンの間の連結加重値をアップデートする。損失逆伝搬学習は、与えられた学習データに対して前方算出によって損失を推定した後、ニューラルネットワークの出力レイヤから開始して、下位レイヤへ向かう逆方向に推定した損失を伝搬しながら、損失を減らす方向に連結加重値をアップデートする方法である。トレーニング装置は、現在の設定された連結加重値がどれ程最適に近いかを測定するための目的関数を定義し、目的関数の結果に基づいて連結加重値を続けて変更し、音声認識モデルの学習を繰り返し行う。

学習過程は、アテンション加重値を決定する動作を学習させる過程を含む。一実施形態では、音声信号の互いに異なる周波数成分の特徴値が音声認識モデルに入力されるとき、音声認識モデルは、以前時間の情報を用いて現在時間で周波数成分の特徴値のうちいずれかの周波数成分の特徴値をさらに集中的に見るべきかが学習される。一例として、トレーニング装置は、アテンション加重値がどれ程最適に近いかを測定するための目的関数を定義し、目的関数の結果が最適に近づくようにアテンション加重値を決定するレイヤのパラメータを継続的にアップデートする。

上述の実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組み合わせで具現化される。例えば、実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、マイクロコンピュータ、ＦＰＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサー、又は命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行して応答する異なる装置のように、１つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現化される。処理装置は、オペレーティングシステム（ＯＳ）及びオペレーティングシステム上で実行される１つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答して、データをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は１つが使用されるものとして説明する場合もあるが、当該技術分野で通常の知識を有する者は、処理装置が複数の処理要素（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）及び／又は複数類型の処理要素を含むことが分かる。例えば、処理装置は、複数のプロセッサ又は１つのプロセッサ及び１つのコントローラを含む。また、並列プロセッサ（ｐａｒａｌｌｅｌｐｒｏｃｅｓｓｏｒ）のような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、又はこれらのうちの１つ以上の組み合わせを含み、希望通りに動作するように処理装置を構成し、独立的又は結合的に処理装置に命令する。ソフトウェア及び／又はデータは、処理装置によって解釈され、処理装置に命令又はデータを提供するためのあらゆる類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、或いは送信される信号波を介して永久的又は一時的に具現化される。ソフトウェアは、ネットワークに接続されたコンピュータシステム上に分散され、分散された方法で格納されるか又は実行される。ソフトウェア及びデータは１つ以上のコンピュータ読み取り可能な記録媒体に格納される。

本実施形態による方法は、多様なコンピュータ手段を介して実施されるプログラム命令の形態で具現化され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合わせて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり、使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスクのような磁気−光媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明の動作を実行するために１つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。

上述のように実施形態をたとえ限定された図面によって説明したとしても、当技術分野で通常の知識を有する者であれば、前記に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順序で実行されたり、及び／又は、説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組合わせられたり、他の構成要素又は均等物によって置き換えたり置換されても、適切な結果を達成することができる。

１１０、１０００：音声認識装置
１２０：音響モデル
１３０：言語モデル
１０１０：プロセッサ
１０２０：メモリ

Claims

ニューラルネットワーク基盤の音声認識モデルを用いた音声認識方法において、
前記ニューラルネットワークの１つ以上のレイヤが以前時間で出力した出力値に基づいてアテンション加重値を決定するステップと、
前記決定されたアテンション加重値を現在時間の音声信号に適用するステップと、
前記音声認識モデルを用いて前記アテンション加重値が適用された音声信号を認識するステップと、
を含む、音声認識方法。
前記決定するステップは、前記以前時間で前記ニューラルネットワークの隠れレイヤ及び出力レイヤのうちの１つ以上が出力した出力値に基づいて前記アテンション加重値を決定する、
請求項１に記載の音声認識方法。
前記決定するステップは、前記以前時間で前記１つ以上のレイヤが出力した出力値及び認識しようとする話者の情報に基づいて決定されるコンテキスト値に基づいて前記アテンション加重値を決定する、
請求項１に記載の音声認識方法。
前記決定するステップは、前記以前時間で前記１つ以上のレイヤが出力した出力値及び前記現在時間で前記音声認識モデルに入力される音声フレームの特徴値に基づいて前記アテンション加重値を決定する、
請求項１に記載の音声認識方法。
前記音声信号を互いに異なる周波数成分の信号に分離するステップをさらに含み、
前記適用するステップは、前記決定されたアテンション加重値を前記互いに異なる周波数成分の信号に対する特徴値に適用する、
請求項１ないし４のいずれか一項に記載の音声認識方法。
前記アテンション加重値によって音声フレームが前記音声認識モデルにより認識されるとき、前記音声認識モデルに入力される前記互いに異なる周波数成分の信号間の比重が決定される、
請求項５に記載の音声認識方法。
前記決定するステップは、前記音声認識モデルに前記音声信号に含まれた複数の音声フレームが入力される場合、前記音声フレームそれぞれに対するアテンション加重値を決定し、
前記適用するステップは、前記決定されたアテンション加重値を前記アテンション加重値それぞれに対応する音声フレームに適用する、
請求項１ないし６のいずれか一項に記載の音声認識方法。
前記認識するステップは、前記音声認識モデルを用いて前記アテンション加重値が適用された音声信号が示す言語情報を推定する、
請求項１に記載の音声認識方法。
前記ニューラルネットワークは、リカレントニューラルネットワークである、
請求項１に記載の音声認識方法。
ニューラルネットワーク基盤の音声認識モデルを用いた音声認識方法において、
音線信号を受信するステップと、
前記音声認識モデルを用いて前記音声信号を認識するステップと、
を含み、
前記認識するステップは、
前記ニューラルネットワークの１つ以上のレイヤが以前時間で出力した出力値に基づいてアテンション加重値を決定するステップと、
前記決定されたアテンション加重値を前記ニューラルネットワークのレイヤが現在時間で出力した出力値に適用するステップと、
を含む、音声認識方法。
前記決定するステップは、前記以前時間で前記ニューラルネットワークの隠れレイヤ及び出力レイヤのうちの１つ以上が出力した出力値に基づいて前記アテンション加重値を決定する、
請求項１０に記載の音声認識方法。
前記決定するステップは、前記以前時間で前記１つ以上のレイヤが出力した出力値及び認識しようとする話者の情報に基づいて決定されるコンテキスト値に基づいて前記アテンション加重値を決定する、
請求項１０に記載の音声認識方法。
前記決定するステップは、前記以前時間で前記１つ以上のレイヤが出力した出力値及び前記現在時間で前記音声認識モデルに入力される音声フレームの特徴値に基づいて前記アテンション加重値を決定する、
請求項１０に記載の音声認識方法。
前記アテンション加重値が、前記ニューラルネットワークの現在レイヤが出力した出力値に適用される場合、前記アテンション加重値によって前記現在レイヤの上位レイヤに伝達される前記現在レイヤの出力値のサイズが調整される、
請求項１０ないし１３のいずれか一項に記載の音声認識方法。
請求項１ないし請求項１４のいずれか一項に記載の方法を実行するための命令を格納するコンピュータで読み出し可能な格納媒体。
ニューラルネットワーク基盤の音声認識モデルを用いた音声認識装置において、
プロセッサと、
前記プロセッサによって実行可能な１つ以上の命令を格納するメモリと、
を含み、
前記１つ以上の命令が前記プロセッサによって実行されると、前記プロセッサは、
前記ニューラルネットワークの１つ以上のレイヤが以前時間で出力した出力値に基づいてアテンション加重値を決定し、前記決定されたアテンション加重値を現在時間の音声信号に適用し、かつ、前記音声認識モデルを用いて前記アテンション加重値が適用された音声信号を認識する、
音声認識装置。
前記ニューラルネットワークは、前記アテンション加重値を決定するための１つ以上のレイヤを含む、
請求項１６に記載の音声認識装置。
前記アテンション加重値を決定するための１つ以上のレイヤには、前記ニューラルネットワークの１つ以上のレイヤが以前時間で出力した出力値、前記現在時間で前記音声認識モデルに入力される音声フレームの特徴値及びコンテキスト値のうち少なくとも１つが入力される、
請求項１７に記載の音声認識装置。
ニューラルネットワーク基盤の音声認識モデルを用いた音声認識装置において、
プロセッサと、
前記プロセッサによって実行可能な１つ以上の命令を含むメモリと、
を含み、
前記１つ以上の命令が前記プロセッサによって実行されると、前記プロセッサは、
前記音声認識モデルを用いて音声信号を認識するとき、前記ニューラルネットワークの１つ以上レイヤが以前時間で出力した出力値に基づいてアテンション加重値を決定し、前記決定されたアテンション加重値を前記ニューラルネットワークのレイヤが現在時間で出力した出力値に適用し、かつ、前記適用結果に基づいて前記音声信号の認識結果を推定する、
音声認識装置。
前記ニューラルネットワークは、前記ニューラルネットワークの１つ以上のレイヤが以前時間で出力した出力値、前記現在時間で前記音声認識モデルに入力される音声フレームの特徴値及びコンテキスト値のうち少なくとも１つに基づいて前記アテンション加重値を決定する１つ以上のレイヤを含む、
請求項１９に記載の音声認識装置。