JP2020086436A

JP2020086436A - 人工神経網における復号化方法、音声認識装置及び音声認識システム

Info

Publication number: JP2020086436A
Application number: JP2019171730A
Authority: JP
Inventors: 敏重李; Min-Joong Lee
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2018-11-14
Filing date: 2019-09-20
Publication date: 2020-06-04
Also published as: US20200152180A1; US11361757B2; EP3654328A1; KR20200056001A; CN111192576A

Abstract

【課題】自己回帰に基づくシーケンス生成人工神経網における低い確率トークンの処理方法及び装置が提供される。【解決手段】人工神経網におけるデコーダは以前に入力された少なくとも１つの入力トークンに基づいて、出力トークンの候補の確率を予測し、予測された確率に基づいて、候補のうち出力トークンを決定し、出力トークンの決定された確率に基づいて出力トークン及び予め定義された特殊トークンのいずれか１つを選択することによって、次の入力トークンを決定する。【選択図】図１

Description

本発明の実施形態は、人工神経網における復号化方法及びその装置に関する。

長さの決められていないシーケンスを人工神経網の入力として受け、決められていない長さの出力を生成しなければならない問題を解決するための方法として、シーケンスツーシーケンス（ｓｅｑｕｅｎｃｅ−ｔｏ−ｓｅｑｕｅｎｃｅ）モデルの１つであるエンコーダ−デコーダの人工神経網モデルが導入されたが、特に、その中でも決められていない長さの出力を人工神経網に算出するために、１つのシーケンスを構成している単位であるトークン（ｔｏｋｅｎ）ごとに人工神経網の以前出力を入力にして次の出力を続けて出力する方法は、自己回帰（ａｕｔｏ−ｒｅｇｒｅｓｓｉｖｅ）復号化と呼ばれる。

本発明の目的は、人工神経網における復号化方法及びその装置を提供する。

一実施形態に係る第１人工神経網における復号化方法は、以前に入力された少なくとも１つの入力トークンに基づいて、出力トークンの候補の確率を予測するステップと、前記予測された確率に基づいて、前記候補のうち前記出力トークンを決定するステップと、前記出力トークンの決定された確率に基づいて、前記出力トークン及び予め定義された特殊トークンのいずれか１つを選択することによって、次の入力トークンを決定するステップとを含む。

前記特殊トークンを次の入力トークンとして決定する場合、前記特殊トークンに基づいて予測される次の出力トークンの候補の信頼度は、前記出力トークンに基づいて予測される次の出力トークンの候補の信頼度よりも高い。

前記出力トークンを決定するステップは、前記第１人工神経網と連動する少なくとも１つの第２人工神経網によって予測された前記候補の確率と、前記第１人工神経網によって予測された前記候補の確率との組合せに基づいて、前記候補のうち前記出力トークンを選択し得る。

前記人工神経網の入力レイヤは、前記候補それぞれに対応する複数のノード及び前記特殊トークンに対応する特殊ノードを含み得る。

前記少なくとも１つの入力トークンは、前記人工神経網によって予め予測された出力トークン及び前記特殊トークンのうち少なくとも１つを含み得る。

前記出力トークンを決定するステップは、前記候補のうち確率が最も高いトークンを選択するステップを含み得る。

前記次の入力トークンを決定するステップは、前記出力トークンの確率と予め決定した閾値確率とを比較するステップと、前記出力トークンの確率が前記閾値確率よりも小さい場合、前記特殊トークンを前記次の入力トークンとして選択するステップと、前記出力トークンの確率が前記閾値確率よりも大きい場合、前記出力トークンを前記次の入力トークンとして選択するステップとを含み得る。

前記出力トークンの候補の確率を予測するステップは、前記少なくとも１つの入力トークンと前記出力トークンとの間の相関関係に基づいて、前記出力トークンの候補の確率を予測するステップを含み得る。

一実施形態に係る人工神経網における復号化方法は、前記少なくとも１つの入力トークン及び前記次の入力トークンに基づいて次の出力トークンを決定するステップをさらに含み得る。

一実施形態に係る人工神経網における復号化方法は、前記特殊トークン以外のトークンが前記特殊トークンにアテンションしないように前記特殊トークンをマスキングするステップをさらに含み得る。

一実施形態に係る人工神経網における復号化方法は、前記特殊トークンが前記次の入力トークンとして決定された場合、次の出力トークンと前記特殊トークンとの間の相関関係を予め決定した数値以下に設定するステップをさらに含み得る。

前記出力トークンを決定するステップは、前記出力トークンが前記特殊トークンと同一であるかを判断するステップと、前記出力トークンが前記特殊トークンと同一である場合、前記候補のうち２番目に確率の高いトークンを前記出力トークンとして決定するステップとを含み得る。

第１人工神経網における復号化方法において、人工神経網における復号化方法は、以前に入力された少なくとも１つの入力トークンに基づいて、出力トークンの候補の確率を予測するステップと、前記第１人工神経網と連動する少なくとも１つの第２人工神経網によって予測された前記候補の確率と、前記第１人工神経網によって予測された前記候補の確率との組合せに基づいて、前記候補のうち前記出力トークンを選択するステップと、前記少なくとも１つの第２人工神経網のうち、前記出力トークンの確率を最も高く判断した人工神経網と前記第１人工神経網との間で前記出力トークンの確率を比較するステップと、前記比較結果に基づいて、前記出力トークン及び予め定義された特殊トークンのいずれか１つを選択することによって、前記第１人工神経網の次の入力トークンを決定するステップとを含む。

前記次の入力トークンを決定するステップは、前記出力トークンの確率を最も高く判断した人工神経網と前記第１人工神経網の前記出力トークンの確率の差が予め決定した閾値よりも大きい場合、前記特殊トークンを前記第１人工神経網の前記次の入力トークンとして選択するステップと、前記出力トークンの確率を最も高く判断した人工神経網と前記第１人工神経網の前記出力トークンの確率の差が予め決定した閾値よりも小さい場合、前記出力トークンを前記第１人工神経網の前記次の入力トークンとして選択するステップとを含み得る。

前記特殊トークンに基づいて予測される次の出力トークンの候補の信頼度は、記閾値よりも大きい場合、前記出力トークンに基づいて予測される次の出力トークンの候補の信頼度よりも高い。

一実施形態に係る音声認識装置は、以前に入力された少なくとも１つの入力トークンに基づいて、出力トークンの候補の確率を予測し、前記予測された確率に基づいて前記候補のうち前記出力トークンを決定し、前記出力トークンの決定された確率に基づいて、前記出力トークン及び予め定義された特殊トークンのいずれか１つを選択することによって次の入力トークンを決定するプロセッサとを含む。

一実施形態に係る音声認識装置は、現在まで入力された少なくとも１つの入力トークンに基づいて、出力トークンの候補の確率を予測し、第１人工神経網と連動する少なくとも１つの第２人工神経網によって予測された前記候補の確率と前記第１人工神経網によって予測された前記候補の確率との組合せに基づいて、前記候補のうち前記出力トークンを選択し、前記少なくとも１つの第２人工神経網のうち、前記出力トークンの確率を最も高く判断した人工神経網と前記第１人工神経網との間で前記出力トークンの確率を比較し、前記比較結果に基づいて、前記出力トークン及び予め定義された特殊トークンのいずれか１つを選択することによって、前記第１人工神経網の次の入力トークンを決定するプロセッサを含む。

一実施形態に係る音声認識システムは、命令を格納するメモリと、１つ以上のプロセッサとを含み、前記命令が前記プロセッサによって実行されるとき、前記プロセッサは、入力音声から音声特徴を抽出し、音声特徴を符号化して符号化された特徴を生成し、前記符号化された特徴及び以前に決定された認識結果に基づいて出力トークンの候補の確率を決定し、言語モデル人工神経網によって決定された前記出力トークンの候補の加重値と音声認識人工神経網によって決定された前記出力トークンの候補の加重値に基づいて次の出力トークンを決定する。

本発明によると、人工神経網における復号化方法及びその装置を提供することができる。

一実施形態に係る１つの人工神経網で自己回帰復号化を行うデコーダの動作方法を説明するための図である。一実施形態に係るアテンションメカニズム（ａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍ）が適用された人工神経網において、特殊トークンをマスキングする方法を説明するための図である。一実施形態に係るエンコーダ−デコーダ構造の人工神経網システムを示すブロック図である。一実施形態に係るアンサンブル方式を用いたエンコーダ−デコーダ構造の人工神経網システムを示すブロック図である。一実施形態に係る追加言語モデルを有する音声認識人工神経網における適用実施形態を示すブロック図である。一実施形態に係る追加言語モデル人工神経網を有する音声認識人工神経網システムを示す図である。一実施形態に係る言語モデル人工神経網デコーダと音声認識人工神経網デコーダにおけるアンサンブル方式を適用した実施形態を示す図である。一実施形態に係る特殊トークンを用いた言語モデル人工神経網デコーダと音声認識人工神経網デコーダにおけるアンサンブル方式を適用した実施形態を示す図である。一実施形態に係る人工神経網における復号化方法を示すフローチャートである。一実施形態に係る自己回帰に基づくシーケンス生成人工神経網における低い確率トークンの処理方法を説明するためのフローチャートである。一実施形態に係る自己回帰に基づくシーケンス生成人工神経網における低い確率トークンの処理装置のブロック図である。

実施形態に対する特定な構造的又は機能的な説明は単なる例示のための目的として開示されたものとして、様々な形態に変更される。したがって、実施形態は特定な開示形態に限定されるものではなく、本明細書の範囲は技術的な思想に含まれる変更、均等物ないし代替物を含む。

第１又は第２などの用語を複数の構成要素を説明するために用いることがあるが、このような用語は１つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第１構成要素は第２構成要素と命名することができ、同様に第２構成要素は第１構成要素にも命名することができる。

いずれかの構成要素が他の構成要素に「連結」されているか「接続」されていると言及されたときには、その他の構成要素に直接的に連結されているか又は接続されているが、中間に他の構成要素が存在し得るものと理解されなければならない。

本明細書で用いられる用語は、単に特定の実施形態を説明するために使用されたものであり、本発明を限定しようとする意図はない。単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、１つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。

異なるように定義さがれない限り、技術的であるか又は科学的な用語を含むここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。

以下、実施形態を添付の図面を参照して詳説する。添付図面を参照して説明することにおいて、図面符号に関わらず同じ構成要素は同じ参照符号を付与し、これに関する重複説明は省略することにする。

図１は、一実施形態に係る１つの人工神経網で自己回帰復号化方法を説明するための図である。

図１を参照すると、一実施形態に係るデコーダ１２０は、符号化された特徴１１０を入力（ｉｎｐｕｔ）として受信する。例えば、デコーダ１２０は、人工神経網内デコーダ１２０の前端に接続されたエンコーダ（図示せず）から入力を受信する。

エンコーダとデコーダ１２０は、ニューラルネットワークで具現されたシーケンスツーシーケンスエンコーダ−デコーダであってもよい。一例としてニューラルネットワークは、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）であるが、これに限定されることはない。ＤＮＮは、１つ又はそれ以上のＦＣＮ（Ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｎｅｔｗｏｒｋ）、ＤＣＮ（ＤｅｅｐＣｏｎＶｏｌｕｔｉｏｎａｌＮｎｅｔｗｏｒｋ）、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＲＤＮＮ（ＲｅｃｕｒｒｅｎｔＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）及びＢＤＲＮＮ（ＢｉｄｉｒｅｃｔｉｏｎａｌＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）などを含んでもよく、ＤＮＮは、ＦＣＮ、ＤＣＮ、ＲＮＮ、ＲＤＮＮ、ＢＤＲＮＮを組み合わせて構成されてもよい。ニューラルネットワーク内レイヤのノードは、非線形で互いに影響を与える関係であり、各ノードから出力される値、ノード間の関係など、ニューラルネットワークのパラメータは学習、例えば、誤差逆伝播（ｌｏｓｓｂａｓｅｄｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって最適化されることができる。

ニューラルネットワークは、プロセッサで具現されたニューラルネットワークモデルであってもよく、ニューラルネットワークモデルを介して学習後に入力パターンと出力パターン、又は入力パターンのパターン認識間の直観的なマッピングを提供することのできる特殊な算出構造として様々なプロセスが実現される。マッピングを生成したり、このような例示的なパターン認識を行う学習能力は、神経網の学習能力と称される。学習能力は、また、特殊な算出構造が入力パターン又は入力パターンの部分を１つ以上の所定のグループに属する構成員に分類される。また、学習を介して訓練された神経網は、例えば、神経網が訓練されていない入力パターンに対して比較的に正確であるか、信頼できる出力を生成する一般化能力を有する。

一例として、シーケンスツーシーケンスエンコーダ−デコーダは、エンコーダとデコーダが統合されたネットワーク構造であって、入力シーケンスから認識結果のシーケンスを生成することができる。例えば、シーケンスツーシーケンス構造で具現されたエンコーダとデコーダ１２０は、入力音声から入力音声に対応する認識結果を直接生成する。エンコーダとデコーダ１２０は、入力音声を受信する前に、予め学習された入力シーケンスから認識結果のシーケンスを生成するように予め学習される。

エンコーダは、入力シーケンスを符号化して符号化された特徴１１０を生成する。エンコーダは、入力シーケンスから特徴を抽出し、符号化された情報を生成する。符号化された特徴１１０は、デコーダ１２０に印加される。デコーダ１２０は、符号化された特徴１１０に基づいて認識結果を生成する。

図１を参照すると、符号化された特徴１１０を受信したデコーダ１２０は、入力トークンである開始トークン１１５に基づいて、トークン１（ｔｏｋｅｎ１）１０５を出力トークンとして決定する。トークン１（ｔｏｋｅｎ１）１０５を出力トークンとして決定し、デコーダ１２０は、トークン１（ｔｏｋｅｎ１）１０５を次の入力トークンとして決定する。

エンコーダ−デコーダ構造の人工神経網のデコーダ１２０は、ステップごとにエンコーダから算出された情報に基づいて出力トークンを求めるが、ここで、以前のステップまで選択された入力トークンに依存して求めることができる。

例えば、トークン１（ｔｏｋｅｎ１）１０５を入力トークンとして決定したデコーダ１２０は、トークン１（ｔｏｋｅｎ１）１０５に基づいて出力トークンの候補の確率を予測する。ｃ_１ないしｃ_ｍが出力トークンの候補であり、ｐ_１ないしｐ_ｍが各候補の確率である。確率に基づいて、候補のうち出力トークンを決定する。例えば、候補のうち確率が最も高いトークンを出力トークンとして選択する。

ステップｉにおいて、トークンｔ_ｉの条件付き確率は数式（１）のように表現することができる。

ｐ（ｔ_ｉ｜ｔ_１，ｔ_２，．．．，ｔ_ｉ−１，Ｈ_ｅ）（１）
Ｈ_ｅは、エンコーダの隠れリプリゼンテーション（ｈｉｄｄｅｎｒｅｐｒｅｓｅｎｔａｔｉｏｎ）に符号化された特徴１１０に該当する。ｔ_１ないしｔ_ｉ−１は、今まで選択された入力トークンである。説明の便宜上、図１で符号化された特徴１１０がデコーダ１２０内に最初のステップのノードにのみ印加されるものと図示したが、符号化された特徴１１０は、以後のステップの他のノードにも同様に印加されてもよい。

一般的な自己回帰復号化を行うシーケンスツーシーケンスモデルで出力トークンとして選択されたトークンが次の入力トークンとして決定される。以前のステップまで選択された入力トークンに依存して出力トークンを決定するため、シーケンスツーシーケンスモデルで出力トークンとして選択された後、入力トークンが低い確率を有する場合、選択された出力トークンによって次のトークンを予測する性能が低下する。

例えば、出力トークンの候補ｃ_１ないしｃ_ｍのうち確率の低いｃ_ｉが出力トークンとして決定されてしまうかもしれない。以前のトークンに基づいて次の出力を生成する特徴のために自己回帰復号化過程で確率の低いトークンに基づいて次のトークンを生成しなければならない場合、即ち以前のトークンの確率が低い場合、以後トークンを円満に生成し難い。一例として、ｃ_１ないしｃ_ｍのうち、相対的にはｃ_ｉの確率が最も高いが、ｃ_１ないしｃ_ｍの確率がすべて高くない値を有する場合が存在し得る。又は、様々な人工神経網モデルで生成するトークンのうちの１つを選択し、使用するモデルアンサンブル自己回帰復号化する環境では、アンサンブルの結果として他の人工神経網によって生成されたトークンに基づいて次のトークンを生成しなければならない場合が生じる。

人工神経網は、入力トークンｔ_ｉ−１の確率が低い場合、ｐ（ｔ_ｉ｜ｔ_１，ｔ_２，．．．，ｔ_ｉ−１，Ｈ_ｅ）を介して出力トークンであるｔ_ｉを予測できなくなる。

低い確率を有する入力トークンｔ_ｉ−１であってもそれに基づいて出力トークンｔ_ｉを円満に予測するために、条件付き確率に関する数式（１）でトークンｔ_ｉ−１を除いて確率を算出すれば、このような問題を解決することができるかもしれない。しかし、学習データから上述の条件付き確率で学習するように設計されているため、以前のトークンに独立的に条件付き確率を算出することは、本来の目的を没却してしまうことが懸念される。

一実施形態に係る復号化方法によれば、条件付き確率に影響を与えない特殊トークンｔ_ＮＣを導入して入力トークンｔ_ｉ−１の確率の低い場合にも出力トークンであるｔ_ｉを円満に予測することができる。

図１を参照すると、トークン１に対する出力に決定された出力トークンｃ_ｉの確率であるｐ_ｉを、予め決定した閾値確率θ_ｎｃ¬と比較する。閾値確率θ_ｎｃ¬は予め決定した値であって、所望する出力を取得することができる入力トークン確率の最小値である。例えば、出力トークンｃ_ｉの確率であるｐ_ｉが閾値確率θ_ｎｃ¬よりも大きい場合、出力トークンｃ_ｉを次の入力トークンとして決定する場合に所望する出力を取得することができると判断されるため、出力トークンｃ_ｉを次の入力トークンとして決定することができる。

出力トークンｃ_ｉの確率であるｐ_ｉが閾値確率θ_ｎｃ¬よりも小さい場合、出力トークンｃ_ｉを次の入力トークンとして決定する場合、所望する出力が取得されないと判断されるため、出力トークンｃ_ｉを次の入力トークンとして決定し難い。この場合、もし、出力トークンｃ_ｉの確率ｐ_ｉが閾値確率θ_ｎｃ¬よりも小さい場合、出力トークンｃ_ｉの代わりに予め定義された特殊トークンＮＣを次の入力トークンとして決定する。

特殊トークンに基づいて予測される次の出力トークンの候補の信頼度は、閾値確率よりも低い確率の出力トークンに基づいて予測される次の出力トークンの候補の信頼度よりも高い。人工神経網は、このような特性を満足するよう予め学習されてもよい。人工神経網を学習させる具体的な内容については後述する。例えば、ｃ_ｉの確率であるｐ_ｉが閾値確率θ_ｎｃ¬よりも小さい場合、特殊トークンＮＣに基づいて予測される次の出力トークンの候補の信頼度は、ｃ_ｉに基づいて予測される次の出力トークンの候補の信頼度よりも高い。

信頼度は、トークンに対する信頼度であって、学習データの正解出力トークンに近い程度を意味する。例えば、ｃ_ｉの確率であるｐ_ｉが閾値確率θ_ｎｃ¬よりも小さい場合、特殊トークンＮＣに基づいて予測される次の出力トークンの候補のうち、最も確率が高い出力トークンは、ｃ_ｉに基づいて予測される次の出力トークンの候補のうち最も確率が高い出力トークンよりも正解の出力トークンに近い。

人工神経網は、出力トークン及び特殊トークンのいずれか１つを選択することによって、次の入力トークンを決定すれば、少なくとも１つの入力トークン及び次の入力トークンに基づいて次の出力トークンをより適切に決定することができる。例えば、人工神経網は、特殊トークンＮＣを次の入力トークンとして決定すれば、入力トークンであるトークン１と次の入力トークンである特殊トークンＮＣに基づいて次の出力トークンであるトークン３（ｔｏｋｅｎ３）を決定することができる。

図２は、一実施形態に係るアテンションメカニズムが適用された人工神経網において、特殊トークンをマスキングする方法を説明するための図である。

図２を参照すると、一実施形態に係るデコーダ２２０は、少なくとも１つの入力トークンと出力トークンとの間の相関関係に基づいて、出力トークンの候補の確率を予測する。出力トークンは、入力トークンに応じて異なる加重値をもって出力トークンの候補の確率を予測できる。

例えば、人工神経網は、アテンションメカニズム（ａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍ）が適用された人工神経網であってもよい。人工神経網は、今まで予測したトークン間の関係をアテンションメカニズムによく表現されるよう学習されることができる。

特殊トークンが他のトークンに影響を及ぼすことを防止するために、他のトークンが特殊トークンにアテンションされないよう強制するために、特殊トークンをマスキングする。

例えば、入力トークン「ｉｓ」に対応する出力トークンの場合、「Ｈｉ」、「ｔｈｉｓ」、「ｉｓ」の入力トークンだけでなく、特殊トークンＮＣまでアテンションする。特殊トークンが他のトークンに影響を及ぼしてはならないため、入力トークン「ｉｓ」に対応する出力トークンが、特殊トークンＮＣにアテンションをしないよう強制するために特殊トークンをマスキングする。

以下、で図３〜図５を参照してエンコーダ−デコーダ構造の人工神経網システムに対して詳細に説明される。

図３は、一実施形態に係るエンコーダ−デコーダ構造の人工神経網システムを示すブロック図である。

図３を参照すると、一実施形態に係るエンコーダ−デコーダ構造の人工神経網システムは、エンコーダ３２０、デコーダ３３０を含む人工神経網３１０を含む。エンコーダ−デコーダ構造人工神経網は、前処理プロセッサ３４０、アテンションマスキング算出装置３５０、及びトークン修正装置３６０を含む。図３に示すデコーダ３３０は、図１及び２を参照して前述したデコーダ２２０に対応する。

一実施形態に係るエンコーダ−デコーダ構造の人工神経網システムは、１つの人工神経網３１０で低い確率を有するトークンを処理する。

シーケンスツーシーケンスエンコーダ３２０−デコーダ３３０は、エンコーダ３２０とデコーダ３３０が統合されたネットワーク構造であって、入力シーケンスから認識結果のシーケンスを生成する。

前処理プロセッサ３４０は、人工神経網の入力を前処理するモジュールであって、例えば、入力信号に含まれたノイズを除去したり、入力信号を人工神経網に入力するために適切な形態に加工する。

トークン修正装置３６０は、実行時に、予測された出力トークンの確率が閾値確率θ_ＮＣよりも低い出力トークンを特殊トークンに代替して次の出力トークンを予測するように修正できる。

また、トークン修正装置３６０は、出力トークンが特殊トークンと同一であるかを判断する。出力トークンが特殊トークンと同一である場合、候補のうち２番目に確率の高いトークンを出力トークンとして決定する。これによって、特殊トークンが出力されないようにする。

アテンションマスキング算出装置３５０は、他のトークンが特殊トークンに条件付き確率を有しないようにするために、他のトークンが特殊トークンにアテンションがかからないようアテンション加重値をマスキングする。アテンションマスキング算出装置３５０は、学習の実行時に同一に動作し得る。

このような図３は、発明の説明のための一例として、限定された図面に基づいて説明されたが、当技術分野で通常の知識を有する者であれば、図３に基づいて様々な技術的修正及び変形を適用することができる。例えば、デコーダ３３０は、アテンションマスキング算出装置３５０とトークン修正装置３６０を含む広い概念である。

図４は、一実施形態に係るアンサンブル方式を用いたエンコーダ−デコーダ構造の人工神経網システムを示すブロック図である。

図４を参照すると、一実施形態に係る人工神経網システムは、複数の人工神経網４１０，４２０，４３０を含む。

アンサンブル方式を用いたエンコーダ−デコーダ構造の人工神経網システムにおいて、ｍ個のデコーダに対応するエンコーダは必ずしもｍ個である必要はない。エンコーダのないデコーダが存在してもよい。例えば、人工神経網４２０，４３０にはデコーダ４２２，４３２だけが存在し、エンコーダ４２１，４３１がなくてもよい。

アンサンブル方式によれば、複数の人工神経網４１０，４２０，４３０を用いて複数のデコーダ４１２，４２２，４３２が予測した出力トークンの候補の確率の組合せに基づいて、出力トークンの候補のうち出力トークンを選択することができる。

アンサンブル方式を用いる場合、デコーダ４１２，４２２，４３２ごとに異なる出力トークンを最も確率が高いと判断する。例えば、人工神経網４１０のデコーダ４１２はｃ１が、人工神経網４２０のデコーダ４２２はｃ２が、人工神経網４３０のデコーダ４３２はｃ３の確率が最も高いと判断する。

デコーダ４１２，４２２，４３２ごとに異なる出力トークンを最も確率が高いと判断しても、１つの出力トークンを決定することができる。例えば、最終的に複数のデコーダ４１２，４２２，４３２が予測した出力トークンの候補の確率の組合せに基づいて、出力トークンの候補のうち出力トークンを選択し得る。

選択された出力トークンが強制的に全てのデコーダの次の入力トークンとして入力される場合、確率が最も高いと判断されない出力トークンを、次の入力トークンとして入力するデコーダが発生する可能性がある。

例えば、最終的に複数のデコーダ４１２，４２２，４３２が予測した出力トークンの候補ｃ１、ｃ２、ｃ３の確率の組合せに基づいてｃ１を出力トークンとして選択する場合、デコーダ４２２とデコーダ４３２は、結果的に自身の基準に最も確率の高い出力トークンの候補ｃ２、ｃ３に基づいて次の出力トークンを生成することができず、他のデコーダ４１２が生成した出力トークンの候補であるｃ１に基づいて次のトークンを生成しなければならない場合が生じる。以前のトークンに基づいて次のトークンを求める自己回帰的な特徴に起因して、自身のデコーダ４２２，４３２において確率の低い次の入力トークンｃ１を入力にする人工神経網４２０，４３０は、次の出力トークンを円満に予測することができなくなる。

一実施形態に係るアンサンブル方式を用いたエンコーダ−デコーダ構造の人工神経網システムにも、条件付き確率に影響を与えることができない特殊トークンを導入し、自身が確率の最も高いと判断しないトークンを入力にして出力トークンを正常に予測することができる。

複数の人工神経網のアンサンブルを行う場合には、ｊ番目の人工神経網ごとに出力トークンとして決定されたｔ_ｍａｘに対する確率Ｐ_ｊ（ｔ_ｍａｘ）と、ｔ_ｍａｘを最も高く判断した人工神経網４１０の確率とを比較する。例えば、出力トークンの候補ｃ１、ｃ２、ｃ３のうち、人工神経網４２０における出力トークンとして決定されたｃ１に対する確率ｐ２（ｃ１）と、ｃ１を最も高く判断した人工神経網４１０におけるｃ１に対する確率ｐ１（ｃ１）とを比較する。

出力トークン確率を最も高く判断した人工神経網４１０と、ｊ番目の人工神経網の出力トークン確率の差

が予め決定した閾値よりも大きい場合、特殊トークンは、ｊ番目の人工神経網の次の入力トークンとして選択される。例えば、ｐ１（ｃ１）とｐ２（ｃ１）の差が予め決定した閾値θ_ＤＩＦＦよりも大きい場合、ｃ１ではない特殊トークンが人工神経網４２０の次の入力トークンとして選択される。出力トークン確率を最も高く判断した人工神経網４１０と、ｊ番目の人工神経網の出力トークン確率の差が予め決定した閾値よりも小さい場合には、決定された出力トークンがｊ番目の人工神経網の次の入力トークンとして選択される。

出力トークン確率を最も高く判断した人工神経網と、ｊ番目の人工神経網の出力トークン確率の差

が予め決定した閾値よりも大きい場合、特殊トークンに基づいて予測される次の出力トークンの候補の信頼度は、出力トークンに基づいて予測される次の出力トークンの候補の信頼度よりも高い。

図２を参照して説明した特殊トークンをマスキングする方法は、図４に示すアンサンブル方式を用いたエンコーダ−デコーダ構造の人工神経網システムにも同様に適用される。

トークン修正装置４６０は、実行時に、予測された出力トークンの確率が閾値確率θ_ＮＣよりも低い出力トークンを特殊トークンに代替して次の出力トークンを予測するように修正することができる。

トークン修正装置４６０は、実行時に、出力トークン確率を最も高く判断した人工神経網４１０と、ｊ番目の人工神経網の出力トークン確率の差

が予め決定した閾値よりも大きい場合、特殊トークンをｊ番目の人工神経網の次の入力トークンとして選択する。

また、トークン修正装置４６０は、出力トークンが特殊トークンと同一であるかを判断する。出力トークンが特殊トークンと同一である場合、候補のうち２番目に確率の高いトークンを出力トークンとして決定する。これによって、特殊トークンが出力されないようにする。

アテンションマスキング算出装置４５０は、他のトークンが特殊トークンに条件付き確率を有しないようにするために、他のトークンが特殊トークンにアテンションがかかることができないようアテンション加重値をマスキングする。アテンションマスキング算出装置４５０は、学習される間のみならず、実行−推論又は実現される間にも同一に動作される。

図５は、一実施形態に係る追加言語モデル人工神経網を有する音声認識人工神経網における適用実施形態を示すブロック図である。音声認識人工神経網は、音声認識装置の一例として実現される。音声認識装置は、音声認識装置の構成要素である受信機又はセンサ（例えば、マイクロホン）を用いて、ユーザから音声又は入力を収集したり、受信機から音声信号を受信することができ、受信機は、分離されたり音声認識装置の外部に存在してもよい。

音声認識装置は、個人ユーザが使用する電子装置であってもよく、例えば、スマートフォン、スマートパッド、スマートバンドのような着用型装置（ｗｅａｒａｂｌｅｄｅｖｉｃｅ）、個人携帯情報端末（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ；ＰＤＡ）、ラップトップ、その内部の構成要素又はそれに関する独立型装置であってもよい。異なる例として、音声認識装置は、複数のユーザによって共有される電子装置、例えば、音声認識スピーカ及び音声認識ＴＶを含む。

図５を参照すると、一実施形態に係る言語モデル人工神経網を有する音声認識人工神経網は、音声認識モデル人工神経網５１０と言語モデル人工神経網５２０を含む。

音声認識の場合、音声をエンコーダ５１１の入力として認識結果である単語の連続を出力するデコーダ５１２から構成されることが基本的であるが、これに加えて、単語の連続がどれ程一般的な文章で確率が高いかを判断するデコーダ５２１で形成される言語モデル人工神経網５２０をさらに活用し、その性能を高めることができる。

実際の音声に基づいて、単語を時点ごとに予測する音声認識モデル人工神経網は、新しい単語といっても音声を聞いて発音に応じて音素を組み合わせて単語を作り出すが、一般的な文章で学習された言語モデル人工神経網の場合、学習時に習っていない新しい単語（新しい場所、新造語など）が出てくると、その単語の出力確率は極めて低くなる。このような低い確率を有する単語を入力として次の単語を予測しようとするとき、言語モデル人工神経網は、習っていない入力から次の単語を出力しなければならないことから、正しく予測することが難い。

一実施形態に係る言語モデル人工神経網５２０にもトークン修正装置５６０とアテンションマスキング算出装置５５０を用いて、図４を参照して前述した条件付き確率に影響を与えることができない特殊トークンを導入し、自身が確率の最も高いと判断していないトークンを入力として出力トークンを正常に予測することができる。

以下、図６〜図７Ｂを参照して、追加言語モデル人工神経網を有する音声認識人工神経網における適用実施形態に対して詳細に説明される。

図６は、一実施形態に係る追加言語モデル人工神経網を有する音声認識人工神経網システムを示す図である。

図６を参照すると、一実施形態に係る追加言語モデル人工神経網を有する音声認識人工神経網システムは、エンコーダ６１０、音声認識人工神経網デコーダ６２０、及び言語モデル人工神経網デコーダ６３０を含む。

追加言語モデル人工神経網を有する音声認識人工神経網システムは、入力音声から音声特徴６４０を抽出する。入力音声は、複数のフレームごとに情報を含む音声信号であり、音声特徴６４０は、少なくとも１つのフレーム単位で抽出された情報のシーケンスであり、多次元のベクトルに表現される。以下、説明の便宜のために入力音声が「ＨｉＭｉｎＣｈｕｌｔｈｉｓｉｓ」である場合の実施形態について説明する。

追加言語モデル人工神経網を有する音声認識人工神経網システムは、言語モデル人工神経網デコーダ６３０と音声認識人工神経網デコーダ６２０のアンサンブルを用いて入力音声のシーケンスから認識結果のシーケンスを生成する。「アンサンブル」は、ともに考慮する個別人工神経網モジュールを指す。例えば、アンサンブルとは、言語モデル人工神経網デコーダ６３０と音声認識人工神経網デコーダ６２０の組合せであり得る。

言語モデル人工神経網デコーダ６３０と音声認識人工神経網デコーダ６２０は、トークン単位でそれぞれの認識結果を出力し、それぞれの認識結果をアンサンブル加重値に応じてアンサンブルして最終の認識結果を生成する。例えば、音声認識人工神経網デコーダ６２０は、入力音声と以前に決定された認識結果に基づいて出力トークンの候補を決定し、言語モデル人工神経網デコーダ６３０は、以前に決定された認識結果に基づいて出力トークンの候補を決定し、それぞれの出力トークンの候補をアンサンブル加重値（ｗｅｉｇｈｔｅｄｓｕｍ）に応じてアンサンブルして最終の認識結果を生成する。

エンコーダ６１０とデコーダ６２０は、入力音声に対応する正解テキスト対のシーケンスから認識結果のシーケンスを生成するように予め学習されている一方、言語モデル人工神経網デコーダ６３０は、任意のテキストシーケンスから認識結果のシーケンスを生成するように予め学習される。

エンコーダ６１０は、音声特徴６４０を符号化して符号化された特徴６５０を生成する。エンコーダ６１０は、音声特徴６４０の次元を変換し、符号化された情報を生成する。符号化された特徴６５０は、音声認識人工神経網デコーダ６２０に印加される。音声認識人工神経網デコーダ６２０はトークン単位で、符号化された特徴６５０と以前に決定された認識結果に基づいて出力トークンの候補を生成し、言語モデル人工神経網デコーダ６３０はトークン単位で、以前に決定された認識結果に基づいて出力トークンの候補を生成する。２つの認識結果を予め決定したアンサンブル加重値に応じてアンサンブルし、最終の認識結果を生成することができる。例えば、音声認識人工神経網デコーダ６２０と言語モデル人工神経網デコーダ６３０のアンサンブル加重値は１：０．２であってもよい。

以下、図７Ａ〜図７Ｂを参照して、言語モデル人工神経網デコーダと音声認識人工神経網デコーダにおけるアンサンブル方式を適用した実施形態について詳細に説明される。

図７Ａは、一実施形態に係る言語モデル人工神経網デコーダと音声認識人工神経網デコーダにおけるアンサンブル方式を適用した実施形態を示す図である。

図７Ａを参照すると、一実施形態に係る音声認識人工神経網デコーダ７１０と言語モデル人工神経網デコーダ７２０は、それぞれ図６に示す音声認識人工神経網デコーダ６２０と言語モデル人工神経網デコーダ６３０に対応する。

音声認識人工神経網デコーダ７１０と言語モデル人工神経網デコーダ７２０は、自己回帰デコーダとして入力トークン「Ｈｉ」に基づいて、出力トークンの候補の確率を予測する。例えば、音声認識人工神経網デコーダ７１０は、入力トークン「Ｈｉ」と符号化された音声特徴に基づいて、「ＭｉｎＣｈｕｌ」と「Ｂｉｘｂｙ」を出力トークンの候補として出力し、それぞれの確率を０．７と０．１に予測する。また、言語モデル人工神経網デコーダ７２０は、入力トークン「Ｈｉ」に基づいて、「ＭｉｎＣｈｕｌ」と「Ｂｉｘｂｙ」を出力トークンの候補として出力し、それぞれの確率を０．００１と０．８に予測する。

音声認識人工神経網デコーダ７１０と言語モデル人工神経網デコーダ７２０は、アンサンブル加重値を用いて候補のうち出力トークンを決定する。例えば、「ＭｉｎＣｈｕｌ」は０．７＋０．２×０．００１＝０．７００２の最終加重値を有し、「Ｂｉｘｂｙ」は０．１＋０．２×０．８＝０．２６の最終加重値を有するため、「ＭｉｎＣｈｕｌ」が出力トークンとして決定される。

自己回帰復号化の環境では、言語モデル人工神経網デコーダ７２０で自身の基準として最も確率が高い「Ｂｉｘｂｙ」でないアンサンブルの結果として決定された「ＭｉｎＣｈｕｌ」を次の入力トークンとして入力する。言語モデル人工神経網デコーダ７２０で「ＭｉｎＣｈｕｌ」は低い確率を有するため、次の出力トークンを円満に予測し難い。

例えば、言語モデル人工神経網デコーダ７２０は、次の入力トークン「ＭｉｎＣｈｕｌ」に基づいて、「ｔｈｉｓ」と「ｄｉｓ」を次の出力トークンの候補として出力し、それぞれの確率を０．０１と０．０１に予測する。音声認識人工神経網デコーダ７１０は、次の入力トークン「ＭｉｎＣｈｕｌ」に基づいて、「ｔｈｉｓ」と「ｄｉｓ」を次の出力トークンの候補として出力し、それぞれの確率を０．３４と０．３８に予測する。「ｔｈｉｓ」と「ｄｉｓ」の発音が似ているため、音声認識人工神経網デコーダ７１０で「ｔｈｉｓ」と「ｄｉｓ」の確率が類似し得る。

音声認識人工神経網デコーダ７１０と言語モデル人工神経網デコーダ７２０は、アンサンブル加重値を用いて候補のうち次の出力トークンを決定する。例えば、「ｔｈｉｓ」は０．３４＋０．２×０．０１＝０．３４２の最終加重値を有し、「ｄｉｓ」は０．３８＋０．２×０．０１＝０．３８２の最終加重値を有するため、「ｄｉｓ」が次の出力トークンとして決定される。その結果、図７Ａによる音声認識人工神経網デコーダ７１０と言語モデル人工神経網デコーダ７２０は、入力音声「ｔｈｉｓ」とは異なる「ｄｉｓ」を出力する。

前述した実施形態で、言語モデル人工神経網デコーダ７２０によって予測された現在出力トークンの候補のうち、音声認識人工神経網デコーダ７１０と言語モデル人工神経網デコーダ７２０との間のアンサンブルによって決定された「ＭｉｎＣｈｕｌ」の確率は、予め決定した閾値確率よりも低い。低い確率の「ＭｉｎＣｈｕｌ」によって、言語モデル人工神経網デコーダ７２０は、次の出力トークンから「ｔｈｉｓ」と「ｄｉｓ」をよく区分することができない。このように、音声モデル人工神経網デコーダ７１０の性能を補完しなければならない言語モデル人工神経網デコーダ７２０の性能が低下するにつれ、前述した実施形態のように「ｔｈｉｓ」とは異なる「ｄｉｓ」を出力するなど、誤った結果が導き出される。

以下、図７Ｂを参照して特殊トークンを用いた言語モデル人工神経網デコーダと音声認識人工神経網デコーダにおけるアンサンブル方式を適用した実施形態について詳細に説明される。

図７Ｂは、一実施形態に係る特殊トークンを用いた言語モデル人工神経網デコーダと音声認識人工神経網デコーダにおけるアンサンブル方式を適用した実施形態を示す図である。

図７Ｂを参照すると、一実施形態に係る音声認識人工神経網デコーダ７１０と言語モデル人工神経網デコーダ７２０は、アンサンブル加重値を用いて候補のうち「ＭｉｎＣｈｕｌ」を出力トークンとして決定する。

言語モデル人工神経網デコーダ７２０は、「ＭｉｎＣｈｕｌ」の確率と予め決定した閾値確率とを比較する。例えば、予め決定した閾値確率は０．０１であってもよい。言語モデル人工神経網デコーダ７２０の「ＭｉｎＣｈｕｌ」の確率は０．００１として、閾値確率０．０１よりも小さいため、「ＭｉｎＣｈｕｌ」の代わりに特殊トークンＮＣを次の入力トークンとして選択する。

言語モデル人工神経網デコーダ７２０は、次の入力トークンである特殊トークンＮＣに基づいて、「ｔｈｉｓ」と「ｄｉｓ」を次の出力トークンの候補として出力し、それぞれの確率を０．４と０．１に予測する。音声認識人工神経網デコーダ７１０は、次の入力トークン「ＭｉｎＣｈｕｌ」に基づいて、「ｔｈｉｓ」と「ｄｉｓ」を次の出力トークンの候補として出力し、それぞれの確率を０．３４と０．３８に予測する。

音声認識人工神経網デコーダ７１０と言語モデル人工神経網デコーダ７２０は、アンサンブル加重値を用いて候補のうち次の出力トークンを決定する。例えば、「ｔｈｉｓ」は、０．３４＋０．２×０．４＝０．４２の最終加重値を有し、「ｄｉｓ」は０．３８＋０．２×０．１＝０．４の最終加重値を有するため、「ｔｈｉｓ」が次の出力トークンとして決定される。

図８は、一実施形態に係る人工神経網における復号化方法を示すフローチャートである。図８に示す動作は、示された順序及び方式により実行されるが、示された実施形態の思想及び範囲を逸脱しない限り、一部の動作の順序が変更されたり一部の動作が省略されてもよい。図８に示された複数の動作は、並列又は同時に実行されてもよい。図８に示す１つ以上のブロック及びブロックの組合せは、特定の機能を行う特殊目的のハードウェアに基づくコンピュータ、又は、特殊目的のハードウェア及びコンピュータ命令の組合せによって実現される。以下の図８に示す説明に加えて、図１〜図７の説明は図８に適用可能であるため、重複する内容の説明は省略する。

図８を参照すると、一実施形態に係るステップＳ８１０〜８３０は、図３を参照して前述されたデコーダ３３０によって実行される。デコーダ３３０は、１つ又はそれ以上のハードウェアコンポーネント、又は、ハードウェアとソフトウェアを含む１つ又はそれ以上のコンポーネントによって実現される。

ステップＳ８１０において、デコーダ３３０は、現在まで入力された少なくとも１つの入力トークンに基づいて、出力トークンの候補の確率を予測する。

ステップＳ８２０において、デコーダ３３０は、確率に基づいて候補のうち出力トークンを決定する。候補のうち確率が最も高いトークンを選択する。又は、第１人工神経網と連動する第２人工神経網によって予測された候補の確率と第１人工神経網によって予測された候補の確率の組合せに基づいて、候補のうち出力トークンを選択する。

ステップＳ８３０において、デコーダ３３０は、出力トークンの確率に基づいて出力トークン及び予め定義された特殊トークンのいずれか１つを選択することによって、次の入力トークンを決定する。

少なくとも１つの入力トークンは、人工神経網によって予め予測された出力トークン及び特殊トークンのうち少なくとも１つを含む。

人工神経網の入力レイヤは、候補に対応する複数のノード及び特殊トークンに対応する特殊ノードを含む。

図９は、一実施形態に係る自己回帰に基づくのシーケンス生成人工神経網における低い確率トークンの処理方法を説明するためのフローチャートである。図９に示す動作は、示された順序及び方式で実行されるが、示された実施形態の思想及び範囲を逸脱しない限り、一部の動作の順序が変更されたり、一部の動作が省略されてもよい。図９に示された複数の動作は、並列又は同時に実行されてもよい。図９に示す１つ以上のブロック及びブロックの組合せは、特定機能を行う特殊目的のハードウェアに基づくコンピュータ、又は、特殊目的のハードウェア及びコンピュータ命令の組合せによって実現される。以下の図９に示す説明に加えて、図１〜図８の説明は図９に適用可能であるため、重複する内容の説明は省略する。

図９を参照すると、ステップＳ９０１において、一実施形態に係る自己回帰に基づくシーケンス生成人工神経網は入力を受信する。例えば、音声認識人工神経網システムでは入力音声を受信する。

ステップＳ９０２において、エンコーダは、受信した入力から符号化された特徴を生成する。例えば、エンコーダは、音声特徴の次元を変換させ、符号化された情報を生成する。

ステップＳ９０３において、デコーダは、符号化された特徴に基づいて出力トークンの候補の確率を予測する。デコーダは、ステップごとにエンコーダーから算出された情報に基づいて出力トークンを求めるが、ここで、以前のステップまで選択された入力トークンに依存して求めることができる。

ステップＳ９０４において、デコーダは、確率に基づいて候補のうち出力トークンを決定する。例えば、ｉ番目のステップで最も確率の高いｔ_ｉ（ｔｏｐｌｉｋｅｌｉｈｏｏｄｔｏｋｅｎ）を出力トークンとして決定する。

ステップＳ９０５において、デコーダは、出力トークンが特殊トークンと同一であるかを判断する。

ステップＳ９０６において、出力トークンが特殊トークンと同一である場合、デコーダは候補のうち２番目に確率の高いトークンを出力トークンとして決定する。これによって特殊トークンが出力されないようにする。

ステップＳ９０７において、出力トークンが特殊トークンと同一でない場合、デコーダは、出力トークンの確率と予め決定した閾値確率とを比較する。

ステップＳ９０８において、出力トークンの確率が閾値確率よりも大きい場合、デコーダは、出力トークンを次の入力トークンとして選択する。

ステップＳ９０９において、出力トークンの確率が閾値確率よりも小さい場合、デコーダは、出力トークンの代わりに特殊トークンを次の入力トークンとして選択する。

ステップＳ９１０において、デコーダは、特殊トークンが異なるトークンに影響を及ぼすことを防止するために、他のトークンが特殊トークンにアテンションしないよう強制するために特殊トークンをマスキングする。

条件付き確率に影響を与えることができない特殊トークンｔ_ＮＣを導入し、入力トークンｔ_ｉ−１の確率が低い場合にも出力トークンであるｔ_ｉを円満に予測することができる。特殊トークンは、数式（２）のような特徴を有するよう学習される。

＜Ｔ_１＞、＜Ｔ_２＞は任意のトークンシーケンスであって、空シーケンス（ｅｍｐｔｙｓｅｑｕｅｎｃｅ）を含む。数式（２）のように学習されたｔ_ＮＣが利用可能であれば、決定した閾値θ_ＮＣよりもｔ_ｉ−１の確率が低い場合、トークンｔ_ｉ−１を含む条件付き確率が算出されることを防止するため、ｔ_ｉ−１をｔ_ＮＣに代替して次のトークンを正しく予測することができる。任意の確率で学習に使用する正解文章のトークンを特定確率θ_{Ｒｅｐｌａｃｅ}からｔ_ＮＣに代替して人工神経網を学習させることができる。

すなわち、補助人工神経網が区分される場合、補助人工神経網の学習データだけで正解トークンを特定確率θ_{Ｒｅｐｌａｃｅ}に変更して学習させ得る。例えば、追加言語モデル人工神経網を有する音声認識人工神経網システムの場合、言語モデル人工神経網が補助人工神経網であってもよく、このとき言語モデル人工神経網だけの学習データだけで正解トークンを特定確率θ_{Ｒｅｐｌａｃｅ}に変更して学習させることができる。

図１０は、一実施形態に係る自己回帰に基づくシーケンス生成人工神経網における低い確率トークンの処理装置のブロック図である。

図１０を参照すると、一実施形態に係る自己回帰に基づくシーケンス生成人工神経網における低い確率トークンの処理装置１０００は、センサ１０１０、プロセッサ１０３０、及び通信インターフェース１０７０を含む。自己回帰に基づくシーケンス生成人工神経網における低い確率トークンの処理装置１０００は、メモリ１０５０、及びディスプレイ１０９０をさらに含む。センサ１０１０、プロセッサ１０３０、メモリ１０５０、通信インターフェース１０７０、及びディスプレイ１０９０は、通信バス１００５を介して通信する。

センサ１０１０は、例えば、マイクセンサ、音声センサを含む。

プロセッサ１０３０は、図１〜図９を参照して前述した少なくとも１つの方法又は少なくとも１つの方法に対応するアルゴリズムを行ってもよい。プロセッサ１０３０は、プログラムを実行し、自己回帰に基づくシーケンス生成人工神経網における低い確率トークンの処理装置１０００を制御する。プロセッサ１０３０によって実行されるプログラムコードは、メモリ１０５０に格納される。

プロセッサ１０３０は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）又はＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）から構成する。

メモリ１０５０は、プロセッサ１０３０が処理したデータを格納する。例えば、メモリ１０５０は、プログラムを格納する。格納されるプログラムは、ユーザの歩行を補助するようにコーディングされ、プロセッサ１０３０によって実行可能なシンタックス（ｓｙｎｔａｘ）の集合であってもよい。メモリ１０５０は、揮発性メモリ又は不揮発性メモリであってもよい。

通信インターフェース１０７０は、複数のセンサ１０１０、プロセッサ１０３０、及びメモリ１０５０と接続してデータを送受信する。通信インターフェース１０７０は、外部の他の装置と接続してデータを送受信する。以下、「Ａ」を送受信するという表現は、「Ａを示す情報（ｉｎｆｏｒｍａｔｉｏｎ）又はデータ」を送受信することを示す。

通信インターフェース１０７０は、自己回帰に基づくシーケンス生成人工神経網における低い確率トークンの処理装置１０００内の回路網で実現される。例えば、通信インターフェース１０７０は、内部バス及び外部バスを含む。異なる例として、通信インターフェース１０７０は、自己回帰に基づくシーケンス生成人工神経網における低い確率トークンの処理装置１０００と外部の装置を接続する要素であってもよい。通信インターフェース１０７０は、外部の装置からデータを受信し、プロセッサ１０３０及びメモリ１０５０にデータを送信する。

ディスプレイ１０９０は、デコードされた結果を表示する。例えば、翻訳結果、音声認識結果がディスプレイ１０９０に表示される。

以上で図１〜図１０を参照して説明された前処理プロセッサ３４０，４４０，４４１，４４２、アテンションマスキング算出装置３５０，４５０，５５０、エンコーダ３２０，４１１，４２１，４３１，５１１、デコーダ３３０，４１２，４２２，４３２，５１２，５２１、トークン修正装置３６０，４６０，５６０、センサ１０１０、プロセッサ１０３０、メモリ１０５０、通信インターフェース１０７０、及びディスプレイ１０９０は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組み合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、マイクロコンピュータ、ＦＰＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサー、又は命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行して応答する異なる装置のように、１つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム（ＯＳ）及びオペレーティングシステム上で実行される１つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は１つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）及び／又は複数類型の処理要素を含むことが把握する。例えば、処理装置は、複数のプロセッサ又は１つのプロセッサ及び１つのコントローラを含む。また、並列プロセッサ（ｐａｒａｌｌｅｌｐｒｏｃｅｓｓｏｒ）のような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうちの一つ以上の組合せを含み、希望の通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置を命令することができる。ソフトウェア及び／又はデータは、処理装置によって解釈されたり処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアはネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり実行され得る。ソフトウェア及びデータは一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。

本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＹＩＪＤのような光記録媒体、フロプティカルディスクのような磁気−光媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明に示す動作を実行するために１つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。

上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順で実行されるし、及び／又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせられてもよいし、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。

したがって、本発明の範囲は、開示された実施形態に限定されて定められるものではなく、特許請求の範囲及び特許請求の範囲と均等なものなどによって定められるものである。

Claims

第１人工神経網における復号化方法において、
以前に入力された少なくとも１つの入力トークンに基づいて、出力トークンの候補の確率を予測するステップと、
前記予測された確率に基づいて、前記候補のうち前記出力トークンを決定するステップと、
前記出力トークンの決定された確率に基づいて、前記出力トークン及び予め定義された特殊トークンのいずれか１つを選択することによって、次の入力トークンを決定するステップと、
を含む人工神経網における復号化方法。
前記特殊トークンを次の入力トークンとして決定する場合、
前記特殊トークンに基づいて予測される次の出力トークンの候補の信頼度は、前記出力トークンに基づいて予測される次の出力トークンの候補の信頼度よりも高い、請求項１に記載の人工神経網における復号化方法。
前記出力トークンを決定するステップは、前記第１人工神経網と連動する少なくとも１つの第２人工神経網によって予測された前記候補の確率と、前記第１人工神経網によって予測された前記候補の確率との組合せに基づいて、前記候補のうち前記出力トークンを選択するステップを含む、請求項１に記載の人工神経網における復号化方法。
前記人工神経網の入力レイヤは、前記候補それぞれに対応する複数のノード及び前記特殊トークンに対応する特殊ノードを含む、請求項１−３のうち何れか１項に記載の人工神経網における復号化方法。
前記少なくとも１つの入力トークンは、前記人工神経網によって予め予測された出力トークン及び前記特殊トークンのうち少なくとも１つを含む、請求項１−３のうち何れか１項に記載の人工神経網における復号化方法。
前記出力トークンを決定するステップは、前記候補のうち確率が最も高いトークンを選択するステップを含む、請求項１に記載の人工神経網における復号化方法。
前記次の入力トークンを決定するステップは、
前記出力トークンの確率と予め決定した閾値確率とを比較するステップと、
前記出力トークンの確率が前記閾値確率よりも小さい場合、前記特殊トークンを前記次の入力トークンとして選択するステップと、
前記出力トークンの確率が前記閾値確率よりも大きい場合、前記出力トークンを前記次の入力トークンとして選択するステップと、
を含む、請求項１に記載の人工神経網における復号化方法。
前記出力トークンの候補の確率を予測するステップは、前記少なくとも１つの入力トークンと前記出力トークンとの間の相関関係に基づいて、前記出力トークンの候補の確率を予測するステップを含む、請求項１に記載の人工神経網における復号化方法。
前記少なくとも１つの入力トークン及び前記次の入力トークンに基づいて次の出力トークンを決定するステップをさらに含む、請求項１−８のうち何れか１項に記載の人工神経網における復号化方法。
前記特殊トークン以外のトークンが前記特殊トークンにアテンションしないように前記特殊トークンをマスキングするステップをさらに含む、請求項１−９のうち何れか１項に記載の人工神経網における復号化方法。
前記特殊トークンが前記次の入力トークンとして決定された場合、次の出力トークンと前記特殊トークンとの間の相関関係を予め決定した数値以下に設定するステップをさらに含む、請求項１−１０のうち何れか１項に記載の人工神経網における復号化方法。
前記出力トークンを決定するステップは、
前記出力トークンが前記特殊トークンと同一であるかを判断するステップと、
前記出力トークンが前記特殊トークンと同一である場合、前記候補のうち２番目に確率の高いトークンを前記出力トークンとして決定するステップと、
を含む、請求項１に記載の人工神経網における復号化方法。
第１人工神経網における復号化方法において、
以前に入力された少なくとも１つの入力トークンに基づいて、出力トークンの候補の確率を予測するステップと、
前記第１人工神経網と連動する少なくとも１つの第２人工神経網によって予測された前記候補の確率と、前記第１人工神経網によって予測された前記候補の確率との組合せに基づいて、前記候補のうち前記出力トークンを選択するステップと、
前記少なくとも１つの第２人工神経網のうち、前記出力トークンの確率を最も高く判断した人工神経網と前記第１人工神経網との間で前記出力トークンの確率を比較するステップと、
前記比較結果に基づいて、前記出力トークン及び予め定義された特殊トークンのいずれか１つを選択することによって、前記第１人工神経網の次の入力トークンを決定するステップと、
を含む人工神経網における復号化方法。
前記次の入力トークンを決定するステップは、
前記出力トークンの確率を最も高く判断した人工神経網と前記第１人工神経網の前記出力トークンの確率の差が予め決定した閾値よりも大きい場合、前記特殊トークンを前記第１人工神経網の前記次の入力トークンとして選択するステップと、
前記出力トークンの確率を最も高く判断した人工神経網と前記第１人工神経網の前記出力トークンの確率の差が予め決定した閾値よりも小さい場合、前記出力トークンを前記第１人工神経網の前記次の入力トークンとして選択するステップと、
を含む、請求項１３に記載の人工神経網における復号化方法。
前記特殊トークンに基づいて予測される次の出力トークンの候補の信頼度は、前記閾値よりも大きい場合、前記出力トークンに基づいて予測される次の出力トークンの候補の信頼度よりも高い、請求項１４に記載の人工神経網における復号化方法。
前記人工神経網の入力レイヤは、前記候補それぞれに対応する複数のノード及び前記特殊トークンに対応する特殊ノードを含む、請求項１３−１５のうち何れか１項に記載の人工神経網における復号化方法。
前記少なくとも１つの入力トークンは、前記人工神経網によって予め予測された出力トークン及び前記特殊トークンのうち少なくとも１つを含む、請求項１３−１５のうち何れか１項に記載の人工神経網における復号化方法。
前記出力トークンの候補の確率を予測するステップは、前記少なくとも１つの入力トークンと前記出力トークンとの間の相関関係に基づいて、前記出力トークンの候補の確率を予測するステップを含む、請求項１３に記載の人工神経網における復号化方法。
前記少なくとも１つの入力トークン及び前記次の入力トークンに基づいて次の出力トークンを決定するステップをさらに含む、請求項１３−１８のうち何れか１項に記載の人工神経網における復号化方法。
前記特殊トークン以外のトークンが前記特殊トークンにアテンションしないように前記特殊トークンをマスキングするステップをさらに含む、請求項１３−１９のうち何れか１項に記載の人工神経網における復号化方法。
前記特殊トークンが前記次の入力トークンとして決定された場合、次の出力トークンと前記特殊トークンとの間の相関関係を予め決定した数値以下に設定するステップをさらに含む、請求項１３−２０のうち何れか１項に記載の人工神経網における復号化方法。
前記出力トークンを決定するステップは、
前記出力トークンが前記特殊トークンと同一であるかを判断するステップと、
前記出力トークンが前記特殊トークンと同一である場合、前記候補のうち２番目に確率の高いトークンを前記出力トークンとして決定するステップと、
を含む、請求項１３に記載の人工神経網における復号化方法。
請求項１乃至請求項２２のいずれか一項に記載の復号化方法をコンピュータに実行させるコンピュータプログラム。
人工神経網における音声認識装置であって、
以前に入力された少なくとも１つの入力トークンに基づいて、出力トークンの候補の確率を予測し、
前記予測された確率に基づいて前記候補のうち前記出力トークンを決定し、
前記出力トークンの決定された確率に基づいて、前記出力トークン及び予め定義された特殊トークンのいずれか１つを選択することによって次の入力トークンを決定するプロセッサと、
を含む音声認識装置。
前記特殊トークンを次の入力トークンとして決定する場合、
前記特殊トークンに基づいて予測される次の出力トークンの候補の信頼度は、前記出力トークンに基づいて予測される次の出力トークンの候補の信頼度よりも高い、請求項２４に記載の音声認識装置。
前記人工神経網の入力レイヤは、前記候補それぞれに対応する複数のノード及び前記特殊トークンに対応する特殊ノードを含む、請求項２４又は２５に記載の音声認識装置。
前記少なくとも１つの入力トークンは、前記人工神経網によって予め予測された出力トークン及び前記特殊トークンのうち少なくとも１つを含む、請求項２４−２６のうち何れか１項に記載の音声認識装置。
前記プロセッサは、前記候補のうち確率が最も高いトークンを選択する、請求項２４に記載の音声認識装置。
前記プロセッサは、前記人工神経網と連動する他の人工神経網によって予測された前記候補の確率と前記人工神経網によって予測された前記候補の確率との組合せに基づいて、前記候補のうち前記出力トークンを選択する、請求項２４に記載の音声認識装置。
前記プロセッサは、
前記出力トークンの確率と予め決定した閾値確率とを比較し、
前記出力トークンの確率が前記閾値確率よりも小さい場合、前記特殊トークンを前記次の入力トークンとして選択し、
前記出力トークンの確率が前記閾値確率よりも大きい場合、前記出力トークンを前記次の入力トークンとして選択する、請求項２４に記載の音声認識装置。
前記プロセッサは、前記少なくとも１つの入力トークンと前記出力トークンとの間の相関関係に基づいて、前記出力トークンの候補の確率を予測する、請求項２４−３０のうち何れか１項に記載の音声認識装置。
前記プロセッサは、前記少なくとも１つの入力トークン及び前記次の入力トークンに基づいて次の出力トークンを決定する、請求項２４−３１のうち何れか１項に記載の音声認識装置。
前記プロセッサは、前記特殊トークン以外のトークンが前記特殊トークンにアテンションしないように前記特殊トークンをマスキングする、請求項２４−３２のうち何れか１項に記載の音声認識装置。
前記プロセッサは、前記特殊トークンが前記次の入力トークンとして決定された場合、次の出力トークンと前記特殊トークンとの間の相関関係を予め決定した数値以下に設定する、請求項２４に記載の音声認識装置。
前記プロセッサは、
前記出力トークンが前記特殊トークンと同一であるかを判断し、
前記出力トークンが前記特殊トークンと同一である場合、前記候補のうち２番目に確率の高いトークンを前記出力トークンとして決定する、請求項２４に記載の音声認識装置。
現在まで入力された少なくとも１つの入力トークンに基づいて、出力トークンの候補の確率を予測し、
第１人工神経網と連動する少なくとも１つの第２人工神経網によって予測された前記候補の確率と前記第１人工神経網によって予測された前記候補の確率との組合せに基づいて、前記候補のうち前記出力トークンを選択し、
前記少なくとも１つの第２人工神経網のうち、前記出力トークンの確率を最も高く判断した人工神経網と前記第１人工神経網との間で前記出力トークンの確率を比較し、
前記比較結果に基づいて、前記出力トークン及び予め定義された特殊トークンのいずれか１つを選択することによって、前記第１人工神経網の次の入力トークンを決定するプロセッサを含む、音声認識装置。
前記プロセッサは、
前記出力トークンの確率を最も高く判断した人工神経網と前記第１人工神経網の前記出力トークンの確率の差が予め決定した閾値よりも大きい場合、前記特殊トークンを前記第１人工神経網の前記次の入力トークンとして選択し、
前記出力トークンの確率を最も高く判断した人工神経網と前記第１人工神経網の前記出力トークンの確率の差が予め決定した閾値よりも小さい場合、前記出力トークンを前記第１人工神経網の前記次の入力トークンとして選択する、請求項３６に記載の音声認識装置。
前記特殊トークンに基づいて予測される次の出力トークンの候補の信頼度は、前記閾値よりも大きい場合、前記出力トークンに基づいて予測される次の出力トークンの候補の信頼度よりも高い、請求項３７に記載の音声認識装置。
命令を格納するメモリと、
１つ以上のプロセッサと、
を含み、
前記命令が前記プロセッサによって実行されるとき、前記プロセッサは、
入力音声から音声特徴を抽出し、音声特徴を符号化して符号化された特徴を生成し、
前記符号化された特徴及び以前に決定された認識結果に基づいて出力トークンの候補の確率を決定し、
言語モデル人工神経網によって決定された前記出力トークンの候補の加重値と音声認識人工神経網によって決定された前記出力トークンの候補の加重値に基づいて次の出力トークンを決定する、音声認識システム。