JP7291099B2

JP7291099B2 - 音声認識方法及び装置

Info

Publication number: JP7291099B2
Application number: JP2020067912A
Authority: JP
Inventors: 敏重李
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2019-04-05
Filing date: 2020-04-03
Publication date: 2023-06-14
Anticipated expiration: 2040-04-03
Also published as: US20230076073A1; JP2020173441A; EP3719797B1; US11501761B2; US20200320983A1; US12073825B2; EP3719797A1

Description

以下の実施形態は、音声認識方法及び装置に関する。より詳しく、エンドツーエンド（Ｅｎｄ－ｔｏ－Ｅｎｄ）人工神経網音声認識システムでノイズのアウトプット抑制及び主話者の音声集中認識方法の技術に関する。

音声認識（ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ）技術とは、人が発話した音声のような音響学的信号（ａｃｏｕｓｔｉｃｓｐｅｅｃｈｓｉｇｎａｌ）をコンピューティング装置の分析を介して認識又は理解する技術を意味する。従来では、音声データから抽出された周波数特徴などを用いて音声を認識する方式が主に利用されており、ここで、隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ；ＨＭＭ）が主に利用されている。このようなＨＭＭ基盤の音声認識方式は音声データから発音を分析し、分析された発音に基づいて単語や文章を組み合わせる過程を介して音声を認識することになる。

ディープラーニング（ｄｅｅｐｌｅａｒｎｉｎｇ）基盤の機械学習（ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）技術が成熟するにつれ、人工神経網（ａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）で構成された音響モデルを用いて音声データから発音を分析する過程を介することなく、音声データから単語や文章などのテキストを直接認識するエンドツーエンド（Ｅｎｄ－ｔｏ－Ｅｎｄ）音声認識技術に対する研究が盛んに行われている。

しかし、エンドツーエンド人工神経網音声認識システムは、音素単位でリアルタイム復号化を行うため、ユーザが発話していないホワイトノイズの区間においても強制的な音声認識により、予期しないテキストが出力される問題がある。

本発明の目的は、エンドツーエンド（Ｅｎｄ－ｔｏ－Ｅｎｄ）人工神経網音声認識システムでノイズのアウトプット抑制及び主話者の音声集中認識方法の技術を提供することにある。

一実施形態に係る音声認識方法は、話者の入力音声に対応する入力シーケンスの前端に予め決められた特殊シーケンスを付加するステップと、人工神経網を用いて前記特殊シーケンス及び前記入力シーケンスを認識するステップと、前記特殊シーケンス及び前記認識結果に基づいて、前記入力シーケンスを認識するステップとを含む。

前記入力シーケンスは、前記入力音声又は前記入力音声から抽出されたベクトルを含み得る。

前記特殊シーケンスは、前記話者の予め決められた音声又は前記予め決められた音声から抽出された少なくとも１つのベクトルを含み得る。

前記特殊シーケンスは、任意の話者の予め決められた音声であり得る。

前記特殊シーケンスは「ｈｉ」という音声であり得る。

前記特殊シーケンス及び前記入力シーケンスを認識するステップは、前記特殊シーケンス及び前記入力シーケンスを符号化し、符号化された特徴を生成するステップと、前記符号化された特徴に基づいて前記特殊シーケンスに対応する１つ以上の特殊トークンを出力するステップと、前記符号化された特徴及び前記特殊トークンに基づいて、前記入力シーケンスに対応する１つ以上の出力トークンを決定するステップとを含み得る。

前記特殊トークンは、前記話者の予め決められた音声に対応するテキストを含み得る。

前記特殊シーケンス及び前記入力シーケンスを認識するステップは、前記特殊シーケンス及び前記入力シーケンスを符号化し、符号化された特徴を生成するステップと、前記符号化された特徴及び前記特殊シーケンスに対応する特殊トークンに基づいて、前記入力シーケンスに対応する１つ以上の出力トークンを決定するステップとを含み得る。

前記特殊シーケンス及び前記入力シーケンスを認識するステップは、前記特殊シーケンス及び前記入力シーケンスをエンコーダ－デコーダ構造のエンドツーエンド（Ｅｎｄ－ｔｏ－Ｅｎｄ）人工神経網に入力し、前記特殊シーケンス及び前記入力シーケンスに対応する音声認識の結果を出力するステップを含み得る。

前記エンコーダ－デコーダ構造のエンドツーエンド人工神経網のデコーダは、ステップごとのエンコーダーから算出された情報に基づいて、以前のステップの音声認識の結果に従属して前記音声認識の結果を出力し得る。

前記人工神経網は、循環神経網（ＲＮＮ：ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）、畳み込み神経網（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）及び自己注意神経網（ＳＡＮＮ：Ｓｅｌｆ－ＡｔｔｅｎｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋ）のうち少なくとも１つを含み得る。

前記入力シーケンスを認識するステップは、前記特殊シーケンス及び前記入力シーケンスに対応する音声認識の結果から、前記特殊シーケンスに対応する音声認識の結果を除くステップを含み得る。

前記特殊シーケンスは、前記話者の予め決められた音声のうち一部から抽出された少なくとも１つの特徴ベクトルを含み、前記特殊シーケンス及び前記入力シーケンスを認識するステップは、前記特殊シーケンス及び前記入力シーケンスをエンコーダ－デコーダ構造のエンドツーエンド人工神経網のエンコーダに入力して符号化された特徴を生成するステップと、前記符号化された特徴に基づいて前記特徴ベクトルに対応する特殊トークンを出力するステップとを含み、前記人工神経網は、前記特徴ベクトルが入力されれば、前記特殊トークンを出力するように学習され得る。

一実施形態に係る音声認識方法は、前記入力シーケンスにノイズだけが含まれている場合、前記特殊シーケンス以後の前記入力シーケンスをＥＯＳトークンとして認識するステップをさらに含み得る。

一実施形態に係るコンピュータプログラムは、ハードウェアと結合して上述した方法のいずれか１つに記載の方法を実行させるために媒体に格納される。

一実施形態に係る音声認識装置は、話者の入力音声に対応する入力シーケンスの前端に予め決められた特殊シーケンスを付加し、人工神経網を用いて前記特殊シーケンス及び前記入力シーケンスを認識し、前記特殊シーケンス及び前記認識結果に基づいて、前記入力シーケンスを認識するプロセッサを含む。

前記入力シーケンスは、前記入力音声、又は前記入力音声から抽出されたベクトルを含み得る。

前記特殊シーケンスは、前記話者の予め決められた音声、又は、前記予め決められた音声から抽出された少なくとも１つのベクトルを含み得る。

前記プロセッサは、前記特殊シーケンス及び前記入力シーケンスを符号化し、符号化された特徴を生成し、前記符号化された特徴に基づいて前記特殊シーケンスに対応する特殊トークンを出力し、前記符号化された特徴及び前記特殊トークンに基づいて前記入力シーケンスに対応する１つ以上の出力トークンを決定し得る。

前記プロセッサは、前記特殊シーケンス及び前記入力シーケンスを符号化し、符号化された特徴を生成し、前記符号化された特徴及び前記特殊シーケンスに対応する特殊トークンに基づいて、前記入力シーケンスに対応する１つ以上の出力トークンを決定し得る。

前記プロセッサは、前記特殊シーケンス及び前記入力シーケンスをエンコーダ－デコーダ構造のエンドツーエンド人工神経網に入力し、前記特殊シーケンス及び前記入力シーケンスに対応する音声認識の結果を出力し得る。

前記人工神経網は、循環神経網、畳み込み神経網、及び自己注意神経網のうち少なくとも１つを含み得る。

前記プロセッサは、前記特殊シーケンス及び前記入力シーケンスに対応する音声認識の結果から、前記特殊シーケンスに対応する音声認識の結果を除くことがある。

前記特殊シーケンスは、前記話者の予め決められた音声のうち一部から抽出された少なくとも１つの特徴ベクトルを含み、前記プロセッサは、前記特殊シーケンス及び前記入力シーケンスをエンコーダ－デコーダ構造のエンドツーエンド人工神経網のエンコーダに入力して符号化された特徴を生成し、前記符号化された特徴に基づいて前記特徴ベクトルに対応する特殊トークンを出力し、前記人工神経網は、前記特徴ベクトルが入力されれば、前記特殊トークンを出力するように学習され得る。

前記プロセッサは、前記入力シーケンスにノイズだけが含まれている場合、前記特殊シーケンス以後の前記入力シーケンスをＥＯＳトークンとして認識し得る。

一実施形態に係るプロセッサで実現される音声認識方法は、入力音声及び前記入力音声の前端に付加された特殊音声を含む音声から特徴ベクトルを抽出するステップと、前記特徴ベクトルを符号化し、符号化された特徴を生成するステップと、前記符号化された特徴及び所定の認識結果に基づいて出力トークンを決定するステップとを含む。

一実施形態に係るプロセッサで実現される音声認識方法は、前記特殊音声に対応する特殊トークンを前記出力トークンとして出力するステップをさらに含み得る。

一実施形態に係るプロセッサで実現される音声認識方法は、前記特殊トークンを出力するために入力トークン及び前記符号化された特徴を復号化するステップをさらに含み得る。

一実施形態に係るプロセッサで実現される音声認識方法は、前記特殊音声を含む認識結果から前記特殊トークンを除去するステップと、前記入力音声に対応する現在の認識結果を出力するステップとをさらに含み得る。

一実施形態に係るプロセッサで実現される音声認識方法は、前記特殊トークンに基づいて次の出力トークンの候補の確率を予測するステップと、前記確率に基づいて次の出力トークンを決定するステップと、前記次の出力トークンを次の入力トークンとして決定するステップとをさらに含み得る。

前記特徴ベクトルを符号化し、符号化された特徴を生成するステップは、前記特徴ベクトルの次元を変換して前記符号化された特徴を生成するステップを含み得る。

本発明によると、エンドツーエンド（Ｅｎｄ－ｔｏ－Ｅｎｄ）人工神経網音声認識システムでノイズのアウトプット抑制及び主話者の音声集中認識方法の技術を提供することができる。

一実施形態に係る音声認識システムの構成図である。一実施形態に係る発話のない区間でノイズ出力を防止する方法を説明するための図である。一実施形態に係る発話のない区間でノイズ出力を防止する方法を説明するための図である。一実施形態に係る音声認識装置のブロック図である。一実施形態の他の側面に係る音声認識装置のブロック図である。他の実施形態に係る音声認識装置のブロック図である。一実施形態に係るエンコーダ－デコーダ構造のエンドツーエンド人工神経網を有する音声認識装置の動作を説明するための図である。一実施形態に係る音声認識装置の主話者集中方法を説明するための図である。一実施形態に係る音声認識装置のノイズ除去方法を説明するための図である。一実施形態に係る音声認識方法を説明するためのフローチャートである。更なる実施形態に係る音声認識装置のハードウェア構成図である。

実施形態に対する特定な構造的又は機能的な説明は単なる例示のための目的として開示されたものとして、様々な形態に変更される。したがって、実施形態は特定の開示形態に限定されるものではなく、本明細書の範囲は技術的な思想に含まれる変更、均等物ないし代替物を含む。

第１又は第２などの用語を複数の構成要素を説明するために用いることがあるが、このような用語は１つの構成要素を他の構成要素から区別する目的としてのみ解釈しなければならない。例えば、第１構成要素を第２構成要素と命名することができ、同様に第２構成要素を第１構成要素にも命名することができる。

いずれかの構成要素が他の構成要素に「連結」されているか「接続」されていると言及されたときには、その他の構成要素に直接的に連結されているか、又は接続されているが、中間に他の構成要素が存在し得るものと理解されなければならない。

単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、１つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。

また、異なるように定義されない限り、技術的であるか又は科学的な用語を含むここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。

以下、実施形態を添付の図面を参照して詳細に説明する。各図面に提示される同一の参照符号は同一の部材を示す。

図１は、一実施形態に係る音声認識システムの構成図である。

図１を参照すると、音声認識システムは、ユーザ端末１１０及び音声認識装置１２０を含む。図１に示された音声認識システムのそれぞれの構成要素は、機能的に区分される機能要素を示すものであり、少なくとも１つの構成要素が実際の物理的な環境では互いに統合される形態で実現されてもよい。例えば、図１には音声認識装置１２０が一種のサーバ装置であると示しているが、実施形態により音声認識装置１２０の各機能は、ユーザ端末１１０に内蔵されている形態で実現されてもよい。

音声認識システムにおいて、ユーザ端末１１０は、ユーザから音声シーケンス（例えば、入力シーケンス）１３０が入力されて入力シーケンス１３０を音声認識装置１２０に伝達し、音声認識装置１２０によって認識された認識結果１４０をユーザに提供する端末である。図１において、ユーザ端末１１０は、スマートフォンとして示しているが、いかなる装置で具現されても構わない。

音声認識システムにおいて、音声認識装置１２０は、話者の入力シーケンス１３０が入力され、認識結果１４０を提供するコンピューティング装置である。入力シーケンス１３０は、入力音声と入力音声から抽出された入力音声特徴ベクトルとを含む。入力音声は、話者の入力音声信号をウェーブ（ｗａｖｅ）形態で示したウェーブファイルを周波数の形態で示したスペクトログラム（ｓｐｅｃｔｒｏｇｒａｍ）、ＭＦＣＣ（Ｍｅｌ－ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔ）などを全て含む包括的な意味である。また、コンピューティング装置は、ノート型パソコン、デスクトップ（ｄｅｓｋｔｏｐ）、ラップトップ（ｌａｐｔｏｐ）、スマートフォン（ｓｍａｒｔｐｈｏｎｅ）などであるが、これに限定されることなく、演算手段を備えている全ての種類の装置を含むことができる。

音声認識装置１２０は、エンドツーエンド音声認識を提供する。従来では、音声認識のために隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）を主に使用していた。このようなＨＭＭ基盤の音声認識方式は、音声データから発音を分析し、分析された発音に基づいて単語や文章を組み合わせる過程を経由する。発音は、発話者、言語の種類などに応じて変わり得るため、発音を分析して音声を認識することは、多くの施行錯誤を通じた矯正作業が伴う。また、ＨＭＭ基盤の音声認識方式は、発音に基づいて音声を認識する点で、周辺の雑音に脆弱な問題がある。

エンドツーエンド人工神経網音声認識システムにおいて、既存の音声認識の実現のために必要な信号処理、発音変換、言語モデル、復号化ステップに専門的な知識が介入することを最小化にしながら、この部分のモデリングを神経網が学習させることで、より優れた性能を表す。

エンドツーエンド音声認識を提供するために、音声認識装置１２０は、人工神経網から構成された音響モデルを構築し、構築された音響モデルを用いて入力シーケンス１３０に対する認識結果１４０を提供する。人工神経網は、例えば、循環神経網（ＲＮＮ；ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）、畳み込み神経網（ＣＮＮ；ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）、自己注意神経網（ＳＡＮＮ；Ｓｅｌｆ－ＡｔｔｅｎｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＢＲＮＮ（Ｂｉ－ｄｉｒｅｃｔｉｏｎａｌＲＮＮ）、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）、ＢＬＳＴＭ（Ｂｉ－ｄｉｒｅｃｔｉｏｎａｌＬＳＴＭ）、ＧＲＵ（ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ）、ＢＧＲＵ（Ｂｉ－ｄｉｒｅｃｔｉｏｎａｌＧＲＵ）などであるが、これに限定されるものではない。

また、音声認識装置１２０は、話者の入力音声に対応する入力シーケンス１３０の前端に、話者に対応して予め決められた特殊シーケンスを付加して音声認識を行うことができる。さらに、音声認識装置１２０は、決まっていない長さの出力を人工神経網に算出するために、一シーケンスを構成している単位であるトークン（ｔｏｋｅｎ）ごとに人工神経網の以前の出力を入力し、次の出力を続けて出力していく自己回帰（ａｕｔｏ－ｒｅｇｒｅｓｓｉｖｅ）の復号化を行い、ノイズの出力を抑制して主話者の音声に集中することができる。これに対する詳しい説明は、次の図２～図１０を参照して詳細に説明される。まず、音声認識装置１２０の入力及び出力データの例について、図２Ａ～図２Ｂを参照して簡単に述べる。

図２Ａ及び図２Ｂは、一実施形態に係る発話のない区間でノイズ出力を防止する方法を説明するための図である。

一実施形態に係る音声認識方法を説明する前に、図面２１０を参照して一般的なエンドツーエンド人工神経網音声認識方法を簡略に説明する。話者の入力シーケンスは、０．３ｓ～０．４ｓの間の一地点から話者の発話（例えば、「ｗｈｅｒｅａｒｅｙｏｕ」）を含む。０～０．３ｓの区間は、話者の発話のない区間であって、音声認識装置は、当該の区間において音声がないことを出力しなければならないが、一般的なエンドツーエンド人工神経網音声認識システムは、音素単位でリアルタイム復号化を行うため、ユーザの発話がないノイズ区間でも強制的な音声認識を行い、これにより予期しないテキストを出力することがあり得る。

実際に発話がなくて雑音のみがある場合、一般的なエンドツーエンド人工神経網は音声がないことを出力できず、雑音の特性と最も類似の認識結果、例えば、０～０．１ｓ区間では「ｈｉｂｉｘｂｙ」を、０～０．２ｓ区間では「ｈｉｇａｌａｘｙ」を、０～０．３ｓ区間では「ｔｕｒｎｏｎ」を出力する。

上記の問題を解決するために、ノイズデータを学習する方法が求められているが、ノイズデータがさらに必要であり、全てのノイズを学習できないという限界があった。

図面２２０を参照すると、一実施形態に係る音声認識装置は、話者の入力シーケンスの前端に予め決められた特殊シーケンスを付加して音声認識を行うことができ、以前の出力トークンが次の出力トークンの決定に影響を及ぼす自己回帰（ａｕｔｏ－ｒｅｇｒｅｓｓｉｖｅ）の復号化の特性上、ノイズ出力を抑制して主話者の音声に集中することができる。音声認識装置は、話者の入力シーケンス、例えば「Ｗｈｅｒｅａｒｅｙｏｕ」の音声前端に、話者に対応して予め決められた特殊シーケンス、例えば「ｈｉ」に対応する話者の音声を付加する。特殊シーケンスは、話者が実際に発話する入力音声とは異なって、音声認識の際に入力音声の前端に強制に付加されるシーケンスで、音声認識装置が明らかに認識できる予め取得された話者の特殊音声又は予め取得された話者の特殊音声から抽出された特殊特徴ベクトルを含むことができる。例えば、音声認識方法は、登録ステップとテストステップとに区分され、特殊シーケンスは登録ステップで予め取得され、テストステップにおいて自動的に話者の入力音声の前端に付加される。

テストステップにおいて、音声認識装置は、特殊シーケンスが入力された認識結果「ｈｉ」を出力する。音声認識装置は、自己回帰の復号化に従っているため、特殊シーケンスに対する認識結果である「ｈｉ」が以後の出力に影響を与え、以後の出力は「ｈｉ」を発話した話者の音声に集中され得る。したがって、話者の音声特徴を有するトークンのみを出力することができる。復号化方法は、次の図４及び図５を参照して詳細に説明される。

話者の発話がない０～０．３ｓ区間において、音声がないことを出力できず、雑音の特性と最も類似の認識結果を出力した一般的なエンドツーエンド音声認識方法とは異なって、図面２２０を参照すると、一実施形態に係る音声認識装置は、特殊シーケンスに対する認識結果である「ｈｉ」が以後の出力に影響を与えるため、「ｈｉ」以後の入力シーケンス内のノイズ区間の出力を別に認識しなくてもよい。その後、音声認識装置は、認識結果である「ｈｉｗｈｅｒｅａｒｅｙｏｕ」から「ｈｉ」を除去し、最終的に「ｗｈｅｒｅａｒｅｙｏｕ」だけを出力する。このように、音声認識装置は、特殊シーケンスを用いて簡単にノイズ出力を抑制して主話者の音声に集中することができる。

以上、話者に対応する特殊シーケンスについて説明したが、特殊シーケンスが必ず話者の特殊音声である必要はない。例えば、特殊シーケンス「ｈｉ」に対応する音声を、話者のものではない平均的な「ｈｉ」音声又は任意の「ｈｉ」音声に代替することもできる。前述した主話者の音声集中の効果はやや減少するが、ノイズ区間の出力を別に認識しないという効果は、話者のものではない特殊シーケンスを用いても得ることができる。

図３Ａは、一実施形態に係る音声認識装置のブロック図である。

図３を参照すると、一実施形態に係る音声認識装置は、人工神経網３１０、特徴ベクトル抽出モジュール３２０、及び特殊トークン除去モジュール３３０を含む。ただし、図３Ａには実施形態に関連する構成要素のみが図示されているが、他の汎用的な構成要素をさらに含んでもよい。また、図３Ａに示された音声認識装置それぞれの構成要素は、機能的及び論理的に分離し得ることを示すために、別途図示したものであり、物理的に必ず別途の構成要素や別途のコードに実現されることを意味するのではなく、実際の物理的な環境では互いに統合される形態に実現され得ることに留意しなければならない。以下、音声認識装置の各構成要素について説明する。

音声認識装置は、話者の入力音声を受信すると、話者の入力音声の前端に予め決められた特殊音声を付加する。特殊音声は、音声認識の際に入力音声の前端に強制的に付加される音声として、音声認識装置が明らかに認識できる予め取得された話者の音声であってもよく、登録ステップで予め取得されてもよい。これとは異なって、予め決められた特殊音声は、話者の特殊音声ではなくても構わない。

特徴ベクトル抽出モジュール３２０は、話者から受信した入力音声から入力特徴ベクトルを抽出し、特殊音声から特殊特徴ベクトルを抽出する。音声は、複数のフレームごとに情報を含んでいる音声信号であり、特徴ベクトルは、少なくとも１つのフレーム単位から抽出された情報のシーケンスであってもよく、多次元のベクトルのように表現される。

人工神経網３１０は、特徴ベクトル抽出モジュール３２０から入力特徴ベクトルと特殊特徴ベクトルとが入力され、これに対応する認識結果を出力する。人工神経網３１０は、エンコーダ３１１とデコーダ３１２とを含むエンコーダ３１１－デコーダ３１２構造のエンドツーエンド人工神経網であってもよい。人工神経網は、例えば、循環神経網（ＲＮＮ；ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）、畳み込み神経網（ＣＮＮ；ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）、自己注意神経網（ＳＡＮＮ；Ｓｅｌｆ－ＡｔｔｅｎｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＢＲＮＮ（Ｂｉ－ｄｉｒｅｃｔｉｏｎａｌＲＮＮ）、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）、ＢＬＳＴＭ（Ｂｉ－ｄｉｒｅｃｔｉｏｎａｌＬＳＴＭ）、ＧＲＵ（ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ）、ＢＧＲＵ（Ｂｉ－ｄｉｒｅｃｔｉｏｎａｌＧＲＵ）などで実現されるが、これに限定されるものではない。人工神経網内のレイヤのノードは非線形的に相互影響を与える関係であってもよく、各ノードから出力される値、ノード間の関係など、人工神経網のパラメータは学習によって最適化され得る。

エンドツーエンドエンコーダ３１１－デコーダ３１２は、エンコーダ３１１及びデコーダ３１２が統合されたネットワーク構造として、入力特徴ベクトル及び特殊特徴ベクトルが入力され、認識結果のシーケンスを生成する。例えば、エンドツーエンド構造で具現されたエンコーダ３１１及びデコーダ３１２は、入力音声から入力音声に対応する認識結果を直接生成する。エンコーダ３１１及びデコーダ３１２は、入力された特徴ベクトルから認識結果のシーケンスを生成するように予め学習され得る。例えば、エンコーダ３１１及びデコーダ３１２は、入力音声に対応する正解テキスト対のシーケンスから認識結果のシーケンスを生成するように予め学習され得る。

エンコーダ３１１は、入力された特徴ベクトル（入力特徴ベクトル及び特殊特徴ベクトル）を符号化し、符号化された特徴を生成する。エンコーダ３１１は、特徴ベクトルから特徴を抽出し、符号化された情報を生成する。例えば、エンコーダ３１１は、特徴ベクトルの次元を切り替え、符号化された情報を生成する。

符号化された特徴はデコーダ３１２に印加される。デコーダ３１２は、符号化された特徴に基づいて認識結果を生成する。符号化された特徴を受信したデコーダ３１２は、トークン単位で認識結果を出力し、トークンは、単語、部分単語（ｓｕｂｗｏｒｄ）、単一字（ｃｈａｒａｃｔｅｒ）、あるいは単一字をなしている単位（ハングルにおいては初声、中声、終声など）になる。

デコーダ３１２は、ステップごとのエンコーダー３１１から算出された情報に基づいて出力トークンを求めるが、ここで、以前のステップまで選択された入力トークンに従属して求めることができる。自己回帰復号化を行うエンドツーエンド人工神経網モデルで出力トークンとして選択されたトークンが、次の入力トークとして決定されてもよい。デコーダ３１２は、各ステップで次のトークンを出力するとき、以前に出力された出力トークンを用いることができる。例えば、「私はヒトです」という文章で「ヒトです」を認識するとき、「私は」という出力を用いることができる。このような特性を自己回帰すると言われる。

より具体的に、デコーダ３１２は、入力トークンである開始トークン及び符号化された特徴に基づいて、特殊音声に対応する１つ以上の特殊トークンを出力する。１つ以上の特殊トークンは、特殊音声に対応するテキストであってもよい。

特殊トークンを出力したデコーダ３１２は、特殊トークンに基づいて次の出力トークンの複数の候補の確率を予測する。ステップｉにおいて、トークンｔ_ｉの条件付き確率は数式（１）のように表現される。

Ｈ_ｅはエンコーダの隠れリプリゼンテーション（ｈｉｄｄｅｎｒｅｐｒｅｓｅｎｔａｔｉｏｎ）で符号化された特徴に当該する。ｔ_１ないしｔ_ｉ－１は今まで選択された入力トークンであり、特に、ｔ_１は特殊トークンである。数式（１）のように、デコーダ３１２は、特殊トークンに基づいて次の出力トークンを決定するため、以後の出力トークンは話者の音声にバイアスがかかり、その結果として、主話者の音声に集中することができる。ノイズ出力の抑制についても特殊トークンの影響を受け、この結果は、特殊トークンが話者の音声でなくても取得することができる。

特殊トークン除去モジュール３３０は、特殊音声を含む認識結果から特殊トークンを除去し、最終的に入力音声に対応する認識結果のみを出力することができる。

図３Ｂは、一実施形態の他の側面に係る音声認識装置のブロック図である。

図３Ｂを参照すると、一実施形態に係る音声認識装置は、人工神経網３１０、特徴ベクトル抽出モジュール３２１、及び特殊トークン除去モジュール３３０を含む。図３Ａに基づいた説明は、図３Ｂにも適用可能であるため、重複する内容の説明は省略する。

音声認識装置は、話者の入力音声に特殊音声を付加する代わりに、入力特徴ベクトルに予め備えられた特殊特徴ベクトルを付加することができる。具体的に、特徴ベクトル抽出モジュール３２１は、話者から受信した入力音声から入力特徴ベクトルを抽出する。音声認識装置は、抽出された入力特徴ベクトルに予め備えられた特殊特徴ベクトルを付加する。特殊特徴ベクトルは、登録ステップで予め取得される。特殊特徴ベクトルは話者の音声特徴を含む。

人工神経網３１０は、特徴ベクトル抽出モジュール３２０から入力特徴ベクトルと特殊特徴ベクトルとが入力され、これに対応する認識結果を出力することができる。

図３Ｃは、他の実施形態に係る音声認識装置のブロック図である。

図３Ｃを参照すると、一実施形態に係る音声認識装置は、人工神経網３１５、入力特徴ベクトル抽出モジュール３２２、特殊特徴ベクトル抽出モジュール３２３、特殊トークン除去モジュール３３０、及び出力制御モジュール３４０を含む。

音声認識装置は、入力音声と特殊音声とに各々異なる特徴ベクトル抽出モジュールを使用する。例えば、入力特徴ベクトル抽出モジュール３２２は、入力音声から入力特徴ベクトルを抽出し、特殊特徴ベクトル抽出モジュール３２３は、特殊音声から特殊特徴ベクトルを抽出する。さらに、算出の効率性の増大のような理由により、特殊特徴ベクトル抽出モジュール３２３は、図３Ａに示す特徴ベクトル抽出モジュール３２０とは異なる方式で特徴ベクトルを抽出することができる。例えば、特殊特徴ベクトル抽出モジュール３２３は、特殊音声の一部から特殊特徴ベクトルを抽出してもよい。

人工神経網３１５は、エンコーダ３１６及びデコーダ３１７を含むエンコーダ３１６－デコーダ３１７構造のエンドツーエンド人工神経網である。エンコーダ３１６は、入力された特徴ベクトル（入力特徴ベクトル及び特殊特徴ベクトル）を符号化し、符号化された特徴を生成してデコーダ３１７に印加し、デコーダ３１７は、符号化された特徴に基づいて認識結果を生成することができる。

より具体的に、人工神経網３１５は、特殊特徴ベクトルが入力されれば、特殊トークンを出力するよう学習される。図３Ａ、図３Ｂを参照して説明した特殊トークンは、特殊音声に対応するテキストを意味する一方、デコーダ３１７が出力する特殊トークンは話者情報のみを含んでいるだけで、特殊音声に対応するテキストを出力することができない。例えば、図３Ａに示す人工神経網３１０は、入力音声に対応する正解テキスト対のシーケンスから認識結果のシーケンスを生成するよう予め学習されているため、特殊音声に対応する特殊トークンを別に学習する必要がない。しかし、人工神経網３１５は、図３Ａの人工神経網３１０で学習されていない形態の特殊特徴ベクトルが入力されるため、人工神経網３１５は、特殊特徴ベクトルが入力されれば、それに対応する特殊トークンを出力するよう学習されなければならない。以下、特殊特徴ベクトルとこれに対応する特殊トークンについて、図３Ａ及び図３Ｂを参照して説明した特殊特徴ベクトル、特殊トークンに区分するため、各々ボイスＩＤ特徴ベクトル、ボイスＩＤトークンのように称する。

ボイスＩＤ特徴ベクトルが入力された人工神経網３１５は、ボイスＩＤトークンを出力する。出力制御モジュール３４０は、ボイスＩＤトークンが出力されれば、当該のトークンに話者情報に対するバイアスをかける。デコーダ３１７は、話者情報がバイアスされたボイスＩＤトークンに基づいて、次の出力トークンの候補の確率を予測する。デコーダ３１７は、ボイスＩＤトークンに基づいて次の出力トークンの候補の確率を予測するため、後続の出力トークンは、話者の音声によりバイアスされ、その結果として音声認識装置はノイズ出力を抑制し、主話者の音声に集中することができる。

特殊トークン除去モジュール３３０は、特殊音声を含む認識結果から特殊トークンを除去し、最終的に入力音声に対応する認識結果だけを出力することができる。

図４は、一実施形態に係るエンコーダ－デコーダ構造のエンドツーエンド人工神経網を有する音声認識装置の動作を説明するための図である。

図４を参照すると、一実施形態に係る人工神経網４００は、エンコーダ４１０及びデコーダ４２０を含む。

人工神経網４００は、エンコーダ４１０－デコーダ４２０構造のエンドツーエンド人工神経網であって、モデルの全ての媒介変数が１つの損失関数に対して同時に訓練される経路が可能であるため、エンコーダ４１０及びデコーダ４２０が同時に学習され得る。人工神経網４００は、一方の端から入力され、他の端に出力を生成するが、入力及び出力を直接考慮してネットワーク加重値を最適化することができる。

音声認識装置は、音声４１１から特徴ベクトル４１２を抽出する。音声４１１は入力音声と特殊音声とを含み、特徴ベクトル４１２は入力音声ベクトルと特殊特徴ベクトルとを含む。以下、説明の便宜のために、特殊音声が「ｈｉ」である場合について実施形態を説明する。

エンコーダ４１０は特徴ベクトル４１２を符号化し、符号化された特徴４１３を生成する。エンコーダ４１０は、音声特徴４１３の次元を切り替え、符号化された情報を生成する。符号化された特徴４１３は、人工神経網のデコーダ４２０に印加される。デコーダ４２０は、トークン単位で、符号化された特徴４１３と以前に決定された認識結果とに基づいて出力トークンを決定することができる。

より具体的に、人工神経網４００のデコーダ４２０は、入力トークンである開始トークン及び符号化された特徴４１３を復号化して特殊音声に対応する１つ以上の特殊トークン「ｈｉ」を出力する。「ｈｉ」を出力したデコーダ４２０は、特殊トークン「ｈｉ」に基づいて、次の出力トークンの候補の確率を予測することができ、確率の最も高い候補トークンを次の出力トークンとして決定する。例えば、「ｈｉ」を出力トークンとして決めたデコーダ４２０は、「ｈｉ」を次の入力トークンとして決定する。

人工神経網４５０のデコーダ４２１は、デコーダ４２０とは相違して、開始トークン及び符号化された特徴４１３を復号化して特殊音声に対応する１つ以上の特殊トークン「ｈｉ」を出力するステップを省略する。デコーダ４２１は、復号化を介して特殊トークンを別に出力せず、特殊トークンを予め備えて次の入力トークンに入力することができる。一実施形態に係る音声認識装置は、特殊トークンを後続の入力トークンとして使用することが目的であるため、デコーダ４２１と共に予め備えられた特殊トークンを次の入力トークンとして直接入力してもデコーダ４２０と同一に出力しながら、算出の効率性を増大させることができる。図３Ａに示す人工神経網３１０と図３Ｃに示す人工神経網３５０とは、人工神経網４００のみならず、人工神経網４５０も含むことができる。

図５は、一実施形態に係る音声認識装置の主話者集中方法を説明するための図である。

図５を参照すると、一実施形態に係る音声認識装置は、主話者の入力音声だけでなく他の話者の入力音声も受信することがある。他の話者を主話者とは区別するために副話者と称し、副話者は１つ以上であってもよい。例えば、テレビ音が発生する環境で音声認識を行う場合、意図せずにもテレビ音が音声認識装置に入力されることがあり、この場合にテレビ音が副話者であり得る。以下で、説明の便宜のために主話者の入力音声は「ｗｈｅｒｅａｒｅｙｏｕ」であり、副話者の入力音声は「ｂｒｅａｋｉｎｇｎｅｗｓｔｏｄａｙｐｒｉｍｅｍｉｎｉ．．」である場合について実施形態を説明する。

図面５１０は、一般的な音声認識装置の認識結果を示すものであり、副話者の入力音声が主話者の入力音声より先に入力される場合、副話者の入力音声にバイアスがかかって副話者の入力音声に対応するテキスト「ｂｒｅａｋｉｎｇｎｅｗｓｔｏｄａｙｐｒｉｍｅｍｉｎｉ．．」が出力される。

図面５２０は、一実施形態に係る音声認識装置の認識結果を示すものであり、副話者の入力音声が主話者の入力音声よりも先に入力されるが、音声認識装置は、副話者の入力音声が入力される前に主話者に対応する特殊音声を付加して主話者の入力音声に対応するテキストを出力することができる。一実施形態に係る音声認識装置は、副話者の入力音声の前端に主話者に対応する特殊音声を付加しているため、特殊音声に対応する認識結果「ｈｉ」を出力し、その後「ｈｉ」に基づいて次の出力トークンの候補の確率を予測する。ここで、後続の出力トークンは、主話者の音声にバイアスがかかることになり、その結果として、音声認識装置は主話者の音声に集中することになり、主話者の入力音声に対応するテキスト「ｗｈｅｒｅａｒｅｙｏｕ」を出力することができる。

図６は、一実施形態に係る音声認識装置のノイズ除去方法を説明するための図である。

図６を参照すると、一実施形態に係る音声認識装置は、ノイズ音声６１１が含まれている入力音声６１０を受信する。音声認識装置は、入力特徴ベクトル６３０の前端に特殊特徴ベクトル６２０を付加する。入力特徴ベクトル６３０は、ノイズ音声６１１に対応する特徴ベクトルの部分６３１を含む。

音声認識装置は、特殊特徴ベクトル６２０に対応する特殊トークンを出力し、自己回帰の特性に応じて話者の音声に集中することになり、ノイズ音声６１１は無視され、ノイズ音声６１１に対応するテキストは出力されない。これは自己注意加重値６４０からも把握することができる。全体の自己注意加重値６４０でノイズ音声６１１に対応する特定の自己注意加重値６４１は０である。

図７は、一実施形態に係る音声認識方法を説明するためのフローチャートである。

図７を参照すると、ステップＳ７１０ないしＳ７３０は、図１～図６を参照して前述した音声認識装置により実行される。音声認識装置は、１つ又はそれ以上のハードウェアモジュール、１つ又はそれ以上のソフトウェアモジュール、又は、これらの様々な組合せにより実現される。

ステップＳ７１０において、音声認識装置は、話者の入力音声に対応する入力シーケンスの前端に予め決められた特殊シーケンスを付加する。入力シーケンスは、入力音声又は入力音声から抽出されたベクトルを含んでもよく、特殊シーケンスは話者の予め決められた音声又は前記予め決められた音声から抽出された少なくとも１つのベクトルを含んでもよい。

ステップＳ７２０において、音声認識装置は、特殊シーケンス及び入力シーケンスを認識する。音声認識装置は、特殊シーケンス及び入力シーケンスを符号化し、符号化された特徴を生成し、符号化された特徴に基づいて特殊シーケンスに対応する１つ以上の特殊トークンを出力し、符号化された特徴、及び特殊トークンに基づいて入力シーケンスに対応する１つ以上の出力トークンを決定することができる。特殊トークンは、話者の予め決められた音声に対応するテキストを含む。

音声認識装置は、特殊シーケンス及び入力シーケンスを符号化し、符号化された特徴を生成し、符号化された特徴及び特殊シーケンスに対応する特殊トークンに基づいて、入力シーケンスに対応する１つ以上の出力トークンを決定する。

音声認識装置は、特殊シーケンス及び入力シーケンスをエンコーダ－デコーダ構造のエンドツーエンド人工神経網に入力し、特殊シーケンス及び入力シーケンスに対応する音声認識の結果を出力する。人工神経網は、ステップごとのエンコーダーから算出された情報に基づいて、以前のステップの音声認識の結果に従属して音声認識の結果を出力することができる。

ステップＳ７３０において、音声認識装置は、特殊シーケンス及び音声認識の結果に基づいて、入力シーケンスを認識する。音声認識装置は、特殊シーケンス及び入力シーケンスに対応する音声認識の結果から、特殊シーケンスに対応する音声認識の結果を除いて入力シーケンス認識結果を出力することができる。

図８は、更なる実施形態に係る音声認識装置のハードウェア構成図である。

図８を参照すると、音声認識装置は、１つ以上のプロセッサ８１０、バス８４０、ネットワークインターフェース８５０、プロセッサ８１０によって実行されるコンピュータプログラムをロード（ｌｏａｄ）するメモリ８２０、及び音声認識ソフトウェア８３０を格納するストレージ８６０を含む。

プロセッサ８１０は、音声認識装置の各構成の全般的な動作を制御する。プロセッサ８１０は、ＭＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｏｒＵｎｉｔ）、ＭＣＵ（ＭｉｃｒｏＣｏｎｔｒｏｌｌｅｒＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）又は当技術分野に周知の任意の形態のプロセッサを含んで構成することができる。また、プロセッサ８１０は、実施形態に係る方法を実行するための少なくとも１つのアプリケーション又はプログラムに対する演算を行ってもよい。音声認識装置は１つ以上のプロセッサを備えてもよい。

メモリ８２０は、各種のデータ、命令及び／又は情報を格納する。メモリ８２０は、実施形態に係る音声認識方法を実行するためにストレージ８６０から音声認識ソフトウェア８３０をロードする。図８において、メモリ８２０の例示としてＲＡＭが示されている。

バス８４０は、音声認識装置１００の構成要素同士の間の通信機能を提供する。バス８４０は、アドレスバス（ＡｄｄｒｅｓｓＢｕｓ）、データバス（ＤａｔａＢｕｓ）及び制御バス（ＣｏｎｔｒｏｌＢｕｓ）など様々な形態のバスに実現することができる。

ネットワークインターフェース８５０は、音声認識装置の有線／無線インターネット通信をサポートする。また、ネットワークインターフェース８５０は、インターネット通信以外の様々な通信方式をサポートしてもよい。そのために、ネットワークインターフェース８５０は、当技術分野に周知の通信モジュールを含んで構成することができる。

ストレージ８６０は、音声認識ソフトウェア８３０を非一時的に格納する。

ストレージ８６０は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、フラッシュメモリなどのような不揮発性メモリ、ハードディスク、取り外し型ディスク、又は、当該の分野で周知の任意の形態のコンピュータで読み出し可能な記録媒体を含んで構成することができる。

音声認識ソフトウェア８３０は、実施形態に係る音声認識方法を行って人工神経網基盤の音響モデルを構築し、音響モデルを用いて認識対象音声データに対する最終テキストを出力する。

具体的に、音声認識ソフトウェア８３０はメモリ８２０にロードされ、１つ以上のプロセッサ８１０により、話者の入力音声に対応する入力シーケンスの前端に予め決められた特殊シーケンスを付加し、特殊シーケンス及び入力シーケンスを認識し、特殊シーケンス及び音声認識の結果に基づいて、入力シーケンスを認識する。また、プロセッサ８１０は、特殊シーケンス及び入力シーケンスを符号化し、符号化された特徴を生成し、符号化された特徴に基づいて特殊シーケンスに対応する特殊トークンを出力し、符号化された特徴及び特殊トークンに基づいて入力シーケンスに対応する１つ以上の出力トークンを決定することができる。また、プロセッサは、特殊シーケンス及び入力シーケンスを符号化し、符号化された特徴を生成し、符号化された特徴及び特殊シーケンスに対応する特殊トークンに基づいて入力シーケンスに対応する１つ以上の出力トークンを決定する。また、プロセッサは、特殊シーケンス及び入力シーケンスをエンコーダ－デコーダ構造のエンドツーエンド（Ｅｎｄ－ｔｏ－Ｅｎｄ）人工神経網に入力し、特殊シーケンス及び入力シーケンスに対応する音声認識の結果を出力する。また、プロセッサは、特殊シーケンス及び入力シーケンスに対応する音声認識の結果から、特殊シーケンスに対応する音声認識の結果を除くことができる。また、プロセッサは、特殊シーケンス以後の入力シーケンス区間をＥＯＳトークンとして認識する。一例として、入力シーケンスにノイズだけがある場合、特殊シーケンス以後の部分（例えば、図２に示す実施形態でノイズだけが含む０～０．３ｓ区間）をＥＯＳトークンとして認識することができる。

以上述した実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組み合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、マイクロコンピュータ、ＦＰＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサー、又は命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行して応答する異なる装置のように、１つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム（ＯＳ）及びオペレーティングシステム上で実行される１つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は１つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）及び／又は複数類型の処理要素を含むことを把握する。例えば、処理装置は、複数のプロセッサ又は１つのプロセッサ及び１つのコントローラを含む。また、並列プロセッサ（ｐａｒａｌｌｅｌｐｒｏｃｅｓｓｏｒ）のような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうちの一つ以上の組合せを含み、希望の通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置を命令することができる。ソフトウェア及び／又はデータは、処理装置によって解釈されたり処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアはネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり実行され得る。ソフトウェア及びデータは一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。

本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスクのような磁気－光媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明に示す動作を実行するために１つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。

上述したように実施形態を限定された図面によって例として説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順で実行されるし、及び／又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせられてもよいし、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。

したがって、本発明の範囲は、開示された実施形態に限定されて定められるものではなく、特許請求の範囲及び特許請求の範囲と均等なものなどによって定められるものである。

Claims

音声認識装置が実施するエンドツーエンド人工神経網音声認識方法において、
話者の特殊音声を予め取得するステップと、
前記話者の予め決められた特殊シーケンスを受信し、この直後に前記話者の入力シーケンスを受信するステップであって、前記入力シーケンスは前記話者の入力音声に対応し、前記予め決められた特殊シーケンスには前記話者の予め取得した特殊音声が含まれる、受信するステップと、
人工神経網を用いて前記特殊シーケンス及び前記入力シーケンスを認識するステップと、
前記特殊シーケンス及び前記認識結果に基づいて、前記入力シーケンスを認識するステップと、
を含むエンドツーエンド人工神経網音声認識方法。
前記入力シーケンスは、前記入力音声又は前記入力音声から抽出されたベクトルを含む、請求項１に記載のエンドツーエンド人工神経網音声認識方法。
前記特殊シーケンスは、前記話者の予め決められた音声又は前記予め決められた音声から抽出された少なくとも１つのベクトルを含む、請求項１に記載のエンドツーエンド人工神経網音声認識方法。
前記特殊シーケンスは、前記話者の予め決められた音声である、請求項１に記載のエンドツーエンド人工神経網音声認識方法。
前記特殊シーケンスは「ｈｉ」という音声である、請求項１に記載のエンドツーエンド人工神経網音声認識方法。
前記特殊シーケンス及び前記入力シーケンスを認識するステップは、
前記特殊シーケンス及び前記入力シーケンスを符号化し、符号化された特徴を生成するステップと、
前記符号化された特徴に基づいて前記特殊シーケンスに対応する１つ以上の特殊トークンを出力するステップと、
前記符号化された特徴及び前記特殊トークンに基づいて、前記入力シーケンスに対応する１つ以上の出力トークンを決定するステップと、
を含む、請求項１に記載のエンドツーエンド人工神経網音声認識方法。
前記特殊トークンは、前記話者の予め決められた音声に対応するテキストを含む、請求項６に記載のエンドツーエンド人工神経網音声認識方法。
前記特殊シーケンス及び前記入力シーケンスを認識するステップは、
前記特殊シーケンス及び前記入力シーケンスを符号化し、符号化された特徴を生成するステップと、
前記符号化された特徴及び前記特殊シーケンスに対応する特殊トークンに基づいて、前記入力シーケンスに対応する１つ以上の出力トークンを決定するステップと、
を含む、請求項１に記載のエンドツーエンド人工神経網音声認識方法。
前記特殊シーケンス及び前記入力シーケンスを認識するステップは、前記特殊シーケンス及び前記入力シーケンスをエンコーダ－デコーダ構造のエンドツーエンド（Ｅｎｄ－ｔｏ－Ｅｎｄ）人工神経網に入力し、前記特殊シーケンス及び前記入力シーケンスに対応する音声認識の結果を出力するステップを含む、請求項１に記載のエンドツーエンド人工神経網音声認識方法。
前記エンコーダ－デコーダ構造のエンドツーエンド人工神経網のデコーダは、ステップごとのエンコーダーから算出された情報に基づいて、以前のステップの音声認識の結果に従属して前記音声認識の結果を出力する、請求項９に記載のエンドツーエンド人工神経網音声認識方法。
前記人工神経網は、循環神経網（ＲＮＮ：ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）、畳み込み神経網（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）及び自己注意神経網（ＳＡＮＮ：Ｓｅｌｆ－ＡｔｔｅｎｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋ）のうち少なくとも１つを含む、請求項９に記載のエンドツーエンド人工神経網音声認識方法。
前記入力シーケンスを認識するステップは、前記特殊シーケンス及び前記入力シーケンスに対応する音声認識の結果から、前記特殊シーケンスに対応する音声認識の結果を除くステップを含む、請求項１に記載のエンドツーエンド人工神経網音声認識方法。
前記特殊シーケンスは、前記話者の予め取得した特殊音声から抽出された少なくとも１つの特徴ベクトルを含み、
前記特殊シーケンス及び前記入力シーケンスを認識するステップは、
前記特殊シーケンス及び前記入力シーケンスをエンコーダ－デコーダ構造のエンドツーエンド人工神経網のエンコーダに入力して符号化された特徴を生成するステップと、
前記符号化された特徴に基づいて前記特徴ベクトルに対応する特殊トークンを出力するステップと、
を含み、
前記人工神経網は、前記特徴ベクトルが入力されれば、前記特殊トークンを出力するように学習される、請求項１に記載のエンドツーエンド人工神経網音声認識方法。
前記入力シーケンスにノイズだけが含まれている場合、前記特殊シーケンス以後の前記入力シーケンスをＥＯＳトークンとして認識するステップをさらに含む、請求項１に記載のエンドツーエンド人工神経網音声認識方法。
ハードウェアと結合して請求項１～請求項１４のいずれか１項に記載のエンドツーエンド人工神経網音声認識方法を実行させるために媒体に格納されたコンピュータプログラム。
プロセッサを含み、該プロセッサに請求項１～１４のいずれか一項に記載のエンドツーエンド人工神経網音声認識方法を実行させる音声認識装置。
音声認識装置が実施するエンドツーエンド人工神経網音声認識方法において、
話者の特殊音声を予め取得するステップと、
該取得するステップの後に、前記話者の前記特殊音声を受信し、この直後に前記話者の入力音声を受信するステップと、
前記特殊音声とこの直後に受信した前記入力音声とを含む音声から特徴ベクトルを抽出するステップと、
前記特徴ベクトルを符号化し、符号化された特徴を生成するステップと、
前記符号化された特徴及び以前に取得した前記特殊音声の認識結果に基づいて出力トークンを決定するステップと、
を含む、エンドツーエンド人工神経網音声認識方法。
前記特殊音声に対応する特殊トークンを前記出力トークンとして出力するステップをさらに含む、請求項１７に記載のエンドツーエンド人工神経網音声認識方法。
前記特殊トークンを出力するために入力トークン及び前記符号化された特徴を復号化するステップをさらに含む、請求項１８に記載のエンドツーエンド人工神経網音声認識方法。
前記特殊音声を含む認識結果から前記特殊トークンを除去するステップと、
前記入力音声に対応する現在の認識結果を出力するステップと、
をさらに含む、請求項１８に記載のエンドツーエンド人工神経網音声認識方法。
前記特殊トークンに基づいて次の出力トークンの候補の確率を予測するステップと、
前記確率に基づいて次の出力トークンを決定するステップと、
前記次の出力トークンを次の入力トークンとして決定するステップと、
をさらに含む、請求項１８に記載のエンドツーエンド人工神経網音声認識方法。
前記特徴ベクトルを符号化し、符号化された特徴を生成するステップは、前記特徴ベクトルの次元を変換して前記符号化された特徴を生成するステップを含む、請求項１７に記載のエンドツーエンド人工神経網音声認識方法。