JP2020067658A

JP2020067658A - 音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法

Info

Publication number: JP2020067658A
Application number: JP2019182034A
Authority: JP
Inventors: 尚賢柳; Sanghyun Yoo; ベンジオヨシュア; Bengio Yoshua; 仁哲宋; Inchul SONG
Original assignee: Universite de Montreal; Samsung Electronics Co Ltd
Current assignee: Universite de Montreal; Samsung Electronics Co Ltd
Priority date: 2018-10-19
Filing date: 2019-10-02
Publication date: 2020-04-30
Anticipated expiration: 2039-10-02
Also published as: KR20200044388A; EP3640934B1; JP7171532B2; US11282501B2; EP3640934A1; CN111081230A; US20200126534A1

Abstract

【課題】音声認識装置及び方法、音声認識モデルをトレーニングする装置及び方法を提供する。【解決手段】音声認識装置は方言入力データからパラメータ生成モデルに基づいて、方言パラメータを生成でき、生成された方言パラメータを音声認識モデルに適用し、方言パラメータが適用された音声認識モデルに基づいて、音声信号から認識結果を生成する。トレーニング装置は、上述した音声認識モデル及びパラメータ生成モデルをトレーニングすることができる。【選択図】図３

Description

以下、音声認識技術が提供される。

音声認識モデルは音声認識を行うためのモデルとして、個人化装置に入力された音声入力を認識して音声認識の結果を出力する。音声認識は、音声入力に含まれた言語情報を音声入力に対応するテキスト情報に変換する過程である。音声認識モデルは、音声入力を分析して音声入力に含まれた言語情報がいかなるテキスト情報を示すかを推定することができる。音声入力は、音声シーケンスの形態を有する。

一実施形態に係る音声認識装置により、ユーザが使用する方言に最適化された音声認識を行うことにある。

一実施形態によれば、プロセッサで実現される、音声を認識する方法において、音声信号を取得するステップと、前記音声信号の認識を行うステップとを含み、前記認識を行うステップは、前記音声信号に対してパラメータ生成モデルを用いて、方言入力データから方言パラメータを生成するステップと、方言音声認識モデルを生成するためにトレーニングされた音声認識モデルに前記方言パラメータを適用するステップと、前記音声信号に対して前記方言音声認識モデルを施行することによって、前記音声信号から音声認識の結果を生成するステップとを含む。

前記方言パラメータを適用するステップは、前記トレーニングされた音声認識モデルの１つ以上のレイヤのそれぞれのうち少なくとも個別部分に前記パラメータ生成モデルを用いて生成された前記方言パラメータ又は個別方言パラメータを適用するステップを含み得る。

前記トレーニングされた音声認識モデルは、少なくとも１つ以上のレイヤを有するニューラルネットワークモデルであり、前記１つ以上のレイヤのそれぞれは、１つ以上の階層的に以前レイヤノード及び／又は個別加重された接続により１つ以上の臨時的に以前ノードに接続される少なくともノードを含み、前記方言パラメータ又は個別方言パラメータを適用するステップは、接続加重（ｃｏｎｎｅｃｔｉｏｎｗｅｉｇｈｔ）を挿入するステップと、前記個別加重された接続の全てより少ない前記１つ以上のレイヤのそれぞれで個別接続加重値を設定、代替、又は、変更するステップとを含み得る。

前記方言パラメータ又は前記個別方言パラメータは、１つ以上の個別スケール行列をさらに含み、前記方言パラメータ又は前記個別方言パラメータを適用するステップは、前記方言音声認識モデルの施行の間に、前記方言音声認識モデルの１つ以上の隠れレイヤの個別出力に前記１つ以上の個別スケール行列を適用するステップを含み得る。

前記方言パラメータ又は前記個別方言パラメータは１つ以上の個別バッチパラメータをさらに含み、前記１つ以上の個別バッチパラメータのそれぞれは、第１バッチパラメータ及び第２バッチパラメータを含み、前記方言パラメータ又は前記個別方言パラメータを適用するステップは、前記方言音声認識モデルの施行の間、１つ以上の隠れレイヤのそれぞれに対して前記第１バッチパラメータを個別入力に乗算し、前記第２バッチパラメータを加算し、前記１つ以上の隠れレイヤに個別的に前記適用された１つ以上の個別バッチパラメータの個別結果をフォワーディングすることによって、前記方言音声認識モデルの１つ以上の隠れレイヤに対する個別入力に前記１つ以上の個別バッチパラメータを適用するステップを含み得る。

前記個別入力は、正規化された個別入力であり、前記個別バッチパラメータは、個別バッチ正規化パラメータであり得る。

前記方言パラメータ又は前記個別方言パラメータは、１つ以上の個別バッチパラメータを含み、前記１つ以上の個別バッチパラメータは、第１バッチパラメータ及び第２バッチパラメータを含み、前記方言パラメータ又は前記個別方言パラメータを適用するステップは、前記方言音声認識モデルの施行の間に１つ以上の隠れレイヤに対して第１バッチパラメータを個別入力に乗算し、第２バッチパラメータを加算して前記１つ以上の隠れレイヤに個別的に前記適用された１つ以上の個別バッチパラメータの個別結果をフォワーディングすることによって、前記方言音声認識モデルの１つ以上の隠れレイヤに対する個別入力に前記１つ以上の個別バッチパラメータを適用するステップを含み得る。

前記個別入力は正規化された個別入力であり、前記個別バッチパラメータは個別バッチ正規化パラメータであり得る。

前記トレーニングされた音声認識モデルは、少なくとも１つ以上のレイヤを有するニューラルネットワークモデルであり、前記１つ以上のレイヤのそれぞれは、個別加重された接続により１つ以上の階層的に以前レイヤノード及び／又は１つ以上の臨時的に以前ノードに接続される少なくともいずれか１つのノードを含み、
前記方言パラメータを適用するステップは、前記方言音声認識モデルの施行の間、前記パラメータ生成モデルによって生成される前記方言パラメータとして、又は個別方言パラメータとして、個別スケール行列を前記方言音声認識モデルの隠れレイヤの個別出力に適用するステップを含み得る。

前記方言パラメータは個別バッチパラメータを含み、前記方言パラメータを適用するステップは、前記方言音声認識モデルを施行する間、前記方言音声認識モデルの１つ以上の中間演算に対する個別入力に前記個別バッチパラメータを適用するステップを含み、入力は、前記方言音声認識モデルの入力演算から又は前記方言音声認識モデルの以前の１つ以上の中間演算からの入力であり得る。

前記トレーニングされた音声認識モデルは、少なくとも１つ以上のレイヤを有するニューラルネットワークモデルであり、前記１つ以上のレイヤのそれぞれは、個別加重された接続により１つ以上の階層的に以前レイヤノード及び／又は１つ以上の臨時に以前ノードに接続された少なくともいずれか１つのノードを含み、前記個別入力に前記個別バッチパラメータを適用するステップは、前記方言音声認識モデルを施行する間に前記方言音声認識モデルの１つ以上の隠れレイヤの個別入力に前記個別バッチパラメータを適用するステップを含み得る。

前記個別バッチパラメータは、第１バッチパラメータ及び第２バッチパラメータを含み、前記方言音声認識モデルの前記１つ以上の隠れレイヤに対する前記個別入力に前記個別バッチパラメータを適用するステップは、前記１つ以上の隠れレイヤに対して、個別入力に第１バッチパラメータを乗算し、前記第２バッチパラメータを加算するステップと、前記１つ以上の隠れレイヤに個別的に前記適用された個別バッチパラメータの個別結果をフォワーディングするステップとを含み得る。

前記個別入力は正規化された個別入力であり、前記個別バッチパラメータはバッチ正規化パラメータであり得る。

前記個別バッチパラメータは、第１バッチパラメータ及び第２バッチパラメータを含み、１つ以上の中間演算それぞれに対して、前記方言音声認識モデルの１つ以上の中間演算に対する前記個別入力に前記個別バッチパラメータを適用するステップは、個別入力に前記第１バッチパラメータを乗算し、前記第２バッチパラメータを加算するステップと、前記方言音声認識モデルの前記１つ以上の中間演算に個別的に前記適用された個別バッチパラメータの個別結果をフォワーディングするステップとを含み得る。

前記方言パラメータを生成するステップは、ユーザから受信されるユーザ操作に応答して、前記ユーザ操作が指示する方言情報を前記方言入力データとして決定するステップと、前記パラメータ生成モデルに基づいて、前記決定された方言入力データから前記方言パラメータを生成するステップとを含み得る。

前記方言パラメータを生成するステップは、方言分類モデルを用いて前記音声信号から前記方言入力データを算出するステップを含み得る。

前記方言入力データを算出するステップは、前記方言分類モデルを用いて前記音声信号から前記音声信号が属する方言に関する確率データを前記方言入力データとして算出するステップを含み得る。

前記方言入力データを算出するステップは、前記方言分類モデルを用いて前記音声信号から方言情報を算出しながら、前記方言分類モデルの少なくともいずれか１つのレイヤの出力を前記方言入力データとして決定するステップを含み得る。

前記方言パラメータを生成するステップは、前記方言音声認識モデルの少なくともいずれか１つの施行されたレイヤの出力から前記方言入力データを算出するステップを含み得る。

前記方言入力データは前記音声信号であり得る。

前記パラメータ生成モデルは、前記方言パラメータを生成するために前記パラメータ生成モデルを用いる場合、方言の１つ以上の施行されたレイヤのそれぞれの少なくとも個別部分から出力された特徴データを考慮し得る。

前記方言パラメータを生成するステップは、前記パラメータ生成モデルによる１つ以上のレイヤの個別先行レイヤから出力された個別データの考慮に基づいて、前記方言音声認識モデルの１つ以上のレイヤのそれぞれに対する方言パラメータを生成するステップを含み得る。

前記方言パラメータを生成するステップは、前記方言入力データとして、前記音声信号に対して方言グループのうちいずれか１つの方言グループを指示するデータを取得するステップを含み得る。

前記方言パラメータを生成するステップは、新しい方言入力データが他のユーザに対して生成されるまで、後続して取得された音声信号の認識における使用に対して、以前に適用されて生成された方言パラメータを用いて以前の音声認識モデルによって以前の音声認識に対して以前に生成された方言パラメータを保持するステップを含み得る。

前記方言パラメータを生成するステップは、現在ユーザの方言グループと以前ユーザの方言グループとが異なるという決定に応答して、前記現在ユーザに対して新しい方言入力データを前記方言入力データとして取得するステップを含み得る。

前記方言音声認識モデルを施行するステップは、前記音声信号の認識の結果を音素単位として算出するステップを含み得る。

前記音声信号及び前記音声信号に対応する方言入力データに基づいて、前記パラメータ生成モデルを再トレーニングするステップをさらに含み得る。

前記音声信号に対応する前記方言入力データ及び前記生成された方言パラメータをメモリに格納するステップと、後続音声の実行された認識で、前記方言入力データが前記格納された方言データにマッチングするものと決定されたとき、前記後続音声に対する前記方言パラメータの生成をパス（ｐａｓｓ）し、前記後続音声に対する前記方言音声認識モデルを施行することによって、前記格納された方言入力データに前記後続音声に対する方言分類モデルによって生成された方言データがマッチングするかの決定に基づいて、前記後続音声に対する前記方言パラメータを生成することを選択的に施行するステップと、前記後続音声に対する音声認識の結果を生成する前記方言音声認識モデルを施行するステップとを含み得る。

ユーザの言語を識別し、前記識別された言語に対応するトレーニングされた音声認識モデルを、メモリに格納された複数の個別の他の言語トレーニングされた音声認識モデルの中から選択するステップをさらに含み、前記方言パラメータを適用するステップは、前記方言音声認識モデルを生成するために前記選択されたトレーニングされた音声認識モデルに前記方言パラメータを適用するステップを含み得る。

前記方言パラメータを生成するステップは、前記音声信号を取得するごとに、前記方言パラメータを動的に生成するステップを含み得る。

前記音声認識の結果を生成するステップは、前記音声信号を正規化することによって正規化されたデータを取得するステップと、前記音声認識の結果を生成するために前記正規化されたデータに対する前記方言音声認識モデルを施行するステップとを含み得る。

音声を認識する装置において、パラメータ生成モデル、トレーニングされた音声認識モデル、及び命令を格納した１つ以上のメモリと、取得された音声信号に対する方言パラメータを、前記パラメータ生成モデルを用いて方言入力データから生成し、方言音声認識モデルを生成するために前記トレーニングされた音声認識モデルに前記生成された方言パラメータを適用し、前記音声信号に対する音声認識の結果を生成する前記方言音声認識モデルの音声認識の結果を前記音声信号に対する施行を介して生成するプロセッサとを含む。

前記プロセッサは、前記トレーニングされた音声認識モデルの１つ以上のレイヤのそれぞれの少なくとも個別部分に、前記パラメータ生成モデルを用いて生成された前記方言パラメータ又は個別方言パラメータを適用するように構成され得る。

前記トレーニングされた音声認識モデルは、少なくとも前記１つ以上のレイヤを有するニューラルネットワークモデルであり、前記１つ以上のレイヤのそれぞれは、個別加重された連結に沿って１つ以上の階層的に以前レイヤノード及び／又は１つ以上の臨時に以前ノードに接続された少なくともいずれか１つのノードを含み、前記方言パラメータ又は前記個別方言パラメータを適用することは、接続加重を挿入すること、又は、前記個別加重された接続の全てよりも少ない、前記１つ以上のレイヤのそれぞれで個別接続加重値を設定、代替、又は、変更することを含み得る。

前記トレーニングされた音声認識モデルは、少なくとも１つ以上のレイヤを有するニューラルネットワークであり、前記１つ以上のレイヤのそれぞれは、個別加重された接続により１つ以上の階層的に以前レイヤノード及び／又は１つ以上の臨時に以前ノードに接続された少なくともいずれか１つのノードを含み、前記方言パラメータを適用することは、前記方言音声認識モデルの施行の間に前記方言音声認識モデルの１つ以上の隠れレイヤの個別出力に、前記パラメータ生成モデルによって生成された前記方言パラメータとして、又は個別方言パラメータとして個別スケール行列を適用することを含み得る。

前記方言パラメータは個別バッチパラメータを含み、前記方言パラメータを適用することは、前記方言音声認識モデルの１つ以上の中間演算に対する個別入力に前記個別バッチパラメータを適用することを含み、入力は、前記方言音声認識モデルの入力演算又は前記方言音声認識モデルの以前の１つ以上の中間演算からの演算であり得る。

前記トレーニングされた音声認識モデルは、少なくとも前記１つ以上のレイヤを有するニューラルネットワークであり、前記１つ以上のレイヤのそれぞれは、個別加重された接続により１つ以上の階層的に以前レイヤノード及び／又は１つ以上の臨時に以前ノードに接続される少なくともいずれか１つのノードを含み、
前記個別バッチパラメータを前記個別入力に適用することは、前記方言音声認識モデルの１つ以上の隠れレイヤに対する個別入力に前記個別バッチパラメータを適用することを含み得る。

前記個別バッチパラメータは、第１バッチパラメータ及び第２バッチパラメータを含み、前記方言音声認識モデルの前記１つ以上の隠れレイヤに対する前記個別入力に前記個別バッチパラメータを適用することは、前記１つ以上の隠れレイヤのそれぞれに対して、個別入力に前記第１バッチパラメータを乗算し、前記第２バッチパラメータを加算し、前記１つ以上の隠れレイヤに前記適用された個別バッチパラメータの個別結果を個別的にフォワーディングすることを含み得る。

前記個別入力は正規化された個別入力であり、前記個別バッチパラメータは、バッチ正規化パラメータであり得る。

前記プロセッサは、ユーザから受信されるユーザ操作が指示する方言情報を前記方言入力データとして決定し、前記パラメータ生成モデルに基づいて前記決定された方言入力データから前記方言パラメータを生成し得る。

前記プロセッサは、方言分類モデルを用いて前記音声信号から前記方言入力データを算出し得る。

前記方言入力データは前記音声信号であり得る。

前記トレーニングされた音声認識モデルに前記生成された方言パラメータを適用することと、前記音声認識の結果を生成することは、前記プロセッサによって同時に行われ、前記プロセッサは、前記方言音声認識モデルの１つ以上のレイヤの個別先行レイヤから出力される個別データの、前記パラメータ生成モデルによる考慮に基づいて前記トレーニングされた音声認識モデルの１つ以上のレイヤのそれぞれに対する方言パラメータを生成するように構成され得る。

前記生成された方言パラメータを前記トレーニングされた音声認識モデルに適用することと、前記音声認識の結果の生成は、前記プロセッサによって同時に行われ、前記プロセッサは、前記方言音声認識モデルの１つ以上のレイヤの個別先行レイヤから出力された個別データの、前記パラメータ生成モデルによる考慮に基づいて前記トレーニングされた音声認識モデルの１つ以上のレイヤのそれぞれに対する方言パラメータを生成するように構成され得る。

マイクロホンをさらに含み、前記プロセッサは、前記音声信号を取得するために前記音声信号をキャプチャーするマイクロホンを制御するようにさらに構成され得る。

音声認識装置において、パラメータ生成モデル、方言分類モデル、トレーニングされた音声認識モデル、及び命令を格納した１つ以上のメモリを含み、前記トレーニングされた音声認識モデルは、少なくとも１つ以上のレイヤを有するニューラルネットワークであり、前記１つ以上のレイヤのそれぞれは、個別加重された接続により１つ以上の階層的に以前レイヤノード及び／又は１つ以上の臨時に以前ノードに接続される少なくともいずれか１つのノードを含み得る。

一実施形態に係る音声認識装置は、複合的な方言を駆使するユーザに対しても、当該ユーザが使用する方言に最適化された新しい音声認識モデルを生成することによって、該当音声認識モデルを用いて正確な音声認識の結果を提供することができる。

一実施形態に係る音声認識システムの例示を説明する図である。一実施形態に係る音声認識モデルを説明する図である。一実施形態に係る音声認識方法を説明するフローチャートである。図３に示された音声認識方法を行うために用いられる音声認識モデル及びパラメータ生成モデルを説明する図である。他の一実施形態に係る音声認識方法を説明するフローチャートである。図５に示された音声認識方法を行うために用いられる音声認識モデル、パラメータ生成モデル、及び方言分類モデルを説明する図である。一実施形態に係るパラメータ生成モデルで提供される方言入力データを説明する図である。一実施形態に係るパラメータ生成モデルで提供される方言入力データを説明する図である。一実施形態に係るパラメータ生成モデルで提供される方言入力データを説明する図である。一実施形態に係る音声認識装置の構成に関するブロック図である。一実施形態に係るメモリに格納された音声認識モデル、パラメータ生成モデル、及び方言分類モデルを説明する図である。一実施形態に係る音声認識モデルをトレーニングする方法を説明するフローチャートである。一実施形態に係る音声認識モデルをトレーニングする装置の構成を示すブロック図である。

下記で説明する実施形態は様々な変更が加えられることができる。特許請求の範囲がこのような実施形態によって制限されることも限定されることもない。各図面に提示された同じ参照符号は同じ部材を示す。

本明細書で開示されている特定の構造的又は機能的な説明は単に実施形態を説明するための目的として例示されたものであり、実施形態は様々な異なる形態で実施され、本明細書に説明された実施形態に限定されることはない。

本明細書で用いた用語は、単に特定の実施形態を説明するために用いられるものであって、本発明を限定しようとする意図はない。単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、１つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。

異なる定義がされない限り、技術的であるか又は科学的な用語を含む本明細書で用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。

また、添付図面を参照して説明することにおいて、図面符号に関係なく同じ構成要素は同じ参照符号を付与し、これに対する重複する説明は省略する。実施形態の説明において関連する公知技術に対する具体的な説明が実施形態の要旨を不要に曖昧にすると判断される場合、その詳細な説明は省略する。

図１は、一実施形態により個人化された音声認識システムの例示を説明する図である。

音声認識システムは、１つ以上の音声認識装置及び１つ以上の音声認識サーバ１３０を含む。

１つ以上の音声認識装置は、マイクロホン（ｍｉｃｒｏｐｈｏｎｅ）を用いて、周辺の音を収集してアナログの音信号を生成し、収集された周辺の音信号をアナログ−デジタル変換（ＡＤＣ、ａｎａｌｏｇｔｏｄｉｇｉｔａｌｃｏｎｖｅｒｓｉｏｎ）及びパーシングを介して、それから対応デジタル音声信号を取得する装置を示す。例えば、音声認識装置は、人が話す音（ｓｏｕｎｄ）を周辺音として収集する。音声認識装置は、周辺の音から当該装置を所有するユーザの音声（ｖｏｉｃｅ）を区別することができる。デジタル音声信号の生成において、例えば、収集された音声に対して、音声認識装置は、オーディオ情報を順序化されたオーディオ情報又はフレームに組織するだけではなく、形態素、音素、単語、及び／又は文章単位のような順序化された音声情報として組織するように構成されている。

音声認識装置は、個別ユーザによって所有される電子装置であってもよく、例えば、スマートフォン、スマートパッド、スマートバンドなどのウェアラブルデバイス、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｃｅ）、ラップトップなどを含む。異なる例として、音声認識装置は、複数のユーザによって共有される電子装置であってもよく、例えば、音声認識スピーカ１０３、音声認識ＴＶ１０４などを含む。ここで、音声認識スピーカ１０３又はＴＶ１０４は、複数のユーザによって共有又は使用され得るものとして指示され、スマートフォン、スマートパッド、ウェアラブル装置、ＰＤＡ、及びラップトップは単一ユーザ又は個人によって駆動又は所有されるものとして指示される。音声認識スピーカ１０３又はＴＶ１０４は、また、単一又は個別ユーザによって駆動又は所有され、スマートフォン、スマートパッド、ウェアラブル装置、ＰＤＡ、及びラップトップは、複数のユーザによって共有又は使用されてもよい。

音声認識システムは、ユーザの音声を認識することができる。本明細書において、音声認識（ｖｏｉｃｅｒｅｃｏｇｎｉｔｉｏｎ）は、音信号に含まれるユーザの音声を区別し、ユーザの音声を言葉（ｌａｎｇｕａｇｅ）に変換する動作を示す。例えば、音声認識は、ユーザの音声を文字に変換する動作を示す。

音声認識サーバ１３０は、音声信号を認識し、音声信号に対応するテキストデータを生成する。音声認識サーバ１３０は、音声認識装置からユーザの音声信号を、例えば、アナログ又はデジタル波形に受信し、受信された音声信号に基づいて音声信号に対応するテキストデータを、以下に説明する音声認識を行うことによって生成することができる。音声認識サーバ１３０は、音声信号から変換されたテキストデータを音声認識装置に伝達する。音声認識サーバ１３０によって生成されたテキストデータは、音声認識装置のユーザに提供される様々なサービスに活用され得る。

例えば、図１において、第１端末１０１は、第１ユーザ１１１によって個人化された電子装置を示し、第２端末１０２は、第２ユーザ１１２によって個人化された電子装置を示す。第１端末１０１及び第２端末１０２は、スマートフォンであってもよい。第１端末１０１は、第１ユーザ１１１から第２ユーザ１１２に対応する第２端末１０２に電話をかけるという命令を指示する音声信号を収集する。音声認識サーバ１３０は、第１ユーザ１１１の命令を指示する音声信号を第１端末１０１から受信する。音声認識サーバ１３０は、音声信号から第１ユーザ１１１の命令に対応するテキストデータを取得する。音声認識サーバ１３０は、取得されたテキストデータを第１端末１０１に伝達する。第１端末１０１は、第１ユーザ１１１の音声から認識されたテキストデータの受信に応答して、第１端末１０１は、受信されたテキストデータを分析して第２ユーザ１１２に電話をかけるという命令語を認識し、通話アプリケーションを実行して第２ユーザ１１２に電話をかけるよう通話アプリケーションを制御することができる。

異なる例として、音声認識装置、例えば、第１端末１０１によって受信されたテキストデータの分析は、例示の電話の他に、認識された音声信号が、１つ以上の他の命令を含むものと決定することにつながる。音声認識サーバ１３０によって認識されたテキストデータは、当該装置のユーザのスケジュールを生成してスケジュール又はスケジューリングイベントを生成するためのスケジューリング命令語を含み、ウェブサービスのデータを検索して質問を発行し、データを検索するように進むためのインターネット検索質問命令語を含み、テキストメッセージの受信及び／又はコンテンツとテキストメッセージの下書きを作成したり、送信するように行う命令語、又は、音声認識装置に格納された情報の検索又はアクセスを実施し、音声認識装置のユーザに音声認識装置に格納された検索されたデータを検索して提供するように行う命令語を含む。

テキストデータを用いてウェブサービスのデータを検索したり、テキストデータを用いて文字メッセージを送信したり、テキストデータを用いて当該装置に格納されたデータを検索するサービスを提供する。

ただし、音声認識装置及び音声認識サーバ１３０の動作が上述したものに限定されることはない。音声認識装置が音声信号を収集し、それ自体で該当音声信号を認識するために、収集された音声信号の音声認識を行ってもよく、認識された音声を認識するために、例えば、例示的な命令語又は質問を認識するために、分析結果に基づいて追加動作を行ってもよい。さらに、上述した例示は、音声認識サーバ１３０が、認識されたテキストデータを第１端末１０１に送信又はフォワーディングするものを扱っており、音声認識サーバ１３０は、認識されたテキストデータを第１端末１０１と、第１端末１０１にテキストデータを送信又はフォワーディングしない１つ以上の例示的な他の端末１０２，１０３，１０４に送信又はフォワーディングすることができる。音声認識サーバ１３０は、代案的にテキストデータを送信又はフォワーディングすることに加えて、テキストデータを分析して同じ動作を行ってもよい。音声認識サーバ１３０及び様々な例示的な音声認識装置は、収集された音声情報の音声認識を行うようにそれぞれ構成されている。また、共通音声認識モデルは、任意のこのような装置によって実施され、個別装置は、方言により個別化され得る追加的音声認識モデルを選択的かつ代案的に格納して選択的に実施することができる。例えば、個別追加的な音声認識モデルは、他の特定方言のために具体的にトレーニングされた他の追加的な音声認識モデルに比べて、具体的に特定方言のためにトレーニングされることができる。

また、１つ以上の言語のそれぞれに対して、このような装置は、代案的に、例えば、共通又は多重方言トレーニングされた音声認識モデルトレーニングに基づいた音声認識モデルを格納し、特定方言又は該当言語の認識された方言のために最適化された方言パラメータに基づいて音声認識モデルを選択的に変更し、その後、変更された音声認識モデルを用いて音声信号の認識を行うことができる。したがって、このような例示において、音声認識サーバ１３０は、例えば、それぞれ異なる方言のためにトレーニングされる多重音声認識モデルを格納するための多くの資源を有し、例示的な音声認識装置は少ない資源を有し、音声認識装置の特定ユーザの方言は、トレーニングされた既存の音声認識モデルが個別的にトレーニングされた方言と同様に対応しない場合もある。したがって、音声認識は、基本又は共通の音声認識モデルを利用し、その後基本又は共通の音声認識モデルを音声認識装置の話者の方言のための音声認識装置によって選択的に変形し、例示的に、他の方言のためにトレーニングされた音声認識モデルの全てを格納する必要がなく、音声認識装置により優れた方言の正確度で依然として実行されることができる。

図２は、一実施形態に係る音声認識モデルを説明する図である。

図１を参照して説明した音声認識システムは、音声認識モデル２２０を用いることができる。音声認識モデル２２０は、音声信号の認識としてテキストデータを出力するよう、音声信号の機械認識を行うように構成されている。上述したように、音声信号はアナログ波形を示し、これはデジタル波形に変換され、いくつかの例示では、音声認識モデル２２０に作用又は適用され、提供される前にデジタル波形に対する特徴データに変換されてもよい。音声信号は、音声認識モデル２２０として作用、適用、提供される例示的な音声シーケンスフォーマット（ｓｐｅｅｃｈｓｅｑｕｅｎｃｅｆｏｒｍａｔ）の特徴データを示すことができる。したがって、説明の便宜のために、本明細書で音声信号という用語は、このようなキャプチャーされたオーディオに収集後処理（ｐｏｓｔ−ｃｏｌｌｅｃｔｉｏｎｐｒｏｃｅｓｓｉｎｇ）が行われ、窮極的に音声認識モデルへの適用、提供、入力のための例示的な音声シーケンス形態の例示的な特徴データに対応するものと説明される。上述したように、音声認識装置は、キャプチャーされた音声の収集後処理を行って、それ自体で音声認識モデル２２０を実施してもよく、あるいは音声認識装置は、収集後処理を全く行わないか一部のみを行って、音声認識サーバが、残りの収集後処理をキャプチャーされた音声に対して行って、対応する音声情報を音声認識モデル２２０により予測される形態に生成して音声認識モデル２２０を実施してもよい。音声認識モデル２２０は、音響モデル及び言語モデルを含む。音声認識サーバが音声認識モデル２２０を格納し、音声認識サーバが音声信号から音声認識モデル２２０に基づいてテキストデータを生成する実施形態について説明する。例えば、音声認識装置が音声信号又は音声信号から変換された特徴データを音声認識サーバに伝達し、音声認識サーバは伝達された情報を用いて音声認識を行ってもよい。ただし、これに限定されることなく、音声認識装置がそれ自体に音声認識モデル２２０を格納し、格納された音声認識モデル２２０を用いてユーザの音声を認識してもよい。

音響モデルは、音声信号から抽出された特徴から音声信号を音素（ｐｈｏｎｅｍｅ）単位として認識するモデルを示す。例えば、音声認識システムは、音響モデルによって取得された音声信号を音素単位として認識した結果に基づいて、音声信号が示す単語を推定する。

言語モデルは、単語間の連結関係に基づいた確率情報を取得するように設計されたモデルを示す。言語モデルは、言語モデルに入力された単語に連結される次の単語に対する確率情報を提供する。例えば、言語モデルに「ｔｈｉｓ」の単語が入力される場合、言語モデルは「ｔｈｉｓ」の次に「ｉｓ」又は「ｗａｓ」が連結される確率情報を提供する。一実施形態によれば、音声認識システムは、言語モデルによって提供された確率情報に基づいて、最も確率の高い単語間の連結関係を選択し、選択結果を音声認識の結果として出力する。例えば、音響モデルと言語モデルのそれぞれが個別トレーニングデータを用いて個別ディープランニングを介してトレーニングされることができ、及び／又は、総括的に異なる又は追加ディープランニングを介してトレーニングされることができる。

以下、音声認識モデル２２０のうち音響モデルに関する動作について主に説明する。一実施形態に係る音響モデルは、ニューラルネットワーク、例えば、ＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）、又はＢＬＳＴＭ（ＢｉｄｉｒｅｃｔｉｏｎａｌＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）などのように様々な構造で実現される。音響モデルが実現され得る機械学習構造は上述したものに限定されることなく、１つ以上の構造が結合される形態で実現され得る。ニューラルネットワークは、複数の人工ノードを用いて複雑な演算を行うハードウェア又はハードウェア及びソフトウェアの結合により具現された認識モデルを示す。ニューラルネットワークは、人工ノードを介して認識動作や学習過程を行う。

一実施形態に係るニューラルネットワークは、複数のレイヤを含む。例えば、ニューラルネットワークは、入力レイヤ、１つ以上の隠れレイヤ２２１及び出力レイヤを含む。入力レイヤは、入力データを受信して隠れレイヤ２２１に伝達し、出力レイヤは、隠れレイヤ２２１のノードから受信された信号に基づいて出力データを生成する。

１つ以上の隠れレイヤ２２１が入力レイヤ及び出力レイヤの間に接続される音声認識システムは、隠れレイヤ２２１を介して入力データを予測しやすい値に変換する。入力レイヤ及び１つ以上の隠れレイヤ２２１に含まれるノードは、接続加重値を有する連結線を介して接続され、隠れレイヤ２２１及び出力レイヤに含まれるノードも接続加重値を有する連結線を介して、階層的に最終の隠れレイヤ２２１及びそれぞれがトレーニングされた接続加重値を有する対応連結線を介して接続された出力レイヤに含まれたノードの例示を介して互いに接続される。隠れレイヤ２２１の各ノード及び出力レイヤは、例えば、対応するトレーニングされた接続加重値により加重された階層的に以前のレイヤのノードの入力又は活性化から、例えば、対応するノードでの結果加重活性化入力に活性化関数を行ってもよい。ニューラルネットワークのうち、複数の隠れレイヤ２２１を含むニューラルネットワークを、ディープニューラルネットワーク（ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ）という。ディープニューラルネットワークを学習させることをディープランニングという。トレーニングは、ニューラルネットワークが動作するまで予め決定された成功又は的中率の閾値又は最小誤差率の閾値に達するまで、例えば、調整された接続加重値を有するイントレーニング（ｉｎ−ｔｒａｉｎｉｎｇ）ニューラルネットワークの繰り返しの実施に基づいた接続加重値のトレーニングを含む。ニューラルネットワークのノードのうち、隠れレイヤ２２１に含まれるノードを隠れノード２２９という。

入力レイヤ、１つ以上の隠れレイヤ２２１、及び出力レイヤは、複数のノードを含む。隠れレイヤ２２１は、ＣＮＮ（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ：畳み込みニューラルネットワーク）における畳み込みフィルタ又は完全接続レイヤであるか、特別な機能や特徴を基準としてグルーピングされた様々な種類のフィルタ又はレイヤであり得る。

音響モデルは、例えば、ＲＮＮ（ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ：再帰型ニューラルネットワーク）で実現される。ＲＮＮは、以前のフレームの隠れレイヤ２２１の出力値が、現在のフレームの隠れレイヤ２２１に再び入力されるネットワークを示す。同じ隠れレイヤ２２１への接続又は同じ隠れレイヤ２２１の同じノードは、循環的接続として示し、これは、トレーニングされた加重値に依存する加重された接続と類似する。ＲＮＮは、以前の出力が新しい出力の算出結果に影響を与えることがある。

一実施形態に係る音声認識システムは、音声シーケンス２０１を複数のフレームに分割し、分割されたフレームに対応する発音を予測する。音声認識システムは、音響モデルを用いて音声認識を行い、音響モデルは、入力レイヤ、隠れレイヤ２２１、及び出力レイヤを含む。出力レイヤは、入力レイヤに入力されたフレーム２１０に対して予測された発音結果２３０を出力する。例えば、音声認識装置又は音声認識サーバは、各隠れレイヤ２２１に、以前の隠れレイヤに含まれた以前の隠れノード２２９の出力を、接続加重値を有する連結線を介して入力し、以前の隠れノード２２９の出力に接続加重値が適用された値及び活性化関数に基づいて、隠れレイヤ２２１に含まれた隠れノード２２９の出力を生成する。音声認識モデル２２を実施するように構成される音声認識装置のプロセッサは、ニューロモーフィックプロセッサであってもよい。一実施形態によれば、次の隠れノードに出力を発火（ｆｉｒｅ）するために、活性化関数の結果は現在隠れノードの閾値を超過しなければならない。この場合、ノードは、入力ベクトルを介して特定の閾値活性化強度に達する前には次のノードに信号を発火せず、不活性化状態を保持する。音声認識装置による音声認識モデル２２０のトレーニングは、ニューロモーフィックプロセッサ又は他のプロセッサを実施することができる。

出力レイヤは、ソフトマックスレイヤ（ｓｏｆｔｍａｘｌａｙｅｒ）であってもよい。一実施形態によれば、出力レイヤは、全体発音の数と同じ個数のノードを含む。出力レイヤの各ノードは、入力されたフレーム２１０が特定発音である確率を示す。

以下では、音声認識動作について説明する。音声認識は、音声認識サーバ又は音声認識装置で実行される。

図３は、一実施形態に係る音声認識方法を説明するフローチャートである。

まず、ステップＳ３１０において、音声認識装置は、パラメータ生成モデルに基づいて、方言入力データから方言パラメータを生成する。方言入力データは、パラメータ生成モデルに入力されるデータである。方言入力データは、方言に関するデータとして、ユーザが属する方言グループを指示するデータであってもよい。方言入力データは、例えば、複数の方言グループのうちユーザの言語が属する１つの方言グループを指示するデータであってもよい。異なる例として、方言入力データは、ユーザが使用する言語が任意の方言グループに属する確率を示す確率データであってもよい。最も高い確率指示は、当該方言グループが、ユーザが最も属していそうな方言グループであることを示す。ただし、方言入力データがこれに限定されることはない。

方言グループは、同じ言語内で地域、人種、及び文化などにより示される方言を分類するためのグループを示す。例えば、言語が英語である場合、方言グループは、例えば、ネイティブスピーカ英語（ｎａｔｉｖｅＥｎｇｌｉｓｈ）グループ、米国英語グループ、英国英語グループ、フィリピン英語グループ、インド英語グループ、韓国式英語グループ、米国西部英語グループ、米国中部英語グループ、及び米国東部英語グループなどを含んでもよい。ただし、方言グループがこれに限定されることはない。言語ごとに示される方言特性（ｄｉａｌｅｃｔｃｈａｒａｃｔｅｒｉｓｔｉｃ）によって方言グループが分類される。

方言パラメータは、パラメータ生成モデルによって生成されたパラメータである。方言パラメータは、例えば、任意の方言が有する言語的特性を示すパラメータとして、音声認識モデルに適用される。方言パラメータは、音声認識モデルに適用されるパラメータとして、例えば、音声認識モデルの少なくともいずれか１つのレイヤの入力及び出力などを変形（ｍｏｄｕｌａｔｅ）したり、スケーリングしたりするために使用される。方言パラメータは、例えば、バッチ正規化（ＢＮ：ｂａｔｃｈｎｏｒｍａｌｉｚａｔｉｏｎ）のパラメータ（例えば、γ、βのようなパラメータ）や、ＬＨＵＣ（ＬｅａｒｎｉｎｇＨｉｄｄｅｎＵｎｉｔＣｏｎｔｒｉｂｕｔｉｏｎｓ）のように活性化の後ノード値をスケーリングするパラメータであってもよい。スケール行列の次元は、抽象化されたパラメータがベクトルフォーマットになるよう、ｍ×１であるか、抽象化されたパラメータが行列形態になるようにスケール行列はｍ×ｎである。生成された抽象化方言パラメータは、追加的な次元を有し、代案的な形態を有してもよい。バッチパラメータの例示で、複数の個別方言パラメータのそれぞれは、例えば、γ及びβのようなバッチ正規化パラメータを含む。同一又は相違の抽象化方言パラメータフォーマットが、例えば、１つ以上の施行されたパラメータ生成モデルにより１つ以上又は全ての異なるレイヤに適用について生成されてもよい。

本明細書において、パラメータ生成モデルは、方言入力データから方言パラメータを出力するモデルとして、例えば、ニューラルネットワークであってもよい。パラメータ生成モデルは複数のレイヤを含む。パラメータ生成モデルの出力が音声認識モデルの少なくともいずれか１つのレイヤに反映されるよう、パラメータ生成モデルと音声認識モデルが互いに連結されている。

そして、ステップＳ３２０において、音声認識装置は、音声認識モデル及びパラメータ生成モデルによって生成された方言パラメータに基づいて、音声信号から音声認識の結果を生成する。一実施形態によれば、音声認識モデルが音声信号に対して音声認識を行う間に、音声認識装置は、パラメータ生成モデルによって決定された方言パラメータを音声認識モデルの少なくとも一部のレイヤに適用する。例えば、音声認識装置による方言パラメータの適用は、話される方言により音声認識モデルを動的に変形し得る。

例えば、方言パラメータがバッチ正規化のパラメータ（以下、バッチパラメータ（ｂａｔｃｈｐａｒａｍｅｔｅｒ））である場合、音声認識装置は、音声認識モデルの少なくともいずれか１つのレイヤに対して、該当レイヤの各ノードから入力されるデータにバッチパラメータを適用する。音声認識装置は、バッチパラメータを用いて音声認識モデルで隠れレイヤのノード入力（例えば、正規化された入力）を変更することによって、当該の隠れレイヤに対する新しいノード入力を生成する。例えば、音声認識装置は、第１バッチパラメータγを正規化された入力に乗算（ｍｕｌｔｉｐｌｙ）し、第２バッチパラメータβを加算する（ａｄｄ）ことで、新しいノード入力を生成することができる。音声認識装置は、新しいノード入力を当該隠れレイヤの活性化関数に入力することによって、当該隠れレイヤの出力を算出する。参考として、上述した構造は、バッチ正規化レイヤが隠れレイヤの以前に連結された構造に実現されてもよい。任意の隠れレイヤ以前に連結されるバッチ正規化レイヤは、当該隠れレイヤの各ノードに提供される入力を変更するためのバッチパラメータを含む。この場合、パラメータ生成モデルの出力レイヤは、上述したバッチ正規化レイヤであってもよく、該当のバッチ正規化レイヤは、音声認識モデルに統合される。例えば、パラメータ生成モデルのこのような出力レイヤ（又は、出力レイヤの次のバッチ正規化レイヤ）は、次の隠れレイヤの入力のために、以前の隠れレイヤから出力された入力データが入力され、パラメータ生成モデルによって決定されるバッチパラメータに基づいて入力データのバッチ正規化を行うことができる。

バッチ正規化レイヤは、バッチ正規化レイヤのそれぞれの個別出力がそれに対応する隠れレイヤに連結されるよう、例えば、音声認識モデルの隠れレイヤの個数だけ、例えば、音声認識モデル内又はパラメータ生成モデルの個別出力レイヤ（又は、出力レイヤの次に）として含まれてもよい。ただし、これに限定されることなく、バッチ正規化レイヤは、一部の隠れレイヤにのみ連結されてもよい。バッチ正規化レイヤのバッチ正規化は、パラメータ生成モデルによって出力されるバッチパラメータ又は他の方言パラメータにより動的に変わり得る。

また、方言パラメータの適用が上述のように限定されることなく、設計に応じて変わり得る。例えば、方言パラメータがスケール行列である場合、音声認識装置は、音声認識モデルの少なくともいずれか１つの隠れレイヤの出力に、要素演算（例えば、行列の積）を介してスケール行列を適用することができる。音声認識装置は、パラメータ生成モデルによる隠れレイヤのそれぞれにスケール行列を適用することでスケール行列を適用し得るが、これに限定されることはない。音声認識装置は、音声認識モデルの一部のレイヤについてのみスケール行列を算出してもよい。

音声認識装置は、変形された音声認識モデル、例えば、方言パラメータ又は個別方言パラメータをこのような隠れレイヤに対するデータ入力及び／又はデータ出力に対して音声認識モデルの１つ以上の隠れレイヤの前及び／又は後に適用することで、変形された音声認識モデルに基づいて、音声信号から音声認識の結果を生成することができる。音声認識装置は、音声信号を正規化することによって正規化されたデータを取得し、方言パラメータが適用された音声認識モデルに基づいて、正規化されたデータから音声認識の結果を生成する。例えば、音声認識装置は、方言パラメータが適用された音声認識モデルに基づいて、音声信号を音素単位として認識した結果を算出する。代案的に、又は、追加的に、音声認識装置は、下記で後述するように、予め決定されたパラメータ、例えば、生成された方言パラメータに基づいて音声認識モデルの接続加重値を変更することで、音声認識モデルの変更を施行するように構成され得る。

パラメータ生成モデル及び音声認識モデルは共にトレーニングされる。パラメータ生成モデル及び音声認識モデルのトレーニングは、下記の図１１及び図１２を参照して説明することにする。

図４は、図３に示された音声認識方法を行うために用いられる音声認識モデル及びパラメータ生成モデルを説明する図である。

音声認識モデル４１０は、複数のレイヤ４１１，４１２，４１３を含む。複数のレイヤ４１１，４１２，４１３は、例えば、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ−ＴｅｒｍＭｅｍｏｒｙ：長短期メモリ）構造であってもよいが、これに限定されることはない。音声認識モデル４１０は、音声信号４０１から認識結果４０９を出力するように構成されたモデルであり得る。パラメータ生成モデル４２０は、複数のレイヤ４２１，４２２を含む。パラメータ生成モデル４２０は、方言入力データ４０２から方言パラメータを出力するように構成されたモデルであってもよい。図４は、パラメータ生成モデル４２０の出力レイヤが音声認識モデル４１０の複数のレイヤ４１１，４１２，４１３のそれぞれに統合された構造を示す。音声認識モデル４１０及びパラメータ生成モデル４２０は、図３に示す音声認識モデル及びパラメータ生成モデルであってもよいが、これに限定されることはない。

一実施形態に係る音声認識装置は、ユーザ操作に基づいて方言入力データ４０２を決定する。例えば、音声認識装置は、ユーザから受信されるユーザ操作に応答して、ユーザ操作が指示する方言情報を方言入力データとして決定する。方言情報は、ユーザ操作に対して複数の方言グループから決定されるか、指定された方言グループを指示する情報である。

音声認識装置は、パラメータ生成モデル４２０から算出された方言パラメータを音声認識モデル４１０に可変的に適用することで、音声認識モデル４１０を可変的に変形する。例えば、音声認識装置は、決定された方言パラメータに基づいて、このように変形された音声認識モデル４１０を用いて音声信号４０１から認識結果４０９を決定する。

変形された音声認識モデル４１０の各レイヤは、例えば、他の方言又は方言グループに対する決定された方言パラメータ又は方言パラメータに基づいて、選択的及び動的に変化する個別方言パラメータ及び多重方言を含む言語特徴の抽出に対してトレーニングされ、これにより言語の共通特徴が少なくとも抽出された共通パラメータを含むことができる。レイヤの一部は、方言に対する特徴を抽出するためのパラメータ（例えば、方言パラメータ）を含み、残りの部分は、言語に対する共通特徴を抽出するための共通パラメータを含む。方言パラメータは、各ユーザの言語が属する方言により動的に生成される。共通パラメータは、複数の方言グループのそれぞれが共通的に有する特徴がトレーニングされたパラメータである。図４において、方言パラメータが各レイヤの中間に適用され、各レイヤの残りの部分が共通パラメータを含むものと示したが、これに限定されることはない。方言パラメータは、各レイヤの入力側に適用されてもよい。この例示で、図４に示された個別レイヤは、それぞれノード及び接続の間の複数のレイヤを示す。したがって、方言パラメータの示されたレイヤの中間に対する適用は、示されたレイヤの内部レイヤから活性化値に適用される接続加重値を動的に設定することに対応し、示されたレイヤの入力側に対する方言パラメータの適用は、音声認識モデルの以前示したレイヤから活性化値に適用される接続加重値を動的に設定することに対応する。また、例えば、音声認識モデルの共通パラメータ施行のみが隠れレイヤの例示的な認識結果４０９に近いほど方言の依存性を反映し、これにより、方言パラメータが最上位レイヤに適用される一方、方言パラメータが最下位レイヤには適用されないか、上位又は最上位レイヤまでの全ての下位レイヤに対して適用されないこともある。例えば、個別方言パラメータは、レイヤ４１３にのみ適用され、レイヤ４１２，４１１には適用されないか、レイヤ４１３，４１２にのみ適用され、レイヤ４１１には適用されなくてもよい。

本明細書において、音声認識モデル４１０がニューラルネットワークの実現でレイヤから構成された構造について主に説明したが、これに限定されることはない。音声認識モデル４１０はベクトルを含んでもよい。

図５は、他の一実施形態に係る音声認識方法を説明するフローチャートである。

まず、ステップＳ５０１において、音声認識装置は音声信号を取得する。例えば、音声認識装置は、音声認識装置に有線又は無線で接続されるか、音声認識装置のマイクロホンを介して音声信号を取得する。

一実施形態に係る音声認識装置は、方言分類モデルに基づいて音声信号から方言入力データを算出する。方言分類モデルは、音声信号から方言入力データを出力するように構成されたモデルを示す。

例えば、ステップＳ５１１において、音声認識装置は、方言分類モデルを用いて音声特徴を抽出する。例えば、音声認識装置は、方言分類モデルの一部のレイヤ、例えば、方言分類レイヤの１つ以上の第１レイヤに基づいて音声信号から音声特徴を抽出する。

次に、ステップＳ５１２において、音声認識装置は、方言グループを予測する。例えば、音声認識装置は、方言分類モデルの残りのレイヤに基づいて、音声特徴から方言入力データを予測する。図５を参照して説明された例示において、方言入力データは、複数の方言グループのうち該当音声信号が属する方言グループを指示するデータであってもよいが、これに限定されることはない。

一実施形態によれば、音声認識装置は、方言分類モデルに基づいて、音声信号から、該音声信号が属する方言に関する確率、又は確率的データを方言入力データとして算出及び出力してもよい。任意のユーザから音声信号が取得される場合に応答して、音声認識装置は、取得された音声信号が有する方言特徴を指示する方言入力データを生成する。ここで、生成された方言入力データは、個別ユーザが固有に有する方言特性を指示するデータであり得る。上述したように、方言入力データが上述した確率データである場合、該当方言入力データは、ユーザの言語が複数の方言グループそれぞれに属する確率を示す。ユーザの言語は、複数の方言グループの特性が混合して示されてもよく、このような確率的な方言入力データは、ユーザの言語で各方言グループが占めている比重を示す。

例えば、任意のユーザがアメリカ人としてフランス及びフィリピンに住んでいる場合、当該ユーザの言語は、米国式英語方言の特性、フランス式英語方言の特性、及びフィリピン式英語方言の特性を示す。一実施形態に係る方言分類モデルに基づいて算出された方言入力データは、このようなユーザの言語が有する複数方言が結合された複合的な特性を示す。

そして、ステップＳ５１３において、多重グループに対するこのような確率的データとして、又は、特定方言グループを指示するデータとして、音声認識装置は、方言入力データに基づいて方言パラメータを算出する。例えば、音声認識装置は、上述したステップＳ５１２で算出された方言入力データから、パラメータ生成モデルに基づいて方言パラメータを動的に生成する。一実施形態に係る音声認識装置は、確率値で算出された確率的方言入力データを用いて、個別ユーザに最適化された方言パラメータを動的に生成することができる。したがって、音声認識装置は、パラメータ生成モデルに基づいて、ユーザの言語が有している方言グループの結合された特性を示す方言入力データから方言パラメータを算出する。方言パラメータは、現在の話者の言語で各方言グループが占めている比重を考慮するパラメータ生成モデルにより決定された現在話者の言語に内包された複合的な方言特徴が抽象化されたパラメータである。

次に、ステップＳ５２１において、音声認識装置は、音声認識モデルを変形する。例えば、音声認識装置は、多重方言を有する共通言語に基づいて音声認識モデルのトレーニングの間に設定された既存パラメータを適用、例えば、挿入、設定、代替、又は調整することで生成された方言パラメータを音声認識モデルに反映し、ユーザに特化した新しい音声認識モデルを生成することができる。新しい音声認識モデルの少なくとも一部のレイヤは、例えば、挿入及び／又は調整として、動的に生成される方言パラメータが反映された部分を含む。ここで、新しい音声認識モデルを生成するための音声認識モデルに対する方言パラメータの適用は、特定方言又は方言分類のために音声認識モデルの調整として考慮される。

そして、ステップＳ５２２において、音声認識装置は、音声認識の結果を算出する。例えば、音声認識装置は、方言パラメータが適用された新しい又は調整された音声認識モデルに基づいて、ステップＳ５０１で取得された音声信号から音声認識の結果を算出する。方言パラメータが適用された新しい音声認識モデルの少なくとも一部のレイヤは、上述した個別共通パラメータを含み、方言パラメータを適用又は含むことができる。

上述したように、ユーザのキャプチャーされた音声の言語の方言特性に最適化された方言パラメータにより、音声認識装置は、複合的な方言特性を有するユーザの音声信号についても正確に音声を認識することができる。また、音声認識装置は、音声信号を取得するごとに、方言パラメータを動的に生成することができる。音声認識装置は、同じユーザのトーンを相違させた音声を取得した場合であっても、当該方言に最適化した方言パラメータを動的に生成することができる。

図６は、図５に示された音声認識方法を行うために用いられる音声認識モデル、パラメータ生成モデル、及び方言分類モデルを説明する図である。

音声認識モデル４１０は、図４を参照して説明したように、複数のレイヤを含む。音声認識モデル４１０の各レイヤは、共通のパラメータだけではなく、パラメータ生成モデル４２０から生成された方言パラメータも含むことができる。音声認識装置は、パラメータ生成モデル４２０に入力される方言入力データ４０２を、方言分類モデル６３０に基づいて生成する。

方言分類モデル６３０は、ユーザの言語が有している方言特性を出力するように構成された、例えば、トレーニングされたモデルを示す。例えば、方言分類モデル６３０は、音声信号４０１から方言入力データ４０２を出力するように設計される。ここで、方言入力データ４０２は、ワンホットエンコーディング（ｏｎｅ−ｈｏｔｅｎｃｏｄｉｎｇ）方式により、複数の方言グループのいずれか１つの方言グループのみを指示するデータであってもよい。他の例として、方言入力データ４０２は、ユーザの言語で各方言グループの特性が占めている比重を指示する確率又は確率的データ又は各グループのユーザの言語の正確な方言である確率である。

ただし、これに限定されることなく、方言入力データ４０２は、任意の音声特徴であってもよい。例えば、音声認識装置は、方言分類モデル６３０に基づいて音声信号４０１から方言情報を算出しながら、方言分類モデル６３０の少なくともいずれか１つのレイヤの出力を方言入力データ４０２として決定し得る。方言分類モデル６３０の任意のレイヤの出力は、音声信号４０１が抽象化された音声特徴を指示する特徴データであってもよい。

音声認識装置は、上述したように算出された方言入力データ４０２から、パラメータ生成モデル４２０に基づいて方言パラメータを算出する。音声認識装置は、算出された方言パラメータを音声認識モデル４１０に適用する。音声認識装置は、方言パラメータが適用された音声認識モデル４１０に基づいて、音声信号４０１から認識結果４０９を生成する。音声認識モデル４１０は、生成された方言パラメータに基づいて、又は変形又は調整されたものとして、例えば、音声認識の結果４０９は、調整された音声認識モデルの施行の結果である。

図６では、方言分類モデル６３０が音声信号４０１から方言入力データ４０２を出力する構造について示したが、これに限定されることはない。例えば、音声信号４０１の代わりに、音声認識装置は、音声認識モデル４１０のレイヤによって算出又は生成された特徴データを使用し、方言入力データ４０２を生成又は算出するための特徴データを用いて、方言分類モデル６３０を実施してもよい。音声認識装置は、方言分類モデル６３０に基づいて音声認識モデル４１０の少なくともいずれか１つのレイヤの出力（例えば、特徴データ）から方言入力データ４０２を算出する。その後、音声認識装置は、パラメータ生成モデル４２０に基づいて、方言入力データ４０２から方言パラメータを生成する。

図７、図８Ａ及び図８Ｂは、一実施形態に係るパラメータ生成モデルに提供される方言入力データを説明する図である。

図７に示されたパラメータ生成モデル４２０は、方言入力データ７０２として音声信号４０１を用いる。音声認識装置は、パラメータ生成モデル４２０に基づいて、方言入力データ７０２として音声信号４０１から方言パラメータを生成する。

図８Ａに示されたパラメータ生成モデル４２０は、方言入力データ８０２として、音声認識モデル４１０の少なくとも一部のレイヤで出力された特徴データ（例えば、音声特徴）を用いる。音声認識装置は、音声認識モデル４１０の少なくとも一部のレイヤから出力された特徴データが提供されるパラメータ生成モデル４２０によって、方言パラメータを生成する。

図８Ｂに示されたパラメータ生成モデル４２０は、音声信号及び音声認識モデル４１０の各レイヤから出力された特徴データを、方言入力データ８３０として用いる。一実施形態によれば、音声認識装置は、音声認識モデル４１０で複数のレイヤのそれぞれに対する方言パラメータを、該当レイヤから入力されるデータ（例えば、方言入力データ）から、パラメータ生成モデル４２０に基づいて生成する。該当レイヤから入力されるデータは、例えば、音声認識モデル４１０の以前レイヤから出力された特徴データ又は音声信号であってもよい。

例えば、パラメータ生成モデル４２０は、音声認識モデル４１０の各レイヤに対応する複数のパラメータ生成レイヤ８２１，８２２，８２３を含む。複数のパラメータ生成レイヤ８２１，８２２，８２３のそれぞれは、音声認識モデル４１０の各レイヤと、例えば、音声認識モデル４１０の該当レイヤから入力される特徴データを受信し、個別的に音声認識モデルの該当レイヤで生成された方言パラメータを提供するよう接続されている。複数のパラメータ生成レイヤ８２１，８２２，８２３のそれぞれは、音声認識モデル４１０でそれに対応するレイヤのための方言パラメータを生成するように構成される。図８Ｂにおいて、複数のパラメータ生成レイヤ８２１，８２２，８２３の各々に入力される方言入力データ８３０は、第１方言入力８３１、第２方言入力８３２、第３方言入力８３３、及び方言情報８３９を含む。

音声認識装置は、第１パラメータ生成レイヤ８２１に基づいて、第１方言入力８３１（例えば、音声信号４０１）から第１方言パラメータを生成する。第１パラメータ生成レイヤ８２１で出力された第１方言パラメータは、音声認識モデルの第１レイヤ８１１に適用される。音声認識装置は、第２パラメータ生成レイヤ８２２に基づいて、第２方言入力８３２（例えば、第１レイヤ８１１で出力された特徴データ）から第２方言パラメータを生成する。第２パラメータ生成レイヤ８２２で出力された第２方言パラメータは、音声認識モデルの第２レイヤ８１２に適用される。音声認識装置は、第３パラメータ生成レイヤ８２３に基づいて、第３方言入力８３３（例えば、第２レイヤ８１２で出力された特徴データ）から第３方言パラメータを生成する。第３パラメータ生成レイヤ８２３で出力された第３方言パラメータは、音声認識モデルの第３レイヤ８１３に適用される。

ここで、音声認識装置は、パラメータ生成モデル４２０の各レイヤに方言入力のそれぞれと共に方言情報８３９を入力することで、各方言パラメータを生成してもよい。方言情報８３９は、例えば、ユーザの言語グループが有する方言の特徴を示す特徴ベクトル、例えば、ユーザの登録プロセスを介して生成される、又は方言情報８３９の現在の後適用のために、ユーザの以前の認識で生成されて格納された特徴ベクトルであり得る。例えば、特徴ベクトルは、このような登録、以前又は初期プロセスで適用されると議論された特徴抽出レイヤの１つから生成される。音声認識装置は、例えば、第１パラメータ生成レイヤ８２１に第１方言入力８３１と共に方言情報８３９を入力する。音声認識装置は、第２パラメータ生成レイヤ８２２に第２方言入力８３２と共に方言情報８３９を入力する。音声認識装置は、第３パラメータ生成レイヤ８２３に第３方言入力と共に方言情報８３９を入力してもよい。

音声認識装置は、上述した方言情報のみならず、音声認識モデル４１０の各レイヤに対して以前レイヤで出力された特徴データからパラメータ生成モデル４２０に基づいて生成された方言パラメータを適用することで、より正確に方言を認識できるように音声認識モデルを変形することができる。

音声認識装置は、図７、図８Ａ又は図８Ｂで生成された方言パラメータを音声認識モデル４１０に含ませることができる。

図９は、一実施形態に係る音声認識装置の構成に関するブロック図である。図１０は、一実施形態に係るメモリに格納された音声認識モデル、パラメータ生成モデル、及び方言分類モデルを説明する図である。

音声認識装置９００は、入出力インタフェース９１０、プロセッサ９２０、及びメモリ９３０を含む。

入出力インタフェース９１０は、ユーザの音声又は正解テキストなどが入力され、ユーザに認識結果又はガイドテキストを提示する構成を意味する。例えば、入出力インタフェース９１０は、ユーザの音声が入力されるマイクロホンを含む。入出力インタフェース９１０は、プロセッサ９２０が施行するように構成された音声認識装置９００の他の機能のうち、ユーザから正解テキストが入力されるキーボード、タッチスクリーン又はタッチパッドなどを含む。入出力インタフェース９１０は、認識結果又はガイドテキストを提示するディスプレイを含む。

プロセッサ９２０は、パラメータ生成モデルに基づいて方言入力データから方言パラメータを生成する。プロセッサ９２０は、音声認識モデル１０３１及び方言パラメータに基づいて音声信号から音声認識の結果を生成する。ただし、プロセッサ９２０の動作がこれに限定されることなく、プロセッサ９２０は、図１〜図８Ｂを参照して上述した動作を行うことができる。

メモリ９３０は、プロセッサ９２０によって実行される命令、パラメータ生成モデル１０３２、方言分類モデル１０３３、及び音声認識モデル１０３１を格納する。各モデルは、ニューラルネットワーク基盤の音声認識モデル１０３１であってもよい。各モデルがニューラルネットワークである場合、メモリ９３０は、ニューラルネットワークの各レイヤの各活性化ノードに対する接続加重値などのような個別モデルのパラメータを格納する。

一実施形態に係る音声認識装置９００は、現在ユーザに対して新しい方言入力データが受信されるまで、以前ユーザによる以前の入力音声に基づいて生成される既存の方言パラメータを保持する。例えば、新しい方言パラメータの生成は、入力音声の特徴データ又は入力音声が提供される分類器による方言分類に依存して選択的に行われる。また、現在ユーザの方言グループと以前ユーザの方言グループとが相違し、このような方言分類器によって決定されることに応答して、音声認識装置９００は、現在ユーザに対する方言入力データを用いて、新しい方言パラメータを、音声認識モデルの該当レイヤから入力される特徴データとして及び／又は方言分類器による出力として生成することを選択する。その後、音声認識装置９００は、新しい方言パラメータを音声認識モデルに適用するか、新しい方言パラメータに基づいて音声認識モデルの既存の対応パラメータを調整する。したがって、音声認識装置９００は、ユーザの方言特性が変更される場合にのみ方言パラメータを新しく算出してもよい。

さらに、図１〜図１０では、音声認識モデル１０３１、パラメータ生成モデル１０３２、及び方言分類モデル１０３３は、トレーニングの完了されたモデルであると説明した。音声認識装置９００は、上述したモデルを加えてトレーニングされてもよい。例えば、音声認識装置９００は、音声信号及び音声信号に対応する方言入力データに基づいて、パラメータ生成モデルを再トレーニングすることができる。音声認識装置９００は、パラメータ生成モデルが音声信号から与えられた方言入力データを出力するよう、パラメータ生成モデルをトレーニングすることができる。

一実施形態に係る音声認識装置９００は、ユーザの言語を識別し、識別された言語に対応する音声認識モデル１０３１を選択してもよい。音声認識装置９００は、複数の言語のそれぞれに対応する音声認識モデル１０３１を格納し、各音声認識モデル１０３１に対応するパラメータ生成モデル１０３２、及び方言分類モデル１０３３を追加的に格納してもよい。音声認識装置９００は、選択された音声認識モデル１０３１に方言パラメータを適用する。音声認識装置９００は、方言パラメータが適用された音声認識モデル１０３１に基づいて、音声信号に対する音声認識の結果を生成する。

音声認識装置９００は、スマートフォンなど個人機器に搭載され、ユーザの発音に最適化された音声認識機能を提供することができる。音声認識装置９００は、個人機器でなくても、ホームスピーカなどの音声認識機能が求められる機器に搭載され、全般的な音声認識の性能を向上させることができる。

音声認識装置９００は、各方言分類モデルを個別的に生成及び管理する必要がなく、統合的な音声認識モデル１０３１及びパラメータ生成モデル１０３２を用いて正確に音声認識することができる。したがって、サーバ開発及びメンテナンスが減少し得る。さらに、音声認識装置９００は、音声認識に基づいたエンドトゥーエンドサービス（ｅｎｄ−ｔｏ−ｅｎｄｓｅｒｖｉｃｅ）にも適用され得る。このような方言分類、方言パラメータ生成、及び／又は生成された方言パラメータに基づいた音声認識モデルの動的調整は、遠隔装置及びローカル装置間の個別入力及び／又は生成されたデータの通信に基づいて、遠隔に、例えば、サーバ及び／又は地域的に個人化装置で行われることができる。

図１１は、一実施形態に係る音声認識モデルをトレーニングする方法を説明するフローチャートである。図１２は、一実施形態に係る音声認識モデルをトレーニングする装置の構成を示すブロック図である。

一実施形態によれば、音声認識モデルをトレーニングする装置（以下、トレーニング装置１２００）は、プロセッサ１２１０及びメモリ１２２０を含む。プロセッサ１２１０は、図１１を参照して説明される動作を下記のように行うことができる。メモリ１２２０は、音声認識モデル１２２１、パラメータ生成モデル１２２２、及び方言分類モデル１２２３を格納する。メモリ１２２０は、個別モデルの内部バイアス及び当該トレーニングされたパラメータのような構造の情報を格納してもよい。メモリ１２２０は、また、臨時的にトレーニング音声認識モデル、トレーニングパラメータ生成モデル、及びトレーニング方言分類モデルを格納し、これらは個別的にトレーニングされた音声認識モデル１２２１、トレーニングされたパラメータ生成モデル１２２２、及びトレーニングされた方言分類モデル１２２３を生成するためのトレーニング動作によってアップデートされて変形される。中間モデル（ｉｎｔｅｒｉｍｍｏｄｅｌ）の個別トレーニング及びアップデート／変形された中間モデルの臨時的な格納を通したモデルを窮極的に生成するよう実行されるトレーニングは、その後、音声認識モデル１２２１のトレーニング、パラメータ生成モデル１２２２のトレーニング、及び方言分類モデル１２２３のトレーニングに示される。また、メモリ１２２０は、トレーニングデータ１２９０を格納する。

トレーニングデータ１２９０は、トレーニング入力１２９１及びそれに対応するトレーニング出力１２９２の対を含む。例えば、トレーニング入力は、多重方言を含む当該言語の音声を含む。一実施形態は、逆伝播に基づいた損失を通した音声認識モデル１２２１の初期の共通音声トレーニングを含んでもよく、共通音声トレーニングは、他の方言トレーニング入力１２９１又は混合された方言トレーニング入力１２９１を有し、音声認識モデル１２２１を順次トレーニングすることを含む。したがって、トレーニング入力１２９１は、多重方言に対する該当言語の音声を含み、さらに、代案的にトレーニング入力１２９１は、音声認識モデル１２２１及びパラメータ生成モデル１２２２のトレーニングに共に使用されたり、音声認識モデル１２２１、パラメータ生成モデル１２２２、及び方言分類モデル１２２３のトレーニングに共に使用されたり、音声認識モデル１２２１が別にトレーニングされ、パラメータ生成モデル１２２２及び方言分類モデル１２２３が共にトレーニングされてもよい。例えば、臨時にトレーニングされた音声認識モデルが、例えば、予め決定された正確度又は最小限の不正確性（ｍｉｎｉｍｕｍｉｎａｃｃｕｒａｃｅ）で生成された後、それにより臨時共通パラメータを決定し、臨時共通パラメータは、パラメータ生成モデル１２２２のトレーニングの間に固定される。パラメータ生成モデル１２２２は、パラメータトレーニングモデルの予め決定された正確度又は最小限の不正確性でトレーニングの間に固定され、その後、パラメータ生成モデル１２２１と共にトレーニングされる。方言分類モデル１２２３は、多重方言の特性を含んでいる複雑な音声に対する確率又は確率的データを生成する場合、トレーニング入力１２９１は、このような複雑な音声を含んでいる。図１１及び図１２において、トレーニング入力１２９１は、トレーニング音声であってもよく、トレーニング出力１２９２は、基準認識結果（例えば、基準発音（ｒｅｆｅｒｅｎｃｅｕｔｔｅｒａｎｃｅ））であってもよい。さらに、トレーニング入力１２９１は、トレーニング音声に対応する方言入力データ（例えば、トレーニング方言情報）をさらに含んでもよい。

まず、ステップＳ１１１０において、トレーニング装置１２００は、パラメータ生成モデル１２２２に基づいて、トレーニング方言情報から臨時方言パラメータ（ｔｅｍｐｏｒａｒｙｄｉａｌｅｃｔｐａｒａｍｅｔｅｒ）を算出する。トレーニング装置１２００は、トレーニングが完了する前のパラメータ生成モデル１２２２の入力レイヤから出力レイヤまでトレーニング方言情報を伝播することによって、臨時方言パラメータを算出する。臨時方言パラメータは、トレーニングが完了する前のパラメータ生成モデル１２２２の出力を示す。

そして、ステップＳ１１２０において、トレーニング装置１２００は、臨時方言パラメータが適用された音声認識モデル１２２１がトレーニング音声から基準認識結果（ｒｅｆｅｒｅｎｃｅｒｅｃｏｇｎｉｔｉｏｎｒｅｓｕｌｔ）を出力するよう、パラメータ生成モデル１２２２及び音声認識モデル１２２１のうち少なくとも１つをトレーニングする。トレーニング装置１２００は、トレーニングが完了する前の音声認識モデル１２２１に臨時方言パラメータを適用することができる。

トレーニング装置１２００は、臨時方言パラメータが適用された音声認識モデル１２２１の入力レイヤから出力レイヤまでトレーニング音声を伝えることによって臨時出力を算出する。トレーニング装置１２００は、臨時出力及び基準認識結果に基づいて損失を算出する。損失は、様々な目的関数によって定義され、これに限定されることはない。トレーニング装置１２００は、臨時出力及び基準認識結果に基づいた損失が最小化されるように、パラメータ生成モデル１２２２及び音声認識モデル１２２１のパラメータをアップデートする。トレーニング装置１２００は、逆伝播方式（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）を介してパラメータ生成モデル１２２２及び音声認識モデル１２２１の両方のパラメータを共にアップデートする。ただし、これに限定されることなく、トレーニング装置１２００は、パラメータ生成モデル１２２２及び音声認識モデル１２２１のいずれか一方のモデルのパラメータのみをアップデートしてもよく、いずれか一方のモデルを先にアップデートした後、残りのモデルをアップデートしてもよい。トレーニング装置１２００は、損失が収斂されるまで臨時出力算出、損失算出、及びパラメータ生成モデル１２２２、及び音声認識モデル１２２１のパラメータをアップデートする動作を繰り返すことができる。

図６に示す方言分類モデル１２２３は、別途にトレーニングされたモデルであってもよく、例えば、音声認識モデル１２２１及びパラメータ生成モデル１２２２のトレーニングから分離されてもよい。例えば、トレーニング装置１２００は、音声信号から方言情報を出力するように方言分類モデル１２２３をトレーニングすることができる。例えば、トレーニング装置１２００は、方言分類モデル１２２３の入力レイヤから出力レイヤでトレーニング音声を伝播させることによって、臨時方言出力を算出することができる。トレーニング装置１２００は、臨時方言出力及び基準方言情報間の損失が最小になるよう、方言分類モデル１２２３のパラメータをアップデートする。

また、トレーニング装置１２００は、方言分類モデル１２２３を音声認識モデル１２２１及びパラメータ生成モデル１２２２と共にトレーニングしてもよい。例えば、トレーニング装置１２００は、上述した臨時方言出力をトレーニングが完了していないパラメータ生成モデル１２２２に伝播することで、臨時方言パラメータを算出することができる。上述したように、トレーニング装置１２００は、臨時方言パラメータが適用された音声認識モデル１２２１を介して臨時出力を算出し得る。トレーニング装置１２００は、臨時出力及び基準認識結果に基づいた損失が最小になるよう、音声認識モデル１２２１、パラメータ生成モデル１２２２、及び方言分類モデル１２２３のうちの１つ以上を同時又は順次にトレーニングすることができる。

以上説明した装置は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、マイクロコンピュータ、ＦＰＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、又は命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行して応答する異なる装置のように、１つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム（ＯＳ）及びオペレーティングシステム上で実行される１つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は１つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）及び／又は複数類型の処理要素を含むことを把握する。例えば、処理装置は、複数のプロセッサ又は１つのプロセッサ及び１つのコントローラを含む。また、並列プロセッサ（ｐａｒａｌｌｅｌｐｒｏｃｅｓｓｏｒ）のような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうちの一つ以上の組合せを含み、希望の通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置を命令したりすることができる。ソフトウェア及び／又はデータは、処理装置によって解釈されるか処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアは、ネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されて実行され得る。ソフトウェア及びデータは１つ以上のコンピュータ読み取り可能な記録媒体に格納され得る。

本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合わせて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＹＩＪＤのような光記録媒体、フロプティカルディスクのような磁気−光媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明に示す動作を実行するために１つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。

上述したように実施形態を例として限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順で実行されるし、及び／又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせられてもよいし、他の構成要素又は均等物によって置き換え又は代替されたとしても適切な結果を達成することができる。

したがって、本発明の範囲は、開示された実施形態に限定されて定められるものではなく、特許請求の範囲及び特許請求の範囲と均等なものなどによって定められるものである。

９００：音声認識装置
９１０：入出力インタフェース
９２０：プロセッサ
９３０：メモリ

Claims

プロセッサで実現される、音声を認識する方法において、
音声信号を取得するステップと、
前記音声信号の認識を行うステップと、
を含み、
前記認識を行うステップは、
前記音声信号に対してパラメータ生成モデルを用いて、方言入力データから方言パラメータを生成するステップと、
方言音声認識モデルを生成するためにトレーニングされた音声認識モデルに前記方言パラメータを適用するステップと、
前記音声信号に対して前記方言音声認識モデルを施行することによって、前記音声信号から音声認識の結果を生成するステップと、
を含む音声を認識する方法。
前記方言パラメータを適用するステップは、前記トレーニングされた音声認識モデルの１つ以上のレイヤのそれぞれのうち少なくとも個別部分に、前記パラメータ生成モデルを用いて生成された前記方言パラメータ又は個別方言パラメータを適用するステップを含む、請求項１に記載の音声を認識する方法。
前記トレーニングされた音声認識モデルは、少なくとも１つ以上のレイヤを有するニューラルネットワークモデルであり、前記１つ以上のレイヤのそれぞれは、１つ以上の階層的に以前レイヤノード及び／又は個別加重された接続により１つ以上の臨時的に以前ノードに接続される少なくともノードを含み、
前記方言パラメータ又は個別方言パラメータを適用するステップは、
接続加重（ｃｏｎｎｅｃｔｉｏｎｗｅｉｇｈｔ）を挿入するステップと、
前記個別加重された接続の全てより少ない前記１つ以上のレイヤのそれぞれで個別接続加重値を設定、代替、又は、変更するステップと、
を含む、請求項２に記載の音声を認識する方法。
前記方言パラメータ又は前記個別方言パラメータは、１つ以上の個別スケール行列をさらに含み、
前記方言パラメータ又は前記個別方言パラメータを適用するステップは、前記方言音声認識モデルの施行の間に、前記方言音声認識モデルの１つ以上の隠れレイヤの個別出力に前記１つ以上の個別スケール行列を適用するステップを含む、請求項３に記載の音声を認識する方法。
前記方言パラメータ又は前記個別方言パラメータは１つ以上の個別バッチパラメータをさらに含み、
前記１つ以上の個別バッチパラメータのそれぞれは、第１バッチパラメータ及び第２バッチパラメータを含み、
前記方言パラメータ又は前記個別方言パラメータを適用するステップは、
前記方言音声認識モデルの施行の間、１つ以上の隠れレイヤのそれぞれに対して前記第１バッチパラメータを個別入力に乗算し、前記第２バッチパラメータを加算し、前記１つ以上の隠れレイヤに個別的に前記適用された１つ以上の個別バッチパラメータの個別結果をフォワーディングすることによって、前記方言音声認識モデルの１つ以上の隠れレイヤに対する個別入力に前記１つ以上の個別バッチパラメータを適用するステップを含む、請求項４に記載の音声を認識する方法。
前記個別入力は、正規化された個別入力であり、
前記個別バッチパラメータは、個別バッチ正規化パラメータである、請求項５に記載の音声を認識する方法。
前記方言パラメータ又は前記個別方言パラメータは、１つ以上の個別バッチパラメータを含み、
前記１つ以上の個別バッチパラメータは、第１バッチパラメータ及び第２バッチパラメータを含み、
前記方言パラメータ又は前記個別方言パラメータを適用するステップは、前記方言音声認識モデルの施行の間に１つ以上の隠れレイヤに対して第１バッチパラメータを個別入力に乗算し、第２バッチパラメータを加算して前記１つ以上の隠れレイヤに個別的に前記適用された１つ以上の個別バッチパラメータの個別結果をフォワーディングすることによって、前記方言音声認識モデルの１つ以上の隠れレイヤに対する個別入力に前記１つ以上の個別バッチパラメータを適用するステップを含む、請求項３に記載の音声を認識する方法。
前記個別入力は正規化された個別入力であり、前記個別バッチパラメータは個別バッチ正規化パラメータである、請求項７に記載の音声を認識する方法。
前記トレーニングされた音声認識モデルは、少なくとも１つ以上のレイヤを有するニューラルネットワークモデルであり、前記１つ以上のレイヤのそれぞれは、個別加重された接続により１つ以上の階層的に以前レイヤノード及び／又は１つ以上の臨時的に以前ノードに接続される少なくともいずれか１つのノードを含み、
前記方言パラメータを適用するステップは、前記方言音声認識モデルの施行の間、前記パラメータ生成モデルによって生成される前記方言パラメータとして、又は個別方言パラメータとして、個別スケール行列を前記方言音声認識モデルの隠れレイヤの個別出力に適用するステップを含む、請求項１に記載の音声を認識する方法。
前記方言パラメータは個別バッチパラメータを含み、
前記方言パラメータを適用するステップは、前記方言音声認識モデルを施行する間、前記方言音声認識モデルの１つ以上の中間演算に対する個別入力に前記個別バッチパラメータを適用するステップを含み、
入力は、前記方言音声認識モデルの入力演算から又は前記方言音声認識モデルの以前の１つ以上の中間演算からの入力である、請求項１に記載の音声を認識する方法。
前記トレーニングされた音声認識モデルは、少なくとも１つ以上のレイヤを有するニューラルネットワークモデルであり、
前記１つ以上のレイヤのそれぞれは、個別加重された接続により１つ以上の階層的に以前レイヤノード及び／又は１つ以上の臨時に以前ノードに接続された少なくともいずれか１つのノードを含み、
前記個別入力に前記個別バッチパラメータを適用するステップは、前記方言音声認識モデルを施行する間に前記方言音声認識モデルの１つ以上の隠れレイヤの個別入力に前記個別バッチパラメータを適用するステップを含む、請求項１０に記載の音声を認識する方法。
前記個別バッチパラメータは、第１バッチパラメータ及び第２バッチパラメータを含み、
前記方言音声認識モデルの前記１つ以上の隠れレイヤに対する前記個別入力に前記個別バッチパラメータを適用するステップは、
前記１つ以上の隠れレイヤに対して、個別入力に第１バッチパラメータを乗算し、前記第２バッチパラメータを加算するステップと、
前記１つ以上の隠れレイヤに個別的に前記適用された個別バッチパラメータの個別結果をフォワーディングするステップと、
を含む、請求項１１に記載の音声を認識する方法。
前記個別入力は正規化された個別入力であり、前記個別バッチパラメータはバッチ正規化パラメータである、請求項１２に記載の音声を認識する方法。
前記個別バッチパラメータは、第１バッチパラメータ及び第２バッチパラメータを含み、
１つ以上の中間演算それぞれに対して、前記方言音声認識モデルの１つ以上の中間演算に対する前記個別入力に前記個別バッチパラメータを適用するステップは、
個別入力に前記第１バッチパラメータを乗算し、前記第２バッチパラメータを加算するステップと、
前記方言音声認識モデルの前記１つ以上の中間演算に個別的に前記適用された個別バッチパラメータの個別結果をフォワーディングするステップと、
を含む、請求項１０に記載の音声を認識する方法。
前記個別入力は正規化された個別入力であり、前記個別バッチパラメータはバッチ正規化パラメータである、請求項１４に記載の音声を認識する方法。
前記方言パラメータを生成するステップは、
ユーザから受信されるユーザ操作に応答して、前記ユーザ操作が指示する方言情報を前記方言入力データとして決定するステップと、
前記パラメータ生成モデルに基づいて、前記決定された方言入力データから前記方言パラメータを生成するステップと、
を含む、請求項１に記載の音声を認識する方法。
前記方言パラメータを生成するステップは、方言分類モデルを用いて前記音声信号から前記方言入力データを算出するステップを含む、請求項１に記載の音声を認識する方法。
前記方言入力データを算出するステップは、前記方言分類モデルを用いて前記音声信号から前記音声信号が属する方言に関する確率データを前記方言入力データとして算出するステップを含む、請求項１７に記載の音声を認識する方法。
前記方言入力データを算出するステップは、前記方言分類モデルを用いて前記音声信号から方言情報を算出しながら、前記方言分類モデルの少なくともいずれか１つのレイヤの出力を前記方言入力データとして決定するステップを含む、請求項１７に記載の音声を認識する方法。
前記方言パラメータを生成するステップは、前記方言音声認識モデルの少なくともいずれか１つの施行されたレイヤの出力から前記方言入力データを算出するステップを含む、請求項１に記載の音声を認識する方法。
前記方言入力データは前記音声信号である、請求項１に記載の音声を認識する方法。
前記パラメータ生成モデルは、前記方言パラメータを生成するために前記パラメータ生成モデルを用いる場合、方言の１つ以上の施行されたレイヤのそれぞれの少なくとも個別部分から出力された特徴データを考慮する、請求項１に記載の音声を認識する方法。
前記方言パラメータを生成するステップは、前記パラメータ生成モデルによる１つ以上のレイヤの個別先行レイヤから出力された個別データの考慮に基づいて、前記方言音声認識モデルの１つ以上のレイヤのそれぞれに対する方言パラメータを生成するステップを含む、請求項１に記載の音声を認識する方法。
前記方言パラメータを生成するステップは、前記方言入力データとして、前記音声信号に対して方言グループのうちいずれか１つの方言グループを指示するデータを取得するステップを含む、請求項１に記載の音声を認識する方法。
前記方言パラメータを生成するステップは、新しい方言入力データが他のユーザに対して生成されるまで、後続して取得された音声信号の認識における使用に対して、以前に適用されて生成された方言パラメータを用いて以前の音声認識モデルによって以前の音声認識に対して以前に生成された方言パラメータを保持するステップを含む、請求項１に記載の音声を認識する方法。
前記方言パラメータを生成するステップは、現在ユーザの方言グループと以前ユーザの方言グループとが異なるという決定に応答して、前記現在ユーザに対して新しい方言入力データを前記方言入力データとして取得するステップを含む、請求項１に記載の音声を認識する方法。
前記方言音声認識モデルを施行するステップは、前記音声信号の認識の結果を音素単位として算出するステップを含む、請求項１に記載の音声を認識する方法。
前記音声信号及び前記音声信号に対応する方言入力データに基づいて、前記パラメータ生成モデルを再トレーニングするステップをさらに含む、請求項１に記載の音声を認識する方法。
前記音声信号に対応する前記方言入力データ及び前記生成された方言パラメータをメモリに格納するステップと、
後続音声の実行された認識で、前記方言入力データが前記格納された方言データにマッチングするものと決定されたとき、前記後続音声に対する前記方言パラメータの生成をパス（ｐａｓｓ）し、前記後続音声に対する前記方言音声認識モデルを施行することによって、前記格納された方言入力データに前記後続音声に対する方言分類モデルによって生成された方言データがマッチングするかの決定に基づいて、前記後続音声に対する前記方言パラメータを生成することを選択的に施行するステップと、
前記後続音声に対する音声認識の結果を生成する前記方言音声認識モデルを施行するステップと、
を含む、請求項１に記載の音声を認識する方法。
ユーザの言語を識別し、前記識別された言語に対応するトレーニングされた音声認識モデルを、メモリに格納された複数の個別の他の言語トレーニングされた音声認識モデルの中から選択するステップをさらに含み、
前記方言パラメータを適用するステップは、前記方言音声認識モデルを生成するために前記選択されたトレーニングされた音声認識モデルに前記方言パラメータを適用するステップを含む、請求項１に記載の音声を認識する方法。
前記方言パラメータを生成するステップは、前記音声信号を取得するごとに、前記方言パラメータを動的に生成するステップを含む、請求項１に記載の音声を認識する方法。
前記音声認識の結果を生成するステップは、
前記音声信号を正規化することによって正規化されたデータを取得するステップと、
前記音声認識の結果を生成するために前記正規化されたデータに対する前記方言音声認識モデルを施行するステップと、
を含む、請求項１に記載の音声を認識する方法。
請求項１乃至請求項３２のいずれか一項に記載の方法を実行するための命令語を含む１つ以上のコンピュータプログラムを格納したコンピュータ読み取り可能な記録媒体。
音声を認識する装置において、
パラメータ生成モデル、トレーニングされた音声認識モデル、及び命令を格納した１つ以上のメモリと、
取得された音声信号に対する方言パラメータを、前記パラメータ生成モデルを用いて方言入力データから生成し、方言音声認識モデルを生成するために前記トレーニングされた音声認識モデルに前記生成された方言パラメータを適用し、前記音声信号に対する音声認識の結果を生成する前記方言音声認識モデルの音声認識の結果を前記音声信号に対する施行を介して生成するプロセッサと、
を含む音声を認識する装置。
前記プロセッサは、前記トレーニングされた音声認識モデルの１つ以上のレイヤのそれぞれの少なくとも個別部分に、前記パラメータ生成モデルを用いて生成された前記方言パラメータ又は個別方言パラメータを適用するように構成される、請求項３４に記載の音声を認識する装置。
前記トレーニングされた音声認識モデルは、少なくとも前記１つ以上のレイヤを有するニューラルネットワークモデルであり、前記１つ以上のレイヤのそれぞれは、個別加重された連結に沿って１つ以上の階層的に以前レイヤノード及び／又は１つ以上の臨時に以前ノードに接続された少なくともいずれか１つのノードを含み、
前記方言パラメータ又は前記個別方言パラメータを適用することは、接続加重を挿入すること、又は、
前記個別加重された接続の全てよりも少ない、前記１つ以上のレイヤのそれぞれで個別接続加重値を設定、代替、又は、変更すること、
を含む、請求項３５に記載の音声を認識する装置。
前記トレーニングされた音声認識モデルは、少なくとも１つ以上のレイヤを有するニューラルネットワークであり、前記１つ以上のレイヤのそれぞれは、個別加重された接続により１つ以上の階層的に以前レイヤノード及び／又は１つ以上の臨時に以前ノードに接続された少なくともいずれか１つのノードを含み、
前記方言パラメータを適用することは、前記方言音声認識モデルの施行の間に前記方言音声認識モデルの１つ以上の隠れレイヤの個別出力に、前記パラメータ生成モデルによって生成された前記方言パラメータとして、又は個別方言パラメータとして個別スケール行列を適用することを含む、請求項３４に記載の音声を認識する装置。
前記方言パラメータは個別バッチパラメータを含み、
前記方言パラメータを適用することは、前記方言音声認識モデルの１つ以上の中間演算に対する個別入力に前記個別バッチパラメータを適用することを含み、
入力は、前記方言音声認識モデルの入力演算又は前記方言音声認識モデルの以前の１つ以上の中間演算からの演算である、請求項３４に記載の音声を認識する装置。
前記トレーニングされた音声認識モデルは、少なくとも前記１つ以上のレイヤを有するニューラルネットワークであり、前記１つ以上のレイヤのそれぞれは、個別加重された接続により１つ以上の階層的に以前レイヤノード及び／又は１つ以上の臨時に以前ノードに接続される少なくともいずれか１つのノードを含み、
前記個別バッチパラメータを前記個別入力に適用することは、前記方言音声認識モデルの１つ以上の隠れレイヤに対する個別入力に前記個別バッチパラメータを適用することを含む、請求項３８に記載の音声を認識する装置。
前記個別バッチパラメータは、第１バッチパラメータ及び第２バッチパラメータを含み、
前記方言音声認識モデルの前記１つ以上の隠れレイヤに対する前記個別入力に前記個別バッチパラメータを適用することは、前記１つ以上の隠れレイヤのそれぞれに対して、個別入力に前記第１バッチパラメータを乗算し、前記第２バッチパラメータを加算し、前記１つ以上の隠れレイヤに前記適用された個別バッチパラメータの個別結果を個別的にフォワーディングすることを含む、請求項３９に記載の音声を認識する装置。
前記個別入力は正規化された個別入力であり、前記個別バッチパラメータは、バッチ正規化パラメータである、請求項４０に記載の音声を認識する装置。
前記プロセッサは、ユーザから受信されるユーザ操作が指示する方言情報を前記方言入力データとして決定し、前記パラメータ生成モデルに基づいて前記決定された方言入力データから前記方言パラメータを生成する、請求項３４に記載の音声を認識する装置。
前記プロセッサは、方言分類モデルを用いて前記音声信号から前記方言入力データを算出する、請求項３４に記載の音声を認識する装置。
前記方言入力データは前記音声信号である、請求項３４に記載の音声を認識する装置。
前記トレーニングされた音声認識モデルに前記生成された方言パラメータを適用することと、前記音声認識の結果を生成することは、前記プロセッサによって同時に行われ、
前記プロセッサは、前記方言音声認識モデルの１つ以上のレイヤの個別先行レイヤから出力される個別データの、前記パラメータ生成モデルによる考慮に基づいて前記トレーニングされた音声認識モデルの１つ以上のレイヤのそれぞれに対する方言パラメータを生成するように構成される、請求項３４に記載の音声を認識する装置。
前記生成された方言パラメータを前記トレーニングされた音声認識モデルに適用することと、前記音声認識の結果の生成は、前記プロセッサによって同時に行われ、
前記プロセッサは、前記方言音声認識モデルの１つ以上のレイヤの個別先行レイヤから出力された個別データの、前記パラメータ生成モデルによる考慮に基づいて前記トレーニングされた音声認識モデルの１つ以上のレイヤのそれぞれに対する方言パラメータを生成するように構成される、請求項３４に記載の音声を認識する装置。
マイクロホンをさらに含み、
前記プロセッサは、前記音声信号を取得するために前記音声信号をキャプチャーするマイクロホンを制御するようにさらに構成される、請求項３４に記載の音声を認識する装置。
音声認識装置において、
パラメータ生成モデル、方言分類モデル、トレーニングされた音声認識モデル、及び命令を格納した１つ以上のメモリを含み、
前記トレーニングされた音声認識モデルは、少なくとも１つ以上のレイヤを有するニューラルネットワークであり、
前記１つ以上のレイヤのそれぞれは、個別加重された接続により１つ以上の階層的に以前レイヤノード及び／又は１つ以上の臨時に以前ノードに接続される少なくともいずれか１つのノードを含む、音声認識装置。