JP2019525214A

JP2019525214A - 音声認識

Info

Publication number: JP2019525214A
Application number: JP2018560023A
Authority: JP
Inventors: シュエシャオフェイ
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2016-06-30
Filing date: 2017-06-29
Publication date: 2019-09-05
Anticipated expiration: 2037-06-29
Also published as: JP7008638B2; EP3479377A1; WO2018005858A1; CN107564513B; EP3479377B1; US10891944B2; EP3479377A4; CN107564513A; US20180005628A1

Abstract

音声認識方法は、トレーニングデータの特徴ベクトルをクラスタリングしてトレーニングデータのクラスタリングされた特徴ベクトルを取得することと、トレーニングデータのクラスタリングされた特徴ベクトルを用いて認識すべきデータの特徴ベクトルに補間演算を実行することと、認識すべきデータの特徴ベクトルを補間演算の後に音声認識モデルに入力して音声認識モデルを最適に調整することとを含む。本開示の技術は、音声認識精度及び適応型処理効率を改善する。

Description

関連特許出願の相互参照
本出願は２０１６年６月３０日に出願の、「Ｍｅｔｈｏｄｏｆｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎａｎｄｄｅｖｉｃｅｔｈｅｒｅｏｆ」と題する、中国特許出願第２０１６１０５０９７８３．５号の優先権を主張し、その全体を参照により本願明細書に援用する。

本開示は、音声認識の分野に関し、より詳しくは、音声認識のための方法及び装置に関する。

音声認識技術は、自動音声認識（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ（ＡＳＲ））とも呼ばれ、人間の音声の内容をキーまたは二進符号化キャラクタシーケンスなどのコンピュータ可読の入力に変換する。音声認識は学際的なものであり、それは、信号処理、パターン認識、確率論及び情報理論、音声メカニズム及び聴覚メカニズム、人工知能などの分野を含む。近年、音声認識技術は、研究室を起点として市場へ著しく前進した。音声認識技術は、産業、家庭用電気機器、通信、自動車エレクトロニクス、医療、家族サービス及び消費者向けエレクトロニクス製品のすべての領域に入りつつある。

音声認識音響モデルは、音声認識の精度を改善する重要な技術である。音声認識音響モデルには、個人化された音声認識及び他の分野の重要な用途がある。音声認識音響モデルは通常適応型データを使用して、元の音響モデルを修正して一定程度まで性能を高める。特徴ベクトルに基づく適応型方法はますます普及してきており、特徴ベクトル（例えば、ｉベクトル（ｉ−ｖｅｃｔｏｒ））は音声認識の精度を改善する補償として音響モデルに入力することができる。従来技術では、良好な性能を有する特徴ベクトルを取得するために大量のトレーニング日数が必要である。トレーニングデータが制限されると、推定された声紋特徴ベクトルは効果的に音声認識を改善することができない。しかしながら、音声認識のためのいくつかの用途のシナリオに対して、ユーザは短いスピーチ（例えば、近くでホテルを検索する）をすることが多い。これは、適応型音声認識により多くのことを要求する。

本開示の例示の実施形態は、音声認識の方法及びその装置に、そして、音声認識精度及び適応型処理効率を改善することに関する。本概要は、請求する主題のすべての重要な特徴あるいは本質的な特徴を特定することを意図するものではなく、また請求する主題の範囲を判定する際の助けとするためだけに使用することを意図するものでもない。

本開示の例示の実施形態は、音声認識の方法を提供する。

オーディオキャプチャ装置は、オーディオ、例えばユーザによって述べられるいくつかの文を、トレーニングデータとして記録する。あるいは、オーディオキャプチャ装置は、別のコンピューティング装置からトレーニングデータとしてオーディオを受けることができる。例えば、オーディオキャプチャ装置は、マイクロホン、モバイル機器上の話者などの音声認識のための装置の一部でもよい。別の例として、オーディオキャプチャ装置は、ボイスレコーダなどの音声認識のための装置とは別のコンピューティング装置でもよい。音声認識のための装置は、以下の音声認識の方法のすべてのステップを適用することができるか、トレーニングデータを分散環境の音声認識のための１つ以上のサーバに発信することができるか、または、音声認識のための１つ以上のサーバに以下の方法のいくつかのステップを実行することを要求することができる。

方法は、トレーニングデータの特徴ベクトルをクラスタリングしてトレーニングデータのクラスタリングされた特徴ベクトルを取得することと、トレーニングデータのクラスタリングされた特徴ベクトルを用いて認識すべきデータの特徴ベクトルに補間演算を実行することと、認識すべきデータの特徴ベクトルを補間演算の後に音声認識モデルに入力して音声認識モデルを最適に調整することとを含むことができる。

実装において、方法は、トレーニングデータのクラスタリングされた特徴ベクトルを用いて音声認識モデルに適応型トレーニングを実行して、トレーニングデータのクラスタリングされた特徴ベクトルを取得した後に音声認識モデルを取得することを含むことができる。

実装において、方法は、トレーニングデータの特徴ベクトルのクラスタリングの後で、かつ、トレーニングデータのクラスタリングされた特徴ベクトルを取得する前に、クラスタに属しているトレーニングデータのクラスタリングされた特徴ベクトルに加重平均処理を実行することを含むことができる。

実装において、トレーニングデータのクラスタリングされた特徴ベクトルを用いて認識すべきデータの特徴ベクトルに補間演算を実行することは、認識すべきデータの特徴ベクトルとトレーニングデータのクラスタリングされた特徴ベクトルの間のコサイン距離を算出して、コサイン距離がある値より大きいトレーニングデータのクラスタリングされた特徴ベクトルの所定数を使用して認識すべきデータの特徴ベクトルに補間演算を実行することによって、実施することができる。

実装において、方法は、補間演算の間、補間の調整可能パラメータを設定することと、調整可能パラメータの値を調整することによって、認識すべきデータの特徴ベクトルに対するトレーニングデータのクラスタリングされた特徴ベクトルの影響の程度を設定することとをさらに含むことができる。

実装において、トレーニングデータの特徴ベクトルは、声紋特徴ベクトル、ノイズ特徴ベクトル、方言特徴ベクトルまたはシーン情報特徴ベクトルの少なくとも１つを含む。

本開示の別の例示の実施形態は、音声認識のための装置を提供する。

オーディオキャプチャ装置は、オーディオ、例えばユーザによって述べられるいくつかの文を、トレーニングデータとして記録する。あるいは、オーディオキャプチャ装置は、別のコンピューティング装置からトレーニングデータとしてオーディオを受けることができる。例えば、オーディオキャプチャ装置は、マイクロホン、モバイル機器上の話者などの音声認識のための装置の一部でもよい。別の例として、オーディオキャプチャ装置は、ボイスレコーダなどの音声認識のための装置とは別のコンピューティング装置でもよい。音声認識のための装置は、単独で音声認識だけを実行するか、トレーニングデータを分散環境の音声認識のために１つ以上のサービス者に発信するか、または、１つ以上のサーバに音声認識のいくつかのステップを要求することができる。

例えば、装置は、トレーニングデータの特徴ベクトルをクラスタリングしてトレーニングデータのクラスタリングされた特徴ベクトルを取得するように構成されるクラスタリングモジュールと、トレーニングデータのクラスタリングされた特徴ベクトルを用いて認識すべきデータの特徴ベクトルに補間演算を実行するように構成される補間モジュールと、認識すべきデータの特徴ベクトルを補間演算の後に音声認識モデルに入力して音声認識モデルを最適に調整するように構成される適応型調整モジュールとを含むことができる。

実装において、装置は、トレーニングデータのクラスタリングされた特徴ベクトルを用いて音声認識モデルに適応型トレーニングを実行して音声認識モデルを取得するように構成されるモデル適応型モジュールをさらに含むことができる。

実装において、装置は、クラスタに属しているトレーニングデータのクラスタリングされた特徴ベクトルに加重平均処理を実行するように構成される重み付けモジュールをさらに含むことができる。

実装において、補間モジュールは、認識すべきデータの特徴ベクトルとトレーニングデータのクラスタリングされた特徴ベクトルの間のコサイン距離をさらに算出して、コサイン距離がある値より大きいトレーニングデータのクラスタリングされた特徴ベクトルの所定数を使用して認識すべきデータの特徴ベクトルに補間演算を実行するように構成することができる。

実装において、補間モジュールは、補間の調整可能パラメータを設定して、調整可能パラメータの値を調整することによって、認識すべきデータの特徴ベクトルに対するトレーニングデータのクラスタリングされた特徴ベクトルの影響の程度を設定するように構成することができる。

実装において、トレーニングデータの特徴ベクトルは、声紋特徴ベクトル、ノイズ特徴ベクトル、方言特徴ベクトルまたはシーン情報特徴ベクトルの少なくとも１つを含むことができる。

本開示の別の例示の実施形態は、コンピュータ可読の命令を格納した１つ以上のメモリを提供し、この命令は１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、コンピューティング装置の１つ以上のプロセッサによってトレーニングデータの特徴ベクトルをクラスタリングして、クラスタリングされたトレーニングデータの特徴ベクトルを取得すること、トレーニングデータのクラスタリングされた特徴ベクトルを用いて認識すべきデータの特徴ベクトルに補間演算を実行すること、及び、認識すべきデータの特徴ベクトルを音声認識モデルに入力して音声認識モデルを最適に調整することを含む動作を実行させる。

例えば、動作はさらに、トレーニングデータのクラスタリングされた特徴ベクトルを用いて音声認識モデルの適応型トレーニングを実行して、トレーニングデータのクラスタリングされた特徴ベクトルを取得した後に音声認識モデルを取得することを含む。

例えば、動作は、さらにトレーニングデータの特徴ベクトルのクラスタリングの後で、かつ、トレーニングデータのクラスタリングされた特徴ベクトルを取得する前に、クラスタに属しているトレーニングデータのクラスタリングされた特徴ベクトルに加重平均処理を実行することを含む。

例えば、トレーニングデータのクラスタリングされた特徴ベクトルを用いて認識すべきデータの特徴ベクトルに補間演算を実行することは、認識すべきデータの特徴ベクトルとトレーニングデータのクラスタリングされた特徴ベクトルの間のコサイン距離を算出すること、及び、コサイン距離がプリセット値より大きいトレーニングデータのクラスタリングされた特徴ベクトルの所定数を使用して認識すべきデータの特徴ベクトルに補間演算を実行することを含む。

例えば、動作はさらに、補間演算の間、補間の調整可能パラメータを設定すること、及び、調整可能パラメータの値を調整することによって、認識すべきデータの特徴ベクトル上のトレーニングデータのクラスタリングされた特徴ベクトルの影響の程度を設定することを含む。

従来の音声認識技術に関して、そして、特に適応型音声認識技術に関して、本開示の例示の実施形態は、トレーニングステージの間、トレーニングデータの特徴ベクトルをクラスタリングして、トレーニングデータの特徴ベクトルの数を減らし、精度を改善する。さらに、トレーニングデータのクラスタリングされた特徴ベクトルがモデルを決めるために用いられると、ベクトルの次元は削減される。したがって、モデルの複雑さが低減される。さらに、本開示の例示の実施形態は、認識ステージの間、トレーニングデータのクラスタリングされた特徴ベクトルを用いて認識すべきデータの特徴ベクトルに補間演算を実行する。トレーニングデータの量が相対的に多いので、精度は高い。したがって、本開示の例示の実施形態は、認識すべきデータの量が少ない（例えば、ユーザにより提供される短い音声クリップの）音声認識に、特に適している。相対的により正確なトレーニングデータを使用して認識すべきデータを補償することによって、音声認識のより正確な結果を得ることができる。さらに、モデルの複雑さが低減されるので、効率は認識ステージの間、改善することができる。

以下の詳細な説明は図示された例示の実施形態及び添付の図面を参照してなされるが、当業者は、本開示がこれらの例示の実施形態に限定されないことを理解するであろう。さらに、本開示の範囲は広範囲にわたり、そして添付の特許請求の範囲は本開示の範囲を定めることを目的としている。

発明を実施するための形態は、添付の図面を参照して説明する。異なる図面において同一の参照番号を使用する場合は、類似しているかまたは同一の項目であることを示す。

本開示の例示の実施形態による音声認識の例示的方法を示すフローチャートである。本開示の例示の実施形態による話者適応のための適応型システムを示す概要図である。本開示の例示の実施形態による音声認識のための装置を示す概要図である。

以下の詳細な説明は図示された例示の実施形態及び添付の図面を参照してなされるが、当業者は、本開示がこれらの例示の実施形態に限定されないことを理解するであろう。さらに、本開示の範囲は広範囲にわたり、そして特許請求の範囲は本開示の範囲を定めることを目的としている。

いくつかの典型的な例示の実施形態が、フローチャートの形で方法またはプロセスとして記載される点に留意する必要がある。フローチャートはシーケンシャルプロセスとして記載されるが、多くの操作は、並行して、共同で、または同時に実行することができる。加えて、操作の順序は、再編成することができる。操作が終了されるときに、図面に含まれない追加的な操作があってもよい。プロセスは、方法、機能、手順、サブルーチン、サブプログラムなどに対応することができる。

コンピュータ装置は、ユーザ機器及びネットワーク装置を含む。ユーザ機器としては、コンピュータ、スマートフォン、ＰＤＡなどが含まれるが、これに限定されるものではない。ネットワーク装置としては、コンピュータ、ネットワークホスト、単一のネットワークサーバ、マルチサーバクラスタまたは複数サーバを含むクラウドを含むことができるが、これに限定されるものでない。クラウドコンピューティングは、分散コンピューティングであり、疎結合コンピュータセットのグループを有する仮想スーパーコンピュータを含む。本開示の例示の実施形態は、コンピューティング装置及び／またはネットワークを介した他のコンピューティング装置によって実装することができる。コンピュータネットワーク装置は、インターネット、ＷＡＮ、ＭＡＮ、ＬＡＮ、ＶＰＮネットワークに配置されるが、それに限られてはいない。

ユーザ機器、ネットワーク装置及びネットワークが例でしかなく、本開示に適用できる既存の、または可能性がある将来の装置も本開示の保護の範囲内であり、参照により本願明細書に引用されている点に留意する必要がある。

本明細書において述べられる（プロセスで例示される場合もある）方法は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコードまたはハードウェア記述言語の少なくとも１つによって実装することができる。ソフトウェア、ファームウェア、ミドルウェアまたはマイクロコードによって実装されるときに、本開示の例示の実施形態は、マシンまたはコンピュータ可読媒体（例えば記憶媒体）に格納することができるアプリケーションソフトウェア／プログラムを用いて実装することができる。１つ以上のプロセッサが必要なタスクを実行することができる。

本明細書において開示される特定の構造及び機能の詳細は、単に代表的なもので、本開示の例示の実施形態を記載するためのものである。しかしながら、本開示は多くの異なる形態で実施することができ、それは本明細書において記載される例示の実施形態に限定されると解釈されるべきではない。

用語「第１の」、「第２の」などが本明細書において個々のユニットを記載するために用いられるが、これらのユニットはこれらの用語に限られてはいない。これらの用語は、ある要素を別の要素と区別するために用いるだけである。例えば、典型的な例示の実施形態の範囲を逸脱することなく、第１の要素が第２の要素と称されることができて、同様に、第２の要素が第１の要素と称されることができる。本明細書において使用する場合、用語「及び／または」は、関連する列挙されたアイテムの任意の１つ以上及びそれらのすべての組み合わせも含む。

要素が別の要素に「接続される」かまたは「連結する」と呼ばれるとき、要素は他の要素に直結もしくは連結されていることができ、または、中間ユニットが存在することもあり得る。一方で、要素が別の要素に「直結である」かまたは「直接連結する」と呼ばれるときは、介在要素が存在しない。ユニットの間の関係を記載するために用いる他の用語は、同様の方法で解釈されなければならない。これらの用語の例として含まれるのは、「．．．の間にある」と比較して「直接．．．の間に位置する」、そして、「隣接するものを有する．．．」と比較して「及び、直接隣接する．．．」などである。

本願明細書において用いられる用語は、特定の例示の実施形態だけを記載するためのものであり例示の実施形態を典型的な例示の実施形態に限定することを意図しない。文脈が明確に示さない場合、本明細書で使用される単数の形式、「ａ」、「ａｎ」は、複数を含むことを意図している。用語「含む（ｃｏｍｐｒｉｓｉｎｇ）」及び／または「含む（ｉｎｃｌｕｄｉｎｇ）」は、記載されている特徴、完全体、ステップ、操作、要素及び／またはコンポーネントの存在を定義するものであり、１つ以上の他の特徴、完全体、ステップ、操作、要素、コンポーネント及び／またはそれらの組み合わせの存在または追加を排除することができないということも理解すべきである。

いくつかの他の実装で、強調される機能／動作が図において示される順序とは異なって発生する場合があることも注意すべきである。例えば、関係する機能性／動作によって、結果として生じる２つの図が、実際は、実質的に同時に実行されてもよく、または、時には逆順で実行されてもよい。

最初に、本開示の例示の実施形態における用語を以下に説明する。

音声認識は、人間の音声の語彙的な内容をキーまたは二進符号化キャラクタシーケンスなどのコンピュータ可読の入力に変換する。

クラスタ分析は、多重パターンを含むことができる。通常、パターンは、測定のベクトルまたは多次元空間内の点を指す。クラスタ分析は類似性に基づいて実行されて、クラスタ内のパターンには他のクラスタにおけるそれより多くの類似性がある。

補間は、特定の空間のいくつかの点で関数ｆ（ｘ）の関数値を使用して特定の適切な機能を行う方法を指す。方法は、その特定の関数の値を関数ｆ（ｘ）の近似として特定の空間の他の点でさらに使用する。この特定の関数が多項式である場合、それは多項式補間と呼ばれている。

話者適応は特定の対象話者の音声データを使用すること、すなわち適応型データのモデル化を使用して対象話者の音響モデルの精度を最大にすることを指す。

話者適応における用語「ｉ−ｖｅｃｔｏｒ」は、各話者と関連したベクトルを指して、会話の間、話者を他の話者と区別するために用いる。

以下では本開示の実装の添付図面と連動して詳述する。

図１は、本開示の例示の実施形態による音声認識の例示的方法を示すフローチャートである。方法は、コンピューティング装置によって実行される以下の操作を含むことができる。

Ｓ１０２で、コンピューティング装置はトレーニングデータの特徴ベクトルをクラスタリングして、トレーニングデータのクラスタリングされた特徴ベクトルを取得することができる。

Ｓ１０４で、コンピューティング装置は、トレーニングデータのクラスタリングされた特徴ベクトルを用いて認識すべきデータの特徴ベクトルに補間演算を実行することができる。

Ｓ１０６で、コンピューティング装置は、認識すべきデータの特徴ベクトルを補間演算の後に音声認識モデルに入力して、音声認識モデルを最適に調整することができる。

トレーニングステージの間、コンピューティング装置は、トレーニングデータの特徴ベクトルをクラスタリングすることに集中することができる。認識ステージの間、コンピューティング装置は、トレーニングデータのクラスタリングされた特徴ベクトルを用いて認識すべきデータの特徴ベクトルに補間演算を実行することができる。

従来の音声認識技術に関して、そして、特に適応型音声認識技術に関して、本開示の例示の実施形態は、トレーニングステージの間、トレーニングデータの特徴ベクトルをクラスタリングして、トレーニングデータの特徴ベクトルの数を減らし、精度を改善する。さらに、トレーニングデータのクラスタリングされた特徴ベクトルがモデルを決めるために用いられると、ベクトルの次元は削減される。したがって、モデルの複雑さが低減される。さらに、認識ステージの間、本開示の例示の実施形態は、トレーニングデータのクラスタリングされた特徴ベクトルを用いて認識すべきデータの特徴ベクトルに補間演算を実行する。トレーニングデータの量が相対的に多いので、精度は高い。したがって、本開示の例示の実施形態は、認識すべきデータの量が少ない（例えば、ユーザにより提供される短い音声クリップの）音声認識に、特に適している。相対的により正確なトレーニングデータを使用して認識すべきデータを補償することによって、音声認識のより正確な結果を得ることができる。さらに、モデルの複雑さが低減されるので、効率は認識ステージの間、改善することができる。

クラスタ分析は、多重パターンを含むことができる。通常、パターンは、測定のベクトルまたは多次元空間内の点に関連する。クラスタ分析は類似性に基づいて実行されて、クラスタ内のパターンには他のクラスタにおけるそれより多くの類似性がある。クラスタリングアルゴリズムは、分割手法、階層的手法、密度アルゴリズム、グラフ理論クラスタリング手法、メッシュ化アルゴリズム及びモデルアルゴリズムに分けることができる。具体的なアルゴリズムは、例えば、Ｋ−ＭＥＡＮＳ、Ｋ−ＭＥＤＯＩＤＳ、Ｃｌａｒａ、Ｃｌａｒａｎｓなどを含む。

補間演算は、補間または差分法も指す。実装は、トレーニングデータのクラスタリングされた特徴ベクトルを用いて認識すべきデータの特徴ベクトルに補間演算を実行することができる。したがって、クラスタリングされた特徴ベクトルに基づいて、コンピューティング装置は認識すべきデータの特徴ベクトルのための近似解を採用することができる。

音声認識音響モデルは、音声認識の精度を改善する重要な技術である。モデルは話者適応、方言（アクセント）適応、ノイズ適応、シーン適応などを含むことができる。音声認識音響モデルには、個人化された音声認識及び他の分野の重要な用途がある。音声認識音響モデルは通常適応型データを使用して、元の音響モデルを修正して一定程度まで性能を高める。適応型データが制限されると、適応型効果は明らかでない。本開示はクラスタリング及び適応型補間に基づく方法を提供して、音響モデルの迅速及び効果的な適応を達成する。

本開示の例示の実施形態は音声認識のための技術を提供して、それが音声認識全体及び話者適応、方言（アクセント）適応、ノイズ適応、シーン適応などのシナリオに対して使用され得る。

例えば、音声認識全体に対して、特徴ベクトルは、音声、ノイズ、シーンの影響及び方言の影響の音響処理全体の後に取得される特徴ベクトルを含む。データは、全般的に音声特徴データを指す。適応型話者認識に対して、特徴ベクトルは、声紋特徴ベクトルを指す。声紋特徴ベクトルは、対応する話者を考慮することによって取得される音声特徴データである。方言（アクセント）適応型認識に対して、特徴ベクトルは、方言特徴ベクトルを指す。ノイズ適応型認識に対して、特徴ベクトルは、様々なレベルのノイズ特徴ベクトルを指す。シナリオ適応型認識に対して、特徴ベクトルは、シナリオ特徴ベクトルを指す。

トレーニングステージの間、例示の実施形態は、特徴ベクトルのクラスタリングに関連する。認識ステージの間、例示の実施形態は、トレーニングデータのクラスタリングされた特徴ベクトルを用いた認識すべきデータの特徴ベクトルの補間演算に関連する。これらの例示の実施形態が、本開示に主に記載されている。

本開示による話者適応のための音声認識技術の例が提供される。

話者適応は特定の対象話者の音声データを使用し、すなわち適応型データのモデル化を使用して対象話者の音響モデルの精度を最大にする。話者適応は、話者に関連した音声特徴を話者に関連していない音声特徴に変換するかまたは話者に関連していない音声特徴を話者に関連した音声特徴に変換して、より良好な認識結果を得る。

用語「ｉ−ｖｅｃｔｏｒ」は、各話者と関連したベクトルを指して、会話の間、話者を他の話者と区別するために用いる。通常、話者及びチャネルは、話者空間及びチャネル空間という２つの独立したモデル化空間である。話者空間（Ｅｉｇｅｎｖｏｉｃｅ）は固有の音のマトリックスＶによって表されて、チャネル空間（Ｅｉｇｅｎｃｈａｎｎｅｌ）は固有のチャネルのマトリックスＵによって表される。２つの空間のモデル化は、効果的に話者を判定するのを助けることができる。しかしながら、ＪＦＡの技術は、話者空間と音声データのチャネル空間を厳密に区別することができない。この特徴に対して、総因子分析技術が提案されており、総空間変動と呼ばれる単一空間だけを使用して連合した話者及び情報チャネルを表す。変動因子は総分散マトリックスによって定義され、それは総変動共分散マトリックスの最大固有値固有ベクトルに対応する特徴ベクトルを含む。変動因子に関連した技術では、ＧＭＭスーパーベクトル空間における話者及びチャネル空間の効果は区別されない。音声データの所与の期間を仮定すると、話者空間及びチャネル空間を含む総変動空間のスーパーベクトルのＧＭＭ平均値が以下の等式によって表される。
Ｍ＝ｍ＋Ｔｗ
ここで、ｍは、ＵＢＭの平均スーパーベクトルであり、話者空間及びチャネル空間に関連していない情報を表すために用いる。ＴはＣＦ×Ｒ次元の低オーダ総変化マトリックスであり、ＣはＧＭＭのガウス分布の数であり、Ｆは音響特性の次元であり、Ｒは総可変性マトリックスに含まれる特徴ベクトルの数であり、ベクトルｗは総可変性因子のベクトルであり。それは標準正規分布Ｎ（０，Ｉ）に従う。これらの例において、各要素は、総一次元変動因子を表し、ベクトルｗは、アイデンティティベクトル（すなわち、ｉ−ｖｅｃｔｏｒ）である。

コンピューティング装置は、特徴トレーニングＤＮＮの入力となるべき対応する話者から抽出される音声特徴データ及び声紋特徴ベクトルを結合することができる。音声認識の間、認識すべきデータの特徴ベクトル及び対応する話者の声紋特徴ベクトルは、認識をデコードするためにＤＮＮに入力することができる。

従来技術では、話者適応のための良好な性能を有する話者の声紋特徴ベクトルを取得するために大量のトレーニング日数が必要である。トレーニングデータが制限されると、推定された声紋特徴ベクトルは音声認識を効果的に改善することができない。この結果２つの欠点があり、１．声紋特徴ベクトルが正確に推定されていない（例えば、トレーニングデータが話者の情報を含まず、または音声データの期間が短すぎる）と、適応型トレーニングはそのデータを使用して正確に実行することができず、２．オンラインの音声認識の声紋特徴ベクトルを推定するためのデータ量があまりに少なくて、有意な結果が話者適応のために達成できない。

上記の欠点を解決するために、本開示の例示の実施形態は、話者のクラスタリング及び補間に基づいた高速かつ効果的な話者適応の方法を提供する。

図２は、本開示の例示の実施形態による話者適応のための適応型システムを示す概要図である。システムは、トレーニングステージ及び認識ステージ（すなわち、テストステージ）に分けられる。音声認識技術の例は、話者適応の各態様に対して提供される。

（１）最初に、声紋情報は音声トレーニングデータ２０２から抽出されて、声紋特徴ベクトル２０４はｉ−ｖｅｃｔｏｒ、話者コードなどを含むが、これに限定されるものではない。

（２）上記ステップで抽出される声紋特徴ベクトルは、管理されない方法でクラスタリングされ、クラスタリング方法としては、ｋ−ｍｅａｎｓ、階層的クラスタリングなどが含まれるが、これに限定されるものではない。同じクラスタに属している声紋特徴ベクトルは、同じ「話者」からのものとみなされ、話者クラスタリング２０６を有する。

（３）クラスタに属している声紋特徴ベクトルは、重み付けされて平均されて、「話者」の声紋特徴ベクトルを取得することができる。トレーニングデータの声紋特徴ベクトルは、２０８でクラスタリングされる。

（４）以前のステップで取得された声紋特徴ベクトルが、音声認識音響モデルの適応型トレーニング２１０のために用いられて、話者２１２に関連するモデルを取得する。

上記の４つの操作によって、トレーニングは完了する。

以下は、テストまたは認識ステージである。

したがって、補間演算の間、コンピューティング装置は、補間の調整可能パラメータを設定して、調整可能パラメータの値を調整することによって、認識すべきデータの特徴ベクトルに対するトレーニングデータのクラスタリングされた特徴ベクトルの影響の程度を設定することができる。

図２は、話者適応の例示の実施形態を示す。実際には、本開示の例示の実施形態は、話者適応、方言適応、ノイズ適応、シーン適応などを含むことができる

例えば、話者適応型認識に対して、特定のタイプの方言データは、トレーニングステージの間、方言特徴ベクトルを取得するためのデータトレーニングによって取得することができる。さらに、クラスタリングの後、クラスタリングされた方言特徴ベクトルは、それに応じて取得することができる。認識ステージの間、本開示の例示の実施形態は、トレーニングデータのクラスタリングされた方言特徴ベクトルを用いて認識すべきデータの方言特徴ベクトルに補間演算を実行して、補間演算の後、音声認識モデルに特徴ベクトルを入力して、モデルの適応型調整を実行する。

同様に、ノイズ適応型認識に対して、トレーニングステージの間、異なるレベルのノイズはセグメント化（分類）することができて、それはクラスタリングプロセスである。認識ステージの間、コンピューティング装置は、トレーニングデータのクラスタリングされたノイズ特徴ベクトルを用いて認識すべきデータのノイズ特徴ベクトルに補間演算を実行して、補間演算の後、音声認識モデルに特徴ベクトルを入力して、モデルの適応型調整を実行することができる。

シーン適応型認識に対して、トレーニングステージの間、ユーザは通常、情報のための予め設定された基準テンプレートにシーンの情報を入力するかまたは提示することが要求される。情報の個々の部分はクラスタリングされて、クラスタリングされたシーン情報特徴ベクトルを取得することができる。認識ステージの間、本開示の例示の実施形態は、トレーニングデータのクラスタリングされたシーン情報特徴ベクトルを用いて認識すべきデータのシーン情報特徴ベクトルに補間演算を実行して、補間演算の後、音声認識モデルに特徴ベクトルを入力して、モデルの適応型調整を実行する。

実装において、音声認識全体及び、話者適応、方言適応、ノイズ適応、シーン適応などの他のシナリオを考慮することができる。いくつかの実装において、トレーニングステージの間、入力されたトレーニングデータの特徴は、声紋特徴、方言特徴、ノイズ特徴及びシーン特徴を含むことができる。データを使用して特徴ベクトルを生成するときに、各特徴に対応する特徴ベクトルを生成してそれぞれクラスタリングして、クラスタリングされた特徴ベクトルを取得することができる。認識ステージの間、コンピューティング装置は、トレーニングデータの各タイプのクラスタリングされた特徴ベクトルを用いて認識すべきデータの対応する特徴ベクトルに補間演算を実行して、補間演算の後、照合するために対応する音声認識モデルに各タイプの特徴ベクトルを入力して、モデルの適応型調整を実行することができる。

本開示の例示の実施形態は、上記の方法に対応する適応型音声認識のための装置に関する。図３で図示するように、装置３００は、１つ以上のプロセッサ（複数可）３０２またはデータ処理ユニット（複数可）及びメモリ３０４を含む。装置３００は、１つ以上の入出力インタフェース（複数可）３０６及びネットワークインターフェース（複数可）３０８をさらに含むことができる。メモリ３０４は、コンピュータ可読媒体の例である。

コンピュータ可読媒体は、揮発性及び不揮発性、着脱可能な及び取り外し不可能な媒体を含み、任意の方法または技術を使用して情報を格納することができる。情報は、コンピュータ可読の命令、データ構造及びプログラムまたは他のデータのモジュールでもよい。コンピュータ記憶媒体の例には、限定するものではないが、相変化メモリ（ＰＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、その他のタイプのＲＡＭ、ＲＯＭ、電気的消去可能プログラム可能読出し専用メモリ（ＥＥＰＲＯＭ）、フラッシュメモリもしくはその他のメモリ技術、コンパクトディスク読出し専用メモリ（ＣＤ−ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）もしくはその他の光学記憶、カセットテープ、テープディスク記憶もしくはその他の磁気記憶装置、またはコンピューティング装置にアクセス可能な情報を記憶するものであり得るあらゆるその他の非送信媒体を含む。本明細書における定義によれば、コンピュータ可読媒体は、一時的コンピュータ可読媒体（一時的媒体）、例えば、変調されたデータ信号及び搬送波を含まない。

メモリ３０４は、トレーニングデータの特徴ベクトルをクラスタリングしてトレーニングデータのクラスタリングされた特徴ベクトルを取得するように構成されるクラスタリングモジュール３１０、トレーニングデータのクラスタリングされた特徴ベクトルを用いて認識すべきデータの特徴ベクトルに補間演算を実行するように構成される補間モジュール３１２、及び、認識すべきデータの特徴ベクトルを補間演算の後に音声認識モデルに入力して最適に音声認識モデルを調整するように構成される適応型調整モジュール３１４を含む、複数のモジュールまたはユニットを中に格納することができる。

実装において、装置３００は、記憶３０４に格納され、トレーニングデータのクラスタリングされた特徴ベクトルを用いて音声認識モデルに適応型トレーニングを実行して音声認識モデルを取得するように構成される、モデル適応型モジュール３１６をさらに含むことができる。

実装において、装置は、クラスタに属しているトレーニングデータのクラスタリングされた特徴ベクトルに加重平均処理を実行するように構成される重み付けモジュール３１８をさらに含むことができる。

実装において、補間モジュール３１２は、認識すべきデータの特徴ベクトルとトレーニングデータのクラスタリングされた特徴ベクトルの間のコサイン距離を算出して、コサイン距離がある値より大きいトレーニングデータのクラスタリングされた特徴ベクトルの所定数を使用して認識すべきデータの特徴ベクトルに補間演算を実行することができる。

実装において、補間モジュール３１２は、補間の調整可能パラメータを設定して、調整可能パラメータの値を調整することによって、認識すべきデータの特徴ベクトルに対するトレーニングデータのクラスタリングされた特徴ベクトルの影響の程度を設定するように構成することができる。

本開示がハードウェア、ソフトウェアまたはハードウェア及びソフトウェアの組合せによって完全に実施することができる点に留意する必要がある。例えば、本開示は、特定集積回路（ＡＳＩＣ）、汎用コンピュータまたは他の任意の類似のハードウェアを使用して実施することができる。いくつかの実装において、アプリケーションソフトウェア／プログラムはプロセッサによって実施して、上記のステップまたは機能を実行することができる。同様に、アプリケーションソフトウェア／プログラム（関連データ構造を含む）は、コンピュータ可読媒体、例えば、ＲＡＭメモリ、磁気もしくは光学的ドライブまたはフロッピーディスク及び類似の装置に格納することができる。加えて、本開示のいくつかのステップまたは機能は、例えば、特定のステップ及び／または機能を実行するプロセッサ及び回路を含むハードウェアにおいて実装することができる。

加えて、本開示の一部は、コンピュータプログラム製品、例えばコンピュータプログラム命令として実装することができて、コンピュータを作動させることによって実行されると、本開示の方法または技術的解決策を呼び出すか、または提供することができる。本開示による呼び出されるプログラム命令は、固定であるか着脱可能な記録媒体に記憶されることができ、及び／または、データストリーム、無線またはその他の信号搬送波を介して送信することができ、及び／またはコンピュータプログラム命令を実行するコンピューティング装置の作業メモリに記憶することができる。ここで、本開示の実装は装置を含み、それはコンピュータプログラム命令を格納しているメモリ及びプログラム命令を実行するためのプロセッサを含んでおり、実行されると、いくつかの実装の方法及び／または技術的解決策は装置によって実行されることができる。

当業者は、本開示の実装がそれらの詳細な例示の実装に限定されず、そして矛盾無く、本開示が他の実装によって達成され得るということを理解すべきである。したがって、上記の記述は単に説明するだけのものであり、そして限定的なものではなく、本発明の範囲は前述の説明によるよりもむしろ添付の請求の範囲により、したがって、請求項の範囲内となることを意図するすべての変更及び等価物は本出願の範囲内である。請求項におけるいかなる図面の参照も、請求項を制限する権利とみなされてはならない。加えて、明らかに、「含む」ことは他の要素またはステップを除外するものではなく、そして単数は複数を除外しない。請求項において詳述される複数のユニットまたは手段は、多重のユニット／装置またはハードウェア及びソフトウェアを含む多重のユニット／装置を指す。第１及び第２は、いかなる特定の順序も示すものではなく、名前を示すために用いる。

Claims

コンピューティング装置の１つ以上のプロセッサによってトレーニングデータの特徴ベクトルをクラスタリングして、トレーニングデータのクラスタリングされた特徴ベクトルを取得することと、
トレーニングデータの前記クラスタリングされた特徴ベクトルを用いて認識すべきデータの特徴ベクトルに補間演算を実行することと、
認識すべきデータの前記特徴ベクトルを音声認識モデルに入力して前記音声認識モデルを最適に調整することと
を含む方法。
トレーニングデータの前記クラスタリングされた特徴ベクトルを用いて前記音声認識モデルの適応型トレーニングを実行して、トレーニングデータの前記クラスタリングされた特徴ベクトルを取得した後に前記音声認識モデルを取得すること
をさらに含む、請求項１に記載の方法。
トレーニングデータの前記特徴ベクトルのクラスタリングの後で、かつ、トレーニングデータの前記クラスタリングされた特徴ベクトルを取得する前に、
クラスタに属しているトレーニングデータのクラスタリングされた特徴ベクトルに加重平均処理を実行すること
をさらに含む、請求項１に記載の方法。
トレーニングデータの前記クラスタリングされた特徴ベクトルを用いて認識すべきデータの前記特徴ベクトルに補間演算を前記実行することが、
認識すべきデータの前記特徴ベクトルとトレーニングデータの前記クラスタリングされた特徴ベクトルの間のコサイン距離を算出することと、
コサイン距離がプリセット値より大きいトレーニングデータのクラスタリングされた特徴ベクトルの所定数を使用して認識すべきデータの前記特徴ベクトルに補間演算を実行することと
を含む、請求項１に記載の方法。
前記補間演算の間、補間の調整可能パラメータを設定することと、
前記調整可能パラメータの値を調整することによって、認識すべきデータの前記特徴ベクトル上のトレーニングデータの前記クラスタリングされた特徴ベクトルの影響の程度を設定することと
をさらに含む、請求項４に記載の方法。
トレーニングデータの前記特徴ベクトルが声紋特徴ベクトルを含む、請求項１に記載の方法。
トレーニングデータの前記特徴ベクトルがノイズ特徴ベクトルを含む、請求項１に記載の方法。
トレーニングデータの前記特徴ベクトルが方言特徴ベクトルを含む、請求項１に記載の方法。
トレーニングデータの前記特徴ベクトルがシーン情報特徴ベクトルを含む、請求項１に記載の方法。
トレーニングデータの特徴ベクトルをクラスタリングしてトレーニングデータのクラスタリングされた特徴ベクトルを取得するように構成されるクラスタリングモジュールと、
トレーニングデータの前記クラスタリングされた特徴ベクトルを用いて認識すべきデータの特徴ベクトルに補間演算を実行するように構成される補間モジュールと、
認識すべきデータの前記特徴ベクトルを前記補間演算の後に音声認識モデルに入力して、前記音声認識モデルを最適に調整するように構成される適応型調整モジュールと
を含む装置。
前記装置がトレーニングデータの前記クラスタリングされた特徴ベクトルを用いて前記音声認識モデルの適応型トレーニングを実行して前記音声認識モデルを取得するように構成されるモデル適応型モジュールをさらに含む、請求項１０に記載の装置。
前記装置がクラスタに属しているトレーニングデータのクラスタリングされた特徴ベクトルに加重平均処理を実行するように構成される重み付けモジュールをさらに含む、請求項１０に記載の装置。
前記補間モジュールが認識すべきデータの前記特徴ベクトルとトレーニングデータの前記クラスタリングされた特徴ベクトルの間のコサイン距離をさらに算出して、コサイン距離がある値より大きいトレーニングデータのクラスタリングされた特徴ベクトルの所定数を使用して認識すべきデータの特徴ベクトルに補間演算を実行するように構成される、請求項１２に記載の装置。
前記補間モジュールが、補間の調整可能パラメータを設定して、前記調整可能パラメータの値を調整することによって認識すべきデータの前記特徴ベクトルに対するトレーニングデータの前記クラスタリングされた特徴ベクトルの影響の程度を設定するように構成される、請求項１３に記載の装置。
トレーニングデータの前記特徴ベクトルが声紋特徴ベクトル、ノイズ特徴ベクトル、方言特徴ベクトルまたはシーン情報特徴ベクトルの少なくとも１つを含む、請求項１０に記載の装置。
前記１つ以上のプロセッサによって実行されると、前記１つ以上のプロセッサに、
コンピューティング装置の１つ以上のプロセッサによってトレーニングデータの特徴ベクトルをクラスタリングして、クラスタリングされたトレーニングデータの特徴ベクトルを取得することと、
トレーニングデータの前記クラスタリングされた特徴ベクトルを用いて認識すべきデータの特徴ベクトルに補間演算を実行することと、
認識すべきデータの前記特徴ベクトルを音声認識モデルに入力して前記音声認識モデルを最適に調整することと
を含む動作を実行させるコンピュータ可読の命令を格納する１つ以上のメモリ。
前記動作が、
トレーニングデータの前記クラスタリングされた特徴ベクトルを用いて前記音声認識モデルの適応型トレーニングを実行して、トレーニングデータの前記クラスタリングされた特徴ベクトルを取得した後に前記音声認識モデルを取得すること
をさらに含む、請求項１６に記載の１つ以上のメモリ。
前記動作が、
トレーニングデータの前記特徴ベクトルのクラスタリングの後で、かつ、トレーニングデータの前記クラスタリングされた特徴ベクトルを取得する前に、
クラスタに属しているトレーニングデータのクラスタリングされた特徴ベクトルに加重平均処理を実行すること
をさらに含む、請求項１６に記載の１つ以上のメモリ。
トレーニングデータの前記クラスタリングされた特徴ベクトルを用いて認識すべきデータの前記特徴ベクトルに補間演算を前記実行することが、
認識すべきデータの前記特徴ベクトルとトレーニングデータの前記クラスタリングされた特徴ベクトルの間のコサイン距離を算出することと、
コサイン距離がプリセット値より大きいトレーニングデータのクラスタリングされた特徴ベクトルの所定数を使用して認識すべきデータの前記特徴ベクトルに補間演算を実行することと
を含む、請求項１６に記載の１つ以上のメモリ。
前記動作が、
前記補間演算の間、補間の調整可能パラメータを設定することと、
前記調整可能パラメータの値を調整することによって、認識すべきデータの前記特徴ベクトル上のトレーニングデータの前記クラスタリングされた特徴ベクトルの影響の程度を設定することと
をさらに含む、請求項１９に記載の１つ以上のメモリ。