JP7034279B2

JP7034279B2 - フィルタリングモデル訓練方法および音声認識方法

Info

Publication number: JP7034279B2
Application number: JP2020524466A
Authority: JP
Inventors: ▲為▼然 ▲聶▼; ▲海▼ 于
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2017-11-02
Filing date: 2018-06-21
Publication date: 2022-03-11
Anticipated expiration: 2038-06-21
Also published as: US11211052B2; EP3686882A4; US20200258499A1; CN109754784B; WO2019085510A1; JP2021501912A; CN109754784A; EP3686882A1

Description

本出願は、参照によりその全体が本明細書に組み込まれる、2017年11月2日に中国国家知識産権局に出願され、「FILTERING MODEL TRAINING METHOD AND SPEECH RECOGNITION METHOD」と題する、中国特許出願第201711065322．4号の優先権を主張する。

本出願は、音声認識技術の分野に関し、より詳細には、フィルタリングモデル訓練方法、音声認識方法、訓練デバイス、音声認識デバイス、および音声認識システムに関する。

自動音声認識（Automatic Speech Recognition、ASR）は、音声対話システムの主要な技術であり、（音声認識エンジンとも呼ばれる）ASRエンジンは、音声信号をテキストに変換することを担当する。図1は、ASRエンジンが音声認識を実行する一例の概略図である。図1に示されたように、ピックアップデバイスが音声を収集し、特徴モジュールによって抽出された音声信号の（周波数領域）特徴を取得した後、音響モデルはその音声を音節列（たとえば、中国語ピンインの子音列および母音列）に変換する。次いで、デコーダ（decoder）は、音節列に対応する文字列（たとえば、漢字列）用の言語モデルを検索する。

しかしながら、従来技術では、言語モデルにおける音節列と文字列との間の対応関係は、事前設定されたデータベースに基づく訓練によって取得される。実際の使用では、対応関係は、環境、ユーザの構音習性などによって影響を受ける。結果として、データベース内の音声用の音声信号は、同じ音声用の実際に収集された音声信号と一致しない可能性があり、最終的に音声を認識することができない。

本出願は、音声認識エンジンによって実行される音声認識の精度の向上に役立つように、フィルタリングモデルの訓練方法および訓練デバイスを提供する。

第1の態様によれば、フィルタリングモデル訓練方法が提供され、方法は、N個の元の音節を決定するステップであって、N個の元の音節が、第1のコーパスの実際の発音に含まれる音節であり、Nが1以上の整数である、ステップと、N個の認識された音節を決定するステップであって、N個の認識された音節が、第1のコーパスの音声信号に対して第1の音声認識処理が実行された後に取得された認識結果の音節であり、第1の音声認識処理が、フィルタリングモデルに基づくフィルタリング処理、および音声認識エンジンに基づく認識処理を含み、N個の認識された音節がN個の元の音節と1対1の対応関係にある、ステップと、N個の元の音節およびN個の認識された音節に基づいてN個の音節距離を決定するステップであって、N個の音節距離がN個の音節ペアと1対1の対応関係にあり、N個の元の音節およびN個の認識された音節がN個の音節ペアを形成し、各音節ペアが互いに対応する元の音節および認識された音節を含み、各音節距離が、対応する音節ペアに含まれる元の音節と認識された音節との間の類似性を示すために使用される、ステップと、N個の音節距離に基づいてフィルタリングモデルを訓練するステップとを含む。

場合によっては、元の音節と認識された音節との間の「類似性」は、元の音節と認識された音節との間の文字誤り率または音節誤り率に基づいて決定されてよい。

たとえば、元の音節と認識された音節との間の文字誤り率または音節誤り率が高いことは、元の音節と認識された音節との間の類似性が低いことを示す。

元の音節と認識された音節との間の文字誤り率は、元の音節に対応する複数の文字（または字）および認識された音節に対応する複数の文字（または字）の中の複数の文字の数に対する、誤って認識された文字（または字）の数の比率であってよい。すなわち、文字誤り率の値は、文字の総数に対する誤って認識された文字の数の比率である。

元の音節と認識された音節との間の文字誤り率は、元の音節に対応する複数の音節および認識された音節に対応する複数の音節の中の複数の音節の数に対する、誤って認識された音節の数の比率であってよい。すなわち、音節誤り率の値は、音節の総数に対する誤って認識された音節の数の比率である。

場合によっては、N個の音節距離に基づいてフィルタリングモデルを訓練するステップは、第2のコーパスに対応するM個の音節距離の各々の値が第1のプリセット範囲内に入るように、N個の音節距離に基づいてフィルタリングモデルを訓練するステップを含み、M個の音節距離はM個の音節ペアと1対1の対応関係にあり、M個の音節ペアに含まれるM個の元の音節は、第2のコーパスの実際の発音に含まれる音節であり、M個の音節ペアに含まれるM個の認識された音節は、第2のコーパスの音声信号に対して第2の音声認識処理が実行された後に取得された認識結果の音節であり、Mは1以上の整数であり、第2の音声認識処理は、訓練によって取得されたフィルタリングモデルに基づくフィルタリング処理、および音声認識エンジンに基づく認識処理を含む。

本出願のこの実施形態では、本出願のフィルタリングモデル訓練方法によれば、訓練コーパスの実際の元の音節はあらかじめ取得され、認識された音節は、音声認識エンジンが訓練コーパスに対して認識処理を実行した後に取得され、元の音節と認識された音節との間の音節距離がさらに決定される。したがって、音声認識エンジンと協働するフィルタは音節距離に基づいて訓練することができ、その結果、音声認識エンジンに入力される音声信号（またはフィルタリングモデルによって処理された音声信号）は、音声認識エンジンによって正確に認識され得る音声信号と一致することができ、それにより、認識精度が向上する。

場合によっては、N個の音節距離に基づいてフィルタリングモデルを訓練するステップは、第1のコーパスの音声信号およびN個の音節距離に基づいて採点モデルを決定するステップと、採点モデルおよび第3のコーパスの音声信号に基づいてK個の音節距離を決定するステップであって、第3のコーパスの実際の発音がK個の元の音節を含み、第3のコーパスの音声信号に対して第1の音声認識処理が実行された後に取得された認識結果がK個の認識された音節を含み、K個の認識された音節がK個の元の音節と1対1の対応関係にあり、K個の音節距離がK個の音節ペアと1対1の対応関係にあり、K個の元の音節およびK個の認識された音節がK個の音節ペアを形成し、各音節ペアが互いに対応する元の音節および認識された音節を含み、各音節距離が、対応する音節ペアに含まれる元の音節と認識された音節との間の類似性を示すために使用され、Kが1以上の整数である、ステップと、N個の音節距離およびK個の音節距離に基づいてフィルタリングモデルを訓練するステップとを含む。

したがって、フィルタリングモデルを訓練するために使用されるデータ量を増やすことができ、認識精度をさらに向上させることができる。

場合によっては、第1のコーパスの音声信号は、第1のピックアップデバイスに基づいて取得され、第1のピックアップデバイスは、第2のコーパスの音声信号を取得するように構成されたピックアップデバイスである。

場合によっては、第3のコーパスの音声信号は、第1のピックアップデバイスに基づいて取得され、第1のピックアップデバイスは、第1のコーパスの音響信号を取得するように構成されたピックアップデバイスである。

前述の訓練プロセスおよび音声認識プロセスは同じ音声信号に基づいて実行され、これにより、フィルタリングモデルと音声認識エンジンとの間の一致度がさらに向上することができ、音声認識の精度がさらに向上することができる。

本出願のこの実施形態では、フィルタリングモデルを訓練するための音声データを収集するためのピックアップデバイスは、実際の使用においてフィルタリングモデルのフィルタリング対象を収集するためのピックアップデバイスと一致することが可能になり、その結果、フィルタリングモデルの適用条件はピックアップデバイスと適合することができる。言い換えれば、方法によれば、フィルタリングモデル、音声認識エンジン、およびピックアップデバイスは、互いに適合することができ、これは認識精度の向上に役立つ。

場合によっては、各音節は少なくとも1つの音素を含み、N個の元の音節およびN個の認識された音節に基づいてN個の音節距離を決定するステップは、第1のマッピング関係情報を取得するステップであって、第1のマッピング関係情報が複数の音素間の音素距離を示すために使用され、任意の2つの音素間の音素距離が任意の2つの音素間の類似性を示すために使用される、ステップと、第1のマッピング関係情報に基づいてN個の音節距離を決定するステップとを含む。

場合によっては、第1のマッピング関係情報に基づいてN個の音節距離を決定するステップは、N個の元の音節に含まれるW個の元の音素を決定し、N個の認識された音節に含まれるW個の認識された音素を決定するステップであって、W個の元の音素がW個の認識された音素と1対1の対応関係にあり、Wが1以上の整数である、ステップと、第1のマッピング関係に基づいてW個の音素距離を決定するステップであって、W個の音素距離がW個の音素ペアと1対1の対応関係にあり、各音素距離が対応する音素ペアに含まれる音素間の音素距離であり、音素ペアが互いに対応する元の音素および認識音素を含む、ステップと、W個の音素距離に基づいてN個の音節距離を決定するステップとを含む。

場合によっては、W個の音素距離に基づいてN個の音節距離を決定するステップは、W個の音素距離の平均値に基づいてN個の音節距離を決定するステップを含む。

このようにして、音節距離を容易に決定することができる。

場合によっては、Nが2以上であるとき、方法は、N個の元の音節の配列順序および構音持続時間を決定するステップと、N個の認識された音節の取得時点を決定するステップと、N個の元の音節の配列順序および構音持続時間、ならびにN個の認識された音節の取得時点に基づいて、N個の音節ペアを決定するステップとをさらに含む。

したがって、N≧2であるとき、音節ペアを容易に決定することができ、本出願の実用性を向上させることができる。

場合によっては、N個の音節距離に基づいてフィルタリングモデルを訓練するステップは、フィルタリングモデルが使用される環境の環境情報を決定するステップと、N個の音節距離および環境情報に基づいてフィルタリングモデルを訓練するステップとを含む。

場合によっては、フィルタリングモデルが車両内で構成されるとき、環境情報は、以下の情報：車両速度情報、車両の窓が開いているか閉じているかに関する情報、またはエアコンの風量情報のうちの少なくとも1つを含む。

場合によっては、環境情報は、ピックアップデバイスのデバイス情報、たとえば、ピックアップデバイスのモデルまたは製造業者を含む。

本出願のこの実施形態では、フィルタリングモデルを訓練するための音声データが収集される実施形態は、音声データを訓練するためのフィルタリングモデルと一致する。実際の使用では、フィルタリングモデルは、デバイス環境で収集された音声データに対してフィルタリングを実行する。すなわち、フィルタリングモデルの適用条件はデバイス環境に適合する。言い換えれば、方法によれば、フィルタリングモデル、音声認識エンジン、およびデバイス環境は、互いに適合することができ、これは認識精度の向上に役立つ。

場合によっては、方法は、フィルタリングモデルを取得するユーザのユーザ情報を取得するステップであって、ユーザ情報が、ユーザが複数のコーパスの各々を使用する頻度を含む、ステップと、ユーザ情報に基づいて複数のコーパスから第1のコーパスを決定するステップとをさらに含む。

場合によっては、方法は、フィルタリングモデルを取得するユーザのユーザ情報を取得するステップであって、ユーザ情報が、ユーザが複数のコーパスの各々を使用する頻度を含む、ステップと、ユーザ情報に基づいて複数のコーパスから第3のコーパスを決定するステップとをさらに含む。

フィルタリングモデルを訓練するために使用されるコーパスはユーザ情報に基づいて決定され、その結果、決定されたフィルタリングモデルはユーザの使用習性に適合することができ、それにより、認識精度の向上に役立つ。

場合によっては、N個の元の音声ノードを決定するステップは、第1の時間範囲内で発生する第1のイベントを決定するステップであって、第1の時間範囲がN個の認識された音節の取得時点に基づいて決定される、ステップと、第2のマッピング関係情報に基づいて、第1のイベントに対応する音節をN個の元の音節として決定するステップであって、第2のマッピング関係情報が、第1のイベントを含む複数のイベントに対応する音節を示すために使用される、ステップとを含む。

したがって、ユーザによって送信された音声に基づいて、フィルタリングモデルに対してオンライン訓練を実行することができる。オンライン訓練は、ユーザが音声認識エンジンを使用するときのフィルタリングモデルに対する訓練であってよい。

場合によっては、第1の時間範囲は、取得時点から始まる第1のプリセット持続時間を伴う時間範囲であり、少なくとも1つの候補イベントは第1の時間範囲内で発生するか、または第1の時間範囲は、複数の候補イベントの発生時間に基づいて決定され、複数の候補イベントのうちのいずれか2つの間の発生時間間隔は、第2のプリセット持続時間以下であり、第1のイベントは複数の候補イベントのいずれか1つである。

このようにして、元の音節を決定するための過度に長い時間を回避することができ、ユーザ体験を改善することができ、本出願の実用性を向上させることができる。

N個の元の音節を決定するステップは、第3のマッピング関係情報に基づいて、第1のコーパスに対応する音節をN個の元の音節として決定するステップを含み、第3のマッピング関係情報は、第1のコーパスを含む複数のコーパスに対応する音節を示すために使用される。

第2の態様によれば、音声認識方法が提供され、方法は、第1の音声信号を取得するステップと、フィルタリングモデルに基づいて第1の音声信号に対してフィルタリング処理を実行するステップであって、フィルタリングモデルが、第1の態様および第1の態様の可能な実装形態のいずれか1つによる方法に従って取得される、ステップと、音声認識エンジンに基づいて、フィルタリング処理後に取得された第1の音声信号に対して認識処理を実行するステップとを含む。

場合によっては、第1の音声信号を取得するステップは、第1のピックアップデバイスにより、第1の音声信号を取得するステップを含み、第1のピックアップデバイスは、第1のコーパスの音声信号を取得するように構成されたピックアップデバイスである。

場合によっては、第1の音声信号を取得するステップは、フィルタリングモデルが訓練されるときに使用される環境情報に基づいて第1の音声信号を取得するステップを含む。

第3の態様によれば、訓練デバイスが提供され、メモリおよびプロセッサを含む。メモリはコンピュータプログラムを記憶するように構成され、プロセッサは、メモリからコンピュータプログラムを呼び出し、コンピュータプログラムを実行するように構成され、その結果、システムは、第1の態様または第1の態様の可能な実装形態のいずれか1つによる方法を実行する。

第3の態様によれば、訓練デバイスが提供され、メモリおよびプロセッサを含む。メモリはコンピュータプログラムを記憶するように構成され、プロセッサは、メモリからコンピュータプログラムを呼び出し、コンピュータプログラムを実行するように構成され、その結果、システムは、第2の態様または第2の態様の可能な実装形態のいずれか1つによる方法を実行する。

第5の態様によれば、コンピュータ可読記憶媒体が提供され、コンピュータ可読記憶媒体は命令を記憶する。命令がコンピュータ上で実行されると、コンピュータは、第1の態様または第1の態様の可能な実装形態のいずれか1つによる方法を実行することが可能になる。

第6の態様によれば、コンピュータ可読記憶媒体が提供され、コンピュータ可読記憶媒体は命令を記憶する。命令がコンピュータ上で実行されると、コンピュータは、第2の態様または第2の態様の可能な実装形態のいずれか1つによる方法を実行することが可能になる。

第7の態様によれば、命令を含むコンピュータプログラム製品が提供され、コンピュータプログラム製品がコンピュータ上で実行されると、コンピュータは、第1の態様または第1の態様の可能な実装形態のいずれか1つによる方法を実行することが可能になる。

第8の態様によれば、命令を含むコンピュータプログラム製品が提供され、コンピュータプログラム製品がコンピュータ上で実行されると、コンピュータは、第2の態様または第2の態様の可能な実装形態のいずれか1つによる方法を実行することが可能になる。

第9の態様によれば、第3の態様において提供された訓練デバイスおよび第4の態様において提供された音声認識デバイスを含む音声認識システムが提供される。

ASRシステムによって実行される音声認識の一例の概略図である。本出願の一実施形態による、フィルタリングモデル訓練方法の一例の概略フローチャートである。本出願の一実施形態による、フィルタリングモデル訓練システムの一例の概略図である。本出願の一実施形態による、フィルタリングモデル訓練システムの別の例の概略図である。本出願の一実施形態による、フィルタリングモデル訓練システムのまた別の例の概略図である。本出願の一実施形態による、フィルタリングモデル訓練方法の別の例の概略フローチャートである。本出願の一実施形態による、フィルタリングモデル訓練システムのさらに別の例の概略図である。本出願の一実施形態による、フィルタリングモデル訓練方法のまた別の例の概略フローチャートである。本出願の一実施形態による、フィルタリングモデル訓練デバイスの一例の概略フローチャートである。本出願の一実施形態による、フィルタリングモデル訓練デバイスの別の例の概略フローチャートである。

以下で、添付図面を参照して本出願における技術的解決策を記載する。

本出願の実施形態における方式、事例、タイプ、および実施形態の分割は、説明を容易にするためだけのものであり、いかなる特別な制限も構成するべきでなく、様々な方式、タイプ、事例、および実施形態における特徴は、矛盾がないときに組み合わされてよい。

また、本出願の実施形態における「第1」、「第2」、および「第3」は区別するように意図されているにすぎず、本出願に対するいかなる制限としても解釈されるべきではないことを理解されたい。

さらに、プロセスのシーケンス番号は、本発明の様々な実施形態における実行順序を意味しないことを理解されたい。プロセスの実行順序は、プロセスの機能および内部ロジックに従って決定されるべきであり、本発明の実施形態の実装プロセスに対するいかなる制限とも解釈されるべきではない。

さらに、少なくとも1つは、本出願の実施形態において1つまたは複数を含んでよいことを理解されたい。

本出願の理解を容易にするために、本出願におけるいくつかの概念が最初に簡単に記載される。

1．コーパス

コーパスは、文字、単語、文、段落、記事、またはそれらの任意の組合せであってよい。

2．元のコーパス

本出願の実施形態では、元のコーパスは実際の表現として理解されてよい。たとえば、元のコーパスは、ラウドスピーカによって再生されるコーパス、事業者によって話されるコーパス、またはユーザによって話されるコーパスであってよい。たとえば、ラウドスピーカは（英語で「エアコンをつける」を意味する）「da kai kong tiao」を再生し、「da kai kong tiao」は元のコーパスである。別の例として、ユーザは（英語で「車の窓を開ける」を意味する）「da kai che chuang」を話し、「da kai che chuang」は元のコーパスである。

3．音節

音節は、音声における最も自然な構造単位である。具体的には、音節は音素によって結合された最小の音声構造単位である。音節は、頭部、腹部、および尾部の3つの部分を含み、音節には明確に識別できる境界が存在する。1つまたはいくつかの音素は、特定の規則に従って結合されて1つの音節を形成する。

たとえば、中国語では、音節は頭文字の子音音節および母音（母音は単純母音および複合母音を含むことを理解されたい）音節を含んでよい。たとえば、漢字「da」は2つの音節「d」および「a」を含む。中国語では、1つの漢字の発音は、通常、1つの音節である。一般に、マンダリンには400個の単調音節が存在し、1300個の（中立音節を除く）音調音節が存在する。

別の例として、英語では、音節は発音の基本単位である。いかなる単語音節の場合でも、単音節の象形文字の発音は、読むために1つずつ音節に分解される。英語では、母音（a、e、i、o、およびuの合計5つの母音）が非常に強く、母音音素（音素は文字ではない）が1つの音節を形成することができ、1つの母音音素および1つまたは複数の子音音素は、1つの音節を形成するために組み合わされてよい。一般に、母音音素は音節を形成することができ、子音音素は強くなく、音節を形成することができない。たとえば、英語の単語「up」は2つの音節「u」および「p」を含む。

本出願の実施形態における音節は、中国語の対応する音節を含んでもよく、別の言語（たとえば、英語、フランス語、またはロシア語）の対応する音節を含んでもよいことを理解されたい。

4．音節距離

音節距離は、音節（具体的には、2つの音節に含まれる音素）間の距離である。本出願の実施形態では、音節距離は、2つの音節内の複数の音素間の距離であってもよく、2つの音節列（または音素列と呼ばれる）間の距離であってもよい。音素距離は、音節距離をさらに決定するために、あらかじめ定義された音素距離規則に従って決定されてよい。あらかじめ定義された音素距離規則は、言語学的特徴、たとえば、国際音声記号（international phonetic alphabet、IPA）表に従って言語学者によってあらかじめ定義されてもよく、エンジニアリングの実践および直感的な感覚に基づいてエンジニアによってあらかじめ定義されてもよい。

中国語のピンインと国際音声記号との間には、1対1または1対多（たとえば、1つの複合母音が複数の国際音声記号に対応する）の関係がある。したがって、中国語のピンインの母音および頭文字の子音に対して、同じ原理（すなわち、構音の場所および構音の方式）に従って、構音距離表が定義されてよい。サンプルの構音距離表については、本開示の表1を参照されたい。

場合によっては、あらかじめ定義された音素距離規則は、音素距離行列（または音素距離表と呼ばれる）を使用することによって実践されてよい。表1は、中国語の音素距離行列の一例を示す。

音節距離行列の最初の行および最初の列は、（頭文字の子音および母音を含む）すべての中国語ピンイン音節のセットであってよい。表の各セルは、行および列の対応する音節間の音節距離を表し、音節距離は正規化された（0から1までの）非負の値である。対角線上のセルは同じ音節間の距離を示し、距離の値はゼロである。音節距離が小さいほど、2つの音節の構音が類似することを示す。たとえば、「a」と「ai」との間の音節距離は0．1である。音節距離が大きいほど、2つの音節の構音間の違いが大きいことを示す。たとえば、「a」と「f」との間の音節距離は0．8である。

2つの音節の場合、2つの音節間の音節距離は、あらかじめ定義された音節距離規則に従って決定されてよい。たとえば、2つの音節が音節「a」および「ai」であると仮定すると、表1に従って、2つの音節間の音節距離が0．1であると判断されてよい。

2つの音節列の場合、2つの音節列間の音節距離は、2つの音節列に含まれる音素距離の平均値（たとえば、算術平均値）であってよい。たとえば、2つの音節列がそれぞれ「da kai che chuang」（「da kai che chuang」に対応する音節）および「da ke cha chuang」（「da ke cha chuang」に対応する音節）であると仮定する。表1から、「ai」と「e」との間の音節距離は0．2であり、「e」と「a」との間の音節距離は0．3であると判断され、「da kai che chuang」と「da ke cha chuang」との間の音節距離は、（0．2＋0．3）／2＝0．25であると決定されてよい。

音素距離に基づいて音節距離を決定するための前述の列挙された方法は、説明のための単なる例であり、これは本出願では限定されないことを理解されたい。たとえば、音素距離に重みを割り当てられてよく、音素距離の加重平均値が音節距離として決定される。

表1の音素間の音節距離の前述の列挙された具体的な値は、説明のための単なる例であり、本出願では具体的に限定されないことを理解されたい。ユーザは必要に応じて音素間の距離を適切に調整することができる。

加えて、IPAは、2つの次元：構音の器官の場所および構音の方式から、英語などの言語における子音音素および母音音素の構音特徴を記載する。構音の場所には、唇、歯、唇と歯、肺、回転舌、口蓋、咽頭などが含まれる。構音の方式には、破裂音、鼻音、震え音、および摩擦音が含まれる。たとえば、音素sと音素tとの間の音素距離（または構音距離）がLであると仮定すると、
sとtの構音の場所が同じであり、構音の方式が同じである場合、L＝0が決定されてよく、
sとtの構音の場所が同じであるが、構音の方式が異なる場合、L＝0．2が決定されてよく、
sとtの構音の場所が異なるが、構音の方式が同じである場合、L＝0．4が決定されてよく、または
sとtの構音の場所が異なり、構音の方式が異なる場合、L＝0．8が決定されてよい。

中国語のピンインと国際音声記号との間には、1対1または1対多（たとえば、1つの複合母音が複数の国際音声記号に対応する）の関係がある。したがって、中国語のピンインの母音および頭文字の子音に対して、同じ原理（すなわち、構音の場所および構音の方式）に従って、構音距離表、たとえば、表1が定義されてよい。

上述された音節距離を決定するための方法は、説明のための単なる例であり、これは本出願では限定されないことを理解されたい。あるいは、音節距離は、文字誤り率または音節誤り率に基づいて決定されてよい。

文字誤り率は、文字（または字）の音声信号に対応する文字（または字）の総数に対する、誤って認識された（具体的には、認識結果が実際の文字（または字）と一致しない）、かつ音声認識を介して取得された文字（または字）の中にある文字（または字）の比率である。

たとえば、「da kai kong tiao」に対応する音声信号が「da ke kong tiao」として認識された場合、音声信号に対応する文字の総数は4であり、誤って認識された文字の数は1である。したがって、音声信号に対応する音節距離は1／4であってよい。

加えて、音節誤り率は、音声信号に対応する音節の総数に対する、誤って認識された（具体的には、認識結果が実際の音節と一致しない）、かつ音声認識を介して取得された音節の中にある音節の比率である。

たとえば、「da kai kong tiao」に対応する音声信号が「da ke kong tiao」として認識された場合、音声信号に対応する音節の総数は4であり、誤って認識された音節の数は1である。したがって、音声信号に対応する音節距離は1／4であってよい。

5．動作条件

動作条件はデバイスに関連し、デバイスの動作状態として理解されてよい。たとえば、車両の動作条件は、車両の動作状態として理解されてよい。

6．動作条件変数

動作条件変数は、デバイスの動作条件を記述する変数であってよい。たとえば、デバイスは車両である。車両の動作条件変数は、車両速度、車両の窓の状況、道路のタイプ、エアコンの状況、およびワイパの状況などの変数のうちの少なくとも1つを含んでよい。

たとえば、車両の動作条件変数は車両速度を含んでよく、車両速度の速度値は、40キロメートル／時（市街地）および90キロメートル／時（高速道路）を含む。車両の動作条件変数は、車両の窓の状況をさらに含んでよく、車両の窓の状況は、開状態および閉状態を含む。車両の動作条件変数は、エアコンの風量ランクをさらに含んでよい。エアコンの風量ランクは、0（オフ）、1（冷風）、および2（温風）を含む。3つの動作条件変数に基づいて、順列および組合せにより12個の動作条件を形成することができる。

場合によっては、本出願の実施形態では、フィルタリングモデルへの入力は、フィルタリングモデルの条件付けを実施するために、動作条件変数値を含んでよい。離散的な動作条件変数が訓練フェーズで使用されるが、ニューラルネットワークの学習およびフラッディング能力により、連続する実際の動作条件に対して補間フィッティングが自動的に実行されることを理解されたい。

7．較正スクリプト

較正スクリプトはメモリに記憶されたコンピュータ可読ファイルであり、較正スクリプトはコーパスサンプルを記録することができる。場合によっては、較正スクリプトは、動作条件変数値とコーパスサンプルのキー値ペアの組合せを記録することができる。較正スクリプト内のコンテンツの各行は順次読み取ることができ、動作条件変数値および対応するコーパスサンプルは、モデルを訓練するために（フィルタリングモデル訓練デバイスによって）構文解析することができる。較正スクリプトは、ハードディスクに事前に記憶された静的ファイルであってもよく、動的に変化してもよい。

8．フィルタリングモデル

フィルタリングモデルは、受信された音声信号に対してフィルタリング処理を実行するために使用される。フィルタリングモデルへの入力は、ピックアップデバイス（たとえば、マイクロフォンまたはマイクロフォンアレイ）によって出力された音声データを含んでよい。たとえば、フィルタリングモデルへの入力は、具体的に、ピックアップデバイスによって出力された音声フレーム（たとえば、50ミリ秒の音声信号）の特徴データ（たとえば、メルケプストラム係数）を含んでよく、フィルタリングモデルの出力は、フィルタリング処理が実行された音声フレームの特徴データであってよい。場合によっては、特徴データは、周波数領域特徴または時間領域特徴を含んでよい。場合によっては、フィルタリングモデルへの入力は、動作条件変数値をさらに含んでよい。

8．採点モデル

採点モデルは、フィルタリングモデルを訓練するために使用される。採点モデルへの入力はフィルタリングモデルの出力であってよく、採点モデルの出力はスカラー値である。

本出願の実施形態における方法は、中国語、英語、ロシア語、およびフランス語などの様々な言語に適用されてよいことを理解されたい。説明を簡単にするために、以下では例として中国語を使用する。本出願の実施形態における方法を別の言語に適用することの詳細な説明については、中国語の例の関連する説明を参照されたい。

以下で、図2を参照して、本出願の実施形態におけるフィルタリングモデル訓練方法を詳細に記載する。

図2は、本出願の一実施形態による、フィルタリングモデル訓練方法の一例の概略フローチャートである。図2は、方法100の詳細なステップまたは動作を示すことを理解されたい。しかしながら、これらのステップまたは動作は単なる例である。本出願のこの実施形態では、別の動作がさらに実行されてよく、または図2の動作の一部のみが実行されてよい。

図2に示されたように、方法100は110および120を含んでよい。場合によっては、方法100は、プロセッサ、サーバ、コントローラ、フィルタリングモデル訓練デバイス、別のデバイス、または別のシステムによって実行されてよい。説明を簡単にするために、フィルタリングモデル訓練デバイスが方法100を実行する例が以下に記載される。別のデバイスによる方法100の実行の説明については、デバイスによる方法100の実行の関連する説明を参照されたい。

110．N個の音節ペアと1対1の対応関係にあるN個の音節距離を取得する。

各音節ペアは、第1の音節および第2の音節を含み、各音節距離は、対応する音節ペア内の第1の音節と第2の音節との間の音節距離である。第iの音節ペア内の第1の音節は、第iの音節ペアに対応する元のコーパス（第1のコーパスの一例）の実際の発音の音節であり、第iの音節ペア内の第2の音節は、第iの音節ペアに対応するコーパスの音声データに対して認識処理が実行された後に取得された認識結果の音節である。第iの音節ペアは、N個の音節ペアのいずれか1つであり、ここでN≧1である。

認識処理は、第1のフィルタリングモデル（フィルタリングモデルの一例）に基づく処理、および音声認識エンジンに基づく処理を含むことを理解されたい。さらに、フィルタリングモデルを使用して処理され、次いで、音声認識エンジンによって処理された音声データは、「認識処理後に取得された音声データ」とマークされてよいことはよく知られている。理解を容易にするために、第1のフィルタリングモデルを使用して処理され、次いで、音声認識エンジンによって処理された音声データは、代替として、「第1の認識処理後に取得された音声データ」として理解されてよい。

さらに、元のコーパスの音声データは、ピックアップデバイスによって収集されてよいことを理解されたい。具体的には、ピックアップデバイスによって収集された音声データは、処理用に第1のフィルタリングモデルに入力されてよく、第1のフィルタリングモデルを使用して処理した音声データは、認識結果を取得するために、音声認識エンジンに入力される。

説明を簡単にするために、元のコーパスの音声データに対して認識処理が実行された後に取得された認識結果は、「元のコーパスに対応する認識結果」として表記されてよい。たとえば、ラウドスピーカが「da kai kong tiao」を再生し、「da kai kong tiao」に対応する音声データに対して認識処理が実行された後に「da ke kong tiao」が取得される。この場合、「da ke kong tiao」は「da kai kong tiao」に対応する認識結果である。

オプションの例では、第1の音節は音節であってよく、第2の音節は音節であってよい。たとえば、元のコーパスが「da kai kong tiao」であり、「da kai kong tiao」に対応する認識結果が「da ke kong tiao」であると仮定する。N個の音節ペアは音節ペア＃αを含んでよく、音節ペア＃α内の第1の音節は「kai」の中の「ai」であり、第2の音節は「ke」の中の「e」である。音節ペア＃aに対応する音節距離は「ai」と「e」との間の音節距離である。

別のオプションの例では、第1の音節は音節列であってよく、第2の音節は音節列であってよい。たとえば、元のコーパスが「da kai kong tiao」であり、「da kai kong tiao」に対応する認識結果が「da ke kong tiao」であると仮定する。N個の音節ペアは音節ペア＃βを含んでよく、音節ペア＃β内の第1の音節は「da kai kong tiao」であり、第2の音節は「da ke kong tiao」である。音節ペア＃βに対応する音節距離は、「da kai kong tiao」と「da ke kong tiao」との間の音節距離である。

別のオプションの例では、第1の音節および第2の音節のうちの一方は音節であってよく、他方は音節列であってよい。たとえば、第1の音節は「kai」であり、第2の音節は「a」であり、この場合、1番目の音節および第2の音節は異なる長さを有する。第1の音節および第2の音節は、ミュート音節εを埋めることによって同じ長さを有することができる。場合によっては、第1の音節および第2の音節は、動的時間ワーピング（dynamic time warping、DTW）オープンソースアルゴリズムを使用して整列させられてよい。

以下で、第1の音節および第2の音節が各々音節列である例を使用することにより、本出願のこの実施形態を記載する。第1の音節および第2の音節が各々音節である例に関する関連説明については、第1の音節および第2の音節が各々音節列である例に関する説明を参照されたい。

本出願のこの実施形態では、音節ペアは音節距離に対応し、音節ペアは、元のコーパスの音節および元のコーパスに対応する認識結果の音節を含む。たとえば、ラウドスピーカは「da kai kong tiao」を再生し、「da kai kong tiao」に対応する認識結果は「da ke kong tiao」である。元のコーパスの音節「da kai kong tiao」、および元のコーパスに対応する認識結果の音節「da ke kong tiao」は、音節ペアを形成し、音節距離に対応することができる。たとえば、ラウドスピーカは「da kai che chuang」を再生し、「da kai che chuang」に対応する認識結果は「da kai cha chuang」である。「da kai che chuang」および「da kai cha chuang」は音節ペアを形成し、音節距離に対応する。フィルタリングモデル訓練デバイスは、「da kai kong tiao」と「da ke kong tiao」との間の音節距離、および「da kai che chuang」と「da kai cha chuang」との間の音節距離を取得することができる。

フィルタリングモデル訓練デバイスは、複数の方式のうちの1つでN個の音節距離を取得できることを理解されたい。たとえば、別のデバイスによって送信されたN個の音節距離が受信されてよい。別の例では、N個の音節ペアと1対1の対応関係にあるN個の音節距離は、あらかじめ定義された音節距離規則に従って決定されてよい。

たとえば、本出願のこの実施形態では、第1のコーパスのN個の元の音節が決定されてよく、N個の元の音節、たとえば、「da kai kong tiao」に対応する音節「da kai kong tiao」は、ユーザ、事業者、または製造業者により訓練デバイス内で事前構成されてよい。

加えて、本出願のこの実施形態では、第1のコーパスのN個の認識された音節が決定されてよく、N個の認識された音節は、訓練されていない音声認識エンジンによって認識された音節、たとえば、「da ke kong tiao」に対応する音節「da ke kong tiao」であってよい。

次いで、たとえば、N個の音節距離を決定するために、各音節ペア内の元の音節と認識された音節との間の音節距離は、表1に従って決定されてよい。

220．N個の音節距離に基づいて第1のフィルタリングモデルを訓練して、音声認識エンジンに対応するターゲットフィルタリングモデル（訓練によって取得されたフィルタリングモデル）を取得し、ここで、音声認識エンジンおよびターゲットフィルタリングモデルは音声認識に使用される。

本出願のこの実施形態では、ターゲットフィルタリングモデルは、N個の音節距離に基づいて取得され、N個の音節距離は、音声認識エンジンの認識結果に基づいて取得される。これは、ターゲットフィルタリングモデルが音声認識エンジンの認識結果に基づいて取得されることと同等である。これに基づいて、本出願のこの実施形態の方法を使用して取得されたターゲットフィルタリングモデルは、音声認識エンジンに適合し、言い換えれば、ターゲットフィルタリングモデルは音声認識エンジンに対応する。

たとえば、ターゲットフィルタリングモデル＃aは音声認識エンジン＃Aに基づいて取得され、ターゲットフィルタリングモデル＃aは音声認識エンジン＃Aに適合し、ターゲットフィルタリングモデル＃aは音声認識エンジン＃Aと協働して音声認識を実行する。音声認識エンジン＃Aが音声認識エンジン＃Bと置き換えられた場合、音声認識エンジン＃Bに適合されたターゲットフィルタリングモデルを取得するために、音声認識エンジン＃Bに基づいてフィルタリングモデル訓練が再度実行される必要がある。「音声認識エンジン＃Aに基づいてターゲットフィルタリングモデル＃aが取得される」ことは、「音声認識エンジン＃Aの認識結果に基づいて複数の音節距離を取得し、複数の音節距離に基づく訓練によってターゲットフィルタリングモデル＃を取得すること」と理解されてよい。

言い換えれば、本出願のこの実施形態におけるターゲットフィルタリングモデルは専用である。ターゲットフィルタリングモデルは、（クラスまたは特定の）音声認識エンジンのタイプの認識結果に基づいて取得され、ターゲットフィルタリングモデルは、（クラスまたは特定の）音声認識エンジンのタイプ専用のフィルタリングモデルである。

オプションの例では、音声認識エンジンに適合されたターゲットフィルタリングモデルを取得するために、任意の音声認識エンジンに対してフィルタリングモデル訓練が実行される必要がある。

別のオプションの例では、モデルの音声認識エンジンに適合されたターゲットフィルタリングモデルを取得するために、任意のモデルの音声認識エンジンに対してフィルタリングモデル訓練が実行される必要がある。

また別のオプションの例では、製造業者の音声認識エンジンに適合されたターゲットフィルタリングモデルを取得するために、任意の製造業者の音声認識エンジンに対してフィルタリングモデル訓練が実行される必要がある。

本出願のこの実施形態における方法によれば、音声認識エンジンに適合されたターゲットフィルタリングモデルは訓練によって取得され、ターゲットフィルタリングモデルは音声認識エンジンと協働する。これは、音声認識エンジンによって実行される音声認識の精度の向上に役立つ。

さらに、場合によっては、本出願のこの実施形態では、音声認識エンジンおよびターゲットフィルタリングモデルは、特定の条件で取得された音声データを処理することができる。

1．「特定のピックアップデバイス」によって収集された音声データに対して認識処理を実行するために、ターゲットフィルタリングモデルおよび音声認識エンジンが使用される。

「特定のピックアップデバイス」は、具体的に、第iの音節ペアに対応する元のコーパスの音声データを収集するピックアップデバイスである。言い換えれば、「特定のピックアップデバイス」は、フィルタリングモデル訓練プロセスにおいて元のコーパスの音声データを収集するように構成されたピックアップデバイスとして理解されてもよい。

たとえば、ターゲットフィルタリングモデル＃aは、音声認識エンジン＃Aおよびピックアップデバイス＃1に基づいて取得される。音声認識エンジン＃A、ピックアップデバイス＃1、およびターゲットフィルタリングモデル＃aは、互いに適合する。音声認識エンジン＃Aは、ターゲットフィルタリングモデル＃aと協働して、後でピックアップデバイス＃1によって収集される音声データに対して音声認識を実行することができる。音声認識エンジン＃Aが変更されず、ピックアップデバイス＃1がピックアップデバイス＃2と置き換えられた場合、および音声認識エンジン＃Aおよびターゲットフィルタリングモデル＃aが、音声ピックアップデバイス＃2によって収集された音声データを処理するために使用される場合、取得された認識結果は正確でない可能性がある。この場合、音声ピックアップデバイス＃2および音声認識エンジン＃Aに基づいて、音声認識エンジン＃Aおよびピックアップデバイス＃2に適合されたターゲットフィルタリングモデルが取得される必要がある。「音声認識エンジン＃Aおよびピックアップデバイス＃1に基づいてターゲットフィルタリングモデル＃aが取得される」ことは、「音声認識エンジン＃Aがピックアップデバイス＃1によって収集された音声データに対して認識処理を実行した後に複数の音節距離を取得すること、および複数の音節距離に基づく訓練によってターゲットフィルタリングモデル＃aを取得すること」として理解されてよい。

具体的には、同じ音声認識エンジンの場合、フィルタリングモデル訓練プロセスでは、音声データを収集するために異なるピックアップデバイスが使用される場合、異なるターゲットフィルタリングモデルが取得されてよい。すなわち、ピックアップデバイス、音声認識エンジン、およびターゲットフィルタリングモデルは、互いに適合する。訓練プロセスでは、特定のタイプのピックアップデバイスに基づいて訓練が実行され、ターゲットフィルタリングモデルがその後使用されるときに、このタイプのピックアップデバイスに基づいて音声データが収集される必要がある。

本出願のこの実施形態では、ピックアップデバイスによって収集された音声データは、ピックアップデバイスによって出力された音声データと同じであると見なされてよいことを理解されたい。

2．「特定のデバイス環境」で収集された音声データに対して認識処理を実行するために、ターゲットフィルタリングモデルおよび音声認識エンジンが使用される。

「特定のデバイス環境」は、具体的に、第iの音節ペアに対応する元のコーパスの音声データが収集されるデバイス環境である。言い換えれば、「特定のデバイス環境」は、フィルタリングモデル訓練中に音声データを収集するために使用されるデバイス環境として理解されてよい。

たとえば、ターゲットフィルタリングモデル＃aは、音声認識エンジン＃Aおよびデバイス環境＃Iに基づいて取得される。音声認識エンジン＃A、デバイス環境＃I、およびターゲットフィルタリングモデル＃aは、互いに適合する。音声認識エンジン＃Aは、ターゲットフィルタリングモデル＃aと協働して、デバイス環境＃Iで収集された音声データを処理することができる。音声認識エンジン＃Aが変更されない場合、デバイス環境＃Iはデバイス環境＃IIと置き換えられる。音声認識エンジン＃Aがターゲットフィルタリングモデル＃aと協働して、デバイス環境＃IIで収集された音声データを処理する場合、取得された認識結果は正確でない可能性がある。この場合、デバイス環境＃IIおよび音声認識エンジン＃Aに基づいて、音声認識エンジン＃Aおよびデバイス環境＃IIに適合されたターゲットフィルタリングモデルが取得される必要がある。「音声認識エンジン＃Aおよびデバイス環境＃Iに基づいてターゲットフィルタリングモデル＃aが取得される」ことは、「音声認識エンジン＃Aがデバイス環境＃Iで収集された音声データに対して認識処理を実行した後に複数の音節距離を取得し、複数の音節距離に基づく訓練によってターゲットフィルタリングモデル＃aを取得すること」として理解されてよい。

具体的には、同じ音声認識エンジンの場合、フィルタリングモデル訓練プロセスでは、音声データが異なるデバイス環境で収集された場合、異なるターゲットフィルタリングモデルが取得されてよい。すなわち、デバイス環境、音声認識エンジン、およびターゲットフィルタリングモデルは、互いに適合する。訓練プロセスでは、フィルタリングモデルがデバイス環境で訓練され、ターゲットフィルタリングモデルがその後使用されるときに、音声データがデバイス環境で収集される。

場合によっては、音声認識エンジンが車両内音声認識に適用され、デバイス環境が車両キャビン環境を含んでよいことが想定される。具体的には、同じ音声認識エンジンの場合、音声データが異なるキャビン環境で収集された場合、異なるターゲットフィルタリングモデルが取得されてよい。すなわち、キャビン環境（デバイス環境）、音声認識エンジン、およびターゲットフィルタリングモデルは、互いに適合する。訓練プロセスでは、特定のデバイス環境で訓練が実行され、その後、デバイス環境で音声データが収集される。

3．「特定のデバイス環境」で「特定のピックアップデバイス」によって収集された音声データに対して認識処理を実行するために、ターゲットフィルタリングモデルおよび音声認識エンジンが使用される。

「特定のデバイス環境」および「特定のピックアップデバイス」については、前述の関連説明を参照されたい。すなわち、本出願のこの実施形態では、ピックアップデバイス、デバイス環境、音声認識エンジン、およびターゲットフィルタリングモデルは、互いに適合する。ピックアップデバイス、デバイス環境、音声認識エンジン、およびターゲットフィルタリングモデルのいずれか1つが変更された場合、他の3つに適合されたターゲットフィルタリングモデルを取得するために、フィルタリングモデル訓練が再度実行される必要がある。

デバイス環境がキャビン環境である例では、自動車に適用される音声認識エンジンはトラックに適用される音声認識エンジンと同じであり、自動車に適用されるピックアップデバイスはトラックに適用されるピックアップデバイスと同じである。自動車のキャビン環境はトラックのキャビン環境とは異なるので、自動車およびトラックのキャビン環境に適合するターゲットフィルタリングモデルは、個別に取得される必要がある。

さらに、場合によっては、同じ音声認識エンジン、同じピックアップデバイス、および同じデバイス環境の場合、汎用ターゲットフィルタリングモデルが使用されてよい。たとえば、車両＃Aおよび車両＃Bのデバイス環境は同じであり（たとえば、車両＃Aおよび車両＃Bは同じモデルかつ同じブランドであり）、車両＃Aおよび車両＃Bに適用される音声認識エンジンは同じであり、車両＃Aおよび車両＃Bに適用されるピックアップデバイスは同じである。車両＃Aのキャビン環境では、車両＃Aに適用された音声認識エンジンおよび音声ピックアップデバイスに基づいて取得されたターゲットフィルタリングモデルは、音声認識のために車両＃Bに適用されてよい。

図3は、本出願の一実施形態による、フィルタリングモデル訓練システムの一例の概略図である。図3に示されたように、システム200は、
ピックアップデバイス210、フィルタリングモデル220、および音声認識エンジン230
を含んでよい。車両内音声認識では、場合によっては、システム200はラウドスピーカ201をさらに含んでよく、ラウドスピーカ201は元のコーパスを再生するように構成される。

運転者の構音の場所をよりよくシミュレートするために、ラウドスピーカ201は運転席の頭の位置に取り付けられてよい。あるいは、車両内部の複数の位置にあるラウドスピーカ201は、指向性音声再生技術を使用して制御することができ、その結果、ラウドスピーカ201によって出力された音声は重ね合わされ、特殊な指向性を有する。

具体的には、ラウドスピーカ201は元のコーパスを再生し、ピックアップデバイス210は元のコーパスの音声データを収集し、第1のフィルタリングモデル220に音声データを入力する。フィルタリングモデル220は、入力された音声データを処理し、音声認識エンジン230に処理結果を入力し、音声認識エンジン230は認識結果を出力する。システム200に基づいて、音節ペアに対応する音節距離を取得することができる。

同様にして、システム200に基づいて、N個の音節ペアに対応するN個の音節距離が取得されてよい。N個の音節距離が取得された後、フィルタリングモデル220は、音声認識エンジン230に適合されたターゲットフィルタリングモデルを取得するために、N個の音節距離に基づいて訓練されてよい。

さらに、場合によっては、ターゲットフィルタリングモデルは様々な動作条件に適合することができる。

具体的には、ターゲットフィルタリングモデルおよび音声認識エンジンは第1のデバイスに適用され、ターゲットフィルタリングモデルのモデルアルゴリズムの変数は、第1のデバイスに対応する動作条件変数を含む。言い換えれば、フィルタリングモデル訓練プロセスでは、フィルタリングモデルへの入力は、音声データ、および音声データを収集するための動作条件に対応する動作条件変数値を含んでよい。場合によっては、第1のデバイスは車両であってよく、第1のデバイスに対応する動作条件変数は、車両に対応する動作条件変数である。

これに基づいて、ターゲットフィルタリングモデルへの入力は、ピックアップデバイスによって収集された音声データを含むだけでなく、動作条件変数値も含んでよい。

たとえば、ラウドスピーカが第1の動作条件で「da kai kong tiao」を再生すると仮定する。第1の動作条件における動作条件変数値、およびピックアップデバイスによって収集され、「da kai kong tiao」に対応する音声データが、ターゲットフィルタリングモデルに入力される。ピックアップデバイスによって収集され、「da kai kong tiao」に対応する音声データは、第1のフィルタリングモデルがフィルタリング処理を実行する対象であり、第1の動作条件の動作条件変数値は、ターゲットフィルタリングモデルの条件付けに使用される。

前述の説明から、訓練によってターゲットフィルタリングモデルを取得するために、元のコーパス、および元のコーパスに対応する認識結果が学習される必要があることが分かる。認識結果は、音声認識エンジンによる出力によって取得されてよい。場合によっては、認識結果に対応する元のコーパスは、以下の方式のうちの少なくとも1つで取得されてよい。

方式＃1：

第iの音節ペアに対応する元のコーパスは、フィルタリングモデルを訓練するためにあらかじめ定義されたコーパスサンプルである（またはそれに属する）。元のコーパスおよび元のコーパスに対応する認識結果は、特定の規則に従って決定されてよい。

ラウドスピーカは、特定の規則に従って較正コーパスを再生することができ、またはユーザは、特定の規則に従ってコーパスサンプルを読み取り、その結果、元のコーパスおよび元のコーパスに対応する認識結果を取得することができる。

オプションの例では、較正スクリプトが少なくとも1つのコーパスサンプルを記録し、較正スクリプトに基づいて元のコーパスが取得されてよい。

たとえば、較正スクリプトの各行はテキストであり、各テキストはコーパスサンプルに対応する。たとえば、較正スクリプトの第1の行は「da kai kong tiao」を記録し、第2の行は「da kai che chuang」を記録する。元のコーパス、および元のコーパスに対応する認識結果は、特定の規則に従って較正コーパスに基づいて決定される。

場合によっては、N個の音節ペアはM個の元のコーパスに対応してよく、ここで、1≦M≦Nである。第1のデバイスは複数の動作条件に対応し、複数の動作条件でラウドスピーカによって再生される元のコーパスは、同じコーパスを含んでよい。たとえば、ラウドスピーカは各動作条件で（英語では「FMラジオをオンにする」を意味する）「da kai shou yin ji」を再生する。この場合、MはN未満である。

場合によっては、動作条件と元のコーパスとの間に対応関係が存在し、動作条件に対応するM個の元のコーパスは、デバイスの動作条件に基づいて決定されてよい。

場合によっては、M個の元のコーパスは、ユーザの言語選択情報およびコーパスサンプルに含まれる音節のタイプのうちの少なくとも1つに基づいて、複数のコーパスサンプルから決定される。

具体的には、M個の元のコーパスは、ユーザの言語選択（たとえば、ユーザがコーパスを使用する頻度が高いほど、そのコーパスが選択される可能性が高いことを示す）および音節多様性（たとえば、コーパスに含まれる音節が多いほど、コーパスが選択される可能性が高いことを示す）に基づいて、複数のコーパスサンプルから選択されてよい。

オプションの例では、フィルタリングモデルを訓練するために使用されるM個の元のコーパスのうちの少なくとも1つは、以下の式に従って決定されてよい。
η（r）＝w_f×f（r）＋w_c×c（r）（1）
ここで、w_fはユーザの言語選択の重みを示し、f（r）は第rのコーパスサンプルに対するユーザの言語選択のスコアを示し、w_cは音節多様性の重みを示し、c（r）は第rのコーパスの音節多様性のスコアを示し、η（r）は第rのコーパスの総合スコアを示す。比較的高い総合スコアを有する少なくとも1つのコーパスサンプルは、モデル訓練に使用される少なくとも1つの元のコーパスとして、式（1）に従ってコーパスサンプルから選択されてよい。

場合によっては、M個の元のコーパスの中の第（j＋k）の元のコーパスは、第jの元のコーパスに基づいて複数のコーパスサンプルから決定され、第jの元のコーパスは、M個の元のコーパスの中の元のコーパスであり、ここで、k≧1であり、1≦M≦Nである。

たとえば、第（j＋k）の元のコーパスは、具体的に、第jの元のコーパスの音声データの認識状態、および第jの元のコーパスと第（j＋k）の元のコーパスとの間の音節距離のうちの少なくとも1つに基づいて、複数のコーパスサンプルから決定される。

具体的には、第jの元のコーパスが正しく認識された（具体的には、第jの元のコーパスと第jの元のコーパスに対応する認識結果との間の音節距離が0に等しい）場合、それは、第jの元のコーパスに含まれる音節が歪んでいないことを示す。第（j＋k）の元のコーパスが選択されるべきとき、第jの元のコーパスの音節とはできるだけ遠く異なる音節によって形成されたコーパスサンプル、たとえば、できるだけ大きい第jの元のコーパスからの音節距離を有するコーパスサンプルが選択されてよい。第jの元のコーパスが正しく認識されない（具体的には、第jの元のコーパスと第jの元のコーパスに対応する認識結果との間の音節距離が0に等しくない）場合、第jの元のコーパスの音節に類似する音節によって形成されたコーパスサンプル、たとえば、できるだけ小さい第jの元のコーパスからの音節距離を有するコーパスサンプルが選択されてよく、その結果、フィルタリングモジュールは起こり得る歪みをさらに学習する。

オプションの例では、第jの元のコーパスが正しく認識された場合、第（j＋k）の元のコーパスは以下の式に従って決定されてよい。
η（r）＝w_s×s（j）＋w_f×f（r）＋w_c×c（r）（2）

式（2）のパラメータについては、式（1）のパラメータの関連説明を参照されたい。式では、w_sは音節距離の重みを表し、s（j）は第（j＋k）の元のコーパスと第jの元のコーパスとの間の音節距離を表す。総合スコアが最も高いコーパスサンプルは、第（j＋k）の元のコーパスとして式（2）に従ってコーパスサンプルから選択されてよい。

場合によっては、第jの元のコーパスが正しく認識されない場合、第（j＋k）の元のコーパスは以下の式に従って決定されてよい。
η（r）＝－w_s×s（j）＋w_f×f（r）＋w_c×c（r）（3）

式（3）のパラメータについては、式（2）のパラメータの関連説明を参照されたい。総合スコアが最も高いコーパスサンプルは、第（j＋k）の元のコーパスとして式（3）に従ってコーパスサンプルから選択されてよい。

第（j＋k）の元のコーパスは第jの元のコーパスに基づいて決定され、元のコーパスを動的に選択するための方法は、適切な元のコーパスを選択するのに役立ち、モデルの訓練効率を向上させ、モデルの訓練時間を短縮するのに役立つ。

上記から、元のコーパスが後で選択されるべきとき、以下の要因：現在の元のコーパスの音声データの認識状況、コーパスサンプルと現在の元のコーパスとの間の音節距離、コーパスサンプルに含まれる音節多様性（diversity）の量、ユーザの言語選択などのうちの少なくとも1つが考慮されてよいことが分かる。

元のコーパスを選択することは、モデルの訓練効率を向上させるのに役立ち、モデルの訓練時間を短縮するのに役立つ。

方式＃2：

元のコーパスは、ユーザ指示に基づいて取得される。

具体的には、方法100は、
第1のユーザ指示を取得するステップであって、第1のユーザ指示が音声指示である、ステップと、
第1のユーザ指示が取得された後のプリセット時間期間内に第2のユーザ指示を取得するステップであって、第2のユーザ指示が音声指示または手動指示である、ステップと、
第2のユーザ指示および第1のユーザ指示が同じユーザの実際の意図に対応する場合、第1の音節ペアに対応する第1の音節距離を決定するステップであって、第1の音節がN個の音節ペアのうちの1つであり、第1の音節ペアの中の第1の音節が第2のユーザ指示に対応するコーパスの音節であり、第1の音節ペアの中の第2の音節が第1のユーザ指示に対応する認識結果の音節である、ステップと
をさらに含んでよい。すなわち、第2のユーザ指示に対応するコーパスは、第1のユーザ指示の元のコーパスである。

プリセット時間期間は、第1のユーザ指示と第2のユーザ指示との間の因果関係を関連付けるために使用されることを理解されたい。

場合によっては、第2のユーザ指示および第1のユーザ指示が同じユーザの実際の意図に対応するかどうかを判定することは、第2のユーザ指示および第1のユーザ指示に対応するコーパスが真値条件を満たすかどうかを判定することを含んでよい。たとえば、真値条件を満たすことは、以下の不等式を満たすことを含んでよい。
0＜D＜THまたは0＜D≦TH（4）
ここで、Dは、第1のユーザ指示に対応する認識結果の音節と第2のユーザ指示に対応するコーパスの音節との間の音節距離を表し、THは第3のしきい値である。

たとえば、システムは第1のユーザ指示に対応する音声入力を検出し、音声入力に基づいて取得された認識結果u＝｛w₁，．．．，w_m｝を取得し、ここで、w_q（q＝1，．．．，m）は単一の漢字であり、mは音声入力内の文字の総数である。uの音節列は、漢字と音節との間の対応関係に基づいて、p_u＝｛p₁₁，．．．，p_mt｝として表されてよく、ここで、p_ijは第iの漢字の第jの音節を表す。プリセット持続時間内で、ユーザ音声入力後、システムが第2のユーザ指示を検出し、第2のユーザ指示に対応するコーパスが

であり、

の音節列が

として表されてよいことが想定される。p_uの長さが

の長さと異なる場合、p_uと

との間の音節距離を計算するために、ミュート音節εを埋めることにより、2つの音節列の長さが同じになってよい。場合によっては、2つの列の音節は、DTWオープンソースアルゴリズムに従って整列させられてよい。

整列させられ充填された音節列の長さがNであり、2つの列の間の音節距離Dがp_uであり、

が以下の式を満たすことができることが想定される。

ここで、dist（・）は音節距離を表し、dist（・）の値は、プリセット音節距離規則に従って決定されてよい。Dが0より大きく、第3のしきい値より小さい場合、第2のユーザ指示に対応するコーパスが真値条件を満たすと判断されてよい。

オプションの例では、第2のユーザ指示は手動指示であり、第2のユーザ指示に対応するコーパスが真値条件を満たす場合、第2のユーザ指示に対応するコーパスは第1のユーザ指示の元のコーパスであると判断されてよい。

たとえば、システムは第1のユーザ指示に対応する音声入力を検出し、認識結果uを取得するために、第1のユーザ指示に対して認識処理が実行される。プリセット時間期間内で、システムは第2のユーザ指示を検出し、システムは、車両センサを使用することにより、第2のユーザ指示に対応するコーパス（ユーザの実際の意図）を取得することができる。ユーザの実際の意図は、（「天窓を制御する」を意味する）「tian chuang kong zhi」および（「エアコンの温度を調整する」を意味する）「kong tiao tiao wen」などのあらかじめ定義された限定列挙セットである。車両センサデータには、コントローラローカルエリアネットワーク（controller area network、CAN）バスデータ、インフォテインメントシステムによってタッチスクリーン上でキャプチャされたユーザクリックおよび位置座標データ、赤外線センサによってキャプチャされたユーザジェスチャデータおよび車両カメラデータなどが含まれる。第2のユーザ指示が取得された後、第2のユーザ指示に対応するコーパスは、

として表記されてよく、

と認識結果uとの間の音節距離Dが計算される。Dが真値条件を満たす場合、第2のユーザ指示および第1のユーザ指示は同じユーザの実際の意図に対応し、第2のユーザ指示に対応するコーパスは、第1のユーザ指示に対応する認識結果の元のコーパスである。

別のオプションの例では、第2のユーザ指示は音声指示であり、第2のユーザ指示に対応するコーパスが真値条件を満たし、第2のユーザ指示の後のプリセット時間期間内に真値条件を満たす第3のユーザ指示が受信されない場合、第2のユーザ指示に対応するコーパスは第1のユーザ指示の元のコーパスであると判断されてよい。

たとえば、第1のユーザ指示に対応する音声データに対して認識処理が実行された後に取得された認識結果の音節と、第2のユーザ指示に対応するコーパスの音節との間の音節距離が第3のしきい値以下であり、第2のユーザ指示が取得された後のプリセット時間期間内に第3のユーザ指示が取得されない場合、第2のユーザ指示および第1のユーザ指示が同じユーザの実際の意図に対応すると判断される。第1のユーザ指示に対応する音声データに対して認識処理が実行された後に取得された認識結果の音節と、第3のユーザ指示に対応するコーパスの音節との間の音節距離は、第3のしきい値以下である。

方式＃1でターゲットフィルタリングモデルを取得することは、オフラインフィルタリングモデル訓練方法であると見なされてよい。この方法では、ラウドスピーカがコーパスサンプルに基づいて元のコーパスを再生することができ、その結果、音声認識エンジンに適合されたターゲットフィルタリングモデルを取得するために、ラウドスピーカによって再生された音声データに対して認識処理が実行される。車両の例では、ターゲットフィルタリングモデルは、車両が製造業者から納品される前の訓練によって取得されてよい。

方式＃2でターゲットフィルタリングモデルを取得することは、オンラインフィルタリングモデル訓練方法であると見なされてよい。方法では、認識結果に対応する元のコーパスはユーザの修正行動（手動修正または音声修正）に基づいて決定されてよく、その結果、音声認識エンジンに適合されたターゲットフィルタリングモデルを取得するために、ラウドスピーカによって再生された音声データに対して認識処理が実行される。車両の例では、ターゲットフィルタリングモデルは、車両が製造業者から納品された後の車両使用フェーズにおいてユーザによる訓練によって取得されてよい。

上記は、本出願の実施形態における方法を全般的観点から記載している。ステップ120は複数の実装形態を含んでよい。以下、ステップ120を詳細に記載する。

図4は、本出願の一実施形態による、フィルタリングモデル訓練システムの別の例の概略図である。図4に示されたように、システム300は、フィルタリングモデル310および採点モデル320を含む。

フィルタリングモデル310は、少なくとも1つの再帰型ニューラルネットワーク（recurrent neural networks、RNN）ユニットを含んでよい。たとえば、フィルタリングモデル310は、少なくとも1つのゲート化再帰ユニット（gated recurrent unit、GRU）ユニットまたは長短期メモリ（long short－term memory、LSTM）ユニットを含んでよい。採点モデル320は、少なくとも1つの回帰モデル（またはニューラルネットワーク）を含んでよい。たとえば、採点モデル320は、少なくとも1つの線形回帰モデル（またはフィードフォワード深層ニューラルネットワーク）を含んでよい。

図3に示されたように、フィルタリングモデル310への入力は、ピックアップデバイスの出力h_jを含んでよく、h_jは、ピックアップデバイスによって出力された第j（j＝1，．．．，t）の音声フレームの時間領域特徴または周波数領域特徴であってよい。

場合によっては、フィルタリングモデル310への入力は、動作条件変数値をさらに含んでよい。モデルの訓練中、動作条件変数値は、フィルタリングモデルの条件付け（conditioning）に使用されてよいことを理解されたい。たとえば、動作条件変数値は、フィルタリングモデルに対する条件付けを実行するために、ユニット状態の初期値およびフィルタリングモデルへの入力として使用されてよい。たとえば、車両では、フィルタリングモデルに対する条件付けを実行するために、車両速度、車両の窓の状況、道路タイプ、エアコンの状況、ワイパの状況などのパラメータのうちの少なくとも1つがフィルタリングモデルに入力されてよい。

図3に示されたように、採点モデル320の入力y_jはフィルタリングモデル310の出力であってよく、採点モデル320の出力はスカラー値でs_jである。本出願のこの実施形態では、s_jは、音声認識エンジンの音声データy_jの認識結果の音節と、元のコーパスに対応する音節との間の距離を表すことができる。

図3に示されたアーキテクチャでは、各音声フレームは音節距離に対応する。しかしながら、1つの音節は、通常、複数の音声フレームに対応し、音声フレームと音節との間の対応関係を決定するために、追加の処理が実行される必要がある。

たとえば、テキストツー音声（text to speech、TTS）中に生成された元の音声信号の場合、各文字の構音持続時間は、パラメータを使用することによって制御されてよい。各音節の持続時間は、構音持続時間および共通の構音習性（たとえば、構音持続時間全体に対する各音節の長さの比率）に基づいて計算されてよい。「da kai kong tiao」の例では、TTSパラメータ「da（da）」：0．4秒、「kai（kai）」：0．5秒、「kong（kong）」：0．4秒、および「tiao（tiao）」：0．3秒を使用することにより、各文字の構音持続時間が制御されることが想定される。共通の構音習性は、頭文字の子音、単一の母音、および複合母音の比率が同じであり、次いで、各音節によって占有される時間長が以下のように計算されてよいことが想定される。
d（da）：0．4×1／2＝0．2秒
a（da）：0．4×1／2＝0．2秒
k（kai）：0．5×1／2＝0．25秒
ai（kai）：0．5×1／2＝0．25秒
k（kong）：0．4×1／2＝0．2秒
ong（kong）：0．4×1／2＝0．2秒
t（tiao）：0．3×1／3＝0．1秒
i（tiao）：0．3×1／3＝0．1秒
ao（tiao）：0．3×1／3＝0．1秒

一般に、音声認識エンジンは、フレームフローを使用してオーディオのアップロードをサポートすることができる、言い換えれば、音声フレームを音声認識エンジンにアップロードすることができる。音声認識エンジンはテキスト結果を返すことができる。このモードでは、音声フレームは返されたテキストと関連付けられてよい。たとえば、「da kai kong tiao」のオーディオは、音声認識用の音声認識エンジンにフレームフローを使用してアップロードされる。音声認識エンジンは0．3秒で漢字「da」を返し、最初の0．3秒のすべての音声フレームは「da」と関連付けられてよい。0．6秒において、音声認識エンジンは漢字「ke」を返す、すなわち、「kai」は誤って「ke」として認識される。この場合、0．3秒から0．6秒までのすべての音声フレームは「ke」と関連付けられてよい。さらに、音声フレームと音節との間の対応関係は、上述された発音習性に応じて決定されてよい。

たとえば、「da」と関連付けられた0．3秒の音声フレームでは、最初の0．15秒の各音声フレームが音節「d」に対応し、最後の0．15秒の各音声フレームが音節「a」に対応する。たとえば、「ke」と関連付けられた0．3秒の音声フレームでは、最初の0．15秒の各音声フレームが音節「k」に対応し、最後の0．15秒の各音声フレームが音節「e」に対応する。

この解決策では、各音声フレームは音節距離に対応し、音節距離は比較的細かい粒度を有する。この解決策では、採点モデルおよびフィルタリングモデルのうちの少なくとも1つをよりよく訓練することができる。しかしながら、この解決策では、（前述されたように）音声フレームおよび音節が処理される必要があり、その結果、さらなる計算負荷が増大し、位置合わせ誤り値が発生する可能性がある。これに基づいて、音声フレームと音節との間の位置合わせ要件を除去するために、プーリング（pooling）レイヤが使用されてよい。

図5は、本出願の一実施形態による、フィルタリングモデル訓練システムのまた別の例の概略図である。図5に示されたように、システム400は、フィルタリングモデル410および採点モデル420を含む。

フィルタリングモデル410の詳細な説明については、フィルタリングモデル310の前述の関連説明を参照されたい。採点モデル420は少なくとも1つの回帰モデルまたはニューラルネットワーク421を含み、採点モデル420はプーリングレイヤ422をさらに含む。

プーリングレイヤ422は、平均プーリング（average pooling）レイヤまたは最大プーリング（max pooling）レイヤを使用することができる。プーリングレイヤ422の出力は、回帰モデル（またはニューラルネットワーク）421に入り、採点モデル420の出力はスカラー値sであり、ここで、sは元のコーパスと元のコーパスに対応する認識結果との間の音節距離を表すことができる。言い換えれば、システムアーキテクチャ400では、採点モデル420の出力は、2つの音節列（または2つのコーパス）間の音節距離を表すことができる。

プーリングレイヤが導入され、音声フレームレイヤで音節の配置を考慮する必要がなく、それにより、アルゴリズムの複雑さが軽減される。他のステップは上述されたステップと同じである。

言い換えれば、システム300が使用される場合、第1の音節は音節であってよく、第2の音節は音節であってよく、第iの音節ペアに対応するコーパスの音声データは1つの音声フレームであってよい。

システム400が使用される場合、第1の音節は音節列であってよく、第2の音節は音節列であってよく、第iの音節に対応するコーパスの音声データは複数の音声フレームを含んでよい。

すなわち、図4に記載されたシステム300が使用される場合、各音声フレームは1つの音節距離に対応してよい。図5に記載されたシステム400が使用される場合、各元のコーパス（たとえば、各文字、各単語、または各文）の複数の音声フレームは、1つの音節距離に対応してよい。

図6は、本出願の一実施形態による、フィルタリングモデル訓練方法の別の例の概略フローチャートである。図6に示されたように、120は以下のステップを含んでよい。

121．N個の音節距離に基づく訓練によって第1の採点モデルを取得する。

第1の採点モデルによって出力されたスカラー値は、元の音節と元の音節に対応する認識された音節との間の音節距離を示すために使用される。元の音節は元のコーパスの音節であり、認識された音節は、音声認識エンジンが音声データを処理した後に取得された認識結果の音節である。たとえば、第iの音節ペアに対応する元のコーパスの音声データは、第1のフィルタリングモデルによって処理され、次いで、第iの音節ペアに対応する音節距離を表すために使用されるスカラー値を取得するために、第1の採点モデルに入力される。

訓練によって第1の採点モデルを取得することは、第1の採点モデルを取得するために採点モデルを訓練することとして理解されてよいことを理解されたい。採点モデル訓練プロセスでは、採点モデルへの入力は、第1のフィルタリングモデルの出力であってよい。場合によっては、第1のフィルタリングモデルは、以下のいくつかのタイプのうちの1つを含んでよい。

（1）第1のフィルタリングモデルは、初期化されたフィルタリングモデルであってよい。

たとえば、フィルタリングモデルの伝達関数は、単位関数に初期化されてよい。具体的には、第1のフィルタリングモデルの伝達関数は単位関数であり、第1のフィルタリングモデルは入力音声フレームを処理しなくてよい。

（2）第1のフィルタリングモデルは、従来のハイパスフィルタであってよい。

第1のフィルタリングモデルのフィルタリングモデルにかかわらず、訓練によって第1の採点モデルを取得するプロセスでは、第1のフィルタリングモデルのモデルパラメータ（または重み）は変化しないままである。

本出願のこの実施形態では、N個の音節距離の各々は、元のコーパスと元のコーパスに対応する認識結果との間の音節距離であり、採点モデルを訓練する目的は、採点モデルによって出力されたスカラー値と音節距離との間の誤り値を最小化することであることを理解されたい。言い換えれば、採点モデルを訓練する目的は、元の音節と認識された音節との間の音節距離を適合させる（またはシミュレートする）ために使用される第1の採点モデルを取得することである。

場合によっては、N個の音節距離は、第1の採点モデルによって出力されたN個の第1のスカラー値と1対1の対応関係にあり、N個の誤り値を取得するために、N個の音節距離とN個の第1のスカラー値の間で個別に減算が実行される。N個の誤り値の平均値は、第1のしきい値以下である。N個の第1のスカラー値の中の第iの第1のスカラー値は、第iの音節ペアに対応する元のコーパスの音声データが第1のフィルタリングモデルによって処理された後に取得されたスカラー値であり、次いで、第1の採点モデルに入力される。第iの音節ペアおよび第iの第1のスカラー値は、同じ音節距離に対応する。

本出願のこの実施形態における平均値は、算術平均値、幾何平均値、二乗平均値、平均二乗平均値、調和平均値、加重平均値などであってよいことを理解されたい。本出願のこの実施形態では、第1の採点モデルによって出力された第1のスカラー値と音節ペアに対応する音節距離との間の誤り値の平均値は、第1のしきい値以下である。第1の採点モデルによって出力されたスカラー値は、元の音節と認識された音節との間の音節距離（または誤り）を示すために使用されてよいと見なされてよい。

さらに、第1の採点モデルは、複数の方式のうちの1つでN個の音節距離に基づく訓練によって取得されてよい。

たとえば、採点モデルS（y；θ_s）は微分可能な関数として定義されてよく、ここで、yはフィルタリングモデルの出力を表す。採点モデル訓練プロセスでは、yは第1のフィルタリングモデルの出力を具体的に表してよく、θ_sは採点モデルのモデルパラメータ（または重み）を表す。S（y；θ_s）の出力はスカラー値である。採点モデルを訓練する目的は、元の音節と認識された音節との間の音節距離を適合させる（またはシミュレートする）ために使用される第1の採点モデルを取得することである。採点モデルの訓練は、採点モデルアルゴリズム内の採点モデルのモデルパラメータを調整することとして理解されてよい。

現在の採点モデルによって出力されたスカラー値と対応する音節距離との間の誤り値は、以下の式に従って決定されてよい。
e_s（i）＝z（i）－S（y（i）；θ_s）（6）
ここで、z（i）は第iの音節ペアに対応する音節距離を表し、S（y（i）；θ_s）は、第iの音節ペアに対応する元のコーパスの音声データが第1のフィルタリングモデルによって処理された後に取得されたスカラー値を表し、次いで、現在の採点モデルに入力され、y（i）は、第1のフィルタリングモデルが第iの音節に対応する元のコーパスの音声データを処理した後に取得された出力を表し、θ_sは現在の採点モデルのモデルパラメータを表し、e_s（i）は、第iの音節ペアに対応する音節距離と、第iの音節ペアに対応する元のコーパスの音声データが第1のフィルタリングモデルによって処理された後に取得されたスカラー値との間の誤り値を表し、次いで、第1の採点モデルに入力される。

たとえば、第iの元のコーパスが「da kai kong tiao」であり、「da kai kong tiao」に対応し、ピックアップデバイスによって出力された音声データが、第1のフィルタリングモデルで処理され、次いで、「da ke kong tiao」を取得するために、音声認識エンジンに入力されることが想定される。元のコーパスは「da kai kong tiao」であり、元のコーパスに対応する認識結果は「da ke kong tiao」である。表1によれば、z（i）＝0．2であり、z（i）＝0．2が式（1）に代入されると判断されてよい。「da kai kong tiao」と「da kai kong tiao」に対応する音声データが第1のフィルタリングモデルによって処理された後に取得されたスカラー値との間の誤差は、次いで、現在の採点モデルに入力される。

場合によっては、採点モデルは、ミニバッチ（min－batch）処理を介して訓練されてよい。場合によっては、バッチの数は、訓練コーパスの数に基づいて決定されてよい。たとえば、m個の元のコーパスは1つのバッチとして使用されてよい。たとえば、第k（k≧1）のバッチは最初m個の元のコーパスを含み、採点モデルに対応する訓練の第kのバッチの中の誤り値の平均二乗平均値は、

として表現されてよい。

E（θ_s）は採点モデルに対応する訓練の第kのバッチの誤り値の平均二乗平均値（または平均二乗誤り値）を表し、e_s（i）は第iの音節距離と第iの第1のスカラー値との間の差を表してよく、第iの音節距離は、第iの元のコーパスの音節と第iの元のコーパスに対応する認識結果の音節との間の音節距離であり、第iの第1のスカラー値は、第iの元のコーパスに対応する音声データが第1のフィルタリングモデルによって処理された後に取得されたスカラー値との間の誤り値であり、次いで、現在の採点モデルに入力されることを理解されたい。

モデルパラメータは、確率的勾配降下法または時間を介する逆伝播（back propagation through time、BPTT）法を使用して更新されてよい。θ_sの更新された値θ_s’は、以下の式を満たすことができる。
θ_s’＝η∇E（θ_s）（8）
ここで、ηは学習率ハイパーパラメータを表し、∇は勾配演算子を表す。

E（θ_s’）が第1のしきい値より大きい場合、θ_s’を更新し続けるために、確率的勾配降下法またはBPTTが使用されてよい。

E（θ_s’）が第1のしきい値以下である場合、θ_s’に基づく採点モデルが第1の採点モデルであると判断されてよいか、またはθ_s’に基づく採点モデル収束が決定されてよい。場合によっては、採点モデル収束は以下のように理解されてよい。採点モデルは、平均誤り値が第1のしきい値以下である採点モデルを取得するために、訓練コーパスの事前設定された数、訓練コーパスの事前設定された内容、または音節距離の事前設定された量に基づいて訓練される。平均誤り値は、採点モデルによって出力されたスカラー値と対応する音節距離との間の誤り値の平均値であることを理解されたい。

122．第1の採点モデルに基づいて第1のフィルタリングモデルを訓練してターゲットフィルタリングモデルを取得する。

第1の採点モデルによって出力されたスカラー値は、元の音節と認識された音節との間の音節距離を示すために使用されてよい。第1の採点モデルによって出力されたより小さいスカラー値は、元の音節が元の音節に対応する認識された音節に近い（誤りが小さい）、すなわち、音声認識エンジンの認識結果がより正確であることを示すことができる。これに基づいて、ターゲットフィルタリングモデルは、ターゲットフィルタリングモデルに基づく第1の採点モデルによって出力される値を最小化するために、第1の採点モデルに基づく訓練によって取得されてよい。

場合によっては、第1の採点モデルによって出力されたN個の第2のスカラー値の平均値は、第2のしきい値以下である。第iの音節ペアに対応する元のコーパスの音声データは、ターゲットフィルタリングモデルによって処理され、次いで、N個の第2のスカラー値の中の第iの第2のスカラー値を取得するために、第1の採点モデルに入力される。

前述の第1のスカラー値は、第1のフィルタリングモデルに基づく採点モデルによって出力されたスカラー値として理解されてよいことを理解されたい。第2のスカラー値は、ターゲットフィルタリングモデルに基づく第1の採点モデルによって出力されたスカラー値として理解されてよい。

本出願のこの実施形態では、第1の採点モデルは、複数の方式のうちの1つでN個の音節距離に基づく訓練によって取得されてよい。

たとえば、フィルタリングモデルF（x；θ_f）は微分可能な関数として定義されてよく、ここで、xは元のコーパスに対応する音声データを表すことができるか、またはxは元のコーパスに対応する音声データおよび動作条件変数値を含む。動作条件変数値は、フィルタリングモデルに対する条件付けに使用される。θ_fはフィルタリングモデルのモデルパラメータを表す。F（x；θ_f）はフィルタリングモデルの出力を表す。フィルタリングモデルを訓練する目的は、第1の採点モデルの出力を最小化すること、すなわち、元の音節と認識された音節との間の音節距離を最小化することである。音節距離は負の値ではないので、音節距離は最低でもゼロである。

場合によっては、ターゲットフィルタリングモデルは、以下の式に従って訓練によって取得される。
e_f（i）＝S（F（x（i）；θ_f）；θ_s＿T）（9）
S（F（x（i）；θ_f）；θ_s＿T）は、第iの音節ペアに対応する元のコーパスの音声データが現在のフィルタリングモデルによって処理された後に取得されたスカラー値を表し、次いで、第1の採点モデルに入力され、θ_s＿Tは、第1の採点モデルのモデルパラメータを表し、F（x（i）；θ_f）は、現在のフィルタリングモデルが第iの音節ペアに対応する元のコーパスの音声データを処理した後に取得された出力を表し、θ_fは現在のフィルタリングモデルのモデルパラメータを表し、x（i）は、第iの音節ペアに対応する元のコーパスの音声データを表すか、またはx（i）は、第iの音節ペアに対応する元のコーパスの音声データ、および第iの音節ペアに対応する元のコーパスの音声データを収集するための動作条件変数値を表す。

説明と同様に、フィルタリングモデルはミニバッチ処理によって訓練されてよい。ミニバッチ処理の詳細な説明については、前述の関連説明を参照されたい。たとえば、訓練の第k（k≧1）のバッチは最初m個の元のコーパスを含み、採点モデルに対応する訓練の第kのバッチの中の誤り値の平均二乗平均値は、

として表現されてよく、e_f（i）は、第iの元のコーパス用の第1の採点モデルによって出力されたスカラー値を表してよいことが想定される。

モデルパラメータは、確率的勾配降下法またはBPTTを使用して更新されてよい。θ_fの更新された値θ_f’は、以下の式を満たすことができる。
θ_f’＝η∇E（θ_f）（11）

E（θ_f’）が第2のしきい値より大きい場合、θ_f’を更新し続けるために、確率的勾配降下法またはBPTTが使用されてよい。

E（θ_f’）が第2のしきい値以下である場合、θ_f’に基づくフィルタリングモデルは、ターゲットフィルタリングモデルとして判断されてよいか、またはθ_f’に基づくフィルタリングモデル収束が決定されてよい。フィルタリングモデル収束については、採点モデル収束の前述の関連説明を参照されたい。簡潔にするために、本明細書では詳細は再び記載されない。

フィルタリングモデルが第1の採点モデルに基づいて訓練されるとき、第1の採点モデルのニューラルネットワークのモデルパラメータが凍結される必要があることに留意されたい。ニューラルネットワークの1つまたは複数のレイヤのモデルパラメータを凍結する様々な実装形態が存在してよい。レイヤの学習率はゼロに設定されてよいか、またはレイヤのモデルパラメータは、モデルパラメータの大きい変化を戒めるために、比較的大きい正則化項（regularization term）と関連付けられてよい。

前述の説明に基づいて、本出願のこの実施形態では、第1の採点モデルによって出力されたスカラー値は、元の音節と認識された音節との間の音節距離を示すことができ、ターゲットフィルタリングモデルは、第1の採点モデルに基づく訓練によって取得され、第1の採点モデルの出力はターゲットフィルタリングモデルに基づいて最小化され、これは、元の音節と認識された音節との間の音節距離を最小化すること（または元の音節と認識された音節との間の誤り値を最小化すること）と同等である。これは、音声認識の精度の向上に役立つ。

N個の音節距離に基づく訓練によって第1の採点モデルを取得し、次いで、第1の採点モデルに基づく訓練によってターゲットフィルタリングモデルを取得する前述の記載された可能な実装形態は、本出願の可能な実装形態にすぎないことを理解されたい。たとえば、採点モデルおよびフィルタリングモデルは、採点モデルおよびフィルタリングモデルが同時に収束するように、同時に訓練されてよい。あるいは、ターゲットフィルタリングモデルは、別の方式で音節距離に基づく訓練によって取得される。

図7は、本出願の一実施形態による、フィルタリングモデル訓練システムのさらに別の例の概略図である。図7に示されたように、システム500は、
メモリ510、オーディオ管理モジュール520、プロセッサ530、および音声認識エンジン540
を含む。システム500は、ネットワークインターフェース501をさらに含んでよい。

メモリ510は、較正スクリプトおよび較正モデルを記憶する。較正モデルは、前述のフィルタリングモデルおよび前述の採点モデルを含んでよい。オーディオ管理モジュール520は、ラウドスピーカおよびピックアップデバイスを含む。

図8は、本出願の一実施形態による、フィルタリングモデル訓練方法のまた別の例の概略フローチャートである。図8は、方法600の詳細なステップまたは動作を示すことを理解されたい。しかしながら、これらのステップまたは動作は単なる例である。本出願のこの実施形態では、別の動作がさらに実行されてよく、または図8の動作の一部のみが実行されてよい。場合によっては、方法600は前述のシステム500によって実行されてよい。図8に示されたように、方法600は以下のステップを含んでよい。

610．較正スクリプトを取得する。

較正スクリプトは複数のコーパスサンプルを記録する。場合によっては、較正スクリプトは、動作条件と較正コーパスのキー値ペアとの間の関係をさらに記録することができるか、または較正スクリプトは、動作条件変数値とコーパスサンプルのキー値ペアとの間の関係をさらに記録することができる。

620．動作条件変数値のグループを取得する。

方法200を使用して訓練することによって取得されたターゲットフィルタリングモデルが、車内音声認識に使用されることが想定される。場合によっては、車両に対応する動作条件変数値のグループが取得されてよく、車両は、動作条件変数値に基づいて、動作条件変数値に対応する動作条件になるように制御される。

たとえば、車両に対応する動作条件変数は、窓の状態および車両速度を含む。動作条件変数値の第1のグループは、窓が開いていること、および車両速度60km／時を含む。動作条件変数値が取得された後、車両は、窓が開いていること、および車両速度60キロメートル／時の動作条件になるように制御されてよい。

630．訓練コーパスを決定する。

訓練コーパスはモデル訓練に使用されるコーパスであり、訓練コーパスは前述の元のコーパスに対応してよいことを理解されたい。

場合によっては、較正スクリプトは、動作条件変数値とコーパスサンプルのキー値ペアの組合せを記録することができ、訓練コーパスは、較正スクリプトおよび取得された動作条件変数値に基づいて、較正スクリプトに記録された複数のコーパスサンプルから選択されてよい。

場合によっては、較正スクリプトは複数のコーパスサンプルを記録し、複数のコーパスサンプルから1つの訓練コーパスが選択されてよい。説明を簡単にするために、訓練コーパスは「訓練コーパス＃1」と表記されてよい。

場合によっては、「訓練コーパス＃1」は、コーパスサンプルに含まれる音節のタイプおよびユーザの言語選択のうちの少なくとも1つに基づいて、少なくとも1つのコーパスサンプルから選択されてよい。たとえば、訓練コーパス＃1は式（1）に従って選択されてよい。たとえば、各コーパスサンプルの総合スコアは式（1）に従って計算され、総合スコアが最も高いコーパスサンプルが訓練コーパス＃1として決定される。

640．選択された訓練コーパスを再生する。たとえば、訓練音声＃1が再生される。

具体的には、ラウドスピーカが訓練コーパスを再生することができる。ラウドスピーカによる訓練コーパスの再生に関する関連説明については、前述の関連説明を参照されたい。簡潔にするために、本明細書では詳細は再び記載されない。

650．再生された訓練コーパスと訓練コーパスの認識結果との間の音節距離Lを決定する。

650では、音声認識エンジンが訓練コーパス＃1を正しく認識できるかどうかが判定されてよいことを理解されたい。

660．音節距離に基づいて採点モデルを訓練する。

670．採点モデルに基づいてフィルタリングモデルを訓練する。

場合によっては、方法は以下のステップをさらに含んでよい。

601．L＝0の場合、式（2）に従って、最大の総合スコアを有するコーパスを次の訓練コーパスとして選択し、640の実行に続く。

602．L＝0の場合、式（3）に従って、最大の総合スコアを有するコーパスを次の訓練コーパスとして選択し、640の実行に続く。

上述された方法は、本出願のこの実施形態の可能な実装形態にすぎず、音声認識エンジンの認識結果を使用してフィルタリングモデルを訓練することによって取得される、音声認識エンジンに適合されたすべてのターゲットフィルタリングモデルが本出願のこの実施形態の範囲内にあれば、本出願のこの実施形態における方法は、代替として、別の方式で実装されてよいことを理解されたい。

図9は、本出願の一実施形態による、フィルタリングモデル訓練デバイスの一例の概略図である。図9に示されたように、デバイス700は、
N個の音節ペアと1対1の対応関係にあるN個の音節距離を取得するように構成された取得ユニット710であって、各音節ペアが第1の音節および第2の音節を含み、各音節距離が対応する音節ペア内の第1の音節と第2の音節との間の音節距離であり、第iの音節ペア内の第1の音節が、第iの音節ペアに対応する元のコーパスの音節であり、第iの音節ペア内の第2の音節が、第iの音節ペアに対応する元のコーパスの音声データに対して認識処理が実行された後に取得された認識結果の音節であり、認識処理が、第1のフィルタリングモジュールに基づく処理、および音声認識エンジンに基づく処理を含み、第iの音節ペアがN個の音節ペアのいずれか1つであり、N≧1である、取得ユニット710と、
N個の音節距離に基づいて第1のフィルタリングモデルを訓練して、音声認識エンジンに対応するターゲットフィルタリングモデルを取得するように構成された訓練ユニット420であって、音声認識エンジンおよびターゲットフィルタリングモデルが音声認識に使用される、訓練ユニット420と
を含む。

場合によっては、訓練ユニット420は、具体的に、N個の音節距離に基づく訓練によって第1の採点モデルを取得することであって、第1の採点モデルによって出力されたスカラー値が、元の音節と元の音節に対応する認識された音節との間の音節距離を示すために使用され、元の音節が元のコーパスの音節であり、認識された音節が、音声データが音声認識エンジンによって処理された後に取得された認識結果の音節である、取得することと、第1の採点モデルに基づいて第1のフィルタリングモデルを訓練して、ターゲットフィルタリングモデルを取得することとを行うように構成される。

場合によっては、N個の音節距離は、第1の採点モデルによって出力されたN個の第1のスカラー値と1対1の対応関係にあり、N個の誤り値を取得するために、N個の音節距離とN個の第1のスカラー値の間で個別に減算が実行される。N個の誤り値の平均値は、第1のしきい値以下である。N個の第1のスカラー値の中の第iの第1のスカラー値は、第iの音節ペアに対応する元のコーパスの音声データが第1のフィルタリングモデルによって処理された後に取得されたスカラー値であり、次いで、第1の採点モデルに入力される。第1の採点モデルによって出力されたN個の第2のスカラー値の平均値は、第2のしきい値以下である。N個の第2のスカラー値の中の第iの第2のスカラー値は、第iの音節ペアに対応する元のコーパスの音声データがターゲットフィルタリングモデルによって処理された後に取得され、次いで、第1の採点モデルに入力される。

場合によっては、訓練ユニット420は、具体的に、式e_s（i）＝z（i）－S（y（i）；θ_s）に従って訓練することにより第1の採点モデルを取得することであって、z（i）が第iの音節ペアに対応する音節距離を表し、S（・）が採点モデルのモデルアルゴリズムを表し、S（y（i）；θ_s）が、第iの音節ペアに対応する元のコーパスの音声データが第1のフィルタリングモデルによって処理された後に取得されたスカラー値を表し、次いで、現在の採点モデルに入力され、y（i）が、第iの音節に対応する元のコーパスの音声データが第1のフィルタリングモデルによって処理された後に取得された出力を表し、θ_sが現在の採点モデルのモデルパラメータを表し、e_s（i）が、第iの音節ペアに対応する音節距離と、第iの音節ペアに対応する元のコーパスの音声データが第1のフィルタリングモデルによって処理された後に取得されたスカラー値との間の誤り値を表し、次いで、第1の採点モデルに入力される、取得することと、式e_f（i）＝S（F（x（i）；θ_f）；θ_s＿T）に従って訓練することによりターゲットフィルタリングモデルを取得することであって、S（F（x（i）；θ_f）；θ_s＿T）が、第iの音節ペアに対応する元のコーパスの音声データが現在のフィルタリングモデルによって処理された後に取得されたスカラー値を表し、次いで、第1の採点モデルに入力され、θ_s＿Tが第1の採点モデルのモデルパラメータを表し、F（・）がフィルタリングモデルのモデルアルゴリズムを表し、F（x（i）；θ_f）が、第iの音節ペアに対応する元のコーパスの音声データが現在のフィルタリングモデルによって処理された後に取得された出力を表し、θ_fが現在のフィルタリングモデルのモデルパラメータを表し、x（i）が、第iの音節ペアに対応する元のコーパスの音声データを表すか、またはx（i）が、第iの音節ペアに対応する元のコーパスの音声データ、および第iの音節ペアに対応する元のコーパスの音声データを収集するための動作条件変数値を表す、取得することとを行うように構成される。

場合によっては、ターゲットフィルタリングモデルは、第1のピックアップデバイスによって収集された音声データに対してフィルタリング処理を実行するために使用され、第1のピックアップデバイスは、第iの音節ペアに対応する元のコーパスの音声データを収集する。

場合によっては、ターゲットフィルタリングモデルは、第1のデバイス環境で収集された音声データに対してフィルタリング処理を実行するために使用され、第iの音節ペアに対応する元のコーパスの音声データは第1のデバイス環境で収集される。

場合によっては、ターゲットフィルタリングモデルおよび音声認識エンジンは第1のデバイスに適用され、ターゲットフィルタリングモデルのモデルアルゴリズムの変数は、第1のデバイスに対応する動作条件変数を含む。

場合によっては、第iの音節ペアに対応する元のコーパスの音声データは、フィルタリングモデルを訓練するためにあらかじめ定義されたコーパスサンプルである。

場合によっては、N個の音節ペアはM個の元のコーパスに対応し、M個の元のコーパスの中の第（j＋k）の元のコーパスは、第jの元のコーパスに基づいて複数のコーパスサンプルから決定され、第jの元のコーパスはM個の元のコーパスの中の1つであり、ここで、k≧1であり、1≦M≦Nである。

場合によっては、第（j＋k）の元のコーパスは、具体的に、第jの元のコーパスの音声データの認識状態、および第jの元のコーパスと第（j＋k）の元のコーパスとの間の音節距離のうちの少なくとも1つに基づいて、複数のコーパスサンプルから決定される。

場合によっては、M個の元のコーパスに対応するN個の音節ペアは、ユーザの言語選択情報およびコーパスサンプルに含まれる音節のタイプのうちの少なくとも1つに基づいて、複数のコーパスサンプルから決定される。

場合によっては、N個の音節ペアと1対1の対応関係にあるN個の音節距離を取得するステップは、第1のユーザ指示を取得するステップであって、第1のユーザ指示が音声指示である、ステップと、第1のユーザ指示が取得された後のプリセット時間期間内に第2のユーザ指示を取得するステップであって、第2のユーザ指示が音声指示または手動指示である、ステップと、第2のユーザ指示および第1のユーザ指示が同じユーザの実際の意図に対応する場合、第1の音節ペアに対応する第1の音節距離を決定するステップであって、第1の音節がN個の音節ペアのうちの1つであり、第1の音節ペアの中の第1の音節が第2のユーザ指示に対応するコーパスの音節であり、第1の音節ペアの中の第2の音節が第1のユーザ指示に対応する音声データに対して認識処理が実行された後に取得された認識結果の音節である、ステップとを含む。

場合によっては、第2のユーザ指示は音声指示であり、第1のユーザ指示に対応する音声データに対して認識処理が実行された後に取得された認識結果の音節と、第2のユーザ指示に対応するコーパスの音節との間の音節距離が第3のしきい値以下であり、第2のユーザ指示が取得された後のプリセット時間期間内に第3のユーザ指示が取得されない場合、第2のユーザ指示および第1のユーザ指示が同じユーザの実際の意図に対応すると判断される。第1のユーザ指示に対応する音声データに対して認識処理が実行された後に取得された認識結果の音節と、第3のユーザ指示に対応するコーパスの音節との間の音節距離は、第3のしきい値以下である。

場合によっては、第2のユーザ指示は具体的に手動指示であり、第1のユーザ指示に対応する音声データに対して認識処理が実行された後に取得された認識結果の音節と、第2のユーザ指示に対応するコーパスの音節との間の音節距離が第3のしきい値以下である場合、第2のユーザ指示および第1のユーザ指示が同じユーザの実際の意図に対応すると判断される。

図10は、本出願の一実施形態による、フィルタリングモデル訓練デバイスの別の例の概略図である。図10に示されたように、デバイス800はメモリ810およびプロセッサ820を含む。メモリ810は命令を記憶するように構成される。プロセッサ820は、メモリ810に記憶された命令を実行するように構成される。命令が実行されると、プロセッサ810は、前述の方法実施形態において提供された方法を実行するように構成される。場合によっては、デバイスは通信インターフェースをさらに含んでよい。プロセッサは、外部と通信するように通信インターフェースを制御するようにさらに構成される。

図9に示されたデバイス700および図10に示されたデバイス800は、方法実施形態における動作および手順を実行するように構成されてよく、デバイス700およびデバイス800内のユニットの動作および／または機能は、方法実施形態において対応する手順を実施するように個別に意図されていることを理解されたい。簡潔にするために、本明細書では詳細は再び記載されない。

本出願の実施形態におけるプロセッサは、中央処理装置（central processing unit、CPU）であってもよく、別の汎用プロセッサ、デジタル信号プロセッサ（digital signal processor、DSP）、特定用途向け集積回路（application specific integrated circuit、ASIC）、フィールドプログラマブルゲートアレイ（field programmable gate array、FPGA）または別のプログラマブル論理デバイス、個別ゲートまたはトランジスタ論理デバイス、個別ハードウェア構成要素などであってもよいことを理解されたい。汎用プロセッサはマイクロプロセッサであってよく、またはプロセッサは任意の従来のプロセッサなどであってよい。

さらに、本出願の実施形態におけるメモリは、揮発性メモリまたは不揮発性メモリであってもよく、揮発性メモリおよび不揮発性メモリを含んでもよいことを理解されたい。不揮発性メモリは、読取り専用メモリ（read－only memory、ROM）、プログラマブル読取り専用メモリ（programmable ROM、PROM）、消去可能プログラマブル読取り専用メモリ（erasable PROM、EPROM）、電気的消去可能プログラマブル読取り専用メモリ（electrically EPROM、EEPROM）、またはフラッシュメモリであってよい。揮発性メモリは、外部キャッシュとして使用されるランダムアクセスメモリ（random access memory、RAM）であってよい。限定的ではなく例示的な説明を介して、多くの形式のランダムアクセスメモリ（random access memory、RAM）、たとえば、スタティックランダムアクセスメモリ（static RAM、SRAM）、ダイナミックランダムアクセスメモリ（DRAM）、同期式ダイナミックランダムアクセスメモリ（synchronous DRAM、SDRAM）、ダブルデータレート同期式ダイナミックランダムアクセスメモリ（double data rate SDRAM、DDR SDRAM）、拡張同期式ダイナミックランダムアクセスメモリ（enhanced SDRAM、ESDRAM）、同期式リンクダイナミックランダムアクセスメモリ（synchlink DRAM、SLDRAM）、およびダイレクトラムバスダイナミックランダムアクセスメモリ（direct rambus RAM、DR RAM）が使用されてよい。

プロセッサが汎用プロセッサ、DSP、ASIC、FPGAもしくは別のプログラマブル倫理デバイス、個別ゲート、トランジスタ論理デバイス、または個別ハードウェア構成要素であるとき、メモリ（ストレージモジュール）はプロセッサに統合されていることに留意されたい。

本明細書に記載されたメモリは、これらのメモリおよび任意の他の適切なタイプのメモリを含むものであるが、それらに限定されないことに留意されたい。

前述の実施形態のすべてまたは一部は、ソフトウェア、ハードウェア、ファームウェア、またはそれらの任意の組合せによって実装されてよい。実施形態を実装するためにソフトウェアが使用されるとき、前述の実施形態はコンピュータプログラム製品の形態で完全または部分的に実装されてよい。コンピュータプログラム製品は1つまたは複数のコンピュータ命令を含む。コンピュータプログラム命令がコンピュータ上でロードまたは実行されると、本出願の実施形態による手順または機能がすべてまたは部分的に生成される。コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、または別のプログラム可能な装置であってよい。コンピュータ命令は、コンピュータ可読記憶媒体に記憶されてもよく、コンピュータ可読記憶媒体から別のコンピュータ可読記憶媒体に送信されてもよい。たとえば、コンピュータ命令は、ウェブサイト、コンピュータ、サーバ、またはデータセンタから、別のウェブサイト、コンピュータ、サーバ、またはデータセンタに、有線（たとえば、赤外線、無線、およびマイクロ波など）方式で送信されてよい。コンピュータ記憶媒体は、コンピュータによってアクセス可能な任意の使用可能媒体、または1つもしくは複数の使用可能媒体を統合するサーバもしくはデータセンタなどの、データストレージデバイスであってよい。使用可能媒体は、磁気媒体（たとえば、フロッピーディスク、ハードディスク、もしくは磁気テープ）、光学媒体（たとえば、DVD）、または半導体媒体であってよい。半導体媒体はソリッドステートドライブであってよい。

本明細書に開示された実施形態に記載された例と組み合わせて、ユニットおよびアルゴリズムステップは、電子ハードウェア、またはコンピュータソフトウェアと電子ハードウェアの組合せによって実装されてよいことを当業者なら認識されよう。機能がハードウェアによって実行されるか、またはソフトウェアによって実行されるかは、技術的解決策の特定の用途および設計制約条件に依存する。当業者は、様々な方法を使用して、特定の用途ごとに記載された機能を実装することができるが、その実装形態が本出願の範囲を超えると考えられるべきではない。

便利で簡潔な説明のために、前述のシステム、デバイス、およびユニットの詳細な動作プロセスについては、前述の方法実施形態における対応するプロセスを参照されたく、本明細書では詳細は再び記載されないことを当業者なら明確に理解されよう。

本明細書内の「および／または」という用語は、関連するオブジェクトを記述するための関連付け関係のみを記載し、3つの関係が存在してよいことを表すことを理解されたい。たとえば、Aおよび／またはBは、以下の3つのケースを表すことができる：Aのみが存在する、AとBの両方が存在する、およびBのみが存在する。加えて、本明細書内の文字「／」は、一般に、関連するオブジェクト間の「または」関係を示す。

本出願において提供されたいくつかの実施形態では、開示されたシステム、装置、および方法は他の方式で実装されてよいことを理解されたい。たとえば、記載された装置実施形態は一例にすぎない。たとえば、ユニット分割は論理的な機能分割にすぎず、実際の実装形態では他の分割であってよい。たとえば、複数のユニットまたは構成要素は組み合わされるか、もしくは別のシステムに統合されてよく、または、いくつかの機能は無視されるか、もしくは実行されなくてよい。加えて、表示または説明された相互結合または直接結合または通信接続は、いくつかのインターフェースを使用することによって実装されてよい。装置間またはユニット間の間接結合または通信接続は、電気、機械、または他の形態で実装されてよい。

別々の部分として記載されたユニットは、物理的に分かれていてもいなくてもよく、ユニットとして表示された部分は、物理ユニットであってもそうでなくてもよく、1つの場所に配置されてもよく、複数のネットワークユニット上に分散されてもよい。ユニットの一部またはすべては、実施形態の解決策の目的を達成するために、実際の要件に基づいて選択されてよい。

加えて、本出願の実施形態における機能ユニットは1つの処理ユニットに統合されてよく、またはユニットの各々は物理的に単独で存在してよく、または2つ以上のユニットが1つのユニットに統合される。

機能がソフトウェア機能ユニットの形態で実装され、独立した製品として販売または使用されるとき、機能はコンピュータ可読記憶媒体に記憶されてよい。そのような理解に基づいて、本出願の技術的解決策は本質的に、または従来技術に寄与する部分は、または技術的解決策のうちの一部は、ソフトウェア製品の形態で実装されてよい。ソフトウェア製品は記憶媒体に記憶され、本出願の実施形態に記載された方法のステップのすべてまたは一部を実行するように、（パーソナルコンピュータ、サーバ、またはネットワークデバイスであってよい）コンピュータデバイスに命令するためのいくつかの命令を含む。前述の記憶媒体には、USBフラッシュドライブ、リムーバブルハードディスク、読取り専用メモリ（read－only memory、ROM）、ランダムアクセスメモリ（random access memory、RAM）、磁気ディスク、または光ディスクなどの、プログラムコードを記憶することができる任意の媒体が含まれる。

前述の説明は、本出願の具体的な実装形態にすぎず、本出願の保護範囲を限定するものではない。本出願に開示された技術的範囲内で当業者が容易に考え付くいかなる変形または置換も、本出願の保護範囲内に入るべきである。したがって、本出願の保護範囲は、特許請求の範囲の保護範囲に従うべきである。

100 方法
200 システム
201 ラウドスピーカ
210 ピックアップデバイス
220 フィルタリングモデル
230 音声認識エンジン
300 システム
310 フィルタリングモデル
320 採点モデル
400 システム、システムアーキテクチャ
410 フィルタリングモデル
420 採点モデル
421 回帰モデルまたはニューラルネットワーク
422 プーリングレイヤ
500 システム
501 ネットワークインターフェース
510 メモリ
520 オーディオ管理モジュール
530 プロセッサ
540 音声認識エンジン
600 方法
700 デバイス
710 取得ユニット
720 訓練ユニット
800 デバイス
810 メモリ
820 プロセッサ

Claims

フィルタリングモデルおよび採点モデルの訓練方法であって、前記方法が、
N個の元の音節を決定するステップであって、前記N個の元の音節が、第1のコーパスの実際の発音に含まれる音節であり、Nが1以上の整数である、ステップと、
N個の認識された音節を決定するステップであって、前記N個の認識された音節が、前記第1のコーパスの音声信号に対して第1の音声認識処理が実行された後に取得された認識結果の音節であり、前記第1の音声認識処理が、前記フィルタリングモデルに基づくフィルタリング処理、および音声認識エンジンに基づく認識処理を備え、前記N個の認識された音節が前記N個の元の音節と1対1の対応関係にある、ステップと、
前記N個の元の音節および前記N個の認識された音節に基づいてN個の音節距離を決定するステップであって、前記N個の音節距離がN個の音節ペアと1対1の対応関係にあり、前記N個の元の音節および前記N個の認識された音節が前記N個の音節ペアを形成し、各音節ペアが互いに対応する前記元の音節の一つおよび前記認識された音節の一つを備え、各音節距離が、対応する音節ペアに含まれる元の音節と認識された音節との間の類似性を示すために使用される、ステップと、
前記フィルタリングモデルを訓練するステップと
を備え、
前記フィルタリングモデルへの入力は、第1のピックアップデバイスによって出力された第1の音声信号であり、前記フィルタリングモデルの出力は、前記フィルタリング処理が実行された前記第1の音声信号であり、
前記採点モデルへの入力は、前記フィルタリングモデルの出力であり、前記採点モデルの出力はスカラー値であり、前記スカラー値は、前記音声認識エンジンの、前記フィルタリング処理によって取得された前記第1の音声信号の認識結果の音節と、前記第1のコーパスに対応する音節との間の距離を表し、
前記フィルタリングモデルを訓練する前記ステップは、
前記採点モデルによって出力されたスカラー値と、前記元の音節と認識された音節との間の音節距離との間の誤り値を最小化するように前記採点モデルを訓練するステップと、
前記訓練した採点モデルと、前記第1のコーパスとは異なる第3のコーパスとを用い、前記採点モデルの出力を最小化するように前記フィルタリングモデルを訓練するステップと
をさらに備える、方法。
前記採点モデルの出力を最小化するように前記フィルタリングモデルを訓練する前記ステップは、
前記採点モデルおよび第3のコーパスの音声信号に基づいてK個の音節距離を決定するステップであって、前記第3のコーパスの実際の発音がK個の元の音節を備え、前記第3のコーパスの前記音声信号に対して前記第1の音声認識処理が実行された後に取得された認識結果がK個の認識された音節を備え、前記K個の認識された音節が前記K個の元の音節と1対1の対応関係にあり、前記K個の音節距離がK個の音節ペアと1対1の対応関係にあり、前記K個の元の音節および前記K個の認識された音節が前記K個の音節ペアを形成し、各音節ペアが互いに対応する前記K個の元の音節の一つおよび前記K個の認識された音節の一つを備え、各音節距離が、対応する音節ペアに含まれる元の音節と認識された音節との間の類似性を示すために使用され、Kが1以上の整数である、ステップと、
前記N個の音節距離および前記K個の音節距離に基づいて前記フィルタリングモデルを訓練するステップと
を備える、請求項1に記載の方法。
前記フィルタリングモデルを訓練する前記ステップが、
第2のコーパスに対応するM個の音節距離の各々の値が第1のプリセット範囲内に入るように、前記フィルタリングモデルを訓練するステップであって、前記M個の音節距離がM個の音節ペアと1対1の対応関係にあり、前記M個の音節ペアに含まれるM個の元の音節が、前記第2のコーパスの実際の発音に含まれる音節であり、前記M個の音節ペアに含まれるM個の認識された音節が、前記第2のコーパスの音声信号に対して第2の音声認識処理が実行された後に取得された認識結果の音節であり、前記M個の認識された音節が前記M個の元の音節と1対1の対応関係にあり、前記第2の音声認識処理が、前記訓練によって取得されたフィルタリングモデルに基づくフィルタリング処理、および前記音声認識エンジンに基づく前記認識処理を備え、Mが1以上の整数である、ステップ
を備える、請求項1または2に記載の方法。
前記第1のコーパスの前記音声信号と前記第2のコーパスの前記音声信号が、第1のピックアップデバイスによって取得される、請求項3に記載の方法。
各音節が少なくとも1つの音素を備え、
前記N個の元の音節および前記N個の認識された音節に基づいてN個の音節距離を決定する前記ステップが、
第1のマッピング関係情報を取得するステップであって、前記第1のマッピング関係情報が複数の音素のうちの２つの音素間の音素距離を示すために使用され、前記2つの音素間の音素距離が任意の2つの音素間の類似性を示すために使用される、ステップと、
前記第1のマッピング関係情報に基づいて前記N個の音節距離を決定するステップと
を備える、請求項1から4のいずれか一項に記載の方法。
前記第1のマッピング関係情報に基づいて前記N個の音節距離を決定する前記ステップが、
前記N個の元の音節に含まれるW個の元の音素を決定し、前記N個の認識された音節に含まれるW個の認識された音素を決定するステップであって、前記W個の元の音素が前記W個の認識された音素と1対1の対応関係にあり、Wが1以上の整数である、ステップと、
前記第1のマッピング関係に基づいてW個の音素距離を決定するステップであって、前記W個の音素距離が前記W個の音素ペアと1対1の対応関係にあり、各音素距離が対応する音素ペアに含まれる音素間の音素距離であり、音素ペアが互いに対応する元の音素および認識音素を備える、ステップと、
前記W個の音素距離に基づいて前記N個の音節距離を決定するステップと
を備える、請求項5に記載の方法。
前記W個の音素距離に基づいて前記N個の音節距離を決定する前記ステップが、
前記W個の音素距離の平均値に基づいて前記N個の音節距離を決定するステップ
を備える、請求項6に記載の方法。
Nが2以上であるとき、前記方法が、
前記N個の元の音節の配列順序および構音持続時間を決定するステップと、
前記N個の認識された音節の取得時点を決定するステップと、
前記N個の元の音節の前記配列順序および前記構音持続時間、ならびに前記N個の認識された音節の前記取得時点に基づいて、前記N個の音節ペアを決定するステップと
をさらに備え、
前記音節ペアのうちの一つにおける前記元の音節の配列順序が前記音節ペアのうちの一つにおける前記認識された音節の取得時点の前記順序に対応する、
請求項1から7のいずれか一項に記載の方法。
前記フィルタリングモデルを訓練する前記ステップが、
前記フィルタリングモデルが使用される環境の環境情報を決定するステップと、
前記N個の音節距離および前記環境情報に基づいて前記フィルタリングモデルを訓練するステップと
を備える、請求項1から8のいずれか一項に記載の方法。
前記フィルタリングモデルが車両内で構成され、前記環境情報が、以下の情報：
車両速度情報、車両の窓が開いているか閉じているかに関する情報、およびエアコンの風量情報
のうちの少なくとも1つを備える、請求項9に記載の方法。
前記方法が、
フィルタリングモデルを取得するユーザのユーザ情報を取得するステップであって、前記ユーザ情報が、前記ユーザが複数のコーパスの各々を使用する頻度を備える、ステップと、
前記ユーザ情報に基づいて前記複数のコーパスから前記第1のコーパスを決定するステップと
をさらに備える、請求項1から10のいずれか一項に記載の方法。
前記N個の元の音節を決定する前記ステップが、
第1の時間範囲内で発生する第1のイベントを決定するステップであって、前記第1の時間範囲が前記N個の認識された音節の前記取得時点に基づいて決定される、ステップと、
第2のマッピング関係情報に基づいて、前記第1のイベントに対応する音節を前記N個の元の音節として決定するステップであって、前記第2のマッピング関係情報が、前記第1のイベントを備える複数のイベントに対応する音節を示すために使用される、ステップと
を備える、請求項1から11のいずれか一項に記載の方法。
前記第1の時間範囲が、前記取得時点から始まる第1のプリセット持続時間を伴う時間範囲であり、少なくとも1つの候補イベントが前記第1の時間範囲内で発生するか、または
前記第1の時間範囲が、複数の候補イベントの発生時間に基づいて決定され、前記複数の候補イベントのうちのいずれか2つの間の発生時間間隔が、第2のプリセット持続時間以下であり、
前記第1のイベントが前記複数の候補イベントのいずれか1つである、
請求項12に記載の方法。
前記N個の元の音節を決定する前記ステップが、
第3のマッピング関係情報に基づいて、前記第1のコーパスに対応する音節を前記N個の元の音節として決定するステップであって、前記第3のマッピング関係情報が、前記第1のコーパスを備える前記複数のコーパスに対応する音節を示すために使用される、ステップ
を備える、請求項1から11のいずれか一項に記載の方法。
音声認識方法であって、
第1の音声信号を取得するステップと、
フィルタリングモデルに基づいて前記第1の音声信号に対してフィルタリング処理を実行するステップであって、前記フィルタリングモデルが、請求項1から14のいずれか一項に記載の方法に従って取得される、ステップと、
前記音声認識エンジンに基づいて、前記フィルタリング処理によって取得された前記第1の音声信号に対して認識処理を実行するステップと
を備える、方法。
第1の音声信号を取得する前記ステップが、
第1のピックアップデバイスにより、前記第1の音声信号を取得するステップであって、前記第1のピックアップデバイスが、前記第1のコーパスの音声信号を取得するように構成されたピックアップデバイスである、ステップ
を備える、請求項15に記載の方法。
第1の音声信号を取得する前記ステップが、
前記フィルタリングモデルの訓練に使用される環境情報に基づいて前記第1の音声信号を取得するステップ
を備える、請求項15または16に記載の方法。
訓練デバイスであって、
コンピュータプログラムを記憶するように構成されたメモリと、
前記訓練デバイスが請求項1から14のいずれか一項に記載の方法を実行するように、前記メモリに記憶された前記コンピュータプログラムを実行するように構成されたプロセッサと
を備える、訓練デバイス。
音声認識デバイスであって、
コンピュータプログラムを記憶するように構成されたメモリと、
前記デバイスが請求項15から17のいずれか一項に記載の方法を実行するように、前記メモリに記憶された前記コンピュータプログラムを実行するように構成されたプロセッサと
を備える、音声認識デバイス。