JP6936888B2

JP6936888B2 - トレーニングコーパスの生成方法、装置、機器及び記憶媒体

Info

Publication number: JP6936888B2
Application number: JP2020041151A
Authority: JP
Inventors: シーチァンディン，; ジーヂョウファン，; ヂョンウェイジャン，; ウェンタオマ，
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-03-11
Filing date: 2020-03-10
Publication date: 2021-09-22
Anticipated expiration: 2040-03-10
Also published as: KR102345156B1; US11348571B2; JP2020149053A; KR20200108775A; CN109949797A; US20200294489A1; EP3709295B1; EP3709295A1; CN109949797B

Description

本発明の実施例は、データ処理技術に関し、特に、トレーニングコーパスの生成方法、装置、機器及び記憶媒体に関する。

現在、地図類アプリケーションプログラムの音声認識モデルの最適化は、主に、数万時間の音声及びそれに対応するシーン情報をランダムに抽出するステップと、巨額の資金と時間をかけて手動でラベル付けし、トレーニングコーパスを作成するステップと、新しいトレーニングコーパスに基づいて音声認識モデルを再度トレーニングして、最適化に調整するステップという三つのステップを必要とする。

発明者は、本発明を実現するプロセスでは、従来技術において、音声認識されたトレーニングコーパスは、主に手動でラベル付けされたランダム音声からのものであることを発見した。その結果、以下の二つの主な問題がある。１つの問題は、手動でラベル付けされたものであるため、音声認識モデルの反復サイクルが長すぎて、リソース消費が深刻である。もう１つの問題は、ランダムに抽出された音声であるため、大量の無効ラベル付けがある（誤って認識されたコーパスの増加は、正しく認識されたコーパスの増加より価値がある）。

本発明の実施例は、ユーザ行動に基づいて、音声認識されたトレーニングコーパスを自動的且つ意図的にマイニングすることを実現するトレーニングコーパスの生成方法、装置、機器及び記憶媒体を提供する。

第１の態様では、本発明の実施例は、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログにおいて複数のラベル付け対象コーパスデータをマイニングするステップであって、コーパスデータには、ユーザ音声及び対応する音声認識結果を含む第１の行動ログと、第１の行動ログに時間的に関連付けられ、且つ同一のユーザに属する第２の行動ログとが含まれるステップと、各ラベル付け対象コーパスデータにおける第１の行動ログと第２の行動ログとの関連づけに基づいて、各コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスとして判定するステップと、を含むトレーニングコーパスの生成方法を提供する。

第２の態様では、本発明の実施例は、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログにおいて複数のラベル付け対象コーパスデータをマイニングするように構成されるコーパスデータマイニングモジュールであって、前記コーパスデータには、ユーザ音声及び対応する音声認識結果を含む第１の行動ログと、前記第１の行動ログに時間的に関連付けられ、且つ同一のユーザに属する第２の行動ログとが含まれるコーパスデータマイニングモジュールと、各前記ラベル付け対象コーパスデータにおける第１の行動ログと第２の行動ログとの関連づけに基づいて、各前記コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスとして判定するように構成されるコーパス判定モジュールと、を備えるトレーニングコーパスの生成装置を提供する。

第３の態様では、本発明の実施例は、コンピュータ機器を提供し、該コンピュータ機器が、メモリと、プロセッサと、メモリに記憶され、プロセッサで実行可能なコンピュータプログラムとを備え、前記プロセッサが前記プログラムを実行する場合に、本発明の実施例に記載のトレーニングコーパスの生成方法を実現する。

第４の態様では、本発明の実施例は、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体を提供し、当該コンピュータプログラムがプロセッサにより実行される場合に、本発明の実施例に記載のトレーニングコーパスの生成方法が実現される。

本発明の実施例の技術案は、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログにおいて複数のラベル付け対象コーパスデータをマイニングし、コーパスデータには、ユーザ音声及び対応する音声認識結果を含む第１の行動ログと、第１の行動ログに時間的に関連付けられ、且つ同一のユーザに属する第２の行動ログとが含まれ、次に、各ラベル付け対象コーパスデータにおける第１の行動ログと第２の行動ログとの関連づけに基づいて、各コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスとして判定することにより、従来技術では、音声認識されたトレーニングコーパスが主に手動でラベル付けされたランダム音声からのものであることによって音声認識モデルの反復サイクルが長すぎて、リソース消費が深刻であり、大量の無効ラベル付けがある問題が解決され、ユーザ行動に基づいて、音声認識された正のフィードバックトレーニングコーパス及び負のフィードバックトレーニングコーパスを自動的且つ意図的にマイニングして、後続の音声認識モデルのトレーニングに提供することができ、音声認識の効果を効果的に向上させ、音声認識モデルの反復サイクルを大幅に短縮し、リソースを大量に節約することができる。

本発明の実施例１により提供されるトレーニングコーパスの生成方法のフローチャートである。本発明の実施例２により提供されるトレーニングコーパスの生成方法のフローチャートである。本発明の実施例２により提供される位置検索シーンにおけるユーザ音声入力ページの概略図である。本発明の実施例２により提供される位置検索シーンにおける位置検索サービスにマッチングする検索結果ページの概略図である。本発明の実施例２により提供されるルート検索シーンにおけるユーザ音声入力ページの概略図である。本発明の実施例２により提供されるルート検索サービスにマッチングする検索結果ページの概略図である。本発明の実施例２により提供されるルートナビゲーションシーンにおけるユーザ音声入力ページの概略図である。本発明の実施例２により提供されるルートナビゲーションシーンにおけるナビゲーションページの概略図である。本発明の実施例２により提供されるルートナビゲーションシーンにおける目的地にナビゲーションするページの概略図である。本発明の実施例３により提供されるトレーニングコーパスの生成方法のフローチャートである。本発明の実施例３により提供される検索シーンにおけるユーザ音声入力ページの概略図である。本発明の実施例３により提供される検索シーンにおける修正音声入力ページの概略図である。本発明の実施例３により提供される検索シーンにおける修正テキスト入力ページの概略図である。本発明の実施例４により提供されるトレーニングコーパスの生成方法のフローチャートである。本発明の実施例４により提供される正のフィードバックトレーニングコーパスをマイニングする方法の全体的なフローチャートである。本発明の実施例４により提供される既存モデルによって正しく認識された音声及びテキストをマイニングする方法のフローチャートである。本発明の実施例４により提供される既存モデルによって正しく認識された音声及びテキストをマイニングする方法のコアロジックのフローチャートである。本発明の実施例４により提供される負のフィードバックトレーニングコーパスをマイニングする方法の全体的なフローチャートである。本発明の実施例４により提供される既存モデルによって誤って認識された音声及びテキスト、及び潜在的な正しいテキストをマイニングする方法のフローチャートである。本発明の実施例４により提供される既存モデルによって誤って認識された音声及びテキスト、及び潜在的な正しいテキストをマイニングする方法のコアロジックのフローチャートである。本発明の実施例５により提供されるトレーニングコーパスの生成装置の概略構成図である。本発明の実施例６により提供されるコンピュータ機器の概略構成図である。

以下、図面及び実施例を参照して本発明についてさらに詳しく説明する。なお、ここで説明される具体的な実施例は、単なる本発明を解釈するためのものであり、本発明を限定するものではない。なお、説明を容易にするために、図面には、すべての構成ではなく、本発明に関連する部分のみが示されている。

なお、説明の便宜上、図面には、全部の内容ではなく、本発明に関する一部だけが示される。例示的な実施例をさらに詳しく検討する前に説明すべきなのは、一部の例示的な実施例がフローチャートとして描画される処理又は方法として説明される。フローチャートが各動作（又はステップ）を順次的な処理として説明するが、そのうちの多くの動は、並行的に、併発的に又は同時に実施することができる。また、各動作の手順は、並べ替えることことができる。動作が完了する場合、前記処理は、終了してもよいが、図面に含まれていない追加ステップを有してもよい。前記処理は、方法、関数、プロシージャ、サブルーチン、サブプログラムなどに対応することができる。

理解を容易にするために、本発明の実施例の主な発明思想を簡単に述べる。まず、発明者は、手動でラベル付けされたため、音声認識モデルの反復サイクルが長すぎて、リソース消費が深刻であるという従来技術における第１の主な問題に対して、ユーザ行動によって、既存モデルによって認識された音声及びテキストからトレーニングコーパスを自動的にマイニングし、手動でラベル付けする必要がなく、直接にトレーニングに用いることができるか否かを考える。

次に、発明者は、ランダムに抽出された音声であるため、大量の無効ラベル付けがある（正しく認識されたコーパスを増加させるより、誤って認識されたコーパスを増加させるほうはより価値がある）という従来技術における第２の主な問題に対して、音声認識されたトレーニングコーパスを意図的にマイニングし、トレーニングコーパスのマイニング作業を、正しく認識されたコーパスをマイニングすることと、誤って認識されたコーパスをマイニングすること、すなわち、正のフィードバックトレーニングコーパスのマイニングと負のフィードバックトレーニングコーパスのマイニングという二つの具体的な作業に分けることができる否かを考える。

上記の考えに基づいて、発明者は、トレーニングコーパスのマイニング作業を正のフィードバックトレーニングコーパスのマイニングと負のフィードバックトレーニングコーパスのマイニングという二つの具体的な作業に分けることを創作的に提案する。正のフィードバックトレーニングコーパスのマイニングは、ユーザ行動によって、既存音声認識モデルによって正しく認識された音声及びテキストをマイニングし、手動でラベル付けする必要がなく、直接に音声認識モデルのトレーニングに用いられることを含む。負のフィードバックトレーニングコーパスのマイニングは、ユーザ行動によって、既存音声認識モデルによって誤って認識された音声をマイニングし、手動でラベル付けし、トレーニングコーパスを生成することを含む。このようにするで以下の二つのメリットがある。一つは、音声認識モデルの反復サイクルが大幅に短縮され、リソースが大量に節約される。もう一つは、音声をより意図的に抽出して手動でラベル付けし、後続の音声認識モデルの反復をより効果的にすることができる。これにより、ユーザの履歴行動に基づいて、音声認識されたトレーニングコーパスを自動的且つ意図的にマイニングし、後続の音声認識モデルのトレーニングに提供し、音声認識の効果をより効果的に向上させることができる。

実施例１
図１は、本発明の実施例１により提供されるトレーニングコーパスの生成方法のフローチャートである。本実施例は、音声認識されたトレーニングコーパスを生成する場合に適用することができ、当該方法は、本発明の実施例により提供されるトレーニングコーパスの生成装置によって実行することができる。当該装置は、ソフトウェア及び／又はハードウェアの形態で実現することができ、一般に、トレーニングコーパスの生成機器に統合することができる。トレーニングコーパスの生成機器は、コンピュータなどを含むが、これらに限定されない。図１に示すように、本実施例の方法は、具体的には、以下のステップ１０１及びテップ１０２を含む。
ステップ１０１において、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログにおいて複数のラベル付け対象コーパスデータをマイニングし、コーパスデータには、ユーザ音声及び対応する音声認識結果を含む第１の行動ログと、第１の行動ログに時間的に関連付けられ、且つ同一のユーザに属する第２の行動ログとが含まれる。

ここで、ユーザ行動ログは、ユーザがターゲットアプリケーションプログラムを使用するたびに生成された行動データ（例えば、アクセス、閲覧、音声の使用、検索、クリックなど）である。ユーザがターゲットアプリケーションプログラムを使用するたびに、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログが生成され、ユーザ行動を記録する。

ユーザがターゲットアプリケーションプログラムで音声機能を使用した後、対応する第１の行動ログが生成される。第１の行動ログは、音声を使用したユーザ行動を記録するためのものであり、ユーザ音声及び対応する音声認識結果を含む。

第１の行動ログ及びターゲットアプリケーションプログラムの他のユーザ行動ログを、ユーザおよび時間に従って直列接続し、第１の行動ログに時間的に関連付けられ且つ同一のユーザに属するユーザ行動ログを取得し、第２の行動ログとして決定する。例えば、ユーザ行動ログ時間が第１の行動ログ時間の後にあり、第１の行動ログ時間との時間間隔が予め設定された時間閾値より小さく、且つ同一のユーザに属するユーザ行動ログを取得し、第２の行動ログとして決定する。

ステップ１０２において、各ラベル付け対象コーパスデータにおける第１の行動ログと第２の行動ログとの関連づけに基づいて、各コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスとして判定する。

ここで、トレーニングコーパスのマイニング作業を正のフィードバックトレーニングコーパスのマイニングと負のフィードバックトレーニングコーパスのマイニングという二つの具体的な作業に分ける。正のフィードバックトレーニングコーパスは、正しく認識されたコーパスである。負のフィードバックトレーニングコーパスは、誤って認識されたコーパスである。

ユーザが音声機能を使用した後、予期可能な後続の行動があれば、今回の音声認識が正しいと考えることができる。これにより、正のフィードバックトレーニングコーパスのマイニングは、第１の行動ログのログタイプに基づいて、第１の行動ログに対応するユーザ予期行動を取得し、ユーザ予期行動が第２の行動ログにマッチングすると決定した場合、コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパスとして判定することを含むことができる。

一つの具体例では、ターゲットアプリケーションプログラムは地図類アプリケーションプログラムである。第１の行動ログのログタイプが、ユーザ音声に対応する音声認識結果を目的地として使用して位置検索サービスを開始するものであると決定した場合、ユーザ予期行動が、ユーザが位置検索サービスにマッチングする検索結果ページで目的地にマッチングするルート検索サービスを開始するオプションを選択することであると決定する。ユーザ予期行動が第２の行動ログにマッチングすると決定した場合、すなわち、第２の行動ログに記録されたユーザ行動が、ユーザが位置検索サービスにマッチングする検索結果ページで目的地にマッチングするルート検索サービスを開始するオプションを選択することであると決定した場合、コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパスとして判定する。別の具体例では、ターゲットアプリケーションプログラムは地図類アプリケーションプログラムである。第１の行動ログのログタイプが、ユーザ音声に対応する音声認識結果を目的地としてルート検索サービスを開始するものであると決定した場合、ユーザ予期行動が、ユーザがルート検索サービスにマッチングするルート検索ページで目的地にナビゲーションするオプションを選択することであると決定する。ユーザ予期行動が第２の行動ログにマッチングすると決定した場合、すなわち、第２の行動ログに記録されたユーザ行動が、ユーザがルート検索サービスにマッチングするルート検索ページで目的地にナビゲーションするオプションを選択することであると決定した場合、コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパスとして判定する。

別の具体例では、ターゲットアプリケーションプログラムは地図類アプリケーションプログラムである。第１の行動ログのログタイプが、ユーザ音声に対応する音声認識結果を目的地としてルートナビゲーションサービスを開始するものであると決定された場合、ユーザ予期行動が、ユーザが目的地に到着することに成功したことであると決定する。ユーザ予期行動が第２の行動ログにマッチングすると決定した場合、すなわち、第２の行動ログに記録されたユーザ行動が、ユーザが目的地に到着することに成功したことであると決定した場合、コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパスとして判定する。

ユーザが音声機能を使用した後、短時間内に修正行動があれば、最初に音声認識されたテキストが誤ったと考えることができる。修正行動は、具体的には、音声機能で修正を再入力することと、手動で修正を入力することという２種類を含む。これにより、負のフィードバックトレーニングコーパスのマイニングは、第２の行動ログに対応するユーザ行動が所定の期間内の第１の行動ログに対する修正行動であると決定した場合、コーパスデータにおけるユーザ音声及び対応する音声認識結果を負のフィードバックトレーニングコーパスとして判定することを含むことができる。

一つの具体例では、第２の行動ログに対応するユーザ行動が修正音声を再入力することであり、且つ修正音声に対応する修正認識結果と音声認識結果とが意味的関連条件を満たすと決定した場合、第２の行動ログに対応するユーザ行動が修正行動であると決定し、コーパスデータにおけるユーザ音声及び対応する音声認識結果を負のフィードバックトレーニングコーパスとして判定する。又は、第２の行動ログに対応するユーザ行動が修正テキストを入力することであり、且つ修正テキストと音声認識結果とが意味的関連条件を満たすと決定した場合、第２の行動ログに対応するユーザ行動が修正行動であると決定し、コーパスデータにおけるユーザ音声及び対応する音声認識結果を負のフィードバックトレーニングコーパスとして判定する。

本発明の実施例は、トレーニングコーパスの生成方法を提供し、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログにおいて複数のラベル付け対象コーパスデータをマイニングし、コーパスデータには、ユーザ音声及び対応する音声認識結果を含む第１の行動ログと、第１の行動ログに時間的に関連付けられ、且つ同一のユーザに属する第２の行動ログとが含まれ、次に、各ラベル付け対象コーパスデータにおける第１の行動ログと第２の行動ログとの関連づけに基づいて、各コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスとして判定することにより、従来技術では、音声認識のトレーニングコーパスが主に手動でラベル付けされたランダム音声からのものであることによって音声認識モデルの反復サイクルが長すぎてリソース消費が深刻であり、大量の無効ラベル付けがあるという問題が解決され、ユーザ行動に基づいて、音声認識された正のフィードバックトレーニングコーパス及び負のフィードバックトレーニングコーパスを自動的且つ意図的にマイニングして、後続の音声認識モデルのトレーニングに提供することができ、音声認識の効果を効果的に向上させ、音声認識モデルの反復サイクルを大幅に短縮し、リソースを大量に節約することができる。

実施例２
図２ａは、本発明の実施例２により提供されるトレーニングコーパスの生成方法のフローチャートである。本実施例は、上記の一つ又は複数の実施例における各選択可能な態様と組み合わせることができる。本実施例では、各ラベル付け対象コーパスデータにおける第１の行動ログと第２の行動ログとの関連づけに基づいて、各コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスとして判定するステップは、第１の行動ログのログタイプに基づいて、第１の行動ログに対応するユーザ予期行動を取得するステップと、ユーザ予期行動が第２の行動ログにマッチングすると決定した場合、コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパスとして判定するステップと、を含むことができる。

対応的に、図２ａに示すように、本実施例の方法は、以下のステップ２０１〜ステップ２０３を含む。
ステップ２０１において、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログにおいて複数のラベル付け対象コーパスデータをマイニングし、コーパスデータには、ユーザ音声及び対応する音声認識結果を含む第１の行動ログと、第１の行動ログに時間的に関連付けられ、且つ同一のユーザに属する第２の行動ログとが含まれる。

ステップ２０２において、第１の行動ログのログタイプに基づいて、第１の行動ログに対応するユーザ予期行動を取得する。

ここで、ユーザ音声機能を使用した後、予期可能な後続の行動があれば、今回の音声認識が正しいと考えることができる。ターゲットアプリケーションプログラムは、地図類アプリケーションプログラムを含むことができる。

第１の行動ログのログタイプに基づいて、第１の行動ログに対応するユーザ予期行動を取得するステップは、第１の行動ログのログタイプが、ユーザ音声に対応する音声認識結果を目的地として使用して位置検索サービスを開始するものであると決定した場合、ユーザ予期行動が、ユーザが位置検索サービスにマッチングする検索結果ページで目的地にマッチングするルート検索サービスを開始するオプションを選択することであると決定するステップを含むことができる。

例えば、ユーザが「公園悦府」というユーザ音声を入力し（図２ｂに示すように）、音声認識によって、「公園悦府」のテキストという音声認識結果を取得し（音声ダイナミックラベル２１は、音声認識結果をリアルタイムで表示する）、位置検索要求を開始し、位置検索サービスにマッチングする検索結果ページに入る（図２ｃに示すように）。ユーザ予期行動は、ユーザが検索結果ページで「ここに行く」２２をクリックする（図２ｃに示すように）ことである。第１の行動ログのログタイプに基づいて、第１の行動ログに対応するユーザ予期行動を取得するステップは、第１の行動ログのログタイプが、ユーザ音声に対応する音声認識結果を目的地としてルート検索サービスを開始するものであると決定した場合、ユーザ予期行動が、ユーザがルート検索サービスにマッチングするルート検索ページで目的地にナビゲーションするオプションを選択することであると決定するステップを含むことができる。

例えば、ユーザが「公園悦府に行く」というユーザ音声を入力し（図２ｄに示すように）、音声認識によって、「公園悦府に行く」のテキストという音声認識結果を取得し（音声ダイナミックラベル２３は、音声認識結果をリアルタイムで表示する）、ルート検索要求を開始し、ルート検索サービスにマッチングする検索結果ページに入る（図２ｅに示すように）。ユーザ予期行動は、ユーザが検索結果ページで「ナビゲーションを開始する」２４をクリックすることである（図２ｅに示すように）。

第１の行動ログのログタイプに基づいて、第１の行動ログに対応するユーザ予期行動を取得するステップは、第１の行動ログのログタイプが、ユーザ音声に対応する音声認識結果を目的地としてルートナビゲーションサービスを開始するものであると決定した場合、ユーザ予期行動が、ユーザが目的地に到着することに成功したことであると決定するステップを含むことができる。

例えば、ユーザは、「西二旗にナビゲーションする」というユーザ音声を入力し（図２ｆに示すように）、音声認識によって、「西二旗にナビゲーションする」のテキストという音声認識結果を取得し（音声ダイナミックラベル２５は、音声認識結果をリアルタイムで表示する）、ルートナビゲーション要求を開始し、ナビゲーションページに入る（図２ｇに示すように）。ユーザ予期行動は、ユーザが目的地に到着することに成功することである（図２ｈに示すように）。

ステップ２０３において、ユーザ予期行動が第２の行動ログにマッチングすると決定した場合、コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパスとして判定する。

一つの具体例では、ユーザ予期行動が第２の行動ログにマッチングすると決定した場合、すなわち、第２の行動ログに記録されたユーザ行動が、ユーザが位置検索サービスにマッチングする検索結果ページで目的地にマッチングするルート検索サービスを開始するオプションを選択することであると決定された場合、コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパスとして判定する。

例えば、ユーザが「公園悦府」というユーザ音声を入力し（図２ｂに示すように）、音声認識によって、「公園悦府」のテキストという音声認識結果を取得し（音声ダイナミックラベル２１は、音声認識結果をリアルタイムで表示する）、ルート検索要求を開始し、位置検索サービスにマッチングする検索結果ページに入る（図２ｃに示すように）。ユーザ予期行動は、ユーザが検索結果ページで「ここに行く」２２をクリックする（図２ｃに示すように）ことである。第２の行動ログに記録されたユーザ行動が、ユーザが「ここに行く」２２をクリックすることであり（図２ｃに示すように）、ルート検索サービスを開始し、ルート検索サービスにマッチングする検索結果ページに入る場合（図２ｅに示すように）、そのユーザ音声の音声認識結果を正しいと見なし、「公園悦府」というユーザ音声及び音声認識結果を、一つの正のフィードバックトレーニングコーパスとすることができる。

別の具体例では、ユーザ予期行動が第２の行動ログにマッチングすると決定した場合、すなわち、第２の行動ログに記録されたユーザ行動が、ユーザがルート検索サービスにマッチングするルート検索ページで目的地にナビゲーションするオプションを選択することであると決定された場合、コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパスとして判定する。

例えば、ユーザが「公園悦府に行く」というユーザ音声を入力し（図２ｄに示すように）、音声認識によって、「公園悦府に行く」のテキストという音声認識結果を取得し（音声ダイナミックラベル２３は、音声認識結果をリアルタイムで表示する）、ルート検索要求を開始し、ルート検索サービスにマッチングする検索結果ページに入る（図２ｅに示すように）。ユーザ予期行動は、ユーザが検索結果ページで「ナビゲーションを開始する」２４をクリックすることである（図２ｅに示すように）。第２の行動ログに記録されたユーザ行動が、ユーザが検索結果ページで「ナビゲーションを開始する」２４をクリックすることである場合（図２ｅに示すように）、そのユーザ音声の音声認識結果を正しいと見なし、「公園悦府に行く」というユーザ音声及び音声認識結果を、一つの正のフィードバックトレーニングコーパスとすることができる。別の具体例では、ユーザ予期行動が第２の行動ログにマッチングすると決定された場合、すなわち、第２の行動ログに記録されたユーザ行動が、ユーザが目的地に到着することに成功したことであると決定された場合、コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパスとして判定する。

例えば、ユーザは、「西二旗にナビゲーションする」というユーザ音声を入力し（図２ｆに示すように）、音声認識によって、「西二旗にナビゲーションする」のテキストという音声認識結果を取得し（音声ダイナミックラベル２５は、音声認識結果をリアルタイムで表示する）、ルートナビゲーション要求を開始し、ナビゲーションページに入る（図２ｇに示すように）。ユーザ予期行動は、ユーザが目的地に到着することに成功することである（図２ｈに示すように）。第２の行動ログに記録されたユーザ行動が、ユーザ最終的に当該コースを完了した場合（図２ｈに示すように）、そのユーザ音声の音声認識結果を正しいと見なし、「西二旗にナビゲーションする」というユーザ音声及び音声認識結果を、一つの正のフィードバックトレーニングコーパスとすることができる。

本発明の実施例は、トレーニングコーパスの生成方法を提供し、第１の行動ログのログタイプに基づいて、第１の行動ログに対応するユーザ予期行動を取得し、ユーザ予期行動が第２の行動ログにマッチングすると決定した場合、コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパスとして判定することにより、正のフィードバックトレーニングコーパスのマイニングにおいて、正のフィードバックトレーニングコーパスを自動化的に生成し、手動でラベル付けする必要がなく、モデル反復効率を大幅に向上させることができる。

実施例３
図３ａは、本発明の実施例３により提供されるトレーニングコーパスの生成方法のフローチャートである。本実施例は、上記の一つ又は複数の実施例における各選択可能な態様と組み合わせることができ、本実施例では、各ラベル付け対象コーパスデータにおける第１の行動ログと第２の行動ログとの関連づけに基づいて、各コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスとして判定するステップは、第２の行動ログに対応するユーザ行動が所定の期間内の第１の行動ログに対する修正行動であると決定した場合、コーパスデータにおけるユーザ音声及び対応する音声認識結果を負のフィードバックトレーニングコーパスとして判定するステップを含むことができる。

さらに、コーパスデータにおけるユーザ音声及び対応する音声認識結果を負のフィードバックトレーニングコーパスとして判定するステップの後に、修正認識結果又は修正テキストを潜在的な正しい結果として負のフィードバックトレーニングコーパスに追加するステップと、負のフィードバックトレーニングコーパスを手動ラベル付けモデルに送信して、手動ラベル付けモデルが潜在的な正しい結果に対してユーザ音声に対応する正しい認識結果をラベル付けするステップと、手動ラベル付けモデルによってフィードバックされたラベル付け結果を使用して、負のフィードバックトレーニングコーパスを更新するステップと、をさらに含むことができる。

対応的に、図３ａに示すように、本実施例の方法は、以下のステップ３０１〜ステップ３０５を含む。
ステップ３０１において、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログにおいて複数のラベル付け対象コーパスデータをマイニングし、コーパスデータには、ユーザ音声及び対応する音声認識結果を含む第１の行動ログと、第１の行動ログに時間的に関連付けられ、且つ同一のユーザに属する第２の行動ログとが含まれる。

ステップ３０２において、第２の行動ログに対応するユーザ行動が所定の期間内の第１の行動ログに対する修正行動であると決定した場合、コーパスデータにおけるユーザ音声及び対応する音声認識結果を負のフィードバックトレーニングコーパスとして判定する。

ここで、ユーザが音声機能を使用した後、短時間内に修正行動があれば、最初に音声認識されたテキストが誤ったと考えることができる。修正行動は、具体的には、音声機能で修正を再入力することと、手動で修正を入力することという２種類を含む。

第２の行動ログに対応するユーザ行動が所定の期間内の第１の行動ログに対する修正行動であると決定するステップは、第２の行動ログに対応するユーザ行動が修正音声を再入力することであり、且つ修正音声に対応する修正認識結果と音声認識結果とが意味的関連条件を満たすと決定した場合、第２の行動ログに対応するユーザ行動が修正行動であると決定するステップを含むことができる。

意味的関連条件は、修正認識結果又は修正テキストが音声認識結果と異なり、且つ修正認識結果又は修正テキストと音声認識結果とが、予め設定された意味的類似度条件を満たすことを含むことができる。具体的には、予め設定された意味的類似度条件は、修正認識結果又は修正テキストと音声認識結果との意味的類似度が予め設定された類似度閾値以上であってもよい。

例えば、ユーザは、「菊園（ｊｕｙｕａｎ）」というユーザ音声Ａを言い、音声認識によって、誤ったテキストＷ「居然（ｊｕｒａｎ）（日本語意味：まさか）」という音声認識結果を取得し（音声ダイナミックラベル３１は、音声認識結果をリアルタイムで表示する）、ルート検索要求を開始する（図３ｂに示すように）。この時、ユーザが音声機能で「菊園」の修正音声Ｂを再度言い、音声認識によって、修正音声に対応する新しいテキストＲ「菊園」という修正認識結果を取得する（図３ｃに示すように、音声ダイナミックラベル３１は、音声認識結果をリアルタイムで表示する）。修正音声に対応する一つの新しいテキストＲという修正認識結果を取得する。テキストＷがテキストＲと異なり、且つテキストＷとテキストＲとが予め設定された意味的類似度条件を満たす場合、すなわち、テキストＷとテキストＲとが文字の面では異なり、且つ意味の面では非常に類似する場合、ユーザ音声Ａの音声認識結果を誤っていると見なし、ユーザ音声Ａ、テキストＷ、テキストＲは一つの負のフィードバックトレーニングコーパスとすることができる。

第２の行動ログに対応するユーザ行動が所定の期間内の前記第１の行動ログに対する修正行動であると決定するステップは、第２の行動ログに対応するユーザ行動が修正テキストを入力することであり、且つ修正テキストと音声認識結果とが意味的関連条件を満たすと決定した場合、第２の行動ログに対応するユーザ行動が修正行動であると決定するステップを含むことができる。

例えば、ユーザは、「菊園」というユーザ音声Ａを言い、音声認識によって、誤ったテキストＷ「居然（ｊｕｒａｎ）（日本語意味：まさか）」という音声認識結果を取得し（音声ダイナミックラベル３１は、音声認識結果をリアルタイムで表示する）、ルート検索要求を開始する（図３ｂに示すように）。この時、ユーザは、手動で修正テキスト「菊園」を入力する（図３ｄに示すように、テキスト入力ラベル３２は、ユーザによって手動で入力されたテキストをリアルタイムで表示する）。修正テキストである一つの新しいテキストＲを取得する。テキストＷがテキストＲと異なり、且つテキストＷとテキストＲとが予め設定された意味的類似度条件を満たす場合、すなわち、テキストＷとテキストＲとが文字の面では異なり、意味の面では非常に類似する場合、ユーザ音声Ａの音声認識結果を誤っていると見なし、ユーザ音声Ａ、テキストＷ、テキストＲは、一つの負のフィードバックトレーニングコーパスとすることができる。

ステップ３０３において、修正認識結果又は修正テキストを潜在的な正しい結果として負のフィードバックトレーニングコーパスに追加する。

ここで、修正認識結果又は修正テキストは、ユーザ音声に対応する潜在的な正しいテキストである可能性がある。修正認識結果、ユーザ音声及び対応する音声認識結果を、負のフィードバックトレーニングコーパスに追加する。又は修正テキスト、ユーザ音声及び対応する音声認識結果を、負のフィードバックトレーニングコーパスに追加する。

ステップ３０４において、負のフィードバックトレーニングコーパスを手動ラベル付けモデルに送信して、手動ラベル付けモデルが潜在的な正しい結果に対してユーザ音声に対応する正しい認識結果をラベル付けする。

ここで、手動ラベル付けモデルは、潜在的な正しい結果を参照して、負のフィードバックトレーニングコーパスを手動でラベル付けする。手動ラベル付けモデルは、潜在的な正しい結果に対してユーザ音声に対応する正しい認識結果をラベル付けする。例えば、潜在的な正しい結果「菊園」に対して、ユーザ音声に対応する正しい認識結果「菊園」をラベル付けする。

ステップ３０５において、手動ラベル付けモデルによってフィードバックされたラベル付け結果を使用して、負のフィードバックトレーニングコーパスを更新する。

ここで、手動ラベル付けモデルによってフィードバックされたラベル付け結果を使用して、修正認識結果、ユーザ音声、及び対応する音声認識結果を含む負のフィードバックトレーニングコーパスを、ユーザ音声、対応する音声認識結果、及びユーザ音声に対応する正しい認識結果に更新する。又は、修正テキスト、ユーザ音声、及び対応する音声認識結果を含む負のフィードバックトレーニングコーパスを、ユーザ音声、対応する音声認識結果、及びユーザ音声に対応する正しい認識結果に更新する。

本発明の実施例は、トレーニングコーパスの生成方法を提供し、第２の行動ログに対応するユーザ行動が所定の期間内の第１の行動ログに対する修正行動であると決定した場合、コーパスデータにおけるユーザ音声及び対応する音声認識結果を負のフィードバックトレーニングコーパスとして判定し、修正認識結果又は修正テキストを潜在的な正しい結果として負のフィードバックトレーニングコーパスに追加し、負のフィードバックトレーニングコーパスを手動ラベル付けモデルに送信して、手動ラベル付けモデルが潜在的な正しい結果に対してユーザ音声に対応する正しい認識結果をラベル付けし、手動ラベル付けモデルによってフィードバックされたラベル付け結果を使用して、負のフィードバックトレーニングコーパスを更新することにより、負のフィードバックトレーニングコーパスのマイニングにおいて、トレーニングコーパスを意図的に生成し、既存音声認識モデルによって誤って認識されたユーザ音声を収集し、音声認識モデルの指向性教育を再度行って、音声認識モデルの認識効果をより効率的にすることができ、音声をより意図的に抽出して手動でラベル付けし、後続の音声認識モデルの反復をより効果的にすることができる。

実施例４
図４ａは、本発明の実施例４により提供されるトレーニングコーパスの生成方法のフローチャートである。本実施例は、上記の一つ又は複数の実施例における各選択可能な態様と組み合わせることができる。本実施例では、各コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスとして判定するステップの後に、正のフィードバックトレーニングコーパス及び負のフィードバックトレーニングコーパスに基づいて、トレーニングコーパスセットを構築し、トレーニングコーパスセットをトレーニングコーパス検収プラットフォームに送信するステップと、トレーニングコーパス検収プラットフォームによってフィードバックされた、トレーニングコーパスセットに対応する正確率指標値を受信するステップと、正確率指標値が予め設定された正確率閾値を満たしていると決定した場合、トレーニングコーパスセットを使用してターゲットアプリケーションプログラムの音声認識モデルの最適化トレーニングを行うステップと、をさらに含むことができる。

トレーニングコーパス検収プラットフォームによってフィードバックされた、トレーニングコーパスセットに対応する正確率指標値を受信するステップの後、正確率指標値が予め設定された正確率閾値を満たさないと決定した場合、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログに基づいて、複数の新しいラベル付け対象コーパスデータを再度マイニングし、新しいラベル付け対象コーパスデータにおいて新しい正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスを判定するステップをさらに含むことができる。

対応的に、図４ａに示すように、本実施例の方法は、以下のようなステップ４０１〜ステップ４０７を含む。
ステップ４０１において、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログにおいて複数のラベル付け対象コーパスデータをマイニングし、コーパスデータには、ユーザ音声及び対応する音声認識結果を含む第１の行動ログと、第１の行動ログに時間的に関連付けられ、且つ同一のユーザに属する第２の行動ログとが含まれる。

ステップ４０２において、各ラベル付け対象コーパスデータにおける第１の行動ログと第２の行動ログとの関連づけに基づいて、各コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスとして判定する。

ステップ４０３において、正のフィードバックトレーニングコーパス及び負のフィードバックトレーニングコーパスに基づいてトレーニングコーパスセットを構築し、トレーニングコーパスセットをトレーニングコーパス検収プラットフォームに送信する。

ここで、トレーニングコーパス検収プラットフォームは、トレーニングコーパスセットにおける正のフィードバックトレーニングコーパス及び負のフィードバックトレーニングコーパスを検収する。

ステップ４０４において、トレーニングコーパス検収プラットフォームによってフィードバックされた、トレーニングコーパスセットに対応する正確率指標値を受信する。

ここで、トレーニングコーパス検収プラットフォームは、トレーニングコーパスセットにおける各トレーニングコーパスが正しいか否かを判断し、トレーニングコーパスセットに対応する正確率指標値を計算する。正確率指標値は、正しいと判断されたトレーニングコーパスの数と、トレーニングコーパスセットにおけるトレーニングコーパスの総数との比であってもよい。

例えば、トレーニングコーパスセットにおけるトレーニングコーパスの総数は１０００本である。正しいと判断されたトレーニングコーパスの数は９００本である。正確率指標値は０.９である。

ステップ４０５において、正確率指標値が予め設定された正確率閾値を満たすか否かを判断し、満たす場合、ステップ４０６を実行し、満たさない場合、ステップ４０７を実行する。

ここで、予め設定された正確率閾値は、必要に応じて設定することができる。例えば、予め設定された正確率閾値は０.８とすることができる。

ステップ４０６において、トレーニングコーパスセットを使用してターゲットアプリケーションプログラムの音声認識モデルの最適化トレーニングを行う。

ここで、正確率指標値が予め設定された正確率閾値を満たすと決定した場合、直接にトレーニングコーパスセットを使用してターゲットアプリケーションプログラムの音声認識モデルの最適化トレーニングを行う。

ステップ４０７において、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログに基づいて、複数の新しいラベル付け対象コーパスデータを再度マイニングし、新しいラベル付け対象コーパスデータにおいて新しい正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスを判定する。

ここで、正確率指標値が予め設定された正確率閾値を満たさないと決定した場合、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログに基づいて、正のフィードバックトレーニングコーパス及び負のフィードバックトレーニングコーパスを再度マイニングする。再度マイニングされた正のフィードバックトレーニングコーパス及び負のフィードバックトレーニングコーパスの正確率指標値が予め設定された正確率閾値を依然として満たさない場合、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログに基づいて、正のフィードバックトレーニングコーパス及び負のフィードバックトレーニングコーパスを継続的にマイニングし、正確率指標値が予め設定された正確率閾値を満たす正のフィードバックトレーニングコーパス及び負のフィードバックトレーニングコーパスがマイニングされるまで繰り返す。

正のフィードバックトレーニングコーパスをマイニングする方法の全体的なフローチャートは、図４ｂに示すように、以下のステップ４１１〜ステップ４１３を含む。
ステップ４１１において、ログを直列接続する。

ここで、音声を使用したユーザ行動ログ及び地図の他のユーザ行動ログをユーザ及び時間に従って直列接続する。

ステップ４１２において、正しく認識された音声及びテキストをマイニングする。

ここで、既存モデルによって正しく認識された音声及びテキストをマイニングする。

ステップ４１３において、トレーニングコーパスを検収する。

ここで、ステップ４１２（コアプロセス）では、既存モデルによって正しく認識された音声及びテキストをマイニングする方法のフローチャートは、図４ｃに示されている（位置検索シーンは左の図であり、ルート検索シーンは真ん中の図であり、ルートナビゲーションシーンは右の図である）。

位置検索シーンにおいて既存モデルによって正しく認識された音声及びテキストをマイニングする方法は、以下のステップ４２１〜ステップ４２３を含む。
ステップ４２１において、音声で位置検索を開始する。

ステップ４２２において、目的地にマッチングするルート検索サービスを開始するオプションを選択するか。選択する場合、ステップ４２３を実行し、選択しない場合、ステップ４２３をスキップして後続のステップを実行する。

ステップ４２３において、正のフィードバックトレーニングコーパスとして保持する。

ルート検索シーンにおいて既存モデルによって正しく認識された音声及びテキストをマイニングする方法は、以下のステップ４８１〜ステップ４８３を含む。
ステップ４８１において、音声でルート検索を開始する。

ステップ４８２において、目的地にナビゲーションするオプションを選択するか。選択する場合、ステップ４８３を実行し、選択しない場合、ステップ４８３をスキップして後続のステップを実行する。

ステップ４８３において、正のフィードバックトレーニングコーパスとして保持する。

ルートナビゲーションシーンにおいて既存モデルによって正しく認識された音声及びテキストをマイニングする方法は、以下のステップ４３１〜ステップ４３３を含む。
ステップ４３１において、音声でナビゲーションを開始する。

ステップ４３２において、ユーザが目的地に到着することに成功したか。成功した場合、ステップ４３３を実行し、成功しなかった場合、ステップ４３３をスキップして後続のステップを実行する。

ステップ４３３において、正のフィードバックトレーニングコーパスとして保持する。

既存モデルによって正しく認識された音声及びテキストをマイニングする方法のコアロジックは、さらに抽象化されると、図４ｄに示すように、以下のステップ４４１〜ステップ４４３を含む。
ステップ４４１において、音声で第１の行動を開始する。

ステップ４４２において、予期可能な後続の行動があるか。ある場合、ステップ４４３を実行し、ない場合、ステップ４４３をスキップして後続のステップを実行する。

ステップ４４３において、正のフィードバックトレーニングコーパスとして保持する。

負のフィードバックトレーニングコーパスをマイニングする方法の全体的なフローチャートは、図４ｅに示すように、以下のステップ４５１〜ステップ４５４を含む。
ステップ４５１において、ログを直列接続する。

ステップ４５２において、誤って認識された音声及び関連情報をマイニングする。

ステップ４５３において、潜在的な正しいテキストを参照して手動でラベル付けする。

ステップ４５４において、トレーニングコーパスを検収する。

ここで、ステップ４５２（コアプロセス）では、既存モデルによって誤って認識された音声及びテキスト、及び潜在的な正しいテキストをマイニングする方法のフローチャートは、図４ｆに示すように（検索シーンを例とする）、以下のステップ４６１〜ステップ４６４を含む。
ステップ４６１において、音声で検索する。

ステップ４６２において、短時間内に再度検索するか。再度検索する場合、ステップ４６３を実行し、再度検索しない場合、ステップ４６３及びステップ４６４をスキップして後続のステップを実行する。

ステップ４６３において、検索語が異なるが類似しているか。Ｙeｓの場合、ステップ４６４を実行し、ＮＯの場合、ステップ４６４をスキップして後続のステップを実行する。

ステップ４６４において、負のフィードバックトレーニングコーパスとして保持する。

既存モデルによって誤って認識された音声及びテキスト、及び潜在的な正しいテキストをマイニングする方法のコアロジックは、さらに抽象化されると、図４ｇに示すように、以下のステップ４７１〜ステップ４７３を含む。
ステップ４７１において、音声で第１の行動を開始する。

ステップ４７２において、短時間内に修正があるか。ある場合、ステップ４７３を実行し、ない場合、ステップ４７３をスキップして後続のステップを実行する。

ステップ４７３において、負のフィードバックトレーニングコーパスとして保持する。

本発明の実施例は、トレーニングコーパスの生成方法を提供し、正のフィードバックトレーニングコーパス及び負のフィードバックトレーニングコーパスに基づいてトレーニングコーパスセットを構築し、トレーニングコーパスセットをトレーニングコーパス検収プラットフォームに送信し、次に、トレーニングコーパス検収プラットフォームによってフィードバックされた、トレーニングコーパスセットに対応する正確率指標値を受信し、正確率指標値が予め設定された正確率閾値を満たすか否かに基づいて、トレーニングコーパスセットを使用してターゲットアプリケーションプログラムの音声認識モデルの最適化トレーニングを行うか、それともターゲットアプリケーションプログラムに関連付けられたユーザ行動ログに基づいて正のフィードバックトレーニングコーパス及び負のフィードバックトレーニングコーパスを再度マイニングするかを決定することにより、生成されたトレーニングコーパスを検収するすることができ、音声認識モデルに正確なトレーニングコーパスを提供し、音声認識の効果をより効果的に向上させることができる。

実施例５
図５は、本発明の実施例５により提供されるトレーニングコーパスの生成装置の概略構成図である。図５に示すように、前記装置は、コーパスデータマイニングモジュール５０１とコーパス判定モジュール５０２とを備える。

ここで、コーパスデータマイニングモジュール５０１は、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログにおいて複数のラベル付け対象コーパスデータをマイニングするように構成され、コーパスデータには、ユーザ音声及び対応する音声認識結果を含む第１の行動ログと、第１の行動ログに時間的に関連付けられ、且つ同一のユーザに属する第２の行動ログとが含まれる。コーパス判定モジュール５０２は、各ラベル付け対象コーパスデータにおける第１の行動ログと第２の行動ログとの関連づけに基づいて、各コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスとして判定するように構成される。

本発明の実施例は、トレーニングコーパスの生成装置を提供し、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログにおいて複数のラベル付け対象コーパスデータをマイニングし、コーパスデータには、ユーザ音声及び対応する音声認識結果を含む第１の行動ログと、第１の行動ログに時間的に関連付けられ、且つ同一のユーザに属する第２の行動ログとが含まれ、次に、各ラベル付け対象コーパスデータにおける第１の行動ログと第２の行動ログとの関連づけに基づいて、各コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスとして判定することにより、従来技術では、音声認識されたトレーニングコーパスが主に手動でラベル付けされたランダム音声から来たものであることによって音声認識モデルの反復サイクルが長すぎてリソース消費が深刻であり、大量の無効ラベル付けがあるという問題が解決され、ユーザ行動に基づいて、音声認識された正のフィードバックトレーニングコーパス及び負のフィードバックトレーニングコーパスを自動的且つ意図的にマイニングして、後続の音声認識モデルのトレーニングに提供することができ、音声認識の効果を効果的に向上させ、音声認識モデルの反復サイクルを大幅に短縮し、リソースを大量に節約することができる。

上記の各実施例に基づいて、コーパス判定モジュール５０２は、第１の行動ログのログタイプに基づいて、第１の行動ログに対応するユーザ予期行動を取得するように構成される予期行動取得ユニットと、ユーザ予期行動が第２の行動ログにマッチングすると決定した場合、コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパスとして判定するように構成される第１の判定ユニットと、を備えることができる。

上記の各実施例に基づいて、コーパス判定モジュール５０２は、第２の行動ログに対応するユーザ行動が所定の期間内の第１の行動ログに対する修正行動であると決定した場合、コーパスデータにおけるユーザ音声及び対応する音声認識結果を負のフィードバックトレーニングコーパスとして判定するように構成される第２の判定ユニットを備えることができる。

上記の各実施例に基づいて、ターゲットアプリケーションプログラムは、地図類アプリケーションプログラムを含むことができる。

上記の各実施例に基づいて、予期行動取得ユニットは、第１の行動ログのログタイプが、ユーザ音声に対応する音声認識結果を目的地として位置検索サービスを開始するものであると決定した場合、ユーザ予期行動が、ユーザが位置検索サービスにマッチングする検索結果ページで目的地にマッチングするルート検索サービスを開始するオプションを選択することであると決定するように構成される第１の決定サブユニットを備えることができる。

上記の各実施例に基づいて、予期行動取得ユニットは、第１の行動ログのログタイプが、ユーザ音声に対応する音声認識結果を目的地としてルート検索サービスを開始するものであると決定した場合、ユーザ予期行動が、ユーザがルート検索サービスにマッチングするルート検索ページで目的地にナビゲーションするオプションを選択することであると決定するように構成される第２の決定サブユニットを備えることができる。

上記の各実施例に基づいて、予期行動取得ユニットは、第１の行動ログのログタイプが、ユーザ音声に対応する音声認識結果を目的地としてルートナビゲーションサービスを開始するものであると決定した場合、ユーザ予期行動が、ユーザが目的地に到着することに成功したことであると決定するように構成される第３の決定サブユニットを備えることができる。

上記の各実施例に基づいて、第２の判定ユニットは、第２の行動ログに対応するユーザ行動が修正音声を再入力することであり、且つ修正音声に対応する修正認識結果と音声認識結果とが意味的関連条件を満たすと決定した場合、第２の行動ログに対応するユーザ行動が修正行動であると決定するように構成される第３の決定サブユニット、及び／又は、第２の行動ログに対応するユーザ行動が修正テキストを入力することであり、且つ修正テキストと音声認識結果とが意味的関連条件を満たすと決定した場合、第２の行動ログに対応するユーザ行動が修正行動であると決定するように構成される第４の決定サブユニット、を備えることができる。

上記の各実施例に基づいて、意味的関連条件は、修正認識結果又は修正テキストが、音声認識結果と異なり、且つ修正認識結果又は修正テキストと音声認識結果とが、予め設定された意味的類似度条件を満たすことを含むことができる。

上記の各実施例に基づいて、第２の判定ユニットは、修正認識結果又は修正テキストを潜在的な正しい結果として負のフィードバックトレーニングコーパスに追加するように構成される結果追加サブユニットと、負のフィードバックトレーニングコーパスを手動ラベル付けモデルに送信して、手動ラベル付けモデルが潜在的な正しい結果に対してユーザ音声に対応する正しい認識結果をラベル付けするように構成される結果ラベル付けサブユニットと、手動ラベル付けモデルによってフィードバックされたラベル付け結果を使用して、負のフィードバックトレーニングコーパスを更新するように構成されるコーパス更新サブユニットと、をさらに備えることができる。

上記の各実施例に基づいて、前記装置は、正のフィードバックトレーニングコーパス及び負のフィードバックトレーニングコーパスに基づいてトレーニングコーパスセットを構築し、トレーニングコーパスセットをトレーニングコーパス検収プラットフォームに送信するように構成されるコーパスセット送信モジュールと、トレーニングコーパス検収プラットフォームによってフィードバックされた、トレーニングコーパスセットに対応する正確率指標値を受信するように構成される指標値受信モジュールと、正確率指標値が予め設定された正確率閾値を満たすと決定した場合、トレーニングコーパスセットを使用してターゲットアプリケーションプログラムの音声認識モデルの最適化トレーニングを行うように構成されるコーパスセット使用モジュールと、をさらに備えることができる。

上記の各実施例に基づいて、前記装置は、正確率指標値が予め設定された正確率閾値を満たさないと決定した場合、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログに基づいて複数の新しいラベル付け対象コーパスデータを再度マイニングし、新しいラベル付け対象コーパスデータにおいて新しい正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスを判定するように構成されるコーパス再度生成モジュールをさらに備えることができる。

上記のトレーニングコーパスの生成装置は、本発明のいずれかの実施例により提供されるトレーニングコーパスの生成方法を実行することができ、トレーニングコーパスの生成方法を実行する対応する機能モジュール及び有益な効果を有する。

実施例６
図６は、本発明の実施例６によって提供されるコンピュータ機器の概略構成図である。図６は、本発明の実施形態の実現に適する例示的なコンピュータ機器６１２のブロック図である。図６に示されるコンピュータ機器６１２は、単なる一例であり、本発明の実施例の機能及び使用範囲を一切限定しない。

図６に示すように、コンピュータ機器６１２は、汎用コンピューティング機器の形態で示されている。コンピュータ機器６１２の構成要素は、一つ又は複数のプロセッサ又は処理ユニット６１６と、システムメモリ６２８と、異なるシステム構成要素（システムメモリ６２８と処理ユニット６１６とを含む）を接続するバス６１８と、を備えることができるが、これらに限定されない。

バス６１８は、メモリバス又はメモリコントローラ、周辺バス、アクセラレーテッドグラフィックスポート、プロセッサ又は多様なバス構造のうちのいずれかのバス構造を使用するローカルバスを含む、複数種類のバス構造のうち一つ又は複数を表す。例を挙げると、これらのアーキテクチャは、インダストリスタンダードアーキテクチャ（ＩＳＡ）バス、マイクロチャネルアーキテクチャ（ＭＡＣ）バス、拡張ＩＳＡバス、ビデオエレクトロニクススタンダーズアソシエーション（ＶＥＳＡ）ローカルバス、及びペリフェラルコンポーネントインターコネクト（ＰＣＩ）バスを含むが、これらに限定されない。

コンピュータ機器６１２は、典型的には、複数種類のコンピュータシステム読み取り可能な媒体を含む。これらの媒体は、コンピュータ機器６１２がアクセスすることができる任意の使用可能な媒体であってもよく、揮発性媒体及び不揮発性媒体、リムーバブル媒体及びノンリムーバブル媒体を含む。

システムメモリ６２８は、ランダムアクセスメモリ（ＲＡＭ）６３０及び／又はキャッシュメモリ６３２などの揮発性メモリの形態のコンピュータシステム読み取り可能な媒体を備えてもよい。コンピュータ機器６１２は、他のリムーバブル／ノンリムーバブル、揮発性／不揮発性コンピュータシステム記憶媒体をさらに備えてもよい。単なる一例として、ストレージシステム６３４は、ノンリムーバブル、不揮発性磁気媒体（図６に示されていないが、通常「ハードドライブ」という）に対して読み出し及び書き込みをするために用いることができる。図６に示されていないが、リムーバブル不揮発性磁気ディスク（例えば、「フロッピーディスク」）に対して読み出し及び書き込みをするための磁気ディスクドライブ、及びリムーバブル不揮発性光学ディスク（例えば、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ又は他の光学媒体）に対して読み出し及び書き込みをするための光学ディスクドライブを提供することができる。これらの場合、各ドライブは、一つ又は複数のデータメディアインターフェイスを介してバス６１８に接続することができる。システムメモリ６２８は、本発明の各実施例に記載の機能を実行するように構成される１セット（例えば、少なくとも一つ）のプログラムモジュールを有する少なくとも一つのプログラム製品を備えてもよい。

１セット（少なくとも一つ）のプログラムモジュール６４２を有するプログラム／ユーティリティ６４０は、例えば、システムメモリ６２８に記憶されてもよく、このようなプログラムモジュール６４２は、オペレーティングシステム、一つ又は複数のアプリケーションプログラム、他のプログラムモジュール、及びプログラムデータを含むがこれらに限定されない。これらの例のそれぞれ又は何らかの組み合わせには、ネットワーク環境の実装が含まれる可能性がある。プログラムモジュール６４２は、通常本発明に記載の実施例における機能及び／又は方法を実行する。

コンピュータ機器６１２は、一つ又は複数の外部デバイス６１４（例えば、キーボード、ポインティングデバイス、ディスプレイ６２４など）と通信することができるし、ユーザがコンピュータ機器６１２とインタラクションすることを可能にする一つ又は複数のデバイスと通信することもでき、及び／又はコンピュータ機器６１２が一つ又は複数の他のコンピューティング機器と通信することを可能にする任意のデバイス（例えば、ネットワークカード、モデムなど）と通信することができる。そのような通信は、入力／出力（Ｉ／Ｏ）インターフェイス６２２を介して行うことができる。また、コンピュータ機器６１２は、ネットワークアダプタ６２０を介して、一つ又は複数のネットワーク（例えば、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、及び／又はパブリックネットワーク、例えば、インターネット）と通信することができる。図に示すように、ネットワークアダプタ６２０は、バス６１８を介して、コンピュータ機器６１２の他のモジュールと通信する。なお、図６に示されていないが、マイクロコードやデバイスドライバ、冗長処理ユニット、外部ディスクドライブアレイ、ＲＡＩＤシステム、テープドライバ、及びデータバックアップトレージシステムなどを備えるがこれらに限定されない他のハードウェア及び／又はソフトウェアモジュールを、コンピュータ機器６１２と組み合わせて使用することができる。

処理ユニット６１６は、システムメモリ６２８に記憶されたプログラムを実行することにより、様々な機能アプリケーション及びデータ処理を実行し、例えば、本発明の実施例によって提供されるトレーニングコーパスの生成方法を実現する。すなわち、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログにおいて、複数のラベル付け対象コーパスデータをマイニングし、コーパスデータには、ユーザ音声及び対応する音声認識結果を含む第１の行動ログと、第１の行動ログに時間的に関連付けられ、且つ同一のユーザに属する第２の行動ログとが含まれ、各ラベル付け対象コーパスデータにおける第１の行動ログと第２の行動ログとの関連づけに基づいて、各コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスとして判定する。

実施例７
本発明の実施例７は、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体を提供し、当該プログラムがプロセッサによって実行される場合に、本出願のすべての発明の実施例により提供されるトレーニングコーパスの生成方法が実現される。すなわち、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログにおいて、複数のラベル付け対象コーパスデータをマイニングし、コーパスデータには、ユーザ音声及び対応する音声認識結果を含む第１の行動ログと、第１の行動ログに時間的に関連付けられ、且つ同一のユーザに属する第２の行動ログとが含まれ、各ラベル付け対象コーパスデータにおける第１の行動ログと第２の行動ログとの関連づけに基づいて、各コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスとして判定する。

一つ又は複数のコンピュータ読み取り可能な媒体の任意の組み合わせを採用することができる。コンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体、或いはコンピュータ読み取り可能な記憶媒体であってもよい。コンピュータ読み取り可能な媒体は、例えば、電子、磁気、光、電磁気、赤外線、又は半導体のシステム、装置又はデバイス、或いは上記の任意の組み合わせであってもよいがこれらに限定されない。コンピュータ読み取り可能な記憶媒体のより具体的な例（非限定的なリスト）は、一つ又は複数の配線を備える電気接続部、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ-ＲＯＭ）、光記憶装置、磁気記憶装置、又は上記の任意の適切な組み合わせを含む。この明細書において、コンピュータ読み取り可能な記憶媒体は、命令実行システム、装置又はデバイスにより使用され、或いはそれらと組み合わせて使用されることが可能であるプログラムを含む又は記憶する任意の有形の媒体であってもよい。

コンピュータ読み取り可能なの信号媒体は、ベースバンドにおける、又は搬送波の一部として伝播するデータ信号を含むことができ、その中にはコンピュータ読み取り可能なのプログラムコードが搭載されている。この伝播するデータ信号は様々な形式を採用することができ、電磁信号、光信号又は上記の任意の適切な組み合わせを含むがこれらに限定されない。コンピュータ読み取り可能なの信号媒体は、さらに、コンピュータ読み取り可能な記憶媒体以外の任意のコンピュータ読み取り可能な媒体であってもよく、当該コンピュータ読み取り可能な媒体は、命令実行システム、装置又はデバイスにより使用され、或いはそれらと組み合わせて使用されるプログラムを送信、伝播又は伝送することができる。

コンピュータ読み取り可能な媒体に含まれるプログラムコードは、無線、有線、光ケーブル、ＲＦなど、又は上記の任意の適切な組み合わせを含むがこれらに限定されない任意の適切な媒体によって伝送することができる。

一つ又は複数のプログラミング言語又はそれらの組み合わせで本発明の動作を実行するように構成されるコンピュータプログラムコードを作成することができ、前記プログラミング言語は、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのプロジェクト指向のプログラミング言語を含み、さらに、「Ｃ」言語又は同様のプログラミング言語といった従来の手続き型プログラミング言語をも含む。プログラムコードは、完全にユーザーコンピュータで実行されてもよいし、部分的にユーザーコンピュータに実行されてもよいし、スタンドアロンソフトウェアパッケージとして実行されてもよいし、部分的にユーザーコンピュータで、部分的にリモートコンピュータで実行されてもよい、又は完全にリモートコンピュータ又はサーバーで実行してもよい。リモートコンピュータに係る場合、リモートコンピュータは、ローカルネットワーク（ＬＡＮ）又は広域ネットワーク（ＷＡＮ）を含む任意種類のインターネットを介して、ユーザーコンピュータに接続することができ、或いは、外部コンピュータ（例えば、インターネットサービスプロバイダを利用してインターネットを介して接続する）に接続することもできる。

なお、上記の記載は、本発明の好ましい実施例及び運用される技術的原理に過ぎない。当業者は、本発明がここに記載された特定の実施例に限定されないことを理解することができる。当業者であれば、本発明の保護範囲を逸脱することはなく、種々の明らかな変更、再調整及び置換えを行うことができる。したがって、上記実施例を用いて本発明を比較的詳細に説明したが、本発明は、上記実施例に限定されず、本発明の技術的思想を逸脱しなく、より多くの他の効果同等な実施例をさらに含むことができ、本発明の範囲は、特許請求の範囲によって决定される。

Claims

ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログにおいて複数のラベル付け対象コーパスデータをマイニングするステップであって、前記コーパスデータには、ユーザ音声及び対応する音声認識結果を含む第１の行動ログと、前記第１の行動ログに時間的に関連付けられ、且つ同一のユーザに属する第２の行動ログとが含まれるステップと、
各前記ラベル付け対象コーパスデータにおける第１の行動ログと第２の行動ログとの関連づけに基づいて、各前記コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスとして判定するステップと、
前記正のフィードバックトレーニングコーパス及び前記負のフィードバックトレーニングコーパスに基づいてトレーニングコーパスセットを構築し、前記トレーニングコーパスセットをトレーニングコーパス検収プラットフォームに送信するステップと、
前記トレーニングコーパス検収プラットフォームによってフィードバックされた、前記トレーニングコーパスセットに対応する正確率指標値を受信するステップと、
前記正確率指標値が予め設定された正確率閾値を満たすと決定した場合、前記トレーニングコーパスセットを使用して前記ターゲットアプリケーションプログラムの音声認識モデルの最適化トレーニングを行うステップと、
を含むトレーニングコーパスの生成方法。
各前記ラベル付け対象コーパスデータにおける第１の行動ログと第２の行動ログとの関連づけに基づいて、各前記コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスとして判定するステップが、
第１の行動ログのログタイプに基づいて、前記第１の行動ログに対応するユーザ予期行動を取得するステップと、
前記ユーザ予期行動が前記第２の行動ログにマッチングすると決定した場合、前記コーパスデータにおける前記ユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパスとして判定するステップと、
を含む請求項１に記載の方法。
各前記ラベル付け対象コーパスデータにおける第１の行動ログと第２の行動ログとの関連づけに基づいて、各前記コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスとして判定するステップが、
第２の行動ログに対応するユーザ行動が所定の期間内の前記第１の行動ログに対する修正行動であると決定した場合、前記コーパスデータにおける前記ユーザ音声及び対応する音声認識結果を負のフィードバックトレーニングコーパスとして判定するステップを含む請求項１に記載の方法。
前記ターゲットアプリケーションプログラムが、地図類アプリケーションプログラムを含む請求項１に記載の方法。
第１の行動ログのログタイプに基づいて、前記第１の行動ログに対応するユーザ予期行動を取得するステップが、
前記第１の行動ログのログタイプが、前記ユーザ音声に対応する音声認識結果を目的地として使用して位置検索サービスを開始するものであると決定した場合、前記ユーザ予期行動が、ユーザが前記位置検索サービスにマッチングする検索結果ページで前記目的地にマッチングするルート検索サービスを開始するオプションを選択することであると決定するステップを含む請求項２に記載の方法。
第１の行動ログのログタイプに基づいて、前記第１の行動ログに対応するユーザ予期行動を取得するステップが、
前記第１の行動ログのログタイプが、前記ユーザ音声に対応する音声認識結果を目的地としてルート検索サービスを開始するものであると決定した場合、前記ユーザ予期行動が、ユーザが前記ルート検索サービスにマッチングするルート検索ページで前記目的地にナビゲーションするオプションを選択することであると決定するステップを含む請求項２に記載の方法。
第１の行動ログのログタイプに基づいて、前記第１の行動ログに対応するユーザ予期行動を取得するステップが、
前記第１の行動ログのログタイプが、前記ユーザ音声に対応する音声認識結果を目的地としてルートナビゲーションサービスを開始するものであると決定した場合、前記ユーザ予期行動が、ユーザが前記目的地に到着することに成功したことであると決定するステップを含む請求項２に記載の方法。
第２の行動ログに対応するユーザ行動が所定の期間内の前記第１の行動ログに対する修正行動であると決定するステップが、
前記第２の行動ログに対応するユーザ行動が修正音声を再入力することであり、且つ前記修正音声に対応する修正認識結果と前記音声認識結果とが意味的関連条件を満たすと決定した場合、前記第２の行動ログに対応するユーザ行動が修正行動であると決定するステップ、及び／又は、
前記第２の行動ログに対応するユーザ行動が修正テキストを入力することであり、且つ前記修正テキストと前記音声認識結果とが意味的関連条件を満たすと決定した場合、前記第２の行動ログに対応するユーザ行動が修正行動であると決定するステップを含む請求項３に記載の方法。
前記意味的関連条件が、前記修正認識結果又は前記修正テキストが前記音声認識結果と異なり、且つ前記修正認識結果又は前記修正テキストと前記音声認識結果とが、予め設定された意味的類似度条件を満たすことを含む請求項８に記載の方法。
前記コーパスデータにおける前記ユーザ音声及び対応する音声認識結果を負のフィードバックトレーニングコーパスとして判定するステップの後に、
修正認識結果又は修正テキストを潜在的な正しい結果として前記負のフィードバックトレーニングコーパスに追加するステップと、
前記負のフィードバックトレーニングコーパスを手動ラベル付けモデルに送信して、前記手動ラベル付けモデルが前記潜在的な正しい結果に対して前記ユーザ音声に対応する正しい認識結果をラベル付けするステップと、
前記手動ラベル付けモデルによってフィードバックされたラベル付け結果を使用して、前記負のフィードバックトレーニングコーパスを更新するステップと、
を含む請求項３に記載の方法。
前記トレーニングコーパス検収プラットフォームによってフィードバックされた、前記トレーニングコーパスセットに対応する正確率指標値を受信するステップの後に、
前記正確率指標値が予め設定された正確率閾値を満たさないと決定した場合、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログに基づいて、複数の新しいラベル付け対象コーパスデータを再度マイニングし、新しいラベル付け対象コーパスデータにおいて新しい正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスを判定するステップを含む請求項１に記載の方法。
ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログにおいて、複数のラベル付け対象コーパスデータをマイニングするように構成されるコーパスデータマイニングモジュールであって、前記コーパスデータには、ユーザ音声及び対応する音声認識結果を含む第１の行動ログと、前記第１の行動ログに時間的に関連付けられ、且つ同一のユーザに属する第２の行動ログとが含まれるコーパスデータマイニングモジュールと、
各前記ラベル付け対象コーパスデータにおける第１の行動ログと第２の行動ログとの関連づけに基づいて、各前記コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスとして判定するように構成されるコーパス判定モジュールと、
前記正のフィードバックトレーニングコーパス及び前記負のフィードバックトレーニングコーパスに基づいてトレーニングコーパスセットを構築し、前記トレーニングコーパスセットをトレーニングコーパス検収プラットフォームに送信するように構成されるコーパスセット送信モジュールと、
前記トレーニングコーパス検収プラットフォームによってフィードバックされた、前記トレーニングコーパスセットに対応する正確率指標値を受信するように構成される指標値受信モジュールと、
前記正確率指標値が予め設定された正確率閾値を満たすと決定した場合、前記トレーニングコーパスセットを使用して前記ターゲットアプリケーションプログラムの音声認識モデルの最適化トレーニングを行うように構成されるコーパスセット使用モジュールと、
を備えるトレーニングコーパスの生成装置。
メモリと、プロセッサと、メモリに記憶され、プロセッサで実行可能なコンピュータプログラムと、を備えるコンピュータ機器であって、
前記プロセッサが前記プログラムを実行する場合に、請求項１から１１のいずれか一項に記載のトレーニングコーパスの生成方法を実現するコンピュータ機器。
コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
当該コンピュータプログラムがプロセッサにより実行される場合に、請求項１から１１のいずれか一項に記載のトレーニングコーパスの生成方法が実現されるコンピュータ読み取り可能な記憶媒体。