JP6936888B2 - トレーニングコーパスの生成方法、装置、機器及び記憶媒体 - Google Patents

トレーニングコーパスの生成方法、装置、機器及び記憶媒体 Download PDF

Info

Publication number
JP6936888B2
JP6936888B2 JP2020041151A JP2020041151A JP6936888B2 JP 6936888 B2 JP6936888 B2 JP 6936888B2 JP 2020041151 A JP2020041151 A JP 2020041151A JP 2020041151 A JP2020041151 A JP 2020041151A JP 6936888 B2 JP6936888 B2 JP 6936888B2
Authority
JP
Japan
Prior art keywords
user
corpus
action
training corpus
action log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020041151A
Other languages
English (en)
Other versions
JP2020149053A (ja
Inventor
シーチァン ディン,
シーチァン ディン,
ジーヂョウ ファン,
ジーヂョウ ファン,
ヂョンウェイ ジャン,
ヂョンウェイ ジャン,
ウェンタオ マ,
ウェンタオ マ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2020149053A publication Critical patent/JP2020149053A/ja
Application granted granted Critical
Publication of JP6936888B2 publication Critical patent/JP6936888B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Description

本発明の実施例は、データ処理技術に関し、特に、トレーニングコーパスの生成方法、装置、機器及び記憶媒体に関する。
現在、地図類アプリケーションプログラムの音声認識モデルの最適化は、主に、数万時間の音声及びそれに対応するシーン情報をランダムに抽出するステップと、巨額の資金と時間をかけて手動でラベル付けし、トレーニングコーパスを作成するステップと、新しいトレーニングコーパスに基づいて音声認識モデルを再度トレーニングして、最適化に調整するステップという三つのステップを必要とする。
発明者は、本発明を実現するプロセスでは、従来技術において、音声認識されたトレーニングコーパスは、主に手動でラベル付けされたランダム音声からのものであることを発見した。その結果、以下の二つの主な問題がある。1つの問題は、手動でラベル付けされたものであるため、音声認識モデルの反復サイクルが長すぎて、リソース消費が深刻である。もう1つの問題は、ランダムに抽出された音声であるため、大量の無効ラベル付けがある(誤って認識されたコーパスの増加は、正しく認識されたコーパスの増加より価値がある)。
本発明の実施例は、ユーザ行動に基づいて、音声認識されたトレーニングコーパスを自動的且つ意図的にマイニングすることを実現するトレーニングコーパスの生成方法、装置、機器及び記憶媒体を提供する。
第1の態様では、本発明の実施例は、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログにおいて複数のラベル付け対象コーパスデータをマイニングするステップであって、コーパスデータには、ユーザ音声及び対応する音声認識結果を含む第1の行動ログと、第1の行動ログに時間的に関連付けられ、且つ同一のユーザに属する第2の行動ログとが含まれるステップと、各ラベル付け対象コーパスデータにおける第1の行動ログと第2の行動ログとの関連づけに基づいて、各コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスとして判定するステップと、を含むトレーニングコーパスの生成方法を提供する。
第2の態様では、本発明の実施例は、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログにおいて複数のラベル付け対象コーパスデータをマイニングするように構成されるコーパスデータマイニングモジュールであって、前記コーパスデータには、ユーザ音声及び対応する音声認識結果を含む第1の行動ログと、前記第1の行動ログに時間的に関連付けられ、且つ同一のユーザに属する第2の行動ログとが含まれるコーパスデータマイニングモジュールと、各前記ラベル付け対象コーパスデータにおける第1の行動ログと第2の行動ログとの関連づけに基づいて、各前記コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスとして判定するように構成されるコーパス判定モジュールと、を備えるトレーニングコーパスの生成装置を提供する。
第3の態様では、本発明の実施例は、コンピュータ機器を提供し、該コンピュータ機器が、メモリと、プロセッサと、メモリに記憶され、プロセッサで実行可能なコンピュータプログラムとを備え、前記プロセッサが前記プログラムを実行する場合に、本発明の実施例に記載のトレーニングコーパスの生成方法を実現する。
第4の態様では、本発明の実施例は、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体を提供し、当該コンピュータプログラムがプロセッサにより実行される場合に、本発明の実施例に記載のトレーニングコーパスの生成方法が実現される。
本発明の実施例の技術案は、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログにおいて複数のラベル付け対象コーパスデータをマイニングし、コーパスデータには、ユーザ音声及び対応する音声認識結果を含む第1の行動ログと、第1の行動ログに時間的に関連付けられ、且つ同一のユーザに属する第2の行動ログとが含まれ、次に、各ラベル付け対象コーパスデータにおける第1の行動ログと第2の行動ログとの関連づけに基づいて、各コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスとして判定することにより、従来技術では、音声認識されたトレーニングコーパスが主に手動でラベル付けされたランダム音声からのものであることによって音声認識モデルの反復サイクルが長すぎて、リソース消費が深刻であり、大量の無効ラベル付けがある問題が解決され、ユーザ行動に基づいて、音声認識された正のフィードバックトレーニングコーパス及び負のフィードバックトレーニングコーパスを自動的且つ意図的にマイニングして、後続の音声認識モデルのトレーニングに提供することができ、音声認識の効果を効果的に向上させ、音声認識モデルの反復サイクルを大幅に短縮し、リソースを大量に節約することができる。
本発明の実施例1により提供されるトレーニングコーパスの生成方法のフローチャートである。 本発明の実施例2により提供されるトレーニングコーパスの生成方法のフローチャートである。 本発明の実施例2により提供される位置検索シーンにおけるユーザ音声入力ページの概略図である。 本発明の実施例2により提供される位置検索シーンにおける位置検索サービスにマッチングする検索結果ページの概略図である。 本発明の実施例2により提供されるルート検索シーンにおけるユーザ音声入力ページの概略図である。 本発明の実施例2により提供されるルート検索サービスにマッチングする検索結果ページの概略図である。 本発明の実施例2により提供されるルートナビゲーションシーンにおけるユーザ音声入力ページの概略図である。 本発明の実施例2により提供されるルートナビゲーションシーンにおけるナビゲーションページの概略図である。 本発明の実施例2により提供されるルートナビゲーションシーンにおける目的地にナビゲーションするページの概略図である。 本発明の実施例3により提供されるトレーニングコーパスの生成方法のフローチャートである。 本発明の実施例3により提供される検索シーンにおけるユーザ音声入力ページの概略図である。 本発明の実施例3により提供される検索シーンにおける修正音声入力ページの概略図である。 本発明の実施例3により提供される検索シーンにおける修正テキスト入力ページの概略図である。 本発明の実施例4により提供されるトレーニングコーパスの生成方法のフローチャートである。 本発明の実施例4により提供される正のフィードバックトレーニングコーパスをマイニングする方法の全体的なフローチャートである。 本発明の実施例4により提供される既存モデルによって正しく認識された音声及びテキストをマイニングする方法のフローチャートである。 本発明の実施例4により提供される既存モデルによって正しく認識された音声及びテキストをマイニングする方法のコアロジックのフローチャートである。 本発明の実施例4により提供される負のフィードバックトレーニングコーパスをマイニングする方法の全体的なフローチャートである。 本発明の実施例4により提供される既存モデルによって誤って認識された音声及びテキスト、及び潜在的な正しいテキストをマイニングする方法のフローチャートである。 本発明の実施例4により提供される既存モデルによって誤って認識された音声及びテキスト、及び潜在的な正しいテキストをマイニングする方法のコアロジックのフローチャートである。 本発明の実施例5により提供されるトレーニングコーパスの生成装置の概略構成図である。 本発明の実施例6により提供されるコンピュータ機器の概略構成図である。
以下、図面及び実施例を参照して本発明についてさらに詳しく説明する。なお、ここで説明される具体的な実施例は、単なる本発明を解釈するためのものであり、本発明を限定するものではない。なお、説明を容易にするために、図面には、すべての構成ではなく、本発明に関連する部分のみが示されている。
なお、説明の便宜上、図面には、全部の内容ではなく、本発明に関する一部だけが示される。例示的な実施例をさらに詳しく検討する前に説明すべきなのは、一部の例示的な実施例がフローチャートとして描画される処理又は方法として説明される。フローチャートが各動作(又はステップ)を順次的な処理として説明するが、そのうちの多くの動は、並行的に、併発的に又は同時に実施することができる。また、各動作の手順は、並べ替えることことができる。動作が完了する場合、前記処理は、終了してもよいが、図面に含まれていない追加ステップを有してもよい。前記処理は、方法、関数、プロシージャ、サブルーチン、サブプログラムなどに対応することができる。
理解を容易にするために、本発明の実施例の主な発明思想を簡単に述べる。まず、発明者は、手動でラベル付けされたため、音声認識モデルの反復サイクルが長すぎて、リソース消費が深刻であるという従来技術における第1の主な問題に対して、ユーザ行動によって、既存モデルによって認識された音声及びテキストからトレーニングコーパスを自動的にマイニングし、手動でラベル付けする必要がなく、直接にトレーニングに用いることができるか否かを考える。
次に、発明者は、ランダムに抽出された音声であるため、大量の無効ラベル付けがある(正しく認識されたコーパスを増加させるより、誤って認識されたコーパスを増加させるほうはより価値がある)という従来技術における第2の主な問題に対して、音声認識されたトレーニングコーパスを意図的にマイニングし、トレーニングコーパスのマイニング作業を、正しく認識されたコーパスをマイニングすることと、誤って認識されたコーパスをマイニングすること、すなわち、正のフィードバックトレーニングコーパスのマイニングと負のフィードバックトレーニングコーパスのマイニングという二つの具体的な作業に分けることができる否かを考える。
上記の考えに基づいて、発明者は、トレーニングコーパスのマイニング作業を正のフィードバックトレーニングコーパスのマイニングと負のフィードバックトレーニングコーパスのマイニングという二つの具体的な作業に分けることを創作的に提案する。正のフィードバックトレーニングコーパスのマイニングは、ユーザ行動によって、既存音声認識モデルによって正しく認識された音声及びテキストをマイニングし、手動でラベル付けする必要がなく、直接に音声認識モデルのトレーニングに用いられることを含む。負のフィードバックトレーニングコーパスのマイニングは、ユーザ行動によって、既存音声認識モデルによって誤って認識された音声をマイニングし、手動でラベル付けし、トレーニングコーパスを生成することを含む。このようにするで以下の二つのメリットがある。一つは、音声認識モデルの反復サイクルが大幅に短縮され、リソースが大量に節約される。もう一つは、音声をより意図的に抽出して手動でラベル付けし、後続の音声認識モデルの反復をより効果的にすることができる。これにより、ユーザの履歴行動に基づいて、音声認識されたトレーニングコーパスを自動的且つ意図的にマイニングし、後続の音声認識モデルのトレーニングに提供し、音声認識の効果をより効果的に向上させることができる。
実施例1
図1は、本発明の実施例1により提供されるトレーニングコーパスの生成方法のフローチャートである。本実施例は、音声認識されたトレーニングコーパスを生成する場合に適用することができ、当該方法は、本発明の実施例により提供されるトレーニングコーパスの生成装置によって実行することができる。当該装置は、ソフトウェア及び/又はハードウェアの形態で実現することができ、一般に、トレーニングコーパスの生成機器に統合することができる。トレーニングコーパスの生成機器は、コンピュータなどを含むが、これらに限定されない。図1に示すように、本実施例の方法は、具体的には、以下のステップ101及びテップ102を含む。
ステップ101において、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログにおいて複数のラベル付け対象コーパスデータをマイニングし、コーパスデータには、ユーザ音声及び対応する音声認識結果を含む第1の行動ログと、第1の行動ログに時間的に関連付けられ、且つ同一のユーザに属する第2の行動ログとが含まれる。
ここで、ユーザ行動ログは、ユーザがターゲットアプリケーションプログラムを使用するたびに生成された行動データ(例えば、アクセス、閲覧、音声の使用、検索、クリックなど)である。ユーザがターゲットアプリケーションプログラムを使用するたびに、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログが生成され、ユーザ行動を記録する。
ユーザがターゲットアプリケーションプログラムで音声機能を使用した後、対応する第1の行動ログが生成される。第1の行動ログは、音声を使用したユーザ行動を記録するためのものであり、ユーザ音声及び対応する音声認識結果を含む。
第1の行動ログ及びターゲットアプリケーションプログラムの他のユーザ行動ログを、ユーザおよび時間に従って直列接続し、第1の行動ログに時間的に関連付けられ且つ同一のユーザに属するユーザ行動ログを取得し、第2の行動ログとして決定する。例えば、ユーザ行動ログ時間が第1の行動ログ時間の後にあり、第1の行動ログ時間との時間間隔が予め設定された時間閾値より小さく、且つ同一のユーザに属するユーザ行動ログを取得し、第2の行動ログとして決定する。
ステップ102において、各ラベル付け対象コーパスデータにおける第1の行動ログと第2の行動ログとの関連づけに基づいて、各コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスとして判定する。
ここで、トレーニングコーパスのマイニング作業を正のフィードバックトレーニングコーパスのマイニングと負のフィードバックトレーニングコーパスのマイニングという二つの具体的な作業に分ける。正のフィードバックトレーニングコーパスは、正しく認識されたコーパスである。負のフィードバックトレーニングコーパスは、誤って認識されたコーパスである。
ユーザが音声機能を使用した後、予期可能な後続の行動があれば、今回の音声認識が正しいと考えることができる。これにより、正のフィードバックトレーニングコーパスのマイニングは、第1の行動ログのログタイプに基づいて、第1の行動ログに対応するユーザ予期行動を取得し、ユーザ予期行動が第2の行動ログにマッチングすると決定した場合、コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパスとして判定することを含むことができる。
一つの具体例では、ターゲットアプリケーションプログラムは地図類アプリケーションプログラムである。第1の行動ログのログタイプが、ユーザ音声に対応する音声認識結果を目的地として使用して位置検索サービスを開始するものであると決定した場合、ユーザ予期行動が、ユーザが位置検索サービスにマッチングする検索結果ページで目的地にマッチングするルート検索サービスを開始するオプションを選択することであると決定する。ユーザ予期行動が第2の行動ログにマッチングすると決定した場合、すなわち、第2の行動ログに記録されたユーザ行動が、ユーザが位置検索サービスにマッチングする検索結果ページで目的地にマッチングするルート検索サービスを開始するオプションを選択することであると決定した場合、コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパスとして判定する。別の具体例では、ターゲットアプリケーションプログラムは地図類アプリケーションプログラムである。第1の行動ログのログタイプが、ユーザ音声に対応する音声認識結果を目的地としてルート検索サービスを開始するものであると決定した場合、ユーザ予期行動が、ユーザがルート検索サービスにマッチングするルート検索ページで目的地にナビゲーションするオプションを選択することであると決定する。ユーザ予期行動が第2の行動ログにマッチングすると決定した場合、すなわち、第2の行動ログに記録されたユーザ行動が、ユーザがルート検索サービスにマッチングするルート検索ページで目的地にナビゲーションするオプションを選択することであると決定した場合、コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパスとして判定する。
別の具体例では、ターゲットアプリケーションプログラムは地図類アプリケーションプログラムである。第1の行動ログのログタイプが、ユーザ音声に対応する音声認識結果を目的地としてルートナビゲーションサービスを開始するものであると決定された場合、ユーザ予期行動が、ユーザが目的地に到着することに成功したことであると決定する。ユーザ予期行動が第2の行動ログにマッチングすると決定した場合、すなわち、第2の行動ログに記録されたユーザ行動が、ユーザが目的地に到着することに成功したことであると決定した場合、コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパスとして判定する。
ユーザが音声機能を使用した後、短時間内に修正行動があれば、最初に音声認識されたテキストが誤ったと考えることができる。修正行動は、具体的には、音声機能で修正を再入力することと、手動で修正を入力することという2種類を含む。これにより、負のフィードバックトレーニングコーパスのマイニングは、第2の行動ログに対応するユーザ行動が所定の期間内の第1の行動ログに対する修正行動であると決定した場合、コーパスデータにおけるユーザ音声及び対応する音声認識結果を負のフィードバックトレーニングコーパスとして判定することを含むことができる。
一つの具体例では、第2の行動ログに対応するユーザ行動が修正音声を再入力することであり、且つ修正音声に対応する修正認識結果と音声認識結果とが意味的関連条件を満たすと決定した場合、第2の行動ログに対応するユーザ行動が修正行動であると決定し、コーパスデータにおけるユーザ音声及び対応する音声認識結果を負のフィードバックトレーニングコーパスとして判定する。又は、第2の行動ログに対応するユーザ行動が修正テキストを入力することであり、且つ修正テキストと音声認識結果とが意味的関連条件を満たすと決定した場合、第2の行動ログに対応するユーザ行動が修正行動であると決定し、コーパスデータにおけるユーザ音声及び対応する音声認識結果を負のフィードバックトレーニングコーパスとして判定する。
本発明の実施例は、トレーニングコーパスの生成方法を提供し、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログにおいて複数のラベル付け対象コーパスデータをマイニングし、コーパスデータには、ユーザ音声及び対応する音声認識結果を含む第1の行動ログと、第1の行動ログに時間的に関連付けられ、且つ同一のユーザに属する第2の行動ログとが含まれ、次に、各ラベル付け対象コーパスデータにおける第1の行動ログと第2の行動ログとの関連づけに基づいて、各コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスとして判定することにより、従来技術では、音声認識のトレーニングコーパスが主に手動でラベル付けされたランダム音声からのものであることによって音声認識モデルの反復サイクルが長すぎてリソース消費が深刻であり、大量の無効ラベル付けがあるという問題が解決され、ユーザ行動に基づいて、音声認識された正のフィードバックトレーニングコーパス及び負のフィードバックトレーニングコーパスを自動的且つ意図的にマイニングして、後続の音声認識モデルのトレーニングに提供することができ、音声認識の効果を効果的に向上させ、音声認識モデルの反復サイクルを大幅に短縮し、リソースを大量に節約することができる。
実施例2
図2aは、本発明の実施例2により提供されるトレーニングコーパスの生成方法のフローチャートである。本実施例は、上記の一つ又は複数の実施例における各選択可能な態様と組み合わせることができる。本実施例では、各ラベル付け対象コーパスデータにおける第1の行動ログと第2の行動ログとの関連づけに基づいて、各コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスとして判定するステップは、第1の行動ログのログタイプに基づいて、第1の行動ログに対応するユーザ予期行動を取得するステップと、ユーザ予期行動が第2の行動ログにマッチングすると決定した場合、コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパスとして判定するステップと、を含むことができる。
対応的に、図2aに示すように、本実施例の方法は、以下のステップ201〜ステップ203を含む。
ステップ201において、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログにおいて複数のラベル付け対象コーパスデータをマイニングし、コーパスデータには、ユーザ音声及び対応する音声認識結果を含む第1の行動ログと、第1の行動ログに時間的に関連付けられ、且つ同一のユーザに属する第2の行動ログとが含まれる。
ステップ202において、第1の行動ログのログタイプに基づいて、第1の行動ログに対応するユーザ予期行動を取得する。
ここで、ユーザ音声機能を使用した後、予期可能な後続の行動があれば、今回の音声認識が正しいと考えることができる。ターゲットアプリケーションプログラムは、地図類アプリケーションプログラムを含むことができる。
第1の行動ログのログタイプに基づいて、第1の行動ログに対応するユーザ予期行動を取得するステップは、第1の行動ログのログタイプが、ユーザ音声に対応する音声認識結果を目的地として使用して位置検索サービスを開始するものであると決定した場合、ユーザ予期行動が、ユーザが位置検索サービスにマッチングする検索結果ページで目的地にマッチングするルート検索サービスを開始するオプションを選択することであると決定するステップを含むことができる。
例えば、ユーザが「公園悦府」というユーザ音声を入力し(図2bに示すように)、音声認識によって、「公園悦府」のテキストという音声認識結果を取得し(音声ダイナミックラベル21は、音声認識結果をリアルタイムで表示する)、位置検索要求を開始し、位置検索サービスにマッチングする検索結果ページに入る(図2cに示すように)。ユーザ予期行動は、ユーザが検索結果ページで「ここに行く」22をクリックする(図2cに示すように)ことである。第1の行動ログのログタイプに基づいて、第1の行動ログに対応するユーザ予期行動を取得するステップは、第1の行動ログのログタイプが、ユーザ音声に対応する音声認識結果を目的地としてルート検索サービスを開始するものであると決定した場合、ユーザ予期行動が、ユーザがルート検索サービスにマッチングするルート検索ページで目的地にナビゲーションするオプションを選択することであると決定するステップを含むことができる。
例えば、ユーザが「公園悦府に行く」というユーザ音声を入力し(図2dに示すように)、音声認識によって、「公園悦府に行く」のテキストという音声認識結果を取得し(音声ダイナミックラベル23は、音声認識結果をリアルタイムで表示する)、ルート検索要求を開始し、ルート検索サービスにマッチングする検索結果ページに入る(図2eに示すように)。ユーザ予期行動は、ユーザが検索結果ページで「ナビゲーションを開始する」24をクリックすることである(図2eに示すように)。
第1の行動ログのログタイプに基づいて、第1の行動ログに対応するユーザ予期行動を取得するステップは、第1の行動ログのログタイプが、ユーザ音声に対応する音声認識結果を目的地としてルートナビゲーションサービスを開始するものであると決定した場合、ユーザ予期行動が、ユーザが目的地に到着することに成功したことであると決定するステップを含むことができる。
例えば、ユーザは、「西二旗にナビゲーションする」というユーザ音声を入力し(図2fに示すように)、音声認識によって、「西二旗にナビゲーションする」のテキストという音声認識結果を取得し(音声ダイナミックラベル25は、音声認識結果をリアルタイムで表示する)、ルートナビゲーション要求を開始し、ナビゲーションページに入る(図2gに示すように)。ユーザ予期行動は、ユーザが目的地に到着することに成功することである(図2hに示すように)。
ステップ203において、ユーザ予期行動が第2の行動ログにマッチングすると決定した場合、コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパスとして判定する。
一つの具体例では、ユーザ予期行動が第2の行動ログにマッチングすると決定した場合、すなわち、第2の行動ログに記録されたユーザ行動が、ユーザが位置検索サービスにマッチングする検索結果ページで目的地にマッチングするルート検索サービスを開始するオプションを選択することであると決定された場合、コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパスとして判定する。
例えば、ユーザが「公園悦府」というユーザ音声を入力し(図2bに示すように)、音声認識によって、「公園悦府」のテキストという音声認識結果を取得し(音声ダイナミックラベル21は、音声認識結果をリアルタイムで表示する)、ルート検索要求を開始し、位置検索サービスにマッチングする検索結果ページに入る(図2cに示すように)。ユーザ予期行動は、ユーザが検索結果ページで「ここに行く」22をクリックする(図2cに示すように)ことである。第2の行動ログに記録されたユーザ行動が、ユーザが「ここに行く」22をクリックすることであり(図2cに示すように)、ルート検索サービスを開始し、ルート検索サービスにマッチングする検索結果ページに入る場合(図2eに示すように)、そのユーザ音声の音声認識結果を正しいと見なし、「公園悦府」というユーザ音声及び音声認識結果を、一つの正のフィードバックトレーニングコーパスとすることができる。
別の具体例では、ユーザ予期行動が第2の行動ログにマッチングすると決定した場合、すなわち、第2の行動ログに記録されたユーザ行動が、ユーザがルート検索サービスにマッチングするルート検索ページで目的地にナビゲーションするオプションを選択することであると決定された場合、コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパスとして判定する。
例えば、ユーザが「公園悦府に行く」というユーザ音声を入力し(図2dに示すように)、音声認識によって、「公園悦府に行く」のテキストという音声認識結果を取得し(音声ダイナミックラベル23は、音声認識結果をリアルタイムで表示する)、ルート検索要求を開始し、ルート検索サービスにマッチングする検索結果ページに入る(図2eに示すように)。ユーザ予期行動は、ユーザが検索結果ページで「ナビゲーションを開始する」24をクリックすることである(図2eに示すように)。第2の行動ログに記録されたユーザ行動が、ユーザが検索結果ページで「ナビゲーションを開始する」24をクリックすることである場合(図2eに示すように)、そのユーザ音声の音声認識結果を正しいと見なし、「公園悦府に行く」というユーザ音声及び音声認識結果を、一つの正のフィードバックトレーニングコーパスとすることができる。別の具体例では、ユーザ予期行動が第2の行動ログにマッチングすると決定された場合、すなわち、第2の行動ログに記録されたユーザ行動が、ユーザが目的地に到着することに成功したことであると決定された場合、コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパスとして判定する。
例えば、ユーザは、「西二旗にナビゲーションする」というユーザ音声を入力し(図2fに示すように)、音声認識によって、「西二旗にナビゲーションする」のテキストという音声認識結果を取得し(音声ダイナミックラベル25は、音声認識結果をリアルタイムで表示する)、ルートナビゲーション要求を開始し、ナビゲーションページに入る(図2gに示すように)。ユーザ予期行動は、ユーザが目的地に到着することに成功することである(図2hに示すように)。第2の行動ログに記録されたユーザ行動が、ユーザ最終的に当該コースを完了した場合(図2hに示すように)、そのユーザ音声の音声認識結果を正しいと見なし、「西二旗にナビゲーションする」というユーザ音声及び音声認識結果を、一つの正のフィードバックトレーニングコーパスとすることができる。
本発明の実施例は、トレーニングコーパスの生成方法を提供し、第1の行動ログのログタイプに基づいて、第1の行動ログに対応するユーザ予期行動を取得し、ユーザ予期行動が第2の行動ログにマッチングすると決定した場合、コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパスとして判定することにより、正のフィードバックトレーニングコーパスのマイニングにおいて、正のフィードバックトレーニングコーパスを自動化的に生成し、手動でラベル付けする必要がなく、モデル反復効率を大幅に向上させることができる。
実施例3
図3aは、本発明の実施例3により提供されるトレーニングコーパスの生成方法のフローチャートである。本実施例は、上記の一つ又は複数の実施例における各選択可能な態様と組み合わせることができ、本実施例では、各ラベル付け対象コーパスデータにおける第1の行動ログと第2の行動ログとの関連づけに基づいて、各コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスとして判定するステップは、第2の行動ログに対応するユーザ行動が所定の期間内の第1の行動ログに対する修正行動であると決定した場合、コーパスデータにおけるユーザ音声及び対応する音声認識結果を負のフィードバックトレーニングコーパスとして判定するステップを含むことができる。
さらに、コーパスデータにおけるユーザ音声及び対応する音声認識結果を負のフィードバックトレーニングコーパスとして判定するステップの後に、修正認識結果又は修正テキストを潜在的な正しい結果として負のフィードバックトレーニングコーパスに追加するステップと、負のフィードバックトレーニングコーパスを手動ラベル付けモデルに送信して、手動ラベル付けモデルが潜在的な正しい結果に対してユーザ音声に対応する正しい認識結果をラベル付けするステップと、手動ラベル付けモデルによってフィードバックされたラベル付け結果を使用して、負のフィードバックトレーニングコーパスを更新するステップと、をさらに含むことができる。
対応的に、図3aに示すように、本実施例の方法は、以下のステップ301〜ステップ305を含む。
ステップ301において、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログにおいて複数のラベル付け対象コーパスデータをマイニングし、コーパスデータには、ユーザ音声及び対応する音声認識結果を含む第1の行動ログと、第1の行動ログに時間的に関連付けられ、且つ同一のユーザに属する第2の行動ログとが含まれる。
ステップ302において、第2の行動ログに対応するユーザ行動が所定の期間内の第1の行動ログに対する修正行動であると決定した場合、コーパスデータにおけるユーザ音声及び対応する音声認識結果を負のフィードバックトレーニングコーパスとして判定する。
ここで、ユーザが音声機能を使用した後、短時間内に修正行動があれば、最初に音声認識されたテキストが誤ったと考えることができる。修正行動は、具体的には、音声機能で修正を再入力することと、手動で修正を入力することという2種類を含む。
第2の行動ログに対応するユーザ行動が所定の期間内の第1の行動ログに対する修正行動であると決定するステップは、第2の行動ログに対応するユーザ行動が修正音声を再入力することであり、且つ修正音声に対応する修正認識結果と音声認識結果とが意味的関連条件を満たすと決定した場合、第2の行動ログに対応するユーザ行動が修正行動であると決定するステップを含むことができる。
意味的関連条件は、修正認識結果又は修正テキストが音声認識結果と異なり、且つ修正認識結果又は修正テキストと音声認識結果とが、予め設定された意味的類似度条件を満たすことを含むことができる。具体的には、予め設定された意味的類似度条件は、修正認識結果又は修正テキストと音声認識結果との意味的類似度が予め設定された類似度閾値以上であってもよい。
例えば、ユーザは、「菊園(juyuan)」というユーザ音声Aを言い、音声認識によって、誤ったテキストW「居然(juran)(日本語意味:まさか)」という音声認識結果を取得し(音声ダイナミックラベル31は、音声認識結果をリアルタイムで表示する)、ルート検索要求を開始する(図3bに示すように)。この時、ユーザが音声機能で「菊園」の修正音声Bを再度言い、音声認識によって、修正音声に対応する新しいテキストR「菊園」という修正認識結果を取得する(図3cに示すように、音声ダイナミックラベル31は、音声認識結果をリアルタイムで表示する)。修正音声に対応する一つの新しいテキストRという修正認識結果を取得する。テキストWがテキストRと異なり、且つテキストWとテキストRとが予め設定された意味的類似度条件を満たす場合、すなわち、テキストWとテキストRとが文字の面では異なり、且つ意味の面では非常に類似する場合、ユーザ音声Aの音声認識結果を誤っていると見なし、ユーザ音声A、テキストW、テキストRは一つの負のフィードバックトレーニングコーパスとすることができる。
第2の行動ログに対応するユーザ行動が所定の期間内の前記第1の行動ログに対する修正行動であると決定するステップは、第2の行動ログに対応するユーザ行動が修正テキストを入力することであり、且つ修正テキストと音声認識結果とが意味的関連条件を満たすと決定した場合、第2の行動ログに対応するユーザ行動が修正行動であると決定するステップを含むことができる。
例えば、ユーザは、「菊園」というユーザ音声Aを言い、音声認識によって、誤ったテキストW「居然(juran)(日本語意味:まさか)」という音声認識結果を取得し(音声ダイナミックラベル31は、音声認識結果をリアルタイムで表示する)、ルート検索要求を開始する(図3bに示すように)。この時、ユーザは、手動で修正テキスト「菊園」を入力する(図3dに示すように、テキスト入力ラベル32は、ユーザによって手動で入力されたテキストをリアルタイムで表示する)。修正テキストである一つの新しいテキストRを取得する。テキストWがテキストRと異なり、且つテキストWとテキストRとが予め設定された意味的類似度条件を満たす場合、すなわち、テキストWとテキストRとが文字の面では異なり、意味の面では非常に類似する場合、ユーザ音声Aの音声認識結果を誤っていると見なし、ユーザ音声A、テキストW、テキストRは、一つの負のフィードバックトレーニングコーパスとすることができる。
ステップ303において、修正認識結果又は修正テキストを潜在的な正しい結果として負のフィードバックトレーニングコーパスに追加する。
ここで、修正認識結果又は修正テキストは、ユーザ音声に対応する潜在的な正しいテキストである可能性がある。修正認識結果、ユーザ音声及び対応する音声認識結果を、負のフィードバックトレーニングコーパスに追加する。又は修正テキスト、ユーザ音声及び対応する音声認識結果を、負のフィードバックトレーニングコーパスに追加する。
ステップ304において、負のフィードバックトレーニングコーパスを手動ラベル付けモデルに送信して、手動ラベル付けモデルが潜在的な正しい結果に対してユーザ音声に対応する正しい認識結果をラベル付けする。
ここで、手動ラベル付けモデルは、潜在的な正しい結果を参照して、負のフィードバックトレーニングコーパスを手動でラベル付けする。手動ラベル付けモデルは、潜在的な正しい結果に対してユーザ音声に対応する正しい認識結果をラベル付けする。例えば、潜在的な正しい結果「菊園」に対して、ユーザ音声に対応する正しい認識結果「菊園」をラベル付けする。
ステップ305において、手動ラベル付けモデルによってフィードバックされたラベル付け結果を使用して、負のフィードバックトレーニングコーパスを更新する。
ここで、手動ラベル付けモデルによってフィードバックされたラベル付け結果を使用して、修正認識結果、ユーザ音声、及び対応する音声認識結果を含む負のフィードバックトレーニングコーパスを、ユーザ音声、対応する音声認識結果、及びユーザ音声に対応する正しい認識結果に更新する。又は、修正テキスト、ユーザ音声、及び対応する音声認識結果を含む負のフィードバックトレーニングコーパスを、ユーザ音声、対応する音声認識結果、及びユーザ音声に対応する正しい認識結果に更新する。
本発明の実施例は、トレーニングコーパスの生成方法を提供し、第2の行動ログに対応するユーザ行動が所定の期間内の第1の行動ログに対する修正行動であると決定した場合、コーパスデータにおけるユーザ音声及び対応する音声認識結果を負のフィードバックトレーニングコーパスとして判定し、修正認識結果又は修正テキストを潜在的な正しい結果として負のフィードバックトレーニングコーパスに追加し、負のフィードバックトレーニングコーパスを手動ラベル付けモデルに送信して、手動ラベル付けモデルが潜在的な正しい結果に対してユーザ音声に対応する正しい認識結果をラベル付けし、手動ラベル付けモデルによってフィードバックされたラベル付け結果を使用して、負のフィードバックトレーニングコーパスを更新することにより、負のフィードバックトレーニングコーパスのマイニングにおいて、トレーニングコーパスを意図的に生成し、既存音声認識モデルによって誤って認識されたユーザ音声を収集し、音声認識モデルの指向性教育を再度行って、音声認識モデルの認識効果をより効率的にすることができ、音声をより意図的に抽出して手動でラベル付けし、後続の音声認識モデルの反復をより効果的にすることができる。
実施例4
図4aは、本発明の実施例4により提供されるトレーニングコーパスの生成方法のフローチャートである。本実施例は、上記の一つ又は複数の実施例における各選択可能な態様と組み合わせることができる。本実施例では、各コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスとして判定するステップの後に、正のフィードバックトレーニングコーパス及び負のフィードバックトレーニングコーパスに基づいて、トレーニングコーパスセットを構築し、トレーニングコーパスセットをトレーニングコーパス検収プラットフォームに送信するステップと、トレーニングコーパス検収プラットフォームによってフィードバックされた、トレーニングコーパスセットに対応する正確率指標値を受信するステップと、正確率指標値が予め設定された正確率閾値を満たしていると決定した場合、トレーニングコーパスセットを使用してターゲットアプリケーションプログラムの音声認識モデルの最適化トレーニングを行うステップと、をさらに含むことができる。
トレーニングコーパス検収プラットフォームによってフィードバックされた、トレーニングコーパスセットに対応する正確率指標値を受信するステップの後、正確率指標値が予め設定された正確率閾値を満たさないと決定した場合、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログに基づいて、複数の新しいラベル付け対象コーパスデータを再度マイニングし、新しいラベル付け対象コーパスデータにおいて新しい正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスを判定するステップをさらに含むことができる。
対応的に、図4aに示すように、本実施例の方法は、以下のようなステップ401〜ステップ407を含む。
ステップ401において、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログにおいて複数のラベル付け対象コーパスデータをマイニングし、コーパスデータには、ユーザ音声及び対応する音声認識結果を含む第1の行動ログと、第1の行動ログに時間的に関連付けられ、且つ同一のユーザに属する第2の行動ログとが含まれる。
ステップ402において、各ラベル付け対象コーパスデータにおける第1の行動ログと第2の行動ログとの関連づけに基づいて、各コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスとして判定する。
ステップ403において、正のフィードバックトレーニングコーパス及び負のフィードバックトレーニングコーパスに基づいてトレーニングコーパスセットを構築し、トレーニングコーパスセットをトレーニングコーパス検収プラットフォームに送信する。
ここで、トレーニングコーパス検収プラットフォームは、トレーニングコーパスセットにおける正のフィードバックトレーニングコーパス及び負のフィードバックトレーニングコーパスを検収する。
ステップ404において、トレーニングコーパス検収プラットフォームによってフィードバックされた、トレーニングコーパスセットに対応する正確率指標値を受信する。
ここで、トレーニングコーパス検収プラットフォームは、トレーニングコーパスセットにおける各トレーニングコーパスが正しいか否かを判断し、トレーニングコーパスセットに対応する正確率指標値を計算する。正確率指標値は、正しいと判断されたトレーニングコーパスの数と、トレーニングコーパスセットにおけるトレーニングコーパスの総数との比であってもよい。
例えば、トレーニングコーパスセットにおけるトレーニングコーパスの総数は1000本である。正しいと判断されたトレーニングコーパスの数は900本である。正確率指標値は0.9である。
ステップ405において、正確率指標値が予め設定された正確率閾値を満たすか否かを判断し、満たす場合、ステップ406を実行し、満たさない場合、ステップ407を実行する。
ここで、予め設定された正確率閾値は、必要に応じて設定することができる。例えば、予め設定された正確率閾値は0.8とすることができる。
ステップ406において、トレーニングコーパスセットを使用してターゲットアプリケーションプログラムの音声認識モデルの最適化トレーニングを行う。
ここで、正確率指標値が予め設定された正確率閾値を満たすと決定した場合、直接にトレーニングコーパスセットを使用してターゲットアプリケーションプログラムの音声認識モデルの最適化トレーニングを行う。
ステップ407において、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログに基づいて、複数の新しいラベル付け対象コーパスデータを再度マイニングし、新しいラベル付け対象コーパスデータにおいて新しい正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスを判定する。
ここで、正確率指標値が予め設定された正確率閾値を満たさないと決定した場合、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログに基づいて、正のフィードバックトレーニングコーパス及び負のフィードバックトレーニングコーパスを再度マイニングする。再度マイニングされた正のフィードバックトレーニングコーパス及び負のフィードバックトレーニングコーパスの正確率指標値が予め設定された正確率閾値を依然として満たさない場合、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログに基づいて、正のフィードバックトレーニングコーパス及び負のフィードバックトレーニングコーパスを継続的にマイニングし、正確率指標値が予め設定された正確率閾値を満たす正のフィードバックトレーニングコーパス及び負のフィードバックトレーニングコーパスがマイニングされるまで繰り返す。
正のフィードバックトレーニングコーパスをマイニングする方法の全体的なフローチャートは、図4bに示すように、以下のステップ411〜ステップ413を含む。
ステップ411において、ログを直列接続する。
ここで、音声を使用したユーザ行動ログ及び地図の他のユーザ行動ログをユーザ及び時間に従って直列接続する。
ステップ412において、正しく認識された音声及びテキストをマイニングする。
ここで、既存モデルによって正しく認識された音声及びテキストをマイニングする。
ステップ413において、トレーニングコーパスを検収する。
ここで、ステップ412(コアプロセス)では、既存モデルによって正しく認識された音声及びテキストをマイニングする方法のフローチャートは、図4cに示されている(位置検索シーンは左の図であり、ルート検索シーンは真ん中の図であり、ルートナビゲーションシーンは右の図である)。
位置検索シーンにおいて既存モデルによって正しく認識された音声及びテキストをマイニングする方法は、以下のステップ421〜ステップ423を含む。
ステップ421において、音声で位置検索を開始する。
ステップ422において、目的地にマッチングするルート検索サービスを開始するオプションを選択するか。選択する場合、ステップ423を実行し、選択しない場合、ステップ423をスキップして後続のステップを実行する。
ステップ423において、正のフィードバックトレーニングコーパスとして保持する。
ルート検索シーンにおいて既存モデルによって正しく認識された音声及びテキストをマイニングする方法は、以下のステップ481〜ステップ483を含む。
ステップ481において、音声でルート検索を開始する。
ステップ482において、目的地にナビゲーションするオプションを選択するか。選択する場合、ステップ483を実行し、選択しない場合、ステップ483をスキップして後続のステップを実行する。
ステップ483において、正のフィードバックトレーニングコーパスとして保持する。
ルートナビゲーションシーンにおいて既存モデルによって正しく認識された音声及びテキストをマイニングする方法は、以下のステップ431〜ステップ433を含む。
ステップ431において、音声でナビゲーションを開始する。
ステップ432において、ユーザが目的地に到着することに成功したか。成功した場合、ステップ433を実行し、成功しなかった場合、ステップ433をスキップして後続のステップを実行する。
ステップ433において、正のフィードバックトレーニングコーパスとして保持する。
既存モデルによって正しく認識された音声及びテキストをマイニングする方法のコアロジックは、さらに抽象化されると、図4dに示すように、以下のステップ441〜ステップ443を含む。
ステップ441において、音声で第1の行動を開始する。
ステップ442において、予期可能な後続の行動があるか。ある場合、ステップ443を実行し、ない場合、ステップ443をスキップして後続のステップを実行する。
ステップ443において、正のフィードバックトレーニングコーパスとして保持する。
負のフィードバックトレーニングコーパスをマイニングする方法の全体的なフローチャートは、図4eに示すように、以下のステップ451〜ステップ454を含む。
ステップ451において、ログを直列接続する。
ステップ452において、誤って認識された音声及び関連情報をマイニングする。
ステップ453において、潜在的な正しいテキストを参照して手動でラベル付けする。
ステップ454において、トレーニングコーパスを検収する。
ここで、ステップ452(コアプロセス)では、既存モデルによって誤って認識された音声及びテキスト、及び潜在的な正しいテキストをマイニングする方法のフローチャートは、図4fに示すように(検索シーンを例とする)、以下のステップ461〜ステップ464を含む。
ステップ461において、音声で検索する。
ステップ462において、短時間内に再度検索するか。再度検索する場合、ステップ463を実行し、再度検索しない場合、ステップ463及びステップ464をスキップして後続のステップを実行する。
ステップ463において、検索語が異なるが類似しているか。Yesの場合、ステップ464を実行し、NOの場合、ステップ464をスキップして後続のステップを実行する。
ステップ464において、負のフィードバックトレーニングコーパスとして保持する。
既存モデルによって誤って認識された音声及びテキスト、及び潜在的な正しいテキストをマイニングする方法のコアロジックは、さらに抽象化されると、図4gに示すように、以下のステップ471〜ステップ473を含む。
ステップ471において、音声で第1の行動を開始する。
ステップ472において、短時間内に修正があるか。ある場合、ステップ473を実行し、ない場合、ステップ473をスキップして後続のステップを実行する。
ステップ473において、負のフィードバックトレーニングコーパスとして保持する。
本発明の実施例は、トレーニングコーパスの生成方法を提供し、正のフィードバックトレーニングコーパス及び負のフィードバックトレーニングコーパスに基づいてトレーニングコーパスセットを構築し、トレーニングコーパスセットをトレーニングコーパス検収プラットフォームに送信し、次に、トレーニングコーパス検収プラットフォームによってフィードバックされた、トレーニングコーパスセットに対応する正確率指標値を受信し、正確率指標値が予め設定された正確率閾値を満たすか否かに基づいて、トレーニングコーパスセットを使用してターゲットアプリケーションプログラムの音声認識モデルの最適化トレーニングを行うか、それともターゲットアプリケーションプログラムに関連付けられたユーザ行動ログに基づいて正のフィードバックトレーニングコーパス及び負のフィードバックトレーニングコーパスを再度マイニングするかを決定することにより、生成されたトレーニングコーパスを検収するすることができ、音声認識モデルに正確なトレーニングコーパスを提供し、音声認識の効果をより効果的に向上させることができる。
実施例5
図5は、本発明の実施例5により提供されるトレーニングコーパスの生成装置の概略構成図である。図5に示すように、前記装置は、コーパスデータマイニングモジュール501とコーパス判定モジュール502とを備える。
ここで、コーパスデータマイニングモジュール501は、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログにおいて複数のラベル付け対象コーパスデータをマイニングするように構成され、コーパスデータには、ユーザ音声及び対応する音声認識結果を含む第1の行動ログと、第1の行動ログに時間的に関連付けられ、且つ同一のユーザに属する第2の行動ログとが含まれる。コーパス判定モジュール502は、各ラベル付け対象コーパスデータにおける第1の行動ログと第2の行動ログとの関連づけに基づいて、各コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスとして判定するように構成される。
本発明の実施例は、トレーニングコーパスの生成装置を提供し、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログにおいて複数のラベル付け対象コーパスデータをマイニングし、コーパスデータには、ユーザ音声及び対応する音声認識結果を含む第1の行動ログと、第1の行動ログに時間的に関連付けられ、且つ同一のユーザに属する第2の行動ログとが含まれ、次に、各ラベル付け対象コーパスデータにおける第1の行動ログと第2の行動ログとの関連づけに基づいて、各コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスとして判定することにより、従来技術では、音声認識されたトレーニングコーパスが主に手動でラベル付けされたランダム音声から来たものであることによって音声認識モデルの反復サイクルが長すぎてリソース消費が深刻であり、大量の無効ラベル付けがあるという問題が解決され、ユーザ行動に基づいて、音声認識された正のフィードバックトレーニングコーパス及び負のフィードバックトレーニングコーパスを自動的且つ意図的にマイニングして、後続の音声認識モデルのトレーニングに提供することができ、音声認識の効果を効果的に向上させ、音声認識モデルの反復サイクルを大幅に短縮し、リソースを大量に節約することができる。
上記の各実施例に基づいて、コーパス判定モジュール502は、第1の行動ログのログタイプに基づいて、第1の行動ログに対応するユーザ予期行動を取得するように構成される予期行動取得ユニットと、ユーザ予期行動が第2の行動ログにマッチングすると決定した場合、コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパスとして判定するように構成される第1の判定ユニットと、を備えることができる。
上記の各実施例に基づいて、コーパス判定モジュール502は、第2の行動ログに対応するユーザ行動が所定の期間内の第1の行動ログに対する修正行動であると決定した場合、コーパスデータにおけるユーザ音声及び対応する音声認識結果を負のフィードバックトレーニングコーパスとして判定するように構成される第2の判定ユニットを備えることができる。
上記の各実施例に基づいて、ターゲットアプリケーションプログラムは、地図類アプリケーションプログラムを含むことができる。
上記の各実施例に基づいて、予期行動取得ユニットは、第1の行動ログのログタイプが、ユーザ音声に対応する音声認識結果を目的地として位置検索サービスを開始するものであると決定した場合、ユーザ予期行動が、ユーザが位置検索サービスにマッチングする検索結果ページで目的地にマッチングするルート検索サービスを開始するオプションを選択することであると決定するように構成される第1の決定サブユニットを備えることができる。
上記の各実施例に基づいて、予期行動取得ユニットは、第1の行動ログのログタイプが、ユーザ音声に対応する音声認識結果を目的地としてルート検索サービスを開始するものであると決定した場合、ユーザ予期行動が、ユーザがルート検索サービスにマッチングするルート検索ページで目的地にナビゲーションするオプションを選択することであると決定するように構成される第2の決定サブユニットを備えることができる。
上記の各実施例に基づいて、予期行動取得ユニットは、第1の行動ログのログタイプが、ユーザ音声に対応する音声認識結果を目的地としてルートナビゲーションサービスを開始するものであると決定した場合、ユーザ予期行動が、ユーザが目的地に到着することに成功したことであると決定するように構成される第3の決定サブユニットを備えることができる。
上記の各実施例に基づいて、第2の判定ユニットは、第2の行動ログに対応するユーザ行動が修正音声を再入力することであり、且つ修正音声に対応する修正認識結果と音声認識結果とが意味的関連条件を満たすと決定した場合、第2の行動ログに対応するユーザ行動が修正行動であると決定するように構成される第3の決定サブユニット、及び/又は、第2の行動ログに対応するユーザ行動が修正テキストを入力することであり、且つ修正テキストと音声認識結果とが意味的関連条件を満たすと決定した場合、第2の行動ログに対応するユーザ行動が修正行動であると決定するように構成される第4の決定サブユニット、を備えることができる。
上記の各実施例に基づいて、意味的関連条件は、修正認識結果又は修正テキストが、音声認識結果と異なり、且つ修正認識結果又は修正テキストと音声認識結果とが、予め設定された意味的類似度条件を満たすことを含むことができる。
上記の各実施例に基づいて、第2の判定ユニットは、修正認識結果又は修正テキストを潜在的な正しい結果として負のフィードバックトレーニングコーパスに追加するように構成される結果追加サブユニットと、負のフィードバックトレーニングコーパスを手動ラベル付けモデルに送信して、手動ラベル付けモデルが潜在的な正しい結果に対してユーザ音声に対応する正しい認識結果をラベル付けするように構成される結果ラベル付けサブユニットと、手動ラベル付けモデルによってフィードバックされたラベル付け結果を使用して、負のフィードバックトレーニングコーパスを更新するように構成されるコーパス更新サブユニットと、をさらに備えることができる。
上記の各実施例に基づいて、前記装置は、正のフィードバックトレーニングコーパス及び負のフィードバックトレーニングコーパスに基づいてトレーニングコーパスセットを構築し、トレーニングコーパスセットをトレーニングコーパス検収プラットフォームに送信するように構成されるコーパスセット送信モジュールと、トレーニングコーパス検収プラットフォームによってフィードバックされた、トレーニングコーパスセットに対応する正確率指標値を受信するように構成される指標値受信モジュールと、正確率指標値が予め設定された正確率閾値を満たすと決定した場合、トレーニングコーパスセットを使用してターゲットアプリケーションプログラムの音声認識モデルの最適化トレーニングを行うように構成されるコーパスセット使用モジュールと、をさらに備えることができる。
上記の各実施例に基づいて、前記装置は、正確率指標値が予め設定された正確率閾値を満たさないと決定した場合、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログに基づいて複数の新しいラベル付け対象コーパスデータを再度マイニングし、新しいラベル付け対象コーパスデータにおいて新しい正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスを判定するように構成されるコーパス再度生成モジュールをさらに備えることができる。
上記のトレーニングコーパスの生成装置は、本発明のいずれかの実施例により提供されるトレーニングコーパスの生成方法を実行することができ、トレーニングコーパスの生成方法を実行する対応する機能モジュール及び有益な効果を有する。
実施例6
図6は、本発明の実施例6によって提供されるコンピュータ機器の概略構成図である。図6は、本発明の実施形態の実現に適する例示的なコンピュータ機器612のブロック図である。図6に示されるコンピュータ機器612は、単なる一例であり、本発明の実施例の機能及び使用範囲を一切限定しない。
図6に示すように、コンピュータ機器612は、汎用コンピューティング機器の形態で示されている。コンピュータ機器612の構成要素は、一つ又は複数のプロセッサ又は処理ユニット616と、システムメモリ628と、異なるシステム構成要素(システムメモリ628と処理ユニット616とを含む)を接続するバス618と、を備えることができるが、これらに限定されない。
バス618は、メモリバス又はメモリコントローラ、周辺バス、アクセラレーテッドグラフィックスポート、プロセッサ又は多様なバス構造のうちのいずれかのバス構造を使用するローカルバスを含む、複数種類のバス構造のうち一つ又は複数を表す。例を挙げると、これらのアーキテクチャは、インダストリスタンダードアーキテクチャ(ISA)バス、マイクロチャネルアーキテクチャ(MAC)バス、拡張ISAバス、ビデオエレクトロニクススタンダーズアソシエーション(VESA)ローカルバス、及びペリフェラルコンポーネントインターコネクト(PCI)バスを含むが、これらに限定されない。
コンピュータ機器612は、典型的には、複数種類のコンピュータシステム読み取り可能な媒体を含む。これらの媒体は、コンピュータ機器612がアクセスすることができる任意の使用可能な媒体であってもよく、揮発性媒体及び不揮発性媒体、リムーバブル媒体及びノンリムーバブル媒体を含む。
システムメモリ628は、ランダムアクセスメモリ(RAM)630及び/又はキャッシュメモリ632などの揮発性メモリの形態のコンピュータシステム読み取り可能な媒体を備えてもよい。コンピュータ機器612は、他のリムーバブル/ノンリムーバブル、揮発性/不揮発性コンピュータシステム記憶媒体をさらに備えてもよい。単なる一例として、ストレージシステム634は、ノンリムーバブル、不揮発性磁気媒体(図6に示されていないが、通常「ハードドライブ」という)に対して読み出し及び書き込みをするために用いることができる。図6に示されていないが、リムーバブル不揮発性磁気ディスク(例えば、「フロッピーディスク」)に対して読み出し及び書き込みをするための磁気ディスクドライブ、及びリムーバブル不揮発性光学ディスク(例えば、CD−ROM、DVD−ROM又は他の光学媒体)に対して読み出し及び書き込みをするための光学ディスクドライブを提供することができる。これらの場合、各ドライブは、一つ又は複数のデータメディアインターフェイスを介してバス618に接続することができる。システムメモリ628は、本発明の各実施例に記載の機能を実行するように構成される1セット(例えば、少なくとも一つ)のプログラムモジュールを有する少なくとも一つのプログラム製品を備えてもよい。
1セット(少なくとも一つ)のプログラムモジュール642を有するプログラム/ユーティリティ640は、例えば、システムメモリ628に記憶されてもよく、このようなプログラムモジュール642は、オペレーティングシステム、一つ又は複数のアプリケーションプログラム、他のプログラムモジュール、及びプログラムデータを含むがこれらに限定されない。これらの例のそれぞれ又は何らかの組み合わせには、ネットワーク環境の実装が含まれる可能性がある。プログラムモジュール642は、通常本発明に記載の実施例における機能及び/又は方法を実行する。
コンピュータ機器612は、一つ又は複数の外部デバイス614(例えば、キーボード、ポインティングデバイス、ディスプレイ624など)と通信することができるし、ユーザがコンピュータ機器612とインタラクションすることを可能にする一つ又は複数のデバイスと通信することもでき、及び/又はコンピュータ機器612が一つ又は複数の他のコンピューティング機器と通信することを可能にする任意のデバイス(例えば、ネットワークカード、モデムなど)と通信することができる。そのような通信は、入力/出力(I/O)インターフェイス622を介して行うことができる。また、コンピュータ機器612は、ネットワークアダプタ620を介して、一つ又は複数のネットワーク(例えば、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、及び/又はパブリックネットワーク、例えば、インターネット)と通信することができる。図に示すように、ネットワークアダプタ620は、バス618を介して、コンピュータ機器612の他のモジュールと通信する。なお、図6に示されていないが、マイクロコードやデバイスドライバ、冗長処理ユニット、外部ディスクドライブアレイ、RAIDシステム、テープドライバ、及びデータバックアップトレージシステムなどを備えるがこれらに限定されない他のハードウェア及び/又はソフトウェアモジュールを、コンピュータ機器612と組み合わせて使用することができる。
処理ユニット616は、システムメモリ628に記憶されたプログラムを実行することにより、様々な機能アプリケーション及びデータ処理を実行し、例えば、本発明の実施例によって提供されるトレーニングコーパスの生成方法を実現する。すなわち、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログにおいて、複数のラベル付け対象コーパスデータをマイニングし、コーパスデータには、ユーザ音声及び対応する音声認識結果を含む第1の行動ログと、第1の行動ログに時間的に関連付けられ、且つ同一のユーザに属する第2の行動ログとが含まれ、各ラベル付け対象コーパスデータにおける第1の行動ログと第2の行動ログとの関連づけに基づいて、各コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスとして判定する。
実施例7
本発明の実施例7は、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体を提供し、当該プログラムがプロセッサによって実行される場合に、本出願のすべての発明の実施例により提供されるトレーニングコーパスの生成方法が実現される。すなわち、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログにおいて、複数のラベル付け対象コーパスデータをマイニングし、コーパスデータには、ユーザ音声及び対応する音声認識結果を含む第1の行動ログと、第1の行動ログに時間的に関連付けられ、且つ同一のユーザに属する第2の行動ログとが含まれ、各ラベル付け対象コーパスデータにおける第1の行動ログと第2の行動ログとの関連づけに基づいて、各コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスとして判定する。
一つ又は複数のコンピュータ読み取り可能な媒体の任意の組み合わせを採用することができる。コンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体、或いはコンピュータ読み取り可能な記憶媒体であってもよい。コンピュータ読み取り可能な媒体は、例えば、電子、磁気、光、電磁気、赤外線、又は半導体のシステム、装置又はデバイス、或いは上記の任意の組み合わせであってもよいがこれらに限定されない。コンピュータ読み取り可能な記憶媒体のより具体的な例(非限定的なリスト)は、一つ又は複数の配線を備える電気接続部、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、又は上記の任意の適切な組み合わせを含む。この明細書において、コンピュータ読み取り可能な記憶媒体は、命令実行システム、装置又はデバイスにより使用され、或いはそれらと組み合わせて使用されることが可能であるプログラムを含む又は記憶する任意の有形の媒体であってもよい。
コンピュータ読み取り可能なの信号媒体は、ベースバンドにおける、又は搬送波の一部として伝播するデータ信号を含むことができ、その中にはコンピュータ読み取り可能なのプログラムコードが搭載されている。この伝播するデータ信号は様々な形式を採用することができ、電磁信号、光信号又は上記の任意の適切な組み合わせを含むがこれらに限定されない。コンピュータ読み取り可能なの信号媒体は、さらに、コンピュータ読み取り可能な記憶媒体以外の任意のコンピュータ読み取り可能な媒体であってもよく、当該コンピュータ読み取り可能な媒体は、命令実行システム、装置又はデバイスにより使用され、或いはそれらと組み合わせて使用されるプログラムを送信、伝播又は伝送することができる。
コンピュータ読み取り可能な媒体に含まれるプログラムコードは、無線、有線、光ケーブル、RFなど、又は上記の任意の適切な組み合わせを含むがこれらに限定されない任意の適切な媒体によって伝送することができる。
一つ又は複数のプログラミング言語又はそれらの組み合わせで本発明の動作を実行するように構成されるコンピュータプログラムコードを作成することができ、前記プログラミング言語は、Java、Smalltalk、C++などのプロジェクト指向のプログラミング言語を含み、さらに、「C」言語又は同様のプログラミング言語といった従来の手続き型プログラミング言語をも含む。プログラムコードは、完全にユーザーコンピュータで実行されてもよいし、部分的にユーザーコンピュータに実行されてもよいし、スタンドアロンソフトウェアパッケージとして実行されてもよいし、部分的にユーザーコンピュータで、部分的にリモートコンピュータで実行されてもよい、又は完全にリモートコンピュータ又はサーバーで実行してもよい。リモートコンピュータに係る場合、リモートコンピュータは、ローカルネットワーク(LAN)又は広域ネットワーク(WAN)を含む任意種類のインターネットを介して、ユーザーコンピュータに接続することができ、或いは、外部コンピュータ(例えば、インターネットサービスプロバイダを利用してインターネットを介して接続する)に接続することもできる。
なお、上記の記載は、本発明の好ましい実施例及び運用される技術的原理に過ぎない。当業者は、本発明がここに記載された特定の実施例に限定されないことを理解することができる。当業者であれば、本発明の保護範囲を逸脱することはなく、種々の明らかな変更、再調整及び置換えを行うことができる。したがって、上記実施例を用いて本発明を比較的詳細に説明したが、本発明は、上記実施例に限定されず、本発明の技術的思想を逸脱しなく、より多くの他の効果同等な実施例をさらに含むことができ、本発明の範囲は、特許請求の範囲によって决定される。

Claims (14)

  1. ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログにおいて複数のラベル付け対象コーパスデータをマイニングするステップであって、前記コーパスデータには、ユーザ音声及び対応する音声認識結果を含む第1の行動ログと、前記第1の行動ログに時間的に関連付けられ、且つ同一のユーザに属する第2の行動ログとが含まれるステップと、
    各前記ラベル付け対象コーパスデータにおける第1の行動ログと第2の行動ログとの関連づけに基づいて、各前記コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスとして判定するステップと、
    前記正のフィードバックトレーニングコーパス及び前記負のフィードバックトレーニングコーパスに基づいてトレーニングコーパスセットを構築し、前記トレーニングコーパスセットをトレーニングコーパス検収プラットフォームに送信するステップと、
    前記トレーニングコーパス検収プラットフォームによってフィードバックされた、前記トレーニングコーパスセットに対応する正確率指標値を受信するステップと、
    前記正確率指標値が予め設定された正確率閾値を満たすと決定した場合、前記トレーニングコーパスセットを使用して前記ターゲットアプリケーションプログラムの音声認識モデルの最適化トレーニングを行うステップと、
    を含むトレーニングコーパスの生成方法。
  2. 各前記ラベル付け対象コーパスデータにおける第1の行動ログと第2の行動ログとの関連づけに基づいて、各前記コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスとして判定するステップが、
    第1の行動ログのログタイプに基づいて、前記第1の行動ログに対応するユーザ予期行動を取得するステップと、
    前記ユーザ予期行動が前記第2の行動ログにマッチングすると決定した場合、前記コーパスデータにおける前記ユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパスとして判定するステップと、
    を含む請求項1に記載の方法。
  3. 各前記ラベル付け対象コーパスデータにおける第1の行動ログと第2の行動ログとの関連づけに基づいて、各前記コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスとして判定するステップが、
    第2の行動ログに対応するユーザ行動が所定の期間内の前記第1の行動ログに対する修正行動であると決定した場合、前記コーパスデータにおける前記ユーザ音声及び対応する音声認識結果を負のフィードバックトレーニングコーパスとして判定するステップを含む請求項1に記載の方法。
  4. 前記ターゲットアプリケーションプログラムが、地図類アプリケーションプログラムを含む請求項1に記載の方法。
  5. 第1の行動ログのログタイプに基づいて、前記第1の行動ログに対応するユーザ予期行動を取得するステップが、
    前記第1の行動ログのログタイプが、前記ユーザ音声に対応する音声認識結果を目的地として使用して位置検索サービスを開始するものであると決定した場合、前記ユーザ予期行動が、ユーザが前記位置検索サービスにマッチングする検索結果ページで前記目的地にマッチングするルート検索サービスを開始するオプションを選択することであると決定するステップを含む請求項2に記載の方法。
  6. 第1の行動ログのログタイプに基づいて、前記第1の行動ログに対応するユーザ予期行動を取得するステップが、
    前記第1の行動ログのログタイプが、前記ユーザ音声に対応する音声認識結果を目的地としてルート検索サービスを開始するものであると決定した場合、前記ユーザ予期行動が、ユーザが前記ルート検索サービスにマッチングするルート検索ページで前記目的地にナビゲーションするオプションを選択することであると決定するステップを含む請求項2に記載の方法。
  7. 第1の行動ログのログタイプに基づいて、前記第1の行動ログに対応するユーザ予期行動を取得するステップが、
    前記第1の行動ログのログタイプが、前記ユーザ音声に対応する音声認識結果を目的地としてルートナビゲーションサービスを開始するものであると決定した場合、前記ユーザ予期行動が、ユーザが前記目的地に到着することに成功したことであると決定するステップを含む請求項2に記載の方法。
  8. 第2の行動ログに対応するユーザ行動が所定の期間内の前記第1の行動ログに対する修正行動であると決定するステップが、
    前記第2の行動ログに対応するユーザ行動が修正音声を再入力することであり、且つ前記修正音声に対応する修正認識結果と前記音声認識結果とが意味的関連条件を満たすと決定した場合、前記第2の行動ログに対応するユーザ行動が修正行動であると決定するステップ、及び/又は、
    前記第2の行動ログに対応するユーザ行動が修正テキストを入力することであり、且つ前記修正テキストと前記音声認識結果とが意味的関連条件を満たすと決定した場合、前記第2の行動ログに対応するユーザ行動が修正行動であると決定するステップを含む請求項3に記載の方法。
  9. 前記意味的関連条件が、前記修正認識結果又は前記修正テキストが前記音声認識結果と異なり、且つ前記修正認識結果又は前記修正テキストと前記音声認識結果とが、予め設定された意味的類似度条件を満たすことを含む請求項8に記載の方法。
  10. 前記コーパスデータにおける前記ユーザ音声及び対応する音声認識結果を負のフィードバックトレーニングコーパスとして判定するステップの後に、
    修正認識結果又は修正テキストを潜在的な正しい結果として前記負のフィードバックトレーニングコーパスに追加するステップと、
    前記負のフィードバックトレーニングコーパスを手動ラベル付けモデルに送信して、前記手動ラベル付けモデルが前記潜在的な正しい結果に対して前記ユーザ音声に対応する正しい認識結果をラベル付けするステップと、
    前記手動ラベル付けモデルによってフィードバックされたラベル付け結果を使用して、前記負のフィードバックトレーニングコーパスを更新するステップと、
    を含む請求項3に記載の方法。
  11. 前記トレーニングコーパス検収プラットフォームによってフィードバックされた、前記トレーニングコーパスセットに対応する正確率指標値を受信するステップの後に、
    前記正確率指標値が予め設定された正確率閾値を満たさないと決定した場合、ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログに基づいて、複数の新しいラベル付け対象コーパスデータを再度マイニングし、新しいラベル付け対象コーパスデータにおいて新しい正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスを判定するステップを含む請求項に記載の方法。
  12. ターゲットアプリケーションプログラムに関連付けられたユーザ行動ログにおいて、複数のラベル付け対象コーパスデータをマイニングするように構成されるコーパスデータマイニングモジュールであって、前記コーパスデータには、ユーザ音声及び対応する音声認識結果を含む第1の行動ログと、前記第1の行動ログに時間的に関連付けられ、且つ同一のユーザに属する第2の行動ログとが含まれるコーパスデータマイニングモジュールと、
    各前記ラベル付け対象コーパスデータにおける第1の行動ログと第2の行動ログとの関連づけに基づいて、各前記コーパスデータにおけるユーザ音声及び対応する音声認識結果を正のフィードバックトレーニングコーパス又は負のフィードバックトレーニングコーパスとして判定するように構成されるコーパス判定モジュールと、
    前記正のフィードバックトレーニングコーパス及び前記負のフィードバックトレーニングコーパスに基づいてトレーニングコーパスセットを構築し、前記トレーニングコーパスセットをトレーニングコーパス検収プラットフォームに送信するように構成されるコーパスセット送信モジュールと、
    前記トレーニングコーパス検収プラットフォームによってフィードバックされた、前記トレーニングコーパスセットに対応する正確率指標値を受信するように構成される指標値受信モジュールと、
    前記正確率指標値が予め設定された正確率閾値を満たすと決定した場合、前記トレーニングコーパスセットを使用して前記ターゲットアプリケーションプログラムの音声認識モデルの最適化トレーニングを行うように構成されるコーパスセット使用モジュールと、
    を備えるトレーニングコーパスの生成装置。
  13. メモリと、プロセッサと、メモリに記憶され、プロセッサで実行可能なコンピュータプログラムと、を備えるコンピュータ機器であって、
    前記プロセッサが前記プログラムを実行する場合に、請求項1から11のいずれか一項に記載のトレーニングコーパスの生成方法を実現するコンピュータ機器。
  14. コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
    当該コンピュータプログラムがプロセッサにより実行される場合に、請求項1から11のいずれか一項に記載のトレーニングコーパスの生成方法が実現されるコンピュータ読み取り可能な記憶媒体。
JP2020041151A 2019-03-11 2020-03-10 トレーニングコーパスの生成方法、装置、機器及び記憶媒体 Active JP6936888B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910179796.4A CN109949797B (zh) 2019-03-11 2019-03-11 一种训练语料的生成方法、装置、设备及存储介质
CN201910179796.4 2019-03-11

Publications (2)

Publication Number Publication Date
JP2020149053A JP2020149053A (ja) 2020-09-17
JP6936888B2 true JP6936888B2 (ja) 2021-09-22

Family

ID=67008690

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020041151A Active JP6936888B2 (ja) 2019-03-11 2020-03-10 トレーニングコーパスの生成方法、装置、機器及び記憶媒体

Country Status (5)

Country Link
US (1) US11348571B2 (ja)
EP (1) EP3709295B1 (ja)
JP (1) JP6936888B2 (ja)
KR (1) KR102345156B1 (ja)
CN (1) CN109949797B (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091812B (zh) * 2019-11-26 2022-05-17 思必驰科技股份有限公司 小语种语料的生成方法及系统
CN111312219B (zh) * 2020-01-16 2023-11-28 上海携程国际旅行社有限公司 电话录音标注方法、系统、存储介质和电子设备
US11043208B1 (en) * 2020-02-20 2021-06-22 Clinc, Inc. Systems and methods for mixed setting training for slot filling machine learning tasks in a machine learning task-oriented dialogue system
CN111914114A (zh) * 2020-07-31 2020-11-10 海信视像科技股份有限公司 一种badcase挖掘方法及电子设备
CN111916088B (zh) * 2020-08-12 2022-09-27 腾讯科技(深圳)有限公司 一种语音语料的生成方法、设备及计算机可读存储介质
CN112002326A (zh) * 2020-10-28 2020-11-27 深圳市一恒科电子科技有限公司 一种交互方法及机器人设备
CN112417116B (zh) * 2020-11-18 2022-03-15 四川长虹电器股份有限公司 一种基于少样本语料的问句理解模型训练方法和系统
CN112614479B (zh) * 2020-11-26 2022-03-25 北京百度网讯科技有限公司 训练数据的处理方法、装置及电子设备
US11676593B2 (en) * 2020-12-01 2023-06-13 International Business Machines Corporation Training an artificial intelligence of a voice response system based on non_verbal feedback
CN112700763B (zh) * 2020-12-26 2024-04-16 中国科学技术大学 语音标注质量评价方法、装置、设备及存储介质
CN112905232B (zh) * 2021-02-05 2023-11-28 中国海洋大学 一种基于语法分析树的程序代码平行语料挖掘方法及系统
US11816432B2 (en) * 2021-02-09 2023-11-14 Capital One Services, Llc Systems and methods for increasing accuracy in categorizing characters in text string
CN112767924A (zh) 2021-02-26 2021-05-07 北京百度网讯科技有限公司 语音识别方法、装置、电子设备及存储介质
CN113327591B (zh) * 2021-06-16 2023-01-17 北京有竹居网络技术有限公司 一种语音处理方法及装置
CN113539245B (zh) * 2021-07-05 2024-03-15 思必驰科技股份有限公司 语言模型自动训练方法及系统
CN114974221B (zh) * 2022-04-29 2024-01-19 中移互联网有限公司 语音识别模型训练方法及装置、计算机可读存储介质
CN115687935A (zh) * 2023-01-05 2023-02-03 粤港澳大湾区数字经济研究院(福田) 语音识别的后处理方法、装置、设备及存储介质

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US6374221B1 (en) 1999-06-22 2002-04-16 Lucent Technologies Inc. Automatic retraining of a speech recognizer while using reliable transcripts
JP3726125B2 (ja) 2001-08-15 2005-12-14 独立行政法人情報通信研究機構 テキストコーパスの誤り検出方法及び装置
US7203644B2 (en) * 2001-12-31 2007-04-10 Intel Corporation Automating tuning of speech recognition systems
US7383170B2 (en) * 2003-10-10 2008-06-03 At&T Knowledge Ventures, L.P. System and method for analyzing automatic speech recognition performance data
US20080235018A1 (en) * 2004-01-20 2008-09-25 Koninklikke Philips Electronic,N.V. Method and System for Determing the Topic of a Conversation and Locating and Presenting Related Content
JP4784056B2 (ja) 2004-08-18 2011-09-28 パナソニック電工株式会社 音声認識機能付制御装置
US7412387B2 (en) * 2005-01-18 2008-08-12 International Business Machines Corporation Automatic improvement of spoken language
US9620117B1 (en) * 2006-06-27 2017-04-11 At&T Intellectual Property Ii, L.P. Learning from interactions for a spoken dialog system
TWI321313B (en) * 2007-03-03 2010-03-01 Ind Tech Res Inst Apparatus and method to reduce recognization errors through context relations among dialogue turns
US20080243504A1 (en) * 2007-03-30 2008-10-02 Verizon Data Services, Inc. System and method of speech recognition training based on confirmed speaker utterances
JP5336805B2 (ja) 2008-09-26 2013-11-06 株式会社東芝 音声翻訳装置、方法、およびプログラム
WO2013170344A1 (en) * 2012-05-15 2013-11-21 Whyz Technologies Limited Method and system relating to sentiment analysis of electronic content
US9601111B2 (en) * 2012-11-13 2017-03-21 GM Global Technology Operations LLC Methods and systems for adapting speech systems
CN103871402B (zh) * 2012-12-11 2017-10-10 北京百度网讯科技有限公司 语言模型训练系统、语音识别系统及相应方法
CN103971677B (zh) * 2013-02-01 2015-08-12 腾讯科技(深圳)有限公司 一种声学语言模型训练方法和装置
US9679558B2 (en) * 2014-05-15 2017-06-13 Microsoft Technology Licensing, Llc Language modeling for conversational understanding domains using semantic web resources
KR102225404B1 (ko) * 2014-05-23 2021-03-09 삼성전자주식회사 디바이스 정보를 이용하는 음성인식 방법 및 장치
US9378731B2 (en) * 2014-09-25 2016-06-28 Google Inc. Acoustic model training corpus selection
US9792281B2 (en) * 2015-06-15 2017-10-17 Microsoft Technology Licensing, Llc Contextual language generation by leveraging language understanding
JP6548994B2 (ja) * 2015-09-04 2019-07-24 株式会社東芝 操作装置、訂正方法およびプログラム
CN106992001B (zh) * 2017-03-29 2020-05-22 百度在线网络技术(北京)有限公司 语音指令的处理方法、装置和系统
CN107657048B (zh) 2017-09-21 2020-12-04 麒麟合盛网络技术股份有限公司 用户识别方法及装置
US10453454B2 (en) * 2017-10-26 2019-10-22 Hitachi, Ltd. Dialog system with self-learning natural language understanding
JP6654611B2 (ja) 2017-12-05 2020-02-26 株式会社日立製作所 成長型対話装置
CN108153875B (zh) 2017-12-26 2022-03-11 北京金山安全软件有限公司 语料处理方法、装置、智能音箱和存储介质
CN110489517B (zh) 2018-05-09 2023-10-31 鼎捷软件股份有限公司 虚拟助理的自动学习方法及系统
CN109192194A (zh) * 2018-08-22 2019-01-11 北京百度网讯科技有限公司 语音数据标注方法、装置、计算机设备及存储介质
CN109308895B (zh) * 2018-12-04 2019-12-27 百度在线网络技术(北京)有限公司 声学模型训练方法、装置、设备及计算机可读介质

Also Published As

Publication number Publication date
KR102345156B1 (ko) 2021-12-29
US11348571B2 (en) 2022-05-31
JP2020149053A (ja) 2020-09-17
KR20200108775A (ko) 2020-09-21
CN109949797A (zh) 2019-06-28
US20200294489A1 (en) 2020-09-17
EP3709295B1 (en) 2022-11-30
EP3709295A1 (en) 2020-09-16
CN109949797B (zh) 2021-11-12

Similar Documents

Publication Publication Date Title
JP6936888B2 (ja) トレーニングコーパスの生成方法、装置、機器及び記憶媒体
EP3648099B1 (en) Voice recognition method, device, apparatus, and storage medium
CN109002510B (zh) 一种对话处理方法、装置、设备和介质
WO2020108063A1 (zh) 特征词的确定方法、装置和服务器
CN111090727B (zh) 语言转换处理方法、装置及方言语音交互系统
CN108959257B (zh) 一种自然语言解析方法、装置、服务器及存储介质
WO2020215554A1 (zh) 语音识别方法、装置、设备及计算机可读存储介质
CN111739514B (zh) 一种语音识别方法、装置、设备及介质
US11398228B2 (en) Voice recognition method, device and server
CN110930980A (zh) 一种中英文混合语音的声学识别模型、方法及系统
CN110377750B (zh) 评论生成及评论生成模型训练方法、装置及存储介质
CN111291882A (zh) 一种模型转换的方法、装置、设备和计算机存储介质
CN113553414A (zh) 智能对话方法、装置、电子设备和存储介质
JP2021152957A (ja) 対話感情スタイル予測方法、装置、電子機器、記憶媒体及びプログラム
JP2022120024A (ja) オーディオ信号処理方法、モデルトレーニング方法、並びにそれらの装置、電子機器、記憶媒体及びコンピュータプログラム
CN114399772B (zh) 样本生成、模型训练和轨迹识别方法、装置、设备和介质
WO2020052060A1 (zh) 用于生成修正语句的方法和装置
CN113778455B (zh) 一种代码转换方法、装置、电子设备及存储介质
CN109036379B (zh) 语音识别方法、设备及存储介质
CN112084768A (zh) 一种多轮交互方法、装置及存储介质
CN112925889A (zh) 自然语言处理方法、装置、电子设备和存储介质
CN106682221B (zh) 问答交互的响应方法、装置及问答系统
CN109815325B (zh) 答案抽取方法、装置、服务器及存储介质
CN113204667B (zh) 音频标注模型的训练与音频标注的方法、装置
CN114475631B (zh) 驾驶数据处理方法装置、设备、自动驾驶车辆介质及产品

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200310

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210301

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210316

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210610

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210824

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210827

R150 Certificate of patent or registration of utility model

Ref document number: 6936888

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150