JP6800946B2 - 音声区間の認識方法、装置及び機器 - Google Patents

音声区間の認識方法、装置及び機器 Download PDF

Info

Publication number
JP6800946B2
JP6800946B2 JP2018244352A JP2018244352A JP6800946B2 JP 6800946 B2 JP6800946 B2 JP 6800946B2 JP 2018244352 A JP2018244352 A JP 2018244352A JP 2018244352 A JP2018244352 A JP 2018244352A JP 6800946 B2 JP6800946 B2 JP 6800946B2
Authority
JP
Japan
Prior art keywords
audio
frame
point
voice
end point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018244352A
Other languages
English (en)
Other versions
JP2019204073A (ja
Inventor
チャオ リ、
チャオ リ、
ウェイシン ジュー、
ウェイシン ジュー、
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド, バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Publication of JP2019204073A publication Critical patent/JP2019204073A/ja
Application granted granted Critical
Publication of JP6800946B2 publication Critical patent/JP6800946B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

本発明は、音声認識分野に関し、特に音声区間の認識方法、装置及び機器に関する。
音声検索サービスの継続的な普及に伴い、ますます多くの人々が対話の手段として自分の声を使い始めている。ユーザがモバイル端末を介して入力したオーディオをサーバにアップロードして、サーバが該オーディオに基づいて音声認識を行う。音声対話では、音声の開始点及び終了点を正確に認識することは音声認識の重要な部分である。
従来技術では、音声アクティビティ検出(Voice Activity Detector、略称VAD)モデルを用いて音声の開始点及び終了点を判断する。音声認識において、音声開始点の検出精度ができるだけ高く、音声終了点の遅延ができるだけ短いことが求められる。従来のVADモデルでは、開始点及び終了点について完全に同様な処理モデルを用いて認識を行うため、開始点の認識が不正確で、開始点の誤検出や検出漏れを発生させて、システム性能の低下を招いたり、終了点認識の遅延時間が長すぎることにより、ユーザに対する応答遅延が過度に長くなったりする。
本発明は、音声区間の認識方法、装置及び機器を提供し、従来のVADモデルでは、開始点及び終了点について完全に同様な処理モデルを用いて認識を行うため、開始点の認識が不正確で、開始点の誤検出や検出漏れを発生させて、システム性能の低下を招いたり、終了点認識の遅延時間が長すぎることにより、ユーザに対する応答遅延が過度に長くなったりするという問題を解決する。
本発明の一態様にて提供される音声区間の認識方法は、
検出対象となるオーディオの各オーディオフレームの音響的特徴を抽出するステップと、
前記各オーディオフレームの音響的特徴、及び開始点訓練セットを用いてニューラルネットワークを訓練して得られた開始点認識モデルに基づいて、前記各オーディオフレームのうちの音声開始点フレームを認識するステップと、
前記各オーディオフレームの音響的特徴、及び終了点訓練セットを用いてニューラルネットワークを訓練して得られた終了点認識モデルに基づいて、前記各オーディオフレームのうちの音声終了点フレームを認識するステップと
を含む。
本発明の別の態様にて提供される音声区間の認識装置は、
検出対象となるオーディオの各オーディオフレームの音響的特徴を抽出するための特徴抽出モジュールと、
前記各オーディオフレームの音響的特徴、及び開始点訓練セットを用いてニューラルネットワークを訓練して得られた開始点認識モデルに基づいて、前記各オーディオフレームのうちの音声開始点フレームを認識するための開始点認識モジュールと、
前記各オーディオフレームの音響的特徴、及び終了点訓練セットを用いてニューラルネットワークを訓練して得られた終了点認識モデルに基づいて、前記各オーディオフレームのうちの音声終了点フレームを認識するための終了点認識モジュールと
を備える。
本発明の別の態様にて提供されるコンピュータ機器は、
メモリと、プロセッサと、前記メモリに記憶され且つ前記プロセッサにおいて実行可能なコンピュータプログラムとを備え、
前記プロセッサは、前記コンピュータプログラムを実行すると、上記の音声区間の認識方法を実現する。
本発明の別の態様にて提供されるコンピュータ読み取り可能な記憶媒体は、コンピュータプログラムが記憶されており、
前記コンピュータプログラムは、プロセッサにより実行されると、上記の音声区間の認識方法を実現する。
本発明による音声区間の認識方法、装置及び機器は、それぞれ開始点訓練セット及び終了点訓練セットを用いて、リカレントニューラルネットワークを訓練して、開始点認識モデル及び終了点認識モデルを得て、前記各オーディオフレームの音響的特徴及び開始点認識モデルに基づいて、前記各オーディオフレームのうちの音声開始点フレームを認識し、それによって、終了点フレームの認識遅延時間に影響することなく、開始点フレームの認識精度をできるだけ高く確保することができ、前記各オーディオフレームの音響的特徴及び終了点認識モデルに基づいて、前記各オーディオフレームのうちの音声終了点フレームを認識し、それによって、開始点フレームの認識精度に影響することなく、終了点フレームの認識遅延をできるだけ短く確保することができ、それにより、開始点フレームの認識精度を向上させると同時に、終了点フレームの認識遅延時間を短縮できる。
ここでの図面は、明細書に組み込まれて本明細書の一部を構成し、本発明に合致する実施例を示し、明細書とともに本発明の原理を解釈することに用いられる。
本発明の実施例1による音声区間の認識方法のフローチャートである。 本発明の実施例2による音声区間の認識方法のフローチャートである。 本発明の実施例3による開始点訓練セットを決定するときのフローチャートである。 本発明の実施例3による終了点訓練セットを決定するときのフローチャートである。 本発明の実施例4による音声区間の認識装置の構造概略図である。 本発明の実施例6による音声区間の認識装置の構造概略図である。 本発明の実施例7によるコンピュータ機器の構造概略図である。
上記図面には、本発明の明確な実施例が示されているが、以下、より詳細に説明する。これらの図面及びテキストによる説明は、何らかの方法で本発明の構想の範囲を制限するものではなく、特定の実施例を参照しながら当業者のために本発明の概念を説明するためである。
ここで例示的な実施例について詳細に説明し、その例は図面で示している。以下の説明が図面について言及する場合、特に断りのない限り、異なる図面の同じ数字は同じ又は類似する要素を示す。以下の例示的な実施例に記載される実施形態は、本発明に一致するすべての実施形態を表すものではない。逆に、それらは添付の特許請求の範囲に詳述される、本発明の一部の態様に一致する装置及び方法の例にすぎない。
まず、本発明に係る用語を解釈する。
音声アクティビティ検出(Voice Activity Detector、略称VAD):音声活動検出、音声区間検出、音声境界検出とも呼ばれ、オーディオ信号ストリームから長いサイレントセグメントを認識して除去する技術である。
事後確率(A Posteriori Probability):調査又はほかの方式で新しい付加情報を取得して、ベイズ式で事前確率を修正して、確率を得る。事後確率とは、「結果」情報を得た後に改めて修正した確率であり、「結果から原因を検索する」問題における「結果」となる。
事前確率(A Priori Probability):従来の経験及び分析に基づいて得られた確率であり、たとえば完全確率式が挙げられ、それは、一般的に、「原因から結果を求める」問題における「原因」として現れる。事前確率は、古典確率モデルにより定義されるため、古典確率とも呼ばれる。
音響的特徴の抽出:音声認識の重要なプロセスである。音響的特徴の抽出は、情報を大幅に圧縮するプロセスでありながら、信号デコンボリューションプロセスであり、パターン分類が好適に分類できるようにすることを目的とする。音声信号の時変特性のため、特徴抽出は小さなセグメントの音声信号において行わなければならず、すなわち、短時間分析を行わなければならない。このセグメントはフレームと呼ばれる安定的な分析区間と見なされ、フレームとフレームとの間のシフトは通常フレーム長の1/2又は1/3とされる。通常、高周波数をブーストするために信号をプリエンファシスし、短期間の音声セグメントエッジの影響を避けるために信号を窓掛けする必要がある。
また、用語「第1」、「第2」などは、目的を説明するためのものであり、相対的な重要性を指示又は示唆するもの、又は、指示された技術的特徴の数を意図するものとして解釈されるべきではない。以下の各実施例の説明において、特に断りがない限り、「複数」は、2つ以上である。
以下の具体的な実施例は互いに組み合わせてもよく、同じ又は類似する概念又はプロセスは、いくつかの実施例では説明されないことがある。以下、図面を参照して本発明の実施例について説明する。
図1は、本発明の実施例1による音声区間の認識方法のフローチャートである。本発明の実施例は、従来のVADモデルでは開始点及び終了点について完全に同様な処理モデルを用いて認識を行うため、開始点の認識が不正確で、開始点の誤検出や検出漏れを発生させて、システム性能の低下を招いたり、終了点認識の遅延時間が長すぎることにより、ユーザに対する応答遅延が過度に長くなったりするという問題に対して、音声区間の認識方法を提供する。図1に示されるように、該方法は、具体的には、ステップS101〜ステップS103を含む。
ステップS101では、検出対象となるオーディオの各オーディオフレームの音響的特徴を抽出する。
本実施例では、好ましくは、検出対象となるオーディオの各オーディオフレームを取得して、それぞれ各オーディオフレームの音響的特徴を抽出する。
そのうち、該音響的特徴は、メル周波数ケプストラム係数(Mel Frequency Cepstral Coefficient、略称MFCC)、知覚線形予測(Perceptual Linear Predictive、略称PLP)などであってもよい。
ステップS102では、各オーディオフレームの音響的特徴、及び開始点訓練セットを用いてニューラルネットワークを訓練して得られた開始点認識モデルに基づいて、各オーディオフレームのうちの音声開始点フレームを認識する。
本実施例では、開始点訓練セットは、1つの開始点訓練オーディオの各フレームの音響的特徴及びアノテーション情報を含む少なくとも1組の開始点訓練データを含む。終了点訓練セットは、1つの終了点訓練オーディオの各フレームの音響的特徴及びアノテーション情報を含む少なくとも1組の終了点訓練データを含む。
実際に使用されるとき、本実施例は、訓練段階と検出段階の2つの段階を含む。
訓練段階は、検出対象となるオーディオの区間を認識する前に、訓練して開始点認識モデル及び終了点認識モデルを得る過程である。訓練段階は具体的には、
音声認識のための訓練コーパスを予め取得して、訓練コーパスは、実際に使用される本物の音声素材であり、複数のサンプルオーディオを含む。たとえば、訓練コーパスは、ユーザが入力した1万個のオーディオを含み、各オーディオの長さは約数秒である。訓練コーパスにおける各サンプルオーディオについてフレーミング処理を行って、複数のオーディオフレームを得て、所定の特徴抽出方法で各オーディオフレームの音響的特徴を抽出し、各オーディオフレームのアノテーション情報を取得する。
該サンプルオーディオの音声開始点を含む該サンプルオーディオの前の第1の期間の第1のオーディオセグメントを切り取り、該第1のオーディオセグメントを1つの開始点訓練オーディオとし、該第1のオーディオセグメントにおける各オーディオフレームの音響的特徴及びアノテーション情報を該開始点訓練オーディオに対応する1組の開始点訓練データとして、開始点訓練セットに追加する。
該サンプルオーディオの音声終了点を含む該サンプルオーディオの最後の第2の期間の第2のオーディオセグメントを切り取り、該第2のオーディオセグメントを1つの終了点訓練オーディオとし、該第2のオーディオセグメントにおける各オーディオフレームの音響的特徴及びアノテーション情報を該終了点訓練オーディオに対応する1組の終了点訓練データとして、終了点訓練セットに追加する。
ここで使用される開始点認識モデル及び終了点認識モデルは、異なる訓練データセットを用いてリカレントニューラルネットワークを訓練して得られたものである。開始点訓練セットを用いてリカレントニューラルネットワークモデルを訓練して、開始点認識モデルを得て、終了点訓練セットを用いてリカレントニューラルネットワークモデルを訓練して、終了点認識モデルを得ることができる。
開始点訓練セットを用いてニューラルネットワークを訓練して、開始点認識モデルを得て、終了点訓練セットを用いてニューラルネットワークを訓練して、終了点認識モデルを得る。
検出段階では、ステップS101〜S103によって、検出対象となるオーディオの各オーディオフレームの音響的特徴を抽出し、検出対象となるオーディオの各オーディオフレームの音響的特徴及び開始点認識モデルと終了点認識モデルに基づいて、それぞれ検出対象となるオーディオの音声開始点フレーム及び音声終了点フレームを認識し、それにより検出対象となるオーディオの音声開始点及び音声終了点を決定する。
各オーディオフレームの音響的特徴を取得した後、該ステップでは、各オーディオフレームの音響的特徴及び開始点認識モデルに基づいて、各オーディオフレームのうちの音声開始点フレームを認識する。
場合によっては、各オーディオフレームの音響的特徴を開始点認識モデルに順次入力して、開始点認識モデルの出力値に基づいて、現在のオーディオフレームが検出対象となるオーディオの音声開始点フレームであるか否かを決定し、現在のオーディオフレームが音声開始点フレームではない場合、続いて次のフレームを開始点認識モデルに入力し、次のフレームが検出対象となるオーディオの音声開始点フレームであるか否かを決定し、音声開始点フレームが決定されると、後続のオーディオフレームの開始点認識モデルへの入力を停止する。
ステップS103では、各オーディオフレームの音響的特徴、及び終了点訓練セットを用いてニューラルネットワークを訓練して得られた終了点認識モデルに基づいて、各オーディオフレームのうちの音声終了点フレームを認識する。
各オーディオフレームの音響的特徴を取得した後、該ステップでは、各オーディオフレームの音響的特徴及び終了点認識モデルに基づいて、各オーディオフレームのうちの音声終了点フレームを認識する。
場合によっては、音声開始点フレームを認識した後、検出対象となるオーディオの音声開始点フレーム以降の各オーディオフレームを終了点認識モデルに順次入力して、終了点認識モデルの出力値に基づいて、現在のオーディオフレームが検出対象となるオーディオの音声終了点フレームであるか否かを決定し、現在のオーディオフレームが音声終了点フレームではない場合、続いて次のフレームを終了点認識モデルに入力し、次のフレームが検出対象となるオーディオの音声終了点フレームであるか否かを決定し、音声終了点フレームが決定されると、後続のオーディオフレームの終了点認識モデルへの入力を停止する。
さらに、本実施例の別の実施形態では、各オーディオフレームを時系列順に逆順に終了点認識モデルに順次入力して、まず、検出対象となるオーディオの音声終了点フレームを認識し、次に音声終了点フレーム前のオーディオフレームを開始点認識モデルに順次入力し続け、検出対象となるオーディオの音声開始点フレームを認識してもよく、本実施例では、音声開始点フレーム及び音声終了点フレームの認識順番について特に限定しない。
本発明の実施例では、それぞれ開始点訓練セット及び終了点訓練セットを用いて、リカレントニューラルネットワークを訓練して、開始点認識モデル及び終了点認識モデルを得て、各オーディオフレームの音響的特徴及び開始点認識モデルに基づいて、各オーディオフレームのうちの音声開始点フレームを認識し、それによって、終了点フレームの認識遅延時間に影響することなく、開始点フレームの認識精度をできるだけ高く確保することができ、各オーディオフレームの音響的特徴及び終了点認識モデルに基づいて、各オーディオフレームのうちの音声終了点フレームを認識し、それによって、開始点フレームの認識精度に影響することなく、終了点フレームの認識遅延をできるだけ短く確保することができ、それにより、開始点フレームの認識精度を向上させると同時に、終了点フレームの認識遅延時間を短縮できる。
図2は、本発明の実施例2による音声区間の認識方法のフローチャートである。上記実施例1に基づいて、本実施例では、各オーディオフレームの音響的特徴を開始点認識モデルに順次入力して、開始点認識モデルの出力値に基づいて、現在のオーディオフレームが検出対象となるオーディオの音声開始点フレームであるか否かを決定し、現在のオーディオフレームが音声開始点フレームではない場合、続いて次のフレームを開始点認識モデルに入力し、次のフレームが検出対象となるオーディオの音声開始点フレームであるか否かを決定し、音声開始点フレームが決定されると、後続のオーディオフレームの開始点認識モデルへの入力を停止し、音声開始点フレームを認識した後、検出対象となるオーディオの音声開始点フレーム以降の各オーディオフレームを終了点認識モデルに順次入力して、終了点認識モデルの出力値に基づいて、現在のオーディオフレームが検出対象となるオーディオの音声終了点フレームであるか否かを決定し、現在のオーディオフレームが音声終了点フレームではない場合、続いて次のフレームを終了点認識モデルに入力し、次のフレームが検出対象となるオーディオの音声終了点フレームであるか否かを決定し、音声終了点フレームが決定されると、後続のオーディオフレームの終了点認識モデルへの入力を停止する。図2に示されるように、該方法は、具体的には、ステップS201〜ステップS210を含む。
ステップS201では、検出対象となるオーディオの各オーディオフレームの音響的特徴を抽出する。
該ステップは上記ステップS101に一致するため、ここで詳細な説明を省略する。
ステップS202では、第1のターゲットフレームを取得する。
本実施例では、検出対象となるオーディオのうちの各オーディオフレームの時系列に従って、オーディオフレームを順次第1のターゲットフレームとして、ステップS203〜S206によって、第1のターゲットフレームに対して開始点認識処理を行う。
ステップS203では、第1のターゲットフレームの音響的特徴を開始点認識モデルに入力して、第1のターゲットフレームが有効音声である確率値を算出する。
開始点認識モデルはリカレントニューラルネットワークモデルであり、入力した第1のターゲットフレームの音響的特徴に基づいて、第1のターゲットフレームが有効音声である確率値を算出して出力する。
場合によっては、第1のターゲットフレームが有効音声である確率値は、第1のターゲットフレームが有効音声である事後確率値である。
ステップS204では、第1のターゲットフレームが有効音声である確率値及び第1の閾値の大きさに基づいて、第1のターゲットフレームが有効音声であるか否かを決定する。
該ステップは、具体的には、下記方式で実現できる。
第1のターゲットフレームが有効音声である確率値と第1の閾値の大きさとを比較して、第1のターゲットフレームが有効音声である確率値が第1の閾値より大きいと、該第1のターゲットフレームが有効音声であると決定し、第1のターゲットフレームが有効音声である確率値が第1の閾値以下であると、該第1のターゲットフレームが有効音声ではないと決定する。
第1の閾値は、技術者により必要に応じて設定され得、本実施例ではそれについて特に限定しない。
ステップS205では、第1のターゲットフレームが有効音声である場合、第1のターゲットフレームを音声開始点フレームとして決定する。
該ステップでは、第1のターゲットフレームが有効音声である場合、第1のターゲットフレームが検出対象となるオーディオにおいて現れる有効音声である最初のオーディオフレームであることを示し、第1のターゲットフレームを音声開始点フレームとする。
場合によっては、第1のターゲットフレームを音声開始点フレームとして決定した後、音声開始点フレームの開始時点を検出対象となるオーディオの音声開始点としてもよい。
該ステップでは、音声開始点フレームを決定した後、ステップS207〜S211を実行し続け、後続の各オーディオフレームから音声終了点フレームを決定する。
ステップS206では、第1のターゲットフレームが有効音声ではない場合、次のフレームを新しい第1のターゲットフレームとする。
第1のターゲットフレームが有効音声ではない場合、検出対象となるオーディオにおいて有効音声である最初のオーディオフレームが現れていないことを示し、次のオーディオフレームを新しい第1のターゲットフレームとして、新しい第1のターゲットフレームに対してステップS203〜S206を実行し続け、新しい第1のターゲットフレームに対して開始点認識処理を行う。
ステップS207では、第2のターゲットフレームを取得する。
音声開始点フレームを決定した後、音声開始点フレーム以降のオーディオフレームを順次第2のターゲットフレームとして、後続のステップS207〜S211によって、第2のターゲットフレームに対して終了点認識処理を行う。
ステップS208では、第2のターゲットフレームの音響的特徴を終了点認識モデルに入力して、第2のターゲットフレームが有効音声である確率値を算出する。
終了点認識モデルはリカレントニューラルネットワークモデルであり、入力した第2のターゲットフレームの音響的特徴に基づいて、第2のターゲットフレームが有効音声である確率値を算出して出力する。
場合によっては、第2のターゲットフレームが有効音声である確率値は、第2のターゲットフレームが有効音声である事後確率値である。
ステップS209では、第2のターゲットフレームが有効音声である確率値及び第1の閾値より小さい第2の閾値の大きさに基づいて、第2のターゲットフレームが有効音声であるか否かを決定する。
該ステップは、具体的には、下記方式で実現できる。
第2のターゲットフレームが有効音声である確率値と第2の閾値の大きさとを比較して、第2のターゲットフレームが有効音声である確率値が第2の閾値より大きい場合、該第2のターゲットフレームが有効音声であると決定し、第2のターゲットフレームが有効音声である確率値が第2の閾値以下である場合、該第2のターゲットフレームが有効音声ではないと決定する。
第2の閾値は第1の閾値より小さい。たとえば、第1の閾値は0.6、第2の閾値は0.4である。
第2の閾値は、技術者により必要に応じて設定され得、本実施例ではそれについて特に限定しない。
ステップS210では、第2のターゲットフレームが有効音声ではない場合、第2のターゲットフレームを音声終了点フレームとして決定する。
該ステップでは、第2のターゲットフレームが有効音声ではない場合、第2のターゲットフレームが検出対象となるオーディオにおいて開始点オーディオフレーム以降に現れる有効音声ではない最初のオーディオフレームであることを示し、第2のターゲットフレームを音声終了点フレームとして決定する。
場合によっては、第2のターゲットフレームを音声終了点フレームとして決定した後、音声終了点フレームの開始時点を検出対象となるオーディオの音声終了点としてもよい。
ステップS211では、第2のターゲットフレームが有効音声である場合、次のフレームを新しい第2のターゲットフレームとする。
第2のターゲットフレームが有効音声である場合、検出対象となるオーディオにおいて音声開始点フレーム以降に有効音声ではないオーディオフレームが現れていないことを示し、次のオーディオフレームを新しい第2のターゲットフレームとして、新しい第2のターゲットフレームに対してステップS208〜S211を実行し続け、新しい第2のターゲットフレームに対して終了点認識処理を行う。
ステップS208〜S211によって、新しい第2のターゲットフレームに対して終了点認識処理を行う。
本発明の実施例では、各オーディオフレームの音響的特徴を開始点認識モデルに順次入力して、開始点認識モデルの出力値に基づいて、現在のオーディオフレームが検出対象となるオーディオの音声開始点フレームであるか否かを決定し、現在のオーディオフレームが音声開始点フレームではない場合、続いて次のフレームを開始点認識モデルに入力し、次のフレームが検出対象となるオーディオの音声開始点フレームであるか否かを決定し、音声開始点フレームが決定されると、後続のオーディオフレームの開始点認識モデルへの入力を停止し、音声開始点フレームを認識した後、検出対象となるオーディオの音声開始点フレーム以降の各オーディオフレームを終了点認識モデルに順次入力して、終了点認識モデルの出力値に基づいて、現在のオーディオフレームが検出対象となるオーディオの音声終了点フレームであるか否かを決定し、現在のオーディオフレームが音声終了点フレームではない場合、続いて次のフレームを終了点認識モデルに入力し、次のフレームが検出対象となるオーディオの音声終了点フレームであるか否かを決定し、音声終了点フレームが決定されると、後続のオーディオフレームの終了点認識モデルへの入力を停止し、それによって、音声区間認識効率を向上できる。
図3は、本発明の実施例3による開始点訓練セットを決定するときのフローチャートであり、図4は、本発明の実施例3による終了点訓練セットを決定するときのフローチャートである。上記実施例1又は実施例2に基づいて、本実施例では、検出対象となるオーディオの区間を認識する前に、開始点訓練セット及び終了点訓練セットを予め取得して、開始点訓練セット及び終了点訓練セットを用いて、それぞれリカレントニューラルネットワークを訓練して、開始点認識モデル及び終了点認識モデルを得て、この段階をモデルの訓練段階とし、具体的には、訓練データの準備、開始点訓練セット及び終了点訓練セットの決定及びモデル訓練の3つの段階を含む。
本実施例では、開始点訓練セットは、1つの開始点訓練オーディオの各フレームの音響的特徴及びアノテーション情報を含む少なくとも1組の開始点訓練データを含む。終了点訓練セットは、1つの終了点訓練オーディオの各フレームの音響的特徴及びアノテーション情報を含む少なくとも1組の終了点訓練データを含む。
アノテーション情報は第1の属性値又は第2の属性値であり、該サンプルが有効音声であるか否かをアノテーションする。アノテーション情報が第1の属性値であると、オーディオフレームが無効音声であることを示し、アノテーション情報が第2の属性値であると、オーディオフレームが有効音声であることを示し、第2の属性値は第1の属性値と異なる。
たとえば、第1の属性値は0、第2の属性値は1であり、又は、第1の属性値は「N」、第2の属性値は「Y」などである。本実施例では、第1の属性値及び第2の属性値の具体的なデータ構造について特に限定しない。
場合によっては、1つの開始点訓練オーディオに対応する1組の開始点訓練データは{X、Y}の構造で記憶されてもよく、Xは、該組の開始点訓練データにおける各オーディオフレームの音響的特徴を時系列に従って配列してなるシーケンスであり、該組の開始点訓練データの特徴シーケンスと呼ばれてもよく、Yは、該組の開始点訓練データにおける各オーディオフレームのアノテーションを特徴シーケンスに一致する順番に従って配列してなるシーケンスであり、該組の開始点訓練データのアノテーションシーケンスと呼ばれてもよい。
場合によっては、オーディオフレームのアノテーション情報は、人工アノテーション、又は音声認識における機器強制アライメントの方式で取得され、本実施例では、オーディオフレームのアノテーション方法について特に限定しない。
訓練データの準備段階は、音声認識のための訓練コーパスを予め取得することを含み、訓練コーパスは実際に使用される本物の音声素材であり、複数のサンプルオーディオを含む。たとえば、訓練コーパスは、ユーザが入力した1万個のオーディオを含み、各オーディオの長さは約数秒である。訓練コーパスにおける各サンプルオーディオについてフレーミング処理を行って、複数のオーディオフレームを得て、所定の特徴抽出方法で各オーディオフレームの音響的特徴を抽出し、各オーディオフレームのアノテーション情報を取得する。
訓練段階において、オーディオフレームの音響的特徴の抽出は、検出段階における検出対象となるオーディオの各オーディオフレームの音響的特徴の抽出と同様な特徴抽出方法で行え、それにより、オーディオフレームに対する認識精度を向上させる。
場合によっては、訓練コーパス中のあるオーディオセグメントに対するフレーミング処理方法は、検出段階における検出対象となるオーディオのフレーミング処理と同様な方式で行え、それにより、オーディオフレームに対する認識精度を向上させる。
音声信号の時変特性のため、音響的特徴の抽出は小さなセグメントの音声信号において行わなければならず、すなわち、短時間分析を行わなければならない。このセグメントはフレームと呼ばれる安定的な分析区間と見なされ、フレームとフレームとの間のシフトは通常フレーム長の1/2又は1/3程度とされる。訓練コーパス中のあるオーディオセグメントについては、所定期間おきに所定フレーム長の1フレームを抽出してもよく、該オーディオセグメントに対してフレーミング処理を行って、複数のオーディオフレームを得る。
たとえば、所定期間おきに、所定フレーム長の1フレームを抽出して、オーディオセグメントに対して、フレーミング処理を行って、複数のオーディオフレームを得る。場合によっては、所定期間は10ミリ秒、所定フレーム長は25ミリ秒である。
開始点訓練セット及び終了点訓練セットの決定段階は、訓練コーパスにおけるいずれか1つのサンプルオーディオについて、該サンプルオーディオの音声開始点を含む該サンプルオーディオの前の第1の期間の第1のオーディオセグメントを切り取り、該第1のオーディオセグメントを1つの開始点訓練オーディオとして、該第1のオーディオセグメント内の各オーディオフレームの音響的特徴及びアノテーション情報を該開始点訓練オーディオに対応する1組の開始点訓練データとして、開始点訓練セットに追加する。該サンプルオーディオの音声終了点を含む該サンプルオーディオの最後の第2の期間の第2のオーディオセグメントを切り取り、該第2のオーディオセグメントを1つの終了点訓練オーディオとして、該第2のオーディオセグメント内の各オーディオフレームの音響的特徴及びアノテーション情報を該終了点訓練オーディオに対応する1組の終了点訓練データとして、終了点訓練セットに追加する。
本実施例では、図3に示されるように、開始点訓練セットの決定は、具体的には、ステップS301〜ステップS305によって行われる。
ステップS301では、サンプルオーディオの各フレームの音響的特徴及びアノテーション情報を取得する。
ステップS302では、サンプルオーディオの各フレームのアノテーション情報に基づいて、サンプルオーディオにおける音声開始時点を決定し、音声開始時点以降の第1の所定期間内におけるオーディオセグメントを有効音声セグメントとする。
第1の所定期間は、音声開始点を決定するときに、音声開始点の信頼区間を確保するための遅延時間である。第1の所定期間は、技術者により必要に応じて設定され得、本実施例では、第1の所定期間の値について特に限定しない。たとえば、第1の所定期間は20フレームの期間である。
各フレームのアノテーション情報に基づいて、サンプルオーディオにおいて現れるアノテーション情報が第2の属性値である最初のフレームを決定し、該フレームが有効音声フレームであることを決定できる。通常、サンプルオーディオにはノイズ変動があるので、直接該フレームの開始時点をサンプルオーディオの音声開始時点とするのではなく、第1の所定期間の時間遅延を予め設定しておき、該フレーム開始時点以降の第1の所定期間内におけるフレームがすべて有効音声であり、すなわち第1の所定期間の有効音声が連続的に表れると、該フレームの開始時点をサンプルオーディオの音声開始時点とすることができる。
ステップS303では、音声開始時点+第1の所定期間であるサンプルオーディオの第1の時点前のフレームのアノテーション情報を第1の属性値として設定する。
音声開始点の十分な信頼区間を確保するために、音声開始時点以降の第1の所定期間の終了時点を該サンプルオーディオの音声開始点とし、すなわち、第1の時点をサンプルオーディオの音声開始点とする。該ステップでは、サンプルオーディオの第1の時点前のフレームのアノテーション情報を第1の属性値として設定して、すなわち、サンプルオーディオの音声開始点前のフレームを無効音声としてアノテーションする。
ステップS304では、サンプルオーディオの第1の時点と第2の時点との間のフレームのアノテーション情報を第2の属性値として設定する。
第2の所定時点は、第1の時点以降であり、第2の時点及び第1の時点は、少なくとも第1の所定期間の間隔を有する。
場合によっては、第2の時点=第1の時点+第1の所定期間である。
音声開始点の十分な信頼区間を確保するために、音声開始時点以降の第1の所定期間の終了時点を該サンプルオーディオの音声開始点とし、すなわち、第1の時点をサンプルオーディオの音声開始点とする。このようにして、音声開始点の誤通知を防止できる。
該ステップでは、サンプルオーディオの第1の時点以降のフレームのアノテーション情報を第2の属性値として設定し、すなわち、サンプルオーディオの音声開始点後のフレームを有効音声としてアノテーションする。
音声開始点モデルの精度を向上させるために、該サンプルオーディオの前の第1の期間の第1のオーディオセグメントを1つの開始点訓練オーディオとして切り取る。当該開始点訓練オーディオは、該サンプルオーディオの開始時点から第2の時点までのオーディオセグメントである。
ステップS305では、サンプルオーディオの第2の時点前のフレームの音響的特徴及びアノテーション情報を1組の開始点訓練データとして、開始点訓練セットに追加する。
本実施例では、図4に示されるように、終了点訓練セットの決定は、具体的には、ステップS401〜ステップS405によって行われる。
ステップS401では、サンプルオーディオの各フレームの音響的特徴及びアノテーション情報を取得する。
ステップS402では、サンプルオーディオの各フレームの音響的特徴及びアノテーション情報に基づいて、サンプルオーディオにおける音声終了時点を決定し、音声終了時点以降の第1の所定期間より小さい第2の所定期間内におけるオーディオセグメントを無効音声セグメントとする。
第2の所定期間は、音声終了点を決定するときに、音声終了点の信頼区間を確保するための遅延時間である。第2の所定期間は第1の所定期間より小さい。第2の所定期間は、技術者により必要に応じて設定され得、本実施例では、第2の所定期間の値について特に限定しない。
さらに、音声開始時点では、ユーザが話していて、システムからの応答を必要としないため、第1の所定期間が長いほど、開始点認識モデルの信頼区間が高いが、音声終了時点以降では、ユーザがシステムによるタイムリーな応答を期待するため、音声終了点を認識するにはモデルの信頼区間と応答速度を両立させる必要があり、従って、第1の所定期間をより長く設定して、第2の所定期間をより短く設定することができる。たとえば、第1の所定期間は20フレームの期間、第2の所定期間は10フレームの期間である。
各フレームのアノテーション情報に基づいて、サンプルオーディオにおいて現れるアノテーション情報が第2の属性値である最後のフレームを決定し、該フレームが有効音声であり、該フレーム後のフレームが無効音声であることを決定できる。サンプルフレームの音声開始点の決定と同様に、第2の所定期間の時間遅延を予め設定しておき、該フレームの終了時点以降の第2の所定期間内におけるフレームがすべて無効音声であり、すなわち、第2の所定期間の無効音声が連続的に現われると、該フレームの終了時点をサンプルオーディオの音声終了時点とすることができる。
ステップS403では、音声終了時点+第2の所定期間であるサンプルオーディオの第3の時点以降のフレームのアノテーション情報を第1の属性値として設定する。
音声開始点の信頼区間を確保するために、音声終了時点以降の第2の所定期間の終了時点を該サンプルオーディオの音声終了点、すなわち、第3の時点をサンプルオーディオの音声終了点とする。該ステップでは、サンプルオーディオの第3の時点以降のフレームのアノテーション情報を第2の属性値として設定し、すなわち、サンプルオーディオの音声終了点後のフレームを無効音声としてアノテーションする。
ステップS404では、第3の時点−第2の所定期間であるサンプルオーディオの第4の時点と、第3の時点との間のフレームのアノテーション情報を第1の属性値として設定する。
第4の所定時点は、第3の時点以前であり、第4の時点及び第3の時点は、少なくとも第2の所定期間の間隔を有する。
音声終了点の信頼区間を確保するために、音声終了時点以降の第2の所定期間の終了時点を該サンプルオーディオの音声終了点とし、すなわち、第3の時点をサンプルオーディオの音声終了点とする。このようにして、音声終了点の誤通知を防止できる。
該ステップでは、サンプルオーディオの第3の時点前のフレームのアノテーション情報を第2の属性値として設定し、すなわち、サンプルオーディオの音声終了点前のフレームを有効音声としてアノテーションする。
音声終了点モデルの精度を向上させるために、該サンプルオーディオの最後の第2の期間の第2のオーディオセグメントを1つの終了点訓練オーディオとして切り取る。当該終了点訓練オーディオは、該サンプルオーディオの第4の時点から終了時点までのオーディオセグメントである。
ステップS405、サンプルオーディオの第4の時点以降のフレームの音響的特徴及びアノテーション情報を1組の終了点訓練データとして、終了点訓練セットに追加する。
開始点訓練セット及び終了点訓練セットを決定した後、モデル訓練段階において、開始点訓練セットを用いてリカレントニューラルネットワークモデルを訓練して、開始点認識モデルを得て、終了点訓練セットを用いてリカレントニューラルネットワークモデルを訓練して、終了点認識モデルを得ることができる。
場合によっては、使用されるリカレントニューラルネットワークは、LSTM(Long Short Term)ネットワーク、又はGRU(Gated Recurrent Unit)ネットワークであってもよいし、又はほかのリカレントニューラルネットワークであってもよい。
場合によっては、開始点認識モデル及び終了点認識モデルは、同一タイプのリカレントニューラルネットワークを訓練して得られてもよいし、2つの異なるタイプのリカレントニューラルネットワークを訓練して得られてもよい。
好ましくは、開始点訓練セット及び終了点訓練セットを用いて、それぞれGRUネットワークを訓練して、開始点認識モデル及び終了点認識モデルを得ることによって、開始点認識モデル及び終了点認識モデルの計算効率を向上させる。
場合によっては、リカレントニューラルネットワークモデルを訓練するときに、それぞれ開始点訓練セット及び終了点訓練セットを用いて、ソフトマックス関数をアクティベーション関数、クロスエントロピーをコスト関数としてリカレントニューラルネットワークモデルを訓練する。
本実施例では、リカレントニューラルネットワークモデルの出力層は2つの出力ノードを含み、一方の出力ノードの値は、オーディオフレームが有効音声である確率情報を示し、他方の出力ノードの値は、オーディオフレームが無効音声である確率情報を示す。
さらに、本実施例の別の実施形態では、検出対象となるオーディオの音声開始点フレーム及び音声終了点フレームを認識した後、音声開始点フレームの開始時点を検出対象となるオーディオの音声開始点、音声終了点フレームの開始時点を検出対象となるオーディオの音声終了点とし、検出対象となるオーディオの音声開始点と音声終了点との間の第1のオーディオセグメントを切り取り、第1のオーディオセグメントを音声認識機器に送信してもよく、それにより、有効音声セグメントだけを音声認識機器に送信し、さらに音声認識機器の処理効率を向上させる。
場合によっては、検出対象となるオーディオの音声開始点と音声終了点との間の第1のオーディオセグメントを切り取った後、音声開始点前の第1の所定期間より大きい第3の所定期間の第2のオーディオセグメントを取得して、第2のオーディオセグメント及び第1のオーディオセグメントを音声認識機器に送信してもよく、それによって、第1の所定期間の遅延による影響を解消する。
場合によっては、音声開始点フレームを決定した後、検出対象となるオーディオにおける音声開始点フレーム前の第3の所定期間内のオーディオフレームをキャッシュできる。たとえば、第1の所定期間は20フレームの期間、第3の所定期間は40フレーム的期間である。
本発明の実施例では、訓練コーパスにおけるいずれか1つのサンプルオーディオについて、第1の所定期間を予め設定することにより、サンプルオーディオにおける音声開始時点以降の第1の所定期間の第1の時点をサンプルオーディオの音声開始点として決定し、該サンプルオーディオの前の第1の期間の第1のオーディオセグメントを切り取り、該サンプルオーディオの音声開始点を含む第1のオーディオセグメント内の各オーディオフレームの音響的特徴及びアノテーション情報を該開始点訓練オーディオに対応する1組の開始点訓練データとして、開始点訓練セットに追加し、開始点訓練セットで訓練して得られた開始点認識モデルは、信頼区間が高く、音声開始点認識の精度を向上できる。同様に、第2の所定期間を予め設定することにより、サンプルオーディオにおける音声終了時点以降の第2の所定期間の第3の時点をサンプルオーディオの音声終了点として決定し、該サンプルオーディオの音声終了点を含む最後の第2のオーディオセグメントを切り取り、該第2のオーディオセグメント内の各オーディオフレームの音響的特徴及びアノテーション情報を該終了点訓練オーディオに対応する1組の終了点訓練データとして、終了点訓練セットに追加し、第2の所定期間を第1の所定期間より小さく設定することで、終了点認識モデルの信頼区間と応答時間を両立させることができる。
図5は、本発明の実施例4による音声区間の認識装置の構造概略図である。本発明の実施例による音声区間の認識装置は、音声区間の認識方法の実施例による処理プロセスを実行できる。図5に示されるように、該装置50は、特徴抽出モジュール501と、開始点認識モジュール502と、終了点認識モジュール503とを備える。
具体的には、特徴抽出モジュール501は、検出対象となるオーディオの各オーディオフレームの音響的特徴を抽出する。
開始点認識モジュール502は、各オーディオフレームの音響的特徴、及び開始点訓練セットを用いてニューラルネットワークを訓練して得られた開始点認識モデルに基づいて、各オーディオフレームのうちの音声開始点フレームを認識する。
終了点認識モジュール503は、各オーディオフレームの音響的特徴、及び終了点訓練セットを用いてニューラルネットワークを訓練して得られた終了点認識モデルに基づいて、各オーディオフレームのうちの音声終了点フレームを認識する。
開始点訓練セットは、1つの開始点訓練オーディオの各フレームの音響的特徴及びアノテーション情報を含む少なくとも1組の開始点訓練データを含む。
終了点訓練セットは、1つの終了点訓練オーディオの各フレームの音響的特徴及びアノテーション情報を含む少なくとも1組の終了点訓練データを含む。
アノテーション情報は、フレームを無効音声としてアノテーションするための第1の属性値又はフレームを有効音声としてアノテーションするための第2の属性値である。
本発明の実施例による装置は、具体的には、上記実施例1による方法例を実行でき、具体的な機能については、ここで詳細な説明を省略する。
本発明の実施例では、それぞれ開始点訓練セット及び終了点訓練セットを用いて、リカレントニューラルネットワークを訓練して、開始点認識モデル及び終了点認識モデルを得て、各オーディオフレームの音響的特徴及び開始点認識モデルに基づいて、各オーディオフレームのうちの音声開始点フレームを認識し、それによって、終了点フレームの認識遅延時間に影響することなく、開始点フレームの認識精度をできるだけ高く確保することができ、各オーディオフレームの音響的特徴及び終了点認識モデルに基づいて、各オーディオフレームのうちの音声終了点フレームを認識し、それによって、開始点フレームの認識精度に影響することなく、終了点フレームの認識遅延をできるだけ短く確保することができ、それにより、開始点フレームの認識精度を向上させると同時に、終了点フレームの認識遅延時間を短縮できる。
上記実施例4に基づいて、本実施例では、開始点認識モジュールはさらに、
オーディオフレームを順次第1のターゲットフレームとして、第1のターゲットフレームに対して、開始点認識処理として、第1のターゲットフレームの音響的特徴を開始点認識モデルに入力して、第1のターゲットフレームが有効音声である確率値を算出することと、第1のターゲットフレームが有効音声である確率値及び第1の閾値の大きさに基づいて、第1のターゲットフレームが有効音声であるか否かを決定することと、第1のターゲットフレームが有効音声ではない場合、次のオーディオフレームを新しい第1のターゲットフレームとして、新しい第1のターゲットフレームに対して開始点認識処理を行うことと、第1のターゲットフレームが有効音声である場合、第1のターゲットフレームを音声開始点フレームとして決定することとを行う。
終了点認識モジュールはさらに、
音声開始点フレーム以降のオーディオフレームを順次第2のターゲットフレームとして、第2のターゲットフレームに対して、終了点認識処理として、第2のターゲットフレームの音響的特徴を終了点認識モデルに入力して、第2のターゲットフレームが有効音声である確率値を算出することと、第2のターゲットフレームが有効音声である確率値及び第1の閾値より小さい第2の閾値の大きさに基づいて、第2のターゲットフレームが有効音声であるか否かを決定することと、第2のターゲットフレームが有効音声である場合、次のオーディオフレームを新しい第2のターゲットフレームとして、新しい第2のターゲットフレームに対して終了点認識処理を行うことと、第2のターゲットフレームが有効音声ではない場合、第2のターゲットフレームを音声終了点フレームとして決定することとを行う。
本発明の実施例による装置は、具体的には、上記実施例2による方法例を実行でき、具体的な機能については、ここで詳細な説明を省略する。
本発明の実施例では、オーディオフレームを開始点認識モデルに順次入力して、開始点認識モデルの出力値に基づいて、現在のオーディオフレームが検出対象となるオーディオの音声開始点フレームであるか否かを決定し、現在のオーディオフレームが音声開始点フレームではない場合、続いて次のフレームを開始点認識モデルに入力し、次のフレームが検出対象となるオーディオの音声開始点フレームであるか否かを決定し、音声開始点フレームが決定されると、後続のオーディオフレームの開始点認識モデルへの入力を停止し、音声開始点フレームを認識した後、検出対象となるオーディオの音声開始点フレーム以降の各オーディオフレームを終了点認識モデルに順次入力して、終了点認識モデルの出力値に基づいて、現在のオーディオフレームが検出対象となるオーディオの音声終了点フレームであるか否かを決定し、現在のオーディオフレームが音声終了点フレームではない場合、続いて次のフレームを終了点認識モデルに入力し、次のフレームが検出対象となるオーディオの音声終了点フレームであるか否かを決定し、音声終了点フレームが決定されると、後続のオーディオフレームの終了点認識モデルへの入力を停止し、それによって、音声区間認識効率を向上できる。
図6は、本発明の実施例6による音声区間の認識装置の構造概略図である。上記実施例5に基づいて、本実施例では、図6に示されるように、該装置50は、訓練セット決定モジュール504をさらに備える。
具体的には、訓練セット決定モジュール504は、
サンプルオーディオの各フレームのアノテーション情報に基づいて、サンプルオーディオにおける音声開始時点を決定し、音声開始時点以降の第1の所定期間内におけるオーディオセグメントを有効音声セグメントとし、音声開始時点+第1の所定期間であるサンプルオーディオの第1の時点前のフレームのアノテーション情報を第1の属性値として設定し、第1の時点と、第1の時点+第1の所定期間であるサンプルオーディオの第2の時点との間のフレームのアノテーション情報を第2の属性値として設定し、サンプルオーディオの第2の時点前のフレームの音響的特徴及びアノテーション情報を1組の開始点訓練データとして、開始点訓練セットに追加する。
訓練セット決定モジュール504はさらに、
サンプルオーディオの各フレームの音響的特徴及びアノテーション情報を取得し、サンプルオーディオの各フレームのアノテーション情報に基づいて、サンプルオーディオにおける音声終了時点を決定し、音声終了時点以降の第1の所定期間より小さい第2の所定期間内におけるオーディオセグメントを無効音声セグメントとし、音声終了時点+第2の所定期間であるサンプルオーディオの第3の時点以降のフレームのアノテーション情報を第1の属性値として設定し、第3の時点−第2の所定期間であるサンプルオーディオの第4の時点と、第3の時点との間のフレームのアノテーション情報を第2の属性値として設定し、サンプルオーディオの第4の時点以降のフレームの音響的特徴及びアノテーション情報を1組の終了点訓練データとして、終了点訓練セットに追加する。
場合によっては、該装置50はさらに、提出モジュールを備えてもよい。
提出モジュールは、音声開始点フレームの開始時点を検出対象となるオーディオの音声開始点とし、音声終了点フレームの開始時点を検出対象となるオーディオの音声終了点とし、検出対象となるオーディオの音声開始点と音声終了点との間の第1のオーディオセグメントを切り取り、第1のオーディオセグメントを音声認識機器に送信する。
場合によっては、提出モジュールはさらに、
音声開始点前の第1の所定期間より大きい第3の所定期間の第2のオーディオセグメントを取得して、第2のオーディオセグメント及び第1のオーディオセグメントを音声認識機器に送信する。
本発明の実施例による装置は、具体的には、上記実施例3による方法例を実行でき、具体的な機能については、ここで詳細な説明を省略する。
本発明の実施例では、訓練コーパスにおけるいずれか1つのサンプルオーディオについて、第1の所定期間を予め設定することにより、サンプルオーディオにおける音声開始時点以降の第1の所定期間の第1の時点をサンプルオーディオの音声開始点として決定し、該サンプルオーディオの前の第1の期間の第1のオーディオセグメントを切り取り、該サンプルオーディオの音声開始点を含む第1のオーディオセグメント内の各オーディオフレームの音響的特徴及びアノテーション情報を該開始点訓練オーディオに対応する1組の開始点訓練データとして、開始点訓練セットに追加し、開始点訓練セットで訓練して得られた開始点認識モデルは、信頼区間が高く、音声開始点認識の精度を向上できる。同様に、第2の所定期間を予め設定することにより、サンプルオーディオにおける音声終了時点以降の第2の所定期間の第3の時点をサンプルオーディオの音声終了点として決定し、該サンプルオーディオの音声終了点を含む最後の第2のオーディオセグメントを切り取り、該第2のオーディオセグメント内の各オーディオフレームの音響的特徴及びアノテーション情報を該終了点訓練オーディオに対応する1組の終了点訓練データとして、終了点訓練セットに追加し、第2の所定期間を第1の所定期間より小さく設定することで、終了点認識モデルの信頼区間と応答時間を両立させることができる。
図7は、本発明の実施例7によるコンピュータ機器の構造概略図である。図7に示されるように、該装置70は、プロセッサ701、メモリ702、及びメモリ702に記憶され且つプロセッサ701により実行されるコンピュータプログラムを備える。
プロセッサ701は、メモリ702に記憶されたコンピュータプログラムを実行すると、上記いずれかの方法実施例による音声区間の認識方法を実現する。
本発明の実施例では、それぞれ開始点訓練セットと終了点訓練セットを用いて、リカレントニューラルネットワークを訓練して、開始点認識モデルと終了点認識モデルを得て、各オーディオフレームの音響的特徴と開始点認識モデルに基づいて、各オーディオフレームのうちの音声開始点フレームを認識し、それによって、終了点フレームの認識遅延時間に影響することなく、開始点フレームの認識精度をできるだけ高く確保し、各オーディオフレームの音響的特徴と終了点認識モデルに基づいて、各オーディオフレームのうちの音声終了点フレームを認識し、それによって、開始点フレームの認識精度に影響することなく、終了点フレームの認識遅延をできるだけ短く確保し、それにより、開始点フレームの認識精度を向上させると同時に、終了点フレームの認識遅延時間を短縮できる。
さらに、本発明の実施例はさらに、コンピュータプログラムが記憶されており、前記コンピュータプログラムがプロセッサにより実行されると、上記いずれかの方法実施例による音声区間の認識方法を実現する、コンピュータ読み取り可能な記憶媒体を提供する。
なお、本発明によるいくつかの実施例に開示されている装置及び方法は、その他の形態により実施することもできる。例えば、以上に説明された装置の実施例は例示的なものにすぎない。例えば、上記ユニットの分割は、論理機能上の分割にすぎず、実施する際に別の形態で分割することもでき、例えば、複数のユニット又は部品を別のシステムに組み合わせもしくは集積させたり、又は一部の特徴を反映させず、実行しなかったりしてもよい。また、説明又は検討した互いの結合又は直接的な結合又は通信接続は、いくつかのインタフェース、装置又はユニットを用いる間接的接続又は通信接続とすることもでき、電気的形態、機械的形態又はその他の形態とすることもできる。
前記分離される部品として説明されるユニットは、物理的に分離されるものでもよければ、分離されないものであってもよい。ユニットとして示される部品は、物理的なユニットであってもよいが、物理的なユニットでなくてもよい。すなわち、同一の場所に設けられるものであってもよいが、複数のネットワークユニットに配置されるものであってもよい。必要に応じて、一部のユニットだけを用いるか、又はすべてのユニットを使用して本実施例に係る発明の目的を達成することができる。
また、本発明の各実施例において、各機能ユニットが1つの処理ユニットに集積されてもよいが、各ユニットが単独で物理的な部品として存在するか、又は2つ以上のユニットが1つのユニットに集積されてもよい。上記集積ユニットはハードウェアの形態として実現されてもよいし、ハードウェアとソフトウェアを組み合わせた機能ユニットの形態として実現されてもよい
ソフトウェアの機能ユニットの形で実現された上記集積ユニットは、コンピュータ読み取り可能な記憶媒体に記憶することができる。上記ソフトウェアの機能ユニットは、記憶媒体に記憶され、コンピュータ機器(パソコン、サーバ、又はネットワーク機器など)又はプロセッサ(processor)に本発明の各実施例による前記方法の一部のステップを実行させるためのいくつかのコマンドを含む。前記記憶媒体は、USBフラッシュドライブ、モバイルハードディスク、読み出し専用メモリ(Read Only Memory、略称ROM)、ランダムアクセスメモリ(Random Access Memory、略称RAM)、磁気ディスク又はコンパクトディスクなど、プロクラムコードを記憶可能なさまざまな媒体を含む。
当業者に自明なように、説明の利便さ及び簡素化から、上記各機能モジュールの分割を例にして説明したが、実際に使用されるとき、必要に応じて、上記機能を異なる機能モジュールで完了してもよく、すなわち、装置の内部構造を異なる機能モジュールに分割して、以上に説明したすべての機能又はその部分を完成する。上記説明された装置の具体的な作動過程については、前述方法実施例における対応過程を参照すればよいため、ここで詳細な説明を省略する。
当業者が明細書に基づいて、又は、ここで開示されている発明を実施すると、本発明のほかの実施形態を容易に想到し得る。本発明は、本発明のいずれかの変形、用途又はアダプティブな変更を含むことを意図し、これらの変形、用途又はアダプティブな変更は、本発明の一般的な原理に従っており、本発明に開示されていない本技術分野における周知常識又は慣用技術手段を含む。明細書と実施例は例示的なものにすぎず、本発明の真の範囲及び精神は、添付の特許請求の範囲によって限定される。
なお、本発明は、以上に説明され且つ図面中に示される詳細な構造に制限されず、その範囲を逸脱することなく、様々な修正と変化を行うことができる。本発明の範囲は添付の特許請求の範囲だけによって限定される。

Claims (16)

  1. 音声区間の認識方法であって、
    検出対象となるオーディオの各オーディオフレームの音響的特徴を抽出するステップと、
    前記各オーディオフレームの音響的特徴、及び開始点訓練セットを用いてニューラルネットワークを訓練して得られた開始点認識モデルに基づいて、前記各オーディオフレームのうちの音声開始点フレームを認識するステップと、
    前記各オーディオフレームの音響的特徴、及び終了点訓練セットを用いてニューラルネットワークを訓練して得られた終了点認識モデルに基づいて、前記各オーディオフレームのうちの音声終了点フレームを認識するステップと、
    を含み、
    前記各オーディオフレームの音響的特徴、及び開始点訓練セットを用いてニューラルネットワークを訓練して得られた開始点認識モデルに基づいて、前記各オーディオフレームのうちの音声開始点フレームを認識する前記ステップは、
    前記オーディオフレームを順次第1のターゲットフレームとして、前記第1のターゲットフレームに対して、開始点認識処理を行うことを含み、
    前記開始点認識処理は、
    前記第1のターゲットフレームの音響的特徴を前記開始点認識モデルに入力して、前記第1のターゲットフレームが有効音声である確率値を算出することと、
    前記第1のターゲットフレームが有効音声である確率値及び第1の閾値の大きさに基づいて、前記第1のターゲットフレームが有効音声であるか否かを決定することと、
    を含み、
    前記第1のターゲットフレームが有効音声ではない場合、次のオーディオフレームを新しい第1のターゲットフレームとして、前記新しい第1のターゲットフレームに対して前記開始点認識処理を行い、
    前記第1のターゲットフレームが有効音声である場合、前記第1のターゲットフレームを音声開始点フレームとして決定する、
    ことを特徴とする音声区間の認識方法。
  2. 前記各オーディオフレームの音響的特徴、及び終了点訓練セットを用いてニューラルネットワークを訓練して得られた終了点認識モデルに基づいて、前記各オーディオフレームのうちの音声終了点フレームを認識する前記ステップは、
    前記音声開始点フレーム以降のオーディオフレームを順次第2のターゲットフレームとして、前記第2のターゲットフレームに対して、終了点認識処理を行うことを含み、
    前記終了点認識処理は、
    前記第2のターゲットフレームの音響的特徴を前記終了点認識モデルに入力して、前記第2のターゲットフレームが有効音声である確率値を算出することと、
    前記第2のターゲットフレームが有効音声である確率値及び前記第1の閾値より小さい第2の閾値の大きさに基づいて、前記第2のターゲットフレームが有効音声であるか否かを決定することと、
    を含み、
    前記第2のターゲットフレームが有効音声である場合、次のオーディオフレームを新しい第2のターゲットフレームとして、前記新しい第2のターゲットフレームに対して前記終了点認識処理を行い、
    前記第2のターゲットフレームが有効音声ではない場合、前記第2のターゲットフレームを音声終了点フレームとして決定する、
    ことを特徴とする請求項1に記載の方法。
  3. 前記開始点訓練セットは、1つの開始点訓練オーディオの各フレームの音響的特徴及びアノテーション情報を含む少なくとも1組の開始点訓練データを含み、
    前記終了点訓練セットは、1つの終了点訓練オーディオの各フレームの音響的特徴及びアノテーション情報を含む少なくとも1組の終了点訓練データを含み、
    アノテーション情報は、フレームを無効音声としてアノテーションするための第1の属性値又はフレームを有効音声としてアノテーションするための第2の属性値である、
    ことを特徴とする請求項1〜2のいずれか1項に記載の方法。
  4. 前記方法は、
    サンプルオーディオの各フレームの音響的特徴及びアノテーション情報を取得するステップと、
    前記サンプルオーディオの各フレームのアノテーション情報に基づいて、前記サンプルオーディオにおける音声開始時点を決定し、前記音声開始時点以降の第1の所定期間内におけるオーディオセグメントを有効音声セグメントとするステップと、
    前記サンプルオーディオの第1の時点前のフレームのアノテーション情報を第1の属性値として設定するステップと、
    前記サンプルオーディオの前記第1の時点と第2の時点との間のフレームのアノテーション情報を第2の属性値として設定するステップと、
    前記サンプルオーディオの前記第2の時点前のフレームの音響的特徴及びアノテーション情報を1組の開始点訓練データとして、前記開始点訓練セットに追加するステップと、
    をさらに含み、
    前記第1の時点=前記音声開始時点+前記第1の所定期間であり、
    前記第2の時点=前記第1の時点+前記第1の所定期間である
    ことを特徴とする請求項3に記載の方法。
  5. 前記方法は、
    前記サンプルオーディオの各フレームのアノテーション情報に基づいて、前記サンプルオーディオにおける音声終了時点を決定し、前記音声終了時点以降の前記第1の所定期間より小さい第2の所定期間内におけるオーディオセグメントを無効音声セグメントとするステップと、
    前記サンプルオーディオの第3の時点以降のフレームのアノテーション情報を第1の属性値として設定するステップと、
    前記サンプルオーディオの第4の時点と前記第3の時点との間のフレームのアノテーション情報を第2の属性値として設定するステップと、
    前記サンプルオーディオの前記第4の時点以降のフレームの音響的特徴及びアノテーション情報を1組の終了点訓練データとして、前記終了点訓練セットに追加するステップと、
    をさらに含み、
    前記第3の時点=前記音声終了時点+前記第2の所定期間であり、
    前記第4の時点=前記第3の時点−前記第2の所定期間である、
    ことを特徴とする請求項4に記載の方法。
  6. 前記検出対象となるオーディオの音声開始点フレーム及び音声終了点フレームを決定した後、さらに、
    前記音声開始点フレームの開始時点を前記検出対象となるオーディオの音声開始点とするステップと、
    前記音声終了点フレームの開始時点を前記検出対象となるオーディオの音声終了点とするステップと、
    前記検出対象となるオーディオの音声開始点と音声終了点との間の第1のオーディオセグメントを切り取るステップと、
    前記第1のオーディオセグメントを音声認識機器に送信するステップと、
    を含むことを特徴とする請求項4に記載の方法。
  7. 前記検出対象となるオーディオの音声開始点と音声終了点との間の第1のオーディオセグメントを切り取った後、さらに、
    前記音声開始点前の前記第1の所定期間より大きい第3の所定期間の第2のオーディオセグメントを取得して、前記第2のオーディオセグメント及び前記第1のオーディオセグメントを音声認識機器に送信するステップを含む、
    ことを特徴とする請求項6に記載の方法。
  8. 音声区間の認識装置であって、
    検出対象となるオーディオの各オーディオフレームの音響的特徴を抽出するための特徴抽出モジュールと、
    前記各オーディオフレームの音響的特徴、及び開始点訓練セットを用いてニューラルネットワークを訓練して得られた開始点認識モデルに基づいて、前記各オーディオフレームのうちの音声開始点フレームを認識するための開始点認識モジュールと、
    前記各オーディオフレームの音響的特徴、及び終了点訓練セットを用いてニューラルネットワークを訓練して得られた終了点認識モデルに基づいて、前記各オーディオフレームのうちの音声終了点フレームを認識するための終了点認識モジュールと、
    を備え、
    前記開始点認識モジュールはさらに、
    前記オーディオフレームを順次第1のターゲットフレームとして、前記第1のターゲットフレームに対して、開始点認識処理を行うのに用いられ、
    前記開始点認識処理は、
    前記第1のターゲットフレームの音響的特徴を前記開始点認識モデルに入力して、前記第1のターゲットフレームが有効音声である確率値を算出することと、
    前記第1のターゲットフレームが有効音声である確率値及び第1の閾値の大きさに基づいて、前記第1のターゲットフレームが有効音声であるか否かを決定することと、
    を含み、
    前記第1のターゲットフレームが有効音声ではない場合、次のオーディオフレームを新しい第1のターゲットフレームとして、前記新しい第1のターゲットフレームに対して前記開始点認識処理を行い、
    前記第1のターゲットフレームが有効音声である場合、前記第1のターゲットフレームを音声開始点フレームとして決定するのに用いられる、
    ことを特徴とする音声区間の認識装置。
  9. 前記終了点認識モジュールはさらに、
    前記音声開始点フレーム以降のオーディオフレームを順次第2のターゲットフレームとして、前記第2のターゲットフレームに対して、終了点認識処理を行うのに用いられ、
    前記終了点認識処理は、
    前記第2のターゲットフレームの音響的特徴を前記終了点認識モデルに入力して、前記第2のターゲットフレームが有効音声である確率値を算出することと、
    前記第2のターゲットフレームが有効音声である確率値及び前記第1の閾値より小さい第2の閾値の大きさに基づいて、前記第2のターゲットフレームが有効音声であるか否かを決定することと、
    を含み、
    前記第2のターゲットフレームが有効音声である場合、次のオーディオフレームを新しい第2のターゲットフレームとして、前記新しい第2のターゲットフレームに対して前記終了点認識処理を行い、
    前記第2のターゲットフレームが有効音声ではない場合、前記第2のターゲットフレームを音声終了点フレームとして決定するのに用いられる、
    ことを特徴とする請求項8に記載の装置。
  10. 前記開始点訓練セットは、1つの開始点訓練オーディオの各フレームの音響的特徴及びアノテーション情報を含む少なくとも1組の開始点訓練データを含み、
    前記終了点訓練セットは、1つの終了点訓練オーディオの各フレームの音響的特徴及びアノテーション情報を含む少なくとも1組の終了点訓練データを含み、
    アノテーション情報は、フレームを無効音声としてアノテーションするための第1の属性値又はフレームを有効音声としてアノテーションするための第2の属性値である、
    ことを特徴とする請求項8〜のいずれか1項に記載の装置。
  11. 前記装置は、訓練セット決定モジュールをさらに備え、
    前記訓練セット決定モジュールは、
    サンプルオーディオの各フレームの音響的特徴及びアノテーション情報を取得し、
    前記サンプルオーディオの各フレームのアノテーション情報に基づいて、前記サンプルオーディオにおける音声開始時点を決定し、前記音声開始時点以降の第1の所定期間内におけるオーディオセグメントを有効音声セグメントとし、
    前記サンプルオーディオの第1の時点前のフレームのアノテーション情報を第1の属性値として設定し、
    前記サンプルオーディオの前記第1の時点と第2の時点との間のフレームのアノテーション情報を第2の属性値として設定し、
    前記サンプルオーディオの前記第2の時点前のフレームの音響的特徴及びアノテーション情報を1組の開始点訓練データとして、前記開始点訓練セットに追加するのに用いられ、
    前記第1の時点=前記音声開始時点+前記第1の所定期間であり、
    前記第2の時点=前記第1の時点+前記第1の所定期間である
    ことを特徴とする請求項10に記載の装置。
  12. 前記訓練セット決定モジュールはさらに、
    前記サンプルオーディオの各フレームのアノテーション情報に基づいて、前記サンプルオーディオにおける音声終了時点を決定し、前記音声終了時点以降の前記第1の所定期間より小さい第2の所定期間内におけるオーディオセグメントを無効音声セグメントとし、
    前記サンプルオーディオの第3の時点以降のフレームのアノテーション情報を第1の属性値として設定し、
    前記サンプルオーディオの第4の時点と前記第3の時点との間のフレームのアノテーション情報を第2の属性値として設定し、
    前記サンプルオーディオの前記第4の時点以降のフレームの音響的特徴及びアノテーション情報を1組の終了点訓練データとして、前記終了点訓練セットに追加するのに用いられ、
    前記第3の時点=前記音声終了時点+前記第2の所定期間であり、
    前記第4の時点=前記第3の時点−前記第2の所定期間である、
    ことを特徴とする請求項11に記載の装置。
  13. 前記装置は、提出モジュールをさらに備え
    前記提出モジュールは、
    前記音声開始点フレームの開始時点を前記検出対象となるオーディオの音声開始点とし、
    前記音声終了点フレームの開始時点を前記検出対象となるオーディオの音声終了点とし、
    前記検出対象となるオーディオの音声開始点と音声終了点との間の第1のオーディオセグメントを切り取り、
    前記第1のオーディオセグメントを音声認識機器に送信するのに用いられる、
    ことを特徴とする請求項11に記載の装置。
  14. 前記提出モジュールはさらに、
    前記音声開始点前の前記第1の所定期間より大きい第3の所定期間の第2のオーディオセグメントを取得して、前記第2のオーディオセグメント及び前記第1のオーディオセグメントを音声認識機器に送信するのに用いられる、
    ことを特徴とする請求項13に記載の装置。
  15. コンピュータ機器であって、
    メモリと、プロセッサと、前記メモリに記憶され且つ前記プロセッサにおいて実行可能なコンピュータプログラムとを備え、
    前記プロセッサは、前記コンピュータプログラムを実行すると、請求項1〜7のいずれか1項に記載の方法を実現する、
    ことを特徴とするコンピュータ機器。
  16. コンピュータ読み取り可能な記憶媒体であって、
    コンピュータプログラムが記憶されており、
    前記コンピュータプログラムは、プロセッサにより実行されると、請求項1〜7のいずれか1項に記載の方法を実現することを特徴とするコンピュータ読み取り可能な記憶媒体。
JP2018244352A 2018-05-24 2018-12-27 音声区間の認識方法、装置及び機器 Active JP6800946B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810509977.4A CN108766418B (zh) 2018-05-24 2018-05-24 语音端点识别方法、装置及设备
CN201810509977.4 2018-05-24

Publications (2)

Publication Number Publication Date
JP2019204073A JP2019204073A (ja) 2019-11-28
JP6800946B2 true JP6800946B2 (ja) 2020-12-16

Family

ID=64005880

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018244352A Active JP6800946B2 (ja) 2018-05-24 2018-12-27 音声区間の認識方法、装置及び機器

Country Status (3)

Country Link
US (1) US10847179B2 (ja)
JP (1) JP6800946B2 (ja)
CN (1) CN108766418B (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11854566B2 (en) 2018-06-21 2023-12-26 Magic Leap, Inc. Wearable system speech processing
CN109545192B (zh) * 2018-12-18 2022-03-08 百度在线网络技术(北京)有限公司 用于生成模型的方法和装置
CN109545193B (zh) * 2018-12-18 2023-03-14 百度在线网络技术(北京)有限公司 用于生成模型的方法和装置
RU2761940C1 (ru) * 2018-12-18 2021-12-14 Общество С Ограниченной Ответственностью "Яндекс" Способы и электронные устройства для идентификации пользовательского высказывания по цифровому аудиосигналу
CN109616097B (zh) * 2019-01-04 2024-05-10 平安科技(深圳)有限公司 语音数据处理方法、装置、设备及存储介质
CN110085214B (zh) * 2019-02-28 2021-07-20 北京字节跳动网络技术有限公司 音频起始点检测方法和装置
WO2020180719A1 (en) * 2019-03-01 2020-09-10 Magic Leap, Inc. Determining input for speech processing engine
CN109887511A (zh) * 2019-04-24 2019-06-14 武汉水象电子科技有限公司 一种基于级联dnn的语音唤醒优化方法
US11328740B2 (en) 2019-08-07 2022-05-10 Magic Leap, Inc. Voice onset detection
CN110995938B (zh) * 2019-12-13 2022-04-26 度小满科技(北京)有限公司 数据处理方法和装置
US11917384B2 (en) 2020-03-27 2024-02-27 Magic Leap, Inc. Method of waking a device using spoken voice commands
CN111524503B (zh) * 2020-04-15 2023-01-17 上海明略人工智能(集团)有限公司 音频数据的处理方法、装置、音频识别设备和存储介质
CN113689847A (zh) * 2020-05-18 2021-11-23 阿里巴巴集团控股有限公司 语音交互方法、装置及语音芯片模组
KR20220010259A (ko) 2020-07-17 2022-01-25 삼성전자주식회사 음성 신호 처리 방법 및 장치
CN111862951B (zh) * 2020-07-23 2024-01-26 海尔优家智能科技(北京)有限公司 语音端点检测方法及装置、存储介质、电子设备
CN112435691B (zh) * 2020-10-12 2024-03-12 珠海亿智电子科技有限公司 在线语音端点检测后处理方法、装置、设备及存储介质
CN112309432A (zh) * 2020-10-27 2021-02-02 暨南大学 一种基于数据驱动的音符起始点检测方法
CN112530424A (zh) * 2020-11-23 2021-03-19 北京小米移动软件有限公司 语音处理方法及装置、电子设备、存储介质
CN112562727B (zh) * 2020-12-18 2024-04-26 科大讯飞股份有限公司 应用于音频监控的音频场景分类方法、装置以及设备
CN112882394B (zh) * 2021-01-12 2024-08-13 北京小米松果电子有限公司 设备控制方法、控制装置及可读存储介质
CN113314153B (zh) * 2021-06-22 2023-09-01 北京华捷艾米科技有限公司 语音端点检测的方法、装置、设备和存储介质
CN116364062B (zh) * 2023-05-30 2023-08-25 广州小鹏汽车科技有限公司 语音识别方法、装置及车辆
CN117877466B (zh) * 2023-12-22 2024-08-06 中国电子科技集团公司第二十八研究所 一种基于实体替换的语音数据增强方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04198997A (ja) * 1990-11-29 1992-07-20 Oki Electric Ind Co Ltd 音声認識方法
JPH1124692A (ja) * 1997-07-01 1999-01-29 Nippon Telegr & Teleph Corp <Ntt> 音声波の有音/休止区間判定方法およびその装置
US6370500B1 (en) * 1999-09-30 2002-04-09 Motorola, Inc. Method and apparatus for non-speech activity reduction of a low bit rate digital voice message
WO2007017853A1 (en) * 2005-08-08 2007-02-15 Nice Systems Ltd. Apparatus and methods for the detection of emotions in audio interactions
US8762150B2 (en) * 2010-09-16 2014-06-24 Nuance Communications, Inc. Using codec parameters for endpoint detection in speech recognition
US8756061B2 (en) * 2011-04-01 2014-06-17 Sony Computer Entertainment Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues
US9916538B2 (en) * 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection
US11074495B2 (en) * 2013-02-28 2021-07-27 Z Advanced Computing, Inc. (Zac) System and method for extremely efficient image and pattern recognition and artificial intelligence platform
JP6275606B2 (ja) * 2014-09-17 2018-02-07 株式会社東芝 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム
CN104409080B (zh) * 2014-12-15 2018-09-18 北京国双科技有限公司 语音端点检测方法和装置
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
CN105118502B (zh) * 2015-07-14 2017-05-10 百度在线网络技术(北京)有限公司 语音识别系统的端点检测方法及系统
US10235991B2 (en) * 2016-08-09 2019-03-19 Apptek, Inc. Hybrid phoneme, diphone, morpheme, and word-level deep neural networks
US10255910B2 (en) * 2016-09-16 2019-04-09 Apptek, Inc. Centered, left- and right-shifted deep neural networks and their combinations
CN106611598B (zh) * 2016-12-28 2019-08-02 上海智臻智能网络科技股份有限公司 一种vad动态参数调整方法和装置
US10347244B2 (en) * 2017-04-21 2019-07-09 Go-Vivace Inc. Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response
JP6392950B1 (ja) * 2017-08-03 2018-09-19 ヤフー株式会社 検出装置、検出方法、および検出プログラム
JP6716513B2 (ja) * 2017-08-29 2020-07-01 日本電信電話株式会社 音声区間検出装置、その方法、及びプログラム
CN107527630B (zh) * 2017-09-22 2020-12-11 百度在线网络技术(北京)有限公司 语音端点检测方法、装置和计算机设备
CN108010515B (zh) * 2017-11-21 2020-06-30 清华大学 一种语音端点检测和唤醒方法及装置

Also Published As

Publication number Publication date
JP2019204073A (ja) 2019-11-28
US10847179B2 (en) 2020-11-24
CN108766418A (zh) 2018-11-06
CN108766418B (zh) 2020-01-14
US20190362741A1 (en) 2019-11-28

Similar Documents

Publication Publication Date Title
JP6800946B2 (ja) 音声区間の認識方法、装置及び機器
US11900947B2 (en) Method and system for automatically diarising a sound recording
US9966077B2 (en) Speech recognition device and method
EP2700071B1 (en) Speech recognition using multiple language models
JP6466334B2 (ja) リアルタイム交通検出
JP6464005B2 (ja) 雑音抑圧音声認識装置およびそのプログラム
US20130030794A1 (en) Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof
US11417344B2 (en) Information processing method, information processing device, and recording medium for determining registered speakers as target speakers in speaker recognition
CN112802498B (zh) 语音检测方法、装置、计算机设备和存储介质
CN112201275B (zh) 声纹分割方法、装置、设备及可读存储介质
US20170270923A1 (en) Voice processing device and voice processing method
CN113112992A (zh) 一种语音识别方法、装置、存储介质和服务器
CN112992175B (zh) 一种语音区分方法及其语音记录装置
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
US20220108699A1 (en) Speech recognition device, search device, speech recognition method, search method, and program
JPH06266386A (ja) ワードスポッティング方法
CN112349298A (zh) 声音事件识别方法、装置、设备和存储介质
KR102655367B1 (ko) 화자 유사도 판단 방법 및 장치
CN109524026B (zh) 提示音的确定方法及装置、存储介质、电子装置
JP3322536B2 (ja) ニューラルネットワークの学習方法および音声認識装置
CN117334201A (zh) 一种声音识别方法、装置、设备以及介质
CN118658462A (zh) 语音活性检测方法、装置、设备及介质
CN117765960A (zh) 语音增强方法、系统、设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200501

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200623

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200918

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201125

R150 Certificate of patent or registration of utility model

Ref document number: 6800946

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250