JP2019211749A - 音声の始点及び終点の検出方法、装置、コンピュータ設備及びプログラム - Google Patents

音声の始点及び終点の検出方法、装置、コンピュータ設備及びプログラム Download PDF

Info

Publication number
JP2019211749A
JP2019211749A JP2018244676A JP2018244676A JP2019211749A JP 2019211749 A JP2019211749 A JP 2019211749A JP 2018244676 A JP2018244676 A JP 2018244676A JP 2018244676 A JP2018244676 A JP 2018244676A JP 2019211749 A JP2019211749 A JP 2019211749A
Authority
JP
Japan
Prior art keywords
voice
speech
state
start point
end point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018244676A
Other languages
English (en)
Other versions
JP6759509B2 (ja
Inventor
リ、チャオ
Chao Li
チュウ、ウェイシン
Weixin Zhu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2019211749A publication Critical patent/JP2019211749A/ja
Application granted granted Critical
Publication of JP6759509B2 publication Critical patent/JP6759509B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】音声の始点及び終点の検出結果の確度等を向上することができる装置、コンピュータ設備及び記憶媒体を提供する。【解決手段】検出装置において、検出モジュール901及び訓練モジュール902を有する。検出モジュールの分割手段9012は、第1の取得手段9011から検出待ちの音声データを取得した後、音声データを複数の音声断片に分割し、その後、確定手段9013は、音声活動検出モデルに基づいて、各音声断片の音声状態をそれぞれに確定し、更に音声状態に基づいて、音声データの始点及び終点を確定する。分割した各音声断片に対して、確定手段9013は、音声活動検出モデルによって音声断片に対して分類を行い、音声活動検出モデルの出力に基づいて、ビタビ復号アルゴリズムによって音声断片の音声状態を確定する。【選択図】図9

Description

本発明は、音声処理技術に関するものであり、特に音声の始点及び終点の検出方法、装置、コンピュータ設備及びプログラムに関するものである。
技術の発展に従って、各々音声インタラクション機能を具備する製品、例えばスマートスピーカボックス、スマートテレビ、スマート冷蔵庫等が登場している。
音声インタラクションにおいて、非常に重要な点が、音声の始点及び終点を検出することができるものである。
始点を検出する必要性は、真正な音声を抽出できることにあり、例えば、スマートスピーカボックスはずっと待機状態であり、常に環境における音声をモニタリングしており、音声データに関してフレーム毎に音声認識の処理が行われば、システムに多い電力を消費するが、音声の始点を検出することによって、システムに人の話がある断片だけを注目させ、ほかの例えばノイズを処理しない。
終点を検出する必要性は、ユーザが要求を話した時、システムが早く反応する必要があるので、遅延があると、ユーザにより「システムの反応が遅い」等の文句を言い、例えば、ユーザが「今日の北京の天気」という要求を発した時、ユーザが要求を話した直後にシステムが「今日は北京が曇っている」等と答えることを希望する、ということにある。
従来の技術において、音声の始点及び終点を検出する様々な方法、例えば信号処理の方法に基づく方法や分類モデルによって検出を行う方法等を提出した。しかし、これらの方法は、いずれも比較的に検出エラーが発生しやすく、例えば始点の誤報や遺漏及び終点の誤報や遺漏等が発生しやすい。
そのうち、始点の誤報は以下のような場合を含む。即ち、ノイズを音声に分類することで、ノイズをバックグラウンドの音声認識器に伝送し、更にシステムの消費電力が増加し、バックグラウンドがクラウド端に位置すれば、トラフィックも増加する。
始点の遺漏は以下のような場合を含む。即ち、音声の始点が検出されていないので、いずれの音声もバックグラウンドの音声認識器に伝送されなく、このような状況が常に発生し、例えばユーザの話し声が非常に小さいので、ユーザの小声な話しを背景ノイズとして処理し間違って、バックグラウンドの音声認識器がいずれの音声も受信できない。
終点の誤報は以下のような場合を含む。即ち、早く終了し、即ちユーザが話し終わっていないが、終わったと考えされ、このような状況が、ユーザの話しが「始めは勢いがあるが終わりは振るわない」の場合に常に発生し、例えば音がいよいよ小さくなる場合に、又は、ユーザの話しは長い時間のポーズがあり、例えばユーザが「今日の北京の天気」を話した後、大きく息をして、次に「外出して山に登るに適するか」を話す場合に、終点の検出が余りに敏感したら、2つの話しに分けて処理する。
終点の遺漏は以下のような場合を含む。即ち、長時間でも終了しなく、このような状況は環境が比較的に騒々しい場合に常に発生し、ユーザの話しが終わったが、背景ノイズが比較的に強いので終了しなく、結果として、ユーザが「今日、北京の天気がどうですか」を話してから、ずっとシステムの反応を待つ。
誤報及び遺漏のいずれかが発生しても、検出結果の確度が低下してしまう。
そこで、本発明は、音声の始点及び終点の検出方法、装置、コンピュータ設備及びプログラムを提供する。
具体的な技術案は、以下とおりである。
音声の始点及び終点の検出方法であって、検出待ちの音声データを取得すること、上記音声データを、数が1より多い音声断片に分割すること、予めに訓練した音声活動検出モデルに基づいて、各音声断片の音声状態をそれぞれに確定すること、上記音声状態に基づいて、上記音声データの始点及び終点を確定すること、を含む。
本発明の1つの好ましい実施例によると、少なくとも隣接する2つの音声断片の間に重畳が存在する。
本発明の1つの好ましい実施例によると、前記音声活動検出モデルは、畳み込みニューラルネットワークモデルを含む。
本発明の1つの好ましい実施例によると、上記予めに訓練した音声活動検出モデルに基づいて、各音声断片の音声状態をそれぞれに確定することは、上記音声活動検出モデルによって上記音声断片に対して分類を行うこと、上記音声活動検出モデルの出力に基づいて、ビタビ復号アルゴリズムによって上記音声断片の音声状態を確定すること、を含む。
本発明の1つの好ましい実施例によると、訓練することによって上記音声活動検出モデルを取得することは、訓練データとする音声データを取得すること、取得された音声データ毎からN(Nが1以上の正の整数である)個の異なる音声状態のサンプル断片をそれぞれに抽出すること、抽出されたサンプル断片に基づいて訓練して上記音声活動検出モデルを取得すること、を含む。
本発明の1つの好ましい実施例によると、上記取得された音声データ毎からN個の異なる音声状態のサンプル断片をそれぞれに抽出することは、音声データ毎にそれぞれに上記音声データの音声フレーム及び非音声フレームに関するラベリング結果を取得すること、上記ラベリング結果に基づいて、上記音声データからN個の異なる音声状態のサンプル断片を抽出すること、を含む。
本発明の1つの好ましい実施例によると、上記音声状態は、静音状態、始点状態、音声保持状態及び終点状態を含む。
本発明の1つの好ましい実施例によると、上記取得された音声データ毎からN個の異なる音声状態のサンプル断片をそれぞれに抽出することは、取得された音声データ毎からランダムにN個の異なる音声状態のサンプル断片をそれぞれに抽出すること、を含み、そのうち、上記始点状態のサンプル断片において、音声の始点が上記サンプル断片の前半部分に位置し、且つ上記サンプル断片の始点との距離が予定閾値より大きく、上記終点状態のサンプル断片において、音声の終点が上記サンプル断片の前半部分に位置し、且つ上記サンプル断片の始点との距離が予定閾値より大きい。
本発明の1つの好ましい実施例によると、上記音声状態に基づいて、上記音声データの始点及び終点を確定することは、上記音声データにおける第1の始点状態の音声断片及び第1の終点状態の音声断片に基づいて、上記音声データの始点及び終点を確定することを含む。
音声の始点及び終点の検出装置であって、検出モジュールを含み、上記検出モジュールには、第1の取得手段と、分割手段と、確定手段とを含み、上記第1の取得手段が、検出待ちの音声データを取得するために用いられ、上記分割手段が、上記音声データを、数が1より多い音声断片に分割するために用いられ、上記確定手段が、予めに訓練した音声活動検出モデルに基づいて、各音声断片の音声状態をそれぞれに確定し、上記音声状態に基づいて上記音声データの始点及び終点を確定するために用いられる。
本発明の1つの好ましい実施例によると、少なくとも隣接する2つの音声断片の間に重畳が存在する。
本発明の1つの好ましい実施例によると、上記音声活動検出モデルは、畳み込みニューラルネットワークモデルを含む。
本発明の1つの好ましい実施例によると、上記確定手段は、上記音声活動検出モデルによって上記音声断片に対して分類を行い、上記音声活動検出モデルの出力に基づいて、ビタビ復号アルゴリズムによって上記音声断片の音声状態を確定するために用いられる。
本発明の1つの好ましい実施例によると、上記音声の始点及び終点の検出装置には訓練モジュールを更に含み、上記訓練モジュールには、第2の取得手段と、抽出手段と、訓練手段とを含み、上記第2の取得手段が、訓練データとする音声データを取得するために用いられ、上記抽出手段が、取得された音声データ毎からN(Nが1以上の正の整数である)個の異なる音声状態のサンプル断片をそれぞれに抽出することに用いられ、上記訓練手段が、抽出されたサンプル断片に基づいて訓練して上記音声活動検出モデルを取得することに用いられる。
本発明の1つの好ましい実施例によると、上記抽出手段は、更に、音声データ毎にそれぞれに上記音声データの音声フレーム及び非音声フレームに関するラベリング結果を取得し、上記ラベリング結果に基づいて、上記音声データからN個の異なる音声状態のサンプル断片を抽出するために用いられる。
本発明の1つの好ましい実施例によると、上記音声状態は、静音状態、始点状態、音声保持状態及び終点状態を含む。
本発明の1つの好ましい実施例によると、上記抽出手段は、取得された音声データ毎からランダムにN個の異なる音声状態のサンプル断片をそれぞれに抽出し、そのうち、上記始点状態のサンプル断片において、音声の始点が上記サンプル断片の前半部分に位置し、且つ上記サンプル断片の始点との距離が予定閾値より大きく、上記終点状態のサンプル断片において、音声の終点が上記サンプル断片の前半部分に位置し、且つ上記サンプル断片の始点との距離が予定閾値より大きい。
本発明の1つの好ましい実施例によると、上記確定手段は、上記音声データにおける第1の始点状態の音声断片及び第1の終点状態の音声断片に基づいて、上記音声データの始点及び終点を確定する。
メモリ、プロセッサ及び上記メモリに記憶され上記プロセッサに実行されるコンピュータプログラムを含むコンピュータ設備であって、上記プロセッサによって上記コンピュータプログラムが実行される時、上記音声の始点及び終点の検出方法を実現する。
コンピュータプログラムが記憶されているコンピュータ読取り可能な記憶媒体であって、上記プログラムがプロセッサによって実行される時、上記音声の始点及び終点の検出方法を実現する。
上記説明から分かるように、本発明に係る技術案を採用すれば、検出待ちの音声データを取得した後、まず音声データを複数の音声断片に分割し、その後、予めに訓練した音声活動検出モデルに基づいて、それぞれに各音声断片の音声状態を確定することができ、更に音声状態に基づいて音声データの始点及び終点を確定することができ、従来の技術に比べて、本発明の上記技術案において断片レベルの分類及び深層学習モデル等を結合して始点及び終点の検出を行うことで、検出結果の確度を向上した。
本発明に係る音声の始点及び終点の検出方法の実施例のフローチャートである。 既存の1つの音声データのスペクトログラム図である。 本発明に係る各状態の模式図である。 本発明に係る静音状態のサンプル断片の抽出方式の模式図である。 本発明に係る始点状態のサンプル断片の抽出方式の模式図である。 本発明に係る音声保持状態のサンプル断片の抽出方式の模式図である。 本発明に係る終点状態のサンプル断片の抽出方式の模式図である。 本発明に係る抽出された4つのサンプル断片の模式図である。 本発明に係る音声の始点及び終点の検出装置の実施例の構成模式図である。 本発明の実施形態を実現することに適する、例示的なコンピュータシステム/サーバ12のブロック図を示す。
本発明の技術案をより明確で簡潔させるために、以下、図面を参照して実施例を挙げて、本発明に係る技術案を詳しく説明する。
明らかに、ここで記載された実施例は本発明の実施例の一部だけであり、全ての実施例ではない。本発明における実施例に基づいて、当業者が創造的な労働をしないことを前提として獲得できる他の実施例は、いずれも本発明の保護範囲に属する。
図1は、本発明に係る音声の始点及び終点の検出方法の実施例のフローチャートである。図1に示すように、以下の具体的な実現方式を含む。
101において、検出待ちの音声データを取得する。
102において、音声データを、数が1より多い音声断片に分割する。
103において、予めに訓練した音声活動検出(VAD,Voice Activity Detection)モデルに基づいて、各音声断片の音声状態をそれぞれに確定する。
104において、音声状態に基づいて、音声データの始点及び終点を確定する。
1つの音声データにおいて、一般、以下のような4つの状態を含む。
ノイズを含む可能性があるものである静音、
ユーザが話し始めるものである音声の始点、
ユーザが話しており、微弱なポーズを含む可能性があるものである音声の保持、
ユーザの話しが終了したものである音声の終点。
図2は、既存の1つの音声データのスペクトログラム図である。図3は、本発明に係る各状態の模式図である。図3に示したように、図2に示すスペクトログラム図に対して、1でユーザの話しがあることを表し、0でユーザの話しがないことを表し、A、B、C、Dは、それぞれに静音、音声の始点、音声の保持及び音声の終点等の状態を表す。
図1に示すフローを実現するために、まずモデル訓練を行い、即ち、訓練して音声活動検出モデルを取得する必要がある。訓練過程とは、訓練データを整理し抽象することによって、訓練集合に収束する1つのモデルを訓練することである。その後、訓練したモデルを実際的な応用に用いて音声の始点及び終点を検出することができる。
図3に示すように、一般に、1条の音声データにおいて、静音状態A及び音声保持状態Cの続き時間がより長く、始点状態B及び終点状態Dが1つだけであるので、1条の音声データ全体を使用して訓練すれば、B及びDという2つの状態にとっては非常に不利であり、それらによって発生したコストが、A及びCの状態にカーバされる可能性が高いので、本実施例において、断片レベルの分類を採用し、それを基礎として訓練及び検出を行う。
そのうち、訓練して音声活動検出モデルを取得するために、まず訓練データとする音声データを取得した後に、取得された毎音声データからN個の異なる音声状態のサンプル断片をそれぞれに抽出し、更に抽出されたサンプル断片に基づいて訓練して音声活動検出モデルを得ることができ、Nが1より大きい正の整数である。
Nの具体的な値が、実際的な必要に応じて確定することができ、好ましく、上記記載のようにNの値を4とすることができ、4つの音声状態はそれぞれ静音状態、始点状態、音声保持状態及び終点状態である。
例えば、10,000条の音声データを取得することができ、1条の音声データが約数秒の長さである。音声データ毎に、まず、音声データの音声フレーム及び非音声フレームに関するラベリング結果をそれぞれに取得することができる。人工的にラベリングする方式を採用してラベリング結果を獲得してもよく、音声認識における機械強制アライメントという方式を採用してラベリング結果を獲得してもよく、音声フレームであれば1とラベリングし、非音声フレームであれば0とラベリングすることができる。
その後、ラベリング結果に基づいて、毎音声データから4つの異なる音声状態のサンプル断片をそれぞれに抽出することができ、具体的な抽出方式は、以下とおりである。
1)静音状態のサンプル断片
図4は、本発明に係る静音状態のサンプル断片の抽出方式の模式図である。図4に示すように、音声データからランダムに1段の静音断片を抽出して、静音状態のサンプル断片とすることができ、サンプル断片は、0とラベリングられたフレームからなる。
2)始点状態のサンプル断片
図5は、本発明に係る始点状態のサンプル断片の抽出方式の模式図である。図5に示すように、音声データからランダムに1段の音声の始点を含む断片を抽出して、始点状態のサンプル断片とすることができ、サンプル断片は、0及び1とラベリングされたフレームからなる。
好ましく、音声の始点はサンプル断片の前半部分に位置し、且つサンプル断片の始点との距離が予定閾値より大きい、即ち音声の始点はサンプル断片の前半部分に位置する必要があるが、あまり先に位置することではなく、例えば、0.25〜0.5という範囲に位置することができ、0.25がサンプル断片の長さの1/4の位置を表し、0.5がサンプル断片の長さの1/2の位置を表す。
実験で分かるように、上記方式に従って取得されたサンプル断片の方が、より後続のモデル訓練に適し、モデル訓練の効果を更に向上することができる。
3)音声保持状態のサンプル断片
図6は、本発明に係る音声保持状態のサンプル断片の抽出方式の模式図である。図6に示すように、音声データからランダムに1段の音声断片を抽出して、音声保持状態のサンプル断片とすることができ、サンプル断片は、1とラベリングされたフレームからなる。
4)終点状態のサンプル断片
図7は、本発明に係る終点状態のサンプル断片の抽出方式の模式図である。図7に示すように、音声データからランダムに1段の音声の終点を含む断片を抽出して、終点状態のサンプル断片とすることができ、サンプル断片は、0及び1とラベリングされたフレームからなる。
好ましく、音声の終点はサンプル断片の前半部分に位置し、且つサンプル断片の始点との距離が予定閾値より大きい、即ち音声の終点はサンプル断片の前半部分に位置する必要があるが、あまり先に位置することではなく、例えば、0.25〜0.5という範囲に位置することができ、0.25がサンプル断片の長さの1/4の位置を表し、0.5がサンプル断片の長さの1/2の位置を表す。
図8は、本発明に係る抽出された4つのサンプル断片の模式図である。図8に示すように、抽出された各サンプル断片を纏めて、4つのサンプル断片を得ることができ、それぞれに静音状態のサンプル断片、始点状態のサンプル断片、音声保持状態のサンプル断片及び終点状態のサンプル断片である。
このように、音声データ毎に、4つのサンプル断片をそれぞれに取得することができ、更に、サンプル断片毎に、1つの訓練pair{x,y}をそれぞれに生成することができ、そのうち、xが特徴であり、yがラベル(label)、即ち音声状態(分類結果)である。
上記特徴及び各サンプル断片の長さ等は、いずれも実際的な必要に応じて確定することができ、各サンプル断片の長さが同じでもよい。
例えば、フレーム長さが25ms、フレームシャフトが10ms、メルフィルタバンク(mel filterbank)が64次元であるという特徴を採用することができ、もちろん、フレーム長、フレームシャフトが他の値でもよく、特徴は、他の音響特徴、例えばメル周波数ケプストラム係数(MFCC,Mel−frequency Cepstrum Coefficients)、知覚線形予測係数(PLP,Perceptual Linear Predictive)等で代替してもよい。また、context=32を採用しておよく、更に大きくなってもよく、原則では、大きいほど正確であるが、時間上の遅延を齎す。
すべての音声データを処理した後、全体の訓練pairを取得することができ、全体の訓練pairに基づいて訓練して音声活動検出モデルを取得することができる。
深層ニューラルネットワークを音声活動検出モデルとして採用することができ、好ましく、畳み込みニューラルネットワーク(CNN,Convolutional Neural Network)モデルを採用することができる。ネットワークは、複数の層のcnnの積層からなり、出力層が4つのノードであり、softmaxがアクティブとし、交差エントロピーをコスト関数として採用する。どのように訓練を行うことは、従来の技術である。
音声活動検出モデルの訓練を完成した後、該モデルによって実際的に音声の始点及び終点の検出を行うことができる。
具体的に、検出待ちの音声データを取得した後、まず音声データを複数の音声断片に分割し、その後、音声活動検出モデルに基づいて各音声断片の音声状態をそれぞれに確定し、更に音声状態に基づいて音声データの始点及び終点を確定することができる。
検出待ちの音声データを、重畳がある幾つかの音声断片に分割することができ、即ち少なくとも隣接している2つの音声断片の間に重畳が存在する。例えば、32フレーム毎に1つの音声断片とし、8フレームおきに1つのこのような音声断片を取得することができ、即ち第1〜32のフレームを1つの音声断片とし、第9〜40のフレームを1つの音声断片とし、このように類推する。
分割した各音声断片に対して、それぞれに音声活動検出モデルによって音声断片に対して分類し、音声活動検出モデルの出力に基づいて、ビタビ復号アルゴリズムによって音声断片の音声状態を確定することができる。
具体的に、音声断片の特徴を取得し、取得された特徴を4つの状態の音声活動検出モデルへ入力して分類を行い、確率出力hを取得し、その後、確率出力hに基づいて、ビタビ復号アルゴリズムによって音声断片の音声状態を確定することができ、上記ビタビ復号アルゴリズムは標準的なビタビ復号アルゴリズムであり、具体な実現が従来の技術である。
正常な1つの音声データについては、順次、静音状態−始点状態−音声保持状態−終点状態という階段を通過し、各状態のジャンプは必ず連続である。
相応に、音声データにおける第1の始点状態の音声断片及び第1の終点状態の音声断片に基づいて、音声データの始点及び終点を確定し、例えば第1の始点状態の音声断片と第1の終点状態の音声断片及び両者の間の音声データを本当の音声として抽出し、音声認識等の後続処理を行うことができる。
注意すべきことは、上記方法の実施例に関して、説明を簡単させるために、それを一連の動作の組み合わせとして表現したが、本開示によれば、あるステップが他の順序でまたは同時に行うことができるので、当業者であれば、本開示は記述された動作の順序によって制限されないことを理解すべきことである。そして、明細書に記載された実施例はいずれも好ましい実施例だけであり、係る動作及びモジュールが、本発明にとっては必ずしも必要とは限らないことが、当業者であれば理解すべきである。
要するに、上記方法の実施例に係る技術案において、断片レベルの分類及び深層学習モデル等を結合して始点及び終点の検出を行うことで、検出結果の確度等を向上した。
以上は方法の実施例に関する説明であり、以下、装置の実施例によって、本発明に係る技術案を更に説明する。
図9は、本発明に係る音声の始点及び終点の検出装置の実施例の構成模式図である。図9に示すように、検出モジュール901を含み、該検出モジュール901は、具体的に、第1の取得手段9011、分割手段9012及び確定手段9013を含むことができる。
第1の取得手段9011は、検出待ちの音声データを取得するために用いられる。
分割手段9012は、音声データを、数が1より多い音声断片に分割するために用いられる。
確定手段9013は、予めに訓練した音声活動検出モデルに基づいて、各音声断片の音声状態をそれぞれに確定し、音声状態に基づいて音声データの始点及び終点を確定するために用いられる。
上記操作を実現するために、まずモデル訓練を行い、即ち、訓練して音声活動検出モデルを取得する必要がある。相応に、図9に示す装置において、訓練モジュール902を更に含む。該訓練モジュール902は、具体的に、第2の取得手段9021、抽出手段9022及び訓練手段9023を含むことができる。
第2の取得手段9021は、訓練データとする音声データを取得するために用いられる。
抽出手段9022は、取得された音声データ毎からN個の異なる音声状態のサンプル断片をそれぞれに抽出するために用いられし、Nが1より大きい正の整数である。
訓練手段9023は、抽出されたサンプル断片に基づいて訓練して音声活動検出モデルを得るために用いられる。
Nの具体的な値が、実際的な必要に応じて確定することができ、好ましく、Nの値を4とすることができ、4つの音声状態はそれぞれ静音状態、始点状態、音声保持状態及び終点状態であることができる。
例えば、第2の取得手段9021は、10,000条の音声データを取得することができ、1条の音声データが約数秒の長さである。音声データ毎に、抽出手段9022は、まず、音声データの音声フレーム及び非音声フレームに関するラベリング結果をそれぞれに取得することができ、例えば、音声フレームであれば1とラベリングし、非音声フレームであれば0とラベリングすることができ、その後、ラベリング結果に基づいて、音声データから4つの異なる音声状態のサンプル断片を抽出することができる。
抽出手段9022は、取得された音声データ毎からランダムに4つの異なる音声状態のサンプル断片、即ち静音状態のサンプル断片、始点状態のサンプル断片、音声保持状態のサンプル断片及び終点状態のサンプル断片をそれぞれに抽出することができる。
そのうち、始点状態のサンプル断片において、音声の始点はサンプル断片の前半部分に位置し、且つサンプル断片の始点との距離が予定閾値より大きい。終点状態のサンプル断片において、音声の終点はサンプル断片の前半部分に位置し、且つサンプル断片の始点との距離が予定閾値より大きい。
このようにして、音声データ毎に、4つのサンプル断片をそれぞれに取得することができ、更に、訓練手段9023は、サンプル断片毎に、それぞれに1つの訓練pair{x,y}を生成することができ、そのうち、xが特徴であり、yがlabel、即ち音声状態(分類結果)であり、すべての音声データを処理した後、全体の訓練pairを取得することができ、更に全体の訓練pairに基づいて訓練して音声活動検出モデルを得ることができる。
深層ニューラルネットワークを音声活動検出モデルとして採用することができ、好ましく、畳み込みニューラルネットワークモデルを採用することができる。
音声活動検出モデルの訓練を完成した後、該モデルによって実際的に音声の始点及び終点の検出を行うことができる。
分割手段9012は、第1の取得手段9011から検出待ちの音声データを取得した後、音声データを複数の音声断片に分割することができ、その後、確定手段9013は、音声活動検出モデルに基づいて、各音声断片の音声状態をそれぞれに確定することができ、更に音声状態に基づいて、音声データの始点及び終点を確定することができる。
分割手段9012は、検出待ちの音声データを重畳がある幾つかの音声断片に分割することができ、即ち少なくとも隣接する2つの音声断片の間に重畳が存在する。例えば、32フレーム毎に1つの音声断片とし、8フレームおきに1つのこのような音声断片を取得することができる。
分割した各音声断片に対して、確定手段9013は、音声活動検出モデルによって音声断片に対して分類を行い、音声活動検出モデルの出力に基づいて、ビタビ復号アルゴリズムによって音声断片の音声状態を確定することができる。
具体的に、音声断片の特徴を取得し、取得された特徴を4つの状態の音声活動検出モデルへ入力して分類を行い、確率出力hを得ることができ、その後、確率出力hに基づいて、ビタビ復号アルゴリズムによって音声断片の音声状態を確定することができ、上記ビタビ復号アルゴリズムは標準なビタビ復号アルゴリズムであり、具体な実現が従来の技術である。
更に、確定手段9013は、音声データにおける第1の始点状態の音声断片及び第1の終点状態の音声断片に基づいて、音声データの始点及び終点を確定し、例えば第1の始点状態の音声断片と第1の終点状態の音声断片及び両者の間の音声データを本当な音声として抽出し、音声認識等の後続処理を行うことができる。
図9に示すように、装置の実施例の具体的なワークフローは、上記方法の実施例における相応説明を参照することができ、ここで贅言しない。
図10は、本発明の実施形態を実現することに適する、例示的なコンピュータシステム/サーバ12のブロック図を示す。図10に示すコンピュータシステム/サーバ12は、1つの例だけであり、本発明の実施例の機能及び使用範囲を制限するものではない。
図10に示すように、コンピュータシステム/サーバ12は、汎用演算設備の形態で表現される。コンピュータシステム/サーバ12の構成要素は、1つ又は複数のプロセッサ16(処理手段)と、メモリ28と、異なるシステム構成要素(メモリ28とプロセッサ16とを含む)を接続するためのバス18を含んでいるが、これに限定されない。
バス18は、複数種類のバス構成の中の1つ又は複数の種類を示し、メモリバス又はメモリコントローラ、周辺バス、グラフィック加速ポート、プロセッサ又は複数種類のバス構成でのいずれかのバス構成を使用したローカルバスを含む。例えば、それらの架構は、工業標準架構(IS)バス、マイクロチャンネル架構(MC)バス、増強型ISバス、ビデオ電子規格協会(VES)ローカルバス及び周辺コンポーネント接続(PCI)バスを含んでいるが、これに限定されない。
コンピュータシステム/サーバ12には、典型的には複数のコンピュータシステム読取り可能な媒体を含む。それらの媒体は、コンピュータシステム/サーバ12にアクセスされて使用可能な任意な媒体であり、揮発性の媒体と不揮発性の媒体や移動可能な媒体と移動不可な媒体を含む。
メモリ28は、揮発性メモリ形式のコンピュータシステム読取り可能な媒体、例えばランダムアクセスメモリ(RAM)30及び/又はキャッシュメモリ32を含むことができる。コンピュータシステム/サーバ12は、更に他の移動可能/移動不可なコンピュータシステム記憶媒体や揮発性/不揮発性のコンピュータシステム記憶媒体を含むことができる。例だけとして、ストレジ34は、移動不可能な不揮発性磁媒体を読み書くために用いられる(図10に示していないが、常に「ハードディスクドライブ」とも呼ばれる)。図10に示していないが、移動可能な不揮発性磁気ディスク(例えば「フレキシブルディスク」)に対して読み書きを行うための磁気ディスクドライブ、及び移動可能な不揮発性光ディスク(例えばCD−ROM、DVD−ROM又は他の光媒体)に対して読み書きを行うための光ディスクドライブを提供できる。このような場合に、ドライブは、それぞれに1つ又は複数のデータ媒体インターフェースによってバス18に接続される。メモリ28には少なくとも1つのプログラム製品を含み、該プログラム製品には1組の(例えば少なくとも1つの)プログラムモジュールを含み、それらのプログラムモジュールは、本発明の各実施例の機能を実行するように配置される。
1組の(少なくとも1つの)プログラムモジュール42を含むプログラム/実用ツール40は、例えばメモリ28に記憶され、このようなプログラムモジュール42には、オペレーティングシステム、1つの又は複数のアプリケーションプログラム、他のプログラムモジュール及びプログラムデータを含んでいるが、これに限定しておらず、それらの例示における1つ又はある組み合にはネットワーク環境の実現を含む可能性がある。プログラムモジュール42は、常に本発明に記載されている実施例における機能及び/或いは方法を実行する。
コンピュータシステム/サーバ12は、1つ又は複数の周辺設備14(例えばキーボード、ポインティングデバイス、ディスプレイ24等)と通信を行ってもよく、ユーザと該コンピュータシステム/サーバ12とのインタラクティブを実現することができる1つ又は複数の設備と通信を行ってもよく、及び/又は該コンピュータシステム/サーバ12と1つ又は複数の他の演算設備との通信を実現することができるいずれの設備(例えばネットワークカード、モデム等)と通信を行っても良い。このような通信は入力/出力(I/O)インターフェース22によって行うことができる。そして、コンピュータシステム/サーバ12は、ネットワークアダプタ20によって1つ又は複数のネットワーク(例えばローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)及び/又は公衆回線網、例えばインターネット)と通信を行っても良い。図10に示すように、ネットワークアダプタ20は、バス18によってコンピュータシステム/サーバ12の他のモジュールと通信を行う。もちろん、図に示していないが、コンピュータシステム/サーバ12と連携して他のハードウェア及び/又はソフトウェアモジュールを使用することができ、マイクロコード、設備ドライブ、冗長処理手段、外部磁気ディスクドライブアレイ、RIDシステム、磁気テープドライブ及びデータバックアップストレジ等を含むが、これに限定されない。
プロセッサ16は、メモリ28に記憶したプログラムを実行することで、各々機能応用及びデータ処理を実行し、例えば図1に示す実施例における方法を実現する。
本発明は、コンピュータプログラムを記憶したコンピュータ読取り可能な記憶媒体を同時に開示し、該プログラムがプロセッサによって実行される時、図1に示す実施例における方法を実現する。
本実施例のコンピュータ読取り可能な媒体は、1つ又は複数のコンピューター読取り可能な媒体の任意な組合を採用しても良い。コンピューター読取り可能な媒体は、コンピューター読取り可能な信号媒体又はコンピューター読取り可能な記憶媒体である。コンピューター読取り可能な記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、又は半導体のシステム、装置又はデバイス、或いは上記ものの任意な組合であるが、これに限定されない。コンピューター読取り可能な記憶媒体の更なる具体的な例(網羅していないリスト)には、1つ又は複数のワイヤを具備する電気的な接続、携帯式コンピュータ磁気ディスク、ハードディクス、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュ)、光ファイバー、携帯式コンパクト磁気ディスクリードオンリーメモリ(CD−ROM)、光メモリ部材、磁気メモリ部材、又は上記ものの任意で適当な組合を含む。本願において、コンピューター読取り可能な記憶媒体は、プログラムを含む又は記憶する任意な有形媒体であってもよく、該プログラムは、命令実行システム、装置又はデバイスに使用される又はそれらと連携して使用されるができる。
コンピューター読取り可能な信号媒体には、ベースバンドにおいて伝搬されるデータ信号或いはキャリアの一部として伝搬されるデータ信号を含み、それにコンピューター読取り可能なプログラムコードが載っている。このような伝搬されるデータ信号について、複数種類の形態を採用でき、電磁気信号、光信号又はそれらの任意で適当な組合を含んでいるが、これに限定されない。コンピューター読取り可能な信号媒体は、コンピューター読取り可能な記憶媒体以外の任意なコンピューター読取り可能な媒体であってもよく、該コンピューター読取り可能な媒体は、命令実行システム、装置又はデバイスによって使用される又はそれと連携して使用されるプログラムを送信、伝搬又は転送できる。
コンピューター読取り可能な媒体に記憶されたプログラムコードは、任意で適正な媒体によって転送されてもよく、無線、電線、光ケーブル、RF等又は上記ものの任意で適当な組合が含まれているが、これに限定されない。
1つ又は複数のプログラミング言語又はそれらの組合で、本発明の操作を実行するためのコンピュータプログラムコードを編集することができ、上記プログラミング言語には、オブジェクト向けのプログラミング言語、例えばJava(登録商標)、Smalltalk、C++が含まれ、通常のプロシージャ向けプログラミング言語、例えば「C」言語又は類似しているプログラミング言語も含まれる。プログラムコードは、完全的にユーザコンピュータに実行されてもよく、部分的にユーザコンピュータに実行されてもよく、1つの独立のソフトウェアパッケージとして実行されてもよく、部分的にユーザコンピュータに実行され且つ部分的に遠隔コンピュータに実行されてもよく、又は完全的に遠隔コンピュータ又はサーバに実行されてもよい。遠隔コンピュータに係る場合に、遠隔コンピュータは、ローカルエリアネットワーク(LAN)又は広域ネットワーク(WAN)を含む任意の種類のネットワークを介して、ユーザコンピュータ、又は、外部コンピュータに接続できる(例えば、インターネットサービス事業者を利用してインターネットを介して接続できる)。
本発明に開示されたいくつの実施例で開示された装置および方法などが、他の手段によって実現できることを理解すべきだ。例えば、上述の装置に関する実施形態は例示だけであり、例えば、上記手段の区分がロジック機能上の区分だけであり、実際的に実現する時、他の区分方式であってもよい。
上記分離部品として説明された手段が、物理的に分離されてもよく、物理的に分離されなくてもよく、手段として表される部品が、物理手段でもよく、物理手段でなくてもよく、1つの箇所に位置してもよく、又は複数のネットワークセルに分布されても良い。実際な必要に基づいて、その中の一部又は全部を選択して、本実施例の態様の目的を実現することができる。
また、本発明の各実施例における各機能手段が1つの処理手段に集積されてもよく、各手段が物理的に独立に存在してもよく、2つ又は2つ以上の手段が1つの手段に集積されても良い。上記集積された手段は、ハードウェアの形式で実現してもよく、ハードウェア+ソフトウェア機能手段の形式で実現しても良い。
上記ソフトウェア機能手段の形式で実現する集積された手段は、1つのコンピューター読取り可能な記憶媒体に記憶されることができる。上記ソフトウェア機能手段は1つの記憶媒体に記憶されており、1台のコンピュータ設備(パソコン、サーバ、又はネットワーク設備等)又はプロセッサ(processor)に本発明の各実施例に記載された方法の一部の手順を実行させるための若干の命令を含む。上記記憶媒体は、USBメモリ、リムーバブルハードディスク、リードオンリーメモリ(ROM,Read−Only Memory)、ランダムアクセスメモリ(RAM,Random Access Memory)、磁気ディスク又は光ディスク等のプログラムコードを記憶できる媒体を含む。
以上の説明は、本発明の好ましい実施例だけであり、本発明を限定するものではなく、本発明の主旨及び原則内で実行したいずれの修正、等価置換、改良なども、すべて本発明の保護する範囲に属すべきである。

Claims (20)

  1. 音声の始点及び終点の検出方法であって、
    検出待ちの音声データを取得することと、
    前記音声データを、数が1より多い音声断片に分割することと、
    予めに訓練した音声活動検出モデルに基づいて、各音声断片の音声状態をそれぞれに確定することと、
    前記音声状態に基づいて、前記音声データの始点及び終点を確定することと、を含む、
    音声の始点及び終点の検出方法。
  2. 少なくとも隣接する2つの音声断片の間に重畳が存在する
    請求項1に記載の音声の始点及び終点の検出方法。
  3. 前記音声活動検出モデルは、畳み込みニューラルネットワークモデルを含む
    請求項1に記載の音声の始点及び終点の検出方法。
  4. 前記予めに訓練した音声活動検出モデルに基づいて、各音声断片の音声状態をそれぞれに確定することは、
    前記音声活動検出モデルによって前記音声断片に対して分類を行うことと、
    前記音声活動検出モデルの出力に基づいて、ビタビ復号アルゴリズムによって前記音声断片の音声状態を確定することと、を含む
    請求項1に記載の音声の始点及び終点の検出方法。
  5. 訓練することによって前記音声活動検出モデルを取得することは、
    訓練データとする音声データを取得することと、
    取得された音声データ毎からN(Nが1以上の正の整数である)個の異なる音声状態のサンプル断片をそれぞれに抽出することと、
    抽出された前記サンプル断片に基づいて訓練して前記音声活動検出モデルを取得することと、を含む
    請求項1に記載の音声の始点及び終点の検出方法。
  6. 前記取得された音声データ毎からN個の異なる音声状態のサンプル断片をそれぞれに抽出することは、
    音声データ毎にそれぞれに前記音声データの音声フレーム及び非音声フレームに関するラベリング結果を取得すること、
    前記ラベリング結果に基づいて、前記音声データからN個の異なる音声状態のサンプル断片を抽出すること、を含む
    請求項5に記載の音声の始点及び終点の検出方法。
  7. 前記音声状態は、静音状態、始点状態、音声保持状態及び終点状態を含む
    請求項5に記載の音声の始点及び終点の検出方法。
  8. 前記取得された音声データ毎からN個の異なる音声状態のサンプル断片をそれぞれに抽出することは、
    取得された音声データ毎からランダムにN個の異なる音声状態のサンプル断片をそれぞれに抽出すること、を含み、
    そのうち、前記始点状態のサンプル断片において、音声の始点が前記サンプル断片の前半部分に位置し、且つ前記サンプル断片の始点との距離が予定閾値より大きく、
    前記終点状態のサンプル断片において、音声の終点が前記サンプル断片の前半部分に位置し、且つ前記サンプル断片の始点との距離が予定閾値より大きい
    請求項7に記載の音声の始点及び終点の検出方法。
  9. 前記音声状態に基づいて、前記音声データの始点及び終点を確定することは、
    前記音声データにおける第1の始点状態の音声断片及び第1の終点状態の音声断片に基づいて、前記音声データの始点及び終点を確定することを含む
    請求項7に記載の音声の始点及び終点の検出方法。
  10. 音声の始点及び終点の検出装置であって、検出モジュールを含み、
    前記検出モジュールには、第1の取得手段と、分割手段と、確定手段とを含み、
    前記第1の取得手段が、検出待ちの音声データを取得するために用いられ、
    前記分割手段が、前記音声データを、数が1より多い音声断片に分割するために用いられ、
    前記確定手段が、予めに訓練した音声活動検出モデルに基づいて、各音声断片の音声状態をそれぞれに確定し、前記音声状態に基づいて前記音声データの始点及び終点を確定するために用いられる
    音声の始点及び終点の検出装置。
  11. 少なくとも隣接する2つの音声断片の間に重畳が存在する
    請求項10に記載の音声の始点及び終点の検出装置。
  12. 前記音声活動検出モデルは、畳み込みニューラルネットワークモデルを含む
    請求項10に記載の音声の始点及び終点の検出装置。
  13. 前記確定手段は、前記音声活動検出モデルによって前記音声断片に対して分類を行い、前記音声活動検出モデルの出力に基づいて、ビタビ復号アルゴリズムによって前記音声断片の音声状態を確定するために用いられる
    請求項10に記載の音声の始点及び終点の検出装置。
  14. 前記音声の始点及び終点の検出装置には訓練モジュールを更に含み、
    前記訓練モジュールには、第2の取得手段と、抽出手段と、訓練手段とを含み、
    前記第2の取得手段が、訓練データとする音声データを取得するために用いられ、
    前記抽出手段が、取得された音声データ毎からN(Nが1以上の正の整数である)個の異なる音声状態のサンプル断片をそれぞれに抽出することに用いられ、
    前記訓練手段が、抽出されたサンプル断片に基づいて訓練して前記音声活動検出モデルを取得することに用いられる
    請求項10に記載の音声の始点及び終点の検出装置。
  15. 前記抽出手段は、更に、音声データ毎にそれぞれに前記音声データの音声フレーム及び非音声フレームに関するラベリング結果を取得し、前記ラベリング結果に基づいて、前記音声データからN個の異なる音声状態のサンプル断片を抽出するために用いられる
    請求項14に記載の音声の始点及び終点の検出装置。
  16. 前記音声状態は、静音状態、始点状態、音声保持状態及び終点状態を含む
    請求項14に記載の音声の始点及び終点の検出装置。
  17. 前記抽出手段は、取得された音声データ毎からランダムにN個の異なる音声状態のサンプル断片をそれぞれに抽出し、
    そのうち、前記始点状態のサンプル断片において、音声の始点が前記サンプル断片の前半部分に位置し、且つ前記サンプル断片の始点との距離が予定閾値より大きく、
    前記終点状態のサンプル断片において、音声の終点が前記サンプル断片の前半部分に位置し、且つ前記サンプル断片の始点との距離が予定閾値より大きい
    請求項16に記載の音声の始点及び終点の検出装置。
  18. 前記確定手段は、前記音声データにおける第1の始点状態の音声断片及び第1の終点状態の音声断片に基づいて、前記音声データの始点及び終点を確定する
    請求項16に記載の音声の始点及び終点の検出装置。
  19. メモリ、プロセッサ及び前記メモリに記憶され前記プロセッサに実行されるコンピュータプログラムを含むコンピュータ設備であって、
    前記プロセッサによって前記コンピュータプログラムが実行される時、請求項1〜9のいずれか1項に記載の音声の始点及び終点の検出方法を実現する
    コンピュータ設備。
  20. プロセッサによって実行される時、請求項1〜9のいずれか1項に記載の音声の始点及び終点の検出方法を実現する
    コンピュータプログラム。
JP2018244676A 2018-06-08 2018-12-27 音声の始点及び終点の検出方法、装置、コンピュータ設備及びプログラム Active JP6759509B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810587380.1 2018-06-08
CN201810587380.1A CN108962227B (zh) 2018-06-08 2018-06-08 语音起点和终点检测方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
JP2019211749A true JP2019211749A (ja) 2019-12-12
JP6759509B2 JP6759509B2 (ja) 2020-09-23

Family

ID=64493964

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018244676A Active JP6759509B2 (ja) 2018-06-08 2018-12-27 音声の始点及び終点の検出方法、装置、コンピュータ設備及びプログラム

Country Status (3)

Country Link
US (1) US10825470B2 (ja)
JP (1) JP6759509B2 (ja)
CN (1) CN108962227B (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109767792B (zh) * 2019-03-18 2020-08-18 百度国际科技(深圳)有限公司 语音端点检测方法、装置、终端和存储介质
CN110600010B (zh) * 2019-09-20 2022-05-17 度小满科技(北京)有限公司 一种语料提取方法及装置
WO2021134232A1 (zh) * 2019-12-30 2021-07-08 深圳市优必选科技股份有限公司 一种流式语音转换方法、装置、计算机设备及存储介质
CN111354378B (zh) * 2020-02-12 2020-11-24 北京声智科技有限公司 语音端点检测方法、装置、设备及计算机存储介质
CN111312223B (zh) * 2020-02-20 2023-06-30 北京声智科技有限公司 语音分割模型的训练方法、装置和电子设备
CN111667817A (zh) * 2020-06-22 2020-09-15 平安资产管理有限责任公司 一种语音识别方法、装置、计算机系统及可读存储介质
CN112382282B (zh) * 2020-11-06 2022-02-11 北京五八信息技术有限公司 一种语音去噪处理方法、装置、电子设备及存储介质
CN112712791B (zh) * 2020-12-08 2024-01-12 深圳市优必选科技股份有限公司 静音语音检测方法、装置、终端设备及存储介质
CN112820292B (zh) * 2020-12-29 2023-07-18 平安银行股份有限公司 生成会议纪要的方法、装置、电子装置及存储介质
CN112653539B (zh) * 2020-12-29 2023-06-20 杭州趣链科技有限公司 一种待存储数据的存储方法、装置以及设备
US20220335939A1 (en) * 2021-04-19 2022-10-20 Modality.AI Customizing Computer Generated Dialog for Different Pathologies
US11948599B2 (en) * 2022-01-06 2024-04-02 Microsoft Technology Licensing, Llc Audio event detection with window-based prediction
CN114648987A (zh) * 2022-04-28 2022-06-21 歌尔股份有限公司 语音识别方法、装置、设备及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016180839A (ja) * 2015-03-24 2016-10-13 日本放送協会 雑音抑圧音声認識装置およびそのプログラム
US20170092297A1 (en) * 2015-09-24 2017-03-30 Google Inc. Voice Activity Detection
JP2019039946A (ja) * 2017-08-22 2019-03-14 日本電信電話株式会社 モデル学習装置、音声区間検出装置、それらの方法およびプログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3604393B2 (ja) * 1994-07-18 2004-12-22 松下電器産業株式会社 音声検出装置
US5638487A (en) * 1994-12-30 1997-06-10 Purespeech, Inc. Automatic speech recognition
US6076057A (en) * 1997-05-21 2000-06-13 At&T Corp Unsupervised HMM adaptation based on speech-silence discrimination
KR100429896B1 (ko) * 2001-11-22 2004-05-03 한국전자통신연구원 잡음 환경에서의 음성신호 검출방법 및 그 장치
US20040260550A1 (en) * 2003-06-20 2004-12-23 Burges Chris J.C. Audio processing system and method for classifying speakers in audio data
US7610199B2 (en) * 2004-09-01 2009-10-27 Sri International Method and apparatus for obtaining complete speech signals for speech recognition applications
US7693713B2 (en) * 2005-06-17 2010-04-06 Microsoft Corporation Speech models generated using competitive training, asymmetric training, and data boosting
KR100930584B1 (ko) * 2007-09-19 2009-12-09 한국전자통신연구원 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치
US8762150B2 (en) * 2010-09-16 2014-06-24 Nuance Communications, Inc. Using codec parameters for endpoint detection in speech recognition
US8650029B2 (en) * 2011-02-25 2014-02-11 Microsoft Corporation Leveraging speech recognizer feedback for voice activity detection
US9984706B2 (en) * 2013-08-01 2018-05-29 Verint Systems Ltd. Voice activity detection using a soft decision mechanism
CN105118502B (zh) * 2015-07-14 2017-05-10 百度在线网络技术(北京)有限公司 语音识别系统的端点检测方法及系统
CN105261357B (zh) * 2015-09-15 2016-11-23 百度在线网络技术(北京)有限公司 基于统计模型的语音端点检测方法及装置
US10319390B2 (en) * 2016-02-19 2019-06-11 New York University Method and system for multi-talker babble noise reduction
CN105869628A (zh) * 2016-03-30 2016-08-17 乐视控股(北京)有限公司 语音端点检测方法及装置
US20170365249A1 (en) * 2016-06-21 2017-12-21 Apple Inc. System and method of performing automatic speech recognition using end-pointing markers generated using accelerometer-based voice activity detector
US10593352B2 (en) * 2017-06-06 2020-03-17 Google Llc End of query detection
CN107680585B (zh) * 2017-08-23 2020-10-02 海信集团有限公司 一种中文分词方法、中文分词装置和终端
CN108877778B (zh) * 2018-06-13 2019-09-17 百度在线网络技术(北京)有限公司 语音端点检测方法及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016180839A (ja) * 2015-03-24 2016-10-13 日本放送協会 雑音抑圧音声認識装置およびそのプログラム
US20170092297A1 (en) * 2015-09-24 2017-03-30 Google Inc. Voice Activity Detection
JP2019039946A (ja) * 2017-08-22 2019-03-14 日本電信電話株式会社 モデル学習装置、音声区間検出装置、それらの方法およびプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
松井清彰,外6名: "音声区間検出におけるLSTM post−filterの検討", 電子情報通信学会技術研究報告, vol. 第117巻,第517号, JPN6020006672, 12 March 2018 (2018-03-12), JP, pages 45 - 50, ISSN: 0004219360 *
篠原正太,山名早人: "ニューラルネットワークを用いた系列ラベリングによる単語分割手法", 第9回データ工学と情報マネジメントに関するフォーラム (第15回日本データベース学会年次大会), JPN6020006673, 27 February 2017 (2017-02-27), JP, ISSN: 0004219361 *

Also Published As

Publication number Publication date
JP6759509B2 (ja) 2020-09-23
CN108962227A (zh) 2018-12-07
US10825470B2 (en) 2020-11-03
CN108962227B (zh) 2020-06-30
US20190378537A1 (en) 2019-12-12

Similar Documents

Publication Publication Date Title
JP6759509B2 (ja) 音声の始点及び終点の検出方法、装置、コンピュータ設備及びプログラム
JP6993353B2 (ja) ニューラルネットワークベースの声紋情報抽出方法及び装置
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
Boles et al. Voice biometrics: Deep learning-based voiceprint authentication system
WO2021128741A1 (zh) 语音情绪波动分析方法、装置、计算机设备及存储介质
JP6453917B2 (ja) 音声ウェイクアップ方法及び装置
US9875739B2 (en) Speaker separation in diarization
CN106940998B (zh) 一种设定操作的执行方法及装置
JP7336537B2 (ja) 組み合わせで行うエンドポイント決定と自動音声認識
WO2017076222A1 (zh) 语音识别方法及装置
CN110852215B (zh) 一种多模态情感识别方法、系统及存储介质
CN110706690A (zh) 语音识别方法及其装置
CN110909613A (zh) 视频人物识别方法、装置、存储介质与电子设备
CN110827795A (zh) 语音输入结束判断方法、装置、设备、系统以及存储介质
CN110459207A (zh) 唤醒语音关键短语分割
CN108091340B (zh) 声纹识别方法、声纹识别系统和计算机可读存储介质
KR20200023893A (ko) 화자 인증 방법, 화자 인증을 위한 학습 방법 및 그 장치들
WO2021014612A1 (ja) 発話区間検出装置、発話区間検出方法、プログラム
KR102415519B1 (ko) 인공지능 음성의 컴퓨팅 탐지 장치
JP7291099B2 (ja) 音声認識方法及び装置
CN112837688B (zh) 语音转写方法、装置、相关系统及设备
US20220335927A1 (en) Learning apparatus, estimation apparatus, methods and programs for the same
KR20210081166A (ko) 다국어 음성 환경에서의 언어 식별 장치 및 방법
Wu et al. Dku-tencent submission to oriental language recognition ap18-olr challenge
WO2022226782A1 (en) Keyword spotting method based on neural network

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200514

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200804

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200806

R150 Certificate of patent or registration of utility model

Ref document number: 6759509

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250