JP2019211749A

JP2019211749A - 音声の始点及び終点の検出方法、装置、コンピュータ設備及びプログラム

Info

Publication number: JP2019211749A
Application number: JP2018244676A
Authority: JP
Inventors: リ、チャオ; Chao Li; チュウ、ウェイシン; Weixin Zhu
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2018-06-08
Filing date: 2018-12-27
Publication date: 2019-12-12
Anticipated expiration: 2038-12-27
Also published as: JP6759509B2; CN108962227A; US10825470B2; CN108962227B; US20190378537A1

Abstract

【課題】音声の始点及び終点の検出結果の確度等を向上することができる装置、コンピュータ設備及び記憶媒体を提供する。【解決手段】検出装置において、検出モジュール９０１及び訓練モジュール９０２を有する。検出モジュールの分割手段９０１２は、第１の取得手段９０１１から検出待ちの音声データを取得した後、音声データを複数の音声断片に分割し、その後、確定手段９０１３は、音声活動検出モデルに基づいて、各音声断片の音声状態をそれぞれに確定し、更に音声状態に基づいて、音声データの始点及び終点を確定する。分割した各音声断片に対して、確定手段９０１３は、音声活動検出モデルによって音声断片に対して分類を行い、音声活動検出モデルの出力に基づいて、ビタビ復号アルゴリズムによって音声断片の音声状態を確定する。【選択図】図９

Description

本発明は、音声処理技術に関するものであり、特に音声の始点及び終点の検出方法、装置、コンピュータ設備及びプログラムに関するものである。

技術の発展に従って、各々音声インタラクション機能を具備する製品、例えばスマートスピーカボックス、スマートテレビ、スマート冷蔵庫等が登場している。

音声インタラクションにおいて、非常に重要な点が、音声の始点及び終点を検出することができるものである。

始点を検出する必要性は、真正な音声を抽出できることにあり、例えば、スマートスピーカボックスはずっと待機状態であり、常に環境における音声をモニタリングしており、音声データに関してフレーム毎に音声認識の処理が行われば、システムに多い電力を消費するが、音声の始点を検出することによって、システムに人の話がある断片だけを注目させ、ほかの例えばノイズを処理しない。

終点を検出する必要性は、ユーザが要求を話した時、システムが早く反応する必要があるので、遅延があると、ユーザにより「システムの反応が遅い」等の文句を言い、例えば、ユーザが「今日の北京の天気」という要求を発した時、ユーザが要求を話した直後にシステムが「今日は北京が曇っている」等と答えることを希望する、ということにある。

従来の技術において、音声の始点及び終点を検出する様々な方法、例えば信号処理の方法に基づく方法や分類モデルによって検出を行う方法等を提出した。しかし、これらの方法は、いずれも比較的に検出エラーが発生しやすく、例えば始点の誤報や遺漏及び終点の誤報や遺漏等が発生しやすい。

そのうち、始点の誤報は以下のような場合を含む。即ち、ノイズを音声に分類することで、ノイズをバックグラウンドの音声認識器に伝送し、更にシステムの消費電力が増加し、バックグラウンドがクラウド端に位置すれば、トラフィックも増加する。

始点の遺漏は以下のような場合を含む。即ち、音声の始点が検出されていないので、いずれの音声もバックグラウンドの音声認識器に伝送されなく、このような状況が常に発生し、例えばユーザの話し声が非常に小さいので、ユーザの小声な話しを背景ノイズとして処理し間違って、バックグラウンドの音声認識器がいずれの音声も受信できない。

終点の誤報は以下のような場合を含む。即ち、早く終了し、即ちユーザが話し終わっていないが、終わったと考えされ、このような状況が、ユーザの話しが「始めは勢いがあるが終わりは振るわない」の場合に常に発生し、例えば音がいよいよ小さくなる場合に、又は、ユーザの話しは長い時間のポーズがあり、例えばユーザが「今日の北京の天気」を話した後、大きく息をして、次に「外出して山に登るに適するか」を話す場合に、終点の検出が余りに敏感したら、２つの話しに分けて処理する。

終点の遺漏は以下のような場合を含む。即ち、長時間でも終了しなく、このような状況は環境が比較的に騒々しい場合に常に発生し、ユーザの話しが終わったが、背景ノイズが比較的に強いので終了しなく、結果として、ユーザが「今日、北京の天気がどうですか」を話してから、ずっとシステムの反応を待つ。

誤報及び遺漏のいずれかが発生しても、検出結果の確度が低下してしまう。

そこで、本発明は、音声の始点及び終点の検出方法、装置、コンピュータ設備及びプログラムを提供する。

具体的な技術案は、以下とおりである。

音声の始点及び終点の検出方法であって、検出待ちの音声データを取得すること、上記音声データを、数が１より多い音声断片に分割すること、予めに訓練した音声活動検出モデルに基づいて、各音声断片の音声状態をそれぞれに確定すること、上記音声状態に基づいて、上記音声データの始点及び終点を確定すること、を含む。

本発明の１つの好ましい実施例によると、少なくとも隣接する２つの音声断片の間に重畳が存在する。

本発明の１つの好ましい実施例によると、前記音声活動検出モデルは、畳み込みニューラルネットワークモデルを含む。

本発明の１つの好ましい実施例によると、上記予めに訓練した音声活動検出モデルに基づいて、各音声断片の音声状態をそれぞれに確定することは、上記音声活動検出モデルによって上記音声断片に対して分類を行うこと、上記音声活動検出モデルの出力に基づいて、ビタビ復号アルゴリズムによって上記音声断片の音声状態を確定すること、を含む。

本発明の１つの好ましい実施例によると、訓練することによって上記音声活動検出モデルを取得することは、訓練データとする音声データを取得すること、取得された音声データ毎からＮ（Ｎが１以上の正の整数である）個の異なる音声状態のサンプル断片をそれぞれに抽出すること、抽出されたサンプル断片に基づいて訓練して上記音声活動検出モデルを取得すること、を含む。

本発明の１つの好ましい実施例によると、上記取得された音声データ毎からＮ個の異なる音声状態のサンプル断片をそれぞれに抽出することは、音声データ毎にそれぞれに上記音声データの音声フレーム及び非音声フレームに関するラベリング結果を取得すること、上記ラベリング結果に基づいて、上記音声データからＮ個の異なる音声状態のサンプル断片を抽出すること、を含む。

本発明の１つの好ましい実施例によると、上記音声状態は、静音状態、始点状態、音声保持状態及び終点状態を含む。

本発明の１つの好ましい実施例によると、上記取得された音声データ毎からＮ個の異なる音声状態のサンプル断片をそれぞれに抽出することは、取得された音声データ毎からランダムにＮ個の異なる音声状態のサンプル断片をそれぞれに抽出すること、を含み、そのうち、上記始点状態のサンプル断片において、音声の始点が上記サンプル断片の前半部分に位置し、且つ上記サンプル断片の始点との距離が予定閾値より大きく、上記終点状態のサンプル断片において、音声の終点が上記サンプル断片の前半部分に位置し、且つ上記サンプル断片の始点との距離が予定閾値より大きい。

本発明の１つの好ましい実施例によると、上記音声状態に基づいて、上記音声データの始点及び終点を確定することは、上記音声データにおける第１の始点状態の音声断片及び第１の終点状態の音声断片に基づいて、上記音声データの始点及び終点を確定することを含む。

音声の始点及び終点の検出装置であって、検出モジュールを含み、上記検出モジュールには、第１の取得手段と、分割手段と、確定手段とを含み、上記第１の取得手段が、検出待ちの音声データを取得するために用いられ、上記分割手段が、上記音声データを、数が１より多い音声断片に分割するために用いられ、上記確定手段が、予めに訓練した音声活動検出モデルに基づいて、各音声断片の音声状態をそれぞれに確定し、上記音声状態に基づいて上記音声データの始点及び終点を確定するために用いられる。

本発明の１つの好ましい実施例によると、上記音声活動検出モデルは、畳み込みニューラルネットワークモデルを含む。

本発明の１つの好ましい実施例によると、上記確定手段は、上記音声活動検出モデルによって上記音声断片に対して分類を行い、上記音声活動検出モデルの出力に基づいて、ビタビ復号アルゴリズムによって上記音声断片の音声状態を確定するために用いられる。

本発明の１つの好ましい実施例によると、上記音声の始点及び終点の検出装置には訓練モジュールを更に含み、上記訓練モジュールには、第２の取得手段と、抽出手段と、訓練手段とを含み、上記第２の取得手段が、訓練データとする音声データを取得するために用いられ、上記抽出手段が、取得された音声データ毎からＮ（Ｎが１以上の正の整数である）個の異なる音声状態のサンプル断片をそれぞれに抽出することに用いられ、上記訓練手段が、抽出されたサンプル断片に基づいて訓練して上記音声活動検出モデルを取得することに用いられる。

本発明の１つの好ましい実施例によると、上記抽出手段は、更に、音声データ毎にそれぞれに上記音声データの音声フレーム及び非音声フレームに関するラベリング結果を取得し、上記ラベリング結果に基づいて、上記音声データからＮ個の異なる音声状態のサンプル断片を抽出するために用いられる。

本発明の１つの好ましい実施例によると、上記抽出手段は、取得された音声データ毎からランダムにＮ個の異なる音声状態のサンプル断片をそれぞれに抽出し、そのうち、上記始点状態のサンプル断片において、音声の始点が上記サンプル断片の前半部分に位置し、且つ上記サンプル断片の始点との距離が予定閾値より大きく、上記終点状態のサンプル断片において、音声の終点が上記サンプル断片の前半部分に位置し、且つ上記サンプル断片の始点との距離が予定閾値より大きい。

本発明の１つの好ましい実施例によると、上記確定手段は、上記音声データにおける第１の始点状態の音声断片及び第１の終点状態の音声断片に基づいて、上記音声データの始点及び終点を確定する。

メモリ、プロセッサ及び上記メモリに記憶され上記プロセッサに実行されるコンピュータプログラムを含むコンピュータ設備であって、上記プロセッサによって上記コンピュータプログラムが実行される時、上記音声の始点及び終点の検出方法を実現する。

コンピュータプログラムが記憶されているコンピュータ読取り可能な記憶媒体であって、上記プログラムがプロセッサによって実行される時、上記音声の始点及び終点の検出方法を実現する。

上記説明から分かるように、本発明に係る技術案を採用すれば、検出待ちの音声データを取得した後、まず音声データを複数の音声断片に分割し、その後、予めに訓練した音声活動検出モデルに基づいて、それぞれに各音声断片の音声状態を確定することができ、更に音声状態に基づいて音声データの始点及び終点を確定することができ、従来の技術に比べて、本発明の上記技術案において断片レベルの分類及び深層学習モデル等を結合して始点及び終点の検出を行うことで、検出結果の確度を向上した。

本発明に係る音声の始点及び終点の検出方法の実施例のフローチャートである。既存の１つの音声データのスペクトログラム図である。本発明に係る各状態の模式図である。本発明に係る静音状態のサンプル断片の抽出方式の模式図である。本発明に係る始点状態のサンプル断片の抽出方式の模式図である。本発明に係る音声保持状態のサンプル断片の抽出方式の模式図である。本発明に係る終点状態のサンプル断片の抽出方式の模式図である。本発明に係る抽出された４つのサンプル断片の模式図である。本発明に係る音声の始点及び終点の検出装置の実施例の構成模式図である。本発明の実施形態を実現することに適する、例示的なコンピュータシステム／サーバ１２のブロック図を示す。

本発明の技術案をより明確で簡潔させるために、以下、図面を参照して実施例を挙げて、本発明に係る技術案を詳しく説明する。

明らかに、ここで記載された実施例は本発明の実施例の一部だけであり、全ての実施例ではない。本発明における実施例に基づいて、当業者が創造的な労働をしないことを前提として獲得できる他の実施例は、いずれも本発明の保護範囲に属する。

図１は、本発明に係る音声の始点及び終点の検出方法の実施例のフローチャートである。図１に示すように、以下の具体的な実現方式を含む。

１０１において、検出待ちの音声データを取得する。

１０２において、音声データを、数が１より多い音声断片に分割する。

１０３において、予めに訓練した音声活動検出（ＶＡＤ，ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ）モデルに基づいて、各音声断片の音声状態をそれぞれに確定する。

１０４において、音声状態に基づいて、音声データの始点及び終点を確定する。

１つの音声データにおいて、一般、以下のような４つの状態を含む。
ノイズを含む可能性があるものである静音、
ユーザが話し始めるものである音声の始点、
ユーザが話しており、微弱なポーズを含む可能性があるものである音声の保持、
ユーザの話しが終了したものである音声の終点。

図２は、既存の１つの音声データのスペクトログラム図である。図３は、本発明に係る各状態の模式図である。図３に示したように、図２に示すスペクトログラム図に対して、１でユーザの話しがあることを表し、０でユーザの話しがないことを表し、Ａ、Ｂ、Ｃ、Ｄは、それぞれに静音、音声の始点、音声の保持及び音声の終点等の状態を表す。

図１に示すフローを実現するために、まずモデル訓練を行い、即ち、訓練して音声活動検出モデルを取得する必要がある。訓練過程とは、訓練データを整理し抽象することによって、訓練集合に収束する１つのモデルを訓練することである。その後、訓練したモデルを実際的な応用に用いて音声の始点及び終点を検出することができる。

図３に示すように、一般に、１条の音声データにおいて、静音状態Ａ及び音声保持状態Ｃの続き時間がより長く、始点状態Ｂ及び終点状態Ｄが１つだけであるので、１条の音声データ全体を使用して訓練すれば、Ｂ及びＤという２つの状態にとっては非常に不利であり、それらによって発生したコストが、Ａ及びＣの状態にカーバされる可能性が高いので、本実施例において、断片レベルの分類を採用し、それを基礎として訓練及び検出を行う。

そのうち、訓練して音声活動検出モデルを取得するために、まず訓練データとする音声データを取得した後に、取得された毎音声データからＮ個の異なる音声状態のサンプル断片をそれぞれに抽出し、更に抽出されたサンプル断片に基づいて訓練して音声活動検出モデルを得ることができ、Ｎが１より大きい正の整数である。

Ｎの具体的な値が、実際的な必要に応じて確定することができ、好ましく、上記記載のようにＮの値を４とすることができ、４つの音声状態はそれぞれ静音状態、始点状態、音声保持状態及び終点状態である。

例えば、１０，０００条の音声データを取得することができ、１条の音声データが約数秒の長さである。音声データ毎に、まず、音声データの音声フレーム及び非音声フレームに関するラベリング結果をそれぞれに取得することができる。人工的にラベリングする方式を採用してラベリング結果を獲得してもよく、音声認識における機械強制アライメントという方式を採用してラベリング結果を獲得してもよく、音声フレームであれば１とラベリングし、非音声フレームであれば０とラベリングすることができる。

その後、ラベリング結果に基づいて、毎音声データから４つの異なる音声状態のサンプル断片をそれぞれに抽出することができ、具体的な抽出方式は、以下とおりである。

１）静音状態のサンプル断片
図４は、本発明に係る静音状態のサンプル断片の抽出方式の模式図である。図４に示すように、音声データからランダムに１段の静音断片を抽出して、静音状態のサンプル断片とすることができ、サンプル断片は、０とラベリングられたフレームからなる。

２）始点状態のサンプル断片
図５は、本発明に係る始点状態のサンプル断片の抽出方式の模式図である。図５に示すように、音声データからランダムに１段の音声の始点を含む断片を抽出して、始点状態のサンプル断片とすることができ、サンプル断片は、０及び１とラベリングされたフレームからなる。

好ましく、音声の始点はサンプル断片の前半部分に位置し、且つサンプル断片の始点との距離が予定閾値より大きい、即ち音声の始点はサンプル断片の前半部分に位置する必要があるが、あまり先に位置することではなく、例えば、０．２５〜０．５という範囲に位置することができ、０．２５がサンプル断片の長さの１／４の位置を表し、０．５がサンプル断片の長さの１／２の位置を表す。

実験で分かるように、上記方式に従って取得されたサンプル断片の方が、より後続のモデル訓練に適し、モデル訓練の効果を更に向上することができる。

３）音声保持状態のサンプル断片
図６は、本発明に係る音声保持状態のサンプル断片の抽出方式の模式図である。図６に示すように、音声データからランダムに１段の音声断片を抽出して、音声保持状態のサンプル断片とすることができ、サンプル断片は、１とラベリングされたフレームからなる。

４）終点状態のサンプル断片
図７は、本発明に係る終点状態のサンプル断片の抽出方式の模式図である。図７に示すように、音声データからランダムに１段の音声の終点を含む断片を抽出して、終点状態のサンプル断片とすることができ、サンプル断片は、０及び１とラベリングされたフレームからなる。

好ましく、音声の終点はサンプル断片の前半部分に位置し、且つサンプル断片の始点との距離が予定閾値より大きい、即ち音声の終点はサンプル断片の前半部分に位置する必要があるが、あまり先に位置することではなく、例えば、０．２５〜０．５という範囲に位置することができ、０．２５がサンプル断片の長さの１／４の位置を表し、０．５がサンプル断片の長さの１／２の位置を表す。

図８は、本発明に係る抽出された４つのサンプル断片の模式図である。図８に示すように、抽出された各サンプル断片を纏めて、４つのサンプル断片を得ることができ、それぞれに静音状態のサンプル断片、始点状態のサンプル断片、音声保持状態のサンプル断片及び終点状態のサンプル断片である。

このように、音声データ毎に、４つのサンプル断片をそれぞれに取得することができ、更に、サンプル断片毎に、１つの訓練ｐａｉｒ｛ｘ，ｙ｝をそれぞれに生成することができ、そのうち、ｘが特徴であり、ｙがラベル（ｌａｂｅｌ）、即ち音声状態（分類結果）である。

上記特徴及び各サンプル断片の長さ等は、いずれも実際的な必要に応じて確定することができ、各サンプル断片の長さが同じでもよい。

例えば、フレーム長さが２５ｍｓ、フレームシャフトが１０ｍｓ、メルフィルタバンク（ｍｅｌｆｉｌｔｅｒｂａｎｋ）が６４次元であるという特徴を採用することができ、もちろん、フレーム長、フレームシャフトが他の値でもよく、特徴は、他の音響特徴、例えばメル周波数ケプストラム係数（ＭＦＣＣ，Ｍｅｌ−ｆｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔｓ）、知覚線形予測係数（ＰＬＰ，ＰｅｒｃｅｐｔｕａｌＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅ）等で代替してもよい。また、ｃｏｎｔｅｘｔ＝３２を採用しておよく、更に大きくなってもよく、原則では、大きいほど正確であるが、時間上の遅延を齎す。

すべての音声データを処理した後、全体の訓練ｐａｉｒを取得することができ、全体の訓練ｐａｉｒに基づいて訓練して音声活動検出モデルを取得することができる。

深層ニューラルネットワークを音声活動検出モデルとして採用することができ、好ましく、畳み込みニューラルネットワーク（ＣＮＮ，ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）モデルを採用することができる。ネットワークは、複数の層のｃｎｎの積層からなり、出力層が４つのノードであり、ｓｏｆｔｍａｘがアクティブとし、交差エントロピーをコスト関数として採用する。どのように訓練を行うことは、従来の技術である。

音声活動検出モデルの訓練を完成した後、該モデルによって実際的に音声の始点及び終点の検出を行うことができる。

具体的に、検出待ちの音声データを取得した後、まず音声データを複数の音声断片に分割し、その後、音声活動検出モデルに基づいて各音声断片の音声状態をそれぞれに確定し、更に音声状態に基づいて音声データの始点及び終点を確定することができる。

検出待ちの音声データを、重畳がある幾つかの音声断片に分割することができ、即ち少なくとも隣接している２つの音声断片の間に重畳が存在する。例えば、３２フレーム毎に１つの音声断片とし、８フレームおきに１つのこのような音声断片を取得することができ、即ち第１〜３２のフレームを１つの音声断片とし、第９〜４０のフレームを１つの音声断片とし、このように類推する。

分割した各音声断片に対して、それぞれに音声活動検出モデルによって音声断片に対して分類し、音声活動検出モデルの出力に基づいて、ビタビ復号アルゴリズムによって音声断片の音声状態を確定することができる。

具体的に、音声断片の特徴を取得し、取得された特徴を４つの状態の音声活動検出モデルへ入力して分類を行い、確率出力ｈを取得し、その後、確率出力ｈに基づいて、ビタビ復号アルゴリズムによって音声断片の音声状態を確定することができ、上記ビタビ復号アルゴリズムは標準的なビタビ復号アルゴリズムであり、具体な実現が従来の技術である。

正常な１つの音声データについては、順次、静音状態−始点状態−音声保持状態−終点状態という階段を通過し、各状態のジャンプは必ず連続である。

相応に、音声データにおける第１の始点状態の音声断片及び第１の終点状態の音声断片に基づいて、音声データの始点及び終点を確定し、例えば第１の始点状態の音声断片と第１の終点状態の音声断片及び両者の間の音声データを本当の音声として抽出し、音声認識等の後続処理を行うことができる。

注意すべきことは、上記方法の実施例に関して、説明を簡単させるために、それを一連の動作の組み合わせとして表現したが、本開示によれば、あるステップが他の順序でまたは同時に行うことができるので、当業者であれば、本開示は記述された動作の順序によって制限されないことを理解すべきことである。そして、明細書に記載された実施例はいずれも好ましい実施例だけであり、係る動作及びモジュールが、本発明にとっては必ずしも必要とは限らないことが、当業者であれば理解すべきである。

要するに、上記方法の実施例に係る技術案において、断片レベルの分類及び深層学習モデル等を結合して始点及び終点の検出を行うことで、検出結果の確度等を向上した。

以上は方法の実施例に関する説明であり、以下、装置の実施例によって、本発明に係る技術案を更に説明する。

図９は、本発明に係る音声の始点及び終点の検出装置の実施例の構成模式図である。図９に示すように、検出モジュール９０１を含み、該検出モジュール９０１は、具体的に、第１の取得手段９０１１、分割手段９０１２及び確定手段９０１３を含むことができる。

第１の取得手段９０１１は、検出待ちの音声データを取得するために用いられる。

分割手段９０１２は、音声データを、数が１より多い音声断片に分割するために用いられる。

確定手段９０１３は、予めに訓練した音声活動検出モデルに基づいて、各音声断片の音声状態をそれぞれに確定し、音声状態に基づいて音声データの始点及び終点を確定するために用いられる。

上記操作を実現するために、まずモデル訓練を行い、即ち、訓練して音声活動検出モデルを取得する必要がある。相応に、図９に示す装置において、訓練モジュール９０２を更に含む。該訓練モジュール９０２は、具体的に、第２の取得手段９０２１、抽出手段９０２２及び訓練手段９０２３を含むことができる。

第２の取得手段９０２１は、訓練データとする音声データを取得するために用いられる。

抽出手段９０２２は、取得された音声データ毎からＮ個の異なる音声状態のサンプル断片をそれぞれに抽出するために用いられし、Ｎが１より大きい正の整数である。

訓練手段９０２３は、抽出されたサンプル断片に基づいて訓練して音声活動検出モデルを得るために用いられる。

Ｎの具体的な値が、実際的な必要に応じて確定することができ、好ましく、Ｎの値を４とすることができ、４つの音声状態はそれぞれ静音状態、始点状態、音声保持状態及び終点状態であることができる。

例えば、第２の取得手段９０２１は、１０，０００条の音声データを取得することができ、１条の音声データが約数秒の長さである。音声データ毎に、抽出手段９０２２は、まず、音声データの音声フレーム及び非音声フレームに関するラベリング結果をそれぞれに取得することができ、例えば、音声フレームであれば１とラベリングし、非音声フレームであれば０とラベリングすることができ、その後、ラベリング結果に基づいて、音声データから４つの異なる音声状態のサンプル断片を抽出することができる。

抽出手段９０２２は、取得された音声データ毎からランダムに４つの異なる音声状態のサンプル断片、即ち静音状態のサンプル断片、始点状態のサンプル断片、音声保持状態のサンプル断片及び終点状態のサンプル断片をそれぞれに抽出することができる。

そのうち、始点状態のサンプル断片において、音声の始点はサンプル断片の前半部分に位置し、且つサンプル断片の始点との距離が予定閾値より大きい。終点状態のサンプル断片において、音声の終点はサンプル断片の前半部分に位置し、且つサンプル断片の始点との距離が予定閾値より大きい。

このようにして、音声データ毎に、４つのサンプル断片をそれぞれに取得することができ、更に、訓練手段９０２３は、サンプル断片毎に、それぞれに１つの訓練ｐａｉｒ｛ｘ，ｙ｝を生成することができ、そのうち、ｘが特徴であり、ｙがｌａｂｅｌ、即ち音声状態（分類結果）であり、すべての音声データを処理した後、全体の訓練ｐａｉｒを取得することができ、更に全体の訓練ｐａｉｒに基づいて訓練して音声活動検出モデルを得ることができる。

深層ニューラルネットワークを音声活動検出モデルとして採用することができ、好ましく、畳み込みニューラルネットワークモデルを採用することができる。

分割手段９０１２は、第１の取得手段９０１１から検出待ちの音声データを取得した後、音声データを複数の音声断片に分割することができ、その後、確定手段９０１３は、音声活動検出モデルに基づいて、各音声断片の音声状態をそれぞれに確定することができ、更に音声状態に基づいて、音声データの始点及び終点を確定することができる。

分割手段９０１２は、検出待ちの音声データを重畳がある幾つかの音声断片に分割することができ、即ち少なくとも隣接する２つの音声断片の間に重畳が存在する。例えば、３２フレーム毎に１つの音声断片とし、８フレームおきに１つのこのような音声断片を取得することができる。

分割した各音声断片に対して、確定手段９０１３は、音声活動検出モデルによって音声断片に対して分類を行い、音声活動検出モデルの出力に基づいて、ビタビ復号アルゴリズムによって音声断片の音声状態を確定することができる。

具体的に、音声断片の特徴を取得し、取得された特徴を４つの状態の音声活動検出モデルへ入力して分類を行い、確率出力ｈを得ることができ、その後、確率出力ｈに基づいて、ビタビ復号アルゴリズムによって音声断片の音声状態を確定することができ、上記ビタビ復号アルゴリズムは標準なビタビ復号アルゴリズムであり、具体な実現が従来の技術である。

更に、確定手段９０１３は、音声データにおける第１の始点状態の音声断片及び第１の終点状態の音声断片に基づいて、音声データの始点及び終点を確定し、例えば第１の始点状態の音声断片と第１の終点状態の音声断片及び両者の間の音声データを本当な音声として抽出し、音声認識等の後続処理を行うことができる。

図９に示すように、装置の実施例の具体的なワークフローは、上記方法の実施例における相応説明を参照することができ、ここで贅言しない。

図１０は、本発明の実施形態を実現することに適する、例示的なコンピュータシステム／サーバ１２のブロック図を示す。図１０に示すコンピュータシステム／サーバ１２は、１つの例だけであり、本発明の実施例の機能及び使用範囲を制限するものではない。

図１０に示すように、コンピュータシステム／サーバ１２は、汎用演算設備の形態で表現される。コンピュータシステム／サーバ１２の構成要素は、１つ又は複数のプロセッサ１６（処理手段）と、メモリ２８と、異なるシステム構成要素（メモリ２８とプロセッサ１６とを含む）を接続するためのバス１８を含んでいるが、これに限定されない。

バス１８は、複数種類のバス構成の中の１つ又は複数の種類を示し、メモリバス又はメモリコントローラ、周辺バス、グラフィック加速ポート、プロセッサ又は複数種類のバス構成でのいずれかのバス構成を使用したローカルバスを含む。例えば、それらの架構は、工業標準架構（ＩＳ）バス、マイクロチャンネル架構（ＭＣ）バス、増強型ＩＳバス、ビデオ電子規格協会（ＶＥＳ）ローカルバス及び周辺コンポーネント接続（ＰＣＩ）バスを含んでいるが、これに限定されない。

コンピュータシステム／サーバ１２には、典型的には複数のコンピュータシステム読取り可能な媒体を含む。それらの媒体は、コンピュータシステム／サーバ１２にアクセスされて使用可能な任意な媒体であり、揮発性の媒体と不揮発性の媒体や移動可能な媒体と移動不可な媒体を含む。

メモリ２８は、揮発性メモリ形式のコンピュータシステム読取り可能な媒体、例えばランダムアクセスメモリ（ＲＡＭ）３０及び／又はキャッシュメモリ３２を含むことができる。コンピュータシステム／サーバ１２は、更に他の移動可能／移動不可なコンピュータシステム記憶媒体や揮発性／不揮発性のコンピュータシステム記憶媒体を含むことができる。例だけとして、ストレジ３４は、移動不可能な不揮発性磁媒体を読み書くために用いられる（図１０に示していないが、常に「ハードディスクドライブ」とも呼ばれる）。図１０に示していないが、移動可能な不揮発性磁気ディスク（例えば「フレキシブルディスク」）に対して読み書きを行うための磁気ディスクドライブ、及び移動可能な不揮発性光ディスク（例えばＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ又は他の光媒体）に対して読み書きを行うための光ディスクドライブを提供できる。このような場合に、ドライブは、それぞれに１つ又は複数のデータ媒体インターフェースによってバス１８に接続される。メモリ２８には少なくとも１つのプログラム製品を含み、該プログラム製品には１組の（例えば少なくとも１つの）プログラムモジュールを含み、それらのプログラムモジュールは、本発明の各実施例の機能を実行するように配置される。

１組の（少なくとも１つの）プログラムモジュール４２を含むプログラム／実用ツール４０は、例えばメモリ２８に記憶され、このようなプログラムモジュール４２には、オペレーティングシステム、１つの又は複数のアプリケーションプログラム、他のプログラムモジュール及びプログラムデータを含んでいるが、これに限定しておらず、それらの例示における１つ又はある組み合にはネットワーク環境の実現を含む可能性がある。プログラムモジュール４２は、常に本発明に記載されている実施例における機能及び／或いは方法を実行する。

コンピュータシステム／サーバ１２は、１つ又は複数の周辺設備１４（例えばキーボード、ポインティングデバイス、ディスプレイ２４等）と通信を行ってもよく、ユーザと該コンピュータシステム／サーバ１２とのインタラクティブを実現することができる１つ又は複数の設備と通信を行ってもよく、及び／又は該コンピュータシステム／サーバ１２と１つ又は複数の他の演算設備との通信を実現することができるいずれの設備（例えばネットワークカード、モデム等）と通信を行っても良い。このような通信は入力／出力（Ｉ／Ｏ）インターフェース２２によって行うことができる。そして、コンピュータシステム／サーバ１２は、ネットワークアダプタ２０によって１つ又は複数のネットワーク（例えばローカルエリアネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）及び／又は公衆回線網、例えばインターネット）と通信を行っても良い。図１０に示すように、ネットワークアダプタ２０は、バス１８によってコンピュータシステム／サーバ１２の他のモジュールと通信を行う。もちろん、図に示していないが、コンピュータシステム／サーバ１２と連携して他のハードウェア及び／又はソフトウェアモジュールを使用することができ、マイクロコード、設備ドライブ、冗長処理手段、外部磁気ディスクドライブアレイ、ＲＩＤシステム、磁気テープドライブ及びデータバックアップストレジ等を含むが、これに限定されない。

プロセッサ１６は、メモリ２８に記憶したプログラムを実行することで、各々機能応用及びデータ処理を実行し、例えば図１に示す実施例における方法を実現する。

本発明は、コンピュータプログラムを記憶したコンピュータ読取り可能な記憶媒体を同時に開示し、該プログラムがプロセッサによって実行される時、図１に示す実施例における方法を実現する。

本実施例のコンピュータ読取り可能な媒体は、１つ又は複数のコンピューター読取り可能な媒体の任意な組合を採用しても良い。コンピューター読取り可能な媒体は、コンピューター読取り可能な信号媒体又はコンピューター読取り可能な記憶媒体である。コンピューター読取り可能な記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、又は半導体のシステム、装置又はデバイス、或いは上記ものの任意な組合であるが、これに限定されない。コンピューター読取り可能な記憶媒体の更なる具体的な例（網羅していないリスト）には、１つ又は複数のワイヤを具備する電気的な接続、携帯式コンピュータ磁気ディスク、ハードディクス、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュ）、光ファイバー、携帯式コンパクト磁気ディスクリードオンリーメモリ（ＣＤ−ＲＯＭ）、光メモリ部材、磁気メモリ部材、又は上記ものの任意で適当な組合を含む。本願において、コンピューター読取り可能な記憶媒体は、プログラムを含む又は記憶する任意な有形媒体であってもよく、該プログラムは、命令実行システム、装置又はデバイスに使用される又はそれらと連携して使用されるができる。

コンピューター読取り可能な信号媒体には、ベースバンドにおいて伝搬されるデータ信号或いはキャリアの一部として伝搬されるデータ信号を含み、それにコンピューター読取り可能なプログラムコードが載っている。このような伝搬されるデータ信号について、複数種類の形態を採用でき、電磁気信号、光信号又はそれらの任意で適当な組合を含んでいるが、これに限定されない。コンピューター読取り可能な信号媒体は、コンピューター読取り可能な記憶媒体以外の任意なコンピューター読取り可能な媒体であってもよく、該コンピューター読取り可能な媒体は、命令実行システム、装置又はデバイスによって使用される又はそれと連携して使用されるプログラムを送信、伝搬又は転送できる。

コンピューター読取り可能な媒体に記憶されたプログラムコードは、任意で適正な媒体によって転送されてもよく、無線、電線、光ケーブル、ＲＦ等又は上記ものの任意で適当な組合が含まれているが、これに限定されない。

１つ又は複数のプログラミング言語又はそれらの組合で、本発明の操作を実行するためのコンピュータプログラムコードを編集することができ、上記プログラミング言語には、オブジェクト向けのプログラミング言語、例えばＪａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋が含まれ、通常のプロシージャ向けプログラミング言語、例えば「Ｃ」言語又は類似しているプログラミング言語も含まれる。プログラムコードは、完全的にユーザコンピュータに実行されてもよく、部分的にユーザコンピュータに実行されてもよく、１つの独立のソフトウェアパッケージとして実行されてもよく、部分的にユーザコンピュータに実行され且つ部分的に遠隔コンピュータに実行されてもよく、又は完全的に遠隔コンピュータ又はサーバに実行されてもよい。遠隔コンピュータに係る場合に、遠隔コンピュータは、ローカルエリアネットワーク（ＬＡＮ）又は広域ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介して、ユーザコンピュータ、又は、外部コンピュータに接続できる（例えば、インターネットサービス事業者を利用してインターネットを介して接続できる）。

本発明に開示されたいくつの実施例で開示された装置および方法などが、他の手段によって実現できることを理解すべきだ。例えば、上述の装置に関する実施形態は例示だけであり、例えば、上記手段の区分がロジック機能上の区分だけであり、実際的に実現する時、他の区分方式であってもよい。

上記分離部品として説明された手段が、物理的に分離されてもよく、物理的に分離されなくてもよく、手段として表される部品が、物理手段でもよく、物理手段でなくてもよく、１つの箇所に位置してもよく、又は複数のネットワークセルに分布されても良い。実際な必要に基づいて、その中の一部又は全部を選択して、本実施例の態様の目的を実現することができる。

また、本発明の各実施例における各機能手段が１つの処理手段に集積されてもよく、各手段が物理的に独立に存在してもよく、２つ又は２つ以上の手段が１つの手段に集積されても良い。上記集積された手段は、ハードウェアの形式で実現してもよく、ハードウェア＋ソフトウェア機能手段の形式で実現しても良い。

上記ソフトウェア機能手段の形式で実現する集積された手段は、１つのコンピューター読取り可能な記憶媒体に記憶されることができる。上記ソフトウェア機能手段は１つの記憶媒体に記憶されており、１台のコンピュータ設備（パソコン、サーバ、又はネットワーク設備等）又はプロセッサ（ｐｒｏｃｅｓｓｏｒ）に本発明の各実施例に記載された方法の一部の手順を実行させるための若干の命令を含む。上記記憶媒体は、ＵＳＢメモリ、リムーバブルハードディスク、リードオンリーメモリ（ＲＯＭ，Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ，ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスク又は光ディスク等のプログラムコードを記憶できる媒体を含む。

以上の説明は、本発明の好ましい実施例だけであり、本発明を限定するものではなく、本発明の主旨及び原則内で実行したいずれの修正、等価置換、改良なども、すべて本発明の保護する範囲に属すべきである。

Claims

音声の始点及び終点の検出方法であって、
検出待ちの音声データを取得することと、
前記音声データを、数が１より多い音声断片に分割することと、
予めに訓練した音声活動検出モデルに基づいて、各音声断片の音声状態をそれぞれに確定することと、
前記音声状態に基づいて、前記音声データの始点及び終点を確定することと、を含む、
音声の始点及び終点の検出方法。
少なくとも隣接する２つの音声断片の間に重畳が存在する
請求項１に記載の音声の始点及び終点の検出方法。
前記音声活動検出モデルは、畳み込みニューラルネットワークモデルを含む
請求項１に記載の音声の始点及び終点の検出方法。
前記予めに訓練した音声活動検出モデルに基づいて、各音声断片の音声状態をそれぞれに確定することは、
前記音声活動検出モデルによって前記音声断片に対して分類を行うことと、
前記音声活動検出モデルの出力に基づいて、ビタビ復号アルゴリズムによって前記音声断片の音声状態を確定することと、を含む
請求項１に記載の音声の始点及び終点の検出方法。
訓練することによって前記音声活動検出モデルを取得することは、
訓練データとする音声データを取得することと、
取得された音声データ毎からＮ（Ｎが１以上の正の整数である）個の異なる音声状態のサンプル断片をそれぞれに抽出することと、
抽出された前記サンプル断片に基づいて訓練して前記音声活動検出モデルを取得することと、を含む
請求項１に記載の音声の始点及び終点の検出方法。
前記取得された音声データ毎からＮ個の異なる音声状態のサンプル断片をそれぞれに抽出することは、
音声データ毎にそれぞれに前記音声データの音声フレーム及び非音声フレームに関するラベリング結果を取得すること、
前記ラベリング結果に基づいて、前記音声データからＮ個の異なる音声状態のサンプル断片を抽出すること、を含む
請求項５に記載の音声の始点及び終点の検出方法。
前記音声状態は、静音状態、始点状態、音声保持状態及び終点状態を含む
請求項５に記載の音声の始点及び終点の検出方法。
前記取得された音声データ毎からＮ個の異なる音声状態のサンプル断片をそれぞれに抽出することは、
取得された音声データ毎からランダムにＮ個の異なる音声状態のサンプル断片をそれぞれに抽出すること、を含み、
そのうち、前記始点状態のサンプル断片において、音声の始点が前記サンプル断片の前半部分に位置し、且つ前記サンプル断片の始点との距離が予定閾値より大きく、
前記終点状態のサンプル断片において、音声の終点が前記サンプル断片の前半部分に位置し、且つ前記サンプル断片の始点との距離が予定閾値より大きい
請求項７に記載の音声の始点及び終点の検出方法。
前記音声状態に基づいて、前記音声データの始点及び終点を確定することは、
前記音声データにおける第１の始点状態の音声断片及び第１の終点状態の音声断片に基づいて、前記音声データの始点及び終点を確定することを含む
請求項７に記載の音声の始点及び終点の検出方法。
音声の始点及び終点の検出装置であって、検出モジュールを含み、
前記検出モジュールには、第１の取得手段と、分割手段と、確定手段とを含み、
前記第１の取得手段が、検出待ちの音声データを取得するために用いられ、
前記分割手段が、前記音声データを、数が１より多い音声断片に分割するために用いられ、
前記確定手段が、予めに訓練した音声活動検出モデルに基づいて、各音声断片の音声状態をそれぞれに確定し、前記音声状態に基づいて前記音声データの始点及び終点を確定するために用いられる
音声の始点及び終点の検出装置。
少なくとも隣接する２つの音声断片の間に重畳が存在する
請求項１０に記載の音声の始点及び終点の検出装置。
前記音声活動検出モデルは、畳み込みニューラルネットワークモデルを含む
請求項１０に記載の音声の始点及び終点の検出装置。
前記確定手段は、前記音声活動検出モデルによって前記音声断片に対して分類を行い、前記音声活動検出モデルの出力に基づいて、ビタビ復号アルゴリズムによって前記音声断片の音声状態を確定するために用いられる
請求項１０に記載の音声の始点及び終点の検出装置。
前記音声の始点及び終点の検出装置には訓練モジュールを更に含み、
前記訓練モジュールには、第２の取得手段と、抽出手段と、訓練手段とを含み、
前記第２の取得手段が、訓練データとする音声データを取得するために用いられ、
前記抽出手段が、取得された音声データ毎からＮ（Ｎが１以上の正の整数である）個の異なる音声状態のサンプル断片をそれぞれに抽出することに用いられ、
前記訓練手段が、抽出されたサンプル断片に基づいて訓練して前記音声活動検出モデルを取得することに用いられる
請求項１０に記載の音声の始点及び終点の検出装置。
前記抽出手段は、更に、音声データ毎にそれぞれに前記音声データの音声フレーム及び非音声フレームに関するラベリング結果を取得し、前記ラベリング結果に基づいて、前記音声データからＮ個の異なる音声状態のサンプル断片を抽出するために用いられる
請求項１４に記載の音声の始点及び終点の検出装置。
前記音声状態は、静音状態、始点状態、音声保持状態及び終点状態を含む
請求項１４に記載の音声の始点及び終点の検出装置。
前記抽出手段は、取得された音声データ毎からランダムにＮ個の異なる音声状態のサンプル断片をそれぞれに抽出し、
そのうち、前記始点状態のサンプル断片において、音声の始点が前記サンプル断片の前半部分に位置し、且つ前記サンプル断片の始点との距離が予定閾値より大きく、
前記終点状態のサンプル断片において、音声の終点が前記サンプル断片の前半部分に位置し、且つ前記サンプル断片の始点との距離が予定閾値より大きい
請求項１６に記載の音声の始点及び終点の検出装置。
前記確定手段は、前記音声データにおける第１の始点状態の音声断片及び第１の終点状態の音声断片に基づいて、前記音声データの始点及び終点を確定する
請求項１６に記載の音声の始点及び終点の検出装置。
メモリ、プロセッサ及び前記メモリに記憶され前記プロセッサに実行されるコンピュータプログラムを含むコンピュータ設備であって、
前記プロセッサによって前記コンピュータプログラムが実行される時、請求項１〜９のいずれか1項に記載の音声の始点及び終点の検出方法を実現する
コンピュータ設備。
プロセッサによって実行される時、請求項１〜９のいずれか1項に記載の音声の始点及び終点の検出方法を実現する
コンピュータプログラム。