JP2019215513A

JP2019215513A - 音声区間の検出方法および装置

Info

Publication number: JP2019215513A
Application number: JP2018244499A
Authority: JP
Inventors: チャオリ、; Chao Li; ウェイシンジュー、; Weixin Zhu
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2018-06-13
Filing date: 2018-12-27
Publication date: 2019-12-19
Anticipated expiration: 2038-12-27
Also published as: CN108877778B; US10937448B2; CN108877778A; US20190385636A1; JP6676141B2

Abstract

【課題】音声区間検出の正確性を向上する音声区間の検出方法及び装置を提供する。【解決手段】検出方法は、検出対象となる音声に対してフレーミング処理を行って、複数の検出対象となる音声フレームを得るステップと、各検出対象となる音声フレームの音響的特徴を取得して、各検出対象となる音声フレームの音響的特徴を、検出対象となる音声のうちの前のＮ個の音声フレームをノイズフレーム、Ｎ＋１番目の音声フレームから最後の音声フレームを音声フレーム、最後の音声フレーム以降のＭ個のノイズフレームを音声フレームに分類する（Ｎ及びＭは整数である）ための音声アクティビティ検出ＶＡＤモデルに順次入力するステップと、ＶＡＤモデルが出力した分類結果に基づいて、音声フレームに分類された最初の音声フレームに対応する音声区間の開始点および音声フレームに分類された最後の音声フレームに対応する音声区間の終了点を決定するステップとを含む。【選択図】図６

Description

本発明は、音声認識の技術分野に関し、特に音声区間の検出方法および装置に関する。

ヒューマン・コンピュータ相互作用技術の発展に伴い、音声認識技術がその重要性を示す。音声認識システムにおいて、音声区間検出技術は非常に重要な技術であり、通常、音声アクティビティ検出技術（ｖｏｉｃｅａｃｔｉｖｉｔｙｄｅｔｅｃｔｉｏｎ、ＶＡＤ）とも呼ばれる。音声区間検出は連続音声信号内の音声部分の開始点および終了点を見つけることを指す。

従来技術では、ＶＡＤモデルを用いて、音声における音声区間の開始点および終了点を決定することができ、ＶＡＤモデルが分類モデルである。具体的に実施するときに、音声に対してフレーミング処理を行って、各音声フレームの音響的特徴を抽出してＶＡＤモデルに順次入力し、ＶＡＤモデルが音響的特徴に基づいてフレームごとに音声フレームまたはノイズフレームに分類し、最後に、連続した音声フレームのうちの最初の音声フレームを音声区間の開始点、最後の音声フレームを音声区間の終了点とする。

しかしながら、従来の区間検出技術には不正確な問題があり、検出の正確性が低い。

本発明の実施例は、音声区間の正確性を向上させるための音声区間の検出方法および装置を提供する。

第１の態様によれば、本発明の実施例にて提供される音声区間の検出方法は、
検出対象となる音声に対してフレーミング処理を行って、複数の検出対象となる音声フレームを得るステップと、
各前記検出対象となる音声フレームの音響的特徴を取得して、各前記検出対象となる音声フレームの音響的特徴を、前記検出対象となる音声のうちの前のＮ個の音声フレームをノイズフレーム、Ｎ＋１番目の音声フレームから最後の音声フレームを音声フレーム、前記最後の音声フレーム以降のＭ個のノイズフレームを音声フレームに分類する（前記ＮおよびＭは整数である）ための音声アクティビティ検出ＶＡＤモデルに順次入力するステップと、
前記ＶＡＤモデルが出力した分類結果に基づいて、音声フレームに分類された最初の音声フレームに対応する音声区間の開始点および音声フレームに分類された最後の音声フレームに対応する音声区間の終了点を決定するステップとを含む。

１つの可能な設計では、前記ＶＡＤモデルが出力した分類結果に基づいて、音声区間の開始点および終了点を決定する前記ステップは、
前記ＶＡＤモデルが出力した、第１の閾値より大きい最初の第１の分類値に対応する音声フレームに基づいて、最初の音声フレームを決定して、前記最初の音声フレームに基づいて、前記音声区間の開始点を決定するステップと、
前記最初の音声フレームを決定した後、前記ＶＡＤモデルが出力した、前記第１の閾値より小さい第２の閾値より小さい最初の第２の分類値に対応する音声フレームに基づいて、最後の音声フレームを決定して、前記最後の音声フレームに基づいて、前記音声区間の終了点を決定するステップとを含む。

１つの可能な設計では、前記ＶＡＤモデルが出力した、第１の閾値より大きい最初の第１の分類値に対応する音声フレームに基づいて、最初の音声フレームを決定した前記ステップの後、さらに、
キャッシュメモリから前記最初の音声フレームの前のＰ（Ｐは正整数であり、且つ前記Ｎより大きい）フレームの音声フレームを取得する前記ステップと、
前記Ｐフレームの音声フレームおよび音声フレームとして決定された音声フレームを音声認識装置に送信するステップとを含む。

１つの可能な設計では、各前記音声フレームの音響的特徴を音声アクティビティ検出ＶＡＤモデルに順次入力する前記ステップの前に、さらに、
訓練対象となる音声に対してフレーミング処理を行って、複数の訓練対象となる音声フレームを得るステップと、
前のＮ個の音声フレームがノイズフレーム、Ｎ＋１番目の音声フレームから最後の音声フレームが音声フレーム、前記最後の音声フレーム以降のＭ個のノイズフレームが音声フレームに分類された各前記訓練対象となる音声フレームの音響的特徴、および、各前記訓練対象となる音声フレームの音響的特徴に対応する、訓練対象となる音声フレームの分類結果を指示するためのラベルを取得するステップと、
前記訓練対象となる音声フレームの音響的特徴、および、各前記訓練対象となる音声フレームの音響的特徴に対応するラベルに基づいて、訓練対象となるＶＡＤモデルに対して訓練を行って、訓練後のＶＡＤモデルを得るステップとを含む。

１つの可能な設計では、各前記訓練対象となる音声フレームの音響的特徴に対応するラベルを取得する前記ステップは、
各前記訓練対象となる音声フレームの音響的特徴に対して順次アノテーション処理を行って、各前記訓練対象となる音声フレームの音響的特徴に対応する候補ラベルを得るステップと、
音声フレームを指示するための前のＮ個の候補ラベルを修正して、前のＮ個の音声フレームがノイズフレームに分類されたことを指示するための第１のラベルを得るステップと、
ノイズフレームを指示するための最後の音声フレーム以降のＭ個の候補ラベルを修正して、前記Ｍ個のノイズフレームが音声フレームに分類されたことを指示するための第２のラベルを得るステップと、
残りの候補ラベル、前記第１のラベルおよび前記第２のラベルに基づいて、各前記訓練対象となる音声フレームの音響的特徴に対応するラベルを得るステップとを含む。

１つの可能な設計では、前記ＶＡＤモデルはディープニューラルネットワークモデルである。

１つの可能な設計では、前記ＮはＭ以上である。

第２の態様によれば、本発明の実施例にて提供される音声区間の検出装置は、
検出対象となる音声に対してフレーミング処理を行って、複数の検出対象となる音声フレームを得るためのフレーミングモジュールと、
各前記検出対象となる音声フレームの音響的特徴を取得して、各前記検出対象となる音声フレームの音響的特徴を、前記検出対象となる音声のうちの前のＮ個の音声フレームをノイズフレーム、Ｎ＋１番目の音声フレームから最後の音声フレームを音声フレーム、前記最後の音声フレーム以降のＭ個のノイズフレームを音声フレームに分類する（前記ＮおよびＭは整数である）ための音声アクティビティ検出ＶＡＤモデルに順次入力するための検出モジュールと、
前記ＶＡＤモデルが出力した分類結果に基づいて、音声フレームに分類された最初の音声フレームに対応する音声区間の開始点および音声フレームに分類された最後の音声フレームに対応する音声区間の終了点を決定するための決定モジュールとを備える。

１つの可能な設計では、前記決定モジュールは、
前記ＶＡＤモデルが出力した、第１の閾値より大きい最初の第１の分類値に対応する音声フレームに基づいて、最初の音声フレームを決定して、前記最初の音声フレームに基づいて、前記音声区間の開始点を決定し、
前記最初の音声フレームを決定した後、前記ＶＡＤモデルが出力した、前記第１の閾値より小さい第２の閾値より小さい最初の第２の分類値に対応する音声フレームに基づいて、最後の音声フレームを決定して、前記最後の音声フレームに基づいて、前記音声区間の終了点を決定する。

１つの可能な設計では、前記ＶＡＤモデルが出力した、第１の閾値より大きい最初の第１の分類値に対応する音声フレームに基づいて、最初の音声フレームを決定した後、キャッシュメモリから前記最初の音声フレームの前のＰ（Ｐは正整数であり、且つ前記Ｎより大きい）フレームの音声フレームを取得し、
前記Ｐフレームの音声フレームおよび音声フレームとして決定された音声フレームを音声認識装置に送信するための通信モジュールをさらに備える。

１つの可能な設計では、各前記音声フレームの音響的特徴を音声アクティビティ検出ＶＡＤモデルに順次入力する前、
訓練対象となる音声に対してフレーミング処理を行って、複数の訓練対象となる音声フレームを得て、
前のＮ個の音声フレームがノイズフレーム、Ｎ＋１番目の音声フレームから最後の音声フレームが音声フレーム、前記最後の音声フレーム以降のＭ個のノイズフレームが音声フレームに分類された各前記訓練対象となる音声フレームの音響的特徴、および、各前記訓練対象となる音声フレームの音響的特徴に対応する、訓練対象となる音声フレームの分類結果を指示するためのラベルを取得し、
前記訓練対象となる音声フレームの音響的特徴、および、各前記訓練対象となる音声フレームの音響的特徴に対応するラベルに基づいて、訓練対象となるＶＡＤモデルに対して訓練を行って、訓練後のＶＡＤモデルを得るための訓練モジュールをさらに備える。

１つの可能な設計では、前記訓練モジュールは、
各前記訓練対象となる音声フレームの音響的特徴に対して順次アノテーション処理を行って、各前記訓練対象となる音声フレームの音響的特徴に対応する候補ラベルを得て、
音声フレームを指示するための前のＮ個の候補ラベルを修正して、前のＮ個の音声フレームがノイズフレームに分類されたことを指示するための第１のラベルを得て、
ノイズフレームを指示するための最後の音声フレーム以降のＭ個の候補ラベルを修正して、前記Ｍ個のノイズフレームが音声フレームに分類されたことを指示するための第２のラベルを得て、
残りの候補ラベル、前記第１のラベルおよび前記第２のラベルに基づいて、各前記訓練対象となる音声フレームの音響的特徴に対応するラベルを得る。

１つの可能な設計では、前記ＮはＭ以上である。

第３の態様によれば、本発明の実施例にて提供される音声区間の検出装置は、メモリに記憶されたコンピュータ実行可能命令を実行して、上記第１の態様および第１の態様の各種可能な設計に記載の音声区間の検出方法を実行する少なくとも１つのプロセッサと、コンピュータ実行可能命令を記憶しているメモリとを備える。

第４の態様によれば、本発明の実施例にて提供されるコンピュータ読み取り可能な記憶媒体は、コンピュータ実行可能命令が記憶されており、プロセッサが前記コンピュータ実行可能命令を実行すると、上記第１の態様および第１の態様の各種可能な設計に記載の音声区間の検出方法を実現する。

本実施例による音声区間の検出方法および装置では、該方法は、検出対象となる音声に対してフレーミング処理を行って、複数の検出対象となる音声フレームを得て、各検出対象となる音声フレームの音響的特徴を取得して、各検出対象となる音声フレームの音響的特徴を音声アクティビティ検出ＶＡＤモデルに順次入力し、ＶＡＤモデルが出力した分類結果に基づいて、音声区間の開始点および終了点を決定し、該ＶＡＤモデルによって、検出対象となる音声のうちの前のＮ個の音声フレームをノイズフレームに分類し、それにより、ノイズフレームの音声認識装置への誤伝送を防止でき、該ＶＡＤモデルによって、Ｎ＋１番目の音声フレームから最後の音声フレームを音声フレーム、最後の音声フレーム以降のＭ個のノイズフレームを音声フレームに分類することにより、声が小さいことにより早めに終了点を決定するという問題を回避するとともに、ユーザーが一時的に停止して１つの文を２つの文に分割する状況を避け、音声区間検出の正確性を高める。

本発明の実施例または従来技術における技術案をより明確に説明するために、以下、実施例または従来技術の説明に用いる図面を簡単に説明し、当然ながら、後述する図面は本発明のいくつかの実施例に過ぎず、当業者であれば、創造的な労力を行わなくても、これらの図面に基づき他の図面を得ることができる。
本発明の実施例による音声認識システムの音声認識原理の概略図である。本発明の実施例によるＶＡＤモデル取得のフローチャートである。本発明の実施例による音響的特徴の構造概略図である。本発明の実施例による音響的特徴に対応する候補ラベルの概略図である。本発明の実施例によるラベル修正の概略図である。本発明の実施例による音声区間の検出方法のプロセスの概略図１である。本発明の実施例による音声区間の検出方法のプロセスの概略図２である。本発明の実施例による音声区間の検出装置の構造概略図１である。本発明の実施例による音声区間の検出装置の構造概略図２である。本発明の実施例による音声区間の検出装置のハードウェア構造の概略図である。

本発明の実施例の目的、技術案および利点をより明確にするために、以下、本発明の実施例における図面を参照しながら、本発明の実施例における技術案を明確で、完全に説明するが、当然ながら、説明される実施例は、本発明のすべての実施例ではなく、その一部に過ぎない。本発明の実施例に基づき、当業者が創造的な労力を要さずに想到しうる他の実施例は、いずれも本発明の技術的範囲に属するものである。

図１は、本発明の実施例による音声認識システムの音声認識原理の概略図である。音声認識（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ、ＡＳＲ）が解決すべき問題はコンピュータに人間の声を「理解」させ、声をテキストに変換することである。図１に示されるように、該音声認識システムの認識過程はフロントエンド処理過程とバックエンド処理過程とを含む。フロントエンドはインテリジェントフォン、インテリジェントスピーカ、インテリジェントテレビ、インテリジェント冷蔵庫など、ユーザーとの音声対話を実行できる様々なインテリジェント端末であってもよく、本実施例では、インテリジェント端末の実現方式について特に制限しない。バックエンドはデータ論理処理が可能なサーバーであってもよく、当業者であれば、バックエンドはインテリジェント端末のプロセッサでもあり得ることを理解できる。事前に訓練された音響モデルおよび音声モデルはバックエンドに格納することができる。音響モデルは、音声から音節への確率の計算に対応し、音声モデルは、音節から単語への確率の計算に対応する。

具体的な実施過程において、フロントエンドは、音声を受信した後、受信した音声に対してフレーミング処理を行い、次に区間検出を行い、音声区間の開始点が検出された後、開始点後の音声フレームについてノイズ低減処理を行い、次に特徴抽出を音声区間の終了点が検出されるまで行い、抽出した音響的特徴、音響モデル、音声モデルに基づいて復号し、認識結果を得る。可能な実施形態では、復号とは音響モデル、辞書および言語モデルを１つのネットワークとしてコンパイルすることである。復号とは、この動的ネットワーク空間において、最大事後確率に基づいて、認識結果（最適出力文字列）として１つ以上の最適経路を選択することである。

以上から分かるように、この過程において区間検出が特に重要なことであり、音声認識システムの入力を決める。しかしながら、従来の区間検出では、音声区間前のノイズセグメントが音声に分類されるため、開始点の検出が正確ではない場合があり、同時にユーザーの声が小さくなったり、または一時的に停止したりする場合、終了点の検出が不正確であることなどがあり、従って、区間検出の正確性が不十分である。これに基づいて、本発明の実施例は、音声区間検出の正確性を向上できる音声区間の検出方法を提供する。

本実施例では、音声アクティビティ検出（ｖｏｉｃｅａｃｔｉｖｉｔｙｄｅｔｅｃｔｉｏｎ、ＶＡＤ）モデルを用いて音声区間検出を行う。本実施例では、該ＶＡＤモデルにおける開始点および終了点に対して異なるアルゴリズム制約を行うことで、音声区間検出の正確性を向上させる。本実施例では、該アルゴリズム制約の可能な実施形態を提供して、音声開始点および音声終了点について遅延制御を行って、十分な信頼区間を取得し、それにより音声区間検出の正確性を向上させる。以下、それぞれ訓練モデルおよび使用モデルの２つの面から詳細に説明する。

図２は、本発明の実施例によるＶＡＤモデル取得のフローチャートである。図２に示されるように、該方法は、Ｓ２０１〜Ｓ２０３を含む。

Ｓ２０１では、訓練対象となる音声に対してフレーミング処理を行って、複数の訓練対象となる音声フレームを得る。

具体的な実施過程において、ユーザーの複数の音声を訓練対象となる音声として収集し、たとえば、それぞれ約数秒の音声を１万収集する。訓練対象となる音声ごとに、各訓練対象となる音声についてフレーミング処理を行って、複数の訓練対象となる音声フレームを得る。

具体的には、予め設定されたフレーム長および予め設定されたフレームシフトに基づいてフレーミング処理を行い、たとえばフレーム長は２５ｍｓ、フレームシフトは１０ｍｓである。それによって、フレームごとのシーケンスは部分的に重なる。当業者であれば、ここでのフレーム長およびフレームシフトは例示的なものに過ぎず、本実施例では、それについて特に制限しない。

Ｓ２０２では、前のＮ個の音声フレームがノイズフレーム、Ｎ＋１番目の音声フレームから最後の音声フレームが音声フレーム、前記最後の音声フレーム以降のＭ個のノイズフレームが音声フレームに分類された各前記訓練対象となる音声フレームの音響的特徴、および、各前記訓練対象となる音声フレームの音響的特徴に対応する、訓練対象となる音声フレームの分類結果を指示するためのラベルを取得し、
フレーミング結果を得た後、各音声フレームの音響的特徴を抽出する。該音響的特徴は、メルフィルタリング６４次元の特徴であってもよく、メル周波数ケプストラム係数（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ、ＭＦＣＣ）特徴であってもよく、知覚線形予測（ＰｅｒｃｅｐｔｕａｌＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅ、ＰＬＰ）特徴などであってもよく、本実施例では、音響的特徴のタイプについて特に制限しない。

各音声フレームの音響的特徴を取得した後、各音声フレームをノイズフレームまたは音声フレームとして認識し、ノイズフレームまたは音声フレームの認識方式としては、人工認識または音声認識における機械強制アライメント方法などが使用され得、本実施例では、音声フレームをノイズフレームまたは音声フレームとして認識する方式について特に制限しない。

各音声フレームがノイズフレームか音声フレームであることを把握した後、訓練対象となる音声フレームの音響的特徴に対応するラベルを決定する。該ラベルは、訓練対象となる音声フレームの分類結果、すなわち、該音声フレームがノイズフレームか音声フレームに分類されるかを指示する。

本実施例では、区間検出の精度を高めるために、現在フレームが音声フレームである場合にも、直ちにこの音声フレームを分類しない。それは、ノイズ変動を含むことから、十分な信頼区間を確保するのに遅延が必要であり、つまり、音声が発生してから所定時間経過した後にしか、その音声が本当に現れることを確認できないためであり、従って、訓練対象となる音声のうちの前のＮ個の音声フレームはノイズフレーム、Ｎ＋１番目の音声フレームから最後の音声フレームは音声フレームに分類される。

同様に、音声が停止した直後、音声停止であるノイズフレームのラベルを提供できず、十分な信頼区間を蓄積して、音声が本当に終わったことを保証するために遅延が必要であり、従って、最後の音声フレーム以降のＭ個のノイズフレームは音声フレームに分類される。

二値化法でラベリングするとき、音声フレームに対応するラベル値は１、ノイズフレームに対応するラベル値は０である。それによって、音声ごとに、訓練されるデータは無数の｛ｘ、ｙ｝ペアからなる。Ｘは特徴、ｙはラベル（ｌａｂｅｌ）である。

Ｓ２０３では、前記訓練対象となる音声フレームの音響的特徴、および、各前記訓練対象となる音声フレームに対応するラベルに基づいて、訓練対象となるＶＡＤモデルに対して訓練を行って、訓練後のＶＡＤモデルを得る。

訓練対象となる音声フレームの音響的特徴および訓練対象となる音声フレームに対応するラベルを得た後、訓練対象となるＶＡＤモデルに対して訓練を行って、訓練後のＶＡＤモデルを得る。

本実施例では、該ＶＡＤモデルは、ディープニューラルネットワークモデルであり、該ディープニューラルネットワークモデルは、たとえば、リカレントニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ＲＮＮ）であってもよい。具体的に、たとえば、長期短期メモリ（ｌｏｎｇｓｈｏｒｔ−ｔｅｒｍｍｅｍｏｒｙ、ＬＳＴＭ）モデル、またはゲーテッドリカレントユニット（ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ、ＧＲＵ）モデルが使用され得、そのうち、ＧＲＵモデルはＬＳＴＭモデルの１種の変形である。ＧＲＵモデルに対しては、ネットワークは、多層のＲＮＮをスタッキングしてなり、最後の出力層が２個のノードであり、ｓｏｆｔｍａｘをアクティベーション、クロスエントロピーをコスト関数として用いる。１フレームごとに分類結果を有する。

本実施例では、取得したＶＡＤモデルを訓練し、該ＶＡＤモデルの訓練データは、時間経過した後にしか、当該音声が本当に現れることを確認できず、音声が停止する場合、十分な信頼区間を蓄積して、音声が本当に終わったことを保証するために遅延が必要であることを十分に考慮するため、区間検出の正確性を向上させる。

以下、具体的な実施形態にて、各音声フレームに対するアノテーションについて説明する。

図３は、本発明の実施例による音響的特徴の構造概略図である。図３に示されるように、訓練対象となる音声をフレーミング処理して、５５０フレームの音声フレームを得る。横軸は音声フレームの順番、縦軸は音響的特徴Ｘを示す。

該音響的特徴Ｘについては、人工アノテーションまたは音声認識における機器強制アライメント方法を用いて、アノテーションを取得する。実際なノイズおよび音声の状況についてアノテーションを行って、対応するラベルを候補ラベルと呼ぶ。具体的には、各訓練対象となる音声フレームの音響的特徴について順次アノテーション処理を行って、各訓練対象となる音声フレームの音響的特徴に対応する候補ラベルを得る。

図４は、本発明の実施例による音響的特徴に対応する候補ラベルの概略図である。図４に示されるように、音声フレームに対応する候補ラベルは１、ノイズフレームに対応する候補ラベルは０である。

本実施例では、候補ラベルを修正することによって、訓練モデル用のサンプルデータを得る。具体的には、音声フレームを指示するための前のＮ個の候補ラベルを修正して、前のＮ個の音声フレームがノイズフレームに分類されたことを指示するための修正後の第１のラベルを得て、ノイズフレームを指示するための最後の音声フレーム以降のＭ個の候補ラベルを修正して、Ｍ個のノイズフレームが音声フレームに分類されたことを指示するための修正後の第２のラベルを得て、残りの候補ラベル、第１のラベルおよび第２のラベルに基づいて、各訓練対象となる音声フレームの音響的特徴に対応するラベルを得る。

本実施例では、図４の実施例における候補ラベルの修正を例にして、図５におけるラベルの修正過程を参照しながら、詳細に説明する。

図５は、本発明の実施例によるラベル修正の概略図である。図５に示されるように、本実施例では、ＮがＭより大きいように設定してもよく、それは、音声の終了点検出にはアルゴリズム信頼区間と応答速度を平衡化させる必要があるため、あまりにも遅延させてはならないことから、Ｍを小さく設定すると、アルゴリズム信頼区間と応答速度を満たすためである。同時に、音声の開始点では、ユーザーが話していて、システムからの応答を必要としないため、より長く遅延させても構わない。遅延時間が長いほど、蓄積する信頼区間は高まる。

場合によっては、本実施例では、Ｎ＝２０、Ｍ＝１０を例にして詳細に説明する。図５に示されるように、破線は候補ラベルを示し、候補ラベルを修正するとき、前の２０フレームの音声フレームをノイズフレームに分類し、すなわち、ラベルを１から０に修正する。最後の音声フレーム以降の１０フレームのノイズフレームを音声フレームに分類し、すなわち、ラベルを０から１に修正し、残りの候補ラベルについては、修正しない。

当業者に自明なように、このように設定すると、十分な信頼区間が得られる。たとえば、開始点に対しては、従来技術であるＶＡＤモデルを用い、第１のフレームから第１８のフレームが実際にノイズフレームであるが、第１のフレームから第１０のフレームが音声フレームに分類される場合、第１のフレームを音声区間の開始点、第１０のフレームを音声区間の終了点として決定し、このような場合、ノイズセグメントを音声区間と間違うことがある。本実施例のように訓練データを設定することによって、前の２０フレームが音声フレームであると決定したときに、すなわち、十分な信頼区間が蓄積された後に、音声区間の発生を決定し、このように、ノイズを音声区間と間違う場合を避ける。

さらに、たとえば、終了点に対しては、従来技術であるＶＡＤモデルを用い、第２０のフレームから第４０のフレームが音声フレーム、第４１のフレームから第４２のフレームがノイズフレーム、第４３のフレームから第６０のフレームが音声フレームであると決定すると、第２０のフレームから第４０のフレームを音声区間、第４３のフレームから第６０のフレームをもう１つの音声区間と決定し、ただし、ユーザーが第４１のフレームおよび第４２のフレームで発生する声音が小さくなりまたは一時的に停止すると、従来のＶＡＤモデルはそれを２つの文に分割するのに対して、本実施例では、遅延方式で訓練データを設定するので、ノイズフレームの信頼区間が所定程度まで蓄積したときにしか、音声が本当に終わったと決定しないため、訓練データを取得する過程において、十分な信頼区間を取得するように、ノイズフレームを音声フレームに分類する。

以下、具体的な実施例にて、本発明の実施例では該訓練モデルを用いて区間検出を行う方法について説明する。

図６は、本発明の実施例による音声区間の検出方法のプロセスの概略図１である。図６に示されるように、該方法は、Ｓ６０１〜Ｓ６０３を含む。

Ｓ６０１では、検出対象となる音声に対してフレーミング処理を行って、複数の検出対象となる音声フレームを得る。

検出対象となる音声に対してフレーミング処理を行う過程は、上記Ｓ２０１と類似するため、本実施例では、それについての詳細な説明を省略する。

Ｓ６０２では、各前記検出対象となる音声フレームの音響的特徴を取得して、各前記検出対象となる音声フレームの音響的特徴を、前記検出対象となる音声のうちの前のＮ個の音声フレームをノイズフレーム、Ｎ＋１番目の音声フレームから最後の音声フレームを音声フレーム、前記最後の音声フレーム以降のＭ個のノイズフレームを音声フレームに分類する（前記ＮおよびＭは整数である）ための音声アクティビティ検出ＶＡＤモデルに順次入力する。

検出対象となる音声フレームを得た後、各前記検出対象となる音声フレームの音響的特徴を抽出し、次に該検出対象となる音声フレームの音響的特徴を、図４〜図６に示される方法で訓練済みのＶＡＤモデルに順次入力する。

該ＶＡＤモデルは、音響的特徴ごとに１つの分類値を出力する。当業者に自明なように、上記モデルの訓練過程に対応して、該ＶＡＤモデルは、検出対象となる音声のうちの前のＮ個の音声フレームをノイズフレーム、Ｎ＋１番目の音声フレームから最後の音声フレームを音声フレーム、最後の音声フレーム以降のＭ個のノイズフレームを音声フレームに分類できる。

Ｓ６０３では、前記ＶＡＤモデルが出力した分類結果に基づいて、音声フレームに分類された最初の音声フレームに対応する音声区間の開始点および音声フレームに分類された最後の音声フレームに対応する音声区間の終了点を決定する。

本実施例では、直接ＶＡＤモデルが出力した分類結果に基づいて、開始点および終了点を決定できる。決定した最初の音声フレームを音声区間の開始点、決定した最後の音声フレームを音声区間の終了点とする。

本実施例では、開始点に対しては、第１のフレームから第３０のフレームがノイズフレームに分類されるが、第３１のフレームから第５０のフレームがノイズまたは音声である可能性がある場合、第３１のフレームから第５０のフレームはすべてＶＡＤモデルによりノイズフレームに分類され、第５１のフレームがノイズフレームである場合、第３１のフレームから第５０のフレームは実際にノイズフレームであることを示し、それにより、ノイズフレームを音声認識装置に伝送することを防止する。第５１のフレームが音声フレームである場合、第３１のフレームから第５０のフレームは実際に音声フレームであることを示し、このため、第５１のフレームは音声区間の開始点となり、第５１のフレーム前の３０フレームを第５１のフレーム以降の音声フレームとともに音声認識装置に伝送できる。

終了点に対しては、第５０のフレームから第２３０のフレームが音声フレームであり、第２３１のフレームから第２４０のフレームでは一時的に停止するかまたは声音が小さい場合、本実施例のＶＡＤモデルは、第２３１のフレームおよび第２４０のフレームをノイズフレームではなく、音声フレームに分類し、第２４１のフレームがノイズフレームに分類される場合、音声区間の終了を示し、第２４１のフレームが音声フレームに分類される場合、音声区間が終了していないことを示し、以降、上記方法を用いて音声区間が終了した終了点を判断し続ける。該実施例によれば、声が小さいことにより早めに終了点を決定するという問題を防止し、同時にユーザーの一時的停止により１つの文を２つの文に分割する状況を避ける。

本実施例による音声区間の検出方法は、検出対象となる音声に対してフレーミング処理を行って、複数の検出対象となる音声フレームを得て、各検出対象となる音声フレームの音響的特徴を取得して、各検出対象となる音声フレームの音響的特徴を音声アクティビティ検出ＶＡＤモデルに順次入力し、ＶＡＤモデルが出力した分類結果に基づいて、音声区間の開始点および終了点を決定し、該ＶＡＤモデルによって、検出対象となる音声のうちの前のＮ個の音声フレームをノイズフレームに分類し、それにより、ノイズフレームの音声認識装置への誤伝送を防止でき、該ＶＡＤモデルによって、Ｎ＋１番目の音声フレームから最後の音声フレームを音声フレーム、最後の音声フレーム以降のＭ個のノイズフレームを音声フレームに分類することにより、声が小さいことにより早めに終了点を決定するという問題を回避するとともに、ユーザーが一時的に停止して１つの文を２つの文に分割する状況を避け、音声区間検出の正確性を高める。

図７は、本発明の実施例による音声区間の検出方法のプロセスの概略図２である。図７に示されるように、該方法は、Ｓ７０１〜Ｓ７０５を含む。

Ｓ７０１では、検出対象となる音声に対してフレーミング処理を行って、複数の検出対象となる音声フレームを得る。

Ｓ７０２では、各前記検出対象となる音声フレームの音響的特徴を取得して、各前記検出対象となる音声フレームの音響的特徴を音声アクティビティ検出ＶＡＤモデルに順次入力する。

Ｓ７０３では、前記ＶＡＤモデルが出力した、第１の閾値より大きい最初の第１の分類値に対応する音声フレームに基づいて、最初の音声フレームを決定して、前記最初の音声フレームに基づいて、前記音声区間の開始点を決定する。

Ｓ７０４では、前記最初の音声フレームを決定した後、前記ＶＡＤモデルが出力した、第２の閾値より小さい最初の第２の分類値に対応する音声フレームに基づいて、最後の音声フレームを決定して、前記最後の音声フレームに基づいて、前記音声区間の終了点を決定する。

Ｓ７０５では、キャッシュメモリから前記最初の音声フレームの前のＰ（Ｐは正整数であり、且つ前記Ｎより大きい）フレームの音声フレームを取得し、前記Ｐフレームの音声フレームおよび音声フレームとして決定された音声フレームを音声認識装置に送信する。

Ｓ７０１およびＳ７０２は、図６の実施例におけるＳ６０１およびＳ６０２と類似するため、本実施例では、それについて詳細に説明しない。

当業者に自明なように、ＶＡＤモデルは、有限の訓練データを訓練して得られたＶＡＤモデルであるため、その出力が０または１ではなく、０〜１の間の確率値であることがある。該確率値が１に近いほど、該音声フレームが音声フレームである確率が高まる。従って、Ｓ７０３およびＳ７０４では、本実施例は、第１の閾値および第２の閾値を設定し、第１の閾値および第２の閾値に基づいて、最初の音声フレームおよび最後の音声フレームを判断する。ただし、第１の閾値は第２の閾値より大きい。

具体的には、開始点と終了点が異なる閾値が使用される。モデル訓練に示されるとおり、開始点の遅延がより多く、つまり、ＶＡＤモデルはより多くの信頼区間を蓄積しており、従って、開始点の第１の閾値は高く設定され、たとえば０．６に設定されるが、終了点の検出遅延が少なく、それに対応して、蓄積した信頼区間が少なくなり、従って、使用される第２の閾値は小さくなり、たとえば０．４とされる。

Ｓ７０５では、訓練過程において、前のＮフレームの音声フレームをノイズフレームに分類するため、音声の開始点が検出されたとき、キャッシュメモリから最初の音声フレームの前のＰフレームの音声フレームを取得して、Ｐフレームの音声フレームを音声認識装置に送信し、次に開始点以降の、音声フレームとして決定された音声フレームを音声認識装置に送信し、このように、音声区間の終了点が検出されるまで、１つの音声フレームが決定されるごとに、音声認識装置に１つの音声フレームを送信する。

本実施例による区間検出方法は、検出対象となる音声に対してフレーミング処理を行って、複数の検出対象となる音声フレームを得て、各検出対象となる音声フレームの音響的特徴を取得して、各検出対象となる音声フレームの音響的特徴を音声アクティビティ検出ＶＡＤモデルに順次入力し、ＶＡＤモデルが出力した、第１の閾値より大きい最初の第１の分類値に対応する音声フレームに基づいて、最初の音声フレームを決定して、最初の音声フレームに基づいて音声区間の開始点を決定し、最初の音声フレームを決定した後、ＶＡＤモデルが出力した、第２の閾値より小さい最初の第２の分類値に対応する音声フレームに基づいて、最後の音声フレームを決定して、最後の音声フレームに基づいて、音声区間の終了点を決定し、それによって、開始点の遅延を多くし、終了点の遅延を少なくし、同時にキャッシュメモリから最初の音声フレームの前のＰフレームの音声フレームを取得し、Ｐフレームの音声フレームおよび音声フレームとして決定された音声フレームを音声認識装置に送信し、このように、音声認識装置は完全な音声区間を取得できる。

図８は、本発明の実施例による音声区間の検出装置の構造概略図１である。図８に示されるように、該音声区間の検出装置８０は、フレーミングモジュール８０１と、検出モジュール８０２と、決定モジュール８０３とを備える。

フレーミングモジュール８０１は、検出対象となる音声に対してフレーミング処理を行って、複数の検出対象となる音声フレームを得る。

検出モジュール８０２は、各前記検出対象となる音声フレームの音響的特徴を取得して、各前記検出対象となる音声フレームの音響的特徴を、前記検出対象となる音声のうちの前のＮ個の音声フレームをノイズフレーム、Ｎ＋１番目の音声フレームから最後の音声フレームを音声フレーム、前記最後の音声フレーム以降のＭ個のノイズフレームを音声フレームに分類する（前記ＮおよびＭは整数である）ための音声アクティビティ検出ＶＡＤモデルに順次入力する。

決定モジュール８０３は、前記ＶＡＤモデルが出力した分類結果に基づいて、音声フレームに分類された最初の音声フレームに対応する音声区間の開始点および音声フレームに分類された最後の音声フレームに対応する音声区間の終了点を決定する。

本発明の実施例による音声区間の検出装置では、フレーミングモジュールは、検出対象となる音声に対してフレーミング処理を行って、複数の検出対象となる音声フレームを得て、検出モジュールは、各検出対象となる音声フレームの音響的特徴を取得して、各検出対象となる音声フレームの音響的特徴を音声アクティビティ検出ＶＡＤモデルに順次入力し、決定モジュールは、ＶＡＤモデルが出力した分類結果に基づいて、音声区間の開始点および終了点を決定し、該ＶＡＤモデルによって、検出対象となる音声のうちの前のＮ個の音声フレームをノイズフレームに分類することによって、ノイズフレームの音声認識装置への誤伝送を防止でき、該ＶＡＤモデルによって、Ｎ＋１番目の音声フレームから最後の音声フレームを音声フレーム、最後の音声フレーム以降のＭ個のノイズフレームを音声フレームに分類することにより、声が小さいことにより早めに終了点を決定するという問題を回避するとともに、ユーザーが一時的に停止して１つの文を２つの文に分割する状況を避け、音声区間検出の正確性を高める。

図９は、本発明の実施例による音声区間の検出装置の構造概略図２である。図９に示されるように、該音声区間の検出装置８０はさらに、通信モジュール８０４と、訓練モジュール８０５とを備える。

場合によっては、決定モジュール８０３は、
前記ＶＡＤモデルが出力した、第１の閾値より大きい最初の第１の分類値に対応する音声フレームに基づいて、最初の音声フレームを決定して、前記最初の音声フレームに基づいて、前記音声区間の開始点を決定し、
前記最初の音声フレームを決定した後、前記ＶＡＤモデルが出力した、前記第１の閾値より小さい第２の閾値より小さい最初の第２の分類値に対応する音声フレームに基づいて、最後の音声フレームを決定して、前記最後の音声フレームに基づいて、前記音声区間の終了点を決定する。

場合によっては、通信モジュール８０４は、前記ＶＡＤモデルが出力した、第１の閾値より大きい最初の第１の分類値に対応する音声フレームに基づいて、最初の音声フレームを決定した後、キャッシュメモリから前記最初の音声フレームの前のＰ（Ｐは正整数であり、且つ前記Ｎより大きい）フレームの音声フレームを取得し、
前記Ｐフレームの音声フレームおよび音声フレームとして決定された音声フレームを音声認識装置に送信する。

場合によっては、訓練モジュール８０５は、各前記音声フレームの音響的特徴を音声アクティビティ検出ＶＡＤモデルに順次入力する前、
訓練対象となる音声に対してフレーミング処理を行って、複数の訓練対象となる音声フレームを得て、
前のＮ個の音声フレームがノイズフレーム、Ｎ＋１番目の音声フレームから最後の音声フレームが音声フレーム、前記最後の音声フレーム以降のＭ個のノイズフレームが音声フレームに分類された各前記訓練対象となる音声フレームの音響的特徴、および、各前記訓練対象となる音声フレームの音響的特徴に対応する、訓練対象となる音声フレームの分類結果を指示するためのラベルを取得し、
前記訓練対象となる音声フレームの音響的特徴、および、各前記訓練対象となる音声フレームに対応するラベルに基づいて、訓練対象となるＶＡＤモデルに対して訓練を行って、訓練後のＶＡＤモデルを得る。

場合によっては、訓練モジュール８０５は、
各前記訓練対象となる音声フレームの音響的特徴に対して順次アノテーション処理を行って、各前記訓練対象となる音声フレームの音響的特徴に対応する候補ラベルを得て、
音声フレームを指示するための前のＮ個の候補ラベルを修正して、前のＮ個の音声フレームがノイズフレームに分類されたことを指示するための第１のラベルを得て、
ノイズフレームを指示するための最後の音声フレーム以降のＭ個の候補ラベルを修正して、前記Ｍ個のノイズフレームが音声フレームに分類されたことを指示するための第２のラベルを得て、
残りの候補ラベル、前記第１のラベルおよび前記第２のラベルに基づいて、各前記訓練対象となる音声フレームの音響的特徴に対応するラベルを得る。

場合によっては、前記ＶＡＤモデルはディープニューラルネットワークモデルである。

場合によっては、前記ＮはＭ以上である。

本発明の実施例による区間検出装置は、上記方法の実施例を実行することに用いられ、その実現原理および技術効果は類似するため、本実施例では、ここで詳細な説明を省略する。

図１０は、本発明の実施例による音声区間の検出装置のハードウェア構造の概略図である。図１０に示されるように、本実施例による音声区間の検出装置１００は、少なくとも１つのプロセッサ１００１と、メモリ１００２とを備える。該音声区間の検出装置１００はさらに通信部材１００３を備える。プロセッサ１００１、メモリ１００２および通信部材１００３はバス１００４を介して接続される。

具体的な実施過程において、少なくとも１つのプロセッサ１００１は、メモリ１００２に記憶されたコンピュータ実行可能命令を実行して、少なくとも１つのプロセッサ１００１に上記音声区間の検出装置１００が実行する音声区間の検出方法を実行させる。

本実施例のバックエンドとしてサーバーで実行する場合、該通信部材１００３は、音声フレームをサーバーに送信できる。

プロセッサ１００１の具体的な実現過程については、上記方法例を参照すればよく、その実施原理および技術効果は類似するため、本実施例では、ここで詳細な説明を省略する。

上記図１０に示される実施例において、理解されるように、プロセッサは、中央処理ユニット（英語名：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、略称ＣＰＵ）であってもよく、他の汎用プロセッサ、デジタル信号プロセッサ（英語名：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ、略称ＤＳＰ）、特定用途向け集積回路（英語名：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、略称ＡＳＩＣ）などであってもよい。汎用プロセッサは、マイクロプロセッサまたはいずれかの通常のプロセッサなどであってもよい。本発明において開示されている方法のステップと組み合わせると、ハードウェアプロセッサにより実行されてもよく、またはプロセッサにおけるハードウェアとソフトウェアモジュールの組み合わせにより実行されてもよい。

メモリは、高速ＲＡＭメモリを含んでもよいし、さらに不揮発性メモリＮＶＭ、たとえば少なくとも１つのディスクメモリを含んでもよい。

バスは、インダストリスタンダードアーキテクチャ（ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ、ＩＳＡ）バス、周辺機器相互接続（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔ、ＰＣＩ）バスまたは拡張業界標準アーキテクチャ（ＥｘｔｅｎｄｅｄＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ、ＥＩＳＡ）バスなどであってもよい。バスは、アドレスバス、データバス、コントロールバスなどに分けられる。表示の便宜上、本願の図面におけるバスは、１本だけのバスまたは一種のタイプのバスに限定されない。

本願はさらに、コンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ読み取り可能な記憶媒体にはコンピュータ実行可能命令が記憶されており、プロセッサが前記コンピュータ実行可能命令を実行すると、上記音声区間の検出装置により実行される音声区間の検出方法を実現する。

上記コンピュータ読み取り可能な記憶媒体は、いずれかのタイプの揮発性または不揮発性記憶デバイスまたはそれらの組み合わせ、たとえば、スタティックランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能プログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ）、消去可能プログラマブル読み出し専用メモリ（ＥＰＲＯＭ）、プログラマブル読み出し専用メモリ（ＰＲＯＭ）、読み出し専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクとして実現できる。読み取り可能な記憶媒体は、汎用または専用コンピュータがアクセス可能な任意の利用可能な媒体であってもよい。

例示的な読み取り可能な記憶媒体は、プロセッサに結合され、それにより、プロセッサは、該読み取り可能な記憶媒体から情報を読み取り、且つ該読み取り可能な記憶媒体に情報を書き込むことができる。当然ながら、読み取り可能な記憶媒体は、プロセッサの構成部分であってもよい。プロセッサおよび読み取り可能な記憶媒体は、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔｓ、略称ＡＳＩＣ）に位置してもよい。当然ながら、プロセッサおよび読み取り可能な記憶媒体は、独立ユニットとして装置に存在してもよい。

当業者に自明なように、上記各方法例のすべてまたは一部のステップの実現は、プログラムにより関連するハードウェアを命令して完了させることができる。上記プログラムはコンピュータ読み取り可能な記憶媒体に記憶できる。該プログラムが実行されると、上記各方法例を含むステップが実行される。上記記憶媒体は、ＲＯＭ、ＲＡＭ、磁気ディスクまたは光ディスクなどの様々なプロクラムコードを記憶可能な媒体を含む。

なお、以上の各実施例は本発明の技術案を説明するものであり、それを制限するものではなく、前述の各実施例を参照しながら本発明を詳細に説明したが、当業者に自明なように、前述の各実施例に記載の技術案を変更したり、またはその一部または全部の技術的特徴に対して同等置換を行ったりすることができ、これらの変更または置換は、対応する技術案の本質を本発明の各実施例の技術案の範囲から逸脱させるものではない。

Claims

音声区間の検出方法であって、
検出対象となる音声に対してフレーミング処理を行って、複数の検出対象となる音声フレームを得るステップと、
各前記検出対象となる音声フレームの音響的特徴を取得して、各前記検出対象となる音声フレームの音響的特徴を、前記検出対象となる音声のうちの前のＮ個の音声フレームをノイズフレームに、Ｎ＋１番目の音声フレームから最後の音声フレームを音声フレームに、前記最後の音声フレーム以降のＭ個のノイズフレームを音声フレームに分類する（前記ＮおよびＭは整数である）ための音声アクティビティ検出ＶＡＤモデルに順次入力するステップと、
前記ＶＡＤモデルが出力した分類結果に基づいて、音声フレームに分類された最初の音声フレームに対応する音声区間の開始点および音声フレームに分類された最後の音声フレームに対応する音声区間の終了点を決定するステップと、
を含むことを特徴とする音声区間の検出方法。
前記ＶＡＤモデルが出力した分類結果に基づいて、音声区間の開始点および終了点を決定する前記ステップは、
前記ＶＡＤモデルが出力した、第１の閾値より大きい最初の第１の分類値に対応する音声フレームに基づいて、最初の音声フレームを決定して、前記最初の音声フレームに基づいて、前記音声区間の開始点を決定するステップと、
前記最初の音声フレームを決定した後、前記ＶＡＤモデルが出力した、前記第１の閾値より小さい第２の閾値より小さい最初の第２の分類値に対応する音声フレームに基づいて、最後の音声フレームを決定して、前記最後の音声フレームに基づいて、前記音声区間の終了点を決定するステップと、
を含むことを特徴とする請求項１に記載の方法。
前記ＶＡＤモデルが出力した、第１の閾値より大きい最初の第１の分類値に対応する音声フレームに基づいて、最初の音声フレームを決定した前記ステップの後、さらに、
キャッシュメモリから前記最初の音声フレームの前のＰ（Ｐは正整数であり、且つ前記Ｎより大きい）フレームの音声フレームを取得するステップと、
前記Ｐフレームの音声フレームおよび音声フレームとして決定された音声フレームを音声認識装置に送信するステップと、
を含むことを特徴とする請求項２に記載の方法。
各前記音声フレームの音響的特徴を音声アクティビティ検出ＶＡＤモデルに順次入力する前記ステップの前に、さらに、
訓練対象となる音声に対してフレーミング処理を行って、複数の訓練対象となる音声フレームを得るステップと、
前のＮ個の音声フレームがノイズフレームに、Ｎ＋１番目の音声フレームから最後の音声フレームが音声フレームに、前記最後の音声フレーム以降のＭ個のノイズフレームが音声フレームに分類された各前記訓練対象となる音声フレームの音響的特徴、および、各前記訓練対象となる音声フレームの音響的特徴に対応する、訓練対象となる音声フレームの分類結果を指示するためのラベルを取得するステップと、
前記訓練対象となる音声フレームの音響的特徴、および、各前記訓練対象となる音声フレームの音響的特徴に対応するラベルに基づいて、訓練対象となるＶＡＤモデルに対して訓練を行って、訓練後のＶＡＤモデルを得るステップと、
を含むことを特徴とする請求項１に記載の方法。
各前記訓練対象となる音声フレームの音響的特徴に対応するラベルを取得する前記ステップは、
各前記訓練対象となる音声フレームの音響的特徴に対して順次アノテーション処理を行って、各前記訓練対象となる音声フレームの音響的特徴に対応する候補ラベルを得るステップと、
音声フレームを指示するための前のＮ個の候補ラベルを修正して、前のＮ個の音声フレームがノイズフレームに分類されたことを指示するための第１のラベルを得るステップと、
ノイズフレームを指示するための最後の音声フレーム以降のＭ個の候補ラベルを修正して、前記Ｍ個のノイズフレームが音声フレームに分類されたことを指示するための第２のラベルを得るステップと、
残りの候補ラベル、前記第１のラベルおよび前記第２のラベルに基づいて、各前記訓練対象となる音声フレームの音響的特徴に対応するラベルを得るステップと、
を含むことを特徴とする請求項４に記載の方法。
前記ＶＡＤモデルは、ディープニューラルネットワークモデルであることを特徴とする請求項１から５のいずれか１項に記載の方法。
前記ＮはＭ以上であることを特徴とする請求項１から５のいずれか１項に記載の方法。
音声区間の検出装置であって、
検出対象となる音声に対してフレーミング処理を行って、複数の検出対象となる音声フレームを得るためのフレーミングモジュールと、
各前記検出対象となる音声フレームの音響的特徴を取得して、各前記検出対象となる音声フレームの音響的特徴を、前記検出対象となる音声のうちの前のＮ個の音声フレームをノイズフレームに、Ｎ＋１番目の音声フレームから最後の音声フレームを音声フレームに、前記最後の音声フレーム以降のＭ個のノイズフレームを音声フレームに分類する（前記ＮおよびＭは整数である）ための音声アクティビティ検出ＶＡＤモデルに順次入力するための検出モジュールと、
前記ＶＡＤモデルが出力した分類結果に基づいて、音声フレームに分類された最初の音声フレームに対応する音声区間の開始点および音声フレームに分類された最後の音声フレームに対応する音声区間の終了点を決定するための決定モジュールと、
を備えることを特徴とする音声区間の検出装置。
前記決定モジュールは、
前記ＶＡＤモデルが出力した、第１の閾値より大きい最初の第１の分類値に対応する音声フレームに基づいて、最初の音声フレームを決定して、前記最初の音声フレームに基づいて、前記音声区間の開始点を決定し、
前記最初の音声フレームを決定した後、前記ＶＡＤモデルが出力した、前記第１の閾値より小さい第２の閾値より小さい最初の第２の分類値に対応する音声フレームに基づいて、最後の音声フレームを決定して、前記最後の音声フレームに基づいて、前記音声区間の終了点を決定する、
ことに用いられることを特徴とする請求項８に記載の装置。
前記ＶＡＤモデルが出力した、第１の閾値より大きい最初の第１の分類値に対応する音声フレームに基づいて、最初の音声フレームを決定した後、キャッシュメモリから前記最初の音声フレームの前のＰ（Ｐは正整数であり、且つ前記Ｎより大きい）フレームの音声フレームを取得し、
前記Ｐフレームの音声フレームおよび音声フレームとして決定された音声フレームを音声認識装置に送信する、
ことに用いられる通信モジュールをさらに備えることを特徴とする請求項９に記載の装置。
各前記音声フレームの音響的特徴を音声アクティビティ検出ＶＡＤモデルに順次入力する前に、
訓練対象となる音声に対してフレーミング処理を行って、複数の訓練対象となる音声フレームを得て、
前のＮ個の音声フレームがノイズフレームに、Ｎ＋１番目の音声フレームから最後の音声フレームが音声フレームに、前記最後の音声フレーム以降のＭ個のノイズフレームが音声フレームに分類された各前記訓練対象となる音声フレームの音響的特徴、および、各前記訓練対象となる音声フレームの音響的特徴に対応する、訓練対象となる音声フレームの分類結果を指示するためのラベルを取得し、
前記訓練対象となる音声フレームの音響的特徴、および、各前記訓練対象となる音声フレームの音響的特徴に対応するラベルに基づいて、訓練対象となるＶＡＤモデルに対して訓練を行って、訓練後のＶＡＤモデルを得る、
ことに用いられる訓練モジュールをさらに備えることを特徴とする請求項８に記載の装置。
前記訓練モジュールは、
各前記訓練対象となる音声フレームの音響的特徴に対して順次アノテーション処理を行って、各前記訓練対象となる音声フレームの音響的特徴に対応する候補ラベルを得て、
音声フレームを指示するための前のＮ個の候補ラベルを修正して、前のＮ個の音声フレームがノイズフレームに分類されたことを指示するための第１のラベルを得て、
ノイズフレームを指示するための最後の音声フレーム以降のＭ個の候補ラベルを修正して、前記Ｍ個のノイズフレームが音声フレームに分類されたことを指示するための第２のラベルを得て、
残りの候補ラベル、前記第１のラベルおよび前記第２のラベルに基づいて、各前記訓練対象となる音声フレームの音響的特徴に対応するラベルを得る
ことに用いられることを特徴とする請求項１１に記載の装置。
前記ＶＡＤモデルは、ディープニューラルネットワークモデルであることを特徴とする請求項８から１２のいずれか１項に記載の装置。
前記ＮはＭ以上であることを特徴とする請求項８から１２のいずれか１項に記載の装置。
音声区間の検出装置であって、
少なくとも１つのプロセッサおよびメモリを備え、
前記メモリには、コンピュータ実行可能命令が記憶されており、
前記少なくとも１つのプロセッサは、前記メモリに記憶されたコンピュータ実行可能命令を実行すると、請求項１から７のいずれか１項に記載の音声区間の検出方法を実行する、
ことを特徴とする音声区間の検出装置。
コンピュータ読み取り可能な記憶媒体であって、
コンピュータ実行可能命令が記憶されており、プロセッサが前記コンピュータ実行可能命令を実行すると、請求項１から７のいずれか１項に記載の音声区間の検出方法を実現する、
ことを特徴とするコンピュータ読み取り可能な記憶媒体。