JP6350536B2 - 音声検出装置、音声検出方法及びプログラム - Google Patents

音声検出装置、音声検出方法及びプログラム Download PDF

Info

Publication number
JP6350536B2
JP6350536B2 JP2015543725A JP2015543725A JP6350536B2 JP 6350536 B2 JP6350536 B2 JP 6350536B2 JP 2015543725 A JP2015543725 A JP 2015543725A JP 2015543725 A JP2015543725 A JP 2015543725A JP 6350536 B2 JP6350536 B2 JP 6350536B2
Authority
JP
Japan
Prior art keywords
section
target
speech
voice
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015543725A
Other languages
English (en)
Other versions
JPWO2015059947A1 (ja
Inventor
真 寺尾
真 寺尾
剛範 辻川
剛範 辻川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2015059947A1 publication Critical patent/JPWO2015059947A1/ja
Application granted granted Critical
Publication of JP6350536B2 publication Critical patent/JP6350536B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音声検出装置、音声検出方法及びプログラムに関する。
音声区間検出技術とは、音響信号の中から音声(人の声)が存在する時間区間を検出する技術である。音声区間検出は、様々な音響信号処理において重要な役割を担っている。例えば、音声認識では、検出した音声区間のみを認識対象とすることによって、処理量を低減しつつ湧き出し誤りを抑制して認識できる。耐雑音処理では、音声が検出されなかった非音声区間から雑音成分を推定することによって、音声区間の音質を向上できる。音声符号化では、音声区間のみを符号化することによって、効率的に信号を圧縮できる。
音声区間検出技術は音声を検出する技術であるが、たとえ音声であっても目的外の音声は雑音として扱い、検出の対象としないことが一般的である。例えば、携帯電話を介した会話内容を音声認識するために音声検出を用いる場合、検出すべき音声は携帯電話の使用者が発する音声である。携帯電話で送受信される音響信号に含まれる音声としては、携帯電話の使用者が発する音声以外にも、例えば、使用者の周囲にいる人々が会話している音声や、駅構内のアナウンス音声や、TVが発する音声など様々な音声が考えられるが、これらは検出すべきではない音声である。以下では、検出の対象とすべき音声を「対象音声」と呼び、検出の対象とせずに雑音として扱う音声を「音声雑音」と呼ぶ。また、様々な雑音と無音とをあわせて「非音声」と呼ぶこともある。
下記非特許文献1には、雑音環境下での音声検出精度を向上するために、音響信号の振幅レベル、ゼロ交差数、スペクトル情報およびメルケプストラム係数を入力とした音声GMMと非音声GMMとの対数尤度比、の各特徴に基づいて計算される4つのスコアの重み付き和と所定の閾値とを比較することで、音響信号の各フレームが音声か非音声かを判定する手法が提案されている。
特許第4282227号公報
Yusuke Kida and Tatsuya Kawahara, "Voice Activity Detection based on Optimally Weighted Combination of Multiple Features," Proc. INTERSPEECH 2005, pp.2621-2624, 2005.
しかしながら、非特許文献1に記載の上記提案手法では、非音声GMMとして学習されていない雑音を対象音声として誤って検出してしまう可能性がある。上記提案手法は、非音声GMMとして学習されていない雑音に対しては非音声GMMの尤度が小さくなるため、音声GMMと非音声GMMとの対数尤度比が大きくなり、当該雑音を音声と誤判定してしまうからである。
例えば、電車の走行音が存在する環境下での音声検出を考える。非音声GMMの学習用音響データに電車の走行音が含まれていれば、電車の走行音が存在する区間では非音声GMMの尤度が大きくなる。その結果、音声GMMと非音声GMMとの対数尤度比は小さくなり、非音声であると正しく判定できる。しかし、非音声GMMの学習用音響データに電車の走行音が含まれていなければ、電車の走行音が存在する区間の非音声GMMの尤度は小さくなる。その結果、音声GMMと非音声GMMとの対数尤度比は大きくなり、電車の走行音を音声であると誤検出してしまう。
本発明は、このような事情に鑑みてなされたものであり、非音声モデルとして学習されていない雑音を音声区間として誤検出することなく、対象音声区間を高精度に検出することができる音声検出技術を提供する。
本発明によれば、
音響信号を取得する音響信号取得手段と、
前記音響信号から得られる複数の第1のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算手段、
前記第1のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算手段、及び、
前記尤度の比を用いて、対象音声を含む区間である対象音声区間の候補を決定する区間決定手段、を含む音声区間検出手段と、
前記特徴量を入力として複数の音素各々の事後確率を計算する処理を実行する事後確率計算手段と、
前記第1のフレーム毎に、前記複数の音素の事後確率のエントロピー及び時間差分の少なくとも一方を計算する事後確率ベース特徴計算手段と、
前記事後確率のエントロピー及び時間差分の少なくとも一方を用いて、前記対象音声区間の候補の中から前記対象音声を含まない区間に変更する区間を特定する棄却手段と、
を有する音声検出装置が提供される。
また、本発明によれば、
コンピュータが、
音響信号を取得する音響信号取得工程と、
前記音響信号から得られる複数の第1のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算工程、前記第1のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算工程、及び、前記尤度の比を用いて、対象音声を含む区間である対象音声区間の候補を決定する区間決定工程を含む音声区間検出工程と、
前記特徴量を入力として複数の音素各々の事後確率を計算する処理を実行する事後確率計算工程と、
前記第1のフレーム毎に、前記複数の音素の事後確率のエントロピー及び時間差分の少なくとも一方を計算する事後確率ベース特徴計算工程と、
前記事後確率のエントロピー及び時間差分の少なくとも一方を用いて、前記対象音声区間の候補の中から前記対象音声を含まない区間に変更する区間を特定する棄却工程と、
を実行する音声検出方法が提供される。
また、本発明によれば、
コンピュータを、
音響信号を取得する音響信号取得手段、
前記音響信号から得られる複数の第1のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算手段、前記第1のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算手段、及び、前記尤度の比を用いて、対象音声を含む区間である対象音声区間の候補を決定する区間決定手段、を含む音声区間検出手段、
前記特徴量を入力として複数の音素各々の事後確率を計算する処理を実行する事後確率計算手段、
前記第1のフレーム毎に、前記複数の音素の事後確率のエントロピー及び時間差分の少なくとも一方を計算する事後確率ベース特徴計算手段、
前記事後確率のエントロピー及び時間差分の少なくとも一方を用いて、前記対象音声区間の候補の中から前記対象音声を含まない区間に変更する区間を特定する棄却手段、
として機能させるためのプログラムが提供される。
本発明によれば、非音声モデルとして学習されていない雑音を音声区間として誤検出することなく、対象音声区間を高精度に検出することができる。
上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
第1実施形態における音声検出装置の構成例を概念的に示す図である。 音響信号から複数のフレームを切り出す処理の具体例を示す図である。 第1実施形態における音声検出装置の動作例を示すフローチャートである。 尤度比による音声の検出成功例を示す図である。 尤度比による非音声の検出成功例を示す図である。 尤度比による非音声の検出失敗例を示す図である。 第2実施形態における音声検出装置の構成例を概念的に示す図である。 第2実施形態における音声検出装置の動作例を示すフローチャートである。 第3実施形態における音声検出装置の構成例を概念的に示す図である。 第3実施形態における区間決定部の処理の具体例を示す図である。 第3実施形態における音声検出装置の動作例を示すフローチャートである。 第3実施形態における音声検出装置の効果を説明する図である。 第4実施形態における音声検出装置の構成例を概念的に示す図である。 第4実施形態における第1および第2の区間整形部の具体例を示す図である。 第4実施形態における音声検出装置の動作例を示すフローチャートである。 2種類の音声判定結果をそれぞれ区間整形してから統合する具体例を示す図である。 2種類の音声判定結果を統合してから区間整形する具体例を示す図である。 駅アナウンス雑音下における音量と尤度比の時系列の具体例を示す図である。 ドア開閉雑音下における音量と尤度比の時系列の具体例を示す図である。 第5実施形態における音声検出装置の構成例を概念的に示す図である。 本実施形態の音声検出装置のハードウエア構成の一例を概念的に示す図である。
まず、本実施形態の音声検出装置のハードウエア構成の一例について説明する。
本実施形態の音声検出装置は、可搬型の装置であってもよいし、据置型の装置であってもよい。本実施形態の音声検出装置が備える各部は、任意のコンピュータのCPU(Central Processing Unit)、メモリ、メモリにロードされたプログラム(あらかじめ装置を出荷する段階からメモリ内に格納されているプログラムのほか、CD(Compact Disc)等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムも含む)、そのプログラムを格納するハードディスク等の記憶ユニット、ネットワーク接続用インタフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。
図21は、本実施形態の音声検出装置のハードウエア構成の一例を概念的に示す図である。図示するように、本実施形態の音声検出装置は、例えば、バス8Aで相互に接続されるCPU1A、RAM(Random Access Memory)2A、ROM(Read Only Memory)3A、表示制御部4A、ディスプレイ5A、操作受付部6A、操作部7A等を有する。なお、図示しないが、その他、外部機器と有線で接続される入出力I/F、外部機器と有線及び/又は無線で通信するための通信部、マイク、スピーカ、カメラ、補助記憶装置等の他の要素を備えてもよい。
CPU1Aは各要素とともに電子機器のコンピュータ全体を制御する。ROM3Aは、コンピュータを動作させるためのプログラムや各種アプリケーションプログラム、それらのプログラムが動作する際に使用する各種設定データなどを記憶する領域を含む。RAM2Aは、プログラムが動作するための作業領域など一時的にデータを記憶する領域を含む。
ディスプレイ5Aは、表示装置(LED(Light Emitting Diode)表示器、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ等)を有する。なお、ディスプレイ5Aは、タッチパッドと一体になったタッチパネルディスプレイであってもよい。表示制御部4Aは、VRAM(Video RAM)に記憶されたデータを読み出し、読み出したデータに対して所定の処理を施した後、ディスプレイ5Aに送って各種画面表示を行う。操作受付部6Aは、操作部7Aを介して各種操作を受付ける。操作部7Aは、操作キー、操作ボタン、スイッチ、ジョグダイヤル、タッチパネルディスプレイなどである。
以下、本実施の形態について説明する。なお、以下の実施形態の説明において利用する機能ブロック図(図1、7、9及び13)は、ハードウエア単位の構成ではなく、機能単位のブロックを示している。これらの図においては、各装置は1つの機器により実現されるよう記載されているが、その実現手段はこれに限定されない。すなわち、物理的に分かれた構成であっても、論理的に分かれた構成であっても構わない。
[第1実施形態]
[処理構成]
図1は、第1実施形態における音声検出装置10の処理構成例を概念的に示す図である。第1実施形態における音声検出装置10は、音響信号取得部21、音声区間検出部20、音声モデル231、非音声モデル232、事後確率計算部25、事後確率ベース特徴計算部26、棄却部27等を有する。音声区間検出部20は、スペクトル形状特徴計算部22、尤度比計算部23、区間決定部24等を有する。事後確率ベース特徴計算部26は、エントロピー計算部261、及び、時間差分計算部262を有する。棄却部27は、図示するように分類器28を有してもよい。
音響信号取得部21は、処理の対象となる音響信号を取得し、取得した音響信号から複数のフレームを切り出す。音響信号は音声検出装置10に付属するマイクからリアルタイムに取得しても良いし、事前に録音した音響信号を記録媒体や音声検出装置10が備える補助記憶装置等から取得しても良い。また、音声検出処理を実行するコンピュータとは異なる他のコンピュータからネットワークを介して音響信号を取得しても良い。
音響信号は、時系列なデータである。以下では、音響信号の中の一部のかたまりを「区間」と呼ぶ。各区間は、区間開始時点と区間終了時点とで特定・表現される。音響信号から切り出された(得られた)フレーム各々の識別情報(例:フレームの通番等)で区間開始時点(開始フレーム)及び区間終了時点(終了フレーム)を表現してもよいし、音響信号の開始点からの経過時間で区間開始時点及び区間終了時点を表現してもよいし、その他の手法で表現してもよい。
時系列な音響信号は、検知対象の音声(以下、「対象音声」)を含む区間(以下、「対象音声区間」)と、対象音声を含まない区間(以下、「非対象音声区間」)とに分けられる。時系列順に音響信号を観察すると、対象音声区間と非対象音声区間とが交互に現れる。本実施形態の音声検出装置10は、音響信号の中の対象音声区間を特定することを目的とする。
図2は、音響信号から複数のフレームを切り出す処理の具体例を示す図である。フレームとは、音響信号における短い時間区間のことである。所定のフレーム長の区間を所定のフレームシフト長ずつずらしていくことで、音響信号から複数のフレームを切り出す。通常、隣り合うフレーム同士は重なり合うように切り出される。例えば、フレーム長として30ms、フレームシフト長として10msなどを用いれば良い。
スペクトル形状特徴計算部22は、音響信号取得部21が切り出した複数のフレーム(第1のフレーム)各々に対して、第1のフレームの信号の周波数スペクトルの形状を表す特徴量を計算する処理を実行する。周波数スペクトルの形状を表す特徴量としては、音声認識の音響モデルでよく用いられるメル周波数ケプストラム係数(MFCC)、線形予測係数(LPC係数)、知覚線形予測係数(PLP係数)、および、それらの時間差分(Δ、ΔΔ)などの周知の特徴量を用いれば良い。これらの特徴量は、音声と非音声との分類にも有効であることが知られている。
尤度比計算部23は、第1のフレーム毎に、スペクトル形状特徴計算部22が計算した特徴量を入力として非音声モデル232の尤度に対する音声モデル231の尤度の比(以下、単に「尤度比」、「音声対非音声の尤度比」と言う場合がある)Λを計算する。尤度比Λは、数1に示す式で計算する。
Figure 0006350536
ここで、xtは入力特徴量、Θsは音声モデルのパラメータ、Θnは非音声モデルのパラメータである。尤度比は、対数尤度比として計算しても良い。
音声モデル231と非音声モデル232は、音声区間と非音声区間がラベル付けされた学習用音響信号を用いて事前に学習しておく。このとき、学習用音響信号の非音声区間に、音声検出装置10を適用する環境で想定される雑音を多く含めておくことが望ましい。モデルとしては、例えば、混合ガウスモデル(GMM)を用い、モデルパラメータは最尤推定により学習すれば良い。
区間決定部24は、尤度比計算部23が計算した尤度比を用いて、対象音声を含む対象音声区間の候補を検出する。例えば、区間決定部24は、第1のフレーム毎に、尤度比とあらかじめ定めた所定の閾値とを比較する。そして、区間決定部24は、尤度比が閾値以上である第1のフレームを、対象音声を含む第1のフレーム(以下、「第1の対象フレーム」)の候補と判定し、尤度比が閾値未満である第1のフレームを、対象音声を含まない第1のフレーム(以下、「第1の非対象フレーム」)の候補と判定する。
そして、区間決定部24は、この判定結果に基づき、第1の対象フレームに対応する区間を、「対象音声区間の候補」に決定する。対象音声区間の候補は、第1の対象フレームの識別情報で特定・表現されてもよい。例えば、第1の対象フレームが、フレーム番号6〜9、12〜19、・・・である場合、対象音声区間の候補は、フレーム番号6〜9、12〜19、・・・と表現される。
その他、対象音声区間の候補は、音響信号の開始点からの経過時間を用いて特定・表現されてもよい。この場合、第1の対象フレームに対応する区間を、音響信号の開始点からの経過時間で表現する必要がある。以下、各フレームに対応する区間を、音響信号の開始点からの経過時間で表現する例について説明する。
各フレームに対応する区間は、各フレームが音響信号から切り出した区間の少なくとも一部となる。図2を用いて説明したように、複数のフレーム(第1のフレーム)は、前後するフレームと重複部分を有するように切り出される場合がある。このような場合には、各フレームに対応する区間は、各フレームで切り出された区間の一部となる。各フレームで切り出された区間のいずれを対応する区間とするかは設計的事項である。例えば、フレーム長:30ms、フレームシフト長:10msの場合、音響信号の中の0(開始点)〜30ms部分を切り出したフレーム、10ms〜40ms部分を切り出したフレーム、20ms〜50ms部分を切り出したフレーム等が存在することとなる。この時、例えば、0(開始点)〜30ms部分を切り出したフレームに対応する区間は音響信号の中の0〜10msとし、10ms〜40ms部分を切り出したフレームに対応する区間は音響信号の中の10ms〜20msとし、20ms〜50ms部分を切り出したフレームに対応する区間は音響信号の中の20ms〜30msとしてもよい。このようにすれば、あるフレームに対応する区間は、他のフレームに対応する区間と重なり合わなくなる。なお、複数のフレーム(第1のフレーム)が前後するフレームと重複しないように切り出された場合、各フレームに対応する区間は、各フレームで切り出された部分の全部とすることができる。
事後確率計算部25は、スペクトル形状特徴計算部22が計算した特徴量を入力として、複数の第1のフレーム各々に対して、音声モデル231を用いて複数の音素の事後確率p(qk|xt)を計算する。ここで、xtは時刻tの特徴量、qkは音素kを表す。なお、図1では尤度比計算部23が用いる音声モデルと事後確率計算部25が用いる音声モデルとが共有されているが、尤度比計算部23と事後確率計算部25はそれぞれ異なる音声モデルを用いても良い。また、スペクトル形状特徴計算部22は、尤度比計算部23が用いる特徴量と、事後確率計算部25が用いる特徴量とで異なる特徴量を計算しても良い。
事後確率計算部25が用いる音声モデルとしては、例えば、音素ごとに学習した混合ガウスモデル(音素GMM)を用いることができる。音素GMMは、例えば、/a/、/i/、 /u/、/e/、/o/などの音素ラベルを付与した学習用音声データを用いて学習すれば良い。時刻tにおける音素qkの事後確率p(qk|xt)は、各音素の事前確率p(qk)が音素kによらずに等しいと仮定することで、音素GMMの尤度p(xt|qk)を用いて数2により計算できる。
Figure 0006350536
音素事後確率の計算方法はGMMを用いる方法に限るものではない。例えば、ニューラルネットワークを用いて、音素事後確率を直接計算するモデルを学習しても良い。
また、学習用音声データに対して音素ラベルを付与することなしに、音素に相当する複数のモデルを学習データから自動的に学習しても良い。例えば、人の声のみを含む学習用音声データを用いて1つのGMMを学習し、学習された各ガウス分布の1つ1つを疑似的に音素のモデルと考えても良い。例えば、混合数32のGMMを学習すれば、学習された32の単一ガウス分布は疑似的に複数の音素の特徴を表すモデルである、と考えることができる。この場合の「音素」は人間が音韻論的に定めた音素とは異なるが、本実施形態における「音素」とは、例えば上記で説明したような方法によって学習データから自動的に学習された音素であっても良い。
事後確率ベース特徴計算部26は、エントロピー計算部261、及び、時間差分計算部262から構成される。エントロピー計算部261は、第1のフレーム各々に対して、事後確率計算部25が計算した複数の音素の事後確率p(qk|xt)を用いて、数3により時刻tのエントロピーE(t)を計算する処理を実行する。
Figure 0006350536
音素事後確率のエントロピーは、事後確率が特定の音素に集中しているほど小さな値となる。音素の列で構成されている音声区間は、事後確率が特定の音素に集中しているため、音素事後確率のエントロピーは小さくなる。一方で、非音声区間は、事後確率が特定の音素に集中することが少ないため、音素事後確率のエントロピーは大きくなる。
時間差分計算部262は、第1のフレーム各々に対して、事後確率計算部25が計算した複数の音素の事後確率p(qk|xt)を用いて、数4により時刻tの時間差分D(t)を計算する。
Figure 0006350536
音素事後確率の時間差分の計算方法は数4に限られるものではない。例えば、それぞれの音素事後確率の時間差分の二乗和をとる代わりに、時間差分の絶対値の和をとっても良い。
音素事後確率の時間差分は、事後確率の分布の時間変化が大きいほど大きな値となる。音声区間は、数十ms程度の短時間で次々と音素が変化していくため、音素事後確率の時間差分は大きくなる。一方で、非音声区間は、音素という観点でみたときに短時間で特徴が大きく変化することは少ないため、音素事後確率の時間差分は小さくなる。
棄却部27は、事後確率ベース特徴計算部26が計算した、音素事後確率のエントロピーと時間差分の少なくとも一方を用いて、区間決定部24が検出した対象音声区間の候補を最終的な検出区間(対象音声区間)として出力するか、或いは、棄却(対象音声区間でない区間に変更)するかを判定する。すなわち、棄却部27は、事後確率のエントロピー及び時間差分の少なくとも一方を用いて、対象音声区間の候補の中から対象音声を含まない区間に変更する区間を特定する。
前述したように、音声区間では音素事後確率のエントロピーは小さく時間差分は大きいという特徴があり、非音声区間ではその逆の特徴があるため、エントロピーと時間差分の一方、或いは、両方を用いることで、区間決定部24が決定した対象音声区間の候補が音声であるか非音声であるかを分類することができる。
音響信号の中には、1つまたは互いに分離した複数の対象音声区間の候補が存在し得る(例:1つ目の対象音声区間の候補はフレーム番号6〜9、2つ目の対象音声区間の候補はフレーム番号12〜19、・・・)。棄却部27は、音素事後確率のエントロピーについて、対象音声区間の候補毎に平均することで、平均化エントロピーを計算してもよい。同様に、音素事後確率の時間差分について、対象音声区間の候補毎に平均することで、平均化時間差分を計算してもよい。そして、平均化エントロピーと平均化時間差分を用いて、対象音声区間の候補各々が音声であるか非音声であるかを分類してもよい。すなわち、棄却部27は、音響信号の中の互いに分離した複数の対象音声区間の候補各々に対して、事後確率のエントロピー及び時間差分の少なくとも一方の平均値を計算する処理を実行してもよい。そして、棄却部27は、算出した平均値を用いて、複数の対象音声区間の候補各々を、対象音声を含まない区間とするか否か判定してもよい。
前述したように、音声区間では、音素事後確率のエントロピーが小さくなりやすいものの、中にはエントロピーが大きいフレームも存在する。1つの対象音声区間の候補全体に渡る複数フレームでエントロピーを平均化することで、対象音声区間の候補各々が音声であるか非音声であるかをさらに高精度に判定できる。同様に、音声区間では、音素事後確率の時間差分が大きくなりやすいものの、中には時間差分が小さいフレームも存在する。1つの対象音声区間の候補全体に渡る複数フレームで時間差分を平均化することで、当該対象音声区間の候補各々が音声であるか非音声であるかをさらに高精度に判定できる。本実施形態は、フレーム単位で判断するのでなく、対象音声区間の候補単位で音声であるか非音声であるかを判断することで、精度を向上させている。
棄却部27による対象音声区間の候補各々の分類は、例えば、平均化エントロピーが所定の閾値よりも大きいこと、及び、平均化時間差分が別の所定の閾値よりも小さいこと、の少なくとも一方または両方を満たすときに、当該対象音声区間を非音声であると分類(対象音声を含まない区間に変更)すれば良い。
対象音声区間の候補の別の分類方法としては、例えば平均化エントロピー及び平均化時間差分の少なくとも一方を特徴とした分類器28を用いて、対象音声区間の候補が音声を含むか否かを分類することもできる。分類器28としては、GMM、ロジスティック回帰、サポートベクトルマシンなどを用いれば良い。分類器28の学習データとしては、音声であるか非音声であるかがラベル付けされた複数の音響信号区間から構成される学習用音響データを用いれば良い。
また、より望ましくは、対象音声を含む様々な音響信号から構成される第1の学習用音響データに対して音声区間検出部20を適用し、区間決定部24により検出された互いに分離した複数の対象音声区間の候補に対して音声であるか非音声であるかがラベル付けされたデータを第2の学習用音響データとし、第2の学習用音響データを用いて分類器28を学習すると良い。このように分類器28の学習データを用意することで、音声区間検出部20によって音声区間と判定される音響信号が本当に音声であるか、或いは、非音声であるかを分類することに特化した分類器を学習できるため、棄却部27はさらに高精度な判定が可能となる。
第1実施形態の音声検出装置10は、区間決定部24が出力した対象音声区間の候補が音声であるか非音声であるかを棄却部27が判定し、音声であると判定された場合は、その対象音声区間の候補を対象音声区間として出力する。一方、対象音声区間の候補が非音声であると判定された場合は、その対象音声区間の候補は対象音声区間でない区間に変更され、対象音声区間として出力されない。
[動作例]
以下、第1実施形態における音声検出方法について図3を用いて説明する。図3は、第1実施形態における音声検出装置10の動作例を示すフローチャートである。
音声検出装置10は、処理の対象となる音響信号を取得し、音響信号から複数のフレームを切り出す(S31)。音声検出装置10は、機器に付属するマイクからリアルタイムに取得したり、あらかじめ記憶装置媒体や音声検出装置10に記録された音響データを取得したり、ネットワークを介して他のコンピュータから取得したりすることができる。
次に、音声検出装置10は、S31で切り出された各フレームに対して、当該フレームの信号の周波数スペクトル形状を表す特徴量を計算する(S32)。
次に、音声検出装置10は、S32で計算された特徴量を入力として、各フレームに対して、音声モデル231と非音声モデル232との尤度比を計算する(S33)。音声モデル231と非音声モデル232とは、学習用音響信号を用いた学習によって、あらかじめ作成しておく。
次に、音声検出装置10は、S33で計算された尤度比を用いて、音響信号から対象音声区間の候補を検出する(S34)。
次に、音声検出装置10は、S32で計算された特徴量を入力として、各フレームに対して、音声モデル231を用いて、複数の音素の事後確率を計算する(S35)。音声モデル231は、学習用音響信号を用いた学習によって、あらかじめ作成しておく。
次に、音声検出装置10は、各フレームに対して、S35で計算された音素事後確率を用いて、音素事後確率のエントロピーと時間差分の少なくとも一方を計算する(S36)。
次に、音声検出装置10は、S34で検出した対象音声区間の候補に対して、S36で計算された音素事後確率のエントロピーと時間差分の少なくとも一方の平均値を計算する処理を実行する(S37)。
次に、音声検出装置10は、S37で計算された平均化エントロピーと平均化時間差分の少なくとも一方を用いて、S34で検出した対象音声区間の候補が音声であるか非音声であるかを分類する。音声であると分類した対象音声区間の候補は対象音声区間であると判定し、非音声であると分類した対象音声区間の候補は対象音声区間でないと判定する(S38)。
次に、音声検出装置10は、S38の判定結果を示す出力データを生成する(S39)。すなわち、音響信号の中のS38で対象音声区間であると判定した区間、及び、それ以外の区間(非対象音声区間)を識別する情報を出力する。各区間は、例えばフレームを識別する情報で特定・表現されてもよいし、音響信号の開始点からの経過時間で特定・表現されてもよい。この出力データは、音声検出結果を用いる他のアプリケーション、例えば、音声認識、耐雑音処理、符号化処理などに出力するためのデータであっても良いし、ディスプレイなどに表示させるためのデータであっても良い。
[第1実施形態の作用及び効果]
上述したように第1実施形態では、まず初めに尤度比に基づいて音声区間を仮に検出し、次に音素事後確率のエントロピー及び時間差分の少なくとも一方を用いて、仮検出した区間が音声であるか非音声であるかを判定する。従って、第1実施形態によれば、非音声モデルとして学習されていない雑音が音響信号内に存在する場合でも、そのような雑音を誤って対象音声として検出することなく、対象音声区間を高精度に検出することができる。以下では、その理由について詳細に説明する。
音声対非音声の尤度比を用いて音声区間を検出する手法の一般的な特徴として、雑音が非音声モデルとして学習されていない場合に音声検出精度が低下する、という問題がある。具体的には、非音声モデルとして学習されていない雑音区間を音声区間であると誤検出してしまう。
第1実施形態の音声検出装置10では、音声対非音声の尤度比を用いて音声区間を検出するとともに、さらに、非音声モデルの知識を一切用いずに、音声が持つ性質のみを用いてある区間が音声であるか非音声であるかを判定するため、雑音の種類に非常に頑健な判定が可能となる。音声が持つ性質とは、前述した2つの特徴、すなわち、音声は音素の列で構成されていること、及び、音声区間では数十ms程度の短時間で次々と音素が変化していくこと、である。ある音響信号区間がこれら2つの特徴を備えているかどうかを音素事後確率のエントロピーと時間差分により判定することで、雑音の種類に依存しない判定が可能となる。
以下、図4乃至図6を用いて、音素事後確率のエントロピーが音声と非音声との判別に有効であることを説明する。図4は、音声区間における音声モデル(図では音素/a/、/i/、 /u/、/e/、/o/、・・・の音素モデル)と非音声モデル(図ではNoiseモデル)の尤度の具体例を表す図である。このように、音声区間では、音声モデルの尤度が大きくなるため(図では音素/i/の尤度が大きい)、音声対非音声の尤度比が大きくなる。従って、尤度比によって正しく音声であると判定できる。
図5は、非音声モデルとして学習されている雑音を含む雑音区間における音声モデルと非音声モデルの尤度の具体例を表す図である。このように、学習されている雑音の区間では、非音声モデルの尤度が大きくなるため、音声対非音声の尤度比が小さくなる。従って、尤度比によって正しく非音声であると判定できる。
図6は、非音声モデルとして学習されていない雑音を含む雑音区間における音声モデルと非音声モデルの尤度の具体例を表す図である。このように、学習されていない雑音の区間では、非音声モデルの尤度が小さくなるため、音声対非音声の尤度比は十分小さくならず、場合によってはかなり大きな値となる。従って、尤度比では学習されていない雑音の区間を誤って音声であると判定してしまう。
しかしながら、図5及び図6で示したように、雑音区間においては、特定の音素の事後確率が突出して大きくなることはなく、事後確率が複数の音素に分散する。すなわち、音素事後確率のエントロピーは大きくなる。これに対し、図4で示したように、音声区間においては、特定の音素の事後確率が突出して大きくなる。すなわち、音素事後確率のエントロピーは小さくなる。この特徴を利用することで、音声と非音声を識別することができる。
本発明者らは、音素事後確率のエントロピーと時間差分によって音声と非音声とを正しく分類するには少なくとも数百ms程度の時間長でエントロピーと時間差分とを平均化する必要があることを見出した。そして、そのような性質を最大限生かすために、まず初めに音声区間検出部20によって尤度比を用いて対象音声区間の候補を決定し、次に、音響信号の中に存在する互いに分離した複数の対象音声区間の候補毎に、音素事後確率のエントロピーと時間差分の少なくとも一方を用いて対象音声区間とするか否かを判定する処理構成とした。そのため、第1実施形態の音声検出装置10は様々な雑音が存在する環境下でも高精度に対象音声の区間を検出できる。
[第1実施形態の変形例1]
時間差分計算部262は、音素事後確率の時間差分を数5により計算しても良い。
Figure 0006350536
ここで、nは時間差分をとるフレーム間隔であり、望ましくは音声における平均的な音素間隔に近い値とするのが良い。例えば、音素間隔が約100msとし、フレームシフト長が10msであるとすると、n=10とすれば良い。本変形例によれば、音声区間における音素事後確率の時間差分がより大きな値となり、音声と非音声との判別精度が向上する。
[第1実施形態の変形例2]
リアルタイムに入力される音響信号を処理して音声区間を検出する場合、棄却部27は、区間決定部24が対象音声区間の候補の始端のみを確定している状態において、始端以降で入力された全フレーム区間を対象音声区間の候補として扱って、当該対象音声区間の候補が音声であるか非音声であるかを判定しても良い。そして、当該対象音声区間の候補が音声であると判定した場合に、当該対象音声区間の候補を始端のみが確定した音声検出結果として出力する。本変形例によれば、音声区間の誤検出を抑えつつ、例えば、音声認識のような音声区間の始端が検出されてから処理を開始する処理を、終端が確定するより前の早いタイミングで開始することができる。
本変形例においては、棄却部27は、区間決定部24が音声区間の始端を確定してからある程度の時間、例えば数百ms程度が経過してから、対象音声区間の候補が音声であるか非音声であるかの判定を始めることが望ましい。その理由は、音素事後確率のエントロピー及び時間差分による音声と非音声とを精度よく判定するためには、少なくとも数百ms程度の時間が必要となるためである。
[第1実施形態の変形例3]
事後確率計算部25は、区間決定部24が決定した対象音声区間の候補に対してのみ事後確率を計算する処理を実行してもよい。このとき、事後確率ベース特徴計算部26は、対象音声区間の候補に対してのみ音素事後確率のエントロピーと時間差分の少なくとも一方を計算する。本変形例によれば、対象音声区間の候補に対してのみ、事後確率計算部25、及び、事後確率ベース特徴計算部26が動作するため、計算量を大きく削減できる。棄却部27は、区間決定部24が対象音声区間の候補であると判定した区間が音声であるか非音声であるかを判定するため、本変形例によれば、同じ検出結果を出力しつつ計算量を削減できる。
[第2実施形態]
以下、第2実施形態における音声検出装置10について、第1実施形態と異なる内容を中心に説明する。以下の説明では、第1実施形態と同様の内容については適宜省略する。
[処理構成]
図7は、第2実施形態における音声検出装置10の処理構成例を概念的に示す図である。第2実施形態における音声検出装置10は、第1実施形態に加えて、音量計算部41を更に有する。
音量計算部41は、音響信号取得部21が切り出した複数のフレーム(第2のフレーム)各々に対して、第2のフレームの信号の音量を計算する処理を実行する。音量としては、第2のフレームの信号の振幅やパワー、またはそれらの対数値などを用いれば良い。
或いは、第2のフレームにおける信号のレベルと推定雑音のレベルとの比を信号の音量としても良い。例えば、信号のパワーと推定雑音のパワーとの比を第2のフレームの音量としても良い。推定雑音レベルとの比を用いることで、マイクの入力レベル等の変化に頑健に音量を計算することができる。第2のフレームにおける雑音成分の推定には、例えば、特許文献1のような周知の技術を用いれば良い。
なお、音響信号取得部21は、同じフレーム長および同じフレームシフト長で、音量計算部41が処理する第2のフレームと、スペクトル形状特徴計算部22が処理する第1のフレームとを切り出しても良いし、又は、フレーム長及びフレームシフト長の少なくとも一方において異なる値を用いて、第1のフレームと第2のフレームとを別々に切り出しても良い。例えば、第2のフレームはフレーム長100ms、フレームシフト長20msを用いて切り出し、第1のフレームはフレーム長30ms、フレームシフト長10msを用いて切り出すこともできる。このようにすることで、音量計算部41とスペクトル形状特徴計算部22のそれぞれに最適なフレーム長およびフレームシフト長を用いることができる。
区間決定部24は、尤度比計算部23が計算した尤度比と音量計算部41が計算した音量とを用いて、対象音声区間の候補を検出する。以下、検出方法の一例を説明する。
まず、区間決定部24は、第1のフレーム及び第2のフレームのペアを作成する。第1のフレーム及び第2のフレームのフレーム長及びフレームシフト長が同じである場合、区間決定部24は、音響信号の同じ位置を切り出した第1のフレーム及び第2のフレーム同士をペアにする。第1のフレーム及び第2のフレームのフレーム長及びフレームシフト長の少なくとも一方が異なる場合、区間決定部24は、第1の実施形態で説明した手法などを利用し、音響信号の開始点からの経過時間を用いて、第1のフレームに対応する区間及び第2のフレームに対応する区間を特定する。そして、経過時間が一致する第1のフレーム及び第2のフレーム同士をペアにする。なお、複数の経過時間において同じペアが現れる場合、それらは1つのペアとして扱うことができる。また、1つの第1のフレームが、異なる2つ以上の第2のフレームとペアになってもよい。同様に、1つの第2のフレームが、異なる2つ以上の第1のフレームとペアになってもよい。
ペア作成後、区間決定部24は、ペアごとに以下の処理を実行する。例えば、第1のフレームにおける尤度比をfL、第2のフレームにおける音量をfPとしたとき、数6によって両者の重み付き和としてスコアSを計算する。そして、スコアSが所定の閾値以上であるペアを、対象音声を含むペアと判定し、スコアSが閾値未満であるペアを、対象音声を含むペアではないと判定(対象音声を含まないペアと判定)する。区間決定部24は、対象音声を含むペアに対応する区間を対象音声区間の候補と判定し、対象音声を含まないペアに対応する区間を対象音声区間の候補でないと判定する。各ペアに対応する区間は、フレームの識別情報や、音響信号の開始点からの経過時間等を用いて特定・表現される。
Figure 0006350536
ここで、wLおよびwPは重みを表す。両重みは、開発データを用いて、例えば、音声と非音声の誤り最小化基準等によって学習しても良いし、経験的に定めても良い。
尤度比と音量とを用いて音声区間を検出する別の方法としては、尤度比と音量とを特徴とした分類器28を用いて、各フレームが音声であるか非音声であるかを分類しても良い。分類器28としては、GMM、ロジスティック回帰、サポートベクトルマシンなどを用いれば良い。分類器28の学習データとしては、音声であるか非音声であるかがラベル付けされた音響信号を用いれば良い。
[動作例]
以下、第2実施形態における音声検出方法について図8を用いて説明する。図8は、第2実施形態における音声検出装置10の動作例を示すフローチャートである。図8では、図3と同じ工程については、図3と同じ符号を付している。前の実施形態で説明した工程についての説明は省略する。
S51では、音声検出装置10は、S31で切り出された各フレームに対して、当該フレームの信号の音量を計算する。
S52では、音声検出装置10は、S33で計算された尤度比と、S51で計算された音量とを用いて、音響信号から対象音声区間の候補を検出する。
[第2実施形態の作用及び効果]
上述したように、第2実施形態では、音声対非音声の尤度比に加えて、音響信号の音量も用いて対象音声区間の候補の検出を行う。従って、第2実施形態によれば、人の声を含んだ音声雑音が存在する場合でもある程度正確に音声区間を決定できるとともに、非音声モデルとして学習されていない雑音が存在する場合でも、そのような雑音を誤って音声として検出することなく、対象音声区間をさらに高精度に検出することができる。
尤度比、音素事後確率のエントロピー、および、音素事後確率の時間差分は、いずれも音響信号の音量に関する情報を含まない。従って、第1実施形態の音声検出装置10では音量が小さい音声雑音を誤って対象音声として検出してしまう場合がある。第2実施形態の音声検出装置10は、さらに音量を用いて対象音声を検出するため、音声雑音を誤検出することなく、対象音声区間を高精度に検出することができる。
[第3実施形態]
以下、第3実施形態における音声検出装置10について、第2実施形態と異なる内容を中心に説明する。以下の説明では、第2実施形態と同様の内容については適宜省略する。
[処理構成]
図9は、第3実施形態における音声検出装置10の処理構成例を概念的に示す図である。第3実施形態における音声検出装置10は、第2実施形態に加えて、第1の音声判定部61および第2の音声判定部62を更に有する。
第1の音声判定部61は、第2のフレーム毎に、音量計算部41が計算した音量とあらかじめ定めた所定の第1の閾値とを比較する。そして、第1の音声判定部61は、音量が第1の閾値以上である第2のフレームを、対象音声を含む第2のフレーム(以下、「第2の対象フレーム」)であると判定し、音量が第1の閾値未満である第2のフレームを、対象音声を含まない第2のフレーム(以下、「第2の非対象フレーム」)であると判定する。第1の閾値は、処理対象の音響信号を用いて決定してもよい。例えば、処理対象の音響信号から切り出した複数の第2のフレーム各々の音量を算出し、算出結果を用いた所定の演算により算出した値(平均値、中間値、上位X%と下位(100−X)%に分ける境界値等)を第1の閾値としてもよい。
第2の音声判定部62は、第1のフレーム毎に、尤度比計算部23が計算した尤度比とあらかじめ定めた所定の第2の閾値とを比較する。そして、第2の音声判定部62は、尤度比が第2の閾値以上である第1のフレームを、対象音声を含む第1のフレーム(第1の対象フレーム)であると判定し、音量が第2の閾値未満である第1のフレームを、対象音声を含まない第1のフレーム(第1の非対象フレーム)であると判定する。
区間決定部24は、音響信号の中の第1の対象フレームに対応する第1の対象区間、及び、第2の対象フレームに対応する第2の対象区間の両方に含まれる区間を、対象音声区間の候補と判定する。すなわち、区間決定部24は、第1の音声判定部61および第2の音声判定部62の両方において対象音声を含むと判定された区間を、対象音声区間の候補であると判定する。
区間決定部24は、第1の対象フレームに対応する区間及び第2の対象フレームに対応する区間を、互いに対比可能な表現(尺度)で特定する。そして、両方に含まれる対象音声区間を特定する。
例えば、第1のフレーム及び第2のフレームのフレーム長及びフレームシフト長が同じである場合、区間決定部24は、フレームの識別情報を用いて、第1の対象区間及び第2の対象区間を特定してもよい。この場合、例えば、第1の対象区間は、フレーム番号6〜9、12〜19、・・・等と表現され、第2の対象区間は、フレーム番号5〜7、11〜19、・・・等と表現される。そして、区間決定部24は、第1の対象区間及び第2の対象区間の両方に含まれるフレームを対象音声区間の候補として特定する。第1の対象区間及び第2の対象区間が上記例で示される場合、対象音声区間の候補は、フレーム番号6〜7、12〜19、・・・と表現される。
その他、区間決定部24は、音響信号の開始点からの経過時間を用いて、第1の対象フレームに対応する区間及び第2の対象フレームに対応する区間を特定してもよい。この場合、例えば第1の実施形態で説明した手法を用いて、第1の対象フレーム及び第2の対象フレーム各々に対応する区間を音響信号の開始点からの経過時間で表現する。そして、区間決定部24は、両方に含まれる時間帯を対象音声区間の候補と特定する。
図10を用いて区間決定部24における処理の一例を説明する。図10の例の場合、第1のフレーム及び第2のフレームは、同じフレーム長及び同じフレームシフト長で切り出されている。図10では、対象音声を含むと判定したフレームを「1」で表し、対象音声を含まない(非音声)と判定したフレームを「0」で表す。図中、「第1の判定結果」が第1の音声判定部61による判定結果であり、「第2の判定結果」が第2の音声判定部62による判定結果である。そして、「統合判定結果」が区間決定部24による判定結果である。図より、区間決定部24は、第1の音声判定部62による第1の判定結果と第2の音声判定部62による第2の判定結果との両方が「1」であるフレーム、すなわちフレーム番号5〜15のフレームに対応する区間を、対象音声区間の候補と判定していることが分かる。
[動作例]
以下、第3実施形態における音声検出方法について図11を用いて説明する。図11は、第3実施形態における音声検出装置10の動作例を示すフローチャートである。図11では、図8と同じ工程については、図8と同じ符号が付されている。前の実施形態で説明した工程についての説明は省略する。
S71では、音声検出装置10は、S51で計算された音量とあらかじめ定めた所定の第1の閾値とを比較する。そして、音声検出装置10は、音量が第1の閾値以上である第2のフレームを、対象音声を含む第2の対象フレームであると判定し、音量が第1の閾値未満である第2のフレームを、対象音声を含まない第2の非対象フレームであると判定する。
S72では、音声検出装置10は、S33で計算された尤度比とあらかじめ定めた所定の第2の閾値とを比較する。そして、音声検出装置10は、尤度比が第2の閾値以上である第1のフレームを、対象音声を含む第1の対象フレームであると判定し、尤度比が第2の閾値未満である第1のフレームを、対象音声を含まない第1の非対象フレームであると判定する。
S73では、音声検出装置10は、S71で判定された第1の対象フレームに対応する区間、及び、S72で判定された第2の対象フレームに対応する区間の両方に含まれる区間を、対象音声区間の候補と判定する。
音声検出装置10の動作は、図11の動作例に限られるものではない。例えば、S51〜S71の処理と、S32〜S72の処理とは、順番を入れ替えて実行しても良い。これらの処理は複数のCPUを用いて同時並列に実行しても良い。また、リアルタイムに入力される音響信号を処理する場合等においては、S31〜S73の各処理を1フレームずつ繰り返し実行しても良い。例えば、S31では入力された音響信号から1フレーム分を切り出し、S51〜S71およびS32〜S72では切り出された1フレーム分のみを処理し、S73ではS71とS72による判定が完了したフレームのみを処理し、入力された音響信号すべてを処理し終わるまでS31〜S73を繰り返し実行するように動作しても良い。
[第3実施形態の作用及び効果]
上述したように第3実施形態では、音量が所定の閾値以上であり、かつ、周波数スペクトルの形状を表す特徴量を入力としたときの音声モデルと非音声モデルとの尤度比が所定の閾値以上である区間を、対象音声区間の候補として検出する。従って、第3実施形態によれば、様々な種類の雑音が同時に存在する環境下においても正確に音声区間を決定できるとともに、非音声モデルとして学習されていない雑音が存在する場合でも、そのような雑音を誤って音声として検出することなく、対象音声区間をさらに高精度に検出することができる。
図12は、第3実施形態の音声検出装置10が、様々な種類の雑音が同時に存在しても正しく対象音声を検出できる効果を説明する図である。図12は、検出すべき対象音声と、検出すべきではない雑音とを「音量」と「音声対非音声の尤度比」の2軸で表される空間上に配置した図である。検出すべき「対象音声」は、マイクに近い位置で発せられるため音量が大きく、また、人の声であるため尤度比も大きくなる。
本発明者らは、音声検出技術を適用する様々な場面における背景雑音を分析した結果、様々な種類の雑音は大きく「音声雑音」と「機械雑音」の2種類に分類でき、両雑音は「音量」と「尤度比」の空間上で図12のようにL字型に分布していることを見出した。
音声雑音は、前述したとおり、人の声を含む雑音である。例えば、周囲の人々の会話音声、駅構内のアナウンス音声、TVが発する音声などである。音声検出技術の適用場面では、これらの音声を検出したくないことがほとんどである。音声雑音は人の声であるため、音声対非音声の尤度比は大きくなる。従って、尤度比で音声雑音と検出すべき対象音声とを区別することはできない。一方で、音声雑音はマイクから離れたところで発せられているため、音量は小さくなる。図12においては、音声雑音の大半は音量が第1の閾値th1よりも小さな領域に存在する。従って、音量が第1の閾値以上である場合に音声と判定することで、音声雑音を棄却することができる。
機械雑音は、人の声を含まない雑音である。例えば、道路工事の音、自動車の走行音、ドアの開閉音、キーボードの打鍵音などである。機械雑音の音量は小さいことも大きいこともあり、場合によっては検出すべき対象音声と同等かそれ以上に大きいこともある。従って、音量で機械雑音と対象音声とを区別することはできない。一方で、機械雑音が非音声モデルとして適切に学習されていれば、機械雑音の音声対非音声の尤度比は小さくなる。図12においては、機械雑音の大半は尤度比が第2の閾値th2よりも小さな領域に存在する。従って、尤度比が所定の第2の閾値以上である場合に音声と判定することで、機械雑音を棄却することができる。
第3実施形態の音声検出装置10は、音量計算部41及び第1の音声判定部61が、音量が小さい雑音、すなわち音声雑音を棄却するよう動作する。また、スペクトル形状特徴計算部22、尤度比計算部23及び第2の音声判定部62が、尤度比が小さい雑音、すなわち機械雑音を棄却するよう動作する。そして、区間決定部24が第1の音声判定部61と第2の音声判定部62の両方で対象音声と判定された区間を対象音声区間の候補として検出する。従って、音声雑音と機械雑音が同時に存在する環境下でも両雑音を誤検出することなく、対象音声区間の候補を高精度に検出できる。さらに、第3実施形態の音声検出装置10は、棄却部27が音素事後確率のエントロピーと時間差分の少なくとも一方を用いて、検出された対象音声区間の候補が本当に音声であるか非音声であるかを判定する。このような構成をとることにより、第3実施形態の音声検出装置10は、音声雑音、機械雑音、非音声モデルとして学習されていない雑音、のいずれの雑音が存在する場合でも、高精度に対象音声区間を検出できる。
[第4実施形態]
以下、第4実施形態における音声検出装置10について、第3実施形態と異なる内容を中心に説明する。以下の説明では、第3実施形態と同様の内容については適宜省略する。
[処理構成]
図13は、第4実施形態における音声検出装置10の処理構成例を概念的に示す図である。第4実施形態における音声検出装置10は、第3実施形態の構成に加えて、第1の区間整形部81および第2の区間整形部82を更に有する。
第1の区間整形部81は、第1の音声判定部61の判定結果に対して、所定の値より短い対象音声区間と所定の値より短い非対象音声区間を除去する整形処理を施すことで、各フレームが音声か否かを判定する。
例えば、第1の区間整形部81は、第1の音声判定部61による判定結果に対して、以下の2つの整形処理のうちの少なくとも一方を実行する。そして、第1の区間整形部81は、整形処理を行った後、整形処理後の判定結果を区間決定部24に入力する。
「音響信号の中の互いに分離した複数の第2の対象区間(第1の音声判定部61が対象音声を含むと判定した第2の対象フレームに対応する区間)の内、長さが所定の値より短い第2の対象区間に対応する第2の対象フレームを、第2の対象フレームでない第2のフレームに変更する整形処理」
「音響信号の中の互いに分離した複数の第2の非対象区間(第1の音声判定部61が対象音声を含まないと判定した第2の対象フレームに対応する区間)の内、長さが所定の値より短い第2の非対象区間に対応する第2のフレームを第2の対象フレームに変更する整形処理」
図14は、第1の区間整形部81が、長さがNs秒未満の第2の対象区間を第2の非対象区間とする整形処理、及び、長さがNe秒未満の第2の非対象区間を第2の対象区間とする整形処理の具体例を示す図である。なお、長さは秒以外の単位、例えばフレーム数で測っても良い。
図14の上段は、整形前の音声検出結果、すなわち第1の音声判定部61の出力を表す。図14の下段は、整形後の音声検出結果を表す。図14の上段を見ると、時刻T1で対象音声を含むと判定されているが、連続して対象音声を含むと判定された区間(a)の長さがNs秒未満である。このため、第2の対象区間(a)は第2の非対象区間に変更される(図14の下段参照)。一方、図14の上段を見ると、時刻T2から始まる第2の対象区間は長さがNs秒以上であるため、第2の非対象区間に変更されず、そのまま第2の対象区間となる(図14の下段参照)。すなわち、時刻T3において、時刻T2を音声検出区間(第2の対象区間)の始端として確定する。
さらに、図14の上段を見ると、時刻T4で非音声と判定されているが、連続して非音声と判定された区間(b)の長さがNe秒未満である。このため、第2の非対象区間(b)は第2の対象区間に変更される(図14の下段参照)。また、図14の上段を見ると、時刻T5から始まる第2の非対象区間(c)も長さがNe秒未満である。このため、第2の非対象区間(c)も第2の対象区間に変更される(図14の下段参照)。一方、図14の上段を見ると、時刻T6から始まる第2の非対象区間は長さがNe秒以上であるため、第2の対象区間に変更されず、そのまま第2の非対象区間となる(図14の下段参照)。すなわち、時刻T7において、時刻T6を音声検出区間(第2の対象区間)の終端として確定する。
なお、整形に用いるパラメータNsおよびNeは、開発用のデータを用いた評価実験等により、あらかじめ適切な値に設定しておく。
以上の整形処理によって、図14の上段の音声検出結果が、下段の音声検出結果に整形される。音声検出区間の整形処理は、上記の手順に限定されるものではない。例えば、上記の手順を経て得られた区間に対してさらに一定長以下の音声区間を除去する処理を加えても良いし、他の方法によって音声検出区間を整形しても良い。
第2の区間整形部82は、第2の音声判定部62の判定結果に対して、所定の値より短い音声区間と所定の値より短い非音声区間を除去する整形処理を施すことで、各フレームが音声か否かを判定する。
例えば、第2の区間整形部82は、第2の音声判定部62による判定結果に対して、以下の2つの整形処理のうちの少なくとも一方を実行する。そして、第2の区間整形部82は、整形処理を行った後、整形処理後の判定結果を区間決定部24に入力する。
「音響信号の中の互いに分離した複数の第1の対象区間(第2の音声判定部62が対象音声を含むと判定した第1の対象フレームに対応する区間)の内、長さが所定の値より短い第1の対象区間に対応する第1の対象フレームを、第1の対象フレームでない第1のフレームに変更する整形処理」
「音響信号の中の互いに分離した複数の第1の非対象区間(第2の音声判定部62が対象音声を含まないと判定した第1の対象フレームに対応する区間)の内、長さが所定の値より短い第1の非対象区間に対応する第1のフレームを第1の対象フレームに変更する整形処理」
第2の区間整形部82の処理内容は第1の区間整形部81と同じであり、入力が第1の音声判定部61の判定結果ではなく、第2の音声判定部62の判定結果となった点が異なる。整形に用いるパラメータ、例えば、図14例におけるNsおよびNeは、第1の区間整形部81と第2の区間整形部82とで異なっても良い。
区間決定部24は、第1の区間整形部81および第2の区間整形部82から入力された整形処理後の判定結果を用いて、対象音声区間の候補を特定する。具体的には、区間決定部24は、第1の区間整形部81および第2の区間整形部82の両方において対象音声を含むと判定された区間を対象音声区間の候補と判定する。本実施形態の区間決定部24の処理内容は第3実施形態の区間決定部24と同じであり、入力が第1の音声判定部61および第2の音声判定部62の判定結果ではなく、第1の区間整形部81および第2の区間整形部82の判定結果である点が異なる。
第4実施形態の音声検出装置10は、区間決定部24により対象音声の候補であると判定された区間を音声検出結果として出力してもよい。
[動作例]
以下、第4実施形態における音声検出方法について図15を用いて説明する。図15は、第4実施形態における音声検出装置の動作例を示すフローチャートである。図15では、図11と同じ工程については、図11と同じ符号が付されている。前の実施形態で説明した工程についての説明は省略する。
S91では、音声検出装置10は、S71の音量に基づく判定結果に整形処理を施すことで、各フレームが音声か否かを判定する。
S92では、音声検出装置10は、S72の尤度比に基づく判定結果に整形処理を施すことで、各フレームが音声か否かを判定する。
S73では、音声検出装置10は、S91及びS92の両方において音声と判定された区間を、対象音声区間の候補であると判定する。
音声検出装置10の動作は、図15の動作例に限られるものではない。例えば、S51〜S91の処理と、S32〜S92の処理とは、順番を入れ替えて実行しても良い。これらの処理は複数のCPUを用いて同時並列に実行しても良い。また、リアルタイムに入力される音響信号を処理する場合等においては、S31〜S73の各処理を1フレームずつ繰り返し実行しても良い。このとき、S91やS92の整形処理は、あるフレームが音声か非音声かを判定するために、当該フレームより後のいくつかのフレームについてS71やS72の判定結果が必要となる。従って、S91やS92の判定結果は判定に必要なフレーム数分だけリアルタイムより遅れて出力される。S73は、S91やS92による判定結果が得られた区間に対して実行するように動作すればよい。
[第4実施形態の作用及び効果]
上述したように、第4実施形態では、音量に基づく音声検出結果に対して整形処理を施すとともに、尤度比に基づく音声検出結果に対して別の整形処理を施した上で、それら2つの整形結果の両方において音声と判定された区間を、対象音声区間の候補として検出する。従って、第4実施形態によれば、様々な種類の雑音が同時に存在する環境下においても対象音声の区間を高精度に検出でき、かつ、発話中の息継ぎ等の短い間によって音声検出区間が細切れになることを防ぐことができる。
図16は、第4実施形態の音声検出装置10が、音声検出区間が細切れになることを防ぐことができる仕組みを説明する図である。図16は、検出すべき1つの発話が入力されたときの、第4実施形態の音声検出装置10の各部の出力を模式的に表した図である。
図16の「音量による判定結果(A)」は第1の音声判定部61の判定結果を表し、「尤度比による判定結果(B)」は第2の音声判定部62の判定結果を表す。図で示されるように、たとえ一続きの発話であっても、音量による判定結果(A)と尤度比による判定結果(B)は複数の音声区間(第1及び第2の対象区間)と非音声区間(第1及び第2の非対象区間)から構成されることが多い。例えば、一続きの発話であっても音量は常に変動しており、部分的に数十ms〜100ms程度音量が低下することはよくみられる。また、一続きの発話であっても、音素の境界などにおいて部分的に数十ms〜100ms程度尤度比が低下することもよくみられる。さらに、音量による判定結果(A)と尤度比による判定結果(B)とでは、対象音声と判定される区間の位置が一致しないことが多い。これは、音量と尤度比がそれぞれ音響信号の異なる特徴を捉えているためである。
図16の「(A)の整形結果」は第1の区間整形部81の整形結果を表し、「(B)の整形結果」は第2の区間整形部82の整形結果を表す。整形処理によって、音量に基づく判定結果中の短い非音声区間(第2の非対象区間)(d)〜(f)、及び、尤度比に基づく判定結果中の短い非音声区間(第1の非対象区間)(g)〜(j)が除去(第1及び第2の対象区間に変更)されて、それぞれ1つの音声検出区間(第1及び第2の対象区間)が得られている。
図16の「統合結果」は区間決定部24の判定結果を表す。第1の区間整形部81および第2の区間整形部82が短い非音声区間(第1及び第2の非対象区間)を除去(第1及び第2の対象区間に変更)しているため、統合結果として1つの発話区間が正しく検出されている。
第4実施形態の音声検出装置10は、以上のように動作するため、検出すべき1つの発話区間が細切れになることを防ぐことができる。
このような効果は、音量に基づく判定結果、及び、尤度比に基づく判定結果のそれぞれに対して独立に区間整形処理を施した上で、それらを統合する構成としたからこそ得られる効果である。図17は、図16と同じ入力信号に対して、まず第3実施形態の音声検出装置10を適用して得られた対象音声区間の候補に対して同様の整形処理を施した場合の各部の出力を模式的に表した図である。図17の「(A)、(B)の統合結果」は第3実施形態の区間決定部24の判定結果(対象音声区間の候補)を表し、「整形結果」は得られた判定結果に対して整形処理を施した結果を表す。前述したように、音声による判定結果(A)と尤度比による判定結果(B)とでは、音声と判定される区間の位置は一致しない。そのため、(A)、(B)の統合結果には、長い非音声区間が現れることがある。図17おける区間(l)がそのような長い非音声区間である。区間(l)の長さは整形処理のパラメータNeよりも長いため、整形処理によって除去されず、非音声の区間(o)として残ってしまう。すなわち、区間決定部24の結果に対して整形処理を施した場合、一続きの発話区間であっても、検出する音声区間が細切れになりやすい。
第4実施形態の音声検出装置10によれば、2種類の判定結果(音量による判定結果及び尤度比による判定結果)を統合する前に、それぞれの判定結果に対して区間整形処理を施すため、一続きの発話区間を細切れにせずに1つの音声区間として検出することができる。
このように、発話の途中で音声検出区間が途切れないように動作することは、検出された音声区間に対して音声認識を適用する場合などにおいて特に効果がある。例えば、音声認識を用いた機器操作においては、発話の途中で音声検出区間が途切れてしまうと、発話の全てを音声認識することができないため、機器操作の内容を正しく認識できない。また、話し言葉では発話が途切れる言い淀み現象が頻発するが、言い淀みによって検出区間が分断されると音声認識の精度が低下しがちである。
以下では、音声雑音下、及び、機械雑音下における音声検出の具体例を示す。
図18は、駅アナウンス雑音下において一続きの発話を行った場合の、音量と尤度比の時系列を表す。1.4〜3.4秒の区間が検出すべき対象音声区間である。駅アナウンス雑音は音声雑音であるため、発話が終了した後の区間(p)においても尤度比は大きい値が継続している。一方、区間(p)における音量は小さい値となっている。従って、第3および第4の実施形態の音声検出装置10によれば、区間(p)は正しく非音声と判定される。さらに、検出すべき対象音声区間(1.4〜3.4秒)では、音量と尤度比が大小の変化を繰り返し、その変化位置も異なっているが、第4実施形態の音声検出装置10によればこのような場合でも、発話区間が途切れることなく、検出すべき対象音声区間を正しく1つの音声区間として検出できる。
図19は、ドアが閉まる音(5.5〜5.9秒)が存在するときに一続きの発話を行った場合の、音量と尤度比の時系列である。1.3〜2.9秒の区間が検出すべき対象音声区間である。ドアが閉まる音は機械雑音であり、この事例では音量が対象音声区間以上に大きい値となっている。一方、ドアが閉まる音の尤度比は小さい値となっている。従って、第3および第4の実施形態の音声検出装置10によれば、このドアが閉まる音は正しく非音声と判定される。さらに、検出すべき対象音声区間(1.3〜2.9秒)では、音量と尤度比が大小の変化を繰り返し、その変化位置も異なっているが、第4実施形態の音声検出装置10によればこのような場合でも検出すべき対象音声区間を正しく1つの音声区間として検出できる。このように、第4実施形態の音声検出装置10は、現実の様々な雑音環境下において効果的であることが確認されている。
[第4実施形態の変形例]
スペクトル形状特徴計算部22は、第1の区間整形部81が対象音声と判定した区間(第2の対象区間)に対してのみ特徴量を計算する処理を実行してもよい。このとき、尤度比計算部23、第2の音声判定部62、及び、第2の区間整形部82は、スペクトル形状特徴計算部22が特徴量を計算したフレーム(第2の対象区間に対応するフレーム)に対してのみ処理を行う。
本変形例によれば、第1の区間整形部81が対象音声と判定した区間(第2の対象区間)に対してのみ、スペクトル形状特徴計算部22、尤度比計算部23、第2の音声判定部62、及び、第2の区間整形部82が動作するため、計算量を大きく削減できる。区間決定部24は、少なくとも第1の区間整形部81が音声と判定した区間でなければ対象音声区間と判定しないため、本変形例によれば、同じ検出結果を出力しつつ計算量を削減できる。
[第5実施形態]
第5実施形態は、第1、第2、第3または第4の実施形態をプログラムにより構成した場合に、そのプログラムにより動作するコンピュータとして実現される。
[処理構成]
図20は、第5実施形態における音声検出装置10の処理構成例を概念的に示す図である。第5実施形態における音声検出装置10は、CPU等を含んで構成されるデータ処理装置12と、磁気ディスクや半導体メモリ等で構成される記憶装置13と、音声検出用プログラム11等を有する。記憶装置13は、音声モデル231や非音声モデル232等を記憶する。
音声検出用プログラム11は、データ処理装置12に読み込まれ、データ処理装置12の動作を制御することにより、データ処理装置12上に第1、第2、第3または第4の実施形態の機能を実現する。すなわち、データ処理装置12は、音声検出用プログラム11の制御によって、音響信号取得部21、スペクトル形状特徴計算部22、尤度比計算部23、区間決定部24、事後確率計算部25、事後確率ベース特徴計算部26、棄却部27、音量計算部41、第1の音声判定部61、第2の音声判定部62、第1の区間整形部81、第2の区間整形部82等の処理を実行する。
上記の各実施形態及び各変形例の一部又は全部は、以下の付記のようにも特定され得る。但し、各実施形態及び各変形例が以下の記載に限定されるものではない。
以下、参考形態の例を付記する。
1. 音響信号を取得する音響信号取得手段と、
前記音響信号から得られる複数の第1のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算手段、
前記第1のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算手段、及び、
前記尤度の比を用いて、対象音声を含む区間である対象音声区間の候補を決定する区間決定手段、を含む音声区間検出手段と、
前記特徴量を入力として複数の音素各々の事後確率を計算する処理を実行する事後確率計算手段と、
前記第1のフレーム毎に、前記複数の音素の事後確率のエントロピー及び時間差分の少なくとも一方を計算する事後確率ベース特徴計算手段と、
前記事後確率のエントロピー及び時間差分の少なくとも一方を用いて、前記対象音声区間の候補の中から前記対象音声を含まない区間に変更する区間を特定する棄却手段と、
を有する音声検出装置。
2. 1に記載の音声検出装置において、
前記棄却手段は、前記対象音声区間の候補に対して、前記事後確率のエントロピー及び時間差分の少なくとも一方の平均値を計算し、前記平均値を用いて、前記対象音声を含まない区間とするか否か判定する処理を実行する音声検出装置。
3. 2に記載の音声検出装置において、
前記棄却手段は、前記エントロピーの前記平均値が所定の閾値よりも大きいこと、及び、前記時間差分の前記平均値が他の所定の閾値よりも小さいこと、の少なくとも一方または両方を満たす前記対象音声区間の候補を、前記対象音声を含まない区間とする音声検出装置。
4. 1に記載の音声検出装置において、
前記棄却手段は、前記事後確率のエントロピー及び時間差分の少なくとも一方に基づいて音声及び非音声に分類する分類器を用いて、前記対象音声区間の候補の中から前記対象音声を含まない区間に変更する区間を特定し、
前記分類器は、前記音声区間検出手段が第1の学習用音響信号に対して前記対象音声区間の候補を判定する処理を行うことで検出された複数の前記対象音声区間の候補各々に対して、音声であるか非音声であるかがラベル付けされた第2の学習用音響信号を用いて学習されている音声検出装置。
5. 1から4のいずれかに記載の音声検出装置において、
前記事後確率計算手段は、前記対象音声区間の候補の前記音響信号に対してのみ、前記事後確率を計算する処理を実行する音声検出装置。
6. 1から5のいずれかに記載の音声検出装置において、
前記音声区間検出手段は、前記音響信号から得られる複数の第2のフレーム各々に対して、音量を計算する処理を実行する音量計算手段をさらに有し、
前記区間決定手段は、前記尤度の比、及び、前記音量を用いて、前記対象音声区間の候補を決定する音声検出装置。
7. 6に記載の音声検出装置において、
前記音声区間検出手段は、
前記音量が第1の閾値以上である前記第2のフレームを、前記対象音声を含む第2の対象フレームと判定する第1の音声判定手段と、
前記尤度の比が第2の閾値以上である前記第1のフレームを、前記対象音声を含む第1の対象フレームと判定する第2の音声判定手段と、
をさらに有し、
前記区間決定手段は、前記第1の対象フレームに対応する第1の対象区間、及び、前記第2の対象フレームに対応する第2の対象区間の両方に含まれる区間を、前記対象音声区間の候補に決定する音声検出装置。
8. 7に記載の音声検出装置において、
前記第1の音声判定手段による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記区間決定手段に入力する第1の区間整形手段と、
前記第2の音声判定手段による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記区間決定手段に入力する第2の区間整形手段と、
をさらに有し、
前記第1の区間整形手段は、
長さが所定の値より短い前記第2の対象区間に対応する前記第2の対象フレームを前記第2の対象フレームでない前記第2のフレームに変更する整形処理、及び、
前記第2の対象区間でない第2の非対象区間の内、長さが所定の値より短い前記第2の非対象区間に対応する前記第2のフレームを前記第2の対象フレームに変更する整形処理、の少なくとも一方を実行し、
前記第2の区間整形手段は、
長さが所定の値より短い前記第1の対象区間に対応する前記第1の対象フレームを前記第1の対象フレームでない前記第1のフレームに変更する整形処理、及び、
前記第1の対象区間でない第1の非対象区間の内、長さが所定の値より短い前記第1の非対象区間に対応する前記第1のフレームを前記第1の対象フレームに変更する整形処理、の少なくとも一方を実行する音声検出装置。
9. コンピュータが、
音響信号を取得する音響信号取得工程と、
前記音響信号から得られる複数の第1のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算工程、前記第1のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算工程、及び、前記尤度の比を用いて、対象音声を含む区間である対象音声区間の候補を決定する区間決定工程を含む音声区間検出工程と、
前記特徴量を入力として複数の音素各々の事後確率を計算する処理を実行する事後確率計算工程と、
前記第1のフレーム毎に、前記複数の音素の事後確率のエントロピー及び時間差分の少なくとも一方を計算する事後確率ベース特徴計算工程と、
前記事後確率のエントロピー及び時間差分の少なくとも一方を用いて、前記対象音声区間の候補の中から前記対象音声を含まない区間に変更する区間を特定する棄却工程と、
を実行する音声検出方法。
9−2. 9に記載の音声検出方法において、
前記棄却工程では、前記対象音声区間の候補に対して、前記事後確率のエントロピー及び時間差分の少なくとも一方の平均値を計算し、前記平均値を用いて、前記対象音声を含まない区間とするか否か判定する処理を実行する音声検出方法。
9−3. 9−2に記載の音声検出方法において、
前記棄却工程では、前記エントロピーの前記平均値が所定の閾値よりも大きいこと、及び、前記時間差分の前記平均値が他の所定の閾値よりも小さいこと、の少なくとも一方または両方を満たす前記対象音声区間の候補を、前記対象音声を含まない区間とする音声検出方法。
9−4. 9−1に記載の音声検出方法において、
前記棄却工程では、前記事後確率のエントロピー及び時間差分の少なくとも一方に基づいて音声及び非音声に分類する分類器を用いて、前記対象音声区間の候補の中から前記対象音声を含まない区間に変更する区間を特定し、
前記分類器は、前記音声区間検出工程により第1の学習用音響信号に対して前記対象音声区間の候補を判定する処理を行うことで検出された複数の前記対象音声区間の候補各々に対して、音声であるか非音声であるかがラベル付けされた第2の学習用音響信号を用いて学習されている音声検出方法。
9−5. 9から9−4のいずれかに記載の音声検出方法において、
前記事後確率計算工程では、前記対象音声区間の候補の前記音響信号に対してのみ、前記事後確率を計算する処理を実行する音声検出方法。
9−6. 9から9−5のいずれかに記載の音声検出方法において、
前記音声区間検出工程では、前記音響信号から得られる複数の第2のフレーム各々に対して、音量を計算する処理を実行する音量計算工程をさらに実行し、
前記区間決定工程では、前記尤度の比、及び、前記音量を用いて、前記対象音声区間の候補を決定する音声検出方法。
9−7. 9−6に記載の音声検出方法において、
前記音声区間検出工程では、
前記音量が第1の閾値以上である前記第2のフレームを、前記対象音声を含む第2の対象フレームと判定する第1の音声判定工程と、
前記尤度の比が第2の閾値以上である前記第1のフレームを、前記対象音声を含む第1の対象フレームと判定する第2の音声判定工程と、
をさらに実行し、
前記区間決定工程では、前記第1の対象フレームに対応する第1の対象区間、及び、前記第2の対象フレームに対応する第2の対象区間の両方に含まれる区間を、前記対象音声区間の候補に決定する音声検出方法。
9−8. 9−7に記載の音声検出方法において、
前記コンピュータは、
前記第1の音声判定工程での判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記区間決定工程に渡す第1の区間整形工程と、
前記第2の音声判定工程での判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記区間決定工程に渡す第2の区間整形工程と、
をさらに実行し、
前記第1の区間整形工程では、
長さが所定の値より短い前記第2の対象区間に対応する前記第2の対象フレームを前記第2の対象フレームでない前記第2のフレームに変更する整形処理、及び、
前記第2の対象区間でない第2の非対象区間の内、長さが所定の値より短い前記第2の非対象区間に対応する前記第2のフレームを前記第2の対象フレームに変更する整形処理、の少なくとも一方を実行し、
前記第2の区間整形工程では、
長さが所定の値より短い前記第1の対象区間に対応する前記第1の対象フレームを前記第1の対象フレームでない前記第1のフレームに変更する整形処理、及び、
前記第1の対象区間でない第1の非対象区間の内、長さが所定の値より短い前記第1の非対象区間に対応する前記第1のフレームを前記第1の対象フレームに変更する整形処理、の少なくとも一方を実行する音声検出方法。
10. コンピュータを、
音響信号を取得する音響信号取得手段、
前記音響信号から得られる複数の第1のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算手段、前記第1のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算手段、及び、前記尤度の比を用いて、対象音声を含む区間である対象音声区間の候補を決定する区間決定手段、を含む音声区間検出手段、
前記特徴量を入力として複数の音素各々の事後確率を計算する処理を実行する事後確率計算手段、
前記第1のフレーム毎に、前記複数の音素の事後確率のエントロピー及び時間差分の少なくとも一方を計算する事後確率ベース特徴計算手段、
前記事後確率のエントロピー及び時間差分の少なくとも一方を用いて、前記対象音声区間の候補の中から前記対象音声を含まない区間に変更する区間を特定する棄却手段、
として機能させるためのプログラム。
10−2. 10に記載のプログラムにおいて、
前記棄却手段に、前記対象音声区間の候補に対して、前記事後確率のエントロピー及び時間差分の少なくとも一方の平均値を計算し、前記平均値を用いて、前記対象音声を含まない区間とするか否か判定する処理を実行させるプログラム。
10−3. 10−2に記載のプログラムにおいて、
前記棄却手段に、前記エントロピーの前記平均値が所定の閾値よりも大きいこと、及び、前記時間差分の前記平均値が他の所定の閾値よりも小さいこと、の少なくとも一方または両方を満たす前記対象音声区間の候補を、前記対象音声を含まない区間とさせるプログラム。
10−4. 10−1に記載のプログラムにおいて、
前記棄却手段に、前記事後確率のエントロピー及び時間差分の少なくとも一方に基づいて音声及び非音声に分類する分類器を用いて、前記対象音声区間の候補の中から前記対象音声を含まない区間に変更する区間を特定させ、
前記分類器は、前記音声区間検出手段が第1の学習用音響信号に対して前記対象音声区間の候補を判定する処理を行うことで検出された複数の前記対象音声区間の候補各々に対して、音声であるか非音声であるかがラベル付けされた第2の学習用音響信号を用いて学習されているプログラム。
10−5. 10から10−4のいずれかに記載のプログラムにおいて、
前記事後確率計算手段に、前記対象音声区間の候補の前記音響信号に対してのみ、前記事後確率を計算する処理を実行させるプログラム。
10−6. 10から10−5のいずれかに記載のプログラムにおいて、
前記コンピュータを、前記音響信号から得られる複数の第2のフレーム各々に対して、音量を計算する処理を実行する音量計算手段としてさらに機能させ、
前記区間決定手段に、前記尤度の比、及び、前記音量を用いて、前記対象音声区間の候補を決定させるプログラム。
10−7. 10−6に記載のプログラムにおいて、
前記コンピュータを、
前記音量が第1の閾値以上である前記第2のフレームを、前記対象音声を含む第2の対象フレームと判定する第1の音声判定手段、
前記尤度の比が第2の閾値以上である前記第1のフレームを、前記対象音声を含む第1の対象フレームと判定する第2の音声判定手段、
としてさらに機能させ、
前記区間決定手段に、前記第1の対象フレームに対応する第1の対象区間、及び、前記第2の対象フレームに対応する第2の対象区間の両方に含まれる区間を、前記対象音声区間の候補に決定させるプログラム。
10−8. 10−7に記載のプログラムにおいて、
前記コンピュータを、
前記第1の音声判定手段による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記区間決定手段に入力する第1の区間整形手段、
前記第2の音声判定手段による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記区間決定手段に入力する第2の区間整形手段、
としてさらに機能させ、
前記第1の区間整形手段に、
長さが所定の値より短い前記第2の対象区間に対応する前記第2の対象フレームを前記第2の対象フレームでない前記第2のフレームに変更する整形処理、及び、
前記第2の対象区間でない第2の非対象区間の内、長さが所定の値より短い前記第2の非対象区間に対応する前記第2のフレームを前記第2の対象フレームに変更する整形処理、の少なくとも一方を実行させ、
前記第2の区間整形手段に、
長さが所定の値より短い前記第1の対象区間に対応する前記第1の対象フレームを前記第1の対象フレームでない前記第1のフレームに変更する整形処理、及び、
前記第1の対象区間でない第1の非対象区間の内、長さが所定の値より短い前記第1の非対象区間に対応する前記第1のフレームを前記第1の対象フレームに変更する整形処理、の少なくとも一方を実行させるプログラム。
この出願は、2013年10月22日に出願された日本出願特願2013−218935号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (10)

  1. 音響信号を取得する音響信号取得手段と、
    前記音響信号から得られる複数の第1のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算手段、
    前記第1のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算手段、及び、
    前記尤度の比を用いて、対象音声を含む区間である対象音声区間の候補を決定する区間決定手段、を含む音声区間検出手段と、
    前記特徴量を入力として複数の音素各々の事後確率を計算する処理を実行する事後確率計算手段と、
    前記第1のフレーム毎に、前記複数の音素の事後確率のエントロピー及び時間差分の少なくとも一方を計算する事後確率ベース特徴計算手段と、
    前記事後確率のエントロピー及び時間差分の少なくとも一方を用いて、前記対象音声区間の候補の中から前記対象音声を含まない区間に変更する区間を特定する棄却手段と、
    を有する音声検出装置。
  2. 請求項1に記載の音声検出装置において、
    前記棄却手段は、前記対象音声区間の候補に対して、前記事後確率のエントロピー及び時間差分の少なくとも一方の平均値を計算し、前記平均値を用いて、前記対象音声を含まない区間とするか否か判定する処理を実行する音声検出装置。
  3. 請求項2に記載の音声検出装置において、
    前記棄却手段は、前記エントロピーの前記平均値が所定の閾値よりも大きいこと、及び、前記時間差分の前記平均値が他の所定の閾値よりも小さいこと、の少なくとも一方または両方を満たす前記対象音声区間の候補を、前記対象音声を含まない区間とする音声検出装置。
  4. 請求項1に記載の音声検出装置において、
    前記棄却手段は、前記事後確率のエントロピー及び時間差分の少なくとも一方に基づいて音声及び非音声に分類する分類器を用いて、前記対象音声区間の候補の中から前記対象音声を含まない区間に変更する区間を特定し、
    前記分類器は、前記音声区間検出手段が第1の学習用音響信号に対して前記対象音声区間の候補を判定する処理を行うことで検出された複数の前記対象音声区間の候補各々に対して、音声であるか非音声であるかがラベル付けされた第2の学習用音響信号を用いて学習されている音声検出装置。
  5. 請求項1から4のいずれか一項に記載の音声検出装置において、
    前記事後確率計算手段は、前記対象音声区間の候補の前記音響信号に対してのみ、前記事後確率を計算する処理を実行する音声検出装置。
  6. 請求項1から5のいずれか一項に記載の音声検出装置において、
    前記音声区間検出手段は、前記音響信号から得られる複数の第2のフレーム各々に対して、音量を計算する処理を実行する音量計算手段をさらに有し、
    前記区間決定手段は、前記尤度の比、及び、前記音量を用いて、前記対象音声区間の候補を決定する音声検出装置。
  7. 請求項6に記載の音声検出装置において、
    前記音声区間検出手段は、
    前記音量が第1の閾値以上である前記第2のフレームを、前記対象音声を含む第2の対象フレームと判定する第1の音声判定手段と、
    前記尤度の比が第2の閾値以上である前記第1のフレームを、前記対象音声を含む第1の対象フレームと判定する第2の音声判定手段と、
    をさらに有し、
    前記区間決定手段は、前記第1の対象フレームに対応する第1の対象区間、及び、前記第2の対象フレームに対応する第2の対象区間の両方に含まれる区間を、前記対象音声区間の候補に決定する音声検出装置。
  8. 請求項7に記載の音声検出装置において、
    前記第1の音声判定手段による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記区間決定手段に入力する第1の区間整形手段と、
    前記第2の音声判定手段による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記区間決定手段に入力する第2の区間整形手段と、
    をさらに有し、
    前記第1の区間整形手段は、
    長さが所定の値より短い前記第2の対象区間に対応する前記第2の対象フレームを前記第2の対象フレームでない前記第2のフレームに変更する整形処理、及び、
    前記第2の対象区間でない第2の非対象区間の内、長さが所定の値より短い前記第2の非対象区間に対応する前記第2のフレームを前記第2の対象フレームに変更する整形処理、の少なくとも一方を実行し、
    前記第2の区間整形手段は、
    長さが所定の値より短い前記第1の対象区間に対応する前記第1の対象フレームを前記第1の対象フレームでない前記第1のフレームに変更する整形処理、及び、
    前記第1の対象区間でない第1の非対象区間の内、長さが所定の値より短い前記第1の非対象区間に対応する前記第1のフレームを前記第1の対象フレームに変更する整形処理、の少なくとも一方を実行する音声検出装置。
  9. コンピュータが、
    音響信号を取得する音響信号取得工程と、
    前記音響信号から得られる複数の第1のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算工程、前記第1のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算工程、及び、前記尤度の比を用いて、対象音声を含む区間である対象音声区間の候補を決定する区間決定工程を含む音声区間検出工程と、
    前記特徴量を入力として複数の音素各々の事後確率を計算する処理を実行する事後確率計算工程と、
    前記第1のフレーム毎に、前記複数の音素の事後確率のエントロピー及び時間差分の少なくとも一方を計算する事後確率ベース特徴計算工程と、
    前記事後確率のエントロピー及び時間差分の少なくとも一方を用いて、前記対象音声区間の候補の中から前記対象音声を含まない区間に変更する区間を特定する棄却工程と、
    を実行する音声検出方法。
  10. コンピュータを、
    音響信号を取得する音響信号取得手段、
    前記音響信号から得られる複数の第1のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算手段、前記第1のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算手段、及び、前記尤度の比を用いて、対象音声を含む区間である対象音声区間の候補を決定する区間決定手段、を含む音声区間検出手段、
    前記特徴量を入力として複数の音素各々の事後確率を計算する処理を実行する事後確率計算手段、
    前記第1のフレーム毎に、前記複数の音素の事後確率のエントロピー及び時間差分の少なくとも一方を計算する事後確率ベース特徴計算手段、
    前記事後確率のエントロピー及び時間差分の少なくとも一方を用いて、前記対象音声区間の候補の中から前記対象音声を含まない区間に変更する区間を特定する棄却手段、
    として機能させるためのプログラム。
JP2015543725A 2013-10-22 2014-05-08 音声検出装置、音声検出方法及びプログラム Active JP6350536B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013218935 2013-10-22
JP2013218935 2013-10-22
PCT/JP2014/062361 WO2015059947A1 (ja) 2013-10-22 2014-05-08 音声検出装置、音声検出方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2015059947A1 JPWO2015059947A1 (ja) 2017-03-09
JP6350536B2 true JP6350536B2 (ja) 2018-07-04

Family

ID=52992559

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015543725A Active JP6350536B2 (ja) 2013-10-22 2014-05-08 音声検出装置、音声検出方法及びプログラム

Country Status (3)

Country Link
US (1) US20160275968A1 (ja)
JP (1) JP6350536B2 (ja)
WO (1) WO2015059947A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160275968A1 (en) * 2013-10-22 2016-09-22 Nec Corporation Speech detection device, speech detection method, and medium
US9516165B1 (en) * 2014-03-26 2016-12-06 West Corporation IVR engagements and upfront background noise
KR102446392B1 (ko) * 2015-09-23 2022-09-23 삼성전자주식회사 음성 인식이 가능한 전자 장치 및 방법
JP6731802B2 (ja) * 2016-07-07 2020-07-29 ヤフー株式会社 検出装置、検出方法及び検出プログラム
KR102505719B1 (ko) * 2016-08-12 2023-03-03 삼성전자주식회사 음성 인식이 가능한 디스플레이 장치 및 방법
JP6791816B2 (ja) * 2017-07-21 2020-11-25 株式会社デンソーアイティーラボラトリ 音声区間検出装置、音声区間検出方法、およびプログラム
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
US10586529B2 (en) * 2017-09-14 2020-03-10 International Business Machines Corporation Processing of speech signal
JP7222265B2 (ja) * 2018-03-22 2023-02-15 カシオ計算機株式会社 音声区間検出装置、音声区間検出方法及びプログラム
US20210327435A1 (en) * 2018-09-06 2021-10-21 Nec Corporation Voice processing device, voice processing method, and program recording medium
SG10201809737UA (en) * 2018-11-01 2020-06-29 Rakuten Inc Information processing device, information processing method, and program
CN110136715B (zh) 2019-05-16 2021-04-06 北京百度网讯科技有限公司 语音识别方法和装置
KR102321798B1 (ko) * 2019-08-15 2021-11-05 엘지전자 주식회사 인공 신경망 기반의 음성 인식 모델을 학습시키는 방법 및 음성 인식 디바이스
US11823706B1 (en) * 2019-10-14 2023-11-21 Meta Platforms, Inc. Voice activity detection in audio signal
JP7422523B2 (ja) * 2019-11-14 2024-01-26 株式会社日立オートメーション パターン抽出方法、及び、パターン抽出装置
CN111128227B (zh) * 2019-12-30 2022-06-17 云知声智能科技股份有限公司 声音检测方法及装置
CN111883117B (zh) * 2020-07-03 2024-04-16 北京声智科技有限公司 语音唤醒方法及装置
CN112185390B (zh) * 2020-09-27 2023-10-03 中国商用飞机有限责任公司北京民用飞机技术研究中心 机上信息辅助方法及装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3105465B2 (ja) * 1997-03-14 2000-10-30 日本電信電話株式会社 音声区間検出方法
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US20040064314A1 (en) * 2002-09-27 2004-04-01 Aubert Nicolas De Saint Methods and apparatus for speech end-point detection
JP4497911B2 (ja) * 2003-12-16 2010-07-07 キヤノン株式会社 信号検出装置および方法、ならびにプログラム
US8566086B2 (en) * 2005-06-28 2013-10-22 Qnx Software Systems Limited System for adaptive enhancement of speech signals
JP4911034B2 (ja) * 2005-10-20 2012-04-04 日本電気株式会社 音声判別システム、音声判別方法及び音声判別用プログラム
US8494193B2 (en) * 2006-03-14 2013-07-23 Starkey Laboratories, Inc. Environment detection and adaptation in hearing assistance devices
JP4853298B2 (ja) * 2007-01-17 2012-01-11 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム
JP4950930B2 (ja) * 2008-04-03 2012-06-13 株式会社東芝 音声/非音声を判定する装置、方法およびプログラム
US8812313B2 (en) * 2008-12-17 2014-08-19 Nec Corporation Voice activity detector, voice activity detection program, and parameter adjusting method
US20160275968A1 (en) * 2013-10-22 2016-09-22 Nec Corporation Speech detection device, speech detection method, and medium
US20160267924A1 (en) * 2013-10-22 2016-09-15 Nec Corporation Speech detection device, speech detection method, and medium

Also Published As

Publication number Publication date
US20160275968A1 (en) 2016-09-22
WO2015059947A1 (ja) 2015-04-30
JPWO2015059947A1 (ja) 2017-03-09

Similar Documents

Publication Publication Date Title
JP6350536B2 (ja) 音声検出装置、音声検出方法及びプログラム
JP6436088B2 (ja) 音声検出装置、音声検出方法及びプログラム
JP4568371B2 (ja) 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム
JP4322785B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
US9837068B2 (en) Sound sample verification for generating sound detection model
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
US20090119103A1 (en) Speaker recognition system
JP2011524551A (ja) スピーチ分析による話者の特徴化
CN108039181B (zh) 一种声音信号的情感信息分析方法和装置
JP2016180839A (ja) 雑音抑圧音声認識装置およびそのプログラム
KR20170073113A (ko) 음성의 톤, 템포 정보를 이용한 감정인식 방법 및 그 장치
KR20190129731A (ko) 음성대화 시스템, 음성대화 방법 및 프로그램
JP6731802B2 (ja) 検出装置、検出方法及び検出プログラム
JP2021033051A (ja) 情報処理装置、情報処理方法およびプログラム
Knox et al. Getting the last laugh: automatic laughter segmentation in meetings.
JP4922377B2 (ja) 音声認識装置とその方法と、プログラム
JP5961530B2 (ja) 音響モデル生成装置とその方法とプログラム
Odriozola et al. An on-line VAD based on Multi-Normalisation Scoring (MNS) of observation likelihoods
KR100873920B1 (ko) 화상 분석을 이용한 음성 인식 방법 및 장치
JP3615088B2 (ja) 音声認識方法及び装置
JP2020008730A (ja) 感情推定システムおよびプログラム
JP6827602B2 (ja) 情報処理装置、プログラム及び情報処理方法
KR100677224B1 (ko) 안티워드 모델을 이용한 음성인식 방법
US20220084505A1 (en) Communication between devices in close proximity to improve voice control of the devices
JP2007133227A (ja) ニューラルネット学習装置および感情判断装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170414

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180508

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180521

R150 Certificate of patent or registration of utility model

Ref document number: 6350536

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150