JP2012215600A - 音声区間判定装置、音声区間判定方法、及びプログラム - Google Patents

音声区間判定装置、音声区間判定方法、及びプログラム Download PDF

Info

Publication number
JP2012215600A
JP2012215600A JP2011078895A JP2011078895A JP2012215600A JP 2012215600 A JP2012215600 A JP 2012215600A JP 2011078895 A JP2011078895 A JP 2011078895A JP 2011078895 A JP2011078895 A JP 2011078895A JP 2012215600 A JP2012215600 A JP 2012215600A
Authority
JP
Japan
Prior art keywords
power spectrum
unit
input signal
spectrum
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011078895A
Other languages
English (en)
Other versions
JP5732976B2 (ja
Inventor
Kazuhiro Katagiri
一浩 片桐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2011078895A priority Critical patent/JP5732976B2/ja
Priority to US13/399,905 priority patent/US9123351B2/en
Publication of JP2012215600A publication Critical patent/JP2012215600A/ja
Application granted granted Critical
Publication of JP5732976B2 publication Critical patent/JP5732976B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)

Abstract

【課題】入力信号の音声区間と非音声区間との判定精度を向上する。
【解決手段】音声区間判定装置100は、入力信号をフレーム単位に分割するフレーム分割部101と、上記フレーム分割部により分割されたフレームについて分析長毎のパワースペクトルを算出するパワースペクトル算出部102と、上記パワースペクトル算出部により算出されたパワースペクトルの強度を増加させるパワースペクトル操作部103と、上記パワースペクトル操作部により強度が増加されたパワースペクトルを用いてスペクトルエントロピーを算出するスペクトルエントロピー算出部104と、上記スペクトルエントロピー算出部により算出されたスペクトルエントロピーの値に基づいて、上記入力信号が音声区間であるか否かを判定する判定部105と、を有する。
【選択図】図3

Description

本発明は、入力信号に含まれる音声区間を判定する音声区間判定装置、音声区間判定方法、及びプログラムに関する。
入力信号に音声が含まれているか否かを判定する音声区間判定技術の分野においては、主に信号のパワーを利用して音声区間の判定が行われていた。ところが、信号のレベル自体が変動する場合には、信号のパワーに基づいて音声区間を正しく判定することは困難である。
そこで、入力信号のスペクトルエントロピーを利用する方法が提案されている(特許文献1、非特許文献1、及び非特許文献2)。
特開2009−251134号公報
しかし、雑音成分のパワースペクトルが経時的に変化する非定常雑音が含まれる信号についてリアルタイムで音声区間を精度よく判定することが出来ないという問題があった。
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、非定常雑音が含まれる信号についてリアルタイムで音声区間を精度よく判定することのできる音声区間判定装置、音声区間判定方法、及びプログラムを提供することにある。
上記課題を解決するために、本発明のある観点によれば、入力信号をフレーム単位に分割するフレーム分割部と、上記フレーム分割部により分割されたフレーム毎に上記入力信号の強度を増加させるパワー操作部と、上記パワー操作部により強度が増加された入力信号を用いてスペクトルエントロピーを算出するスペクトルエントロピー算出部と、上記スペクトルエントロピー算出部により算出されたスペクトルエントロピーの値に基づいて、上記入力信号が音声区間であるか否かを判定する判定部とを有することを特徴とする、音声区間判定装置が提供される。
また、上記課題を解決するために、本発明の別の観点によれば、入力信号をフレーム単位に分割するフレーム分割部と、上記フレーム分割部により分割されたフレームについて分析長毎のパワースペクトルを算出するパワースペクトル算出部と、上記パワースペクトル算出部により算出されたパワースペクトルの強度を増加させるパワースペクトル操作部と、上記パワースペクトル操作部により強度が増加されたパワースペクトルを用いてスペクトルエントロピーを算出するスペクトルエントロピー算出部と、上記スペクトルエントロピー算出部により算出されたスペクトルエントロピーの値に基づいて、上記入力信号が音声区間であるか否かを判定する判定部とを有することを特徴とする、音声区間判定装置が提供される。
また、上記パワースペクトル操作部は、上記パワースペクトルの強度を周波数によらず均一に増加させてもよい。
また、上記判定部により音声区間でないと判定された区間の上記パワースペクトルの平均パワーを算出することにより雑音の平均パワーを算出する雑音パワー算出部、をさらに有し、上記パワースペクトル操作部は、上記雑音パワー算出部により算出される雑音の平均パワーに応じて上記パワースペクトルの強度を増加させてもよい。
また、上記判定部は、スペクトルエントロピーの値と所定の閾値との大小関係に基づいて、上記入力信号が音声区間であると判定した後、所定長のハングオーバーカウントを開始し、当該ハングオーバーカウントが0となるまでは入力信号を音声区間であると判定してもよい。
また、上記課題を解決するために、本発明の別の観点によれば、入力信号をフレーム単位に分割し、分割されたフレームについて分析長毎のパワースペクトルを算出し、算出された上記パワースペクトルの強度を増加させ、強度が増加された上記パワースペクトルを用いてスペクトルエントロピーを算出し、算出されたスペクトルエントロピーの値に基づいて、上記入力信号が音声区間であるか否かを判定することを特徴とする、音声区間判定方法が提供される。
また、上記課題を解決するために、本発明の別の観点によれば、コンピュータを、入力信号をフレーム単位に分割するフレーム分割部と、上記フレーム分割部により分割されたフレームについて分析長毎のパワースペクトルを算出するパワースペクトル算出部と、上記パワースペクトル算出部により算出されたパワースペクトルの強度を増加させるパワースペクトル操作部と、上記パワースペクトル操作部により強度が増加されたパワースペクトルを用いてスペクトルエントロピーを算出するスペクトルエントロピー算出部と、上記スペクトルエントロピー算出部により算出されたスペクトルエントロピーの値に基づいて、上記入力信号が音声区間であるか否かを判定する判定部とを有することを特徴とする、音声区間判定装置として機能させるためのプログラムが提供される。
以上説明したように本発明によれば、非定常雑音が含まれる信号についてリアルタイムで音声区間を精度よく判定することのできる音声区間判定装置、音声区間判定方法、及びプログラムを提供することができる。
本発明の一実施形態に係る音声区間判定方法の概要を説明するための説明図である。 同実施形態に係る音声区間判定方法の概要を説明するための説明図である。 同実施形態に係る音声区間判定装置の機能構成を示すブロック図である。 音声区間判定方法の流れの一例を示すフローチャートである。 入力信号とスペクトル操作後の信号の波形の一例を示す説明図である。 非音声区間におけるスペクトル操作前後の存在確率の変化の一例を示すグラフである。 音声区間におけるスペクトル操作前後の存在確率の変化の一例を示すグラフである。 スペクトル操作前後のスペクトルエントロピーの値を示すグラフである。
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
<1.概要>
入力信号に音声が含まれているか否かを判定する音声区間判定技術の分野では、信号のパワーに基づいて判定する技術がある。ところが、信号のレベルが変動する場合には、信号のパワーに基づいて音声区間を正しく判定することは困難である。
そこで、入力信号のスペクトルエントロピーに基づいて音声区間を判定する技術が提案されてきている。スペクトルエントロピーとは、入力信号の各周波数におけるパワースペクトルを確率分布とみなして算出されたエントロピーである。このスペクトルエントロピーは、入力信号の白色性を示した特徴量である。パワースペクトルの確率分布が均一である白色信号では、スペクトルエントロピーは高い値となり、パワースペクトルの確率分布が不均一な(ばらつきの大きい)有色信号ではスペクトルエントロピーは低い値となる。音声信号のパワースペクトルの確率分布は不均一であり、スペクトルエントロピーは低い値となる。この性質を利用して音声区間を判定することができる。
このスペクトルエントロピーを利用した音声区間の判定は、信号のパワーを用いる場合と比較して、信号レベルの変動に強いという利点がある。スペクトルエントロピーは、正規化された値であるため、信号レベルが変化したとしてもパワースペクトルの形状が変わらなければ変動しない。このため、スペクトルエントロピーを利用すると、信号のレベルが変動しても、音声区間判定のための閾値を再設定する必要がなく、信号レベルによらず安定して音声区間を判定することができる。
白色雑音と音声信号とのスペクトルエントロピーの値は、差が大きい。このため、入力信号に白色雑音が含まれる場合であっても、スペクトルエントロピーに基づいて精度よく音声区間を判定することができる。ところが、有色雑音と音声信号とはどちらもスペクトルエントロピーが低い値となる。このため、入力信号に有色雑音が含まれている場合には、音声区間と非音声区間との間でスペクトルエントロピーの値の差が小さくなり、判定精度が落ちてしまう。そこで、有色雑音が含まれる入力信号についても精度よく音声区間を判定する方法が求められている。
パワースペクトルが経時的に変化しない定常な有色雑音が含まれる入力信号については、例えば雑音のパワースペクトルを推測して有色雑音の影響を除くことによって、音声区間判定の精度を向上させることができる。例えば非特許文献2には、雑音のパワースペクトルを予め推測し、入力信号のパワースペクトルを推定した雑音のパワースペクトルで除算することによって雑音成分のパワースペクトルを均一化する方法が記載されている。ここで推測した雑音のパワースペクトルが実際の雑音のパワースペクトルと一致した場合には上記の除算によりパワースペクトルの値が全て1となる。かかる処理によって、定常な有色雑音が含まれる区間のスペクトルエントロピーの値は高くなり、音声区間のスペクトルエントロピーの値と、定常な有色雑音が含まれる区間のスペクトルエントロピーの値との間の差異が大きくなるため、音声区間判定の精度が向上される。
また、パワースペクトルが経時的に変化する非定常な有色雑音が含まれる入力信号については、予め学習させた識別器を用いることにより音声区間判定の精度を向上させることができる。例えば上記特許文献1には、対象のフレームと対象のフレームの前後数フレームについてのスペクトルエントロピー及びパワースペクトルの情報を利用した特徴ベクトルを用いて音声区間を判定する方法が提案されている。かかる処理によって、非定常な有色雑音が含まれる入力信号について、音声区間判定の精度を高めることができる。ところが、かかる方法は、対象のフレームの前後のフレームの特徴を利用するため、リアルタイムで処理することはできなかった。また、識別器を予め学習させておく必要があり、学習データを保持するためのメモリも必要である。
そこで、本件発明者は、少ない演算量で定常雑音が含まれる入力信号及び非定常雑音が含まれる信号のいずれについても音声区間判定の精度を向上させることができ、さらにリアルタイム処理を行うことのできる方法を提案する。
ここで本実施形態に係る音声区間判定の概要について図1及び図2を参照しながら説明する。図1及び図2は、本発明の一実施形態に係る音声区間判定方法の概要を説明するための説明図である。上述の通り、雑音のうち白色雑音については、元々スペクトルエントロピーの値が高く、音声信号のスペクトルエントロピーとの間の差が大きい。このため、入力信号のスペクトルエントロピーの大小に基づいて精度良く音声区間を判定することができる。一方、音声信号と似たスペクトルエントロピーを有する有色雑音については、スペクトルエントロピーに基づいて音声信号と区別することが困難である。このため、本実施形態においては、パワースペクトルを操作することによって、有色雑音のスペクトルエントロピーの値を増大させる。パワースペクトルを操作することによって、有色雑音のスペクトルエントロピーの値が判定に用いられる閾値より大きい値となり、このとき同じ操作を施された音声信号のスペクトルエントロピーの値が閾値以下となれば、音声区間判定の精度を向上させることができる。
ここで、説明のためにスペクトルエントロピーHの値が同じになる音声信号および有色雑音について考えてみよう。なお、ここで説明に用いられる値は、説明を簡略化するために用いられる一例である。例えば、表1に示されるパワースペクトルの有色雑音と音声信号とを考える。ここで、k=1〜8とし、sがk番目のパワースペクトルを示すものとする。スペクトルエントロピーHは、各周波数ビンのパワーの存在確率pの関数である数式(1)で表される。ここでMは処理対象とする周波数帯域の下限値であり、Nは処理対象とする周波数帯域の上限値である。ここでは音声のスペクトルが集中している周波数帯域についてスペクトルエントロピーを算出することが好ましい。例えば、下限値を250Hz,上限値を4000Hzとすることができる。なお、ここでは各周波数ビンのパワーの存在確率pが有色雑音と音声信号とで同じとなる場合について考える。
Figure 2012215600
[数1]
Figure 2012215600
・・・数式(1)
なお、存在確率pは、以下の数式(2)で表される。
[数2]
Figure 2012215600
・・・数式(2)
表1に示される有色雑音及び音声信号のスペクトルエントロピーの値を数式(1)及び数式(2)を用いて算出すると、いずれもH=2.708695となる。
本実施形態においては、この各周波数ビンにおけるパワースペクトルの値を増加することにより、存在確率を変化させてスペクトルエントロピーの値を操作する。つまり、音声区間判定装置は、以下の数式(3)で表される処理をk=1〜8について行う。
[数3]
s’=s+α ・・・数式(3)
ここで、パワースペクトルの増分αを30とした場合の、かかる操作を行った後のパワースペクトル及び存在確率は、以下の表2に示される通りとなる。
Figure 2012215600
このときの有色雑音のスペクトルエントロピーは、H=2.998151となり、音声信号のスペクトルエントロピーは、H=2.973895となる。このように、パワースペクトルを増加させることによって、各周波数ビンの存在確率が変化し、存在確率のばらつきが少なくなる。同じ増加量を加えた場合の存在確率の変化の度合いは、元々のパワースペクトルの大きさによって異なる。すなわち、パワースペクトルを増加させることにより、有色雑音及び音声信号のいずれについてもスペクトルエントロピーは増大するが、元々の周波数ビンのパワーが大きい音声信号については、その影響が有色雑音の場合と比較して小さい。このため、有色雑音と音声信号との間で、スペクトルエントロピーの値に差異が生じる。
つまり、有色雑音と音声信号との間でスペクトルエントロピーに差がない場合であっても、パワースペクトルの大きさに差異がある場合には、パワースペクトルを操作することによりスペクトルエントロピーの値に差異が生じる。本実施形態においては、このようにパワースペクトルを操作することによって、スペクトルエントロピーの値を操作し、有色雑音と音声信号とを判定する。以下、このような動作を可能にするための本実施形態に係る音声区間判定装置の構成について説明する。
<2.構成>
まず、本実施形態に係る音声区間判定装置100の機能構成について図3を参照しながら説明する。図3は、本発明の一実施形態に係る音声区間判定装置の機能構成を示すブロック図である。
音声区間判定装置100は、入力信号から音声区間と非音声区間とを判定する機能を有する情報処理装置の一例である。音声区間判定装置100は、例えば携帯電話、PC(Personal Computer)、ゲーム機器、家電機器、音楽再生装置、映像処理装置などの情報処理装置であってよい。
音声区間判定装置100は、フレーム分割部101と、パワースペクトル算出部102と、パワースペクトル操作部103と、スペクトルエントロピー算出部104と、判定部105と、雑音パワー算出部106と、を主に有する。
フレーム分割部101は、予め設定した時間間隔を1フレームとして、入力信号をフレーム毎に分割する。ここで用いられる時間間隔は、例えば1フレーム80msecとすることができる。
パワースペクトル算出部102は、フレーム分割部101によりフレームに分割された入力信号について分析長毎にパワースペクトルを算出する。ここで、パワースペクトル算出部102は、例えば高速フーリエ変換を利用してパワースペクトルを算出することができる。また、パワースペクトル算出部102は、高速フーリエ変換を行うときに、例えばハミング窓などの各種窓関数を用いてもよい。
パワースペクトル操作部103は、入力信号のパワーを操作するパワー操作部の一例であり、パワースペクトル算出部102により算出された各周波数のパワースペクトルの強度を増加させる。ここで、パワースペクトル操作部103は、各周波数のパワースペクトルそれぞれを同じ値増加させることによってパワースペクトルの強度を周波数によらず均一に増加させる。より具体的には、パワースペクトル操作部103は、雑音パワー算出部106により算出される雑音の平均パワーに応じて各周波数のパワースペクトルの強度を増加させてもよい。上述の通り、パワースペクトルの強度を増加させることにより、元々のパワースペクトルの大きさが異なりスペクトルエントロピーの値が類似する区間が音声区間であるか非音声区間であるかを区別することができるようになる。このとき、増加量は、雑音区間と音声区間とのスペクトルエントロピーの値に差異が生じる大きさであることが望ましい。例えばパワースペクトル操作部103は、パワースペクトルの増加量をS/N比及び雑音に基づいて決定することができる。例えば、パワースペクトルの増加量は、雑音の平均パワーよりも15dB大きい値とすることができる。また、パワースペクトルの増加量は、雑音のエントロピーに基づいて決定されてもよい。
スペクトルエントロピー算出部104は、パワースペクトル操作部103により強度が増加されたパワースペクトルを用いてスペクトルエントロピーを算出する。ここでスペクトルエントロピー算出部104は、上述の数式(1)及び数式(2)を用いてスペクトルエントロピーの値を算出することができる。このとき、スペクトルエントロピーを算出するために用いる周波数帯域は、音声のスペクトルが含まれる周波数帯域であることが望ましく、例えば250Hz〜4000Hzであってよい。
判定部105は、スペクトルエントロピー算出部104により算出されたスペクトルエントロピーの値に基づいて、入力信号が音声区間であるか否かを判定する。判定部105は、例えば予め設定された閾値θと算出されたスペクトルエントロピーの値との大小関係に基づいて入力信号が音声区間であるか否かを判定してもよい。例えば判定部105は、スペクトルエントロピーの値が閾値θより小さいときに入力信号が音声区間であると判定し、スペクトルエントロピーの値が閾値θ以上であるときに入力信号が非音声区間であると判定することができる。
なお、判定部105の用いる閾値θは、理論的に求められるスペクトルエントロピーの最大値に基づいて決定されてよい。例えば、閾値θは、理論的に求められるスペクトルエントロピーの最大値より0.2%小さい値とすることができる。スペクトルエントロピーの最大値は、Mを処理対象とする周波数帯域の下限値、Nを処理対象とする周波数帯域の上限値とすると、以下の数式(4)により算出される。
[数4]
Figure 2012215600
・・・数式(4)
また、判定部105は、スペクトルエントロピーが閾値θに対して一定量以上低い場合に、後の数フレームは全て音声区間と判定するハングオーバー処理を実行してもよい。具体的には、判定部015は、スペクトルエントロピー算出部104により算出されたスペクトルエントロピーの値と、所定の閾値θとの大小関係に基づいて入力信号が音声区間であると判定した後に、所定長のハングオーバーカウントを開始し、ハングオーバーカウントが0となるまでは入力信号が音声区間であると判定することができる。通常、発話の終端はパワーが低くなるため検出精度が悪化する。しかし、ハングオーバーを設定することによって、検出精度を改善することができる。例えばハングオーバーを発生させる条件は、スペクトルエントロピーが閾値θに対して1%以上低いこととすることができる。またハングオーバーの続く時間長は、例えば500msec程度とすることができる。
雑音パワー算出部106は、雑音の特性を示す値を算出する算出部の一例であり、判定部105により非音声区間であると判定された区間の前記パワースペクトルの平均パワーを算出することにより、雑音の平均パワーを算出することができる。雑音パワー算出部106は、判定部105により入力信号が音声でないと判定されたときに限って、パワースペクトル算出部102において算出されたパワースペクトルからパワーを算出する。そして、雑音パワー算出部106は、ここ算出されたパワーから長期平均を計算し、雑音の平均パワーを逐次更新する。このとき、雑音パワー算出部106は、判定部105による判定が間違っていた場合の影響を軽減するために、例えば最低でも100ミリ秒連続で非音声区間であると判定されたときのみ雑音の平均パワーを更新するようにしてもよい。
以上、本実施形態に係る音声区間判定装置100の機能の一例を示した。上記の各構成要素は、汎用的な部材や回路を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。また、各構成要素の機能を、CPU(Central Processing Unit)などの演算装置がこれらの機能を実現する処理手順を記述した制御プログラムを記憶したROM(Read Only Memory)やRAM(Random Access Memory)などの記憶媒体から制御プログラムを読出し、そのプログラムを解釈して実行することにより行ってもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用する構成を変更することが可能である。
なお、上述のような本実施形態に係る音声区間判定装置100の各機能を実現するためのコンピュータプログラムを作製し、パーソナルコンピュータ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリなどである。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信してもよい。
<3.動作>
次に、図4を参照しながら、本実施形態に係る音声区間判定方法の動作の一例について説明する。図4は、音声区間判定方法の流れの一例を示すフローチャートである。
まず、判定部105は、算出されたスペクトルエントロピーの値と所定の閾値θの値との大小関係を比較する。具体的には、スペクトルエントロピーの値が閾値θより小さいか否かを判断する(S201)。そして、スペクトルエントロピーの値が所定の閾値θより小さいと判断された場合には、判定部105は、入力信号が音声区間であると判定することができる(S202)。入力信号が音声区間であると判定されたとき、判定部105は、さらにスペクトルエントロピーの値と閾値θとの差が一定以上であるか否かを判断する(S203)。そして、ステップS203の判断によりスペクトルエントロピーの値と閾値θとの差が一定以上である場合には、ハングオーバーカウントを発生させる(S204)。一方、ステップS203の判断においてスペクトルエントロピーの値と閾値θとの差が一定以上でないと判断された場合には、ステップS204の処理は省略される。
また一方、ステップS201の判断において、スペクトルエントロピーの値が閾値θ以上であると判断された場合には、次に、判定部105は、ハングオーバーカウントが0でないか否かを判断する(S205)。ステップS205の判断において、ハングオーバーカウントが0でないと判断された場合には、判定部105は入力信号が音声区間であると判定することができる(S206)。そして、判定部105は、ハングオーバーカウントを消費する(S207)。一方、ステップS205の判断においてハングオーバーカウントが0であると判断された場合には、判定部105は、入力信号が非音声区間であると判定することができる(S206)。
<4.効果の例>
上記において、本実施形態に係る音声区間判定装置100の構成及び動作について説明してきた。ここで既知の入力信号を上記の音声区間判定装置100に入力した場合の作用効果について図5〜図8を参照しながら一例を挙げて説明する。
図5は、入力信号とスペクトル操作後の信号の波形の一例を示す説明図である。図6は、非音声区間におけるスペクトル操作前後の存在確率の変化の一例を示すグラフである。図7は、音声区間におけるスペクトル操作前後の存在確率の変化の一例を示すグラフである。図8は、スペクトル操作前後のスペクトルエントロピーの値を示すグラフである。
まず図5を参照すると、実験的に用いられる既知の音声信号S1が示される。ここで、この音声信号S1にSN比5dBでノイズをのせた信号S2が音声区間判定装置100への入力信号として用いられる。この入力信号S2が音声区間判定装置100に入力されると、フレーム分割部101によりフレーム単位に分割され、パワースペクトル算出部により分析長毎のパワースペクトルが算出される。
そして、パワースペクトル操作部103によって、算出された各周波数のパワースペクトルの強度が雑音の平均パワーに応じて増加させられる。例えばパワースペクトル操作部103は、入力信号に白色雑音をのせてもよい。ここでパワースペクトル操作部103によるスペクトル操作後の信号波形が図5の符号S3に示される。
パワースペクトル操作部103により入力信号が操作されると、入力信号の全体のパワーが増加される。このとき、全体のパワーが大きくなればなるほど、全パワーに対する各周波数間のパワーの比率の差が相対的に小さくなる。このため、各周波数の存在確率の差が小さくなり、従ってスペクトルエントロピーの値が大きくなる。
例えば、図6に非音声区間における各周波数の存在確率のスペクトル操作前後の変化が示される。スペクトル操作によって、各周波数の存在確率の分布が均一になっていることがわかる。図7には音声区間における各周波数の存在確率のスペクトル操作前後の変化が示される。図6と比較すると、非音声区間と比較して音声区間は各周波数の存在確率の変化の度合いが小さいことがわかる。従って、スペクトル操作により、音声区間と非音声区間との間で各周波数の存在確率の分布に差異が生じ、スペクトルエントロピーの値にも差異が生じる。
判定部105は、このスペクトル操作により生じたスペクトルエントロピーの差異に基づいて、入力信号が音声区間であるか非音声区間であるかを判定することができるようになる。
図8にスペクトル操作を行わない場合の入力信号2から算出されたスペクトルエントロピーE1と、スペクトル操作後の入力信号S3から算出されたスペクトルエントロピーE2とが示される。E1においては、スペクトルエントロピーの値がランダムに変化し、音声区間と非音声区間との間でスペクトルエントロピーの値に差異がみられない。これに対し、E2は、音声区間と非音声区間との間でスペクトルエントロピーの値に差異が生じており、判定部105は、このスペクトルエントロピーE2に基づいて、音声区間I1、音声区間I2、音声区間I3を精度良く判定することができる。
以上、本実施形態に係る音声区間判定装置100によれば、パワースペクトルを増加させることにより、全パワーに対する各周波数のパワーの比率が変化し、存在確率が変化する。かかる処理により、パワースペクトルが不均一な雑音(有色雑音)であっても確率分布を均一にすることができる。また、有色雑音よりもパワーの大きな音声区間については、非音声区間と比較してスペクトル操作の影響が小さい。このため、確率分布は均一にはならない。このため、音声区間と非音声区間との間でスペクトルエントロピーの差異が小さい場合であっても、スペクトル操作により音声区間と非音声区間とのスペクトルエントロピーの値に差異が生じる。
従って、音声区間判定装置100は、このスペクトルエントロピーの値に基づいて、精度良く音声区間を判定することができる。また、このとき、音声区間判定装置100において新たに追加した演算処理は加算処理だけである。このとき周波数によらず均一な値を加えるだけであるため、演算量に大きな影響を与えることなく音声区間判定の精度を向上することができる。また、この音声区間判定装置100は、定常雑音が含まれた入力信号及び非定常雑音が含まれた入力信号のいずれにも効果的であり、音声区間判定の精度を向上することができる。
また、音声区間判定装置100は、判定対象フレームの後のフレームの情報を用いないため、リアルタイムで音声区間判定処理を精度良く行うことができる。また、音声区間判定装置100は、事前に学習させておいた識別器を用いる必要がないため、学習のためのメモリや演算を確保する必要もない。
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
例えば、上記実施形態では、音声区間判定装置100の音声区間を判定するための構成を中心に説明したが、本発明はかかる例に限定されない。例えば、音声区間判定装置100は、携帯電話や電話会議システムの一部として用いられてもよい。
また、上記実施形態では、ハンドオーバー処理を行う場合の処理について説明したが、ハンドオーバー処理は必ずしも行われなくてもよい。また、ハンドオーバー処理以外に判定精度を向上させるための手法が組合せて用いられてもよいことは言うまでもない。
また、上記実施形態では、パワースペクトル操作部103は、雑音パワーに応じてパワースペクトルを操作することとしたが、本発明は係る例に限定されない。例えば、パワースペクトル操作部103は、ある一定の値を用いてパワースペクトルを増加させてもよい。
また、上記実施形態では、周波数領域でパワー操作を行うパワースペクトル操作について説明したが、本発明はかかる例に限定されない。例えば、時間領域で入力信号のパワーを増加させてよい。この場合、パワー操作部は、フレーム分割部101から供給される分割されたフレームにホワイトノイズを加算することによってパワー操作を行ってよい。このとき、ホワイトノイズの加算量は、ある一定量であってもよいし、雑音に基づいて算出された量であってもよい。
上記実施形態において説明された音声区間判定機能は、例えばテレビ会議システムや携帯電話の一機能として実装されてよい。音声区間判定機能を有するテレビ会議システム及び携帯電話等は、音声区間と判定された入力信号を抽出することにより、クリアな音声を出力することができるようになる。
尚、本明細書において、フローチャートに記述されたステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的に又は個別的に実行される処理をも含む。また時系列的に処理されるステップでも、場合によっては適宜順序を変更することが可能であることは言うまでもない。
100 音声区間判定装置
101 フレーム分割部
102 パワースペクトル算出部
103 パワースペクトル操作部
104 スペクトルエントロピー算出部
105 判定部
106 雑音パワー算出部

Claims (7)

  1. 入力信号をフレーム単位に分割するフレーム分割部と、
    前記フレーム分割部により分割されたフレーム毎に前記入力信号の強度を増加させるパワー操作部と、
    前記パワー操作部により強度が増加された入力信号を用いてスペクトルエントロピーを算出するスペクトルエントロピー算出部と、
    前記スペクトルエントロピー算出部により算出されたスペクトルエントロピーの値に基づいて、前記入力信号が音声区間であるか否かを判定する判定部と、
    を備えることを特徴とする、音声区間判定装置。
  2. 入力信号をフレーム単位に分割するフレーム分割部と、
    前記フレーム分割部により分割されたフレームについて分析長毎のパワースペクトルを算出するパワースペクトル算出部と、
    前記パワースペクトル算出部により算出されたパワースペクトルの強度を増加させるパワースペクトル操作部と、
    前記パワースペクトル操作部により強度が増加されたパワースペクトルを用いてスペクトルエントロピーを算出するスペクトルエントロピー算出部と、
    前記スペクトルエントロピー算出部により算出されたスペクトルエントロピーの値に基づいて、前記入力信号が音声区間であるか否かを判定する判定部と、
    を備えることを特徴とする、音声区間判定装置。
  3. 前記パワースペクトル操作部は、前記パワースペクトルの強度を周波数によらず一定の増加量を加算することにより増加させることを特徴とする、請求項2に記載の音声区間判定装置。
  4. 前記判定部により音声区間でないと判定された区間の前記パワースペクトルの平均パワーを算出することにより雑音の平均パワーを算出する雑音パワー算出部、
    をさらに備え、
    前記パワースペクトル操作部は、前記雑音パワー算出部により算出される雑音の平均パワーに応じて前記パワースペクトルの強度を増加させることを特徴とする、請求項2または3のいずれかに記載の音声区間判定装置。
  5. 前記判定部は、スペクトルエントロピーの値と所定の閾値との大小関係に基づいて、前記入力信号が音声区間であると判定した後、所定長のハングオーバーカウントを開始し、当該ハングオーバーカウントが0となるまでは入力信号を音声区間であると判定する、請求項2に記載の音声区間判定装置。
  6. 入力信号をフレーム単位に分割し、
    分割されたフレームについて分析長毎のパワースペクトルを算出し、
    算出された前記パワースペクトルの強度を増加させ、
    強度が増加された前記パワースペクトルを用いてスペクトルエントロピーを算出し、
    算出されたスペクトルエントロピーの値に基づいて、前記入力信号が音声区間であるか否かを判定することを特徴とする、音声区間判定方法。
  7. コンピュータを、
    入力信号をフレーム単位に分割するフレーム分割部と、
    前記フレーム分割部により分割されたフレームについて分析長毎のパワースペクトルを算出するパワースペクトル算出部と、
    前記パワースペクトル算出部により算出されたパワースペクトルの強度を増加させるパワースペクトル操作部と、
    前記パワースペクトル操作部により強度が増加されたパワースペクトルを用いてスペクトルエントロピーを算出するスペクトルエントロピー算出部と、
    前記スペクトルエントロピー算出部により算出されたスペクトルエントロピーの値に基づいて、前記入力信号が音声区間であるか否かを判定する判定部と、
    を備えることを特徴とする、音声区間判定装置として機能させるためのプログラム。
JP2011078895A 2011-03-31 2011-03-31 音声区間判定装置、音声区間判定方法、及びプログラム Expired - Fee Related JP5732976B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011078895A JP5732976B2 (ja) 2011-03-31 2011-03-31 音声区間判定装置、音声区間判定方法、及びプログラム
US13/399,905 US9123351B2 (en) 2011-03-31 2012-02-17 Speech segment determination device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011078895A JP5732976B2 (ja) 2011-03-31 2011-03-31 音声区間判定装置、音声区間判定方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2012215600A true JP2012215600A (ja) 2012-11-08
JP5732976B2 JP5732976B2 (ja) 2015-06-10

Family

ID=46928422

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011078895A Expired - Fee Related JP5732976B2 (ja) 2011-03-31 2011-03-31 音声区間判定装置、音声区間判定方法、及びプログラム

Country Status (2)

Country Link
US (1) US9123351B2 (ja)
JP (1) JP5732976B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018511378A (ja) * 2015-03-11 2018-04-26 プレコルディール オサケユイチア 心不全を示す情報を生成するための方法及び装置
US10320967B2 (en) 2016-09-15 2019-06-11 Oki Electric Industry Co., Ltd. Signal processing device, non-transitory computer-readable storage medium, signal processing method, and telephone apparatus
JP2020190460A (ja) * 2019-05-21 2020-11-26 学校法人桐蔭学園 非接触音響解析システム
CN112102851A (zh) * 2020-11-17 2020-12-18 深圳壹账通智能科技有限公司 语音端点检测方法、装置、设备及计算机可读存储介质
CN112955951A (zh) * 2018-11-15 2021-06-11 深圳市欢太科技有限公司 语音端点检测方法、装置、存储介质及电子设备

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5874344B2 (ja) * 2010-11-24 2016-03-02 株式会社Jvcケンウッド 音声判定装置、音声判定方法、および音声判定プログラム
CN105225668B (zh) * 2013-05-30 2017-05-10 华为技术有限公司 信号编码方法及设备
WO2016092837A1 (ja) * 2014-12-10 2016-06-16 日本電気株式会社 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体
EP3254453B1 (en) 2015-02-03 2019-05-08 Dolby Laboratories Licensing Corporation Conference segmentation based on conversational dynamics
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法
GB2554943A (en) * 2016-10-16 2018-04-18 Sentimoto Ltd Voice activity detection method and apparatus
CN107331386B (zh) * 2017-06-26 2020-07-21 上海智臻智能网络科技股份有限公司 音频信号的端点检测方法、装置、处理系统及计算机设备
US10431242B1 (en) * 2017-11-02 2019-10-01 Gopro, Inc. Systems and methods for identifying speech based on spectral features
CN107731223B (zh) * 2017-11-22 2022-07-26 腾讯科技(深圳)有限公司 语音活性检测方法、相关装置和设备
CN108122552B (zh) * 2017-12-15 2021-10-15 上海智臻智能网络科技股份有限公司 语音情绪识别方法和装置
CN108364637B (zh) * 2018-02-01 2021-07-13 福州大学 一种音频句子边界检测方法
CN109087632B (zh) * 2018-08-17 2023-06-06 平安科技(深圳)有限公司 语音处理方法、装置、计算机设备及存储介质
CN110047519B (zh) * 2019-04-16 2021-08-24 广州大学 一种语音端点检测方法、装置及设备
US11810575B2 (en) * 2019-06-12 2023-11-07 Lg Electronics Inc. Artificial intelligence robot for providing voice recognition function and method of operating the same
US11783810B2 (en) * 2019-07-19 2023-10-10 The Boeing Company Voice activity detection and dialogue recognition for air traffic control
US20230162756A1 (en) * 2020-04-21 2023-05-25 Soter Technologies, Llc Systems and methods for improved accuracy of bullying or altercation detection or identification of excessive machine noise
DE102020207503A1 (de) 2020-06-17 2021-12-23 Robert Bosch Gesellschaft mit beschränkter Haftung Detektieren von sprachaktivität in echtzeit in audiosignalen
CN112185390B (zh) * 2020-09-27 2023-10-03 中国商用飞机有限责任公司北京民用飞机技术研究中心 机上信息辅助方法及装置
CN114385977B (zh) * 2021-12-13 2024-05-28 广州方硅信息技术有限公司 信号的有效频率检测方法、终端设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0424693A (ja) * 1990-05-18 1992-01-28 Ricoh Co Ltd 音声区間検出方式
JPH08274690A (ja) * 1995-01-09 1996-10-18 Texas Instr Inc <Ti> 近端スピーチ信号を検出するための方法および装置
JP2008257110A (ja) * 2007-04-09 2008-10-23 Nippon Telegr & Teleph Corp <Ntt> 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体
US20090177423A1 (en) * 2008-01-09 2009-07-09 Sungkyunkwan University Foundation For Corporate Collaboration Signal detection using delta spectrum entropy
JP2009251134A (ja) * 2008-04-03 2009-10-29 Toshiba Corp 音声/非音声を判定する装置、方法およびプログラム
JP2010049086A (ja) * 2008-08-22 2010-03-04 Nippon Telegr & Teleph Corp <Ntt> 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002029780A2 (en) * 2000-10-04 2002-04-11 Clarity, Llc Speech detection with source separation
US7478043B1 (en) * 2002-06-05 2009-01-13 Verizon Corporate Services Group, Inc. Estimation of speech spectral parameters in the presence of noise
US7146315B2 (en) * 2002-08-30 2006-12-05 Siemens Corporate Research, Inc. Multichannel voice detection in adverse environments
US7660713B2 (en) * 2003-10-23 2010-02-09 Microsoft Corporation Systems and methods that detect a desired signal via a linear discriminative classifier that utilizes an estimated posterior signal-to-noise ratio (SNR)
WO2008090564A2 (en) * 2007-01-24 2008-07-31 P.E.S Institute Of Technology Speech activity detection
GB0703275D0 (en) * 2007-02-20 2007-03-28 Skype Ltd Method of estimating noise levels in a communication system
US8412525B2 (en) * 2009-04-30 2013-04-02 Microsoft Corporation Noise robust speech classifier ensemble

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0424693A (ja) * 1990-05-18 1992-01-28 Ricoh Co Ltd 音声区間検出方式
JPH08274690A (ja) * 1995-01-09 1996-10-18 Texas Instr Inc <Ti> 近端スピーチ信号を検出するための方法および装置
JP2008257110A (ja) * 2007-04-09 2008-10-23 Nippon Telegr & Teleph Corp <Ntt> 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体
US20090177423A1 (en) * 2008-01-09 2009-07-09 Sungkyunkwan University Foundation For Corporate Collaboration Signal detection using delta spectrum entropy
JP2009251134A (ja) * 2008-04-03 2009-10-29 Toshiba Corp 音声/非音声を判定する装置、方法およびプログラム
JP2010049086A (ja) * 2008-08-22 2010-03-04 Nippon Telegr & Teleph Corp <Ntt> 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CSNJ201010078415; 石塚健太郎他: '"信号到来方向の推定値の偏りを用いた耐雑音音声区間検出法"' 日本音響学会2007年秋季研究発表会講演論文集CD-ROM , 200709, pp.161-162 *
JPN6012035638; 石塚健太郎他: '"信号到来方向の推定値の偏りを用いた耐雑音音声区間検出法"' 日本音響学会2007年秋季研究発表会講演論文集CD-ROM , 200709, pp.161-162 *
JPN6012035640; Juan E.RUBIO, et al.: '"TWO-MICROPHONE VOICE ACTIVITY DETECTION BASED ON THE HOMOGENEITY OF THE DIRECTION OF ARRIVAL ESTIMA' Proceedings of the 2007 IEEE International Conference on Acoustics, Speech and Signal Processing (IC Vol.IV, 200704, pp.385-388 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018511378A (ja) * 2015-03-11 2018-04-26 プレコルディール オサケユイチア 心不全を示す情報を生成するための方法及び装置
US10320967B2 (en) 2016-09-15 2019-06-11 Oki Electric Industry Co., Ltd. Signal processing device, non-transitory computer-readable storage medium, signal processing method, and telephone apparatus
CN112955951A (zh) * 2018-11-15 2021-06-11 深圳市欢太科技有限公司 语音端点检测方法、装置、存储介质及电子设备
JP2020190460A (ja) * 2019-05-21 2020-11-26 学校法人桐蔭学園 非接触音響解析システム
JP7243983B2 (ja) 2019-05-21 2023-03-22 学校法人桐蔭学園 非接触音響解析システム
CN112102851A (zh) * 2020-11-17 2020-12-18 深圳壹账通智能科技有限公司 语音端点检测方法、装置、设备及计算机可读存储介质
CN112102851B (zh) * 2020-11-17 2021-04-13 深圳壹账通智能科技有限公司 语音端点检测方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
US20120253813A1 (en) 2012-10-04
US9123351B2 (en) 2015-09-01
JP5732976B2 (ja) 2015-06-10

Similar Documents

Publication Publication Date Title
JP5732976B2 (ja) 音声区間判定装置、音声区間判定方法、及びプログラム
US11670325B2 (en) Voice activity detection using a soft decision mechanism
US9536547B2 (en) Speaker change detection device and speaker change detection method
US20130282369A1 (en) Systems and methods for audio signal processing
JP6793706B2 (ja) 音声信号を検出するための方法および装置
JP2008534989A (ja) 音声アクティビティ検出装置および方法
US20160365088A1 (en) Voice command response accuracy
CN104867497A (zh) 一种语音降噪方法
JPWO2013132926A1 (ja) 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体
JP2018534618A (ja) ノイズ信号判定方法及び装置並びに音声ノイズ除去方法及び装置
CN116490920A (zh) 用于针对由自动语音识别系统处理的语音输入检测音频对抗性攻击的方法、对应的设备、计算机程序产品和计算机可读载体介质
TWI576834B (zh) 聲頻訊號的雜訊偵測方法與裝置
Tian et al. An investigation of spoofing speech detection under additive noise and reverberant conditions
Tian et al. Spoofing detection under noisy conditions: a preliminary investigation and an initial database
JP6724290B2 (ja) 音響処理装置、音響処理方法、及び、プログラム
JP2013235050A (ja) 情報処理装置及び方法、並びにプログラム
WO2018129854A1 (zh) 一种语音处理方法及装置
CN115862685B (zh) 一种实时语音活动的检测方法、装置和电子设备
JP2015031913A (ja) 音声処理装置、音声処理方法、及びプログラム
KR20200026587A (ko) 음성 구간을 검출하는 방법 및 장치
Sun et al. A variable momentum factor algorithm for a priori SNR estimation in speech enhancement
CN113470621B (zh) 语音检测方法、装置、介质及电子设备
Harvilla et al. Robust parameter estimation for audio declipping in noise
JPWO2018117171A1 (ja) 生体音解析方法、プログラム、記憶媒体及び生体音解析装置
Kanai et al. Robust voice activity detection using empirical mode decomposition and modulation spectrum analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140819

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141014

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150317

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150330

R150 Certificate of patent or registration of utility model

Ref document number: 5732976

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees