JP2012215600A

JP2012215600A - 音声区間判定装置、音声区間判定方法、及びプログラム

Info

Publication number: JP2012215600A
Application number: JP2011078895A
Authority: JP
Inventors: Kazuhiro Katagiri; 一浩片桐
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2011-03-31
Filing date: 2011-03-31
Publication date: 2012-11-08
Anticipated expiration: 2031-03-31
Also published as: US20120253813A1; US9123351B2; JP5732976B2

Abstract

【課題】入力信号の音声区間と非音声区間との判定精度を向上する。
【解決手段】音声区間判定装置１００は、入力信号をフレーム単位に分割するフレーム分割部１０１と、上記フレーム分割部により分割されたフレームについて分析長毎のパワースペクトルを算出するパワースペクトル算出部１０２と、上記パワースペクトル算出部により算出されたパワースペクトルの強度を増加させるパワースペクトル操作部１０３と、上記パワースペクトル操作部により強度が増加されたパワースペクトルを用いてスペクトルエントロピーを算出するスペクトルエントロピー算出部１０４と、上記スペクトルエントロピー算出部により算出されたスペクトルエントロピーの値に基づいて、上記入力信号が音声区間であるか否かを判定する判定部１０５と、を有する。
【選択図】図３

Description

本発明は、入力信号に含まれる音声区間を判定する音声区間判定装置、音声区間判定方法、及びプログラムに関する。

入力信号に音声が含まれているか否かを判定する音声区間判定技術の分野においては、主に信号のパワーを利用して音声区間の判定が行われていた。ところが、信号のレベル自体が変動する場合には、信号のパワーに基づいて音声区間を正しく判定することは困難である。

そこで、入力信号のスペクトルエントロピーを利用する方法が提案されている（特許文献１、非特許文献１、及び非特許文献２）。

特開２００９−２５１１３４号公報

Ｊ．Ｓｈｅｎ，Ｊ．Ｈｕｎｇ，ａｎｄＬ．Ｌｅｅ，"Ｒｏｂｕｓｔｅｎｔｒｏｐｙ−ｂａｓｅｄｅｎｄｐｏｉｎｔｄｅｔｅｃｔｉｏｎｆｏｒｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｉｎｎｏｉｓｙｅｎｖｉｒｏｎｍｅｎｔｓ"，ＩＣＳＬＰ−９８，１９９８．Ｐ．Ｒｅｎｅｖｅｙ，ａｎｄＡ．Ｄｒｙｇａｊｌｏ，"Ｅｎｔｒｏｐｙｂａｓｅｄｖｏｉｃｅａｃｔｉｖｉｔｙｄｅｔｅｃｔｉｏｎｉｎｖｅｒｙｎｏｉｓｙｃｏｎｄｉｔｉｏｎｓ"，Ｅｕｒｏｓｐｅｅｃｈ２００１，２００１．

しかし、雑音成分のパワースペクトルが経時的に変化する非定常雑音が含まれる信号についてリアルタイムで音声区間を精度よく判定することが出来ないという問題があった。
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、非定常雑音が含まれる信号についてリアルタイムで音声区間を精度よく判定することのできる音声区間判定装置、音声区間判定方法、及びプログラムを提供することにある。

上記課題を解決するために、本発明のある観点によれば、入力信号をフレーム単位に分割するフレーム分割部と、上記フレーム分割部により分割されたフレーム毎に上記入力信号の強度を増加させるパワー操作部と、上記パワー操作部により強度が増加された入力信号を用いてスペクトルエントロピーを算出するスペクトルエントロピー算出部と、上記スペクトルエントロピー算出部により算出されたスペクトルエントロピーの値に基づいて、上記入力信号が音声区間であるか否かを判定する判定部とを有することを特徴とする、音声区間判定装置が提供される。

また、上記課題を解決するために、本発明の別の観点によれば、入力信号をフレーム単位に分割するフレーム分割部と、上記フレーム分割部により分割されたフレームについて分析長毎のパワースペクトルを算出するパワースペクトル算出部と、上記パワースペクトル算出部により算出されたパワースペクトルの強度を増加させるパワースペクトル操作部と、上記パワースペクトル操作部により強度が増加されたパワースペクトルを用いてスペクトルエントロピーを算出するスペクトルエントロピー算出部と、上記スペクトルエントロピー算出部により算出されたスペクトルエントロピーの値に基づいて、上記入力信号が音声区間であるか否かを判定する判定部とを有することを特徴とする、音声区間判定装置が提供される。

また、上記パワースペクトル操作部は、上記パワースペクトルの強度を周波数によらず均一に増加させてもよい。

また、上記判定部により音声区間でないと判定された区間の上記パワースペクトルの平均パワーを算出することにより雑音の平均パワーを算出する雑音パワー算出部、をさらに有し、上記パワースペクトル操作部は、上記雑音パワー算出部により算出される雑音の平均パワーに応じて上記パワースペクトルの強度を増加させてもよい。

また、上記判定部は、スペクトルエントロピーの値と所定の閾値との大小関係に基づいて、上記入力信号が音声区間であると判定した後、所定長のハングオーバーカウントを開始し、当該ハングオーバーカウントが０となるまでは入力信号を音声区間であると判定してもよい。

また、上記課題を解決するために、本発明の別の観点によれば、入力信号をフレーム単位に分割し、分割されたフレームについて分析長毎のパワースペクトルを算出し、算出された上記パワースペクトルの強度を増加させ、強度が増加された上記パワースペクトルを用いてスペクトルエントロピーを算出し、算出されたスペクトルエントロピーの値に基づいて、上記入力信号が音声区間であるか否かを判定することを特徴とする、音声区間判定方法が提供される。

また、上記課題を解決するために、本発明の別の観点によれば、コンピュータを、入力信号をフレーム単位に分割するフレーム分割部と、上記フレーム分割部により分割されたフレームについて分析長毎のパワースペクトルを算出するパワースペクトル算出部と、上記パワースペクトル算出部により算出されたパワースペクトルの強度を増加させるパワースペクトル操作部と、上記パワースペクトル操作部により強度が増加されたパワースペクトルを用いてスペクトルエントロピーを算出するスペクトルエントロピー算出部と、上記スペクトルエントロピー算出部により算出されたスペクトルエントロピーの値に基づいて、上記入力信号が音声区間であるか否かを判定する判定部とを有することを特徴とする、音声区間判定装置として機能させるためのプログラムが提供される。

以上説明したように本発明によれば、非定常雑音が含まれる信号についてリアルタイムで音声区間を精度よく判定することのできる音声区間判定装置、音声区間判定方法、及びプログラムを提供することができる。

本発明の一実施形態に係る音声区間判定方法の概要を説明するための説明図である。同実施形態に係る音声区間判定方法の概要を説明するための説明図である。同実施形態に係る音声区間判定装置の機能構成を示すブロック図である。音声区間判定方法の流れの一例を示すフローチャートである。入力信号とスペクトル操作後の信号の波形の一例を示す説明図である。非音声区間におけるスペクトル操作前後の存在確率の変化の一例を示すグラフである。音声区間におけるスペクトル操作前後の存在確率の変化の一例を示すグラフである。スペクトル操作前後のスペクトルエントロピーの値を示すグラフである。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

＜１．概要＞
入力信号に音声が含まれているか否かを判定する音声区間判定技術の分野では、信号のパワーに基づいて判定する技術がある。ところが、信号のレベルが変動する場合には、信号のパワーに基づいて音声区間を正しく判定することは困難である。

そこで、入力信号のスペクトルエントロピーに基づいて音声区間を判定する技術が提案されてきている。スペクトルエントロピーとは、入力信号の各周波数におけるパワースペクトルを確率分布とみなして算出されたエントロピーである。このスペクトルエントロピーは、入力信号の白色性を示した特徴量である。パワースペクトルの確率分布が均一である白色信号では、スペクトルエントロピーは高い値となり、パワースペクトルの確率分布が不均一な（ばらつきの大きい）有色信号ではスペクトルエントロピーは低い値となる。音声信号のパワースペクトルの確率分布は不均一であり、スペクトルエントロピーは低い値となる。この性質を利用して音声区間を判定することができる。

このスペクトルエントロピーを利用した音声区間の判定は、信号のパワーを用いる場合と比較して、信号レベルの変動に強いという利点がある。スペクトルエントロピーは、正規化された値であるため、信号レベルが変化したとしてもパワースペクトルの形状が変わらなければ変動しない。このため、スペクトルエントロピーを利用すると、信号のレベルが変動しても、音声区間判定のための閾値を再設定する必要がなく、信号レベルによらず安定して音声区間を判定することができる。

白色雑音と音声信号とのスペクトルエントロピーの値は、差が大きい。このため、入力信号に白色雑音が含まれる場合であっても、スペクトルエントロピーに基づいて精度よく音声区間を判定することができる。ところが、有色雑音と音声信号とはどちらもスペクトルエントロピーが低い値となる。このため、入力信号に有色雑音が含まれている場合には、音声区間と非音声区間との間でスペクトルエントロピーの値の差が小さくなり、判定精度が落ちてしまう。そこで、有色雑音が含まれる入力信号についても精度よく音声区間を判定する方法が求められている。

パワースペクトルが経時的に変化しない定常な有色雑音が含まれる入力信号については、例えば雑音のパワースペクトルを推測して有色雑音の影響を除くことによって、音声区間判定の精度を向上させることができる。例えば非特許文献２には、雑音のパワースペクトルを予め推測し、入力信号のパワースペクトルを推定した雑音のパワースペクトルで除算することによって雑音成分のパワースペクトルを均一化する方法が記載されている。ここで推測した雑音のパワースペクトルが実際の雑音のパワースペクトルと一致した場合には上記の除算によりパワースペクトルの値が全て１となる。かかる処理によって、定常な有色雑音が含まれる区間のスペクトルエントロピーの値は高くなり、音声区間のスペクトルエントロピーの値と、定常な有色雑音が含まれる区間のスペクトルエントロピーの値との間の差異が大きくなるため、音声区間判定の精度が向上される。

また、パワースペクトルが経時的に変化する非定常な有色雑音が含まれる入力信号については、予め学習させた識別器を用いることにより音声区間判定の精度を向上させることができる。例えば上記特許文献１には、対象のフレームと対象のフレームの前後数フレームについてのスペクトルエントロピー及びパワースペクトルの情報を利用した特徴ベクトルを用いて音声区間を判定する方法が提案されている。かかる処理によって、非定常な有色雑音が含まれる入力信号について、音声区間判定の精度を高めることができる。ところが、かかる方法は、対象のフレームの前後のフレームの特徴を利用するため、リアルタイムで処理することはできなかった。また、識別器を予め学習させておく必要があり、学習データを保持するためのメモリも必要である。

そこで、本件発明者は、少ない演算量で定常雑音が含まれる入力信号及び非定常雑音が含まれる信号のいずれについても音声区間判定の精度を向上させることができ、さらにリアルタイム処理を行うことのできる方法を提案する。

ここで本実施形態に係る音声区間判定の概要について図１及び図２を参照しながら説明する。図１及び図２は、本発明の一実施形態に係る音声区間判定方法の概要を説明するための説明図である。上述の通り、雑音のうち白色雑音については、元々スペクトルエントロピーの値が高く、音声信号のスペクトルエントロピーとの間の差が大きい。このため、入力信号のスペクトルエントロピーの大小に基づいて精度良く音声区間を判定することができる。一方、音声信号と似たスペクトルエントロピーを有する有色雑音については、スペクトルエントロピーに基づいて音声信号と区別することが困難である。このため、本実施形態においては、パワースペクトルを操作することによって、有色雑音のスペクトルエントロピーの値を増大させる。パワースペクトルを操作することによって、有色雑音のスペクトルエントロピーの値が判定に用いられる閾値より大きい値となり、このとき同じ操作を施された音声信号のスペクトルエントロピーの値が閾値以下となれば、音声区間判定の精度を向上させることができる。

ここで、説明のためにスペクトルエントロピーＨの値が同じになる音声信号および有色雑音について考えてみよう。なお、ここで説明に用いられる値は、説明を簡略化するために用いられる一例である。例えば、表１に示されるパワースペクトルの有色雑音と音声信号とを考える。ここで、ｋ＝１〜８とし、ｓ_ｋがｋ番目のパワースペクトルを示すものとする。スペクトルエントロピーＨは、各周波数ビンのパワーの存在確率ｐ_ｋの関数である数式（１）で表される。ここでＭは処理対象とする周波数帯域の下限値であり、Ｎは処理対象とする周波数帯域の上限値である。ここでは音声のスペクトルが集中している周波数帯域についてスペクトルエントロピーを算出することが好ましい。例えば、下限値を２５０Ｈｚ，上限値を４０００Ｈｚとすることができる。なお、ここでは各周波数ビンのパワーの存在確率ｐ_ｋが有色雑音と音声信号とで同じとなる場合について考える。

[数１]

・・・数式（１）

なお、存在確率ｐ_ｋは、以下の数式（２）で表される。

[数２]

・・・数式（２）

表１に示される有色雑音及び音声信号のスペクトルエントロピーの値を数式（１）及び数式（２）を用いて算出すると、いずれもＨ＝２．７０８６９５となる。

本実施形態においては、この各周波数ビンにおけるパワースペクトルの値を増加することにより、存在確率を変化させてスペクトルエントロピーの値を操作する。つまり、音声区間判定装置は、以下の数式（３）で表される処理をｋ＝１〜８について行う。

[数３]
ｓ’_ｋ＝ｓ_ｋ＋α_ｉ・・・数式（３）

ここで、パワースペクトルの増分α_ｉを３０とした場合の、かかる操作を行った後のパワースペクトル及び存在確率は、以下の表２に示される通りとなる。

このときの有色雑音のスペクトルエントロピーは、Ｈ＝２．９９８１５１となり、音声信号のスペクトルエントロピーは、Ｈ＝２．９７３８９５となる。このように、パワースペクトルを増加させることによって、各周波数ビンの存在確率が変化し、存在確率のばらつきが少なくなる。同じ増加量を加えた場合の存在確率の変化の度合いは、元々のパワースペクトルの大きさによって異なる。すなわち、パワースペクトルを増加させることにより、有色雑音及び音声信号のいずれについてもスペクトルエントロピーは増大するが、元々の周波数ビンのパワーが大きい音声信号については、その影響が有色雑音の場合と比較して小さい。このため、有色雑音と音声信号との間で、スペクトルエントロピーの値に差異が生じる。

つまり、有色雑音と音声信号との間でスペクトルエントロピーに差がない場合であっても、パワースペクトルの大きさに差異がある場合には、パワースペクトルを操作することによりスペクトルエントロピーの値に差異が生じる。本実施形態においては、このようにパワースペクトルを操作することによって、スペクトルエントロピーの値を操作し、有色雑音と音声信号とを判定する。以下、このような動作を可能にするための本実施形態に係る音声区間判定装置の構成について説明する。

＜２．構成＞
まず、本実施形態に係る音声区間判定装置１００の機能構成について図３を参照しながら説明する。図３は、本発明の一実施形態に係る音声区間判定装置の機能構成を示すブロック図である。

音声区間判定装置１００は、入力信号から音声区間と非音声区間とを判定する機能を有する情報処理装置の一例である。音声区間判定装置１００は、例えば携帯電話、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、ゲーム機器、家電機器、音楽再生装置、映像処理装置などの情報処理装置であってよい。

音声区間判定装置１００は、フレーム分割部１０１と、パワースペクトル算出部１０２と、パワースペクトル操作部１０３と、スペクトルエントロピー算出部１０４と、判定部１０５と、雑音パワー算出部１０６と、を主に有する。

フレーム分割部１０１は、予め設定した時間間隔を１フレームとして、入力信号をフレーム毎に分割する。ここで用いられる時間間隔は、例えば１フレーム８０ｍｓｅｃとすることができる。

パワースペクトル算出部１０２は、フレーム分割部１０１によりフレームに分割された入力信号について分析長毎にパワースペクトルを算出する。ここで、パワースペクトル算出部１０２は、例えば高速フーリエ変換を利用してパワースペクトルを算出することができる。また、パワースペクトル算出部１０２は、高速フーリエ変換を行うときに、例えばハミング窓などの各種窓関数を用いてもよい。

パワースペクトル操作部１０３は、入力信号のパワーを操作するパワー操作部の一例であり、パワースペクトル算出部１０２により算出された各周波数のパワースペクトルの強度を増加させる。ここで、パワースペクトル操作部１０３は、各周波数のパワースペクトルそれぞれを同じ値増加させることによってパワースペクトルの強度を周波数によらず均一に増加させる。より具体的には、パワースペクトル操作部１０３は、雑音パワー算出部１０６により算出される雑音の平均パワーに応じて各周波数のパワースペクトルの強度を増加させてもよい。上述の通り、パワースペクトルの強度を増加させることにより、元々のパワースペクトルの大きさが異なりスペクトルエントロピーの値が類似する区間が音声区間であるか非音声区間であるかを区別することができるようになる。このとき、増加量は、雑音区間と音声区間とのスペクトルエントロピーの値に差異が生じる大きさであることが望ましい。例えばパワースペクトル操作部１０３は、パワースペクトルの増加量をＳ／Ｎ比及び雑音に基づいて決定することができる。例えば、パワースペクトルの増加量は、雑音の平均パワーよりも１５ｄＢ大きい値とすることができる。また、パワースペクトルの増加量は、雑音のエントロピーに基づいて決定されてもよい。

スペクトルエントロピー算出部１０４は、パワースペクトル操作部１０３により強度が増加されたパワースペクトルを用いてスペクトルエントロピーを算出する。ここでスペクトルエントロピー算出部１０４は、上述の数式（１）及び数式（２）を用いてスペクトルエントロピーの値を算出することができる。このとき、スペクトルエントロピーを算出するために用いる周波数帯域は、音声のスペクトルが含まれる周波数帯域であることが望ましく、例えば２５０Ｈｚ〜４０００Ｈｚであってよい。

判定部１０５は、スペクトルエントロピー算出部１０４により算出されたスペクトルエントロピーの値に基づいて、入力信号が音声区間であるか否かを判定する。判定部１０５は、例えば予め設定された閾値θと算出されたスペクトルエントロピーの値との大小関係に基づいて入力信号が音声区間であるか否かを判定してもよい。例えば判定部１０５は、スペクトルエントロピーの値が閾値θより小さいときに入力信号が音声区間であると判定し、スペクトルエントロピーの値が閾値θ以上であるときに入力信号が非音声区間であると判定することができる。

なお、判定部１０５の用いる閾値θは、理論的に求められるスペクトルエントロピーの最大値に基づいて決定されてよい。例えば、閾値θは、理論的に求められるスペクトルエントロピーの最大値より０．２％小さい値とすることができる。スペクトルエントロピーの最大値は、Ｍを処理対象とする周波数帯域の下限値、Ｎを処理対象とする周波数帯域の上限値とすると、以下の数式（４）により算出される。

[数４]

・・・数式（４）

また、判定部１０５は、スペクトルエントロピーが閾値θに対して一定量以上低い場合に、後の数フレームは全て音声区間と判定するハングオーバー処理を実行してもよい。具体的には、判定部０１５は、スペクトルエントロピー算出部１０４により算出されたスペクトルエントロピーの値と、所定の閾値θとの大小関係に基づいて入力信号が音声区間であると判定した後に、所定長のハングオーバーカウントを開始し、ハングオーバーカウントが０となるまでは入力信号が音声区間であると判定することができる。通常、発話の終端はパワーが低くなるため検出精度が悪化する。しかし、ハングオーバーを設定することによって、検出精度を改善することができる。例えばハングオーバーを発生させる条件は、スペクトルエントロピーが閾値θに対して１％以上低いこととすることができる。またハングオーバーの続く時間長は、例えば５００ｍｓｅｃ程度とすることができる。

雑音パワー算出部１０６は、雑音の特性を示す値を算出する算出部の一例であり、判定部１０５により非音声区間であると判定された区間の前記パワースペクトルの平均パワーを算出することにより、雑音の平均パワーを算出することができる。雑音パワー算出部１０６は、判定部１０５により入力信号が音声でないと判定されたときに限って、パワースペクトル算出部１０２において算出されたパワースペクトルからパワーを算出する。そして、雑音パワー算出部１０６は、ここ算出されたパワーから長期平均を計算し、雑音の平均パワーを逐次更新する。このとき、雑音パワー算出部１０６は、判定部１０５による判定が間違っていた場合の影響を軽減するために、例えば最低でも１００ミリ秒連続で非音声区間であると判定されたときのみ雑音の平均パワーを更新するようにしてもよい。

以上、本実施形態に係る音声区間判定装置１００の機能の一例を示した。上記の各構成要素は、汎用的な部材や回路を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。また、各構成要素の機能を、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などの演算装置がこれらの機能を実現する処理手順を記述した制御プログラムを記憶したＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）やＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などの記憶媒体から制御プログラムを読出し、そのプログラムを解釈して実行することにより行ってもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用する構成を変更することが可能である。

なお、上述のような本実施形態に係る音声区間判定装置１００の各機能を実現するためのコンピュータプログラムを作製し、パーソナルコンピュータ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリなどである。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信してもよい。

＜３．動作＞
次に、図４を参照しながら、本実施形態に係る音声区間判定方法の動作の一例について説明する。図４は、音声区間判定方法の流れの一例を示すフローチャートである。

まず、判定部１０５は、算出されたスペクトルエントロピーの値と所定の閾値θの値との大小関係を比較する。具体的には、スペクトルエントロピーの値が閾値θより小さいか否かを判断する（Ｓ２０１）。そして、スペクトルエントロピーの値が所定の閾値θより小さいと判断された場合には、判定部１０５は、入力信号が音声区間であると判定することができる（Ｓ２０２）。入力信号が音声区間であると判定されたとき、判定部１０５は、さらにスペクトルエントロピーの値と閾値θとの差が一定以上であるか否かを判断する（Ｓ２０３）。そして、ステップＳ２０３の判断によりスペクトルエントロピーの値と閾値θとの差が一定以上である場合には、ハングオーバーカウントを発生させる（Ｓ２０４）。一方、ステップＳ２０３の判断においてスペクトルエントロピーの値と閾値θとの差が一定以上でないと判断された場合には、ステップＳ２０４の処理は省略される。

また一方、ステップＳ２０１の判断において、スペクトルエントロピーの値が閾値θ以上であると判断された場合には、次に、判定部１０５は、ハングオーバーカウントが０でないか否かを判断する（Ｓ２０５）。ステップＳ２０５の判断において、ハングオーバーカウントが０でないと判断された場合には、判定部１０５は入力信号が音声区間であると判定することができる（Ｓ２０６）。そして、判定部１０５は、ハングオーバーカウントを消費する（Ｓ２０７）。一方、ステップＳ２０５の判断においてハングオーバーカウントが０であると判断された場合には、判定部１０５は、入力信号が非音声区間であると判定することができる（Ｓ２０６）。

＜４．効果の例＞
上記において、本実施形態に係る音声区間判定装置１００の構成及び動作について説明してきた。ここで既知の入力信号を上記の音声区間判定装置１００に入力した場合の作用効果について図５〜図８を参照しながら一例を挙げて説明する。

図５は、入力信号とスペクトル操作後の信号の波形の一例を示す説明図である。図６は、非音声区間におけるスペクトル操作前後の存在確率の変化の一例を示すグラフである。図７は、音声区間におけるスペクトル操作前後の存在確率の変化の一例を示すグラフである。図８は、スペクトル操作前後のスペクトルエントロピーの値を示すグラフである。

まず図５を参照すると、実験的に用いられる既知の音声信号Ｓ１が示される。ここで、この音声信号Ｓ１にＳＮ比５ｄＢでノイズをのせた信号Ｓ２が音声区間判定装置１００への入力信号として用いられる。この入力信号Ｓ２が音声区間判定装置１００に入力されると、フレーム分割部１０１によりフレーム単位に分割され、パワースペクトル算出部により分析長毎のパワースペクトルが算出される。

そして、パワースペクトル操作部１０３によって、算出された各周波数のパワースペクトルの強度が雑音の平均パワーに応じて増加させられる。例えばパワースペクトル操作部１０３は、入力信号に白色雑音をのせてもよい。ここでパワースペクトル操作部１０３によるスペクトル操作後の信号波形が図５の符号Ｓ３に示される。

パワースペクトル操作部１０３により入力信号が操作されると、入力信号の全体のパワーが増加される。このとき、全体のパワーが大きくなればなるほど、全パワーに対する各周波数間のパワーの比率の差が相対的に小さくなる。このため、各周波数の存在確率の差が小さくなり、従ってスペクトルエントロピーの値が大きくなる。

例えば、図６に非音声区間における各周波数の存在確率のスペクトル操作前後の変化が示される。スペクトル操作によって、各周波数の存在確率の分布が均一になっていることがわかる。図７には音声区間における各周波数の存在確率のスペクトル操作前後の変化が示される。図６と比較すると、非音声区間と比較して音声区間は各周波数の存在確率の変化の度合いが小さいことがわかる。従って、スペクトル操作により、音声区間と非音声区間との間で各周波数の存在確率の分布に差異が生じ、スペクトルエントロピーの値にも差異が生じる。

判定部１０５は、このスペクトル操作により生じたスペクトルエントロピーの差異に基づいて、入力信号が音声区間であるか非音声区間であるかを判定することができるようになる。

図８にスペクトル操作を行わない場合の入力信号２から算出されたスペクトルエントロピーＥ１と、スペクトル操作後の入力信号Ｓ３から算出されたスペクトルエントロピーＥ２とが示される。Ｅ１においては、スペクトルエントロピーの値がランダムに変化し、音声区間と非音声区間との間でスペクトルエントロピーの値に差異がみられない。これに対し、Ｅ２は、音声区間と非音声区間との間でスペクトルエントロピーの値に差異が生じており、判定部１０５は、このスペクトルエントロピーＥ２に基づいて、音声区間Ｉ１、音声区間Ｉ２、音声区間Ｉ３を精度良く判定することができる。

以上、本実施形態に係る音声区間判定装置１００によれば、パワースペクトルを増加させることにより、全パワーに対する各周波数のパワーの比率が変化し、存在確率が変化する。かかる処理により、パワースペクトルが不均一な雑音（有色雑音）であっても確率分布を均一にすることができる。また、有色雑音よりもパワーの大きな音声区間については、非音声区間と比較してスペクトル操作の影響が小さい。このため、確率分布は均一にはならない。このため、音声区間と非音声区間との間でスペクトルエントロピーの差異が小さい場合であっても、スペクトル操作により音声区間と非音声区間とのスペクトルエントロピーの値に差異が生じる。

従って、音声区間判定装置１００は、このスペクトルエントロピーの値に基づいて、精度良く音声区間を判定することができる。また、このとき、音声区間判定装置１００において新たに追加した演算処理は加算処理だけである。このとき周波数によらず均一な値を加えるだけであるため、演算量に大きな影響を与えることなく音声区間判定の精度を向上することができる。また、この音声区間判定装置１００は、定常雑音が含まれた入力信号及び非定常雑音が含まれた入力信号のいずれにも効果的であり、音声区間判定の精度を向上することができる。

また、音声区間判定装置１００は、判定対象フレームの後のフレームの情報を用いないため、リアルタイムで音声区間判定処理を精度良く行うことができる。また、音声区間判定装置１００は、事前に学習させておいた識別器を用いる必要がないため、学習のためのメモリや演算を確保する必要もない。

以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

例えば、上記実施形態では、音声区間判定装置１００の音声区間を判定するための構成を中心に説明したが、本発明はかかる例に限定されない。例えば、音声区間判定装置１００は、携帯電話や電話会議システムの一部として用いられてもよい。

また、上記実施形態では、ハンドオーバー処理を行う場合の処理について説明したが、ハンドオーバー処理は必ずしも行われなくてもよい。また、ハンドオーバー処理以外に判定精度を向上させるための手法が組合せて用いられてもよいことは言うまでもない。

また、上記実施形態では、パワースペクトル操作部１０３は、雑音パワーに応じてパワースペクトルを操作することとしたが、本発明は係る例に限定されない。例えば、パワースペクトル操作部１０３は、ある一定の値を用いてパワースペクトルを増加させてもよい。

また、上記実施形態では、周波数領域でパワー操作を行うパワースペクトル操作について説明したが、本発明はかかる例に限定されない。例えば、時間領域で入力信号のパワーを増加させてよい。この場合、パワー操作部は、フレーム分割部１０１から供給される分割されたフレームにホワイトノイズを加算することによってパワー操作を行ってよい。このとき、ホワイトノイズの加算量は、ある一定量であってもよいし、雑音に基づいて算出された量であってもよい。

上記実施形態において説明された音声区間判定機能は、例えばテレビ会議システムや携帯電話の一機能として実装されてよい。音声区間判定機能を有するテレビ会議システム及び携帯電話等は、音声区間と判定された入力信号を抽出することにより、クリアな音声を出力することができるようになる。

尚、本明細書において、フローチャートに記述されたステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的に又は個別的に実行される処理をも含む。また時系列的に処理されるステップでも、場合によっては適宜順序を変更することが可能であることは言うまでもない。

１００音声区間判定装置
１０１フレーム分割部
１０２パワースペクトル算出部
１０３パワースペクトル操作部
１０４スペクトルエントロピー算出部
１０５判定部
１０６雑音パワー算出部

Claims

入力信号をフレーム単位に分割するフレーム分割部と、
前記フレーム分割部により分割されたフレーム毎に前記入力信号の強度を増加させるパワー操作部と、
前記パワー操作部により強度が増加された入力信号を用いてスペクトルエントロピーを算出するスペクトルエントロピー算出部と、
前記スペクトルエントロピー算出部により算出されたスペクトルエントロピーの値に基づいて、前記入力信号が音声区間であるか否かを判定する判定部と、
を備えることを特徴とする、音声区間判定装置。
入力信号をフレーム単位に分割するフレーム分割部と、
前記フレーム分割部により分割されたフレームについて分析長毎のパワースペクトルを算出するパワースペクトル算出部と、
前記パワースペクトル算出部により算出されたパワースペクトルの強度を増加させるパワースペクトル操作部と、
前記パワースペクトル操作部により強度が増加されたパワースペクトルを用いてスペクトルエントロピーを算出するスペクトルエントロピー算出部と、
前記スペクトルエントロピー算出部により算出されたスペクトルエントロピーの値に基づいて、前記入力信号が音声区間であるか否かを判定する判定部と、
を備えることを特徴とする、音声区間判定装置。
前記パワースペクトル操作部は、前記パワースペクトルの強度を周波数によらず一定の増加量を加算することにより増加させることを特徴とする、請求項２に記載の音声区間判定装置。
前記判定部により音声区間でないと判定された区間の前記パワースペクトルの平均パワーを算出することにより雑音の平均パワーを算出する雑音パワー算出部、
をさらに備え、
前記パワースペクトル操作部は、前記雑音パワー算出部により算出される雑音の平均パワーに応じて前記パワースペクトルの強度を増加させることを特徴とする、請求項２または３のいずれかに記載の音声区間判定装置。
前記判定部は、スペクトルエントロピーの値と所定の閾値との大小関係に基づいて、前記入力信号が音声区間であると判定した後、所定長のハングオーバーカウントを開始し、当該ハングオーバーカウントが０となるまでは入力信号を音声区間であると判定する、請求項２に記載の音声区間判定装置。
入力信号をフレーム単位に分割し、
分割されたフレームについて分析長毎のパワースペクトルを算出し、
算出された前記パワースペクトルの強度を増加させ、
強度が増加された前記パワースペクトルを用いてスペクトルエントロピーを算出し、
算出されたスペクトルエントロピーの値に基づいて、前記入力信号が音声区間であるか否かを判定することを特徴とする、音声区間判定方法。
コンピュータを、
入力信号をフレーム単位に分割するフレーム分割部と、
前記フレーム分割部により分割されたフレームについて分析長毎のパワースペクトルを算出するパワースペクトル算出部と、
前記パワースペクトル算出部により算出されたパワースペクトルの強度を増加させるパワースペクトル操作部と、
前記パワースペクトル操作部により強度が増加されたパワースペクトルを用いてスペクトルエントロピーを算出するスペクトルエントロピー算出部と、
前記スペクトルエントロピー算出部により算出されたスペクトルエントロピーの値に基づいて、前記入力信号が音声区間であるか否かを判定する判定部と、
を備えることを特徴とする、音声区間判定装置として機能させるためのプログラム。