JP4607908B2

JP4607908B2 - 音声区間検出装置および音声区間検出方法

Info

Publication number: JP4607908B2
Application number: JP2007004669A
Authority: JP
Inventors: 康人荒金; 一峰兵藤; 康博外島
Original assignee: RayTron Inc
Current assignee: RayTron Inc
Priority date: 2007-01-12
Filing date: 2007-01-12
Publication date: 2011-01-05
Anticipated expiration: 2027-01-12
Also published as: JP2008170789A

Description

この発明は、入力された音声信号が継続する区間を検出する音声区間検出装置および音声区間検出方法に関する。

例えば、ボイスレコーダなどにおいては、音声信号が入力されると録音を開始するが、録音の開始を指示するために、ボタンやスイッチを設ける必要がある。しかし、ボタンやスイッチなどを操作する必要があるため、システム全体としてフリーハンド操作であるとはいえない。そこで、音声が入力されたことを自動的に検知して、録音を開始するようにしたものも存在するが、このためには、音声信号が入力されたことを検知する必要がある。

特開平１０−３２７７６号公報（特許文献１）には、映像音声信号のレベルを検出し、その音声レベルと基準音声レベルとを比較し、音声レベルが基準音声レベルより大きい継続時間をタイマで求め、求めた継続時間からダイジェスト部分のアドレスを生成し、そのアドレスに基づきダイジェスト部分の映像音声信号を再生する記録再生装置について記載されている。
特開平１０−３２７７６号公報

特許文献１に記載されている装置は、ＶＴＲなどに入力される映像音声信号から音声信号のレベルを検出するに過ぎず、マイクロフォンから入力された音声信号から音声区間を検出するものではない。マイクロフォンから入力された音声信号から音声区間を検出するためには、環境音である周囲の雑音や騒音から音声を精度よく識別する必要がある。特に、従来の音声区間検出方法は、音声信号のエネルギーに着目した手法はあるが、雑音環境下では音声区間を精度よく検出するのは難しい。

そこで、この発明の目的は、雑音環境下においても音声区間をより精度よく検出できる音声区間検出装置および音声区間検出方法を提供することである。

この発明は、入力された音声信号に基づく音声の音声区間を検出する音声区間検出装置であって、入力された音声信号を一定区間ごとに区分し、各区間ごとのフォルマントが存在する周波数帯域のパワースペクトルの平均値をしきい値として算出するしきい値算出手段と、入力された音声信号のパワースペクトルが算出されたしきい値を越えたことに応じて、音声区間を判別する判別手段とを備える。

この発明では、入力された音声のパワーが集中する周波数帯に着目してしきい値を算出して、入力音声信号のパワースペクトルを判別するようにしたので、雑音環境下においても音声区間を精度よく検出できる。

好ましくは、しきい値算出手段は、入力された音声信号から窓処理を行い、フーリェ変換してスペクトルを算出し、複数の周波数帯域について算出したスペクトルの絶対値の自乗和の加重平均値を算出する。着目する周波数帯を複数設けることにより、様々な話者に適応した音声区間を検出できる。

好ましくは、判別手段は、入力された音声信号のパワースペクトルが所定の区間（Ｕ区間）連続してしきい値以下であれば、新たなしきい値として直前の区間までの所定の区間における平均値（Ｐ´（τ））を用い、入力された音声信号のパワースペクトルがしきい値を越えていれば、新たなしきい値として直前の区間のしきい値を用いる。これにより、しきい値は音声や突発性の雑音を含まない非音声区間の定常的なパワースペクトルになると期待できる。

好ましくは、判別手段は、入力された音声信号のパワースペクトルが算出されたしきい値を所定時間連続して越えたことを判別したことに応じて、音声区間の始端を判別し、音声区間の始端を検出した後に、所定時間連続してしきい値を下回ると音声区間の終端と判別する。音声信号のパワースペクトルは、音声区間において、その前後の非音声区間におけるパワースペクトルよりも大きくなる性質があるので、非音声区間におけるパワースペクトルの標準的な値を算出し、音声信号のパワースペクトルが算出した標準的な値を大きく上回る区間を音声区間と推定できる。

好ましくは、判別手段は、音声区間の始端を検出する前において、入力された音声信号のパワースペクトルがしきい値を予め定める第１の区間（β区間）の全体で越えていることを判別（ｃ_１≧β）したことに応じて、音声区間の始端を特定する。また、音声区間の始端を検出した後において、入力された音声信号のパワースペクトルがしきい値を下回り（ｃ_１＝０）、かつ、第１の区間とは異なる第２の区間（γ区間）内の各々の区間の全てについて、過去の第３の区間（β´区間）全体で入力された音声信号のパワースペクトルがしきい値を越えない（ｃ_２≧γ）ことを判別したことに応じて、音声区間の終端を特定する。

この発明の他の局面は、入力された音声信号に基づく音声の音声区間を検出する音声区間検出方法であって、入力された音声信号を一定区間ごとに区分し、各区間ごとのフォルマントが存在する周波数帯域のパワースペクトルの平均値をしきい値として算出するステップと、入力された音声信号のパワースペクトルが算出されたしきい値を越えたことを判別したことに応じて、音声区間の始端を判別するステップと、入力された音声信号のパワースペクトルがしきい値を下回ったことに応じて、音声区間の終端を判別するステップとを含む。

この発明は、入力された音声信号を一定区間ごとに区分し、各区間ごとのフォルマントが存在する周波数帯域のパワースペクトルの平均値をしきい値として算出し、入力された音声信号のパワースペクトルがしきい値を越えたことに応じて、音声区間を判別するようにしたので、非音声区間ではパワースペクトルが小さく、および、突発性の雑音によりパワースペクトルがしきい値を越える時間は比較的小さいため、音声信号と区別でき、雑音環境下においても音声区間をより精度よく検出できる。

図１はこの発明の一実施形態における音声区間検出装置１０のブロック図である。図１において、音声区間検出装置１０は、音声入力部１と、Ａ／Ｄコンバータ２と、ＣＰＵ３と、メモリ４とを含む。

音声入力部１は、例えばマイクロフォンなどであって、音声が入力されると音声信号を出力する。音声信号はＡ／Ｄコンバータ２に与えられてデジタル信号に変換され、ＣＰＵ３に与えられる。ＣＰＵ３は後述の図５に示すフローチャートに基づくプログラムを実行して、音声区間を検出する。ＣＰＵ３は音声区間の始端を検出すると、メモリ４に記憶される音声区間フラグをＯＮし、音声区間の終端を検出するとメモリ４に記憶されている音声区間フラグをＯＦＦにする。ＣＰＵ３は、しきい値算出手段および判別手段として作動する。

図２は入力音声信号の振幅の変化の一例を示す図であり、図３は図２に示した入力音声信号のフォルマントが存在する周波数帯域のパワースペクトルの信号強度の変化を示す図である。

図２において、横軸は時刻（ｓｅｃ）を示し、縦軸は入力音声信号の振幅を示している。図３において、横軸は図２の横軸に対応する時刻（ｓｅｃ）を示し、縦軸は入力音声信号のフォルマントが存在する周波数帯域のパワースペクトルの信号強度を示している。

図２に示すように、入力音声信号が入力されてから時刻０〜１．６ｓｅｃの期間は無音状態になっており、１．６ｓｅｃ経過後に比較的小さな振幅の音声が一瞬だけ入力され、その後無音状態なり、１．８ｓｅｃ経過後に比較的大きな振幅の音声がおよそ１ｓｅｃ間入力され、その後無音状態になっていることを示している。

図２に示した音声信号のフォルマントが存在する周波数帯域のパワースペクトルの信号強度は図３に示すように表される。図３に示した細線ａは、入力音声信号をフレーム（一定区間）ごとに分析し、その後一定量シフトして音声区間を検出するときの低次のフォルマントが存在する周波数帯域のパワースペクトルの平均値Ｐ（τ）である。以下の説明では、Ｐ（τ）を平均値と略称する。ここで、フレームの長さおよびシフト量はともに数十ｍｓｅｃ程度である。τはフレーム番号１，２，３…を示しており、時間的位置を表している。

図３に示した、太線ｂは入力音声信号の音声区間の始端と終端とを判別するためのしきい値Ｑ（τ）であり、前記平均値Ｐ（τ）の過去の数百〜数千ｍｓｅｃにわたる平均の数倍で示されるものとする。この発明の一実施形態では、例えばフレーム番号１＝τ−β、フレーム番号２＝τ−β＋１…の順に各区間内の入力音声信号の平均値Ｐ（τ）がしきい値Ｑ（τ）を数十ｍｓｅｃ間連続して上回ったことを判別すると音声区間の始端と推定する。これは、突発性の雑音を音声区間の始端であると誤って推定しないようにするためである。

より好ましくは、平均値として、入力された音声信号から高域強調および窓処理を行い、フーリェ変換してスペクトルを算出し、複数の周波数帯域について算出したスペクトルの絶対値の自乗和の加重平均を求めるようにしてもよい。なお、高域強調は必ずしも必須とされるものではなく、高域強調してもしなくともよい。ここで、高域強調とは、高い周波数になるにつれて減衰する人間の声のパワースペクトルを平坦化する目的で行う処理である。

音声区間の始端を検出した後、平均値Ｐ（τ）がしきい値Ｑ（τ）を数百ｍｓｅｃ間連続して下回ると、音声区間の終端を検出したものと推定する。これは、ショートポーズやパワーの小さい音素を音声区間の終端であると推定しないようにするためである。この発明の一実施形態では、上記のごとく、突発性の雑音を音声区間の始端であると誤って推定したり、ショートポーズやパワーの小さい音素を音声区間の終端であると推定したりしないようにするため、以下に説明する変数ｃ_０，ｃ_１，ｃ_２を用いる。

図４はフォルマントが存在する周波数帯域のパワースペクトルの信号強度と変数ｃ_０，ｃ_１，ｃ_２との関係を説明するための図である。

次に、図４を参照して、変数ｃ_０，ｃ_１，ｃ_２について説明する。変数ｃ_０は、Ｐ（τ−ｃ_０）≦Ｑ（τ−ｃ_０）が成立しない最小の非負整数として定義される。つまり、平均値Ｐ（τ）がしきい値Ｑ（τ）を越えない区間が連続する数である。ｃ_０＝０のときは、その区間付近に定常的な環境音以外の音が存在していることを示し、ｃ_０≧１のときは、その区間付近に定常的な環境音以外の音が存在していないことを示している。なお、図４において、例えば時刻ｔ１は、ｔ２の直前までｔ１の区間が続くことを示している。

図４に示した例では、ｔ５〜ｔ１９の区間は、定常的な環境音以外の音、すなわち音声が存在していることを示すために変数ｃ_０として０が示されている。それ以外のｔ１〜ｔ４、ｔ２０〜ｔ４０の区間は、定常的な環境音以外の音が存在していないことを示すために、変数ｃ_０として例えば１〜３２の数値が示されている。

変数ｃ_１は、Ｐ（τ−ｃ_１）＞Ｑ（τ−ｃ_１）が成立しない最小の非負整数として定義される。つまり、平均値Ｐ（τ）がしきい値Ｑ（τ）を越える区間が連続する数である。ｃ_１＝０のときは、その区間付近に定常的な環境音以外の音が存在しないことを示し、ｃ_１≧１のときは、その区間付近に定常的な環境音以外の音が存在することを示している。図４に示した例では、ｔ１〜ｔ４およびｔ２０〜ｔ４０の区間は環境音以外の音が存在していないことを示すために変数ｃ_１として０が示されており、ｔ５〜ｔ１９の区間は平均値Ｐ（τ）がしきい値Ｑ（τ）を越える区間として、例えば１〜１５の数値が示されている。ｃ_１≧βのときは、その区間付近に定常的な環境音以外で、かつ突発的でない音が存在していることを示している。第１の区間としてのβは平均値Ｐ（τ）がしきい値Ｑ（τ）を上回り、音声の始端と判別するために要する時間として定義される。

変数ｃ_２は、区間（τ−ｃ_２）における変数ｃ_１がβ´以上になる最小の非負整数として定義される。つまり、平均値Ｐ（τ）がβ´区間以上連続してしきい値Ｑを越える区間が何区間前に存在したかを表す数である。第３の区間としてのβ´は雑音などが入力されたときに音声と区別するための時間として定義される。第２の区間としてのγは定常的な環境音以外で、かつ突発的でない音が存在せず音声区間の終端を判定するための時間として定義される。ｃ_２＜γのときは、定常的な環境音以外で、かつ突発的でない音が存在することを示しており、ｔ９〜ｔ１９の区間は０が示されている。ｃ_２≧γのときは、定常的な環境音以外で、かつ突発的でない音が存在しないことを示している。図４に示した例では、ｔ１〜ｔ８およびｔ２０〜ｔ４０の区間は１〜４４の数値が示されている。

この実施形態では、上記変数ｃ_０を用いてしきい値を選択し、変数ｃ_１，ｃ_２を用いて音声区間の始端と終端とを判別する。すなわち、音声区間の始端を検出する前において、入力された音声信号のパワースペクトルがしきい値を予め定める第１の区間（β区間）の全体で越えていることを判別（ｃ_１≧β）したことに応じて、音声区間の始端を特定する。また、音声区間の始端を検出した後において、入力された音声信号のパワースペクトルがしきい値を下回り（ｃ_１＝０）、かつ、第１の区間とは異なる第２の区間（γ区間）内の各々の区間の全てについて、過去の第３の区間（β´区間）全体で入力された音声信号のパワースペクトルがしきい値を越えない（ｃ_２≧γ）ことを判別したことに応じて、音声区間の終端を特定する。

図４では、一例として、ｔ５〜ｔ９の区間をβ区間として示し、ｔ１６〜ｔ２０…ｔ３５〜ｔ３９の区間はβ´区間が続くことを示し、ｔ２０〜ｔ３９の区間はγ区間として示している。また、ｔ８の区間まで音声フラグがＯＦＦになっており、ｔ９の区間で音声区間フラグがＯＮになり、ｔ３８の区間まで音声区間フラグのＯＮが続き、ｔ３９で音声区間フラグがＯＦＦになることを示している。

図５はこの発明の一実施形態における音声区間検出装置の動作を説明するためのフローチャートであり、図６および図７は図５に示したフローチャートの各ステップを説明するための図である。

次に、この発明の一実施形態の具体的な動作について説明する。まず、図２に示した入力音声信号のスペクトログラムをＸ（τ，ｆ）とする。τは、図３に示すように分析区間の位置（整数値）であり、分析区間τの移動量をＴとすると、分析区間は時間ｔ＝τＴである。また、ｆは周波数である。入力信号のある周波数帯域のパワースペクトルの平均値Ｐ（τ）は、第（１）式で表される。

ここで、着目する周波数帯の下限をｌとし、上限をｈとする。なお、着目する周波数帯は、数百〜数千Ｈｚ（８００〜３０００Ｈｚ）である。

図５に示すステップ（図示ではＳＰと略称する）ＳＰ１において、ＣＰＵ３は内部のレジスタなどを初期化し、ステップＳＰ２〜ＳＰ４において、現在の区間におけるしきい値Ｑ（τ）を算出する。すなわち、ステップＳＰ２において、平均値Ｐ（τ）が直前の区間まで連続してしきい値Ｑ（τ）以下である区間の長さを示す変数ｃ_０と、Ｕとを比較する。変数ｃ_０がＵより小さければ、ステップＳＰ３に進み、そうでなければステップＳＰ４に進む。

変数ｃ_０がＵより小さことを判定したときには、ステップＳＰ３において、第（３）式に示すように、しきい値Ｑ（τ）を直前の区間の値Ｑ（τ−１）とし、ステップＳＰ５に進む。変数ｃ_０がＵより小さくないと判定したときには、ステップＳＰ４において、第（２）式に示すように、しきい値Ｑ（τ）を平均値Ｐ（τ）の直前の区間までのＡ区間にわたる平均値のα倍とし、ステップＳＰ５に進む。ステップＳＰ５において、前述の第（１）式に基づいて、現在の区間における平均値Ｐ（τ）を算出する。

ここで、Ａ区間は数百〜数千ｍｓｅｃ（約４００ｍｓｅｃ）であり、Ｕ区間は数百〜数千ｍｓｅｃ（約４００ｍｓｅｃ）であり、αは数〜数十倍（約４倍）である。この結果Ｑ（τ）の値は、音声や突発性の雑音を含まない非音声区間の定常的なパワースペクトルのα倍になる。

ステップＳＰ６〜ＳＰ１１においては、変数ｃ_０，ｃ_１，ｃ_２を算出するが、まずステップＳＰ６〜ＳＰ８において変数ｃ_０，ｃ_１を算出する。ステップＳＰ６において、現在の区間における平均値Ｐ（τ）をしきい値Ｑ（τ）と比較し、平均値Ｐ（τ）がしきい値Ｑ（τ）よりも大きくなければステップＳＰ７に進み、大きければステップＳＰ８に進む。平均値Ｐ（τ）がしきい値Ｑ（τ）よりも大きくないことを判定してステップＳＰ７に進んだときには、平均値Ｐ（τ）が現在の区間まで連続してしきい値Ｑ（τ）以下である区間の長さを１つ増やし（ｃ_０＝ｃ_０＋１）、平均値Ｐ（τ）が現在の区間まで連続してしきい値Ｑ（τ）を越える区間の長さをｃ_１＝０にしてステップＳＰ９に進む。

平均値Ｐ（τ）がしきい値Ｑ（τ）よりも大きいことを判定してステップＳＰ８に進んだときには、平均値Ｐ（τ）が現在の区間まで連続してしきい値Ｑ（τ）以下である区間の長さを０にし（ｃ_０＝０）、平均値Ｐ（τ）が現在の区間まで連続してしきい値Ｑ（τ）を越える区間の長さを１つ増やし（ｃ_１＝ｃ_１＋１）、ステップＳＰ９に進む。

次に、ステップＳＰ９〜ＳＰ１１において、変数ｃ_２を算出する。まず、ステップＳＰ９において、平均値Ｐ（τ）が現在の区間まで連続してしきい値Ｑを越える区間の長さを示す変数ｃ_１とβ´とを比較し、ｃ_１がβ´より小さければステップＳＰ１０に進み、そうでなければステップＳＰ１１に進む。ここで、β´区間は数十ｍｓｅｃ〜数百ｍｓｅｃ（約５０ｍｓｅｃ）である。

ステップＳＰ１０では、各区間における平均値Ｐ（τ）がその区間まで連続してしきい値Ｑ（τ）を越える区間の長さが、現在の区間まで連続してβ´以上である区間の長さを１つ増やし（ｃ_２＝ｃ_２＋１）、ステップＳＰ１２に進む。ステップＳＰ１１では、各区間における平均値Ｐ（τ）がその区間まで連続してしきい値Ｑ（τ）を越える区間の長さが、現在の区間まで連続してβ´以上である区間の長さを０（ｃ_２＝０）にし、ステップＳＰ１２に進む。

ステップＳＰ１２〜ＳＰ１７では、現在の区間が音声区間の始端、あるいは終端であるかどうかの判定を行う。すなわち、ステップＳＰ１２において、メモリ４にセットされる音声区間フラグの状態を確認し、音声区間フラグがＯＦＦであればステップＳＰ１３に進み、ＯＮであればステップＳＰ１５に進む。ステップＳＰ１３〜ＳＰ１４では、現在の区間が音声区間の始端であるかどうかの判定をし、ステップＳＰ１５〜ＳＰ１７では終端であるかどうかの判定をする。

音声区間フラグがＯＦＦであると判定してステップＳＰ１３に進むと、平均値Ｐ（τ）が現在の区間まで連続してしきい値Ｑ（τ）を越える区間の長さ（ｃ_１）をβと比較し、ｃ_１がβより小さければステップＳＰ１８に進み、そうでなければステップＳＰ１４に進む。ここで、β区間は数十ｍｓｅｃから数百ｍｓｅｃである。ステップＳＰ１４に進むと、メモリ４の音声区間フラグをＯＦＦからＯＮにすることにより音声区間の始端を検出したことを通知してステップＳＰ１８に進む。

音声区間フラグがＯＮであると判定してステップＳＰ１５に進むと、現在の区間における平均値Ｐ（τ）がしきい値Ｑ（τ）以下であるかを判定する。すなわち、平均値Ｐ（τ）が現在の区間まで連続してしきい値Ｑ（τ）を越える区間の長さ（ｃ_１）が０であるかどうかを判定する。そうであればステップＳＰ１６に進み、そうでなければステップＳＰ１８に進む。ステップＳＰ１６において、各区間における平均値Ｐ（τ）がその区間まで連続してしきい値Ｑ（τ）を越える区間の長さが現在の区間まで連続してβ´以上である区間の長さ（ｃ_２）をγと比較し、ｃ_２がγより小さければステップＳＰ１８に進み、そうでなければステップＳＰ１７に進む。ここで、γ区間は数百ｍｓｅｃ(約４００ｍｓｅｃ)である。

ステップＳＰ１７において、メモリ４の音声区間フラグをＯＮからＯＦＦにすることにより、音声区間の終端を検知したことを通知する。ステップＳＰ１８において、次の区間について処理をする前に、フレーム（区間）番号を１つ増やし、τ＝τ＋１にしてステップＳＰ２に戻り、以下、ステップＳＰ２〜ＳＰ１８の処理を繰り返す。

上述のごとく、この発明の実施形態によれば、入力された音声信号を一定区間ごとに区分し、各区間ごとの低次のフォルマントが存在する周波数帯域のパワースペクトルの平均値Ｐ（τ）を算出し、入力された音声信号のパワースペクトルが算出された値をしきい値Ｑ（τ）を越えたことを判別したことに応じて、音声区間を判別するようにしたので、非音声区間ではパワースペクトルが小さく、および、突発性の雑音によりパワースペクトルがしきい値を越える時間は比較的小さいため、音声信号と区別でき、雑音環境下においても音声区間をより精度よく検出できる。

特に、非音声区間から音声区間に向かっていくと、通常の場合、平均値Ｐがしきい値Ｑを上回り始めた区間が音声区間の始端になる。しかし、突発性の雑音が存在する場合、その区間において、平均値Ｐがしきい値Ｑを上回ることがある。そこで、過去にβ区間（第１区間）連続して平均値Ｐがしきい値Ｑを上回るかを判定することにより、突発性の雑音が存在する区間を音声区間の始端と誤認しないようにすることができる。

また、音声区間の終端を推定すると、音声区間の終端付近の非音声区間に突発性の雑音が存在する場合に、その雑音が存在する区間も音声区間と誤認することがある。そこで、平均値Ｐ（τ）が現在の区間まで連続してしきい値Ｑ（τ）以下である区間の長さが所定時間になったときに音声区間の終端であると判別することはしない。その代わりに、過去β´区間（第３の区間）に平均値Ｐ（τ）がしきい値Ｑ（τ）以下になる区間が存在することが、γ区間（第２の区間）連続するか否かを判別することにより、突発性の雑音が存在する区間を音声区間と誤認しないようにすることができる。

なお、上述の実施形態では、入力信号のある周波数帯のパワースペクトルＰ（τ）として第（１）式で求めたものを用いるようにしたが、複数の周波数帯から算出したパワースペクトルの加重平均として第（４）式から求めたものを用いてもよい。

ここで、Ｗ_ｉは重みを示し、Ｐ_ｉは第（５）式で表される。

ｌ_ｉは着目するｉ番目の周波数帯の下限を示し、ｈ_ｉはその上限である。

このように着目する周波数帯を複数設けて個々のパワースペクトルＰ（τ）の加重平均を検出信号として用いることにより、音声区間検出の精度を高めることができる。フォルマントは、人間の声や楽器などが持っている固有のスペクトルである。フォルマントが存在する周波数帯は、男性や女性や子供などのように性別、年齢によって異なっており、男性の声に比べて女性の声の周波数帯が高く、子供の声はさらに高くなることがわかっている。そこで、着目する周波数帯を複数設けることにより、様々な話者に適応した音声区間を検出することができる。

また、上述の説明では、この発明を図５に示したフローチャートに基づくソフトウェア処理によって実行するようにしたが、これに限ることなく、ハード回路で実現してもよい。

以上、図面を参照してこの発明の実施形態を説明したが、この発明は、図示した実施形態のものに限定されない。図示された実施形態に対して、この発明と同一の範囲内において、あるいは均等の範囲内において、種々の修正や変形を加えることが可能である。

この発明は、音声の始端と終端を検出する音響装置などに有利に利用できる。

この発明の一実施形態における音声区間検出装置のブロック図である。入力音声信号の振幅の変化の一例を示す図である。図２に示した入力音声信号のフォルマントが存在する周波数帯域のパワースペクトルの信号強度の変化を示す図である。フォルマントが存在する周波数帯域のパワースペクトルの信号強度と変数ｃ_０，ｃ_１，ｃ_２との関係を説明するための図である。この発明の一実施形態における音声区間検出装置の動作を説明するためのフローチャートである。図５に示したフローチャートの各ステップを説明する図である。図５に示したフローチャートの各ステップを説明する図である。

符号の説明

１音声入力部、２Ａ／Ｄコンバータ、３ＣＰＵ、４メモリ、１０音声区間検出装置。

Claims

入力された音声信号に基づく音声の音声区間を検出する音声区間検出装置であって、
前記入力された音声信号を所定区間ごとに区分し、各区間ごとのフォルマントが存在する周波数帯域のパワースペクトルの平均値をしきい値として算出するしきい値算出手段と、
前記入力された音声信号のパワースペクトルが前記算出されたしきい値を越えたことに応じて、音声区間を判別する判別手段とを備え、
前記判別手段は、
前記音声区間の始端を検出する前において、前記入力された音声信号のパワースペクトルの平均値が前記しきい値を予め定める第１の区間の全体で越えていることを判別したことに応じて、前記音声区間の始端を特定し、
前記音声区間の始端を検出した後において、前記入力された音声信号のパワースペクトルが前記しきい値を下回り、かつ、前記第１の区間とは異なる第２の区間内の各々の区間の全てについて、過去の第３の区間全体で前記入力された音声信号のパワースペクトルが前記しきい値を越えないことを判別したことに応じて、前記音声区間の終端を特定し、
前記判別手段は、
前記入力された音声信号のパワースペクトルが所定の区間連続して前記しきい値以下であれば、新たなしきい値として直前の区間までの所定の区間における平均値を用い、前記入力された音声信号のパワースペクトルが前記しきい値を越えていれば、新たなしきい値として前記直前の区間の値を用いる、音声区間検出装置。
前記しきい値算出手段は、前記入力された音声信号から窓処理を行い、フーリェ変換してスペクトルを算出し、複数の周波数帯域について算出したスペクトルの絶対値の自乗和の加重平均値を算出する、請求項１に記載の音声区間検出装置。
前記判別手段は、前記入力された音声信号のパワースペクトルが前記算出されたしきい値を所定時間連続して越えたことを判別したことに応じて、音声区間の始端を判別し、前記音声区間の始端を検出した後に、前記パワースペクトルが所定時間連続して前記しきい値を下回ったことを判別したことに応じて、音声区間の終端を判別する、請求項１または２に記載の音声区間検出装置。
入力された音声信号に基づく音声の音声区間を検出する音声区間検出方法であって、
前記入力された音声信号を一定区間ごとに区分し、各区間ごとのフォルマントが存在する周波数帯域のパワースペクトルの平均値をしきい値として算出するステップと、
前記入力された音声信号のパワースペクトルが前記算出されたしきい値を越えたことを判別したことに応じて、音声区間の始端を判別するステップと、
前記入力された音声信号のパワースペクトルが前記しきい値を下回ったことに応じて、前記音声区間の終端を判別するステップとを含み、
前記判別するステップは、
前記音声区間の始端を検出する前において、前記入力された音声信号のパワースペクトルの平均値が前記しきい値を予め定める第１の区間の全体で越えていることを判別したことに応じて、前記音声区間の始端を特定し、
前記音声区間の始端を検出した後において、前記入力された音声信号のパワースペクトルが前記しきい値を下回り、かつ、前記第１の区間とは異なる第２の区間内の各々の区間の全てについて、過去の第３の区間全体で前記入力された音声信号のパワースペクトルが前記しきい値を越えないことを判別したことに応じて、前記音声区間の終端を特定し、
前記判別するステップは、
前記入力された音声信号のパワースペクトルが所定の区間連続して前記しきい値以下であれば、新たなしきい値として直前の区間までの所定の区間における平均値を用い、前記入力された音声信号のパワースペクトルが前記しきい値を越えていれば、新たなしきい値として前記直前の区間の値を用いる、音声区間検出方法。