JP4607908B2 - 音声区間検出装置および音声区間検出方法 - Google Patents

音声区間検出装置および音声区間検出方法 Download PDF

Info

Publication number
JP4607908B2
JP4607908B2 JP2007004669A JP2007004669A JP4607908B2 JP 4607908 B2 JP4607908 B2 JP 4607908B2 JP 2007004669 A JP2007004669 A JP 2007004669A JP 2007004669 A JP2007004669 A JP 2007004669A JP 4607908 B2 JP4607908 B2 JP 4607908B2
Authority
JP
Japan
Prior art keywords
section
threshold value
speech
power spectrum
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007004669A
Other languages
English (en)
Other versions
JP2008170789A (ja
Inventor
康人 荒金
一峰 兵藤
康博 外島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
RayTron Inc
Original Assignee
RayTron Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by RayTron Inc filed Critical RayTron Inc
Priority to JP2007004669A priority Critical patent/JP4607908B2/ja
Publication of JP2008170789A publication Critical patent/JP2008170789A/ja
Application granted granted Critical
Publication of JP4607908B2 publication Critical patent/JP4607908B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、入力された音声信号が継続する区間を検出する音声区間検出装置および音声区間検出方法に関する。
例えば、ボイスレコーダなどにおいては、音声信号が入力されると録音を開始するが、録音の開始を指示するために、ボタンやスイッチを設ける必要がある。しかし、ボタンやスイッチなどを操作する必要があるため、システム全体としてフリーハンド操作であるとはいえない。そこで、音声が入力されたことを自動的に検知して、録音を開始するようにしたものも存在するが、このためには、音声信号が入力されたことを検知する必要がある。
特開平10−32776号公報(特許文献1)には、映像音声信号のレベルを検出し、その音声レベルと基準音声レベルとを比較し、音声レベルが基準音声レベルより大きい継続時間をタイマで求め、求めた継続時間からダイジェスト部分のアドレスを生成し、そのアドレスに基づきダイジェスト部分の映像音声信号を再生する記録再生装置について記載されている。
特開平10−32776号公報
特許文献1に記載されている装置は、VTRなどに入力される映像音声信号から音声信号のレベルを検出するに過ぎず、マイクロフォンから入力された音声信号から音声区間を検出するものではない。マイクロフォンから入力された音声信号から音声区間を検出するためには、環境音である周囲の雑音や騒音から音声を精度よく識別する必要がある。特に、従来の音声区間検出方法は、音声信号のエネルギーに着目した手法はあるが、雑音環境下では音声区間を精度よく検出するのは難しい。
そこで、この発明の目的は、雑音環境下においても音声区間をより精度よく検出できる音声区間検出装置および音声区間検出方法を提供することである。
この発明は、入力された音声信号に基づく音声の音声区間を検出する音声区間検出装置であって、入力された音声信号を一定区間ごとに区分し、各区間ごとのフォルマントが存在する周波数帯域のパワースペクトルの平均値をしきい値として算出するしきい値算出手段と、入力された音声信号のパワースペクトルが算出されたしきい値を越えたことに応じて、音声区間を判別する判別手段とを備える。
この発明では、入力された音声のパワーが集中する周波数帯に着目してしきい値を算出して、入力音声信号のパワースペクトルを判別するようにしたので、雑音環境下においても音声区間を精度よく検出できる。
好ましくは、しきい値算出手段は、入力された音声信号から窓処理を行い、フーリェ変換してスペクトルを算出し、複数の周波数帯域について算出したスペクトルの絶対値の自乗和の加重平均値を算出する。着目する周波数帯を複数設けることにより、様々な話者に適応した音声区間を検出できる。
好ましくは、判別手段は、入力された音声信号のパワースペクトルが所定の区間(U区間)連続してしきい値以下であれば、新たなしきい値として直前の区間までの所定の区間における平均値(P´(τ))を用い、入力された音声信号のパワースペクトルがしきい値を越えていれば、新たなしきい値として直前の区間のしきい値を用いる。これにより、しきい値は音声や突発性の雑音を含まない非音声区間の定常的なパワースペクトルになると期待できる。
好ましくは、判別手段は、入力された音声信号のパワースペクトルが算出されたしきい値を所定時間連続して越えたことを判別したことに応じて、音声区間の始端を判別し、音声区間の始端を検出した後に、所定時間連続してしきい値を下回ると音声区間の終端と判別する。音声信号のパワースペクトルは、音声区間において、その前後の非音声区間におけるパワースペクトルよりも大きくなる性質があるので、非音声区間におけるパワースペクトルの標準的な値を算出し、音声信号のパワースペクトルが算出した標準的な値を大きく上回る区間を音声区間と推定できる。
好ましくは、判別手段は、音声区間の始端を検出する前において、入力された音声信号のパワースペクトルがしきい値を予め定める第1の区間(β区間)の全体で越えていることを判別(c≧β)したことに応じて、音声区間の始端を特定する。また、音声区間の始端を検出した後において、入力された音声信号のパワースペクトルがしきい値を下回り(c=0)、かつ、第1の区間とは異なる第2の区間(γ区間)内の各々の区間の全てについて、過去の第3の区間(β´区間)全体で入力された音声信号のパワースペクトルがしきい値を越えない(c≧γ)ことを判別したことに応じて、音声区間の終端を特定する。
この発明の他の局面は、入力された音声信号に基づく音声の音声区間を検出する音声区間検出方法であって、入力された音声信号を一定区間ごとに区分し、各区間ごとのフォルマントが存在する周波数帯域のパワースペクトルの平均値をしきい値として算出するステップと、入力された音声信号のパワースペクトルが算出されたしきい値を越えたことを判別したことに応じて、音声区間の始端を判別するステップと、入力された音声信号のパワースペクトルがしきい値を下回ったことに応じて、音声区間の終端を判別するステップとを含む。
この発明は、入力された音声信号を一定区間ごとに区分し、各区間ごとのフォルマントが存在する周波数帯域のパワースペクトルの平均値をしきい値として算出し、入力された音声信号のパワースペクトルがしきい値を越えたことに応じて、音声区間を判別するようにしたので、非音声区間ではパワースペクトルが小さく、および、突発性の雑音によりパワースペクトルがしきい値を越える時間は比較的小さいため、音声信号と区別でき、雑音環境下においても音声区間をより精度よく検出できる。
図1はこの発明の一実施形態における音声区間検出装置10のブロック図である。図1において、音声区間検出装置10は、音声入力部1と、A/Dコンバータ2と、CPU3と、メモリ4とを含む。
音声入力部1は、例えばマイクロフォンなどであって、音声が入力されると音声信号を出力する。音声信号はA/Dコンバータ2に与えられてデジタル信号に変換され、CPU3に与えられる。CPU3は後述の図5に示すフローチャートに基づくプログラムを実行して、音声区間を検出する。CPU3は音声区間の始端を検出すると、メモリ4に記憶される音声区間フラグをONし、音声区間の終端を検出するとメモリ4に記憶されている音声区間フラグをOFFにする。CPU3は、しきい値算出手段および判別手段として作動する。
図2は入力音声信号の振幅の変化の一例を示す図であり、図3は図2に示した入力音声信号のフォルマントが存在する周波数帯域のパワースペクトルの信号強度の変化を示す図である。
図2において、横軸は時刻(sec)を示し、縦軸は入力音声信号の振幅を示している。図3において、横軸は図2の横軸に対応する時刻(sec)を示し、縦軸は入力音声信号のフォルマントが存在する周波数帯域のパワースペクトルの信号強度を示している。
図2に示すように、入力音声信号が入力されてから時刻0〜1.6secの期間は無音状態になっており、1.6sec経過後に比較的小さな振幅の音声が一瞬だけ入力され、その後無音状態なり、1.8sec経過後に比較的大きな振幅の音声がおよそ1sec間入力され、その後無音状態になっていることを示している。
図2に示した音声信号のフォルマントが存在する周波数帯域のパワースペクトルの信号強度は図3に示すように表される。図3に示した細線aは、入力音声信号をフレーム(一定区間)ごとに分析し、その後一定量シフトして音声区間を検出するときの低次のフォルマントが存在する周波数帯域のパワースペクトルの平均値P(τ)である。以下の説明では、P(τ)を平均値と略称する。ここで、フレームの長さおよびシフト量はともに数十msec程度である。τはフレーム番号1,2,3…を示しており、時間的位置を表している。
図3に示した、太線bは入力音声信号の音声区間の始端と終端とを判別するためのしきい値Q(τ)であり、前記平均値P(τ)の過去の数百〜数千msecにわたる平均の数倍で示されるものとする。この発明の一実施形態では、例えばフレーム番号1=τ−β、フレーム番号2=τ−β+1…の順に各区間内の入力音声信号の平均値P(τ)がしきい値Q(τ)を数十msec間連続して上回ったことを判別すると音声区間の始端と推定する。これは、突発性の雑音を音声区間の始端であると誤って推定しないようにするためである。
より好ましくは、平均値として、入力された音声信号から高域強調および窓処理を行い、フーリェ変換してスペクトルを算出し、複数の周波数帯域について算出したスペクトルの絶対値の自乗和の加重平均を求めるようにしてもよい。なお、高域強調は必ずしも必須とされるものではなく、高域強調してもしなくともよい。ここで、高域強調とは、高い周波数になるにつれて減衰する人間の声のパワースペクトルを平坦化する目的で行う処理である。
音声区間の始端を検出した後、平均値P(τ)がしきい値Q(τ)を数百msec間連続して下回ると、音声区間の終端を検出したものと推定する。これは、ショートポーズやパワーの小さい音素を音声区間の終端であると推定しないようにするためである。この発明の一実施形態では、上記のごとく、突発性の雑音を音声区間の始端であると誤って推定したり、ショートポーズやパワーの小さい音素を音声区間の終端であると推定したりしないようにするため、以下に説明する変数c,c,cを用いる。
図4はフォルマントが存在する周波数帯域のパワースペクトルの信号強度と変数c,c,cとの関係を説明するための図である。
次に、図4を参照して、変数c,c,cについて説明する。変数cは、P(τ−c)≦Q(τ−c)が成立しない最小の非負整数として定義される。つまり、平均値P(τ)がしきい値Q(τ)を越えない区間が連続する数である。c=0のときは、その区間付近に定常的な環境音以外の音が存在していることを示し、c≧1のときは、その区間付近に定常的な環境音以外の音が存在していないことを示している。なお、図4において、例えば時刻t1は、t2の直前までt1の区間が続くことを示している。
図4に示した例では、t5〜t19の区間は、定常的な環境音以外の音、すなわち音声が存在していることを示すために変数cとして0が示されている。それ以外のt1〜t4、t20〜t40の区間は、定常的な環境音以外の音が存在していないことを示すために、変数cとして例えば1〜32の数値が示されている。
変数cは、P(τ−c)>Q(τ−c)が成立しない最小の非負整数として定義される。つまり、平均値P(τ)がしきい値Q(τ)を越える区間が連続する数である。c=0のときは、その区間付近に定常的な環境音以外の音が存在しないことを示し、c≧1のときは、その区間付近に定常的な環境音以外の音が存在することを示している。図4に示した例では、t1〜t4およびt20〜t40の区間は環境音以外の音が存在していないことを示すために変数cとして0が示されており、t5〜t19の区間は平均値P(τ)がしきい値Q(τ)を越える区間として、例えば1〜15の数値が示されている。c≧βのときは、その区間付近に定常的な環境音以外で、かつ突発的でない音が存在していることを示している。第1の区間としてのβは平均値P(τ)がしきい値Q(τ)を上回り、音声の始端と判別するために要する時間として定義される。
変数cは、区間(τ−c)における変数cがβ´以上になる最小の非負整数として定義される。つまり、平均値P(τ)がβ´区間以上連続してしきい値Qを越える区間が何区間前に存在したかを表す数である。第3の区間としてのβ´は雑音などが入力されたときに音声と区別するための時間として定義される。第2の区間としてのγは定常的な環境音以外で、かつ突発的でない音が存在せず音声区間の終端を判定するための時間として定義される。c<γのときは、定常的な環境音以外で、かつ突発的でない音が存在することを示しており、t9〜t19の区間は0が示されている。c≧γのときは、定常的な環境音以外で、かつ突発的でない音が存在しないことを示している。図4に示した例では、t1〜t8およびt20〜t40の区間は1〜44の数値が示されている。
この実施形態では、上記変数cを用いてしきい値を選択し、変数c,cを用いて音声区間の始端と終端とを判別する。すなわち、音声区間の始端を検出する前において、入力された音声信号のパワースペクトルがしきい値を予め定める第1の区間(β区間)の全体で越えていることを判別(c≧β)したことに応じて、音声区間の始端を特定する。また、音声区間の始端を検出した後において、入力された音声信号のパワースペクトルがしきい値を下回り(c=0)、かつ、第1の区間とは異なる第2の区間(γ区間)内の各々の区間の全てについて、過去の第3の区間(β´区間)全体で入力された音声信号のパワースペクトルがしきい値を越えない(c≧γ)ことを判別したことに応じて、音声区間の終端を特定する。
図4では、一例として、t5〜t9の区間をβ区間として示し、t16〜t20…t35〜t39の区間はβ´区間が続くことを示し、t20〜t39の区間はγ区間として示している。また、t8の区間まで音声フラグがOFFになっており、t9の区間で音声区間フラグがONになり、t38の区間まで音声区間フラグのONが続き、t39で音声区間フラグがOFFになることを示している。
図5はこの発明の一実施形態における音声区間検出装置の動作を説明するためのフローチャートであり、図6および図7は図5に示したフローチャートの各ステップを説明するための図である。
次に、この発明の一実施形態の具体的な動作について説明する。まず、図2に示した入力音声信号のスペクトログラムをX(τ,f)とする。τは、図3に示すように分析区間の位置(整数値)であり、分析区間τの移動量をTとすると、分析区間は時間t=τTである。また、fは周波数である。入力信号のある周波数帯域のパワースペクトルの平均値P(τ)は、第(1)式で表される。
Figure 0004607908
ここで、着目する周波数帯の下限をlとし、上限をhとする。なお、着目する周波数帯は、数百〜数千Hz(800〜3000Hz)である。
図5に示すステップ(図示ではSPと略称する)SP1において、CPU3は内部のレジスタなどを初期化し、ステップSP2〜SP4において、現在の区間におけるしきい値Q(τ)を算出する。すなわち、ステップSP2において、平均値P(τ)が直前の区間まで連続してしきい値Q(τ)以下である区間の長さを示す変数cと、Uとを比較する。変数cがUより小さければ、ステップSP3に進み、そうでなければステップSP4に進む。
変数cがUより小さことを判定したときには、ステップSP3において、第(3)式に示すように、しきい値Q(τ)を直前の区間の値Q(τ−1)とし、ステップSP5に進む。変数cがUより小さくないと判定したときには、ステップSP4において、第(2)式に示すように、しきい値Q(τ)を平均値P(τ)の直前の区間までのA区間にわたる平均値のα倍とし、ステップSP5に進む。ステップSP5において、前述の第(1)式に基づいて、現在の区間における平均値P(τ)を算出する。
Figure 0004607908
ここで、A区間は数百〜数千msec(約400msec)であり、U区間は数百〜数千msec(約400msec)であり、αは数〜数十倍(約4倍)である。この結果Q(τ)の値は、音声や突発性の雑音を含まない非音声区間の定常的なパワースペクトルのα倍になる。
ステップSP6〜SP11においては、変数c,c,cを算出するが、まずステップSP6〜SP8において変数c,cを算出する。ステップSP6において、現在の区間における平均値P(τ)をしきい値Q(τ)と比較し、平均値P(τ)がしきい値Q(τ)よりも大きくなければステップSP7に進み、大きければステップSP8に進む。平均値P(τ)がしきい値Q(τ)よりも大きくないことを判定してステップSP7に進んだときには、平均値P(τ)が現在の区間まで連続してしきい値Q(τ)以下である区間の長さを1つ増やし(c=c+1)、平均値P(τ)が現在の区間まで連続してしきい値Q(τ)を越える区間の長さをc=0にしてステップSP9に進む。
平均値P(τ)がしきい値Q(τ)よりも大きいことを判定してステップSP8に進んだときには、平均値P(τ)が現在の区間まで連続してしきい値Q(τ)以下である区間の長さを0にし(c=0)、平均値P(τ)が現在の区間まで連続してしきい値Q(τ)を越える区間の長さを1つ増やし(c=c+1)、ステップSP9に進む。
次に、ステップSP9〜SP11において、変数cを算出する。まず、ステップSP9において、平均値P(τ)が現在の区間まで連続してしきい値Qを越える区間の長さを示す変数cとβ´とを比較し、cがβ´より小さければステップSP10に進み、そうでなければステップSP11に進む。ここで、β´区間は数十msec〜数百msec(約50msec)である。
ステップSP10では、各区間における平均値P(τ)がその区間まで連続してしきい値Q(τ)を越える区間の長さが、現在の区間まで連続してβ´以上である区間の長さを1つ増やし(c=c+1)、ステップSP12に進む。ステップSP11では、各区間における平均値P(τ)がその区間まで連続してしきい値Q(τ)を越える区間の長さが、現在の区間まで連続してβ´以上である区間の長さを0(c=0)にし、ステップSP12に進む。
ステップSP12〜SP17では、現在の区間が音声区間の始端、あるいは終端であるかどうかの判定を行う。すなわち、ステップSP12において、メモリ4にセットされる音声区間フラグの状態を確認し、音声区間フラグがOFFであればステップSP13に進み、ONであればステップSP15に進む。ステップSP13〜SP14では、現在の区間が音声区間の始端であるかどうかの判定をし、ステップSP15〜SP17では終端であるかどうかの判定をする。
音声区間フラグがOFFであると判定してステップSP13に進むと、平均値P(τ)が現在の区間まで連続してしきい値Q(τ)を越える区間の長さ(c)をβと比較し、cがβより小さければステップSP18に進み、そうでなければステップSP14に進む。ここで、β区間は数十msecから数百msecである。ステップSP14に進むと、メモリ4の音声区間フラグをOFFからONにすることにより音声区間の始端を検出したことを通知してステップSP18に進む。
音声区間フラグがONであると判定してステップSP15に進むと、現在の区間における平均値P(τ)がしきい値Q(τ)以下であるかを判定する。すなわち、平均値P(τ)が現在の区間まで連続してしきい値Q(τ)を越える区間の長さ(c)が0であるかどうかを判定する。そうであればステップSP16に進み、そうでなければステップSP18に進む。ステップSP16において、各区間における平均値P(τ)がその区間まで連続してしきい値Q(τ)を越える区間の長さが現在の区間まで連続してβ´以上である区間の長さ(c)をγと比較し、cがγより小さければステップSP18に進み、そうでなければステップSP17に進む。ここで、γ区間は数百msec(約400msec)である。
ステップSP17において、メモリ4の音声区間フラグをONからOFFにすることにより、音声区間の終端を検知したことを通知する。ステップSP18において、次の区間について処理をする前に、フレーム(区間)番号を1つ増やし、τ=τ+1にしてステップSP2に戻り、以下、ステップSP2〜SP18の処理を繰り返す。
上述のごとく、この発明の実施形態によれば、入力された音声信号を一定区間ごとに区分し、各区間ごとの低次のフォルマントが存在する周波数帯域のパワースペクトルの平均値P(τ)を算出し、入力された音声信号のパワースペクトルが算出された値をしきい値Q(τ)を越えたことを判別したことに応じて、音声区間を判別するようにしたので、非音声区間ではパワースペクトルが小さく、および、突発性の雑音によりパワースペクトルがしきい値を越える時間は比較的小さいため、音声信号と区別でき、雑音環境下においても音声区間をより精度よく検出できる。
特に、非音声区間から音声区間に向かっていくと、通常の場合、平均値Pがしきい値Qを上回り始めた区間が音声区間の始端になる。しかし、突発性の雑音が存在する場合、その区間において、平均値Pがしきい値Qを上回ることがある。そこで、過去にβ区間(第1区間)連続して平均値Pがしきい値Qを上回るかを判定することにより、突発性の雑音が存在する区間を音声区間の始端と誤認しないようにすることができる。
また、音声区間の終端を推定すると、音声区間の終端付近の非音声区間に突発性の雑音が存在する場合に、その雑音が存在する区間も音声区間と誤認することがある。そこで、平均値P(τ)が現在の区間まで連続してしきい値Q(τ)以下である区間の長さが所定時間になったときに音声区間の終端であると判別することはしない。その代わりに、過去β´区間(第3の区間)に平均値P(τ)がしきい値Q(τ)以下になる区間が存在することが、γ区間(第2の区間)連続するか否かを判別することにより、突発性の雑音が存在する区間を音声区間と誤認しないようにすることができる。
なお、上述の実施形態では、入力信号のある周波数帯のパワースペクトルP(τ)として第(1)式で求めたものを用いるようにしたが、複数の周波数帯から算出したパワースペクトルの加重平均として第(4)式から求めたものを用いてもよい。
Figure 0004607908
ここで、Wは重みを示し、Pは第(5)式で表される。
Figure 0004607908
は着目するi番目の周波数帯の下限を示し、hはその上限である。
このように着目する周波数帯を複数設けて個々のパワースペクトルP(τ)の加重平均を検出信号として用いることにより、音声区間検出の精度を高めることができる。フォルマントは、人間の声や楽器などが持っている固有のスペクトルである。フォルマントが存在する周波数帯は、男性や女性や子供などのように性別、年齢によって異なっており、男性の声に比べて女性の声の周波数帯が高く、子供の声はさらに高くなることがわかっている。そこで、着目する周波数帯を複数設けることにより、様々な話者に適応した音声区間を検出することができる。
また、上述の説明では、この発明を図5に示したフローチャートに基づくソフトウェア処理によって実行するようにしたが、これに限ることなく、ハード回路で実現してもよい。
以上、図面を参照してこの発明の実施形態を説明したが、この発明は、図示した実施形態のものに限定されない。図示された実施形態に対して、この発明と同一の範囲内において、あるいは均等の範囲内において、種々の修正や変形を加えることが可能である。
この発明は、音声の始端と終端を検出する音響装置などに有利に利用できる。
この発明の一実施形態における音声区間検出装置のブロック図である。 入力音声信号の振幅の変化の一例を示す図である。 図2に示した入力音声信号のフォルマントが存在する周波数帯域のパワースペクトルの信号強度の変化を示す図である。 フォルマントが存在する周波数帯域のパワースペクトルの信号強度と変数c,c,cとの関係を説明するための図である。 この発明の一実施形態における音声区間検出装置の動作を説明するためのフローチャートである。 図5に示したフローチャートの各ステップを説明する図である。 図5に示したフローチャートの各ステップを説明する図である。
符号の説明
1 音声入力部、2 A/Dコンバータ、3 CPU、4 メモリ、10 音声区間検出装置。

Claims (4)

  1. 入力された音声信号に基づく音声の音声区間を検出する音声区間検出装置であって、
    前記入力された音声信号を所定区間ごとに区分し、各区間ごとのフォルマントが存在する周波数帯域のパワースペクトルの平均値をしきい値として算出するしきい値算出手段と、
    前記入力された音声信号のパワースペクトルが前記算出されたしきい値を越えたことに応じて、音声区間を判別する判別手段とを備え、
    前記判別手段は、
    前記音声区間の始端を検出する前において、前記入力された音声信号のパワースペクトルの平均値が前記しきい値を予め定める第1の区間の全体で越えていることを判別したことに応じて、前記音声区間の始端を特定し、
    前記音声区間の始端を検出した後において、前記入力された音声信号のパワースペクトルが前記しきい値を下回り、かつ、前記第1の区間とは異なる第2の区間内の各々の区間の全てについて、過去の第3の区間全体で前記入力された音声信号のパワースペクトルが前記しきい値を越えないことを判別したことに応じて、前記音声区間の終端を特定し、
    前記判別手段は、
    前記入力された音声信号のパワースペクトルが所定の区間連続して前記しきい値以下であれば、新たなしきい値として直前の区間までの所定の区間における平均値を用い、前記入力された音声信号のパワースペクトルが前記しきい値を越えていれば、新たなしきい値として前記直前の区間の値を用いる、音声区間検出装置。
  2. 前記しきい値算出手段は、前記入力された音声信号から窓処理を行い、フーリェ変換してスペクトルを算出し、複数の周波数帯域について算出したスペクトルの絶対値の自乗和の加重平均値を算出する、請求項1に記載の音声区間検出装置。
  3. 前記判別手段は、前記入力された音声信号のパワースペクトルが前記算出されたしきい値を所定時間連続して越えたことを判別したことに応じて、音声区間の始端を判別し、前記音声区間の始端を検出した後に、前記パワースペクトルが所定時間連続して前記しきい値を下回ったことを判別したことに応じて、音声区間の終端を判別する、請求項1または2に記載の音声区間検出装置。
  4. 入力された音声信号に基づく音声の音声区間を検出する音声区間検出方法であって、
    前記入力された音声信号を一定区間ごとに区分し、各区間ごとのフォルマントが存在する周波数帯域のパワースペクトルの平均値をしきい値として算出するステップと、
    前記入力された音声信号のパワースペクトルが前記算出されたしきい値を越えたことを判別したことに応じて、音声区間の始端を判別するステップと、
    前記入力された音声信号のパワースペクトルが前記しきい値を下回ったことに応じて、前記音声区間の終端を判別するステップとを含み、
    前記判別するステップは、
    前記音声区間の始端を検出する前において、前記入力された音声信号のパワースペクトルの平均値が前記しきい値を予め定める第1の区間の全体で越えていることを判別したことに応じて、前記音声区間の始端を特定し、
    前記音声区間の始端を検出した後において、前記入力された音声信号のパワースペクトルが前記しきい値を下回り、かつ、前記第1の区間とは異なる第2の区間内の各々の区間の全てについて、過去の第3の区間全体で前記入力された音声信号のパワースペクトルが前記しきい値を越えないことを判別したことに応じて、前記音声区間の終端を特定し、
    前記判別するステップは、
    前記入力された音声信号のパワースペクトルが所定の区間連続して前記しきい値以下であれば、新たなしきい値として直前の区間までの所定の区間における平均値を用い、前記入力された音声信号のパワースペクトルが前記しきい値を越えていれば、新たなしきい値として前記直前の区間の値を用いる、音声区間検出方法。
JP2007004669A 2007-01-12 2007-01-12 音声区間検出装置および音声区間検出方法 Active JP4607908B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007004669A JP4607908B2 (ja) 2007-01-12 2007-01-12 音声区間検出装置および音声区間検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007004669A JP4607908B2 (ja) 2007-01-12 2007-01-12 音声区間検出装置および音声区間検出方法

Publications (2)

Publication Number Publication Date
JP2008170789A JP2008170789A (ja) 2008-07-24
JP4607908B2 true JP4607908B2 (ja) 2011-01-05

Family

ID=39698924

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007004669A Active JP4607908B2 (ja) 2007-01-12 2007-01-12 音声区間検出装置および音声区間検出方法

Country Status (1)

Country Link
JP (1) JP4607908B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5299436B2 (ja) 2008-12-17 2013-09-25 日本電気株式会社 音声検出装置、音声検出プログラムおよびパラメータ調整方法
US8629342B2 (en) 2009-07-02 2014-01-14 The Way Of H, Inc. Music instruction system
CN105321528B (zh) * 2014-06-27 2019-11-05 中兴通讯股份有限公司 一种麦克风阵列语音检测方法及装置
JP6543844B2 (ja) * 2015-08-27 2019-07-17 本田技研工業株式会社 音源同定装置および音源同定方法
GB2554943A (en) * 2016-10-16 2018-04-18 Sentimoto Ltd Voice activity detection method and apparatus
CN108122552B (zh) * 2017-12-15 2021-10-15 上海智臻智能网络科技股份有限公司 语音情绪识别方法和装置
CN116825109B (zh) * 2023-08-30 2023-12-08 深圳市友杰智新科技有限公司 语音命令误识别的处理方法、装置、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01169499A (ja) * 1987-12-24 1989-07-04 Fujitsu Ltd 単語音声区間切出し方式
JPH1091184A (ja) * 1996-09-12 1998-04-10 Oki Electric Ind Co Ltd 音声検出装置
JP2004102161A (ja) * 2002-09-12 2004-04-02 Asahi Kasei Microsystems Kk 音声検出装置、音声検出方法および音声検出プログラム
JP2004272052A (ja) * 2003-03-11 2004-09-30 Fujitsu Ltd 音声区間検出装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01169499A (ja) * 1987-12-24 1989-07-04 Fujitsu Ltd 単語音声区間切出し方式
JPH1091184A (ja) * 1996-09-12 1998-04-10 Oki Electric Ind Co Ltd 音声検出装置
JP2004102161A (ja) * 2002-09-12 2004-04-02 Asahi Kasei Microsystems Kk 音声検出装置、音声検出方法および音声検出プログラム
JP2004272052A (ja) * 2003-03-11 2004-09-30 Fujitsu Ltd 音声区間検出装置

Also Published As

Publication number Publication date
JP2008170789A (ja) 2008-07-24

Similar Documents

Publication Publication Date Title
JP4607908B2 (ja) 音声区間検出装置および音声区間検出方法
JP5668553B2 (ja) 音声誤検出判別装置、音声誤検出判別方法、およびプログラム
JP5998603B2 (ja) 音検出装置、音検出方法、音特徴量検出装置、音特徴量検出方法、音区間検出装置、音区間検出方法およびプログラム
JP2023041843A (ja) 音声区間検出装置、音声区間検出方法及びプログラム
JP5229234B2 (ja) 非音声区間検出方法及び非音声区間検出装置
JPH06332492A (ja) 音声検出方法および検出装置
US20100268533A1 (en) Apparatus and method for detecting speech
JPH0990974A (ja) 信号処理方法
JP4182444B2 (ja) 信号処理装置、信号処理方法、及びプログラム
JP5081730B2 (ja) 音声区間検出装置および音声区間検出方法
US20220084543A1 (en) Cognitive Assistant for Real-Time Emotion Detection from Human Speech
JPH0792988A (ja) 音声検出装置と映像切り替え装置
JP2007279517A (ja) 音源分離装置、音源分離装置用のプログラム及び音源分離方法
JP3211398B2 (ja) テレビ会議用発言音声検出装置
JP2797861B2 (ja) 音声検出方法および音声検出装置
JPH0229232B2 (ja)
CN111599345B (zh) 语音识别算法评估方法、系统、移动终端及存储介质
WO2017085815A1 (ja) 困惑状態判定装置、困惑状態判定方法、及びプログラム
JP5109050B2 (ja) 音声処理装置およびプログラム
CN112489692A (zh) 语音端点检测方法和装置
CN107039046B (zh) 一种基于特征融合的语音声效模式检测方法
JPH05173592A (ja) 音声/非音声判別方法および判別装置
JP2015087557A (ja) 発話様式検出装置および発話様式検出方法
JP2001083978A (ja) 音声認識装置
KR20150092587A (ko) 연속된 짧은 펄스로 구성된 소리를 인식하는 방법

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090324

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090513

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100302

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100520

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20100611

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101005

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101007

R150 Certificate of patent or registration of utility model

Ref document number: 4607908

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131015

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250