JP5621786B2 - Voice detection device, voice detection method, and voice detection program - Google Patents
Voice detection device, voice detection method, and voice detection program Download PDFInfo
- Publication number
- JP5621786B2 JP5621786B2 JP2011547442A JP2011547442A JP5621786B2 JP 5621786 B2 JP5621786 B2 JP 5621786B2 JP 2011547442 A JP2011547442 A JP 2011547442A JP 2011547442 A JP2011547442 A JP 2011547442A JP 5621786 B2 JP5621786 B2 JP 5621786B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- section
- voice
- feature
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 136
- 238000004364 calculation method Methods 0.000 claims description 88
- 238000000034 method Methods 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 17
- 230000006870 function Effects 0.000 description 29
- 238000007493 shaping process Methods 0.000 description 27
- 238000010586 diagram Methods 0.000 description 22
- 238000004458 analytical method Methods 0.000 description 13
- 238000001228 spectrum Methods 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Description
本発明は、音声区間を検出する音声検出装置、音声検出方法、および音声検出プログラムに関する。 The present invention relates to a voice detection device, a voice detection method, and a voice detection program for detecting a voice section.
音声検出技術は、移動体通信などにおいて非音声区間の圧縮率を向上させたりその区間だけ伝送しないようにしたりして音声伝送効率を向上する目的や、ノイズキャンセラ、エコーキャンセラなどにおいて非音声区間で雑音を推定したり決定したりする目的、音声認識システムにおける音声認識性能の向上や処理量削減などの目的で広く用いられている。
図14は、一般的な音声検出装置の構成例を示すブロック図である。なお、特許文献1には図14に例示した音声検出装置に相当する発明が開示されている。
図14に示す一般的な音声検出装置は、入力信号をフレーム単位に切り出して取得する波形切り出し部101と、切り出されたフレーム毎の入力信号から音声検出に用いる特徴量を算出する特徴量算出部102と、算出された特徴量と閾値記憶部103に記憶されている閾値とをフレーム毎に比較し、入力信号が音声にもとづく信号であるのか、または非音声にもとづく信号であるのかを判定する音声/非音声判定部104と、フレーム毎の判定結果を複数のフレームに渡って保持するフレーム毎の判定結果保持部105と、区間整形ルール記憶部106に記憶されている区間整形ルールにもとづいて、判定結果保持部105に保持された複数のフレームの判定結果を整形し、音声区間であるのか、または非音声区間であるのかを決定する音声/非音声区間整形部107とを含む。
なお、入力信号をフレーム単位に切り出して取得するとは、ある時刻から単位時間が経過するまでに入力された入力信号を取り出すことである。また、フレームは、入力信号が入力されている時間を単位時間毎に分割した各時間である。区間整形ルールは、例えば、連続する複数のフレームに渡って音声にもとづく入力信号または非音声にもとづく入力信号が入力されていると判定された場合に、それら複数のフレームを1つの音声区間または非音声区間と決定するルールである。
特許文献1には、特徴量算出部102で算出される特徴量の例として、スペクトルパワーの変動を平滑化し、さらにその変動を平滑化したものが開示されている。また、非特許文献1の4.3.3節には、特徴量の例として、SNR(Signal to Noise ratio)の値が開示され、4.3.5節には、SNRの値を平均したものが開示されている。非特許文献2のB.3.1.4節には、特徴量の例として、零点交差数が開示され、非特許文献3には、特徴量の例として、音声GMM(Gaussian Mixture Model)と無音GMMとを用いた尤度比が開示されている。
音声/非音声判定部104は、予め実験により定められた閾値とフレーム毎の特徴量との比較を行い、特徴量が閾値以上の場合は音声にもとづく入力信号であると判定し、閾値以下の場合は非音声にもとづく入力信号であると判定する。
特許文献2には、1発声ごとに閾値を更新する方法が開示されている。図15は、音声検出の閾値を変更する音声検出装置を示すブロック図である。なお、特許文献2には図15に例示した音声検出装置に相当する発明が開示されている。音声検出閾値設定部18は、音声区間のスペクトルパワーの最大値と音声区間ではない背景雑音区間のスペクトルパワーの平均値とにもとづいて、音声区間であるか否かを判定するためのスペクトルパワーの閾値を算出し、算出した閾値に更新する。Voice detection technology is intended to improve the efficiency of voice transmission by improving the compression rate of non-voice sections in mobile communication, etc. or not transmitting only that section, and noise in non-voice sections in noise cancellers, echo cancellers, etc. It is widely used for the purpose of estimating and determining the voice, and for the purpose of improving the voice recognition performance and reducing the processing amount in the voice recognition system.
FIG. 14 is a block diagram illustrating a configuration example of a general voice detection device.
The general speech detection apparatus shown in FIG. 14 includes a
It should be noted that “acquiring and acquiring an input signal in units of frames” means that an input signal input from a certain time until a unit time elapses is extracted. Further, the frame is each time obtained by dividing the time during which the input signal is input into unit time. For example, when it is determined that an input signal based on speech or an input signal based on non-speech is input over a plurality of consecutive frames, the section shaping rule determines that these frames are divided into one speech segment or non-speech. This is a rule for determining a voice section.
The voice /
しかし、図14に示す音声検出装置は、閾値を設定するためには予め雑音のみ入力されている複数のフレームから平均雑音パワーと音声信号が入力されているフレームで構成された区間における最大スペクトルパワーとを測定する必要があり、雑音や最大スペクトルパワーが常に変化する環境に対応できない。
図15に示す音声検出装置は、閾値を決めるために音声検出を行い、背景雑音のスペクトルパワーを求める必要があるが、検出の精度が低いと雑音を推定できない可能性がある。例えば、入力信号の最初から音声区間が続く場合や、閾値を越えるような背景雑音が続いてしまい音声区間と判断されてしまったりするような場合には、音声検出装置は背景雑音のスペクトルパワーを取得することが困難となる。そのため、音声検出装置は、閾値の決定および更新をすることができない。
そこで、上述の課題を解決するため、本発明は、雑音が変化したり、入力信号の最初から雑音や音声区間が続いたりするような場合であっても、音声区間を検出することができる音声検出装置、音声検出方法、および音声検出プログラムを提供することを目的とする。However, in order to set the threshold, the speech detection apparatus shown in FIG. 14 has a maximum spectral power in a section composed of a frame in which an average noise power and a speech signal are input from a plurality of frames in which only noise is input in advance. Therefore, it is not possible to cope with an environment in which noise and maximum spectral power constantly change.
The speech detection apparatus shown in FIG. 15 needs to perform speech detection to determine the threshold and obtain the spectral power of background noise. However, if the detection accuracy is low, the noise may not be estimated. For example, when the speech section continues from the beginning of the input signal, or when background noise exceeding the threshold value continues and the speech section is determined to be a speech section, the speech detection device uses the background noise spectrum power. It becomes difficult to obtain. Therefore, the voice detection device cannot determine and update the threshold value.
Therefore, in order to solve the above-described problem, the present invention provides a voice that can detect a voice section even when noise changes or noise or a voice section continues from the beginning of an input signal. An object of the present invention is to provide a detection device, a voice detection method, and a voice detection program.
本発明による音声検出装置は、単位時間ごとの入力信号であるフレームごとの入力信号の特徴量を算出する特徴量算出手段と、特徴量と閾値とを比較し、複数のフレームにわたって音声にもとづく信号が入力された音声区間であるのか、または複数のフレームにわたって非音声にもとづく信号が入力された非音声区間であるのかを判定する音声/非音声判定手段と、特徴量算出手段が算出した音声区間または非音声区間を構成する複数のフレームの特徴量の統計値にもとづいて、音声区間または非音声区間の特徴量である長区間特徴量を算出する長区間特徴量算出手段と、長区間特徴量を用いて、音声区間および非音声区間が非音声にもとづく信号が入力された区間である確率である非音声確率を算出し、算出した非音声確率にもとづいて、音声検出閾値を更新する閾値更新手段とを備えたことを特徴とする。
本発明による音声検出方法は、単位時間内の入力信号であるフレームごとの入力信号の特徴量を算出し、特徴量と閾値とを比較し、複数のフレームにわたって音声にもとづく信号が入力された音声区間であるのか、または複数のフレームにわたって非音声にもとづく信号が入力された非音声区間であるのかを判定し、音声区間または非音声区間を構成する複数のフレームの特徴量の統計値にもとづいて、音声区間または非音声区間の特徴量である長区間特徴量を算出し、長区間特徴量を用いて、音声区間および非音声区間が非音声にもとづく信号が入力された区間である確率である非音声確率を算出し、算出した非音声確率にもとづいて、音声検出閾値を更新することを特徴とする。
本発明によるプログラム記録媒体に格納される音声検出プログラムは、コンピュータに、単位時間ごとの入力信号であるフレームごとの入力信号の特徴量を算出する特徴量算出処理と、特徴量と閾値とを比較し、複数のフレームにわたって音声にもとづく信号が入力された音声区間であるのか、または複数のフレームにわたって非音声にもとづく信号が入力された非音声区間であるのかを判定する音声/非音声判定処理と、特徴量算出処理で算出した音声区間または非音声区間を構成する複数のフレームの特徴量の統計値にもとづいて、音声区間または非音声区間の特徴量である長区間特徴量を算出する長区間特徴量算出処理と、長区間特徴量を用いて、音声区間および非音声区間が非音声にもとづく信号が入力された区間である確率である非音声確率を算出し、算出した非音声確率にもとづいて、音声検出閾値を更新する閾値更新処理とを実行させることを特徴とする。The speech detection apparatus according to the present invention compares a feature amount and a threshold value with a feature amount calculation unit that calculates a feature amount of an input signal for each frame that is an input signal per unit time, and a signal based on speech over a plurality of frames. A speech / non-speech determination unit that determines whether the signal is an input speech segment or a non-speech segment in which a signal based on non-speech is input over a plurality of frames, and a speech segment calculated by a feature amount calculation unit Alternatively, a long-section feature quantity calculating unit that calculates a long-section feature quantity that is a feature quantity of a voice section or a non-speech section based on a statistical value of feature quantities of a plurality of frames constituting the non-voice section, and a long-section feature quantity Is used to calculate the non-speech probability, which is the probability that the speech section and the non-speech section are input to a signal based on non-speech, and based on the calculated non-speech probability, Characterized in that a threshold updating means for updating the voice detection threshold.
The voice detection method according to the present invention calculates a feature quantity of an input signal for each frame, which is an input signal within a unit time, compares the feature quantity with a threshold value, and receives a voice-based signal over a plurality of frames. It is determined whether it is a section or a non-speech section in which a signal based on non-speech is input over a plurality of frames, and based on statistical values of feature values of a plurality of frames constituting the speech section or the non-speech section This is a probability that a long segment feature value, which is a feature value of a voice segment or a non-speech segment, is calculated, and a voice segment and a non-speech segment are segments in which a signal based on non-speech is input using the long segment feature value. A non-speech probability is calculated, and the speech detection threshold is updated based on the calculated non-speech probability.
The voice detection program stored in the program recording medium according to the present invention is a computer that compares a feature amount calculation process for calculating a feature amount of an input signal for each frame, which is an input signal per unit time, with a threshold value. And a voice / non-voice determination process for determining whether a voice-based signal is input over a plurality of frames or a non-voice-based signal is input over a plurality of frames. , A long section that calculates a feature value of a long section, which is a feature quantity of a speech section or a non-speech section, based on a statistical value of feature quantities of a plurality of frames constituting the speech section or the non-speech section calculated by the feature amount calculation process Using feature amount calculation processing and long interval feature amounts, it is the probability that a speech segment and a non-speech segment are segments in which a signal based on non-speech is input. Calculating a speech probability, based on the calculated non-speech probabilities, characterized in that to perform the threshold updating process for updating the voice detection threshold value.
本発明は、閾値を超えるような背景雑音が入力の先頭に入る場合などにおいても、雑音環境下においても高精度の音声区間検出を行うことができる音声検出装置、音声検出方法、および音声検出プログラムを提供する。 The present invention relates to a voice detection device, a voice detection method, and a voice detection program capable of detecting a voice segment with high accuracy even in a noise environment even when background noise exceeding a threshold value enters the head of an input. I will provide a.
実施形態1.
本発明の第1の実施形態について、図面を参照して説明する。図1は、本発明による音声検出装置の第1の実施形態の構成例を示すブロック図である。図1に示すように、本発明の第1の実施形態の音声検出装置は、波形切りだし部101、特徴量算出部102、閾値記憶部103、音声/非音声判定部104、判定結果保持部105、整形ルール記憶部106、音声/非音声区間整形部107、長区間特徴量算出部108、および閾値更新部109を含む。
波形切り出し部101は、入力信号をフレーム単位に切り出して取得する。具体的には、波形切り出し部101は、例えば、所定の単位時間ごとの入力信号をそれぞれ切りだして取得する。特徴量算出部102は、波形切り出し部101が切り出したフレーム毎の入力信号から音声検出に用いる特徴量を算出する。閾値記憶部103は、入力信号が音声にもとづく入力信号であるのか、または非音声にもとづく入力信号であるのかを判定するための閾値を記憶する。
音声/非音声判定部104は、特徴量算出部102が算出した特徴量と閾値記憶部103に記憶されている閾値とをフレーム毎に比較し、そのフレームの入力信号が音声にもとづく入力信号であるのか、または非音声にもとづく入力信号であるのかを判定する。なお、音声にもとづく入力信号のフレームを音声フレームといい、非音声にもとづく入力信号のフレームを非音声フレームという。判定結果保持部105は、音声/非音声判定部104によるフレーム毎の判定結果を複数フレームに渡り保持する。
区間整形ルール記憶部106には、区間整形ルールが記憶されている。音声/非音声区間整形部107は、区間整形ルール記憶部106に記憶されている区間整形ルールにもとづいて、判定結果保持部105に保持されている複数フレームの判定結果を整形し、音声区間または非音声区間であると決定する。具体的には、音声/非音声区間整形部107は、例えば、音声フレームが複数連続していた場合に、それら複数のフレームは一の音声区間であると決定する。また、音声/非音声区間整形部107は、非音声フレームが複数連続していた場合に、それら複数のフレームは一の非音声区間であると決定する。なお、音声/非音声区間整形部107は、連続する複数のフレームにおいて、音声フレームの割合が所定の割合よりも大きい場合にそれら複数のフレームを一の音声区間であると決定したり、非音声フレームの割合が一定の割合よりも大きい場合に一の非音声区間であると決定したりしてもよい。
長区間特徴量算出部108は、音声/非音声区間整形部107によって決定された音声区間および非音声区間に対し、特徴量算出部102が算出したフレーム毎の特徴量を統計処理した長区間特徴量を算出する。
閾値更新部109は、長区間特徴量算出部108が算出した長区間特徴量を用いて、音声/非音声区間整形部107によって決定された音声区間および非音声区間に対する非音声確率を算出し、閾値記憶部103に記憶されている閾値を変更する。なお、非音声確率とは、後述するように、当該区間の入力信号が非音声にもとづく入力信号である確率である。
音声検出装置は、例えば、音声検出プログラムを搭載したコンピュータによって実現される。
次に、本発明の第1の実施形態の音声検出装置の動作について、図面を参照して説明する。図2は、本発明の第1の実施形態の音声検出装置の動作を示すフローチャートである。
まず、波形切り出し部101は、マイクロフォン(図示せず)から入力される集音された時系列の入力音データを単位時間のフレーム毎に切り出す(ステップS101)。例えば、入力音データがサンプリング周波数8000Hzの16bit Linear−PCM(Pulse Code Modulation)形式である場合、1秒当たり8000点の入力音データによる波形データが各フレームに格納されている。
波形切り出し部101は、例えば、この波形データをフレーム幅200点(25ミリ秒)、フレームシフト80点(10ミリ秒)で時系列に従って逐次切り出す。
次に、特徴量算出部102が、フレームごとに切り出された波形から特徴量を算出する(ステップS102)。特徴量算出部102が算出する特徴量は、例えば、スペクトルパワーやSNR、零交差点、尤度などである。
音声/非音声判定部104は、閾値記憶部103に記憶されている閾値と特徴量算出部102が算出した特徴量とを比較し、閾値を超えている場合は音声フレームであると判定し、超えていない場合は非音声フレームであると判定する(ステップS103)。なお、閾値記憶部103に記憶されている閾値と特徴量算出部102が算出した特徴量とが同じであった場合に、音声/非音声判定部104が音声フレームと判定するかまたは非音声フレームと判定するかは予め決定されていてもよい。そして、音声/非音声判定部104は当該決定にもとづいて、音声フレームまたは非音声フレームと判定する。
判定結果保持部105は、音声/非音声判定部104がステップS106の処理で判定した結果を複数フレーム分保持する(ステップS104)。
音声/非音声区間整形部107は、音声/非音声判定部104がフレーム毎に判定するために生じる短い継続長の音声区間や短い継続長の非音声区間の発生を抑制するために、区間の整形を行う(ステップS105)。
長区間特徴量算出部108は、音声/非音声区間整形部107がステップS105の処理で求めた整形済みの音声区間および非音声区間に対して、特徴量算出部102がステップS102の処理で算出したフレーム毎の特徴量を統計処理し、長区間特徴量を算出する(ステップS106)。長区間特徴量は、例えば、スペクトルパワーやSNR、零交差点、尤度などのうち1つ、または2つ以上の組み合わせである。
長区間特徴量算出部108が行う統計処理の例として、整形済みの音声区間におけるフレーム毎の特徴量の平均値を算出する方法がある。平均値を算出する方法以外にも、長区間特徴量算出部108は、最頻値を用いる方法、中央値を用いる方法、フレーム毎の特徴量を大きさで並べ替えて特徴量の値が大きい順に上位40%付近にある値を用いる方法などを用いても良い。なお、40%という値はあくまで一例であり、ユーザ等が任意に定めた割合としても構わない。ユーザ等が50%と定めた場合、中央値を用いる方法に一致する。
閾値更新部109は、長区間特徴量算出部108がステップS106の処理で算出した長区間特徴量を用いて、整形済みの音声区間に対して非音声確率αを算出する(ステップS107)。ここで非音声確率とは、当該区間の入力信号が雑音など非音声にもとづく入力信号である確率である。従って、1−αは当該区間が音声である確率に相当する。αは以下の式を用いて算出される。
<F>=Σωi×<fi>・・・(1)
α=G[<F>]・・・(2)
ここで、<fi>はフレームごとの特徴量fiに前述の統計処理を施すことにより得られた長区間特徴量である。ωiは長区間特徴量<fi>にかける重みである。そして、式(1)で複数種類(例えば、スペクトルパワーやSNR、零交差点、尤度など)の長区間特徴量<fi>にそれぞれ重みωiを乗じて足し合わされて算出される<F>は統合長区間特徴量である。Gは統合長区間特徴量(単に長区間特徴量ともいう)<F>を変数とする関数である。図3は、本実施形態の関数Gを示す説明図である。図3の横軸は長区間特徴量の値であり、縦軸は非音声確率αである。
図3に示す例では、関数Gは、長区間特徴量が0である場合に、非音声確率αが1となる関数である。つまり、Gは、長区間特徴量が0である場合には、非音声確率は100%となる関数である。そして、Gは、長区間特徴量がτ0である場合に、非音声確率αが0となる関数である。つまり、Gは、長区間特徴量がτ0である場合には、非音声確率は0%となる関数である。そして、Gは、長区間特徴量がτmaxである場合に、非音声確率αが1となる関数である。つまり、Gは、長区間特徴量がτmaxである場合には、非音声確率は100%となる関数である。
なお、図3に示した関数は一例である。関数は、長区間特徴量が中庸な値から遠ざかるほど関数値が増加するような関数や、単調減少(非増大)関数であれば、他の関数であってもよい。(1)式のωi、および図3に示されているτ0、τmaxは予め実験で適切な値を求めておく。またωiを実験的に定めることが難しければ、ωiは各長区間特徴量に対して等しい値(1など)に設定されていてもよい。
次に、閾値更新部109は、ステップS107の処理で算出した非音声確率αを用いて閾値記憶部103に記憶されている閾値を更新する(ステップS108)。閾値更新部109は、閾値の更新は具体的には以下のように行う。まず、閾値更新部109は、閾値候補θ’を以下の式を用いて計算する。
θ’=α×Fmax+(1−α)×Fmin・・・(3)
ここで、Fmaxは音声区間、または非音声区間におけるフレーム毎の特徴量の最大値である。Fminは音声区間、または非音声区間におけるフレーム毎の特徴量の最小値である。αは音声区間、または非音声区間の非音声確率である。次に、閾値更新部109は、閾値候補θ’を用いて、閾値θを以下の式を用いて更新する。
θ←θ+ε×(θ’−θ)・・・(4)
ここで、εは閾値の更新のスピードを調整するステップサイズである。つまり、本発明による音声検出装置は、閾値の更新のスピードを調整することができる。従って、音声検出装置は、一時的な背景雑音の大きさの変動に応じて閾値を大きく変動させたい場合と、一時的な背景雑音によっては閾値をあまり変動させたくない場合とのいずれの場合にも対応することができる。
図4は、閾値を変更する例を示す説明図である。図4に示す例では、音声/非音声区間整形部107によって、非音声区間1、音声区間2、非音声区間3、音声区間4、非音声区間5の順に各区間が音声区間または非音声区間に決定されている。
図4における上部の波形によって入力信号が示されている。また、図4において各音声区間および各非音声区間の終端付近の上下の矢印によって、各音声区間および各非音声区間の特徴量の最大値および最小値が示されている。また、閾値の推移は、縦軸に平行して上下に移動する実線によって示されている。
ここで、音声/非音声区間整形部107が音声区間または非音声区間を決定した際、閾値更新部109が、式(1),(2)を用いて非音声確率を算出し、式(3)を用いて閾値候補を決定する。決定された閾値は式(4)を用いて変更される。
また、閾値の更新は以下に示す式(5)のように、過去のN発声分の閾値候補の平均値を用いて行うことも可能である。
θ←1/N×Σθ’・・・(5)
閾値更新部109は、特定の値以上または未満の非音声確率の場合のみ閾値を更新することも可能である。また、長区間特徴量算出部108が、1つ以上の音声区間、または非音声区間ごとの特徴量に統計処理を施して長区間特徴量を算出し、閾値更新部109が、1つ以上の音声区間、または非音声区間ごとに閾値を更新することも可能である。
また、最初に設定された閾値が大きすぎる場合、または小さすぎる場合には、音声/非音声判定部104における判定結果にもとづき、音声/非音声区間整形部107は、例えば、判定対象のすべての区間を音声区間または非音声区間と判定してしまい、閾値更新部109による閾値の更新が行われない場合がある。
そのような場合に対応するために、閾値更新部109は、音声/非音声判定部104において一定時間以上音声区間または非音声区間に判定されない場合には、閾値を一定値小さくしたり、一定値大きくしたり、当該一定時間に特徴量算出部102が算出した特徴量の平均値を閾値としたりしてもよい。
音声検出装置は、閾値更新部109によって閾値が更新された後、次の音声区間または非音声区間に対してステップS101からS108の処理を行う。また、音声検出装置は、同じ発声に対して再度ステップS101からS108の処理を繰り返すことも可能である。
図5は、更新前の閾値が小さすぎた場合の例を示す説明図である。図5に示す例では、更新前の閾値が小さすぎたので、音声検出装置は、非音声区間1を音声区間であると誤って判定する。
図6は、更新前の閾値が大きすぎた場合の例を示す説明図である。図6に示す例では、更新前の閾値が大きすぎたので、音声検出装置は、音声区間2を非音声区間であると誤って判定する。
本実施形態における音声検出装置は、図5に例示した更新前の閾値が小さすぎた場合であっても、長区間特徴量を用いて算出される非音声確率αを大きくする。図5に示すように、非音声区間1の非音声確率αは0.8である。このような場合、閾値更新部109が(3)式を計算すると、閾値候補θ’はこの非音声区間1の長区間特徴量の最大値に近づくので、閾値がより大きな値に更新される。
また、本実施形態における音声検出装置は、図6に例示した更新前の閾値が大きすぎた場合であっても、長区間特徴量を用いて算出される非音声確率αを小さくする。図6に示すように、音声区間2の非音声確率αは0.2である。このような場合、閾値更新部109が(3)式を計算すると、閾値候補θ’はこの音声区間2の長区間特徴量の最小値に近づくので、閾値がより小さな値に更新される。
従って、本実施形態における音声検出装置は、長区間特徴量算出部108において非音声確率αを算出して閾値更新部109で適切な閾値を設定することで、前段の音声/非音声判定部104で認識対象となる音声区間を正しく検出して、発話環境によって変化する雑音に頑健な音声検出を実現できる。
実施形態2.
本発明の第2の実施形態について、図面を参照して説明する。図7は、本発明による音声検出装置の第2の実施形態の構成例を示すブロック図である。
第2の実施形態の音声検出装置は、図1に示す第1の実施形態の音声検出装置の構成に加えて、入力信号をフレームごとに切り分けて音声らしさを表す特徴量を出力する音声分析部110を含む。音声分析部110は、図1に示す第1の実施形態の音声検出装置の構成における波形切りだし部101や特徴量算出部102に相当する機能を有する。
音声分析部110は、ステップS102の処理で特徴量算出部102とは独立に、第2の特徴量を算出する。音声分析部110が算出する第2の特徴量とは、例えば、スペクトルパワーやSNR、零交差点、尤度などである。
音声分析部110は、特徴量算出部102が特徴量を算出する際に用いたパラメタとは異なるパラメタを用いて、より詳細に入力信号を分析して第2の特徴量を算出する。なお、音声分析部110は、複数の発声ごとに第2の特徴量を算出したり、ユーザによって指示されたときに第2の特徴量を算出したりして、特徴量算出部102が特徴量を算出するときと異なるタイミングで第2の特徴量を算出してもよい。
そして、長区間特徴量算出部108は、ステップS106の処理で、特徴量算出部102が算出した特徴量と、音声分析部110が算出した第2の特徴量とにもとづいて、長区間特徴量を算出する。前述した各特徴量は、入力信号が生成された環境によって検出しやすい場合と、検出が困難である場合とがある。そこで、長区間特徴量算出部108は、例えば、特徴量算出部102が特徴量を算出できなかった場合に、音声分析部110が算出した第2の特徴量を用いて長区間特徴量を算出する。また、特徴量算出部102が算出した特徴量と異なる特徴量を音声分析部110が算出し、長区間特徴量算出部108が、音声分析部110が算出した特徴量である第2の特徴量を補助的に用いて長区間特徴量を算出してもよい。
本実施形態における音声検出装置は、音声分析部110が、特徴量算出部102とは独立に様々の特徴量を算出することができるので、様々な観点で特徴量が算出され、より頑健な音声検出を実現することが可能になる。
実施形態3.
本発明の第3の実施形態について、図面を参照して説明する。図8は、本発明による音声検出装置の第3の実施形態の構成例を示すブロック図である。
第3の実施形態の音声検出装置は、図1に示す第1の実施形態の音声検出装置の構成に加えて、音声らしい特徴量を用いて音声区間に対応する認識結果を出力する音声認識部111を含む。
図9は、音声検出装置の第3の実施形態の他の例を示すブロック図である。図9に示す例では、音声認識部111は、音声検出された音声区間に対して音声認識を行う。
図8および図9に示す第3の実施形態の音声検出装置は、以下のように動作する。すなわち、音声認識部111は、入力された音声信号から適宜特徴量を抽出する。そして、音声認識部111は、言語モデル/音声認識辞書(図示せず)に格納されている単語の特徴量と、抽出した特徴量とをマッチングすることで音声区間の時間情報付き単語列である認識結果を算出する音声認識を行い、時間情報付き音声認識結果単語列を出力する。
長区間特徴量算出部108は、長区間特徴量として音声認識結果から音素継続時間を求める。音素継続時間Taは、以下に示す式(6)で算出される。
Ta=Tb/Nf・・・(6)
ここで、Tbは音声認識部111が出力した音声認識結果単語列の単語1つについてのフレーム数であり、Nfは単語の音素数である。
閾値更新部109は、長区間特徴量算出部108がステップS106の処理で算出した長区間特徴量、すなわち音素継続時間長を用いて、音声/非音声区間整形部107によって切り出された各区間の非音声確率αを算出する。
具体的には、閾値更新部109は、例えば、図10に示すような長区間特徴量を変数とする関数を用いて非音声確率αを求める。図10は、本発明の第3の実施形態において非音声確率αを求めるための関数を示す説明図である。図10に示すように、横軸は長区間特徴量の値、縦軸は非音声確率αである。図10に示すように、長区間特徴量がτmin以下である場合、およびτmax以上である場合に、非音声確率αは1である。また、長区間特徴量がτ0以上であってτ1以下である場合に、非音声確率αは0である。そして、図10に示す例では、長区間特徴量がτminを超えている場合にτ0まで非音声確率αは単調減少し、長区間特徴量がτ1を超えている場合にτmaxまで非音声確率αは単調増加する。
なお、τmin、τmax、τ0、およびτ1は、予め実験で求められた適切な値であるとする。
本実施形態では、長区間特徴量算出部108は、継続時間長を算出する単位を音素としたが、音節など、他の単位を使ってもよい。また、図10に示す関数は一例に過ぎず、これに限られるものではない。関数は、長区間特徴量の中庸な値から遠ざかるにつれて関数値が増加するような任意の関数を定義でもよい。
本実施形態の効果について説明する。閾値を超える背景雑音が長時間続いたときなどに、通常の音声認識結果から得られる継続時間長よりも極端に長いまたは短い継続時間長が生じやすいという性質がある。具体的には、背景雑音が長時間続いた結果、極端に長い音声区間になった場合には、その音声区間の音は背景雑音なので音声らしさはほとんどない。そして、音声認識部111がその音を音声認識しても短い単語が認識結果として出力されてしまうことがある。つまり、適切な音声認識は行われない。また、2〜3フレームなどの極端に短い突発雑音などを音声区間とした場合には、そのような短い時間で単語を発することは不可能であるので、その音声区間の音は非音声であると判断される。従って、通常の音声認識結果から得られる継続時間長よりも極端に長いまたは短い継続時間長の音声区間の音は、非音声であるという性質がある。
本実施形態における音声検出装置は、そのような性質を利用して非音声確率αを算出するので、より精度の高い非音声確率αを算出することが可能となる。
実施形態4.
本発明の第4の実施形態について説明する。第4の実施形態の音声検出装置は、図8および図9に示す第3の実施形態の音声検出装置の音声認識部111が、音声認識ではなく連続音素認識を行う。すなわち、音声認識部111は、連続音素認識を行い、時刻情報付きの音素列を出力する。長区間特徴量算出部108は、音声認識部111が出力した音素列を構成する各音素の継続時間長を求める。閾値更新部109の動作は、前述した第3の実施形態における動作と同様である。
なお、本実施形態でも第3の実施形態と同様に、継続時間長を算出する単位を音素としているが、音節などの単位が用いられてもよい。
本実施形態における音声検出装置は、音声認識部111が連続音素認識を行うので、音声認識を行う第3の実施形態の音声検出装置よりも容易に音素の継続時間長を取得することができる。すると、音素の継続時間長を計算する負荷を軽減し、音声検出装置全体の処理速度が高速化する。音声認識部111は、音素認識の場合には音素単位で認識を行っているので、発声区間の音素長を容易に取得することができるが、音声認識の場合には、認識結果の単語から音素数を導き出し、1発声あたりの時間で除算して音素の継続時間長を算出しなければならない。したがって、音声検出装置が音素の継続時間長を容易に取得することは処理負荷の軽減のために重要である。
実施形態5.
本発明の第5の実施形態について説明する。第5の実施形態の音声検出装置は、図8または図9に示す第3の実施形態の音声検出装置の構成と同様であるが、長区間特徴量算出部108が、音声認識結果の信頼度を用いて長区間特徴量を算出する。
具体的には、例えば、音声認識部111は、入力された音声信号から適宜特徴量を抽出する。そして、音声認識部111は、言語モデル/音声認識辞書に格納されている単語の特徴量と、抽出した特徴量とをマッチングし、複数の音声認識結果の候補のスコアを出力する。スコアとは、例えば、言語モデル/音声認識辞書に格納されている単語の特徴量と、抽出した特徴量とが合致する度合いを表す数値である。音声認識部111は、当該度合いが高い複数のスコアを出力する。
そして、長区間特徴量算出部108は、音声認識部111が出力した音声認識結果のスコアのうち、当該度合いが高い順に第1位の候補のスコアと第2位の候補のスコアとの差を算出する。当該スコアの差が小さい場合には、音声認識結果の信頼度は低いと考えられ、当該スコアの差が大きい場合には、音声認識結果の信頼度は高いと考えられる。なお、音声認識結果の信頼度に相当する尺度は、スコアの差に代えて他の尺度であってもよい。
閾値更新部109は、長区間特徴量算出部108が算出した長区間特徴量、すなわち信頼度を用いて、音声/非音声区間整形部107によって切り出された音声区間に対して非音声確率αを算出する。閾値更新部109は、具体的には、例えば、図10に示すような長区間特徴量を変数とする関数を用いて非音声確率αを求める。
図11は、本発明の第5の実施形態において非音声確率αを求めるための関数を示す説明図である。図11に示すように、横軸は長区間特徴量の値、縦軸は非音声確率αである。図11に示すように、長区間特徴量がτ0以上である場合に、非音声確率αは0である。また、長区間特徴量が0からτ0未満である場合に、非音声確率αは1から0に単調減少する。なお、τ0は、予め実験で求められた適切な値であるとする。また、図11に示す関数は一例であり、任意の単調減少関数または単調非増大関数であってもよい。
本実施形態における音声検出装置は、音声認識結果の信頼度が低い区間は非音声区間である可能性が高いという性質を利用して、非音声確率αを算出するように動作するので、より精度の高い非音声確率を算出することが可能となる。
実施形態6.
本発明の第6の実施形態について、図面を参照して説明する。図12は、本発明による音声検出装置の第6の実施形態の構成例を示すブロック図である。
第6の実施形態の音声検出装置は第1〜第5の実施形態を組み合わせたものである。長区間特徴量算出部108は、第1〜第5の実施形態の方法を1つ以上組み合わせて長区間特徴量を算出する。音声検出装置は、非音声確率αを第1〜第5の実施形態の非音声確率算出方法を用いて算出し、各々の非音声確率αの積を非音声確率とする。また、音声検出装置は、各々の非音声確率αを重み付けした後に積を算出して非音声確率として用いてもよい。また、音声検出装置は、各々の非音声確率αの平均値や、適当な重み付け平均値などを非音声確率として用いてもよい。
本実施形態における音声検出装置は、第1〜第5の実施形態を組み合わせることで、より精度の高い非音声確率を算出することが可能になる。
実施形態7.
本発明の第7の実施形態は、第1〜第5の実施形態の音声検出装置を含む音声認識装置である。音声認識装置は、第1〜第5の実施形態の音声検出装置によって音声区間であると決定された区間に対して、公知の音声認識処理を行い、音声認識結果を出力する。
本実施形態における音声認識装置は、高い精度で音声区間であると決定された区間に音声認識処理を行うので、非音声区間に音声認識処理を行う無駄な処理の実行を防ぐことができる。また、音声区間に対して高い精度で音声認識処理を行い、音声認識処理の漏れを防ぐことができる。
次に、本発明の概要について説明する。図13は、本発明の概要を示すブロック図である。本発明による音声検出装置300は、特徴量算出部301(図1に示す特徴量算出部102に相当)、音声/非音声判定部302(図1に示す音声/非音声判定部104および音声/非音声区間整形部107に相当)、長区間特徴量算出部303(図1に示す長区間特徴量算出部108に相当)、および閾値更新部304(図1に示す閾値更新部109に相当)を含む。
特徴量算出部301は、所定の単位時間ごとの入力信号であるフレームごとの入力信号の特徴量を算出する。音声/非音声判定部302は、特徴量算出部301が算出した特徴量と、入力信号が音声にもとづく信号であるか否かを判定するための音声検出閾値とを比較し、複数のフレームにわたって音声にもとづく信号が入力された音声区間であるのか、または複数のフレームにわたって非音声にもとづく信号が入力された非音声区間であるのかを判定する。
長区間特徴量算出部303は、特徴量算出部301が算出した音声区間または非音声区間を構成する複数のフレームの特徴量の統計値にもとづいて、音声区間または非音声区間の特徴量である長区間特徴量を算出する。
閾値更新部304は、長区間特徴量算出部303が算出した長区間特徴量を用いて、音声区間および非音声区間が非音声にもとづく信号が入力された区間であった確率である非音声確率を算出し、算出した非音声確率にもとづいて、音声検出閾値を更新する。
上記の構成による音声検出装置300は、入力信号の先頭が背景雑音にもとづく信号であって、特徴量が音声検出閾値を超える信号であっても、音声検出閾値を更新して、高精度の音声区間検出を行うことができる。
また、上記の各実施形態では、以下の(1)〜(11)に示すような音声検出装置も開示されている。
(1)長区間特徴量算出部303が、音声/非音声判定部302が判定した1つ以上の音声区間、または非音声区間にわたる特徴量に統計処理を施し、長区間特徴量を算出する音声検出装置。
(2)長区間特徴量算出部303が、長区間特徴量を算出する際に、フレームごとの特微量の平均値、最頻値、中央値、および大きい順に並べた結果の上から数えて所定の割合に達する位置にある値を用いる方法の少なくともいずれか1つを用いる音声検出装置。
(3)閾値更新部304が、音声区間または非音声区間における特徴量の最大値と最小値と非音声確率とを用いて、音声検出閾値を更新する音声検出装置。
(4)閾値更新部304が、非音声確率を用いて特徴量の最大値と最小値を内分する値を求め、内分した値に近い値になるように音声検出閾値を更新する音声検出装置。
(5)特徴量算出部304が算出する特徴量とは異なる第2の特徴量を算出する第2の特徴量算出部(図7に示す音声分析部110に相当)を備え、長区間特徴量算出部303が、特徴量算出部304が算出した特徴量と、第2の特徴量算出部が算出した第2の特徴量とを用いて長区間特徴量を算出する音声検出装置。
(6)第2の特徴量算出部(図8に示す音声認識部111に相当)が、入力信号に音声認識を行って音声認識結果を出力し、長区間特徴量算出部303は、音声認識結果にもとづいて長区間特徴量を算出する音声検出装置。
(7)長区間特徴量算出部303が、長区間特徴量として音声認識結果の信頼度を算出する音声検出装置。
(8)第2の特徴量算出部が、予め記憶手段に格納されている単語の特徴量と音声認識対象の入力信号の特徴量とが合致する度合いを示す値であるスコアにもとづく音声認識結果の複数の候補のスコアを出力し、長区間特徴量算出部が、度合いが高い順に第1位の候補のスコアと第2位の候補のスコアとの差を信頼度として算出する音声検出装置。
(9)第2の特徴量算出部が、入力信号に音声認識を行って時刻情報の付いた音声認識結果を出力し、長区間特徴量算出部303が、時刻情報の付いた音声認識結果から長区間特徴量を算出する音声検出装置。
(10)長区間特徴量算出部303は、長区間特徴量として時刻情報から継続時間長を算出する音声検出装置。
(11)長区間特徴量算出部303が、音素または音節を単位として継続時間長を算出する音声検出装置。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解しうる様々な変更をすることができる。
この出願は、2009年12月24日に出願された日本出願特願2009−291976を基礎とする優先権を主張し、その開示の全てをここに取り込む。
(付記1)所定の単位時間ごとの入力信号であるフレームごとの入力信号の特徴量を算出する特徴量算出部と、前記特徴量と、前記入力信号が音声にもとづく信号であるか否かを判定するための音声検出閾値とを比較し、複数のフレームにわたって音声にもとづく信号が入力された音声区間であるのか、または複数のフレームにわたって非音声にもとづく信号が入力された非音声区間であるのかを判定する音声/非音声判定部と、前記特徴量算出部が算出した前記音声区間または前記非音声区間を構成する複数のフレームの特徴量の統計値にもとづいて、前記音声区間または前記非音声区間の特徴量である長区間特徴量を算出する長区間特徴量算出部と、前記長区間特徴量を用いて、前記音声区間および前記非音声区間が非音声にもとづく信号が入力された区間であった確率である非音声確率を算出し、算出した前記非音声確率にもとづいて、前記音声検出閾値を更新する閾値更新部とを備えたことを特徴とする音声検出装置。
(付記2)長区間特徴量算出部は、音声/非音声判定部が判定した1つ以上の音声区間、または非音声区間にわたる特徴量に統計処理を施し、長区間特徴量を算出する付記1に記載の音声検出装置。
(付記3)長区間特徴量算出部は、長区間特徴量を算出する際に、フレームごとの特徴量の平均値、最頻値、中央値、および大きい順に並べた結果の上から数えて所定の割合に達する位置にある値を用いる方法の少なくともいずれか1つを用いる付記1または付記2に記載の音声検出装置。
(付記4)閾値更新部は、音声区間または非音声区間における特徴量の最大値と最小値と非音声確率とを用いて、音声検出閾値を更新する付記1から付記3のうちいずれかに記載の音声検出装置。
(付記5)閾値更新部は、非音声確率を用いて前記特徴量の最大値と最小値を内分する値を求め、前記内分した値に近い値になるように音声検出閾値を更新する付記4に記載の音声検出装置。
(付記6)特徴量算出部が算出する特徴量とは異なる第2の特徴量を算出する第2の特徴量算出部を備え、長区間特徴量算出部は、前記特徴量算出部が算出した特徴量と、前記第2の特徴量算出部が算出した第2の特徴量とを用いて長区間特徴量を算出する付記1から付記5のうちいずれかに記載の音声検出装置。
(付記7)第2の特徴量算出部は、入力信号に音声認識を行って音声認識結果を出力し、長区間特徴量算出部は、前記音声認識結果にもとづいて長区間特徴量を算出する付記6に記載の音声検出装置。
(付記8)長区間特徴量算出部は、長区間特徴量として音声認識結果の信頼度を算出する付記7に記載の音声検出装置。
(付記9)第2の特徴量算出部は、予め記憶手段に格納されている単語の特徴量と音声認識対象の入力信号の特徴量とが合致する度合いを示す値であるスコアにもとづく音声認識結果の複数の候補のスコアを出力し、長区間特徴量算出部は、前記度合いが高い順に第1位の候補のスコアと第2位の候補のスコアとの差を信頼度として算出する付記8に記載の音声検出装置。
(付記10)第2の特徴量算出部は、入力信号に音声認識を行って時刻情報の付いた音声認識結果を出力し、長区間特徴量算出部は、前記時刻情報の付いた音声認識結果から長区間特徴量を算出する付記6に記載の音声検出装置。
(付記11)長区間特徴量算出部は、長区間特徴量として時刻情報から継続時間長を算出する付記10に記載の音声検出装置。
(付記12)長区間特徴量算出部は、音素または音節を単位として継続時間長を算出する付記11に記載の音声検出装置。
(付記13)付記1から付記12のうちいずれかに記載の音声検出装置を含み、前記音声検出装置が出力する音声区間に対して音声認識を行い、音声認識結果を出力することを特徴とする音声認識装置。
(付記14)所定の単位時間内の入力信号であるフレームごとの入力信号の特徴量を算出し、前記特徴量と、前記入力信号が音声にもとづく信号であるか否かを判定するための音声検出閾値とを比較し、複数のフレームにわたって音声にもとづく信号が入力された音声区間であるのか、または複数のフレームにわたって非音声にもとづく信号が入力された非音声区間であるのかを判定し、前記音声区間または前記非音声区間を構成する複数のフレームの特徴量の統計値にもとづいて、前記音声区間または前記非音声区間の特徴量である長区間特徴量を算出し、前記長区間特徴量を用いて、前記音声区間および前記非音声区間が非音声にもとづく信号が入力された区間であった確率である非音声確率を算出し、算出した前記非音声確率にもとづいて、前記音声検出閾値を更新することを特徴とする音声検出方法。
(付記15)1つ以上の音声区間、または非音声区間にわたる特徴量に統計処理を施し、長区間特徴量を算出する付記14に記載の音声検出方法。
A first embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing a configuration example of a first embodiment of a voice detection device according to the present invention. As shown in FIG. 1, the speech detection apparatus according to the first exemplary embodiment of the present invention includes a
The
The voice /
The section shaping
The long section feature
The
The voice detection device is realized by, for example, a computer equipped with a voice detection program.
Next, the operation of the voice detection device according to the first exemplary embodiment of the present invention will be described with reference to the drawings. FIG. 2 is a flowchart showing the operation of the voice detection device according to the first exemplary embodiment of the present invention.
First, the
For example, the
Next, the feature
The voice /
The determination
The voice / non-speech
The long section feature
As an example of the statistical processing performed by the long section feature
The
<F> = Σωi × <fi> (1)
α = G [<F>] (2)
Here, <fi> is a long-section feature value obtained by performing the above-described statistical processing on the feature value fi for each frame. ωi is a weight applied to the long section feature <fi>. Then, in Formula (1), <F>, which is calculated by adding a plurality of types (for example, spectrum power, SNR, zero-crossing, likelihood, etc.) of long-section feature quantities <fi> and multiplying them by weights ωi, is integrated. Long section feature. G is a function having an integrated long section feature quantity (also simply referred to as a long section feature quantity) <F> as a variable. FIG. 3 is an explanatory diagram showing the function G of the present embodiment. The horizontal axis in FIG. 3 is the value of the long interval feature value, and the vertical axis is the non-speech probability α.
In the example illustrated in FIG. 3, the function G is a function with which the non-speech probability α is 1 when the long-section feature amount is 0. That is, G is a function whose non-speech probability is 100% when the long section feature amount is zero. G is a function for which the non-speech probability α is 0 when the long-section feature value is τ0. That is, G is a function whose non-speech probability is 0% when the long-section feature value is τ0. G is a function whose non-speech probability α is 1 when the long-section feature value is τmax. That is, G is a function whose non-speech probability is 100% when the long section feature amount is τmax.
The function shown in FIG. 3 is an example. The function may be another function as long as the function value increases as the long-section feature value becomes farther from a moderate value or a monotonously decreasing (non-increasing) function. (1) ωi, and τ0 and τmax shown in FIG. If it is difficult to experimentally determine ωi, ωi may be set to an equal value (such as 1) for each long-section feature amount.
Next, the
θ ′ = α × Fmax + (1−α) × Fmin (3)
Here, Fmax is the maximum value of the feature amount for each frame in the speech section or the non-speech section. Fmin is a minimum value of the feature amount for each frame in the voice section or the non-voice section. α is a speech interval or a non-speech probability of a non-speech interval. Next, the
θ ← θ + ε × (θ′−θ) (4)
Here, ε is a step size for adjusting the speed of updating the threshold. That is, the voice detection device according to the present invention can adjust the speed of the threshold update. Therefore, the voice detection device is either in the case where it is desired to greatly change the threshold according to the temporal fluctuation of the background noise or in the case where it is not desired to change the threshold depending on the temporary background noise. Can also respond.
FIG. 4 is an explanatory diagram illustrating an example of changing the threshold value. In the example shown in FIG. 4, the speech / non-speech
The input signal is shown by the upper waveform in FIG. In FIG. 4, the maximum value and the minimum value of the feature amount of each speech segment and each non-speech segment are indicated by up and down arrows near the end of each speech segment and each non-speech segment. The transition of the threshold is indicated by a solid line that moves up and down in parallel with the vertical axis.
Here, when the speech / non-speech
Further, the threshold value can be updated using the average value of the threshold candidates for the past N utterances as shown in Equation (5) below.
θ ← 1 / N × Σθ ′ (5)
The
Also, if the initially set threshold is too large or too small, based on the determination result in the sound /
In order to cope with such a case, the threshold
After the threshold value is updated by the
FIG. 5 is an explanatory diagram illustrating an example in which the threshold before update is too small. In the example shown in FIG. 5, since the threshold value before update is too small, the voice detection device erroneously determines that the
FIG. 6 is an explanatory diagram illustrating an example when the threshold before update is too large. In the example illustrated in FIG. 6, since the threshold value before the update is too large, the voice detection device erroneously determines that the
The speech detection apparatus according to the present embodiment increases the non-speech probability α calculated using the long section feature amount even when the pre-update threshold illustrated in FIG. 5 is too small. As shown in FIG. 5, the non-speech probability α in the
Further, the speech detection apparatus according to the present embodiment reduces the non-speech probability α calculated using the long section feature amount even when the pre-update threshold illustrated in FIG. 6 is too large. As shown in FIG. 6, the non-voice probability α of the
Therefore, the speech detection apparatus according to the present embodiment calculates the non-speech probability α in the long section feature
A second embodiment of the present invention will be described with reference to the drawings. FIG. 7 is a block diagram showing a configuration example of the second embodiment of the voice detection device according to the present invention.
In addition to the configuration of the voice detection device of the first embodiment shown in FIG. 1, the voice detection device of the second embodiment is a voice analysis unit that outputs a feature quantity that represents voice likeness by dividing an input signal for each frame. 110 is included. The
The
The
Then, the long-section feature
In the speech detection apparatus according to the present embodiment, since the
Embodiment 3. FIG.
A third embodiment of the present invention will be described with reference to the drawings. FIG. 8 is a block diagram showing a configuration example of the third embodiment of the voice detection device according to the present invention.
In addition to the configuration of the voice detection device of the first embodiment shown in FIG. 1, the voice detection device of the third embodiment outputs a recognition result corresponding to a voice section using a feature amount that seems to be voice. 111 is included.
FIG. 9 is a block diagram illustrating another example of the third embodiment of the voice detection device. In the example illustrated in FIG. 9, the
The voice detection apparatus according to the third embodiment shown in FIGS. 8 and 9 operates as follows. That is, the
The long segment feature
Ta = Tb / Nf (6)
Here, Tb is the number of frames for one word in the speech recognition result word string output by the
The
Specifically, the
It is assumed that τmin, τmax, τ0, and τ1 are appropriate values obtained in advance through experiments.
In the present embodiment, the long segment feature
The effect of this embodiment will be described. When background noise exceeding a threshold value continues for a long time, there is a property that a duration time extremely longer or shorter than a duration time obtained from a normal speech recognition result is likely to occur. Specifically, when the background noise continues for a long time, resulting in an extremely long voice section, the sound in the voice section is background noise, so there is almost no voice. Even if the
Since the speech detection apparatus according to the present embodiment calculates the non-speech probability α using such a property, it is possible to calculate the non-speech probability α with higher accuracy.
A fourth embodiment of the present invention will be described. In the voice detection device of the fourth embodiment, the
In this embodiment, as in the third embodiment, the unit for calculating the duration is a phoneme. However, a unit such as a syllable may be used.
In the speech detection device according to the present embodiment, the
Embodiment 5. FIG.
A fifth embodiment of the present invention will be described. The speech detection apparatus according to the fifth embodiment has the same configuration as that of the speech detection apparatus according to the third embodiment illustrated in FIG. 8 or FIG. 9, but the long interval feature
Specifically, for example, the
Then, the long interval feature
The
FIG. 11 is an explanatory diagram showing a function for obtaining the non-speech probability α in the fifth embodiment of the present invention. As shown in FIG. 11, the horizontal axis represents the value of the long segment feature value, and the vertical axis represents the non-speech probability α. As shown in FIG. 11, the non-speech probability α is 0 when the long-section feature amount is τ0 or more. In addition, when the long-section feature value is 0 to less than τ0, the non-speech probability α monotonously decreases from 1 to 0. It is assumed that τ0 is an appropriate value obtained in advance through experiments. Moreover, the function shown in FIG. 11 is an example, and may be an arbitrary monotone decreasing function or a monotonic non-increasing function.
Since the speech detection apparatus according to the present embodiment operates to calculate the non-speech probability α using the property that a section with low reliability of the speech recognition result is likely to be a non-speech section, more accuracy is achieved. It is possible to calculate a high non-voice probability.
Embodiment 6. FIG.
A sixth embodiment of the present invention will be described with reference to the drawings. FIG. 12 is a block diagram showing a configuration example of the sixth embodiment of the speech detection device according to the present invention.
The voice detection device according to the sixth embodiment is a combination of the first to fifth embodiments. The long section feature
The voice detection device according to the present embodiment can calculate a more accurate non-voice probability by combining the first to fifth embodiments.
The seventh embodiment of the present invention is a voice recognition device including the voice detection devices of the first to fifth embodiments. The speech recognition apparatus performs a known speech recognition process on a section determined to be a speech section by the speech detection apparatuses of the first to fifth embodiments, and outputs a speech recognition result.
Since the speech recognition apparatus according to the present embodiment performs speech recognition processing on a segment determined to be a speech segment with high accuracy, execution of useless processing that performs speech recognition processing on a non-speech segment can be prevented. In addition, it is possible to perform speech recognition processing with high accuracy on the speech section, and prevent the speech recognition processing from being leaked.
Next, the outline of the present invention will be described. FIG. 13 is a block diagram showing an outline of the present invention. The
The feature
The long section feature
The
The
In each of the above-described embodiments, voice detection devices as shown in the following (1) to (11) are also disclosed.
(1) A voice in which the long section feature
(2) When the long section feature
(3) The voice detection device in which the
(4) The
(5) A long-section feature value is provided that includes a second feature value calculation unit (corresponding to the
(6) A second feature quantity calculation unit (corresponding to the
(7) The speech detection apparatus in which the long section feature
(8) The voice recognition result based on the score, which is a value indicating a degree by which the second feature quantity calculation unit matches the feature quantity of the word stored in advance in the storage unit and the feature quantity of the input signal to be voice-recognized. The speech detection device that outputs the scores of the plurality of candidates, and the long interval feature amount calculation unit calculates the difference between the score of the first candidate and the score of the second candidate in the descending order as the reliability.
(9) The second feature amount calculation unit performs speech recognition on the input signal and outputs a speech recognition result with time information, and the long interval feature
(10) The long section feature
(11) The speech detection apparatus in which the long segment feature
While the present invention has been described with reference to the embodiments, the present invention is not limited to the above embodiments. Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention.
This application claims the priority on the basis of Japanese application Japanese Patent Application No. 2009-291976 for which it applied on December 24, 2009, and takes in those the indications of all here.
(Additional remark 1) The feature-value calculation part which calculates the feature-value of the input signal for every flame | frame which is an input signal for every predetermined unit time, The said feature-value, and whether the said input signal is a signal based on an audio | voice. Compared to the voice detection threshold for determination, whether the signal is based on speech over a plurality of frames or whether it is a non-speech segment where signals based on non-speech are input over a plurality of frames A speech / non-speech determination unit and a feature value statistical value of a plurality of frames constituting the speech segment or the non-speech segment calculated by the feature amount calculation unit. A long-section feature quantity calculation unit that calculates a long-section feature quantity that is a feature quantity of the section, and the voice section and the non-speech section are based on non-speech using the long-section feature quantity. A speech detection apparatus comprising: a threshold update unit that calculates a non-speech probability that is a probability of being a section in which a speech is input, and updates the speech detection threshold based on the calculated non-speech probability .
(Additional remark 2) The long section feature-value calculation part calculates a long-section feature-value by performing a statistical process to the feature-value over the 1 or more audio | voice area determined by the audio | voice / non-voice determination part, or a non-voice section. The voice detection device according to 1.
(Additional remark 3) When calculating a long section feature-value, a long-section feature-value calculation part counts from the result arranged in the order of the average value of the feature-value for every frame, a mode value, a median, and a big order. The voice detection device according to
(Additional remark 4) A threshold value update part is described in any one of
(Additional remark 5) A threshold value update part calculates | requires the value which divides the maximum value and minimum value of the said feature-value using a non-speech probability, and updates a speech detection threshold value so that it may become a value close | similar to the said internally divided value. The voice detection device according to
(Additional remark 6) It has the 2nd feature-value calculation part which calculates the 2nd feature-value different from the feature-value which the feature-value calculation part calculates, The long section feature-value calculation part calculated by the said feature-value calculation part The speech detection device according to any one of
(Supplementary Note 7) The second feature quantity calculator performs speech recognition on the input signal and outputs a speech recognition result, and the long section feature quantity calculator calculates the long section feature quantity based on the speech recognition result. The voice detection device according to appendix 6.
(Supplementary note 8) The speech detection device according to
(Supplementary Note 9) The second feature amount calculation unit performs speech recognition based on a score that is a value indicating a degree of matching between the feature amount of the word stored in the storage unit in advance and the feature amount of the input signal to be recognized. The score of a plurality of candidate results is output, and the long interval feature value calculation unit calculates the difference between the score of the first candidate and the score of the second candidate in descending order of the degree as the reliability level 8 The voice detection device according to 1.
(Additional remark 10) The 2nd feature-value calculation part performs speech recognition to an input signal, and outputs the speech recognition result with time information, and a long section feature-value calculation part has the said voice recognition result with the said time information. The voice detection device according to appendix 6, wherein a long section feature amount is calculated from
(Supplementary note 11) The voice detection device according to
(Supplementary note 12) The speech detection device according to supplementary note 11, wherein the long section feature amount calculation unit calculates a duration length in units of phonemes or syllables.
(Supplementary note 13) The speech detection device according to any one of
(Additional remark 14) The audio | voice for calculating the feature-value of the input signal for every flame | frame which is an input signal within predetermined unit time, and determining whether the said feature-value and the said input signal are signals based on an audio | voice The detection threshold value is compared, and it is determined whether the signal is a voice segment in which a signal based on speech is input over a plurality of frames or a non-speech segment in which a signal based on non-speech is input over a plurality of frames, Based on the statistical values of the feature quantities of a plurality of frames constituting the speech section or the non-speech section, a long section feature quantity that is a feature quantity of the speech section or the non-speech section is calculated, and the long section feature quantity is calculated. And calculating a non-speech probability that is a probability that the speech section and the non-speech section are sections in which a signal based on non-speech is input, and based on the calculated non-speech probability. Te, voice detection method and updates the voice detection threshold value.
(Additional remark 15) The audio | voice detection method of
101 波形切りだし部
102、301 特徴量算出部
103 閾値記憶部
104、302 音声/非音声判定部
105 判定結果保持部
106 整形ルール記憶部
107 音声/非音声区間整形部
108、303 長区間特徴量算出部
109、304 閾値更新部
110 音声分析部
111 音声認識部
300 音声検出装置DESCRIPTION OF
Claims (10)
前記特徴量と閾値とを比較し、複数のフレームにわたって音声にもとづく信号が入力された音声区間であるのか、または複数のフレームにわたって非音声にもとづく信号が入力された非音声区間であるのかを判定する音声/非音声判定手段と、
前記特徴量算出手段が算出した前記音声区間または前記非音声区間を構成する複数のフレームの特徴量の統計値にもとづいて、前記音声区間または前記非音声区間の特徴量である長区間特徴量を算出する長区間特徴量算出手段と、
前記長区間特徴量を用いて、前記音声区間および前記非音声区間が非音声にもとづく信号が入力された区間である確率である非音声確率を算出し、算出した前記非音声確率にもとづいて、前記閾値を更新する閾値更新手段と、
を備えた音声検出装置。 A feature amount calculating means for calculating a feature amount of an input signal for each frame, which is an input signal for each unit time;
The feature amount is compared with a threshold value, and it is determined whether it is a speech section in which a signal based on speech is input over a plurality of frames or a non-speech section in which a signal based on non-speech is input over a plurality of frames. Voice / non-voice judgment means to perform,
Based on a statistical value of feature quantities of a plurality of frames constituting the speech section or the non-speech section calculated by the feature quantity calculation unit, a long section feature quantity that is a feature quantity of the speech section or the non-speech section is calculated. Long-section feature value calculating means for calculating;
Using the long section feature amount, the speech section and the non-speech section calculate a non-speech probability that is a section in which a signal based on non-speech is input, and based on the calculated non-speech probability, Threshold updating means for updating the threshold;
A voice detection device.
請求項1に記載の音声検出装置。 2. The long section feature quantity calculating unit performs statistical processing on the plurality of voice sections determined by the voice / non-speech determination unit, or the feature quantity over the non-speech section, and calculates the long section feature quantity. The voice detection device according to 1.
請求項1または請求項2に記載の音声検出装置。 The long section feature quantity calculating means calculates the long section feature quantity by counting from the average value, mode value, median value, and results arranged in descending order of the feature quantity for each frame. The voice detection device according to claim 1, wherein at least one of the methods using a value at a position that reaches the ratio of the above is used.
請求項1から請求項3のうちいずれか1項に記載の音声検出装置。 The threshold value updating unit updates the voice detection threshold value using the maximum value and the minimum value of the feature amount and the non-voice probability in the voice section or the non-voice section. The voice detection device according to claim 1.
請求項4に記載の音声検出装置。 5. The threshold update unit obtains a value that internally divides the maximum value and the minimum value of the feature amount using the non-speech probability, and updates the threshold so that the value is close to the internally divided value. The voice detection device according to 1.
前記長区間特徴量算出手段は、前記特徴量算出手段が算出した前記特徴量と、前記第2の特徴量算出手段が算出した前記第2の特徴量とを用いて前記長区間特徴量を算出する
請求項1から請求項5のうちいずれか1項に記載の音声検出装置。 A second feature amount calculating unit that calculates a second feature amount different from the feature amount calculated by the feature amount calculating unit;
The long section feature quantity calculating means calculates the long section feature quantity using the feature quantity calculated by the feature quantity calculating means and the second feature quantity calculated by the second feature quantity calculating means. The voice detection device according to any one of claims 1 to 5.
前記長区間特徴量算出手段は、前記音声認識結果にもとづいて前記長区間特徴量を算出する
請求項6に記載の音声検出装置。 The second feature amount calculating means performs voice recognition on the input signal and outputs a voice recognition result,
The speech detection apparatus according to claim 6, wherein the long section feature amount calculating unit calculates the long section feature amount based on the speech recognition result.
請求項7に記載の音声検出装置。 The speech detection apparatus according to claim 7, wherein the long section feature amount calculation unit calculates a reliability of the speech recognition result as the long section feature amount.
前記特徴量と閾値とを比較し、複数のフレームにわたって音声にもとづく信号が入力された音声区間であるのか、または複数のフレームにわたって非音声にもとづく信号が入力された非音声区間であるのかを判定し、
前記音声区間または前記非音声区間を構成する複数のフレームの特徴量の統計値にもとづいて、前記音声区間または前記非音声区間の特徴量である長区間特徴量を算出し、
前記長区間特徴量を用いて、前記音声区間および前記非音声区間が非音声にもとづく信号が入力された区間である確率である非音声確率を算出し、算出した前記非音声確率にもとづいて、前記閾値を更新する
音声検出方法。 Calculate the feature value of the input signal for each frame that is the input signal within the unit time,
The feature amount is compared with a threshold value, and it is determined whether it is a speech section in which a signal based on speech is input over a plurality of frames or a non-speech section in which a signal based on non-speech is input over a plurality of frames. And
Based on the statistical values of the feature quantities of a plurality of frames constituting the speech section or the non-speech section, a long section feature quantity that is a feature quantity of the speech section or the non-speech section is calculated,
Using the long section feature amount, the speech section and the non-speech section calculate a non-speech probability that is a section in which a signal based on non-speech is input, and based on the calculated non-speech probability, A voice detection method for updating the threshold.
単位時間ごとの入力信号であるフレームごとの入力信号の特徴量を算出する特徴量算出処理と、
前記特徴量と閾値とを比較し、複数のフレームにわたって音声にもとづく信号が入力された音声区間であるのか、または複数のフレームにわたって非音声にもとづく信号が入力された非音声区間であるのかを判定する音声/非音声判定処理と、
前記特徴量算出処理で算出した前記音声区間または前記非音声区間を構成する複数のフレームの特徴量の統計値にもとづいて、前記音声区間または前記非音声区間の特徴量である長区間特徴量を算出する長区間特徴量算出処理と、
前記長区間特徴量を用いて、前記音声区間および前記非音声区間が非音声にもとづく信号が入力された区間である確率である非音声確率を算出し、算出した前記非音声確率にもとづいて、前記閾値を更新する閾値更新処理と、
を実行させるための音声検出プログラム。 On the computer,
A feature amount calculation process for calculating a feature amount of an input signal for each frame that is an input signal for each unit time;
The feature amount is compared with a threshold value, and it is determined whether it is a speech section in which a signal based on speech is input over a plurality of frames or a non-speech section in which a signal based on non-speech is input over a plurality of frames. Voice / non-voice judgment processing,
Based on a statistical value of feature quantities of a plurality of frames constituting the speech section or the non-speech section calculated by the feature quantity computation process, a long section feature quantity that is a feature quantity of the speech section or the non-speech section is calculated. Long-section feature value calculation processing to be calculated;
Using the long section feature amount, the speech section and the non-speech section calculate a non-speech probability that is a section in which a signal based on non-speech is input, and based on the calculated non-speech probability, A threshold update process for updating the threshold;
Voice detection program for running.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009291976 | 2009-12-24 | ||
JP2009291976 | 2009-12-24 | ||
PCT/JP2010/071620 WO2011077924A1 (en) | 2009-12-24 | 2010-11-26 | Voice detection device, voice detection method, and voice detection program |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2011077924A1 JPWO2011077924A1 (en) | 2013-05-02 |
JP5621786B2 true JP5621786B2 (en) | 2014-11-12 |
Family
ID=44195460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011547442A Active JP5621786B2 (en) | 2009-12-24 | 2010-11-26 | Voice detection device, voice detection method, and voice detection program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5621786B2 (en) |
WO (1) | WO2011077924A1 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5385876B2 (en) * | 2010-08-30 | 2014-01-08 | 日本電信電話株式会社 | Speech segment detection method, speech recognition method, speech segment detection device, speech recognition device, program thereof, and recording medium |
KR101804787B1 (en) * | 2016-09-28 | 2017-12-06 | 대한민국 | Method and Apparatus for Speaker Recognition Using Voice Quality Feature |
US11842741B2 (en) | 2018-03-15 | 2023-12-12 | Nec Corporation | Signal processing system, signal processing device, signal processing method, and recording medium |
KR102237286B1 (en) * | 2019-03-12 | 2021-04-07 | 울산과학기술원 | Apparatus for voice activity detection and method thereof |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06236195A (en) * | 1993-02-12 | 1994-08-23 | Sony Corp | Method for detecting sound section |
JPH08305388A (en) * | 1995-04-28 | 1996-11-22 | Matsushita Electric Ind Co Ltd | Voice range detection device |
JPH09212195A (en) * | 1995-12-12 | 1997-08-15 | Nokia Mobile Phones Ltd | Device and method for voice activity detection and mobile station |
JP2010032792A (en) * | 2008-07-29 | 2010-02-12 | Nippon Telegr & Teleph Corp <Ntt> | Speech segment speaker classification device and method therefore, speech recognition device using the same and method therefore, program and recording medium |
-
2010
- 2010-11-26 JP JP2011547442A patent/JP5621786B2/en active Active
- 2010-11-26 WO PCT/JP2010/071620 patent/WO2011077924A1/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06236195A (en) * | 1993-02-12 | 1994-08-23 | Sony Corp | Method for detecting sound section |
JPH08305388A (en) * | 1995-04-28 | 1996-11-22 | Matsushita Electric Ind Co Ltd | Voice range detection device |
JPH09212195A (en) * | 1995-12-12 | 1997-08-15 | Nokia Mobile Phones Ltd | Device and method for voice activity detection and mobile station |
JP2010032792A (en) * | 2008-07-29 | 2010-02-12 | Nippon Telegr & Teleph Corp <Ntt> | Speech segment speaker classification device and method therefore, speech recognition device using the same and method therefore, program and recording medium |
Also Published As
Publication number | Publication date |
---|---|
JPWO2011077924A1 (en) | 2013-05-02 |
WO2011077924A1 (en) | 2011-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5621783B2 (en) | Speech recognition system, speech recognition method, and speech recognition program | |
JP4568371B2 (en) | Computerized method and computer program for distinguishing between at least two event classes | |
US8532991B2 (en) | Speech models generated using competitive training, asymmetric training, and data boosting | |
JP4911034B2 (en) | Voice discrimination system, voice discrimination method, and voice discrimination program | |
JP2005043666A (en) | Voice recognition device | |
JP2011033680A (en) | Voice processing device and method, and program | |
JP6176055B2 (en) | Voice search apparatus and voice search method | |
Zhang et al. | Improved modeling for F0 generation and V/U decision in HMM-based TTS | |
JP5621786B2 (en) | Voice detection device, voice detection method, and voice detection program | |
JP4353202B2 (en) | Prosody identification apparatus and method, and speech recognition apparatus and method | |
JP5282523B2 (en) | Basic frequency extraction method, basic frequency extraction device, and program | |
KR100744288B1 (en) | Method of segmenting phoneme in a vocal signal and the system thereof | |
JP4490090B2 (en) | Sound / silence determination device and sound / silence determination method | |
JPH09325798A (en) | Voice recognizing device | |
JP2019053233A (en) | Apparatus, method, and computer program for detecting speech production interval | |
JP2007292940A (en) | Voice recognition device and voice recognition method | |
JP4666129B2 (en) | Speech recognition system using speech normalization analysis | |
JP6526602B2 (en) | Speech recognition apparatus, method thereof and program | |
JP2008026721A (en) | Speech recognizer, speech recognition method, and program for speech recognition | |
Sorin et al. | The ETSI extended distributed speech recognition (DSR) standards: client side processing and tonal language recognition evaluation | |
CN106920558B (en) | Keyword recognition method and device | |
JP2006010739A (en) | Speech recognition device | |
JP5157474B2 (en) | Sound processing apparatus and program | |
JPH08314490A (en) | Word spotting type method and device for recognizing voice | |
Huang et al. | Discriminative incorporation of explicitly trained tone models into lattice based rescoring for Mandarin speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131018 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140826 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140908 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5621786 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |