JPH04223497A - 有音区間の検出方法 - Google Patents
有音区間の検出方法Info
- Publication number
- JPH04223497A JPH04223497A JP2413742A JP41374290A JPH04223497A JP H04223497 A JPH04223497 A JP H04223497A JP 2413742 A JP2413742 A JP 2413742A JP 41374290 A JP41374290 A JP 41374290A JP H04223497 A JPH04223497 A JP H04223497A
- Authority
- JP
- Japan
- Prior art keywords
- section
- detecting
- input signal
- sound
- average power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000030808 detection of mechanical stimulus involved in sensory perception of sound Effects 0.000 title 1
- 238000000034 method Methods 0.000 claims abstract description 12
- 238000001514 detection method Methods 0.000 claims description 10
- 230000001419 dependent effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 18
- 238000007796 conventional method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 101000582320 Homo sapiens Neurogenic differentiation factor 6 Proteins 0.000 description 1
- 102100030589 Neurogenic differentiation factor 6 Human genes 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000001373 regressive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【0001】
【産業上の利用分野】本発明は有音区間の検出方法にか
かり、特に音声を時系列信号とみなしたときの有音区間
の検出方法に関するものである。
かり、特に音声を時系列信号とみなしたときの有音区間
の検出方法に関するものである。
【0002】
【従来技術】従来の有音区間の検出方法としては、音声
信号の音声パワ−に着目するものがあった。即ち、分析
フレ−ムの時系列パワ−に対して、あるしきい値を設定
し、該時系列パワ−がそのしきい値以上のレベルの区間
を有音区間とするものであった。例えば、図5に示すよ
うに、しきい値をE0と設定すると、音声パワ−のレベ
ルがE0を超えた区間が有音区間となる。
信号の音声パワ−に着目するものがあった。即ち、分析
フレ−ムの時系列パワ−に対して、あるしきい値を設定
し、該時系列パワ−がそのしきい値以上のレベルの区間
を有音区間とするものであった。例えば、図5に示すよ
うに、しきい値をE0と設定すると、音声パワ−のレベ
ルがE0を超えた区間が有音区間となる。
【0003】
【発明が解決しようとする課題】しかしながら上記従来
の有音区間の検出方法では、音声パワ−という尺度に対
して判定を行なうため、発生環境の雑音や発音者自身の
吸気音等の背景雑音の雑音レベルに応じた可変のしきい
値の設定が必要であった。本発明は上述した実情に鑑み
てなされたもので、背景雑音の雑音レベルに依存したし
きい値を設定することの必要性を除去し、背景雑音の雑
音レベルに依存しない尺度による有音区間の検出方法を
提供することを目的とする。
の有音区間の検出方法では、音声パワ−という尺度に対
して判定を行なうため、発生環境の雑音や発音者自身の
吸気音等の背景雑音の雑音レベルに応じた可変のしきい
値の設定が必要であった。本発明は上述した実情に鑑み
てなされたもので、背景雑音の雑音レベルに依存したし
きい値を設定することの必要性を除去し、背景雑音の雑
音レベルに依存しない尺度による有音区間の検出方法を
提供することを目的とする。
【0004】
【課題を解決するための手段】上記課題を解決するため
に本発明は有音区間の検出方法において、入力信号の平
均パワ−を求める第1の工程と、入力信号の予測誤差パ
ワ−を検出する第2の工程と、第1の工程によって算出
された平均パワ−及び第2の工程によって算出された予
測誤差パワ−に基づいて正規化エントロピ−を求める第
3の工程と、第3の工程によって求められた正規化エン
トロピ−が所定のしきい値を超えた区間を有音区間とし
て検出を行なうことを特徴とする。
に本発明は有音区間の検出方法において、入力信号の平
均パワ−を求める第1の工程と、入力信号の予測誤差パ
ワ−を検出する第2の工程と、第1の工程によって算出
された平均パワ−及び第2の工程によって算出された予
測誤差パワ−に基づいて正規化エントロピ−を求める第
3の工程と、第3の工程によって求められた正規化エン
トロピ−が所定のしきい値を超えた区間を有音区間とし
て検出を行なうことを特徴とする。
【0005】
【作用】有音区間の検出方法を上述のごとく行い、音声
信号の正規化エントロピ−が予め定められたしきい値を
超えた区間について有音区間とするため、背景雑音の雑
音レベルに依存しない有音区間の検出が可能となる。
信号の正規化エントロピ−が予め定められたしきい値を
超えた区間について有音区間とするため、背景雑音の雑
音レベルに依存しない有音区間の検出が可能となる。
【0006】
【実施例】以下、本発明の一実施例を図面を用いて説明
する。
する。
【0007】図1は本発明にかかる有音区間の検出方法
を用いた有音区間検出装置の構成を示すブロック図であ
る。同図中、Iは入力信号、10は2乗値算出手段、2
0は平均パワ−算出手段、30は予測誤差パワ−算出手
段、40は正規化エントロピ−算出手段、50は有音区
間決定手段、Oは検出信号である。
を用いた有音区間検出装置の構成を示すブロック図であ
る。同図中、Iは入力信号、10は2乗値算出手段、2
0は平均パワ−算出手段、30は予測誤差パワ−算出手
段、40は正規化エントロピ−算出手段、50は有音区
間決定手段、Oは検出信号である。
【0008】まず、この有音区間検出装置の動作につい
て説明する。入力信号Iは、例えばサンプリング周波数
8kHzでA/D変換された音声の時系列信号x(n)
(n=0,±Δt,±2Δt,±3Δt,・・・・、
但しΔt=1/8000sec)となっているものとす
る。2乗値算出手段10は、入力信号Iである時系列信
号x(n)を入力として2乗信号{x(n)}2を得る
。次にこの2乗信号を平均パワ−算出手段20へ入力し
、平均パワ−P0(n)を得る。ここで平均パワ−P0
(n)は数1に示す(1−1)式で定義されるものであ
る。
て説明する。入力信号Iは、例えばサンプリング周波数
8kHzでA/D変換された音声の時系列信号x(n)
(n=0,±Δt,±2Δt,±3Δt,・・・・、
但しΔt=1/8000sec)となっているものとす
る。2乗値算出手段10は、入力信号Iである時系列信
号x(n)を入力として2乗信号{x(n)}2を得る
。次にこの2乗信号を平均パワ−算出手段20へ入力し
、平均パワ−P0(n)を得る。ここで平均パワ−P0
(n)は数1に示す(1−1)式で定義されるものであ
る。
【0009】
【数1】
【0010】ここで、Lは時系列化された区間長であっ
てこの区間長Lに対して平均化が行なわれる。
てこの区間長Lに対して平均化が行なわれる。
【0011】入力信号Iは2乗化算出手段10に入力さ
れるとともに予測誤差パワ−算出手段30にも入力され
る。予測誤差パワ−算出手段30は入力信号Iである時
系列信号x(n)に対して最大エントロピ−法による予
測分析を行ない、m次の予測誤差パワ−Pm(n)を得
るものである。この予測誤差パワ−Pm(n)は、時系
列信号x(n)を数2に示す(1−2)式のような過去
におけるm個のサンプル値の線形結合を考えた場合に、
最大エントロピ−法を用いてm次の線形予測係数を決定
し、数3に示す(1−3)式を用いて算出されたもので
ある。
れるとともに予測誤差パワ−算出手段30にも入力され
る。予測誤差パワ−算出手段30は入力信号Iである時
系列信号x(n)に対して最大エントロピ−法による予
測分析を行ない、m次の予測誤差パワ−Pm(n)を得
るものである。この予測誤差パワ−Pm(n)は、時系
列信号x(n)を数2に示す(1−2)式のような過去
におけるm個のサンプル値の線形結合を考えた場合に、
最大エントロピ−法を用いてm次の線形予測係数を決定
し、数3に示す(1−3)式を用いて算出されたもので
ある。
【0012】
【数2】
【0013】
【数3】
【0014】(ここで、m=1,2,3,・・・M;M
は最大予測係数)
は最大予測係数)
【0015】そして、予測誤差パワ−算出手段30は、
(1−3)式においてm=1から順にMまで増加させた
ときのM次の予測誤差パワ−PM(n)を出力する。
(1−3)式においてm=1から順にMまで増加させた
ときのM次の予測誤差パワ−PM(n)を出力する。
【0016】正規化エントロピ−算出手段40は、平均
パワ−P0(n)及び予測誤差パワ−PM(n)を入力
として情報エントロピ−の算出を行なうものである。そ
こで、正規化エントロピ−算出手段40における正規化
エントロピ−について、及び正規化エントロピ−の算出
に際して用いられる時系列スペクトルについて説明する
。ここで正規化エントロピ−とは音声信号にAR(Au
to Regressive;自己回帰)モデルを適用
した結果得られる予測性の善し悪しを示す評価尺度であ
る。即ち信号がランダム的な雑音である場合と、予測可
能な音声信号である場合の両者のもつエントロピ−の違
いに着目したものである。
パワ−P0(n)及び予測誤差パワ−PM(n)を入力
として情報エントロピ−の算出を行なうものである。そ
こで、正規化エントロピ−算出手段40における正規化
エントロピ−について、及び正規化エントロピ−の算出
に際して用いられる時系列スペクトルについて説明する
。ここで正規化エントロピ−とは音声信号にAR(Au
to Regressive;自己回帰)モデルを適用
した結果得られる予測性の善し悪しを示す評価尺度であ
る。即ち信号がランダム的な雑音である場合と、予測可
能な音声信号である場合の両者のもつエントロピ−の違
いに着目したものである。
【0017】いま、時系列スペクトルをS(f,n)と
すると、そのエントロピ−H(n)は数4に示す(1−
4)式のように表される。
すると、そのエントロピ−H(n)は数4に示す(1−
4)式のように表される。
【0018】
【数4】
【0019】上式においてfNはナイキスト周波数であ
り、S(f,n)は数5に示す(1−5)式で表される
。
り、S(f,n)は数5に示す(1−5)式で表される
。
【0020】
【数5】
【0021】次に、(1−4)式に(1−5)式を代入
すると、(1−5)式の分母の項の積分値は0となるの
で、(1−4)式は以下のように書き替えられる。
すると、(1−5)式の分母の項の積分値は0となるの
で、(1−4)式は以下のように書き替えられる。
【0022】
fN H(n)={1/(4・fN)}・∫ {
logΔtPm(n)}df+(1/2)・log(2
・fN)
−fN
(1−6)
fN H(n)={1/(4・fN)}・∫ {
logΔtPm(n)}df+(1/2)・log(2
・fN)
−fN
(1−6)
【0023】そして
、(1−6)式の積分を実行し、定数を無視することに
よって(1−7)式を得ることができる。
、(1−6)式の積分を実行し、定数を無視することに
よって(1−7)式を得ることができる。
【0024】
H(n)=logPm(n)
(1−7)
(1−7)
【0025】更に、(1−
7)式のエントロピ−H(n)は(1−3)式を漸化的
に解いたものであるため、平均パワ−P0(n)に依存
した値となる。そこで、平均パワ−P0 ∧(n)に依
存しない正規化エントロピ−をH(n)を(1−8)式
のように定義する。
7)式のエントロピ−H(n)は(1−3)式を漸化的
に解いたものであるため、平均パワ−P0(n)に依存
した値となる。そこで、平均パワ−P0 ∧(n)に依
存しない正規化エントロピ−をH(n)を(1−8)式
のように定義する。
【0026】∧
H(n)=log{(Pm(n))/(P0(n)
)}=logPm(n)−logP0(n)
(1−8)
)}=logPm(n)−logP0(n)
(1−8)
【0027】以上説明したように、正規化エ
ントロピ−算出手段40においては具体的には(1−8
)式による演算が行なわれる。
ントロピ−算出手段40においては具体的には(1−8
)式による演算が行なわれる。
【0028】そして、最後に有音区間決定手段50は、
正規化エントロピ−算出手段40で算出された正規化エ
ントロピ−が所定のしきい値を越える区間を検出し、該
しきい値を超えた区間を有音区間と決定し、検出信号O
を出力する。従って、図2に∧示すように正規化エント
ロピ−HM(n)が算出された場合、予め定められたし
きい∧値H0以下の区間が同図に示すように有音区間と
して決定される。なお、同図において横軸は時間、縦軸
は正規化エントロピ−の値を表している。
正規化エントロピ−算出手段40で算出された正規化エ
ントロピ−が所定のしきい値を越える区間を検出し、該
しきい値を超えた区間を有音区間と決定し、検出信号O
を出力する。従って、図2に∧示すように正規化エント
ロピ−HM(n)が算出された場合、予め定められたし
きい∧値H0以下の区間が同図に示すように有音区間と
して決定される。なお、同図において横軸は時間、縦軸
は正規化エントロピ−の値を表している。
【0029】∧次に、所定のしきい値H0の決定につい
て説明する。図3は有音区間検出のた∧めのしきい値H
0の決定を説明するための図であり、同図(a)は雑音
レベルをパラメ−タとした場合の平均パワ−を表した図
、また同図(b)は最大予測次数を10次とした場合の
正規化エントロピ−を表した図である。同図(a)に示
すように雑音レベルを増加させた場合であっても、雑音
区間の正規化エントロピ−は同図(b)に示したように
せいぜい約−3.5dB程度であることがわかる。∧従
って、有音区間検出のためのしきい値H0は、−4.0
dB程度に設定すれば良いことがわかる。
て説明する。図3は有音区間検出のた∧めのしきい値H
0の決定を説明するための図であり、同図(a)は雑音
レベルをパラメ−タとした場合の平均パワ−を表した図
、また同図(b)は最大予測次数を10次とした場合の
正規化エントロピ−を表した図である。同図(a)に示
すように雑音レベルを増加させた場合であっても、雑音
区間の正規化エントロピ−は同図(b)に示したように
せいぜい約−3.5dB程度であることがわかる。∧従
って、有音区間検出のためのしきい値H0は、−4.0
dB程度に設定すれば良いことがわかる。
【0030】次に、本発明にかかる有音区間の検出方法
を使用して入力信号Iから有音区間を検出する具体例を
説明する。図4は入力信号の具体例を表した図で、同図
(a)は入力信号の平均パワ−を表した図、同図(b)
は正規化エントロピ−を表した図である。この具体例に
おいては入力信号Iとして単語「つるが」を入力してい
る。また、有音区間検出のためのしきい値H0の値は−
4.0dB、最大予測次数は10次である。同図に示す
とおり、入力信号Iである単語「つるが」の有音区間が
ほぼ正確に検出されていることがわかる。
を使用して入力信号Iから有音区間を検出する具体例を
説明する。図4は入力信号の具体例を表した図で、同図
(a)は入力信号の平均パワ−を表した図、同図(b)
は正規化エントロピ−を表した図である。この具体例に
おいては入力信号Iとして単語「つるが」を入力してい
る。また、有音区間検出のためのしきい値H0の値は−
4.0dB、最大予測次数は10次である。同図に示す
とおり、入力信号Iである単語「つるが」の有音区間が
ほぼ正確に検出されていることがわかる。
【0031】
【発明の効果】以上詳細に説明したように、本発明によ
れば以下のような優れた効果を得ることができる。
れば以下のような優れた効果を得ることができる。
【0032】(1)背景雑音の雑音レベルに依存しない
尺度による有音区間の検出が可能となる。
尺度による有音区間の検出が可能となる。
【0033】(2)従来の音声パワ−に着目した有音区
間の検出方法と比較して、ランダム的な背景雑音に特に
強いという特徴を有する。
間の検出方法と比較して、ランダム的な背景雑音に特に
強いという特徴を有する。
【0034】(3)さらに、本発明は情報エントロピ−
に基づいたものであるため、音声信号に限らず、例えば
エンジン音やモ−タ−音等の一般の入力信号に対しても
正規化エントロピ−を用いることによって有音区間の検
出が可能となる。
に基づいたものであるため、音声信号に限らず、例えば
エンジン音やモ−タ−音等の一般の入力信号に対しても
正規化エントロピ−を用いることによって有音区間の検
出が可能となる。
【図1】本発明にかかる有音区間の検出方法を用いた有
音区間検出装置の構成を示すブロック図である。
音区間検出装置の構成を示すブロック図である。
【図2】有音区間の検出を説明するための図である。
【図3】有音区間検出のためのしきい値の決定を説明す
るための図であり、同図(a)は雑音レベルをパラメ−
タとした場合の平均パワ−を表した図、また同図(b)
は最大予測次数を10次とした場合の正規化エントロピ
−を表した図である。
るための図であり、同図(a)は雑音レベルをパラメ−
タとした場合の平均パワ−を表した図、また同図(b)
は最大予測次数を10次とした場合の正規化エントロピ
−を表した図である。
【図4】入力信号の具体例を表した図で、同図(a)は
入力信号の平均パワ−を表した図、同図(b)は正規化
エントロピ−を表した図である。
入力信号の平均パワ−を表した図、同図(b)は正規化
エントロピ−を表した図である。
【図5】従来の有音区間の検出方法を説明するための図
である。
である。
10 2乗値算出手段
20 平均パワ−算出手段
30 予測誤差パワ−算出手段40
正規化エントロピ−算出手段50 有音
区間決定手段
正規化エントロピ−算出手段50 有音
区間決定手段
Claims (1)
- 【請求項1】入力信号から検出を行ないたい区間である
有音区間を検出する有音区間の検出方法において、入力
信号の平均パワ−を求める第1の工程と、前記入力信号
の予測誤差パワ−を検出する第2の工程と、前記第1の
工程によって算出された平均パワ−及び前記第2の工程
によって算出された予測誤差パワ−に基づいて正規化エ
ントロピ−を求める第3の工程と、前記第3の工程によ
って求められた正規化エントロピ−が所定のしきい値を
超えた区間を有音区間として検出を行なうことを特徴と
する有音区間の検出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2413742A JPH04223497A (ja) | 1990-12-25 | 1990-12-25 | 有音区間の検出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2413742A JPH04223497A (ja) | 1990-12-25 | 1990-12-25 | 有音区間の検出方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH04223497A true JPH04223497A (ja) | 1992-08-13 |
Family
ID=18522318
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2413742A Pending JPH04223497A (ja) | 1990-12-25 | 1990-12-25 | 有音区間の検出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH04223497A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009251134A (ja) * | 2008-04-03 | 2009-10-29 | Toshiba Corp | 音声/非音声を判定する装置、方法およびプログラム |
JP2018532155A (ja) * | 2016-04-22 | 2018-11-01 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | 音声検出方法、装置及び記憶媒体 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58143394A (ja) * | 1982-02-19 | 1983-08-25 | 株式会社日立製作所 | 音声区間の検出・分類方式 |
-
1990
- 1990-12-25 JP JP2413742A patent/JPH04223497A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58143394A (ja) * | 1982-02-19 | 1983-08-25 | 株式会社日立製作所 | 音声区間の検出・分類方式 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009251134A (ja) * | 2008-04-03 | 2009-10-29 | Toshiba Corp | 音声/非音声を判定する装置、方法およびプログラム |
JP2018532155A (ja) * | 2016-04-22 | 2018-11-01 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | 音声検出方法、装置及び記憶媒体 |
US10872620B2 (en) | 2016-04-22 | 2020-12-22 | Tencent Technology (Shenzhen) Company Limited | Voice detection method and apparatus, and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6216103B1 (en) | Method for implementing a speech recognition system to determine speech endpoints during conditions with background noise | |
US7133826B2 (en) | Method and apparatus using spectral addition for speaker recognition | |
US9959886B2 (en) | Spectral comb voice activity detection | |
JPH0990974A (ja) | 信号処理方法 | |
WO2001029821A1 (en) | Method for utilizing validity constraints in a speech endpoint detector | |
JPH10254476A (ja) | 音声区間検出方法 | |
Virebrand | Real-time monitoring of voice characteristics usingaccelerometer and microphone measurements | |
Alku et al. | Effects of bandwidth on glottal airflow waveforms estimated by inverse filtering | |
JPH04223497A (ja) | 有音区間の検出方法 | |
JPH07184948A (ja) | いびき検出装置 | |
US20060150805A1 (en) | Method of automatically detecting vibrato in music | |
JP3135937B2 (ja) | 雑音除去装置 | |
JP2564821B2 (ja) | 音声判定検出装置 | |
JPH0449952B2 (ja) | ||
JPS5912185B2 (ja) | 有声無声判定装置 | |
JP3520430B2 (ja) | 左右音像方向抽出方法 | |
KR100526110B1 (ko) | 화자인식시스템의 화자 특징벡터 생성방법 및 시스템 | |
JPH04100099A (ja) | 音声検出装置 | |
JP2001165766A (ja) | 非定常騒音のラウドネス評価装置 | |
JPH03114100A (ja) | 音声区間検出装置 | |
JP2598518B2 (ja) | 音声のセグメンテーション方法 | |
JPH0558551B2 (ja) | ||
JP3145955B2 (ja) | 音声波形処理装置 | |
JP4778613B2 (ja) | スピーチプロセシング | |
Dokku et al. | Detection of stop consonants in continuous noisy speech based on an extrapolation technique |