JP2598518B2 - 音声のセグメンテーション方法 - Google Patents
音声のセグメンテーション方法Info
- Publication number
- JP2598518B2 JP2598518B2 JP1145064A JP14506489A JP2598518B2 JP 2598518 B2 JP2598518 B2 JP 2598518B2 JP 1145064 A JP1145064 A JP 1145064A JP 14506489 A JP14506489 A JP 14506489A JP 2598518 B2 JP2598518 B2 JP 2598518B2
- Authority
- JP
- Japan
- Prior art keywords
- section
- power
- entropy
- prediction error
- equation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
【発明の詳細な説明】 [産業上の利用分野] この発明は連続して発生した音声信号を音節や音韻に
区分する音声のセグメンテーション方法に関する。
区分する音声のセグメンテーション方法に関する。
[従来の技術] 従来から広く用いられてきた音声のセグメンテーショ
ン方法は、音声パワーに着目するものであった。例え
ば、安居院 猛・中嶋正之共著「コンピュータ音声処
理」(1980年6月)秋葉出版P176において開示されてい
るように、音声パワーが極小となる時間点に挟持まれた
1個の極大値をもつ区間を1個の音節又は音韻区間とし
て検出する方法がある。
ン方法は、音声パワーに着目するものであった。例え
ば、安居院 猛・中嶋正之共著「コンピュータ音声処
理」(1980年6月)秋葉出版P176において開示されてい
るように、音声パワーが極小となる時間点に挟持まれた
1個の極大値をもつ区間を1個の音節又は音韻区間とし
て検出する方法がある。
[発明が解決しようとする課題] しかしながら、このような方法では音声パワーという
尺度に対してセグメンテーションを行なうため、セグメ
ンテーションの結果は音声パワーに依存したものにな
る。音声パワーが個人差により大きく異なること、更に
同一人物でも音声パワーは一定ではないことなどを考え
れば、個人差によらない新しい尺度でのセグメンテーシ
ョンを行なう必要がある。
尺度に対してセグメンテーションを行なうため、セグメ
ンテーションの結果は音声パワーに依存したものにな
る。音声パワーが個人差により大きく異なること、更に
同一人物でも音声パワーは一定ではないことなどを考え
れば、個人差によらない新しい尺度でのセグメンテーシ
ョンを行なう必要がある。
この発明は、音声パワーによるセグメンテーションの
結果が音声パワーに依存するという問題点を解消するた
めになされたものであり、音声信号を時系列信号とみな
した音声の情報エントロピーを用いてセグメンテーショ
ンを行なうことにより、音声パワーに依存せず、高精度
なセグメンテーションを可能にした音声のセグメンテー
ション方法を提供することを目的とする。
結果が音声パワーに依存するという問題点を解消するた
めになされたものであり、音声信号を時系列信号とみな
した音声の情報エントロピーを用いてセグメンテーショ
ンを行なうことにより、音声パワーに依存せず、高精度
なセグメンテーションを可能にした音声のセグメンテー
ション方法を提供することを目的とする。
[課題を解決するための手段] この発明に係る音声のセグメンテーション方法は、音
声入力の平均パワー及び予測誤差パワーをそれぞれ求め
る工程と、平均パワー及び予測誤差パワーに基づいて正
規化エントロピーを求める工程と、正規化エントロピー
が極大値、極小値及び極大値と時系列に変化する区間
を、1単位の音節又は音韻区間として検出することによ
り音声のセグメンテーションを行う工程とを有する。
声入力の平均パワー及び予測誤差パワーをそれぞれ求め
る工程と、平均パワー及び予測誤差パワーに基づいて正
規化エントロピーを求める工程と、正規化エントロピー
が極大値、極小値及び極大値と時系列に変化する区間
を、1単位の音節又は音韻区間として検出することによ
り音声のセグメンテーションを行う工程とを有する。
[作 用] この発明においては、音声を時系列信号としてみなし
た時の音声の情報エントロピーに着目し、正規化エント
ロピーの極大値、極小値及び極大値と時系列に変化する
区間が、1単位の音節又は音韻区間として検出される。
た時の音声の情報エントロピーに着目し、正規化エント
ロピーの極大値、極小値及び極大値と時系列に変化する
区間が、1単位の音節又は音韻区間として検出される。
[実施例] 第1図はこの発明の一実施例に係る方法を実施するた
めの装置の構成を示したブロック図である。図におい
て、(1)は入力信号、(2)は2乗値算出手段、
(3)は平均パワー算出手段、(4)は予測誤差パワー
算出手段、(5)は正規化エントロピー算出手段、
(6)は音節又は音韻区間検出手段であり、(7)は検
出手段である。
めの装置の構成を示したブロック図である。図におい
て、(1)は入力信号、(2)は2乗値算出手段、
(3)は平均パワー算出手段、(4)は予測誤差パワー
算出手段、(5)は正規化エントロピー算出手段、
(6)は音節又は音韻区間検出手段であり、(7)は検
出手段である。
次に動作を説明する。入力信号(1)は、例えばサン
プリング周波数8KHzでA/D変換された音声の時系列信号
x(n),n=0,±Δt,±Δ2t,±Δ3t,………,Δt=1/
8000(sec.)となっているものとする。2乗値算出手段
(2)はこの入力信号x(n)を入力して、2乗信号
{x(n)}2を得る。
プリング周波数8KHzでA/D変換された音声の時系列信号
x(n),n=0,±Δt,±Δ2t,±Δ3t,………,Δt=1/
8000(sec.)となっているものとする。2乗値算出手段
(2)はこの入力信号x(n)を入力して、2乗信号
{x(n)}2を得る。
次に、この2乗信号を平均パワー算出手段(3)へ入
力し、平均パワーP0(n)を得る。ここで、P0(n)は
次式で定義されるものである。
力し、平均パワーP0(n)を得る。ここで、P0(n)は
次式で定義されるものである。
(ここで、Lは平均化する区間長である。) 次に、このP0(n)を予測誤差パワー算出手段(4)
へ入力し、予測誤差パワーPM(n)を得る。
へ入力し、予測誤差パワーPM(n)を得る。
予測誤差パワーの算出は、入力信号x(n)を次式の
ように過去m個のサンプル値の線形結合で予測し、 (ここで、ai (m)は、m次の線形予測係数:反射係数で
ある。) レビンソン−ダービン(Levinson−Durbin)のアルゴ
リズムを用いて、m次の反射係数am (m)が与えられた時
の、m次の予測誤差パワーPm(n)を次式により算出す
る。
ように過去m個のサンプル値の線形結合で予測し、 (ここで、ai (m)は、m次の線形予測係数:反射係数で
ある。) レビンソン−ダービン(Levinson−Durbin)のアルゴ
リズムを用いて、m次の反射係数am (m)が与えられた時
の、m次の予測誤差パワーPm(n)を次式により算出す
る。
Pm(n)=Pm-1(n){1−(am (m))2} ……(3) (ここで、m=1,2,3,M Mは最大の予測次数) したがって、予測誤差パワー算出手段(4)の出力PM
(n)は、式(3)において、m=1から順にMまで増
加させた時の、M次の予測誤差パワーである。
(n)は、式(3)において、m=1から順にMまで増
加させた時の、M次の予測誤差パワーである。
正規化エントロピー算出手段(5)は、P0(n)及び
PM(n)を入力し、情報エントロピー(以下単にエント
ロピーという)の計算を行なう。ここで、時系列スペク
トルS(f,n)のエントロピーH(n)は、 上式において、fNはナイキスト(Nyquist)周波数で
あり、S(f,n)は、 であり、式(4)に式(5)を代入すると、式(5)の
分母の項の積分は0となるので、 となり、更に、式(6)の積分を実行し、定数を無視す
ると、次式を得る。
PM(n)を入力し、情報エントロピー(以下単にエント
ロピーという)の計算を行なう。ここで、時系列スペク
トルS(f,n)のエントロピーH(n)は、 上式において、fNはナイキスト(Nyquist)周波数で
あり、S(f,n)は、 であり、式(4)に式(5)を代入すると、式(5)の
分母の項の積分は0となるので、 となり、更に、式(6)の積分を実行し、定数を無視す
ると、次式を得る。
H(n)=logPm(n) ……(7) 更に、上式(7)のエントロピーはPm(n)が式
(3)を漸化的に解くので、平均パワーP0(n)依存し
た量となり、Pm(n)をP0(n)で正規化した値の対数
をとり、正規化エントロピー(n)は、 となり、式(8)に従って正規化エントロピーを算出す
る。
(3)を漸化的に解くので、平均パワーP0(n)依存し
た量となり、Pm(n)をP0(n)で正規化した値の対数
をとり、正規化エントロピー(n)は、 となり、式(8)に従って正規化エントロピーを算出す
る。
音節又は音韻区間検出手段(6)は、正規化エントロ
ピー算出手段(5)で算出した正規化エントロピーを時
系列信号とみなし、正規化エントロピーが極大値→極小
値→極大値となる区間を音節又は音韻区間として検出
し、セグメンテーションを行なってそれぞれ検出信号
(7)として出力する。この検出信号(7)はマッチン
グ装置(図示せず)に送り出され、そこで、予め記憶さ
れている基準パターンとの類似度が演算され、最も類似
しているパターンをその音節又は音韻として出力する。
ピー算出手段(5)で算出した正規化エントロピーを時
系列信号とみなし、正規化エントロピーが極大値→極小
値→極大値となる区間を音節又は音韻区間として検出
し、セグメンテーションを行なってそれぞれ検出信号
(7)として出力する。この検出信号(7)はマッチン
グ装置(図示せず)に送り出され、そこで、予め記憶さ
れている基準パターンとの類似度が演算され、最も類似
しているパターンをその音節又は音韻として出力する。
第2図は音節又は音韻区間の検出方法を示した説明図
であり、横軸は時間、縦軸は正規化エントロピーの値で
ある。ここで、正規化エントロピーの極大値、極小値を
次のように定める。
であり、横軸は時間、縦軸は正規化エントロピーの値で
ある。ここで、正規化エントロピーの極大値、極小値を
次のように定める。
イ)時刻miにおいて、正規化エントロピーは極大値M
(mi)をもつ。
(mi)をもつ。
ロ)時刻niにおいて、正規化エントロピーは極大値M
(ni)をもつ。
(ni)をもつ。
基本的に、時刻mi→ni→mi+1の区間を1単位の音節
又は音韻区間とする。これは正規化エントロピーがM
(mi)→M(ni)→M(m+1)という具合に極大
値→極小値→極大値という順で繰り返す区間である。
又は音韻区間とする。これは正規化エントロピーがM
(mi)→M(ni)→M(m+1)という具合に極大
値→極小値→極大値という順で繰り返す区間である。
第3図は正規化エントロピーの出力例を示す説明図で
あり、平均パワーPo(n)及びそれに対応した予測次数
が10次(つまりM=10)の正規化エントロピーが
(n)が図示されている。この第3図の例では入力信号
としての単語は「あさひ」であり、図示のように音節又
は音韻の変化に対応して正規化エントロピーの値が変化
しており、その極大値→極小値→極大→を単位として、
a−s−a−h−iに対応して正規化エントロピーが区
分されている。
あり、平均パワーPo(n)及びそれに対応した予測次数
が10次(つまりM=10)の正規化エントロピーが
(n)が図示されている。この第3図の例では入力信号
としての単語は「あさひ」であり、図示のように音節又
は音韻の変化に対応して正規化エントロピーの値が変化
しており、その極大値→極小値→極大→を単位として、
a−s−a−h−iに対応して正規化エントロピーが区
分されている。
この正規化エントロピーのもつ性質から考えて、エン
トロピー値の減少傾向が大きいほど、入力音声が予測モ
デルにうまく適合しているといえる。したがって、エン
トロピー値の極小点が最も安定した音節又は音韻部分で
あるといえる。
トロピー値の減少傾向が大きいほど、入力音声が予測モ
デルにうまく適合しているといえる。したがって、エン
トロピー値の極小点が最も安定した音節又は音韻部分で
あるといえる。
[発明の効果] 以上説明したようにこの発明によれば、正規化エント
ロピーを用いて音節又は音韻単位でのセグメンテーショ
ンを行なうことを可能にした。この正規化エントロピー
は、音声信号にAR(Auto Regressive;自己回帰)モデル
を適用した結果得られる予測性の良し悪しを示す評価尺
度であり、これは、また音声の声道情報に起因するもの
である。したがって、音声パワーに依存しないため、発
声者の個人差によらない尺度を用いたセグメンテーショ
ンが可能となり、更に、従来セグメンテーションが困難
であった、音声子音やささやき声などの声帯振動を伴わ
ない音声についても、セグメンテーションが可能になっ
た。
ロピーを用いて音節又は音韻単位でのセグメンテーショ
ンを行なうことを可能にした。この正規化エントロピー
は、音声信号にAR(Auto Regressive;自己回帰)モデル
を適用した結果得られる予測性の良し悪しを示す評価尺
度であり、これは、また音声の声道情報に起因するもの
である。したがって、音声パワーに依存しないため、発
声者の個人差によらない尺度を用いたセグメンテーショ
ンが可能となり、更に、従来セグメンテーションが困難
であった、音声子音やささやき声などの声帯振動を伴わ
ない音声についても、セグメンテーションが可能になっ
た。
第1図はこの発明の一実施例に係る方法を実施した装置
の構成を示すブロック図、第2図は音節又は音韻区間の
検出方法を示した説明図、第3図は正規化エントロピー
の出力例を示す説明図である。 (2);2乗値算出手段 (3);平均パワー算出手段 (4);予測誤差パワー算出手段 (5);正規化エントロピー算出手段 (6);音節又は音韻区間検出手段
の構成を示すブロック図、第2図は音節又は音韻区間の
検出方法を示した説明図、第3図は正規化エントロピー
の出力例を示す説明図である。 (2);2乗値算出手段 (3);平均パワー算出手段 (4);予測誤差パワー算出手段 (5);正規化エントロピー算出手段 (6);音節又は音韻区間検出手段
Claims (1)
- 【請求項1】音声入力を所定のサンプリング周波数でA/
D変換して得られた音声の時系列信号x(n)から、次
式101及び102に基づいて、音声入力の平均パワーP
0(n)及び分析次数m次の予測誤差パワーPm(n)を
それぞれ求める工程と、 Pm(n)=Pm-1(n){1−(αm (m))2 式102 (但し、Lは平均化する区間長、Pm-1(n)は分析次数
m−1次の予測誤差パワー、αm (m)は分析次数m次のm
番目の予測係数) 音声入力の前記平均パワーP0(n)及び前記予測誤差パ
ワーPm(n)とに基づいて、次式103に基づいて、正規
化エントロピーMを求める工程と、M = logPm(n)−logP0(n) 式103 前記正規化エントロピーMが極大値、極小値及び極大
値と時系列的に変化する区間を、1単位の音節又は音韻
区間として検出することにより音声のセグメンテーショ
ンを行う工程と、 を有することを特徴とする音声のセグメンテーション方
法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1145064A JP2598518B2 (ja) | 1989-06-09 | 1989-06-09 | 音声のセグメンテーション方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1145064A JP2598518B2 (ja) | 1989-06-09 | 1989-06-09 | 音声のセグメンテーション方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0311399A JPH0311399A (ja) | 1991-01-18 |
JP2598518B2 true JP2598518B2 (ja) | 1997-04-09 |
Family
ID=15376547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1145064A Expired - Lifetime JP2598518B2 (ja) | 1989-06-09 | 1989-06-09 | 音声のセグメンテーション方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2598518B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IL98498A (en) * | 1991-06-14 | 1994-01-25 | Vardi Shlomo | Electro-optical monitoring system for vehicles |
-
1989
- 1989-06-09 JP JP1145064A patent/JP2598518B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH0311399A (ja) | 1991-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6216103B1 (en) | Method for implementing a speech recognition system to determine speech endpoints during conditions with background noise | |
JP3180655B2 (ja) | パターンマッチングによる単語音声認識方法及びその方法を実施する装置 | |
TWI396184B (zh) | 一種語音辨認所有語言及用語音輸入單字的方法 | |
JPS62231997A (ja) | 音声認識システム及びその方法 | |
US6718302B1 (en) | Method for utilizing validity constraints in a speech endpoint detector | |
JP4353202B2 (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
JP3673507B2 (ja) | 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム | |
US20140200889A1 (en) | System and Method for Speech Recognition Using Pitch-Synchronous Spectral Parameters | |
US5806031A (en) | Method and recognizer for recognizing tonal acoustic sound signals | |
KR100738332B1 (ko) | 성대신호 인식 장치 및 그 방법 | |
US20230178099A1 (en) | Using optimal articulatory event-types for computer analysis of speech | |
JP2598518B2 (ja) | 音声のセグメンテーション方法 | |
JP4839970B2 (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
US20060150805A1 (en) | Method of automatically detecting vibrato in music | |
JP3034279B2 (ja) | 有音検出装置および有音検出方法 | |
JP4576612B2 (ja) | 音声認識方法および音声認識装置 | |
Joseph et al. | Indian accent detection using dynamic time warping | |
TWI460718B (zh) | 一個辨認所有語言句子方法 | |
Vikram et al. | Acoustic analysis of misarticulated trills in cleft lip and palate children | |
JP2001083978A (ja) | 音声認識装置 | |
JPH05173594A (ja) | 有声音区間検出方法 | |
JPH04130499A (ja) | 音声のセグメンテーション方法 | |
JPH0772899A (ja) | 音声認識装置 | |
JP2710045B2 (ja) | 音声認識方法 | |
JP3049711B2 (ja) | 音声処理装置 |