JPS5958495A - 音声セグメンテ−シヨン法 - Google Patents
音声セグメンテ−シヨン法Info
- Publication number
- JPS5958495A JPS5958495A JP57171631A JP17163182A JPS5958495A JP S5958495 A JPS5958495 A JP S5958495A JP 57171631 A JP57171631 A JP 57171631A JP 17163182 A JP17163182 A JP 17163182A JP S5958495 A JPS5958495 A JP S5958495A
- Authority
- JP
- Japan
- Prior art keywords
- power
- consonant
- dip
- frequency
- interval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
産業上の利用分野
本発明は音声認識における音声セグメンテーンヨン法に
関するものである。
関するものである。
従来例の構成とその問題点
従来研究あるいは発表されている音声自動認識システム
の動作原理としてはバタンマツチング法が多く採用され
ている。この方法は認識される必要がある全種類の単語
に対して標準パターンをあらかじめΔt1憶しておき、
入力される未知の入カバターンと比較することによって
一致の度合(以下類似度と呼ぶ)を削算し、最大一致が
得られる標準パターンと同一の単語であると判定するも
のである。このバタンマツチング法では認識されるへき
全ての単語に対して標準パターンを月1意しなければな
らないため、発声者か変っ/;−場合にQよ新しく標準
パターン全入力して記憶さぜる必要かある。
の動作原理としてはバタンマツチング法が多く採用され
ている。この方法は認識される必要がある全種類の単語
に対して標準パターンをあらかじめΔt1憶しておき、
入力される未知の入カバターンと比較することによって
一致の度合(以下類似度と呼ぶ)を削算し、最大一致が
得られる標準パターンと同一の単語であると判定するも
のである。このバタンマツチング法では認識されるへき
全ての単語に対して標準パターンを月1意しなければな
らないため、発声者か変っ/;−場合にQよ新しく標準
パターン全入力して記憶さぜる必要かある。
従って日本全国の都市名のように数i′−i’ XΦ類
以−にの単語を認識対象とするような場合、全種類の!
1′1語全発声して公録するには膨大な時間と労力を必
要とし、寸だ登録に要するメモリー容計も膨大になるこ
とが予想される。さらに人カバターンと標準パターンの
バタンマツチングに四する肋間も単語数が多くなると長
くなってし」−う欠点かある。
以−にの単語を認識対象とするような場合、全種類の!
1′1語全発声して公録するには膨大な時間と労力を必
要とし、寸だ登録に要するメモリー容計も膨大になるこ
とが予想される。さらに人カバターンと標準パターンの
バタンマツチングに四する肋間も単語数が多くなると長
くなってし」−う欠点かある。
これに対して、入力廿声を名素iI’−(\日(=分け
て音素の組合せとして認識しく以下音素認識と呼ぶ)音
素単位で表記された弔語辞p;との類イ」月J」−を求
める方法は栄8語辞94に要するメモリー呑:11か火
11J(′に少なくて済みバタンマツチング(/(7四
する11.l、間かlJ、’、rくでき、辞宵の内容変
更も容易てあ2)という′(冒、2る二持っている。こ
の方法の1列kl、I’:’V+’・スペクトルの概、
略取とその動特性を利用し/3−中詰:XI:・1.I
?識/スデム」三輪他2日本1イ響学会誌34(197
8)に、12Bべである。
て音素の組合せとして認識しく以下音素認識と呼ぶ)音
素単位で表記された弔語辞p;との類イ」月J」−を求
める方法は栄8語辞94に要するメモリー呑:11か火
11J(′に少なくて済みバタンマツチング(/(7四
する11.l、間かlJ、’、rくでき、辞宵の内容変
更も容易てあ2)という′(冒、2る二持っている。こ
の方法の1列kl、I’:’V+’・スペクトルの概、
略取とその動特性を利用し/3−中詰:XI:・1.I
?識/スデム」三輪他2日本1イ響学会誌34(197
8)に、12Bべである。
この方法における単語認識/スデノ、のブ「1ツク図を
第1図に示す。まず、あらかしに′)多数話者の音声を
10m5の分析区間毎に?r’ jl(’ 3) Ai
l:% 1によってフィルタバンクを用いて分)lJ丁
シ、得1.れ/こスペクトル情報をもとに特徴抽出7′
11S2によ−って!Iソ徴パラメータを求める。この
特徴パラメータからlal 、lol等の母音や、1m
l、lbl等の子音に代表される音素毎又は音素グルー
プ毎に標準パターンを作成して標準パターン登録部5に
登録して尤・〈0次に、入力された不l(〒定厚1者の
宵月う・を、同様に分析区間4σに音響分析部1によっ
て分析し、!1イ徴抽出部2によって特徴パラメータを
求める。この!L4j徴パラメータと・標準パターン登
録部5の(;1“L9−パターンを・〕[]いてセクメ
ンブー/−37部3に4.・いてfJ音と了=音の区切
り作業(以−ト、セグメンテーションと呼ぶ)を行なう
。この結果不二もとに、’t”;素判別部4において、
(:’:’、 +I7−パターン登蕾、’r”rlI
5の標準パターンとjl(1合することによって、〕′
l伐も力゛目JJ5.段の高い(票弗パターンに該当す
る音素をぞの区間Vこおける音素と決定する。最後に、
この結果f/1成り。
第1図に示す。まず、あらかしに′)多数話者の音声を
10m5の分析区間毎に?r’ jl(’ 3) Ai
l:% 1によってフィルタバンクを用いて分)lJ丁
シ、得1.れ/こスペクトル情報をもとに特徴抽出7′
11S2によ−って!Iソ徴パラメータを求める。この
特徴パラメータからlal 、lol等の母音や、1m
l、lbl等の子音に代表される音素毎又は音素グルー
プ毎に標準パターンを作成して標準パターン登録部5に
登録して尤・〈0次に、入力された不l(〒定厚1者の
宵月う・を、同様に分析区間4σに音響分析部1によっ
て分析し、!1イ徴抽出部2によって特徴パラメータを
求める。この!L4j徴パラメータと・標準パターン登
録部5の(;1“L9−パターンを・〕[]いてセクメ
ンブー/−37部3に4.・いてfJ音と了=音の区切
り作業(以−ト、セグメンテーションと呼ぶ)を行なう
。この結果不二もとに、’t”;素判別部4において、
(:’:’、 +I7−パターン登蕾、’r”rlI
5の標準パターンとjl(1合することによって、〕′
l伐も力゛目JJ5.段の高い(票弗パターンに該当す
る音素をぞの区間Vこおける音素と決定する。最後に、
この結果f/1成り。
/C音素の時系列(以下音素系列と叶ふ)で?)1語五
μ識都6に送り、同様に14素系列で表J」Lさ71ま
た弔詔辞居7と最も類似1すの大きい項[1(・・二、
該当I゛るI′11語を・認識結果として出力する○ 以」二の全体の動作かられかるように、セグメンテ=ゾ
タン部3においてセグメンテーションヲ誤っ/ぐ場合に
―、あるべき音素を見過こしてし・1−)たり(音素の
脱落)、実際には8素のないところに別の音素が入り込
んでし−まう(音素のイス]加)ことになる。これ1つ
の誤りを発生した場合、単語を音素系列で表現した時に
音素の脱落−やfてj加によって全く関係のない他の単
語に似かまってし寸うこと(・(よって誤認識してし脣
う危険fi+−が高くなる。
μ識都6に送り、同様に14素系列で表J」Lさ71ま
た弔詔辞居7と最も類似1すの大きい項[1(・・二、
該当I゛るI′11語を・認識結果として出力する○ 以」二の全体の動作かられかるように、セグメンテ=ゾ
タン部3においてセグメンテーションヲ誤っ/ぐ場合に
―、あるべき音素を見過こしてし・1−)たり(音素の
脱落)、実際には8素のないところに別の音素が入り込
んでし−まう(音素のイス]加)ことになる。これ1つ
の誤りを発生した場合、単語を音素系列で表現した時に
音素の脱落−やfてj加によって全く関係のない他の単
語に似かまってし寸うこと(・(よって誤認識してし脣
う危険fi+−が高くなる。
このように、音素認識を基本に111語ん1′シ識をイ
■う方法においてセグメンテーションは最も中波な作業
であり、セグメンテーションの1清+T’二5でよって
屯詔認識/スデムのIIt能は太きく〕1゛イ、される
。ところで従来、セグメンテーションを行なう/と−め
のパラメータとして、冨−声信号の全帯域のスペクトル
のパワー情報の時間的な動きを利用し、第2図に示1″
ようにバ1ノーディップの存在によってセグメンテーシ
ョンを行なっていた。すなわち、Rノ?1都のパワーか
子音部のパワーよりも大きいことを利用して、ディップ
の大きさDか、1シり値θD よりも大きい(D>θD
)部分を子音区間としてい/こ。この方法において、次
の2つの問題点かあ一ノだ。
■う方法においてセグメンテーションは最も中波な作業
であり、セグメンテーションの1清+T’二5でよって
屯詔認識/スデムのIIt能は太きく〕1゛イ、される
。ところで従来、セグメンテーションを行なう/と−め
のパラメータとして、冨−声信号の全帯域のスペクトル
のパワー情報の時間的な動きを利用し、第2図に示1″
ようにバ1ノーディップの存在によってセグメンテーシ
ョンを行なっていた。すなわち、Rノ?1都のパワーか
子音部のパワーよりも大きいことを利用して、ディップ
の大きさDか、1シり値θD よりも大きい(D>θD
)部分を子音区間としてい/こ。この方法において、次
の2つの問題点かあ一ノだ。
(1)全帯域の情報ではディップの存在か明らかでない
音素があり、精度か良くない。、(特にlr1+1!7
1.lbl、1ml、lnl&と)(2)ティップの大
きさDはノf右のBJ音のパワーとの差で表現される。
音素があり、精度か良くない。、(特にlr1+1!7
1.lbl、1ml、lnl&と)(2)ティップの大
きさDはノf右のBJ音のパワーとの差で表現される。
し/こかって母音区間におけるパワーの動きが単純でな
い」−合には、ディップの大きさを直接求めることは難
し7い。
い」−合には、ディップの大きさを直接求めることは難
し7い。
発明の目的
本発明はとわらの問題点を角イ決するもので、単語中の
セグメンテーションを精度良くイ1うことをに1的とす
る○ 発明の構成 [1本語(d’、fJ音と子音が交JTに組合わせし〕
わて中詰や文章が構成されているのが普通であり、揉音
を除く子音と他の子冨−が連続することはない。したが
って、日本語音声を認識する場合、li、子音と子音を
精度よく分離することかでき、I]ば、言、3識率の向
」二に大きく貢献する。本発明はセグメンテーションを
行ったV)に用いる情報として、音声スペクトルの低域
パワーと品域パワーとを併用し1、各々の時間的な動き
によって生ずるバ1ノ〜ディツノ゛を使1利して頂音区
間を精度良く倹1i L、m語中のセグメンテーション
のオ青度の向−七をはかったものである。
セグメンテーションを精度良くイ1うことをに1的とす
る○ 発明の構成 [1本語(d’、fJ音と子音が交JTに組合わせし〕
わて中詰や文章が構成されているのが普通であり、揉音
を除く子音と他の子冨−が連続することはない。したが
って、日本語音声を認識する場合、li、子音と子音を
精度よく分離することかでき、I]ば、言、3識率の向
」二に大きく貢献する。本発明はセグメンテーションを
行ったV)に用いる情報として、音声スペクトルの低域
パワーと品域パワーとを併用し1、各々の時間的な動き
によって生ずるバ1ノ〜ディツノ゛を使1利して頂音区
間を精度良く倹1i L、m語中のセグメンテーション
のオ青度の向−七をはかったものである。
実施例
第3図は代表的な音素のスペクトルパターンを表わした
ものである。(a) 幻、54−Uニーt”i 、(b
)!ql、病→′1.イ・f声破裂音のうなりの部分、
(c)は無声了合である。
ものである。(a) 幻、54−Uニーt”i 、(b
)!ql、病→′1.イ・f声破裂音のうなりの部分、
(c)は無声了合である。
これらの図から明らかなように、(a)は比11咬的中
域部にパワーが集寸り、(b)は低域711夕に集中(
7、(C)i、高域部に集中(−でいる。こわ2らの他
に流i″11r1やル)!蜀音1〃1のように、スペク
トルが1市?糸のi°1素に大きく影響される音素もあ
る。こ71.19の]′1.j+’i介ら慮すると、I
υ音7祥(a)と(b)のグループのイJノ:・−J′
11を区別するにに1、高域部分のパワーの大きさがイ
J効であり、Jυ前音群a)と(c)の子音グループ4
・1メ別するにU↓低域部分のパワーの大きさがイJ効
で4うろことがわかる。
域部にパワーが集寸り、(b)は低域711夕に集中(
7、(C)i、高域部に集中(−でいる。こわ2らの他
に流i″11r1やル)!蜀音1〃1のように、スペク
トルが1市?糸のi°1素に大きく影響される音素もあ
る。こ71.19の]′1.j+’i介ら慮すると、I
υ音7祥(a)と(b)のグループのイJノ:・−J′
11を区別するにに1、高域部分のパワーの大きさがイ
J効であり、Jυ前音群a)と(c)の子音グループ4
・1メ別するにU↓低域部分のパワーの大きさがイJ効
で4うろことがわかる。
以」二の知見に基づき本実施例に13・いてcl:セグ
メンデーション用パラメータとして、低域r’iB分の
情報ニついて’d、250H2−600H2のバンドパ
スフィルタの出力を平滑化して求めた低域パワーを使用
し、高域部分の情報について(Iil 500H2−4
000Hzのバンドパスフィルタの出方’l: 5F;
’/:’J化し2て求め/辷高域パワーを使用してい
る。本実施例のごとく低域パワーと高域パワーを併用す
ることにより、全域パワーのみを用いたv′を米例に比
較して、Rに1ml 、 lnl 、 Ijl 、 l
rl 、lhl 、17.1に対して大きなパワーディ
ップを得ることができ、検出44度が向上した。
メンデーション用パラメータとして、低域r’iB分の
情報ニついて’d、250H2−600H2のバンドパ
スフィルタの出力を平滑化して求めた低域パワーを使用
し、高域部分の情報について(Iil 500H2−4
000Hzのバンドパスフィルタの出方’l: 5F;
’/:’J化し2て求め/辷高域パワーを使用してい
る。本実施例のごとく低域パワーと高域パワーを併用す
ることにより、全域パワーのみを用いたv′を米例に比
較して、Rに1ml 、 lnl 、 Ijl 、 l
rl 、lhl 、17.1に対して大きなパワーディ
ップを得ることができ、検出44度が向上した。
ところでパワーディップの大きさの絶ス・」値をa1算
するためには、ディップの前後の広範囲な・l”i’i
報をイ吏月Jしなくてはならないグこめ、ilL米法で
に11丁にきが複雑となり、検出誤りも多くなる。本実
施例では、発声機構の制約全考慮した、簡便で′4t’
f度の良いディップ検出l/、: %:抹川用た。
するためには、ディップの前後の広範囲な・l”i’i
報をイ吏月Jしなくてはならないグこめ、ilL米法で
に11丁にきが複雑となり、検出誤りも多くなる。本実
施例では、発声機構の制約全考慮した、簡便で′4t’
f度の良いディップ検出l/、: %:抹川用た。
音声の発声&−j1、呼気全制御する肺や気管、イJ声
Mを発する声帯置°冒′Klを決定する調音zg官なと
の筋肉の動きの複合によるものである。し/こか−〕で
賛意パワーの動き(r[:発声器官の筋肉の動き(/こ
」、−7て制約を受ける。このため、>Z j”’・パ
ワーの114.凹曲な変化速度は、破裂音などの動きの
速いイ、の、半イJgなど緩やかなものもあるか、一定
のFll’4四内に納且つて(−よう。したがって、ウ
−゛7「ノブの大きさ金、単位時間内のパワーの変化;
11とり、−C置きかえても実用上は問題ない。以−ト
この、L′)−4−考え方に基いたディップ検出法を具
体的に述へる。
Mを発する声帯置°冒′Klを決定する調音zg官なと
の筋肉の動きの複合によるものである。し/こか−〕で
賛意パワーの動き(r[:発声器官の筋肉の動き(/こ
」、−7て制約を受ける。このため、>Z j”’・パ
ワーの114.凹曲な変化速度は、破裂音などの動きの
速いイ、の、半イJgなど緩やかなものもあるか、一定
のFll’4四内に納且つて(−よう。したがって、ウ
−゛7「ノブの大きさ金、単位時間内のパワーの変化;
11とり、−C置きかえても実用上は問題ない。以−ト
この、L′)−4−考え方に基いたディップ検出法を具
体的に述へる。
第4図はその方?bk説明したものである。パワー情報
はダ・J数変換されたものを用いフレームごとに(1フ
レームは1o m5ec ) il算する。第1フレー
ム(i=1〜1maX I imaX t’j、i′
?声[区間のP i:j、(フレーム)における対数パ
ワー・[^報をP (i)とする。第4図(a)−1対
数パワー情報P(1)の時間的な動きの例をIJ音、子
音、 IU音という系列で図示し/こものである。この
図には子音区間の大きなディップの他に、パワーの細か
いゆらきによる小さなデ、fツノか小グ1、している。
はダ・J数変換されたものを用いフレームごとに(1フ
レームは1o m5ec ) il算する。第1フレー
ム(i=1〜1maX I imaX t’j、i′
?声[区間のP i:j、(フレーム)における対数パ
ワー・[^報をP (i)とする。第4図(a)−1対
数パワー情報P(1)の時間的な動きの例をIJ音、子
音、 IU音という系列で図示し/こものである。この
図には子音区間の大きなディップの他に、パワーの細か
いゆらきによる小さなデ、fツノか小グ1、している。
前に述べ/・二」こうに氷+11かいディップは発声に
必要な筋肉の動き(lこよるものではないので平滑化に
よって除去する。除去され/ζものを第4図(b)に示
す。平滑後のパワー情報P (i)は P(i)=IP(i 1)+2XP(i)」−P(i→
1)l/4とする0次に平滑1茨のパワー情報の差分値
PD を次式Qてよって旧9し、パワー情報の11.5
量的変化を求める(第4図(C))。
必要な筋肉の動き(lこよるものではないので平滑化に
よって除去する。除去され/ζものを第4図(b)に示
す。平滑後のパワー情報P (i)は P(i)=IP(i 1)+2XP(i)」−P(i→
1)l/4とする0次に平滑1茨のパワー情報の差分値
PD を次式Qてよって旧9し、パワー情報の11.5
量的変化を求める(第4図(C))。
PD(i)=P(i+1 )−P(i−1)すなわち
PDは2 Q m賃(ごとの変化量の時間的な動8’1
il−表わしている。PDハパワーディノプの下かりの
変曲線で最小値となり、立−にかりの変曲点で最大値と
なる。前述の理由によって、ディップの太きさはPDの
最大値と最小値の間の大きさPで置きかえる。斗たディ
ップのj”J’ Ii lk’7間←J、Ppの最小値
から最大敏”よでの時間りとする。
PDは2 Q m賃(ごとの変化量の時間的な動8’1
il−表わしている。PDハパワーディノプの下かりの
変曲線で最小値となり、立−にかりの変曲点で最大値と
なる。前述の理由によって、ディップの太きさはPDの
最大値と最小値の間の大きさPで置きかえる。斗たディ
ップのj”J’ Ii lk’7間←J、Ppの最小値
から最大敏”よでの時間りとする。
パワー・Ii’i報として前Vこ述べ/C低域情報(P
L)と高域情報(PR)の両方を使j[1シ、その各々
に対して第4図て説明し/上方法を適用すると、低域・
l’i’3114によるディップと高域情報C(よるデ
、イノゾをイー11それ求めることができる。こf’L
”)のディップのうちL≦LmaXの条件金i’i!
rj足するもののみJ′?)候補とする。一般Vζ子冨
区間は181やu′vi′を除くと100mSCC(L
max=15)以−トであるので、このような条イ′4
を入れている。Is1や税音Q」、他の方/去で検出す
ることができる。
L)と高域情報(PR)の両方を使j[1シ、その各々
に対して第4図て説明し/上方法を適用すると、低域・
l’i’3114によるディップと高域情報C(よるデ
、イノゾをイー11それ求めることができる。こf’L
”)のディップのうちL≦LmaXの条件金i’i!
rj足するもののみJ′?)候補とする。一般Vζ子冨
区間は181やu′vi′を除くと100mSCC(L
max=15)以−トであるので、このような条イ′4
を入れている。Is1や税音Q」、他の方/去で検出す
ることができる。
子音候補とし2て求められ/こ名声1ス間K(寸、低域
情報(PL)のみで求められたもの、晶域4゛7〕報(
PH)のみて求められグζものがある。寸だこれらの子
音候補区間には、本当の子音区間と−そつでないもの(
−jZ8の付7J11 )の2種類か混るしている。次
に子音候補区間から子音区間と子音の付)n2分離する
方法を述へる。
情報(PL)のみで求められたもの、晶域4゛7〕報(
PH)のみて求められグζものがある。寸だこれらの子
音候補区間には、本当の子音区間と−そつでないもの(
−jZ8の付7J11 )の2種類か混るしている。次
に子音候補区間から子音区間と子音の付)n2分離する
方法を述へる。
低域情報PL および高域情報PHて求められたディッ
プの変化分の太ささをそれぞれPI、ph とする。統
計的に、本当の丁−音区間tat、j’、 7:;のイ
・1加に比−\るとディップが顕著に現わIJIる/こ
め、’9y、pHの両方せたばどちらか一方か大きな飴
と4二るo /(−とえ147−r 2哲1bllJ、
9℃、phともに人さ4°11自。に石、す、lhlは
plのみ人きくなり、捷/3−巨111 &L円、のツ
ノ・入きくなる。一方、子音の千」加によるデ、fツノ
にJlしては、pα、phともに比較的小さh−値とな
る。こJlらの特徴を考慮して、子音とイ;]加’d:
41’f I及、1.<、しかも効率的に判別するた
めにはpQ −ph’yン: (B旧′(二おける判別
図を使用する。
プの変化分の太ささをそれぞれPI、ph とする。統
計的に、本当の丁−音区間tat、j’、 7:;のイ
・1加に比−\るとディップが顕著に現わIJIる/こ
め、’9y、pHの両方せたばどちらか一方か大きな飴
と4二るo /(−とえ147−r 2哲1bllJ、
9℃、phともに人さ4°11自。に石、す、lhlは
plのみ人きくなり、捷/3−巨111 &L円、のツ
ノ・入きくなる。一方、子音の千」加によるデ、fツノ
にJlしては、pα、phともに比較的小さh−値とな
る。こJlらの特徴を考慮して、子音とイ;]加’d:
41’f I及、1.<、しかも効率的に判別するた
めにはpQ −ph’yン: (B旧′(二おける判別
図を使用する。
第6図は判別図の例である。図において斜線r<Isの
内側がfat 7J11、外佃が子音の領域である。/
こたし2耽、phは整数に直して正規化しである。’t
’!I別図はセグメンテー/ヨンをあらかじめ目視によ
って11なっであるデータを多数使用して、子音と17
でjl−しく認識さiする確率と付加の確率の両方を考
慮することによって結果か最適になるように決定し/C
ものである。
内側がfat 7J11、外佃が子音の領域である。/
こたし2耽、phは整数に直して正規化しである。’t
’!I別図はセグメンテー/ヨンをあらかじめ目視によ
って11なっであるデータを多数使用して、子音と17
でjl−しく認識さiする確率と付加の確率の両方を考
慮することによって結果か最適になるように決定し/C
ものである。
次に判別図を使用して子音区間を決定ず2)方法を第6
図に示した例によって説明1゛る。第6図(a)は門の
ディップのみ現われた場合てあり、大きさはpp、 =
10である。これを第5図の判別図(ハ)二1箇川す
ると、(10,0)←1゛旧加の領域であるか1)、子
74区間とはならない。(b) fl:ipρ−7,p
h−8であり、子音領域に位置する。この場合、Pp、
I)hの両方の区間の論理和の部分を子音区間とする(
i′l素によっては論理和としない場合もある)。、(
C)(rl:pbしか存在しない区間のIZIIであり
、(0,12)は゛r11別図上で子音領域に位置する
。ζ−の場合はPhの区間をその寸tT−音区間とする
。(d) ):l’、 P p、 + pb両方にデ、
イソブが存在するが、判別図上て伺加の領域Vζ位置す
るので、付加として処理する0男女10名それそIIが
発声した2 1211札:1′tを使ITi Lテ、本
実h1u 51J ノPF価’l−?−J l =i
l〈: c、(二(1) j1′+、 、ii 七ノド
は、目視によってあらかじめf、 7’?、 17間に
ラベル(=Jけしである評価用のセットて・F)7.
、不実施f列全適用した時の結果とラベルを化ij9
(、−r、11シ〈セグメンテー/ヨンが行なわわて割
合に、1:つて評価した。その結束(正答率)を・以下
い二示す。
図に示した例によって説明1゛る。第6図(a)は門の
ディップのみ現われた場合てあり、大きさはpp、 =
10である。これを第5図の判別図(ハ)二1箇川す
ると、(10,0)←1゛旧加の領域であるか1)、子
74区間とはならない。(b) fl:ipρ−7,p
h−8であり、子音領域に位置する。この場合、Pp、
I)hの両方の区間の論理和の部分を子音区間とする(
i′l素によっては論理和としない場合もある)。、(
C)(rl:pbしか存在しない区間のIZIIであり
、(0,12)は゛r11別図上で子音領域に位置する
。ζ−の場合はPhの区間をその寸tT−音区間とする
。(d) ):l’、 P p、 + pb両方にデ、
イソブが存在するが、判別図上て伺加の領域Vζ位置す
るので、付加として処理する0男女10名それそIIが
発声した2 1211札:1′tを使ITi Lテ、本
実h1u 51J ノPF価’l−?−J l =i
l〈: c、(二(1) j1′+、 、ii 七ノド
は、目視によってあらかじめf、 7’?、 17間に
ラベル(=Jけしである評価用のセットて・F)7.
、不実施f列全適用した時の結果とラベルを化ij9
(、−r、11シ〈セグメンテー/ヨンが行なわわて割
合に、1:つて評価した。その結束(正答率)を・以下
い二示す。
1rl:94.7% 、 1hl :94.8% 、l
zl :98.7%。
zl :98.7%。
1bj:9(a6係、ldl:99.7係、1?J1:
91.3係。
91.3係。
1ml :867% 、lnl :86.7%一方、旬
昔区間に誤寸って子音がイ・]加する確率(イ月)用率
)は6.9係であるO この結果を従来の方法(全帯域スペクトル−を使い、1
炭値でディップを検出する方法)に比較すると、lrl
、lhl 、l/7 1で数% 、lbl 、ldl
で約1%向」ニしている。寸だ1ml 、lnlは全帯
域パワーでは、ティップの検出かできないのil(二比
し本実施例では検出ii1能である。会]加率t」、、
(・暮、ぼ同じである。
昔区間に誤寸って子音がイ・]加する確率(イ月)用率
)は6.9係であるO この結果を従来の方法(全帯域スペクトル−を使い、1
炭値でディップを検出する方法)に比較すると、lrl
、lhl 、l/7 1で数% 、lbl 、ldl
で約1%向」ニしている。寸だ1ml 、lnlは全帯
域パワーでは、ティップの検出かできないのil(二比
し本実施例では検出ii1能である。会]加率t」、、
(・暮、ぼ同じである。
このように水火hfii例に12、従来検出が知しいと
されていた語中の子音(特に(rl,IIJl,lhl
fr.と)のセクノンテ−7ヨンを高い精度で行なうこ
とを可能とするものである。
されていた語中の子音(特に(rl,IIJl,lhl
fr.と)のセクノンテ−7ヨンを高い精度で行なうこ
とを可能とするものである。
発明の効果
」ン、−に述へたよう(5(′本発明に」、71ば、〕
ぐラメークとして、低域パワー11’i報と高域パIノ
ー・iiI置′1シの両方を用いることによってセグメ
ンテーションll′i’i度か向上する。
ぐラメークとして、低域パワー11’i報と高域パIノ
ー・iiI置′1シの両方を用いることによってセグメ
ンテーションll′i’i度か向上する。
件だパワーディップの11゛j間的動きと1冒::Il
) l’11間イオ11用することによって、ディップ
の育作毛−f7+i 狛に検出することかできる0 さらに低域および尚域両方のバワーブfノブの動きの大
きさを用い、それを判別図に適)11することycよっ
て、肩51埃よく子音=の存在を検出することができる
。
) l’11間イオ11用することによって、ディップ
の育作毛−f7+i 狛に検出することかできる0 さらに低域および尚域両方のバワーブfノブの動きの大
きさを用い、それを判別図に適)11することycよっ
て、肩51埃よく子音=の存在を検出することができる
。
第1図は従来の音声認識システトのブri 、、り図、
のスペクトルの例を示した図、第4図(a)〜(C)
fd: i<発明によってパワーディップを検出する方
法を説明する図、第6図は低域パワーディノブと高域/
々ワーj・イノブの各々の大きさに、しって子音と付加
を判別するための判別図、第6図は子音区間を決定する
方法の一例全示した図である。 代理人の氏名 弁理士 中 尾 敏 リJ ほか1名第
1図 V議胎足 第2図 3図 囚波数 肩ljt他 第4図 第5図
のスペクトルの例を示した図、第4図(a)〜(C)
fd: i<発明によってパワーディップを検出する方
法を説明する図、第6図は低域パワーディノブと高域/
々ワーj・イノブの各々の大きさに、しって子音と付加
を判別するための判別図、第6図は子音区間を決定する
方法の一例全示した図である。 代理人の氏名 弁理士 中 尾 敏 リJ ほか1名第
1図 V議胎足 第2図 3図 囚波数 肩ljt他 第4図 第5図
Claims (2)
- (1)音声認識におけるセグメンテーションを行うため
に用いる情報として、音声スペクトルの低域パワーと高
域パワーを併用し、前記それぞれの・々ワーの時間的な
動きによって生ずるパワーディップを使用して子音候補
区間を検出し、1)il記イ音候補区間のなかから子音
区間kW(A出することを特徴とする音声セグメンテー
ション法。 - (2)低域パワー、高域パワーそれぞれの時間的な変化
率を求め、前期時間的な変化率の極太値、4ケ小値及び
その間の時間長により子音候補を検出し、前記子音候補
について極太値と極小値間の値をパワーディップの大き
さと見なし、前記低域・2ワー、高域パワーそれぞれの
パワーディップの大きさ全二次元の判別図に適用してイ
音候袖区間から子音区間を検出することを特徴とする特
¥1請求の範囲第1項記載の音声セグメンテーンヨン法
0
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57171631A JPS5958495A (ja) | 1982-09-29 | 1982-09-29 | 音声セグメンテ−シヨン法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57171631A JPS5958495A (ja) | 1982-09-29 | 1982-09-29 | 音声セグメンテ−シヨン法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS5958495A true JPS5958495A (ja) | 1984-04-04 |
JPH0114600B2 JPH0114600B2 (ja) | 1989-03-13 |
Family
ID=15926763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP57171631A Granted JPS5958495A (ja) | 1982-09-29 | 1982-09-29 | 音声セグメンテ−シヨン法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS5958495A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6350900A (ja) * | 1986-08-21 | 1988-03-03 | 沖電気工業株式会社 | 音声認識装置 |
-
1982
- 1982-09-29 JP JP57171631A patent/JPS5958495A/ja active Granted
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6350900A (ja) * | 1986-08-21 | 1988-03-03 | 沖電気工業株式会社 | 音声認識装置 |
JPH0558557B2 (ja) * | 1986-08-21 | 1993-08-26 | Oki Electric Ind Co Ltd |
Also Published As
Publication number | Publication date |
---|---|
JPH0114600B2 (ja) | 1989-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Moro-Velazquez et al. | Analysis of speaker recognition methodologies and the influence of kinetic changes to automatically detect Parkinson's Disease | |
Ali et al. | Innovative method for unsupervised voice activity detection and classification of audio segments | |
JPS59226400A (ja) | 音声認識装置 | |
Samantaray et al. | A novel approach of speech emotion recognition with prosody, quality and derived features using SVM classifier for a class of North-Eastern Languages | |
CN110570876A (zh) | 歌声合成方法、装置、计算机设备和存储介质 | |
Devi et al. | Speaker emotion recognition based on speech features and classification techniques | |
CN111445900A (zh) | 一种语音识别的前端处理方法、装置及终端设备 | |
Mahdavi et al. | Persian accents identification using modeling of speech articulatory features | |
CN113782032B (zh) | 一种声纹识别方法及相关装置 | |
Mohammed et al. | Automatic speech recognition of pathological voice | |
Feraru et al. | Comparative analysis between SROL-Romanian database and Emo-German database | |
Hasija et al. | Recognition of Children Punjabi Speech using Tonal Non-Tonal Classifier | |
JPS5958495A (ja) | 音声セグメンテ−シヨン法 | |
Gao | Audio deepfake detection based on differences in human and machine generated speech | |
Sahoo et al. | Detection of speech-based physical load using transfer learning approach | |
Laleye et al. | Automatic text-independent syllable segmentation using singularity exponents and rényi entropy | |
Cheng et al. | Comparative performance study of several pitch detection algorithms | |
Peretta | A novel word boundary detector based on the teager energy operator for automatic speech recognition | |
Wolf | Acoustic measurements for speaker recognition | |
JPH07210197A (ja) | 話者識別方法 | |
Ye | Efficient Approaches for Voice Change and Voice Conversion Systems | |
JPS63161499A (ja) | 音声認識装置 | |
CN117877482A (zh) | 一种基于人脸唇动语音分离的声纹识别方法及装置 | |
JPS60164800A (ja) | 音声認識装置 | |
JPS6069694A (ja) | 語頭子音のセグメンテ−ション法 |