JPS5958495A - 音声セグメンテ−シヨン法 - Google Patents

音声セグメンテ−シヨン法

Info

Publication number
JPS5958495A
JPS5958495A JP57171631A JP17163182A JPS5958495A JP S5958495 A JPS5958495 A JP S5958495A JP 57171631 A JP57171631 A JP 57171631A JP 17163182 A JP17163182 A JP 17163182A JP S5958495 A JPS5958495 A JP S5958495A
Authority
JP
Japan
Prior art keywords
power
consonant
dip
frequency
interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP57171631A
Other languages
English (en)
Other versions
JPH0114600B2 (ja
Inventor
二矢田 勝行
昌克 星見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP57171631A priority Critical patent/JPS5958495A/ja
Publication of JPS5958495A publication Critical patent/JPS5958495A/ja
Publication of JPH0114600B2 publication Critical patent/JPH0114600B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は音声認識における音声セグメンテーンヨン法に
関するものである。
従来例の構成とその問題点 従来研究あるいは発表されている音声自動認識システム
の動作原理としてはバタンマツチング法が多く採用され
ている。この方法は認識される必要がある全種類の単語
に対して標準パターンをあらかじめΔt1憶しておき、
入力される未知の入カバターンと比較することによって
一致の度合(以下類似度と呼ぶ)を削算し、最大一致が
得られる標準パターンと同一の単語であると判定するも
のである。このバタンマツチング法では認識されるへき
全ての単語に対して標準パターンを月1意しなければな
らないため、発声者か変っ/;−場合にQよ新しく標準
パターン全入力して記憶さぜる必要かある。
従って日本全国の都市名のように数i′−i’ XΦ類
以−にの単語を認識対象とするような場合、全種類の!
1′1語全発声して公録するには膨大な時間と労力を必
要とし、寸だ登録に要するメモリー容計も膨大になるこ
とが予想される。さらに人カバターンと標準パターンの
バタンマツチングに四する肋間も単語数が多くなると長
くなってし」−う欠点かある。
これに対して、入力廿声を名素iI’−(\日(=分け
て音素の組合せとして認識しく以下音素認識と呼ぶ)音
素単位で表記された弔語辞p;との類イ」月J」−を求
める方法は栄8語辞94に要するメモリー呑:11か火
11J(′に少なくて済みバタンマツチング(/(7四
する11.l、間かlJ、’、rくでき、辞宵の内容変
更も容易てあ2)という′(冒、2る二持っている。こ
の方法の1列kl、I’:’V+’・スペクトルの概、
略取とその動特性を利用し/3−中詰:XI:・1.I
?識/スデム」三輪他2日本1イ響学会誌34(197
8)に、12Bべである。
この方法における単語認識/スデノ、のブ「1ツク図を
第1図に示す。まず、あらかしに′)多数話者の音声を
10m5の分析区間毎に?r’ jl(’ 3) Ai
l:% 1によってフィルタバンクを用いて分)lJ丁
シ、得1.れ/こスペクトル情報をもとに特徴抽出7′
11S2によ−って!Iソ徴パラメータを求める。この
特徴パラメータからlal 、lol等の母音や、1m
l、lbl等の子音に代表される音素毎又は音素グルー
プ毎に標準パターンを作成して標準パターン登録部5に
登録して尤・〈0次に、入力された不l(〒定厚1者の
宵月う・を、同様に分析区間4σに音響分析部1によっ
て分析し、!1イ徴抽出部2によって特徴パラメータを
求める。この!L4j徴パラメータと・標準パターン登
録部5の(;1“L9−パターンを・〕[]いてセクメ
ンブー/−37部3に4.・いてfJ音と了=音の区切
り作業(以−ト、セグメンテーションと呼ぶ)を行なう
。この結果不二もとに、’t”;素判別部4において、
(:’:’、 +I7−パターン登蕾、’r”rlI 
5の標準パターンとjl(1合することによって、〕′
l伐も力゛目JJ5.段の高い(票弗パターンに該当す
る音素をぞの区間Vこおける音素と決定する。最後に、
この結果f/1成り。
/C音素の時系列(以下音素系列と叶ふ)で?)1語五
μ識都6に送り、同様に14素系列で表J」Lさ71ま
た弔詔辞居7と最も類似1すの大きい項[1(・・二、
該当I゛るI′11語を・認識結果として出力する○ 以」二の全体の動作かられかるように、セグメンテ=ゾ
タン部3においてセグメンテーションヲ誤っ/ぐ場合に
―、あるべき音素を見過こしてし・1−)たり(音素の
脱落)、実際には8素のないところに別の音素が入り込
んでし−まう(音素のイス]加)ことになる。これ1つ
の誤りを発生した場合、単語を音素系列で表現した時に
音素の脱落−やfてj加によって全く関係のない他の単
語に似かまってし寸うこと(・(よって誤認識してし脣
う危険fi+−が高くなる。
このように、音素認識を基本に111語ん1′シ識をイ
■う方法においてセグメンテーションは最も中波な作業
であり、セグメンテーションの1清+T’二5でよって
屯詔認識/スデムのIIt能は太きく〕1゛イ、される
。ところで従来、セグメンテーションを行なう/と−め
のパラメータとして、冨−声信号の全帯域のスペクトル
のパワー情報の時間的な動きを利用し、第2図に示1″
ようにバ1ノーディップの存在によってセグメンテーシ
ョンを行なっていた。すなわち、Rノ?1都のパワーか
子音部のパワーよりも大きいことを利用して、ディップ
の大きさDか、1シり値θD よりも大きい(D>θD
)部分を子音区間としてい/こ。この方法において、次
の2つの問題点かあ一ノだ。
(1)全帯域の情報ではディップの存在か明らかでない
音素があり、精度か良くない。、(特にlr1+1!7
1.lbl、1ml、lnl&と)(2)ティップの大
きさDはノf右のBJ音のパワーとの差で表現される。
し/こかって母音区間におけるパワーの動きが単純でな
い」−合には、ディップの大きさを直接求めることは難
し7い。
発明の目的 本発明はとわらの問題点を角イ決するもので、単語中の
セグメンテーションを精度良くイ1うことをに1的とす
る○ 発明の構成 [1本語(d’、fJ音と子音が交JTに組合わせし〕
わて中詰や文章が構成されているのが普通であり、揉音
を除く子音と他の子冨−が連続することはない。したが
って、日本語音声を認識する場合、li、子音と子音を
精度よく分離することかでき、I]ば、言、3識率の向
」二に大きく貢献する。本発明はセグメンテーションを
行ったV)に用いる情報として、音声スペクトルの低域
パワーと品域パワーとを併用し1、各々の時間的な動き
によって生ずるバ1ノ〜ディツノ゛を使1利して頂音区
間を精度良く倹1i L、m語中のセグメンテーション
のオ青度の向−七をはかったものである。
実施例 第3図は代表的な音素のスペクトルパターンを表わした
ものである。(a) 幻、54−Uニーt”i 、(b
)!ql、病→′1.イ・f声破裂音のうなりの部分、
(c)は無声了合である。
これらの図から明らかなように、(a)は比11咬的中
域部にパワーが集寸り、(b)は低域711夕に集中(
7、(C)i、高域部に集中(−でいる。こわ2らの他
に流i″11r1やル)!蜀音1〃1のように、スペク
トルが1市?糸のi°1素に大きく影響される音素もあ
る。こ71.19の]′1.j+’i介ら慮すると、I
υ音7祥(a)と(b)のグループのイJノ:・−J′
11を区別するにに1、高域部分のパワーの大きさがイ
J効であり、Jυ前音群a)と(c)の子音グループ4
・1メ別するにU↓低域部分のパワーの大きさがイJ効
で4うろことがわかる。
以」二の知見に基づき本実施例に13・いてcl:セグ
メンデーション用パラメータとして、低域r’iB分の
情報ニついて’d、250H2−600H2のバンドパ
スフィルタの出力を平滑化して求めた低域パワーを使用
し、高域部分の情報について(Iil 500H2−4
000Hzのバンドパスフィルタの出方’l: 5F;
 ’/:’J化し2て求め/辷高域パワーを使用してい
る。本実施例のごとく低域パワーと高域パワーを併用す
ることにより、全域パワーのみを用いたv′を米例に比
較して、Rに1ml 、 lnl 、 Ijl 、 l
rl 、lhl 、17.1に対して大きなパワーディ
ップを得ることができ、検出44度が向上した。
ところでパワーディップの大きさの絶ス・」値をa1算
するためには、ディップの前後の広範囲な・l”i’i
報をイ吏月Jしなくてはならないグこめ、ilL米法で
に11丁にきが複雑となり、検出誤りも多くなる。本実
施例では、発声機構の制約全考慮した、簡便で′4t’
f度の良いディップ検出l/、: %:抹川用た。
音声の発声&−j1、呼気全制御する肺や気管、イJ声
Mを発する声帯置°冒′Klを決定する調音zg官なと
の筋肉の動きの複合によるものである。し/こか−〕で
賛意パワーの動き(r[:発声器官の筋肉の動き(/こ
」、−7て制約を受ける。このため、>Z j”’・パ
ワーの114.凹曲な変化速度は、破裂音などの動きの
速いイ、の、半イJgなど緩やかなものもあるか、一定
のFll’4四内に納且つて(−よう。したがって、ウ
−゛7「ノブの大きさ金、単位時間内のパワーの変化;
11とり、−C置きかえても実用上は問題ない。以−ト
この、L′)−4−考え方に基いたディップ検出法を具
体的に述へる。
第4図はその方?bk説明したものである。パワー情報
はダ・J数変換されたものを用いフレームごとに(1フ
レームは1o m5ec ) il算する。第1フレー
ム(i=1〜1maX  I imaX t’j、i′
?声[区間のP i:j、(フレーム)における対数パ
ワー・[^報をP (i)とする。第4図(a)−1対
数パワー情報P(1)の時間的な動きの例をIJ音、子
音、 IU音という系列で図示し/こものである。この
図には子音区間の大きなディップの他に、パワーの細か
いゆらきによる小さなデ、fツノか小グ1、している。
前に述べ/・二」こうに氷+11かいディップは発声に
必要な筋肉の動き(lこよるものではないので平滑化に
よって除去する。除去され/ζものを第4図(b)に示
す。平滑後のパワー情報P (i)は P(i)=IP(i 1)+2XP(i)」−P(i→
1)l/4とする0次に平滑1茨のパワー情報の差分値
PD を次式Qてよって旧9し、パワー情報の11.5
量的変化を求める(第4図(C))。
PD(i)=P(i+1  )−P(i−1)すなわち
PDは2 Q m賃(ごとの変化量の時間的な動8’1
il−表わしている。PDハパワーディノプの下かりの
変曲線で最小値となり、立−にかりの変曲点で最大値と
なる。前述の理由によって、ディップの太きさはPDの
最大値と最小値の間の大きさPで置きかえる。斗たディ
ップのj”J’ Ii lk’7間←J、Ppの最小値
から最大敏”よでの時間りとする。
パワー・Ii’i報として前Vこ述べ/C低域情報(P
L)と高域情報(PR)の両方を使j[1シ、その各々
に対して第4図て説明し/上方法を適用すると、低域・
l’i’3114によるディップと高域情報C(よるデ
、イノゾをイー11それ求めることができる。こf’L
 ”)のディップのうちL≦LmaXの条件金i’i!
rj足するもののみJ′?)候補とする。一般Vζ子冨
区間は181やu′vi′を除くと100mSCC(L
max=15)以−トであるので、このような条イ′4
を入れている。Is1や税音Q」、他の方/去で検出す
ることができる。
子音候補とし2て求められ/こ名声1ス間K(寸、低域
情報(PL)のみで求められたもの、晶域4゛7〕報(
PH)のみて求められグζものがある。寸だこれらの子
音候補区間には、本当の子音区間と−そつでないもの(
−jZ8の付7J11 )の2種類か混るしている。次
に子音候補区間から子音区間と子音の付)n2分離する
方法を述へる。
低域情報PL および高域情報PHて求められたディッ
プの変化分の太ささをそれぞれPI、ph とする。統
計的に、本当の丁−音区間tat、j’、 7:;のイ
・1加に比−\るとディップが顕著に現わIJIる/こ
め、’9y、pHの両方せたばどちらか一方か大きな飴
と4二るo /(−とえ147−r 2哲1bllJ、
9℃、phともに人さ4°11自。に石、す、lhlは
plのみ人きくなり、捷/3−巨111 &L円、のツ
ノ・入きくなる。一方、子音の千」加によるデ、fツノ
にJlしては、pα、phともに比較的小さh−値とな
る。こJlらの特徴を考慮して、子音とイ;]加’d:
 41’f I及、1.<、しかも効率的に判別するた
めにはpQ −ph’yン: (B旧′(二おける判別
図を使用する。
第6図は判別図の例である。図において斜線r<Isの
内側がfat 7J11、外佃が子音の領域である。/
こたし2耽、phは整数に直して正規化しである。’t
’!I別図はセグメンテー/ヨンをあらかじめ目視によ
って11なっであるデータを多数使用して、子音と17
でjl−しく認識さiする確率と付加の確率の両方を考
慮することによって結果か最適になるように決定し/C
ものである。
次に判別図を使用して子音区間を決定ず2)方法を第6
図に示した例によって説明1゛る。第6図(a)は門の
ディップのみ現われた場合てあり、大きさはpp、 =
 10である。これを第5図の判別図(ハ)二1箇川す
ると、(10,0)←1゛旧加の領域であるか1)、子
74区間とはならない。(b) fl:ipρ−7,p
h−8であり、子音領域に位置する。この場合、Pp、
I)hの両方の区間の論理和の部分を子音区間とする(
i′l素によっては論理和としない場合もある)。、(
C)(rl:pbしか存在しない区間のIZIIであり
、(0,12)は゛r11別図上で子音領域に位置する
。ζ−の場合はPhの区間をその寸tT−音区間とする
。(d) ):l’、 P p、 + pb両方にデ、
イソブが存在するが、判別図上て伺加の領域Vζ位置す
るので、付加として処理する0男女10名それそIIが
発声した2 1211札:1′tを使ITi Lテ、本
実h1u 51J ノPF価’l−?−J l =i 
l〈: c、(二(1) j1′+、 、ii 七ノド
は、目視によってあらかじめf、 7’?、 17間に
ラベル(=Jけしである評価用のセットて・F)7. 
、不実施f列全適用した時の結果とラベルを化ij9 
(、−r、11シ〈セグメンテー/ヨンが行なわわて割
合に、1:つて評価した。その結束(正答率)を・以下
い二示す。
1rl:94.7% 、 1hl :94.8% 、l
zl :98.7%。
1bj:9(a6係、ldl:99.7係、1?J1:
91.3係。
1ml :867% 、lnl :86.7%一方、旬
昔区間に誤寸って子音がイ・]加する確率(イ月)用率
)は6.9係であるO この結果を従来の方法(全帯域スペクトル−を使い、1
炭値でディップを検出する方法)に比較すると、lrl
 、lhl 、l/7 1で数% 、lbl 、ldl
で約1%向」ニしている。寸だ1ml 、lnlは全帯
域パワーでは、ティップの検出かできないのil(二比
し本実施例では検出ii1能である。会]加率t」、、
(・暮、ぼ同じである。
このように水火hfii例に12、従来検出が知しいと
されていた語中の子音(特に(rl,IIJl,lhl
fr.と)のセクノンテ−7ヨンを高い精度で行なうこ
とを可能とするものである。
発明の効果 」ン、−に述へたよう(5(′本発明に」、71ば、〕
ぐラメークとして、低域パワー11’i報と高域パIノ
ー・iiI置′1シの両方を用いることによってセグメ
ンテーションll′i’i度か向上する。
件だパワーディップの11゛j間的動きと1冒::Il
) l’11間イオ11用することによって、ディップ
の育作毛−f7+i 狛に検出することかできる0 さらに低域および尚域両方のバワーブfノブの動きの大
きさを用い、それを判別図に適)11することycよっ
て、肩51埃よく子音=の存在を検出することができる
【図面の簡単な説明】
第1図は従来の音声認識システトのブri 、、り図、
のスペクトルの例を示した図、第4図(a)〜(C) 
fd: i<発明によってパワーディップを検出する方
法を説明する図、第6図は低域パワーディノブと高域/
々ワーj・イノブの各々の大きさに、しって子音と付加
を判別するための判別図、第6図は子音区間を決定する
方法の一例全示した図である。 代理人の氏名 弁理士 中 尾 敏 リJ ほか1名第
1図 V議胎足 第2図 3図 囚波数 肩ljt他 第4図 第5図

Claims (2)

    【特許請求の範囲】
  1. (1)音声認識におけるセグメンテーションを行うため
    に用いる情報として、音声スペクトルの低域パワーと高
    域パワーを併用し、前記それぞれの・々ワーの時間的な
    動きによって生ずるパワーディップを使用して子音候補
    区間を検出し、1)il記イ音候補区間のなかから子音
    区間kW(A出することを特徴とする音声セグメンテー
    ション法。
  2. (2)低域パワー、高域パワーそれぞれの時間的な変化
    率を求め、前期時間的な変化率の極太値、4ケ小値及び
    その間の時間長により子音候補を検出し、前記子音候補
    について極太値と極小値間の値をパワーディップの大き
    さと見なし、前記低域・2ワー、高域パワーそれぞれの
    パワーディップの大きさ全二次元の判別図に適用してイ
    音候袖区間から子音区間を検出することを特徴とする特
    ¥1請求の範囲第1項記載の音声セグメンテーンヨン法
JP57171631A 1982-09-29 1982-09-29 音声セグメンテ−シヨン法 Granted JPS5958495A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57171631A JPS5958495A (ja) 1982-09-29 1982-09-29 音声セグメンテ−シヨン法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57171631A JPS5958495A (ja) 1982-09-29 1982-09-29 音声セグメンテ−シヨン法

Publications (2)

Publication Number Publication Date
JPS5958495A true JPS5958495A (ja) 1984-04-04
JPH0114600B2 JPH0114600B2 (ja) 1989-03-13

Family

ID=15926763

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57171631A Granted JPS5958495A (ja) 1982-09-29 1982-09-29 音声セグメンテ−シヨン法

Country Status (1)

Country Link
JP (1) JPS5958495A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6350900A (ja) * 1986-08-21 1988-03-03 沖電気工業株式会社 音声認識装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6350900A (ja) * 1986-08-21 1988-03-03 沖電気工業株式会社 音声認識装置
JPH0558557B2 (ja) * 1986-08-21 1993-08-26 Oki Electric Ind Co Ltd

Also Published As

Publication number Publication date
JPH0114600B2 (ja) 1989-03-13

Similar Documents

Publication Publication Date Title
Moro-Velazquez et al. Analysis of speaker recognition methodologies and the influence of kinetic changes to automatically detect Parkinson's Disease
Ali et al. Innovative method for unsupervised voice activity detection and classification of audio segments
JPS59226400A (ja) 音声認識装置
Samantaray et al. A novel approach of speech emotion recognition with prosody, quality and derived features using SVM classifier for a class of North-Eastern Languages
CN110570876A (zh) 歌声合成方法、装置、计算机设备和存储介质
Devi et al. Speaker emotion recognition based on speech features and classification techniques
CN111445900A (zh) 一种语音识别的前端处理方法、装置及终端设备
Mahdavi et al. Persian accents identification using modeling of speech articulatory features
CN113782032B (zh) 一种声纹识别方法及相关装置
Mohammed et al. Automatic speech recognition of pathological voice
Feraru et al. Comparative analysis between SROL-Romanian database and Emo-German database
Hasija et al. Recognition of Children Punjabi Speech using Tonal Non-Tonal Classifier
JPS5958495A (ja) 音声セグメンテ−シヨン法
Gao Audio deepfake detection based on differences in human and machine generated speech
Sahoo et al. Detection of speech-based physical load using transfer learning approach
Laleye et al. Automatic text-independent syllable segmentation using singularity exponents and rényi entropy
Cheng et al. Comparative performance study of several pitch detection algorithms
Peretta A novel word boundary detector based on the teager energy operator for automatic speech recognition
Wolf Acoustic measurements for speaker recognition
JPH07210197A (ja) 話者識別方法
Ye Efficient Approaches for Voice Change and Voice Conversion Systems
JPS63161499A (ja) 音声認識装置
CN117877482A (zh) 一种基于人脸唇动语音分离的声纹识别方法及装置
JPS60164800A (ja) 音声認識装置
JPS6069694A (ja) 語頭子音のセグメンテ−ション法