JPS5958495A

JPS5958495A - 音声セグメンテ−シヨン法

Info

Publication number: JPS5958495A
Application number: JP57171631A
Authority: JP
Inventors: 二矢田　勝行; 昌克星見
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1982-09-29
Filing date: 1982-09-29
Publication date: 1984-04-04
Also published as: JPH0114600B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は音声認識における音声セグメンテーンヨン法に
関するものである。

従来例の構成とその問題点従来研究あるいは発表されている音声自動認識システム
の動作原理としてはバタンマツチング法が多く採用され
ている。この方法は認識される必要がある全種類の単語
に対して標準パターンをあらかじめΔｔ１憶しておき、
入力される未知の入カバターンと比較することによって
一致の度合（以下類似度と呼ぶ）を削算し、最大一致が
得られる標準パターンと同一の単語であると判定するも
のである。このバタンマツチング法では認識されるへき
全ての単語に対して標準パターンを月１意しなければな
らないため、発声者か変っ／；−場合にＱよ新しく標準
パターン全入力して記憶さぜる必要かある。

従って日本全国の都市名のように数ｉ′−ｉ’　ＸΦ類
以−にの単語を認識対象とするような場合、全種類の！
１′１語全発声して公録するには膨大な時間と労力を必
要とし、寸だ登録に要するメモリー容計も膨大になるこ
とが予想される。さらに人カバターンと標準パターンの
バタンマツチングに四する肋間も単語数が多くなると長
くなってし」−う欠点かある。

これに対して、入力廿声を名素ｉＩ’−（＼日（＝分け
て音素の組合せとして認識しく以下音素認識と呼ぶ）音
素単位で表記された弔語辞ｐ；との類イ」月Ｊ」−を求
める方法は栄８語辞９４に要するメモリー呑：１１か火
１１Ｊ（′に少なくて済みバタンマツチング（／（７四
する１１．ｌ、間かｌＪ、’、ｒくでき、辞宵の内容変
更も容易てあ２）という′（冒、２る二持っている。こ
の方法の１列ｋｌ、Ｉ’：’Ｖ＋’・スペクトルの概、
略取とその動特性を利用し／３−中詰：ＸＩ：・１．Ｉ
？識／スデム」三輪他２日本１イ響学会誌３４（１９７
８）に、１２Ｂべである。

この方法における単語認識／スデノ、のブ「１ツク図を
第１図に示す。まず、あらかしに′）多数話者の音声を
１０ｍ５の分析区間毎に？ｒ’　ｊｌ（’　３）　Ａｉ
ｌ：％　１によってフィルタバンクを用いて分）ｌＪ丁
シ、得１．れ／こスペクトル情報をもとに特徴抽出７′
１１Ｓ２によ−って！Ｉソ徴パラメータを求める。この
特徴パラメータからｌａｌ　、ｌｏｌ等の母音や、１ｍ
ｌ、ｌｂｌ等の子音に代表される音素毎又は音素グルー
プ毎に標準パターンを作成して標準パターン登録部５に
登録して尤・〈０次に、入力された不ｌ（〒定厚１者の
宵月う・を、同様に分析区間４σに音響分析部１によっ
て分析し、！１イ徴抽出部２によって特徴パラメータを
求める。この！Ｌ４ｊ徴パラメータと・標準パターン登
録部５の（；１“Ｌ９−パターンを・〕［］いてセクメ
ンブー／−３７部３に４．・いてｆＪ音と了＝音の区切
り作業（以−ト、セグメンテーションと呼ぶ）を行なう
。この結果不二もとに、’ｔ”；素判別部４において、
（：’：’、　＋Ｉ７−パターン登蕾、’ｒ”ｒｌＩ　
５の標準パターンとｊｌ（１合することによって、〕′
ｌ伐も力゛目ＪＪ５．段の高い（票弗パターンに該当す
る音素をぞの区間Ｖこおける音素と決定する。最後に、
この結果ｆ／１成り。

／Ｃ音素の時系列（以下音素系列と叶ふ）で？）１語五
μ識都６に送り、同様に１４素系列で表Ｊ」Ｌさ７１ま
た弔詔辞居７と最も類似１すの大きい項［１（・・二、
該当Ｉ゛るＩ′１１語を・認識結果として出力する○ 以」二の全体の動作かられかるように、セグメンテ＝ゾ
タン部３においてセグメンテーションヲ誤っ／ぐ場合に
―、あるべき音素を見過こしてし・１−）たり（音素の
脱落）、実際には８素のないところに別の音素が入り込
んでし−まう（音素のイス］加）ことになる。これ１つ
の誤りを発生した場合、単語を音素系列で表現した時に
音素の脱落−やｆてｊ加によって全く関係のない他の単
語に似かまってし寸うこと（・（よって誤認識してし脣
う危険ｆｉ＋−が高くなる。

このように、音素認識を基本に１１１語ん１′シ識をイ
■う方法においてセグメンテーションは最も中波な作業
であり、セグメンテーションの１清＋Ｔ’二５でよって
屯詔認識／スデムのＩＩｔ能は太きく〕１゛イ、される
。ところで従来、セグメンテーションを行なう／と−め
のパラメータとして、冨−声信号の全帯域のスペクトル
のパワー情報の時間的な動きを利用し、第２図に示１″
ようにバ１ノーディップの存在によってセグメンテーシ
ョンを行なっていた。すなわち、Ｒノ？１都のパワーか
子音部のパワーよりも大きいことを利用して、ディップ
の大きさＤか、１シり値θＤ　よりも大きい（Ｄ＞θＤ
）部分を子音区間としてい／こ。この方法において、次
の２つの問題点かあ一ノだ。

（１）全帯域の情報ではディップの存在か明らかでない
音素があり、精度か良くない。、（特にｌｒ１＋１！７
１．ｌｂｌ、１ｍｌ、ｌｎｌ＆と）（２）ティップの大
きさＤはノｆ右のＢＪ音のパワーとの差で表現される。

し／こかって母音区間におけるパワーの動きが単純でな
い」−合には、ディップの大きさを直接求めることは難
し７い。

発明の目的本発明はとわらの問題点を角イ決するもので、単語中の
セグメンテーションを精度良くイ１うことをに１的とす
る○ 発明の構成［１本語（ｄ’、ｆＪ音と子音が交ＪＴに組合わせし〕
わて中詰や文章が構成されているのが普通であり、揉音
を除く子音と他の子冨−が連続することはない。したが
って、日本語音声を認識する場合、ｌｉ、子音と子音を
精度よく分離することかでき、Ｉ］ば、言、３識率の向
」二に大きく貢献する。本発明はセグメンテーションを
行ったＶ）に用いる情報として、音声スペクトルの低域
パワーと品域パワーとを併用し１、各々の時間的な動き
によって生ずるバ１ノ〜ディツノ゛を使１利して頂音区
間を精度良く倹１ｉ　Ｌ、ｍ語中のセグメンテーション
のオ青度の向−七をはかったものである。

実施例第３図は代表的な音素のスペクトルパターンを表わした
ものである。（ａ）　幻、５４−Ｕニーｔ”ｉ　、（ｂ
）！ｑｌ、病→′１．イ・ｆ声破裂音のうなりの部分、
（ｃ）は無声了合である。

これらの図から明らかなように、（ａ）は比１１咬的中
域部にパワーが集寸り、（ｂ）は低域７１１夕に集中（
７、（Ｃ）ｉ、高域部に集中（−でいる。こわ２らの他
に流ｉ″１１ｒ１やル）！蜀音１〃１のように、スペク
トルが１市？糸のｉ°１素に大きく影響される音素もあ
る。こ７１．１９の］′１．ｊ＋’ｉ介ら慮すると、Ｉ
υ音７祥（ａ）と（ｂ）のグループのイＪノ：・−Ｊ′
１１を区別するにに１、高域部分のパワーの大きさがイ
Ｊ効であり、Ｊυ前音群ａ）と（ｃ）の子音グループ４
・１メ別するにＵ↓低域部分のパワーの大きさがイＪ効
で４うろことがわかる。

以」二の知見に基づき本実施例に１３・いてｃｌ：セグ
メンデーション用パラメータとして、低域ｒ’ｉＢ分の
情報ニついて’ｄ、２５０Ｈ２−６００Ｈ２のバンドパ
スフィルタの出力を平滑化して求めた低域パワーを使用
し、高域部分の情報について（Ｉｉｌ　５００Ｈ２−４
０００Ｈｚのバンドパスフィルタの出方’ｌ：　５Ｆ；
　’／：’Ｊ化し２て求め／辷高域パワーを使用してい
る。本実施例のごとく低域パワーと高域パワーを併用す
ることにより、全域パワーのみを用いたｖ′を米例に比
較して、Ｒに１ｍｌ　、　ｌｎｌ　、　Ｉｊｌ　、　ｌ
ｒｌ　、ｌｈｌ　、１７．１に対して大きなパワーディ
ップを得ることができ、検出４４度が向上した。

ところでパワーディップの大きさの絶ス・」値をａ１算
するためには、ディップの前後の広範囲な・ｌ”ｉ’ｉ
報をイ吏月Ｊしなくてはならないグこめ、ｉｌＬ米法で
に１１丁にきが複雑となり、検出誤りも多くなる。本実
施例では、発声機構の制約全考慮した、簡便で′４ｔ’
ｆ度の良いディップ検出ｌ／、：　％：抹川用た。

音声の発声＆−ｊ１、呼気全制御する肺や気管、イＪ声
Ｍを発する声帯置°冒′Ｋｌを決定する調音ｚｇ官なと
の筋肉の動きの複合によるものである。し／こか−〕で
賛意パワーの動き（ｒ［：発声器官の筋肉の動き（／こ
」、−７て制約を受ける。このため、＞Ｚ　ｊ”’・パ
ワーの１１４．凹曲な変化速度は、破裂音などの動きの
速いイ、の、半イＪｇなど緩やかなものもあるか、一定
のＦｌｌ’４四内に納且つて（−よう。したがって、ウ
−゛７「ノブの大きさ金、単位時間内のパワーの変化；
１１とり、−Ｃ置きかえても実用上は問題ない。以−ト
この、Ｌ′）−４−考え方に基いたディップ検出法を具
体的に述へる。

第４図はその方？ｂｋ説明したものである。パワー情報
はダ・Ｊ数変換されたものを用いフレームごとに（１フ
レームは１ｏ　ｍ５ｅｃ　）　ｉｌ算する。第１フレー
ム（ｉ＝１〜１ｍａＸ　　Ｉ　ｉｍａＸ　ｔ’ｊ、ｉ′
？声［区間のＰ　ｉ：ｊ、（フレーム）における対数パ
ワー・［＾報をＰ　（ｉ）とする。第４図（ａ）−１対
数パワー情報Ｐ（１）の時間的な動きの例をＩＪ音、子
音、　ＩＵ音という系列で図示し／こものである。この
図には子音区間の大きなディップの他に、パワーの細か
いゆらきによる小さなデ、ｆツノか小グ１、している。

前に述べ／・二」こうに氷＋１１かいディップは発声に
必要な筋肉の動き（ｌこよるものではないので平滑化に
よって除去する。除去され／ζものを第４図（ｂ）に示
す。平滑後のパワー情報Ｐ　（ｉ）はＰ（ｉ）＝ＩＰ（ｉ　１）＋２ＸＰ（ｉ）」−Ｐ（ｉ→
１）ｌ／４とする０次に平滑１茨のパワー情報の差分値
ＰＤ　を次式Ｑてよって旧９し、パワー情報の１１．５
量的変化を求める（第４図（Ｃ））。

ＰＤ（ｉ）＝Ｐ（ｉ＋１　　）−Ｐ（ｉ−１）すなわち
ＰＤは２　Ｑ　ｍ賃（ごとの変化量の時間的な動８’１
ｉｌ−表わしている。ＰＤハパワーディノプの下かりの
変曲線で最小値となり、立−にかりの変曲点で最大値と
なる。前述の理由によって、ディップの太きさはＰＤの
最大値と最小値の間の大きさＰで置きかえる。斗たディ
ップのｊ”Ｊ’　Ｉｉ　ｌｋ’７間←Ｊ、Ｐｐの最小値
から最大敏”よでの時間りとする。

パワー・Ｉｉ’ｉ報として前Ｖこ述べ／Ｃ低域情報（Ｐ
Ｌ）と高域情報（ＰＲ）の両方を使ｊ［１シ、その各々
に対して第４図て説明し／上方法を適用すると、低域・
ｌ’ｉ’３１１４によるディップと高域情報Ｃ（よるデ
、イノゾをイー１１それ求めることができる。こｆ’Ｌ
　”）のディップのうちＬ≦ＬｍａＸの条件金ｉ’ｉ！
ｒｊ足するもののみＪ′？）候補とする。一般Ｖζ子冨
区間は１８１やｕ′ｖｉ′を除くと１００ｍＳＣＣ（Ｌ
ｍａｘ＝１５）以−トであるので、このような条イ′４
を入れている。Ｉｓ１や税音Ｑ」、他の方／去で検出す
ることができる。

子音候補とし２て求められ／こ名声１ス間Ｋ（寸、低域
情報（ＰＬ）のみで求められたもの、晶域４゛７〕報（
ＰＨ）のみて求められグζものがある。寸だこれらの子
音候補区間には、本当の子音区間と−そつでないもの（
−ｊＺ８の付７Ｊ１１　）の２種類か混るしている。次
に子音候補区間から子音区間と子音の付）ｎ２分離する
方法を述へる。

低域情報ＰＬ　および高域情報ＰＨて求められたディッ
プの変化分の太ささをそれぞれＰＩ、ｐｈ　とする。統
計的に、本当の丁−音区間ｔａｔ、ｊ’、　７：；のイ
・１加に比−＼るとディップが顕著に現わＩＪＩる／こ
め、’９ｙ、ｐＨの両方せたばどちらか一方か大きな飴
と４二るｏ　／（−とえ１４７−ｒ　２哲１ｂｌｌＪ、
９℃、ｐｈともに人さ４°１１自。に石、す、ｌｈｌは
ｐｌのみ人きくなり、捷／３−巨１１１　＆Ｌ円、のツ
ノ・入きくなる。一方、子音の千」加によるデ、ｆツノ
にＪｌしては、ｐα、ｐｈともに比較的小さｈ−値とな
る。こＪｌらの特徴を考慮して、子音とイ；］加’ｄ：
　４１’ｆ　Ｉ及、１．＜、しかも効率的に判別するた
めにはｐＱ　−ｐｈ’ｙン：　（Ｂ旧′（二おける判別
図を使用する。

第６図は判別図の例である。図において斜線ｒ＜Ｉｓの
内側がｆａｔ　７Ｊ１１、外佃が子音の領域である。／
こたし２耽、ｐｈは整数に直して正規化しである。’ｔ
’！Ｉ別図はセグメンテー／ヨンをあらかじめ目視によ
って１１なっであるデータを多数使用して、子音と１７
でｊｌ−しく認識さｉする確率と付加の確率の両方を考
慮することによって結果か最適になるように決定し／Ｃ
ものである。

次に判別図を使用して子音区間を決定ず２）方法を第６
図に示した例によって説明１゛る。第６図（ａ）は門の
ディップのみ現われた場合てあり、大きさはｐｐ、　＝
　１０である。これを第５図の判別図（ハ）二１箇川す
ると、（１０，０）←１゛旧加の領域であるか１）、子
７４区間とはならない。（ｂ）　ｆｌ：ｉｐρ−７，ｐ
ｈ−８であり、子音領域に位置する。この場合、Ｐｐ、
Ｉ）ｈの両方の区間の論理和の部分を子音区間とする（
ｉ′ｌ素によっては論理和としない場合もある）。、（
Ｃ）（ｒｌ：ｐｂしか存在しない区間のＩＺＩＩであり
、（０，１２）は゛ｒ１１別図上で子音領域に位置する
。ζ−の場合はＰｈの区間をその寸ｔＴ−音区間とする
。（ｄ）　）：ｌ’、　Ｐ　ｐ、　＋　ｐｂ両方にデ、
イソブが存在するが、判別図上て伺加の領域Ｖζ位置す
るので、付加として処理する０男女１０名それそＩＩが
発声した２　１２１１札：１′ｔを使ＩＴｉ　Ｌテ、本
実ｈ１ｕ　５１Ｊ　ノＰＦ価’ｌ−？−Ｊ　ｌ　＝ｉ　
ｌ〈：　ｃ、（二（１）　ｊ１′＋、　、ｉｉ　七ノド
は、目視によってあらかじめｆ、　７’？、　１７間に
ラベル（＝Ｊけしである評価用のセットて・Ｆ）７．　
、不実施ｆ列全適用した時の結果とラベルを化ｉｊ９　
（、−ｒ、１１シ〈セグメンテー／ヨンが行なわわて割
合に、１：つて評価した。その結束（正答率）を・以下
い二示す。

１ｒｌ：９４．７％　、　１ｈｌ　：９４．８％　、ｌ
ｚｌ　：９８．７％。

１ｂｊ：９（ａ６係、ｌｄｌ：９９．７係、１？Ｊ１：
９１．３係。

１ｍｌ　：８６７％　、ｌｎｌ　：８６．７％一方、旬
昔区間に誤寸って子音がイ・］加する確率（イ月）用率
）は６．９係であるＯこの結果を従来の方法（全帯域スペクトル−を使い、１
炭値でディップを検出する方法）に比較すると、ｌｒｌ
　、ｌｈｌ　、ｌ／７　１で数％　、ｌｂｌ　、ｌｄｌ
で約１％向」ニしている。寸だ１ｍｌ　、ｌｎｌは全帯
域パワーでは、ティップの検出かできないのｉｌ（二比
し本実施例では検出ｉｉ１能である。会］加率ｔ」、、
（・暮、ぼ同じである。

このように水火ｈｆｉｉ例に１２、従来検出が知しいと
されていた語中の子音（特に（ｒｌ，ＩＩＪｌ，ｌｈｌ
ｆｒ．と）のセクノンテ−７ヨンを高い精度で行なうこ
とを可能とするものである。

発明の効果」ン、−に述へたよう（５（′本発明に」、７１ば、〕
ぐラメークとして、低域パワー１１’ｉ報と高域パＩノ
ー・ｉｉＩ置′１シの両方を用いることによってセグメ
ンテーションｌｌ′ｉ’ｉ度か向上する。

件だパワーディップの１１゛ｊ間的動きと１冒：：Ｉｌ
）　ｌ’１１間イオ１１用することによって、ディップ
の育作毛−ｆ７＋ｉ　狛に検出することかできる０さらに低域および尚域両方のバワーブｆノブの動きの大
きさを用い、それを判別図に適）１１することｙｃよっ
て、肩５１埃よく子音＝の存在を検出することができる
。

【図面の簡単な説明】

第１図は従来の音声認識システトのブｒｉ　、、り図、
のスペクトルの例を示した図、第４図（ａ）〜（Ｃ）　
ｆｄ：　ｉ＜発明によってパワーディップを検出する方
法を説明する図、第６図は低域パワーディノブと高域／
々ワーｊ・イノブの各々の大きさに、しって子音と付加
を判別するための判別図、第６図は子音区間を決定する
方法の一例全示した図である。代理人の氏名　弁理士　中　尾　敏　リＪ　ほか１名第
１図Ｖ議胎足第２図３図囚波数肩ｌｊｔ他第４図第５図

Claims

【特許請求の範囲】

（１）音声認識におけるセグメンテーションを行うため
に用いる情報として、音声スペクトルの低域パワーと高
域パワーを併用し、前記それぞれの・々ワーの時間的な
動きによって生ずるパワーディップを使用して子音候補
区間を検出し、１）ｉｌ記イ音候補区間のなかから子音
区間ｋＷ（Ａ出することを特徴とする音声セグメンテー
ション法。
（２）低域パワー、高域パワーそれぞれの時間的な変化
率を求め、前期時間的な変化率の極太値、４ケ小値及び
その間の時間長により子音候補を検出し、前記子音候補
について極太値と極小値間の値をパワーディップの大き
さと見なし、前記低域・２ワー、高域パワーそれぞれの
パワーディップの大きさ全二次元の判別図に適用してイ
音候袖区間から子音区間を検出することを特徴とする特
￥１請求の範囲第１項記載の音声セグメンテーンヨン法
０