JPS6029799A

JPS6029799A - 音声認識装置

Info

Publication number: JPS6029799A
Application number: JP13801283A
Authority: JP
Inventors: 三船　義照
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1983-07-28
Filing date: 1983-07-28
Publication date: 1985-02-15
Also published as: JPH0534677B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は、日本語最小発声学位であるＣＶ音節もしくは
ｖ１Ｃ■２音節全２音って登録しておき、登録話者が発
声した、単語や文節および文章を認識する音声認識装置
に関する。

従来例の構成とその問題点従来の連続音声認識におけるセグメンテーション方式は
、い≦、つかの代表門なＣＶ音音節及基準パターンして
数種類用意しておき、ワードスボティング（音声区間走
査）によって、ＣＶ音節の位置決めを行なうものや、電
力値系列のテンプレート１用意しておき、子音区間から
母音区間の電力値の立上りに対して、テンブレー１・と
の距離全３４算するものなどがあったが、単語音声や連
続文章中では無音区間の位置が変動を受けやすいＩ■や
、母音区間も無声化しやすい事等から、様々なテンプレ
ートを設定してもセグメンテーション誤りを回避するこ
とは、非常に困難であった。このようなセグメンテーシ
ョン誤りは、最終的にはＣｖ標準パターンもしくはｖ１
Ｃｖ２標準パターンとパターンマノチングを行う際の認
識誤９の原因となった。

またこのようなセグメンテーションを前もって行った上
で標準パターンとマツチングを行なわずに、２段ＤＰ手
法と呼ばれている、個々の登録ＣＶ音節もしくはｖ１Ｃ
ｖ２音節とは時間軸伸縮ケ行った上で、全体として最適
なＣＶ音節もしくはｖ１Ｃｖ２音節系列を決定する、パ
ターンマツチング手法を用いるものも有ったが、莫大な
計算量ケ必要とするために専用ハードウェアを必要とし
たり、実時間処理も田畑となり、他の方法に比べて認識
率が優れているものの、２段ＤＰ手法に固有の挿入、脱
落誤り（例えば２音節データを３音節とマツチングして
誤認識したり、２音節データ全１音節としてマツチング
して非認識する）が発生することがイ１す、対策処理が
困難であるために認識率にも限界があった。

発明の目的本発明は以上の問題点に鑑み、連続発声された単語２文
節や文章における母音定常区間を簡単な構成で、高速か
つレベル変動に対しても高い精度で検出することのでき
る音声認識装置を提供することを目的とする。

発明の構成本発明は、入力音声を特徴ベクトル＋ｘ、＋と電力（Ｐ
ｔｉ’の時系列に変換し、電力ｌＰｔ１’の時系列にお
いて一定の閾値以上のフレームの範囲で極大値を計算し
、その極大値に一定比率（ｏ　ｐ　１（１）乗じた値以
上の連続フレームを検出し、母音定常部候補区間とし、
前記母音定常部候補区間において、特徴ベクトルと母音
標準パターンの間でパターンマツチングを行って母音識
列を行った結果が、一定フレーム以上連続した区間を母
音定常区間１複数種類連続する場合は複数個の区間）と
し、順次同様な手順を繰返すことによって、母音定常区
間を検出することにより、連続発声された単語２文節や
文章における母音定常区間を簡単な構成で、高速にかレ
ベル変動に対しも高い精度て検出することを可能とし、
１ｔｌＪえば、ＣＶ音節やｖ１Ｃｖ２音節を単位として
連続音声の認識を行うような装置におけるセグメンテー
ションの精度の改善、ひいては認識率の改善を図ること
を目的とする。

実施列の説明以下に本発明の実施ＩＰＩ図面を参照して説明する。

第１図は本発明の一実施例における連続音声認識装置を
示すブロック図であり、入力部はＡ／Ｄ変換器１．電力
系変換手段２．特徴系列変換手段３からなる。４は入力
音声の電力系列によって長い無音金検出して音声区間を
検出する音声区間検出手段である。５は音声区間検出手
段４によって切り出される音声区間において電力系列に
よって／Ｊ、Ｔｊい無音を検出して無音区間を検出する
無１を区間検出手段である。６はピーク電力検出手段６
ａとＩＪ７５識別手段６ｂから成り、電力系における閾
値以」二の連続フレームと母音識別結果から母音定常区
間を検出する、本発明の母音定常区間検出手段である０
７は入力音声を特徴ベクトルの形でＣｖ音節標準パター
ン７ａもしくは、ｖ１Ｃｖ２音節標準パターン７ｂの単
位で記憶する標準パターン記憶ｉ都である。８は平均発
声長ＩＬＩフレームだけ、特徴ベクトルの系列を記憶す
る特徴系列記憶部である。９は特徴ベクトル記憶部８に
おける、語頭４ａもしくは無音区間終了６ｂから直後の
母音定常部中心６Ｃまでの区間の場合には、Ｃｖ標準パ
ターン了ａとパターンマツチングを行い、平均発声長Ｉ
ＬＩフレーム以内の母音定常部中心６０〜母音定常部中
心６Ｃの区間の場合には、ｖ、Ｃｖ２標準パターン７ｂ
とパターンマソチングヲ行つパターンマッチング手段で
ある。１０は音声区間検出手段４゜無音区間検出手段６
．母音定常区間検出手段６゜特徴系列記憶部８およびパ
ターンマツチング手段９を全体的に制御して、入力音声
の母音定常部中心部に語頭や無音区間の情報を使用して
、ＣＶ音節とｖ１Ｃｖ２音節とのパターンマツチング結
果を接属して、Ｃｖ音節のストリンゲスとして認識結果
全出力する総合制御手段である。

上記実施例の母音定常区間検出手段の動作原理を以下に
説明する。

第２図、第３図は同手段のブロック図および動作原理図
である。

第２図に示した母音定常区間検出手段６は、ピーク電力
検出手段６ａ１と電力系列記憶部６　ａ　２からなるピ
ーク電力検出手段ｅａ、および母音判定手段ｅｂ１．（
Ｅｔ音標準パターン６ｂ２．母音系列記憶部６ｂ３から
なる母音識別手段６ｂ、母音定常区間の中心位置を決定
する母音定常区間検出手段６ｄて構成される。第３図に
示すように母音定常区間検出手段６は、平均発声長ＩＬ
Ｉフレーム分だけ電力系記憶部６ａ２および母音系列記
憶部６ｂ３に記憶された電力系列と母音識別結果の系列
に対して、母音定常区間の検出を行うものであり、第３
図に示したように入カフ４声Ｖの第１番目の定常区間は
、ビり電力検出手段６ａ１によって一定の閾値θ１以」
二の電力系列を検出し、その範囲内での極大値ＩＰ　ｌ
全検出し、極大値ＩＰｐ１＜１１を乗じたレベ１ル以上の区間（ｌｌ−一菖定常部候補区間とし、その母
音定常部候補区間内の母音判定手段６ｂ１の出力として
の母ＩＳ−系列における同一母音ラベルの中心１図に示
すように／ＡＡ　ｉ　ｉ　ｉ　ｉ　ｉ　Ａ／が候補区間
であるならば、ラベル／Ｖの中心）全母音定常郡中心決
定手段６ｄによって母音定常部中心６ｃｌｉｖ１１とし
て検出する。第２番目以降の母音定常部中心６Ｃは、初
期閾値０２（θ３・・・・・）は、極大値ＩＰｐ１１の
一定比率（Ｃ＜１）を乗じたもの（０２−Ｐｐ１×Ｃ）
として決定して同様な処理を繰返して母音定常部中心ｉ
ｖ２．ｉｖ３・・・・・・全検出する。

次に第１図に示す連続音声認識装置の動作説明を行なう
。第４図は同装置の動作原理全発声時間ｔに従って説明
している。

同図においては、入力音声Ｖが／ヒバリが空に／と発声
されたことを示しており１語頭４ａ〜語尾４ｂは音声区
間検出手段４によって検出される。

母音定常区間検出手段６は、入力音声Ｖに対して先に説
明した−に電力系列の閾値から定まる極大値と母音識別
結果から、母音定常部中心６Ｃ（ｉｖ　ｉｖ　・・・・
・・、ｔｖｅ、１ｖ７１　ｋ検出する。母音系１＋２＋列が２種類連続する場合は、２重母音として各々の中心
を母音定常部中心とする。そして母音定常部中心が検出
される前色に、その１つ前の母音定常部中心との間に無
音区間が存在するか否かを、無音区間検出手段５によっ
て検出して、無音区間開始、終了［１３３１６ａ　、　
ｉ　５ｂ〕［；１３３２６ａ　。

Ｅ２１ｓＥ２５ｂ〕として検出する。母音定常部中心ｌ　ｉ
ｖ　］　１が検出されると、ｌ　ｉｖ　ｒ　ｌから平均
発声長゛（Ｌ）フレーム１手前に、語頭４ａもしくは無
音区間終了５ｂ（’５Ｅ１１’５Ｅ２）が検出されてい
るならば、語頭もしくけ無音区間終了からｆｉｖ・）ま
での区間に対してＣｖ標準パターン７ａとパターンマツ
チング手段９によってマツチングを行い認識結果とする
。

１ｉｖ、ｌから平均発声長ＩＬＩフレームＦ手前に語頭
も無音区間も検出されないならば、平均発声長ＩＬＩフ
レームＦ手前壕でに含まれる、母音定常中心（ｉｖｔ　
、、ｌから処理中の母音定常部中心１　ｉ　ｖ　ｒ　ｌ
まで１　ｖｃｖ　マツチング区間ＶＣＶＴとして、母音
定常γ≦ＩＳ中心の組合せｌ［ｉｖ・ｉｖ・）（ｉｖ−
ｉｖ・）１−１）’　］　］−Ｐ→１１　］・・・・・・ｌ：ｉｖ４．　、ｉｖ４］の区間に対して
特徴系列記ｔ！Ｆｉｌｓ　８　トＶ　Ｃｖ標準パターン
７ｂとの距離を、パターンマツチング手段９によって計
算し、最適なＶＣＶ　音節と音節区間を決定する。図中
、ＣＶＴｌ。

ｃｖＴ２．ｃｖＴ３はｃｖマツチング区間を、ＶＣＶＴ
、。

ＶＣＶＴ２はｖＣｖマツチング区間を、ＮｖＴ４．Ｎｖ
Ｔ２は無音区間をそれぞれ示す。

さらに音声区間検出手段４によって、発声語ヒバリが空
にの語尾４ｂが検出されると、総合制御手段１ｏは、最
終母音定常部中心ｆｉｖ７１がら語尾４ａ方向に母音定
常部中心をバックトレースする。

つまりＩ　１ｖｒ　Ｉではｌ　ｌ　Ｖ６１が最適区間で
認識結果は（ＡＮｉ）、同様にｌ１ｖ６１ではＩ　Ｉ　
Ｖ５１で［ＯＲＡ　：ｌ、ｌ１ｖ６１では無音区間終了
１　’ＳＥ２　＋が最適範囲で認識結果は〔ＳＯ３、（
ｉｖ３１はｌ　ｉ　ｖ２１で［ＡＲｉ）ｌ、１ｉｖ２１
ては１１　ｖｌｌで（ｉＢＡ）、ｌ１ｖ１１では語頭４
ａが最適範囲で（Ｈｉ）が認識されたとすると、総合制
御手段１゜は、認識結果として、［ＨｉＢＡＲｉＪ？　
Ｇｌ’Ｊ　５ＯＲＡＮｉ　Ｊを出力する。

発明の効果本発明は、入力音声を特徴ベクトルＩ　ｘ　ｔ工）と電
力ｔＰ、、＋の時系列に変換し、電力（Ｐｔｉ’の時系
列において一定の閾値以上のフレームの範囲で極大値を
検出し、その極大値に一定比率（０ｐ１〈１）乗じた値
以上の連続フレームを検出し、母音定常部候補区間とし
、この母音定常部候補区間において、特徴ベクトルと母
音標準パターンの間てパターンマツチングを行って母音
識別を行った結果が一定フレーム以上連続した区間を母
音定常区間とし、第２番目以降は、はじめの電力の閾値
を１つ前の定常部の極太値に一定比率（Ｃ〈１）を乗じ
たレベルに設定して同様な処理を繰り返すことによって
、順次母音定常区間を検出することにより、発達発声さ
れた単語２文節や文章における母音定常区間ｋ　ｆｆ１
ｉ単な構成で、高速にかつレベル変動に対しても高い精
度で検出することが可能である。さらにこのことは、母
音区間を明確に指示することで連Ｕし音声認識装置の認
識率の改善を行うことも可能である。

【図面の簡単な説明】

第１図は本発明の一実施例における音声認識装置を示す
ブロック図、第２図は同実施例におｉる母音定常区間検
出手段のブロック図、第３図は第２図に示した検出手段
の動作説明？示す原理図、第４図は第１図に示した装置
の原理図である。１・・・・・・Ａ／Ｄ変換器、２・・・・・電力系列変
換手段、３・・・・・・特徴系列変換手段、４・・・・
・・音声区間検出手段、６・・・・・・無音区間検出手
段、６・・・・・・母音定常区間検出手段、５　ａ、　
６ａ１・・・・・ピーク電力検出手段、６　ａ　２・・
・・・・電力系列記憶部、６ｂ・・・・・母音識別手段
、６ｂ１・・・・・・母音判定手段、６ｂ２・・・・・
・母音標準ノくターン、６ｂ３・・・・・・母音系列記
憶部、６ｄ・・・・・・母音定常区間検出手段、７・・
・・・標準パターン記憶部、７ａ・・・・・・Ｃｖ標準
パターン、７ｂ・・・・・ｖ１Ｃｖ２標準ノシターン、
８・・・・・・特徴ベクトル記憶部、８ｂ・・・・・特
徴系列記憶部、９・・・・・・パターンマツチング手段
、１０・・・・総合制御手段。代理人の氏名　弁理士　中　尾　敏　男　ほか１名−１
１■

Claims

【特許請求の範囲】

入力音声を特徴ベクトルの系列に変換する特徴系列変換
手段と、前記入力音声を電力値の系列に変換するジ〕系
列変換手段とを有し、前記電力値め系列において予め定
められた電力の閾値以上となる連続フレームを検出し、
前記連続フレームの範囲内での極大値を検出１、前記極
太値に一定の比率を乗じた値以上の連続フレーム全母音
定常部候補区間とし、前記母音定常部候補区間において
、特徴ベクトルと母音標準パターンの間でパターンマツ
チングを行って母音識別を行った結果が一定フレーム以
上連続した区間ｋ　Ｅｌ音定常区間とし、次の母音定常
区間は、前記極美値に前記一定比率ケ乗じた値全電力の
闇値として同様の処理を行って順次母音定常区間を検出
すると、ｌ！ｌ：を特徴とする音声認識装置。