JPH0534677B2

JPH0534677B2 -

Info

Publication number: JPH0534677B2
Application number: JP13801283A
Authority: JP
Inventors: Yoshiteru Mifune
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1983-07-28
Filing date: 1983-07-28
Publication date: 1993-05-24
Also published as: JPS6029799A

Description

【発明の詳細な説明】産業上の利用分野本発明は、日本語最小発声単位であるCV音節
もしくはV₁CV₂音節を前もつて登録しておき、
登録話者が発声した、単語や文節および文章を認
識する音声認識装置に関する。

従来例の構成とその問題点従来の連続音声認識におけるセグメンテーシヨ
ン方式は、いくつかの代表的なCV音節を基準パ
ターンとして数種類用意しておき、ワードスポテ
イング（音声区間走査）によつて、CV音節の位
置決めを行なうものや、電力値系列のテンプレー
トを用意しておき、子音区間から母音区間の電力
値の立上りに対して、テンプレートとの距離を計
算するものなどがあつたが、単語音声や連続文章
中では無音区間の位置が変動を受けやすい事や、
母音区間も無声化しやすい事等から、様々なテン
プレートを設定してもセグメンテーシヨン誤りを
回避することは、非常に困難であつた。このよう
なセグメンテーシヨン誤りは、最終的にはCV標
準パターンもしくはV₁CV₂標準パターンとパタ
ーンマツチングを行う際の認識誤りの原因となつ
た。またこのようなセグメンテーシヨンを前もつ
て行つた上で標準パターンとマツチングを行なわ
ずに、２段DP手法と呼ばれている、個々の登録
CV音節もしくはV₁CV₂音節とは時間軸伸縮を行
つた上で、全体として最適なCV音節もしくはV₁
CV₂音節系列を決定する、パターンマツチング手
法を用いるものも有つたが、莫大な計算量を必要
とするために専用ハードウエアを必要としたり、
実時間処理も困難となり、他の方法に比べて認識
率が優れているものの、２段DP手法に固有の挿
入、脱落誤り（例えば２音節データを３音節とマ
ツチングして誤認識したり、２音節データを１音
節としてマツチングして興認識する）が発生する
ことが有り、対策処理が困難であるために認識率
にも限界があつた。

発明の目的本発明は以上の問題点に鑑み、連続発声された
単語、文節や文章における母音定常区間を簡単な
構成で、高速かつレベル変動に対しても高い精度
で検出することのできる音声認識装置を提供する
ことを目的とする。

発明の構成本発明は、入力音声を特徴ベクトル｛X_ti｝と
電力｛P_ti｝の時系列に変換し、電力｛P_ti｝の時
系列において一定の閾値（θ₁）以上のフレームが
一定区間以上連続する範囲内で最初の極大値
｛P_p1｝を検出し、その極大値に一定比率（θ_p1＜
１）を乗じた値（P_tk×θ_p1＞θ₁）以上の連続フレ
ームを検出し、母音定常部候補区間とし、前記母
音定常部候補区間において、特徴ベクトルと母音
標準パターンの間でパターンマツチングを行つて
母音識列を行つた結果が、一定フレーム以上連続
した区間を母音定常区間とし、次の母音定常区間
は前記一定の閾値（θ₁）を極大値｛P_p1｝にもと
づく新たな一定の閾値（θ₂）に更新した上で次の
極大値｛P_p2｝の検出を行つて母音定常候補区間
の検出を行つた上で母音識別で行うものとし、順
次閾値（θ_j）を更新して母音定常候補区間と母音
識別を繰返すことによつて、母音定常区間を検出
することにより、連続発声された単語、文節や文
章における母音定常区間を簡単な構成で、高速に
かレベル変動に対しも高い精度で検出することを
可能とし、例えば、CV音節やV₁CV₂音節を単位
として連続音声の認識を行うような装置における
セグメンテーシヨンの精度の改善、ひいては認識
率の改善を図ることを目的とする。

実施例の説明以下に本発明の実施例を図面を参照して説明す
る。

第１図は本発明の一実施例における連続音声認
識装置を示すブロツク図であり、入力部はＡ／Ｄ
変換器１、電力系変換手段２、特徴系列変換手段
３からなる。４は入力音声の電力系列によつて長
い無音を検出して音声区間を検出する音声区間検
出手段である。５は音声区間検出手段４によつて
切り出される音声区間において電力系列によつて
短い無音を検出して無音区間を検出する無音区間
検出手段である。６はピーク電力検出手段６ａと
母音識別手段６ｂから成り、電力系における閾値
以上の連続フレームと母音識別結果から母音定常
区間を検出する、本発明の母音定常区間検出手段
である。７は入力音声を特徴ベクトルの形でCV
音節標準パターン７ａもしくは、V₁CV₂音節標
準パターン７ｂの単位で記憶する標準パターン記
憶部である。８は平均発声長｛Ｌ｝フレームだ
け、特徴ベクトルの系列を記憶する特徴系列記憶
部である。９は特徴ベクトル記憶部８における、
語頭４ａもしくは無音区間終了５ｂから直後の母
音定常部中心６ｃまでの区間の場合には、CV標
準パターン７ａとパターンマツチングを行い、平
均発声長｛Ｌ｝フレーム以内の母音定常部中心６
ｃ〜母音定常部中心６ｃの区間の場合には、V₁
CV₂標準パターン７ｂとパターンマツチングを行
うパターンマツチング手段である。１０は音声区
間検出手段４，無音区間検出手段５、母音定常区
間検出手段６，特徴系列記憶部８およびパターン
マツチング手段９を全体的に制御して、入力音声
の母音定常部中心部に語頭や無音区間の情報を使
用して、CV音節とV₁CV₂音節とのパターンマツ
チング結果を接属して、CV音節のストリングス
として認識結果を出力する総合制御手段である。

上記実施例の母音定常区間検出手段の動作原理
を以下に説明する。

第２図，第３図は同手段のブロツク図および動
作原理図である。

第２図に示した母音定常区間検出手段６は、ピ
ーク電力検出手段６a₁と電力系列記憶部６a₂から
なるピーク電力検出手段６ａ、および母音判定手
段６b₁，母音標準パターン６b₂、母音系列記憶部
６b₃からなる母音識別手段６ｂ、母音定常区間の
中心位置を決定する母音定常部中心決定手段６ｄ
で構成される。第３図に示すように母音定常区間
検出手段６は、平均発声長｛Ｌ｝フレーム分だけ
電力系記憶部６a₂および母音系列記憶部６b₃に記
憶された電力系列と母音識別結果の系列に対し
て、母音定常区間の検出を行うものであり、第３
図に示したように入力音声ｖの第１番目の定常区
間は、ピーク電力検出手段６a₁によつて一定の閾
値θ₁以上の電力系列を検出し、その範囲内での極
大値｛P_p1｝を検出し、極大値｛P_p1＜１｝を乗じ
たレベル以上の区間を母音定常部候補区間とし、
その母音定常部候補区間内の母音判定手段６b₁の
出力としての母音系列における同一母音ラベルの
中心｛図に示すように／AAiiiiiA／が候補区間
であるならば、ラベル／ｉ／の中心｝を母音定常
部中心決定手段６ｄによつて母音定常部中心６ｃ
｛iv₁｝として検出する。第２番目以降の母音定常
部中心６ｃは、初期閾値θ₂（θ₃……）は、極大値
｛P_p1｝の一定比率（Ｃ＜１）を乗じたもの｛θ₂＝
P_p1×Ｃ｝として決定して同様な処理を繰返して
母音定常部中心iv₂，iv₃……を検出する。

次に第１図に示す連続音声認識装置の動作説明
を行なう。第４図は同装置の動作原理を発声時間
ｔに従つて説明している。

同図においては、入力音声ｖは／ヒバリが空
に／と発声されたことを示しており、語頭４ａ〜
語尾４ｂは音声区間検出手段４によつて検出され
る。

母音定常区間検出手段６は、入力音声ｖに対し
て先に説明した様に電力系列の閾値から定まる極
大値と母音識別結果から、母音定常部中心６ｃ
｛iv₁，iv₂，……，iv₆，iv₇｝を検出する。母音系
列が２種類連続する場合は、２重母音として各々
の中心を母音定常部中心とする。そして母音定常
部中心が検出される前毎に、その１つ前の母音定
常部中心との間に無音区間が存在するか否かを、
無音区間検出手段５によつて検出して、無音区間
開始，終了〔i_SS1５ａ，i_SE2５ｂ〕〔i_SS2５ａ，i_SE2５
ｂ〕として検出する。母音定常部中心｛iv_j｝が
検出されると、｛iv_j｝から平均発声長｛Ｌ｝フレ
ームＦ手前に、語頭４ａもしくは無音区間終了５
ｂ（i_SE1，i_SE2）が検出されているならば、語頭も
しくは無音区間終了から｛iv_j｝までの区間に対
してCV標準パターン７ａとパターンマツチング
手段９によつてマツチングを行い認識結果とす
る。｛iv_j｝から平均発声長｛Ｌ｝フレームＦ手前
に語頭も無音区間も検出されないならば、平均発
声長｛Ｌ｝フレームＦ手前までに含まれる、母音
定常中心｛iv_j-p｝から処理中の母音定常部中心
｛iv_j｝までをVCVマツチング区間VCVTとして、
母音定常部中心の組合せ｛〔iv_j-p，iv_j〕〔iv_j-p+1，
iv_j〕……〔iv_j-1，iv_j〕｝の区間に対して特徴系列
記憶部８とVCV標準パターン７ｂとの距離を、
パターンマツチング手段９によつて計算し、最適
なVCV音節と音節区間を決定する。図中、
CVT₁，CVT₂，CVT₃はCVマツチング区間を、
VCVT₁，VCVT₂はVCVマツチング区間を、
NVT₁，NVT₂は無音区間をそれぞれ示す。

さらに音声区間検出手段４によつて、発声語ヒ
バリが空にの語尾４ｂが検出されると、総合制御
手段１０は、最終母音定常部中心｛iv₇｝から語
尾４ａ方向に母音定常部中心をバツクトレースす
る。つまり｛iv₇｝では｛iv₆｝が最適区間で認識
結果は〔ANi〕、同様に｛iv₆｝では｛iv₅｝で
〔ORA〕、｛iv₅｝では無音区間終了｛i_SE2｝が最適
範囲で認識結果は〔SO〕、｛iv₃｝は｛iv₂｝で
〔ARi〕、｛iv₂｝では｛iv₁｝で〔iBA〕、｛iv₁｝で
は語頭４ａが最適範囲で〔Hi〕が認識されたと
すると、総合制御手段１０は、認識結果として、
「HiBARi GA SORANi」を出力する。

発明の効果本発明は、入力音声を特徴ベクトル｛x_ti｝と
電力｛P_ti｝の時系列に変換し、電力｛P_ti｝の時
系列において一定の閾値以上のフレームの範囲で
極大値を検出し、その極大値に一定比率（θ_p1＜
１）乗じた値以上の連続フレームを検出し、母音
定常部候補区間とし、この母音定常部候補区間に
おいて、特徴ベクトルと母音標準パターンの間で
パターンマツチングを行つて母音識別を行つた結
果が一定フレーム以上連続した区間を母音定常区
間とし、第２番目以降は、はじめの電力の閾値を
１つ前の定常部の極大値に一定比率（Ｃ＜１）を
乗じたレベルに設定して同様な処理を繰り返すこ
とによつて、順次母音定常区間を検出することに
より、発連発声された単語、文節や文章における
母音定常区間を簡単な構成で、高速にかつレベル
変動に対しても高い精度で検出することが可能で
ある。さらにこのことは、母音区間を明確に指示
することで連続音声認識装置の認識率の改善を行
うことも可能である。

【図面の簡単な説明】

第１図は本発明の一実施例における音声認識装
置を示すブロツク図、第２図は同実施例における
母音定常区間検出手段のブロツク図、第３図は第
２図に示した検出手段の動作説明を示す原理図、
第４図は第１図に示した装置の原理図である。１……Ａ／Ｄ変換器、２……電力系列変換手
段、３……特徴系列変換手段、４……音声区間検
出手段、５……無音区間検出手段、６……母音定
常区間検出手段、６ａ，６a₁……ピーク電力検出
手段、６a₂……電力系列記憶部、６ｂ……母音識
別手段、６b₁……母音判定手段、６b₂……母音標
準パターン、６b₃……母音系列記憶部、６ｄ……
母音定常部中心決定手段、７……標準パターン記
憶部、７ａ……CV標準パターン、７ｂ……V₁
CV₂標準パターン、８……特徴ベクトル記憶部、
８ｂ……特徴系列記憶部、９……パターンマツチ
ング手段、１０……総合制御手段。

Claims

【特許請求の範囲】

１入力音声を特徴ベクトルの系列に変換する特
徴系列変換手段と、前記入力音声を電力値の系列
に変換する電力系列変換手段と、前記電力値の系
列において予め定めた電力値の閾値（θ_j）以上の
連続フレームを検出し、前記連続フレームの範囲
内で最初の極大値（P_pj）を検出し、前記極大値
に一定の比率（θ_pj＜１）を乗じた値（P_pj×θ_pj＞
θ_j）を計算し、前記計算値以上の極大値を含む連
続フレームを母音定常部候補区間とする母音定常
部候補区間検出手段と、前記母音定常部候補区間
において母音の標準パターンと特徴ベクトルのパ
ターンマツチングを行つて母音識別を行う母音識
別手段とよりなり、入力音声の先頭から前記母音
定常部候補区間検出手段によつて検出された前記
候補区間について前記母音識別手段の認識結果が
同一であるフレームが一定フレーム以上連続する
場合に母音定常区間とし、次の母音定常区間の検
出には前記電力の閾値（θ_j）を前記極大値（P_pj）
をもとにした新たな閾値（θ_j+1）に更新して前記
母音定常部候補区間検出手段及び前記母音識別手
段を使用するものとし、順次前記母音定常区間を
検出していくことを特徴とする音声認識装置。