JPS60147794A

JPS60147794A - 単語音声認識方法

Info

Publication number: JPS60147794A
Application number: JP59003586A
Authority: JP
Inventors: 金指　久則; 秋場　国夫; 入間野　孝雄
Original assignee: Computer Basic Technology Research Association Corp
Current assignee: Computer Basic Technology Research Association Corp
Priority date: 1984-01-13
Filing date: 1984-01-13
Publication date: 1985-08-03
Also published as: JPH0431115B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、入力音声と、音素表記された単語辞書を照合
して単語を認識する単語音声認識方法に関するものであ
る。

（従来例の構成とその問題点）第１図は従来の単語音声認識方法の一例及び本発明の単
語音声認識方法の実施例等を実行するための装置の機能
ブロック図°である。従来例を第１図〜第３図とともに
説明する。第１図において、■は入力音声からパラメー
タの時系列を作成するパラメータ抽出部、２は音素標準
ノｅタンを照合して、音素の確率密度を算出する確率密
度計算部、３は音素毎のセグメンテーション、尤度計算
、単語類似度計算等を行なう単語認識部である。また、
４は予め予備実験等によシ作成された、各音素毎の各種
・母うメータにおける分布を各音素毎の平均値（／ｌｔ
、）、及び各種パラメータ間の共分散行列（Σ１〕の形
で表わした音素標準パタンを記討る音素標準ノ４タン部
、５は認識すべき全単語を音素単位の記号列で表記した
単語辞書が記憶されている単語辞書部である。その単語
辞書は、例えば「サラポロ」、「アサヒカワ」は、それ
ぞれｒ　５ＡＱＰＯＲＯＪ、ｒ　ＡＳＡＨＩＫＡＷＡ　
Ｊ等と表記されている。

次に上記従来例の動作について説明する。入力音素をパ
ラメータ抽出部１によｌ）　１　’Ｏｍｓのフレーム毎
に分析しノぐラメータを抽出して、ノ母うメータ時系列
を作成する。確率密度計算部２はフレーム毎に得られた
パラメータと音素標準パタンを照合し、そのノやラメー
タの値から生成される音素の確率密度を算出する。次に
、単語認識部３において、各辞書項目毎に、その辞書項
目を構成する辞書音素系列に従って音素のセグメンテー
ションを行ない、下記０式に従いその音素の種類と、そ
の音素に対応してセグメンテーションされた区間の尤度
ｔを計算し、その辞書項目における、各音素の尤度の平
均として類似度をめる。ここで、その音素をＸとし、Ｘ
に対応してセグメンテーションされた区間の始端と終端
のフレーム番号をＮｓ　ｒ　Ｎ。

とし、第ｎフレームにおける各パラメータの値をＣｎと
すると、音素Ｘの尤度ｔＸは下式で定義される。

φ１（Ｃｎ　）はある音素ｉの確率密度を表わし、■式
のように定義される。

Ｃ：　１つのフレームにおけるｊ個の・やラメータ（ベ
クトル）＃１　：ある音素ｉのパラメータの平均値（ベ
クトル）Σｉ　：共分散行列 ■式において、確率密度の割シ算における分母のサメン
ションｉの範囲は、音素Ｘが何であるかによって異なシ
、例えばＸが音素Ｚの時はｉの範囲は５母音及び１２種
類の子音としている。以上によシ得られる単語類似度Ｌ
Ｍヲ■式に従って各辞書項目毎にめ、ＬＭが最大となる
辞書項目をもって、認識単語としていた。

ＬＭ＝Σｔｉ／ＩＶＪＰ　■ ｉ＝１ＬＭ：辞書中のＭ番目の単語の類似度ｔｉ：辞書音素系列中の音素ｉの尤度ＮＰ：辞書辞書数素数図は／ＺＡＭＡ／　（座間）と発声したときの各音
素／Ｚ／　、　／ｌｖ’　、　／％’　、　／Ａｌの確
率密度の値φ２゜φえ、φユ、φえの時間変化を表わし
ている。この例のように辞書項目に対応する各音素の確
率密度の値が、セグメンテーションされた区間に対応し
、かつセグメンテーションされた区間内で、他の音素と
比べ大きければ問題ないが、セグメンテーションされた
区間内で、対応した音素の確率密度の値よシも他の音素
の確率密度の値が大きくなる場合がある。

第３図は、第２図の場合と同様に／ＺＡＭＡ／と発声し
た時の各音素の確率密度の値の時間変化を表わしている
。語頭のＡＶの区間内で／Ｚ／の確率密度の値よりも／
Ｂ／　、　ＡＶの確率密度の値φ３．φ８の方が大きく
なっている。従って、上記従来例においては、ＡＶの確
率密度の値が小さいため、／Ｚ／の十分な尤度が得られ
ず、結果として単語誤認識の要因となる欠点があった。

（発明の目的）本発明は上記従来例の欠点を除去するものであり、尤度
計算の精度を向上させ、それにょシ単語認識率を向上さ
せることｆ　’ｇ　ｂ’ｉとする。

（発明の構成）本発明は、認識すべき単語を音素単位の記号列で表記し
た単語辞書と、各音素の音響パラメータの分布形で表わ
された各音素の標漁ツクタンを用い、入力音声の単語認
識を行なうにあたり、入力音声を前記単語辞書の各辞書
項目と照合し、各辞書項目を構成する辞書音素系列に従
い各音素毎に入力音声をセグメンテーションし、その音
素の前記標準ツクタンを用いてそのセグメンテーション
された音声の区間に対して尤度計算を行なう単語音声認
識方法において、有声破裂音Ａ／については、セグメン
テーションされた。４９′の区間内において、有声破裂
音、及び無声摩擦音の確率密度の値の時間変化・ｅタン
により尤度をめ、この尤度の値を用いて、辞書項目と入
力音声の類似度をめて単語を認識を行なうことを特徴と
する。

（実施例の説明）以下に本発明の一実施例について第１図及び第３図とと
もに説明する。第１図において、音素標準バタン、及び
単語辞書は従来例と同様である。

またパラメータ抽出により得られる・ぐラメータ時系列
も従来例と同様である。

本実施例の動作について説明する。先ず入力音声からフ
レーム毎の・ぐラメータを得、さらにそのパラメータの
値を使って各音素標準バタンから得られる確率密度を計
算する。ここまでは前記従来例と同様である。次に単語
認識部３において、各辞書項目毎に、その辞書項目を構
成する辞書音素系列に従って音素のセグメンテーシヨン
を行ない、その音素と、その音素に対応してセグメンテ
ーションされた区間の尤度ｔｘを計算するのであるが、
／ｚ／の尤度ｔ２を計算するにあたり、■式の代りにセ
グメンテーションされた区間に出現する、有声破裂音／
Ｖの確率密度の値及び無声摩擦音／Ｓ／の確率密度の値
の時間変化をみて音素Ａ／の尤度を０式に従ってめる。

第３図の／２／のセグメンテーション区間において有声
破裂音／Ｖと無声摩擦音／Ｓ／の確率密度の値の時間変
化に着目すると、（ＦＳ−８１）間でφ８が先ず大きな
値を示し、ｏ−＋ａ−＋ｂ−＋ｃと台形の彫金して変化
するのに対して、φ８は０→ｄ→６−＋　ｃと、φ８に
対して対称な形で台形の形をして変化する。

従って、このような変化を把えての式に従って２４９′
の尤度を計算する。

本実施例においては、／Ｚ／の尤度計算に際しセグメン
テーションされた区間において、有声破裂音／Ｂ／及び
無声摩擦音／Ｓ／の時間変化・ぐタンを利用した尤度計
算を行なうことによシ、高い精度の尤度が得られる利点
がある。

（発明の効果）本発明は上記のよう々構成であり、以下に示す効果が得
られるものである。Ａ／の尤度計算を行なうにあたシ、
セグメンテーションされた区間内において、有声破裂音
及び無声摩擦音の確率密度の時間変化を利用して尤度計
算全行なうことによシ高い精度の尤度を得ることができ
る。

【図面の簡単な説明】

第１図は従来例および本発明の実施例の単語音声認識方
法を実施するために用いる装置の機能の概略金示すブロ
ック図、第２図及び第３図は／ＺＡＭＡ７’と発声した
場合の各音素の確率密度の時間変化を示す図である。１・・・・ぐラメータ抽出部、２・・・確率密度計算部
、３・・・単語認識部、４・・・音素標準・ぐタン部、
５・・・単語辞書部。第１図第２図第３図フレーか

Claims

【特許請求の範囲】

認識すべき単語を音素単位の記号列で表記した単語辞書
と、各音素の音響パラメータの分布形で表わされた各音
素の標準パタンを具備し、入力音声の単語認識を行なう
にあたシ、入力音声を前記単語辞書の各辞書項目と照合
し、各辞書項目を構成する辞書音素系列に従い各音素毎
に入力音声をセグメンテーションし、その音素の前記標
準ノｅタンを用いてそのセグメンテーションされた音声
の区間に対して尤度ｉｉ算を行なう際、有声破裂音／Ｚ
／については、セグメンテーションされた／Ｚ／の区間
内において、有声破裂音、及び無声摩擦音の確率密度の
値の時間変化パタンにより尤度をめ、この尤度の値を用
いて、辞書項目と入力音声の類似度をめて単語を認識す
ることを特徴とする単語音声認識方法。