JPS60202487A

JPS60202487A - 単語音声認識方法

Info

Publication number: JPS60202487A
Application number: JP59058174A
Authority: JP
Inventors: 金指　久則; 入間野　孝雄; 秋場　国夫
Original assignee: Computer Basic Technology Research Association Corp
Current assignee: Computer Basic Technology Research Association Corp
Priority date: 1984-03-28
Filing date: 1984-03-28
Publication date: 1985-10-12
Also published as: JPH045392B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、入力音声と、音素表記された単語辞書を照合
して単語を認識する単語音声認識方法に関するものであ
る。

（従来例の構成とその問題点）第１図は従来の単語音声認識方法の一例及び本発明の単
語音声認識方法の実施例騎実行するだめの装置の機能ブ
ロック図である。従来例を第１図および第２図とともに
説明する。第１図において、１は入力音声から・母うメ
ータの時系列を作成す′る・母うメータ抽出部、２は音
素標準パタンを照合して、音素の確率密度を算出する確
率密度計算部、３は音素毎のセグメンテーション、尤度
計算、単語類似度計算等を行なう単語認識部である。ま
た、４は予め予備実験等により作成された、各音素毎の
各種パラメータにおける分布を各音素毎の平均値（ｊＩ
ｉｌ）、及び各種・ぐラメータ間の共分散行列（Σｉ）
の形で表わした音素標準・やタンを記憶する音素標準・
ぐタン部、５は認識すべき全Ｑｉ語を音素単位の記号列
で表記した単語辞書が記憶されている単語辞書部である
。その単語辞書は、例えば単語「サラポロ」、「クルメ
」等は、それぞれｒ　５ＡＱＰＯＲＯＪ、ｒＫＵＲＵ■
幻等と表記されている。

次に上記従来例の動作について説明する。入力音素をパ
ラメータ抽出部ｌにより１０ｍ５のフレーム毎に分析し
パラメータを抽出して、・ぐラメータ時系列を作成する
１、確率密度計算部２はフレーム毎に得られた・やラメ
ータと音素標準・やタンを照合し、音素の確率密度を算
出する。次に単語認識部３において、上記のＡ’ラメー
タと得られた確率密度値を用いて各辞書項目毎に、その
辞書項目を構成する辞書音素系列に従って１音素毎に音
素のセグメンテーションを行ない、下記０式に従いその
音素の種類と、その音素に対応してセグメンテーション
された区間の尤度ｔを言１算しうその辞書項目における
、各音素の尤度の平均として類似度をめる。ここで、そ
の音素をＸとし、Ｘに対応してセグメンテーションされ
た区間の始端と終端のフレーム番号をＮ　、Ｎ　とし、
第ｎフレームにおける各・ぐラメータの値をＣとすると
、音素Ｘの尤度ｔｘは下式で定義される。

φ、（Ｃ）はある音素ｌの確率密度を表わし、■式のよ
うに定義される。

・・・■ Ｃ：第ｎフレームにおけるＮ個のノｅラメータ（ベクト
ル）カ、：ある音素ｌのｉ９ラメータの平均値（ペクトル） Σ、：共分散行列０式において、確率密度の割り算における分母のサメン
ションｌの範囲は、音素Ｘが何であるかによって異なり
、例えばＸが音素Ａ（力の時はｉの範囲は５母音、Ａ、
Ｅ、Ｔ、Ｏ，Ｕとしている。

以上により得られる単語類似度しＭを０式に従って各辞
書項目毎にめ、ＬＭが最大となる辞書項目をもって、認
識単語としていた。

ＰＬＭ：辞書中のＭ番目の単語の類似度ｔ、：辞書音素系列中の音素ｊの尤度ＮＰ：辞書音素数第２図は／ＫＵＲＩ）ＭＥ／（久留米）と発声した時の
各音素／に／、／Ｕ／、／Ｒ／、／Ｕ／。

／Ｍ／、／Ｅ／、の確率密度φ１．φ１０．φ８．φ、
１゜φオ、φ。の時間変化を表わしている。この場合の
辞書単語／ＫＵＲＵＭＥ／に対する各音素のセグメンテ
ーション及び尤度計算は、辞書の音素系列／に／、／Ｕ
／、／Ｒ／、／Ｕ／、／Ｍ／、／Ｅ／。

（５）の順序に使い、第１番目の音素／に／に対してφえを用
いてセグメンテーションした区間（ａ　−ｂ　）を対応
させ、０式に従いφ、を用いてｔＫを計算し、同様にし
てＬｕ　＋　ＡＲ＋　Ｚｕ　＊　ＺＭ　＋　Ｚｇ　＋を
める。

第３図は同じ単語／ＫＵＲＵＭＥ／を別の話者が発声し
た場合の各音素の確率密度の時間的変化を示している。

第３図において、辞書単語／ＫＵＲＵＭＥ／に対する各
音素のセグメンテーションは、辞書の音素系列／に／、
／Ｕ／、／Ｒ／。

／Ｕ／ｅ／Ｍ／、／Ｅ／の順序に従って行なうが、ンを
行なう場合、／に／の確率密度φえは辞書の音　、第１
番目の音素である／に／のセグメンテーショ素系列中の
第２番目に現われる／Ｕ／の始まり付近まで優勢であり
、辞書の音素系列中の最初に現　□われる／Ｕ／の区間
においてφ。はφえに比べ小さ　：な値となっている。

また／Ｒ／の区間においてφ。もφ、に比べほぼ同程度
の値である。

このため、本来、（ｃ−ｄ）となるべき／に／の区間を
区間（ｃ−ｅ）又は区間（ｃ−ｆ）と誤るため、第２番
目以後の音素のセグメンテーショ（６）ンを誤り尤度も低くなるため、結果として無声子音、無
声化母音又は発声のナマヶ易い母音、有声子音が連続；
また音素系列を含む単語は、誤認識（−易い欠点があっ
た。

（発明の目的）本発明は、」二記従来例の欠点を除去するものであり、
尤度計算の精度を向」−させ、それにより単語認識率を
向」ニさせることを目的とする。

（発明の構成）本発明は、上記目的を達成するために、無声子音及び有
声子音に挾まれた無声化母音又は発声がナマケだ母音の
セグメンテーション及び尤度計算を行なう際、無声化母
音又は、発声がナマヶだ母音を含む、無声子音、母音、
有声子音の連続３音素をまとめてセグメンテーションし
尤度割算を行なうことにより、セグメンテーション及び
尤度計算の精度を向上させる効果を得るものである。

（実施例の説明）以下に本発明の一実施例について械１図及び第３図とと
もに説明する。第１図において、音素標準・やタンは従
来例と同様である。単語辞書は、認識すべき単語を音素
の記号列で表記しであるが従来例と異なるのは、無声化
母音又はナマヶだ発声をし易い母音に対して予め符号を
つけである。またパラメータ抽出によシ得られる・ぐラ
メータ時系列は従来例と同様である。

本実施例の動作について説明する。先ず入力音声からフ
レーム毎のノクラメータを得、さらにそのパラメータの
値を使って、各音素標準・ぐタンから得られる確率密度
を計算する。ここまでは、前記従来例と同様である。次
に各辞書項目毎にその辞書項目を構成する辞書音素系列
に従って音素Ｘのセグメンテーションを行ない、その音
素Ｘとその音素Ｘに対応してセグメンテーションされた
区間の尤度ｔＸを計算するのであるが、辞書音素系列中
に無声子音Ｃ４、有声子音Ｃ２に挾まれた無声化母音又
はナマケた発声をし易い母音Ｖがある場合、■の確率密
度の値は母音の性質を不埒ず、無声子音又は有声子音の
性質を示す。従って、無声子音、無声化母音又は発声の
ナマケだ母音、有声子音（Ｃ４ＶＣ２）の並びにおける
各音素の種類及びその音素並びに対応して、各々の音素
の確率密度の値を利用して、３音素まとめてセグメンテ
ーションを行ない、そのセグメンテーションされた区間
に対して尤度ｔｃ　ｖｃ　を計算する。

２第３図において、／に／の次の／Ｕ／の区間（ｄ−ｅ）
において／Ｕ／の確率密度φ１．の値はほとんどなく、
代わシに／に／の確率密度φ、が第２番目の／Ｕ／の始
まり付近まで優勢となっている。

また／Ｒ／の確率密度φ、は／Ｒ／の区間においてφ、
と同程度の直である。従って区間（ｃ−ｆ）を／に／、
／Ｕ／、／Ｒ／を１つにまとめた音素系列／Ｋ　Ｕ　Ｒ
／のセグメンテーション区間とし、ＡＵＶのセグメンテ
ーション区間内においてφ１．φ□の値を用いて０式に
従い、３音素分の尤度”ＫＵＲを計算する。

０式と対比して、他の普通の音素については従来（９）と同様０式を用いて尤度計算を行なう。

本実施例においては、発声のナマケだ母音を１つの母音
として扱わず、無声子音、発声のナマケだ母音、無声子
音の音素並びをまとめてセグメンテーション及び尤度計
算を行なうため、発声のナマヶだ母音を含む単語の認識
率が向上する利点がある。

（発明の効果）本発明は上記のような構成であり、り下に示す効果が得
られるものである。

無声子音と有声子音に挾まれ、発声のナマヶだ母音のセ
グメンテーション及び尤度計算を行なう際、発声のナマ
ケた母音を含む無声子音、発声のナマケた母音、無声子
音の連続３音素をまとめてセグメンテーションし、尤度
計算を行なうことにより、従来法に比べ精度よくセグメ
ンテーション及び尤度計算を行うことができる利点を有
する。

【図面の簡単な説明】

第１図は従来及び本発明の一実施例における単語音声認
識方法を説明するための図、第２図は（１０）／ＫＵＲＵＭＥ／（久留米）と発声した場合の各音素／
に／、／Ｕ／、／Ｒ／、／Ｕ／、／Ｍ／。／Ｅ／の確率密度φ１１作、φ。、φ□、φ８．φ。の時間変化を示す図、第３図は第２図の場合と別の話者
が／　Ｋ　Ｕ　ＲＩＩ　Ｍ　Ｅ　／と発声した場合のφ
１゜φ０．φ８．φ。、φ７．φ。の時間変化を表わす
図である。 ■・・・パラメータ抽出部、２・・確率密度計算部、３
・・・単語認識部、４・・・音素標準バタン部、５・・
・単語辞書部。（１１）第１図

Claims

【特許請求の範囲】

認識すべき単語を音素単位の記号列で表記した単語辞書
と、各音素の音響・母うメータの分布形で表わされた各
音素の標準パタンを用いて、入力音声の単誤認識を行な
う単語音声認識方法において、入力音声を単語辞書の各
辞書項目と照合し、各辞書項目を構成する辞書音素系列
に従い各音素毎に入力音声をセグメンテーションし、そ
の音素の標準パタンを用いて、そのセグメンテーション
された音声の区間がその音素から生成される確率密度を
計算し、セグメンテーションされた音声の区間に対して
、上記確率密度の値を用いて各辞書項目と入力音声の類
似度をめて単語を認識する際、無声子音と有声子音の間
に挾まれた、無声化母音や発声のナマケだ母音に対して
は、■無声化母、音や発声のナマヶだ母音を含む無声子
音、■無声化母音又は発声のナマケた母音、および■有
声子音の連続３音素をまとめてセグメンテーションし、
尤度計算を行なうことを特許とする単語音声認識方法。