JPS60147794A - 単語音声認識方法 - Google Patents

単語音声認識方法

Info

Publication number
JPS60147794A
JPS60147794A JP59003586A JP358684A JPS60147794A JP S60147794 A JPS60147794 A JP S60147794A JP 59003586 A JP59003586 A JP 59003586A JP 358684 A JP358684 A JP 358684A JP S60147794 A JPS60147794 A JP S60147794A
Authority
JP
Japan
Prior art keywords
phoneme
dictionary
word
likelihood
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP59003586A
Other languages
English (en)
Other versions
JPH0431115B2 (ja
Inventor
金指 久則
秋場 国夫
入間野 孝雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Basic Technology Research Association Corp
Original Assignee
Computer Basic Technology Research Association Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Basic Technology Research Association Corp filed Critical Computer Basic Technology Research Association Corp
Priority to JP59003586A priority Critical patent/JPS60147794A/ja
Publication of JPS60147794A publication Critical patent/JPS60147794A/ja
Publication of JPH0431115B2 publication Critical patent/JPH0431115B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、入力音声と、音素表記された単語辞書を照合
して単語を認識する単語音声認識方法に関するものであ
る。
(従来例の構成とその問題点) 第1図は従来の単語音声認識方法の一例及び本発明の単
語音声認識方法の実施例等を実行するための装置の機能
ブロック図°である。従来例を第1図〜第3図とともに
説明する。第1図において、■は入力音声からパラメー
タの時系列を作成するパラメータ抽出部、2は音素標準
ノeタンを照合して、音素の確率密度を算出する確率密
度計算部、3は音素毎のセグメンテーション、尤度計算
、単語類似度計算等を行なう単語認識部である。また、
4は予め予備実験等によシ作成された、各音素毎の各種
・母うメータにおける分布を各音素毎の平均値(/lt
、)、及び各種パラメータ間の共分散行列(Σ1〕の形
で表わした音素標準パタンを記討る音素標準ノ4タン部
、5は認識すべき全単語を音素単位の記号列で表記した
単語辞書が記憶されている単語辞書部である。その単語
辞書は、例えば「サラポロ」、「アサヒカワ」は、それ
ぞれr 5AQPOROJ、r ASAHIKAWA 
J等と表記されている。
次に上記従来例の動作について説明する。入力音素をパ
ラメータ抽出部1によl) 1 ’Omsのフレーム毎
に分析しノぐラメータを抽出して、ノ母うメータ時系列
を作成する。確率密度計算部2はフレーム毎に得られた
パラメータと音素標準パタンを照合し、そのノやラメー
タの値から生成される音素の確率密度を算出する。次に
、単語認識部3において、各辞書項目毎に、その辞書項
目を構成する辞書音素系列に従って音素のセグメンテー
ションを行ない、下記0式に従いその音素の種類と、そ
の音素に対応してセグメンテーションされた区間の尤度
tを計算し、その辞書項目における、各音素の尤度の平
均として類似度をめる。ここで、その音素をXとし、X
に対応してセグメンテーションされた区間の始端と終端
のフレーム番号をNs r N。
とし、第nフレームにおける各パラメータの値をCnと
すると、音素Xの尤度tXは下式で定義される。
φ1(Cn )はある音素iの確率密度を表わし、■式
のように定義される。
C: 1つのフレームにおけるj個の・やラメータ(ベ
クトル)#1 :ある音素iのパラメータの平均値(ベ
クトル)Σi :共分散行列 ■式において、確率密度の割シ算における分母のサメン
ションiの範囲は、音素Xが何であるかによって異なシ
、例えばXが音素Zの時はiの範囲は5母音及び12種
類の子音としている。以上によシ得られる単語類似度L
Mヲ■式に従って各辞書項目毎にめ、LMが最大となる
辞書項目をもって、認識単語としていた。
LM=Σti/IVJP ■ i=1 LM:辞書中のM番目の単語の類似度 ti:辞書音素系列中の音素iの尤度 NP:辞書辞書数 素数図は/ZAMA/ (座間)と発声したときの各音
素/Z/ 、 /lv’ 、 /%’ 、 /Alの確
率密度の値φ2゜φえ、φユ、φえの時間変化を表わし
ている。この例のように辞書項目に対応する各音素の確
率密度の値が、セグメンテーションされた区間に対応し
、かつセグメンテーションされた区間内で、他の音素と
比べ大きければ問題ないが、セグメンテーションされた
区間内で、対応した音素の確率密度の値よシも他の音素
の確率密度の値が大きくなる場合がある。
第3図は、第2図の場合と同様に/ZAMA/と発声し
た時の各音素の確率密度の値の時間変化を表わしている
。語頭のAVの区間内で/Z/の確率密度の値よりも/
B/ 、 AVの確率密度の値φ3.φ8の方が大きく
なっている。従って、上記従来例においては、AVの確
率密度の値が小さいため、/Z/の十分な尤度が得られ
ず、結果として単語誤認識の要因となる欠点があった。
(発明の目的) 本発明は上記従来例の欠点を除去するものであり、尤度
計算の精度を向上させ、それにょシ単語認識率を向上さ
せることf ’g b’iとする。
(発明の構成) 本発明は、認識すべき単語を音素単位の記号列で表記し
た単語辞書と、各音素の音響パラメータの分布形で表わ
された各音素の標漁ツクタンを用い、入力音声の単語認
識を行なうにあたり、入力音声を前記単語辞書の各辞書
項目と照合し、各辞書項目を構成する辞書音素系列に従
い各音素毎に入力音声をセグメンテーションし、その音
素の前記標準ツクタンを用いてそのセグメンテーション
された音声の区間に対して尤度計算を行なう単語音声認
識方法において、有声破裂音A/については、セグメン
テーションされた。49′の区間内において、有声破裂
音、及び無声摩擦音の確率密度の値の時間変化・eタン
により尤度をめ、この尤度の値を用いて、辞書項目と入
力音声の類似度をめて単語を認識を行なうことを特徴と
する。
(実施例の説明) 以下に本発明の一実施例について第1図及び第3図とと
もに説明する。第1図において、音素標準バタン、及び
単語辞書は従来例と同様である。
またパラメータ抽出により得られる・ぐラメータ時系列
も従来例と同様である。
本実施例の動作について説明する。先ず入力音声からフ
レーム毎の・ぐラメータを得、さらにそのパラメータの
値を使って各音素標準バタンから得られる確率密度を計
算する。ここまでは前記従来例と同様である。次に単語
認識部3において、各辞書項目毎に、その辞書項目を構
成する辞書音素系列に従って音素のセグメンテーシヨン
を行ない、その音素と、その音素に対応してセグメンテ
ーションされた区間の尤度txを計算するのであるが、
/z/の尤度t2を計算するにあたり、■式の代りにセ
グメンテーションされた区間に出現する、有声破裂音/
Vの確率密度の値及び無声摩擦音/S/の確率密度の値
の時間変化をみて音素A/の尤度を0式に従ってめる。
第3図の/2/のセグメンテーション区間において有声
破裂音/Vと無声摩擦音/S/の確率密度の値の時間変
化に着目すると、(FS−81)間でφ8が先ず大きな
値を示し、o−+a−+b−+cと台形の彫金して変化
するのに対して、φ8は0→d→6−+ cと、φ8に
対して対称な形で台形の形をして変化する。
従って、このような変化を把えての式に従って249′
の尤度を計算する。
本実施例においては、/Z/の尤度計算に際しセグメン
テーションされた区間において、有声破裂音/B/及び
無声摩擦音/S/の時間変化・ぐタンを利用した尤度計
算を行なうことによシ、高い精度の尤度が得られる利点
がある。
(発明の効果) 本発明は上記のよう々構成であり、以下に示す効果が得
られるものである。A/の尤度計算を行なうにあたシ、
セグメンテーションされた区間内において、有声破裂音
及び無声摩擦音の確率密度の時間変化を利用して尤度計
算全行なうことによシ高い精度の尤度を得ることができ
る。
【図面の簡単な説明】
第1図は従来例および本発明の実施例の単語音声認識方
法を実施するために用いる装置の機能の概略金示すブロ
ック図、第2図及び第3図は/ZAMA7’と発声した
場合の各音素の確率密度の時間変化を示す図である。 1・・・・ぐラメータ抽出部、2・・・確率密度計算部
、3・・・単語認識部、4・・・音素標準・ぐタン部、
5・・・単語辞書部。 第1図 第2図 第3図 フレーか

Claims (1)

    【特許請求の範囲】
  1. 認識すべき単語を音素単位の記号列で表記した単語辞書
    と、各音素の音響パラメータの分布形で表わされた各音
    素の標準パタンを具備し、入力音声の単語認識を行なう
    にあたシ、入力音声を前記単語辞書の各辞書項目と照合
    し、各辞書項目を構成する辞書音素系列に従い各音素毎
    に入力音声をセグメンテーションし、その音素の前記標
    準ノeタンを用いてそのセグメンテーションされた音声
    の区間に対して尤度ii算を行なう際、有声破裂音/Z
    /については、セグメンテーションされた/Z/の区間
    内において、有声破裂音、及び無声摩擦音の確率密度の
    値の時間変化パタンにより尤度をめ、この尤度の値を用
    いて、辞書項目と入力音声の類似度をめて単語を認識す
    ることを特徴とする単語音声認識方法。
JP59003586A 1984-01-13 1984-01-13 単語音声認識方法 Granted JPS60147794A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59003586A JPS60147794A (ja) 1984-01-13 1984-01-13 単語音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59003586A JPS60147794A (ja) 1984-01-13 1984-01-13 単語音声認識方法

Publications (2)

Publication Number Publication Date
JPS60147794A true JPS60147794A (ja) 1985-08-03
JPH0431115B2 JPH0431115B2 (ja) 1992-05-25

Family

ID=11561556

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59003586A Granted JPS60147794A (ja) 1984-01-13 1984-01-13 単語音声認識方法

Country Status (1)

Country Link
JP (1) JPS60147794A (ja)

Also Published As

Publication number Publication date
JPH0431115B2 (ja) 1992-05-25

Similar Documents

Publication Publication Date Title
US6912499B1 (en) Method and apparatus for training a multilingual speech model set
Wang et al. Tree-based unit selection for English speech synthesis
Lin et al. Learning acoustic frame labeling for phoneme segmentation with regularized attention mechanism
JPS60147794A (ja) 単語音声認識方法
JP3128251B2 (ja) 音声認識装置
JP3291073B2 (ja) 音声認識方式
JPS60182499A (ja) 音声認識装置
JPS60149096A (ja) 単語音声認識方法
JP2979912B2 (ja) 音声認識装置
JPH0619497A (ja) 音声認識方法
JPS60150098A (ja) 音声認識装置
JPH05303391A (ja) 音声認識装置
Loizou Robust speaker-independent recognition of a confusable vocabulary
Nakagawa et al. A Recognition System of Connected Spoken Words Based on Word Boundary Detection.
JPS6180298A (ja) 音声認識装置
Nakagawa et al. A word recognition method from a classified phoneme string in the LITHAN speech understanding system
JPS61137198A (ja) 音声認識装置
JPS60202497A (ja) 単語音声認識方法
JPS60202495A (ja) 単語音声認識方法
JPS63236095A (ja) 音声認識方法
JPS60202487A (ja) 単語音声認識方法
JPH0573039B2 (ja)
JPS62206597A (ja) 音声認識用単語予備選択方式
Nakagawa et al. A real time phonetically based spoken word recognition system and recognizer for unspecified speakers
Watanabe Speaker-independent connected Japanese digit recognition based on phonetic approach

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term