JPS60202497A - 単語音声認識方法 - Google Patents

単語音声認識方法

Info

Publication number
JPS60202497A
JPS60202497A JP59058178A JP5817884A JPS60202497A JP S60202497 A JPS60202497 A JP S60202497A JP 59058178 A JP59058178 A JP 59058178A JP 5817884 A JP5817884 A JP 5817884A JP S60202497 A JPS60202497 A JP S60202497A
Authority
JP
Japan
Prior art keywords
phoneme
likelihood
phonemes
consonant
segmented
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP59058178A
Other languages
English (en)
Other versions
JPH045396B2 (ja
Inventor
久保 今日子
金指 久則
入間野 孝雄
秋場 国夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Basic Technology Research Association Corp
Original Assignee
Computer Basic Technology Research Association Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Basic Technology Research Association Corp filed Critical Computer Basic Technology Research Association Corp
Priority to JP59058178A priority Critical patent/JPS60202497A/ja
Publication of JPS60202497A publication Critical patent/JPS60202497A/ja
Publication of JPH045396B2 publication Critical patent/JPH045396B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、入力音声と、音素表記された単語辞書を照合
して単語を認識する単語音声認識方法に関するものであ
る。
(従来例の構成とその問題点) 第1図は従来の単語音声認識方法の一例及び本発明の単
語音声認識方法の実施例を実行するための装置の機能ブ
ロック図である。従来例を第1図、第2図及び第3図に
より説明する。第1図においてlは入力音声から・やラ
メータの時系列を作成する・ぐラメータ抽出部、2は音
素標準バタンを照合して、音素の確率密度を算出する確
率密度計算部、3は音素毎のセグメンテーション、尤度
計算、単語類似度計算を行う単語認識部である。また、
4は各音素毎の各種・やラメータにおける分布を各音素
毎の平均値(#、 )、及び各種・母うメータ間の共分
散行列(Σ1)の形で表した音素標準・ぐタンを記憶す
る音素標準バタン部、5は認識すべき全単語を音素単位
の記号列で表記した単語辞書が記憶されている単語辞書
部である。その単語辞書は、「アー!?−ヒJ、rスジ
」はr ASAT(I J 、 r 5UZI J等と
表記されている。
次に、上記従来例の動作について説明する。
i9ラメータ抽出部1において、入力音素を10m5フ
レーム毎に分析し、ノヤラメータを抽出してA’ラメー
タ時系列を作成する。確率密度計算部2で、フレーム毎
に得られた・母うメータと、音素標準バタンを照合し、
その・母うメータの値から、生成される音素の確率密度
を算出する。次に単語認識部3において、上記パラメー
タと得られた確率密度を用いて、各辞書項目毎にその辞
書項目を構成する辞書音素系列に従って、1音素毎に音
素のセグメンテーションを行ない、下記0式に従いその
音素と、その音素に対応してセグメンテーションされた
区間の尤度tを計算し、その辞書項目における各音素の
尤度の平均として類似度をめる。ここでその音素をXと
し、Xに対応してセグメンテーションされた区間の始端
と終端のフレーム番号をNs 、 Neとし、第nフレ
ームにおける各i9ラメータの値をCnとすると、音素
Xの尤度txは下式で定義される。
φ、はおる音素iの確率密度を表わし、■式のように定
義される。
Cn:第nフレームにおける5個の)やラメータ(ベク
トル)μ、:ある音素jのノeラメータの平均値(ベク
トル)Σ、:共分散行列 ■式において、確率密度の割り算における分母のサメン
ションlの範囲は、音素Xが何であるかによって異カリ
、例えばXが音素A(7)の時は、jの範囲は5母音A
、E、I、O,Uとしている。以上により、得られる単
語類似度LMを0式に従って各辞書項目毎にめ、LMが
最大となる辞書項目をもって認識単語とするのであるが P LM:辞書中のM番目の単語の類似度 lk:辞書音素系列中のに番目の音素の尤度NP:辞書
音素数 辞書音素系列中に子音C1,C2に挾まれ、無声化母音
又はナマケだ発声をし易い母音Vがある場合、子音C1
、無声化母音又は発声のナマケた母音V、子音C2の/
C1vC2/の並びにおける各音素の種類(5) 及びその音素並びに対応して、各々の音素の確率密度の
値を利用して、3音素まとめてセグメンテーションを行
ない、そのセグメンテーションされた区間に対して尤度
tCIVC2を計算する。第2図は/ 5UZI / 
(スジ)と発声した場合の各音素/S/。
/U/、/Z/、/1/の確率密度の時間変化を表わし
ている。第2図において、/U/の区間(b−c)にお
いて/U/の確率密度φ11はほとんどなく、代わりに
/U/の前半では/S/の確率密度φ8及び後半では/
Z/の確率密度φ2が優勢である。
またφ2は/I10始まり(d)まで優勢で、(d)か
らはφ1が優勢となる。従って区間(a−d)を/S/
/U/、/Z/を1つにまとめた音素系列/ SUZ 
/のセグメンテーション区間とし、/SUZ/のセグメ
ンテーション区間(a−d)においてφ8.φ2の値を
用いて0式に従い、尤度tsuzを計算する。
第3図は/ZUSI/ (ズシ)と発声した場合の各(
6) 音素/Z/、/U/、/S/、/I/の時間変化を表わ
している。この場合、/U/の区間(f−g)において
/U/の確率密度φ□はほとんどなく、代わりに/U/
の前半では/Z/の確率密度φ2、後半では/S/の確
率密度φ8が優勢である。またφ8は/I/の始1す(
h)まで優勢で(h)からはφ1が優勢となる。従って
、区間(e−h)を、/Z/、/TJ/。
/S/を1つにまとめてそれを音素系列/ZUS/のセ
グメンテーション区間とし、/ZUS/のセグメンテー
ション区間(e−h)においてφ2.φ8の値を用いて
■式に従って尤度tzusを計算するわけであるが、■
式においては、連続3音素中の第1番目の音素C1の確
率密度と第3番目の音素C2の確率密度の出現する順番
については考慮していない。従って第2図、第3図にお
いて3音素分の区間(a−d)及び(e−h)では、■
式の条件を満たす場合、つまり、/SUZ/と/ ZU
S /の例において3音素分の区間でのφ2とφ8のフ
レーム和がほとんど同じ場合、/SUZ/の尤度tSU
Z及び/zUs/ノ尤度tzusは点数差がつかないこ
ととなる。従って、結果として/SUZ/や/ZUS 
/のように子音、無声化母音又は発声のナマケた母音及
び子音の3連続音素系列において、2つの子音が入れか
わった音素系列を含む2つの単語の識別が困難となる欠
点があった。
(発明の目的) 本発明は、上記従来例の欠点を除去するものであり、尤
度計算の精度を向上させ、それにより単語認識率を向上
させることを目的とする。
(発明の構成) 本発明は、上記目的を達成するために、子音、無声化母
音又は発声のナマケた母音、子音の連続3音素をまとめ
てセグメンテーションし、尤度計算を行なう際、セグメ
ンテーションされた区間内において、第1番目の子音の
特徴を示す部分と、第2番目の子音の特徴を示す部分の
境界を1つ以上検出し、セグメンテーションされた区間
内で、その各々の境界について、第1番目の子音の特徴
を示す部分及び第2番目の子音の特徴を示す部分から得
られる尤度をもとに、上記連続3音素をまとめた尤度を
、各々の境界について計算し、その中での最大尤度をそ
の区間の尤度とすることにより、尤度計算の精度を向上
させるものである。
(実施例の説明) 以下に本発明の一実施例について図面とともに説明する
。第1図において、音素標準パタンは従来例と同様であ
る。単語辞書は、認識すべき単語を音素の記号列で表記
しであるが、無声化したりナマケた発声をしやすい母音
に対して予め符号をつけである。またパラメータ抽出に
より得られるパラメータ時系列は従来例と同様である。
次に上記実施例の動作について説明する。先ずA’ラメ
ータ抽出部lにおいて入力音声からフレーム毎のパラメ
ータを得、さらに、゛確率密度計算部2で、その・ぐラ
メータの値を使って各音素標準・ぐタンから得られる確
率密度を計算する。単語認識部13において各辞書項目
毎にその辞書項目を構(9) 成する辞書音素系列に従って音素Xのセグメンテーショ
ンを行ない、その音素Xとその音素Xに対応してセグメ
ンテーションされた区間の尤度tXを計算する際に、子
音C1、発声のナマケた母音V及び子音C2の/C1V
C2/の並びにおける各音素の種類、及びその音素並び
に対応して、各々の音素の確率密度の値を利用して、3
音素まとめてセグメンテーションを行ない、そのセグメ
ンテーションされた区間に対して尤度t。vc を計算
する。こ2 こまでは前記従来例と同様である。ここで、尤度’c 
vc を計算する際に、第1番目の音素C1の確率2 密度が優勢な部分の尤度t。轄)(αはclの部分とC
2の部分の境界)と、第2番目の子音C2の確率密度が
優勢な部分の尤度t。@を算出し、00式に従いtCV
Cをめる。第2図において、/SUZ/2 のセグメンテーション区間(a−d)で、尤度tsuz
をめる際、/S/の確率密度φ8及び/Z/の確率密度
φ2を用いて、第1番目の子音/S/の部分と第2番目
の子音/Z/の部分の境界を1つ以上見つける(α−4
1ロ、ハ)。
(10) φ8を用いて得られる第1番目の子音の部分の尤度t8
(ロ)と、φ2を用いて得られる第2番目の子音の部分
の尤度t2(ロ)をめ、ts(ロ)と12@をもとに、
0式により、尤度tsuz(ロ)をめる。
但し、Nα:境界αのフレーム番号 Ns 、 Ne : 3連続音素系列/C1vC2/の
セグメンテーション区間における始端、終端九←ム番号
φ0.φ。=3連続音素系列/C1VC2/における2 音素C1及び音素C2の確率密度 Zc vc =Max (’ ZCVC(”l +α=
1〜k)+ 2 + 2 (kは境界の数)−■to(
ロ)とt。@の和を尤度tcvc (nとすると、1 
2 1 2 第2図においてαは(イ)、 (ロ) 、(ハ)である
から、■式%式% () () これにより、tsuz(イ)、tsuz(ロ)、LSU
Z(ハ)が各々計算されるわけであるが0式に従いα−
イ1口、・・とじてこのtsuz(イ)、’5UZ(ロ
)、tSUZ(ハ)のうちで最も数値の高いものを、3
連続音素/SUZ/の尤度’suzとする。上記のよう
な尤度計算法を用いることによシ2つの単語/ 5UZ
I /と/ZUSI/を容易に識別できる。
上記実施例においては、子音、無声化母音又は発声のナ
マヶだ母音及び子音の3連続音素系列の尤度を精度良く
めることができるため、上記3連続音素系列中の2つの
子音が入れ変わった音素系列を含む2つの単語について
も認別が容易にできるという不り点がある。
(発明の効果〕 本発明は、子音、無声化母音又は発声のナマヶた母音、
子音の連続3音素まとめてセグメンテーションし、尤度
計算を行なう際、第1番目の子音の特徴を示す部分と、
第2番目の子音の特徴を示す部分の境界を1つ以上見つ
け、その各々について尤度を計算し、最大尤度をその区
間の尤度とすることによフ、従来法に比べ精度良く尤度
計算を行なうことができる利点を有する。
【図面の簡単な説明】
第1図は従来及び本発明の一実施例における単語音声認
識方法を説明するための図、第2図は/BUZZ/と発
声した場合の各音素/S/、/U/。 /Z/、/I/の確率密度φ8.φ0.φ2.φ1の時
間変化を表わす図、第3図は/ZUSI /と発声した
場合の各音素/Z/、/U/、/S/、/I/の確率密
度φ2゜φ。、φ8.φ1の時間変化を表わす図である
。 1・・・・ぐラメータ抽出部、2・・・確率密度計算部
、3・・・単語認識部、4・・・音素標準バタン部、5
・・・単語辞書部。 (13) 第1図 入力を声 わを襞甑

Claims (2)

    【特許請求の範囲】
  1. (1) 入力音声を単語辞書の各辞書項目と照合し、各
    辞書項目を構成する辞書音素系列に従い各音素毎に入力
    音声をセグメンテーションし、セグメンテーションされ
    た音素の区間に対して、その音素の標準・七タンとその
    音素との距離を用いて各辞書項目と入力音声の類似度を
    めて単語を認識する単語音声認識方法において、子音、
    無声化母音又は発声のナマケた母音及び子音の連続3音
    素については、上記連続3音素をまとめてセグメンテー
    ションを行い、セグメンテーションされた区間内で上記
    3音素の第1番目の子音の特徴を示す部分と第2番目の
    子音の特徴を示す部分の境界を1個以上検出し、セグメ
    ンテーションされた区間内で、その各々の境界について
    、第1番目の子音の特徴を示す部分及び第2番目の子音
    の特徴を示す部分から得られる尤度をもとに、上記連続
    3音素をまとめた尤度を各々の境界毎に計算し、その中
    での最大尤度をその区間の尤度とすることを特徴とする
    単語音声認識方法。
  2. (2)各音素の標準・ぐタンとして、各音素の音響パラ
    メータの分布形で表された標準7Noタンを用い、音素
    の標準・やタンとその音素との距離尺度とし7て、セグ
    メンテーションされた音声の区間がその音素から生成さ
    れる確率密度を用いたことを特徴とする特許請求の範囲
    第(1)項記載の単語音声認識方法。
JP59058178A 1984-03-28 1984-03-28 単語音声認識方法 Granted JPS60202497A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59058178A JPS60202497A (ja) 1984-03-28 1984-03-28 単語音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59058178A JPS60202497A (ja) 1984-03-28 1984-03-28 単語音声認識方法

Publications (2)

Publication Number Publication Date
JPS60202497A true JPS60202497A (ja) 1985-10-12
JPH045396B2 JPH045396B2 (ja) 1992-01-31

Family

ID=13076742

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59058178A Granted JPS60202497A (ja) 1984-03-28 1984-03-28 単語音声認識方法

Country Status (1)

Country Link
JP (1) JPS60202497A (ja)

Also Published As

Publication number Publication date
JPH045396B2 (ja) 1992-01-31

Similar Documents

Publication Publication Date Title
JPS60202497A (ja) 単語音声認識方法
JP4604424B2 (ja) 音声認識装置及び方法、並びにプログラム
JP3128251B2 (ja) 音声認識装置
JPS60149096A (ja) 単語音声認識方法
JPS6147999A (ja) 音声認識装置
JPS60147794A (ja) 単語音声認識方法
JPH049320B2 (ja)
JPH0247756B2 (ja)
JPS6148897A (ja) 音声認識装置
Wang et al. Pitch-Aware RNN-T for Mandarin Chinese Mispronunciation Detection and Diagnosis
JPS5872996A (ja) 単語音声認識方法
JPS61137198A (ja) 音声認識装置
JPH0333280B2 (ja)
JPS60164800A (ja) 音声認識装置
JPS60182499A (ja) 音声認識装置
JPS60202487A (ja) 単語音声認識方法
JPS60149095A (ja) 単語音声認識方法
JPH0585918B2 (ja)
JPS5849996A (ja) 平均音素パターン作成装置
JPS63236095A (ja) 音声認識方法
JPH0668679B2 (ja) パタンマッチング装置
JPS6180298A (ja) 音声認識装置
JPH0719159B2 (ja) 音声認識装置
JPH0566596B2 (ja)
JPS60149099A (ja) 音声認識方法