JPH045397B2 - - Google Patents

Info

Publication number
JPH045397B2
JPH045397B2 JP59058180A JP5818084A JPH045397B2 JP H045397 B2 JPH045397 B2 JP H045397B2 JP 59058180 A JP59058180 A JP 59058180A JP 5818084 A JP5818084 A JP 5818084A JP H045397 B2 JPH045397 B2 JP H045397B2
Authority
JP
Japan
Prior art keywords
phoneme
interval
segmented
likelihood
standard pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP59058180A
Other languages
English (en)
Other versions
JPS60202499A (ja
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed filed Critical
Priority to JP59058180A priority Critical patent/JPS60202499A/ja
Publication of JPS60202499A publication Critical patent/JPS60202499A/ja
Publication of JPH045397B2 publication Critical patent/JPH045397B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、入力音声と、音素表記された単語辞
書を照合して単語を認識する単語音声認識方法に
関するものである。
(従来例の構成とその問題点) 第1図は従来の単語音声認識方法の一例及び本
発明の単語音声認識方法の実施例を実行するため
の装置の機能ブロツク図である。従来例を第1
図、第2図及び第3図により説明する。第1図に
おいて1は入力音声からパラメータの時系列を作
成するパラメータ抽出部、2は音素標準パタンを
照合して、音素の確率密度を算出する確率密度計
算部、3は音素毎のセグメンテーシヨン、尤度計
算、単語類似度計算を行う単語認識部である。ま
た、4に各音素毎の各種パラメータにおける分布
を各音素毎の平均値(〓i)、及び各種パラメータ
間の共分散行列(Σi)の形で表した音素標準パタ
ンを記憶する音素標準パタン部、5は認識すべき
全単語を音素単位の記号列で表記した単語辞書が
記憶されている単語辞書部である。その単語辞書
は、「アサヒ」、「チカイ」、「チタイ」等は
「ASAHI」、「CIKAI」、「CITAI」等と表記され
ている。
次に、上記従来例の動作について説明する。
パラメータ抽出部において、入力音素を10ms
のフレーム毎に分析し、パラメータを抽出してパ
ラメータ時系列を作成する。確率密度計算部2に
おいて、フレーム毎に得られたパラメータと、音
素標準パターンを照合し、音素の確率密度を算出
する。つぎに、単語認識部3において各辞書項目
毎にその辞書項目を構成する辞書音素系列に従つ
て、1音素毎に音素のセグメンテーシヨンを行
い、下記式に従い、その音素とその音素に対応
してセグメンテーシヨンされた区間の尤度を計算
し、その辞書項目における各音素の尤度の平均と
して類似度を求める。ここでその音素をXとし、
Xに対応してセグメンテーシヨンされた区間の始
端と終端のフレームNo.をNs、Neとし、第nフレ
ームにおける各パラメータの値をCoとすると、
音素の尤度lxを式で定義する。
φiはある音素iの確率密度を表わし、式のよ
うに定義される。
φi=1/(2π)J/2|Σi|J/2exp 〔−1/2(Cn−〓iTΣ-1 i(Co−〓i)〕 …… Co:第nのフレームにおけるJ個のパラメータ (ベクトル) 〓i:ある音素iのパラメータの平均値 (ベクトル) Σi:共分散行列 式において、確率密度の割り算における分母の
サメンシヨンiの範囲は、音素Xが何であるかに
よつて異なり、例えばXが音素A(ア)の時は、iの
範囲は5母音A、E、I、O、Uとしている。以
上により、得られる単語類似度LMを式に従つ
て各辞書項目毎に求め、LMが最大となる辞書項
目をもつて認識単語とする。
LMNPk=1 lk/NP …… LM:辞書中のM番目の単語の類似度 lk:辞書音素系列中のk番目の音素の尤度 NP:辞書音素数 ここで、従来例では辞書音素系列中に子音C1
無声化母音又はナマケた発声をし易い母音V、無
声破裂音、C2の/C1VC2/の3連続音素系列があ
る場合、上記3連続音素系列/C1VC2/の各々の
音素の音素並びに対応して、子音C1、C2の確率
密度及び辞書音素系列中において、C2の次に来
る母音の確率密度を利用して、/C1VC2/の3連
続音素系列をまとめてセグメンテーシヨンし、そ
のセグメンテーシヨンされた区間に対して後述す
る如く、無声化母音又は+2ケた発声をし易い母
音Vの尤度値は出にくいために、子音C1及びC2
の確率密度φC1、φC2から式に従つて尤度lC1VC2
を計算する。
Ms、Meは/C1VC2/の3連続音素系列をまと
めてセグメンテーシヨンした区間の始端と終端の
フレームNo.、残りの記号は式に準ずる。
第2図は/CIKAI/(チカイ)と発声した場
合の各音素/C/、/I/、/K/、/A/、/
I/の確率密度の時間変化を表わしている。第2
図において、/C/の次の音素/I/は無声化し
ているため/I/の区間(b−c)において/
I/の確率密度φIはほとんど0であり、/C/の
確率密度φCが区間(a−c)において優勢であ
る。また/K/の確率密度φKは(C)から次の音
素/A/の始まる(d)まで優勢である。従つて区間
(a−d)を/C/、/I/、/K/を1つにま
とめた3連続音素系列/CIK/のセグメンテーシ
ヨン区間とし、区間(a−d)に対してφC、φK
の値を用いて式に従つて尤度lCIKを求めると
式のようになる。
第3図は/CITAI/と発声した場合の各音
素/C/、/I/、/T/、/A/、/I/の時
間変化を表わしている。この場合、/C/と/
T/に挾まれた/I/は無声化しているため、第
2図の場合と同様に/I/の確率密度φIはほとん
ど0であり、/C/の確率密度φCが区間(e−
g)において優勢である。また/T/の確率密度
φTは(g)から/A/の始まる(h)まで優勢である。
従つて区間(e−h)を/C/、/I/、/T/
を1つにまとめた音素系列/CIT/のセグメンテ
ーシヨン区間とし、区間(e−h)に対してφC
φTの値を用いて式に従つて尤度lCITを式のよ
うに計算するのであるが、 式に従つて、3連続音素系列のセグメンテー
シヨン区間に対して尤度を求める際、第2図及び
第3図を見てわかるように、セグメンテーシヨン
区間(a−d)又は(e−h)に対して、無声破
裂子音の区間(c−d)又は(g−h)の占める
割合は小さく、また破裂直前の無音部分((イ−
ロ)又は(ハーニ))の各音素の確率密度(φC
φK又はφC、φT)の値は小さく波を打つて不安定
であるため、実際に尤度計算に寄与する区間は、
区間(c−d)又は(g−h)よりも短くなる。
一方、セグメンテーシヨン区間(a−d)又は
(e−h)に対して、上記3連続音素系列中の第
1番目の音素である/C/の区間の占める割合は
大きいために式にようにセグメンテーシヨン区
間(a−d)又は(c−d)に対して、3連続音
素系列中の第1番目の子音C1の確率密度φC1及び
無声破裂音C2の確率密度φC2の優勢な部分が占め
る割合を考慮せず尤度計算を行なうと、入力単
語/CITAI/におけるセグメンテーシヨン区間
(e−h)に対して、3連続音素系列/CIT/を
対応させた時得られる尤度lCITと/CIK/を対応
させた時得られる尤度lCIKとの差が非常に小さく
なるため単語/CITAI/と/CIKAI/の識別が
困難になり、上記従来例においては、子音、無声
化母音又はナマケた発声をする母音及び無声破裂
音の3連続音素系列を含む単語は誤認識し易い欠
点があつた。
(発明の目的) 本発明は、上記従来例の欠点を除去するもので
あり、尤度計算の精度を向上させ、それにより単
語認識率を向上させることを目的とする。
(発明の構成) 本発明は、上記目的を達成するために、子音、
無声化母音又は発声のナマケた母音、無声破裂音
の3連続音素系列をまとめてセグメンテーシヨン
し、尤度計算を行なう際、そのセグメンテーシヨ
ンされた区間内で、無声破裂音の破裂直前の無音
部分を検出し、検出した無音部分より前の区間に
対して、上記3連続音素系列中の第1番目の子音
を対応させて、その区間と各音素の標準パタンと
の距離を求め、またその無音部分より後の区間に
対して、無声破裂音を対応させて、その区間と各
音素の標準パタンとの距離を求め上記2つの距離
をもとにそのセグメンテーシヨンされた区間に対
する尤度を計算することにより、尤度計算の精度
を向上させるものである。
(実施例の説明) 以下に本発明の一実施例の構成について図面と
ともに説明する。実施例の基本構成は第1図と同
様である。また第1図において、音素標準パタン
部4、単語辞書部5も従来例と同様である。また
パラメータ抽出部1により得られるパラメータ時
系列も従来例と同様である。
次に本発明の実施例の動作について説明する。
先ず、パラメータ抽出部1において、入力音声か
らフレーム毎のパラメータを得、さらに、そのパ
ラメータの値を使つて確率密度計算部2におい
て、各音素標準パタンから得られる確率密度を計
算する。そして、単語認識部3において、各辞書
項目毎にその辞書項目を構成する辞書音素系列に
従つて音素Xのセグメンテーシヨンを行ない、そ
の音素Xとその音素Xに対応してセグメンテーシ
ヨンされた区間の尤度lCを計算する際に、子音
C1、発声のナマケた母音V及び無声破裂音C2
の/C1VC2/の並びにおいて、各音素の種類及び
その音素並びに対応して、各々の音素の確率密度
の値を利用して、上記3連続音素系列をまとめて
セグメンテーシヨンし、そのセグメンテーシヨン
された区間に対して尤度lC1VC2を計算する。ここ
までは前記従来例と同様である。ここで尤度
lC1VC2を計算する際に、そのセグメンテーシヨン
された区間に対して無声破裂音C2の破裂直前の
無音部分を検出し、セグメンテーシヨンされた区
間において、検出した無音部分より前の区間を、
第1番目の子音C1が対応する区間、無音部分よ
り後ろの区間を、無声破裂音C2が対応する区間
とし、各々の区間に対応して、C1の尤度IC1及び
C2の尤度lC2を求め式に従いそのセグメンテー
シヨンされた区間に対して尤度lC1VC2を求める。
第3図において、/CIT/のセグメンテーシヨ
ン区間(e−h)に対して尤度lCITを求める際、
セグメンテーシヨン区間内において、音声パワー
Pがいき値TPより低い部分を検出し、無声破裂
音の破裂直前の無音部分(ハニ)を求める。次に
第1番目の子音C1が対応する区間を(e−ハ)、
無声破裂音C2が対応する区間を(ニ−h)とし
区間(e−ハ)に対応して求めた尤度lC1及び区
間(ニ−h)に対応して求めた尤度lC2をもとに、
セグメンテーシヨン区間(e−h)の尤度lCIT
求める。
(但し、 Ms、Me:3連続音素系列/C1VC2/のセグメン
テーシヨン区間における始端及び終端フレーム
番号 MQS、MQE:上記セグメンテーシヨン区間におけ
る無音部分の始端及び終端フレーム番号) 上記のような尤度計算法を用いることによ
り、/C/に対応する尤度と/T/又は/K/に
対する尤度の全体の尤度に対する寄与度が対等と
なるから単語/CITAI/の/CIT/のセグメンテ
ーシヨン区間に対し3連続音素/CIT/を対応さ
せた尤度|CITと、/CIK/を対応させた尤度lCIK
との間の点数差は拡がり単語/CITAI/と/
CIKAI/を識別が容易になる。
上記実施例においては、子音、無声化母音又は
発声のナマケた母音及び無音破裂音の3連続音素
系列の尤度を精度良く求めることができる利点が
ある。
(発明の効果) 本発明は、上記のように子音、無声化母音又は
発声のナマケた母音、無声破裂音の3連続音素系
列をまとめてセグメンテーシヨンし、そのセグメ
ンテーシヨンされた区間に対して尤度を求める
際、そのセグメンテーシヨンされた区間内で、無
声破裂音の破裂直前の無音部分を検出し、検出し
た無音部分より前の区間に対して、上記3連続音
素系列中の第1番目の子音を対応させて、その区
間と各音素の標準パタンとの距離を求め、またそ
の無音部分より後ろの区間に対して、無声破裂音
を対応させて、その区間と各音素の標準パタンと
の距離の上記2つの距離をもとに、そのセグメン
テーシヨンされた区間に対する尤度を計算するこ
とにより、従来法に比べ精度良く尤度計算を行な
うことができる利点を有する。
【図面の簡単な説明】
第1図は従来及び本発明の一実施例における単
語音声認識方法を説明するための図、第2図
は、/CIKAI/と発声した場合の各音素/
C/、/I/、/K/、/A/、/I/の確率密
度φC、φI、φK、φA、φI及び音声パワーPの時間
変化を表わす図、第3図は/CITAI/と発声し
た場合の各音素/C/、/I/、/T/、/
A/、/I/の確率密度φC、φI、φT、φA、φI
び音声パワーPの時間変化を表わす図である。 1……パラメータ抽出部、2……確率密度計算
部、3……単語認識部、4……音素標準パタン
部、5……単語辞書部。

Claims (1)

  1. 【特許請求の範囲】 1 入力音声を単語辞書の各辞書項目と照合し、
    各辞書項目を構成する辞書音素系列に従い各音素
    毎に入力音声をセグメンテーシヨンし、セグメン
    テーシヨンされた音声の区間に対して、各音素の
    標準パタンとそのセグメンテーシヨンされた音声
    の区間との距離を用いて各辞書項目と入力音声の
    類似度を求めて単語を認識する単語音声認識方法
    において、子音、無声化母音又は発声のナマケた
    母音及び無声破裂音の3連続音素系列について
    は、上記3連続音素系列をまとめてセグメンテー
    シヨンを行ない、そのセグメンテーシヨンされた
    区間に対して尤度を求める際に、そのセグメンテ
    ーシヨンされた区間内における無声破裂音の破裂
    直前の無音部分を検出し、検出された無音部分よ
    り前の区間に対して、上記3連続音素系列中の第
    1番目の子音を対応させて、その区間と各音素の
    標準パタンとの距離を求め、また、その無音部分
    より後ろの区間に対して、無声破裂音を対応させ
    て、その区間と各音素の標準パタンとの距離を求
    め、上記2つの距離を用いて、3連続音素系列を
    まとめてセグメンテーシヨンされた区間に対する
    尤度を計算することを特徴とする単語音声認識方
    法。 2 各音素の標準パタンとして、各音素の音響パ
    ラメータの分布形で表わされた標準パタンを用
    い、各音素の標準パタンとその音素に対応する音
    声の区間との距離尺度として、セグメンテーシヨ
    ンされた音声の区間がその音素から生成される確
    率密度を用いたことを特徴とする特許請求の範囲
    第1項記載の単語音声認識方法。
JP59058180A 1984-03-28 1984-03-28 単語音声認識方法 Granted JPS60202499A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59058180A JPS60202499A (ja) 1984-03-28 1984-03-28 単語音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59058180A JPS60202499A (ja) 1984-03-28 1984-03-28 単語音声認識方法

Publications (2)

Publication Number Publication Date
JPS60202499A JPS60202499A (ja) 1985-10-12
JPH045397B2 true JPH045397B2 (ja) 1992-01-31

Family

ID=13076805

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59058180A Granted JPS60202499A (ja) 1984-03-28 1984-03-28 単語音声認識方法

Country Status (1)

Country Link
JP (1) JPS60202499A (ja)

Also Published As

Publication number Publication date
JPS60202499A (ja) 1985-10-12

Similar Documents

Publication Publication Date Title
JP2016177045A (ja) 音声認識装置および音声認識プログラム
JP3444108B2 (ja) 音声認識装置
JPH045397B2 (ja)
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
JP6497651B2 (ja) 音声認識装置および音声認識プログラム
JPH045396B2 (ja)
JPH0338699A (ja) 音声認識装置
JPH0431116B2 (ja)
JP3291073B2 (ja) 音声認識方式
JPH045392B2 (ja)
JPH0431115B2 (ja)
JP2760096B2 (ja) 音声認識方式
JPH07113838B2 (ja) 音声認識方法
JPH045395B2 (ja)
JPH045394B2 (ja)
JPH067359B2 (ja) 音声認識装置
JPH045391B2 (ja)
JPH0446398A (ja) 音声認識装置
JPH045393B2 (ja)
JPH0412479B2 (ja)
JPS60182499A (ja) 音声認識装置
JPH0412480B2 (ja)
JPS6180298A (ja) 音声認識装置
JPH0573039B2 (ja)
JPS6155680B2 (ja)