JPS5872996A - 単語音声認識方法 - Google Patents
単語音声認識方法Info
- Publication number
- JPS5872996A JPS5872996A JP56171366A JP17136681A JPS5872996A JP S5872996 A JPS5872996 A JP S5872996A JP 56171366 A JP56171366 A JP 56171366A JP 17136681 A JP17136681 A JP 17136681A JP S5872996 A JPS5872996 A JP S5872996A
- Authority
- JP
- Japan
- Prior art keywords
- word
- phoneme
- dictionary
- recognized
- recognition method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
本発明は、入力音声に対して先ず音素認識を行ない、こ
の認識音素系列を音素表記された単語辞書と照合して単
語を認識する単語音声認識方法に関し、認識処理に要す
る時間が短くても認識率が向上する単語音声認識方法を
提供するものである。
の認識音素系列を音素表記された単語辞書と照合して単
語を認識する単語音声認識方法に関し、認識処理に要す
る時間が短くても認識率が向上する単語音声認識方法を
提供するものである。
マス、コンフユーノヨンマト’) クス(Confus
ionMatrix +以下C,M、と略す)を用いる
単語音声認識方法について第1図とともに説明する。
ionMatrix +以下C,M、と略す)を用いる
単語音声認識方法について第1図とともに説明する。
第1図に示すように、入力単語音声に対して先ず分析を
行ないこの入力単語音声の特徴を抽出して入力単語音声
を構成する音素を認識すみ・。この認識された音素系列
を、単語辞書中の各単語と照合し、C0M、を用いて認
識音素と単語辞書中の各単語の音素との尤度を計算し、
尤度の大きい単語を 、認識単語とするものである。
行ないこの入力単語音声の特徴を抽出して入力単語音声
を構成する音素を認識すみ・。この認識された音素系列
を、単語辞書中の各単語と照合し、C0M、を用いて認
識音素と単語辞書中の各単語の音素との尤度を計算し、
尤度の大きい単語を 、認識単語とするものである。
第1表は前記単語音声認識方法天に用いる単語辞書の一
例を示しており、各単語は第2表に示す音素表記法に従
って表記されている。
例を示しており、各単語は第2表に示す音素表記法に従
って表記されている。
第 1 表
前記C,M、について更に詳細に説明する。
ある認識音素系列Wが与えられた時、これが単語辞書項
目りを発声したものである確率は、p([)/4W)=
に、/7 P(Wi/Di ) ・・・・・・■1
=j で与えられる。ここで、Wi 、 ’DiはW、pの夫
々j番目の音素、Iはw、lDの音素数、kは比例定数
である。なお、一般にWとpの音素数−は等しいとは限
らないが、本発明を従来例と比較して説明する場合、等
しい場合についてだけ考えれば十分であるので、等しい
と仮定することにする。
目りを発声したものである確率は、p([)/4W)=
に、/7 P(Wi/Di ) ・・・・・・■1
=j で与えられる。ここで、Wi 、 ’DiはW、pの夫
々j番目の音素、Iはw、lDの音素数、kは比例定数
である。なお、一般にWとpの音素数−は等しいとは限
らないが、本発明を従来例と比較して説明する場合、等
しい場合についてだけ考えれば十分であるので、等しい
と仮定することにする。
■式の計算を単語辞書の各単語lDjについて行ない、
最大値を与えるpjを、認識単語p*とする。
最大値を与えるpjを、認識単語p*とする。
すなわち、
P(IDνSW ) = mqx p ([)J、AW
) ”””■である。つまり、単語辞書中
の発声された単語である確率が最も高い単語を認識単語
とするというものである。そして、式■によりこの確率
は単語゛を構成する各音素毎の音素認識確率、すなわち
DlがWiと認識される確率P(Wi/I)i)の積に
比例することが示される。
) ”””■である。つまり、単語辞書中
の発声された単語である確率が最も高い単語を認識単語
とするというものである。そして、式■によりこの確率
は単語゛を構成する各音素毎の音素認識確率、すなわち
DlがWiと認識される確率P(Wi/I)i)の積に
比例することが示される。
第2図は前記単語音声認識方法に用いるC、M、の一部
を示している。第2図において縦は単語辞書中の単語の
音素を示し、横は認識音素を示している。また第2図中
の数字は単語辞書中の音素がどのような音素に認識され
るかの確率を係で示したものである。例えば第2図にお
いて、単語辞書中の音素■がIに認識される確率は27
%、Uに認識される確率は5%、U■に認識される確率
は17チ、脱落する確率は8%・・・等を示している。
を示している。第2図において縦は単語辞書中の単語の
音素を示し、横は認識音素を示している。また第2図中
の数字は単語辞書中の音素がどのような音素に認識され
るかの確率を係で示したものである。例えば第2図にお
いて、単語辞書中の音素■がIに認識される確率は27
%、Uに認識される確率は5%、U■に認識される確率
は17チ、脱落する確率は8%・・・等を示している。
最も簡単な例として、[アンタ]という単語について説
明する。単語扁がjであるとすると、単語辞書の内容は IDj=ASITA ・・・・■となって
いる。
明する。単語扁がjであるとすると、単語辞書の内容は IDj=ASITA ・・・・■となって
いる。
ところで、「アシタiの「シ」は、標準語では無声化し
、京都、大−阪方言では有声であることが多い。この調
音のバラツキが、「アシタ」という単語の認識率の低下
の原因となる。
、京都、大−阪方言では有声であることが多い。この調
音のバラツキが、「アシタ」という単語の認識率の低下
の原因となる。
第3図は従来例におけるC、M、の一部分を示している
。「アシタ」という単語の辞書項目は次に示す2項1で
ある。
。「アシタ」という単語の辞書項目は次に示す2項1で
ある。
ここで、■は有声音、I−は無声音を示し、両者を区別
する。この場合、認識音素の方も有声音と無声音を区別
することとし、第3図に示すようなC,M、(数値の単
位%)を用いてP([)/%V)の計算を行なう。その
結果pj 、 pj+jのどちらが最大尤度を与えても
、認識単語は「アシタ」であるとする。
する。この場合、認識音素の方も有声音と無声音を区別
することとし、第3図に示すようなC,M、(数値の単
位%)を用いてP([)/%V)の計算を行なう。その
結果pj 、 pj+jのどちらが最大尤度を与えても
、認識単語は「アシタ」であるとする。
この従来例は、調音のバラツキが大きい単語の認識率を
上げることができる反面、辞書項目が増えるために認識
に要する時間が増加する欠点があった。
上げることができる反面、辞書項目が増えるために認識
に要する時間が増加する欠点があった。
本発明は、上記従来例の欠点を除去するものであり、以
下に本発明の一実施例について説明する。
下に本発明の一実施例について説明する。
本実施例におけるC、にの一部分を第4図に示す。
本実施例においては「アシタ」という単語の辞書項目は
次に示す1項目である。
次に示す1項目である。
I)j′=ASI*TA ’−・・
・・・■ここで1本は、人により有声音Iであったり、
無声音■−であったりする音素を表わす。第4図に、お
ける■ネの部分のC,M、の値は、■及び■−の部分の
値の大きい方を採用している。ところで、本実施例のC
,M、の値は、従来と異なり確率P(W/D)ではなく
複数種類のDに対する各P (W/D )の最大値とな
る。例えば単語辞書の音素I*と、認識音素Wの尤度を
与えるC、M、の値をCM(I*→W)と表わせば、 CM(I本→W) =max (P(W/I ) 、
p(Wlr−月(P(W/Iつ ・・・・・
・■である。しかし、認識の為に、P(p/W)を′■
式に従い計算する場合には、 P(W/I*) = CM(I*→W) ・・
・・・・■とみなしてC,M、を用いるのである。
・・・■ここで1本は、人により有声音Iであったり、
無声音■−であったりする音素を表わす。第4図に、お
ける■ネの部分のC,M、の値は、■及び■−の部分の
値の大きい方を採用している。ところで、本実施例のC
,M、の値は、従来と異なり確率P(W/D)ではなく
複数種類のDに対する各P (W/D )の最大値とな
る。例えば単語辞書の音素I*と、認識音素Wの尤度を
与えるC、M、の値をCM(I*→W)と表わせば、 CM(I本→W) =max (P(W/I ) 、
p(Wlr−月(P(W/Iつ ・・・・・
・■である。しかし、認識の為に、P(p/W)を′■
式に従い計算する場合には、 P(W/I*) = CM(I*→W) ・・
・・・・■とみなしてC,M、を用いるのである。
本実施例が、゛前記従来例と等価であることを「アシタ
」を例にして説明する。前記従来例におイテ、[)j
、 I)j” ノ内、P([)/W)ノ大きい方をpo
とする。
」を例にして説明する。前記従来例におイテ、[)j
、 I)j” ノ内、P([)/W)ノ大きい方をpo
とする。
P ([)”/%V )含ma x (P (tDし%
V) 、 P ([)j”/vI) )= k−P(W
、/A)・P(W2/S)・P (W4/T )・P−
(Ws/A )\ ・max(P(W3/I)、P(W、/I−))
−・・■本実施例におけるDとWの尤度は、0式に注意
して = k−P(W1/A)・P(W2/S)・P (W4
/’1″)・P (Ws/A )・CM(、I*→W3
) ・・・・・・■、’−P (0)j′
AN) = P(0)rAW) −・・EJこ
こで、「アシタ」以外の単語でも0式と同様であること
は明らかであるから、結局、全べてのWlに対し単語認
識の正誤は、本実施例と従来例の間で変わらないことが
わかるー。一方、本実施例によれば、従来例に比べ、辞
書項目が少ない分だけ単語照合に要する時間が短かくな
るものである。
V) 、 P ([)j”/vI) )= k−P(W
、/A)・P(W2/S)・P (W4/T )・P−
(Ws/A )\ ・max(P(W3/I)、P(W、/I−))
−・・■本実施例におけるDとWの尤度は、0式に注意
して = k−P(W1/A)・P(W2/S)・P (W4
/’1″)・P (Ws/A )・CM(、I*→W3
) ・・・・・・■、’−P (0)j′
AN) = P(0)rAW) −・・EJこ
こで、「アシタ」以外の単語でも0式と同様であること
は明らかであるから、結局、全べてのWlに対し単語認
識の正誤は、本実施例と従来例の間で変わらないことが
わかるー。一方、本実施例によれば、従来例に比べ、辞
書項目が少ない分だけ単語照合に要する時間が短かくな
るものである。
本発明による実施例として、無声化母音音素に対応する
例だけ述べたが、本発明はこれに限定するものではない
。本発明の実施可能な他の例を述べる。
例だけ述べたが、本発明はこれに限定するものではない
。本発明の実施可能な他の例を述べる。
人名の認識を行なう場合、「宮用」という人がいて、正
しくは「ミャカワ」であるとする。これの単語辞書項目
はMI J AKAWAであるが、「ミャガワ」と呼ぶ
人もいるであろうから、従来は第2の辞書項目としてM
、I J A G*AWAも必要であった。本発明によ
れば、この場合、KとG*を兼ねた音素記号、例えばK
Gを用い、単語辞書項目はMIJAKGAWAとし、C
,M、における単語辞書音素項目としてKGを設け、そ
のC,M、の値として C,M、 (KG −+W) −max (P (W/
K ) 、 P (W/G* )’1とすれば、前記実
施例と同様、単語辞書項目の減少が可能である。
しくは「ミャカワ」であるとする。これの単語辞書項目
はMI J AKAWAであるが、「ミャガワ」と呼ぶ
人もいるであろうから、従来は第2の辞書項目としてM
、I J A G*AWAも必要であった。本発明によ
れば、この場合、KとG*を兼ねた音素記号、例えばK
Gを用い、単語辞書項目はMIJAKGAWAとし、C
,M、における単語辞書音素項目としてKGを設け、そ
のC,M、の値として C,M、 (KG −+W) −max (P (W/
K ) 、 P (W/G* )’1とすれば、前記実
施例と同様、単語辞書項目の減少が可能である。
以上のように、本発明による音声認識方法は、従来の一
つの単語が複数の辞書項目を持つ方式と比べ、認識率は
同等で、認識に要する時間を大巾に短縮することができ
る効果を有するものである。
つの単語が複数の辞書項目を持つ方式と比べ、認識率は
同等で、認識に要する時間を大巾に短縮することができ
る効果を有するものである。
第1図は単語音声認識方法の概略を示す図、第2図、第
3図はそれぞれ従来の単語音声認識方法に用いるC、M
、の一部を示す図、第4図は本発明の一実施例における
単語音声認識方法に用いるC、M。 の一部を示す図である。 第一図
3図はそれぞれ従来の単語音声認識方法に用いるC、M
、の一部を示す図、第4図は本発明の一実施例における
単語音声認識方法に用いるC、M。 の一部を示す図である。 第一図
Claims (1)
- 入力音声に対して音素認識を行なって認識音素系列を得
、この認識音素と音素表記された単語辞書の音素との尤
度をコンフユーノヨンマトリクスを用いて計算して単語
を認−する単語音声認識方法において、上記コンフユー
ノヨンマトリクスの要素の内、発声的な調音の個人差の
著しい辞書音素項目に対応する値を、上記辞書音素を類
型的な調音のタイプ毎の複数の音素項目に分割し、それ
ぞれの辞書音素項目に対応するコンフユーノヨンマ)
IJクスの値を事前に算出して得た最大値とすることを
特徴とする単語音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP56171366A JPS5872996A (ja) | 1981-10-28 | 1981-10-28 | 単語音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP56171366A JPS5872996A (ja) | 1981-10-28 | 1981-10-28 | 単語音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS5872996A true JPS5872996A (ja) | 1983-05-02 |
JPS6411959B2 JPS6411959B2 (ja) | 1989-02-27 |
Family
ID=15921841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP56171366A Granted JPS5872996A (ja) | 1981-10-28 | 1981-10-28 | 単語音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS5872996A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6146995A (ja) * | 1984-08-11 | 1986-03-07 | 富士通株式会社 | 音声認識システム |
JPS61147299A (ja) * | 1984-12-20 | 1986-07-04 | 松下電器産業株式会社 | 音声認識装置 |
JP2010107982A (ja) * | 2008-10-31 | 2010-05-13 | Qinghua Univ | コンピュータによる複数の方言を背景とする共通語音声認識のモデリング方法及びシステム |
-
1981
- 1981-10-28 JP JP56171366A patent/JPS5872996A/ja active Granted
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6146995A (ja) * | 1984-08-11 | 1986-03-07 | 富士通株式会社 | 音声認識システム |
JPS61147299A (ja) * | 1984-12-20 | 1986-07-04 | 松下電器産業株式会社 | 音声認識装置 |
JPH053596B2 (ja) * | 1984-12-20 | 1993-01-18 | Matsushita Electric Ind Co Ltd | |
JP2010107982A (ja) * | 2008-10-31 | 2010-05-13 | Qinghua Univ | コンピュータによる複数の方言を背景とする共通語音声認識のモデリング方法及びシステム |
Also Published As
Publication number | Publication date |
---|---|
JPS6411959B2 (ja) | 1989-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPS62235998A (ja) | 音節識別方式 | |
JPS63220298A (ja) | 音声認識における単語候補削減装置 | |
JP3444108B2 (ja) | 音声認識装置 | |
JPS5872996A (ja) | 単語音声認識方法 | |
Downey et al. | A decision tree approach to task-independent speech recognition | |
Deekshitha et al. | Speech Signal Based Broad Phoneme Classification and Search Space Reduction for Spoken Term Detection | |
JP3240691B2 (ja) | 音声認識方法 | |
JP3277522B2 (ja) | 音声認識方法 | |
JP3128251B2 (ja) | 音声認識装置 | |
JP3291073B2 (ja) | 音声認識方式 | |
JPS6310439B2 (ja) | ||
JP2979912B2 (ja) | 音声認識装置 | |
JPH0619497A (ja) | 音声認識方法 | |
JPS6148897A (ja) | 音声認識装置 | |
JP2000181487A (ja) | 音声認識装置 | |
JPS60182499A (ja) | 音声認識装置 | |
JPS5968794A (ja) | 単語音声認識方法 | |
JPH06348291A (ja) | 単語音声認識方法 | |
JPS5872995A (ja) | 単語音声認識方法 | |
JPS61149997A (ja) | 音声認識装置 | |
JPH0415960B2 (ja) | ||
JPS62245295A (ja) | 特定話者音声認識装置 | |
JPS607492A (ja) | 単音節音声認識方式 | |
JPS60149099A (ja) | 音声認識方法 | |
JPS60159899A (ja) | 学習機能付音声認識装置 |