JP2000181483A - 単語音声認識方法 - Google Patents

単語音声認識方法

Info

Publication number
JP2000181483A
JP2000181483A JP10359509A JP35950998A JP2000181483A JP 2000181483 A JP2000181483 A JP 2000181483A JP 10359509 A JP10359509 A JP 10359509A JP 35950998 A JP35950998 A JP 35950998A JP 2000181483 A JP2000181483 A JP 2000181483A
Authority
JP
Japan
Prior art keywords
word
similarity
phoneme
recognition
fixed value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP10359509A
Other languages
English (en)
Inventor
Takashi I
傑 易
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP10359509A priority Critical patent/JP2000181483A/ja
Publication of JP2000181483A publication Critical patent/JP2000181483A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 認識対象単語から類似度の高い単語を取り出
す処理の時間を短縮した単語音声認識方法を提供する。 【解決手段】 類似度計算時に、入力音声の音素と比較
対象である認識対象語の音素が一致したときに類似度に
固定値を加算し、一致しなかったときに該類似度から前
記固定値を減算することにより類似度を算出する構成と
したので、単語音声認識において類似度を計算するとき
の演算方法が、音素対照行列を用いずに類似度に固定値
を加算或いは減算するという簡単な演算であるため極め
て高速な単語音声認識方法を提供できる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、単語音声認識方法
に関するものである。
【0002】
【従来の技術】従来、大語彙(数千語〜数十万語)単語
音声認識では、入力音声をすべての認識対象単語とマッ
チングしなければならず、処理時間が膨大になってしま
う問題があった。そのための対策として高速プロセッサ
の使用が考えられたが、コストを度外視できるケースに
限られるので、一般的には音声認識アルゴリズムの改良
を施すという対策がとられてきた。
【0003】また、音声認識アルゴリズムの改良として
予備選択技術が挙げられる。この予備選択技術は、入力
音声を解析し、非常に少ない計算で認識対象単語から入
力音声に類似している単語(通常数百語)を取り出すと
いうものである。この予備選択を行った後、認識部で精
密な計算により正しい単語の抽出を行う。
【0004】上記予備選択技術における類似度の計算で
は、入力音声に対して発声記号の並びを決定する音素タ
イプライタ認識を行う。これは得られた入力音声の音素
列と認識対象単語の音素列とを比較し、音素対照行列を
参照しながら類似度を計算するというものである。
【0005】しかし、このような従来の予備選択は予備
選択にかかる計算の割合が大きかったという問題があっ
た。
【0006】
【発明が解決しようとする課題】上述のように、従来の
予備選択の方法では、音素対照行列を参照しながら類似
度を計算するため、認識対象単語から類似度の高い単語
を取り出すのに時間がかかるという問題があった。
【0007】本発明は、上記従来の問題点を解決し、認
識対象単語から類似度の高い単語を取り出す処理の時間
を短縮した単語音声認識方法を提供することを目的とす
る。
【0008】
【課題を解決するための手段】本発明の第1の手段は、
入力音声の音素列と認識対象単語の音素列とを比較して
類似度を計算するとき、音素対照行列を用いずに類似度
に固定値を加算或いは減算するという簡単な演算を行う
ことにより類似度を決定するという方法を用いることに
より処理時間の短縮を図るものである。
【0009】また、第2の手段は第1の手段における類
似度に加算する固定値をゼロにすることによって、処理
時間の短縮を図ると共に、音素タイプライタ認識の精度
が低いときに起因する単語音声認識精度の低下を防止す
るというものである。
【0010】さらに、第3の手段は第1の手段に加え
て、類似度の高い上位単語抽出時に部分ソートアルゴリ
ズムを用いることによってより高速化を図るものであ
る。
【0011】
【発明の実施の形態】以下、本発明の実施の形態につい
て、図面を参照しながら詳細に説明する。 [第1の実施形態]図1及び図3は本発明の第1の実施
形態を示すフローチャート図である。図1〜図4の図面
を参照して、第1の実施形態の単語音声認識方法を説明
する。
【0012】図1において、音声認識が開始されると
(ステップS1)、入力音声がA/D変換され、特徴パ
ラメータが抽出される(ステップS2)。次に、音素タ
イプライタ用文法1を用いて入力音声の音素列を算出す
る(ステップS3)。音素タイプライタ用文法の例を図
2に示す。
【0013】図2に示した音素タイプライタ用文法にお
いては、「START」から「子音」もしくは「母音」
に遷移する。「子音」では、次の遷移先は「母音」もし
くは「END」であり、子音の連鎖を許さない。また
「母音」では、「子音」や「END」の他、自分自身へ
の遷移もあり得る。「END」に到達したら、発声が終
了したと見なす。ここでいう「子音」は日本語の子音で
あり、例えば、 /k/ /s/ /t/ ・ ・ ・ などである。「母音」は日本語母音であり、例えば、 /a/ /i/ /u/ ・ ・ ・ などである。
【0014】次に、ステップS3において得られた入力
音声の音素列とあらかじめ用意しておいた認識対象語の
音素列2とを比較する(ステップS4)。認識対象語の
音素列の例は次に示すようなものである。例えば認識対
象語を、 東京 大阪 ・ ・ ・ 沖縄 と仮定すると、音素列は、 toukyou oosaka ・ ・ ・ okinawa になる。
【0015】ステップS4における動作の詳細を図3に
示す。ここでは認識対象語のk番目の単語との比較を例
にして説明する。比較が開始されると(ステップS3
1)、まず表記のための記号を定義する(ステップS3
2)。ここでは、入力音声の音素列を、 Xi (i=1,...,N) とする。iは音素番号であり、Nは入力音声の音素の数
である。k番目の認識対象語を、 Yk j (j=1,...,Mk) とすると、jは音素番号であり、Mkはk番目の認識対
象語の音素の数である。さらに入力音声とk番目の認識
対象語との類似度を、 Dk とする。
【0016】次にi,j,Dkの初期化を行う(ステッ
プS33)。ここではi=j=1,Dk=0にセットす
る。そして、入力音声のi番目の音素と認識対象語のj
番目の音素とを比較する(ステップS34)。もし一致
すれば類似度Dkに固定値C(Cは任意の正の整数)を
足し、iとjをそれぞれ1をインクリメントする(ステ
ップS35)。さらに単語(入力音声か認識対象語のど
ちらか)の終端に達したかどうかをチェックし(ステッ
プS36)、もし達していれば、類似度を調整し(ステ
ップS37)、終了する(ステップS38)。
【0017】また、ステップS34において、不一致で
あれば、入力音声のi番目の音素と認識対象語のj+1
番目の音素とを比較する(ステップS39)。ここでの
比較の結果が一致であれば、iに1を、jに2をそれぞ
れインクリメントし(ステップS40)、ステップS3
6に遷移する。不一致であれば、入力音声のi+1番目
の音素と認識対象語のj番目の音素とを比較する(ステ
ップS41)。ステップS41において比較の結果が一
致であれば、iに2を、jに1をそれぞれインクリメン
トし(ステップS42)、ステップS36に遷移する。
不一致であれば、類似度Dkから前記固定値Cを減じ、
iとjにそれぞれ1をインクリメントして(ステップS
43)、ステップS36に遷移する。
【0018】このように入力音声に対して各々の認識対
象語の類似度が得られる。さらに、この類似度の大きい
順に認識対象語を並び替え、上位数十個ないし数百個の
単語を抽出する(ステップS5)。このステップS5に
おいて抽出された単語を利用して単語認識文法3を生成
し(ステップS6)、単語音声認識を行い(ステップS
7)、処理を終了する(ステップS8)。
【0019】上述の単語音声認識用の文法の例を図4に
示す。図4に示した単語音声認識用文法においては、
「START」からそれぞれの単語へ遷移し、さらに、
各単語から「END」へ遷移する。そして尤度計算で最
大尤度を与えた単語を認識結果とする。
【0020】以上詳細に説明したように、本発明の第1
の実施形態によれば、単語音声認識において類似度を計
算するとき、音素対照行列を用いずに類似度に固定値を
加算或いは減算するという簡単な演算を行うことにより
類似度を決定するという方法を用いたことによりきわめ
て高速な単語音声認識方法を提供できる。
【0021】[第2の実施形態]図5は本発明の第2の
実施形態における音素列比較のフローチャート図であ
る。図1、図5を参照して、第2の実施形態の単語音声
認識方法を説明する。
【0022】図1において、音声認識が開始されると
(ステップS1)、入力音声がA/D変換され、特徴パ
ラメータが抽出される(ステップS2)。次に、音素タ
イプライタ用文法1を用いて入力音声の音素列を算出す
る(ステップS3)。音素タイプライタ用文法について
の説明は前述の通りである。
【0023】次に、ステップS3において得られた音声
の音素列と予め用意しておいた認識対象語の音素列2と
を比較する(ステップS4)。認識対象語の音素列の例
についての説明は前述の通りである。
【0024】本実施形態のステップS4における動作の
詳細を図5に示す。ここでは認識対象語のk番目の単語
との比較を例にして説明する。比較が開始されると(ス
テップS51)、まず表記のための記号を定義する(ス
テップS52)。ここでは、入力音声の音素列を、 Xi (i=1,...,N) とする。iは音素番号であり、Nは入力音声の音素の数
である。k番目の認識対象語を、 Yk j (j=1,...,Mk) とすると、jは音素番号であり、Mkはk番目の認識対
象語の音素の数である。さらに入力音声とk番目の認識
対象語との類似度を、 Dk とする。
【0025】次にI、J、Dkの初期化を行う(ステッ
プS53)。ここではi=j=1,Dk=0にセットす
る。そして、入力音声のi番目の音素と認識対象語のj
番目の音素とを比較する(ステップS54)。もし一致
すればiとjにそれぞれ1をインクリメントする(ステ
ップS55)。さらに単語(入力音声か認識対象語のど
ちらか)の終端に達したかどうかをチェックし(ステッ
プS56)、もし達していれば、類似度を調整し(ステ
ップS57)、終了する(ステップS58)。
【0026】また、ステップS54において、不一致で
あれば、入力音声のi番目の音素と認識対象語のj+1
番目の音素とを比較する(ステップS59)。ここでの
比較の結果が一致であれば、iに1を、jに2をそれぞ
れインクリメントし(ステップS60)、ステップS5
6に遷移する。不一致であれば、入力音声のi+1番目
の音素と認識対象語のj番目の音素とを比較する(ステ
ップS61)。ステップS61における比較の結果が一
致であれば、iに2を、jに1をそれぞれインクリメン
トし(ステップS62)、ステップS56に遷移する。
不一致であれば、類似度Dkから前記固定値Cを減じ、
iとjにそれぞれ1をインクリメントして(ステップS
63)、ステップS56に遷移する。
【0027】このように入力音声に対して各々の認識対
象語の類似度が得られる。さらに、この類似度の大きい
順に認識対象語を並び替え、上位数十個ないし数百個の
単語を抽出する(ステップS5)。このステップS5に
おいて抽出された単語を利用して単語認識文法3を生成
し(ステップS6)、単語音声認識を行い(ステップS
7)、処理を終了する(ステップS8)。本実施形態に
おける単語音声認識用の文法の例についての説明は前述
の通りである。
【0028】以上詳細に説明したように、本発明の第2
の実施形態によれば、実施形態1の効果に加えて、前述
のステップS55において、類似度に加算する固定値の
値をゼロとしているため、音素が一致した場合にも類似
度を増加させず、特に音素タイプライタの認識精度が低
い場合(正解しても信頼性が低い)にも比較的精度の高
い単語音声認識ユーザインタフェースを提供できる。認
識実験では、一定の条件が揃えば実施形態1より5%ほ
ど認識性能が向上したことを確認した。
【0029】[第3の実施形態]図6は本発明の第3の
実施形態における単語抽出のフローチャート図である。
図1、図6を参照して、第3の実施形態の単語音声認識
方法を説明する。
【0030】図1において、音声認識が開始されると
(ステップS1)、入力音声がA/D変換され、特徴パ
ラメータが抽出される(ステップS2)。次に、音素タ
イプライタ用文法1を用いて入力音声の音素列を算出す
る(ステップS3)。音素タイプライタ用文法の例につ
いての説明は前述の通りである。
【0031】次に、ステップS3において得られた入力
音声の音素列とあらかじめ用意しておいた認識対象語の
音素列2とを比較する(ステップS4)。認識対象語の
音素列の例についての説明は前述の通りである。
【0032】ステップS4における動作の詳細について
は実施形態1において説明した通りである。
【0033】このようにして入力音声に対して各々の認
識対象語の類似度が得られる。さらに、類似度の大きい
順に認識対象語を並び替え、上位数十個ないし数百個の
単語を抽出する(ステップS5)。第3の実施形態にお
ける特徴部分であるステップS5の動作の詳細を図6に
示す。
【0034】ソートが開始される(ステップS71)
と、まず表記のための記号を定義する(ステップS7
2)。ここでは、類似度を Dk (k=1,...,K) とし、認識対象語を Wk (k=1,...,K) とする。ここでは、kは認識対象語の番号であり、Kは
認識対象語の数である。また、類似度の最大値を Dmax とし、選択される単語数を L とする。
【0035】次に初期化する。選択された単語の数lを
0に(ステップS73)、単語番号kを1にセットする
(ステップS74)。
【0036】そしてk番目の単語の類似度DkとDmax
を比較する(ステップS75)。もし一致していれば、
lに1をインクリメントして、k番目の単語Wkを選択
する(ステップS76)。さらに選択された単語の数l
が所定値Lに達したかどうかをチェックし(ステップS
77)、達していればソートを終了する(ステップS7
8)。
【0037】ステップS75及びS77において、結果
が不一致の場合、kに1をインクリメントし(ステップ
S79)、kがKに達したかどうかをチェックする(ス
テップS80)。もし達していれば、類似度の最大値D
maxから前記固定値Cを減じ(ステップS81)、ステ
ップS74へ移る。ステップS80でk≠Kならば、ス
テップS75へ戻る。
【0038】次に、ステップS5で抽出された単語を利
用して単語認識文法3を生成し(ステップS6)、単語
音声認識を行い(ステップS7)、処理を終了する(ス
テップS8)。単語音声認識用の文法3の例についての
説明は前述の通りである。
【0039】以上詳細に説明したように、本発明の第3
の実施形態によれば、ステップS5において、類似度の
高い上位単語抽出時に部分ソートアルゴリズムを用いた
ことにより極めて高速に単語を選択することができる。
例えば、第1の実施形態に比べれば、単語ソートに必要
な時間を数分の1ないし数百分の1に削減でき、優れた
単語音声認識方法を提供できる。
【0040】
【発明の効果】以上詳細に説明したように、請求項1に
記載の発明によれば、入力音声から特徴パラメータを抽
出する工程Aと、入力音声の音素列を算出する工程B
と、単語単位に入力音声の音素列と認識対象語の音素列
を比較し類似度を算出する工程Cと、該類似度の高い上
位単語を抽出する工程Dと、該抽出された単語を用いて
単語音声用文法を生成する工程Eと、該単語音声用文法
を用いて単語音声認識を行う工程Fとを有する単語音声
認識方法であって、前記工程Cにおける類似度計算時
に、入力音声の音素と比較対象である認識対象語の音素
が一致したときに類似度に固定値を加算し、一致しなか
ったときに該類似度から前記固定値を減算することによ
り類似度を算出する構成としたので、予備単語選択にお
いて類似度を計算するときの演算方法が、音素対照行列
を用いずに類似度に固定値を加算或いは減算するという
簡単な演算であるため極めて高速な単語音声認識方法を
提供できる。
【0041】また、請求項2に記載の発明によれば、前
記工程Cにおける類似度計算時に、入力音声の音素と比
較対象である認識対象語が一致したときに類似度に加算
する固定値を0とし、一致しなかったときに該類似度か
ら前記固定値を減算することにより類似度を算出する構
成としたので、前述の効果に加えて、類似度に加算する
固定値の値をゼロとしているため、音素が一致した場合
にも類似度を増加させず、特に音素タイプライタの認識
精度が低い場合にも比較的精度の高い単語音声認識方法
を提供できる。
【0042】更に、請求項3に記載の発明によれば、請
求項1記載の発明における前記工程Dにおいて、部分ソ
ートアルゴリズムを用いた構成としたので、極めて高速
に単語を選択することができる。
【0043】以上のように、請求項1〜3に記載の発明
によれば、極めて高速な単語音声認識方法を提供できる
ので、カーナビゲーション等のような高速処理が要求さ
れる音声認識による自動案内システムに適用できる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態における処理フローチ
ャートである。
【図2】音素タイプライタ用文法の説明図である。
【図3】本発明の第1の実施形態における音素列比較の
フローチャートである。
【図4】単語音声認識用文法の説明図である。
【図5】本発明の第2の実施形態における音素列比較の
フローチャートである。
【図6】本発明の第3の実施形態における単語抽出のフ
ローチャートである。
【符号の説明】
1 音素タイプライタ用文法 2 認識対象単語の音素列 3 単語音声認識用文法

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 入力音声から特徴パラメータを抽出する
    工程Aと、入力音声の音素列を算出する工程Bと、単語
    単位に入力音声の音素列と認識対象語の音素列を比較し
    類似度を算出する工程Cと、該類似度の高い上位単語を
    抽出する工程Dと、該抽出された単語を用いて単語音声
    用文法を生成する工程Eと、該単語音声用文法を用いて
    単語音声認識を行う工程Fとを有する単語音声認識方法
    であって、 前記工程Cにおける類似度計算時に、入力音声の音素と
    比較対象である認識対象語の音素が一致したときに類似
    度に固定値を加算し、一致しなかったときに該類似度か
    ら前記固定値を減算することにより類似度を算出するこ
    とを特徴とする単語音声認識方法。
  2. 【請求項2】 請求項1に記載の単語音声認識方法にお
    いて、前記工程Cにおける類似度計算時に、入力音声の
    音素と比較対象である認識対象語の音素が一致したとき
    に類似度に加算する固定値を0とし、一致しなかったと
    きに該類似度から前記固定値を減算することにより類似
    度を算出することを特徴とする単語音声認識方法。
  3. 【請求項3】 請求項1に記載の単語音声認識方法にお
    ける前記工程Dにおいて、部分ソートアルゴリズムを用
    いたことを特徴とする単語音声認識方法。
JP10359509A 1998-12-17 1998-12-17 単語音声認識方法 Withdrawn JP2000181483A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10359509A JP2000181483A (ja) 1998-12-17 1998-12-17 単語音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10359509A JP2000181483A (ja) 1998-12-17 1998-12-17 単語音声認識方法

Publications (1)

Publication Number Publication Date
JP2000181483A true JP2000181483A (ja) 2000-06-30

Family

ID=18464874

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10359509A Withdrawn JP2000181483A (ja) 1998-12-17 1998-12-17 単語音声認識方法

Country Status (1)

Country Link
JP (1) JP2000181483A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011237930A (ja) * 2010-05-07 2011-11-24 Alpine Electronics Inc 検索装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011237930A (ja) * 2010-05-07 2011-11-24 Alpine Electronics Inc 検索装置

Similar Documents

Publication Publication Date Title
US5680510A (en) System and method for generating and using context dependent sub-syllable models to recognize a tonal language
US7421387B2 (en) Dynamic N-best algorithm to reduce recognition errors
US6738741B2 (en) Segmentation technique increasing the active vocabulary of speech recognizers
US20050033575A1 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
JP5141687B2 (ja) 音声認識用照合ルール学習システム、音声認識用照合ルール学習プログラムおよび音声認識用照合ルール学習方法
JP2008262279A (ja) 音声検索装置
US20050187767A1 (en) Dynamic N-best algorithm to reduce speech recognition errors
KR100573870B1 (ko) 대화체 연속음성인식을 위한 의사형태소 기반다중발음사전 구축 방법 및 그 시스템과 이를 이용한대화체 음성인식 방법
US20040006469A1 (en) Apparatus and method for updating lexicon
JP4600706B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP2010164918A (ja) 音声翻訳装置、および方法
JP2000181483A (ja) 単語音声認識方法
JPH09134192A (ja) 統計的言語モデル生成装置及び音声認識装置
JP2938865B1 (ja) 音声認識装置
CN104756183B (zh) 在智能汉语语音口述记录校正中使用字符描述器有效输入模糊字符
CN113284487B (zh) 基于语音识别结果的匹配方法
JP2001005483A (ja) 単語音声認識方法及び単語音声認識装置
JPS62134698A (ja) 多数単語の音声入力方式
JP3430265B2 (ja) 日本語音声認識方法
KR100212448B1 (ko) 무제한 음성 명령어 인식기의 인식 성능 및 처리 속도 개선 방법
JPH04291399A (ja) 音声認識方法
JP3369121B2 (ja) 音声認識方法および音声認識装置
JPH0627985A (ja) 音声認識方法
KR20040092572A (ko) 연속 음성인식 시스템에서의 묵음 모델 처리를 통한음성인식 방법
JPS6180298A (ja) 音声認識装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060307