JP2000132184A - 音声認識装置、音声認識方法および音声認識プログラムを記録した記録媒体 - Google Patents

音声認識装置、音声認識方法および音声認識プログラムを記録した記録媒体

Info

Publication number
JP2000132184A
JP2000132184A JP10305477A JP30547798A JP2000132184A JP 2000132184 A JP2000132184 A JP 2000132184A JP 10305477 A JP10305477 A JP 10305477A JP 30547798 A JP30547798 A JP 30547798A JP 2000132184 A JP2000132184 A JP 2000132184A
Authority
JP
Japan
Prior art keywords
recognition
voice
input
speech
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10305477A
Other languages
English (en)
Inventor
Kazuto Kojiya
和人 糀谷
Hidenori Yatake
英紀 八竹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Omron Tateisi Electronics Co filed Critical Omron Corp
Priority to JP10305477A priority Critical patent/JP2000132184A/ja
Publication of JP2000132184A publication Critical patent/JP2000132184A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 (修正有) 【課題】環境雑音が多く、また、音声入力のゲインが十
分に取れない等の悪環境下においても、十分な認識精度
を得ることができる音声認識装置を提供する。 【解決手段】音声入力部2には、認識対象文字列の言い
回しを替えることによって音韻を異ならせた2種類以上
の音声が入力され、音声認識部3aが入力された音声に
ついて認識処理を行う。例えば認識対象文字列が『1』
であるときに、音声入力部2には、『いち』(日本
語)、『わん』(英語)、『あいてぃあい(ITI)』
(ローマ字読み)という音韻が異なる3種類の音声が入
力される。音声認識部3aは、入力された『いち』、
『わん』、『あいてぃあい』の各音声について認識処理
を行う。そして、音声認識装置1は、認識結果統合部3
bにおいて各音声について認識処理を行った結果を統合
し、認識文字列を獲得する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、入力された音声
を認識することによって認識対象文字列を獲得する音声
認識装置、音声認識方法および音声認識プログラムを記
録した記録媒体に関する。
【0002】
【従来の技術】入力された音声を認識する音声認識技術
には、ワードスポッティングと呼ばれる発話中の音声か
ら単語らしい部分を抜き出す手法や、HMM(Hidd
enMarcov Model)を用いた連続音声を認
識する手法等がある。最近では、電話の自動応答システ
ム、ATM、券売機、カーナビゲーションシステム等に
音声認識技術を適用し、対話システム化しようとする試
みが盛んに行われている。対話システムのための音声認
識技術については、『小林哲則:対話音声の認識技術
(日本音響学会誌第50巻7号pp563−567、1
994)』等に詳しく説明されている。
【0003】
【発明が解決しようとする課題】しかしながら、電話の
自動応答システム、ATM、券売機、カーナビゲーショ
ンシステム等が使用される場所は、環境雑音が多く、ま
た、音声入力のゲインが十分に取れない等の悪環境下で
あるため、従来の音声認識技術では十分な認識精度を確
保することができない。一方、上記の対話システムを実
現するためには、上記のような悪環境下においても十分
な認識精度を確保することができる音声認識装置が必要
であり、このことが対話システム化する上での課題とな
っている。
【0004】なお、限られた環境下(例えば、環境雑音
が殆ど無く、且つ、音声入力のゲインを十分に取ること
ができる環境)であれば、高い認識精度を得ることがで
きる音声認識装置はある(西村、伊藤:単語を認識単位
とした日本語ディクテーションシステム、電子情報通信
学会論文誌、Vol.81,D11,NO1,pp10
−17,1988)。
【0005】また、従来の音声認識装置は、辞書に登録
されていない語彙(未知語)に対する認識精度が低いと
いう問題がある。一方、上記の電話の自動応答システ
ム、ATM、券売機、カーナビゲーションシステム等を
対話システム化した場合、ユーザに人名、地名等の固有
名詞を音声で入力させることになる。人名、地名等の固
有名詞は、その単語数が非常に多く、これらを全て辞書
に登録しておくことは不可能である。例えば、日本人全
ての姓名(日本人の姓(苗字)は約58000種類あ
る。)を辞書に登録しておくことは事実上不可能であ
り、また、日本人全ての苗字を辞書に登録することがで
きたとしても、公知の音声認識技術では認識精度が低下
することが報告されている(特開平10−97285号
公報参照)。したがって、対話システム化の実現には、
未知語に対しても十分な認識精度を確保することができ
なければならない。
【0006】なお、HMMを用いた連続音声認識におい
て未知語を認識する技術として、登録語以外の音声パタ
ーンを表現するガーベージモデルを用いる手法や、未知
語を任意の音韻系列として表現する音韻タイプライタと
呼ばれる手法がある(音声による人間と機械の対話p5
8(オーム社):1988)。
【0007】この発明の目的は、単に複数回の音声入力
を行うのではなく、言い回しを替えることによって音韻
を異ならせた音声入力を行い、音韻が異なる音声毎に認
識した結果を統合して、入力された音声に対する認識結
果を獲得することで、認識精度を大幅に向上させた音声
認識装置、音声認識方法および音声認識プログラムを記
録した記録媒体を提供することにある。
【0008】
【課題を解決するための手段】この発明は、任意の認識
対象文字列について音声による入力を受け付ける音声入
力部と、前記音声入力部に入力された音声を認識し、前
記認識対象文字列を獲得する制御部と、を備え、前記制
御部は、前記認識対象文字列について言い回しを替える
ことによって、音韻を異ならせた2種類以上の音声が入
力されたとき、音韻が異なる音声毎に認識した認識結果
を統合して前記認識対象文字列を獲得する。
【0009】この構成の音声認識装置においては、認識
対象文字列について言い回しを替えることによって、か
な読みとローマ字読み等、音韻を異ならせた2種類以上
の音声が入力されると、制御部は入力された音韻が異な
る音声毎に認識処理を行い、その結果を統合して認識対
象文字列を獲得する。
【0010】例えば、認識対象文字列が『1』であると
きには、ユーザに『いち』(日本語)、『わん』(英
語)等の音韻が異なる音声入力を行わせる。ワードスポ
ッティングやHMM等の一般的な音声認識技術では、入
力された音声が『いち』であるときには、音声波形が類
似する『ひち(7)』を認識候補として検出し、ここで
検出した認識候補の中で最も信頼度が高い認識候補を認
識対象文字列として獲得する。すなわち、従来の音声認
識装置では『ひち』の信頼度のほうが『いち』の信頼度
よりも高くなったときに誤認識となる(上記の信頼度は
周囲の環境雑音等によって変化する。)。
【0011】一方、この発明では音韻が異なる『わん』
という音声も認識している。一般的な音声認識技術で
も、『わん』に対して音声波形が大きく異なる『せぶん
(7)を認識候補として検出する可能性は殆ど無い。し
たがって、音韻が異なる音声毎に行った認識処理の結果
を統合することで、『いち』を認識した際に検出された
『ひち』という認識候補を誤りとして処理できる。
【0012】このように、音韻を異ならせた少なくとも
2つ以上の音声について認識処理した結果を統合して、
最終的な認識結果を獲得することにより、環境雑音が多
く、また、音声入力のゲインが十分に取れない等の悪環
境下においても、十分な認識精度を確保することができ
る。
【0013】また、前記音声入力部に入力する音声の言
い回し方を指示するガイダンス部を備えることにより、
音声入力を行うユーザに対して的確な指示を与えること
ができる。
【0014】さらに、音韻が異なる音声毎に認識した認
識結果間の対応関係を示す情報を記憶した記憶部を備え
ることにより、音韻が異なる音声毎の認識結果を簡単に
統合することができる。
【0015】なお、請求項5および6に記載した発明
は、それぞれ請求項1に記載した発明に相当する方法お
よび記録媒体の発明である。
【0016】
【発明の実施の形態】図1は、この発明にかかる音声認
識装置の概要を示すブロック図である。この発明にかか
る音声認識装置1は、認識対象文字列を音声で入力する
音声入力部2と、入力された音声について認識処理を行
い、認識対象文字列を獲得する制御部3とを備えてい
る。制御部3にはCPUが設けられており、該CPUに
は以下に示す処理を実行するためのプログラムが予めR
OM、FD(フロッピィディスク)、CD−ROM等の
記録媒体から供給されている。制御部3は、CPUにこ
のプログラムが供給されたことによって、音声入力部2
において入力された音声信号を認識する音声認識部3a
および音声認識部3aにおける認識結果を統合して認識
対象文字列を獲得する認識結果統合部3bを有する。な
お、音声認識部3aは、HMMを用いた連続音声認識処
理やDPマッチング等の公知の音声認識処理を行う。
【0017】次に、上記の音声認識装置1の動作につい
て説明する。図2はこの音声認識装置の動作を示すフロ
ーチャートである。音声入力部2には、言い回しを替え
ることによって音韻を異ならせた2種類以上の音声が入
力され、音声認識部3aが入力された音声毎に認識処理
を行う(n1〜n3)。例えば認識対象文字列が『1』
であるときに、音声入力部2には、『いち』(日本
語)、『わん』(英語)、『あいてぃあい(ITI)』
(ローマ字読み)という音韻が異なる3種類の音声を入
力させる。音声認識部3aは、入力された『いち』、
『わん』、『あいてぃあい』の各音声について認識処理
を行う。認識結果統合部3bは、各音声に対する認識結
果を統合し、認識文字列を獲得する(n4)。
【0018】例えば、音声認識部3aにおいて入力音声
『いち』の認識結果として『いち(1)』および『ひち
(7)』の2つが認識候補となったとしても、『わん』
の認識結果に音韻が大きく異なる『せぶん(SEVE
N)』が認識候補として検出される可能性は極めて小さ
い。したがって、音韻が異なる入力音声に対する認識結
果を統合することによって、略確実に認識文字列『1』
を獲得することができる。
【0019】このように、音韻の異なる音声入力につい
てぞれぞれ認識処理した結果を統合することによって、
環境雑音が多く、また、音声入力のゲインが十分に取れ
ない等の悪環境下においても十分な認識精度を得ること
ができる。また、未知語に対する認識精度も同様に飛躍
的に向上する。しかも、入力された音声信号を認識する
認識処理部3aについては、一般的な音声認識技術を適
用できる。
【0020】なお、認識結果統合部3bが獲得した認識
文字列は、この音声認識装置1を適用した対話システム
の入力等になる。
【0021】以下、本願発明の具体的な実施形態につい
て説明する。
【0022】図3は、この発明の実施形態である音声認
識装置の機能構成を示すブロック図である。10は、こ
の実施形態にかかる音声認識装置本体である。音声認識
装置10は、認識対象文字列を音声で入力する音声入力
部11と、音声入力部11に入力された音声の認識処理
を行う音声認識部12と、音声認識部12で認識した認
識結果を統合して認識文字列を獲得する認識結果統合部
13と、ユーザに対してガイダンスを行うガイダンス部
14と、を備えている。この実施形態の音声認識装置1
0では、ユーザに認識文字列について日本語の読みと英
語の読みとによる音声を入力させる。例えば、認識文字
列が『1』であるときには『いち』および『わん』を入
力させ、認識文字列が『山』であるときには『やま』お
よび『まうんてん』を入力させる。音声認識部12に
は、入力された日本語の音声を認識する日本語音声認識
部12aと英語の音声を認識する英語音声認識部12b
とを備えている。なお、日本語音声認識部12aおよび
英語音声認識部12bでは連続音声を認識することがで
きる。
【0023】以下、この実施形態にかかる音声認識装置
の動作について説明する。なお、ここでは、ユーザに音
声でID番号を入力させる場合を例にして以下の説明を
行う。また、日本語音声認識部12aおよび英語音声認
識部12bは、認識した音声からアラビア数字を獲得す
るための辞書を有している(図4(A)(B)参照)。
すなわち、日本語音声認識部12aは『いち』という音
声を認識したときに『1』を獲得し、英語音声認識部1
2bは『わん』という音声を認識したときに『1』を獲
得する。
【0024】図5はこの実施形態にかかる音声認識装置
の処理を示すフローチャートである。この実施形態の音
声認識装置1では、ガイダンス部14がユーザに対して
ID番号の日本語による入力を指示する(n11)。ガ
イダンス部14は、n11において、例えば、『ユーザ
IDを日本語でおっしゃって下さい。』というガイダン
スを行う。このガイダンスに対して、ユーザが自分のI
D番号を日本語で発声する。例えば、ID番号が『12
34』であるユーザは、『いちにさんし』と発声する。
音声入力部11では、ユーザの発声を音声入力として受
け付け(n12)、これを日本語音声認識部12aに入
力する。
【0025】日本語音声認識部12aは、公知のHMM
を用いた連続音声認識やDPマッチング等の手法によ
り、入力された音声信号を認識し、認識結果を認識結果
統合部13に入力する(n13、n14)。図6(A)
に日本語音声認識処理部12aにおける認識結果を示
す。日本語音声認識部12aは、認識処理した音声信号
に対して1つの認識候補を出力するのではなく、図6
(A)に示すように複数の認識候補を信頼度とともに出
力する(認識候補リストを出力する。)。図6(A)は
『1237』、『1234』、『7234』の3つの認
識候補を獲得した時の例を示している。なお、ユーザは
『いちにさんし』と発声しており、正解は『1234』
であるが、ここでは『1237』が信頼度70%で最上
位の認識候補となった。なお、公知のHMMを用いた連
続音声認識やDPマッチング等の手法により、入力され
た音声信号を認識する場合、環境雑音が多く、また、音
声入力のゲインが十分に取れない等の悪環境下において
は、このような誤認識が高い確率で発生することが知ら
れている。
【0026】n14の処理が完了すると、ガイダンス部
14がユーザに対してID番号の英語による入力を指示
するガイダンスを行う(n15)。例えば、『今度は、
ユーザIDを英語でおっしゃって下さい。』というガイ
ダンスを行う。このガイダンスに対して、ユーザが自分
のID番号を『わんつーすりーふぉー』と発声する。音
声入力部11では、ユーザの発声を音声入力として受け
付け(n16)、これを今度は英語音声認識部12bに
入力する。英語音声認識部12bは入力された音声信号
を認識し、認識結果を認識結果統合部13に入力する
(n17、n18)。図6(B)に英語音声認識部12
bにおける認識結果を示す。英語音声認識部12bも上
記の日本語音声認識部12aと同様に、認識処理した音
声に対して1つの認識候補を出力するのではなく、図6
(B)に示すように複数の認識候補を信頼度とともに出
力する(認識候補リストを出力する。)。図6(B)で
は『1235』、『1234』、『1237』の3つが
認識候補となった例を示している。なお、ユーザは『わ
んつーすりーふぉー』と発声しており、正解は『123
4』であるが、ここでは『1235』が信頼度60%で
最上位の認識候補となっている。
【0027】なお、日本語音声認識部12aと英語音声
認識部12bとに適用する音声認識技術は、同一の技術
であってもよいし、また、異なる技術であってもよい。
【0028】認識結果統合部13は、n14およびn1
8の処理で入力された認識結果を統合して、認識対象文
字列を獲得する(n19)。この実施形態の音声認識装
置10は、n14およびn18で入力された認識候補リ
ストから、図6(C)に示す認識結果リストを作成し、
認識対象文字列を獲得する。
【0029】以下、認識結果リストを作成する処理につ
いて説明する。ここでは、図6(A)、(B)に示す認
識候補リストの両方に含まれている認識候補について
は、その信頼度の平均値を算出し、一方の認識候補リス
トにのみ含まれている認識候補については他方の認識結
果における信頼度を0%としてその平均値を算出する。
ここで、算出した平均値をその認識候補の信頼度とし、
該信頼度の高い順に順位付けを行い、図6(C)に示す
認識結果リストを作成する。図6(C)に示すように認
識結果リストでは、正解である『1234』が最上位の
認識候補となった。音声認識装置10は、この認識結果
リストにおける最上位の認識候補を認識対象文字列(認
識結果)として獲得する。
【0030】このように、この実施形態の音声認識装置
10では、言い回しを替えることによって音韻を異なら
せた『いちにさんし』および『わんつーすりーふぉー』
についてそれぞれ認識処理が行われる。ここで、一方の
音声に対する認識結果において信頼度の高い認識候補で
あっても、他方の音声に対する認識結果において信頼度
が低ければ、この認識候補は入力された音声の正しい認
識結果ではない。一方、両方の音声に対する認識結果に
おいて信頼度の高い認識候補であれば、各音声に対する
認識結果における信頼度が最上位でなくても、入力され
た音声の正しい認識結果である可能性が高い。したがっ
て、言い回しを替えることによって音韻を異ならせた2
つ以上の音声について認識した認識結果を統合すること
によって、入力された音声の正しい認識結果を獲得する
ことができる。しかも、悪環境下においても十分な認識
精度を確保することができ、上記の音声認識装置10を
適用することによって電話の自動応答システム、AT
M、券売機、カーナビゲーションシステム等の対話シス
テム化を容易に実現することができる。
【0031】なお、上記の実施形態では、音韻を異なら
せた2種類の音声に対して認識処理した結果を統合する
ことによって認識結果を獲得するとしたが、音韻を異な
らせた3種類以上の音声を入力し、各音声に対して認識
処理した結果を統合することによって認識文字列を獲得
するようにしてもよい。このように、音韻が異なる音声
入力の種類を増加させれば認識精度の一層の向上が図れ
る。
【0032】また、上記の実施形態では、音声入力を日
本語と英語とによって行わせるとしたが、例えばID番
号の逆さ読み『よんさんにいち(4321)』や『ひー
ふーみーよー』等の他の言い回しによって音韻を異なら
せた音声を入力させるようにしてもよい。また、上記実
施形態では、最終結果リストにおける各認識候補に対す
る信頼度を平均値としたが、信頼度の和、積、積の平方
根、二乗平均等を最終結果リストにおける信頼度とし
て、認識果リストにおける順位付けを行うようにしても
よい。
【0033】また、ガイダンス部14は音声でガイダン
スを行うとしたが、CRT等の表示部を設け、該表示部
にメッセージを表示するようにしてもよい。また、装置
本体に上記のメッセージを刻印したパネルをはりつけれ
ば、ガイダンス部14を無くすこともできる。
【0034】次に、この発明の別の実施形態について説
明する。上記の実施形態ではID番号を入力する場合を
示したが、この実施形態では苗字を入力する。図7は、
この実施形態にかかる音声認識装置の構成を示す機能ブ
ロック図である。この実施形態にかかる音声認識装置2
0には、正規化知識ベース24が設けられている。正規
化知識ベース24には図8に示す変換テーブルが登録さ
れている。この変換テーブルは図示するようにローマ字
表記の読みを、かな表記に変換するためのテーブルであ
る。
【0035】以下、この実施形態にかかる音声認識装置
の動作について説明する。図9はこの実施形態にかかる
音声認識装置の動作を示すフローチャートである。ガイ
ダンス部25は、ユーザに対して日本語による苗字の入
力を指示する(n21)。例えば、『苗字を日本語でお
っしゃって下さい。』というガイダンスを行う。このガ
イダンスに対して、ユーザが自分の苗字を日本語で発声
する。例えば、ユーザは、『ほった(堀田)』と発声す
る。音声入力部21では、ユーザの発声を音声入力とし
て受け付け(n22)、これを音声認識部22に入力す
る。
【0036】音声認識部22は、公知のHMMを用いた
連続音声認識やDPマッチング等の手法により、入力さ
れた音声信号を認識し、認識結果を認識結果統合部23
に入力する(n23、n24)。なお、この実施形態に
かかる音声認識部22は、HMMを用いた連続音声認識
において、登録語以外の音声パターンを表現するガーベ
ージモデルを用いたり、任意の音韻系列として表現する
音韻タイプライタの手法によって、未知語を認識する機
能を有している。音声認識部22は、音声入力された
『ほった』を認識し、図10(A)に示す認識候補リス
トを認識結果統合部23に入力する。
【0037】この実施形態の音声認識装置20も上記の
実施形態のものと同様に認識処理した音声信号に対して
1つの認識候補を出力するのではなく、複数の認識候補
を信頼度とともに出力している。図10(A)では『ほ
んだ』、『ほった』の2つが認識候補となったときの例
を示している。なお、音声認識部22における認識結果
においては、ユーザが発声した『ほった』ではなく、
『ほんだ』が最上位の認識候補となっている。なお、公
知の未知語認識の技術では、このような誤認識が高い確
率で発生することが知られている。
【0038】n24の処理を完了すると、ガイダンス部
25がユーザに対してローマ字表記した苗字の入力を指
示する(n25)。例えば、『今度は、ローマ字表記し
た苗字をおっしゃって下さい。』という音声ガイダンス
を行う。このガイダンスに対して、ユーザが『えいちお
ーてぃてぃえい(HOTTA)』と発声する。音声入力
部21は、ユーザの発声を音声入力として受け付け(n
26)、音声認識部22に入力する。音声認識部22は
入力された音声を認識し、その認識結果を認識結果統合
部23に入力する(n27、n28)。
【0039】図10(B)に音声認識部22における認
識結果を示す。音声認識部22は上記の場合と同様に認
識処理した音声信号に対して1つの認識候補を出力する
のではなく、図10(B)に示すように複数の認識候補
を信頼度とともに出力する。ここでは『えいちおーてぃ
いーあい(HOTEI)』と『えいちおーてぃてぃえい
(HOTTA)』の2つが認識候補となった例を示して
いる。なお、この例では音声認識部22における認識結
果では『えいちおーてぃいーあい(HOTEI)』が最
上位の認識候補となっている。
【0040】認識結果統合部23は、n28で入力され
た認識結果を図8に示した変換テーブルを用いて、かな
表記に変換する正規化処理を行う(n29)。これによ
り、図10(B)の上段に示した認識候補リストを、下
段に示す正規化された認識候補リストに変換し、図10
(A)に示した認識候補リストと対応させる。そして、
認識結果統合部23は、n24で入力された認識候補リ
ストとn29で正規化された認識候補リストとを上記し
た実施形態と同様の手法で統合し、最終結果リスト(図
11参照)を作成し、認識対象文字列を獲得する(n3
0)。図11に示す認識結果リストにおいて、最上位の
認識候補となった『ほった』を認識対象文字列(認識結
果)として獲得する。
【0041】このように、この実施形態の音声認識装置
20は、未知語に対しても高い認識精度を得ることがで
きる。すなわち、この音声認識装置20を適用すること
によって、未知語に対する認識精度が要求される対話シ
ステムを実現できる。
【0042】なお、正規化知識ベース24に図8に示し
た変換テーブルに替えて、ローマ字表記の読みをかな表
記に変換する図12(A)に示す変換テーブルに置き換
えても良いし、また、アルファベットの音素をアルファ
ベット表記に変換するための変換テーブルおよびローマ
字表記をかな表記に変換する変換テーブルの2つの変換
テーブル(図12(B)参照)に置き換えてもよい。ま
た、『やまかわのやま(山川の山)』(山を入力する場
合)、『たんぼのた(田んぼの田)』(田を入力する場
合)のように例示を含めた発声による入力や、漢字の音
訓を読み替えた発声(例えば、『やま』を入力するとき
に『さん』と発声させる等)による入力等を用いてもよ
い。
【0043】さらに、この発明の別の実施形態について
説明する。図13はこの実施形態の音声認識装置の機能
を示すブロック図であり、図14はこの実施形態にかか
る音声認識装置の動作示すフローチャートである。この
実施形態にかかる音声認識装置30は、音声認識部32
における認識結果を正規化し、これを認識結果統合部3
3に入力する認識結果正規化部34を備えている。この
実施形態にかかる音声認識装置30は金額を認識する。
【0044】以下、この実施形態にかかる音声認識装置
30の動作について説明する。ガイダンス部36は、ユ
ーザに桁無しで金額の入力を指示する(n41)。例え
ば、『桁なしで金額をおっしゃって下さい。』というガ
イダンスを行う。このガイダンスに対して、ユーザが金
額を桁無しで発声する。例えば、ユーザは、『いちぜろ
によん(1024)』と発声する。音声入力部31は、
ユーザの発声を音声入力として受け付け(n42)、こ
れを音声認識部32に入力する。
【0045】音声認識部32は、公知のHMMを用いた
連続音声認識やDPマッチング等の手法により、入力さ
れた音声信号を認識し、認識結果を認識結果正規化部3
4に入力する(n43)。
【0046】なお、この実施形態の音声認識部32は、
認識した音声が『いち』であるときに『一』、『じゅ
う』であるとき『十』、『ひゃく』であるときに『百』
というように、漢数字でラベルを出力する。
【0047】認識結果正規化部34は、入力された認識
結果を正規化知識ベース35に記憶されている変換テー
ブル(不図示)を用いて正規化する(n44)。n44
では、漢数字をアラビア数字に変換する処理を行う。例
えば、音声認識部32から入力された認識候補リストが
図15(A)に示すものであった場合、図15(B)に
示す認識候補リストを作成する。そして、認識結果正規
化部34は正規化した認識候補リストを認識結果統合部
43に入力する(n45)。図15では、『7024』
が最上位の認識候補となっている。
【0048】n45の処理が完了すると、ガイダンス部
37がユーザに対して桁有りで金額の入力を指示する
(n46)。例えば、『今度は、桁有りで金額をおっし
ゃって下さい。』というガイダンスを行う。このガイダ
ンスに対して、ユーザが『せんにじゅうよん』と発声す
る。音声入力部31は、ユーザの発声を音声入力として
受け付け、音声認識部32に入力する(n47)。音声
認識部32は入力された音声を認識し、その認識結果を
認識結果正規化部34に入力する(n48)。
【0049】音声認識部32における認識結果を図16
(A)に示す。ここでは、『二千二十四』が最上位の認
識候補として認識されている。認識結果正規化部34
は、図16(A)に示す認識候補リストを正規化した図
16(B)に示すリストを作成し、これを認識結果統合
部33に入力する(n49)。
【0050】認識結果統合部33は、上記した実施形態
のものと同様に、図15(B)および図16(B)に示
す正規化された認識候補リストを統合して、図17に示
す認識結果リストを作成し、入力された音声に対する認
識文字列を獲得する(n50)。
【0051】図17に示すように認識結果リストでは、
正解である『1024』が最上位の認識候補となってお
り、音声認識装置30は、この認識結果リストにおける
最上位の認識候補を認識対象文字列(認識結果)として
獲得する。この認識結果は対話システムへの入力等にな
る。
【0052】このように、この実施形態にかかる音声認
識装置30も言い回しを替えることによって音韻の異な
らせた音声を認識させることによって、認識精度を大幅
に向上させることができる。これにより、金額を入力す
る対話システム(例えば、ATMの対話システム等)も
容易に実現することができる。
【0053】なお、上記の3つの実施形態では、ID番
号、苗字、金額を音声で入力する場合を例示したが、本
願発明は地名(ナビゲーションシステム)、駅名(券売
機)等の他の種類の単語を音声で入力する音声認識装置
にも適用できる。
【0054】
【発明の効果】以上のように、この発明によれば、言い
回しを替えることによって、音韻を異ならせた2種類以
上の音声を入力し、各音声について認識した認識結果を
統合することによって最終的な認識結果を獲得するよう
にしたため、悪環境下においても十分な認識精度を得る
ことができるとともに、未知語に対しても十分な認識精
度を得ることができる。
【図面の簡単な説明】
【図1】この発明にかかる音声認識装置の概要を示すブ
ロック図である。
【図2】この発明にかかる音声認識装置の動作を示すフ
ローチャートである。
【図3】この発明の実施形態である音声認識装置の機能
構成を示すブロック図である。
【図4】この実施形態の音声認識装置に用いる辞書の構
成を示す図である。
【図5】この実施形態の音声認識装置の動作を示すフロ
ーチャートである。
【図6】この実施形態の音声認識装置における認識結果
リストを作成する処理を示す図である。
【図7】この発明の別の実施形態にかかる音声認識装置
の機能構成を示すブロック図である。
【図8】正規化知識ベースに登録されている変換テーブ
ルを示す図である。
【図9】この発明の別の実施形態にかかる音声認識装置
の処理を示すフローチャートである。
【図10】別の実施形態の音声認識装置における認識候
補リストを示す図である。
【図11】別の実施形態の音声認識装置における認識結
果リストを作成する処理を示す図である。
【図12】正規化知識ベースに登録される別の変換テー
ブルを示す図である。
【図13】この発明のさらに別の実施形態にかかる音声
認識装置の機能構成を示すブロック図である。
【図14】別の実施形態にかかる音声認識装置の処理を
示すフローチャートである。
【図15】別の実施形態の音声認識装置における認識候
補リストの正規化を示す図である。
【図16】別の実施形態の音声認識装置における認識候
補リストの正規化を示す図である。
【図17】別の実施形態の音声認識装置における認識結
果リストを作成する処理を示す図である。
【符号の説明】
1、10、20、30−音声認識装置 2、11、21、31−音声入力部 3−制御部 3a、12、22、32−音声認識部 3b、13、23、33−認識結果統合部

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 任意の認識対象文字列について音声によ
    る入力を受け付ける音声入力部と、 前記音声入力部に入力された音声を認識し、前記認識対
    象文字列を獲得する制御部と、を備え、 前記制御部は、前記認識対象文字列について言い回しを
    替えることによって、音韻を異ならせた2種類以上の音
    声が入力されたとき、音韻が異なる音声毎に認識した認
    識結果を統合して前記認識対象文字列を獲得する音声認
    識装置。
  2. 【請求項2】 前記音声入力部に入力する音声の言い回
    し方を指示するガイダンス部を備えた請求項1に記載の
    音声認識装置。
  3. 【請求項3】 前記ガイダンス部は、音声により上記指
    示を行う請求項2に記載の音声認識装置。
  4. 【請求項4】 音韻が異なる音声毎に認識した認識結果
    間の対応関係を示す情報を記憶した記憶部を備えた請求
    項1、2または3のいずれかに記載の音声認識装置。
  5. 【請求項5】 任意の認識対象文字列について音声によ
    る入力を受け付け、該音声を認識して前記認識対象文字
    列を獲得する音声認識方法において、 前記認識対象文字列について言い回しを替えることによ
    って、音韻を異ならせた2種類以上の音声を入力し、音
    韻が異なる音声毎に認識した認識結果を統合して前記認
    識対象文字列を獲得する音声認識方法。
  6. 【請求項6】 任意の認識対象文字列について音声によ
    る入力を受け付ける第1のステップと、 入力された音声を認識し、前記認識対象文字列を獲得す
    る第2のステップと、を有する音声認識プログラムを記
    録した記録媒体において、 前記第1のステップでは、前記認識対象文字列について
    言い回しを替えることによって、音韻を異ならせた2種
    類以上の音声を入力を受け付け、 前記第2のステップは、音韻が異なる音声毎に認識する
    ステップであり、 さらに、音韻が異なる音声毎に認識された認識結果を統
    合して前記認識対象文字列を獲得する第3のステップを
    有する音声認識プログラムを記録した記録媒体。
JP10305477A 1998-10-27 1998-10-27 音声認識装置、音声認識方法および音声認識プログラムを記録した記録媒体 Pending JP2000132184A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10305477A JP2000132184A (ja) 1998-10-27 1998-10-27 音声認識装置、音声認識方法および音声認識プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10305477A JP2000132184A (ja) 1998-10-27 1998-10-27 音声認識装置、音声認識方法および音声認識プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2000132184A true JP2000132184A (ja) 2000-05-12

Family

ID=17945638

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10305477A Pending JP2000132184A (ja) 1998-10-27 1998-10-27 音声認識装置、音声認識方法および音声認識プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2000132184A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010151941A (ja) * 2008-12-24 2010-07-08 Toyota Central R&D Labs Inc 音声応答装置、及びプログラム
JP2011027979A (ja) * 2009-07-24 2011-02-10 Fujitsu Ltd 音声翻訳装置及び音声翻訳方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010151941A (ja) * 2008-12-24 2010-07-08 Toyota Central R&D Labs Inc 音声応答装置、及びプログラム
JP2011027979A (ja) * 2009-07-24 2011-02-10 Fujitsu Ltd 音声翻訳装置及び音声翻訳方法

Similar Documents

Publication Publication Date Title
US5787230A (en) System and method of intelligent Mandarin speech input for Chinese computers
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US6363347B1 (en) Method and system for displaying a variable number of alternative words during speech recognition
US6694296B1 (en) Method and apparatus for the recognition of spelled spoken words
US5794204A (en) Interactive speech recognition combining speaker-independent and speaker-specific word recognition, and having a response-creation capability
US8731928B2 (en) Speaker adaptation of vocabulary for speech recognition
US7421387B2 (en) Dynamic N-best algorithm to reduce recognition errors
KR100769029B1 (ko) 다언어의 이름들의 음성 인식을 위한 방법 및 시스템
JP4680714B2 (ja) 音声認識装置および音声認識方法
US20080147404A1 (en) System and methods for accent classification and adaptation
KR20010096490A (ko) 이동통신을 위한 철자 음성인식장치 및 방법
JP2008209717A (ja) 入力された音声を処理する装置、方法およびプログラム
JP3476007B2 (ja) 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体
US20220180864A1 (en) Dialogue system, dialogue processing method, translating apparatus, and method of translation
US6963834B2 (en) Method of speech recognition using empirically determined word candidates
WO2004047075A1 (ja) 音声処理装置および方法、記録媒体並びにプログラム
JP2003186494A (ja) 音声認識装置および方法、記録媒体、並びにプログラム
JP3825526B2 (ja) 音声認識装置
JP4230142B2 (ja) 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術
Mittal et al. Speaker-independent automatic speech recognition system for mobile phone applications in Punjabi
JP2000132184A (ja) 音声認識装置、音声認識方法および音声認識プログラムを記録した記録媒体
KR101250897B1 (ko) 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법
JP2003271183A (ja) 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体
JP2003162524A (ja) 言語処理装置
JP3378547B2 (ja) 音声認識方法及び装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060210

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060228