JP2005275348A - 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 - Google Patents

音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 Download PDF

Info

Publication number
JP2005275348A
JP2005275348A JP2004259584A JP2004259584A JP2005275348A JP 2005275348 A JP2005275348 A JP 2005275348A JP 2004259584 A JP2004259584 A JP 2004259584A JP 2004259584 A JP2004259584 A JP 2004259584A JP 2005275348 A JP2005275348 A JP 2005275348A
Authority
JP
Japan
Prior art keywords
reliability
speech recognition
speech
word
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004259584A
Other languages
English (en)
Inventor
Yuichi Nakazawa
裕一 中澤
Katsutoshi Ofu
克年 大附
Nobuaki Hiroshima
伸章 廣嶋
Yoshihiko Hayashi
林  良彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004259584A priority Critical patent/JP2005275348A/ja
Publication of JP2005275348A publication Critical patent/JP2005275348A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 単語系列における言語的妥当性を情報として使用して音声認識結果に対して精度の高い認識結果の信頼度を付与する音声認識方法、装置、プログラム、記録媒体。
【解決手段】入力される音声信号から抽出した音響特徴パラメータに対して、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力する音声認識装置において、音声認識部1と、音声認識部1から得られた認識結果の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性の評価を行い、信頼度を付与する信頼度付与部3と、信頼度付与部3で求めた信頼度と音声認識結果とを出カさせる信頼度付認識結果出力部4とを有し、音声認識結果の言語的妥当性に基づいて信頼度を求める音声認識装置。
【選択図】 図1

Description

この発明は、音声認識方法、この方法を実施する装置、プログラムおよび記録媒体に関し、特に、入力音声信号に対する音声認識処理により得られる認識結果に付随して、認識結果の信頼度を出力する音声認識方法、この方法を実施する装置、プログラムおよび記録媒体に関する。
音声認識では一般に、入力音声信号を分析して得られる音響的特徴量の系列と音声をモデル化した音響モデルとの間で尤度を算出し、認識すべき語彙、単語間の接続のしやすさ、規則を表す言語モデルなどの言語的制約の中において尤度の最も高い候補を認識結果として出力する。しかし、入力音声信号においては、発声に曖昧さがあり、ノイズ、音声以外の音響信号が入力されることにより、誤った認識結果を出力する可能性が高くなる。また、入力音声信号が未登録語である場合は正しい認識結果を出力することができない。
以上の問題に対して、音声認識結果に認識結果の信頼度を付与することにより、信頼度の高さにより認識結果を受理、棄却若しくは結果の確認を行うことが可能となり、音声認識結果を用いる種々の装置において音声認識誤りに起因する発声者の想定外の動作を抑制することができる。
ここで、認識結果の信頼度を計算するに、単語事後確率を用いて計算することが行われている(非特許文献1、2 参照)。この計算方法においては、単語の音響尤度、単語の言語尤度、forward確率、backward確率を用いて文中の単語に対する信頼度を算出している。
そして、認識結果の信頼度を計算するに、N-best候補を用いて計算することが行われている(非特許文献1 参照)。この方法は、音響尤度、言語尤度などを用いて認識結果候補をN位まで作成し、作成された候補を用いて信頼度を算出する。この方法は、複数の候補に多く出現している単語は信頼度が高いとしている。
また、認識結果の信頼度を決定するに、競合モデルを用いて決定することも行われている(特許文献1 参照)。この方法は、音声認識に用いたモデルと競合モデルの2種類のモデルを使用する。各モデルにおいてそれぞれ尤度を求め、得られた尤度から尤度比を算出し、認識結果の信頼度として付与する。
更に、認識結果の信頼度を決定するに、複数の音声認識モデルを用いて決定することも行われている(非特許文献3 参照)。この方法は、音声認識モデルを2つ以上用いて音声認識を行い、全ての音声認識モデルで信頼できると判断された共通部分が信頼できる部分と判断するものである。
特開平11−85188号 公報 Frank Wessel, Ralf Schluter, Klaus Macherey, Hermann Ney:"Confidence Measure for Large Vocabulary Continuous Speech Recognition"、IEEE Transactions Speech and Audio Process Vol.9 No.3 pp.288-298, 2001 Thomas Kemp, Thomas Schaaf: "Estimating confidence using word lattices", Proc.5th Eurospeech, pp. 827-830, 1997 宇津呂 武仁、西崎 博光、小玉 康広、中川 聖一:「複数の大語彙連続音声認識モデルの出力の共通部分を用いた高信頼度部分の推定」、電子情報通信学会論文誌 D-II Vol. J86-D-II No.7 pp.974-987, 2003
上述した従来例においては、信頼度を計算するに際して、情報としては信頼度を付与する対象とする単語についての情報しか使用しないところから、文法的に不適切な単語系列であっても、単語系列に含まれる個々の単語に高い信頼度を付与するという問題があった。
ところで、誤認識された音声認識結果の様な文法的に誤りのある文章を読んだ場合、人間は認識した音声を聞かなくてもこの単語の系列を判別材料としてその文章が誤っていることを判別することができる。更に、その文章のどの部分が誤っているかを判別することができる場合も多く存在する。このことは、単語系列の言語的妥当性および/或いは意味的妥当性に各単語の信頼度の判別材料が含まれていることを意味している。
この発明は、以上のことから、一例として音声認識結果の単語系列に含まれる各単語の品詞情報、言語情報、意味情報の接続に着目する、ことにより単語系列の言語的妥当性を評価して信頼度を算出して、従来の音声認識と比較して音声認識結果に対してより精度の高い認識結果の信頼度を付与するものである。
請求項1:入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力する音声認識方法において、入力された音声を認識して認識結果として単語系列を得る音声認識ステップと、音声認識ステップから得られた認識結果の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性の評価を行い、信頼度を付与する信頼度付与ステップと、信頼度付与ステップで求めた信頼度と音声認識結果とを出力させる信頼度付認識結果出力ステップとを有し、音声認識結果の言語的妥当性に基づいて信頼度を求める音声認識方法を構成した。
そして、請求項2:請求項1に記載される音声認識方法において、信頼度付与ステップについて、複数の単語を一つのシンボルで表した単語クラスを用いて信頼度を付与する音声認識方法を構成した。
また、請求項3:請求項2に記載される音声認識方法において、信頼度付与ステップについて、音声認識時に得られた各単語の品詞をシンボルとして用いて信頼度を付与する音声認識方法を構成した。
更に、請求項4:請求項1ないし請求項3の内の何れかに記載される音声認識方法において、信頼度付与ステップについて、認識時に得られた音響尤度スコア、言語尤度スコアの内の一方或いは双方を用いて信頼度を付与する音声認識方法を構成した。
ここで、請求項5:入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力する音声認識装置において、入力された音声を認識して認識結果として単語系列を得る音声認識部1と、音声認識部1から得られた認識結果の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性の評価を行い、信頼度を付与する信頼度付与部3と、信頼度付与部3で求めた信頼度と音声認識結果とを出カさせる信頼度付認識結果出力部4とを有し、音声認識結果の言語的妥当性に基づいて信頼度を求める音声認識装置を構成した。
そして、請求項6:請求項5に記載される音声認識装置において、信頼度付与部3について、複数の単語を一つのシンボルで表した単語クラスを用いて信頼度を付与する音声認識装置を構成した。
また、請求項7:請求項6に記載される音声認識装置において、信頼度付与部3について、音声認識時に得られた各単語の品詞をシンボルとして用いて信頼度を付与する音声認識装置を構成した。
更に、請求項8:請求項5ないし請求項7の内の何れかに記載される音声認識装置において、信頼度付与部3について、音声認識時に得られた音響尤度スコア、言語尤度スゴアの内の一方或いは双方を用いて信頼度を付与する音声認識装置を構成した。
ここで、請求項9:入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力することをコンピュータに実行させるための音声認識プログラムにおいて、入力された音声を認識して認識結果として単語系列を得る音声認識ステップと、前記音声認識ステップから得られた認識結果の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性の評価を行い、信頼度を付与する信頼度付与ステップと、前記信頼度付与ステップで求めた信頼度と音声認識結果を出力させる信頼度付認識結果出カステップと、をコンピュータに実行させ、音声認識結果の言語的妥当性に基づいて信頼度を求める音声認識プログラムを構成した。
そして、請求項10:請求項9に記載される音声認識プログラムにおいて、信頼度付与ステップについて、複数の単語を一つのシンボルで表した単語クラスを用いて信頼度を付与することをコンピュータに実行させる音声認識プログラムを構成した。
また、請求項11:請求項9及び請求項10に記載される音声認識プログラムにおいて、信頼度付与ステップについて、認識時に得られた各単語の品詞を用いて信頼度を付与することをコンピュータに実行させる音声認識プログラムを構成した。
更に、請求項12:請求項9及び請求項10の内の何れかに記載される音声認識プログラムにおいて、信頼度付与ステップにっいて、認識時に得られた音響尤度スコア、言語尤度スコアの内の一方或いは双方を用いて信頼度を付与することをコンピュータに実行させる音声認識プログラムを構成した。
そして、請求項13:請求項9ないし請求項12の内の何れかに記載される音声認識プログラムを記録した記録媒体を構成した。
請求項14:入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力する音声認識方法において、入力された音声を認識して認識結果として単語系列を得る音声認識ステップと、音声認識ステップから得られた認識結果である1或いは複数の先行語および/或いは後続語の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性および/或いは意味的妥当性の評価を行い、信頼度を付与する信頼度付与ステップと、信頼度付与ステップで求めた信頼度と音声認識結果とを出力させる信頼度付認識結果出力ステップとを有し、音声認識結果の言語的妥当性および/或いは意味的妥当性に基づいて信頼度を求める音声認識方法を構成した。
請求項15:請求項2に記載される音声認識方法において、信頼度付与ステップについて、音声認識時に得られた各単語の品詞細分類をシンボルとして用いて、信頼度を付与する音声認識方法を構成した。
請求項16:請求項2に記載される音声認識方法において、信頼度付与ステップについて、音声認識時に得られた各単語の概念情報をシンボルとして用いて、信頼度を付与する音声認識方法を構成した。
請求項17:請求項2に記載される音声認識方法において、信頼度付与ステップについて、音声認識時に得られた各単語の品詞、品詞再分類、概念情報の1つ以上をシンボルとして用いて、信頼度を付与する音声認識方法を構成した。
請求項18:請求項1ないし請求項3、請求項14ないし請求項17の内の何れかに記載される音声認識方法において、信頼度付与ステップについて、認識時に得られた各単語の音響尤度スコア、言語尤度スコアの内の一方或いは双方を用いて信頼度を付与する音声認識方法を構成した。
請求項19:入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力する音声認識装置において、入力された音声を認識して認識結果として単語系列を得る音声認識部と、音声認識部から得られた認識結果である1或いは複数の先行語および/或いは後続語の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性および/或いは意味的妥当性の評価を行い、信頼度を付与する信頼度付与部と、信頼度付与部で求めた信頼度と音声認識結果とを出カさせる信頼度付認識結果出力部とを有し、音声認識結果の言語的妥当性および/或いは意味的妥当性に基づいて信頼度を求める音声認識装置を構成した。
請求項20:請求項19に記載される音声認識装置において、信頼度付与部において、音声認識時に得られた各単語の品詞細分類をシンボルとして用いて、信頼度を付与する音声認識装置を構成した。
請求項21:請求項19に記載される音声認識装置において、信頼度付与部において、音声認識時に得られた各単語の概念情報をシンボルとして用いて、信頼度を付与する音声認識装置を構成した。
請求項22:請求項19に記載される音声認識装置において、信頼度付与部において、音声認識時に得られた各単語の品詞、品詞再分類、概念情報の1つ以上をシンボルとして用いて信頼度を付与する音声認識装置を構成した。
請求項23:請求項5ないし請求項7、請求項19ないし請求項22の内の何れかに記載される音声認識装置において、信頼度付与部において、認識時に得られた各単語の音響尤度スコア、言語尤度スコアの内の一方或いは双方をシンボルとして用いて信頼度を付与する音声認識装置を構成した。
請求項24:入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力することをコンピュータに実行させるための音声認識プログラムにおいて、入力された音声を認識して認識結果として単語系列を得る音声認識ステップと、前記音声認識ステップから得られた認識結果である1或いは複数の先行語および/或いは後続語の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性および/或いは意味的妥当性の評価を行い、信頼度を付与する信頼度付与ステップと、前記信頼度付与ステップで求めた信頼度と音声認識結果を出力させる信頼度付認識結果出カステップと、をコンピュータに実行させ、音声認識結果の言語的妥当性および/或いは意味的妥当性に基づいて信頼度を求める音声認識プログラムを構成した。
請求項25:請求項24に記載される音声認識プログラムにおいて、信頼度付与ステップについて、複数の単語を一つのシンボルで表した単語クラスを用いて信頼度を付与することをコンピュータに実行させる音声認識プログラムを構成した。
請求項26:請求項24および請求項25の内の何れかに記載される音声認識プログラムにおいて、信頼度付与ステップについて、認識時に得られた各単語の品詞を用いて信頼度を付与することをコンピュータに実行させる音声認識プログラムを構成した。
請求項27:請求項24および請求項25の内の何れかに記載される音声認識プログラムにおいて、信頼度付与ステップについて、認識時に得られた音響尤度スコア、言語尤度スコアの内の一方或いは双方を用いて信頼度を付与することをコンピュータに実行させる音声認識プログラムを構成した。
この発明は、信頼度を算出するに際して、単語系列における言語的妥当性を情報として使用するところから、広い範囲の情報を用いることができ、従来の音声認識方法と比較して音声認識結果に対してより精度の高い認識結果の信頼度を付与することができる。
そして、以上の単語系列における言語的妥当性に代えて、単語系列における意味的妥当性或いは単語系列における言語的妥当性および意味的妥当性を使用することに依っても、同様に精度の高い認識結果の信頼度を付与することができる。
発明を実施するための最良の形態を図1、2を参照して説明する。図1はこの発明において使用される音声認識結果信頼性判別装置を説明する図であり、図2は音声認識部を説明する図である。
音声認識部1は、入力音声信号11を音響分析部51において音響特徴パラメータ13に変換する。音響特徴パラメータとは、入力音声を数10msecのフレームと呼ばれる単位で分析して得られるLPCケプストラム、MFCCその他のパラメータである。この音響特徴パラメータ13について、音響モデル格納部5と辞書・言語モデル格納部6とを用いて、或る一定の基準に基づいて区切られた発話単位毎に、認識結果候補の探索を、探索部52において行う。探索の結果、上位N位までのN−best候補と候補に対するスコアを算出する。即ち、HMMを用いて音響スコア15を算出し、単語n−gramを用いて言語スコア16を算出し、音響スコア15と言語スコア16の和である単語スコア17を出力する。その結果、認識結果の単語系列12、及び単語系列に含まれる各単語の品詞情報14、音響スコア15、言語スコア16、単語スコア17を出力する。但し、次の信頼度付与部3で信頼度を算出する際に用いないものは出力しなくてもよい。或る一定の基準に基づいて区切られた発話単位の例を例1に示す。
例1:音声認識部から発話単位に出力される認識結果の単語系列
・ 『その辺ではかなり収益も上がるんじゃないかなと思います。』
・ 『なるほどね。』
・ 『今、あの韓国に買い物行くツアーとか、そういうのが非常に流行ってるんですが、』
・ 『ん一』
信頼度付与部3では、音声認識部1で得られた単語系列12の各単語に対して、先行若しくは後続単語の1語以上の並びとの接続を評価することで、言語的妥当性の評価を行い、信頼度を算出、付与し、信頼度付認識結果130を得る。信頼度を算出する要素の一例として、単語系列12に含まれる各単語の、品詞情報14、音響スコアユ5、言語スコア16、単語スコア17の全部または一部が入力される。また、信頼度を算出する要素の一例として、信頼度付与の対象となる当該単語の先行語及び後続語のそれぞれ少なくとも1語について当該単語と同様の要素を用いる。ここで、信頼度を付与する具体的な手法として、複数の単語を一つのシンボルで表した単語クラスを用いて信頼度を付与することが行われる。シンボル化とは、一例として、「品詞」という観点から複数の単語に品詞を付与して複数の単語を品詞により表し、或いは、「文字数」という観点から各単語の文字数を数えて複数の各単語を文字数により表すことをいう。信頼度付与部3について、更に具体的に説明するに、信頼度付与部3において、単語系列においてn語目に位置する単語Wn の信頼度を算出する際に、音声認識部1から得た出力情報(認識結果の単語系列12、及びこの単語系列に含まれる各単語の品詞情報14、音響スコア15、言語スコア16、単語スコア17)について、信頼度を付与する当該単語Wn の音声認識部1から得た出力情報に加えて、先行語M語(Wn-M,・・・,Wn-1)及び後続語L語(Wn+1,・・・,Wn+L)それぞれの音声認識部1から得た出力情報を用いて特徴量ベクトルを作成する。ただし、音響スコア15、言語スコア16、単語スコア17については、0〜1の値に正規化したものを用いる。また、単語Wn が単語系列において文頭からM語或いは文末からL語以内に位置する場合、音声認識部1から得た出力情報を得るために充分な数の先行語或いは後続語が存在しない状況となる。この場合、文頭処理或いは文末処理として、存在しない先行語或いは後続語の音響スコア、言語スコア、単語スコアとして予め定義した固定値を与える。
信頼度付認識結果出力部4では、音声認識部から得られた単語系列12と信頼度付与部3で各単語に付与された信頼度とを合わせ、信頼度付認識結果の出力を行う。
以上の様にして得た特徴量ベクトルについて、機械学習を用いて分析を行う。1単語にいて、37種類の品詞情報、音響スコア、言語スコア、単語スコアを用いた計40次元の素性とし、信頼度の算出時には合計で[情報を使用する単語数×40]次元の素性を用いて評価を行う。先ず、学習データを用意して上述の素性と単語の正誤を学習し、識別モデルを作成する。次に、評価データを用意し、識別モデルを用いて評価を行うことにより、単語系列における各単語の認識の正誤の判別結果を出力する。この実施例は、先行語および後続語共に1語づつ、計120次元を素性とする。
この発明による効果を41本の放送ニュースデータ及び7本の会議音声データの連続単語認識において、語彙数約3万のtrigram言語モデル、性別非依存、状態数約5000、各状態の混合数8(ニュース)及び12(会議)の状態共有triphone音響モデルを用いて評価した。用いたデータの概要を表1に示す。
Figure 2005275348
放送ニュースデータについては、2ないし4本を1データセットとし、1データセットを評価用データ、残りの13データセットを学習用データとする評価を行い、14データセットのデータをそれぞれ1回ずつ評価用データとして計14回の評価を行った。各評価で再現率、適合率を求め、平均値を算出した。会議音声データについても、同様に計7回の評価を行い、再現率、適合率の平均値を算出した。また、この発明は、言語的妥当性を評価する手段の一つとして、機械学習を用いた。文頭及び文末処理に与える固定値は1とした。
また、比較のために、上述の評価実験を表2に示す実験ID1〜ID4の4つの条件で行った。但し、表2中のスコアとは、正規化された音響スコア、言語スコア、単語スコアを指す。実験ID1は実施例で使用した情報を示し、実験ID4は従来技術に相当する手法で使用した情報を示す。評価結果を表3に示す。
Figure 2005275348
Figure 2005275348
表3の各結果を見るに、実施例の実験ID1と従来例の実験ID4を比較すると、連続単語認識において品詞情報を用いて先行語及び後続語の情報を素性として用いることから、単語系列の言語的妥当性に基づいた信頼度を用いると精度の高い結果を得ることができることが認識される。即ち、ニュース音声の再現率及び適合率、会議音声の再現率及び適合率の何れについても、実施例の実験ID1の評価結果は、従来例の実験ID4の評価結果と比較して、上回っていることを認識することができる。
また、表2および表3を参照して、実験ID3と実験ID4との間の比較、及び実験ID2と実験ID4との間の比較をしてみる。先ず、実験ID3と実験ID4についてみると、実験ID3の如く当該単語の他に先行語及び後続語を情報として使用しても、これらを情報として使用しない従来例の実験ID4と比較して、会議音声の再現率を除いて必ずしも良好な効果は得られない。実験ID2と実験ID4についてみると、実験ID2の如く当該単語のみに着目してその品詞情報を使用してみても、この情報を使用しない従来例の実験ID4と比較して、会議音声の再現率を除いて必ずしも良好な効果は得られない。以上の結果からみて、単語の並びと言語情報の双方に着目することがより高い再現率および適合率の向上を実現することができ、これが音声認識結果に対するより精度の高い信頼度の付与につながる。
発明を実施するための更なる形態を図3、4を参照して説明する。図3はこの発明において使用される音声認識結果信頼性判別装置を説明する図であり、図4は音声認識部を説明する図である。
音声認識部1は、入力音声信号11を音響分析部51において音響特徴パラメータ13に変換する。音響特徴パラメータとは、入力音声を数10msecのフレームと呼ばれる単位で分析して得られるLPCケプストラム、MFCCその他のパラメータである。この音響特徴パラメータ13について、音響モデル格納部5と辞書・言語モデル格納部6とを用いて、或る一定の基準に基づいて区切られた発話単位毎に、認識結果候補の探索を、探索部52において行う。探索の結果、上位N位までのN−best候補と候補に対するスコアを算出する。即ち、HMMを用いて音響スコア15を算出し、単語n-gramを用いて言語スコア16を算出し、音響スコア15と言語スコア16の和である単語スコア17を出力する。その結果、認識結果の単語系列12、及び単語系列に含まれる各単語の品詞情報14、音響スコア15、言語スコア16、単語スコア17、品詞細分類20、意味カテゴリ21を出力する。意味カテゴリ付与部53では、探索部52より得られた単語系列に含まれる各単語について、意味カテゴリ情報を意味情報格納部8より検索し、意味カテゴリ21を付与する。但し、言語モデル・辞書格納部6に意味カテゴリ情報が含まれていてその意味カテゴリ情報を各単語に付与できる場合は、意味カテゴリ付与部53を音声認識部1に含める必要および意味情報格納部8を使用する必要は無い。但し、次の信頼度付与部3で信頼度を算出する際に用いないものは出力しなくてもよい。或る一定の基準に基づいて区切られた発話単位の例を例1に示す。
例1:音声認識部から発話単位に出力される認識結果の単語系列
・ 『その辺ではかなり収益も上がるんじゃないかなと思います。』
・ 『なるほどね。』
・ 『今、あの韓国に買い物行くツアーとか、そういうのが非常に流行ってるんですが、』
・ 『ん一』
信頼度付与部3では、音声認識部1で得られた単語系列12の各単語に対して、先行若しくは後続単語の1語以上の並びとの接続を評価することで、言語的妥当性および/或いは意味的妥当性の評価を行い、信頼度を算出、付与し、信頼度付認識結果130を得る。信頼度を算出する要素の一例として、単語系列12に含まれる各単語の、品詞情報14、音響スコア15、言語スコア16、単語スコア17、品詞細分類20、意味カテゴリ21の全部または一部が入力される。また、信頼度を算出する要素の一例として、信頼度付与の対象となる当該単語の先行語及び後続語のそれぞれ少なくとも1語について当該単語と同様の要素を用いる。ここで、信頼度を付与する具体的な手法として、複数の単語を一つのシンボルで表した単語クラスを用いて信頼度を付与することが行われる。シンボル化とは、一例として、「品詞」という観点から複数の単語に品詞を付与して複数の単語を品詞により表し、或いは、「文字数」という観点から各単語の文字数を数えて複数の各単語を文字数により表すことをいう。信頼度付与部3について、更に具体的に説明するに、信頼度付与部3において、単語系列においてn語目に位置する単語Wn の信頼度を算出する際に、音声認識部1から得た出力情報(認識結果の単語系列12、及びこの単語系列に含まれる各単語の品詞情報14、音響スコア15、言語スコア16、単語スコア17、品詞細分類20、意味カテゴリ21)について、信頼度を付与する当該単語Wn の音声認識部1から得た出力情報に加えて、先行語M語(Wn-M,・・・,Wn-1)及び後続語L語(Wn+1,・・・,Wn+L)それぞれの音声認識部1から得た出力情報を用いて特徴量ベクトルを作成する。ただし、音響スコア15、言語スコア16、単語スコア17については、0〜1の値に正規化したものを用いる。また、単語Wn が単語系列において文頭からM語或いは文末からL語以内に位置する場合、音声認識部1から得た出力情報を得るために充分な数の先行語或いは後続語が存在しない状況となる。この場合、文頭処理或いは文末処理として、存在しない先行語或いは後続語の音響スコア、言語スコア、単語スコアとして予め定義した固定値を与える。
信頼度付認識結果出力部4では、音声認識部から得られた単語系列12と信頼度付与部3で各単語に付与された信頼度とを合わせ、信頼度付認識結果の出力を行う。
この発明による効果を41本の放送ニュースデータおよび7本の会議音声データの連続単語認識において、語彙数約3万のtrigram言語モデル、性別非依存、状態数約5000、各状態の混合数8(ニュース)および12(会議)の状態共有triphone音響モデルを用いて評価した。用いたデータの概要を表4に示す。
Figure 2005275348
放送ニュースデータについては、2ないし4本を1データセットとし、1データセットを評価用データ、残りの13データセットを学習用データとする評価を行い、14データセットのデータをそれぞれ1回ずつ評価用データとして計14回の評価を行った。各評価で再現率、適合率を求め、平均値を算出した。会議音声データについても、同様に計7回の評価を行い、再現率、適合率の平均値を算出した。また、この評価では、言語的妥当性を評価する手段の一つとして、機械学習を用いた。1単語につき、37種類の品詞情報、音響スコア、言語スコア、単語スコアを用いた計40次元の素性とし、信頼度の算出時には合計で[情報を使用する単語数×40]次元の素性を用いて評価を行う。先ず、学習データを用意して上述の素性と単語の正誤を学習し、識別モデルを作成する。次に、評価データを用意し、識別モデルを用いて評価を行うことにより、単語系列における各単語の認識の正誤の判別結果を出力する。.本実施例では、先行語後続語共に1語ずつ、計120次元を素性とする。文頭および文末処理に与える固定値は1とした。
また、比較のために、上述の評価実験を表5に示す実験ID1〜ID4の4つの条件で行った。但し、表5中のスコアとは、正規化された音響スコア、言語スコア、単語スコアを指す。実験ID1は実施例で使用した情報を示し、実験ID4は従来技術に相当する手法で使用した情報を示す。評価結果を表6に示す。
Figure 2005275348
Figure 2005275348
表6の各結果を見るに、実施例の実験ID1と従来例の実験ID4を比較すると、連続単語認識において品詞情報を用いて先行語及び後続語の情報を素性として用いることから、単語系列の言語的妥当性に基づいた信頼度を用いると精度の高い結果を得ることができることが認識される。即ち、ニュース音声の再現率及び適合率、会議音声の再現率及び適合率の何れについても、実施例の実験ID1の評価結果は、従来例の実験ID4の評価結果と比較して、上回っていることを認識することができる。
また、表5および表6を参照して、実験ID3と実験ID4との間の比較、及び実験ID2と実験ID4との間の比較をしてみる。先ず、実験ID3と実験ID4についてみると、実験ID3の如く当該単語の他に先行語及び後続語を情報として使用しても、これらを情報として使用しない従来例の実験ID4と比較して、会議音声の再現率を除いて必ずしも良好な効果は得られない。実験ID2と実験ID4についてみると、実験ID2の如く当該単語のみに着目してその品詞情報を使用してみても、この情報を使用しない従来例の実験ID4と比較して、会議音声の再現率を除いて必ずしも良好な効果は得られない。以上の結果からみて、単語の並びと言語情報の双方に着目することがより高い再現率および適合率の向上を実現することができ、これが音声認識結果に対するより精度の高い信頼度の付与につながる。
入力音声信号に対応する文章の作成では、信頼度の低い部分を削除、若しくは信頼度め高い部分を強調するなどして、より効率的な活用が可能となる。
コンピュータと人間とが音声対話を用いてコミュニケーションを取る音声対話システムでは、認識した情報において、信頼度の高い部分に重みをつけて用いたり、信頼度の低い部分を再度確認したりなど、より効率的な対話を行うことができる。
上記例のように、この発明による音声認識方法を用いることにより、効率的な音声認識装置を開発することができる。
この発明において使用される音声認識結果信頼性判別装置を説明する図。 音声認識部を説明するブロック図。 他の音声認識結果信頼性判別装置を説明する図。 音声認識部を説明するブロック図。
符号の説明
1 音声認識部 11 入力音声信号
12 単語系列 13 音響特徴パラメータ
14 品詞情報 15 音響スコア
16 言語スコア 17 単語スコア
20 品詞細分類 21 意味カテゴリ
3 信頼度付与部 4 信頼度付認識結果出力部
5 音響モデル格納部 6 辞書・言語モデル格納部
52 探索部 51 音響分析部
130 信頼度付認識結果

Claims (27)

  1. 入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力する音声認識方法において、
    入力された音声を認識して認識結果として単語系列を得る音声認識ステップと、
    音声認識ステップから得られた認識結果である1或いは複数の先行語および/或いは後続語の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性の評価を行い、信頼度を付与する信頼度付与ステップと、
    信頼度付与ステップで求めた信頼度と音声認識結果とを出力させる信頼度付認識結果出力ステップとを有し、
    音声認識結果の言語的妥当性に基づいて信頼度を求めることを特徴とする音声認識方法。
  2. 請求項1に記載される音声認識方法において、
    信頼度付与ステップについて、複数の単語を一つのシンボルで表した単語クラスを用いて信頼度を付与することを特徴とする音声認識方法。
  3. 請求項2に記載される音声認識方法において、
    信頼度付与ステップについて、音声認識時に得られた各単語の品詞をシンボルとして用いて信頼度を付与することを特徴とする音声認識方法。
  4. 請求項1ないし請求項3の内の何れかに記載される音声認識方法において、
    信頼度付与ステップについて、認識時に得られた音響尤度スコア、言語尤度スコアの内の一方或いは双方を用いて信頼度を付与することを特徴とする音声認識方法。
  5. 入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力する音声認識装置において、
    入力された音声を認識して認識結果として単語系列を得る音声認識部と、
    音声認識部から得られた認識結果である1或いは複数の先行語および/或いは後続語の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性の評価を行い、信頼度を付与する信頼度付与部と、
    信頼度付与部で求めた信頼度と音声認識結果とを出カさせる信頼度付認識結果出力部とを有し、
    音声認識結果の言語的妥当性に基づいて信頼度を求めることを特徴とする音声認識装置。
  6. 請求項5に記載される音声認識装置において、
    信頼度付与部について、複数の単語を一つのシンボルで表した単語クラスを用いて信頼度を付与することを特徴とする音声認識装置。
  7. 請求項6に記載される音声認識装置において、
    信頼度付与部について、音声認識時に得られた各単語の品詞をシンボルとして用いて信頼度を付与することを特徴とする音声認識装置。
  8. 請求項5ないし請求項7の内の何れかに記載される音声認識装置において、
    信頼度付与部について、音声認識時に得られた音響尤度スコア、言語尤度スゴアの内の一方或いは双方を用いて信頼度を付与することを特徴とする音声認識装置。
  9. 入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力することをコンピュータに実行させるための音声認識プログラムにおいて、
    入力された音声を認識して認識結果として単語系列を得る音声認識ステップと、
    前記音声認識ステップから得られた認識結果である1或いは複数の先行語および/或いは後続語の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性の評価を行い、信頼度を付与する信頼度付与ステップと、
    前記信頼度付与ステップで求めた信頼度と音声認識結果を出力させる信頼度付認識結果出カステップと、
    をコンピュータに実行させ、
    音声認識結果の言語的妥当性に基づいて信頼度を求めることを特徴とする音声認識プログラム。
  10. 請求項9に記載される音声認識プログラムにおいて、
    信頼度付与ステップについて、複数の単語を一つのシンボルで表した単語クラスを用いて信頼度を付与することをコンピュータに実行させる音声認識プログラム。
  11. 請求項9及び請求項10に記載される音声認識プログラムにおいて、
    信頼度付与ステップについて、認識時に得られた各単語の品詞を用いて信頼度を付与することをコンピュータに実行させる音声認識プログラム。
  12. 請求項9及び請求項10の内の何れかに記載される音声認識プログラムにおいて、
    信頼度付与ステップにっいて、認識時に得られた音響尤度スコア、言語尤度スコアの内の一方或いは双方を用いて信頼度を付与することをコンピュータに実行させる音声認識プログラム、
  13. 請求項9ないし請求項12の内の何れかに記載される音声認識プログラムを記録した記録媒体。
  14. 入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力する音声認識方法において、
    入力された音声を認識して認識結果として単語系列を得る音声認識ステップと、
    音声認識ステップから得られた認識結果である1或いは複数の先行語および/或いは後続語の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性および/或いは意味的妥当性の評価を行い、信頼度を付与する信頼度付与ステップと、
    信頼度付与ステップで求めた信頼度と音声認識結果とを出力させる信頼度付認識結果出力ステップとを有し、
    音声認識結果の言語的妥当性および/或いは意味的妥当性に基づいて信頼度を求めることを特徴とする音声認識方法。
  15. 請求項2に記載される音声認識方法において、
    信頼度付与ステップについて、音声認識時に得られた各単語の品詞細分類をシンボルとして用いて、信頼度を付与する音声認識方法。
  16. 請求項2に記載される音声認識方法において、
    信頼度付与ステップについて、音声認識時に得られた各単語の概念情報をシンボルとして用いて、信頼度を付与する音声認識方法。
  17. 請求項2に記載される音声認識方法において、
    信頼度付与ステップについて、音声認識時に得られた各単語の品詞、品詞再分類、概念情報の1つ以上をシンボルとして用いて、信頼度を付与する音声認識方法。
  18. 請求項1ないし請求項3、請求項14ないし請求項17の内の何れかに記載される音声認識方法において、
    信頼度付与ステップについて、認識時に得られた各単語の音響尤度スコア、言語尤度スコアの内の一方或いは双方を用いて信頼度を付与することを特徴とする音声認識方法。
  19. 入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力する音声認識装置において、
    入力された音声を認識して認識結果として単語系列を得る音声認識部と、
    音声認識部から得られた認識結果である1或いは複数の先行語および/或いは後続語の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性および/或いは意味的妥当性の評価を行い、信頼度を付与する信頼度付与部と、
    信頼度付与部で求めた信頼度と音声認識結果とを出カさせる信頼度付認識結果出力部とを有し、
    音声認識結果の言語的妥当性および/或いは意味的妥当性に基づいて信頼度を求めることを特徴とする音声認識装置。
  20. 請求項19に記載される音声認識装置において、
    信頼度付与部において、音声認識時に得られた各単語の品詞細分類をシンボルとして用いて、信頼度を付与することを特徴とする音声認識装置。
  21. 請求項19に記載される音声認識装置において、
    信頼度付与部において、音声認識時に得られた各単語の概念情報をシンボルとして用いて、信頼度を付与することを特徴とする音声認識装置。
  22. 請求項19に記載される音声認識装置において、
    信頼度付与部において、音声認識時に得られた各単語の品詞、品詞再分類、概念情報の1つ以上をシンボルとして用いて信頼度を付与する音声認識装置。
  23. 請求項5ないし請求項7、請求項19ないし請求項22の内の何れかに記載される音声認識装置において、
    信頼度付与部において、認識時に得られた各単語の音響尤度スコア、言語尤度スコアの内の一方或いは双方をシンボルとして用いて信頼度を付与する音声認識装置。
  24. 入力される音声信号をディジタル信号に変換し、そのディジタル信号から音響特徴パラメータを抽出し、その抽出した音響特徴パラメータに対して、与えられた言語的制約のもとで、言語的単位の各カテゴリの特徴を表現した確率モデルの出力する確率に基づくスコアを計算し、最も高いスコアを示すモデルが表現するカテゴリを認識結果とし、認識結果と共にその認識結果の信頼度を出力することをコンピュータに実行させるための音声認識プログラムにおいて、
    入力された音声を認識して認識結果として単語系列を得る音声認識ステップと、
    前記音声認識ステップから得られた認識結果である1或いは複数の先行語および/或いは後続語の単語系列における各単語について、その単語を含む連続する複数の単語の系列における言語的妥当性および/或いは意味的妥当性の評価を行い、信頼度を付与する信頼度付与ステップと、
    前記信頼度付与ステップで求めた信頼度と音声認識結果を出力させる信頼度付認識結果出カステップと、
    をコンピュータに実行させ、
    音声認識結果の言語的妥当性および/或いは意味的妥当性に基づいて信頼度を求めることを特徴とする音声認識プログラム。
  25. 請求項24に記載される音声認識プログラムにおいて、
    信頼度付与ステップについて、複数の単語を一つのシンボルで表した単語クラスを用いて信頼度を付与することをコンピュータに実行させる音声認識プログラム。
  26. 請求項24および請求項25の内の何れかに記載される音声認識プログラムにおいて、
    信頼度付与ステップについて、認識時に得られた各単語の品詞を用いて信頼度を付与することをコンピュータに実行させる音声認識プログラム。
  27. 請求項24および請求項25の内の何れかに記載される音声認識プログラムにおいて、
    信頼度付与ステップについて、認識時に得られた音響尤度スコア、言語尤度スコアの内の一方或いは双方を用いて信頼度を付与することをコンピュータに実行させる音声認識プログラム。
JP2004259584A 2004-02-23 2004-09-07 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 Pending JP2005275348A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004259584A JP2005275348A (ja) 2004-02-23 2004-09-07 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004046824 2004-02-23
JP2004259584A JP2005275348A (ja) 2004-02-23 2004-09-07 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体

Publications (1)

Publication Number Publication Date
JP2005275348A true JP2005275348A (ja) 2005-10-06

Family

ID=35175038

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004259584A Pending JP2005275348A (ja) 2004-02-23 2004-09-07 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP2005275348A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007240589A (ja) * 2006-03-06 2007-09-20 Nippon Telegr & Teleph Corp <Ntt> 音声認識信頼度推定装置、その方法、およびプログラム
WO2008001486A1 (fr) * 2006-06-29 2008-01-03 Nec Corporation Dispositif et programme de traitement vocal, et procédé de traitement vocal
JP2008122927A (ja) * 2006-09-13 2008-05-29 Honda Motor Co Ltd モータ雑音下におけるロボット用音声認識方法
WO2009147745A1 (ja) * 2008-06-06 2009-12-10 三菱電機株式会社 検索装置
JP2010039539A (ja) * 2008-07-31 2010-02-18 Ntt Docomo Inc 言語モデル作成装置および言語モデル作成方法
JP2010231149A (ja) * 2009-03-30 2010-10-14 Kddi Corp 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム
JP2010237351A (ja) * 2009-03-31 2010-10-21 Nec Corp ユーザ辞書作成システム、方法、及び、プログラム
JP2012022070A (ja) * 2010-07-13 2012-02-02 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法とその装置とプログラム
CN112262430A (zh) * 2018-08-23 2021-01-22 谷歌有限责任公司 自动确定经由自动助理界面接收到的口头话语的语音识别的语言

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09134192A (ja) * 1995-11-10 1997-05-20 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 統計的言語モデル生成装置及び音声認識装置
JP2000132549A (ja) * 1998-10-26 2000-05-12 Sony Corp 自然言語処理装置及び方法
JP2002358097A (ja) * 2001-06-01 2002-12-13 Mitsubishi Electric Corp 音声認識装置
JP2003029782A (ja) * 2001-07-19 2003-01-31 Mitsubishi Electric Corp 対話処理装置及び対話処理方法並びにプログラム
JP2005084436A (ja) * 2003-09-09 2005-03-31 Advanced Telecommunication Research Institute International 音声認識装置及びコンピュータプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09134192A (ja) * 1995-11-10 1997-05-20 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 統計的言語モデル生成装置及び音声認識装置
JP2000132549A (ja) * 1998-10-26 2000-05-12 Sony Corp 自然言語処理装置及び方法
JP2002358097A (ja) * 2001-06-01 2002-12-13 Mitsubishi Electric Corp 音声認識装置
JP2003029782A (ja) * 2001-07-19 2003-01-31 Mitsubishi Electric Corp 対話処理装置及び対話処理方法並びにプログラム
JP2005084436A (ja) * 2003-09-09 2005-03-31 Advanced Telecommunication Research Institute International 音声認識装置及びコンピュータプログラム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007240589A (ja) * 2006-03-06 2007-09-20 Nippon Telegr & Teleph Corp <Ntt> 音声認識信頼度推定装置、その方法、およびプログラム
WO2008001486A1 (fr) * 2006-06-29 2008-01-03 Nec Corporation Dispositif et programme de traitement vocal, et procédé de traitement vocal
US8751226B2 (en) 2006-06-29 2014-06-10 Nec Corporation Learning a verification model for speech recognition based on extracted recognition and language feature information
JP2008122927A (ja) * 2006-09-13 2008-05-29 Honda Motor Co Ltd モータ雑音下におけるロボット用音声認識方法
WO2009147745A1 (ja) * 2008-06-06 2009-12-10 三菱電機株式会社 検索装置
JPWO2009147745A1 (ja) * 2008-06-06 2011-10-20 三菱電機株式会社 検索装置
JP2010039539A (ja) * 2008-07-31 2010-02-18 Ntt Docomo Inc 言語モデル作成装置および言語モデル作成方法
JP2010231149A (ja) * 2009-03-30 2010-10-14 Kddi Corp 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム
JP2010237351A (ja) * 2009-03-31 2010-10-21 Nec Corp ユーザ辞書作成システム、方法、及び、プログラム
JP2012022070A (ja) * 2010-07-13 2012-02-02 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法とその装置とプログラム
CN112262430A (zh) * 2018-08-23 2021-01-22 谷歌有限责任公司 自动确定经由自动助理界面接收到的口头话语的语音识别的语言

Similar Documents

Publication Publication Date Title
US9911413B1 (en) Neural latent variable model for spoken language understanding
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
JP6066354B2 (ja) 信頼度計算の方法及び装置
US7254529B2 (en) Method and apparatus for distribution-based language model adaptation
US7634406B2 (en) System and method for identifying semantic intent from acoustic information
US6618702B1 (en) Method of and device for phone-based speaker recognition
EP0834862A2 (en) Method of key-phrase detection and verification for flexible speech understanding
US20140207457A1 (en) False alarm reduction in speech recognition systems using contextual information
EP2842124A1 (en) Negative example (anti-word) based performance improvement for speech recognition
JP4769098B2 (ja) 音声認識信頼度推定装置、その方法、およびプログラム
JP4950024B2 (ja) 会話システムおよび会話ソフトウェア
JP4499389B2 (ja) 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
JP2004198597A (ja) 音声認識装置および文分類装置としてコンピュータを動作させるコンピュータプログラム、階層化された言語モデルを作成する方法を実現する様にコンピュータを動作させるコンピュータプログラム、および記憶媒体
JP2006189730A (ja) 音声対話方法および音声対話装置
JP3660512B2 (ja) 音声認識方法、その装置及びプログラム記録媒体
JP2005275348A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP2005148342A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JPH10274996A (ja) 音声認識装置
JP3444108B2 (ja) 音声認識装置
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP4475628B2 (ja) 会話制御装置、会話制御方法並びにこれらのプログラム
JP2000250593A (ja) 話者認識装置及び方法
KR100366703B1 (ko) 인간 반응형 음성인식장치
JPH08241096A (ja) 音声認識方法
JP4236502B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060726

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060726

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081216

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090407