JP2006139185A - 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 - Google Patents
音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 Download PDFInfo
- Publication number
- JP2006139185A JP2006139185A JP2004330415A JP2004330415A JP2006139185A JP 2006139185 A JP2006139185 A JP 2006139185A JP 2004330415 A JP2004330415 A JP 2004330415A JP 2004330415 A JP2004330415 A JP 2004330415A JP 2006139185 A JP2006139185 A JP 2006139185A
- Authority
- JP
- Japan
- Prior art keywords
- acoustic
- speech
- recognition
- speech recognition
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】信頼度の算出に用いられるHMMを用いた音響尤度を計算する際に、入力音声の音素と音響モデルとの適合性の確率を計算して音響尤度を算出している。しかし、発話単位で考えると、入力音声と整合性のある音響モデルで必ず音声認識を行っているとは限らない。したがって、全体的には高い認識精度を得ることができる入力音声と音響モデルの組み合わせでも、発話単位ではモデルと適合することができず、認識精度が低くなってしまうことがある。
【解決手段】発話単位に複数の音響モデルを用いて認識した結果に音響尤度を示す情報を付し、入力音声と各音響モデルとの整合性を、事前に学習・記録した結果と比較して判別し、整合性の高い音響モデルを用いた認識結果を出力する。
【選択図】図1
【解決手段】発話単位に複数の音響モデルを用いて認識した結果に音響尤度を示す情報を付し、入力音声と各音響モデルとの整合性を、事前に学習・記録した結果と比較して判別し、整合性の高い音響モデルを用いた認識結果を出力する。
【選択図】図1
Description
この発明は、音響モデルを用いて音声を認識する方法、その装置、そのプログラムおよびその記録媒体に関するものである。
音声認識では一般に、入力音声を分析して得られる音響的特徴量の系列と音声をモデル化した音響モデルとの間で尤度を算出し、認識すべき語彙、単語間の接続のしやすさ、規則を表す言語モデルなどの言語的制約の中において尤度の最も高い候補を認識結果として出力する。しかし、入力音声において、発声の曖昧さやノイズや音声以外の音響信号が入力されることにより、誤った認識結果を出力する可能性が高くなる。また、入力音声が未登録語である場合は正しい認識結果を出力することができない。
以上の問題に対して、音声認識結果に信頼度を付与することにより、信頼度の高さにより認識結果を受理、棄却若しくは結果の確認を行うことが可能となり、音声認識結果を用いる種々の装置において音声認識誤りに起因する発声者の想定外の動作を抑制することができる。
以上の問題に対して、音声認識結果に信頼度を付与することにより、信頼度の高さにより認識結果を受理、棄却若しくは結果の確認を行うことが可能となり、音声認識結果を用いる種々の装置において音声認識誤りに起因する発声者の想定外の動作を抑制することができる。
非特許文献1、非特許文献2では、単語事後確率を用いて信頼度を計算している。この方法では1単語の音響尤度、単語の言語尤度、forward確率、backward確率を用いて文中の単語に対する信頼度を算出している。
非特許文献1では、N−best候補を用いて信頼度の計算が行われている。この方法では、音響尤度、言語尤度などを用いて認識結果候補をN位まで作成し、作成された候補を用いて信頼度を算出する。この方法では、複数の候補に多く出現している単語は信頼度が高いとしている。
非特許文献1では、N−best候補を用いて信頼度の計算が行われている。この方法では、音響尤度、言語尤度などを用いて認識結果候補をN位まで作成し、作成された候補を用いて信頼度を算出する。この方法では、複数の候補に多く出現している単語は信頼度が高いとしている。
特許文献1では、競合モデルを用いて信頼度を決定している。この方法では、音声認識に用いたモデルと競合モデルとの2種類のモデルを使用する。各モデルにおいてそれぞれ尤度を求め、得られた尤度から尤度比を算出し、認識結果の信頼度として付与する。
非特許文献3では、複数の音声認識モデルを用いて信頼度の決定を行っている。この方法では、音声認識モデルを2つ以上用いて音声認識を行い、全ての音声認識モデルで信頼できると判断された共通部分が信頼できると判断するものである。
特開平11−85188号公報
Frank Wessel,Ralf Schluter,Klaus Macherey,Hermam Ney:"Confidence Measure for Large Vocabulary Continuous Speech Recognition" ,IEEE Transactions Speech and Audio Process Vol.9 No.3 pp.288−298,2001.
Thomas Kemp,Thomas Schaaf:"Estimating confidence using word lattices",Proc. 5th Eurospeech,pp.827−830,1997.
宇津呂 武仁,西崎 博光,小玉 康広,中川 聖一:「複数の大語彙連続音声認識モデルの出力の共通部分を用いた高信頼度部分の推定」,電子情報通信学会論文誌,D−IIVol.J86−D−II No.7 pp.974−987,2003.
非特許文献3では、複数の音声認識モデルを用いて信頼度の決定を行っている。この方法では、音声認識モデルを2つ以上用いて音声認識を行い、全ての音声認識モデルで信頼できると判断された共通部分が信頼できると判断するものである。
既存の技術では、信頼度の算出に用いられる隠れマルコフモデル(以下、「HMM」という。)を用いた音響尤度を計算する際に、入力音声の音素と音響モデルとの適合性の確率を計算して音響尤度を算出している。しかし、発話単位で考えると、入力音声と整合性のある音響モデルで必ず音声認識を行っているとは限らない。したがって、全体的には高い認識精度を得ることができる入力音声と音響モデルの組み合わせでも、発話単位ではモデルと適合することができず、認識精度が低くなってしまうことがある。
本発明では、発話単位に複数の音響モデルを用いて認識した結果に音響尤度を示す情報を付し、入力音声と各音響モデルとの整合性を、事前に学習・記録した結果と比較して判別し、整合性の高い音響モデルを用いた認識結果を出力する。
本発明は、入力音声との整合性の高い音響モデルを発話単位に選択することにより、精度の高い認識結果を得ることができる。
[第1実施形態]
図1は本発明の音声認識装置の機能構成を示す図である。音声認識装置100は、音声認識部1、音響モデル整合性判別部3、認識結果を出力するモデル整合認識結果出力部4から構成される。
音声認識部1は、入力音声11を入力とし、複数の音響モデルを格納した音響モデル格納部5に含まれる各音響モデル及び言語モデル・辞書格納部6を用いて、例えば音声の空白区間ごとに区切られた発話単位ごとに認識結果の単語系列12、該単語系列に含まれる各単語の品詞情報14、HMMを用いて求められる音響スコア15、単語N−gramを用いて求められる言語スコア16、音響スコアと言語スコアの和である単語スコア17、およびどの音響モデルを音声認識に用いたかを示す音響モデル情報18を出力する。但し、次の音響モデル整合性判別部3で入力音声と音響モデルとの整合性を判別する際に用いないものは出力しない。なお、上記の音声を区切る方法は、音声の空白区間ごとに区切る方法に限らず、他の方法でもかまわない。以下は、一定の基準に基づいて区切られた発話単位の例である。
・『その辺ではかなり収益も上がるんじゃないかなと思います。』
・『なるほどね。』
・『今、あの韓国に買い物行くツアーとか、そういうのが非常に流行ってるんですが、』
・『ん一』
音響モデル整合性判別部3では、音声認識部1で得られた結果に対して、入力音声11と音響モデル格納部5に含まれる各音響モデルのうち認識に使用したものとの整合性の判別を行い、入力音声に整合する音響モデルを用いた認識結果を得る。整合性を判別する要素の一例として、単語系列12に含まれる各単語の品詞情報14、音響スコア15、言語スコア16、単語スコア17、音響モデル情報18の全部または一部が入力される。
図1は本発明の音声認識装置の機能構成を示す図である。音声認識装置100は、音声認識部1、音響モデル整合性判別部3、認識結果を出力するモデル整合認識結果出力部4から構成される。
音声認識部1は、入力音声11を入力とし、複数の音響モデルを格納した音響モデル格納部5に含まれる各音響モデル及び言語モデル・辞書格納部6を用いて、例えば音声の空白区間ごとに区切られた発話単位ごとに認識結果の単語系列12、該単語系列に含まれる各単語の品詞情報14、HMMを用いて求められる音響スコア15、単語N−gramを用いて求められる言語スコア16、音響スコアと言語スコアの和である単語スコア17、およびどの音響モデルを音声認識に用いたかを示す音響モデル情報18を出力する。但し、次の音響モデル整合性判別部3で入力音声と音響モデルとの整合性を判別する際に用いないものは出力しない。なお、上記の音声を区切る方法は、音声の空白区間ごとに区切る方法に限らず、他の方法でもかまわない。以下は、一定の基準に基づいて区切られた発話単位の例である。
・『その辺ではかなり収益も上がるんじゃないかなと思います。』
・『なるほどね。』
・『今、あの韓国に買い物行くツアーとか、そういうのが非常に流行ってるんですが、』
・『ん一』
音響モデル整合性判別部3では、音声認識部1で得られた結果に対して、入力音声11と音響モデル格納部5に含まれる各音響モデルのうち認識に使用したものとの整合性の判別を行い、入力音声に整合する音響モデルを用いた認識結果を得る。整合性を判別する要素の一例として、単語系列12に含まれる各単語の品詞情報14、音響スコア15、言語スコア16、単語スコア17、音響モデル情報18の全部または一部が入力される。
モデル整合認識結果出力部4では、音響モデル整合性判別部3において得られた情報(モデル整合認識結果19)から入力音声11と整合していると判別された音響モデルを用いて認識した単語系列12の出力を行う。
図2は音声認識部1の機能構成を示す図である。入力音声11は、音響分析部51において音響特徴パラメータ13に変換される。音響特徴パラメータとは、入力音声を数十ミリ秒のフレームと呼ばれる単位で分析して得られるLPCケプストラム、MFCCその他のパラメータである。この音響特徴パラメータ13に対する認識結果の候補となる単語系列12の探索を、音響モデル格納部5の音響モデルと言語モデル・辞書格納部6の言語モデルおよび辞書とを用いて、探索部52で行う。探索結果の上位N位までのN−best候補と候補に対するスコアが算出され、スコアに基づき音響スコア15と言語スコア16が算出され、その和である単語スコア17が算出される。その結果、認識結果の単語系列12、単語系列に含まれる各単語の品詞情報14、音響スコア15、言語スコア16、単語スコア17が求められる。探索部52では、音響モデル格納部5に記録されている音響モデルごとに上記探索が行われ、複数の認識結果情報10i(i=1〜K)(認識結果の単語系列12、単語系列に含まれる各単語の品詞情報14、音響スコア15、言語スコア16、単語スコア17、音響モデル情報18)が出力される。ただし、音響モデルによっては上記探索が行えない可能性もあるので、Kは音響モデル格納部5に記録されている音響モデルの数以下である。
図2は音声認識部1の機能構成を示す図である。入力音声11は、音響分析部51において音響特徴パラメータ13に変換される。音響特徴パラメータとは、入力音声を数十ミリ秒のフレームと呼ばれる単位で分析して得られるLPCケプストラム、MFCCその他のパラメータである。この音響特徴パラメータ13に対する認識結果の候補となる単語系列12の探索を、音響モデル格納部5の音響モデルと言語モデル・辞書格納部6の言語モデルおよび辞書とを用いて、探索部52で行う。探索結果の上位N位までのN−best候補と候補に対するスコアが算出され、スコアに基づき音響スコア15と言語スコア16が算出され、その和である単語スコア17が算出される。その結果、認識結果の単語系列12、単語系列に含まれる各単語の品詞情報14、音響スコア15、言語スコア16、単語スコア17が求められる。探索部52では、音響モデル格納部5に記録されている音響モデルごとに上記探索が行われ、複数の認識結果情報10i(i=1〜K)(認識結果の単語系列12、単語系列に含まれる各単語の品詞情報14、音響スコア15、言語スコア16、単語スコア17、音響モデル情報18)が出力される。ただし、音響モデルによっては上記探索が行えない可能性もあるので、Kは音響モデル格納部5に記録されている音響モデルの数以下である。
図3は、音響モデル整合性判別部3の機能構成を示す図である。音響モデル整合性判別部3内の特徴量ベクトル生成部31では、n発話目に位置する発話からなる単語系列12iと音響モデルとの整合性を判別するための特徴量ベクトル311iを、音声認識部1から得た認識結果情報10iから作成する。具体的な特徴量ベクトル311iを求める方法としては、例えば認識結果情報10の認識結果の単語系列12と音響モデル情報18以外の情報を正規化して並べる方法や単純に並べる方法がある。単純に並べた場合の特徴量ベクトル311iの例を以下に示す。
特徴量ベクトル311i=(品詞情報14,音響スコア15,言語スコア16,単語スコア17)
このようにして得た特徴量ベクト311iについて、入力音声11と音響モデルとの整合性の判別を行う。あらかじめ大量の学習データを用意し、学習データから求められた特徴量ベクトル(以下、参照ベクトルという。)と各音響モデルとの整合性を調べ、この結果を学習結果格納部32に記録する。つまり、学習結果格納部32には、既知の音声の単語系列に対して、使用した音響モデル、参照ベクトル(学習データから求められた特徴量ベクトル)、整合性の情報を一組とする情報が、大量に記録されている。比較部33では、SVM(Support Vector Machine)などの既存の分類器により参照ベクトルと整合性の情報から、整合・不整合を判別する境界面を作成し、入力音声11から得られた音響モデルごとの特徴量ベクトル311iと境界面とを比較し、特徴量ベクトル311iが整合・不整合のどちらの領域にあるかを判別する。このようにして入力音声11に対して複数個の音響モデルを用いて特徴量ベクトル311i(i=1〜K)が求められ、各特徴量ベクトル311iから音響モデルの整合性が求められる。認識結果選定部34では、整合すると判別された全ての音響モデルの音響モデル情報18と、少なくともそれらの単語系列12をモデル整合認識結果19として出力する。なお、分類器による制限もあるが、最も整合する音響モデルとその単語系列12のみをモデル整合認識結果19として出力する方法もある。
このようにして得た特徴量ベクト311iについて、入力音声11と音響モデルとの整合性の判別を行う。あらかじめ大量の学習データを用意し、学習データから求められた特徴量ベクトル(以下、参照ベクトルという。)と各音響モデルとの整合性を調べ、この結果を学習結果格納部32に記録する。つまり、学習結果格納部32には、既知の音声の単語系列に対して、使用した音響モデル、参照ベクトル(学習データから求められた特徴量ベクトル)、整合性の情報を一組とする情報が、大量に記録されている。比較部33では、SVM(Support Vector Machine)などの既存の分類器により参照ベクトルと整合性の情報から、整合・不整合を判別する境界面を作成し、入力音声11から得られた音響モデルごとの特徴量ベクトル311iと境界面とを比較し、特徴量ベクトル311iが整合・不整合のどちらの領域にあるかを判別する。このようにして入力音声11に対して複数個の音響モデルを用いて特徴量ベクトル311i(i=1〜K)が求められ、各特徴量ベクトル311iから音響モデルの整合性が求められる。認識結果選定部34では、整合すると判別された全ての音響モデルの音響モデル情報18と、少なくともそれらの単語系列12をモデル整合認識結果19として出力する。なお、分類器による制限もあるが、最も整合する音響モデルとその単語系列12のみをモデル整合認識結果19として出力する方法もある。
モデル整合認識結果出力部4では、モデル整合認識結果19から入力音声11と整合していると判別された音響モデルを用いて認識した結果を出力する。
図4に本発明のフローを示す。本発明では発話ごとに適した音響モデルを選択して使用できるため、常に整合性の高い音響モデルを使うことができ、全体的な認識精度の向上が期待できる。定量的な評価を以下に示す。
本発明による効果を66本の放送ニュースデータ(単語数:199764、発話数8685、男女声比約2:1)の連続単語認識において、語彙数約3万のtrigram言語モデルを用いて評価した。音響モデルには、状態数約3000、各状態の混合数8の状態共有triphoneで、性別依存モデル(男声用、女声用)/男・女声マルチパート(MP)モデルの3種類の音響モデルを用いた。図5に評価に用いたデータ(図中の「全声」)および比較対照(男声には男声用、女声には女声用の音響モデルが整合していると仮定する)のためのデータを示す。
図4に本発明のフローを示す。本発明では発話ごとに適した音響モデルを選択して使用できるため、常に整合性の高い音響モデルを使うことができ、全体的な認識精度の向上が期待できる。定量的な評価を以下に示す。
本発明による効果を66本の放送ニュースデータ(単語数:199764、発話数8685、男女声比約2:1)の連続単語認識において、語彙数約3万のtrigram言語モデルを用いて評価した。音響モデルには、状態数約3000、各状態の混合数8の状態共有triphoneで、性別依存モデル(男声用、女声用)/男・女声マルチパート(MP)モデルの3種類の音響モデルを用いた。図5に評価に用いたデータ(図中の「全声」)および比較対照(男声には男声用、女声には女声用の音響モデルが整合していると仮定する)のためのデータを示す。
学習データ/評価データに用いた放送ニュースデータでは、入力音声の認識精度の違いによる結果の偏りを避けるため、MPモデルを用いた場合の発話単位の認識精度が0%〜100%のものを用いた。また、音響モデルには図5から男声に対して最も高い認識精度を得た男性用モデルと女声に対して最も高い認識精度を得た女性モデルの2種類を用い、整合性の判別の要素には音声認識部1から出力される音響スコア15を用いた。音響スコア15は、単語系列12の他の候補との尤度差を基に算出されているため、整合性の無い音響モデルの場合には全ての単語系列12の候補の尤度が共に低くなることで差が少なくなり、統計的に見て分散が小さくなる。そこで、本発明では1発話内の音響スコア15の分散についても同様の傾向があると仮定し、上記2種類の音響モデルから得られる認識結果のうち、発話内において分散の大きいものを認識候補として採択した。その結果と比較用の図5の一部を図6に示す。
図6の結果より、従来手法で認識音声に最適であると思われる音響モデルを用いた時よりも精度の高い結果を得られたことが分かる。性別依存モデルよりも高い結果が得られたのは、例えば男声と似た特徴を持つ声を女性が発した場合などの要因が考えられる。
[変形例1]
第1実施形態では、モデル整合認識結果出力部4からの出力として、複数の単語系列12を出力する方法と最も整合する音響モデルの単語系列12のみを出力する方法の2種類があり得ることを示した。例えば、図7に示すように複数の単語系列12iを出力しておき、言語的な解析などの別の手法でも良いとされる単語系列12を最終的に1つ選ぶ方法がある。このように他の方法と組み合わせることでさらに認識精度を向上させることも可能と考える。
[変形例2]
第1実施形態では、特徴量ベクトル生成部31と認識結果選定部34が音響モデル整合性判別部3内にある形態を示した。しかし、図8に示すように特徴量ベクトル生成部31は音声認識部1内にあってもよいし、認識結果選定部34の機能をモデル整合認識結果出力部に含めてもよい。
[変形例1]
第1実施形態では、モデル整合認識結果出力部4からの出力として、複数の単語系列12を出力する方法と最も整合する音響モデルの単語系列12のみを出力する方法の2種類があり得ることを示した。例えば、図7に示すように複数の単語系列12iを出力しておき、言語的な解析などの別の手法でも良いとされる単語系列12を最終的に1つ選ぶ方法がある。このように他の方法と組み合わせることでさらに認識精度を向上させることも可能と考える。
[変形例2]
第1実施形態では、特徴量ベクトル生成部31と認識結果選定部34が音響モデル整合性判別部3内にある形態を示した。しかし、図8に示すように特徴量ベクトル生成部31は音声認識部1内にあってもよいし、認識結果選定部34の機能をモデル整合認識結果出力部に含めてもよい。
この場合には、音響モデル整合性判別部3には、特徴量ベクトル311iと音響モデル情報18が認識結果情報10i’として入力され、判別結果情報が出力としてモデル整合認識結果出力部4に送られる。一方、単語系列12と音響モデル情報18が認識結果情報10i”として直接モデル整合認識結果出力部4に送られる。モデル整合認識結果出力部4では、音響モデル整合性判別部3からの判別結果から、整合すると判別された音響モデルの単語系列12を出力する。
[変形例3]
第1実施形態では、図3の比較部33で既存の分類器を使用して境界面を作成する方法を示した。このように分類器を使用して整合性を判別する方法が現在の主流であるが、単純に特徴量ベクトル311i(i=1〜K)と参照ベクトルとの距離(ベクトルの各要素の差の二乗和)が最小となる特徴量ベクトル311iから最も整合する音響モデルを求める方法もある。
[変形例3]
第1実施形態では、図3の比較部33で既存の分類器を使用して境界面を作成する方法を示した。このように分類器を使用して整合性を判別する方法が現在の主流であるが、単純に特徴量ベクトル311i(i=1〜K)と参照ベクトルとの距離(ベクトルの各要素の差の二乗和)が最小となる特徴量ベクトル311iから最も整合する音響モデルを求める方法もある。
Claims (17)
- 音響モデルを用いて音声を認識する方法であって、
デジタル信号に変換された音声信号の音響特徴パラメータを、発話単位に複数の音響モデル、言語モデルおよび辞書を用いて認識し、
学習データについて上記複数の各音響モデル、言語モデルおよび辞書を用いて音声認識した結果に対応する尤度を含む情報と、上記発話単位に求めた認識結果に対応する尤度を含む情報との比較によって整合性を判別し、
整合する音響モデルを用いた認識結果を出力すること、
を特徴とする音声認識方法。 - 請求項1記載の音声認識方法であって、
上記認識結果に対応する尤度を含む情報から、認識結果の整合性を判別するため特徴量を求めること、
を特徴とする音声認識方法。 - 請求項2記載の音声認識方法であって、
事前に学習データから求めた認識結果に対応する尤度を含む情報から得た特徴量を基に分類器によって境界面を作成し、
上記音響モデルごとに求めた上記入力音声の上記特徴量と境界面とを比較することで整合性を判別すること、
を特徴とする音声認識方法。 - 請求項1〜3のいずれかに記載の音声認識方法であって、
上記音響モデルごとに、上記認識結果に対応する尤度を含む情報として、少なくとも単語系列、品詞情報、音響スコア、言語スコア、単語スコア、音響モデル情報を得ること、
を特徴とする音声認識方法。 - 請求項4記載の音声認識方法であって、
上記音響スコアを隠れマルコフモデルにより求め、上記言語スコアを単語N−gramにより求め、上記単語スコアを音響スコアと言語スコアの和として求めること、
を特徴とする音声認識方法。 - 請求項1〜5のいずれかに記載の音声認識方法であって、
上記整合性判別の結果として、整合と判断された全ての音響モデルの情報とその認識結果とを出力すること
を特徴とする音声認識方法。 - 請求項1〜5のいずれかに記載の音声認識方法であって、
上記整合性判別の結果として、最も整合すると判断された1つの認識結果とを出力すること
を特徴とする音声認識方法。 - 音響モデルを用いて音声を認識する音声認識装置であって、
複数の音響モデルを記録する音響モデル格納手段と、
言語モデルと辞書データを記録する言語モデル・辞書格納手段と、
デジタル信号に変換された音声信号の音響特徴パラメータを、発話単位に複数の音響モデル、言語モデルおよび辞書を用いて認識し、認識結果に対応する尤度を含む情報を出力する探索手段と、
学習データの認識結果に対応する尤度を含む情報を記録する学習結果格納手段と、
上記学習データに対する認識結果に対応する尤度を含む情報を基に、入力音声と各音響モデルとの整合性を判別する手段と、
整合する音響モデルを用いた認識結果を出力する手段と、
を備える音声認識装置。 - 請求項8記載の音声認識装置であって、
上記認識結果に対応する尤度を含む情報から、認識結果の整合性を判別するために特徴量を求める手段
を備える音声認識装置。 - 請求項9記載の音声認識装置であって、
少なくとも学習データから求めた認識結果に対応する尤度を含む情報から得た特徴量を記録した上記学習結果格納手段
を備える音声認識装置。 - 請求項10記載の音声認識装置であって、
上記学習データの特徴量を基に分類器によって作成された境界面と上記音響モデルごとに求めた上記入力音声の上記特徴量とを比較することで整合性を判別する手段、
を備える音声認識装置。 - 請求項8〜11のいずれかに記載の音声認識装置であって、
少なくとも単語系列、品詞情報、音響スコア、言語スコア、単語スコア、音響モデル情報を出力する上記探索手段
を備える音声認識装置。 - 請求項12記載の音声認識装置であって、
上記音響スコアを隠れマルコフモデルにより求め、上記言語スコアを単語N−gramにより求め、上記単語スコアを音響スコアと言語スコアの和として求める上記探索手段
を備える音声認識装置。 - 請求項8〜13のいずれかに記載の音声認識装置であって、
整合すると判断された全ての音響モデルの情報とその認識結果とを出力する手段
を備える音声認識装置。 - 請求項8〜13のいずれかに記載の音声認識装置であって、
最も整合すると判断された1つの認識結果とを出力する手段
を備える音声認識装置。 - 請求項8〜15のいずれかに記載の音声認識装置としてコンピュータを実行する音声認識プログラム。
- 請求項16記載の音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004330415A JP2006139185A (ja) | 2004-11-15 | 2004-11-15 | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004330415A JP2006139185A (ja) | 2004-11-15 | 2004-11-15 | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006139185A true JP2006139185A (ja) | 2006-06-01 |
Family
ID=36620041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004330415A Pending JP2006139185A (ja) | 2004-11-15 | 2004-11-15 | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006139185A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010145784A (ja) * | 2008-12-19 | 2010-07-01 | Casio Computer Co Ltd | 音声認識装置、音響モデル学習装置、音声認識方法、および、プログラム |
JP2011013543A (ja) * | 2009-07-03 | 2011-01-20 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置とその方法と、プログラム |
JP2012037797A (ja) * | 2010-08-10 | 2012-02-23 | Nippon Telegr & Teleph Corp <Ntt> | 対話学習装置、要約装置、対話学習方法、要約方法、プログラム |
JP2014098874A (ja) * | 2012-11-16 | 2014-05-29 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置、音声認識方法、およびプログラム |
JP2015094848A (ja) * | 2013-11-12 | 2015-05-18 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報処理装置、情報処理方法、およびプログラム |
JP2019155561A (ja) * | 2018-03-15 | 2019-09-19 | オムロン株式会社 | ロボットの動作制御装置 |
-
2004
- 2004-11-15 JP JP2004330415A patent/JP2006139185A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010145784A (ja) * | 2008-12-19 | 2010-07-01 | Casio Computer Co Ltd | 音声認識装置、音響モデル学習装置、音声認識方法、および、プログラム |
JP2011013543A (ja) * | 2009-07-03 | 2011-01-20 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置とその方法と、プログラム |
JP2012037797A (ja) * | 2010-08-10 | 2012-02-23 | Nippon Telegr & Teleph Corp <Ntt> | 対話学習装置、要約装置、対話学習方法、要約方法、プログラム |
JP2014098874A (ja) * | 2012-11-16 | 2014-05-29 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置、音声認識方法、およびプログラム |
JP2015094848A (ja) * | 2013-11-12 | 2015-05-18 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報処理装置、情報処理方法、およびプログラム |
JP2019155561A (ja) * | 2018-03-15 | 2019-09-19 | オムロン株式会社 | ロボットの動作制御装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9812122B2 (en) | Speech recognition model construction method, speech recognition method, computer system, speech recognition apparatus, program, and recording medium | |
JP4301102B2 (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
US6912499B1 (en) | Method and apparatus for training a multilingual speech model set | |
KR101120716B1 (ko) | 음성 특성에 기초한 전화 호출자들의 자동 식별 | |
US6085160A (en) | Language independent speech recognition | |
US7013276B2 (en) | Method of assessing degree of acoustic confusability, and system therefor | |
EP2192575B1 (en) | Speech recognition based on a multilingual acoustic model | |
Scharenborg et al. | How should a speech recognizer work? | |
Young et al. | Multilingual large vocabulary speech recognition: the European SQALE project | |
Kruspe et al. | Bootstrapping a System for Phoneme Recognition and Keyword Spotting in Unaccompanied Singing. | |
JP4340685B2 (ja) | 音声認識装置及び音声認識方法 | |
US20140058731A1 (en) | Method and System for Selectively Biased Linear Discriminant Analysis in Automatic Speech Recognition Systems | |
Siniscalchi et al. | A bottom-up modular search approach to large vocabulary continuous speech recognition | |
JP4769098B2 (ja) | 音声認識信頼度推定装置、その方法、およびプログラム | |
JP6031316B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
JP2006139185A (ja) | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 | |
Pylkkönen | Towards efficient and robust automatic speech recognition: decoding techniques and discriminative training | |
JP2000352993A (ja) | 音声認識システム及びヒドン・マルコフ・モデルの学習方法 | |
Bunnell et al. | The ModelTalker system | |
JP2004101727A (ja) | 多言語音声認識方法、装置、プログラム、および多言語話者適応方法、装置、プログラム | |
Rebai et al. | LinTO Platform: A Smart Open Voice Assistant for Business Environments | |
Fung et al. | Effects and modeling of phonetic and acoustic confusions in accented speech | |
Siniscalchi et al. | An attribute detection based approach to automatic speech processing | |
Fischer et al. | Recent progress in the decoding of non-native speech with multilingual acoustic models. | |
JP6199994B2 (ja) | コンテキスト情報を使用した音声認識システムにおける誤警報低減 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20061225 |