JP2009116075A - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP2009116075A
JP2009116075A JP2007289525A JP2007289525A JP2009116075A JP 2009116075 A JP2009116075 A JP 2009116075A JP 2007289525 A JP2007289525 A JP 2007289525A JP 2007289525 A JP2007289525 A JP 2007289525A JP 2009116075 A JP2009116075 A JP 2009116075A
Authority
JP
Japan
Prior art keywords
keyword
recognition
speech recognition
correct candidate
conversion table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007289525A
Other languages
English (en)
Inventor
Takeshi Honma
健 本間
Hiroaki Kokubo
浩明 小窪
Nobuo Hataoka
信夫 畑岡
Hisashi Takahashi
久 高橋
Osamu Yamashita
修 山下
Yoshiyuki Mizuno
佳幸 水野
Minoru Togashi
実 冨樫
Takeshi Ono
健 大野
Daisuke Saito
大介 斎藤
Keiko Katsuragawa
景子 桂川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Faurecia Clarion Electronics Co Ltd
Original Assignee
Xanavi Informatics Corp
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xanavi Informatics Corp, Nissan Motor Co Ltd filed Critical Xanavi Informatics Corp
Priority to JP2007289525A priority Critical patent/JP2009116075A/ja
Publication of JP2009116075A publication Critical patent/JP2009116075A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】多数の語彙を短時間で、かつ確実に認識する音声認識装置を提供する。
【解決手段】キーワードを認識した際に、その誤認識傾向を記録した変換表を用意し、その変換表によって展開した正解候補キーワードを用意する。この正解候補キーワードを含む語彙を登録した認識文法を再び読み込み、再認識を実行する。例えば「○○公園」という音声データに対して「ホケン」というキーワードが得られることが多いのであれば認識キーワード「ホケン」と正解候補キーワード「コウエン」の関係度を高く設定する。
【選択図】図1

Description

本発明は、音声認識装置に関する。
近年の音声認識技術は、実用レベルに達してきた。しかし、依然として大語彙を対象とした認識は、実時間での処理が難しく、また認識率に限界がある。
とくに、カーナビゲーションシステムでは、全国に膨大にある施設名をユーザが一言で入力することに対するユーザメリットが大きく、これを実現するための大語彙認識技術が望まれる。しかし、実際のカーナビゲーションでは、消費メモリや演算量の制限から、全国施設名を一度に認識することが困難であった。このため、市販されているカーナビゲーションシステムでは、音声で待ち受けられる施設名の数が限定されている。このため、ユーザが発話した施設名が音声認識の待ち受け語に登録されていないために起こる誤認識を誘発し、ユーザが所望の操作を達成できない問題を起こしていた。
こういった大語彙を対象とした音声認識に関する問題を解決するため、特許文献1では、入力されたユーザ発話から、最初にユーザ発話に含まれる話題に関する単語のみをワードスポッティング技術により抽出し、その後、抽出された単語に応じて認識に使う辞書を再構成し、前に入力されたユーザ発話の音声データに対し再び認識処理を行うことによって、ユーザ発話全体を認識する技術が公開されている。
特開2004−334228号公報
特許文献1の技術では、最初に、ユーザ発話の一部分を対象とした認識処理を行うが、この認識結果が誤認識であると、その後に読み込まれる認識辞書も間違ったものが選定されるため、最終的な結果として出力される認識結果も誤りとなる。とくに、特許文献1で使われるワードスポッティング技術や信頼度の利用は、未だ発展途上であり、誤った結果が出力される可能性がある。また、認識の精度は、周囲の雑音の状況、発話される語彙、個人差などにも影響されるため、同じような誤認識を繰り返してしまう可能性がある。
本発明は、上記課題を解決すべくなされたものであり、大語彙を対象とした音声認識において、誤認識を減少させるための技術を提供することを目的とする。
上記課題を解決すべく本発明では、最初の音声認識で認識したキーワードを、所定の方法で変換し、変換されたキーワードを含む文法を用いて再度音声認識を行う。
例えば、本願発明の音声認識装置は、ユーザが発話した音声に基づいて音声データを取得する手段と、頻出単語であるキーワードを含む第1の文法を用いて前記音声データに含まれるキーワードを認識する第1の音声認識手段と、前記第1の音声認識手段で認識したキーワードに対して、予め定められた変換表を用いて、正解候補キーワードを求めるキーワード変換手段と、前記キーワード変換手段で求めた正解候補キーワードを含む第2の文法を用いて前記音声データに含まれる単語を認識する第2の音声認識手段とを備える。
本発明によれば、多数の語彙を短時間で、かつ確実に認識することができる。
以下、図面を参照しながら本願発明の実施形態の例について説明する。
以下の実施形態では、カーナビゲーションシステムに組み込まれ、目的地となる施設名称を入力する、音声認識システムを例に取り説明する。
<第1の実施形態>
図1は、本実施形態にかかる音声認識システム1の構成を示す図である。
音声認識システム1は、演算部10と、マイク20と、入力装置30と、出力装置40と、を備えて構成されている。
演算部10は、後述する様々な処理を行う中心的ユニットである。マイク20は、音声入力装置として機能し、ユーザの発する音声を受け付け、演算部10に送る。入力装置30は、ユーザからの要求を受け付けるための装置であり、タッチパネル、ボタン、ダイヤル、リモコン、ステアリングスイッチなどで構成されている。出力装置40は、音声認識の結果などのユーザに知らせるべき情報を出力するための装置であり、液晶ディスプレイなどの表示装置で構成される。なお、出力装置40は、音声出力のためのスピーカを備えていてもよい。
演算部10は、本実施形態の特徴的な動作として、音声認識処理を行う。そのため、演算部10は、分析部11と、音声データ記憶部12と、音響モデル記憶部13と、言語モデル記憶部14と、音声認識部15と、認識結果変換部16と、変換表記憶部17と、再認識指令部18と、を備えている。
分析部11は、ユーザが発話した音声データを、特徴ベクトル列に変換する。特徴ベクトル列とは、音声の各時刻の特徴量を多次元ベクトル量で表し、それを時系列に並べたものである。分析部11は、例えば、入力音声データから数十ミリ秒程度ずつ音声波形を切り出し、MFCC(Mel Frequency Cepstrum Coefficient)パラメータと呼ばれる多次元ベクトル量に変換し、これを時系列に並べる。
音声データ記憶部12は、分析部11で変換された音声の特徴ベクトル列を記憶する。または、特徴ベクトル列に変換する前の音声データを記憶するようにしてもよい。
音響モデル記憶部13は、各音素に対応する音響モデルを保存する。この音響モデルの表現形態としては、例えば、図2に示すように、各音素を3状態で定義したHMM(Hidden Marcov Model)が挙げられる。
言語モデル記憶部14は、辞書141と文法142とを登録している。辞書141には、図3に示すように、音声認識システム1が認識対象とする単語1411と、その音素列1412とが対応付けて登録されている。なお、認識対象とする音素の、あるまとまった固まりのことを、「単語」と称す。また、ユーザの発話に頻出すると想定され、音声認識の手がかりとなる単語を、「キーワード」という。
文法142には、辞書141に登録されている単語1411の相互の接続規則が記述されている。すなわち、文法142には、音声認識システム1において認識可能な単語列が登録されている。
本実施形態で用いる文法には、大きく分けて2種類ある。1つは、ユーザから音声を受け付けて最初の音声認識で用いられる文法であり、ユーザの音声に含まれるキーワードを特定するための文法(「キーワード認識文法」という)である。もう1つは、かかる最初の段階で特定されたキーワードから後述する正解候補キーワードを求めた後、再度音声認識する際に用いられる文法であり、かかる正解候補キーワードを含む施設名を列挙した文法(「施設名認識文法」という)である。
図4は、キーワード認識文法の例を示す図である。図中、この文法で認識できる単語の語順を、矢印で示している。この文法は、「S」からいずれかの矢印を辿って「E」まで辿りつくいずれかのパスを通る単語列を認識することができる。なお、パスの途中の、四角で表した要素は、その場所において認識できる単語を示している。この図4のように、音声認識の対象となる単語列をネットワークで表した文法は、一般にネットワーク文法と呼ばれる。
パスの途中の要素2020には、「エキ」、「ホテル」、「ホケン」、「コウエン」・・・、といった、多数の施設名に共通して現れる単語が登録されている。ここで登録されている、多数の施設名に共通して現れる単語が、キーワードである。
文法中に記載された単語は、音声認識部15により、音響モデルの列として展開される。例えば、「エキ」という単語は、音声認識部15により、図3の辞書141に従い、音素列/eki/に展開され、図5に示すように、音素「/e/、/k/、/i/」の音響モデルの連結として展開される。
また、図4の要素2010、2030に示した「(ガーベージ)」は、音声認識部15により、ユーザの発話に現れる可能性のあるすべての音素列に適合するように設計されたモデルに展開される。このモデルを、以降、ガーベージモデルと称す。ガーベージモデルは、図6に示すような音響モデルの連結によって実現される。例えば、「かかし」(/kakashi/)という音素列に対応するモデルは、「/k/」401→「/a/」402→「戻り」403→「/k/」401→「/a/」402→「戻り」403→「/sh/」404→「/i/」405というパスによって表現される。このようなガーベージモデルの構築方法は、例えば、下記、非特許文献1に記載されている。
非特許文献1:佐藤、河原、堂下「構文主導A*探索による音声認識における未知語の処理」、電子情報通信学会技術研究報告、vol.SP94−25、pp.17−23 (1994)
図4のキーワード認識文法は、キーワードの前後がガーベージモデルでつながれており、想定されるユーザの発話に合わせ、「です」「に行きたい」といった単語を持っている。この文法によって認識できる単語列の例としては、「(ガーベージ)/エキ/です」「ホテル/(ガーベージ)/に行きたい」「(ガーベージ)/ホケン/(ガーベージ)」などが挙げられる。
なお、認識結果として得られる単語列のことを文(または、「認識文」)と呼ぶ。
図7は、ユーザの音声に対して再度行われる音声認識に用いられる文法である施設名認識文法の例を示す図である。具体例として、特定の1つのキーワードである「ホケン」という単語を含む全国施設名を登録した施設名認識文法を示している。
図8は、キーワードを1つも含まない施設名認識文法の例を示す図である。具体例として、キーワードを1つも含まない施設名を登録した文法を示している。この文法は、最初の音声認識により、正解候補キーワードが特定できなかった場合に使用される。
図1に戻って説明する。音声認識部15は、音響モデル記憶部13に記憶された音素のHMMを言語モデルの規則(辞書141、文法142)に従って連結したHMMのネットワークから、入力音声の特徴ベクトル列が出力される確率が高いパスを探索する。そして、確率が高い上位n個(nは1以上の整数)のパスに沿った単語列を認識文として出力する。また、出力される各認識文には、認識文の単語列に沿ったHMMのパスから入力音声の特徴ベクトルが出力される確率に基づいて計算されたスコアが付与される。なお、探索におけるHMMの確率計算は、ビタビアルゴリズムなどを用いて実装することができる。また、探索の高速化を図るため、すべてのHMMのパスに対する確率計算は行わず、探索途中、確率が高いパスだけを残すビームサーチなどを行ってもよい。また、音声認識部15は、出力する文の数nの上限値をあらかじめ設定しておき、上限値を超えない数の文を出力する。
以上説明したHMMとネットワーク文法を用いた音声認識の方法は、例えば、下記文献に詳しく記載されている。(文献)鹿野、伊藤、河原、武田、山本編著「音声認識システム」、オーム社(2001)
図9に、例として、図4のキーワード認識文法を使用したときの音声認識部15による認識結果150の例を示す。認識結果150には、スコア153の高い順番で認識文152が出力されている。
図1に戻って説明する。認識結果変換部16は、音声認識部15から送られた認識結果(後述する「認識キーワード」)を、変換表記憶部17に記憶されている変換表170の規則に従って変換する。変換表170の構成については、後に詳細に述べる。認識結果変換部16は、変換表170によって変換された認識結果(後述する「正解候補キーワード」)を、再認識指令部18へ送る。
ただし、認識結果変換部16は、音声認識部15からの認識結果が再度行われた音声認識による認識結果であった場合、すなわち、施設名認識文法を用いた音声認識結果であった場合、音声認識部15から受信した認識結果を最終結果として出力装置40等に出力する。すなわち、音声認識部15による2度目の音声認識結果が最終結果として出力装置40等に出力されることになる。
再認識指令部18は、認識結果変換部16から認識結果を受け取ると、音声認識部15に対して再度音声認識を行うように指示する。
以上、演算部10の各機能部について説明した。なお、演算部10は、中央演算装置(CPU)と、メモリと、外部との通信を仲介するインタフェースと、これらを接続するバスと、からなるコンピュータにより構成可能である。演算部10の各処理部11〜18は、CPUがメモリにロードしたプログラムを実行することにより達成される。そのため、メモリには、各処理のためのプログラムが予め格納されている。
次に、上記のように構成される音声認識システム1の動作について説明する。
図10は、音声認識システム1の特徴的な動作の流れを示すフロー図である。なお、具体例として、ユーザは、カーナビゲーションの目的地として「晴海ふ頭公園」とマイク20に対して発話したとする。そして、分析部11により、ユーザが発話した音声データは、特徴ベクトル列に変換され、音声認識部15に送られているとする。
まず、音声認識部15は、キーワード認識処理を行う(S101)。具体的には、図4に示したような、施設名に多く含まれる単語(語彙)をキーワードとして持つキーワード認識文法を用いて、文を特定する。そして、特定した文(認識文)に含まれているキーワードを特定する。ここで特定したキーワードが、認識キーワードとなる。そして、音声認識部15は、認識キーワードの信頼度を算出する。
例えば、キーワード認識文法を用いた認識の結果、「(ガーベージ)/ホケン/(ガーベージ)」及び「(ガーベージ)/エキ」という2つの認識文が得られたとする。この2つの認識文に含まれている「ホケン」及び「エキ」というそれぞれのキーワードが認識キーワードとなる。
認識キーワードの信頼度は、例えば、下記文献に記載の方法によって計算することとする。(文献)Bouwman, et al. :”Incorporating confidence measures in the Dutch train timetable information system developed in the ARISE project”,Proceedings of ICASSP, pp.493−496 (1999)。
すなわち、n個の認識文が得られており、それぞれの認識文のスコアも所定の方法で求められている。スコアがi番目に高い認識文のスコアをs(i)で表す。音声認識部15は、i番目の認識文の信頼度p(i)を下記の式(1)で計算する。
Figure 2009116075

ただし、αは補正係数である。βは、認識文の信頼度の総和を1に正規化するための係数であり、下記式(2)
Figure 2009116075
で計算される。音声認識部15は、さらに、キーワードwの信頼度p(w)を下記の式(3)で計算する。
Figure 2009116075
ただし、δ(w,i)は、i番目の認識文にキーワードwが存在すれば1、存在しなければ0となる値である。
式(1)及び(2)に従って計算した認識文の信頼度は、第1位の「(ガーベージ)/ホケン/(ガーベージ)」が「0.9」、第2位の「(ガーベージ)/エキ」が「0.1」であったとする。この信頼度を用いて、(3)の式によって計算したキーワードの信頼度は、「ホケン」が「0.9」となり、「エキ」が「0.1」となる。
こうして、キーワード認識が行われると、次に、認識結果変換部16は、キーワード変換処理を行う(図10のS102)。具体的には、得られた認識キーワードと、変換表記憶部17の変換表170とを用いて、正解候補キーワードを求める。
図11は、変換表170の一例を示す図である。変換表170には、認識キーワード1701各々の、正解候補キーワード1702各々との関係度1703が対応付けて格納されている。
変換表170は、認識キーワード1701と、その認識キーワード1701から推定される正解候補キーワード1702の関係を示している。関係度1703が大きいほど、その正解候補キーワード1702が正解である確率が高いことを示している。この変換表170は、例えば、事前に車内環境において採取された音声データを用い、その音声データでキーワード認識を行った結果から得られる認識結果の傾向に基づいて作成されたものである。例えば、「○○公園」という音声データに対して、認識結果として「ホケン」というキーワードが得られることが多いのであれば、認識キーワード「ホケン」と正解候補キーワード「コウエン」の関係度を高く設定しておく。
例えば、図11の変換表170によれば、「ホケン」という認識キーワード1701の、「コウエン」という正解候補キーワード1702との関係度1703は、「0.4」である。同様に、「ホケン」という認識キーワード1701の、「エキ」、「ホケン」、及び「シゼン」という正解候補キーワード1702との関係度1703は、それぞれ、「0.0」、「0.6」、及び「0.0」である。また、「エキ」という認識キーワード1701に対する、「コウエン」、「エキ」、「ホケン」、及び「シゼン」という正解候補キーワード1702との関係度1703は、それぞれ、「0.0」、「1.0」、「0.0」、及び「0.0」となっている。
認識結果変換部16は、こうして求められる関係度1703を用い、正解候補キーワード1702各々の信頼度を求める。具体的には、認識結果変換部16は、変換表1702に登録されている正解候補キーワード1702各々について、S101で特定された認識キーワードの信頼度に、その認識キーワードとの関係度1703を掛けた値を求める。そして、認識結果変換部16は、S101で得られた認識キーワードの全てについて、この値を求め、正解候補キーワード1702各々について、求めた値を合計し、正解候補キーワード1702各々の信頼度とする。
例えば、正解候補キーワード「コウエン」の信頼度は、下記の通り求められる。
(正解候補キーワード「コウエン」の信頼度)=(認識キーワード「コウエン」の信頼度)×(認識キーワード「コウエン」と正解候補キーワード「コウエン」との関係度)
+(認識キーワード「エキ」の信頼度)×(認識キーワード「エキ」と正解候補キーワード「コウエン」との関係度)
+(認識キーワード「ホケン」の信頼度)×(認識キーワード「ホケン」と正解候補キーワード「コウエン」との関係度)
+(認識キーワード「シゼン」の信頼度)×(認識キーワード「シゼン」と正解候補キーワード「コウエン」との関係度)
=0.0×0.8+0.1×0.0+0.9×0.4+0.0×0.2
=0.36
なお、上記式の通り、S101で認識キーワードとして得られなかったものは、その信頼度を「0」として計算式にあてはめる。
図11の変換表を用いると、正解候補キーワード「コウエン」、「エキ」、「ホケン」、及び「シゼン」の信頼度は、それぞれ、「0.36」、「0.1」、「0.54」、及び「0.0」となる。ここで、認識結果変換部16は、信頼度が「0」のものを正解候補キーワードから除外する。
次に、認識結果変換部16は、再認識指令部18に、正解候補キーワードをその信頼度とともに送る。再認識指令部18は、音声認識部15に対して、正解候補キーワードに基づいて施設名認識文法を選択して再度音声認識を行うように指示する。
これを受けて、音声認識部15は、正解候補キーワードを含む施設名認識文法を用いて、分析部11から取得したユーザの音声について、再度音声認識を行う(図10のS103)。
例えば、音声認識部15は、正解候補キーワードである「ホケン」、「コウエン」、及び「エキ」というキーワードを含む全国の施設名を登録した施設名認識文法を用いて、音声認識を実行する。この結果、「晴海ふ頭公園」という認識結果が得られることになる。
認識結果変換部16は、再度、音声認識部15から、この音声認識結果を受信する。そして、2度目の音声認識であるので、認識結果である施設名をユーザに通知するため、出力装置40を介して出力する。また、ナビゲーション処理を行うナビゲーション処理部(不図示)に対して、「晴海ふ頭公園」という認識結果が得られたことを伝える。
以上、第1の実施形態について説明した。本実施形態によれば、最初のキーワード認識において、正しいキーワードが認識できなかった場合においても、変換表を利用することによって正解候補キーワードを推定する。そして、正解候補キーワードを含む認識文法を用いて最終的な音声認識結果を求める。したがって、誤認識が起こる確率を減らすことができる。
なお、本実施形態では、図11の変換表170に記載した正解候補キーワードを4個に限定して説明したが、より多くの正解候補キーワードに対して関係度が付与されている場合には、関係度が付与されているすべての正解候補キーワードに対して本実施例で説明したものと同様の処理を行う。
<第2の実施形態>
第2の実施形態は、上記第1の実施形態と似た構成を備えているので、共通する部分については説明を省略する。
上記の図10のキーワード認識処理S101においては、誤認識により、ユーザがキーワードを含む施設名を発話したにもかかわらず、認識結果に1つもキーワードが表れない場合がある。一方、ユーザがキーワードを含まない施設名を発話した場合に、認識結果に誤ってキーワードが現れる場合もある。
かかる場合に対応するため、本実施形態では、認識結果にキーワードが含まれていなかった場合(「認識キーワード無し」の場合)でも、キーワード変換処理S102において正解候補キーワードが求められるようにする。また、認識結果にキーワードが含まれていた場合でも、キーワード変換処理S102において正解候補キーワードが無い場合(「正解候補キーワード無し」の場合)に対応できるようにする。
図12は、かかる場合に用いられる変換表171の例を示す図である。図示するように、変換表171には、認識キーワード1711各々の、正解キーワード1712各々との関係度1713が格納されている。さらに、認識キーワード無しの場合の正解候補キーワードとの関係度1714も格納されている。
この関係度1714は、実験において統計的に計算された値である。例えば、「ホケン」というキーワードが発話される場合に、キーワード認識の結果にキーワードが1つも表れない場合が多いという傾向がある場合には、認識キーワード無しに対する正解候補キーワード「ホケン」の関係度1714の値を高く設定しておく。これにより、施設名認識S103において、「ホケン」というキーワードを含む施設名認識文法が使用され、施設名を認識することができる。
また、変換表171では、何らかの認識キーワードが得られていた場合に、正解候補キーワード無しの場合に対応付けた関係度1715も格納されている。
この関係度1715は、実験において統計的に計算された値である。例えば、キーワードを1つも発話していないのに、認識キーワードに「シゼン」が表れやすい傾向がある場合には、関係度1715のように、認識キーワード「シゼン」と正解候補キーワード「(キーワード無し)」に対応する関係度の値を高く設定しておく。これにより、施設名認識S103において、図8に示したキーワードを1つも含まない施設名認識文法が使用され、キーワードを含まない施設名を認識することができる。
他の処理は、上記第1の実施形態と同様である。
本実施形態によれば、キーワード認識処理S101において、仮に認識結果のキーワードが1つも得られなかった場合においても、この変換表171により、ユーザが発話したであろうキーワードに対応する正解候補キーワードを求めることができる。そして、正解候補キーワードを含む施設名認識文法を用いて、正しい再認識を行うことが可能となる。また、認識結果にユーザが発話していないキーワードが誤って含まれていた場合でも、変換表171により、キーワードを含まない施設名文法を用いて、正しい再認識を行うことが可能となる。
<第3の実施形態>
第3の実施形態は、上記第1の実施形態と似た構成を備えているので、共通する部分については説明を省略する。
図13は、本実施形態にかかる処理の流れを示すフロー図である。
なお、具体例として、ユーザは、カーナビゲーションの目的地として「東京駅」と発話したとする。
音声認識部15は、上記第1の実施形態と同様にキーワード認識処理を実行する(S201)。ここでは、図4で示したキーワード認識文法の代わりに、図14に示すようなキーワード認識文法を用いる。この文法は、再帰パス310により、1つの認識文にキーワードが複数出力することを可能とした文法である。このような文法は、キーワードの脱落を防ぐことができる長所を持つが、一方、ユーザが本来発話していないキーワードを出力することが多くなる短所を持つ。
例えば、音声認識部15は、キーワード認識の結果、「(ガーベージ)/ホケン/(ガーベージ)/エキ」「シゼン/(ガーベージ)」という2つの認識文を得たとする。音声認識部15は、この「ホケン」、「エキ」、及び「シゼン」というそれぞれのキーワードについて、上記第1の実施形態で説明したように、信頼度の計算を行う。ここで、音声認識部15は、2つのキーワードの組み合わせについても信頼度を計算する。
例えば、認識結果の第1位の認識文が{「ホケン」、「エキ」}という2つのキーワードを含み、第2位の認識文が「シゼン」という1つのキーワードを含むとする。かかる場合、同一の認識文に含まれるキーワードの組み合わせは、{「ホケン」、「エキ」}であり、また異なる認識文に含まれるキーワードの組合せは、{「ホケン」、「シゼン」}、{「エキ」、「シゼン」}である。
そこで、音声認識部15は、各キーワードの組み合わせに対する信頼度を、下記式で求める。
(キーワードの組み合わせの信頼度)=(含まれているキーワードの信頼度の総和)÷(キーワードの数)
具体的には、音声認識部15は、下記のように信頼度を計算できる。
ホケン−エキ(同一順位文中):(0.9(ホケン)+0.9(エキ))/2(単語数)=0.9
ホケン−シゼン(異順位文間中):(0.9(ホケン)+0.1(シゼン))/2(単語数)=0.5
エキ−シゼン(異順位文間中):(0.9(エキ)+0.1(シゼン))/2(単語数)=0.5
こうして認識キーワード(「認識キーワードの組み合わせ」を含む)の信頼度が計算されると、次に、認識結果変換部16は、変換表を用いて、キーワード変換処理(図13のS202)を行う。
図15は、本実施形態で用いられる変換表172の例を示す図である。変換表172には、認識キーワード(「認識キーワードの組み合わせ」を含む)1721各々の、正解候補キーワード1722各々との関係度1723が格納されている。
図15の変換表172の例では、認識結果変換部16は、同一順位文中の「ホケン−エキ」という2つの認識キーワードの組み合せに対して、正解候補キーワード1722の「エキ」、「ホケン」の関係度1723として、それぞれ、「0.2」、「0.3」を求めることができる。また、異順位文にある「ホケン−シゼン」という2つの認識キーワードの組み合せに対しては、正解候補キーワード1722の「エキ」、「ホケン」「シゼン」の関係度1723として、「0.1」、「0.05」「0.1」を求めることができる。
そして、認識結果変換部16は、上記第1の実施形態と同様に、各正解候補キーワード1722の信頼度を得る。
例えば、正解候補キーワード「ホケン」の信頼度は、下記式により求めることができる。
正解候補キーワード「ホケン」の信頼度=
0.9(ホケン)×0.6(T1)
+0.9(ホケン−エキ(同一順位文中))×0.3(T2)
+0.5(ホケン−シゼン(異順位文間))×0.05(T3)
+0.1(シゼン)×0.05(T4 )
=0.84
同様に計算すると、正解候補キーワード「エキ」、「ホケン」、及び「シゼン」について、信頼度は、「0.795」、「0.84」、及び「0.17」となる。
そして、認識結果変換部16は、正解候補キーワード1722の中から信頼度が「0」のものを除外する。上記の例では、正解候補キーワードとして、「エキ」、「ホケン」、及び「シゼン」が残る。
これに基づき、音声認識部15は、上記第1の実施形態のS103と同様に、S202で特定した正解候補キーワード(上記例では、「エキ」、「ホケン」、「シゼン」)を含む全国施設名を登録した施設名認識文法を用いて、ユーザ発声データに対して再度音声認識を行い、施設名認識処理を行う(図13のS203)。この認識の結果、「東京駅」が認識結果として得られる。
本実施形態では、キーワード認識の結果得られたキーワードの組合せに基づいて、変換表を用いて、正解候補キーワードを求めることができる。すなわち、誤認識に傾向があり、認識結果の認識キーワードの組み合わせパターンに固有の傾向がある場合に対しても、適切な認識文法の選定が可能となる。
なお、本実施形態では、図15の変換表172での正解候補キーワードを「エキ」「ホケン」「シゼン」の3つに限定して説明したが、より多くの正解候補キーワードに対して関係度が付与されている場合には、関係度が付与されているすべての正解候補キーワードに対して本実施例で説明したものと同様の処理を行う。
<第4の実施形態>
第4の実施形態は、上記第1の実施形態と似た構成を備えているので、共通する部分については説明を省略する。
図16は、本実施形態にかかる処理の流れを示すフロー図である。具体例として、ユーザは、カーナビゲーションの目的地として「晴海ふ頭公園」と発話したとする。
音声認識部15は、上記第1の実施形態と同様に、キーワード認識処理を実行する(S301)。ここで用いられるキーワード認識文法は、図4に示した、施設名に多く含まれる単語をキーワードとして用いた認識文法である。キーワード認識の結果、スコアが所定値以上のものとして、「(ガーベージ)/ホケン/(ガーベージ)」「(ガーベージ)/エキ」という2つの認識文が得られたとする。音声認識部15は、この「ホケン」、「エキ」というそれぞれの認識キーワードについて、上記第1の実施形態で説明したように、信頼度を計算する。
そして、認識結果変換部16は、得られた認識キーワードに、図11で示したような変換表170を適用し、正解候補キーワードの信頼度を求める。ここでは、正解候補キーワード「ホケン」、「コウエン」、及び「エキ」の信頼度は、それぞれ「0.54」、「0.36」、及び「0.1」となる。
次に、音声認識部15は、得られた正解候補キーワードを含む全ての施設名認識文法を読み込み可能か否か判定する。具体的には、正解候補キーワードである「ホケン」「コウエン」「エキ」という単語が付く全国の施設名認識文法をメモリに読み込めるかどうかを調べる(S303)。
読み込める場合(S303でNo)、音声認識部15は、S305に処理を移行する。
一方、施設名の数が多いなど、メモリ上に読み込めないと判断した場合(S303でYes)、音声認識部15は、使用する施設名認識文法を選定する。ここでは、信頼度の高い順に正解候補キーワードを選択する。例えば、「ホケン」「コウエン」という2つのキーワードを含む施設名文法はメモリ上に読み込めるが、「エキ」はメモリ上限を超えて読み込めない場合、「ホケン」及び「コウエン」というキーワードを含む施設名認識文法のみをメモリに読み込むデータとして選択する(S304)。
S305では、上記第1の実施形態のS103と同様に、正解候補キーワードを含む施設名認識文法をメモリに読み込む。このとき、S304で選択処理がなされている場合は、選択された施設名認識文法のみを読み込む。すなわち、「ホケン」「コウエン」が選択された場合は、「ホケン」「コウエン」という2つのキーワードを含む施設名認識文法をメモリに読み込み、認識を実行することになる。これにより「晴海ふ頭公園」が決定する。
以上、本実施形態では、正解候補キーワードを含む全ての正解候補認識文法を利用できない場合においても、正解である確率が高いキーワードを含む正解候補認識文法だけを使うことによって、適切に認識を行うことができる。
なお、S304で正解候補キーワードを選定する方法としては、信頼度が高い順番で所定の個数を常に採用する方法でもよい。図17には、上位2つを選ぶ場合の例を示している。
また、S304で正解候補キーワードを選定する方法としては、図18に示すように、信頼度が所定値(例えば、0.2)以上のキーワードを選ぶ方法でもよい。
<第5の実施形態>
第5の実施形態は、上記第1の実施形態と似た構成を備えているので、共通する部分については説明を省略する。
図19は、本実施形態にかかる処理の流れを示すフロー図である。なお、具体例として、ユーザは、カーナビゲーションの目的地として「自然子供の家」と発話したとする。
本実施形態では、認識文法を用いて得られた認識文の中の認識キーワードが出現した位置に配慮して、正解候補キーワードを求める。そのため、変換表に工夫をしている。
図20は、変換表173の例を示す図である。図示するように、変換表173には、認識キーワード1731各々の、正解候補キーワード1732各々との関係度1733が格納されている。ただし、認識キーワード1731は、認識文の中での出現位置で分類され、それぞれに対応する正解候補キーワード1732各々との関係度1733が設定されている。
例えば、変換表173には、「ホテル」という認識キーワードについて、i)「ホテル−(ガーベージ)」のように、認識文の中で語頭に表れた場合、ii)「(ガーベージ)−ホテル−(ガーベージ)」のように、認識文の中で語中に表れた場合、iii)「(ガーベージ)−ホテル」のように、認識文の中で語尾に表れた場合、の3つ場合について、正解候補キーワード1732との関係度1733が設定されている。
まず、音声認識部15は、図4に示したようなキーワード認識文法を用いて、キーワード認識処理を実行する(図19のS401)。そして、音声認識部15は、上記第1の実施形態と同様に、得られた認識キーワードの信頼度を計算する。
次に、認識結果変換部16は、認識キーワードを、変換表173を用いて、正解候補キーワードに変換する(S402)。ここで、認識結果変換部16は、認識キーワードの信頼度に、認識キーワードと正解候補キーワードとの関係度を乗じて、正解候補キーワードの信頼度を求める。なお、図20の変換表173の例では、正解候補キーワードについても出現位置ごとに分類されている。かかる場合、認識結果変換部16は、出現位置ごとに正解候補キーワードの信頼度を求めた後、同じ正解候補キーワードの信頼度を合計し、1つの正解候補キーワードについて1つの信頼度を求める。
ここで、キーワードの認識の結果、「(ガーベージ)/ホテル/(ガーベージ)」というように、認識文中の語中に認識キーワードが出現し、その信頼度が「1.0」であった場合について説明する。
認識結果変換部16は、変換表173を用いて、かかる認識キーワードに対応する、正解候補キーワード1732との関係度1733を求める。ここで、認識結果では、キーワード「ホテル」は、語中に現れている。そこで、図20の変換表173から、認識キーワード「(ガーベージ)/ホテル/(ガーベージ)」に対応する関係度1733を求める。そして、認識キーワードの信頼度と乗算して、正解候補キーワードの信頼度を求める。さらに、認識結果変換部16は、信頼度が「0」である正解候補キーワードを除外する。すると、「ホテル」、「シゼン」という2つのキーワードが正解候補キーワードとして得られる。
そして、音声認識部15は、上記第1の実施形態と同様に、得られた正解候補キーワードを含む全国の施設名認識文法を用いて、施設名認識処理を行う(S403)。この結果、「ホテル」「シゼン」というキーワードを含む施設名認識文法を用いて認識することになり、「自然子供の家」が決定される。
次に、図21のフロー図を用いて、認識キーワードが認識文において語尾に現れた場合について説明する。なお、ユーザは「旭川グランドホテル」と発話したとする。
音声認識部15は、図4に示したキーワード認識文法によって、キーワード認識を実行する(S501)。キーワード認識の結果、「(ガーベージ)/ホテル」というキーワードが得られたとする。音声認識部15は、上記第1の実施形態と同様に、認識キーワードの信頼度を計算する。そして、認識結果変換部16は、キーワード変換処理(S502)を行う。
ここで、認識キーワード「ホテル」は、認識文において、語尾に現れている。そこで、認識結果変換部16は、キーワード変換処理S502では、図20の変換表173から、「(ガーベージ)/ホテル」に対応する関係を参照する。すると、関係度1733が「0」でない正解候補キーワード1732として、「(ガーベージ)−ホテル−(ガーベージ)」[0.1]、「ホテル−(ガーベージ)」[0.1]、「(ガーベージ)−ホテル」[0.8]の3つの正解候補キーワードが求められる。これらの結果に、それぞれ、認識キーワードの信頼度「1.0」を掛けて、正解候補キーワードの信頼度を算出する。結局、信頼度が「0」でない正解候補キーワードとして、「ホテル」が求められる。
その結果、音声認識部15は、施設名認識では、「ホテル」という単語を含む施設名認識文法を用いて認識を行い、「旭川グランドホテル」が確定する。
一般にキーワード認識では、語頭や語尾に付いたキーワードのほうが、語中のものよりも認識率が高い。よって、変換表には、認識キーワードが認識文の語尾や語頭に表れた場合に、その認識キーワードが正解候補キーワードと採用され易くなるように、関係度を高めに設定しておく。こうすることで、他のキーワードとして誤認識される確率が減少する。また、余分な認識文法を読み込むことを防ぎ、消費メモリを抑えることができる。
さらに変形例として、正解候補キーワードが現れる出現位置に応じて、再度の音声認識(施設名認識処理S403、又はS503)で用いる施設名認識文法を変更するようにしてもよい。
例えば、言語モデル記憶部14には、予め、図22に示すように、正解候補キーワードの出現位置に応じた正解候補認識文法が格納されている。本図は、キーワード「ホテル」が、語頭、語尾、語中に表れた場合に応じて格納されている施設名認識文法である。
かかる場合、認識結果変換部16は、図20で示したような変換表173を用いて、出現位置が規定された正解候補キーワードを得る。そして、音声認識部15は、得られた正解候補キーワードを含む施設名認識文法のうち、正解候補キーワードの出現位置に対応する施設名認識文法を選択して用いて、2度目の音声認識(S503)を行う。これにより、正解が含まれる可能性が少ない施設名認識文法を読み込むことを防ぎ、消費メモリの低減を行うことが可能である。
なお、図20に示したような変換表におけるキーワードの出現位置の記載方法は、本図で示した3状態に限定するものではない。たとえば、キーワードの出現位置が、発話検出開始時刻から発話端検出終了時刻までの時間に対する割合で記述されていてもよい。
また、本実施形態では、図20の変換表173での正解候補キーワードを「ホテル」「シゼン」の2つに限定して説明したが、より多くの正解候補キーワードに対して関係度が付与されている場合には、関係度が付与されているすべての正解候補キーワードに対して本実施例で説明したものと同様の処理を行う。
<第6の実施形態>
第6の実施形態は、上記第1の実施形態と似た構成を備えているので、共通する部分については説明を省略する。
本実施形態では、図10のキーワード変換処理S102において使用する変換表を選定する。
誤認識の傾向は、発話する話者によって異なる。また、同一の話者であっても、話し方や発話する言葉により誤認識の傾向が異なる。そこで、本実施形態では、こういった話者の声に適した変換表を読み込む。そのため、変換表記憶部17には、あらかじめ、話者や発話状況を変えたときの発話データを集め、その誤認識傾向を解析して作成された、発話者タイプごとの変換表が格納されている。
また、誤認識の傾向は、車内の騒音環境によっても誤認識の傾向が変化する。よって、ユーザ音声による変換表の選択だけでなく、車内の騒音環境に応じて選択してもよい。変換表記憶部17には、あらかじめ異なる車内環境において認識した結果から誤認識傾向を解析することで作成された、環境対応タイプごとの変換表が格納されている。
音声認識システム1の演算部10には、図23に示すように、認識結果変換部16に加えて、ユーザ音声分析部161と、ユーザ情報設定部162と、ユーザ情報判別部166と、騒音状況分析部163と、ウインドウ状態監視164と、速度監視部165と、環境情報判別部167と、変換表選択部168と、を備えている。
ユーザ音声分析部161は、ユーザの発話の特徴を抽出する。抽出する特徴としては、ユーザの声質、発話長、声の大きさ、ピッチパターンなどである。
ユーザ情報設定部162は、ユーザの音声情報以外から話者情報を推定する部分である。例えば、カーナビゲーションに複数人数の声を登録しておく機能を用意し、ユーザ自身に、自分は誰であるかを運転するたびに入力してもらう。また、カメラ画像を用いたユーザ推定を用いても良い。
ユーザ情報判別部166は、ユーザ音声分析部161及びユーザ情報設定部162からの話者情報を総合して、発話者タイプを決定する。具体的には、ユーザ情報判別部166は、予め、ユーザの声質、発話長、声の大きさ、ピッチパターンに対応させた、発話者タイプを特定するための対応表を保持しており、ユーザ音声分析部161からの情報と合致する発話者タイプを特定する。また、ユーザ情報設定部162から発話者を特定する情報を取得した場合、予め保持している発話者と発話者タイプの対応表を用いて、発話者タイプを特定する。
騒音状況分析部163は、マイク20から入った音声から、騒音の大きさや周波数特性などを分析する。また、車内の騒音状況は、その速度やウインドウの開閉などによっても変化するため、車両のウインドウの開閉装置に連結したウインドウ状態監視部164、及び車両の速度測定装置に連結した速度監視部165によって、それらの状況を監視する。
環境情報判別部167は、騒音状況分析部163と、ウインドウ状態監視部164と、速度監視部165とからの環境情報を総合して、環境タイプを特定する。なお、環境情報判別部167は、環境情報から環境タイプを特定するための対応表を予め保持している。
変換表選択部168は、発話者タイプ及び環境タイプに対応する変換表を特定するための対応表を保持している。そして、この対応表を用いて、ユーザ情報判別部166から受け付けた発話者タイプ、及び環境情報判別部167から受け付けた環境タイプに対応する変換表を選び、認識結果変換部16に通知する。
なお、変換表選択部168は、発話者タイプ及び環境タイプのいずれか一方に基づいて、認識結果変換部16で使用される変換表を決定してもよい。
本実施形態によれば、話者の声の条件ごとに異なる変換表を使用することにより、より高い認識率を実現することができる。また、車内の騒音環境の条件ごとに異なる変換表を使用することにより、より高い認識率を実現することができる。
以上、いくつかの実施形態について説明したが、上記実施形態は、様々な変形が可能である。また、それぞれの実施形態は、適宜、組み合わせて実施されてもよい。
本発明の一実施形態における音声認識システムの構成図である。 音素ごとの音響モデルの例を示す図である。 辞書の例を示す図である。 キーワード認識に使用する認識文法の例を示す図である。 音響モデルの連結の例を示す図である。 音響モデルの連結の例を示す図である。 キーワードを含む施設名を登録した認識文法(施設名認識文法)の例を示す図である。 キーワードを含まない施設名を登録した認識文法の例を示す図である。 キーワード認識の認識結果の例を示す図である。 処理手順を示すフローチャートである。 キーワードの変換に使用する変換表の例である。 キーワードの変換に使用する変換表の例である。 処理手順を示すフローチャートである。 再帰パスを含むキーワード認識文法の例を示す図である。 キーワードの変換に使用する変換表の例である。 処理手順を示すフローチャートである。 正解候補キーワードを選定する例を示す図である。 正解候補キーワードを選定する例を示す図である。 処理手順を示すフローチャートである。 キーワードの変換に使用する変換表の例である。 処理手順を示すフローチャートである。 キーワードの出現位置に応じた施設名認識文法の例を示す図である。 音声認識システムの構成図の一部である。
符号の説明
1・・・音声認識システム、10・・・演算部、20・・・マイク、30・・・入力装置、40・・・出力装置、
11・・・分析部、12・・・音声データ記憶部、13・・・音響モデル記憶部、14・・・言語モデル記憶部、15・・・音声認識部、16・・・認識結果変換部、17・・・変換表記憶部、18・・・再認識指令部

Claims (9)

  1. 音声認識装置であって、
    ユーザが発話した音声に基づいて音声データを取得する手段と、
    頻出単語であるキーワードを含む第1の文法を用いて前記音声データに含まれるキーワードを認識する第1の音声認識手段と、
    前記第1の音声認識手段で認識したキーワードに対して、予め定められた変換表を用いて、正解候補キーワードを求めるキーワード変換手段と、
    前記キーワード変換手段で求めた正解候補キーワードを含む第2の文法を用いて前記音声データに含まれる単語を認識する第2の音声認識手段と
    を備えることを特徴とする音声認識装置。
  2. 請求項1に記載の音声認識装置において、
    前記変換表には、前記第1の音声認識手段でキーワードが認識されなかった場合及び/又はキーワードが誤って認識された場合のための正解候補キーワードが記述されている
    ことを特徴とする音声認識装置。
  3. 請求項1に記載の音声認識装置において、
    前記変換表には、複数のキーワードの組合せに対して、正解候補キーワードが対応付けられており、
    前記キーワード変換手段は、
    前記第1の音声認識手段で認識されたキーワードから、キーワードの組み合わせを生成し、生成したキーワードの組み合わせに対して、前記変換表を用いて、正解候補キーワードを求める
    ことを特徴とする音声認識装置。
  4. 請求項1に記載の音声認識装置において、
    前記第2の音声認識手段は、
    前記キーワード変換手段により求められた前記正解候補キーワードの中から、所定の数以下の正解候補キーワードを選定し、
    選定した正解候補キーワードを含む前記第2の文法を読み込んで前記音声データに含まれる単語を認識する
    ことを特徴とする音声認識装置。
  5. 請求項1に記載の音声認識装置において、
    前記第2の音声認識手段は、
    前記正解候補キーワードを含む前記第2の文法の中から、所定量の第2の文法を選定し、選定した第2の文法を読み込んで前記音声データに含まれる単語を認識する
    ことを特徴とする音声認識装置。
  6. 請求項1に記載の音声認識装置において、
    前記音声認識部は、
    前記正解候補キーワードの中から、所定の方法で計算した信頼度が所定の値以上である正解候補のキーワードを選定し、
    選定した正解候補キーワードを含む第2の文法を読み込んで前記音声データに含まれる単語を認識する
    ことを特徴とする音声認識装置。
  7. 請求項1に記載の音声認識装置において、
    前記第1の音声認識手段は、前記音声データに含まれているキーワードとともにその出現位置を認識し、
    前記変換表には、前記第1の音声認識手段により認識されるキーワードについて、出現位置に対応して、正解候補キーワードが記述されており、
    前記キーワード変換手段は、
    前記変換表を用いて前記第1の音声認識手段で認識したキーワードとその出現位置に対応する正解候補キーワードを求める
    ことを特徴とする音声認識装置。
  8. 請求項1に記載の音声認識装置において、
    ユーザから取得した情報を用いて、前記キーワード変換手段で用いられる変換表を選択する変換表選択手段を備えている
    ことを特徴とする音声認識装置。
  9. 請求項1に記載の音声認識装置において、
    環境情報を取得する環境情報取得手段と、
    前記環境情報を用いて、前記キーワード変換手段で用いられる変換表を選択する変換表選択手段を備えている
    ことを特徴とする音声認識装置。
JP2007289525A 2007-11-07 2007-11-07 音声認識装置 Pending JP2009116075A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007289525A JP2009116075A (ja) 2007-11-07 2007-11-07 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007289525A JP2009116075A (ja) 2007-11-07 2007-11-07 音声認識装置

Publications (1)

Publication Number Publication Date
JP2009116075A true JP2009116075A (ja) 2009-05-28

Family

ID=40783278

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007289525A Pending JP2009116075A (ja) 2007-11-07 2007-11-07 音声認識装置

Country Status (1)

Country Link
JP (1) JP2009116075A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013006215A1 (en) * 2011-07-01 2013-01-10 Nec Corporation Method and apparatus of confidence measure calculation
JP2015520410A (ja) * 2012-04-27 2015-07-16 インタラクティブ・インテリジェンス・インコーポレイテッド 音声認識に対する負例(アンチワード)に基づく性能改善
JP6462936B1 (ja) * 2018-06-18 2019-01-30 菱洋エレクトロ株式会社 音声認識システム、及び音声認識装置
CN112259077A (zh) * 2020-10-20 2021-01-22 网易(杭州)网络有限公司 语音识别方法、装置、终端和存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0481898A (ja) * 1990-07-25 1992-03-16 Nec Corp 音声認識装置
JPH10274996A (ja) * 1997-03-31 1998-10-13 Toshiba Corp 音声認識装置
JPH11202890A (ja) * 1998-01-20 1999-07-30 Ricoh Co Ltd 音声検索装置
JP2000322085A (ja) * 1999-05-14 2000-11-24 Nec Corp 音声認識装置及び音声認識方法
JP2001147698A (ja) * 1999-11-22 2001-05-29 Hitachi Ltd 音声認識用疑似単語生成方法及び音声認識装置
JP2003345384A (ja) * 2002-05-27 2003-12-03 Pioneer Electronic Corp 音声認識装置、音声認識方法および音声認識プログラム
JP2004334228A (ja) * 2004-06-07 2004-11-25 Denso Corp 単語列認識装置
JP2005092310A (ja) * 2003-09-12 2005-04-07 Kddi Corp 音声キーワード認識装置
JP2006039383A (ja) * 2004-07-29 2006-02-09 Nissan Motor Co Ltd 音声認識装置
JP2006039382A (ja) * 2004-07-29 2006-02-09 Nissan Motor Co Ltd 音声認識装置
JP2006521578A (ja) * 2003-03-26 2006-09-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識システム
JP2007187975A (ja) * 2006-01-16 2007-07-26 Nissan Motor Co Ltd 音声認識装置および音声認識方法
JP2008083165A (ja) * 2006-09-26 2008-04-10 Xanavi Informatics Corp 音声認識処理プログラム及び音声認識処理方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0481898A (ja) * 1990-07-25 1992-03-16 Nec Corp 音声認識装置
JPH10274996A (ja) * 1997-03-31 1998-10-13 Toshiba Corp 音声認識装置
JPH11202890A (ja) * 1998-01-20 1999-07-30 Ricoh Co Ltd 音声検索装置
JP2000322085A (ja) * 1999-05-14 2000-11-24 Nec Corp 音声認識装置及び音声認識方法
JP2001147698A (ja) * 1999-11-22 2001-05-29 Hitachi Ltd 音声認識用疑似単語生成方法及び音声認識装置
JP2003345384A (ja) * 2002-05-27 2003-12-03 Pioneer Electronic Corp 音声認識装置、音声認識方法および音声認識プログラム
JP2006521578A (ja) * 2003-03-26 2006-09-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識システム
JP2005092310A (ja) * 2003-09-12 2005-04-07 Kddi Corp 音声キーワード認識装置
JP2004334228A (ja) * 2004-06-07 2004-11-25 Denso Corp 単語列認識装置
JP2006039382A (ja) * 2004-07-29 2006-02-09 Nissan Motor Co Ltd 音声認識装置
JP2006039383A (ja) * 2004-07-29 2006-02-09 Nissan Motor Co Ltd 音声認識装置
JP2007187975A (ja) * 2006-01-16 2007-07-26 Nissan Motor Co Ltd 音声認識装置および音声認識方法
JP2008083165A (ja) * 2006-09-26 2008-04-10 Xanavi Informatics Corp 音声認識処理プログラム及び音声認識処理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200600845074; 山田 誠: 'リジェクションのための非キーワードモデル設計法の検討' 日本音響学会2003年秋季研究発表会講演論文集-I- , 200309, 社団法人日本音響学会 *
JPN6011069755; 山田 誠: 'リジェクションのための非キーワードモデル設計法の検討' 日本音響学会2003年秋季研究発表会講演論文集-I- , 200309, 社団法人日本音響学会 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013006215A1 (en) * 2011-07-01 2013-01-10 Nec Corporation Method and apparatus of confidence measure calculation
US9336769B2 (en) 2011-07-01 2016-05-10 Nec Corporation Relative semantic confidence measure for error detection in ASR
JP2015520410A (ja) * 2012-04-27 2015-07-16 インタラクティブ・インテリジェンス・インコーポレイテッド 音声認識に対する負例(アンチワード)に基づく性能改善
JP6462936B1 (ja) * 2018-06-18 2019-01-30 菱洋エレクトロ株式会社 音声認識システム、及び音声認識装置
WO2019244385A1 (ja) * 2018-06-18 2019-12-26 菱洋エレクトロ株式会社 音声認識システム、及び音声認識装置
CN112259077A (zh) * 2020-10-20 2021-01-22 网易(杭州)网络有限公司 语音识别方法、装置、终端和存储介质
CN112259077B (zh) * 2020-10-20 2024-04-09 网易(杭州)网络有限公司 语音识别方法、装置、终端和存储介质

Similar Documents

Publication Publication Date Title
KR100755677B1 (ko) 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
JP6188831B2 (ja) 音声検索装置および音声検索方法
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
EP1575030B1 (en) New-word pronunciation learning using a pronunciation graph
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
WO2015151157A1 (ja) 意図理解装置および方法
JP5310563B2 (ja) 音声認識システム、音声認識方法、および音声認識用プログラム
US20070239444A1 (en) Voice signal perturbation for speech recognition
US7409345B2 (en) Methods for reducing spurious insertions in speech recognition
JP4340685B2 (ja) 音声認識装置及び音声認識方法
JP6699748B2 (ja) 対話装置、対話方法及び対話用コンピュータプログラム
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
CN112562676B (zh) 一种语音解码方法、装置、设备及存储介质
JP4836076B2 (ja) 音声認識システム及びコンピュータプログラム
JP2004226982A (ja) 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法
WO2004047075A1 (ja) 音声処理装置および方法、記録媒体並びにプログラム
Nakagawa A survey on automatic speech recognition
JP2009116075A (ja) 音声認識装置
US20040006469A1 (en) Apparatus and method for updating lexicon
JP2008026721A (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
JP2005283646A (ja) 音声認識率推定装置
Wang et al. Posterior-based confidence measures for spoken term detection
JP2005250071A (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JPH1195793A (ja) 音声入力解釈装置及び音声入力解釈方法
JP4236502B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20100215

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20101018

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20101018

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120529

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121002