JP5009037B2 - 音声認識装置、その音声認識方法 - Google Patents

音声認識装置、その音声認識方法 Download PDF

Info

Publication number
JP5009037B2
JP5009037B2 JP2007111611A JP2007111611A JP5009037B2 JP 5009037 B2 JP5009037 B2 JP 5009037B2 JP 2007111611 A JP2007111611 A JP 2007111611A JP 2007111611 A JP2007111611 A JP 2007111611A JP 5009037 B2 JP5009037 B2 JP 5009037B2
Authority
JP
Japan
Prior art keywords
paraphrase
vocabulary
rule
speech recognition
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007111611A
Other languages
English (en)
Other versions
JP2008268571A (ja
Inventor
浩明 小窪
健 本間
信夫 畑岡
久 高橋
健 大野
実 冨樫
大介 斉藤
景子 桂川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Faurecia Clarion Electronics Co Ltd
Original Assignee
Clarion Co Ltd
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Clarion Co Ltd, Nissan Motor Co Ltd filed Critical Clarion Co Ltd
Priority to JP2007111611A priority Critical patent/JP5009037B2/ja
Publication of JP2008268571A publication Critical patent/JP2008268571A/ja
Application granted granted Critical
Publication of JP5009037B2 publication Critical patent/JP5009037B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、学習機能を有する音声認識装置に関し、特に、認識対象語彙の言い換え表現の学習技術に関する。
近年、携帯電話又はカーナビゲーション装置などの情報機器において、音声認識技術を用いたインタフェースが普及しつつある。音声認識技術に関しては、例えば、非特許文献1が詳しい。
鹿野、伊藤、河原、武田、山本、音声認識システム、オーム社、2001.
しかしながら、現状の音声インタフェースは必ずしも使い勝手のよいものとはなっていない。この原因の一つに、ユーザが発声する単語と音声認識辞書に記憶されている語彙が一致しないために音声認識が失敗する現象があげられる。例えば、カーナビゲーション装置で目的地の施設名称を検索する場合、ユーザは必ずしも目的地の正式名称を正確に記憶しているとは限らない。このため、うろ覚えで発声した施設名称が正式名称と異なっているために、何度発声しても正しい検索結果が得られないことは珍しいことではない。このように、辞書にない単語を発話することを語彙外発話と呼び、音声認識が抱える重要課題の一つとなっている。
語彙外発話への対策としては、正式名称以外にユーザが発話するかもしれないと想定される単語を辞書に追加することが考えられる。前出の施設名称の例を挙げると、「ユニバーサル・スタジオ・ジャパン」に対して、通称名「ユー・エフ・ジェー」を追加する方法や「東京プリンスホテル」を「プリンスホテル」のように名称の一部を省略した表現、あるいは「プリンスホテル東京」のように語順を入れ替えた表現を追加する方法などが考えられる。特に、名称の一部を省略、語順の入れ替え等の表現を追加する場合にはルール化が容易であるため、定義した言い換え規則に基づき自動的に生成した表現を追加することも考えられる。
このように正式名称以外の言い換え表現を追加していくことで、うろ覚えによって正式名称と異なる名称を発声したとしても、辞書外発話となることを回避するできる可能性が高まる。ただし、認識辞書にさまざまな言い換え表現のエントリを追加することによって認識対象語彙数が増大し、消費メモリ量や認識処理時間など計算リソースに対する負荷が大きくなるという問題が生じる。
音声認識装置において、ユーザが発話した単語が認識辞書に登録されていない場合には正しい認識結果を得ることは出来ない。また、やみくもに認識辞書にエントリを追加してしまうと、消費メモリ量や認識処理時間が増加してしまう。
本発明は、上記課題を解決すべくなされたものであり、その目的は、消費メモリ量や認識処理時間の増加を抑えつつ、認識語彙外発話による認識不能を解消することにある。
上記課題を解決すべく、本発明では、ひとつの単語に対する言い換え表現規制を、辞書内の複数の語彙(エントリ)に対して適用する。
例えば、本発明は、
語彙記憶部に記憶されている語彙を認識対象とする音声認識装置であって、
前記語彙記憶部に記憶されている語彙の言い換え表現を新たに追加する言い換え表現学習部を有し、
前記言い換え表現学習部は、
複数の言い換え規則の中から一つの言い換え規則を特定する規則特定手段と、
特定した言い換え規則を用いて前記語彙記憶部に記憶されている語彙の言い換え表現を生成する手段と、
生成した言い換え表現を前記語彙記憶部に追加する手段とを有する。
以下、本発明の実施の形態を図面を参照して説明する。
<第1の実施形態>
図1は、本発明の一実施形態が適用された音声認識装置1の概略構成図である。
音声認識装置1は、主制御装置10と、操作入力装置20と、音声入力装置30と、表示装置40とを備える。
操作入力装置20は、スイッチの押下などのユーザの操作により入力を受け付ける装置であり、キースイッチ、ダイヤルスイッチ、タッチパネルなどからなる。
音声入力装置30は、ユーザにより発話された音声の入力を受け付ける装置であり、マイクロフォンにより構成される。
表示装置40は、主制御装置10で生成した情報を画像表示する装置であり、液晶ディスプレイなどで構成される。
主制御装置10は、さまざまな処理を行う中心的なユニットである。例えば、操作入力装置20や音声入力装置30から入力されたユーザからの要求に基づいて、対応する処理を行い、処理の結果を表示装置40に出力する。また、音声入力装置30を介して音声を取得した場合は、音声認識によりユーザの発声した内容を特定し、特定した内容に応じた処理を行う。また、音声認識に用いる辞書105に、既存の語彙の言い換え表現を追加する処理を行う。
主制御装置10は、その機能部として、分析部101と、照合部102と、言い換え表現学習部106と、音声認識用データベース107とを備える。音声認識用データベース107は、音響モデル103と、文法104と、辞書105とを登録している。
音響モデル103は、例えば、HMM(Hidden Markov Model)である。HMMとは、マルコフモデルに従って遷移する内部状態及び内部状態における観測信号の出現確率分布から構成される確率モデルである。図2にトライフォンHMMの例を示す。トライフォンHMMは、一つの音素に対して前後に接続する音素毎にモデル化する。図2の例は、トライフォン“e/k/i”のHMMモデルを示しており、中心音素kに対して、前に/e/、後ろに/i/が続く場合のモデルである。同様に、全ての音素に対してトライフォンを用意しておけば、任意の音素系列をモデル化することが可能となる。
辞書105には、音声認識対象の語彙(エントリ)が登録されている。図3に示すように、辞書105には、認識結果に対応するエントリ301とエントリに対する読みに対応する音素列302とが対となって登録されている。すなわち、音響モデルデータベース103に格納されている音素毎のモデルを、音素列302に従って接続することで、エントリ301に対応する単語の音響モデルが生成されるようになっている。
文法104は、辞書に登録されている単語の並びを規定する。図4は、文法104に格納されている文法の例を示す。図4は、ネットワーク文法の例を示しており、ネットワークの左端から右端への経路に沿った単語連鎖を受理する。例えば、単語「目的地」の後には、「を」のみが接続を許されており、「を」の後に接続する単語は「東京駅」、「有楽町駅」等のいずれか一つとなる。
なお、辞書105は、エントリをクラス毎に定義してもよい。図5の例では、<駅>というクラス501の下には、東京駅502、有楽町駅503等が定義されている。この場合、図6のように単語の代わりにクラス601を使って文法を定義することも可能である。
図1に戻って説明する。分析部101は、入力された音声波形を特徴パラメータに変換する。音声認識等で用いられる特徴パラメータとは、音声信号を短期間(数十ms)毎に分割し、その区間の信号をMFCC(Mel Frequency Cepstrum Coefficient)等に変換した多次元ベクトル量である。従って、分析部101の出力は、多次元ベクトルとして表される特徴ベクトルの時系列データである。
照合部102は、辞書105と音響モデル103から生成される単語音響モデルと、分析部101で変換された入力音声の特徴パラメータ系列とを照合し、文法104で受理される単語連鎖の中でスコアが最大となる単語連鎖を認識結果として出力する。
言い換え表現学習部106は、辞書105に登録されているエントリに対して、辞書105に登録されていない言い換え表現を生成し、辞書105に登録する機能を有する。
なお、主制御装置10は、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)、他の装置(操作入力装置20、音声入力装置30、表示装置40など)とのインタフェース、これらを接続するバス、などからなる汎用的なコンピュータシステムにより構成される。上記した各機能部は、CPUが、メモリにロードした所定のプログラムを実行することにより達成される。
また、音声認識装置1は、車載用ナビゲーション装置に適用することができる。この場合、現在位置算出装置(車速センサ、ジャイロセンサ、GPS(Global Positioning System)受信装置)、地図データ記憶装置等を備えている。
次に、上記のように構成される音声認識装置1の動作について説明する。
図7は、辞書105に登録されているエントリの言い換え表現を生成し追加する処理のフロー図である。
まず、言い換え表現学習部106は、学習対象単語の指定を受け付ける(S11)。具体的には、ユーザから入力装置11を介して、辞書105に登録済みのエントリの中から、学習対象単語とするエントリを指定させる。ここで、音声認識装置1が車載用ナビゲーション装置を兼ねる場合、表示装置13に地図データに基づいて地図を表示して、地図中の地点の指定を受け付け、受け付けた地点に対応するエントリ(地点名称)を学習対象単語としてもよい。以下、辞書105に登録されているエントリ「東京都民ゴルフクラブ」が指定されたとして説明する。
次に、言い換え表現学習部106は、指定された学習対象単語に対して、予め定められた複数の言い換え規則を適用し、結果(「展開結果」という)を求める(S12)。
図8は、言い換え規則が格納された展開ルール800の構成を示す図である。展開ルール800は、識別コード801と、言い換え規則802と、その規則の適用例803とが1つのレコードに格納されている。
図8の例では、識別コード「1」の言い換え規則802は、エントリに地名が含まれている場合に、その地名部分を省略するという規則である。識別コード「2」の言い換え規則802は、エントリに地名が含まれている場合に、地名部分とその他の部分との順番を入れ替えるという規則である。識別コード「4」の言い換え規則802は、エントリに「ゴルフクラブ」という語句が含まれている場合に、「ゴルフクラブ」という語句を「ゴルフ場」に置換するという規則である。
このような展開ルール800は、予め設定されており、主制御装置10の記憶装置に記憶されているものとする。
図9に、学習対象単語「東京都民ゴルフクラブ」に対して、図8に示した展開ルール800に登録されている言い換え規則802を適用した場合の展開結果を示す。展開結果を格納するテーブルには、各レコードに、識別コード901(識別コード801に対応)と、展開結果903とが格納される。
言い換え規則学習部106は、それぞれの言い換え規則802に対して、その展開結果903を求める。ただし、識別コード「3」や「6」の言い換え規則802のように、学習対象単語が規則に当てはまらない場合には、展開結果を出力しない。また、識別コード「7」の言い換え規則802のように、複数の言い換え規則を同時に適用することも可能である。
図9は、識別コード「7」までの言い換え規則802を適用した例であり、学習対象単語「東京都民ゴルフクラブ」に対して、「都民ゴルフクラブ」、「都民ゴルフクラブ東京」、「東京都民ゴルフ場」、「東京都民カントリークラブ」、「都民ゴルフ場」の5つのエントリに展開された様子である。
次に、言い換え表現学習部106は、学習対象単語と展開結果とを纏めて、S14で用いるための認識辞書として登録する(S13)。図9の例では、学習対象単語「東京都民ゴルフクラブ」と、5つの展開単語の計6つの単語が認識辞書として登録される。なお、この認識辞書は、次のS14で用いるものであり、通常の音声認識で用いる辞書105とは異なる。
次に、言い換え表現学習部106は、表示装置40に「選択した学習対象単語を言い換えて発話して下さい」などと表示して、ユーザに学習対象単語を言い換えて発話することを促す。そして、ユーザが発話した音声を音声入力装置30を介して取得し、取得した音声を、S13で登録した認識辞書を用いて認識する(S14)。なお、音声認識は、分析部101及び照合部102を介して行う。
図9の例では、言い換え表現学習部106は、6単語のみが登録されている認識辞書を用いて、ユーザの発話を認識することになる。ここで、学習対象単語「東京都民ゴルフクラブ」に対して、ユーザが新たに登録したい言い換え表現として「東京都民ゴルフ場」を発声したとする。そうすると、照合部102は、認識辞書に存在する「東京都民ゴルフ場」を認識結果として出力する。
次に、言い換え表現学習部106は、認識結果に一致する展開結果903を与える言い換え規則802を特定する(S15)。
図9の例で、S14での認識結果が「東京都民ゴルフ場」であったとする。言い換え表現学習部106は、図9より、「東京都民ゴルフ場」に一致する展開結果を与える言い換え規則として、識別コード「4」の言い換え規則802を特定する。
次に、言い換え規則学習部106は、辞書105に登録されているエントリのうち、S15で特定した言い換え規則が適用可能なエントリに対して、S15で特定した言い換え規則を適用し、その結果を辞書105に追加する。
図10に適用例を示す。図10は、辞書105に登録された各エントリ1001に対する展開結果1002を示している。「東京駅」や「有楽町駅」などは、識別コード「4」の言い換え規則802が適用不可能なので、展開結果はない。一方、「東京都民ゴルフ場」、「佐野ゴルフ場」、「レインボーヒルズゴルフ場宮城」の3単語は、適用可能であるので、展開結果1002が辞書105に追加される。
以上、図7の言い換え表現の追加処理のフローについて説明した。こうして辞書105には、既存のエントリに対して、言い換え表現が追加される。追加されたエントリは、既存のエントリと同様に、ユーザから発話された音声の認識の際に、照合部102で利用される。
以上、本発明の一実施形態について説明した。
上記実施形態によれば、ユーザはひとつのエントリ(例えば、「東京都民ゴルフクラブ」)について言い換え表現(例えば、「ゴルフクラブ」を「ゴルフ場」に言い換える規則)を登録しただけで、辞書105内の全エントリに対して、言い換え規則を適用することができる。これにより、言い換え表現をユーザ自らが登録していないエントリに対しても、語彙外発話とはならずに正しい認識結果を得ることが可能となる。例えば、「佐野ゴルフクラブ」を「佐野ゴルフ場」と発声した場合にも、語彙外発話とはならずに正しい認識結果が得られる。また、ユーザの発話傾向に適応した言い換え規則のみを採用することで、予め全ての言い換え規則を適用して多くのエントリを辞書に追加しておく手法に比べて、少ないエントリ数の追加で目的が達成されるため、省メモリ化の効果も高い。
<第1の実施形態の変形例>
本発明は、上記実施形態に制限されない。上記実施形態は、様々な変形が可能である。
例えば、上記実施形態では、言い換え表現学習部106は、S14の音声認識処理により、全エントリに適用する言い換え規則を特定しているが、これに限定されない。代わりに、学習対象単語を展開ルール800によって展開した結果(S13の展開結果)を、表示装置40に表示し、ユーザから操作入力装置20を介して、展開結果のいずれかの選択を受け付けてもよい。
図11は、かかる場合(言い換え候補を提示/選択させる方法)の処理フロー図である。
図11において、生成単語の提示(S13’)と候補単語選択(S14’)以外の処理は図7と同じであるため、同じ箇所については説明を省略する。
生成単語の提示S13’では、言い換え表現学習部106は、展開ルール800の適用(S12)によって生成した展開結果をユーザに提示する。提示方法は、表示装置40に表示しても良いし、音声出力装置を備える場合は、音声として出力しても良い。
候補単語選択S14’では、言い換え表現学習部106は、提示した展開結果の中から1つの選択を受け付ける。なお、タッチパネル等を介して選択を受け付けてもよいし、生成単語の提示S13’で「1.都民ゴルフクラブ」、「2.都民ゴルフクラブ東京」、「3.東京都民ゴルフ場」のように番号付きで提示し、その番号の指定により選択を受け付けても良い。
このように、展開された候補をユーザが選択する方法であれば、音声認識による誤りを排除できる。すなわち、意図しない展開ルールが特定されることはない。ただし、展開された言い換え表現候補が多すぎる場合には、すべての候補をユーザに提示することが困難となるため、図7のS13,S14で示したように、音声認識を用いる方法が望ましい。
また、過去に採用された言い換え規則を記憶しておき、辞書105が更新された場合に、自動的に言い換え表現を追加するようにすることもできる。車載用ナビゲーション装置においては、地図の更新が頻繁に行われ、それに伴い、音声認識用の辞書105も更新される。かかる場合に配慮して、言い換え表現学習部106は、図7や図11の処理で言い換え表現を追加した場合、適用した言い換え規則(識別コード)を記憶しておく。そして、辞書105のバーション情報を定期的に調べて、更新されたと判定された場合、更新された辞書105のエントリに対して、記憶しておいた言い換え規則を適用し、言い換え表現を生成し登録する。こうすれば、地図が更新された場合でも、過去に設定した言い換え規則が自動的に適用されるので、地図の頻繁な更新に対応することができる。
<第2の実施形態>
本発明の異なる実施例として、キーワード認識を言い換え規則の特定に用いる実施の形態を以下に示す。本実施例では、ユーザが言い換え語学習のみのために発話した音声ではなく、システム操作のために行った発話音声から言い換え語彙を学習することを想定している。よって、学習対象とするエントリは一つに特定されていない場合が多く、複数のエントリからユーザが選択的に発話を行った場合に、学習対象となるエントリを推定しながら言い換え規則を学習する。
図12は、本発明の第2の実施形態が適用された音声認識装置の構成図である。本実施形態は、上記第1の実施形態と基本的には同様の構成を備えているので、共通する構成については説明を省略する。本実施形態の音声認識装置は、主制御装置10に、キーワード選択部108を備えている。キーワード選択部108は、音声認識装置が待ち受ける複数のエントリから、それぞれのエントリの特徴的な音素列であるキーワードを選択する。照合部102では、これを待ち受け語彙とする、キーワードスポット認識を行う。
図13は、キーワード認識により言い換え対象エントリの推定と言い換え規則の特定を行い、言い換え語を辞書に追加する処理の、フロー図である。
まず、音声認識処理がスタート(S21)すると、キーワード選択部108は、音声認識辞書105のうちで、ユーザが音声認識の待ち受け対象となっているエントリを特定する際に使用されると推定される、特徴的なキーワードを選択し、これを音声認識対象とする(S22)。かかるキーワードは、予め設定されているものとする。図14に、辞書105に登録されている語彙の例を示した。例えば、「東京都民ゴルフクラブ」が待ち受け対象となっている場合は、待ち受け対象語彙に含まれる、地名である「東京」、ジャンルを表す「ゴルフ」とその言い換え語である「カントリークラブ」及び「ゴルフクラブ」、「ゴルフ場」、などがキーワードとなる。図15に、各待ち受け語から得られるキーワードの例を示した。音声が入力されると、照合部102はこれらを待ち受け語とし、辞書105に登録されている語彙を認識する文法と、S21で選択したキーワードを認識するキーワードスポット文法の両方を用いて音声認識処理を行なう(S23)。このとき、照合部102で照合する、特徴量の分析部101の分析結果は、後の処理で再度利用するため、分析部101内で保持しておく。
次に、言い換え表現学習部106では、入力された音声が辞書105に登録されている語彙の言い換え語である可能性が高いかどうかを判定する(S24)。ここでは、辞書105に登録されている語彙を認識した結果の音声認識尤度(スコア)と、キーワード選択部108が選択したキーワードを認識した結果の音声認識尤度とを用いて言い換え語が発話された可能性が高いかどうかを判定する。一般に、キーワードスポット文法を用いた音声認識結果の認識尤度は、キーワードスポットでない文法を用いた音声認識結果の認識尤度よりも高くなる傾向にある。このため、キーワードスポット文法を用いた音声認識結果の認識尤度が、辞書105に登録されている語彙を認識した結果の認識尤度よりも、あらかじめ定めた閾値以上大きい場合にここで認識されたキーワードを含む言い換え語が発話されたと判断する。逆に、辞書105に登録されている語彙を認識した結果の認識尤度とキーワード認識の認識尤度の差があらかじめ定めた閾値よりも小さいか、辞書105に登録されている語彙を認識した結果の認識尤度のほうがキーワード認識の認識尤度よりも大きい場合は言い換えが行われた可能性が低いと判断し、辞書105が登録されている語彙を認識した結果を認識結果として結果を出力する(S31)。
キーワードスポット文法を用いた音声認識結果の認識尤度が、辞書105に登録されている語彙を認識した結果の認識尤度よりも、あらかじめ定めた閾値以上大きく、S24において言い換え語が発話された可能性が高いと判断された場合には、言い換え表現学習部106は、S23で行ったキーワードスポットによるキーワード認識の結果から、言い換えが行われた語彙(=学習対象語彙)候補を推定する(S25)。例えば、キーワードスポットによる認識結果が「カントリークラブ」で、辞書105に登録されている語彙を認識した結果が「東京都民ゴルフクラブ」であったとする。このとき、キーワード「カントリークラブ」の認識尤度が「東京都民ゴルフクラブ」に比べて十分に高い場合に、「カントリークラブ」に関連した語彙が言い換えられたと判断する。語彙を言い換えた結果にキーワード「カントリークラブ」が含まれるのは、受け語彙のうち「東京都民ゴルフクラブ」と「神奈川国際ゴルフクラブ」であるため、これらのうちどちらかが言い換えられたと推定できる。
次に、言い換え表現学習部106は、言い換え規則の推定を行う(S26)。ここでは、学習対象語候補に適用した場合に、キーワードスポットで得られたキーワードが含まれる言い換え語を生成する言い換え規則が、使用された可能性のある言い換え規則であると推定される。
図16に、「東京都民ゴルフクラブ」と「神奈川国際ゴルフクラブ」に全ての言い換え規
則を適用した例を示す。これら図16に示した言い換え規則のうち、展開結果にキーワード「カントリークラブ」が含まれている「東京都民カントリークラブ」、「神奈川国際カントリークラブ」が言い換え語の候補となる。よって、これらの言い換え語を生成した言い換え規則「5.特定語句の置換2」が使用された言い換え規則であると推定できる。ここで、使用された言い換え規則は唯一に絞れるとは限らないが、可能性のある言い換え規則候補は全て使用された可能性があるとする。
次に、言い換え表現学習部106は、ここで推定された言い換え規則を適用された言い換え語(ここでは「東京都民カントリークラブ」および「神奈川国際カントリークラブ」)を認識辞書に追加し(S27)、分析部101に保持しておいた音声特徴量の分析結果を用いて再度認識処理する(S28)。そして、その結果得られた音声認識結果を発話された言い換え語とする。また、この発話された言い換え語に使用されている言い換え規則を辞書105内の全ての同一エントリに適用し(S29)、これを辞書に追加する(S30)。そして、S28で認識した言い換え語の認識結果を認識結果として出力する(S31)。
<第2の実施形態の変形例1>
先の実施例では学習対象語彙の推定S25は、キーワード認識の結果のみを用いて行ったが、辞書105に登録されている語彙の認識結果を用いて、学習対象語彙をさらに絞り込んでもよい。例えば、先の例で、辞書105に登録されている語彙を認識した結果が「東京都民ゴルフクラブ」のみであったとする。言い換えられた語も、言い換え前の語と音響的な距離が近く、言い換えられる前の語が認識結果として出現する可能性も高いため、言い換えられた学習対象語彙は「東京都民ゴルフクラブ」であると推定することができる。
また、複数の認識結果候補を出力する音声認識処理を用いて、認識結果の上位N個以内に入っている語や、認識尤度から得られるスコアがある一定以上の場合に学習対象語と推定することもできる。
また、言い換え規則により生成される言い換え語が一定数以下となる場合にのみ音声認識処理による言い換え規則特定を行ない、言い換え規則により生成される言い換え語が一定数以上となる場合は、絞り込むための追加情報の入力をユーザに求め、情報が追加された後に改めて言い換え規則の特定を行なうようにしてもよい。
<第2の実施形態の変形例2>
また、言い換え規則の候補は、状況に応じて変化させることで、言い換え語候補をより減らすこともできる。例えば、ユーザがすでに発話した内容や、システムの応答に使用されている語は省略される可能性が高い。図17にすでにユーザが発話した内容が省略される言い換えが行われた例を示す。S1、U1はそれぞれシステム発話の第一発話、ユーザの第一発話を示している。U1でユーザは「東京」というキーワードを発話しているため、U2の発話で「東京国際展示場」からキーワード「東京」が省略されている。このようにユーザが、すでに発話されたキーワードを省略して発話する可能性が高い性質を利用して言い換え表現学習部106は、言い換えが行われた学習対象語の推定を行う。例えば、図18の認識対象語彙例の場合、システム発話S1で絞り込まれる認識対象「1.代々木公園」、「2.東京ドーム」、及び「3.東京国際展示場」がU2の認識対象となるが、これらのうち、キーワード「東京」を含む2、3、に関してのみこれらを省略した言い換え語を認識対象語彙とする。または、GPSから求められる現在位置に基づいて、現在地周辺に関連する情報を省略した言い換え後を認識対象としてもよい。例えば、現在位置が東京の場合、キーワード「東京」を含む2、3、に関してのみこれらを省略した言い換え語を認識対象語彙とする。このように状況に応じて使用される可能性の高い言い換え規則を絞りこむことで言い換え語候補の増大による音声認識処理速度の低下を防ぐことができる。ただし、言い換え規則を状況に応じて絞り込んでも、キーワードスポットにより認識されたキーワード数が多いなど、学習対象語やその言い換え語が絞り込みきれない場合は、ある程度学習対象語またはその言い換え語が絞り込まれるような問い返しを行い、言い換え語が一定数以下になった場合にのみ音声認識処理による言い換え規則特定を行なう。
以上、いくつかの実施形態について説明した。上記の通り、本発明の音声認識装置は、言い換え表現を効率的に登録することで、語彙外発話による音声認識の誤動作を削減できる。本発明の音声認識装置は、車載用ナビゲーション装置に限らず、音声インタフェースを利用した様々な装置に組み込むことができる。
第1の実施形態の音声認識装置のブロック図である。 トライフォンHMMの例を示す図である。 辞書の構成例を示す図である。 ネットワーク文法の例を示す図である。 辞書の構成例を示す図である。 クラスを用いた文法の例を示す図である。 言い換え表現追加処理のフロー図である。 展開ルールの例を示す図である。 言い換え規則ごとの展開結果を格納するテーブルの例を示す図である。 辞書のエントリに対する展開結果の例を示す図である。 変形例にかかる言い換え表現追加処理のフロー図である。 第2の実施の形態の音声認識装置のブロック図である。 基本動作フローを示す図である。 辞書105に登録されている語彙の例である。 待ち受け語から得られるキーワードの例である。 言い換え規則適用例である。 ユーザが過去に発話した内容を省略した言い換えが行われた対話例である。 辞書105に登録されている語彙とそこに含まれるキーワードの例である。
符号の説明
1 音声認識装置
10 主制御部
101 分析部
102 照合部
103 音響モデル
104 文法
105 辞書
106 言い換え表現学習部
107 音声認識用データベース
108 キーワード選択部
20 操作入力装置
30 音声入力装置
40 表示装置

Claims (20)

  1. 語彙記憶部に記憶されている語彙を認識対象とする音声認識装置であって、
    前記語彙記憶部に記憶されている語彙の言い換え表現を新たに追加する言い換え表現学習部を有し、
    前記言い換え表現学習部は、
    複数の言い換え規則の中から一つ以上の言い換え規則を特定する規則特定手段と、
    特定した言い換え規則を用いて前記語彙記憶部に記憶されている語彙の言い換え表現を生成する言い換え表現生成手段と、
    生成した言い換え表現を前記語彙記憶部に追加する手段と
    前記語彙記憶部に記憶された言い換え表現の一つを特定する表現特定手段と、
    前記表現特定手段により特定された前記言い換え表現を生成するのに用いられた前記言い換え規則を特定する言い換え規則特定手段と、を備え、
    前記言い換え表現生成手段は、前記言い換え規則特定手段により特定された言い換え規則を用いて、前記語彙記憶部に記憶された前記語彙の言い換え表現を生成する、
    ことを特徴とする音声認識装置。
  2. 請求項1に記載の音声認識装置であって、
    前記言い換え規則特定手段は、
    前記語彙記憶部に記憶されている1つ以上の語彙に対して複数の言い換え規則を適用して生成した複数の言い換え表現を認識対象とする音声認識を行った結果を用いることを特徴とする音声認識装置。
  3. 請求項1に記載の音声認識装置であって、
    前記言い換え規則特定手段は、
    前記語彙記憶部に記憶されている1つ以上の語彙に対して複数の言い換え規則を適用して生成した複数の言い換え表現を提示し、提示した言い換え表現の中から選択された1つ以上を用いる
    ことを特徴とする音声認識装置。
  4. 語彙記憶部に記憶されている語彙を認識対象とする音声認識装置の音声認識方法であって、
    複数の言い換え規則の中から一つの言い換え規則を特定する規則特定ステップと、
    特定した言い換え規則を用いて前記語彙記憶部に記憶されている語彙の言い換え表現を生成する言い換え表現生成ステップと、
    生成した言い換え表現を前記語彙記憶部に追加するステップと
    前記語彙記憶部に記憶された言い換え表現の一つを特定する表現特定ステップと、
    前記表現特定ステップにより特定された前記言い換え表現を生成するのに用いられた前記言い換え規則を特定する言い換え規則特定ステップと、を実施し、
    前記言い換え表現生成ステップでは、前記言い換え規則測定ステップにより特定された言い換え規則を用いて、前記語彙記憶部に記憶された前記語彙の言い換え表現を生成する、
    ことを特徴とする音声認識装置の音声認識方法。
  5. 前記言い換え規則特定手段は、
    認識対象語彙の特徴的な音素列であるキーワードを認識語彙として、
    音声認識処理した結果により言い換え規則を特定することを特徴とした請求項1記載の音声認識装置。
  6. 前記言い換え規則特定手段は、
    キーワード認識結果から得られる認識スコアがあらかじめ設定された閾値を上回った場合に限り、
    前記キーワード認識結果を用いた言い換え規則を特定することを特徴とする講求項5記載の音声認識装置。
  7. 入力音声の記憶装置を備え、
    請求項2記載の音声認識による言い換え規則特定手段に用いる入力音声を記憶し、
    請求項2記載の言い換え規則特定手段により特定した言い換え表現を、
    請求項2記載の語彙記憶部への追加手段により追加した認識辞書を用いて、
    前記音声記憶装置に記憶した入力音声を再度認識処理することを特徴とする請求項2記載の音声認識装置。
  8. 複数の認識結果候補を出力する音声認識処理部を備え、
    語彙記憶部に記憶されている、言い換え規則を適用していない語彙と前記言い換え語彙追加手段により追加した語彙の双方を認識語彙として認識処理し、
    前記認識処理の複数の認識結果から最も適切な認識結果を選択する認識結果選択手段を備えることを特徴とする請求項2記載の音声認識装置。
  9. 音声認識結果に認識の確からしさを表す認識スコアを付与する認識スコア付与部を備え、
    言い換え規則を適用していない語彙の認識結果の認識結果の認識スコアと前記言い換え語彙追加手段により追加した語彙の認識結果の認識スコアの差が、あらかじめ設定された閾値を上回る際にのみ前記言い換え語彙追加手段により追加した語彙の認織結果を最も適切な認識結果として選択することを特徴とする請求項8記載の音声認識装置。
  10. 語彙記憶部に記憶されている語彙の認識結果を用いて言い換え規則特定を行なう請求項2記載の音声認識装置。
  11. 音声認識結果の認識スコアがあらかじめ定めた閾値より高い場合のものだけを用いて言い換え規則特定を行なうことを特徴とする請求項10記載の音声認識装置。
  12. 音声認識処理を行なう状況に応じて言い換え規則の特定方法を変更することを特徴とする請求項1記載の音声認識装置。
  13. 過去に発話された情報を省略する言い換え規則を優先することを特徴とする請求項1記載の音声認識装置。
  14. 過去に言い換え規則を適用して登録された語彙を特定した言い換え規則を優先することを特徴とする請求項1記載の音声認識装置。
  15. 音声認識装置が過去に出力した情報を省略する言い換え規則を優先することを特徴とする請求項1記載の音声認識装置。
  16. ユーザの所在する地域を判定する所在地域特定装置を備え、
    前記ユーザの所在地域に関連する情報を省略する言い換え規則を優先することを特徴とする請求項1記載の音声認識装置。
  17. 言い換え規則により生成される言い換え語が一定数以下となる場合にのみ音声認識処理による言い換え規則特定を行ない、
    言い換え規則により生成される言い換え語が一定数以上となる場合は、追加情報の入力をユーザに求め、情報が追加された後に改めて言い換え規則の特定を行なうことを特徴とする請求項2記載の音声認識装置。
  18. 前記語彙記憶部に記憶されている語彙に含まれる地名部分の省略を言い換え規則とすることを特徴とする請求項1記載の音声認識装置。
  19. 前記語彙記憶部に記憶されている語彙を形態素解析し、
    形態素間の順序の入れ替えを言い換え規則とすることを特徴とする請求項1記載の音声認識装置。
  20. 前記語彙記憶部に記憶されている語彙に含まれる特定の語句の置換を言い換え規則とすることを特徴とする請求項1記載の音声認識装置。
JP2007111611A 2007-04-20 2007-04-20 音声認識装置、その音声認識方法 Active JP5009037B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007111611A JP5009037B2 (ja) 2007-04-20 2007-04-20 音声認識装置、その音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007111611A JP5009037B2 (ja) 2007-04-20 2007-04-20 音声認識装置、その音声認識方法

Publications (2)

Publication Number Publication Date
JP2008268571A JP2008268571A (ja) 2008-11-06
JP5009037B2 true JP5009037B2 (ja) 2012-08-22

Family

ID=40048154

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007111611A Active JP5009037B2 (ja) 2007-04-20 2007-04-20 音声認識装置、その音声認識方法

Country Status (1)

Country Link
JP (1) JP5009037B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5334178B2 (ja) * 2009-01-21 2013-11-06 クラリオン株式会社 音声認識装置およびデータ更新方法
JP5426913B2 (ja) * 2009-04-02 2014-02-26 アルパイン株式会社 音声認識辞書編集装置及び音声認識装置
KR101250897B1 (ko) * 2009-08-14 2013-04-04 한국전자통신연구원 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법
JP5146429B2 (ja) * 2009-09-18 2013-02-20 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置、音声認識処理装置、音声認識処理装置の制御方法、およびコンピュータプログラム
JP2014048540A (ja) * 2012-08-31 2014-03-17 Toshiba Tec Corp 認識辞書作成装置及び認識辞書作成プログラム
JP6896335B2 (ja) * 2017-05-30 2021-06-30 アルパイン株式会社 音声認識装置および音声認識方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3358498B2 (ja) * 1997-07-17 2002-12-16 株式会社デンソー 音声認識装置及びナビゲーションシステム
JP3639776B2 (ja) * 2000-07-28 2005-04-20 シャープ株式会社 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体
JP4269625B2 (ja) * 2002-10-08 2009-05-27 三菱電機株式会社 音声認識辞書作成方法及びその装置と音声認識装置
JP2005031255A (ja) * 2003-07-09 2005-02-03 Mitsubishi Electric Corp 辞書作成装置及び音声認識装置

Also Published As

Publication number Publication date
JP2008268571A (ja) 2008-11-06

Similar Documents

Publication Publication Date Title
US11182122B2 (en) Voice control of computing devices
JP4188989B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
US8521539B1 (en) Method for chinese point-of-interest search
JP5480760B2 (ja) 端末装置、音声認識方法および音声認識プログラム
JP4412504B2 (ja) 音声認識装置、音声認識方法、及び音声認識用プログラム
US8380505B2 (en) System for recognizing speech for searching a database
JP5334178B2 (ja) 音声認識装置およびデータ更新方法
JP5089955B2 (ja) 音声対話装置
JP5386692B2 (ja) 対話型学習装置
JP4802434B2 (ja) 音声認識装置及び音声認識方法、並びにプログラムを記録した記録媒体
US20060100871A1 (en) Speech recognition method, apparatus and navigation system
KR101526918B1 (ko) 다언어 이국 음성 인식
US20080270136A1 (en) Methods and Apparatus for Use in Speech Recognition Systems for Identifying Unknown Words and for Adding Previously Unknown Words to Vocabularies and Grammars of Speech Recognition Systems
JP2008064885A (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP5009037B2 (ja) 音声認識装置、その音声認識方法
EP2863385B1 (en) Function execution instruction system, function execution instruction method, and function execution instruction program
US8566091B2 (en) Speech recognition system
JP7305844B2 (ja) 音声処理
KR101063607B1 (ko) 음성인식을 이용한 명칭 검색 기능을 가지는 네비게이션시스템 및 그 방법
JP2008089625A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP4914632B2 (ja) ナビゲーション装置
JP2008076811A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP2007078943A (ja) 音響スコア計算プログラム
JP2009116075A (ja) 音声認識装置
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20100215

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100409

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120501

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120530

R150 Certificate of patent or registration of utility model

Ref document number: 5009037

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150608

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250