JP5009037B2

JP5009037B2 - 音声認識装置、その音声認識方法

Info

Publication number: JP5009037B2
Application number: JP2007111611A
Authority: JP
Inventors: 浩明小窪; 健本間; 信夫畑岡; 久高橋; 健大野; 実冨樫; 大介斉藤; 景子桂川
Original assignee: Clarion Co Ltd; Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd; Faurecia Clarion Electronics Co Ltd
Priority date: 2007-04-20
Filing date: 2007-04-20
Publication date: 2012-08-22
Anticipated expiration: 2027-04-20
Also published as: JP2008268571A

Description

本発明は、学習機能を有する音声認識装置に関し、特に、認識対象語彙の言い換え表現の学習技術に関する。

近年、携帯電話又はカーナビゲーション装置などの情報機器において、音声認識技術を用いたインタフェースが普及しつつある。音声認識技術に関しては、例えば、非特許文献１が詳しい。
鹿野、伊藤、河原、武田、山本、音声認識システム、オーム社、２００１．

しかしながら、現状の音声インタフェースは必ずしも使い勝手のよいものとはなっていない。この原因の一つに、ユーザが発声する単語と音声認識辞書に記憶されている語彙が一致しないために音声認識が失敗する現象があげられる。例えば、カーナビゲーション装置で目的地の施設名称を検索する場合、ユーザは必ずしも目的地の正式名称を正確に記憶しているとは限らない。このため、うろ覚えで発声した施設名称が正式名称と異なっているために、何度発声しても正しい検索結果が得られないことは珍しいことではない。このように、辞書にない単語を発話することを語彙外発話と呼び、音声認識が抱える重要課題の一つとなっている。

語彙外発話への対策としては、正式名称以外にユーザが発話するかもしれないと想定される単語を辞書に追加することが考えられる。前出の施設名称の例を挙げると、「ユニバーサル・スタジオ・ジャパン」に対して、通称名「ユー・エフ・ジェー」を追加する方法や「東京プリンスホテル」を「プリンスホテル」のように名称の一部を省略した表現、あるいは「プリンスホテル東京」のように語順を入れ替えた表現を追加する方法などが考えられる。特に、名称の一部を省略、語順の入れ替え等の表現を追加する場合にはルール化が容易であるため、定義した言い換え規則に基づき自動的に生成した表現を追加することも考えられる。

このように正式名称以外の言い換え表現を追加していくことで、うろ覚えによって正式名称と異なる名称を発声したとしても、辞書外発話となることを回避するできる可能性が高まる。ただし、認識辞書にさまざまな言い換え表現のエントリを追加することによって認識対象語彙数が増大し、消費メモリ量や認識処理時間など計算リソースに対する負荷が大きくなるという問題が生じる。

音声認識装置において、ユーザが発話した単語が認識辞書に登録されていない場合には正しい認識結果を得ることは出来ない。また、やみくもに認識辞書にエントリを追加してしまうと、消費メモリ量や認識処理時間が増加してしまう。

本発明は、上記課題を解決すべくなされたものであり、その目的は、消費メモリ量や認識処理時間の増加を抑えつつ、認識語彙外発話による認識不能を解消することにある。

上記課題を解決すべく、本発明では、ひとつの単語に対する言い換え表現規制を、辞書内の複数の語彙（エントリ）に対して適用する。

例えば、本発明は、
語彙記憶部に記憶されている語彙を認識対象とする音声認識装置であって、
前記語彙記憶部に記憶されている語彙の言い換え表現を新たに追加する言い換え表現学習部を有し、
前記言い換え表現学習部は、
複数の言い換え規則の中から一つの言い換え規則を特定する規則特定手段と、
特定した言い換え規則を用いて前記語彙記憶部に記憶されている語彙の言い換え表現を生成する手段と、
生成した言い換え表現を前記語彙記憶部に追加する手段とを有する。

以下、本発明の実施の形態を図面を参照して説明する。

＜第１の実施形態＞
図１は、本発明の一実施形態が適用された音声認識装置１の概略構成図である。

音声認識装置１は、主制御装置１０と、操作入力装置２０と、音声入力装置３０と、表示装置４０とを備える。

操作入力装置２０は、スイッチの押下などのユーザの操作により入力を受け付ける装置であり、キースイッチ、ダイヤルスイッチ、タッチパネルなどからなる。

音声入力装置３０は、ユーザにより発話された音声の入力を受け付ける装置であり、マイクロフォンにより構成される。

表示装置４０は、主制御装置１０で生成した情報を画像表示する装置であり、液晶ディスプレイなどで構成される。

主制御装置１０は、さまざまな処理を行う中心的なユニットである。例えば、操作入力装置２０や音声入力装置３０から入力されたユーザからの要求に基づいて、対応する処理を行い、処理の結果を表示装置４０に出力する。また、音声入力装置３０を介して音声を取得した場合は、音声認識によりユーザの発声した内容を特定し、特定した内容に応じた処理を行う。また、音声認識に用いる辞書１０５に、既存の語彙の言い換え表現を追加する処理を行う。

主制御装置１０は、その機能部として、分析部１０１と、照合部１０２と、言い換え表現学習部１０６と、音声認識用データベース１０７とを備える。音声認識用データベース１０７は、音響モデル１０３と、文法１０４と、辞書１０５とを登録している。

音響モデル１０３は、例えば、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）である。ＨＭＭとは、マルコフモデルに従って遷移する内部状態及び内部状態における観測信号の出現確率分布から構成される確率モデルである。図２にトライフォンＨＭＭの例を示す。トライフォンＨＭＭは、一つの音素に対して前後に接続する音素毎にモデル化する。図２の例は、トライフォン“e/k/i”のＨＭＭモデルを示しており、中心音素kに対して、前に/e/、後ろに/i/が続く場合のモデルである。同様に、全ての音素に対してトライフォンを用意しておけば、任意の音素系列をモデル化することが可能となる。

辞書１０５には、音声認識対象の語彙（エントリ）が登録されている。図３に示すように、辞書１０５には、認識結果に対応するエントリ３０１とエントリに対する読みに対応する音素列３０２とが対となって登録されている。すなわち、音響モデルデータベース１０３に格納されている音素毎のモデルを、音素列３０２に従って接続することで、エントリ３０１に対応する単語の音響モデルが生成されるようになっている。

文法１０４は、辞書に登録されている単語の並びを規定する。図４は、文法１０４に格納されている文法の例を示す。図４は、ネットワーク文法の例を示しており、ネットワークの左端から右端への経路に沿った単語連鎖を受理する。例えば、単語「目的地」の後には、「を」のみが接続を許されており、「を」の後に接続する単語は「東京駅」、「有楽町駅」等のいずれか一つとなる。

なお、辞書１０５は、エントリをクラス毎に定義してもよい。図５の例では、＜駅＞というクラス５０１の下には、東京駅５０２、有楽町駅５０３等が定義されている。この場合、図６のように単語の代わりにクラス６０１を使って文法を定義することも可能である。

図１に戻って説明する。分析部１０１は、入力された音声波形を特徴パラメータに変換する。音声認識等で用いられる特徴パラメータとは、音声信号を短期間（数十ｍｓ）毎に分割し、その区間の信号をＭＦＣＣ（Mel Frequency Cepstrum Coefficient）等に変換した多次元ベクトル量である。従って、分析部１０１の出力は、多次元ベクトルとして表される特徴ベクトルの時系列データである。

照合部１０２は、辞書１０５と音響モデル１０３から生成される単語音響モデルと、分析部１０１で変換された入力音声の特徴パラメータ系列とを照合し、文法１０４で受理される単語連鎖の中でスコアが最大となる単語連鎖を認識結果として出力する。

言い換え表現学習部１０６は、辞書１０５に登録されているエントリに対して、辞書１０５に登録されていない言い換え表現を生成し、辞書１０５に登録する機能を有する。

なお、主制御装置１０は、ＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、他の装置（操作入力装置２０、音声入力装置３０、表示装置４０など）とのインタフェース、これらを接続するバス、などからなる汎用的なコンピュータシステムにより構成される。上記した各機能部は、ＣＰＵが、メモリにロードした所定のプログラムを実行することにより達成される。

また、音声認識装置１は、車載用ナビゲーション装置に適用することができる。この場合、現在位置算出装置（車速センサ、ジャイロセンサ、ＧＰＳ(Global Positioning System)受信装置）、地図データ記憶装置等を備えている。

次に、上記のように構成される音声認識装置１の動作について説明する。

図７は、辞書１０５に登録されているエントリの言い換え表現を生成し追加する処理のフロー図である。

まず、言い換え表現学習部１０６は、学習対象単語の指定を受け付ける（Ｓ１１）。具体的には、ユーザから入力装置１１を介して、辞書１０５に登録済みのエントリの中から、学習対象単語とするエントリを指定させる。ここで、音声認識装置１が車載用ナビゲーション装置を兼ねる場合、表示装置１３に地図データに基づいて地図を表示して、地図中の地点の指定を受け付け、受け付けた地点に対応するエントリ（地点名称）を学習対象単語としてもよい。以下、辞書１０５に登録されているエントリ「東京都民ゴルフクラブ」が指定されたとして説明する。

次に、言い換え表現学習部１０６は、指定された学習対象単語に対して、予め定められた複数の言い換え規則を適用し、結果（「展開結果」という）を求める（Ｓ１２）。

図８は、言い換え規則が格納された展開ルール８００の構成を示す図である。展開ルール８００は、識別コード８０１と、言い換え規則８０２と、その規則の適用例８０３とが１つのレコードに格納されている。

図８の例では、識別コード「１」の言い換え規則８０２は、エントリに地名が含まれている場合に、その地名部分を省略するという規則である。識別コード「２」の言い換え規則８０２は、エントリに地名が含まれている場合に、地名部分とその他の部分との順番を入れ替えるという規則である。識別コード「４」の言い換え規則８０２は、エントリに「ゴルフクラブ」という語句が含まれている場合に、「ゴルフクラブ」という語句を「ゴルフ場」に置換するという規則である。

このような展開ルール８００は、予め設定されており、主制御装置１０の記憶装置に記憶されているものとする。

図９に、学習対象単語「東京都民ゴルフクラブ」に対して、図８に示した展開ルール８００に登録されている言い換え規則８０２を適用した場合の展開結果を示す。展開結果を格納するテーブルには、各レコードに、識別コード９０１（識別コード８０１に対応）と、展開結果９０３とが格納される。

言い換え規則学習部１０６は、それぞれの言い換え規則８０２に対して、その展開結果９０３を求める。ただし、識別コード「３」や「６」の言い換え規則８０２のように、学習対象単語が規則に当てはまらない場合には、展開結果を出力しない。また、識別コード「７」の言い換え規則８０２のように、複数の言い換え規則を同時に適用することも可能である。

図９は、識別コード「７」までの言い換え規則８０２を適用した例であり、学習対象単語「東京都民ゴルフクラブ」に対して、「都民ゴルフクラブ」、「都民ゴルフクラブ東京」、「東京都民ゴルフ場」、「東京都民カントリークラブ」、「都民ゴルフ場」の５つのエントリに展開された様子である。

次に、言い換え表現学習部１０６は、学習対象単語と展開結果とを纏めて、Ｓ１４で用いるための認識辞書として登録する（Ｓ１３）。図９の例では、学習対象単語「東京都民ゴルフクラブ」と、５つの展開単語の計６つの単語が認識辞書として登録される。なお、この認識辞書は、次のＳ１４で用いるものであり、通常の音声認識で用いる辞書１０５とは異なる。

次に、言い換え表現学習部１０６は、表示装置４０に「選択した学習対象単語を言い換えて発話して下さい」などと表示して、ユーザに学習対象単語を言い換えて発話することを促す。そして、ユーザが発話した音声を音声入力装置３０を介して取得し、取得した音声を、Ｓ１３で登録した認識辞書を用いて認識する（Ｓ１４）。なお、音声認識は、分析部１０１及び照合部１０２を介して行う。

図９の例では、言い換え表現学習部１０６は、６単語のみが登録されている認識辞書を用いて、ユーザの発話を認識することになる。ここで、学習対象単語「東京都民ゴルフクラブ」に対して、ユーザが新たに登録したい言い換え表現として「東京都民ゴルフ場」を発声したとする。そうすると、照合部１０２は、認識辞書に存在する「東京都民ゴルフ場」を認識結果として出力する。

次に、言い換え表現学習部１０６は、認識結果に一致する展開結果９０３を与える言い換え規則８０２を特定する（Ｓ１５）。

図９の例で、Ｓ１４での認識結果が「東京都民ゴルフ場」であったとする。言い換え表現学習部１０６は、図９より、「東京都民ゴルフ場」に一致する展開結果を与える言い換え規則として、識別コード「４」の言い換え規則８０２を特定する。

次に、言い換え規則学習部１０６は、辞書１０５に登録されているエントリのうち、Ｓ１５で特定した言い換え規則が適用可能なエントリに対して、Ｓ１５で特定した言い換え規則を適用し、その結果を辞書１０５に追加する。

図１０に適用例を示す。図１０は、辞書１０５に登録された各エントリ１００１に対する展開結果１００２を示している。「東京駅」や「有楽町駅」などは、識別コード「４」の言い換え規則８０２が適用不可能なので、展開結果はない。一方、「東京都民ゴルフ場」、「佐野ゴルフ場」、「レインボーヒルズゴルフ場宮城」の３単語は、適用可能であるので、展開結果１００２が辞書１０５に追加される。

以上、図７の言い換え表現の追加処理のフローについて説明した。こうして辞書１０５には、既存のエントリに対して、言い換え表現が追加される。追加されたエントリは、既存のエントリと同様に、ユーザから発話された音声の認識の際に、照合部１０２で利用される。

以上、本発明の一実施形態について説明した。

上記実施形態によれば、ユーザはひとつのエントリ（例えば、「東京都民ゴルフクラブ」）について言い換え表現（例えば、「ゴルフクラブ」を「ゴルフ場」に言い換える規則）を登録しただけで、辞書１０５内の全エントリに対して、言い換え規則を適用することができる。これにより、言い換え表現をユーザ自らが登録していないエントリに対しても、語彙外発話とはならずに正しい認識結果を得ることが可能となる。例えば、「佐野ゴルフクラブ」を「佐野ゴルフ場」と発声した場合にも、語彙外発話とはならずに正しい認識結果が得られる。また、ユーザの発話傾向に適応した言い換え規則のみを採用することで、予め全ての言い換え規則を適用して多くのエントリを辞書に追加しておく手法に比べて、少ないエントリ数の追加で目的が達成されるため、省メモリ化の効果も高い。

＜第１の実施形態の変形例＞
本発明は、上記実施形態に制限されない。上記実施形態は、様々な変形が可能である。

例えば、上記実施形態では、言い換え表現学習部１０６は、Ｓ１４の音声認識処理により、全エントリに適用する言い換え規則を特定しているが、これに限定されない。代わりに、学習対象単語を展開ルール８００によって展開した結果（Ｓ１３の展開結果）を、表示装置４０に表示し、ユーザから操作入力装置２０を介して、展開結果のいずれかの選択を受け付けてもよい。

図１１は、かかる場合（言い換え候補を提示／選択させる方法）の処理フロー図である。

図１１において、生成単語の提示（Ｓ１３’）と候補単語選択（Ｓ１４’）以外の処理は図７と同じであるため、同じ箇所については説明を省略する。

生成単語の提示Ｓ１３’では、言い換え表現学習部１０６は、展開ルール８００の適用（Ｓ１２）によって生成した展開結果をユーザに提示する。提示方法は、表示装置４０に表示しても良いし、音声出力装置を備える場合は、音声として出力しても良い。

候補単語選択Ｓ１４’では、言い換え表現学習部１０６は、提示した展開結果の中から１つの選択を受け付ける。なお、タッチパネル等を介して選択を受け付けてもよいし、生成単語の提示Ｓ１３’で「１．都民ゴルフクラブ」、「２．都民ゴルフクラブ東京」、「３．東京都民ゴルフ場」のように番号付きで提示し、その番号の指定により選択を受け付けても良い。

このように、展開された候補をユーザが選択する方法であれば、音声認識による誤りを排除できる。すなわち、意図しない展開ルールが特定されることはない。ただし、展開された言い換え表現候補が多すぎる場合には、すべての候補をユーザに提示することが困難となるため、図７のＳ１３，Ｓ１４で示したように、音声認識を用いる方法が望ましい。

また、過去に採用された言い換え規則を記憶しておき、辞書１０５が更新された場合に、自動的に言い換え表現を追加するようにすることもできる。車載用ナビゲーション装置においては、地図の更新が頻繁に行われ、それに伴い、音声認識用の辞書１０５も更新される。かかる場合に配慮して、言い換え表現学習部１０６は、図７や図１１の処理で言い換え表現を追加した場合、適用した言い換え規則（識別コード）を記憶しておく。そして、辞書１０５のバーション情報を定期的に調べて、更新されたと判定された場合、更新された辞書１０５のエントリに対して、記憶しておいた言い換え規則を適用し、言い換え表現を生成し登録する。こうすれば、地図が更新された場合でも、過去に設定した言い換え規則が自動的に適用されるので、地図の頻繁な更新に対応することができる。

＜第２の実施形態＞
本発明の異なる実施例として、キーワード認識を言い換え規則の特定に用いる実施の形態を以下に示す。本実施例では、ユーザが言い換え語学習のみのために発話した音声ではなく、システム操作のために行った発話音声から言い換え語彙を学習することを想定している。よって、学習対象とするエントリは一つに特定されていない場合が多く、複数のエントリからユーザが選択的に発話を行った場合に、学習対象となるエントリを推定しながら言い換え規則を学習する。

図１２は、本発明の第２の実施形態が適用された音声認識装置の構成図である。本実施形態は、上記第１の実施形態と基本的には同様の構成を備えているので、共通する構成については説明を省略する。本実施形態の音声認識装置は、主制御装置１０に、キーワード選択部１０８を備えている。キーワード選択部１０８は、音声認識装置が待ち受ける複数のエントリから、それぞれのエントリの特徴的な音素列であるキーワードを選択する。照合部１０２では、これを待ち受け語彙とする、キーワードスポット認識を行う。

図１３は、キーワード認識により言い換え対象エントリの推定と言い換え規則の特定を行い、言い換え語を辞書に追加する処理の、フロー図である。

まず、音声認識処理がスタート（Ｓ２１）すると、キーワード選択部１０８は、音声認識辞書１０５のうちで、ユーザが音声認識の待ち受け対象となっているエントリを特定する際に使用されると推定される、特徴的なキーワードを選択し、これを音声認識対象とする（Ｓ２２）。かかるキーワードは、予め設定されているものとする。図１４に、辞書１０５に登録されている語彙の例を示した。例えば、「東京都民ゴルフクラブ」が待ち受け対象となっている場合は、待ち受け対象語彙に含まれる、地名である「東京」、ジャンルを表す「ゴルフ」とその言い換え語である「カントリークラブ」及び「ゴルフクラブ」、「ゴルフ場」、などがキーワードとなる。図１５に、各待ち受け語から得られるキーワードの例を示した。音声が入力されると、照合部１０２はこれらを待ち受け語とし、辞書１０５に登録されている語彙を認識する文法と、Ｓ２１で選択したキーワードを認識するキーワードスポット文法の両方を用いて音声認識処理を行なう（Ｓ２３）。このとき、照合部１０２で照合する、特徴量の分析部１０１の分析結果は、後の処理で再度利用するため、分析部１０１内で保持しておく。

次に、言い換え表現学習部１０６では、入力された音声が辞書１０５に登録されている語彙の言い換え語である可能性が高いかどうかを判定する（Ｓ２４）。ここでは、辞書１０５に登録されている語彙を認識した結果の音声認識尤度（スコア）と、キーワード選択部１０８が選択したキーワードを認識した結果の音声認識尤度とを用いて言い換え語が発話された可能性が高いかどうかを判定する。一般に、キーワードスポット文法を用いた音声認識結果の認識尤度は、キーワードスポットでない文法を用いた音声認識結果の認識尤度よりも高くなる傾向にある。このため、キーワードスポット文法を用いた音声認識結果の認識尤度が、辞書１０５に登録されている語彙を認識した結果の認識尤度よりも、あらかじめ定めた閾値以上大きい場合にここで認識されたキーワードを含む言い換え語が発話されたと判断する。逆に、辞書１０５に登録されている語彙を認識した結果の認識尤度とキーワード認識の認識尤度の差があらかじめ定めた閾値よりも小さいか、辞書１０５に登録されている語彙を認識した結果の認識尤度のほうがキーワード認識の認識尤度よりも大きい場合は言い換えが行われた可能性が低いと判断し、辞書１０５が登録されている語彙を認識した結果を認識結果として結果を出力する（Ｓ３１）。

キーワードスポット文法を用いた音声認識結果の認識尤度が、辞書１０５に登録されている語彙を認識した結果の認識尤度よりも、あらかじめ定めた閾値以上大きく、Ｓ２４において言い換え語が発話された可能性が高いと判断された場合には、言い換え表現学習部１０６は、Ｓ２３で行ったキーワードスポットによるキーワード認識の結果から、言い換えが行われた語彙（＝学習対象語彙）候補を推定する（Ｓ２５）。例えば、キーワードスポットによる認識結果が「カントリークラブ」で、辞書１０５に登録されている語彙を認識した結果が「東京都民ゴルフクラブ」であったとする。このとき、キーワード「カントリークラブ」の認識尤度が「東京都民ゴルフクラブ」に比べて十分に高い場合に、「カントリークラブ」に関連した語彙が言い換えられたと判断する。語彙を言い換えた結果にキーワード「カントリークラブ」が含まれるのは、受け語彙のうち「東京都民ゴルフクラブ」と「神奈川国際ゴルフクラブ」であるため、これらのうちどちらかが言い換えられたと推定できる。

次に、言い換え表現学習部１０６は、言い換え規則の推定を行う（Ｓ２６）。ここでは、学習対象語候補に適用した場合に、キーワードスポットで得られたキーワードが含まれる言い換え語を生成する言い換え規則が、使用された可能性のある言い換え規則であると推定される。

図１６に、「東京都民ゴルフクラブ」と「神奈川国際ゴルフクラブ」に全ての言い換え規
則を適用した例を示す。これら図１６に示した言い換え規則のうち、展開結果にキーワード「カントリークラブ」が含まれている「東京都民カントリークラブ」、「神奈川国際カントリークラブ」が言い換え語の候補となる。よって、これらの言い換え語を生成した言い換え規則「５．特定語句の置換２」が使用された言い換え規則であると推定できる。ここで、使用された言い換え規則は唯一に絞れるとは限らないが、可能性のある言い換え規則候補は全て使用された可能性があるとする。

次に、言い換え表現学習部１０６は、ここで推定された言い換え規則を適用された言い換え語（ここでは「東京都民カントリークラブ」および「神奈川国際カントリークラブ」）を認識辞書に追加し（Ｓ２７）、分析部１０１に保持しておいた音声特徴量の分析結果を用いて再度認識処理する（Ｓ２８）。そして、その結果得られた音声認識結果を発話された言い換え語とする。また、この発話された言い換え語に使用されている言い換え規則を辞書１０５内の全ての同一エントリに適用し（Ｓ２９）、これを辞書に追加する（Ｓ３０）。そして、Ｓ２８で認識した言い換え語の認識結果を認識結果として出力する（Ｓ３１）。

＜第２の実施形態の変形例１＞
先の実施例では学習対象語彙の推定Ｓ２５は、キーワード認識の結果のみを用いて行ったが、辞書１０５に登録されている語彙の認識結果を用いて、学習対象語彙をさらに絞り込んでもよい。例えば、先の例で、辞書１０５に登録されている語彙を認識した結果が「東京都民ゴルフクラブ」のみであったとする。言い換えられた語も、言い換え前の語と音響的な距離が近く、言い換えられる前の語が認識結果として出現する可能性も高いため、言い換えられた学習対象語彙は「東京都民ゴルフクラブ」であると推定することができる。

また、複数の認識結果候補を出力する音声認識処理を用いて、認識結果の上位Ｎ個以内に入っている語や、認識尤度から得られるスコアがある一定以上の場合に学習対象語と推定することもできる。

また、言い換え規則により生成される言い換え語が一定数以下となる場合にのみ音声認識処理による言い換え規則特定を行ない、言い換え規則により生成される言い換え語が一定数以上となる場合は、絞り込むための追加情報の入力をユーザに求め、情報が追加された後に改めて言い換え規則の特定を行なうようにしてもよい。

＜第２の実施形態の変形例２＞
また、言い換え規則の候補は、状況に応じて変化させることで、言い換え語候補をより減らすこともできる。例えば、ユーザがすでに発話した内容や、システムの応答に使用されている語は省略される可能性が高い。図１７にすでにユーザが発話した内容が省略される言い換えが行われた例を示す。Ｓ１、Ｕ１はそれぞれシステム発話の第一発話、ユーザの第一発話を示している。Ｕ１でユーザは「東京」というキーワードを発話しているため、Ｕ２の発話で「東京国際展示場」からキーワード「東京」が省略されている。このようにユーザが、すでに発話されたキーワードを省略して発話する可能性が高い性質を利用して言い換え表現学習部１０６は、言い換えが行われた学習対象語の推定を行う。例えば、図１８の認識対象語彙例の場合、システム発話Ｓ１で絞り込まれる認識対象「１．代々木公園」、「２．東京ドーム」、及び「３．東京国際展示場」がＵ２の認識対象となるが、これらのうち、キーワード「東京」を含む２、３、に関してのみこれらを省略した言い換え語を認識対象語彙とする。または、ＧＰＳから求められる現在位置に基づいて、現在地周辺に関連する情報を省略した言い換え後を認識対象としてもよい。例えば、現在位置が東京の場合、キーワード「東京」を含む２、３、に関してのみこれらを省略した言い換え語を認識対象語彙とする。このように状況に応じて使用される可能性の高い言い換え規則を絞りこむことで言い換え語候補の増大による音声認識処理速度の低下を防ぐことができる。ただし、言い換え規則を状況に応じて絞り込んでも、キーワードスポットにより認識されたキーワード数が多いなど、学習対象語やその言い換え語が絞り込みきれない場合は、ある程度学習対象語またはその言い換え語が絞り込まれるような問い返しを行い、言い換え語が一定数以下になった場合にのみ音声認識処理による言い換え規則特定を行なう。

以上、いくつかの実施形態について説明した。上記の通り、本発明の音声認識装置は、言い換え表現を効率的に登録することで、語彙外発話による音声認識の誤動作を削減できる。本発明の音声認識装置は、車載用ナビゲーション装置に限らず、音声インタフェースを利用した様々な装置に組み込むことができる。

第１の実施形態の音声認識装置のブロック図である。トライフォンＨＭＭの例を示す図である。辞書の構成例を示す図である。ネットワーク文法の例を示す図である。辞書の構成例を示す図である。クラスを用いた文法の例を示す図である。言い換え表現追加処理のフロー図である。展開ルールの例を示す図である。言い換え規則ごとの展開結果を格納するテーブルの例を示す図である。辞書のエントリに対する展開結果の例を示す図である。変形例にかかる言い換え表現追加処理のフロー図である。第２の実施の形態の音声認識装置のブロック図である。基本動作フローを示す図である。辞書１０５に登録されている語彙の例である。待ち受け語から得られるキーワードの例である。言い換え規則適用例である。ユーザが過去に発話した内容を省略した言い換えが行われた対話例である。辞書１０５に登録されている語彙とそこに含まれるキーワードの例である。

符号の説明

１音声認識装置
１０主制御部
１０１分析部
１０２照合部
１０３音響モデル
１０４文法
１０５辞書
１０６言い換え表現学習部
１０７音声認識用データベース
１０８キーワード選択部
２０操作入力装置
３０音声入力装置
４０表示装置

Claims

語彙記憶部に記憶されている語彙を認識対象とする音声認識装置であって、
前記語彙記憶部に記憶されている語彙の言い換え表現を新たに追加する言い換え表現学習部を有し、
前記言い換え表現学習部は、
複数の言い換え規則の中から一つ以上の言い換え規則を特定する規則特定手段と、
特定した言い換え規則を用いて前記語彙記憶部に記憶されている語彙の言い換え表現を生成する言い換え表現生成手段と、
生成した言い換え表現を前記語彙記憶部に追加する手段と、
前記語彙記憶部に記憶された言い換え表現の一つを特定する表現特定手段と、
前記表現特定手段により特定された前記言い換え表現を生成するのに用いられた前記言い換え規則を特定する言い換え規則特定手段と、を備え、
前記言い換え表現生成手段は、前記言い換え規則特定手段により特定された言い換え規則を用いて、前記語彙記憶部に記憶された前記語彙の言い換え表現を生成する、
ことを特徴とする音声認識装置。
請求項１に記載の音声認識装置であって、
前記言い換え規則特定手段は、
前記語彙記憶部に記憶されている１つ以上の語彙に対して複数の言い換え規則を適用して生成した複数の言い換え表現を認識対象とする音声認識を行った結果を用いることを特徴とする音声認識装置。
請求項１に記載の音声認識装置であって、
前記言い換え規則特定手段は、
前記語彙記憶部に記憶されている１つ以上の語彙に対して複数の言い換え規則を適用して生成した複数の言い換え表現を提示し、提示した言い換え表現の中から選択された１つ以上を用いる
ことを特徴とする音声認識装置。
語彙記憶部に記憶されている語彙を認識対象とする音声認識装置の音声認識方法であって、
複数の言い換え規則の中から一つの言い換え規則を特定する規則特定ステップと、
特定した言い換え規則を用いて前記語彙記憶部に記憶されている語彙の言い換え表現を生成する言い換え表現生成ステップと、
生成した言い換え表現を前記語彙記憶部に追加するステップと、
前記語彙記憶部に記憶された言い換え表現の一つを特定する表現特定ステップと、
前記表現特定ステップにより特定された前記言い換え表現を生成するのに用いられた前記言い換え規則を特定する言い換え規則特定ステップと、を実施し、
前記言い換え表現生成ステップでは、前記言い換え規則測定ステップにより特定された言い換え規則を用いて、前記語彙記憶部に記憶された前記語彙の言い換え表現を生成する、
ことを特徴とする音声認識装置の音声認識方法。
前記言い換え規則特定手段は、
認識対象語彙の特徴的な音素列であるキーワードを認識語彙として、
音声認識処理した結果により言い換え規則を特定することを特徴とした請求項１記載の音声認識装置。
前記言い換え規則特定手段は、
キーワード認識結果から得られる認識スコアがあらかじめ設定された閾値を上回った場合に限り、
前記キーワード認識結果を用いた言い換え規則を特定することを特徴とする講求項５記載の音声認識装置。
入力音声の記憶装置を備え、
請求項２記載の音声認識による言い換え規則特定手段に用いる入力音声を記憶し、
請求項２記載の言い換え規則特定手段により特定した言い換え表現を、
請求項２記載の語彙記憶部への追加手段により追加した認識辞書を用いて、
前記音声記憶装置に記憶した入力音声を再度認識処理することを特徴とする請求項２記載の音声認識装置。
複数の認識結果候補を出力する音声認識処理部を備え、
語彙記憶部に記憶されている、言い換え規則を適用していない語彙と前記言い換え語彙追加手段により追加した語彙の双方を認識語彙として認識処理し、
前記認識処理の複数の認識結果から最も適切な認識結果を選択する認識結果選択手段を備えることを特徴とする請求項２記載の音声認識装置。
音声認識結果に認識の確からしさを表す認識スコアを付与する認識スコア付与部を備え、
言い換え規則を適用していない語彙の認識結果の認識結果の認識スコアと前記言い換え語彙追加手段により追加した語彙の認識結果の認識スコアの差が、あらかじめ設定された閾値を上回る際にのみ前記言い換え語彙追加手段により追加した語彙の認織結果を最も適切な認識結果として選択することを特徴とする請求項８記載の音声認識装置。
語彙記憶部に記憶されている語彙の認識結果を用いて言い換え規則特定を行なう請求項２記載の音声認識装置。
音声認識結果の認識スコアがあらかじめ定めた閾値より高い場合のものだけを用いて言い換え規則特定を行なうことを特徴とする請求項１０記載の音声認識装置。
音声認識処理を行なう状況に応じて言い換え規則の特定方法を変更することを特徴とする請求項１記載の音声認識装置。
過去に発話された情報を省略する言い換え規則を優先することを特徴とする請求項１記載の音声認識装置。
過去に言い換え規則を適用して登録された語彙を特定した言い換え規則を優先することを特徴とする請求項１記載の音声認識装置。
音声認識装置が過去に出力した情報を省略する言い換え規則を優先することを特徴とする請求項１記載の音声認識装置。
ユーザの所在する地域を判定する所在地域特定装置を備え、
前記ユーザの所在地域に関連する情報を省略する言い換え規則を優先することを特徴とする請求項１記載の音声認識装置。
言い換え規則により生成される言い換え語が一定数以下となる場合にのみ音声認識処理による言い換え規則特定を行ない、
言い換え規則により生成される言い換え語が一定数以上となる場合は、追加情報の入力をユーザに求め、情報が追加された後に改めて言い換え規則の特定を行なうことを特徴とする請求項２記載の音声認識装置。
前記語彙記憶部に記憶されている語彙に含まれる地名部分の省略を言い換え規則とすることを特徴とする請求項１記載の音声認識装置。
前記語彙記憶部に記憶されている語彙を形態素解析し、
形態素間の順序の入れ替えを言い換え規則とすることを特徴とする請求項１記載の音声認識装置。
前記語彙記憶部に記憶されている語彙に含まれる特定の語句の置換を言い換え規則とすることを特徴とする請求項１記載の音声認識装置。