JP2010191194A

JP2010191194A - 音声認識装置

Info

Publication number: JP2010191194A
Application number: JP2009035368A
Authority: JP
Inventors: Hiroaki Sekiyama; 博昭関山; Toshiyuki Nanba; 利行難波; Yoshihiro Oe; 義博大栄; Naoki Miura; 直樹三浦; Kunio Yokoi; 邦雄横井; Osamu Iwata; 收岩田; Masahiro Kamiya; 昌宏神谷; Iko Terasawa; 位好寺澤; Kinichi Wada; 錦一和田; Doichiro Tsuchiya; 道一郎土屋
Original assignee: Denso Ten Ltd; Aisin AW Co Ltd; Denso Corp; Toyota Motor Corp; Toyota Central R&D Labs Inc
Current assignee: Denso Ten Ltd; Aisin AW Co Ltd; Denso Corp; Toyota Motor Corp; Toyota Central R&D Labs Inc
Priority date: 2009-02-18
Filing date: 2009-02-18
Publication date: 2010-09-02
Anticipated expiration: 2029-02-18
Also published as: JP5341548B2

Abstract

【課題】操作性をより向上することが可能な音声認識装置を提供する。
【解決手段】本発明の一実施形態に係る音声認識装置２０は、ユーザの発話を認識する音声認識装置であって、ユーザの発話を単語ごとに分解する形態素解析手段３３と、所望の情報を管理する情報管理手段であって、単語のうちの当該所望の情報を表す単語を取り込む情報管理手段３４と、所望の情報を表す単語が不足している場合に、不足している情報を表す単語をユーザに発話させるように音声ガイダンスを行う対話制御手段３５とを備える。
【選択図】図１

Description

本発明は、音声認識装置に関するものである。

車載用のナビゲーション装置等において、操作スイッチによる操作に代えて音声による操作を行うものが知られている。特許文献１には、この種のナビゲーション装置が記載されている。このナビゲーション装置は、ユーザの発話を認識する音声認識装置を備えており、自然な言い回しで連続する一般的な指示を予め複数パターン格納することにより、複数の単語により構成されるフレーズを解釈し、地点の指定や機能指示の指定を１回の発声で認識できるようにする。これにより、自然な言い回しによる地点のナビゲーション機能などによる処理の指示や、機能実行までの操作時間の短縮を実現して、操作性の向上を図る。

特開２００１−１４７１３４号広報

しかしながら、特許文献１に記載の音声認識装置では、予め格納した一般的な指示パターンと異なる発話が行われると、フレーズ解釈に必要な複数の単語を認識できない可能性がある。そのために、この音声認識装置では、音声認識装置に対するユーザの習熟度を要し、操作性が煩雑であった。

そこで、本発明は、操作性をより向上することが可能な音声認識装置を提供することを目的としている。

本発明の音声認識装置は、ユーザの発話を認識する音声認識装置であって、ユーザの発話を単語ごとに分解する形態素解析手段と、所望の情報を管理する情報管理手段であって、単語のうちの当該所望の情報を表す単語を取り込む情報管理手段と、所望の情報を表す単語が不足している場合に、不足している情報を表す単語をユーザに発話させるように音声ガイダンスを行う対話制御手段とを備える。

この音声認識装置によれば、情報管理手段における所望の情報が不足している場合に、対話制御手段が、不足している情報をユーザに発話させるように音声ガイダンスを行うので、ユーザの習熟度が低い場合であっても、対話誘導によって自律的に所望の情報を全て得ることが可能である。したがって、ユーザは操作方法や、入力キーワードの種類及び組合せなどの入力ルールを意識することなく用いることができ、操作性をより向上することができる。

上記した所望の情報は優先度を有し、上記した情報管理手段は、所望の情報を組み合わせた複数の情報組合せパターンを有し、上記した対話制御手段は、複数の情報組合せパターンのうちの何れかの情報組合せパターンを選択する際に不足している情報の優先度に応じて選択を行い、選択された情報組合せパターンにおいて不足している情報を表す単語をユーザに発話させるように音声ガイダンスを行うことが好ましい。

これによれば、複数の情報組合せパターンを有して多様な検索パターンや発話パターンに対応可能なナビゲーション装置において、例えば、検索の決定力を優先度とし、優先度が低い不足情報を有する情報組合せパターンを選択すれば、この不足情報を全て埋める到達難易度を低減することができる。

ところで、ユーザも分かっていれば検索の決定力が高い情報を入力するはずであるので、決定力が高い情報をユーザに求めて、ユーザに煩わしさを与えることを抑制することができる。

本発明によれば、音声認識装置の操作性をより向上することができる。

本発明の実施形態に係る音声認識装置を備えるナビゲーション装置の電気的な構成を示す図である。本実施形態の音声認識装置による音声認識処理を示すフローチャートである。図２に示す第１パターン解析処理を示すフローチャートである。図２に示す第２パターン解析処理を示すフローチャートである。フレームパターンの一例を示す図である。対話シナリオの一例を示す図である。

以下、図面を参照して本発明の好適な実施形態について詳細に説明する。なお、各図面において同一又は相当の部分に対しては同一の符号を附すこととする。

図１は、本実施形態に係るナビゲーション装置の電気的な構成を示す図である。このナビゲーション装置１は、ナビゲーション本体１０と、本発明の実施形態に係る音声認識装置２０とを備える。

ナビゲーション本体１０は、一般的なナビゲーション装置であり、例えば、操作スイッチやタッチパネルなどの操作部１１と、地図データや施設データなどを格納するＤＢ部１２と、液晶ディスプレイなどの表示部１３と、ＥＣＵ（Electronic Control Unit）１４とを備える。

ナビゲーション本体１０は、操作部１１によるユーザ操作に応じて、出発地点から目的地点までの適切な経路をＤＢ部１２における地図データや施設データから検索し、表示部１３に表示することによって、ユーザに経路案内を提供する。ナビゲーション本体１０におけるこれらの動作は、ＥＣＵ１４によって統括制御される。ＥＣＵ１４は、演算を行うＣＰＵ（Central Processing Unit）、ＣＰＵに各処理を実行させるためのプログラム等を記憶するＲＯＭ（Read Only Memory）、演算結果などの各種データを記憶するＲＡＭ（Random Access Memory）などから構成されている。

なお、ナビゲーション本体１０は、本実施形態に限定されることなく、例えば、車両情報を取得するための各種センサやＧＰＳ機能などを備える態様であってもよい。

このナビゲーション本体１０は、操作部１１に加えて音声認識装置２０によって認識されたユーザからの発話指示に応じて、上記した経路案内処理を行うことができる。また、ナビゲーション本体１０は、表示部１３に加えて音声認識装置２０による音声案内によって、上記した経路案内をユーザに提供することができる。

次に、本発明の実施形態に係る音声認識装置２０について説明する。音声認識装置２０は、マイク２１と、スピーカ２２と、ＥＣＵ（Electronic Control Unit）３０とを備える。

マイク２１は、ユーザの発話による音声信号を電気信号に変換し、ＥＣＵ３０へ送信する。一方、スピーカ２２は、ＥＣＵ３０からの電気信号を音声信号に変換して出力する。

ＥＣＵ３０は、演算を行うＣＰＵ（Central Processing Unit）、ＣＰＵに各処理を実行させるためのプログラム等を記憶するＲＯＭ（Read Only Memory）、演算結果などの各種データを記憶するＲＡＭ（Random Access Memory）などから構成されている。このような構成により、ＥＣＵ３０には、音声認識部３１と、音声合成部３２と、形態素解析部３３と、スロット管理部（情報管理部）３４と、対話制御部３５とが構築される。

音声認識部３１は、マイク２１から入力される信号、すなわちユーザの発話を認識し、対話制御部３５を介して形態素解析部３３へ送信する。

音声合成部３２は、対話制御部３５から受ける音声ガイダンスデータを電気的に合成し、スピーカ２２へ送信する。これによって、音声ガイダンスが行われる。

形態素解析部３３は、ユーザの発話を解析する。具体的には、形態素解析部３３は、ユーザの発話による入力文を形態素、すなわち意味を有する最小の言語単位に分解し、分解した単語ごとに品詞を判別する（形態素解析）。また、形態素解析部３３は、判別した品詞に基づいて、不要な単語を排除し、後述する条件判別に必要な単語のみを抽出する。例えば、形態素解析部３３は、主に自律語を抽出し、付属語を排除する（品詞フィルタ）。形態素解析部３３は、抽出した単語を、対話制御部３５を介してスロット管理部３４へ送信する。

スロット管理部３４は、フレーム処理におけるスロットの状態を管理する。具体的には、スロット管理部３４は、以下の３つのフレームパターンＡ〜Ｃを内部定義しており、これらのフレームパターンＡ〜Ｃは、経路検索のための条件キーワード（所望の情報）を表すスロットを有する。

フレームパターンＡは、例えば、場所を表すキーワードのスロットと目的を表すキーワードのスロットとを必須スロットとして有する。このフレームパターンＡは、場所を表すキーワードと目的を表すキーワードとを組み合わせて、該当する施設を検索するためのものである。具体的には、場所としては、住所や駅名などが適用可能であり、目的としては、コンビニエンスストアなどの施設の種類を表すジャンルや、コンビニエンスストアのチェーン店名などが適用可能である。

また、フレームパターンＡは、その他の追加条件キーワードのためのスロットを有していてもよい。これによって、追加条件をオプションとして、更に絞り込み検索が可能となる。この場合、この追加条件は、施設データに対応させる必要がある。例えば、追加条件としては、料金、営業日、混み具合などが適用可能である。

このフレームパターンＡにおける必須スロット全てに対応する発話としては、例えば、「銀座の天麩羅屋。２，０００円くらいまで。」である。ここで、「銀座」なる単語が場所を表すキーワードであり、「天麩羅屋」なる単語が目的を表すキーワードである。また、この発話例では、「２，０００円くらいまで」が追加条件の料金である。

フレームパターンＢは、例えば、施設を表す条件キーワードのスロットを必須スロットとして有する。このフレームパターンＢは、施設名によって直接検索するためのものである。また、フレームパターンＢは、上記したジャンルやチェーン店名などの目的を表す追加条件キーワードのためのスロットを有していてもよい。

この場合、施設名が明確ならばその施設に行きたいが、ジャンルやチェーン店名が付加されると必ずしも施設そのものに行きたいとは限らないと考えられ、検索処理では、その施設を含む周辺の検索が行われることとなる。

このフレームパターンＢにおける必須スロットに対応する発話としては、例えば、「サンシャイン」である。このように、施設名を明確に発話する場合、ユーザはその施設そのものに行きたいものと判断される。一方、例えば、「サンシャイン辺りで、喫茶店ないかな」という発話では、「喫茶店」なるジャンルやチェーン店名が付加されているので、検索処理では、その施設を含む周辺の検索が行われることとなる。

フレームパターンＣは、例えば、番組情報を表すスロットと店舗情報を表すスロットとを必須スロットとして有する。このフレームパターンＣは、テレビ番組などで取り上げられた店を検索するためのものである。具体的には、番組情報としては、放送日及び番組名や、放送日及び時間帯及び放送局などが適用可能であり、店舗情報としては、上記したジャンルやチェーン店名などが適用可能である。

このフレームパターンＣのスロットの設定は、番組の特定は「番組名＋放送日」又は「局＋放送日時」が分かれば可能であるとの仮定に基づいている。なお、番組の特定や番組から店舗検索を実現するためには、番組配信Ｗｅｂサービスなどを利用すればよい。

このフレームパターンＣにおける必須スロット全てに対応する発話としては、例えば、「昨日、王様のブランチでやってたイタリアンレストラン」である。ここで、「昨日」（放送日）及び「王様のブランチ」（番組名）が番組情報を表すキーワードであり、「イタリアンレストラン」なる単語が店舗情報を表すキーワードである。

また、スロット管理部３４は、これらのフレームパターンＡ〜Ｃにそれぞれ対応付けされた対話シナリオを有している。対話シナリオには、空きスロットなどのスロットの状態及びユーザの発話から、次に埋めるべきスロットを決定するためのシステム動作や、この空きスロットの条件キーワードをユーザに発話させるためのガイダンス内容などのシステム動作が定義されている。

対話制御部３５は、形態素解析部３３から受ける単語がスロット管理部３４における条件キーワードのうちの何れに対応するかを判別する（条件マッピング）。また、対話制御部３５は、単語が対応付けされない条件キーワードが最も少ない条件パターンが、スロット管理部３４におけるフレームパターンＡ〜Ｃの何れに対応するか認識する（条件パターン認識）。

条件パターン認識の結果、同等程度のフレームパターンが複数存在する場合、基本的にはどれを選んでもよい。なぜなら、この音声認識装置２０によれば、何れのフレームパターンであっても、対話処理によって単語が対応付けされない不足スロットを自律的に埋めることができるからである。しかしながら、到達難易度を考慮してフレームパターンに優先度を設け、優先度に従って条件パターンが認識されてもよい。

例えば、フレームパターンにおけるスロットの条件キーワードに検索条件としての決定力（例えば、検索結果の絞り込み度合い。決定力が高いということは条件として精度が高いということになる。）を設け、不足スロットの決定力が低いものを優先する。これは、分かっているなら始めから指定するはずであり、指定していないのは分からないからと推測されることによる。

また、対話制御部３５は、認識されたフレームパターンにおいて必須スロットにキーワードが不足している場合に、不足キーワードをユーザに発話させるように音声ガイダンスを行う。具体的には、対話制御部３５は、スロット管理部３４における対話シナリオに従って、次に埋めるべきスロットを決定し、そのスロットを埋めるための音声ガイダンスを行う。

次に、音声認識装置２０の動作を説明する。図２は、本実施形態の音声認識装置による音声認識処理を示すフローチャートであり、図３及び図４は、それぞれ、図２に示す第１パターン解析処理、第２パターン解析処理を示すフローチャートである。

まず、ユーザによって発話が行われると、マイク２１及び音声認識部３１によってユーザの発話が認識され、形態素解析部３３、スロット管理部３４及び対話制御部３５によってユーザの発話の第１パターン解析処理が行われる（Ｓ０１）。

この第１パターン解析処理では、図３に示すように、形態素解析部３３によって、ユーザ発話が形態素解析され、最小の言語単位に分解される。その後、形態素解析部３３によって、分解された単語ごとに品詞が判別され、各単語に品詞が割り当てられる（Ｓ１１）。次に、形態素解析部３３によって、割り当てられた品詞に基づいて、主に自律語が抽出され、付属語が排除される（Ｓ１２）。

次に、対話制御部３５によって、抽出された単語がスロット管理部３４における条件キーワード、すなわち、住所、駅名、ジャンル、チェーン店名、施設名、放送日時、局、番組名などのうちの何に対応するかの判別が行われ（Ｓ１３）、単語が対応付けされない条件キーワードが最も少ない条件パターンが、スロット管理部３４におけるフレームパターンＡ〜Ｃの何れに対応するか認識される（Ｓ１４）。

次に、対話制御部３５によって、認識されたフレームパターンに対応する対話シナリオが読み込まれて対話制御が起動されると共に（Ｓ０２）、初回発話内容として、条件キーワードに対応付けされた単語が、認識されたフレームパターンにおけるスロットに格納される（Ｓ０３）。

その後、対話制御部３５によって、認識されたフレームパターンにおける必須スロットにキーワードが揃ったか否かの判断が行われる（Ｓ０４）。必須スロットにキーワードが揃っていない場合、対話制御部３５によって、対話シナリオに従って、次に埋めるべきスロットが決定され、そのスロットを埋めるための音声ガイダンス内容が決定される。すると、対話制御部３５、音声合成部３２及びスピーカ２２によって、この音声ガイダンス内容に従って対話処理が行われる。（Ｓ０５）。

その後、ユーザの応答発話が行われると、マイク２１及び音声認識部３１によってユーザの発話が認識され、形態素解析部３３、スロット管理部３４及び対話制御部３５によってユーザの発話の第２パターン解析が行われる（Ｓ０６）。この第２パターン解析処理では、図４に示すように、第１パターン解析処理における形態素解析処理Ｓ１１、品詞フィルタ処理Ｓ１２及び条件マッピング処理Ｓ１３とそれぞれ同一の形態素解析処理Ｓ６１、品詞フィルタ処理Ｓ６２及び条件マッピング処理Ｓ６３が順次に行われる。

その後、ステップＳ０３に戻り、スロット入力が行われる。このように、第１パターン解析処理によって選択されたフレームパターンにおける必須スロットが全て埋まるまで、対話シナリオに従って、ステップＳ０３〜Ｓ０６の処理が繰り返される。

一方、ステップＳ０４において必須スロットが全て揃ったと判断された場合には、対話処理が終了し、フレームパターン情報がナビゲーション本体１０へ送信される。すると、ナビゲーション本体１０によって、ＤＢ部１２における施設データに基づいて施設検索が行われ、この検索結果が表示部１３に表示される。

例えば、「新宿辺りで何か食べたい」からフレームパターンＡが認識された場合、図５に示すように、フレームパターンＡにおける場所を表すスロットに駅名として「新宿」なる単語が格納される。ここで、場所を表すスロットは、住所及び駅名のうちの何れか一方で成立するので、このスロットは入力完了となる。従って、不足している必須スロットは目的を表すスロットとなり、この不足スロットを埋めるための対話シナリオを起動することとなる。

すると、図６に示すように、目的スロットに条件が入ったか否かの判断により、条件が不足している場合には、「（場所）で何を探しますか？」なる音声ガイダンスを行い、目的「ジャンル又はチェーン店名」の認識待ち受け状態となる。その後、ユーザによって発話が行われ、第２パターン解析が行われた後に、目的スロットに条件が入ったか否かの判断に戻る。そして、目的スロットに条件が入った場合には、「他に条件があればお話ください」なる音声ガイダンスを行い、認識待ち受け状態となる。その後、ユーザによって追加条件の発話が行われた場合には、第２パターン解析が行われた後に、再び目的スロットに条件が入ったか否かの判断に戻る。一方、ユーザによって「検索」なる発話が行われると、対話処理を終了し、検索処理が開始される。

このように、本実施形態の音声認識装置２０によれば、スロット管理部３４におけるフレームパターンのスロットに条件キーワードが不足している場合に、対話制御部３５が、不足している条件キーワードをユーザに発話させるように音声ガイダンスを行うので、ユーザの習熟度が低い場合であっても、対話誘導によって自律的に所望の情報を全て得ることが可能である。したがって、ユーザは操作方法や、入力キーワードの種類及び組合せなどの入力ルールを意識することなく用いることができ、操作性をより向上することができる。

また、本実施形態の音声認識装置２０によれば、複数のフレームパターンを有して多様な検索パターンや発話パターンに対応可能なナビゲーション装置において、例えば、検索の決定力を優先度とし、優先度が低い不足スロットを有するフレームパターンを選択すれば、不足スロットを全て埋める到達難易度を低減することができる。

ところで、ユーザも分かっていれば検索の決定力が高いキーワードを入力するはずであるので、決定力が高い情報をユーザに求めて、ユーザに煩わしさを与えることを抑制することができる。

なお、本発明は上記した本実施形態に限定されることなく種々の変形が可能である。例えば、上記した条件マッピングだけでは条件パターン認識が難しい場合、条件に当てはまらない語と条件パターンの間にメタデータによる関連付けを持たせた上で解析の材料としてもよい。具体的には、フレームパターンＣに対応する発話「昨日ＴＶでやってた店」における「ＴＶ」に対して「ＴＶ番組」なるメタデータにより条件パターンと関連付けを行ってもよい。

また、対話シナリオにおいて、例えば、発話パターンに目的だけ入っている状態であれば、場所には「近く」を自動補完した上でユーザに認識を求めるようなシナリオを構築してもよい。このようにして、スロット入力を進め、条件が揃った時点で検索処理を行ってもよい。

１…ナビゲーション装置、１０…ナビゲーション本体、１１…操作部、１２…ＤＢ部、１３…表示部、２０…音声認識装置、２１…マイク、２２…スピーカ、３１…音声認識部、３２…音声合成部、３３…形態素解析部（形態素解析手段）、３４…スロット管理部（情報管理手段）、３５…対話制御部（対話制御手段）。

Claims

ユーザの発話を認識する音声認識装置であって、
前記ユーザの発話を単語ごとに分解する形態素解析手段と、
所望の情報を管理する情報管理手段であって、前記単語のうちの当該所望の情報を表す単語を取り込む情報管理手段と、
前記所望の情報を表す単語が不足している場合に、不足している情報を表す単語を前記ユーザに発話させるように音声ガイダンスを行う対話制御手段と、
を備える、音声認識装置。
前記所望の情報は優先度を有し、
前記情報管理手段は、前記所望の情報を組み合わせた複数の情報組合せパターンを有し、
前記対話制御手段は、前記複数の情報組合せパターンのうちの何れかの情報組合せパターンを選択する際に不足している情報の優先度に応じて選択を行い、選択された情報組合せパターンにおいて不足している情報を表す単語を前記ユーザに発話させるように音声ガイダンスを行う、
請求項１又は２に記載の音声認識装置。