JP4950024B2

JP4950024B2 - 会話システムおよび会話ソフトウェア

Info

Publication number: JP4950024B2
Application number: JP2007505922A
Authority: JP
Inventors: 幹生中野; 博奥乃; 和範駒谷
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2005-02-28
Filing date: 2006-02-27
Publication date: 2012-06-13
Anticipated expiration: 2026-02-27
Also published as: US20080065371A1; DE112006000225B4; WO2006093092A1; JPWO2006093092A1; DE112006000225T5

Description

本発明は、ユーザの発話を認識し、かつ、ユーザに対して発話を出力するシステム、およびユーザとの会話に必要な機能をコンピュータに付与するソフトウェアに関する。

ユーザおよびシステムの会話に際して、周辺雑音等の諸原因によって、システムによるユーザの発話認識に誤り（聞き誤り）が生じる可能性がある。このため、システムにおいてユーザの発話内容を確認するための発話を出力する技術が提案されている（たとえば、特開２００２−３５１４９２号公報参照）。当該システムによれば、単語の「属性」「属性値」および「属性値間距離」が定義され、共通の属性を有しながら属性値が異なり、かつ、当該属性値の偏差（属性値間距離）が閾値以上となるような複数の単語が同一のユーザとの会話中に認識された場合、当該単語を確認するための発話が出力される。

しかし、前記システムによれば、聞き誤りが生じた場合、属性値間距離が不適当に評価される場合がある。このため、ユーザが「Ａ」と発話したにもかかわらず、システムがユーザの発話は「Ａ」と音響的に近い「Ｂ」であると認識しているという齟齬が解消されないまま、会話が進行してしまう可能性があった。

そこで、本発明は、ユーザの発話と、認識された発話との齟齬をより適当に解消しながら、当該ユーザと会話しうるシステム、および当該会話機能をコンピュータに対して付与するソフトウェアを提供することを解決課題とする。

前記課題を解決するための本発明の会話システムは、ユーザの発話を認識する第１発話部と、発話を出力する第２発話部とを備えている会話システムであって、前記第１発話部により認識された発話に含まれている１次入力言語単位に音響的に類似する言語単位を第１辞書ＤＢから検索可能であることを要件として、当該１次入力言語単位に関連する複数の言語単位を第２辞書ＤＢから検索して複数の１次出力言語単位として認識する第１処理部と、前記第１処理部により認識された前記複数の１次出力言語単位のそれぞれの認識難易度を表す因子に基づき、当該複数の１次出力言語単位から１つを選定し、当該選定した１次出力言語単位に基づいてユーザの真意を問う１次質問を生成して前記第２発話部に出力させ、当該１次質問に対する前記ユーザの回答として前記第１発話部により認識された１次回答に基づき、当該ユーザの真意と前記１次入力言語単位との整合および不整合を判別する第２処理部とを備えていることを特徴とする。

第１発話部により認識された発話に含まれている「１次入力言語単位」に音響的に類似する言語単位が第１辞書ＤＢから検索されうる場合、１次入力言語単位ではなく他の言語単位がユーザの発話に含まれていた可能性がある。すなわち、この場合、第１発話部が１次入力言語単位について聴き違えをした可能性が多少なりともある。この点に鑑みて１次入力言語単位に関連する複数の「１次出力言語単位」が第２辞書ＤＢから検索される。

また、複数の１次出力言語単位の中から、認識難易度を表す因子に基づき１次出力言語単位が選定され、当該選定された１次出力言語単位に応じた「１次質問」が生成されて出力される。このため、当該選定された１次出力言語単位のユーザにとっての認識を容易にすることができる。これにより、ユーザの真意と１次入力言語単位との整合および不整合を判別する観点から適当な１次質問が生成される。そして、１次質問に対するユーザの発話として認識された「１次回答」に基づき、当該ユーザの真意と１次入力言語単位との整合および不整合が判別される。これにより、ユーザの発話（真意)と、システムにおいて認識された発話との齟齬をより確実に抑制しながら、当該ユーザとシステムとの会話が可能となる。

なお「言語単位」とは、文字、単語、複数の単語より構成される文章、短い文章より構成される長い文章等を意味する。

さらに、本発明の会話システムは、前記第２処理部が、前記第１処理部により認識された前記複数の１次出力言語単位のそれぞれの観念的な認識難易度もしくは所定範囲における出現頻度を表す第１因子、および音響的な認識難易度もしくは所定数の他の言語単位との音響距離の最低平均値を表す第２因子のうち一方または両方に基づき、前記複数の１次出力言語単位から１つを選定することを特徴とする。

本発明の会話システムによれば、当該選定された１次出力言語単位のユーザにとっての観念的または音響的な認識を容易にすることができる。これにより、ユーザの真意と１次入力言語単位との整合および不整合の別を確認する観点から適当な１次質問が生成される。

また、本発明の会話システムは、前記第２処理部が前記１次入力言語単位と、前記第１処理部により認識された前記複数の１次出力言語単位のそれぞれとの音響距離に基づき、当該複数の１次出力言語単位から１つを選定することを特徴とする。

本発明の会話システムによれば、複数の１次出力言語単位の中から、１次入力言語単位との音響距離に基づき１次出力言語単位が選定されるので、当該選定された１次出力言語単位の１次入力言語単位とのユーザにとっての聴覚的な識別を容易にすることができる。

さらに、本発明の会話システムは、前記第１処理部が、前記１次入力言語単位とこれに音響的に類似する言語単位との相違部分を含む第１種言語単位と、当該相違部分の本来の読み方と異なる読み方を表す第２種言語単位と、他の言語体系において当該相違部分に対応する言語単位の読み方を表す第３種言語単位と、当該相違部分に含まれる１つの音素を表す第４種言語単位と、前記１次入力言語単位と概念的に類似する第５種言語単位とのうち、一部または全部を前記１次出力言語単位として認識することを特徴とする。

また、本発明の会話システムは、前記第１処理部が、第ｋ種言語単位群（ｋ＝１〜５）から複数の言語単位を前記複数の１次出力言語単位として認識することを特徴とする。

本発明の会話システムによれば、１次質問の生成基礎である１次出力言語単位の選択肢の幅が広げられるので、ユーザの真意および１次入力言語単位の整合および不整合を判別する観点から最適な１次質問が生成されうる。

さらに、本発明の会話システムは、前記第２処理部により前記ユーザの真意とｉ次入力言語単位（ｉ＝１,２,‥）とが整合していないと判定された場合、前記第１処理部が、前記ｉ次入力言語単位に音響的に類似する言語単位を前記第１辞書ＤＢから検索してｉ＋１次入力言語単位として認識し、前記ｉ＋１次入力言語単位に関連する言語単位を前記第２辞書ＤＢから検索してｉ＋１次出力言語単位として認識し、かつ、前記第２処理部が、前記第１処理部により認識された前記ｉ＋１次出力言語単位に基づき、前記ユーザの真意を問うｉ＋１次質問を生成して前記第２発話部に出力させ、当該ｉ＋１次質問に対する前記ユーザの回答として前記第１発話部により認識されたｉ＋１次回答に基づき、当該ユーザの真意と前記ｉ＋１次入力言語単位との整合および不整合を判別する特徴とする。

本発明の会話システムによれば、第１発話部により認識された発話に含まれているｉ次入力言語単位に音響的に類似する言語単位としての「ｉ＋１次入力言語単位」がユーザの発話に含まれていた可能性があることに鑑みて、ｉ＋１次入力言語単位に関連する「ｉ＋１次出力言語単位」が第２辞書ＤＢから検索される。また、ｉ＋１次出力言語単位に基づいて「ｉ＋１次質問」が生成されて出力される。そして、ｉ＋１次質問に対するユーザの発話として認識された「ｉ＋１次回答」に基づき、当該ユーザの真意とｉ＋１次入力言語単位との整合および不整合が判別される。このように、複数回にわたってユーザの真意を問うための質問が当該ユーザに向けて投げかけられる。これにより、ユーザの発話（真意)とシステムにおいて認識された発話との齟齬をさらに確実に抑制しながら、当該ユーザとシステムとの会話が可能となる。

また、本発明の会話システムは、前記第１処理部が複数のｉ＋１次出力言語単位を認識し、前記第２処理部が、前記第１処理部により認識された前記複数のｉ＋１次出力言語単位のそれぞれの認識難易度を表す因子に基づき、当該複数のｉ＋１次出力言語単位から１つを選定し、当該選定したｉ＋１次出力言語単位に基づいて前記ｉ＋１次質問を生成することを特徴とする。

本発明の会話システムによれば、複数のｉ＋１次出力言語単位の中から、認識難易度を表す因子に基づきｉ＋１次出力言語単位が選定されるので、当該選定されたｉ＋１次出力言語単位のユーザにとっての認識を容易にすることができる。これにより、ユーザの真意とｉ＋１次入力言語単位との整合および不整合を判別する観点から適当なｉ＋１次質問が生成される。

さらに、本発明の会話システムは、前記第２処理部が、前記第１処理部により認識された前記複数のｉ＋１次出力言語単位のそれぞれの観念的な認識難易度もしくは所定範囲における出現頻度を表す第１因子、および音響的な認識難易度もしくは所定数の他の言語単位との音響距離の最低平均値を表す第２因子のうち一方または両方に基づき、当該複数のｉ＋１次出力言語単位から１つを選定することを特徴とする。

本発明の会話システムによれば、当該選定されたｉ＋１次出力言語単位のユーザにとっての観念的または音響的な認識を容易にすることができる。これにより、ユーザの真意とｉ＋１次入力言語単位との整合および不整合を判別する観点から適当なｉ＋１次質問が生成される。

また、本発明の会話システムは、前記第２処理部が前記ｉ次入力言語単位と前記第１処理部により認識された前記複数のｉ＋１次出力言語単位のそれぞれとの音響距離、および前記ｉ＋１次入力言語単位と前記複数のｉ＋１次出力言語単位のそれぞれとの音響距離のうち一方または両方に基づき、当該複数のｉ＋１次出力言語単位から１つを選定することを特徴とする。

本発明の会話システムによれば、複数のｉ＋１次出力言語単位の中から、ｉ次入力言語単位との音響距離に基づきｉ＋１次出力言語単位が選定されうるので、当該選定されたｉ＋１次出力言語単位のｉ次入力言語単位との音響的な識別を容易にすることができる。さらに、複数のｉ＋１次出力言語単位の中から、ｉ＋１次入力言語単位との音響距離に基づきｉ＋１次出力言語単位が選定されうるので、当該選定されたｉ＋１次出力言語単位のｉ＋１次入力言語単位との音響的な識別を容易にすることができる。

さらに、本発明の会話システムは、前記第１処理部が、前記ｉ＋１次入力言語単位およびこれに音響的に類似する言語単位の相違部分を含む第１種言語単位と、当該相違部分の本来の読み方と異なる読み方を表す第２種言語単位と、他の言語体系において当該相違部分に対応する言語単位の読み方を表す第３種言語単位と、当該相違部分に含まれる１つの音素を表す第４種言語単位と、前記ｉ＋１次入力言語単位と概念的に類似する第５種言語単位とのうち、一部または全部を２次出力言語単位として認識することを特徴とする。

また、本発明の会話システムは、前記第１処理部が、第ｋ種言語単位群（ｋ＝１〜５）から複数の言語単位を前記複数のｉ＋１次出力言語単位として認識することを特徴とする。

本発明の会話システムによれば、ｉ＋１次質問の生成基礎としてのｉ＋１次出力言語単位の選択肢の幅が広げられるので、ユーザの先の発話とｉ＋１次入力言語単位との整合および不整合を判別する観点から最適なｉ＋１次質問が生成されうる。

さらに、本発明の会話システムは、前記第２処理部により前記ユーザの真意とｊ次入力言語単位（ｊ≧２）とが整合していないと判定された場合、前記第２処理部が、前記ユーザの再度の発話を促す質問を生成して、これを前記第２発話部に出力させることを特徴とする。

本発明の会話システムによれば、逐次出力される質問によってはユーザの真意が確認できないような場合、あらためてその真意を確認することができる。

前記課題を解決するための本発明の会話ソフトウェアは、ユーザの発話を認識する第１発話機能と、発話を出力する第２発話機能とを有するコンピュータの記憶機能に格納される会話ソフトウェアであって、前記第１発話機能により認識された発話に含まれている１次入力言語単位に音響的に類似する言語単位を第１辞書ＤＢから検索可能であることを要件として、当該１次入力言語単位に関連する複数の言語単位を第２辞書ＤＢから検索して複数の１次出力言語単位として認識する第１処理機能と、前記第１処理機能により認識された前記複数の１次出力言語単位のそれぞれの認識難易度を表す因子に基づき、当該複数の１次出力言語単位から１つを選定し、当該選定した１次出力言語単位に基づいてユーザの真意を問う１次質問を生成して前記第２発話機能によって出力し、当該１次質問に対する前記ユーザの回答として前記第１発話機能により認識された１次回答に基づき、当該ユーザの真意と前記１次入力言語単位との整合および不整合を判別する第２処理機能とを前記コンピュータに付与することを特徴とする。

本発明の会話ソフトウェアによれば、ユーザの発話(またはその真意)と、システムにおいて認識された発話との齟齬をより確実に抑制しながら、当該ユーザと会話する機能が当該コンピュータに付与される。

また、本発明の会話ソフトウェアは、前記第２処理機能によりユーザの真意とｉ次入力言語単位（ｉ＝１，２，‥）とが整合していないと判定された場合、前記第１処理機能として、前記ｉ次入力言語単位に音響的に類似する言語単位を前記第１辞書ＤＢから検索してｉ＋１次入力言語単位として認識し、前記ｉ＋１次入力言語単位に関連する言語単位を前記第２辞書ＤＢから検索してｉ＋１次出力言語単位として認識する機能と、前記第２処理機能として、前記第１処理機能により認識されたｉ＋１次出力言語単位に基づき、ユーザの真意を問うｉ＋１次質問を生成して前記第２発話機能によって出力し、当該ｉ＋１次質問に対する前記ユーザの回答として前記第１発話機能により認識されたｉ＋１次回答に基づき、当該ユーザの真意と前記ｉ＋１次入力言語単位との整合および不整合を判別する機能とを前記コンピュータに対して付与することを特徴とする。

本発明の会話ソフトウェアによれば、ユーザの真意を問う質問が複数回にわたって生成する機能が前記コンピュータに対して付与される。したがって、当該ユーザの真意をより正確に把握し、ユーザの発話とシステムにおいて認識された発話との齟齬をより確実に抑制しながら、当該ユーザと会話する機能が当該コンピュータに付与される。

本発明の会話システムおよび会話ソフトウェアの実施形態について図面を用いて説明する。

図１は本発明の会話システムの構成例示図であり、図２は本発明の会話システムおよび会話ソフトウェアの機能例示図である。

図１に示されている会話システム（以下「システム」という。）１００は、自動車に搭載されたナビゲーションシステム（ナビシステム）１０に組み込まれた、ハードウェアとしてのコンピュータと、当該コンピュータのメモリに格納された本発明の「会話ソフトウェア」とにより構成されている。

会話システム１００は、第１発話部１０１と、第２発話部１０２と、第１処理部１１１と、第２処理部１１２と、第１辞書ＤＢ１２１と、第２辞書ＤＢ１２２とを備えている。

第１発話部１０１は、マイクロフォン（図示略）等により構成され、入力音声に基づいて隠れマルコフモデル法等、公知の手法にしたがってユーザの発話を認識する。

第２発話部１０２は、スピーカ（図示略）等により構成され、音声（または発話）を出力する。

第１処理部１１１は、第１発話部１０１により認識された発話に含まれている１次入力言語単位に音響的に類似する言語単位を第１辞書ＤＢ１２１から検索可能であることを要件として１次入力言語単位に関連する複数種類の言語単位を第２辞書ＤＢ１２２から検索して１次出力言語単位として認識する。さらに、第１処理部１１１は、後述するように必要に応じてより高次の出力言語単位を認識する。

第２処理部１１２は、１次入力言語単位に基づき、第１処理部１１１により認識された複数種類の１次出力言語単位の中から１つを選定する。また、第２処理部１１２は、選定した１次出力言語単位に基づき、ユーザの真意を問う１次質問を生成して第２発話部１０２に出力させる。さらに、第２処理部１１２は、当該１次質問に対するユーザの回答として第１発話部１０１により認識された１次回答に基づき、該ユーザの真意と１次入力言語単位との整合および不整合を判別する。また、第２処理部１１２は、後述するように必要に応じてより高次の質問を生成し、かつ、高次の回答に基づいてユーザの真意を確認する。

第１辞書ＤＢ１２１は、第１処理部１１１によりｉ＋１次入力言語単位（ｉ＝１，２，‥）として認識されうる複数の言語単位を記憶保持している。

第２辞書ＤＢ１２２は、第１処理部１１１によりｉ次出力言語単位として認識されうる複数の言語単位を記憶保持している。

前記構成の会話システム１００の機能について、図２を用いて説明する。

まず、ユーザが目的地設定のためにナビシステム１０を操作したことに応じて、第２発話部１０２が「目的地はどこですか」という初期発話を出力する（図２／Ｓ１）。初期発話に応じてユーザが目的地を表す単語を口にすると、第１発話部１０１がこの発話を認識する（図２／Ｓ２）。このとき、入力言語単位、出力言語単位、質問および回答の次数を表す指数ｉが「１」に設定される(図２／Ｓ３)。

また、第１処理部１１１が、第１発話部１０１により認識された発話を言語単位列に変換し、この言語単位列から第１辞書ＤＢ１２１において「地域名称」や「建築物名称」等に分類されている言語単位を抽出してｉ次入力言語単位ｘ_iとして認識する（図２／Ｓ４）。言語単位列から抽出される言語単位の分類は、ナビ装置１がユーザにその目的地までの案内ルートを提示するといったドメインに基づいている。

さらに、第１処理部１１１が、ｉ次入力言語単位ｘ_iと音響的に類似する言語単位を第１辞書ＤＢ１２１から検索可能であるか否か、すなわち、当該音響類似単語が第１辞書ＤＢ１２１に記憶されているか否かを判定する（図２／Ｓ５）。ここで、言語単位ｘ_iおよびｘ_jが音響的に類似するとは、次式（１）によって定義される音響距離ｐｄ（ｘ_i，ｘ_j）が閾値ε未満であることを意味する。

ｐｄ（ｘ_i，ｘ_i）
＝ｅｄ（ｘ_i，ｘ_j）／ｌｎ［ｍｉｎ（｜ｘ_i｜，｜ｘ_j｜）＋１］‥（１）
式（１）において｜ｘ｜は言語単位ｘに含まれている音素（または音韻）の数である。音素とは、１つの言語で用いられる音を弁別機能の見地から規定された最小単位を意味する。

また、ｅｄ（ｘ_i，ｘ_j）は言語単位ｘ_iおよびｘ_jの編集距離であり、言語単位ｘ_iの音素列を言語単位ｘ_jの音素列に変換するための音素の挿入、削除、置換に際して、モーラ（日本語の発音の最小単位を意味する。）または音素の数が変化する場合のコストを「１」、モーラや音素の数が変化しない場合のコストを「２」として、ＤＰマッチングにより求められる。

第１処理部１１１はｉ次入力言語単位ｘ_iに音響的に類似する言語単位が第１辞書ＤＢ１２１に登録されていると判定した場合（図２／Ｓ５‥ＹＥＳ）、ｉ次入力言語単位ｘ_iに関連する複数種類のｉ次出力言語単位ｙ_ki＝ｙ_k（ｘ_i）（ｋ＝１〜５）を第２辞書ＤＢ１２２から検索する（図２／Ｓ６）。

具体的には、第１処理部１１１はｉ次入力言語単位ｘ_iにおける当該音響類似言語単位ｚ_iとの相違部分δ_i＝δ（ｘ_i，ｚ_i）を含む言語単位を第２辞書ＤＢ１２２から検索して、第１種のｉ次出力言語単位ｙ_1i＝ｙ₁（ｘ_i）として認識する。たとえばｉ次入力言語単位ｘ_iが「Ｂｏｓｔｏｎ」という地名を表す単語であり、音響類似言語単位ｚ_iが「Ａｕｓｔｉｎ」という地名を表す単語である場合、相違部分δ_iとしてｉ次入力言語単位ｘ_iの頭文字である「ｂ」が抽出される。また、この相違部分δ_iを含む言語単位として「ｂｒａｖｏ」が検索される。

また、第１処理部１１１は当該相違部分δ_iの読み方（本来の読み方）ｐ_1i＝ｐ₁（δ_i）と異なる読み方ｐ_2i＝ｐ₂（δ_i）を第２辞書ＤＢ１２２から検索して、第２種のｉ次出力言語単位ｙ_2i＝ｙ₂（ｘ_i）として認識する。たとえば、日本語では、大半の漢字に「音読み」および「訓読み」という異なる読み方が存在する。このため、相違部分δ_iである漢字「銀」の本来の読み方が音読み「ギン」である場合、その訓読み「シロガネ」が第２種のｉ次出力言語単位ｙ_2iとして認識される。

さらに、第１処理部１１１は他の言語単位において当該相違部分δ_iを意味する言語単位ｆ＝ｆ（δ_i）の読み方ｐ（ｆ）を第２辞書ＤＢ１２２から検索して、第３種のｉ次出力言語単位ｙ_3i＝ｙ₃（ｘ_i）として認識する。たとえば日本語における漢字「銀」が相違部分δ_iである場合、当該漢字を意味する英単語「ｓｉｌｖｅｒ」の読み方「シルバー」が第３種のｉ次出力言語単位ｙ_3iとして認識される。

また、第１処理部１１１は当該相違部分δ_iの読み方ｐ（δ_i）が複数のモーラ（または音素）により構成されている場合、その中から先頭モーラ等、１つのモーラを表す音素文字、またはモーラを説明する文章を第２辞書ＤＢ１２２から検索し、第４種のｉ次出力言語単位ｙ_4i＝ｙ₄（ｘ_i）として認識する。たとえば、日本語における漢字「西」が相違部分δ_iである場合、その読み方ｐ（δ_i）「ニシ」のうち最初のモーラ文字「ニ」が第４種のｉ次出力言語単位ｙ_4iとして認識される。また、日本語のモーラには、清音、半濁音（子音：ｐ）および濁音（子音：ｇ，ｚ，ｄ，ｂ）という区分があるので、この区分を表す「清音」「半濁音」または「濁音」という単語が第４種のｉ次出力言語単位ｙ_4iとして認識される。

さらに、第１処理部１１１はｉ次入力言語単位ｘ_iと概念的に関連する言語単位を第２辞書ＤＢ１２２から検索して、第５種のｉ次出力言語単位ｙ_5i＝ｙ₅（ｘ_i）として認識する。たとえば、ｉ次入力言語単位ｘ_iにより表される目的地を包含する地域を表す言語単位（地名）ｇ＝ｇ（ｘ_i）が第５種のｉ次出力言語単位ｙ_5iとして認識される。

なお、第ｋ種のｉ次出力言語単位として、複数の言語単位が認識されてもよい。たとえば、当該相違部分δ_iが漢字「金」である場合、「故事成語」に分類される「沈黙は金」という文章、および「著名人の名称」に分類される「金●×」という名称がともに第１種のｉ次出力言語単位ｙ_1iとして認識されてもよい。

一方、第１処理部１１１はｉ次入力言語単位ｘ_iに音響的に類似する言語単位が第１辞書ＤＢ１２１に登録されていないと判定した場合（図２／Ｓ５‥ＮＯ）、ｉ次入力言語単位ｘ_iがユーザの目的地名称を特定する言語単位であるという推定に応じた次の処理が実行される。これにより、たとえば第２発話部１０２が「それでは、目的地ｘ_iまでのルートをご案内いたします」等の発話を出力する。また、ナビシステム１０が、ｉ次入力言語単位ｘ_iにより特定される目的地までのルートの設定処理を実行する。

続いて、第２処理部１１２が、第１処理部１１１によって認識された第１〜第５種のｉ次出力言語単位ｙ_kiの中から１つを選定する（図２／Ｓ７）。

具体的には、第２処理部１１２は各種のｉ次出力言語単位ｙ_kiについて、次式（２）にしたがって１次指数ｓｃｏｒｅ₁（ｙ_ki）を算出し、このｉ次指数ｓｃｏｒｅ₁（ｙ_ki）が最大のｉ次出力言語単位ｙ_kiを選定する。

ｓｃｏｒｅ₁（ｙ_k1）
＝W₁・ｃ₁（ｙ_k1）＋Ｗ₂・ｃ₂（ｙ_k1）＋Ｗ₃・ｐｄ（ｘ₁，ｙ_k1），
ｓｃｏｒｅ_i+1（ｙ_ki+1）
＝W₁・ｃ₁（ｙ_ki+1）＋Ｗ₂・ｃ₂（ｙ_ki+1）＋Ｗ₃・ｐｄ（ｘ_i，ｙ_ki+1）
＋Ｗ₄・ｐｄ（ｙ_ki，ｙ_ki+1） ‥（２）
式（２）において、Ｗ₁〜Ｗ₄は重み係数である。ｃ₁（ｙ_ki）は第ｋ種のｉ次出力言語単位ｙ_kiの観念的な認識難易度（なじみやすさ）を表す第１因子である。第１因子としては、ｉ次出力言語単位ｙ_kiをキーとしたときのインターネット検索エンジンのヒット数や、主要新聞や放送等のマスメディアにおける出現頻度等が採用される。また、ｃ₂（ｙ_ki）は第ｋ種のｉ次出力言語単位ｙ_kiの音響的な認識難易度（発音一意性、ききわけやすさ）を表す第２因子である。第２因子としては、たとえば所定数（たとえば１０）の他の言語単位（同音異義語など）との音響距離の最小平均値が採用される。ｐｄ（ｘ，ｙ）は、式（１）で定義される、言語単位ｘおよびｙの音響距離である。

続いて、第２処理部１１２が、選定した１つのｉ次出力言語単位ｙ_kiに基づき、ユーザの真意を問うｉ次質問Ｑ_i＝Ｑ（ｙ_i）を生成して、第２発話部１０２に出力させる（図２／Ｓ８）。

たとえば、第１種のｉ次出力言語単位ｙ_1iが選定されたことに応じて「目的地名称にはｙ_1iに含まれるδ_iという文字が含まれますか」等のｉ次質問Ｑ_iが生成される。このｉ次質問Ｑ_iは前記相違部分δ_iを通じて、ｉ次入力言語単位（たとえば、発話に含まれていた地名や建築物名称）ｘ_iの認識の正誤を間接的にユーザに確認するための質問である。

また、第２種のｉ次出力言語単位ｙ_1iが選定されたことに応じて「目的地名称にはｐ_2iと読まれる（または発音される）文字が含まれていますか」等のｉ次質問Ｑ_iが生成される。このｉ次質問Ｑ_iは相違部分δ_iの本来の読み方ｐ_1iとは異なる読み方ｐ_2iを通じて、ｉ次入力言語単位ｘ_iの認識の正誤を間接的にユーザに確認するための質問である。

さらに、第３種のｉ次出力言語単位ｙ_1iが選定されたことに応じて「目的地名称には外国語（たとえば、日本語から見た英語）でｐを意味するδ_iという文字が含まれていますか」等のｉ次質問Ｑ_iが生成される。このｉ次質問Ｑ_iは他の言語単位において当該相違部分δ_iを意味する言語単位ｆ＝ｆ（δ_i）の読み方ｐ（ｆ）を通じて、ｉ次入力言語単位ｘ_iの認識の正誤を間接的にユーザに確認するための質問である。

また、第４種のｉ次出力言語単位ｙ_1iが選定されたことに応じて「目的地名称には‥番目にｐ（δ_i）と発音される文字が含まれていますか」等のｉ次質問Ｑ_iが生成される。このｉ次質問Ｑ_iは相違部分δ_iの読み方ｐ（δ_i）の中の１つのモーラを表すモーラを表す文字、またはモーラを説明する文章を通じて、ｉ次入力言語単位ｘ_iの認識の正誤を間接的にユーザに確認するための質問である。

さらに、第５種のｉ次出力言語単位ｙ_1iが選定されたことに応じて「目的地はｇに含まれていますか」等のｉ次質問Ｑ_iが生成される。このｉ次質問Ｑ_iは、ｉ次入力言語単位ｘ_iと概念的に関連する言語単位を通じて、ｉ次入力言語単位ｘ_iの認識の正誤を間接的にユーザに確認するための質問である。

さらに、第１発話部１０１が、ｉ次質問Ｑ_iに対するユーザの発話としてｉ次回答Ａ_iを認識する（図２／Ｓ９）。また、第２処理部１１２が、ｉ次回答Ａ_iが「はい」のように肯定的なものであるか、または「いいえ」のように否定的なものであるかを判定する（図２／Ｓ１０）。

そして、第２処理部１１２によりｉ次回答Ａ_iが肯定的であると判定された場合（図２／Ｓ１０‥ＹＥＳ）、ｉ次入力言語単位ｘ_iがユーザの目的地名称を特定する言語単位であるという推定に応じた次の処理が実行される。

一方、第２処理部１１２によりｉ次回答Ａ_iが否定的であると判定された場合（図２／Ｓ１０‥ＮＯ）、指数ｉが所定数ｊ（＞２）未満であるという条件が満たされているか否かが判定される（図２／Ｓ１１）。そして、当該条件が満たされている場合（図２／Ｓ１１‥ＹＥＳ）、指数ｉが１だけ増加され（図２／Ｓ１２）、その上で前記のＳ４〜Ｓ１０の処理が繰り返される。この際、第１処理部１１１は、ｉ−１次入力言語単位ｘ_i-1（ｉ≧２）に音響的に類似する言語単位を第１辞書ＤＢ１２１から検索して、ｉ次入力言語単位ｘ_iとして認識する。なお、ｉ次入力言語単位ｘ_iとして、ｉ−１次入力言語単位ｘ_i-1の音響類似言語単位ｚ_i-1が認識されてもよい。また、当該条件が満たされていない場合（図２／Ｓ１１‥ＮＯ）、第２発話部１０２があらためて初期発話を出力する（図２／Ｓ１）等、ユーザとの会話が振り出しに戻ってやり直される。

前記機能を発揮する会話システム１００（および会話ソフトウェア）によれば、それぞれのｉ次出力言語単位ｙ_kiについて、観念的な認識難易度を表す第１因子ｃ₁、および音響的な認識難易度を表す第２因子ｃ₂等に基づき、複数種類のｉ次出力言語単位ｙ_kiの中から１つが選定される（図２／Ｓ６，Ｓ７）。また、選定された１つのｉ次出力言語単位ｙ_kiに基づきｉ次質問Ｑ_iが生成される（図２／Ｓ８）。これにより、ユーザの真意とｉ次入力言語単位ｘ_iの整合および不整合を判別する観点から最適なｉ次質問Ｑ_iが生成されうる。また、ユーザの真意とシステムの認識とに齟齬があると判定された場合、さらなる質問が生成される（図２／Ｓ１０‥ＮＯ，Ｓ４〜Ｓ１０）。したがって、ユーザの発話（真意)と、システム１００において認識された発話との齟齬を確実に抑制しながら、当該ユーザとシステム１００との会話が可能となる。

さらに、ユーザの真意とｊ次入力言語単位（ｊ≧２）とが整合していないと判定された場合、ユーザの再度の発話を促す初期質問が生成される（図２／Ｓ１１‥ＮＯ，Ｓ１）。これにより、逐次出力される質問によってはユーザの真意が確認できないような場合、あらためてその真意を確認することができる。

前記処理にしたがったユーザおよび会話システム１００の第１の会話例を次に示す。Ｕはユーザの発話を表し、Ｓは会話システム１００の発話を表している。
（第１の会話例）
Ｓ₀：目的地はどこですか。

Ｕ₀：金閣寺です。

Ｓ₁：目的地名称に英語でシルバーを意味する「銀」という文字が含まれていますか。

Ｕ₁：いいえ。

Ｓ₂：では、目的地名称に「沈黙は金」における「金」という文字が含まれていますか。

Ｕ₂：はい。

Ｓ₃：それでは金閣寺までのルートを案内いたします。

システム１００の発話Ｓ₀は初期質問に該当する（図２／Ｓ１）。

システム１００の発話Ｓ₁は１次質問Ｑ₁に該当する（図２／Ｓ８）。この１次質問Ｑ₁は、１次入力言語単位ｘ₁として「金閣寺」ではなく「銀閣寺」が認識（誤認）されたこと（図２／Ｓ４）、音響類似言語単位ｚ₁として「金閣寺」が認識されたこと（図２／Ｓ５）、２つの言語単位ｘ₁およびｚ₁の相違部分δ₁である漢字「銀」に関連する５種類の１次出力言語単位ｙ₁₁〜ｙ₅₁が認識されたこと（図２／Ｓ６）、および第３種の１次出力言語単位ｙ₃₁として当該相違部分δ₁を表す英単語「ｓｉｌｖｅｒ」の日本語における読み方「シルバー」が選定されたこと（図２／Ｓ７）に応じて生成されたものである。

システム１００の発話Ｓ₂は２次質問Ｑ₂に該当する（図２／Ｓ８）。この２次質問Ｑ₂は、１次回答Ａ₁として認識されたユーザの発話Ｕ₁が否定的なものであったこと（図２／Ｓ１０‥ＮＯ）、２次入力言語単位ｘ₂として「金閣寺」が認識されたこと（図２／Ｓ４）、音響類似言語単位ｚ₂として「銀閣寺」が認識されたこと（図２／Ｓ５）、２つの言語単位ｘ₂およびｚ₂の相違部分δ₂である漢字「金」に関連する５種類の２次出力言語単位ｙ₁₂〜ｙ₅₂が認識されたこと（図２／Ｓ６）、および第１種の２次出力言語単位ｙ₁₂として当該相違部分δ₂を含む故事成語「沈黙は金」が選定されたこと（図２／Ｓ７）に応じて生成されたものである。

２次回答Ａ₂として認識されたユーザの発話Ｕ₂が肯定的なものであったことに応じて（図２／Ｓ１０‥ＹＥＳ）、ユーザの目的地が金閣寺であるという判断に応じて、システム１００から発話Ｕ₄が出力される。

これにより、ユーザの目的地が「金閣寺」である一方、システム１００により認識された目的地が「銀閣寺」であるといった齟齬が生じたまま、ユーザおよびシステム１００の会話が進行する事態が回避される。すなわち、システム１００は、ユーザの目的地が金閣寺であることを正確に認識することができる。そして、ナビシステム１０は、システム１００の当該認識に基づき、金閣寺までの案内ルートの設定等、ユーザの真意に鑑みて適切な処理を実行することができる。

さらに、前記処理にしたがったユーザおよびシステム１００の第２の会話例を次に示す。
（第２の会話例）
Ｓ₀：Ｃａｎｙｏｕｔｅｌｌｍｅｔｈｅｄｅｐａｒｔｕｒｅ
ｃｉｔｙ？
Ｕ₀：ｆｒｏｍＡｕｓｔｉｎ．
Ｓ₁：Ｉｓｔｈｅｆｉｒｓｔｌｅｔｔｅｒｏｆｔｈｅｃｉｔｙ “ｂ” ｉｎ “ｂｒａｖｏ”？
Ｕ₁：Ｎｏ．
Ｓ₂：Ｔｈｅｎｉｓｔｈｅｆｉｒｓｔｌｅｔｔｅｒｏｆｔｈｅｃｉｔｙ “ａ” ｉｎ“ａｌｐｈａ”？
Ｕ₂：Ｙｅｓ．
システム１００の発話Ｓ₀は初期質問に該当する（図２／Ｓ１）。

システム１００の発話Ｓ₁は１次質問Ｑ₁に該当する（図２／Ｓ８）。この１次質問Ｑ₁は、１次入力言語単位ｘ₁として「Ａｕｓｔｉｎ」ではなく「Ｂｏｓｔｏｎ」が認識（誤認）されたこと（図２／Ｓ４）、音響類似言語単位ｚ₁として「Ａｕｓｔｉｎ」が認識されたこと（図２／Ｓ５）、２つの言語単位ｘ₁およびｚ₁の相違部分δ₁である英文字「ｂ」に関連する５種類の１次出力言語単位ｙ₁₁〜ｙ₅₁が認識されたこと（図２／Ｓ６）、および第１種の１次出力言語単位ｙ₁₁として当該相違部分δ₁を表す英単語「ｂｒａｖｏ」が選定されたこと（図２／Ｓ７）に応じて生成されたものである。

システム１００の発話Ｓ₂は２次質問Ｑ₂に該当する（図２／Ｓ８）。この２次質問Ｑ₂は、１次回答Ａ₁として認識されたユーザの発話Ｕ₁が否定的なものであったこと（図２／Ｓ１０‥ＮＯ）、２次入力言語単位ｘ₂として「Ａｕｓｔｉｎ」が認識されたこと（図２／Ｓ４）、音響類似言語単位ｚ₂として「Ｂｏｓｔｏｎ」が認識されたこと（図２／Ｓ５）、２つの言語単位ｘ₂およびｚ₂の相違部分δ₂である英文字「ａ」に関連する５種類の２次出力言語単位ｙ₁₂〜ｙ₅₂が認識されたこと（図２／Ｓ６）、および第１種の２次出力言語単位ｙ₁₂として当該相違部分δ₂を含む英単語「ａｌｐｈａ」が選定されたこと（図２／Ｓ７）に応じて生成されたものである。

２次回答Ａ₂として認識されたユーザの発話Ｕ₂が肯定的なものであったことに応じて（図２／Ｓ１０‥ＹＥＳ）、ユーザの目的地がＡｕｓｔｉｎであるという判断に応じて、システム１００から発話が出力される。

これにより、ユーザの目的地が「Ａｕｓｔｉｎ」である一方、システム１００により認識された目的地が「Ｂｏｓｔｏｎ」であるといった齟齬が生じたまま、ユーザおよびシステム１００の会話が進行する事態が回避される。すなわち、システム１００は、ユーザの目的地がＡｕｓｔｉｎであることを正確に認識することができる。そして、ナビシステム１０は、システム１００の当該認識に基づき、Ａｕｓｔｉｎまでの案内ルートの設定等、ユーザの真意に鑑みて適切な処理を実行することができる。

本発明の会話システムの構成例示図。本発明の会話システムおよび会話ソフトウェアの機能例示図。

Claims

ユーザの発話を認識する第１発話部と、発話を出力する第２発話部とを備えている会話システムであって、
前記第１発話部により認識された発話に含まれている１次入力言語単位に音響的に類似する言語単位を第１辞書ＤＢから検索可能であることを要件として、当該１次入力言語単位に関連する複数の言語単位を第２辞書ＤＢから検索して複数の１次出力言語単位として認識する第１処理部と、
前記第１処理部により認識された前記複数の１次出力言語単位のそれぞれの認識難易度を表す因子に基づき、当該複数の１次出力言語単位から１つを選定し、当該選定した１次出力言語単位に基づいてユーザの真意を問う１次質問を生成して前記第２発話部に出力させ、当該１次質問に対する前記ユーザの回答として前記第１発話部により認識された１次回答に基づき、当該ユーザの真意と前記１次入力言語単位との整合および不整合を判別する第２処理部とを備えていることを特徴とする会話システム。
請求項１記載の会話システムにおいて、
前記第２処理部が、前記第１処理部により認識された前記複数の１次出力言語単位のそれぞれの観念的な認識難易度もしくは所定範囲における出現頻度を表す第１因子、および音響的な認識難易度もしくは所定数の他の言語単位との音響距離の最低平均値を表す第２因子のうち一方または両方に基づき、前記複数の１次出力言語単位から１つを選定することを特徴とする会話システム。
請求項１記載の会話システムにおいて、
前記第２処理部が前記１次入力言語単位と、前記第１処理部により認識された前記複数の１次出力言語単位のそれぞれとの音響距離に基づき、当該複数の１次出力言語単位から１つを選定することを特徴とする会話システム。
請求項１記載の会話システムにおいて、
前記第１処理部が、
前記１次入力言語単位とこれに音響的に類似する言語単位との相違部分を含む第１種言語単位と、
当該相違部分の本来の読み方と異なる読み方を表す第２種言語単位と、
他の言語体系において当該相違部分に対応する言語単位の読み方を表す第３種言語単位と、
当該相違部分に含まれる１つの音素を表す第４種言語単位と、
前記１次入力言語単位と概念的に類似する第５種言語単位とのうち、一部または全部を前記１次出力言語単位として認識することを特徴とする会話システム。
請求項４記載の会話システムにおいて、
前記第１処理部が、第ｋ種言語単位群（ｋ＝１〜５）から複数の言語単位を前記複数の１次出力言語単位として認識することを特徴とする会話システム。
請求項１記載の会話システムにおいて、
前記第２処理部により前記ユーザの真意とｉ次入力言語単位（ｉ＝１,２,‥）とが整合していないと判定された場合、
前記第１処理部が、前記ｉ次入力言語単位に音響的に類似する言語単位を前記第１辞書ＤＢから検索してｉ＋１次入力言語単位として認識し、前記ｉ＋１次入力言語単位に関連する言語単位を前記第２辞書ＤＢから検索してｉ＋１次出力言語単位として認識し、かつ、
前記第２処理部が、前記第１処理部により認識された前記ｉ＋１次出力言語単位に基づき、前記ユーザの真意を問うｉ＋１次質問を生成して前記第２発話部に出力させ、当該ｉ＋１次質問に対する前記ユーザの回答として前記第１発話部により認識されたｉ＋１次回答に基づき、当該ユーザの真意と前記ｉ＋１次入力言語単位との整合および不整合を判別する特徴とする会話システム。
請求項６記載の会話システムにおいて、
前記第１処理部が複数のｉ＋１次出力言語単位を認識し、
前記第２処理部が、前記第１処理部により認識された前記複数のｉ＋１次出力言語単位のそれぞれの認識難易度を表す因子に基づき、当該複数のｉ＋１次出力言語単位から１つを選定し、当該選定したｉ＋１次出力言語単位に基づいて前記ｉ＋１次質問を生成することを特徴とする会話システム。
請求項７記載の会話システムにおいて、
前記第２処理部が、前記第１処理部により認識された前記複数のｉ＋１次出力言語単位のそれぞれの観念的な認識難易度もしくは所定範囲における出現頻度を表す第１因子、および音響的な認識難易度もしくは所定数の他の言語単位との音響距離の最低平均値を表す第２因子のうち一方または両方に基づき、当該複数のｉ＋１次出力言語単位から１つを選定することを特徴とする会話システム。
請求項６記載の会話システムにおいて、
前記第２処理部が前記ｉ次入力言語単位と前記第１処理部により認識された前記複数のｉ＋１次出力言語単位のそれぞれとの音響距離、および前記ｉ＋１次入力言語単位と前記複数のｉ＋１次出力言語単位のそれぞれとの音響距離のうち一方または両方に基づき、当該複数のｉ＋１次出力言語単位から１つを選定することを特徴とする会話システム。
請求項７記載の会話システムにおいて、
前記第１処理部が、
前記ｉ＋１次入力言語単位およびこれに音響的に類似する言語単位の相違部分を含む第１種言語単位と、
当該相違部分の本来の読み方と異なる読み方を表す第２種言語単位と、
他の言語体系において当該相違部分に対応する言語単位の読み方を表す第３種言語単位と、
当該相違部分に含まれる１つの音素を表す第４種言語単位と、
前記ｉ＋１次入力言語単位と概念的に類似する第５種言語単位とのうち、一部または全部を２次出力言語単位として認識することを特徴とする会話システム。
請求項８記載の会話システムにおいて、
前記第１処理部が、第ｋ種言語単位群（ｋ＝１〜５）から複数の言語単位を前記複数のｉ＋１次出力言語単位として認識することを特徴とする会話システム。
請求項６記載の会話システムにおいて、
前記第２処理部により前記ユーザの真意とｊ次入力言語単位（ｊ≧２）とが整合していないと判定された場合、
前記第２処理部が、前記ユーザの再度の発話を促す質問を生成して、これを前記第２発話部に出力させることを特徴とする会話システム。
ユーザの発話を認識する第１発話機能と、発話を出力する第２発話機能とを有するコンピュータの記憶機能に格納される会話ソフトウェアであって、
前記第１発話機能により認識された発話に含まれている１次入力言語単位に音響的に類似する言語単位を第１辞書ＤＢから検索可能であることを要件として、当該１次入力言語単位に関連する複数の言語単位を第２辞書ＤＢから検索して複数の１次出力言語単位として認識する第１処理機能と、
前記第１処理機能により認識された前記複数の１次出力言語単位のそれぞれの認識難易度を表す因子に基づき、当該複数の１次出力言語単位から１つを選定し、当該選定した１次出力言語単位に基づいてユーザの真意を問う１次質問を生成して前記第２発話機能によって出力し、当該１次質問に対する前記ユーザの回答として前記第１発話機能により認識された１次回答に基づき、当該ユーザの真意と前記１次入力言語単位との整合および不整合を判別する第２処理機能とを前記コンピュータに付与することを特徴とする会話ソフトウェア。
請求項１３記載の会話ソフトウェアにおいて、
前記第２処理機能によりユーザの真意とｉ次入力言語単位（ｉ＝１，２，‥）とが整合していないと判定された場合、
前記第１処理機能として、前記ｉ次入力言語単位に音響的に類似する言語単位を前記第１辞書ＤＢから検索してｉ＋１次入力言語単位として認識し、前記ｉ＋１次入力言語単位に関連する言語単位を前記第２辞書ＤＢから検索してｉ＋１次出力言語単位として認識する機能と、
前記第２処理機能として、前記第１処理機能により認識されたｉ＋１次出力言語単位に基づき、ユーザの真意を問うｉ＋１次質問を生成して前記第２発話機能によって出力し、当該ｉ＋１次質問に対する前記ユーザの回答として前記第１発話機能により認識されたｉ＋１次回答に基づき、当該ユーザの真意と前記ｉ＋１次入力言語単位との整合および不整合を判別する機能とを前記コンピュータに対して付与することを特徴とする会話ソフトウェア。