JP7210933B2

JP7210933B2 - 情報処理装置、情報処理システム、情報処理方法およびプログラム

Info

Publication number: JP7210933B2
Application number: JP2018152822A
Authority: JP
Inventors: 直也宮原
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2018-08-15
Filing date: 2018-08-15
Publication date: 2023-01-24
Anticipated expiration: 2038-08-15
Also published as: JP2020027514A

Description

本発明は、情報処理装置、情報処理システム、情報処理方法およびプログラムに関する。

近年、様々な場所に自立型の情報端末が設置されており、ユーザは情報端末を操作することで多様なサービスを受けることができる。ある種の情報端末は、音声認識機能およびＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）機能を有し、音声認識機能がユーザの発話内容を認識し、発話内容の認識結果に応じた処理をＡＩ機能が制御する。例えば、ユーザの発話内容が目的地を示す場合、情報端末は、音声認識機能およびＡＩ機能に基づき、当該目的地までのルートを音声で案内し得る。

上記のＡＩ機能は、通常、１つの言語に対応しており、多言語には対応していない。多言語に対応するための方法に翻訳機能を利用する方法があり、当該方法は例えば特許文献１に開示されている。具体的には、翻訳データベースを用いて第１言語のテキストデータを翻訳して第２言語のテキストデータを得て、当該第２言語のテキストデータに対応する第２言語の応答データを決定し、翻訳データベースを用いて当該第２言語の応答データを翻訳して第１言語の応答データを得て、当該第１言語の応答データを音声出力する方法が考えられる。

しかし、上記の音声認識機能においてユーザの発話内容が誤認識されると、適切な応答データが音声出力されなくなる。特許文献２には、音声認識における誤認識への対策が開示されている。具体的には、特許文献２には、第１言語から第２言語への翻訳を行う翻訳装置に関し、第１言語の音声認識に誤認識がある場合に予め登録している辞書から誤認識文字列に発音が類似する単語を検索し、検索された単語を誤認識文字列の訂正候補とする技術が開示されている。また、特許文献３には、音声認識を行い、音声認識結果に含まれる訂正の対象となる単語（誤認識された単語）を、文脈に応じた他の単語に変換する技術が開示されている。

特開２０１８－４５６７５号公報特開２０１０－１６４９１８号公報特開２０１７－１６７２４７号公報

しかし、特許文献１に記載の技術では、現地の雑音等の影響により、ユーザが意図した単語の発音と異なる発音が認識されてしまった場合、適切な訂正候補が検索されない。また、特許文献２に記載の技術では、意味が通じる単語が得られるが、当該単語は質問に対する回答として相応しいとは限らない。

また、音声認識において、接頭または語尾の言葉の認識が漏れる可能性がある。この場合、目的語が抜け落ちたり、疑問系の文が肯定系の文に間違われたりして、会話が正しく展開されない場合が発生する。また、それぞれの言語によって文法が異なり、どのような言葉が抜け落ちるかの予測が困難であるため、音声データの認識により得られたテキストデータを単に機械翻訳するだけでは、会話が成立しない恐れがあった。特に、発話開始と発話終了を明示的にユーザから指定しない方式では、このようなケースが顕著に発生し得る。

そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、ユーザにより入力された音声データに基づき、ユーザの意図に沿った会話を進めることが可能な、新規かつ改良された情報処理装置、情報処理システム、情報処理方法およびプログラムを提供することにある。

上記課題を解決するために、本発明のある観点によれば、ユーザへの質問に対する回答として前記ユーザにより入力された第１言語の音声データを認識して前記第１言語のテキストデータを得る音声認識部と、前記第１言語のテキストデータを翻訳して第２言語のテキストデータを得る翻訳部と、回答候補データベースに事前に格納されている複数の回答候補データのうちで、前記第２言語のテキストデータに該当する回答候補データがあるか否かを判定し、前記第２言語のテキストデータに該当する回答候補データがある場合には、当該回答候補データに応じた前記第２言語の会話用テキストデータを出力する会話制御部と、を備え、前記複数の回答候補データは、異なる２以上のテキストデータを有する回答候補データを含み、前記会話制御部は、前記第２言語のテキストデータに該当する回答候補データがないと判定された場合、前記第２言語のテキストデータに含まれるデータを誤認識データとして誤認識データベースに格納し、繰り返される前記ユーザへの前記質問に対する回答により得られた前記第２言語の新たなテキストデータに該当する回答候補データがあるか否かを判定し、前記第２言語の新たなテキストデータに該当する回答候補データがある場合には、当該回答候補データを前記誤認識データベースにおいて前記誤認識データに関連付け、前記誤認識データを含む前記第２言語のテキストデータが得られた履歴に関して所定の閾値条件が満たされた場合に、前記誤認識データを、当該誤認識データに前記誤認識データベースにおいて関連付けられている回答候補データのテキストデータとして、前記回答候補データベースに登録し、前記翻訳部は、前記会話制御部から出力された前記第２言語の会話用テキストデータを翻訳して前記第１言語の会話用テキストデータを得て、前記第１言語の会話用テキストデータを用いて、前記ユーザに出力される前記第１言語の音声データを生成する音声データ生成部をさらに備える、情報処理装置が提供される。

また、上記課題を解決するために、本発明のある観点によれば、ユーザへの質問に対する回答として前記ユーザにより入力された第１言語の音声データを認識して前記第１言語のテキストデータを得る音声認識部と、前記第１言語のテキストデータを翻訳して第２言語のテキストデータを得る翻訳部と、回答候補データベースに事前に格納されている複数の回答候補データのうちで、前記第２言語のテキストデータに該当する回答候補データがあるか否かを判定し、前記第２言語のテキストデータに該当する回答候補データがある場合には、当該回答候補データに応じた前記第２言語の会話用テキストデータを出力する会話制御部と、を備え、前記複数の回答候補データは、異なる２以上のテキストデータを有する回答候補データを含み、前記会話制御部は、前記第２言語のテキストデータに該当する回答候補データがないと判定された場合、前記第２言語のテキストデータに含まれるデータを誤認識データとして誤認識データベースに格納し、繰り返される前記ユーザへの前記質問に対する回答により得られた前記第２言語の新たなテキストデータに該当する回答候補データがあるか否かを判定し、前記第２言語の新たなテキストデータに該当する回答候補データがある場合には、当該回答候補データを前記誤認識データベースにおいて前記誤認識データに関連付け、前記誤認識データを含む前記第２言語のテキストデータが得られる度にカウント値を更新し、前記カウント値が所定値に達したことに基づき、前記誤認識データを、当該誤認識データに前記誤認識データベースにおいて関連付けられている回答候補データのテキストデータとして、前記回答候補データベースに登録する、情報処理装置が提供される。

前記会話制御部は、異なるユーザへの質問への回答により前記誤認識データを含む前記第２言語のテキストデータが得られる度に前記カウント値を更新してもよい。

また、上記課題を解決するために、本発明の別の観点によれば、ユーザへの質問に対する回答として前記ユーザにより入力された第１言語の音声データを認識して前記第１言語のテキストデータを得る音声認識部と、前記第１言語のテキストデータを翻訳して第２言語のテキストデータを得る翻訳部と、回答候補データベースに事前に格納されている複数の回答候補データのうちで、前記第２言語のテキストデータに該当する回答候補データがあるか否かを判定し、前記第２言語のテキストデータに該当する回答候補データがある場合には、当該回答候補データに応じた前記第２言語の会話用テキストデータを出力する会話制御部と、を備え、前記複数の回答候補データは、異なる２以上のテキストデータを有する回答候補データを含み、前記会話制御部は、前記第２言語のテキストデータに該当する回答候補データがないと判定された場合、前記第２言語のテキストデータに含まれるデータを誤認識データとして誤認識データベースに格納し、繰り返される前記ユーザへの前記質問に対する回答により得られた前記第２言語の新たなテキストデータに該当する回答候補データがあるか否かを判定し、前記第２言語の新たなテキストデータに該当する回答候補データがある場合には、当該回答候補データを前記誤認識データベースにおいて前記誤認識データに関連付け、前記誤認識データを含む前記第２言語のテキストデータが得られた履歴に関して所定の閾値条件が満たされた場合に、前記誤認識データを、当該誤認識データに前記誤認識データベースにおいて関連付けられている回答候補データのテキストデータとして、前記回答候補データベースに登録し、前記翻訳部は、前記会話制御部から出力された前記第２言語の会話用テキストデータを翻訳して前記第１言語の会話用テキストデータを得て、前記第１言語の会話用テキストデータを用いて、前記ユーザに出力される前記第１言語の音声データを生成する音声データ生成部をさらに備える、情報処理システムが提供される。

また、上記課題を解決するために、本発明の別の観点によれば、コンピュータが、ユーザへの質問に対する回答として前記ユーザにより入力された第１言語の音声データを認識して前記第１言語のテキストデータを得ることと、前記第１言語のテキストデータを翻訳して第２言語のテキストデータを得ることと、回答候補データベースに事前に格納されている複数の回答候補データのうちで、前記第２言語のテキストデータに該当する回答候補データがあるか否かを判定し、前記第２言語のテキストデータに該当する回答候補データがある場合には、当該回答候補データに応じた前記第２言語の会話用テキストデータを出力することと、を含み、前記複数の回答候補データは、異なる２以上のテキストデータを有する回答候補データを含み、前記第２言語の会話用テキストデータを出力することは、
前記第２言語のテキストデータに該当する回答候補データがないと判定された場合、前記第２言語のテキストデータに含まれるデータを誤認識データとして誤認識データベースに格納し、繰り返される前記ユーザへの前記質問に対する回答により得られた前記第２言語の新たなテキストデータに該当する回答候補データがあるか否かを判定し、前記第２言語の新たなテキストデータに該当する回答候補データがある場合には、当該回答候補データを前記誤認識データベースにおいて前記誤認識データに関連付け、前記誤認識データを含む前記第２言語のテキストデータが得られた履歴に関して所定の閾値条件が満たされた場合に、前記誤認識データを、当該誤認識データに前記誤認識データベースにおいて関連付けられている回答候補データのテキストデータとして、前記回答候補データベースに登録することを含み、コンピュータが、前記第２言語の会話用テキストデータを翻訳して前記第１言語の会話用テキストデータを得ることと、前記第１言語の会話用テキストデータを用いて、前記ユーザに出力される前記第１言語の音声データを生成することと、をさらに含む、情報処理方法が提供される。

また、上記課題を解決するために、本発明の別の観点によれば、コンピュータを、ユーザへの質問に対する回答として前記ユーザにより入力された第１言語の音声データを認識して前記第１言語のテキストデータを得る音声認識部と、前記第１言語のテキストデータを翻訳して第２言語のテキストデータを得る翻訳部と、回答候補データベースに事前に記憶されている複数の回答候補データのうちで、前記第２言語のテキストデータに該当する回答候補データがあるか否かを判定し、前記第２言語のテキストデータに該当する回答候補データがある場合には、当該回答候補データに応じた前記第２言語の会話用テキストデータを出力する会話制御部と、を備え、前記複数の回答候補データは、異なる２以上のテキストデータを有する回答候補データを含み、前記会話制御部は、前記第２言語のテキストデータに該当する回答候補データがないと判定された場合、前記第２言語のテキストデータに含まれるデータを誤認識データとして誤認識データベースに格納し、繰り返される前記ユーザへの前記質問に対する回答により得られた前記第２言語の新たなテキストデータに該当する回答候補データがあるか否かを判定し、前記第２言語の新たなテキストデータに該当する回答候補データがある場合には、当該回答候補データを前記誤認識データベースにおいて前記誤認識データに関連付け、前記誤認識データを含む前記第２言語のテキストデータが得られた履歴に関して所定の閾値条件が満たされた場合に、前記誤認識データを、当該誤認識データに前記誤認識データベースにおいて関連付けられている回答候補データのテキストデータとして、前記回答候補データベースに登録し、前記翻訳部は、前記会話制御部から出力された前記第２言語の会話用テキストデータを翻訳して前記第１言語の会話用テキストデータを得て、前記第１言語の会話用テキストデータを用いて、前記ユーザに出力される前記第１言語の音声データを生成する音声データ生成部をさらに備える、情報処理装置として機能させるための、プログラムが提供される。

以上説明した本発明によれば、ユーザにより入力された音声データに基づき、ユーザの意図に沿った会話を進めることが可能である。

本発明の実施形態に係る情報処理システムの概要を示す説明図である。本発明の実施形態に係るユーザ操作型端末１０の外観構成例を示す説明図である。ユーザ操作型端末１０の操作表示部１３６に表示される画面データのレイアウトの具体例を示す説明図である。言語選択画面の具体例を示す説明図である。本発明の実施形態において行われる会話の具体例を示す説明図である。本発明の実施形態によるユーザ操作型端末１０の機能構成を示す説明図である。本発明の実施形態に係るＷｅｂＡＰサーバ３０の機能構成例を示すブロック図である。回答候補データの具体例を示す説明図である。ＡＩ会話エンジン部３１２が用いる判断条件表の具体例を示す説明図である。誤認識データベースの更新を示す説明図である。誤認識データベースの更新を示す説明図である。口頭候補データの更新を示す説明図である。ユーザ操作型端末１０の起動動作を示すシーケンス図である。ユーザ操作型端末１０の起動動作を示すシーケンス図である。ユーザによる言語選択の流れを示すシーケンス図である。ユーザ操作型端末１０とユーザとの間で会話を実現するための流れを示すシーケンス図である。ユーザ操作型端末１０とユーザとの間で会話を実現するための流れを示すシーケンス図である。次の会話文を取得する処理の詳細な流れを示すフローチャートである。ＷｅｂＡＰサーバ３０のハードウェア構成を示したブロック図である。

以下に添付図面を参照しながら、本発明の実施の形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、本明細書および図面において、実質的に同一の機能構成または論理的意義を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。ただし、実質的に同一の機能構成または論理的意義を有する複数の構成要素の各々を特に区別する必要がない場合、複数の構成要素の各々に同一符号のみを付する。

＜１．情報処理システムの概要＞
本発明の実施形態は、ユーザに多様なサービスを提供するための情報処理システムに関する。以下では、本発明の実施形態がルート案内サービスに適用される例を説明する。なお、本発明の実施形態が適用されるサービスはルート案内サービスに限定されず、本発明の実施形態は任意のサービスに適用可能である。例えば、本発明の実施形態は、座席予約サービスに適用されてもよいし、チケット発券サービスに適用されてもよい。まず、図１を参照しながら、本発明の実施形態に係る情報処理システムの概要を説明する。

図１は、本発明の実施形態に係る情報処理システムの概要を示す説明図である。図１に示すように、ユーザ操作型端末１０は、ネットワーク１４を介してＷｅｂＡＰ（ＡＰ：Ａｐｐｌｉｃａｔｉｏｎ）サーバ３０と接続されている。

（１）ユーザ操作型端末１０
ユーザ操作型端末１０は、自立型の情報端末であり、ユーザの発話内容を音声認識機能により認識し、発話内容の認識結果に応じた次の会話文を音声で出力する。本発明の実施形態によるユーザ操作型端末１０は多言語に対応しており、ユーザは、複数種類の言語から選択した言語を用いてユーザ操作型端末１０との会話を進めることが可能である。なお、ユーザは、音声に代えて、タッチ操作またはジャスチャ操作などの他の操作によってユーザ操作型端末１０に情報を入力することも可能である。ここで、図２を参照し、本発明の実施形態によるユーザ操作型端末１０の外観構成を説明する。

図２は、本発明の実施形態に係るユーザ操作型端末１０の外観構成例を示す説明図である。なお、本発明の実施形態では、図２に示すユーザ操作型端末１０を利用する形態を例に説明するが、本発明の実施形態に利用する端末はユーザ操作型端末１０に限定されず、任意の端末が利用されてもよい。例えば、アプリケーションがインストールされたスマートフォン、タブレット端末等の携帯型端末、タッチ式サイネージ用のディスプレイ等の情報表示装置が利用されてもよい。

図２に示したように、本発明の実施形態に係るユーザ操作型端末１０は、カメラ１２０、スピーカ１２４、マイク１２８、操作表示部１３６、決済媒体部１４０およびチケット発券部１４４を備える。

カメラ１２０は、人物を撮影する機能を有する検知装置の１つである。例えば、カメラ１２０は、ユーザ操作型端末１０の前にいるユーザを撮影すると、ユーザを撮影した画像を後述するカメラＡＰ１５４へ送信する。なお、本発明の実施形態では、図２に示すように、操作表示部１３６の上に１台のカメラ１２０が設置されているが、カメラ１２０の台数、及び位置は特に限定されず、ユーザ操作型端末１０は任意の台数のカメラ１２０を任意の位置に備えてもよい。

スピーカ１２４は、音声を再生する機能を有する。例えば、スピーカ１２４は、後述するブラウザ１５８が取得した音声ファイルを再生することで、ユーザの発話内容に応じた次の会話文を音声によりユーザへ伝える。なお、本発明の実施形態では、図２に示すように、カメラ１２０の左右に１台ずつスピーカ１２４が設置されているが、スピーカ１２４の台数、及び位置は特に限定されず、ユーザ操作型端末１０は任意の台数のスピーカ１２４を任意の位置に備えてもよい。なお、ユーザ操作型端末１０は、Ｂｌｕｅｔｏｏｔｈ（登録商標）といった近距離無線通信機能を搭載してもよい。ユーザ操作型端末１０は、近距離無線通信機能を用いて、同無線通信機能を搭載したワイヤレスイヤホン等のユーザが所持する無線機器に、スピーカ１２４が再生する音声を送信してもよい。その際、ユーザは、自身の無線機器とユーザ操作型端末１０を接続するためのペアリング処理を予め行っておく。上述のように、ユーザが所持する機器が音声の取得、及び再生をすることで、例えば、ユーザは、騒音のある環境下においても次の会話文の音声を容易に認識することができる。

マイク１２８は、音声データを取得する機能を有する検知装置の１つである。例えば、マイク１２８は、ユーザが発話した音声を電気的な音声データに変換し、音声データを後述する雑音除去モジュール１６６へ出力する。また、ユーザ操作型端末１０は、複数のマイク１２８を備えることで音声の到来方向を認識することが可能である。なお、本発明の実施形態では、図２に示すように、操作表示部１３６の左右に１台ずつマイク１２８が設置されているが、マイク１２８の台数、及び位置は特に限定されず、ユーザ操作型端末１０は任意の台数のマイク１２８を任意の位置に備えてもよい。

操作表示部１３６は、ユーザとの会話文のテキストデータなどを表示する表示部としての機能を有する。また、操作表示部１３６は、ユーザが操作入力を行うための操作部としての機能を有する。例えば、表示部としての機能は、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）ディスプレイ装置、液晶ディスプレイ（ＬＣＤ）装置、ＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）装置により実現される。また、操作部としての機能は、例えばタッチパネルにより実現される。なお、図２において、ユーザ操作型端末１０は、表示部および操作部の機能を一体化した構成としているが、表示部および操作部の機能を分離した構成としてもよい。

決済媒体部１４０およびチケット発券部１４４は、ユーザ操作型端末１０がチケット発券サービスを提供する機能を有する場合に設けられる。決済媒体部１４０は、チケット発券のための決済に利用される取引媒体が授受される開口部、および取引媒体に応じた決済処理を行う機能を有する。取引媒体としては、クレジットカードまたは現金が挙げられる。例えば、取引媒体がクレジットカードである場合、決済媒体部１４０は、挿入されたクレジットカードに記録された情報を読み取る。また、取引媒体が現金である場合、決済媒体部１４０は、現金の搬送路、現金カセットおよび現金の正当性を鑑別する鑑別部などを有する。入金時に決済媒体部１４０に投入された現金は、搬送路を介して鑑別部へ搬送され、鑑別部により正常な鑑別結果が得られた場合、金種に応じた現金カセットに搬送される。また、出金時には、現金カセットから現金が繰り出され、鑑別部が繰り出された紙幣を鑑別し、正常な鑑別結果が得られた場合に決済媒体部１４０に現金が搬送される。なお、電子マネーおよび仮想通貨を取引媒体として利用可能であり、この場合、決済媒体部１４０はユーザ操作型端末１０に設けられなくてもよい。

チケット発券部１４４は、チケットを発券する機能をする。例えば、チケット発券部１４４は、ユーザが操作表示部１３６に表示されたチケットの検索結果から選択したチケットの情報を紙状媒体に印刷し、チケットの情報が印刷された紙状媒体であるチケットを排出する。

（２）ＷｅｂＡＰサーバ３０
ＷｅｂＡＰサーバ３０は、ユーザの発話内容に応じた次の会話文を決定する機能を有する情報処理装置である。ＷｅｂＡＰサーバ３０は、人工知能（ＡＩ：ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）の会話エンジン部を備えており、ＡＩ会話エンジン部がユーザの発話内容を解析することで次の会話文を決定する。例えば、ＷｅｂＡＰサーバ３０は、ネットワーク１４を介してユーザ操作型端末１０からユーザにより入力された音声データを受信し、当該音声データを認識してテキストデータを得て、当該テキストデータに応じた次の会話文をＡＩ会話エンジン部により決定し、決定した次の会話文をユーザ操作型端末１０へ送信する。

ここで、ＡＩ会話エンジン部は、ユーザ操作型端末１０が対応している多言語のうちの一部の言語に対応している。例えば、ＡＩ会話エンジン部は日本語にのみ対応する。この場合、ＷｅｂＡＰサーバ３０は、中国語の音声データを認識して得られた中国語のテキストデータを翻訳して日本語のテキストデータを得て、ＡＩ会話エンジン部は、当該日本語のテキストデータに基づき次の日本語の会話文を決定する。そして、ＷｅｂＡＰサーバ３０は、当該日本語の会話文を翻訳して中国語の会話文を得て、中国語の会話文をユーザ操作型端末１０に送信することにより、中国語の会話文がユーザ操作型端末１０から出力される。このように、翻訳処理を活用することにより、ＡＩ会話エンジン部が対応していない言語を利用するユーザもユーザ操作型端末１０を用いて会話を進めることが可能である。なお、本明細書においては、ユーザが利用する言語を第１言語と称し、ＡＩ会話エンジン部が対応している言語を第２言語と称する場合がある。また、以下では、第１言語が中国語であり、第２言語が日本語である例を主に説明する。

（３）ユーザ操作型端末１０に表示される画面データのレイアウト
続いて、ユーザ操作型端末１０に表示される画面データのレイアウトの具体例を説明し、その後、本発明の実施形態により行われる会話の具体例を説明する。

図３は、ユーザ操作型端末１０の操作表示部１３６に表示される画面データのレイアウトの具体例を示す説明図である。図３に示すように、操作表示部１３６に表示される画面データのレイアウトには、レイアウト１、レイアウト２、及びレイアウト３の３種類のレイアウトがある。なお、レイアウトの種類は３種類に限定されず、任意の数のレイアウトが用意されてもよい。

各レイアウトは、第１の表示領域、第２の表示領域、第３の表示領域、及び第４の表示領域のいずれかの組み合わせで構成されている。第１の表示領域は、ユーザの会話相手であるＡＩを示すＡＩ画像（会話相手画像）と、ＡＩは発話した会話文を表示する領域である。第２の表示領域は、ユーザを示す画像と、ユーザが発話した会話文を表示する領域である。第３の表示領域は、サービスを表示する領域である。第３の表示領域に表示されるサービスは、音声入力による選択、及び画面のタッチによる選択が可能なサービスである。第４の表示領域は、処理に関する処理情報、及びサービス情報等を表示する領域である。なお、各表示領域の詳細な構成については後述する。

レイアウト１は、第１の表示領域４０４、及び第２の表示領域４０８の組み合わせにより構成されている。レイアウト１は、ユーザとＡＩが会話を行う画面のレイアウトに用いられる。例えば、レイアウト１は、初期画面のレイアウトに用いられる。また、第３の表示領域に表示するサービスがない場合にも用いられる。

レイアウト２は、第１の表示領域５０４、及び第２の表示領域５０８、及び第３の表示領域５１２の組み合わせにより構成されている。レイアウト２は、サービスを表示する画面のレイアウトに用いられる。例えば、レイアウト２は、ユーザの発話に基づき、ＡＩが検索したサービスを表示する画面のレイアウトに用いられる。

レイアウト３は、第１の表示領域６０４、及び第４の表示領域６０８の組み合わせにより構成されている。レイアウト３は、ユーザとの会話が生じない画面のレイアウトに用いられる。例えば、レイアウト３は、決済処理中、またはチケット発券処理中等の画面のレイアウトに用いられる。

なお、第１の表示領域は各レイアウトで用いられているが、レイアウト１で用いられる場合と、レイアウト２、及びレイアウト３で用いられる場合で、第１の表示領域を表示する大きさが異なる。例えば、第１の表示領域は、レイアウト２、及びレイアウト３で用いられる場合、レイアウト１で用いられる場合よりも小さく表示される。その際に、操作表示部１３６は、第１の表示領域に表示されるＡＩ画像も小さく表示する。

また、図３には、第１の表示領域４０４および第２の表示領域４０８の吹出し内に日本語の会話文が示されている。ＷｅｂＡＰサーバ３０のＡＩ会話エンジン部が日本語に対応しており、ユーザが日本語を利用する場合には、図３に示したように第１の表示領域４０４および第２の表示領域４０８の吹出し内に日本語の会話文が示される。一方、ユーザが英語または中国語などの他言語を利用する場合には、第１の表示領域４０４および第２の表示領域４０８の吹出し内に、他言語の会話文および日本語の会話文が併記されてもよい。このとき、他言語の会話文の文字サイズは日本語の文字サイズよりも大きいことが望ましい。

（４）会話の具体例
本発明の実施形態においては、まず、ユーザ操作型端末１０が言語選択画面を表示し、ユーザが言語選択画面において言語を選択する。図４は、言語選択画面の具体例を示す説明図である。図４に示したように、言語選択画面においては、第１の表示領域４０４に言語の選択を誘導する会話文を示す吹出し４１２が配置され、第２の表示領域４０８に言語を選択するための言語選択ボタンを含む言語選択表示４２０が配置される。ここで、ユーザが中国語を選択した場合に行われる会話の具体例を説明する。

図５は、本発明の実施形態において行われる会話の具体例を示す説明図である。まず、ユーザ操作型端末１０は、ユーザにより中国語が選択されたので、ユーザへの質問を含む会話文を中国語で発話する（Ｃ１）。当該質問に対する回答として、ユーザが「目的地を検索する。」という意味の会話文を中国語で発話する（Ｃ２）。続いて、ユーザ操作型端末１０は、「目的地から検索ですね。どちらまで行かれますか？」という質問を中国語で発話する（Ｃ３）。当該質問に対する回答として、ユーザは、「我想去天空樹」と発話する（Ｃ４）。ここで、「天空樹」はスカイツリーを意味するが、末尾の「樹」が認識されず、ユーザの発話が「私はスカイラインに行きたいです。」という意味に認識された。

しかし、目的地を問う質問に対する回答候補データとして「スカイライン」は登録されていないので、ユーザ操作型端末１０は、ユーザに繰り返しの発話を依頼する会話文を発話する（Ｃ５）。ユーザによる繰り返しの発話でも、末尾の「樹」が認識されず、ユーザの発話が「私はスカイラインに行きたいです。」という意味に認識されると（Ｃ６）、ユーザ操作型端末１０は再度ユーザに繰り返しの発話を依頼する会話文を発話する（Ｃ７）。そして、ユーザが「我想去天空樹」と発話し、末尾の「樹」が認識され、ユーザの発話が「私はスカイツリーに行きたいです。」という意味に認識されると（Ｃ８）、ユーザ操作型端末１０はスカイツリーまでのルートを案内する会話文を中国語で発話する（Ｃ９）。

（５）背景
上記のように、ユーザにより入力された音声データがユーザの意図通りに認識されるまでユーザが発話を繰り返すことは、ユーザにとって手間である。本発明の実施形態は、音声データがユーザの意図通りに認識されなくても、ユーザの意図に沿った会話を進めることを可能とする仕組みを提供する。当該仕組みによれば、ユーザが発話した「我想去天空樹」の末尾の「樹」が認識されなかった場合でも、ユーザ操作型端末１０がスカイツリーまでのルートを案内する会話文を発話することを可能となる。以下、このような本発明の実施形態によるユーザ操作型端末１０およびＷｅｂＡＰサーバ３０の構成および動作を順次詳細に説明する。

＜２．ユーザ操作型端末の構成例＞
図６は、本発明の実施形態によるユーザ操作型端末１０の機能構成を示す説明図である。図６に示したように、本発明の実施形態に係るユーザ操作型端末１０は、カメラ１２０、スピーカ１２４、マイク１２８、通信部１３２、操作表示部１３６、決済媒体部１４０、チケット発券部１４４、制御部１５０を備える。カメラ１２０、スピーカ１２４、マイク１２８、操作表示部１３６、決済媒体部１４０およびチケット発券部１４４の機能は図２を参照して説明した通りであるので、ここでの詳細な説明を省略する。

通信部１３２は、ネットワーク１４を介して、ＷｅｂＡＰサーバ３０と各種情報を通信する機能を有する。例えば、通信部１３２は、ネットワーク１４を介して、操作表示部１３６を介して取得されたユーザの操作情報、およびユーザにより入力された音声データをＷｅｂＡＰサーバ３０へ送信する。また、通信部１３２は、ネットワーク１４を介して、次の会話文を示すテキストデータおよび音声ファイルをＷｅｂＡＰサーバ３０から受信する。

制御部１５０は、ユーザ操作型端末１０の動作全般を制御する機能を有する。例えば、制御部１５０は、カメラ１２０、スピーカ１２４、マイク１２８、通信部１３２、操作表示部１３６、決済媒体部１４０、チケット発券部１４４の制御を行う機能を有する。

また、制御部１５０は、検知装置がユーザを検知すると、ユーザの音声、及びユーザの画面操作により入力された画面操作情報の両方を受け付け可能な状態で、ユーザ操作型端末１０を待機させる機能を有する。ユーザ操作型端末１０が音声、及び画面操作情報の両方を受け付け可能な状態であることにより、ユーザは、音声入力による操作、及び画面操作のどちらでもユーザ操作型端末１０を操作することが可能である。

さらに、本発明の実施形態に係る制御部１５０は、カメラＡＰ１５４、ブラウザ１５８、ＷｅｂＳｏｃｋｅｔサーバ１６２、雑音除去モジュール１６６、音声認識ＡＰ１７０を備える。

（カメラＡＰ１５４）
カメラＡＰ１５４は、人物検知に関する処理を制御する。例えば、カメラＡＰ１５４は、カメラ１２０がユーザを撮影した画像をカメラ１２０から取得すると、取得した画像を解析し、ユーザを検知したか否かを判定する。ユーザを検知したと判定した場合、カメラＡＰ１５４は、ユーザを検知した旨をブラウザ１５８、及び音声認識ＡＰ１７０へ通知する。

（ブラウザ１５８）
ブラウザ１５８は、画面データを取得し、取得した画面データを操作表示部１３６に表示させる。例えば、ブラウザ１５８は、カメラ１２０がユーザを検知すると、初期画面のＷｅｂページＵＲＬをＷｅｂＡＰサーバ３０から取得し、操作表示部１３６に初期画面を表示する。また、ブラウザ１５８は、音声認識ＡＰ１７０からユーザが入力した音声データのテキストデータを取得すると、取得したテキストデータを操作表示部１３６に表示する。また、ブラウザ１５８は、次の会話文を示すテキストデータを業務ＷｅｂＡＰサーバ３０４から取得すると、次の会話文を示すテキストデータを操作表示部１３６に表示する。

また、ブラウザ１５８は、音声認識に関する通知をする機能を有する。例えば、ブラウザ１５８は、操作表示部１３６に初期画面を表示した後、ユーザからの音声受信待ち状態である旨を、ＷｅｂＳｏｃｋｅｔサーバを介して音声認識ＡＰ１７０へ通知する。また、ブラウザ１５８は、音声認識に関する指示を行う機能も有する。例えば、ブラウザ１５８は、音声認識機能をＯＮまたはＯＦＦにすることを音声認識ＡＰ１７０に指示する。

（ＷｅｂＳｏｃｋｅｔサーバ１６２）
ＷｅｂＳｏｃｋｅｔサーバ１６２は、端末内のＡＰ間での情報の授受を仲介するサーバとしての機能を有する。例えば、ＷｅｂＳｏｃｋｅｔサーバ１６２は、ブラウザ１５８と音声認識ＡＰ１７０の間での情報の授受を仲介する。

（雑音除去モジュール１６６）
雑音除去モジュール１６６は、音声データから雑音を除去する機能を有する。例えば、雑音除去モジュール１６６は、マイク１２８より取得したユーザの音声データから雑音を除去する。雑音除去処理後、雑音除去モジュール１６６は、音声データを音声認識ＡＰ１７０へ出力する。

（音声認識ＡＰ１７０）
音声認識ＡＰ１７０は、ＷｅｂＡＰサーバ３０からユーザの音声データに対応するテキストデータを取得する機能を有する。例えば、音声認識ＡＰは、雑音除去モジュール１６６から音声データを受信すると、受信した音声データをＷｅｂＡＰサーバ３０へ送信する。その後、音声認識ＡＰ１７０は、ＷｅｂＡＰサーバ３０から音声データの認識結果であるテキストデータを受信すると、ＷｅｂＳｏｃｋｅｔサーバ１６２を介してブラウザ１５８へ受信したテキストデータを送信する。

また、音声認識ＡＰ１７０は、音声認識機能のＯＮ／ＯＦＦを切り替える機能も有する。例えば、音声認識ＡＰ１７０は、ブラウザ１５８から音声認識機能をＯＮにする旨の指示を受けた場合、音声認識機能をＯＮにする。また、例えば、音声認識ＡＰ１７０は、ブラウザ１５８から音声認識機能をＯＦＦにする旨の指示を受けた場合、音声認識機能をＯＦＦにする。

＜３．ＷｅｂＡＰサーバの構成例＞
以上、本発明の実施形態によるユーザ操作型端末１０の構成を説明した。続いて、図７を参照し、本発明の実施形態によるＷｅｂＡＰサーバ３０の構成を説明する。

図７は、本発明の実施形態に係るＷｅｂＡＰサーバ３０の機能構成例を示すブロック図である。図７に示したように、本発明の実施形態に係るＷｅｂＡＰサーバ３０は、通信部３０２、業務ＷｅｂＡＰサーバ３０４、多言語音声処理部３０８、ＡＩ会話エンジン部３１２、記憶部３１６、発話音声エンジン部３２０を備える。

（１）通信部３０２
通信部３０２は、ネットワーク１４を介して、ユーザ操作型端末１０と各種情報を通信する機能を有する。例えば、通信部３０２は、ネットワーク１４を介して、ユーザの音声データをユーザ操作型端末１０から受信する。また、通信部３０２は、ネットワーク１４を介して、ＷｅｂＡＰサーバ３０が決定した次の会話文をユーザ操作型端末１０へ送信する。

（２）業務ＷｅｂＡＰサーバ３０４
業務ＷｅｂＡＰサーバ３０４は、ユーザ操作型端末１０から要求を受信すると、要求に対する応答を返す機能を有する。例えば、業務ＷｅｂＡＰサーバ３０４は、ユーザ操作型端末１０のブラウザ１５８からＷｅｂページＵＲＬの要求を受信した場合、要求に対応するＷｅｂページＵＲＬをブラウザ１５８へ送信する。

また業務ＷｅｂＡＰサーバ３０４は、ユーザ操作型端末１０からの要求を受け、ＷｅｂＡＰサーバ３０のＡＩ会話エンジン部３１２、及び発話音声エンジン部３２０から要求に対する応答を取得し、ユーザ操作型端末１０へ返す機能も有する。例えば、業務ＷｅｂＡＰサーバ３０４は、ブラウザ１５８からテキストデータを受信した場合、テキストデータをＡＩ会話エンジン部３１２へ送信し、テキストデータに対する次の会話文をＡＩ会話エンジン部３１２から取得する。さらに、業務ＷｅｂＡＰサーバ３０４は、次の会話文を発話音声エンジン部３２０へ送信し、次の会話文の音声ファイルを発話音声エンジン部３２０から取得し、取得した音声ファイルをブラウザ１５８へ送信する。この時、業務ＷｅｂＡＰサーバ３０４は、応答として返せる画面データがある場合、その画面データＵＲＬもブラウザ１５８へ送信する。

（３）多言語音声処理部３０８
多言語音声処理部３０８は、音声データをテキストデータに変換する音声認識部の機能、およびテキストデータを翻訳する翻訳部の機能を有する。例えば、多言語音声処理部３０８は、ユーザ操作型端末１０の音声認識ＡＰ１７０からユーザの中国語の音声データを受信すると、中国語の音声データを認識して中国語のテキストデータを得て、中国語のテキストデータを翻訳して日本語のテキストデータを得る。そして、多言語音声処理部３０８は、日本語のテキストデータをユーザ操作型端末１０の音声認識ＡＰ１７０へ送信する。

また、多言語音声処理部３０８は、業務ＷｅｂＡＰサーバ３０４から日本語の次の会話文のテキストデータを受信すると、日本語の次の会話文のテキストデータを翻訳して中国語の次の会話文のテキストデータを得る。

（４）ＡＩ会話エンジン部３１２、記憶部３１６
記憶部３１６は、ＷｅｂＡＰサーバ３０の動作に用いられる多様なデータを記憶する。例えば、記憶部３１６は、図７に示したように、会話データベース、回答候補データベース、および誤認識データベースを記憶する。会話データベースは、複数の会話データを格納し、各会話データにおいては、単語と、次の会話文（会話用テキストデータ）が関連付けられている。

回答候補データベースは、複数の回答候補データを格納し、各回答候補データには、質問、回答カテゴリ、回答候補文字列、標準形の文字列、および異表記の文字列が関連付けられる。ここで、図８を参照し、回答候補データの具体例を説明する。

図８は、回答候補データの具体例を示す説明図である。図８には、「どちらまで行かれますか？」という質問、および「観光所」というカテゴリに関連付けられている、５つの回答候補データが示されている。当該５つの回答候補データの各々の回答候補文字列は、「東京タワー」、「スカイツリー」、「河童橋」、「浅草」および「お台場」である。５つの回答候補データの各々には、各回答候補文字列の標準形の文字列として、「東京タワー」、「スカイツリー」、「河童橋」、「浅草」および「お台場」が関連付けられている。図８に示した例では、５つの回答候補データの各々に、各回答候補文字列の異表記の文字列は関連付けられていない。

誤認識データベースは、ユーザへの質問に対する回答として得られた日本語のテキストデータ（以下、回答テキストデータとも称する。）の誤認識に関するデータを格納する。当該誤認識データベースについては図１０および図１１などを参照して後述する。

ＡＩ会話エンジン部３１２は、回答テキストデータを解析し、ユーザの発話に対する応答となる次の会話文を取得する会話制御部の機能を有する。例えば、ＡＩ会話エンジン部３１２は、業務ＷｅｂＡＰサーバ３０４から回答テキストデータを受信すると、当該回答テキストデータを解析し、次の会話文を記憶部３１６から取得し、取得した会話文を業務ＷｅｂＡＰサーバ３０４へ送信する。より具体的には、ＡＩ会話エンジン部３１２は、記憶部３１６の回答候補データベースに事前に格納されている複数の回答候補データのうちで、業務ＷｅｂＡＰサーバ３０４から受信された回答テキストデータに含まれる単語に該当する回答候補データがあるか否かを判定する。そして、ＡＩ会話エンジン部３１２は、回答候補データがある場合には、記憶部３１６の会話データベースにおいて当該単語に関連付けられている次の会話文を取得し、当該次の会話文を業務ＷｅｂＡＰサーバ３０４へ送信する。

さらに、本発明の実施形態によるＡＩ会話エンジン部３１２は、記憶部３１６に記憶される誤認識データベースへの誤認識データの登録、更新などを経て、回答候補データベースに異表記の文字列を登録する機能を有する。具体的には、ＡＩ会話エンジン部３１２は、図９に示す判断条件表に従い、処理を実行する。

図９は、ＡＩ会話エンジン部３１２が用いる判断条件表の具体例を示す説明図である。図９に示したように、判断条件表は、ＡＩ会話エンジン部３１２が処理１～処理４のいずれを行うかを判断するために用いられる。判断条件表の列方向に関し、今回得られた回答テキストデータが同じ質問に対する１度目の発話での回答テキストデータであるか否か、および回答テキストデータに含まれる単語に該当する回答候補データがあるか否か、などにより、該当する列が特定される。また、判断条件表の行方向に関し、回答テキストデータに含まれる単語が誤認識データベースに登録されているか否か、回答テキストデータに含まれる単語の標準形の文字列が誤認識データベースに登録されているか否か、および誤認識回数の閾値越えが発生したか否か、などにより該当する行が特定される。

例えば、今回得られた回答テキストデータが同じ質問に対する１度目または２度目以降の発話での回答テキストデータであり、回答テキストデータに含まれる単語に該当する回答候補データがなく、回答テキストデータに含まれる単語が誤認識データベースに登録されていない場合、ＡＩ会話エンジン部３１２は処理２を実行する。処理２は、回答テキストデータに含まれる単語を誤認識データとして誤認識データベースに新規登録する処理である。

今回得られた回答テキストデータが同じ質問に対する１度目または２度目以降の発話での回答テキストデータであり、回答テキストデータに含まれる単語に該当する回答候補データがなく、回答テキストデータに含まれる単語が誤認識データベースに登録されている場合、ＡＩ会話エンジン部３１２は処理３を実行する。処理３は、誤認識データベースに誤認識データとして登録されている単語の誤認識回数をカウントアップする処理である。

今回得られた回答テキストデータが同じ質問に対する２度目以降の発話での回答テキストデータであり、回答テキストデータに含まれる単語に該当する回答候補データがあり、直近の回答テキストデータに含まれる単語が誤認識データベースに登録されているが当該単語の標準形は登録されていない場合、ＡＩ会話エンジン部３１２は処理１を実行する。処理１は、直近の回答テキストデータに含まれた単語の標準系の文字列として、今回の回答テキストデータに含まれる単語を誤認識データベースに登録する処理である。

今回得られた回答テキストデータが同じ質問に対する１度目または２度目以降の発話での回答テキストデータであり、回答テキストデータに含まれる単語に該当する回答候補データがなく、回答テキストデータに含まれる単語が誤認識データベースに登録されており、当該単語の標準形の文字列も誤認識データベースに登録されており、誤認識回数の閾値超えが発生する場合、ＡＩ会話エンジン部３１２は処理４を実行する。処理４は、誤認識データベースに誤認識データとして登録されている単語の誤認識回数をカウントアップし、かつ、誤認識データベースにおいて当該単語に関連付けられている標準形の文字列を有する回答候補データの異表記の文字列として当該単語を回答候補データベースに登録する予約を行う処理である。

－処理の具体例－
以下、図１０～図１２を参照し、上述した処理１～処理４の具体例を説明する。

まず、図４を参照して説明したように、Ｃ３の質問に対する１度目の発話（Ｃ４）において、「私はスカイラインに行きたいです。」という回答テキストデータが得られた場合を考える。この場合、Ｃ３の質問および回答カテゴリに関連付けられた複数の回答候補データのいずれにも「スカイライン」が該当しないので、誤認識データベースに「スカイライン」が登録されていない場合、ＡＩ会話エンジン部３１２は、処理２として、図１０の上段に示したように誤認識データベースに「スカイライン」に関する誤認識データを新規登録する。

その後、Ｃ３の質問と同じ質問（Ｃ５）に対する２度目の発話（Ｃ６）においても、「私はスカイラインに行きたいです。」という回答テキストデータが得られた場合を考える。この場合、Ｃ５の質問および回答カテゴリに関連付けられた複数の回答候補データのいずれにも「スカイライン」が該当せず、誤認識データベースに同じ回答カテゴリで「スカイライン」が登録されているので、ＡＩ会話エンジン部３１２は、処理２として、図１０の中段に示したように「スカイライン」の誤認識回数を「１」から「２」にカウントアップする。

さらに、Ｃ３の質問と同じ質問（Ｃ７）に対する３度目の発話（Ｃ８）において、「私はスカイツリーに行きたいです。」という回答テキストデータが得られた場合を考える。この場合、Ｃ７の質問および回答カテゴリに関連付けられた回答候補データ「スカイツリー」が回答テキストデータに含まれる「スカイツリー」に該当し、直近の回答テキストデータに含まれる「スカイライン」が誤認識データベースに登録されているが当該単語の標準形は登録されていないので、ＡＩ会話エンジン部３１２は、処理１として、図１０の下段に示したように「スカイライン」の回答候補文字列および標準形に「スカイツリー」を登録する。

その後、他のユーザによるユーザ操作型端末１０の利用により、誤認識データベースの「スカイライン」の誤認識回数のカウントアップが進み、誤認識回数が誤認識閾値と同一である「１０」の状態で「私はスカイラインに行きたいです。」という回答テキストデータが得られた場合を考える。この場合、ＡＩ会話エンジン部３１２は、処理４として、図１１の上段に示したように「スカイライン」の誤認識回数を「１０」から「１１」にカウントアップしつつ、「スカイライン」の標準形の文字列として登録されている「スカイツリー」の異表記の文字列として「スカイライン」を回答候補データベースに登録する予約を行う。図１１の上段においては、登録フラグ「１」が「スカイライン」の登録の予約が行われたことを示している。

その後、「スカイツリー」の異表記の文字列として「スカイライン」を回答候補データベースに登録されると、図１１の下段に示したように、登録フラグが登録完了を示す「２」に設定される。図１２は、「スカイツリー」の異表記の文字列として「スカイライン」を回答候補データベースに登録された状態を示す。

図１２に示したように、「スカイツリー」の異表記の文字列として「スカイライン」を回答候補データベースに登録された後に、「私はスカイラインに行きたいです。」という回答テキストデータが得られた場合を考える。この場合、ＡＩ会話エンジン部３１２は、回答テキストデータに含まれる「スカイライン」が「スカイツリー」の誤りであることを、「スカイライン」が「スカイツリー」の異表記の文字列として登録されていることから理解し、「私はスカイツリーに行きたいです。」という回答テキストデータに対応する次の会話文を会話データベースから取得する。

（５）発話音声エンジン部３２０
発話音声エンジン部３２０は、発話音声を生成する音声データ生成部である。例えば、発話音声エンジン部３２０は、業務ＷｅｂＡＰサーバ３０４から中国語の次の会話文のテキストデータを受信すると、次の会話文を解析し、中国語の次の会話文の音声ファイルを生成し、生成した音声ファイルを業務ＷｅｂＡＰサーバ３０４へ送信する。

＜４．動作例＞
以下では、本発明の実施形態に係るユーザ操作型端末１０、及びＷｅｂＡＰサーバ３０の動作例について説明する。まず、ユーザ操作型端末１０の起動動作について説明する。

（１）起動動作
図１３および図１４は、ユーザ操作型端末１０の起動動作を示すシーケンス図である。まず、図１３に示すように、操作表示部１３６へ起動操作が行われると、操作表示部１３６が起動通知を音声認識ＡＰ１７０へ送信する（ステップＳ１０００）。音声認識ＡＰ１７０は、起動通知に受信に基づき、ＷｅｂＳｏｃｋｅｔサーバ１６２に接続し、ユーザからの音声入力を受け付け可能な状態で待機する（ステップＳ１００４）。また、ブラウザ１５８は、ＷｅｂＡＰサーバ３０からＷｅｂページＵＲＬを取得し、Ｗｅｂページを初期画面として表示する（ステップＳ１００８）。当該初期画面は、図４を参照して説明した言語選択画面であってもよい。

ここで、図１４を参照しながらステップＳ１００８の詳細を説明する。図１４に示すように、ユーザ操作型端末１０のブラウザ１５８は、ＷｅｂＡＰサーバ３０の業務ＷｅｂＡＰサーバ３０４にＷｅｂページＵＲＬを要求する（ステップＳ１０１０）。要求を受信した業務ＷｅｂＡＰサーバ３０４は、ＷｅｂページＵＲＬをブラウザ１５８へ送信する（ステップＳ１０１２）。ＷｅｂページＵＲＬを受信したブラウザ１５８は、ＷｅｂページＵＲＬにアクセスし、Ｗｅｂページを初期画面として表示する（ステップＳ１０１４）。

初期画面表示後、図１３に示すように、ブラウザ１５８は、ＷｅｂＳｏｃｋｅｔサーバ１６２に接続し、ユーザからの画面操作入力を受け付け可能な状態で待機する（ステップＳ１０１８）。また、ブラウザ１５８は、音声受信待ち状態である旨を音声認識ＡＰ１７０へＷｅｂＳｏｃｋｅｔサーバ１６２を介して通知する（ステップＳ１０２２、ステップＳ１０２６）。通知を受けた音声認識ＡＰ１７０は、音声受信待ち状態である旨をＷｅｂＡＰサーバ３０へ通知する（ステップＳ１０３０）。

ここで、図１４を参照しながらステップＳ１０３０の詳細を説明する。図１４に示すように、ユーザ操作型端末１０のブラウザ１５８は、ＷｅｂＡＰサーバ３０の多言語音声処理部３０８に音声認識を開始する旨を通知する（ステップＳ１０３２）。通知を受けた多言語音声処理部３０８は、音声データを受け付け可能な状態で待機する。

なお、上記では起動動作が操作表示部１３６へ起動操作に基づいて行われる例を説明したが、カメラＡＰがユーザ操作型端末１０の前にユーザを検知したことに基づいて起動動作が行われてもよい。

（２）言語選択
続いて、図１５を参照し、ユーザによる言語選択の流れを説明する。図１５は、ユーザによる言語選択の流れを示すシーケンス図である。まず、初期画面（言語選択画面）においてユーザが言語を選択すると（ステップＳ１０４０）、ユーザにより選択された言語を示す翻訳言語ＩＤをブラウザ１５８が音声認識ＡＰ１７０およびＷｅｂＡＰサーバ３０に送信する（ステップＳ１０４４、Ｓ１０４８）。

その後、ブラウザ１５８は、ＷｅｂＡＰサーバ３０から翻訳言語ＩＤが示す言語で表現された次の会話文のテキストデータ、および音声ファイルＵＲＬを受信し（ステップＳ１０５２）、次の会話文のテキストデータの表示、および音声出力を制御する（ステップＳ１０５６）。Ｓ１０４０において中国語が選択された場合、Ｓ１０５６においては、図５に示したＣ１の会話文が中国語で表示および音声出力（発話）される。

（３）会話
続いて、図１６および図１７を参照し、ユーザ操作型端末１０とユーザとの間で会話を実現するための流れを説明する。図１６および図１７は、ユーザ操作型端末１０とユーザとの間で会話を実現するための流れを示すシーケンス図である。

まず、図１６に示すように、ユーザ操作型端末１０のマイク１２８は、ユーザへの質問に対する回答としてユーザの中国語の音声データを取得すると（ステップＳ１１００）、取得した中国語の音声データを雑音除去モジュール１６６へ出力する（ステップＳ１１０４）。中国語の音声データを取得した雑音除去モジュール１６６は、中国語の音声データから雑音を除去する処理を行い（ステップＳ１１０６）、雑音を除去した中国語の音声データを音声認識ＡＰ１７０へ出力する（ステップＳ１１０８）。中国語の音声データを取得した音声認識ＡＰ１７０は、中国語の音声データをＷｅｂＡＰサーバ３０へ送信し、ＷｅｂＡＰサーバ３０から中国語の音声データを表現する中国語のテキストデータ（中国語の回答テキストデータ）および日本語の回答テキストデータを受信する（ステップＳ１１１２）。

ここで、図１７を参照しながらステップＳ１１１２の詳細を説明する。図１７に示すように、ユーザ操作型端末１０の音声認識ＡＰ１７０は、ＷｅｂＡＰサーバ３０の多言語音声処理部３０８に中国語の音声データおよび翻訳言語ＩＤを送信する（ステップＳ１１１４）。中国語の音声データおよび翻訳言語ＩＤを受信した多言語音声処理部３０８は、中国語の音声データを変換して中国語の回答テキストデータを得る処理、および中国語の回答テキストデータを翻訳して日本語の回答テキストデータを得る処理を行い（ステップＳ１１１６）、中国語の回答テキストデータおよび日本語の回答テキストデータを音声認識ＡＰ１７０へ送信する（ステップＳ１１１８）。

音声認識ＡＰ１７０は、中国語の回答テキストデータおよび日本語の回答テキストデータを受信した後、図１６に示すように、中国語の回答テキストデータをブラウザ１５８へＷｅｂＳｏｃｋｅｔサーバ１６２を介して送信する（ステップＳ１１２２、ステップＳ１１２６）。中国語の回答テキストデータを受信したブラウザ１５８は、中国語の回答テキストデータを操作表示部１３６に表示させる（ステップＳ１１３０）。さらに、ブラウザ１５８は、ＷｅｂＡＰサーバ３０から中国語の次の会話文のテキストデータと音声ファイルを受信し、中国語の次の会話文のテキストデータの表示、および中国語の次の会話文の音声出力を制御する（ステップＳ１１３４）。

ここで、図１７を参照しながらステップＳ１１３４の詳細を説明する。図１７に示すように、ユーザ操作型端末１０のブラウザ１５８は、ＷｅｂＡＰサーバ３０の業務ＷｅｂＡＰサーバ３０４に日本語の回答テキストデータを送信する（ステップＳ１１３６）。業務ＷｅｂＡＰサーバ３０４は、次の会話文を取得するため、日本語の回答テキストデータをＡＩ会話エンジン部３１２へ送信する（ステップＳ１１３８）。ＡＩ会話エンジン部３１２は、日本語の回答テキストデータに対する応答となる次の日本語の会話文を記憶部３１６の会話データベースから取得し（ステップＳ１１３９）、業務ＷｅｂＡＰサーバ３０４へ次の日本語の会話文を送信する（ステップＳ１１４０）。

業務ＷｅｂＡＰサーバ３０４は、次の日本語の会話文を多言語音声処理部３０８に送信し（ステップＳ１１４１）、多言語音声処理部３０８は、次の日本語の会話文を翻訳して、次の中国語の会話文を得る（ステップＳ１１４２）。そして、多言語音声処理部３０８は、次の中国語の会話文を業務ＷｅｂＡＰサーバ３０４に送信する（ステップＳ１１４３）。

次の中国語の会話文を受信した業務ＷｅｂＡＰサーバ３０４は、次の中国語の会話文の音声ファイルを発話音声エンジン部３２０に要求する（ステップＳ１１４４）。発話音声エンジン部３２０は、次の中国語の会話文の音声ファイルを業務ＷｅｂＡＰサーバ３０４へ送信する（ステップＳ１１４６）。業務ＷｅｂＡＰサーバ３０４は、次の中国語の会話文の音声ファイルと、次の中国語の会話文のテキストデータをブラウザ１５８へ送信する（ステップＳ１１４８）。ここで、業務ＷｅｂＡＰサーバ３０４は、使用すべきレイアウトを示す情報もブラウザ１５８へ送信する。

ブラウザ１５８は、次の中国語の会話文のテキストデータの表示を指定されたレイアウトに従って制御する（ステップＳ１１５０）。さらに、ブラウザ１５８は、次の中国語の会話文の音声ファイルを再生し、応答の内容を音声でユーザへ伝える（ステップＳ１１５２）。

（４）次の会話文を取得する処理（ステップＳ１１３９）の詳細
ここで、図１８を参照し、上述した次の会話文を取得する処理の詳細を説明する。

図１８は、次の会話文を取得する処理の詳細な流れを示すフローチャートである。まず、ＡＩ会話エンジン部３１２は、日本語の回答テキストデータにいずれかの回答候補データに該当する単語が含まれるか否かを判断する（ステップＳ１２０４）。日本語の回答テキストデータにいずれかの回答候補データに該当する単語が含まれる場合（ステップＳ１２０４／Ｙｅｓ）、今回の回答テキストデータを得るに至った質問のやり取りは１度目であるか否かを判断する（ステップＳ１２０８）。やり取りが１度目である場合（ステップＳ１２０８／Ｙｅｓ）、ＡＩ会話エンジン部３１２は、回答テキストデータに含まれる単語に応じた次の会話文を記憶部３１６の会話データベースから取得する（ステップＳ１２１２）。

一方、日本語の回答テキストデータに含まれる単語がいずれの回答候補データにも該当しない場合（ステップＳ１２０４／Ｎｏ）、および、やり取りが２度目以降である場合（ステップＳ１２０８／Ｎｏ）、ＡＩ会話エンジン部３１２は、図９を参照して説明した判断条件表に従って、処理１～処理４のいずれかの処理を実行する（ステップＳ１２１６）。ここで実行された処理が処理１である場合（ステップＳ１２２０／Ｙｅｓ）、ＡＩ会話エンジン部３１２は、回答テキストデータに含まれる単語に応じた次の会話文を記憶部３１６の会話データベースから取得する（ステップＳ１２１２）。一方、実行された処理が処理２～処理４のいずれかの処理である場合（ステップＳ１２２０／Ｎｏ）、ＡＩ会話エンジン部３１２は、次の会話文として、「申し訳御座いません。もう一度お話ください。」のように、繰り返しの発話を依頼する会話文を取得する（ステップＳ１２４０）。

＜５．作用効果＞
以上説明した本発明の実施形態によれば、１の回答候補データが標準形の文字列および異表記の文字列を有し得るので、回答テキストデータに標準形の文字列を含まれなくても、回答テキストデータに異表記の文字列が含まれれば、回答テキストデータに含まれる異表記の文字列を標準形の文字列に置き変えて会話を進めることが可能である。

ここで、回答候補データへの異表記の文字列の登録は、実際の質問と回答のやり取りにおいて、ユーザが標準形の文字列を意図したと考えられるが標準形の文字列として認識されなかった単語の実績に基づいて行われる。従って、回答テキストデータに含まれる異表記の文字列を標準形の文字列に置き変えることで、ユーザの意図に沿った会話を進めることが可能である。

＜６．ハードウェア構成＞
以上、本発明の実施形態を説明した。上述したテキストデータの翻訳および誤認識データベースの管理などの情報処理は、ソフトウェアと、以下に説明するＷｅｂＡＰサーバ３０のハードウェアとの協働により実現される。

図１９は、ＷｅｂＡＰサーバ３０のハードウェア構成を示したブロック図である。ＷｅｂＡＰサーバ３０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２０２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２０３と、ホストバス２０４と、を備える。また、ＷｅｂＡＰサーバ３０は、ブリッジ２０５と、外部バス２０６と、インタフェース２０７と、入力装置２０８と、表示装置２０９と、音声出力装置２１０と、ストレージ装置（ＨＤＤ）２１１と、ドライブ２１２と、ネットワークインタフェース２１５とを備える。

ＣＰＵ２０１は、演算処理装置および制御装置として機能し、各種プログラムに従ってＷｅｂＡＰサーバ３０内の動作全般を制御する。また、ＣＰＵ２０１は、マイクロプロセッサであってもよい。ＲＯＭ２０２は、ＣＰＵ２０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ２０３は、ＣＰＵ２０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはＣＰＵバスなどから構成されるホストバス２０４により相互に接続されている。これらＣＰＵ２０１、ＲＯＭ２０２およびＲＡＭ２０３とソフトウェアとの協働により、上述した業務ＷｅｂＡＰサーバ３０４、多言語音声処理部３０８、ＡＩ会話エンジン部３１２および発話音声エンジン部３２０などの機能が実現され得る。

ホストバス２０４は、ブリッジ２０５を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス２０６に接続されている。なお、必ずしもホストバス２０４、ブリッジ２０５および外部バス２０６を分離構成する必要はなく、１つのバスにこれらの機能を実装してもよい。

入力装置２０８は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、センサー、スイッチおよびレバーなどユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、ＣＰＵ２０１に出力する入力制御回路などから構成されている。ＷｅｂＡＰサーバ３０のユーザは、該入力装置２０８を操作することにより、ＷｅｂＡＰサーバ３０に対して各種のデータを入力したり処理動作を指示したりすることができる。

表示装置２０９は、例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）ディスプレイ装置、液晶ディスプレイ（ＬＣＤ）装置、プロジェクター装置、ＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）装置およびランプなどの表示装置を含む。また、音声出力装置２１０は、スピーカおよびヘッドホンなどの音声出力装置を含む。

ストレージ装置２１１は、本実施形態にかかるＷｅｂＡＰサーバ３０の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置２１１は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。ストレージ装置２１１は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）またはＳＳＤ（ＳｏｌｉｄＳｔｒａｇｅＤｒｉｖｅ）、あるいは同等の機能を有するメモリ等で構成される。このストレージ装置２１１は、ストレージを駆動し、ＣＰＵ２０１が実行するプログラムや各種データを格納する。

ドライブ２１２は、記憶媒体用リーダライタであり、ＷｅｂＡＰサーバ３０に内蔵、あるいは外付けされる。ドライブ２１２は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体２４に記録されている情報を読み出して、ＲＡＭ２０３またはストレージ装置２１１に出力する。また、ドライブ２１２は、リムーバブル記憶媒体２４に情報を書き込むこともできる。

ネットワークインタフェース２１５は、例えば、ネットワーク１４に接続するための通信デバイス等で構成された通信インタフェースである。また、ネットワークインタフェース２１５は、無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）対応通信装置であっても、有線による通信を行うワイヤー通信装置であってもよい。

＜７．むすび＞
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

例えば、情報処理システムの処理における各ステップは、必ずしもシーケンス図またはフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、情報処理システムの処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。

また、ユーザ操作型端末１０およびＷｅｂＡＰサーバ３０に内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアに、上述したユーザ操作型端末１０およびＷｅｂＡＰサーバ３０の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。

１０ユーザ操作型端末
３０ＷｅｂＡＰサーバ
１２０カメラ
１２４スピーカ
１２８マイク
１３２通信部
１３６操作表示部
１４０決済媒体部
１４４チケット発券部
１５０制御部
１５４カメラＡＰ
１５８ブラウザ
１６２ＷｅｂＳｏｃｋｅｔサーバ
１６６雑音除去モジュール
１７０音声認識ＡＰ
３０２通信部
３０４業務ＷｅｂＡＰサーバ
３０８多言語音声処理部
３１２ＡＩ会話エンジン部
３１６記憶部
３２０発話音声エンジン部

Claims

ユーザへの質問に対する回答として前記ユーザにより入力された第１言語の音声データを認識して前記第１言語のテキストデータを得る音声認識部と、
前記第１言語のテキストデータを翻訳して第２言語のテキストデータを得る翻訳部と、
回答候補データベースに事前に格納されている複数の回答候補データのうちで、前記第２言語のテキストデータに該当する回答候補データがあるか否かを判定し、前記第２言語のテキストデータに該当する回答候補データがある場合には、当該回答候補データに応じた前記第２言語の会話用テキストデータを出力する会話制御部と、
を備え、
前記複数の回答候補データは、異なる２以上のテキストデータを有する回答候補データを含み、
前記会話制御部は、
前記第２言語のテキストデータに該当する回答候補データがないと判定された場合、前記第２言語のテキストデータに含まれるデータを誤認識データとして誤認識データベースに格納し、
繰り返される前記ユーザへの前記質問に対する回答により得られた前記第２言語の新たなテキストデータに該当する回答候補データがあるか否かを判定し、
前記第２言語の新たなテキストデータに該当する回答候補データがある場合には、当該回答候補データを前記誤認識データベースにおいて前記誤認識データに関連付け、
前記誤認識データを含む前記第２言語のテキストデータが得られた履歴に関して所定の閾値条件が満たされた場合に、前記誤認識データを、当該誤認識データに前記誤認識データベースにおいて関連付けられている回答候補データのテキストデータとして、前記回答候補データベースに登録し、
前記翻訳部は、前記会話制御部から出力された前記第２言語の会話用テキストデータを翻訳して前記第１言語の会話用テキストデータを得て、
前記第１言語の会話用テキストデータを用いて、前記ユーザに出力される前記第１言語の音声データを生成する音声データ生成部をさらに備える、情報処理装置。
ユーザへの質問に対する回答として前記ユーザにより入力された第１言語の音声データを認識して前記第１言語のテキストデータを得る音声認識部と、
前記第１言語のテキストデータを翻訳して第２言語のテキストデータを得る翻訳部と、
回答候補データベースに事前に格納されている複数の回答候補データのうちで、前記第２言語のテキストデータに該当する回答候補データがあるか否かを判定し、前記第２言語のテキストデータに該当する回答候補データがある場合には、当該回答候補データに応じた前記第２言語の会話用テキストデータを出力する会話制御部と、
を備え、
前記複数の回答候補データは、異なる２以上のテキストデータを有する回答候補データを含み、
前記会話制御部は、
前記第２言語のテキストデータに該当する回答候補データがないと判定された場合、前記第２言語のテキストデータに含まれるデータを誤認識データとして誤認識データベースに格納し、
繰り返される前記ユーザへの前記質問に対する回答により得られた前記第２言語の新たなテキストデータに該当する回答候補データがあるか否かを判定し、
前記第２言語の新たなテキストデータに該当する回答候補データがある場合には、当該回答候補データを前記誤認識データベースにおいて前記誤認識データに関連付け、
前記誤認識データを含む前記第２言語のテキストデータが得られる度にカウント値を更新し、
前記カウント値が所定値に達したことに基づき、前記誤認識データを、当該誤認識データに前記誤認識データベースにおいて関連付けられている回答候補データのテキストデータとして、前記回答候補データベースに登録する、情報処理装置。
前記会話制御部は、異なるユーザへの質問への回答により前記誤認識データを含む前記第２言語のテキストデータが得られる度に前記カウント値を更新する、請求項２に記載の情報処理装置。
ユーザへの質問に対する回答として前記ユーザにより入力された第１言語の音声データを認識して前記第１言語のテキストデータを得る音声認識部と、
前記第１言語のテキストデータを翻訳して第２言語のテキストデータを得る翻訳部と、
回答候補データベースに事前に格納されている複数の回答候補データのうちで、前記第２言語のテキストデータに該当する回答候補データがあるか否かを判定し、前記第２言語のテキストデータに該当する回答候補データがある場合には、当該回答候補データに応じた前記第２言語の会話用テキストデータを出力する会話制御部と、
を備え、
前記複数の回答候補データは、異なる２以上のテキストデータを有する回答候補データを含み、
前記会話制御部は、
前記第２言語のテキストデータに該当する回答候補データがないと判定された場合、前記第２言語のテキストデータに含まれるデータを誤認識データとして誤認識データベースに格納し、
繰り返される前記ユーザへの前記質問に対する回答により得られた前記第２言語の新たなテキストデータに該当する回答候補データがあるか否かを判定し、
前記第２言語の新たなテキストデータに該当する回答候補データがある場合には、当該回答候補データを前記誤認識データベースにおいて前記誤認識データに関連付け、
前記誤認識データを含む前記第２言語のテキストデータが得られた履歴に関して所定の閾値条件が満たされた場合に、前記誤認識データを、当該誤認識データに前記誤認識データベースにおいて関連付けられている回答候補データのテキストデータとして、前記回答候補データベースに登録し、
前記翻訳部は、前記会話制御部から出力された前記第２言語の会話用テキストデータを翻訳して前記第１言語の会話用テキストデータを得て、
前記第１言語の会話用テキストデータを用いて、前記ユーザに出力される前記第１言語の音声データを生成する音声データ生成部をさらに備える、情報処理システム。
コンピュータが、
ユーザへの質問に対する回答として前記ユーザにより入力された第１言語の音声データを認識して前記第１言語のテキストデータを得ることと、
前記第１言語のテキストデータを翻訳して第２言語のテキストデータを得ることと、
回答候補データベースに事前に格納されている複数の回答候補データのうちで、前記第２言語のテキストデータに該当する回答候補データがあるか否かを判定し、前記第２言語のテキストデータに該当する回答候補データがある場合には、当該回答候補データに応じた前記第２言語の会話用テキストデータを出力することと、
を含み、
前記複数の回答候補データは、異なる２以上のテキストデータを有する回答候補データを含み、
前記第２言語の会話用テキストデータを出力することは、
前記第２言語のテキストデータに該当する回答候補データがないと判定された場合、前記第２言語のテキストデータに含まれるデータを誤認識データとして誤認識データベースに格納し、
繰り返される前記ユーザへの前記質問に対する回答により得られた前記第２言語の新たなテキストデータに該当する回答候補データがあるか否かを判定し、
前記第２言語の新たなテキストデータに該当する回答候補データがある場合には、当該回答候補データを前記誤認識データベースにおいて前記誤認識データに関連付け、
前記誤認識データを含む前記第２言語のテキストデータが得られた履歴に関して所定の閾値条件が満たされた場合に、前記誤認識データを、当該誤認識データに前記誤認識データベースにおいて関連付けられている回答候補データのテキストデータとして、前記回答候補データベースに登録することを含み、
コンピュータが、
前記第２言語の会話用テキストデータを翻訳して前記第１言語の会話用テキストデータを得ることと、
前記第１言語の会話用テキストデータを用いて、前記ユーザに出力される前記第１言語の音声データを生成することと、
をさらに含む、情報処理方法。
コンピュータを、
ユーザへの質問に対する回答として前記ユーザにより入力された第１言語の音声データを認識して前記第１言語のテキストデータを得る音声認識部と、
前記第１言語のテキストデータを翻訳して第２言語のテキストデータを得る翻訳部と、
回答候補データベースに事前に記憶されている複数の回答候補データのうちで、前記第２言語のテキストデータに該当する回答候補データがあるか否かを判定し、前記第２言語のテキストデータに該当する回答候補データがある場合には、当該回答候補データに応じた前記第２言語の会話用テキストデータを出力する会話制御部と、
を備え、
前記複数の回答候補データは、異なる２以上のテキストデータを有する回答候補データを含み、
前記会話制御部は、
前記第２言語のテキストデータに該当する回答候補データがないと判定された場合、前記第２言語のテキストデータに含まれるデータを誤認識データとして誤認識データベースに格納し、
繰り返される前記ユーザへの前記質問に対する回答により得られた前記第２言語の新たなテキストデータに該当する回答候補データがあるか否かを判定し、
前記第２言語の新たなテキストデータに該当する回答候補データがある場合には、当該回答候補データを前記誤認識データベースにおいて前記誤認識データに関連付け、
前記誤認識データを含む前記第２言語のテキストデータが得られた履歴に関して所定の閾値条件が満たされた場合に、前記誤認識データを、当該誤認識データに前記誤認識データベースにおいて関連付けられている回答候補データのテキストデータとして、前記回答候補データベースに登録し、
前記翻訳部は、前記会話制御部から出力された前記第２言語の会話用テキストデータを翻訳して前記第１言語の会話用テキストデータを得て、
前記第１言語の会話用テキストデータを用いて、前記ユーザに出力される前記第１言語の音声データを生成する音声データ生成部をさらに備える、情報処理装置として機能させるための、プログラム。