JP2017126042A

JP2017126042A - コミュニケーション支援システム、コミュニケーション支援方法、およびプログラム

Info

Publication number: JP2017126042A
Application number: JP2016006633A
Authority: JP
Inventors: 浩章奥本; Hiroaki Okumoto; 本山　雅; Masa Motoyama; 雅本山; 慶子蛭川; Keiko Hirukawa; 佳成澤田; Yoshinari Sawada
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2016-01-15
Filing date: 2016-01-15
Publication date: 2017-07-20
Anticipated expiration: 2036-01-15
Also published as: JP6697270B2

Abstract

【課題】異なる言語を使用するユーザ同士のコミュニケーションを円滑にする。【解決手段】サービス利用者の利用者音声内容を複数の言語として認識する認識処理を行い、複数の言語の各々として認識された認識内容を示す利用者認識内容から、表示対象の利用者認識内容を選択する選択処理を行い、表示対象の利用者認識内容を表示部（４６）の第１の領域（４６ａ）に表示するコミュニケーション支援システム（１）。【選択図】図１

Description

本発明は異なる言語を使用するユーザ同士のコミュニケーションを支援するコミュニケーション支援システム、コミュニケーション支援方法、および当該コミュニケーション支援システムとしてコンピュータを機能させるためのプログラムに関する。

経済や文化のグローバル化に伴い、ある言語を使用するユーザが発した発話内容を、当該ある言語とは異なる言語に翻訳するための技術が開発されている。

例えば、特許文献１には、２以上の各音声認識装置から受信した音声認識スコアを用いて最も確からしい音声認識結果を選択し、２以上の各翻訳装置から受信した、選択した音声認識結果の翻訳スコアを用いて最も確からしい翻訳結果を選択する制御装置が記載されている。当該制御装置では、２以上の各音声合成装置から受信した音声合成スコアを用いて音声合成結果を選択し、選択した音声合成結果を音声出力する第二端末装置に送信する。

また、特許文献２には、入力された自然言語の音声の信号を分析し、分析された音声を、複数言語の自然言語用音響モデルと自然言語用言語モデルの自然言語用発音辞書を用いてそれぞれ並列に探索する言語自動識別装置が記載されている。当該言語自動識別装置は、探索された結果の尤度を比較して、入力された自然言語の言語を識別する。

特開２０１１−９０１００号公報（２０１１年５月６日公開）特開２００４−３４７７３２号公報（２００４年１２月９日公開）

しかしながら、上述のような従来技術では、ユーザが発話した内容を、ユーザが使用している言語とは異なる言語による発話であると装置が認識してしまった場合、ユーザの発話した内容を正しく翻訳することができない。そのため、ある言語を使用するユーザと、当該ある言語とは異なる言語を使用するユーザとが、円滑にコミュニケーションを取ることができなくなるという問題がある。

本発明は、前記の問題点に鑑みてなされたものであり、その目的は、異なる言語を使用するユーザ同士のコミュニケーションを円滑にする技術を提供することである。

上記の課題を解決するために、本発明の一態様に係るコミュニケーション支援システムは、第１のユーザ向けの第１の領域および第２のユーザ向けの第２の領域を有する表示部と、音声入力部と、制御部と、を備えるコミュニケーション支援システムであって、上記制御部は、上記音声入力部を介して第１のユーザの音声を示す第１の音声情報を取得し、上記第１の音声情報が示す第１の音声内容を複数の言語の各々として認識する認識処理を行い、上記複数の言語の各々として認識された認識内容を示す第１の認識内容から、表示対象の第１の認識内容を選択する選択処理を行い、上記表示対象の第１の認識内容を、上記表示部の第１の領域に表示する。

また、上記の課題を解決するために、本発明の一態様に係るコミュニケーション支援方法は、第１のユーザの音声を示す第１の音声情報を取得する取得ステップと、上記第１の音声情報が示す第１の音声内容を複数の言語の各々として認識する認識ステップと、上記複数の言語の各々として認識された認識内容を示す第１の認識内容から、表示対象の第１の認識内容を選択する選択ステップと、上記表示対象の第１の認識内容を、第１のユーザ向けの第１の領域に表示する表示ステップと、を含む。

また、上記の課題を解決するために、本発明の一態様に係るプログラムは、第１のユーザ向けの第１の領域および第２のユーザ向けの第２の領域を有する表示部と、音声入力部と、制御部と、を備えるコミュニケーション支援システムとしてコンピュータを機能させるためのプログラムであって、上記制御部に、上記音声入力部を介して第１のユーザの音声を示す第１の音声情報を取得する取得処理、上記第１の音声情報が示す第１の音声内容を複数の言語の各々として認識する認識処理、上記複数の言語の各々として認識された認識内容を示す第１の認識内容から、表示対象の第１の認識内容を選択する選択処理、上記表示対象の第１の認識内容を、上記表示部の第１の領域に表示する表示処理、を実行させる。

本発明の一態様によれば、異なる言語を使用するユーザ同士のコミュニケーションを円滑にすることができる。

本発明の実施形態１におけるコミュニケーション支援システムの要部構成を示すブロック図である。本発明の実施形態１におけるコミュニケーション支援システムを模式的に示す図である。本発明の実施形態１におけるコミュニケーション支援システムにおいて、サービス提供者から発話があった場合の処理の流れの一例を示すシーケンス図である。本発明の実施形態１において表示部に表示される画像の一例を示す図である。本発明の実施形態１におけるコミュニケーション支援システムにおいて、サービス提供者から発話があった場合の処理の流れの他の例を示すシーケンス図である。本発明の実施形態１におけるコミュニケーション支援システムにおいて、サービス利用者から発話があった場合の処理の流れを示すシーケンス図である。本発明の実施形態１において表示部に表示される画像の他の例を示す図である。本発明の実施形態１において表示部に表示される画像のさらに他の例を示す図である。本発明の実施形態２における端末記憶部に格納されるデータベースの例である。本発明の実施形態２におけるクライアント端末の処理の流れを示すフローチャートである。本発明の実施形態２において表示部に表示される画像の一例を示す図である。本発明の実施形態３において表示部に表示される画像の一例を示す図である。本発明の実施形態４において表示部に表示される画像の一例を示す図である。本発明の実施形態５において表示部に表示される画像の一例を示す図である。本発明の実施形態６における端末記憶部に格納されるデータベースの例である。本発明の実施形態６におけるクライアント端末の処理の流れを示すフローチャートである。本発明の実施形態６において表示部に表示される画像の一例を示す図である。本発明の実施形態７におけるクライアント端末の処理の流れを示すフローチャートである。本発明の実施形態７において表示部に表示される画像の一例を示す図である。本発明の実施形態８において表示部に表示される画像の一例を示す図である。認識サーバ、翻訳サーバ、支援サーバ、およびクライアント端末として利用可能なコンピュータのハードウェア構成を例示したブロック図である。

以下、本発明の実施の形態について、詳細に説明する。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

〔実施形態１〕
（コミュニケーション支援システム１）
図２は、本発明の実施形態１におけるコミュニケーション支援システム１を模式的に示す図である。コミュニケーション支援システム１は、図２に示すように、認識サーバ１０、翻訳サーバ２０、支援サーバ３０、およびクライアント端末４０によって構成されている。本明細書では、クライアント端末４０および支援サーバ３０はローカルに設置されており、認識サーバ１０および翻訳サーバ２０はネットワーク２上に設置されている場合（支援サーバ３０がネットワーク２を介して認識サーバ１０、および翻訳サーバ２０と通信可能な構成）について説明するが、支援サーバ３０、認識サーバ１０、および翻訳サーバ２０が設置される場所については特に限定されない。

コミュニケーション支援システム１では、コミュニケーション支援システム１を用いてコミュニケーションを図る複数のユーザ（第１のユーザおよび第２のユーザ）が発した音声に応じて、（１）当該音声の内容を所定の言語として認識された認識内容、および（２）当該認識内容を所定の言語に翻訳した翻訳内容、の少なくとも何れかがクライアント端末４０の表示部４６に表示される。このように、コミュニケーション支援システム１は、異なる言語を使用する第１のユーザおよび第２のユーザがコミュニケーションを図ることを支援するシステムである。

本明細書では、第１のユーザがサービス利用者（例えば、コンビニエンスストアを利用する客）、第２のユーザがサービス提供者（例えば、当該コンビニエンスストアの店員）である場合を例に挙げて説明するが、これに限定されない。例えば、第１のユーザがサービス提供者であり、第２のユーザがサービス利用者であってもよい。また、第２のユーザの他の例として、コンビニエンスストアに設置されている装置であって、客が操作することにより商材の情報の表示や商材の注文などを行う装置も挙げられる。

コミュニケーション支援システム１を構成する各装置の構成について、図１を参照して説明する。図１は、本発明の実施形態１におけるコミュニケーション支援システム１の要部構成を示すブロック図である。

（認識サーバ１０）
認識サーバ１０は、図１に示すように、認識サーバ通信部１２および認識サーバ制御部１４を含んでいる。

認識サーバ通信部１２は、外部の装置と通信するための通信インターフェースである。

認識サーバ制御部１４は、認識サーバ１０の各構成を統括的に制御する演算装置である。より具体的には、認識サーバ制御部１４は、認識サーバ通信部１２を介して、（１）サービス提供者が発した音声を示すサービス提供者音声情報、または（２）サービス利用者が発した音声を示すサービス利用者音声情報、を取得する。

そして、認識サーバ制御部１４は、取得した音声情報が示す音声内容を、予め設定された複数の言語として認識する認識処理を行う。なお、以下では、「Ａ音声情報が示すＡ音声内容を認識する」を、「Ａ音声情報を認識する」と記載する場合もある。認識サーバ制御部１４は、認識する言語を指定されることによって、予め設定された複数の言語のうち指定された言語として音声内容を認識する構成であってもよいし、取得した音声情報に応じて認識する言語を変更する構成であってもよい。

例えば、認識サーバ制御部１４は、取得した音声情報を英語で認識するよう指定されると、取得した音声情報が示す音声内容を英語で認識する認識処理を行う。また、認識サーバ制御部１４は、サービス提供者音声情報を取得した場合は日本語で認識するよう設定されている場合、サービス提供者音声情報を取得すると、当該サービス提供者音声情報が示す音声内容を日本語で認識する認識処理を行う。

なお、本明細書では、認識サーバ制御部１４は、サービス提供者音声情報を取得した場合、サービス提供者音声情報が示す音声内容を、予め設定されたサービス提供者が使用する言語として認識する認識処理を行う。また、認識サーバ制御部１４は、サービス利用者音声情報を取得した場合、予め設定された複数の言語のうち、指定された言語にて認識する認識処理を行う。

そして、認識サーバ制御部１４は、認識した内容を示す認識内容（サービス提供者音声情報が示す音声内容を認識した認識内容を示す提供者認識内容、または、サービス利用者音声情報が示す音声内容を認識した認識内容を示す利用者認識内容）と、当該認識処理の確からしさを示す認識確度とを含む認識結果を、認識サーバ通信部１２を介して出力する。なお、「音声情報が示す音声内容Ａを言語Ｂとして認識する」とは、Ａを言語Ｂであるとして解釈するという意味が含まれる。

（翻訳サーバ２０）
翻訳サーバ２０は、図１に示すように、翻訳サーバ通信部２２および翻訳サーバ制御部２４を含んでいる。

翻訳サーバ通信部２２は、外部の装置と通信するための通信インターフェースである。

翻訳サーバ制御部２４は、翻訳サーバ２０の各構成を統括的に制御する演算装置である。より具体的には、翻訳サーバ制御部２４は、翻訳サーバ通信部２２を介して、提供者認識内容、または利用者認識内容を取得する。

そして、翻訳サーバ制御部２４は、取得した認識内容を、予め設定された複数の言語に翻訳する翻訳処理を行う。翻訳サーバ制御部２４は、翻訳する言語を指定されることによって、予め設定された複数の言語のうち指定された言語として翻訳する構成であってもよいし、取得した認識内容に応じて翻訳する言語を変更する構成であってもよい。

例えば、翻訳サーバ制御部２４は、取得した認識内容を英語に翻訳するよう指定されると、取得した認識内容を英語で翻訳する翻訳処理を行う。また、翻訳サーバ制御部２４は、利用者認識内容を取得した場合は日本語に翻訳するよう設定されている場合、利用者認識内容を取得すると、当該利用者認識内容を日本語で翻訳する翻訳処理を行う。

なお、本明細書では、翻訳サーバ制御部２４は、提供者認識内容を取得した場合、予め設定された複数の言語のうち、指定された言語に翻訳する翻訳処理を行う。また、翻訳サーバ制御部２４は、利用者認識内容を取得した場合、予め設定されたサービス提供者が使用する言語に翻訳する。

そして、翻訳サーバ制御部２４は、翻訳した内容を示す翻訳内容を、翻訳サーバ通信部２２を介して出力する。

（支援サーバ３０）
支援サーバ３０は、図１に示すように、支援サーバ通信部３２および支援サーバ制御部３４を含んでいる。

支援サーバ通信部３２は、外部の装置と通信するための通信インターフェースである。

支援サーバ制御部３４は、支援サーバ３０の各構成を統括的に制御する演算装置である。支援サーバ制御部３４の詳細について、以下に説明する。

（支援サーバ制御部３４）
支援サーバ制御部３４は、図１に示すように、情報管理部３４２、選択部３４４、表示態様決定部３４６、および表示情報出力部３４８としても機能する。なお、各部の詳細な処理は、参照する図面を替えて後述する。

情報管理部３４２は、支援サーバ通信部３２を介して取得した情報を管理する。

選択部３４４は、取得した認識内容から、表示対象の認識内容を選択する選択処理を行う。

表示態様決定部３４６は、クライアント端末４０に認識内容または翻訳内容を表示させる表示態様を決定する。

表示情報出力部３４８は、クライアント端末４０に認識内容または翻訳内容を表示させるための情報である表示情報を、支援サーバ通信部３２を介して出力する。

（クライアント端末４０）
クライアント端末４０は、図１に示すように、クライアント端末通信部４２、クライアント端末制御部４４、表示部４６、音声入力部４８、操作部（操作子）５０、および端末記憶部５２を含んでいる。

クライアント端末通信部４２は、外部の装置と通信するための通信インターフェースである。

表示部４６は、取得した画像信号が示す画像を表示する表示デバイスである。また、表示部４６は、サービス利用者向けの第１の領域およびサービス提供者向けの第２の領域を有している。

音声入力部４８は、クライアント端末４０の周辺の音声を取得し、取得した音声を示す音声情報を出力する。

操作部５０は、ユーザの操作を受け付け、受け付けた操作を示す操作信号を出力するデバイスである。

端末記憶部５２は、データベースなどが格納されている記憶装置である。

クライアント端末制御部４４は、クライアント端末４０の各構成を統括的に制御する演算装置である。クライアント端末制御部４４の詳細について、以下に説明する。

（クライアント端末制御部４４）
クライアント端末制御部４４は、図１に示すように、音声情報取得部４４２、音声認識部４４４、操作信号取得部４４６、表示情報取得部４４８、および表示制御部４５０としても機能する。なお、各部の詳細な処理は、参照する図面を替えて後述する。

音声情報取得部４４２は、音声入力部４８を介して、音声情報を取得する。

音声認識部４４４は、上述した認識サーバ制御部１４と同様の処理を実行する。

操作信号取得部４４６は、操作部５０を介して、操作信号を取得する。

表示情報取得部４４８は、クライアント端末通信部４２を介して、表示情報を取得する。

表示制御部４５０は、表示部４６に表示させる画像を示す画像信号を出力する。

（サービス提供者から発話があった場合１）
コミュニケーション支援システム１において、サービス提供者から発話があった場合の処理について、図３を用いて説明する。図３は、本発明の実施形態１におけるコミュニケーション支援システム１において、サービス提供者から発話があった場合の処理の流れの一例を示すシーケンス図である。以下の説明では、特に記載がない限り、サービス提供者が使用する言語は日本語であり、提供者認識内容を翻訳する言語は、英語、中国語、および韓国語である場合を例に挙げ、説明する。また、図３を用いた説明では、認識処理を認識サーバ１０において実行する場合について説明する。

（ステップＳ２）
クライアント端末４０の音声情報取得部４４２は、音声入力部４８を介してサービス提供者が発した音声を示す提供者音声情報を取得する。具体的には、音声情報取得部４４２は、音声入力部４８を介して、サービス提供者が発した「何かお探しですか？」を示す提供者音声情報を取得する。

なお、クライアント端末４０が、取得した音声情報は提供者が発した音声を示す音声情報であるか否かを判定する方法の例として、サービス利用者側に取り付けられたサービス利用者側音声入力部４８ａと、サービス提供者側に取り付けられたサービス提供者側音声入力部４８ｂとを備え、サービス提供者側音声入力部４８ｂを介して取得した音声情報を、提供者音声情報と判定する構成が挙げられる。

（ステップＳ４）
音声情報取得部４４２は、クライアント端末通信部４２を介して支援サーバ３０に提供者音声情報を出力する。

（ステップＳ６）
支援サーバ３０の情報管理部３４２は、支援サーバ通信部３２を介して提供者音声情報を取得する。

（ステップＳ８）
情報管理部３４２は、提供者音声情報を取得すると、当該提供者音声情報が示す提供者音声内容を認識した認識結果を取得するため、支援サーバ通信部３２を介して、当該提供者音声情報を認識サーバ１０に出力する。

（ステップＳ１０）
認識サーバ１０の認識サーバ制御部１４は、認識サーバ通信部１２を介して、提供者音声情報を取得する。

（ステップＳ１２）
認識サーバ制御部１４は、取得した提供者音声情報が示す音声内容を、サービス提供者が使用する言語として認識する。具体的には、認識サーバ制御部１４は、「何かお探しですか？」を示す提供者音声情報が示す提供者音声内容を、日本語として認識する。

（ステップＳ１４）
認識サーバ制御部１４は、認識した内容を示す提供者認識内容と、ステップＳ１２における認識処理の確からしさを示す認識確度とを含む認識結果を、認識サーバ通信部１２を介して支援サーバ３０に出力する。具体的には、認識サーバ制御部１４は、「何かお探しですか？」を日本語として認識したため、認識確度は高く、提供者認識内容も「何かお探しですか？」になる。

（ステップＳ１６）
支援サーバ３０の情報管理部３４２は、支援サーバ通信部３２を介して認識結果を取得する。情報管理部３４２は、取得した認識結果を表示態様決定部３４６に出力する。

（ステップＳ１８）
また、情報管理部３４２は、取得した認識結果に含まれる提供者認識内容を翻訳するため、提供者認識内容を、予め設定されている複数の言語である英語、中国語、および韓国語にそれぞれ翻訳する指示と共に、当該提供者認識内容を翻訳サーバ２０に出力する。

（ステップＳ２０）
翻訳サーバ２０の翻訳サーバ制御部２４は、翻訳サーバ通信部２２を介して、提供者認識内容を取得する。

（ステップＳ２２）
翻訳サーバ制御部２４は、取得した提供者認識内容を、支援サーバ３０によって指定された英語、中国語、および韓国語に翻訳する。具体的には、翻訳サーバ制御部２４は、「何かお探しですか？」を英語、中国語、および韓国語に翻訳する。

（ステップＳ２４）
翻訳サーバ制御部２４は、翻訳処理において翻訳した提供者翻訳内容を、翻訳サーバ通信部２２を介して支援サーバ３０に出力する。

（ステップＳ２６）
支援サーバ３０の情報管理部３４２は、支援サーバ通信部３２を介して提供者翻訳内容を取得する。情報管理部３４２は、取得した提供者翻訳内容を、表示態様決定部３４６に出力する。

（ステップＳ２８）
表示態様決定部３４６は、提供者翻訳内容を取得すると、クライアント端末４０の表示部４６に表示する表示態様を決定する。具体的には、表示態様決定部３４６は、ステップＳ１６において取得した認識結果に含まれる提供者認識内容をサービス提供者向けの第２の領域に表示させ、提供者翻訳内容をサービス利用者向けの第１の領域に表示させるように、表示態様を決定する。そして、表示態様決定部３４６は、決定した表示態様、提供者認識内容、および提供者翻訳内容を含む表示情報を、表示情報出力部３４８に出力する。

（ステップＳ３０）
表示情報出力部３４８は、取得した表示情報を、支援サーバ通信部３２を介してクライアント端末４０に出力する。

（ステップＳ３２）
クライアント端末４０の表示情報取得部４４８は、クライアント端末通信部４２を介して表示情報を取得する。表示情報取得部４４８は、取得した表示情報を表示制御部４５０に出力する。

（ステップＳ３４）
表示制御部４５０は、表示情報を取得すると、表示情報に含まれる情報を参照し、表示部４６に画像を表示させる。具体的には、表示制御部４５０は、表示情報に含まれる表示態様を参照し、表示情報に含まれる提供者認識内容をサービス提供者向けの第２の領域に表示させ、表示情報に含まれる提供者翻訳内容をサービス利用者向けの第１の領域に表示させる。このとき、表示部４６に表示される画像の例を、図４に示す。図４は、本発明の実施形態１において表示部４６に表示される画像の一例を示す図であり、（ａ）は、第１の領域４６ａに表示される画像であり、（ｂ）は、第２の領域４６ｂに表示される画像である。

図４の（ａ）に示すように、第１の領域４６ａに表示される画像には、提供者認識内容を、（１）英語に翻訳した翻訳内容を含むテキスト６００、（２）中国語に翻訳した翻訳内容を含むテキスト６０２、および（３）韓国語に翻訳した翻訳内容を含むテキスト６０４が含まれている。また、第１の領域４６ａに表示される画像には、コミュニケーション支援システムにおいて英語、中国語、および韓国語以外の他の言語にも翻訳した場合、当該他の言語の翻訳内容を表示させるための操作を受け付けるボタン６０６が含まれていてもよい。

また、図４の（ｂ）に示すように、第２の領域４６ｂに表示される画像には、提供者認識内容を含むテキスト７００が含まれている。

（サービス提供者から発話があった場合２）
続いて、コミュニケーション支援システム１において、サービス提供者から発話があった場合の別の処理について、図５を用いて説明する。図５は、本発明の実施形態１におけるコミュニケーション支援システム１において、サービス提供者から発話があった場合の処理の流れの他の例を示すシーケンス図である。図５を用いた説明では、認識処理をクライアント端末４０において実行する場合について説明する。

（ステップＳ２）
クライアント端末４０の音声情報取得部４４２は、音声入力部４８を介してサービス提供者が発した音声を示す提供者音声情報を取得する。音声情報取得部４４２は、取得した提供者音声情報を、音声認識部４４４に出力する。

（ステップＳ４０）
音声認識部４４４は、取得した提供者音声情報が示す音声内容を、サービス提供者が使用する言語として認識する。

（ステップＳ４２）
音声認識部４４４は、認識した内容を示す提供者認識内容と、ステップＳ４０における認識処理の確からしさを示す認識確度とを含む認識結果を、クライアント端末通信部４２を介して支援サーバ３０に出力する。

（ステップＳ４４）
支援サーバ３０の情報管理部３４２は、支援サーバ通信部３２を介して認識結果を取得する。情報管理部３４２は、取得した認識結果を表示態様決定部３４６に出力する。

（ステップＳ１８〜ステップＳ３４）
上述した処理と同じ処理であるため、説明を省略する。

このように、音声情報に含まれる音声内容を認識する認識処理は、クライアント端末４０において実行されてもよいし、認識サーバ１０において実行されてもよい。認識処理がクライアント端末４０において実行される場合、クライアント端末４０、支援サーバ３０、および認識サーバ１０との間における通信量を減少させることができるという効果がある。一方、認識処理が認識サーバ１０において実行される場合、クライアント端末４０の負荷を減少させることができるという効果がある。また、クライアント端末４０においてまず認識処理を実行し、認識確度が所定の値より低い場合、認識サーバ１０に認識処理を実行させる構成であってもよい。そのため、特に記載がない限り、認識処理を行う装置については、限定されない。

（サービス利用者から発話があった場合）
コミュニケーション支援システム１において、サービス利用者から発話があった場合の処理（コミュニケーション支援方法）について、図６を用いて説明する。図６は、本発明の実施形態１におけるコミュニケーション支援システム１において、サービス利用者から発話があった場合の処理の流れを示すシーケンス図である。以下の説明では、特に記載がない限り、利用者認識内容は、英語、中国語、および韓国語として認識され、利用者認識内容を翻訳する言語は、日本語である場合を例に挙げ、説明する。

（ステップＳ５２：取得ステップ）
クライアント端末４０の音声情報取得部４４２は、音声入力部４８を介してサービス利用者が発した音声を示す利用者音声情報を取得する取得処理を行う。具体的には、音声情報取得部４４２は、音声入力部４８を介して、上述したサービス提供者の「何かお探しですか？」に対してサービス利用者が発した

を示す利用者音声情報を取得する。

（ステップＳ５４）
音声情報取得部４４２は、クライアント端末通信部４２を介して支援サーバ３０に利用者音声情報を出力する。

（ステップＳ５６）
支援サーバ３０の情報管理部３４２は、支援サーバ通信部３２を介して利用者音声情報を取得する。

（ステップＳ５８）
情報管理部３４２は、利用者音声情報を取得すると、当該利用者音声情報が示す利用者音声内容を認識した認識結果を取得するため、支援サーバ通信部３２を介して、当該利用者音声情報を認識サーバ１０に出力する。

（ステップＳ６０）
認識サーバ１０の認識サーバ制御部１４は、認識サーバ通信部１２を介して、利用者音声情報を取得する。

（ステップＳ６２：認識ステップ）
認識サーバ制御部１４は、取得した利用者音声情報が示す音声内容を、英語、中国語、および韓国語として認識する。具体的には、認識サーバ制御部１４は、「ウォシャンヤオコーヒー」という発音を、英語、中国語、および韓国語として認識する。

（ステップＳ６４）
認識サーバ制御部１４は、認識した内容を示す利用者認識内容と、ステップＳ６２における認識処理の確からしさを示す認識確度とを含む認識結果を、認識サーバ通信部１２を介して支援サーバ３０に出力する。具体的には、認識サーバ制御部１４は、「ウォシャンヤオコーヒー」を中国語として認識した認識結果は、認識確度は高く、利用者認識内容も

になる。一方、認識サーバ制御部１４は、「ウォシャンヤオコーヒー」を英語として認識した結果は、認識確度が低く、利用者認識内容も「What are y'all coffee」になる。

（ステップＳ６６）
支援サーバ３０の情報管理部３４２は、支援サーバ通信部３２を介して認識結果を取得する。情報管理部３４２は、取得した認識結果を選択部３４４に出力する。

（ステップＳ６８：選択ステップ）
選択部３４４は、認識結果を参照し、表示対象の利用者認識内容を選択する。具体的には、選択部３４４は、認識結果に含まれている認識確度を参照し、認識確度が所定の閾値より高い認識確度で認識された利用者認識内容を選択する。より具体的には、「ウォシャンヤオコーヒー」を英語および中国語として認識した認識確度が所定の閾値より高く、韓国語として認識した認識確度が所定の閾値以下の場合、選択部３４４は、英語および中国語としてそれぞれ認識された利用者認識内容を選択する。そして、選択部３４４は、選択した利用者認識内容を、情報管理部３４２に出力する。また、選択部３４４は、選択した利用者認識内容を含む認識結果を、表示態様決定部３４６に出力する。

（ステップＳ７０）
情報管理部３４２は、取得した利用者認識内容を翻訳するため、当該利用者認識内容を翻訳サーバ２０に出力する。

（ステップＳ７２）
翻訳サーバ２０の翻訳サーバ制御部２４は、翻訳サーバ通信部２２を介して、利用者認識内容を取得する。

（ステップＳ７４）
翻訳サーバ制御部２４は、取得した利用者認識内容を、予め設定された日本語に翻訳する。具体的には、翻訳サーバ制御部２４は、中国語の

および英語の「What are y'all coffee」を、日本語に翻訳する。

（ステップＳ７６）
翻訳サーバ制御部２４は、翻訳処理において翻訳した利用者翻訳内容を、翻訳サーバ通信部２２を介して支援サーバ３０に出力する。

（ステップＳ７８）
支援サーバ３０の情報管理部３４２は、支援サーバ通信部３２を介して利用者翻訳内容を取得する。情報管理部３４２は、取得した利用者翻訳内容を、表示態様決定部３４６に出力する。

（ステップＳ８０）
表示態様決定部３４６は、利用者翻訳内容を取得すると、クライアント端末４０の表示部４６に表示する表示態様を決定する。具体的には、表示態様決定部３４６は、ステップＳ６８において取得した認識結果に含まれる利用者認識内容をサービス利用者向けの第１の領域に表示させ、利用者翻訳内容をサービス提供者向けの第２の領域に表示させるように、表示態様を決定する。そして、表示態様決定部３４６は、決定した表示態様、利用者認識内容、および利用者翻訳内容を含む表示情報を、表示情報出力部３４８に出力する。

（ステップＳ８２）
表示情報出力部３４８は、取得した表示情報を、支援サーバ通信部３２を介してクライアント端末４０に出力する。

（ステップＳ８４）
クライアント端末４０の表示情報取得部４４８は、クライアント端末通信部４２を介して表示情報を取得する。表示情報取得部４４８は、取得した表示情報を表示制御部４５０に出力する。

（ステップＳ８６：表示ステップ）
表示制御部４５０は、表示情報を取得すると、表示情報に含まれる情報を参照し、表示部４６に画像を表示させる。具体的には、表示制御部４５０は、表示情報に含まれる表示態様を参照し、表示情報に含まれる利用者認識内容をサービス利用者向けの第１の領域に表示させ、表示情報に含まれる利用者翻訳内容をサービス提供者向けの第２の領域に表示させる。このとき、表示部４６に表示される画像の例を、図７に示す。図７は、本発明の実施形態１において表示部４６に表示される画像の他の例を示す図であり、（ａ）は、第１の領域４６ａに表示される画像であり、（ｂ）は、第２の領域４６ｂに表示される画像である。

図７の（ａ）に示すように、第１の領域４６ａに表示される画像には、上述したテキスト６００、テキスト６０２、およびテキスト６０４に加えて、（１）中国語として認識された利用者認識内容を含むテキスト６１０、および（２）英語として認識された利用者認識内容を含むテキスト６１２が含まれている。

また、図７の（ｂ）に示すように、第２の領域４６ｂに表示される画像には、上述したテキスト７００に加えて、（１）中国語として認識された利用者認識内容を日本語に翻訳した利用者翻訳内容を含むテキスト７１０、および（２）英語として認識された利用者認識内容を日本語に翻訳した利用者翻訳内容を含むテキスト７１２が含まれている。

なお、コミュニケーション支援システム１では、図７の（ａ）に示すように、認識確度が高い順に上から利用者認識内容（第１の認識内容）を表示してもよい。具体的には、ステップＳ８０において、表示態様決定部３４６は、ステップＳ６８において取得した認識結果に含まれる認識確度を参照して、利用者認識内容の表示態様を決定する。例えば、上述したように、認識確度が高い順に上から利用者認識内容が表示されるように表示態様を決定する構成や、認識確度が高い利用者認識内容は濃い色で表示され、認識確度が低い利用者認識内容は薄い色で表示されるように表示態様を決定する構成が挙げられる。また、図７の（ｂ）に示すように、利用者認識内容の表示態様に合わせて、認識確度が高い利用者認識内容を翻訳した利用者翻訳内容を上に表示する構成であってもよい。

（さらにサービス提供者から発話があった場合）
続いて、サービス提供者が図７の（ｂ）に示す画像を見て、サービス利用者は「私はコーヒーが欲しいです」と発話したと判断し、サービス利用者に対して「ホットでよろしいですか？」と発話した場合について、図３を用いて説明する。

（ステップＳ２〜ステップＳ１６）
上述した処理と同じ処理であるため、説明を省略する。

（ステップＳ１８）
情報管理部３４２は、取得した認識結果に含まれる提供者認識内容を翻訳するため、当該提供者認識内容を翻訳サーバ２０に出力する。ここで、上述したステップＳ６８において、選択部３４４は英語および中国語としてそれぞれ認識された利用者認識内容を選択したので、情報管理部３４２は、提供者認識内容を英語および中国語にそれぞれ翻訳する指示と共に、提供者認識内容を翻訳サーバ２０に出力する。

（ステップＳ２０）
翻訳サーバ２０の翻訳サーバ制御部２４は、翻訳サーバ通信部２２を介して、提供者認識内容を取得すると共に、提供者認識内容を英語および中国語にそれぞれ翻訳する指示を受け付ける。

（ステップＳ２２）
翻訳サーバ制御部２４は、取得した提供者認識内容を、受け付けた指示に従い、英語および中国語に翻訳する。具体的には、翻訳サーバ制御部２４は、「ホットでよろしいですか？」を英語および中国語に翻訳する。

（ステップＳ２４〜ステップＳ３４）
上述した処理と同じ処理であるため、説明を省略する。ここで、ステップＳ３４において表示部４６に表示される画像の例を、図８の（ａ）および（ｂ）に示す。図８は、本発明の実施形態１において表示部４６に表示される画像のさらに他の例を示す図であり，（ａ）は、第１の領域４６ａに表示される画像であり、（ｂ）は、第２の領域４６ｂに表示される画像である。

図８の（ａ）に示すように、第１の領域４６ａに表示される画像には、上述したテキスト６００、テキスト６０２、テキスト６０４、テキスト６１０、およびテキスト６１２に加えて、提供者認識内容を、（１）中国語に翻訳した翻訳内容を含むテキスト６２０、および（２）英語に翻訳した翻訳内容を含むテキスト６２２が含まれている。

また、図８の（ｂ）に示すように、第２の領域４６ｂに表示される画像には、上述したテキスト７００、テキスト７１０、テキスト７１２に加えて、提供者認識内容を含むテキスト７２０が含まれている。

（さらにサービス利用者から発話があった場合）
続いて、サービス利用者が図８の（ａ）に示す画像を見て、「好的」と発話した場合について、図６を用いて説明する。

（ステップＳ５２〜ステップＳ５６）
上述した処理と同じ処理であるため、説明を省略する。

（ステップＳ５８）
情報管理部３４２は、利用者音声情報を取得すると、当該利用者音声情報が示す利用者音声内容を認識した認識結果を取得するため、支援サーバ通信部３２を介して、当該利用者音声情報を認識サーバ１０に出力する。ここで、上述したステップＳ６８において、選択部３４４は英語および中国語としてそれぞれ認識された利用者認識内容を選択したので、情報管理部３４２は、利用者音声情報を英語および中国語として認識する指示と共に、利用者音声情報を翻訳サーバ２０に出力する。

（ステップＳ６０）
認識サーバ１０の認識サーバ制御部１４は、認識サーバ通信部１２を介して、利用者音声情報を取得すると共に、利用者音声情報を英語および中国語として認識する指示を受け付ける。

（ステップＳ６２）
認識サーバ制御部１４は、取得した利用者音声情報が示す音声内容を、英語および中国語として認識する。具体的には、認識サーバ制御部１４は、「ハオダ」を、英語および中国語として認識する。

（ステップＳ６４）
認識サーバ制御部１４は、認識した内容を示す利用者認識内容と、ステップＳ６２における認識処理の確からしさを示す認識確度とを含む認識結果を、認識サーバ通信部１２を介して支援サーバ３０に出力する。具体的には、認識サーバ制御部１４は、「ハオダ」を中国語として認識した認識結果は、認識確度は高く、利用者認識内容も「好的」になる。一方、認識サーバ制御部１４は、「ハオダ」を英語として認識した認識結果は、認識確度が低くなる。

（ステップＳ６８）
選択部３４４は、認識結果を参照し、表示対象の利用者認識内容を選択する。具体的には、「ハオダ」を中国語として認識した認識確度が所定の閾値より高く、英語として認識した認識確度が所定の閾値以下の場合、選択部３４４は、中国語としてそれぞれ認識された利用者認識内容を選択する。そして、選択部３４４は、選択した利用者認識内容を、情報管理部３４２に出力する。また、選択部３４４は、選択した利用者認識内容を含む認識結果を、表示態様決定部３４６に出力する。

（ステップＳ７０〜ステップＳ８６）
上述した処理と同じ処理であるため、説明を省略する。ここで、ステップＳ８６において表示部４６に表示される画像の例を、図８の（ｃ）および（ｄ）に示す。図８の（ｃ）は、第１の領域４６ａに表示される画像であり、（ｄ）は、第２の領域４６ｂに表示される画像である。

図８の（ｃ）に示すように第１の領域４６ａに表示される画像には、上述したテキスト６１０、テキスト６１２、テキスト６２０、およびテキスト６２２に加えて、中国語として認識された利用者認識内容を含むテキスト６３０が含まれている。

また、図８の（ｄ）に示すように、第２の領域４６ｂに表示される画像には、上述したテキスト７００、テキスト７１０、テキスト７１２、およびテキスト７２０に加えて、中国語として認識された利用者認識内容を日本語に翻訳した利用者翻訳内容を含むテキスト７３０が含まれている。

このように、本実施形態に係るコミュニケーション支援システム１では、サービス利用者（第１のユーザ）向けの第１の領域４６ａおよびサービス提供者（第２のユーザ）向けの第２の領域４６ｂを有する表示部４６と、音声入力部４８と、制御部（認識サーバ制御部１４、支援サーバ制御部３４、およびクライアント端末制御部４４）を備え、音声入力部４８を介してサービス利用者の音声を示す利用者音声情報（第１の音声情報）を取得し、利用者音声情報が示す利用者音声内容（第１の音声内容）を複数の言語（英語、中国語、および韓国語）の各々として認識する認識処理を行い、複数の言語の各々として認識された認識内容を示す利用者認識内容（第１の認識内容）から、表示対象の利用者認識内容を選択する選択処理を行い、表示対象の利用者認識内容を、表示部４６の第１の領域４６ａに表示する。この構成により、コミュニケーション支援システム１では、サービス利用者の発話を誤った言語として認識した場合であっても、当該誤った言語以外の言語として認識した認識内容も、ユーザに提示する。そのため、コミュニケーション支援システム１では、異なる言語を使用するユーザ同士のコミュニケーションを円滑にすることができる。

また、本実施形態に係るコミュニケーション支援システム１では、第１のユーザはサービス利用者であり、第２のユーザはサービス提供者であってもよい。この構成により、コミュニケーション支援システム１では、使用する言語が特定できないサービス利用者（例えば、お店の客）に対しても、サービス提供者（例えば、お店の店員）は円滑にコミュニケーションを図ることができる。

また、本実施形態に係るコミュニケーション支援システム１では、第１のユーザはサービス提供者であり、第２のユーザはサービス利用者であってもよい。この構成により、コミュニケーション支援システム１では、異なる言語を使用する複数のサービス提供者（例えば、お店の店員）のそれぞれが、サービス利用者（例えば、お店の客）と円滑にコミュニケーションを図ることができる。

また、本実施形態に係るコミュニケーション支援システム１では、選択処理において、複数の言語の各々で認識する認識処理の確からしさを示す認識確度を参照して、表示対象の利用者認識内容を選択する。この構成により、コミュニケーション支援システム１では、認識確度が閾値より高い認識確度によって認識された認識内容を、ユーザに提示する。そのため、ユーザが使用する言語である可能性がないと考えられる言語として認識された認識内容は表示しないので、異なる言語を使用するユーザ同士のコミュニケーションを円滑にすることができる。

また、本実施形態に係るコミュニケーション支援システム１では、認識確度を参照して、表示対象の利用者認識内容を表示部４６の第１の領域４６ａに表示する表示態様を決定する。この構成により、コミュニケーション支援システム１では、例えば、認識確度が高い認識内容を目立つように表示させたり、認識確度が高い順に並べて認識内容を表示させたりすることができる。そのため、コミュニケーション支援システム１では、何れの言語による認識確度が高いのかということをユーザに知らせることができる。

また、本実施形態に係るコミュニケーション支援システム１では、表示対象の利用者認識内容を翻訳した利用者翻訳内容（第１の翻訳内容）を取得し、利用者翻訳内容を表示部４６の第２の領域４６ｂに表示する。この構成により、コミュニケーション支援システム１では、サービス利用者の発話内容をサービス提供者が使用する言語に翻訳し、提示することができる。そのため、コミュニケーション支援システム１では、異なる言語を使用するユーザ同士のコミュニケーションを円滑にすることができる。

また、本実施形態に係るコミュニケーション支援システム１では、音声入力部４８を介してサービス提供者の音声を示す提供者音声情報（第２の音声情報）を取得し、提供者音声情報が示す提供者音声内容（第２の音声内容）を認識する認識処理を行い、認識処理によって認識された提供者認識内容（第２の認識内容）を複数の言語に翻訳した提供者翻訳内容（第２の翻訳内容）を取得し、提供者翻訳内容を表示部４６の第１の領域４６ａに表示する。この構成により、コミュニケーション支援システム１では、サービス提供者の発話内容をサービス利用者が使用する言語を含む複数の言語に翻訳し、提示することができる。そのため、コミュニケーション支援システム１では、異なる言語を使用するユーザ同士のコミュニケーションを円滑にすることができる。

なお、本実施形態では、認識確度が所定の閾値より高い認識確度で認識された利用者認識内容を選択する構成としたが、認識確度の積算値と閾値とを比較する構成であってもよい。

例えば、サービス利用者が最初に発した音声を示す利用者音声情報を、英語、中国語、および韓国語として認識した場合の認識確度がそれぞれ「３０」、「５０」、および「１０」であった場合、上述したステップＳ６８において、選択部３４４は、認識確度に関わらず、全ての利用者認識内容を表示対象として選択する。なお、以下の説明において、言語Ａとして認識した場合の認識確度と、言語Ａ認識確度と称する。

続いて、次にサービス利用者が発した音声を示す利用者音声情報を認識する認識処理における、英語認識確度、中国語認識確度、および韓国語認識確度がそれぞれ「１５」、「６０」、および「５」であった場合、上述したステップＳ６８において、選択部３４４はまず、前回の認識処理における英語認識確度に、今回の認識処理における英語認識確度を加算した積算英語認識確度を算出する。すなわち、選択部３４４は、前回の認識処理における英語認識確度「３０」に、今回の認識処理における英語認識確度「１５」を加算し、積算英語認識確度「４５」を算出する。

続いて、選択部３４４は、同様の処理を各言語において行い、積算中国語認識確度「１１０」および積算韓国語認識確度「１５」を算出する。そして、選択部３４４は、算出した積算値が所定の閾値より高い認識確度で認識された利用者認識内容を選択する。例えば、この場合の閾値が「４０」であった場合、積算英語認識確度「４５」および積算中国語認識確度「１１０」が閾値より高いため、選択部３４４は、英語および中国語として認識された利用者認識内容を選択する。

さらに、サービス利用者が発話した場合、サービス利用者が発した音声を示す利用者音声情報を、英語、中国語として認識する。そして、英語認識確度および中国語認識確度がそれぞれ「５」、「５０」であった場合、選択部３４４は、それぞれの認識確度を、既に算出している積算英語認識確度および積算中国語認識確度に加算する。具体的には、選択部３４４は、積算英語認識確度「５０」および積算中国語認識確度「１６０」を算出する。例えば、この場合の閾値が「８０」であった場合、積算中国語認識確度「１６０」が閾値より高いため、選択部３４４は、中国語として認識された利用者認識内容を選択する。

このように、コミュニケーション支援システム１では、認識確度の積算値と閾値とを比較し、選択する利用者認識内容を選択する構成であってもよい。この構成の場合、より好適にサービス利用者が使用する言語を選択することができるので、異なる言語を使用するユーザ同士のコミュニケーションをより円滑にすることができる。

なお、積算値として、認識確度を加算する方法を例に挙げて説明したが、加算に替えて積算を行う構成であっても、平均または加重平均を算出する構成であっても、同様の効果を得ることができる。また、サービス利用者の最初の発話に対して、認識確度に関わらず全ての利用者認識内容を表示対象として選択する構成を例に挙げて説明したが、所定の回数までの発話に対して、認識確度に関わらず全ての利用者認識内容を表示対象として選択する構成であってもよい。例えば、所定の回数を３回とした場合、サービス利用者による発話は、３回までは認識確度（積算値）に関わらず全ての利用者認識内容を表示対象として選択する。そして、サービス利用者による４回目以降の発話に対して、積算値と閾値とを比較し、閾値より高い認識確度で認識された利用者認識内容を選択する構成としてもよい。

また、クライアント端末４０による認識処理の認識確度と、認識サーバ１０による認識処理の認識確度とを比較するため、クライアント端末４０による認識処理の認識確度と、認識サーバ１０による認識処理の認識確度とを正規化してもよい。また、言語ごとの認識確度に対しても、正規化してもよい。この構成により、認識処理をクライアント端末４０において行った場合であっても、認識サーバ１０において行った場合であっても、また、何れの言語の認識処理であっても、同じ閾値を用いることができる。

〔実施形態２〕
本発明の他の実施形態について、図９〜図１１に基づいて説明する。

上述したように、音声情報に含まれる音声内容を認識する認識処理は、クライアント端末４０において実行されてもよいし、認識サーバ１０において実行されてもよい。そこで本実施形態では、クライアント端末４０に、よく使用されると考えられる発話内容のデータベースを格納することにより、より効果的に異なる言語を使用するユーザ同士のコミュニケーションを円滑にする方法について説明する。なお、本実施形態では、サービス利用者は店の客、サービス提供者は店の店員であり、クライアント端末４０は当該店に設置されている場合を例に挙げて説明する。

（端末記憶部５２に格納されるデータベース）
図９は、本発明の実施形態２における端末記憶部５２に格納されるデータベース（認識内容候補一覧）の例である。図９に示すように、端末記憶部５２には、クライアント端末４０が設置されている場所において頻繁に使用されると考えられる発話内容を英語、中国語、および日本語にそれぞれ翻訳した発話内容（以下、「認識コーパス」と称する）が関連付けて格納されている。

（サービス利用者から発話があった場合）
本実施形態において、サービス利用者から発話があった場合について、図１０を用いて説明する。図１０は、本発明の実施形態２におけるクライアント端末４０の処理の流れを示すフローチャートである。本実施形態では、上述したステップＳ６２における認識処理を、クライアント端末４０において実行する。まず、図６を用いて説明したように、音声情報取得部４４２は、利用者音声情報を取得し、取得した利用者音声情報を音声認識部４４４に出力する。

（ステップＳ９０）
上述したステップＳ６２と同様、音声認識部４４４は、取得した利用者音声情報が示す音声内容を、複数の言語として認識する。例えば、サービス利用者が発した「ウォシャンヤオコーヒー」という発音を、英語、中国語、および韓国語として認識する。

（ステップＳ９２）
続いて、音声認識部４４４は、各言語として認識した認識内容のうち、端末記憶部５２に格納された認識コーパスに一致する認識内容があるか否かを判定する。

例えば、音声認識部４４４は、「ウォシャンヤオコーヒー」を英語として認識した認識内容「What are y'all coffee」と一致する認識コーパスがあるか否かを判定する。端末記憶部５２には、「What are y'all coffee」と一致する認識コーパスはないので、音声認識結果は、認識内容「What are y'all coffee」と一致する認識コーパスはないと判定する。

続いて、音声認識部４４４は、「ウォシャンヤオコーヒー」を中国語として認識した認識内容

と一致する認識コーパスがあるか否かを判定する。端末記憶部５２には、項目「Ｎｏ．」が「６」に関連付けられた中国語の認識コーパス「我想要［Ｄｒｉｎｋ］」があり、項目「Ｎｏ．」が「２０１」に関連付けられた中国語の認識コーパス

がある。そのため、音声認識部４４４は、認識内容

と一致する認識コーパスがあると判定する。

音声認識部４４４は、同様に、他の言語として認識した認識内容についても、端末記憶部５２に格納された認識コーパスに一致する認識内容があるか否かを判定する。

（ステップＳ９４）
ステップＳ９２において、「各言語として認識した認識内容のうち、端末記憶部５２に格納された認識コーパスに一致する認識内容はない」と判定された場合（ステップＳ９２：ＮＯ）、音声認識部４４４は、認識した内容を示す利用者認識内容と、ステップＳ９０における認識処理の確からしさを示す認識確度とを含む認識結果を、クライアント端末通信部４２を介して支援サーバ３０に出力する。この場合、支援サーバ３０は、図６におけるステップＳ６８以降の処理を実行する。また、この場合、例えば、支援サーバ３０が取得した認識確度が、所定の認識確度より低い場合、クライアント端末４０から利用者音声情報の出力を要求し、ステップＳ５６以降の処理を実行してもよい。

（ステップＳ９６）
一方、ステップＳ９２において、「各言語として認識した認識内容のうち、端末記憶部５２に格納された認識コーパスに一致する認識内容がある」と判定された場合（ステップＳ９２：ＹＥＳ）、音声認識部４４４は、一致した認識コーパスに対応する日本語のコーパス（換言すると、図９に示すデータベースにおいて、一致した認識コーパスに関連付けられた日本語の認識コーパス）を選択する。

例えば、音声認識部４４４は、音声認識部４４４は、認識内容

と一致する認識コーパスがあると判定したので、

に関連付けられた日本語の認識コーパス「私はコーヒーが欲しいです」（より具体的には、項目「Ｎｏ．」が「６」に関連付けられた「私は［Ｄｒｉｎｋ］が欲しいです」および項目「Ｎｏ．」が「２０１」に関連付けられた「コーヒー」）を選択する。

（ステップＳ９８）
音声認識部４４４は、一致した認識コーパスを利用者認識内容として、また、選択した日本語の認識コーパスを利用者翻訳内容として、表示情報取得部４４８に出力し、表示情報取得部４４８は表示処理を実行する。

なお、表示処理は、音声認識部４４４が利用者認識内容および利用者翻訳内容を、クライアント端末通信部４２を介して支援サーバ３０に出力し、表示情報取得部４４８が、クライアント端末通信部４２を介して支援サーバ３０から表示情報を取得し、取得した表示情報を参照する構成であってもよい。この場合、支援サーバ３０は、上述したステップＳ８０の処理を実行する。

ステップＳ９８の処理が実行された場合に表示部４６に表示される画像の例を、図１１に示す。図１１は、本発明の実施形態２において表示部４６に表示される画像の一例を示す図であり、（ａ）は、第１の領域４６ａに表示される画像であり、（ｂ）は、第２の領域４６ｂに表示される画像である。

図１１の（ａ）に示すように、第１の領域４６ａに表示される画像には、中国語として認識された利用者認識内容を含むテキスト６４０が含まれている。そして、図１１の（ｂ）に示すように、第２の領域４６ｂに表示される画像には、中国語として認識された利用者認識内容を日本語に翻訳した利用者翻訳内容を含むテキスト７４０が含まれている。

このように、本実施形態に係るコミュニケーション支援システム１では、予め定められた認識内容候補一覧（データベース）を参照して、表示対象の利用者認識内容を選択する。この構成により、コミュニケーション支援システム１では、認識サーバ１０による処理を省略することができる。そのため、コミュニケーション支援システム１では、装置間の通信量を減少させることができる。また、認識内容候補一覧に、選択した利用者認識内容を翻訳した利用者翻訳内容も含まれる場合、翻訳サーバ２０による処理も省略することができる。

なお、上述したステップＳ９０において、音声認識部４４４は、上述した処理に加えて、認識コーパスに一致する程度を示すスコアを算出してもよい。この場合、上述した実施形態と同様、スコアが閾値より高いか否かを選択部３４４において判定する。そして、選択部３４４は、閾値より高いスコアによって認識された認識内容を選択する。閾値より高いスコアによって認識された認識内容が複数ある場合は、ステップＳ９６において、音声認識部４４４は、当該複数の認識内容にそれぞれ対応する日本語のコーパスを選択する。この場合、表示態様決定部３４６は、スコアが高い順に上から利用者認識内容および利用者翻訳内容が表示される構成が好ましい。この構成により、コミュニケーション支援システム１では、さらに効果的にサービス利用者が使用する言語の誤認識を防ぐことができる。

〔実施形態３〕
本発明の他の実施形態について、図１２に基づいて説明する。

上述した実施形態では、認識確度が所定の閾値より高い認識確度で認識された利用者認識内容がない場合、利用者認識内容は表示されなくなってしまう。そのため、本実施形態では、認識確度が所定の閾値（以下、「採用閾値」と称する）より低い閾値（以下、「候補閾値」と称する）を設定する構成について、上述した図６のシーケンス図を用いて説明する。

（ステップＳ５２〜ステップＳ６６）
上述した処理と同じ処理であるため、説明を省略する。

（ステップＳ６８）
上述した処理と同様、選択部３４４は、認識結果を参照し、採用閾値より高いか否かを判定することにより、表示対象の利用者認識内容を選択する。ここで、例えば、英語、中国語、および韓国語として認識した場合の認識確度がそれぞれ「３０」、「５０」、および「１０」であり、採用閾値が「６０」であった場合、選択部３４４が表示対象の利用者認識内容として選択する利用者認識内容は存在しないことになる。この場合、選択部３４４は、英語、中国語、および韓国語として認識した場合の認識確度が、候補閾値より高いか否かを判定する。例えば、候補閾値が「５」であった場合、選択部３４４は、候補閾値より高い利用者認識内容を選択する。そして、選択部３４４は、選択した利用者認識内容を、情報管理部３４２に出力する。また、選択部３４４は、選択した利用者認識内容を含む認識結果を、表示態様決定部３４６に出力する。

（ステップＳ７０〜ステップＳ７８）
上述した処理と同じ処理であるため、説明を省略する。

（ステップＳ８０）
表示態様決定部３４６は、利用者翻訳内容を取得すると、クライアント端末４０の表示部４６に表示する表示態様を決定する。具体的には、表示態様決定部３４６は、ステップＳ６８において取得した利用者認識内容の認識確度が採用閾値以下かつ候補閾値より高いので、認識確度が低い旨を示す表示態様に決定する。認識確度が低い旨を示す表示態様の例として、（１）文字を薄くして表示する、（２）「もしかして」「Did you mean」といった、認識確度が低かったことを暗示するテキストを付加する、などが挙げられる。そして、表示態様決定部３４６は、決定した表示態様、利用者認識内容、および利用者翻訳内容を含む表示情報を、表示情報出力部３４８に出力する。

（ステップＳ８２〜ステップＳ８６）
上述した処理と同じ処理であるため、説明を省略する。

ステップＳ８６において、表示部４６に表示される画像の例を、図１２の（ａ）および（ｂ）に示す。図１２は、本発明の実施形態３において表示部４６に表示される画像の一例を示す図であり、（ａ）は、第１の領域４６ａに表示される画像であり、（ｂ）は、第２の領域４６ｂに表示される画像である。

図１２の（ａ）に示すように、第１の領域４６ａに表示される画像には、（１）中国語として認識された利用者認識内容を含むテキスト６５２、（２）英語として認識された利用者認識内容を含むテキスト６５４、および（３）韓国語として認識された利用者認識内容を含むテキスト６５６が含まれている。また、第１の領域４６ａには、認識確度が低かったことを暗示するテキスト６５０が含まれている。

また、図１２の（ｂ）に示すように、第２の領域４６ｂに表示される画像には、（１）中国語として認識された利用者認識内容を日本語に翻訳した利用者翻訳内容を含むテキスト７５２、（２）英語として認識された利用者認識内容を日本語に翻訳した利用者翻訳内容を含むテキスト７５４、および（３）韓国語として認識された利用者認識内容を日本語に翻訳した利用者翻訳内容を含むテキスト７５６が含まれている。また、第２の領域４６ｂにも、認識確度が低かったことを暗示するテキスト７５０が含まれている。

（候補閾値より高い認識確度がない場合）
さらに、上述したステップＳ６８において、英語、中国語、および韓国語として認識した場合の認識確度が、候補閾値以下の場合について、上述した図６のシーケンス図を用いて説明する。

（ステップＳ６８）
選択部３４４は、認識結果を参照し、採用閾値または候補閾値より高いか否かを判定することにより、表示対象の利用者認識内容を選択する。ここで、例えば、英語、中国語、および韓国語として認識した場合の認識確度がそれぞれ「１０」、「２０」、および「５」であり、候補閾値が「３０」であった場合、選択部３４４が表示対象の利用者認識内容として選択する利用者認識内容は存在しないことになる。この場合、選択部３４４は、候補閾値より高い認識確度によって認識された認識内容が存在しない旨を示す情報を、表示態様決定部３４６に出力する。

（ステップＳ７０〜ステップＳ７８）
ステップＳ７０〜ステップＳ７８の処理は実行せず、ステップＳ８０に進む。

（ステップＳ８０）
表示態様決定部３４６は、ステップＳ６８において取得した情報を参照し、クライアント端末４０の表示部４６に表示する表示態様を決定する。具体的には、表示態様決定部３４６は、ステップＳ６８において取得した情報が候補閾値より高い認識確度によって認識された認識内容が存在しない旨を示すので、発話内容を認識できなかった旨を示す表示態様に決定する。発話内容を認識できなかった旨を示す表示態様の例として、（１）認識できなかった旨を示すテキストを表示する、（２）言語を選択させるための画像を表示する、などが挙げられる。そして、表示態様決定部３４６は、決定した表示態様を含む表示情報を、表示情報出力部３４８に出力する。

ステップＳ８６において、表示部４６に表示される画像の例を、図１２の（ｃ）および（ｄ）に示す。図１２の（ｃ）は、第１の領域４６ａに表示される画像であり、（ｄ）は、第２の領域４６ｂに表示される画像である。

図１２の（ｃ）に示すように、第１の領域４６ａに表示される画像には、認識できなかった旨を示すテキスト６６４が含まれている。また、第１の領域４６ａには、言語を選択する旨の操作をサービス利用者から受け付ける操作子６６２、および当該操作子を操作することにより言語を選択できる旨を示すテキスト６６０も含まれている。

また、図１２の（ｄ）に示すように、第２の領域４６ｂに表示される画像には、認識できなかった旨を示すテキスト７６０が含まれている。また、第２の領域４６ｂには、言語を選択する旨の操作をサービス提供者から受け付ける操作子７６２、および当該操作子を操作することにより言語を選択できる旨を示すテキスト７６４も含まれている。

なお、操作子は、図１２の（ｃ）および（ｄ）に示すように、表示されるＧＵＩ（Graphic User Interface）であってもよいし、ボタンの形状に限られずスイッチの形状などであってもよい。また、サービス提供者向けに設けられた操作部５０（物理的なボタン、スイッチなど）であってもよい。また、図１２の（ａ）および（ｂ）に示す画像において、各言語によって表示されているテキストをタッチすることにより、言語が選択可能な構成であってもよい。例えば、図１２の（ａ）に示す画像において、クライアント端末４０は、テキスト６５２が選択された旨を示す操作信号を取得した場合、サービス利用者が使用する言語を中国語に決定する構成であってもよい。

そして、コミュニケーション支援システム１では、言語が選択された場合、サービス利用者の発話を認識する言語を、選択された言語に決定する。そのため、例えば、コミュニケーション支援システム１が、図１２の（ａ）に示す画像において、テキスト６５２が選択された旨を示す操作信号を取得した場合、図１２の（ｂ）に示す画像において、テキスト７５２が選択された旨を示す操作信号を取得した場合、または、図１２の（ｃ）もしくは（ｄ）に示す画像において、中国の国旗が選択された旨を示す操作信号を取得した場合、コミュニケーション支援システム１では、サービス利用者が使用する言語を中国語に決定する。

このように、本実施形態に係るコミュニケーション支援システム１では、操作子（操作部５０、操作子６６２、操作子７６２）を介して受け付けた入力に応じて、複数の言語のうち、何れの言語として利用者音声情報が示す利用者音声内容を認識するかを決定する。そのため、コミュニケーション支援システム１では、サービス利用者が発話する声が小さかったり、雑音が入ったりすることにより、認識処理による認識確度が低い場合であっても、サービス利用者またはサービス提供者に言語を選択する操作を促すことにより、異なる言語を使用するユーザ同士のコミュニケーションを円滑にすることができる。

〔実施形態４〕
本発明の他の実施形態について、図１３に基づいて説明する。

上述の実施形態では、図４の（ａ）に示すように、最初にサービス提供者が発話した発話内容を翻訳した提供者翻訳内容の表示順について特に限定していないが、本実施形態では、所定の条件に従って提供者翻訳内容を表示する構成について、図３のシーケンス図を用いて説明する。また、本実施形態では、上述した認識処理において使用される言語ごとに、当該認識処理において使用された回数を示す回数情報を表示態様決定部３４６が参照できる構成となっている。

（ステップＳ２〜ステップＳ２６）
上述した処理と同じ処理であるため、説明を省略する。

（ステップＳ２８）
表示態様決定部３４６は、提供者翻訳内容を取得すると、クライアント端末４０の表示部４６に表示する表示態様を決定する。ここで、表示態様決定部３４６は、言語ごとの回数情報を参照し、参照した回数情報に応じた表示態様を決定する。例えば、表示態様決定部３４６が取得した回数情報が、認識処理において、英語が２００回、中国語が１００回、韓国語が５０回使用されていることを示す場合、最も多く使用されている英語に翻訳された提供者翻訳内容を第１の領域４６ａの上側に表示し、その下に、その次に多く使用されている中国語に翻訳された提供者翻訳内容を表示し、さらにその下に、韓国語に翻訳された提供者翻訳内容を表示するように、表示態様を決定する。そして、表示態様決定部３４６は、決定した表示態様、提供者認識内容、および提供者翻訳内容を含む表示情報を、表示情報出力部３４８に出力する。

（ステップＳ３０〜ステップＳ３４）
上述した処理と同じ処理であるため、説明は省略する。

ステップＳ３４において、表示部４６に表示される画像の例を、図１３の（ａ）および（ｂ）に示す。図１３は、本発明の実施形態４において表示部４６に表示される画像の一例を示す図であり、（ａ）は、第１の領域４６ａに表示される画像であり、（ｂ）は、第２の領域４６ｂに表示される画像である。

図１３の（ａ）に示すように、第１の領域４６ａに表示される画像は、英語に翻訳された提供者翻訳内容を含むテキスト６７０が上に表示されており、その下に、中国語に翻訳された提供者翻訳内容を含むテキスト６７２が表示され、さらにその下に、韓国語に翻訳された提供者翻訳内容を含むテキスト６７４が表示されている。

また、図１３の（ｂ）に示すように、第２の領域４６ｂに表示される画像には、提供者認識内容を含むテキスト７７０が含まれている。

（サービス利用者を撮像した撮像画像を使用する場合）
本実施形態の他の例として、サービス利用者を撮像した撮像画像を使用する構成について説明する。本例におけるコミュニケーション支援システム１では、サービス利用者を撮像した撮像画像を参照してサービス利用者が使用する言語を判定した判定結果を、表示態様決定部３４６が参照できる構成となっている。なお、サービス利用者を撮像した撮像画像を参照してサービス利用者が使用する言語を判定する処理は、コミュニケーション支援システム１を構成する各部の何れかにおいて実行されてもよいし、コミュニケーション支援システム１とは異なる装置が判定し、判定結果をコミュニケーション支援システム１が取得する構成であってもよい。

上述したステップＳ２８において、表示態様決定部３４６は、提供者翻訳内容を取得すると、クライアント端末４０の表示部４６に表示する表示態様を決定する。ここで、表示態様決定部３４６は、サービス利用者を撮像した撮像画像を参照してサービス利用者が使用する言語を判定した判定結果を参照し、参照した判定結果に応じた表示態様を決定する。例えば、表示態様決定部３４６が取得した判定結果が、サービス利用者が使用する言語は英語であると判定した判定結果であった場合、表示態様決定部３４６は、英語に翻訳された提供者翻訳内容を第１の領域４６ａの上側に表示されるように、表示態様を決定する。そして、表示態様決定部３４６は、決定した表示態様、提供者認識内容、および提供者翻訳内容を含む表示情報を、表示情報出力部３４８に出力する。本例であっても、表示部４６には図１３に示す画像が表示される。

このように、本実施形態に係るコミュニケーション支援システム１では、最初のサービス提供者の発話内容を翻訳した翻訳内容を、所定の条件に従って表示する。この構成により、コミュニケーション支援システム１では、サービス利用者が使用するであろうと考えられる言語に翻訳された翻訳内容を、第１の領域４６ａにおいて例えば目立つように表示することができる。また、コミュニケーション支援システム１は、本システムが発話内容を翻訳するシステムであることを、サービス利用者に容易に理解させることができる。

〔実施形態５〕
本発明の他の実施形態について、図１４に基づいて説明する。

上述の実施形態では、コミュニケーション支援システム１は、ステップＳ６８における選択処理において選択されなかった利用者認識内容の言語による認識は、それ以降の処理では行われていなかった（上述の実施形態１では、韓国語として認識された認識内容は選択処理において選択されなかったので、当該選択処理以降の処理では、サービス利用者の発話内容を韓国語として認識する認識処理は行われなかった）。本実施形態では、ステップＳ６８における選択処理において選択されなかった利用者認識内容の言語であっても、引き続き認識処理を実行する構成について説明する。

まず、コミュニケーション支援システム１では、選択部３４４は、選択処理において、利用者音声情報が示す音声内容を中国語として認識した利用者認識内容を選択している。そのため、表示部４６の第１の領域４６ａには、中国語以外の言語として認識された利用者認識内容は表示されていない状態である。一方、上述したように、認識処理では、英語、中国語、および韓国語として利用者音声情報が示す音声内容を認識している。

このとき、表示部４６に表示される画像の例を、図１４の（ａ）および（ｂ）に示す。図１４は、本発明の実施形態５において表示部４６に表示される画像の一例を示す図であり、（ａ）は、第１の領域４６ａに表示される画像であり、（ｂ）は、第２の領域４６ｂに表示される画像である。

図１４の（ａ）に示すように、第１の領域４６ａに表示される画像には、中国語として認識した利用者認識内容を含むテキスト６８０が含まれている。また、図１４の（ｂ）に示すように、第２の領域４６ｂに表示される画像には、中国語として認識した利用者認識内容を日本語に翻訳した利用者翻訳内容を含むテキスト７８０が含まれている。

続く処理について、上述した図６を用いて説明する。

（ステップＳ５２）
上述した処理と同様、クライアント端末４０の音声情報取得部４４２は、音声入力部４８を介してサービス利用者が発した音声を示す利用者音声情報を取得する取得処理を行う。ここで、例えば、決定した言語（中国語）以外の言語である英語を使用するサービス利用者が「I want tea」と発した場合、音声情報取得部４４２は、「I want tea」を示す利用者音声情報を取得する。

（ステップＳ５４〜ステップＳ６０）
上述した処理と同じ処理であるため、説明は省略する。

（ステップＳ６２）
上述したように、認識サーバ制御部１４は、取得した利用者音声情報が示す音声内容を、英語、中国語、および韓国語として認識する。具体的には、認識サーバ制御部１４は、「アイウォントティー」という発音を、英語、中国語、および韓国語として認識する。

（ステップＳ６４〜ステップＳ６６）
上述した処理と同じ処理であるため、説明は省略する。

（ステップＳ６８）
選択部３４４は、表示対象の利用者認識内容として、中国語として認識された利用者認識内容を選択してきたため、まずは、表示対象の利用者認識内容として、中国語として認識された利用者認識内容を選択する。ここで、選択部３４４は、中国語として認識した認識確度よりも他の言語として認識した認識確度が高い場合、当該他の言語として認識した利用者認識内容も選択する。例えば、「アイウォントティー」を中国語として認識した利用者認識内容が「Iwan七」、認識確度が「２０」であり、「アイウォントティー」を英語として認識した利用者認識内容が「I want tea」、認識確度が「５０」であり、「アイウォントティー」を韓国語として認識した利用者認識内容が

認識確度が「１０」であった場合、選択部３４４は、表示対象の利用者認識内容として、中国語として認識された利用者認識内容に加えて、英語として認識された利用者認識内容を選択する。

（ステップＳ７０〜ステップＳ７８）
上述した処理と同じ処理であるため、説明は省略する。

（ステップＳ８０）
表示態様決定部３４６は、利用者翻訳内容を取得すると、クライアント端末４０の表示部４６に表示する表示態様を決定する。ここで、表示態様決定部３４６は、ここまで表示対象として選択された利用者認識内容の言語（中国語）の認識確度より、ここまで表示対象として選択されなかった利用者認識内容の言語（英語）の認識確度の方が高い旨を示す表示態様に決定する。ここまで表示対象として選択された利用者認識内容の言語の認識確度より、ここまで表示対象として選択されなかった利用者認識内容の言語の認識確度の方が高い旨を示す表示態様の例として、（１）文字を薄くして表示する（他とは異なる表示態様にて表示する）、（２）「もしかして」「Did you mean」といった、ここまで表示対象として選択されなかったものの、認識確度が高いことを暗示するテキストを付加する、などが挙げられる。そして、表示態様決定部３４６は、決定した表示態様、利用者認識内容、および利用者翻訳内容を含む表示情報を、表示情報出力部３４８に出力する。

ステップＳ８６において、表示部４６に表示される画像の例を、図１４の（ｃ）および（ｄ）に示す。図１４の（ｃ）は、第１の領域４６ａに表示される画像であり、（ｄ）は、第２の領域４６ｂに表示される画像である。

図１４の（ｃ）に示すように、第１の領域４６ａに表示される画像には、上述したテキスト６８０に加えて、（１）中国語として認識された利用者認識内容を含むテキスト６８２、（２）中国語の認識確度より高かったことを暗示するテキスト６８４および英語として認識された利用者認識内容を含むテキスト６８６が含まれている。また、テキスト６８４およびテキスト６８６の表示を削除する旨の操作を受け付けるボタン６８８をさらに含む構成であってもよい。

また、図１４の（ｄ）に示すように、第２の領域４６ｂに表示される画像には、上述したテキスト７８０に加えて、（１）中国語として認識された利用者認識内容を日本語に翻訳した利用者翻訳内容７８２、（２）中国語の認識確度より高かったことを暗示するテキスト７８４および英語として認識された利用者認識内容を日本語に翻訳した利用者翻訳内容７８６が含まれている。また、テキスト７８４およびテキスト７８６の表示を削除する旨の操作を受け付けるボタン７８８をさらに含む構成であってもよい。

ここで、上述した実施形態３において説明したように、操作信号取得部４４６が操作子を介して、決定していた言語を変更する旨の操作を示す操作信号を取得した場合、コミュニケーション支援システム１では、サービス利用者が使用する言語を、今まで表示対象として選択されていた利用者認識内容の言語とは異なる言語に変更してもよい。例えば、図１４の（ｃ）に示す画像に対して、サービス利用者がテキスト６８６をタッチする操作を行った場合、コミュニケーション支援システム１は、選択処理において、英語として認識された利用者認識内容を選択するように変更してもよい。

また、今まで表示対象として選択された利用者認識内容の言語の認識確度より、今まで表示対象として選択されなかった利用者認識内容の言語の認識確度の方が高い状態が、連続して所定の回数（例えば３回）に達した場合、コミュニケーション支援システム１では、サービス利用者が使用する言語を、当該今まで表示対象として選択されなかった利用者認識内容の言語に変更してもよい。

このように、本実施形態に係るコミュニケーション支援システム１では、表示対象の利用者認識内容として選択されなくなった言語であっても、認識処理において利用者音声情報を当該言語として認識する処理を実行する。そのため、コミュニケーション支援システム１では、例えば、（１）サービス利用者が中国語を使用して発話していたところ、誤認識が多かったため、サービス利用者が、使用する言語を英語に変更した、（２）中国語を使用するサービス利用者と会話しているときに、英語を使用するサービス利用者が発話した、など、サービス利用者が使用する言語が変更になった場合であっても、コミュニケーションを円滑にすることができる。

〔実施形態６〕
本発明の他の実施形態について、図１５〜図１７に基づいて説明する。

上述した実施形態では、認識する音声内容より前に発話された音声内容を参照することなく認識処理が行われていたが、本実施形態では、認識する音声内容より前に発話された音声内容を参照する構成について、説明する。本実施形態では、上述した実施形態２と同様、上述したステップＳ６２における認識処理を、クライアント端末４０において実行する。

（端末記憶部５２に格納される発話文データベースおよび応答データベース）
図１５は、本発明の実施形態６における端末記憶部５２に格納されるデータベース（応答内容候補一覧）の例であり、（ａ）は、発話文データベースの例であり、（ｂ）は、応答データベースの例である。

（発話文データベース）
端末記憶部５２には、クライアント端末４０が設置されている場所においてよく使用されると考えられる発話内容を含む発話文データベースが格納されている。発話文データベースには、図１５の（ａ）に示すように、項目「発話文ＩＤ」、項目「発話文種別」、および項目「発話文コーパス」が関連付けられている。

項目「発話文ＩＤ」には、関連付けられている発話文を特定するための識別番号である発話文ＩＤが格納されている。

項目「発話文種別」には、発話文が属するカテゴリを特定するための識別番号である発話文種別が格納されている。

項目「発話文コーパス」には、よく使用されると考えられる発話文が格納されている。なお、図１５の（ａ）に示す発話文データベースでは、項目「発話文コーパス」には日本語の発話文が格納されているが、当該日本語の発話文を英語、中国語、および韓国語に翻訳した発話文も、関連付けて格納されている。

（応答データベース）
また、端末記憶部５２には、クライアント端末４０が設置されている場所において、ある発話文と、当該発話文に対する応答となる発話文とを関連付けた応答データベースが格納されている。応答データベースには、図１５の（ｂ）に示すように、項目「応答文ＩＤ」、項目「発話文種別」、項目「条件」、および項目「応答発話文種別」が関連付けられている。

項目「応答文ＩＤ」には、関連付けられている応答発話文種別を特定するための識別番号が格納されている。

項目「発話文種別」には、発話文データベースに格納されている項目「発話文種別」と同様、発話文が属するカテゴリを特定するための識別番号が格納されている。

項目「条件」には、関連付けられている応答発話文種別を選択するための条件が格納されている。

項目「応答発話文種別」には、応答として発話する発話文コーパスが属するカテゴリを特定するための識別番号が格納されている。

（クライアント端末４０の処理の流れ）
本実施形態におけるクライアント端末４０の処理の流れについて、図１６を用いて説明する。図１６は、本発明の実施形態６におけるクライアント端末４０の処理の流れを示すフローチャートである。

まず、上述した図３または図５のシーケンス図に従い、クライアント端末４０は、サービス提供者から「何かお探しですか？」を示す提供者音声情報を取得し、当該提供者音声情報を認識した提供者認識内容を、英語、中国語、および韓国語に翻訳し、提供者認識内容および提供者翻訳内容を表示する。このとき、表示部４６に表示される画像は、上述した図４の画像である。

続いて、図６を用いて説明したように、音声情報取得部４４２は、利用者音声情報を取得し、取得した利用者音声情報を音声認識部４４４に出力する。

（ステップＳ１００）
続いて、音声認識部４４４は、各言語として認識した利用者認識内容のうち、所定の認識確度以上の利用者認識内容が複数存在するか否かを判定する。例えば、音声認識部４４４は、「ウォシャンヤオコーヒー」を、（１）英語として認識した認識確度、（２）中国語として認識した認識確度、および（３）韓国語として認識した認識確度が、それぞれ所定の認識確度以上であるか否かを判定する。

（ステップＳ１０２）
ステップＳ１００において、「所定の認識確度以上の利用者認識内容が複数存在する」と判定された場合（ステップＳ１００：ＹＥＳ）、音声認識部４４４は、直前（もしくは、それ以前、以下同様）の発話の提供者認識内容に一致する発話文コーパスが、発話文データベースに格納されているか否かを判定する。

例えば、音声認識部４４４は、直前の発話の提供者認識内容「何かお探しですか？」に一致する発話文コーパスが、発話文データベースに格納されているか否かを判定する。図１５の（ａ）に示す発話文データベースにおいて、発話文ＩＤが「１」に関連付けられている発話文コーパスは、「何かお探しですか」なので、音声認識部４４４は、直前の発話の提供者認識内容「何かお探しですか？」に一致する発話文コーパスが、発話文データベースに格納されていると判定する。

（ステップＳ１０４）
ステップＳ１０２において、「直前の発話の提供者認識内容と一致する発話文コーパスがある」と判定された場合（ステップＳ１０２：ＹＥＳ）、音声認識部４４４は、直前の発話の提供者認識内容と一致する発話文コーパスに関連付けられた発話文種別を選択する。例えば、音声認識部４４４は、直前の発話の提供者認識内容「何かお探しですか？」と一致する発話文コーパスに関連付けられた発話文種別「１」を選択する。

（ステップＳ１０６）
続いて、音声認識部４４４は、応答データベースにおいて、ステップＳ１０４において選択した発話文種別に関連付けられた応答発話文種別のうち、条件が一致する応答発話文種別を選択する。例えば、音声認識部４４４は、図１５の（ｂ）に示す応答データベースにおいて、ステップＳ１０４において選択した発話文種別「１」に関連付けられた応答発話文種別に関連付けられた条件を参照する。発話文種別「１」に関連付けられた応答発話文種別に関連付けられた条件は、全て「―（条件なし）」であるため、音声認識部４４４は応答発話文種別「２」、「３」、「４」を選択する。

（ステップＳ１０８）
そして、音声認識部４４４は、発話文データベースにおいて、ステップＳ１０６において選択した応答発話文種別に関連付けられた発話文コーパスのうち、利用者認識内容と一致する発話文コーパスがあるか否かを判定する。

例えば、音声認識部４４４は、図１５の（ａ）に示す発話文データベースにおいて、ステップＳ１０６において選択した応答発話文種別「２」、「３」、「４」である発話文種別に関連付けられた発話文コーパスのうち、「ウォシャンヤオコーヒー」を英語として認識した利用者認識内容「What are y'all coffee」と一致する発話文コーパスがあるか否かを判定する。発話文データベースには、利用者認識内容「What are y'all coffee」と一致する発話文コーパスはないため、続いて音声認識部４４４は、「ウォシャンヤオコーヒー」を中国語として認識した利用者認識内容

と一致する発話文コーパスがあるか否かを判定する。

図１５の（ａ）に示す発話文データベースには不図示であるが、利用者認識内容

は、発話文ＩＤ「６」に関連付けられた発話文コーパスと一致するため、音声認識部４４４は、利用者認識内容と一致する発話文コーパスはあると判定する。韓国語の利用者認識内容についても同様の処理を実行し、韓国語の利用者認識内容と一致する発話文コーパスはないと判定する。

（ステップＳ１１０）
ステップＳ１０８において、「利用者認識内容と一致する発話文コーパスがある」と判定された場合（ステップＳ１１０：ＹＥＳ）、音声認識部４４４は、ステップＳ１０８において発話文コーパスと一致した利用者認識内容を、表示対象の利用者認識内容として選択する。

（ステップＳ１１２）
音声認識部４４４は、選択した利用者認識内容、および、発話文データベースにおいて、当該利用者認識内容と一致する発話文コーパスに関連付けられた日本語の発話文コーパスを利用者翻訳内容として、表示情報取得部４４８に出力し、表示情報取得部４４８は表示処理を実行する。なお、表示処理は、実施形態２のステップＳ９８において説明した処理と同様、表示情報を支援サーバ３０から取得する構成であってもよい。

（ステップＳ１１４）
上述したステップＳ１００において「所定の認識確度以上の利用者認識内容が複数存在しない」と判定された場合（ステップＳ１００：ＮＯ）、ステップＳ１０２において「直前の発話の提供者認識内容と一致する発話文コーパスがない」と判定された場合（ステップＳ１０２：ＮＯ）、またはステップＳ１０８において「利用者認識内容と一致する発話文コーパスがない」と判定された場合（ステップＳ１０８：ＮＯ）、音声認識部４４４は、利用者認識内容および認識確度を含む認識結果を、支援サーバ３０にクライアント端末通信部４２を介して支援サーバ３０に出力する。支援サーバ３０は、認識結果を取得すると、上述したステップＳ６８以降の処理を実行する。

本実施形態における表示部４６に表示される画像の例を、図１７に示す。図１７は、本発明の実施形態６において表示部４６に表示される画像の一例を示す図であり、（ａ）は、第１の領域４６ａに表示される画像であり、（ｂ）は、第２の領域４６ｂに表示される画像であり、（ｃ）は、第１の領域４６ａに表示される画像であり、（ｄ）は、第２の領域４６ｂに表示される画像である。

例えば、ステップＳ１００において、「所定の認識確度以上の利用者認識内容が複数存在しない」と判定された場合（ステップＳ１００：ＮＯ）など、ステップＳ１１４の処理を実行した場合、図１７の（ａ）に示すように、第１の領域４６ａに表示される画像には、提供者認識内容を、（１）英語に翻訳した翻訳内容を含むテキスト６９０、（２）中国語に翻訳した翻訳内容を含むテキスト６９２、および（３）韓国語に翻訳した翻訳内容を含むテキスト６９４に加えて、（１）中国語として認識された利用者認識内容を含むテキスト６９６、（２）英語として認識された利用者認識内容を含むテキスト６９７、および（３）韓国語として認識された利用者認識内容を含むテキスト６９８が含まれている。

一方、ステップＳ１１２における表示処理において第１の領域４６ａに表示される画像は、図１７の（ｃ）に示すように、上述したテキスト６９０、テキスト６９２、およびテキスト６９４に加えて、テキスト６９６が含まれており、テキスト６９７およびテキスト６９７は含まれていない。

また、第２の領域４６ｂに表示される画像には、図１７の（ｂ）に示すように、提供者認識内容を含むテキスト７９０に加えて、（１）中国語として認識された利用者認識内容を日本語に翻訳した利用者翻訳内容を含むテキスト７９６、（２）英語として認識された利用者認識内容を日本語に翻訳した利用者翻訳内容を含むテキスト７９７、および（３）韓国語として認識された利用者認識内容を日本語に翻訳した利用者翻訳内容が含まれている。

一方、ステップＳ１１２における表示処理において第２の領域４６ｂに表示される画像は、図１７の（ｄ）に示すように、上述したテキスト７９０に加えて、テキスト７９６が含まれており、テキスト７９７およびテキスト７９８は含まれていない。

このように、本実施形態に係るコミュニケーション支援システム１では、サービス利用者の発話内容を認識した利用者認識内容を選択する処理において、サービス利用者が発話する前の発話内容を参照し、表示対象の利用者認識内容を選択する。そのため、コミュニケーション支援システム１では、会話の流れに合う利用者認識内容を選択でき、かつ、サービス利用者が使用する言語による認識を行うことができるので、異なる言語を使用するユーザ同士のコミュニケーションをより円滑にすることができる。

〔実施形態７〕
本発明の他の実施形態について、図１８および図１９に基づいて説明する。

上述の実施形態では、サービス提供者とサービス利用者とが会話をするコミュニケーションを例に挙げたが、サービス提供者がクライアント端末４０である場合について説明する。

（クライアント端末４０の処理の流れ）
本実施形態におけるクライアント端末４０の処理の流れについて、図１８を用いて説明する。図１８は、本発明の実施形態７におけるクライアント端末４０の処理の流れを示すフローチャートである。

（ステップＳ９０）
音声認識部４４４は、取得した利用者音声情報が示す音声内容を、複数の言語として認識する。例えば、サービス利用者が発した「ウォシャンヤオコーヒー」という発音を、英語、中国語、および韓国語として認識する。

（ステップＳ１２０）
音声認識部４４４は、ステップＳ９０における認識処理の確からしさを示す認識確度を参照し、表示対象の利用者認識内容を選択する。例えば、「ウォシャンヤオコーヒー」を中国語として認識した認識確度が所定の閾値より高く、英語および韓国語として認識した認識確度が所定の閾値以下の場合、選択部３４４は、中国語として認識された利用者認識内容

を選択する。

（ステップＳ１２２）
続いて、音声認識部４４４は、端末記憶部５２に格納されている発話文データベースに、ステップＳ１２０において選択した利用者認識内容と一致する発話文コーパスがあるか否かを判定する。例えば、図１５の（ａ）に示す発話文データベースの例では、ステップＳ１２０において選択された利用者認識内容

は、発話文ＩＤ「６」に関連付けられた発話文コーパス「我想要［Ｄｒｉｎｋ］」に一致するので、音声認識部４４４は、一致する発話文コーパスはあると判定する。

（ステップＳ１２４）
ステップＳ１２２において、「一致する発話文コーパスはある」と判定された場合（ステップＳ１２２：ＹＥＳ）、音声認識部４４４は、一致する発話文コーパスに関連付けられている発話文種別を選択する。例えば、利用者認識内容

は、発話文ＩＤ「６」に関連付けられた発話文コーパス「我想要［Ｄｒｉｎｋ］」に一致するので、音声認識部４４４は、発話文ＩＤ「６」に関連付けられた発話文種別「３」を選択する。

（ステップＳ１２６）
音声認識部４４４は、応答データベースを参照し、ステップＳ１２４において選択した発話文種別に関連付けられている応答発話文種別のうち、条件を満たしている応答発話文種別を選択する。例えば、ステップＳ１２４において選択した発話文種別「３」に関連付けられている条件が、（１）［Ｄｒｉｎｋ］が在庫有り、（２）［Ｄｒｉｎｋ］が品切れ、および（３）その他、であり、（１）［Ｄｒｉｎｋ］が在庫有りを満たす場合、音声認識部４４４は、当該条件に関連付けられた応答発話文種別「２０１」を選択する。

（ステップＳ１２８）
音声認識部４４４は、発話文データベースを参照し、ステップＳ１２６において選択した応答発話文種別に関連付けられた発話文コーパスから、表示対象とする発話文コーパスを提供者翻訳内容として選択する。例えば、音声認識部４４４は、発話文種別「２０１」に関連付けられた発話文コーパスから、「［Ｄｒｉｎｋ］在以下」を選択する。

（ステップＳ１３０）
音声認識部４４４は、ステップＳ１２０において選択した利用者認識内容、およびステップＳ１２８において選択した提供者翻訳内容を、表示情報取得部４４８に出力し、表示情報取得部４４８は表示処理を実行する。なお、表示処理は、実施形態２のステップＳ９８において説明した処理と同様、表示情報を支援サーバ３０から取得する構成であってもよい。

（ステップＳ１３２）
一方、ステップＳ１２２において、「一致する発話文コーパスはない」と判定された場合（ステップＳ１２２：ＮＯ）、音声認識部４４４は、認識できなかった旨を示す提供者翻訳内容を、表示情報取得部４４８に出力し、表示情報取得部４４８は表示処理を実行する。なお、表示処理は、実施形態２のステップＳ９８において説明した処理と同様、表示情報を支援サーバ３０から取得する構成であってもよい。

ステップＳ１３０において、表示部４６に表示される画像の例を、図１９に示す。図１９は、本発明の実施形態７において表示部４６に表示される画像の一例を示す図であり、（ａ）は、表示される画像の一例であり、（ｂ）は、表示される画像の他の例である。

図１９の（ａ）に示すように、表示部４６には、上側を第１の領域４６ａとして、（１）中国語として認識された利用者認識内容を含むテキスト８００、（２）英語として認識された利用者認識内容を含むテキスト８０２、および（３）韓国語として認識された利用者認識内容を含むテキスト８０４が含まれている。さらに、表示部４６には、下側を第２の領域４６ｂとして、上述したステップＳ１２８において選択された提供者発話内容を含むテキスト８１０が含まれている。

また、例えば、ステップＳ９０においてサービス利用者が発した音声内容を、英語、中国語、および韓国語として認識し、ステップＳ１２２において、中国語として認識した利用者認識内容と一致する発話文コーパスがあり、英語および韓国語として認識した利用者認識内容と一致する発話文コーパスがなかった場合、図１９の（ｂ）に示すように、上述したテキスト８００、テキスト８０２、テキスト８０４、およびテキスト８１０に加えて、第２の領域４６ｂに、上述したテキスト８００、テキスト８０２、テキスト８０４、テキスト８１０と同様の内容をそれぞれ含むテキスト８２０、テキスト８２２、テキスト８２４、テキスト８３０、英語として認識できなかった旨を示す英語のテキスト８３２、および韓国語として認識できなかった旨を示す韓国語のテキスト８３４を含む構成であってもよい。

このように、本実施形態に係るコミュニケーション支援システム１では、表示対象の利用者認識内容に対応する、予め定められた発話文データベースおよび応答データベース（応答内容候補一覧）を参照して、利用者認識内容に対する応答内容を決定し、表示対象の利用者認識内容を表示部４６の第１の領域４６ａに表示し、応答内容を表示部４６の第２の領域４６ｂに表示する。この構成により、コミュニケーション支援システム１では、クライアント端末４０がサービス提供者として、サービス利用者の発話に対して応答することができる。

また、本実施形態に係るコミュニケーション支援システム１では、予め定められた発話文データベースおよび応答データベースに、利用者認識内容に対する応答内容が存在しない場合に、利用者音声内容を認識できなかった旨を表示する。そのため、コミュニケーション支援システム１では、ユーザに対して、ユーザの発話を認識できなかったことを通知することができる。

〔実施形態８〕
本発明の他の実施形態について、図２０に基づいて説明する。

本実施形態では、コミュニケーション支援システム１が、サービス利用者の発話内容に「コーヒー」などの商品名が含まれていることを認識した場合に表示する画像について、説明する。本実施形態では、端末記憶部５２に、商品に関する情報を含むデータベースが格納されており、音声認識部４４４は当該データベースを参照することができる。

上述したステップＳ１２２において、音声認識部４４４は、ステップＳ１２０において選択された利用者認識内容に、商品名が含まれていると判定した場合、当該商品に関する情報を、端末記憶部５２から取得する。

例えば、ステップＳ１２２において、ステップＳ１２０において選択された利用者認識内容

は、発話文ＩＤ「６」に関連付けられた発話文コーパス「我想要［Ｄｒｉｎｋ］」に一致し、「［Ｄｒｉｎｋ］」が

であると判定した場合、音声認識部４４４は、

に関する情報を、端末記憶部５２から取得する。そして、ステップＳ１３０において、選択した利用者認識内容および選択した提供者翻訳内容に加えて、取得した

に関する情報を、表示情報取得部４４８に出力する。この場合に、表示部４６に表示される画像の例を、図２０に示す。図２０は、本発明の実施形態８において表示部４６に表示される画像の一例を示す図である。

図２０に示すように、表示部４６には、（１）中国語として認識された利用者認識内容を含むテキスト８４０、（２）英語として認識された利用者認識内容を含むテキスト８４２、および（３）韓国語として認識された利用者認識内容を含むテキスト８４４が含まれている。さらに、表示部４６が表示する画像には、ステップＳ１２２において利用者認識内容に含まれていると判定した商品に関する情報８４６が含まれている。

このように、本実施形態に係るコミュニケーション支援システム１では、利用者認識内容に商品名が含まれていた場合、当該商品に関する情報を表示部４６に表示する。そのため、コミュニケーション支援システム１では、サービス利用者が発した商品名に関する情報をサービス利用者に提示することができる。

なお、本実施形態では、サービス提供者がクライアント端末４０である場合について説明したが、実施形態１〜実施形態６に記載したように、サービス提供者が例えば店員である場合であっても、コミュニケーション支援システム１は、表示部４６（第１の領域４６ａおよび第２の領域４６ｂの少なくとも何れか）に商品に関する情報を表示してもよい。

〔実施形態９〕
認識サーバ１０、翻訳サーバ２０、支援サーバ３０、およびクライアント端末４０の制御ブロック（特に認識サーバ制御部１４、翻訳サーバ制御部２４、支援サーバ制御部３４、およびクライアント端末制御部４４）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。

後者の場合、認識サーバ１０、翻訳サーバ２０、支援サーバ３０、およびクライアント端末４０は、各機能を実現するソフトウェアであるプログラムの命令を実行するＣＰＵ、上記プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

〔実施形態１０〕
上記各実施形態では、複数の装置（認識サーバ１０、翻訳サーバ２０、支援サーバ３０、およびクライアント端末４０）を用いる例を説明したが、各装置の有する各機能を、１つの装置またはより多くの装置が備える構成であってもよい。例えば、上述の実施形態において端末記憶部５２に格納されたデータベース（発話文データベースおよび応答データベースを含む）は、支援サーバ３０に格納されていてもよいし、認識サーバ１０に格納されていてもよい。

また、上記各実施形態では、複数のサーバ（認識サーバ１０、翻訳サーバ２０、および支援サーバ３０）を用いる例を説明したが、各サーバの有する各機能が、１つのサーバまたはより多くのサーバが備える構成であってもよい。そして、複数のサーバを適用する場合においては、各サーバは、同じ事業者によって管理されていてもよいし、異なる事業者によって管理されていてもよい。

〔実施形態１１〕
認識サーバ１０、翻訳サーバ２０、支援サーバ３０、およびクライアント端末４０の各ブロックは、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。後者の場合、認識サーバ１０、翻訳サーバ２０、支援サーバ３０、およびクライアント端末４０のそれぞれを、図２１に示すようなコンピュータ（電子計算機）を用いて構成することができる。

図２１は、認識サーバ１０、翻訳サーバ２０、支援サーバ３０、およびクライアント端末４０として利用可能なコンピュータ９１０のハードウェア構成を例示したブロック図である。コンピュータ９１０は、バス９１１を介して互いに接続された演算装置９１２と、主記憶装置９１３と、補助記憶装置９１４と、入出力インターフェース９１５と、通信インターフェース９１６とを備えている。演算装置９１２、主記憶装置９１３、および補助記憶装置９１４は、それぞれ、例えばＣＰＵ、ＲＡＭ（random access memory）、ハードディスクドライブであってもよい。入出力インターフェース９１５には、ユーザがコンピュータ９１０に各種情報を入力するための入力装置９２０、および、コンピュータ９１０がユーザに各種情報を出力するための出力装置９３０が接続される。入力装置９２０および出力装置９３０は、コンピュータ９１０に内蔵されたものであってもよいし、コンピュータ９１０に接続された（外付けされた）ものであってもよい。例えば、入力装置９２０は、キーボード、マウス、タッチセンサなどであってもよく、出力装置９３０は、ディスプレイ、プリンタ、スピーカなどであってもよい。また、タッチセンサとディスプレイとが一体化されたタッチパネルのような、入力装置９２０および出力装置９３０の双方の機能を有する装置を適用してもよい。そして、通信インターフェース９１６は、コンピュータ９１０が外部の装置と通信するためのインターフェースである。

補助記憶装置９１４には、コンピュータ９１０を認識サーバ１０、翻訳サーバ２０、支援サーバ３０、およびクライアント端末４０として動作させるための各種のプログラムが格納されている。そして、演算装置９１２は、補助記憶装置９１４に格納された上記プログラムを主記憶装置９１３上に展開して該プログラムに含まれる命令を実行することによって、コンピュータ９１０を、認識サーバ１０、翻訳サーバ２０、支援サーバ３０、およびクライアント端末４０が備える各部として機能させる。なお、補助記憶装置９１４が備える、プログラム等の情報を記録する記録媒体は、コンピュータ読み取り可能な「一時的でない有形の媒体」であればよく、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブル論理回路などであってもよい。

また、上記プログラムは、コンピュータ９１０の外部から取得してもよく、この場合、任意の伝送媒体（通信ネットワークや放送波等）を介して取得してもよい。そして、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

１コミュニケーション支援システム
２ネットワーク
１０認識サーバ
１２認識サーバ通信部
１４認識サーバ制御部（制御部）
２０翻訳サーバ
２２翻訳サーバ通信部
２４翻訳サーバ制御部（制御部）
３０支援サーバ
３２支援サーバ通信部
３４支援サーバ制御部（制御部）
３４２情報管理部
３４４選択部
３４６表示態様決定部
３４８表示情報出力部
４０クライアント端末
４２クライアント端末通信部
４４クライアント端末制御部（制御部）
４４２音声情報取得部
４４４音声認識部
４４６操作信号取得部
４４８表示情報取得部
４５０表示制御部
４６表示部
４６ａ第１の領域
４６ｂ第２の領域
４８音声入力部
４８ａサービス利用者側音声入力部
４８ｂサービス提供者側音声入力部
５０操作部
５２端末記憶部

Claims

第１のユーザ向けの第１の領域および第２のユーザ向けの第２の領域を有する表示部と、音声入力部と、制御部と、を備えるコミュニケーション支援システムであって、
上記制御部は、
上記音声入力部を介して第１のユーザの音声を示す第１の音声情報を取得し、
上記第１の音声情報が示す第１の音声内容を複数の言語の各々として認識する認識処理を行い、
上記複数の言語の各々として認識された認識内容を示す第１の認識内容から、表示対象の第１の認識内容を選択する選択処理を行い、
上記表示対象の第１の認識内容を、上記表示部の第１の領域に表示する、
ことを特徴とするコミュニケーション支援システム。
上記制御部は、
上記選択処理において、
上記複数の言語の各々で認識する認識処理の確からしさを示す認識確度を参照して、上記表示対象の第１の認識内容を選択する、
ことを特徴とする請求項１に記載のコミュニケーション支援システム。
上記制御部は、
上記認識確度を参照して、上記表示対象の第１の認識内容を上記表示部の第１の領域に表示する表示態様を決定する、
ことを特徴とする請求項２に記載のコミュニケーション支援システム。
上記制御部は、
上記選択処理において、
予め定められた認識内容候補一覧を参照して、上記表示対象の第１の認識内容を選択する、
ことを特徴とする請求項１に記載のコミュニケーション支援システム。
上記制御部は、
上記表示対象の第１の認識内容を翻訳した第１の翻訳内容を取得し、
上記第１の翻訳内容を、上記表示部の第２の領域に表示する、
ことを特徴とする請求項１〜４の何れか１項に記載のコミュニケーション支援システム。
上記制御部は、
上記音声入力部を介して第２のユーザの音声を示す第２の音声情報を取得し、
上記第２の音声情報が示す第２の音声内容を認識する認識処理を行い、
上記認識処理によって認識された第２の認識内容を上記複数の言語に翻訳した第２の翻訳内容を取得し、
上記第２の翻訳内容を上記表示部の第１の領域に表示する、
ことを特徴とする請求項１〜５の何れか１項に記載のコミュニケーション支援システム。
操作子をさらに備え、
上記制御部は、
上記操作子を介して受け付けた入力に応じて、上記複数の言語のうち、何れの言語として上記第１の音声情報が示す第１の音声内容を認識するかを決定する、
ことを特徴とする請求項１〜６の何れか１項に記載のコミュニケーション支援システム。
上記制御部は、
上記表示対象の第１の認識内容に対応する、予め定められた応答内容候補一覧を参照して、上記第１の認識内容に対する応答内容を決定し、
上記表示対象の第１の認識内容を上記表示部の第１の領域に表示し、上記応答内容を上記表示部の第２の領域に表示する、
ことを特徴とする請求項１〜４の何れか１項に記載のコミュニケーション支援システム。
上記制御部は、
上記予め定められた応答内容候補一覧に、上記第１の認識内容に対する応答内容が存在しない場合に、
第１の音声内容を認識できなかった旨を表示する
ことを特徴とする請求項８に記載のコミュニケーション支援システム。
上記第１のユーザはサービス利用者であり、上記第２のユーザはサービス提供者である、
ことを特徴とする請求項１〜９の何れか１項に記載のコミュニケーション支援システム。
上記第１のユーザはサービス提供者であり、上記第２のユーザはサービス利用者である、
ことを特徴とする請求項１〜９の何れか１項に記載のコミュニケーション支援システム。
第１のユーザの音声を示す第１の音声情報を取得する取得ステップと、
上記第１の音声情報が示す第１の音声内容を複数の言語の各々として認識する認識ステップと、
上記複数の言語の各々として認識された認識内容を示す第１の認識内容から、表示対象の第１の認識内容を選択する選択ステップと、
上記表示対象の第１の認識内容を、第１のユーザ向けの第１の領域に表示する表示ステップと、
を含むことを特徴とするコミュニケーション支援方法。
第１のユーザ向けの第１の領域および第２のユーザ向けの第２の領域を有する表示部と、音声入力部と、制御部と、を備えるコミュニケーション支援システムとしてコンピュータを機能させるためのプログラムであって、上記制御部に、
上記音声入力部を介して第１のユーザの音声を示す第１の音声情報を取得する取得処理、
上記第１の音声情報が示す第１の音声内容を複数の言語の各々として認識する認識処理、
上記複数の言語の各々として認識された認識内容を示す第１の認識内容から、表示対象の第１の認識内容を選択する選択処理、
上記表示対象の第１の認識内容を、上記表示部の第１の領域に表示する表示処理、
を実行させることを特徴とするプログラム。