JP2017126042A - コミュニケーション支援システム、コミュニケーション支援方法、およびプログラム - Google Patents
コミュニケーション支援システム、コミュニケーション支援方法、およびプログラム Download PDFInfo
- Publication number
- JP2017126042A JP2017126042A JP2016006633A JP2016006633A JP2017126042A JP 2017126042 A JP2017126042 A JP 2017126042A JP 2016006633 A JP2016006633 A JP 2016006633A JP 2016006633 A JP2016006633 A JP 2016006633A JP 2017126042 A JP2017126042 A JP 2017126042A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- content
- user
- unit
- display
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Transfer Between Computers (AREA)
- Machine Translation (AREA)
Abstract
Description
(コミュニケーション支援システム1)
図2は、本発明の実施形態1におけるコミュニケーション支援システム1を模式的に示す図である。コミュニケーション支援システム1は、図2に示すように、認識サーバ10、翻訳サーバ20、支援サーバ30、およびクライアント端末40によって構成されている。本明細書では、クライアント端末40および支援サーバ30はローカルに設置されており、認識サーバ10および翻訳サーバ20はネットワーク2上に設置されている場合(支援サーバ30がネットワーク2を介して認識サーバ10、および翻訳サーバ20と通信可能な構成)について説明するが、支援サーバ30、認識サーバ10、および翻訳サーバ20が設置される場所については特に限定されない。
認識サーバ10は、図1に示すように、認識サーバ通信部12および認識サーバ制御部14を含んでいる。
翻訳サーバ20は、図1に示すように、翻訳サーバ通信部22および翻訳サーバ制御部24を含んでいる。
支援サーバ30は、図1に示すように、支援サーバ通信部32および支援サーバ制御部34を含んでいる。
支援サーバ制御部34は、図1に示すように、情報管理部342、選択部344、表示態様決定部346、および表示情報出力部348としても機能する。なお、各部の詳細な処理は、参照する図面を替えて後述する。
クライアント端末40は、図1に示すように、クライアント端末通信部42、クライアント端末制御部44、表示部46、音声入力部48、操作部(操作子)50、および端末記憶部52を含んでいる。
クライアント端末制御部44は、図1に示すように、音声情報取得部442、音声認識部444、操作信号取得部446、表示情報取得部448、および表示制御部450としても機能する。なお、各部の詳細な処理は、参照する図面を替えて後述する。
コミュニケーション支援システム1において、サービス提供者から発話があった場合の処理について、図3を用いて説明する。図3は、本発明の実施形態1におけるコミュニケーション支援システム1において、サービス提供者から発話があった場合の処理の流れの一例を示すシーケンス図である。以下の説明では、特に記載がない限り、サービス提供者が使用する言語は日本語であり、提供者認識内容を翻訳する言語は、英語、中国語、および韓国語である場合を例に挙げ、説明する。また、図3を用いた説明では、認識処理を認識サーバ10において実行する場合について説明する。
クライアント端末40の音声情報取得部442は、音声入力部48を介してサービス提供者が発した音声を示す提供者音声情報を取得する。具体的には、音声情報取得部442は、音声入力部48を介して、サービス提供者が発した「何かお探しですか?」を示す提供者音声情報を取得する。
音声情報取得部442は、クライアント端末通信部42を介して支援サーバ30に提供者音声情報を出力する。
支援サーバ30の情報管理部342は、支援サーバ通信部32を介して提供者音声情報を取得する。
情報管理部342は、提供者音声情報を取得すると、当該提供者音声情報が示す提供者音声内容を認識した認識結果を取得するため、支援サーバ通信部32を介して、当該提供者音声情報を認識サーバ10に出力する。
認識サーバ10の認識サーバ制御部14は、認識サーバ通信部12を介して、提供者音声情報を取得する。
認識サーバ制御部14は、取得した提供者音声情報が示す音声内容を、サービス提供者が使用する言語として認識する。具体的には、認識サーバ制御部14は、「何かお探しですか?」を示す提供者音声情報が示す提供者音声内容を、日本語として認識する。
認識サーバ制御部14は、認識した内容を示す提供者認識内容と、ステップS12における認識処理の確からしさを示す認識確度とを含む認識結果を、認識サーバ通信部12を介して支援サーバ30に出力する。具体的には、認識サーバ制御部14は、「何かお探しですか?」を日本語として認識したため、認識確度は高く、提供者認識内容も「何かお探しですか?」になる。
支援サーバ30の情報管理部342は、支援サーバ通信部32を介して認識結果を取得する。情報管理部342は、取得した認識結果を表示態様決定部346に出力する。
また、情報管理部342は、取得した認識結果に含まれる提供者認識内容を翻訳するため、提供者認識内容を、予め設定されている複数の言語である英語、中国語、および韓国語にそれぞれ翻訳する指示と共に、当該提供者認識内容を翻訳サーバ20に出力する。
翻訳サーバ20の翻訳サーバ制御部24は、翻訳サーバ通信部22を介して、提供者認識内容を取得する。
翻訳サーバ制御部24は、取得した提供者認識内容を、支援サーバ30によって指定された英語、中国語、および韓国語に翻訳する。具体的には、翻訳サーバ制御部24は、「何かお探しですか?」を英語、中国語、および韓国語に翻訳する。
翻訳サーバ制御部24は、翻訳処理において翻訳した提供者翻訳内容を、翻訳サーバ通信部22を介して支援サーバ30に出力する。
支援サーバ30の情報管理部342は、支援サーバ通信部32を介して提供者翻訳内容を取得する。情報管理部342は、取得した提供者翻訳内容を、表示態様決定部346に出力する。
表示態様決定部346は、提供者翻訳内容を取得すると、クライアント端末40の表示部46に表示する表示態様を決定する。具体的には、表示態様決定部346は、ステップS16において取得した認識結果に含まれる提供者認識内容をサービス提供者向けの第2の領域に表示させ、提供者翻訳内容をサービス利用者向けの第1の領域に表示させるように、表示態様を決定する。そして、表示態様決定部346は、決定した表示態様、提供者認識内容、および提供者翻訳内容を含む表示情報を、表示情報出力部348に出力する。
表示情報出力部348は、取得した表示情報を、支援サーバ通信部32を介してクライアント端末40に出力する。
クライアント端末40の表示情報取得部448は、クライアント端末通信部42を介して表示情報を取得する。表示情報取得部448は、取得した表示情報を表示制御部450に出力する。
表示制御部450は、表示情報を取得すると、表示情報に含まれる情報を参照し、表示部46に画像を表示させる。具体的には、表示制御部450は、表示情報に含まれる表示態様を参照し、表示情報に含まれる提供者認識内容をサービス提供者向けの第2の領域に表示させ、表示情報に含まれる提供者翻訳内容をサービス利用者向けの第1の領域に表示させる。このとき、表示部46に表示される画像の例を、図4に示す。図4は、本発明の実施形態1において表示部46に表示される画像の一例を示す図であり、(a)は、第1の領域46aに表示される画像であり、(b)は、第2の領域46bに表示される画像である。
続いて、コミュニケーション支援システム1において、サービス提供者から発話があった場合の別の処理について、図5を用いて説明する。図5は、本発明の実施形態1におけるコミュニケーション支援システム1において、サービス提供者から発話があった場合の処理の流れの他の例を示すシーケンス図である。図5を用いた説明では、認識処理をクライアント端末40において実行する場合について説明する。
クライアント端末40の音声情報取得部442は、音声入力部48を介してサービス提供者が発した音声を示す提供者音声情報を取得する。音声情報取得部442は、取得した提供者音声情報を、音声認識部444に出力する。
音声認識部444は、取得した提供者音声情報が示す音声内容を、サービス提供者が使用する言語として認識する。
音声認識部444は、認識した内容を示す提供者認識内容と、ステップS40における認識処理の確からしさを示す認識確度とを含む認識結果を、クライアント端末通信部42を介して支援サーバ30に出力する。
支援サーバ30の情報管理部342は、支援サーバ通信部32を介して認識結果を取得する。情報管理部342は、取得した認識結果を表示態様決定部346に出力する。
上述した処理と同じ処理であるため、説明を省略する。
コミュニケーション支援システム1において、サービス利用者から発話があった場合の処理(コミュニケーション支援方法)について、図6を用いて説明する。図6は、本発明の実施形態1におけるコミュニケーション支援システム1において、サービス利用者から発話があった場合の処理の流れを示すシーケンス図である。以下の説明では、特に記載がない限り、利用者認識内容は、英語、中国語、および韓国語として認識され、利用者認識内容を翻訳する言語は、日本語である場合を例に挙げ、説明する。
クライアント端末40の音声情報取得部442は、音声入力部48を介してサービス利用者が発した音声を示す利用者音声情報を取得する取得処理を行う。具体的には、音声情報取得部442は、音声入力部48を介して、上述したサービス提供者の「何かお探しですか?」に対してサービス利用者が発した
音声情報取得部442は、クライアント端末通信部42を介して支援サーバ30に利用者音声情報を出力する。
支援サーバ30の情報管理部342は、支援サーバ通信部32を介して利用者音声情報を取得する。
情報管理部342は、利用者音声情報を取得すると、当該利用者音声情報が示す利用者音声内容を認識した認識結果を取得するため、支援サーバ通信部32を介して、当該利用者音声情報を認識サーバ10に出力する。
認識サーバ10の認識サーバ制御部14は、認識サーバ通信部12を介して、利用者音声情報を取得する。
認識サーバ制御部14は、取得した利用者音声情報が示す音声内容を、英語、中国語、および韓国語として認識する。具体的には、認識サーバ制御部14は、「ウォシャンヤオコーヒー」という発音を、英語、中国語、および韓国語として認識する。
認識サーバ制御部14は、認識した内容を示す利用者認識内容と、ステップS62における認識処理の確からしさを示す認識確度とを含む認識結果を、認識サーバ通信部12を介して支援サーバ30に出力する。具体的には、認識サーバ制御部14は、「ウォシャンヤオコーヒー」を中国語として認識した認識結果は、認識確度は高く、利用者認識内容も
支援サーバ30の情報管理部342は、支援サーバ通信部32を介して認識結果を取得する。情報管理部342は、取得した認識結果を選択部344に出力する。
選択部344は、認識結果を参照し、表示対象の利用者認識内容を選択する。具体的には、選択部344は、認識結果に含まれている認識確度を参照し、認識確度が所定の閾値より高い認識確度で認識された利用者認識内容を選択する。より具体的には、「ウォシャンヤオコーヒー」を英語および中国語として認識した認識確度が所定の閾値より高く、韓国語として認識した認識確度が所定の閾値以下の場合、選択部344は、英語および中国語としてそれぞれ認識された利用者認識内容を選択する。そして、選択部344は、選択した利用者認識内容を、情報管理部342に出力する。また、選択部344は、選択した利用者認識内容を含む認識結果を、表示態様決定部346に出力する。
情報管理部342は、取得した利用者認識内容を翻訳するため、当該利用者認識内容を翻訳サーバ20に出力する。
翻訳サーバ20の翻訳サーバ制御部24は、翻訳サーバ通信部22を介して、利用者認識内容を取得する。
翻訳サーバ制御部24は、取得した利用者認識内容を、予め設定された日本語に翻訳する。具体的には、翻訳サーバ制御部24は、中国語の
翻訳サーバ制御部24は、翻訳処理において翻訳した利用者翻訳内容を、翻訳サーバ通信部22を介して支援サーバ30に出力する。
支援サーバ30の情報管理部342は、支援サーバ通信部32を介して利用者翻訳内容を取得する。情報管理部342は、取得した利用者翻訳内容を、表示態様決定部346に出力する。
表示態様決定部346は、利用者翻訳内容を取得すると、クライアント端末40の表示部46に表示する表示態様を決定する。具体的には、表示態様決定部346は、ステップS68において取得した認識結果に含まれる利用者認識内容をサービス利用者向けの第1の領域に表示させ、利用者翻訳内容をサービス提供者向けの第2の領域に表示させるように、表示態様を決定する。そして、表示態様決定部346は、決定した表示態様、利用者認識内容、および利用者翻訳内容を含む表示情報を、表示情報出力部348に出力する。
表示情報出力部348は、取得した表示情報を、支援サーバ通信部32を介してクライアント端末40に出力する。
クライアント端末40の表示情報取得部448は、クライアント端末通信部42を介して表示情報を取得する。表示情報取得部448は、取得した表示情報を表示制御部450に出力する。
表示制御部450は、表示情報を取得すると、表示情報に含まれる情報を参照し、表示部46に画像を表示させる。具体的には、表示制御部450は、表示情報に含まれる表示態様を参照し、表示情報に含まれる利用者認識内容をサービス利用者向けの第1の領域に表示させ、表示情報に含まれる利用者翻訳内容をサービス提供者向けの第2の領域に表示させる。このとき、表示部46に表示される画像の例を、図7に示す。図7は、本発明の実施形態1において表示部46に表示される画像の他の例を示す図であり、(a)は、第1の領域46aに表示される画像であり、(b)は、第2の領域46bに表示される画像である。
続いて、サービス提供者が図7の(b)に示す画像を見て、サービス利用者は「私はコーヒーが欲しいです」と発話したと判断し、サービス利用者に対して「ホットでよろしいですか?」と発話した場合について、図3を用いて説明する。
上述した処理と同じ処理であるため、説明を省略する。
情報管理部342は、取得した認識結果に含まれる提供者認識内容を翻訳するため、当該提供者認識内容を翻訳サーバ20に出力する。ここで、上述したステップS68において、選択部344は英語および中国語としてそれぞれ認識された利用者認識内容を選択したので、情報管理部342は、提供者認識内容を英語および中国語にそれぞれ翻訳する指示と共に、提供者認識内容を翻訳サーバ20に出力する。
翻訳サーバ20の翻訳サーバ制御部24は、翻訳サーバ通信部22を介して、提供者認識内容を取得すると共に、提供者認識内容を英語および中国語にそれぞれ翻訳する指示を受け付ける。
翻訳サーバ制御部24は、取得した提供者認識内容を、受け付けた指示に従い、英語および中国語に翻訳する。具体的には、翻訳サーバ制御部24は、「ホットでよろしいですか?」を英語および中国語に翻訳する。
上述した処理と同じ処理であるため、説明を省略する。ここで、ステップS34において表示部46に表示される画像の例を、図8の(a)および(b)に示す。図8は、本発明の実施形態1において表示部46に表示される画像のさらに他の例を示す図であり,(a)は、第1の領域46aに表示される画像であり、(b)は、第2の領域46bに表示される画像である。
続いて、サービス利用者が図8の(a)に示す画像を見て、「好的」と発話した場合について、図6を用いて説明する。
上述した処理と同じ処理であるため、説明を省略する。
情報管理部342は、利用者音声情報を取得すると、当該利用者音声情報が示す利用者音声内容を認識した認識結果を取得するため、支援サーバ通信部32を介して、当該利用者音声情報を認識サーバ10に出力する。ここで、上述したステップS68において、選択部344は英語および中国語としてそれぞれ認識された利用者認識内容を選択したので、情報管理部342は、利用者音声情報を英語および中国語として認識する指示と共に、利用者音声情報を翻訳サーバ20に出力する。
認識サーバ10の認識サーバ制御部14は、認識サーバ通信部12を介して、利用者音声情報を取得すると共に、利用者音声情報を英語および中国語として認識する指示を受け付ける。
認識サーバ制御部14は、取得した利用者音声情報が示す音声内容を、英語および中国語として認識する。具体的には、認識サーバ制御部14は、「ハオダ」を、英語および中国語として認識する。
認識サーバ制御部14は、認識した内容を示す利用者認識内容と、ステップS62における認識処理の確からしさを示す認識確度とを含む認識結果を、認識サーバ通信部12を介して支援サーバ30に出力する。具体的には、認識サーバ制御部14は、「ハオダ」を中国語として認識した認識結果は、認識確度は高く、利用者認識内容も「好的」になる。一方、認識サーバ制御部14は、「ハオダ」を英語として認識した認識結果は、認識確度が低くなる。
支援サーバ30の情報管理部342は、支援サーバ通信部32を介して認識結果を取得する。情報管理部342は、取得した認識結果を選択部344に出力する。
選択部344は、認識結果を参照し、表示対象の利用者認識内容を選択する。具体的には、「ハオダ」を中国語として認識した認識確度が所定の閾値より高く、英語として認識した認識確度が所定の閾値以下の場合、選択部344は、中国語としてそれぞれ認識された利用者認識内容を選択する。そして、選択部344は、選択した利用者認識内容を、情報管理部342に出力する。また、選択部344は、選択した利用者認識内容を含む認識結果を、表示態様決定部346に出力する。
上述した処理と同じ処理であるため、説明を省略する。ここで、ステップS86において表示部46に表示される画像の例を、図8の(c)および(d)に示す。図8の(c)は、第1の領域46aに表示される画像であり、(d)は、第2の領域46bに表示される画像である。
本発明の他の実施形態について、図9〜図11に基づいて説明する。
図9は、本発明の実施形態2における端末記憶部52に格納されるデータベース(認識内容候補一覧)の例である。図9に示すように、端末記憶部52には、クライアント端末40が設置されている場所において頻繁に使用されると考えられる発話内容を英語、中国語、および日本語にそれぞれ翻訳した発話内容(以下、「認識コーパス」と称する)が関連付けて格納されている。
本実施形態において、サービス利用者から発話があった場合について、図10を用いて説明する。図10は、本発明の実施形態2におけるクライアント端末40の処理の流れを示すフローチャートである。本実施形態では、上述したステップS62における認識処理を、クライアント端末40において実行する。まず、図6を用いて説明したように、音声情報取得部442は、利用者音声情報を取得し、取得した利用者音声情報を音声認識部444に出力する。
上述したステップS62と同様、音声認識部444は、取得した利用者音声情報が示す音声内容を、複数の言語として認識する。例えば、サービス利用者が発した「ウォシャンヤオコーヒー」という発音を、英語、中国語、および韓国語として認識する。
続いて、音声認識部444は、各言語として認識した認識内容のうち、端末記憶部52に格納された認識コーパスに一致する認識内容があるか否かを判定する。
ステップS92において、「各言語として認識した認識内容のうち、端末記憶部52に格納された認識コーパスに一致する認識内容はない」と判定された場合(ステップS92:NO)、音声認識部444は、認識した内容を示す利用者認識内容と、ステップS90における認識処理の確からしさを示す認識確度とを含む認識結果を、クライアント端末通信部42を介して支援サーバ30に出力する。この場合、支援サーバ30は、図6におけるステップS68以降の処理を実行する。また、この場合、例えば、支援サーバ30が取得した認識確度が、所定の認識確度より低い場合、クライアント端末40から利用者音声情報の出力を要求し、ステップS56以降の処理を実行してもよい。
一方、ステップS92において、「各言語として認識した認識内容のうち、端末記憶部52に格納された認識コーパスに一致する認識内容がある」と判定された場合(ステップS92:YES)、音声認識部444は、一致した認識コーパスに対応する日本語のコーパス(換言すると、図9に示すデータベースにおいて、一致した認識コーパスに関連付けられた日本語の認識コーパス)を選択する。
音声認識部444は、一致した認識コーパスを利用者認識内容として、また、選択した日本語の認識コーパスを利用者翻訳内容として、表示情報取得部448に出力し、表示情報取得部448は表示処理を実行する。
本発明の他の実施形態について、図12に基づいて説明する。
上述した処理と同じ処理であるため、説明を省略する。
上述した処理と同様、選択部344は、認識結果を参照し、採用閾値より高いか否かを判定することにより、表示対象の利用者認識内容を選択する。ここで、例えば、英語、中国語、および韓国語として認識した場合の認識確度がそれぞれ「30」、「50」、および「10」であり、採用閾値が「60」であった場合、選択部344が表示対象の利用者認識内容として選択する利用者認識内容は存在しないことになる。この場合、選択部344は、英語、中国語、および韓国語として認識した場合の認識確度が、候補閾値より高いか否かを判定する。例えば、候補閾値が「5」であった場合、選択部344は、候補閾値より高い利用者認識内容を選択する。そして、選択部344は、選択した利用者認識内容を、情報管理部342に出力する。また、選択部344は、選択した利用者認識内容を含む認識結果を、表示態様決定部346に出力する。
上述した処理と同じ処理であるため、説明を省略する。
表示態様決定部346は、利用者翻訳内容を取得すると、クライアント端末40の表示部46に表示する表示態様を決定する。具体的には、表示態様決定部346は、ステップS68において取得した利用者認識内容の認識確度が採用閾値以下かつ候補閾値より高いので、認識確度が低い旨を示す表示態様に決定する。認識確度が低い旨を示す表示態様の例として、(1)文字を薄くして表示する、(2)「もしかして」「Did you mean」といった、認識確度が低かったことを暗示するテキストを付加する、などが挙げられる。そして、表示態様決定部346は、決定した表示態様、利用者認識内容、および利用者翻訳内容を含む表示情報を、表示情報出力部348に出力する。
上述した処理と同じ処理であるため、説明を省略する。
さらに、上述したステップS68において、英語、中国語、および韓国語として認識した場合の認識確度が、候補閾値以下の場合について、上述した図6のシーケンス図を用いて説明する。
上述した処理と同じ処理であるため、説明を省略する。
選択部344は、認識結果を参照し、採用閾値または候補閾値より高いか否かを判定することにより、表示対象の利用者認識内容を選択する。ここで、例えば、英語、中国語、および韓国語として認識した場合の認識確度がそれぞれ「10」、「20」、および「5」であり、候補閾値が「30」であった場合、選択部344が表示対象の利用者認識内容として選択する利用者認識内容は存在しないことになる。この場合、選択部344は、候補閾値より高い認識確度によって認識された認識内容が存在しない旨を示す情報を、表示態様決定部346に出力する。
ステップS70〜ステップS78の処理は実行せず、ステップS80に進む。
表示態様決定部346は、ステップS68において取得した情報を参照し、クライアント端末40の表示部46に表示する表示態様を決定する。具体的には、表示態様決定部346は、ステップS68において取得した情報が候補閾値より高い認識確度によって認識された認識内容が存在しない旨を示すので、発話内容を認識できなかった旨を示す表示態様に決定する。発話内容を認識できなかった旨を示す表示態様の例として、(1)認識できなかった旨を示すテキストを表示する、(2)言語を選択させるための画像を表示する、などが挙げられる。そして、表示態様決定部346は、決定した表示態様を含む表示情報を、表示情報出力部348に出力する。
上述した処理と同じ処理であるため、説明を省略する。
本発明の他の実施形態について、図13に基づいて説明する。
上述した処理と同じ処理であるため、説明を省略する。
表示態様決定部346は、提供者翻訳内容を取得すると、クライアント端末40の表示部46に表示する表示態様を決定する。ここで、表示態様決定部346は、言語ごとの回数情報を参照し、参照した回数情報に応じた表示態様を決定する。例えば、表示態様決定部346が取得した回数情報が、認識処理において、英語が200回、中国語が100回、韓国語が50回使用されていることを示す場合、最も多く使用されている英語に翻訳された提供者翻訳内容を第1の領域46aの上側に表示し、その下に、その次に多く使用されている中国語に翻訳された提供者翻訳内容を表示し、さらにその下に、韓国語に翻訳された提供者翻訳内容を表示するように、表示態様を決定する。そして、表示態様決定部346は、決定した表示態様、提供者認識内容、および提供者翻訳内容を含む表示情報を、表示情報出力部348に出力する。
上述した処理と同じ処理であるため、説明は省略する。
本実施形態の他の例として、サービス利用者を撮像した撮像画像を使用する構成について説明する。本例におけるコミュニケーション支援システム1では、サービス利用者を撮像した撮像画像を参照してサービス利用者が使用する言語を判定した判定結果を、表示態様決定部346が参照できる構成となっている。なお、サービス利用者を撮像した撮像画像を参照してサービス利用者が使用する言語を判定する処理は、コミュニケーション支援システム1を構成する各部の何れかにおいて実行されてもよいし、コミュニケーション支援システム1とは異なる装置が判定し、判定結果をコミュニケーション支援システム1が取得する構成であってもよい。
本発明の他の実施形態について、図14に基づいて説明する。
上述した処理と同様、クライアント端末40の音声情報取得部442は、音声入力部48を介してサービス利用者が発した音声を示す利用者音声情報を取得する取得処理を行う。ここで、例えば、決定した言語(中国語)以外の言語である英語を使用するサービス利用者が「I want tea」と発した場合、音声情報取得部442は、「I want tea」を示す利用者音声情報を取得する。
上述した処理と同じ処理であるため、説明は省略する。
上述したように、認識サーバ制御部14は、取得した利用者音声情報が示す音声内容を、英語、中国語、および韓国語として認識する。具体的には、認識サーバ制御部14は、「アイウォントティー」という発音を、英語、中国語、および韓国語として認識する。
上述した処理と同じ処理であるため、説明は省略する。
選択部344は、表示対象の利用者認識内容として、中国語として認識された利用者認識内容を選択してきたため、まずは、表示対象の利用者認識内容として、中国語として認識された利用者認識内容を選択する。ここで、選択部344は、中国語として認識した認識確度よりも他の言語として認識した認識確度が高い場合、当該他の言語として認識した利用者認識内容も選択する。例えば、「アイウォントティー」を中国語として認識した利用者認識内容が「Iwan七」、認識確度が「20」であり、「アイウォントティー」を英語として認識した利用者認識内容が「I want tea」、認識確度が「50」であり、「アイウォントティー」を韓国語として認識した利用者認識内容が
上述した処理と同じ処理であるため、説明は省略する。
表示態様決定部346は、利用者翻訳内容を取得すると、クライアント端末40の表示部46に表示する表示態様を決定する。ここで、表示態様決定部346は、ここまで表示対象として選択された利用者認識内容の言語(中国語)の認識確度より、ここまで表示対象として選択されなかった利用者認識内容の言語(英語)の認識確度の方が高い旨を示す表示態様に決定する。ここまで表示対象として選択された利用者認識内容の言語の認識確度より、ここまで表示対象として選択されなかった利用者認識内容の言語の認識確度の方が高い旨を示す表示態様の例として、(1)文字を薄くして表示する(他とは異なる表示態様にて表示する)、(2)「もしかして」「Did you mean」といった、ここまで表示対象として選択されなかったものの、認識確度が高いことを暗示するテキストを付加する、などが挙げられる。そして、表示態様決定部346は、決定した表示態様、利用者認識内容、および利用者翻訳内容を含む表示情報を、表示情報出力部348に出力する。
上述した処理と同じ処理であるため、説明を省略する。
本発明の他の実施形態について、図15〜図17に基づいて説明する。
図15は、本発明の実施形態6における端末記憶部52に格納されるデータベース(応答内容候補一覧)の例であり、(a)は、発話文データベースの例であり、(b)は、応答データベースの例である。
端末記憶部52には、クライアント端末40が設置されている場所においてよく使用されると考えられる発話内容を含む発話文データベースが格納されている。発話文データベースには、図15の(a)に示すように、項目「発話文ID」、項目「発話文種別」、および項目「発話文コーパス」が関連付けられている。
また、端末記憶部52には、クライアント端末40が設置されている場所において、ある発話文と、当該発話文に対する応答となる発話文とを関連付けた応答データベースが格納されている。応答データベースには、図15の(b)に示すように、項目「応答文ID」、項目「発話文種別」、項目「条件」、および項目「応答発話文種別」が関連付けられている。
本実施形態におけるクライアント端末40の処理の流れについて、図16を用いて説明する。図16は、本発明の実施形態6におけるクライアント端末40の処理の流れを示すフローチャートである。
上述したステップS62と同様、音声認識部444は、取得した利用者音声情報が示す音声内容を、複数の言語として認識する。例えば、サービス利用者が発した「ウォシャンヤオコーヒー」という発音を、英語、中国語、および韓国語として認識する。
続いて、音声認識部444は、各言語として認識した利用者認識内容のうち、所定の認識確度以上の利用者認識内容が複数存在するか否かを判定する。例えば、音声認識部444は、「ウォシャンヤオコーヒー」を、(1)英語として認識した認識確度、(2)中国語として認識した認識確度、および(3)韓国語として認識した認識確度が、それぞれ所定の認識確度以上であるか否かを判定する。
ステップS100において、「所定の認識確度以上の利用者認識内容が複数存在する」と判定された場合(ステップS100:YES)、音声認識部444は、直前(もしくは、それ以前、以下同様)の発話の提供者認識内容に一致する発話文コーパスが、発話文データベースに格納されているか否かを判定する。
ステップS102において、「直前の発話の提供者認識内容と一致する発話文コーパスがある」と判定された場合(ステップS102:YES)、音声認識部444は、直前の発話の提供者認識内容と一致する発話文コーパスに関連付けられた発話文種別を選択する。例えば、音声認識部444は、直前の発話の提供者認識内容「何かお探しですか?」と一致する発話文コーパスに関連付けられた発話文種別「1」を選択する。
続いて、音声認識部444は、応答データベースにおいて、ステップS104において選択した発話文種別に関連付けられた応答発話文種別のうち、条件が一致する応答発話文種別を選択する。例えば、音声認識部444は、図15の(b)に示す応答データベースにおいて、ステップS104において選択した発話文種別「1」に関連付けられた応答発話文種別に関連付けられた条件を参照する。発話文種別「1」に関連付けられた応答発話文種別に関連付けられた条件は、全て「―(条件なし)」であるため、音声認識部444は応答発話文種別「2」、「3」、「4」を選択する。
そして、音声認識部444は、発話文データベースにおいて、ステップS106において選択した応答発話文種別に関連付けられた発話文コーパスのうち、利用者認識内容と一致する発話文コーパスがあるか否かを判定する。
ステップS108において、「利用者認識内容と一致する発話文コーパスがある」と判定された場合(ステップS110:YES)、音声認識部444は、ステップS108において発話文コーパスと一致した利用者認識内容を、表示対象の利用者認識内容として選択する。
音声認識部444は、選択した利用者認識内容、および、発話文データベースにおいて、当該利用者認識内容と一致する発話文コーパスに関連付けられた日本語の発話文コーパスを利用者翻訳内容として、表示情報取得部448に出力し、表示情報取得部448は表示処理を実行する。なお、表示処理は、実施形態2のステップS98において説明した処理と同様、表示情報を支援サーバ30から取得する構成であってもよい。
上述したステップS100において「所定の認識確度以上の利用者認識内容が複数存在しない」と判定された場合(ステップS100:NO)、ステップS102において「直前の発話の提供者認識内容と一致する発話文コーパスがない」と判定された場合(ステップS102:NO)、またはステップS108において「利用者認識内容と一致する発話文コーパスがない」と判定された場合(ステップS108:NO)、音声認識部444は、利用者認識内容および認識確度を含む認識結果を、支援サーバ30にクライアント端末通信部42を介して支援サーバ30に出力する。支援サーバ30は、認識結果を取得すると、上述したステップS68以降の処理を実行する。
本発明の他の実施形態について、図18および図19に基づいて説明する。
本実施形態におけるクライアント端末40の処理の流れについて、図18を用いて説明する。図18は、本発明の実施形態7におけるクライアント端末40の処理の流れを示すフローチャートである。
音声認識部444は、取得した利用者音声情報が示す音声内容を、複数の言語として認識する。例えば、サービス利用者が発した「ウォシャンヤオコーヒー」という発音を、英語、中国語、および韓国語として認識する。
音声認識部444は、ステップS90における認識処理の確からしさを示す認識確度を参照し、表示対象の利用者認識内容を選択する。例えば、「ウォシャンヤオコーヒー」を中国語として認識した認識確度が所定の閾値より高く、英語および韓国語として認識した認識確度が所定の閾値以下の場合、選択部344は、中国語として認識された利用者認識内容
続いて、音声認識部444は、端末記憶部52に格納されている発話文データベースに、ステップS120において選択した利用者認識内容と一致する発話文コーパスがあるか否かを判定する。例えば、図15の(a)に示す発話文データベースの例では、ステップS120において選択された利用者認識内容
ステップS122において、「一致する発話文コーパスはある」と判定された場合(ステップS122:YES)、音声認識部444は、一致する発話文コーパスに関連付けられている発話文種別を選択する。例えば、利用者認識内容
音声認識部444は、応答データベースを参照し、ステップS124において選択した発話文種別に関連付けられている応答発話文種別のうち、条件を満たしている応答発話文種別を選択する。例えば、ステップS124において選択した発話文種別「3」に関連付けられている条件が、(1)[Drink]が在庫有り、(2)[Drink]が品切れ、および(3)その他、であり、(1)[Drink]が在庫有りを満たす場合、音声認識部444は、当該条件に関連付けられた応答発話文種別「201」を選択する。
音声認識部444は、発話文データベースを参照し、ステップS126において選択した応答発話文種別に関連付けられた発話文コーパスから、表示対象とする発話文コーパスを提供者翻訳内容として選択する。例えば、音声認識部444は、発話文種別「201」に関連付けられた発話文コーパスから、「[Drink]在以下」を選択する。
音声認識部444は、ステップS120において選択した利用者認識内容、およびステップS128において選択した提供者翻訳内容を、表示情報取得部448に出力し、表示情報取得部448は表示処理を実行する。なお、表示処理は、実施形態2のステップS98において説明した処理と同様、表示情報を支援サーバ30から取得する構成であってもよい。
一方、ステップS122において、「一致する発話文コーパスはない」と判定された場合(ステップS122:NO)、音声認識部444は、認識できなかった旨を示す提供者翻訳内容を、表示情報取得部448に出力し、表示情報取得部448は表示処理を実行する。なお、表示処理は、実施形態2のステップS98において説明した処理と同様、表示情報を支援サーバ30から取得する構成であってもよい。
本発明の他の実施形態について、図20に基づいて説明する。
認識サーバ10、翻訳サーバ20、支援サーバ30、およびクライアント端末40の制御ブロック(特に認識サーバ制御部14、翻訳サーバ制御部24、支援サーバ制御部34、およびクライアント端末制御部44)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
上記各実施形態では、複数の装置(認識サーバ10、翻訳サーバ20、支援サーバ30、およびクライアント端末40)を用いる例を説明したが、各装置の有する各機能を、1つの装置またはより多くの装置が備える構成であってもよい。例えば、上述の実施形態において端末記憶部52に格納されたデータベース(発話文データベースおよび応答データベースを含む)は、支援サーバ30に格納されていてもよいし、認識サーバ10に格納されていてもよい。
認識サーバ10、翻訳サーバ20、支援サーバ30、およびクライアント端末40の各ブロックは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。後者の場合、認識サーバ10、翻訳サーバ20、支援サーバ30、およびクライアント端末40のそれぞれを、図21に示すようなコンピュータ(電子計算機)を用いて構成することができる。
2 ネットワーク
10 認識サーバ
12 認識サーバ通信部
14 認識サーバ制御部(制御部)
20 翻訳サーバ
22 翻訳サーバ通信部
24 翻訳サーバ制御部(制御部)
30 支援サーバ
32 支援サーバ通信部
34 支援サーバ制御部(制御部)
342 情報管理部
344 選択部
346 表示態様決定部
348 表示情報出力部
40 クライアント端末
42 クライアント端末通信部
44 クライアント端末制御部(制御部)
442 音声情報取得部
444 音声認識部
446 操作信号取得部
448 表示情報取得部
450 表示制御部
46 表示部
46a 第1の領域
46b 第2の領域
48 音声入力部
48a サービス利用者側音声入力部
48b サービス提供者側音声入力部
50 操作部
52 端末記憶部
Claims (13)
- 第1のユーザ向けの第1の領域および第2のユーザ向けの第2の領域を有する表示部と、音声入力部と、制御部と、を備えるコミュニケーション支援システムであって、
上記制御部は、
上記音声入力部を介して第1のユーザの音声を示す第1の音声情報を取得し、
上記第1の音声情報が示す第1の音声内容を複数の言語の各々として認識する認識処理を行い、
上記複数の言語の各々として認識された認識内容を示す第1の認識内容から、表示対象の第1の認識内容を選択する選択処理を行い、
上記表示対象の第1の認識内容を、上記表示部の第1の領域に表示する、
ことを特徴とするコミュニケーション支援システム。 - 上記制御部は、
上記選択処理において、
上記複数の言語の各々で認識する認識処理の確からしさを示す認識確度を参照して、上記表示対象の第1の認識内容を選択する、
ことを特徴とする請求項1に記載のコミュニケーション支援システム。 - 上記制御部は、
上記認識確度を参照して、上記表示対象の第1の認識内容を上記表示部の第1の領域に表示する表示態様を決定する、
ことを特徴とする請求項2に記載のコミュニケーション支援システム。 - 上記制御部は、
上記選択処理において、
予め定められた認識内容候補一覧を参照して、上記表示対象の第1の認識内容を選択する、
ことを特徴とする請求項1に記載のコミュニケーション支援システム。 - 上記制御部は、
上記表示対象の第1の認識内容を翻訳した第1の翻訳内容を取得し、
上記第1の翻訳内容を、上記表示部の第2の領域に表示する、
ことを特徴とする請求項1〜4の何れか1項に記載のコミュニケーション支援システム。 - 上記制御部は、
上記音声入力部を介して第2のユーザの音声を示す第2の音声情報を取得し、
上記第2の音声情報が示す第2の音声内容を認識する認識処理を行い、
上記認識処理によって認識された第2の認識内容を上記複数の言語に翻訳した第2の翻訳内容を取得し、
上記第2の翻訳内容を上記表示部の第1の領域に表示する、
ことを特徴とする請求項1〜5の何れか1項に記載のコミュニケーション支援システム。 - 操作子をさらに備え、
上記制御部は、
上記操作子を介して受け付けた入力に応じて、上記複数の言語のうち、何れの言語として上記第1の音声情報が示す第1の音声内容を認識するかを決定する、
ことを特徴とする請求項1〜6の何れか1項に記載のコミュニケーション支援システム。 - 上記制御部は、
上記表示対象の第1の認識内容に対応する、予め定められた応答内容候補一覧を参照して、上記第1の認識内容に対する応答内容を決定し、
上記表示対象の第1の認識内容を上記表示部の第1の領域に表示し、上記応答内容を上記表示部の第2の領域に表示する、
ことを特徴とする請求項1〜4の何れか1項に記載のコミュニケーション支援システム。 - 上記制御部は、
上記予め定められた応答内容候補一覧に、上記第1の認識内容に対する応答内容が存在しない場合に、
第1の音声内容を認識できなかった旨を表示する
ことを特徴とする請求項8に記載のコミュニケーション支援システム。 - 上記第1のユーザはサービス利用者であり、上記第2のユーザはサービス提供者である、
ことを特徴とする請求項1〜9の何れか1項に記載のコミュニケーション支援システム。 - 上記第1のユーザはサービス提供者であり、上記第2のユーザはサービス利用者である、
ことを特徴とする請求項1〜9の何れか1項に記載のコミュニケーション支援システム。 - 第1のユーザの音声を示す第1の音声情報を取得する取得ステップと、
上記第1の音声情報が示す第1の音声内容を複数の言語の各々として認識する認識ステップと、
上記複数の言語の各々として認識された認識内容を示す第1の認識内容から、表示対象の第1の認識内容を選択する選択ステップと、
上記表示対象の第1の認識内容を、第1のユーザ向けの第1の領域に表示する表示ステップと、
を含むことを特徴とするコミュニケーション支援方法。 - 第1のユーザ向けの第1の領域および第2のユーザ向けの第2の領域を有する表示部と、音声入力部と、制御部と、を備えるコミュニケーション支援システムとしてコンピュータを機能させるためのプログラムであって、上記制御部に、
上記音声入力部を介して第1のユーザの音声を示す第1の音声情報を取得する取得処理、
上記第1の音声情報が示す第1の音声内容を複数の言語の各々として認識する認識処理、
上記複数の言語の各々として認識された認識内容を示す第1の認識内容から、表示対象の第1の認識内容を選択する選択処理、
上記表示対象の第1の認識内容を、上記表示部の第1の領域に表示する表示処理、
を実行させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016006633A JP6697270B2 (ja) | 2016-01-15 | 2016-01-15 | コミュニケーション支援システム、コミュニケーション支援方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016006633A JP6697270B2 (ja) | 2016-01-15 | 2016-01-15 | コミュニケーション支援システム、コミュニケーション支援方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017126042A true JP2017126042A (ja) | 2017-07-20 |
JP6697270B2 JP6697270B2 (ja) | 2020-05-20 |
Family
ID=59363950
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016006633A Active JP6697270B2 (ja) | 2016-01-15 | 2016-01-15 | コミュニケーション支援システム、コミュニケーション支援方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6697270B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6457706B1 (ja) * | 2018-03-26 | 2019-02-06 | 株式会社フォルテ | 翻訳システム、翻訳方法、及び翻訳装置 |
JP2019159311A (ja) * | 2018-03-12 | 2019-09-19 | 住友化学株式会社 | 偏光板およびそれを用いた画像表示装置 |
JP2020529032A (ja) * | 2018-06-12 | 2020-10-01 | 深▲せん▼市合言信息科技有限公司Langogo Technology Co.,Ltd. | 音声認識翻訳方法及び翻訳装置 |
JP2023031641A (ja) * | 2021-08-25 | 2023-03-09 | ソフトバンク株式会社 | 通信端末、プログラム、及び表示方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005025024A (ja) * | 2003-07-04 | 2005-01-27 | Microjenics Inc | 複数言語音声認識プログラム及び複数言語音声認識システム |
JP2006012179A (ja) * | 2005-07-19 | 2006-01-12 | Sony Corp | 自然言語処理装置および自然言語処理方法 |
JP2009025538A (ja) * | 2007-07-19 | 2009-02-05 | Nissan Motor Co Ltd | 音声対話装置 |
JP2010139826A (ja) * | 2008-12-12 | 2010-06-24 | Toyota Motor Corp | 音声認識システム |
JP2013073355A (ja) * | 2011-09-27 | 2013-04-22 | Toshiba Corp | 対話支援装置、方法及びプログラム |
JP2015069600A (ja) * | 2013-09-30 | 2015-04-13 | 株式会社東芝 | 音声翻訳システム、方法およびプログラム |
-
2016
- 2016-01-15 JP JP2016006633A patent/JP6697270B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005025024A (ja) * | 2003-07-04 | 2005-01-27 | Microjenics Inc | 複数言語音声認識プログラム及び複数言語音声認識システム |
JP2006012179A (ja) * | 2005-07-19 | 2006-01-12 | Sony Corp | 自然言語処理装置および自然言語処理方法 |
JP2009025538A (ja) * | 2007-07-19 | 2009-02-05 | Nissan Motor Co Ltd | 音声対話装置 |
JP2010139826A (ja) * | 2008-12-12 | 2010-06-24 | Toyota Motor Corp | 音声認識システム |
JP2013073355A (ja) * | 2011-09-27 | 2013-04-22 | Toshiba Corp | 対話支援装置、方法及びプログラム |
JP2015069600A (ja) * | 2013-09-30 | 2015-04-13 | 株式会社東芝 | 音声翻訳システム、方法およびプログラム |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019159311A (ja) * | 2018-03-12 | 2019-09-19 | 住友化学株式会社 | 偏光板およびそれを用いた画像表示装置 |
JP6457706B1 (ja) * | 2018-03-26 | 2019-02-06 | 株式会社フォルテ | 翻訳システム、翻訳方法、及び翻訳装置 |
WO2019186639A1 (ja) * | 2018-03-26 | 2019-10-03 | 株式会社フォルテ | 翻訳システム、翻訳方法、翻訳装置、及び音声入出力装置 |
JP2020529032A (ja) * | 2018-06-12 | 2020-10-01 | 深▲せん▼市合言信息科技有限公司Langogo Technology Co.,Ltd. | 音声認識翻訳方法及び翻訳装置 |
JP2023031641A (ja) * | 2021-08-25 | 2023-03-09 | ソフトバンク株式会社 | 通信端末、プログラム、及び表示方法 |
JP7357030B2 (ja) | 2021-08-25 | 2023-10-05 | ソフトバンク株式会社 | 通信端末、プログラム、及び表示方法 |
Also Published As
Publication number | Publication date |
---|---|
JP6697270B2 (ja) | 2020-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11081107B2 (en) | Contextual entity resolution | |
US10402501B2 (en) | Multi-lingual virtual personal assistant | |
US11004444B2 (en) | Systems and methods for enhancing user experience by communicating transient errors | |
JP4559946B2 (ja) | 入力装置、入力方法および入力プログラム | |
US9484034B2 (en) | Voice conversation support apparatus, voice conversation support method, and computer readable medium | |
US8918320B2 (en) | Methods, apparatuses and computer program products for joint use of speech and text-based features for sentiment detection | |
US8930187B2 (en) | Methods, apparatuses and computer program products for implementing automatic speech recognition and sentiment detection on a device | |
US11030400B2 (en) | System and method for identifying and replacing slots with variable slots | |
US11915693B2 (en) | System and method for rule based modifications to variable slots based on context | |
US20190172444A1 (en) | Spoken dialog device, spoken dialog method, and recording medium | |
US10672379B1 (en) | Systems and methods for selecting a recipient device for communications | |
JP6983118B2 (ja) | 対話システムの制御方法、対話システム及びプログラム | |
CN111462740A (zh) | 非语音字母语言的话音辅助应用原型测试的话音命令匹配 | |
US11501764B2 (en) | Apparatus for media entity pronunciation using deep learning | |
JP2017126042A (ja) | コミュニケーション支援システム、コミュニケーション支援方法、およびプログラム | |
US8583417B2 (en) | Translation device and computer program product | |
JP6622165B2 (ja) | 対話ログ分析装置、対話ログ分析方法およびプログラム | |
EP3503091A1 (en) | Dialogue control device and method | |
US11403470B2 (en) | Translation device | |
JP6085149B2 (ja) | 機能実行指示システム、機能実行指示方法及び機能実行指示プログラム | |
US10841411B1 (en) | Systems and methods for establishing a communications session | |
US11410638B1 (en) | Voice user interface for nested content | |
US11657805B2 (en) | Dynamic context-based routing of speech processing | |
US11705113B2 (en) | Priority and context-based routing of speech processing | |
US11830497B2 (en) | Multi-domain intent handling with cross-domain contextual signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180920 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190815 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190910 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191108 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200421 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200424 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6697270 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |