JP2017126042A - コミュニケーション支援システム、コミュニケーション支援方法、およびプログラム - Google Patents

コミュニケーション支援システム、コミュニケーション支援方法、およびプログラム Download PDF

Info

Publication number
JP2017126042A
JP2017126042A JP2016006633A JP2016006633A JP2017126042A JP 2017126042 A JP2017126042 A JP 2017126042A JP 2016006633 A JP2016006633 A JP 2016006633A JP 2016006633 A JP2016006633 A JP 2016006633A JP 2017126042 A JP2017126042 A JP 2017126042A
Authority
JP
Japan
Prior art keywords
recognition
content
user
unit
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016006633A
Other languages
English (en)
Other versions
JP6697270B2 (ja
Inventor
浩章 奥本
Hiroaki Okumoto
浩章 奥本
本山 雅
Masa Motoyama
雅 本山
慶子 蛭川
Keiko Hirukawa
慶子 蛭川
佳成 澤田
Yoshinari Sawada
佳成 澤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2016006633A priority Critical patent/JP6697270B2/ja
Publication of JP2017126042A publication Critical patent/JP2017126042A/ja
Application granted granted Critical
Publication of JP6697270B2 publication Critical patent/JP6697270B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)

Abstract

【課題】異なる言語を使用するユーザ同士のコミュニケーションを円滑にする。【解決手段】サービス利用者の利用者音声内容を複数の言語として認識する認識処理を行い、複数の言語の各々として認識された認識内容を示す利用者認識内容から、表示対象の利用者認識内容を選択する選択処理を行い、表示対象の利用者認識内容を表示部(46)の第1の領域(46a)に表示するコミュニケーション支援システム(1)。【選択図】図1

Description

本発明は異なる言語を使用するユーザ同士のコミュニケーションを支援するコミュニケーション支援システム、コミュニケーション支援方法、および当該コミュニケーション支援システムとしてコンピュータを機能させるためのプログラムに関する。
経済や文化のグローバル化に伴い、ある言語を使用するユーザが発した発話内容を、当該ある言語とは異なる言語に翻訳するための技術が開発されている。
例えば、特許文献1には、2以上の各音声認識装置から受信した音声認識スコアを用いて最も確からしい音声認識結果を選択し、2以上の各翻訳装置から受信した、選択した音声認識結果の翻訳スコアを用いて最も確からしい翻訳結果を選択する制御装置が記載されている。当該制御装置では、2以上の各音声合成装置から受信した音声合成スコアを用いて音声合成結果を選択し、選択した音声合成結果を音声出力する第二端末装置に送信する。
また、特許文献2には、入力された自然言語の音声の信号を分析し、分析された音声を、複数言語の自然言語用音響モデルと自然言語用言語モデルの自然言語用発音辞書を用いてそれぞれ並列に探索する言語自動識別装置が記載されている。当該言語自動識別装置は、探索された結果の尤度を比較して、入力された自然言語の言語を識別する。
特開2011−90100号公報(2011年5月6日公開) 特開2004−347732号公報(2004年12月9日公開)
しかしながら、上述のような従来技術では、ユーザが発話した内容を、ユーザが使用している言語とは異なる言語による発話であると装置が認識してしまった場合、ユーザの発話した内容を正しく翻訳することができない。そのため、ある言語を使用するユーザと、当該ある言語とは異なる言語を使用するユーザとが、円滑にコミュニケーションを取ることができなくなるという問題がある。
本発明は、前記の問題点に鑑みてなされたものであり、その目的は、異なる言語を使用するユーザ同士のコミュニケーションを円滑にする技術を提供することである。
上記の課題を解決するために、本発明の一態様に係るコミュニケーション支援システムは、第1のユーザ向けの第1の領域および第2のユーザ向けの第2の領域を有する表示部と、音声入力部と、制御部と、を備えるコミュニケーション支援システムであって、上記制御部は、上記音声入力部を介して第1のユーザの音声を示す第1の音声情報を取得し、上記第1の音声情報が示す第1の音声内容を複数の言語の各々として認識する認識処理を行い、上記複数の言語の各々として認識された認識内容を示す第1の認識内容から、表示対象の第1の認識内容を選択する選択処理を行い、上記表示対象の第1の認識内容を、上記表示部の第1の領域に表示する。
また、上記の課題を解決するために、本発明の一態様に係るコミュニケーション支援方法は、第1のユーザの音声を示す第1の音声情報を取得する取得ステップと、上記第1の音声情報が示す第1の音声内容を複数の言語の各々として認識する認識ステップと、上記複数の言語の各々として認識された認識内容を示す第1の認識内容から、表示対象の第1の認識内容を選択する選択ステップと、上記表示対象の第1の認識内容を、第1のユーザ向けの第1の領域に表示する表示ステップと、を含む。
また、上記の課題を解決するために、本発明の一態様に係るプログラムは、第1のユーザ向けの第1の領域および第2のユーザ向けの第2の領域を有する表示部と、音声入力部と、制御部と、を備えるコミュニケーション支援システムとしてコンピュータを機能させるためのプログラムであって、上記制御部に、上記音声入力部を介して第1のユーザの音声を示す第1の音声情報を取得する取得処理、上記第1の音声情報が示す第1の音声内容を複数の言語の各々として認識する認識処理、上記複数の言語の各々として認識された認識内容を示す第1の認識内容から、表示対象の第1の認識内容を選択する選択処理、上記表示対象の第1の認識内容を、上記表示部の第1の領域に表示する表示処理、を実行させる。
本発明の一態様によれば、異なる言語を使用するユーザ同士のコミュニケーションを円滑にすることができる。
本発明の実施形態1におけるコミュニケーション支援システムの要部構成を示すブロック図である。 本発明の実施形態1におけるコミュニケーション支援システムを模式的に示す図である。 本発明の実施形態1におけるコミュニケーション支援システムにおいて、サービス提供者から発話があった場合の処理の流れの一例を示すシーケンス図である。 本発明の実施形態1において表示部に表示される画像の一例を示す図である。 本発明の実施形態1におけるコミュニケーション支援システムにおいて、サービス提供者から発話があった場合の処理の流れの他の例を示すシーケンス図である。 本発明の実施形態1におけるコミュニケーション支援システムにおいて、サービス利用者から発話があった場合の処理の流れを示すシーケンス図である。 本発明の実施形態1において表示部に表示される画像の他の例を示す図である。 本発明の実施形態1において表示部に表示される画像のさらに他の例を示す図である。 本発明の実施形態2における端末記憶部に格納されるデータベースの例である。 本発明の実施形態2におけるクライアント端末の処理の流れを示すフローチャートである。 本発明の実施形態2において表示部に表示される画像の一例を示す図である。 本発明の実施形態3において表示部に表示される画像の一例を示す図である。 本発明の実施形態4において表示部に表示される画像の一例を示す図である。 本発明の実施形態5において表示部に表示される画像の一例を示す図である。 本発明の実施形態6における端末記憶部に格納されるデータベースの例である。 本発明の実施形態6におけるクライアント端末の処理の流れを示すフローチャートである。 本発明の実施形態6において表示部に表示される画像の一例を示す図である。 本発明の実施形態7におけるクライアント端末の処理の流れを示すフローチャートである。 本発明の実施形態7において表示部に表示される画像の一例を示す図である。 本発明の実施形態8において表示部に表示される画像の一例を示す図である。 認識サーバ、翻訳サーバ、支援サーバ、およびクライアント端末として利用可能なコンピュータのハードウェア構成を例示したブロック図である。
以下、本発明の実施の形態について、詳細に説明する。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
〔実施形態1〕
(コミュニケーション支援システム1)
図2は、本発明の実施形態1におけるコミュニケーション支援システム1を模式的に示す図である。コミュニケーション支援システム1は、図2に示すように、認識サーバ10、翻訳サーバ20、支援サーバ30、およびクライアント端末40によって構成されている。本明細書では、クライアント端末40および支援サーバ30はローカルに設置されており、認識サーバ10および翻訳サーバ20はネットワーク2上に設置されている場合(支援サーバ30がネットワーク2を介して認識サーバ10、および翻訳サーバ20と通信可能な構成)について説明するが、支援サーバ30、認識サーバ10、および翻訳サーバ20が設置される場所については特に限定されない。
コミュニケーション支援システム1では、コミュニケーション支援システム1を用いてコミュニケーションを図る複数のユーザ(第1のユーザおよび第2のユーザ)が発した音声に応じて、(1)当該音声の内容を所定の言語として認識された認識内容、および(2)当該認識内容を所定の言語に翻訳した翻訳内容、の少なくとも何れかがクライアント端末40の表示部46に表示される。このように、コミュニケーション支援システム1は、異なる言語を使用する第1のユーザおよび第2のユーザがコミュニケーションを図ることを支援するシステムである。
本明細書では、第1のユーザがサービス利用者(例えば、コンビニエンスストアを利用する客)、第2のユーザがサービス提供者(例えば、当該コンビニエンスストアの店員)である場合を例に挙げて説明するが、これに限定されない。例えば、第1のユーザがサービス提供者であり、第2のユーザがサービス利用者であってもよい。また、第2のユーザの他の例として、コンビニエンスストアに設置されている装置であって、客が操作することにより商材の情報の表示や商材の注文などを行う装置も挙げられる。
コミュニケーション支援システム1を構成する各装置の構成について、図1を参照して説明する。図1は、本発明の実施形態1におけるコミュニケーション支援システム1の要部構成を示すブロック図である。
(認識サーバ10)
認識サーバ10は、図1に示すように、認識サーバ通信部12および認識サーバ制御部14を含んでいる。
認識サーバ通信部12は、外部の装置と通信するための通信インターフェースである。
認識サーバ制御部14は、認識サーバ10の各構成を統括的に制御する演算装置である。より具体的には、認識サーバ制御部14は、認識サーバ通信部12を介して、(1)サービス提供者が発した音声を示すサービス提供者音声情報、または(2)サービス利用者が発した音声を示すサービス利用者音声情報、を取得する。
そして、認識サーバ制御部14は、取得した音声情報が示す音声内容を、予め設定された複数の言語として認識する認識処理を行う。なお、以下では、「A音声情報が示すA音声内容を認識する」を、「A音声情報を認識する」と記載する場合もある。認識サーバ制御部14は、認識する言語を指定されることによって、予め設定された複数の言語のうち指定された言語として音声内容を認識する構成であってもよいし、取得した音声情報に応じて認識する言語を変更する構成であってもよい。
例えば、認識サーバ制御部14は、取得した音声情報を英語で認識するよう指定されると、取得した音声情報が示す音声内容を英語で認識する認識処理を行う。また、認識サーバ制御部14は、サービス提供者音声情報を取得した場合は日本語で認識するよう設定されている場合、サービス提供者音声情報を取得すると、当該サービス提供者音声情報が示す音声内容を日本語で認識する認識処理を行う。
なお、本明細書では、認識サーバ制御部14は、サービス提供者音声情報を取得した場合、サービス提供者音声情報が示す音声内容を、予め設定されたサービス提供者が使用する言語として認識する認識処理を行う。また、認識サーバ制御部14は、サービス利用者音声情報を取得した場合、予め設定された複数の言語のうち、指定された言語にて認識する認識処理を行う。
そして、認識サーバ制御部14は、認識した内容を示す認識内容(サービス提供者音声情報が示す音声内容を認識した認識内容を示す提供者認識内容、または、サービス利用者音声情報が示す音声内容を認識した認識内容を示す利用者認識内容)と、当該認識処理の確からしさを示す認識確度とを含む認識結果を、認識サーバ通信部12を介して出力する。なお、「音声情報が示す音声内容Aを言語Bとして認識する」とは、Aを言語Bであるとして解釈するという意味が含まれる。
(翻訳サーバ20)
翻訳サーバ20は、図1に示すように、翻訳サーバ通信部22および翻訳サーバ制御部24を含んでいる。
翻訳サーバ通信部22は、外部の装置と通信するための通信インターフェースである。
翻訳サーバ制御部24は、翻訳サーバ20の各構成を統括的に制御する演算装置である。より具体的には、翻訳サーバ制御部24は、翻訳サーバ通信部22を介して、提供者認識内容、または利用者認識内容を取得する。
そして、翻訳サーバ制御部24は、取得した認識内容を、予め設定された複数の言語に翻訳する翻訳処理を行う。翻訳サーバ制御部24は、翻訳する言語を指定されることによって、予め設定された複数の言語のうち指定された言語として翻訳する構成であってもよいし、取得した認識内容に応じて翻訳する言語を変更する構成であってもよい。
例えば、翻訳サーバ制御部24は、取得した認識内容を英語に翻訳するよう指定されると、取得した認識内容を英語で翻訳する翻訳処理を行う。また、翻訳サーバ制御部24は、利用者認識内容を取得した場合は日本語に翻訳するよう設定されている場合、利用者認識内容を取得すると、当該利用者認識内容を日本語で翻訳する翻訳処理を行う。
なお、本明細書では、翻訳サーバ制御部24は、提供者認識内容を取得した場合、予め設定された複数の言語のうち、指定された言語に翻訳する翻訳処理を行う。また、翻訳サーバ制御部24は、利用者認識内容を取得した場合、予め設定されたサービス提供者が使用する言語に翻訳する。
そして、翻訳サーバ制御部24は、翻訳した内容を示す翻訳内容を、翻訳サーバ通信部22を介して出力する。
(支援サーバ30)
支援サーバ30は、図1に示すように、支援サーバ通信部32および支援サーバ制御部34を含んでいる。
支援サーバ通信部32は、外部の装置と通信するための通信インターフェースである。
支援サーバ制御部34は、支援サーバ30の各構成を統括的に制御する演算装置である。支援サーバ制御部34の詳細について、以下に説明する。
(支援サーバ制御部34)
支援サーバ制御部34は、図1に示すように、情報管理部342、選択部344、表示態様決定部346、および表示情報出力部348としても機能する。なお、各部の詳細な処理は、参照する図面を替えて後述する。
情報管理部342は、支援サーバ通信部32を介して取得した情報を管理する。
選択部344は、取得した認識内容から、表示対象の認識内容を選択する選択処理を行う。
表示態様決定部346は、クライアント端末40に認識内容または翻訳内容を表示させる表示態様を決定する。
表示情報出力部348は、クライアント端末40に認識内容または翻訳内容を表示させるための情報である表示情報を、支援サーバ通信部32を介して出力する。
(クライアント端末40)
クライアント端末40は、図1に示すように、クライアント端末通信部42、クライアント端末制御部44、表示部46、音声入力部48、操作部(操作子)50、および端末記憶部52を含んでいる。
クライアント端末通信部42は、外部の装置と通信するための通信インターフェースである。
表示部46は、取得した画像信号が示す画像を表示する表示デバイスである。また、表示部46は、サービス利用者向けの第1の領域およびサービス提供者向けの第2の領域を有している。
音声入力部48は、クライアント端末40の周辺の音声を取得し、取得した音声を示す音声情報を出力する。
操作部50は、ユーザの操作を受け付け、受け付けた操作を示す操作信号を出力するデバイスである。
端末記憶部52は、データベースなどが格納されている記憶装置である。
クライアント端末制御部44は、クライアント端末40の各構成を統括的に制御する演算装置である。クライアント端末制御部44の詳細について、以下に説明する。
(クライアント端末制御部44)
クライアント端末制御部44は、図1に示すように、音声情報取得部442、音声認識部444、操作信号取得部446、表示情報取得部448、および表示制御部450としても機能する。なお、各部の詳細な処理は、参照する図面を替えて後述する。
音声情報取得部442は、音声入力部48を介して、音声情報を取得する。
音声認識部444は、上述した認識サーバ制御部14と同様の処理を実行する。
操作信号取得部446は、操作部50を介して、操作信号を取得する。
表示情報取得部448は、クライアント端末通信部42を介して、表示情報を取得する。
表示制御部450は、表示部46に表示させる画像を示す画像信号を出力する。
(サービス提供者から発話があった場合1)
コミュニケーション支援システム1において、サービス提供者から発話があった場合の処理について、図3を用いて説明する。図3は、本発明の実施形態1におけるコミュニケーション支援システム1において、サービス提供者から発話があった場合の処理の流れの一例を示すシーケンス図である。以下の説明では、特に記載がない限り、サービス提供者が使用する言語は日本語であり、提供者認識内容を翻訳する言語は、英語、中国語、および韓国語である場合を例に挙げ、説明する。また、図3を用いた説明では、認識処理を認識サーバ10において実行する場合について説明する。
(ステップS2)
クライアント端末40の音声情報取得部442は、音声入力部48を介してサービス提供者が発した音声を示す提供者音声情報を取得する。具体的には、音声情報取得部442は、音声入力部48を介して、サービス提供者が発した「何かお探しですか?」を示す提供者音声情報を取得する。
なお、クライアント端末40が、取得した音声情報は提供者が発した音声を示す音声情報であるか否かを判定する方法の例として、サービス利用者側に取り付けられたサービス利用者側音声入力部48aと、サービス提供者側に取り付けられたサービス提供者側音声入力部48bとを備え、サービス提供者側音声入力部48bを介して取得した音声情報を、提供者音声情報と判定する構成が挙げられる。
(ステップS4)
音声情報取得部442は、クライアント端末通信部42を介して支援サーバ30に提供者音声情報を出力する。
(ステップS6)
支援サーバ30の情報管理部342は、支援サーバ通信部32を介して提供者音声情報を取得する。
(ステップS8)
情報管理部342は、提供者音声情報を取得すると、当該提供者音声情報が示す提供者音声内容を認識した認識結果を取得するため、支援サーバ通信部32を介して、当該提供者音声情報を認識サーバ10に出力する。
(ステップS10)
認識サーバ10の認識サーバ制御部14は、認識サーバ通信部12を介して、提供者音声情報を取得する。
(ステップS12)
認識サーバ制御部14は、取得した提供者音声情報が示す音声内容を、サービス提供者が使用する言語として認識する。具体的には、認識サーバ制御部14は、「何かお探しですか?」を示す提供者音声情報が示す提供者音声内容を、日本語として認識する。
(ステップS14)
認識サーバ制御部14は、認識した内容を示す提供者認識内容と、ステップS12における認識処理の確からしさを示す認識確度とを含む認識結果を、認識サーバ通信部12を介して支援サーバ30に出力する。具体的には、認識サーバ制御部14は、「何かお探しですか?」を日本語として認識したため、認識確度は高く、提供者認識内容も「何かお探しですか?」になる。
(ステップS16)
支援サーバ30の情報管理部342は、支援サーバ通信部32を介して認識結果を取得する。情報管理部342は、取得した認識結果を表示態様決定部346に出力する。
(ステップS18)
また、情報管理部342は、取得した認識結果に含まれる提供者認識内容を翻訳するため、提供者認識内容を、予め設定されている複数の言語である英語、中国語、および韓国語にそれぞれ翻訳する指示と共に、当該提供者認識内容を翻訳サーバ20に出力する。
(ステップS20)
翻訳サーバ20の翻訳サーバ制御部24は、翻訳サーバ通信部22を介して、提供者認識内容を取得する。
(ステップS22)
翻訳サーバ制御部24は、取得した提供者認識内容を、支援サーバ30によって指定された英語、中国語、および韓国語に翻訳する。具体的には、翻訳サーバ制御部24は、「何かお探しですか?」を英語、中国語、および韓国語に翻訳する。
(ステップS24)
翻訳サーバ制御部24は、翻訳処理において翻訳した提供者翻訳内容を、翻訳サーバ通信部22を介して支援サーバ30に出力する。
(ステップS26)
支援サーバ30の情報管理部342は、支援サーバ通信部32を介して提供者翻訳内容を取得する。情報管理部342は、取得した提供者翻訳内容を、表示態様決定部346に出力する。
(ステップS28)
表示態様決定部346は、提供者翻訳内容を取得すると、クライアント端末40の表示部46に表示する表示態様を決定する。具体的には、表示態様決定部346は、ステップS16において取得した認識結果に含まれる提供者認識内容をサービス提供者向けの第2の領域に表示させ、提供者翻訳内容をサービス利用者向けの第1の領域に表示させるように、表示態様を決定する。そして、表示態様決定部346は、決定した表示態様、提供者認識内容、および提供者翻訳内容を含む表示情報を、表示情報出力部348に出力する。
(ステップS30)
表示情報出力部348は、取得した表示情報を、支援サーバ通信部32を介してクライアント端末40に出力する。
(ステップS32)
クライアント端末40の表示情報取得部448は、クライアント端末通信部42を介して表示情報を取得する。表示情報取得部448は、取得した表示情報を表示制御部450に出力する。
(ステップS34)
表示制御部450は、表示情報を取得すると、表示情報に含まれる情報を参照し、表示部46に画像を表示させる。具体的には、表示制御部450は、表示情報に含まれる表示態様を参照し、表示情報に含まれる提供者認識内容をサービス提供者向けの第2の領域に表示させ、表示情報に含まれる提供者翻訳内容をサービス利用者向けの第1の領域に表示させる。このとき、表示部46に表示される画像の例を、図4に示す。図4は、本発明の実施形態1において表示部46に表示される画像の一例を示す図であり、(a)は、第1の領域46aに表示される画像であり、(b)は、第2の領域46bに表示される画像である。
図4の(a)に示すように、第1の領域46aに表示される画像には、提供者認識内容を、(1)英語に翻訳した翻訳内容を含むテキスト600、(2)中国語に翻訳した翻訳内容を含むテキスト602、および(3)韓国語に翻訳した翻訳内容を含むテキスト604が含まれている。また、第1の領域46aに表示される画像には、コミュニケーション支援システムにおいて英語、中国語、および韓国語以外の他の言語にも翻訳した場合、当該他の言語の翻訳内容を表示させるための操作を受け付けるボタン606が含まれていてもよい。
また、図4の(b)に示すように、第2の領域46bに表示される画像には、提供者認識内容を含むテキスト700が含まれている。
(サービス提供者から発話があった場合2)
続いて、コミュニケーション支援システム1において、サービス提供者から発話があった場合の別の処理について、図5を用いて説明する。図5は、本発明の実施形態1におけるコミュニケーション支援システム1において、サービス提供者から発話があった場合の処理の流れの他の例を示すシーケンス図である。図5を用いた説明では、認識処理をクライアント端末40において実行する場合について説明する。
(ステップS2)
クライアント端末40の音声情報取得部442は、音声入力部48を介してサービス提供者が発した音声を示す提供者音声情報を取得する。音声情報取得部442は、取得した提供者音声情報を、音声認識部444に出力する。
(ステップS40)
音声認識部444は、取得した提供者音声情報が示す音声内容を、サービス提供者が使用する言語として認識する。
(ステップS42)
音声認識部444は、認識した内容を示す提供者認識内容と、ステップS40における認識処理の確からしさを示す認識確度とを含む認識結果を、クライアント端末通信部42を介して支援サーバ30に出力する。
(ステップS44)
支援サーバ30の情報管理部342は、支援サーバ通信部32を介して認識結果を取得する。情報管理部342は、取得した認識結果を表示態様決定部346に出力する。
(ステップS18〜ステップS34)
上述した処理と同じ処理であるため、説明を省略する。
このように、音声情報に含まれる音声内容を認識する認識処理は、クライアント端末40において実行されてもよいし、認識サーバ10において実行されてもよい。認識処理がクライアント端末40において実行される場合、クライアント端末40、支援サーバ30、および認識サーバ10との間における通信量を減少させることができるという効果がある。一方、認識処理が認識サーバ10において実行される場合、クライアント端末40の負荷を減少させることができるという効果がある。また、クライアント端末40においてまず認識処理を実行し、認識確度が所定の値より低い場合、認識サーバ10に認識処理を実行させる構成であってもよい。そのため、特に記載がない限り、認識処理を行う装置については、限定されない。
(サービス利用者から発話があった場合)
コミュニケーション支援システム1において、サービス利用者から発話があった場合の処理(コミュニケーション支援方法)について、図6を用いて説明する。図6は、本発明の実施形態1におけるコミュニケーション支援システム1において、サービス利用者から発話があった場合の処理の流れを示すシーケンス図である。以下の説明では、特に記載がない限り、利用者認識内容は、英語、中国語、および韓国語として認識され、利用者認識内容を翻訳する言語は、日本語である場合を例に挙げ、説明する。
(ステップS52:取得ステップ)
クライアント端末40の音声情報取得部442は、音声入力部48を介してサービス利用者が発した音声を示す利用者音声情報を取得する取得処理を行う。具体的には、音声情報取得部442は、音声入力部48を介して、上述したサービス提供者の「何かお探しですか?」に対してサービス利用者が発した
を示す利用者音声情報を取得する。
(ステップS54)
音声情報取得部442は、クライアント端末通信部42を介して支援サーバ30に利用者音声情報を出力する。
(ステップS56)
支援サーバ30の情報管理部342は、支援サーバ通信部32を介して利用者音声情報を取得する。
(ステップS58)
情報管理部342は、利用者音声情報を取得すると、当該利用者音声情報が示す利用者音声内容を認識した認識結果を取得するため、支援サーバ通信部32を介して、当該利用者音声情報を認識サーバ10に出力する。
(ステップS60)
認識サーバ10の認識サーバ制御部14は、認識サーバ通信部12を介して、利用者音声情報を取得する。
(ステップS62:認識ステップ)
認識サーバ制御部14は、取得した利用者音声情報が示す音声内容を、英語、中国語、および韓国語として認識する。具体的には、認識サーバ制御部14は、「ウォシャンヤオコーヒー」という発音を、英語、中国語、および韓国語として認識する。
(ステップS64)
認識サーバ制御部14は、認識した内容を示す利用者認識内容と、ステップS62における認識処理の確からしさを示す認識確度とを含む認識結果を、認識サーバ通信部12を介して支援サーバ30に出力する。具体的には、認識サーバ制御部14は、「ウォシャンヤオコーヒー」を中国語として認識した認識結果は、認識確度は高く、利用者認識内容も
になる。一方、認識サーバ制御部14は、「ウォシャンヤオコーヒー」を英語として認識した結果は、認識確度が低く、利用者認識内容も「What are y'all coffee」になる。
(ステップS66)
支援サーバ30の情報管理部342は、支援サーバ通信部32を介して認識結果を取得する。情報管理部342は、取得した認識結果を選択部344に出力する。
(ステップS68:選択ステップ)
選択部344は、認識結果を参照し、表示対象の利用者認識内容を選択する。具体的には、選択部344は、認識結果に含まれている認識確度を参照し、認識確度が所定の閾値より高い認識確度で認識された利用者認識内容を選択する。より具体的には、「ウォシャンヤオコーヒー」を英語および中国語として認識した認識確度が所定の閾値より高く、韓国語として認識した認識確度が所定の閾値以下の場合、選択部344は、英語および中国語としてそれぞれ認識された利用者認識内容を選択する。そして、選択部344は、選択した利用者認識内容を、情報管理部342に出力する。また、選択部344は、選択した利用者認識内容を含む認識結果を、表示態様決定部346に出力する。
(ステップS70)
情報管理部342は、取得した利用者認識内容を翻訳するため、当該利用者認識内容を翻訳サーバ20に出力する。
(ステップS72)
翻訳サーバ20の翻訳サーバ制御部24は、翻訳サーバ通信部22を介して、利用者認識内容を取得する。
(ステップS74)
翻訳サーバ制御部24は、取得した利用者認識内容を、予め設定された日本語に翻訳する。具体的には、翻訳サーバ制御部24は、中国語の
および英語の「What are y'all coffee」を、日本語に翻訳する。
(ステップS76)
翻訳サーバ制御部24は、翻訳処理において翻訳した利用者翻訳内容を、翻訳サーバ通信部22を介して支援サーバ30に出力する。
(ステップS78)
支援サーバ30の情報管理部342は、支援サーバ通信部32を介して利用者翻訳内容を取得する。情報管理部342は、取得した利用者翻訳内容を、表示態様決定部346に出力する。
(ステップS80)
表示態様決定部346は、利用者翻訳内容を取得すると、クライアント端末40の表示部46に表示する表示態様を決定する。具体的には、表示態様決定部346は、ステップS68において取得した認識結果に含まれる利用者認識内容をサービス利用者向けの第1の領域に表示させ、利用者翻訳内容をサービス提供者向けの第2の領域に表示させるように、表示態様を決定する。そして、表示態様決定部346は、決定した表示態様、利用者認識内容、および利用者翻訳内容を含む表示情報を、表示情報出力部348に出力する。
(ステップS82)
表示情報出力部348は、取得した表示情報を、支援サーバ通信部32を介してクライアント端末40に出力する。
(ステップS84)
クライアント端末40の表示情報取得部448は、クライアント端末通信部42を介して表示情報を取得する。表示情報取得部448は、取得した表示情報を表示制御部450に出力する。
(ステップS86:表示ステップ)
表示制御部450は、表示情報を取得すると、表示情報に含まれる情報を参照し、表示部46に画像を表示させる。具体的には、表示制御部450は、表示情報に含まれる表示態様を参照し、表示情報に含まれる利用者認識内容をサービス利用者向けの第1の領域に表示させ、表示情報に含まれる利用者翻訳内容をサービス提供者向けの第2の領域に表示させる。このとき、表示部46に表示される画像の例を、図7に示す。図7は、本発明の実施形態1において表示部46に表示される画像の他の例を示す図であり、(a)は、第1の領域46aに表示される画像であり、(b)は、第2の領域46bに表示される画像である。
図7の(a)に示すように、第1の領域46aに表示される画像には、上述したテキスト600、テキスト602、およびテキスト604に加えて、(1)中国語として認識された利用者認識内容を含むテキスト610、および(2)英語として認識された利用者認識内容を含むテキスト612が含まれている。
また、図7の(b)に示すように、第2の領域46bに表示される画像には、上述したテキスト700に加えて、(1)中国語として認識された利用者認識内容を日本語に翻訳した利用者翻訳内容を含むテキスト710、および(2)英語として認識された利用者認識内容を日本語に翻訳した利用者翻訳内容を含むテキスト712が含まれている。
なお、コミュニケーション支援システム1では、図7の(a)に示すように、認識確度が高い順に上から利用者認識内容(第1の認識内容)を表示してもよい。具体的には、ステップS80において、表示態様決定部346は、ステップS68において取得した認識結果に含まれる認識確度を参照して、利用者認識内容の表示態様を決定する。例えば、上述したように、認識確度が高い順に上から利用者認識内容が表示されるように表示態様を決定する構成や、認識確度が高い利用者認識内容は濃い色で表示され、認識確度が低い利用者認識内容は薄い色で表示されるように表示態様を決定する構成が挙げられる。また、図7の(b)に示すように、利用者認識内容の表示態様に合わせて、認識確度が高い利用者認識内容を翻訳した利用者翻訳内容を上に表示する構成であってもよい。
(さらにサービス提供者から発話があった場合)
続いて、サービス提供者が図7の(b)に示す画像を見て、サービス利用者は「私はコーヒーが欲しいです」と発話したと判断し、サービス利用者に対して「ホットでよろしいですか?」と発話した場合について、図3を用いて説明する。
(ステップS2〜ステップS16)
上述した処理と同じ処理であるため、説明を省略する。
(ステップS18)
情報管理部342は、取得した認識結果に含まれる提供者認識内容を翻訳するため、当該提供者認識内容を翻訳サーバ20に出力する。ここで、上述したステップS68において、選択部344は英語および中国語としてそれぞれ認識された利用者認識内容を選択したので、情報管理部342は、提供者認識内容を英語および中国語にそれぞれ翻訳する指示と共に、提供者認識内容を翻訳サーバ20に出力する。
(ステップS20)
翻訳サーバ20の翻訳サーバ制御部24は、翻訳サーバ通信部22を介して、提供者認識内容を取得すると共に、提供者認識内容を英語および中国語にそれぞれ翻訳する指示を受け付ける。
(ステップS22)
翻訳サーバ制御部24は、取得した提供者認識内容を、受け付けた指示に従い、英語および中国語に翻訳する。具体的には、翻訳サーバ制御部24は、「ホットでよろしいですか?」を英語および中国語に翻訳する。
(ステップS24〜ステップS34)
上述した処理と同じ処理であるため、説明を省略する。ここで、ステップS34において表示部46に表示される画像の例を、図8の(a)および(b)に示す。図8は、本発明の実施形態1において表示部46に表示される画像のさらに他の例を示す図であり,(a)は、第1の領域46aに表示される画像であり、(b)は、第2の領域46bに表示される画像である。
図8の(a)に示すように、第1の領域46aに表示される画像には、上述したテキスト600、テキスト602、テキスト604、テキスト610、およびテキスト612に加えて、提供者認識内容を、(1)中国語に翻訳した翻訳内容を含むテキスト620、および(2)英語に翻訳した翻訳内容を含むテキスト622が含まれている。
また、図8の(b)に示すように、第2の領域46bに表示される画像には、上述したテキスト700、テキスト710、テキスト712に加えて、提供者認識内容を含むテキスト720が含まれている。
(さらにサービス利用者から発話があった場合)
続いて、サービス利用者が図8の(a)に示す画像を見て、「好的」と発話した場合について、図6を用いて説明する。
(ステップS52〜ステップS56)
上述した処理と同じ処理であるため、説明を省略する。
(ステップS58)
情報管理部342は、利用者音声情報を取得すると、当該利用者音声情報が示す利用者音声内容を認識した認識結果を取得するため、支援サーバ通信部32を介して、当該利用者音声情報を認識サーバ10に出力する。ここで、上述したステップS68において、選択部344は英語および中国語としてそれぞれ認識された利用者認識内容を選択したので、情報管理部342は、利用者音声情報を英語および中国語として認識する指示と共に、利用者音声情報を翻訳サーバ20に出力する。
(ステップS60)
認識サーバ10の認識サーバ制御部14は、認識サーバ通信部12を介して、利用者音声情報を取得すると共に、利用者音声情報を英語および中国語として認識する指示を受け付ける。
(ステップS62)
認識サーバ制御部14は、取得した利用者音声情報が示す音声内容を、英語および中国語として認識する。具体的には、認識サーバ制御部14は、「ハオダ」を、英語および中国語として認識する。
(ステップS64)
認識サーバ制御部14は、認識した内容を示す利用者認識内容と、ステップS62における認識処理の確からしさを示す認識確度とを含む認識結果を、認識サーバ通信部12を介して支援サーバ30に出力する。具体的には、認識サーバ制御部14は、「ハオダ」を中国語として認識した認識結果は、認識確度は高く、利用者認識内容も「好的」になる。一方、認識サーバ制御部14は、「ハオダ」を英語として認識した認識結果は、認識確度が低くなる。
(ステップS66)
支援サーバ30の情報管理部342は、支援サーバ通信部32を介して認識結果を取得する。情報管理部342は、取得した認識結果を選択部344に出力する。
(ステップS68)
選択部344は、認識結果を参照し、表示対象の利用者認識内容を選択する。具体的には、「ハオダ」を中国語として認識した認識確度が所定の閾値より高く、英語として認識した認識確度が所定の閾値以下の場合、選択部344は、中国語としてそれぞれ認識された利用者認識内容を選択する。そして、選択部344は、選択した利用者認識内容を、情報管理部342に出力する。また、選択部344は、選択した利用者認識内容を含む認識結果を、表示態様決定部346に出力する。
(ステップS70〜ステップS86)
上述した処理と同じ処理であるため、説明を省略する。ここで、ステップS86において表示部46に表示される画像の例を、図8の(c)および(d)に示す。図8の(c)は、第1の領域46aに表示される画像であり、(d)は、第2の領域46bに表示される画像である。
図8の(c)に示すように第1の領域46aに表示される画像には、上述したテキスト610、テキスト612、テキスト620、およびテキスト622に加えて、中国語として認識された利用者認識内容を含むテキスト630が含まれている。
また、図8の(d)に示すように、第2の領域46bに表示される画像には、上述したテキスト700、テキスト710、テキスト712、およびテキスト720に加えて、中国語として認識された利用者認識内容を日本語に翻訳した利用者翻訳内容を含むテキスト730が含まれている。
このように、本実施形態に係るコミュニケーション支援システム1では、サービス利用者(第1のユーザ)向けの第1の領域46aおよびサービス提供者(第2のユーザ)向けの第2の領域46bを有する表示部46と、音声入力部48と、制御部(認識サーバ制御部14、支援サーバ制御部34、およびクライアント端末制御部44)を備え、音声入力部48を介してサービス利用者の音声を示す利用者音声情報(第1の音声情報)を取得し、利用者音声情報が示す利用者音声内容(第1の音声内容)を複数の言語(英語、中国語、および韓国語)の各々として認識する認識処理を行い、複数の言語の各々として認識された認識内容を示す利用者認識内容(第1の認識内容)から、表示対象の利用者認識内容を選択する選択処理を行い、表示対象の利用者認識内容を、表示部46の第1の領域46aに表示する。この構成により、コミュニケーション支援システム1では、サービス利用者の発話を誤った言語として認識した場合であっても、当該誤った言語以外の言語として認識した認識内容も、ユーザに提示する。そのため、コミュニケーション支援システム1では、異なる言語を使用するユーザ同士のコミュニケーションを円滑にすることができる。
また、本実施形態に係るコミュニケーション支援システム1では、第1のユーザはサービス利用者であり、第2のユーザはサービス提供者であってもよい。この構成により、コミュニケーション支援システム1では、使用する言語が特定できないサービス利用者(例えば、お店の客)に対しても、サービス提供者(例えば、お店の店員)は円滑にコミュニケーションを図ることができる。
また、本実施形態に係るコミュニケーション支援システム1では、第1のユーザはサービス提供者であり、第2のユーザはサービス利用者であってもよい。この構成により、コミュニケーション支援システム1では、異なる言語を使用する複数のサービス提供者(例えば、お店の店員)のそれぞれが、サービス利用者(例えば、お店の客)と円滑にコミュニケーションを図ることができる。
また、本実施形態に係るコミュニケーション支援システム1では、選択処理において、複数の言語の各々で認識する認識処理の確からしさを示す認識確度を参照して、表示対象の利用者認識内容を選択する。この構成により、コミュニケーション支援システム1では、認識確度が閾値より高い認識確度によって認識された認識内容を、ユーザに提示する。そのため、ユーザが使用する言語である可能性がないと考えられる言語として認識された認識内容は表示しないので、異なる言語を使用するユーザ同士のコミュニケーションを円滑にすることができる。
また、本実施形態に係るコミュニケーション支援システム1では、認識確度を参照して、表示対象の利用者認識内容を表示部46の第1の領域46aに表示する表示態様を決定する。この構成により、コミュニケーション支援システム1では、例えば、認識確度が高い認識内容を目立つように表示させたり、認識確度が高い順に並べて認識内容を表示させたりすることができる。そのため、コミュニケーション支援システム1では、何れの言語による認識確度が高いのかということをユーザに知らせることができる。
また、本実施形態に係るコミュニケーション支援システム1では、表示対象の利用者認識内容を翻訳した利用者翻訳内容(第1の翻訳内容)を取得し、利用者翻訳内容を表示部46の第2の領域46bに表示する。この構成により、コミュニケーション支援システム1では、サービス利用者の発話内容をサービス提供者が使用する言語に翻訳し、提示することができる。そのため、コミュニケーション支援システム1では、異なる言語を使用するユーザ同士のコミュニケーションを円滑にすることができる。
また、本実施形態に係るコミュニケーション支援システム1では、音声入力部48を介してサービス提供者の音声を示す提供者音声情報(第2の音声情報)を取得し、提供者音声情報が示す提供者音声内容(第2の音声内容)を認識する認識処理を行い、認識処理によって認識された提供者認識内容(第2の認識内容)を複数の言語に翻訳した提供者翻訳内容(第2の翻訳内容)を取得し、提供者翻訳内容を表示部46の第1の領域46aに表示する。この構成により、コミュニケーション支援システム1では、サービス提供者の発話内容をサービス利用者が使用する言語を含む複数の言語に翻訳し、提示することができる。そのため、コミュニケーション支援システム1では、異なる言語を使用するユーザ同士のコミュニケーションを円滑にすることができる。
なお、本実施形態では、認識確度が所定の閾値より高い認識確度で認識された利用者認識内容を選択する構成としたが、認識確度の積算値と閾値とを比較する構成であってもよい。
例えば、サービス利用者が最初に発した音声を示す利用者音声情報を、英語、中国語、および韓国語として認識した場合の認識確度がそれぞれ「30」、「50」、および「10」であった場合、上述したステップS68において、選択部344は、認識確度に関わらず、全ての利用者認識内容を表示対象として選択する。なお、以下の説明において、言語Aとして認識した場合の認識確度と、言語A認識確度と称する。
続いて、次にサービス利用者が発した音声を示す利用者音声情報を認識する認識処理における、英語認識確度、中国語認識確度、および韓国語認識確度がそれぞれ「15」、「60」、および「5」であった場合、上述したステップS68において、選択部344はまず、前回の認識処理における英語認識確度に、今回の認識処理における英語認識確度を加算した積算英語認識確度を算出する。すなわち、選択部344は、前回の認識処理における英語認識確度「30」に、今回の認識処理における英語認識確度「15」を加算し、積算英語認識確度「45」を算出する。
続いて、選択部344は、同様の処理を各言語において行い、積算中国語認識確度「110」および積算韓国語認識確度「15」を算出する。そして、選択部344は、算出した積算値が所定の閾値より高い認識確度で認識された利用者認識内容を選択する。例えば、この場合の閾値が「40」であった場合、積算英語認識確度「45」および積算中国語認識確度「110」が閾値より高いため、選択部344は、英語および中国語として認識された利用者認識内容を選択する。
さらに、サービス利用者が発話した場合、サービス利用者が発した音声を示す利用者音声情報を、英語、中国語として認識する。そして、英語認識確度および中国語認識確度がそれぞれ「5」、「50」であった場合、選択部344は、それぞれの認識確度を、既に算出している積算英語認識確度および積算中国語認識確度に加算する。具体的には、選択部344は、積算英語認識確度「50」および積算中国語認識確度「160」を算出する。例えば、この場合の閾値が「80」であった場合、積算中国語認識確度「160」が閾値より高いため、選択部344は、中国語として認識された利用者認識内容を選択する。
このように、コミュニケーション支援システム1では、認識確度の積算値と閾値とを比較し、選択する利用者認識内容を選択する構成であってもよい。この構成の場合、より好適にサービス利用者が使用する言語を選択することができるので、異なる言語を使用するユーザ同士のコミュニケーションをより円滑にすることができる。
なお、積算値として、認識確度を加算する方法を例に挙げて説明したが、加算に替えて積算を行う構成であっても、平均または加重平均を算出する構成であっても、同様の効果を得ることができる。また、サービス利用者の最初の発話に対して、認識確度に関わらず全ての利用者認識内容を表示対象として選択する構成を例に挙げて説明したが、所定の回数までの発話に対して、認識確度に関わらず全ての利用者認識内容を表示対象として選択する構成であってもよい。例えば、所定の回数を3回とした場合、サービス利用者による発話は、3回までは認識確度(積算値)に関わらず全ての利用者認識内容を表示対象として選択する。そして、サービス利用者による4回目以降の発話に対して、積算値と閾値とを比較し、閾値より高い認識確度で認識された利用者認識内容を選択する構成としてもよい。
また、クライアント端末40による認識処理の認識確度と、認識サーバ10による認識処理の認識確度とを比較するため、クライアント端末40による認識処理の認識確度と、認識サーバ10による認識処理の認識確度とを正規化してもよい。また、言語ごとの認識確度に対しても、正規化してもよい。この構成により、認識処理をクライアント端末40において行った場合であっても、認識サーバ10において行った場合であっても、また、何れの言語の認識処理であっても、同じ閾値を用いることができる。
〔実施形態2〕
本発明の他の実施形態について、図9〜図11に基づいて説明する。
上述したように、音声情報に含まれる音声内容を認識する認識処理は、クライアント端末40において実行されてもよいし、認識サーバ10において実行されてもよい。そこで本実施形態では、クライアント端末40に、よく使用されると考えられる発話内容のデータベースを格納することにより、より効果的に異なる言語を使用するユーザ同士のコミュニケーションを円滑にする方法について説明する。なお、本実施形態では、サービス利用者は店の客、サービス提供者は店の店員であり、クライアント端末40は当該店に設置されている場合を例に挙げて説明する。
(端末記憶部52に格納されるデータベース)
図9は、本発明の実施形態2における端末記憶部52に格納されるデータベース(認識内容候補一覧)の例である。図9に示すように、端末記憶部52には、クライアント端末40が設置されている場所において頻繁に使用されると考えられる発話内容を英語、中国語、および日本語にそれぞれ翻訳した発話内容(以下、「認識コーパス」と称する)が関連付けて格納されている。
(サービス利用者から発話があった場合)
本実施形態において、サービス利用者から発話があった場合について、図10を用いて説明する。図10は、本発明の実施形態2におけるクライアント端末40の処理の流れを示すフローチャートである。本実施形態では、上述したステップS62における認識処理を、クライアント端末40において実行する。まず、図6を用いて説明したように、音声情報取得部442は、利用者音声情報を取得し、取得した利用者音声情報を音声認識部444に出力する。
(ステップS90)
上述したステップS62と同様、音声認識部444は、取得した利用者音声情報が示す音声内容を、複数の言語として認識する。例えば、サービス利用者が発した「ウォシャンヤオコーヒー」という発音を、英語、中国語、および韓国語として認識する。
(ステップS92)
続いて、音声認識部444は、各言語として認識した認識内容のうち、端末記憶部52に格納された認識コーパスに一致する認識内容があるか否かを判定する。
例えば、音声認識部444は、「ウォシャンヤオコーヒー」を英語として認識した認識内容「What are y'all coffee」と一致する認識コーパスがあるか否かを判定する。端末記憶部52には、「What are y'all coffee」と一致する認識コーパスはないので、音声認識結果は、認識内容「What are y'all coffee」と一致する認識コーパスはないと判定する。
続いて、音声認識部444は、「ウォシャンヤオコーヒー」を中国語として認識した認識内容
と一致する認識コーパスがあるか否かを判定する。端末記憶部52には、項目「No.」が「6」に関連付けられた中国語の認識コーパス「我想要[Drink]」があり、項目「No.」が「201」に関連付けられた中国語の認識コーパス
がある。そのため、音声認識部444は、認識内容
と一致する認識コーパスがあると判定する。
音声認識部444は、同様に、他の言語として認識した認識内容についても、端末記憶部52に格納された認識コーパスに一致する認識内容があるか否かを判定する。
(ステップS94)
ステップS92において、「各言語として認識した認識内容のうち、端末記憶部52に格納された認識コーパスに一致する認識内容はない」と判定された場合(ステップS92:NO)、音声認識部444は、認識した内容を示す利用者認識内容と、ステップS90における認識処理の確からしさを示す認識確度とを含む認識結果を、クライアント端末通信部42を介して支援サーバ30に出力する。この場合、支援サーバ30は、図6におけるステップS68以降の処理を実行する。また、この場合、例えば、支援サーバ30が取得した認識確度が、所定の認識確度より低い場合、クライアント端末40から利用者音声情報の出力を要求し、ステップS56以降の処理を実行してもよい。
(ステップS96)
一方、ステップS92において、「各言語として認識した認識内容のうち、端末記憶部52に格納された認識コーパスに一致する認識内容がある」と判定された場合(ステップS92:YES)、音声認識部444は、一致した認識コーパスに対応する日本語のコーパス(換言すると、図9に示すデータベースにおいて、一致した認識コーパスに関連付けられた日本語の認識コーパス)を選択する。
例えば、音声認識部444は、音声認識部444は、認識内容
と一致する認識コーパスがあると判定したので、
に関連付けられた日本語の認識コーパス「私はコーヒーが欲しいです」(より具体的には、項目「No.」が「6」に関連付けられた「私は[Drink]が欲しいです」および項目「No.」が「201」に関連付けられた「コーヒー」)を選択する。
(ステップS98)
音声認識部444は、一致した認識コーパスを利用者認識内容として、また、選択した日本語の認識コーパスを利用者翻訳内容として、表示情報取得部448に出力し、表示情報取得部448は表示処理を実行する。
なお、表示処理は、音声認識部444が利用者認識内容および利用者翻訳内容を、クライアント端末通信部42を介して支援サーバ30に出力し、表示情報取得部448が、クライアント端末通信部42を介して支援サーバ30から表示情報を取得し、取得した表示情報を参照する構成であってもよい。この場合、支援サーバ30は、上述したステップS80の処理を実行する。
ステップS98の処理が実行された場合に表示部46に表示される画像の例を、図11に示す。図11は、本発明の実施形態2において表示部46に表示される画像の一例を示す図であり、(a)は、第1の領域46aに表示される画像であり、(b)は、第2の領域46bに表示される画像である。
図11の(a)に示すように、第1の領域46aに表示される画像には、中国語として認識された利用者認識内容を含むテキスト640が含まれている。そして、図11の(b)に示すように、第2の領域46bに表示される画像には、中国語として認識された利用者認識内容を日本語に翻訳した利用者翻訳内容を含むテキスト740が含まれている。
このように、本実施形態に係るコミュニケーション支援システム1では、予め定められた認識内容候補一覧(データベース)を参照して、表示対象の利用者認識内容を選択する。この構成により、コミュニケーション支援システム1では、認識サーバ10による処理を省略することができる。そのため、コミュニケーション支援システム1では、装置間の通信量を減少させることができる。また、認識内容候補一覧に、選択した利用者認識内容を翻訳した利用者翻訳内容も含まれる場合、翻訳サーバ20による処理も省略することができる。
なお、上述したステップS90において、音声認識部444は、上述した処理に加えて、認識コーパスに一致する程度を示すスコアを算出してもよい。この場合、上述した実施形態と同様、スコアが閾値より高いか否かを選択部344において判定する。そして、選択部344は、閾値より高いスコアによって認識された認識内容を選択する。閾値より高いスコアによって認識された認識内容が複数ある場合は、ステップS96において、音声認識部444は、当該複数の認識内容にそれぞれ対応する日本語のコーパスを選択する。この場合、表示態様決定部346は、スコアが高い順に上から利用者認識内容および利用者翻訳内容が表示される構成が好ましい。この構成により、コミュニケーション支援システム1では、さらに効果的にサービス利用者が使用する言語の誤認識を防ぐことができる。
〔実施形態3〕
本発明の他の実施形態について、図12に基づいて説明する。
上述した実施形態では、認識確度が所定の閾値より高い認識確度で認識された利用者認識内容がない場合、利用者認識内容は表示されなくなってしまう。そのため、本実施形態では、認識確度が所定の閾値(以下、「採用閾値」と称する)より低い閾値(以下、「候補閾値」と称する)を設定する構成について、上述した図6のシーケンス図を用いて説明する。
(ステップS52〜ステップS66)
上述した処理と同じ処理であるため、説明を省略する。
(ステップS68)
上述した処理と同様、選択部344は、認識結果を参照し、採用閾値より高いか否かを判定することにより、表示対象の利用者認識内容を選択する。ここで、例えば、英語、中国語、および韓国語として認識した場合の認識確度がそれぞれ「30」、「50」、および「10」であり、採用閾値が「60」であった場合、選択部344が表示対象の利用者認識内容として選択する利用者認識内容は存在しないことになる。この場合、選択部344は、英語、中国語、および韓国語として認識した場合の認識確度が、候補閾値より高いか否かを判定する。例えば、候補閾値が「5」であった場合、選択部344は、候補閾値より高い利用者認識内容を選択する。そして、選択部344は、選択した利用者認識内容を、情報管理部342に出力する。また、選択部344は、選択した利用者認識内容を含む認識結果を、表示態様決定部346に出力する。
(ステップS70〜ステップS78)
上述した処理と同じ処理であるため、説明を省略する。
(ステップS80)
表示態様決定部346は、利用者翻訳内容を取得すると、クライアント端末40の表示部46に表示する表示態様を決定する。具体的には、表示態様決定部346は、ステップS68において取得した利用者認識内容の認識確度が採用閾値以下かつ候補閾値より高いので、認識確度が低い旨を示す表示態様に決定する。認識確度が低い旨を示す表示態様の例として、(1)文字を薄くして表示する、(2)「もしかして」「Did you mean」といった、認識確度が低かったことを暗示するテキストを付加する、などが挙げられる。そして、表示態様決定部346は、決定した表示態様、利用者認識内容、および利用者翻訳内容を含む表示情報を、表示情報出力部348に出力する。
(ステップS82〜ステップS86)
上述した処理と同じ処理であるため、説明を省略する。
ステップS86において、表示部46に表示される画像の例を、図12の(a)および(b)に示す。図12は、本発明の実施形態3において表示部46に表示される画像の一例を示す図であり、(a)は、第1の領域46aに表示される画像であり、(b)は、第2の領域46bに表示される画像である。
図12の(a)に示すように、第1の領域46aに表示される画像には、(1)中国語として認識された利用者認識内容を含むテキスト652、(2)英語として認識された利用者認識内容を含むテキスト654、および(3)韓国語として認識された利用者認識内容を含むテキスト656が含まれている。また、第1の領域46aには、認識確度が低かったことを暗示するテキスト650が含まれている。
また、図12の(b)に示すように、第2の領域46bに表示される画像には、(1)中国語として認識された利用者認識内容を日本語に翻訳した利用者翻訳内容を含むテキスト752、(2)英語として認識された利用者認識内容を日本語に翻訳した利用者翻訳内容を含むテキスト754、および(3)韓国語として認識された利用者認識内容を日本語に翻訳した利用者翻訳内容を含むテキスト756が含まれている。また、第2の領域46bにも、認識確度が低かったことを暗示するテキスト750が含まれている。
(候補閾値より高い認識確度がない場合)
さらに、上述したステップS68において、英語、中国語、および韓国語として認識した場合の認識確度が、候補閾値以下の場合について、上述した図6のシーケンス図を用いて説明する。
(ステップS52〜ステップS66)
上述した処理と同じ処理であるため、説明を省略する。
(ステップS68)
選択部344は、認識結果を参照し、採用閾値または候補閾値より高いか否かを判定することにより、表示対象の利用者認識内容を選択する。ここで、例えば、英語、中国語、および韓国語として認識した場合の認識確度がそれぞれ「10」、「20」、および「5」であり、候補閾値が「30」であった場合、選択部344が表示対象の利用者認識内容として選択する利用者認識内容は存在しないことになる。この場合、選択部344は、候補閾値より高い認識確度によって認識された認識内容が存在しない旨を示す情報を、表示態様決定部346に出力する。
(ステップS70〜ステップS78)
ステップS70〜ステップS78の処理は実行せず、ステップS80に進む。
(ステップS80)
表示態様決定部346は、ステップS68において取得した情報を参照し、クライアント端末40の表示部46に表示する表示態様を決定する。具体的には、表示態様決定部346は、ステップS68において取得した情報が候補閾値より高い認識確度によって認識された認識内容が存在しない旨を示すので、発話内容を認識できなかった旨を示す表示態様に決定する。発話内容を認識できなかった旨を示す表示態様の例として、(1)認識できなかった旨を示すテキストを表示する、(2)言語を選択させるための画像を表示する、などが挙げられる。そして、表示態様決定部346は、決定した表示態様を含む表示情報を、表示情報出力部348に出力する。
(ステップS82〜ステップS86)
上述した処理と同じ処理であるため、説明を省略する。
ステップS86において、表示部46に表示される画像の例を、図12の(c)および(d)に示す。図12の(c)は、第1の領域46aに表示される画像であり、(d)は、第2の領域46bに表示される画像である。
図12の(c)に示すように、第1の領域46aに表示される画像には、認識できなかった旨を示すテキスト664が含まれている。また、第1の領域46aには、言語を選択する旨の操作をサービス利用者から受け付ける操作子662、および当該操作子を操作することにより言語を選択できる旨を示すテキスト660も含まれている。
また、図12の(d)に示すように、第2の領域46bに表示される画像には、認識できなかった旨を示すテキスト760が含まれている。また、第2の領域46bには、言語を選択する旨の操作をサービス提供者から受け付ける操作子762、および当該操作子を操作することにより言語を選択できる旨を示すテキスト764も含まれている。
なお、操作子は、図12の(c)および(d)に示すように、表示されるGUI(Graphic User Interface)であってもよいし、ボタンの形状に限られずスイッチの形状などであってもよい。また、サービス提供者向けに設けられた操作部50(物理的なボタン、スイッチなど)であってもよい。また、図12の(a)および(b)に示す画像において、各言語によって表示されているテキストをタッチすることにより、言語が選択可能な構成であってもよい。例えば、図12の(a)に示す画像において、クライアント端末40は、テキスト652が選択された旨を示す操作信号を取得した場合、サービス利用者が使用する言語を中国語に決定する構成であってもよい。
そして、コミュニケーション支援システム1では、言語が選択された場合、サービス利用者の発話を認識する言語を、選択された言語に決定する。そのため、例えば、コミュニケーション支援システム1が、図12の(a)に示す画像において、テキスト652が選択された旨を示す操作信号を取得した場合、図12の(b)に示す画像において、テキスト752が選択された旨を示す操作信号を取得した場合、または、図12の(c)もしくは(d)に示す画像において、中国の国旗が選択された旨を示す操作信号を取得した場合、コミュニケーション支援システム1では、サービス利用者が使用する言語を中国語に決定する。
このように、本実施形態に係るコミュニケーション支援システム1では、操作子(操作部50、操作子662、操作子762)を介して受け付けた入力に応じて、複数の言語のうち、何れの言語として利用者音声情報が示す利用者音声内容を認識するかを決定する。そのため、コミュニケーション支援システム1では、サービス利用者が発話する声が小さかったり、雑音が入ったりすることにより、認識処理による認識確度が低い場合であっても、サービス利用者またはサービス提供者に言語を選択する操作を促すことにより、異なる言語を使用するユーザ同士のコミュニケーションを円滑にすることができる。
〔実施形態4〕
本発明の他の実施形態について、図13に基づいて説明する。
上述の実施形態では、図4の(a)に示すように、最初にサービス提供者が発話した発話内容を翻訳した提供者翻訳内容の表示順について特に限定していないが、本実施形態では、所定の条件に従って提供者翻訳内容を表示する構成について、図3のシーケンス図を用いて説明する。また、本実施形態では、上述した認識処理において使用される言語ごとに、当該認識処理において使用された回数を示す回数情報を表示態様決定部346が参照できる構成となっている。
(ステップS2〜ステップS26)
上述した処理と同じ処理であるため、説明を省略する。
(ステップS28)
表示態様決定部346は、提供者翻訳内容を取得すると、クライアント端末40の表示部46に表示する表示態様を決定する。ここで、表示態様決定部346は、言語ごとの回数情報を参照し、参照した回数情報に応じた表示態様を決定する。例えば、表示態様決定部346が取得した回数情報が、認識処理において、英語が200回、中国語が100回、韓国語が50回使用されていることを示す場合、最も多く使用されている英語に翻訳された提供者翻訳内容を第1の領域46aの上側に表示し、その下に、その次に多く使用されている中国語に翻訳された提供者翻訳内容を表示し、さらにその下に、韓国語に翻訳された提供者翻訳内容を表示するように、表示態様を決定する。そして、表示態様決定部346は、決定した表示態様、提供者認識内容、および提供者翻訳内容を含む表示情報を、表示情報出力部348に出力する。
(ステップS30〜ステップS34)
上述した処理と同じ処理であるため、説明は省略する。
ステップS34において、表示部46に表示される画像の例を、図13の(a)および(b)に示す。図13は、本発明の実施形態4において表示部46に表示される画像の一例を示す図であり、(a)は、第1の領域46aに表示される画像であり、(b)は、第2の領域46bに表示される画像である。
図13の(a)に示すように、第1の領域46aに表示される画像は、英語に翻訳された提供者翻訳内容を含むテキスト670が上に表示されており、その下に、中国語に翻訳された提供者翻訳内容を含むテキスト672が表示され、さらにその下に、韓国語に翻訳された提供者翻訳内容を含むテキスト674が表示されている。
また、図13の(b)に示すように、第2の領域46bに表示される画像には、提供者認識内容を含むテキスト770が含まれている。
(サービス利用者を撮像した撮像画像を使用する場合)
本実施形態の他の例として、サービス利用者を撮像した撮像画像を使用する構成について説明する。本例におけるコミュニケーション支援システム1では、サービス利用者を撮像した撮像画像を参照してサービス利用者が使用する言語を判定した判定結果を、表示態様決定部346が参照できる構成となっている。なお、サービス利用者を撮像した撮像画像を参照してサービス利用者が使用する言語を判定する処理は、コミュニケーション支援システム1を構成する各部の何れかにおいて実行されてもよいし、コミュニケーション支援システム1とは異なる装置が判定し、判定結果をコミュニケーション支援システム1が取得する構成であってもよい。
上述したステップS28において、表示態様決定部346は、提供者翻訳内容を取得すると、クライアント端末40の表示部46に表示する表示態様を決定する。ここで、表示態様決定部346は、サービス利用者を撮像した撮像画像を参照してサービス利用者が使用する言語を判定した判定結果を参照し、参照した判定結果に応じた表示態様を決定する。例えば、表示態様決定部346が取得した判定結果が、サービス利用者が使用する言語は英語であると判定した判定結果であった場合、表示態様決定部346は、英語に翻訳された提供者翻訳内容を第1の領域46aの上側に表示されるように、表示態様を決定する。そして、表示態様決定部346は、決定した表示態様、提供者認識内容、および提供者翻訳内容を含む表示情報を、表示情報出力部348に出力する。本例であっても、表示部46には図13に示す画像が表示される。
このように、本実施形態に係るコミュニケーション支援システム1では、最初のサービス提供者の発話内容を翻訳した翻訳内容を、所定の条件に従って表示する。この構成により、コミュニケーション支援システム1では、サービス利用者が使用するであろうと考えられる言語に翻訳された翻訳内容を、第1の領域46aにおいて例えば目立つように表示することができる。また、コミュニケーション支援システム1は、本システムが発話内容を翻訳するシステムであることを、サービス利用者に容易に理解させることができる。
〔実施形態5〕
本発明の他の実施形態について、図14に基づいて説明する。
上述の実施形態では、コミュニケーション支援システム1は、ステップS68における選択処理において選択されなかった利用者認識内容の言語による認識は、それ以降の処理では行われていなかった(上述の実施形態1では、韓国語として認識された認識内容は選択処理において選択されなかったので、当該選択処理以降の処理では、サービス利用者の発話内容を韓国語として認識する認識処理は行われなかった)。本実施形態では、ステップS68における選択処理において選択されなかった利用者認識内容の言語であっても、引き続き認識処理を実行する構成について説明する。
まず、コミュニケーション支援システム1では、選択部344は、選択処理において、利用者音声情報が示す音声内容を中国語として認識した利用者認識内容を選択している。そのため、表示部46の第1の領域46aには、中国語以外の言語として認識された利用者認識内容は表示されていない状態である。一方、上述したように、認識処理では、英語、中国語、および韓国語として利用者音声情報が示す音声内容を認識している。
このとき、表示部46に表示される画像の例を、図14の(a)および(b)に示す。図14は、本発明の実施形態5において表示部46に表示される画像の一例を示す図であり、(a)は、第1の領域46aに表示される画像であり、(b)は、第2の領域46bに表示される画像である。
図14の(a)に示すように、第1の領域46aに表示される画像には、中国語として認識した利用者認識内容を含むテキスト680が含まれている。また、図14の(b)に示すように、第2の領域46bに表示される画像には、中国語として認識した利用者認識内容を日本語に翻訳した利用者翻訳内容を含むテキスト780が含まれている。
続く処理について、上述した図6を用いて説明する。
(ステップS52)
上述した処理と同様、クライアント端末40の音声情報取得部442は、音声入力部48を介してサービス利用者が発した音声を示す利用者音声情報を取得する取得処理を行う。ここで、例えば、決定した言語(中国語)以外の言語である英語を使用するサービス利用者が「I want tea」と発した場合、音声情報取得部442は、「I want tea」を示す利用者音声情報を取得する。
(ステップS54〜ステップS60)
上述した処理と同じ処理であるため、説明は省略する。
(ステップS62)
上述したように、認識サーバ制御部14は、取得した利用者音声情報が示す音声内容を、英語、中国語、および韓国語として認識する。具体的には、認識サーバ制御部14は、「アイウォントティー」という発音を、英語、中国語、および韓国語として認識する。
(ステップS64〜ステップS66)
上述した処理と同じ処理であるため、説明は省略する。
(ステップS68)
選択部344は、表示対象の利用者認識内容として、中国語として認識された利用者認識内容を選択してきたため、まずは、表示対象の利用者認識内容として、中国語として認識された利用者認識内容を選択する。ここで、選択部344は、中国語として認識した認識確度よりも他の言語として認識した認識確度が高い場合、当該他の言語として認識した利用者認識内容も選択する。例えば、「アイウォントティー」を中国語として認識した利用者認識内容が「Iwan七」、認識確度が「20」であり、「アイウォントティー」を英語として認識した利用者認識内容が「I want tea」、認識確度が「50」であり、「アイウォントティー」を韓国語として認識した利用者認識内容が
認識確度が「10」であった場合、選択部344は、表示対象の利用者認識内容として、中国語として認識された利用者認識内容に加えて、英語として認識された利用者認識内容を選択する。
(ステップS70〜ステップS78)
上述した処理と同じ処理であるため、説明は省略する。
(ステップS80)
表示態様決定部346は、利用者翻訳内容を取得すると、クライアント端末40の表示部46に表示する表示態様を決定する。ここで、表示態様決定部346は、ここまで表示対象として選択された利用者認識内容の言語(中国語)の認識確度より、ここまで表示対象として選択されなかった利用者認識内容の言語(英語)の認識確度の方が高い旨を示す表示態様に決定する。ここまで表示対象として選択された利用者認識内容の言語の認識確度より、ここまで表示対象として選択されなかった利用者認識内容の言語の認識確度の方が高い旨を示す表示態様の例として、(1)文字を薄くして表示する(他とは異なる表示態様にて表示する)、(2)「もしかして」「Did you mean」といった、ここまで表示対象として選択されなかったものの、認識確度が高いことを暗示するテキストを付加する、などが挙げられる。そして、表示態様決定部346は、決定した表示態様、利用者認識内容、および利用者翻訳内容を含む表示情報を、表示情報出力部348に出力する。
(ステップS82〜ステップS86)
上述した処理と同じ処理であるため、説明を省略する。
ステップS86において、表示部46に表示される画像の例を、図14の(c)および(d)に示す。図14の(c)は、第1の領域46aに表示される画像であり、(d)は、第2の領域46bに表示される画像である。
図14の(c)に示すように、第1の領域46aに表示される画像には、上述したテキスト680に加えて、(1)中国語として認識された利用者認識内容を含むテキスト682、(2)中国語の認識確度より高かったことを暗示するテキスト684および英語として認識された利用者認識内容を含むテキスト686が含まれている。また、テキスト684およびテキスト686の表示を削除する旨の操作を受け付けるボタン688をさらに含む構成であってもよい。
また、図14の(d)に示すように、第2の領域46bに表示される画像には、上述したテキスト780に加えて、(1)中国語として認識された利用者認識内容を日本語に翻訳した利用者翻訳内容782、(2)中国語の認識確度より高かったことを暗示するテキスト784および英語として認識された利用者認識内容を日本語に翻訳した利用者翻訳内容786が含まれている。また、テキスト784およびテキスト786の表示を削除する旨の操作を受け付けるボタン788をさらに含む構成であってもよい。
ここで、上述した実施形態3において説明したように、操作信号取得部446が操作子を介して、決定していた言語を変更する旨の操作を示す操作信号を取得した場合、コミュニケーション支援システム1では、サービス利用者が使用する言語を、今まで表示対象として選択されていた利用者認識内容の言語とは異なる言語に変更してもよい。例えば、図14の(c)に示す画像に対して、サービス利用者がテキスト686をタッチする操作を行った場合、コミュニケーション支援システム1は、選択処理において、英語として認識された利用者認識内容を選択するように変更してもよい。
また、今まで表示対象として選択された利用者認識内容の言語の認識確度より、今まで表示対象として選択されなかった利用者認識内容の言語の認識確度の方が高い状態が、連続して所定の回数(例えば3回)に達した場合、コミュニケーション支援システム1では、サービス利用者が使用する言語を、当該今まで表示対象として選択されなかった利用者認識内容の言語に変更してもよい。
このように、本実施形態に係るコミュニケーション支援システム1では、表示対象の利用者認識内容として選択されなくなった言語であっても、認識処理において利用者音声情報を当該言語として認識する処理を実行する。そのため、コミュニケーション支援システム1では、例えば、(1)サービス利用者が中国語を使用して発話していたところ、誤認識が多かったため、サービス利用者が、使用する言語を英語に変更した、(2)中国語を使用するサービス利用者と会話しているときに、英語を使用するサービス利用者が発話した、など、サービス利用者が使用する言語が変更になった場合であっても、コミュニケーションを円滑にすることができる。
〔実施形態6〕
本発明の他の実施形態について、図15〜図17に基づいて説明する。
上述した実施形態では、認識する音声内容より前に発話された音声内容を参照することなく認識処理が行われていたが、本実施形態では、認識する音声内容より前に発話された音声内容を参照する構成について、説明する。本実施形態では、上述した実施形態2と同様、上述したステップS62における認識処理を、クライアント端末40において実行する。
(端末記憶部52に格納される発話文データベースおよび応答データベース)
図15は、本発明の実施形態6における端末記憶部52に格納されるデータベース(応答内容候補一覧)の例であり、(a)は、発話文データベースの例であり、(b)は、応答データベースの例である。
(発話文データベース)
端末記憶部52には、クライアント端末40が設置されている場所においてよく使用されると考えられる発話内容を含む発話文データベースが格納されている。発話文データベースには、図15の(a)に示すように、項目「発話文ID」、項目「発話文種別」、および項目「発話文コーパス」が関連付けられている。
項目「発話文ID」には、関連付けられている発話文を特定するための識別番号である発話文IDが格納されている。
項目「発話文種別」には、発話文が属するカテゴリを特定するための識別番号である発話文種別が格納されている。
項目「発話文コーパス」には、よく使用されると考えられる発話文が格納されている。なお、図15の(a)に示す発話文データベースでは、項目「発話文コーパス」には日本語の発話文が格納されているが、当該日本語の発話文を英語、中国語、および韓国語に翻訳した発話文も、関連付けて格納されている。
(応答データベース)
また、端末記憶部52には、クライアント端末40が設置されている場所において、ある発話文と、当該発話文に対する応答となる発話文とを関連付けた応答データベースが格納されている。応答データベースには、図15の(b)に示すように、項目「応答文ID」、項目「発話文種別」、項目「条件」、および項目「応答発話文種別」が関連付けられている。
項目「応答文ID」には、関連付けられている応答発話文種別を特定するための識別番号が格納されている。
項目「発話文種別」には、発話文データベースに格納されている項目「発話文種別」と同様、発話文が属するカテゴリを特定するための識別番号が格納されている。
項目「条件」には、関連付けられている応答発話文種別を選択するための条件が格納されている。
項目「応答発話文種別」には、応答として発話する発話文コーパスが属するカテゴリを特定するための識別番号が格納されている。
(クライアント端末40の処理の流れ)
本実施形態におけるクライアント端末40の処理の流れについて、図16を用いて説明する。図16は、本発明の実施形態6におけるクライアント端末40の処理の流れを示すフローチャートである。
まず、上述した図3または図5のシーケンス図に従い、クライアント端末40は、サービス提供者から「何かお探しですか?」を示す提供者音声情報を取得し、当該提供者音声情報を認識した提供者認識内容を、英語、中国語、および韓国語に翻訳し、提供者認識内容および提供者翻訳内容を表示する。このとき、表示部46に表示される画像は、上述した図4の画像である。
続いて、図6を用いて説明したように、音声情報取得部442は、利用者音声情報を取得し、取得した利用者音声情報を音声認識部444に出力する。
(ステップS90)
上述したステップS62と同様、音声認識部444は、取得した利用者音声情報が示す音声内容を、複数の言語として認識する。例えば、サービス利用者が発した「ウォシャンヤオコーヒー」という発音を、英語、中国語、および韓国語として認識する。
(ステップS100)
続いて、音声認識部444は、各言語として認識した利用者認識内容のうち、所定の認識確度以上の利用者認識内容が複数存在するか否かを判定する。例えば、音声認識部444は、「ウォシャンヤオコーヒー」を、(1)英語として認識した認識確度、(2)中国語として認識した認識確度、および(3)韓国語として認識した認識確度が、それぞれ所定の認識確度以上であるか否かを判定する。
(ステップS102)
ステップS100において、「所定の認識確度以上の利用者認識内容が複数存在する」と判定された場合(ステップS100:YES)、音声認識部444は、直前(もしくは、それ以前、以下同様)の発話の提供者認識内容に一致する発話文コーパスが、発話文データベースに格納されているか否かを判定する。
例えば、音声認識部444は、直前の発話の提供者認識内容「何かお探しですか?」に一致する発話文コーパスが、発話文データベースに格納されているか否かを判定する。図15の(a)に示す発話文データベースにおいて、発話文IDが「1」に関連付けられている発話文コーパスは、「何かお探しですか」なので、音声認識部444は、直前の発話の提供者認識内容「何かお探しですか?」に一致する発話文コーパスが、発話文データベースに格納されていると判定する。
(ステップS104)
ステップS102において、「直前の発話の提供者認識内容と一致する発話文コーパスがある」と判定された場合(ステップS102:YES)、音声認識部444は、直前の発話の提供者認識内容と一致する発話文コーパスに関連付けられた発話文種別を選択する。例えば、音声認識部444は、直前の発話の提供者認識内容「何かお探しですか?」と一致する発話文コーパスに関連付けられた発話文種別「1」を選択する。
(ステップS106)
続いて、音声認識部444は、応答データベースにおいて、ステップS104において選択した発話文種別に関連付けられた応答発話文種別のうち、条件が一致する応答発話文種別を選択する。例えば、音声認識部444は、図15の(b)に示す応答データベースにおいて、ステップS104において選択した発話文種別「1」に関連付けられた応答発話文種別に関連付けられた条件を参照する。発話文種別「1」に関連付けられた応答発話文種別に関連付けられた条件は、全て「―(条件なし)」であるため、音声認識部444は応答発話文種別「2」、「3」、「4」を選択する。
(ステップS108)
そして、音声認識部444は、発話文データベースにおいて、ステップS106において選択した応答発話文種別に関連付けられた発話文コーパスのうち、利用者認識内容と一致する発話文コーパスがあるか否かを判定する。
例えば、音声認識部444は、図15の(a)に示す発話文データベースにおいて、ステップS106において選択した応答発話文種別「2」、「3」、「4」である発話文種別に関連付けられた発話文コーパスのうち、「ウォシャンヤオコーヒー」を英語として認識した利用者認識内容「What are y'all coffee」と一致する発話文コーパスがあるか否かを判定する。発話文データベースには、利用者認識内容「What are y'all coffee」と一致する発話文コーパスはないため、続いて音声認識部444は、「ウォシャンヤオコーヒー」を中国語として認識した利用者認識内容
と一致する発話文コーパスがあるか否かを判定する。
図15の(a)に示す発話文データベースには不図示であるが、利用者認識内容
は、発話文ID「6」に関連付けられた発話文コーパスと一致するため、音声認識部444は、利用者認識内容と一致する発話文コーパスはあると判定する。韓国語の利用者認識内容についても同様の処理を実行し、韓国語の利用者認識内容と一致する発話文コーパスはないと判定する。
(ステップS110)
ステップS108において、「利用者認識内容と一致する発話文コーパスがある」と判定された場合(ステップS110:YES)、音声認識部444は、ステップS108において発話文コーパスと一致した利用者認識内容を、表示対象の利用者認識内容として選択する。
(ステップS112)
音声認識部444は、選択した利用者認識内容、および、発話文データベースにおいて、当該利用者認識内容と一致する発話文コーパスに関連付けられた日本語の発話文コーパスを利用者翻訳内容として、表示情報取得部448に出力し、表示情報取得部448は表示処理を実行する。なお、表示処理は、実施形態2のステップS98において説明した処理と同様、表示情報を支援サーバ30から取得する構成であってもよい。
(ステップS114)
上述したステップS100において「所定の認識確度以上の利用者認識内容が複数存在しない」と判定された場合(ステップS100:NO)、ステップS102において「直前の発話の提供者認識内容と一致する発話文コーパスがない」と判定された場合(ステップS102:NO)、またはステップS108において「利用者認識内容と一致する発話文コーパスがない」と判定された場合(ステップS108:NO)、音声認識部444は、利用者認識内容および認識確度を含む認識結果を、支援サーバ30にクライアント端末通信部42を介して支援サーバ30に出力する。支援サーバ30は、認識結果を取得すると、上述したステップS68以降の処理を実行する。
本実施形態における表示部46に表示される画像の例を、図17に示す。図17は、本発明の実施形態6において表示部46に表示される画像の一例を示す図であり、(a)は、第1の領域46aに表示される画像であり、(b)は、第2の領域46bに表示される画像であり、(c)は、第1の領域46aに表示される画像であり、(d)は、第2の領域46bに表示される画像である。
例えば、ステップS100において、「所定の認識確度以上の利用者認識内容が複数存在しない」と判定された場合(ステップS100:NO)など、ステップS114の処理を実行した場合、図17の(a)に示すように、第1の領域46aに表示される画像には、提供者認識内容を、(1)英語に翻訳した翻訳内容を含むテキスト690、(2)中国語に翻訳した翻訳内容を含むテキスト692、および(3)韓国語に翻訳した翻訳内容を含むテキスト694に加えて、(1)中国語として認識された利用者認識内容を含むテキスト696、(2)英語として認識された利用者認識内容を含むテキスト697、および(3)韓国語として認識された利用者認識内容を含むテキスト698が含まれている。
一方、ステップS112における表示処理において第1の領域46aに表示される画像は、図17の(c)に示すように、上述したテキスト690、テキスト692、およびテキスト694に加えて、テキスト696が含まれており、テキスト697およびテキスト697は含まれていない。
また、第2の領域46bに表示される画像には、図17の(b)に示すように、提供者認識内容を含むテキスト790に加えて、(1)中国語として認識された利用者認識内容を日本語に翻訳した利用者翻訳内容を含むテキスト796、(2)英語として認識された利用者認識内容を日本語に翻訳した利用者翻訳内容を含むテキスト797、および(3)韓国語として認識された利用者認識内容を日本語に翻訳した利用者翻訳内容が含まれている。
一方、ステップS112における表示処理において第2の領域46bに表示される画像は、図17の(d)に示すように、上述したテキスト790に加えて、テキスト796が含まれており、テキスト797およびテキスト798は含まれていない。
このように、本実施形態に係るコミュニケーション支援システム1では、サービス利用者の発話内容を認識した利用者認識内容を選択する処理において、サービス利用者が発話する前の発話内容を参照し、表示対象の利用者認識内容を選択する。そのため、コミュニケーション支援システム1では、会話の流れに合う利用者認識内容を選択でき、かつ、サービス利用者が使用する言語による認識を行うことができるので、異なる言語を使用するユーザ同士のコミュニケーションをより円滑にすることができる。
〔実施形態7〕
本発明の他の実施形態について、図18および図19に基づいて説明する。
上述の実施形態では、サービス提供者とサービス利用者とが会話をするコミュニケーションを例に挙げたが、サービス提供者がクライアント端末40である場合について説明する。
(クライアント端末40の処理の流れ)
本実施形態におけるクライアント端末40の処理の流れについて、図18を用いて説明する。図18は、本発明の実施形態7におけるクライアント端末40の処理の流れを示すフローチャートである。
(ステップS90)
音声認識部444は、取得した利用者音声情報が示す音声内容を、複数の言語として認識する。例えば、サービス利用者が発した「ウォシャンヤオコーヒー」という発音を、英語、中国語、および韓国語として認識する。
(ステップS120)
音声認識部444は、ステップS90における認識処理の確からしさを示す認識確度を参照し、表示対象の利用者認識内容を選択する。例えば、「ウォシャンヤオコーヒー」を中国語として認識した認識確度が所定の閾値より高く、英語および韓国語として認識した認識確度が所定の閾値以下の場合、選択部344は、中国語として認識された利用者認識内容
を選択する。
(ステップS122)
続いて、音声認識部444は、端末記憶部52に格納されている発話文データベースに、ステップS120において選択した利用者認識内容と一致する発話文コーパスがあるか否かを判定する。例えば、図15の(a)に示す発話文データベースの例では、ステップS120において選択された利用者認識内容
は、発話文ID「6」に関連付けられた発話文コーパス「我想要[Drink]」に一致するので、音声認識部444は、一致する発話文コーパスはあると判定する。
(ステップS124)
ステップS122において、「一致する発話文コーパスはある」と判定された場合(ステップS122:YES)、音声認識部444は、一致する発話文コーパスに関連付けられている発話文種別を選択する。例えば、利用者認識内容
は、発話文ID「6」に関連付けられた発話文コーパス「我想要[Drink]」に一致するので、音声認識部444は、発話文ID「6」に関連付けられた発話文種別「3」を選択する。
(ステップS126)
音声認識部444は、応答データベースを参照し、ステップS124において選択した発話文種別に関連付けられている応答発話文種別のうち、条件を満たしている応答発話文種別を選択する。例えば、ステップS124において選択した発話文種別「3」に関連付けられている条件が、(1)[Drink]が在庫有り、(2)[Drink]が品切れ、および(3)その他、であり、(1)[Drink]が在庫有りを満たす場合、音声認識部444は、当該条件に関連付けられた応答発話文種別「201」を選択する。
(ステップS128)
音声認識部444は、発話文データベースを参照し、ステップS126において選択した応答発話文種別に関連付けられた発話文コーパスから、表示対象とする発話文コーパスを提供者翻訳内容として選択する。例えば、音声認識部444は、発話文種別「201」に関連付けられた発話文コーパスから、「[Drink]在以下」を選択する。
(ステップS130)
音声認識部444は、ステップS120において選択した利用者認識内容、およびステップS128において選択した提供者翻訳内容を、表示情報取得部448に出力し、表示情報取得部448は表示処理を実行する。なお、表示処理は、実施形態2のステップS98において説明した処理と同様、表示情報を支援サーバ30から取得する構成であってもよい。
(ステップS132)
一方、ステップS122において、「一致する発話文コーパスはない」と判定された場合(ステップS122:NO)、音声認識部444は、認識できなかった旨を示す提供者翻訳内容を、表示情報取得部448に出力し、表示情報取得部448は表示処理を実行する。なお、表示処理は、実施形態2のステップS98において説明した処理と同様、表示情報を支援サーバ30から取得する構成であってもよい。
ステップS130において、表示部46に表示される画像の例を、図19に示す。図19は、本発明の実施形態7において表示部46に表示される画像の一例を示す図であり、(a)は、表示される画像の一例であり、(b)は、表示される画像の他の例である。
図19の(a)に示すように、表示部46には、上側を第1の領域46aとして、(1)中国語として認識された利用者認識内容を含むテキスト800、(2)英語として認識された利用者認識内容を含むテキスト802、および(3)韓国語として認識された利用者認識内容を含むテキスト804が含まれている。さらに、表示部46には、下側を第2の領域46bとして、上述したステップS128において選択された提供者発話内容を含むテキスト810が含まれている。
また、例えば、ステップS90においてサービス利用者が発した音声内容を、英語、中国語、および韓国語として認識し、ステップS122において、中国語として認識した利用者認識内容と一致する発話文コーパスがあり、英語および韓国語として認識した利用者認識内容と一致する発話文コーパスがなかった場合、図19の(b)に示すように、上述したテキスト800、テキスト802、テキスト804、およびテキスト810に加えて、第2の領域46bに、上述したテキスト800、テキスト802、テキスト804、テキスト810と同様の内容をそれぞれ含むテキスト820、テキスト822、テキスト824、テキスト830、英語として認識できなかった旨を示す英語のテキスト832、および韓国語として認識できなかった旨を示す韓国語のテキスト834を含む構成であってもよい。
このように、本実施形態に係るコミュニケーション支援システム1では、表示対象の利用者認識内容に対応する、予め定められた発話文データベースおよび応答データベース(応答内容候補一覧)を参照して、利用者認識内容に対する応答内容を決定し、表示対象の利用者認識内容を表示部46の第1の領域46aに表示し、応答内容を表示部46の第2の領域46bに表示する。この構成により、コミュニケーション支援システム1では、クライアント端末40がサービス提供者として、サービス利用者の発話に対して応答することができる。
また、本実施形態に係るコミュニケーション支援システム1では、予め定められた発話文データベースおよび応答データベースに、利用者認識内容に対する応答内容が存在しない場合に、利用者音声内容を認識できなかった旨を表示する。そのため、コミュニケーション支援システム1では、ユーザに対して、ユーザの発話を認識できなかったことを通知することができる。
〔実施形態8〕
本発明の他の実施形態について、図20に基づいて説明する。
本実施形態では、コミュニケーション支援システム1が、サービス利用者の発話内容に「コーヒー」などの商品名が含まれていることを認識した場合に表示する画像について、説明する。本実施形態では、端末記憶部52に、商品に関する情報を含むデータベースが格納されており、音声認識部444は当該データベースを参照することができる。
上述したステップS122において、音声認識部444は、ステップS120において選択された利用者認識内容に、商品名が含まれていると判定した場合、当該商品に関する情報を、端末記憶部52から取得する。
例えば、ステップS122において、ステップS120において選択された利用者認識内容
は、発話文ID「6」に関連付けられた発話文コーパス「我想要[Drink]」に一致し、「[Drink]」が
であると判定した場合、音声認識部444は、
に関する情報を、端末記憶部52から取得する。そして、ステップS130において、選択した利用者認識内容および選択した提供者翻訳内容に加えて、取得した
に関する情報を、表示情報取得部448に出力する。この場合に、表示部46に表示される画像の例を、図20に示す。図20は、本発明の実施形態8において表示部46に表示される画像の一例を示す図である。
図20に示すように、表示部46には、(1)中国語として認識された利用者認識内容を含むテキスト840、(2)英語として認識された利用者認識内容を含むテキスト842、および(3)韓国語として認識された利用者認識内容を含むテキスト844が含まれている。さらに、表示部46が表示する画像には、ステップS122において利用者認識内容に含まれていると判定した商品に関する情報846が含まれている。
このように、本実施形態に係るコミュニケーション支援システム1では、利用者認識内容に商品名が含まれていた場合、当該商品に関する情報を表示部46に表示する。そのため、コミュニケーション支援システム1では、サービス利用者が発した商品名に関する情報をサービス利用者に提示することができる。
なお、本実施形態では、サービス提供者がクライアント端末40である場合について説明したが、実施形態1〜実施形態6に記載したように、サービス提供者が例えば店員である場合であっても、コミュニケーション支援システム1は、表示部46(第1の領域46aおよび第2の領域46bの少なくとも何れか)に商品に関する情報を表示してもよい。
〔実施形態9〕
認識サーバ10、翻訳サーバ20、支援サーバ30、およびクライアント端末40の制御ブロック(特に認識サーバ制御部14、翻訳サーバ制御部24、支援サーバ制御部34、およびクライアント端末制御部44)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
後者の場合、認識サーバ10、翻訳サーバ20、支援サーバ30、およびクライアント端末40は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
〔実施形態10〕
上記各実施形態では、複数の装置(認識サーバ10、翻訳サーバ20、支援サーバ30、およびクライアント端末40)を用いる例を説明したが、各装置の有する各機能を、1つの装置またはより多くの装置が備える構成であってもよい。例えば、上述の実施形態において端末記憶部52に格納されたデータベース(発話文データベースおよび応答データベースを含む)は、支援サーバ30に格納されていてもよいし、認識サーバ10に格納されていてもよい。
また、上記各実施形態では、複数のサーバ(認識サーバ10、翻訳サーバ20、および支援サーバ30)を用いる例を説明したが、各サーバの有する各機能が、1つのサーバまたはより多くのサーバが備える構成であってもよい。そして、複数のサーバを適用する場合においては、各サーバは、同じ事業者によって管理されていてもよいし、異なる事業者によって管理されていてもよい。
〔実施形態11〕
認識サーバ10、翻訳サーバ20、支援サーバ30、およびクライアント端末40の各ブロックは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。後者の場合、認識サーバ10、翻訳サーバ20、支援サーバ30、およびクライアント端末40のそれぞれを、図21に示すようなコンピュータ(電子計算機)を用いて構成することができる。
図21は、認識サーバ10、翻訳サーバ20、支援サーバ30、およびクライアント端末40として利用可能なコンピュータ910のハードウェア構成を例示したブロック図である。コンピュータ910は、バス911を介して互いに接続された演算装置912と、主記憶装置913と、補助記憶装置914と、入出力インターフェース915と、通信インターフェース916とを備えている。演算装置912、主記憶装置913、および補助記憶装置914は、それぞれ、例えばCPU、RAM(random access memory)、ハードディスクドライブであってもよい。入出力インターフェース915には、ユーザがコンピュータ910に各種情報を入力するための入力装置920、および、コンピュータ910がユーザに各種情報を出力するための出力装置930が接続される。入力装置920および出力装置930は、コンピュータ910に内蔵されたものであってもよいし、コンピュータ910に接続された(外付けされた)ものであってもよい。例えば、入力装置920は、キーボード、マウス、タッチセンサなどであってもよく、出力装置930は、ディスプレイ、プリンタ、スピーカなどであってもよい。また、タッチセンサとディスプレイとが一体化されたタッチパネルのような、入力装置920および出力装置930の双方の機能を有する装置を適用してもよい。そして、通信インターフェース916は、コンピュータ910が外部の装置と通信するためのインターフェースである。
補助記憶装置914には、コンピュータ910を認識サーバ10、翻訳サーバ20、支援サーバ30、およびクライアント端末40として動作させるための各種のプログラムが格納されている。そして、演算装置912は、補助記憶装置914に格納された上記プログラムを主記憶装置913上に展開して該プログラムに含まれる命令を実行することによって、コンピュータ910を、認識サーバ10、翻訳サーバ20、支援サーバ30、およびクライアント端末40が備える各部として機能させる。なお、補助記憶装置914が備える、プログラム等の情報を記録する記録媒体は、コンピュータ読み取り可能な「一時的でない有形の媒体」であればよく、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブル論理回路などであってもよい。
また、上記プログラムは、コンピュータ910の外部から取得してもよく、この場合、任意の伝送媒体(通信ネットワークや放送波等)を介して取得してもよい。そして、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
1 コミュニケーション支援システム
2 ネットワーク
10 認識サーバ
12 認識サーバ通信部
14 認識サーバ制御部(制御部)
20 翻訳サーバ
22 翻訳サーバ通信部
24 翻訳サーバ制御部(制御部)
30 支援サーバ
32 支援サーバ通信部
34 支援サーバ制御部(制御部)
342 情報管理部
344 選択部
346 表示態様決定部
348 表示情報出力部
40 クライアント端末
42 クライアント端末通信部
44 クライアント端末制御部(制御部)
442 音声情報取得部
444 音声認識部
446 操作信号取得部
448 表示情報取得部
450 表示制御部
46 表示部
46a 第1の領域
46b 第2の領域
48 音声入力部
48a サービス利用者側音声入力部
48b サービス提供者側音声入力部
50 操作部
52 端末記憶部

Claims (13)

  1. 第1のユーザ向けの第1の領域および第2のユーザ向けの第2の領域を有する表示部と、音声入力部と、制御部と、を備えるコミュニケーション支援システムであって、
    上記制御部は、
    上記音声入力部を介して第1のユーザの音声を示す第1の音声情報を取得し、
    上記第1の音声情報が示す第1の音声内容を複数の言語の各々として認識する認識処理を行い、
    上記複数の言語の各々として認識された認識内容を示す第1の認識内容から、表示対象の第1の認識内容を選択する選択処理を行い、
    上記表示対象の第1の認識内容を、上記表示部の第1の領域に表示する、
    ことを特徴とするコミュニケーション支援システム。
  2. 上記制御部は、
    上記選択処理において、
    上記複数の言語の各々で認識する認識処理の確からしさを示す認識確度を参照して、上記表示対象の第1の認識内容を選択する、
    ことを特徴とする請求項1に記載のコミュニケーション支援システム。
  3. 上記制御部は、
    上記認識確度を参照して、上記表示対象の第1の認識内容を上記表示部の第1の領域に表示する表示態様を決定する、
    ことを特徴とする請求項2に記載のコミュニケーション支援システム。
  4. 上記制御部は、
    上記選択処理において、
    予め定められた認識内容候補一覧を参照して、上記表示対象の第1の認識内容を選択する、
    ことを特徴とする請求項1に記載のコミュニケーション支援システム。
  5. 上記制御部は、
    上記表示対象の第1の認識内容を翻訳した第1の翻訳内容を取得し、
    上記第1の翻訳内容を、上記表示部の第2の領域に表示する、
    ことを特徴とする請求項1〜4の何れか1項に記載のコミュニケーション支援システム。
  6. 上記制御部は、
    上記音声入力部を介して第2のユーザの音声を示す第2の音声情報を取得し、
    上記第2の音声情報が示す第2の音声内容を認識する認識処理を行い、
    上記認識処理によって認識された第2の認識内容を上記複数の言語に翻訳した第2の翻訳内容を取得し、
    上記第2の翻訳内容を上記表示部の第1の領域に表示する、
    ことを特徴とする請求項1〜5の何れか1項に記載のコミュニケーション支援システム。
  7. 操作子をさらに備え、
    上記制御部は、
    上記操作子を介して受け付けた入力に応じて、上記複数の言語のうち、何れの言語として上記第1の音声情報が示す第1の音声内容を認識するかを決定する、
    ことを特徴とする請求項1〜6の何れか1項に記載のコミュニケーション支援システム。
  8. 上記制御部は、
    上記表示対象の第1の認識内容に対応する、予め定められた応答内容候補一覧を参照して、上記第1の認識内容に対する応答内容を決定し、
    上記表示対象の第1の認識内容を上記表示部の第1の領域に表示し、上記応答内容を上記表示部の第2の領域に表示する、
    ことを特徴とする請求項1〜4の何れか1項に記載のコミュニケーション支援システム。
  9. 上記制御部は、
    上記予め定められた応答内容候補一覧に、上記第1の認識内容に対する応答内容が存在しない場合に、
    第1の音声内容を認識できなかった旨を表示する
    ことを特徴とする請求項8に記載のコミュニケーション支援システム。
  10. 上記第1のユーザはサービス利用者であり、上記第2のユーザはサービス提供者である、
    ことを特徴とする請求項1〜9の何れか1項に記載のコミュニケーション支援システム。
  11. 上記第1のユーザはサービス提供者であり、上記第2のユーザはサービス利用者である、
    ことを特徴とする請求項1〜9の何れか1項に記載のコミュニケーション支援システム。
  12. 第1のユーザの音声を示す第1の音声情報を取得する取得ステップと、
    上記第1の音声情報が示す第1の音声内容を複数の言語の各々として認識する認識ステップと、
    上記複数の言語の各々として認識された認識内容を示す第1の認識内容から、表示対象の第1の認識内容を選択する選択ステップと、
    上記表示対象の第1の認識内容を、第1のユーザ向けの第1の領域に表示する表示ステップと、
    を含むことを特徴とするコミュニケーション支援方法。
  13. 第1のユーザ向けの第1の領域および第2のユーザ向けの第2の領域を有する表示部と、音声入力部と、制御部と、を備えるコミュニケーション支援システムとしてコンピュータを機能させるためのプログラムであって、上記制御部に、
    上記音声入力部を介して第1のユーザの音声を示す第1の音声情報を取得する取得処理、
    上記第1の音声情報が示す第1の音声内容を複数の言語の各々として認識する認識処理、
    上記複数の言語の各々として認識された認識内容を示す第1の認識内容から、表示対象の第1の認識内容を選択する選択処理、
    上記表示対象の第1の認識内容を、上記表示部の第1の領域に表示する表示処理、
    を実行させることを特徴とするプログラム。
JP2016006633A 2016-01-15 2016-01-15 コミュニケーション支援システム、コミュニケーション支援方法、およびプログラム Active JP6697270B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016006633A JP6697270B2 (ja) 2016-01-15 2016-01-15 コミュニケーション支援システム、コミュニケーション支援方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016006633A JP6697270B2 (ja) 2016-01-15 2016-01-15 コミュニケーション支援システム、コミュニケーション支援方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2017126042A true JP2017126042A (ja) 2017-07-20
JP6697270B2 JP6697270B2 (ja) 2020-05-20

Family

ID=59363950

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016006633A Active JP6697270B2 (ja) 2016-01-15 2016-01-15 コミュニケーション支援システム、コミュニケーション支援方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6697270B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6457706B1 (ja) * 2018-03-26 2019-02-06 株式会社フォルテ 翻訳システム、翻訳方法、及び翻訳装置
JP2019159311A (ja) * 2018-03-12 2019-09-19 住友化学株式会社 偏光板およびそれを用いた画像表示装置
JP2020529032A (ja) * 2018-06-12 2020-10-01 深▲せん▼市合言信息科技有限公司Langogo Technology Co.,Ltd. 音声認識翻訳方法及び翻訳装置
JP2023031641A (ja) * 2021-08-25 2023-03-09 ソフトバンク株式会社 通信端末、プログラム、及び表示方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005025024A (ja) * 2003-07-04 2005-01-27 Microjenics Inc 複数言語音声認識プログラム及び複数言語音声認識システム
JP2006012179A (ja) * 2005-07-19 2006-01-12 Sony Corp 自然言語処理装置および自然言語処理方法
JP2009025538A (ja) * 2007-07-19 2009-02-05 Nissan Motor Co Ltd 音声対話装置
JP2010139826A (ja) * 2008-12-12 2010-06-24 Toyota Motor Corp 音声認識システム
JP2013073355A (ja) * 2011-09-27 2013-04-22 Toshiba Corp 対話支援装置、方法及びプログラム
JP2015069600A (ja) * 2013-09-30 2015-04-13 株式会社東芝 音声翻訳システム、方法およびプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005025024A (ja) * 2003-07-04 2005-01-27 Microjenics Inc 複数言語音声認識プログラム及び複数言語音声認識システム
JP2006012179A (ja) * 2005-07-19 2006-01-12 Sony Corp 自然言語処理装置および自然言語処理方法
JP2009025538A (ja) * 2007-07-19 2009-02-05 Nissan Motor Co Ltd 音声対話装置
JP2010139826A (ja) * 2008-12-12 2010-06-24 Toyota Motor Corp 音声認識システム
JP2013073355A (ja) * 2011-09-27 2013-04-22 Toshiba Corp 対話支援装置、方法及びプログラム
JP2015069600A (ja) * 2013-09-30 2015-04-13 株式会社東芝 音声翻訳システム、方法およびプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019159311A (ja) * 2018-03-12 2019-09-19 住友化学株式会社 偏光板およびそれを用いた画像表示装置
JP6457706B1 (ja) * 2018-03-26 2019-02-06 株式会社フォルテ 翻訳システム、翻訳方法、及び翻訳装置
WO2019186639A1 (ja) * 2018-03-26 2019-10-03 株式会社フォルテ 翻訳システム、翻訳方法、翻訳装置、及び音声入出力装置
JP2020529032A (ja) * 2018-06-12 2020-10-01 深▲せん▼市合言信息科技有限公司Langogo Technology Co.,Ltd. 音声認識翻訳方法及び翻訳装置
JP2023031641A (ja) * 2021-08-25 2023-03-09 ソフトバンク株式会社 通信端末、プログラム、及び表示方法
JP7357030B2 (ja) 2021-08-25 2023-10-05 ソフトバンク株式会社 通信端末、プログラム、及び表示方法

Also Published As

Publication number Publication date
JP6697270B2 (ja) 2020-05-20

Similar Documents

Publication Publication Date Title
US11081107B2 (en) Contextual entity resolution
US10402501B2 (en) Multi-lingual virtual personal assistant
US11004444B2 (en) Systems and methods for enhancing user experience by communicating transient errors
JP4559946B2 (ja) 入力装置、入力方法および入力プログラム
US9484034B2 (en) Voice conversation support apparatus, voice conversation support method, and computer readable medium
US8918320B2 (en) Methods, apparatuses and computer program products for joint use of speech and text-based features for sentiment detection
US8930187B2 (en) Methods, apparatuses and computer program products for implementing automatic speech recognition and sentiment detection on a device
US11030400B2 (en) System and method for identifying and replacing slots with variable slots
US11915693B2 (en) System and method for rule based modifications to variable slots based on context
US20190172444A1 (en) Spoken dialog device, spoken dialog method, and recording medium
US10672379B1 (en) Systems and methods for selecting a recipient device for communications
JP6983118B2 (ja) 対話システムの制御方法、対話システム及びプログラム
CN111462740A (zh) 非语音字母语言的话音辅助应用原型测试的话音命令匹配
US11501764B2 (en) Apparatus for media entity pronunciation using deep learning
JP2017126042A (ja) コミュニケーション支援システム、コミュニケーション支援方法、およびプログラム
US8583417B2 (en) Translation device and computer program product
JP6622165B2 (ja) 対話ログ分析装置、対話ログ分析方法およびプログラム
EP3503091A1 (en) Dialogue control device and method
US11403470B2 (en) Translation device
JP6085149B2 (ja) 機能実行指示システム、機能実行指示方法及び機能実行指示プログラム
US10841411B1 (en) Systems and methods for establishing a communications session
US11410638B1 (en) Voice user interface for nested content
US11657805B2 (en) Dynamic context-based routing of speech processing
US11705113B2 (en) Priority and context-based routing of speech processing
US11830497B2 (en) Multi-domain intent handling with cross-domain contextual signals

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180920

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190815

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190910

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200421

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200424

R150 Certificate of patent or registration of utility model

Ref document number: 6697270

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150