JP2023157158A

JP2023157158A - 情報処理システム、情報処理方法、及びプログラム

Info

Publication number: JP2023157158A
Application number: JP2022066890A
Authority: JP
Inventors: 森太郎大野; Shintaro Ono; 健一郎西脇; Kenichiro Nishiwaki
Original assignee: Toppan Holdings Inc
Current assignee: Toppan Holdings Inc
Priority date: 2022-04-14
Filing date: 2022-04-14
Publication date: 2023-10-26

Abstract

【課題】異なる言語を用いたコミュニケーションにおいて相手が理解しているか把握する。【解決手段】第１言語を用いて発話された音声情報を取得する第１取得部と、前記音声情報をテキストに変換することによって原文を生成し、生成した原文を第２言語に翻訳した翻訳文を生成する第１生成部と、前記翻訳文のテキスト情報を出力する第１出力部と、ユーザによってマーク操作された文言を含む前記翻訳文であるマーク文を取得する第２取得部と、前記マーク文を用いて、前記マーク操作された文言に対応する対応文言を含む前記原文を抽出する抽出部と、前記マーク文、及び前記対応文言を含む前記原文を含むフィードバック情報を生成する第２生成部と、前記フィードバック情報を出力する第２出力部と、を備える。【選択図】図２

Description

本発明は、情報処理システム、情報処理方法、及びプログラムに関する。

従来、使用言語が異なる人同士でコミュニケーションが取るための技術がある。例えば、特許文献１には、音声をテキストに変換した第１言語のテキストを、第１言語とは異なる第２言語に翻訳する技術が開示されている。

特開２０１８－１２４６９５号公報

しかしながら、翻訳された内容が専門的であったり複雑であったりする場合、相手がどの程度内容を理解しているかを把握することが難しいという問題があった。特に、異なる言語を介したコミュニケーションにおいては、音声をテキストに変換する工程や、テキストを翻訳する工程があり処理が複雑になる。このため、テキスト変換の工程、或いは翻訳の工程において誤りが生じたことに起因して理解できないのか、そもそもスピーカが話す内容が難しくて理解できないのかを判別することが困難であった。

本発明は、このような状況に鑑みてなされたものであり、異なる言語を用いたコミュニケーションにおいて相手が理解しているか把握することができる情報処理システム、情報処理方法、及びプログラムを提供することを目的とする。

本発明の情報処理システムは、第１言語を用いて発話された音声情報を取得する第１取得部と、前記音声情報をテキストに変換することによって原文を生成し、生成した原文を第２言語に翻訳した翻訳文を生成する第１生成部と、前記翻訳文のテキスト情報を出力する第１出力部と、ユーザによってマーク操作された文言を含む前記翻訳文であるマーク文を取得する第２取得部と、前記マーク文を用いて、前記マーク操作された文言に対応する対応文言を含む前記原文を抽出する抽出部と、前記マーク文、及び前記対応文言を含む前記原文を含むフィードバック情報を生成する第２生成部と、前記フィードバック情報を出力する第２出力部と、を備える。

本発明の、情報処理方法は、情報処理サーバであるコンピュータが行う情報処理方法であって、第１取得部が、第１言語を用いて発話された音声情報を取得し、第１生成部が、前記音声情報をテキストに変換することによって原文を生成し、生成した原文を第２言語に翻訳した翻訳文を生成し、第１出力部が、前記翻訳文のテキスト情報を出力し、第２取得部が、ユーザによってマーク操作された文言を含む前記翻訳文であるマーク文を取得し、抽出部が、前記マーク文を用いて、前記マーク操作された文言に対応する対応文言を含む前記原文を抽出し、第２生成部が、前記マーク文、及び前記対応文言を含む前記原文を含むフィードバック情報を生成し、第２出力部が、前記フィードバック情報を出力する。

本発明の、プログラムは、情報処理サーバであるコンピュータに、第１言語を用いて発話された音声情報を取得させ、前記音声情報をテキストに変換することによって原文を生成させ、生成された原文を第２言語に翻訳した翻訳文を生成させ、前記翻訳文のテキスト情報を出力させ、ユーザによってマーク操作された文言を含む前記翻訳文であるマーク文を取得させ、前記マーク文を用いて、前記マーク操作された文言に対応する対応文言を含む前記原文を抽出させ、前記マーク文、及び前記対応文言を含む前記原文を含むフィードバック情報を生成させ、前記フィードバック情報を出力させる、プログラムである。

本発明によれば、異なる言語を用いたコミュニケーションにおいて相手が理解しているか把握することができる。

実施形態に係る情報処理システム１の構成の例を示す図である。実施形態に係る情報処理サーバ１０の構成の例を示すブロック図である。実施形態に係るスピーカ属性情報１２０の例を示す図である。実施形態に係るリスナ属性情報１２１の例を示す図である。実施形態に係る原文情報１２２の例を示す図である。実施形態に係る翻訳文情報１２３の例を示す図である。実施形態に係るマーク情報１２４の例を示す図である。実施形態に係る装飾情報１２５の例を示す図である。実施形態に係る装飾情報１２５の例を示す図である。実施形態に係る装飾情報１２５の例を示す図である。実施形態に係る情報処理システム１が行う処理の流れを示すシーケンス図である。実施形態に係る情報処理サーバ１０が行う処理を説明する図である。実施形態に係る情報処理サーバ１０が行う処理を説明する図である。実施形態の変形例１を説明する図である。実施形態の変形例２を説明する図である。

以下、本発明の実施形態について、図面を参照して説明する。

図１は、実施形態による情報処理システム１の構成例を示すブロック図である。情報処理システム１は、例えば、情報処理サーバ１０と、スピーカ端末２０と、複数のリスナ端末３０（リスナ端末３０－１、３０－２、３０－３、…、３０－ｎ）を備える。ｎは任意の自然数である。

スピーカ端末２０は、プレゼンテーション（以下、プレゼンという）を行うスピーカＳＰ（話者）によって管理されるコンピュータである。スピーカ端末２０は、少なくともマイクとディスプレイとを備える。スピーカ端末２０として、例えば、ＰＣ（Personal Computer）、タブレット、スマートフォンなどを適用することができる。スピーカ端末２０は、スピーカ（話者）が発話した音声をマイクで集音する。スピーカ端末２０は、集音した音声を情報処理サーバ１０に送信する。

情報処理サーバ１０は、異なる言語間のコミュニケーションを支援するためのサーバ装置である。情報処理サーバ１０は、スピーカ端末２０によって集音された音声を受信し、受信した音声を音声認識によりテキスト化した原文ＯＴを生成する。次に、情報処理サーバ１０は、原文ＯＴを異なる言語に翻訳した翻訳文を生成する。そして、情報処理サーバ１０は、翻訳文をリスナ端末３０に送信する。

リスナ端末３０は、リスナＬＮ（聴者）によって管理されるコンピュータである。リスナ端末３０は、例えば、少なくともディスプレイとマウスやキーボード、タッチパネル等の入力装置を備える。リスナ端末３０として、例えば、ＰＣ、タブレット、スマートフォンなどを適用することができる。例えば、複数のリスナ端末３０（リスナ端末３０－１～３０－３）は、複数のリスナＬＮ（リスナＬＮ１～ＬＮ３）のそれぞれが管理する端末に対応する。リスナ端末３０は、情報処理サーバ１０から送信された翻訳文を受信する。リスナ端末３０は、受信した翻訳文をディスプレイに表示する。

この図の例では、スピーカＳＰが日本語で「北斎は…」と発話した例が示されている。この場合、スピーカＳＰの音声データが、スピーカ端末２０から情報処理サーバ１０に通知される。情報処理サーバ１０は、受信した音声データをテキスト化して生成した原文ＯＴの翻訳文である「Ｈｏｋｕｓａｉｉｓ…」という英文のテキスト情報をリスナ端末３０に送信する。リスナ端末３０は、「Ｈｏｋｕｓａｉｉｓ…」という翻訳文を表示する。

これにより、情報処理システム１では、スピーカＳＰが発話できる言語、例えば日本語で話す内容を、リスナＬＮが判る別の言語、例えば英語に翻訳した翻訳文をリスナ端末３０に表示させることができる。したがって、異なる言語間のコミュニケーションを支援することができる。

さらに、情報処理システム１では、リスナＬＮが「分からない」を伝えることができる。すなわち、情報処理システム１では、リスナＬＮがスピーカＳＰの話す内容が「分からない」場合に、その旨をスピーカＳＰに伝えることが可能である。これにより、スピーカＳＰはリスナＬＮから伝えられた「分からない」を元に、再度説明を加えたり、平易な言葉で言い換えたりするなど柔軟な対応を行うことが可能となる。したがって、異なる言語間のコミュニケーションを更に充実させることができる。以下、リスナＬＮが「分からない」を伝える方法について具体的に説明する。

リスナＬＮは、リスナ端末３０に表示された翻訳文を視認し、「分からない」と感じた文言をマーク操作する。ここでのマーク操作は、リスナ端末３０のディスプレイに表示された文言に印をつける（マークする）操作であって、例えば、マウスやキーボード、タッチパネル等がリスナＬＮによって操作されることによって行われる。リスナ端末３０は、マーク操作された文言を取得する。リスナ端末３０は、マーク操作された文言を含む翻訳文をマーク文ＭＴとして情報処理サーバ１０に送信する。

この図の例では、リスナＬＮが「Ｈｏｋｕｓａｉｉｓ…」という翻訳文に示された「ｕｋｉｙｏｅ」との文言を「分からない」と感じ、マーク操作を行った例が示されている。この場合、「ｕｋｉｙｏｅ」との文言を含む「Ｈｏｋｕｓａｉｉｓ…」との翻訳文がマーク文ＭＴとしてリスナ端末３０から情報処理サーバ１０に通知される。

情報処理サーバ１０は、リスナ端末３０からマーク文ＭＴを受信する。情報処理サーバ１０は、受信したマーク文ＭＴに対応する原文ＯＴを抽出する。ここでの原文ＯＴは、翻訳文を生成する際に、翻訳の元になった原文ＯＴである。例えば、情報処理サーバ１０は、「ｕｋｉｙｏｅ」との文言が含まれる「Ｈｏｋｕｓａｉｉｓ…」というマーク文ＭＴに対応する元の原文ＯＴ「北斎は…」を抽出する。

情報処理サーバ１０は、マーク文ＭＴと原文ＯＴにおいて、マーク操作された文言の対応づけを行う。情報処理サーバ１０は、原文ＯＴにおいて、マーク文ＭＴのマーク操作された文言に対応する文言（対応文言）を特定する。例えば、情報処理サーバ１０は、原文ＯＴ「北斎は…」において、「ｕｋｉｙｏｅ」との文言に対応する「浮世絵」との文言を、対応文言として特定する。

ここで、情報処理サーバ１０は、特定した対応文言を装飾するようにしてもよい。ここでの装飾とは、対応文言を、原文ＯＴにおいて識別可能な表示態様、例えば、枠で囲んだり、マーカを付したり、色を変えたり、太字にしたり、フォントサイズを大きくしたりする態様にて表示されるように加工することである。

情報処理サーバ１０は、マーク文ＭＴと、装飾された対応文言を含む原文ＯＴとを示す情報（フィードバック情報）をスピーカ端末２０に送信する。

スピーカ端末２０は、情報処理サーバ１０から送信されたフィードバック情報を受信する。リスナ端末３０は、受信したフィードバック情報に基づいて、マーク文ＭＴと、対応文言を含む原文ＯＴとをディスプレイに表示する。

これにより、情報処理システム１では、リスナＬＮの「分からない」を箇所が示されたマーク文ＭＴを、スピーカＳＰにフィードバックすることができる。
しかも、マーク文ＭＴと共に、マーク文ＭＴに対応する原文ＯＴを通知するため、スピーカＳＰが判る言語でリスナＬＮがマーク操作した箇所を伝えることができ、リスナＬＮの言語に疎いスピーカＳＰであってもリスナＬＮが何を理解できていないのかが判り易くなるように伝えることができる。
さらに、マーク文ＭＴに対応する原文ＯＴを表示させるので、スピーカＳＰが話した内容が正しく音声認識されているか否かが把握し易くなり、音声認識の誤りに起因する「分からない」なのか、或いは、内容の難解さに起因する「分からない」なのかを容易に判断することが可能となる。
さらに、対応文言が装飾された場合には、スピーカＳＰが、対応文言を容易に特定することができ、スピーカＳＰが話を続けながら、リスナＬＮが理解することができる内容となるように内容を調整するような対応をすることが容易となる。

図２は、実施形態による情報処理サーバ１０の構成例を示すブロック図である。情報処理サーバ１０は、コンピュータである。情報処理サーバ１０として、例えば、ＰＣ（Personal Computer）、サーバ装置、クラウドなどを適用することができる。

情報処理サーバ１０は、例えば、通信部１１と、記憶部１２と、制御部１３とを備える。通信部１１は、スピーカ端末２０、及びリスナ端末３０のそれぞれと通信を行う。

記憶部１２は、ＨＤＤ（Hard Disk Drive）、フラッシュメモリ、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）、ＲＡＭ（Random Access read/write Memory）、ＲＯＭ（Read Only Memory）などの記憶媒体、あるいはこれらの組合せによって構成される。記憶部１２は、情報処理サーバ１０の各種処理を実行するためのプログラム、及び各種処理を行う際に利用される一時的なデータを記憶する。

記憶部１２は、例えば、スピーカ属性情報１２０と、リスナ属性情報１２１と、原文情報１２２と、翻訳文情報１２３と、マーク情報１２４と、装飾情報１２５を記憶する。

図３は、スピーカ属性情報１２０の例を示す図である。スピーカ属性情報１２０はスピーカＳＰに関する情報である。スピーカ属性情報１２０は、スピーカＳＰごとに生成される。スピーカ属性情報１２０は、例えば、スピーカ名、及び、言語のそれぞれに対応する情報を含む。スピーカ名にはスピーカＳＰの氏名などスピーカＳＰを特定可能な情報が記憶される。言語には、スピーカＳＰが発話する言語が記憶される。

図４は、リスナ属性情報１２１の例を示す情報である。リスナ属性情報１２１はリスナＬＮに関する情報である。リスナ属性情報１２１は、例えば、スピーカＳＰによるプレゼンごとに生成される。リスナ属性情報１２１は、例えば、リスナ名、言語、及び属性のそれぞれに対応する情報を含む。リスナ名にはリスナＬＮの氏名などリスナＬＮを特定可能な情報が記憶される。言語には、リスナＬＮの言語が記憶される。属性には、リスナＬＮの属性が記憶される。ここでの属性は、リスナＬＮに関する情報であって、例えば、興味関心度や権限レベルなどの項目に対応する情報である。興味関心度は、プレゼンのテーマに対する興味関心の強さを示す度合である。権限レベルは、プレゼンの内容に対してリスナＬＮが有する権限である。例えば、プレゼンの内容が商談であれば、決裁権を有する決裁者か否か、担当者か否か等が権限レベルとして記憶される。

例えば、情報処理システム１では、プレゼンを配信するサービスを提供するサイト等において、視聴を希望するリスナＬＮの登録ページが生成される。視聴を希望するリスナＬＮは、リスナ端末３０などを用いて登録ページにアクセスをし、登録ページの入力フォームにしたがって、リスナＬＮの氏名、視聴を希望する言語、及びリスナＬＮの属性などを入力する。情報処理サーバ１０は、登録ページに入力された情報を、リスナ属性情報１２１として記憶部１２に記憶させる。

図５は、原文情報１２２の例を示す図である。原文情報１２２は原文ＯＴに関する情報である。原文情報１２２は、例えば、プレゼンごとに生成される。原文情報１２２は、例えば、言語、及び原文のそれぞれに対応する情報を含む。言語は、スピーカＳＰが発話した言語が記憶される。原文には、スピーカＳＰによる音声を音声認識エンジンによりテキスト化して生成した原文ＯＴのテキスト情報が記憶される。

図６は、翻訳文情報１２３の例を示す図である。翻訳文情報１２３は翻訳文に関する情報である。翻訳文情報１２３は、例えば、プレゼンごとに生成される。翻訳文情報１２３は、例えば、言語、及び翻訳文のそれぞれに対応する情報を含む。言語は、翻訳文の言語が記憶される。翻訳文には、原文ＯＴを、機械翻訳エンジン等を用いて翻訳した翻訳文のテキスト情報が記憶される。

図７は、マーク情報１２４の例を示す図である。マーク情報１２４はマーク操作された文言に関する情報である。マーク情報１２４は、例えば、リスナＬＮによるマーク操作がなされる度に生成される。マーク情報１２４は、例えば、マーク言語、マーク文、及び操作箇所のそれぞれに対応する情報を含む。言語は、マーク操作がなされた文言の言語が記憶される。マーク文には、マーク操作がなされた文言を含む翻訳文（マーク文ＭＴ）のテキスト情報が記憶される。操作箇所にはマーク操作がなされた文言のテキスト情報が記憶される。

図８～図１０は、装飾情報１２５の例を示す図である。装飾情報１２５は対応文言を装飾する方法を規定する情報である。装飾情報１２５は、リスナＬＮの属性ごとに生成される。装飾情報１２５は、例えば、属性、及び装飾のそれぞれに対応する情報を含む。属性はリスナＬＮの属性であって、例えば、リスナ属性情報１２１の属性に対応する情報が記憶される。装飾は、対応文言をどのように装飾するかを示す情報が記憶される。

図８には、属性としての興味関心度に応じた装飾を示す装飾情報１２５の例が示されている。この例では、興味関心度が「高い」場合、対応文言が「赤い色の太字」で表示されるように加工することが示されている。興味関心度が「低い」場合、対応文言が「青い色の字」で表示されるように加工することが示されている。興味関心度についてリスナＬＮからの回答がなく「未回答」である場合、対応文言が「黒い色の字」で表示されるように加工することが示されている。

図９には、属性としての権限レベルに応じた装飾を示す装飾情報１２５の例が示されている。この例では、権限レベルが「決裁者」である場合、対応文言が「赤い色の太字、且つフォントサイズ２０ポイントで下線付き」で表示されるように加工することが示されている。権限レベルが「担当者」である場合、対応文言が「青い色の太字」で表示されるように加工することが示されている。権限レベルについてリスナＬＮからの回答がなく「未回答」である場合、対応文言が「黒い色の字」で表示されるように加工することが示されている。

図１０には、属性としてのマーク操作された文言の言語の割合に応じた装飾を示す装飾情報１２５の例が示されている。この例では、マーク操作された文言の言語の割合が「閾値以上」である場合、対応文言が「赤い色の字」で表示されるように加工することが示されている。マーク操作された文言の言語の割合が「閾値未満」である場合、対応文言が「緑色の字」で表示されるように加工することが示されている。

図２に戻り、制御部１３は、例えば、第１取得部１３０と、第１生成部１３１と、第１出力部１３２と、第２取得部１３３と、抽出部１３４と、第２生成部１３５と、第２出力部１３６とを備える。制御部１３が備えるこれらの機能部は、情報処理サーバ１０がハードウェアとして備えるＣＰＵ（Central Processing Unit）にプログラムを実行させることによって実現される。

第１取得部１３０は、音声情報を取得する。音声情報は、スピーカ端末２０によって集音された、ある言語（第１言語）で発話されたスピーカＳＰの音声を示す情報である。第１取得部１３０は、取得した音声情報を、第１生成部１３１に出力する。

第１生成部１３１は、翻訳文を生成する。第１生成部１３１は、第１取得部１３０から音声情報を取得する。第１生成部１３１は、スピーカ属性情報１２０を参照して、スピーカＳＰが発話した言語を特定し、特定した言語に対応する音声認識エンジン等を用いて、音声情報が示す音声をテキスト化した原文ＯＴを生成する。第１生成部１３１は、生成した原文ＯＴの言語、及びテキスト情報などを原文情報１２２として記憶部１２に記憶させる。

また、第１生成部１３１は、リスナ属性情報１２１を参照して、リスナＬＮの言語を特定し、原文ＯＴを、特定した言語に翻訳する機械翻訳エンジン等を用いて翻訳した翻訳文を生成する。ここで、第１生成部１３１は、複数のリスナＬＮがいる場合には、リスナＬＮに応じたそれぞれの言語に翻訳された複数の翻訳文をそれぞれ生成する。第１生成部１３１は、生成した翻訳文の言語及びテキスト情報などを翻訳文情報１２３として記憶部１２に記憶させる。

第１出力部１３２は、第１生成部１３１により生成された翻訳文を出力する。これにより、翻訳文が通信部１１を介してリスナ端末３０に送信される。

第２取得部１３３は、マーク文ＭＴを示す情報、例えば、マーク文ＭＴを示すテキスト情報を取得する。第２取得部１３３は、マーク文ＭＴを示す情報を、マーク情報１２４として記憶部１２に記憶させる。

抽出部１３４は、マーク情報１２４を用いて、リスナＬＮによってマーク操作された文言に対応する対応文言を含む原文ＯＴを抽出する。例えば、第１出力部１３２は、マーク情報１２４に基づいて記憶部１２を参照し、マーク情報１２４に相当する翻訳文情報１２３を特定する。抽出部１３４は、特定した翻訳文に基づいて記憶部１２を参照し、特定した翻訳文に対応する原文情報１２２を特定する。抽出部１３４は、特定した原文情報１２２に含まれる原文ＯＴを、対応文言を含む原文ＯＴとして抽出する。

第２生成部１３５は、フィードバック情報を生成する。フィードバック情報は、リスナＬＮの「分からない」をスピーカＳＰに伝える情報であって、例えば、マーク文ＭＴと、対応文言を含む原文ＯＴとを含む情報である。

また、第２生成部１３５は、対応文言を装飾するようにしてもよい。例えば、第２生成部１３５は、マーク文ＭＴを通知したリスナＬＮの属性に基づいて、対応文言を装飾する。第２生成部１３５は、マーク文ＭＴを通知したリスナＬＮの氏名等に基づいてリスナ属性情報１２１を参照し、リスナＬＮの属性を抽出する。第２生成部１３５は、抽出したリスナＬＮの属性に基づいて図８に示す装飾情報１２５を参照し、属性に応じた装飾を抽出する。例えば、リスナＬＮの属性としての興味関心度が「高い」場合、第２生成部１３５は、そのリスナＬＮから通知されたマーク文ＭＴに対応する対応文言が、「赤色の太字」となるように装飾する。

例えば、第２生成部１３５は、マーク文ＭＴを通知したリスナＬＮの言語に基づいて、対応文言を装飾する。第２生成部１３５は、マーク文ＭＴを通知したリスナＬＮの氏名等に基づいてリスナ属性情報１２１を参照し、リスナＬＮの言語を特定する。第２生成部１３５は、特定したリスナＬＮの言語に応じた装飾を抽出する。例えば、リスナＬＮの言語が「英語」である場合、対応文言が「赤色」となるように装飾する。例えば、リスナＬＮの言語が「中国語」である場合、対応文言が「青色」となるように装飾する。

例えば、第２生成部１３５は、通知されたマーク文ＭＴの言語の割合を算出する。例えば、第２生成部１３５は、プレゼンに応じた配信が行われている所定の時間区間にリスナ端末３０から受信したマーク文ＭＴを言語ごと集計し、通知されたマーク文ＭＴの言語の割合を算出する。第２生成部１３５は、通知されたマーク文ＭＴの言語の割合に基づいて図１０に示す装飾情報１２５を参照し、割合が閾値以上であれば、その言語で通知されたマーク文ＭＴに対応する対応文言が、「赤色の字」となるように装飾する。一方、第２生成部１３５は、通知されたマーク文ＭＴの言語の割合が閾値未満であれば、その言語で通知されたマーク文ＭＴに対応する対応文言が、「緑色の字」となるように装飾する。

第２出力部１３６は、第２生成部１３５により生成されたフィードバック情報を出力する。これにより、フィードバック情報が通信部１１を介してスピーカ端末２０に送信される。

図１１は、情報処理システム１が行う処理の流れを示すシーケンス図である。

図１１に示すように、スピーカＳＰにより発話された音声がスピーカ端末２０によって集音される（ステップＳ１０）。スピーカ端末２０は、集音した音声情報を情報処理サーバ１０に送信する。情報処理サーバ１０は、翻訳文を生成する処理（翻訳文生成処理）を行う（ステップＳ１１）。翻訳文を生成する処理の流れについては後で詳しく説明する。情報処理サーバ１０は、生成した翻訳文のテキスト情報をリスナ端末３０に送信する。リスナ端末３０は、受信したテキスト情報に基づいて、翻訳文を表示する（ステップＳ１２）。リスナＬＮは表示された翻訳文を視認し、「分からない」箇所にマーク操作を行う。リスナ端末３０は、マウス等を介してマーク操作された箇所を示す情報を取得する（ステップＳ１３）。リスナ端末３０は、マーク操作された箇所を示す情報を情報処理サーバ１０に送信する。情報処理サーバ１０は、受信したマーク操作された箇所を示す情報を用いてフィードバック情報を生成する処理（フィードバック情報生成処理）を行う（ステップＳ１４）。フィードバック情報を生成する処理の流れについては後で詳しく説明する。情報処理サーバ１０は、生成したフィードバック情報を、スピーカ端末２０に送信する。スピーカ端末２０は、受信したフィードバック情報に基づいて、フィードバック情報、つまりマーク文ＭＴと、対応文言を含む原文ＯＴを表示する（ステップＳ１５）。

図１２は、翻訳文を生成する処理、及びフィードバック情報を生成する処理の流れを示す図である。

図１２の上側には翻訳文を生成する処理の流れが示されている。翻訳文を生成する処理では、まず、第１取得部１３０が音声情報を取得し、取得した音声情報を第１生成部１３１に出力する。次に。第１生成部１３１が音声情報を用いて翻訳文を生成する。具体的には、第１生成部１３１は、音声情報を音声認識等によりテキスト化した原文ＯＴを生成し、生成した原文ＯＴを機械翻訳等により翻訳することによって翻訳文を生成する。そして、第１出力部１３２は、第１生成部１３１が生成した翻訳文のテキスト情報を出力することによりリスナ端末３０に翻訳文を送信する。

図１２の下側には、フィードバック情報を生成する処理の流れが示されている。フィードバック情報を生成する処理では、まず、第２取得部１３３がマーク文ＭＴを取得し、取得したマーク文ＭＴを示す情報を抽出部１３４に出力する。抽出部１３４は、マーク文ＭＴに基づいて対応文言を含む原文ＯＴを抽出する。第２生成部１３５は、フィードバック情報、例えば、マーク文ＭＴと、対応文言を含む原文ＯＴとを対応づけた情報を生成する。そして、第２出力部１３６はフィードバック情報を出力することによりスピーカ端末２０にフィードバック情報を送信する。

図１３にはフィードバック情報の例が示されている。図１３に示すように、フィードバック情報におけるマーク文ＭＴにはマーク操作された文言ＭＫ「ｕｋｉｙｏｅ」が含まれる。また、フィードバック情報における原文ＯＴにはマーク操作された文言ＭＫに対応する対応文言ＳＫ「浮世絵」が含まれる。この図の例に示すように、フィードバック情報において対応文言ＳＫが太字で装飾されて表示される等のように加工されていてもよい。

以上説明したように、実施形態の情報処理システム１は、第１取得部１３０と、第１生成部１３１と、第１出力部１３２と、第２取得部１３３と、抽出部１３４と、第２生成部１３５と、第２出力部１３６とを備える。第１取得部１３０はスピーカＳＰの言語（第１言語）を用いて発話された音声情報を取得する。第１生成部１３１は、音声情報をテキストに変換することによって原文ＯＴを生成し、生成した原文ＯＴをリスナＬＮの言語（第２言語）に翻訳した翻訳文を生成する。第１出力部１３２は翻訳文のテキスト情報を出力する。第２取得部１３３は、マーク文ＭＴを取得する。マーク文ＭＴは、リスナＬＮ（ユーザ）によってマーク操作された文言を含む翻訳文である。抽出部１３４は、マーク文ＭＴを用いて、マーク操作された文言ＭＫ（図１３における「ｕｋｉｙｏｅ」）に対応する対応文言ＳＫ（図１３における「浮世絵」）を含む原文ＯＴを抽出する。第２生成部１３５は、フィードバック情報を生成する。フィードバック情報は、マーク文ＭＴ及び対応文言ＳＫを含む原文ＯＴを含む情報である。第２出力部１３６は、フィードバック情報を出力する。

これにより、実施形態の情報処理システム１では、スピーカＳＰが発話した内容の翻訳文をリスナＬＮに表示し、リスナＬＮから翻訳文のうちマーク操作された文言ＭＫが含まれるマーク文ＭＴを取得することができる。また、マーク文ＭＴと対応する原文（対応文言ＳＫを含む原文ＯＴ）をスピーカＳＰに表示することができる。したがって、スピーカＳＰに、リスナＬＮが理解できない、或いはもっと理解したい箇所などをマーク操作した文言を含む翻訳文を、その原文と共にフィードバックすることができる。このため、異なる言語を用いたコミュニケーションにおいて相手が理解しているか把握することができる。

また、実施形態の情報処理システム１では、第１生成部１３１は、原文ＯＴが複数の言語に翻訳された翻訳文をそれぞれ生成する。これにより、実施形態の情報処理システム１では、多言語に対応することができ、リスナＬＮのそれぞれの言語に応じた翻訳文を生成することが可能となり、生成したそれぞれの翻訳文をリスナＬＮに表示することができる。

また、実施形態の情報処理システム１では、第２生成部１３５は、マーク文ＭＴに対応するリスナＬＮの属性に基づいて、対応文言ＳＫの表示態様を変更する。これにより、実施形態の情報処理システム１では、リスナＬＮの属性に応じて対応文言の表示対応が変更され、例えば、興味関心が高いリスナＬＮから通知されたマーク文ＭＴについては対応文言が赤い色等で表示されるように装飾することができる。したがって、どのような属性を有するリスナＬＮから、どのような文言がマーク操作されたかを、スピーカＳＰに判り易くフィードバックすることができる。また、リスナＬＮから大量のマーク文ＭＴが通知された場合であっても、どのマーク文ＭＴを考慮すればよいかスピーカＳＰに判り易くフィードバックすることができる。

また、実施形態の情報処理システム１では、マーク文ＭＴに対応する言語に基づいて、対応文言ＳＫの表示態様を変更する。これにより、実施形態の情報処理システム１では、マーク文ＭＴの言語に応じて対応文言の表示対応が変更され、例えば、中国語のリスナＬＮから通知されたマーク文ＭＴについては対応文言が青色などで表示されるように装飾することができる。したがって、どのような言語のリスナＬＮから、どのような文言がマーク操作されたかを、スピーカＳＰにフィードバックすることができる。

また、実施形態の情報処理システム１では、第２取得部１３３によって複数のマーク文ＭＴが取得された場合、複数のマーク文ＭＴのそれぞれに対応する言語の割合に基づいて、対応文言ＳＫの表示態様を変更してもよい。これにより、実施形態の情報処理システム１では、マーク文ＭＴの言語の割合に応じて対応文言の表示対応が変更され、例えば、英語のリスナＬＮから多くのマーク文ＭＴが通知された場合、その対応文言が赤い色等で表示されるように装飾することができる。したがって、どのような言語のリスナＬＮから数多くのマーク文ＭＴが通知されているかをスピーカＳＰが判るようにフィードバックすることができる。例えば、翻訳先の言語によっては誤った翻訳がなされる文言がある場合、翻訳が誤っていることに起因して多くのリスナＬＮがマーク操作を行うことが想定され、このような場合、言語の割合に応じて表示対応を変更することにより、スピーカＳＰが翻訳の誤りに気付き易くなるようにフィードバックすることができる。

ここで、実施形態の変形例１について説明する。本変形例では、マーク操作が行われる際に複数の選択肢が表示される点において、上述した実施形態と相違する。

図１４は実施形態の変形例１を説明する図である。図１４に示すように、本変形例では、リスナ端末３０においてマーク操作が行われると、マーク操作が行われた文言ＭＫが表示される位置に、複数の選択肢ＳＴが表示される。ここで表示される選択肢は、リスナＬＮの理解度を選択可能な選択肢である。リスナＬＮは、表示された選択肢を視認し、例えば、マーク操作を行った文言ＭＫに対して感じる理解度に最も近いと感じる選択肢を選択する。

この図の例では、３つの選択肢が表示され、１つ目の選択肢は、リスナＬＮが文言ＭＫに対し「翻訳文に一貫性がない」と感じた場合に選択される。２つ目の選択肢は、リスナＬＮが文言ＭＫに対し「簡単すぎるためもっと詳しく説明してほしい」と感じた場合に選択される。３つ目の選択肢は、リスナＬＮが文言ＭＫに対し「難しすぎるためもっとかみ砕いて説明してほしい」と感じた場合に選択される。

リスナ端末３０は、マーク操作が行われた場合、マーク操作が行われた文言ＭＫと共に、リスナＬＮによって選択された選択肢を示す情報を取得する。リスナ端末３０は、マーク文ＭＴと選択肢を示す情報を、情報処理サーバ１０に送信する。

情報処理サーバ１０は、マーク文ＭＴと選択肢を示す情報を受信する。情報処理サーバ１０は、フィードバック情報として、マーク文ＭＴと対応文言ＳＫを含む原文ＯＴと共に、リスナＬＮによって選択された選択肢を示す情報を生成する。

この場合において、情報処理サーバ１０は、リスナＬＮによって選択された選択肢に基づいて、対応文言ＳＫの表示対応を変更するように装飾してもよい。例えば、第２生成部１３５は、１番目の選択肢が選択された場合、対応文言が「赤色」となるように装飾する。例えば、第２生成部１３５は、２番目の選択肢が選択された場合、対応文言が「青色」となるように装飾する。例えば、第２生成部１３５は、３番目の選択肢が選択された場合、対応文言が「緑色」となるように装飾する。

情報処理サーバ１０は、フィードバック情報として、マーク文ＭＴと対応文言ＳＫを含む原文ＯＴと共に、リスナＬＮによって選択された選択肢を示す情報をスピーカ端末２０に送信する。スピーカ端末２０は、マーク文ＭＴと対応文言ＳＫを含む原文ＯＴと共に、リスナＬＮによって選択された選択肢を示す情報を表示する。これにより、スピーカＳＰは、スピーカ端末２０に表示された選択肢から、リスナＬＮが文言ＭＫに対し、どのような理解度を有しているかを把握することができる。

以上説明したように、本実施形態の変形例１に係る情報処理システム１では、第２取得部１３３は、マーク文ＭＴと共に、マーク操作された文言ＭＫに対して、リスナＬＮが選択した選択肢（リスナＬＮの理解度を示す情報）を取得する。これにより、実施形態の変形例１に係る情報処理システム１では、文言ＭＫに対するリスナＬＮの理解度を取得することができる。これにより、リスナＬＮが、どのような文言ＭＫに対し、どのような理解をしているのかをスピーカＳＰにフィードバックすることができる。

また、本実施形態の変形例１に係る情報処理システム１では、第２生成部１３５は、リスナＬＮが選択した選択肢に応じて対応文言ＳＫの表示態様を変更する。これにより、実施形態の変形例１に係る情報処理システム１では、スピーカＳＰに、リスナＬＮが文言ＭＫに対し、どのような理解度を有しているかを判り易く表示することができる。

ここで、実施形態の変形例２について説明する。本変形例では、逆翻訳文ＭＯＴ（図１５参照）が生成される点において、上述した実施形態と相違する。逆翻訳文ＭＯＴは、マーク文ＭＴがスピーカＳＰの言語に翻訳された文である。

一般に、原文ＯＴを翻訳した翻訳文を、さらに、原文ＯＴの言語に翻訳しなおした場合、原文ＯＴと逆翻訳文ＭＯＴが一致するとは限らない。特に、機械翻訳などを利用した場合、原文ＯＴを翻訳する際に、誤った翻訳がなされることがある。このような場合、逆翻訳文ＭＯＴを生成すると、原文ＯＴにおいて誤った翻訳がなされた文言が、原文ＯＴとは別の文言に置き換わる可能性がある。このような性質を利用し、本変形例では、逆翻訳文ＭＯＴを生成することにより、翻訳文における翻訳の誤りを特定し易くする。

図１５は実施形態の変形例２を説明する図である。図１５に示すように、例えば、情報処理システム１において、スピーカＳＰが「マヤ文明は、…です」と発話した場合に、「マヤ文明は、…です」という原文ＯＴが生成される。そして、原文ＯＴを英語に翻訳する過程において、「Ｍａｙａｆｕｍｉａｋｉｉｓ…」と誤った翻訳文が生成されてしまう場合がある。

このような場合、リスナＬＮは、「Ｍａｙａｆｕｍｉａｋｉｉｓ…」との表示に足し、マーク操作を行い、翻訳文が理解できない旨をフィードバックすると考えられる。本変形例ではこのような誤った翻訳文が生成された場合を想定し、翻訳文における翻訳の誤りが特定し易くなるように、逆翻訳文ＭＯＴを生成する。以下、逆翻訳文ＭＯＴを生成する処理について説明する。

リスナ端末３０は、リスナＬＮによってマーク操作が行われた場合、マーク操作が行われた文言ＭＫを示す情報を取得する。リスナ端末３０は、マーク文ＭＴを示す情報を、情報処理サーバ１０に送信する。

情報処理サーバ１０は、マーク文ＭＴを受信する。情報処理サーバ１０は、フィードバック情報として、マーク文ＭＴと対応文言ＳＫを含む原文ＯＴと共に、マーク文ＭＴをスピーカＳＰの言語に翻訳した逆翻訳文ＭＯＴを生成する。

第２生成部１３５は、リスナ属性情報１２１を参照してリスナＬＮの言語を特定する。また、第２生成部１３５は、スピーカ属性情報１２０を参照して、スピーカＳＰが発話した言語を特定する。第２生成部１３５は、特定した言語に対応する音声認識エンジン等を用いて、マーク文ＭＴを、原文ＯＴの言語に翻訳した逆翻訳文ＭＯＴを生成する。

この場合において、第２生成部１３５は、逆翻訳文ＭＯＴにおいて、マーク操作された文言ＭＫに対応する文言の表示対応を変更するようにしてもよい。例えば、第２生成部１３５は、リスナＬＮによって「Ｍａｙａｆｕｍｉａｋｉ」との文言ＭＫがマーク操作された場合、逆翻訳文ＭＯＴにおいて、この「Ｍａｙａｆｕｍｉａｋｉ」に対応する文言である「まやふみあき」との文言ＭＫを枠で囲むような装飾をする。

情報処理サーバ１０は、フィードバック情報として、マーク文ＭＴと原文ＯＴと共に、逆翻訳文ＭＯＴを示す情報をスピーカ端末２０に送信する。スピーカ端末２０は、マーク文ＭＴと原文ＯＴと共に、逆翻訳文ＭＯＴを表示する。これにより、スピーカＳＰは、スピーカ端末２０に表示された原文ＯＴと逆翻訳文ＭＯＴとを対比させることにより、誤った翻訳文が生成された可能性が高い文言を特定することができる。例えば、原文ＯＴにおける「マヤ文明」が、逆翻訳文ＭＯＴでは「まやふみあき」となっていることから、「マヤ文明」との文言が、誤って「Ｍａｙａｆｕｍｉａｋｉ」と翻訳された可能性があることを把握することができる。

以上説明したように、本実施形態の変形例２に係る情報処理システム１では、第２生成部１３５は、フィードバック情報として、逆翻訳文ＭＯＴを生成する。逆翻訳文ＭＯＴは、マーク文ＭＴを、スピーカＳＰの言語に翻訳した文である。これにより、実施形態の変形例２に係る情報処理システム１では、原文ＯＴと逆翻訳文ＭＯＴを対比可能に表示させることができる。したがって、スピーカＳＰが、誤って翻訳された文言を特定し易くすることができ、リスナＬＮに対し、翻訳が誤っている可能性を伝え、正しく翻訳される可能性が高い文言に言い直して説明する等して、リスナＬＮの理解度が深まるように話の内容をアレンジして柔軟に対応することができる。

上述した実施形態における情報処理システム１、及び情報処理サーバ１０の全部または一部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＦＰＧＡ等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１…情報処理システム
１０…情報処理サーバ
１３０…第１取得部
１３１…第１生成部
１３２…第１出力部
１３３…第２取得部
１３４…抽出部
１３５…第２生成部
１３６…第２出力部
２０…スピーカ端末
３０…リスナ端末

Claims

第１言語を用いて発話された音声情報を取得する第１取得部と、
前記音声情報をテキストに変換することによって原文を生成し、生成した原文を第２言語に翻訳した翻訳文を生成する第１生成部と、
前記翻訳文のテキスト情報を出力する第１出力部と、
ユーザによってマーク操作された文言を含む前記翻訳文であるマーク文を取得する第２取得部と、
前記マーク文を用いて、前記マーク操作された文言に対応する対応文言を含む前記原文を抽出する抽出部と、
前記マーク文、及び前記対応文言を含む前記原文を含むフィードバック情報を生成する第２生成部と、
前記フィードバック情報を出力する第２出力部と、
を備える情報処理システム。
前記第１生成部は、前記原文が複数の言語に翻訳された前記翻訳文をそれぞれ生成し、
前記第１出力部は、前記ユーザの言語に応じた前記翻訳文のテキスト情報を出力する、
請求項１に記載の情報処理システム。
前記第２取得部は、前記マーク文と共に、前記マーク操作された文言に対して前記ユーザが選択肢から選択した前記ユーザの理解度を示す情報を取得し、
前記第２出力部は、前記ユーザの理解度を示す情報を、前記フィードバック情報として出力する、
請求項１に記載の情報処理システム。
前記第２生成部は、前記マーク文に対応する前記ユーザの属性に基づいて、前記対応文言の表示態様を変更し、
前記第２出力部は、表示態様が変更された前記対応文言を、前記フィードバック情報として出力する、
請求項１に記載の情報処理システム。
前記第２生成部は、前記マーク文に対応する言語に基づいて、前記対応文言の表示態様を変更し、
前記第２出力部は、表示態様が変更された前記対応文言を、前記フィードバック情報として出力する、
請求項１に記載の情報処理システム。
前記第２生成部は、前記マーク文に対して選択された選択肢に基づいて、前記対応文言の表示態様を変更し、
前記第２出力部は、表示態様が変更された前記対応文言を、前記フィードバック情報として出力する、
請求項３に記載の情報処理システム。
前記第２生成部は、前記マーク操作された文言を含む前記翻訳文を前記第１言語に翻訳した逆翻訳文を生成し、
前記第２出力部は、前記逆翻訳文を示す情報を、前記フィードバック情報として出力する、
請求項１から請求項６の何れか一項に記載の情報処理システム。
情報処理サーバであるコンピュータが行う情報処理方法であって、
第１取得部が、第１言語を用いて発話された音声情報を取得し、
第１生成部が、前記音声情報をテキストに変換することによって原文を生成し、生成した原文を第２言語に翻訳した翻訳文を生成し、
第１出力部が、前記翻訳文のテキスト情報を出力し、
第２取得部が、ユーザによってマーク操作された文言を含む前記翻訳文であるマーク文を取得し、
抽出部が、前記マーク文を用いて、前記マーク操作された文言に対応する対応文言を含む前記原文を抽出し、
第２生成部が、前記マーク文、及び前記対応文言を含む前記原文を含むフィードバック情報を生成し、
第２出力部が、前記フィードバック情報を出力する、
情報処理方法。
情報処理サーバであるコンピュータに、
第１言語を用いて発話された音声情報を取得させ、
前記音声情報をテキストに変換することによって原文を生成させ、生成された原文を第２言語に翻訳した翻訳文を生成させ、
前記翻訳文のテキスト情報を出力させ、
ユーザによってマーク操作された文言を含む前記翻訳文であるマーク文を取得させ、
前記マーク文を用いて、前記マーク操作された文言に対応する対応文言を含む前記原文を抽出させ、
前記マーク文、及び前記対応文言を含む前記原文を含むフィードバック情報を生成させ、
前記フィードバック情報を出力させる、
プログラム。