JP2023157158A - 情報処理システム、情報処理方法、及びプログラム - Google Patents
情報処理システム、情報処理方法、及びプログラム Download PDFInfo
- Publication number
- JP2023157158A JP2023157158A JP2022066890A JP2022066890A JP2023157158A JP 2023157158 A JP2023157158 A JP 2023157158A JP 2022066890 A JP2022066890 A JP 2022066890A JP 2022066890 A JP2022066890 A JP 2022066890A JP 2023157158 A JP2023157158 A JP 2023157158A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- information
- text
- translated
- wording
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims description 98
- 238000003672 processing method Methods 0.000 title claims description 7
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 238000004891 communication Methods 0.000 abstract description 12
- 239000000284 extract Substances 0.000 abstract description 8
- 238000005034 decoration Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 20
- 238000000034 method Methods 0.000 description 20
- 238000012986 modification Methods 0.000 description 17
- 230000004048 modification Effects 0.000 description 17
- 230000008569 process Effects 0.000 description 17
- 238000013519 translation Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】異なる言語を用いたコミュニケーションにおいて相手が理解しているか把握する。【解決手段】第1言語を用いて発話された音声情報を取得する第1取得部と、前記音声情報をテキストに変換することによって原文を生成し、生成した原文を第2言語に翻訳した翻訳文を生成する第1生成部と、前記翻訳文のテキスト情報を出力する第1出力部と、ユーザによってマーク操作された文言を含む前記翻訳文であるマーク文を取得する第2取得部と、前記マーク文を用いて、前記マーク操作された文言に対応する対応文言を含む前記原文を抽出する抽出部と、前記マーク文、及び前記対応文言を含む前記原文を含むフィードバック情報を生成する第2生成部と、前記フィードバック情報を出力する第2出力部と、を備える。【選択図】図2
Description
本発明は、情報処理システム、情報処理方法、及びプログラムに関する。
従来、使用言語が異なる人同士でコミュニケーションが取るための技術がある。例えば、特許文献1には、音声をテキストに変換した第1言語のテキストを、第1言語とは異なる第2言語に翻訳する技術が開示されている。
しかしながら、翻訳された内容が専門的であったり複雑であったりする場合、相手がどの程度内容を理解しているかを把握することが難しいという問題があった。特に、異なる言語を介したコミュニケーションにおいては、音声をテキストに変換する工程や、テキストを翻訳する工程があり処理が複雑になる。このため、テキスト変換の工程、或いは翻訳の工程において誤りが生じたことに起因して理解できないのか、そもそもスピーカが話す内容が難しくて理解できないのかを判別することが困難であった。
本発明は、このような状況に鑑みてなされたものであり、異なる言語を用いたコミュニケーションにおいて相手が理解しているか把握することができる情報処理システム、情報処理方法、及びプログラムを提供することを目的とする。
本発明の情報処理システムは、第1言語を用いて発話された音声情報を取得する第1取得部と、前記音声情報をテキストに変換することによって原文を生成し、生成した原文を第2言語に翻訳した翻訳文を生成する第1生成部と、前記翻訳文のテキスト情報を出力する第1出力部と、ユーザによってマーク操作された文言を含む前記翻訳文であるマーク文を取得する第2取得部と、前記マーク文を用いて、前記マーク操作された文言に対応する対応文言を含む前記原文を抽出する抽出部と、前記マーク文、及び前記対応文言を含む前記原文を含むフィードバック情報を生成する第2生成部と、前記フィードバック情報を出力する第2出力部と、を備える。
本発明の、情報処理方法は、情報処理サーバであるコンピュータが行う情報処理方法であって、第1取得部が、第1言語を用いて発話された音声情報を取得し、第1生成部が、前記音声情報をテキストに変換することによって原文を生成し、生成した原文を第2言語に翻訳した翻訳文を生成し、第1出力部が、前記翻訳文のテキスト情報を出力し、第2取得部が、ユーザによってマーク操作された文言を含む前記翻訳文であるマーク文を取得し、抽出部が、前記マーク文を用いて、前記マーク操作された文言に対応する対応文言を含む前記原文を抽出し、第2生成部が、前記マーク文、及び前記対応文言を含む前記原文を含むフィードバック情報を生成し、第2出力部が、前記フィードバック情報を出力する。
本発明の、プログラムは、情報処理サーバであるコンピュータに、第1言語を用いて発話された音声情報を取得させ、前記音声情報をテキストに変換することによって原文を生成させ、生成された原文を第2言語に翻訳した翻訳文を生成させ、前記翻訳文のテキスト情報を出力させ、ユーザによってマーク操作された文言を含む前記翻訳文であるマーク文を取得させ、前記マーク文を用いて、前記マーク操作された文言に対応する対応文言を含む前記原文を抽出させ、前記マーク文、及び前記対応文言を含む前記原文を含むフィードバック情報を生成させ、前記フィードバック情報を出力させる、プログラムである。
本発明によれば、異なる言語を用いたコミュニケーションにおいて相手が理解しているか把握することができる。
以下、本発明の実施形態について、図面を参照して説明する。
図1は、実施形態による情報処理システム1の構成例を示すブロック図である。情報処理システム1は、例えば、情報処理サーバ10と、スピーカ端末20と、複数のリスナ端末30(リスナ端末30-1、30-2、30-3、…、30-n)を備える。nは任意の自然数である。
スピーカ端末20は、プレゼンテーション(以下、プレゼンという)を行うスピーカSP(話者)によって管理されるコンピュータである。スピーカ端末20は、少なくともマイクとディスプレイとを備える。スピーカ端末20として、例えば、PC(Personal Computer)、タブレット、スマートフォンなどを適用することができる。スピーカ端末20は、スピーカ(話者)が発話した音声をマイクで集音する。スピーカ端末20は、集音した音声を情報処理サーバ10に送信する。
情報処理サーバ10は、異なる言語間のコミュニケーションを支援するためのサーバ装置である。情報処理サーバ10は、スピーカ端末20によって集音された音声を受信し、受信した音声を音声認識によりテキスト化した原文OTを生成する。次に、情報処理サーバ10は、原文OTを異なる言語に翻訳した翻訳文を生成する。そして、情報処理サーバ10は、翻訳文をリスナ端末30に送信する。
リスナ端末30は、リスナLN(聴者)によって管理されるコンピュータである。リスナ端末30は、例えば、少なくともディスプレイとマウスやキーボード、タッチパネル等の入力装置を備える。リスナ端末30として、例えば、PC、タブレット、スマートフォンなどを適用することができる。例えば、複数のリスナ端末30(リスナ端末30-1~30-3)は、複数のリスナLN(リスナLN1~LN3)のそれぞれが管理する端末に対応する。リスナ端末30は、情報処理サーバ10から送信された翻訳文を受信する。リスナ端末30は、受信した翻訳文をディスプレイに表示する。
この図の例では、スピーカSPが日本語で「北斎は…」と発話した例が示されている。この場合、スピーカSPの音声データが、スピーカ端末20から情報処理サーバ10に通知される。情報処理サーバ10は、受信した音声データをテキスト化して生成した原文OTの翻訳文である「Hokusai is…」という英文のテキスト情報をリスナ端末30に送信する。リスナ端末30は、「Hokusai is…」という翻訳文を表示する。
これにより、情報処理システム1では、スピーカSPが発話できる言語、例えば日本語で話す内容を、リスナLNが判る別の言語、例えば英語に翻訳した翻訳文をリスナ端末30に表示させることができる。したがって、異なる言語間のコミュニケーションを支援することができる。
さらに、情報処理システム1では、リスナLNが「分からない」を伝えることができる。すなわち、情報処理システム1では、リスナLNがスピーカSPの話す内容が「分からない」場合に、その旨をスピーカSPに伝えることが可能である。これにより、スピーカSPはリスナLNから伝えられた「分からない」を元に、再度説明を加えたり、平易な言葉で言い換えたりするなど柔軟な対応を行うことが可能となる。したがって、異なる言語間のコミュニケーションを更に充実させることができる。以下、リスナLNが「分からない」を伝える方法について具体的に説明する。
リスナLNは、リスナ端末30に表示された翻訳文を視認し、「分からない」と感じた文言をマーク操作する。ここでのマーク操作は、リスナ端末30のディスプレイに表示された文言に印をつける(マークする)操作であって、例えば、マウスやキーボード、タッチパネル等がリスナLNによって操作されることによって行われる。リスナ端末30は、マーク操作された文言を取得する。リスナ端末30は、マーク操作された文言を含む翻訳文をマーク文MTとして情報処理サーバ10に送信する。
この図の例では、リスナLNが「Hokusai is…」という翻訳文に示された「ukiyoe」との文言を「分からない」と感じ、マーク操作を行った例が示されている。この場合、「ukiyoe」との文言を含む「Hokusai is…」との翻訳文がマーク文MTとしてリスナ端末30から情報処理サーバ10に通知される。
情報処理サーバ10は、リスナ端末30からマーク文MTを受信する。情報処理サーバ10は、受信したマーク文MTに対応する原文OTを抽出する。ここでの原文OTは、翻訳文を生成する際に、翻訳の元になった原文OTである。例えば、情報処理サーバ10は、「ukiyoe」との文言が含まれる「Hokusai is…」というマーク文MTに対応する元の原文OT「北斎は…」を抽出する。
情報処理サーバ10は、マーク文MTと原文OTにおいて、マーク操作された文言の対応づけを行う。情報処理サーバ10は、原文OTにおいて、マーク文MTのマーク操作された文言に対応する文言(対応文言)を特定する。例えば、情報処理サーバ10は、原文OT「北斎は…」において、「ukiyoe」との文言に対応する「浮世絵」との文言を、対応文言として特定する。
ここで、情報処理サーバ10は、特定した対応文言を装飾するようにしてもよい。ここでの装飾とは、対応文言を、原文OTにおいて識別可能な表示態様、例えば、枠で囲んだり、マーカを付したり、色を変えたり、太字にしたり、フォントサイズを大きくしたりする態様にて表示されるように加工することである。
情報処理サーバ10は、マーク文MTと、装飾された対応文言を含む原文OTとを示す情報(フィードバック情報)をスピーカ端末20に送信する。
スピーカ端末20は、情報処理サーバ10から送信されたフィードバック情報を受信する。リスナ端末30は、受信したフィードバック情報に基づいて、マーク文MTと、対応文言を含む原文OTとをディスプレイに表示する。
これにより、情報処理システム1では、リスナLNの「分からない」を箇所が示されたマーク文MTを、スピーカSPにフィードバックすることができる。
しかも、マーク文MTと共に、マーク文MTに対応する原文OTを通知するため、スピーカSPが判る言語でリスナLNがマーク操作した箇所を伝えることができ、リスナLNの言語に疎いスピーカSPであってもリスナLNが何を理解できていないのかが判り易くなるように伝えることができる。
さらに、マーク文MTに対応する原文OTを表示させるので、スピーカSPが話した内容が正しく音声認識されているか否かが把握し易くなり、音声認識の誤りに起因する「分からない」なのか、或いは、内容の難解さに起因する「分からない」なのかを容易に判断することが可能となる。
さらに、対応文言が装飾された場合には、スピーカSPが、対応文言を容易に特定することができ、スピーカSPが話を続けながら、リスナLNが理解することができる内容となるように内容を調整するような対応をすることが容易となる。
しかも、マーク文MTと共に、マーク文MTに対応する原文OTを通知するため、スピーカSPが判る言語でリスナLNがマーク操作した箇所を伝えることができ、リスナLNの言語に疎いスピーカSPであってもリスナLNが何を理解できていないのかが判り易くなるように伝えることができる。
さらに、マーク文MTに対応する原文OTを表示させるので、スピーカSPが話した内容が正しく音声認識されているか否かが把握し易くなり、音声認識の誤りに起因する「分からない」なのか、或いは、内容の難解さに起因する「分からない」なのかを容易に判断することが可能となる。
さらに、対応文言が装飾された場合には、スピーカSPが、対応文言を容易に特定することができ、スピーカSPが話を続けながら、リスナLNが理解することができる内容となるように内容を調整するような対応をすることが容易となる。
図2は、実施形態による情報処理サーバ10の構成例を示すブロック図である。情報処理サーバ10は、コンピュータである。情報処理サーバ10として、例えば、PC(Personal Computer)、サーバ装置、クラウドなどを適用することができる。
情報処理サーバ10は、例えば、通信部11と、記憶部12と、制御部13とを備える。通信部11は、スピーカ端末20、及びリスナ端末30のそれぞれと通信を行う。
記憶部12は、HDD(Hard Disk Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、RAM(Random Access read/write Memory)、ROM(Read Only Memory)などの記憶媒体、あるいはこれらの組合せによって構成される。記憶部12は、情報処理サーバ10の各種処理を実行するためのプログラム、及び各種処理を行う際に利用される一時的なデータを記憶する。
記憶部12は、例えば、スピーカ属性情報120と、リスナ属性情報121と、原文情報122と、翻訳文情報123と、マーク情報124と、装飾情報125を記憶する。
図3は、スピーカ属性情報120の例を示す図である。スピーカ属性情報120はスピーカSPに関する情報である。スピーカ属性情報120は、スピーカSPごとに生成される。スピーカ属性情報120は、例えば、スピーカ名、及び、言語のそれぞれに対応する情報を含む。スピーカ名にはスピーカSPの氏名などスピーカSPを特定可能な情報が記憶される。言語には、スピーカSPが発話する言語が記憶される。
図4は、リスナ属性情報121の例を示す情報である。リスナ属性情報121はリスナLNに関する情報である。リスナ属性情報121は、例えば、スピーカSPによるプレゼンごとに生成される。リスナ属性情報121は、例えば、リスナ名、言語、及び属性のそれぞれに対応する情報を含む。リスナ名にはリスナLNの氏名などリスナLNを特定可能な情報が記憶される。言語には、リスナLNの言語が記憶される。属性には、リスナLNの属性が記憶される。ここでの属性は、リスナLNに関する情報であって、例えば、興味関心度や権限レベルなどの項目に対応する情報である。興味関心度は、プレゼンのテーマに対する興味関心の強さを示す度合である。権限レベルは、プレゼンの内容に対してリスナLNが有する権限である。例えば、プレゼンの内容が商談であれば、決裁権を有する決裁者か否か、担当者か否か等が権限レベルとして記憶される。
例えば、情報処理システム1では、プレゼンを配信するサービスを提供するサイト等において、視聴を希望するリスナLNの登録ページが生成される。視聴を希望するリスナLNは、リスナ端末30などを用いて登録ページにアクセスをし、登録ページの入力フォームにしたがって、リスナLNの氏名、視聴を希望する言語、及びリスナLNの属性などを入力する。情報処理サーバ10は、登録ページに入力された情報を、リスナ属性情報121として記憶部12に記憶させる。
図5は、原文情報122の例を示す図である。原文情報122は原文OTに関する情報である。原文情報122は、例えば、プレゼンごとに生成される。原文情報122は、例えば、言語、及び原文のそれぞれに対応する情報を含む。言語は、スピーカSPが発話した言語が記憶される。原文には、スピーカSPによる音声を音声認識エンジンによりテキスト化して生成した原文OTのテキスト情報が記憶される。
図6は、翻訳文情報123の例を示す図である。翻訳文情報123は翻訳文に関する情報である。翻訳文情報123は、例えば、プレゼンごとに生成される。翻訳文情報123は、例えば、言語、及び翻訳文のそれぞれに対応する情報を含む。言語は、翻訳文の言語が記憶される。翻訳文には、原文OTを、機械翻訳エンジン等を用いて翻訳した翻訳文のテキスト情報が記憶される。
図7は、マーク情報124の例を示す図である。マーク情報124はマーク操作された文言に関する情報である。マーク情報124は、例えば、リスナLNによるマーク操作がなされる度に生成される。マーク情報124は、例えば、マーク言語、マーク文、及び操作箇所のそれぞれに対応する情報を含む。言語は、マーク操作がなされた文言の言語が記憶される。マーク文には、マーク操作がなされた文言を含む翻訳文(マーク文MT)のテキスト情報が記憶される。操作箇所にはマーク操作がなされた文言のテキスト情報が記憶される。
図8~図10は、装飾情報125の例を示す図である。装飾情報125は対応文言を装飾する方法を規定する情報である。装飾情報125は、リスナLNの属性ごとに生成される。装飾情報125は、例えば、属性、及び装飾のそれぞれに対応する情報を含む。属性はリスナLNの属性であって、例えば、リスナ属性情報121の属性に対応する情報が記憶される。装飾は、対応文言をどのように装飾するかを示す情報が記憶される。
図8には、属性としての興味関心度に応じた装飾を示す装飾情報125の例が示されている。この例では、興味関心度が「高い」場合、対応文言が「赤い色の太字」で表示されるように加工することが示されている。興味関心度が「低い」場合、対応文言が「青い色の字」で表示されるように加工することが示されている。興味関心度についてリスナLNからの回答がなく「未回答」である場合、対応文言が「黒い色の字」で表示されるように加工することが示されている。
図9には、属性としての権限レベルに応じた装飾を示す装飾情報125の例が示されている。この例では、権限レベルが「決裁者」である場合、対応文言が「赤い色の太字、且つフォントサイズ20ポイントで下線付き」で表示されるように加工することが示されている。権限レベルが「担当者」である場合、対応文言が「青い色の太字」で表示されるように加工することが示されている。権限レベルについてリスナLNからの回答がなく「未回答」である場合、対応文言が「黒い色の字」で表示されるように加工することが示されている。
図10には、属性としてのマーク操作された文言の言語の割合に応じた装飾を示す装飾情報125の例が示されている。この例では、マーク操作された文言の言語の割合が「閾値以上」である場合、対応文言が「赤い色の字」で表示されるように加工することが示されている。マーク操作された文言の言語の割合が「閾値未満」である場合、対応文言が「緑色の字」で表示されるように加工することが示されている。
図2に戻り、制御部13は、例えば、第1取得部130と、第1生成部131と、第1出力部132と、第2取得部133と、抽出部134と、第2生成部135と、第2出力部136とを備える。制御部13が備えるこれらの機能部は、情報処理サーバ10がハードウェアとして備えるCPU(Central Processing Unit)にプログラムを実行させることによって実現される。
第1取得部130は、音声情報を取得する。音声情報は、スピーカ端末20によって集音された、ある言語(第1言語)で発話されたスピーカSPの音声を示す情報である。第1取得部130は、取得した音声情報を、第1生成部131に出力する。
第1生成部131は、翻訳文を生成する。第1生成部131は、第1取得部130から音声情報を取得する。第1生成部131は、スピーカ属性情報120を参照して、スピーカSPが発話した言語を特定し、特定した言語に対応する音声認識エンジン等を用いて、音声情報が示す音声をテキスト化した原文OTを生成する。第1生成部131は、生成した原文OTの言語、及びテキスト情報などを原文情報122として記憶部12に記憶させる。
また、第1生成部131は、リスナ属性情報121を参照して、リスナLNの言語を特定し、原文OTを、特定した言語に翻訳する機械翻訳エンジン等を用いて翻訳した翻訳文を生成する。ここで、第1生成部131は、複数のリスナLNがいる場合には、リスナLNに応じたそれぞれの言語に翻訳された複数の翻訳文をそれぞれ生成する。第1生成部131は、生成した翻訳文の言語及びテキスト情報などを翻訳文情報123として記憶部12に記憶させる。
第1出力部132は、第1生成部131により生成された翻訳文を出力する。これにより、翻訳文が通信部11を介してリスナ端末30に送信される。
第2取得部133は、マーク文MTを示す情報、例えば、マーク文MTを示すテキスト情報を取得する。第2取得部133は、マーク文MTを示す情報を、マーク情報124として記憶部12に記憶させる。
抽出部134は、マーク情報124を用いて、リスナLNによってマーク操作された文言に対応する対応文言を含む原文OTを抽出する。例えば、第1出力部132は、マーク情報124に基づいて記憶部12を参照し、マーク情報124に相当する翻訳文情報123を特定する。抽出部134は、特定した翻訳文に基づいて記憶部12を参照し、特定した翻訳文に対応する原文情報122を特定する。抽出部134は、特定した原文情報122に含まれる原文OTを、対応文言を含む原文OTとして抽出する。
第2生成部135は、フィードバック情報を生成する。フィードバック情報は、リスナLNの「分からない」をスピーカSPに伝える情報であって、例えば、マーク文MTと、対応文言を含む原文OTとを含む情報である。
また、第2生成部135は、対応文言を装飾するようにしてもよい。例えば、第2生成部135は、マーク文MTを通知したリスナLNの属性に基づいて、対応文言を装飾する。第2生成部135は、マーク文MTを通知したリスナLNの氏名等に基づいてリスナ属性情報121を参照し、リスナLNの属性を抽出する。第2生成部135は、抽出したリスナLNの属性に基づいて図8に示す装飾情報125を参照し、属性に応じた装飾を抽出する。例えば、リスナLNの属性としての興味関心度が「高い」場合、第2生成部135は、そのリスナLNから通知されたマーク文MTに対応する対応文言が、「赤色の太字」となるように装飾する。
例えば、第2生成部135は、マーク文MTを通知したリスナLNの言語に基づいて、対応文言を装飾する。第2生成部135は、マーク文MTを通知したリスナLNの氏名等に基づいてリスナ属性情報121を参照し、リスナLNの言語を特定する。第2生成部135は、特定したリスナLNの言語に応じた装飾を抽出する。例えば、リスナLNの言語が「英語」である場合、対応文言が「赤色」となるように装飾する。例えば、リスナLNの言語が「中国語」である場合、対応文言が「青色」となるように装飾する。
例えば、第2生成部135は、通知されたマーク文MTの言語の割合を算出する。例えば、第2生成部135は、プレゼンに応じた配信が行われている所定の時間区間にリスナ端末30から受信したマーク文MTを言語ごと集計し、通知されたマーク文MTの言語の割合を算出する。第2生成部135は、通知されたマーク文MTの言語の割合に基づいて図10に示す装飾情報125を参照し、割合が閾値以上であれば、その言語で通知されたマーク文MTに対応する対応文言が、「赤色の字」となるように装飾する。一方、第2生成部135は、通知されたマーク文MTの言語の割合が閾値未満であれば、その言語で通知されたマーク文MTに対応する対応文言が、「緑色の字」となるように装飾する。
第2出力部136は、第2生成部135により生成されたフィードバック情報を出力する。これにより、フィードバック情報が通信部11を介してスピーカ端末20に送信される。
図11は、情報処理システム1が行う処理の流れを示すシーケンス図である。
図11に示すように、スピーカSPにより発話された音声がスピーカ端末20によって集音される(ステップS10)。スピーカ端末20は、集音した音声情報を情報処理サーバ10に送信する。情報処理サーバ10は、翻訳文を生成する処理(翻訳文生成処理)を行う(ステップS11)。翻訳文を生成する処理の流れについては後で詳しく説明する。情報処理サーバ10は、生成した翻訳文のテキスト情報をリスナ端末30に送信する。リスナ端末30は、受信したテキスト情報に基づいて、翻訳文を表示する(ステップS12)。リスナLNは表示された翻訳文を視認し、「分からない」箇所にマーク操作を行う。リスナ端末30は、マウス等を介してマーク操作された箇所を示す情報を取得する(ステップS13)。リスナ端末30は、マーク操作された箇所を示す情報を情報処理サーバ10に送信する。情報処理サーバ10は、受信したマーク操作された箇所を示す情報を用いてフィードバック情報を生成する処理(フィードバック情報生成処理)を行う(ステップS14)。フィードバック情報を生成する処理の流れについては後で詳しく説明する。情報処理サーバ10は、生成したフィードバック情報を、スピーカ端末20に送信する。スピーカ端末20は、受信したフィードバック情報に基づいて、フィードバック情報、つまりマーク文MTと、対応文言を含む原文OTを表示する(ステップS15)。
図12は、翻訳文を生成する処理、及びフィードバック情報を生成する処理の流れを示す図である。
図12の上側には翻訳文を生成する処理の流れが示されている。翻訳文を生成する処理では、まず、第1取得部130が音声情報を取得し、取得した音声情報を第1生成部131に出力する。次に。第1生成部131が音声情報を用いて翻訳文を生成する。具体的には、第1生成部131は、音声情報を音声認識等によりテキスト化した原文OTを生成し、生成した原文OTを機械翻訳等により翻訳することによって翻訳文を生成する。そして、第1出力部132は、第1生成部131が生成した翻訳文のテキスト情報を出力することによりリスナ端末30に翻訳文を送信する。
図12の下側には、フィードバック情報を生成する処理の流れが示されている。フィードバック情報を生成する処理では、まず、第2取得部133がマーク文MTを取得し、取得したマーク文MTを示す情報を抽出部134に出力する。抽出部134は、マーク文MTに基づいて対応文言を含む原文OTを抽出する。第2生成部135は、フィードバック情報、例えば、マーク文MTと、対応文言を含む原文OTとを対応づけた情報を生成する。そして、第2出力部136はフィードバック情報を出力することによりスピーカ端末20にフィードバック情報を送信する。
図13にはフィードバック情報の例が示されている。図13に示すように、フィードバック情報におけるマーク文MTにはマーク操作された文言MK「ukiyoe」が含まれる。また、フィードバック情報における原文OTにはマーク操作された文言MKに対応する対応文言SK「浮世絵」が含まれる。この図の例に示すように、フィードバック情報において対応文言SKが太字で装飾されて表示される等のように加工されていてもよい。
以上説明したように、実施形態の情報処理システム1は、第1取得部130と、第1生成部131と、第1出力部132と、第2取得部133と、抽出部134と、第2生成部135と、第2出力部136とを備える。第1取得部130はスピーカSPの言語(第1言語)を用いて発話された音声情報を取得する。第1生成部131は、音声情報をテキストに変換することによって原文OTを生成し、生成した原文OTをリスナLNの言語(第2言語)に翻訳した翻訳文を生成する。第1出力部132は翻訳文のテキスト情報を出力する。第2取得部133は、マーク文MTを取得する。マーク文MTは、リスナLN(ユーザ)によってマーク操作された文言を含む翻訳文である。抽出部134は、マーク文MTを用いて、マーク操作された文言MK(図13における「ukiyoe」)に対応する対応文言SK(図13における「浮世絵」)を含む原文OTを抽出する。第2生成部135は、フィードバック情報を生成する。フィードバック情報は、マーク文MT及び対応文言SKを含む原文OTを含む情報である。第2出力部136は、フィードバック情報を出力する。
これにより、実施形態の情報処理システム1では、スピーカSPが発話した内容の翻訳文をリスナLNに表示し、リスナLNから翻訳文のうちマーク操作された文言MKが含まれるマーク文MTを取得することができる。また、マーク文MTと対応する原文(対応文言SKを含む原文OT)をスピーカSPに表示することができる。したがって、スピーカSPに、リスナLNが理解できない、或いはもっと理解したい箇所などをマーク操作した文言を含む翻訳文を、その原文と共にフィードバックすることができる。このため、異なる言語を用いたコミュニケーションにおいて相手が理解しているか把握することができる。
また、実施形態の情報処理システム1では、第1生成部131は、原文OTが複数の言語に翻訳された翻訳文をそれぞれ生成する。これにより、実施形態の情報処理システム1では、多言語に対応することができ、リスナLNのそれぞれの言語に応じた翻訳文を生成することが可能となり、生成したそれぞれの翻訳文をリスナLNに表示することができる。
また、実施形態の情報処理システム1では、第2生成部135は、マーク文MTに対応するリスナLNの属性に基づいて、対応文言SKの表示態様を変更する。これにより、実施形態の情報処理システム1では、リスナLNの属性に応じて対応文言の表示対応が変更され、例えば、興味関心が高いリスナLNから通知されたマーク文MTについては対応文言が赤い色等で表示されるように装飾することができる。したがって、どのような属性を有するリスナLNから、どのような文言がマーク操作されたかを、スピーカSPに判り易くフィードバックすることができる。また、リスナLNから大量のマーク文MTが通知された場合であっても、どのマーク文MTを考慮すればよいかスピーカSPに判り易くフィードバックすることができる。
また、実施形態の情報処理システム1では、マーク文MTに対応する言語に基づいて、対応文言SKの表示態様を変更する。これにより、実施形態の情報処理システム1では、マーク文MTの言語に応じて対応文言の表示対応が変更され、例えば、中国語のリスナLNから通知されたマーク文MTについては対応文言が青色などで表示されるように装飾することができる。したがって、どのような言語のリスナLNから、どのような文言がマーク操作されたかを、スピーカSPにフィードバックすることができる。
また、実施形態の情報処理システム1では、第2取得部133によって複数のマーク文MTが取得された場合、複数のマーク文MTのそれぞれに対応する言語の割合に基づいて、対応文言SKの表示態様を変更してもよい。これにより、実施形態の情報処理システム1では、マーク文MTの言語の割合に応じて対応文言の表示対応が変更され、例えば、英語のリスナLNから多くのマーク文MTが通知された場合、その対応文言が赤い色等で表示されるように装飾することができる。したがって、どのような言語のリスナLNから数多くのマーク文MTが通知されているかをスピーカSPが判るようにフィードバックすることができる。例えば、翻訳先の言語によっては誤った翻訳がなされる文言がある場合、翻訳が誤っていることに起因して多くのリスナLNがマーク操作を行うことが想定され、このような場合、言語の割合に応じて表示対応を変更することにより、スピーカSPが翻訳の誤りに気付き易くなるようにフィードバックすることができる。
ここで、実施形態の変形例1について説明する。本変形例では、マーク操作が行われる際に複数の選択肢が表示される点において、上述した実施形態と相違する。
図14は実施形態の変形例1を説明する図である。図14に示すように、本変形例では、リスナ端末30においてマーク操作が行われると、マーク操作が行われた文言MKが表示される位置に、複数の選択肢STが表示される。ここで表示される選択肢は、リスナLNの理解度を選択可能な選択肢である。リスナLNは、表示された選択肢を視認し、例えば、マーク操作を行った文言MKに対して感じる理解度に最も近いと感じる選択肢を選択する。
この図の例では、3つの選択肢が表示され、1つ目の選択肢は、リスナLNが文言MKに対し「翻訳文に一貫性がない」と感じた場合に選択される。2つ目の選択肢は、リスナLNが文言MKに対し「簡単すぎるためもっと詳しく説明してほしい」と感じた場合に選択される。3つ目の選択肢は、リスナLNが文言MKに対し「難しすぎるためもっとかみ砕いて説明してほしい」と感じた場合に選択される。
リスナ端末30は、マーク操作が行われた場合、マーク操作が行われた文言MKと共に、リスナLNによって選択された選択肢を示す情報を取得する。リスナ端末30は、マーク文MTと選択肢を示す情報を、情報処理サーバ10に送信する。
情報処理サーバ10は、マーク文MTと選択肢を示す情報を受信する。情報処理サーバ10は、フィードバック情報として、マーク文MTと対応文言SKを含む原文OTと共に、リスナLNによって選択された選択肢を示す情報を生成する。
この場合において、情報処理サーバ10は、リスナLNによって選択された選択肢に基づいて、対応文言SKの表示対応を変更するように装飾してもよい。例えば、第2生成部135は、1番目の選択肢が選択された場合、対応文言が「赤色」となるように装飾する。例えば、第2生成部135は、2番目の選択肢が選択された場合、対応文言が「青色」となるように装飾する。例えば、第2生成部135は、3番目の選択肢が選択された場合、対応文言が「緑色」となるように装飾する。
情報処理サーバ10は、フィードバック情報として、マーク文MTと対応文言SKを含む原文OTと共に、リスナLNによって選択された選択肢を示す情報をスピーカ端末20に送信する。スピーカ端末20は、マーク文MTと対応文言SKを含む原文OTと共に、リスナLNによって選択された選択肢を示す情報を表示する。これにより、スピーカSPは、スピーカ端末20に表示された選択肢から、リスナLNが文言MKに対し、どのような理解度を有しているかを把握することができる。
以上説明したように、本実施形態の変形例1に係る情報処理システム1では、第2取得部133は、マーク文MTと共に、マーク操作された文言MKに対して、リスナLNが選択した選択肢(リスナLNの理解度を示す情報)を取得する。これにより、実施形態の変形例1に係る情報処理システム1では、文言MKに対するリスナLNの理解度を取得することができる。これにより、リスナLNが、どのような文言MKに対し、どのような理解をしているのかをスピーカSPにフィードバックすることができる。
また、本実施形態の変形例1に係る情報処理システム1では、第2生成部135は、リスナLNが選択した選択肢に応じて対応文言SKの表示態様を変更する。これにより、実施形態の変形例1に係る情報処理システム1では、スピーカSPに、リスナLNが文言MKに対し、どのような理解度を有しているかを判り易く表示することができる。
ここで、実施形態の変形例2について説明する。本変形例では、逆翻訳文MOT(図15参照)が生成される点において、上述した実施形態と相違する。逆翻訳文MOTは、マーク文MTがスピーカSPの言語に翻訳された文である。
一般に、原文OTを翻訳した翻訳文を、さらに、原文OTの言語に翻訳しなおした場合、原文OTと逆翻訳文MOTが一致するとは限らない。特に、機械翻訳などを利用した場合、原文OTを翻訳する際に、誤った翻訳がなされることがある。このような場合、逆翻訳文MOTを生成すると、原文OTにおいて誤った翻訳がなされた文言が、原文OTとは別の文言に置き換わる可能性がある。このような性質を利用し、本変形例では、逆翻訳文MOTを生成することにより、翻訳文における翻訳の誤りを特定し易くする。
図15は実施形態の変形例2を説明する図である。図15に示すように、例えば、情報処理システム1において、スピーカSPが「マヤ文明は、…です」と発話した場合に、「マヤ文明は、…です」という原文OTが生成される。そして、原文OTを英語に翻訳する過程において、「Maya fumiaki is…」と誤った翻訳文が生成されてしまう場合がある。
このような場合、リスナLNは、「Maya fumiaki is…」との表示に足し、マーク操作を行い、翻訳文が理解できない旨をフィードバックすると考えられる。本変形例ではこのような誤った翻訳文が生成された場合を想定し、翻訳文における翻訳の誤りが特定し易くなるように、逆翻訳文MOTを生成する。以下、逆翻訳文MOTを生成する処理について説明する。
リスナ端末30は、リスナLNによってマーク操作が行われた場合、マーク操作が行われた文言MKを示す情報を取得する。リスナ端末30は、マーク文MTを示す情報を、情報処理サーバ10に送信する。
情報処理サーバ10は、マーク文MTを受信する。情報処理サーバ10は、フィードバック情報として、マーク文MTと対応文言SKを含む原文OTと共に、マーク文MTをスピーカSPの言語に翻訳した逆翻訳文MOTを生成する。
第2生成部135は、リスナ属性情報121を参照してリスナLNの言語を特定する。また、第2生成部135は、スピーカ属性情報120を参照して、スピーカSPが発話した言語を特定する。第2生成部135は、特定した言語に対応する音声認識エンジン等を用いて、マーク文MTを、原文OTの言語に翻訳した逆翻訳文MOTを生成する。
この場合において、第2生成部135は、逆翻訳文MOTにおいて、マーク操作された文言MKに対応する文言の表示対応を変更するようにしてもよい。例えば、第2生成部135は、リスナLNによって「Maya fumiaki」との文言MKがマーク操作された場合、逆翻訳文MOTにおいて、この「Maya fumiaki」に対応する文言である「まやふみあき」との文言MKを枠で囲むような装飾をする。
情報処理サーバ10は、フィードバック情報として、マーク文MTと原文OTと共に、逆翻訳文MOTを示す情報をスピーカ端末20に送信する。スピーカ端末20は、マーク文MTと原文OTと共に、逆翻訳文MOTを表示する。これにより、スピーカSPは、スピーカ端末20に表示された原文OTと逆翻訳文MOTとを対比させることにより、誤った翻訳文が生成された可能性が高い文言を特定することができる。例えば、原文OTにおける「マヤ文明」が、逆翻訳文MOTでは「まやふみあき」となっていることから、「マヤ文明」との文言が、誤って「Maya fumiaki」と翻訳された可能性があることを把握することができる。
以上説明したように、本実施形態の変形例2に係る情報処理システム1では、第2生成部135は、フィードバック情報として、逆翻訳文MOTを生成する。逆翻訳文MOTは、マーク文MTを、スピーカSPの言語に翻訳した文である。これにより、実施形態の変形例2に係る情報処理システム1では、原文OTと逆翻訳文MOTを対比可能に表示させることができる。したがって、スピーカSPが、誤って翻訳された文言を特定し易くすることができ、リスナLNに対し、翻訳が誤っている可能性を伝え、正しく翻訳される可能性が高い文言に言い直して説明する等して、リスナLNの理解度が深まるように話の内容をアレンジして柔軟に対応することができる。
上述した実施形態における情報処理システム1、及び情報処理サーバ10の全部または一部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
1…情報処理システム
10…情報処理サーバ
130…第1取得部
131…第1生成部
132…第1出力部
133…第2取得部
134…抽出部
135…第2生成部
136…第2出力部
20…スピーカ端末
30…リスナ端末
10…情報処理サーバ
130…第1取得部
131…第1生成部
132…第1出力部
133…第2取得部
134…抽出部
135…第2生成部
136…第2出力部
20…スピーカ端末
30…リスナ端末
Claims (9)
- 第1言語を用いて発話された音声情報を取得する第1取得部と、
前記音声情報をテキストに変換することによって原文を生成し、生成した原文を第2言語に翻訳した翻訳文を生成する第1生成部と、
前記翻訳文のテキスト情報を出力する第1出力部と、
ユーザによってマーク操作された文言を含む前記翻訳文であるマーク文を取得する第2取得部と、
前記マーク文を用いて、前記マーク操作された文言に対応する対応文言を含む前記原文を抽出する抽出部と、
前記マーク文、及び前記対応文言を含む前記原文を含むフィードバック情報を生成する第2生成部と、
前記フィードバック情報を出力する第2出力部と、
を備える情報処理システム。 - 前記第1生成部は、前記原文が複数の言語に翻訳された前記翻訳文をそれぞれ生成し、
前記第1出力部は、前記ユーザの言語に応じた前記翻訳文のテキスト情報を出力する、
請求項1に記載の情報処理システム。 - 前記第2取得部は、前記マーク文と共に、前記マーク操作された文言に対して前記ユーザが選択肢から選択した前記ユーザの理解度を示す情報を取得し、
前記第2出力部は、前記ユーザの理解度を示す情報を、前記フィードバック情報として出力する、
請求項1に記載の情報処理システム。 - 前記第2生成部は、前記マーク文に対応する前記ユーザの属性に基づいて、前記対応文言の表示態様を変更し、
前記第2出力部は、表示態様が変更された前記対応文言を、前記フィードバック情報として出力する、
請求項1に記載の情報処理システム。 - 前記第2生成部は、前記マーク文に対応する言語に基づいて、前記対応文言の表示態様を変更し、
前記第2出力部は、表示態様が変更された前記対応文言を、前記フィードバック情報として出力する、
請求項1に記載の情報処理システム。 - 前記第2生成部は、前記マーク文に対して選択された選択肢に基づいて、前記対応文言の表示態様を変更し、
前記第2出力部は、表示態様が変更された前記対応文言を、前記フィードバック情報として出力する、
請求項3に記載の情報処理システム。 - 前記第2生成部は、前記マーク操作された文言を含む前記翻訳文を前記第1言語に翻訳した逆翻訳文を生成し、
前記第2出力部は、前記逆翻訳文を示す情報を、前記フィードバック情報として出力する、
請求項1から請求項6の何れか一項に記載の情報処理システム。 - 情報処理サーバであるコンピュータが行う情報処理方法であって、
第1取得部が、第1言語を用いて発話された音声情報を取得し、
第1生成部が、前記音声情報をテキストに変換することによって原文を生成し、生成した原文を第2言語に翻訳した翻訳文を生成し、
第1出力部が、前記翻訳文のテキスト情報を出力し、
第2取得部が、ユーザによってマーク操作された文言を含む前記翻訳文であるマーク文を取得し、
抽出部が、前記マーク文を用いて、前記マーク操作された文言に対応する対応文言を含む前記原文を抽出し、
第2生成部が、前記マーク文、及び前記対応文言を含む前記原文を含むフィードバック情報を生成し、
第2出力部が、前記フィードバック情報を出力する、
情報処理方法。 - 情報処理サーバであるコンピュータに、
第1言語を用いて発話された音声情報を取得させ、
前記音声情報をテキストに変換することによって原文を生成させ、生成された原文を第2言語に翻訳した翻訳文を生成させ、
前記翻訳文のテキスト情報を出力させ、
ユーザによってマーク操作された文言を含む前記翻訳文であるマーク文を取得させ、
前記マーク文を用いて、前記マーク操作された文言に対応する対応文言を含む前記原文を抽出させ、
前記マーク文、及び前記対応文言を含む前記原文を含むフィードバック情報を生成させ、
前記フィードバック情報を出力させる、
プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022066890A JP2023157158A (ja) | 2022-04-14 | 2022-04-14 | 情報処理システム、情報処理方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022066890A JP2023157158A (ja) | 2022-04-14 | 2022-04-14 | 情報処理システム、情報処理方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023157158A true JP2023157158A (ja) | 2023-10-26 |
Family
ID=88469294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022066890A Pending JP2023157158A (ja) | 2022-04-14 | 2022-04-14 | 情報処理システム、情報処理方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023157158A (ja) |
-
2022
- 2022-04-14 JP JP2022066890A patent/JP2023157158A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10210154B2 (en) | Input method editor having a secondary language mode | |
TWI313418B (en) | Multimodal speech-to-speech language translation and display | |
JP2009246941A (ja) | 呼びの当事者の名前の音標文字表示を生成し利用する装置 | |
JP7230145B2 (ja) | 自動音声認識のためのコンテキスト非正規化 | |
US20190121860A1 (en) | Conference And Call Center Speech To Text Machine Translation Engine | |
US20030009342A1 (en) | Software that converts text-to-speech in any language and shows related multimedia | |
WO2018198806A1 (ja) | 翻訳装置 | |
WO2018198807A1 (ja) | 翻訳装置 | |
JP2011076384A (ja) | 情報出力装置及び情報出力プログラム | |
JP2020027132A (ja) | 情報処理装置およびプログラム | |
JP2023157158A (ja) | 情報処理システム、情報処理方法、及びプログラム | |
TW201346597A (zh) | 多語言即時翻譯系統 | |
Fume et al. | Implementation of Automatic Captioning System to Enhance the Accessibility of Meetings | |
Diki-Kidiri | Securing a place for a language in cyberspace | |
JP2020057401A (ja) | 表示支援装置、方法およびプログラム | |
JP2019200233A (ja) | 授業支援システム、情報処理装置、授業支援方法、及びプログラム | |
JP2019096173A (ja) | 和文字変換プログラム及び和文字変換装置 | |
US20220245344A1 (en) | Generating and providing information of a service | |
KR20040052822A (ko) | 아바타를 이용한 회화 학습시스템 및 회화 학습방법 | |
Mwambe et al. | FFCDH: Solution to enable face-to-face conversation between deaf and hearing people | |
JP2016197184A (ja) | 発音学習コンテンツ提供装置、システム、プログラム及び方法 | |
JP6613671B2 (ja) | 情報処理装置 | |
Kulkarni et al. | Android Based Braille Tutor System for Visually Impaired People | |
JP2015191431A (ja) | 外国語のカタカナ表現作成装置、外国語のカタカナ表現作成方法及び外国語のカタカナ表現作成プログラム | |
JP2020141400A (ja) | 通話制御装置、通話制御方法、音声変換のための文字入力装置、音声変換のための文字入力方法およびプログラム |