JP6791468B2 - 端末装置、翻訳方法、及び、翻訳プログラム - Google Patents

端末装置、翻訳方法、及び、翻訳プログラム Download PDF

Info

Publication number
JP6791468B2
JP6791468B2 JP2016256487A JP2016256487A JP6791468B2 JP 6791468 B2 JP6791468 B2 JP 6791468B2 JP 2016256487 A JP2016256487 A JP 2016256487A JP 2016256487 A JP2016256487 A JP 2016256487A JP 6791468 B2 JP6791468 B2 JP 6791468B2
Authority
JP
Japan
Prior art keywords
language
translation
character information
voice
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016256487A
Other languages
English (en)
Other versions
JP2018018490A (ja
Inventor
寿和 福岡
寿和 福岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Social Science Labs Ltd
Original Assignee
Fujitsu Social Science Labs Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=61076275&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP6791468(B2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Fujitsu Social Science Labs Ltd filed Critical Fujitsu Social Science Labs Ltd
Priority to US15/473,042 priority Critical patent/US10339224B2/en
Priority to US15/473,186 priority patent/US10489516B2/en
Priority to AU2017202111A priority patent/AU2017202111B2/en
Priority to AU2017202113A priority patent/AU2017202113B2/en
Publication of JP2018018490A publication Critical patent/JP2018018490A/ja
Application granted granted Critical
Publication of JP6791468B2 publication Critical patent/JP6791468B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Information Transfer Between Computers (AREA)

Description

本発明は、端末装置、翻訳方法、及び、翻訳プログラムに関する。
利用者が発声するある言語の言葉を入力して、他の言語の言葉に翻訳する翻訳装置がある。
特開2011−182125号公報 特開2014−149644号公報
しかしながら、従来の翻訳装置では、利用者が言葉を発声してから翻訳を開始するまでのタイムラグが大きいなどのため、翻訳装置を通じて、他の利用者と会話をするには支障があった。
本発明は、異なる言語を使用する利用者間の会話をよりスムーズにする技術を提供することを目的とする。
上記課題を解決するために、以下の手段を採用する。
即ち、第1の態様は、
音声の入力を受け付ける音声入力部と、
所定時間毎に、前記音声入力部が受け付けた音声の音声データを前記音声入力部が以前に受け付けた音声の音声データと結合した結合音声データの音声を、第1言語の文字情報に変換することを、音声認識手段に指令する音声認識指令部と、
前記音声認識手段によって変換された前記第1言語の第1文字情報を受信する毎に、前記第1言語の第1文字情報を第2言語に翻訳することを、翻訳手段に指令する翻訳指令部と、
前記翻訳手段によって翻訳された前記第2言語の第1文字情報を受信する毎に、他の端末装置に向けて、前記第2言語の第1文字情報を送信する文字送信部と、を備え、
前記翻訳指令部は、他の端末装置から前記第2言語の第2文字情報を受信する毎に、前記第2言語の第2文字情報を第1言語に翻訳することを、前記翻訳手段に指令し、
前記翻訳手段によって翻訳された前記第1言語の第2文字情報を表示する表示部を更に備える、
端末装置とする。
開示の態様は、プログラムが情報処理装置によって実行されることによって実現されてもよい。即ち、開示の構成は、上記した態様における各手段が実行する処理を、情報処理装置に対して実行させるためのプログラム、或いは当該プログラムを記録したコンピュータ読み取り可能な記録媒体として特定することができる。また、開示の構成は、上記した各手段が実行する処理を情報処理装置が実行する方法をもって特定されてもよい。開示の構成は、上記した各手段が実行する処理を行う情報処理装置を含むシステムとして特定されてもよい。
本発明によれば、異なる言語を使用する利用者間の会話をよりスムーズにする技術を提供することを目的とする。
図1は、本実施形態の翻訳システムの構成例を示す図である。 図2は、端末装置の機能ブロックの例を示す図である。 図3は、情報処理装置のハードウェア構成例を示す図である。 図4は、端末装置における音声入力の動作フローの例を示す図である。 図5は、端末装置における翻訳文表示の動作フローの例を示す図である。 図6は、実施形態の翻訳システムの動作の具体例を示す図である。 図7は、変形例2の端末装置における音声入力の動作フローの例を示す図である。 図8は、変形例3の端末装置の機能ブロックの例を示す図である。 図9は、変形例3の端末装置における音声入力の動作フローの例を示す図である。
以下、図面を参照して実施形態について説明する。実施形態の構成は例示であり、発明の構成は、開示の実施形態の具体的構成に限定されない。発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。
〔実施形態〕
本実施形態の翻訳システムは、利用者が端末装置に向けて発声した言葉を、他の利用者の端末装置に表示するとともに、当該言葉を他の利用者が使用する言語(例えば、日本語、英語、スペイン語など)の言葉に翻訳して表示する。本実施形態の翻訳システムでは、端末装置が利用者による音声の入力を受け付け、音声認識装置に、入力された音声の音声データを音声認識装置に送信する。音声認識装置は、音声データを文字情報に変換して、端末装置に出力する。端末装置は、所定の端末装置に向けて、文字情報を当該文字情報の言語を示す言語情報とともに、送信する。端末装置は、言語情報及び文字情報を受信すると、当該文字情報を表示し、翻訳装置に、言語情報及び文字情報と、翻訳後の言語を示す言語情報とを送信する。翻訳装置は、文字情報と当該文字情報の言語(第1言語)を示す言語情報と翻訳後の言語(第2言語)を示す言語情報を受信すると、文字情報を第1言語から第2言語に翻訳し、翻訳後の文字情報を、端末装置に送信する。端末装置は、翻訳後の文字情報を受信すると、当該文字情報を表示する。
(構成例)
図1は、本実施形態の翻訳システムの構成例を示す図である。図1の翻訳システム10は、端末装置100A、端末装置100B、音声認識装置200、翻訳装置300、ネットワーク400、LAN(Local Area Network)500を含む。端末装置100Aは、ネットワーク400及びLAN500に接続される。端末装置100Bは、ネットワーク400及びLAN500に接続される。端末装置100A及び端末装置100Bは、同様の構成を有する。端末装置100A及び端末装置100Bを区別しない場合は、単に、端末装置100と呼ぶ。音声認識装置200は、入力される音声データを、文字情報に変換して、出力する。翻訳装置300は、入力される第1言語の文字情報を、第1言語と異なる第2言語の文字情報に翻訳して、出力する。ネットワーク400は、端末装置100、音声認識装置200、翻訳装置300等に接続されるインターネット等のネットワークである。LAN500は、端末装置100A、端末装置100Bが接続されるローカルエリアネットワークである。LAN500は、ルータを含み得る。端末装置100A、端末装置100Bは、LAN500を介して、ネットワーク500に接続されてもよい。図1のシ
ステム10では、端末装置100の2台は、2台であるが、端末装置100の数は、2台に限定されるものではない。
端末装置100は、利用者による音声の入力を受け付け、音声を音声データに変換して、音声認識装置200に送信する。端末装置100には、あらかじめ、端末装置100の利用者が使用する言語(使用言語)が登録されている。使用言語は、端末装置100で動作するオペレーティングシステムにおいて設定されるパラメータに含まれるものであってもよい。端末装置100は、音声データとともに使用言語の情報も、音声認識装置200に送信する。端末装置100は、音声認識装置200から変換後の文字情報を受信する。端末装置100は、受信した文字情報を、使用言語の情報とともに他の端末装置100に向けて送信する。端末装置100は、他の端末装置100などから使用言語の情報と文字情報を受信すると、当該文字情報を表示する。また、端末装置100は、当該使用言語の情報と当該文字情報と自装置の使用言語の情報とを、翻訳装置300に送信する。端末装置100は、翻訳装置300から、翻訳後の文字情報を受信すると、当該文字情報を表示する。端末装置100の構成については、後に説明する。
音声認識装置200は、端末装置100から、当該端末装置100における使用言語の情報と、音声データとを受け付け、音声データの音声を当該使用言語の文字情報に変換して、端末装置100に送信する。音声認識装置200は、音声に所定時間継続する無音が含まれている場合、当該音声を改行を示す制御文字に変換してもよい。音声認識装置200は、端末装置100から送信される音声データをバッファし、バッファされている一連の音声データの音声を、一連の文字情報に変換してもよい。音声認識装置200は、音声を改行を示す制御文字を含む文字情報に変換した場合、当該制御文字に対応する音声データ以前の音声データをバッファから削除してもよい。これにより、音声認識装置200は、常に、改行以降の音声データについて、文字情報に変換することになる。音声認識装置200として、周知の音声認識手段が使用され得る。
翻訳装置300は、端末装置100から、第1言語の情報と、文字情報と、第2言語の情報とを受け付ける。翻訳装置300は、文字情報を第1言語から第2言語に翻訳する。翻訳装置300は、翻訳した文字情報を、端末装置100に送信する。翻訳装置300として、周知の翻訳手段が使用され得る。
〈端末装置の構成〉
図2は、端末装置の機能ブロックの例を示す図である。図2の端末装置100は、表示部102、記憶部104、音声入力部106、音声認識コマンド発行部108、音声認識結果受付部110、文字配布部112、文字受付部114、翻訳コマンド発行部116、翻訳結果受付部118、通信部120を含む。
表示部102は、端末装置100の利用者に示す情報を表示する。表示部102は、文字配布部112で他の端末装置100等に向けて送信される文字情報や、翻訳結果受付部118で受信される翻訳結果である文字情報を表示する。
記憶部104は、端末装置100で使用されるデータや、端末装置100の利用者が使用する言語(使用言語)の情報、他の装置から受信した文字情報、音声データ等を格納する。記憶部104は、自装置や他の装置等の識別情報、ネットワーク上のアドレスを格納しうる。
音声入力部106は、マイクロフォンなどの入力手段により、端末装置100の利用者が発声した音声の入力を受け付ける。音声入力部106は、入力された音声を電気的な信号に変換して、音声データとして、音声認識コマンド発行部108に送信する。音声入力
部106は、所定時間毎に音声データを送信する。
音声認識コマンド発行部108は、音声入力部106より音声データを受信する。音声認識コマンド発行部108は、受信した音声データを記憶部104に格納する。音声認識コマンド発行部108は、記憶部104から、端末装置100の利用者が使用する言語として登録されている使用言語の情報を取得する。音声認識コマンド発行部108は、音声認識装置200で音声認識をさせるための音声認識コマンドを生成して、通信部120を介して、音声認識装置200に送信する。音声認識コマンドは、通信部120からネットワークを介して、音声認識装置200に送信される。音声認識コマンドとともに、音声データ、使用言語の情報も送信される。音声認識コマンドは、音声データを、使用言語の文字情報に変換することを指令するコマンドである。音声認識コマンド発行部108は、音声認識指令部の一例である。
音声認識結果受付部110は、音声認識装置200による音声認識結果を、通信部120を介して、受信する。音声認識結果受付部110は、受信した音声認識結果を、文字配布部112に送信する。
文字配布部112は、音声認識結果受付部110から、音声認識結果を受信する。文字配布部112は、受信した音声認識結果を記憶部104に格納する。文字配布部112は、受信した音声認識結果を表示部102に表示させる。文字配布部112は、記憶部104より、端末装置100の使用言語の情報を取得する。文字配布部112は、マルチキャスト通信により、LAN500上の他の端末装置に向けて、受信した音声認識結果及び取得した使用言語の情報を、通信部120を介して、送信する。文字配布部112は、文字送信部の一例である。
文字受付部114は、他の端末装置100からの音声認識結果及び使用言語の情報を、通信部120を介して、受信する。文字受付部114は、受信した音声認識結果及び使用言語の情報を、記憶部104に格納する。文字受付部114は、記憶部104より、自身の端末装置100の使用言語の情報を取得する。文字受付部114は、自身の端末の使用言語と受信した使用言語とが異なる場合、翻訳コマンド発行部116に、自身の端末の使用言語の情報と受信した使用言語の情報及び音声認識結果とを、翻訳コマンド発行部116に送信する。
翻訳コマンド発行部116は、音声認識結果及び他の端末装置100の使用言語(第1言語)の情報と、自身の端末装置100の使用言語(第2言語)の情報とを、文字受付部114から受信する。翻訳コマンド発行部116は、翻訳装置300で翻訳をさせるための翻訳コマンドを生成して、通信部120を介して、翻訳装置300に送信する。翻訳コマンドは、音声認識結果、第1言語の情報、第2言語の情報を含む。翻訳コマンドは、第1言語の文字情報である音声認識結果を、第2言語に翻訳することを指令するコマンドである。翻訳コマンド発行部116は、翻訳指令部の一例である。
翻訳結果受付部118は、翻訳装置300による翻訳結果を、通信部120を介して、受信する。翻訳結果受付部118は、受信した翻訳結果を、記憶部104に格納する。翻訳結果受付部118は、受信した翻訳結果を表示部102に表示させる。
通信部120は、他の装置等と、データの送受信を行う。通信部120は、所定のコマンドを、ネットワーク400を介して、音声認識装置200や翻訳装置300に送信する。通信部120は、音声認識装置200や翻訳装置300から、所定の結果を受信する。通信部120は、マルチキャスト通信により、LAN500上の他の端末装置100に向けて、文字情報等を送信する。通信部120は、マルチキャスト通信によって送信される
他の端末装置100からの文字情報等を受信する。マルチキャスト通信は、パケット送信方法の1つであり、あらかじめ指定した1以上の端末装置に一斉にパケット(データ)を送信することができる。他の端末装置100へのデータの通信方法は、マルチキャスト通信に限定されるものではなく、他の通信方法が使用されてもよい。マルチキャスト通信における端末装置の指定は、例えば、端末装置100が、LAN500上のルータに、所定のアドレスで配信されるマルチキャスト通信によるデータの送信を要求することで行われる。端末装置100は、当該指定により、ルータから所定のアドレスで配信されるデータを受信することができる。また、端末装置100は、所定のアドレス宛にデータを送信することで、マルチキャスト通信による配信を行うことができる。
〈装置のハードウェア構成〉
端末装置100は、スマートフォン、携帯電話、タブレット型端末、カーナビゲーション装置、PDA(Personal Digital Assistant)、PC(Personal Computer)のような
専用または汎用のコンピュータ、あるいは、コンピュータを搭載した電子機器を使用して実現可能である。音声認識装置200、翻訳装置300は、PC、ワークステーション(WS、Work Station)のような専用または汎用のコンピュータ、あるいは、コンピュータを搭載した電子機器を使用して実現可能である。音声認識装置200、翻訳装置300は、端末装置100に含まれてもよい。
図3は、情報処理装置のハードウェア構成例を示す図である。図3に示す情報処理装置90は、一般的なコンピュータの構成を有している。制御装置20、端末装置100、音声認識装置200、翻訳装置300は、図3に示すような情報処理装置90によって実現される。情報処理装置90は、プロセッサ91、メモリ92、記憶部93、入力部94、出力部95、通信制御部96を有する。これらは、互いにバスによって接続される。メモリ92及び記憶部93は、コンピュータ読み取り可能な記録媒体である。情報処理装置のハードウェア構成は、図3に示される例に限らず、適宜構成要素の省略、置換、追加が行われてもよい。
情報処理装置90は、プロセッサ91が記録媒体に記憶されたプログラムをメモリ92の作業領域にロードして実行し、プログラムの実行を通じて各構成部等が制御されることによって、所定の目的に合致した機能を実現することができる。
プロセッサ91は、例えば、CPU(Central Processing Unit)やDSP(Digital Signal Processor)である。
メモリ92は、例えば、RAM(Random Access Memory)やROM(Read Only Memory)を含む。メモリ92は、主記憶装置とも呼ばれる。
記憶部93は、例えば、EPROM(Erasable Programmable ROM)、ハードディスク
ドライブ(HDD、Hard Disk Drive)、ソリッドステートドライブ(SSD、Solid State Drive)である。また、記憶部93は、リムーバブルメディア、即ち可搬記録媒体を含むことができる。リムーバブルメディアは、例えば、USB(Universal Serial Bus)メモリ、あるいは、CD(Compact Disc)やDVD(Digital Versatile Disc)のようなディスク記録媒体である。記憶部93は、二次記憶装置とも呼ばれる。
記憶部93は、各種のプログラム、各種のデータ及び各種のテーブルを読み書き自在に記録媒体に格納する。記憶部93には、オペレーティングシステム(Operating System :OS)、各種プログラム、各種テーブル等が格納される。記憶部93に格納される情報は、メモリ92に格納されてもよい。また、メモリ92に格納される情報は、記憶部93に格納されてもよい。
オペレーティングシステムは、ソフトウェアとハードウェアとの仲介、メモリ空間の管理、ファイル管理、プロセスやタスクの管理等を行うソフトウェアである。オペレーティングシステムは、通信インタフェースを含む。通信インタフェースは、通信制御部96を介して接続される他の外部装置等とデータのやり取りを行うプログラムである。外部装置等には、例えば、他の情報処理装置、外部記憶装置等が含まれる。
入力部94は、キーボード、ポインティングデバイス、ワイヤレスリモコン、タッチパネル等を含む。また、入力部94は、カメラのような映像や画像の入力装置や、マイクロフォンのような音声の入力装置を含むことができる。
出力部95は、CRT(Cathode Ray Tube)ディスプレイ、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、EL(Electroluminescence)パネル等の
表示装置、プリンタ等の出力装置を含む。また、出力部95は、スピーカのような音声の出力装置を含むことができる。
通信制御部96は、他の装置と接続し、情報処理装置90と他の装置との間の通信を制御する。通信制御部96は、例えば、LAN(Local Area Network)インタフェースボード、Bluetooth(登録商標)などの無線通信のための無線通信回路、電話通信のための通
信回路である。LANインタフェースボードや無線通信回路は、インターネット等のネットワークに接続される。
端末装置100、音声認識装置200、翻訳装置300を実現するコンピュータは、プロセッサが二次記憶装置に記憶されているプログラムを主記憶装置にロードして実行することによって、各機能を実現する。また、各装置の記憶部は、主記憶装置または二次記憶装置の記憶領域に設けられる。
プログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくても、並列的または個別に実行される処理を含む。プログラムを記述するステップの一部が省略されてもよい。
(動作例)
端末装置100の動作例について、説明する。ここでは、端末装置100の動作を、音声入力の動作フローと、翻訳文表示の動作フローとに分けて説明するが、これらの動作は、端末装置100において並行して実行されている。端末装置100では、これらの動作を実現するアプリケーションが実行されている。
端末装置100は、あらかじめ、所定のアドレスを用いて、マルチキャスト通信によるデータの送受信をできるように設定されている。LAN500には、マルチキャスト通信によるデータの送受信をできる1以上の端末装置100が接続されている。上記の動作を実現するアプリケーションを端末装置100で実行することによって、所定のアドレスを用いてマルチキャスト通信によるデータの送受信をできるように設定されてもよい。
〈音声入力〉
図4は、端末装置における音声入力の動作フローの例を示す図である。端末装置100は、利用者によって使用されている。利用者は、端末装置100に対する発声により音声入力を行う。図4の動作フローは、例えば、音声入力の1区間の長さである所定時間(例えば、200ms)毎に実行される。
S101では、端末装置100の音声入力部106は、端末装置100の利用者が発声
した音声の入力を受け付ける。音声入力部106は、入力された音声を電気的な信号に変換して、音声データとして、音声認識コマンド発行部108に送信する。音声入力部106は、所定時間毎(例えば、200ms毎)に音声データを送信する。当該所定時間が短くなるほど、発声と翻訳文表示とのタイムラグを短くすることができるが、端末装置100や音声認識装置200における処理量が増大する。当該所定時間は、発声における一音や一語程度の長さにすることが望ましい。一音や一語よりも短い音声を音声認識により文字情報に変換することが困難であるからである。
S102では、音声認識コマンド発行部108は、音声入力部106より音声データを、所定時間毎に受信する。音声認識コマンド発行部108は、受信した音声データを記憶部104に格納する。音声認識コマンド発行部108は、記憶部104から、端末装置100の利用者が使用する言語として登録されている使用言語の情報を取得する。音声認識コマンド発行部108は、音声認識装置200で音声認識をさせるための音声認識コマンドを生成(発行)して、通信部120を介して、音声認識装置200に送信する。音声認識処理は、音声データを、あらかじめ音声と所定の言語の文字とを対応付けたデータに基づいて、所定の言語の文字情報に変換する処理である。音声認識コマンドは、通信部120からネットワーク400を介して、音声認識装置200に送信される。音声認識コマンドは、音声データを、使用言語の文字情報に変換することを指令するコマンドである。音声認識コマンドとともに、音声データ、使用言語の情報も送信される。音声データには一連の通し番号が含まれてもよい。また、音声認識コマンドとともに、端末装置100のアドレスや端末装置100を識別する識別子が送信されてもよい。
音声認識装置200は、端末装置100から音声認識コマンドを受信すると、音声認識コマンドに従って、音声認識コマンドとともに送信される使用言語の文字に、音声データの音声を変換して、音声認識結果として、端末装置100に送信する。音声認識装置200は、音声に所定時間継続する無音が含まれている場合、当該音声を改行を示す制御文字に変換する。音声認識装置200は、端末装置100から送信される音声データをバッファし、バッファされている一連の音声データを結合して1つの結合音声データを作成し、当該音声データの音声を一連の文字情報に変換する。音声認識装置200は、1つの音声データを作成する際、音声データに含まれる通し番号を用いて、順番が入れ替わらないように音声データを作成してもよい。音声認識装置200は、音声を改行を示す制御文字を含む文字情報に変換した場合、当該制御文字に対応する音声データ以前の音声データをバッファから削除する。これにより、音声認識装置200は、常に、無音(改行)以降の音声データについて、文字情報に変換することになる。音声認識コマンドには、すでに送信済みの一連の音声データを1つの音声データにして音声認識をする指令、音声データに所定時間以上の無音が含まれている場合に音声認識後にバッファを削除する指令が含まれてもよい。
S103では、音声認識結果受付部110は、S102で送信した音声認識コマンドに対する、音声認識装置200による音声認識結果を、受信したか否かを判定する。音声認識結果を受信した場合(S103;YES)、処理がS104に進む。音声認識結果を受信していない場合(S103;YES)、S103の処理を繰り返す。
S104では、音声認識結果受付部110は、今回受信した音声認識結果と、記憶部104に格納される前回受信した音声認識結果とを比較する。今回受信した音声結果と前回受信した音声認識結果とが同じである場合(S104;YES)、この動作フローの処理が終了する。この場合、前回の音声認識結果に対してS105の処理が行われているため、同じ音声認識結果に対して同じ処理を行う必要が無いからである。また、音声認識結果に、文字情報が含まれない場合も、同様にする。文字情報が含まれない場合には、表示などの以後の処理を行う必要が無いからである。また、今回受信した音声結果と前回受信し
た音声認識結果とが異なる場合(S104;NO)、音声認識結果受付部110は音声認識結果を文字配布部112に送信し、処理がS105に進む。
S105では、文字配布部112は、音声認識結果受付部110から音声認識結果を受信する。文字配布部112は、受信した音声認識結果を、今回の音声認識結果として、記憶部104に格納する。この後、新たに音声認識結果が格納される際には、今回の音声認識結果は、前回の音声認識結果となる。文字配布部112は、受信した音声認識結果を表示部102に表示させる。このとき、文字配布部112は、最後に表示した音声認識結果を消去してから、今回受信した音声認識結果の文字情報を表示する。即ち、表示される音声認識結果が更新される。ただし、文字配布部112は、最後に表示した音声認識結果に改行を示す制御文字が含まれる場合、最後に表示した音声認識結果を消去せずに、改行してから、今回受信した音声認識結果の文字情報を表示する。音声認識結果に改行を示す制御文字が含まれることで、一連の音声データに対する音声認識結果が確定する。文字配布部112は、記憶部104より、端末装置100の使用言語の情報を取得する。文字配布部112は、マルチキャスト通信により、所定のアドレスを指定して、LAN500上の他の端末装置に向けて、受信した音声認識結果及び取得した使用言語の情報を、通信部120を介して、送信する。当該使用言語は、音声認識結果の文字情報の言語である。
ここでは、文字配布部112は、受信した音声認識結果を表示部102に表示させるとしたが、文字配布部112は、受信した音声認識結果を表示部102に表示させなくてもよい。端末装置100がマルチキャスト通信で送信する音声認識結果は、送信した端末装置100自身にも配信される。このため、文字配布部112が表示させなくても、マルチキャスト通信で配信された音声認識結果を、後に説明する文字受付部114が表示部102に表示させることができるからである。
〈翻訳文表示〉
図5は、端末装置における翻訳文表示の動作フローの例を示す図である。端末装置100は、利用者によって使用されている。
S201では、端末装置100の文字受付部114は、他の端末装置100からの音声認識結果(文字情報)及び使用言語の情報を、マルチキャスト通信により、通信部120を介して、受信したか否かを判定する。受信した場合(S201;YES)、処理がS202に進む。受信していない場合(S201;NO)、S201の処理を繰り返す。
S202では、文字受付部114は、受信した文字情報及び使用言語の情報を、記憶部104に格納する。文字受付部114は、受信した文字情報を、表示部102に表示させる。このとき、文字受付部114は、S202で最後に表示した文字情報を消去してから、今回受信した文字情報を表示する。即ち、表示される文字情報が更新される。ただし、文字受付部114は、S202で最後に表示した文字情報に改行を示す制御文字が含まれる場合、最後に表示した文字情報を消去せずに、改行してから、今回受信した文字情報を表示する。文字情報に改行を示す制御文字が含まれる場合、表示される文字情報は更新されない。
S203では、文字受付部114は、記憶部104より、自身の端末装置100の使用言語の情報を取得する。文字受付部114は、自身の端末装置100の使用言語とS201で受信した使用言語とが一致するか否かを判定する。自身の端末装置100の使用言語とS201で受信した使用言語とが一致する場合(S203;YES)、処理がS201に戻る。この場合、受信した文字情報は翻訳されない。自身の端末装置100の使用言語とS201で受信した使用言語とが異なる場合(S203;NO)、処理がS204に進む。
S204では、文字受付部114は、翻訳コマンド発行部116に、自身の端末装置100の使用言語の情報と受信した使用言語の情報及び文字情報(音声認識結果)とを、翻訳コマンド発行部116に送信する。翻訳コマンド発行部116は、受信した音声認識結果及び受信した使用言語(第1言語)の情報と、自身の端末装置100の使用言語(第2言語)の情報とを、文字受付部114から受信する。翻訳コマンド発行部116は、翻訳装置300で翻訳をさせるための翻訳コマンドを生成(発行)して、通信部120を介して、翻訳装置300に送信する。翻訳処理は、所定の辞書等に基づいて、第1言語の文字情報を、第2言語の文字情報に変換(翻訳)する処理である。翻訳コマンドは、通信部120からネットワーク400を介して、翻訳装置300に送信される。翻訳コマンドは、第1言語の文字情報を、第2言語の文字情報に翻訳することを指令するコマンドである。翻訳コマンドとともに、第1言語の情報、文字情報、第2言語の情報が送信される。翻訳コマンドとともに、端末装置100のアドレスや端末装置100を識別する識別子が送信されてもよい。
翻訳装置300は、端末装置100から、翻訳コマンドと、第1言語の情報と、文字情報と、第2言語の情報とを受け付ける。翻訳装置300は、翻訳コマンドを受信すると、翻訳コマンドに従って、第1言語の文字情報を、第2言語に翻訳する。翻訳装置300は、翻訳した文字情報を、端末装置100に送信する。翻訳装置300は、文字情報に改行を示す制御文字が含まれる場合、翻訳後の文字情報にも当該制御文字を含むようにする。
S205では、翻訳結果受付部118は、翻訳装置300からの翻訳結果を、通信部120を介して、受信したか否かを判定する。受信した場合(S205;YES)、処理がS206に進む。受信していない場合(S205;NO)、処理がS201に戻る。
S206では、翻訳結果受付部118は、受信した翻訳結果を、記憶部104に格納する。翻訳結果受付部118は、受信した翻訳結果を、表示部102に表示させる。翻訳結果は、S202で表示した文字情報の近傍に表示させる。近傍に表示させることで、端末装置100の利用者が翻訳前の文字情報と翻訳結果とを容易に比較することができる。このとき、翻訳結果受付部118は、S206で最後に表示した翻訳結果を消去してから、今回受信した翻訳結果を表示する。即ち、表示される翻訳結果が更新される。ただし、翻訳結果受付部118は、S206で最後に表示した翻訳結果に改行を示す制御文字が含まれる場合、最後に表示した翻訳結果を消去せずに、改行してから、今回受信した翻訳結果を表示する。文字情報に改行を示す制御文字が含まれる場合、表示される文字情報は更新されない。表示される文字情報の近傍には、当該文字情報の基となる音声を発声した利用者を示すアイコン(絵など)を表示してもよい。これにより、どの文字情報がどの利用者によって発声されたものなのかを認識しやすくなる。
S207では、端末装置100は、本動作フローの動作を実現するアプリケーションにおいて、アプリケーションの終了が選択されたか否かを判定する。アプリケーションの終了には、端末装置100自体の電源OFFが含まれる。終了が選択された場合(S207;YES)、動作フローの処理が終了する。終了が選択されていない場合(S207;NO)、処理がS201に戻る。
(具体例)
図6は、本実施形態の翻訳システムの動作の具体例を示す図である。ここでは、利用者によって、端末装置100Aに約2.5秒間(時刻0sから時刻2.5sまで)で「おはようございます」と発声された場合について説明する。端末装置100Aの使用言語は、日本語とする。端末装置100Bの使用言語は、英語とする。
端末装置100Aの音声入力部106は、図6のように、第1区間(時刻0sから時刻0.2sまで)である最初の200msに入力される「おはようございます」の「お」の一部の音声を、電気信号に変換して、音声認識コマンド発行部108に送信する(図4のS101)。音声認識コマンド発行部108は、受信した音声データ、使用言語の情報とともに、音声認識コマンドを、音声認識装置200に送信する(図4のS102)。音声認識装置200は、音声認識コマンドにしたがって、音声データの音声の音声認識を実行するが、音声データの音声が「お」の一部であるため、ここでは音声を使用言語である日本語の文字に変換することができない。音声認識装置200は、音声認識結果として、文字情報の含まれない「」を端末装置100Aに送信する。端末装置100Aの音声認識結果受付部110は、文字情報の含まれない音声認識結果を受信すると、表示する文字情報が存在しないため(図4のS104;NO)、第1区間の処理が終了する。
次に、端末装置100Aの音声入力部106は、第2区間である200msに入力される「おはようございます」の「お」の一部の音声及び「は」の一部の音声を、電気信号に変換して、音声認識コマンド発行部108に送信する(図4のS101)。音声認識コマンド発行部108は、受信した音声データ、使用言語の情報とともに、音声認識コマンドを、音声認識装置200に送信する(図4のS102)。音声認識装置200は、音声認識コマンドにしたがって、第1区間の音声データと第2区間の音声データとを結合して1つの音声データとして、当該音声データの音声の音声認識を実行する。ここでは、音声データの音声が「お」及び「は」の一部であるため、ここでは音声を使用言語である日本語の文字「お」に変換する。音声認識装置200は、音声認識結果として、文字情報「お」を端末装置100Aに送信する。端末装置100Aの音声認識結果受付部110は、文字情報「お」を受信すると、文字配布部112に送信する(図4のS104;YES)。文
字配布部112は、受信した音声認識結果「お」を表示部102に表示させる(上述のように表示させなくてもよい)。また、文字配布部112は、マルチキャスト通信により、文字情報「お」を使用言語の情報とともに送信する(図4のS105)。
一方、マルチキャスト通信により文字情報「お」を使用言語の情報とともに受信した端末装置100Bの文字受付部114は、受信した文字情報「お」を、表示部102に表示させる(図5のS202)。翻訳コマンド発行部116は、翻訳装置300で翻訳をさせるための翻訳コマンドを生成する。翻訳コマンド発行部116は、翻訳コマンドとともに、第1言語(日本語)の情報、文字情報「お」、第2言語(英語)の情報を、翻訳装置300に送信する。翻訳装置300は、日本語の文字情報「お」を、英語に翻訳する。ここでは、英語の「your」に翻訳されたとする。翻訳装置300は、翻訳結果として、文字情報「your」を、端末装置100Bに送信する。端末装置100Bの翻訳結果受付部118は、翻訳装置300から受信した翻訳結果「your」を、文字情報「お」の近傍に、表示させる(図5のS206)。これによって、発声される音声を所定時間で区切って、所定時間毎に音声認識をし、翻訳を行うことができる。
同様にして、第3区間、第4区間の処理では、それぞれ、音声認識の結果として、「おは」「おはよ」が出力され、それぞれに対して、翻訳処理が行われる。音声認識の結果は、端末装置100A、100Bの表示部102において、逐次、更新される。また、翻訳処理の結果も、端末装置100Bの表示部102において、逐次、更新される。第6区間、第7区間、第9区間、第10区間、第12区間、第13区間の処理においても同様である。
第5区間の処理では、音声認識の結果が第4区間の処理と同様になるため、翻訳処理が行われない(図4のS104;YES)。よって、ここでは、音声認識の結果も、翻訳処理の結果も更新されない。第8区間、第11区間の処理においても同様である。
次に、端末装置100Aの音声入力部106は、第14区間である200msに入力される「おはようございます」の後の無音部分を、電気信号に変換して、音声認識コマンド発行部108に送信する(図4のS101)。音声認識コマンド発行部108は、受信した音声データ、使用言語の情報とともに、音声認識コマンドを、音声認識装置200に送信する(図4のS102)。音声認識装置200は、音声認識コマンドにしたがって、第1区間から第14区間までの音声データを結合して1つの音声データとして、当該音声データの音声の音声認識を実行する。ここでは、音声データの音声が「おはようございます」であるため、ここでは音声を使用言語である日本語の文字「おはようございます」に変換する。さらに、音声認識装置200は、音声データに所定期間以上の無音部分が含まれているため、無音部分に改行を示す制御文字「[EOL]」を追加する。なお、EOLは、End of Lineの頭文字である。音声認識装置200は、音声認識結果として、文字情報
「おはようございます[EOL]」を端末装置100Aに送信する。端末装置100Aの音声認識結果受付部110は、文字情報「おはようございます[EOL]」を受信すると、文字配布部112に送信する(図4のS104;YES)。文字配布部112は、受信
した音声認識結果「おはようございます[EOL]」を表示部102に表示させる(上述のように表示させなくてもよい)。改行の制御文字が含まれるため、音声認識結果は確定される。また、文字配布部112は、マルチキャスト通信により、文字情報「おはようございます[EOL]」を使用言語の情報とともに送信する(図4のS105)。
一方、マルチキャスト通信により文字情報「おはようございます[EOL]」を使用言語の情報とともに受信した端末装置100Bの文字受付部114は、受信した文字情報「おはようございます[EOL]」を、表示部102に表示させる(図5のS202)。翻訳コマンド発行部116は、翻訳装置300で翻訳をさせるための翻訳コマンドを生成する。翻訳コマンド発行部116は、翻訳コマンドとともに、第1言語(日本語)の情報、文字情報「お」、第2言語(英語)の情報を、翻訳装置300に送信する。翻訳装置300は、日本語の文字情報「おはようございます[EOL]」を、英語に翻訳する。ここでは、英語の「Good Morning[EOL]」に翻訳されたとする。制御文字は、翻訳後もそのままにされる。翻訳装置300は、翻訳結果として、文字情報「Good Morning[EOL]」を、端末装置100Bに送信する。端末装置100Bの翻訳結果受付部118は、翻訳装置300から受信した翻訳結果「Good Morning[EOL]」を、文字情報「おはようございます[EOL]」の近傍に、表示させる(図5のS206)。表示部102に制御文字は表示されない。翻訳結果に、改行の制御文字が含まれるため、音声認識結果は確定される。
(実施形態の作用、効果)
音声が入力される端末装置100Aでは、音声が入力されるのにしたがって、表示部102に音声認識された文字が逐次更新されて表示される。また、端末装置100Bでは、端末装置100Aで音声が入力されるのにしたがって、表示部102に、音声認識された文字と、当該文字を翻訳した翻訳結果とが、逐次、更新されて表示される。これにより、音声を入力する端末装置100Aの利用者が話している最中であっても、音声認識がされ、翻訳処理がされる。このため、端末装置100Bの利用者は、逐次更新される翻訳文を見ることで、端末装置100Bの利用者が話し終わる前に、端末装置100Bの利用者が話しているおおよその内容を理解することができる。話している最中にも翻訳を行うため翻訳結果が不正確なることもあるが、話している間に徐々に正確になるため、おおよその内容を理解するには、支障が少ない。これによって、端末装置100Bの利用者は、端末装置100Aの利用者が話し終わってすぐに話しを始めることができ、異なる言語を話す話者同士の会話をスムーズにすることができる。また、同様にして、端末装置100Bの利用者が端末装置100Bに向かって話した音声は、音声認識され、端末装置100Aで音声認識された文字と、当該文字を翻訳した翻訳結果とが、逐次、更新されて表示される。また、マルチキャスト通信を利用して、複数の端末装置100に音声認識結果を送信す
ることで、異なる言語を使用する多くの人と一度に話をすることができる。音声認識された文字情報が翻訳される前に、他の端末装置100に送信されることで、それぞれの端末装置100で、端末装置100に応じた翻訳コマンドが発行されることになり、それぞれの端末装置100において、それぞれの端末装置100の使用言語に翻訳され得る。
ここでは、端末装置100が2台の例を示したが、3台以上の端末装置100が存在してもよい。このとき、例えば、日本語を使用する第1利用者と、英語を利用する第2利用者と、スペイン語を使用する第3利用者が存在する場合には、第1利用者の端末装置100には、第1利用者が話した日本語と、第2利用者が話した英語と当該英語の日本語訳と、第3利用者が話したスペイン語と当該スペイン語の日本語訳とが、逐次、表示される。
(変形例1)
ここでは、端末装置100の音声認識コマンド発行部108は、音声認識コマンドとともに、1区間分ずつ音声データを送るとしたが、音声認識装置200で行う音声データの結合を端末装置100で行い、音声認識を行う結合した一連の音声データを音声認識コマンドとともに音声認識装置200に送信してもよい。このとき、音声認識装置200における負荷を軽減することができる。
(変形例2)
ここでは、標準言語を利用する変形例について説明する。
上記の図3の音声入力では、端末装置100は、音声を、音声を受け付けた言語の文字情報に変換し、他の端末に向けて、当該文字情報を他の端末に向けて、送信していた。ここでは、音声を、音声を受け付けた言語の文字情報に変換し、さらに、標準言語の文字情報に変換して、他の端末に向けて送信する。
図7は、変形例2の端末装置における音声入力の動作フローの例を示す図である。端末装置100は、利用者によって使用されている。利用者は、端末装置100に対する発声により音声入力を行う。図7の動作フローは、例えば、音声入力の1区間の長さである所定時間(例えば、200ms)毎に実行される。
S301からS303までの動作は、図4のS101からS103までの動作と同様である。ここでは、説明を省略する。
S304では、音声認識結果受付部110は、今回受信した音声認識結果と、記憶部104に格納される前回受信した音声認識結果とを比較する。今回受信した音声結果と前回受信した音声認識結果とが同じである場合(S304;YES)、処理がS301に戻る。この場合、前回の音声認識結果に対してS305以降の処理が行われているため、同じ音声認識結果に対して同じ処理を行う必要が無いからである。また、音声認識結果に、文字情報が含まれない場合も、同様にする。文字情報が含まれない場合には、表示などの以後の処理を行う必要が無いからである。また、今回受信した音声結果と前回受信した音声認識結果とが異なる場合(S304;NO)、音声認識結果受付部110は音声認識結果を文字配布部112に送信し、処理がS305に進む。
S305では、文字配布部112は、音声認識結果受付部110から音声認識結果を受信する。文字配布部112は、受信した音声認識結果を、今回の音声認識結果として、記憶部104に格納する。この後、新たに音声認識結果が格納される際には、今回の音声認識結果は、前回の音声認識結果となる。文字配布部112は、受信した音声認識結果を表示部102に表示させる。このとき、文字配布部112は、最後に表示した音声認識結果を消去してから、今回受信した音声認識結果の文字情報を表示する。即ち、表示される音声認識結果が更新される。ただし、文字配布部112は、最後に表示した音声認識結果に
改行を示す制御文字が含まれる場合、最後に表示した音声認識結果を消去せずに、改行してから、今回受信した音声認識結果の文字情報を表示する。音声認識結果に改行を示す制御文字が含まれることで、一連の音声データに対する音声認識結果が確定する。
S306では、文字配布部112は、記憶部104より、端末装置100の使用言語の情報を取得する。さらに、文字配布部112は、記憶部104より、LAN500上の他の端末と共通に使用する標準言語の情報を取得する。標準言語の情報は、あらかじめ、記憶部104に格納されている。文字配布部112は、自身の端末装置100の使用言語の情報と、標準言語との情報を比較して、使用言語と標準言語とが一致するか否かを判定する。自身の端末装置100の使用言語と標準言語とが一致する場合(S306;YES)、処理がS309に進む。この場合、音声認識結果は翻訳されない。自身の端末装置100の使用言語と標準言語とが異なる場合(S306;NO)、処理がS307に進む。標準言語は、例えば、英語である。
S307では、文字配布部112は、翻訳コマンド発行部116に、標準言語の情報と自身の端末装置100の使用言語の情報及び今回受信した音声認識結果とを、翻訳コマンド発行部116に送信する。翻訳コマンド発行部116は、自身の端末装置100の使用言語(第1言語)の情報及び今回受信した音声認識結果と標準言語(第2言語)の情報とを、文字配布部112から受信する。翻訳コマンド発行部116は、翻訳装置300で翻訳をさせるための翻訳コマンドを生成(発行)して、通信部120を介して、翻訳装置300に送信する。翻訳処理は、所定の辞書等に基づいて、第1言語の文字情報を、第2言語の文字情報に変換(翻訳)する処理である。翻訳コマンドは、通信部120からネットワーク400を介して、翻訳装置300に送信される。翻訳コマンドは、第1言語の文字情報を、第2言語の文字情報に翻訳することを指令するコマンドである。翻訳コマンドとともに、第1言語の情報、文字情報、第2言語の情報が送信される。翻訳コマンドとともに、端末装置100のアドレスや端末装置100を識別する識別子が送信されてもよい。
翻訳装置300は、端末装置100から、翻訳コマンドと、第1言語の情報と、文字情報と、第2言語の情報とを受け付ける。翻訳装置300は、翻訳コマンドを受信すると、翻訳コマンドに従って、第1言語の文字情報を、第2言語に翻訳する。翻訳装置300は、翻訳した文字情報を、端末装置100に送信する。翻訳装置300は、文字情報に改行を示す制御文字が含まれる場合、翻訳後の文字情報にも当該制御文字を含むようにする。
S308では、翻訳結果受付部118は、翻訳装置300からの翻訳結果を、通信部120を介して、受信したか否かを判定する。受信した場合(S308;YES)、処理がS308に進む。受信していない場合(S308;NO)、処理がS301に戻る。
S309では、翻訳結果受付部118は、受信した翻訳結果を、記憶部104に格納する。翻訳結果受付部118は、受信した翻訳結果を、表示部102に表示させる。さらに、文字配布部112は、マルチキャスト通信により、所定のアドレスを指定して、LAN500上の他の端末装置に向けて、受信した翻訳結果及び標準言語の情報を、通信部120を介して、送信する。当該標準言語は、翻訳結果の文字情報の言語である。また、S306で標準言語と一致した場合(S306;YES)には、文字配布部112は、マルチキャスト通信により、所定のアドレスを指定して、LAN500上の他の端末装置に向けて、受信した音声認識結果及び標準言語の情報を、通信部120を介して、送信する。
S310では、端末装置100は、本動作フローの動作を実現するアプリケーションにおいて、アプリケーションの終了が選択されたか否かを判定する。アプリケーションの終了には、端末装置100自体の電源OFFが含まれる。終了が選択された場合(S310;YES)、動作フローの処理が終了する。終了が選択されていない場合(S310;N
O)、処理がS301に戻る。
変形例2によると、端末装置100は、第1言語で話された音声を、一旦、英語などの標準言語に翻訳して、LAN500上の他の端末に向けて送信する。また、標準言語の文字情報を受信した他の端末では、図5の動作フローに従って、標準言語の文字情報から他の端末の使用言語に翻訳されて表示される。これにより、翻訳装置300において、第1言語から第2言語への翻訳精度が低い場合であっても、第1言語から標準言語、標準言語から第2言語への翻訳精度が高ければ、結果的に、第1言語から第2言語への翻訳精度を高くすることができる。英語やフランス語のような汎用の言語を標準言語とすることで、どの言語からどの言語への翻訳でも翻訳精度を高めることができる。一般に、翻訳装置300において、どの言語であっても汎用の言語との間の翻訳精度は高いと考えられるからである。また、第1言語から第2言語に翻訳する翻訳装置が存在しない場合であっても、第1言語から標準言語に、標準言語から第2言語に翻訳する翻訳装置が存在すれば、第1言語から第2言語への翻訳を実現することができる。これにより、すべての言語間で翻訳装置を用意しなくても、標準言語との間の翻訳装置さえ用意すれば、すべての言語間の翻訳を実現することができる。
(変形例3)
ここでは、音声入力した端末で、翻訳結果も表示する変形例について説明する。上記の例と共通部分については、説明を省略する。
〈端末装置の構成〉
図8は、変形例3の端末装置の機能ブロックの例を示す図である。図8の端末装置1100は、表示部1102、記憶部1104、音声入力部1106、音声認識コマンド発行部1108、音声認識結果受付部1110、文字配布受付部1113、翻訳コマンド発行部1116、翻訳結果受付部1118、通信部1120を含む。
表示部1102は、端末装置100の表示部102と同様である。記憶部1104は、端末装置100の記憶部104と同様である。音声入力部1106は、端末装置100の音声入力部1106と同様である。音声認識コマンド発行部1108は、端末装置100の音声認識コマンド発行部108と同様である。音声認識結果受付部1110は、端末装置100の音声認識結果受付部110と同様である。
文字配布受付部1113は、音声認識結果受付部1110から、音声認識結果を受信する。文字配布受付部1113は、受信した音声認識結果を記憶部1104に格納する。文字配布受付部1113は、受信した音声認識結果を表示部1102に表示させる。文字配布受付部1113は、記憶部1104より、端末装置1100の使用言語の情報を取得する。文字配布受付部1113は、受信した音声認識結果及び使用言語の情報を、記憶部104に格納する。文字配布受付部1113は、翻訳コマンド発行部1116に、自身の端末の使用言語の情報と翻訳先の言語の情報及び音声認識結果とを、翻訳コマンド発行部116に送信する。
翻訳コマンド発行部1116は、端末装置100の翻訳コマンド発行部116と同様である。翻訳結果受付部1118は、端末装置100の翻訳結果受付部118と同様である。通信部1120は、端末装置100の通信部120と同様である。
(変形例3の動作例)
図9は、変形例3の端末装置における音声入力の動作フローの例を示す図である。端末装置100は、利用者によって使用されている。利用者は、端末装置100に対する発声により音声入力を行う。図9の動作フローは、例えば、音声入力の1区間の長さである所定時間(例えば、200ms)毎に実行される。
S401からS403までの動作は、図4のS101からS103までの動作と同様である。ここでは、説明を省略する。
S404では、音声認識結果受付部1110は、今回受信した音声認識結果と、記憶部1104に格納される前回受信した音声認識結果とを比較する。今回受信した音声結果と前回受信した音声認識結果とが同じである場合(S404;YES)、処理がS401に戻る。この場合、前回の音声認識結果に対してS405以降の処理が行われているため、同じ音声認識結果に対して同じ処理を行う必要が無いからである。また、音声認識結果に、文字情報が含まれない場合も、同様にする。文字情報が含まれない場合には、表示などの以後の処理を行う必要が無いからである。また、今回受信した音声結果と前回受信した音声認識結果とが異なる場合(S404;NO)、音声認識結果受付部1110は音声認識結果を文字配布受付部1113に送信し、処理がS405に進む。
S405では、文字配布受付部1113は、音声認識結果受付部1110から音声認識結果を受信する。文字配布受付部1113は、受信した音声認識結果を、今回の音声認識結果として、記憶部1104に格納する。この後、新たに音声認識結果が格納される際には、今回の音声認識結果は、前回の音声認識結果となる。文字配布受付部1113は、受信した音声認識結果を表示部1102に表示させる。このとき、文字配布受付部1113は、最後に表示した音声認識結果を消去してから、今回受信した音声認識結果の文字情報を表示する。即ち、表示される音声認識結果が更新される。ただし、文字配布受付部1113は、最後に表示した音声認識結果に改行を示す制御文字が含まれる場合、最後に表示した音声認識結果を消去せずに、改行してから、今回受信した音声認識結果の文字情報を表示する。音声認識結果に改行を示す制御文字が含まれることで、一連の音声データに対する音声認識結果が確定する。
S406では、文字配布受付部1113は、翻訳コマンド発行部1116に、標準言語の情報と自身の端末装置1100の使用言語の情報及び今回受信した音声認識結果とを、翻訳コマンド発行部1116に送信する。翻訳コマンド発行部1116は、自身の端末装置1100の使用言語(第1言語)の情報及び今回受信した音声認識結果と翻訳先の言語(第2言語)の情報とを、文字配布受付部1113から受信する。翻訳コマンド発行部1116は、翻訳装置300で翻訳をさせるための翻訳コマンドを生成(発行)して、通信部1120を介して、翻訳装置300に送信する。翻訳処理は、所定の辞書等に基づいて、第1言語の文字情報を、第2言語の文字情報に変換(翻訳)する処理である。翻訳コマンドは、通信部1120からネットワーク400を介して、翻訳装置300に送信される。翻訳コマンドは、第1言語の文字情報を、第2言語の文字情報に翻訳することを指令するコマンドである。翻訳コマンドとともに、第1言語の情報、文字情報、第2言語の情報が送信される。翻訳コマンドとともに、端末装置1100のアドレスや端末装置1100を識別する識別子が送信されてもよい。
翻訳装置300は、端末装置100から、翻訳コマンドと、第1言語の情報と、文字情報と、第2言語の情報とを受け付ける。翻訳装置300は、翻訳コマンドを受信すると、翻訳コマンドに従って、第1言語の文字情報を、第2言語に翻訳する。翻訳装置300は、翻訳した文字情報を、端末装置100に送信する。翻訳装置300は、文字情報に改行を示す制御文字が含まれる場合、翻訳後の文字情報にも当該制御文字を含むようにする。
S407では、翻訳結果受付部1118は、翻訳装置300からの翻訳結果を、通信部120を介して、受信したか否かを判定する。受信した場合(S407;YES)、処理がS408に進む。受信していない場合(S407;NO)、処理がS401に戻る。
S408では、翻訳結果受付部1118は、受信した翻訳結果を、記憶部1104に格納する。翻訳結果受付部1118は、受信した翻訳結果を、表示部1102に表示させる。翻訳結果は、S405で表示した文字情報の近傍に表示させる。近傍に表示させることで、端末装置100の利用者が翻訳前の文字情報と翻訳結果とを容易に比較することができる。このとき、翻訳結果受付部1118は、S408で最後に表示した翻訳結果を消去してから、今回受信した翻訳結果を表示する。即ち、表示される翻訳結果が更新される。ただし、翻訳結果受付部1118は、S408で最後に表示した翻訳結果に改行を示す制御文字が含まれる場合、最後に表示した翻訳結果を消去せずに、改行してから、今回受信した翻訳結果を表示する。文字情報に改行を示す制御文字が含まれる場合、表示される文字情報は更新されない。
S409では、端末装置1100は、本動作フローの動作を実現するアプリケーションにおいて、アプリケーションの終了が選択されたか否かを判定する。アプリケーションの終了には、端末装置1100自体の電源OFFが含まれる。終了が選択された場合(S409;YES)、動作フローの処理が終了する。終了が選択されていない場合(S409;NO)、処理がS401に戻る。
ここでは、翻訳先の言語を第2言語の1言語としたが、翻訳先の言語が2言語以上存在してもよい。このとき、翻訳コマンド発行部1116は、複数の言語に翻訳するため、複数の翻訳コマンドを発行する。また、翻訳結果受付部1118は、複数言語の翻訳結果を、表示部1102に表示させる。変形例3によれば、端末装置1100において、1つの言語で音声を入力することで、入力した言語の文字情報と、翻訳された言語の文字情報とが、表示される。例えば、駅などに設置されるデジタルサイネージ等を端末装置1100とすれば、駅の放送などを入力音声とすることで、駅の放送が文字情報にされ、更に、リアルタイムで、他の言語に翻訳されて表示部に表示される。
本発明は、上述した実施の形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲内において変更したり組み合わせたりすることができる。
〈コンピュータ読み取り可能な記録媒体〉
コンピュータその他の機械、装置(以下、コンピュータ等)に上記いずれかの機能を実現させるプログラムをコンピュータ等が読み取り可能な記録媒体に記録することができる。そして、コンピュータ等に、この記録媒体のプログラムを読み込ませて実行させることにより、その機能を提供させることができる。
ここで、コンピュータ等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータ等から読み取ることができる記録媒体をいう。このような記録媒体内には、CPU、メモリ等のコンピュータを構成する要素を設け、そのCPUにプログラムを実行させてもよい。
また、このような記録媒体のうちコンピュータ等から取り外し可能なものとしては、例えばフレキシブルディスク、光磁気ディスク、CD−ROM、CD−R/W、DVD、DAT、8mmテープ、メモリカード等がある。
また、コンピュータ等に固定された記録媒体としてハードディスクやROM等がある。
10 翻訳システム
100(A、B) 端末装置
102 表示部
104 記憶部
106 音声入力部
108 音声認識コマンド発行部
110 音声認識結果受付部
112 文字配布部
114 文字受付部
116 翻訳コマンド発行部
118 翻訳結果受付部
120 通信部
200 音声認識装置
300 翻訳装置
400 ネットワーク
500 LAN

Claims (3)

  1. 音声の入力を受け付ける音声入力部と、
    所定時間毎に、前記音声入力部が受け付けた音声の音声データを前記音声入力部が以前に受け付けた音声の音声データと結合した結合音声データの音声を、第1言語の文字情報に変換することを、音声認識手段に指令する音声認識指令部と、
    前記音声認識手段によって変換された前記第1言語の第1文字情報を受信する毎に、前記第1言語の第1文字情報を第2言語に翻訳することを、翻訳手段に指令する翻訳指令部と、
    前記翻訳手段によって翻訳された前記第2言語の第1文字情報を受信する毎に、他の端末装置に向けて、前記第2言語の第1文字情報を送信する文字送信部と、を備え、
    前記翻訳指令部は、他の端末装置から前記第2言語の第2文字情報を受信する毎に、前記第2言語の第2文字情報を前記第1言語に翻訳することを、前記翻訳手段に指令し、
    前記翻訳手段によって翻訳された前記第1言語の第2文字情報を、最後に表示した前記第1言語の第2文字情報に改行を示す制御文字が含まれない場合、前記最後に表示した前記第1言語の第2文字情報を消去してから表示し、前記最後に表示した前記第1言語の第2文字情報に改行を示す制御文字が含まれる場合、改行してから表示する表示部を更に備える、
    端末装置。
  2. コンピュータが、
    音声の入力を受け付け、
    所定時間毎に、受け付けた音声の音声データを以前に受け付けた音声の音声データと結合した結合音声データの音声を、第1言語の文字情報に変換することを、音声認識手段に指令し、
    前記音声認識手段によって変換された前記第1言語の第1文字情報を受信する毎に、前記第1言語の第1文字情報を第2言語に翻訳することを、翻訳手段に指令し、
    前記翻訳手段によって翻訳された前記第2言語の第1文字情報を受信する毎に、他の端末装置に向けて、前記第2言語の第1文字情報を送信し、
    他の端末装置から前記第2言語の第2文字情報を受信する毎に、前記第2言語の第2文字情報を前記第1言語に翻訳することを、前記翻訳手段に指令し、
    前記翻訳手段によって翻訳された前記第1言語の第2文字情報を、最後に表示した前記第1言語の第2文字情報に改行を示す制御文字が含まれない場合、前記最後に表示した前記第1言語の第2文字情報を消去してから表示し、前記最後に表示した前記第1言語の第2文字情報に改行を示す制御文字が含まれる場合、改行してから表示する
    ことを実行する翻訳方法。
  3. コンピュータが、
    音声の入力を受け付け、
    所定時間毎に、受け付けた音声の音声データを以前に受け付けた音声の音声データと結合した結合音声データの音声を、第1言語の文字情報に変換することを、音声認識手段に指令し、
    前記音声認識手段によって変換された前記第1言語の第1文字情報を受信する毎に、前記第1言語の第1文字情報を第2言語に翻訳することを、翻訳手段に指令し、
    前記翻訳手段によって翻訳された前記第2言語の第1文字情報を受信する毎に、他の端末装置に向けて、前記第2言語の第1文字情報を送信し、
    他の端末装置から前記第2言語の第2文字情報を受信する毎に、前記第2言語の第2文字情報を前記第1言語に翻訳することを、前記翻訳手段に指令し、
    前記翻訳手段によって翻訳された前記第1言語の第2文字情報を、最後に表示した前記第1言語の第2文字情報に改行を示す制御文字が含まれない場合、前記最後に表示した前記第1言語の第2文字情報を消去してから表示し、前記最後に表示した前記第1言語の第2文字情報に改行を示す制御文字が含まれる場合、改行してから表示する
    ことを実行するための翻訳プログラム。
JP2016256487A 2016-07-13 2016-12-28 端末装置、翻訳方法、及び、翻訳プログラム Active JP6791468B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US15/473,042 US10339224B2 (en) 2016-07-13 2017-03-29 Speech recognition and translation terminal, method and non-transitory computer readable medium
US15/473,186 US10489516B2 (en) 2016-07-13 2017-03-29 Speech recognition and translation terminal, method and non-transitory computer readable medium
AU2017202111A AU2017202111B2 (en) 2016-07-13 2017-03-30 Speech recognition and translation terminal, method, and computer readable medium
AU2017202113A AU2017202113B2 (en) 2016-07-13 2017-03-30 Speech Recognition and Translation Terminal, Method, and Translation Program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016138919 2016-07-13
JP2016138919 2016-07-13

Publications (2)

Publication Number Publication Date
JP2018018490A JP2018018490A (ja) 2018-02-01
JP6791468B2 true JP6791468B2 (ja) 2020-11-25

Family

ID=61076275

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2016256488A Active JP6760566B2 (ja) 2016-07-13 2016-12-28 端末装置、翻訳方法、及び、翻訳プログラム
JP2016256486A Active JP6766991B2 (ja) 2016-07-13 2016-12-28 端末装置、翻訳方法、及び、翻訳プログラム
JP2016256487A Active JP6791468B2 (ja) 2016-07-13 2016-12-28 端末装置、翻訳方法、及び、翻訳プログラム

Family Applications Before (2)

Application Number Title Priority Date Filing Date
JP2016256488A Active JP6760566B2 (ja) 2016-07-13 2016-12-28 端末装置、翻訳方法、及び、翻訳プログラム
JP2016256486A Active JP6766991B2 (ja) 2016-07-13 2016-12-28 端末装置、翻訳方法、及び、翻訳プログラム

Country Status (1)

Country Link
JP (3) JP6760566B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228191B (zh) * 2018-02-06 2022-01-25 威盛电子股份有限公司 语法编译系统以及语法编译方法
JP7434762B2 (ja) * 2019-09-10 2024-02-21 富士フイルムビジネスイノベーション株式会社 情報処理装置およびプログラム
JP7323210B2 (ja) * 2021-05-19 2023-08-08 Necプラットフォームズ株式会社 音声認識表示装置、音声認識表示方法及びプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0934895A (ja) * 1995-07-14 1997-02-07 Sony Corp 翻訳システム
JPH09292971A (ja) * 1996-04-26 1997-11-11 Sony Corp 翻訳装置
JP2001117920A (ja) * 1999-10-15 2001-04-27 Sony Corp 翻訳装置および翻訳方法、並びに記録媒体
SG125908A1 (en) * 2002-12-30 2006-10-30 Singapore Airlines Ltd Multi-language communication method and system
JP2008158328A (ja) * 2006-12-25 2008-07-10 Ntt Docomo Inc 端末装置及び判別方法
WO2011033834A1 (ja) * 2009-09-18 2011-03-24 日本電気株式会社 音声翻訳システム、音声翻訳方法および記録媒体
JP5014449B2 (ja) * 2010-02-26 2012-08-29 シャープ株式会社 会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラム
KR101208166B1 (ko) * 2010-12-16 2012-12-04 엔에이치엔(주) 온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법
KR102108500B1 (ko) * 2013-02-22 2020-05-08 삼성전자 주식회사 번역 기반 통신 서비스 지원 방법 및 시스템과, 이를 지원하는 단말기
JP2015011170A (ja) * 2013-06-28 2015-01-19 株式会社ATR−Trek ローカルな音声認識を行なう音声認識クライアント装置
US20160110348A1 (en) * 2014-10-08 2016-04-21 Alibek ISSAEV Computer Based Translation System and Method

Also Published As

Publication number Publication date
JP6760566B2 (ja) 2020-09-23
JP6766991B2 (ja) 2020-10-14
JP2018018053A (ja) 2018-02-01
JP2018018490A (ja) 2018-02-01
JP2018018052A (ja) 2018-02-01

Similar Documents

Publication Publication Date Title
US10339224B2 (en) Speech recognition and translation terminal, method and non-transitory computer readable medium
US20200410174A1 (en) Translating Languages
KR102108500B1 (ko) 번역 기반 통신 서비스 지원 방법 및 시스템과, 이를 지원하는 단말기
JP2019032479A (ja) 音声アシストシステム、サーバ装置、デバイス、その音声アシスト方法、及びコンピュータが実行するためのプログラム
JP6791468B2 (ja) 端末装置、翻訳方法、及び、翻訳プログラム
JP2004287447A (ja) モバイル通信デバイスのための分散音声認識
JP2010085536A (ja) 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
KR20140112364A (ko) 디스플레이 장치 및 디스플레이 장치의 제어방법
US11776563B2 (en) Textual echo cancellation
JP4809358B2 (ja) 対話システムの忠実度を向上させる方法及びシステム
CN109741749A (zh) 一种语音识别的方法和终端设备
US7181397B2 (en) Speech dialog method and system
KR101959439B1 (ko) 통역방법
CN116134803A (zh) 交流系统
JP2022055887A (ja) 端末装置、音声認識方法、音声認識プログラム
JP7503939B2 (ja) 情報処理装置、プログラム、および情報処理方法
JP2019109567A (ja) 電子機器、及び、電子機器の制御プログラム
JP2000276188A (ja) 音声認識装置、音声認識方法、音声認識用制御プログラムを記録した記録媒体、通信端末装置、通信方法、音声認識通信の制御用プログラムを記録した記録媒体、サーバ装置、音声認識用データの送受信方法及び音声認識用データの送受信制御プログラムを記録した記録媒体
JP2021110911A (ja) 音声認識表示装置、音声認識表示方法およびプログラム
JP2022054067A (ja) 表示制御装置、表示制御方法および表示制御プログラム
JP2021171364A (ja) 音声情報処理装置、音声情報処理方法及びプログラム
JP2020086943A (ja) 情報処理装置、情報処理方法、および、プログラム
JP2020038458A (ja) 音声翻訳装置及び音声翻訳プログラム
JP2021081527A (ja) 音声認識装置、音声認識方法、および、音声認識プログラム
JP2019008451A (ja) 支援装置、支援方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190827

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200512

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200713

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201006

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201020

R150 Certificate of patent or registration of utility model

Ref document number: 6791468

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350