JP2018018053A

JP2018018053A - 端末装置、翻訳方法、及び、翻訳プログラム

Info

Publication number: JP2018018053A
Application number: JP2016256488A
Authority: JP
Inventors: 寿和福岡; Toshikazu Fukuoka
Original assignee: Fujitsu Social Science Labs Ltd
Current assignee: Fujitsu Social Science Labs Ltd
Priority date: 2016-07-13
Filing date: 2016-12-28
Publication date: 2018-02-01
Anticipated expiration: 2036-12-28
Also published as: JP2018018052A; JP6766991B2; JP6760566B2; JP6791468B2; JP2018018490A

Abstract

【課題】異なる言語を使用する利用者間の会話をよりスムーズにする。【解決手段】音声の入力を受け付ける音声入力部と、所定時間毎に、前記音声入力部が受け付けた音声の音声データを前記音声入力部が以前に受け付けた音声の音声データと結合した結合音声データの音声を、第１言語の文字情報に変換することを、音声認識手段に指令する音声認識指令部と、前記音声認識手段によって変換された前記第１言語の第１文字情報を受信する毎に、前記第１言語の第１文字情報を第２言語に翻訳することを、翻訳手段に指令する翻訳指令部と、前記翻訳手段によって翻訳された前記第２言語の第１文字情報を、前記第１言語の第１文字情報とともに表示する表示部とを備える端末装置とする。【選択図】図９

Description

本発明は、端末装置、翻訳方法、及び、翻訳プログラムに関する。

利用者が発声するある言語の言葉を入力して、他の言語の言葉に翻訳する翻訳装置がある。

特開２０１１−１８２１２５号公報特開２０１４−１４９６４４号公報

しかしながら、従来の翻訳装置では、利用者が言葉を発声してから翻訳を開始するまでのタイムラグが大きいなどのため、翻訳装置を通じて、他の利用者と会話をするには支障があった。

本発明は、異なる言語を使用する利用者間の会話をよりスムーズにする技術を提供することを目的とする。

上記課題を解決するために、以下の手段を採用する。
即ち、第１の態様は、
音声の入力を受け付ける音声入力部と、
所定時間毎に、前記音声入力部が受け付けた音声の音声データを前記音声入力部が以前に受け付けた音声の音声データと結合した結合音声データの音声を、第１言語の文字情報に変換することを、音声認識手段に指令する音声認識指令部と、
前記音声認識手段によって変換された前記第１言語の第１文字情報を受信する毎に、前記第１言語の第１文字情報を第２言語に翻訳することを、翻訳手段に指令する翻訳指令部と、
前記翻訳手段によって翻訳された前記第２言語の第１文字情報を、前記第１言語の第１文字情報とともに表示する表示部と
を備える端末装置とする。

開示の態様は、プログラムが情報処理装置によって実行されることによって実現されてもよい。即ち、開示の構成は、上記した態様における各手段が実行する処理を、情報処理装置に対して実行させるためのプログラム、或いは当該プログラムを記録したコンピュータ読み取り可能な記録媒体として特定することができる。また、開示の構成は、上記した各手段が実行する処理を情報処理装置が実行する方法をもって特定されてもよい。開示の構成は、上記した各手段が実行する処理を行う情報処理装置を含むシステムとして特定されてもよい。

本発明によれば、異なる言語を使用する利用者間の会話をよりスムーズにする技術を提供することを目的とする。

図１は、本実施形態の翻訳システムの構成例を示す図である。図２は、端末装置の機能ブロックの例を示す図である。図３は、情報処理装置のハードウェア構成例を示す図である。図４は、端末装置における音声入力の動作フローの例を示す図である。図５は、端末装置における翻訳文表示の動作フローの例を示す図である。図６は、実施形態の翻訳システムの動作の具体例を示す図である。図７は、変形例２の端末装置における音声入力の動作フローの例を示す図である。図８は、変形例３の端末装置の機能ブロックの例を示す図である。図９は、変形例３の端末装置における音声入力の動作フローの例を示す図である。

以下、図面を参照して実施形態について説明する。実施形態の構成は例示であり、発明の構成は、開示の実施形態の具体的構成に限定されない。発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。

〔実施形態〕
本実施形態の翻訳システムは、利用者が端末装置に向けて発声した言葉を、他の利用者の端末装置に表示するとともに、当該言葉を他の利用者が使用する言語（例えば、日本語、英語、スペイン語など）の言葉に翻訳して表示する。本実施形態の翻訳システムでは、端末装置が利用者による音声の入力を受け付け、音声認識装置に、入力された音声の音声データを音声認識装置に送信する。音声認識装置は、音声データを文字情報に変換して、端末装置に出力する。端末装置は、所定の端末装置に向けて、文字情報を当該文字情報の言語を示す言語情報とともに、送信する。端末装置は、言語情報及び文字情報を受信すると、当該文字情報を表示し、翻訳装置に、言語情報及び文字情報と、翻訳後の言語を示す言語情報とを送信する。翻訳装置は、文字情報と当該文字情報の言語（第１言語）を示す言語情報と翻訳後の言語（第２言語）を示す言語情報を受信すると、文字情報を第１言語から第２言語に翻訳し、翻訳後の文字情報を、端末装置に送信する。端末装置は、翻訳後の文字情報を受信すると、当該文字情報を表示する。

（構成例）
図１は、本実施形態の翻訳システムの構成例を示す図である。図１の翻訳システム１０は、端末装置１００Ａ、端末装置１００Ｂ、音声認識装置２００、翻訳装置３００、ネットワーク４００、ＬＡＮ（Local Area Network）５００を含む。端末装置１００Ａは、ネットワーク４００及びＬＡＮ５００に接続される。端末装置１００Ｂは、ネットワーク４００及びＬＡＮ５００に接続される。端末装置１００Ａ及び端末装置１００Ｂは、同様の構成を有する。端末装置１００Ａ及び端末装置１００Ｂを区別しない場合は、単に、端末装置１００と呼ぶ。音声認識装置２００は、入力される音声データを、文字情報に変換して、出力する。翻訳装置３００は、入力される第１言語の文字情報を、第１言語と異なる第２言語の文字情報に翻訳して、出力する。ネットワーク４００は、端末装置１００、音声認識装置２００、翻訳装置３００等に接続されるインターネット等のネットワークである。ＬＡＮ５００は、端末装置１００Ａ、端末装置１００Ｂが接続されるローカルエリアネットワークである。ＬＡＮ５００は、ルータを含み得る。端末装置１００Ａ、端末装置１００Ｂは、ＬＡＮ５００を介して、ネットワーク５００に接続されてもよい。図１のシステム１０では、端末装置１００の２台は、２台であるが、端末装置１００の数は、２台に限定されるものではない。

端末装置１００は、利用者による音声の入力を受け付け、音声を音声データに変換して
、音声認識装置２００に送信する。端末装置１００には、あらかじめ、端末装置１００の利用者が使用する言語（使用言語）が登録されている。使用言語は、端末装置１００で動作するオペレーティングシステムにおいて設定されるパラメータに含まれるものであってもよい。端末装置１００は、音声データとともに使用言語の情報も、音声認識装置２００に送信する。端末装置１００は、音声認識装置２００から変換後の文字情報を受信する。端末装置１００は、受信した文字情報を、使用言語の情報とともに他の端末装置１００に向けて送信する。端末装置１００は、他の端末装置１００などから使用言語の情報と文字情報を受信すると、当該文字情報を表示する。また、端末装置１００は、当該使用言語の情報と当該文字情報と自装置の使用言語の情報とを、翻訳装置３００に送信する。端末装置１００は、翻訳装置３００から、翻訳後の文字情報を受信すると、当該文字情報を表示する。端末装置１００の構成については、後に説明する。

音声認識装置２００は、端末装置１００から、当該端末装置１００における使用言語の情報と、音声データとを受け付け、音声データの音声を当該使用言語の文字情報に変換して、端末装置１００に送信する。音声認識装置２００は、音声に所定時間継続する無音が含まれている場合、当該音声を改行を示す制御文字に変換してもよい。音声認識装置２００は、端末装置１００から送信される音声データをバッファし、バッファされている一連の音声データの音声を、一連の文字情報に変換してもよい。音声認識装置２００は、音声を改行を示す制御文字を含む文字情報に変換した場合、当該制御文字に対応する音声データ以前の音声データをバッファから削除してもよい。これにより、音声認識装置２００は、常に、改行以降の音声データについて、文字情報に変換することになる。音声認識装置２００として、周知の音声認識手段が使用され得る。

翻訳装置３００は、端末装置１００から、第１言語の情報と、文字情報と、第２言語の情報とを受け付ける。翻訳装置３００は、文字情報を第１言語から第２言語に翻訳する。翻訳装置３００は、翻訳した文字情報を、端末装置１００に送信する。翻訳装置３００として、周知の翻訳手段が使用され得る。

〈端末装置の構成〉
図２は、端末装置の機能ブロックの例を示す図である。図２の端末装置１００は、表示部１０２、記憶部１０４、音声入力部１０６、音声認識コマンド発行部１０８、音声認識結果受付部１１０、文字配布部１１２、文字受付部１１４、翻訳コマンド発行部１１６、翻訳結果受付部１１８、通信部１２０を含む。

表示部１０２は、端末装置１００の利用者に示す情報を表示する。表示部１０２は、文字配布部１１２で他の端末装置１００等に向けて送信される文字情報や、翻訳結果受付部１１８で受信される翻訳結果である文字情報を表示する。

記憶部１０４は、端末装置１００で使用されるデータや、端末装置１００の利用者が使用する言語（使用言語）の情報、他の装置から受信した文字情報、音声データ等を格納する。記憶部１０４は、自装置や他の装置等の識別情報、ネットワーク上のアドレスを格納しうる。

音声入力部１０６は、マイクロフォンなどの入力手段により、端末装置１００の利用者が発声した音声の入力を受け付ける。音声入力部１０６は、入力された音声を電気的な信号に変換して、音声データとして、音声認識コマンド発行部１０８に送信する。音声入力部１０６は、所定時間毎に音声データを送信する。

音声認識コマンド発行部１０８は、音声入力部１０６より音声データを受信する。音声認識コマンド発行部１０８は、受信した音声データを記憶部１０４に格納する。音声認識
コマンド発行部１０８は、記憶部１０４から、端末装置１００の利用者が使用する言語として登録されている使用言語の情報を取得する。音声認識コマンド発行部１０８は、音声認識装置２００で音声認識をさせるための音声認識コマンドを生成して、通信部１２０を介して、音声認識装置２００に送信する。音声認識コマンドは、通信部１２０からネットワークを介して、音声認識装置２００に送信される。音声認識コマンドとともに、音声データ、使用言語の情報も送信される。音声認識コマンドは、音声データを、使用言語の文字情報に変換することを指令するコマンドである。音声認識コマンド発行部１０８は、音声認識指令部の一例である。

音声認識結果受付部１１０は、音声認識装置２００による音声認識結果を、通信部１２０を介して、受信する。音声認識結果受付部１１０は、受信した音声認識結果を、文字配布部１１２に送信する。

文字配布部１１２は、音声認識結果受付部１１０から、音声認識結果を受信する。文字配布部１１２は、受信した音声認識結果を記憶部１０４に格納する。文字配布部１１２は、受信した音声認識結果を表示部１０２に表示させる。文字配布部１１２は、記憶部１０４より、端末装置１００の使用言語の情報を取得する。文字配布部１１２は、マルチキャスト通信により、ＬＡＮ５００上の他の端末装置に向けて、受信した音声認識結果及び取得した使用言語の情報を、通信部１２０を介して、送信する。文字配布部１１２は、文字送信部の一例である。

文字受付部１１４は、他の端末装置１００からの音声認識結果及び使用言語の情報を、通信部１２０を介して、受信する。文字受付部１１４は、受信した音声認識結果及び使用言語の情報を、記憶部１０４に格納する。文字受付部１１４は、記憶部１０４より、自身の端末装置１００の使用言語の情報を取得する。文字受付部１１４は、自身の端末の使用言語と受信した使用言語とが異なる場合、翻訳コマンド発行部１１６に、自身の端末の使用言語の情報と受信した使用言語の情報及び音声認識結果とを、翻訳コマンド発行部１１６に送信する。

翻訳コマンド発行部１１６は、音声認識結果及び他の端末装置１００の使用言語（第１言語）の情報と、自身の端末装置１００の使用言語（第２言語）の情報とを、文字受付部１１４から受信する。翻訳コマンド発行部１１６は、翻訳装置３００で翻訳をさせるための翻訳コマンドを生成して、通信部１２０を介して、翻訳装置３００に送信する。翻訳コマンドは、音声認識結果、第１言語の情報、第２言語の情報を含む。翻訳コマンドは、第１言語の文字情報である音声認識結果を、第２言語に翻訳することを指令するコマンドである。翻訳コマンド発行部１１６は、翻訳指令部の一例である。

翻訳結果受付部１１８は、翻訳装置３００による翻訳結果を、通信部１２０を介して、受信する。翻訳結果受付部１１８は、受信した翻訳結果を、記憶部１０４に格納する。翻訳結果受付部１１８は、受信した翻訳結果を表示部１０２に表示させる。

通信部１２０は、他の装置等と、データの送受信を行う。通信部１２０は、所定のコマンドを、ネットワーク４００を介して、音声認識装置２００や翻訳装置３００に送信する。通信部１２０は、音声認識装置２００や翻訳装置３００から、所定の結果を受信する。通信部１２０は、マルチキャスト通信により、ＬＡＮ５００上の他の端末装置１００に向けて、文字情報等を送信する。通信部１２０は、マルチキャスト通信によって送信される他の端末装置１００からの文字情報等を受信する。マルチキャスト通信は、パケット送信方法の１つであり、あらかじめ指定した１以上の端末装置に一斉にパケット（データ）を送信することができる。他の端末装置１００へのデータの通信方法は、マルチキャスト通信に限定されるものではなく、他の通信方法が使用されてもよい。マルチキャスト通信に
おける端末装置の指定は、例えば、端末装置１００が、ＬＡＮ５００上のルータに、所定のアドレスで配信されるマルチキャスト通信によるデータの送信を要求することで行われる。端末装置１００は、当該指定により、ルータから所定のアドレスで配信されるデータを受信することができる。また、端末装置１００は、所定のアドレス宛にデータを送信することで、マルチキャスト通信による配信を行うことができる。

〈装置のハードウェア構成〉
端末装置１００は、スマートフォン、携帯電話、タブレット型端末、カーナビゲーション装置、ＰＤＡ（Personal Digital Assistant）、ＰＣ（Personal Computer）のような
専用または汎用のコンピュータ、あるいは、コンピュータを搭載した電子機器を使用して実現可能である。音声認識装置２００、翻訳装置３００は、ＰＣ、ワークステーション（ＷＳ、Work Station）のような専用または汎用のコンピュータ、あるいは、コンピュータを搭載した電子機器を使用して実現可能である。音声認識装置２００、翻訳装置３００は、端末装置１００に含まれてもよい。

図３は、情報処理装置のハードウェア構成例を示す図である。図３に示す情報処理装置９０は、一般的なコンピュータの構成を有している。制御装置２０、端末装置１００、音声認識装置２００、翻訳装置３００は、図３に示すような情報処理装置９０によって実現される。情報処理装置９０は、プロセッサ９１、メモリ９２、記憶部９３、入力部９４、出力部９５、通信制御部９６を有する。これらは、互いにバスによって接続される。メモリ９２及び記憶部９３は、コンピュータ読み取り可能な記録媒体である。情報処理装置のハードウェア構成は、図３に示される例に限らず、適宜構成要素の省略、置換、追加が行われてもよい。

情報処理装置９０は、プロセッサ９１が記録媒体に記憶されたプログラムをメモリ９２の作業領域にロードして実行し、プログラムの実行を通じて各構成部等が制御されることによって、所定の目的に合致した機能を実現することができる。

プロセッサ９１は、例えば、ＣＰＵ（Central Processing Unit）やＤＳＰ（Digital Signal Processor）である。

メモリ９２は、例えば、ＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）を含む。メモリ９２は、主記憶装置とも呼ばれる。

記憶部９３は、例えば、ＥＰＲＯＭ（Erasable Programmable ROM）、ハードディスク
ドライブ（ＨＤＤ、Hard Disk Drive）、ソリッドステートドライブ（ＳＳＤ、Solid State Drive）である。また、記憶部９３は、リムーバブルメディア、即ち可搬記録媒体を含むことができる。リムーバブルメディアは、例えば、ＵＳＢ（Universal Serial Bus）メモリ、あるいは、ＣＤ（Compact Disc）やＤＶＤ（Digital Versatile Disc）のようなディスク記録媒体である。記憶部９３は、二次記憶装置とも呼ばれる。

記憶部９３は、各種のプログラム、各種のデータ及び各種のテーブルを読み書き自在に記録媒体に格納する。記憶部９３には、オペレーティングシステム（Operating System :ＯＳ）、各種プログラム、各種テーブル等が格納される。記憶部９３に格納される情報は、メモリ９２に格納されてもよい。また、メモリ９２に格納される情報は、記憶部９３に格納されてもよい。

オペレーティングシステムは、ソフトウェアとハードウェアとの仲介、メモリ空間の管理、ファイル管理、プロセスやタスクの管理等を行うソフトウェアである。オペレーティングシステムは、通信インタフェースを含む。通信インタフェースは、通信制御部９６を
介して接続される他の外部装置等とデータのやり取りを行うプログラムである。外部装置等には、例えば、他の情報処理装置、外部記憶装置等が含まれる。

入力部９４は、キーボード、ポインティングデバイス、ワイヤレスリモコン、タッチパネル等を含む。また、入力部９４は、カメラのような映像や画像の入力装置や、マイクロフォンのような音声の入力装置を含むことができる。

出力部９５は、ＣＲＴ（Cathode Ray Tube）ディスプレイ、ＬＣＤ（Liquid Crystal Display）、ＰＤＰ（Plasma Display Panel）、ＥＬ（Electroluminescence）パネル等の
表示装置、プリンタ等の出力装置を含む。また、出力部９５は、スピーカのような音声の出力装置を含むことができる。

通信制御部９６は、他の装置と接続し、情報処理装置９０と他の装置との間の通信を制御する。通信制御部９６は、例えば、ＬＡＮ（Local Area Network）インタフェースボード、Bluetooth（登録商標）などの無線通信のための無線通信回路、電話通信のための通
信回路である。ＬＡＮインタフェースボードや無線通信回路は、インターネット等のネットワークに接続される。

端末装置１００、音声認識装置２００、翻訳装置３００を実現するコンピュータは、プロセッサが二次記憶装置に記憶されているプログラムを主記憶装置にロードして実行することによって、各機能を実現する。また、各装置の記憶部は、主記憶装置または二次記憶装置の記憶領域に設けられる。

プログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくても、並列的または個別に実行される処理を含む。プログラムを記述するステップの一部が省略されてもよい。

（動作例）
端末装置１００の動作例について、説明する。ここでは、端末装置１００の動作を、音声入力の動作フローと、翻訳文表示の動作フローとに分けて説明するが、これらの動作は、端末装置１００において並行して実行されている。端末装置１００では、これらの動作を実現するアプリケーションが実行されている。

端末装置１００は、あらかじめ、所定のアドレスを用いて、マルチキャスト通信によるデータの送受信をできるように設定されている。ＬＡＮ５００には、マルチキャスト通信によるデータの送受信をできる１以上の端末装置１００が接続されている。上記の動作を実現するアプリケーションを端末装置１００で実行することによって、所定のアドレスを用いてマルチキャスト通信によるデータの送受信をできるように設定されてもよい。

〈音声入力〉
図４は、端末装置における音声入力の動作フローの例を示す図である。端末装置１００は、利用者によって使用されている。利用者は、端末装置１００に対する発声により音声入力を行う。図４の動作フローは、例えば、音声入力の１区間の長さである所定時間（例えば、２００ｍｓ）毎に実行される。

Ｓ１０１では、端末装置１００の音声入力部１０６は、端末装置１００の利用者が発声した音声の入力を受け付ける。音声入力部１０６は、入力された音声を電気的な信号に変換して、音声データとして、音声認識コマンド発行部１０８に送信する。音声入力部１０６は、所定時間毎（例えば、２００ｍｓ毎）に音声データを送信する。当該所定時間が短くなるほど、発声と翻訳文表示とのタイムラグを短くすることができるが、端末装置１０
０や音声認識装置２００における処理量が増大する。当該所定時間は、発声における一音や一語程度の長さにすることが望ましい。一音や一語よりも短い音声を音声認識により文字情報に変換することが困難であるからである。

Ｓ１０２では、音声認識コマンド発行部１０８は、音声入力部１０６より音声データを、所定時間毎に受信する。音声認識コマンド発行部１０８は、受信した音声データを記憶部１０４に格納する。音声認識コマンド発行部１０８は、記憶部１０４から、端末装置１００の利用者が使用する言語として登録されている使用言語の情報を取得する。音声認識コマンド発行部１０８は、音声認識装置２００で音声認識をさせるための音声認識コマンドを生成（発行）して、通信部１２０を介して、音声認識装置２００に送信する。音声認識処理は、音声データを、あらかじめ音声と所定の言語の文字とを対応付けたデータに基づいて、所定の言語の文字情報に変換する処理である。音声認識コマンドは、通信部１２０からネットワーク４００を介して、音声認識装置２００に送信される。音声認識コマンドは、音声データを、使用言語の文字情報に変換することを指令するコマンドである。音声認識コマンドとともに、音声データ、使用言語の情報も送信される。音声データには一連の通し番号が含まれてもよい。また、音声認識コマンドとともに、端末装置１００のアドレスや端末装置１００を識別する識別子が送信されてもよい。

音声認識装置２００は、端末装置１００から音声認識コマンドを受信すると、音声認識コマンドに従って、音声認識コマンドとともに送信される使用言語の文字に、音声データの音声を変換して、音声認識結果として、端末装置１００に送信する。音声認識装置２００は、音声に所定時間継続する無音が含まれている場合、当該音声を改行を示す制御文字に変換する。音声認識装置２００は、端末装置１００から送信される音声データをバッファし、バッファされている一連の音声データを結合して１つの結合音声データを作成し、当該音声データの音声を一連の文字情報に変換する。音声認識装置２００は、１つの音声データを作成する際、音声データに含まれる通し番号を用いて、順番が入れ替わらないように音声データを作成してもよい。音声認識装置２００は、音声を改行を示す制御文字を含む文字情報に変換した場合、当該制御文字に対応する音声データ以前の音声データをバッファから削除する。これにより、音声認識装置２００は、常に、無音（改行）以降の音声データについて、文字情報に変換することになる。音声認識コマンドには、すでに送信済みの一連の音声データを１つの音声データにして音声認識をする指令、音声データに所定時間以上の無音が含まれている場合に音声認識後にバッファを削除する指令が含まれてもよい。

Ｓ１０３では、音声認識結果受付部１１０は、Ｓ１０２で送信した音声認識コマンドに対する、音声認識装置２００による音声認識結果を、受信したか否かを判定する。音声認識結果を受信した場合（Ｓ１０３；ＹＥＳ）、処理がＳ１０４に進む。音声認識結果を受信していない場合（Ｓ１０３；ＹＥＳ）、Ｓ１０３の処理を繰り返す。

Ｓ１０４では、音声認識結果受付部１１０は、今回受信した音声認識結果と、記憶部１０４に格納される前回受信した音声認識結果とを比較する。今回受信した音声結果と前回受信した音声認識結果とが同じである場合（Ｓ１０４；ＹＥＳ）、この動作フローの処理が終了する。この場合、前回の音声認識結果に対してＳ１０５の処理が行われているため、同じ音声認識結果に対して同じ処理を行う必要が無いからである。また、音声認識結果に、文字情報が含まれない場合も、同様にする。文字情報が含まれない場合には、表示などの以後の処理を行う必要が無いからである。また、今回受信した音声結果と前回受信した音声認識結果とが異なる場合（Ｓ１０４；ＮＯ）、音声認識結果受付部１１０は音声認識結果を文字配布部１１２に送信し、処理がＳ１０５に進む。

Ｓ１０５では、文字配布部１１２は、音声認識結果受付部１１０から音声認識結果を受
信する。文字配布部１１２は、受信した音声認識結果を、今回の音声認識結果として、記憶部１０４に格納する。この後、新たに音声認識結果が格納される際には、今回の音声認識結果は、前回の音声認識結果となる。文字配布部１１２は、受信した音声認識結果を表示部１０２に表示させる。このとき、文字配布部１１２は、最後に表示した音声認識結果を消去してから、今回受信した音声認識結果の文字情報を表示する。即ち、表示される音声認識結果が更新される。ただし、文字配布部１１２は、最後に表示した音声認識結果に改行を示す制御文字が含まれる場合、最後に表示した音声認識結果を消去せずに、改行してから、今回受信した音声認識結果の文字情報を表示する。音声認識結果に改行を示す制御文字が含まれることで、一連の音声データに対する音声認識結果が確定する。文字配布部１１２は、記憶部１０４より、端末装置１００の使用言語の情報を取得する。文字配布部１１２は、マルチキャスト通信により、所定のアドレスを指定して、ＬＡＮ５００上の他の端末装置に向けて、受信した音声認識結果及び取得した使用言語の情報を、通信部１２０を介して、送信する。当該使用言語は、音声認識結果の文字情報の言語である。

ここでは、文字配布部１１２は、受信した音声認識結果を表示部１０２に表示させるとしたが、文字配布部１１２は、受信した音声認識結果を表示部１０２に表示させなくてもよい。端末装置１００がマルチキャスト通信で送信する音声認識結果は、送信した端末装置１００自身にも配信される。このため、文字配布部１１２が表示させなくても、マルチキャスト通信で配信された音声認識結果を、後に説明する文字受付部１１４が表示部１０２に表示させることができるからである。

〈翻訳文表示〉
図５は、端末装置における翻訳文表示の動作フローの例を示す図である。端末装置１００は、利用者によって使用されている。

Ｓ２０１では、端末装置１００の文字受付部１１４は、他の端末装置１００からの音声認識結果（文字情報）及び使用言語の情報を、マルチキャスト通信により、通信部１２０を介して、受信したか否かを判定する。受信した場合（Ｓ２０１；ＹＥＳ）、処理がＳ２０２に進む。受信していない場合（Ｓ２０１；ＮＯ）、Ｓ２０１の処理を繰り返す。

Ｓ２０２では、文字受付部１１４は、受信した文字情報及び使用言語の情報を、記憶部１０４に格納する。文字受付部１１４は、受信した文字情報を、表示部１０２に表示させる。このとき、文字受付部１１４は、Ｓ２０２で最後に表示した文字情報を消去してから、今回受信した文字情報を表示する。即ち、表示される文字情報が更新される。ただし、文字受付部１１４は、Ｓ２０２で最後に表示した文字情報に改行を示す制御文字が含まれる場合、最後に表示した文字情報を消去せずに、改行してから、今回受信した文字情報を表示する。文字情報に改行を示す制御文字が含まれる場合、表示される文字情報は更新されない。

Ｓ２０３では、文字受付部１１４は、記憶部１０４より、自身の端末装置１００の使用言語の情報を取得する。文字受付部１１４は、自身の端末装置１００の使用言語とＳ２０１で受信した使用言語とが一致するか否かを判定する。自身の端末装置１００の使用言語とＳ２０１で受信した使用言語とが一致する場合（Ｓ２０３；ＹＥＳ）、処理がＳ２０１に戻る。この場合、受信した文字情報は翻訳されない。自身の端末装置１００の使用言語とＳ２０１で受信した使用言語とが異なる場合（Ｓ２０３；ＮＯ）、処理がＳ２０４に進む。

Ｓ２０４では、文字受付部１１４は、翻訳コマンド発行部１１６に、自身の端末装置１００の使用言語の情報と受信した使用言語の情報及び文字情報（音声認識結果）とを、翻訳コマンド発行部１１６に送信する。翻訳コマンド発行部１１６は、受信した音声認識結
果及び受信した使用言語（第１言語）の情報と、自身の端末装置１００の使用言語（第２言語）の情報とを、文字受付部１１４から受信する。翻訳コマンド発行部１１６は、翻訳装置３００で翻訳をさせるための翻訳コマンドを生成（発行）して、通信部１２０を介して、翻訳装置３００に送信する。翻訳処理は、所定の辞書等に基づいて、第１言語の文字情報を、第２言語の文字情報に変換（翻訳）する処理である。翻訳コマンドは、通信部１２０からネットワーク４００を介して、翻訳装置３００に送信される。翻訳コマンドは、第１言語の文字情報を、第２言語の文字情報に翻訳することを指令するコマンドである。翻訳コマンドとともに、第１言語の情報、文字情報、第２言語の情報が送信される。翻訳コマンドとともに、端末装置１００のアドレスや端末装置１００を識別する識別子が送信されてもよい。

翻訳装置３００は、端末装置１００から、翻訳コマンドと、第１言語の情報と、文字情報と、第２言語の情報とを受け付ける。翻訳装置３００は、翻訳コマンドを受信すると、翻訳コマンドに従って、第１言語の文字情報を、第２言語に翻訳する。翻訳装置３００は、翻訳した文字情報を、端末装置１００に送信する。翻訳装置３００は、文字情報に改行を示す制御文字が含まれる場合、翻訳後の文字情報にも当該制御文字を含むようにする。

Ｓ２０５では、翻訳結果受付部１１８は、翻訳装置３００からの翻訳結果を、通信部１２０を介して、受信したか否かを判定する。受信した場合（Ｓ２０５；ＹＥＳ）、処理がＳ２０６に進む。受信していない場合（Ｓ２０５；ＮＯ）、処理がＳ２０１に戻る。

Ｓ２０６では、翻訳結果受付部１１８は、受信した翻訳結果を、記憶部１０４に格納する。翻訳結果受付部１１８は、受信した翻訳結果を、表示部１０２に表示させる。翻訳結果は、Ｓ２０２で表示した文字情報の近傍に表示させる。近傍に表示させることで、端末装置１００の利用者が翻訳前の文字情報と翻訳結果とを容易に比較することができる。このとき、翻訳結果受付部１１８は、Ｓ２０６で最後に表示した翻訳結果を消去してから、今回受信した翻訳結果を表示する。即ち、表示される翻訳結果が更新される。ただし、翻訳結果受付部１１８は、Ｓ２０６で最後に表示した翻訳結果に改行を示す制御文字が含まれる場合、最後に表示した翻訳結果を消去せずに、改行してから、今回受信した翻訳結果を表示する。文字情報に改行を示す制御文字が含まれる場合、表示される文字情報は更新されない。表示される文字情報の近傍には、当該文字情報の基となる音声を発声した利用者を示すアイコン（絵など）を表示してもよい。これにより、どの文字情報がどの利用者によって発声されたものなのかを認識しやすくなる。

Ｓ２０７では、端末装置１００は、本動作フローの動作を実現するアプリケーションにおいて、アプリケーションの終了が選択されたか否かを判定する。アプリケーションの終了には、端末装置１００自体の電源ＯＦＦが含まれる。終了が選択された場合（Ｓ２０７；ＹＥＳ）、動作フローの処理が終了する。終了が選択されていない場合（Ｓ２０７；ＮＯ）、処理がＳ２０１に戻る。

（具体例）
図６は、本実施形態の翻訳システムの動作の具体例を示す図である。ここでは、利用者によって、端末装置１００Ａに約２．５秒間（時刻０ｓから時刻２．５ｓまで）で「おはようございます」と発声された場合について説明する。端末装置１００Ａの使用言語は、日本語とする。端末装置１００Ｂの使用言語は、英語とする。

端末装置１００Ａの音声入力部１０６は、図６のように、第１区間（時刻０ｓから時刻０．２ｓまで）である最初の２００ｍｓに入力される「おはようございます」の「お」の一部の音声を、電気信号に変換して、音声認識コマンド発行部１０８に送信する（図４のＳ１０１）。音声認識コマンド発行部１０８は、受信した音声データ、使用言語の情報と
ともに、音声認識コマンドを、音声認識装置２００に送信する（図４のＳ１０２）。音声認識装置２００は、音声認識コマンドにしたがって、音声データの音声の音声認識を実行するが、音声データの音声が「お」の一部であるため、ここでは音声を使用言語である日本語の文字に変換することができない。音声認識装置２００は、音声認識結果として、文字情報の含まれない「」を端末装置１００Ａに送信する。端末装置１００Ａの音声認識結果受付部１１０は、文字情報の含まれない音声認識結果を受信すると、表示する文字情報が存在しないため（図４のＳ１０４;ＮＯ）、第１区間の処理が終了する。

次に、端末装置１００Ａの音声入力部１０６は、第２区間である２００ｍｓに入力される「おはようございます」の「お」の一部の音声及び「は」の一部の音声を、電気信号に変換して、音声認識コマンド発行部１０８に送信する（図４のＳ１０１）。音声認識コマンド発行部１０８は、受信した音声データ、使用言語の情報とともに、音声認識コマンドを、音声認識装置２００に送信する（図４のＳ１０２）。音声認識装置２００は、音声認識コマンドにしたがって、第１区間の音声データと第２区間の音声データとを結合して１つの音声データとして、当該音声データの音声の音声認識を実行する。ここでは、音声データの音声が「お」及び「は」の一部であるため、ここでは音声を使用言語である日本語の文字「お」に変換する。音声認識装置２００は、音声認識結果として、文字情報「お」を端末装置１００Ａに送信する。端末装置１００Ａの音声認識結果受付部１１０は、文字情報「お」を受信すると、文字配布部１１２に送信する（図４のＳ１０４;ＹＥＳ）。文
字配布部１１２は、受信した音声認識結果「お」を表示部１０２に表示させる（上述のように表示させなくてもよい）。また、文字配布部１１２は、マルチキャスト通信により、文字情報「お」を使用言語の情報とともに送信する（図４のＳ１０５）。

一方、マルチキャスト通信により文字情報「お」を使用言語の情報とともに受信した端末装置１００Ｂの文字受付部１１４は、受信した文字情報「お」を、表示部１０２に表示させる（図５のＳ２０２）。翻訳コマンド発行部１１６は、翻訳装置３００で翻訳をさせるための翻訳コマンドを生成する。翻訳コマンド発行部１１６は、翻訳コマンドとともに、第１言語（日本語）の情報、文字情報「お」、第２言語（英語）の情報を、翻訳装置３００に送信する。翻訳装置３００は、日本語の文字情報「お」を、英語に翻訳する。ここでは、英語の「your」に翻訳されたとする。翻訳装置３００は、翻訳結果として、文字情報「your」を、端末装置１００Ｂに送信する。端末装置１００Ｂの翻訳結果受付部１１８は、翻訳装置３００から受信した翻訳結果「your」を、文字情報「お」の近傍に、表示させる（図５のＳ２０６）。これによって、発声される音声を所定時間で区切って、所定時間毎に音声認識をし、翻訳を行うことができる。

同様にして、第３区間、第４区間の処理では、それぞれ、音声認識の結果として、「おは」「おはよ」が出力され、それぞれに対して、翻訳処理が行われる。音声認識の結果は、端末装置１００Ａ、１００Ｂの表示部１０２において、逐次、更新される。また、翻訳処理の結果も、端末装置１００Ｂの表示部１０２において、逐次、更新される。第６区間、第７区間、第９区間、第１０区間、第１２区間、第１３区間の処理においても同様である。

第５区間の処理では、音声認識の結果が第４区間の処理と同様になるため、翻訳処理が行われない（図４のＳ１０４；ＹＥＳ）。よって、ここでは、音声認識の結果も、翻訳処理の結果も更新されない。第８区間、第１１区間の処理においても同様である。

次に、端末装置１００Ａの音声入力部１０６は、第１４区間である２００ｍｓに入力される「おはようございます」の後の無音部分を、電気信号に変換して、音声認識コマンド発行部１０８に送信する（図４のＳ１０１）。音声認識コマンド発行部１０８は、受信した音声データ、使用言語の情報とともに、音声認識コマンドを、音声認識装置２００に送
信する（図４のＳ１０２）。音声認識装置２００は、音声認識コマンドにしたがって、第１区間から第１４区間までの音声データを結合して１つの音声データとして、当該音声データの音声の音声認識を実行する。ここでは、音声データの音声が「おはようございます」であるため、ここでは音声を使用言語である日本語の文字「おはようございます」に変換する。さらに、音声認識装置２００は、音声データに所定期間以上の無音部分が含まれているため、無音部分に改行を示す制御文字「［ＥＯＬ］」を追加する。なお、ＥＯＬは、End of Lineの頭文字である。音声認識装置２００は、音声認識結果として、文字情報
「おはようございます［ＥＯＬ］」を端末装置１００Ａに送信する。端末装置１００Ａの音声認識結果受付部１１０は、文字情報「おはようございます［ＥＯＬ］」を受信すると、文字配布部１１２に送信する（図４のＳ１０４;ＹＥＳ）。文字配布部１１２は、受信
した音声認識結果「おはようございます［ＥＯＬ］」を表示部１０２に表示させる（上述のように表示させなくてもよい）。改行の制御文字が含まれるため、音声認識結果は確定される。また、文字配布部１１２は、マルチキャスト通信により、文字情報「おはようございます［ＥＯＬ］」を使用言語の情報とともに送信する（図４のＳ１０５）。

一方、マルチキャスト通信により文字情報「おはようございます［ＥＯＬ］」を使用言語の情報とともに受信した端末装置１００Ｂの文字受付部１１４は、受信した文字情報「おはようございます［ＥＯＬ］」を、表示部１０２に表示させる（図５のＳ２０２）。翻訳コマンド発行部１１６は、翻訳装置３００で翻訳をさせるための翻訳コマンドを生成する。翻訳コマンド発行部１１６は、翻訳コマンドとともに、第１言語（日本語）の情報、文字情報「お」、第２言語（英語）の情報を、翻訳装置３００に送信する。翻訳装置３００は、日本語の文字情報「おはようございます［ＥＯＬ］」を、英語に翻訳する。ここでは、英語の「Good Morning［ＥＯＬ］」に翻訳されたとする。制御文字は、翻訳後もそのままにされる。翻訳装置３００は、翻訳結果として、文字情報「Good Morning［ＥＯＬ］」を、端末装置１００Ｂに送信する。端末装置１００Ｂの翻訳結果受付部１１８は、翻訳装置３００から受信した翻訳結果「Good Morning［ＥＯＬ］」を、文字情報「おはようございます［ＥＯＬ］」の近傍に、表示させる（図５のＳ２０６）。表示部１０２に制御文字は表示されない。翻訳結果に、改行の制御文字が含まれるため、音声認識結果は確定される。

（実施形態の作用、効果）
音声が入力される端末装置１００Ａでは、音声が入力されるのにしたがって、表示部１０２に音声認識された文字が逐次更新されて表示される。また、端末装置１００Ｂでは、端末装置１００Ａで音声が入力されるのにしたがって、表示部１０２に、音声認識された文字と、当該文字を翻訳した翻訳結果とが、逐次、更新されて表示される。これにより、音声を入力する端末装置１００Ａの利用者が話している最中であっても、音声認識がされ、翻訳処理がされる。このため、端末装置１００Ｂの利用者は、逐次更新される翻訳文を見ることで、端末装置１００Ｂの利用者が話し終わる前に、端末装置１００Ｂの利用者が話しているおおよその内容を理解することができる。話している最中にも翻訳を行うため翻訳結果が不正確なることもあるが、話している間に徐々に正確になるため、おおよその内容を理解するには、支障が少ない。これによって、端末装置１００Ｂの利用者は、端末装置１００Ａの利用者が話し終わってすぐに話しを始めることができ、異なる言語を話す話者同士の会話をスムーズにすることができる。また、同様にして、端末装置１００Ｂの利用者が端末装置１００Ｂに向かって話した音声は、音声認識され、端末装置１００Ａで音声認識された文字と、当該文字を翻訳した翻訳結果とが、逐次、更新されて表示される。また、マルチキャスト通信を利用して、複数の端末装置１００に音声認識結果を送信することで、異なる言語を使用する多くの人と一度に話をすることができる。音声認識された文字情報が翻訳される前に、他の端末装置１００に送信されることで、それぞれの端末装置１００で、端末装置１００に応じた翻訳コマンドが発行されることになり、それぞれの端末装置１００において、それぞれの端末装置１００の使用言語に翻訳され得る。

ここでは、端末装置１００が２台の例を示したが、３台以上の端末装置１００が存在してもよい。このとき、例えば、日本語を使用する第１利用者と、英語を利用する第２利用者と、スペイン語を使用する第３利用者が存在する場合には、第１利用者の端末装置１００には、第１利用者が話した日本語と、第２利用者が話した英語と当該英語の日本語訳と、第３利用者が話したスペイン語と当該スペイン語の日本語訳とが、逐次、表示される。

（変形例１）
ここでは、端末装置１００の音声認識コマンド発行部１０８は、音声認識コマンドとともに、１区間分ずつ音声データを送るとしたが、音声認識装置２００で行う音声データの結合を端末装置１００で行い、音声認識を行う結合した一連の音声データを音声認識コマンドとともに音声認識装置２００に送信してもよい。このとき、音声認識装置２００における負荷を軽減することができる。

（変形例２）
ここでは、標準言語を利用する変形例について説明する。
上記の図３の音声入力では、端末装置１００は、音声を、音声を受け付けた言語の文字情報に変換し、他の端末に向けて、当該文字情報を他の端末に向けて、送信していた。ここでは、音声を、音声を受け付けた言語の文字情報に変換し、さらに、標準言語の文字情報に変換して、他の端末に向けて送信する。

図７は、変形例２の端末装置における音声入力の動作フローの例を示す図である。端末装置１００は、利用者によって使用されている。利用者は、端末装置１００に対する発声により音声入力を行う。図７の動作フローは、例えば、音声入力の１区間の長さである所定時間（例えば、２００ｍｓ）毎に実行される。

Ｓ３０１からＳ３０３までの動作は、図４のＳ１０１からＳ１０３までの動作と同様である。ここでは、説明を省略する。

Ｓ３０４では、音声認識結果受付部１１０は、今回受信した音声認識結果と、記憶部１０４に格納される前回受信した音声認識結果とを比較する。今回受信した音声結果と前回受信した音声認識結果とが同じである場合（Ｓ３０４；ＹＥＳ）、処理がＳ３０１に戻る。この場合、前回の音声認識結果に対してＳ３０５以降の処理が行われているため、同じ音声認識結果に対して同じ処理を行う必要が無いからである。また、音声認識結果に、文字情報が含まれない場合も、同様にする。文字情報が含まれない場合には、表示などの以後の処理を行う必要が無いからである。また、今回受信した音声結果と前回受信した音声認識結果とが異なる場合（Ｓ３０４；ＮＯ）、音声認識結果受付部１１０は音声認識結果を文字配布部１１２に送信し、処理がＳ３０５に進む。

Ｓ３０５では、文字配布部１１２は、音声認識結果受付部１１０から音声認識結果を受信する。文字配布部１１２は、受信した音声認識結果を、今回の音声認識結果として、記憶部１０４に格納する。この後、新たに音声認識結果が格納される際には、今回の音声認識結果は、前回の音声認識結果となる。文字配布部１１２は、受信した音声認識結果を表示部１０２に表示させる。このとき、文字配布部１１２は、最後に表示した音声認識結果を消去してから、今回受信した音声認識結果の文字情報を表示する。即ち、表示される音声認識結果が更新される。ただし、文字配布部１１２は、最後に表示した音声認識結果に改行を示す制御文字が含まれる場合、最後に表示した音声認識結果を消去せずに、改行してから、今回受信した音声認識結果の文字情報を表示する。音声認識結果に改行を示す制御文字が含まれることで、一連の音声データに対する音声認識結果が確定する。

Ｓ３０６では、文字配布部１１２は、記憶部１０４より、端末装置１００の使用言語の情報を取得する。さらに、文字配布部１１２は、記憶部１０４より、ＬＡＮ５００上の他の端末と共通に使用する標準言語の情報を取得する。標準言語の情報は、あらかじめ、記憶部１０４に格納されている。文字配布部１１２は、自身の端末装置１００の使用言語の情報と、標準言語との情報を比較して、使用言語と標準言語とが一致するか否かを判定する。自身の端末装置１００の使用言語と標準言語とが一致する場合（Ｓ３０６；ＹＥＳ）、処理がＳ３０９に進む。この場合、音声認識結果は翻訳されない。自身の端末装置１００の使用言語と標準言語とが異なる場合（Ｓ３０６；ＮＯ）、処理がＳ３０７に進む。標準言語は、例えば、英語である。

Ｓ３０７では、文字配布部１１２は、翻訳コマンド発行部１１６に、標準言語の情報と自身の端末装置１００の使用言語の情報及び今回受信した音声認識結果とを、翻訳コマンド発行部１１６に送信する。翻訳コマンド発行部１１６は、自身の端末装置１００の使用言語（第１言語）の情報及び今回受信した音声認識結果と標準言語（第２言語）の情報とを、文字配布部１１４から受信する。翻訳コマンド発行部１１６は、翻訳装置３００で翻訳をさせるための翻訳コマンドを生成（発行）して、通信部１２０を介して、翻訳装置３００に送信する。翻訳処理は、所定の辞書等に基づいて、第１言語の文字情報を、第２言語の文字情報に変換（翻訳）する処理である。翻訳コマンドは、通信部１２０からネットワーク４００を介して、翻訳装置３００に送信される。翻訳コマンドは、第１言語の文字情報を、第２言語の文字情報に翻訳することを指令するコマンドである。翻訳コマンドとともに、第１言語の情報、文字情報、第２言語の情報が送信される。翻訳コマンドとともに、端末装置１００のアドレスや端末装置１００を識別する識別子が送信されてもよい。

Ｓ３０８では、翻訳結果受付部１１８は、翻訳装置３００からの翻訳結果を、通信部１２０を介して、受信したか否かを判定する。受信した場合（Ｓ３０８；ＹＥＳ）、処理がＳ３０８に進む。受信していない場合（Ｓ３０８；ＮＯ）、処理がＳ３０１に戻る。

Ｓ３０９では、翻訳結果受付部１１８は、受信した翻訳結果を、記憶部１０４に格納する。翻訳結果受付部１１８は、受信した翻訳結果を、表示部１０２に表示させる。さらに、文字配布部１１２は、マルチキャスト通信により、所定のアドレスを指定して、ＬＡＮ５００上の他の端末装置に向けて、受信した翻訳結果及び標準言語の情報を、通信部１２０を介して、送信する。当該標準言語は、翻訳結果の文字情報の言語である。また、Ｓ３０６で標準言語と一致した場合（Ｓ３０６；ＹＥＳ）には、文字配布部１１２は、マルチキャスト通信により、所定のアドレスを指定して、ＬＡＮ５００上の他の端末装置に向けて、受信した音声認識結果及び標準言語の情報を、通信部１２０を介して、送信する。

Ｓ３１０では、端末装置１００は、本動作フローの動作を実現するアプリケーションにおいて、アプリケーションの終了が選択されたか否かを判定する。アプリケーションの終了には、端末装置１００自体の電源ＯＦＦが含まれる。終了が選択された場合（Ｓ３１０；ＹＥＳ）、動作フローの処理が終了する。終了が選択されていない場合（Ｓ３１０；ＮＯ）、処理がＳ３０１に戻る。

変形例２によると、端末装置１００は、第１言語で話された音声を、一旦、英語などの標準言語に翻訳して、ＬＡＮ５００上の他の端末に向けて送信する。また、標準言語の文
字情報を受信した他の端末では、図５の動作フローに従って、標準言語の文字情報から他の端末の使用言語に翻訳されて表示される。これにより、翻訳装置３００において、第１言語から第２言語への翻訳精度が低い場合であっても、第１言語から標準言語、標準言語から第２言語への翻訳精度が高ければ、結果的に、第１言語から第２言語への翻訳精度を高くすることができる。英語やフランス語のような汎用の言語を標準言語とすることで、どの言語からどの言語への翻訳でも翻訳精度を高めることができる。一般に、翻訳装置３００において、どの言語であっても汎用の言語との間の翻訳精度は高いと考えられるからである。また、第１言語から第２言語に翻訳する翻訳装置が存在しない場合であっても、第１言語から標準言語に、標準言語から第２言語に翻訳する翻訳装置が存在すれば、第１言語から第２言語への翻訳を実現することができる。これにより、すべての言語間で翻訳装置を用意しなくても、標準言語との間の翻訳装置さえ用意すれば、すべての言語間の翻訳を実現することができる。

（変形例３）
ここでは、音声入力した端末で、翻訳結果も表示する変形例について説明する。上記の例と共通部分については、説明を省略する。

〈端末装置の構成〉
図８は、変形例３の端末装置の機能ブロックの例を示す図である。図８の端末装置１１００は、表示部１１０２、記憶部１１０４、音声入力部１１０６、音声認識コマンド発行部１１０８、音声認識結果受付部１１１０、文字配布受付部１１１３、翻訳コマンド発行部１１１６、翻訳結果受付部１１１８、通信部１１２０を含む。

表示部１１０２は、端末装置１００の表示部１０２と同様である。記憶部１１０４は、端末装置１００の記憶部１０４と同様である。音声入力部１１０６は、端末装置１００の音声入力部１１０６と同様である。音声認識コマンド発行部１１０８は、端末装置１００の音声認識コマンド発行部１０８と同様である。音声認識結果受付部１１１０は、端末装置１００の音声認識結果受付部１１０と同様である。

文字配布受付部１１１３は、音声認識結果受付部１１１０から、音声認識結果を受信する。文字配布受付部１１１３は、受信した音声認識結果を記憶部１１０４に格納する。文字配布受付部１１１３は、受信した音声認識結果を表示部１１０２に表示させる。文字配布受付部１１１３は、記憶部１１０４より、端末装置１１００の使用言語の情報を取得する。文字配布受付部１１１３は、受信した音声認識結果及び使用言語の情報を、記憶部１０４に格納する。文字配布受付部１１１３は、翻訳コマンド発行部１１１６に、自身の端末の使用言語の情報と翻訳先の言語の情報及び音声認識結果とを、翻訳コマンド発行部１１６に送信する。

翻訳コマンド発行部１１１６は、端末装置１００の翻訳コマンド発行部１１６と同様である。翻訳結果受付部１１１８は、端末装置１００の翻訳結果受付部１１８と同様である。通信部１１２０は、端末装置１００の通信部１２０と同様である。
（変形例３の動作例）
図９は、変形例３の端末装置における音声入力の動作フローの例を示す図である。端末装置１００は、利用者によって使用されている。利用者は、端末装置１００に対する発声により音声入力を行う。図９の動作フローは、例えば、音声入力の１区間の長さである所定時間（例えば、２００ｍｓ）毎に実行される。

Ｓ４０１からＳ４０３までの動作は、図４のＳ１０１からＳ１０３までの動作と同様である。ここでは、説明を省略する。

Ｓ４０４では、音声認識結果受付部１１１０は、今回受信した音声認識結果と、記憶部１１０４に格納される前回受信した音声認識結果とを比較する。今回受信した音声結果と前回受信した音声認識結果とが同じである場合（Ｓ４０４；ＹＥＳ）、処理がＳ４０１に戻る。この場合、前回の音声認識結果に対してＳ４０５以降の処理が行われているため、同じ音声認識結果に対して同じ処理を行う必要が無いからである。また、音声認識結果に、文字情報が含まれない場合も、同様にする。文字情報が含まれない場合には、表示などの以後の処理を行う必要が無いからである。また、今回受信した音声結果と前回受信した音声認識結果とが異なる場合（Ｓ４０４；ＮＯ）、音声認識結果受付部１１１０は音声認識結果を文字配布受付部１１１３に送信し、処理がＳ４０５に進む。

Ｓ４０５では、文字配布受付部１１１３は、音声認識結果受付部１１１０から音声認識結果を受信する。文字配布受付部１１１３は、受信した音声認識結果を、今回の音声認識結果として、記憶部１１０４に格納する。この後、新たに音声認識結果が格納される際には、今回の音声認識結果は、前回の音声認識結果となる。文字配布受付部１１１３は、受信した音声認識結果を表示部１１０２に表示させる。このとき、文字配布受付部１１１３は、最後に表示した音声認識結果を消去してから、今回受信した音声認識結果の文字情報を表示する。即ち、表示される音声認識結果が更新される。ただし、文字配布受付部１１１３は、最後に表示した音声認識結果に改行を示す制御文字が含まれる場合、最後に表示した音声認識結果を消去せずに、改行してから、今回受信した音声認識結果の文字情報を表示する。音声認識結果に改行を示す制御文字が含まれることで、一連の音声データに対する音声認識結果が確定する。

Ｓ４０６では、文字配布受付部１１１３は、翻訳コマンド発行部１１１６に、標準言語の情報と自身の端末装置１１００の使用言語の情報及び今回受信した音声認識結果とを、翻訳コマンド発行部１１１６に送信する。翻訳コマンド発行部１１１６は、自身の端末装置１１００の使用言語（第１言語）の情報及び今回受信した音声認識結果と翻訳先の言語（第２言語）の情報とを、文字配布受付部１１１３から受信する。翻訳コマンド発行部１１１６は、翻訳装置３００で翻訳をさせるための翻訳コマンドを生成（発行）して、通信部１１２０を介して、翻訳装置３００に送信する。翻訳処理は、所定の辞書等に基づいて、第１言語の文字情報を、第２言語の文字情報に変換（翻訳）する処理である。翻訳コマンドは、通信部１１２０からネットワーク４００を介して、翻訳装置３００に送信される。翻訳コマンドは、第１言語の文字情報を、第２言語の文字情報に翻訳することを指令するコマンドである。翻訳コマンドとともに、第１言語の情報、文字情報、第２言語の情報が送信される。翻訳コマンドとともに、端末装置１１００のアドレスや端末装置１１００を識別する識別子が送信されてもよい。

Ｓ４０７では、翻訳結果受付部１１１８は、翻訳装置３００からの翻訳結果を、通信部１２０を介して、受信したか否かを判定する。受信した場合（Ｓ４０７；ＹＥＳ）、処理がＳ４０８に進む。受信していない場合（Ｓ４０７；ＮＯ）、処理がＳ４０１に戻る。

Ｓ４０８では、翻訳結果受付部１１１８は、受信した翻訳結果を、記憶部１１０４に格納する。翻訳結果受付部１１１８は、受信した翻訳結果を、表示部１１０２に表示させる。翻訳結果は、Ｓ４０５で表示した文字情報の近傍に表示させる。近傍に表示させることで、端末装置１００の利用者が翻訳前の文字情報と翻訳結果とを容易に比較することがで
きる。このとき、翻訳結果受付部１１１８は、Ｓ４０８で最後に表示した翻訳結果を消去してから、今回受信した翻訳結果を表示する。即ち、表示される翻訳結果が更新される。ただし、翻訳結果受付部１１１８は、Ｓ４０８で最後に表示した翻訳結果に改行を示す制御文字が含まれる場合、最後に表示した翻訳結果を消去せずに、改行してから、今回受信した翻訳結果を表示する。文字情報に改行を示す制御文字が含まれる場合、表示される文字情報は更新されない。

Ｓ４０９では、端末装置１１００は、本動作フローの動作を実現するアプリケーションにおいて、アプリケーションの終了が選択されたか否かを判定する。アプリケーションの終了には、端末装置１１００自体の電源ＯＦＦが含まれる。終了が選択された場合（Ｓ４０９；ＹＥＳ）、動作フローの処理が終了する。終了が選択されていない場合（Ｓ４０９；ＮＯ）、処理がＳ４０１に戻る。

ここでは、翻訳先の言語を第２言語の１言語としたが、翻訳先の言語が２言語以上存在してもよい。このとき、翻訳コマンド発行部１１１６は、複数の言語に翻訳するため、複数の翻訳コマンドを発行する。また、翻訳結果受付部１１１８は、複数言語の翻訳結果を、表示部１１０２に表示させる。変形例３によれば、端末装置１１００において、１つの言語で音声を入力することで、入力した言語の文字情報と、翻訳された言語の文字情報とが、表示される。例えば、駅などに設置されるデジタルサイネージ等を端末装置１１００とすれば、駅の放送などを入力音声とすることで、駅の放送が文字情報にされ、更に、リアルタイムで、他の言語に翻訳されて表示部に表示される。

本発明は、上述した実施の形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲内において変更したり組み合わせたりすることができる。

〈コンピュータ読み取り可能な記録媒体〉
コンピュータその他の機械、装置（以下、コンピュータ等）に上記いずれかの機能を実現させるプログラムをコンピュータ等が読み取り可能な記録媒体に記録することができる。そして、コンピュータ等に、この記録媒体のプログラムを読み込ませて実行させることにより、その機能を提供させることができる。

ここで、コンピュータ等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータ等から読み取ることができる記録媒体をいう。このような記録媒体内には、ＣＰＵ、メモリ等のコンピュータを構成する要素を設け、そのＣＰＵにプログラムを実行させてもよい。

また、このような記録媒体のうちコンピュータ等から取り外し可能なものとしては、例えばフレキシブルディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ／Ｗ、ＤＶＤ、ＤＡＴ、８mmテープ、メモリカード等がある。

また、コンピュータ等に固定された記録媒体としてハードディスクやＲＯＭ等がある。

１０翻訳システム
１００（Ａ、Ｂ）端末装置
１０２表示部
１０４記憶部
１０６音声入力部
１０８音声認識コマンド発行部
１１０音声認識結果受付部
１１２文字配布部
１１４文字受付部
１１６翻訳コマンド発行部
１１８翻訳結果受付部
１２０通信部
２００音声認識装置
３００翻訳装置
４００ネットワーク
５００ＬＡＮ

Claims

音声の入力を受け付ける音声入力部と、
所定時間毎に、前記音声入力部が受け付けた音声の音声データを前記音声入力部が以前に受け付けた音声の音声データと結合した結合音声データの音声を、第１言語の文字情報に変換することを、音声認識手段に指令する音声認識指令部と、
前記音声認識手段によって変換された前記第１言語の第１文字情報を受信する毎に、前記第１言語の第１文字情報を第２言語に翻訳することを、翻訳手段に指令する翻訳指令部と、
前記翻訳手段によって翻訳された前記第２言語の第１文字情報を、前記第１言語の第１文字情報とともに表示する表示部と
を備える端末装置。
コンピュータが、
音声の入力を受け付け、
所定時間毎に、受け付けた音声の音声データを以前に受け付けた音声の音声データと結合した結合音声データの音声を、第１言語の文字情報に変換することを、音声認識手段に指令し、
前記音声認識手段によって変換された前記第１言語の第１文字情報を受信する毎に、前記第１言語の第１文字情報を第２言語に翻訳することを、翻訳手段に指令し、
前記翻訳手段によって翻訳された前記第２言語の第１文字情報を、前記第１言語の第１文字情報とともに表示する
ことを実行する翻訳方法。
コンピュータが、
音声の入力を受け付け、
所定時間毎に、受け付けた音声の音声データを以前に受け付けた音声の音声データと結合した結合音声データの音声を、第１言語の文字情報に変換することを、音声認識手段に指令し、
前記音声認識手段によって変換された前記第１言語の第１文字情報を受信する毎に、前記第１言語の第１文字情報を第２言語に翻訳することを、翻訳手段に指令し、
前記翻訳手段によって翻訳された前記第２言語の第１文字情報を、前記第１言語の第１文字情報とともに表示する
ことを実行するための翻訳プログラム。