JP2015153408A

JP2015153408A - 翻訳システム、翻訳処理装置、及び翻訳処理プログラム

Info

Publication number: JP2015153408A
Application number: JP2014029919A
Authority: JP
Inventors: 智広島; Tomohiro Shima
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2014-02-19
Filing date: 2014-02-19
Publication date: 2015-08-24

Abstract

【課題】翻訳を介したコミュニケーションの精度を向上させる。【解決手段】音声データを文字情報に変換する音声認識部２１２と、翻訳先の言語の種別を設定する翻訳言語設定部１１２と、文字情報を翻訳先の言語を用いて翻訳し、翻訳後文字情報を生成する翻訳処理部２１３と、翻訳後文字情報を記憶媒体に記憶させる翻訳結果記憶処理部１１４と、翻訳後文字情報を生成された順に画面に表示する制御を行う表示制御部１１７と画面の表示を所定の方向に移動させるための操作を受け付ける操作部と、を備える。新たに翻訳後文字情報が生成されると画面に表示されている翻訳後文字情報のうち最初に生成された翻訳後文字情報を非表示にして新たに生成された翻訳後文字情報を表示するとともに、上記移動量に応じて画面に表示されている翻訳後文字情報のうち新しく生成された翻訳後文字情報から順に非表示にして、非表示となっている翻訳後文字情報を再度表示させる。【選択図】図３

Description

本発明は、翻訳システム、翻訳処理装置、及び翻訳処理プログラムに係り、特に音声データを翻訳して表示する技術に関する。

外国人とのコミュニケーションにおいて、言語の壁がコミュニケーションの障壁となっている。そこで、音声認識技術と自動翻訳技術により翻訳結果を文字情報として出力したり、音声合成して出力する自動翻訳技術が既に知られている。この自動翻訳技術の例として、特許文献１の情報処理装置が公知である。特許文献１の情報処理装置は、異なる言語を使用する者同士で円滑にコミュニケーションを図る目的で、翻訳元の言語と翻訳先の言語とを設定する設定手段を備え、音声データを取得し、取得された音声が翻訳すべき言語か否かを判断し、翻訳すべき言語と判断した場合には翻訳を行い、翻訳結果を示す文字情報を生成し、発話者などを映した映像信号にこの文字情報を重畳して出力する。これにより、例えば会議中における発言内容のように、予めその内容が決まっていない音声についての翻訳をリアルタイムで提供しつつ会議中の雰囲気も伝えることができる。

上記特許文献１によれば、翻訳結果を文字情報として出力することで異なる言語を使用する者同士のコミュニケーションを向上させることはできるが、翻訳結果を示す文字情報は映像信号と共に画面から消えてしまう。そのため、文字情報の読取りが遅れたり音声を聞き漏らしたりして理解が曖昧なところについて、再度翻訳結果（文字情報）を確認することができないという課題が残る。

本発明は、上記課題に鑑みてなされたものであり、翻訳を介したコミュニケーションの精度を向上させる翻訳システム、翻訳処理装置、及び翻訳処理プログラムを提供することを目的とする。

上記課題を解決するために、本発明に係る翻訳システムは、前記入力された音声データの翻訳処理を行う翻訳処理サーバと、を備えた翻訳システムであって、前記音声データを文字情報に変換して翻訳前文字情報を生成する音声認識部と、翻訳先の言語の種別を設定する翻訳言語設定部と、前記翻訳前文字情報を、前記翻訳先の言語を用いて翻訳し、翻訳後文字情報を生成する翻訳処理部と、前記翻訳後文字情報を記憶媒体に記憶させる翻訳結果記憶処理部と、前記翻訳後文字情報を、生成された順に画面に表示する制御を行う表示制御部と、前記画面の表示を所定の方向に移動させるための操作を受け付ける操作部と、を備え、前記表示制御部は、新たに翻訳後文字情報が生成された場合に、前記画面に表示されている前記翻訳後文字情報のうち最初に生成された前記翻訳後文字情報を非表示にして新たに生成された前記翻訳後文字情報を前記画面に表示させるように制御し、前記所定の方向に移動させるための操作が示す移動量に応じて、前記画面に表示されている前記翻訳後文字情報のうち新しく生成された前記翻訳後文字情報から順に非表示にして、非表示となっている前記翻訳後文字情報を再度表示させる、ことを特徴とする。

また、本発明に係る翻訳処理装置は、音声の入力を受け付けて、音声データを生成する音声入力部と、前記音声データを文字情報に変換して翻訳前文字情報を生成する音声認識部と、翻訳先の言語の種別を設定する翻訳言語設定部と、前記翻訳前文字情報を、前記翻訳先の言語を用いて翻訳し、翻訳後文字情報を生成する翻訳処理部と、前記翻訳後文字情報を記憶媒体に記憶させる翻訳結果記憶処理部と、前記翻訳後文字情報を、生成された順に画面に表示する制御を行う表示制御部と、前記画面の表示を所定の方向に移動させるための操作を受け付ける操作部と、を備え、前記表示制御部は、新たに翻訳後文字情報が生成された場合に、前記画面に表示されている前記翻訳後文字情報のうち最初に生成された前記翻訳後文字情報を非表示にして新たに生成された前記翻訳後文字情報を前記画面に表示させるように制御し、前記所定の方向に移動させるための操作が示す移動量に応じて、前記画面に表示されている前記翻訳後文字情報のうち新しく生成された前記翻訳後文字情報から順に非表示にして、非表示となっている前記翻訳後文字情報を再度表示させる、ことを特徴とする。

また、本発明に係る翻訳処理プログラムは、音声の入力を受け付けて、音声データを生成するステップと、前記音声データを文字情報に変換して翻訳前文字情報を生成するステップと、前記翻訳前文字情報を、あらかじめ設定された翻訳先の言語を用いて翻訳し、翻訳後文字情報を生成するステップと、前記翻訳後文字情報を記憶媒体に記憶させるステップと、前記翻訳後文字情報を、生成された順に画面に表示する制御を行うステップであって、新たに翻訳後文字情報が生成された場合に、前記画面に表示されている前記翻訳後文字情報のうち最初に生成された前記翻訳後文字情報を非表示にして新たに生成された前記翻訳後文字情報を前記画面に表示させるステップと、前記画面の表示を所定の方向に移動させるための操作を受け付けると、前記所定の方向に移動させるための操作が示す移動量に応じて、前記画面に表示されている前記翻訳後文字情報のうち新しく生成された前記翻訳後文字情報から順に非表示にして、非表示となっている前記翻訳後文字情報を再度表示させるステップと、をコンピュータに実行させることを特徴とする。

本発明によれば、翻訳を介したコミュニケーションの精度を向上させる翻訳システム、翻訳処理のための情報処理装置、及び翻訳処理プログラムを提供することができる。

本実施形態に係る翻訳処理システムの全体構成を示す図端末装置１００のハードウェア構成を示す図端末装置１００及びサーバ２００の機能構成を示す機能ブロック図端末装置１００に外部表示装置としてテレビ会議システムの本体装置を接続した状態を示す図外部表示装置としてのプロジェクタを端末装置に接続した状態を示す図外部表示装置としてＰＣのモニタを用い、各ＰＣを端末装置に接続した状態を示す図翻訳システムの処理の流れを示すフローチャート

以下、図面を参照して、本発明の実施形態を詳細に説明する。

図１は、本実施形態に係る翻訳処理システムの全体構成を示す図である。図１に示す翻訳処理システム１は、翻訳結果を表示する端末装置１００、及び音声を取得して翻訳処理を行い、翻訳結果を端末装置１００に送信する翻訳処理サーバ２００（以下「サーバ２００」と略記する）を、インターネットやＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）等のネットワーク３００を介して接続して構成される。

端末装置１００は、表示部１０１、音声入力部としてのマイク１０２及び音声データをライン入力するための音声入力端子１０３、映像入力端子１０４、及び映像出力端子１０５を含む。

映像入力端子１０４は、端末装置１００に接続される外部情報装置（例えばＰＣやテレビ会議システムの本体装置）から映像信号を入力するためのものである。また、映像出力端子１０５は、端末装置１００に接続される外部表示装置（例えばプロジェクタやテレビ会議システムのモニタ）に翻訳結果（翻訳後文字情報の場合とそれが記載された翻訳ファイル、また翻訳後文字情報を含む映像信号の場合がある）を出力するためのものである。従って、映像入力端子１０４及び映像出力端子１０５は、例えばＳ端子（Ｓ：Ｓｅｐａｒａｔｅの略）のような映像入出力端子に代えて、端末装置１００と外部表示装置との間で映像信号を有線／無線送受信する通信部により構成してもよい。

表示部１０１は、画面をスクロールさせる機能を備える。本実施形態では、画面上にスクロールバー１０６を備える。スクロールは、ユーザが画面をフリック動作（スクロールさせたい方向に画面を指ではじく動作）で実行してもよい。

ここで、音声認識の精度を上げる為に所望の音声以外の雑音を極力取り除く目的で、マイク１０２は指向性マイクを用いてもよい。更に、雑音を取り除き、音声認識の精度を向上させたい場合はワイヤレスマイクを利用し、トランスミッターを話者の近くに配置し、レシーバーを端末装置１００に備えてもよいし、音声入力端子１０３から音声データをライン入力してもよい。

更に端末装置１００は、端末装置１００の制御・動作を実行するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）を含むハードウェアからなる制御部１１０を備える。

また端末装置１００は、ネットワーク３００に通信接続するための通信部１０８を備える。通信部１０８は、無線接続又は有線接続のどちらの接続装置でもよい、また両方を備えて適宜使い分けてもよい。

サーバ２００は、音響モデルや単語辞書などのデータベース、音声認識機能や翻訳処理機能を実現する構成を備える。端末装置１００及びサーバ２００の詳細な機能構成については後述する。

次に図２を参照して、端末装置１００のハードウェア構成について説明する。図２は、端末装置１００のハードウェア構成を示す図である。図２に示すように、端末装置１００及びサーバ２００は、一般的なサーバやＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）等の情報処理端末と同様の構成を備える。まず、端末装置１００は、制御部１１０の構成としてＣＰＵ１０、ＲＡＭ１１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）１３、Ｉ／Ｆ１４、及びバス１８を含む。そして、制御部１１０は、ＣＰＵ１０、ＲＡＭ１１、ＲＯＭ１２、ＨＤＤ１３、及びＩ／Ｆ１４がバス１８を介して接続されて構成される。

更に制御部１１０は、Ｉ／Ｆ１４を介して、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）１５、操作部１６、マイク１０２、音声入力端子１０３、映像入力端子１０４、映像出力端子１０５、及びネットワーク３００と接続される。

ＣＰＵ１０は演算手段であり、端末装置１００全体の動作を制御する。

ＲＡＭ１１は、情報の高速な読み書きが可能な揮発性の記憶媒体であり、ＣＰＵ１０が情報を処理する際の作業領域として用いられる。端末装置１００においては、音声入力された音声データや翻訳後文字情報が一時的にＲＡＭ１１上に記憶される。従って、ＲＡＭ１１は、翻訳後文字情報を一時的に記憶する翻訳結果記憶部として機能する。端末装置１００に接続された外部表示装置に対して翻訳後文字情報が出力（転送）されると、ＲＡＭ１１上の翻訳後文字情報は削除される。

ＲＯＭ１２は、読み出し専用の不揮発性記憶媒体であり、ファームウェアや、本発明に用いられる翻訳処理プログラムが格納されている。なお、翻訳処理プログラムは、機能ブロック単位（モジュール単位）で端末装置とサーバとに分けて格納されてもよいし、単体の装置に全てのモジュールを搭載してもよい。

ＨＤＤ１３は、情報の読み書きが可能な不揮発性の記憶媒体であり、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）や各種の制御プログラム、アプリケーション・プログラム等が格納されている。

ＬＣＤ１５は、利用者が端末装置１００の状態を確認するための視覚的利用者インターフェースである。このＬＣＤ１５の画面に翻訳ファイルが表示される。従って、ＬＣＤ１５が表示部１０１（図１参照）に相当する。

操作部１６は、キーボードやＬＣＤ１５に積層されたタッチパネル（図示を省略）等、利用者が端末装置１００に情報を入力するための利用者インターフェースである。

このようなハードウェア構成において、ＲＯＭ１２やＨＤＤ１３若しくは図示しない光学ディスク等の記録媒体に格納されたプログラムがＲＡＭ１１に読み出され、ＣＰＵ１０の制御に従って動作することにより、ソフトウェア制御部が構成される。このようにして構成されたソフトウェア制御部と、ハードウェアとの組み合わせによって、本実施形態に係る端末装置１００の機能を実現する機能ブロックが構成される。

サーバ２００も図示は省略するものの、端末装置１００と同様にＣＰＵ、ＲＡＭ、ＲＯＭ、ＨＤＤ、Ｉ／Ｆ、及びバスを含み、ＣＰＵ、ＲＡＭ、ＲＯＭ、ＨＤＤ、及びＩ／Ｆがバスにより接続されて構成される制御部を備える。ＨＤＤには、後述する音響モデルや単語辞書など翻訳処理に必要なデータベース、及び翻訳処理を実行するための翻訳プログラムが格納される。そして、翻訳プログラムがＲＡＭに読み出され、ＣＰＵの制御に従って動作することにより、ソフトウェア制御部が構成される。このようにして構成されたソフトウェア制御部と、ハードウェアとの組み合わせによって、サーバ２００の機能を実現する機能ブロックが構成される。

次に図３を参照して端末装置１００及びサーバ２００の機能構成について説明する。図３は、端末装置１００及びサーバ２００の機能構成を示す機能ブロック図である。以下では、翻訳後文字情報を記録した翻訳ファイルを生成し、この翻訳ファイルを画面に表示する態様を主な例として説明するが、翻訳ファイルを生成することなく翻訳後文字情報を画面に表示する態様でも本発明を実現することができる。

端末装置１００の制御部１１０は、通信制御部１１１、翻訳言語設定部１１２、音声入力部１１３、翻訳ファイル記憶部１２２、映像信号入力部１１５、映像合成部１１６、表示制御部１１７、映像信号出力部１１８、出力先振分部１１９、翻訳ファイル消去部１２０、翻訳ファイル転送部１２１を備える。

通信制御部１１１は、端末装置１００とネットワーク３００とをＩ／Ｆ１４を介して無線・有線接続するための制御を行う。後述するサーバ２００の通信制御部と区別するために、以下、端末側通信制御部１１１という。端末側通信制御部１１１は、有線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、無線ＬＡＮへの通信接続制御方式の他、Ｂｌｕｅｔｏｏｔｈ、ＴｒａｎｆｅｒＪｅｔ、ＮＦＣ（Ｎｅａｒｆｉｅｌｄｃｏｍｍｕｎｉｃａｔｉｏｎ）等の近距離／短距離無線通信の通信制御方式にも対応し、サーバ２００との間でのデータ転送やプロジェクタやテレビ会議システムとのデータ転送、ＮＦＣタグに含まれる認証データや電子メールアドレス情報の取得・電子メール送信に用いられる。

翻訳言語設定部１１２は、翻訳対象となる音声データに用いられている言語の種別（以下「入力言語」という）と、翻訳先の言語の種別（以下「翻訳言語」という）とを操作部１６を介してユーザから入力設定を受け付ける。入力言語及び翻訳言語を示す情報（以下「翻訳言語設定情報」という）は、サーバ２００へ送信される。

音声入力部１１３は、マイク１０２や音声入力端子１０３から音声データの入力を受け付け、アナログデジタル変換処理を行い、音声データを生成する。

翻訳ファイル記憶処理部１１４は、記憶媒体からなる翻訳ファイル記憶部１２２にサーバ２００から送信された翻訳ファイルを記憶する処理を実行する。翻訳ファイルには翻訳後文字情報が含まれるので、翻訳ファイル記憶処理部１１４は翻訳結果記憶処理部に、翻訳ファイル記憶部１２２は翻訳結果記憶部に相当する。

映像信号入力部１１５は、端末装置１００に接続された外部映像出力装置、例えばテレビ会議システムから発話者を撮像した映像信号や、プロジェクタに表示するプレゼンテーション資料の映像の入力を受け付ける。

映像合成部１１６は、映像信号入力部１１５から入力された映像信号と、翻訳ファイル記憶部１２２に記憶された翻訳ファイルとを用いて、一つの画面に並列、又は重畳表示した合成映像信号を生成する。また、翻訳ファイルに代わり、翻訳後の文字情報がサーバ２００から送信される場合には、映像信号に翻訳後の文字情報を重畳表示した、所謂字幕データ付きの映像データを生成してもよい。

表示制御部１１７は、翻訳後文字情報を含む合成映像信号を、翻訳後文字情報が生成された順にＬＣＤ１５の画面に表示する制御を行う。具体的には、新たに翻訳後文字情報が生成された場合に、画面に表示されている翻訳後文字情報のうち最初に生成された前記翻訳後文字情報を非表示にして新たに生成された翻訳後文字情報を前記画面に表示させるように制御する。そして、所定の方向に移動させるための操作が示す移動量に応じて、画面に表示されている翻訳後文字情報のうち新しく生成された翻訳後文字情報から順に非表示にして、非表示となっている翻訳後文字情報を再度表示させる。ここで「新しく生成された翻訳後文字情報から順に非表示にして」には、画面上で非表示になっている翻訳後文字情報を順次遡って表示する場合と、表示中の翻訳後文字情報から移動量分遡った翻訳後文字情報に即時表示切替を行う場合、所謂画面をジャンプさせる場合との双方を含む。これにより、表示中の翻訳後文字情報から遡り非表示となっている翻訳後文字情報を再度表示させることができる。

映像信号出力部１１８は、端末装置１００に接続された外部表示装置、例えばプロジェクタやテレビ会議システムのモニタに対し、合成映像信号を出力（転送する）。映像信号出力部１１８はＨＤＭＩ（Ｈｉｇｈ−ＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）ケーブルの接続端子や、無線ＬＡＮを利用したデータ転送装置を用いて構成してもよい。従って、映像信号出力部１１８は、外部表示装置に対し、翻訳後文字情報を出力するものであるので、翻訳結果出力部に相当する。なお、本実施形態では、翻訳後文字情報を合成映像信号に含ませて出力する態様を例に挙げて説明するが、翻訳結果出力部が、翻訳後文字情報だけ、または翻訳前文字情報と併せて画面の所定の表示領域に出力するように構成してもよい。また、外部表示装置に翻訳ファイルや翻訳後文字情報を表示した場合には、外部表示装置に接続されたマウス、タッチパネルなどの入力装置を介して画面をスクロールし、遡って翻訳後文字情報を表示する。

出力先振分部１１９は、合成映像信号の出力先を表示制御部１１７又は映像信号出力部１１８のいずれかに振り分ける。出力先振分部１１９は、映像信号出力部１１８に外部表示装置が接続されていれば映像信号出力部１１８を合成映像信号の出力先として振り分ける。また、映像信号出力部１１８に外部表示装置が接続されていなければ表示制御部１１７を合成映像信号の出力先として振り分ける。。

翻訳ファイル消去部１２０は、後述する翻訳ファイル転送部１２１が翻訳ファイルを議事録作成に用いるための外部装置に転送し終わった後、翻訳ファイル記憶部１２２から消去する。これにより、翻訳ファイルを用いて議事録の作成が容易にできると共に、議事録の作成に不要な端末装置内の翻訳ファイルを削除することで端末装置から議事内容が漏えいすることを防止することができる。翻訳ファイルには翻訳後文字情報が含まれているので、翻訳ファイル消去部１２０は翻訳後文字情報を翻訳結果記憶部から消去する消去部に相当する。

翻訳ファイル転送部１２１は、操作部１６から入力されるファイル転送指示に従って、翻訳ファイルを電子メールに添付して転送する。翻訳ファイルには翻訳後文字情報が含まれるので、翻訳ファイル転送部１２１は翻訳後文字情報転送部に相当する。翻訳ファイル転送部１２１は、翻訳後文字情報を電子メールの本文に記載して転送するように構成してもよい。また、翻訳ファイル転送部１２１は、翻訳後文字情報と併せて翻訳前文字情報も転送する。これにより、翻訳前後の文字情報を比較して誤訳の検知をしやすくなる。

サーバ２００は、通信制御部２１１、音声認識部２１２、翻訳処理部２１３、翻訳ファイル生成部２１４、音響モデル２２１、言語モデル２２２、及び単語辞書２２３を含む。

音響モデル２２１は、入力言語として選択可能な言語の音声データを文字情報とを関連付けて格納する。

言語モデル２２２は、入力言語及び翻訳言語として選択可能な言語の文法ルール、例えば、品詞分解のルールや構文解析ルールを格納する。

単語辞書２２３は、入力言語及び翻訳言語として選択可能な言語に用いられる単語の意味及びテキスト情報を格納する。

通信制御部２１１は、サーバ２００とネットワーク３００とをＩ／Ｆ（不図示）を介して無線・有線接続するための制御を行う。端末側通信制御部１１１と区別するために、以下、サーバ側通信制御部２１１という。サーバ側通信制御部２１１は、翻訳言語設定情報及び音声データを端末装置１００から受信する。

音声認識部２１２は、音響モデル２２１を参照しつつ音声データに基づいて音声解析処理を行い、音声データを文字情報に変換する。この文字情報が翻訳対象となるので、翻訳前文字情報、所謂、原文に相当する。

翻訳処理部２１３は、音声認識部２１２で変換された文字情報に対して言語モデル２２２及び単語辞書２２３を参照して品詞分解処理及び構文解析処理を実行する。そして入力言語の文字情報を翻訳言語の文字情報に変換（翻訳処理に相当）する。

翻訳ファイル生成部２１４は、翻訳後のテストデータを随時ファイルに追記する。このファイルを翻訳ファイルという。翻訳ファイルは、サーバ側通信制御部２１１を介して端末装置１００に送信される。

図４を参照して、端末装置１００に外部表示装置としてテレビ会議システムのモニタに接続した例について説明する。図４は端末装置１００に外部表示装置としてテレビ会議システムの本体装置を接続した状態を示す図である。

図４に示すように、端末装置１００に外部表示装置としてのテレビ会議システムの本体装置４００を有線接続する。本体装置４００は、カメラ４１０とモニタ４５０とを備える。カメラ４１０は、本体装置４００に対向する利用者を撮像して映像信号を生成する。映像信号は、端末装置１００の映像信号入力部１１５へ入力される。

そして、端末装置１００の映像合成部１１６においてカメラ４１０が生成した映像信号とサーバ２００から受信した翻訳ファイルとを合成し、映像信号出力部１１８からモニタ４５０へ出力する。

モニタ４５０の画面には、翻訳ファイルの表示領域４５１、カメラ４１０が撮像した映像信号の表示領域４５２、及び会議中の資料が表示される表示領域４５３が含まれる。表示領域４５１、４５２が合成映像信号の表示領域に相当する。

本体装置４００のユーザが図示しない操作部、例えばモニタ４５０の画面上、より詳しくは、翻訳ファイルの表示領域４５１に積層されたタッチパネルをフリックしたりスクロールしたりすることにより、表示領域４５１からはみ出して非表示となっている翻訳後文字情報が遡って表示される。また、画面の表示を所定の方向に移動させるための操作は、スクロールやフリック操作の他、移動量を入力させるための操作ボタンを画面とは別途用意し、このボタンを押し下げる時間と移動量とを対応させる構成にしてもよく、移動量を入力するための操作は、上記に限定されない。

また、端末装置１００から本体装置４００に合成映像信号の送信を完了した時点で、翻訳ファイル消去部１２０が翻訳ファイル記憶部１２２から翻訳ファイルを消去する。これにより、端末装置１００を紛失した場合にも会議の内容が外部に漏洩することを回避することができる。

また、翻訳ファイル転送部１２１は、ユーザが翻訳ファイルの消去前に操作部１６からファイル転送指示を入力すると、翻訳ファイル記憶部１２２に記憶した翻訳ファイルを所望の電子メールアドレス先にファイル添付を行って転送してもよい。また、翻訳ファイルではなく翻訳後文字情報を表示する態様では、翻訳後文字情報を電子メール本文に記載して電子メールアドレス先に転送してもよい。この転送に際し、送信先の電子メールアドレスを操作部１６から入力、或いは選択してもよい。また、利用者認証を行い、サーバ２００から送信先のアドレスを端末装置１００にダウンロードしてもよい。例えば社員証などのカード１５０に、その社員の個人情報と電子メールアドレスとを関連付けたアドレス帳を格納しておく。そして、端末装置１００に外付けしたカードリーダ１４０からカード１５０の個人情報を読み取ってアドレス帳から電子メールを読み出して転送先として設定してもよい。これにより、端末装置１００内の翻訳ファイル記憶部１２２に記憶した翻訳ファイルを所望の場所に転送することで、議事録作成が容易になる。なお、カードリーダは外付けである必要はなく、端末装置１００が備えるカードリーダ機能（例えばＮＦＣタグのリーダ機能）を用いてもよい。ここでいう端末装置１００には、例えばスマートフォンやタブレット端末がありうる。

図５を参照して、外部表示装置としてのプロジェクタを端末装置に接続した例について説明する。図５は、外部表示装置としてのプロジェクタを端末装置に接続した状態を示す図である。

プレゼンテーションに際しては、ＰＣ５５０は、プロジェクタ５００で表示（投影）したいデータを出力する。この時、映像データを端末装置１００の映像入力端子１０４から入力し、端末装置１００でＰＣ５５０内のプレゼンテーション用のコンテンツ５２２に対し、翻訳前文字情報及び翻訳後文字情報を既述した字幕データを合成する。そして、端末装置１００の映像出力端子１０５にプロジェクタ５００を接続することで、プロジェクタ５００の投影面５２０上でコンテンツ５２２に字幕データ５２１を重畳して表示させてもよい。

これにより、会議の参加者はプレゼンテーションのコンテンツから大きく視線を移動させることなく、異なる言語でのプレゼンターの説明を理解することができるのでプレゼンテーションや会議におけるコミュニケーションを向上させることができる。

図６を参照して、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）とＷｅｂブラウザ（ＷｏｒｌｄＷｉｄｅＷｅｂ）を利用した翻訳システムの構成例について説明する。図６は、外部表示装置としてＰＣのモニタを用い、各ＰＣを端末装置に接続した状態を示す図である。

端末装置１００及び複数のＰＣ６００−１、６００−２は、ＨＴＭＬで記述された文書を参照可能なＷｅｂブラウザ機能を備え、ＪａｖａＳｃｒｉｐｔで記述されたクライアント機能を実行する。また、各ＰＣはサーバ２００に通信接続される。本例では、各ＰＣとサーバ２００とをＷｅｂｓｏｋｅｔプロトコルで双方向接続をしておくことで、翻訳ファイル生成部２１４が新たにＨＴＭＬファイルを生成した場合、端末装置１００からサーバ２００にポーリングすることなくＷｅｂブラウザの更新表示を行うこととする。

また、翻訳システム１にユーザ単位でログイン認証を行うログイン認証機能部を備える。そして、翻訳システム１にログインしたユーザだけがＷｅｂブラウザから上記ＨＴＭＬファイルを参照するように構成してもよい。これにより、ＨＴＭＬのＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を知っている他のユーザが会議の内容を知ることを防ぐことができる。

図６の翻訳システムでは、話者が話した音声データは、端末装置１００のマイク１０２から入力される。その音声データはネットワーク３００経由で、サーバ２００に転送される。転送された音声データはサーバ２００で音声認識処理及び翻訳処理が施され、音声認識された翻訳前文字情報と翻訳後文字情報とがＨＴＭＬファイルに書き込まれる。

サーバ２００から各ＰＣに対してＨＴＭＬファイルが配信され、各ＰＣのＷｅｂブラウザによりモニタ上にＨＴＭＬファイルが表示される。この画面上でスクロールバーやフリック操作を行うと、非表示となっているＨＴＭＬファイルが表示されて、再度表示された翻訳後文字情報を確認することができる。

この態様によれば、対面形式の会議において、プロジェクタや大型ディスプレイといった表示装置が無い場合においても、専用のソフトをインストールすることなく、また、各自がブラウザの更新ボタンを押下する必要もなく、既存のブラウザ機能を使って複数のメンバーで対訳データを共有することで、プレゼンテーションや会議におけるコミュニケーションを向上させることができる。また、会議参加者の個々のディスプレイ（例えばノートＰＣ、タブレット、スマートフォン等）を利用し、各ディスプレイに対応した操作部を備えることで、複数のディスプレイのそれぞれに含まれる画面毎に、当該画面の表示を所定の方向に移動させるための操作を受け付けて、他の画面から独立して表示を移動させることができる。これにより、各自が、他者が用いるディスプレイの表示状態に影響を与えることなく、自分のディスプレイ上において会議の過去の発話内容を確認することができる。

次に図７を参照して、本実施形態に係る翻訳システムの処理の流れについて説明する。図７は、翻訳システムの処理の流れを示すフローチャートである。

ユーザが翻訳言語設定部１１２で指定した入力言語と翻訳言語を設定すると、これらを示す翻訳言語設定情報がサーバ２００に送信される。サーバ２００は翻訳言語設定情報に基づき、参照すべき音響モデル２２１や言語モデル２２２、単語辞書２２３を設定する（Ｓ７０１）。

尚、翻訳言語設定部１１２での設定は、ユーザが情報処理装置から明示的に設定してもよいし、ＮＦＣなどを用いた認証手段を基に、認証結果から設定してもよいし、入力された音声情報から翻訳言語設定部１１２が判断してもよい。この場合翻訳言語設定部は、音声認識機能を有することとなる。

音声入力部１１３から入力された音声データを、音声認識部２１２に送り、音声認識部２１２は、ステップＳ７０１で設定された入力言語と翻訳言語の設定に基づき、音響モデルを参照し、音声信号を文字情報に変換する（Ｓ７０２）。この文字情報が翻訳前文字情報に相当する。

翻訳処理部２１３は、ステップＳ７０１で設定された入力言語と翻訳言語の設定に基づき、言語モデル２２２及び単語辞書２２３データを参照し、ステップＳ７０３で生成された翻訳前文字情報を翻訳し、翻訳後文字情報を生成する（Ｓ７０３）
表示制御部１１７にＷｅｂブラウザを利用している構成においては（Ｓ７０４／Ｙｅｓ）、翻訳ファイル生成部２１４がＨＴＭＬファイルを生成し、翻訳前文字情報及び翻訳後文字情報の両方を追記する（Ｓ７０５）。マークアップ言語はＨＴＭＬに限定されず、ＸＨＴＭＬ（ＥｘｔｅｎｓｉｂｌｅＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）でもよい。

翻訳ファイル生成部２１４は翻訳ファイルの追記を完了すると、端末装置１００の表示制御部１１７にその旨通知する（Ｓ７０６）。端末装置１００は、翻訳ファイル生成部２１４から追記が完了した翻訳ファイル（ＨＴＭＬファイル）を受信し、翻訳ファイル記憶処理部１１４が翻訳ファイル記憶部１２２に記憶させる。

翻訳ファイルを合成した映像入力がある場合（Ｓ７０７／Ｙｅｓ）、即ち、映像信号入力部１１５に映像信号が入力されている場合、映像合成部１１６は、翻訳ファイル記憶部１２２に格納された翻訳ファイルと、映像信号入力部１１５から入力される映像信号とを合成して合成映像信号を生成する（Ｓ７０８）。

出力先振分部１１９は、映像信号出力部１１８に外部表示装置が接続されているか否かを振分基準として、合成映像信号の出力先を振り分ける。これにより、ＬＣＤ１５又は外部表示装置の画面に合成映像信号が表示される。合成映像信号がリアルタイムで生成されることで画面表示は常に最新の状態に更新表示される（Ｓ７０９）。

また画面上でユーザが画面のスクロール指示の入力操作を行うと、画面がスクロールし、画面からはみ出して非表示となっているＨＴＭＬファイルが表示される。これにより、ユーザがさかのぼって翻訳前文字情報及び翻訳後文字情報を確認することができる。

翻訳ファイルを転送する場合（Ｓ７１０）、例えば会議終了後、会議の内容の再確認や議事録作成の為に、上記文字情報を利用したい場合は、カード１５０の読込動作を行い、転送先を設定して翻訳ファイルを転送する（Ｓ７１１）。転送先の設定は、カード１５０から電子メールアドレスを読込んで設定してもよいし、端末装置１００やサーバ２００に予め登録したアドレス帳を参照しもよい。

ステップＳ７０４においてＷｅｂブラウザを利用していない場合、翻訳前文字情報及び翻訳後文字情報を端末装置１００に送信する（Ｓ７１２）。そしてステップＳ７０７へ進み、翻訳前文字情報及び翻訳後文字情報を合成したい映像信号があれば（Ｓ７０７／Ｙｅｓ）、翻訳ファイルに代えて翻訳前文字情報及び翻訳後文字情報を合成する（Ｓ７０８）。以下、翻訳ファイルを翻訳前文字情報及び翻訳後文字情報に読み替えて、翻訳ファイルと同様の処理を実行する。なお、表示制御部１１７にｗｅｂブラウザを使用していなくても、翻訳ファイル記憶部１２２に代わる記憶装置に翻訳前文字情報及び翻訳後文字情報を保存しておき、画面のスクロール量に応じて遡った翻訳前文字情報及び翻訳後文字情報を読み出し、表示することで、一旦は非表示となった翻訳前文字情報及び翻訳後文字情報を再度視認することができ、翻訳テキスト文を確認することができる。

ステップＳ７０７において、合成したい映像入力がない場合（Ｓ７０７／Ｎｏ）、ステップＳ７０９へ進み表示の更新を行う（Ｓ７０９）。

ステップＳ７０９において、翻訳ファイル（翻訳前、後文字情報の場合もある）の転送が不要で、かつ翻訳処理を続行する場合には（Ｓ７１３／Ｎｏ）、ステップＳ７０２へ戻り音声データの入力を待機する。また、処理を終了する場合には（Ｓ７１３／Ｙｅｓ）、翻訳ファイル（翻訳前文字情報及び翻訳後文字情報の場合もある）の転送をすることなく処理を終了する。

本実施形態によれば、話者が話した入力言語（例えば英語）は、端末装置の音声入力部から入力され、音声データはネットワーク経由で、サーバに転送される。転送された音声データはサーバにおいて、音声認識された英語の文字情報とそれを翻訳言語（例えば日本語）に翻訳された文字情報が生成され、端末装置に転送される。端末装置では、会話が進むに連れ、上記２つの文字情報が併せて順次表示される。上記文字情報は端末装置内のメモリに保存され、スクロール機能を利用することで時間を遡って文字情報を確認することができる。これにより、会議や海外出張などにおいて、異なる言語を使用する者とのコミュニケーションする際に、誤訳によるミスリードを回避しつつ、聞き漏らした内容をその場で確認することで、コミュニケーションを向上させることができる。

上記実施形態では、端末装置１００とサーバ２００との間で音声データを送受信したが、端末装置１００にサーバ２００に搭載した機能、すなわち、音声認識部２１２、翻訳処理部２１３、翻訳ファイル生成部２１４、音響モデル２２１、言語モデル２２２、及び単語辞書２２３を実装してもよい。これにより、端末装置１００を、音声の入力から翻訳後文字情報の表示を単体で行える翻訳処理装置として構成することができる。この場合、ネットワークを介した通信が不要となるので端末側通信制御部及びサーバ側通信制御部が不要となる。そのため、ネットワーク上を音声データや翻訳ファイル、翻訳前後の文字情報を転送させることで生じるレイテンシーが小さくなり、音声入力から翻訳結果の表示までの応答時間を短くすることができる。

また、上記実施形態では、翻訳前、後の文字情報を並べて表示したが、翻訳後の文字情報のみを表示するように選択できる手段を設けてもよい。例えば、翻訳前の文字情報を読んでも全く分からない言語の場合、翻訳前の文字情報を非表示とすることで、サーバから端末装置へのデータ転送量を減らすことができる。この場合も、翻訳後の文字情報を参照することで、文脈が逸れた翻訳文（会話）を見つけ発話者に対して真意を問うことができ、コミュニケーションの向上に起用することができる。

また図４のテレビ会議システムでは、端末装置１００と本体装置４００とを別体に構成したが、本体装置４００に端末装置１００の機能、即ち、通信制御部１１１、翻訳言語設定部１１２、翻訳ファイル記憶部１２２、及び表示制御部１１７を備えてもよい。この場合、本体装置４００が翻訳システム１の端末装置に相当する。そして、テレビ会議システムの基本機能として備えている音声入力部、映像信号入力部、映像信号出力部を用いて翻訳対象となる音声データの入力、及び映像信号の入出力を行ってもよい。

この場合、サーバ２００に映像合成部１１６に相当する機能を搭載し、本体装置４００から音声データ及び合成したい映像信号をサーバ２００に送信し、サーバ２００合成映像信号を生成してもよい。そして、合成映像信号を、テレビ会議システムの本体装置４００に配信するように構成してもよい。本体装置４００を複数の拠点に設置することで、複数拠点に対して翻訳前、後のテキスト文が形成された映像を配信することができ、複数拠点での対訳データの共有、更には発話者自身が自身の話した内容が正しく音声認識されているかを確認できるので、プレゼンテーションや会議におけるコミュニケーションを向上させることができる。

１：翻訳システム
１０：ＣＰＵ
１１：ＲＡＭ
１２：ＲＯＭ
１３：ＨＤＤ
１４：ＩＦ
１５：ＬＣＤ
１６：操作部
１８：バス
１００：端末装置
１０１：表示部
１０２：マイク
１０３：音声入力端子
１０４：映像入力端子
１０５：映像出力端子
１０６：スクロールバー
１０８：通信部
１１０：制御部
１１１：端末側通信制御部
１１２：翻訳言語設定部
１１３：音声入力部
１１４：翻訳ファイル記憶部
１１５：映像信号入力部
１１６：映像合成部
１１７：表示制御部
１１８：映像信号出力部
１１９：出力先振分部
１２０：翻訳ファイル消去部
１２１：翻訳ファイル転送部
２００：サーバ（翻訳処理サーバ）
２１１：サーバ側通信制御部
２１２：音声認識部
２１３：翻訳処理部
２１４：翻訳ファイル生成部
２２１：音響モデル
２２２：言語モデル
２２３：単語辞書
４００：本体装置
４１０：カメラ
４５０モニタ
４５１、４５２、４５３：表示領域
５００：プロジェクタ
５２０：投影面
５２１：字幕データ
５２２：コンテンツ
５５０、６００−１、６００−２

特開２０１０−１２８７６６号公報

Claims

音声入力を受け付けて音声データを生成する端末装置と、前記入力された音声データの翻訳処理を行う翻訳処理サーバと、を備えた翻訳システムであって、
前記音声データを文字情報に変換して翻訳前文字情報を生成する音声認識部と、
翻訳先の言語の種別を設定する翻訳言語設定部と、
前記翻訳前文字情報を、前記翻訳先の言語を用いて翻訳し、翻訳後文字情報を生成する翻訳処理部と、
前記翻訳後文字情報を記憶媒体に記憶させる翻訳結果記憶処理部と、
前記翻訳後文字情報を、生成された順に画面に表示する制御を行う表示制御部と、
前記画面の表示を所定の方向に移動させるための操作を受け付ける操作部と、
を備え、
前記表示制御部は、
新たに翻訳後文字情報が生成された場合に、前記画面に表示されている前記翻訳後文字情報のうち最初に生成された前記翻訳後文字情報を非表示にして新たに生成された前記翻訳後文字情報を前記画面に表示させるように制御し、
前記所定の方向に移動させるための操作が示す移動量に応じて、前記画面に表示されている前記翻訳後文字情報のうち新しく生成された前記翻訳後文字情報から順に非表示にして、非表示となっている前記翻訳後文字情報を再度表示させる、
ことを特徴とする翻訳システム。
前記表示制御部は、前記翻訳前文字情報、及びそれに対応する翻訳後文字情報を並べて表示する、
ことを特徴とする請求項１に記載の翻訳システム。
前記端末装置に接続された外部表示装置に対し、前記翻訳後文字情報を出力する翻訳結果出力部と、
を更に備えることを特徴とする請求項１又は２に記載の翻訳システム。
前記翻訳結果出力部は、複数の前記外部表示装置に対して、前記翻訳後文字情報を出力し、
前記操作部は前記外部表示装置毎に備えられ、当該外部表示装置に備えられた前記操作部は、当該外部表示装置に含まれる画面の表示を所定の方向に移動させるための操作を受け付ける、
ことを特徴とする請求項３に記載の翻訳システム。
前記端末装置は、外部から映像信号の入力を受け付ける映像信号入力部と、
前記映像信号及び前記翻訳後文字情報を合成した合成映像信号を生成する映像合成部と、
を更に備えることを特徴とする請求項３又は４に記載の翻訳システム。
前記翻訳後文字情報を記述した翻訳ファイルを生成し、新たに前記翻訳後文字情報が生成されると前記翻訳ファイルに追記する翻訳ファイル生成部を更に備え、
前記表示制御部は、前記翻訳ファイルに含まれる前記翻訳後文字情報を前記画面に表示する、
ことを特徴とする請求項１乃至５のいずれか一つに記載の翻訳システム。
前記翻訳後文字情報を電子メールにより転送する翻訳後文字情報転送部と、
前記転送後の翻訳後文字情報を、前記記憶媒体から消去する消去部と、
を更に備える、
ことを特徴とする請求項１乃至６のいずれか一つに記載の翻訳システム。
音声の入力を受け付けて、音声データを生成する音声入力部と
前記音声データを文字情報に変換して翻訳前文字情報を生成する音声認識部と、
翻訳先の言語の種別を設定する翻訳言語設定部と、
前記翻訳前文字情報を、前記翻訳先の言語を用いて翻訳し、翻訳後文字情報を生成する翻訳処理部と、
前記翻訳後文字情報を記憶媒体に記憶させる翻訳結果記憶処理部と、
前記翻訳後文字情報を、生成された順に画面に表示する制御を行う表示制御部と、
前記画面の表示を所定の方向に移動させるための操作を受け付ける操作部と、
を備え、
前記表示制御部は、
新たに翻訳後文字情報が生成された場合に、前記画面に表示されている前記翻訳後文字情報のうち最初に生成された前記翻訳後文字情報を非表示にして新たに生成された前記翻訳後文字情報を前記画面に表示させるように制御し、
前記所定の方向に移動させるための操作が示す移動量に応じて、前記画面に表示されている前記翻訳後文字情報のうち新しく生成された前記翻訳後文字情報から順に非表示にして、非表示となっている前記翻訳後文字情報を再度表示させる、
ことを特徴とする翻訳処理装置。
音声の入力を受け付けて、音声データを生成するステップと、
前記音声データを文字情報に変換して翻訳前文字情報を生成するステップと、
前記翻訳前文字情報を、あらかじめ設定された翻訳先の言語を用いて翻訳し、翻訳後文字情報を生成するステップと、
前記翻訳後文字情報を記憶媒体に記憶させるステップと、
前記翻訳後文字情報を、生成された順に画面に表示する制御を行うステップであって、新たに翻訳後文字情報が生成された場合に、前記画面に表示されている前記翻訳後文字情報のうち最初に生成された前記翻訳後文字情報を非表示にして新たに生成された前記翻訳後文字情報を前記画面に表示させるステップと、
前記画面の表示を所定の方向に移動させるための操作を受け付けると、前記所定の方向に移動させるための操作が示す移動量に応じて、前記画面に表示されている前記翻訳後文字情報のうち新しく生成された前記翻訳後文字情報から順に非表示にして、非表示となっている前記翻訳後文字情報を再度表示させるステップと、
をコンピュータに実行させることを特徴とする翻訳処理プログラム。