JP2015153408A - 翻訳システム、翻訳処理装置、及び翻訳処理プログラム - Google Patents

翻訳システム、翻訳処理装置、及び翻訳処理プログラム Download PDF

Info

Publication number
JP2015153408A
JP2015153408A JP2014029919A JP2014029919A JP2015153408A JP 2015153408 A JP2015153408 A JP 2015153408A JP 2014029919 A JP2014029919 A JP 2014029919A JP 2014029919 A JP2014029919 A JP 2014029919A JP 2015153408 A JP2015153408 A JP 2015153408A
Authority
JP
Japan
Prior art keywords
translation
character information
post
unit
screen
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014029919A
Other languages
English (en)
Inventor
智広 島
Tomohiro Shima
智広 島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2014029919A priority Critical patent/JP2015153408A/ja
Publication of JP2015153408A publication Critical patent/JP2015153408A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】翻訳を介したコミュニケーションの精度を向上させる。【解決手段】音声データを文字情報に変換する音声認識部212と、翻訳先の言語の種別を設定する翻訳言語設定部112と、文字情報を翻訳先の言語を用いて翻訳し、翻訳後文字情報を生成する翻訳処理部213と、翻訳後文字情報を記憶媒体に記憶させる翻訳結果記憶処理部114と、翻訳後文字情報を生成された順に画面に表示する制御を行う表示制御部117と画面の表示を所定の方向に移動させるための操作を受け付ける操作部と、を備える。新たに翻訳後文字情報が生成されると画面に表示されている翻訳後文字情報のうち最初に生成された翻訳後文字情報を非表示にして新たに生成された翻訳後文字情報を表示するとともに、上記移動量に応じて画面に表示されている翻訳後文字情報のうち新しく生成された翻訳後文字情報から順に非表示にして、非表示となっている翻訳後文字情報を再度表示させる。【選択図】図3

Description

本発明は、翻訳システム、翻訳処理装置、及び翻訳処理プログラムに係り、特に音声データを翻訳して表示する技術に関する。
外国人とのコミュニケーションにおいて、言語の壁がコミュニケーションの障壁となっている。そこで、音声認識技術と自動翻訳技術により翻訳結果を文字情報として出力したり、音声合成して出力する自動翻訳技術が既に知られている。この自動翻訳技術の例として、特許文献1の情報処理装置が公知である。特許文献1の情報処理装置は、異なる言語を使用する者同士で円滑にコミュニケーションを図る目的で、翻訳元の言語と翻訳先の言語とを設定する設定手段を備え、音声データを取得し、取得された音声が翻訳すべき言語か否かを判断し、翻訳すべき言語と判断した場合には翻訳を行い、翻訳結果を示す文字情報を生成し、発話者などを映した映像信号にこの文字情報を重畳して出力する。これにより、例えば会議中における発言内容のように、予めその内容が決まっていない音声についての翻訳をリアルタイムで提供しつつ会議中の雰囲気も伝えることができる。
上記特許文献1によれば、翻訳結果を文字情報として出力することで異なる言語を使用する者同士のコミュニケーションを向上させることはできるが、翻訳結果を示す文字情報は映像信号と共に画面から消えてしまう。そのため、文字情報の読取りが遅れたり音声を聞き漏らしたりして理解が曖昧なところについて、再度翻訳結果(文字情報)を確認することができないという課題が残る。
本発明は、上記課題に鑑みてなされたものであり、翻訳を介したコミュニケーションの精度を向上させる翻訳システム、翻訳処理装置、及び翻訳処理プログラムを提供することを目的とする。
上記課題を解決するために、本発明に係る翻訳システムは、前記入力された音声データの翻訳処理を行う翻訳処理サーバと、を備えた翻訳システムであって、前記音声データを文字情報に変換して翻訳前文字情報を生成する音声認識部と、翻訳先の言語の種別を設定する翻訳言語設定部と、前記翻訳前文字情報を、前記翻訳先の言語を用いて翻訳し、翻訳後文字情報を生成する翻訳処理部と、前記翻訳後文字情報を記憶媒体に記憶させる翻訳結果記憶処理部と、前記翻訳後文字情報を、生成された順に画面に表示する制御を行う表示制御部と、前記画面の表示を所定の方向に移動させるための操作を受け付ける操作部と、を備え、前記表示制御部は、新たに翻訳後文字情報が生成された場合に、前記画面に表示されている前記翻訳後文字情報のうち最初に生成された前記翻訳後文字情報を非表示にして新たに生成された前記翻訳後文字情報を前記画面に表示させるように制御し、前記所定の方向に移動させるための操作が示す移動量に応じて、前記画面に表示されている前記翻訳後文字情報のうち新しく生成された前記翻訳後文字情報から順に非表示にして、非表示となっている前記翻訳後文字情報を再度表示させる、ことを特徴とする。
また、本発明に係る翻訳処理装置は、音声の入力を受け付けて、音声データを生成する音声入力部と、前記音声データを文字情報に変換して翻訳前文字情報を生成する音声認識部と、翻訳先の言語の種別を設定する翻訳言語設定部と、前記翻訳前文字情報を、前記翻訳先の言語を用いて翻訳し、翻訳後文字情報を生成する翻訳処理部と、前記翻訳後文字情報を記憶媒体に記憶させる翻訳結果記憶処理部と、前記翻訳後文字情報を、生成された順に画面に表示する制御を行う表示制御部と、前記画面の表示を所定の方向に移動させるための操作を受け付ける操作部と、を備え、前記表示制御部は、新たに翻訳後文字情報が生成された場合に、前記画面に表示されている前記翻訳後文字情報のうち最初に生成された前記翻訳後文字情報を非表示にして新たに生成された前記翻訳後文字情報を前記画面に表示させるように制御し、前記所定の方向に移動させるための操作が示す移動量に応じて、前記画面に表示されている前記翻訳後文字情報のうち新しく生成された前記翻訳後文字情報から順に非表示にして、非表示となっている前記翻訳後文字情報を再度表示させる、ことを特徴とする。
また、本発明に係る翻訳処理プログラムは、音声の入力を受け付けて、音声データを生成するステップと、前記音声データを文字情報に変換して翻訳前文字情報を生成するステップと、前記翻訳前文字情報を、あらかじめ設定された翻訳先の言語を用いて翻訳し、翻訳後文字情報を生成するステップと、前記翻訳後文字情報を記憶媒体に記憶させるステップと、前記翻訳後文字情報を、生成された順に画面に表示する制御を行うステップであって、新たに翻訳後文字情報が生成された場合に、前記画面に表示されている前記翻訳後文字情報のうち最初に生成された前記翻訳後文字情報を非表示にして新たに生成された前記翻訳後文字情報を前記画面に表示させるステップと、前記画面の表示を所定の方向に移動させるための操作を受け付けると、前記所定の方向に移動させるための操作が示す移動量に応じて、前記画面に表示されている前記翻訳後文字情報のうち新しく生成された前記翻訳後文字情報から順に非表示にして、非表示となっている前記翻訳後文字情報を再度表示させるステップと、をコンピュータに実行させることを特徴とする。
本発明によれば、翻訳を介したコミュニケーションの精度を向上させる翻訳システム、翻訳処理のための情報処理装置、及び翻訳処理プログラムを提供することができる。
本実施形態に係る翻訳処理システムの全体構成を示す図 端末装置100のハードウェア構成を示す図 端末装置100及びサーバ200の機能構成を示す機能ブロック図 端末装置100に外部表示装置としてテレビ会議システムの本体装置を接続した状態を示す図 外部表示装置としてのプロジェクタを端末装置に接続した状態を示す図 外部表示装置としてPCのモニタを用い、各PCを端末装置に接続した状態を示す図 翻訳システムの処理の流れを示すフローチャート
以下、図面を参照して、本発明の実施形態を詳細に説明する。
図1は、本実施形態に係る翻訳処理システムの全体構成を示す図である。図1に示す翻訳処理システム1は、翻訳結果を表示する端末装置100、及び音声を取得して翻訳処理を行い、翻訳結果を端末装置100に送信する翻訳処理サーバ200(以下「サーバ200」と略記する)を、インターネットやLAN(Local Area Network)等のネットワーク300を介して接続して構成される。
端末装置100は、表示部101、音声入力部としてのマイク102及び音声データをライン入力するための音声入力端子103、映像入力端子104、及び映像出力端子105を含む。
映像入力端子104は、端末装置100に接続される外部情報装置(例えばPCやテレビ会議システムの本体装置)から映像信号を入力するためのものである。また、映像出力端子105は、端末装置100に接続される外部表示装置(例えばプロジェクタやテレビ会議システムのモニタ)に翻訳結果(翻訳後文字情報の場合とそれが記載された翻訳ファイル、また翻訳後文字情報を含む映像信号の場合がある)を出力するためのものである。従って、映像入力端子104及び映像出力端子105は、例えばS端子(S:Separateの略)のような映像入出力端子に代えて、端末装置100と外部表示装置との間で映像信号を有線/無線送受信する通信部により構成してもよい。
表示部101は、画面をスクロールさせる機能を備える。本実施形態では、画面上にスクロールバー106を備える。スクロールは、ユーザが画面をフリック動作(スクロールさせたい方向に画面を指ではじく動作)で実行してもよい。
ここで、音声認識の精度を上げる為に所望の音声以外の雑音を極力取り除く目的で、マイク102は指向性マイクを用いてもよい。更に、雑音を取り除き、音声認識の精度を向上させたい場合はワイヤレスマイクを利用し、トランスミッターを話者の近くに配置し、レシーバーを端末装置100に備えてもよいし、音声入力端子103から音声データをライン入力してもよい。
更に端末装置100は、端末装置100の制御・動作を実行するCPU(Central Processing Unit)やRAM(Random Access Memory)を含むハードウェアからなる制御部110を備える。
また端末装置100は、ネットワーク300に通信接続するための通信部108を備える。通信部108は、無線接続又は有線接続のどちらの接続装置でもよい、また両方を備えて適宜使い分けてもよい。
サーバ200は、音響モデルや単語辞書などのデータベース、音声認識機能や翻訳処理機能を実現する構成を備える。端末装置100及びサーバ200の詳細な機能構成については後述する。
次に図2を参照して、端末装置100のハードウェア構成について説明する。図2は、端末装置100のハードウェア構成を示す図である。図2に示すように、端末装置100及びサーバ200は、一般的なサーバやPC(Personal Computer)等の情報処理端末と同様の構成を備える。まず、端末装置100は、制御部110の構成としてCPU10、RAM11、ROM(Read Only Memory)12、HDD(Hard Disk Drive)13、I/F14、及びバス18を含む。そして、制御部110は、CPU10、RAM11、ROM12、HDD13、及びI/F14がバス18を介して接続されて構成される。
更に制御部110は、I/F14を介して、LCD(Liquid Crystal Display)15、操作部16、マイク102、音声入力端子103、映像入力端子104、映像出力端子105、及びネットワーク300と接続される。
CPU10は演算手段であり、端末装置100全体の動作を制御する。
RAM11は、情報の高速な読み書きが可能な揮発性の記憶媒体であり、CPU10が情報を処理する際の作業領域として用いられる。端末装置100においては、音声入力された音声データや翻訳後文字情報が一時的にRAM11上に記憶される。従って、RAM11は、翻訳後文字情報を一時的に記憶する翻訳結果記憶部として機能する。端末装置100に接続された外部表示装置に対して翻訳後文字情報が出力(転送)されると、RAM11上の翻訳後文字情報は削除される。
ROM12は、読み出し専用の不揮発性記憶媒体であり、ファームウェアや、本発明に用いられる翻訳処理プログラムが格納されている。なお、翻訳処理プログラムは、機能ブロック単位(モジュール単位)で端末装置とサーバとに分けて格納されてもよいし、単体の装置に全てのモジュールを搭載してもよい。
HDD13は、情報の読み書きが可能な不揮発性の記憶媒体であり、OS(Operating System)や各種の制御プログラム、アプリケーション・プログラム等が格納されている。
LCD15は、利用者が端末装置100の状態を確認するための視覚的利用者インターフェースである。このLCD15の画面に翻訳ファイルが表示される。従って、LCD15が表示部101(図1参照)に相当する。
操作部16は、キーボードやLCD15に積層されたタッチパネル(図示を省略)等、利用者が端末装置100に情報を入力するための利用者インターフェースである。
このようなハードウェア構成において、ROM12やHDD13若しくは図示しない光学ディスク等の記録媒体に格納されたプログラムがRAM11に読み出され、CPU10の制御に従って動作することにより、ソフトウェア制御部が構成される。このようにして構成されたソフトウェア制御部と、ハードウェアとの組み合わせによって、本実施形態に係る端末装置100の機能を実現する機能ブロックが構成される。
サーバ200も図示は省略するものの、端末装置100と同様にCPU、RAM、ROM、HDD、I/F、及びバスを含み、CPU、RAM、ROM、HDD、及びI/Fがバスにより接続されて構成される制御部を備える。HDDには、後述する音響モデルや単語辞書など翻訳処理に必要なデータベース、及び翻訳処理を実行するための翻訳プログラムが格納される。そして、翻訳プログラムがRAMに読み出され、CPUの制御に従って動作することにより、ソフトウェア制御部が構成される。このようにして構成されたソフトウェア制御部と、ハードウェアとの組み合わせによって、サーバ200の機能を実現する機能ブロックが構成される。
次に図3を参照して端末装置100及びサーバ200の機能構成について説明する。図3は、端末装置100及びサーバ200の機能構成を示す機能ブロック図である。以下では、翻訳後文字情報を記録した翻訳ファイルを生成し、この翻訳ファイルを画面に表示する態様を主な例として説明するが、翻訳ファイルを生成することなく翻訳後文字情報を画面に表示する態様でも本発明を実現することができる。
端末装置100の制御部110は、通信制御部111、翻訳言語設定部112、音声入力部113、翻訳ファイル記憶部122、映像信号入力部115、映像合成部116、表示制御部117、映像信号出力部118、出力先振分部119、翻訳ファイル消去部120、翻訳ファイル転送部121を備える。
通信制御部111は、端末装置100とネットワーク300とをI/F14を介して無線・有線接続するための制御を行う。後述するサーバ200の通信制御部と区別するために、以下、端末側通信制御部111という。端末側通信制御部111は、有線LAN(Local Area Network)、無線LANへの通信接続制御方式の他、Bluetooth、TranferJet、NFC(Near field communication)等の近距離/短距離無線通信の通信制御方式にも対応し、サーバ200との間でのデータ転送やプロジェクタやテレビ会議システムとのデータ転送、NFCタグに含まれる認証データや電子メールアドレス情報の取得・電子メール送信に用いられる。
翻訳言語設定部112は、翻訳対象となる音声データに用いられている言語の種別(以下「入力言語」という)と、翻訳先の言語の種別(以下「翻訳言語」という)とを操作部16を介してユーザから入力設定を受け付ける。入力言語及び翻訳言語を示す情報(以下「翻訳言語設定情報」という)は、サーバ200へ送信される。
音声入力部113は、マイク102や音声入力端子103から音声データの入力を受け付け、アナログデジタル変換処理を行い、音声データを生成する。
翻訳ファイル記憶処理部114は、記憶媒体からなる翻訳ファイル記憶部122にサーバ200から送信された翻訳ファイルを記憶する処理を実行する。翻訳ファイルには翻訳後文字情報が含まれるので、翻訳ファイル記憶処理部114は翻訳結果記憶処理部に、翻訳ファイル記憶部122は翻訳結果記憶部に相当する。
映像信号入力部115は、端末装置100に接続された外部映像出力装置、例えばテレビ会議システムから発話者を撮像した映像信号や、プロジェクタに表示するプレゼンテーション資料の映像の入力を受け付ける。
映像合成部116は、映像信号入力部115から入力された映像信号と、翻訳ファイル記憶部122に記憶された翻訳ファイルとを用いて、一つの画面に並列、又は重畳表示した合成映像信号を生成する。また、翻訳ファイルに代わり、翻訳後の文字情報がサーバ200から送信される場合には、映像信号に翻訳後の文字情報を重畳表示した、所謂字幕データ付きの映像データを生成してもよい。
表示制御部117は、翻訳後文字情報を含む合成映像信号を、翻訳後文字情報が生成された順にLCD15の画面に表示する制御を行う。具体的には、新たに翻訳後文字情報が生成された場合に、画面に表示されている翻訳後文字情報のうち最初に生成された前記翻訳後文字情報を非表示にして新たに生成された翻訳後文字情報を前記画面に表示させるように制御する。そして、所定の方向に移動させるための操作が示す移動量に応じて、画面に表示されている翻訳後文字情報のうち新しく生成された翻訳後文字情報から順に非表示にして、非表示となっている翻訳後文字情報を再度表示させる。ここで「新しく生成された翻訳後文字情報から順に非表示にして」には、画面上で非表示になっている翻訳後文字情報を順次遡って表示する場合と、表示中の翻訳後文字情報から移動量分遡った翻訳後文字情報に即時表示切替を行う場合、所謂画面をジャンプさせる場合との双方を含む。これにより、表示中の翻訳後文字情報から遡り非表示となっている翻訳後文字情報を再度表示させることができる。
映像信号出力部118は、端末装置100に接続された外部表示装置、例えばプロジェクタやテレビ会議システムのモニタに対し、合成映像信号を出力(転送する)。映像信号出力部118はHDMI(High−Definition Multimedia Interface)ケーブルの接続端子や、無線LANを利用したデータ転送装置を用いて構成してもよい。従って、映像信号出力部118は、外部表示装置に対し、翻訳後文字情報を出力するものであるので、翻訳結果出力部に相当する。なお、本実施形態では、翻訳後文字情報を合成映像信号に含ませて出力する態様を例に挙げて説明するが、翻訳結果出力部が、翻訳後文字情報だけ、または翻訳前文字情報と併せて画面の所定の表示領域に出力するように構成してもよい。また、外部表示装置に翻訳ファイルや翻訳後文字情報を表示した場合には、外部表示装置に接続されたマウス、タッチパネルなどの入力装置を介して画面をスクロールし、遡って翻訳後文字情報を表示する。
出力先振分部119は、合成映像信号の出力先を表示制御部117又は映像信号出力部118のいずれかに振り分ける。出力先振分部119は、映像信号出力部118に外部表示装置が接続されていれば映像信号出力部118を合成映像信号の出力先として振り分ける。また、映像信号出力部118に外部表示装置が接続されていなければ表示制御部117を合成映像信号の出力先として振り分ける。。
翻訳ファイル消去部120は、後述する翻訳ファイル転送部121が翻訳ファイルを議事録作成に用いるための外部装置に転送し終わった後、翻訳ファイル記憶部122から消去する。これにより、翻訳ファイルを用いて議事録の作成が容易にできると共に、議事録の作成に不要な端末装置内の翻訳ファイルを削除することで端末装置から議事内容が漏えいすることを防止することができる。翻訳ファイルには翻訳後文字情報が含まれているので、翻訳ファイル消去部120は翻訳後文字情報を翻訳結果記憶部から消去する消去部に相当する。
翻訳ファイル転送部121は、操作部16から入力されるファイル転送指示に従って、翻訳ファイルを電子メールに添付して転送する。翻訳ファイルには翻訳後文字情報が含まれるので、翻訳ファイル転送部121は翻訳後文字情報転送部に相当する。翻訳ファイル転送部121は、翻訳後文字情報を電子メールの本文に記載して転送するように構成してもよい。また、翻訳ファイル転送部121は、翻訳後文字情報と併せて翻訳前文字情報も転送する。これにより、翻訳前後の文字情報を比較して誤訳の検知をしやすくなる。
サーバ200は、通信制御部211、音声認識部212、翻訳処理部213、翻訳ファイル生成部214、音響モデル221、言語モデル222、及び単語辞書223を含む。
音響モデル221は、入力言語として選択可能な言語の音声データを文字情報とを関連付けて格納する。
言語モデル222は、入力言語及び翻訳言語として選択可能な言語の文法ルール、例えば、品詞分解のルールや構文解析ルールを格納する。
単語辞書223は、入力言語及び翻訳言語として選択可能な言語に用いられる単語の意味及びテキスト情報を格納する。
通信制御部211は、サーバ200とネットワーク300とをI/F(不図示)を介して無線・有線接続するための制御を行う。端末側通信制御部111と区別するために、以下、サーバ側通信制御部211という。サーバ側通信制御部211は、翻訳言語設定情報及び音声データを端末装置100から受信する。
音声認識部212は、音響モデル221を参照しつつ音声データに基づいて音声解析処理を行い、音声データを文字情報に変換する。この文字情報が翻訳対象となるので、翻訳前文字情報、所謂、原文に相当する。
翻訳処理部213は、音声認識部212で変換された文字情報に対して言語モデル222及び単語辞書223を参照して品詞分解処理及び構文解析処理を実行する。そして入力言語の文字情報を翻訳言語の文字情報に変換(翻訳処理に相当)する。
翻訳ファイル生成部214は、翻訳後のテストデータを随時ファイルに追記する。このファイルを翻訳ファイルという。翻訳ファイルは、サーバ側通信制御部211を介して端末装置100に送信される。
図4を参照して、端末装置100に外部表示装置としてテレビ会議システムのモニタに接続した例について説明する。図4は端末装置100に外部表示装置としてテレビ会議システムの本体装置を接続した状態を示す図である。
図4に示すように、端末装置100に外部表示装置としてのテレビ会議システムの本体装置400を有線接続する。本体装置400は、カメラ410とモニタ450とを備える。カメラ410は、本体装置400に対向する利用者を撮像して映像信号を生成する。映像信号は、端末装置100の映像信号入力部115へ入力される。
そして、端末装置100の映像合成部116においてカメラ410が生成した映像信号とサーバ200から受信した翻訳ファイルとを合成し、映像信号出力部118からモニタ450へ出力する。
モニタ450の画面には、翻訳ファイルの表示領域451、カメラ410が撮像した映像信号の表示領域452、及び会議中の資料が表示される表示領域453が含まれる。表示領域451、452が合成映像信号の表示領域に相当する。
本体装置400のユーザが図示しない操作部、例えばモニタ450の画面上、より詳しくは、翻訳ファイルの表示領域451に積層されたタッチパネルをフリックしたりスクロールしたりすることにより、表示領域451からはみ出して非表示となっている翻訳後文字情報が遡って表示される。また、画面の表示を所定の方向に移動させるための操作は、スクロールやフリック操作の他、移動量を入力させるための操作ボタンを画面とは別途用意し、このボタンを押し下げる時間と移動量とを対応させる構成にしてもよく、移動量を入力するための操作は、上記に限定されない。
また、端末装置100から本体装置400に合成映像信号の送信を完了した時点で、翻訳ファイル消去部120が翻訳ファイル記憶部122から翻訳ファイルを消去する。これにより、端末装置100を紛失した場合にも会議の内容が外部に漏洩することを回避することができる。
また、翻訳ファイル転送部121は、ユーザが翻訳ファイルの消去前に操作部16からファイル転送指示を入力すると、翻訳ファイル記憶部122に記憶した翻訳ファイルを所望の電子メールアドレス先にファイル添付を行って転送してもよい。また、翻訳ファイルではなく翻訳後文字情報を表示する態様では、翻訳後文字情報を電子メール本文に記載して電子メールアドレス先に転送してもよい。この転送に際し、送信先の電子メールアドレスを操作部16から入力、或いは選択してもよい。また、利用者認証を行い、サーバ200から送信先のアドレスを端末装置100にダウンロードしてもよい。例えば社員証などのカード150に、その社員の個人情報と電子メールアドレスとを関連付けたアドレス帳を格納しておく。そして、端末装置100に外付けしたカードリーダ140からカード150の個人情報を読み取ってアドレス帳から電子メールを読み出して転送先として設定してもよい。これにより、端末装置100内の翻訳ファイル記憶部122に記憶した翻訳ファイルを所望の場所に転送することで、議事録作成が容易になる。なお、カードリーダは外付けである必要はなく、端末装置100が備えるカードリーダ機能(例えばNFCタグのリーダ機能)を用いてもよい。ここでいう端末装置100には、例えばスマートフォンやタブレット端末がありうる。
図5を参照して、外部表示装置としてのプロジェクタを端末装置に接続した例について説明する。図5は、外部表示装置としてのプロジェクタを端末装置に接続した状態を示す図である。
プレゼンテーションに際しては、PC550は、プロジェクタ500で表示(投影)したいデータを出力する。この時、映像データを端末装置100の映像入力端子104から入力し、端末装置100でPC550内のプレゼンテーション用のコンテンツ522に対し、翻訳前文字情報及び翻訳後文字情報を既述した字幕データを合成する。そして、端末装置100の映像出力端子105にプロジェクタ500を接続することで、プロジェクタ500の投影面520上でコンテンツ522に字幕データ521を重畳して表示させてもよい。
これにより、会議の参加者はプレゼンテーションのコンテンツから大きく視線を移動させることなく、異なる言語でのプレゼンターの説明を理解することができるのでプレゼンテーションや会議におけるコミュニケーションを向上させることができる。
図6を参照して、HTML(HyperText Markup Language)とWebブラウザ(World Wide Web)を利用した翻訳システムの構成例について説明する。図6は、外部表示装置としてPCのモニタを用い、各PCを端末装置に接続した状態を示す図である。
端末装置100及び複数のPC600−1、600−2は、HTMLで記述された文書を参照可能なWebブラウザ機能を備え、JavaScriptで記述されたクライアント機能を実行する。また、各PCはサーバ200に通信接続される。本例では、各PCとサーバ200とをWebsoketプロトコルで双方向接続をしておくことで、翻訳ファイル生成部214が新たにHTMLファイルを生成した場合、端末装置100からサーバ200にポーリングすることなくWebブラウザの更新表示を行うこととする。
また、翻訳システム1にユーザ単位でログイン認証を行うログイン認証機能部を備える。そして、翻訳システム1にログインしたユーザだけがWebブラウザから上記HTMLファイルを参照するように構成してもよい。これにより、HTMLのURL(Uniform Resource Locator)を知っている他のユーザが会議の内容を知ることを防ぐことができる。
図6の翻訳システムでは、話者が話した音声データは、端末装置100のマイク102から入力される。その音声データはネットワーク300経由で、サーバ200に転送される。転送された音声データはサーバ200で音声認識処理及び翻訳処理が施され、音声認識された翻訳前文字情報と翻訳後文字情報とがHTMLファイルに書き込まれる。
サーバ200から各PCに対してHTMLファイルが配信され、各PCのWebブラウザによりモニタ上にHTMLファイルが表示される。この画面上でスクロールバーやフリック操作を行うと、非表示となっているHTMLファイルが表示されて、再度表示された翻訳後文字情報を確認することができる。
この態様によれば、対面形式の会議において、プロジェクタや大型ディスプレイといった表示装置が無い場合においても、専用のソフトをインストールすることなく、また、各自がブラウザの更新ボタンを押下する必要もなく、既存のブラウザ機能を使って複数のメンバーで対訳データを共有することで、プレゼンテーションや会議におけるコミュニケーションを向上させることができる。また、会議参加者の個々のディスプレイ(例えばノートPC、タブレット、スマートフォン等)を利用し、各ディスプレイに対応した操作部を備えることで、複数のディスプレイのそれぞれに含まれる画面毎に、当該画面の表示を所定の方向に移動させるための操作を受け付けて、他の画面から独立して表示を移動させることができる。これにより、各自が、他者が用いるディスプレイの表示状態に影響を与えることなく、自分のディスプレイ上において会議の過去の発話内容を確認することができる。
次に図7を参照して、本実施形態に係る翻訳システムの処理の流れについて説明する。図7は、翻訳システムの処理の流れを示すフローチャートである。
ユーザが翻訳言語設定部112で指定した入力言語と翻訳言語を設定すると、これらを示す翻訳言語設定情報がサーバ200に送信される。サーバ200は翻訳言語設定情報に基づき、参照すべき音響モデル221や言語モデル222、単語辞書223を設定する(S701)。
尚、翻訳言語設定部112での設定は、ユーザが情報処理装置から明示的に設定してもよいし、NFCなどを用いた認証手段を基に、認証結果から設定してもよいし、入力された音声情報から翻訳言語設定部112が判断してもよい。この場合翻訳言語設定部は、音声認識機能を有することとなる。
音声入力部113から入力された音声データを、音声認識部212に送り、音声認識部212は、ステップS701で設定された入力言語と翻訳言語の設定に基づき、音響モデルを参照し、音声信号を文字情報に変換する(S702)。この文字情報が翻訳前文字情報に相当する。
翻訳処理部213は、ステップS701で設定された入力言語と翻訳言語の設定に基づき、言語モデル222及び単語辞書223データを参照し、ステップS703で生成された翻訳前文字情報を翻訳し、翻訳後文字情報を生成する(S703)
表示制御部117にWebブラウザを利用している構成においては(S704/Yes)、翻訳ファイル生成部214がHTMLファイルを生成し、翻訳前文字情報及び翻訳後文字情報の両方を追記する(S705)。マークアップ言語はHTMLに限定されず、XHTML(Extensible HyperText Markup Language)でもよい。
翻訳ファイル生成部214は翻訳ファイルの追記を完了すると、端末装置100の表示制御部117にその旨通知する(S706)。端末装置100は、翻訳ファイル生成部214から追記が完了した翻訳ファイル(HTMLファイル)を受信し、翻訳ファイル記憶処理部114が翻訳ファイル記憶部122に記憶させる。
翻訳ファイルを合成した映像入力がある場合(S707/Yes)、即ち、映像信号入力部115に映像信号が入力されている場合、映像合成部116は、翻訳ファイル記憶部122に格納された翻訳ファイルと、映像信号入力部115から入力される映像信号とを合成して合成映像信号を生成する(S708)。
出力先振分部119は、映像信号出力部118に外部表示装置が接続されているか否かを振分基準として、合成映像信号の出力先を振り分ける。これにより、LCD15又は外部表示装置の画面に合成映像信号が表示される。合成映像信号がリアルタイムで生成されることで画面表示は常に最新の状態に更新表示される(S709)。
また画面上でユーザが画面のスクロール指示の入力操作を行うと、画面がスクロールし、画面からはみ出して非表示となっているHTMLファイルが表示される。これにより、ユーザがさかのぼって翻訳前文字情報及び翻訳後文字情報を確認することができる。
翻訳ファイルを転送する場合(S710)、例えば会議終了後、会議の内容の再確認や議事録作成の為に、上記文字情報を利用したい場合は、カード150の読込動作を行い、転送先を設定して翻訳ファイルを転送する(S711)。転送先の設定は、カード150から電子メールアドレスを読込んで設定してもよいし、端末装置100やサーバ200に予め登録したアドレス帳を参照しもよい。
ステップS704においてWebブラウザを利用していない場合、翻訳前文字情報及び翻訳後文字情報を端末装置100に送信する(S712)。そしてステップS707へ進み、翻訳前文字情報及び翻訳後文字情報を合成したい映像信号があれば(S707/Yes)、翻訳ファイルに代えて翻訳前文字情報及び翻訳後文字情報を合成する(S708)。以下、翻訳ファイルを翻訳前文字情報及び翻訳後文字情報に読み替えて、翻訳ファイルと同様の処理を実行する。なお、表示制御部117にwebブラウザを使用していなくても、翻訳ファイル記憶部122に代わる記憶装置に翻訳前文字情報及び翻訳後文字情報を保存しておき、画面のスクロール量に応じて遡った翻訳前文字情報及び翻訳後文字情報を読み出し、表示することで、一旦は非表示となった翻訳前文字情報及び翻訳後文字情報を再度視認することができ、翻訳テキスト文を確認することができる。
ステップS707において、合成したい映像入力がない場合(S707/No)、ステップS709へ進み表示の更新を行う(S709)。
ステップS709において、翻訳ファイル(翻訳前、後文字情報の場合もある)の転送が不要で、かつ翻訳処理を続行する場合には(S713/No)、ステップS702へ戻り音声データの入力を待機する。また、処理を終了する場合には(S713/Yes)、翻訳ファイル(翻訳前文字情報及び翻訳後文字情報の場合もある)の転送をすることなく処理を終了する。
本実施形態によれば、話者が話した入力言語(例えば英語)は、端末装置の音声入力部から入力され、音声データはネットワーク経由で、サーバに転送される。転送された音声データはサーバにおいて、音声認識された英語の文字情報とそれを翻訳言語(例えば日本語)に翻訳された文字情報が生成され、端末装置に転送される。端末装置では、会話が進むに連れ、上記2つの文字情報が併せて順次表示される。上記文字情報は端末装置内のメモリに保存され、スクロール機能を利用することで時間を遡って文字情報を確認することができる。これにより、会議や海外出張などにおいて、異なる言語を使用する者とのコミュニケーションする際に、誤訳によるミスリードを回避しつつ、聞き漏らした内容をその場で確認することで、コミュニケーションを向上させることができる。
上記実施形態では、端末装置100とサーバ200との間で音声データを送受信したが、端末装置100にサーバ200に搭載した機能、すなわち、音声認識部212、翻訳処理部213、翻訳ファイル生成部214、音響モデル221、言語モデル222、及び単語辞書223を実装してもよい。これにより、端末装置100を、音声の入力から翻訳後文字情報の表示を単体で行える翻訳処理装置として構成することができる。この場合、ネットワークを介した通信が不要となるので端末側通信制御部及びサーバ側通信制御部が不要となる。そのため、ネットワーク上を音声データや翻訳ファイル、翻訳前後の文字情報を転送させることで生じるレイテンシーが小さくなり、音声入力から翻訳結果の表示までの応答時間を短くすることができる。
また、上記実施形態では、翻訳前、後の文字情報を並べて表示したが、翻訳後の文字情報のみを表示するように選択できる手段を設けてもよい。例えば、翻訳前の文字情報を読んでも全く分からない言語の場合、翻訳前の文字情報を非表示とすることで、サーバから端末装置へのデータ転送量を減らすことができる。この場合も、翻訳後の文字情報を参照することで、文脈が逸れた翻訳文(会話)を見つけ発話者に対して真意を問うことができ、コミュニケーションの向上に起用することができる。
また図4のテレビ会議システムでは、端末装置100と本体装置400とを別体に構成したが、本体装置400に端末装置100の機能、即ち、通信制御部111、翻訳言語設定部112、翻訳ファイル記憶部122、及び表示制御部117を備えてもよい。この場合、本体装置400が翻訳システム1の端末装置に相当する。そして、テレビ会議システムの基本機能として備えている音声入力部、映像信号入力部、映像信号出力部を用いて翻訳対象となる音声データの入力、及び映像信号の入出力を行ってもよい。
この場合、サーバ200に映像合成部116に相当する機能を搭載し、本体装置400から音声データ及び合成したい映像信号をサーバ200に送信し、サーバ200合成映像信号を生成してもよい。そして、合成映像信号を、テレビ会議システムの本体装置400に配信するように構成してもよい。本体装置400を複数の拠点に設置することで、複数拠点に対して翻訳前、後のテキスト文が形成された映像を配信することができ、複数拠点での対訳データの共有、更には発話者自身が自身の話した内容が正しく音声認識されているかを確認できるので、プレゼンテーションや会議におけるコミュニケーションを向上させることができる。
1:翻訳システム
10:CPU
11:RAM
12:ROM
13:HDD
14:IF
15:LCD
16:操作部
18:バス
100:端末装置
101:表示部
102:マイク
103:音声入力端子
104:映像入力端子
105:映像出力端子
106:スクロールバー
108:通信部
110:制御部
111:端末側通信制御部
112:翻訳言語設定部
113:音声入力部
114:翻訳ファイル記憶部
115:映像信号入力部
116:映像合成部
117:表示制御部
118:映像信号出力部
119:出力先振分部
120:翻訳ファイル消去部
121:翻訳ファイル転送部
200:サーバ(翻訳処理サーバ)
211:サーバ側通信制御部
212:音声認識部
213:翻訳処理部
214:翻訳ファイル生成部
221:音響モデル
222:言語モデル
223:単語辞書
400:本体装置
410:カメラ
450モニタ
451、452、453:表示領域
500:プロジェクタ
520:投影面
521:字幕データ
522:コンテンツ
550、600−1、600−2
特開2010−128766号公報

Claims (9)

  1. 音声入力を受け付けて音声データを生成する端末装置と、前記入力された音声データの翻訳処理を行う翻訳処理サーバと、を備えた翻訳システムであって、
    前記音声データを文字情報に変換して翻訳前文字情報を生成する音声認識部と、
    翻訳先の言語の種別を設定する翻訳言語設定部と、
    前記翻訳前文字情報を、前記翻訳先の言語を用いて翻訳し、翻訳後文字情報を生成する翻訳処理部と、
    前記翻訳後文字情報を記憶媒体に記憶させる翻訳結果記憶処理部と、
    前記翻訳後文字情報を、生成された順に画面に表示する制御を行う表示制御部と、
    前記画面の表示を所定の方向に移動させるための操作を受け付ける操作部と、
    を備え、
    前記表示制御部は、
    新たに翻訳後文字情報が生成された場合に、前記画面に表示されている前記翻訳後文字情報のうち最初に生成された前記翻訳後文字情報を非表示にして新たに生成された前記翻訳後文字情報を前記画面に表示させるように制御し、
    前記所定の方向に移動させるための操作が示す移動量に応じて、前記画面に表示されている前記翻訳後文字情報のうち新しく生成された前記翻訳後文字情報から順に非表示にして、非表示となっている前記翻訳後文字情報を再度表示させる、
    ことを特徴とする翻訳システム。
  2. 前記表示制御部は、前記翻訳前文字情報、及びそれに対応する翻訳後文字情報を並べて表示する、
    ことを特徴とする請求項1に記載の翻訳システム。
  3. 前記端末装置に接続された外部表示装置に対し、前記翻訳後文字情報を出力する翻訳結果出力部と、
    を更に備えることを特徴とする請求項1又は2に記載の翻訳システム。
  4. 前記翻訳結果出力部は、複数の前記外部表示装置に対して、前記翻訳後文字情報を出力し、
    前記操作部は前記外部表示装置毎に備えられ、当該外部表示装置に備えられた前記操作部は、当該外部表示装置に含まれる画面の表示を所定の方向に移動させるための操作を受け付ける、
    ことを特徴とする請求項3に記載の翻訳システム。
  5. 前記端末装置は、外部から映像信号の入力を受け付ける映像信号入力部と、
    前記映像信号及び前記翻訳後文字情報を合成した合成映像信号を生成する映像合成部と、
    を更に備えることを特徴とする請求項3又は4に記載の翻訳システム。
  6. 前記翻訳後文字情報を記述した翻訳ファイルを生成し、新たに前記翻訳後文字情報が生成されると前記翻訳ファイルに追記する翻訳ファイル生成部を更に備え、
    前記表示制御部は、前記翻訳ファイルに含まれる前記翻訳後文字情報を前記画面に表示する、
    ことを特徴とする請求項1乃至5のいずれか一つに記載の翻訳システム。
  7. 前記翻訳後文字情報を電子メールにより転送する翻訳後文字情報転送部と、
    前記転送後の翻訳後文字情報を、前記記憶媒体から消去する消去部と、
    を更に備える、
    ことを特徴とする請求項1乃至6のいずれか一つに記載の翻訳システム。
  8. 音声の入力を受け付けて、音声データを生成する音声入力部と
    前記音声データを文字情報に変換して翻訳前文字情報を生成する音声認識部と、
    翻訳先の言語の種別を設定する翻訳言語設定部と、
    前記翻訳前文字情報を、前記翻訳先の言語を用いて翻訳し、翻訳後文字情報を生成する翻訳処理部と、
    前記翻訳後文字情報を記憶媒体に記憶させる翻訳結果記憶処理部と、
    前記翻訳後文字情報を、生成された順に画面に表示する制御を行う表示制御部と、
    前記画面の表示を所定の方向に移動させるための操作を受け付ける操作部と、
    を備え、
    前記表示制御部は、
    新たに翻訳後文字情報が生成された場合に、前記画面に表示されている前記翻訳後文字情報のうち最初に生成された前記翻訳後文字情報を非表示にして新たに生成された前記翻訳後文字情報を前記画面に表示させるように制御し、
    前記所定の方向に移動させるための操作が示す移動量に応じて、前記画面に表示されている前記翻訳後文字情報のうち新しく生成された前記翻訳後文字情報から順に非表示にして、非表示となっている前記翻訳後文字情報を再度表示させる、
    ことを特徴とする翻訳処理装置。
  9. 音声の入力を受け付けて、音声データを生成するステップと、
    前記音声データを文字情報に変換して翻訳前文字情報を生成するステップと、
    前記翻訳前文字情報を、あらかじめ設定された翻訳先の言語を用いて翻訳し、翻訳後文字情報を生成するステップと、
    前記翻訳後文字情報を記憶媒体に記憶させるステップと、
    前記翻訳後文字情報を、生成された順に画面に表示する制御を行うステップであって、新たに翻訳後文字情報が生成された場合に、前記画面に表示されている前記翻訳後文字情報のうち最初に生成された前記翻訳後文字情報を非表示にして新たに生成された前記翻訳後文字情報を前記画面に表示させるステップと、
    前記画面の表示を所定の方向に移動させるための操作を受け付けると、前記所定の方向に移動させるための操作が示す移動量に応じて、前記画面に表示されている前記翻訳後文字情報のうち新しく生成された前記翻訳後文字情報から順に非表示にして、非表示となっている前記翻訳後文字情報を再度表示させるステップと、
    をコンピュータに実行させることを特徴とする翻訳処理プログラム。
JP2014029919A 2014-02-19 2014-02-19 翻訳システム、翻訳処理装置、及び翻訳処理プログラム Pending JP2015153408A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014029919A JP2015153408A (ja) 2014-02-19 2014-02-19 翻訳システム、翻訳処理装置、及び翻訳処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014029919A JP2015153408A (ja) 2014-02-19 2014-02-19 翻訳システム、翻訳処理装置、及び翻訳処理プログラム

Publications (1)

Publication Number Publication Date
JP2015153408A true JP2015153408A (ja) 2015-08-24

Family

ID=53895518

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014029919A Pending JP2015153408A (ja) 2014-02-19 2014-02-19 翻訳システム、翻訳処理装置、及び翻訳処理プログラム

Country Status (1)

Country Link
JP (1) JP2015153408A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016206929A (ja) * 2015-04-22 2016-12-08 株式会社東芝 通訳装置、方法およびプログラム
JP2017167879A (ja) * 2016-03-17 2017-09-21 株式会社リコー 会議システム、接続制御装置、接続制御方法及びプログラム
US10614418B2 (en) 2016-02-02 2020-04-07 Ricoh Company, Ltd. Conference support system, conference support method, and recording medium
WO2022019157A1 (ja) * 2020-07-20 2022-01-27 ラトナ株式会社 議事録生成装置、方法、コンピュータプログラム、及び、記録媒体

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01103774A (ja) * 1987-07-08 1989-04-20 Ricoh Co Ltd 翻訳表示装置
JPH1055356A (ja) * 1996-08-09 1998-02-24 Matsushita Electric Ind Co Ltd 機械翻訳機能付電子メール装置及び制御方法
JP2001067287A (ja) * 1999-08-30 2001-03-16 Fujitsu Ltd 電子メール装置,電子メール送信方法及び記録媒体
JP2011182125A (ja) * 2010-02-26 2011-09-15 Sharp Corp 会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01103774A (ja) * 1987-07-08 1989-04-20 Ricoh Co Ltd 翻訳表示装置
JPH1055356A (ja) * 1996-08-09 1998-02-24 Matsushita Electric Ind Co Ltd 機械翻訳機能付電子メール装置及び制御方法
JP2001067287A (ja) * 1999-08-30 2001-03-16 Fujitsu Ltd 電子メール装置,電子メール送信方法及び記録媒体
JP2011182125A (ja) * 2010-02-26 2011-09-15 Sharp Corp 会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016206929A (ja) * 2015-04-22 2016-12-08 株式会社東芝 通訳装置、方法およびプログラム
US10614418B2 (en) 2016-02-02 2020-04-07 Ricoh Company, Ltd. Conference support system, conference support method, and recording medium
US11625681B2 (en) 2016-02-02 2023-04-11 Ricoh Company, Ltd. Conference support system, conference support method, and recording medium
JP2017167879A (ja) * 2016-03-17 2017-09-21 株式会社リコー 会議システム、接続制御装置、接続制御方法及びプログラム
WO2022019157A1 (ja) * 2020-07-20 2022-01-27 ラトナ株式会社 議事録生成装置、方法、コンピュータプログラム、及び、記録媒体

Similar Documents

Publication Publication Date Title
JP6751122B2 (ja) ページ制御方法および装置
CN112968991B (zh) 一种输入方法、电子设备和投屏系统
US20220130502A1 (en) System and method for review of automated clinical documentation from recorded audio
US10303418B2 (en) Content item presentation system
US10042519B2 (en) Creation and exposure of embedded secondary content data relevant to a primary content page of an electronic book
CN108881429B (zh) 用于共享演示数据和注释的方法和设备
CN109782706B (zh) 展厅控制系统及方法、云服务器及终端控制设备
US20180069962A1 (en) Information processing apparatus, information processing method, and recording medium
US10741172B2 (en) Conference system, conference system control method, and program
KR20140092873A (ko) 적응식 입력 언어 전환
US20150193584A1 (en) System and method for clinical procedure timeline tracking
US10965743B2 (en) Synchronized annotations in fixed digital documents
US20200264829A1 (en) Information processing apparatus, information processing system, and information processing method
JP2015153408A (ja) 翻訳システム、翻訳処理装置、及び翻訳処理プログラム
JP6596373B6 (ja) 表示処理装置及び表示処理プログラム
JP2008165642A (ja) 情報処理システムおよび情報処理装置および情報処理システムの制御方法および情報処理装置の制御方法およびプログラムおよび記録媒体
KR102353797B1 (ko) 영상 컨텐츠에 대한 합성음 실시간 생성에 기반한 컨텐츠 편집 지원 방법 및 시스템
US9250782B1 (en) Using split windows for cross-platform document views
JP2019121812A (ja) 情報処理システム、その制御方法及びプログラム。
US11902690B2 (en) Machine learning driven teleprompter
WO2023075909A1 (en) Machine learning driven teleprompter
US10123060B2 (en) Method and apparatus for providing contents
Wenzel et al. New ways of data entry in doctor-patient encounters
KR102495597B1 (ko) 시각장애인을 위한 온라인 강의 콘텐츠 제공방법 및 그 사용자 단말
JP2019125972A (ja) 端末装置、情報処理方法、プログラム、通信システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180214

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180306