JP7417272B2

JP7417272B2 - 端末装置、サーバ装置、配信方法、学習器取得方法、およびプログラム

Info

Publication number: JP7417272B2
Application number: JP2020549982A
Authority: JP
Inventors: 征範慎
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-10-05
Filing date: 2019-07-25
Publication date: 2024-01-18
Anticipated expiration: 2039-07-25
Also published as: EP3862963A4; EP3862963A1; US20210358475A1; WO2020070959A1; JPWO2020070959A1

Description

本発明は、サーバ装置と１以上の端末装置とで実現される通訳システム等に関するものである。

従来、言語の選択だけでなく、通訳の得意分野等を考慮して利用者が通訳者を選ぶことができる通訳システムに関する文献が存在した（例えば、特許文献１参照）。この従来の通訳システムは、複数の移動体通信端末と通訳管理装置とを備える。通訳管理装置は、第１移動体通信端末を利用する第１の利用者と、第２移動体通信端末を利用する第２の利用者との会話を、両者に共通の言語で通訳する通訳者に通訳させるための処理を行う。詳しくは、通訳管理装置は、複数の通訳者を言語及び専門分野に分類した通訳者リストを記憶する記憶部と、第１の利用者が第１移動体端末を利用して選択した言語及び専門分野に基づいて、記憶部から適合する通訳者を抽出する通訳抽出部と、抽出された通訳者の移動体通信端末に対し通信を確立する通信確立部とを有する。

特開２０１７－１４３３２２号公報

しかし、上記従来の通訳システムは、二人の利用者の会話を一人の通訳者が通訳するものであり、一の話者の話を１以上の通訳者が通訳し、その１以上の通訳音声を１以上のユーザに配信するものではない。また、上記従来の通訳システムにおいて、通訳管理装置が複数の通訳者の言語をどのように管理しているか定かでないが、この通訳管理装置を、一の話者の話を１以上の通訳者が通訳した１以上の通訳音声を１以上のユーザに配信する通訳システムに用いた場合、１以上の通訳者の言語に関する情報を的確に管理できるとは限らない。

そして、サーバ装置と１以上の端末装置とで実現され、一の話者の話を１以上の通訳者が通訳した１以上の通訳音声を１以上のユーザに配信する通訳システムであって、サーバ装置が１以上の通訳者の言語に関する情報を的確に管理する通訳システムは存在しなかった。

また、従来、２以上の各通訳者の端末に、会場を撮影した映像と２以上の通訳者画像を含む画面を表示するサーバ装置は存在しなかった。

本第一の発明の通訳システムは、サーバ装置と１または２以上の端末装置とで実現される通訳システムであって、サーバ装置は、第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、第一の言語を識別する第一言語識別子と、第二の言語を識別する第二言語識別子と、通訳者を識別する通訳者識別子とを有する１以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部と、１以上の各端末装置のユーザに関する情報であり、ユーザを識別するユーザ識別子と、ユーザが聴く又は読む言語を識別する第二言語識別子とを有する１以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部と、一の話者が話す第一の言語の音声を１以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである１以上の第二言語音声を取得する第二言語音声取得部と、ユーザ情報群を用いて、１以上の各端末装置に、第二言語音声取得部が取得した１以上の第二言語音声のうち、端末装置に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を、配信する配信部とを具備し、１以上の各端末装置は、サーバ装置から配信される第二言語音声を受信する端末受信部と、端末受信部が受信した第二言語音声を再生する再生部とを具備する通訳システムである。

かかる構成により、サーバ装置と１以上の端末装置とで実現され、一の話者の話を１以上の通訳者が通訳した１以上の通訳音声を１以上のユーザに配信する通訳システムであって、サーバ装置が１以上の通訳者の言語に関する情報を的確に管理する通訳システムを提供できる。その結果、１以上の各通訳者を活用した各種の通訳サービスの提供が可能になる。例えば、一人の話者が話す講演会において、１以上の各端末装置に、当該端末装置のユーザが聴く又は読む言語に対応する通訳者の音声を配信できるのみならず、２以上の話者が討論する国際会議において、２以上の各端末装置に、当該端末装置のユーザが聴く又は読む言語に対応する１以上の各通訳者の音声を配信できる。

また、本第二の発明の通訳システムは、第一の発明に対して、サーバ装置は、第二言語音声取得部が取得した１以上の第二言語音声をそれぞれ音声認識したテキストのデータである１以上の第二言語テキストを取得する第二言語テキスト取得部をさらに具備し、配信部は、第二言語テキスト取得部が取得した１以上の第二言語テキストを１以上の各端末装置に配信し、端末受信部は、サーバ装置から配信される１以上の第二言語テキストをも受信し、再生部は、１以上の第二言語テキストをも出力する通訳システムである。

かかる構成により、１以上の各通訳者の音声に加えて、当該音声を音声認識した１以上のテキストも配信できる。

また、本第三の発明の通訳システムは、第一または第二の発明に対して、再生部は、第二言語音声の再生を中断後に再開する場合、第二言語音声の未再生部分を、早送りで追っかけ再生する通訳システムである。

かかる構成により、１以上の各端末装置において、通訳者の音声の再生が途切れても、ユーザは、その未再生部分を漏れなく、かつ遅れを取り戻すように聴くことができる。

また、本第四の発明の通訳システムは、第三の発明に対して、再生部は、未再生部分の追っかけ再生を、未再生部分の遅延時間または当該未再生部分のデータ量のうち１以上に応じた速度の早送りで行う通訳システムである。

かかる構成により、的確な速度の早送りで、遅れを無理なく取り戻すことができる。

また、本第五の発明の通訳システムは、第三または第四の発明に対して、再生部は、未再生部分の追っかけ再生を、未再生部分のデータ量が予め決められた閾値を超えた又は閾値以上となったことに応じて開始する通訳システムである。

かかる構成により、再度の途切れを回避しつつ、遅れを取り戻すことができる。

また、本第六の発明の通訳システムは、第一から第五いずれか１つの発明に対して、サーバ装置は、一の話者が話した第一の言語の音声を音声認識したテキストのデータである第一言語テキストを取得する第一言語テキスト取得部と、第一言語テキストを翻訳エンジンを用いて第二の言語に翻訳した翻訳テキスト、または翻訳テキストを音声変換した翻訳音声のうち１以上のデータを含む１以上の翻訳結果を取得する翻訳結果取得部とをさらに具備し、配信部は、ユーザ情報群を用いて、１以上の各端末装置に、翻訳結果取得部が取得した１以上の翻訳結果のうち、端末装置に対応するユーザ情報が有する第二言語識別子に対応する翻訳結果をも配信し、端末受信部は、サーバ装置から配信される翻訳結果をも受信し、再生部は、翻訳結果をも出力する通訳システムである。

かかる構成により、ユーザは、翻訳エンジンによる翻訳結果も利用できる。

なお、第六の発明において、サーバ装置は、話者を識別する話者識別子と、話者が話す第一の言語を識別する第一言語識別子とを有する１以上の話者情報が格納される話者情報群格納部１１１をさらに具備し、第一言語テキスト取得部は、話者情報群を用いて、１以上の各話者に対応する第一言語テキストを取得してもよい。

また、本第七の発明の通訳システムは、第六の発明に対して、翻訳結果取得部は、ユーザ情報群が有する１以上の第二言語識別子のうち、通訳者情報群が有する１以上の第二言語識別子のいずれとも異なる１以上の第二言語識別子に対応する１以上の翻訳結果のみを取得し、通訳者情報群が有する１以上の第二言語識別子のいずれかと同じ１以上の第二言語識別子に対応する１以上の翻訳結果を取得しない通訳システムである。

かかる構成により、必要な翻訳のみを効率よく行える。

また、本第八の発明の通訳システムは、第二から第7いずれか１つの発明に対して、１以上の各端末装置は、音声またはテキストのうち１以上のデータ形式を選択する操作を受け付け得る端末受付部をさらに具備し、再生部は、端末装置のユーザに関するユーザ情報が有する第二言語識別子に対応する第二言語音声、または第二言語音声を音声認識した第二言語テキストのうち、選択された１以上のデータ形式に対応する１以上のデータを再生する通訳システムである。

かかる構成により、ユーザは、自分の言語に対応する翻訳者の音声またはテキストのうち１以上を利用できる。

また、本第九の発明の通訳システムは、第八の発明に対して、端末受信部は、第二言語テキストに加えて、他の言語である副第二言語の第二言語テキストをも受信し、再生部は、端末受信部が受信した第二言語テキストと副第二言語の第二言語テキストとを出力する通訳システムである。

かかる構成により、ユーザは、自分の言語に対応する通訳者以外の通訳者のテキストも利用できる。

なお、第八の発明において、端末受付部は、少なくともテキストのデータ形式が選択された場合に、翻訳者情報群が有する２以上の第二言語識別子のうち、当該端末装置のユーザに関するユーザ情報が有する第二言語識別子である主第二言語識別子とは異なる１以上の第二言語識別子の集合である副第二言語識別子群をさらに選択する操作をも受け付け可能であり、端末受信部は、副第二言語識別子群が選択された場合に、サーバ装置から副第二言語識別子群に対応する１以上の第二言語テキストをも受信し、再生部は、副第二言語識別子群に対応する１以上の第二言語テキストを、主第二言語識別子に対応する第二言語テキストと共に出力してもよい。

また、本第十の発明の通訳システムは、第一から第九いずれか１つの発明に対して、通訳者情報群格納部およびユーザ情報群格納部には、会場を識別する会場識別子に対応付けて、１以上の通訳者情報群および１以上のユーザ情報群がそれぞれ格納され、ユーザ情報は、会場識別子をさらに有し、第二言語音声取得部および配信部は、２以上の各会場識別子ごとに、１以上の第二言語音声の取得および配信を行う通訳システムである。

かかる構成により、２以上の各会場ごとに、１以上の第二言語音声の取得および配信を行える。

また、本第十一の発明の通訳システムは、第一から第十いずれか１つの発明に対して、サーバ装置は、一の話者が話した第一の言語の音声のデータである第一言語音声を取得する第一言語音声取得部と、第一言語音声取得部が取得した第一言語音声と、第二言語音声取得部が取得した１以上の第二言語音声とを用いて、第一言語識別子および第二言語識別子の組である１以上の各言語情報ごとに、第一言語音声および第二言語音声の特徴量の対応である音声特徴量対応情報を取得する音声特徴量対応情報取得部と、１以上の各言語情報ごとに、音声特徴量対応情報を用いて、第一言語音声を入力とし、第二言語音声を出力とする学習器を構成する学習器構成部とをさらに具備する通訳システムである。

かかる構成により、学習器による第一言語から１以上の第二言語への通訳も行える。

また、本第十二の発明の通訳システムは、第十一の発明に対して、サーバ装置は、再生部が再生した第二言語音声に対するユーザの反応に関する情報である反応情報を取得する反応取得部をさらに具備し、学習器構成部は、反応情報を用いて選別された、２以上の第一言語音声と第二言語音声との組から取得された音声特徴量対応情報を用いて、学習器を構成する通訳システムである。

かかる構成により、ユーザの反応を利用して、音声特徴量対応情報の選別を行うことで、精度の高い学習器を構成できる。

また、本第十三の発明の通訳システムは、第十一の発明に対して、サーバ装置は、再生部が再生した第二言語音声に対するユーザの反応に関する情報である反応情報を取得する反応取得部と、１以上の各通訳者ごとに、通訳者に対応する反応情報を用いて、通訳者の評価に関する評価情報を取得する評価取得部とをさらに具備する通訳システムである。

かかる構成により、ユーザの反応を利用して、１以上の各通訳者を評価できる。

本第十四の発明のサーバ装置は、通訳者の画像である通訳者画像を含む２以上の通訳者情報を有する通訳者情報群が格納される通訳者情報群格納部と、会場を撮影した映像を受け付ける映像受付部と、映像受付部が受け付けた映像と２以上の通訳者画像を含む画面を構成する画面情報を構成する画面情報構成部と、画面情報構成部が構成した画面情報を２以上の通訳者の第二端末装置に送信する画面情報送信部とを具備するサーバ装置である。

なお、上記構成において、通訳者情報群が有する全ての通訳者情報が通訳者画像を含む必要はない。

かかる構成により、２以上の各通訳者の端末に、会場を撮影した映像と２以上の通訳者画像を含む画面を表示する仕組みを提供できる。

また、本第十五の発明のサーバ装置は、第十四の発明に対して、画面情報構成部は、予め決められた条件を満たすほど明瞭性が低い２以上の通訳者画像を含む画面を構成するサーバ装置である。

かかる構成により、各通訳者を識別できるが、その細部（例えば、化粧の有無等）までは分からない画面を表示できる。

また、本第十六の発明のサーバ装置は、第十四または第十五の発明に対して、通訳者情報は、通訳者識別子を有し、２以上の通訳者情報の中の１以上の通訳者情報は、現在、通訳を行っている通訳者、または現在、通訳を行っていない通訳者を特定する状態情報を有し、画面情報構成部は、状態情報を用いて、現在、通訳中の通訳者の通訳者画像と、現在、通訳を行っていない通訳者の通訳者画像とを視覚的に区別可能な態様で、映像受付部が受け付けた映像と２以上の通訳者画像を含む画面を構成するサーバ装置である。

かかる構成により、２以上の通訳者のうち、どの通訳者が通訳中であるかが分かる画面を表示できる。

また、本第十七の発明のサーバ装置は、第十六の発明に対して、通訳者情報は、現在、通訳を行っていること、通訳を行う準備ができていること、または通訳を行う準備ができていないことの少なくとも３つの状態のうちのいずれかの状態を示す状態情報を有し、画面情報構成部は、状態情報を用いて、各通訳者の状態を視覚的に区別可能な態様で、映像受付部が受け付けた映像と２以上の通訳者画像を含む画面を構成するサーバ装置である。

かかる構成により、２以上の通訳者のうち、どの通訳者が通訳中であり、どの通訳者が次に通訳を行うかがわかる画面を表示できる。

また、本第十八の発明のサーバ装置は、第十四から第十七いずれか１つの発明に対して、チャットの情報を端末装置または第二端末装置から受信するチャット受信部をさらに具備し、画面情報構成部は、ユーザの端末装置とチャットを行う第一チャット領域、スタッフの第二端末装置とチャットを行う第二チャット領域のいずれか１以上のチャット領域を含む画面であり、チャット領域にチャット受信部が受信したチャットの情報が表出した画面の画面情報を構成するサーバ装置である。

かかる構成により、通訳者がユーザまたはスタッフのうち１以上とチャットを行える画面を表示できる。

また、本第十九の発明のサーバ装置は、第十八の発明に対して、通訳者情報は、通訳可能な２以上の言語を識別する２以上の言語識別子を有し、画面情報構成部は、２以上の各言語識別子に対応するチャットの領域である２以上の第一チャット領域を有する画面の画面情報を構成するサーバ装置である。

かかる構成により、通訳者が２以上の言語でユーザとチャットを行える画面を表示できる。

また、本第二十の発明のサーバ装置は、第十四から第十九いずれか１つの発明に対して、画面情報構成部は、通訳者の操作を受け付ける１以上の操作対象の領域である操作領域が画面の下部に位置し、映像受付部が受け付けた映像が画面の上部に位置するように画面情報を構成するサーバ装置である。

かかる構成により、視認性および操作性に優れた画面を表示できる。

また、本第二十一の発明のサーバ装置は、第二十の発明に対して、画面情報構成部は、通訳者の音声をミュートする２つのミュートボタンが、それぞれ画面の左下側、および画面の右下側に位置するように画面情報を構成するサーバ装置である。

かかる構成により、通訳者がその利き腕によらず音声を容易にミュートし得る画面を表示できる。

また、本第二十二の発明のサーバ装置は、第十四から第二十一いずれか１つの発明に対して、通訳者情報は、通訳者が設定したボリュームであり、２以上の各言語に対応するボリュームを特定するボリューム情報を言語識別子に対応付けて有し、通訳者の第二端末装置において、言語識別子で識別される言語の音声が、言語識別子と対になるボリューム情報により特定されるボリュームで入力されるサーバ装置である。

かかる構成により、通訳者が２以上の各言語ごとにボリュームの設定を行える画面を表示できる。

また、本第二十三の発明のサーバ装置は、第十四から第二十二いずれか１つの発明に対して、画面情報構成部は、言語識別子に対応する２種類以上のユーザインターフェイス部品を有する画面情報を構成し、第二端末装置から、２種類以上のユーザインターフェイス部品のうちのいずれかの種類のユーザインターフェイス部品に対して、言語識別子を決定する指示が受け付けられた場合に、２種類以上のすべてのユーザインターフェイス部品のカレントの言語を指示に対応する言語識別子で識別される言語とするように、第二端末装置において画面が変更されるサーバ装置である。

かかる構成により、２種類以上のいずれかのユーザインターフェイス部品に対する言語識別子の決定の指示に応じて、２種類以上の全てのユーザインターフェイス部品のカレントの言語が変更される画面を表示できる。

また、本第二十四の発明のサーバ装置は、第二十三の発明に対して、２種類以上のユーザインターフェイス部品は、ボリューム操作のためのユーザインターフェイス部品と、通訳用または通訳結果のテキストの表示領域のユーザインターフェイス部品であるサーバ装置である。

かかる構成により、ボリューム操作用またはテキスト表示用のいずれか一方のユーザインターフェイス部品に対する言語識別子の決定の指示に応じて、ボリューム操作用およびテキスト表示用の両方のユーザインターフェイス部品のカレントの言語が変更される画面を表示できる。

本発明による通訳システムによれば、サーバ装置と２以上の端末装置とで実現され、一の話者の話を１以上の通訳者が通訳した１以上の通訳音声を２以上のユーザに配信する通訳システムであって、サーバ装置が１以上の通訳者の言語に関する情報を的確に管理する通訳システムを提供できる。

また、本発明によれば、２以上の各通訳者の端末に、会場を撮影した映像と２以上の通訳者画像を含む画面を表示するサーバ装置を提供できる。

実施の形態１における通訳システムのブロック図同サーバ装置の動作例を説明するためのフローチャート同サーバ装置の動作例を説明するためのフローチャート同端末装置の動作例を説明するためのフローチャート同話者情報のデータ構造図同通訳者情報のデータ構造図同ユーザ情報のデータ構造図実施の形態２における通訳システムのブロック図同サーバ装置のブロック図同サーバ装置の動作例を説明するためのフローチャート同第二端末装置の動作例を説明するためのフローチャート同通訳者情報のデータ構造図画面情報の出力例を示す図コンピュータシステムの外観図コンピュータシステムの内部構成の一例を示す図

以下、通訳システム等の２つの実施形態について図面を参照して説明する。なお、各実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。

実施の形態１では、サーバ装置と１以上の端末装置とで実現され、一の話者の話を１以上の通訳者が通訳した１以上の通訳音声を１以上のユーザに配信する通訳システムであって、サーバ装置が１以上の通訳者の言語に関する情報を的確に管理する通訳システムについて説明する。

実施の形態２では、実施の形態１の通訳システムにおいて、さらに、サーバ装置が、２以上の各通訳者の端末に、会場を撮影した映像と２以上の通訳者画像を含む画面を表示する通訳システムについて説明する。

（実施の形態１）
図１は、本実施の形態における通訳システムのブロック図である。通訳システムは、サーバ装置１、および２以上の端末装置２を備える。サーバ装置１は、例えば、ＬＡＮやインターネット等のネットワーク、無線または有線の通信回線などを介して、２以上の端末装置２の各々と通信可能に接続される。なお、通訳システムを構成する端末装置２の数は、本実施の形態では２以上としているが、１でもよい。

サーバ装置１は、例えば、通訳システムを運営する運営企業のサーバであるが、クラウドサーバやＡＳＰサーバ等でもよく、そのタイプや所在は問わない。

端末装置２は、例えば、通訳システムを利用するユーザの携帯端末である。なお、携帯端末とは、携帯可能な端末であり、例えば、スマートフォン、タブレット端末、携帯電話機、ノートＰＣ等であるが、その種類は問わない。ただし、端末装置２は、据え置き型の端末でもよく、そのタイプは問わない。

なお、通訳システムは、通常、１または２以上の話者装置３、および１または２以上の通訳者装置４も備える。話者装置３は、講演会や討論会等で話をする話者の端末装置である。話者装置３は、例えば、据え置き型の端末であるが、携帯端末でもよいし、マイクロフォンでもよく、そのタイプは問わない。通訳者装置４は、話者の話を通訳する通訳者の端末装置である。通訳者装置４もまた、例えば、据え置き型の端末であるが、携帯端末でもよいし、マイクロフォンでもよく、そのタイプは問わない。話者装置３等を実現する端末は、ネットワーク等を介してサーバ装置１と通信可能に接続される。話者装置３等を実現するマイクロフォンは、例えば、有線または無線でサーバ装置１に接続されるが、ネットワーク等を介してサーバ装置１と通信可能に接続されてもよい。

サーバ装置１は、格納部１１、受信部１２、処理部１３、および配信部１４を備える。格納部１１は、話者情報群格納部１１１、通訳者情報群格納部１１２、およびユーザ情報群格納部１１３を備える。処理部１３は、第一言語音声取得部１３１、第二言語音声取得部１３２、第一言語テキスト取得部１３３、第二言語テキスト取得部１３４、翻訳結果取得部１３５、音声特徴量対応情報取得部１３６、反応取得部１３７、学習器構成部１３８、および評価取得部１３９を備える。

端末装置２は、端末格納部２１、端末受付部２２、端末送信部２３、端末受信部２４、および端末処理部２５を備える。端末格納部２１は、ユーザ情報格納部２１１を備える。端末処理部２５は、再生部２５１を備える。

サーバ装置１を構成する格納部１１は、各種の情報を格納し得る。各種の情報とは、例えば、後述する話者情報群、後述する通訳者情報群、後述するユーザ情報群などである。

また、格納部１１には、処理部１３による処理の結果も格納される。処理部１３による処理の結果とは、例えば、第一言語音声取得部１３１によって取得された第一言語音声、第二言語音声取得部１３２によって取得された第二言語音声、第一言語テキスト取得部１３３によって取得された第一言語テキスト、第二言語テキスト取得部１３４によって取得された第二言語テキスト、翻訳結果取得部１３５によって取得された翻訳結果、音声特徴量対応情報取得部１３６によって取得された音声特徴量対応情報、反応取得部１３７によって取得された反応情報、学習器構成部１３８によって構成された学習器、および評価取得部１３９によって取得された評価値などである。なお、こうした情報については後述する。

話者情報群格納部１１１には、話者情報群が格納される。話者情報群とは、１以上の話者情報の集合である。話者情報とは、話者に関する情報である。話者とは、話をする者である。話者は、例えば、講演会で講演を行う講演者、討論会で討論を行う討論者などであるが、誰でもよい。

話者情報は、例えば、話者識別子と、第一言語識別子とを有する。話者識別子とは、話者を識別する情報である。話者識別子は、例えば、氏名、メールアドレス、携帯電話番号、ＩＤ等であるが、話者の携帯端末を識別する端末識別子（例えば、ＭＡＣアドレス、ＩＰアドレス等）でもよく、話者を識別し得る情報であれば何でもよい。ただし、話者識別子は必須ではない。例えば、話者が一人だけの場合、話者情報は、話者識別子を有していなくてもよい。

第一言語識別子とは、第一の言語を識別する情報である。第一の言語とは、話者が話す言語である。第一の言語は、例えば、日本語であるが、英語、中国語、フランス語等、何語でもよい。第一言語識別子は、例えば、“日本語”や“英語”等の言語名であるが、“日”や“英”等の略語でもよいし、ＩＤでもよく、第一の言語を識別できる情報であれば何でもよい。

話者情報群格納部１１１には、例えば、会場識別子に対応付けて、１または２以上の話者情報群が格納されてもよい。会場識別子とは、会場を識別する情報である。会場とは、話者が話をする場所である。会場は、例えば、会議場、教室、ホールなどであるが、その種類や所在は問わない。会場識別子は、例えば、会場名、ＩＤなど、会場を識別し得る情報であれば何でもよい。

ただし、話者情報群は必須ではなく、サーバ装置１は、話者情報群格納部１１１を備えていなくてもよい。

通訳者情報群格納部１１２には、通訳者情報群が格納される。通訳者情報群とは、１以上の通訳者情報の集合である。通訳者情報とは、通訳者に関する情報である。通訳者とは、通訳をする者である。通訳とは、ある言語の音声を聴きながら、別の言語に訳出していくことである。通訳は、例えば、同時通訳であるが、逐次通訳でもよい。同時通訳とは、話者の話を聞くとほぼ同時に訳出を行う方式である。逐次通訳とは、話者の話を適宜な長さに区切りつつ、順次訳出していく方式である。

通訳者は、第一の言語の音声を第二の言語に通訳する。第二の言語とは、ユーザが聴く又は読む言語である。第二の言語は、第一の言語と異なる言語であれば何語でもよい。例えば、第一の言語が日本語の場合、第二の言語は、英語、中国語、フランス語などである。

具体的には、例えば、ある会場Ｘで講演者αが話す日本語を、通訳者Ａが英語に、通訳者Ｂが中国語に、通訳者Ｃがフランス語に、それぞれ翻訳してもよい。なお、同種の通訳を行う通訳者が２人以上いてもよい。例えば、二人の通訳者Ａ１およびＡ２が、日本語から英語への通訳を行い、サーバ装置１は、一方の通訳Ａ１またはＡ２の通訳音声と、他方の通訳Ａ２またはＡ１の通訳テキストとを２以上の端末装置２に配信してもよい。

または、別の会場Ｙで、討論者βが話す日本語を、通訳者Ｅ，Ｆが英語，中国語にそれぞれ通訳し、討論者γが話す英語を、通訳者Ｅ，Gが日，中にそれぞれ通訳してもよい。なお、この例では、一の通訳者Ｅが、日英および英日の双方向の通訳を行っているが、通訳者Ｅは、日英または英日の一方の通訳のみを行い、他方の通訳は、別の通訳者Ｈが行ってもよい。

通訳者は、通常、話者が話をする会場で通訳を行うが、別の場所で通訳を行ってもよく、その所在は問わない。別の場所とは、例えば、運営企業の一室でも、各通訳者の自宅でも、どこでもよい。別の場所で通訳が行われる場合、話者の音声は、話者装置３からネットワーク等を介して通訳者装置４に送信される。

通訳者情報は、例えば、第一言語識別子と、第二言語識別子と、通訳者識別子とを有する。第二言語識別子とは、前述した第二の言語を識別する情報である。第二言語識別子は、例えば、言語名、略語、ＩＤ等、何でもよい。通訳者識別子とは、通訳者を識別する情報である。通訳者識別子は、例えば、氏名、メールアドレス、携帯電話番号、ＩＤ、端末識別子等、何でもよい。

または、通訳者情報は、通訳者言語情報と通訳者識別子とで構成される、といってもよい。通訳者言語情報とは、通訳者の言語に関する情報である、通訳者言語情報は、例えば、第一言語識別子、第二言語識別子、および評価値を有する。評価値とは、通訳者が行った通訳の品質に関する評価を示す値である。品質は、例えば、分かりやすさ、誤訳の少なさ等である。評価値は、例えば、通訳者の音声を聴いたユーザの反応を基に取得される。評価値は、例えば、“５”，“４”，“３”等の数値であるが、“Ａ”，“Ｂ”，“Ｃ”等の文字でもよく、その表現形式は問わない。

通訳者情報群格納部１１２には、例えば、会場識別子に対応付けて、１または２以上の通訳者情報群が格納されてもよい。

ユーザ情報群格納部１１３には、ユーザ情報群が格納される。ユーザ情報群とは、１または２以上のユーザ情報の集合である。ユーザ情報とは、ユーザに関する情報である。ユーザとは、前述したように、通訳システムの利用者である。ユーザは、端末装置２を介して、話者の話を通訳した音声である通訳音声を聴くことができる。また、ユーザは、通訳音声を音声認識したテキストである通訳テキストを読むこともできる。

なお、ユーザは、通常、話者が居る会場内で通訳音声を聴くが、別の場所で通訳音声を聴いてもよく、その所在は問わない。別の場所とは、例えば、ユーザの自宅、電車の中など、どこでもよい。

ユーザ情報は、ユーザ識別子と、第二言語識別子とを有する。ユーザ識別子とは、ユーザを識別する情報である。ユーザ識別子は、例えば、氏名、メールアドレス、携帯電話番号、ＩＤ、端末識別子等、何でもよい。

ユーザ情報が有する第二言語識別子は、ユーザが聴く又は読む言語を識別する情報である。ユーザ情報が有する第二言語識別子は、ユーザ自身の選択に基づく情報であり、通常、変更可能であるが、固定的な情報でもよい。

または、ユーザ情報は、ユーザ言語情報とユーザ識別子とで構成される、といってもよい。ユーザ言語情報とは、ユーザの言語に関する情報である。ユーザ言語情報は、例えば、主第二言語識別子、副第二言語識別子群、およびデータ形式情報などを有する。主第二言語識別子とは、主たる第二言語（以下、主第二言語）を識別する情報である。副第二言語識別子群とは、１または２以上の副第二言語識別子の集合である。副第二言語識別子とは、主たる第二言語に加えて選択可能な、副次的な第二言語（以下、副第二言語）を識別する情報である。

例えば、主第二言語がフランス語である場合、副第二言語は、英語でもよいし、中国語でもよく、主第二言語とは異なる言語であれば何語でもよい。

データ形式情報とは、第二言語のデータ形式に関する情報である。データ形式情報は、通常、主第二言語のデータ形式を示す。主第二言語のデータ形式は、音声またはテキストであり、データ形式情報は、“音声”または“テキスト”のうち１以上のデータ形式を含み得る。つまり、主第二言語は、音声でもよいし、テキストでもよいし、音声およびテキストの両方でもよい。

なお、データ形式情報は、本実施の形態においては、例えば、ユーザの選択に基づく情報であり、変更可能である。ユーザは、主第二言語については、音声を聴いてもよいし、テキストを読んでもよいし、音声を聴きながらテキストを読むこともできる。

これに対し、副第二言語のデータ形式は、本実施の形態においては、テキストであり、変更できないものとする。つまり、ユーザは、例えば、主第二言語のテキストに加えて、副第二言語のテキストをも読むことができる。

ユーザ情報群格納部１１３には、例えば、会場識別子に対応付けて、１または２以上のユーザ情報群が格納されてもよい。

受信部１２は、各種の情報を受信する。各種の情報とは、例えば、後述する端末装置２の端末受付部２２が受け付けた各種の情報などである。

処理部１３は、各種の処理を行う。各種の処理とは、例えば、第一言語音声取得部１３１、第二言語音声取得部１３２、第一言語テキスト取得部１３３、第二言語テキスト取得部１３４、翻訳結果取得部１３５、音声特徴量対応情報取得部１３６、反応取得部１３７、学習器構成部１３８、および評価取得部１３９などの処理である。

また、処理部１３は、フローチャートで説明する各種の判別も行う。さらに、処理部１３は、第一言語音声取得部１３１、第二言語音声取得部１３２、第一言語テキスト取得部１３３、第二言語テキスト取得部１３４、翻訳結果取得部１３５、音声特徴量対応情報取得部１３６、反応取得部１３７、および評価取得部１３９の各々が取得した情報を、時刻情報に対応付けて、格納部１１に蓄積する処理をも行う。

時刻情報とは、時刻を示す情報である。時刻情報は、通常、現在時刻を示す情報である。ただし、時刻情報は、相対的な時間を示す情報でもよい。相対的な時間とは、基準となる時刻に対する時間であり、例えば、講演会等の開始時刻からの経過時間などでもよい。処理部１３は、第一言語音声等の情報が取得されたことに応じて、ＭＰＵの内蔵時計やＮＴＰサーバ等から現在時刻を示す時刻情報を取得し、第一言語音声取得部１３１等によって取得された情報を当該時刻情報に対応付けて格納部１１に蓄積する。ただし、第一言語音声取得部１３１等によって取得された情報が時刻情報を含んでいてもよく、その場合、処理部１３は、取得された情報の時刻情報への対応付けを行わなくてもよい。

第一言語音声取得部１３１は、第一言語音声を取得する。第一言語音声とは、一の話者が話した第一の言語の音声のデータである。一の話者とは、唯一の話者（例えば、講演会で話をする講演者）でもよいし、２以上の話者（例えば、討論会で対話をする２以上の討論者）のうち発言中の話者でもよい。取得とは、通常、第一言語音声の受信である。

すなわち、第一言語音声取得部１３１は、例えば、１以上の話者装置３から送信される１以上の第一言語音声を受信する。例えば、講演者の口元または近傍にマイクロフォンが設けられており、第一言語音声取得部１３１は、このマイクロフォンを介して、第一言語音声を取得する。

なお、第一言語音声取得部１３１は、話者情報群を用いて、１以上の話者装置３から１以上の第一言語音声を取得してもよい。例えば、話者が話をする会場が、ユーザの居ないスタジオである場合に、受信部１２は、自宅等に居る１以上の各ユーザの端末装置２から、話者識別子を受信する。第一言語音声取得部１３１は、話者情報群（後述する図５を参照）を構成する１以上の話者情報を用いて、受信部１２が受信した話者識別子で識別される話者の話者装置３に、第一言語音声の要求を送信し、当該要求に応じて話者装置３から送信される第一言語音声を受信してもよい。

ただし、第一言語音声は必須ではなく、サーバ装置１は、第一言語音声取得部１３１を備えていなくてもよい。

第二言語音声取得部１３２は、１以上の第二言語音声を取得する。第二言語音声とは、一の話者が話す第一の言語の音声を１以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである。第二の言語とは、前述したように、ユーザが聴く又は読む言語であり、第一の言語と異なる言語であれば何語でもよい。

ただし、第二の言語は、ユーザ情報群格納部１１３に格納されている２以上の言語識別子のいずれかに対応する言語であり、かつ、通訳者情報群格納部１１２に格納されている１以上の第二言語識別子に対応する１以上の言語以外の言語であることは好適である。または、第二の言語は、ユーザ情報群格納部１１３に格納されている２以上の言語識別子のいずれかに対応する言語であれば、通訳者情報群格納部１１２に格納されている１以上の第二言語識別子に対応する１以上の言語のいずれかと重複する言語でもよい。

第二言語音声取得部１３２は、例えば、１以上の通訳者装置４から送信される１以上の第二言語音声を受信する。

または、第二言語音声取得部１３２は、通訳者情報群を用いて、１以上の通訳者装置４から１以上の第二言語音声を取得してもよい。詳しくは、第二言語音声取得部１３２は、通訳者情報群を構成する１以上の通訳者情報を用いて、１以上の通訳者識別子を取得し、取得した１以上の各通訳者識別子で識別される通訳者の通訳者装置４に、第二言語音声の要求を送信する。そして、第二言語音声取得部１３２は、当該要求に応じて当該通訳者装置４から送信される第二言語音声を受信する。

第一言語テキスト取得部１３３は、第一言語テキストを取得する。第一言語テキストとは、一の話者が話した第一の言語のテキストのデータである。第一言語テキスト取得部１３３は、例えば、第一言語音声取得部１３１が取得した第一言語音声を音声認識することにより、第一言語テキストを取得する。または、第一言語テキスト取得部１３３は、話者のマイクロフォンからの音声を音声認識することにより、第一言語音声を取得してもよい。または、第一言語テキスト取得部１３３は、話者情報群を用いて、１以上の各話者の端末装置２からの音声を音声認識することにより、第一言語音声を取得してもよい。

第二言語テキスト取得部１３４は、１以上の第二言語テキストを取得する。第二言語テキストとは、１以上の各通訳者が通訳した第二言語のテキストのデータである。第二言語テキスト取得部１３４は、例えば、第二言語音声取得部１３２が取得した１以上の第二言語音声をそれぞれ音声認識することにより、１以上の第二言語テキストを取得する。

翻訳結果取得部１３５は、１以上の翻訳結果を取得する。翻訳結果とは、第一言語テキストを翻訳エンジンにより翻訳した結果である。なお、翻訳エンジンによる翻訳は公知技術であり、説明を省略する。翻訳結果は、翻訳テキストまたは翻訳音声のうち１以上のデータを含む。翻訳テキストとは、第一言語テキストを第二の言語に翻訳したテキストである。翻訳音声とは、翻訳テキストを音声変換した音声である。なお、音声変換は、音声合成といってもよい。

翻訳結果取得部１３５は、例えば、ユーザ情報群が有する２以上の第二言語識別子のうち、通訳者情報群が有する１以上の第二言語識別子のいずれとも異なる１以上の第二言語識別子に対応する１以上の翻訳結果のみを取得し、通訳者情報群が有する１以上の第二言語識別子のいずれかと同じ１以上の第二言語識別子に対応する１以上の翻訳結果を取得しないことは好適である。

詳しくは、翻訳結果取得部１３５は、例えば、ユーザ情報群が有する２以上の各第二言語識別子ごとに、当該第二言語識別子が、通訳者情報群が有する１以上の第二言語識別子のいずれとも異なるか否かの判別を行う。そして、翻訳結果取得部１３５は、通訳者情報群が有する１以上の第二言語識別子のいずれとも異なる１以上の第二言語識別子を取得する一方、通訳者情報群が有する１以上の第二言語識別子のいずれかと同じ第二言語識別子を取得しない。

音声特徴量対応情報取得部１３６は、第一言語音声取得部１３１が取得した第一言語音声と、第二言語音声取得部１３２が取得した１以上の第二言語音声とを用いて、１以上の各言語情報ごとに、音声特徴量対応情報を取得する。音声特徴量対応情報とは、第一言語音声および第二言語音声の組における特徴量の対応を示す情報である。

言語情報とは、言語に関する情報である。言語情報は、例えば、第一言語識別子および第二言語識別子の組（例えば、“日英”、“日中”、“日仏”等）であるが、そのデータ構造は問わない。第一言語音声および第二言語音声の対応は、例えば、要素を単位とする対応であってもよい。ここでいう要素とは、文を構成する要素である。文を構成する要素とは、例えば、形態素である。形態素とは、自然言語の文を構成する１以上の各要素である。形態素は、例えば、単語であるが、文節などでもよい。または、要素は、一の文全体でもよく、文の要素であれば何でもよい。

特徴量とは、例えば、要素の特徴を定量的に示す情報である、といってもよい。特徴量は、例えば、形態素を構成する音素の配列（以下、音素列）である。または、特徴量は、音素列におけるアクセントの位置などでもよい。

音声特徴量対応情報取得部１３６は、例えば、２以上の各言語情報ごとに、第一言語音声および第二言語音声に対して形態素解析を行い、第一言語音声および第二言語音声の間の対応する２つの形態素を特定し、当該２つの各形態素の特徴量を取得してもよい。なお、形態素解析は公知技術であり、説明を省略する。

または、音声特徴量対応情報取得部１３６は、２以上の各言語情報ごとに、第一言語音声および第二言語音声に対して、１以上の無音期間の検知、および１以上の無音期間を挟んで音声を２以上の区間に区切る分節を行ってもよい。なお、無音期間とは、音声のレベルが閾値以下である状態が、予め決められた時間以上、継続している期間である。音声特徴量対応情報取得部１３６は、第一言語音声および第二言語音声の間の対応する２つの区間を特定し、当該２つの区間の特徴量を取得してもよい。例えば、第一言語音声の２以上の各区間に“１”，“２”，“３”等の番号を対応付ける一方、第二言語音声の２以上の各区間にも“１”，“２”，“３”等の番号を対応付け、同じ番号に対応付いている２つの区間を、対応する区間とみなしても構わない。

反応取得部１３７は、２以上の反応情報を取得する。反応情報とは、通訳者の通訳に対するユーザの反応に関する情報である。反応情報は、例えば、ユーザ識別子と、反応種類とを有する。反応種類とは、反応の種類を示す情報である。反応種類は、例えば、“頷く”、“首を傾げる”、“笑う”等であるが、“無反応”でもよく、その種類や表現形式は問わない。

ただし、反応情報は、ユーザ識別子を有していなくてもよい。すなわち、一の通訳者の通訳に反応した個々のユーザが特定されなくてもよく、例えば、かかるユーザの主第二言語が特定できればよい。従って、反応情報は、例えば、ユーザ識別子に代えて、第二言語識別子を有していてもよい。さらに、例えば、通訳者がただ一人の場合、反応情報は、単に反応種別を示す情報であっても構わない。

通訳者が２人以上の場合、例えば、会場内は、当該２以上の通訳者に対応する２以上の各第二言語の区画（例えば、英語の区画、中国語の区画等）に区分けされる。そして、これら２以上の各言語の区画の前方側に、当該区画内の１以上のユーザの顔を撮影可能なカメラが設置される。

反応取得部１３７は、２以上の各言語の区画ごとのカメラから画像を受信し、当該画像に対して顔検出を行うことにより、当該区画内に居る１以上の顔画像を取得する。なお、顔検出は公知技術であり、説明を省略する。格納部１１には、顔画像の特徴量と反応種別（例えば、“頷く”，“首を傾げる”，“笑う”等）との対の集合が格納されており、反応取得部１３７は、１以上の各顔画像ごとに、当該顔画像からの特徴量の取得、および当該特徴量に対応する反応種別の特定を行うことにより、当該区画内の１以上のユーザの各々または集団の視覚的な反応に関する１以上の反応情報を取得する。

なお、会場内の左右に、２以上の各言語の区画内で発生する音（例えば、拍手音、笑い声等）を検出可能な、一対のマイクロフォンが設置されてもよい。格納部１１には、音の特徴量と反応種別（例えば、“拍手する”，“笑う”等）との対の集合が格納されており、反応取得部１３７は、一対のマイクロフォンからの左右の音を用いて、音の発生を検知し、かつその音源の位置を特定する。そして、２以上の各言語の区画ごとに、左右の少なくとも一方のマイクロフォンの音からの特徴量の取得、および当該特徴量に対応する反応種別の特定を行うことにより、当該区画内の１以上のユーザの集団の聴覚的な反応に関する１以上の反応情報を取得してもよい。

または、反応取得部１３７は、例えば、ユーザ情報群を用いて、２以上の各ユーザごとに、後述する端末装置２の再生部２５１が再生した第二言語音声に対する反応情報を取得してもよい。

詳しくは、例えば、処理部１３が、事前に、２以上の各ユーザから、当該ユーザの端末装置２を介して、当該ユーザの顔画像を受け付け、ユーザ識別子と顔画像との対の集合を格納部１１に蓄積しておく。会場には、１または２以上のカメラが設置されており、反応取得部１３７は、当該１以上の各カメラからのカメラ画像を用いて顔認識を行い、２以上の各ユーザの顔画像を検出する。次に、反応取得部１３７は、カメラ画像中の２以上の各顔画像を用いて、２以上の各ユーザ識別子ごとに反応情報を取得する。処理部１３は、２以上の各ユーザ識別子ごとに取得された反応情報を、時刻情報に対応付けて格納部１１に蓄積する。

または、反応取得部１３７は、２以上の各ユーザごとに、当該ユーザの端末装置２の内蔵カメラを介して、当該ユーザの顔画像を取得し、当該顔画像を用いて反応情報を取得してもよい。

学習器構成部１３８は、１以上の各言語情報ごとに、２以上の音声特徴量対応情報を用いて、第一言語音声を入力とし、第二言語音声を出力とする学習器を構成する。学習器とは、２以上の音声特徴量対応情報を教師データとして、第一言語音声の特徴量と第二言語音声の特徴量との対応を機械学習することにより、第一言語音声の入力に対し、対応する第二言語音声を出力するための情報である、といってもよい。機械学習は、例えば、ディープラーニング、ランダムフォレスト、決定木等であるが、種類は問わない。ディープラーニング等の機械学習は公知技術であり、説明を省略する。

学習器構成部１３８は、反応情報を用いて選別された、２以上の第一言語音声と第二言語音声との組から取得された音声特徴量対応情報を用いて、学習器を構成する。

選別とは、高い精度の学習器の構成に好適な組を選択すること又は不適な組を捨てることである、といってもよい。好適な組か否かは、例えば、第二言語音声に対する反応情報が予め決められた条件を満たすか否かで判断される。第二言語音声に対する反応情報とは、第二言語音声の直後の反応情報である。予め決められた条件は、例えば、“拍手の音または頷く動作のうち１以上が検出される”等であってもよい。なお、選別は、例えば、好適な組または当該好適な組を構成する第二言語音声の格納部１１への蓄積、または不適な組または当該不適な組を構成する第二言語音声の格納部１１からの削除によって実現されてもよい。または、選別は、ある部が取得した好適な組に関する情報を他の部に引き渡す一方、不適な組に関する情報は引き渡さずに捨てることでもよい。

選別は、サーバ装置１のどの部が行ってもよい。例えば、最も前段階の音声特徴量対応情報取得部１３６が選別を行うことは好適である。すなわち、音声特徴量対応情報取得部１３６は、例えば、２以上の各組を構成する第二言語音声に対応する反応情報が予め決められた条件を満たすか否かを判断し、当該条件を満たすと判断した反応情報に対応する第二言語音声を含む組から、音声特徴量対応情報を取得する。なお、条件を満たすと判断した反応情報に対応する第二言語音声とは、当該反応情報の直前の第二言語音声である。

なお、学習器構成部１３８が選別を行ってもよい。詳しくは、学習器構成部１３８は、例えば、反応取得部１３７が取得した２以上の反応情報を用いて、１以上の各第二言語識別子ごとに、教師データとなる２以上の音声特徴量対応情報のうち、予め決められた条件を満たした音声特徴量対応情報を捨ててもよい。

予め決められた条件は、例えば、一の第二言語音声を聴いている２以上のユーザのうち、同じ時刻に、首を傾げたユーザの数または割合が閾値以上又は閾値より多い、という条件である。学習器構成部１３８は、かかる条件を満たした音声特徴量対応情報として、教師データとなる２以上の音声特徴量対応情報のうち、当該第二言語音声に対応する音声特徴量対応情報であり、かつ当該時刻に対応する音声特徴量対応情報を捨てる。

評価取得部１３９は、１以上の各通訳者ごとに、当該通訳者に対応する２以上の反応情報を用いて、評価情報を取得する。評価情報とは、ユーザによる通訳者の評価に関する情報である。評価情報は、例えば、通訳者識別子と、評価値とを有する。評価値とは、評価を示す値である。評価値は、例えば、５，４，３等の数値であるが、Ａ，Ｂ，Ｃ等の文字で表現されてもよい。

評価取得部１３９は、例えば、反応情報をパラメータとする関数を用いて評価値を取得する。具体的には、評価取得部１３９は、例えば、首を傾げた回数をパラメータとする減少関数を用いて評価値を取得してもよい。または、評価取得部１３９は、頷いた回数または笑った回数のうち１以上をパラメータとする増加関数を用いて評価値を取得してもよい。

配信部１４は、ユーザ情報群を用いて、２以上の各端末装置２に、第二言語音声取得部１３２が取得した１以上の第二言語音声のうち、当該端末装置２に対応するユーザ情報が有する主第二言語識別子に対応する第二言語音声を配信する。

また、配信部１４は、ユーザ情報群を用いて、２以上の各端末装置２に、第二言語テキスト取得部１３４が取得した１以上の第二言語テキストのうち、当該端末装置２に対応するユーザ情報が有する主第二言語識別子に対応する第二言語テキストを配信することもできる。

さらに、配信部１４は、ユーザ情報群を用いて、２以上の各端末装置２に、翻訳結果取得部１３５が取得した１以上の翻訳結果のうち、端末装置２に対応するユーザ情報が有する主第二言語識別子に対応する翻訳結果をも配信することもできる。

詳しくは、配信部１４は、例えば、ユーザ情報群を構成する１以上の各ユーザ情報を用いて、ユーザ識別子、主第二言語識別子、およびデータ形式情報を取得し、取得したユーザ識別子で識別されるユーザの端末装置２に、取得した主第二言語識別子で識別される主第二言語の音声およびテキストのうち、取得したデータ形式情報に対応する１以上の情報を送信する。

従って、あるユーザ情報（例えば、後述する図７の１番目のユーザ情報を参照）が、ユーザ識別子“ａ”、主第二言語識別子“英”、およびデータ形式情報“音声”を有する場合は、ユーザ識別子“ａ”で識別されるユーザａの端末装置２に、主第二言語識別子“英”で識別される英語の音声が配信される。

また、他のユーザ情報（例えば、図７の２番目のユーザ情報）が、ユーザ識別子“ｂ”、主第二言語識別子“中”、およびデータ形式情報“音声＆テキスト”を有する場合は、ユーザ識別子“ｂ”で識別されるユーザｂの端末装置２に、主第二言語識別子“中”で識別される中国語の音声が中国語のテキストと共に配信される。

また、その他のユーザ情報（例えば、図７の３番目のユーザ情報）が、ユーザ識別子“ｃ”、主第二言語識別子“独”、およびデータ形式情報“テキスト”を有する場合は、ユーザ識別子“ｃ”で識別されるユーザｃの端末装置２に、主第二言語識別子“独”で識別されるドイツ語の翻訳テキストが配信される。

加えて、配信部１４は、ユーザ情報群を用いて、２以上の各端末装置２に、第二言語テキスト取得部１３４が取得した１以上の第二言語テキストのうち、端末装置２に対応するユーザ情報が有する副第二言語識別子群に対応する１以上の第二言語テキストをも配信することもできる。

詳しくは、さらにその他のユーザ情報（例えば、図７の４番目のユーザ情報）が、ユーザ識別子“ｄ”、主第二言語識別子“仏”、副言語識別子群“英”、およびデータ形式情報“音声＆テキスト”を有する場合は、ユーザ識別子“ｄ”で識別されるユーザｄの端末装置２に、主第二言語識別子“仏”で識別されるフランス語の音声が、フランス語および英語の２種類のテキストと共に配信される。

なお、配信部１４は、第二言語音声または第二言語テキストのうち１以上を、例えば、第二言語識別子と対に配信してもよい。または、配信部１４は、第二言語音声または第二言語テキストのうち１以上を、通訳者識別子および第二言語識別子と対に配信してもよい。

また、配信部１４は、第一言語音声または第一言語テキストのうち１以上を、例えば、第一言語識別子と対に配信してもよい。または、配信部１４は、第一言語音声または第一言語テキストのうち１以上を、話者識別子および第一言語識別子と対に配信してもよい。

さらに、配信部１４は、１以上の翻訳結果を、例えば、第二言語識別子と対に配信してもよい。または、配信部１４は、１以上の翻訳結果を、第二言語識別子、および翻訳エンジンによる翻訳である旨の情報と対に配信してもよい。

ただし、第二言語識別子等の言語識別子の配信は必須ではなく、配信部１４は、第二言語音声等の音声または第二言語テキスト等のテキストのうち１種類以上の情報のみを配信すればよい。

端末装置２を構成する端末格納部２１は、各種の情報を格納し得る。各種の情報とは、例えば、ユーザ情報である。また、端末格納部２１には、後述する端末受信部２４が受信した各種の情報も格納される。

ユーザ情報格納部２１１には、当該端末装置２のユーザに関するユーザ情報が格納される。ユーザ情報は、前述したように、例えば、ユーザ識別子、および言語情報を有する。言語情報は、主第二言語識別子、副第二言語識別子群、およびデータ形式情報を有する。

ただし、端末装置２にユーザ情報が記憶されることは必須ではなく、端末格納部２１は、ユーザ情報格納部２１１を備えていなくてもよい。

端末受付部２２は、例えば、タッチパネルやキーボード等の入力デバイスを介して、各種の操作を受け付け得る。各種の操作とは、例えば、主第二言語を選択する操作である。端末受付部２２は、かかる操作を受け付け、主第二言語識別子を取得する。

また、端末受付部２２は、主第二言語に関し、音声またはテキストのうち１以上のデータ形式を選択する操作をさらに受け付け得る。端末受付部２２は、かかる操作を受け付け、データ形式情報を取得する。

さらに、端末受付部２２は、少なくともテキストのデータ形式が選択された場合に、翻訳者情報群が有する２以上の第二言語識別子のうち、当該端末装置２のユーザに関するユーザ情報が有する第二言語識別子とは異なる１以上の第二言語識別子をさらに選択する操作をも受け付け得る。端末受付部２２は、かかる操作を受け付け、副第二言語識別子群を取得する。

端末送信部２３は、端末受付部２２が受け付けた各種の情報（例えば、主第二言語識別子、副第二言語識別子群、データ形式情報など）をサーバ装置１に送信する。

端末受信部２４は、サーバ装置１から配信される各種の情報（例えば、第二言語音声、１以上の第二言語テキスト、翻訳結果など）を受信する。

端末受信部２４は、サーバ装置１から配信される第二言語音声を受信する。なお、サーバ装置１から当該端末装置２に配信される第二言語音声は、当該端末装置２に対応するユーザ情報が有する主第二言語識別子に対応する第二言語音声である。

また、端末受信部２４は、サーバ装置１から配信される１以上の第二言語テキストをも受信する。なお、サーバ装置１から当該端末装置２に配信される１以上の第二言語テキストとは、例えば、当該端末装置２に対応するユーザ情報が有する主第二言語識別子に対応する第二言語テキストである。または、サーバ装置１から当該端末装置２に配信される１以上の第二言語テキストとは、当該端末装置２に対応するユーザ情報が有する主第二言語識別子に対応する第二言語テキスト、および当該ユーザ情報が有する副第二言語識別子群に対応する１以上の第二言語テキストであってもよい。

すなわち、端末受信部２４は、例えば、上記第二言語音声を音声認識した第二言語テキストに加えて、他の言語である副第二言語の第二言語テキストをも受信する。

端末処理部２５は、各種の処理を行う。各種の処理とは、例えば、再生部２５１の処理である。また、端末処理部２５は、例えば、フローチャートで説明する各種の判別や蓄積をも行う。蓄積とは、端末受信部２４が受信した情報を、時刻情報に対応付けて、端末格納部２１に蓄積する処理である。

再生部２５１は、端末受信部２４が受信した第二言語音声を再生する。第二言語音声を再生することは、通常、スピーカを介した音声出力も含むが、含まないと考えてもよい。

再生部２５１は、１以上の第二言語テキストをも出力する。第二言語テキストを出力することは、通常、ディスプレイへの表示であるが、例えば、記録媒体への蓄積、プリンタでのプリントアウト、外部の装置への送信、他のプログラムへの引渡しなどをも含むと考えてもよい。

再生部２５１は、端末受信部２４が受信した第二言語テキストと副第二言語の第二言語テキストとを出力する。

再生部２５１は、第二言語音声の再生を中断後に再開する場合、当該第二言語音声の未再生部分を、早送りで追っかけ再生する。追っかけ再生とは、再生を中断した後に、サーバ装置１から受信した第二言語音声を格納部１１に蓄積する動作（例えば、バッファリング、キューイングといってもよい）を行いながら、格納部１１に格納されている未再生部分の先頭から再生を行うことである。追っかけ再生の再生速度が通常の再生速度と同じであれば、再生を再開した後の第二言語音声は、リアルタイムの第二言語音声に対して、一定時間だけ遅延した状態が継続する。一定時間とは、再生再開の時点での遅延時間である。遅延時間とは、例えば、当該未再生部分が再生されるべきであった時刻に対して遅れている時間である、といってもよい。

これに対して、追っかけ再生の再生速度が通常の再生速度よりも早ければ、再生を再開した後の第二言語音声は、リアルタイムの第二言語音声に徐々に追いついていく。追いつくまでの時間は、再生再開時点での遅延時間と、追っかけ再生の再生速度とに依存する。

詳しくは、例えば、一の端末装置２において、第二言語音声の再生中に、端末格納部２１に格納されている当該第二言語音声の未再生部分に欠落部（例えば、ロストパケット）がある場合、端末送信部２３は、当該欠落部の再送要求（例えば、第二言語識別子、時刻情報などを有する）を端末識別子（ユーザ識別子と兼用でよい）と対にサーバ装置１に送信する。

サーバ装置１の配信部１４は、当該欠落部を当該端末装置２に再送する。当該端末装置２の端末受信部２４は、当該欠落部分を受信し、端末処理部２５は、当該欠落部を端末格納部２１に蓄積し、それによって、端末格納部２１に格納されている未再生部分が再生可能となる。しかし、再生再開後の第二言語音声は、話者の話または通訳者の音声に対して遅延するため、再生部２５１は、端末格納部２１に格納されている第二言語音声を早送りで追っかけ再生する。

再生部２５１は、未再生部分の追っかけ再生を、当該未再生部分の遅延時間または当該未再生部分のデータ量のうち１以上に応じた速度の早送りで行う。

なお、未再生部分の遅延時間は、第二言語音声がストリームである場合は、例えば、未再生部分の先頭のパケット（最も古いパケット）のタイムスタンプと、内蔵時計等が示す現在時刻との差分を用いて取得できる。すなわち、再生部２５１は、例えば、再生再開時、未再生部分の先頭のパケットからタイムスタンプを、内蔵時計等からは現在時刻をそれぞれ取得し、タイムスタンプの時刻と現在時刻との差分を算出することにより、遅延時間を取得する。例えば、端末格納部２１に、差分と遅延時間との対の集合が格納されており、再生部２５１は、算出した差分と対になる遅延時間を取得してもよい。

また、当該未再生部分のデータ量は、例えば、端末格納部２１の音声用のバッファの残量を用いて取得できる。すなわち、再生部２５１は、例えば、再生再開時、音声用のバッファの残量を取得し、当該バッファの容量から当該残量を減算することにより、未再生部分のデータ量を取得する。または、当該未再生部分のデータ量は、キューイングされているパケット数でもよい。すなわち、再生部２５１は、再生再開時、端末格納部２１の音声用のキューにキューイングされているパケット数をカウントし、そのパケット数、またはパケット数に応じたデータ量を取得してもよい。

さらに、早送りは、第二言語音声がストリームである場合は、例えば、ストリームを構成する一連のパケットのうち一部のパケットを一定の割合で間引くことで実現される。例えば、２個のうち１個の割合で間引けば２倍速、３個のうち１個の割合で間引けば１．５倍速となる。

例えば、端末格納部２１に、遅延時間またはデータ量のうち１以上の情報と再生速度との対の集合が格納されており、再生部２５１は、再生再開時、前述のようにして取得した遅延時間またはデータ量のうち１以上の情報と対になる再生速度を取得し、取得した再生速度に応じた割合で間引きを行うことで、未再生部分を当該再生速度の早送りで追っかけ再生できる。

例えば、格納部１１に、遅延時間またはデータ量のうち１以上と、速度との対応に関する対応情報が格納されており、再生部２５１は、対応情報を用いて、当該未再生部分の遅延時間または当該未再生部分のデータ量のうち１以上に対応する速度を取得し、取得した速度の早送り再生を行う。

または、格納部１１に、上記対応情報に対応する関数が格納されており、再生部２５１は、当該未再生部分の遅延時間または当該未再生部分のデータ量のうち１以上を関数に代入することにより、速度を算出し、算出した速度の早送り再生を行ってもよい。

再生部２５１は、例えば、未再生部分の追っかけ再生を、当該未再生部分のデータ量が予め決められた閾値を超えた又は閾値以上となったことに応じて開始する。

再生部２５１は、翻訳結果をも出力する。翻訳結果を出力することは、スピーカを介した翻訳音声の出力を含むと考えても、含まないと考えてもよいし、ディスプレイへの翻訳テキストの表示を含むと考えても、含まないと考えてもよい。

格納部１１、話者情報群格納部１１１、通訳者情報群格納部１１２、ユーザ情報群格納部１１３、端末格納部２１、およびユーザ情報格納部２１１は、例えば、ハードディスクやフラッシュメモリといった不揮発性の記録媒体が好適であるが、ＲＡＭなど揮発性の記録媒体でも実現可能である。

格納部１１等に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部１１等で記憶されるようになってもよく、ネットワークや通信回線等を介して送信された情報が格納部１１等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部１１等で記憶されるようになってもよい。入力デバイスは、例えば、キーボード、マウス、タッチパネル等、何でもよい。

受信部１２、および端末受信部２４は、通常、有線または無線の通信手段（例えば、ＮＩＣ(Network interface controller)やモデム等の通信モジュール）で実現されるが、放送を受信する手段（例えば、放送受信モジュール）で実現されてもよい。

処理部１３、第一言語音声取得部１３１、第二言語音声取得部１３２、第一言語テキスト取得部１３３、第二言語テキスト取得部１３４、翻訳結果取得部１３５、音声特徴量対応情報取得部１３６、反応取得部１３７、学習器構成部１３８、評価取得部１３９、端末処理部２５、および再生部２５１は、通常、ＭＰＵやメモリ等から実現され得る。処理部１３等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。ただし、処理手順は、ハードウェア（専用回路）で実現してもよい。

配信部１４、および端末送信部２３は、通常、有線または無線の通信手段で実現されるが、放送手段（例えば、放送モジュール）で実現されてもよい。

端末受付部２２は、入力デバイスを含むと考えても、含まないと考えてもよい。端末受付部２２は、入力デバイスのドライバーソフトによって、または入力デバイスとそのドライバーソフトとで実現され得る。

次に、通訳システムの動作について、図２～図４のフローチャートを用いて説明する。図２および図３は、サーバ装置１の動作例を説明するためのフローチャートである。

（ステップＳ２０１）処理部１３は、第一言語音声取得部１３１が第一言語音声を取得したか否かを判別する。第一言語音声取得部１３１が第一言語音声を取得した場合はステップＳ２０２に進み、取得していない場合はステップＳ２０３に進む。

（ステップＳ２０２）処理部１３は、ステップＳ２０１で取得された第一言語音声を第一言語識別子に対応付けて格納部１１に蓄積する。その後、ステップＳ２０１に戻る。

（ステップＳ２０３）処理部１３は、ステップＳ２０１で取得された第一言語音声に対応する第二言語音声を第二言語音声取得部１３２が取得したか否かを判別する。対応する第二言語音声を第二言語音声取得部１３２が取得した場合はステップＳに進み、取得していない場合はステップＳ２０７に進む。

（ステップＳ２０４）処理部１３は、ステップＳ２０３で取得された第二言語音声を当該第一言語識別子、第二言語識別子、および通訳者識別子に対応付けて格納部１１に蓄積する。

（ステップＳ２０５）音声特徴量対応情報取得部１３６は、ステップＳ２０１で取得された第一言語音声と、ステップＳ２０３で取得された第二言語音声とを用いて、音声特徴量対応情報を取得する。

（ステップＳ２０６）処理部１３は、ステップＳ２０５で取得された音声特徴量対応情報を、当該第一言語識別子および当該第二言語識別子の組である言語情報に対応付けて格納部１１に蓄積する。その後、ステップＳ２０１に戻る。

（ステップＳ２０７）配信部１４は、配信を行うか否かを判断する。例えば、ステップＳ２０３で第二言語音声が取得されたことに応じて、配信部１４は配信を行うと判断する。
または、格納部１１に格納されている第二言語音声のデータ量が閾値以上又は閾値よりも多い場合に、配信部１４は配信を行うと判断してもよい。または、格納部１１に配信のタイミングを示す配信タイミング情報が格納されており、配信部１４は、内蔵時計等から取得された現在時刻が配信タイミング情報の示すタイミングに対応し、かつ、格納されている第二言語音声のデータ量が閾値以上又は閾値よりも多い場合に、配信を行うと判断してもよい。配信を行う場合はステップＳ２０８に進み、配信を行わない場合はステップＳ２０９に進む。

（ステップＳ２０８）配信部１４は、ユーザ情報群を用いて、当該第二言語識別子を有するユーザ情報に対応する１以上の各端末装置２に、ステップＳ２０３で取得された第二言語音声または格納部１１に格納されている第二言語音声を配信する。その後、ステップＳ２０１に戻る。

（ステップＳ２０９）処理部１３は、ステップＳ２０８で配信された第二言語音声に対する反応情報を反応取得部１３７が取得したか否かを判断する。配信された第二言語音声に対する反応情報を反応取得部１３７が取得した場合はステップＳ２１０に進み、取得していない場合はステップＳ２１１に進む。

（ステップＳ２１０）処理部１３は、ステップＳ２０９で取得された反応情報を、当該通訳者識別子および時刻情報に対応付けて格納部１１に蓄積する。その後、ステップＳ２０１に戻る。

（ステップＳ２１１）処理部１３は、格納部１１に格納されている２以上の音声特徴量対応情報のうち、条件を満たす音声特徴量対応情報があるか否かを判別する。条件を満たす音声特徴量対応情報がある場合はステップＳ２１２に進み、ない場合はステップＳ２１３に進む。

（ステップＳ２１２）処理部１３は、条件を満たす音声特徴量対応情報を格納部１１から削除する。その後、ステップＳ２０１に戻る。

（ステップＳ２１３）学習器構成部１３８は、学習器の構成を行うか否かを判断する。例えば、格納部１１に、学習器の構成を行うタイミングを示す構成タイミング情報が格納されており、学習器構成部１３８は、現在時刻が構成タイミング情報の示すタイミングに対応し、かつ、格納部１１内の当該言語情報に対応する音声特徴量対応情報の数が閾値以上または閾値より多い場合に、学習器の構成を行うと判断する。学習器の構成を行う場合はステップＳ２１４に進み、行わない場合はステップＳ２０１に戻る。

（ステップＳ２１４）学習器構成部１３８は、当該言語情報に対応する２以上の音声特徴量対応情報を用いて、学習器を構成する。その後、ステップＳ２０１に戻る。

（ステップＳ２１５）評価取得部１３９は、通訳者の評価を行うか否かを判断する。例えば、格納部１１に、通訳者の評価を行うタイミングを示す評価タイミング情報が格納されており、評価取得部１３９は、現在時刻が評価タイミング情報の示すタイミングに対応する場合に、通訳者の評価を行うと判断する。通訳者の評価を行う場合はステップＳ２１６に進み、行わない場合はステップＳ２０１に戻る。

（ステップＳ２１６）評価取得部１３９は、１以上の各通訳者識別子ごとに、当該通訳者識別子に対応する２以上の反応情報を用いて、評価情報を取得する。

（ステップＳ２１７）処理部１３は、ステップＳ２１６で取得された評価情報を、当該通訳者識別子に対応付けて通訳者情報群格納部１１２に蓄積する。その後、ステップＳ２０１に戻る。

なお、図２および図３のフローチャートでは省略しているが、処理部１３は、例えば、端末装置２からの欠落部の再送要求の受信、および再送要求に応じた再送制御などの処理も行っている。

また、図２および図３のフローチャートにおいて、サーバ装置１の電源オンやプログラムの起動に応じて処理が開始し、電源オフや処理終了の割り込みにより処理は終了する。ただし、処理の開始または終了のトリガは問わない。

図４は、端末装置２の動作例を説明するためのフローチャートである。

（ステップＳ４０１）端末処理部２５は、端末受信部２４が第二言語音声を受信したか否かを判別する。端末受信部２４が第二言語音声を受信した場合はステップＳ４０２に進み、受信していない場合はステップＳ４０３に進む。

（ステップＳ４０２）端末処理部２５は、第二言語音声を端末格納部２１に蓄積する。その後、ステップＳ４０１に戻る。

（ステップＳ４０３）端末処理部２５は、第二言語音声の再生が中断しているか否かを判別する。第二言語音声の再生が中断している場合はステップＳ４０４に進み、中断していない場合はステップＳ４０７に進む。

（ステップＳ４０４）端末処理部２５は、端末格納部２１に格納されている第二言語音声の未再生部分のデータ量が閾値以上か否かを判別する。格納されている第二言語音声の未再生部分のデータ量が、閾値以上である場合はステップＳ４０５に進み、閾値以上でない場合はステップＳ４０１に戻る。

（ステップＳ４０５）端末処理部２５は、当該未再生部分のデータ量および遅延時間に応じた早送り速度を取得する。

（ステップＳ４０６）再生部２５１は、第二言語音声を、ステップＳ４０５で取得した早送り速度で追っかけ再生する処理を開始する。その後、ステップＳ４０１に戻る。

（ステップＳ４０７）端末処理部２５は、追っかけ再生中か否かを判別する。追っかけ再生中である場合はステップＳ４０８に進み、追っかけ再生中でない場合はステップＳ４１０に進む。

（ステップＳ４０８）端末処理部２５は、遅延時間が閾値以下であるか否かを判別する。遅延時間が閾値以下である場合はステップＳ４０９に進み、遅延時間が閾値以下でない場合はステップＳ４０１に戻る。

（ステップＳ４０９）再生部２５１は、第二言語音声の追っかけ再生を終了する。

（ステップＳ４１０）再生部２５１は、第二言語音声を通常再生する。なお、通常再生とは、通常の速度でリアルタイムに再生を行うことである。その後、ステップＳ４０１に戻る。

なお、図４のフローチャートでは省略しているが、端末処理部２５は、例えば、欠落部の再送要求のサーバ装置１への送信、および欠落部の受信などの処理も行っている。

また、図４のフローチャートにおいて、端末装置２の電源オンやプログラムの起動に応じて処理が開始し、電源オフや処理終了の割り込みにより処理は終了する。ただし、処理の開始または終了のトリガは問わない。

以下、本実施の形態における通訳システムの具体的な動作例について説明する。本来の通訳システムは、サーバ装置１、２以上の端末装置２、および２以上の話者装置３を備える。サーバ装置１は、ネットワークまたは通信回線を介して、２以上の端末装置２および２以上の話者装置３の各々と通信可能に接続される。サーバ装置１は、運営企業のサーバであり、端末装置２は、ユーザの携帯端末である。話者装置３および通訳者装置４は、会場に設置された端末である。

本日、ある会場Ｘで、唯一の話者である講演者αが日本語で話をする。会場Ｘには、３人の通訳者Ａ～Ｃが居り、講演者αが話す日本語を、通訳者Ａが英語に、通訳者Ｂが中国語に、通訳者Ｃがフランス語に、それぞれ通訳する。

また、別の会場Ｙでは、二人の話者による討論会が行われる。一方の話者である討論者βは、日本語で話をし、他方の話者である討論者γは、英語で話をする。会場Ｙには、３人の通訳Ｅ～Ｇが居り、討論者βが話す日本語を、通訳者Ｅ，Ｆが英語，中国語にそれぞれ通訳し、討論者γが話す英語を、通訳者Ｅ，Gが日，中にそれぞれ通訳する。

会場Ｘには、２以上のユーザａ～ｄ等が居り、会場Ｙには、２以上のユーザｆ～ｈ等が居る。各ユーザは、自分の端末装置２で、通訳音声を聴いたり、通訳テキストを読んだりすることができる。

サーバ装置１の話者情報群格納部１１１には、例えば、図５に示すような２以上の話者情報群が、会場識別子に対応付けて格納され得る。図５は、話者情報のデータ構造図である。話者情報は、話者識別子、および第一言語識別子を有する。

会場識別子“Ｘ”に対応付いた１番目の話者情報群は、一の話者情報のみで構成され、会場識別子“Ｙ”に対応付いた２番目の話者情報群は、２つの話者情報で構成される。

一の話者情報群を構成する１以上の各話者情報には、ＩＤ（例えば、“１”，“２”等）が対応付いている。例えば、１番目の話者情報群を構成する唯一の話者情報には、ＩＤ“１”が対応付いている。また、２番目の話者情報群を構成する２つの話者情報のうち、１番目の話者情報には、ＩＤ“１”が対応付き、２番目の話者情報には、ＩＤ“２”が対応付いている。なお、以下では、ＩＤ“ｋ”が対応付いた話者情報を「話者情報ｋ」と記す。また、かかる事項は、図６に示す通訳者情報、および図７に示すユーザ情報にも共通する。

会場識別子Ｘに対応付いた話者情報１は、話者識別子“α”、および第一言語識別子“日”を有する。同様に、会場識別子Ｙに対応付いた話者情報１は、話者識別子“β”、および第一言語識別子“日”を有する。また、会場識別子Ｙに対応付いた話者情報２は、話者識別子“γ”、および第一言語識別子“英”を有する。

また、通訳者情報群格納部１１２には、例えば、図６に示すような２以上の通訳者情報群が、会場識別子に対応付けて格納され得る。図６は、通訳者情報のデータ構造図である。通訳者情報は、通訳者識別子、および通訳者言語情報を有する。通訳者言語情報は、第一言語識別子、第二言語識別子、および評価値を有する。

会場識別子Ｘに対応付いた通訳者情報１は、通訳者識別子“Ａ”、および通訳者言語情報“日，英，４”を有する。同様に、会場識別子Ｘに対応付いた通訳者情報２は、通訳者識別子“Ｂ”、および通訳者言語情報“日，中，５”を有する。また、会場識別子Ｘに対応付いた通訳者情報３は、通訳者識別子“Ｃ”、および通訳者言語情報“日，仏，４”を有する。さらに、会場識別子Ｘに対応付いた通訳者情報４は、通訳者識別子“翻訳エンジン”、および通訳者言語情報“日，独，Ｎｕｌｌ”を有する。

会場識別子Ｙに対応付いた通訳者情報１は、通訳者識別子“Ｅ”、および通訳者言語情報“日，英，５”を有する。同様に、会場識別子Ｙに対応付いた通訳者情報２は、通訳者識別子“Ｆ”、および通訳者言語情報“日，中，５”を有する。また、会場識別子Ｙに対応付いた通訳者情報３は、通訳者識別子“Ｅ”、および通訳者言語情報“英，日，３”を有する。さらに、会場識別子Ｙに対応付いた通訳者情報４は、通訳者識別子“Ｇ”、および通訳者言語情報“英，中，４”を有する。

さらに、ユーザ情報群格納部１１３には、例えば、図７に示すような２以上のユーザ情報群が、会場識別子に対応付けて格納され得る。図７は、ユーザ情報のデータ構造図である。ユーザ情報は、ユーザ識別子、およびユーザ言語情報を有する。ユーザ言語情報は、主第二言語識別子、副第二言語識別子群、およびデータ形式情報を有する。

会場識別子Ｘに対応付いたユーザ情報１は、ユーザ識別子“ａ”、およびユーザ言語情報“英，Ｎｕｌｌ，音声”を有する。同様に、会場識別子Ｘに対応付いたユーザ情報２は、ユーザ識別子“ｂ”、およびユーザ言語情報“中，Ｎｕｌｌ，音声＆テキスト”を有する。また、会場識別子Ｘに対応付いたユーザ情報３は、ユーザ識別子“ｃ”、およびユーザ言語情報“毒，Ｎｕｌｌ，テキスト”を有する。さらに、会場識別子Ｘに対応付いたユーザ情報４は、ユーザ識別子“ｄ”、およびユーザ言語情報“仏，英，音声＆テキスト”を有する。

会場識別子Ｙに対応付いたユーザ情報１は、ユーザ識別子“ｆ”、およびユーザ言語情報“英，Ｎｕｌｌ，音声”を有する。同様に、会場識別子Ｙに対応付いたユーザ情報２は、ユーザ識別子“ｇ”、およびユーザ言語情報“中，Ｎｕｌｌ，音声”を有する。また、会場識別子Ｙに対応付いたユーザ情報３は、ユーザ識別子“ｈ”、およびユーザ言語情報“日，英，テキスト”を有する。

会場Ｘでの講演会および会場Ｙでの討論会の開始前、通訳システムのオペレータが、キーボード等の入力デバイスを介して、会場ごとに、話者情報群および通訳者情報群の入力を行う。サーバ装置１の処理部１３は、入力された話者情報群を会場識別子に対応付けて話者情報群格納部１１１に蓄積し、入力された通訳者情報群を会場識別子に対応付けて通訳者情報群格納部１１２に蓄積する。その結果、話者情報群格納部１１１には、図５に示したような２以上の話者情報が格納され、通訳者情報群格納部１１２には、図６に示したような２以上の通訳者情報が格納される。ただし、この時点では、各通訳者情報が有する評価値は、いずれも“Ｎｕｌｌ”である。

２以上の各ユーザは、端末装置２の入力デバイスを介して、会場識別子およびユーザ情報等の情報を入力する。入力された情報は、端末装置２の端末受付部２２によって受け付けられ、ユーザ情報格納部２１１に蓄積されると共に、端末送信部２３によってサーバ装置１に送信される。

サーバ装置１の受信部１２は、２以上の端末装置２の各々から上記のような情報を受信し、ユーザ情報群格納部１１３に蓄積する。その結果、ユーザ情報群格納部１１３には、図７に示したような２以上のユーザ情報が格納される。

２以上の話者装置３の各々には、当該話者装置３を識別する識別子も兼ねる話者識別子が格納されている。２以上の通訳者装置４の各々には、当該通訳者装置４を識別する識別子も兼ねる通訳者識別子が格納されている。

会場Ｘで講演会が開催されている期間、通訳システムは、以下のような処理を行う。

話者αが発話すると、当該話者αに対応する話者装置３から第一言語音声が話者識別子“α”と対に、サーバ装置１に送信される。

サーバ装置１において、第一言語音声取得部１３１が上記第一言語音声を話者識別子“α”と対に受信し、処理部１３は、当該話者識別子“α”に対応する第一言語識別子“日”を話者情報群格納部１１１から取得する。そして、処理部１３は、受信された第一言語音声を当該第一言語識別子“日”に対応付けて格納部１１に蓄積する。

また、第一言語テキスト取得部１３３は、上記第一言語音声を音声認識し、第一言語テキストを取得する。処理部１３は、取得された第一言語テキストを上記第一言語音声に対応付けて格納部１１に蓄積する。

さらに、翻訳結果取得部１３５は、上記第一言語テキストを翻訳エンジンを用いてドイツ語に翻訳し、翻訳テキストおよび翻訳音声を含む翻訳結果を取得する。処理部１３は、取得された翻訳結果を上記第一言語音声に対応付けて格納部１１に蓄積する。

通訳者Ａが話者αの話を英語に通訳すると、通訳者Ａに対応する通訳者装置４から、第二言語音声が通訳者識別子“Ａ”と対に送信される。

サーバ装置１において、第二言語音声取得部１３２が上記第二言語音声を通訳者識別子“Ａ”と対に受信し、処理部１３は、当該通訳者識別子“Ａ”に対応する第一および第二の２つの言語識別子“日”および“英”を通訳者情報群格納部１１２から取得する。そして、処理部１３は、受信された第二言語音声を、当該第一言語識別子“日”、当該第二言語識別子“英”、および当該通訳者識別子“Ａ”に対応付けて格納部１１に蓄積する。他方、音声特徴量対応情報取得部１３６は、上記第一言語音声と上記第二言語音声とを用いて音声特徴量対応情報を取得し、処理部１３は、取得された音声特徴量対応情報を、当該第一言語識別子“日”および当該第二言語識別子“英”の組である言語情報“日英”に対応付けて格納部１１に蓄積する。

通訳者Ｂが話者αの話を中国語に通訳すると、通訳者Ｂに対応する通訳者装置４から、第二言語音声が通訳者識別子“Ｂ”と対に送信される。

サーバ装置１において、第二言語音声取得部１３２が上記第二言語音声を通訳者識別子“Ｂ”と対に受信し、処理部１３は、当該通訳者識別子“Ｂ”に対応する第一および第二の２つの言語識別子“日”および“中”を通訳者情報群格納部１１２から取得する。そして、処理部１３は、受信された第二言語音声を、当該第一言語識別子“日”、当該第二言語識別子“中”、および当該通訳者識別子“Ｂ”に対応付けて格納部１１に蓄積する。他方、音声特徴量対応情報取得部１３６は、上記第一言語音声と上記第二言語音声とを用いて音声特徴量対応情報を取得し、処理部１３は、取得された音声特徴量対応情報を言語情報“日中”に対応付けて格納部１１に蓄積する。

通訳者Ｃが話者αの話をフランス語に通訳すると、通訳者Ｃに対応する通訳者装置４から、第二言語音声が通訳者識別子“Ｃ”と対に送信される。

サーバ装置１において、第二言語音声取得部１３２が上記第二言語音声を通訳者識別子“Ｃ”と対に受信し、処理部１３は、当該通訳者識別子“Ｃ”に対応する第一および第二の２つの言語識別子“日”および“仏”を通訳者情報群格納部１１２から取得する。そして、処理部１３は、受信された第二言語音声を、当該第一言語識別子“日”、当該第二言語識別子“仏”、および当該通訳者識別子“Ｃ”に対応付けて格納部１１に蓄積する。他方、音声特徴量対応情報取得部１３６は、上記第一言語音声と上記第二言語音声とを用いて音声特徴量対応情報を取得し、処理部１３は、取得された音声特徴量対応情報を言語情報“日仏”に対応付けて格納部１１に蓄積する。

現在時刻が配信タイミング情報の示すタイミングである場合、配信部１４は、会場識別子Ｘに対応するユーザ情報群を用いて、第二言語音声、第二言語テキスト、および翻訳結果の配信を行う。

詳しくは、配信部１４は、会場識別子Ｘに対応するユーザ情報１を用いて、主第二言語識別子“英”に対応する第二言語音声をユーザａの端末装置２に送信する。また、配信部１４は、会場識別子Ｘに対応するユーザ情報２を用いて、主第二言語識別子“中”に対応する第二言語音声と、主第二言語識別子“中”に対応する第二言語テキストとを、ユーザｂの端末装置２に送信する。また、配信部１４は、会場識別子Ｘに対応するユーザ情報３を用いて、主第二言語識別子“独”に対応する翻訳テキストをユーザｃの端末装置２に送信する。さらに、配信部１４は、会場識別子Ｘに対応するユーザ情報４を用いて、主第二言語識別子“仏”に対応する第二言語音声と、主第二言語識別子“仏”に対応する第二言語テキストと、副第二言語識別子群“英”に対応する第二言語テキストとを、ユーザｄの端末装置２に送信する。

第二言語音声の送信先となった端末装置２において、端末受信部２４が第二言語音声を受信し、端末処理部２５は、受信された第二言語音声を端末格納部２１に蓄積する。再生部２５１は、端末格納部２１に格納されている第二言語音声を再生する。

ただし、第二言語音声の再生が中断している場合、端末処理部２５は、端末格納部２１に格納されている第二言語音声の未再生部分のデータ量が閾値以上か否かを判別する。そして、当該未再生部分のデータ量が閾値以上である場合、端末処理部２５は、当該未再生部分のデータ量および当該未再生部分の遅延時間に応じた早送り速度を取得する。

例えば、通常再生の速度を１０パケット／秒として、当該未再生部分のデータ量が５０パケット、当該未再生部分の遅延時間が５秒である場合、端末処理部２５は、早送り速度Ｖを“１０＋（５０／５）＝２０パケット／秒”のように計算してもよい。再生部２５１は、こうして取得された早送り速度で、当該未再生部分の追っかけ再生を行う。

第二言語テキストまたは翻訳テキストのうち１以上のテキストの送信先となった端末装置２において、端末受信部２４が当該１以上のテキストを受信し、再生部２５１は、受信された１以上のテキストを出力する。

サーバ装置１において、反応取得部１３７は、会場Ｘ内に設置されたカメラで撮影された画像、または会場Ｘ内に居る２以上の各ユーザａ～ｄが保持している端末装置２の内蔵マイクで捉えられた当該ユーザの声のうち、１種類以上の情報を用いて、上記のようにして配信された第二言語音声に対する反応情報を取得する。処理部１３は、取得された反応情報を、当該通訳者識別子および時刻情報に対応付けて格納部１１に蓄積する。格納部１１に格納されている２以上の反応情報は、例えば、評価取得部１３９が１以上の各通訳者の評価を行うのに用いられる。

また、格納されている２以上の反応情報は、処理部１３が、格納部１１に格納されている２以上の音声特徴量対応情報のうち、予め決められた条件を満たす音声特徴量対応情報の削除を行う際にも用いられる。なお、予め決められた条件については、前述したので繰り返さない。これによって、学習器構成部１３８が構成する学習器の精度を高めることができる。

格納部１１には、構成タイミング情報が格納されており、学習器構成部１３８は、内蔵時計等から取得される現在時刻が、構成タイミング情報の示すタイミングであるか否かの判断を行っている。現在時刻が構成タイミング情報の示すタイミングである場合、学習器構成部１３８は、２以上の各言語情報ごとに、当該言語情報に対応付けて格納部１１に格納されている２以上の音声特徴量対応情報を用いて、学習器を構成する。なお、学習器については、前述したので繰り返さない。

こうして、２以上の各言語情報ごとに学習器を構成することで、例えば、ある言語情報に対応する通訳者が不在の場合でも、当該言語情報に対応する学習器を用いた通訳を行うことができる。

また、格納部１１には、評価タイミング情報が格納されており、評価取得部１３９は、内蔵時計等から取得される現在時刻が、評価タイミング情報の示すタイミングであるか否かの判断を行っている。現在時刻が評価タイミング情報の示すタイミングである場合、評価取得部１３９は、１以上の各通訳者識別子ごとに、当該通訳者識別子に対応する２以上の反応情報を用いて、評価情報を取得する。なお、評価情報については、前述したので繰り返さない。処理部１３は、取得された評価情報を、当該通訳者識別子に対応付けて通訳者情報群格納部１１２に蓄積する。

これによって、会場識別子“Ｘ”に対応する通訳者情報群を構成する通訳者情報１～４のうち、通訳者識別子“翻訳エンジン”を有する通訳者情報４を除く３つの通訳者情報１～３における評価値“Ｎｕｌｌ”が、それぞれ“４”，“５”，“４”に更新される。

なお、会場Ｙで討論会が開催されている期間における通訳システムの処理も、上記と同様であり、説明を省略する。また、講演会および討論会が同時に開催されている期間における通訳システムの処理も、上記と同様であり、説明を省略する。

以上、本実施の形態によれば、通訳システムは、サーバ装置１と１または２以上の端末装置２とで実現される通訳システムであって、通訳者情報群格納部１１２には、第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、第一の言語を識別する第一言語識別子と、第二の言語を識別する第二言語識別子と、通訳者を識別する通訳者識別子とを有する１以上の通訳者情報の集合である通訳者情報群が格納され、ユーザ情報群格納部１１３には、１以上の各端末装置２のユーザに関する情報であり、ユーザを識別するユーザ識別子と、ユーザが聴く又は読む言語を識別する第二言語識別子とを有する１以上のユーザ情報の集合であるユーザ情報群が格納される。

サーバ装置１は、一の話者が話す第一の言語の音声を１以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである１以上の第二言語音声を取得し、ユーザ情報群を用いて、１以上の各端末装置２に、取得した１以上の第二言語音声のうち、当該端末装置２に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を配信する。

１以上の各端末装置２は、サーバ装置１から配信される第二言語音声を受信し、受信した第二言語音声を再生する。

これにより、サーバ装置１と１以上の端末装置２とで実現され、一の話者の話を１以上の通訳者が通訳した１以上の通訳音声を１以上のユーザに配信する通訳システムであって、サーバ装置１が１以上の通訳者の言語に関する情報を的確に管理する通訳システムを提供できる。

その結果、１以上の各通訳者を活用した各種の通訳サービスの提供が可能になる。例えば、一人の話者が話す講演会において、１以上の各端末装置２に、当該端末装置２のユーザが聴く又は読む言語に対応する通訳者の音声を配信できるのみならず、２以上の話者が討論する国際会議において、２以上の各端末装置２に、当該端末装置２のユーザが聴く又は読む言語に対応する１以上の各通訳者の音声を配信できる。

また、本第二の発明の通訳システムは、第一の発明に対して、サーバ装置１は、取得した１以上の第二言語音声をそれぞれ音声認識したテキストのデータである１以上の第二言語テキストを取得し、取得した１以上の第二言語テキストを１以上の各端末装置２に配信し、端末装置２は、サーバ装置１から配信される１以上の第二言語テキストをも受信し、１以上の第二言語テキストをも出力する。

これにより、１以上の各通訳者の音声に加えて、当該音声を音声認識した１以上のテキストの配信も行える。

また、端末装置２は、第二言語音声の再生を中断後に再開する場合、第二言語音声の未再生部分を、早送りで追っかけ再生する。

これにより、１以上の各端末装置２において、通訳者の音声の再生が途切れても、ユーザは、その未再生部分を漏れなく、かつ遅れを取り戻すように聴くことができる。

また、端末装置２は、未再生部分の追っかけ再生を、未再生部分の遅延時間または当該未再生部分のデータ量のうち１以上に応じた速度の早送りで行う。これにより、的確な速度の早送りで、遅れを無理なく取り戻すことができる。

また、端末装置２は、未再生部分の追っかけ再生を、未再生部分のデータ量が予め決められた閾値を超えた又は閾値以上となったことに応じて開始することにより、再度の途切れを回避しつつ、遅れを取り戻すことができる。

また、サーバ装置１は、一の話者が話した第一の言語の音声を音声認識したテキストのデータである第一言語テキストを取得し、第一言語テキストを翻訳エンジンを用いて第二の言語に翻訳した翻訳テキスト、または翻訳テキストを音声変換した翻訳音声のうち１以上のデータを含む１以上の翻訳結果を取得し、ユーザ情報群を用いて、１以上の各端末装置２に、取得した１以上の翻訳結果のうち、当該端末装置２に対応するユーザ情報が有する第二言語識別子に対応する翻訳結果をも配信し、端末装置２は、サーバ装置１から配信される翻訳結果をも受信し、再生する。これにより、ユーザは、翻訳エンジンによる翻訳結果も利用できる。

なお、上記構成において、話者情報群格納部１１１に、話者を識別する話者識別子と、話者が話す第一の言語を識別する第一言語識別子とを有する１以上の話者情報が格納されており、サーバ装置１は、話者情報群を用いて、１以上の各話者に対応する第一言語テキストを取得してもよい。

また、サーバ装置１は、ユーザ情報群が有する１以上の第二言語識別子のうち、通訳者情報群が有する１以上の第二言語識別子のいずれとも異なる１以上の第二言語識別子に対応する１以上の翻訳結果のみを取得し、通訳者情報群が有する１以上の第二言語識別子のいずれかと同じ１以上の第二言語識別子に対応する１以上の翻訳結果を取得しないことにより、必要な翻訳のみを効率よく行える。

また、端末装置２は、音声またはテキストのうち１以上のデータ形式を選択する操作を受け付け、当該端末装置２のユーザに関するユーザ情報が有する第二言語識別子に対応する第二言語音声、または第二言語音声を音声認識した第二言語テキストのうち、選択された１以上のデータ形式に対応する１以上のデータを再生する。これにより、ユーザは、自分の言語に対応する翻訳者の音声またはテキストのうち１以上を利用できる。

また、端末装置２は、第二言語テキストに加えて、他の言語である副第二言語の第二言語テキストをも受信し、受信した第二言語テキストと副第二言語の第二言語テキストとを出力する。

これにより、ユーザは、自分の言語に対応する通訳者以外の通訳者のテキストも利用できる。

なお、上記構成において、端末装置２は、少なくともテキストのデータ形式が選択された場合に、翻訳者情報群が有する２以上の第二言語識別子のうち、当該端末装置２のユーザに関するユーザ情報が有する第二言語識別子である主第二言語識別子とは異なる１以上の第二言語識別子の集合である副第二言語識別子群をさらに選択する操作をも受け付け可能であり、副第二言語識別子群が選択された場合に、サーバ装置１から副第二言語識別子群に対応する１以上の第二言語テキストをも受信し、副第二言語識別子群に対応する１以上の第二言語テキストを、主第二言語識別子に対応する第二言語テキストと共に出力してもよい。

また、通訳者情報群格納部１１２およびユーザ情報群格納部１１３には、会場を識別する会場識別子に対応付けて、１以上の通訳者情報群および１以上のユーザ情報群がそれぞれ格納されており、ユーザ情報は、会場識別子をさらに有し、第二言語音声取得部１３２および配信部１４は、２以上の各会場識別子ごとに、１以上の第二言語音声の取得および配信を行う。これにより、２以上の各会場ごとに、１以上の第二言語音声の取得および配信を行える。

また、サーバ装置１は、一の話者が話した第一の言語の音声のデータである第一言語音声を取得し、取得した第一言語音声と、取得した１以上の第二言語音声とを用いて、第一言語識別子および第二言語識別子の組である１以上の各言語情報ごとに、第一言語音声および第二言語音声の特徴量の対応である音声特徴量対応情報を取得し、１以上の各言語情報ごとに、音声特徴量対応情報を用いて、第一言語音声を入力とし、第二言語音声を出力とする学習器を構成する。

従って、学習器による第一言語から１以上の第二言語への通訳も行える。

また、サーバ装置１は、再生部２５１が再生した第二言語音声に対するユーザの反応に関する情報である反応情報を取得し、反応情報を用いて選別された、２以上の第一言語音声と第二言語音声との組から取得された音声特徴量対応情報を用いて、学習器を構成する。

こうして、ユーザの反応を利用して、音声特徴量対応情報の選別を行うことで、精度の高い学習器を構成できる。

また、サーバ装置１は、端末装置２が再生した第二言語音声に対するユーザの反応に関する情報である反応情報を取得し、１以上の各通訳者ごとに、通訳者に対応する反応情報を用いて、通訳者の評価に関する評価情報を取得する。

これにより、ユーザの反応を利用して、１以上の各通訳者を評価できる。

なお、本実施の形態において、処理部１３は、格納部１１に格納されている２以上の反応情報を用いて、予め決められた条件を満たす音声特徴量対応情報が有るか否かを判別し（Ｓ２１１）、当該条件を満たす音声特徴量対応情報が有る場合に、当該音声特徴量対応情報を削除した（Ｓ２１２）が、これに代えて、反応取得部１３７が取得した反応情報が、例えば、“拍手の音または頷く動作のうち１以上が検出される”等の予め決められた条件を満たすか否かを判別し、当該条件を満たす反応情報に対応する第二言語音声のみを格納部１１に蓄積し、当該条件を満たさない反応情報に対応する第二言語音声の蓄積を行わないようにしてもよい。

この場合、図２のフローチャートは、例えば、以下のように変更される。

２つのステップＳ２０５およびＳ２０６を削除し、ステップＳ２０４の後、ステップＳ２０１に戻るように変更する。また、ステップＳ２１１およびＳ２１２を、次のように変更する。

（ステップＳ２１１）処理部１３は、ステップＳ２０９で取得された反応情報が予め決められた条件を満たすか否かを判断する。取得された反応情報が予め決められた条件を満たす場合はステップＳ２１２に進み、満たさない場合ステップＳ２１３に進む。

（ステップＳ２１２）音声特徴量対応情報取得部１３６は、ステップＳ２０１で取得された第一言語音声と、ステップＳ２１１で当該条件を満たすと判断された反応情報に対応する第二言語音声とを用いて、音声特徴量対応情報を取得する。

さらに、ステップＳ２１２の後に、削除した上記ステップＳ２０６に対応する新たなステップＳ２１３を追加する。

（ステップＳ２１３）処理部１３は、ステップＳ１１２で取得された音声特徴量対応情報を、当該第一言語識別子および当該第二言語識別子の組である言語情報に対応付けて格納部１１に蓄積する。その後、ステップＳ２０１に戻る。

さらに、本実施の形態における処理は、ソフトウェアで実現してもよい。そして、このソフトウェアをソフトウェアダウンロード等により配布してもよい。また、このソフトウェアをＣＤ－ＲＯＭなどの記録媒体に記録して流布してもよい。

なお、本実施の形態におけるサーバ装置１を実現するソフトウェアは、例えば、以下のようなプログラムである。つまり、コンピュータがアクセス可能な記録媒体は、第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子とを有する１以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部１１２と、１または２以上の各端末装置２のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する１以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部１１３とを具備し、このプログラムは、前記コンピュータを、一の話者が話す第一の言語の音声を１以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである１以上の第二言語音声を取得する第二言語音声取得部１３２と、前記ユーザ情報群を用いて、前記１以上の各端末装置２に、前記第二言語音声取得部１３２が取得した１以上の第二言語音声のうち、当該端末装置２に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を、配信する配信部１４として機能させるためのプログラムである。

また、本実施の形態における端末装置２を実現するソフトウェアは、例えば、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、上記配信部１４によって配信される第二言語音声を受信する端末受信部２４と、前記端末受信部２４が受信した第二言語音声を再生する再生部２５１として機能させるためのプログラムである。

（実施の形態２）
以下では、本実施の形態における通訳システムについて説明するが、実施の形態１と相違する事項のみ詳しく説明し、重複する事項の説明は省略または簡略化する。

図８は、本実施の形態における通訳システムのブロック図である。通訳システムは、サーバ装置１０、１または２以上の端末装置２ａ、および１または２以上の第二端末装置４ａを備える。なお、通訳システムは、通常、１または２以上の話者装置３も備える。

サーバ装置１０は、例えば、ネットワークや通信回線を介して、１以上の端末装置２ａおよび１以上の第二端末装置４ａ等の各々と通信可能に接続される。また、サーバ装置１０には、会場を撮影するカメラが、ネットワーク等を介して、または有線または無線で直接、接続されている。なお、カメラの数は、１台でも、２台以上でもよい。以下では、カメラの数を、通常、１台として説明する。

なお、実施の形態１と同様、サーバ装置１０は、例えば、通訳システムを運営する運営企業のサーバであり、端末装置２ａは、例えば、通訳システムを利用するユーザの携帯端末である。第二端末装置４ａは、例えば、通訳者の携帯端末であるが、据え置き型の端末でもよい。

図９は、サーバ装置１０のブロック図である。サーバ装置１０は、格納部１０１、受付部１００、受信部１０２、処理部１０３、および送信部１０４を備える。格納部１０１は、話者情報群格納部１１１、通訳者情報群格納部１１２ａ、およびユーザ情報群格納部１１３を備える。つまり、格納部１０１は、実施の形態１の格納部１１において、通訳者情報群格納部１１２を通訳者情報群格納部１１２ａに置き換えたものである。

受付部１００は、映像受付部１００１を備える。受信部１０２は、チャット受信部１０２１、およびファイル受信部１０２２を備える。処理部１０３は、第一言語音声取得部１３１、第二言語音声取得部１３２、第一言語テキスト取得部１３３、第二言語テキスト取得部１３４、翻訳結果取得部１３５、音声特徴量対応情報取得部１３６、反応取得部１３７、学習器構成部１３８、評価取得部１３９、画面情報構成部１０３１、および表出部１０３２を備える。送信部１０４は、配信部１４ａ、および画面情報送信部１０４１を備える。

端末装置２ａは、端末格納部２１ａ、端末受付部２２ａ、端末送信部２３ａ、端末受信部２４ａ、および端末処理部２５ａを備える。端末処理部２５ａは、再生部２５１を備える。

第二端末装置４ａは、第二端末格納部４１、第二端末受付部４２、第二端末送信部４３、第二端末受信部４４、第二端末処理部４５、および第二端末出力部４６を備える。

サーバ装置１０を構成する格納部１０１は、各種の情報を格納し得る。各種の情報とは、実施の形態１において格納部１１に格納された各種の情報である。加えて、格納部１０１には、例えば、１または２以上のユーザインターフェイス部品、およびレイアウト情報なども格納される。なお、ユーザインターフェイス部品、およびレイアウト情報については後述する。

通訳者情報群格納部１１２ａには、通訳者情報群が格納される。格納される通訳者情報群は、実施の形態１において通訳者情報群格納部１１２に格納された通訳者情報群と基本的には同様の情報である。ただし、本実施の形態における通訳者情報群を構成する１以上の各通訳者情報は、通訳者画像をさらに有する。ただし、全ての通訳者情報が通訳者画像を有していなくてもよい。

なお、通訳者画像は、例えば、後述する受信部１０２によって受信され、処理部１０３によって通訳者情報群格納部１１２ａに蓄積される。ただし、通訳者画像は、通者情報群格納部１１２ａに予め格納されていてもよい。

通訳者画像とは、通訳者の画像である。通訳者画像は、例えば、第二端末装置４ａのカメラでリアルタイムに撮影されている画像（つまり動画像）が好適であるが、かかるカメラまたは他のカメラで予め撮影された画像でもよい。または、通訳者画像は、通訳者を描いたイラストの画像などでもよく、その種類は問わない。

また、通訳者情報は、例えば、状態情報も有する。状態情報とは、通訳者の状態に関する情報である。状態情報は、例えば、現在、通訳を行っている通訳者、または現在、通訳を行っていない通訳者を特定する情報であってもよい。かかる状態情報は、具体的には、例えば、“通訳中”，“非通訳中”等であるが、その形式は問わない。

または、状態情報は、例えば、現在、通訳を行っていること、通訳を行う準備ができていること、または通訳を行う準備ができていないこと、の少なくとも３つの状態のうちのいずれかの状態を示してもよい。かかる状態情報は、具体的には、例えば、“通訳中”，“待機中”、“準備中”等であるが、その形式は問わない。

なお、状態情報は、例えば、後述する受信部１０２によって受信され、処理部１０３によって通訳者情報群格納部１１２ａに蓄積される。

さらに、通訳者情報は、例えば、ボリューム情報も有していてもよい。ボリューム情報とは、通訳者が設定したボリュームを特定する情報である。通訳者は、２以上の各言語ごとにボリュームを設定可能であり、通訳者情報は、例えば、２以上の各言語に対応するボリュームを特定するボリューム情報を言語識別子に対応付けて有していてもよい。

なお、ボリューム情報等は、例えば、後述する受信部１０２によって受信され、処理部１０３によって通訳者情報群格納部１１２ａに蓄積される。

受付部１００は、各種の情報を受け付ける。各種の情報とは、例えば、後述する映像である。なお、受付部１００は、例えば、前述したユーザインファーフェイス部品を介して、またはキーボードやマウス等の入力デバイスを介して、通訳者の指示も受け付けてもよい。なお、通訳者の指示については後述する。また、受け付けは、例えば、第二端末装置４ａが受け付けた通訳者画像等の情報の受信でもよい。

また、受付部１００は、例えば、ディスクや半導体メモリ等の記録媒体から読み出された情報を受け付けてもよく、その受け付けの態様は問わない。また、受け付けられる情報の種類も問わない。

映像受付部１００１は、映像を受け付ける。映像とは、会場を撮影した映像である。映像は、通常、話者が話をしている会場内の様子を撮影した映像であり、例えば、会場のライブ映像といってもよい。

具体的には、例えば、会場に設置されたカメラが会場内の様子を撮影しており、受付部１００は、撮影された映像を受け付ける。カメラは、例えば、有線または無線で直接、サーバ装置１に接続されていてもよいし、ネットワークや通信回線等を介してサーバ装置１に接続されてもよい。後者の場合、受付部１００は、カメラから送信された情報を受信する。

受信部１０２は、各種の情報を受信する。各種の情報とは、例えば、後述する端末装置２ａの端末受付部４２が受け付けた各種の情報（例えば、チャットの情報、ファイル識別子を選択する操作など）である。加えて、受信部１０２は、例えば、後述する第二端末受付部４２が受け付けた各種の情報（例えば、通訳者画像、状態情報、ユーザへのチャットの情報、チャット領域にファイル識別子を入力する操作など）も受信する。

チャット受信部１０２１は、チャットの情報を端末装置２ａまたは第二端末装置４ａから受信する。チャットとは、２以上の端末の間でネットワークや通信回線等を介して行われるコミュニケーションである。チャットは、例えば、一の第二端末装置４ａと１または２以上の端末装置２ａ（つまり、一の通訳者と１または２以上のユーザ）の間のコミュニケーションでもよいし、２以上の第二端末装置４ａ（つまり、通訳者同士、または、通訳者と通訳者以外のスタッフ）の間のコミュニケーションでもよい。なお、通訳者以外のスタッフとは、例えば、通訳システムの管理者であるが、会場に居るスタッフなどでもよく、同時通訳サービスに携わる者であれば誰でもよい。

チャットの情報は、通常、チャットでやり取りされる文字列であるが、画像でもよい。文字列は、例えば、会話文であるが、ファイル識別子等でもよく、その種類は問わない。

端末装置２ａからは、通常、言語識別子と対にチャットの情報が送信されるのに対し、第二端末装置４ａからは、通常、チャットの情報のみが送信され、言語識別子は送信されない。従って、チャット受信部１０２１は、例えば、１以上の第二端末装置４ａからチャットの情報を受信し、２以上の端末装置２ａからは、言語識別子と対にチャットの情報を受信する。

ファイル受信部１０２２は、ファイルを端末装置２ａまたは第二端末装置４ａから受信する。ファイルとは、端末装置２ａと第二端末装置４ａの間で又は２以上の第二端末装置４ａの間で転送されるテキストや画像等の情報である、といってもよい。ファイルは、通常、ファイル識別子を有する。ファイル識別子とは、ファイルを識別する情報である。ファイル識別子は、例えば、ファイル名等の文字列であるが、かかる文字列に対応付いたアイコン等の画像でもよく、その構造は問わない。

ファイル受信部１０２２は、通常、一の第二端末装置４ａから、１以上の端末装置２ａに転送し得るファイルを受信する。詳しくは、例えば、一の第二端末装置４ａにおいて、表示されている画面に含まれる２以上の第一チャット領域のうち一の第一チャット領域にファイル識別子が入力されたことに応じて、当該ファイル識別子で識別されるファイルが、当該一の第一チャット領域に対応する言語識別子と対に、当該一の第二端末装置４ａからサーバ装置１０に送信される。ファイル受信部１０２２は、こうして一の第二端末装置４ａから送信されたファイルを、言語識別子と対に受信する。

なお、ファイル受信部１０２２によって受信されたファイルは、例えば、後述する処理部１０３によって格納部１０１に蓄積され、後述する画面情報構成部１０３１が、画面のチャット領域に、当該ファイルのファイル識別子が表出した画面の画面情報を構成する。そして、例えば、当該画面情報を受信した端末装置２ａまたは第二端末装置４ａにおいて、チャット領域に表出されたファイル識別子が選択されると、後述する送信部１０４が、当該ファイル識別子で識別されるファイルを、当該端末装置２ａまたは当該第二端末装置４ａに送信してもよい。ただし、こうしたファイル転送の技術は、公知であり、詳しい説明を省略する。

処理部１０３は、各種の処理を行う。各種の処理とは、第一言語音声取得部１３１、第二言語音声取得部１３２、第一言語テキスト取得部１３３、第二言語テキスト取得部１３４、翻訳結果取得部１３５、音声特徴量対応情報取得部１３６、反応取得部１３７、学習器構成部１３８、評価取得部１３９、画面情報構成部１０３１、および表出部１０３２などの処理である。

なお、処理部１０３は、例えば、受信部１０２を介して、２以上の各第二端末装置４ａから、当該第二端末装置４ａのカメラで撮影された通訳者画像を通訳者識別子と対に取得し、当該取得した通訳者画像を通訳者識別子に対応付けて通訳者情報群格納部１１２ａに蓄積する処理も行う。ただし、通訳者画像が通訳者情報群格納部１１２ａに予め格納されている場合、処理部１０３は、かかる処理を行わなくてもよい。

また、処理部１０３は、例えば、受信部１０２を介して、２以上の各第二端末装置４ａから状態情報を通訳者識別子と対に取得し、当該取得した状態情報を通訳者識別子に対応付けて通訳者情報群格納部１１２ａに蓄積する処理も行う。

さらに、処理部１０３は、例えば、受信部１０２を介して、２以上の各第二端末装置４ａからボリューム情報等を通訳者識別子と対に取得し、当該取得したボリューム情報等を通訳者識別子に対応付けて通訳者情報群格納部１１２ａに蓄積する処理も行う。

なお、処理部１０３は、例えば、チャット受信部１０２１が受信したチャットの情報を格納部１０１に蓄積する処理、およびファイル受信部１０２２が受信したファイルを格納部１０１に蓄積する処理なども行う。端末装置２ａまたは第二端末装置４ａから送信されるチャットの情報やファイル等の情報には、通常、端末識別子または通訳者識別子が対応付いており、処理部１０３は、受信されたチャットの情報やファイル等の情報を、通常、端末識別子または通訳者識別子に対応付けて格納部１０１に蓄積する。特に、チャットの情報には、言語識別子も対応付いており、処理部１０３は、受信されたチャットの情報を、端末識別子または通訳者識別子と言語識別子との組に対応付けて格納部１０１に蓄積してもよい。

画面情報構成部１０３１は、画面情報を構成する。画面情報構成部１０３１は、通常、２以上の通訳者ごとに、画面情報を構成する。ただし、画面情報構成部１０３１は、一の画面情報を構成し、２以上の第二端末装置４ａにおいて、当該一の画面情報が、２以上の通訳者ごとにカスタマイズされてもよい。

画面情報とは、画面を構成するための情報である。画面情報は、例えば、ＨＴＭＬ、ＸＭＬ等で実現されるが、その実現手段は問わない。本実施の形態でいう画面とは、第二端末装置４ａの画面である。画面は、例えば、会場を撮影した映像と、２以上の通訳者画像を含む。画面情報は、かかる映像、および２以上の通訳者画像に加えて、例えば、１または２以上のユーザインターフェイス部品、および当該１以上のユーザインターフェイス部品の画面内での配置に関するレイアウト情報などを有する。なお、レイアウト情報は、例えば、画面の雛形と考えてもよい。

ユーザインターフェイス部品とは、ユーザインターフェイスを実現する部品である。ユーザインターフェイスとは、通訳者の指示を第二端末装置４ａのコンピュータに伝達したり、第二端末装置４ａのコンピュータからの出力を通訳者に伝達したりするためのソフトウェアである、といってもよい。

部品とは、第二端末装置４ａの画面に表示される要素（以下、オブジェクトと記す場合がある）であり、通訳者の指示を受け付けたり、コンピュータからの出力を表示したりするためのオブジェクトの画像データである、といってもよい。部品は、例えば、通訳者の指示を受け付けるボタンや、１または２以上のメニュー項目を有するメニュー、コンピュータからの出力を表示する領域などであるが、画面に表示される要素であれば、その種類は問わない。

通訳者の指示とは、例えば、言語の指定、ミュート指示、ボリューム操作などであるが、通訳を開始する旨の指示、待機を開始する旨の指示等でもよく、その種類は問わない。言語の指定とは、第二端末装置４ａの画面に表示されるテキストの言語を指定することである。言語の指定は、例えば、第一言語テキストまたは１以上の第二言語のうち一のテキストの指定である。

ミュート指示とは、通訳者の音声をミュートする指示である。ミュートすることは、通訳者の音声を消すこと又はその音量を０に近づけることである、といってもよい。ミュートは、例えば、第二端末装置４ａのマイクをオフすることによって実現される。ただし、ミュートは、例えば、マイクからの出力のサーバ装置１０への送信を停止することによっても実現可能であり、結果として、通訳者の音声を消すことができれば、その実現手法は問わない。

ボリューム操作とは、出力または入力される音声のボリュームを設定する操作である。出力される音声とは、第二端末装置４ａのスピーカを介して出力される音声である。なお、スピーカは、ヘッドフォンでもよい。第二端末装置４ａのスピーカを介して出力される音声は、通常、話者が発声した第一言語音声であるが、会場内の雑音なども含み得る。

入力される音声とは、第二端末装置４ａのマイクを介して入力される音声である。第二端末装置４ａのマイクを介して入力される音声は、通常、通訳者が発声する第二言語音声であるが、通訳者が発する咳の音などの雑音も含み得る。

ボリューム操作は、例えば、スピーカを介して出力される第一言語音声に対するボリューム操作（例えば、スピーカに接続されたアンプの増幅率の調整など）でもよいし、マイクを介して入力される第二言語音声に対するボリューム操作（例えば、マイクの感度の調整など）でもよい。

ユーザインターフェイス部品は、具体的には、例えば、ミュートボタン、ボリューム操作部品、テキスト表示領域等であるが、その種類は問わない。

ミュートボタンとは、通訳者の音声をミュートするボタンである。例えば、通訳者が、第二端末装置４ａの画面に表示されたミュートボタンを操作すると、第二端末装置４ａにおいて、第二端末受付部４２が当該操作を受け付け、第二端末処理部４５はマイクをオフする。これによって、マイクを介して入力される通訳者の音声はミュートされる。従って、通訳中の通訳者は、例えば、咳をする直前にミュートボタンを操作することで、咳の音の入力を回避できる。

なお、ミュートボタンは、例えば、ミュートを解除するボタンを兼ねていてもよい。つまり、ミュートボタンの操作によって通訳者の音声がミュートされている状態で、再びミュートボタンが操作されると、第二端末処理部４５は、ミュートを解除することは好適である。ただし、ミュートを解除するボタンは、ミュートボタンとは別のボタンでもよい。

ボリューム操作部品とは、出力または入力される音声のボリューム操作のための部品である。ボリューム操作部品は、例えば、スライドバー、言語指定ボタン、音量インジケーター等を有するが、その構成は問わない。スライドバーは、バー、および当該バーに沿ってスライドするつまみ等で構成され、バーに対するつまみの位置によって、ボリュームの設定が行える部品である。

言語指定ボタンとは、第一言語または１以上の第二言語のうち一の言語を指定するためのボタンである。言語指定ボタンは、例えば、第一言語および１以上の第二言語に対応する３以上のボタンを含む。第一言語に対応するボタンは、第一言語を特定する文字列を含む。第一言語を特定する文字列とは、例えば、“英語”等の言語名でもよいし、“Ｆｌｏｏｒ”等の第一言語が話されている場所を示す文字列でもよいし、“ｏｒｉｇｉｎａｌ”等の話者が話す言語である旨の文字列でもよく、その形式は問わない。

言語指定ボタンは、通常、ボリューム操作部品によるボリューム操作の対象となる言語を指定する。ただし、言語指定ボタンは、テキスト表示領域に表示されるテキストの言語をも指定してもよい。つまり、言語指定ボタンに対する１回の操作によって、ボリューム操作の対象となる言語と、テキスト表示領域に表示されるテキストの言語とが共に変更されてもよい。

すなわち、例えば、受付部１００が、第二端末装置４ａの画面が有する言語指定ボタンに対する操作を受け付けたことに応じて、画面情報構成部１０３１は、ボリューム操作部品によるボリューム操作の対象となる言語と、テキスト表示領域に表示されるテキストの言語とが共に変更された画面の画面情報を構成してもよい。

または、例えば、テキスト表示領域にも言語指定ボタンが設けられており、受付部１００が、ボリューム操作部品を構成する言語指定ボタン、またはテキスト表示領域に設けられた言語指定ボタンのいずれかの言語指定ボタンによって一の言語を指定する操作を受け付けると、画面情報構成部１０３１は、ボリューム操作の対象となる言語、およびテキスト表示領域に表示されるテキストの言語が、当該指定された一の言語に変更された画面の画面情報を構成してもよい。

従って、例えば、通訳者が、第二端末装置４ａの画面上の言語指定ボタンによって第一言語を指定した後、スライドバーを操作すると、第二端末装置４ａのスピーカを介して出力される第一言語音声の音量が変更される。これにより、通訳者は、例えば、出力されている第一言語音声が聴き取り難い場合に、言語指定ボタンで第一言語を指定し、スライドバーを操作することで、第一言語音声の音量を大きくすることができる。

または、通訳者が、言語指定ボタンによって、例えば、１以上の第二言語のうち一の第二言語（通常、当該通訳者が話す第二言語）を指定した後、スライドバーを操作すると、第二端末装置４ａのマイクを介して入力される当該一の第二言語音声の音量が変更される。従って、通訳中の通訳者は、例えば、後述する第一チャット領域に第二言語音声が聴き取り難い旨の文字列が表示された場合に、言語指定ボタンで当該通訳者が話している第二言語を指定し、スライドバーを操作することで、当該第二言語音声の音量を大きくすることができる。

また、上記のような言語指定ボタンの操作の受け付けに応じて、画面情報構成部１０３１は、例えば、後述するテキスト表示領域に表示されているテキストの言語も、指定された言語に切り替わった画面の画面情報を構成してもよい。それによって、通訳者は、指定した言語のテキストを容易に確認できる。

テキスト表示領域とは、画面内のテキストが表示される領域またはそれを規定する枠等の部品である。表示されるテキストは、通訳用または通訳結果のテキストである。通訳用のテキストは、通常、第一言語テキストであるが、例えば、第一言語テキスト中の指定された単語の意味を示す第二言語の文字列等でもよく、通訳に用いるテキストであれば何でもよい。なお、指定された単語とは、例えば、カーソルが当たった単語であるが、その指定方法は問わない。

通訳結果のテキストは、通常、第二言語テキストであるが、例えば、第二言語テキスト中の指定された単語に対応する第一言語の文字列（つまり、通訳された単語の原語表記）などでもよく、通訳の結果に関するテキストであれば何でもよい。

詳しくは、例えば、格納部１０１に、映像表示領域、通訳者画像表示領域、テキスト表示領域、２以上の第一チャット領域、第二チャット領域、および操作領域等のユーザインターフェイス部品群と、当該ユーザインターフェイス部品群に関するレイアウト情報とが格納されている。

映像表示領域とは、会場を撮影した映像が表示される領域である。通訳者画像表示領域とは、２以上の通訳者画像が表示される領域である。

操作領域とは、通訳者の操作を受け付ける１以上の操作対象の領域である。操作対象とは、例えば、ミュートボタン、およびボリューム操作部品などである。操作領域には、例えば、２つのミュートボタン、およびボリューム操作部品等が配置される。

なお、上記ユーザインターフェイス部品群のうち、２以上の第一チャット領域、テキスト表示領域、およびボリューム操作部品の各々には、通常、言語識別子が対応付いている。その他のユーザインターフェイス部品には、通常、言語識別子は対応付いていないが、対応付いていてもよい。また、言語識別子が対応付くことは、例えば、ユーザインターフェイス部品が、言語名等の言語識別子を有する場合も含む。

映像表示領域は、画面の上部に位置し、操作領域は、画面の下部に位置する。レイアウト情報には、例えば、映像表示領域を識別する部品識別子と映像表示領域の画面内における位置に関する位置情報との組である組情報１、および操作領域を識別する部品識別子と操作領域の画面内における位置に関する位置情報との組である組情報２が含まれており、画面情報構成部１０３１は、当該２つの組情報１および２を用いて、例えば、操作領域が画面の下部に位置し、映像表示領域が画面の上部に位置するような画面の画面情報を構成する。

また、２つのミュートボタンは、それぞれ画面の左下側、および画面の右下側に位置する。レイアウト情報には、一方のミュートボタンを識別する部品識別子と当該一方のミュートボタンの画面内における位置に関する位置情報との組である組情報３、および他方のミュートボタンを識別する部品識別子と当該他方にミュートボタンの画面内における位置に関する位置情報との組である組情報４が含まれており、画面情報構成部１０３１は、例えば、当該２つの位置情報１および２を用いて、２つのミュートボタンが、それぞれ画面の左下側、および画面の右下側に位置するような画面の画面情報を構成する。

さらに、画面情報構成部１０３１は、例えば、言語識別子に対応する２種類以上のユーザインターフェイス部品を有する画面情報を構成してもよい。すなわち、画面情報構成部１０３１は、例えば、格納部１０１に格納されている２以上のインターフェイス部品のうち２以上のインターフェイス部品と、格納部１０１に格納されているレイアウト情報とを用いて、２以上のインターフェイス部品がレイアウト情報で特定される位置に配置された初期の画面を構成する。

そして、画面情報構成部１０３１は、かかる初期画面が有する１以上のインターフェイス部品のうち、テキスト表示領域に、第一言語テキスト取得部１３３が取得した第一言語テキストを表示し、また、言語識別子が対応付いた２以上の各第一チャット領域には、チャット受信部１０２１が２以上の端末装置２ａから言語識別子と対に受信したチャットの情報を表示し、さらに、第二チャット領域には、チャット受信部１０２１が１以上の第二端末装置４ａから受信したチャットの情報を表示する。これにより、上述したような画面が構成される。

ただし、画面情報は、画面を構成するための映像、２以上の通訳者画像、１以上のインターフェイス部品、およびレイアウト情報等の集合でもよい。すなわち、画面情報構成部１０３１は、例えば、映像受付部１００１が受け付けた映像、通訳者情報群格納部１１２ａに格納されている通訳者情報群を構成する２以上の通訳者情報が有する２以上の通訳者画像、格納部１０１に格納されている２以上のインターフェイス部品のうち１以上のインターフェイス部品、格納部１０１に格納されているレイアウト情報を含む画面情報を構成してもよい。この場合、第二端末装置４ａにおいて、第二端末処理部４５が画面情報を用いて画面を構成する。

また、画面情報構成部１０３１は、例えば、予め決められた条件を満たすほど明瞭性が低い２以上の通訳者画像を含む画面を構成してもよい。

明瞭性が低い画像とは、細部の見分けが困難な画像であり、例えば、粗い画像といってもよい。明瞭性が低い画像は、通常、解像度が低い画像である。なお、解像度は、例えば、画素数と考えてもよい。ただし、画像が暗いと、同じ解像度でも細部の見分けは困難となることから、明瞭性が低い画像は、例えば、暗い画像であってもよい。または、明瞭性が低い画像とは、例えば、圧縮率が高い画像でもよく、細部の見分けが困難な画像であればその種類は問わない。

予め決められた条件は、例えば、“解像度が閾値以下”という条件である。または、予め決められた条件は、例えば、“輝度が閾値以下”、“圧縮率が閾値以上”などでもよく、明瞭性の低さに関する条件であれば何でもよい。

詳しくは、画面情報構成部１０３１は、格納されている２以上の通訳者画像に対し、明瞭性を低くする処理を施すことによって、予め決められた条件を満たすほど明瞭性が低い２以上の通訳者画像を含む画面を構成する。明瞭性を低くする処理とは、通常、解像度を下げる処理（例えば、より少ない画素数へのリサイズ）であるが、例えば、輝度を下げる処理でもよいし、圧縮率を上げる処理でもよく、結果として明瞭性が低くなる処理であれば何でもよい。

すなわち、画面情報構成部１０３１は、例えば、格納されている２以上の通訳者画像に対し、解像度を下げる処理を施すことによって、予め決められた条件“解像度が閾値以下”を満たすほど明瞭性が低い２以上の通訳者画像を含む画面を構成する。

または、画面情報構成部１０３１は、例えば、格納されている２以上の通訳者画像に対し、解像度を下げる処理、輝度を下げる処理、または圧縮率を上げる処理のうち１以上の処理を施すことによって、予め決められた３つの条件“解像度が閾値以下”，“輝度が閾値以下”，または“圧縮率が閾値以上”のうち１以上の条件を満たすほど明瞭性が低い２以上の通訳者画像を含む画面を構成してもよい。

ただし、元々、予め決められた条件を満たすほど明瞭性が低い通訳者画像に対しては、明瞭性を低くする処理は不要である。すなわち、画面情報構成部１０３１は、格納されている２以上の各通訳者画像の明瞭性が予め決められた条件を満たすほど低いか否かを判断し、当該判断の結果が否定的である通訳者画像に対してのみ、明瞭性を低くする処理を施し、当該判断の結果が肯定的である通訳者画像に対しては、明瞭性を低くする処理を行わなくてもよい。

また、画面情報構成部１０３１は、例えば、通訳者情報群を構成する２以上の各通訳者情報が有する状態情報を用いて、現在、通訳中の通訳者の通訳者画像と、現在、通訳を行っていない通訳者の通訳者画像とを視覚的に区別可能な態様で、映像受付部１００１が受け付けた映像と２以上の通訳者画像を含む画面を構成してもよい。

視覚的に区別可能な態様とは、通訳中の通訳者の通訳者画像と、通訳を行っていない通訳者の通訳者画像との間に、視覚的な差異が存在することで、通訳者が当該２種類の画像を見分けることができる態様である。視覚的な差異とは、例えば、強調の有無である。強調とは、例えば、拡大であるが、枠の付加、変形、着色、背景の変更等でもよく、その種類は問わない。強調の有無とは、通常、通訳中の通訳者画像のみを強調し、通訳中でない通訳者画像を強調しないことであるが、通訳中でない通訳者画像のみを強調し、通訳中の通訳者画像を強調しないことでもよい。

または、視覚的な差異は、画質の相違でもよい。画質の相違とは、例えば、通訳中でない通訳者画像の画質のみを低下させ、通訳中の通訳者画像の画質を低下させないことであるが、通訳中の通訳者画像の画質のみを高くし、通訳中でない通訳者画像の画質を高くしないことでもよい。画質を低下させることは、例えば、グレーアウトすることであるが、輝度を下げること等でもよい。また、画質を高くすることは、例えば、輝度を上げることであるが、コントラストを高めること等でもよい。

詳しくは、画面情報構成部１０３１は、例えば、状態情報“通訳中”に対応する通訳者画像に対してのみ強調を付加する処理を施し、状態情報“非通訳中”に対応する通訳者画像に対しては強調を付加する処理を施さないことによって、現在、通訳中の通訳者の通訳者画像と、現在、通訳を行っていない通訳者の通訳者画像とを視覚的に区別可能な態様で、映像と２以上の通訳者画像を含む画面を構成する。

または、画面情報構成部１０３１は、例えば、状態情報“非通訳中”に対応する通訳者画像に対してのみ画質を低下させる処理を施し、状態情報“通訳中”に対応する通訳者画像に対しては画質を低下させる処理を施さないことによって、現在、通訳中の通訳者の通訳者画像と、現在、通訳を行っていない通訳者の通訳者画像とを視覚的に区別可能な態様で、映像と２以上の通訳者画像を含む画面を構成してもよい。

なお、上述したような、通訳中の通訳者と、通訳を行っていない通訳者のうち、後者の通訳者は、例えば、通訳を行う準備ができている通訳者（つまり、待機中の通訳者）と、通訳を行う準備ができていない通訳者（つまり、準備中の通訳者）とに区別されてもよい。

この場合、画面情報構成部１０３１は、例えば、状態情報“通訳中”に対応する通訳者画像に対して拡大する処理を施し、状態情報“待機中”に対応する通訳者画像に対して枠を付加する処理を施し、状態情報“待機中”に対応する通訳者画像に対しては拡大または枠の付加のいずれの処理も施さないことによって、現在、通訳中の通訳者の通訳者画像と、現在、通訳を行う準備ができている通訳者の通訳者画像と、現在、通訳を行う準備ができていない通訳者の通訳者画像とを視覚的に区別可能な態様で、映像と２以上の通訳者画像を含む画面を構成してもよい。ただし、３つの状態を区別可能であれば、各通訳者画像に対する処理の有無や処理の種類は問わない。

また、画面情報構成部１０３１は、例えば、第一チャット領域、第二チャット領域のいずれか１以上のチャット領域を含む画面であり、チャット領域にチャット受信部１０２１が受信したチャットの情報が表出した画面の画面情報を構成してもよい。第一チャット領域とは、ユーザの端末装置２ａとチャットを行う領域である。第二チャット領域とは、スタッフの第二端末装置４ａとチャットを行う領域である。

詳しくは、画面情報構成部１０３１は、例えば、第一チャット領域、第二チャット領域のいずれか１以上のチャット領域を含む初期の画面を構成する。かかる初期画面のチャット領域に、後述する表出部１０３２が、チャット受信部１０２１が受信したチャットの情報を表出させることによって、チャット領域にチャット受信部１０２１が受信したチャットの情報が表出した画面の画面情報が構成される。

また、画面情報構成部１０３１は、例えば、後述する表出部１０３２が、画面のチャット領域に、ファイル受信部１０２２によって受信されたフィルが有するファイル識別子を表出させることによって、チャット領域にファイル識別子が表出した画面の画面情報を構成してもよい。

なお、ユーザとのチャットは、２以上の言語で行われてもよい。すなわち、画面情報構成部１０３１は、例えば、２以上の各言語識別子に対応するチャットの領域である２以上の第一チャット領域を有する画面の画面情報を構成してもよい。構成される画面情報は、例えば、２以上の第一チャット領域を有する画面、および２以上の対情報を有する。対情報とは、第一チャット領域を識別する部品識別子と言語識別子との対である。

詳しくは、例えば、格納部１０１に、２以上の第一チャット領域、当該２以上の第一チャット領域に関するレイアウト情報、および上記のような２以上の対情報等の情報が格納されており、画面情報構成部１０３１は、例えば、当該格納されている情報を用いて、言語識別子に対応付いた２以上の第一チャット領域を含む初期の画面を構成する。かかる初期画面の２以上の各チャット領域に、後述する表出部１０３２が、チャット受信部１０２１が言語識別子と対に受信したチャットの情報を表させることによって、画面情報構成部１０３１は、チャット領域にチャット受信部１０２１が受信したチャットの情報が表出した画面の画面情報を構成できる。

同様に、画面情報構成部１０３１は、例えば、テキスト表示領域を含む初期の画面を構成し、かかる初期画面のテキスト表示領域に、第一言語テキスト取得部１３３が取得した第一言語テキストを表示することによって、第一言語テキストを含む画面の画面情報を構成してもよい。

また、例えば、上記のようにして構成された第一言語テキストを含む画面が表示されている状態で、受付部１００が、言語指定ボタンによって１または２以上の第二言語のうち一の第二言語を指定する操作を受け付けたことに応じて、画面情報構成部１０３１は、テキスト表示領域表示されているテキストの言語が第一言語から指定された一の第二言語に変更された画面の画面情報を構成してもよい。

さらに、画面情報構成部１０３１は、言語識別子に対応する２種類以上のユーザインターフェイス部品を有する画面情報を構成し、第二端末装置４ａから、２種類以上のユーザインターフェイス部品のうちのいずれかの種類のユーザインターフェイス部品に対して、言語識別子を決定する指示が受け付けられた場合に、２種類以上のすべてのユーザインターフェイス部品のカレントの言語を指示に対応する言語識別子で識別される言語とするように、画面情報を構成してもよい。

２種類以上のユーザインターフェイス部品とは、ボリューム操作のためのユーザインターフェイス部品（例えば、前述したボリューム操作部品など）と、通訳用または通訳結果のテキストの表示領域のユーザインターフェイス部品（例えば、前述したテキスト表示領域など）である。テキスト表示領域およびボリューム操作部品には、例えば、“英語”や“日本語”等の言語識別子が各々記された２以上のタブが設けられていてもよい。

カレントの言語とは、現時点で選択されている言語である。カレントの言語は、例えば、テキスト表示領域に現在表示されているテキストの言語であってもよいし、ボリューム操作部品の操作対象となっている音声の言語であってもよい。または、カレントの言語は、例えば、一のユーザインターフェイス部品に設けられている２以上のタブのうち、選択されているタブに記された言語である、と考えてもよい。選択されているタブとは、例えば、最前面にあるタブでもよいし、着色されたタブでもよく、その態様は問わない。

例えば、ボリューム操作部品側の２以上のタブのうち、言語識別子“英語”が記された方のタブが通訳者によって選択されると、テキスト表示領域側の２以上のタブのうち、言語識別子“英語”が記された方のタブも自動的に選択される。

これにより、第二端末装置４ａにおいて、２種類以上のいずれかのユーザインターフェイス部品に対する言語識別子の決定の指示に応じて、２種類以上の全てのユーザインターフェイス部品のカレントの言語が変更される画面を表示できる。

表出部１０３２は、チャット受信部１０２１が受信したチャットの情報を、画面が有するチャット領域に表出させる。なお、表出は、追記でもよい。

表出部１０３２は、例えば、チャット受信部１０２１が言語識別子と対に受信したチャットの情報を、画面が有する２以上の第一チャット領域のうち、当該言語識別子に対応する第一チャット領域に表出させる。または、表出部１０３２は、チャット受信部１０２１が、言語識別子と対にではなく単独で受信したチャットの情報を、画面が有する第二チャット領域に表出してもよい。

また、表出部１０３２は、例えば、ファイル受信部１０２２が受信したファイルが有するファイル識別子をも、画面が有するチャット領域に表出してもよい。

表出部１０３２は、例えば、ファイル受信部１０２２が言語識別子と対に受信したファイルのファイル識別子を、画面が有する２以上の第一チャット領域のうち、当該言語識別子に対応する第一チャット領域に表出させる。または、表出部１０３２は、ファイル受信部１０２２が、言語識別子と対にではなく単独で受信したファイルのファイル識別子を、画面が有する第二チャット領域に表出してもよい。

詳しくは、例えば、格納部１０１に、言語識別子と端末識別子との対の集合である対応情報と、チャット領域情報とが格納されている。言語識別子とは、ユーザの言語を識別する情報である。ユーザの言語は、例えば、日本語、英語等、何語でもよい。言語識別子は、例えば、“日本語”や“英語”等の言語名であるが、ＩＤなどでもよく、言語を識別できる情報であれば何でもよい。

端末識別子とは、ユーザの端末装置２ａを識別する情報である。端末識別子は、例えば、ＭＡＣアドレス、ＩＰアドレス等であるが、ＩＤでもよいし、前述したユーザ識別子でもよく、ユーザの端末装置２ａを識別し得る情報であれば何でもよい。

チャット領域情報とは、画面内のチャット領域を特定する情報である。チャット領域情報は、例えば、ＩＤであるが、座標でもよく、チャット領域を特定し得る情報であれば何でもよい。座標は、例えば、矩形のチャット領域の始点および終点を特定する“（ｘ１，ｙ１），（ｘ２，ｙ２）”等であるが、その形式は問わない。

表出部１０３２は、例えば、格納されている対応情報を用いて、チャット受信部１０２１が言語識別子と対に受信したチャットの情報を、画面が有する２以上の第一チャット領域のうち、当該言語識別子に対応する第一チャット領域に表出させることができる。また、表出部１０３２は、格納されている対応情報を用いて、ファイル受信部１０２２が言語識別子と対に受信したファイルのファイル識別子を、画面が有する２以上の第一チャット領域のうち、当該言語識別子に対応する第一チャット領域に表出させることもできる。

また、表出部１０３２は、例えば、言語識別子と対に受信されたチャットの情報、または言語識別子と対に受信されたファイルが有するファイル識別子を、当該言語識別子に対応する１以上の端末装置２ａの画面にも表出させる。

送信部１０４は、各種の情報を送信する。各種の情報とは、例えば、第一言語音声、第一言語テキスト、第二言語音声、第二言語テキスト、翻訳結果、画面情報、ユーザ画面情報、およびファイルなどである。

なお、送信部１０４は、例えば、一の端末装置２ａにおいて、画面に表出されたファイル識別子が選択されたことに応じて、当該ファイル識別子で識別されるファイルを格納部１０１から取得し、当該一の端末装置２ａに送信してもよい。また、送信部１０４は、例えば、ファイルを送信した一の第二端末装置４ａとは別の一の第二端末装置４ａにおいて、画面に表出されたファイル識別子が選択されたことに応じて、当該ファイルを当該別の一の第二端末装置４ａに送信してもよい。

配信部１４ａは、実施の形態１において配信部１４が行ったものと同様の動作を行う。すなわち、配信部１４ａは、ユーザ情報群格納部１１３に格納されているユーザ情報群を用いて、１以上の端末装置２ａに、第二言語音声取得部１３２が取得した第二言語音声等を配信する。

また、配信部１４ａは、通訳者情報群格納部１１２ａに格納されている通訳者情報群を用いて、１以上の第二端末装置４ａに、第一言語音声取得部１３１が取得した第一言語音声を配信する動作も行う。すなわち、配信部１４ａは、例えば、格納されている格納されている通訳者情報群が有する１または２以上の通訳者識別子に対応する１または２以上の第二端末装置４ａに、第一言語音声取得部１３１が取得した一言語音声を配信する。

画面情報送信部１０４１は、画面情報構成部１０３１が構成した画面情報を、通訳者情報群格納部１１２ａに格納されている通訳者情報群を用いて、１または２以上の第二端末装置４ａに送信する。

すなわち、画面情報送信部１０４１は、例えば、格納されている通訳者情報群が有する１または２以上の通訳者識別子に対応する１または２以上の第二端末装置４ａに、画面情報構成部１０３１が構成した画面情報を送信する。

ユーザの端末装置である端末装置２ａを構成する端末格納部２１ａには、例えば、実施の形態１において端末格納部２１に格納されたものと同様の情報（例えば、ユーザ識別子、主第二言語識別子等を含むユーザ情報）が格納される。なお、主第二言語識別子は、本実施の形態では、通常、単に言語識別子と称する。

端末受付部２２ａは、例えば、実施の形態１において端末受付部２２が受け付けたものと同様の指示や情報を受け付ける。また、端末受付部２２ａは、例えば、当該ユーザから通訳者へのチャットの情報（例えば、“もう少し大きな声で話して頂けますか”等）や、ファイル識別子を選択する操作も受け付ける。

端末送信部２３ａは、例えば、実施の形態１において端末送信部２３が送信したものと同様の指示や情報を送信する。また、端末受信部２４ａは、例えば、端末受付部２２ａが受け付けたチャットの情報や、ファイル識別子が選択された旨の情報も送信する。

端末受信部２４ａは、チャットの情報等の情報を、端末格納部２１ａに格納されている端末識別子と対に送信する。また、端末受信部２４ａは、チャットの情報に言語識別子を対応付けて送信する。

端末受信部２４ａは、例えば、実施の形態１において端末受信部２４が受信したものと同様の情報を受信する。また、端末受信部２４ａは、例えば、通訳者から当該ユーザへのチャットの情報やファイル識別子も受信する。チャットの情報に、言語識別子を対応付けて送信する。

端末処理部２５ａは、例えば、実施の形態１において端末処理部２５が行ったものと同様の処理を行う。また、端末処理部２５ａは、端末受信部２４ａが受信したチャットの情報やファイル識別子を画面に表示する処理も行う。

通訳者の端末装置である第二端末装置４ａを構成する第二端末格納部４１には、例えば、第二端末識別子などが格納される。第二端末識別子とは、第二端末装置４ａを識別する情報である。第二端末識別子は、例えば、ＭＡＣアドレス、ＩＰアドレス、ＩＤ等であるが、通訳者識別子でもよい。なお、本実施の形態では、第二端末格納部４１には、通訳者識別子が格納されているものとする。

第二端末受付部４２は、各種の情報を受け付ける。各種の情報とは、例えば、通訳者画像、ミュート指示、ボリューム操作、当該通訳者からユーザへのチャットの情報、当該通訳者から他の通訳者ユーザへのチャットの情報、チャット領域にファイル識別子を入力する操作などである。また、第二端末受付部４２は、例えば、通訳を開始する旨の指示、待機を開始する旨の指示も受け付けてもよい。

第二端末送信部４３は、第二端末受付部４２が受け付けた情報を、第二端末格納部４１に格納されている第二端末識別子と対にサーバ装置１０に送信する。なお、送信される情報は、受け付けられた情報と同じでなくてもよい。例えば、第二端末受付部４２が通訳を開始する旨の指示を受け付けた場合に、処理部１０３が“通訳中”を示す状態情報を生成し、第二端末送信部４３は、当該生成された状態情報を送信してもよい。

第二端末受信部４４は、サーバ装置１０から各種の情報を受信する。各種の情報とは、例えば、第一言語音声、画面情報、ユーザから当該通訳者へのチャットの情報、他の通訳者から当該通訳者へのチャットの情報（例えば、“資料を送って頂いても良いですか”等）、ファイル識別子などである。なお、チャットの情報、ファイル識別子のうち１以上は、画面情報の一部であってもよい。

第二端末処理部４５は、各種の処理を行う。各種の処理とは、例えば、受け付けられた情報の形式を、送信される情報の形式に変換する処理などである。

なお、第二端末処理部４５は、例えば、当該第二端末装置４ａのカメラで撮影した通訳者画像を、第二端末格納部４１に格納されている通訳者識別子と対に、第二端末送信部４３を介してサーバ装置１０に送信する処理も行う。

また、第二端末処理部４５は、例えば、第二端末受付部４２が通訳を開始する旨の指示または待機を開始する旨の指示を受け付けたことに応じて、“通訳中”または“待機中”を示す状態情報を取得し、当該取得した状態情報を通訳者識別子と対に、第二端末送信部４３を介してサーバ装置１０に送信する処理も行ってもよい。なお、例えば、当該第二端末装置４ａの電源オンに応じて、“準備中”を示す状態情報が取得され、通訳者識別子と対にサーバ装置１０に送信されてもよい。

さらに、第二端末処理部４５は、例えば、言語指定ボタンとボリューム操作部品を介して、言語識別子とボリューム情報の対である１または２以上の言語ボリューム情報を受け付け、当該受け付けた１以上の言語ボリューム情報を、受信部１０２を介してサーバ装置１０に送信する処理も行う。

第二端末出力部４６は、各種の情報を出力する。各種の情報とは、例えば、第二端末受信部４４が受信した情報である。

第二端末出力部４６は、例えば、受信された第一言語音声をスピーカを介して出力し、受信された画面情報をディスプレイを介して出力する。これにより、第二端末受付部４２において、スピーカから話者の音声が出力され、ディスプレイには、前述したような画面が表示される。

なお、受信された画面情報が、例えば、２以上のユーザインターフェイス部品、およびレイアウト情報等を含む場合、第二端末出力部４６は、２以上のユーザインターフェイス部品を、画面内のレイアウト情報が示す位置に配置することによって画面を構成し、当該画面をディスプレイに表示してもよい。

格納部１０１、話者情報群格納部１１１、通訳者情報群格納部１１２ａ、ユーザ情報群格納部１１３、端末格納部２１ａ、および第二端末格納部４１は、例えば、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。格納部１０１等に情報が記憶される過程は問わない。

受付部１００、映像受付部１００１、端末受付部２２ａ、および第二端末受付部４２は、入力デバイスを含むと考えても、含まないと考えてもよい。受付部１００等は、入力デバイスのドライバーソフトによって、または入力デバイスとそのドライバーソフトとで実現され得る。

受信部１０２、チャット受信部１０２１、およびファイル受信部１０２２、端末受信部２４ａ、および第二端末受信部４４は、通常、有線または無線の通信手段で実現されるが、放送を受信する手段で実現されてもよい。

処理部１０３、第一言語音声取得部１３１、第二言語音声取得部１３２、第一言語テキスト取得部１３３、第二言語テキスト取得部１３４、翻訳結果取得部１３５、音声特徴量対応情報取得部１３６、反応取得部１３７、学習器構成部１３８、評価取得部１３９、画面情報構成部１０３１、表出部１０３２、端末処理部２５ａ、再生部２５１、および第二端末処理部４５は、通常、ＭＰＵやメモリ等から実現され得る。処理部１０３等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。ただし、処理手順は、ハードウェアで実現してもよい。

送信部１０４、配信部１４ａ、画面情報送信部１０４１、端末送信部２３ａ、および第二端末送信部４３は、通常、有線または無線の通信手段で実現されるが、放送手段で実現されてもよい。

第二端末出力部４６は、ディスプレイやスピーカ等の出力デバイスを含むと考えても含まないと考えてもよい。第二端末出力部４６は、出力デバイスのドライバーソフトによって、または出力デバイスとそのドライバーソフトとで実現され得る。

次に、本実施の形態における通訳システムの動作について図１０および図１１のフローチャートを用いて説明する。

図１０は、サーバ装置１０の動作例を説明するフローチャートである。なお、このフローチャートの処理は、端末装置２ａからのチャットの情報には言語識別子が対応付いており、第二端末装置４ａからのチャットの情報には言語識別子が対応付いていないことを前提としている。

（ステップＳ１００１）処理部１０３は、映像受付部１００１等が映像および２以上の通訳者画像を受信したか否かを判別する。映像受付部１００１等が映像および２以上の通訳者画像を受信したと判別される場合はステップＳ１００２に進み、受信していないと判別される場合はステップＳ１０１１に進む。

（ステップＳ１００２）処理部１０３は、変数ｉに初期値“１”をセットする。変数ｉとは、２以上の第二端末装置４ａのうち未選択の第二端末装置４ａを順番に選択するための変数である。変数ｉは、例えば、通訳者情報群格納部１１２ａに格納されている２以上の通訳者情報を順番に選択する変数である、と考えてもよい。

（ステップＳ１００３）画面情報構成部１０３１は、通訳者情報群格納部１１２ａに格納されている２以上の通訳者情報を参照して、ｉ番目の第二端末装置４ａがあるか否かを判別する。ｉ番目の第二端末装置４ａがあると判別された場合はステップＳ１００４に進み、ないと判別された場合はステップＳ１００１に戻る。

（ステップＳ１００４）画面情報構成部１０３１は、格納部１０１に格納されているユーザインターフェイス部品群とそれに関するレイアウト情報、および格納部１０１に格納されているチャットの情報等とを用いて、ステップＳ１００１で受信された映像および２以上の通訳者画像と、２以上の第一チャット領域および第二チャット領域ならびに各チャット領域に表出されたチャットの情報等とを含む画面の画面情報を構成する。

（ステップＳ１００５）処理部１０３は、チャット受信部１０２１がチャットの情報を受信したか否かを判別する。チャット受信部１０２１がチャットの情報を受信したと判別される場合はステップＳ１００６に進み、受信していないと判別される場合はステップＳ１００９に進む。なお、図示は省略しているが、処理部１０３は、受信されたチャットの情報を格納部１０１に蓄積する処理を行っている。

（ステップＳ１００６）処理部１０３は、ステップＳ１００５で受信されたチャットの情報に言語識別子が対応付いているか否かを判別する。受信されたチャットの情報に言語識別子が対応付いていると判別される場合はステップＳ１００７に進み、対応付いていないと判別される場合はステップＳ１００８に進む。

（ステップＳ１００７）表出部１０３２は、ステップＳ１００５で受信されたチャットの情報に対応付いている言語識別子に対応する第一チャット領域に、ステップＳ１００５で受信されたチャットの情報を追記する。

（ステップＳ１００８）表出部１０３２は、ステップＳ１００５で受信されたチャットの情報を第二チャット領域に追記する。

（ステップＳ１００９）画面情報送信部１０４１は、ステップＳ１００４で構成された画面情報、または、当該画面情報の第一または第二のチャット領域にステップＳ１００７またはステップＳ１００８でチャットの情報が表出された画面情報を、ｉ番目の第二端末装置４ａに送信する。

（ステップＳ１０１０）処理部１０３は、変数ｉをインクリメントする。その後、ステップＳ１００３に戻る。

（ステップＳ１０１１）処理部１０３は、受信部１０２が通訳者識別子と対に状態情報または言語ボリューム情報等を受信したか否かを判別する。受信部１０２が通訳者識別子と対に状態情報または言語ボリューム情報等を受信したと判別された場合はステップＳ１０１２に進み、受信していないと判別された場合はステップＳ１００１に戻る。

（ステップＳ１０１２）処理部１０３は、ステップＳ１０１１で受信された状態情報または言語ボリューム情報等を、当該状態情報等と対に受信された通訳者識別子に対応する通訳者情報にセットする。これによって、当該通訳者情報が有していたカレントの状態情報または言語ボリューム情報等は、ステップＳ１０１１で受信された新たな状態情報または言語ボリューム情報等に更新される。その後、ステップＳ１００３に戻る。

なお、図１０のフローチャートにおいて、画面情報構成部１０３１は、ステップＳ１００４で画面情報を構成する際に、通訳者情報群格納部１１２ａに格納されている通訳者情報群を用いて、例えば、通訳中の通訳者の通訳者画像と、待機中の通訳者の通訳者画像と、準備中の通訳者の通訳者画像とが視覚的に区別可能な態様となるように、画面情報を構成してもよい。

また、図１０のフローチャートにおいて、画面情報構成部１０３１は、ステップＳ１００４で画面情報を構成する際に、通訳者情報群格納部１１２ａに格納されている通訳者情報群を構成する以上の通訳者情報のうち、ｉ番目の第二端末装置４ａに対応する通訳者情報が有する１以上の言語ボリューム情報（図１２参照：後述）を用いて、例えば、ボリューム操作部品を、ｉ番目の第二端末装置４ａに対応する通訳者が設定した言語ボリューム情報に応じた態様となるように、画面情報を構成してもよい。

従って、ステップ１０１２において、状態情報または言語ボリューム情報等が更新された結果、画面内の２以上の通訳者画像またはボリューム操作部品等のユーザインターフェイス部品の態様が視覚的に変化する。

さらに、図１０のフローチャートにおいて、サーバ装置１０の電源オンやプログラムの起動に応じて処理が開始し、電源オフや処理終了の割り込みにより処理は終了する。ただし、処理の開始または終了のトリガは問わない。

図１１は、第二端末装置４ａの動作例を説明するフローチャートである。

（ステップＳ１１０１）第二端末処理部４５は、第二端末受信部４４が画面情報を受信したか否かを判別する。第二端末受信部４４が画面情報を受信したと判別された場合はステップＳ１１０２に進み、受信していないと判別された場合はステップＳ１１０４に進む。

（ステップＳ１１０２）第二端末処理部４５は、ステップＳ１１０１で受信された画面情報を用いて画面を構成する。

（ステップＳ１１０３）第二端末出力部４６は、ステップＳ１１０１で構成された画面を出力する。その後、ステップＳ１１０１に戻る。

（ステップＳ１１０４）第二端末処理部４５は、第二端末受付部４２が指示を受け付けたか否かを判別する。なお、指示は、例えば、言語の指定、ミュート指示、ボリューム操作等であるが、通訳を開始する旨の指示、待機を開始する旨の指示でもよい。第二端末受信部４４が画面情報を受信したと判別された場合はステップＳ１１０２に進み、受信していないと判別された場合はステップＳ１１０４に進む。

（ステップＳ１１０５）第二端末処理部４５は、ステップＳ１１０４で受信された指示に応じた処理を実行する。なお、指示に応じた処理は、例えば、言語の指定に応じてカレントの言語を切り替える処理、ミュート指示に応じて通訳者の音声をミュートする処理、ボリューム操作に応じてボリュームを設定する処理などである。または、指示に応じた処理は、例えば、通訳を開始する旨の指示に応じて、“待機中”または“準備中”を示す状態情報を“通訳中”に変更する処理、待機を開始する旨の指示に応じて、“準備中”または“通訳中”を示す状態情報を“待機中”に変更する処理などでもよい。

（ステップＳ１１０６）第二端末送信部４３は、ステップＳ１１０４で受信された指示に対応する情報をサーバ装置１０に送信する。なお、指示に対応する情報は、例えば、指定された言語を識別する言語識別子、ミュート中である旨の情報、言語ボリューム情報等であるが、“通訳中”、“待機中”、または“準備中”を示す状態情報でもよく、その種類は問わない。その後、ステップＳ１１０１に戻る。

ただし、ステップＳ１１０６での情報の送信は、必須ではない。

また、図１１のフローチャートにおいて、第二端末装置４ａの電源オンやプログラムの起動に応じて処理が開始し、電源オフや処理終了の割り込みにより処理は終了する。ただし、処理の開始または終了のトリガは問わない。

以下、本実施の形態における通訳システムの具体的な動作例について説明する。本例における通訳システムは、サーバ装置１０、２以上の端末装置２ａ、話者装置３、および２以上の第二端末装置４ａを備える。サーバ装置１０は、ネットワーク等を介して、２以上の端末装置２ａ、話者装置３、および２以上の第二端末装置４ａの各々と通信可能である。また、サーバ装置１０には、会場を撮影するカメラが、ネットワーク等を介して、または有線または無線で直接、接続されている。

サーバ装置１０の通訳者情報群格納部１１２ａには、例えば、図１２に示すような２以上の通訳者情報が格納され得る。通訳者情報は、例えば、通訳者識別子、通訳者画像、状態情報、および１または２以上の言語ボリューム情報などを有する。言語ボリューム情報は、言語識別子およびボリューム情報を有する。

なお、通訳者情報は、例えば、実施の形態１で説明した評価値なども有していてもよい。また、一の通訳者情報が１つの言語ボリューム情報のみを有する場合において、当該言語ボリューム情報を構成する言語識別子は、例えば、実施の形態１における第二言語識別子であってもよい。さらに、一の通訳者情報が２つの言語ボリューム情報を有する場合において、１つ目の言語ボリューム情報を構成する言語識別子は、例えば、実施の形態１における第二言語識別子であり、２つ目の言語ボリューム情報を構成する言語識別子は、例えば、実施の形態１における第一言語識別子であってもよい。

格納される通訳者情報には、ＩＤ（例えば、“１”，“２”等）が対応付いている。例えば、ＩＤ“１”に対応付いた通訳者情報（以下、通訳者情報１と記す場合がある）は、通訳者識別子“ＩＴＯ”、通訳者画像“ａａ．ｍｐｇ”、状態情報“通訳中”、および２つの言語ボリューム情報“（日本語，９）”および“（英語，０）”などを有する。また、ＩＤ“２”に対応付いた通訳者情報（通訳者情報２）は、通訳者識別子“Ｃａｔｈｙ”、通訳者画像“ｂｂ．ｍｐｇ”、状態情報“待機中”、および２つの言語ボリューム情報“（英語本語，５）”および“（日本語，０）”などを有する。同様に、通訳者情報３は、通訳者識別子“Ｂｒｅｎｄａ”、通訳者画像“ｃｃ．ｍｐｇ”、状態情報“準備中”、および言語ボリューム情報“（英語本語，５）”などを有する。

ただし、上記３つの通訳者情報１～３において、状態情報は、当初、いずれも“準備中”である。また、通訳者情報１が有する２つの言語ボリューム情報は、当初、“（日本語，５）”および“（英語，０）”である。

格納部１０１には、映像表示領域、通訳者画像表示領域、テキスト表示領域、２つの第一チャット領域、２つの第二チャット領域、および操作領域等のユーザインターフェイス部品群と、当該ユーザインターフェイス部品群に関するレイアウト情報とが格納されている。

なお、２つの第二チャット領域のうち、１つ目の第チャット領域は、通訳中の通訳者と待機中の通訳者とのチャット用であり、以下では、この１つ目のチャット領域を、単に「第二チャット領域」と称する。

２以上の端末装置２ａのうち、１以上では、第二言語音声が選択されており、第二端末装置４ａとの間で第二言語のチャットも行える。また、２以上の端末装置２ａのうち、他の１以上では、第一言語音声が選択されており、第二端末装置４ａとの間で第一言語のチャットも行える。

２以上の第二端末装置４ａのうち、１つ（以下、第二端末装置４ａＸ）は、一人目の通訳者“ＩＴＯ”の端末装置であり、他の１つ（第二端末装置４ａＹ）は、二人目の通訳者“Ｃａｔｈｙ”の端末装置であり、その他の１つ（第二端末装置４ａＺ）は、三人目の通訳者“Ｂｒｅｎｄａ”の端末装置である。

第二端末装置４ａＸの第二端末格納部４１には、通訳者識別子“ＩＴＯ”が格納され、第二端末装置４ａＹの第二端末格納部４１には、通訳者識別子“Ｃａｔｈｙ”が格納され、第二端末装置４ａＺの第二端末格納部４１には、通訳者識別子“Ｂｒｅｎｄａ”が格納されている。

いま、最初に通訳を行う“ＩＴＯ”さんが、第二端末装置４ａＸが有するタッチパネル等の入力デバイスを介して、通訳を開始する旨の指示を入力したとする。第二端末装置４ａＸにおいて、第二端末受信部４４が上記指示を受け付け、第二端末処理部４５は、“通訳中”を示す状態情報を生成し、第二端末送信部４３は、生成された状態情報を通訳者識別子“ＩＴＯ”と対にサーバ装置１０に送信する。

サーバ装置１０において、受信部１０２が上記状態情報を通訳者識別子“ＩＴＯ”と対に受信し、処理部１０３は、受信された状態情報を、通訳者識別子“ＩＴＯ”に対応する状態情報１にセットする。これによって、通訳者情報１が有する状態情報は、“準備中”から“通訳中”に更新される。

また、２番目に通訳を行う“Ｃａｔｈｙ”さんが、第二端末装置４ａＹの入力デバイスを介して、待機を開始する旨の指示を入力したとする。第二端末装置４ａＹにおいて、第二端末受信部４４が上記指示を受け付け、第二端末処理部４５は、“待機中”を示す状態情報を生成し、第二端末送信部４３は、生成された状態情報を通訳者識別子“Ｃａｔｈｙ”と対にサーバ装置１０に送信する。

サーバ装置１０において、受信部１０２が上記状態情報を通訳者識別子“Ｃａｔｈｙ”と対に受信し、処理部１０３は、受信された状態情報を、通訳者識別子“Ｃａｔｈｙ”に対応する状態情報２にセットする。これによって、通訳者情報２が有する状態情報は、“準備中”から“待機中”に更新される。

その後、カメラの電源がオンされ、映像受付部１００１が、カメラから会場を撮影した映像を受け付けると、画面情報構成部１０３１は、格納部１０１に格納されているユーザインターフェイス部品群とレイアウト情報を用いて、ユーザインターフェイス部品群がレイアウト情報の示す位置に配置された初期画面の画面情報を構成する。

次に、画面情報構成部１０３１は、構成した初期画面が有する映像表示領域に、受け付けられた映像を表示する。また、画面情報構成部１０３１は、通訳者情報群格納部１１２ａに格納されている２以上の通訳者情報１～３等を用いて、２以上の通訳者画像“ａａ．ｊｐｇ”，“ｂｂ．ｊｐｇ”，および“ｃｃ．ｊｐｇ”等を取得し、当該取得した２以上の通訳者画像を、当該初期画面が有する通訳者画像表示領域に表示する。これにより、会場を撮影した映像が映像表示領域に表示され、２以上の通訳者画像が通訳者領域に表示された画面の画面情報が構成される。

その際、画面情報構成部１０３１は、格納されている通訳者情報１～３を参照して、通訳者識別子“ＩＴＯ”に対応する状態情報が“通訳中”であり、通訳者識別子“Ｃａｔｈｙ”に対応する状態情報が“待機中”であり、通訳者識別子“Ｂｒｅｎｄａ”に対応する状態情報が“準備中”であることから、通訳者識別子“ＩＴＯ”に対応する通訳者画像“ａａ．ｍｐｇ”が拡大され、通訳者識別子“ＩＴＯ”に対応する通訳者画像“ｂｂ．ｍｐｇ”に枠が付された画面情報を構成する。これにより、現在、通訳を行っている通訳者と、現在、通訳を行っていない通訳者とを、視覚的に区別可能な画面の画面構成情報が構成される。また、現在、通訳を行っていない通訳者のうち、通訳を行う準備ができている通訳者と、通訳を行う準備が未だできていない通訳者とを、視覚的に区別可能な画面の画面構成情報が構成される。

会場内において、話者は、英語でスピーチし、会場の内外に居る２以上の通訳者が、英語で話された内容を日本語に通訳する。つまり、本例において、第一言語は英語であり、第二言語は日本語である。また、本例において、２以上の通訳者は、例えば、１５分交代で、順番に、英語から日本語への通訳を担当する。

話者が話を開始すると、発話された音声は、話者装置３のマイクで捉えられ、マイクから出力される音声信号がサーバ装置１０に送信される。サーバ装置１０において、受信部１０２が上記音声信号を受信し、第一言語音声取得部１３１は、受信された音声信号から第一言語音声を取得する。配信部１４ａは、取得された第一言語音声を、２以上の第二端末装置４ａに配信する。

第二端末装置４ａＸにおいて、第二端末受信部４４が上記第一言語音声を受信し、第二端末出力部４６は、受信された第一言語音声を出力する。“ＩＴＯ”さんは、出力された第一言語音声を聴き取り、第二言語に通訳する。第二端末受付部４２は、通訳者“ＩＴＯ”による第二言語音声を受け付け、第二端末送信部４３は、受け付けられた第二言語音声をサーバ装置１０に送信する。

サーバ装置１０において、第二言語音声取得部１３２が、受信部１０２を介して上記第二言語音声を受信し、配信部１４ａは、当該第二言語音声を、２以上の端末装置２ａに配信する。

２以上の各端末装置２ａにおいて、端末受信部２４ａが、上記第一言語音声および上記第二言語音声を受信する。２以上の端末装置２ａのうち、第二言語音声が選択されている１以上の各端末装置２ａにおいては、受信された第一言語音声と第二言語音声のうち第二言語音声が出力され、第一言語音声が選択されている１以上の各端末装置２ａにおいては、受信された受信された第一言語音声と第二言語音声のうち第一言語音声が出力される。

いま、第二言語音声が選択されている１以上の端末装置２ａのうち一の端末装置２ａのユーザが、チャットの情報“もう少し大きな声で話して頂けますか”を入力したとする。当該一の端末装置２ａにおいて、端末受付部２２ａが当該チャットの情報を受け付け、端末送信部２３ａは、受け付けられたチャットの情報を、選択されている第二言語を識別する言語識別子“日本語”および端末識別子と対に、サーバ装置１０に送信する。

サーバ装置１０において、チャット受信部１０２１が上記チャットの情報を言語識別子“日本語”および端末識別子と対に受信し、表出部１０３２は、当該言語識別子“日本語”に対応する１番目の第一チャット領域に、受信されたチャットの情報を表出させ、画面情報構成部１０３１は、第一チャット領域に、受信されたチャットの情報が表出された画面の画面情報を構成する。

こうして、例えば、図１３に示すような画面の画面情報が構成される。画面情報送信部１０４１は、構成された画面情報を第二端末装置４ａＸに送信する。

なお、図１３の画面には、他の１以上のカメラからの１以上の映像も、上記カメラからの映像の横に表示されているが、２以上のカメラからの映像を一の画面内に表示する技術は、公知であり、説明を省略する。また、画面内の２つの第二チャット領域のうち、２つ目（つまり、右端）の第二チャット領域は、通訳者を含む全てのスタッフがチャットを行う領域であるが、三人以上でチャットを行う技術は公知であり、説明を省略する。また、画面内のその他のインターフェイス部品（例えば、左右２つのミュートボタン等）については、前述したので繰り返さない。

第二端末装置４ａＸにおいて、第二端末受信部４４が上記画面情報を受信し、第二端末出力部４６は、受信された画面情報をディスプレイに表示する。第二端末装置４ａＸのディスプレイには、２つの第一チャット領域のうち、言語識別子“日本語”に対応する第一チャット領域に、チャットの情報“もう少し大きな声で話して頂けますか”が表出された画面が表示される。

“ＩＴＯ”さんは、言語識別子“日本語”に対応するボリューム情報を現状の“５”から“９”に変更するボリューム操作を、第二端末装置４ａＸのディスプレイに表示されている画面内のボリューム操作部品を介して入力したとする。

第二端末装置４ａＸにおいて、第二端末受付部４２が上記ボリューム操作を受け付け、第二端末処理部４５は、言語識別子“日本語”とボリューム情報“９”の組を有する言語ボリューム情報“（日本語，９）”を生成し、第二端末送信部４３は、生成された言語ボリューム情報を通訳者識別子“ＩＴＯ”と対にサーバ装置１０に送信する。

サーバ装置１０において、受信部１０２が上記言語ボリューム情報を通訳者識別子“ＩＴＯ”と対に受信し、処理部１０３は、通訳者識別子“ＩＴＯ”に対応する２つの言語ボリューム情報のうち、言語識別子“日本語”を有する１番目の言語ボリューム情報“（日本語，５）”を、受信された言語ボリューム情報“（日本語，９）”に更新する。

配信部１４ａは、言語識別子“日本語”に対応する第二言語音声のボリュームを“５”から“９”に上げ、ボリューム“９”の第一言語音声を２以上の端末装置２ａに配信する。

ユーザがチャットの情報“もう少し大きな声で話して頂けますか”を入力した上記一の端末装置２ａにおいて、端末受信部２４ａが、上記ボリューム“９”の第一言語音声を受信し、再生部２５１は、受信された第一言語音声を再生する。これにより、当該一の端末装置２ａのスピーカから、ボリューム“９”の第一言語音声が出力される。

なお、待機中の通訳者である“Ｃａｔｈｙ”が、第二端末装置４ａＹの入力デバイスを介して、例えば、チャットの情報“資料を送って頂いても良いですか”を入力した場合の動作は、次のようになる。

第二端末装置４ａＹにおいて、第二端末受付部４２ａが当該チャットの情報を受け付け、第二端末送信部４３は、受け付けられたチャットの情報を通訳者識別子と対に、サーバ装置１０に送信する。

サーバ装置１０において、チャット受信部１０２１が上記チャットの情報を端末識別子と対に受信し、表出部１０３２が、第二チャット領域に、受信されたチャットの情報を表出させることにより、画面情報構成部１０３１は、第二チャット領域に、受信されたチャットの情報が表出された画面の画面情報を構成する。画面情報送信部１０４１は、構成された画面情報を第二端末装置４ａＸに送信する。

第二端末装置４ａＸにおいて、第二端末受信部４４が上記画面情報を受信し、第二端末出力部４６は、受信された画面情報をディスプレイに表示する。第二端末装置４ａＸのディスプレイには、第二チャット領域に、チャットの情報“資料を送って頂いても良いですか”が表出された画面が表示される。

“ＩＴＯ”さんは、第二端末装置４ａＸの入力デバイスを介して、ファイル識別子“パワポデータ．ｐｐｔ”を第二チャット領域に入力したとする。

第二端末装置４ａＸにおいて、第二端末受付部４２が上記ファイル識別子を受け付け、第二端末送信部４３は、受け付けられたファイル識別子を有するファイルを通訳者識別子“ＩＴＯ”と対にサーバ装置１０に送信する。

サーバ装置１０において、受信部１０２が上記ファイルを通訳者識別子“ＩＴＯ”と対に受信し、処理部１０３は、受信されたファイルを通訳者識別子“ＩＴＯ”に対応付けて格納部１０１に蓄積する。

次に、表出部１０３２が、第二チャット領域に、上記ファイル識別子“パワポデータ．ｐｐｔ”を表出させることにより、画面情報構成部１０３１は、第二チャット領域に、受信されたチャットの情報が表出された画面の画面情報を構成する。画面情報送信部１０４１は、構成された画面情報を第二端末装置４ａＹに送信する。

第二端末装置４ａＹにおいて、第二端末受信部４４が上記画面情報を受信し、第二端末出力部４６は、受信された画面情報をディスプレイに表示する。第二端末装置４ａＹのディスプレイには、第二チャット領域にファイル識別子“パワポデータ．ｐｐｔ”が表出された画面が表示される。

“Ｃａｔｈｙ”さんは、第二端末装置４ａＹの入力デバイスを介して、ファイル識別子“パワポデータ．ｐｐｔ”を選択したとする。

第二端末装置４ａＹにおいて、第二端末受付部４２が上記ファイル識別子の選択を受け付け、第二端末送信部４３は、当該ファイル識別子が選択された旨の情報を通訳者識別子“Ｃａｔｈｙ”と対にサーバ装置１０に送信する。

サーバ装置１０において、受信部１０２が上記情報を通訳者識別子“Ｃａｔｈｙ”と対に受信し、処理部１０３は、当該情報が有するファイル識別子“パワポデータ．ｐｐｔ”で識別されるファイルを格納部１０１から取得し、第二端末装置４ａＹに送信する。

第二端末装置４ａＹにおいて、第二端末受信部４４が上記ファイルを受信する。これにより、通訳者間でのファイルの転送が実現される。

以上、本実施の形態によれば、通訳者情報群格納部１１２ａに、通訳者の画像である通訳者画像を含む２以上の通訳者情報を有する通訳者情報群が格納され、サーバ装置１０は、会場を撮影した映像を受け付け、受け付けた映像と２以上の通訳者画像を含む画面を構成する画面情報を構成し、構成した画面情報を２以上の通訳者の第二端末装置４ａに送信することにより、２以上の各通訳者の端末に、会場を撮影した映像と２以上の通訳者画像を含む画面を表示する仕組みを提供できる。

また、サーバ装置１０は、予め決められた条件を満たすほど明瞭性が低い２以上の通訳者画像を含む画面を構成することにより、各通訳者を識別できるが、その細部（例えば、化粧の有無等）までは分からない画面を表示できる。

また、通訳者情報は、通訳者識別子を有し、２以上の通訳者情報の中の１以上の通訳者情報は、現在、通訳を行っている通訳者、または現在、通訳を行っていない通訳者を特定する状態情報を有し、サーバ装置１０は、状態情報を用いて、現在、通訳中の通訳者の通訳者画像と、現在、通訳を行っていない通訳者の通訳者画像とを視覚的に区別可能な態様で、受け付けた映像と２以上の通訳者画像を含む画面を構成することにより、２以上の通訳者のうち、どの通訳者が通訳中であるかが分かる画面を表示できる。

また、通訳者情報は、現在、通訳を行っていること、通訳を行う準備ができていること、または通訳を行う準備ができていないことの少なくとも３つの状態のうちのいずれかの状態を示す状態情報を有し、サーバ装置１０は、状態情報を用いて、各通訳者の状態を視覚的に区別可能な態様で、受け付けた映像と２以上の通訳者画像を含む画面を構成することにより、２以上の通訳者のうち、どの通訳者が通訳中であり、どの通訳者が次に通訳を行うかがわかる画面を表示できる。

また、サーバ装置１０は、チャットの情報を端末装置２ａまたは第二端末装置４ａから受信し、ユーザの端末装置２ａとチャットを行う第一チャット領域、スタッフの第二端末装置４ａとチャットを行う第二チャット領域のいずれか１以上のチャット領域を含む画面であり、チャット領域に受信したチャットの情報が表出した画面の画面情報を構成することにより、通訳者がユーザまたはスタッフのうち１以上とチャットを行える画面を表示できる。

また、通訳者情報は、通訳可能な２以上の言語を識別する２以上の言語識別子を有し、サーバ装置１０は、２以上の各言語識別子に対応するチャットの領域である２以上の第一チャット領域を有する画面の画面情報を構成することにより、通訳者が２以上の言語でユーザとチャットを行える画面を表示できる。

また、サーバ装置１０は、通訳者の操作を受け付ける１以上の操作対象の領域である操作領域が画面の下部に位置し、受け付けた映像が画面の上部に位置するように画面情報を構成することにより、視認性および操作性に優れた画面を表示できる。

また、サーバ装置１０は、通訳者の音声をミュートする２つのミュートボタンが、それぞれ画面の左下側、および画面の右下側に位置するように画面情報を構成することにより、通訳者がその利き腕によらず音声を容易にミュートし得る画面を表示できる。

また、通訳者情報は、通訳者が設定したボリュームであり、２以上の各言語に対応するボリュームを特定するボリューム情報を言語識別子に対応付けて有し、通訳者の第二端末装置４ａにおいて、言語識別子で識別される言語の音声が、言語識別子と対になるボリューム情報により特定されるボリュームで入力されることにより、サーバ装置１０は、通訳者が２以上の各言語ごとにボリュームの設定を行える画面を表示できる。

また、サーバ装置１０は、言語識別子に対応する２種類以上のユーザインターフェイス部品を有する画面情報を構成し、第二端末装置４ａから、２種類以上のユーザインターフェイス部品のうちのいずれかの種類のユーザインターフェイス部品に対して、言語識別子を決定する指示が受け付けられた場合に、２種類以上のすべてのユーザインターフェイス部品のカレントの言語を指示に対応する言語識別子で識別される言語とするように、第二端末装置４ａにおいて画面が変更されることにより、サーバ装置１０は、２種類以上のいずれかのユーザインターフェイス部品に対する言語識別子の決定の指示に応じて、２種類以上の全てのユーザインターフェイス部品のカレントの言語が変更される画面を表示できる。

また、２種類以上のユーザインターフェイス部品は、ボリューム操作のためのユーザインターフェイス部品と、通訳用または通訳結果のテキストの表示領域のユーザインターフェイス部品であることにより、サーバ装置１０は、ボリューム操作用またはテキスト表示用のいずれか一方のユーザインターフェイス部品に対する言語識別子の決定の指示に応じて、ボリューム操作用およびテキスト表示用の両方のユーザインターフェイス部品のカレントの言語が変更される画面を表示できる。

なお、本実施の形態におけるサーバ装置１０を実現するソフトウェアは、例えば、以下のようなプログラムである。つまり、通訳者の画像である通訳者画像を含む２以上の通訳者情報を有する通訳者情報群が格納される通訳者情報群格納部にアクセス可能なコンピュータを、会場を撮影した映像を受け付ける映像受付部と、前記映像受付部が受け付けた映像と２以上の通訳者画像を含む画面を構成する画面情報を構成する画面情報構成部と、前記画面情報構成部が構成した画面情報を２以上の通訳者の第二端末装置に送信する画面情報送信部として機能させるためのプログラムである。

図１４は、各実施の形態におけるプログラムを実行して、サーバ装置１等を実現するコンピュータシステム９００の外観図である。本実施の形態は、コンピュータハードウェアおよびその上で実行されるコンピュータプログラムによって実現され得る。図１４において、コンピュータシステム９００は、ディスクドライブ９０５を含むコンピュータ９０１と、キーボード９０２と、マウス９０３と、ディスプレイ９０４と、マイクロフォン９１７と、スピーカ９１８とを備える。なお、キーボード９０２やマウス９０３やディスプレイ９０４やマイクロフォン９１７スピーカ９１８をも含むシステム全体をコンピュータと呼んでもよい。

図１５は、コンピュータシステム９００の内部構成の一例を示す図である。図１５において、コンピュータ９０１は、ディスクドライブ９０５に加えて、ＭＰＵ９１１と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ９１２と、ＭＰＵ９１１に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するＲＡＭ９１３と、アプリケーションプログラム、システムプログラム、およびデータを記憶するストレージ９１４と、ＭＰＵ９１１、ＲＯＭ９１２等を相互に接続するバス９１５と、外部ネットワークや内部ネットワーク等のネットワークへの接続を提供するネットワークカード９１６と、マイクロフォン９１７と、スピーカ９１８と、を備える。ストレージ９１４は、例えば、ハードディスク、ＳＳＤ、フラッシュメモリなどである。

コンピュータシステム９００に、サーバ装置１等の機能を実行させるプログラムは、例えば、ＤＶＤ、ＣＤ－ＲＯＭ等のディスク９２１に記憶されて、ディスクドライブ９０５に挿入され、ストレージ９１４に転送されてもよい。これに代えて、そのプログラムは、ネットワークを介してコンピュータ９０１に送信され、ストレージ９１４に記憶されてもよい。プログラムは、実行の際にＲＡＭ９１３にロードされる。なお、プログラムは、ディスク９２１、またはネットワークから直接、ロードされてもよい。また、ディスク９２１に代えて他の着脱可能な記録媒体（例えば、ＤＶＤやメモリカード等）を介して、プログラムがコンピュータシステム９００に読み込まれてもよい。

プログラムは、コンピュータの詳細を示す９０１に、サーバ装置１等の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能やモジュールを呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム９００がどのように動作するのかについては周知であり、詳細な説明は省略する。

なお、上述したコンピュータシステム９００は、サーバまたは据え置き型のＰＣであるが、端末装置２は、例えば、タブレット端末やスマートフォンやノートＰＣといった、携帯端末で実現されてもよい。この場合、例えば、キーボード９０２およびマウス９０３はタッチパネルに、ディスクドライブ９０５はメモリカードスロットに、ディスク９２１はメモリカードに、それぞれ置き換えられることが望ましい。話者装置３や通訳者装置４も、基本的なハードウェア構成は、ＰＣや携帯端末と同様でよい。ただし、以上は例示であり、サーバ装置１等を実現するコンピュータのハードウェア構成は問わない。

なお、上記プログラムにおいて、情報を送信する送信ステップや、情報を受信する受信ステップなどでは、ハードウェアによって行われる処理、例えば、送信ステップにおけるモデムやインターフェースカードなどで行われる処理（ハードウェアでしか行われない処理）は含まれない。

また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、一のコンピュータが集中処理を行ってもよく、あるいは複数のコンピュータが分散処理を行ってもよい。

また、上記各実施の形態において、一の装置に存在する２以上の通信手段（端末情報送信部２３、端末受信部２４など）は、物理的に一の媒体で実現されてもよいことは言うまでもない。

また、上記各実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。

本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上のように、本発明にかかる通訳システムは、サーバ装置と２以上の端末装置とで実現される通訳システムであって、サーバ装置が１以上の通訳者の言語に関する情報を的確に管理する通訳システムを提供できるという効果を有し、通訳システム等として有用である。また、本発明にかかるサーバ装置は、２以上の各通訳者の端末に、会場を撮影した映像と２以上の通訳者画像を含む画面を表示できるという効果を有し、サーバ装置等として有用である。

Claims

サーバ装置と１または２以上の端末装置とで実現される通訳システムを構成する端末装置であって、
前記サーバ装置は、
第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子とを有する１以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部と、
前記１以上の各端末装置のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する１以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部と、
一の話者が話す第一の言語の音声を１以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである１以上の第二言語音声を取得する第二言語音声取得部と、
前記ユーザ情報群を用いて、前記１以上の各端末装置に、前記第二言語音声取得部が取得した１以上の第二言語音声のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を、配信する配信部とを具備し、
前記端末装置は、
前記サーバ装置から配信される第二言語音声を受信する端末受信部と、
前記端末受信部が受信した第二言語音声を再生する再生部とを具備し、
前記再生部は、
第二言語音声の再生を中断後に再開する場合、当該第二言語音声の未再生部分を、早送りで追っかけ再生する、端末装置。
前記再生部は、
前記未再生部分の追っかけ再生を、当該未再生部分の遅延時間または当該未再生部分のデータ量のうち１以上に応じた速度の早送りで行う請求項１記載の端末装置。
前記再生部は、
前記未再生部分の追っかけ再生を、当該未再生部分のデータ量が予め決められた閾値を超えた又は閾値以上となったことに応じて開始する請求項１記載の端末装置。
第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子とを有する１以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部と、
１以上の各端末装置のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する１以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部と、
一の話者が話す第一の言語の音声を１以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである１以上の第二言語音声を取得する第二言語音声取得部と、
前記ユーザ情報群を用いて、前記１以上の各端末装置に、前記第二言語音声取得部が取得した１以上の第二言語音声のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を配信する配信部と、
前記一の話者が話した第一の言語の音声を音声認識したテキストのデータである第一言語テキストを取得する第一言語テキスト取得部と、
前記ユーザ情報群が有する２以上の第二言語識別子のうち、前記通訳者情報群が有する１以上の第二言語識別子のいずれとも異なる１以上の第二言語識別子に対応する１以上の翻訳結果のみを取得し、前記通訳者情報群が有する１以上の第二言語識別子のいずれかと同じ１以上の第二言語識別子に対応する１以上の翻訳結果を取得しない翻訳結果取得部とを具備し、
前記配信部は、
前記ユーザ情報群を用いて、前記１以上の各端末装置に、前記翻訳結果取得部が取得した１以上の翻訳結果のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する翻訳結果をも配信するサーバ装置。
サーバ装置と１または２以上の端末装置とで実現される通訳システムを構成する端末装置であって、
前記サーバ装置は、
第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子とを有する１以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部と、
前記端末装置のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する１以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部と、
一の話者が話す第一の言語の音声を１以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである１以上の第二言語音声を取得する第二言語音声取得部と、
前記ユーザ情報群を用いて、前記１以上の各端末装置に、前記第二言語音声取得部が取得した１以上の第二言語音声のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を、配信する配信部とを具備し、
前記端末装置は、
前記サーバ装置から配信される第二言語音声を受信する端末受信部と、
前記端末受信部が受信した第二言語音声を再生する再生部とを具備し、、
前記サーバ装置は、
前記第二言語音声取得部が取得した１以上の第二言語音声をそれぞれ音声認識したテキストのデータである１以上の第二言語テキストを取得する第二言語テキスト取得部をさらに具備し、
前記配信部は、
前記第二言語テキスト取得部が取得した１以上の第二言語テキストを前記端末装置に配信し、
前記端末受信部は、
前記サーバ装置から配信される１以上の第二言語テキストをも受信し、
前記再生部は、
前記１以上の第二言語テキストをも出力し、
前記端末装置は、
音声またはテキストのうち１以上のデータ形式を選択する操作を受け付け得る端末受付部をさらに具備し、
前記再生部は、
当該端末装置のユーザに関するユーザ情報が有する第二言語識別子に対応する第二言語音声、または当該第二言語音声を音声認識した第二言語テキストのうち、選択された１以上のデータ形式に対応する１以上のデータを出力し、
前記端末受信部は、
前記第二言語テキストに加えて、他の言語である副第二言語の第二言語テキストをも受信し、
前記再生部は、
前記端末受信部が受信した前記第二言語テキストと前記副第二言語の第二言語テキストとを出力する、通訳システムを構成する端末装置。
第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子とを有する１以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部と、
１以上の各端末装置のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する１以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部と、
一の話者が話す第一の言語の音声を１以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである１以上の第二言語音声を取得する第二言語音声取得部と、
前記ユーザ情報群を用いて、前記１以上の各端末装置に、前記第二言語音声取得部が取得した１以上の第二言語音声のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を、配信する配信部とを具備し、
前記通訳者情報群格納部および前記ユーザ情報群格納部には、
会場を識別する会場識別子に対応付けて、１以上の通訳者情報群および１以上のユーザ情報群がそれぞれ格納され、
前記ユーザ情報は、会場識別子をさらに有し、
前記第二言語音声取得部および前記配信部は、２以上の各会場識別子ごとに、１以上の第二言語音声の取得および配信を行うサーバ装置。
第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子とを有する１以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部と、
１以上の各端末装置のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する１以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部と、
一の話者が話す第一の言語の音声を１以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである１以上の第二言語音声を取得する第二言語音声取得部と、
前記ユーザ情報群を用いて、前記１以上の各端末装置に、前記第二言語音声取得部が取得した１以上の第二言語音声のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を、配信する配信部と、
前記一の話者が話した第一の言語の音声のデータである第一言語音声を取得する第一言語音声取得部と、
前記第一言語音声取得部が取得した第一言語音声と、前記第二言語音声取得部が取得した１以上の第二言語音声とを用いて、第一言語識別子および第二言語識別子の組である１以上の各言語情報ごとに、第一言語音声および第二言語音声の特徴量の対応である音声特徴量対応情報を取得する音声特徴量対応情報取得部と、
前記１以上の各言語情報ごとに、前記音声特徴量対応情報を用いて、前記第一言語音声を入力とし、前記第二言語音声を出力とする学習器を構成する学習器構成部とを具備するサーバ装置。
端末装置で再生された第二言語音声に対する前記ユーザの反応に関する情報である反応情報を取得する反応取得部をさらに具備し、
前記学習器構成部は、
前記反応情報を用いて選別された、２以上の第一言語音声と第二言語音声との組から取得された音声特徴量対応情報を用いて、学習器を構成する請求項７記載のサーバ装置。
端末装置で再生された第二言語音声に対する前記ユーザの反応に関する情報である反応情報を取得する反応取得部と、
１以上の各通訳者ごとに、当該通訳者に対応する反応情報を用いて、当該通訳者の評価に関する評価情報を取得する評価取得部とをさらに具備する請求項７記載のサーバ装置。
第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子と、通訳者の画像である通訳者画像とを有する１以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部と、
１以上の各端末装置のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する１以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部と、
一の話者が話す第一の言語の音声を１以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである１以上の第二言語音声を取得する第二言語音声取得部と、
前記ユーザ情報群を用いて、前記１以上の各端末装置に、前記第二言語音声取得部が取得した１以上の第二言語音声のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を、配信する配信部と、
会場を撮影した映像を受け付ける映像受付部と、
前記映像受付部が受け付けた映像と前記２以上の通訳者情報が有する２以上の通訳者画像を含む画面を構成する画面情報を構成する画面情報構成部と、
前記画面情報構成部が構成した画面情報を２以上の通訳者の第二端末装置に送信する画面情報送信部とを具備する、サーバ装置。
前記画面情報構成部は、予め決められた条件を満たすほど明瞭性が低い２以上の通訳者画像を含む画面を構成する請求項１０記載のサーバ装置。
前記２以上の通訳者情報の中の１以上の通訳者情報は、現在、通訳を行っている通訳者、または現在、通訳を行っていない通訳者を特定する状態情報をさらに有し、
前記画面情報構成部は、
前記状態情報を用いて、現在、通訳中の通訳者の通訳者画像と、現在、通訳を行っていない通訳者の通訳者画像とを視覚的に区別可能な態様で、前記映像受付部が受け付けた映像と前記２以上の通訳者画像を含む画面を構成する請求項１０記載のサーバ装置。
前記通訳者情報は、現在、通訳を行っていること、通訳を行う準備ができていること、または通訳を行う準備ができていないことの少なくとも３つの状態のうちのいずれかの状態を示す状態情報を有し、
前記画面情報構成部は、
前記状態情報を用いて、各通訳者の状態を視覚的に区別可能な態様で、前記映像受付部が受け付けた映像と前記２以上の通訳者画像を含む画面を構成する請求項１２記載のサーバ装置。
チャットの情報を端末装置または第二端末装置から受信するチャット受信部をさらに具備し、
前記画面情報構成部は、
ユーザの端末装置とチャットを行う第一チャット領域、スタッフの第二端末装置とチャットを行う第二チャット領域のいずれか１以上のチャット領域を含む画面であり、前記チャット領域に前記チャット受信部が受信したチャットの情報が表出した画面の画面情報を構成する請求項１０記載のサーバ装置。
前記通訳者情報は、通訳可能な２以上の言語を識別する２以上の言語識別子を有し、
前記画面情報構成部は、
前記２以上の各言語識別子に対応するチャットの領域である２以上の第一チャット領域を有する画面の画面情報を構成する請求項１４記載のサーバ装置。
前記画面情報構成部は、
通訳者の操作を受け付ける１以上の操作対象の領域である操作領域が画面の下部に位置し、前記映像受付部が受け付けた映像が画面の上部に位置するように画面情報を構成する請求項１０記載のサーバ装置。
前記画面情報構成部は、
通訳者の音声をミュートする２つのミュートボタンが、それぞれ画面の左下側、および画面の右下側に位置するように画面情報を構成する請求項１６記載のサーバ装置。
前記通訳者情報は、通訳者が設定したボリュームであり、２以上の各言語に対応するボリュームを特定するボリューム情報を言語識別子に対応付けて有し、
前記通訳者の第二端末装置において、前記言語識別子で識別される言語の音声を、前記言語識別子と対になるボリューム情報により特定されるボリュームで出力される請求項１０記載のサーバ装置。
前記画面情報構成部は、
言語識別子に対応する２種類以上のユーザインターフェイス部品を有する画面情報を構成し、
前記第二端末装置から、前記２種類以上のユーザインターフェイス部品のうちのいずれかの種類のユーザインターフェイス部品に対して、言語識別子を決定する指示が受け付けられた場合に、前記２種類以上のすべてのユーザインターフェイス部品のカレントの言語を前記指示に対応する言語識別子で識別される言語とするように、前記第二端末装置において画面が変更される請求項１０記載のサーバ装置。
前記２種類以上のユーザインターフェイス部品は、ボリューム操作のためのユーザインターフェイス部品と、通訳用または通訳結果のテキストの表示領域のユーザインターフェイス部品である請求項１９記載のサーバ装置。
第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子とを有する１以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部、１または２以上の各端末装置のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する１以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部、第二言語音声取得部、第一言語テキスト取得部、翻訳結果取得部、および配信部によって実現される配信方法であって、
前記第二言語音声取得部が、一の話者が話す第一の言語の音声を１以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである１以上の第二言語音声を取得する第二言語音声取得ステップと、
前記第一言語テキスト取得部が、前記一の話者が話した第一の言語の音声を音声認識したテキストのデータである第一言語テキストを取得する第一言語テキスト取得ステップと、
前記翻訳結果取得部が、前記ユーザ情報群が有する２以上の第二言語識別子のうち、前記通訳者情報群が有する１以上の第二言語識別子のいずれとも異なる１以上の第二言語識別子に対応する１以上の翻訳結果のみを取得し、前記通訳者情報群が有する１以上の第二言語識別子のいずれかと同じ１以上の第二言語識別子に対応する１以上の翻訳結果を取得しない翻訳結果取得ステップと、
前記配信部が、前記ユーザ情報群を用いて、前記１以上の各端末装置に、前記第二言語音声取得部が取得した１以上の第二言語音声のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を配信し、前記ユーザ情報群を用いて、前記１以上の各端末装置に、前記翻訳結果取得部が取得した１以上の翻訳結果のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する翻訳結果をも配信する、配信方法。
第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子とを有する１以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部と、１以上の各端末装置のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する１以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部と、第二言語音声取得部と、配信部とによって実現される配信方法であって、
前記第二言語音声取得部が、一の話者が話す第一の言語の音声を１以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである１以上の第二言語音声を取得する第二言語音声取得ステップと、
前記配信部が、前記ユーザ情報群を用いて、前記１以上の各端末装置に、前記第二言語音声取得部が取得した１以上の第二言語音声のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を、配信する配信ステップとを具備し、
前記通訳者情報群格納部および前記ユーザ情報群格納部には、
会場を識別する会場識別子に対応付けて、１以上の通訳者情報群および１以上のユーザ情報群がそれぞれ格納され、
前記ユーザ情報は、会場識別子をさらに有し、
前記第二言語音声取得部および前記配信部は、２以上の各会場識別子ごとに、１以上の第二言語音声の取得および配信を行う、配信方法。
第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子とを有する１以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部と、１以上の各端末装置のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する１以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部と、第二言語音声取得部と、配信部と、第一言語音声取得部と、音声特徴量対応情報取得部と、学習器構成部とにより実現される学習器取得方法であって、
前記第二言語音声取得部が、一の話者が話す第一の言語の音声を１以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである１以上の第二言語音声を取得する第二言語音声取得ステップと、
前記配信部が、前記ユーザ情報群を用いて、前記１以上の各端末装置に、前記第二言語音声取得部が取得した１以上の第二言語音声のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を、配信する配信ステップと、
前記第一言語音声取得部が、前記一の話者が話した第一の言語の音声のデータである第一言語音声を取得する第一言語音声取得ステップと、
前記音声特徴量対応情報取得部が、前記第一言語音声取得部が取得した第一言語音声と、前記第二言語音声取得部が取得した１以上の第二言語音声とを用いて、第一言語識別子および第二言語識別子の組である１以上の各言語情報ごとに、第一言語音声および第二言語音声の特徴量の対応である音声特徴量対応情報を取得する音声特徴量対応情報取得ステップと、
前記学習器構成部が、前記１以上の各言語情報ごとに、前記音声特徴量対応情報を用いて、前記第一言語音声を入力とし、前記第二言語音声を出力とする学習器を構成する学習器構成ステップとを具備する学習器取得方法。
第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子と、通訳者の画像である通訳者画像とを有する１以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部と、１以上の各端末装置のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する１以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部と、第二言語音声取得部と、配信部と、映像受付部と、画面情報構成部と、画面情報送信部とにより実現される配信方法であって、
前記第二言語音声取得部が、一の話者が話す第一の言語の音声を１以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである１以上の第二言語音声を取得する第二言語音声取得ステップと、
前記配信部が、前記ユーザ情報群を用いて、前記１以上の各端末装置に、前記第二言語音声取得部が取得した１以上の第二言語音声のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を、配信する配信ステップと、
前記映像受付部が、会場を撮影した映像を受け付ける映像受付ステップと、
前記画面情報構成部が、前記映像受付部が受け付けた映像と前記２以上の通訳者情報が有する２以上の通訳者画像を含む画面を構成する画面情報を構成する画面情報構成ステップと、
前記画面情報送信部が、前記画面情報構成部が構成した画面情報を２以上の通訳者の第二端末装置に送信する画面情報送信ステップとを具備する配信方法。
サーバ装置と１または２以上の端末装置とで実現される通訳システムを構成する端末装置において動作するプログラムであって、
前記サーバ装置は、
第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子とを有する１以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部と、
前記１以上の各端末装置のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する１以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部と、
一の話者が話す第一の言語の音声を１以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである１以上の第二言語音声を取得する第二言語音声取得部と、
前記ユーザ情報群を用いて、前記１以上の各端末装置に、前記第二言語音声取得部が取得した１以上の第二言語音声のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を、配信する配信部とを具備し、
前記端末装置を、
前記サーバ装置から配信される第二言語音声を受信する端末受信部と、
前記端末受信部が受信した第二言語音声を再生する再生部として機能させるためのプログラムであって、
前記再生部は、
第二言語音声の再生を中断後に再開する場合、当該第二言語音声の未再生部分を、早送りで追っかけ再生するものとして、前記端末装置を機能させるためのプログラム。
第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子とを有する１以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部、および１または２以上の各端末装置のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する１以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部にアクセス可能なコンピュータを、
一の話者が話す第一の言語の音声を１以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである１以上の第二言語音声を取得する第二言語音声取得部と、
前記ユーザ情報群を用いて、前記１以上の各端末装置に、前記第二言語音声取得部が取得した１以上の第二言語音声のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を、配信する配信部と、
前記一の話者が話した第一の言語の音声を音声認識したテキストのデータである第一言語テキストを取得する第一言語テキスト取得部と、
前記ユーザ情報群が有する２以上の第二言語識別子のうち、前記通訳者情報群が有する１以上の第二言語識別子のいずれとも異なる１以上の第二言語識別子に対応する１以上の翻訳結果のみを取得し、前記通訳者情報群が有する１以上の第二言語識別子のいずれかと同じ１以上の第二言語識別子に対応する１以上の翻訳結果を取得しない翻訳結果取得部として機能させるためのプログラムであって、
前記配信部は、
前記ユーザ情報群を用いて、前記１以上の各端末装置に、前記翻訳結果取得部が取得した１以上の翻訳結果のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する翻訳結果をも配信するものとして、前記コンピュータを機能させるためのプログラム。
サーバ装置と１または２以上の端末装置とで実現される通訳システムを構成する端末装置において動作するプログラムであって、
前記サーバ装置は、
第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子とを有する１以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部と、
前記端末装置のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する１以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部と、
一の話者が話す第一の言語の音声を１以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである１以上の第二言語音声を取得する第二言語音声取得部と、
前記ユーザ情報群を用いて、前記１以上の各端末装置に、前記第二言語音声取得部が取得した１以上の第二言語音声のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を、配信する配信部と、
前記第二言語音声取得部が取得した１以上の第二言語音声をそれぞれ音声認識したテキストのデータである１以上の第二言語テキストを取得する第二言語テキスト取得部とを具備し、
前記配信部は、
前記第二言語テキスト取得部が取得した１以上の第二言語テキストを前記端末装置に配信し、
前記端末装置を、
前記サーバ装置から配信される第二言語音声を受信する端末受信部と、
前記端末受信部が受信した第二言語音声を再生する再生部として機能させるためのプログラムであって、
前記端末受信部は、
前記サーバ装置から配信される１以上の第二言語テキストをも受信し、
前記再生部は、
前記１以上の第二言語テキストをも出力し、
前記端末装置を、
音声またはテキストのうち１以上のデータ形式を選択する操作を受け付け得る端末受付部として機能させるためのプログラムであって、
前記再生部は、
当該端末装置のユーザに関するユーザ情報が有する第二言語識別子に対応する第二言語音声、または当該第二言語音声を音声認識した第二言語テキストのうち、選択された１以上のデータ形式に対応する１以上のデータを出力し、
前記端末受信部は、
前記第二言語テキストに加えて、他の言語である副第二言語の第二言語テキストをも受信し、
前記再生部は、
前記端末受信部が受信した前記第二言語テキストと前記副第二言語の第二言語テキストとを出力するものとして、前記端末装置を機能させるためのプログラム。
第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子とを有する１以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部と、１以上の各端末装置のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する１以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部とにアクセス可能なコンピュータを、
一の話者が話す第一の言語の音声を１以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである１以上の第二言語音声を取得する第二言語音声取得部と、
前記ユーザ情報群を用いて、前記１以上の各端末装置に、前記第二言語音声取得部が取得した１以上の第二言語音声のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を、配信する配信部として機能させるためのプログラムであって、
前記通訳者情報群格納部および前記ユーザ情報群格納部には、
会場を識別する会場識別子に対応付けて、１以上の通訳者情報群および１以上のユーザ情報群がそれぞれ格納され、
前記ユーザ情報は、会場識別子をさらに有し、
前記第二言語音声取得部および前記配信部は、２以上の各会場識別子ごとに、１以上の第二言語音声の取得および配信を行うものとして、前記コンピュータを機能させるためのプログラム。
第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子とを有する１以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部と、１以上の各端末装置のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する１以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部とにアクセス可能なコンピュータを、
一の話者が話す第一の言語の音声を１以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである１以上の第二言語音声を取得する第二言語音声取得部と、
前記ユーザ情報群を用いて、前記１以上の各端末装置に、前記第二言語音声取得部が取得した１以上の第二言語音声のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を、配信する配信部と、
前記一の話者が話した第一の言語の音声のデータである第一言語音声を取得する第一言語音声取得部と、
前記第一言語音声取得部が取得した第一言語音声と、前記第二言語音声取得部が取得した１以上の第二言語音声とを用いて、第一言語識別子および第二言語識別子の組である１以上の各言語情報ごとに、第一言語音声および第二言語音声の特徴量の対応である音声特徴量対応情報を取得する音声特徴量対応情報取得部と、
前記１以上の各言語情報ごとに、前記音声特徴量対応情報を用いて、前記第一言語音声を入力とし、前記第二言語音声を出力とする学習器を構成する学習器構成部として機能させるためのプログラム。
第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子と、通訳者の画像である通訳者画像とを有する１以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部と、１以上の各端末装置のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する１以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部とにアクセス可能なコンピュータを、
一の話者が話す第一の言語の音声を１以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである１以上の第二言語音声を取得する第二言語音声取得部と、
前記ユーザ情報群を用いて、１以上の各端末装置に、前記第二言語音声取得部が取得した１以上の第二言語音声のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を、配信する配信部と、
会場を撮影した映像を受け付ける映像受付部と、
前記映像受付部が受け付けた映像と前記２以上の通訳者情報が有する２以上の通訳者画像を含む画面を構成する画面情報を構成する画面情報構成部と、
前記画面情報構成部が構成した画面情報を２以上の通訳者の第二端末装置に送信する画面情報送信部として機能させるためのプログラム。