JP2021190751A

JP2021190751A - サーバ装置、サーバシステム、情報処理方法、およびプログラム

Info

Publication number: JP2021190751A
Application number: JP2020091996A
Authority: JP
Inventors: 征範慎; Yukinori Shin
Original assignee: Abelon Inc
Current assignee: Abelon Inc
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2021-12-13

Abstract

【課題】従来、配信サーバを利用して、同時通訳の音声を含むライブ配信ができなかった。【解決手段】ライブ映像とライブ音声とを話者装置から受信する第一ライブ受信部と、通訳音声を通訳者装置から受信する第一通訳受信部と、ライブ音声と通訳音声とをミックスし、出力する音声である出力音声を構成する音声構成部と、ライブ映像と出力音声とを有する出力情報を１以上の配信サーバに送信する出力情報送信部とを具備するサーバ装置により、配信サーバを利用して、同時通訳の音声を含むライブ配信ができる。【選択図】図３

Description

本発明は、同時通訳付きの音声をライブ配信するためのサーバ装置等に関するものである。

従来、同時通訳者が会場に出向くことなく、会場から離れた同時通訳センターに於いて同時通訳を行い、会場に同時通訳音声を送ることができる遠隔同時通訳システムが存在した（例えば、特許文献１参照）。

特開２００７−３０６４２０号公報

しかし、上記従来のシステムでは、配信サーバを利用して、同時通訳の音声を含むライブ配信ができなかった。

本第一の発明のサーバ装置は、１以上の話者装置と１以上の各通訳者が使用する通訳者装置とサーバ装置と１以上の配信サーバと１以上の第一端末とを具備する情報システムを構成するサーバ装置であって、話者装置は、ライブ配信のための映像であるライブ映像を受け付ける話者第一受付部と、ライブ配信のための音声であるライブ音声を受け付ける話者第二受付部と、ライブ映像とライブ音声とをサーバ装置に送信する話者送信部と、通訳者装置は、ライブ音声を聞いている通訳者が通訳した通訳音声を受け付ける通訳第一受付部と、通訳音声をサーバ装置に送信する通訳送信部とを具備し、サーバ装置は、ライブ映像とライブ音声とを話者装置から受信する第一ライブ受信部と、通訳音声を通訳者装置から受信する第一通訳受信部と、ライブ音声と通訳音声とをミックスし、出力する音声である出力音声を構成する音声構成部と、ライブ映像と出力音声とを有する出力情報を１以上の配信サーバに送信する出力情報送信部とを具備し、配信サーバは、出力情報をサーバ装置から受信する配信受信部と、配信受信部が受信した出力情報を１以上の第一端末に配信する配信送信部とを具備し、第一端末は、出力情報を配信サーバから受信する端末受信部と、出力情報が有するライブ映像を出力する端末映像出力部と、出力情報が有する出力音声を出力する端末音声出力部とを具備する、情報システムを構成するサーバ装置である。

かかる構成により、配信サーバを利用して、同時通訳の音声を含むライブ配信ができる。

また、本第二の発明のサーバ装置は、第一の発明に対して、サーバ装置は、第一サーバと第二サーバとを具備し、第一サーバは、ライブ映像とライブ音声とを話者装置から受信する第一ライブ受信部と、通訳音声を通訳者装置から受信する第一通訳受信部と、ライブ映像とライブ音声と通訳音声とを第二サーバに送信する第一送信部とを具備し、第二サーバは、ライブ映像とライブ音声と通訳音声とを第一サーバから受信する第二受信部と、第二受信部が受信したライブ音声と通訳音声とをミックスし、出力する音声である出力音声を構成する音声構成部と、ライブ映像と出力音声とを有する出力情報を１以上の配信サーバに送信する出力情報送信部とを具備する情報システムを構成するサーバ装置である。

かかる構成により、音声のミックス処理を高速に行える。

また、本第三の発明のサーバ装置は、第一または第二の発明に対して、音声構成部は、予め決められた条件を満たしている場合は、ライブ音声と通訳音声とをミックスし、出力音声を構成し、予め決められた条件を満たしていない場合は、第二受信部が受信したライブ音声を有し、通訳音声を有さない出力音声を取得する、情報システムを構成するサーバ装置である。

かかる構成により、音声のミックス処理を適切に行える。

また、本第四の発明のサーバ装置は、第三の発明に対して、サーバ装置は、同時通訳中であるか否かを示す状態情報が格納される第二サーバ格納部をさらに具備し、予め決められた条件は、状態情報が同時通訳中であることを示す情報であることである、情報システムを構成するサーバ装置である。

かかる構成により、音声のミックス処理を適切に行える。

また、本第五の発明のサーバ装置は、第四の発明に対して、通訳者装置は、状態情報を受け付ける通訳第二受付部をさらに具備し、通訳者装置の通訳送信部は、状態情報をもサーバ装置に送信し、サーバ装置は、通訳者装置から状態情報を受信する状態受信部と、状態受信部が受信した状態情報を第二サーバ格納部に蓄積する第二状態蓄積部とをさらに具備する、情報システムを構成するサーバ装置である。

かかる構成により、音声のミックス処理を適切に行える。

また、本第六の発明のサーバ装置は、第一から第五いずれか１つの発明に対して、情報システムは、２以上の通訳者装置を具備し、サーバ装置の第一通訳受信部は、２以上の各通訳者装置から、各々、異なる言語の通訳音声を受信し、音声構成部は、２以上の通訳音声ごとに、出力音声を構成し、出力情報送信部は、異なる出力音声を有する２以上の出力情報を１以上の配信サーバに送信し、配信サーバの配信送信部は、２以上の各第一端末に、異なる言語の通訳音声を含む出力情報を配信する、情報システムを構成するサーバ装置である。

かかる構成により、異なる言語の通訳音声を含む音声が出力される。

また、本第七の発明のサーバ装置は、第一から第六いずれか１つの発明に対して、情報システムは、１以上の第二端末を有し、第二端末は、サーバ装置から通訳音声を受信する第二通訳音声受信部と、通訳音声を出力する第二通訳音声出力部とを具備し、サーバ装置は、１以上の第二端末に、通訳音声を送信する通訳音声送信部をさらに具備する、情報システムを構成するサーバ装置である。

かかる構成により、ライブ会場での通訳音声提供と、遠隔への通訳音声を含むライブ配信が共に可能になる。

また、本第八の発明のサーバ装置は、第一から第七いずれか１つの発明に対して、音声構成部は、ライブ音声と通訳音声とを、予め決められた割合でミックスし、出力音声を構成する、情報システムを構成するサーバ装置である。

かかる構成により、適切な割合で、通訳音声とライブ音声とがミックスされる。

本第九の発明のサーバ装置は、ライブ映像とライブ音声とを話者装置から受信する第一ライブ受信部と、通訳音声を通訳者装置から受信する第一通訳受信部と、
ライブ音声と通訳音声とをミックスし、出力する音声である出力音声を構成する音声構成部と、ライブ映像と出力音声とを有する出力情報を１以上の配信サーバに送信する出力情報送信部とを具備するサーバ装置である。

また、本第十の発明のサーバ装置は、第九の発明に対して、音声構成部は、
予め決められた条件を満たしている場合は、ライブ音声と通訳音声とをミックスし、出力音声を構成し、予め決められた条件を満たしていない場合は、第二受信部が受信したライブ音声を有し、通訳音声を有さない出力音声を構成するサーバ装置である。

また、本第十一の発明のサーバシステムは、第一サーバと第二サーバとを具備するサーバシステムであって、第一サーバは、ライブ映像とライブ音声とを話者装置から受信する第一ライブ受信部と、通訳音声を通訳者装置から受信する第一通訳受信部と、ライブ映像とライブ音声と通訳音声とを第二サーバに送信する第一送信部とを具備し、第二サーバは、ライブ映像とライブ音声と通訳音声とを第一サーバから受信する第二受信部と、第二受信部が受信したライブ音声と通訳音声とをミックスし、出力する音声である出力音声を構成する音声構成部と、ライブ映像と出力音声とを有する出力情報を１以上の配信サーバに送信する出力情報送信部とを具備する、サーバシステムである。

また、本第十二の発明のサーバシステムは、第十一の発明に対して、音声構成部は、予め決められた条件を満たしている場合は、ライブ音声と通訳音声とをミックスし、出力音声を構成し、予め決められた条件を満たしていない場合は、第二受信部が受信したライブ音声を有し、通訳音声を有さない出力音声を構成する、サーバシステムである。

かかる構成により、音声のミックス処理を適切に行える。

本発明によれば、配信サーバを利用して、同時通訳の音声を含むライブ配信ができる。

実施の形態１における情報システムの概念図同情報システムのブロック図同第一サーバと第二サーバのブロック図同第一サーバの動作について説明するフローチャート同第二サーバの動作について説明するフローチャート同出力音声構成・送信処理を説明するフローチャート同通訳関連情報のデータ構造図実施の形態２におけるサーバのブロック図同サーバの動作を説明するフローチャート各実施形態におけるコンピュータシステムの外観図同コンピュータシステムの内部構成の一例を示す図

以下、サーバ装置等を含む情報システムの実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。

（実施の形態１）
図１は、本実施の形態における情報システム１００の概念図である。情報システム１００は、１または２以上の話者装置１、１または２以上の通訳者装置２、第一サーバ３、第二サーバ４、１または２以上の配信サーバ５、１または２以上の第一端末６、および１または２以上の第二端末７を備える。

なお、第一サーバ３と第二サーバ４とを具備するシステムを「サーバシステム」または「サーバ装置」と呼んでも良い。サーバ装置は、第一サーバ３の機能と第二サーバ４の機能とを１つに統合した装置であっても良い。かかるサーバ装置（８）を含む情報システム（２００）については、実施の形態２で説明する。

第一サーバ３は、例えば、ＬＡＮやインターネット等のネットワーク、無線または有線の通信回線などを介して、１以上の話者装置１および１以上の通訳者装置２の各々と通信可能に接続される。

第二サーバ４は、例えば、ネットワーク等を介して、１以上の第一端末６および１以上の第二端末７の各々と通信可能に接続される。

第一サーバ３と第二サーバ４とは、例えば、専用線またはネットワーク等を介して通信可能に接続される。

話者装置１は、話者の音声と映像を受け付ける装置である。話者は、例えば、講演者、発表者等である。

話者装置１は、例えば、ライブ会場に設置され、ライブ音声とライブ映像とを受け付け、第一サーバ３に送信する。ライブ会場とは、話者の居る会場である。会場は、例えば、ホール、スタジオ、会議室、教室等であるが、野外のホール等でも良く、その種類は問わない。

話者装置１は、例えば、携帯端末等の端末である。携帯端末とは、例えば、タブレット端末、スマートフォン、携帯電話機、ノートＰＣ等であるが、その種類は問わない。または、話者装置１は、例えば、デスクトップＰＣ等の固定端末でも良いし、話者の居る会場に設置されたマイクやカメラ等のＡＶ機器群が接続された端末でも良く、その種類は問わない。

通訳者装置２とは、通訳者が使用する装置である。通訳者装置２は、通訳者の音声等を受け付け、当該音声をサーバシステムに送信する装置である。通訳者装置２は、通常、話者装置１から受信したライブ音声を出力し、通訳者の音声を受け付ける。ただし、ライブ音声は出力されなくても良い。通訳者は、例えば、ライブ会場の外部（例えば、自宅や通訳ルーム等）に居るが、ライブ会場内に居ても良い。通訳者が聴いているライブ音声は、例えば、通訳者装置２から出力される音声であるが、会場内の音声でも良い。

通訳者装置２は、通常、ライブ会場の外部に存在するが、ライブ会場内に存在しても良い。ライブ会場の外部とは、例えば、通訳者の自宅であるが、２以上の通訳者が利用する通訳ルーム等、どこでも良い。

第一サーバ３は、１以上の各話者装置１からライブ音声とライブ映像を受信し、１以上の各通訳者装置２から通訳音声を受信し、当該受信した１以上のライブ音声と１以上のライブ映像と１以上の通訳音声とを第二サーバ４に送信する装置である。

第二サーバ４は、第一サーバ３から受信したライブ音声と通訳音声とをミックスし、出力音声を取得し、当該取得した出力音声と、第一サーバ３から受信したライブ映像とを配信サーバ５に送信する装置である。出力音声とは、出力する音声である。出力音声は、通常、第一端末６が出力する音声であるが、その出力元は問わない。出力音声は、例えば、同時通訳付きのライブ音声といっても良い。

配信サーバ５は、第二サーバ４から出力音声とライブ映像とを受信し、１以上の第一端末６に配信する装置である。

第一端末６は、配信サーバ５から配信されるライブ配信を視聴するユーザが使用する端末である。第一端末６は、通常、ライブ会場の外部に居るユーザの端末である。ライブ会場の外部とは、例えば、ユーザの自宅や会社等であるが、遠隔会場でも良く、その種類は問わない。遠隔会場とは、ライブ会場とは異なる会場である。遠隔会場は、通常、ライブ会場に対して、遠隔に位置する会場であるが、近接する会場でも良く、その遠近は問わない。第一端末６は、通常、携帯端末であるが、遠隔会場内の座席に設けられた端末等でも良く、その種類は問わない。

第二端末７は、話者と同じ会場に居り、話者の話を聞くユーザが使用する端末である。第二端末７は、ライブ会場の内部に居るユーザの端末である。第二端末７は、通常、携帯端末であるが、例えば、ライブ会場内の座席に設けられた端末等でも良く、その種類は問わない。なお、第二端末７は、通常、ライブ映像を受信しない。

図２は、情報システム１００のブロック図である。話者装置１は、話者第一受付部１１、話者第二受付部１２、話者送信部１３を備える。

通訳者装置２は、通訳受付部２１、および通訳送信部２２を備える。通訳受付部２１は、通訳第一受付部２１１、通訳第二受付部２１２を備える。

図３は、第一サーバ３と第二サーバ４のブロック図である。第一サーバ３は、第一サーバ格納部３１、第一ライブ受信部３２、第一通訳受信部３３、第一状態受信部３４、第一送信部３５、および通訳音声送信部３６を備える。第二サーバ４は、第二サーバ格納部４１、第二受信部４２、第二状態受信部４３、第二状態蓄積部４４、音声構成部４５、および出力情報送信部４６を備える。

配信サーバ５は、配信受信部５１、および配信送信部５２を備える。

第一端末６は、端末受信部６１、端末音声出力部６２、および端末映像出力部６３を備える。

第二端末７は、第二通訳音声受信部７１、および第二通訳音声出力部７２を備える。

話者装置１を構成する話者第一受付部１１は、ライブ映像を受け付ける。ライブ映像とは、ライブ配信のための映像である。ライブ配信とは、音声または映像のうち少なくとも１つを含む情報を、２以上の各端末にリアルタイムに送信することである。ライブ配信は、例えば、ストリーミングといっても良い。

話者第一受付部１１は、通常、カメラを介してライブ映像を受け付ける。ただし、例えば、カメラからのライブ映像がバッファに蓄積され、話者第一受付部１１は、バッファからライブ映像を読み出しても良い。ライブ映像の受け付けの態様は問わない。

話者第二受付部１２は、ライブ音声を受け付ける。ライブ音声とは、ライブ配信のための音声である

話者第二受付部１２は、通常、マイクロフォンを介してライブ音声を受け付ける。ただし、例えば、マイクからのライブ音声がバッファに蓄積され、話者第一受付部１１は、バッファからライブ音声を読み出しても良い。ライブ音声の受け付けの態様は問わない。

話者送信部１３は、話者第一受付部１１が受け付けたライブ映像と、話者第二受付部１２が受け付けたライブ音声とを第一サーバ３に送信する。

なお、話者第一受付部１１が受け付けたライブ映像と話者送信部１３が送信するライブ映像のデータ構造等は異なっても良いことは言うまでもない。話者装置１の図示しない話者処理部は、例えば、話者第一受付部１１が受け付けたライブ映像を送信する構造のライブ映像にする。また、話者第二受付部１２が受け付けたライブ音声と話者送信部１３が送信するライブ音声のデータ構造等は異なっても良いことは言うまでもない。話者装置１の図示しない話者処理部は、例えば、話者第二受付部１２が受け付けたライブ音声を送信する構造のライブ音声にする。

話者装置１には、通常、話者識別子が格納されている。話者識別子とは、話者を識別する情報である。話者識別子は、例えば、氏名、メールアドレス、電話番号などであるが、氏名等に対応付いたＩＤでも良く、話者を識別し得る情報であれば何でも良い。なお、話者識別子は、例えば、当該話者の話者装置１を識別する装置識別子でも良い。

なお、話者装置１には、例えば、話者言語識別子も格納されていても良い。話者言語識別子とは、話者言語を識別する情報である。話者言語とは、話者音声の言語である。話者言語は、例えば、話者が話す言語といっても良い。話者言語は、例えば、英語、日本語等であるが、その種類は問わない。話者言語識別子は、例えば、“英”や“日”などであるが、その形式は問わない。

話者送信部１３は、受け付けられたライブ映像とライブ音声とを、通常、当該話者装置１に格納されている話者識別子に対応付けて、第一サーバ３に送信する。第一サーバ３に送信することは、サーバシステムまたはサーバ装置に送信することでも良い。

なお、話者識別子は送受信されなくても良い。また、受け付けられたライブ映像とライブ音声は、話者処理部が構成したライブ映像とライブ音声でも良いことは言うまでもない。

また、話者送信部１３によるライブ映像等の送信先は、本実施の形態では、第一サーバ３であるが、第一サーバ３と第二サーバ４とを具備するサーバシステムでも良いし、サーバ装置でも良い。サーバ装置は、第一サーバ３と第二サーバ４とを１つに統合したサーバである。かかる事項は、通訳送信部２２による通訳音声等の送信先にも当てはまる。

通訳者装置２を構成する通訳受付部２１は、各種の情報を受け付ける。各種の情報とは、例えば、後述する通訳音声、通訳者の指示などである。通訳者の指示とは、例えば、後述する通訳開始指示であるが、その種類は問わない。指示の受け付けは、通常、キーボードやタッチパネル等の入力手段を介した受け付けであるが、例えば、他の装置からの受信でも良く、その態様は問わない。

なお、通訳受付部２１は、例えば、通訳者の映像、通訳開始以外の指示なども受け付けても良い。受け付けとは、例えば、カメラを介した映像の受け付け、マイクを介した音声の受け付け、キーボードやタッチパネル等の入力デバイスを介した情報の受け付けなどであるが、その態様は問わない。

通訳第一受付部２１１は、通訳音声を受け付ける。通訳音声とは、通訳者の音声である。通訳音声は、ライブ音声を聞いている通訳者が通訳した音声である。

通訳第二受付部２１２は、状態情報を受け付ける。状態情報とは、通訳者による通訳の状態に関する情報である。状態情報は、例えば、同時通訳中であること又は同時通訳中でないことのいずれかを示す情報である。同時通訳中であることを示す情報は、例えば、“通訳中”であり、同時通訳中でないことを示す情報は、例えば、“停止”であるが、その形式は問わない。

ただし、状態情報は、例えば、同時通訳中であること、休憩中であること、待機中であること等を示す情報でも良く、状態情報が示す状態の種類は問わない。

通訳第二受付部２１２は、例えば、２以上の言語に対応する２以上の言語ボタンのうち、いずれかの言語ボタンの押下に応じて、“同時通訳中である”ことを示す状態情報を受け付ける。状態情報は、押下された言語ボタンに対応する通訳言語識別子を有することは好適である。通訳言語識別子とは、通訳言語を識別する情報である。通訳言語とは、通訳音声の言語である。通訳言語は、例えば、通訳者が話す言語といっても良い。通訳言語は、例えば、日本語、中国語、英語等であるが、その種類は問わない。通訳言語識別子は、例えば、“日”や“中”や“英”などであるが、その形式は問わない。

または、通訳第二受付部２１２は、例えば、通訳開始指示に応じて、“同時通訳中である”ことを示す状態情報を受け付け、通訳終了指示に応じて、“同時通訳中でない”ことを示す状態情報を受け付けても良い。通訳開始指示は、例えば、開始ボタンの押下であり、通訳終了指示は、例えば、終了ボタンの押下である。ただし、指示の態様は問わない。

通訳送信部２２は、各種の情報を第一サーバ３に送信する。各種の情報とは、例えば、通訳音声、状態情報などである。通訳音声等の情報の送信先は、本実施の形態では第一サーバ３であるが、例えば、前述したサーバシステムでも良いし、前述したサーバ装置８でも良い。

通訳者装置２には、通常、図示しない通訳格納部に通訳者識別子が格納されている。通訳者識別子とは、通訳者を識別する情報である。通訳者識別子は、例えば、氏名、電話番号、メールアドレスなどであるが、氏名等に対応付いたＩＤでも良く、通訳者を識別し得る情報であれば何でも良い。なお、通訳者識別子は、例えば、当該通訳者の通訳者装置２を識別する装置識別子でも良い。装置識別子は、例えば、ＭＡＣアドレスやＩＰアドレス、ＩＤなどであるが、通訳者装置２を識別し得る情報であれば何でも良い。

通訳送信部２２は、例えば、通訳第一受付部２１１が受け付けた通訳音声を、図示しない通訳格納部に格納されている通訳者識別子に対応付けて第一サーバ３に送信する。また、通訳送信部２２は、例えば、通訳第二受付部２１２が受け付けた状態情報を、格納されている通訳者識別子に対応付けて第一サーバ３に送信する。

なお、通訳第一受付部２１１が受け付けた通訳音声と通訳送信部２２が送信する通訳音声のデータ構造は異なっていても良い。例えば、図示しない通訳処理部は、通訳第一受付部２１１が受け付けた通訳音声を送信するデータ構造にする。そして、通訳送信部２２はかかる通訳音声を送信する。

第一サーバ３を構成する第一サーバ格納部３１は、各種の情報を格納し得る。各種の情報とは、例えば、話者識別子群である。話者識別子群とは、１または２以上の話者識別子の集合である。

また、第一サーバ格納部３１には、例えば、話者識別子群を構成する１以上の各話者識別子に対応付けて、１または２以上の通訳者識別子がさらに格納される。なお、以下では、一の話者識別子に対応する１または２以上の通訳者識別子の集合を「通訳者識別子群」と記す場合がある。

なお、話者識別子群は、例えば、予め第一サーバ格納部３１に格納されているが、１以上の各話者装置１からのライブ音声等の受信に応じて第一サーバ格納部３１に蓄積されても良い。また、通訳者識別子群は、例えば、予め第一サーバ格納部３１に格納されているが、１以上の各通訳者装置２からの通訳音声等の受信に応じて第一サーバ格納部３１に蓄積されても良い。

さらに、第一サーバ格納部３１には、例えば、通訳者識別子群を構成する１以上の各通訳者識別子に対応付けて、通訳言語識別子も格納される。なお、以下では、通訳者識別子と通訳言語識別子との対の集合を「第一対応情報」と記す場合がある。通訳者識別子と通訳言語識別子との対は、例えば、“（Ａ，英）”や“（Ｂ，中）”等であるが、その形式は問わない。

また、第一サーバ格納部３１には、例えば、第二端末識別子群が格納されていても良い。第二端末識別子群とは、１または２以上の第二端末識別子の集合である。第二端末識別子とは、第二端末７を識別する情報である。第二端末識別子は、例えば、ＭＡＣアドレスやＩＰアドレス、ＩＤ等であるが、第二端末７を識別し得る情報であれば何でも良い。

さらに、第一サーバ格納部３１は、例えば、バッファを含んでおり、第一ライブ受信部３２が受信したライブ映像とライブ音声、第一通訳受信部３３が受信した通訳音声、および第一状態受信部３４が受信した状態情報などが、当該バッファに一時的に格納されても良い。

なお、第一サーバ格納部３１に格納されるその他の情報について、適時説明する場合がある。

第一ライブ受信部３２は、ライブ映像とライブ音声とを話者装置１から受信する。

第一ライブ受信部３２は、話者装置１から、通常、話者識別子と対に、ライブ映像とライブ音声とを受信する。

第一通訳受信部３３は、通訳者装置２から通訳音声を受信する。

第一通訳受信部３３は、通訳者装置２から、例えば、話者識別子および通訳言語識別子の組と対に、通訳音声を受信する。ただし、第一通訳受信部３３は、例えば、話者識別子および通訳者識別子の組と対に、通訳音声を受信しても良い。後者の場合、図示しない第一サーバ処理部は、例えば、第一サーバ格納部３１に格納されている第一対応情報を用いて、受信した通訳者識別子に対応する通訳言語識別子を取得しても良い。

第一状態受信部３４は、通訳者装置２から状態情報を受信する。

第一状態受信部３４は、通訳者装置２から、例えば、通訳者識別子と対に状態情報を受信する。

第一送信部３５は、第一ライブ受信部３２が受信したライブ映像とライブ音声と、第一通訳受信部３３が受信した通訳音声とを、第二サーバ４に送信する。第一送信部３５は、例えば、ライブ映像とライブ音声と通訳音声とを重畳して、第二サーバ４に送信する。

なお、受信されたライブ映像と送信されるライブ映像のデータ構造は異なっていても良いことは言うまでもない。また、受信されたライブ音声と送信されるライブ音声のデータ構造は異なっていても良いことは言うまでもない。また、受信された通訳音声と送信される通訳音声のデータ構造は異なっていても良いことは言うまでもない。

第一送信部３５は、例えば、１または２以上の話者識別子ごとに、第一ライブ受信部３２が当該話者識別子と対に受信したライブ映像とライブ音声と、第一通訳受信部３３が当該話者識別子および通訳言語識別子の組と対に受信した通訳音声とを、当該話者識別子および当該通訳言語識別子の組に対応付けて、第二サーバ４に送信する。

また、第一送信部３５は、例えば、第一状態受信部３４が受信した状態情報を第二サーバ４に送信する。第一送信部３５は、例えば、通訳識別子に対応付けて、状態情報を第二サーバ４に送信する。なお、話者に対して通訳者が一人または通訳の言語が一つである場合等は、通訳識別子に対応付けられていることは、話者識別子に対応付けられていることでも良い。

通訳音声送信部３６は、１または２以上の各第二端末７に、第一通訳受信部３３が受信した通訳音声を送信する。

通訳音声送信部３６は、例えば、第一サーバ格納部３１に格納されている第二端末識別子群が有する１以上の各第二端末識別子に対応する第二端末７に通訳音声を送信する。

第一サーバ格納部３１には、例えば、第二端末識別子群を構成する１以上の各第二端末識別子に対応付けて、通訳言語識別子が格納されており、通訳音声送信部３６は、１以上の各第二端末７に、当該第二端末７に対応する通訳言語識別子で識別される言語の通訳音声を送信することは好適である。

第二サーバ４を構成する第二サーバ格納部４１は、各種の情報を格納し得る。各種の情報とは、例えば、状態情報である。

第二サーバ格納部４１には、例えば、１または２以上の各通訳者識別子に対応付けて、状態情報が格納される。

なお、第二サーバ格納部４１は、例えば、バッファを含んでおり、第二受信部４２が受信したライブ映像とライブ音声と通訳音声、および第二状態受信部４３が受信した状態情報などが、当該バッファに一時的に格納されても良い。

第二受信部４２は、第一サーバ３からライブ映像とライブ音声と通訳音声とを受信する。第二受信部４２は、例えば、通訳識別子または話者識別子に対応付けられたライブ映像とライブ音声と通訳音声とを受信する。

第二状態受信部４３は、状態情報を第一サーバ３から受信する。第二状態受信部４３は、通常、通訳者識別子と対に状態情報を第一サーバ３から受信する。

第二状態蓄積部４４は、第二状態受信部４３が受信した状態情報を第二サーバ格納部４１に蓄積する。

第二状態蓄積部４４は、通常、第二状態受信部４３が通訳者識別子と対に受信した状態情報を、当該通訳者識別子に対応付けて第二サーバ格納部４１に蓄積する。

音声構成部４５は、ライブ音声と通訳音声とをミックスし、出力音声を構成する。ミックスするとは、２または３以上の音声を混合し、一の音声を構成することである。ミックスは、通常、加算であるが、例えば、多重化でもよく、その態様は問わない。なお、例えば、ミックスがライブ音声と通訳音声との多重化である場合、第一端末６を構成する端末音声出力部６２は、出力音声に対して逆多重化を行い、ライブ音声と通訳音声とを取得し、出力する。取得されたライブ音声と通訳音声は、例えば、別々のチャンネルで出力されてもよいし、加算され、一のチャネルで出力されてもよい。

本実施の形態におけるミックスは、通常、ライブ音声と通訳音声との加算である。加算されるライブ音声と通訳音声は、例えば、出力音声における割合が予め決められた値となるように、各々またはいずれか一方の音量が調節されてもよい。音声構成部４５は、例えば、ライブ音声の音量を調節する第一の音量調節回路、通訳音声の音量を調整する第二の音量調節回路、および第一の音量調節回路から出力される音声と第二の音量調節回路から出力される音声とを加算する加算回路とで実現されてもよい。または、音声構成部４５は、例えば、ライブ音声または通訳音声の一方の音量を調節する音量調節回路と、ライブ音声または通訳音声の他方と音量調節回路から出力される音声とを加算する加算回路とで構成されてもよく、その構成は問わない。

音声構成部４５は、通常、第二受信部４２が受信したライブ音声と通訳音声とを予め決められた割合でミックスし、第一端末６が出力する出力音声を構成する。

例えば、予め決められた割合を示す割合情報が、第二サーバ格納部４１に格納されている。予め決められた割合は、例えば、通訳音声に対するライブ音声の割合であるが、ライブ音声に対する通訳音声の割合であっても良く、割合を表現する形式は問わない。通訳情報は、具体的には、例えば、“通訳音声：１００％，ライブ音声；２０％”でも良いし、“通訳音声：１，ライブ音声：０．２５”でも良いし、“通訳音声：３，ライブ音声：１”などでも良いし、“通訳音声：ライブ音声＝８０％：２０％”などでも良く、その数値は問わない。

本実施の形態におけるミックスの対象は、一の話者のライブ音声と、当該一の話者の通訳を行う１または２以上の通訳者のうち、一の通訳者の通訳音声である。

音声構成部４５は、通常、１以上の話者識別子ごとに、当該話者識別子に対応するライブ音声と、当該話者識別子に対応する通訳音声とをミックスし、出力音声を構成する。

例えば、一の話者識別子に２以上の通訳言語識別子が対応付いており、音声構成部４５は、一の話者識別子に対応する２以上の通訳音声ごとに、出力音声を構成しても良い。かかる場合、音声構成部４５は、２以上の出力音声を構成する。

具体的には、例えば、話者識別子“Ｘ”に２つの通訳言語識別子“英”および“中”が対応付いており、音声構成部４５は、話者識別子“Ｘ”および通訳言語識別子“英”の組“（Ｘ，英）”に対応する出力音声と、話者識別子“Ｘ”および通訳言語識別子“中”の組“（Ｘ，中）”に対応する出力音声とを構成しても良い。

音声構成部４５は、例えば、予め決められた条件を満たしている場合は、ライブ音声と通訳音声とをミックスし、出力音声を構成し、予め決められた条件を満たしていない場合は、第二受信部４２が受信したライブ音声を有し、通訳音声を有さない出力音声を構成しても良い。

つまり、音声構成部４５は、例えば、予め決められた条件を満たしているか否かを判断し、予め決められた条件を満たしていると判断した場合にのみ、ライブ音声と通訳音声とをミックスし、出力音声を構成することは好適である。

予め決められた条件は、例えば、状態情報が「同時通訳中である」ことを示す情報であることである。予め決められた条件は、例えば、通訳者装置２からの通訳音声が受信できていることである。予め決められた条件は、例えば、通訳音声が無音ではないことである。

音声構成部４５は、例えば、第二サーバ格納部４１に格納されている状態情報が、同時通訳中であることを示す情報であるか否かを判断する。そして、状態情報が同時通訳中であることを示す情報であると判断した場合、音声構成部４５は、第二受信部４２が受信したライブ音声と通訳音声とをミックスし、出力音声を構成する。また、状態情報が同時通訳中でないことを示す情報であると判断した場合、音声構成部４５は、第二受信部４２が受信したライブ音声を有し、通訳音声を有さない出力音声を構成する。

上記のような音声構成処理は、通常、１以上の通訳者識別子ごとに実行される。音声構成処理は、例えば、通訳対象の言語ごとに実行される。

音声構成部４５は、１以上の通訳者識別子ごとに、例えば、当該通訳者識別に対応付けて格納されている状態情報が、同時通訳中であることを示す情報であるか否かを判断し、状態情報が同時通訳中であることを示す情報であると判断した場合、当該通訳者識別子と対に受信されたライブ音声と通訳音声とをミックスし、出力音声を構成する。また、状態情報が同時通訳中でないことを示す情報であると判断した場合、音声構成部４５は、当該話者識別子と対に受信されたライブ音声を有し、通訳音声を有さない出力音声を構成する。

出力情報送信部４６は、出力情報を１または２以上の配信サーバ５に送信する。出力情報は、第二受信部４２が受信したライブ映像と、音声構成部４５が構成した出力音声とを有する。図示しない第二処理部は、例えば、ライブ映像と出力音声とを重畳し、出力情報を構成する。そして、出力情報送信部４６は、当該出力情報を１または２以上の配信サーバ５に送信する。

出力情報送信部４６は、通常、１以上の話者識別子ごとに、第二受信部４２が当該話者識別子と対に受信したライブ映像と、当該話者識別子に対して音声構成部４５が構成した出力音声とを有する出力情報を、１以上の配信サーバ５に送信する。

出力情報送信部４６は、例えば、異なる出力音声を有する２以上の出力情報を、１以上の配信サーバ５に送信しても良い。異なる出力音声を有する２以上の出力情報とは、例えば、第一言語（例えば、英語）の話者音声と第二言語（例えば、日本語）の通訳者音声とをミックスした出力音声を有する出力情報、および、第一言語の話者音声と第三言語（例えば、中国語）の通訳者音声とをミックスした出力音声を有する出力情報、などであるが、言語の組み合わせは問わない。

例えば、一の話者識別子に２以上の通訳言語識別子が対応づいており、出力情報送信部４６は、当該一の話者識別子に対応する出力情報であり、当該一の話者識別子に対応する２以上の各通訳言語識別子に対応する出力音声を有する２以上の出力情報を、１以上の配信サーバ５に送信しても良い。

出力情報送信部４６は、例えば、各々、異なる通訳言語識別子に対応付けられた２以上の出力情報を１または２以上の配信サーバ５に送信しても良い。

配信サーバ５を構成する配信受信部５１は、出力情報を受信する。配信受信部５１は、出力情報を、通常、第二サーバ４から受信するが、前述したサーバシステムから受信しても良いし、実施の形態２で説明するサーバ装置から受信しても良い。ただし、配信受信部５１が受信する出力情報の送信元は問わない。

配信受信部５１は、例えば、第二サーバ４から、話者識別子および通訳言語識別子の組と対に、異なる出力音声を有する２以上の出力情報を受信しても良い。

配信送信部５２は、配信受信部５１が受信した出力情報を、１または２以上の第一端末６に配信する。なお、配信受信部５１が受信した出力情報のデータ構造と、配信送信部５２が配信する出力情報のデータ構造とは、異なっていても良い。

なお、配信サーバ５の図示しない配信格納部には、例えば、１以上の各第一端末６を識別する端末識別子に対応付けて、話者識別子、または言語識別子、または言語識別子と言語識別子の組が格納されている。端末識別子と、話者識別子または／および言語識別子とは、予め配信サーバ５に格納されていても良いし、第一端末６から受信され、配信サーバ５に蓄積されても良い。

配信送信部５２は、１以上の端末識別子ごとに、配信受信部５１が受信した２以上の出力情報から、当該端末識別子に対応する話者識別子または言語識別子または言語識別子と言語識別子の組に対応する出力情報を取得し、当該出力情報を端末識別子で識別される第一端末６に配信する。

第一端末６を構成する端末受信部６１は、配信サーバ５から出力情報を受信する。端末受信部６１は、例えば、ユーザからの出力情報の出力の指示の受け付けに応じて、出力情報を受信する。

第一端末６の図示しない受付手段が、言語識別子を有する指示を受け付け、図示しない送信手段が当該指示を配信サーバ５に送信したことに応じて、端末受信部６１は、例えば、前記言語識別子で識別される言語の翻訳音声を含む出力情報を配信サーバ５から受信する。

端末音声出力部６２は、端末受信部６１が受信した出力情報が有する出力音声を出力する。なお、出力音声の出力は、通常、スピーカを介した音出力であるが、例えば、外部の装置への送信でも良いし、記録媒体への蓄積、他のプログラムへの引き渡しなどであっても良く、その出力態様は問わない。なお、かかる事項は、第二通訳音声受信部７１による通訳音声の出力にも共通する。

端末映像出力部６３は、端末受信部６１が受信した出力情報が有するライブ映像を出力する。なお、ライブ映像の出力は、通常、ディスプレイへの表示であるが、例えば、外部の装置への送信でも良いし、記録媒体への蓄積、他のプログラムへの引き渡しなどであっても良く、その出力態様は問わない。

なお、第一端末６には、端末識別子と、話者識別子および通訳言語識別子の組とが格納されおり、第一端末６は、当該格納されている端末識別子と話者識別子および通訳言語識別子の組とを配信サーバ５に送信しても良い。

第二端末７を構成する第二通訳音声受信部７１は、サーバ装置から通訳音声を受信する。

第二通訳音声受信部７１は、通常、第一サーバ３から通訳音声を受信する。ただし、通訳音声の送信元は、例えば、第一サーバ３と第二サーバ４とを具備するサーバ装置でも良い。なお、第二通訳音声受信部７１は、第一サーバ３を経由して通訳音声を受信した第二サーバ４から、当該通訳音声を受信しても良い。

第二通訳音声出力部７２は、第二通訳音声受信部７１が受信した通訳音声を出力する。

なお、第二端末７には、第二端末識別子と、話者識別子および通訳言語識別子の組とが格納されおり、第一端末６は、当該格納されている端末識別子と話者識別子および通訳言語識別子の組とを配信サーバ５に送信しても良い。

話者第一受付部１１、話者第二受付部１２、通訳受付部２１、通訳第一受付部２１１、および通訳第二受付部２１２は、入力デバイスを含むと考えても、含まないと考えても良い。話者第一受付部１１等は、入力デバイスのドライバーソフトによって、または入力デバイスとそのドライバーソフトとで実現され得る。

話者送信部１３、通訳送信部２２、第一送信部３５、通訳音声送信部３６、出力情報送信部４６、および配信送信部５２は、は、通常、有線または無線の通信手段で実現されるが、放送手段で実現されても良い。

第一サーバ格納部３１、および第二サーバ格納部４１は、例えば、ハードディスクやフラッシュメモリといった不揮発性の記録媒体が好適であるが、ＲＡＭなど揮発性の記録媒体でも実現可能である。

第一サーバ格納部３１等に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が第一サーバ格納部３１等で記憶されるようになっても良く、ネットワークや通信回線等を介して送信された情報が第一サーバ格納部３１等で記憶されるようになっても良く、あるいは、入力デバイスを介して入力された情報が第一サーバ格納部３１等で記憶されるようになっても良い。入力デバイスは、例えば、キーボード、マウス、タッチパネル等、何でも良い。

第一ライブ受信部３２、第一通訳受信部３３、第一状態受信部３４、第二受信部４２、第二状態受信部４３、配信受信部５１、端末受信部６１、および第二通訳音声受信部７１は、通常、有線または無線の通信手段で実現されるが、放送を受信する手段で実現されても良い。

第二状態蓄積部４４、および音声構成部４５は、通常、プロセッサやメモリ等から実現され得る。第二状態蓄積部４４等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。ただし、処理手順は、ハードウェア（専用回路）で実現しても良い。なお、プロセッサは、ＭＰＵ、ＣＰＵ、ＧＰＵ等であり、その種類は問わないことは言うまでもない。

端末音声出力部６２、端末映像出力部６３、および第二通訳音声出力部７２は、ディスプレイやスピーカ等の出力デバイスを含むと考えても含まないと考えても良い。端末音声出力部６２等は、出力デバイスのドライバーソフトによって、または出力デバイスとそのドライバーソフトとで実現され得る。

次に、情報システム１００の動作について説明する。

まず、話者装置１の動作例について説明する。話者装置１の話者第一受付部１１は、ライブ映像を受け付ける。また、話者第二受付部１２は、ライブ音声を受け付ける。次に、図示しない話者処理部は、ライブ映像とライブ音声とを重畳する。また、話者処理部は、図示しない話者格納部の話者識別子を読み出す。話者処理部は、重畳されたライブ映像とライブ音声とに話者識別子を付加し、送信する情報を構成する。話者送信部１３は、話者処理部が構成した情報を第一サーバ３に送信する。

次に、通訳者装置２の動作例について説明する。通訳第二受付部２１２は、通訳言語識別子と状態情報とを有する通訳開始指示を受け付ける。そして、図示しない通訳処理部は、通訳開始指示を送信するデータ構造にする。次に、通訳送信部２２は、通訳開始指示を第一サーバ３に送信する。なお、ここで、送信される情報は、状態情報だけでも良い。また、通訳第一受付部２１１は、通訳音声を受け付ける。図示しない通訳処理部は、通訳音声を送信するデータ構造にする。通訳送信部２２は、当該通訳音声を第一サーバ３に送信する。

次に、第一サーバ３の動作例について、図４のフローチャートを用いて説明する。なお、図４〜図６のフローチャートにおいて、通訳者装置２から送信される状態情報は、通訳言語識別子を有するものとする。

（ステップＳ４０１）第一ライブ受信部３２は、話者装置１からライブ映像とライブ音声を受信したか否かを判断する。話者装置１からライブ映像とライブ音声を受信した場合はステップＳ４０２に進み、受信していない場合はステップＳ４０３に進む。なお、第一ライブ受信部３２は、例えば、ライブ映像とライブ音声を話者識別子と対に受信する。

（ステップＳ４０２）第一ライブ受信部３２は、ステップＳ４０１で受信したライブ映像とライブ音声を、当該ライブ映像等と対に受信した話者識別子に対応付けて第二サーバ４に送信する。ステップＳ４０１に戻る。

（ステップＳ４０３）第一状態受信部３４は、通訳者装置２から状態情報を受信したか否かを判断する。通訳者装置２から状態情報を受信した場合はステップＳ４０４に進み、受信していない場合はステップＳ４０５に進む。なお、第一状態受信部３４は、例えば、状態情報を通訳者識別子と対に受信する。また、第一状態受信部３４は、例えば、通訳言語識別子をも受信しても良い。

（ステップＳ４０４）第一送信部３５は、ステップＳ４０３で受信された状態情報を、当該状態情報と対に受信された通訳者識別子に対応付けて第二サーバ４に送信する。ステップＳ４０１に戻る。なお、第一送信部３５は、通訳言語識別子をも第二サーバ４に送信しても良い。

（ステップＳ４０５）第一通訳受信部３３は、通訳者装置２から通訳音声等を受信したか否かを判断する。通訳者装置２から通訳音声等を受信したと判断された場合はステップＳ４０６に進み、受信していないと判断された場合はステップＳ４０１に戻る。なお、通訳音声等とは、通訳音声だけでも良いし、通訳音声と通訳言語識別子でも良いし、通訳音声と通訳者識別子でも良いし、通訳音声と通訳言語識別子と通訳者識別子でも良い。

（ステップＳ４０６）第一送信部３５は、ステップＳ４０５で受信された通訳音声を、当該通訳音声と対に受信された通訳者識別子または／および通訳言語識別子に対応付けて第二サーバ４に送信する。

（ステップＳ４０７）通訳音声送信部３６は、ステップＳ４０５で受信された通訳音声を、当該通訳音声と対に受信された通訳者識別子または／および通訳言語識別子に対応する１以上の各第二端末７に送信する。その後、ステップＳ４０１に戻る。

なお、図４のフローチャートにおいて、第一サーバ３の電源オンやプログラムの起動に応じて処理が開始し、電源オフや処理終了の割り込みにより処理は終了する。ただし、処理の開始または終了のトリガは問わない。

第二サーバ４の動作例について、図５のフローチャートを用いて説明する。

（ステップＳ５０１）第二受信部４２は、ライブ映像とライブ音声を第一サーバ３から受信したか否かを判断する。ライブ映像とライブ音声を受信した場合はステップＳ５０２に進み、受信していない場合はステップＳ５０３に進む。

（ステップＳ５０２）第二受信部４２は、ステップＳ５０１で受信したライブ映像とライブ音声を、当該ライブ映像等と対に受信した話者識別子に対応付けて、図示しないバッファに蓄積する。ステップＳ５０１に戻る。

（ステップＳ５０３）第二状態受信部４３は、状態情報等を受信したか否かを判断する。状態情報等を受信した場合はステップＳ５０４に進み、受信していない場合はステップＳ５０５に進む。

（ステップＳ５０４）第二状態蓄積部４４は、ステップＳ５０３で受信された状態情報を、当該状態情報と対に受信され通訳者識別子に対応付けて第二サーバ格納部４１に蓄積する。ステップＳ５０１に戻る。

（ステップＳ５０５）第二受信部４２は、通訳音声等を受信したか否かを判断する。訳音声等を受信した場合はステップＳ５０６に進み、受信していない場合はステップＳ５０１に戻る。

（ステップＳ５０６）第二受信部４２は、ステップＳ５０５で受信した通訳音声を、当該通訳音声と対に受信された通訳者識別子または／および通訳言語識別子に対応付けて、図示しないバッファに蓄積する。

（ステップＳ５０７）音声構成部４５等は、出力音声構成・送信処理を行う。上位の処理にリターンする。かかる出力音声構成・送信処理の例については、図６のフローチャートを用いて説明する。

なお、図５のフローチャートにおいて、第二サーバ４の電源オンやプログラムの起動に応じて処理が開始し、電源オフや処理終了の割り込みにより処理は終了する。ただし、処理の開始または終了のトリガは問わない。また、図５のフローチャートにおいて、出力音声構成・送信処理を行うタイミングは問わない。音声構成部４５等は、例えば、通訳音声等を受信した後に、直ちに、出力音声構成・送信処理を行っても良い。

ステップＳ５０７の出力音声構成・送信処理の例について、図６のフローチャートを用いて説明する。

（ステップＳ６０１）は、変数ｉに初期値１をセットする。変数ｉとは、第二サーバ格納部４１に格納されている１以上の話者識別子のうち、未選択の話者識別子を順番に選択していくための変数である。

（ステップＳ６０２）音声構成部４５は、ｉ番目の話者識別子があるか否かを判別する。ｉ番目の話者識別子があると判別された場合はステップＳ６０３に進み、ないと判別された場合は上位処理にリターンする。

（ステップＳ６０３）音声構成部４５は、ｉ番目の話者識別子に対応する1以上の通訳者識別子を第二サーバ格納部４１から取得する。

（ステップＳ６０４）音声構成部４５は、変数ｊに初期値１をセットする。変数ｊとは、ステップＳ６０３で取得した１以上の通訳者識別子のうち、未選択の通訳者識別子を順番に選択していくための変数である。

（ステップＳ６０５）音声構成部４５は、ｊ番目の通訳者識別子があるか否かを判別する。ｊ番目の通訳者識別子があると判別された場合はステップＳ６０６に進み、ないと判別された場合はステップＳ６１２に進む。

（ステップＳ６０６）音声構成部４５は、ｊ番目の通訳者識別子に対応する状態情報が予め決められた条件を満たすか否かを判断する。このフローチャートにおいて、予め決められた条件は、“同時通訳中であることを示す情報であること”である。ｊ番目の通訳者識別子に対応する状態情報が予め決められた条件を満たすと判断された場合はステップＳ６０７に進み、満たさないと判断された場合はステップＳ６０９に進む。

（ステップＳ６０７）音声構成部４５は、ｉ番目の話者識別子に対応するライブ音声と、ｊ番目の通訳者識別子に対応する通訳音声とをバッファから読み出す。音声構成部４５は、当該ライブ音声と当該通訳音声とをミックスし、出力音声を構成する。

（ステップＳ６０８）図示しない第二処理部は、ライブ映像を図示しないバッファから読み出す。また、第二処理部は、当該ライブ映像と出力音声とを用いて、出力情報を構成する。次に、出力情報送信部４６は、当該出力情報を、ｉ番目の話者識別子およびｊ番目の通訳言語識別子の組と対に、配信サーバ５に送信する。その後、ステップＳ６１１に進む。

（ステップＳ６０９）音声構成部４５は、ｉ番目の話者識別子に対応するライブ音声をバッファから読み出す。そして、音声構成部４５は、当該ライブ音声を有し、通訳音声を有さない出力音声を構成する。

（ステップＳ６１０）図示しない第二処理部は、ライブ映像を図示しないバッファから読み出す。また、第二処理部は、当該ライブ映像と出力音声とを用いて、出力情報を構成する。出力情報送信部４６は、ｉ番目の話者識別子に対応するライブ映像と、ステップＳ６０９で構成した出力音声とを有する出力情報を、ｉ番目の話者識別子と対に配信サーバ５に送信する。その後、ステップＳ６１１に進む。

（ステップＳ６１１）音声構成部４５は、変数ｊをインクリメントする。ステップＳ６０５に戻る。

（ステップＳ６１２）音声構成部４５は、変数ｉをインクリメントする。ステップＳ６０２に戻る。

なお、図示しないバッファから読み出されたライブ音声、通訳音声、およびライブ映像は、バッファから削除される。つまり、バッファは、通常、ＦＩＦＯのメモリである。

次に、第一端末６の動作例について説明する。第一端末６は、ユーザから通訳言語識別子を有する配信指示を受け付ける。そして、第一端末６は、当該配信指示を配信サーバ５に送信する。そして、第一端末６の端末受信部６１は、送信された配信指示が有する通訳言語識別子で識別される言語の通訳音声が含まれる出力情報を、配信サーバ５から受信する。そして、第一端末６は、出力情報が有するライブ映像とライブ音声と通訳音声とを出力する。なお、第一端末６において、受信された出力情報が有するライブ音声を出力せずに、ライブ映像と通訳音声とを出力しても良い。

次に、第二端末７の動作例について説明する。第二端末７の第二通訳音声受信部７１は、第一サーバ３から通訳音声を受信する。そして、第二通訳音声出力部７２は、第二通訳音声受信部７１が受信した通訳音声を出力する。なお、第二端末７は、ライブ音声およびライブ映像を受信しないことは好適である。

以下、本実施の形態における情報システム１００の具体的な動作例について説明する。なお、以下の説明は、種々の変更が可能であり、本発明を何ら限定するものではない。

情報システム１００の概念図は図１である。本例の情報システム１００は、２以上の話者装置１、３以上の通訳者装置２、第一サーバ３、第二サーバ４、配信サーバ５、３以上の第一端末６、および３以上の第二端末７を備える。

２以上の話者装置１のうち１つ（以下、話者装置１Ｘ）は、英語で講演をする話者Ｘの端末であり、他の１つ（以下、話者装置１Ｙ）は、日本語で講義をする話者Ｙの端末端である。話者装置１Ｘは、話者Ｘが居るライブ会場である第一会場に設置され、話者装置１Ｙは、話者Ｙが居るライブ会場である第二会場に設置されている。話者装置１Ｘには、話者識別子“Ｘ”が格納され、話者装置１Ｙには、話者識別子“Ｙ”が格納されている。

３以上の通訳者装置２のうち１つ（以下、通訳者装置２Ａ）は、話者Ｘの英語を日本語に同時通訳する通訳者Ａの端末であり、他の１つ（以下、通訳者装置２Ｂ）は、話者Ｘの英語を中国語に同時通訳する通訳者Ｂの端末であり、その他の１つ（以下、通訳者装置２Ｃ）は、話者Ｙの日本語を英語に同時通訳する通訳者Ｃの端末である。通訳者装置２Ａは、通訳者Ａの自宅に存在し、通訳者装置２Ｂは、通訳者Ｂの自宅に存在し、通訳者装置２Ｃは、第二会場の通訳ルームに設置されている。

通訳者装置２Ａには、通訳者識別子“Ａ”と通訳言語識別子“日”との組“（Ａ，日）”が格納されている。同様に、通訳者装置２Ｂには、通訳者識別子“Ｂ”と通訳言語識別子“中”との組“（Ｂ，中）”が格納され、通訳者装置２Ｃには、通訳者識別子“Ｃ”と通訳言語識別子“英”との組“（Ｃ，英）”が格納されている。

第一サーバ３の第一サーバ格納部３１には、１以上の話者識別子“Ｘ”，“Ｙ”・・・が格納されている。また、話者識別子“Ｘ”に対応付けて、通訳者識別子と通訳言語識別子との組が２組以上、格納されている。話者識別子“Ｘ”に対応付けて格納されている通訳者識別子と通訳言語識別子との組は、例えば、“（Ａ，日）”、（Ｂ，中）”などである。さらに、話者識別子“Ｙ”に対応付けて、通訳者識別子と通訳言語識別子との組が１組以上、格納されている。話者識別子“Ｙ”に対応付けて格納されている通訳者識別子と通訳言語識別子との組は、例えば、“（Ｃ，英）”などである。

また、第一サーバ格納部３１には、第二端末識別子と通訳言語識別子との組が２組以上、格納されている。第二端末識別子と通訳言語識別子との組は、例えば、“（ｃ，日）”，“（ｄ，中）”などである。

第二サーバ４の第二サーバ格納部４１には、例えば、図７に示すような、２以上の通訳関連情報が格納され得る。

図７は、通訳関連情報のデータ構造図である。通訳関連情報とは、一の話者に対応する１または２以上の通訳者に関する情報である。通訳関連情報は、例えば、通訳者識別子と、１または２以上の組情報とを有する。組情報とは、通訳者識別子と通訳言語識別子と状態情報との組である。

格納される２以上の各通訳関連情報には、ＩＤ（例えば、“１”，“２”等）が対応付いている。例えば、ＩＤ“１”に対応する通訳関連情報（以下、通訳関連情報１）は、話者識別子“Ｘ”と、２以上の組情報“（Ａ，日，通訳中）”，“（Ｂ，中，通訳中）”等を有する。同様に、ＩＤ“２”に対応する通訳関連情報２は、話者識別子“Ｙ”と、１以上の組情報“（Ｃ，英，停止）”等を有する。なお、状態情報の初期値は、“停止”である。

配信サーバ５には、第一端末識別子と通訳言語識別子との組が３組以上、格納されている。第一端末識別子と通訳言語識別子との組は、例えば、“（ａ，日）”，“（ｂ，中）”，“（ｃ，英）”などである。

３以上の第一端末６のうち１つ（以下、第一端末６ａ）は、ユーザａの端末であり、他の１つ（以下、第一端末６ｂ）は、ユーザｂの端末であり、その他の１つ（以下、第一端末６ｃ）は、ユーザｃの端末である。第一端末６ａ、第一端末６ｂ、および第一端末６ｃの各々は、ライブ会場の外部（例えば、自宅や遠隔会場など）に存在する。第一端末６ａには、第一端末識別子“ａ”と通訳言語識別子“日”との組“（ａ，日）”が格納され、第一端末６ｂには、第一端末識別子“ｂ”と通訳言語識別子“中”との組“（ｂ，中）”が格納され、第一端末６ｃには、第一端末識別子“ｃ”と通訳言語識別子“英”との組“（ｃ，英）”が格納されている。

３以上の第二端末７のうち１つ（以下、第二端末７α）は、ユーザαの端末であり、他の１つ（以下、第二端末７β）は、ユーザβの端末であり、その他の１つ（以下、第二端末７γ）は、ユーザγの端末である。第二端末７αと第二端末７βは、第一会場内に存在し、第二端末７γは、第二会場内に存在している。第二端末７αには、第二端末識別子“α”と通訳言語識別子“日”との組“（α，日）”が格納され、第二端末７βには、第二端末識別子“β”と通訳言語識別子“中”との組“（β，中）”が格納され、第二端末７γには、第二端末識別子“γ”と通訳言語識別子“英”との組“（γ，英）”が格納されている。

話者Ｘの講演会は、開始時刻が１９：００、終了時刻が２０：００である。話者Ｙの講義は、開始時刻が１９：３０、終了時刻が２０：３０である。いま、現在時刻が１９：００となり、第一会場において、話者Ｘの講演会が開始されたとする。なお、この時点で、第二サーバ格納部４１には、図７に示した２つの通訳関連情報１および２のうち、通訳関連情報１が格納され、訳関連情報２は未格納である。

話者装置１Ｘにおいて、話者第一受付部１１は、カメラを介して第一会場内のライブ映像を受け付け、話者第二受付部１２は、マイクロフォンを介して第一会場内のライブ音声を受け付ける。話者送信部１３は、当該受け付けられたライブ映像とライブ音声を、話者装置１Ｘに格納されている話者識別子“Ｘ”と対に第一サーバ３に送信する。

各通訳者装置２Ａ〜２Ｃのディスプレイには、開始ボタンおよび終了ボタンが表示されており、話者Ｘの講演会の開始時刻１９：００になると、通訳者Ａは通訳者装置２Ａに対して、訳者Ｂは通訳者装置２Ｂに対して、それぞれ開始ボタンを押下する操作を行う。

上記操作に応じて、通訳者装置２Ａでは、通訳第二受付部２１２がタッチパネルを介して状態情報“通訳中”を受け付け、通訳送信部２２は、当該状態情報“通訳中”を通訳者識別子“Ａ”と対に第一サーバ３に送信する。同様に、通訳者装置２Ｂでは、状態情報“通訳中”が受け付けられると、当該状態情報“通訳中”は、通訳者識別子“Ｂ”と対に第一サーバ３に送信される。

上記状態情報“通訳中”の受け付けに応じて、通訳者装置２Ａでは、通訳第一受付部２１１が通訳者Ａの通訳音声を受け付け、通訳送信部２２は、当該受け付けられた通訳音声を、格納されている通訳者識別子“Ａ”と対に第一サーバ３に送信する動作を開始する。同様に、通訳者装置２Ｂでは、通訳者Ｂの通訳音声を受け付け、通訳者識別子“Ｂ”と対に第一サーバ３に送信する動作が開始される。

第一サーバ３において、第一ライブ受信部３２が、話者装置１Ｘからライブ映像とライブ音声を受信すると、第一ライブ受信部３２は、当該受信されたライブ映像とライブ音声を、当該ライブ映像等と対に受信された話者識別子“Ｘ”に対応付けて第二サーバ４に送信する。

また、第一状態受信部３４が、通訳者装置２Ａから状態情報“通訳中”を受信すると、第一送信部３５は、当該受信された状態情報を、当該状態情報と対に受信された通訳者識別子“Ａ”に対応付けて第二サーバ４に送信する。同様に、通訳者装置２Ｂから状態情報“通訳中”が受信されると、当該受信された状態情報は、通訳者識別子“Ｂ”に対応付けて第二サーバ４に送信される。

さらに、第一通訳受信部３３が、通訳者装置２Ａから通訳音声等を受信すると、第一送信部３５は、当該受信された通訳音声を、当該通訳音声と対に受信された通訳者識別子“Ａ”と通訳言語識別子“日”の組“（Ａ，日）”に対応付けて第二サーバ４に送信する。同様に、通訳者装置２Ｂから通訳音声等が受信されると、当該受信された通訳音声は、通訳者識別子“Ｂ”と通訳言語識別子“中”の組“（Ｂ，中）”に対応付けて第二サーバ４に送信される。

また、通訳音声送信部３６は、通訳者装置２Ａから受信された上記通訳音声を、当該通訳音声と対に受信された通訳者識別子と通訳言語識別子の組“（Ａ，日）”に対応する第二端末７αに送信する。同様に、通訳者装置２Ｂから受信された通訳音声は、通訳者識別子と通訳言語識別子の組“（Ｂ，中）”に対応する第二端末７βに送信される。

第二サーバ４において、第二受信部４２は、第一サーバ３を介して、話者装置１Ｘからのライブ映像とライブ音声等を受信すると、当該受信したライブ映像とライブ音声を、当該ライブ映像等と対に受信した話者識別子“Ｘ”に対応付けてバッファに蓄積する。また、第二状態受信部４３が、第一サーバ３を介して、通訳者装置２Ａからの状態情報“通訳中”等を受信すると、第二状態蓄積部４４は、当該受信された状態情報を、当該状態情報と対に受信された通訳者識別子“Ａ”に対応付けて第二サーバ格納部４１に蓄積する。同様に、通訳者装置２Ｂからの状態情報“通訳中”等が受信されると、当該受信された状態情報は、通訳者識別子“Ｂ”に対応付けて蓄積される。

さらに、第二受信部４２は、第一サーバ３を介して、通訳者装置２Ａからの通訳音声等を受信すると、当該受信した通訳音声を、当該通訳音声と対に受信した通訳者識別子“Ａ”と通訳言語識別子“日”の組“（Ａ，日）”に対応付けてバッファに蓄積する。同様に、通訳者装置２Ｂからの通訳音声等が受信されると、当該受信された通訳音声は、通訳者識別子“Ｂ”と通訳言語識別子“中”の組“（Ｂ，中）”に対応付けて蓄積される。

音声構成部４５等は、例えば、上記のような、第二受信部４２等によるライブ映像等の受信・蓄積処理が行われない期間に、出力音声構成・送信処理を行う。つまり、第二受信部４２等によるライブ映像等の受信・蓄積処理と、音声構成部４５等による出力音声構成・送信処理とは、例えば、一のプロセッサによって時分割で実行されるが、２つのプロセッサによって並列に実行されてもよい。

出力音声構成・送信処理では、第二サーバ格納部４１に格納されている１以上の各話者識別子“Ｘ”，“Ｙ”ごとに、以下の処理が行われる。現時点では、第二サーバ格納部４１に、話者識別子“Ｘ”を有する通訳関連情報１が格納され、話者識別子“Ｙ”を有する通訳関連情報２は未格納であるため、話者識別子“Ｘ”についての処理が行われ、話者識別子“Ｙ”についての処理は行われない。

すなわち、音声構成部４５は、話者識別子“Ｘ”に対応するライブ音声と、話者識別子“Ｘ”と対になる２以上の通訳者識別子“Ａ”および“Ｂ”等のうち、１つ目の通訳者識別子“Ａ”に対応する通訳音声とを予め決められた割合（例えば、ライブ音声２０％に対して、通訳音声１００％の割合）でミックスし、英語のライブ音声に日本語の通訳音声を付けた１つ目の出力音声を構成する。同様に、話者識別子“Ｘ”に対応するライブ音声と、通訳者識別子“Ｂ”に対応する通訳音声とがミックスされ、英語のライブ音声に中国語の通訳音声を付けた２つ目の出力音声が構成される。

出力情報送信部４６は、話者識別子“Ｘ”に対応するライブ映像と、英語のライブ音声に日本語の通訳音声を付けた１つ目の出力音声とを有する１つ目の出力情報を、話者識別子“Ｘ”および通訳言語識別子“日”の組“（Ｘ，日）”と対に、配信サーバ５に送信する。同様に、話者識別子“Ｘ”に対応するライブ映像と、英語のライブ音声に中国語の通訳音声を付けた２つ目の出力音声とを有する２つ目の出力情報が、話者識別子“Ｘ”および通訳言語識別子“中”の組“（Ｘ，中）”と対に、配信サーバ５に送信される。

配信サーバ５において、配信受信部５１が上記１つ目の出力情報等を受信すると、配信送信部５２は、当該受信された１つ目の出力情報を、当該出力情報と対に受信された話者識別子および通訳言語識別子の組“（Ｘ，日）”に対応する第一端末６ａに送信する。同様に、上記２つ目の出力情報等が受信されると、当該受信された２つ目の出力情報は、当該出力情報と対に受信された話者識別子および通訳言語識別子の組“（Ｘ，中）”に対応する第一端末６ｂに送信される。

第一端末６ａにおいて、端末受信部６１が上記1つ目の出力情報を受信し、端末音声出力部６２は、当該受信された出力情報が有する出力音声をスピーカを介して出力し、端末映像出力部６３は、当該出力情報が有するライブ映像をディスプレオを介して出力する。これにより、第一端末６ａのディスプレイには、話者Ｘが英語で講演を行っている第一会場のライブ映像が表示され、第一端末６ａのスピーカからは、第一会場のライブ音声に日本語の通訳音声を付けた出力音声が出力される。従って、ユーザａは、第一会場での英語による話者Ｘの講演を、第一会場の外部に居ながら、ライブ映像とライブ音声によって第一会場の雰囲気を感じつつ、日本語の同時通訳によって楽しむことができる。

同様に、第一端末６ｂにおいて、上記２つ目の出力情報が受信されると、当該受信された出力情報が有する出力音声はスピーカを介して、ライブ映像はディスプレオを介して、それぞれ出力される。これにより、第一端末６ｂのディスプレイには、第一会場のライブ映像が表示され、第一端末６ｂのスピーカからは、第一会場のライブ音声に中国語の通訳音声を付けた出力音声が出力される。従って、ユーザｂは、英語による話者Ｘの講演を、ライブ映像等で雰囲気を感じつつ、中国語の同時通訳によって楽しむことができる。

第二端末７αにおいて、第二通訳音声受信部７１が、第一サーバ３から送信された日本語の通訳音声を受信すると、第二通訳音声出力部７２は、当該受信された通訳音声をスピーカを介して出力する。これにより、第二端末７αのスピーカからは、日本語の通訳音声が出力される。従って、第一会場内に居るユーザαは、英語による話者Ｘの講演を、日本語の同時通訳によって楽しむことができる。

同様に、第二端末７βにおいて、第一サーバ３から送信された中国語の通訳音声が受信されると、当該受信された通訳音声は、スピーカを介して出力される。これにより、第二端末７βのスピーカからは、中国語の通訳音声が出力される。従って、第一会場内に居るユーザβは、英語による話者Ｘの講演を、中国語の同時通訳によって楽しむことができる。

その後、現在時刻が１９；３０になるまでの期間は、上記と同様、話者識別子“Ｘ”についての処理が行われる。

話者Ｙの講義の開始時刻１９：３０になると、第二サーバ格納部４１には、通訳関連情報１に加えて、通訳関連情報２がさらに格納される。話者装置１Ｙにおいて、第二会場内のライブ映像とライブ音声が受け付けられ、当該受け付けられたライブ映像とライブ音声は、話者識別子“Ｙ”と対に第一サーバ３に送信される。

通訳者Ｃが通訳者装置２Ｃに対し、開始ボタンを押下する操作を行うと、通訳者装置２Ｃにおいて、状態情報“通訳中”が受け付けられ、当該状態情報“通訳中”は、通訳者識別子“Ｃ”と対に第一サーバ３に送信される。

第一サーバ３において、話者装置１Ｙからのライブ映像とライブ音声が受信されると、当該受信されたライブ映像とライブ音声は、話者識別子“Ｙ”に対応付けて第二サーバ４に送信される。また、通訳者装置２Ｃから状態情報“通訳中”が受信されると、当該受信された状態情報は、通訳者識別子“Ｃ”に対応付けて第二サーバ４に送信される。さらに、通訳者装置２Ｃから通訳音声等が受信されると、当該受信された通訳音声は、通訳者識別子“Ｃ”と通訳言語識別子“英”の組“（Ｃ，英）”に対応付けて第二サーバ４に送信される。通訳者装置２Ｃから受信された通訳音声は、通訳者識別子と通訳言語識別子の組“（Ｃ，英）”に対応する第二端末７γにも送信される。

第二サーバ４において、話者装置１Ｙからのライブ映像とライブ音声等が受信されると、当該受信されたライブ映像とライブ音声は、話者識別子“Ｙ”に対応付けてバッファに蓄積される。これにより、通訳者識別子“Ｃ”に対応する状態情報が“停止”から“通訳中”に変化する。

また、通訳者装置２Ｃからの状態情報“通訳中”等が受信されると、当該受信された状態情報は、通訳者識別子“Ｃ”に対応付けて蓄積される。さらに、通訳者装置２Ｃからの通訳音声等が受信されると、当該受信された通訳音声は、通訳者識別子“Ｃ”と通訳言語識別子“英”の組“（Ｃ，英）”に対応付けて蓄積される。

その後の出力音声構成・送信処理では、話者識別子“Ｘ”についての処理に加えて、話者識別子“Ｙ”についての処理も実行される。

話者識別子“Ｙ”についての処理では、話者識別子“Ｙ”に対応するライブ音声と、話者識別子“Ｙ”と対になる通訳訳者識別子“Ｃ”に対応する通訳音声とがミックスされ、日本語のライブ音声に英語の通訳音声を付けた出力音声が構成される。そして、話者識別子“Ｙ”に対応するライブ映像と、日本語のライブ音声に英語の通訳音声を付けた出力音声とを有する出力情報が、話者識別子“Ｙ”および通訳言語識別子“英”の組“（Ｙ，英）”と対に、配信サーバ５に送信される。

配信サーバ５において、上記送信された出力情報等が受信されると、当該受信された出力情報は、当該出力情報と対に受信された話者識別子および通訳言語識別子の組“（Ｙ，英）”に対応する第一端末６ｃに送信される。

第一端末６ｃにおいて、上記送信された出力情報等が受信されると、第一端末６ｃのディスプレイには、話者Ｙが日本語で講義を行っている第二会場のライブ映像が表示され、第一端末６ｃのスピーカからは、第二会場のライブ音声に英語の通訳音声を付けた出力音声が出力される。従って、ユーザｃは、第二会場での日本語による話者Ｘの講演を、第二会場の外部に居ながら、ライブ映像等で雰囲気を感じつつ、英語の同時通訳によって楽しむことができる。

第二端末７γにおいて、第一サーバ３から送信された英語の通訳音声が受信されると、当該受信された通訳音声は、スピーカを介して出力される。これにより、第二端末７γのスピーカからは、英語の通訳音声が出力される。従って、第二会場内に居るユーザγは、日本語による話者Ｙの講義を、英語の同時通訳によって楽しむことができる。

その後、１９；３０から２０：００までの期間は、上記と同様に、話者識別子“Ｘ”についての処理と、話者識別子“Ｙ”についての処理とが行われる。

話者Ｘの講演会の終了時刻になると、通訳者Ａと通訳者Ｂは、各々終了ボタンを押下する。これに応じて、話者識別子“Ａ”に対応する状態情報と、話者識別子“Ｂ”に対応する状態情報とは、各々“通訳中”から“停止”に変化する。ライブ音声と通訳音声とのミックスは停止され、話者Ｘの講演会に関する出力音声は、ライブ音声のみとなる。

さらに、２０；００から２０：３０までの期間は、話者識別子“Ｘ”についての処理は行われず、話者識別子“Ｙ”についての処理が行われる。

話者Ｙの講義の終了時刻になると、通訳者Ｃは、終了ボタンを押下する。これに応じて、話者識別子“Ｃ”に対応する状態情報は、“通訳中”から“停止”に変化する。ライブ音声と通訳音声とのミックスは停止され、話者Ｙの講義に関する出力音声は、ライブ音声のみとなる。

以上、本実施の形態によれば、情報システム１００により、または情報システム１００を構成するサーバシステム（３，４）により、配信サーバ５を利用して、同時通訳の音声を含むライブ配信ができる。

また、上記情報システム１００において、サーバシステム（３，４）は、第一サーバ３と第二サーバ４とを具備しても良い。第一サーバ３により、音声のミックス処理を高速に行える。

また、上記情報システム１００において、サーバ装置（３，４）または第二サーバ４は、予め決められた条件を満たしている場合は、ライブ音声と通訳音声とをミックスし、出力音声を構成し、予め決められた条件を満たしていない場合は、受信したライブ音声を有し、通訳音声を有さない出力音声を取得する。これにより、音声のミックス処理を適切に行える。なお、予め決められた条件が状態情報が同時通訳中であることを示す情報であることより、音声のミックス処理を適切に行える。

また、情報システム１００が２以上の通訳者装置２を具備する場合、各々、異なる言語の通訳音声を含む２以上の音声が出力される。

また、情報システム１００が、１以上の第一端末６と１以上の第二端末７とを有する場合、ライブ会場での通訳音声提供と、遠隔への通訳音声を含むライブ配信が共に可能になる。

また、上記情報システム１００において、サーバ装置（３，４）は、ライブ音声と通訳音声とを、予め決められた割合でミックスし、出力音声を構成する。これにより、適切な割合で、通訳音声とライブ音声とがミックスされる。

または、本実施の形態において、第一サーバ３と第二サーバ４とは、サーバシステム（３，４）を構成しても良い。なお、第一サーバ３と第二サーバ４との機能の分担方法は問わない。

さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。

なお、本実施の形態におけるサーバ装置（３，４）を実現するソフトウェアは、例えば、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、ライブ映像とライブ音声とを話者装置から受信する第一ライブ受信部と、通訳音声を通訳者装置から受信する第一通訳受信部と、前記ライブ音声と前記通訳音声とをミックスし、出力する音声である出力音声を構成する音声構成部と、前記ライブ映像と前記出力音声とを有する出力情報を１以上の配信サーバに送信する出力情報送信部として機能させるためのプログラムである。

また、このプログラムは、１以上の話者装置１と、１以上の各通訳者が使用する通訳者装置２と、サーバ装置（３，４）と、１以上の配信サーバ５と、１以上の第一端末６とを具備する情報システム１００を構成するサーバ装置（３，４）のコンピュータによって実行されるプログラムであって、前記話者装置１は、ライブ配信のための映像であるライブ映像を受け付ける話者第一受付部１１と、ライブ配信のための音声であるライブ音声を受け付ける話者第二受付部１２と、前記ライブ映像と前記ライブ音声とを前記サーバ装置（３，４）に送信する話者送信部１３とを具備し、前記通訳者装置２は、前記ライブ音声を聞いている通訳者が通訳した通訳音声を受け付ける通訳第一受付部２１１と、前記通訳音声を前記サーバ装置（３，４）に送信する通訳送信部２２とを具備し、前記コンピュータを、前記話者装置１から前記ライブ映像と前記ライブ音声とを受信する第一ライブ受信部３２と、前記通訳者装置２から前記通訳音声を受信する第一通訳受信部３３と、前記ライブ音声と前記通訳音声とをミックスし、出力する音声である出力音声を構成する音声構成部４５と、前記ライブ映像と前記出力音声とを有する出力情報を前記１以上の配信サーバ５に送信する出力情報送信部４６として機能させ、前記配信サーバ５は、前記サーバ装置（３，４）から前記出力情報を受信する配信受信部５１と、前記配信受信部５１が受信した出力情報を前記１以上の第一端末６に配信する配信送信部５２とを具備し、前記第一端末６は、前記配信サーバ５から前記出力情報を受信する端末受信部６１と、前記出力情報が有するライブ映像を出力する端末映像出力部６３と、前記出力情報が有する前記出力音声を出力する端末音声出力部６２とを具備する、プログラムである。

また、第一サーバ３を実現するソフトウェアは、例えば、以下のようなプログラムである。つまり、このプログラムは、第一サーバ３のコンピュータを、話者装置１からライブ映像とライブ音声とを受信する第一ライブ受信部３２と、通訳者装置２から通訳音声を受信する第一通訳受信部３３と、前記ライブ映像と前記ライブ音声と前記通訳音声とを第二サーバ４に送信する第一送信部３５として機能させるためのプログラムである。

さらに、第二サーバ４を実現するソフトウェアは、例えば、以下のようなプログラムである。つまり、このプログラムは、第二サーバ４のコンピュータを、上記第一サーバ３からライブ映像とライブ音声と通訳音声とを受信する第二受信部４２と、前記第二受信部４２が受信した前記ライブ音声と前記通訳音声とをミックスし、出力する音声である出力音声を構成する音声構成部４５と、前記ライブ映像と前記出力音声とを有する出力情報を１以上の配信サーバ５に送信する出力情報送信部４６として機能させるためのプログラムである。

（実施の形態２）
本実施の形態における情報システム２００の概念図は、図１に示した情報システム１００の概念図において、第一サーバ３と第二サーバ４とを具備するサーバシステムを、サーバ装置８に置き換えたものである。なお、その他の要素（１，２，５〜７）は、実施の形態１のものと同様の動作を行う。

また、情報システム２００のブロック図は、図２に示した情報システム１００のブロック図において、第一サーバ３と第二サーバ４とで構成されたサーバシステムを、図８に示すサーバ装置８に置き換えたものである。

図８は、サーバ装置８のブロック図である。サーバ装置８は、第二サーバ格納部４１、第一ライブ受信部３２、第一通訳受信部３３、第一状態受信部３４、第二状態蓄積部４４、音声構成部４５、出力情報送信部４６、および通訳音声送信部３６を備える。

サーバ装置８は、ライブ映像とライブ音声とを話者装置１から受信する第一ライブ受信部３２と、通訳音声を通訳者装置２から受信する第一通訳受信部３３と、ライブ音声と通訳音声とをミックスし、出力する音声である出力音声を構成する音声構成部４５と、ライブ映像と出力音声とを有する出力情報を１以上の配信サーバ５に送信する出力情報送信部４６とを具備する。

図９は、サーバ装置８の動作を説明するフローチャートである。図９のフローチャートは、図５に示した第二サーバ４のフローチャートにおいて、３つのステップＳ５０１，Ｓ５０３，およびＳ５０５を、図４に示した第一サーバ３のフローチャートの３つのステップＳ４０１，Ｓ４０３，およびＳ４０５に置き換えたものである。

本実施の形態における情報システム２００の具体的な動作例は、第一サーバ３と第二サーバ４とで分担していた動作を一のサーバ装置８が担う点を除き、前述した実施の形態１における情報システム１００の動作例と同様である。なお、サーバ装置８は、第一サーバ３と第二サーバ４との間の通信処理の機能は有さないことは言うまでもない。

以上、本実施の形態によれば、情報システム２００により、または情報システム２００を構成するサーバ装置８により、配信サーバ５を利用して、同時通訳の音声を含むライブ配信ができる。

また、上記情報システム２００において、サーバ装置８は、予め決められた条件を満たしている場合は、ライブ音声と通訳音声とをミックスし、出力音声を構成し、予め決められた条件を満たしていない場合は、受信したライブ音声を有し、通訳音声を有さない出力音声を取得する。これにより、音声のミックス処理を適切に行える。

また、上記情報システム２００において、第二サーバ格納部４１に、同時通訳中であるか否かを示す状態情報が格納され、予め決められた条件は、状態情報が同時通訳中であることを示す情報であることである。これにより、音声のミックス処理を適切に行える。

また、上記情報システム２００が２以上の通訳者装置２を具備することにより、異なる言語の通訳音声を含む音声が出力される。

また、上記情報システム２００は、１以上の第一端末６と１以上の第二端末７を有することにより、ライブ会場での通訳音声提供と、遠隔への通訳音声を含むライブ配信が共に可能になる。

また、上記情報システム２００において、サーバ装置８は、ライブ音声と通訳音声とを、予め決められた割合でミックスし、出力音声を構成する。これにより、適切な割合で、通訳音声とライブ音声とがミックスされる。

なお、本実施の形態におけるサーバを実現するソフトウェアは、例えば、以下のようなプログラムである。つまり、このプログラムは、１以上の話者装置１と、１以上の各通訳者が使用する通訳者装置２と、サーバ装置８と、１以上の配信サーバ５と、１以上の第一端末６とを具備する情報システム２００を構成するサーバ装置８のコンピュータによって実行されるプログラムであって、前記話者装置１は、ライブ配信のための映像であるライブ映像を受け付ける話者第一受付部１１と、ライブ配信のための音声であるライブ音声を受け付ける話者第二受付部１２と、前記ライブ映像と前記ライブ音声とを前記サーバ装置８に送信する話者送信部１３とを具備し、前記通訳者装置２は、前記ライブ音声を聞いている通訳者が通訳した通訳音声を受け付ける通訳第一受付部２１１と、前記通訳音声を前記サーバ装置８に送信する通訳送信部２２とを具備し、前記コンピュータを、前記話者装置１から前記ライブ映像と前記ライブ音声とを受信する第一ライブ受信部３２と、前記通訳者装置２から前記通訳音声を受信する第一通訳受信部３３と、前記ライブ音声と前記通訳音声とをミックスし、出力する音声である出力音声を構成する音声構成部４５と、前記ライブ映像と前記出力音声とを有する出力情報を前記１以上の配信サーバ５に送信する出力情報送信部４６として機能させ、前記配信サーバ５は、前記サーバ装置８から前記出力情報を受信する配信受信部５１と、前記配信受信部５１が受信した出力情報を前記１以上の第一端末６に配信する配信送信部５２とを具備し、前記第一端末６は、前記配信サーバ５から前記出力情報を受信する端末受信部６１と、前記出力情報が有するライブ映像を出力する端末映像出力部６３と、前記出力情報が有する前記出力音声を出力する端末音声出力部６２とを具備する、プログラムである。

図１０は、各実施の形態におけるプログラムを実行して、第一サーバ３や第二サーバ４やサーバ装置８などのサーバ装置等を実現するコンピュータシステム９００の外観図である。本実施の形態は、コンピュータハードウェアおよびその上で実行されるコンピュータプログラムによって実現され得る。図１０において、コンピュータシステム９００は、ディスクドライブ９０５を含むコンピュータ９０１と、キーボード９０２と、マウス９０３と、ディスプレイ９０４と、マイクロフォン９１７と、スピーカ９１８とを備える。なお、キーボード９０２やマウス９０３やディスプレイ９０４やマイクロフォン９１７スピーカ９１８をも含むシステム全体をコンピュータと呼んでも良い。

図１１は、コンピュータシステム９００の内部構成の一例を示す図である。図１１において、コンピュータ９０１は、ディスクドライブ９０５に加えて、ＭＰＵ９１１と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ９１２と、ＭＰＵ９１１に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するＲＡＭ９１３と、アプリケーションプログラム、システムプログラム、およびデータを記憶するストレージ９１４と、ＭＰＵ９１１、ＲＯＭ９１２等を相互に接続するバス９１５と、外部ネットワークや内部ネットワーク等のネットワークへの接続を提供するネットワークカード９１６と、マイクロフォン９１７と、スピーカ９１８と、を備える。ストレージ９１４は、例えば、ハードディスク、ＳＳＤ、フラッシュメモリなどである。

コンピュータシステム９００に、サーバ装置等の機能を実行させるプログラムは、例えば、ＤＶＤ、ＣＤ−ＲＯＭ等のディスク９２１に記憶されて、ディスクドライブ９０５に挿入され、ストレージ９１４に転送されても良い。これに代えて、そのプログラムは、ネットワークを介してコンピュータ９０１に送信され、ストレージ９１４に記憶されても良い。プログラムは、実行の際にＲＡＭ９１３にロードされる。なお、プログラムは、ディスク９２１、またはネットワークから直接、ロードされても良い。また、ディスク９２１に代えて他の着脱可能な記録媒体（例えば、ＤＶＤやメモリカード等）を介して、プログラムがコンピュータシステム９００に読み込まれても良い。

プログラムは、コンピュータの詳細を示す９０１に、サーバ装置等の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティプログラム等を必ずしも含んでいなくても良い。プログラムは、制御された態様で適切な機能やモジュールを呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいても良い。コンピュータシステム９００がどのように動作するのかについては周知であり、詳細な説明は省略する。

なお、上述したコンピュータシステム９００は、サーバまたは据え置き型のＰＣであるが、第一端末６や第二端末７は、例えば、タブレット端末やスマートフォンやノートＰＣといった、携帯端末で実現されても良い。この場合、例えば、キーボード９０２およびマウス９０３はタッチパネルに、ディスクドライブ９０５はメモリカードスロットに、ディスク９２１はメモリカードに、それぞれ置き換えられることが望ましい。話者装置１や通訳者装置２も、基本的なハードウェア構成は、ＰＣや携帯端末と同様で良い。ただし、以上は例示であり、サーバ装置等を実現するコンピュータのハードウェア構成は問わない。

なお、上記プログラムにおいて、情報を送信する送信ステップや、情報を受信する受信ステップなどでは、ハードウェアによって行われる処理、例えば、送信ステップにおけるモデムやインターフェースカードなどで行われる処理（ハードウェアでしか行われない処理）は含まれない。

また、上記プログラムを実行するコンピュータは、単数であっても良く、複数であっても良い。すなわち、一のコンピュータが集中処理を行っても良く、あるいは複数のコンピュータが分散処理を行っても良い。

また、上記各実施の形態において、一の装置に存在する２以上の通信手段（例えば、配信受信部５１、配信送信部５２など）は、物理的に一の媒体で実現されても良いことは言うまでもない。

また、上記各実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されても良く、あるいは、複数の装置によって分散処理されることによって実現されても良い。

本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上のように、本発明にかかるサーバ装置は、配信サーバを利用して、同時通訳の音声を含むライブ配信ができるという効果を有し、サーバ装置等として有用である。

１話者装置
２通訳者装置
３第一サーバ
４第二サーバ
５配信サーバ
６第一端末
７第二端末
８サーバ装置
１１話者第一受付部
１２話者第二受付部
１３話者送信部
２１通訳受付部
２２通訳送信部
３１第一サーバ格納部
３２第一ライブ受信部
３３第一通訳受信部
３４第一状態受信部
３５第一送信部
３６通訳音声送信部
４１第二サーバ格納部
４２第二受信部
４３第二状態受信部
４４第二状態蓄積部
４５音声構成部
４６出力情報送信部
５１配信受信部
５２配信送信部
６１端末受信部
６２端末音声出力部
６３端末映像出力部
７１第二通訳音声受信部
７２第二通訳音声出力部
１００、２００情報システム
２１１通訳第一受付部
２１２通訳第二受付部

Claims

１以上の話者装置と１以上の各通訳者が使用する通訳者装置とサーバ装置と１以上の配信サーバと１以上の第一端末とを具備する情報システムを構成するサーバ装置であって、
前記話者装置は、
ライブ配信のための映像であるライブ映像を受け付ける話者第一受付部と、
ライブ配信のための音声であるライブ音声を受け付ける話者第二受付部と、
前記ライブ映像と前記ライブ音声とを前記サーバ装置に送信する話者送信部と、
前記通訳者装置は、
前記ライブ音声を聞いている通訳者が通訳した通訳音声を受け付ける通訳第一受付部と、
前記通訳音声を前記サーバ装置に送信する通訳送信部とを具備し、
前記サーバ装置は、
前記ライブ映像と前記ライブ音声とを前記話者装置から受信する第一ライブ受信部と、
前記通訳音声を前記通訳者装置から受信する第一通訳受信部と、
前記ライブ音声と前記通訳音声とをミックスし、出力する音声である出力音声を構成する音声構成部と、
前記ライブ映像と前記出力音声とを有する出力情報を前記１以上の配信サーバに送信する出力情報送信部とを具備し、
前記配信サーバは、
前記出力情報を前記サーバ装置から受信する配信受信部と、
前記配信受信部が受信した出力情報を前記１以上の第一端末に配信する配信送信部とを具備し、
前記第一端末は、
前記出力情報を前記配信サーバから受信する端末受信部と、
前記出力情報が有するライブ映像を出力する端末映像出力部と、
前記出力情報が有する前記出力音声を出力する端末音声出力部とを具備する、情報システムを構成するサーバ装置。
前記サーバ装置は、第一サーバと第二サーバとを具備し、
前記第一サーバは、
前記ライブ映像と前記ライブ音声とを前記話者装置から受信する第一ライブ受信部と、
前記通訳音声を前記通訳者装置から受信する第一通訳受信部と、
前記ライブ映像と前記ライブ音声と前記通訳音声とを前記第二サーバに送信する第一送信部とを具備し、
前記第二サーバは、
前記ライブ映像と前記ライブ音声と前記通訳音声とを前記第一サーバから受信する第二受信部と、
前記第二受信部が受信した前記ライブ音声と前記通訳音声とをミックスし、出力する音声である出力音声を構成する音声構成部と、
前記ライブ映像と前記出力音声とを有する出力情報を前記１以上の配信サーバに送信する出力情報送信部とを具備する請求項１記載の情報システムを構成するサーバ装置。
前記音声構成部は、
予め決められた条件を満たしている場合は、前記ライブ音声と前記通訳音声とをミックスし、出力音声を構成し、前記予め決められた条件を満たしていない場合は、前記第二受信部が受信した前記ライブ音声を有し、前記通訳音声を有さない出力音声を取得する、請求項１または請求項２記載の情報システムを構成するサーバ装置。
前記サーバ装置は、
同時通訳中であるか否かを示す状態情報が格納される第二サーバ格納部をさらに具備し、
前記予め決められた条件は、前記状態情報が同時通訳中であることを示す情報であることである、請求項３記載の情報システムを構成するサーバ装置。
前記通訳者装置は、
状態情報を受け付ける通訳第二受付部をさらに具備し、
前記通訳者装置の前記通訳送信部は、
前記状態情報をも前記サーバ装置に送信し、
前記サーバ装置は、
前記通訳者装置から前記状態情報を受信する状態受信部と、
前記状態受信部が受信した前記状態情報を前記第二サーバ格納部に蓄積する第二状態蓄積部とをさらに具備する、請求項４記載の情報システムを構成するサーバ装置。
前記情報システムは、２以上の通訳者装置を具備し、
前記サーバ装置の前記第一通訳受信部は、
２以上の各通訳者装置から、各々、異なる言語の通訳音声を受信し、
前記音声構成部は、
２以上の前記通訳音声ごとに、出力音声を構成し、
前記出力情報送信部は、
異なる出力音声を有する２以上の出力情報を前記１以上の配信サーバに送信し、
前記配信サーバの前記配信送信部は、
２以上の各第一端末に、異なる言語の通訳音声を含む出力情報を配信する、請求項１から請求項５いずれか一項に記載の情報システムを構成するサーバ装置。
前記情報システムは、１以上の第二端末を有し、
前記第二端末は、
前記サーバ装置から前記通訳音声を受信する第二通訳音声受信部と、
前記通訳音声を出力する第二通訳音声出力部とを具備し、
前記サーバ装置は、
前記１以上の第二端末に、前記通訳音声を送信する通訳音声送信部をさらに具備する、請求項１から請求項６いずれか一項に記載の情報システムを構成するサーバ装置。
前記音声構成部は、
前記ライブ音声と前記通訳音声とを、予め決められた割合でミックスし、出力音声を構成する、請求項１から請求項７いずれか一項に記載の情報システムを構成するサーバ装置。
ライブ映像とライブ音声とを話者装置から受信する第一ライブ受信部と、
通訳音声を通訳者装置から受信する第一通訳受信部と、
前記ライブ音声と前記通訳音声とをミックスし、出力する音声である出力音声を構成する音声構成部と、
前記ライブ映像と前記出力音声とを有する出力情報を１以上の配信サーバに送信する出力情報送信部とを具備するサーバ装置。
前記音声構成部は、
予め決められた条件を満たしている場合は、前記ライブ音声と前記通訳音声とをミックスし、出力音声を構成し、前記予め決められた条件を満たしていない場合は、前記第二受信部が受信した前記ライブ音声を有し、前記通訳音声を有さない出力音声を構成する、請求項９記載のサーバ装置。
第一サーバと第二サーバとを具備するサーバシステムであって、
前記第一サーバは、
ライブ映像とライブ音声とを話者装置から受信する第一ライブ受信部と、
通訳音声を通訳者装置から受信する第一通訳受信部と、
前記ライブ映像と前記ライブ音声と前記通訳音声とを前記第二サーバに送信する第一送信部とを具備し、
前記第二サーバは、
前記ライブ映像と前記ライブ音声と前記通訳音声と前記第一サーバからを受信する第二受信部と、
前記第二受信部が受信した前記ライブ音声と前記通訳音声とをミックスし、出力する音声である出力音声を構成する音声構成部と、
前記ライブ映像と前記出力音声とを有する出力情報を１以上の配信サーバに送信する出力情報送信部とを具備する、サーバシステム。
前記音声構成部は、
予め決められた条件を満たしている場合は、前記ライブ音声と前記通訳音声とをミックスし、出力音声を構成し、前記予め決められた条件を満たしていない場合は、前記第二受信部が受信した前記ライブ音声を有し、前記通訳音声を有さない出力音声を構成する、請求項１１記載のサーバシステム。
第一ライブ受信部、第一通訳受信部、音声構成部、および出力情報送信部によって実現される情報処理方法であって、
前記第一ライブ受信部が、ライブ映像とライブ音声とを話者装置から受信する第一ライブ受信ステップと、
前記第一通訳受信部が、通訳音声を通訳者装置から受信する第一通訳受信ステップと、
前記音声構成部が、前記ライブ音声と前記通訳音声とをミックスし、出力する音声である出力音声を構成する音声構成ステップと、
前記出力情報送信部が、前記ライブ映像と前記出力音声とを有する出力情報を１以上の配信サーバに送信する出力情報送信ステップとを具備する、情報処理方法。
コンピュータを、
ライブ映像とライブ音声とを話者装置から受信する第一ライブ受信部と、
通訳音声を通訳者装置から受信する第一通訳受信部と、
前記ライブ音声と前記通訳音声とをミックスし、出力する音声である出力音声を構成する音声構成部と、
前記ライブ映像と前記出力音声とを有する出力情報を１以上の配信サーバに送信する出力情報送信部として機能させるためのプログラム。