JP2021190751A - サーバ装置、サーバシステム、情報処理方法、およびプログラム - Google Patents

サーバ装置、サーバシステム、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP2021190751A
JP2021190751A JP2020091996A JP2020091996A JP2021190751A JP 2021190751 A JP2021190751 A JP 2021190751A JP 2020091996 A JP2020091996 A JP 2020091996A JP 2020091996 A JP2020091996 A JP 2020091996A JP 2021190751 A JP2021190751 A JP 2021190751A
Authority
JP
Japan
Prior art keywords
interpreter
voice
live
output
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020091996A
Other languages
English (en)
Inventor
征範 慎
Yukinori Shin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Abelon Inc
Original Assignee
Abelon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Abelon Inc filed Critical Abelon Inc
Priority to JP2020091996A priority Critical patent/JP2021190751A/ja
Publication of JP2021190751A publication Critical patent/JP2021190751A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】従来、配信サーバを利用して、同時通訳の音声を含むライブ配信ができなかった。【解決手段】ライブ映像とライブ音声とを話者装置から受信する第一ライブ受信部と、通訳音声を通訳者装置から受信する第一通訳受信部と、ライブ音声と通訳音声とをミックスし、出力する音声である出力音声を構成する音声構成部と、ライブ映像と出力音声とを有する出力情報を1以上の配信サーバに送信する出力情報送信部とを具備するサーバ装置により、配信サーバを利用して、同時通訳の音声を含むライブ配信ができる。【選択図】図3

Description

本発明は、同時通訳付きの音声をライブ配信するためのサーバ装置等に関するものである。
従来、同時通訳者が会場に出向くことなく、会場から離れた同時通訳センターに於いて同時通訳を行い、会場に同時通訳音声を送ることができる遠隔同時通訳システムが存在した(例えば、特許文献1参照)。
特開2007−306420号公報
しかし、上記従来のシステムでは、配信サーバを利用して、同時通訳の音声を含むライブ配信ができなかった。
本第一の発明のサーバ装置は、1以上の話者装置と1以上の各通訳者が使用する通訳者装置とサーバ装置と1以上の配信サーバと1以上の第一端末とを具備する情報システムを構成するサーバ装置であって、話者装置は、ライブ配信のための映像であるライブ映像を受け付ける話者第一受付部と、ライブ配信のための音声であるライブ音声を受け付ける話者第二受付部と、ライブ映像とライブ音声とをサーバ装置に送信する話者送信部と、通訳者装置は、ライブ音声を聞いている通訳者が通訳した通訳音声を受け付ける通訳第一受付部と、通訳音声をサーバ装置に送信する通訳送信部とを具備し、サーバ装置は、ライブ映像とライブ音声とを話者装置から受信する第一ライブ受信部と、通訳音声を通訳者装置から受信する第一通訳受信部と、ライブ音声と通訳音声とをミックスし、出力する音声である出力音声を構成する音声構成部と、ライブ映像と出力音声とを有する出力情報を1以上の配信サーバに送信する出力情報送信部とを具備し、配信サーバは、出力情報をサーバ装置から受信する配信受信部と、配信受信部が受信した出力情報を1以上の第一端末に配信する配信送信部とを具備し、第一端末は、出力情報を配信サーバから受信する端末受信部と、出力情報が有するライブ映像を出力する端末映像出力部と、出力情報が有する出力音声を出力する端末音声出力部とを具備する、情報システムを構成するサーバ装置である。
かかる構成により、配信サーバを利用して、同時通訳の音声を含むライブ配信ができる。
また、本第二の発明のサーバ装置は、第一の発明に対して、サーバ装置は、第一サーバと第二サーバとを具備し、第一サーバは、ライブ映像とライブ音声とを話者装置から受信する第一ライブ受信部と、通訳音声を通訳者装置から受信する第一通訳受信部と、ライブ映像とライブ音声と通訳音声とを第二サーバに送信する第一送信部とを具備し、第二サーバは、ライブ映像とライブ音声と通訳音声とを第一サーバから受信する第二受信部と、第二受信部が受信したライブ音声と通訳音声とをミックスし、出力する音声である出力音声を構成する音声構成部と、ライブ映像と出力音声とを有する出力情報を1以上の配信サーバに送信する出力情報送信部とを具備する情報システムを構成するサーバ装置である。
かかる構成により、音声のミックス処理を高速に行える。
また、本第三の発明のサーバ装置は、第一または第二の発明に対して、音声構成部は、予め決められた条件を満たしている場合は、ライブ音声と通訳音声とをミックスし、出力音声を構成し、予め決められた条件を満たしていない場合は、第二受信部が受信したライブ音声を有し、通訳音声を有さない出力音声を取得する、情報システムを構成するサーバ装置である。
かかる構成により、音声のミックス処理を適切に行える。
また、本第四の発明のサーバ装置は、第三の発明に対して、サーバ装置は、同時通訳中であるか否かを示す状態情報が格納される第二サーバ格納部をさらに具備し、予め決められた条件は、状態情報が同時通訳中であることを示す情報であることである、情報システムを構成するサーバ装置である。
かかる構成により、音声のミックス処理を適切に行える。
また、本第五の発明のサーバ装置は、第四の発明に対して、通訳者装置は、状態情報を受け付ける通訳第二受付部をさらに具備し、通訳者装置の通訳送信部は、状態情報をもサーバ装置に送信し、サーバ装置は、通訳者装置から状態情報を受信する状態受信部と、状態受信部が受信した状態情報を第二サーバ格納部に蓄積する第二状態蓄積部とをさらに具備する、情報システムを構成するサーバ装置である。
かかる構成により、音声のミックス処理を適切に行える。
また、本第六の発明のサーバ装置は、第一から第五いずれか1つの発明に対して、情報システムは、2以上の通訳者装置を具備し、サーバ装置の第一通訳受信部は、2以上の各通訳者装置から、各々、異なる言語の通訳音声を受信し、音声構成部は、2以上の通訳音声ごとに、出力音声を構成し、出力情報送信部は、異なる出力音声を有する2以上の出力情報を1以上の配信サーバに送信し、配信サーバの配信送信部は、2以上の各第一端末に、異なる言語の通訳音声を含む出力情報を配信する、情報システムを構成するサーバ装置である。
かかる構成により、異なる言語の通訳音声を含む音声が出力される。
また、本第七の発明のサーバ装置は、第一から第六いずれか1つの発明に対して、情報システムは、1以上の第二端末を有し、第二端末は、サーバ装置から通訳音声を受信する第二通訳音声受信部と、通訳音声を出力する第二通訳音声出力部とを具備し、サーバ装置は、1以上の第二端末に、通訳音声を送信する通訳音声送信部をさらに具備する、情報システムを構成するサーバ装置である。
かかる構成により、ライブ会場での通訳音声提供と、遠隔への通訳音声を含むライブ配信が共に可能になる。
また、本第八の発明のサーバ装置は、第一から第七いずれか1つの発明に対して、音声構成部は、ライブ音声と通訳音声とを、予め決められた割合でミックスし、出力音声を構成する、情報システムを構成するサーバ装置である。
かかる構成により、適切な割合で、通訳音声とライブ音声とがミックスされる。
本第九の発明のサーバ装置は、ライブ映像とライブ音声とを話者装置から受信する第一ライブ受信部と、通訳音声を通訳者装置から受信する第一通訳受信部と、
ライブ音声と通訳音声とをミックスし、出力する音声である出力音声を構成する音声構成部と、ライブ映像と出力音声とを有する出力情報を1以上の配信サーバに送信する出力情報送信部とを具備するサーバ装置である。
かかる構成により、配信サーバを利用して、同時通訳の音声を含むライブ配信ができる。
また、本第十の発明のサーバ装置は、第九の発明に対して、音声構成部は、
予め決められた条件を満たしている場合は、ライブ音声と通訳音声とをミックスし、出力音声を構成し、予め決められた条件を満たしていない場合は、第二受信部が受信したライブ音声を有し、通訳音声を有さない出力音声を構成するサーバ装置である。
かかる構成により、配信サーバを利用して、同時通訳の音声を含むライブ配信ができる。
また、本第十一の発明のサーバシステムは、第一サーバと第二サーバとを具備するサーバシステムであって、第一サーバは、ライブ映像とライブ音声とを話者装置から受信する第一ライブ受信部と、通訳音声を通訳者装置から受信する第一通訳受信部と、ライブ映像とライブ音声と通訳音声とを第二サーバに送信する第一送信部とを具備し、第二サーバは、ライブ映像とライブ音声と通訳音声とを第一サーバから受信する第二受信部と、第二受信部が受信したライブ音声と通訳音声とをミックスし、出力する音声である出力音声を構成する音声構成部と、ライブ映像と出力音声とを有する出力情報を1以上の配信サーバに送信する出力情報送信部とを具備する、サーバシステムである。
かかる構成により、配信サーバを利用して、同時通訳の音声を含むライブ配信ができる。
また、本第十二の発明のサーバシステムは、第十一の発明に対して、音声構成部は、予め決められた条件を満たしている場合は、ライブ音声と通訳音声とをミックスし、出力音声を構成し、予め決められた条件を満たしていない場合は、第二受信部が受信したライブ音声を有し、通訳音声を有さない出力音声を構成する、サーバシステムである。
かかる構成により、音声のミックス処理を適切に行える。
本発明によれば、配信サーバを利用して、同時通訳の音声を含むライブ配信ができる。
実施の形態1における情報システムの概念図 同情報システムのブロック図 同第一サーバと第二サーバのブロック図 同第一サーバの動作について説明するフローチャート 同第二サーバの動作について説明するフローチャート 同出力音声構成・送信処理を説明するフローチャート 同通訳関連情報のデータ構造図 実施の形態2におけるサーバのブロック図 同サーバの動作を説明するフローチャート 各実施形態におけるコンピュータシステムの外観図 同コンピュータシステムの内部構成の一例を示す図
以下、サーバ装置等を含む情報システムの実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
図1は、本実施の形態における情報システム100の概念図である。情報システム100は、1または2以上の話者装置1、1または2以上の通訳者装置2、第一サーバ3、第二サーバ4、1または2以上の配信サーバ5、1または2以上の第一端末6、および1または2以上の第二端末7を備える。
なお、第一サーバ3と第二サーバ4とを具備するシステムを「サーバシステム」または「サーバ装置」と呼んでも良い。サーバ装置は、第一サーバ3の機能と第二サーバ4の機能とを1つに統合した装置であっても良い。かかるサーバ装置(8)を含む情報システム(200)については、実施の形態2で説明する。
第一サーバ3は、例えば、LANやインターネット等のネットワーク、無線または有線の通信回線などを介して、1以上の話者装置1および1以上の通訳者装置2の各々と通信可能に接続される。
第二サーバ4は、例えば、ネットワーク等を介して、1以上の第一端末6および1以上の第二端末7の各々と通信可能に接続される。
第一サーバ3と第二サーバ4とは、例えば、専用線またはネットワーク等を介して通信可能に接続される。
話者装置1は、話者の音声と映像を受け付ける装置である。話者は、例えば、講演者、発表者等である。
話者装置1は、例えば、ライブ会場に設置され、ライブ音声とライブ映像とを受け付け、第一サーバ3に送信する。ライブ会場とは、話者の居る会場である。会場は、例えば、ホール、スタジオ、会議室、教室等であるが、野外のホール等でも良く、その種類は問わない。
話者装置1は、例えば、携帯端末等の端末である。携帯端末とは、例えば、タブレット端末、スマートフォン、携帯電話機、ノートPC等であるが、その種類は問わない。または、話者装置1は、例えば、デスクトップPC等の固定端末でも良いし、話者の居る会場に設置されたマイクやカメラ等のAV機器群が接続された端末でも良く、その種類は問わない。
通訳者装置2とは、通訳者が使用する装置である。通訳者装置2は、通訳者の音声等を受け付け、当該音声をサーバシステムに送信する装置である。通訳者装置2は、通常、話者装置1から受信したライブ音声を出力し、通訳者の音声を受け付ける。ただし、ライブ音声は出力されなくても良い。通訳者は、例えば、ライブ会場の外部(例えば、自宅や通訳ルーム等)に居るが、ライブ会場内に居ても良い。通訳者が聴いているライブ音声は、例えば、通訳者装置2から出力される音声であるが、会場内の音声でも良い。
通訳者装置2は、通常、ライブ会場の外部に存在するが、ライブ会場内に存在しても良い。ライブ会場の外部とは、例えば、通訳者の自宅であるが、2以上の通訳者が利用する通訳ルーム等、どこでも良い。
第一サーバ3は、1以上の各話者装置1からライブ音声とライブ映像を受信し、1以上の各通訳者装置2から通訳音声を受信し、当該受信した1以上のライブ音声と1以上のライブ映像と1以上の通訳音声とを第二サーバ4に送信する装置である。
第二サーバ4は、第一サーバ3から受信したライブ音声と通訳音声とをミックスし、出力音声を取得し、当該取得した出力音声と、第一サーバ3から受信したライブ映像とを配信サーバ5に送信する装置である。出力音声とは、出力する音声である。出力音声は、通常、第一端末6が出力する音声であるが、その出力元は問わない。出力音声は、例えば、同時通訳付きのライブ音声といっても良い。
配信サーバ5は、第二サーバ4から出力音声とライブ映像とを受信し、1以上の第一端末6に配信する装置である。
第一端末6は、配信サーバ5から配信されるライブ配信を視聴するユーザが使用する端末である。第一端末6は、通常、ライブ会場の外部に居るユーザの端末である。ライブ会場の外部とは、例えば、ユーザの自宅や会社等であるが、遠隔会場でも良く、その種類は問わない。遠隔会場とは、ライブ会場とは異なる会場である。遠隔会場は、通常、ライブ会場に対して、遠隔に位置する会場であるが、近接する会場でも良く、その遠近は問わない。第一端末6は、通常、携帯端末であるが、遠隔会場内の座席に設けられた端末等でも良く、その種類は問わない。
第二端末7は、話者と同じ会場に居り、話者の話を聞くユーザが使用する端末である。第二端末7は、ライブ会場の内部に居るユーザの端末である。第二端末7は、通常、携帯端末であるが、例えば、ライブ会場内の座席に設けられた端末等でも良く、その種類は問わない。なお、第二端末7は、通常、ライブ映像を受信しない。
図2は、情報システム100のブロック図である。話者装置1は、話者第一受付部11、話者第二受付部12、話者送信部13を備える。
通訳者装置2は、通訳受付部21、および通訳送信部22を備える。通訳受付部21は、通訳第一受付部211、通訳第二受付部212を備える。
図3は、第一サーバ3と第二サーバ4のブロック図である。第一サーバ3は、第一サーバ格納部31、第一ライブ受信部32、第一通訳受信部33、第一状態受信部34、第一送信部35、および通訳音声送信部36を備える。第二サーバ4は、第二サーバ格納部41、第二受信部42、第二状態受信部43、第二状態蓄積部44、音声構成部45、および出力情報送信部46を備える。
配信サーバ5は、配信受信部51、および配信送信部52を備える。
第一端末6は、端末受信部61、端末音声出力部62、および端末映像出力部63を備える。
第二端末7は、第二通訳音声受信部71、および第二通訳音声出力部72を備える。
話者装置1を構成する話者第一受付部11は、ライブ映像を受け付ける。ライブ映像とは、ライブ配信のための映像である。ライブ配信とは、音声または映像のうち少なくとも1つを含む情報を、2以上の各端末にリアルタイムに送信することである。ライブ配信は、例えば、ストリーミングといっても良い。
話者第一受付部11は、通常、カメラを介してライブ映像を受け付ける。ただし、例えば、カメラからのライブ映像がバッファに蓄積され、話者第一受付部11は、バッファからライブ映像を読み出しても良い。ライブ映像の受け付けの態様は問わない。
話者第二受付部12は、ライブ音声を受け付ける。ライブ音声とは、ライブ配信のための音声である
話者第二受付部12は、通常、マイクロフォンを介してライブ音声を受け付ける。ただし、例えば、マイクからのライブ音声がバッファに蓄積され、話者第一受付部11は、バッファからライブ音声を読み出しても良い。ライブ音声の受け付けの態様は問わない。
話者送信部13は、話者第一受付部11が受け付けたライブ映像と、話者第二受付部12が受け付けたライブ音声とを第一サーバ3に送信する。
なお、話者第一受付部11が受け付けたライブ映像と話者送信部13が送信するライブ映像のデータ構造等は異なっても良いことは言うまでもない。話者装置1の図示しない話者処理部は、例えば、話者第一受付部11が受け付けたライブ映像を送信する構造のライブ映像にする。また、話者第二受付部12が受け付けたライブ音声と話者送信部13が送信するライブ音声のデータ構造等は異なっても良いことは言うまでもない。話者装置1の図示しない話者処理部は、例えば、話者第二受付部12が受け付けたライブ音声を送信する構造のライブ音声にする。
話者装置1には、通常、話者識別子が格納されている。話者識別子とは、話者を識別する情報である。話者識別子は、例えば、氏名、メールアドレス、電話番号などであるが、氏名等に対応付いたIDでも良く、話者を識別し得る情報であれば何でも良い。なお、話者識別子は、例えば、当該話者の話者装置1を識別する装置識別子でも良い。
なお、話者装置1には、例えば、話者言語識別子も格納されていても良い。話者言語識別子とは、話者言語を識別する情報である。話者言語とは、話者音声の言語である。話者言語は、例えば、話者が話す言語といっても良い。話者言語は、例えば、英語、日本語等であるが、その種類は問わない。話者言語識別子は、例えば、“英”や“日”などであるが、その形式は問わない。
話者送信部13は、受け付けられたライブ映像とライブ音声とを、通常、当該話者装置1に格納されている話者識別子に対応付けて、第一サーバ3に送信する。第一サーバ3に送信することは、サーバシステムまたはサーバ装置に送信することでも良い。
なお、話者識別子は送受信されなくても良い。また、受け付けられたライブ映像とライブ音声は、話者処理部が構成したライブ映像とライブ音声でも良いことは言うまでもない。
また、話者送信部13によるライブ映像等の送信先は、本実施の形態では、第一サーバ3であるが、第一サーバ3と第二サーバ4とを具備するサーバシステムでも良いし、サーバ装置でも良い。サーバ装置は、第一サーバ3と第二サーバ4とを1つに統合したサーバである。かかる事項は、通訳送信部22による通訳音声等の送信先にも当てはまる。
通訳者装置2を構成する通訳受付部21は、各種の情報を受け付ける。各種の情報とは、例えば、後述する通訳音声、通訳者の指示などである。通訳者の指示とは、例えば、後述する通訳開始指示であるが、その種類は問わない。指示の受け付けは、通常、キーボードやタッチパネル等の入力手段を介した受け付けであるが、例えば、他の装置からの受信でも良く、その態様は問わない。
なお、通訳受付部21は、例えば、通訳者の映像、通訳開始以外の指示なども受け付けても良い。受け付けとは、例えば、カメラを介した映像の受け付け、マイクを介した音声の受け付け、キーボードやタッチパネル等の入力デバイスを介した情報の受け付けなどであるが、その態様は問わない。
通訳第一受付部211は、通訳音声を受け付ける。通訳音声とは、通訳者の音声である。通訳音声は、ライブ音声を聞いている通訳者が通訳した音声である。
通訳第二受付部212は、状態情報を受け付ける。状態情報とは、通訳者による通訳の状態に関する情報である。状態情報は、例えば、同時通訳中であること又は同時通訳中でないことのいずれかを示す情報である。同時通訳中であることを示す情報は、例えば、“通訳中”であり、同時通訳中でないことを示す情報は、例えば、“停止”であるが、その形式は問わない。
ただし、状態情報は、例えば、同時通訳中であること、休憩中であること、待機中であること等を示す情報でも良く、状態情報が示す状態の種類は問わない。
通訳第二受付部212は、例えば、2以上の言語に対応する2以上の言語ボタンのうち、いずれかの言語ボタンの押下に応じて、“同時通訳中である”ことを示す状態情報を受け付ける。状態情報は、押下された言語ボタンに対応する通訳言語識別子を有することは好適である。通訳言語識別子とは、通訳言語を識別する情報である。通訳言語とは、通訳音声の言語である。通訳言語は、例えば、通訳者が話す言語といっても良い。通訳言語は、例えば、日本語、中国語、英語等であるが、その種類は問わない。通訳言語識別子は、例えば、“日”や“中”や“英”などであるが、その形式は問わない。
または、通訳第二受付部212は、例えば、通訳開始指示に応じて、“同時通訳中である”ことを示す状態情報を受け付け、通訳終了指示に応じて、“同時通訳中でない”ことを示す状態情報を受け付けても良い。通訳開始指示は、例えば、開始ボタンの押下であり、通訳終了指示は、例えば、終了ボタンの押下である。ただし、指示の態様は問わない。
通訳送信部22は、各種の情報を第一サーバ3に送信する。各種の情報とは、例えば、通訳音声、状態情報などである。通訳音声等の情報の送信先は、本実施の形態では第一サーバ3であるが、例えば、前述したサーバシステムでも良いし、前述したサーバ装置8でも良い。
通訳者装置2には、通常、図示しない通訳格納部に通訳者識別子が格納されている。通訳者識別子とは、通訳者を識別する情報である。通訳者識別子は、例えば、氏名、電話番号、メールアドレスなどであるが、氏名等に対応付いたIDでも良く、通訳者を識別し得る情報であれば何でも良い。なお、通訳者識別子は、例えば、当該通訳者の通訳者装置2を識別する装置識別子でも良い。装置識別子は、例えば、MACアドレスやIPアドレス、IDなどであるが、通訳者装置2を識別し得る情報であれば何でも良い。
通訳送信部22は、例えば、通訳第一受付部211が受け付けた通訳音声を、図示しない通訳格納部に格納されている通訳者識別子に対応付けて第一サーバ3に送信する。また、通訳送信部22は、例えば、通訳第二受付部212が受け付けた状態情報を、格納されている通訳者識別子に対応付けて第一サーバ3に送信する。
なお、通訳第一受付部211が受け付けた通訳音声と通訳送信部22が送信する通訳音声のデータ構造は異なっていても良い。例えば、図示しない通訳処理部は、通訳第一受付部211が受け付けた通訳音声を送信するデータ構造にする。そして、通訳送信部22はかかる通訳音声を送信する。
第一サーバ3を構成する第一サーバ格納部31は、各種の情報を格納し得る。各種の情報とは、例えば、話者識別子群である。話者識別子群とは、1または2以上の話者識別子の集合である。
また、第一サーバ格納部31には、例えば、話者識別子群を構成する1以上の各話者識別子に対応付けて、1または2以上の通訳者識別子がさらに格納される。なお、以下では、一の話者識別子に対応する1または2以上の通訳者識別子の集合を「通訳者識別子群」と記す場合がある。
なお、話者識別子群は、例えば、予め第一サーバ格納部31に格納されているが、1以上の各話者装置1からのライブ音声等の受信に応じて第一サーバ格納部31に蓄積されても良い。また、通訳者識別子群は、例えば、予め第一サーバ格納部31に格納されているが、1以上の各通訳者装置2からの通訳音声等の受信に応じて第一サーバ格納部31に蓄積されても良い。
さらに、第一サーバ格納部31には、例えば、通訳者識別子群を構成する1以上の各通訳者識別子に対応付けて、通訳言語識別子も格納される。なお、以下では、通訳者識別子と通訳言語識別子との対の集合を「第一対応情報」と記す場合がある。通訳者識別子と通訳言語識別子との対は、例えば、“(A,英)”や“(B,中)”等であるが、その形式は問わない。
また、第一サーバ格納部31には、例えば、第二端末識別子群が格納されていても良い。第二端末識別子群とは、1または2以上の第二端末識別子の集合である。第二端末識別子とは、第二端末7を識別する情報である。第二端末識別子は、例えば、MACアドレスやIPアドレス、ID等であるが、第二端末7を識別し得る情報であれば何でも良い。
さらに、第一サーバ格納部31は、例えば、バッファを含んでおり、第一ライブ受信部32が受信したライブ映像とライブ音声、第一通訳受信部33が受信した通訳音声、および第一状態受信部34が受信した状態情報などが、当該バッファに一時的に格納されても良い。
なお、第一サーバ格納部31に格納されるその他の情報について、適時説明する場合がある。
第一ライブ受信部32は、ライブ映像とライブ音声とを話者装置1から受信する。
第一ライブ受信部32は、話者装置1から、通常、話者識別子と対に、ライブ映像とライブ音声とを受信する。
第一通訳受信部33は、通訳者装置2から通訳音声を受信する。
第一通訳受信部33は、通訳者装置2から、例えば、話者識別子および通訳言語識別子の組と対に、通訳音声を受信する。ただし、第一通訳受信部33は、例えば、話者識別子および通訳者識別子の組と対に、通訳音声を受信しても良い。後者の場合、図示しない第一サーバ処理部は、例えば、第一サーバ格納部31に格納されている第一対応情報を用いて、受信した通訳者識別子に対応する通訳言語識別子を取得しても良い。
第一状態受信部34は、通訳者装置2から状態情報を受信する。
第一状態受信部34は、通訳者装置2から、例えば、通訳者識別子と対に状態情報を受信する。
第一送信部35は、第一ライブ受信部32が受信したライブ映像とライブ音声と、第一通訳受信部33が受信した通訳音声とを、第二サーバ4に送信する。第一送信部35は、例えば、ライブ映像とライブ音声と通訳音声とを重畳して、第二サーバ4に送信する。
なお、受信されたライブ映像と送信されるライブ映像のデータ構造は異なっていても良いことは言うまでもない。また、受信されたライブ音声と送信されるライブ音声のデータ構造は異なっていても良いことは言うまでもない。また、受信された通訳音声と送信される通訳音声のデータ構造は異なっていても良いことは言うまでもない。
第一送信部35は、例えば、1または2以上の話者識別子ごとに、第一ライブ受信部32が当該話者識別子と対に受信したライブ映像とライブ音声と、第一通訳受信部33が当該話者識別子および通訳言語識別子の組と対に受信した通訳音声とを、当該話者識別子および当該通訳言語識別子の組に対応付けて、第二サーバ4に送信する。
また、第一送信部35は、例えば、第一状態受信部34が受信した状態情報を第二サーバ4に送信する。第一送信部35は、例えば、通訳識別子に対応付けて、状態情報を第二サーバ4に送信する。なお、話者に対して通訳者が一人または通訳の言語が一つである場合等は、通訳識別子に対応付けられていることは、話者識別子に対応付けられていることでも良い。
通訳音声送信部36は、1または2以上の各第二端末7に、第一通訳受信部33が受信した通訳音声を送信する。
通訳音声送信部36は、例えば、第一サーバ格納部31に格納されている第二端末識別子群が有する1以上の各第二端末識別子に対応する第二端末7に通訳音声を送信する。
第一サーバ格納部31には、例えば、第二端末識別子群を構成する1以上の各第二端末識別子に対応付けて、通訳言語識別子が格納されており、通訳音声送信部36は、1以上の各第二端末7に、当該第二端末7に対応する通訳言語識別子で識別される言語の通訳音声を送信することは好適である。
第二サーバ4を構成する第二サーバ格納部41は、各種の情報を格納し得る。各種の情報とは、例えば、状態情報である。
第二サーバ格納部41には、例えば、1または2以上の各通訳者識別子に対応付けて、状態情報が格納される。
なお、第二サーバ格納部41は、例えば、バッファを含んでおり、第二受信部42が受信したライブ映像とライブ音声と通訳音声、および第二状態受信部43が受信した状態情報などが、当該バッファに一時的に格納されても良い。
第二受信部42は、第一サーバ3からライブ映像とライブ音声と通訳音声とを受信する。第二受信部42は、例えば、通訳識別子または話者識別子に対応付けられたライブ映像とライブ音声と通訳音声とを受信する。
第二状態受信部43は、状態情報を第一サーバ3から受信する。第二状態受信部43は、通常、通訳者識別子と対に状態情報を第一サーバ3から受信する。
第二状態蓄積部44は、第二状態受信部43が受信した状態情報を第二サーバ格納部41に蓄積する。
第二状態蓄積部44は、通常、第二状態受信部43が通訳者識別子と対に受信した状態情報を、当該通訳者識別子に対応付けて第二サーバ格納部41に蓄積する。
音声構成部45は、ライブ音声と通訳音声とをミックスし、出力音声を構成する。ミックスするとは、2または3以上の音声を混合し、一の音声を構成することである。ミックスは、通常、加算であるが、例えば、多重化でもよく、その態様は問わない。なお、例えば、ミックスがライブ音声と通訳音声との多重化である場合、第一端末6を構成する端末音声出力部62は、出力音声に対して逆多重化を行い、ライブ音声と通訳音声とを取得し、出力する。取得されたライブ音声と通訳音声は、例えば、別々のチャンネルで出力されてもよいし、加算され、一のチャネルで出力されてもよい。
本実施の形態におけるミックスは、通常、ライブ音声と通訳音声との加算である。加算されるライブ音声と通訳音声は、例えば、出力音声における割合が予め決められた値となるように、各々またはいずれか一方の音量が調節されてもよい。音声構成部45は、例えば、ライブ音声の音量を調節する第一の音量調節回路、通訳音声の音量を調整する第二の音量調節回路、および第一の音量調節回路から出力される音声と第二の音量調節回路から出力される音声とを加算する加算回路とで実現されてもよい。または、音声構成部45は、例えば、ライブ音声または通訳音声の一方の音量を調節する音量調節回路と、ライブ音声または通訳音声の他方と音量調節回路から出力される音声とを加算する加算回路とで構成されてもよく、その構成は問わない。
音声構成部45は、通常、第二受信部42が受信したライブ音声と通訳音声とを予め決められた割合でミックスし、第一端末6が出力する出力音声を構成する。
例えば、予め決められた割合を示す割合情報が、第二サーバ格納部41に格納されている。予め決められた割合は、例えば、通訳音声に対するライブ音声の割合であるが、ライブ音声に対する通訳音声の割合であっても良く、割合を表現する形式は問わない。通訳情報は、具体的には、例えば、“通訳音声:100%,ライブ音声;20%”でも良いし、“通訳音声:1,ライブ音声:0.25”でも良いし、“通訳音声:3,ライブ音声:1”などでも良いし、“通訳音声:ライブ音声=80%:20%”などでも良く、その数値は問わない。
本実施の形態におけるミックスの対象は、一の話者のライブ音声と、当該一の話者の通訳を行う1または2以上の通訳者のうち、一の通訳者の通訳音声である。
音声構成部45は、通常、1以上の話者識別子ごとに、当該話者識別子に対応するライブ音声と、当該話者識別子に対応する通訳音声とをミックスし、出力音声を構成する。
例えば、一の話者識別子に2以上の通訳言語識別子が対応付いており、音声構成部45は、一の話者識別子に対応する2以上の通訳音声ごとに、出力音声を構成しても良い。かかる場合、音声構成部45は、2以上の出力音声を構成する。
具体的には、例えば、話者識別子“X”に2つの通訳言語識別子“英”および“中”が対応付いており、音声構成部45は、話者識別子“X”および通訳言語識別子“英”の組“(X,英)”に対応する出力音声と、話者識別子“X”および通訳言語識別子“中”の組“(X,中)”に対応する出力音声とを構成しても良い。
音声構成部45は、例えば、予め決められた条件を満たしている場合は、ライブ音声と通訳音声とをミックスし、出力音声を構成し、予め決められた条件を満たしていない場合は、第二受信部42が受信したライブ音声を有し、通訳音声を有さない出力音声を構成しても良い。
つまり、音声構成部45は、例えば、予め決められた条件を満たしているか否かを判断し、予め決められた条件を満たしていると判断した場合にのみ、ライブ音声と通訳音声とをミックスし、出力音声を構成することは好適である。
予め決められた条件は、例えば、状態情報が「同時通訳中である」ことを示す情報であることである。予め決められた条件は、例えば、通訳者装置2からの通訳音声が受信できていることである。予め決められた条件は、例えば、通訳音声が無音ではないことである。
音声構成部45は、例えば、第二サーバ格納部41に格納されている状態情報が、同時通訳中であることを示す情報であるか否かを判断する。そして、状態情報が同時通訳中であることを示す情報であると判断した場合、音声構成部45は、第二受信部42が受信したライブ音声と通訳音声とをミックスし、出力音声を構成する。また、状態情報が同時通訳中でないことを示す情報であると判断した場合、音声構成部45は、第二受信部42が受信したライブ音声を有し、通訳音声を有さない出力音声を構成する。
上記のような音声構成処理は、通常、1以上の通訳者識別子ごとに実行される。音声構成処理は、例えば、通訳対象の言語ごとに実行される。
音声構成部45は、1以上の通訳者識別子ごとに、例えば、当該通訳者識別に対応付けて格納されている状態情報が、同時通訳中であることを示す情報であるか否かを判断し、状態情報が同時通訳中であることを示す情報であると判断した場合、当該通訳者識別子と対に受信されたライブ音声と通訳音声とをミックスし、出力音声を構成する。また、状態情報が同時通訳中でないことを示す情報であると判断した場合、音声構成部45は、当該話者識別子と対に受信されたライブ音声を有し、通訳音声を有さない出力音声を構成する。
出力情報送信部46は、出力情報を1または2以上の配信サーバ5に送信する。出力情報は、第二受信部42が受信したライブ映像と、音声構成部45が構成した出力音声とを有する。図示しない第二処理部は、例えば、ライブ映像と出力音声とを重畳し、出力情報を構成する。そして、出力情報送信部46は、当該出力情報を1または2以上の配信サーバ5に送信する。
出力情報送信部46は、通常、1以上の話者識別子ごとに、第二受信部42が当該話者識別子と対に受信したライブ映像と、当該話者識別子に対して音声構成部45が構成した出力音声とを有する出力情報を、1以上の配信サーバ5に送信する。
出力情報送信部46は、例えば、異なる出力音声を有する2以上の出力情報を、1以上の配信サーバ5に送信しても良い。異なる出力音声を有する2以上の出力情報とは、例えば、第一言語(例えば、英語)の話者音声と第二言語(例えば、日本語)の通訳者音声とをミックスした出力音声を有する出力情報、および、第一言語の話者音声と第三言語(例えば、中国語)の通訳者音声とをミックスした出力音声を有する出力情報、などであるが、言語の組み合わせは問わない。
例えば、一の話者識別子に2以上の通訳言語識別子が対応づいており、出力情報送信部46は、当該一の話者識別子に対応する出力情報であり、当該一の話者識別子に対応する2以上の各通訳言語識別子に対応する出力音声を有する2以上の出力情報を、1以上の配信サーバ5に送信しても良い。
出力情報送信部46は、例えば、各々、異なる通訳言語識別子に対応付けられた2以上の出力情報を1または2以上の配信サーバ5に送信しても良い。
配信サーバ5を構成する配信受信部51は、出力情報を受信する。配信受信部51は、出力情報を、通常、第二サーバ4から受信するが、前述したサーバシステムから受信しても良いし、実施の形態2で説明するサーバ装置から受信しても良い。ただし、配信受信部51が受信する出力情報の送信元は問わない。
配信受信部51は、例えば、第二サーバ4から、話者識別子および通訳言語識別子の組と対に、異なる出力音声を有する2以上の出力情報を受信しても良い。
配信送信部52は、配信受信部51が受信した出力情報を、1または2以上の第一端末6に配信する。なお、配信受信部51が受信した出力情報のデータ構造と、配信送信部52が配信する出力情報のデータ構造とは、異なっていても良い。
なお、配信サーバ5の図示しない配信格納部には、例えば、1以上の各第一端末6を識別する端末識別子に対応付けて、話者識別子、または言語識別子、または言語識別子と言語識別子の組が格納されている。端末識別子と、話者識別子または/および言語識別子とは、予め配信サーバ5に格納されていても良いし、第一端末6から受信され、配信サーバ5に蓄積されても良い。
配信送信部52は、1以上の端末識別子ごとに、配信受信部51が受信した2以上の出力情報から、当該端末識別子に対応する話者識別子または言語識別子または言語識別子と言語識別子の組に対応する出力情報を取得し、当該出力情報を端末識別子で識別される第一端末6に配信する。
第一端末6を構成する端末受信部61は、配信サーバ5から出力情報を受信する。端末受信部61は、例えば、ユーザからの出力情報の出力の指示の受け付けに応じて、出力情報を受信する。
第一端末6の図示しない受付手段が、言語識別子を有する指示を受け付け、図示しない送信手段が当該指示を配信サーバ5に送信したことに応じて、端末受信部61は、例えば、前記言語識別子で識別される言語の翻訳音声を含む出力情報を配信サーバ5から受信する。
端末音声出力部62は、端末受信部61が受信した出力情報が有する出力音声を出力する。なお、出力音声の出力は、通常、スピーカを介した音出力であるが、例えば、外部の装置への送信でも良いし、記録媒体への蓄積、他のプログラムへの引き渡しなどであっても良く、その出力態様は問わない。なお、かかる事項は、第二通訳音声受信部71による通訳音声の出力にも共通する。
端末映像出力部63は、端末受信部61が受信した出力情報が有するライブ映像を出力する。なお、ライブ映像の出力は、通常、ディスプレイへの表示であるが、例えば、外部の装置への送信でも良いし、記録媒体への蓄積、他のプログラムへの引き渡しなどであっても良く、その出力態様は問わない。
なお、第一端末6には、端末識別子と、話者識別子および通訳言語識別子の組とが格納されおり、第一端末6は、当該格納されている端末識別子と話者識別子および通訳言語識別子の組とを配信サーバ5に送信しても良い。
第二端末7を構成する第二通訳音声受信部71は、サーバ装置から通訳音声を受信する。
第二通訳音声受信部71は、通常、第一サーバ3から通訳音声を受信する。ただし、通訳音声の送信元は、例えば、第一サーバ3と第二サーバ4とを具備するサーバ装置でも良い。なお、第二通訳音声受信部71は、第一サーバ3を経由して通訳音声を受信した第二サーバ4から、当該通訳音声を受信しても良い。
第二通訳音声出力部72は、第二通訳音声受信部71が受信した通訳音声を出力する。
なお、第二端末7には、第二端末識別子と、話者識別子および通訳言語識別子の組とが格納されおり、第一端末6は、当該格納されている端末識別子と話者識別子および通訳言語識別子の組とを配信サーバ5に送信しても良い。
話者第一受付部11、話者第二受付部12、通訳受付部21、通訳第一受付部211、および通訳第二受付部212は、入力デバイスを含むと考えても、含まないと考えても良い。話者第一受付部11等は、入力デバイスのドライバーソフトによって、または入力デバイスとそのドライバーソフトとで実現され得る。
話者送信部13、通訳送信部22、第一送信部35、通訳音声送信部36、出力情報送信部46、および配信送信部52は、は、通常、有線または無線の通信手段で実現されるが、放送手段で実現されても良い。
第一サーバ格納部31、および第二サーバ格納部41は、例えば、ハードディスクやフラッシュメモリといった不揮発性の記録媒体が好適であるが、RAMなど揮発性の記録媒体でも実現可能である。
第一サーバ格納部31等に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が第一サーバ格納部31等で記憶されるようになっても良く、ネットワークや通信回線等を介して送信された情報が第一サーバ格納部31等で記憶されるようになっても良く、あるいは、入力デバイスを介して入力された情報が第一サーバ格納部31等で記憶されるようになっても良い。入力デバイスは、例えば、キーボード、マウス、タッチパネル等、何でも良い。
第一ライブ受信部32、第一通訳受信部33、第一状態受信部34、第二受信部42、第二状態受信部43、配信受信部51、端末受信部61、および第二通訳音声受信部71は、通常、有線または無線の通信手段で実現されるが、放送を受信する手段で実現されても良い。
第二状態蓄積部44、および音声構成部45は、通常、プロセッサやメモリ等から実現され得る。第二状態蓄積部44等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。ただし、処理手順は、ハードウェア(専用回路)で実現しても良い。なお、プロセッサは、MPU、CPU、GPU等であり、その種類は問わないことは言うまでもない。
端末音声出力部62、端末映像出力部63、および第二通訳音声出力部72は、ディスプレイやスピーカ等の出力デバイスを含むと考えても含まないと考えても良い。端末音声出力部62等は、出力デバイスのドライバーソフトによって、または出力デバイスとそのドライバーソフトとで実現され得る。
次に、情報システム100の動作について説明する。
まず、話者装置1の動作例について説明する。話者装置1の話者第一受付部11は、ライブ映像を受け付ける。また、話者第二受付部12は、ライブ音声を受け付ける。次に、図示しない話者処理部は、ライブ映像とライブ音声とを重畳する。また、話者処理部は、図示しない話者格納部の話者識別子を読み出す。話者処理部は、重畳されたライブ映像とライブ音声とに話者識別子を付加し、送信する情報を構成する。話者送信部13は、話者処理部が構成した情報を第一サーバ3に送信する。
次に、通訳者装置2の動作例について説明する。通訳第二受付部212は、通訳言語識別子と状態情報とを有する通訳開始指示を受け付ける。そして、図示しない通訳処理部は、通訳開始指示を送信するデータ構造にする。次に、通訳送信部22は、通訳開始指示を第一サーバ3に送信する。なお、ここで、送信される情報は、状態情報だけでも良い。また、通訳第一受付部211は、通訳音声を受け付ける。図示しない通訳処理部は、通訳音声を送信するデータ構造にする。通訳送信部22は、当該通訳音声を第一サーバ3に送信する。
次に、第一サーバ3の動作例について、図4のフローチャートを用いて説明する。なお、図4〜図6のフローチャートにおいて、通訳者装置2から送信される状態情報は、通訳言語識別子を有するものとする。
(ステップS401)第一ライブ受信部32は、話者装置1からライブ映像とライブ音声を受信したか否かを判断する。話者装置1からライブ映像とライブ音声を受信した場合はステップS402に進み、受信していない場合はステップS403に進む。なお、第一ライブ受信部32は、例えば、ライブ映像とライブ音声を話者識別子と対に受信する。
(ステップS402)第一ライブ受信部32は、ステップS401で受信したライブ映像とライブ音声を、当該ライブ映像等と対に受信した話者識別子に対応付けて第二サーバ4に送信する。ステップS401に戻る。
(ステップS403)第一状態受信部34は、通訳者装置2から状態情報を受信したか否かを判断する。通訳者装置2から状態情報を受信した場合はステップS404に進み、受信していない場合はステップS405に進む。なお、第一状態受信部34は、例えば、状態情報を通訳者識別子と対に受信する。また、第一状態受信部34は、例えば、通訳言語識別子をも受信しても良い。
(ステップS404)第一送信部35は、ステップS403で受信された状態情報を、当該状態情報と対に受信された通訳者識別子に対応付けて第二サーバ4に送信する。ステップS401に戻る。なお、第一送信部35は、通訳言語識別子をも第二サーバ4に送信しても良い。
(ステップS405)第一通訳受信部33は、通訳者装置2から通訳音声等を受信したか否かを判断する。通訳者装置2から通訳音声等を受信したと判断された場合はステップS406に進み、受信していないと判断された場合はステップS401に戻る。なお、通訳音声等とは、通訳音声だけでも良いし、通訳音声と通訳言語識別子でも良いし、通訳音声と通訳者識別子でも良いし、通訳音声と通訳言語識別子と通訳者識別子でも良い。
(ステップS406)第一送信部35は、ステップS405で受信された通訳音声を、当該通訳音声と対に受信された通訳者識別子または/および通訳言語識別子に対応付けて第二サーバ4に送信する。
(ステップS407)通訳音声送信部36は、ステップS405で受信された通訳音声を、当該通訳音声と対に受信された通訳者識別子または/および通訳言語識別子に対応する1以上の各第二端末7に送信する。その後、ステップS401に戻る。
なお、図4のフローチャートにおいて、第一サーバ3の電源オンやプログラムの起動に応じて処理が開始し、電源オフや処理終了の割り込みにより処理は終了する。ただし、処理の開始または終了のトリガは問わない。
第二サーバ4の動作例について、図5のフローチャートを用いて説明する。
(ステップS501)第二受信部42は、ライブ映像とライブ音声を第一サーバ3から受信したか否かを判断する。ライブ映像とライブ音声を受信した場合はステップS502に進み、受信していない場合はステップS503に進む。
(ステップS502)第二受信部42は、ステップS501で受信したライブ映像とライブ音声を、当該ライブ映像等と対に受信した話者識別子に対応付けて、図示しないバッファに蓄積する。ステップS501に戻る。
(ステップS503)第二状態受信部43は、状態情報等を受信したか否かを判断する。状態情報等を受信した場合はステップS504に進み、受信していない場合はステップS505に進む。
(ステップS504)第二状態蓄積部44は、ステップS503で受信された状態情報を、当該状態情報と対に受信され通訳者識別子に対応付けて第二サーバ格納部41に蓄積する。ステップS501に戻る。
(ステップS505)第二受信部42は、通訳音声等を受信したか否かを判断する。訳音声等を受信した場合はステップS506に進み、受信していない場合はステップS501に戻る。
(ステップS506)第二受信部42は、ステップS505で受信した通訳音声を、当該通訳音声と対に受信された通訳者識別子または/および通訳言語識別子に対応付けて、図示しないバッファに蓄積する。
(ステップS507)音声構成部45等は、出力音声構成・送信処理を行う。上位の処理にリターンする。かかる出力音声構成・送信処理の例については、図6のフローチャートを用いて説明する。
なお、図5のフローチャートにおいて、第二サーバ4の電源オンやプログラムの起動に応じて処理が開始し、電源オフや処理終了の割り込みにより処理は終了する。ただし、処理の開始または終了のトリガは問わない。また、図5のフローチャートにおいて、出力音声構成・送信処理を行うタイミングは問わない。音声構成部45等は、例えば、通訳音声等を受信した後に、直ちに、出力音声構成・送信処理を行っても良い。
ステップS507の出力音声構成・送信処理の例について、図6のフローチャートを用いて説明する。
(ステップS601)は、変数iに初期値1をセットする。変数iとは、第二サーバ格納部41に格納されている1以上の話者識別子のうち、未選択の話者識別子を順番に選択していくための変数である。
(ステップS602)音声構成部45は、i番目の話者識別子があるか否かを判別する。i番目の話者識別子があると判別された場合はステップS603に進み、ないと判別された場合は上位処理にリターンする。
(ステップS603)音声構成部45は、i番目の話者識別子に対応する1以上の通訳者識別子を第二サーバ格納部41から取得する。
(ステップS604)音声構成部45は、変数jに初期値1をセットする。変数jとは、ステップS603で取得した1以上の通訳者識別子のうち、未選択の通訳者識別子を順番に選択していくための変数である。
(ステップS605)音声構成部45は、j番目の通訳者識別子があるか否かを判別する。j番目の通訳者識別子があると判別された場合はステップS606に進み、ないと判別された場合はステップS612に進む。
(ステップS606)音声構成部45は、j番目の通訳者識別子に対応する状態情報が予め決められた条件を満たすか否かを判断する。このフローチャートにおいて、予め決められた条件は、“同時通訳中であることを示す情報であること”である。j番目の通訳者識別子に対応する状態情報が予め決められた条件を満たすと判断された場合はステップS607に進み、満たさないと判断された場合はステップS609に進む。
(ステップS607)音声構成部45は、i番目の話者識別子に対応するライブ音声と、j番目の通訳者識別子に対応する通訳音声とをバッファから読み出す。音声構成部45は、当該ライブ音声と当該通訳音声とをミックスし、出力音声を構成する。
(ステップS608)図示しない第二処理部は、ライブ映像を図示しないバッファから読み出す。また、第二処理部は、当該ライブ映像と出力音声とを用いて、出力情報を構成する。次に、出力情報送信部46は、当該出力情報を、i番目の話者識別子およびj番目の通訳言語識別子の組と対に、配信サーバ5に送信する。その後、ステップS611に進む。
(ステップS609)音声構成部45は、i番目の話者識別子に対応するライブ音声をバッファから読み出す。そして、音声構成部45は、当該ライブ音声を有し、通訳音声を有さない出力音声を構成する。
(ステップS610)図示しない第二処理部は、ライブ映像を図示しないバッファから読み出す。また、第二処理部は、当該ライブ映像と出力音声とを用いて、出力情報を構成する。出力情報送信部46は、i番目の話者識別子に対応するライブ映像と、ステップS609で構成した出力音声とを有する出力情報を、i番目の話者識別子と対に配信サーバ5に送信する。その後、ステップS611に進む。
(ステップS611)音声構成部45は、変数jをインクリメントする。ステップS605に戻る。
(ステップS612)音声構成部45は、変数iをインクリメントする。ステップS602に戻る。
なお、図示しないバッファから読み出されたライブ音声、通訳音声、およびライブ映像は、バッファから削除される。つまり、バッファは、通常、FIFOのメモリである。
次に、第一端末6の動作例について説明する。第一端末6は、ユーザから通訳言語識別子を有する配信指示を受け付ける。そして、第一端末6は、当該配信指示を配信サーバ5に送信する。そして、第一端末6の端末受信部61は、送信された配信指示が有する通訳言語識別子で識別される言語の通訳音声が含まれる出力情報を、配信サーバ5から受信する。そして、第一端末6は、出力情報が有するライブ映像とライブ音声と通訳音声とを出力する。なお、第一端末6において、受信された出力情報が有するライブ音声を出力せずに、ライブ映像と通訳音声とを出力しても良い。
次に、第二端末7の動作例について説明する。第二端末7の第二通訳音声受信部71は、第一サーバ3から通訳音声を受信する。そして、第二通訳音声出力部72は、第二通訳音声受信部71が受信した通訳音声を出力する。なお、第二端末7は、ライブ音声およびライブ映像を受信しないことは好適である。
以下、本実施の形態における情報システム100の具体的な動作例について説明する。なお、以下の説明は、種々の変更が可能であり、本発明を何ら限定するものではない。
情報システム100の概念図は図1である。本例の情報システム100は、2以上の話者装置1、3以上の通訳者装置2、第一サーバ3、第二サーバ4、配信サーバ5、3以上の第一端末6、および3以上の第二端末7を備える。
2以上の話者装置1のうち1つ(以下、話者装置1X)は、英語で講演をする話者Xの端末であり、他の1つ(以下、話者装置1Y)は、日本語で講義をする話者Yの端末端である。話者装置1Xは、話者Xが居るライブ会場である第一会場に設置され、話者装置1Yは、話者Yが居るライブ会場である第二会場に設置されている。話者装置1Xには、話者識別子“X”が格納され、話者装置1Yには、話者識別子“Y”が格納されている。
3以上の通訳者装置2のうち1つ(以下、通訳者装置2A)は、話者Xの英語を日本語に同時通訳する通訳者Aの端末であり、他の1つ(以下、通訳者装置2B)は、話者Xの英語を中国語に同時通訳する通訳者Bの端末であり、その他の1つ(以下、通訳者装置2C)は、話者Yの日本語を英語に同時通訳する通訳者Cの端末である。通訳者装置2Aは、通訳者Aの自宅に存在し、通訳者装置2Bは、通訳者Bの自宅に存在し、通訳者装置2Cは、第二会場の通訳ルームに設置されている。
通訳者装置2Aには、通訳者識別子“A”と通訳言語識別子“日”との組“(A,日)”が格納されている。同様に、通訳者装置2Bには、通訳者識別子“B”と通訳言語識別子“中”との組“(B,中)”が格納され、通訳者装置2Cには、通訳者識別子“C”と通訳言語識別子“英”との組“(C,英)”が格納されている。
第一サーバ3の第一サーバ格納部31には、1以上の話者識別子“X”,“Y”・・・が格納されている。また、話者識別子“X”に対応付けて、通訳者識別子と通訳言語識別子との組が2組以上、格納されている。話者識別子“X”に対応付けて格納されている通訳者識別子と通訳言語識別子との組は、例えば、“(A,日)”、(B,中)”などである。さらに、話者識別子“Y”に対応付けて、通訳者識別子と通訳言語識別子との組が1組以上、格納されている。話者識別子“Y”に対応付けて格納されている通訳者識別子と通訳言語識別子との組は、例えば、“(C,英)”などである。
また、第一サーバ格納部31には、第二端末識別子と通訳言語識別子との組が2組以上、格納されている。第二端末識別子と通訳言語識別子との組は、例えば、“(c,日)”,“(d,中)”などである。
第二サーバ4の第二サーバ格納部41には、例えば、図7に示すような、2以上の通訳関連情報が格納され得る。
図7は、通訳関連情報のデータ構造図である。通訳関連情報とは、一の話者に対応する1または2以上の通訳者に関する情報である。通訳関連情報は、例えば、通訳者識別子と、1または2以上の組情報とを有する。組情報とは、通訳者識別子と通訳言語識別子と状態情報との組である。
格納される2以上の各通訳関連情報には、ID(例えば、“1”,“2”等)が対応付いている。例えば、ID“1”に対応する通訳関連情報(以下、通訳関連情報1)は、話者識別子“X”と、2以上の組情報“(A,日,通訳中)”,“(B,中,通訳中)”等を有する。同様に、ID“2”に対応する通訳関連情報2は、話者識別子“Y”と、1以上の組情報“(C,英,停止)”等を有する。なお、状態情報の初期値は、“停止”である。
配信サーバ5には、第一端末識別子と通訳言語識別子との組が3組以上、格納されている。第一端末識別子と通訳言語識別子との組は、例えば、“(a,日)”,“(b,中)”,“(c,英)”などである。
3以上の第一端末6のうち1つ(以下、第一端末6a)は、ユーザaの端末であり、他の1つ(以下、第一端末6b)は、ユーザbの端末であり、その他の1つ(以下、第一端末6c)は、ユーザcの端末である。第一端末6a、第一端末6b、および第一端末6cの各々は、ライブ会場の外部(例えば、自宅や遠隔会場など)に存在する。第一端末6aには、第一端末識別子“a”と通訳言語識別子“日”との組“(a,日)”が格納され、第一端末6bには、第一端末識別子“b”と通訳言語識別子“中”との組“(b,中)”が格納され、第一端末6cには、第一端末識別子“c”と通訳言語識別子“英”との組“(c,英)”が格納されている。
3以上の第二端末7のうち1つ(以下、第二端末7α)は、ユーザαの端末であり、他の1つ(以下、第二端末7β)は、ユーザβの端末であり、その他の1つ(以下、第二端末7γ)は、ユーザγの端末である。第二端末7αと第二端末7βは、第一会場内に存在し、第二端末7γは、第二会場内に存在している。第二端末7αには、第二端末識別子“α”と通訳言語識別子“日”との組“(α,日)”が格納され、第二端末7βには、第二端末識別子“β”と通訳言語識別子“中”との組“(β,中)”が格納され、第二端末7γには、第二端末識別子“γ”と通訳言語識別子“英”との組“(γ,英)”が格納されている。
話者Xの講演会は、開始時刻が19:00、終了時刻が20:00である。話者Yの講義は、開始時刻が19:30、終了時刻が20:30である。いま、現在時刻が19:00となり、第一会場において、話者Xの講演会が開始されたとする。なお、この時点で、第二サーバ格納部41には、図7に示した2つの通訳関連情報1および2のうち、通訳関連情報1が格納され、訳関連情報2は未格納である。
話者装置1Xにおいて、話者第一受付部11は、カメラを介して第一会場内のライブ映像を受け付け、話者第二受付部12は、マイクロフォンを介して第一会場内のライブ音声を受け付ける。話者送信部13は、当該受け付けられたライブ映像とライブ音声を、話者装置1Xに格納されている話者識別子“X”と対に第一サーバ3に送信する。
各通訳者装置2A〜2Cのディスプレイには、開始ボタンおよび終了ボタンが表示されており、話者Xの講演会の開始時刻19:00になると、通訳者Aは通訳者装置2Aに対して、訳者Bは通訳者装置2Bに対して、それぞれ開始ボタンを押下する操作を行う。
上記操作に応じて、通訳者装置2Aでは、通訳第二受付部212がタッチパネルを介して状態情報“通訳中”を受け付け、通訳送信部22は、当該状態情報“通訳中”を通訳者識別子“A”と対に第一サーバ3に送信する。同様に、通訳者装置2Bでは、状態情報“通訳中”が受け付けられると、当該状態情報“通訳中”は、通訳者識別子“B”と対に第一サーバ3に送信される。
上記状態情報“通訳中”の受け付けに応じて、通訳者装置2Aでは、通訳第一受付部211が通訳者Aの通訳音声を受け付け、通訳送信部22は、当該受け付けられた通訳音声を、格納されている通訳者識別子“A”と対に第一サーバ3に送信する動作を開始する。同様に、通訳者装置2Bでは、通訳者Bの通訳音声を受け付け、通訳者識別子“B”と対に第一サーバ3に送信する動作が開始される。
第一サーバ3において、第一ライブ受信部32が、話者装置1Xからライブ映像とライブ音声を受信すると、第一ライブ受信部32は、当該受信されたライブ映像とライブ音声を、当該ライブ映像等と対に受信された話者識別子“X”に対応付けて第二サーバ4に送信する。
また、第一状態受信部34が、通訳者装置2Aから状態情報“通訳中”を受信すると、第一送信部35は、当該受信された状態情報を、当該状態情報と対に受信された通訳者識別子“A”に対応付けて第二サーバ4に送信する。同様に、通訳者装置2Bから状態情報“通訳中”が受信されると、当該受信された状態情報は、通訳者識別子“B”に対応付けて第二サーバ4に送信される。
さらに、第一通訳受信部33が、通訳者装置2Aから通訳音声等を受信すると、第一送信部35は、当該受信された通訳音声を、当該通訳音声と対に受信された通訳者識別子“A”と通訳言語識別子“日”の組“(A,日)”に対応付けて第二サーバ4に送信する。同様に、通訳者装置2Bから通訳音声等が受信されると、当該受信された通訳音声は、通訳者識別子“B”と通訳言語識別子“中”の組“(B,中)”に対応付けて第二サーバ4に送信される。
また、通訳音声送信部36は、通訳者装置2Aから受信された上記通訳音声を、当該通訳音声と対に受信された通訳者識別子と通訳言語識別子の組“(A,日)”に対応する第二端末7αに送信する。同様に、通訳者装置2Bから受信された通訳音声は、通訳者識別子と通訳言語識別子の組“(B,中)”に対応する第二端末7βに送信される。
第二サーバ4において、第二受信部42は、第一サーバ3を介して、話者装置1Xからのライブ映像とライブ音声等を受信すると、当該受信したライブ映像とライブ音声を、当該ライブ映像等と対に受信した話者識別子“X”に対応付けてバッファに蓄積する。また、第二状態受信部43が、第一サーバ3を介して、通訳者装置2Aからの状態情報“通訳中”等を受信すると、第二状態蓄積部44は、当該受信された状態情報を、当該状態情報と対に受信された通訳者識別子“A”に対応付けて第二サーバ格納部41に蓄積する。同様に、通訳者装置2Bからの状態情報“通訳中”等が受信されると、当該受信された状態情報は、通訳者識別子“B”に対応付けて蓄積される。
さらに、第二受信部42は、第一サーバ3を介して、通訳者装置2Aからの通訳音声等を受信すると、当該受信した通訳音声を、当該通訳音声と対に受信した通訳者識別子“A”と通訳言語識別子“日”の組“(A,日)”に対応付けてバッファに蓄積する。同様に、通訳者装置2Bからの通訳音声等が受信されると、当該受信された通訳音声は、通訳者識別子“B”と通訳言語識別子“中”の組“(B,中)”に対応付けて蓄積される。
音声構成部45等は、例えば、上記のような、第二受信部42等によるライブ映像等の受信・蓄積処理が行われない期間に、出力音声構成・送信処理を行う。つまり、第二受信部42等によるライブ映像等の受信・蓄積処理と、音声構成部45等による出力音声構成・送信処理とは、例えば、一のプロセッサによって時分割で実行されるが、2つのプロセッサによって並列に実行されてもよい。
出力音声構成・送信処理では、第二サーバ格納部41に格納されている1以上の各話者識別子“X”,“Y”ごとに、以下の処理が行われる。現時点では、第二サーバ格納部41に、話者識別子“X”を有する通訳関連情報1が格納され、話者識別子“Y”を有する通訳関連情報2は未格納であるため、話者識別子“X”についての処理が行われ、話者識別子“Y”についての処理は行われない。
すなわち、音声構成部45は、話者識別子“X”に対応するライブ音声と、話者識別子“X”と対になる2以上の通訳者識別子“A”および“B”等のうち、1つ目の通訳者識別子“A”に対応する通訳音声とを予め決められた割合(例えば、ライブ音声20%に対して、通訳音声100%の割合)でミックスし、英語のライブ音声に日本語の通訳音声を付けた1つ目の出力音声を構成する。同様に、話者識別子“X”に対応するライブ音声と、通訳者識別子“B”に対応する通訳音声とがミックスされ、英語のライブ音声に中国語の通訳音声を付けた2つ目の出力音声が構成される。
出力情報送信部46は、話者識別子“X”に対応するライブ映像と、英語のライブ音声に日本語の通訳音声を付けた1つ目の出力音声とを有する1つ目の出力情報を、話者識別子“X”および通訳言語識別子“日”の組“(X,日)”と対に、配信サーバ5に送信する。同様に、話者識別子“X”に対応するライブ映像と、英語のライブ音声に中国語の通訳音声を付けた2つ目の出力音声とを有する2つ目の出力情報が、話者識別子“X”および通訳言語識別子“中”の組“(X,中)”と対に、配信サーバ5に送信される。
配信サーバ5において、配信受信部51が上記1つ目の出力情報等を受信すると、配信送信部52は、当該受信された1つ目の出力情報を、当該出力情報と対に受信された話者識別子および通訳言語識別子の組“(X,日)”に対応する第一端末6aに送信する。同様に、上記2つ目の出力情報等が受信されると、当該受信された2つ目の出力情報は、当該出力情報と対に受信された話者識別子および通訳言語識別子の組“(X,中)”に対応する第一端末6bに送信される。
第一端末6aにおいて、端末受信部61が上記1つ目の出力情報を受信し、端末音声出力部62は、当該受信された出力情報が有する出力音声をスピーカを介して出力し、端末映像出力部63は、当該出力情報が有するライブ映像をディスプレオを介して出力する。これにより、第一端末6aのディスプレイには、話者Xが英語で講演を行っている第一会場のライブ映像が表示され、第一端末6aのスピーカからは、第一会場のライブ音声に日本語の通訳音声を付けた出力音声が出力される。従って、ユーザaは、第一会場での英語による話者Xの講演を、第一会場の外部に居ながら、ライブ映像とライブ音声によって第一会場の雰囲気を感じつつ、日本語の同時通訳によって楽しむことができる。
同様に、第一端末6bにおいて、上記2つ目の出力情報が受信されると、当該受信された出力情報が有する出力音声はスピーカを介して、ライブ映像はディスプレオを介して、それぞれ出力される。これにより、第一端末6bのディスプレイには、第一会場のライブ映像が表示され、第一端末6bのスピーカからは、第一会場のライブ音声に中国語の通訳音声を付けた出力音声が出力される。従って、ユーザbは、英語による話者Xの講演を、ライブ映像等で雰囲気を感じつつ、中国語の同時通訳によって楽しむことができる。
第二端末7αにおいて、第二通訳音声受信部71が、第一サーバ3から送信された日本語の通訳音声を受信すると、第二通訳音声出力部72は、当該受信された通訳音声をスピーカを介して出力する。これにより、第二端末7αのスピーカからは、日本語の通訳音声が出力される。従って、第一会場内に居るユーザαは、英語による話者Xの講演を、日本語の同時通訳によって楽しむことができる。
同様に、第二端末7βにおいて、第一サーバ3から送信された中国語の通訳音声が受信されると、当該受信された通訳音声は、スピーカを介して出力される。これにより、第二端末7βのスピーカからは、中国語の通訳音声が出力される。従って、第一会場内に居るユーザβは、英語による話者Xの講演を、中国語の同時通訳によって楽しむことができる。
その後、現在時刻が19;30になるまでの期間は、上記と同様、話者識別子“X”についての処理が行われる。
話者Yの講義の開始時刻19:30になると、第二サーバ格納部41には、通訳関連情報1に加えて、通訳関連情報2がさらに格納される。話者装置1Yにおいて、第二会場内のライブ映像とライブ音声が受け付けられ、当該受け付けられたライブ映像とライブ音声は、話者識別子“Y”と対に第一サーバ3に送信される。
通訳者Cが通訳者装置2Cに対し、開始ボタンを押下する操作を行うと、通訳者装置2Cにおいて、状態情報“通訳中”が受け付けられ、当該状態情報“通訳中”は、通訳者識別子“C”と対に第一サーバ3に送信される。
第一サーバ3において、話者装置1Yからのライブ映像とライブ音声が受信されると、当該受信されたライブ映像とライブ音声は、話者識別子“Y”に対応付けて第二サーバ4に送信される。また、通訳者装置2Cから状態情報“通訳中”が受信されると、当該受信された状態情報は、通訳者識別子“C”に対応付けて第二サーバ4に送信される。さらに、通訳者装置2Cから通訳音声等が受信されると、当該受信された通訳音声は、通訳者識別子“C”と通訳言語識別子“英”の組“(C,英)”に対応付けて第二サーバ4に送信される。通訳者装置2Cから受信された通訳音声は、通訳者識別子と通訳言語識別子の組“(C,英)”に対応する第二端末7γにも送信される。
第二サーバ4において、話者装置1Yからのライブ映像とライブ音声等が受信されると、当該受信されたライブ映像とライブ音声は、話者識別子“Y”に対応付けてバッファに蓄積される。これにより、通訳者識別子“C”に対応する状態情報が“停止”から“通訳中”に変化する。
また、通訳者装置2Cからの状態情報“通訳中”等が受信されると、当該受信された状態情報は、通訳者識別子“C”に対応付けて蓄積される。さらに、通訳者装置2Cからの通訳音声等が受信されると、当該受信された通訳音声は、通訳者識別子“C”と通訳言語識別子“英”の組“(C,英)”に対応付けて蓄積される。
その後の出力音声構成・送信処理では、話者識別子“X”についての処理に加えて、話者識別子“Y”についての処理も実行される。
話者識別子“Y”についての処理では、話者識別子“Y”に対応するライブ音声と、話者識別子“Y”と対になる通訳訳者識別子“C”に対応する通訳音声とがミックスされ、日本語のライブ音声に英語の通訳音声を付けた出力音声が構成される。そして、話者識別子“Y”に対応するライブ映像と、日本語のライブ音声に英語の通訳音声を付けた出力音声とを有する出力情報が、話者識別子“Y”および通訳言語識別子“英”の組“(Y,英)”と対に、配信サーバ5に送信される。
配信サーバ5において、上記送信された出力情報等が受信されると、当該受信された出力情報は、当該出力情報と対に受信された話者識別子および通訳言語識別子の組“(Y,英)”に対応する第一端末6cに送信される。
第一端末6cにおいて、上記送信された出力情報等が受信されると、第一端末6cのディスプレイには、話者Yが日本語で講義を行っている第二会場のライブ映像が表示され、第一端末6cのスピーカからは、第二会場のライブ音声に英語の通訳音声を付けた出力音声が出力される。従って、ユーザcは、第二会場での日本語による話者Xの講演を、第二会場の外部に居ながら、ライブ映像等で雰囲気を感じつつ、英語の同時通訳によって楽しむことができる。
第二端末7γにおいて、第一サーバ3から送信された英語の通訳音声が受信されると、当該受信された通訳音声は、スピーカを介して出力される。これにより、第二端末7γのスピーカからは、英語の通訳音声が出力される。従って、第二会場内に居るユーザγは、日本語による話者Yの講義を、英語の同時通訳によって楽しむことができる。
その後、19;30から20:00までの期間は、上記と同様に、話者識別子“X”についての処理と、話者識別子“Y”についての処理とが行われる。
話者Xの講演会の終了時刻になると、通訳者Aと通訳者Bは、各々終了ボタンを押下する。これに応じて、話者識別子“A”に対応する状態情報と、話者識別子“B”に対応する状態情報とは、各々“通訳中”から“停止”に変化する。ライブ音声と通訳音声とのミックスは停止され、話者Xの講演会に関する出力音声は、ライブ音声のみとなる。
さらに、20;00から20:30までの期間は、話者識別子“X”についての処理は行われず、話者識別子“Y”についての処理が行われる。
話者Yの講義の終了時刻になると、通訳者Cは、終了ボタンを押下する。これに応じて、話者識別子“C”に対応する状態情報は、“通訳中”から“停止”に変化する。ライブ音声と通訳音声とのミックスは停止され、話者Yの講義に関する出力音声は、ライブ音声のみとなる。
以上、本実施の形態によれば、情報システム100により、または情報システム100を構成するサーバシステム(3,4)により、配信サーバ5を利用して、同時通訳の音声を含むライブ配信ができる。
また、上記情報システム100において、サーバシステム(3,4)は、第一サーバ3と第二サーバ4とを具備しても良い。第一サーバ3により、音声のミックス処理を高速に行える。
また、上記情報システム100において、サーバ装置(3,4)または第二サーバ4は、予め決められた条件を満たしている場合は、ライブ音声と通訳音声とをミックスし、出力音声を構成し、予め決められた条件を満たしていない場合は、受信したライブ音声を有し、通訳音声を有さない出力音声を取得する。これにより、音声のミックス処理を適切に行える。なお、予め決められた条件が状態情報が同時通訳中であることを示す情報であることより、音声のミックス処理を適切に行える。
また、情報システム100が2以上の通訳者装置2を具備する場合、各々、異なる言語の通訳音声を含む2以上の音声が出力される。
また、情報システム100が、1以上の第一端末6と1以上の第二端末7とを有する場合、ライブ会場での通訳音声提供と、遠隔への通訳音声を含むライブ配信が共に可能になる。
また、上記情報システム100において、サーバ装置(3,4)は、ライブ音声と通訳音声とを、予め決められた割合でミックスし、出力音声を構成する。これにより、適切な割合で、通訳音声とライブ音声とがミックスされる。
または、本実施の形態において、第一サーバ3と第二サーバ4とは、サーバシステム(3,4)を構成しても良い。なお、第一サーバ3と第二サーバ4との機能の分担方法は問わない。
さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。
なお、本実施の形態におけるサーバ装置(3,4)を実現するソフトウェアは、例えば、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、ライブ映像とライブ音声とを話者装置から受信する第一ライブ受信部と、通訳音声を通訳者装置から受信する第一通訳受信部と、前記ライブ音声と前記通訳音声とをミックスし、出力する音声である出力音声を構成する音声構成部と、前記ライブ映像と前記出力音声とを有する出力情報を1以上の配信サーバに送信する出力情報送信部として機能させるためのプログラムである。
また、このプログラムは、1以上の話者装置1と、1以上の各通訳者が使用する通訳者装置2と、サーバ装置(3,4)と、1以上の配信サーバ5と、1以上の第一端末6とを具備する情報システム100を構成するサーバ装置(3,4)のコンピュータによって実行されるプログラムであって、前記話者装置1は、ライブ配信のための映像であるライブ映像を受け付ける話者第一受付部11と、ライブ配信のための音声であるライブ音声を受け付ける話者第二受付部12と、前記ライブ映像と前記ライブ音声とを前記サーバ装置(3,4)に送信する話者送信部13とを具備し、前記通訳者装置2は、前記ライブ音声を聞いている通訳者が通訳した通訳音声を受け付ける通訳第一受付部211と、前記通訳音声を前記サーバ装置(3,4)に送信する通訳送信部22とを具備し、前記コンピュータを、前記話者装置1から前記ライブ映像と前記ライブ音声とを受信する第一ライブ受信部32と、前記通訳者装置2から前記通訳音声を受信する第一通訳受信部33と、前記ライブ音声と前記通訳音声とをミックスし、出力する音声である出力音声を構成する音声構成部45と、前記ライブ映像と前記出力音声とを有する出力情報を前記1以上の配信サーバ5に送信する出力情報送信部46として機能させ、前記配信サーバ5は、前記サーバ装置(3,4)から前記出力情報を受信する配信受信部51と、前記配信受信部51が受信した出力情報を前記1以上の第一端末6に配信する配信送信部52とを具備し、前記第一端末6は、前記配信サーバ5から前記出力情報を受信する端末受信部61と、前記出力情報が有するライブ映像を出力する端末映像出力部63と、前記出力情報が有する前記出力音声を出力する端末音声出力部62とを具備する、プログラムである。
また、第一サーバ3を実現するソフトウェアは、例えば、以下のようなプログラムである。つまり、このプログラムは、第一サーバ3のコンピュータを、話者装置1からライブ映像とライブ音声とを受信する第一ライブ受信部32と、通訳者装置2から通訳音声を受信する第一通訳受信部33と、前記ライブ映像と前記ライブ音声と前記通訳音声とを第二サーバ4に送信する第一送信部35として機能させるためのプログラムである。
さらに、第二サーバ4を実現するソフトウェアは、例えば、以下のようなプログラムである。つまり、このプログラムは、第二サーバ4のコンピュータを、上記第一サーバ3からライブ映像とライブ音声と通訳音声とを受信する第二受信部42と、前記第二受信部42が受信した前記ライブ音声と前記通訳音声とをミックスし、出力する音声である出力音声を構成する音声構成部45と、前記ライブ映像と前記出力音声とを有する出力情報を1以上の配信サーバ5に送信する出力情報送信部46として機能させるためのプログラムである。
(実施の形態2)
本実施の形態における情報システム200の概念図は、図1に示した情報システム100の概念図において、第一サーバ3と第二サーバ4とを具備するサーバシステムを、サーバ装置8に置き換えたものである。なお、その他の要素(1,2,5〜7)は、実施の形態1のものと同様の動作を行う。
また、情報システム200のブロック図は、図2に示した情報システム100のブロック図において、第一サーバ3と第二サーバ4とで構成されたサーバシステムを、図8に示すサーバ装置8に置き換えたものである。
図8は、サーバ装置8のブロック図である。サーバ装置8は、第二サーバ格納部41、第一ライブ受信部32、第一通訳受信部33、第一状態受信部34、第二状態蓄積部44、音声構成部45、出力情報送信部46、および通訳音声送信部36を備える。
サーバ装置8は、ライブ映像とライブ音声とを話者装置1から受信する第一ライブ受信部32と、通訳音声を通訳者装置2から受信する第一通訳受信部33と、ライブ音声と通訳音声とをミックスし、出力する音声である出力音声を構成する音声構成部45と、ライブ映像と出力音声とを有する出力情報を1以上の配信サーバ5に送信する出力情報送信部46とを具備する。
図9は、サーバ装置8の動作を説明するフローチャートである。図9のフローチャートは、図5に示した第二サーバ4のフローチャートにおいて、3つのステップS501,S503,およびS505を、図4に示した第一サーバ3のフローチャートの3つのステップS401,S403,およびS405に置き換えたものである。
本実施の形態における情報システム200の具体的な動作例は、第一サーバ3と第二サーバ4とで分担していた動作を一のサーバ装置8が担う点を除き、前述した実施の形態1における情報システム100の動作例と同様である。なお、サーバ装置8は、第一サーバ3と第二サーバ4との間の通信処理の機能は有さないことは言うまでもない。
以上、本実施の形態によれば、情報システム200により、または情報システム200を構成するサーバ装置8により、配信サーバ5を利用して、同時通訳の音声を含むライブ配信ができる。
また、上記情報システム200において、サーバ装置8は、予め決められた条件を満たしている場合は、ライブ音声と通訳音声とをミックスし、出力音声を構成し、予め決められた条件を満たしていない場合は、受信したライブ音声を有し、通訳音声を有さない出力音声を取得する。これにより、音声のミックス処理を適切に行える。
また、上記情報システム200において、第二サーバ格納部41に、同時通訳中であるか否かを示す状態情報が格納され、予め決められた条件は、状態情報が同時通訳中であることを示す情報であることである。これにより、音声のミックス処理を適切に行える。
また、上記情報システム200が2以上の通訳者装置2を具備することにより、異なる言語の通訳音声を含む音声が出力される。
また、上記情報システム200は、1以上の第一端末6と1以上の第二端末7を有することにより、ライブ会場での通訳音声提供と、遠隔への通訳音声を含むライブ配信が共に可能になる。
また、上記情報システム200において、サーバ装置8は、ライブ音声と通訳音声とを、予め決められた割合でミックスし、出力音声を構成する。これにより、適切な割合で、通訳音声とライブ音声とがミックスされる。
なお、本実施の形態におけるサーバを実現するソフトウェアは、例えば、以下のようなプログラムである。つまり、このプログラムは、1以上の話者装置1と、1以上の各通訳者が使用する通訳者装置2と、サーバ装置8と、1以上の配信サーバ5と、1以上の第一端末6とを具備する情報システム200を構成するサーバ装置8のコンピュータによって実行されるプログラムであって、前記話者装置1は、ライブ配信のための映像であるライブ映像を受け付ける話者第一受付部11と、ライブ配信のための音声であるライブ音声を受け付ける話者第二受付部12と、前記ライブ映像と前記ライブ音声とを前記サーバ装置8に送信する話者送信部13とを具備し、前記通訳者装置2は、前記ライブ音声を聞いている通訳者が通訳した通訳音声を受け付ける通訳第一受付部211と、前記通訳音声を前記サーバ装置8に送信する通訳送信部22とを具備し、前記コンピュータを、前記話者装置1から前記ライブ映像と前記ライブ音声とを受信する第一ライブ受信部32と、前記通訳者装置2から前記通訳音声を受信する第一通訳受信部33と、前記ライブ音声と前記通訳音声とをミックスし、出力する音声である出力音声を構成する音声構成部45と、前記ライブ映像と前記出力音声とを有する出力情報を前記1以上の配信サーバ5に送信する出力情報送信部46として機能させ、前記配信サーバ5は、前記サーバ装置8から前記出力情報を受信する配信受信部51と、前記配信受信部51が受信した出力情報を前記1以上の第一端末6に配信する配信送信部52とを具備し、前記第一端末6は、前記配信サーバ5から前記出力情報を受信する端末受信部61と、前記出力情報が有するライブ映像を出力する端末映像出力部63と、前記出力情報が有する前記出力音声を出力する端末音声出力部62とを具備する、プログラムである。
図10は、各実施の形態におけるプログラムを実行して、第一サーバ3や第二サーバ4やサーバ装置8などのサーバ装置等を実現するコンピュータシステム900の外観図である。本実施の形態は、コンピュータハードウェアおよびその上で実行されるコンピュータプログラムによって実現され得る。図10において、コンピュータシステム900は、ディスクドライブ905を含むコンピュータ901と、キーボード902と、マウス903と、ディスプレイ904と、マイクロフォン917と、スピーカ918とを備える。なお、キーボード902やマウス903やディスプレイ904やマイクロフォン917スピーカ918をも含むシステム全体をコンピュータと呼んでも良い。
図11は、コンピュータシステム900の内部構成の一例を示す図である。図11において、コンピュータ901は、ディスクドライブ905に加えて、MPU911と、ブートアッププログラム等のプログラムを記憶するためのROM912と、MPU911に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM913と、アプリケーションプログラム、システムプログラム、およびデータを記憶するストレージ914と、MPU911、ROM912等を相互に接続するバス915と、外部ネットワークや内部ネットワーク等のネットワークへの接続を提供するネットワークカード916と、マイクロフォン917と、スピーカ918と、を備える。ストレージ914は、例えば、ハードディスク、SSD、フラッシュメモリなどである。
コンピュータシステム900に、サーバ装置等の機能を実行させるプログラムは、例えば、DVD、CD−ROM等のディスク921に記憶されて、ディスクドライブ905に挿入され、ストレージ914に転送されても良い。これに代えて、そのプログラムは、ネットワークを介してコンピュータ901に送信され、ストレージ914に記憶されても良い。プログラムは、実行の際にRAM913にロードされる。なお、プログラムは、ディスク921、またはネットワークから直接、ロードされても良い。また、ディスク921に代えて他の着脱可能な記録媒体(例えば、DVDやメモリカード等)を介して、プログラムがコンピュータシステム900に読み込まれても良い。
プログラムは、コンピュータの詳細を示す901に、サーバ装置等の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくても良い。プログラムは、制御された態様で適切な機能やモジュールを呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいても良い。コンピュータシステム900がどのように動作するのかについては周知であり、詳細な説明は省略する。
なお、上述したコンピュータシステム900は、サーバまたは据え置き型のPCであるが、第一端末6や第二端末7は、例えば、タブレット端末やスマートフォンやノートPCといった、携帯端末で実現されても良い。この場合、例えば、キーボード902およびマウス903はタッチパネルに、ディスクドライブ905はメモリカードスロットに、ディスク921はメモリカードに、それぞれ置き換えられることが望ましい。話者装置1や通訳者装置2も、基本的なハードウェア構成は、PCや携帯端末と同様で良い。ただし、以上は例示であり、サーバ装置等を実現するコンピュータのハードウェア構成は問わない。
なお、上記プログラムにおいて、情報を送信する送信ステップや、情報を受信する受信ステップなどでは、ハードウェアによって行われる処理、例えば、送信ステップにおけるモデムやインターフェースカードなどで行われる処理(ハードウェアでしか行われない処理)は含まれない。
また、上記プログラムを実行するコンピュータは、単数であっても良く、複数であっても良い。すなわち、一のコンピュータが集中処理を行っても良く、あるいは複数のコンピュータが分散処理を行っても良い。
また、上記各実施の形態において、一の装置に存在する2以上の通信手段(例えば、配信受信部51、配信送信部52など)は、物理的に一の媒体で実現されても良いことは言うまでもない。
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されても良く、あるいは、複数の装置によって分散処理されることによって実現されても良い。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
以上のように、本発明にかかるサーバ装置は、配信サーバを利用して、同時通訳の音声を含むライブ配信ができるという効果を有し、サーバ装置等として有用である。
1 話者装置
2 通訳者装置
3 第一サーバ
4 第二サーバ
5 配信サーバ
6 第一端末
7 第二端末
8 サーバ装置
11 話者第一受付部
12 話者第二受付部
13 話者送信部
21 通訳受付部
22 通訳送信部
31 第一サーバ格納部
32 第一ライブ受信部
33 第一通訳受信部
34 第一状態受信部
35 第一送信部
36 通訳音声送信部
41 第二サーバ格納部
42 第二受信部
43 第二状態受信部
44 第二状態蓄積部
45 音声構成部
46 出力情報送信部
51 配信受信部
52 配信送信部
61 端末受信部
62 端末音声出力部
63 端末映像出力部
71 第二通訳音声受信部
72 第二通訳音声出力部
100、200 情報システム
211 通訳第一受付部
212 通訳第二受付部

Claims (14)

  1. 1以上の話者装置と1以上の各通訳者が使用する通訳者装置とサーバ装置と1以上の配信サーバと1以上の第一端末とを具備する情報システムを構成するサーバ装置であって、
    前記話者装置は、
    ライブ配信のための映像であるライブ映像を受け付ける話者第一受付部と、
    ライブ配信のための音声であるライブ音声を受け付ける話者第二受付部と、
    前記ライブ映像と前記ライブ音声とを前記サーバ装置に送信する話者送信部と、
    前記通訳者装置は、
    前記ライブ音声を聞いている通訳者が通訳した通訳音声を受け付ける通訳第一受付部と、
    前記通訳音声を前記サーバ装置に送信する通訳送信部とを具備し、
    前記サーバ装置は、
    前記ライブ映像と前記ライブ音声とを前記話者装置から受信する第一ライブ受信部と、
    前記通訳音声を前記通訳者装置から受信する第一通訳受信部と、
    前記ライブ音声と前記通訳音声とをミックスし、出力する音声である出力音声を構成する音声構成部と、
    前記ライブ映像と前記出力音声とを有する出力情報を前記1以上の配信サーバに送信する出力情報送信部とを具備し、
    前記配信サーバは、
    前記出力情報を前記サーバ装置から受信する配信受信部と、
    前記配信受信部が受信した出力情報を前記1以上の第一端末に配信する配信送信部とを具備し、
    前記第一端末は、
    前記出力情報を前記配信サーバから受信する端末受信部と、
    前記出力情報が有するライブ映像を出力する端末映像出力部と、
    前記出力情報が有する前記出力音声を出力する端末音声出力部とを具備する、情報システムを構成するサーバ装置。
  2. 前記サーバ装置は、第一サーバと第二サーバとを具備し、
    前記第一サーバは、
    前記ライブ映像と前記ライブ音声とを前記話者装置から受信する第一ライブ受信部と、
    前記通訳音声を前記通訳者装置から受信する第一通訳受信部と、
    前記ライブ映像と前記ライブ音声と前記通訳音声とを前記第二サーバに送信する第一送信部とを具備し、
    前記第二サーバは、
    前記ライブ映像と前記ライブ音声と前記通訳音声とを前記第一サーバから受信する第二受信部と、
    前記第二受信部が受信した前記ライブ音声と前記通訳音声とをミックスし、出力する音声である出力音声を構成する音声構成部と、
    前記ライブ映像と前記出力音声とを有する出力情報を前記1以上の配信サーバに送信する出力情報送信部とを具備する請求項1記載の情報システムを構成するサーバ装置。
  3. 前記音声構成部は、
    予め決められた条件を満たしている場合は、前記ライブ音声と前記通訳音声とをミックスし、出力音声を構成し、前記予め決められた条件を満たしていない場合は、前記第二受信部が受信した前記ライブ音声を有し、前記通訳音声を有さない出力音声を取得する、請求項1または請求項2記載の情報システムを構成するサーバ装置。
  4. 前記サーバ装置は、
    同時通訳中であるか否かを示す状態情報が格納される第二サーバ格納部をさらに具備し、
    前記予め決められた条件は、前記状態情報が同時通訳中であることを示す情報であることである、請求項3記載の情報システムを構成するサーバ装置。
  5. 前記通訳者装置は、
    状態情報を受け付ける通訳第二受付部をさらに具備し、
    前記通訳者装置の前記通訳送信部は、
    前記状態情報をも前記サーバ装置に送信し、
    前記サーバ装置は、
    前記通訳者装置から前記状態情報を受信する状態受信部と、
    前記状態受信部が受信した前記状態情報を前記第二サーバ格納部に蓄積する第二状態蓄積部とをさらに具備する、請求項4記載の情報システムを構成するサーバ装置。
  6. 前記情報システムは、2以上の通訳者装置を具備し、
    前記サーバ装置の前記第一通訳受信部は、
    2以上の各通訳者装置から、各々、異なる言語の通訳音声を受信し、
    前記音声構成部は、
    2以上の前記通訳音声ごとに、出力音声を構成し、
    前記出力情報送信部は、
    異なる出力音声を有する2以上の出力情報を前記1以上の配信サーバに送信し、
    前記配信サーバの前記配信送信部は、
    2以上の各第一端末に、異なる言語の通訳音声を含む出力情報を配信する、請求項1から請求項5いずれか一項に記載の情報システムを構成するサーバ装置。
  7. 前記情報システムは、1以上の第二端末を有し、
    前記第二端末は、
    前記サーバ装置から前記通訳音声を受信する第二通訳音声受信部と、
    前記通訳音声を出力する第二通訳音声出力部とを具備し、
    前記サーバ装置は、
    前記1以上の第二端末に、前記通訳音声を送信する通訳音声送信部をさらに具備する、請求項1から請求項6いずれか一項に記載の情報システムを構成するサーバ装置。
  8. 前記音声構成部は、
    前記ライブ音声と前記通訳音声とを、予め決められた割合でミックスし、出力音声を構成する、請求項1から請求項7いずれか一項に記載の情報システムを構成するサーバ装置。
  9. ライブ映像とライブ音声とを話者装置から受信する第一ライブ受信部と、
    通訳音声を通訳者装置から受信する第一通訳受信部と、
    前記ライブ音声と前記通訳音声とをミックスし、出力する音声である出力音声を構成する音声構成部と、
    前記ライブ映像と前記出力音声とを有する出力情報を1以上の配信サーバに送信する出力情報送信部とを具備するサーバ装置。
  10. 前記音声構成部は、
    予め決められた条件を満たしている場合は、前記ライブ音声と前記通訳音声とをミックスし、出力音声を構成し、前記予め決められた条件を満たしていない場合は、前記第二受信部が受信した前記ライブ音声を有し、前記通訳音声を有さない出力音声を構成する、請求項9記載のサーバ装置。
  11. 第一サーバと第二サーバとを具備するサーバシステムであって、
    前記第一サーバは、
    ライブ映像とライブ音声とを話者装置から受信する第一ライブ受信部と、
    通訳音声を通訳者装置から受信する第一通訳受信部と、
    前記ライブ映像と前記ライブ音声と前記通訳音声とを前記第二サーバに送信する第一送信部とを具備し、
    前記第二サーバは、
    前記ライブ映像と前記ライブ音声と前記通訳音声と前記第一サーバからを受信する第二受信部と、
    前記第二受信部が受信した前記ライブ音声と前記通訳音声とをミックスし、出力する音声である出力音声を構成する音声構成部と、
    前記ライブ映像と前記出力音声とを有する出力情報を1以上の配信サーバに送信する出力情報送信部とを具備する、サーバシステム。
  12. 前記音声構成部は、
    予め決められた条件を満たしている場合は、前記ライブ音声と前記通訳音声とをミックスし、出力音声を構成し、前記予め決められた条件を満たしていない場合は、前記第二受信部が受信した前記ライブ音声を有し、前記通訳音声を有さない出力音声を構成する、請求項11記載のサーバシステム。
  13. 第一ライブ受信部、第一通訳受信部、音声構成部、および出力情報送信部によって実現される情報処理方法であって、
    前記第一ライブ受信部が、ライブ映像とライブ音声とを話者装置から受信する第一ライブ受信ステップと、
    前記第一通訳受信部が、通訳音声を通訳者装置から受信する第一通訳受信ステップと、
    前記音声構成部が、前記ライブ音声と前記通訳音声とをミックスし、出力する音声である出力音声を構成する音声構成ステップと、
    前記出力情報送信部が、前記ライブ映像と前記出力音声とを有する出力情報を1以上の配信サーバに送信する出力情報送信ステップとを具備する、情報処理方法。
  14. コンピュータを、
    ライブ映像とライブ音声とを話者装置から受信する第一ライブ受信部と、
    通訳音声を通訳者装置から受信する第一通訳受信部と、
    前記ライブ音声と前記通訳音声とをミックスし、出力する音声である出力音声を構成する音声構成部と、
    前記ライブ映像と前記出力音声とを有する出力情報を1以上の配信サーバに送信する出力情報送信部として機能させるためのプログラム。
JP2020091996A 2020-05-27 2020-05-27 サーバ装置、サーバシステム、情報処理方法、およびプログラム Pending JP2021190751A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020091996A JP2021190751A (ja) 2020-05-27 2020-05-27 サーバ装置、サーバシステム、情報処理方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020091996A JP2021190751A (ja) 2020-05-27 2020-05-27 サーバ装置、サーバシステム、情報処理方法、およびプログラム

Publications (1)

Publication Number Publication Date
JP2021190751A true JP2021190751A (ja) 2021-12-13

Family

ID=78848568

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020091996A Pending JP2021190751A (ja) 2020-05-27 2020-05-27 サーバ装置、サーバシステム、情報処理方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP2021190751A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114584735A (zh) * 2022-01-12 2022-06-03 甲骨易(北京)语言科技股份有限公司 一种在线会议同传直播方法和系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114584735A (zh) * 2022-01-12 2022-06-03 甲骨易(北京)语言科技股份有限公司 一种在线会议同传直播方法和系统

Similar Documents

Publication Publication Date Title
US20190166330A1 (en) User interface with a hierarchical presentation of selection options for selecting a sharing mode of a video conference
US20050114528A1 (en) System, server, method and program for providing communication service
CN110910860B (zh) 线上ktv实现方法、装置、电子设备及存储介质
CN110166729B (zh) 云视频会议方法、装置、系统、介质和计算设备
JP3638146B2 (ja) テレビ会議システム及びそれに用いる端末、接続制御方法並びに接続制御プログラム
CN113794928B (zh) 一种音频播放方法及显示设备
CN109753259B (zh) 一种投屏系统及控制方法
JP7453576B2 (ja) 情報処理システム、その制御方法及びプログラム。
WO2021244159A1 (zh) 一种翻译方法、装置、耳机和耳机收纳装置
JP2013242357A (ja) 情報処理装置、情報処理方法、およびプログラム
CN107005681B (zh) 通用镜像接收器
JP2021190751A (ja) サーバ装置、サーバシステム、情報処理方法、およびプログラム
WO2021244135A1 (zh) 一种翻译方法、装置和耳机
GB2356314A (en) Multimedia client-server system
US20210358475A1 (en) Interpretation system, server apparatus, distribution method, and storage medium
JP2004187126A (ja) テレビ会議システム
TWI792701B (zh) 支援低功耗藍牙音訊廣播運作並可同步調整音量大小的藍牙音訊廣播系統及相關的多成員藍牙裝置
KR100953509B1 (ko) 다자간 영상 통신 방법.
KR20180091319A (ko) 사운드 공유 장치 및 방법
CN115550705A (zh) 一种音频播放方法及装置
JP2003339034A (ja) ネットワーク会議システム、ネットワーク会議方法およびネットワーク会議プログラム
JP6703259B2 (ja) 情報処理システム、会議サーバ、その制御方法及びプログラム
CN110536171B (zh) 互动场景中的多媒体处理方法、装置及电子设备
JP7421134B2 (ja) 情報処理システム、情報処理方法、プログラム
WO2023223585A1 (ja) 会議管理装置、会議管理方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230424

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240409

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240423