JP2023506468A

JP2023506468A - 使用者端末、放送装置、それを含む放送システム、及びその制御方法

Info

Publication number: JP2023506468A
Application number: JP2022535547A
Authority: JP
Inventors: チョルキム、ギョン
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-12-09
Filing date: 2020-12-07
Publication date: 2023-02-16
Anticipated expiration: 2040-12-07
Also published as: WO2021118180A1; CN115066907A; KR102178174B1; JP7467636B2; US20230274101A1

Abstract

放送装置、使用者端末、それを含む放送システム、及びその制御方法を開示する。放送装置は、通信網を介してチャットルームに接続した使用者端末間のビデオ通話を支援する通信部と、前記通信部から受信されるビデオ通話関連動画ファイルを用いて映像ファイルと音声ファイルを生成し、前記映像ファイルと音声ファイルのうち少なくとも一つを用いて、通話者のそれぞれに関する原語情報を抽出する抽出部と、前記原語情報を、選択された国の言語により翻訳した翻訳情報を生成する翻訳部と、前記ビデオ通話関連動画ファイルに、前記原語情報及び翻訳情報のうち少なくとも一つがマッピングされた通訳翻訳動画が、前記チャットルームに接続した使用者端末及び視聴者端末に送信されるように制御する制御部と、を含んでもよい。【選択図】図１

Description

ビデオ通話コンテンツをリアルタイムで放送するにあたって、翻訳サービスを提供する使用者端末、放送装置、それを含む放送システム、及びその制御方法に関する。

ＩＴ技術の発達につれて、使用者間にビデオ通話がしばしば行われており、特に、全世界の多様な国々の人がビジネスの目的のみならず、コンテンツの共有、趣味生活の共有等を目的としてビデオ通話サービスを用いている。

ただし、全てのビデオ通話の度に、通訳者と一緒にいながらビデオ通話をすることは、費用的や時間的で困難であり、そのため、ビデオ通話に対するリアルタイムの原文／翻訳サービスを提供する方法についての研究が進められている。

通話者だけでなく、視聴者に原文／翻訳サービスをリアルタイムで提供することにより、意思交換、意思把握をさらに円滑に行い、音声及びテキストのうち少なくとも一つによって原文／翻訳サービスを提供することにより、視覚障害者のみならず、聴覚障害者も、自由に意思交換、意思把握をさらに円滑に行うようにすることを目的とする。

一局面による放送装置は、通信網を介してチャットルームに接続した使用者端末間のビデオ通話を支援する通信部と、前記通信部から受信されるビデオ通話関連動画ファイルを用いて映像ファイルと音声ファイルを生成し、前記映像ファイルと音声ファイルのうち少なくとも一つを用いて、通話者のそれぞれに関する原語情報を抽出する抽出部と、前記原語情報を、選択された国の言語により翻訳した翻訳情報を生成する翻訳部と、前記ビデオ通話関連動画ファイルに、前記原語情報及び翻訳情報のうち少なくとも一つがマッピングされた通訳翻訳動画が、前記チャットルームに接続した使用者端末及び視聴者端末に送信されるように制御する制御部と、を含んでもよい。

また、前記原語情報は、音声原語情報及びテキスト原語情報のうち少なくとも一つを含み、前記翻訳情報は、音声翻訳情報及びテキスト翻訳情報のうち少なくとも一つを含んでもよい。

また、前記抽出部は、前記音声ファイルに対して周波数帯域分析プロセスを適用して、通話者のそれぞれに関する音声原語情報を抽出し、前記抽出した音声原語情報に対して音声認識プロセスを適用してテキスト原語情報を生成してもよい。

また、前記抽出部は、前記映像ファイルに対して映像処理プロセスを適用して手話パターンを検出し、前記検出した手話パターンに基づき、テキスト原語情報を抽出してもよい。

一局面による使用者端末は、通信網を介してビデオ通話サービスを支援する端末通信部と、ビデオ通話関連動画ファイルに原語情報及び翻訳情報のうち少なくとも一つがマッピングされた通訳翻訳動画を提供し、少なくとも一つのビデオ通話関連設定命令と、少なくとも一つの翻訳関連設定命令との入力が可能なアイコンを提供するように構成されたユーザーインターフェースがディスプレイ上に表示されるように制御する端末制御部と、を含んでもよい。

また、前記少なくとも一つのビデオ通話関連設定命令は、ビデオ通話者の発言権を設定可能な発言権設定命令、ビデオ通話者数設定命令、視聴者数設定命令、及びテキスト送信命令のうち少なくとも一つを含んでもよい。

また、前記端末制御部は、前記発言権設定命令の入力可否により、前記通訳翻訳動画の提供方法が変更されるか、または発言権を持った通話者に関する情報が含まれたポップアップメッセージを提供するように構成されたユーザーインターフェースがディスプレイ上に表示されるように制御してもよい。

一局面による放送装置の制御方法は、ビデオ通話関連動画ファイルを受信するステップと、前記ビデオ通話関連動画ファイルから生成した映像ファイルと音声ファイルのうち少なくとも一つを用いて、通話者のそれぞれに関する原語情報を抽出するステップと、前記原語情報を、選択された国の言語により翻訳した翻訳情報を生成するステップと、前記ビデオ通話関連動画ファイルに、前記原語情報及び翻訳情報のうち少なくとも一つがマッピングされた通訳翻訳動画を、チャットウィンドウに接続中の端末に送信されるように制御するステップと、を含んでもよい。

また、前記抽出するステップは、前記音声ファイルに対して周波数帯域分析プロセスを適用して、通話者のそれぞれに関する音声原語情報を抽出するステップと、前記抽出した音声原語情報に対して音声認識プロセスを適用してテキスト原語情報を生成するステップと、を含んでもよい。

また、前記抽出するステップは、前記映像ファイルに対して映像処理プロセスを適用して手話パターンを検出し、前記検出した手話パターンに基づき、テキスト原語情報を抽出するステップを含んでもよい。

一実施形態による使用者端末、放送装置、それを含む放送システム、及びその制御方法は、通話者だけでなく、視聴者に原文／翻訳サービスをリアルタイムで提供することにより、意思交換、意思把握をさらに円滑に行うようにする。

他の一実施形態による使用者端末、放送装置、それを含む放送システム、及びその制御方法は、音声及びテキストのうち少なくとも一つによって原文／翻訳サービスを提供することにより、視覚障害者のみならず、聴覚障害者も、自由に意思交換、意思把握をさらに円滑に行うようにする。

一実施形態によるビデオ通話放送システムの構成を概略的に示す図である。一実施形態によるビデオ通話放送システムの制御ブロック図を概略的に示す図である。一実施形態によるビデオ通話中、ディスプレイ上に表示されるユーザーインターフェース画面を示す図である。一実施形態による各種設定命令を入力されるように構成されたユーザーインターフェース画面を示す図である。他の実施形態による発言権により構成が変更されるユーザーインターフェース画面を示す図である。また他の実施形態による発言権により構成が変更されるユーザーインターフェース画面を示す図である。一実施形態による放送装置の動作フローチャートを概略的に示す図である。

以下で説明される使用者端末は、各種演算処理が可能なプロセッサが内蔵されており、通信モジュールが内蔵されており、通信網を介してビデオ通話サービスが可能な全ての機器を含む。

例えば、使用者端末は、ラップトップ（ｌａｐｔｏｐ）、デスクトップ（ｄｅｓｋｔｏｐ）、タブレットパソコン（ｔａｂｌｅｔＰＣ）だけでなく、スマートフォン、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）のようなモバイル端末、及び使用者の身体に脱着可能な時計やめがね型のウェアラブル端末だけでなく、スマートテレビ、ＩＰＴＶ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌＴｅｌｅｖｉｓｉｏｎ）等を含み、制限はない。以下、説明の便宜上、使用者端末を用いてビデオ通話サービスを利用する者を使用者または通話者と混用して指称する。

以下で説明される視聴者は、ビデオ通話に直接的に参与するよりは、ビデオ通話を視聴しようとする者であって、以下で説明される視聴者端末は、上述した使用者端末として利用可能な機器の全てを含む。一方、以下では、使用者端末及び視聴者端末を区別して説明する必要がない場合、端末と呼ぶことにする。

また、以下で説明される放送装置は、通信モジュールが内蔵されており、通信網を介してビデオ通話サービスを提供することができ、各種演算処理が可能なプロセッサが内蔵されている全ての機器を含む。

例えば、放送装置は、上述したラップトップ（ｌａｐｔｏｐ）、デスクトップ（ｄｅｓｋｔｏｐ）、タブレットパソコン（ｔａｂｌｅｔＰＣ）、スマートフォン、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）のようなモバイル端末、及びウェアラブル端末だけでなく、スマートテレビ、ＩＰＴＶ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌＴｅｌｅｖｉｓｉｏｎ）により実現可能である。以外にも、放送装置は、通信モジュール及びプロセッサが内蔵されたサーバーによっても実現可能であり、制限はない。以下、放送装置について、さらに具体的に説明する。

以下、説明の便宜のために、図１に示すように、スマートフォン形態の使用者端末及び視聴者端末を例とし、サーバー形態の放送装置を例として説明しているが、上述のように、使用者端末、視聴者端末、及び放送装置の形態がこれに限定されるものではなく、制限はない。

図１は、一実施形態によるビデオ通話放送システムの構成を概略的に示す図であり、図２は、一実施形態によるビデオ通話放送システムの制御ブロック図を概略的に示す図である。また、図３は、一実施形態によるビデオ通話中、ディスプレイ上に表示されるユーザーインターフェース画面を示す図であり、図４は、一実施形態による各種設定命令を入力されるように構成されたユーザーインターフェース画面を示す図である。また、図５及び図６は、相違した実施形態による発言権により構成が変更されるユーザーインターフェース画面を示す図である。以下、説明の重複を防ぐために一緒に説明する。

図１及び図２を参照すると、放送システム１は、使用者端末１００－１、…、１００－ｎ：１００（ｎ≧１）、視聴者端末２００－１、…、２００－ｎ：２００（ｍ≧１）、使用者端末１００と視聴者端末２００との間の連結を支援し、ビデオ通話関連動画ファイル、及びビデオ通話関連動画ファイルから抽出した原語情報及び翻訳情報を一緒に送り出すことにより、翻訳サービスを提供する放送装置３００を含む。以下、放送装置３００について、さらに具体的に説明する。

図２を参照すると、放送装置３００は、通信網を介して、外部端末とデータをやりとりするとともに、外部端末間のビデオ通話サービスを支援する通信部３１０と、通信部３１０から受信されるビデオ通話関連動画ファイルを用いて、映像ファイル及び音声ファイルを生成した後、それに基づき、原語情報を抽出する抽出部３２０、原語情報を翻訳して翻訳情報を生成する翻訳部３３０、及び放送装置３００内の構成要素の全般的な動作を制御してビデオ通話に対する放送サービスを提供するとともに、翻訳サービスを提供する制御部３４０を含んでもよい。

ここで、通信部３１０、抽出部３２０、翻訳部３３０、及び制御部３４０は、それぞれ別途に実現されるか、あるいは、少なくとも一つは、一つのシステムオンチップ（ＳｙｓｔｅｍＯｎａＣｈｉｐ、ＳＯＣ）で統合して実現されてもよい。ただし、放送装置３００内にシステムオンチップが一つのみ存在するものではなくてもよいので、一つのシステムオンチップに集積されるものに限定されず、実現方法には制限がない。以下、放送装置３００の構成要素について具体的に説明する。

通信部３１０は、無線通信網または有線通信網を介して外部機器と各種データをやりとりすることができる。ここで、無線通信網は、データが含まれた信号を無線でやりとりする通信網を意味する。

例えば、通信部３１０は、３Ｇ（３Ｇｅｎｅｒａｔｉｏｎ）、４Ｇ（４Ｇｅｎｅｒａｔｉｏｎ）、５Ｇ（５Ｇｅｎｅｒａｔｉｏｎ）等のような通信方式により、基地局を経て、端末間に無線信号を送受信することができ、以外にも、無線ラン（ＷｉｒｅｌｅｓｓＬＡＮ）、ワイファイ（Ｗｉ－Ｆｉ）、ブルートゥース（登録商標）（Ｂｌｕｅｔｏｏｔｈ）、ジグビー（Ｚｉｇｂｅｅ）、ＷＦＤ（Ｗｉ－ＦｉＤｉｒｅｃｔ）、ＵＷＢ（Ｕｌｔｒａｗｉｄｅｂａｎｄ）、赤外線通信（ＩｒＤＡ；ＩｎｆｒａｒｅｄＤａｔａＡｓｓｏｃｉａｔｉｏｎ）、ＢＬＥ（ＢｌｕｅｔｏｏｔｈＬｏｗＥｎｅｒｇｙ）、ＮＦＣ（ＮｅａｒＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎ）等のような通信方式を通じて、所定の距離以内の端末とデータが含まれた無線信号を送受信することができる。

また、有線通信網は、データが含まれた信号を有線でやりとりする通信網を意味する。例えば、有線通信網は、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ）、ＰＣＩ－ｅｘｐｒｅｓｓ、ＵＳＢ（ＵｎｉｖｅｒｓｅＳｅｒｉａｌＢｕｓ）等を含むが、これに限定されるものではない。以下で説明される通信網は、無線通信網と有線通信網の全てを含む。

通信部３１０は、ビデオ通話サービスを提供するために、通信網を介して、使用者端末1００間に連結されるようにしてもよく、ビデオ通話を視聴可能に視聴者端末2００を連結してもよい。

例えば、ビデオ通話をリアルタイムでストリーミングするために、使用者が集まってチャットルームを作成した場合、当該チャットルームには視聴者が接続することができる。この場合、通信部３１０は、通信網を介して、使用者間にビデオ通話が円滑に行われるようにするだけでなく、ビデオ通話コンテンツを視聴者に送信することにより、リアルタイムのビデオ通話放送サービスが行われるようにする。

具体的な例として、制御部３４０は、通信部３１０を介して、使用者端末２００から受信したチャットルームの生成要請によりチャットルームを生成してから、チャットルームに接続した視聴者端末３００でもビデオ通話を視聴可能なように、通信部３１０を制御することもできる。制御部３４０についての具体的な説明は、後述する。

図２を参照すると、放送装置３００には、抽出部３２０が設けられてもよい。抽出部３２０は、通信部３１０から受信されるビデオ通話関連動画ファイルを用いて、映像ファイルと音声ファイルを生成することができる。ビデオ通話関連動画ファイルは、ビデオ通話中に使用者端末２００から受信されるデータであり、視覚的な情報を提供する映像情報と聴覚的な情報を提供する音声情報が含まれてもよい。例えば、ビデオ通話関連動画ファイルは、使用者端末１００に内蔵されたカメラ及びマイクのうち少なくとも一つを用いて、通話者の意思疎通を保存したファイルを意味してもよい。

ビデオ通話中に出る全ての言語に対して翻訳サービスを提供するためには、まず、原語の認識が求められる。これにより、抽出部３２０は、ビデオ通話関連動画ファイルを映像ファイルと音声ファイルに分離して生成してから、映像ファイル及び音声ファイルのうち少なくとも一つから原語情報を抽出する。

以下で説明される原語情報は、ビデオ通話関連動画内に含まれた音声、手話等のような意思疎通手段から抽出された情報であって、原語情報は、音声またはテキストとして抽出されてもよい。

以下、説明の便宜上、音声で構成された原語情報を音声原語情報とし、テキストで構成された原語情報をテキスト原語情報とする。例えば、ビデオ通話関連動画に写っている人物（通話者）が英語で「Ｈｅｌｌｏ」という音声を発話した場合、音声原語情報は、通話者が発話した音声の「Ｈｅｌｌｏ」であり、テキスト原語情報は、「Ｈｅｌｌｏ」のテキストそのものを意味する。以下、まず、音声ファイルから音声原語情報を抽出する方法について説明する。

音声ファイル内には、多様な使用者の音声が入っていることがあり、このような多様な音声が同時に出力されると、識別し難く、これにより、翻訳の正確度も低くなり得る。このため、抽出部３２０は、音声ファイルに対して周波数帯域分析プロセスを適用して、使用者（通話者）のそれぞれに関する音声原語情報を抽出してもよい。

音声は、性別、年齢、発音のトーン、発音のアクセント等により、個人毎に異なり、周波数帯域を分析すると、当該特性を把握することにより、音声別に個別的な識別が可能である。これにより、抽出部３２０は、音声ファイルの周波数帯域を分析し、分析の結果に基づき、ビデオ通話中に登場する通話者のそれぞれに対する音声を分離することにより、音声原語情報を抽出することができる。

抽出部３２０は、音声原語情報に対して音声認識プロセスを適用することにより、音声をテキストに変換したテキスト原語情報を生成することができる。抽出部320は、音声原語情報及びテキスト原語情報を通話者別にわけて保存してもよい。

周波数帯域分析プロセスにより、使用者のそれぞれに関する音声原語情報を抽出する方法、及び音声認識プロセスにより、音声原語情報からテキスト原語情報を生成する方法は、アルゴリズムまたはプログラム形態のデータで実現されて、放送装置3００内に既に保存されていてもよく、抽出部３２０は、既に保存されたデータを用いて原語情報を分離して生成してもよい。

一方、ビデオ通話中に特定の通話者は、手話を使ってもよい。この場合、音声ファイルから音声原語情報を抽出してから、音声原語情報からテキスト原語情報を生成するような上述の方法とは異なり、抽出部３２０は、映像ファイルから直ちにテキスト原語情報を抽出してもよい。以下、映像ファイルからテキスト原語情報を抽出する方法について説明する。

抽出部３２０は、映像ファイルに対して映像処理プロセスを適用して手話パターンを検出し、検出された手話パターンに基づき、テキスト原語情報を生成してもよい。

映像処理プロセスの適用可否は、自動または手動で設定されてもよい。例えば、通信部３１０を介して、使用者端末１００から手話翻訳要請命令を入力された場合、抽出部３２０が映像処理プロセスにより手話パターンを検出してもよい。また他の例として、抽出部３２０は、自動で映像ファイルに対して映像処理プロセスを適用して、映像ファイル上に手話パターンが存在するか否かを判断してもよいなど、制限はない。

映像処理プロセスにより手話パターンを検出する方法は、アルゴリズムまたはプログラム形態のデータで実現されて、放送装置３００内に既に保存されていてもよく、抽出部３２０は、既に保存されたデータを用いて、映像ファイル上に含まれた手話パターンを検出し、検出した手話パターンからテキスト原語情報を生成してもよい。
抽出部３２０は、原語情報を特定の人物情報にマッピングして保存してもよい。

例えば、抽出部３２０は、特定の音声を送信した使用者端末１００を識別してから、当該使用者端末１００に対して既に設定されたＩＤまたは使用者（通話者）が、既に設定したニックネーム等を原語情報にマッピングすることにより、複数の使用者が同時に音声を発話しても、どの使用者がどんな発言をしたかを、視聴者が正確に把握することができるようにする。

また他の例として、一つのビデオ通話関連動画ファイル内に複数の通話者が含まれた場合、抽出部３２０は、予め設定された方法により、またはビデオ通話関連動画ファイルから検出される通話者の特性により、適応的に人物情報を設定してもよい。一実施形態として、抽出部３２０は、周波数帯域分析プロセスにより、音声を発話した登場人物の性別、年齢等を把握し、把握の結果に基づき、最も適合すると判断される登場人物の名前を任意で設定してマッピングしてもよい。

制御部３４０は、通信部３１０を制御して、使用者端末１００及び視聴者端末２００に人物情報をマッピングした原語情報及び翻訳情報を送り出し、よって、使用者及び視聴者は、さらに容易に発言者が誰であるかを識別することができる。制御部３４０についての具体的な説明は、後述する。

図２を参照すると、放送装置３００には、翻訳部３３０が設けられてもよい。翻訳部３３０は、原語情報を使用者または視聴者の希望の言語で翻訳して、翻訳情報を生成することができる。使用者または視聴者から入力された言語で翻訳情報を生成するにあたって、翻訳部３３０は、翻訳結果をテキストで生成してもよく、音声で生成してもよい。実施形態による放送システム１は、原語情報及び翻訳情報のそれぞれを音声またはテキストで提供することにより、聴覚障害者と視覚障害者もビデオ通話サービスを利用できるだけでなく、視聴まで可能にするという長所がある。

以下、説明の便宜上、原語情報を使用者または視聴者の要請した言語で翻訳したものを翻訳情報とし、翻訳情報も原語情報のように音声またはテキストの形態で構成されてもよい。このとき、テキストで構成された翻訳情報についてはテキスト翻訳情報とし、音声で構成された翻訳情報については音声翻訳情報とする。

音声翻訳情報は、特定の音声でダビングされた音声情報であり、翻訳部３３０は、予め設定された音声または使用者の設定したトーンでダビングした音声翻訳情報を生成することができる。使用者毎に聴取しようとするトーンは異なり得る。例えば、特定の視聴者は、男性の声のトーンの音声翻訳情報を希望し、他の視聴者は、女性の声のトーンの音声翻訳情報を希望し得る。これにより、翻訳部３３０は、視聴者の視聴をさらに楽にするために、多様なトーンで音声翻訳情報を生成してもよい。あるいは、翻訳部３３０は、発話者の音声を分析した結果に基づき、発話者の音声に類似した音声のトーンで音声翻訳情報を生成するなど、制限はない。

翻訳方法及び翻訳時に用いられる音声トーンの設定方法は、アルゴリズムまたはプログラム形態のデータが放送装置３００内に既に保存されてもよく、翻訳部３３０は、既に保存されたデータを用いて翻訳を行ってもよい。
図２を参照すると、放送装置３００には、放送装置３００内の構成要素の全般的な動作を制御する制御部３４０が設けられてもよい。

制御部３４０は、各種演算処理が可能なＭＣＵ（ＭｉｃｒｏＣｏｎｔｒｏｌＵｎｉｔ）のようなプロセッサ、放送装置３００の動作を制御するための制御プログラム、あるいは制御データを記憶するかまたはプロセッサが出力する制御命令データや映像データを仮に記憶するメモリで実現されてもよい。

このとき、プロセッサ及びメモリは、放送装置３００に内蔵されたシステムオンチップに集積されてもよい。ただし、放送装置３００に内蔵されたシステムオンチップが一つのみ存在するものではなくてもよいので、一つのシステムオンチップに集積されるものに制限されない。

メモリは、ＳＲＡＭ、ＤＲＡＭ等の揮発性メモリ（一時保存メモリとも称する)、及びフラッシュメモリ、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌＹＭｅｍｏｒｙ）等の不揮発性メモリを含んでもよい。ただし、これに限定されるものではなく、当業界に知られている任意の別の形態で実現されてもよい。

一実施形態として、不揮発性メモリには、放送装置３００の動作を制御するための制御プログラム及び制御データが保存されてもよく、揮発性メモリには、不揮発性メモリから制御プログラム及び制御データを読み込んで仮に保存されるか、プロセッサが出力する制御命令データ等が仮に保存されてもよいなど、制限はない。

制御部３４０は、メモリに保存されたデータに基づき、制御信号を生成し、生成した制御信号により、放送装置３００内の構成要素の全般的な動作を制御することができる。

例えば、制御部３４０は、制御信号を介して通信部３１０を制御して、ビデオ通話を支援してもよい。また、制御部３４０は、制御信号を介して、抽出部３２０がビデオ通話に関するファイル、例えば、動画ファイルから映像ファイルと音声ファイルを生成し、映像ファイルと音声ファイルのうち少なくとも一つから原語情報を抽出するように制御してもよい。

制御部３４０は、通信部３１０を制御して、ビデオ通話関連動画ファイルに、原語情報及び翻訳情報のうち少なくとも一つをマッピングした通訳翻訳動画を、ビデオ通話中の他の使用者端末とチャットルームに接続中の視聴者端末２００、すなわち、チャットルームに接続中の端末に送信することにより、多様な国の通話者、視聴者間において意思疎通が円滑に行われるようにすることができる。
上述のように、通訳翻訳動画には、原語情報または翻訳情報のみがマッピングされていてもよく、原語情報及び翻訳情報が一緒にマッピングされていてもよい。

例えば、通訳翻訳動画内にテキスト原語情報及びテキスト翻訳情報のみがマッピングされている場合、通訳翻訳動画には、通話者が発話する度に、当該発話に関するテキスト原語情報とテキスト翻訳情報が字幕として含まれてもよい。また他の例として、通訳翻訳動画内に音声翻訳情報及びテキスト翻訳情報がマッピングされている場合、通訳翻訳動画には、通話者が発話する度に、特定国の言語で翻訳された音声翻訳情報がダビングされて含まれてもよく、テキスト翻訳情報が字幕として含まれてもよい。

一方、制御部３４０は、通信部３１０を介して使用者端末２００から受信した設定命令または予め設定された方法に基づき、ビデオ通話サービス及び翻訳サービスを提供する方法を変更することができる。

例えば、通信部３１０を介して使用者端末１００からビデオ通話者数設定命令または視聴者数設定命令を受信した場合、制御部３４０は、当該命令に応じて、チャットルームへの使用者端末１００及び視聴者端末２００の接続を制限することができる。

また他の例として、通信部３１０を介して使用者端末１００または視聴者端末２００から別途のテキストデータまたはイメージデータが受信されると、制御部３４０は、受信したテキストデータまたはイメージデータを原語／翻訳情報と一緒に送り出すことにより、使用者及び視聴者間に意見交換がさらに確実に行われるようにすることができる。

また他の例として、通信部３１０を介して使用者端末１００から発言権設定命令、例えば、発言制限命令または発言順序に関する命令が受信されると、制御部３４０は、当該命令に応じて、複数の使用者端末１００のうち、発言権のある使用者端末に関する通訳翻訳動画のみを送信してもよい。あるいは、制御部３４０は、当該命令に応じて、発言権に関する内容が含まれたポップアップメッセージを通訳翻訳動画と一緒に送信してもよいなど、実現方法に制限はない。

使用者端末１００及び視聴者端末２００には、後述するように、ビデオ通話サービス及び翻訳サービスを支援し、上述したサービスを支援するにあたって、使用者及び視聴者個々人の性向に合わせた多様な設定が可能なアプリケーションが予め保存されてもよく、使用者及び視聴者は、当該アプリケーションを用いて、多様な設定が可能である。以下、使用者端末１００について説明する。

図２を参照すると、使用者端末１００は、使用者に各種情報を視覚的に提供するディスプレイ１１０、使用者に各種情報を聴覚的に提供するスピーカー１２０、通信網を介して、外部機器と各種データをやりとりする端末通信部１３０、使用者端末１００内の構成要素の全般的な動作を制御してビデオ通話サービスを支援する端末制御部１４０を含んでもよい。

ここで、端末通信部１３０、端末制御部１４０は、それぞれ別途で実現されるか、または一つのシステムオンチップで統合して実現されてもよいなど、実現方法には制限がない。以下、使用者端末１００のそれぞれの構成要素について説明する。

使用者端末１００には、使用者に各種情報を視覚的に提供するディスプレイ１１０が設けられてもよい。一実施形態によれば、ディスプレイ１１０は、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）、ＬＥＤ（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）、ＰＤＰ（ＰｌａｓｍａＤｉｓｐｌａｙＰａｎｅｌ）、ＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）等で実現されてもよいが、これらに限らず、制限はない。一方、ディスプレイ１１０がタッチスクリーンパネル（ＴｏｕｃｈＳｃｒｅｅｎＰａｎｅｌ、ＴＳＰ）タイプで実現された場合は、使用者は、ディスプレイ１１０の特定領域をタッチすることにより、各種説明命令を入力することができる。

ディスプレイ１１０は、ビデオ通話に関する動画を表示するだけでなく、ディスプレイ１１０上に表示されたユーザーインターフェースを介して、各種制御命令を入力されてもよい。

以下で説明されるユーザーインターフェースは、使用者と使用者端末１００との間の各種情報、命令の交換動作がさらに便利に行われるように、ディスプレイ１１０上に表示される画面をグラフィックで実現したグラフィックユーザーインターフェースであってもよい。

例えば、グラフィックユーザーインターフェースは、ディスプレイ１１０を介して表示される画面上において、一部領域には、使用者から各種制御命令を容易に入力されるためのアイコン、ボタン等が表示され、また、他の一部領域には、少なくとも一つのウィジェットを介して各種情報が表示されるように実現されてもよいなど、制限はない。

例えば、ディスプレイ１１０上には、図３に示すように、ビデオ通話中の他の四人の使用者に関する動画が、一定の領域に分割して表示されるように構成されており、翻訳命令を入力可能なアイコンＩ１、ビデオ通話サービスの状態に関する情報を提供するエモティコンＩ２、接続中の視聴者数を知らせるエモティコンＩ３、各種設定命令を入力可能なアイコンＩ４が含まれるように構成されたグラフィックユーザーインターフェースが表示されてもよい。

端末制御部１４０は、制御信号を介して、ディスプレイ１１０上に、図３に示すようなグラフィックユーザーインターフェースが表示されるように制御する。ユーザーインターフェースを構成するウィジェット、アイコン、エモティコン等の表示方法、配置方法等は、アルゴリズムまたはプログラム形態のデータで実現され、使用者端末１００内のメモリまたは放送装置３００内のメモリに予め保存されてもよく、端末制御部１４０は、予め保存されたデータを用いて制御信号を生成し、生成した制御信号を介して、グラフィックユーザーインターフェースが表示されるように制御する。端末制御部１４０についての具体的な説明は、後述する。

一方、図２を参照すると、使用者端末１００には、各種サウンドを出力可能なスピーカー１２０が設けられてもよい。スピーカー１２０は、使用者端末１００の一面に設けられ、ビデオ通話に関する動画ファイルに含まれた各種サウンドを出力する。スピーカー１２０は、既に公知された多様な種類のサウンド出力装置により実現され、制限はない。
使用者端末１００には、通信網を介して、外部機器と各種データをやりとりする端末通信部１３０が設けられてもよい。

端末通信部１３０は、無線通信網または有線通信網を介して、外部機器と各種データをやりとりすることができる。ここで、無線通信網及び有線通信網についての具体的な説明は、上述しているので、省略する。

端末通信部１３０は、通信網を介して、放送装置３００と連結され、チャットルームを作成することができ、チャットルームに接続した他の使用者端末と、ビデオ通話に関する動画ファイルをリアルタイムでやりとりし、ビデオ通話サービスを提供するだけでなく、チャットルームに接続した視聴者端末３００にも、ビデオ通話に関する動画ファイルを送信することにより、放送サービスを提供することができる。
図２を参照すると、使用者端末１００には、使用者端末１００の全般的な動作を制御する端末制御部１４０が設けられてもよい。

端末制御部１４０は、各種演算処理が可能なＭＣＵのようなプロセッサ、使用者端末１００の動作を制御するための制御プログラム、あるいは制御データを記憶するかまたはプロセッサが出力する制御命令データや映像データを仮に記憶するメモリで実現されてもよい。

このとき、プロセッサ及びメモリは、使用者端末１００に内蔵されたシステムオンチップに集積されてもよい。ただし、使用者端末１００に内蔵されたシステムオンチップが一つのみ存在するものではなくてもよいので、一つのシステムオンチップに集積されるものに制限されない。

メモリは、ＳＲＡＭ、ＤＲＡＭ等の揮発性メモリ（一時保存メモリとも称する)、及びフラッシュメモリ、ＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ等の不揮発性メモリを含んでもよい。ただし、これに限定されるものではなく、当業界に知られている任意の別の形態で実現されてもよい。

一実施形態として、不揮発性メモリには、使用者端末１００の動作を制御するための制御プログラム及び制御データが保存されてもよく、揮発性メモリには、不揮発性メモリから制御プログラム及び制御データを読み込んで仮に保存されるか、プロセッサが出力する制御命令データ等が仮に保存されてもよいなど、制限はない。

端末制御部１４０は、メモリに保存されたデータに基づき、制御信号を生成し、生成した制御信号により、使用者端末１００内の構成要素の全般的な動作を制御することができる。

例えば、端末制御部１４０は、制御信号を介して、ディスプレイ１１０上に多様な情報が表示されるように制御してもよい。端末通信部１３０を介して、四人の使用者から、映像ファイルに原語情報及び翻訳情報のうち少なくとも一つがマッピングされた動画ファイルをそれぞれ受信すると、端末制御部１４０は、図３に示すように、ディスプレイ上に、四つの画面に分割して、使用者のそれぞれに関する動画ファイルが表示されるように制御してもよい。

また、端末制御部１４０は、ビデオ通話サービスに対する各種設定命令を入力されるユーザーインターフェースが、ディスプレイ１１０上に表示されるように制御し、当該ユーザーインターフェースから入力された設定命令に基づき、ユーザーインターフェースの構成を変更することができる。

例えば、使用者が、図３に示すアイコンＩ４をクリックした場合、端末制御部１４０は、ディスプレイ１１０上にビデオ通話関連動画が表示される領域が、図４に示すように縮小し、使用者から各種設定命令を入力されるアイコンが示されるように構成されたユーザーインターフェースが表示されるように制御することができる。具体的に、図４を参照すると、端末制御部１４０は、ビデオ通話者招待命令、視聴者招待命令、翻訳語選択命令、発言権設定命令、チャットウィンドウ活性化命令、字幕設定命令、通話者数設定命令、視聴者数設定命令、その他の設定命令等を入力されるアイコンが含まれたユーザーインターフェースが、ディスプレイ１１０上に表示されるように制御することができ、入力可能な設定命令が上述した例に限定されるものではない。

一実施形態として、使用者がビデオ通話者招待アイコンをクリックして他の使用者を招待する場合、端末制御部１４０は、招待した使用者数に合わせて、ビデオ通話関連動画が表示される領域をさらに分割してもよい。

他の一実施形態として、使用者が発言権設定アイコンをクリックする場合、端末制御部１４０は、多様な方法により、発言権を持った使用者に間する動画が強調されるように表示してもよい。

例えば、端末制御部１４０は、図５に示すように、発言権を持った使用者に関する通訳翻訳動画が、他の使用者に関する動画よりも大きく設定されるように実現されたユーザーインターフェースが、ディスプレイ１１０上に表示されるように制御してもよい。また他の例として、端末制御部１４０は、図６に示すように、発言権を持った使用者に関する通訳翻訳動画のみがディスプレイ１１０上に表示されるように制御してもよい。

以外にも、端末制御部１４０は、多様な方法により、発言権を持つ使用者に関する動画と発言権を持たない使用者に関する動画が異なって表示されるように制御してもよいなど、制限はない。

上述したユーザーインターフェースを構成する方法の場合、プログラムまたはアルゴリズム形態のデータで実現されて、使用者端末１００内に予め保存されるか、または放送装置３００内に予め保存されてもよい。放送装置３００内に予め保存された場合、端末制御部１４０は、端末通信部１１０を介して、放送装置３００から前記データを受信した後、これに基づき、ディスプレイ１１０上にユーザーインターフェースが表示されるように制御することができる。

視聴者端末２００の場合、使用者端末１００と構成が同一であるので、これについての具体的な説明を省略する。一方、視聴者端末２００と使用者端末１００のディスプレイ上に表示されるユーザーインターフェースは同じであるかまたは異なってもよい。例えば、視聴者端末２００の視聴者は、ビデオ通話に参与することができないので、ビデオ通話者招待命令を入力可能なアイコンは、ユーザーインターフェース上から除外されてもよい。

以外にも、視聴者端末２００上で実現されるユーザーインターフェースと使用者端末１００上で実現されるユーザーインターフェースは、使用者または視聴者の便宜を考慮して異なって構成されてもよく、制限はない。以下、放送装置の動作について、簡単に説明する。
図７は、一実施形態による放送装置の動作フローチャートを概略的に示す図である。

放送装置は、使用者端末と視聴者端末との間を連結して、ビデオ通話サービスを提供することができる。よって、放送装置は、ビデオ通話サービスの提供中、ビデオ通話中の使用者端末からビデオ通話データを収集することができる。ビデオ通話データは、使用者端末に内蔵されたカメラ及びマイクのうち少なくとも一つを用いて生成されたデータであって、上述したカメラ及びマイクのうち少なくとも一つを用いて使用者の意思疎通が保存されたデータを意味する。

放送装置は、ビデオ通話関連動画から映像ファイルと音声ファイルをそれぞれ分離して生成し７００、生成した映像ファイル及び音声ファイルのうち少なくとも一つを用いて、使用者のそれぞれに関する原語情報を抽出することができる７１０。

ここで、原語情報とは、ビデオ通話関連動画内に保存された意思疎通手段を音声及びテキストのうち少なくとも一つの形態で示した情報であって、特定国の言語で翻訳する前の情報に相当する。

放送装置は、ビデオ通話関連動画内に登場する通話者が使用する意思疎通手段により、映像ファイル及び音声ファイルの全部を用いるか、または一つのみを用いて原語情報を抽出することができる。

例えば、ビデオ通話関連動画内に登場する通話者のいずれか一人が音声を用いてビデオ通話を行うとともに、他の通話者は、手話を用いてビデオ通話を行う場合、放送装置は、映像ファイルから手話パターンを、音声ファイルから音声を識別して原語情報を抽出することができる。

また他の例として、通話者が音声のみを用いてビデオ通話中の場合、放送装置は、音声ファイルのみを用いて原語情報を抽出し、また他の例として、通話者が手話のみを用いて対話中の場合、放送装置は、映像ファイルのみを用いて原語情報を抽出することができる。

放送装置は、原語情報から、通話者または視聴者の要請により、個別的に翻訳情報を生成し７２０、チャットルームに接続中の端末、使用者端末及び視聴者端末の全部に、原語情報及び翻訳情報のうち少なくとも一つがマッピングされた通訳翻訳動画を送信することができる。

放送装置は、自体的に原語情報を翻訳して翻訳情報を生成してもよく、演算過負荷を防止するために、翻訳プロセスを処理する外部サーバに原語情報を送信し、翻訳情報を受信して提供してもよいなど、実現形態には制限がない。

放送装置は、原語情報及び翻訳情報のうち少なくとも一つを送信することができる７３０。このとき、放送装置は、ビデオ通話関連動画に原語情報及び翻訳情報のうち少なくとも一つがマッピングされた通訳翻訳動画を送信することにより、通話者間の意思疎通が円滑に行われるだけでなく、視聴者も、通話者間の意見を正確に把握できるようにする。

また、上述のように、実施形態によるユーザーインターフェースは、テキスト送信機能を支援し、通話者または視聴者が自身の意見をテキストで送信することにより、意思疎通がさらに円滑に行われるようにし、以外にも、発言権設定機能を支援して、円滑な意見交換が行われるのを助けることができる。

明細書に記載された実施形態と図面に示された構成は、開示された発明の好適な一例に過ぎず、本出願の出願時点において、本明細書の実施形態と図面を代替可能な様々な変形例があり得る。

また、本明細書で用いられた用語は、実施形態を説明するために用いられたものであって、開示された発明を制限及び／または限定しようとする意図ではない。単数の表現は、文脈からみて、明らかに異なる意味を有さない限り、複数の表現を含む。本明細書において、「含む」または「備える」のような用語は、明細書上に記載された特徴、数字、ステップ、動作、構成要素、部品、またはこれらの組合せを指すためのものであり、一つまたはそれ以上の他の特徴、数字、ステップ、動作、構成要素、部品、またはこれらの組合せの存在または付加可能性を予め排除するものではない。

また、本明細書で用いられた「第１」、「第２」等のように序数を含む用語は、多様な構成要素を説明するために用いられるが、前記構成要素は、前記用語により限定されず、前記用語は、一つの構成要素を他の構成要素から区別する目的でのみ用いられる。例えば、本発明の権利範囲を逸脱しない範囲内で、第１構成要素は第２構成要素と命名されてもよく、同様に、第２構成要素も第１構成要素と命名されてもよい。「及び／または」との用語は、複数の関連して記載された項目の組合せまたは複数の関連して記載された項目のうちのいずれかの項目を含む。

また、本明細書の全体で用いられる「～部（ｕｎｉｔ）」、「～器」、「～ブロック（ｂｌｏｃｋ）」、「～部材（ｍｅｍｂｅｒ）」、「～モジュール（ｍｏｄｕｌｅ）」等の用語は、少なくともいずれか一つの機能や動作を処理する単位を意味してもよい。例えば、ソフトウェア、ＦＰＧＡまたはＡＳＩＣのようなハードウェアを意味してもよい。しかし、「～部」、「～器」、「～ブロック」、「～部材」、「～モジュール」等がソフトウェアまたはハードウェアに限定される意味ではなく、「～部」、「～器」、「～ブロック」、「～部材」、「～モジュール」等は、接近できる保存媒体に保存され、一つまたはそれ以上のプロセッサにより行われる構成であってもよい。

１放送システム
１００使用者端末
２００視聴者端末
３００放送装置

Claims

通信網を介してチャットルームに接続した使用者端末間のビデオ通話を支援する通信部と、
前記通信部から受信されるビデオ通話関連動画ファイルを用いて映像ファイルと音声ファイルを生成し、前記映像ファイルと音声ファイルのうち少なくとも一つを用いて、通話者のそれぞれに関する原語情報を抽出する抽出部と、
前記原語情報を、選択された国の言語により翻訳した翻訳情報を生成する翻訳部と、
前記ビデオ通話関連動画ファイルに、前記原語情報及び翻訳情報のうち少なくとも一つがマッピングされた通訳翻訳動画が、前記チャットルームに接続した使用者端末及び視聴者端末に送信されるように制御する制御部と、を含む
ことを特徴とする放送装置。
前記原語情報は、音声原語情報及びテキスト原語情報のうち少なくとも一つを含み、
前記翻訳情報は、音声翻訳情報及びテキスト翻訳情報のうち少なくとも一つを含む
請求項１に記載の放送装置。
前記抽出部は、
前記音声ファイルに対して周波数帯域分析プロセスを適用して、通話者のそれぞれに関する音声原語情報を抽出し、
前記抽出した音声原語情報に対して音声認識プロセスを適用してテキスト原語情報を生成する
請求項１に記載の放送装置。
前記抽出部は、
前記映像ファイルに対して映像処理プロセスを適用して手話パターンを検出し、前記検出した手話パターンに基づき、テキスト原語情報を抽出する
請求項１に記載の放送装置。
通信網を介してビデオ通話サービスを支援する端末通信部と、
ビデオ通話関連動画ファイルに原語情報及び翻訳情報のうち少なくとも一つがマッピングされた通訳翻訳動画を提供し、少なくとも一つのビデオ通話関連設定命令と、少なくとも一つの翻訳関連設定命令との入力が可能なアイコンを提供するように構成されたユーザーインターフェースがディスプレイ上に表示されるように制御する端末制御部と、を含む
ことを特徴とする使用者端末。
前記少なくとも一つのビデオ通話関連設定命令は、
ビデオ通話者の発言権を設定可能な発言権設定命令、ビデオ通話者数設定命令、視聴者数設定命令、及びテキスト送信命令のうち少なくとも一つを含む
請求項５に記載の使用者端末。
前記端末制御部は、
前記発言権設定命令の入力可否により、前記通訳翻訳動画の提供方法が変更されるか、または発言権を持った通話者に関する情報が含まれたポップアップメッセージを提供するように構成されたユーザーインターフェースがディスプレイ上に表示されるように制御する
請求項６に記載の使用者端末。
ビデオ通話関連動画ファイルを受信するステップと、
前記ビデオ通話関連動画ファイルから生成した映像ファイルと音声ファイルのうち少なくとも一つを用いて、通話者のそれぞれに関する原語情報を抽出するステップと、
前記原語情報を、選択された国の言語により翻訳した翻訳情報を生成するステップと、
前記ビデオ通話関連動画ファイルに、前記原語情報及び翻訳情報のうち少なくとも一つがマッピングされた通訳翻訳動画を、チャットウィンドウに接続中の端末に送信されるように制御するステップと、を含む
ことを特徴とする放送装置の制御方法。
前記抽出するステップは、
前記音声ファイルに対して周波数帯域分析プロセスを適用して、通話者のそれぞれに関する音声原語情報を抽出するステップと、
前記抽出した音声原語情報に対して音声認識プロセスを適用してテキスト原語情報を生成するステップと、を含む
請求項８に記載の放送装置の制御方法。
前記抽出するステップは、
前記映像ファイルに対して映像処理プロセスを適用して手話パターンを検出し、前記検出した手話パターンに基づき、テキスト原語情報を抽出するステップを含む
請求項８に記載の放送装置の制御方法。