JP2023506468A - 使用者端末、放送装置、それを含む放送システム、及びその制御方法 - Google Patents

使用者端末、放送装置、それを含む放送システム、及びその制御方法 Download PDF

Info

Publication number
JP2023506468A
JP2023506468A JP2022535547A JP2022535547A JP2023506468A JP 2023506468 A JP2023506468 A JP 2023506468A JP 2022535547 A JP2022535547 A JP 2022535547A JP 2022535547 A JP2022535547 A JP 2022535547A JP 2023506468 A JP2023506468 A JP 2023506468A
Authority
JP
Japan
Prior art keywords
information
video
translation
video call
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022535547A
Other languages
English (en)
Other versions
JP7467636B2 (ja
Inventor
チョル キム、ギョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of JP2023506468A publication Critical patent/JP2023506468A/ja
Application granted granted Critical
Publication of JP7467636B2 publication Critical patent/JP7467636B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/009Teaching or communicating with deaf persons
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1827Network arrangements for conference optimisation or adaptation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1831Tracking arrangements for later retrieval, e.g. recording contents, participants activities or behavior, network status
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/04Real-time or near real-time messaging, e.g. instant messaging [IM]
    • H04L51/046Interoperability with other network applications or services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/07User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
    • H04L51/10Multimedia information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Psychiatry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Social Psychology (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Business, Economics & Management (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

放送装置、使用者端末、それを含む放送システム、及びその制御方法を開示する。放送装置は、通信網を介してチャットルームに接続した使用者端末間のビデオ通話を支援する通信部と、前記通信部から受信されるビデオ通話関連動画ファイルを用いて映像ファイルと音声ファイルを生成し、前記映像ファイルと音声ファイルのうち少なくとも一つを用いて、通話者のそれぞれに関する原語情報を抽出する抽出部と、前記原語情報を、選択された国の言語により翻訳した翻訳情報を生成する翻訳部と、前記ビデオ通話関連動画ファイルに、前記原語情報及び翻訳情報のうち少なくとも一つがマッピングされた通訳翻訳動画が、前記チャットルームに接続した使用者端末及び視聴者端末に送信されるように制御する制御部と、を含んでもよい。【選択図】 図1

Description

ビデオ通話コンテンツをリアルタイムで放送するにあたって、翻訳サービスを提供する使用者端末、放送装置、それを含む放送システム、及びその制御方法に関する。
IT技術の発達につれて、使用者間にビデオ通話がしばしば行われており、特に、全世界の多様な国々の人がビジネスの目的のみならず、コンテンツの共有、趣味生活の共有等を目的としてビデオ通話サービスを用いている。
ただし、全てのビデオ通話の度に、通訳者と一緒にいながらビデオ通話をすることは、費用的や時間的で困難であり、そのため、ビデオ通話に対するリアルタイムの原文/翻訳サービスを提供する方法についての研究が進められている。
通話者だけでなく、視聴者に原文/翻訳サービスをリアルタイムで提供することにより、意思交換、意思把握をさらに円滑に行い、音声及びテキストのうち少なくとも一つによって原文/翻訳サービスを提供することにより、視覚障害者のみならず、聴覚障害者も、自由に意思交換、意思把握をさらに円滑に行うようにすることを目的とする。
一局面による放送装置は、通信網を介してチャットルームに接続した使用者端末間のビデオ通話を支援する通信部と、前記通信部から受信されるビデオ通話関連動画ファイルを用いて映像ファイルと音声ファイルを生成し、前記映像ファイルと音声ファイルのうち少なくとも一つを用いて、通話者のそれぞれに関する原語情報を抽出する抽出部と、前記原語情報を、選択された国の言語により翻訳した翻訳情報を生成する翻訳部と、前記ビデオ通話関連動画ファイルに、前記原語情報及び翻訳情報のうち少なくとも一つがマッピングされた通訳翻訳動画が、前記チャットルームに接続した使用者端末及び視聴者端末に送信されるように制御する制御部と、を含んでもよい。
また、前記原語情報は、音声原語情報及びテキスト原語情報のうち少なくとも一つを含み、前記翻訳情報は、音声翻訳情報及びテキスト翻訳情報のうち少なくとも一つを含んでもよい。
また、前記抽出部は、前記音声ファイルに対して周波数帯域分析プロセスを適用して、通話者のそれぞれに関する音声原語情報を抽出し、前記抽出した音声原語情報に対して音声認識プロセスを適用してテキスト原語情報を生成してもよい。
また、前記抽出部は、前記映像ファイルに対して映像処理プロセスを適用して手話パターンを検出し、前記検出した手話パターンに基づき、テキスト原語情報を抽出してもよい。
一局面による使用者端末は、通信網を介してビデオ通話サービスを支援する端末通信部と、ビデオ通話関連動画ファイルに原語情報及び翻訳情報のうち少なくとも一つがマッピングされた通訳翻訳動画を提供し、少なくとも一つのビデオ通話関連設定命令と、少なくとも一つの翻訳関連設定命令との入力が可能なアイコンを提供するように構成されたユーザーインターフェースがディスプレイ上に表示されるように制御する端末制御部と、を含んでもよい。
また、前記少なくとも一つのビデオ通話関連設定命令は、ビデオ通話者の発言権を設定可能な発言権設定命令、ビデオ通話者数設定命令、視聴者数設定命令、及びテキスト送信命令のうち少なくとも一つを含んでもよい。
また、前記端末制御部は、前記発言権設定命令の入力可否により、前記通訳翻訳動画の提供方法が変更されるか、または発言権を持った通話者に関する情報が含まれたポップアップメッセージを提供するように構成されたユーザーインターフェースがディスプレイ上に表示されるように制御してもよい。
一局面による放送装置の制御方法は、ビデオ通話関連動画ファイルを受信するステップと、前記ビデオ通話関連動画ファイルから生成した映像ファイルと音声ファイルのうち少なくとも一つを用いて、通話者のそれぞれに関する原語情報を抽出するステップと、前記原語情報を、選択された国の言語により翻訳した翻訳情報を生成するステップと、前記ビデオ通話関連動画ファイルに、前記原語情報及び翻訳情報のうち少なくとも一つがマッピングされた通訳翻訳動画を、チャットウィンドウに接続中の端末に送信されるように制御するステップと、を含んでもよい。
また、前記抽出するステップは、前記音声ファイルに対して周波数帯域分析プロセスを適用して、通話者のそれぞれに関する音声原語情報を抽出するステップと、前記抽出した音声原語情報に対して音声認識プロセスを適用してテキスト原語情報を生成するステップと、を含んでもよい。
また、前記抽出するステップは、前記映像ファイルに対して映像処理プロセスを適用して手話パターンを検出し、前記検出した手話パターンに基づき、テキスト原語情報を抽出するステップを含んでもよい。
一実施形態による使用者端末、放送装置、それを含む放送システム、及びその制御方法は、通話者だけでなく、視聴者に原文/翻訳サービスをリアルタイムで提供することにより、意思交換、意思把握をさらに円滑に行うようにする。
他の一実施形態による使用者端末、放送装置、それを含む放送システム、及びその制御方法は、音声及びテキストのうち少なくとも一つによって原文/翻訳サービスを提供することにより、視覚障害者のみならず、聴覚障害者も、自由に意思交換、意思把握をさらに円滑に行うようにする。
一実施形態によるビデオ通話放送システムの構成を概略的に示す図である。 一実施形態によるビデオ通話放送システムの制御ブロック図を概略的に示す図である。 一実施形態によるビデオ通話中、ディスプレイ上に表示されるユーザーインターフェース画面を示す図である。 一実施形態による各種設定命令を入力されるように構成されたユーザーインターフェース画面を示す図である。 他の実施形態による発言権により構成が変更されるユーザーインターフェース画面を示す図である。 また他の実施形態による発言権により構成が変更されるユーザーインターフェース画面を示す図である。 一実施形態による放送装置の動作フローチャートを概略的に示す図である。
以下で説明される使用者端末は、各種演算処理が可能なプロセッサが内蔵されており、通信モジュールが内蔵されており、通信網を介してビデオ通話サービスが可能な全ての機器を含む。
例えば、使用者端末は、ラップトップ(laptop)、デスクトップ(desk top)、タブレットパソコン(tablet PC)だけでなく、スマートフォン、PDA(Personal Digital Assistant)のようなモバイル端末、及び使用者の身体に脱着可能な時計やめがね型のウェアラブル端末だけでなく、スマートテレビ、IPTV(Internet Protocol Television)等を含み、制限はない。以下、説明の便宜上、使用者端末を用いてビデオ通話サービスを利用する者を使用者または通話者と混用して指称する。
以下で説明される視聴者は、ビデオ通話に直接的に参与するよりは、ビデオ通話を視聴しようとする者であって、以下で説明される視聴者端末は、上述した使用者端末として利用可能な機器の全てを含む。一方、以下では、使用者端末及び視聴者端末を区別して説明する必要がない場合、端末と呼ぶことにする。
また、以下で説明される放送装置は、通信モジュールが内蔵されており、通信網を介してビデオ通話サービスを提供することができ、各種演算処理が可能なプロセッサが内蔵されている全ての機器を含む。
例えば、放送装置は、上述したラップトップ(laptop)、デスクトップ(desk top)、タブレットパソコン(tablet PC)、スマートフォン、PDA(Personal Digital Assistant)のようなモバイル端末、及びウェアラブル端末だけでなく、スマートテレビ、IPTV(Internet Protocol Television)により実現可能である。以外にも、放送装置は、通信モジュール及びプロセッサが内蔵されたサーバーによっても実現可能であり、制限はない。以下、放送装置について、さらに具体的に説明する。
以下、説明の便宜のために、図1に示すように、スマートフォン形態の使用者端末及び視聴者端末を例とし、サーバー形態の放送装置を例として説明しているが、上述のように、使用者端末、視聴者端末、及び放送装置の形態がこれに限定されるものではなく、制限はない。
図1は、一実施形態によるビデオ通話放送システムの構成を概略的に示す図であり、図2は、一実施形態によるビデオ通話放送システムの制御ブロック図を概略的に示す図である。また、図3は、一実施形態によるビデオ通話中、ディスプレイ上に表示されるユーザーインターフェース画面を示す図であり、図4は、一実施形態による各種設定命令を入力されるように構成されたユーザーインターフェース画面を示す図である。また、図5及び図6は、相違した実施形態による発言権により構成が変更されるユーザーインターフェース画面を示す図である。以下、説明の重複を防ぐために一緒に説明する。
図1及び図2を参照すると、放送システム1は、使用者端末100-1、…、100-n:100(n≧1)、視聴者端末200-1、…、200-n:200(m≧1)、使用者端末100と視聴者端末200との間の連結を支援し、ビデオ通話関連動画ファイル、及びビデオ通話関連動画ファイルから抽出した原語情報及び翻訳情報を一緒に送り出すことにより、翻訳サービスを提供する放送装置300を含む。以下、放送装置300について、さらに具体的に説明する。
図2を参照すると、放送装置300は、通信網を介して、外部端末とデータをやりとりするとともに、外部端末間のビデオ通話サービスを支援する通信部310と、通信部310から受信されるビデオ通話関連動画ファイルを用いて、映像ファイル及び音声ファイルを生成した後、それに基づき、原語情報を抽出する抽出部320、原語情報を翻訳して翻訳情報を生成する翻訳部330、及び放送装置300内の構成要素の全般的な動作を制御してビデオ通話に対する放送サービスを提供するとともに、翻訳サービスを提供する制御部340を含んでもよい。
ここで、通信部310、抽出部320、翻訳部330、及び制御部340は、それぞれ別途に実現されるか、あるいは、少なくとも一つは、一つのシステムオンチップ(System On a Chip、SOC)で統合して実現されてもよい。ただし、放送装置300内にシステムオンチップが一つのみ存在するものではなくてもよいので、一つのシステムオンチップに集積されるものに限定されず、実現方法には制限がない。以下、放送装置300の構成要素について具体的に説明する。
通信部310は、無線通信網または有線通信網を介して外部機器と各種データをやりとりすることができる。ここで、無線通信網は、データが含まれた信号を無線でやりとりする通信網を意味する。
例えば、通信部310は、3G(3Generation)、4G(4Generation)、5G(5Generation)等のような通信方式により、基地局を経て、端末間に無線信号を送受信することができ、以外にも、無線ラン(Wireless LAN)、ワイファイ(Wi-Fi)、ブルートゥース(登録商標)(Bluetooth)、ジグビー(Zigbee)、WFD(Wi-Fi Direct)、UWB(Ultra wideband)、赤外線通信(IrDA;Infrared Data Association)、BLE(Bluetooth Low Energy)、NFC(Near Field Communication)等のような通信方式を通じて、所定の距離以内の端末とデータが含まれた無線信号を送受信することができる。
また、有線通信網は、データが含まれた信号を有線でやりとりする通信網を意味する。例えば、有線通信網は、PCI(Peripheral Component Interconnect)、PCI-express、USB(Universe Serial Bus)等を含むが、これに限定されるものではない。以下で説明される通信網は、無線通信網と有線通信網の全てを含む。
通信部310は、ビデオ通話サービスを提供するために、通信網を介して、使用者端末100間に連結されるようにしてもよく、ビデオ通話を視聴可能に視聴者端末200を連結してもよい。
例えば、ビデオ通話をリアルタイムでストリーミングするために、使用者が集まってチャットルームを作成した場合、当該チャットルームには視聴者が接続することができる。この場合、通信部310は、通信網を介して、使用者間にビデオ通話が円滑に行われるようにするだけでなく、ビデオ通話コンテンツを視聴者に送信することにより、リアルタイムのビデオ通話放送サービスが行われるようにする。
具体的な例として、制御部340は、通信部310を介して、使用者端末200から受信したチャットルームの生成要請によりチャットルームを生成してから、チャットルームに接続した視聴者端末300でもビデオ通話を視聴可能なように、通信部310を制御することもできる。制御部340についての具体的な説明は、後述する。
図2を参照すると、放送装置300には、抽出部320が設けられてもよい。抽出部320は、通信部310から受信されるビデオ通話関連動画ファイルを用いて、映像ファイルと音声ファイルを生成することができる。ビデオ通話関連動画ファイルは、ビデオ通話中に使用者端末200から受信されるデータであり、視覚的な情報を提供する映像情報と聴覚的な情報を提供する音声情報が含まれてもよい。例えば、ビデオ通話関連動画ファイルは、使用者端末100に内蔵されたカメラ及びマイクのうち少なくとも一つを用いて、通話者の意思疎通を保存したファイルを意味してもよい。
ビデオ通話中に出る全ての言語に対して翻訳サービスを提供するためには、まず、原語の認識が求められる。これにより、抽出部320は、ビデオ通話関連動画ファイルを映像ファイルと音声ファイルに分離して生成してから、映像ファイル及び音声ファイルのうち少なくとも一つから原語情報を抽出する。
以下で説明される原語情報は、ビデオ通話関連動画内に含まれた音声、手話等のような意思疎通手段から抽出された情報であって、原語情報は、音声またはテキストとして抽出されてもよい。
以下、説明の便宜上、音声で構成された原語情報を音声原語情報とし、テキストで構成された原語情報をテキスト原語情報とする。例えば、ビデオ通話関連動画に写っている人物(通話者)が英語で「Hello」という音声を発話した場合、音声原語情報は、通話者が発話した音声の「Hello」であり、テキスト原語情報は、「Hello」のテキストそのものを意味する。以下、まず、音声ファイルから音声原語情報を抽出する方法について説明する。
音声ファイル内には、多様な使用者の音声が入っていることがあり、このような多様な音声が同時に出力されると、識別し難く、これにより、翻訳の正確度も低くなり得る。このため、抽出部320は、音声ファイルに対して周波数帯域分析プロセスを適用して、使用者(通話者)のそれぞれに関する音声原語情報を抽出してもよい。
音声は、性別、年齢、発音のトーン、発音のアクセント等により、個人毎に異なり、周波数帯域を分析すると、当該特性を把握することにより、音声別に個別的な識別が可能である。これにより、抽出部320は、音声ファイルの周波数帯域を分析し、分析の結果に基づき、ビデオ通話中に登場する通話者のそれぞれに対する音声を分離することにより、音声原語情報を抽出することができる。
抽出部320は、音声原語情報に対して音声認識プロセスを適用することにより、音声をテキストに変換したテキスト原語情報を生成することができる。抽出部320は、音声原語情報及びテキスト原語情報を通話者別にわけて保存してもよい。
周波数帯域分析プロセスにより、使用者のそれぞれに関する音声原語情報を抽出する方法、及び音声認識プロセスにより、音声原語情報からテキスト原語情報を生成する方法は、アルゴリズムまたはプログラム形態のデータで実現されて、放送装置300内に既に保存されていてもよく、抽出部320は、既に保存されたデータを用いて原語情報を分離して生成してもよい。
一方、ビデオ通話中に特定の通話者は、手話を使ってもよい。この場合、音声ファイルから音声原語情報を抽出してから、音声原語情報からテキスト原語情報を生成するような上述の方法とは異なり、抽出部320は、映像ファイルから直ちにテキスト原語情報を抽出してもよい。以下、映像ファイルからテキスト原語情報を抽出する方法について説明する。
抽出部320は、映像ファイルに対して映像処理プロセスを適用して手話パターンを検出し、検出された手話パターンに基づき、テキスト原語情報を生成してもよい。
映像処理プロセスの適用可否は、自動または手動で設定されてもよい。例えば、通信部310を介して、使用者端末100から手話翻訳要請命令を入力された場合、抽出部320が映像処理プロセスにより手話パターンを検出してもよい。また他の例として、抽出部320は、自動で映像ファイルに対して映像処理プロセスを適用して、映像ファイル上に手話パターンが存在するか否かを判断してもよいなど、制限はない。
映像処理プロセスにより手話パターンを検出する方法は、アルゴリズムまたはプログラム形態のデータで実現されて、放送装置300内に既に保存されていてもよく、抽出部320は、既に保存されたデータを用いて、映像ファイル上に含まれた手話パターンを検出し、検出した手話パターンからテキスト原語情報を生成してもよい。
抽出部320は、原語情報を特定の人物情報にマッピングして保存してもよい。
例えば、抽出部320は、特定の音声を送信した使用者端末100を識別してから、当該使用者端末100に対して既に設定されたIDまたは使用者(通話者)が、既に設定したニックネーム等を原語情報にマッピングすることにより、複数の使用者が同時に音声を発話しても、どの使用者がどんな発言をしたかを、視聴者が正確に把握することができるようにする。
また他の例として、一つのビデオ通話関連動画ファイル内に複数の通話者が含まれた場合、抽出部320は、予め設定された方法により、またはビデオ通話関連動画ファイルから検出される通話者の特性により、適応的に人物情報を設定してもよい。一実施形態として、抽出部320は、周波数帯域分析プロセスにより、音声を発話した登場人物の性別、年齢等を把握し、把握の結果に基づき、最も適合すると判断される登場人物の名前を任意で設定してマッピングしてもよい。
制御部340は、通信部310を制御して、使用者端末100及び視聴者端末200に人物情報をマッピングした原語情報及び翻訳情報を送り出し、よって、使用者及び視聴者は、さらに容易に発言者が誰であるかを識別することができる。制御部340についての具体的な説明は、後述する。
図2を参照すると、放送装置300には、翻訳部330が設けられてもよい。翻訳部330は、原語情報を使用者または視聴者の希望の言語で翻訳して、翻訳情報を生成することができる。使用者または視聴者から入力された言語で翻訳情報を生成するにあたって、翻訳部330は、翻訳結果をテキストで生成してもよく、音声で生成してもよい。実施形態による放送システム1は、原語情報及び翻訳情報のそれぞれを音声またはテキストで提供することにより、聴覚障害者と視覚障害者もビデオ通話サービスを利用できるだけでなく、視聴まで可能にするという長所がある。
以下、説明の便宜上、原語情報を使用者または視聴者の要請した言語で翻訳したものを翻訳情報とし、翻訳情報も原語情報のように音声またはテキストの形態で構成されてもよい。このとき、テキストで構成された翻訳情報についてはテキスト翻訳情報とし、音声で構成された翻訳情報については音声翻訳情報とする。
音声翻訳情報は、特定の音声でダビングされた音声情報であり、翻訳部330は、予め設定された音声または使用者の設定したトーンでダビングした音声翻訳情報を生成することができる。使用者毎に聴取しようとするトーンは異なり得る。例えば、特定の視聴者は、男性の声のトーンの音声翻訳情報を希望し、他の視聴者は、女性の声のトーンの音声翻訳情報を希望し得る。これにより、翻訳部330は、視聴者の視聴をさらに楽にするために、多様なトーンで音声翻訳情報を生成してもよい。あるいは、翻訳部330は、発話者の音声を分析した結果に基づき、発話者の音声に類似した音声のトーンで音声翻訳情報を生成するなど、制限はない。
翻訳方法及び翻訳時に用いられる音声トーンの設定方法は、アルゴリズムまたはプログラム形態のデータが放送装置300内に既に保存されてもよく、翻訳部330は、既に保存されたデータを用いて翻訳を行ってもよい。
図2を参照すると、放送装置300には、放送装置300内の構成要素の全般的な動作を制御する制御部340が設けられてもよい。
制御部340は、各種演算処理が可能なMCU(Micro Control Unit)のようなプロセッサ、放送装置300の動作を制御するための制御プログラム、あるいは制御データを記憶するかまたはプロセッサが出力する制御命令データや映像データを仮に記憶するメモリで実現されてもよい。
このとき、プロセッサ及びメモリは、放送装置300に内蔵されたシステムオンチップに集積されてもよい。ただし、放送装置300に内蔵されたシステムオンチップが一つのみ存在するものではなくてもよいので、一つのシステムオンチップに集積されるものに制限されない。
メモリは、SRAM、DRAM等の揮発性メモリ(一時保存メモリとも称する)、及びフラッシュメモリ、ROM(Read Only Memory)、 EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read OnlY Memory)等の不揮発性メモリを含んでもよい。ただし、これに限定されるものではなく、当業界に知られている任意の別の形態で実現されてもよい。
一実施形態として、不揮発性メモリには、放送装置300の動作を制御するための制御プログラム及び制御データが保存されてもよく、揮発性メモリには、不揮発性メモリから制御プログラム及び制御データを読み込んで仮に保存されるか、プロセッサが出力する制御命令データ等が仮に保存されてもよいなど、制限はない。
制御部340は、メモリに保存されたデータに基づき、制御信号を生成し、生成した制御信号により、放送装置300内の構成要素の全般的な動作を制御することができる。
例えば、制御部340は、制御信号を介して通信部310を制御して、ビデオ通話を支援してもよい。また、制御部340は、制御信号を介して、抽出部320がビデオ通話に関するファイル、例えば、動画ファイルから映像ファイルと音声ファイルを生成し、映像ファイルと音声ファイルのうち少なくとも一つから原語情報を抽出するように制御してもよい。
制御部340は、通信部310を制御して、ビデオ通話関連動画ファイルに、原語情報及び翻訳情報のうち少なくとも一つをマッピングした通訳翻訳動画を、ビデオ通話中の他の使用者端末とチャットルームに接続中の視聴者端末200、すなわち、チャットルームに接続中の端末に送信することにより、多様な国の通話者、視聴者間において意思疎通が円滑に行われるようにすることができる。
上述のように、通訳翻訳動画には、原語情報または翻訳情報のみがマッピングされていてもよく、原語情報及び翻訳情報が一緒にマッピングされていてもよい。
例えば、通訳翻訳動画内にテキスト原語情報及びテキスト翻訳情報のみがマッピングされている場合、通訳翻訳動画には、通話者が発話する度に、当該発話に関するテキスト原語情報とテキスト翻訳情報が字幕として含まれてもよい。また他の例として、通訳翻訳動画内に音声翻訳情報及びテキスト翻訳情報がマッピングされている場合、通訳翻訳動画には、通話者が発話する度に、特定国の言語で翻訳された音声翻訳情報がダビングされて含まれてもよく、テキスト翻訳情報が字幕として含まれてもよい。
一方、制御部340は、通信部310を介して使用者端末200から受信した設定命令または予め設定された方法に基づき、ビデオ通話サービス及び翻訳サービスを提供する方法を変更することができる。
例えば、通信部310を介して使用者端末100からビデオ通話者数設定命令または視聴者数設定命令を受信した場合、制御部340は、当該命令に応じて、チャットルームへの使用者端末100及び視聴者端末200の接続を制限することができる。
また他の例として、通信部310を介して使用者端末100または視聴者端末200から別途のテキストデータまたはイメージデータが受信されると、制御部340は、受信したテキストデータまたはイメージデータを原語/翻訳情報と一緒に送り出すことにより、使用者及び視聴者間に意見交換がさらに確実に行われるようにすることができる。
また他の例として、通信部310を介して使用者端末100から発言権設定命令、例えば、発言制限命令または発言順序に関する命令が受信されると、制御部340は、当該命令に応じて、複数の使用者端末100のうち、発言権のある使用者端末に関する通訳翻訳動画のみを送信してもよい。あるいは、制御部340は、当該命令に応じて、発言権に関する内容が含まれたポップアップメッセージを通訳翻訳動画と一緒に送信してもよいなど、実現方法に制限はない。
使用者端末100及び視聴者端末200には、後述するように、ビデオ通話サービス及び翻訳サービスを支援し、上述したサービスを支援するにあたって、使用者及び視聴者個々人の性向に合わせた多様な設定が可能なアプリケーションが予め保存されてもよく、使用者及び視聴者は、当該アプリケーションを用いて、多様な設定が可能である。以下、使用者端末100について説明する。
図2を参照すると、使用者端末100は、使用者に各種情報を視覚的に提供するディスプレイ110、使用者に各種情報を聴覚的に提供するスピーカー120、通信網を介して、外部機器と各種データをやりとりする端末通信部130、使用者端末100内の構成要素の全般的な動作を制御してビデオ通話サービスを支援する端末制御部140を含んでもよい。
ここで、端末通信部130、端末制御部140は、それぞれ別途で実現されるか、または一つのシステムオンチップで統合して実現されてもよいなど、実現方法には制限がない。以下、使用者端末100のそれぞれの構成要素について説明する。
使用者端末100には、使用者に各種情報を視覚的に提供するディスプレイ110が設けられてもよい。一実施形態によれば、ディスプレイ110は、LCD(Liquid Crystal Display)、LED(Light Emitting Diode)、PDP(Plasma Display Panel)、OLED(Organic Light Emitting Diode)、CRT(Cathode Ray Tube)等で実現されてもよいが、これらに限らず、制限はない。一方、ディスプレイ110がタッチスクリーンパネル(Touch Screen Panel、TSP)タイプで実現された場合は、使用者は、ディスプレイ110の特定領域をタッチすることにより、各種説明命令を入力することができる。
ディスプレイ110は、ビデオ通話に関する動画を表示するだけでなく、ディスプレイ110上に表示されたユーザーインターフェースを介して、各種制御命令を入力されてもよい。
以下で説明されるユーザーインターフェースは、使用者と使用者端末100との間の各種情報、命令の交換動作がさらに便利に行われるように、ディスプレイ110上に表示される画面をグラフィックで実現したグラフィックユーザーインターフェースであってもよい。
例えば、グラフィックユーザーインターフェースは、ディスプレイ110を介して表示される画面上において、一部領域には、使用者から各種制御命令を容易に入力されるためのアイコン、ボタン等が表示され、また、他の一部領域には、少なくとも一つのウィジェットを介して各種情報が表示されるように実現されてもよいなど、制限はない。
例えば、ディスプレイ110上には、図3に示すように、ビデオ通話中の他の四人の使用者に関する動画が、一定の領域に分割して表示されるように構成されており、翻訳命令を入力可能なアイコンI1、ビデオ通話サービスの状態に関する情報を提供するエモティコンI2、接続中の視聴者数を知らせるエモティコンI3、各種設定命令を入力可能なアイコンI4が含まれるように構成されたグラフィックユーザーインターフェースが表示されてもよい。
端末制御部140は、制御信号を介して、ディスプレイ110上に、図3に示すようなグラフィックユーザーインターフェースが表示されるように制御する。ユーザーインターフェースを構成するウィジェット、アイコン、エモティコン等の表示方法、配置方法等は、アルゴリズムまたはプログラム形態のデータで実現され、使用者端末100内のメモリまたは放送装置300内のメモリに予め保存されてもよく、端末制御部140は、予め保存されたデータを用いて制御信号を生成し、生成した制御信号を介して、グラフィックユーザーインターフェースが表示されるように制御する。端末制御部140についての具体的な説明は、後述する。
一方、図2を参照すると、使用者端末100には、各種サウンドを出力可能なスピーカー120が設けられてもよい。スピーカー120は、使用者端末100の一面に設けられ、ビデオ通話に関する動画ファイルに含まれた各種サウンドを出力する。スピーカー120は、既に公知された多様な種類のサウンド出力装置により実現され、制限はない。
使用者端末100には、通信網を介して、外部機器と各種データをやりとりする端末通信部130が設けられてもよい。
端末通信部130は、無線通信網または有線通信網を介して、外部機器と各種データをやりとりすることができる。ここで、無線通信網及び有線通信網についての具体的な説明は、上述しているので、省略する。
端末通信部130は、通信網を介して、放送装置300と連結され、チャットルームを作成することができ、チャットルームに接続した他の使用者端末と、ビデオ通話に関する動画ファイルをリアルタイムでやりとりし、ビデオ通話サービスを提供するだけでなく、チャットルームに接続した視聴者端末300にも、ビデオ通話に関する動画ファイルを送信することにより、放送サービスを提供することができる。
図2を参照すると、使用者端末100には、使用者端末100の全般的な動作を制御する端末制御部140が設けられてもよい。
端末制御部140は、各種演算処理が可能なMCUのようなプロセッサ、使用者端末100の動作を制御するための制御プログラム、あるいは制御データを記憶するかまたはプロセッサが出力する制御命令データや映像データを仮に記憶するメモリで実現されてもよい。
このとき、プロセッサ及びメモリは、使用者端末100に内蔵されたシステムオンチップに集積されてもよい。ただし、使用者端末100に内蔵されたシステムオンチップが一つのみ存在するものではなくてもよいので、一つのシステムオンチップに集積されるものに制限されない。
メモリは、SRAM、DRAM等の揮発性メモリ(一時保存メモリとも称する)、及びフラッシュメモリ、ROM、 EPROM、EEPROM等の不揮発性メモリを含んでもよい。ただし、これに限定されるものではなく、当業界に知られている任意の別の形態で実現されてもよい。
一実施形態として、不揮発性メモリには、使用者端末100の動作を制御するための制御プログラム及び制御データが保存されてもよく、揮発性メモリには、不揮発性メモリから制御プログラム及び制御データを読み込んで仮に保存されるか、プロセッサが出力する制御命令データ等が仮に保存されてもよいなど、制限はない。
端末制御部140は、メモリに保存されたデータに基づき、制御信号を生成し、生成した制御信号により、使用者端末100内の構成要素の全般的な動作を制御することができる。
例えば、端末制御部140は、制御信号を介して、ディスプレイ110上に多様な情報が表示されるように制御してもよい。端末通信部130を介して、四人の使用者から、映像ファイルに原語情報及び翻訳情報のうち少なくとも一つがマッピングされた動画ファイルをそれぞれ受信すると、端末制御部140は、図3に示すように、ディスプレイ上に、四つの画面に分割して、使用者のそれぞれに関する動画ファイルが表示されるように制御してもよい。
また、端末制御部140は、ビデオ通話サービスに対する各種設定命令を入力されるユーザーインターフェースが、ディスプレイ110上に表示されるように制御し、当該ユーザーインターフェースから入力された設定命令に基づき、ユーザーインターフェースの構成を変更することができる。
例えば、使用者が、図3に示すアイコンI4をクリックした場合、端末制御部140は、ディスプレイ110上にビデオ通話関連動画が表示される領域が、図4に示すように縮小し、使用者から各種設定命令を入力されるアイコンが示されるように構成されたユーザーインターフェースが表示されるように制御することができる。具体的に、図4を参照すると、端末制御部140は、ビデオ通話者招待命令、視聴者招待命令、翻訳語選択命令、発言権設定命令、チャットウィンドウ活性化命令、字幕設定命令、通話者数設定命令、視聴者数設定命令、その他の設定命令等を入力されるアイコンが含まれたユーザーインターフェースが、ディスプレイ110上に表示されるように制御することができ、入力可能な設定命令が上述した例に限定されるものではない。
一実施形態として、使用者がビデオ通話者招待アイコンをクリックして他の使用者を招待する場合、端末制御部140は、招待した使用者数に合わせて、ビデオ通話関連動画が表示される領域をさらに分割してもよい。
他の一実施形態として、使用者が発言権設定アイコンをクリックする場合、端末制御部140は、多様な方法により、発言権を持った使用者に間する動画が強調されるように表示してもよい。
例えば、端末制御部140は、図5に示すように、発言権を持った使用者に関する通訳翻訳動画が、他の使用者に関する動画よりも大きく設定されるように実現されたユーザーインターフェースが、ディスプレイ110上に表示されるように制御してもよい。また他の例として、端末制御部140は、図6に示すように、発言権を持った使用者に関する通訳翻訳動画のみがディスプレイ110上に表示されるように制御してもよい。
以外にも、端末制御部140は、多様な方法により、発言権を持つ使用者に関する動画と発言権を持たない使用者に関する動画が異なって表示されるように制御してもよいなど、制限はない。
上述したユーザーインターフェースを構成する方法の場合、プログラムまたはアルゴリズム形態のデータで実現されて、使用者端末100内に予め保存されるか、または放送装置300内に予め保存されてもよい。放送装置300内に予め保存された場合、端末制御部140は、端末通信部110を介して、放送装置300から前記データを受信した後、これに基づき、ディスプレイ110上にユーザーインターフェースが表示されるように制御することができる。
視聴者端末200の場合、使用者端末100と構成が同一であるので、これについての具体的な説明を省略する。一方、視聴者端末200と使用者端末100のディスプレイ上に表示されるユーザーインターフェースは同じであるかまたは異なってもよい。例えば、視聴者端末200の視聴者は、ビデオ通話に参与することができないので、ビデオ通話者招待命令を入力可能なアイコンは、ユーザーインターフェース上から除外されてもよい。
以外にも、視聴者端末200上で実現されるユーザーインターフェースと使用者端末100上で実現されるユーザーインターフェースは、使用者または視聴者の便宜を考慮して異なって構成されてもよく、制限はない。以下、放送装置の動作について、簡単に説明する。
図7は、一実施形態による放送装置の動作フローチャートを概略的に示す図である。
放送装置は、使用者端末と視聴者端末との間を連結して、ビデオ通話サービスを提供することができる。よって、放送装置は、ビデオ通話サービスの提供中、ビデオ通話中の使用者端末からビデオ通話データを収集することができる。ビデオ通話データは、使用者端末に内蔵されたカメラ及びマイクのうち少なくとも一つを用いて生成されたデータであって、上述したカメラ及びマイクのうち少なくとも一つを用いて使用者の意思疎通が保存されたデータを意味する。
放送装置は、ビデオ通話関連動画から映像ファイルと音声ファイルをそれぞれ分離して生成し700、生成した映像ファイル及び音声ファイルのうち少なくとも一つを用いて、使用者のそれぞれに関する原語情報を抽出することができる710。
ここで、原語情報とは、ビデオ通話関連動画内に保存された意思疎通手段を音声及びテキストのうち少なくとも一つの形態で示した情報であって、特定国の言語で翻訳する前の情報に相当する。
放送装置は、ビデオ通話関連動画内に登場する通話者が使用する意思疎通手段により、映像ファイル及び音声ファイルの全部を用いるか、または一つのみを用いて原語情報を抽出することができる。
例えば、ビデオ通話関連動画内に登場する通話者のいずれか一人が音声を用いてビデオ通話を行うとともに、他の通話者は、手話を用いてビデオ通話を行う場合、放送装置は、映像ファイルから手話パターンを、音声ファイルから音声を識別して原語情報を抽出することができる。
また他の例として、通話者が音声のみを用いてビデオ通話中の場合、放送装置は、音声ファイルのみを用いて原語情報を抽出し、また他の例として、通話者が手話のみを用いて対話中の場合、放送装置は、映像ファイルのみを用いて原語情報を抽出することができる。
放送装置は、原語情報から、通話者または視聴者の要請により、個別的に翻訳情報を生成し720、チャットルームに接続中の端末、使用者端末及び視聴者端末の全部に、原語情報及び翻訳情報のうち少なくとも一つがマッピングされた通訳翻訳動画を送信することができる。
放送装置は、自体的に原語情報を翻訳して翻訳情報を生成してもよく、演算過負荷を防止するために、翻訳プロセスを処理する外部サーバに原語情報を送信し、翻訳情報を受信して提供してもよいなど、実現形態には制限がない。
放送装置は、原語情報及び翻訳情報のうち少なくとも一つを送信することができる730。このとき、放送装置は、ビデオ通話関連動画に原語情報及び翻訳情報のうち少なくとも一つがマッピングされた通訳翻訳動画を送信することにより、通話者間の意思疎通が円滑に行われるだけでなく、視聴者も、通話者間の意見を正確に把握できるようにする。
また、上述のように、実施形態によるユーザーインターフェースは、テキスト送信機能を支援し、通話者または視聴者が自身の意見をテキストで送信することにより、意思疎通がさらに円滑に行われるようにし、以外にも、発言権設定機能を支援して、円滑な意見交換が行われるのを助けることができる。
明細書に記載された実施形態と図面に示された構成は、開示された発明の好適な一例に過ぎず、本出願の出願時点において、本明細書の実施形態と図面を代替可能な様々な変形例があり得る。
また、本明細書で用いられた用語は、実施形態を説明するために用いられたものであって、開示された発明を制限及び/または限定しようとする意図ではない。単数の表現は、文脈からみて、明らかに異なる意味を有さない限り、複数の表現を含む。本明細書において、「含む」または「備える」のような用語は、明細書上に記載された特徴、数字、ステップ、動作、構成要素、部品、またはこれらの組合せを指すためのものであり、一つまたはそれ以上の他の特徴、数字、ステップ、動作、構成要素、部品、またはこれらの組合せの存在または付加可能性を予め排除するものではない。
また、本明細書で用いられた「第1」、「第2」等のように序数を含む用語は、多様な構成要素を説明するために用いられるが、前記構成要素は、前記用語により限定されず、前記用語は、一つの構成要素を他の構成要素から区別する目的でのみ用いられる。例えば、本発明の権利範囲を逸脱しない範囲内で、第1構成要素は第2構成要素と命名されてもよく、同様に、第2構成要素も第1構成要素と命名されてもよい。「及び/または」との用語は、複数の関連して記載された項目の組合せまたは複数の関連して記載された項目のうちのいずれかの項目を含む。
また、本明細書の全体で用いられる「~部(unit)」、「~器」、「~ブロック(block)」、「~部材(member)」、「~モジュール(module)」等の用語は、少なくともいずれか一つの機能や動作を処理する単位を意味してもよい。例えば、ソフトウェア、FPGAまたはASICのようなハードウェアを意味してもよい。しかし、「~部」、「~器」、「~ブロック」、「~部材」、「~モジュール」等がソフトウェアまたはハードウェアに限定される意味ではなく、「~部」、「~器」、「~ブロック」、「~部材」、「~モジュール」等は、接近できる保存媒体に保存され、一つまたはそれ以上のプロセッサにより行われる構成であってもよい。
1 放送システム
100 使用者端末
200 視聴者端末
300 放送装置

Claims (10)

  1. 通信網を介してチャットルームに接続した使用者端末間のビデオ通話を支援する通信部と、
    前記通信部から受信されるビデオ通話関連動画ファイルを用いて映像ファイルと音声ファイルを生成し、前記映像ファイルと音声ファイルのうち少なくとも一つを用いて、通話者のそれぞれに関する原語情報を抽出する抽出部と、
    前記原語情報を、選択された国の言語により翻訳した翻訳情報を生成する翻訳部と、
    前記ビデオ通話関連動画ファイルに、前記原語情報及び翻訳情報のうち少なくとも一つがマッピングされた通訳翻訳動画が、前記チャットルームに接続した使用者端末及び視聴者端末に送信されるように制御する制御部と、を含む
    ことを特徴とする放送装置。
  2. 前記原語情報は、音声原語情報及びテキスト原語情報のうち少なくとも一つを含み、
    前記翻訳情報は、音声翻訳情報及びテキスト翻訳情報のうち少なくとも一つを含む
    請求項1に記載の放送装置。
  3. 前記抽出部は、
    前記音声ファイルに対して周波数帯域分析プロセスを適用して、通話者のそれぞれに関する音声原語情報を抽出し、
    前記抽出した音声原語情報に対して音声認識プロセスを適用してテキスト原語情報を生成する
    請求項1に記載の放送装置。
  4. 前記抽出部は、
    前記映像ファイルに対して映像処理プロセスを適用して手話パターンを検出し、前記検出した手話パターンに基づき、テキスト原語情報を抽出する
    請求項1に記載の放送装置。
  5. 通信網を介してビデオ通話サービスを支援する端末通信部と、
    ビデオ通話関連動画ファイルに原語情報及び翻訳情報のうち少なくとも一つがマッピングされた通訳翻訳動画を提供し、少なくとも一つのビデオ通話関連設定命令と、少なくとも一つの翻訳関連設定命令との入力が可能なアイコンを提供するように構成されたユーザーインターフェースがディスプレイ上に表示されるように制御する端末制御部と、を含む
    ことを特徴とする使用者端末。
  6. 前記少なくとも一つのビデオ通話関連設定命令は、
    ビデオ通話者の発言権を設定可能な発言権設定命令、ビデオ通話者数設定命令、視聴者数設定命令、及びテキスト送信命令のうち少なくとも一つを含む
    請求項5に記載の使用者端末。
  7. 前記端末制御部は、
    前記発言権設定命令の入力可否により、前記通訳翻訳動画の提供方法が変更されるか、または発言権を持った通話者に関する情報が含まれたポップアップメッセージを提供するように構成されたユーザーインターフェースがディスプレイ上に表示されるように制御する
    請求項6に記載の使用者端末。
  8. ビデオ通話関連動画ファイルを受信するステップと、
    前記ビデオ通話関連動画ファイルから生成した映像ファイルと音声ファイルのうち少なくとも一つを用いて、通話者のそれぞれに関する原語情報を抽出するステップと、
    前記原語情報を、選択された国の言語により翻訳した翻訳情報を生成するステップと、
    前記ビデオ通話関連動画ファイルに、前記原語情報及び翻訳情報のうち少なくとも一つがマッピングされた通訳翻訳動画を、チャットウィンドウに接続中の端末に送信されるように制御するステップと、を含む
    ことを特徴とする放送装置の制御方法。
  9. 前記抽出するステップは、
    前記音声ファイルに対して周波数帯域分析プロセスを適用して、通話者のそれぞれに関する音声原語情報を抽出するステップと、
    前記抽出した音声原語情報に対して音声認識プロセスを適用してテキスト原語情報を生成するステップと、を含む
    請求項8に記載の放送装置の制御方法。
  10. 前記抽出するステップは、
    前記映像ファイルに対して映像処理プロセスを適用して手話パターンを検出し、前記検出した手話パターンに基づき、テキスト原語情報を抽出するステップを含む
    請求項8に記載の放送装置の制御方法。

JP2022535547A 2019-12-09 2020-12-07 使用者端末、放送装置、それを含む放送システム、及びその制御方法 Active JP7467636B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2019-0162503 2019-12-09
KR1020190162503A KR102178174B1 (ko) 2019-12-09 2019-12-09 사용자 단말, 방송 장치, 이를 포함하는 방송 시스템 및 그 제어방법
PCT/KR2020/017734 WO2021118180A1 (ko) 2019-12-09 2020-12-07 사용자 단말, 방송 장치, 이를 포함하는 방송 시스템 및 그 제어방법

Publications (2)

Publication Number Publication Date
JP2023506468A true JP2023506468A (ja) 2023-02-16
JP7467636B2 JP7467636B2 (ja) 2024-04-15

Family

ID=73398663

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022535547A Active JP7467636B2 (ja) 2019-12-09 2020-12-07 使用者端末、放送装置、それを含む放送システム、及びその制御方法

Country Status (5)

Country Link
US (1) US20230274101A1 (ja)
JP (1) JP7467636B2 (ja)
KR (1) KR102178174B1 (ja)
CN (1) CN115066907A (ja)
WO (1) WO2021118180A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102178174B1 (ko) * 2019-12-09 2020-11-12 김경철 사용자 단말, 방송 장치, 이를 포함하는 방송 시스템 및 그 제어방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008160232A (ja) * 2006-12-21 2008-07-10 Funai Electric Co Ltd 映像音声再生装置
US20090303199A1 (en) * 2008-05-26 2009-12-10 Lg Electronics, Inc. Mobile terminal using proximity sensor and method of controlling the mobile terminal
KR20100026701A (ko) * 2008-09-01 2010-03-10 한국산업기술대학교산학협력단 수화 번역기 및 그 방법
JP2011209731A (ja) * 2010-03-30 2011-10-20 Polycom Inc ビデオ会議に翻訳を追加するための方法及びシステム
JP2016091057A (ja) * 2014-10-29 2016-05-23 京セラ株式会社 電子機器
JP2022535531A (ja) * 2019-06-14 2022-08-09 ザ プロクター アンド ギャンブル カンパニー 揮発性組成物カートリッジの交換の検出

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4100243B2 (ja) * 2003-05-06 2008-06-11 日本電気株式会社 映像情報を用いた音声認識装置及び方法
CN101452705A (zh) * 2007-12-07 2009-06-10 希姆通信息技术(上海)有限公司 语音文字转换、手语文字转换的方法和装置
KR101442112B1 (ko) * 2008-05-26 2014-09-18 엘지전자 주식회사 근접센서를 이용하여 동작 제어가 가능한 휴대 단말기 및그 제어방법
KR101015234B1 (ko) * 2008-10-23 2011-02-18 엔에이치엔(주) 웹 상의 멀티미디어 컨텐츠에 포함되는 특정 언어를 다른 언어로 번역하여 제공하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
CN102984496B (zh) * 2012-12-21 2015-08-19 华为技术有限公司 视频会议中的视音频信息的处理方法、装置及系统
KR102108500B1 (ko) * 2013-02-22 2020-05-08 삼성전자 주식회사 번역 기반 통신 서비스 지원 방법 및 시스템과, 이를 지원하는 단말기
KR20150057591A (ko) * 2013-11-20 2015-05-28 주식회사 디오텍 동영상파일에 대한 자막데이터 생성방법 및 장치
US9614969B2 (en) * 2014-05-27 2017-04-04 Microsoft Technology Licensing, Llc In-call translation
CN109286725B (zh) * 2018-10-15 2021-10-19 华为技术有限公司 翻译方法及终端
CN109960813A (zh) * 2019-03-18 2019-07-02 维沃移动通信有限公司 一种翻译方法、移动终端及计算机可读存储介质
KR102178174B1 (ko) * 2019-12-09 2020-11-12 김경철 사용자 단말, 방송 장치, 이를 포함하는 방송 시스템 및 그 제어방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008160232A (ja) * 2006-12-21 2008-07-10 Funai Electric Co Ltd 映像音声再生装置
US20090303199A1 (en) * 2008-05-26 2009-12-10 Lg Electronics, Inc. Mobile terminal using proximity sensor and method of controlling the mobile terminal
KR20100026701A (ko) * 2008-09-01 2010-03-10 한국산업기술대학교산학협력단 수화 번역기 및 그 방법
JP2011209731A (ja) * 2010-03-30 2011-10-20 Polycom Inc ビデオ会議に翻訳を追加するための方法及びシステム
JP2016091057A (ja) * 2014-10-29 2016-05-23 京セラ株式会社 電子機器
JP2022535531A (ja) * 2019-06-14 2022-08-09 ザ プロクター アンド ギャンブル カンパニー 揮発性組成物カートリッジの交換の検出

Also Published As

Publication number Publication date
WO2021118180A1 (ko) 2021-06-17
CN115066907A (zh) 2022-09-16
KR102178174B1 (ko) 2020-11-12
JP7467636B2 (ja) 2024-04-15
US20230274101A1 (en) 2023-08-31

Similar Documents

Publication Publication Date Title
JP7467635B2 (ja) 使用者端末、ビデオ通話装置、ビデオ通話システム、及びその制御方法
US11114091B2 (en) Method and system for processing audio communications over a network
CN106462573B (zh) 通话中翻译
US11056116B2 (en) Low latency nearby group translation
US11715386B1 (en) Queuing for a video conference session
JP7467636B2 (ja) 使用者端末、放送装置、それを含む放送システム、及びその制御方法
KR20130015472A (ko) 디스플레이장치, 그 제어방법 및 서버
US9374465B1 (en) Multi-channel and multi-modal language interpretation system utilizing a gated or non-gated configuration
JP2023506469A (ja) 使用者端末、及びその制御方法
KR102170902B1 (ko) 실시간 다자 통역 무선 이어셋 및 이를 이용한 송수신 방법
US20240154833A1 (en) Meeting inputs
JP2023046590A (ja) 表示方法、表示装置、及び、表示システム
KR102117993B1 (ko) 중개 통화 서비스 제공 방법 및 장치
JP2005151002A (ja) 遠隔会議システム
KR101778548B1 (ko) 청각장애인을 위한 음성인식 및 보청지원이 가능한 회의 관리 방법 및 시스템
JP2020119043A (ja) 音声翻訳システムおよび音声翻訳方法
US10613827B2 (en) Configuration for simulating a video remote interpretation session
EP3975553A1 (en) System and method for visual and auditory communication using cloud communication
KR20220038969A (ko) 수어 통역시스템 및 서비스 방법
JP2024044920A (ja) 情報処理装置、情報処理システム、プログラム、及び情報処理方法
US20200193980A1 (en) Configuration for remote multi-channel language interpretation performed via imagery and corresponding audio at a display-based device
JP2024082435A (ja) 会議制御システム、会議制御方法及びコンピュータープログラム
Leib Five Technologies Deaf and Hard of Hearing Persons Use to Communicate

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220624

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230613

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240403

R150 Certificate of patent or registration of utility model

Ref document number: 7467636

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150