JP2023506469A - 使用者端末、及びその制御方法 - Google Patents

使用者端末、及びその制御方法 Download PDF

Info

Publication number
JP2023506469A
JP2023506469A JP2022535548A JP2022535548A JP2023506469A JP 2023506469 A JP2023506469 A JP 2023506469A JP 2022535548 A JP2022535548 A JP 2022535548A JP 2022535548 A JP2022535548 A JP 2022535548A JP 2023506469 A JP2023506469 A JP 2023506469A
Authority
JP
Japan
Prior art keywords
information
user terminal
translation
original
language information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022535548A
Other languages
English (en)
Inventor
チョル キム、ギョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of JP2023506469A publication Critical patent/JP2023506469A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Machine Translation (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

使用者端末、及びその制御方法を開示する。使用者端末は、動画ファイルから分離して生成した映像ファイル及び音声ファイルのうち少なくとも一つに基づき、登場人物のそれぞれに関する原語情報を抽出する抽出部と、前記原語情報を、選択された言語により翻訳した翻訳情報を生成する翻訳部と、前記原語情報及び翻訳情報のうち少なくとも一つを提供する制御部と、を含んでもよい。【選択図】 図1

Description

動画に対する翻訳サービスを提供する使用者端末、及びその制御方法に関する。
IT技術の発達につれて、多様な種類の動画コンテンツの送信/共有が、使用者間に容易に行われており、特に、グローバルトレンドに合わせて、使用者は、韓国内の動画コンテンツのみならず、多様な言語で作製された海外の動画コンテンツを送信/共有していることが実情である。
ただし、多くの動画コンテンツが作製されているため、全ての動画コンテンツに対して翻訳が行われてはおらず、よって、使用者の便宜性を増大させるために、リアルタイムの翻訳サービスを提供する方法についての研究が進められている。
使用者好みの動画コンテンツに対する原文提供サービスだけでなく、翻訳提供サービスをリアルタイムで提供することにより、使用者がさらに容易に動画コンテンツを楽しめ、動画コンテンツに多様な意思疎通手段が含まれていても、全て翻訳が可能であり、音声及びコンテンツのうち少なくとも一つによって翻訳サービスを提供することにより、視覚障害者のみならず、聴覚障害者も、自由に動画コンテンツを楽しめるようにすることを目的とする。
一局面による使用者端末は、動画ファイルから分離して生成した映像ファイル及び音声ファイルのうち少なくとも一つに基づき、登場人物のそれぞれに関する原語情報を抽出する抽出部と、前記原語情報を、選択された言語により翻訳した翻訳情報を生成する翻訳部と、前記原語情報及び翻訳情報のうち少なくとも一つを提供する制御部と、を含んでもよい。
また、前記原語情報は、音声原語情報及びテキスト原語情報のうち少なくとも一つを含み、前記翻訳情報は、音声翻訳情報及びテキスト翻訳情報のうち少なくとも一つを含んでもよい。
また、前記抽出部は、前記音声ファイルに対して周波数帯域分析プロセスを適用して、登場人物のそれぞれに関する音声原語情報を抽出し、前記抽出した音声原語情報に対して音声認識プロセスを適用してテキスト原語情報を生成してもよい。
また、前記抽出部は、前記映像ファイルに対して映像処理プロセスを適用して手話パターンを検出し、前記検出した手話パターンに基づき、テキスト原語情報を抽出してもよい。
また、前記抽出部は、周波数帯域分析プロセスにより、前記音声ファイルに登場する登場人物の年齢及び性別のうち少なくとも一つを判断し、判断の結果に基づいて設定した人物情報を、前記原語情報にマッピングして保存してもよい。
一局面による使用者端末の制御方法は、動画ファイルから分離して生成した映像ファイル及び音声ファイルのうち少なくとも一つに基づき、登場人物のそれぞれに関する原語情報を抽出するステップと、前記原語情報を、選択された言語により翻訳した翻訳情報を生成するステップと、前記原語情報及び翻訳情報のうち少なくとも一つを提供するステップと、を含んでもよい。
また、前記抽出するステップは、前記動画ファイル内に含まれた意思疎通手段により、映像ファイル及び音声ファイルのうち少なくとも一つに基づき、登場人物のそれぞれに関する原語情報を抽出するステップを含んでもよい。
また、前記抽出するステップは、前記音声ファイルに対して周波数帯域分析プロセスを適用して、通話者のそれぞれに関する音声原語情報を抽出するステップと、前記抽出した音声原語情報に対して音声認識プロセスを適用してテキスト原語情報を生成するステップと、を含んでもよい。
また、前記抽出するステップは、前記映像ファイルに対して映像処理プロセスを適用して手話パターンを検出し、前記検出した手話パターンに基づき、テキスト原語情報を抽出するステップを含んでもよい。
また、前記抽出するステップは、周波数帯域分析プロセスにより、前記音声ファイルに登場する登場人物の年齢及び性別のうち少なくとも一つを判断し、判断の結果に基づいて設定した人物情報を、前記原語情報にマッピングして保存するステップをさらに含んでもよい。
一実施形態による使用者端末、及びその制御方法は、使用者好みの動画コンテンツに対する原文提供サービスだけでなく、翻訳提供サービスをリアルタイムで提供することにより、使用者がさらに容易に動画コンテンツを楽しむことができる。
他の一実施形態による使用者端末、及びその制御方法は、動画コンテンツに多様な意思疎通手段が含まれていても、全て翻訳が可能であり、音声及びコンテンツのうち少なくとも一つによって翻訳サービスを提供することにより、視覚障害者のみならず、聴覚障害者も、自由に動画コンテンツを楽しむことができる。
一実施形態による使用者端末の外観を概略的に示す図である。 一実施形態による使用者端末の制御ブロック図を概略的に示す図である。 一実施形態によるディスプレイ上に表示されるユーザーインターフェース画面を示す図である。 一実施形態によるディスプレイから原語情報を提供するユーザーインターフェース画面を示す図である。 他の実施形態によるディスプレイから原語情報及び翻訳情報のうち少なくとも一つを提供するユーザーインターフェース画面を示す図である。 また他の実施形態によるディスプレイから原語情報及び翻訳情報のうち少なくとも一つを提供するユーザーインターフェース画面を示す図である。 一実施形態による使用者端末の動作フローチャートを概略的に示す図である。
図1は、一実施形態による使用者端末の外観を概略的に示す図であり、図2は、一実施形態による使用者端末の制御ブロック図を概略的に示す図である。また、図3は、一実施形態によるディスプレイ上に表示されるユーザーインターフェース画面を示す図であり、図4は、一実施形態によるディスプレイから原語情報を提供するユーザーインターフェース画面を示す図である。また、図5及び図6は、相違した実施形態によるディスプレイから原語情報及び翻訳情報のうち少なくとも一つを提供するユーザーインターフェース画面を示す図である。以下、説明が重複することを防ぐために一緒に説明する。
以下で説明される使用者端末は、各種演算処理が可能なプロセッサが内蔵されており、ディスプレイ及びスピーカーが内蔵されており、動画ファイルを再生可能な全ての機器を含む。
例えば、使用者端末は、ラップトップ(laptop)、デスクトップ(desk top)、タブレットパソコン(tablet PC)だけでなく、スマートフォン、PDA(Personal Digital Assistant)のようなモバイル端末、及び使用者の身体に脱着可能な時計やめがね型のウェアラブル端末だけでなく、スマートテレビ、IPTV(Internet Protocol Television)等を含み、制限はない。以下、説明の便宜のために、上述した多様な種類の使用者端末のうち、スマートフォン形態の使用者端末を一例として説明するが、これに限定されるものではなく、制限はない。
図1及び図2を参照すると、使用者端末100は、使用者から各種命令を入力される入力部100、使用者に各種情報を視覚的に提供するディスプレイ120、使用者に各種情報を聴覚的に提供するスピーカー130、通信網を介して、外部機器と各種データをやりとりする通信部140、動画ファイルから生成した映像ファイルと音声ファイルのうち少なくとも一つを用いて原語情報を抽出する抽出部150、使用者が要請した言語で原語情報を翻訳して翻訳情報を生成する翻訳部160、使用者端末100内の構成要素の全般的な動作を制御して、原語情報及び翻訳情報のうち少なくとも一つを提供することにより、原文/翻訳サービスを提供する制御部170を含んでもよい。
ここで、通信部140、抽出部150、翻訳部160、及び制御部170は、それぞれ別途に実現されるか、あるいは、通信部140、抽出部150、翻訳部160、及び制御部170のうち少なくとも一つは、一つのシステムオンチップ(System On a Chip、SOC)で統合して実現されてもよいなど、実現方法には制限がない。ただし、使用者端末100内にシステムオンチップが一つのみ存在するものではなくてもよいので、一つのシステムオンチップに集積されるものに制限されず、実現方法には制限がない。以下、使用者端末100のそれぞれの構成要素について、説明する。
まず、図1及び図2を参照すると、使用者端末100には、使用者から各種制御命令を入力される入力部110が設けられてもよい。例えば、入力部110は、図1に示すように、ハードキータイプとして使用者端末100の一面に設けられてもよい。以外にも、ディスプレイ120がタッチスクリーンタイプで実現される場合、ディスプレイ120は、入力部110の機能を代わりに行うことができる。
入力部110は、使用者から各種制御命令を入力される。例えば、入力部110は、使用者から動画再生命令を入力されるだけでなく、使用者から翻訳を希望する言語に対する設定命令、原文抽出命令、及び翻訳サービス実行命令等を入力され得る。以外にも、入力部110は、原語情報及び翻訳情報に対する保存命令を入力されるなど、多様な制御命令を入力され、制御部170は、入力された制御命令により、使用者端末100内の構成要素の動作を制御することができる。原語情報及び翻訳情報についての具体的な説明は、後述する。
図1及び図2を参照すると、使用者端末100には、使用者に各種情報を視覚的に提供するディスプレイ120が設けられてもよい。ディスプレイ120は、図1に示すように、使用者端末100の一面に設けられてもよいが、これに限定されず、制限はない。
一実施形態によれば、ディスプレイ120は、LCD(Liquid Crystal Display)、LED(Light Emitting Diode)、PDP(Plasma Display Panel)、OLED(Organic Light Emitting Diode)、CRT(Cathode Ray Tube)等で実現されてもよいが、これらに限らず、制限はない。一方、上述のように、ディスプレイ120がタッチスクリーンパネル(Touch Screen Panel、TSP)タイプで実現された場合は、入力部110の機能を代わりに行うこともできる。
タッチスクリーンパネルタイプで実現された場合、ディスプレイ120は、使用者が要請した動画を表示するだけでなく、ディスプレイ120上に表示されるユーザーインターフェースを介して、各種制御命令を入力され得る。
以下で説明されるユーザーインターフェースは、使用者と使用者端末100との間の各種情報、命令の交換動作がさらに便利に行われるように、ディスプレイ110上に表示される画面をグラフィックで実現したグラフィックユーザーインターフェースであってもよい。
例えば、グラフィックユーザーインターフェースは、ディスプレイ120を介して表示される画面上において、特定領域には、使用者から各種制御命令を容易に入力されるためのアイコン、ボタン等が表示され、他の領域には、少なくとも一つのウィジェットを介して各種情報が表示されるように実現されてもよいなど、制限はない。
図3を参照すると、ディスプレイ120上には、動画再生命令を入力可能なアイコンI1、翻訳命令を入力可能なアイコンI2、及び上述した命令以外に、各種設定命令を入力可能なアイコンI3が含まれたグラフィックユーザーインターフェースが表示されてもよい。
制御部170は、制御信号を介して、ディスプレイ120上に、図3に示すようなグラフィックユーザーインターフェースが表示されるように制御する。ユーザーインターフェースを構成するウィジェット、アイコン等の表示方法、配置方法等は、アルゴリズムまたはプログラム形態のデータで実現され、使用者端末100内のメモリに予め保存されてもよく、制御部170は、予め保存されたデータを用いて制御信号を生成し、生成した制御信号を介して、グラフィックユーザーインターフェースが表示されるように制御する。制御部170についての具体的な説明は、後述する。
一方、図2を参照すると、使用者端末100には、各種サウンドを出力可能なスピーカー130が設けられてもよい。スピーカー130は、使用者端末100の一面に設けられ、動画ファイルに含まれた各種サウンドを出力する。スピーカー130は、既に公知された多様な種類のサウンド出力装置により実現され、制限はない。
使用者端末100には、通信網を介して、外部機器と各種データをやりとりする通信部140が設けられてもよい。
通信部140は、無線通信網または有線通信網を介して、外部機器と各種データをやりとりすることができる。ここで、無線通信網は、データが含まれた信号を無線でやりとりする通信網を意味する。
例えば、通信部140は、3G(3Generation)、4G(4Generation)、5G(5Generation)等のような通信方式により、基地局を経て、端末間に無線信号を送受信することができ、以外にも、無線ラン(Wireless LAN)、ワイファイ(Wi-Fi)、ブルートゥース(登録商標)(Bluetooth)、ジグビー(Zigbee)、WFD(Wi-Fi Direct)、UWB(Ultra wideband)、赤外線通信(IrDA;Infrared Data Association)、BLE(Bluetooth Low Energy)、NFC(Near Field Communication)等のような通信方式を通じて、所定の距離以内の端末とデータが含まれた無線信号を送受信することができる。
また、有線通信網は、データが含まれた信号を有線でやりとりする通信網を意味する。例えば、有線通信網は、PCI(Peripheral Component Interconnect)、PCI-express、USB(Universe Serial Bus)等を含むが、これに限定されるものではない。以下で説明される通信網は、無線通信網と有線通信網の全てを含む。
通信部140は、通信網を介して、外部に位置したサーバーから動画をダウンロードされるだけでなく、動画内に含まれた国の言語に基づいて翻訳された情報を動画と一緒に外部端末に送信することもできるなど、送受信可能なデータには、制限がない。
図2を参照すると、使用者端末100には、抽出部150が設けられてもよい。
翻訳サービスを提供するためには、まず、原語の認識が求められる。これにより、抽出部150は、動画ファイルを映像ファイルと音声ファイルに分離して生成してから、映像ファイル及び音声ファイルのうち少なくとも一つから原語情報を抽出することができる。
以下で説明される原語情報は、動画内に含まれた音声、手話等のような意思疎通手段から抽出された情報を意味し、原語情報は、音声またはテキストの形態で抽出されてもよい。以下、説明の便宜上、音声で構成された原語情報を音声原語情報とし、テキストで構成された原語情報をテキスト原語情報とする。例えば、動画に登場する人物が英語で「Hello」という音声を発話する場合、音声原語情報は、通話者が発話した音声の「Hello」であり、テキスト原語情報は、音声認識プロセスにより、音声の「Hello」を認識してから、認識の結果に基づいて変換した「Hello」のテキストそのものを意味する。
一方、意思疎通手段、例えば、意思疎通手段が音声であるかまたは手話であるかにより、原語情報を抽出する方法が異なり得る。以下では、まず、登場人物の音声が入った音声ファイルから音声原語情報を抽出する方法について説明する。
音声ファイル内には、多様な登場人物の音声が入っていることがあり、このような多様な音声が同時に出力されると、識別し難く、これにより、翻訳の正確度も低くなり得る。これにより、抽出部150は、音声ファイルに対して周波数帯域分析プロセスを適用して、登場人物のそれぞれに関する音声原語情報を抽出することができる。
音声は、性別、年齢、発音のトーン、発音のアクセント等により、個人毎に異なり、周波数帯域を分析すると、当該特性を把握することにより、音声別に個別的な識別が可能である。これにより、抽出部150は、音声ファイルの周波数帯域を分析し、分析の結果に基づき、動画内に登場する登場人物のそれぞれに対する音声を分離することにより、音声原語情報を抽出することができる。
抽出部150は、音声原語情報に対して音声認識プロセスを適用することにより、音声をテキストに変換したテキスト原語情報を生成することができる。抽出部150は、音声原語情報及びテキスト原語情報を通話者別にわけて保存してもよい。
周波数帯域分析プロセスにより、登場人物別に音声原語情報を抽出する方法、及び音声認識プロセスにより、音声原語情報からテキスト原語情報を生成する方法は、アルゴリズムまたはプログラム形態のデータで実現されて、使用者端末100内に既に保存されていてもよく、抽出部150は、既に保存されたデータを用いて原語情報を分離して生成してもよい。
一方、動画内に登場する人物が、手話を使ってもよい。この場合、音声ファイルから音声原語情報を抽出してから、音声原語情報からテキスト原語情報を生成するような上述の方法とは異なり、抽出部150は、映像ファイルから直ちにテキスト原語情報を抽出することができる。以下、映像ファイルからテキスト原語情報を抽出する方法について説明する。
抽出部150は、映像ファイルに対して映像処理プロセスを適用して手話パターンを検出し、検出された手話パターンに基づき、テキスト原語情報を生成してもよい。映像処理プロセスの適用可否は、自動または手動で設定されてもよい。例えば、入力部110またはディスプレイ120を介して、使用者から手話翻訳要請命令を入力されると、抽出部150が映像処理プロセスにより手話パターンを検出してもよい。また他の例として、抽出部150は、自動で映像ファイルに対して映像処理プロセスを適用してもよいなど、制限はない。
映像処理プロセスにより手話パターンを検出する方法は、アルゴリズムまたはプログラム形態のデータで実現されて、使用者端末100内に既に保存されていてもよく、抽出部150は、既に保存されたデータを用いて、映像ファイル上に含まれた手話パターンを検出し、検出した手話パターンからテキスト原語情報を生成してもよい。
抽出部150は、原語情報を人物情報にマッピングして保存してもよい。人物情報は、予め設定された方法により、任意で設定されるか、または動画ファイルから検出される登場人物の特性により、適応的に設定されてもよい。
例えば、抽出部150は、周波数帯域分析プロセスにより、音声を発話した登場人物の性別、年齢等を把握し、把握の結果に基づき、最も適合すると判断される登場人物の名前を任意で設定してマッピングしてもよい。
一実施形態として、周波数帯域分析プロセスにより音声を分析した結果、第1登場人物は、20代男性であると把握され、第2登場人物は、40代女性であると把握されると、抽出部150は、第1登場人物に関する原語情報については、人物情報をを「ミンス」と、第2登場人物に関する原語情報については、人物情報を「ミザ」と設定してマッピングしてもよい。
また他の例として、制御部170は、テキスト原語情報から検出された人物名を人物情報として設定してもよいなど、人物情報設定方法には、制限がない。
制御部170は、ディスプレイ120及びスピーカー130から原語情報を提供するとき、マッピングした人物情報を一緒に表示してもよく、翻訳情報を提供するときにも、マッピングした人物情報を一緒に表示してもよい。例えば、制御部170は、図6に示すように、自体的に設定した人物情報、原語情報、及び翻訳情報が一緒に提供されるように構成されたユーザーインターフェースがディスプレイ120上に表示されるように制御してもよい。
一方、マッピングされた人物情報は、使用者が変更してもよく、マッピングされる人物情報が上述の内容に限定されるものではない。例えば、使用者は、入力部110及びタッチスクリーンタイプで実現されたディスプレイ120を介して、希望の人物情報を設定してもよいなど、制限はない。
図2を参照すると、使用者端末100には、翻訳部160が設けられてもよい。翻訳部160は、原語情報を、使用者の希望の言語で翻訳して、翻訳情報を生成することができる。使用者から入力された国の言語で原語情報を翻訳するにあたって、翻訳部160は、翻訳結果をテキストで生成してもよく、音声で生成してもよい。以下、説明の便宜上、原語情報が他の国の言語で翻訳された情報を翻訳情報とし、翻訳情報も原語情報のように音声またはテキストの形態で構成されてもよい。このとき、テキストで構成された翻訳情報についてはテキスト翻訳情報とし、音声で構成された翻訳情報については音声翻訳情報とする。
音声翻訳情報は、特定の音声でダビングされた音声情報であり、翻訳部160は、予め設定された音声または使用者の設定したトーンでダビングした音声翻訳情報を生成することができる。使用者毎に聴取しようとするトーンは異なり得る。例えば、特定の使用者は、男性の声のトーンの音声翻訳情報を希望し、他の使用者は、女性の声のトーンの音声翻訳情報を希望し得る。または、翻訳部160は、上述した周波数帯域分析プロセスにより識別された登場人物の性別に合わせて、適応的にトーンを設定してもよい。
翻訳方法及び翻訳時に用いられる音声トーンの設定方法は、アルゴリズムまたはプログラム形態のデータが使用者端末100内に既に保存されてもよく、翻訳部160は、既に保存されたデータを用いて翻訳を行ってもよい。
図2を参照すると、使用者端末100には、使用者端末100の全般的な動作を制御する制御部170が設けられてもよい。
制御部170は、各種演算処理が可能なMCU(Micro Control Unit)のようなプロセッサ、使用者端末100の動作を制御するための制御プログラム、あるいは制御データを記憶するかまたはプロセッサが出力する制御命令データや映像データを仮に記憶するメモリで実現されてもよい。
このとき、プロセッサ及びメモリは、使用者端末100に内蔵されたシステムオンチップに集積されてもよい。ただし、使用者端末100に内蔵されたシステムオンチップが一つのみ存在するものではなくてもよいので、一つのシステムオンチップに集積されるものに制限されない。
メモリは、SRAM、DRAM等の揮発性メモリ(一時保存メモリとも称する)、及びフラッシュメモリ、ROM(Read Only Memory)、 EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read OnlY Memory)等の不揮発性メモリを含んでもよい。ただし、これに限定されるものではなく、当業界に知られている任意の別の形態で実現されてもよい。
一実施形態として、不揮発性メモリには、使用者端末100の動作を制御するための制御プログラム及び制御データが保存されてもよく、揮発性メモリには、不揮発性メモリから制御プログラム及び制御データを読み込んで仮に保存されるか、プロセッサが出力する制御命令データ等が仮に保存されてもよいなど、制限はない。
制御部170は、メモリに保存されたデータに基づき、制御信号を生成し、生成した制御信号により、使用者端末100内の構成要素の全般的な動作を制御することができる。
制御部170は、制御信号を介して、ディスプレイ120上に多様な情報が表示されるように制御することができる。例えば、制御部170は、制御信号を介して、ディスプレイ120上に、使用者が再生を要請した動画を再生してもよい。一実施形態として、使用者が、図3に示すアイコンI2をタッチすると、制御部170は、使用者端末100の構成要素を制御し、使用者が設定した国の言語で翻訳されたテキスト翻訳情報及び音声翻訳情報のうち少なくとも一つを提供してもよい。
例えば、制御部170は、ディスプレイ120上に、動画と一緒にテキスト翻訳情報が表示されるように制御してもよく、制御部170は、スピーカー130から音声翻訳情報が送り出されるように制御してもよい。
制御部170が、原語情報及び翻訳情報を提供する方法は様々である。例えば、制御部170は、図4に示すように、動画にテキスト原語情報を字幕でマッピングさせてから、ディスプレイ120上に表示されるように制御してもよい。
また他の例として、制御部170は、図5に示すように、動画にテキスト原語情報及びテキスト翻訳情報を字幕でマッピングさせてから、ディスプレイ120上に一緒に表示されるように制御してもよい。以外にも、制御部170は、テキスト原語情報がまず表示されてから、予め設定された間隔後に、テキスト翻訳情報が字幕で表示されるように制御してもよい。
また他の例として、制御部170は、動画において登場人物が発話する度に、音声原語情報がスピーカー130から出力されてから、予め設定された間隔後に、特定音声でダビングされた音声翻訳情報が出力されるように制御してもよく、このとき、音声原語情報と音声翻訳情報の出力サイズを異なって制御してもよいなど、原文/翻訳サービスを提供する方法には、制限がない。
上述した動画ファイルを映像ファイルと音声ファイルに分離して生成するプロセス、映像ファイルと音声ファイルから原語情報を抽出するプロセス、原語情報から翻訳情報を生成するプロセスは、使用者端末100で直接行ってもよいが、演算処理の過負荷を防ぐために、外部に設けられた装置で別途に行われてもよい。この場合、外部に設けられた装置は、使用者端末100から翻訳命令を伝達されると、上述したプロセスを行ってから、結果物を使用者端末100に送信してもよいなど、制限はない。
以下、動画に対する翻訳サービスを支援する使用者端末の動作について、簡単に説明する。
図7は、一実施形態による使用者端末の動作フローチャートを概略的に示す図である。
図7を参照すると、使用者端末は、動画ファイルを映像ファイルと音声ファイルに分離して生成することができる700。ここで、動画ファイルは、使用者端末に既に保存されているファイルであってもよく、通信網を介して、リアルタイムでストリーミング中のファイルであってもよいなど、制限はない。
例えば、使用者端末は、内臓されたメモリに保存された動画ファイルを読み込み、これに基づき、映像ファイル及び音声ファイルを生成してもよく、また他の例として、使用者端末は、通信網を介して、リアルタイムで動画ファイルデータを受信し、これに基づき、映像ファイル及び音声ファイルを生成してもよい。
使用者端末は、映像ファイル及び音声ファイルのうち少なくとも一つを用いて、原語情報を抽出することができる710。
ここで、原語情報とは、原本の動画ファイル内に含まれた意思疎通手段を音声及びテキストのうち少なくとも一つの形態で示した情報であって、特定国の言語で翻訳する前の情報に相当する。
使用者端末は、動画内に登場する人物が使用する意思疎通手段により、映像ファイル及び音声ファイルの全部を用いるか、または一つのみを用いて原語情報を抽出することができる。
例えば、動画内に登場する人物のいずれか一人が音声を用いて対話をするとともに、他の通話者は、手話を用いて対話をしている場合、使用者端末は、映像ファイルから手話パターンを、音声ファイルから音声を識別して原語情報を抽出することができる。
また他の例として、動画内に登場する人物が音声のみを用いて対話中の場合、使用者端末は、音声ファイルのみを用いて原語情報を抽出し、また他の例として、動画内に登場する人物が手話のみを用いて対話中の場合、使用者端末は、映像ファイルのみを用いて原語情報を抽出することができる。
使用者端末は、原語情報を用いて翻訳情報を生成することができる720。
このとき、使用者端末は、自体的に原語情報を翻訳して翻訳情報を生成してもよく、演算過負荷を防止するために、実施形態による翻訳サービスを提供する外部サーバに原語情報を送信し、翻訳情報を受信して提供してもよいなど、実現形態には制限がない。
以外にも、使用者端末は、動画ファイルに、原語情報及び翻訳情報をマッピングさせてから、通信網を介して、外部端末と共有することにより、他の使用者と一緒にコンテンツを楽しむことができる。
使用者端末は、原語情報及び翻訳情報のうち少なくとも一つを、動画と一緒に提供してもよく、提供方法には、上述のように、制限がない。実施形態による使用者端末は、多様な国の言語で作製された動画コンテンツを、使用者がさらに容易に楽しめるようにするとともに、効果的な言語教育が可能であるという長所がある。
明細書に記載された実施形態と図面に示された構成は、開示された発明の好適な一例に過ぎず、本出願の出願時点において、本明細書の実施形態と図面を代替可能な様々な変形例があり得る。
また、本明細書で用いられた用語は、実施形態を説明するために用いられたものであって、開示された発明を制限及び/または限定しようとする意図ではない。単数の表現は、文脈からみて、明らかに異なる意味を有さない限り、複数の表現を含む。本明細書において、「含む」または「備える」のような用語は、明細書上に記載された特徴、数字、ステップ、動作、構成要素、部品、またはこれらの組合せを指すためのものであり、一つまたはそれ以上の他の特徴、数字、ステップ、動作、構成要素、部品、またはこれらの組合せの存在または付加可能性を予め排除するものではない。
また、本明細書で用いられた「第1」、「第2」等のように序数を含む用語は、多様な構成要素を説明するために用いられるが、前記構成要素は、前記用語により限定されず、前記用語は、一つの構成要素を他の構成要素から区別する目的でのみ用いられる。例えば、本発明の権利範囲を逸脱しない範囲内で、第1構成要素は第2構成要素と命名されてもよく、同様に、第2構成要素も第1構成要素と命名されてもよい。「及び/または」との用語は、複数の関連して記載された項目の組合せまたは複数の関連して記載された項目のうちのいずれかの項目を含む。
また、本明細書の全体で用いられる「~部(unit)」、「~器」、「~ブロック(block)」、「~部材(member)」、「~モジュール(module)」等の用語は、少なくともいずれか一つの機能や動作を処理する単位を意味してもよい。例えば、ソフトウェア、FPGAまたはASICのようなハードウェアを意味してもよい。しかし、「~部」、「~器」、「~ブロック」、「~部材」、「~モジュール」等がソフトウェアまたはハードウェアに限定される意味ではなく、「~部」、「~器」、「~ブロック」、「~部材」、「~モジュール」等は、接近できる保存媒体に保存され、一つまたはそれ以上のプロセッサにより行われる構成であってもよい。
100 使用者端末
110 入力部
120 ディスプレイ

Claims (10)

  1. 動画ファイルから分離して生成した映像ファイル及び音声ファイルのうち少なくとも一つに基づき、登場人物のそれぞれに関する原語情報を抽出する抽出部と、
    前記原語情報を、選択された言語により翻訳した翻訳情報を生成する翻訳部と、
    前記原語情報及び翻訳情報のうち少なくとも一つを提供する制御部と、を含む
    ことを特徴とする使用者端末。
  2. 前記原語情報は、音声原語情報及びテキスト原語情報のうち少なくとも一つを含み、
    前記翻訳情報は、音声翻訳情報及びテキスト翻訳情報のうち少なくとも一つを含む
    請求項1に記載の使用者端末。
  3. 前記抽出部は、
    前記音声ファイルに対して周波数帯域分析プロセスを適用して、登場人物のそれぞれに関する音声原語情報を抽出し、
    前記抽出した音声原語情報に対して音声認識プロセスを適用してテキスト原語情報を生成する
    請求項1に記載の使用者端末。
  4. 前記抽出部は、
    前記映像ファイルに対して映像処理プロセスを適用して手話パターンを検出し、前記検出した手話パターンに基づき、テキスト原語情報を抽出する
    請求項1に記載の使用者端末。
  5. 前記抽出部は、
    周波数帯域分析プロセスにより、前記音声ファイルに登場する登場人物の年齢及び性別のうち少なくとも一つを判断し、判断の結果に基づいて設定した人物情報を、前記原語情報にマッピングして保存する
    請求項1に記載の使用者端末。
  6. 動画ファイルから分離して生成した映像ファイル及び音声ファイルのうち少なくとも一つに基づき、登場人物のそれぞれに関する原語情報を抽出するステップと、
    前記原語情報を、選択された言語により翻訳した翻訳情報を生成するステップと、
    前記原語情報及び翻訳情報のうち少なくとも一つを提供するステップと、を含む
    ことを特徴とする使用者端末の制御方法。
  7. 前記抽出するステップは、
    前記動画ファイル内に含まれた意思疎通手段により、映像ファイル及び音声ファイルのうち少なくとも一つに基づき、登場人物のそれぞれに関する原語情報を抽出するステップを含む
    請求項6に記載の使用者端末の制御方法。
  8. 前記抽出するステップは、
    前記音声ファイルに対して周波数帯域分析プロセスを適用して、通話者のそれぞれに関する音声原語情報を抽出するステップと、
    前記抽出した音声原語情報に対して音声認識プロセスを適用してテキスト原語情報を生成するステップと、を含む
    請求項6に記載の使用者端末の制御方法。
  9. 前記抽出するステップは、
    前記映像ファイルに対して映像処理プロセスを適用して手話パターンを検出し、前記検出した手話パターンに基づき、テキスト原語情報を抽出するステップを含む
    請求項6に記載の使用者端末の制御方法。
  10. 前記抽出するステップは、
    周波数帯域分析プロセスにより、前記音声ファイルに登場する登場人物の年齢及び性別のうち少なくとも一つを判断し、判断の結果に基づいて設定した人物情報を、前記原語情報にマッピングして保存するステップをさらに含む
    請求項6に記載の使用者端末の制御方法。

JP2022535548A 2019-12-09 2020-12-07 使用者端末、及びその制御方法 Pending JP2023506469A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020190162504A KR102178175B1 (ko) 2019-12-09 2019-12-09 사용자 단말 및 그 제어방법
KR10-2019-0162504 2019-12-09
PCT/KR2020/017742 WO2021118184A1 (ko) 2019-12-09 2020-12-07 사용자 단말 및 그 제어방법

Publications (1)

Publication Number Publication Date
JP2023506469A true JP2023506469A (ja) 2023-02-16

Family

ID=73398585

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022535548A Pending JP2023506469A (ja) 2019-12-09 2020-12-07 使用者端末、及びその制御方法

Country Status (5)

Country Link
US (1) US20230015797A1 (ja)
JP (1) JP2023506469A (ja)
KR (1) KR102178175B1 (ja)
CN (1) CN115066908A (ja)
WO (1) WO2021118184A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102178175B1 (ko) * 2019-12-09 2020-11-12 김경철 사용자 단말 및 그 제어방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008160232A (ja) * 2006-12-21 2008-07-10 Funai Electric Co Ltd 映像音声再生装置
KR20100026701A (ko) * 2008-09-01 2010-03-10 한국산업기술대학교산학협력단 수화 번역기 및 그 방법
JP2012059121A (ja) * 2010-09-10 2012-03-22 Softbank Mobile Corp 眼鏡型表示装置
JP2016091057A (ja) * 2014-10-29 2016-05-23 京セラ株式会社 電子機器

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4100243B2 (ja) * 2003-05-06 2008-06-11 日本電気株式会社 映像情報を用いた音声認識装置及び方法
KR101015234B1 (ko) * 2008-10-23 2011-02-18 엔에이치엔(주) 웹 상의 멀티미디어 컨텐츠에 포함되는 특정 언어를 다른 언어로 번역하여 제공하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
US20110246172A1 (en) * 2010-03-30 2011-10-06 Polycom, Inc. Method and System for Adding Translation in a Videoconference
CN102984496B (zh) * 2012-12-21 2015-08-19 华为技术有限公司 视频会议中的视音频信息的处理方法、装置及系统
KR20150057591A (ko) * 2013-11-20 2015-05-28 주식회사 디오텍 동영상파일에 대한 자막데이터 생성방법 및 장치
WO2017112813A1 (en) * 2015-12-22 2017-06-29 Sri International Multi-lingual virtual personal assistant
CN106657865B (zh) * 2016-12-16 2020-08-25 联想(北京)有限公司 会议纪要的生成方法、装置及视频会议系统
KR102143755B1 (ko) * 2017-10-11 2020-08-12 주식회사 산타 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템 및 방법
CN109658919A (zh) * 2018-12-17 2019-04-19 深圳市沃特沃德股份有限公司 多媒体文件的翻译方法、装置及翻译播放设备
CN109960813A (zh) * 2019-03-18 2019-07-02 维沃移动通信有限公司 一种翻译方法、移动终端及计算机可读存储介质
CN110532912B (zh) * 2019-08-19 2022-09-27 合肥学院 一种手语翻译实现方法及装置
KR102178175B1 (ko) * 2019-12-09 2020-11-12 김경철 사용자 단말 및 그 제어방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008160232A (ja) * 2006-12-21 2008-07-10 Funai Electric Co Ltd 映像音声再生装置
KR20100026701A (ko) * 2008-09-01 2010-03-10 한국산업기술대학교산학협력단 수화 번역기 및 그 방법
JP2012059121A (ja) * 2010-09-10 2012-03-22 Softbank Mobile Corp 眼鏡型表示装置
JP2016091057A (ja) * 2014-10-29 2016-05-23 京セラ株式会社 電子機器

Also Published As

Publication number Publication date
US20230015797A1 (en) 2023-01-19
KR102178175B1 (ko) 2020-11-12
WO2021118184A1 (ko) 2021-06-17
CN115066908A (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
US11114091B2 (en) Method and system for processing audio communications over a network
JP7467635B2 (ja) 使用者端末、ビデオ通話装置、ビデオ通話システム、及びその制御方法
CN107832036B (zh) 语音控制方法、装置及计算机可读存储介质
KR102193029B1 (ko) 디스플레이 장치 및 그의 화상 통화 수행 방법
US10741172B2 (en) Conference system, conference system control method, and program
CN110933330A (zh) 视频配音方法、装置、计算机设备及计算机可读存储介质
KR20150115385A (ko) 레코딩 지원 전자장치 및 방법
KR20150135055A (ko) 협업 서비스를 제공하는 서버 및 방법, 그리고 협업 서비스를 제공받는 사용자 단말
JP2018195276A (ja) 両面表示の同時通訳装置、方法、デバイス及び電子装置
WO2020249038A1 (zh) 音频流的处理方法、装置、移动终端及存储介质
US20200106884A1 (en) Information processing apparatus, information processing method, and program
WO2018186416A1 (ja) 翻訳処理方法、翻訳処理プログラム、及び、記録媒体
US20180288110A1 (en) Conference support system, conference support method, program for conference support device, and program for terminal
CN108304434B (zh) 信息反馈方法和终端设备
US20220351425A1 (en) Integrating overlaid digital content into data via processing circuitry using an audio buffer
JP2023506469A (ja) 使用者端末、及びその制御方法
US20190026266A1 (en) Translation device and translation system
JP6832503B2 (ja) 情報提示方法、情報提示プログラム及び情報提示システム
JP7467636B2 (ja) 使用者端末、放送装置、それを含む放送システム、及びその制御方法
CN107591153A (zh) 一种利用语音控制设备的方法
KR20230102753A (ko) 아바타를 통해 영상의 음성을 수어로 통역하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램
CN111091807B (zh) 语音合成方法、装置、计算机设备及存储介质
CN116257159A (zh) 多媒体内容的分享方法、装置、设备、介质及程序产品
KR101628930B1 (ko) 디스플레이 장치 및 그 제어 방법
CN112700783A (zh) 通讯的变声方法、终端设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220624

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230613

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240305

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240307

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240507

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20240606