JP2023506469A

JP2023506469A - 使用者端末、及びその制御方法

Info

Publication number: JP2023506469A
Application number: JP2022535548A
Authority: JP
Inventors: チョルキム、ギョン
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-12-09
Filing date: 2020-12-07
Publication date: 2023-02-16
Also published as: US20230015797A1; KR102178175B1; WO2021118184A1; CN115066908A

Abstract

使用者端末、及びその制御方法を開示する。使用者端末は、動画ファイルから分離して生成した映像ファイル及び音声ファイルのうち少なくとも一つに基づき、登場人物のそれぞれに関する原語情報を抽出する抽出部と、前記原語情報を、選択された言語により翻訳した翻訳情報を生成する翻訳部と、前記原語情報及び翻訳情報のうち少なくとも一つを提供する制御部と、を含んでもよい。【選択図】図１

Description

動画に対する翻訳サービスを提供する使用者端末、及びその制御方法に関する。

ＩＴ技術の発達につれて、多様な種類の動画コンテンツの送信／共有が、使用者間に容易に行われており、特に、グローバルトレンドに合わせて、使用者は、韓国内の動画コンテンツのみならず、多様な言語で作製された海外の動画コンテンツを送信／共有していることが実情である。

ただし、多くの動画コンテンツが作製されているため、全ての動画コンテンツに対して翻訳が行われてはおらず、よって、使用者の便宜性を増大させるために、リアルタイムの翻訳サービスを提供する方法についての研究が進められている。

使用者好みの動画コンテンツに対する原文提供サービスだけでなく、翻訳提供サービスをリアルタイムで提供することにより、使用者がさらに容易に動画コンテンツを楽しめ、動画コンテンツに多様な意思疎通手段が含まれていても、全て翻訳が可能であり、音声及びコンテンツのうち少なくとも一つによって翻訳サービスを提供することにより、視覚障害者のみならず、聴覚障害者も、自由に動画コンテンツを楽しめるようにすることを目的とする。

一局面による使用者端末は、動画ファイルから分離して生成した映像ファイル及び音声ファイルのうち少なくとも一つに基づき、登場人物のそれぞれに関する原語情報を抽出する抽出部と、前記原語情報を、選択された言語により翻訳した翻訳情報を生成する翻訳部と、前記原語情報及び翻訳情報のうち少なくとも一つを提供する制御部と、を含んでもよい。

また、前記原語情報は、音声原語情報及びテキスト原語情報のうち少なくとも一つを含み、前記翻訳情報は、音声翻訳情報及びテキスト翻訳情報のうち少なくとも一つを含んでもよい。

また、前記抽出部は、前記音声ファイルに対して周波数帯域分析プロセスを適用して、登場人物のそれぞれに関する音声原語情報を抽出し、前記抽出した音声原語情報に対して音声認識プロセスを適用してテキスト原語情報を生成してもよい。

また、前記抽出部は、前記映像ファイルに対して映像処理プロセスを適用して手話パターンを検出し、前記検出した手話パターンに基づき、テキスト原語情報を抽出してもよい。

また、前記抽出部は、周波数帯域分析プロセスにより、前記音声ファイルに登場する登場人物の年齢及び性別のうち少なくとも一つを判断し、判断の結果に基づいて設定した人物情報を、前記原語情報にマッピングして保存してもよい。

一局面による使用者端末の制御方法は、動画ファイルから分離して生成した映像ファイル及び音声ファイルのうち少なくとも一つに基づき、登場人物のそれぞれに関する原語情報を抽出するステップと、前記原語情報を、選択された言語により翻訳した翻訳情報を生成するステップと、前記原語情報及び翻訳情報のうち少なくとも一つを提供するステップと、を含んでもよい。

また、前記抽出するステップは、前記動画ファイル内に含まれた意思疎通手段により、映像ファイル及び音声ファイルのうち少なくとも一つに基づき、登場人物のそれぞれに関する原語情報を抽出するステップを含んでもよい。

また、前記抽出するステップは、前記音声ファイルに対して周波数帯域分析プロセスを適用して、通話者のそれぞれに関する音声原語情報を抽出するステップと、前記抽出した音声原語情報に対して音声認識プロセスを適用してテキスト原語情報を生成するステップと、を含んでもよい。

また、前記抽出するステップは、前記映像ファイルに対して映像処理プロセスを適用して手話パターンを検出し、前記検出した手話パターンに基づき、テキスト原語情報を抽出するステップを含んでもよい。

また、前記抽出するステップは、周波数帯域分析プロセスにより、前記音声ファイルに登場する登場人物の年齢及び性別のうち少なくとも一つを判断し、判断の結果に基づいて設定した人物情報を、前記原語情報にマッピングして保存するステップをさらに含んでもよい。

一実施形態による使用者端末、及びその制御方法は、使用者好みの動画コンテンツに対する原文提供サービスだけでなく、翻訳提供サービスをリアルタイムで提供することにより、使用者がさらに容易に動画コンテンツを楽しむことができる。

他の一実施形態による使用者端末、及びその制御方法は、動画コンテンツに多様な意思疎通手段が含まれていても、全て翻訳が可能であり、音声及びコンテンツのうち少なくとも一つによって翻訳サービスを提供することにより、視覚障害者のみならず、聴覚障害者も、自由に動画コンテンツを楽しむことができる。

一実施形態による使用者端末の外観を概略的に示す図である。一実施形態による使用者端末の制御ブロック図を概略的に示す図である。一実施形態によるディスプレイ上に表示されるユーザーインターフェース画面を示す図である。一実施形態によるディスプレイから原語情報を提供するユーザーインターフェース画面を示す図である。他の実施形態によるディスプレイから原語情報及び翻訳情報のうち少なくとも一つを提供するユーザーインターフェース画面を示す図である。また他の実施形態によるディスプレイから原語情報及び翻訳情報のうち少なくとも一つを提供するユーザーインターフェース画面を示す図である。一実施形態による使用者端末の動作フローチャートを概略的に示す図である。

図１は、一実施形態による使用者端末の外観を概略的に示す図であり、図２は、一実施形態による使用者端末の制御ブロック図を概略的に示す図である。また、図３は、一実施形態によるディスプレイ上に表示されるユーザーインターフェース画面を示す図であり、図４は、一実施形態によるディスプレイから原語情報を提供するユーザーインターフェース画面を示す図である。また、図５及び図６は、相違した実施形態によるディスプレイから原語情報及び翻訳情報のうち少なくとも一つを提供するユーザーインターフェース画面を示す図である。以下、説明が重複することを防ぐために一緒に説明する。

以下で説明される使用者端末は、各種演算処理が可能なプロセッサが内蔵されており、ディスプレイ及びスピーカーが内蔵されており、動画ファイルを再生可能な全ての機器を含む。

例えば、使用者端末は、ラップトップ（ｌａｐｔｏｐ）、デスクトップ（ｄｅｓｋｔｏｐ）、タブレットパソコン（ｔａｂｌｅｔＰＣ）だけでなく、スマートフォン、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）のようなモバイル端末、及び使用者の身体に脱着可能な時計やめがね型のウェアラブル端末だけでなく、スマートテレビ、ＩＰＴＶ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌＴｅｌｅｖｉｓｉｏｎ）等を含み、制限はない。以下、説明の便宜のために、上述した多様な種類の使用者端末のうち、スマートフォン形態の使用者端末を一例として説明するが、これに限定されるものではなく、制限はない。

図１及び図２を参照すると、使用者端末１００は、使用者から各種命令を入力される入力部１００、使用者に各種情報を視覚的に提供するディスプレイ１２０、使用者に各種情報を聴覚的に提供するスピーカー１３０、通信網を介して、外部機器と各種データをやりとりする通信部１４０、動画ファイルから生成した映像ファイルと音声ファイルのうち少なくとも一つを用いて原語情報を抽出する抽出部１５０、使用者が要請した言語で原語情報を翻訳して翻訳情報を生成する翻訳部１６０、使用者端末１００内の構成要素の全般的な動作を制御して、原語情報及び翻訳情報のうち少なくとも一つを提供することにより、原文／翻訳サービスを提供する制御部１７０を含んでもよい。

ここで、通信部１４０、抽出部１５０、翻訳部１６０、及び制御部１７０は、それぞれ別途に実現されるか、あるいは、通信部１４０、抽出部１５０、翻訳部１６０、及び制御部１７０のうち少なくとも一つは、一つのシステムオンチップ（ＳｙｓｔｅｍＯｎａＣｈｉｐ、ＳＯＣ）で統合して実現されてもよいなど、実現方法には制限がない。ただし、使用者端末１００内にシステムオンチップが一つのみ存在するものではなくてもよいので、一つのシステムオンチップに集積されるものに制限されず、実現方法には制限がない。以下、使用者端末１００のそれぞれの構成要素について、説明する。

まず、図１及び図２を参照すると、使用者端末１００には、使用者から各種制御命令を入力される入力部１１０が設けられてもよい。例えば、入力部１１０は、図１に示すように、ハードキータイプとして使用者端末１００の一面に設けられてもよい。以外にも、ディスプレイ１２０がタッチスクリーンタイプで実現される場合、ディスプレイ１２０は、入力部１１０の機能を代わりに行うことができる。

入力部１１０は、使用者から各種制御命令を入力される。例えば、入力部１１０は、使用者から動画再生命令を入力されるだけでなく、使用者から翻訳を希望する言語に対する設定命令、原文抽出命令、及び翻訳サービス実行命令等を入力され得る。以外にも、入力部１１０は、原語情報及び翻訳情報に対する保存命令を入力されるなど、多様な制御命令を入力され、制御部１７０は、入力された制御命令により、使用者端末１００内の構成要素の動作を制御することができる。原語情報及び翻訳情報についての具体的な説明は、後述する。

図１及び図２を参照すると、使用者端末１００には、使用者に各種情報を視覚的に提供するディスプレイ１２０が設けられてもよい。ディスプレイ１２０は、図１に示すように、使用者端末１００の一面に設けられてもよいが、これに限定されず、制限はない。

一実施形態によれば、ディスプレイ１２０は、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）、ＬＥＤ（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）、ＰＤＰ（ＰｌａｓｍａＤｉｓｐｌａｙＰａｎｅｌ）、ＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）等で実現されてもよいが、これらに限らず、制限はない。一方、上述のように、ディスプレイ１２０がタッチスクリーンパネル（ＴｏｕｃｈＳｃｒｅｅｎＰａｎｅｌ、ＴＳＰ）タイプで実現された場合は、入力部１１０の機能を代わりに行うこともできる。

タッチスクリーンパネルタイプで実現された場合、ディスプレイ１２０は、使用者が要請した動画を表示するだけでなく、ディスプレイ１２０上に表示されるユーザーインターフェースを介して、各種制御命令を入力され得る。

以下で説明されるユーザーインターフェースは、使用者と使用者端末１００との間の各種情報、命令の交換動作がさらに便利に行われるように、ディスプレイ１１０上に表示される画面をグラフィックで実現したグラフィックユーザーインターフェースであってもよい。

例えば、グラフィックユーザーインターフェースは、ディスプレイ１２０を介して表示される画面上において、特定領域には、使用者から各種制御命令を容易に入力されるためのアイコン、ボタン等が表示され、他の領域には、少なくとも一つのウィジェットを介して各種情報が表示されるように実現されてもよいなど、制限はない。

図３を参照すると、ディスプレイ１２０上には、動画再生命令を入力可能なアイコンＩ１、翻訳命令を入力可能なアイコンＩ２、及び上述した命令以外に、各種設定命令を入力可能なアイコンＩ３が含まれたグラフィックユーザーインターフェースが表示されてもよい。

制御部１７０は、制御信号を介して、ディスプレイ１２０上に、図３に示すようなグラフィックユーザーインターフェースが表示されるように制御する。ユーザーインターフェースを構成するウィジェット、アイコン等の表示方法、配置方法等は、アルゴリズムまたはプログラム形態のデータで実現され、使用者端末１００内のメモリに予め保存されてもよく、制御部１７０は、予め保存されたデータを用いて制御信号を生成し、生成した制御信号を介して、グラフィックユーザーインターフェースが表示されるように制御する。制御部１７０についての具体的な説明は、後述する。

一方、図２を参照すると、使用者端末１００には、各種サウンドを出力可能なスピーカー１３０が設けられてもよい。スピーカー１３０は、使用者端末１００の一面に設けられ、動画ファイルに含まれた各種サウンドを出力する。スピーカー１３０は、既に公知された多様な種類のサウンド出力装置により実現され、制限はない。
使用者端末１００には、通信網を介して、外部機器と各種データをやりとりする通信部１４０が設けられてもよい。

通信部１４０は、無線通信網または有線通信網を介して、外部機器と各種データをやりとりすることができる。ここで、無線通信網は、データが含まれた信号を無線でやりとりする通信網を意味する。

例えば、通信部１４０は、３Ｇ（３Ｇｅｎｅｒａｔｉｏｎ）、４Ｇ（４Ｇｅｎｅｒａｔｉｏｎ）、５Ｇ（５Ｇｅｎｅｒａｔｉｏｎ）等のような通信方式により、基地局を経て、端末間に無線信号を送受信することができ、以外にも、無線ラン（ＷｉｒｅｌｅｓｓＬＡＮ）、ワイファイ（Ｗｉ－Ｆｉ）、ブルートゥース（登録商標）（Ｂｌｕｅｔｏｏｔｈ）、ジグビー（Ｚｉｇｂｅｅ）、ＷＦＤ（Ｗｉ－ＦｉＤｉｒｅｃｔ）、ＵＷＢ（Ｕｌｔｒａｗｉｄｅｂａｎｄ）、赤外線通信（ＩｒＤＡ；ＩｎｆｒａｒｅｄＤａｔａＡｓｓｏｃｉａｔｉｏｎ）、ＢＬＥ（ＢｌｕｅｔｏｏｔｈＬｏｗＥｎｅｒｇｙ）、ＮＦＣ（ＮｅａｒＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎ）等のような通信方式を通じて、所定の距離以内の端末とデータが含まれた無線信号を送受信することができる。

また、有線通信網は、データが含まれた信号を有線でやりとりする通信網を意味する。例えば、有線通信網は、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ）、ＰＣＩ－ｅｘｐｒｅｓｓ、ＵＳＢ（ＵｎｉｖｅｒｓｅＳｅｒｉａｌＢｕｓ）等を含むが、これに限定されるものではない。以下で説明される通信網は、無線通信網と有線通信網の全てを含む。

通信部１４０は、通信網を介して、外部に位置したサーバーから動画をダウンロードされるだけでなく、動画内に含まれた国の言語に基づいて翻訳された情報を動画と一緒に外部端末に送信することもできるなど、送受信可能なデータには、制限がない。
図２を参照すると、使用者端末１００には、抽出部１５０が設けられてもよい。

翻訳サービスを提供するためには、まず、原語の認識が求められる。これにより、抽出部１５０は、動画ファイルを映像ファイルと音声ファイルに分離して生成してから、映像ファイル及び音声ファイルのうち少なくとも一つから原語情報を抽出することができる。

以下で説明される原語情報は、動画内に含まれた音声、手話等のような意思疎通手段から抽出された情報を意味し、原語情報は、音声またはテキストの形態で抽出されてもよい。以下、説明の便宜上、音声で構成された原語情報を音声原語情報とし、テキストで構成された原語情報をテキスト原語情報とする。例えば、動画に登場する人物が英語で「Ｈｅｌｌｏ」という音声を発話する場合、音声原語情報は、通話者が発話した音声の「Ｈｅｌｌｏ」であり、テキスト原語情報は、音声認識プロセスにより、音声の「Ｈｅｌｌｏ」を認識してから、認識の結果に基づいて変換した「Ｈｅｌｌｏ」のテキストそのものを意味する。

一方、意思疎通手段、例えば、意思疎通手段が音声であるかまたは手話であるかにより、原語情報を抽出する方法が異なり得る。以下では、まず、登場人物の音声が入った音声ファイルから音声原語情報を抽出する方法について説明する。

音声ファイル内には、多様な登場人物の音声が入っていることがあり、このような多様な音声が同時に出力されると、識別し難く、これにより、翻訳の正確度も低くなり得る。これにより、抽出部１５０は、音声ファイルに対して周波数帯域分析プロセスを適用して、登場人物のそれぞれに関する音声原語情報を抽出することができる。

音声は、性別、年齢、発音のトーン、発音のアクセント等により、個人毎に異なり、周波数帯域を分析すると、当該特性を把握することにより、音声別に個別的な識別が可能である。これにより、抽出部１５０は、音声ファイルの周波数帯域を分析し、分析の結果に基づき、動画内に登場する登場人物のそれぞれに対する音声を分離することにより、音声原語情報を抽出することができる。

抽出部１５０は、音声原語情報に対して音声認識プロセスを適用することにより、音声をテキストに変換したテキスト原語情報を生成することができる。抽出部１５０は、音声原語情報及びテキスト原語情報を通話者別にわけて保存してもよい。

周波数帯域分析プロセスにより、登場人物別に音声原語情報を抽出する方法、及び音声認識プロセスにより、音声原語情報からテキスト原語情報を生成する方法は、アルゴリズムまたはプログラム形態のデータで実現されて、使用者端末１００内に既に保存されていてもよく、抽出部１５０は、既に保存されたデータを用いて原語情報を分離して生成してもよい。

一方、動画内に登場する人物が、手話を使ってもよい。この場合、音声ファイルから音声原語情報を抽出してから、音声原語情報からテキスト原語情報を生成するような上述の方法とは異なり、抽出部１５０は、映像ファイルから直ちにテキスト原語情報を抽出することができる。以下、映像ファイルからテキスト原語情報を抽出する方法について説明する。

抽出部１５０は、映像ファイルに対して映像処理プロセスを適用して手話パターンを検出し、検出された手話パターンに基づき、テキスト原語情報を生成してもよい。映像処理プロセスの適用可否は、自動または手動で設定されてもよい。例えば、入力部１１０またはディスプレイ１２０を介して、使用者から手話翻訳要請命令を入力されると、抽出部１５０が映像処理プロセスにより手話パターンを検出してもよい。また他の例として、抽出部１５０は、自動で映像ファイルに対して映像処理プロセスを適用してもよいなど、制限はない。

映像処理プロセスにより手話パターンを検出する方法は、アルゴリズムまたはプログラム形態のデータで実現されて、使用者端末１００内に既に保存されていてもよく、抽出部１５０は、既に保存されたデータを用いて、映像ファイル上に含まれた手話パターンを検出し、検出した手話パターンからテキスト原語情報を生成してもよい。

抽出部１５０は、原語情報を人物情報にマッピングして保存してもよい。人物情報は、予め設定された方法により、任意で設定されるか、または動画ファイルから検出される登場人物の特性により、適応的に設定されてもよい。

例えば、抽出部１５０は、周波数帯域分析プロセスにより、音声を発話した登場人物の性別、年齢等を把握し、把握の結果に基づき、最も適合すると判断される登場人物の名前を任意で設定してマッピングしてもよい。

一実施形態として、周波数帯域分析プロセスにより音声を分析した結果、第１登場人物は、２０代男性であると把握され、第２登場人物は、４０代女性であると把握されると、抽出部１５０は、第１登場人物に関する原語情報については、人物情報をを「ミンス」と、第２登場人物に関する原語情報については、人物情報を「ミザ」と設定してマッピングしてもよい。
また他の例として、制御部１７０は、テキスト原語情報から検出された人物名を人物情報として設定してもよいなど、人物情報設定方法には、制限がない。

制御部１７０は、ディスプレイ１２０及びスピーカー１３０から原語情報を提供するとき、マッピングした人物情報を一緒に表示してもよく、翻訳情報を提供するときにも、マッピングした人物情報を一緒に表示してもよい。例えば、制御部１７０は、図６に示すように、自体的に設定した人物情報、原語情報、及び翻訳情報が一緒に提供されるように構成されたユーザーインターフェースがディスプレイ１２０上に表示されるように制御してもよい。

一方、マッピングされた人物情報は、使用者が変更してもよく、マッピングされる人物情報が上述の内容に限定されるものではない。例えば、使用者は、入力部１１０及びタッチスクリーンタイプで実現されたディスプレイ１２０を介して、希望の人物情報を設定してもよいなど、制限はない。

図２を参照すると、使用者端末１００には、翻訳部１６０が設けられてもよい。翻訳部１６０は、原語情報を、使用者の希望の言語で翻訳して、翻訳情報を生成することができる。使用者から入力された国の言語で原語情報を翻訳するにあたって、翻訳部１６０は、翻訳結果をテキストで生成してもよく、音声で生成してもよい。以下、説明の便宜上、原語情報が他の国の言語で翻訳された情報を翻訳情報とし、翻訳情報も原語情報のように音声またはテキストの形態で構成されてもよい。このとき、テキストで構成された翻訳情報についてはテキスト翻訳情報とし、音声で構成された翻訳情報については音声翻訳情報とする。

音声翻訳情報は、特定の音声でダビングされた音声情報であり、翻訳部１６０は、予め設定された音声または使用者の設定したトーンでダビングした音声翻訳情報を生成することができる。使用者毎に聴取しようとするトーンは異なり得る。例えば、特定の使用者は、男性の声のトーンの音声翻訳情報を希望し、他の使用者は、女性の声のトーンの音声翻訳情報を希望し得る。または、翻訳部１６０は、上述した周波数帯域分析プロセスにより識別された登場人物の性別に合わせて、適応的にトーンを設定してもよい。

翻訳方法及び翻訳時に用いられる音声トーンの設定方法は、アルゴリズムまたはプログラム形態のデータが使用者端末１００内に既に保存されてもよく、翻訳部１６０は、既に保存されたデータを用いて翻訳を行ってもよい。
図２を参照すると、使用者端末１００には、使用者端末１００の全般的な動作を制御する制御部１７０が設けられてもよい。

制御部１７０は、各種演算処理が可能なＭＣＵ（ＭｉｃｒｏＣｏｎｔｒｏｌＵｎｉｔ）のようなプロセッサ、使用者端末１００の動作を制御するための制御プログラム、あるいは制御データを記憶するかまたはプロセッサが出力する制御命令データや映像データを仮に記憶するメモリで実現されてもよい。

このとき、プロセッサ及びメモリは、使用者端末１００に内蔵されたシステムオンチップに集積されてもよい。ただし、使用者端末１００に内蔵されたシステムオンチップが一つのみ存在するものではなくてもよいので、一つのシステムオンチップに集積されるものに制限されない。

メモリは、ＳＲＡＭ、ＤＲＡＭ等の揮発性メモリ（一時保存メモリとも称する)、及びフラッシュメモリ、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌＹＭｅｍｏｒｙ）等の不揮発性メモリを含んでもよい。ただし、これに限定されるものではなく、当業界に知られている任意の別の形態で実現されてもよい。

一実施形態として、不揮発性メモリには、使用者端末１００の動作を制御するための制御プログラム及び制御データが保存されてもよく、揮発性メモリには、不揮発性メモリから制御プログラム及び制御データを読み込んで仮に保存されるか、プロセッサが出力する制御命令データ等が仮に保存されてもよいなど、制限はない。

制御部１７０は、メモリに保存されたデータに基づき、制御信号を生成し、生成した制御信号により、使用者端末１００内の構成要素の全般的な動作を制御することができる。

制御部１７０は、制御信号を介して、ディスプレイ１２０上に多様な情報が表示されるように制御することができる。例えば、制御部１７０は、制御信号を介して、ディスプレイ１２０上に、使用者が再生を要請した動画を再生してもよい。一実施形態として、使用者が、図３に示すアイコンＩ２をタッチすると、制御部１７０は、使用者端末１００の構成要素を制御し、使用者が設定した国の言語で翻訳されたテキスト翻訳情報及び音声翻訳情報のうち少なくとも一つを提供してもよい。

例えば、制御部１７０は、ディスプレイ１２０上に、動画と一緒にテキスト翻訳情報が表示されるように制御してもよく、制御部１７０は、スピーカー１３０から音声翻訳情報が送り出されるように制御してもよい。

制御部１７０が、原語情報及び翻訳情報を提供する方法は様々である。例えば、制御部１７０は、図４に示すように、動画にテキスト原語情報を字幕でマッピングさせてから、ディスプレイ１２０上に表示されるように制御してもよい。

また他の例として、制御部１７０は、図５に示すように、動画にテキスト原語情報及びテキスト翻訳情報を字幕でマッピングさせてから、ディスプレイ１２０上に一緒に表示されるように制御してもよい。以外にも、制御部１７０は、テキスト原語情報がまず表示されてから、予め設定された間隔後に、テキスト翻訳情報が字幕で表示されるように制御してもよい。

また他の例として、制御部１７０は、動画において登場人物が発話する度に、音声原語情報がスピーカー１３０から出力されてから、予め設定された間隔後に、特定音声でダビングされた音声翻訳情報が出力されるように制御してもよく、このとき、音声原語情報と音声翻訳情報の出力サイズを異なって制御してもよいなど、原文／翻訳サービスを提供する方法には、制限がない。

上述した動画ファイルを映像ファイルと音声ファイルに分離して生成するプロセス、映像ファイルと音声ファイルから原語情報を抽出するプロセス、原語情報から翻訳情報を生成するプロセスは、使用者端末１００で直接行ってもよいが、演算処理の過負荷を防ぐために、外部に設けられた装置で別途に行われてもよい。この場合、外部に設けられた装置は、使用者端末１００から翻訳命令を伝達されると、上述したプロセスを行ってから、結果物を使用者端末１００に送信してもよいなど、制限はない。
以下、動画に対する翻訳サービスを支援する使用者端末の動作について、簡単に説明する。
図７は、一実施形態による使用者端末の動作フローチャートを概略的に示す図である。

図７を参照すると、使用者端末は、動画ファイルを映像ファイルと音声ファイルに分離して生成することができる７００。ここで、動画ファイルは、使用者端末に既に保存されているファイルであってもよく、通信網を介して、リアルタイムでストリーミング中のファイルであってもよいなど、制限はない。

例えば、使用者端末は、内臓されたメモリに保存された動画ファイルを読み込み、これに基づき、映像ファイル及び音声ファイルを生成してもよく、また他の例として、使用者端末は、通信網を介して、リアルタイムで動画ファイルデータを受信し、これに基づき、映像ファイル及び音声ファイルを生成してもよい。
使用者端末は、映像ファイル及び音声ファイルのうち少なくとも一つを用いて、原語情報を抽出することができる７１０。

ここで、原語情報とは、原本の動画ファイル内に含まれた意思疎通手段を音声及びテキストのうち少なくとも一つの形態で示した情報であって、特定国の言語で翻訳する前の情報に相当する。

使用者端末は、動画内に登場する人物が使用する意思疎通手段により、映像ファイル及び音声ファイルの全部を用いるか、または一つのみを用いて原語情報を抽出することができる。

例えば、動画内に登場する人物のいずれか一人が音声を用いて対話をするとともに、他の通話者は、手話を用いて対話をしている場合、使用者端末は、映像ファイルから手話パターンを、音声ファイルから音声を識別して原語情報を抽出することができる。

また他の例として、動画内に登場する人物が音声のみを用いて対話中の場合、使用者端末は、音声ファイルのみを用いて原語情報を抽出し、また他の例として、動画内に登場する人物が手話のみを用いて対話中の場合、使用者端末は、映像ファイルのみを用いて原語情報を抽出することができる。
使用者端末は、原語情報を用いて翻訳情報を生成することができる７２０。

このとき、使用者端末は、自体的に原語情報を翻訳して翻訳情報を生成してもよく、演算過負荷を防止するために、実施形態による翻訳サービスを提供する外部サーバに原語情報を送信し、翻訳情報を受信して提供してもよいなど、実現形態には制限がない。

以外にも、使用者端末は、動画ファイルに、原語情報及び翻訳情報をマッピングさせてから、通信網を介して、外部端末と共有することにより、他の使用者と一緒にコンテンツを楽しむことができる。

使用者端末は、原語情報及び翻訳情報のうち少なくとも一つを、動画と一緒に提供してもよく、提供方法には、上述のように、制限がない。実施形態による使用者端末は、多様な国の言語で作製された動画コンテンツを、使用者がさらに容易に楽しめるようにするとともに、効果的な言語教育が可能であるという長所がある。

明細書に記載された実施形態と図面に示された構成は、開示された発明の好適な一例に過ぎず、本出願の出願時点において、本明細書の実施形態と図面を代替可能な様々な変形例があり得る。

また、本明細書で用いられた用語は、実施形態を説明するために用いられたものであって、開示された発明を制限及び／または限定しようとする意図ではない。単数の表現は、文脈からみて、明らかに異なる意味を有さない限り、複数の表現を含む。本明細書において、「含む」または「備える」のような用語は、明細書上に記載された特徴、数字、ステップ、動作、構成要素、部品、またはこれらの組合せを指すためのものであり、一つまたはそれ以上の他の特徴、数字、ステップ、動作、構成要素、部品、またはこれらの組合せの存在または付加可能性を予め排除するものではない。

また、本明細書で用いられた「第１」、「第２」等のように序数を含む用語は、多様な構成要素を説明するために用いられるが、前記構成要素は、前記用語により限定されず、前記用語は、一つの構成要素を他の構成要素から区別する目的でのみ用いられる。例えば、本発明の権利範囲を逸脱しない範囲内で、第１構成要素は第２構成要素と命名されてもよく、同様に、第２構成要素も第１構成要素と命名されてもよい。「及び／または」との用語は、複数の関連して記載された項目の組合せまたは複数の関連して記載された項目のうちのいずれかの項目を含む。

また、本明細書の全体で用いられる「～部（ｕｎｉｔ）」、「～器」、「～ブロック（ｂｌｏｃｋ）」、「～部材（ｍｅｍｂｅｒ）」、「～モジュール（ｍｏｄｕｌｅ）」等の用語は、少なくともいずれか一つの機能や動作を処理する単位を意味してもよい。例えば、ソフトウェア、ＦＰＧＡまたはＡＳＩＣのようなハードウェアを意味してもよい。しかし、「～部」、「～器」、「～ブロック」、「～部材」、「～モジュール」等がソフトウェアまたはハードウェアに限定される意味ではなく、「～部」、「～器」、「～ブロック」、「～部材」、「～モジュール」等は、接近できる保存媒体に保存され、一つまたはそれ以上のプロセッサにより行われる構成であってもよい。

１００使用者端末
１１０入力部
１２０ディスプレイ

Claims

動画ファイルから分離して生成した映像ファイル及び音声ファイルのうち少なくとも一つに基づき、登場人物のそれぞれに関する原語情報を抽出する抽出部と、
前記原語情報を、選択された言語により翻訳した翻訳情報を生成する翻訳部と、
前記原語情報及び翻訳情報のうち少なくとも一つを提供する制御部と、を含む
ことを特徴とする使用者端末。
前記原語情報は、音声原語情報及びテキスト原語情報のうち少なくとも一つを含み、
前記翻訳情報は、音声翻訳情報及びテキスト翻訳情報のうち少なくとも一つを含む
請求項１に記載の使用者端末。
前記抽出部は、
前記音声ファイルに対して周波数帯域分析プロセスを適用して、登場人物のそれぞれに関する音声原語情報を抽出し、
前記抽出した音声原語情報に対して音声認識プロセスを適用してテキスト原語情報を生成する
請求項１に記載の使用者端末。
前記抽出部は、
前記映像ファイルに対して映像処理プロセスを適用して手話パターンを検出し、前記検出した手話パターンに基づき、テキスト原語情報を抽出する
請求項１に記載の使用者端末。
前記抽出部は、
周波数帯域分析プロセスにより、前記音声ファイルに登場する登場人物の年齢及び性別のうち少なくとも一つを判断し、判断の結果に基づいて設定した人物情報を、前記原語情報にマッピングして保存する
請求項１に記載の使用者端末。
動画ファイルから分離して生成した映像ファイル及び音声ファイルのうち少なくとも一つに基づき、登場人物のそれぞれに関する原語情報を抽出するステップと、
前記原語情報を、選択された言語により翻訳した翻訳情報を生成するステップと、
前記原語情報及び翻訳情報のうち少なくとも一つを提供するステップと、を含む
ことを特徴とする使用者端末の制御方法。
前記抽出するステップは、
前記動画ファイル内に含まれた意思疎通手段により、映像ファイル及び音声ファイルのうち少なくとも一つに基づき、登場人物のそれぞれに関する原語情報を抽出するステップを含む
請求項６に記載の使用者端末の制御方法。
前記抽出するステップは、
前記音声ファイルに対して周波数帯域分析プロセスを適用して、通話者のそれぞれに関する音声原語情報を抽出するステップと、
前記抽出した音声原語情報に対して音声認識プロセスを適用してテキスト原語情報を生成するステップと、を含む
請求項６に記載の使用者端末の制御方法。
前記抽出するステップは、
前記映像ファイルに対して映像処理プロセスを適用して手話パターンを検出し、前記検出した手話パターンに基づき、テキスト原語情報を抽出するステップを含む
請求項６に記載の使用者端末の制御方法。
前記抽出するステップは、
周波数帯域分析プロセスにより、前記音声ファイルに登場する登場人物の年齢及び性別のうち少なくとも一つを判断し、判断の結果に基づいて設定した人物情報を、前記原語情報にマッピングして保存するステップをさらに含む
請求項６に記載の使用者端末の制御方法。