JP6900334B2

JP6900334B2 - 映像出力装置、映像出力方法および映像出力プログラム

Info

Publication number: JP6900334B2
Application number: JP2018028052A
Authority: JP
Inventors: 仁克大田; 直也原; 滉治山岡; ユキヤ; 崇章須永; 嶺齋藤
Original assignee: NTT Communications Corp
Current assignee: NTT Communications Corp
Priority date: 2018-02-20
Filing date: 2018-02-20
Publication date: 2021-07-07
Anticipated expiration: 2038-02-20
Also published as: JP2019144817A

Description

本発明は、映像出力装置、映像出力方法および映像出力プログラムに関する。

従来、利用者が外国語で何かを伝えようとした場合に、相手に伝えたい言葉（フレーズ）を日本語で翻訳ツールに入力して外国語に翻訳することが知られている。ところが、このような翻訳ツールでは、シチュエーションに応じた言葉のニュアンスが表現できない場合がある。

このような場合には、シチュエーションに応じた言葉のニュアンスを表現するために、外国語の字幕付きの映像を見つけることも考えられる。例えば、動画サイト等から外国語の字幕付きの映像を見つけ出す。

特開２００６−１４８３９７号公報

しかしながら、従来の手法では、シチュエーションに応じた字幕付きの映像を容易に見つけることができなかったという課題があった。例えば、従来の手法では、動画サイト等の膨大な映像のなかから、利用者が意図する１シーンを手作業で見つけることに手間と時間が掛かってしまい、字幕付きの映像を容易に見つけることができない場合があった。

また、利用者が伝えようとするフレーズを外国語に翻訳し、そのフレーズに対応する字幕付きの映像を見つけたとしても、利用者が外国語に精通していない場合には、見つけた映像が相手に理解してもらえるニュアンスなのか否かが判断できない。このため、シチュエーションに応じた字幕付きの映像を適切に見つけることができない場合があった。

上述した課題を解決し、目的を達成するために、本発明の映像出力装置は、翻訳対象のフレーズの入力を受け付ける受付部と、前記受付部によって受け付けられたフレーズを所定の言語に翻訳し、該翻訳の結果に基づいて、シチュエーションごとにクラスタリングされた字幕データから一つまたは複数の字幕データを選択する選択部と、前記選択部によって選択された前記字幕データに対応する字幕付きの映像に関する情報をユーザ端末に出力する出力部とを有することを特徴とする。

また、本発明の映像出力方法は、映像出力装置によって実行される映像出力方法であって、翻訳対象のフレーズの入力を受け付ける受付工程と、前記受付工程によって受け付けられたフレーズを所定の言語に翻訳し、該翻訳の結果に基づいて、シチュエーションごとにクラスタリングされた字幕データから一つまたは複数の字幕データを選択する選択工程と、前記選択工程によって選択された前記字幕データに対応する字幕付きの映像に関する情報をユーザ端末に出力する出力工程とを含んだことを特徴とする。

また、本発明の映像出力プログラムは、翻訳対象のフレーズの入力を受け付ける受付ステップと、前記受付ステップによって受け付けられたフレーズを所定の言語に翻訳し、該翻訳の結果に基づいて、シチュエーションごとにクラスタリングされた字幕データから一つまたは複数の字幕データを選択する選択ステップと、前記選択ステップによって選択された前記字幕データに対応する字幕付きの映像に関する情報をユーザ端末に出力する出力ステップとをコンピュータに実行させることを特徴とする。

本発明によれば、シチュエーションに応じた字幕付きの映像を容易に出力することができるという効果を奏する。

図１は、第１の実施形態に係る映像出力装置の構成例を示すブロック図である。図２は、字幕データ記憶部に記憶されるデータの一例を示す図である。図３は、映像データ記憶部に記憶されるデータの一例を示す図である。図４は、第１の実施形態に係る映像出力装置における字幕データをクラスタリングする処理を説明する図である。図５は、翻訳対象の日本語のフレーズとシチュエーションの入力画面の一例を示す図である。図６は、字幕付きの映像の出力結果画面の一例を示す図である。図７は、ユーザの習熟度に応じた字幕付きの映像の出力処理を説明する図である。図８は、第１の実施形態に係る映像出力装置の字幕付き映像を出力する処理の一連の流れを説明する図である。図９は、シチュエーションとしてカジュアルが選択された場合の出力結果例を説明する図である。図１０は、シチュエーションとしてフォーマルが選択された場合の出力結果例を説明する図である。図１１は、シチュエーションとしてビジネスが選択された場合の出力結果例を説明する図である。図１２は、第１の実施形態に係る映像出力装置における字幕付きの映像の出力処理の流れの一例を示すフローチャートである。図１３は、第１の実施形態に係る映像出力装置における字幕データをクラスタリングする処理の流れの一例を示すフローチャートである。図１４は、映像出力プログラムを実行するコンピュータを示す図である。

以下に、本願に係る映像出力装置、映像出力方法および映像出力プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態により本願に係る映像出力装置、映像出力方法および映像出力プログラムが限定されるものではない。

［第１の実施形態］
以下の実施の形態では、第１の実施形態に係る映像出力装置１０の構成、映像出力装置１０の処理の流れを順に説明し、最後に第１の実施形態による効果を説明する。

［映像出力装置の構成］
図１は、第１の実施形態に係る映像出力装置の構成例を示すブロック図である。図１を用いて、映像出力装置１０の構成を説明する。図１に示すように、映像出力装置１０は、ユーザ端末２０およびサーバ３０とネットワーク４０を介して接続されている。

ここでユーザ端末２０は、例えば、デスクトップ型ＰＣ、タブレット型ＰＣ、ノート型ＰＣ、携帯電話機、スマートフォン、ＰＤＡ（Personal Digital Assistant）等の情報処理装置である。また、サーバ３０は、例えば、字幕付きの映像データ等の動画を配信する動画サイトのサーバ装置である。なお、図１に示す構成は一例にすぎず、具体的な構成や各装置の数は特に限定されない。

また、図１に示すように、この映像出力装置１０は、通信処理部１１、制御部１２および記憶部１３を有する。以下に映像出力装置１０が有する各部の処理を説明する。

通信処理部１１は、各種情報に関する通信を制御する。例えば、通信処理部１１は、翻訳対象のフレーズのみ、もしくは、翻訳対象のフレーズおよび該フレーズが適用されるシチュエーションをユーザ端末２０から受信する。また、通信処理部１１は、サーバ３０から字幕付きの映像データを受信する。

記憶部１３は、制御部１２による各種処理に必要なデータおよびプログラムを格納するが、特に本発明に密接に関連するものとしては、字幕データ記憶部１３ａおよび映像データ記憶部１３ｂを有する。例えば、記憶部１３は、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置などである。なお、字幕データ記憶部１３ａおよび映像データ記憶部１３ｂに記憶されるデータは、後述する収集部１２ａおよびクラスタリング部１２ｂによって事前に格納されたデータである。

字幕データ記憶部１３ａは、シチュエーションごとにクラスタリングされた映像の字幕データに関する情報を記憶する。ここで字幕データとは、映像に含まれる外国語の字幕のフレーズを示すものとする。例えば、字幕データ記憶部１３ａは、図２に例示するように、シチュエーションとして、「カジュアル」、「フォーマル」、「ビジネス」の３つのシチュエーションにクラスタリングされた字幕データを記憶する。なお、以下の説明では「カジュアル」、「フォーマル」、「ビジネス」の３つのシチュエーションが設定されている場合を例に挙げて適宜説明するが、この例に限定されるものではなく、例えば、「デート」や「ジョーク」等の他のシチュエーションが設定されていてもよい。図２は、字幕データ記憶部に記憶されるデータの一例を示す図である。図２の例では、図２の（１）にシチュエーション「カジュアル」にクラスタリングされた字幕データを例示し、図２の（２）にシチュエーション「フォーマル」にクラスタリングされた字幕データを例示し、図２の（３）にシチュエーション「ビジネス」にクラスタリングされた字幕データを例示しているものとする。

また、図２の例では、字幕データ記憶部１３ａは、字幕データを一意に識別する「字幕ＩＤ」と、字幕のフレーズを示す「字幕」と、字幕データの特徴ベクトルを示す「ベクトル」と、字幕が付されていた映像を一意に識別する「映像ＩＤ」と、映像において字幕が表示される開始時間を示す「タイムコード」とを対応付けて記憶する。なお、図２に例示した情報は一例であり、これに限定されるものではない。また、図２に例示するベクトルは、例えば、必要なデータの特徴をｎ次元の数ベクトルで表記される特徴ベクトルであるが、ここではベクトルＡ等と簡略的に記載している。また、図２に例示するタイムコードは、映像において字幕が表示される開始時間のみを記載しているが、例えば、「１：３１〜１：３６」というように、開始時間と終了時間を含むものであってもよい。

具体例を挙げて説明すると、字幕データ記憶部１３ａは、図２の（１）に例示する「カジュアル」のクラスタリングにおいて、字幕ＩＤ「Ｃ１」と、字幕「Ｔｈａｎｋｓ」と、ベクトル「ベクトルＡ」と、映像ＩＤ「１」と、タイムコード「１：３１」とを対応付けて記憶する。これは、字幕ＩＤ「Ｃ１」の字幕「Ｔｈａｎｋｓ」について、特徴ベクトルが「ベクトルＡ」であり、「Ｔｈａｎｋｓ」の字幕が表示される映像の映像ＩＤが「１」であり、「Ｔｈａｎｋｓ」の字幕が表示されるタイムコードが「１：３１」であることを意味する。

映像データ記憶部１３ｂは、字幕付きの映像に関するデータを記憶する。例えば、映像データ記憶部１３ｂは、図３に例示するように、映像を一意に識別する「映像ＩＤ」と、映像のタイトルである「動画タイトル」と、映像を投稿した投稿者が付したタグである「タグ」とを対応付けて記憶する。図３の例を挙げて説明すると、映像データ記憶部１３ｂは、映像ＩＤ「１」と、動画タイトル「映画「ＡＢＣ」予告」と、タグ「サスペンス」とを対応付けて記憶する。これは、映像ＩＤ「１」の映像のタイトルが「映画「ＡＢＣ」予告」であり、投稿者に「サスペンス」というタグが付されたことを意味する。なお、字幕付きの映像コンテンツについては、映像データ記憶部１３ｂが記憶しておいてもよいし、映像出力装置１０側では記憶しなくてもよい。

制御部１２は、各種の処理手順などを規定したプログラムおよび所要データを格納するための内部メモリを有し、これらによって種々の処理を実行するが、特に本発明に密接に関連するものとしては、収集部１２ａ、クラスタリング部１２ｂ、受付部１２ｃ、選択部１２ｄおよび出力部１２ｅを有する。ここで、制御部１２は、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphical Processing Unit）などの電子回路やＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などの集積回路である。

収集部１２ａは、外部のサーバ３０から外国語の字幕付きの映像のデータを収集する。例えば、収集部１２ａは、動画を配信する動画サイトのサーバ３０から映像コンテンツ、字幕データおよびタイムコードを収集する。また、収集部１２ａは、収集した映像コンテンツ、映像コンテンツの映像ＩＤ、動画タイトルおよびタグの情報を映像データ記憶部１３ｂに格納する。なお、映像コンテンツについては映像データ記憶部１３ｂに格納しなくともよい。

クラスタリング部１２ｂは、字幕付きの映像に含まれる各字幕データをベクトル化し、該各字幕データのベクトルに応じて、各字幕データを各シチュエーションにクラスタリングする。例えば、クラスタリング部１２ｂは、外国語の字幕付きの映像に含まれる字幕データを抽出し、各字幕データをベクトル化する。なお、各字幕データのベクトルへの変換手法については、特に限定されるものではなく、例えば、機械学習で用いられている既存の手法を利用するものとする。

そして、クラスタリング部１２ｂは、各字幕データをベクトル化した後、各字幕データのベクトルに応じて、カジュアル、フォーマルおよびビジネスのうちいずれかのシチュエーションに各字幕データをクラスタリングする。なお、各字幕データをクラスタリングする処理をＡＩ（Artificial Intelligence）に実行させるようにしてもよい。例えば、クラスタリング部１２ｂは、ラベル付けされた字幕データを教師データとして構築されたモデルを用いて、各字幕データをクラスタリングするよういしてもよい。

ここで、図４を用いて、第１の実施形態に係る映像出力装置１０における字幕データをクラスタリングする一連の処理の流れを説明する。図４は、第１の実施形態に係る映像出力装置における字幕データをクラスタリングする処理を説明する図である。図４に例示するように、映像出力装置１０は、動画を配信する動画サイトのサーバ３０から外国語の字幕付きの映像を収集する（図４の（１）参照）。

そして、映像出力装置１０は、字幕付きの映像に含まれる各字幕データをベクトル化し、各字幕データを各シチュエーションにクラスタリングする処理をＡＩによって実行する（図４の（２）参照）。その後、映像出力装置１０は、クラスタリングされた結果に応じて、字幕データを字幕データ記憶部１３ａに格納する（図４の（３）参照）。

なお、上述した映像データを収集したり、クラスタリングしたりする処理は、字幕データ記憶部１３ａおよび映像データ記憶部１３ｂに記憶するデータを構築するための処理であり、後述の字幕付きの映像データを出力する処理のために事前に行われる処理である。このため、映像出力装置１０が、収集部１２ａおよびクラスタリング部１２ｂを有していなくともよく、例えば、他の装置で映像データの収集やクラスタリングを行い、字幕データ記憶部１３ａおよび映像データ記憶部１３ｂに記憶するデータを他の装置から予め受信してもよい。

受付部１２ｃは、翻訳対象のフレーズの入力および該フレーズが適用されるシチュエーションの選択を受け付ける。例えば、受付部１２ｃは、ユーザ端末２０に表示された入力画面に入力された翻訳対象の日本語のフレーズとシチュエーションとを受け付ける。ここで、図５の例を用いて、翻訳対象の日本語のフレーズとシチュエーションの入力画面の一例について説明する。図５は、翻訳対象の日本語のフレーズとシチュエーションの入力画面の一例を示す図である。

図５に例示するように、ユーザ端末２０では、日本語のフレーズを入力するためのテキストボックスと、シチュエーションを選択するためのプルダウンリストと、字幕付きの映像の出力を指示するためのボタンとが表示される。例えば、図５に例示するように、ユーザ端末２０に表示された入力画面において、テキストボックスに「ありがとう」と入力し、プルダウンリストからシチュエーションとして「カジュアル」を選択した上で、「ＳＥＡＲＣＨ」と記載されたボタンを押下することで、翻訳対象のフレーズ「ありがとう」および該フレーズが適用されるシチュエーション「カジュアル」がユーザ端末２０から映像出力装置１０に送信される。なお、ユーザがシチュエーションの選択を行う場合に限定されるものではなく、例えば、ユーザがシチュエーションの選択せずに、映像出力装置１０が、ユーザによって入力された日本語のフレーズから自動でシチュエーションを決定してもよい。

選択部１２ｄは、受付部１２ｃによって受け付けられたフレーズを所定の言語に翻訳し、該翻訳の結果と受付部１２ｃによって受け付けられたシチュエーションに基づいて、シチュエーションごとにクラスタリングされた字幕データから一つまたは複数の字幕データを選択する。なお、フレーズを翻訳する処理については、どのような手法であってもよく、例えば、既存の翻訳ツール等を用いて翻訳してもよい。

また、選択部１２ｄは、例えば、翻訳の結果をベクトル化し、シチュエーションごとにクラスタリングされた字幕データのうち、選択されたシチュエーションの字幕データのベクトルのなかから翻訳の結果のベクトルと距離が近い字幕データを選択する。

ここで、字幕データを選択する処理をＡＩに実行させるようにしてもよい。例えば、選択部１２ｄは、翻訳の結果のベクトルと受付部１２ｃによって受け付けられたシチュエーションを入力として、翻訳の結果のベクトルと距離が近い字幕データを選択するための学習済モデルを用いて、シチュエーションごとにクラスタリングされた映像の字幕データから一つまたは複数の字幕データを選択する。なお、選択する字幕データの数は、どのように決定されてもよく、例えば、予め決められていてもよいし、ユーザによって任意に設定可能であってもよい。

出力部１２ｅは、選択部１２ｄによって選択された字幕データに対応する字幕付きの映像に関する情報をユーザ端末２０に出力する。具体的には、出力部１２ｅは、選択部１２ｄによって選択された字幕データに対応する映像のタイムコード情報が示す開始時間を基準として、該開始時間以前のタイムコード情報を用いて、字幕付きの映像に関する情報をユーザ端末２０に出力する。ここで、出力部１２ｅは、字幕付きの映像に関する情報として、字幕付きの映像そのものをユーザ端末２０に出力してもよいし、字幕付きの映像にアクセスするためのＵＲＬをユーザ端末２０に出力してもよい。例えば、出力部１２ｅは、選択部１２ｄによって選択された字幕データに対応する映像ＩＤおよびタイムコードから字幕付きの映像にアクセスするためのＵＲＬを生成し、該ＵＲＬを用いて、字幕付き映像をサーバ３０から取得し、タイムコードが示すシーンから字幕付きの映像の再生が開始されるように映像付き映像をユーザ端末２０に出力する。また、例えば、出力部１２ｅは、選択部１２ｄによって選択された字幕データに対応する字幕付きの映像にアクセスするためのＵＲＬをユーザ端末２０に出力してもよい。この場合には、ユーザ端末２０側でＵＲＬにアクセスして字幕付き映像をサーバ３０から取得し、取得した映像付き映像を再生可能に表示する。

ここで、図６の例を用いて、字幕付きの映像の出力結果画面について説明する。図６は、字幕付きの映像の出力結果画面の一例を示す図である。なお、図６の出力結果画面は、前述の図５に示したようにテキストボックスに「ありがとう」と入力し、シチュエーションとして「カジュアル」を選択した場合に出力された出力結果画面の一例である。

図６に例示するように、ユーザ端末２０において、字幕付きの映像の出力結果画面として、３つの映像データが表示されている。図６に例示するように、出力結果画面では、各映像データについて、映像の中央付近に映像を再生する再生ボタンが表示され、映像の上部に動画タイトルが表示され、映像の下部に英語のセリフが表示されている。例えば、図６の左側の映像では、動画タイトルとして「映画「ＡＢＣ」予告」が表示され、映像中の英語のセリフとして「Ｔｈａｎｋｓ」が表示されている。このように、映像出力装置１０では、ユーザが翻訳対象のフレーズを入力しシチュエーションを選択するだけで、シチュエーションに応じた字幕付きの映像を容易に出力することができる。

また、出力部１２ｅは、選択部１２ｄによって選択された字幕データに対応する映像のタイムコード情報が示す開始時間より所定時間前（例えば、３秒前）の開始時間のタイムコード情報を用いて、字幕付きの映像に関する情報をユーザ端末２０に出力するようにしてもよい。例えば、出力部１２ｅは、選択部１２ｄによって選択された字幕データに対応する映像ＩＤ「１」の映像のタイムコードが「１：３１」である場合には、予め決められた３秒前の「１：２８」から始まる映像を出力する。このように、字幕付きの映像を該当のフレーズが登場するシーンよりも少し前のシーンから見られるように表示することで、この映像の１シーンでなぜ該当のフレーズが出てきたのかを分かるように映像を出力することが可能である。また、上記した所定時間は、予め決められた時間に限定されるものではなく、例えば、ユーザが任意に設定できるようにしてもよい。

また、上記のように予め決められた所定時間前のタイムコードの字幕付きの映像を出力した場合に、映像が途中から再生されてユーザに分かり難い映像となる場合があるため、出力部１２ｅは、選択部によって選択された字幕データに対応する映像のタイムコード情報と、映像における各シーンの先頭を示すチャプタデータまたはインデックスデータを用いて、字幕付きの映像に関する情報をユーザ端末２０に出力することで、シーンが切り替わる先頭の箇所から再生するようにしてもよい。例えば、出力部１２ｅは、チャプタが付いている映像の場合には、字幕データに対応する映像のタイムコードの直前にあるチャプタの先頭から映像を再生するようにしてもよい。

また、出力部１２ｅは、所定の言語に対するユーザの習熟度に応じて所定時間を動的に決定するようにしてもよい。例えば、出力部１２ｅは、外国語に対するユーザの習熟度に応じて所定時間を決定し、選択部１２ｄによって選択された字幕データに対応する映像のタイムコード情報が示す開始時間より所定時間前の開始時間のタイムコード情報を用いて、字幕付きの映像を出力するようにしてもよい。なお、ここでユーザの習熟度とは、どのように決められたものでもよく、例えば、ユーザごとに予め設定されているものであってもよいし、ユーザ自身によって入力されたものであってもよい。また、習熟度と所定時間との対応付けについても、任意に設定できるものとする。さらに、習熟度が、所定のパラメータに基づいて自動的に設定されてもよい。例えば、ユーザが所定の外国語学習コンテンツの利用時間や利用回数等を基に自動的に習熟度を設定するようにしてもよい。また、同じユーザであっても映像のジャンルごとに習熟度を設定するようにしてもよい。例えば、映像のジャンルが「旅行」については、習熟度が「高」、映像のジャンルが「料理」については、習熟度が「低」と設定し、出力する映像のジャンル「旅行」である場合には、習熟度「高」、出力する映像のジャンル「料理」である場合には、習熟度「低」として、所定時間を決定するようにしてもよい。また、ジャンルと習熟度をそれぞれ独立したパラメータとして扱ってもよく、ジャンルに応じて所定時間を変更してもよいし、習熟度に応じて所定時間を変更するようにしてもよい。

ここで、図７を用いて、ユーザの習熟度に応じた字幕付きの映像の出力処理について説明する。図７は、ユーザの習熟度に応じた字幕付きの映像の出力処理を説明する図である。なお、図７の例では、習熟度が「高」、「中」、「低」の３段階で分かれている場合を例に説明する。図７に例示するように、出力部１２ｅは、選択部１２ｄによって選択された字幕データに対応する映像のタイムコードが「１：３１」であり、ユーザの習熟度が「高」である場合には、所定時間を「３秒」に決定し、「１：３１」から３秒遡った「１：２８」から始まる映像を出力する。また、出力部１２ｅは、ユーザの習熟度が「中」である場合には、所定時間を「１０秒」に決定し、「１：３１」から１０秒遡った「１：２１」から始まる映像を出力する。また、出力部１２ｅは、ユーザの習熟度が「低」である場合には、所定時間を「２０秒」に決定し、「１：３１」から２０秒遡った「１：１１」から始まる映像を出力する。なお、出力した映像にタイムコードの数字を表示するようにしてもよいし、タイムコードの数字を表示しなくてもよい。また、タイムコードついての具体的な数値や表示態様等についてはあくまで一例であり、これに限定されるものではない。

このように、出力部１２ｅは、ユーザの習熟度が高いほど該当のフレーズが登場するシーンの直前から見られるように表示し、ユーザの習熟度が低いほど該当のフレーズが登場するシーンから遡ったシーンから見られるように表示する。このため、例えば、ユーザの入力した日本語が「チェックインお願いします」であって、映像がホテルのチェックイン時の動画である場合に、習熟度が高いユーザはチェックイン時のやり取りのシーンをいきなり見ることができ、一方、習熟度が低いユーザはホテルに入ってくるシーンから見ることができるので、映像においてなぜ入力したフレーズが出てきているかが分かり易くなる。このため、出力部１２ｅは、ユーザの習熟度に応じて、最適な字幕付き映像を出力することができる。

上述したように、第１の実施形態に係る映像出力装置１０では、利用が選択したシチュエーションに基づき、利用者が相手に伝えたいフレーズとして利用できるような字幕付き映像を利用者に提供することが可能である。ここで、図８を用いて、第１の実施形態に係る映像出力装置１０の字幕付き映像を出力する処理の一連の流れを説明する。図８は、第１の実施形態に係る映像出力装置の字幕付き映像を出力する処理の一連の流れを説明する図である。図８に例示するように、映像出力装置１０は、ユーザ端末２０に表示された入力画面に入力された翻訳対象の日本語のフレーズとシチュエーションとを受け付ける（図８の（１）参照）。

そして、映像出力装置１０では、ＡＩによって、翻訳の結果をベクトル化する（図８の（２）参照）。そして、映像出力装置１０では、ＡＩによって、シチュエーションごとにクラスタリングされた字幕データのうち、選択されたシチュエーションの字幕データのベクトルのなかから翻訳の結果のベクトルと距離が近い字幕データを選択する（図８の（３）参照）。

その後、映像出力装置１０は、例えば、字幕データに対応する映像のタイムコード情報が示す開始時間より所定時間前（例えば、３秒前）の開始時間のタイムコード情報を用いて、字幕付きの映像をユーザ端末２０に出力する。これにより、ユーザ端末２０は、字幕付きの映像を表示する（図８の（４）参照）。例えば、ユーザ端末２０では、動画サイトの再生画面が埋め込まれたＷｅｂページ等を表示する。

このように、第１の実施形態に係る映像出力装置１０では、相手に伝えたいフレーズを外国語に翻訳し、ＡＩが各シチュエーションに相応しい表現で翻訳された字幕付きの映像を利用者に提供することが出来る。ここで、図９〜図１１の例を用いて、各シーンが選択された場合における出力結果例を説明する。図９は、シチュエーションとしてカジュアルが選択された場合の出力結果例を説明する図である。図１０は、シチュエーションとしてフォーマルが選択された場合の出力結果例を説明する図である。図１１は、シチュエーションとしてビジネスが選択された場合の出力結果例を説明する図である。

図９〜図１１の例では、相手に伝えたい日本語のフレーズとして「ありがとう」を入力した場合を例に説明する。図９に例示するように、ユーザが、相手に伝えたい日本語のフレーズとして「ありがとう」を入力し、シチュエーションを「カジュアル」と選択した場合には、映像出力装置１０は、「ありがとう」を翻訳し、翻訳結果（例えば、「Ｔｈａｎｋｙｏｕ」）をベクトル化する。

そして、映像出力装置１０は、字幕データ記憶部１３ａを参照し、「カジュアル」にクラスタリングされた字幕データのベクトルなかから翻訳の結果のベクトルと距離が近い字幕データ「Ｔｈａｎｋｓ」を選択する。そして、映像出力装置１０は、字幕データ「Ｔｈａｎｋｓ」に対応する映像ＩＤおよび映像のタイムコードを用いて、該タイムコードから字幕付きの映像の再生が開始されるように映像を出力する。

次に、図１０に例示するように、ユーザが、相手に伝えたい日本語のフレーズとして「ありがとう」を入力し、シチュエーションを「フォーマル」と選択した場合にも同様に、映像出力装置１０は、「ありがとう」を翻訳し、翻訳結果をベクトル化する。

そして、映像出力装置１０は、字幕データ記憶部１３ａを参照し、「フォーマル」にクラスタリングされた字幕データのベクトルなかから翻訳の結果のベクトルと距離が近い字幕データ「Ｉｃａｎｎｅｖｅｒｔｈａｎｋｙｏｕｅｎｏｕｇｈ」を選択する。そして、映像出力装置１０は、字幕データ「Ｉｃａｎｎｅｖｅｒｔｈａｎｋｙｏｕｅｎｏｕｇｈ」に対応する映像ＩＤおよび映像のタイムコードを用いて、該タイムコードから字幕付きの映像の再生が開始されるように映像を出力する。

次に、図１１に例示するように、ユーザが、相手に伝えたい日本語のフレーズとして「ありがとう」を入力し、シチュエーションを「ビジネス」と選択した場合にも同様に、映像出力装置１０は、「ありがとう」を翻訳し、翻訳結果をベクトル化する。

そして、映像出力装置１０は、字幕データ記憶部１３ａを参照し、「ビジネス」にクラスタリングされた字幕データのベクトルなかから翻訳の結果のベクトルと距離が近い字幕データ「Ｉａｐｐｒｅｃｉａｔｅｉｔ」を選択する。そして、映像出力装置１０は、字幕データ「Ｉａｐｐｒｅｃｉａｔｅｉｔ」に対応する映像ＩＤおよび映像のタイムコードを用いて、該タイムコードから字幕付きの映像の再生が開始されるように映像を出力する。

このように、映像出力装置１０では、同一の日本語のフレーズであっても、シチュエーションが異なる場合には、外国語のセリフも映像の内容も異なるシチュエーションに相応しい映像を出力することができるので、シチュエーションに応じた字幕付きの映像を容易に出力することができる。

また、その他の例として、例えば、映像出力装置１０では、相手に伝えたい日本語のフレーズとして「教えてくれないでしょうか」が入力された場合に、映像出力装置１０は、シチュエーションが「カジュアル」が選択された場合には、字幕データ「Ｌｅｔｍｅｋｎｏｗ」の字幕付きの映像の再生が開始されるように映像を出力し、シチュエーションが「フォーマル」が選択された場合には、字幕データ「Ｗｏｕｌｄｙｏｕｐｌｅａｓｅｌｅｔｍｅｋｎｏｗ」の字幕付きの映像の再生が開始されるように映像を出力し、シチュエーションが「ビジネス」が選択された場合には、字幕データ「Ｄｏｙｏｕｍｉｎｄｅｘｐａｉｎｉｎｇ」の字幕付きの映像の再生が開始されるように映像を出力する。

［映像出力装置の処理手順］
次に、図１２および図１３を用いて、第１の実施形態に係る映像出力装置１０による処理手順の例を説明する。図１２は、第１の実施形態に係る映像出力装置における字幕付きの映像の出力処理の流れの一例を示すフローチャートである。図１３は、第１の実施形態に係る映像出力装置における字幕データをクラスタリングする処理の流れの一例を示すフローチャートである。

まず、図１２を用いて、字幕付きの映像の出力処理の流れの一例を説明する。図１２に例示するように、映像出力装置１０の受付部１２ｃがユーザ端末２０から日本語のフレーズおよび該フレーズが適用されるシチュエーションの入力を受け付けると（ステップＳ１０１肯定）、選択部１２ｄは、受付部１２ｃによって受け付けられた日本語のフレーズを外国語に翻訳し（ステップＳ１０２）、翻訳結果をベクトル化する（ステップＳ１０３）。

続いて、選択部１２ｄは、ユーザが選択したシチュエーションのクラスタから翻訳結果のベクトルと距離が近いベクトルの字幕データを選択する（ステップＳ１０４）。そして、出力部１２ｅは、選択部１２ｄによって選択された字幕データに対応する字幕付きの映像に関する情報をユーザ端末２０に出力する（ステップＳ１０５）。例えば、出力部１２ｅは、選択部１２ｄによって選択された字幕データに対応する映像ＩＤおよびタイムコードから字幕付きの映像にアクセスするためのＵＲＬを生成し、該ＵＲＬを用いて、字幕付き映像をサーバ３０から取得し、タイムコードが示すシーンから字幕付きの映像の再生が開始されるように映像付き映像をユーザ端末２０に出力する。

次に、図１３を用いて、字幕データをクラスタリングする処理の流れの一例を説明する。なお、図１３で説明する処理は、図１２で説明した処理が行われる前に事前に行われている処理である。図１３に例示するように、映像出力装置１０の収集部１２ａは、外国語の字幕付きの映像のデータを収集する（ステップＳ２０１）。そして、クラスタリング部１２ｂは、外国語の字幕付きの映像に含まれる字幕データを抽出し、各字幕データをベクトル化する（ステップＳ２０２）。

そして、クラスタリング部１２ｂは、字幕データを各シチュエーションにクラスタリングする（ステップＳ２０３）。例えば、クラスタリング部１２ｂは、各字幕データをベクトル化した後、各字幕データのベクトルに応じて、カジュアル、フォーマルおよびビジネスのうちいずれかのシチュエーションに各字幕データをクラスタリングする。その後、クラスタリング部１２ｂは、クラスタリングされた結果に応じて、字幕データを字幕データ記憶部１３ａに格納する（ステップＳ２０４）。

（第１の実施形態の効果）
第１の実施形態に係る映像出力装置１０は、翻訳対象のフレーズの入力および該フレーズが適用されるシチュエーションの選択を受け付け、フレーズを所定の言語に翻訳し、該翻訳の結果とシチュエーションに基づいて、シチュエーションごとにクラスタリングされた字幕データから一つまたは複数の字幕データを選択する。そして、映像出力装置１０は、選択した字幕データに対応する字幕付きの映像に関する情報をユーザ端末２０に出力する。このため、映像出力装置１０では、シチュエーションに応じた字幕付きの映像を容易にユーザ端末２０に対して出力することが可能である。

また、従来では外国語の単語を翻訳して利用者が相手に伝えたいフレーズを作文する等していたが、映像出力装置１０では、利用者が相手に伝えたいフレーズをＡＩが選択し、字幕付きの映像を利用者に提供することが可能である。また、映像出力装置１０では、翻訳対象のフレーズとシチュエーションを選択するだけで、相手に伝えたい内容の映像をすぐに選択できるため、時間の有効活用も可能である。

また、映像出力装置１０では、相手に伝えたいフレーズを外国語に翻訳し、ＡＩが各シーンに相応しい表現で翻訳された字幕付きの映像を選択し、利用者に提供することが出来る。また、映像出力装置１０では、字幕付きの映像が該当の１シーンよりも少し前のシーンから提供するので、相手に伝えたい内容と字幕付きの映像の内容が違ったとしても、どのように違ったのかを理解することが可能である。

（システム構成等）
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

また、本実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

（プログラム）
また、上記実施形態において説明した映像出力装置が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。例えば、実施形態に係る映像出力装置１０が実行する処理をコンピュータが実行可能な言語で記述した映像出力プログラムを作成することもできる。この場合、コンピュータが映像出力プログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかる映像出力プログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録された映像出力プログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。

図１４は、映像出力プログラムを実行するコンピュータを示す図である。図１４に例示するように、コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有し、これらの各部はバス１０８０によって接続される。

メモリ１０１０は、図１４に例示するように、ＲＯＭ（Read Only Memory）１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、図１４に例示するように、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、図１４に例示するように、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、図１４に例示するように、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、図１４に例示するように、例えばディスプレイ１１３０に接続される。

ここで、図１４に例示するように、ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、上記の、映像出力プログラムは、コンピュータ１０００によって実行される指令が記述されたプログラムモジュールとして、例えばハードディスクドライブ１０９０に記憶される。

また、上記実施形態で説明した各種データは、プログラムデータとして、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出し、各種処理手順を実行する。

なお、映像出力プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、映像出力プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

上記の実施形態やその変形は、本願が開示する技術に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１０映像出力装置
１１通信処理部
１２制御部
１２ａ収集部
１２ｂクラスタリング部
１２ｃ受付部
１２ｄ選択部
１２ｅ出力部
１３記憶部
１３ａ字幕データ記憶部
１３ｂ映像データ記憶部
２０ユーザ端末
３０サーバ
４０ネットワーク

Claims

翻訳対象のフレーズの入力を受け付ける受付部と、
前記受付部によって受け付けられたフレーズを所定の言語に翻訳し、該翻訳の結果に基づいて、シチュエーションごとにクラスタリングされた字幕データから一つまたは複数の字幕データを選択する選択部と、
前記選択部によって選択された前記字幕データに対応する字幕付きの映像に関する情報をユーザ端末に出力する出力部と
を有することを特徴とする映像出力装置。
前記受付部は、前記翻訳対象のフレーズの入力とともに、前記フレーズが適用されるシチュエーションの選択を受け付け、
前記選択部は、前記翻訳の結果と前記受付部によって受け付けられたシチュエーションに基づいて、前記シチュエーションごとにクラスタリングされた字幕データから一つまたは複数の字幕データを選択することを特徴とする請求項１に記載の映像出力装置。
外部のサーバから字幕付きの映像のデータを収集する収集部と、
前記収集部によって収集された前記字幕付きの映像に含まれる各字幕データをベクトル化し、該各字幕データのベクトルに応じて、各字幕データを各シチュエーションにクラスタリングするクラスタリング部と
をさらに有することを特徴とする請求項１または２に記載の映像出力装置。
前記選択部は、前記翻訳の結果をベクトル化し、前記シチュエーションごとにクラスタリングされた字幕データのうち、選択されたシチュエーションの字幕データのベクトルのなかから前記翻訳の結果のベクトルと距離が近い字幕データを選択することを特徴とする請求項１〜３のいずれか一つに記載の映像出力装置。
前記選択部は、前記翻訳の結果のベクトルと前記受付部によって受け付けられたシチュエーションを入力として、前記翻訳の結果のベクトルと距離が近い字幕データを選択するための学習済モデルを用いて、前記シチュエーションごとにクラスタリングされた映像の字幕データから一つまたは複数の字幕データを選択することを特徴とする請求項２または３に記載の映像出力装置。
前記出力部は、前記選択部によって選択された前記字幕データに対応する映像のタイムコード情報が示す開始時間を基準として、該開始時間以前のタイムコード情報を用いて、字幕付きの映像に関する情報を前記ユーザ端末に出力することを特徴とする請求項１〜３のいずれか一つに記載の映像出力装置。
前記出力部は、前記所定の言語に対するユーザの習熟度に応じて所定時間を決定し、前記選択部によって選択された前記字幕データに対応する映像のタイムコード情報が示す開始時間より前記所定時間前の開始時間のタイムコード情報を用いて、字幕付きの映像に関する情報を前記ユーザ端末に出力することを特徴とする請求項６に記載の映像出力装置。
前記出力部は、前記選択部によって選択された前記字幕データに対応する映像のタイムコード情報と、前記映像における各シーンの先頭を示すチャプタデータまたはインデックスデータを用いて、字幕付きの映像に関する情報を前記ユーザ端末に出力することを特徴とする請求項６に記載の映像出力装置。
映像出力装置によって実行される映像出力方法であって、
翻訳対象のフレーズの入力を受け付ける受付工程と、
前記受付工程によって受け付けられたフレーズを所定の言語に翻訳し、該翻訳の結果に基づいて、シチュエーションごとにクラスタリングされた字幕データから一つまたは複数の字幕データを選択する選択工程と、
前記選択工程によって選択された前記字幕データに対応する字幕付きの映像に関する情報をユーザ端末に出力する出力工程と
を含んだことを特徴とする映像出力方法。
翻訳対象のフレーズの入力を受け付ける受付ステップと、
前記受付ステップによって受け付けられたフレーズを所定の言語に翻訳し、該翻訳の結果に基づいて、シチュエーションごとにクラスタリングされた字幕データから一つまたは複数の字幕データを選択する選択ステップと、
前記選択ステップによって選択された前記字幕データに対応する字幕付きの映像に関する情報をユーザ端末に出力する出力ステップと
をコンピュータに実行させることを特徴とする映像出力プログラム。