JP6977632B2

JP6977632B2 - 字幕生成装置、字幕生成方法及びプログラム

Info

Publication number: JP6977632B2
Application number: JP2018044168A
Authority: JP
Inventors: 明昇須山
Original assignee: JVCKenwood Corp
Current assignee: JVCKenwood Corp
Priority date: 2018-03-12
Filing date: 2018-03-12
Publication date: 2021-12-08
Anticipated expiration: 2038-03-12
Also published as: US11363217B2; JP2019161390A; US20200412979A1; WO2019176816A1

Description

本出願は、字幕生成装置、字幕生成方法及びプログラムに関する。

外国語の台詞を含む映像は、映像とともに台詞の翻訳字幕が表示される。翻訳字幕の表示と非表示とを切換え可能にしたり、翻訳字幕の表示位置を変更可能にしたりする技術が知られている（例えば、特許文献１ないし特許文献３参照）。

特開２０００−２４４８３１号公報特開２００２−３３５４９０号公報特開２００９−１７７５０２号公報

映像には、特定の人物や風景以外にも、外国語など文字が撮影されることがある（以下、文字を含む映像をテキスト映像と呼ぶ）。映像中の外国語のテキスト映像は、必要に応じて翻訳することが望まれる。ところが、テキスト映像の翻訳字幕を手作業で生成すると、時間と手間とを要する。このように、テキスト映像の翻訳字幕の生成作業においては作業の効率に改善の余地がある。

本発明は、上記に鑑みてなされたものであって、映像中のテキスト映像について、効率よく翻訳字幕を生成することができる字幕生成装置、字幕生成方法及びプログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明に係る字幕生成装置は、文字を含む映像の映像データから文字情報を抽出するテキスト情報抽出部と、前記テキスト情報抽出部が抽出した文字情報のうち、前記映像データに対応づけられた台詞のデータである台詞情報に含まれる文字情報を検出するテキスト一致検出部と、前記テキスト一致検出部が検出した文字情報を翻訳した翻訳テキスト情報を生成するテキスト翻訳部と、前記映像データにおいて前記文字情報に対応する映像が表示された領域を示すテキスト領域情報と、前記翻訳テキスト情報とに基づいて、前記映像データにおける前記翻訳テキスト情報の表示位置を算出する表示位置算出部と、前記表示位置算出部が算出した表示位置情報に基づき、前記映像データに前記翻訳テキスト情報を字幕として付す字幕合成部と、を備えることを特徴とする。

本発明に係る字幕生成装置は、文字を含む映像の映像データを記憶する映像データ記憶部と、前記映像データに対応づけられた台詞のデータである台詞情報を記憶する台詞情報記憶部と、前記映像から抽出した文字情報と、前記映像から抽出した文字情報が出現した時刻である出現時刻情報とを記憶したテキスト情報記憶部と、前記台詞情報記憶部が記憶する前記台詞情報のうち、前記テキスト情報記憶部が記憶する前記文字情報が出現した時刻である一致時刻情報を記憶する一致時刻記憶部と、前記テキスト情報記憶部が記憶した前記文字情報の前記出現時刻情報と、前記一致時刻記憶部が記憶した一致時刻情報とが、前記映像データの全体の時間軸上に表示される時間軸映像を生成する時間軸映像生成部と、前記時間軸映像生成部が生成した前記時間軸映像を、前記映像データに合成する映像合成部と、を備えることを特徴とする。

本発明に係る字幕生成方法は、文字を含む映像の映像データから文字情報を抽出するテキスト情報抽出ステップと、前記テキスト情報抽出ステップが抽出した文字情報のうち、前記映像データに対応づけられた台詞のデータである台詞情報に含まれる文字情報を検出するテキスト一致検出ステップと、前記テキスト一致検出ステップによって検出した文字情報を翻訳した翻訳テキスト情報を生成するテキスト翻訳ステップと、前記映像データにおいて前記文字情報に対応する映像が表示された領域を示すテキスト領域情報と、前記翻訳テキスト情報とに基づいて、前記映像データにおける前記翻訳テキスト情報の表示位置を算出する表示位置算出ステップと、前記表示位置算出ステップによって算出した表示位置情報に基づき、前記映像データに前記翻訳テキスト情報を字幕として付す字幕合成ステップと、を含むことを特徴とする。

本発明に係る字幕生成方法は、文字を含む映像の映像データを記憶する映像データ記憶ステップと、前記映像データに対応づけられた台詞のデータである台詞情報を記憶する台詞情報記憶ステップと、前記映像から抽出した文字情報と前記映像から抽出した文字情報が出現した時刻である出現時刻情報とを記憶するテキスト情報記憶ステップと、前記台詞情報記憶ステップが記憶する前記台詞情報のうち、前記文字情報が出現した時刻である一致時刻を記憶する一致時刻記憶ステップと、前記文字情報の前記出現時刻と、前記一致時刻とが、前記映像データの全体の時間軸上に表示される時間軸映像を生成する時間軸映像生成ステップと、前記時間軸映像生成ステップによって生成した前記時間軸映像を、前記映像データに合成する映像合成ステップと、を含むことを特徴とする。

本発明に係るプログラムは、文字を含む映像の映像データから文字情報を抽出するテキスト情報抽出ステップと、前記テキスト情報抽出ステップが抽出した文字情報のうち、前記映像データに対応づけられた台詞のデータである台詞情報に含まれる文字情報を検出するテキスト一致検出ステップと、前記テキスト一致検出ステップによって検出した文字情報を翻訳した翻訳テキスト情報を生成するテキスト翻訳ステップと、前記映像データにおいて前記文字情報に対応する映像が表示された領域を示すテキスト領域情報と、前記翻訳テキスト情報とに基づいて、前記映像データにおける前記翻訳テキスト情報の表示位置を算出する表示位置算出ステップと、前記表示位置算出ステップによって算出した表示位置情報に基づき、前記映像データに前記翻訳テキスト情報を字幕として付す字幕合成ステップと、とをコンピュータに実行させる。

本発明に係るプログラムは、文字を含む映像の映像データを記憶する映像データ記憶ステップと、前記映像データに対応づけられた台詞のデータである台詞情報を記憶する台詞情報記憶ステップと、前記映像から抽出した文字情報と前記映像から抽出した文字情報が出現した時刻である出現時刻情報とを記憶するテキスト情報記憶ステップと、前記台詞情報記憶ステップが記憶する前記台詞情報のうち、前記文字情報が出現した時刻である一致時刻を記憶する一致時刻記憶ステップと、前記文字情報の前記出現時刻と、前記一致時刻とが、前記映像データの全体の時間軸上に表示される時間軸映像を生成する時間軸映像生成ステップと、前記時間軸映像生成ステップによって生成した前記時間軸映像を、前記映像データに合成する映像合成ステップと、をコンピュータに実行させる。

本発明によれば、映像中のテキスト映像について、効率よく翻訳字幕を生成することができるという効果を奏する。

図１は、第一実施形態に係る字幕生成装置の構成例を示すブロック図である。図２は、映像データの一例を示す図である。図３は、映像データと翻訳テキスト情報の表示位置の一例を説明する図である。図４は、映像データと翻訳テキスト情報の表示位置の他の例を説明する図である。図５は、映像データと翻訳テキスト情報の表示位置の他の例を説明する図である。図６は、第一実施形態に係る字幕生成装置が行う処理の一例を示すフローチャートである。図７は、第一実施形態に係る字幕生成装置のテキスト一致検出部が行う処理の一例を示すフローチャートである。図８は、第一実施形態に係る字幕生成装置の表示位置算出部が行う処理の一例を示すフローチャートである。図９は、第二実施形態に係る字幕生成装置の構成例を示すブロック図である。図１０は、第二実施形態に係るキーワード情報記憶部の一例を示す図である。図１１は、第二実施形態に係る字幕生成装置が行う処理の一例を示すフローチャートである。図１２は、第三実施形態に係る字幕生成装置の構成例を示すブロック図である。図１３は、表示された編集用画面の一例を示す図である。図１４は、第三実施形態に係る字幕生成装置が行う処理の一例を示すフローチャートである。

以下に添付図面を参照して、本発明に係る字幕生成装置、字幕生成方法及びプログラムの実施形態を詳細に説明する。なお、以下の実施形態により本発明が限定されるものではない。

［第一実施形態］
図１は、第一実施形態に係る字幕生成装置の構成例を示すブロック図である。字幕生成装置１０は、例えば外国語のような第一言語のテキスト映像を含む映像の映像データ１００を、第一言語と異なる第二言語に翻訳した翻訳字幕（以下、単に「字幕」という。）を生成する。例えば、日本においては、字幕生成装置１０は、英語のテキスト映像を含む映像の映像データ１００を、日本語に翻訳した字幕を生成する。また、字幕生成装置１０は、ストーリー上で必要なテキスト映像、または、重要なテキスト映像に限って、翻訳字幕を生成することが好ましい。本実施形態では、第一言語を外国語として説明する。

図２を用いて、映像データ１００について説明する。図２は、第一実施形態に係る映像データの一例を示す図である。映像データ１００は、外国語のテキスト映像１００ａを含む映像のデータである。映像データ１００は、例えば、毎秒、数１０フレームの画像から構成される動画像である。映像データ１００は、外国語のテキスト映像１００ａと、外国語の台詞のデータである台詞情報１１０とを含む。映像データ１００は、外国語を翻訳した翻訳台詞情報を含んでもよい。

外国語のテキスト映像１００ａは、例えば、紙に書いてある文章の映像、ビルの看板に書いてある文字の映像、部屋名のプレートに書いてある文字の映像などである。

台詞情報１１０は、映像に対応する翻訳前の外国語の台詞のデータである。台詞情報１１０は、翻訳前の台詞のテキストと、映像データ１００に対応して台詞の音声を開始するタイミングと終了するタイミングとを含む台詞タイミング情報とを有する。本実施形態では、台詞タイミング情報は、映像データ１００の開始時刻をゼロとした開始時刻と、終了する終了時刻とする。または、台詞タイミング情報は、映像データ１００の先頭のフレームを１フレーム目とするフレーム数、または、映像データ１００に設けられたスタンプ位置情報によって規定してもよい。

台詞情報１１０は、映像データ１００に含まれる台詞の音声データから音声認識処理によって作成してもよい。または、台詞情報１１０は、台本または脚本の台詞のテキストデータから作成してもよい。

字幕生成装置１０は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）や映像処理用プロセッサなどで構成された演算処理装置（制御部）である。字幕生成装置１０は、図示しない記憶部に記憶されているプログラムをメモリからロードして、プログラムに含まれる命令を実行する。字幕生成装置１０は、一または複数の装置で構成されていてもよい。字幕生成装置１０は、テキスト情報抽出部１１と、テキスト一致検出部１２と、テキスト翻訳部１３と、表示位置算出部１８と、字幕合成部１９とを有する。

テキスト情報抽出部１１は、外国語のテキスト映像１００ａを含む映像の映像データ１００から、映像内テキスト情報１２０を抽出する。より詳しくは、テキスト情報抽出部１１は、映像データ１００を取得する。そして、テキスト情報抽出部１１は、取得した映像データ１００に、例えば、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅａｄｅｒ）処理のような文字認識処理を行って、コンピュータ等が利用できるデジタルの文字コードである文字情報を抽出する。外国語のテキスト映像１００ａには、外国語が含まれるために、文字情報が抽出される。なお、この文字情報を映像内テキスト情報１２０という。テキスト情報抽出部１１は、抽出した映像内テキスト情報１２０をテキスト一致検出部１２と表示位置算出部１８とに出力する。

テキスト情報抽出部１１は、台詞情報１１０の言語と同じ言語のテキスト映像から映像内テキスト情報１２０を抽出する。言い換えると、テキスト情報抽出部１１は、翻訳前の言語のテキスト映像から映像内テキスト情報１２０を抽出する。

テキスト情報抽出部１１は、アップで表示された外国語のテキスト映像１００ａに限って、映像内テキスト情報１２０を抽出してもよい。より詳しくは、テキスト情報抽出部１１は、映像全体の表示領域に占める外国語のテキスト映像１００ａの表示領域の割合が閾値以上であるとき、映像内テキスト情報１２０を抽出してもよい。

テキスト情報抽出部１１は、映像データ１００に画像認識処理を行って、例えば、紙に書いてある文章の映像、ビルの看板の映像、部屋名のプレートの映像を抽出して、抽出したこれらの映像に含まれるテキストを映像内テキスト情報１２０として抽出してもよい。

また、テキスト情報抽出部１１は、映像内テキスト情報１２０を抽出した際に、映像データ１００において映像内テキスト情報１２０が映像として表示された領域を示すテキスト領域情報１３０として取得する。なお、テキスト領域情報１３０は、例えばテキスト映像１００ａに表示された文字を含む範囲を、映像データ１００における水平方向上、垂直方向上の範囲で示した情報である。テキスト情報抽出部１１は、テキスト領域情報１３０を表示位置算出部１８に出力する。

また、テキスト情報抽出部１１は、映像内テキスト情報１２０を抽出した際に、外国語のテキスト映像１００ａが映像データ１００に出現した時刻の出現時刻情報を取得する。本実施形態では、出現時刻は、映像データ１００の開始時間をゼロとした出現時刻Ｔ１１と、表示を終了する消滅時刻Ｔ１２とで規定される表示時刻とする。または、出現時刻情報は、映像データ１００の先頭のフレームを１フレーム目とするフレーム数、または、映像データ１００に設けられたスタンプ位置情報によって規定してもよい。

テキスト一致検出部１２は、テキスト情報抽出部１１が抽出した文字情報である映像内テキスト情報１２０のうち、映像データ１００に対応付けられた台詞情報１１０に含まれる文字情報を一致テキストとして検出する。より詳しくは、テキスト一致検出部１２は、抽出された映像内テキスト情報１２０のうち、映像に含まれる文字が出現した出現時刻を基準とした所定範囲内の映像データ１００の台詞情報１１０に含まれれるテキスト（文字情報）を取得する。例えば、テキスト一致検出部１２は、出現時刻Ｔ１１より時間ΔＴ前の時刻Ｔ２１から、消滅時刻Ｔ１２より時間ΔＴ後の時刻Ｔ２２までの台詞情報１１０を取得する。時間ΔＴは、例えば、５秒である。そして、テキスト一致検出部１２は、取得した台詞情報１１０に対して、抽出された映像内テキスト情報１２０と一致する一致テキストを検索する。そして、テキスト一致検出部１２は、検索結果に基づいて、一致テキストがある場合、言い換えると、映像内テキスト情報１２０が台詞情報１１０に含まれるテキスト（文字情報）である場合、映像内テキスト情報１２０を翻訳の対象とする。テキスト一致検出部１２は、検索結果に基づいて、一致テキストがない場合、言い換えると、映像内テキスト情報１２０が台詞情報１１０に含まれないテキストである場合、抽出された映像内テキスト情報１２０を翻訳の対象としない。テキスト一致検出部１２は、一致テキストがある場合、一致テキスト情報１４０をテキスト翻訳部１３に出力する。

このように、テキスト一致検出部１２は、映像内テキスト情報１２０の表示時刻の前後を含む時刻の台詞情報１１０と、紙に書いてある文章の映像内テキスト情報１２０とが一致すると、一致テキストを一致テキスト情報１４０として検出する。例えば、テキスト一致検出部１２は、所定範囲の時刻の中で、登場人物が紙に書いてある文章を読む台詞情報１１０と、紙に書いてある文章の映像内テキスト情報１２０とが一致すると、一致テキスト情報１４０として検出する。

テキスト翻訳部１３は、テキスト一致検出部１２が検出した文字情報である一致テキストを翻訳した翻訳テキスト情報１５０を生成する。テキスト翻訳部１３は、公知の翻訳方法によって、一致テキストを翻訳する。翻訳方法は、公知のいずれの方法でもよく、限定されない。テキスト翻訳部１３は、翻訳した翻訳テキストを翻訳テキスト情報１５０として表示位置算出部１８に出力する。なお、翻訳テキスト情報１５０は、コンピュータ等が利用できるデジタルの文字コードである文字情報を異なる言語の文字情報に翻訳した情報である。

表示位置算出部１８は、テキスト領域情報１３０と、テキスト翻訳部１３が翻訳した翻訳テキスト情報１５０とから、映像データ１００における翻訳テキスト情報１５０の表示位置を算出する。より詳しくは、表示位置算出部１８は、テキスト領域情報１３０と翻訳テキスト情報１５０とから、翻訳テキスト情報１５０の表示位置を、映像データ１００においてテキスト領域情報１３０と重ならない表示位置を算出する。表示位置算出部１８は、算出した表示位置情報１６０を翻訳テキスト情報１５０とともに字幕合成部１９に出力する。

本実施形態では、翻訳テキスト情報１５０を字幕として表示する際の、フォント、フォントサイズ、色、一行の最大文字数があらかじめ設定されている。これらより、翻訳テキスト情報１５０は、翻訳テキストの文字数によって、翻訳テキストの行数と一行文字数とが算出されて、映像データ１００に翻訳テキストを表示するために必要な領域の大きさである表示スペースが定まる。

また、出現時刻情報の表示時刻が、翻訳テキスト情報１５０を字幕として表示する表示時刻である。

図３を参照して、表示位置について説明する。図３は、映像データと翻訳テキスト情報の表示位置の一例を説明する図である。表示位置算出部１８は、映像データ１００においてテキスト領域情報１３０の下部１０１に翻訳テキスト情報１５０の表示スペースがあれば、テキスト領域情報１３０の下部１０１を表示位置とする。または、表示位置算出部１８は、映像データ１００においてテキスト領域情報１３０の上部１０２に翻訳テキスト情報１５０の表示スペースがあれば、テキスト領域情報１３０の上部１０２を表示位置とする。または、表示位置算出部１８は、映像データ１００においてテキスト領域情報１３０の右部１０３に翻訳テキスト情報１５０の表示スペースがあれば、テキスト領域情報１３０の右部１０３を表示位置とする。または、表示位置算出部１８は、映像データ１００においてテキスト領域情報１３０の左部１０４に翻訳テキスト情報１５０の表示スペースがあれば、テキスト領域情報１３０の左部１０４を表示位置とする。

図４を参照して、表示位置の他の例について説明する。図４は、映像データと翻訳テキスト情報の表示位置の他の例を説明する図である。表示位置算出部１８は、テキスト領域情報１３０に表示されている映像内テキスト情報１２０の文字が並ぶ方向である書字方向に合わせて、表示位置を算出してもよい。例えば、表示位置算出部１８は、映像内テキスト情報１２０の書字方向が上下方向、言い換えると、縦書きであるとき、翻訳テキスト情報１５０を縦書きで表示する表示スペースがあるか否かを判定する。図４に示す例では、テキスト領域情報１３０の右部１０３と左部１０４とには表示スペースがあるが、上部と下部とには表示スペースがない。この場合、表示位置算出部１８は、テキスト領域情報１３０の右部１０３または左部１０４を、映像内テキスト情報１２０と同様に、翻訳テキスト情報１５０を縦書きで表示する表示位置とする。

図５を参照して、表示位置の他の例について説明する。図５は、映像データと翻訳テキスト情報の表示位置の他の例を説明する図である。表示位置算出部１８は、テキスト領域情報１３０が傾いているとき、テキスト領域情報１３０の傾きに合わせて傾いた表示位置を算出してもよい。例えば、表示位置算出部１８は、映像内テキスト情報１２０が右下がりに傾いているとき、翻訳テキスト情報１５０を右下がりで表示する表示スペースがあるか否かを判定する。図５に示す例では、テキスト領域情報１３０の上部１０１と下部１０２と右部１０３と左部１０４とに表示スペースがある。この場合、表示位置算出部１８は、映像内テキスト情報１２０と同様に傾けた翻訳テキスト情報１５０を表示する表示位置とする。

字幕合成部１９は、表示位置算出部１８が算出した表示位置情報１６０に基づき、映像データ１００の外国語のテキスト映像１００ａに対して、翻訳テキスト情報１５０を字幕として付した字幕付き映像データ１７０を生成する。より詳しくは、外国語のテキスト映像１００ａの字幕は、翻訳テキスト情報１５０と、表示位置情報１６０と、表示時刻とで規定される。さらに、外国語のテキスト映像１００ａの字幕は、例えば、フォント、フォントサイズ、色の少なくともいずれかを含んで規定されてもよい。外国語のテキスト映像１００ａの字幕は、これらによって規定された人間により認識可能な文字である。

次に、図６ないし図８を用いて、字幕生成装置１０が行う処理の方法及び作用について説明する。図６は、第一実施形態に係る字幕生成装置が行う処理の一例を示すフローチャートである。図７は、第一実施形態に係る字幕生成装置のテキスト一致検出部が行う処理の一例を示すフローチャートである。図８は、第一実施形態に係る字幕生成装置の表示位置算出部が行う処理の一例を示すフローチャートである。

まず、図６を用いて、字幕生成装置１０が行う処理について説明する。字幕生成装置１０は、テキスト情報抽出部１１によって、映像内テキスト情報１２０を抽出する（ステップＳ１１）。より詳しくは、字幕生成装置１０は、テキスト情報抽出部１１によって、外国語のテキスト映像１００ａを含む映像の映像データ１００から、映像内テキスト情報１２０を抽出する。また、字幕生成装置１０は、テキスト情報抽出部１１によって、映像データ１００において映像内テキスト情報１２０が表示された領域をテキスト領域情報１３０として取得する。また、字幕生成装置１０は、テキスト情報抽出部１１によって、外国語のテキスト映像１００ａが映像データ１００に表示されるタイミングを示す出現時刻情報を取得する。字幕生成装置１０は、テキスト情報抽出部１１によって、映像データ１００のすべての映像内テキスト情報１２０を抽出すると、ステップＳ１２に進む。

字幕生成装置１０は、テキスト一致検出部１２によって、一致テキストを検出する（ステップＳ１２）。ステップＳ１２の処理については、後述する。字幕生成装置１０は、映像データ１００についてすべての一致テキストを検出すると、ステップＳ１３に進む。

字幕生成装置１０は、テキスト翻訳部１３によって、テキストを翻訳する（ステップＳ１３）。より詳しくは、字幕生成装置１０は、テキスト翻訳部１３によって、公知の翻訳方法を使用して、一致テキストを翻訳した翻訳テキスト情報１５０を生成する。字幕生成装置１０は、すべての一致テキスト情報１４０を翻訳すると、ステップＳ１４に進む。

字幕生成装置１０は、表示位置算出部１８によって、表示位置を算出する（ステップＳ１４）。ステップＳ１４の処理については、後述する。字幕生成装置１０は、すべての翻訳テキスト情報１５０について表示位置を算出すると、ステップＳ１５に進む。

字幕生成装置１０は、字幕合成部１９によって、字幕を合成する（ステップＳ１５）。より詳しくは、字幕生成装置１０は、字幕合成部１９によって、表示位置算出部１８が算出した表示位置情報１６０に基づき、映像データ１００の外国語のテキスト映像１００ａに対して、翻訳テキスト情報１５０を字幕として付した字幕付き映像データ１７０を生成する。字幕生成装置１０は、すべての翻訳テキスト情報１５０を字幕として映像データ１００に合成すると、処理を終了する。

つづいて、図７を用いて、ステップＳ１２において、テキスト一致検出部１２が行う処理について説明する。テキスト一致検出部１２は、映像内テキスト情報１２０が抽出された時刻を取得する（ステップＳ１２０１）。より詳しくは、テキスト一致検出部１２は、テキスト情報抽出部１１が抽出した映像内テキスト情報１２０について、出現時刻情報の表示時刻を取得する。テキスト一致検出部１２は、ステップＳ１２０２に進む。

テキスト一致検出部１２は、台詞情報１１０のうち、映像内テキスト情報１２０が抽出された時刻の前後５秒の台詞情報１１０を取得する（ステップＳ１２０２）。より詳しくは、テキスト一致検出部１２は、抽出された映像内テキスト情報１２０の出現時刻情報の表示時刻を中心とする前後５秒の映像データ１００に対応する台詞情報１１０を取得する。テキスト一致検出部１２は、ステップＳ１２０３に進む。

テキスト一致検出部１２は、取得した台詞情報１１０に対し、映像データ１００から抽出した映像内テキスト情報１２０があるかを検索する（ステップＳ１２０３）。より詳しくは、テキスト一致検出部１２は、取得した台詞情報１１０に対して、抽出された映像内テキスト情報１２０との比較を行い、一致テキストを検出する。テキスト一致検出部１２は、ステップＳ１２０４に進む。

テキスト一致検出部１２は、一致テキストがあるか否かを判定する（ステップＳ１２０４）。より詳しくは、テキスト一致検出部１２は、ステップＳ１２０３において一致テキストが検出された場合（ステップＳ１２０４でＹｅｓ）、ステップＳ１２０５に進む。テキスト一致検出部１２は、ステップＳ１２０３において一致テキストが検出されなかった場合（ステップＳ１２０４でＮｏ）、ステップＳ１３以降の処理を行わず、処理を終了する。

テキスト一致検出部１２は、一致テキスト情報１４０をテキスト翻訳部１３へ出力する（ステップＳ１２０５）。これにより、ステップＳ１３以降の処理が実行される。

つづいて、図８を用いて、ステップＳ１４において、表示位置算出部１８が行う処理の方法及び作用について説明する。表示位置算出部１８は、翻訳テキストの行数と一行文字数とを取得する（ステップＳ１４０１）。より詳しくは、表示位置算出部１８は、翻訳テキスト情報１５０と、翻訳テキスト情報１５０を字幕として表示する場合の一行の最大文字数とから、翻訳テキストの行数と一行文字数とを取得する。そして、表示位置算出部１８は、翻訳テキストのフォントサイズと行数と一行文字数とから、映像データ１００における翻訳テキスト情報１５０を表示する際の水平方向上、垂直方向上の範囲を算出する。。表示位置算出部１８は、ステップＳ１４０２に進む。

表示位置算出部１８は、元のテキスト領域下部に翻訳テキストの表示スペースがあるかかを判定する（ステップＳ１４０２）。表示スペースがあるとは、映像データ１００において、翻訳テキスト情報１５０を表示する水平方向上、垂直方向上の範囲が、予め定めた映像データ１００を表示する水平方向上、垂直方向上の範囲に含まれる場合をいう。また、表示スペースがないとは、映像データ１００において、翻訳テキスト情報１５０を表示する水平方向上、垂直方向上の範囲が、予め定めた映像データ１００を表示する水平方向上、垂直方向上の範囲に含まれず、その範囲を超える場合をいう。翻訳テキスト情報１５０を表示する水平方向上、垂直方向上の範囲は、テキスト情報抽出部１１から取得したテキスト領域情報１３０を基準に、後述するＳ１４０２からＳ１４０７によって表示位置算出部１８が設定する。表示位置算出部１８は、テキスト領域情報１３０の下部１０１に翻訳テキスト情報１５０の表示スペースがあると判定する場合（ステップＳ１４０２でＹｅｓ）、ステップＳ１４０８に進む。表示位置算出部１８は、テキスト領域情報１３０の下部１０１に翻訳テキスト情報１５０の表示スペースがないと判定する場合（ステップＳ１４０２でＮｏ）、ステップＳ１４０３に進む。

表示位置算出部１８は、元のテキスト領域上部に翻訳テキスト情報１５０の表示スペースがあるか否かを判定する（ステップＳ１４０３）。表示位置算出部１８は、テキスト領域情報１３０の上部１０２に翻訳テキスト情報１５０の表示スペースがあると判定する場合（ステップＳ１４０３でＹｅｓ）、ステップＳ１４０９に進む。表示位置算出部１８は、テキスト領域情報１３０の上部１０２に翻訳テキスト情報１５０の表示スペースがないと判定する場合（ステップＳ１４０３でＮｏ）、ステップＳ１４０４に進む。

表示位置算出部１８は、元のテキスト領域右部に翻訳テキスト情報１５０の表示スペースがあるか否かを判定する（ステップＳ１４０４）。表示位置算出部１８は、テキスト領域情報１３０の右部１０３に翻訳テキスト情報１５０の表示スペースがあると判定する場合（ステップＳ１４０４でＹｅｓ）、ステップＳ１４１０に進む。表示位置算出部１８は、テキスト領域情報１３０の右部１０３に翻訳テキスト情報１５０の表示スペースがないと判定する場合（ステップＳ１４０４でＮｏ）、ステップＳ１４０５に進む。

表示位置算出部１８は、元のテキスト領域左部に翻訳テキスト情報１５０の表示スペースがあるか否かを判定する（ステップＳ１４０５）。表示位置算出部１８は、テキスト領域情報１３０の左部１０４に翻訳テキスト情報１５０の表示スペースがあると判定する場合（ステップＳ１４０５でＹｅｓ）、ステップＳ１４１１に進む。表示位置算出部１８は、テキスト領域情報１３０の左部１０４に翻訳テキスト情報１５０の表示スペースがないと判定する場合（ステップＳ１４０５でＮｏ）、ステップＳ１４０６に進む。

表示位置算出部１８は、表示位置を元のテキスト領域下部に設定する（ステップＳ１４０６）。表示位置算出部１８は、テキスト領域情報１３０の下部１０１を表示位置にする。表示位置算出部１８は、ステップＳ１４０７に進む。

表示位置算出部１８は、元のテキスト領域下部のスペースに翻訳テキスト情報１５０が入るように、フォントサイズを縮小する（ステップＳ１４０７）。これにより、表示スペースの大きさが縮小される。表示位置算出部１８は、処理を終了する。

表示位置算出部１８は、表示位置を元のテキスト領域下部に設定する（ステップＳ１４０８）。表示位置算出部１８は、テキスト領域情報１３０の下部１０１を表示位置にする。表示位置算出部１８は、処理を終了する。

表示位置算出部１８は、表示位置を元のテキスト領域上部に設定する（ステップＳ１４０９）。表示位置算出部１８は、テキスト領域情報１３０の上部１０２を表示位置にする。表示位置算出部１８は、処理を終了する。

表示位置算出部１８は、表示位置を元のテキスト領域右部に設定する（ステップＳ１４１０）。表示位置算出部１８は、テキスト領域情報１３０の右部１０３を表示位置にする。表示位置算出部１８は、処理を終了する。

表示位置算出部１８は、表示位置を元のテキスト領域左部に設定する（ステップＳ１４１１）。表示位置算出部１８は、テキスト領域情報１３０の左部１０４を表示位置にする。表示位置算出部１８は、処理を終了する。

このようにして、映像内テキスト情報１２０と台詞情報１１０とが一致すると、映像データ１００の外国語のテキスト映像１００ａを翻訳した字幕を映像データ１００に合成した字幕付き映像データ１７０を生成する。

上述したように、本実施形態は、映像内テキスト情報１２０と台詞情報１１０とが一致すると、映像データ１００の外国語のテキスト映像１００ａを翻訳した字幕を映像データ１００に合成した字幕付き映像データ１７０を生成することができる。このようにして、本実施形態は、映像データ１００の外国語のテキスト映像１００ａについて、効率よく翻訳字幕を生成することができる。

本実施形態は、映像内テキスト情報１２０と台詞情報１１０とが一致すると、映像データ１００の外国語のテキスト映像１００ａを翻訳する。これにより、本実施形態は、ストーリー上で必要な外国語のテキスト映像１００ａ、または、重要な外国語のテキスト映像１００ａに限って、翻訳字幕を生成することができる。

これに対して、すべての外国語のテキスト映像１００ａを翻訳して字幕として表示すると、翻訳した字幕の情報量が過大になり、映像データ１００を集中して視聴することができなくなるおそれがある。

本実施形態によれば、必要な外国語のテキスト映像１００ａに限って翻訳字幕を生成するので、字幕の情報量が過大になることを抑制することができる。

［第二実施形態］
図９ないし図１１を参照しながら、本実施形態に係る字幕生成装置１０Ａについて説明する。図９は、第二実施形態に係る字幕生成装置の構成例を示すブロック図である。図１０は、第二実施形態に係るキーワード情報記憶部の一例を示す図である。図１１は、第二実施形態に係る字幕生成装置が行う処理の一例を示すフローチャートである。字幕生成装置１０Ａは、基本的な構成は第一実施形態の字幕生成装置１０と同様である。以下の説明においては、字幕生成装置１０と同様の構成要素には、同一の符号または対応する符号を付し、その詳細な説明は省略する。本実施形態の字幕生成装置１０Ａは、第一実施形態と同様のテキスト情報抽出部１１と、表示位置算出部１８と、字幕合成部１９と、さらに、キーワード情報記憶部１５Ａと、テキスト置換部１６Ａとを有する。

図１０を用いて、キーワード情報記憶部１５Ａについて説明する。キーワード情報記憶部１５Ａは、映像データ１００に関連し、翻訳を要するキーワード１５１Ａと翻訳テキスト１５２Ａとをあらかじめ記憶する。キーワード情報記憶部１５Ａは、映像データ１００ごとに、映像データ１００に含まれる映像内テキスト情報１２０のなかで、ストーリー上で必要であったり、重要であって、翻訳が必要なものを記憶する。抽出した映像内テキスト情報１２０と一致するキーワード１５１Ａがある場合、翻訳テキスト１５２Ａで置換して翻訳する。

テキスト置換部１６Ａは、キーワード情報記憶部１５Ａから、映像内テキスト情報１２０に一致するキーワード１５１Ａと翻訳テキスト１５２Ａとを取得して、映像内テキスト情報１２０のテキストを翻訳テキスト１５２Ａで置換して翻訳する。テキスト置換部１６Ａは、翻訳した翻訳テキスト情報１５０を表示位置算出部１８に出力する。

次に、図１１を用いて、字幕生成装置１０Ａが行う処理の方法及び作用について説明する。図１１に示すフローチャートのステップＳ２１、ステップＳ２３、ステップＳ２４の処理は、図６に示すフローチャートのステップＳ１１、ステップＳ１４、ステップＳ１５の処理と同様の処理を行う。

字幕生成装置１０Ａは、テキスト置換部１６Ａによって、テキストを置換する（ステップＳ２２）。より詳しくは、字幕生成装置１０Ａは、テキスト置換部１６Ａによって、キーワード情報記憶部１５Ａから、映像内テキスト情報１２０に一致するキーワード１５１Ａと翻訳テキスト１５２Ａとを取得する。そして、字幕生成装置１０Ａは、テキスト置換部１６Ａによって、映像内テキスト情報１２０のテキストを翻訳テキスト１５２Ａで置換して翻訳する。字幕生成装置１０は、キーワード１５１Ａに一致するすべての映像内テキスト情報１２０を翻訳すると、ステップＳ２３に進む。

このようにして、映像内テキスト情報１２０と、キーワード情報記憶部１５Ａのキーワード１５１Ａとが一致すると、映像データ１００の外国語のテキスト映像１００ａを、キーワード１５１Ａで置換して翻訳した字幕を映像データ１００に合成した字幕付き映像データ１７０を生成する。

上述したように、本実施形態は、映像内テキスト情報１２０と、キーワード情報記憶部１５Ａのキーワード１５１Ａとが一致すると、映像データ１００の外国語のテキスト映像１００ａを、キーワード１５１Ａで置換して翻訳した字幕を映像データ１００に合成した字幕付き映像データ１７０を生成することができる。このようにして、本実施形態は、映像データ１００の外国語のテキスト映像１００ａについて、効率よく翻訳字幕を生成することができる。

本実施形態は、映像内テキスト情報１２０とキーワード情報記憶部１５Ａのキーワード１５１Ａとが一致すると、映像データ１００の外国語のテキスト映像１００ａを翻訳する。これにより、本実施形態は、ストーリー上で必要であったり、重要であって、翻訳が必要なものに限って、翻訳字幕を生成することができる。

本実施形態は、映像内テキスト情報１２０を、キーワード情報記憶部１５Ａに基づいて翻訳する。これにより、映像内テキスト情報１２０が繰り返し抽出される場合に、効率よく翻訳字幕を生成することができる。また、映像内テキスト情報１２０が繰り返し抽出される場合に、同じ翻訳テキスト１５２Ａで翻訳することができる。

［第三実施形態］
図１２ないし図１４を参照しながら、本実施形態に係る字幕生成装置２０について説明する。図１２は、第三実施形態に係る字幕生成装置の構成例を示すブロック図である。図１３は、表示された編集用画面の一例を示す図である。図１４は、第三実施形態に係る字幕生成装置が行う処理の一例を示すフローチャートである。

字幕生成装置２０は、外国語のテキスト映像１００ａを含む映像の映像データ１００に字幕を生成する際に、シークバー付きの編集用映像データ（以下、「編集用映像データ」という。）３００を生成する。字幕生成装置２０は、映像データ記憶部２１と、台詞情報記憶部２２と、テキスト情報記憶部２３と、一致時刻記憶部２４と、時間軸映像生成部２５と、映像合成部２６とを有する。

映像データ記憶部２１は、外国語の文字のテキスト映像１００ａを含む映像の映像データ１００を記憶する。

台詞情報記憶部２２は、映像データ１００に対応付けられた台詞のデータである台詞情報１１０を記憶する。

テキスト情報記憶部２３は、映像データ１００から抽出した映像内テキスト情報１２０と映像データ１００における出現時刻情報とを記憶する。より詳しくは、テキスト情報記憶部２３は、例えば、第一実施形態のテキスト情報抽出部１１が抽出した映像内テキスト情報１２０と、テキスト領域情報１３０と、出現時刻情報とを記憶する。テキスト情報記憶部２３は、映像内テキスト情報１２０を一致時刻記憶部２４に出力する。テキスト情報記憶部２３は、出現時刻情報の表示時刻の時刻情報を時間軸映像生成部２５に出力する。

一致時刻記憶部２４は、台詞情報記憶部２２が記憶するすべての台詞情報１１０のうち、テキスト情報記憶部２３が記憶するテキスト情報１２０が出現した時刻を一致時刻として記憶する。より詳しくは、一致時刻記憶部２４は、例えば、第一実施形態のテキスト一致検出部１２が一致するテキストを検出したときの映像内テキスト情報１２０の表示時刻を一致時刻として記憶する。一致時刻記憶部２４は、記憶した一致時刻の時刻情報を時間軸映像生成部２５に出力する。

時間軸映像生成部２５は、テキスト情報記憶部２３が記憶した映像内テキスト情報１２０の出現時刻の時刻情報と、一致時刻記憶部２４が抽出した一致時刻の時刻情報とを、映像データ１００の全体の時間軸上に表示するシークバー映像（時間軸映像）２００を生成する。時間軸映像生成部２５は、テキスト情報記憶部２３が記憶する映像内テキスト情報１２０の時刻情報と、一致時刻記憶部２４が記憶する一致テキストが存在する時刻情報とに基づいて、映像データ１００の全体の時間軸に対して、それぞれの時刻情報を重ね合わせて表示するシークバー映像２００を生成する。

図１３を用いて、シークバー映像２００について説明する。シークバー映像２００は、映像データ１００の全体の時間軸の映像である。シークバー映像２００は、映像テキスト情報シークバー２０１と、台詞情報シークバー２０２と、一致マーカ２０３と、再生位置マーカ２０４と、マーカ２０５と、マーカ２０６とを含む。映像テキスト情報シークバー２０１は、映像データ１００の全体の時間軸である。映像テキスト情報シークバー２０１には、映像内テキスト情報１２０が存在する時刻にマーカ２０５が表示される。台詞情報シークバー２０２は、映像データ１００の全体の時間軸である。台詞情報シークバー２０２には、映像内テキスト情報１２０と一致する台詞が存在する時刻にマーカ２０６が表示される。一致マーカ２０３は、映像データ１００に対して、抽出した映像内テキスト情報１２０と一致する台詞が存在する時刻が一定時間の範囲内であるときに、表示される。再生位置マーカ２０４は、映像データ１００の再生中の時刻を示す。

映像合成部２６は、時間軸映像生成部２５が生成したシークバー映像２００を、映像データ１００に合成して編集用の画面に表示させる編集用映像データ３００を生成する。編集用映像データ３００は、映像データ１００に、シークバー映像２００を半透過で重ねて表示する。

次に、図１４を用いて、字幕生成装置２０が行う処理の方法及び作用について説明する。字幕生成装置２０は、時間軸映像生成部２５によって、シークバー映像２００を生成する（ステップＳ３１）。より詳しくは、字幕生成装置２０は、時間軸映像生成部２５によって、テキスト情報記憶部２３のテキストが存在する時刻情報と、一致時刻記憶部２４のテキストが存在する時刻情報とに基づいて、映像データ１００の全体の時間軸に対して、それぞれの時刻情報を重ね合わせて表示するシークバー映像２００を生成する。字幕生成装置２０は、ステップＳ３２に進む。

字幕生成装置２０は、映像合成部２６によって、映像データ１００にシークバー映像２００を合成して編集用映像データ３００を生成する（ステップＳ３２）。字幕生成装置２０は、処理を終了する。

上述したように、映像内テキスト情報１２０の表示時刻と、映像内テキスト情報１２０と一致する台詞が存在する時刻と、一致テキストが存在する時刻とが表示されたシークバー映像２００を合成した編集用映像データ３００を生成することができる。本実施形態によれば、一致マーカ２０３の映像データ１００と台詞情報１１０とを確認しながら、外国語のテキスト映像１００ａの字幕が適切に付されているかを容易に確認可能である。このようにして、本実施形態は、映像データ１００の外国語のテキスト映像１００ａについて、効率よく翻訳字幕を生成することができる。本実施形態は、編集作業を効率よく行うことができる。

これまで本発明に係る字幕生成装置１０、字幕生成装置１０Ａ、字幕生成装置２０について説明したが、上述した実施形態以外にも種々の異なる形態にて実施されてよいものである。

図示した字幕生成装置１０、字幕生成装置１０Ａ、字幕生成装置２０の各構成要素は、機能概念的なものであり、必ずしも物理的に図示の如く構成されていなくてもよい。すなわち、各装置の具体的形態は、図示のものに限られず、各装置の処理負担や使用状況などに応じて、その全部または一部を任意の単位で機能的または物理的に分散または統合してもよい。

字幕生成装置１０、字幕生成装置１０Ａ、字幕生成装置２０の構成は、例えば、ソフトウェアとして、メモリにロードされたプログラムなどによって実現される。上記実施形態では、これらのハードウェアまたはソフトウェアの連携によって実現される機能ブロックとして説明した。すなわち、これらの機能ブロックについては、ハードウェアのみ、ソフトウェアのみ、または、それらの組み合わせによって種々の形で実現できる。

上記に記載した構成要素には、当業者が容易に想定できるもの、実質的に同一のものを含む。さらに、上記に記載した構成は適宜組み合わせが可能である。また、本発明の要旨を逸脱しない範囲において構成の種々の省略、置換または変更が可能である。

１０字幕生成装置
１１テキスト情報抽出部
１２テキスト一致検出部
１３テキスト翻訳部
１８表示位置算出部
１９字幕合成部
１００映像データ
１００ａ外国語のテキスト映像
１１０台詞情報
１２０映像内テキスト情報
１３０テキスト領域情報
１４０一致テキスト情報
１５０翻訳テキスト情報
１６０表示位置情報
１７０字幕付き映像データ

Claims

文字を含む映像の映像データから文字情報を抽出するテキスト情報抽出部と、
前記テキスト情報抽出部が抽出した文字情報のうち、前記映像データに対応づけられた台詞のデータである台詞情報に含まれる文字情報を検出するテキスト一致検出部と、
前記テキスト一致検出部が検出した文字情報を翻訳した翻訳テキスト情報を生成するテキスト翻訳部と、
前記映像データにおいて前記文字情報に対応する映像が表示された領域を示すテキスト領域情報と、前記翻訳テキスト情報とに基づいて、前記映像データにおける前記翻訳テキスト情報の表示位置を算出する表示位置算出部と、
前記表示位置算出部が算出した表示位置情報に基づき、前記映像データに前記翻訳テキスト情報を字幕として付す字幕合成部と、
を備えることを特徴とする字幕生成装置。
前記テキスト一致検出部は、前記テキスト情報抽出部が抽出した文字情報のうち、映像に含まれる文字が出現した時刻を基準とした所定の範囲内の前記台詞情報に含まれる文字情報を検出する、
請求項１に記載の字幕生成装置。
文字を含む映像の映像データを記憶する映像データ記憶部と、
前記映像データに対応づけられた台詞のデータである台詞情報を記憶する台詞情報記憶部と、
前記映像から抽出した文字情報と、前記映像から抽出した文字情報が出現した時刻である出現時刻情報とを記憶したテキスト情報記憶部と、
前記台詞情報記憶部が記憶する前記台詞情報のうち、前記テキスト情報記憶部が記憶する前記文字情報が出現した時刻である一致時刻情報を記憶する一致時刻記憶部と、
前記テキスト情報記憶部が記憶した前記文字情報の前記出現時刻情報と、前記一致時刻記憶部が記憶した一致時刻情報とが、前記映像データの全体の時間軸上に表示される時間軸映像を生成する時間軸映像生成部と、
前記時間軸映像生成部が生成した前記時間軸映像を、前記映像データに合成する映像合成部と、
を備えることを特徴とする字幕生成装置。
文字を含む映像の映像データから文字情報を抽出するテキスト情報抽出ステップと、
前記テキスト情報抽出ステップが抽出した文字情報のうち、前記映像データに対応づけられた台詞のデータである台詞情報に含まれる文字情報を検出するテキスト一致検出ステップと、
前記テキスト一致検出ステップによって検出した文字情報を翻訳した翻訳テキスト情報を生成するテキスト翻訳ステップと、
前記映像データにおいて前記文字情報に対応する映像が表示された領域を示すテキスト領域情報と、前記翻訳テキスト情報とに基づいて、前記映像データにおける前記翻訳テキスト情報の表示位置を算出する表示位置算出ステップと、
前記表示位置算出ステップによって算出した表示位置情報に基づき、前記映像データに前記翻訳テキスト情報を字幕として付す字幕合成ステップと、
を含む字幕生成方法。
文字を含む映像の映像データを記憶する映像データ記憶ステップと、
前記映像データに対応づけられた台詞のデータである台詞情報を記憶する台詞情報記憶ステップと、
前記映像から抽出した文字情報と前記映像から抽出した文字情報が出現した時刻である出現時刻情報とを記憶するテキスト情報記憶ステップと、
前記台詞情報のうち、前記文字情報が出現した時刻である一致時刻を記憶する一致時刻記憶ステップと、
前記文字情報の前記出現時刻と、前記一致時刻とが、前記映像データの全体の時間軸上に表示される時間軸映像を生成する時間軸映像生成ステップと、
前記時間軸映像生成ステップによって生成した前記時間軸映像を、前記映像データに合成する映像合成ステップと、
を含む字幕生成方法。
文字を含む映像の映像データから文字情報を抽出するテキスト情報抽出ステップと、
前記テキスト情報抽出ステップが抽出した文字情報のうち、前記映像データに対応づけられた台詞のデータである台詞情報に含まれる文字情報を検出するテキスト一致検出ステップと、
前記テキスト一致検出ステップによって検出した文字情報を翻訳した翻訳テキスト情報を生成するテキスト翻訳ステップと、
前記映像データにおいて前記文字情報に対応する映像が表示された領域を示すテキスト領域情報と、前記翻訳テキスト情報とに基づいて、前記映像データにおける前記翻訳テキスト情報の表示位置を算出する表示位置算出ステップと、
前記表示位置算出ステップによって算出した表示位置情報に基づき、前記映像データに前記翻訳テキスト情報を字幕として付す字幕合成ステップと、
をコンピュータに実行させるプログラム。
文字を含む映像の映像データを記憶する映像データ記憶ステップと、
前記映像データに対応づけられた台詞のデータである台詞情報を記憶する台詞情報記憶ステップと、
前記映像から抽出した文字情報と、前記映像から抽出した文字情報が出現した時刻である出現時刻情報とを記憶するテキスト情報記憶ステップと、
前記台詞情報のうち、前記文字情報が出現した時刻である一致時刻を記憶する一致時刻記憶ステップと、
前記文字情報の前記出現時刻と、前記一致時刻とが、前記映像データの全体の時間軸上に表示される時間軸映像を生成する時間軸映像生成ステップと、
前記時間軸映像生成ステップによって生成した前記時間軸映像を、前記映像データに合成する映像合成ステップと、
をコンピュータに実行させるプログラム。