JP6977632B2 - 字幕生成装置、字幕生成方法及びプログラム - Google Patents

字幕生成装置、字幕生成方法及びプログラム Download PDF

Info

Publication number
JP6977632B2
JP6977632B2 JP2018044168A JP2018044168A JP6977632B2 JP 6977632 B2 JP6977632 B2 JP 6977632B2 JP 2018044168 A JP2018044168 A JP 2018044168A JP 2018044168 A JP2018044168 A JP 2018044168A JP 6977632 B2 JP6977632 B2 JP 6977632B2
Authority
JP
Japan
Prior art keywords
information
text
video
time
video data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018044168A
Other languages
English (en)
Other versions
JP2019161390A (ja
Inventor
明昇 須山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JVCKenwood Corp
Original Assignee
JVCKenwood Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JVCKenwood Corp filed Critical JVCKenwood Corp
Priority to JP2018044168A priority Critical patent/JP6977632B2/ja
Priority to PCT/JP2019/009509 priority patent/WO2019176816A1/ja
Publication of JP2019161390A publication Critical patent/JP2019161390A/ja
Priority to US17/016,450 priority patent/US11363217B2/en
Application granted granted Critical
Publication of JP6977632B2 publication Critical patent/JP6977632B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Studio Circuits (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)

Description

本出願は、字幕生成装置、字幕生成方法及びプログラムに関する。
外国語の台詞を含む映像は、映像とともに台詞の翻訳字幕が表示される。翻訳字幕の表示と非表示とを切換え可能にしたり、翻訳字幕の表示位置を変更可能にしたりする技術が知られている(例えば、特許文献1ないし特許文献3参照)。
特開2000−244831号公報 特開2002−335490号公報 特開2009−177502号公報
映像には、特定の人物や風景以外にも、外国語など文字が撮影されることがある(以下、文字を含む映像をテキスト映像と呼ぶ)。映像中の外国語のテキスト映像は、必要に応じて翻訳することが望まれる。ところが、テキスト映像の翻訳字幕を手作業で生成すると、時間と手間とを要する。このように、テキスト映像の翻訳字幕の生成作業においては作業の効率に改善の余地がある。
本発明は、上記に鑑みてなされたものであって、映像中のテキスト映像について、効率よく翻訳字幕を生成することができる字幕生成装置、字幕生成方法及びプログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明に係る字幕生成装置は、文字を含む映像の映像データから文字情報を抽出するテキスト情報抽出部と、前記テキスト情報抽出部が抽出した文字情報のうち、前記映像データに対応づけられた台詞のデータである台詞情報に含まれる文字情報を検出するテキスト一致検出部と、前記テキスト一致検出部が検出した文字情報を翻訳した翻訳テキスト情報を生成するテキスト翻訳部と、前記映像データにおいて前記文字情報に対応する映像が表示された領域を示すテキスト領域情報と、前記翻訳テキスト情報とに基づいて、前記映像データにおける前記翻訳テキスト情報の表示位置を算出する表示位置算出部と、前記表示位置算出部が算出した表示位置情報に基づき、前記映像データに前記翻訳テキスト情報を字幕として付す字幕合成部と、を備えることを特徴とする。
本発明に係る字幕生成装置は、文字を含む映像の映像データを記憶する映像データ記憶部と、前記映像データに対応づけられた台詞のデータである台詞情報を記憶する台詞情報記憶部と、前記映像から抽出した文字情報と、前記映像から抽出した文字情報が出現した時刻である出現時刻情報とを記憶したテキスト情報記憶部と、前記台詞情報記憶部が記憶する前記台詞情報のうち、前記テキスト情報記憶部が記憶する前記文字情報が出現した時刻である一致時刻情報を記憶する一致時刻記憶部と、前記テキスト情報記憶部が記憶した前記文字情報の前記出現時刻情報と、前記一致時刻記憶部が記憶した一致時刻情報とが、前記映像データの全体の時間軸上に表示される時間軸映像を生成する時間軸映像生成部と、前記時間軸映像生成部が生成した前記時間軸映像を、前記映像データに合成する映像合成部と、を備えることを特徴とする。
本発明に係る字幕生成方法は、文字を含む映像の映像データから文字情報を抽出するテキスト情報抽出ステップと、前記テキスト情報抽出ステップが抽出した文字情報のうち、前記映像データに対応づけられた台詞のデータである台詞情報に含まれる文字情報を検出するテキスト一致検出ステップと、前記テキスト一致検出ステップによって検出した文字情報を翻訳した翻訳テキスト情報を生成するテキスト翻訳ステップと、前記映像データにおいて前記文字情報に対応する映像が表示された領域を示すテキスト領域情報と、前記翻訳テキスト情報とに基づいて、前記映像データにおける前記翻訳テキスト情報の表示位置を算出する表示位置算出ステップと、前記表示位置算出ステップによって算出した表示位置情報に基づき、前記映像データに前記翻訳テキスト情報を字幕として付す字幕合成ステップと、を含むことを特徴とする。
本発明に係る字幕生成方法は、文字を含む映像の映像データを記憶する映像データ記憶ステップと、前記映像データに対応づけられた台詞のデータである台詞情報を記憶する台詞情報記憶ステップと、前記映像から抽出した文字情報と前記映像から抽出した文字情報が出現した時刻である出現時刻情報とを記憶するテキスト情報記憶ステップと、前記台詞情報記憶ステップが記憶する前記台詞情報のうち、前記文字情報が出現した時刻である一致時刻を記憶する一致時刻記憶ステップと、前記文字情報の前記出現時刻と、前記一致時刻とが、前記映像データの全体の時間軸上に表示される時間軸映像を生成する時間軸映像生成ステップと、前記時間軸映像生成ステップによって生成した前記時間軸映像を、前記映像データに合成する映像合成ステップと、を含むことを特徴とする。
本発明に係るプログラムは、文字を含む映像の映像データから文字情報を抽出するテキスト情報抽出ステップと、前記テキスト情報抽出ステップが抽出した文字情報のうち、前記映像データに対応づけられた台詞のデータである台詞情報に含まれる文字情報を検出するテキスト一致検出ステップと、前記テキスト一致検出ステップによって検出した文字情報を翻訳した翻訳テキスト情報を生成するテキスト翻訳ステップと、前記映像データにおいて前記文字情報に対応する映像が表示された領域を示すテキスト領域情報と、前記翻訳テキスト情報とに基づいて、前記映像データにおける前記翻訳テキスト情報の表示位置を算出する表示位置算出ステップと、前記表示位置算出ステップによって算出した表示位置情報に基づき、前記映像データに前記翻訳テキスト情報を字幕として付す字幕合成ステップと、とをコンピュータに実行させる。
本発明に係るプログラムは、文字を含む映像の映像データを記憶する映像データ記憶ステップと、前記映像データに対応づけられた台詞のデータである台詞情報を記憶する台詞情報記憶ステップと、前記映像から抽出した文字情報と前記映像から抽出した文字情報が出現した時刻である出現時刻情報とを記憶するテキスト情報記憶ステップと、前記台詞情報記憶ステップが記憶する前記台詞情報のうち、前記文字情報が出現した時刻である一致時刻を記憶する一致時刻記憶ステップと、前記文字情報の前記出現時刻と、前記一致時刻とが、前記映像データの全体の時間軸上に表示される時間軸映像を生成する時間軸映像生成ステップと、前記時間軸映像生成ステップによって生成した前記時間軸映像を、前記映像データに合成する映像合成ステップと、をコンピュータに実行させる。
本発明によれば、映像中のテキスト映像について、効率よく翻訳字幕を生成することができるという効果を奏する。
図1は、第一実施形態に係る字幕生成装置の構成例を示すブロック図である。 図2は、映像データの一例を示す図である。 図3は、映像データと翻訳テキスト情報の表示位置の一例を説明する図である。 図4は、映像データと翻訳テキスト情報の表示位置の他の例を説明する図である。 図5は、映像データと翻訳テキスト情報の表示位置の他の例を説明する図である。 図6は、第一実施形態に係る字幕生成装置が行う処理の一例を示すフローチャートである。 図7は、第一実施形態に係る字幕生成装置のテキスト一致検出部が行う処理の一例を示すフローチャートである。 図8は、第一実施形態に係る字幕生成装置の表示位置算出部が行う処理の一例を示すフローチャートである。 図9は、第二実施形態に係る字幕生成装置の構成例を示すブロック図である。 図10は、第二実施形態に係るキーワード情報記憶部の一例を示す図である。 図11は、第二実施形態に係る字幕生成装置が行う処理の一例を示すフローチャートである。 図12は、第三実施形態に係る字幕生成装置の構成例を示すブロック図である。 図13は、表示された編集用画面の一例を示す図である。 図14は、第三実施形態に係る字幕生成装置が行う処理の一例を示すフローチャートである。
以下に添付図面を参照して、本発明に係る字幕生成装置、字幕生成方法及びプログラムの実施形態を詳細に説明する。なお、以下の実施形態により本発明が限定されるものではない。
[第一実施形態]
図1は、第一実施形態に係る字幕生成装置の構成例を示すブロック図である。字幕生成装置10は、例えば外国語のような第一言語のテキスト映像を含む映像の映像データ100を、第一言語と異なる第二言語に翻訳した翻訳字幕(以下、単に「字幕」という。)を生成する。例えば、日本においては、字幕生成装置10は、英語のテキスト映像を含む映像の映像データ100を、日本語に翻訳した字幕を生成する。また、字幕生成装置10は、ストーリー上で必要なテキスト映像、または、重要なテキスト映像に限って、翻訳字幕を生成することが好ましい。本実施形態では、第一言語を外国語として説明する。
図2を用いて、映像データ100について説明する。図2は、第一実施形態に係る映像データの一例を示す図である。映像データ100は、外国語のテキスト映像100aを含む映像のデータである。映像データ100は、例えば、毎秒、数10フレームの画像から構成される動画像である。映像データ100は、外国語のテキスト映像100aと、外国語の台詞のデータである台詞情報110とを含む。映像データ100は、外国語を翻訳した翻訳台詞情報を含んでもよい。
外国語のテキスト映像100aは、例えば、紙に書いてある文章の映像、ビルの看板に書いてある文字の映像、部屋名のプレートに書いてある文字の映像などである。
台詞情報110は、映像に対応する翻訳前の外国語の台詞のデータである。台詞情報110は、翻訳前の台詞のテキストと、映像データ100に対応して台詞の音声を開始するタイミングと終了するタイミングとを含む台詞タイミング情報とを有する。本実施形態では、台詞タイミング情報は、映像データ100の開始時刻をゼロとした開始時刻と、終了する終了時刻とする。または、台詞タイミング情報は、映像データ100の先頭のフレームを1フレーム目とするフレーム数、または、映像データ100に設けられたスタンプ位置情報によって規定してもよい。
台詞情報110は、映像データ100に含まれる台詞の音声データから音声認識処理によって作成してもよい。または、台詞情報110は、台本または脚本の台詞のテキストデータから作成してもよい。
字幕生成装置10は、例えば、CPU(Central Processing Unit)や映像処理用プロセッサなどで構成された演算処理装置(制御部)である。字幕生成装置10は、図示しない記憶部に記憶されているプログラムをメモリからロードして、プログラムに含まれる命令を実行する。字幕生成装置10は、一または複数の装置で構成されていてもよい。字幕生成装置10は、テキスト情報抽出部11と、テキスト一致検出部12と、テキスト翻訳部13と、表示位置算出部18と、字幕合成部19とを有する。
テキスト情報抽出部11は、外国語のテキスト映像100aを含む映像の映像データ100から、映像内テキスト情報120を抽出する。より詳しくは、テキスト情報抽出部11は、映像データ100を取得する。そして、テキスト情報抽出部11は、取得した映像データ100に、例えば、OCR(Optical Character Reader)処理のような文字認識処理を行って、コンピュータ等が利用できるデジタルの文字コードである文字情報を抽出する。外国語のテキスト映像100aには、外国語が含まれるために、文字情報が抽出される。なお、この文字情報を映像内テキスト情報120という。テキスト情報抽出部11は、抽出した映像内テキスト情報120をテキスト一致検出部12と表示位置算出部18とに出力する。
テキスト情報抽出部11は、台詞情報110の言語と同じ言語のテキスト映像から映像内テキスト情報120を抽出する。言い換えると、テキスト情報抽出部11は、翻訳前の言語のテキスト映像から映像内テキスト情報120を抽出する。
テキスト情報抽出部11は、アップで表示された外国語のテキスト映像100aに限って、映像内テキスト情報120を抽出してもよい。より詳しくは、テキスト情報抽出部11は、映像全体の表示領域に占める外国語のテキスト映像100aの表示領域の割合が閾値以上であるとき、映像内テキスト情報120を抽出してもよい。
テキスト情報抽出部11は、映像データ100に画像認識処理を行って、例えば、紙に書いてある文章の映像、ビルの看板の映像、部屋名のプレートの映像を抽出して、抽出したこれらの映像に含まれるテキストを映像内テキスト情報120として抽出してもよい。
また、テキスト情報抽出部11は、映像内テキスト情報120を抽出した際に、映像データ100において映像内テキスト情報120が映像として表示された領域を示すテキスト領域情報130として取得する。なお、テキスト領域情報130は、例えばテキスト映像100aに表示された文字を含む範囲を、映像データ100における水平方向上、垂直方向上の範囲で示した情報である。テキスト情報抽出部11は、テキスト領域情報130を表示位置算出部18に出力する。
また、テキスト情報抽出部11は、映像内テキスト情報120を抽出した際に、外国語のテキスト映像100aが映像データ100に出現した時刻の出現時刻情報を取得する。本実施形態では、出現時刻は、映像データ100の開始時間をゼロとした出現時刻T11と、表示を終了する消滅時刻T12とで規定される表示時刻とする。または、出現時刻情報は、映像データ100の先頭のフレームを1フレーム目とするフレーム数、または、映像データ100に設けられたスタンプ位置情報によって規定してもよい。
テキスト一致検出部12は、テキスト情報抽出部11が抽出した文字情報である映像内テキスト情報120のうち、映像データ100に対応付けられた台詞情報110に含まれる文字情報を一致テキストとして検出する。より詳しくは、テキスト一致検出部12は、抽出された映像内テキスト情報120のうち、映像に含まれる文字が出現した出現時刻を基準とした所定範囲内の映像データ100の台詞情報110に含まれれるテキスト(文字情報)を取得する。例えば、テキスト一致検出部12は、出現時刻T11より時間ΔT前の時刻T21から、消滅時刻T12より時間ΔT後の時刻T22までの台詞情報110を取得する。時間ΔTは、例えば、5秒である。そして、テキスト一致検出部12は、取得した台詞情報110に対して、抽出された映像内テキスト情報120と一致する一致テキストを検索する。そして、テキスト一致検出部12は、検索結果に基づいて、一致テキストがある場合、言い換えると、映像内テキスト情報120が台詞情報110に含まれるテキスト(文字情報)である場合、映像内テキスト情報120を翻訳の対象とする。テキスト一致検出部12は、検索結果に基づいて、一致テキストがない場合、言い換えると、映像内テキスト情報120が台詞情報110に含まれないテキストである場合、抽出された映像内テキスト情報120を翻訳の対象としない。テキスト一致検出部12は、一致テキストがある場合、一致テキスト情報140をテキスト翻訳部13に出力する。
このように、テキスト一致検出部12は、映像内テキスト情報120の表示時刻の前後を含む時刻の台詞情報110と、紙に書いてある文章の映像内テキスト情報120とが一致すると、一致テキストを一致テキスト情報140として検出する。例えば、テキスト一致検出部12は、所定範囲の時刻の中で、登場人物が紙に書いてある文章を読む台詞情報110と、紙に書いてある文章の映像内テキスト情報120とが一致すると、一致テキスト情報140として検出する。
テキスト翻訳部13は、テキスト一致検出部12が検出した文字情報である一致テキストを翻訳した翻訳テキスト情報150を生成する。テキスト翻訳部13は、公知の翻訳方法によって、一致テキストを翻訳する。翻訳方法は、公知のいずれの方法でもよく、限定されない。テキスト翻訳部13は、翻訳した翻訳テキストを翻訳テキスト情報150として表示位置算出部18に出力する。なお、翻訳テキスト情報150は、コンピュータ等が利用できるデジタルの文字コードである文字情報を異なる言語の文字情報に翻訳した情報である。
表示位置算出部18は、テキスト領域情報130と、テキスト翻訳部13が翻訳した翻訳テキスト情報150とから、映像データ100における翻訳テキスト情報150の表示位置を算出する。より詳しくは、表示位置算出部18は、テキスト領域情報130と翻訳テキスト情報150とから、翻訳テキスト情報150の表示位置を、映像データ100においてテキスト領域情報130と重ならない表示位置を算出する。表示位置算出部18は、算出した表示位置情報160を翻訳テキスト情報150とともに字幕合成部19に出力する。
本実施形態では、翻訳テキスト情報150を字幕として表示する際の、フォント、フォントサイズ、色、一行の最大文字数があらかじめ設定されている。これらより、翻訳テキスト情報150は、翻訳テキストの文字数によって、翻訳テキストの行数と一行文字数とが算出されて、映像データ100に翻訳テキストを表示するために必要な領域の大きさである表示スペースが定まる。
また、出現時刻情報の表示時刻が、翻訳テキスト情報150を字幕として表示する表示時刻である。
図3を参照して、表示位置について説明する。図3は、映像データと翻訳テキスト情報の表示位置の一例を説明する図である。表示位置算出部18は、映像データ100においてテキスト領域情報130の下部101に翻訳テキスト情報150の表示スペースがあれば、テキスト領域情報130の下部101を表示位置とする。または、表示位置算出部18は、映像データ100においてテキスト領域情報130の上部102に翻訳テキスト情報150の表示スペースがあれば、テキスト領域情報130の上部102を表示位置とする。または、表示位置算出部18は、映像データ100においてテキスト領域情報130の右部103に翻訳テキスト情報150の表示スペースがあれば、テキスト領域情報130の右部103を表示位置とする。または、表示位置算出部18は、映像データ100においてテキスト領域情報130の左部104に翻訳テキスト情報150の表示スペースがあれば、テキスト領域情報130の左部104を表示位置とする。
図4を参照して、表示位置の他の例について説明する。図4は、映像データと翻訳テキスト情報の表示位置の他の例を説明する図である。表示位置算出部18は、テキスト領域情報130に表示されている映像内テキスト情報120の文字が並ぶ方向である書字方向に合わせて、表示位置を算出してもよい。例えば、表示位置算出部18は、映像内テキスト情報120の書字方向が上下方向、言い換えると、縦書きであるとき、翻訳テキスト情報150を縦書きで表示する表示スペースがあるか否かを判定する。図4に示す例では、テキスト領域情報130の右部103と左部104とには表示スペースがあるが、上部と下部とには表示スペースがない。この場合、表示位置算出部18は、テキスト領域情報130の右部103または左部104を、映像内テキスト情報120と同様に、翻訳テキスト情報150を縦書きで表示する表示位置とする。
図5を参照して、表示位置の他の例について説明する。図5は、映像データと翻訳テキスト情報の表示位置の他の例を説明する図である。表示位置算出部18は、テキスト領域情報130が傾いているとき、テキスト領域情報130の傾きに合わせて傾いた表示位置を算出してもよい。例えば、表示位置算出部18は、映像内テキスト情報120が右下がりに傾いているとき、翻訳テキスト情報150を右下がりで表示する表示スペースがあるか否かを判定する。図5に示す例では、テキスト領域情報130の上部101と下部102と右部103と左部104とに表示スペースがある。この場合、表示位置算出部18は、映像内テキスト情報120と同様に傾けた翻訳テキスト情報150を表示する表示位置とする。
字幕合成部19は、表示位置算出部18が算出した表示位置情報160に基づき、映像データ100の外国語のテキスト映像100aに対して、翻訳テキスト情報150を字幕として付した字幕付き映像データ170を生成する。より詳しくは、外国語のテキスト映像100aの字幕は、翻訳テキスト情報150と、表示位置情報160と、表示時刻とで規定される。さらに、外国語のテキスト映像100aの字幕は、例えば、フォント、フォントサイズ、色の少なくともいずれかを含んで規定されてもよい。外国語のテキスト映像100aの字幕は、これらによって規定された人間により認識可能な文字である。
次に、図6ないし図8を用いて、字幕生成装置10が行う処理の方法及び作用について説明する。図6は、第一実施形態に係る字幕生成装置が行う処理の一例を示すフローチャートである。図7は、第一実施形態に係る字幕生成装置のテキスト一致検出部が行う処理の一例を示すフローチャートである。図8は、第一実施形態に係る字幕生成装置の表示位置算出部が行う処理の一例を示すフローチャートである。
まず、図6を用いて、字幕生成装置10が行う処理について説明する。字幕生成装置10は、テキスト情報抽出部11によって、映像内テキスト情報120を抽出する(ステップS11)。より詳しくは、字幕生成装置10は、テキスト情報抽出部11によって、外国語のテキスト映像100aを含む映像の映像データ100から、映像内テキスト情報120を抽出する。また、字幕生成装置10は、テキスト情報抽出部11によって、映像データ100において映像内テキスト情報120が表示された領域をテキスト領域情報130として取得する。また、字幕生成装置10は、テキスト情報抽出部11によって、外国語のテキスト映像100aが映像データ100に表示されるタイミングを示す出現時刻情報を取得する。字幕生成装置10は、テキスト情報抽出部11によって、映像データ100のすべての映像内テキスト情報120を抽出すると、ステップS12に進む。
字幕生成装置10は、テキスト一致検出部12によって、一致テキストを検出する(ステップS12)。ステップS12の処理については、後述する。字幕生成装置10は、映像データ100についてすべての一致テキストを検出すると、ステップS13に進む。
字幕生成装置10は、テキスト翻訳部13によって、テキストを翻訳する(ステップS13)。より詳しくは、字幕生成装置10は、テキスト翻訳部13によって、公知の翻訳方法を使用して、一致テキストを翻訳した翻訳テキスト情報150を生成する。字幕生成装置10は、すべての一致テキスト情報140を翻訳すると、ステップS14に進む。
字幕生成装置10は、表示位置算出部18によって、表示位置を算出する(ステップS14)。ステップS14の処理については、後述する。字幕生成装置10は、すべての翻訳テキスト情報150について表示位置を算出すると、ステップS15に進む。
字幕生成装置10は、字幕合成部19によって、字幕を合成する(ステップS15)。より詳しくは、字幕生成装置10は、字幕合成部19によって、表示位置算出部18が算出した表示位置情報160に基づき、映像データ100の外国語のテキスト映像100aに対して、翻訳テキスト情報150を字幕として付した字幕付き映像データ170を生成する。字幕生成装置10は、すべての翻訳テキスト情報150を字幕として映像データ100に合成すると、処理を終了する。
つづいて、図7を用いて、ステップS12において、テキスト一致検出部12が行う処理について説明する。テキスト一致検出部12は、映像内テキスト情報120が抽出された時刻を取得する(ステップS1201)。より詳しくは、テキスト一致検出部12は、テキスト情報抽出部11が抽出した映像内テキスト情報120について、出現時刻情報の表示時刻を取得する。テキスト一致検出部12は、ステップS1202に進む。
テキスト一致検出部12は、台詞情報110のうち、映像内テキスト情報120が抽出された時刻の前後5秒の台詞情報110を取得する(ステップS1202)。より詳しくは、テキスト一致検出部12は、抽出された映像内テキスト情報120の出現時刻情報の表示時刻を中心とする前後5秒の映像データ100に対応する台詞情報110を取得する。テキスト一致検出部12は、ステップS1203に進む。
テキスト一致検出部12は、取得した台詞情報110に対し、映像データ100から抽出した映像内テキスト情報120があるかを検索する(ステップS1203)。より詳しくは、テキスト一致検出部12は、取得した台詞情報110に対して、抽出された映像内テキスト情報120との比較を行い、一致テキストを検出する。テキスト一致検出部12は、ステップS1204に進む。
テキスト一致検出部12は、一致テキストがあるか否かを判定する(ステップS1204)。より詳しくは、テキスト一致検出部12は、ステップS1203において一致テキストが検出された場合(ステップS1204でYes)、ステップS1205に進む。テキスト一致検出部12は、ステップS1203において一致テキストが検出されなかった場合(ステップS1204でNo)、ステップS13以降の処理を行わず、処理を終了する。
テキスト一致検出部12は、一致テキスト情報140をテキスト翻訳部13へ出力する(ステップS1205)。これにより、ステップS13以降の処理が実行される。
つづいて、図8を用いて、ステップS14において、表示位置算出部18が行う処理の方法及び作用について説明する。表示位置算出部18は、翻訳テキストの行数と一行文字数とを取得する(ステップS1401)。より詳しくは、表示位置算出部18は、翻訳テキスト情報150と、翻訳テキスト情報150を字幕として表示する場合の一行の最大文字数とから、翻訳テキストの行数と一行文字数とを取得する。そして、表示位置算出部18は、翻訳テキストのフォントサイズと行数と一行文字数とから、映像データ100における翻訳テキスト情報150を表示する際の水平方向上、垂直方向上の範囲を算出する。。表示位置算出部18は、ステップS1402に進む。
表示位置算出部18は、元のテキスト領域下部に翻訳テキストの表示スペースがあるかかを判定する(ステップS1402)。表示スペースがあるとは、映像データ100において、翻訳テキスト情報150を表示する水平方向上、垂直方向上の範囲が、予め定めた映像データ100を表示する水平方向上、垂直方向上の範囲に含まれる場合をいう。また、表示スペースがないとは、映像データ100において、翻訳テキスト情報150を表示する水平方向上、垂直方向上の範囲が、予め定めた映像データ100を表示する水平方向上、垂直方向上の範囲に含まれず、その範囲を超える場合をいう。翻訳テキスト情報150を表示する水平方向上、垂直方向上の範囲は、テキスト情報抽出部11から取得したテキスト領域情報130を基準に、後述するS1402からS1407によって表示位置算出部18が設定する。表示位置算出部18は、テキスト領域情報130の下部101に翻訳テキスト情報150の表示スペースがあると判定する場合(ステップS1402でYes)、ステップS1408に進む。表示位置算出部18は、テキスト領域情報130の下部101に翻訳テキスト情報150の表示スペースがないと判定する場合(ステップS1402でNo)、ステップS1403に進む。
表示位置算出部18は、元のテキスト領域上部に翻訳テキスト情報150の表示スペースがあるか否かを判定する(ステップS1403)。表示位置算出部18は、テキスト領域情報130の上部102に翻訳テキスト情報150の表示スペースがあると判定する場合(ステップS1403でYes)、ステップS1409に進む。表示位置算出部18は、テキスト領域情報130の上部102に翻訳テキスト情報150の表示スペースがないと判定する場合(ステップS1403でNo)、ステップS1404に進む。
表示位置算出部18は、元のテキスト領域右部に翻訳テキスト情報150の表示スペースがあるか否かを判定する(ステップS1404)。表示位置算出部18は、テキスト領域情報130の右部103に翻訳テキスト情報150の表示スペースがあると判定する場合(ステップS1404でYes)、ステップS1410に進む。表示位置算出部18は、テキスト領域情報130の右部103に翻訳テキスト情報150の表示スペースがないと判定する場合(ステップS1404でNo)、ステップS1405に進む。
表示位置算出部18は、元のテキスト領域左部に翻訳テキスト情報150の表示スペースがあるか否かを判定する(ステップS1405)。表示位置算出部18は、テキスト領域情報130の左部104に翻訳テキスト情報150の表示スペースがあると判定する場合(ステップS1405でYes)、ステップS1411に進む。表示位置算出部18は、テキスト領域情報130の左部104に翻訳テキスト情報150の表示スペースがないと判定する場合(ステップS1405でNo)、ステップS1406に進む。
表示位置算出部18は、表示位置を元のテキスト領域下部に設定する(ステップS1406)。表示位置算出部18は、テキスト領域情報130の下部101を表示位置にする。表示位置算出部18は、ステップS1407に進む。
表示位置算出部18は、元のテキスト領域下部のスペースに翻訳テキスト情報150が入るように、フォントサイズを縮小する(ステップS1407)。これにより、表示スペースの大きさが縮小される。表示位置算出部18は、処理を終了する。
表示位置算出部18は、表示位置を元のテキスト領域下部に設定する(ステップS1408)。表示位置算出部18は、テキスト領域情報130の下部101を表示位置にする。表示位置算出部18は、処理を終了する。
表示位置算出部18は、表示位置を元のテキスト領域上部に設定する(ステップS1409)。表示位置算出部18は、テキスト領域情報130の上部102を表示位置にする。表示位置算出部18は、処理を終了する。
表示位置算出部18は、表示位置を元のテキスト領域右部に設定する(ステップS1410)。表示位置算出部18は、テキスト領域情報130の右部103を表示位置にする。表示位置算出部18は、処理を終了する。
表示位置算出部18は、表示位置を元のテキスト領域左部に設定する(ステップS1411)。表示位置算出部18は、テキスト領域情報130の左部104を表示位置にする。表示位置算出部18は、処理を終了する。
このようにして、映像内テキスト情報120と台詞情報110とが一致すると、映像データ100の外国語のテキスト映像100aを翻訳した字幕を映像データ100に合成した字幕付き映像データ170を生成する。
上述したように、本実施形態は、映像内テキスト情報120と台詞情報110とが一致すると、映像データ100の外国語のテキスト映像100aを翻訳した字幕を映像データ100に合成した字幕付き映像データ170を生成することができる。このようにして、本実施形態は、映像データ100の外国語のテキスト映像100aについて、効率よく翻訳字幕を生成することができる。
本実施形態は、映像内テキスト情報120と台詞情報110とが一致すると、映像データ100の外国語のテキスト映像100aを翻訳する。これにより、本実施形態は、ストーリー上で必要な外国語のテキスト映像100a、または、重要な外国語のテキスト映像100aに限って、翻訳字幕を生成することができる。
これに対して、すべての外国語のテキスト映像100aを翻訳して字幕として表示すると、翻訳した字幕の情報量が過大になり、映像データ100を集中して視聴することができなくなるおそれがある。
本実施形態によれば、必要な外国語のテキスト映像100aに限って翻訳字幕を生成するので、字幕の情報量が過大になることを抑制することができる。
[第二実施形態]
図9ないし図11を参照しながら、本実施形態に係る字幕生成装置10Aについて説明する。図9は、第二実施形態に係る字幕生成装置の構成例を示すブロック図である。図10は、第二実施形態に係るキーワード情報記憶部の一例を示す図である。図11は、第二実施形態に係る字幕生成装置が行う処理の一例を示すフローチャートである。字幕生成装置10Aは、基本的な構成は第一実施形態の字幕生成装置10と同様である。以下の説明においては、字幕生成装置10と同様の構成要素には、同一の符号または対応する符号を付し、その詳細な説明は省略する。本実施形態の字幕生成装置10Aは、第一実施形態と同様のテキスト情報抽出部11と、表示位置算出部18と、字幕合成部19と、さらに、キーワード情報記憶部15Aと、テキスト置換部16Aとを有する。
図10を用いて、キーワード情報記憶部15Aについて説明する。キーワード情報記憶部15Aは、映像データ100に関連し、翻訳を要するキーワード151Aと翻訳テキスト152Aとをあらかじめ記憶する。キーワード情報記憶部15Aは、映像データ100ごとに、映像データ100に含まれる映像内テキスト情報120のなかで、ストーリー上で必要であったり、重要であって、翻訳が必要なものを記憶する。抽出した映像内テキスト情報120と一致するキーワード151Aがある場合、翻訳テキスト152Aで置換して翻訳する。
テキスト置換部16Aは、キーワード情報記憶部15Aから、映像内テキスト情報120に一致するキーワード151Aと翻訳テキスト152Aとを取得して、映像内テキスト情報120のテキストを翻訳テキスト152Aで置換して翻訳する。テキスト置換部16Aは、翻訳した翻訳テキスト情報150を表示位置算出部18に出力する。
次に、図11を用いて、字幕生成装置10Aが行う処理の方法及び作用について説明する。図11に示すフローチャートのステップS21、ステップS23、ステップS24の処理は、図6に示すフローチャートのステップS11、ステップS14、ステップS15の処理と同様の処理を行う。
字幕生成装置10Aは、テキスト置換部16Aによって、テキストを置換する(ステップS22)。より詳しくは、字幕生成装置10Aは、テキスト置換部16Aによって、キーワード情報記憶部15Aから、映像内テキスト情報120に一致するキーワード151Aと翻訳テキスト152Aとを取得する。そして、字幕生成装置10Aは、テキスト置換部16Aによって、映像内テキスト情報120のテキストを翻訳テキスト152Aで置換して翻訳する。字幕生成装置10は、キーワード151Aに一致するすべての映像内テキスト情報120を翻訳すると、ステップS23に進む。
このようにして、映像内テキスト情報120と、キーワード情報記憶部15Aのキーワード151Aとが一致すると、映像データ100の外国語のテキスト映像100aを、キーワード151Aで置換して翻訳した字幕を映像データ100に合成した字幕付き映像データ170を生成する。
上述したように、本実施形態は、映像内テキスト情報120と、キーワード情報記憶部15Aのキーワード151Aとが一致すると、映像データ100の外国語のテキスト映像100aを、キーワード151Aで置換して翻訳した字幕を映像データ100に合成した字幕付き映像データ170を生成することができる。このようにして、本実施形態は、映像データ100の外国語のテキスト映像100aについて、効率よく翻訳字幕を生成することができる。
本実施形態は、映像内テキスト情報120とキーワード情報記憶部15Aのキーワード151Aとが一致すると、映像データ100の外国語のテキスト映像100aを翻訳する。これにより、本実施形態は、ストーリー上で必要であったり、重要であって、翻訳が必要なものに限って、翻訳字幕を生成することができる。
本実施形態は、映像内テキスト情報120を、キーワード情報記憶部15Aに基づいて翻訳する。これにより、映像内テキスト情報120が繰り返し抽出される場合に、効率よく翻訳字幕を生成することができる。また、映像内テキスト情報120が繰り返し抽出される場合に、同じ翻訳テキスト152Aで翻訳することができる。
[第三実施形態]
図12ないし図14を参照しながら、本実施形態に係る字幕生成装置20について説明する。図12は、第三実施形態に係る字幕生成装置の構成例を示すブロック図である。図13は、表示された編集用画面の一例を示す図である。図14は、第三実施形態に係る字幕生成装置が行う処理の一例を示すフローチャートである。
字幕生成装置20は、外国語のテキスト映像100aを含む映像の映像データ100に字幕を生成する際に、シークバー付きの編集用映像データ(以下、「編集用映像データ」という。)300を生成する。字幕生成装置20は、映像データ記憶部21と、台詞情報記憶部22と、テキスト情報記憶部23と、一致時刻記憶部24と、時間軸映像生成部25と、映像合成部26とを有する。
映像データ記憶部21は、外国語の文字のテキスト映像100aを含む映像の映像データ100を記憶する。
台詞情報記憶部22は、映像データ100に対応付けられた台詞のデータである台詞情報110を記憶する。
テキスト情報記憶部23は、映像データ100から抽出した映像内テキスト情報120と映像データ100における出現時刻情報とを記憶する。より詳しくは、テキスト情報記憶部23は、例えば、第一実施形態のテキスト情報抽出部11が抽出した映像内テキスト情報120と、テキスト領域情報130と、出現時刻情報とを記憶する。テキスト情報記憶部23は、映像内テキスト情報120を一致時刻記憶部24に出力する。テキスト情報記憶部23は、出現時刻情報の表示時刻の時刻情報を時間軸映像生成部25に出力する。
一致時刻記憶部24は、台詞情報記憶部22が記憶するすべての台詞情報110のうち、テキスト情報記憶部23が記憶するテキスト情報120が出現した時刻を一致時刻として記憶する。より詳しくは、一致時刻記憶部24は、例えば、第一実施形態のテキスト一致検出部12が一致するテキストを検出したときの映像内テキスト情報120の表示時刻を一致時刻として記憶する。一致時刻記憶部24は、記憶した一致時刻の時刻情報を時間軸映像生成部25に出力する。
時間軸映像生成部25は、テキスト情報記憶部23が記憶した映像内テキスト情報120の出現時刻の時刻情報と、一致時刻記憶部24が抽出した一致時刻の時刻情報とを、映像データ100の全体の時間軸上に表示するシークバー映像(時間軸映像)200を生成する。時間軸映像生成部25は、テキスト情報記憶部23が記憶する映像内テキスト情報120の時刻情報と、一致時刻記憶部24が記憶する一致テキストが存在する時刻情報とに基づいて、映像データ100の全体の時間軸に対して、それぞれの時刻情報を重ね合わせて表示するシークバー映像200を生成する。
図13を用いて、シークバー映像200について説明する。シークバー映像200は、映像データ100の全体の時間軸の映像である。シークバー映像200は、映像テキスト情報シークバー201と、台詞情報シークバー202と、一致マーカ203と、再生位置マーカ204と、マーカ205と、マーカ206とを含む。映像テキスト情報シークバー201は、映像データ100の全体の時間軸である。映像テキスト情報シークバー201には、映像内テキスト情報120が存在する時刻にマーカ205が表示される。台詞情報シークバー202は、映像データ100の全体の時間軸である。台詞情報シークバー202には、映像内テキスト情報120と一致する台詞が存在する時刻にマーカ206が表示される。一致マーカ203は、映像データ100に対して、抽出した映像内テキスト情報120と一致する台詞が存在する時刻が一定時間の範囲内であるときに、表示される。再生位置マーカ204は、映像データ100の再生中の時刻を示す。
映像合成部26は、時間軸映像生成部25が生成したシークバー映像200を、映像データ100に合成して編集用の画面に表示させる編集用映像データ300を生成する。編集用映像データ300は、映像データ100に、シークバー映像200を半透過で重ねて表示する。
次に、図14を用いて、字幕生成装置20が行う処理の方法及び作用について説明する。字幕生成装置20は、時間軸映像生成部25によって、シークバー映像200を生成する(ステップS31)。より詳しくは、字幕生成装置20は、時間軸映像生成部25によって、テキスト情報記憶部23のテキストが存在する時刻情報と、一致時刻記憶部24のテキストが存在する時刻情報とに基づいて、映像データ100の全体の時間軸に対して、それぞれの時刻情報を重ね合わせて表示するシークバー映像200を生成する。字幕生成装置20は、ステップS32に進む。
字幕生成装置20は、映像合成部26によって、映像データ100にシークバー映像200を合成して編集用映像データ300を生成する(ステップS32)。字幕生成装置20は、処理を終了する。
上述したように、映像内テキスト情報120の表示時刻と、映像内テキスト情報120と一致する台詞が存在する時刻と、一致テキストが存在する時刻とが表示されたシークバー映像200を合成した編集用映像データ300を生成することができる。本実施形態によれば、一致マーカ203の映像データ100と台詞情報110とを確認しながら、外国語のテキスト映像100aの字幕が適切に付されているかを容易に確認可能である。このようにして、本実施形態は、映像データ100の外国語のテキスト映像100aについて、効率よく翻訳字幕を生成することができる。本実施形態は、編集作業を効率よく行うことができる。
これまで本発明に係る字幕生成装置10、字幕生成装置10A、字幕生成装置20について説明したが、上述した実施形態以外にも種々の異なる形態にて実施されてよいものである。
図示した字幕生成装置10、字幕生成装置10A、字幕生成装置20の各構成要素は、機能概念的なものであり、必ずしも物理的に図示の如く構成されていなくてもよい。すなわち、各装置の具体的形態は、図示のものに限られず、各装置の処理負担や使用状況などに応じて、その全部または一部を任意の単位で機能的または物理的に分散または統合してもよい。
字幕生成装置10、字幕生成装置10A、字幕生成装置20の構成は、例えば、ソフトウェアとして、メモリにロードされたプログラムなどによって実現される。上記実施形態では、これらのハードウェアまたはソフトウェアの連携によって実現される機能ブロックとして説明した。すなわち、これらの機能ブロックについては、ハードウェアのみ、ソフトウェアのみ、または、それらの組み合わせによって種々の形で実現できる。
上記に記載した構成要素には、当業者が容易に想定できるもの、実質的に同一のものを含む。さらに、上記に記載した構成は適宜組み合わせが可能である。また、本発明の要旨を逸脱しない範囲において構成の種々の省略、置換または変更が可能である。
10 字幕生成装置
11 テキスト情報抽出部
12 テキスト一致検出部
13 テキスト翻訳部
18 表示位置算出部
19 字幕合成部
100 映像データ
100a 外国語のテキスト映像
110 台詞情報
120 映像内テキスト情報
130 テキスト領域情報
140 一致テキスト情報
150 翻訳テキスト情報
160 表示位置情報
170 字幕付き映像データ

Claims (7)

  1. 文字を含む映像の映像データから文字情報を抽出するテキスト情報抽出部と、
    前記テキスト情報抽出部が抽出した文字情報のうち、前記映像データに対応づけられた台詞のデータである台詞情報に含まれる文字情報を検出するテキスト一致検出部と、
    前記テキスト一致検出部が検出した文字情報を翻訳した翻訳テキスト情報を生成するテキスト翻訳部と、
    前記映像データにおいて前記文字情報に対応する映像が表示された領域を示すテキスト領域情報と、前記翻訳テキスト情報とに基づいて、前記映像データにおける前記翻訳テキスト情報の表示位置を算出する表示位置算出部と、
    前記表示位置算出部が算出した表示位置情報に基づき、前記映像データに前記翻訳テキスト情報を字幕として付す字幕合成部と、
    を備えることを特徴とする字幕生成装置。
  2. 前記テキスト一致検出部は、前記テキスト情報抽出部が抽出した文字情報のうち、映像に含まれる文字が出現した時刻を基準とした所定の範囲内の前記台詞情報に含まれる文字情報を検出する、
    請求項1に記載の字幕生成装置。
  3. 文字を含む映像の映像データを記憶する映像データ記憶部と、
    前記映像データに対応づけられた台詞のデータである台詞情報を記憶する台詞情報記憶部と、
    前記映像から抽出した文字情報と、前記映像から抽出した文字情報が出現した時刻である出現時刻情報とを記憶したテキスト情報記憶部と、
    前記台詞情報記憶部が記憶する前記台詞情報のうち、前記テキスト情報記憶部が記憶する前記文字情報が出現した時刻である一致時刻情報を記憶する一致時刻記憶部と、
    前記テキスト情報記憶部が記憶した前記文字情報の前記出現時刻情報と、前記一致時刻記憶部が記憶した一致時刻情報とが、前記映像データの全体の時間軸上に表示される時間軸映像を生成する時間軸映像生成部と、
    前記時間軸映像生成部が生成した前記時間軸映像を、前記映像データに合成する映像合成部と、
    を備えることを特徴とする字幕生成装置。
  4. 文字を含む映像の映像データから文字情報を抽出するテキスト情報抽出ステップと、
    前記テキスト情報抽出ステップが抽出した文字情報のうち、前記映像データに対応づけられた台詞のデータである台詞情報に含まれる文字情報を検出するテキスト一致検出ステップと、
    前記テキスト一致検出ステップによって検出した文字情報を翻訳した翻訳テキスト情報を生成するテキスト翻訳ステップと、
    前記映像データにおいて前記文字情報に対応する映像が表示された領域を示すテキスト領域情報と、前記翻訳テキスト情報とに基づいて、前記映像データにおける前記翻訳テキスト情報の表示位置を算出する表示位置算出ステップと、
    前記表示位置算出ステップによって算出した表示位置情報に基づき、前記映像データに前記翻訳テキスト情報を字幕として付す字幕合成ステップと、
    を含む字幕生成方法。
  5. 文字を含む映像の映像データを記憶する映像データ記憶ステップと、
    前記映像データに対応づけられた台詞のデータである台詞情報を記憶する台詞情報記憶ステップと、
    前記映像から抽出した文字情報と前記映像から抽出した文字情報が出現した時刻である出現時刻情報とを記憶するテキスト情報記憶ステップと、
    前記台詞情報のうち、前記文字情報が出現した時刻である一致時刻を記憶する一致時刻記憶ステップと、
    前記文字情報の前記出現時刻と、前記一致時刻とが、前記映像データの全体の時間軸上に表示される時間軸映像を生成する時間軸映像生成ステップと、
    前記時間軸映像生成ステップによって生成した前記時間軸映像を、前記映像データに合成する映像合成ステップと、
    を含む字幕生成方法。
  6. 文字を含む映像の映像データから文字情報を抽出するテキスト情報抽出ステップと、
    前記テキスト情報抽出ステップが抽出した文字情報のうち、前記映像データに対応づけられた台詞のデータである台詞情報に含まれる文字情報を検出するテキスト一致検出ステップと、
    前記テキスト一致検出ステップによって検出した文字情報を翻訳した翻訳テキスト情報を生成するテキスト翻訳ステップと、
    前記映像データにおいて前記文字情報に対応する映像が表示された領域を示すテキスト領域情報と、前記翻訳テキスト情報とに基づいて、前記映像データにおける前記翻訳テキスト情報の表示位置を算出する表示位置算出ステップと、
    前記表示位置算出ステップによって算出した表示位置情報に基づき、前記映像データに前記翻訳テキスト情報を字幕として付す字幕合成ステップと、
    をコンピュータに実行させるプログラム。
  7. 文字を含む映像の映像データを記憶する映像データ記憶ステップと、
    前記映像データに対応づけられた台詞のデータである台詞情報を記憶する台詞情報記憶ステップと、
    前記映像から抽出した文字情報と、前記映像から抽出した文字情報が出現した時刻である出現時刻情報とを記憶するテキスト情報記憶ステップと、
    前記台詞情報のうち、前記文字情報が出現した時刻である一致時刻を記憶する一致時刻記憶ステップと、
    前記文字情報の前記出現時刻と、前記一致時刻とが、前記映像データの全体の時間軸上に表示される時間軸映像を生成する時間軸映像生成ステップと、
    前記時間軸映像生成ステップによって生成した前記時間軸映像を、前記映像データに合成する映像合成ステップと、
    をコンピュータに実行させるプログラム。
JP2018044168A 2018-03-12 2018-03-12 字幕生成装置、字幕生成方法及びプログラム Active JP6977632B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018044168A JP6977632B2 (ja) 2018-03-12 2018-03-12 字幕生成装置、字幕生成方法及びプログラム
PCT/JP2019/009509 WO2019176816A1 (ja) 2018-03-12 2019-03-08 字幕生成装置、字幕生成方法及びプログラム
US17/016,450 US11363217B2 (en) 2018-03-12 2020-09-10 Subtitle generation apparatus, subtitle generation method, and non-transitory storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018044168A JP6977632B2 (ja) 2018-03-12 2018-03-12 字幕生成装置、字幕生成方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2019161390A JP2019161390A (ja) 2019-09-19
JP6977632B2 true JP6977632B2 (ja) 2021-12-08

Family

ID=67907090

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018044168A Active JP6977632B2 (ja) 2018-03-12 2018-03-12 字幕生成装置、字幕生成方法及びプログラム

Country Status (3)

Country Link
US (1) US11363217B2 (ja)
JP (1) JP6977632B2 (ja)
WO (1) WO2019176816A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112911378B (zh) * 2019-12-03 2024-09-24 西安光启智能技术有限公司 一种视频帧的查询方法
CN111652002B (zh) * 2020-06-16 2023-04-18 抖音视界有限公司 文本划分方法、装置、设备和计算机可读介质
CN115797921B (zh) * 2023-02-03 2023-05-09 北京探境科技有限公司 字幕识别方法、装置、电子设备及可读存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3386399B2 (ja) 1999-02-18 2003-03-17 日本電気株式会社 映像表示装置
JP2002335490A (ja) 2001-05-09 2002-11-22 Alpine Electronics Inc Dvd再生装置
US20030065503A1 (en) * 2001-09-28 2003-04-03 Philips Electronics North America Corp. Multi-lingual transcription system
JP2006343941A (ja) * 2005-06-08 2006-12-21 Sharp Corp コンテンツ検索・再生方法、装置、プログラム、及び記録媒体
JP2008146392A (ja) * 2006-12-11 2008-06-26 Toshiba Corp 文字データ変換装置
JP4655065B2 (ja) * 2007-06-15 2011-03-23 日本電気株式会社 コンテンツ配信システム、コンテンツ配信システムの配信サーバ及び表示端末、コンテンツ配信プログラム
JP2009177502A (ja) 2008-01-24 2009-08-06 Nec Corp 携帯端末装置
JP6046961B2 (ja) * 2012-09-06 2016-12-21 日本放送協会 映像合成装置及び映像合成プログラム

Also Published As

Publication number Publication date
US11363217B2 (en) 2022-06-14
JP2019161390A (ja) 2019-09-19
US20200412979A1 (en) 2020-12-31
WO2019176816A1 (ja) 2019-09-19

Similar Documents

Publication Publication Date Title
JP6977632B2 (ja) 字幕生成装置、字幕生成方法及びプログラム
JP6317772B2 (ja) 外国語の文字セットおよびそれらの翻訳を資源に制約のあるモバイル機器上にリアルタイムで表示するためのシステムおよび方法
US9338422B2 (en) Display control method, recording medium, display control device
JP6233859B2 (ja) Web漫画の多国語サポートシステム
US20140297256A1 (en) Systems and methods for determining and displaying multi-line foreign language translations in real time on mobile devices
US8595614B2 (en) Document generating apparatus, document generating method, computer program and recording medium
JP2008027080A (ja) プレゼンテーションシステム
CN103051945A (zh) 一种视频播放终端的字幕翻译方法、系统
JP6061502B2 (ja) 画像処理装置、画像処理方法及びプログラム
KR20200004113A (ko) 쇼핑몰 배너디자인 생성 방법, 장치 및 시스템
KR102187550B1 (ko) 문서에 삽입되는 ole 개체에 대한 요약된 미리보기 화면을 생성할 수 있는 전자 장치 및 그 동작 방법
EP1622040A2 (en) Apparatus and method for processing text data
US9639970B2 (en) Character recognition system, character recognition program and character recognition method
JP6746947B2 (ja) 翻訳プログラム及び情報処理装置
JP7098897B2 (ja) 画像処理装置、プログラム及び画像データ
WO2020054067A1 (ja) 画像情報処理装置、画像情報処理方法、及び画像情報処理プログラム
US10049107B2 (en) Non-transitory computer readable medium and information processing apparatus and method
JPH05108716A (ja) 機械翻訳装置
US11582435B2 (en) Image processing apparatus, image processing method and medium
US20180189251A1 (en) Automatic multi-lingual editing method for cartoon content
CN115879417A (zh) 媒体编辑方法、装置、计算机及可读存储介质
US20230112366A1 (en) Image output apparatus, method for controlling image output apparatus, and storage medium
JP2008004116A (ja) 映像中の文字検索方法及び装置
JP2015158869A (ja) 投影表示装置およびプログラム
KR20200004114A (ko) 쇼핑몰 배너디자인 생성 방법, 장치 및 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211012

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211025

R150 Certificate of patent or registration of utility model

Ref document number: 6977632

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150