JP4124416B2 - Semi-automatic subtitle program production system - Google Patents
Semi-automatic subtitle program production system Download PDFInfo
- Publication number
- JP4124416B2 JP4124416B2 JP2002019209A JP2002019209A JP4124416B2 JP 4124416 B2 JP4124416 B2 JP 4124416B2 JP 2002019209 A JP2002019209 A JP 2002019209A JP 2002019209 A JP2002019209 A JP 2002019209A JP 4124416 B2 JP4124416 B2 JP 4124416B2
- Authority
- JP
- Japan
- Prior art keywords
- subtitle
- text
- video
- program
- area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Television Systems (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
- Studio Circuits (AREA)
- Television Signal Processing For Recording (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、人手による制作機能と自動による制作機能とを効果的に組み合わせた半自動型字幕番組制作システムに関する。
【0002】
[発明の概要]
本発明の半自動型字幕番組制作システムは、ディスク記録再生装置に収録してあるテレビ素材番組の映像、音声、タイムコードを効果的に操作し、スピーチに対する字幕用テキストの書き起こしおよび背景音などの付加情報データを効率的に入力する機能と、これらテキストやデータを利用し、自動で字幕画面作成およびタイミング付与を行う自動字幕番組データ制作機能と、字幕番組データの編集および試写を行う編集・試写機能とを備えるものである。
【0003】
この半自動型字幕番組制作システムは、電子化原稿のない番組や背景音レベルの大きい番組など、多様な番組の字幕制作にも対応可能な字幕番組制作システムであり、今後適用番組分野、番組数などの拡大が見込まれる字幕放送の番組制作システムとして、大きな効果が期待される。
【0004】
【従来の技術】
ニュースやナレーション主体のドキュメンタリー番組を対象とし、電子化原稿が存在する場合のオフラインで字幕番組を制作する技術として、本発明者らは、「自動要約」、「自動同期」「自動画面作成技術」などをテーマとして研究を進め、これまでの研究成果を集約した「自動字幕制作システム」を構築した。これらの要点は既に特許出願済である(例えば、特開2000−270263、特開2000−324395等)。
【0005】
この自動字幕制作システムを字幕制作者や聴覚障害者などによって評価した結果、一定の性能、機能があることが確認されたが、実用化のためには、未だ多くの課題が残されている。
【0006】
特に要望の高いのは、対象番組範囲の拡大であり、電子化原稿が存在しない番組、ドラマやバラエティなどの番組分野への拡大である。しかし、現状の自動字幕制作システムの機能・性能から見た字幕制作可能なテレビ番組分野は、かなり限られたものであり、自動機能として限界があるため、この限界以上の部分は、手動による字幕制作や試写・修正の範囲でカバーせざるを得ない。
【0007】
実際の字幕制作現場では、高度な専門技術、知識をもった多くの専門家が携わっており、字幕制作はこのような人間の能力に負っている部分が多くある。
【0008】
一方、字幕番組の急速な拡充が要請されている状況下、字幕制作作業者もこのような専門家のみに頼るのみでは不十分であり、専門家ではないワープロ作業が一応できる程度の者であっても作業の一端を分担できるシステムが望ましい。
【0009】
【発明が解決しようとする課題】
しかしながら、課題解決のためには、自動処理を前提とした字幕制作システムのみならず、手作業を含む字幕用電子化テキストの作成や字幕画面の試写・編集などの作業も含めたトータルシステムとして、番組制作効率を考えていく必要性がある。
【0010】
そのため、実用的なシステム開発の目標として、1)多様なテレビ番組の字幕制作を、時間、人手、費用などの点で効率的にできるシステム、2)そのため、研究を進めている自動字幕制作機能と、多彩な支援機能を盛り込んだ手動字幕制作機能とを効果的にタイアップした機能・構成、3)字幕制作担当者の観点からの作業形態などに関するシステムフレキシビリティの向上などが切望されている。
【0011】
本発明は上記事情に鑑み、これまでに開発された自動字幕制作システムのシステム評価などから得られた知見をもとに、各自動化要素技術を高性能化した新しい自動字幕制作システムを中核にするとともに、字幕番組制作者による手動字幕制作を効率的に支援する実用性のより高い半自動型字幕番組制作システムを提供することを目的としている。
【0012】
【課題を解決するための手段】
上記の目的を達成するために本発明は、請求項1では、予め記録媒体に記録されているテレビ素材番組の映像および音声について、スピーチ区間では任意の低速での再生を制御するとともに、変速率に応じたピッチコントロールを行って書き起こしに適した速度での再生を制御する再生制御機能を有し、前記再生制御機能により再生される前記番組の音声に対して書き起こされる字幕本文とスピーチの区切りの開始及び終了のタイミングとを含む字幕用テキストの入力を受け付ける字幕テキスト書き起こし部と、前記番組の音声から得られるポーズ時間から前記字幕用テキストをブロックに分割し、タイミング付与を行なうことで、予め定められた分割ルールに従って前記字幕用テキストが分割された表示単位字幕文にタイミング付与された字幕番組データを作成する自動字幕番組データ制作部と、前記番組の映像および音声を再生するとともに、前記字幕用テキストに基づいて作成された字幕番組データおよび前記音声に関する波形を試写のために表示する再生・表示機能と、前記字幕番組データを編集するための操作が予め定められている操作キーの操作入力を受け付け、操作された前記操作キーに関連付けられる動作を制御して、前記字幕番組データを編集する編集制御機能とを有する字幕番組編集・試写部とを備えたことを特徴としている。
【0013】
請求項2では、請求項1に記載の半自動型字幕制作システムにおいて、前記字幕テキスト書き起こし部におけるマンマシンインタフェースとなるメイン画面は、現在作業中の映像を表示する映像表示エリアと、この映像に対応する書き起こし中の字幕用テキストを表示する字幕用テキスト表示エリアと、前記作業中の映像に対応した一定間隔毎若しくはカット変わりなどの画像と、各画像に対応する書き起こされた字幕用テキストと、各字幕用テキストの書き起こしの基となる音声に関する波形とがタイムライン上に一覧表示された一覧表示エリアと、各エリアに対する制御エリアと、を少なくとも備え、このメイン画面により作業者の字幕テキスト書き起こし作業を支援することを特徴としている。
【0014】
請求項3では、請求項1または2に記載の半自動型字幕番組制作システムにおいて、前記字幕番組編集・試写部におけるマンマシンインタフェースとなるメイン画面は、現在編集・試写中の映像を表示する映像表示エリアと、この映像に対応する書き起し済の字幕用テキストを表示する字幕用テキスト表示エリアと、前記編集・試写中の映像に対応した一定間隔毎若しくはカット変わりなどの画像と、各画像に対応する書き起こされた字幕用テキストと、各字幕用テキストの書き起こしの基となった音声に関する波形とがタイムライン上に一覧表示された一覧表示エリアと、各エリアに対する制御エリアと、を少なくとも備え、このメイン画面により作業者の字幕テキスト編集・試写作業を支援することを特徴としている。
【0015】
上記構成の本発明によれば、電子化原稿のない番組や背景音レベルの大きい番組など、多様な番組の字幕制作にも対応可能な字幕番組制作システムが構築でき、今後適用番組分野、番組数などの拡大が見込まれる字幕放送の番組制作システムとして、大きな効果が期待される。
【0016】
【発明の実施の形態】
図1は本発明による半自動型字幕番組制作システムの実施形態を示すブロック図である。
【0017】
同図に示されるように、この半自動型字幕番組制作システム100は、基本GUIシステム部10と、ディスク記録・再生部20と、字幕テキスト書き起こし部30と、自動字幕番組データ制作部40と、字幕番組編集・試写部50とを備えている。
【0018】
基本GUIシステム部10は、図1に示す字幕番組制作システムの一構成品として、マンマシンインターフェース、内部各システムのインターフェースおよび制御、外部とのデータ入出力制御を行う。また、本字幕番組制作システム100の自動字幕番組データ作成機能のインターフェース・制御機能も備えており、多様な番組の効率的な字幕制作を行う字幕番組制作システム100を統括制御するものである。
【0019】
ディスク記録・再生部20は、番組素材VTR(例えばデジタル・ビデオ・テープ・レコーダ)60から供給される素材番組の映像・音声を必要ならば圧縮して記録するとともに、記録された映像音声を再生するために使用される。この番組素材VTR60は、番組素材が収録されている番組素材VTRテープから、映像、音声、およびそれらのタイムコード(TC)を再生出力する機能を有しており、これら素材映像、音声およびタイムコード(TC)がディスク記録・再生部20に記録されるようになっている。
【0020】
<字幕テキスト書き起こし部30>
字幕テキスト書き起こし部30は、素材番組の音声を聞き取って、字幕用テキストの書き起こしや付加データを入力するとともに、素材番組の映像・音声の活用による効果的な手動作業支援をするための機能部分であり、具体的には、ディスク記録再生制御機能31と、情報表示機能32と、データ作成制御機能33と、データ作成画面表示機能34と、主映像表示機能35とを備えている。
【0021】
ディスク記録再生(DSKVTR)制御機能31は、各機能に応じた操作キーを備えており、素材番組の映像・音声を、ディスク記録・再生部20に記録させる記録制御を実行するとともに、記録された映像音声を再生させる再生制御を実行する。特にスピーチ区間では任意の低速再生を行うとともに、変速率に応じたピッチコントロールを行い、書き起こしに適した速度でかつ音程がほぼ不変とする話速変換機能をも備えている。
【0022】
情報表示機能32は、書き起こしおよび付加情報データ入力の手動作業を支援するため、素材番組の映像・音声、書き起こしテキストなどに関する各種の情報を、タイムライン上にビジュアル表示する。
【0023】
データ作成制御機能33は、書き起こしたテキストやスピーチポーズの時間データなどの入力操作のための操作キーを備え、対応する動作をする。
【0024】
データ作成画面表示機能34は、作成したテキスト・入力したデータの表示・編集などのための画面を表示し、対応する動作をする。
【0025】
主映像表示機能35は、プレビュー画面として、現在作業位置の画像を表示する。
【0026】
<自動字幕番組データ制作部40>
自動字幕番組制作システム40は、テキスト自動要約機能41と、表示単位字幕作成機能42と、タイミング検出・付与機能43とを備えている。なお、この自動字幕番組データ制作部40の詳細については、後述する。
【0027】
<字幕番組データ編集・試写部50>
字幕番組データ編集・試写部50は、作成した書き起こしおよび付加情報データを基にして自動字幕番組データ制作部40で自動制作された字幕番組データを人手で編集・試写するためのものであり、素材番組の映像・音声、字幕番組データなどの高度活用による効果的な手動作業支援のための特別の機能を備えている。
【0028】
ディスク記録再生・字幕データ制御機能51は、自動制作した字幕番組データおよび記録された映像・音声に関して、指定時間、字幕ページ、字幕ブロックなど編集・試写作業支援用特殊表示操作のための専用操作キーを備え、対応する動作をする。
【0029】
情報表示・字幕タイミング制御機能52は、字幕番組データ編集の手動作業を支援するため、素材番組の映像、字幕本文、音声に関する波形等の各種情報をタイムライン上にビジュアル表示する。
【0030】
特に、字幕番組データについては、タイミング変更支援画面を表示し、この画面に対応する動作の実行が可能とされている。
【0031】
字幕データ編集機能53は、字幕データのページ単位編集のための専用操作キーを備え、字幕データをページ単位で編集する動作を実行可能に構成されている。
【0032】
字幕データ・映像表示機能54は、映像に重畳した指定字幕データ表示のための操作キーを備え、各操作キーに対応する動作が実行可能に構成されている。
【0033】
試写用キー機能55は、部分試写、通し試写など、試写形式の選択に必要な操作キーを備え、各操作キーに対応する動作が実行可能に構成されている。
【0034】
<半自動型字幕番組制作システム100の機能構成の詳細>
次に、上記構成を有する半自動型字幕番組制作システム100で実行される処理を字幕テキスト書き起こし部30,自動字幕番組データ制作部40および字幕番組編集・試写部50の各部毎に詳細に説明する。
【0035】
≪字幕テキスト書き起こし部30での処理≫
字幕テキスト書き起こし部30における主要な作業は、番組のスピーチを聞き取り、その内容を書き起こすとともに、その一区切りに対してその開始・終了タイミングとスピーチ者(話者)をデータ化するものである。
【0036】
したがって、この機能における書き起こしを容易にする支援機能として、作業者が番組のスピーチを正しく聞き取り、自分のペースで書き起こしできるようにすることが基本である。聞き取り易く書き起こしが容易であること、話者・タイミングを把握しやすいこと、書き起こしデータを簡単に修正できることなどが重要である。このように、本システム100の字幕テキスト書き起こし部30には種々の手作業支援機能が盛り込まれている。
【0037】
字幕テキスト書き起こし部30においては、字幕テキストファイル(XML)の編集を行う機能を備えている。
【0038】
ここで、字幕テキストとは、範囲時間(IN TIME,OUT TIME)と話者、字幕本文より構成されたデータをいう。
【0039】
編集の補助として、ディスク記録・再生部20に保存されたMPEG/AVI映像ファイルを使用して、音声の聞き取り、タイミングの調整、字幕ポジションの調整を行うことができる。
【0040】
図2には、字幕テキスト書き起こし部30で使用されるメイン画面の構成が示されている。同図に示すメイン画面301を使用して、字幕テキストの編集や、各補助機能の操作が行われる。画面のサイズは、例えば、1280×1024(画素数)が望ましい。
【0041】
メイン画面301は、メニュー領域302と、編集領域303と、一覧領域304と、制御領域305の4つの領域に大別される。
【0042】
メニュー領域302は、各種機能の呼び出しを行う領域であり、メニューバーとツールバーに用意された項目を実行することにより、各種機能の呼び出しを行う。
【0043】
編集領域303は、字幕データの入力や、入力後の字幕テキストの編集のための領域であり、図3の上段に示されるように、時間枠(IN TIME,OUT TIME)エリア303A、話者エリア303B、字幕本文エリア303Cに一対の入力データとして一覧表示されるようになっている。
【0044】
また、図3下段のデータ入力領域(入力エリア303F)には、入力する内容が表示される。この領域を利用して、例えば話者単位で各作業を行う。
【0045】
“IN TIMEとOUT TIME”の設定は、ページのIN TIME/OUT TIME設定エリア303Dから行う。前のページで設定した時間内に含める場合には、前のページの時間と同じ値のままで確定する。
【0046】
“話者”の設定は、メニューの“話者登録”エリア303Eで予め登録された話者の中から選択する。
【0047】
書き起こしの“本文”はページ本文の入力エリア303Fで入力される。
【0048】
追加/挿入ボタンの内、“追加”ボタン303Gは、入力設定されたエリア303D,303E,303Fの内容を入力一覧の最後に追加する。“挿入”ボタン303Hは、入力された内容を入力一覧で選択された一対のデータの次へ挿入する。
【0049】
“切り取り”ボタン303J、“コピー”ボタン303Kは、入力一覧で選択された一単位を切り取り/コピーするものである。また、“貼り付け”ボタン303Lは、切り取り/コピー機能で記録された一単位を入力一覧で選択された箇所の次へ貼り付けるために使用される。
【0050】
一覧領域304は、図4に示されるように、画像とこの画像に対応する作成中の字幕テキストを表示する領域であり、MPEG/AVI映像ファイルより一定間隔毎若しくはカット変わりなどの画像一覧を表示する画像エリア304A、入力されたテキストの内容である字幕本文を表示する字幕本文エリア304Bと、作成中の字幕本文に対応するスピーチの音声に対応する波形を表示する波形エリア304Cと、波形エリア304Cに表示される波形などこの一覧領域304の時間指標となるタイムラインが表示されるタイムラインエリア304Dとから成っている。この一覧領域304によって書き起こし作業者の入力支援が効果的に行われる。
【0051】
また、一覧領域304には、MPEG/AVI映像ファイルなどの再生位置カーソル304Eが表示されており、この再生位置304Eを変えることにより、画像の再生位置など書き起こし作業を行うタイムライン上のタイミング変更が可能になる。
【0052】
一覧領域304の具体的な機能は以下の通りである。上述したように、この一覧領域304には、映像ファイルから形成した静止画像と、編集データとしての字幕本文、波形がタイムライン上に一覧表示される。一画面で表示する幅は、“ツール(T)”の“オプション”で選択された120秒、60秒、30秒のいずれかとなる。
【0053】
“画像”は、映像ファイルより、一定間隔の画像を抜き出したもの若しくはカット変わりが表示される。画像のサイズは160×120、間隔は全体幅が120秒の時は20秒、60秒の時は10秒、30秒の時は5秒となる。
【0054】
“字幕本文”は、編集領域303によって入力された本文の内容が表示される。枠の幅は時間幅を表している。幅が狭く、本文が表示しきれない場合には省略される。
【0055】
話者エリア304Fの枠部分をドラッグで変更した場合には、対象一件の幅(時間幅)の変更を、本文の部分304Bの枠をドラッグで変更した場合には、二件の境界線の変更を行うことができる。
【0056】
枠内がダブルクリックされた際、編集領域303が編集途中でなければ、入力一覧304で指定した内容を表示できる位置に移動することができる。
【0057】
“波形”は、映像ファイルに記録されている音声(音楽、効果音を含む)信号を処理し波形化して、図4のように表示する。スピーチやポーズの位置を視覚的に判断できるようにした支援機能である。なお、波形としては、スピーチ区間とポーズ区間とを明確にするために、矩形波状に波形整形して表示するようにしても良い。
【0058】
IN TIME/OUT TIMEの編集単位は、映像ファイルからタイムコードを読み込む際の最小単位を設定する。取り込みを実行した際、設定値未満の値は切り捨てされる。この場合の“設定”は、1フレーム/5フレーム/10フレーム/15フレーム/1秒である。
【0059】
一覧表示の一画面の幅は、メイン画面の一覧領域304にどれだけの時間分を表示するかを設定する。この場合の“設定”は、30秒/60秒/120秒で、それに合わせて画像も5秒間隔、10秒間隔、20秒間隔となる。
【0060】
一方、制御領域305は、MPEG/AVI映像の制御のための領域であり、MPEG/AVI映像の表示エリア305Aや、時間枠の取り出しボタン、MPEG/AVI再生の開始、停止ボタンなどが用意されている。また、制御領域305には、映像ファイルの再生に関するインターフェースが用意されている。映像のサイズは、640×480である。
【0061】
制御領域305の具体的な機能としては、例えば、タイムコード表示部305Bと、再生/停止ボタン305Cと、再生位置トラックバー305Dと、MARK INボタン305Eと、MARK OUTボタン305Fと、繰り返し再生ボタン305Gと、話速変換ボタン305H、<<5秒/5秒>>ボタンなどが用意されている。
【0062】
タイムコード表示部305Bに表示されるタイムコードは、プロジェクト新規作成の際に入力されたイニシャルタイムを基準として、映像ファイルの再生位置の時間を足した時間である。なお、映像ファイルの再生位置は、29.97フレームを1秒として扱われる。
【0063】
“再生/停止”ボタン305Cは、映像の再生スタートと再生ストップを行う。なお、“停止”ボタンが実行されても、映像は消えない。
【0064】
再生位置トラックバー305Dは、現在映像ファイルのどの部分を再生しているかを示す。また、トラックバーを動かすことにより、再生位置を変更することも可能である。
【0065】
“MARK IN”ボタン305Eは、編集領域のIN TIMEの欄へ、現在の映像の時間をコピーする。“MARK OUT”ボタン305Fは、編集領域のOUT TIMEの欄へ、映像の現在の時間をコピーする。
【0066】
“繰り返し再生”ボタン305Gは、編集領域のIN TIMEとOUT TIMEの期間の画像を繰り返し作成する。
【0067】
終了は、“停止”ボタン305Cか“MARK IN”ボタン305Eをクリックすることでなされる。
【0068】
“話速変換”ボタン305Hは、映像を再生する際の音声のスピード調節を行う際に使用される。
【0069】
“<<5秒/5秒>>”ボタン305Jは、映像の再生位置を前/後ろに5秒移動する際に使用される。
【0070】
次に、以上の構成の字幕テキスト書き起こし部30で実行される書き起こし処理の手順を図5のフローチャートを参照しつつの具体的に説明する。
【0071】
作業者が“PLAY”ボタンを押して、映像再生が開始されると、先ず、発話タイミングが探索される(ステップST11)。
【0072】
発話の確認点で、“書起開始”ボタンが押されると、これがスピーチ区間の開始点となる(ステップST12)。
【0073】
一定時間巻き戻し、スロー再生が開始され、書き起こし作業が実行される(ステップST13,14)。スピーチ終了が認識されると、適宜巻き戻して発話終了点が探索される(ステップST15)。
【0074】
発話終了点で“書起終了”ボタンが押されると、(終了点)通常再生モードへ移行する(ステップST16)。
【0075】
書き起こし終了後、用字、用語チェック、要約支援が実行されるとともに、背景音情報が登録される(ステップST17,18)。
【0076】
テキスト作成処理が終了すると、自動字幕番組データ制作部40の処理へ移行する(ステップST19)。
【0077】
上述した各ステップに示したように、一通りの書き起こしが完了した後、そのテキストの用字、用語チェック、必要ならば要約支援を実行して必要なテキストの修正を行い、その後背景音情報などをチェックし情報を登録する。登録後、テキスト作成関係の作業を終了し、自動字幕番組データ制作部40の処理へ進むのである。
【0078】
このように、この実施の形態は、新しい半自動型字幕番組制作システムの書き起こし支援を提示するものであり、以下のような利点を有する。
【0079】
すなわち、テレビ素材番組の映像、音声、タイムコードをノンリニア操作が容易なディスク記録再生装置に収録するとともに効果的に操作・処理することによって、スピーチに対する字幕用テキストの書き起こしおよび背景音などの付加情報データを効率的に入力することが可能となる。
【0080】
また、書き起こしそのものは、人の知識・能力に依存する手作業によらざるを得ないが、テレビ素材番組の映像、音声などを効果的に操作・処理して、この書き起こしなどの手作業を支援することが可能となる。
【0081】
書き起こしなどの作業を分析すると、通常テレビ素材番組を収録したVTRテープを適宜操作して映像、音声を再生し、音声中のスピーチをテキストとして書き起こすとともに、その開始・終了時間もVTRのタイムコードを利用して記録しているが、その過程で該当スピーチ部分の頭出し、スピーチ部分の書き起こしに適した速度での再生や繰り返し再生、スピーチ部分終了点の確認などの複雑なVTR操作が行われる。この点に関しては、話速変換技術を適用して書き起こし作業者の聞き取り能力に応じて話速を遅くしたり早くしたりできるので、書き起こし作業が容易にでき、また、タイミングを合わせも容易にすることができる。
【0082】
≪自動字幕番組データ制作部40の処理≫
図6は自動字幕番組データ制作部40において実行される表示字幕文へのタイミング付与の処理手順の一例として、音声認識手法に代わるタイミング検出手法の適用で高速化したフローチャートである。
【0083】
先ず、音声データからポーズ開始タイミング、継続時間を求める。その適否を検証し必要な修正をする(図6のステップST21)。なお、ポーズ時間の検出機能は、音声認識処理をすることなく、素材VTRから供給される音声のレベルや継続時間、およびそのタイムコードから、例えばそのレベルが指定レベル以下で連続する開始、終了タイムコードを検出するものであり、ブロック・ケプストラム・フラックス法などの方法によって実行される。
【0084】
次に、比較的長いポーズ(例えば2秒以上)で字幕用テキストをブロックに分割し、ブロックテキスト文としてその開始、終了タイミングを付与する(ステップST22,23)。
【0085】
次いで、ブロックテキスト文の継続時間をその総読み数(計算推定)で割り、当該範囲の平均読み速度を求める(ステップST24)。
【0086】
次いで、各ブロックテキスト文を、中の長さのポーズ箇所などを改行点とする表示単位字幕文に分割する(ステップST25)。この場合、予め定められた分割ルールを適用する。
【0087】
次いで、各分割字幕文の文頭、文末に対応するタイミングを、ブロックテキスト文の開始、終了タイミングやポーズのタイミング、平均読み速度を基に計算し、付与する。この場合、文字数、文字種法、または発音数法を適用する(ステップST26)。
【0088】
そして、各表示単位字幕の表示時間をチェックし、必要ならば終了タイミングを修正する(ステップST27)。
【0089】
このようにして、自動処理により表示単位字幕文へのタイミング付与が実行され、自動字幕番組データが作成される。
【0090】
≪字幕番組データ編集・試写部50の処理≫
上述のようにして作成された字幕番組データは字幕番組データ編集・試写部50による編集・試写処理によって最終的な字幕番組として完成される。この機能における作業は、一応出来上がった字幕番組データを専門知識を有する作業者が試写し、必要ならば修正するものであり、作業者がチェックし易い試写形態、字幕内容、改行・改頁、タイミングなどに関する修正編集がし易いよう支援する機能が盛り込まれている。
【0091】
ここで、以下の説明では、送出/消去時間、字幕本文、および管理情報より構成された字幕番組データを字幕素材と仮称する。
【0092】
また、編集の補助として、MPEG画像ファイルを使用して、タイミングの調整や、字幕ポジションの調整を行うことができる。なお、字幕素材編集の入出力は、文字放送のNAB形式のファイルのみとなる。このファイルは、他の『ページ一覧』『ページ利用』『デジタル形式変換』の入出力形式になる。
【0093】
図7は、字幕番組編集・試写部50で使用されるメイン画面の構成を示している。このメイン画面は、字幕素材編集のために使用される。このメイン画面を使用して、字幕素材の編集や各補助機能の操作を行う。なお、画面のサイズは、1280×1024である。
【0094】
メイン画面501は大きく分けて、メニュー領域502と、編集領域503と、一覧領域504の3つの領域に分かれている。
【0095】
メニュー領域502は、各種機能の呼び出しを行う部分であり、メニューバーとツールバーに用意された項目を実行することにより、各種機能の呼び出しを行うことができる。
【0096】
編集領域503は、図8に示されるように、映像エリア503Aを備えている。この映像エリア503Aは、システム内に保存されているMPEG/AVIファイルを再生した映像を表示するエリアと、文字入力ソフトを使用して入力された字幕本文が表示されるエリアとから成っており、本文と画像の位置調整にも使用できる。通常の試写では、この編集領域503を使用して確認を行う。また、再生の停止や、IN TIME、OUT TIMEの取り込み、リピート再生などの操作を行うことが可能である。映像エリア503Aの画像のサイズは、640×480である。
【0097】
図7に示すタイムコード表示エリア503Bは、タイムコードを表示する部分であり、再生している映像の位置は29.97フレーム1秒として再生される。
【0098】
“再生”ボタン503Dは、映像の再生スタートに使用され、“停止”ボタン503Cは、映像の再生ストップに使用される。なお、“停止”ボタン503Cが押されても、映像がストップされるだけで映像そのものは画面上からは消えない。
【0099】
再生位置トラックバー503Eは、現在映像ファイルのどの部分を再生しているかを示すものである。このトラックバーを動かすことにより、再生位置を変更することが可能である。
【0100】
“MARK IN”ボタン503Fは、編集領域のIN TIMEの欄へ、現在の映像の時間をコピーするボタンである。“MARK OUT”ボタン503Gは、編集領域のOUT TIMEの欄へ、映像の現在の時間をコピーするボタンである。
【0101】
“繰り返し再生”ボタン503Hは、編集領域のIN TIMEとOUT TIMEの期間の画像を繰り返し作成するために使用される。
【0102】
なお、終了は、“停止”ボタン503Bか“MARK IN”ボタンを操作することにより成される。
【0103】
“<<5秒/5秒>>”ボタン503Jは、映像ファイルの再生位置を5秒分だけ進め/戻すためのボタンである。繰り返し再生中に実行された場合には、通常再生に切り替わる。
【0104】
前述したように、編集領域503は、字幕データの入力や、入力後の編集を行う他に映像セクションを兼ねていて、映像エリア503A上に重ねて試写を実行する際にも利用される。“前ページ”と“後ページ”は、現在中央に表示されている字幕データページの前と後のページの字幕を表示する領域である。
【0105】
この場合、編集領域503では、映像エリア503A上に表示されている枠カーソルを使用して、新たな文字の入力を行う。入力を行った文字の色サイズは、右上のリストボックスで設定した内容になる。
【0106】
また、一旦入力を行った文字を範囲指定し、削除/複写/移動や、属性(色、サイズ、囲み等)の変更を行うことができる。
【0107】
“IN TIME/OUT TIME”は、ページのIN TIME/OUT TIMEの設定を行う。“MARK IN”ボタン503F、“MARK OUT”ボタン503Gにより、映像ファイルの再生タイミングを“IN TIME/OUT TIME”として取り込むことができる。
【0108】
前景色/背景色/文字サイズエリア503Lは、編集領域503に、これから新規に入力する文字の前景色/背景色/文字サイズを設定する。
【0109】
メッシュエリア503Mは、画像の上に、文字の入力位置の目安とする基準線を表示するかを設定するものである。
【0110】
“ページ追加”ボタン503Nは、編集中の素材の最後に、新たなページを追加し、そのページを編集対象として表示するために使用される。“ページ挿入”ボタン503Pは、現在編集しているページの前か後に、新たにページを挿入し、そのページを編集対象として表示するために使用される。“ページ削除”ボタン503Qは、現在編集中のページを削除するために使用される。なお、ページ削除を実行する際には、確認操作が入る。
【0111】
“通し試写”ボタン503Rは、現在編集対象としているページの少し前より試写を開始し、“試写終了”ボタン503Sが実行されるまで、試写を行う際に使用される。
【0112】
“部分試写”ボタン503Tは現在対象としているページの前のページより試写を開始し、次のページのOUT TIME後に試写を終了する。途中で“試写終了”ボタンにて終了することも可能である。
【0113】
“全画面試写”ボタンは、モニタ全てを使用して『通し試写』と同じ動作を行う。“試写終了”ボタンは、現在行っている試写を中止する。
【0114】
図9は、一覧領域504の構成を示している。
【0115】
一覧領域504は、画像とこの画像に対応する作成済みの字幕テキストを表示する領域であり、MPEG/AVI映像ファイルより一定間隔毎若しくはカット変わりの画像一覧を表示する画像エリア504A、作成されたテキストの内容である字幕本文を表示する字幕本文エリア504Bと、作成された字幕本文に対応するスピーチの音声に関連した波形を表示する波形エリア504Cと、波形エリア504Cに表示される波形の時間指標となるタイムラインが表示されるタイムラインエリア504Dとから成っている。この一覧領域504によって編集・試写作業者の作業支援が効果的に行われる。
【0116】
また、この一覧領域504における一画面で表示する幅は、“ツール(T)”の“オプション”で選択された120秒、60秒、30秒のいずれかとなる。
【0117】
“画像”は、映像ファイルより、一定間隔毎若しくはカット変わりなどの画像を抜き出し、表示する。画像のサイズは160×120、間隔は全体幅が120秒の時は20秒、60秒の時は10秒、30秒の時は5秒となる。
【0118】
“字幕本文”は、編集領域503によって入力された本文の内容が表示される。枠の幅は時間幅を表している。なお、幅が狭く、本文が表示しきれない場合には省略される。
【0119】
ページ番号エリア504Fの枠をドラッグで変更した場合には、対象一件の幅(時間幅)の変更を、本文の部分の枠をドラッグで変更した場合には、二件の境界線の変更を行う。
【0120】
枠内がダブルクリックされた際、編集領域503が編集途中でなければ、入力一覧で指定したページを編集対象のページ変更する。
【0121】
“波形”は、映像ファイルに記録されている音声(音楽、効果音を含む)信号を処理し波形化したものが表示される。なお、波形としては、スピーチ区間とポーズ区間とを明確にするために、矩形波状に波形整形して表示するようにしても良い。
【0122】
IN TIME/OUT TIMEの編集単位は、映像フィルムからタイムコードを読み込む際の最小単位を設定する。取り込みを実行した際、設定値未満の値は切り捨てされる。この場合の“設定”は1フレーム/5フレーム/10フレーム/15フレーム/1秒である。
【0123】
一覧表示の一画面の幅は、メイン画面の一覧領域にどれだけの時間分を表示するかを設定する。この場合の“設定”は、30秒/60秒/120秒で、それに合わせて画像も5秒間隔、10秒間隔、20秒間隔となる。
【0124】
このようにこの実施の形態によれば、研究を進めている自動字幕制作機能と、多彩な支援機能を盛り込んだ手動字幕制作機能とを効果的にタイアップした機能・構成を構築でき、多様なテレビ番組の字幕制作を、時間、人手、費用などの点で効率的にできるシステムを提供できる。そのため、字幕制作作業者の観点からの作業形態などに関するシステムフレキシビリティが向上する。
【0125】
【発明の効果】
以上説明したように本発明によれば、これまでに開発された自動字幕制作システムのシステム評価などから得られた知見をもとに、各自動化要素技術を高性能化した新しい自動字幕制作システムを中核にするとともに、字幕番組制作者による手動字幕制作を効率的に支援する実用性のより高い半自動型字幕番組制作システムを提供することが可能となる。
【0126】
また、本発明の半自動型字幕番組制作システムは、電子化原稿のない番組や背景音レベルの大きい番組など、多様な番組の字幕制作にも対応可能であり、今後適用番組分野、番組数などの拡大が見込まれる字幕放送の番組制作システムとして、大きな効果が期待できる。
【図面の簡単な説明】
【図1】本発明による半自動型字幕番組制作システムの実施形態を示すブロック図である。
【図2】本発明による半自動型字幕番組制作システムを構成する字幕テキスト書き起こし部で使用されるメイン画面の構成を示す説明図である。
【図3】図2に示すメイン画面の編集領域の構成を示す説明図である。
【図4】図2に示すメイン画面の一覧領域の構成を示す説明図である。
【図5】本発明による半自動型字幕番組制作システムを構成する字幕テキスト書き起こし部の処理手順を示すフローチャートである。
【図6】自動字幕番組データ制作部において実行される表示字幕文へのタイミング付与の処理手順の一例を示すフローチャートである。
【図7】本発明による半自動型字幕番組制作システムを構成する字幕番組編集・試写部で使用されるメイン画面の構成を示す説明図である。
【図8】図7に示すメイン画面の編集領域の構成を示す説明図である。
【図9】図7に示すメイン画面の一覧領域の構成を示す説明図である。
【符号の説明】
10 基本GUIシステム部
20 ディスク記録・再生部
30 字幕テキスト書き起こし部
31 ディスク記録再生制御機能
32 情報表示機能
33 データ作成制御機能
34 データ作成画面表示機能
35 主映像表示機能
40 自動字幕番組データ制作部
41 テキスト自動要約機能
42 表示単位字幕作成機能
43 タイミング検出・付与機能
50 字幕番組編集・試写部
51 ディスク記録再生・字幕データ制御機能
52 情報表示・字幕タイミング制御機能
53 字幕データ編集機能
54 字幕データ・映像表示機能
55 試写用キー機能
60 番組素材VTR
100 半自動型字幕番組制作システム[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a semi-automatic subtitle program production system that effectively combines a manual production function and an automatic production function.
[0002]
[Summary of Invention]
The semi-automatic subtitle program production system of the present invention effectively manipulates the video, audio, and time code of a TV material program recorded in a disc recording / reproducing apparatus, and transcribes subtitle text for speech and background sound. A function that efficiently inputs additional information data, an automatic caption program data production function that automatically creates caption screens and assigns timing using these texts and data, and editing / previews that edit and preview caption program data Function.
[0003]
This semi-automatic subtitle program production system is a subtitle program production system that can also handle subtitle production of various programs such as programs without electronic manuscripts and programs with a high background sound level. As a subtitle broadcast program production system that is expected to expand, a great effect is expected.
[0004]
[Prior art]
As a technology for producing subtitled programs offline in the presence of digitized manuscripts for news and narration-based documentary programs, the present inventors have developed “automatic summarization”, “automatic synchronization”, “automatic screen creation technology” Research on themes etc., and built an “automatic caption production system” that aggregates the results of previous research. A patent application has already been filed for these points (for example, JP 2000-270263, JP 2000-324395, etc.).
[0005]
As a result of evaluation of this automatic caption production system by caption producers and persons with hearing impairments, it has been confirmed that there are certain performance and functions. However, many problems still remain for practical use.
[0006]
In particular, there is a high demand for expansion of the target program range, and expansion into programs such as dramas and varieties such as programs without electronic manuscripts. However, from the viewpoint of the functions and performance of the current automatic caption production system, the TV program field that can produce captions is quite limited, and there are limits to automatic functions. It must be covered in the range of production, preview, and correction.
[0007]
In the actual subtitle production site, many specialists with advanced technical skills and knowledge are involved, and subtitle production has a lot of such human abilities.
[0008]
On the other hand, under the situation where rapid expansion of subtitle programs is required, it is not sufficient for subtitle production workers to rely solely on such specialists, and it is only enough for non-expert word processor work. However, a system that can share one end of work is desirable.
[0009]
[Problems to be solved by the invention]
However, in order to solve the problem, not only the caption production system based on automatic processing, but also a total system that includes the creation of electronic text for captions including manual work and preview / editing of caption screens, There is a need to consider program production efficiency.
[0010]
Therefore, as a goal of practical system development, 1) a system that can efficiently produce captions for various TV programs in terms of time, manpower, cost, etc. 2) Therefore, automatic caption production functions that are being researched And functions and configuration that effectively tie up manual caption production functions incorporating various support functions, and 3) improvement of system flexibility regarding work styles from the perspective of the person in charge of caption production. .
[0011]
In view of the above circumstances, the present invention is based on a new automatic caption production system in which each elemental automation technology has been enhanced based on the knowledge obtained from system evaluation of an automatic caption production system developed so far. At the same time, it aims to provide a more practical semi-automatic subtitle program production system that efficiently supports manual subtitle production by subtitle program producers.
[0012]
[Means for Solving the Problems]
In order to achieve the above object, according to the present invention, in claim 1, the video and audio of a TV material program recorded in advance on a recording medium is controlled to be reproduced at an arbitrary low speed in a speech section, and the transmission rate is changed. A playback control function for controlling playback at a speed suitable for transcription by performing pitch control in accordance with the playback control function. Including subtitle text transcribed for the audio of the program being played and the start and end timing of speech separation Subtitle text Accept input Subtitle text transcription, The subtitle text is divided into blocks from the pause time obtained from the audio of the program, and timing is given, so that timing is given to the display unit subtitle sentence in which the subtitle text is divided according to a predetermined division rule. Creating closed caption program data While playing back the video and audio of the automatic caption program data production part and the program, Subtitle text Created based on Subtitle program data And the sound waveform Display for preview Playback / display function and subtitles program For editing data Operation is predetermined A subtitle program editing / preview unit having an edit control function for receiving an operation input of an operation key, controlling an operation associated with the operated operation key, and editing the subtitle program data. Yes.
[0013]
In a second aspect of the present invention, in the semi-automatic caption production system according to the first aspect, a main screen serving as a man-machine interface in the caption text transcription unit includes a video display area for displaying a video currently being worked on, and a video display area. Subtitle text display area for displaying the corresponding subtitle text in the transcript, images at regular intervals or cut changes corresponding to the video being worked on, and the subtitle text that has been transcribed corresponding to each image And at least a list display area in which a waveform relating to the sound that is the basis for transcription of each subtitle text is displayed on the timeline, and a control area for each area. It is characterized by supporting the text transcription work.
[0014]
3. The semi-automatic subtitle program production system according to
[0015]
According to the present invention having the above-described configuration, it is possible to construct a caption program production system that can handle caption production of various programs such as a program without an electronic manuscript and a program with a high background sound level. As a subtitle broadcast program production system that is expected to expand, it is expected to have a great effect.
[0016]
DETAILED DESCRIPTION OF THE INVENTION
FIG. 1 is a block diagram showing an embodiment of a semi-automatic subtitle program production system according to the present invention.
[0017]
As shown in the figure, the semi-automatic subtitle
[0018]
The basic
[0019]
The disc recording / reproducing
[0020]
<Subtitle
The subtitle
[0021]
The disc recording / reproducing (DSKVTR)
[0022]
The
[0023]
The data
[0024]
The data creation
[0025]
The main video display function 35 displays an image of the current work position as a preview screen.
[0026]
<Automatic caption program
The automatic caption
[0027]
<Subtitle program data editing /
The subtitle program data editing /
[0028]
The disc recording / playback / subtitle
[0029]
The information display / caption
[0030]
In particular, for subtitle program data, a timing change support screen is displayed, and an operation corresponding to this screen can be executed.
[0031]
The caption
[0032]
The caption data /
[0033]
The preview
[0034]
<Details of Functional Configuration of Semi-automatic Subtitle
Next, processing executed by the semi-automatic subtitle
[0035]
≪Processing in subtitle
The main work in the subtitle
[0036]
Therefore, as a support function for facilitating transcription in this function, it is fundamental that an operator can correctly listen to the speech of the program and transcribe it at his own pace. It is important to be easy to hear and to transcribe, to easily understand the speaker and timing, and to be able to easily modify the transcription data. As described above, the subtitle
[0037]
The caption
[0038]
Here, the caption text refers to data composed of a range time (IN TIME, OUT TIME), a speaker, and a caption text.
[0039]
As an editing aid, using the MPEG / AVI video file stored in the disc recording /
[0040]
FIG. 2 shows the configuration of the main screen used in the caption
[0041]
The main screen 301 is roughly divided into four areas: a menu area 302, an editing area 303, a list area 304, and a control area 305.
[0042]
The menu area 302 is an area for calling various functions, and calls various functions by executing items prepared in the menu bar and the tool bar.
[0043]
The edit area 303 is an area for inputting subtitle data and editing the subtitle text after the input. As shown in the upper part of FIG. 3, a time frame (IN TIME, OUT TIME)
[0044]
Further, the input content is displayed in the data input area (
[0045]
“IN TIME and OUT TIME” are set from the IN TIME / OUT
[0046]
The “speaker” setting is selected from the speakers registered in advance in the “speaker registration”
[0047]
The transcription “text” is input in the page
[0048]
Among the add / insert buttons, an “add”
[0049]
The “cut”
[0050]
As shown in FIG. 4, the list area 304 is an area for displaying an image and subtitle text being created corresponding to the image, and displays an image list at regular intervals or cut changes from the MPEG / AVI video file. An
[0051]
In the list area 304, a
[0052]
Specific functions of the list area 304 are as follows. As described above, in this list area 304, still images formed from video files, caption texts as edit data, and waveforms are displayed in a list on the timeline. The width displayed on one screen is 120 seconds, 60 seconds, or 30 seconds selected by “Option” of “Tool (T)”.
[0053]
“Image” is an image extracted from a video file at regular intervals or a cut change. The image size is 160 × 120, and the interval is 20 seconds when the overall width is 120 seconds, 10 seconds when it is 60 seconds, and 5 seconds when it is 30 seconds.
[0054]
“Subtitle text” displays the content of the text input in the editing area 303. The width of the frame represents the time width. Omitted when the text is too narrow to display the full text.
[0055]
When the frame portion of the
[0056]
When the inside of the frame is double-clicked, if the editing area 303 is not in the middle of editing, it is possible to move to a position where the content specified in the input list 304 can be displayed.
[0057]
“Waveform” is a waveform obtained by processing a sound signal (including music and sound effects) recorded in a video file and displaying it as shown in FIG. This is a support function that can visually determine the position of speech and poses. In addition, as a waveform, in order to clarify the speech section and the pause section, the waveform may be shaped into a rectangular waveform and displayed.
[0058]
The IN TIME / OUT TIME editing unit sets a minimum unit for reading a time code from a video file. When importing, values less than the set value are truncated. The “setting” in this case is 1 frame / 5 frames / 10 frames / 15 frames / 1 second.
[0059]
The width of one screen of the list display sets how much time is displayed in the list area 304 of the main screen. In this case, “setting” is 30 seconds / 60 seconds / 120 seconds, and the images are also set at intervals of 5 seconds, 10 seconds, and 20 seconds accordingly.
[0060]
On the other hand, the control area 305 is an area for controlling MPEG / AVI video, and includes an MPEG / AVI
[0061]
Specific functions of the control area 305 include, for example, a time
[0062]
The time code displayed on the time
[0063]
The “play / stop”
[0064]
The playback
[0065]
The “MARK IN”
[0066]
The “repetitive playback”
[0067]
The end is made by clicking a “stop”
[0068]
The “speech speed conversion”
[0069]
The “<< 5 seconds / 5 seconds >>”
[0070]
Next, the procedure of the transcription process executed by the caption
[0071]
When the operator presses the “PLAY” button and video reproduction is started, first, the utterance timing is searched (step ST11).
[0072]
When the “start writing” button is pressed at the confirmation point of the utterance, this becomes the start point of the speech section (step ST12).
[0073]
Rewinding is performed for a certain time, slow reproduction is started, and a transcription operation is executed (steps ST13 and ST14). When the end of speech is recognized, the end point of speech is searched by appropriately rewinding (step ST15).
[0074]
When the “end of writing” button is pressed at the end point of utterance (end point), the process proceeds to the normal reproduction mode (step ST16).
[0075]
After the end of the transcription, script, term check and summary support are executed and background sound information is registered (steps ST17 and ST18).
[0076]
When the text creation process ends, the process proceeds to the process of the automatic caption program data production unit 40 (step ST19).
[0077]
As shown in each of the steps above, after completing a complete transcript, check the text script, terminology, and if necessary, perform summary support to correct the required text, then background sound information Check the information and register information. After registration, the text creation-related work is terminated, and the process proceeds to the automatic caption program
[0078]
As described above, this embodiment presents a transcription support for a new semi-automatic subtitle program production system, and has the following advantages.
[0079]
In other words, by recording video material, video, audio, and time code of TV material programs on a disk recording / playback device that is easy to operate non-linearly, and effectively operating and processing them, transcription of subtitle text and background sounds are added to speech. Information data can be input efficiently.
[0080]
In addition, the transcription itself must be done manually, which depends on the knowledge and ability of people. Can be supported.
[0081]
When analyzing work such as transcription, the VTR tape that normally records TV material programs is appropriately operated to reproduce video and audio, and the speech in the audio is transcribed as text. Recording is done using codes, but in the process, complicated VTR operations such as cueing of the corresponding speech part, playback at a speed suitable for transcription of the speech part, repeated playback, confirmation of the end point of the speech part, etc. Done. In this regard, the speed of speech can be reduced or increased according to the ability of the transcription operator to apply the speech speed conversion technology, so the transcription can be done easily and the timing can be adjusted easily. Can be.
[0082]
<< Processing of Automatic Subtitle Program
FIG. 6 is a flowchart that is speeded up by applying a timing detection method instead of the speech recognition method as an example of the processing procedure of timing addition to the display subtitle sentence executed in the automatic subtitle program
[0083]
First, the pause start timing and duration are obtained from the audio data. The suitability is verified and necessary corrections are made (step ST21 in FIG. 6). It should be noted that the pause time detection function does not perform voice recognition processing, but starts and ends the time at which the level continues below a specified level, for example, from the level and duration of the voice supplied from the material VTR and its time code. The code is detected and executed by a method such as a block, cepstrum, or flux method.
[0084]
Next, the caption text is divided into blocks in a relatively long pause (for example, 2 seconds or more), and the start and end timings are given as block text sentences (steps ST22 and ST23).
[0085]
Next, the duration of the block text sentence is divided by the total number of readings (calculation estimation) to obtain the average reading speed in the range (step ST24).
[0086]
Next, each block text sentence is divided into display unit subtitle sentences with a middle length pause or the like as a line feed point (step ST25). In this case, a predetermined division rule is applied.
[0087]
Next, the timing corresponding to the beginning and end of each divided subtitle sentence is calculated and assigned based on the start / end timing and pause timing of the block text sentence, and the average reading speed. In this case, the number of characters, the character type method, or the pronunciation number method is applied (step ST26).
[0088]
Then, the display time of each display unit subtitle is checked, and if necessary, the end timing is corrected (step ST27).
[0089]
In this way, timing is given to the display unit subtitle sentence by automatic processing, and automatic subtitle program data is created.
[0090]
≪Processing of subtitle program data editing /
The caption program data created as described above is completed as a final caption program by editing / preview processing by the caption program data editing /
[0091]
Here, in the following description, caption program data composed of transmission / erasure time, caption text, and management information is provisionally referred to as caption material.
[0092]
As an editing aid, the MPEG image file can be used to adjust timing and subtitle position. Note that subtitle material editing is input and output only for text broadcast NAB format files. This file becomes an input / output format of other “page list”, “page use”, and “digital format conversion”.
[0093]
FIG. 7 shows the configuration of the main screen used in the caption program editing /
[0094]
The main screen 501 is roughly divided into three areas: a menu area 502, an editing area 503, and a list area 504.
[0095]
The menu area 502 is a part for calling various functions, and various functions can be called by executing items prepared in the menu bar and the tool bar.
[0096]
The edit area 503 includes a
[0097]
A time
[0098]
The “play”
[0099]
The playback
[0100]
The “MARK IN”
[0101]
The “repetitive playback”
[0102]
The end is performed by operating the “stop”
[0103]
The “<< 5 seconds / 5 seconds >>”
[0104]
As described above, the editing area 503 also serves as a video section in addition to performing input of subtitle data and editing after the input, and is also used when performing a preview on the
[0105]
In this case, in the editing area 503, new characters are input using the frame cursor displayed on the
[0106]
In addition, it is possible to designate a range of a character once input, and to delete / copy / move or change attributes (color, size, box, etc.).
[0107]
“IN TIME / OUT TIME” sets the IN TIME / OUT TIME of the page. With the “MARK IN”
[0108]
The foreground color / background color /
[0109]
The
[0110]
The “add page”
[0111]
The “through preview” button 503R is used when previewing is started until a preview immediately before the “end preview” button 503S is executed.
[0112]
The “partial preview”
[0113]
The “Full Screen Preview” button performs the same operation as “Through Preview” using all monitors. The “end preview” button cancels the current preview.
[0114]
FIG. 9 shows the configuration of the list area 504.
[0115]
A list area 504 is an area for displaying an image and a created subtitle text corresponding to the image. An
[0116]
The width displayed on one screen in the list area 504 is 120 seconds, 60 seconds, or 30 seconds selected by “Option” of “Tool (T)”.
[0117]
“Image” is an image extracted from a video file at regular intervals or at different cuts and displayed. The image size is 160 × 120, and the interval is 20 seconds when the overall width is 120 seconds, 10 seconds when it is 60 seconds, and 5 seconds when it is 30 seconds.
[0118]
“Subtitle text” displays the content of the text input in the editing area 503. The width of the frame represents the time width. It is omitted when the width is narrow and the text cannot be displayed.
[0119]
If the frame of the
[0120]
If the editing area 503 is not in the middle of editing when the inside of the frame is double-clicked, the page specified in the input list is changed to the page to be edited.
[0121]
“Waveform” displays a waveform obtained by processing an audio signal (including music and sound effects) recorded in a video file. In addition, as a waveform, in order to clarify the speech section and the pause section, the waveform may be shaped into a rectangular waveform and displayed.
[0122]
The editing unit of IN TIME / OUT TIME sets a minimum unit for reading a time code from the video film. When importing, values less than the set value are truncated. In this case, “setting” is 1 frame / 5 frames / 10 frames / 15 frames / 1 second.
[0123]
The width of one screen of the list display sets how much time is displayed in the list area of the main screen. In this case, “setting” is 30 seconds / 60 seconds / 120 seconds, and the images are also set at intervals of 5 seconds, 10 seconds, and 20 seconds accordingly.
[0124]
As described above, according to this embodiment, it is possible to construct a function / configuration effectively tying up the automatic caption production function that is being researched and the manual caption production function that incorporates various support functions. It is possible to provide a system that can efficiently produce captions for TV programs in terms of time, manpower, and cost. Therefore, the system flexibility regarding the work form from the viewpoint of the caption production worker is improved.
[0125]
【The invention's effect】
As described above, according to the present invention, a new automatic caption production system in which each automated element technology is enhanced based on the knowledge obtained from the system evaluation of the automatic caption production system developed so far. It becomes possible to provide a semi-automatic subtitle program production system with higher practicality that efficiently supports manual subtitle production by subtitle program producers.
[0126]
Moreover, the semi-automatic subtitle program production system of the present invention can also handle subtitle production of various programs such as a program without an electronic manuscript and a program with a high background sound level. As a subtitle broadcast program production system that is expected to expand, it can be expected to have a great effect.
[Brief description of the drawings]
FIG. 1 is a block diagram showing an embodiment of a semi-automatic subtitle program production system according to the present invention.
FIG. 2 is an explanatory diagram showing a configuration of a main screen used in a caption text transcription unit constituting a semi-automatic caption program production system according to the present invention.
FIG. 3 is an explanatory diagram showing a configuration of an editing area on the main screen shown in FIG. 2;
4 is an explanatory diagram showing a configuration of a list area of the main screen shown in FIG. 2. FIG.
FIG. 5 is a flowchart showing a processing procedure of a caption text transcription unit constituting a semi-automatic caption program production system according to the present invention.
FIG. 6 is a flowchart illustrating an example of a processing procedure for giving timing to a display subtitle sentence executed in an automatic subtitle program data production unit;
FIG. 7 is an explanatory diagram showing a configuration of a main screen used in a caption program editing / preview section that constitutes a semi-automatic caption program production system according to the present invention.
8 is an explanatory diagram showing a configuration of an editing area of the main screen shown in FIG.
FIG. 9 is an explanatory diagram showing a configuration of a list area of the main screen shown in FIG. 7;
[Explanation of symbols]
10 Basic GUI System Department
20 Disc recording / playback unit
30 Subtitle text transcription
31 Disc recording / playback control function
32 Information display function
33 Data creation control function
34 Data creation screen display function
35 Main video display function
40 Automatic caption program data production department
41 Automatic text summarization function
42 Display unit subtitle creation function
43 Timing detection / grant function
50 Subtitle Program Editing / Preview
51 Disc recording / playback / subtitle data control function
52 Information Display / Subtitle Timing Control Function
53 Caption data editing function
54 Caption data / video display function
55 Preview function
60 Program material VTR
100 Semi-automatic subtitle program production system
Claims (3)
前記番組の音声から得られるポーズ時間から前記字幕用テキストをブロックに分割し、タイミング付与を行なうことで、予め定められた分割ルールに従って前記字幕用テキストが分割された表示単位字幕文にタイミング付与された字幕番組データを作成する自動字幕番組データ制作部と、
前記番組の映像および音声を再生するとともに、前記字幕用テキストに基づいて作成された字幕番組データおよび前記音声に関する波形を試写のために表示する再生・表示機能と、前記字幕番組データを編集するための操作が予め定められている操作キーの操作入力を受け付け、操作された前記操作キーに関連付けられる動作を制御して、前記字幕番組データを編集する編集制御機能とを有する字幕番組編集・試写部と、
を備えたことを特徴とする半自動型字幕番組制作システム。Video and audio of TV material programs recorded in advance on a recording medium are controlled at any low speed during the speech period, and at a speed suitable for transcription by controlling the pitch according to the gear ratio. controlling the have the playback control function, the input of the subtitle text containing the start and end timings of the reproduction control function by Ri caption text and speech separator which caused written to the audio of the program to be reproduced A subtitle text transcript that accepts
The subtitle text is divided into blocks from the pause time obtained from the audio of the program, and timing is given, so that timing is given to the display unit subtitle sentence in which the subtitle text is divided according to a predetermined division rule. Automatic caption program data production section for creating closed caption program data,
To reproduce the video and audio of the program, and to display the subtitle program data created based on the subtitle text and the waveform related to the audio for preview, and to edit the subtitle program data operation receives an operation input of the operation keys that are determined in advance, and controls the operation associated with said operation key is operated, caption program editing and preview portion having an edit control function for editing the subtitle program data When,
A semi-automatic subtitle program production system characterized by having
前記字幕テキスト書き起こし部におけるマンマシンインタフェースとなるメイン画面は、
現在作業中の映像を表示する映像表示エリアと、この映像に対応する書き起こし中の字幕用テキストを表示する字幕用テキスト表示エリアと、前記作業中の映像に対応した一定間隔毎若しくはカット変わりなどの画像と、各画像に対応する書き起こされた字幕用テキストと、各字幕用テキストの書き起こしの基となる音声に関する波形とがタイムライン上に一覧表示された一覧表示エリアと、各エリアに対する制御エリアと、を少なくとも備え、このメイン画面により作業者の字幕テキスト書き起こし作業を支援する、
ことを特徴とする半自動型字幕番組制作システム。The semi-automatic caption production system according to claim 1,
The main screen serving as a man-machine interface in the subtitle text transcription part is:
A video display area that displays the video currently being worked on, a text display area for subtitles that displays the subtitle text that is being transcribed corresponding to this video, and a fixed interval or cut change corresponding to the video that is being worked on, etc. A list display area on the timeline of the subtitles corresponding to each image, the subtitle text transcribed corresponding to each image, and the waveform related to the sound that is the basis of the transcription of each subtitle text, and for each area And at least a control area, and this main screen supports the subtitle text transcription work of the worker.
This is a semi-automatic subtitle program production system.
前記字幕番組編集・試写部におけるマンマシンインタフェースとなるメイン画面は、
現在編集・試写中の映像を表示する映像表示エリアと、この映像に対応する書き起し済の字幕用テキストを表示する字幕用テキスト表示エリアと、前記編集・試写中の映像に対応した一定間隔毎若しくはカット変わりなどの画像と、各画像に対応する書き起こされた字幕用テキストと、各字幕用テキストの書き起こしの基となった音声に関する波形とがタイムライン上に一覧表示された一覧表示エリアと、各エリアに対する制御エリアと、を少なくとも備え、このメイン画面により作業者の字幕テキスト編集・試写作業を支援する、
ことを特徴とする半自動型字幕番組制作システム。In the semi-automatic subtitle program production system according to claim 1 or 2,
The main screen serving as a man-machine interface in the caption program editing / preview section is
A video display area for displaying the video currently being edited / previewed, a subtitle text display area for displaying the written subtitle text corresponding to the video, and a fixed interval corresponding to the video being edited / previewed. List display that lists images on each time or cut, transcript text for each subtitle corresponding to each image, and waveform related to audio that is the basis for transcription of each subtitle text. It has at least an area and a control area for each area, and this main screen supports the operator's subtitle text editing and preview work.
This is a semi-automatic subtitle program production system.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002019209A JP4124416B2 (en) | 2002-01-28 | 2002-01-28 | Semi-automatic subtitle program production system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002019209A JP4124416B2 (en) | 2002-01-28 | 2002-01-28 | Semi-automatic subtitle program production system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003224774A JP2003224774A (en) | 2003-08-08 |
JP4124416B2 true JP4124416B2 (en) | 2008-07-23 |
Family
ID=27743176
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002019209A Expired - Lifetime JP4124416B2 (en) | 2002-01-28 | 2002-01-28 | Semi-automatic subtitle program production system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4124416B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1091212C (en) * | 1997-01-29 | 2002-09-18 | 富士乌兹克斯株式会社 | Hollow valve in internal combustion engine |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2096630A4 (en) | 2006-12-08 | 2012-03-14 | Nec Corp | Audio recognition device and audio recognition method |
JP2012142881A (en) * | 2011-01-06 | 2012-07-26 | Kddi Corp | Caption editing device, caption editing method, and computer program |
JP5910379B2 (en) * | 2012-07-12 | 2016-04-27 | ソニー株式会社 | Information processing apparatus, information processing method, display control apparatus, and display control method |
JP7176257B2 (en) * | 2018-07-05 | 2022-11-22 | 富士フイルムビジネスイノベーション株式会社 | Information processing device and program |
-
2002
- 2002-01-28 JP JP2002019209A patent/JP4124416B2/en not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1091212C (en) * | 1997-01-29 | 2002-09-18 | 富士乌兹克斯株式会社 | Hollow valve in internal combustion engine |
Also Published As
Publication number | Publication date |
---|---|
JP2003224774A (en) | 2003-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6438313B2 (en) | Edited-list creating apparatus, editing apparatus and editing method | |
CN1152335C (en) | Equipment and method for authoring multimedia file | |
JP4695392B2 (en) | Method and apparatus for use in sound replacement that automatically synchronizes with an image | |
US5151998A (en) | sound editing system using control line for altering specified characteristic of adjacent segment of the stored waveform | |
US6961895B1 (en) | Method and apparatus for synchronization of text and audio data | |
US20060179403A1 (en) | Media editing system | |
JPH11162107A (en) | System for editing digital video information and audio information | |
JPH11341350A (en) | Multimedia information editing and reproducing device, recording medium with multimedia information reproduction program and recording medium with sequence information respectively recorded on them | |
JP2007295218A (en) | Nonlinear editing apparatus, and program therefor | |
JP2005129971A (en) | Semi-automatic caption program production system | |
JP4124416B2 (en) | Semi-automatic subtitle program production system | |
US20020136529A1 (en) | Caption subject matter creating system, caption subject matter creating method and a recording medium in which caption subject matter creating program is stored | |
JPH0991928A (en) | Method for editing image | |
JP2558746B2 (en) | Data editing device | |
JP2003216200A (en) | System for supporting creation of writing text for caption and semi-automatic caption program production system | |
JP3944830B2 (en) | Subtitle data creation and editing support system using speech approximation data | |
JP3969570B2 (en) | Sequential automatic caption production processing system | |
JP4088669B2 (en) | Subtitle editing support system by moving the boundary of subtitles arranged on the timeline | |
JP2003224807A (en) | Caption program edit supporting system and semi- automatic caption program production system | |
JPH1051734A (en) | Dynamic image compiling device/method | |
JP3816901B2 (en) | Stream data editing method, editing system, and program | |
JP7481863B2 (en) | Speech recognition error correction support device, program, and method | |
JP2001169237A (en) | Moving picture edit reproducing device | |
JP2003223200A (en) | Write-up support system using speaking speed conversion and semiautomatic superimposed character program production system | |
JPH10322647A (en) | Moving picture editing system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20040513 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20040517 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20040903 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20041213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070418 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080122 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080324 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080415 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080501 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4124416 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110516 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120516 Year of fee payment: 4 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130516 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140516 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |