JP4210723B2 - 自動字幕番組制作システム - Google Patents

自動字幕番組制作システム Download PDF

Info

Publication number
JP4210723B2
JP4210723B2 JP07267199A JP7267199A JP4210723B2 JP 4210723 B2 JP4210723 B2 JP 4210723B2 JP 07267199 A JP07267199 A JP 07267199A JP 7267199 A JP7267199 A JP 7267199A JP 4210723 B2 JP4210723 B2 JP 4210723B2
Authority
JP
Japan
Prior art keywords
subtitle
presentation unit
sentence
caption
presentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP07267199A
Other languages
English (en)
Other versions
JP2000270263A (ja
Inventor
英治 沢村
一郎 丸山
暉将 江原
克彦 白井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
National Institute of Information and Communications Technology
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
Mitsubishi Electric Corp
National Institute of Information and Communications Technology
NHK Engineering Services Inc
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp, National Institute of Information and Communications Technology, NHK Engineering Services Inc, Japan Broadcasting Corp filed Critical Mitsubishi Electric Corp
Priority to JP07267199A priority Critical patent/JP4210723B2/ja
Publication of JP2000270263A publication Critical patent/JP2000270263A/ja
Application granted granted Critical
Publication of JP4210723B2 publication Critical patent/JP4210723B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Studio Circuits (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、ほぼ共通の電子化原稿をアナウンス用と字幕用の双方に利用する形態を想定して字幕番組を制作する自動字幕番組制作システムに係り、特に、本発明で提案するアナウンス音声と字幕文テキスト間の同期検出技術、及び日本語の特徴解析手法を用いたテキスト分割技術等を適用することにより、アナウンス音声の進行と同期して、提示単位字幕文の作成、及びその始点/終点の各々に対応するタイミング情報付与を自動化し得る自動字幕番組制作システムに関する。
【0002】
【従来の技術】
現代は高度情報化社会と一般に言われているが、聴覚障害者は健常者と比較して情報の入手が困難な状況下におかれている。
【0003】
すなわち、例えば、情報メディアとして広く普及しているTV放送番組を例示して、日本国内の全TV放送番組に対する字幕番組の割合に言及すると、欧米では33〜70%に達しているのに対し、わずか10%程ときわめて低いのが現状である。
【0004】
【発明が解決しようとする課題】
さて、日本国内の全TV放送番組に対する字幕番組の割合が欧米と比較して低くおかれている要因としては、主として字幕番組制作技術の未整備を挙げることができる。具体的には、日本語特有の問題も有り、ほとんどが手作業によっているため、多大の労力、時間、費用を要するためである。
【0005】
そこで、本発明者らは、字幕番組制作技術の整備を妨げている原因究明を企図して、現行の字幕番組制作の実体調査を行った。
【0006】
図6の左側には、現在一般に行われている字幕番組制作フローを示してある。
【0007】
ステップS101において、字幕番組制作者は、タイムコードを映像にスーパーした番組データと、タイムコードを音声チャンネルに記録した番組テープと、番組台本との3つの字幕原稿作成素材を放送局から受け取る。なお、図中において「タイムコード」を「TC」と略記する場合があることを付言しておく。
【0008】
ステップS103において、放送関係経験者等の専門家は、ステップS101で受け取った字幕原稿作成素材を基に、番組アナウンスの要約書き起こし、別途規定された字幕提示の基準となる原稿作成要領に従う字幕提示イメージ化、その開始・終了タイムコード記入の各作業を順次行ない、字幕原稿を作成する。
【0009】
ステップS105において、入力オペレータは、ステップS103で作成された字幕原稿をもとに電子化字幕を作成する。
【0010】
ステップS107において、ステップS105で作成された電子化字幕を、担当の字幕制作責任者、原稿作成者、及び入力オペレータの三者立ち会いのもとで試写・修正を行い、完成字幕とする。
【0011】
ところで、最近では、番組アナウンスの要約書き起こしと字幕の電子化双方に通じたキャプションオペレータと呼ばれる人材を養成することで、図6の右側に示す改良された現行字幕制作フローも一部実施されている。
【0012】
すなわち、ステップS111において、字幕番組制作者は、タイムコードを音声チャンネルに記録した番組テープと、番組台本との2つの字幕原稿作成素材を放送局から受け取る。
【0013】
ステップS113において、キャプションオペレータは、タイムコードを音声チャンネルに記録した番組テープを再生し、セリフの開始点でマウスのボタンをクリックすることでその点の音声チャンネルから始点タイムコードを取り出して記録する。さらに、セリフを聴取して要約電子データとして入力するとともに、字幕原稿作成要領に基づく区切り箇所に対応するセリフ点で再びマウスのボタンをクリックすることでその点の音声チャンネルから終点タイムコードを取り出して記録する。これらの操作を番組終了まで繰り返して、番組全体の字幕を電子化する。
【0014】
ステップS117において、ステップS105で作成された電子化字幕を、担当の字幕制作責任者、及びキャプションオペレータの二者立ち会いのもとで試写・修正を行い、完成字幕とする。
【0015】
後者の改良された現行字幕制作フローでは、キャプションオペレータは、タイムコードを音声チャンネルに記録した番組テープのみを使用して、セリフの要約と電子データ化を行うとともに、提示単位に分割した字幕の始点/終点にそれぞれ対応するセリフのタイミングでマウスボタンをクリックすることにより、音声チャンネルの各タイムコードを取り出して記録するものであり、かなり省力化された効果的な字幕制作フローといえる。
【0016】
さて、上述した現行字幕制作フローにおける一連の処理の流れの中で特に多大な工数を要するのは、ステップS103乃至S105又はステップS113の、セリフを聴取して要約し、かつ電子化する処理工程であり、この処理工程は熟練者の知識・経験に負うところが大きい。
【0017】
しかし、現在放送中の字幕番組のなかで、予めアナウンス原稿が作成され、その原稿がほとんど修正されることなく実際の放送字幕となっていると推測される番組がいくつかある。例えば、「生きもの地球紀行」という字幕付き情報番組を実際に調べて見ると、アナウンス音声と字幕内容はほとんど共通であり、共通の原稿をアナウンス用と字幕用の両方に利用していると推測出来る。
【0018】
そこで、本発明者らは、このようにアナウンス音声と字幕内容が極めて類似し、アナウンス用と字幕用の両方にほぼ共通の原稿を利用しており、その原稿が電子化されている番組を想定したとき、字幕番組の制作を人手を介することなく自動化できる自動字幕番組制作システムを想到するに至ったのである。
【0019】
本発明は、上述した実情に鑑みてなされたものであり、本発明で提案する音声と字幕文テキストの同期検出技術、及び日本語の特徴解析手法を用いたテキスト分割技術等を適用することにより、素材VTRから再生されたアナウンス音声の進行と同期して、提示単位字幕文の作成、及びその始点/終点の各々に対応する高精度のタイミング情報付与を自動化し得る自動字幕番組制作システムを提供することを課題とする。
【0020】
【課題を解決するための手段】
上記課題を解決するために、請求項1の発明は、少なくとも映像及び音声並びにこれらの提示タイミング情報を含んだ番組素材に対し、それに関連した字幕番組を制作する自動字幕番組制作システムであって、単位字幕文が提示時間順に配列された字幕文テキストのなかから、提示対象となる単位字幕文を提示時間順に抽出する単位字幕文抽出手段と、当該単位字幕文抽出手段で抽出された単位字幕文を、所望の字幕提示形式に従う少なくとも1以上の提示単位字幕文に変換する提示単位字幕化手段と、当該提示単位字幕化手段で得られた提示単位字幕文毎に、当該提示単位字幕文に対応するアナウンス音声と提示単位字幕文間の音声認識処理を含む同期検出技術を適用することにより、該当する始点/終点タイミング情報を同期点として検出する同期検出手段と、当該同期検出手段で検出した始点/終点タイミング情報を、前記提示単位字幕化手段で得られた提示単位字幕文毎に付与するタイミング情報付与手段と、を備え、前記同期検出手段は、前記提示単位字幕化手段で提示単位字幕文が得られる毎に、当該提示単位字幕文の妥当性を検証する妥当性検証機能と、当該妥当性検証機能を発揮することで得られた検証結果が不当であるとき、この検証結果を前記提示単位字幕化手段宛に返答する検証結果返答機能と、を有して構成され、
前記提示単位字幕化手段は、前記同期検出手段から当該提示単位字幕文が不当である旨の返答を受けたとき、前記単位字幕文抽出手段で抽出された単位字幕文のなかから、所望の字幕提示形式に従う少なくとも1以上の提示単位字幕文を再変換することを要旨とする。
【0021】
請求項1の発明によれば、まず、単位字幕文抽出手段は、単位字幕文が提示時間順に配列された字幕文テキストのなかから、提示対象となる単位字幕文を提示時間順に順次抽出する。これを受けて提示単位字幕化手段は、単位字幕文抽出手段で抽出された単位字幕文を、所望の字幕提示形式に従う少なくとも1以上の提示単位字幕文に変換する。一方、同期検出手段は、提示単位字幕化手段で得られた提示単位字幕文毎に、該当する始点/終点タイミング情報を同期点として検出するが、この同期点検出にあたり、当該提示単位字幕文に対応するアナウンス音声と提示単位字幕文間の音声認識処理を含む同期検出技術を適用することにより、該当する始点/終点タイミング情報を同期点として検出する。そして、タイミング情報付与手段は、同期検出手段で検出した始点/終点タイミング情報を、提示単位字幕化手段で得られた提示単位字幕文毎に付与する。
【0022】
このように、請求項1の発明によれば、単位字幕文が提示時間順に配列された字幕文テキストのなかから、提示対象となる単位字幕文を提示時間順に順次抽出し、抽出された単位字幕文を、所望の字幕提示形式に従う少なくとも1以上の提示単位字幕文に変換する一方、この変換で得られた提示単位字幕文毎に、該当する始点/終点タイミング情報を同期点として検出するが、この同期点検出にあたり、当該提示単位字幕文に対応するアナウンス音声と提示単位字幕文間の音声認識処理を含む同期検出技術を適用することにより、該当する始点/終点タイミング情報を同期点として検出し、この検出した始点/終点タイミング情報を、前記変換で得られた提示単位字幕文毎に付与するので、したがって、アナウンス音声の進行と同期して、提示単位字幕文の作成、及びその始点/終点の各々に対応する高精度のタイミング情報付与の自動化を実現可能な自動字幕番組制作システムを得ることができる。
そして、同期検出手段は、提示単位字幕化手段で提示単位字幕文が得られる毎に、当該提示単位字幕文の妥当性を検証する一方で、得られた検証結果が不当であるとき、この検証結果を提示単位字幕化手段宛に返答し、この際、提示単位字幕化手段は、同期検出手段から当該提示単位字幕文が不当である旨の返答を受けたとき、単位字幕文抽出手段で抽出された単位字幕文のなかから、所望の字幕提示形式に従う少なくとも1以上の提示単位字幕文を再変換するので、したがって、提示単位字幕文が一旦得られた場合であっても、その妥当性検証結果を提示単位字幕文変換工程にフィードバック可能となる結果として、好ましい提示単位字幕文の変換に寄与することができる。
【0025】
また、請求項の発明は、請求項に記載の自動字幕番組制作システムであって、前記同期検出手段は、前記提示単位字幕化手段で得られた提示単位字幕文の妥当性を検証するにあたり、当該提示単位字幕文に対応するアナウンス音声中に所定時間を超えるポーズの存在有無を調査し、当該調査の結果、アナウンス音声中に所定時間を超えるポーズ有りを検出したときには、該当する提示単位字幕文は不当であるとみなす一方、アナウンス音声中に所定時間を超えるポーズ無しを検出したときには、該当する提示単位字幕文は妥当であるとみなすようにして、該当する提示単位字幕文の妥当性を検証することを要旨とする。
【0026】
請求項の発明によれば、同期検出手段は、提示単位字幕化手段で得られた提示単位字幕文の妥当性を検証するにあたり、当該提示単位字幕文に対応するアナウンス音声中に所定時間を超えるポーズの存在有無を調査し、この調査の結果、アナウンス音声中に所定時間を超えるポーズ有りを検出したときには、該当する提示単位字幕文は不当であるとみなす一方、アナウンス音声中に所定時間を超えるポーズ無しを検出したときには、該当する提示単位字幕文は妥当であるとみなすようにして、該当する提示単位字幕文の妥当性を検証するので、したがって、提示単位字幕文中に所定時間を超えるポーズが存在するということは、この提示単位字幕文は、少なくとも時間的にも内容的にも相異なる字幕文を含んで構成されているおそれがあり、これらの字幕文を一つの提示単位字幕文とみなしたのでは好ましくないおそれがあるのに対し、一旦得られた提示単位字幕文の妥当性を、対応するアナウンス音声の観点から再検証可能となる結果として、好ましい提示単位字幕文の変換に多大な貢献を果たすことができる。
【0027】
さらに、請求項の発明は、請求項1または2に記載の自動字幕番組制作システムであって、前記提示単位字幕化手段は、前記単位字幕文抽出手段で抽出された単位字幕文を、制限字幕文字数を含む字幕提示形式に従う少なくとも1以上の提示単位字幕文に変換するにあたり、前記制限字幕文字数を含む字幕提示形式を参照して、提示単位字幕配列案を作成し、前記単位字幕文に付加されている区切り可能箇所情報を参照して、前記作成された提示単位字幕配列案を最適化することで提示単位字幕配列を確定することにより、前記単位字幕文を少なくとも1以上の各提示単位字幕文に分割するようにして、前記単位字幕文を、前記字幕提示形式に従う提示単位字幕文に変換することを要旨とする。
【0028】
請求項の発明によれば、提示単位字幕化手段は、単位字幕文抽出手段で抽出された単位字幕文を、制限字幕文字数を含む字幕提示形式に従う少なくとも1以上の提示単位字幕文に変換するにあたり、制限字幕文字数を含む字幕提示形式を参照して、提示単位字幕配列案を作成し、単位字幕文に付加されている区切り可能箇所情報を参照して、作成された提示単位字幕配列案を最適化することで提示単位字幕配列を確定することにより、単位字幕文を少なくとも1以上の各提示単位字幕文に分割するようにして、単位字幕文を、字幕提示形式に従う提示単位字幕文に変換するので、したがって、単位字幕文を制限字幕文字数を含む字幕提示形式に従う提示単位字幕文に変換するにあたり、区切り可能箇所情報を適用することで、見やすく読みやすい最適な提示単位字幕化を実現することができる。
【0029】
しかも、請求項の発明は、請求項に記載の自動字幕番組制作システムであって、前記提示単位字幕化手段は、前記区切り可能箇所情報を参照して、前記作成された提示単位字幕配列案を最適化するにあたり、前記区切り可能箇所情報は、前記単位字幕文に対して形態素解析を施すことで得られる形態素解析データと、前記単位字幕文に対する改行・改頁推奨箇所に係る分割ルールと、のうちいずれか1又は両者を含んで構成されており、前記形態素解析データ及び/又は分割ルールを参照して、前記作成された提示単位字幕配列案を最適化することを要旨とする。
【0030】
請求項の発明によれば、提示単位字幕化手段は、区切り可能箇所情報を参照して、前記作成された提示単位字幕配列案を最適化するにあたり、形態素解析データ及び/又は分割ルールを参照して、前記作成された提示単位字幕配列案を最適化するので、したがって、実情に即して高精度に最適化された提示単位字幕化を実現可能な自動字幕番組制作システムを得ることができる。
【0031】
そして、請求項の発明は、請求項に記載の自動字幕番組制作システムであって、前記分割ルールで定義される改行・改頁推奨箇所は、句点の後ろ、読点の後ろ、文節と文節の間、形態素品詞の間、のうちいずれか1又は複数の組み合わせを含んでおり、当該分割ルールを適用するにあたっては、前記記述順の先頭から優先的に適用することを要旨とする。
【0032】
請求項の発明によれば、分割ルール、すなわち改行・改頁データで定義される改行・改頁推奨箇所は、句点の後ろ、読点の後ろ、文節と文節の間、形態素品詞の間、のうちいずれか1又は複数の組み合わせを含んでおり、分割ルールを適用するにあたっては、前記記述順の先頭から優先的に適用するので、したがって、さらに実情に即して高精度に最適化された提示単位字幕化を実現可能な自動字幕番組制作システムを得ることができる。
【0033】
【発明の実施の形態】
以下に、本発明に係る自動字幕番組制作システムの一実施形態について、図に基づいて詳細に説明する。
【0034】
図1は、本発明に係る自動字幕番組制作システムの機能ブロック構成図、図2は、本発明に係る自動字幕番組制作システムにおける字幕制作フローを、改良された現行字幕制作フローと対比して示した説明図、図3は、単位字幕文を提示単位字幕文毎に分割する際に適用される分割ルールの説明に供する図、図4乃至図5は、アナウンス音声に対する字幕送出タイミングの同期検出技術に係る説明に供する図である。
【0035】
既述したように、現在放送中の字幕番組のなかで、予めアナウンス原稿が作成され、その原稿がほとんど修正されることなく実際の放送字幕となっていると推測される番組がいくつかある。例えば、「生きもの地球紀行」という字幕付き情報番組を実際に調べて見ると、アナウンス音声と字幕内容はほぼ共通であり、ほぼ共通の原稿をアナウンス用と字幕用の両方に利用していると推測出来る。
【0036】
そこで、本発明者らは、このようにアナウンス音声と字幕の内容が極めて類似し、アナウンス用と字幕用の両方に共通の原稿を利用しており、その原稿が電子化されている番組を想定したとき、本発明で提案するアナウンス音声と字幕文テキストの同期検出技術、及び日本語の特徴解析手法を用いたテキスト分割技術等を適用することにより、素材VTRから再生されたアナウンスの進行と同期して、提示単位字幕文の作成、及びその始点/終点の各々に対応するタイミング情報の付与を自動化し、これをもって、字幕番組の制作を人手を介することなく自動化できる自動字幕番組制作システムを想到するに至ったのである。
【0037】
さて、本実施形態の説明に先立って、以下の説明で使用する用語の定義付けを行うと、本実施形態の説明において、提示対象となる字幕の全体集合を「字幕文テキスト」と言い、字幕文テキストのうち、句読点で区切られた文章単位の部分集合を「単位字幕文」と言い、ディスプレイの表示画面上における提示単位字幕の全体集合を「提示単位字幕群」と言い、提示単位字幕群のうち、任意の一行の字幕を「提示単位字幕文」と言い、提示単位字幕文のうちの任意の文字を表現するとき、これを「字幕文字」と言うことにする。
【0038】
まず、本発明に係る自動字幕番組制作システム11の概略構成について、図1を参照して説明する。
【0039】
同図に示すように、自動字幕番組制作システム11は、電子化原稿記録媒体13と、同期検出手段として機能する同期検出装置15と、統合化装置17と、形態素解析部19と、分割ルール記憶部21と、番組素材VTR例えばディジタル・ビデオ・テープ・レコーダ(以下、「D−VTR」と言う)23と、を含んで構成されている。
【0040】
電子化原稿記録媒体13は、例えばハードディスク記憶装置やフロッピーディスク装置等より構成され、提示対象となる字幕の全体集合を表す字幕文テキストを記憶している。なお、本実施形態では、ほぼ共通の電子化原稿をアナウンス用と字幕用の双方に利用する形態を想定しているので、電子化原稿記録媒体13に記憶される字幕文テキストの内容は、提示対象字幕とするばかりでなく、素材VTRのアナウンス音声とも一致しているものとする。
【0041】
同期検出装置15は、提示単位字幕文と、これを読み上げたアナウンス音声との間における時間同期を補助する機能等を有している。さらに詳しく述べると、同期検出装置15は、統合化装置17で確定された提示単位字幕配列が送られてくる毎に、この提示単位字幕配列の妥当性を検証する妥当性検証機能と、妥当性検証機能を発揮することで得られた検証結果が不当であるとき、この検証結果を統合化装置17宛に返答する検証結果返答機能と、妥当性検証機能を発揮することで得られた検証結果が妥当であるとき、番組素材VTRから取り込んだこの提示単位字幕配列に対応するアナウンス音声及びそのタイムコードを参照して、該当する提示単位字幕文毎のタイミング情報、すなわち始点/終点タイムコードを検出し、検出した各始点/終点タイムコードを統合化装置17宛に送出するタイミング情報検出機能と、を有している。
【0042】
統合化装置17は、電子化原稿記録媒体13から読み出した字幕文テキストのなかから、例えば40〜50字幕文字程度を目安とした単位字幕文を順次抽出する単位字幕文抽出機能と、単位字幕文抽出機能を発揮することで抽出した単位字幕文を、所望の提示形式に従う提示単位字幕文に変換する提示単位字幕化機能と、提示単位字幕化機能を発揮することで変換された提示単位字幕文に対し、同期検出装置15から送出されてきた提示単位字幕文毎のタイミング情報である始点/終点の各タイムコードを付与するタイミング情報付与機能と、を有している。
【0043】
形態素解析部19は、漢字かな交じり文で表記されている単位字幕文を対象として、形態素毎に分割する分割機能と、分割機能を発揮することで分割された各形態素毎に、表現形、品詞、読み、標準表現などの付加情報を付与する付加情報付与機能と、各形態素を文節や節単位にグループ化し、いくつかの情報素列を得る情報素列取得機能と、を有している。これにより、単位字幕文は、表面素列、記号素列(品詞列)、標準素列、及び情報素列として表現される。
【0044】
分割ルール記憶部21は、図3に示すように、単位字幕文を対象とした改行・改頁箇所の最適化を行う際に参照される分割ルールを記憶する機能を有している。
【0045】
D−VTR23は、番組素材が収録されている番組素材VTRテープから、映像、音声、及びそれらのタイムコードを再生出力する機能を有している。
【0046】
次に、自動字幕番組制作システム11において主要な役割を果たす統合化装置17の内部構成について説明していく。
【0047】
統合化装置17は、単位字幕文抽出手段として機能する単位字幕文抽出部33と、提示単位字幕化手段として機能する提示単位字幕化部35と、タイミング情報付与手段として機能するタイミング情報付与部37と、を含んで構成されている。
【0048】
単位字幕文抽出部33は、電子化原稿記録媒体13から読み出した、単位字幕文が提示時間順に配列された字幕文テキストのなかから、40〜50字幕文字程度を目安として、少なくとも提示単位字幕文よりも多い文字数を呈する提示対象となる単位字幕文を、必要に応じその区切り可能箇所情報等を活用して提示時間順に順次抽出する機能を有している。なお、区切り可能箇所情報としては、形態素解析部19で得られた文節データ付き形態素解析データ、及び分割ルール記憶部21に記憶されている分割ルール(改行・改頁データ)を例示することができる。
【0049】
提示単位字幕化部35は、単位字幕文抽出部33で抽出した単位字幕文、単位字幕文に付加されている区切り可能箇所情報、及び同期検出装置15からの情報等に基づいて、単位字幕文抽出部33で抽出した単位字幕文を、所望の提示形式に従う少なくとも1以上の提示単位字幕文に変換する提示単位字幕化機能を有している。
【0050】
タイミング情報付与部37は、提示単位字幕化部35で変換された提示単位字幕文に対し、同期検出装置15から送出されてきた提示単位字幕文毎のタイミング情報である始点/終点の各タイムコードを付与するタイミング情報付与機能を有している。
【0051】
次に、本自動字幕番組制作システム11の動作について、図2の右側に示す字幕制作フローに従って、図2の左側に示す改良された現行字幕制作フローと対比しつつ説明する。
【0052】
本発明に係る字幕制作フローの説明に先立って、まず、図2の左側に示す改良された現行字幕制作フローについて再度説明する。
【0053】
ステップS111において、字幕番組制作者は、音声チャンネルにタイムコードを記録した番組テープと、番組台本との2つの字幕原稿作成素材を放送局から受け取る。なお、図中において「タイムコード」を「TC」と略記する場合があることを付言しておく。
【0054】
ステップS113において、キャプションオペレータは、VTRの別の音声チャンネル(セリフをLchとするとRch)にタイムコードを記録した番組テープを再生し、セリフの開始点でマウスのボタンをクリックすることでその点の音声チャンネルから始点タイムコードを取り出して記録する。さらに、セリフを聴取して要約電子データとして入力するとともに、字幕原稿作成要領に基づいて行う区切り箇所に対応するセリフ点で再びマウスのボタンをクリックすることでその点の音声チャンネルから終点タイムコードを取り出して記録する。これらの操作を番組終了まで繰り返して、番組全体の字幕を電子化する。
【0055】
ステップS117において、ステップS105で作成された電子化字幕を、担当の字幕制作責任者、及びキャプションオペレータの二者立ち会いのもとで試写・修正を行い、完成字幕とする。
【0056】
上述の改良された現行字幕制作フローでは、キャプションオペレータは、タイムコードをVTRの別の音声チャンネルに記録した番組テープのみを使用して、セリフの要約と電子データ化を行うとともに、提示単位に分割した字幕の始点/終点にそれぞれ対応するセリフのタイミングでマウスボタンをクリックすることにより、音声チャンネルの各タイムコードを取り出して記録するものであり、かなり省力化された効果的な字幕制作を実現している。
【0057】
ところが、本発明に係る字幕制作フローでは、上述の改良された現行字幕制作フローと比較して、さらなる省力化が図られている。
【0058】
すなわち、ステップS1において、単位字幕文抽出部33は、電子化原稿記録媒体13から読み出した字幕文テキストのなかから、40〜50文字程度を目安として、少なくとも提示単位字幕文よりも多い文字数を呈する単位字幕文を、その区切り可能箇所情報等を活用して順次抽出する。なお、制作する字幕は、通常一行当たり15文字を限度として、二行の提示単位字幕群を順次入換えていく字幕提示形式が採用されるので、文頭から40〜50字幕文字程度で、句点や読点を目安にして単位字幕文を抽出する。(これは15文字の処理量をも考慮している。)。
【0059】
ステップS2乃至S5において、提示単位字幕化部35は、単位字幕文抽出部33で抽出した単位字幕文、及び単位字幕文に付加された区切り可能箇所情報等に基づいて、単位字幕文抽出部33で抽出した単位字幕文を、所望の提示形式に従う少なくとも1以上の提示単位字幕文に変換する。
【0060】
具体的には、単位字幕文抽出部33で抽出した単位字幕文を、上述した字幕提示形式に従い、例えば、一行当たり13字幕文字で、二行の提示単位字幕群となる提示単位字幕配列案を作成する(ステップS2)。他方、単位字幕文抽出部33で抽出した単位字幕文を対象とした形態素解析を行い、形態素解析データを得る(ステップS3)。この形態素解析データには文節を表すデータも付属している。そして、上記の如く作成した提示単位字幕配列案に対し、形態素解析データを参照して、提示単位字幕配列案の改行・改頁点を最適化し(ステップS4)、最初の単位字幕文に関する提示単位字幕配列を確定する(ステップS5)。これにより、実情に即して高精度に最適化された提示単位字幕化を実現することができる。
【0061】
なお、ステップS4において提示単位字幕配列案を最適化するあたっては、別途用意した分割ルール(改行・改頁データ)も併せて適用する。具体的には、図3に示すように、分割ルール(改行・改頁データ)で定義される改行・改頁推奨箇所は、第1に句点の後ろ、第2に読点の後ろ、第3に文節と文節の間、第4に形態素品詞の間、を含んでおり、分割ルール(改行・改頁データ)を適用するにあたっては、上述した記述順の先頭から優先的に適用する。このようにすれば、さらに実情に即して高精度に最適化された提示単位字幕化を実現することができる。特に、第4の形態素品詞の間を分割ルール(改行・改頁データ)として適用するにあたっては、図3の図表には、自然感のある改行・改頁を行った際における、直前の形態素品詞とその頻度例が示されているが、図3の図表のうち頻度の高い形態素品詞の直後で改行・改頁を行うようにすればよい。このようにすれば、より一層実情に即して高精度に最適化された提示単位字幕化を実現することができる。
【0062】
ステップS6乃至S7において、タイミング情報付与部37は、提示単位字幕化部35で変換された提示単位字幕文に対し、同期検出装置15から送出されてきた提示単位字幕文毎のタイミング情報である始点/終点の各タイムコードを付与する。
【0063】
具体的には、統合化装置17は、ステップS5で確定した提示単位字幕文を同期検出装置15に与える一方、番組素材VTRからアナウンス音声及びそのタイムコードを取り込む(ステップS6)同期検出装置17は、ステップS5で確定した提示単位字幕配列、すなわち提示単位字幕文に対応するアナウンス音声中に例えば2秒以上等の所定時間を超える無音区間、すなわちポーズの存在有無を調査し(ステップS7)、この調査の結果、アナウンス音声中にポーズ有りを検出したときには、該当する提示単位字幕文は不当であるとみなして、ステップS5の提示単位字幕配列確定処理に戻り、このポーズ以前に対応する単位字幕文のなかから、提示単位字幕配列を再変換する。一方、同期検出装置15は、上記調査の結果、所定時間を超えるポーズ無しを検出したときには、該当する提示単位字幕文は妥当であるとみなして、その始点/終点タイムコードを検出し(ステップS7)、検出した各始点/終点タイムコードを該当する提示単位字幕文に付与して(ステップS8)、最初の単位字幕文に関する提示単位字幕文の作成処理を終了する。
【0064】
ここで、ステップS7において提示単位字幕文に対応するアナウンス音声中のポーズの有無を調査する趣旨は、提示単位字幕文中に所定時間を超えるポーズが存在するということは、この提示単位字幕文は、時間的に離れており、また、少なくとも複数の相異なる場面に対応する字幕文を含んで構成されているおそれがあり、これらの字幕文を一つの提示単位字幕文とみなしたのでは好ましくないおそれがあるからである。これにより、ステップS5で一旦確定された提示単位字幕文の妥当性を、対応するアナウンス音声の観点から再検証可能となる結果として、好ましい提示単位字幕文の変換確定に多大な貢献を果たすことができる。
【0065】
なお、ステップS7における提示単位字幕文に付与する始点/終点タイムコードの同期検出は、本発明者らが研究開発したアナウンス音声を対象とした音声認識処理を含むアナウンス音声と字幕文テキスト間の同期検出技術を適用することで高精度に実現可能である。
【0066】
すなわち、字幕送出タイミング検出の流れは、図4に示すように、まず、かな漢字交じり文で表記されている字幕文テキストを、音声合成などで用いられている読み付け技術を用いて発音記号列に変換する。この変換には、「日本語読み付けシステム」を用いる。次に、あらかじめ学習しておいた音響モデル(HMM:隠れマルコフモデル)を参照し、「音声モデル合成システム」によりこれらの発音記号列をワード列ペアモデルと呼ぶ音声モデル(HMM)に変換する。そして、「最尤照合システム」を用いてワード列ペアモデルにアナウンス音声を通して比較照合を行うことにより、字幕送出タイミングの同期検出を行う。
【0067】
字幕送出タイミング検出の用途に用いるアルゴリズム(ワード列ペアモデル)は、キーワードスポッティングの手法を採用している。キーワードスポッティングの手法として、フォワード・バックワードアルゴリズムにより単語の事後確率を求め、その単語尤度のローカルピークを検出する方法が提案されている。ワード列ペアモデルは、図5に示すように、これを応用して字幕と音声を同期させたい点、すなわち同期点の前後でワード列1 (Keywords1)とワード列2 (Keywords2)とを連結したモデルになっており、ワード列の中点(B)で尤度を観測してそのローカルピークを検出し、ワード列2の発話開始時間を高精度に求めることを目的としている。ワード列は、音素HMMの連結により構成され、ガーベジ (Garbage)部分は全音素HMMの並列な枝として構成されている。また、アナウンサが原稿を読む場合、内容が理解しやすいように息継ぎの位置を任意に定めることから、ワード列1,2間にポーズ (Pause)を挿入している。なお、ポーズ時間の検出に関しては、素材VTRから音声とそのタイムコードが供給され、その音声レベルが指定レベル以下で連続する開始、終了タイムコードから、周知の技術で容易に達成できる。
【0068】
そして、第一頁目に関する字幕作成が終了すると、続いて第一頁目の次からの字幕文を抽出して第二頁目の字幕化に進み、同様の処理により当該番組の全字幕化を行う。
【0069】
上述した字幕制作フローにおける処理は、図2の左側に示すステップS113の要約原稿・電子データ作成処理に相当するものであり、この処理手法を用いて制作した電子化字幕は、その後の試写・修正プロセスにおける人手を介してのチェックと修正を行なって完成字幕とすることを前提としている。つまり、電子化原稿とアナウンス音声との間で差異がある場合等には、この試写・修正プロセスでチェックと修正を行なうことで自動化できない部分を補完することで、より完成度の高い電子化字幕を得ることができる。
【0070】
以上詳細に説明したように、本発明に係る自動字幕番組制作システム11によれば、単位字幕文が提示時間順に配列された字幕文テキストのなかから、提示対象となる単位字幕文を提示時間順に順次抽出し、抽出された単位字幕文を、所望の字幕提示形式に従う少なくとも1以上の提示単位字幕文に変換する一方、この変換で得られた提示単位字幕文毎に、該当する始点/終点タイミング情報を同期点として検出するが、この同期点検出にあたり、当該提示単位字幕文に対応するアナウンス音声と提示単位字幕文間の音声認識処理を含む同期検出技術を適用することにより、該当する始点/終点タイミング情報を同期点として検出し、この検出した始点/終点タイミング情報を、前記変換で得られた提示単位字幕文毎に付与するので、したがって、素材VTRのアナウンス音声の進行と同期して、提示単位字幕文の作成、及びその始点/終点の各々に対応する高精度のタイミング情報付与の自動化を実現することができる。
【0071】
なお、本発明は、上述した実施形態の例に限定されることなく、請求の範囲内において適宜の変更を加えることにより、その他の態様で実施可能であることは言うまでもない。
【0072】
【発明の効果】
以上詳細に説明したように、請求項1の発明によれば、アナウンス音声の進行と同期して、提示単位字幕文の作成、及びその始点/終点の各々に対応する高精度のタイミング情報付与の自動化を実現可能な自動字幕番組制作システムを得ることができる。
【0073】
また、提示単位字幕文が一旦得られた場合であっても、その妥当性検証結果を提示単位字幕文変換工程にフィードバック可能となる結果として、好ましい提示単位字幕文の変換に寄与することができる。
【0074】
また、請求項の発明によれば、提示単位字幕文中に所定時間を超えるポーズが存在するということは、この提示単位字幕文は、少なくとも時間的にも内容的にも相異なる字幕文を含んで構成されているおそれがあり、これらの字幕文を一つの提示単位字幕文とみなしたのでは好ましくないおそれがあるのに対し、一旦得られた提示単位字幕文の妥当性を、対応するアナウンス音声の観点から再検証可能となる結果として、好ましい提示単位字幕文の変換に多大な貢献を果たすことができる。
【0075】
また、請求項の発明によれば、単位字幕文を制限字幕文字数を含む字幕提示形式に従う提示単位字幕文に変換するにあたり、区切り可能箇所情報を適用することで、見やすく読みやすい最適な提示単位字幕化を実現することができる。
【0076】
しかも、請求項の発明によれば、実情に即して高精度に最適化された提示単位字幕化を実現可能な自動字幕番組制作システムを得ることができる。
【0077】
そして、請求項の発明によれば、さらに実情に即して高精度に最適化された提示単位字幕化を実現可能な自動字幕番組制作システムを得ることができるというきわめて優れた効果を奏する。
【図面の簡単な説明】
【図1】図1は、本発明に係る自動字幕番組制作システムの機能ブロック構成図である。
【図2】図2は、本発明に係る自動字幕番組制作システムにおける字幕制作フローを、改良された現行字幕制作フローと対比して示した説明図である。
【図3】図3は、単位字幕文を提示単位字幕文毎に分割する際に適用される分割ルールの説明に供する図である。
【図4】図4は、アナウンス音声に対する字幕送出タイミングの同期検出技術に係る説明に供する図である。
【図5】図5は、アナウンス音声に対する字幕送出タイミングの同期検出技術に係る説明に供する図である。
【図6】図6は、現行字幕制作フロー、及び改良された現行字幕制作フローに係る説明図である。
【符号の説明】
11 自動字幕番組制作システム
13 電子化原稿記録媒体
15 同期検出装置(同期検出手段)
17 統合化装置
19 形態素解析部
21 分割ルール記憶部
23 ディジタル・ビデオ・テープ・レコーダ(D−VTR)
33 単位字幕文抽出部(単位字幕文抽出手段)
35 提示単位字幕化部(提示単位字幕化手段)
37 タイミング情報付与部(タイミング情報付与手段)

Claims (5)

  1. 少なくとも映像及び音声並びにこれらの提示タイミング情報を含んだ番組素材に対し、それに関連した字幕番組を制作する自動字幕番組制作システムであって、
    単位字幕文が提示時間順に配列された字幕文テキストのなかから、提示対象となる単位字幕文を提示時間順に抽出する単位字幕文抽出手段と、
    当該単位字幕文抽出手段で抽出された単位字幕文を、所望の字幕提示形式に従う少なくとも1以上の提示単位字幕文に変換する提示単位字幕化手段と、
    当該提示単位字幕化手段で得られた提示単位字幕文毎に、当該提示単位字幕文に対応するアナウンス音声と提示単位字幕文間の音声認識処理を含む同期検出技術を適用することにより、該当する始点/終点タイミング情報を同期点として検出する同期検出手段と、
    当該同期検出手段で検出した始点/終点タイミング情報を、前記提示単位字幕化手段で得られた提示単位字幕文毎に付与するタイミング情報付与手段と、
    を備え、
    前記同期検出手段は、
    前記提示単位字幕化手段で提示単位字幕文が得られる毎に、当該提示単位字幕文の妥当性を検証する妥当性検証機能と、当該妥当性検証機能を発揮することで得られた検証結果が不当であるとき、この検証結果を前記提示単位字幕化手段宛に返答する検証結果返答機能と、を有して構成され、
    前記提示単位字幕化手段は、前記同期検出手段から当該提示単位字幕文が不当である旨の返答を受けたとき、前記単位字幕文抽出手段で抽出された単位字幕文のなかから、所望の字幕提示形式に従う少なくとも1以上の提示単位字幕文を再変換することを特徴とする自動字幕番組制作システム。
  2. 請求項に記載の自動字幕番組制作システムであって、
    前記同期検出手段は、
    前記提示単位字幕化手段で得られた提示単位字幕文の妥当性を検証するにあたり、当該提示単位字幕文に対応するアナウンス音声中に所定時間を超えるポーズの存在有無を調査し、当該調査の結果、アナウンス音声中に所定時間を超えるポーズ有りを検出したときには、該当する提示単位字幕文は不当であるとみなす一方、アナウンス音声中に所定時間を超えるポーズ無しを検出したときには、該当する提示単位字幕文は妥当であるとみなすようにして、該当する提示単位字幕文の妥当性を検証することを特徴とする自動字幕番組制作システム。
  3. 請求項1または2に記載の自動字幕番組制作システムであって、
    前記提示単位字幕化手段は、
    前記単位字幕文抽出手段で抽出された単位字幕文を、制限字幕文字数を含む字幕提示形式に従う少なくとも1以上の提示単位字幕文に変換するにあたり、
    前記制限字幕文字数を含む字幕提示形式を参照して、提示単位字幕配列案を作成し、
    前記単位字幕文に付加されている区切り可能箇所情報を参照して、前記作成された提示単位字幕配列案を最適化することで提示単位字幕配列を確定することにより、前記単位字幕文を少なくとも1以上の各提示単位字幕文に分割するようにして、前記単位字幕文を、前記字幕提示形式に従う提示単位字幕文に変換することを特徴とする自動字幕番組制作システム。
  4. 請求項に記載の自動字幕番組制作システムであって、
    前記提示単位字幕化手段は、
    前記区切り可能箇所情報を参照して、前記作成された提示単位字幕配列案を最適化するにあたり、
    前記区切り可能箇所情報は、前記単位字幕文に対して形態素解析を施すことで得られる形態素解析データと、前記単位字幕文に対する改行・改頁推奨箇所に係る分割ルールと、のうちいずれか1又は両者を含んで構成されており、
    前記形態素解析データ及び/又は分割ルールを参照して、前記作成された提示単位字幕配列案を最適化することを特徴とする自動字幕番組制作システム。
  5. 請求項に記載の自動字幕番組制作システムであって、
    前記分割ルールで定義される改行・改頁推奨箇所は、
    句点の後ろ、読点の後ろ、文節と文節の間、形態素品詞の間、のうちいずれか1又は複数の組み合わせを含んでおり、
    当該分割ルールを適用するにあたっては、前記記述順の先頭から優先的に適用することを特徴とする自動字幕番組制作システム。
JP07267199A 1999-03-17 1999-03-17 自動字幕番組制作システム Expired - Fee Related JP4210723B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP07267199A JP4210723B2 (ja) 1999-03-17 1999-03-17 自動字幕番組制作システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP07267199A JP4210723B2 (ja) 1999-03-17 1999-03-17 自動字幕番組制作システム

Publications (2)

Publication Number Publication Date
JP2000270263A JP2000270263A (ja) 2000-09-29
JP4210723B2 true JP4210723B2 (ja) 2009-01-21

Family

ID=13496069

Family Applications (1)

Application Number Title Priority Date Filing Date
JP07267199A Expired - Fee Related JP4210723B2 (ja) 1999-03-17 1999-03-17 自動字幕番組制作システム

Country Status (1)

Country Link
JP (1) JP4210723B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002351490A (ja) * 2001-05-29 2002-12-06 Telecommunication Advancement Organization Of Japan 字幕へのタイミング情報付与方法
JP2005269205A (ja) * 2004-03-18 2005-09-29 National Institute Of Information & Communication Technology 逐次型高速字幕制作システム
JP5213572B2 (ja) * 2008-07-28 2013-06-19 株式会社アステム 手話映像生成システム、サーバ、端末装置、情報処理方法、及びプログラム
JP5243886B2 (ja) * 2008-08-11 2013-07-24 旭化成株式会社 字幕出力装置、字幕出力方法及びプログラム
JP5246948B2 (ja) * 2009-03-27 2013-07-24 Kddi株式会社 字幕ずれ補正装置、再生装置および放送装置
JP5334716B2 (ja) * 2009-07-03 2013-11-06 日本放送協会 文字情報提示制御装置及びプログラム
JP5340059B2 (ja) * 2009-07-03 2013-11-13 日本放送協会 文字情報提示制御装置及びプログラム
JP2022033624A (ja) 2020-08-17 2022-03-02 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
JP7216771B2 (ja) * 2021-06-09 2023-02-01 西日本電信電話株式会社 台本へのメタデータ付与装置、方法、およびプログラム

Also Published As

Publication number Publication date
JP2000270263A (ja) 2000-09-29

Similar Documents

Publication Publication Date Title
CN105245917B (zh) 一种多媒体语音字幕生成的系统和方法
JP4466564B2 (ja) 文書作成閲覧装置、文書作成閲覧ロボットおよび文書作成閲覧プログラム
US8572488B2 (en) Spot dialog editor
US5555343A (en) Text parser for use with a text-to-speech converter
US20070011012A1 (en) Method, system, and apparatus for facilitating captioning of multi-media content
JPWO2018216729A1 (ja) 音声ガイド生成装置、音声ガイド生成方法及び放送システム
JP4140745B2 (ja) 字幕へのタイミング情報付与方法
US12099815B2 (en) Providing subtitle for video content in spoken language
JP2012181358A (ja) テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム
JP4210723B2 (ja) 自動字幕番組制作システム
JP2004343488A (ja) 字幕挿入方法、字幕挿入システム、および字幕挿入プログラム
US20110243447A1 (en) Method and apparatus for synthesizing speech
EP3839953A1 (en) Automatic caption synchronization and positioning
JP4496358B2 (ja) オープンキャプションに対する字幕表示制御方法
JP4140744B2 (ja) 字幕文テキストの自動分割方法
JP4538618B2 (ja) 字幕番組制作システムにおける表示単位字幕文の自動生成方法
JP3969570B2 (ja) 逐次自動字幕制作処理システム
US7353175B2 (en) Apparatus, method, and program for speech synthesis with capability of providing word meaning immediately upon request by a user
JP2004212799A (ja) 書起し支援装置
JP4500957B2 (ja) 字幕制作システム
JP2002351490A (ja) 字幕へのタイミング情報付与方法
JP7481894B2 (ja) 発話音声テキスト生成装置、発話音声テキスト生成プログラムおよび発話音声テキスト生成方法
JP2003224807A (ja) 字幕番組編集支援システムおよび半自動型字幕番組制作システム
JP2005038014A (ja) 情報提示装置及び情報提示方法
JP2002197488A (ja) リップシンクデータ生成装置並びに方法、情報記憶媒体、及び情報記憶媒体の製造方法

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20040513

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040517

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20040903

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060224

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060302

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20060227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080509

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080707

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080801

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080826

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080910

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111107

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121107

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121107

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121107

Year of fee payment: 4

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121107

Year of fee payment: 4

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121107

Year of fee payment: 4

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131107

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees