JP3969570B2 - 逐次自動字幕制作処理システム - Google Patents
逐次自動字幕制作処理システム Download PDFInfo
- Publication number
- JP3969570B2 JP3969570B2 JP2002040540A JP2002040540A JP3969570B2 JP 3969570 B2 JP3969570 B2 JP 3969570B2 JP 2002040540 A JP2002040540 A JP 2002040540A JP 2002040540 A JP2002040540 A JP 2002040540A JP 3969570 B2 JP3969570 B2 JP 3969570B2
- Authority
- JP
- Japan
- Prior art keywords
- subtitle
- caption
- unit
- time
- preview
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Studio Circuits (AREA)
Description
【発明の属する技術分野】
本発明は、制作時間の短縮を可能にした逐次自動字幕制作処理システムに関する。
【0002】
[発明の概要]
本発明は、制作時間の短縮を目的とする逐次自動字幕制作処理システムに関するものである。逐次自動字幕制作処理システムは、例えば番組音声の適切な区切りを検出して字幕制作の処理単位とし、この処理単位毎に字幕制作を実行するものである。この処理単位の時間内に全ての自動字幕制作を完了できるように高速化し、直ちに次の処理単位の字幕制作処理に進めるようにする。結局、VTRから連続再生された字幕番組素材に対し、処理単位時間分だけ遅れてはいるが、追いかけ自動字幕制作が可能となり、字幕制作時間を大幅に短縮することができるようにしたものである。
【0003】
【従来の技術】
社会の情報化が著しく進展する中で、聴覚障害者はその機能障害により、情報の入手に多くの制約を受けている状況にある。聴覚障害者が健常者と同様に放送を利用し、楽しむために有効な手段として、現在、一部の番組を対象として字幕放送が実施されているが、聴覚障害者のニーズに照らすと、その実施状況はきわめて不十分である。
【0004】
ところが、字幕放送は、現時点ではその制作過程の大部分を手作業に依存しているため、番組制作に多大の労力・費用・時間を要し、字幕放送の普及を阻害する要因の一つとなっている。今後、字幕放送の一層の普及を図るためには、字幕データの作成等を効率的に行う字幕番組制作技術の開発などにより番組制作プロセスの合理化・効率化を図ることが不可欠である。
【0005】
従来の手動字幕制作システムにおける処理手順について説明すると、先ず、字幕作成素材としてタイムコードを映像にスーパーした番組テープとタイムコードを音声チャンネルに記録した番組テープおよび番組台本などを使用する。
【0006】
これを放送関係経験のあるOBなど専門知識のある人に依頼して、番組アナウンスの要約書起こしと字幕表示イメージ化(別途定める字幕原稿作成要領などを参考にする)およびその開始・終了タイムコード記入を行って字幕原稿を作成する。
【0007】
この字幕原稿をもとに、オペレータが電子化字幕を作成する。
【0008】
この電子化字幕を、担当の字幕制作責任者、原稿作成者、電子化したオペレータなどの立ち会いのもとで、試写・修正を行って完成字幕としている。
【0009】
【発明が解決しようとする課題】
しかしながら、従来の手動字幕制作システムにおいて字幕原稿作成は、タイムコードを映像に多重して記録した番組テープや台本などを使用して、字幕表示単位とする台詞などの書き起こしと字幕表示イメージ化を行うとともに、画面上のタイムコードを読み取って、その開始・終了タイムコードを記入するが、人間の知能・能力に負うところが大きいものであるため、番組時間の数十倍の時間を必要としている。
【0010】
また、試写・修正は、人手によらざるを得ない作業であり、番組としての最終チェックでもあるので、その重要性からも経験豊富な専門家の高度な能力に負っており、また、多くの人手と番組時間の数倍の時間を必要としている。
【0011】
通常、試写・修正作業は、貴重な複数の人材を、高度の緊張状態かつ長時間拘束(例えば、人数は3人、作業時間は番組時間の2.7倍)するものである。また、試写・修正作業の一般的な例では、先ず字幕番組映像・音声・タイムコードを連続的に再生するとともに、そのタイムコードに対応する表示単位字幕を順次表示し、試写・修正担当者は不具合ありと思われる字幕についてその字幕番号と可能な範囲での不具合の概要をメモにとる(予備試写と仮称する)。次いで、予備試写で作成されたメモの字幕個々について不具合状況を詳細に調べ、その場で直ぐ修正を行うとか、別途一括修正のために不具合の具体的修正事項をメモするとかが行われる。
【0012】
この予備試写で、不具合ありと思われる字幕の字幕番号と不具合の概要をメモにとる作業は、1ページの字幕の表示時間内(3〜6秒)に、不具合に関する7〜10項目のチェックと概要のメモが必要であり、番組の字幕ページ数分(例えば、45分番組で450ページ)繰り返し行われなければならない、かなり過酷な作業である。
【0013】
本発明は上記事情に鑑みて成されたもので、字幕用テキストが予め存在する番組に関しては、特にタイミング付与を高速化した自動字幕制作を行うとともに、試写・修正担当者の試写・修正業務を効果的に支援することで、字幕制作に要する時間を大幅に短縮することができる逐次自動字幕制作システムを提供することを目的としている。
【0014】
【課題を解決するための手段】
上記の目的を達成するために本発明は、請求項1では、入力された音声の少なくともポーズを区切りとする指定区間において、少なくとも文単位でのアナウンス音声の開始、終了のタイミングを高速検出する検出手段と、検出されたタイミングを表示単位字幕文の改ページおよび開始、終了のタイミングの少なくとも一部として適用する字幕への情報付与手段を備え、所定の処理単位毎に前記アナウンス音声の内容とほぼ一致する内容の字幕データを作成する自動字幕制作部と、少なくともテレビ番組の映像、音声およびその字幕データを表示し、番組音声を出力するモニター装置と、前記モニター装置に表示された字幕データについて、キー入力装置から予備試写のキー入力があったときに、少なくともその操作タイミングおよびキー種別に関する情報を記憶装置に記録する字幕修正情報収集装置とから成る試写・修正支援部とを備え、前記自動字幕制作部で実行される字幕の自動制作処理の進行と並行して試写・修正支援部で予備試写を実行して字幕番組制作を逐次処理することを特徴としている。
【0015】
請求項2では、請求項1に記載の逐次自動字幕制作処理システムにおいて、前記検出手段は、ブロック・ケプストラム・フラックス法によって音声のポーズ区間を検出して音声の開始、終了のタイミングを検出することを特徴としている。
【0017】
【発明の実施の形態】
<本発明の原理・背景の説明>
実施の形態の説明に先立って、本発明の原理的な説明をする。
【0018】
現在放送中の字幕番組のなかで、予めアナウンス原稿が作成され、その原稿がほとんど修正されることなく実際の放送字幕となっていると推測される番組がいくつかある。これらの番組では、アナウンス音声と字幕内容はほぼ共通であり、ほぼ共通の原稿をアナウンス用と字幕用の両方に利用していると推測できる。
【0019】
そこで、本発明者らは、このようにアナウンス音声と字幕の内容が極めて類似し、アナウンス用と字幕用の両方に共通の原稿を利用しており、その原稿が電子化されている番組を想定したとき、字幕用テキストを所定の表示形式に従う適切箇所で自動分割した後の表示単位字幕の各々に対し、その分割箇所に対応した高精度のタイミング情報を自動的に付与し、これによって所定の処理単位毎に逐次的に字幕データを自動作成するとともに、さらに必要ならば作成された処理単位毎の字幕データを逐次的に試写・修正処理することで字幕番組制作時間を大幅に短縮する逐次自動字幕制作処理システムを想到するに至った。
【0020】
図2は、本発明の原理を示す説明図である。後述するように、本発明に係る逐次自動字幕制作処理システムの例は自動字幕制作部と、試写・修正支援部とから構成され、例えば番組音声の適切な区切りを字幕制作の処理単位とし、この処理単位毎に自動字幕制作を実行する一方、必要ならば処理単位毎に字幕データの試写・修正処理を実行する。
【0021】
図2(A)は、VTR再生出力、同(B)は自動字幕制作部での処理、同(C)は試写・修正支援部での処理を示している。(B)に示すように、自動字幕制作部では、先ず、所定の処理単位毎に分割された作成処理1を実行する。作成処理1が実行されると、(C)に示すように、試写・修正支援部では、試写・修正処理1を逐次的に実行する。こうして自動字幕作成処理が終了すると直ちに作成された字幕データの試写・修正処理がパイプライン的に実行される。このように、処理単位の時間で自動字幕制作の処理が完了できれば、直ちに次の処理単位の字幕制作処理に進むことができ、また、試写・修正処理も処理単位時間内に実行できるものとすると、結局VTRから連続再生された字幕番組素材に対し、処理単位時間分ずつ遅れながらではあるが、追いかけ自動字幕制作と試写・修正処理が可能であることを意味し、VTRの再生開始から制作時間+処理単位時間×2の時間でここまでの作業を終えることができる。
【0022】
逐次字幕制作処理の要素は、(1)処理単位の時間内にその間の自動字幕制作がすべて完了できる高速処理、(2)適切な字幕処理単位の設定、(3)設定時間内で完了できる適切な試写・修正処理である。
【0023】
(1)高速処理については、現状の自動字幕制作システムでは3倍以上の処理時間を必要としていることから、このままでは無理である。自動字幕制作システムの処理システムの中で同期システムがそのほとんどの時間を要しており、この部分の高速化もしくは別の高速手法の適用が必要である。
【0024】
その手法として、ブロック・ケプストラム・フラックス法に代表される音声レベルなどの特徴を用いるタイミング検出行うことで、高速処理を可能とし、この手法のみでタイミング付与が完了するような番組の場合は、その番組音声時間の数分の一以下の時間で高速処理することが可能となる。
【0025】
(2)適切な字幕制作処理単位の設定については、基本的には表示単位字幕の生成に影響を与えないよう設定する。具体的には、一定時間以上の番組音声の非スピーチ部分で区切るのが適切である。しかし、この方法だけでは、時として区切りが大幅に長くなる欠点がある。この場合の簡便な対策として、経験的に標準的な表示単位字幕の10ページに相当する時間に区切りを設定すると、ほとんど影響がない。
【0026】
(3)として、自動字幕制作部で実行される字幕の自動制作処理の進行と並行して行う試写・修正支援部での適切な予備試写を実行することで、これらの字幕番組制作全体を逐次処理することで字幕番組制作の高速化を実現している。
【0027】
<実施の形態の説明>
図1は本発明に係る逐次自動字幕制作処理システムの構成例を示すブロック図である。
【0028】
なお、以下の説明において、表示対象となる字幕文の全体集合を「字幕文テキスト」と言い、字幕文テキストのうち、字幕として適宜に区切られたひとかたまりの字幕文の部分集合を「単位字幕文」と言い、ディスプレイの表示画面上において表示単位となる字幕を「表示単位字幕」と言い、表示単位字幕に含まれる各行の個々の字幕を表現するとき、これを「表示単位字幕行」と言い、表示単位字幕行のうちの任意の文字を表現するとき、これを「字幕文字」と言うことにする。
【0029】
同図に示すように、この逐次自動字幕番組制作システム101は、自動字幕制作部111と、試写・修正支援部151とを備えている。自動字幕制作部111は、電子化原稿記録媒体113と、同期検出装置115と、統合化装置117と、形態素解析部119と、分割ルール記憶部121と、番組素材VTR例えばディジタル・ビデオ・テープ・レコーダ(以下、「D−VTR」と言う)123と、を含んで構成されている。また、試写・修正支援部151は、記憶装置153と、モニター装置155と、遅延装置157と、キーボード159とを含んで構成されている。
【0030】
《自動字幕制作部111の構成と作用》
電子化原稿記録媒体113は、例えばハードディスク記憶装置やフロッピーディスク装置等より構成され、表示対象となる字幕の全体集合を表す字幕文テキストを記憶している。なお、本実施形態では、ほぼ共通の電子化原稿をアナウンス用と字幕用の双方に利用する形態を想定しているので、電子化原稿記録媒体113に記憶される字幕文テキストの内容は、表示したい字幕と一致するばかりでなく、素材VTRに収録されたアナウンス音声とも一致しているものとする。
【0031】
同期検出装置115は、同期検出点付字幕文と、これを読み上げたアナウンス音声との間における時間同期を検出する機能等を有している。この場合の同期検出点は、通常字幕文テキストの各文の文頭、文末を指定する。さらに詳しく述べると、同期検出装置115には、統合化装置117で付与した同期検出点付字幕文と、番組素材VTRから取り込んだこの字幕文に対応するアナウンス音声及びそのタイムコードが入力されており、このアナウンス音声に含まれるポーズ点の検出と確度検証機能、および検証されなかった指定同期検出点のタイミング情報、すなわちタイムコードを音声認識処理手法で検出する機能があり、これら機能で検出したタイムコードやポーズ区間データを統合化装置117宛に送出する機能を有している。
【0032】
なお、アナウンス音声を対象とした音声認識処理を含むアナウンス音声と字幕文テキスト間の同期検出は、本発明者らがすでに研究開発した技術を適用することで低速ながら高精度に実現可能である。
【0033】
実施形態におけるポーズ時間の検出機能は、前記のような音声認識処理をすることなく、素材VTRから供給される音声のレベルや継続時間、およびそのタイムコードから、例えばそのレベルが指定レベル以下で所定時間連続する開始、終了タイムコードを検出するものであり、後述するブロック・ケプストラム・フラックス法などの方法によって実行される。
【0034】
統合化装置117は、電子化原稿記録媒体113から読み出した字幕文テキストのうち、文頭を起点とした句点や所要文字数範囲などを目安とした単位字幕文を順次抽出する単位字幕文抽出機能と、単位字幕文抽出機能を発揮することで抽出した単位字幕文を、所望の表示形式に従う表示単位字幕に変換する表示単位字幕化機能と、表示単位字幕化機能を発揮することで変換された表示単位字幕に対し、同期検出装置115から送出されてきたタイムコード及びポーズ点を利用し、さらに適切な内挿処理によってタイミング情報を付与するタイミング情報付与機能と、を有している。
【0035】
形態素解析部119は、漢字かな交じり文で表記されている単位字幕文を対象として、形態素毎に分割する分割機能と、分割機能を発揮することで分割された各形態素毎に、表現形、品詞、読み、標準表現などの付加情報を付与する付加情報付与機能と、各形態素を文節や節単位にグループ化し、いくつかの情報素列を得る情報素列取得機能と、を有している。これにより、単位字幕文は、表面素列、記号素列(品詞列)、標準素列、及び情報素列として表現される。
【0036】
分割ルール記憶部121は、単位字幕文を対象とした表示単位字幕化への改行・改頁箇所の最適化を行う際に参照される分割ルールを記憶する機能を有している。
【0037】
D−VTR123は、番組素材が収録されている番組素材VTRテープから、映像、音声、及びそれらのタイムコードを再生出力する機能を有している。
【0038】
次に、自動字幕制作部111において主要な役割を果たす統合化装置117の内部構成について説明していく。
【0039】
統合化装置117は、単位字幕文抽出部133と、表示単位字幕化部135と、タイミング情報付与部137と、を含んで構成されている。
【0040】
単位字幕文抽出部133は、電子化原稿記録媒体113から読み出した、単位字幕文が表示時間順に配列された字幕文テキストのなかから、例えば句点や70〜90字幕文字程度を目安とし、付加した区切り可能箇所情報等を活用するなどして処理単位とするテキスト文を順次抽出する機能を有している。なお、区切り可能箇所情報としては、形態素解析部119で得られた文節データ付き形態素解析データ、及び分割ルール記憶部121に記憶されている分割ルール(改行・改頁データ)を利用することもできる。ここで、上述した分割ルール(改行・改頁データ)について述べると、分割ルール(改行・改頁データ)で定義される改行・改頁推奨箇所は、第1に句点の後ろ、第2に読点の後ろ、第3に文節と文節の間、第4に形態素品詞の間、を含んでおり、分割ルール(改行・改頁データ)を適用するにあたっては、上述した記述順の先頭から優先的に適用するのが好ましい。
【0041】
表示単位字幕化部135は、単位字幕文抽出部133で抽出した単位字幕文、単位字幕文に付加した区切り可能箇所情報、及び同期検出装置115からの情報等に基づいて、単位字幕文抽出部133で抽出した単位字幕文を、所望の表示形式に従う少なくとも1以上の表示単位字幕に変換する表示単位字幕化機能を有しタイミング情報付与部137は、表示単位字幕化部135で変換された表示単位字幕に対し、同期検出装置115から送出されてきた字幕文テキストの各文単位のポーズ情報や同期検出点情報としてのタイムコードを利用し、さらに適切なタイミング内挿手法を用いてタイミング情報を付与するタイミング情報付与機能を有している。
【0042】
次に、本発明に係る逐次自動字幕制作処理システムで実行される字幕へのタイミング情報付与方法の例について、図3乃至図7を参照しつつ説明する。
【0043】
既述したように、アナウンス音声に対応する字幕に関するタイミング情報の同期検出は、本発明者らがすでに研究開発したアナウンス音声を対象とした音声認識処理を含むアナウンス音声と字幕文テキスト間の同期検出技術を適用することで高精度に実現可能であるが、この同期検出処理は前記のようにかなり複雑であり、多くの処理時間を要する。このため、各表示単位字幕の全ての始点/終点を対象として同期検出技術を適用したのでは、同期検出点が過多となることも含め、字幕番組の制作に非常に長い時間を必要とし、逐次処理が不可能である。
【0044】
また、字幕文テキストを字幕表示に適した行数、文字数の各表示単位字幕文に分割する際、アナウンスの長いポーズ(ナレーションの隙間)にまたがる字幕分割は好ましくない。しかし、極めて短いポーズの場合は、むしろ連続した文として扱う方が好ましいので、字幕分割にはアナウンスのポーズ時間を考慮する必要がある。この点に関しては、例えば、ブロック・ケプストラム・フラックス法などを適用して、音声レベルやその継続時間などの特徴を巧みに処理することにより、例えば字幕文テキストへの文単位でのアナウンス音声の開始、終了タイミングやこれに伴う文間ポーズ時間をポーズデータとして検出することが可能である。しかも、これらの処理は、番組音声時間の数分の一以下の時間で高速処理することができる。
【0045】
ただし、この方法は音声にアナウンス音声以外の音声が混じっている場合など、正しいタイミング検出を阻害する要因もあるので、その検出結果を検証し、確度の高いタイミングのみを使用しなければならない。ただし、適切な手法を適用すれば、各字幕文テキストにおける開始、終了のタイミングのかなりの部分は、前記の音声レベルなどを用いて検出した前記のタイミングを適用することができる。そして、表示単位字幕文の開始、終了タイミングにも適用するが、不足なものは、後述する適切なタイミング内挿手法により付与する。なお、音声レベルなどを用いるタイミング検出で必要な結果が得られない部分は、従来の字幕文テキストとアナウンス音声との音声処理技術を活用した照合法を適用する。
【0046】
内挿手法の例は、図3のフローチャートに示すように、表示単位字幕文として字幕文テキストを要約せずにそのまま用いる場合、先ず、音声データからポーズ開始タイミング、継続時間を求める。その適否を検証し選択する(ステップST1)。
【0047】
次に、比較的長いポーズ(例えば2秒以上)で字幕用テキストをブロックに分割し、ブロックテキスト文としてその開始、終了タイミングを付与する(ステップST2、3)。
【0048】
次いで、ブロックテキスト文の継続時間をその総読み数(計算推定)で割り、当該範囲の平均読み速度を求める(ステップST4)。
【0049】
次いで、各ブロックテキスト文を、中の長さのポーズ箇所を改行点とする表示単位字幕文に分割する。この場合、分割ルールを適用する(ステップST5)。
【0050】
次いで、各分割字幕文の文頭、文末に対応するタイミングを、ブロックテキスト文の開始、終了タイミングやポーズのタイミング、平均読み速度を基に計算し、付与する。この場合、文字数、文字種法、または発音数法を適用する(ステップST6)
そして、各表示単位字幕の表示時間をチェックし、必要ならば終了タイミングを修正する(ステップST7)。
【0051】
次に、上述した図3に示す要約処理をしない場合のタイミング情報の付与の処理手順について図4乃至図6に示す具体例を用いて説明する。
【0052】
図4は、音声のポーズ検出によるポーズ情報を活用した、表示単位字幕へのタイミング付与例における字幕用原文テキスト、図5は、図4に示した各字幕用原文テキストのかな数、漢字数、読み、時間、ポーズ、テキストのスタート時間、テキストのストップ時間、次のテキスト文のスタート時間、および読速度をそれぞれ示している。また、図6は図4に示した字幕用原文テキストから作成された表示単位字幕文(/の左側が一行目、/の右側が二行目)とそのタイミング情報を示している。
【0053】
図4のNo.1「今日の舞台は東アフリカケニアの大草原です。」とある字幕原文テキストでは、図5から理解できるように、
かな数は“12”、漢字数は“8”、読み数(yomi)は、“25.02”、読みの時間は“3850mS”、ポーズの時間は、“1010mS”、スタート時間は、49150mS(49.150S)、ストップ時間は、“53000mS(=53.000S)、次のスタート時間は“54010mS(54.010S)”、話速は、15.39mS(=385/25.02)
となる。ここで、“yomi”は、漢字部分(および数字部分)がかなの約1.86倍の読み時間で表わすことができることから、12+7×1.86=25.02と計算したものである。
【0054】
このようにして求められたポーズ情報中の、比較的長いポーズ(例えば2秒以上)で字幕用テキストをブロックに分割し、ブロックテキスト文としてその開始、終了タイミングを付与して作成(図3のステップST1〜ST5の処理で作成)された表示単位字幕文が図6に示されている。図6中、太い実線で囲んだ数字が計算で求められた時間であり、長い処理時間を必要とする可能性のある同期検出点としての指定を大幅に低減できることを示している。また、右端に「ブロック」として示す区切りは、このブロック間に2秒程度以上のポーズがあり、それを根拠として字幕処理単位を設定したものである。つまり字幕用の改行、改頁、タイミング処理がそれぞれの処理単位内で完結させることができる区切りであり、またそのタイミング付与処理などが、そのブロックの時間以内に完了(本発明による高速化で)できるようになれば、自動字幕データ作成はブロック時間経過後には終了し、この部分については直ちに予備試写可能となり、逐次字幕制作・試写手法が適用可能となる。この手法の所要時間は、ほぼ番組時間と同じであり、全字幕データ作成後に試写する場合は2倍以上の時間となるので、大幅に時間短縮を可能とする大きな効果がある。
【0055】
《ブロック・ケプストラム・フラックス法などによる音声のポーズ区間の検出》本発明では、音声のポーズ区間を検出する方法の例として、音声のレベル情報を利用した例えばブロック・ケプストラム・フラックス法などを用いて行った。ブロック・ケプストラム・フラックス法は、音響データ内の複数のLPCケプストラムベクトルを基準フレームから相互に比較することで、音響データ内容の切り替わり点をより安定に検出する手法である。
【0056】
図7は、実際のテレビ番組(ハンドウイルカ)の音声をブロック・ケプストラム・フラックス法を用いて分析した結果を示している。なお、実際には、左右両チャンネルの音声があるが、図7では、右チャンネルの結果のみが示されている。また、図7において、棒グラフは実際に調べた音声(スピーチ)区間を示している。解析波形を適当なレベル(例えば、図7では0.055)でスライスして、上の範囲を音声(スピーチ)区間として比較すると、所定の継続時間以上では棒グラフで示す音声(スピーチ)区間とかなり一致しているのが分かる。一方、“↑”で示す部分がポーズ区間を示しているが、これもかなり一致している。
【0057】
《ポーズ検出法の改良と検出したポーズの検証法》
ポーズの検出法の改良と検出したポーズの検証法として、以下ような手法を適用する。
【0058】
例えば、他の背景音に対する前記のアナウンス音声の主な特徴を活用する、ポーズ検出の方法としては、先ず、入力音声から、帯域制限音声を形成し、次に、指定区間の音声レベルを規準化する(指定区間内の高レベル音声で規準化)。次いで、音声のパワー値を求め、その積分処理を行う(窓関数は、帯域制限と関連)。
【0059】
また、ポーズの検証方法としては、先ず、音声パワーのスレッシュホールドを設定する(ex.最高レベルに対して、1/4,1/9,1/16)。次いで、設定した各スレッシュホールドでのポーズをそれぞれ求める(順にP1,P2,P3)。次に、ポーズの確度をそれぞれ求める。次に、継続時間によるポーズのチェック(一定時間以上の場合有効)をし、また、字幕文テキストの句点、読点とのタイミング相関をチェックする。このチェックでは、一定時間以内の場合有効として取り扱う。
【0060】
このようにして、検出されたポーズに対してポーズの検出法の改良と検出したポーズの検証法を行うことにより、より正確なタイミング付与が可能となる。なお、ポーズ検出法としてより改良された方法もあり、例えば、スピーチ近似データを作成して、それを活用し、スピーチ区間を容易に把握できるようにすることで、スピーチの開始・終了タイミングを把握し、ポーズを検出するものである。次に、図8、図9を参照してこのポーズ検出を説明する。
【0061】
図8は、スピーチ近似データとして音声データ波形51を表示した例である。
【0062】
横軸は、番組の時間経過を示したタイムラインであり、音声を再生するとこの経過時間に応じた位置にカーソルが表示され、かつ時間経過とともに移動するようにしてある。したがって、カーソルの各位置における再生音声と音声波形の対応付けができる。
【0063】
音声における背景音が充分小さい場合とか波形に関する経験状況によっては、この音声波形データからスピーチタイミングをある程度把握することができるが、通常の番組音声では、種々の背景音がありそのレベルも様々であることから、一般的には、この音声波形データからスピーチの開始・終了タイミングを正確に把握することは難しい。
【0064】
ここで、スピーチ成分を強調したスピーチ近似データを利用するとタンミング把握の確度を高めることが可能となる。
【0065】
図9は、音声データを特殊処理したスピーチ近似データを用いた例である。図9において、波形61は音声のcflx解析値(ブロック・ケプストラム・フラックス法による)、波形62は音声power値の特定周波数範囲(例えば4〜7Hz)成分抽出値、波形63は波形62を適当なレベルでスライスし、2値化したデータである。
【0066】
波形63において、高レベル範囲はスピーチ、低レベル範囲は非スピーチ(ポーズ)の区間を表しており、この例ではほとんど実測したタイミングと合致しているが、波形62の方が精度が高い。したがって、波形63から音声中のスピーチの開始・終了タイミングをある程度正確に把握することができる。
【0067】
このように、音声データを特殊処理したスピーチ近似データを、スピーチ区間指定の指針として活用することで、より確度の高いポーズとして利用できる。
【0068】
《試写・修正支援部151の構成と作用》
図1に示すように、試写・修正支援部151は、記憶装置153と、モニター装置155と、遅延装置157と、キーボード159とを含んで構成されている。
【0069】
記憶装置153は、自動字幕制作部111で作成された字幕データを記憶するとともに、モニター装置155上で発見された修正データを記憶する。
【0070】
モニター装置155は、自動字幕制作部111から出力される少なくとも字幕データと遅延装置157から出力される映像、音声とを受けてモニター画面に映像と字幕文を表示し音声を出力する。即ち、モニター装置155では、処理単位時間に相当する遅延装置157を介した映像・音声とともに自動制作した字幕を表示して、逐次の字幕制作と並行して、制作した字幕に対し、実時間で実施可能な範囲の予備試写が行えるようになっている。また、モニター装置155は単なるモニターではなく、キーボード159からの入力、記憶装置153の入出力、簡単な信号処理機能を備えているものである。
【0071】
遅延装置157は、番組素材VTR123からの映像、音声、必要ならばタイムコードを少なくとも上記字幕制作処理単位の時間分遅延させることができ、かつ遅延時間を可変操作できるようになっている。遅延装置157の出力は、モニター装置155に与えられている。
【0072】
ここで、「処理単位」としては、例えば、比較的長い非スピーチ区間(例えば、3秒以上)の存在周期を考慮した、字幕処理の区切りとする字幕制作処理単位時間を設定できる。これにより、番組素材VTR123から連続再生される音声に応答してその処理単位時間毎に逐次字幕データを制作するものである。自動字幕制作部111で生成された字幕データは、モニター装置155に与えられている。
【0073】
この予備試写時の作業を支援し、できるだけ内容の豊富なチェックを実時間で行えるようにするために、モニター装置155は、モニター画面に表示された字幕文について、キーボード159からキー入力があったとき、字幕修正のために操作されたキーの種別とその時の字幕ページ番号もしくはタイムコードとからなる修正データを記憶装置153に記録する処理を行う。
【0074】
また、モニター装置155は、記憶装置153に記録された内容をキーの種別毎にまたはタイミング情報毎に集計し、集計結果をモニター画面に一覧表示可能に記憶装置153に蓄積する。そして、字幕の修正作業時にキーボード159からの指令を受けて一覧データを記憶装置153から読み出しモニター画面に表示する処理の実行する。
【0075】
キーボード159は、各種の修正データを入力するために、図10に示すような、試写・修正処理に必要な機能を割り当てた各種のキーを備えている。
【0076】
<試写・修正部151の作用>
次に、図10〜図14を用いて試写・修正を支援するための、字幕修正情報収集機能等を説明する。なお、図10は、具体的なキーの機能付与例を示す図である。図11は、キー操作の記録ファイルの構成例である。図12は、図11に示す修正押下キー合計情報161の具体例を示す図である。図12は、図11に示す修正押下キー詳細情報163の具体例を示す図である。図13は、修正作業時に一覧表示する記録ファイルの内容例を示す図である。
【0077】
記録内容を説明する。図11に示すように、修正押下キーの内容は、修正押下キー合計情報161と修正押下キー詳細情報163とに分けて記録される。
【0078】
図10において、「↑key」は、字幕位置を上に変更したい場合のキーである。「↓key」は、字幕位置を下に変更したい場合のキーである。「PageDownkey」は、表示タイミングが前にずれていることを示すキーである。「PageUpkey」は、表示タイミングが後ろにずれていることを示すキーである。「Endkey」は、表示タイミングが正常であることを示すキーである。「F1key」は、字幕文の内容が異常であることを示すキーである。
【0079】
したがって、予備試写担当者は、番組映像・音声を参照し、モニター画面に表示された自動制作字幕を見ながら以下のようにキーボードを操作することにより、不具合のある字幕の指定と、その大まかな不具合内容(あるいは修正内容)を指摘し記録することができる。
【0080】
具体的には、(1)字幕の位置を上方に修正したい場合には「↑」のキーを押す。オープン字幕と干渉するのを避ける場合等である。(2)「↑」キーを押し過ぎた場合には「↓」のキーを押す。(3)表示タイミングが、前にずれた箇所では「PageDown」のキーを押す。(4)同じく、後ろにずれた箇所では「PageUp」のキーを押す。(5)OKになった箇所では「End」のキーを押す。(6)字幕文の内容が良くない箇所では「F1」のキーを押す。(7)なお、他にワープロ機能を使用してのメモを付けることもできる。
【0081】
したがって、修正押下キー詳細情報163のファイルは、不具合の指摘である修正Keyの押し下げごとに、図13に示す「修正key押下タイムコード」「修正押下キー名」「字幕文」「開始タイムコード」「終了タイムコード」が記録される。
【0082】
なお、「修正key押下タイムコード」は、先頭から時分秒フレームが各2バイトで示される。「修正押下キー名」には、図10における項目のkey名が示される。「字幕文」には、修正Key押し下げ時にモニターに表示されている字幕文が示される。「開始タイムコード」「終了タイムコード」は、当該字幕データ制作時に付与されたものであり、それぞれ、先頭から時分秒フレームが各2バイトで示される。
【0083】
以上の操作を予備試写担当者が番組の最後まで行うと、記憶装置153には、図11の修正押下キー詳細情報163の情報の外、これらの修正押下キー合計情報161として図12に示す情報が自動的に記録される。
【0084】
予備試写が終了すると、字幕修正時に一覧表示される一覧データが記憶装置153の記録ファイルに蓄積される。その一覧データは、図14に示すように、「修正key合計情報」と「修正key詳細情報」とからなっている。
【0085】
修正押下キー合計情報161のファイルは、図12に示すように、「項目」と「内容説明と合計値」の欄で構成されている。「項目」の欄には、「↑key合計」、「↓key合計」、「PageDownkey合計」、「PageUpkey合計」、「Endkey合計」、「F1key合計」、「その他key合計」がそれぞれ記録される。「内容説明と合計値」の欄には、項目欄の対応するキー名についての内容説明と合計値が記録される。
【0086】
「修正key合計情報」は、例えば“F1key:字幕文内容異常:3”“pageDownkey:表示タイミング前にズレ:1”“↑key:字幕位置を上に変更:0”“↓key:字幕位置を下に変更:0”“pageUpkey:表示タイミング前にズレ:0”“Endkry:表示タイミング正常:0”“その他:0”“修正総合係数:4”となっている。
【0087】
また、「修正key詳細情報」は、“00000005,pageDown,00000008,F1,岐阜県の飛騨地方に、00000001,00000009,直結する安房トンネルが今、00000020,00000029”などとなっている。00000005と00000008は、2桁づつで、時、分、秒、フレームを表している。00000001,00000009と00000020,00000029はタイムコードである。
【0088】
次いで、図14に示すような記録ファイルの内容が、字幕修正時にキーボード21からの指令を受けてモニター画面に表示される。字幕修正作業者は、モニター画面の一覧表示における、「修正key合計情報」から修正内容の全体の様子を掴むことができ、「修正key詳細情報」から個々の字幕文について要修正個所を的確に把握することができる。したがって、試写・修正での字幕修正作業を効果的に支援することができる。
【0089】
【発明の効果】
以上説明したように、本発明では、各字幕作成プロセスを番組時間内で十分完了するように高速化改良を行って、設定した字幕制作処理単位の時間毎に逐次字幕データを制作できるようにした。その結果、逐次字幕制作が可能となり、自動制作作業開始から番組実時間で自動字幕制作が完了し、また番組実時間+最大処理単位時間後には、自動字幕制作と予備試写による修正支援データの取得まで終了することができ、作業者の負担が少なく、かつ作業時間を大幅に低減できる。
【0090】
また、音声認識のみによらず、主に音声レベルなどの特徴を用いて、例えば文単位でのアナウンス音声の開始、終了のタイミングを検出することにより、アナウンサが話していないポーズ区間を検出し、そのタイミングを表示単位字幕文の開始、終了のタイミングの少なくとも一部として適用することによって、音声認識手法への依存度を低減し、タイミング情報の自動付与を高速化することが可能となる。
【図面の簡単な説明】
【図1】本発明に係る逐次自動字幕制作処理システムの実施形態の構成を示すブロック図である。
【図2】本発明に係る逐次自動字幕制作処理システムの原理を示す説明図である。
【図3】要約処理を行わない場合の表示字幕文へのタイミング付与の処理手順を示すフローチャートである。
【図4】要約処理を行わない場合におけるタイミング付与の処理の際の字幕用原文テキストを示す説明図である。
【図5】図4に示した字幕用原文テキストに対する処理結果を示す説明図である。
【図6】図4に示した字幕用原文テキストから作成された表示単位字幕文を示す説明図である。
【図7】ブロック・ケプストラム・フラックス法を用いて音声(スピーチ)区間(見方を変えればポーズ区間)を検出した結果を示す説明図である。
【図8】スピーチ近似データとしての音声データ波形を示す説明図である。
【図9】音声データを特殊処理したスピーチ近似データを示す説明図である。
【図10】具体的なキーの機能付与例を示す図である。
【図11】キー操作の記録ファイルの構成例である。
【図12】図11に示す修正押下キー合計情報の具体例を示す図である。
【図13】図11に示す修正押下キー詳細情報の具体例を示す図である。
【図14】試写・修正時に一覧表示される記録ファイルの内容を示す図である。
【符号の説明】
101 逐次自動字幕制作処理システム
111 自動字幕制作部
113 電子化原稿記録媒体
115 同期検出装置
117 統合化装置
119 形態素解析部
121 分割ルール記憶部
123 ディジタル・ビデオ・テープ・レコーダ(D−VTR)
133 単位字幕文抽出部
135 表示単位字幕化部
137 タイミング情報付与部
151 試写・修正支援部
153 記憶装置
155 モニター装置
157 遅延装置
159 キーボード
Claims (2)
- 入力された音声の少なくともポーズを区切りとする指定区間において、少なくとも文単位でのアナウンス音声の開始、終了のタイミングを高速検出する検出手段と、検出されたタイミングを表示単位字幕文の改ページおよび開始、終了のタイミングの少なくとも一部として適用する字幕への情報付与手段を備え、所定の処理単位毎に前記アナウンス音声の内容とほぼ一致する内容の字幕データを作成する自動字幕制作部と、
少なくともテレビ番組の映像、音声およびその字幕データを表示し、番組音声を出力するモニター装置と、前記モニター装置に表示された字幕データについて、キー入力装置から予備試写のキー入力があったときに、少なくともその操作タイミングおよびキー種別に関する情報を記憶装置に記録する字幕修正情報収集装置とから成る試写・修正支援部とを備え、
前記自動字幕制作部で実行される字幕の自動制作処理の進行と並行して試写・修正支援部で予備試写を実行して字幕番組制作を逐次処理すること、
を特徴とする逐次自動字幕制作処理システム。 - 請求項1に記載の逐次自動字幕制作処理システムにおいて、
前記検出手段は、ブロック・ケプストラム・フラックス法によって音声のポーズ区間を検出して音声の開始、終了のタイミングを検出する、
ことを特徴とする逐次自動字幕制作処理システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002040540A JP3969570B2 (ja) | 2002-02-18 | 2002-02-18 | 逐次自動字幕制作処理システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002040540A JP3969570B2 (ja) | 2002-02-18 | 2002-02-18 | 逐次自動字幕制作処理システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003244539A JP2003244539A (ja) | 2003-08-29 |
JP3969570B2 true JP3969570B2 (ja) | 2007-09-05 |
Family
ID=27781257
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002040540A Expired - Lifetime JP3969570B2 (ja) | 2002-02-18 | 2002-02-18 | 逐次自動字幕制作処理システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3969570B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4552064B2 (ja) * | 2003-10-15 | 2010-09-29 | 独立行政法人情報通信研究機構 | 音声レベル自動補正装置 |
KR102140438B1 (ko) * | 2013-09-10 | 2020-08-04 | 주식회사 청담러닝 | 오디오 컨텐츠 및 텍스트 컨텐츠의 동기화 서비스를 위해 텍스트 데이터를 오디오 데이터에 매핑하는 방법 및 시스템 |
JP6268131B2 (ja) * | 2015-08-20 | 2018-01-24 | 株式会社フェイス | 字幕制作装置および字幕制作方法 |
JP6485977B2 (ja) * | 2017-12-25 | 2019-03-20 | 株式会社フェイス | 字幕制作装置および字幕制作方法 |
JP7216771B2 (ja) * | 2021-06-09 | 2023-02-01 | 西日本電信電話株式会社 | 台本へのメタデータ付与装置、方法、およびプログラム |
-
2002
- 2002-02-18 JP JP2002040540A patent/JP3969570B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2003244539A (ja) | 2003-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4250301B2 (ja) | 映像シーケンスを編集する方法及びシステム | |
US8604327B2 (en) | Apparatus and method for automatic lyric alignment to music playback | |
US8966360B2 (en) | Transcript editor | |
JP5022025B2 (ja) | コンテンツのデータ・ストリームとメタデータを同期するための方法および装置。 | |
JPH11162107A (ja) | デジタルビデオ情報及びオーディオ情報を編集するためのシステム | |
CN110781328A (zh) | 基于语音识别的视频生成方法、系统、装置和存储介质 | |
JP2012181358A (ja) | テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム | |
CN110740275A (zh) | 一种非线性编辑系统 | |
US20140019132A1 (en) | Information processing apparatus, information processing method, display control apparatus, and display control method | |
JP4140745B2 (ja) | 字幕へのタイミング情報付与方法 | |
KR20060089922A (ko) | 음성 인식을 이용한 데이터 추출 장치 및 방법 | |
JP3969570B2 (ja) | 逐次自動字幕制作処理システム | |
JP4210723B2 (ja) | 自動字幕番組制作システム | |
JP4496358B2 (ja) | オープンキャプションに対する字幕表示制御方法 | |
US8538244B2 (en) | Recording/reproduction apparatus and recording/reproduction method | |
JP4538618B2 (ja) | 字幕番組制作システムにおける表示単位字幕文の自動生成方法 | |
JP3944830B2 (ja) | スピーチ近似データによる字幕用データ作成・編集支援システム | |
JP4140744B2 (ja) | 字幕文テキストの自動分割方法 | |
JP2005129971A (ja) | 半自動型字幕番組制作システム | |
JP4124416B2 (ja) | 半自動型字幕番組制作システム | |
JP2003223199A (ja) | 字幕用書き起こしテキストの作成支援システム及び半自動型字幕番組制作システム | |
JP2003046861A (ja) | 字幕番組制作における試写・修正支援システム | |
JP4088669B2 (ja) | タイムライン上に配置した字幕の境界移動による字幕編集支援システム | |
JP2003216200A (ja) | 字幕用書き起こしテキストの作成支援システム及び半自動型字幕番組制作システム | |
JP4500957B2 (ja) | 字幕制作システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20040513 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20040517 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20040903 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20041213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070418 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070515 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070531 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 3969570 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100615 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110615 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120615 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120615 Year of fee payment: 5 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120615 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130615 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |