JP3969570B2

JP3969570B2 - 逐次自動字幕制作処理システム

Info

Publication number: JP3969570B2
Application number: JP2002040540A
Authority: JP
Inventors: 英治沢村; 隆雄門馬; 則好浦谷; 克彦白井
Original assignee: NEC Corp; National Institute of Information and Communications Technology; NHK Engineering Services Inc; Japan Broadcasting Corp
Current assignee: NEC Corp; National Institute of Information and Communications Technology; Japan Broadcasting Corp; NHK Engineering System Inc
Priority date: 2002-02-18
Filing date: 2002-02-18
Publication date: 2007-09-05
Anticipated expiration: 2022-02-18
Also published as: JP2003244539A

Description

【０００１】
【発明の属する技術分野】
本発明は、制作時間の短縮を可能にした逐次自動字幕制作処理システムに関する。
【０００２】
［発明の概要］
本発明は、制作時間の短縮を目的とする逐次自動字幕制作処理システムに関するものである。逐次自動字幕制作処理システムは、例えば番組音声の適切な区切りを検出して字幕制作の処理単位とし、この処理単位毎に字幕制作を実行するものである。この処理単位の時間内に全ての自動字幕制作を完了できるように高速化し、直ちに次の処理単位の字幕制作処理に進めるようにする。結局、ＶＴＲから連続再生された字幕番組素材に対し、処理単位時間分だけ遅れてはいるが、追いかけ自動字幕制作が可能となり、字幕制作時間を大幅に短縮することができるようにしたものである。
【０００３】
【従来の技術】
社会の情報化が著しく進展する中で、聴覚障害者はその機能障害により、情報の入手に多くの制約を受けている状況にある。聴覚障害者が健常者と同様に放送を利用し、楽しむために有効な手段として、現在、一部の番組を対象として字幕放送が実施されているが、聴覚障害者のニーズに照らすと、その実施状況はきわめて不十分である。
【０００４】
ところが、字幕放送は、現時点ではその制作過程の大部分を手作業に依存しているため、番組制作に多大の労力・費用・時間を要し、字幕放送の普及を阻害する要因の一つとなっている。今後、字幕放送の一層の普及を図るためには、字幕データの作成等を効率的に行う字幕番組制作技術の開発などにより番組制作プロセスの合理化・効率化を図ることが不可欠である。
【０００５】
従来の手動字幕制作システムにおける処理手順について説明すると、先ず、字幕作成素材としてタイムコードを映像にスーパーした番組テープとタイムコードを音声チャンネルに記録した番組テープおよび番組台本などを使用する。
【０００６】
これを放送関係経験のあるＯＢなど専門知識のある人に依頼して、番組アナウンスの要約書起こしと字幕表示イメージ化（別途定める字幕原稿作成要領などを参考にする）およびその開始・終了タイムコード記入を行って字幕原稿を作成する。
【０００７】
この字幕原稿をもとに、オペレータが電子化字幕を作成する。
【０００８】
この電子化字幕を、担当の字幕制作責任者、原稿作成者、電子化したオペレータなどの立ち会いのもとで、試写・修正を行って完成字幕としている。
【０００９】
【発明が解決しようとする課題】
しかしながら、従来の手動字幕制作システムにおいて字幕原稿作成は、タイムコードを映像に多重して記録した番組テープや台本などを使用して、字幕表示単位とする台詞などの書き起こしと字幕表示イメージ化を行うとともに、画面上のタイムコードを読み取って、その開始・終了タイムコードを記入するが、人間の知能・能力に負うところが大きいものであるため、番組時間の数十倍の時間を必要としている。
【００１０】
また、試写・修正は、人手によらざるを得ない作業であり、番組としての最終チェックでもあるので、その重要性からも経験豊富な専門家の高度な能力に負っており、また、多くの人手と番組時間の数倍の時間を必要としている。
【００１１】
通常、試写・修正作業は、貴重な複数の人材を、高度の緊張状態かつ長時間拘束（例えば、人数は３人、作業時間は番組時間の２．７倍）するものである。また、試写・修正作業の一般的な例では、先ず字幕番組映像・音声・タイムコードを連続的に再生するとともに、そのタイムコードに対応する表示単位字幕を順次表示し、試写・修正担当者は不具合ありと思われる字幕についてその字幕番号と可能な範囲での不具合の概要をメモにとる（予備試写と仮称する）。次いで、予備試写で作成されたメモの字幕個々について不具合状況を詳細に調べ、その場で直ぐ修正を行うとか、別途一括修正のために不具合の具体的修正事項をメモするとかが行われる。
【００１２】
この予備試写で、不具合ありと思われる字幕の字幕番号と不具合の概要をメモにとる作業は、１ページの字幕の表示時間内（３〜６秒）に、不具合に関する７〜１０項目のチェックと概要のメモが必要であり、番組の字幕ページ数分（例えば、４５分番組で４５０ページ）繰り返し行われなければならない、かなり過酷な作業である。
【００１３】
本発明は上記事情に鑑みて成されたもので、字幕用テキストが予め存在する番組に関しては、特にタイミング付与を高速化した自動字幕制作を行うとともに、試写・修正担当者の試写・修正業務を効果的に支援することで、字幕制作に要する時間を大幅に短縮することができる逐次自動字幕制作システムを提供することを目的としている。
【００１４】
【課題を解決するための手段】
上記の目的を達成するために本発明は、請求項１では、入力された音声の少なくともポーズを区切りとする指定区間において、少なくとも文単位でのアナウンス音声の開始、終了のタイミングを高速検出する検出手段と、検出されたタイミングを表示単位字幕文の改ページおよび開始、終了のタイミングの少なくとも一部として適用する字幕への情報付与手段を備え、所定の処理単位毎に前記アナウンス音声の内容とほぼ一致する内容の字幕データを作成する自動字幕制作部と、少なくともテレビ番組の映像、音声およびその字幕データを表示し、番組音声を出力するモニター装置と、前記モニター装置に表示された字幕データについて、キー入力装置から予備試写のキー入力があったときに、少なくともその操作タイミングおよびキー種別に関する情報を記憶装置に記録する字幕修正情報収集装置とから成る試写・修正支援部とを備え、前記自動字幕制作部で実行される字幕の自動制作処理の進行と並行して試写・修正支援部で予備試写を実行して字幕番組制作を逐次処理することを特徴としている。
【００１５】
請求項２では、請求項１に記載の逐次自動字幕制作処理システムにおいて、前記検出手段は、ブロック・ケプストラム・フラックス法によって音声のポーズ区間を検出して音声の開始、終了のタイミングを検出することを特徴としている。
【００１７】
【発明の実施の形態】
＜本発明の原理・背景の説明＞
実施の形態の説明に先立って、本発明の原理的な説明をする。
【００１８】
現在放送中の字幕番組のなかで、予めアナウンス原稿が作成され、その原稿がほとんど修正されることなく実際の放送字幕となっていると推測される番組がいくつかある。これらの番組では、アナウンス音声と字幕内容はほぼ共通であり、ほぼ共通の原稿をアナウンス用と字幕用の両方に利用していると推測できる。
【００１９】
そこで、本発明者らは、このようにアナウンス音声と字幕の内容が極めて類似し、アナウンス用と字幕用の両方に共通の原稿を利用しており、その原稿が電子化されている番組を想定したとき、字幕用テキストを所定の表示形式に従う適切箇所で自動分割した後の表示単位字幕の各々に対し、その分割箇所に対応した高精度のタイミング情報を自動的に付与し、これによって所定の処理単位毎に逐次的に字幕データを自動作成するとともに、さらに必要ならば作成された処理単位毎の字幕データを逐次的に試写・修正処理することで字幕番組制作時間を大幅に短縮する逐次自動字幕制作処理システムを想到するに至った。
【００２０】
図２は、本発明の原理を示す説明図である。後述するように、本発明に係る逐次自動字幕制作処理システムの例は自動字幕制作部と、試写・修正支援部とから構成され、例えば番組音声の適切な区切りを字幕制作の処理単位とし、この処理単位毎に自動字幕制作を実行する一方、必要ならば処理単位毎に字幕データの試写・修正処理を実行する。
【００２１】
図２（Ａ）は、ＶＴＲ再生出力、同（Ｂ）は自動字幕制作部での処理、同（Ｃ）は試写・修正支援部での処理を示している。（Ｂ）に示すように、自動字幕制作部では、先ず、所定の処理単位毎に分割された作成処理１を実行する。作成処理１が実行されると、（Ｃ）に示すように、試写・修正支援部では、試写・修正処理１を逐次的に実行する。こうして自動字幕作成処理が終了すると直ちに作成された字幕データの試写・修正処理がパイプライン的に実行される。このように、処理単位の時間で自動字幕制作の処理が完了できれば、直ちに次の処理単位の字幕制作処理に進むことができ、また、試写・修正処理も処理単位時間内に実行できるものとすると、結局ＶＴＲから連続再生された字幕番組素材に対し、処理単位時間分ずつ遅れながらではあるが、追いかけ自動字幕制作と試写・修正処理が可能であることを意味し、ＶＴＲの再生開始から制作時間＋処理単位時間×２の時間でここまでの作業を終えることができる。
【００２２】
逐次字幕制作処理の要素は、（１）処理単位の時間内にその間の自動字幕制作がすべて完了できる高速処理、（２）適切な字幕処理単位の設定、（３）設定時間内で完了できる適切な試写・修正処理である。
【００２３】
（１）高速処理については、現状の自動字幕制作システムでは３倍以上の処理時間を必要としていることから、このままでは無理である。自動字幕制作システムの処理システムの中で同期システムがそのほとんどの時間を要しており、この部分の高速化もしくは別の高速手法の適用が必要である。
【００２４】
その手法として、ブロック・ケプストラム・フラックス法に代表される音声レベルなどの特徴を用いるタイミング検出行うことで、高速処理を可能とし、この手法のみでタイミング付与が完了するような番組の場合は、その番組音声時間の数分の一以下の時間で高速処理することが可能となる。
【００２５】
（２）適切な字幕制作処理単位の設定については、基本的には表示単位字幕の生成に影響を与えないよう設定する。具体的には、一定時間以上の番組音声の非スピーチ部分で区切るのが適切である。しかし、この方法だけでは、時として区切りが大幅に長くなる欠点がある。この場合の簡便な対策として、経験的に標準的な表示単位字幕の１０ページに相当する時間に区切りを設定すると、ほとんど影響がない。
【００２６】
（３）として、自動字幕制作部で実行される字幕の自動制作処理の進行と並行して行う試写・修正支援部での適切な予備試写を実行することで、これらの字幕番組制作全体を逐次処理することで字幕番組制作の高速化を実現している。
【００２７】
＜実施の形態の説明＞
図１は本発明に係る逐次自動字幕制作処理システムの構成例を示すブロック図である。
【００２８】
なお、以下の説明において、表示対象となる字幕文の全体集合を「字幕文テキスト」と言い、字幕文テキストのうち、字幕として適宜に区切られたひとかたまりの字幕文の部分集合を「単位字幕文」と言い、ディスプレイの表示画面上において表示単位となる字幕を「表示単位字幕」と言い、表示単位字幕に含まれる各行の個々の字幕を表現するとき、これを「表示単位字幕行」と言い、表示単位字幕行のうちの任意の文字を表現するとき、これを「字幕文字」と言うことにする。
【００２９】
同図に示すように、この逐次自動字幕番組制作システム１０１は、自動字幕制作部１１１と、試写・修正支援部１５１とを備えている。自動字幕制作部１１１は、電子化原稿記録媒体１１３と、同期検出装置１１５と、統合化装置１１７と、形態素解析部１１９と、分割ルール記憶部１２１と、番組素材ＶＴＲ例えばディジタル・ビデオ・テープ・レコーダ（以下、「Ｄ−ＶＴＲ」と言う）１２３と、を含んで構成されている。また、試写・修正支援部１５１は、記憶装置１５３と、モニター装置１５５と、遅延装置１５７と、キーボード１５９とを含んで構成されている。
【００３０】
《自動字幕制作部１１１の構成と作用》
電子化原稿記録媒体１１３は、例えばハードディスク記憶装置やフロッピーディスク装置等より構成され、表示対象となる字幕の全体集合を表す字幕文テキストを記憶している。なお、本実施形態では、ほぼ共通の電子化原稿をアナウンス用と字幕用の双方に利用する形態を想定しているので、電子化原稿記録媒体１１３に記憶される字幕文テキストの内容は、表示したい字幕と一致するばかりでなく、素材ＶＴＲに収録されたアナウンス音声とも一致しているものとする。
【００３１】
同期検出装置１１５は、同期検出点付字幕文と、これを読み上げたアナウンス音声との間における時間同期を検出する機能等を有している。この場合の同期検出点は、通常字幕文テキストの各文の文頭、文末を指定する。さらに詳しく述べると、同期検出装置１１５には、統合化装置１１７で付与した同期検出点付字幕文と、番組素材ＶＴＲから取り込んだこの字幕文に対応するアナウンス音声及びそのタイムコードが入力されており、このアナウンス音声に含まれるポーズ点の検出と確度検証機能、および検証されなかった指定同期検出点のタイミング情報、すなわちタイムコードを音声認識処理手法で検出する機能があり、これら機能で検出したタイムコードやポーズ区間データを統合化装置１１７宛に送出する機能を有している。
【００３２】
なお、アナウンス音声を対象とした音声認識処理を含むアナウンス音声と字幕文テキスト間の同期検出は、本発明者らがすでに研究開発した技術を適用することで低速ながら高精度に実現可能である。
【００３３】
実施形態におけるポーズ時間の検出機能は、前記のような音声認識処理をすることなく、素材ＶＴＲから供給される音声のレベルや継続時間、およびそのタイムコードから、例えばそのレベルが指定レベル以下で所定時間連続する開始、終了タイムコードを検出するものであり、後述するブロック・ケプストラム・フラックス法などの方法によって実行される。
【００３４】
統合化装置１１７は、電子化原稿記録媒体１１３から読み出した字幕文テキストのうち、文頭を起点とした句点や所要文字数範囲などを目安とした単位字幕文を順次抽出する単位字幕文抽出機能と、単位字幕文抽出機能を発揮することで抽出した単位字幕文を、所望の表示形式に従う表示単位字幕に変換する表示単位字幕化機能と、表示単位字幕化機能を発揮することで変換された表示単位字幕に対し、同期検出装置１１５から送出されてきたタイムコード及びポーズ点を利用し、さらに適切な内挿処理によってタイミング情報を付与するタイミング情報付与機能と、を有している。
【００３５】
形態素解析部１１９は、漢字かな交じり文で表記されている単位字幕文を対象として、形態素毎に分割する分割機能と、分割機能を発揮することで分割された各形態素毎に、表現形、品詞、読み、標準表現などの付加情報を付与する付加情報付与機能と、各形態素を文節や節単位にグループ化し、いくつかの情報素列を得る情報素列取得機能と、を有している。これにより、単位字幕文は、表面素列、記号素列（品詞列）、標準素列、及び情報素列として表現される。
【００３６】
分割ルール記憶部１２１は、単位字幕文を対象とした表示単位字幕化への改行・改頁箇所の最適化を行う際に参照される分割ルールを記憶する機能を有している。
【００３７】
Ｄ−ＶＴＲ１２３は、番組素材が収録されている番組素材ＶＴＲテープから、映像、音声、及びそれらのタイムコードを再生出力する機能を有している。
【００３８】
次に、自動字幕制作部１１１において主要な役割を果たす統合化装置１１７の内部構成について説明していく。
【００３９】
統合化装置１１７は、単位字幕文抽出部１３３と、表示単位字幕化部１３５と、タイミング情報付与部１３７と、を含んで構成されている。
【００４０】
単位字幕文抽出部１３３は、電子化原稿記録媒体１１３から読み出した、単位字幕文が表示時間順に配列された字幕文テキストのなかから、例えば句点や７０〜９０字幕文字程度を目安とし、付加した区切り可能箇所情報等を活用するなどして処理単位とするテキスト文を順次抽出する機能を有している。なお、区切り可能箇所情報としては、形態素解析部１１９で得られた文節データ付き形態素解析データ、及び分割ルール記憶部１２１に記憶されている分割ルール（改行・改頁データ）を利用することもできる。ここで、上述した分割ルール（改行・改頁データ）について述べると、分割ルール（改行・改頁データ）で定義される改行・改頁推奨箇所は、第１に句点の後ろ、第２に読点の後ろ、第３に文節と文節の間、第４に形態素品詞の間、を含んでおり、分割ルール（改行・改頁データ）を適用するにあたっては、上述した記述順の先頭から優先的に適用するのが好ましい。
【００４１】
表示単位字幕化部１３５は、単位字幕文抽出部１３３で抽出した単位字幕文、単位字幕文に付加した区切り可能箇所情報、及び同期検出装置１１５からの情報等に基づいて、単位字幕文抽出部１３３で抽出した単位字幕文を、所望の表示形式に従う少なくとも１以上の表示単位字幕に変換する表示単位字幕化機能を有しタイミング情報付与部１３７は、表示単位字幕化部１３５で変換された表示単位字幕に対し、同期検出装置１１５から送出されてきた字幕文テキストの各文単位のポーズ情報や同期検出点情報としてのタイムコードを利用し、さらに適切なタイミング内挿手法を用いてタイミング情報を付与するタイミング情報付与機能を有している。
【００４２】
次に、本発明に係る逐次自動字幕制作処理システムで実行される字幕へのタイミング情報付与方法の例について、図３乃至図７を参照しつつ説明する。
【００４３】
既述したように、アナウンス音声に対応する字幕に関するタイミング情報の同期検出は、本発明者らがすでに研究開発したアナウンス音声を対象とした音声認識処理を含むアナウンス音声と字幕文テキスト間の同期検出技術を適用することで高精度に実現可能であるが、この同期検出処理は前記のようにかなり複雑であり、多くの処理時間を要する。このため、各表示単位字幕の全ての始点／終点を対象として同期検出技術を適用したのでは、同期検出点が過多となることも含め、字幕番組の制作に非常に長い時間を必要とし、逐次処理が不可能である。
【００４４】
また、字幕文テキストを字幕表示に適した行数、文字数の各表示単位字幕文に分割する際、アナウンスの長いポーズ（ナレーションの隙間）にまたがる字幕分割は好ましくない。しかし、極めて短いポーズの場合は、むしろ連続した文として扱う方が好ましいので、字幕分割にはアナウンスのポーズ時間を考慮する必要がある。この点に関しては、例えば、ブロック・ケプストラム・フラックス法などを適用して、音声レベルやその継続時間などの特徴を巧みに処理することにより、例えば字幕文テキストへの文単位でのアナウンス音声の開始、終了タイミングやこれに伴う文間ポーズ時間をポーズデータとして検出することが可能である。しかも、これらの処理は、番組音声時間の数分の一以下の時間で高速処理することができる。
【００４５】
ただし、この方法は音声にアナウンス音声以外の音声が混じっている場合など、正しいタイミング検出を阻害する要因もあるので、その検出結果を検証し、確度の高いタイミングのみを使用しなければならない。ただし、適切な手法を適用すれば、各字幕文テキストにおける開始、終了のタイミングのかなりの部分は、前記の音声レベルなどを用いて検出した前記のタイミングを適用することができる。そして、表示単位字幕文の開始、終了タイミングにも適用するが、不足なものは、後述する適切なタイミング内挿手法により付与する。なお、音声レベルなどを用いるタイミング検出で必要な結果が得られない部分は、従来の字幕文テキストとアナウンス音声との音声処理技術を活用した照合法を適用する。
【００４６】
内挿手法の例は、図３のフローチャートに示すように、表示単位字幕文として字幕文テキストを要約せずにそのまま用いる場合、先ず、音声データからポーズ開始タイミング、継続時間を求める。その適否を検証し選択する（ステップＳＴ１）。
【００４７】
次に、比較的長いポーズ（例えば２秒以上）で字幕用テキストをブロックに分割し、ブロックテキスト文としてその開始、終了タイミングを付与する（ステップＳＴ２、３）。
【００４８】
次いで、ブロックテキスト文の継続時間をその総読み数（計算推定）で割り、当該範囲の平均読み速度を求める（ステップＳＴ４）。
【００４９】
次いで、各ブロックテキスト文を、中の長さのポーズ箇所を改行点とする表示単位字幕文に分割する。この場合、分割ルールを適用する（ステップＳＴ５）。
【００５０】
次いで、各分割字幕文の文頭、文末に対応するタイミングを、ブロックテキスト文の開始、終了タイミングやポーズのタイミング、平均読み速度を基に計算し、付与する。この場合、文字数、文字種法、または発音数法を適用する（ステップＳＴ６）
そして、各表示単位字幕の表示時間をチェックし、必要ならば終了タイミングを修正する（ステップＳＴ７）。
【００５１】
次に、上述した図３に示す要約処理をしない場合のタイミング情報の付与の処理手順について図４乃至図６に示す具体例を用いて説明する。
【００５２】
図４は、音声のポーズ検出によるポーズ情報を活用した、表示単位字幕へのタイミング付与例における字幕用原文テキスト、図５は、図４に示した各字幕用原文テキストのかな数、漢字数、読み、時間、ポーズ、テキストのスタート時間、テキストのストップ時間、次のテキスト文のスタート時間、および読速度をそれぞれ示している。また、図６は図４に示した字幕用原文テキストから作成された表示単位字幕文（／の左側が一行目、／の右側が二行目）とそのタイミング情報を示している。
【００５３】
図４のNo.１「今日の舞台は東アフリカケニアの大草原です。」とある字幕原文テキストでは、図５から理解できるように、
かな数は“１２”、漢字数は“８”、読み数（ｙｏｍｉ）は、“２５．０２”、読みの時間は“３８５０ｍＳ”、ポーズの時間は、“１０１０ｍＳ”、スタート時間は、４９１５０ｍＳ（４９．１５０Ｓ）、ストップ時間は、“５３０００ｍＳ（＝５３．０００Ｓ）、次のスタート時間は“５４０１０ｍＳ（５４．０１０Ｓ）”、話速は、１５．３９ｍＳ（＝３８５／２５．０２）
となる。ここで、“ｙｏｍｉ”は、漢字部分（および数字部分）がかなの約１．８６倍の読み時間で表わすことができることから、１２＋７×１．８６＝２５．０２と計算したものである。
【００５４】
このようにして求められたポーズ情報中の、比較的長いポーズ（例えば２秒以上）で字幕用テキストをブロックに分割し、ブロックテキスト文としてその開始、終了タイミングを付与して作成（図３のステップＳＴ１〜ＳＴ５の処理で作成）された表示単位字幕文が図６に示されている。図６中、太い実線で囲んだ数字が計算で求められた時間であり、長い処理時間を必要とする可能性のある同期検出点としての指定を大幅に低減できることを示している。また、右端に「ブロック」として示す区切りは、このブロック間に２秒程度以上のポーズがあり、それを根拠として字幕処理単位を設定したものである。つまり字幕用の改行、改頁、タイミング処理がそれぞれの処理単位内で完結させることができる区切りであり、またそのタイミング付与処理などが、そのブロックの時間以内に完了（本発明による高速化で）できるようになれば、自動字幕データ作成はブロック時間経過後には終了し、この部分については直ちに予備試写可能となり、逐次字幕制作・試写手法が適用可能となる。この手法の所要時間は、ほぼ番組時間と同じであり、全字幕データ作成後に試写する場合は２倍以上の時間となるので、大幅に時間短縮を可能とする大きな効果がある。
【００５５】
《ブロック・ケプストラム・フラックス法などによる音声のポーズ区間の検出》本発明では、音声のポーズ区間を検出する方法の例として、音声のレベル情報を利用した例えばブロック・ケプストラム・フラックス法などを用いて行った。ブロック・ケプストラム・フラックス法は、音響データ内の複数のＬＰＣケプストラムベクトルを基準フレームから相互に比較することで、音響データ内容の切り替わり点をより安定に検出する手法である。
【００５６】
図７は、実際のテレビ番組（ハンドウイルカ）の音声をブロック・ケプストラム・フラックス法を用いて分析した結果を示している。なお、実際には、左右両チャンネルの音声があるが、図７では、右チャンネルの結果のみが示されている。また、図７において、棒グラフは実際に調べた音声（スピーチ）区間を示している。解析波形を適当なレベル（例えば、図７では０．０５５）でスライスして、上の範囲を音声（スピーチ）区間として比較すると、所定の継続時間以上では棒グラフで示す音声（スピーチ）区間とかなり一致しているのが分かる。一方、“↑”で示す部分がポーズ区間を示しているが、これもかなり一致している。
【００５７】
《ポーズ検出法の改良と検出したポーズの検証法》
ポーズの検出法の改良と検出したポーズの検証法として、以下ような手法を適用する。
【００５８】
例えば、他の背景音に対する前記のアナウンス音声の主な特徴を活用する、ポーズ検出の方法としては、先ず、入力音声から、帯域制限音声を形成し、次に、指定区間の音声レベルを規準化する（指定区間内の高レベル音声で規準化）。次いで、音声のパワー値を求め、その積分処理を行う（窓関数は、帯域制限と関連）。
【００５９】
また、ポーズの検証方法としては、先ず、音声パワーのスレッシュホールドを設定する（ｅｘ．最高レベルに対して、１／４，１／９，１／１６）。次いで、設定した各スレッシュホールドでのポーズをそれぞれ求める（順にＰ１，Ｐ２，Ｐ３）。次に、ポーズの確度をそれぞれ求める。次に、継続時間によるポーズのチェック（一定時間以上の場合有効）をし、また、字幕文テキストの句点、読点とのタイミング相関をチェックする。このチェックでは、一定時間以内の場合有効として取り扱う。
【００６０】
このようにして、検出されたポーズに対してポーズの検出法の改良と検出したポーズの検証法を行うことにより、より正確なタイミング付与が可能となる。なお、ポーズ検出法としてより改良された方法もあり、例えば、スピーチ近似データを作成して、それを活用し、スピーチ区間を容易に把握できるようにすることで、スピーチの開始・終了タイミングを把握し、ポーズを検出するものである。次に、図８、図９を参照してこのポーズ検出を説明する。
【００６１】
図８は、スピーチ近似データとして音声データ波形５１を表示した例である。
【００６２】
横軸は、番組の時間経過を示したタイムラインであり、音声を再生するとこの経過時間に応じた位置にカーソルが表示され、かつ時間経過とともに移動するようにしてある。したがって、カーソルの各位置における再生音声と音声波形の対応付けができる。
【００６３】
音声における背景音が充分小さい場合とか波形に関する経験状況によっては、この音声波形データからスピーチタイミングをある程度把握することができるが、通常の番組音声では、種々の背景音がありそのレベルも様々であることから、一般的には、この音声波形データからスピーチの開始・終了タイミングを正確に把握することは難しい。
【００６４】
ここで、スピーチ成分を強調したスピーチ近似データを利用するとタンミング把握の確度を高めることが可能となる。
【００６５】
図９は、音声データを特殊処理したスピーチ近似データを用いた例である。図９において、波形６１は音声のcflx解析値（ブロック・ケプストラム・フラックス法による）、波形６２は音声power値の特定周波数範囲（例えば４〜７Hz）成分抽出値、波形６３は波形６２を適当なレベルでスライスし、２値化したデータである。
【００６６】
波形６３において、高レベル範囲はスピーチ、低レベル範囲は非スピーチ（ポーズ）の区間を表しており、この例ではほとんど実測したタイミングと合致しているが、波形６２の方が精度が高い。したがって、波形６３から音声中のスピーチの開始・終了タイミングをある程度正確に把握することができる。
【００６７】
このように、音声データを特殊処理したスピーチ近似データを、スピーチ区間指定の指針として活用することで、より確度の高いポーズとして利用できる。
【００６８】
《試写・修正支援部１５１の構成と作用》
図１に示すように、試写・修正支援部１５１は、記憶装置１５３と、モニター装置１５５と、遅延装置１５７と、キーボード１５９とを含んで構成されている。
【００６９】
記憶装置１５３は、自動字幕制作部１１１で作成された字幕データを記憶するとともに、モニター装置１５５上で発見された修正データを記憶する。
【００７０】
モニター装置１５５は、自動字幕制作部１１１から出力される少なくとも字幕データと遅延装置１５７から出力される映像、音声とを受けてモニター画面に映像と字幕文を表示し音声を出力する。即ち、モニター装置１５５では、処理単位時間に相当する遅延装置１５７を介した映像・音声とともに自動制作した字幕を表示して、逐次の字幕制作と並行して、制作した字幕に対し、実時間で実施可能な範囲の予備試写が行えるようになっている。また、モニター装置１５５は単なるモニターではなく、キーボード１５９からの入力、記憶装置１５３の入出力、簡単な信号処理機能を備えているものである。
【００７１】
遅延装置１５７は、番組素材ＶＴＲ１２３からの映像、音声、必要ならばタイムコードを少なくとも上記字幕制作処理単位の時間分遅延させることができ、かつ遅延時間を可変操作できるようになっている。遅延装置１５７の出力は、モニター装置１５５に与えられている。
【００７２】
ここで、「処理単位」としては、例えば、比較的長い非スピーチ区間（例えば、３秒以上）の存在周期を考慮した、字幕処理の区切りとする字幕制作処理単位時間を設定できる。これにより、番組素材ＶＴＲ１２３から連続再生される音声に応答してその処理単位時間毎に逐次字幕データを制作するものである。自動字幕制作部１１１で生成された字幕データは、モニター装置１５５に与えられている。
【００７３】
この予備試写時の作業を支援し、できるだけ内容の豊富なチェックを実時間で行えるようにするために、モニター装置１５５は、モニター画面に表示された字幕文について、キーボード１５９からキー入力があったとき、字幕修正のために操作されたキーの種別とその時の字幕ページ番号もしくはタイムコードとからなる修正データを記憶装置１５３に記録する処理を行う。
【００７４】
また、モニター装置１５５は、記憶装置１５３に記録された内容をキーの種別毎にまたはタイミング情報毎に集計し、集計結果をモニター画面に一覧表示可能に記憶装置１５３に蓄積する。そして、字幕の修正作業時にキーボード１５９からの指令を受けて一覧データを記憶装置１５３から読み出しモニター画面に表示する処理の実行する。
【００７５】
キーボード１５９は、各種の修正データを入力するために、図１０に示すような、試写・修正処理に必要な機能を割り当てた各種のキーを備えている。
【００７６】
＜試写・修正部１５１の作用＞
次に、図１０〜図１４を用いて試写・修正を支援するための、字幕修正情報収集機能等を説明する。なお、図１０は、具体的なキーの機能付与例を示す図である。図１１は、キー操作の記録ファイルの構成例である。図１２は、図１１に示す修正押下キー合計情報１６１の具体例を示す図である。図１２は、図１１に示す修正押下キー詳細情報１６３の具体例を示す図である。図１３は、修正作業時に一覧表示する記録ファイルの内容例を示す図である。
【００７７】
記録内容を説明する。図１１に示すように、修正押下キーの内容は、修正押下キー合計情報１６１と修正押下キー詳細情報１６３とに分けて記録される。
【００７８】
図１０において、「↑key」は、字幕位置を上に変更したい場合のキーである。「↓key」は、字幕位置を下に変更したい場合のキーである。「PageDownkey」は、表示タイミングが前にずれていることを示すキーである。「PageUpkey」は、表示タイミングが後ろにずれていることを示すキーである。「Endkey」は、表示タイミングが正常であることを示すキーである。「F1key」は、字幕文の内容が異常であることを示すキーである。
【００７９】
したがって、予備試写担当者は、番組映像・音声を参照し、モニター画面に表示された自動制作字幕を見ながら以下のようにキーボードを操作することにより、不具合のある字幕の指定と、その大まかな不具合内容（あるいは修正内容）を指摘し記録することができる。
【００８０】
具体的には、（１）字幕の位置を上方に修正したい場合には「↑」のキーを押す。オープン字幕と干渉するのを避ける場合等である。（２）「↑」キーを押し過ぎた場合には「↓」のキーを押す。（３）表示タイミングが、前にずれた箇所では「PageDown」のキーを押す。（４）同じく、後ろにずれた箇所では「PageUp」のキーを押す。（５）ＯＫになった箇所では「End」のキーを押す。（６）字幕文の内容が良くない箇所では「Ｆ１」のキーを押す。（７）なお、他にワープロ機能を使用してのメモを付けることもできる。
【００８１】
したがって、修正押下キー詳細情報１６３のファイルは、不具合の指摘である修正Keyの押し下げごとに、図１３に示す「修正key押下タイムコード」「修正押下キー名」「字幕文」「開始タイムコード」「終了タイムコード」が記録される。
【００８２】
なお、「修正key押下タイムコード」は、先頭から時分秒フレームが各２バイトで示される。「修正押下キー名」には、図１０における項目のkey名が示される。「字幕文」には、修正Key押し下げ時にモニターに表示されている字幕文が示される。「開始タイムコード」「終了タイムコード」は、当該字幕データ制作時に付与されたものであり、それぞれ、先頭から時分秒フレームが各２バイトで示される。
【００８３】
以上の操作を予備試写担当者が番組の最後まで行うと、記憶装置１５３には、図１１の修正押下キー詳細情報１６３の情報の外、これらの修正押下キー合計情報１６１として図１２に示す情報が自動的に記録される。
【００８４】
予備試写が終了すると、字幕修正時に一覧表示される一覧データが記憶装置１５３の記録ファイルに蓄積される。その一覧データは、図１４に示すように、「修正key合計情報」と「修正key詳細情報」とからなっている。
【００８５】
修正押下キー合計情報１６１のファイルは、図１２に示すように、「項目」と「内容説明と合計値」の欄で構成されている。「項目」の欄には、「↑key合計」、「↓key合計」、「PageDownkey合計」、「PageUpkey合計」、「Endkey合計」、「F1key合計」、「その他key合計」がそれぞれ記録される。「内容説明と合計値」の欄には、項目欄の対応するキー名についての内容説明と合計値が記録される。
【００８６】
「修正key合計情報」は、例えば“F1key：字幕文内容異常：３”“pageDownkey：表示タイミング前にズレ：１”“↑key：字幕位置を上に変更：０”“↓key：字幕位置を下に変更：０”“pageUpkey：表示タイミング前にズレ：０”“Endkry：表示タイミング正常：０”“その他：０”“修正総合係数：４”となっている。
【００８７】
また、「修正key詳細情報」は、“00000005,pageDown,00000008,F1,岐阜県の飛騨地方に、00000001,00000009,直結する安房トンネルが今、00000020,00000029”などとなっている。00000005と00000008は、２桁づつで、時、分、秒、フレームを表している。00000001,00000009と00000020,00000029はタイムコードである。
【００８８】
次いで、図１４に示すような記録ファイルの内容が、字幕修正時にキーボード２１からの指令を受けてモニター画面に表示される。字幕修正作業者は、モニター画面の一覧表示における、「修正key合計情報」から修正内容の全体の様子を掴むことができ、「修正key詳細情報」から個々の字幕文について要修正個所を的確に把握することができる。したがって、試写・修正での字幕修正作業を効果的に支援することができる。
【００８９】
【発明の効果】
以上説明したように、本発明では、各字幕作成プロセスを番組時間内で十分完了するように高速化改良を行って、設定した字幕制作処理単位の時間毎に逐次字幕データを制作できるようにした。その結果、逐次字幕制作が可能となり、自動制作作業開始から番組実時間で自動字幕制作が完了し、また番組実時間＋最大処理単位時間後には、自動字幕制作と予備試写による修正支援データの取得まで終了することができ、作業者の負担が少なく、かつ作業時間を大幅に低減できる。
【００９０】
また、音声認識のみによらず、主に音声レベルなどの特徴を用いて、例えば文単位でのアナウンス音声の開始、終了のタイミングを検出することにより、アナウンサが話していないポーズ区間を検出し、そのタイミングを表示単位字幕文の開始、終了のタイミングの少なくとも一部として適用することによって、音声認識手法への依存度を低減し、タイミング情報の自動付与を高速化することが可能となる。
【図面の簡単な説明】
【図１】本発明に係る逐次自動字幕制作処理システムの実施形態の構成を示すブロック図である。
【図２】本発明に係る逐次自動字幕制作処理システムの原理を示す説明図である。
【図３】要約処理を行わない場合の表示字幕文へのタイミング付与の処理手順を示すフローチャートである。
【図４】要約処理を行わない場合におけるタイミング付与の処理の際の字幕用原文テキストを示す説明図である。
【図５】図４に示した字幕用原文テキストに対する処理結果を示す説明図である。
【図６】図４に示した字幕用原文テキストから作成された表示単位字幕文を示す説明図である。
【図７】ブロック・ケプストラム・フラックス法を用いて音声（スピーチ）区間（見方を変えればポーズ区間）を検出した結果を示す説明図である。
【図８】スピーチ近似データとしての音声データ波形を示す説明図である。
【図９】音声データを特殊処理したスピーチ近似データを示す説明図である。
【図１０】具体的なキーの機能付与例を示す図である。
【図１１】キー操作の記録ファイルの構成例である。
【図１２】図１１に示す修正押下キー合計情報の具体例を示す図である。
【図１３】図１１に示す修正押下キー詳細情報の具体例を示す図である。
【図１４】試写・修正時に一覧表示される記録ファイルの内容を示す図である。
【符号の説明】
１０１逐次自動字幕制作処理システム
１１１自動字幕制作部
１１３電子化原稿記録媒体
１１５同期検出装置
１１７統合化装置
１１９形態素解析部
１２１分割ルール記憶部
１２３ディジタル・ビデオ・テープ・レコーダ（Ｄ−ＶＴＲ）
１３３単位字幕文抽出部
１３５表示単位字幕化部
１３７タイミング情報付与部
１５１試写・修正支援部
１５３記憶装置
１５５モニター装置
１５７遅延装置
１５９キーボード

Claims

入力された音声の少なくともポーズを区切りとする指定区間において、少なくとも文単位でのアナウンス音声の開始、終了のタイミングを高速検出する検出手段と、検出されたタイミングを表示単位字幕文の改ページおよび開始、終了のタイミングの少なくとも一部として適用する字幕への情報付与手段を備え、所定の処理単位毎に前記アナウンス音声の内容とほぼ一致する内容の字幕データを作成する自動字幕制作部と、
少なくともテレビ番組の映像、音声およびその字幕データを表示し、番組音声を出力するモニター装置と、前記モニター装置に表示された字幕データについて、キー入力装置から予備試写のキー入力があったときに、少なくともその操作タイミングおよびキー種別に関する情報を記憶装置に記録する字幕修正情報収集装置とから成る試写・修正支援部とを備え、
前記自動字幕制作部で実行される字幕の自動制作処理の進行と並行して試写・修正支援部で予備試写を実行して字幕番組制作を逐次処理すること、
を特徴とする逐次自動字幕制作処理システム。
請求項１に記載の逐次自動字幕制作処理システムにおいて、
前記検出手段は、ブロック・ケプストラム・フラックス法によって音声のポーズ区間を検出して音声の開始、終了のタイミングを検出する、
ことを特徴とする逐次自動字幕制作処理システム。