JP4140744B2

JP4140744B2 - 字幕文テキストの自動分割方法

Info

Publication number: JP4140744B2
Application number: JP12759199A
Authority: JP
Inventors: 英治沢村; 隆雄門馬; 孝博福島; 一郎丸山; 暉将江原; 克彦白井
Original assignee: Mitsubishi Electric Corp; NEC Corp; National Institute of Information and Communications Technology; NHK Engineering Services Inc; Japan Broadcasting Corp
Current assignee: Mitsubishi Electric Corp; NEC Corp; National Institute of Information and Communications Technology; Japan Broadcasting Corp; NHK Engineering System Inc
Priority date: 1999-05-07
Filing date: 1999-05-07
Publication date: 2008-08-27
Anticipated expiration: 2019-05-07
Also published as: JP2000324394A

Description

【０００１】
【発明の属する技術分野】
本発明は、ほぼ共通の電子化原稿をアナウンス用と字幕用の双方に利用する形態を想定して字幕番組を制作する字幕番組制作システムに適用される字幕文テキストの分割方法に係り、特に、本発明で提案するアナウンス音声と字幕文テキスト間の同期検出技術、及び日本語の特徴解析手法を用いたテキスト分割技術等を適用することにより、字幕の基となる字幕文テキストを、所定の字幕提示形式に従う提示単位字幕へ自動的に分割し得る字幕文テキストの自動分割方法に関する。
【０００２】
【従来の技術】
現代は高度情報化社会と一般に言われているが、聴覚障害者は健常者と比較して情報の入手が困難な状況下におかれている。
【０００３】
すなわち、例えば、情報メディアとして広く普及しているＴＶ放送番組を例示して、日本国内の全ＴＶ放送番組に対する字幕番組の割合に言及すると、欧米では３３〜７０％に達しているのに対し、わずか１０％程度ときわめて低くおかれているのが現状である。
【０００４】
【発明が解決しようとする課題】
さて、日本国内の全ＴＶ放送番組に対する字幕番組の割合が欧米と比較して低くおかれている要因としては、主として字幕番組制作技術の未整備を挙げることができる。具体的には、日本語特有の問題も有り、字幕番組制作工程のほとんどが手作業によっており、多大な労力・時間・費用を要するためである。
【０００５】
そこで、本発明者らは、字幕番組制作技術の整備を妨げている原因究明を企図して、現行の字幕番組制作の実体調査を行った。
【０００６】
図８の左側には、現在一般に行われている字幕番組制作フローを示してある。ステップＳ１０１において、字幕番組制作者は、タイムコードを映像にスーパーした番組データと、タイムコードを音声チャンネルに記録した番組テープと、番組台本との３つの字幕原稿作成素材を放送局から受け取る。なお、図中において「タイムコード」を「ＴＣ」と略記する場合があることを付言しておく。
【０００７】
ステップＳ１０３において、放送関係経験者等の専門家は、ステップＳ１０１で受け取った字幕原稿作成素材を基に、（１）番組アナウンスの要約書き起こし、（２）別途規定された字幕提示の基準となる原稿作成要領に従う字幕提示イメージ化、（３）その開始・終了タイムコード記入、の各作業を順次行ない、字幕原稿を作成する。
【０００８】
ステップＳ１０５において、入力オペレータは、ステップＳ１０３で作成された字幕原稿をもとに電子化字幕を作成する。
【０００９】
ステップＳ１０７において、ステップＳ１０５で作成された電子化字幕を、担当の字幕制作責任者、原稿作成者、及び入力オペレータの三者立ち会いのもとで試写・修正を行い、完成字幕とする。
【００１０】
ところで、最近では、番組アナウンスの要約書き起こしと字幕の電子化双方に通じたキャプションオペレータと呼ばれる人材を養成することで、図８の右側に示す改良された現行字幕制作フローも一部実施されている。
【００１１】
すなわち、ステップＳ１１１において、字幕番組制作者は、タイムコードを音声チャンネルに記録した番組テープと、番組台本との２つの字幕原稿作成素材を放送局から受け取る。
【００１２】
ステップＳ１１３において、キャプションオペレータは、タイムコードを音声チャンネルに記録した番組テープを再生し、セリフの開始点でマウスのボタンをクリックすることでその点の音声チャンネルから始点タイムコードを取り出して記録する。さらに、セリフを聴取して要約電子データとして入力するとともに、字幕原稿作成要領に基づく区切り箇所に対応するセリフ点で再びマウスのボタンをクリックすることでその点の音声チャンネルから終点タイムコードを取り出して記録する。これらの操作を番組終了まで繰り返して、番組全体の字幕を電子化する。
【００１３】
ステップＳ１１７において、ステップＳ１０５で作成された電子化字幕を、担当の字幕制作責任者、及びキャプションオペレータの二者立ち会いのもとで試写・修正を行い、完成字幕とする。
【００１４】
後者の改良された現行字幕制作フローでは、キャプションオペレータは、タイムコードを音声チャンネルに記録した番組テープのみを使用して、セリフの要約と電子データ化を行うとともに、提示単位に分割した字幕の始点／終点にそれぞれ対応するセリフのタイミングでマウスボタンをクリックすることにより、音声チャンネルの各タイムコードを取り出して記録するものであり、かなり省力化された効果的な字幕制作フローといえる。
【００１５】
さて、上述した現行字幕制作フローにおける一連の処理の流れの中で特に多大な工数を要するのは、ステップＳ１０３乃至Ｓ１０５又はステップＳ１１３の、（１）番組アナウンスの要約書き起こし、（２）字幕提示イメージ化、（３）その開始・終了タイムコード記入、の各作業工程であり、これらの作業工程は熟練者の知識・経験に負うところが大きい。
【００１６】
しかし、現在放送中の字幕番組のなかで、予めアナウンス原稿が作成され、その原稿がほとんど修正されることなく実際の放送字幕となっていると推測される番組がいくつかある。例えば、「生きもの地球紀行」という字幕付き情報番組を実際に調べて見ると、アナウンス音声と字幕内容はほとんど共通であり、共通の原稿をアナウンス用と字幕用の双方に利用しているものと推測出来る。
【００１７】
このようにアナウンス音声と字幕内容が極めて類似し、アナウンス用と字幕用の双方にほぼ共通の原稿を利用しており、その原稿が電子化されている番組を想定した場合、（１）の番組アナウンスの要約書き起こし作業はほとんど必要ないことになる。この場合、残る作業は、（２）の字幕提示イメージ化、及び（３）の開始・終了タイムコード記入、の各作業工程である。そこで、本発明者らは、これら各作業工程の簡略化を企図して鋭意研究を進めた結果、（２）の字幕提示イメージ化を、人手を介することなく自動化できる新規な技術を想到するに至ったのである。
【００１８】
本発明は、上述した実情に鑑みてなされたものであり、本発明で提案する音声と字幕文テキストの同期検出技術、及び日本語の特徴解析手法を用いたテキスト分割技術等を適用することにより、字幕の基となる字幕文テキストを、所定の字幕提示形式に従う提示単位字幕へ自動的に分割し得る字幕文テキストの自動分割方法を提供することを課題とする。
【００１９】
【課題を解決するための手段】
上記課題を解決するために、請求項１の発明は、字幕番組を制作するにあたり、少なくとも字幕の基となる字幕文テキストを、所定の字幕提示形式に従う提示単位字幕へ分割する際に用いられる字幕文テキストの分割方法であって、前記字幕文テキストのうち、文頭を起点とした所要文字数範囲を対象として、第１の所定時間を越える長さの第１の文末ポーズ点、及び句点を全て抽出し、この抽出された第１の文末ポーズ点のうち、特に、第１の所定時間と比較して長い時間の第２の所定時間を越える長さの第２の文末ポーズ点の存在有無を調査判定し、この調査判定の結果、第２の文末ポーズ点が存在する旨の判定が下されたとき、前記所要文字数範囲において文頭から起算して最初に現れた第２の文末ポーズ点までの範囲を単位字幕文として抽出し、この抽出した単位字幕文を、第１の文末ポーズ点の箇所で順次改行していくことにより、当該単位字幕文の仮分割を行うとともに、この仮分割された複数の各行について、一行当たりの文字数が、所定の字幕提示形式で定義される一行当たりの制限文字数より少ない第１の所定文字数以上か否かに係る各行文字数判定を順次行い、この各行文字数判定の結果、一行当たりの文字数が前記第１の所定文字数以上の条件に合致する該当行が存在する旨の判定が下されたとき、この該当行の各々について、先頭からの文字数が第１の所定文字数に到達した直後の箇所で再改行することにより、当該単位字幕文の仮分割を行い、前記複数行に仮分割された単位字幕文の総行数が奇数か又は偶数かに係る奇偶判定を行い、この奇偶判定の結果、総行数が奇数である旨の判定が下されたとき、前記仮分割された単位字幕文のうち、最終行の文字数が、前記制限文字数より少ない第２の所定文字数以上か否かに係る最終行文字数判定を行い、この最終行文字数判定の結果、最終行の文字数が前記第２の所定文字数以上の条件に合致しない旨の判定が下されたとき、当該単位字幕文の文末から、第１の文末ポーズ点、句点、又は再改行点の存在有無をこの優先順位に従って調査し、これら各点のうち、奇偶行間に最初に現れた点を含む行と、これの後続行間に空白行を挿入し、前記再改行点の箇所を対象として、当該単位字幕文に関する改行・改頁推奨箇所に係る分割ルールを適用することで再改行箇所の最適化を実行することにより、前記字幕文テキストを、所定の字幕提示形式に従う提示単位字幕へ自動的に分割することを要旨とする。
【００２０】
請求項１の発明によれば、まず、字幕の基となる字幕文テキストのうち、文頭を起点とした所要文字数範囲を対象として、第１の所定時間を越える長さの第１の文末ポーズ点、及び句点を全て抽出し、この抽出された第１の文末ポーズ点のうち、特に、第１の所定時間と比較して長い時間の第２の所定時間を越える長さの第２の文末ポーズ点の存在有無を調査判定する。この調査判定の結果、第２の文末ポーズ点が存在する旨の判定が下されたとき、前記所要文字数範囲において文頭から起算して最初に現れた第２の文末ポーズ点までの範囲を単位字幕文として抽出する。
【００２１】
上述した処理が、第２の文末ポーズ点が存在する場合における単位字幕文の抽出処理であり、本発明では、抽出処理で抽出された単位字幕文を一つの処理単位として取り扱い、以下に述べる各処理を順次実行する。この抽出処理において、字幕文テキストのなかから、所要文字数範囲を限度とした単位字幕文を抽出するにあたり、ある提示単位字幕中に相互に異なる内容に関わる字幕が混在する事態を回避する等の趣旨から、抽出された単位字幕文が共通したひとかたまりの意味をもつ字幕文の集合体であることが好ましい。そこで、この抽出処理では、相互に異なる内容に関わる単位字幕文間に挿入される傾向がある、改頁推奨箇所とみなすことができる比較的長い間隔をもったポーズである第２の文末ポーズ点に着目し、字幕文テキストのうち、文頭から起算して第２の文末ポーズ点までの範囲を単位字幕文として抽出することにより、ひとかたまりの内容に関わる単位字幕文を意図的に抽出するようにしている。
【００２２】
次に、この抽出した単位字幕文を、第１の文末ポーズ点の箇所で順次改行していくことにより、当該単位字幕文の仮分割を行うとともに、この仮分割された複数の各行について、一行当たりの文字数が、所定の字幕提示形式で定義される一行当たりの制限文字数より少ない第１の所定文字数以上か否かに係る各行文字数判定を順次行い、この各行文字数判定の結果、一行当たりの文字数が前記第１の所定文字数以上の条件に合致する該当行が存在する旨の判定が下されたとき、この該当行の各々について、先頭からの文字数が第１の所定文字数に到達した直後の箇所で再改行することにより、当該単位字幕文の仮分割を行う。
【００２３】
上述した処理が単位字幕文の仮分割処理であり、この仮分割処理を行う際に考慮すべき重要な点は、適切箇所で改行を施すこと、及び一行当たりの文字数が、所定の字幕提示形式で定義される一行当たりの制限文字数内に収束すること、の２点である。そこで、前者の適切箇所での改行については、文章の切れ目に挿入される傾向がある、改行推奨箇所とみなすことができるある長さ間隔をもったポーズである第１の文末ポーズ点に着目し、ひとかたまりの単位字幕文を、第１の文末ポーズ点の箇所で順次改行していく一方で、後者の制限文字数収束については、一行当たりの文字数が第１の所定文字数以上の条件に合致する該当行の各々について、先頭からの文字数が第１の所定文字数に到達した直後の箇所で機械的に再改行することにより、一行当たりの文字数が、制限文字数を越えない適切な文字数に収束することを考慮しながら、単位字幕文を適切箇所で仮分割するようにしている。
【００２４】
次に、前記複数行に仮分割された単位字幕文の総行数が奇数か又は偶数かに係る奇偶判定を行う。この奇偶判定を行う趣旨は、例えば、所定の字幕提示形式として、２行の提示単位字幕を一括総入れ換えする字幕提示形式を採用した場合において、最終の提示単位字幕が単独行になるか否かを振り分ける趣旨である。
【００２５】
上述した奇偶判定の結果、総行数が奇数である旨の判定が下されたとき、前記仮分割された単位字幕文のうち、最終行の文字数が、前記制限文字数より少ない第２の所定文字数以上か否かに係る最終行文字数判定を行い、この最終行文字数判定の結果、最終行の文字数が前記第２の所定文字数以上の条件に合致しない旨の判定が下されたとき、当該単位字幕文の文末から、第１の文末ポーズ点、句点、又は再改行点の存在有無をこの優先順位に従って調査し、これら各点のうち、奇偶行間に最初に現れた点を含む行と、これの後続行間に空白行を挿入する。
【００２６】
上述した処理が空白行挿入処理であり、この空白行挿入処理を行う趣旨は、正確かつ確実な字幕提示内容の読みとり把握を促進する趣旨である。これについて詳述すると、当該単位字幕文の総行数が奇数であり、かつ、最終行の文字数が第２の所定文字数以上の条件に合致しない場合とは、最終の提示単位字幕が単独行であり、しかも、この最終行の文字数が比較的少ない場合を意味しており、この場合には、ある提示単位字幕の提示継続時間長は、それに含まれる字幕文字数の多少に依存するといった原則から、この最終行に関わる提示継続時間長は必然的に短くなるため、最終行の字幕提示内容を見逃してしまうおそれがある。特に、否定文では否定語が文末におかれるといった日本語の特質上、例えばこの否定語部分を見逃してしまった場合には、本来の意味を誤解してしまうことにもなりかねない。そこで、このような場合には、当該単位字幕文の文末から、第１の文末ポーズ点、句点、又は再改行点の存在有無をこの優先順位に従って調査し、これら各点のうち、奇偶行間に最初に現れた点を含む行と、これの後続行間に空白行を挿入することにより、最終行に関わる提示継続時間長を本来のものより意図的に長く引き延ばすことで、最終行の字幕提示内容をうっかり見逃してしまうといった事態を可及的に回避し、これをもって、正確かつ確実な字幕提示内容の読みとり把握を促進するようにしている。
【００２７】
そして、前記再改行点の箇所を対象として、当該単位字幕文に関する改行・改頁推奨箇所に係る分割ルールを適用することで再改行箇所の最適化を実行することにより、前記字幕文テキストを、所定の字幕提示形式に従う提示単位字幕へ自動的に分割する。
【００２８】
ここで、分割ルールを適用した再改行箇所の最適化を実行する趣旨は、本来の改行箇所である第１の文末ポーズ点では、分割ルールのうち「句点の後ろ」の適格条件を既に満たしており、これを適用した最適化の余地がないのに対し、先頭からの文字数が第１の所定文字数に到達した直後の箇所で機械的に施される再改行点では、分割ルールの適格条件を必ずしも満たしているとは言えず、これを適用した最適化の余地があり、したがって、この再改行箇所の最適化を実行することにより、単位字幕文の適切箇所における改行を保証する結果として、字幕文テキストの、所定の字幕提示形式に従う提示単位字幕への自動的な分割を担保する趣旨である。
【００２９】
このように、請求項１の発明によれば、本発明で提案する日本語の特徴解析手法を用いたテキスト分割技術を適用することにより、字幕の基となる字幕文テキストを、所定の字幕提示形式に従う提示単位字幕へ自動的に分割可能な字幕文テキストの自動分割方法を得ることができる。
【００３０】
また、請求項１の発明によれば、字幕文テキストのなかから適宜抽出した単位字幕文のうち、最終の提示単位字幕が単独行であり、しかも、この最終行の文字数が比較的少ない場合には、抽出した単位字幕文のうち、適宜の行間に空白行を挿入することにより、最終行に関わる提示継続時間長を、本来のものより意図的に長く引き延ばすようにしたので、したがって、最終行の字幕提示内容をうっかり見逃してしまうといった事態を可及的に回避することができる結果として、正確かつ確実な字幕提示内容の読みとり把握を促進することができる。
【００３１】
また、請求項２の発明は、請求項１に記載の字幕文テキストの自動分割方法であって、前記調査判定の結果、第２の文末ポーズ点が存在しない旨の判定が下されたとき、前記所要文字数範囲において文頭から起算して最後に現れた第１の文末ポーズ点までの範囲を単位字幕文として抽出し、この抽出した単位字幕文を対象として、当該単位字幕文の仮分割を含む以下の処理を実行することを要旨とする。
【００３２】
請求項２の発明によれば、前記調査判定の結果、改頁推奨箇所とみなすことができる比較的長い間隔をもったポーズである第２の文末ポーズ点が存在しない旨の判定が下されたとき、第２の文末ポーズ点に代えて、改行推奨箇所とみなすことができるある長さ間隔をもったポーズである第１の文末ポーズ点に着目し、前記所要文字数範囲において文頭から起算して最後に現れた第１の文末ポーズ点までの範囲を単位字幕文として抽出し、この抽出した単位字幕文を対象として、当該単位字幕文の仮分割を含む以下の処理を実行するので、したがって、第２の文末ポーズ点が存在しない場合であっても、可及的にひとかたまりの内容に関わる単位字幕文を意図的に抽出することができる。
【００３３】
さらに、請求項３の発明は、請求項１又は２のうちいずれか一項に記載の字幕文テキストの自動分割方法であって、前記第１の文末ポーズ点、句点、又は再改行点を含む各点のうち、奇偶行間に最初に現れた点を含む行と、これの後続行間に空白行を挿入した後に、さらに、この挿入した空白行の直前行の文字数が、所定の字幕提示形式で定義される一行当たりの制限文字数より少ない第２の所定文字数以上か否かに係る直前行文字数判定を行い、この直前行文字数判定の結果、直前行の文字数が前記第２の所定文字数以上の条件に合致しない旨の判定が下されたとき、当該単位字幕文の文末から、第１の文末ポーズ点、句点、又は再改行点の存在有無をこの優先順位に従って調査し、これら各点のうち、前記奇偶行間に現れた点の次に奇偶行間に現れた点を含む行と、これの後続行間に空白行を挿入し、この空白行を挿入した後に、前記直前行文字数判定以下の処理を、直前行文字数判定の結果が、直前行の文字数が前記第２の所定文字数以上の条件に合致するに至るまで繰り返し実行することを要旨とする。
【００３４】
請求項３の発明によれば、前記した空白行挿入処理後に、さらに、この挿入した空白行の直前行の文字数が、前記第２の所定文字数以上の条件に合致しない旨の判定が下されたとき、この直前行の提示継続時間長を、本来のものより意図的に長く引き延ばすようにしたので、したがって、直前行の字幕提示内容をうっかり見逃してしまうといった事態を可及的に回避することができる結果として、正確かつ確実な字幕提示内容の読みとり把握を促進することができる。
【００３５】
さらにまた、請求項４の発明は、請求項１乃至３のうちいずれか一項に記載の字幕文テキストの自動分割方法であって、前記再改行点の箇所を対象として、当該単位字幕文に関する改行・改頁推奨箇所に係る分割ルールを適用することで再改行箇所の最適化を実行した後に、前記抽出した単位字幕文に後続する字幕文の存在有無に係る後続有無判定を行い、この後続有無判定の結果、後続する字幕文が存在する旨の判定が下されたとき、当初の処理工程へと戻り、後続する字幕文について以下の処理を繰り返す一方、後続する字幕文が存在しない旨の判定が下されたとき、字幕文テキストの自動分割処理を終了することを要旨とする。
【００３６】
請求項４の発明によれば、前記再改行点の箇所を対象として、当該単位字幕文に関する改行・改頁推奨箇所に係る分割ルールを適用することで再改行箇所の最適化を実行した後に、前記抽出した単位字幕文に後続する字幕文が存在する旨の判定が下されたとき、当初の処理工程へと戻り、後続する字幕文について以下の処理を繰り返す一方、後続する字幕文が存在しない旨の判定が下されたとき、字幕文テキストの自動分割処理を終了するので、したがって、字幕文テキスト中に含まれる全ての字幕文を対象とした自動分割処理を実行することができる。
【００３７】
しかも、請求項５の発明は、請求項１乃至４のうちいずれか一項に記載の字幕文テキストの自動分割方法であって、前記再改行点の箇所を対象として、当該単位字幕文に関する改行・改頁推奨箇所に係る分割ルールを適用することで再改行箇所の最適化を実行するにあたり、当該分割ルールで定義される改行・改頁推奨箇所は、句点の後ろ、読点の後ろ、文節と文節の間、形態素品詞の間、のうちいずれか１又は複数の組み合わせを含んでおり、当該分割ルールを適用するにあたっては、前記記述順の先頭から優先的に適用することを要旨とする。
【００３８】
請求項５の発明によれば、前記再改行点の箇所を対象として、当該単位字幕文に関する改行・改頁推奨箇所に係る分割ルールを適用することで再改行箇所の最適化を実行するにあたり、当該分割ルールで定義される改行・改頁推奨箇所は、句点の後ろ、読点の後ろ、文節と文節の間、形態素品詞の間、のうちいずれか１又は複数の組み合わせを含んでおり、当該分割ルールを適用するにあたっては、前記記述順の先頭から優先的に適用するので、したがって、実情に即して高精度に最適化された字幕文テキストの自動分割を実現することができる。
【００３９】
さらに、請求項６の発明は、請求項１乃至５のうちいずれか一項に記載の字幕文テキストの自動分割方法であって、前記所定の字幕提示形式で定義される一行当たりの制限文字数Ｎは１５文字であり、このとき、前記第１の所定文字数は１２（＝Ｎ−３）文字であることを要旨とする。
【００４０】
請求項６の発明によれば、前記所定の字幕提示形式で定義される一行当たりの制限文字数Ｎは１５文字であり、このとき、前記第１の所定文字数は１２（＝Ｎ−３）文字とされるので、したがって、例えば、１行当たりの制限文字数が１５文字となる標準的な字幕提示形式を採用した場合、各提示単位字幕行に含まれる１行当たりの字幕文字数は、１２乃至１５文字の範囲に収束する結果として、字幕提示時における見栄えが良好な字幕文テキストの自動分割を実現することができる。
【００４１】
そして、請求項７の発明は、請求項１乃至６のうちいずれか一項に記載の字幕文テキストの自動分割方法であって、前記所定の字幕提示形式で定義される一行当たりの制限文字数Ｎは１５文字であり、このとき、前記第２の所定文字数は８（＝Ｎ／２；ただし小数点以下切り上げ）文字であることを要旨とする。
【００４２】
請求項７の発明によれば、前記所定の字幕提示形式で定義される一行当たりの制限文字数Ｎは１５文字であり、このとき、前記第２の所定文字数は８（＝Ｎ／２；ただし小数点以下切り上げ）文字とされるので、したがって、例えば、１行当たりの制限文字数が１５文字となる標準的な字幕提示形式を採用した場合、１行当たりの字幕文字数が少ないとみなされる文字数は７文字となり、このしきい値文字数は、例えば、字幕から目を離している見逃し動作時間の１回当たりの長さを０．５〜２秒間程度と想定し、字幕の提示速度を２００字／分と想定したとき、その見逃し動作時間の最大値である２秒間は約７文字に相当し、このことから、１回の見逃し動作で７文字分の字幕文字を見逃すおそれがあるとの検証結果からみて、きわめて妥当な文字数であると言うことができ、該当行の字幕提示内容をうっかり見逃してしまうといった事態を可及的に回避する効果を高い水準で期待できる結果として、正確かつ確実な字幕提示内容の読みとり把握を飛躍的に促進することができる。
【００４３】
【発明の実施の形態】
以下に、本発明に係る字幕文テキストの自動分割方法の一実施形態について、図に基づいて詳細に説明する。
【００４４】
図１は、本発明に係る字幕文テキストの自動分割方法を具現化する自動字幕番組制作システムの機能ブロック構成図、図２は、字幕文テキストの分割手順を表すフローチャート図、図３は、単位字幕文を適切箇所で仮分割した状態を表す図、図４は、単位字幕文のうち、適切箇所に空白行を挿入した状態を表す図、図５は、単位字幕文における仮分割箇所に適用される分割ルールの説明に供する図、図６乃至図７は、アナウンス音声に対する字幕送出タイミングの同期検出技術に係る説明に供する図である。
【００４５】
なお、本発明の実施形態で採用する所定の字幕提示形式として、１行当たりの制限文字数Ｎを１５文字とし、２行からなる提示単位字幕を一括総入れ換えする字幕提示形式を例示して、以下の説明を進めることにする。
【００４６】
既述したように、現在放送中の字幕番組のなかで、予めアナウンス原稿が作成され、その原稿がほとんど修正されることなく実際の放送字幕となっていると推測される番組がいくつかある。例えば、「生きもの地球紀行」という字幕付き情報番組を実際に調べて見ると、アナウンス音声と字幕内容はほぼ共通であり、ほぼ共通の原稿をアナウンス用と字幕用の両方に利用していると推測出来る。
【００４７】
そこで、本発明者らは、このようにアナウンス音声と字幕の内容が極めて類似し、アナウンス用と字幕用の両方に共通の原稿を利用しており、その原稿が電子化されている番組を想定したとき、本発明で提案するアナウンス音声と字幕文テキストの同期検出技術、及び日本語の特徴解析手法を用いたテキスト分割技術等を適用することにより、字幕の基となる字幕文テキストを、所定の字幕提示形式に従う提示単位字幕へ自動的に分割し得る字幕文テキストの自動分割方法を想到するに至ったのである。
【００４８】
ここで、本発明を想到するに至った背景について述べると、より読みやすく、理解しやすい字幕の観点から字幕文テキストの分割問題を考える場合、当然ながら読みやすく、理解しやすい字幕とはどのようなものかが問題となる。この問題に対する定量的に明確な回答は未だ見出せていないが、しかし、実験字幕番組の制作や字幕評価実験などの貴重な経験を通して、定性的ながら考慮すべき要素が明らかになりつつある。
【００４９】
字幕の読み易さ、理解し易さの観点からは、一般にある程度以上の文字数が同時的に提示され、この提示が所要時間継続しているのが良いといわれるが、文字数や提示継続時間は、提示する字幕がどのように読まれるかと大きく関わる。
【００５０】
例えば聴覚障害者が字幕付テレビ番組を見る場合を想定すると、視覚を介して、映像情報と音声情報とを交互に見ることになるので、本来字幕は間欠的にしか見ることが出来ない。そのため、音声情報をより読みやすく、理解しやすい字幕として提示することで、字幕を見ている割合を出来るだけ少なくして、その分だけ映像を多く見られるようにするのが望ましい。
【００５１】
この場合の字幕の見方は、字幕の提示形式にも依存するが、例えば２行の提示単位字幕を一括入れ換えする字幕提示形式を例示し、提示される全字幕の捕捉を試みた場合、一般的には、基準となる字幕文字（例えば、音声アナウンスの進行に対応する文字）を中心として、先読み、後読みもしくはその両方を行うことになる。
【００５２】
先読み、後読みもしくはその両方を行うことになる要因としては、映像の注視又はまばたきや脇見などを含む字幕から目を離している見逃し動作時間が存在するからであり、１回当たりの見逃し動作時間の長さは、経験的には０．５〜２秒間程度であると思われる。
【００５３】
ここで、字幕の提示速度を２００字／分と想定すると、その最大時間である２秒間は約７文字に相当し、このことから、１回の見逃し動作で７文字分の字幕文字を見逃すおそれがあることがわかる。
【００５４】
このことから、基準となる字幕文字を中心に連続した１４文字が最低限の提示単位として必要であり、再び字幕に注視点が戻って字幕を読み取り、認識する分を前後各５〜７文字とすると、内容の連続した２４〜２９文字程度の字幕を同時に画面提示するのが望ましいことがわかる。ちなみに現行の字幕放送では一行１５文字で二行提示が多く、最大３０文字程度まで提示されている。
【００５５】
また、上記の分析結果に従い、字幕が提示されてから実際に読まれるまで最悪２秒間程度必要なものと仮定すると、文字数が７文字以下の字幕を文字数相当の時間のみ提示した場合には、この提示字幕が全く読まれないおそれがある。例えば日本語の特質上、否定文では否定語が文末におかれるので、この否定語部分が上記の状態に該当するような分割はきわめて悪い影響をもたらす可能性があり、このような分割は可及的に回避する必要がある。
【００５６】
その対策として、少ない文字数への分割をしない、又は少ない文字数では提示時間を長くする、などの手法を適用するのが望ましい。
【００５７】
次の問題は、例えば文間の無音区間、つまりポーズの取り扱いである。字幕文中に長いポーズが存在する場合には、このポーズの前後は相互に異なる内容に関わる字幕文である可能性が高いことから、そのポーズにまたがるような字幕提示は好ましくない。逆に極めて短いポーズが存在する場合には、このポーズの前後は相互に共通の内容に関わる字幕文である可能性が高いことから、むしろ連続した字幕文として取り扱う方が好ましい。このことから、ポーズ時間の長さを考慮した字幕文の分割手法を適用するのが望ましい。
【００５８】
さらに、ひとかたまりの文字群は可能な限り分割せず、同一行に提示するのが望ましい。この例として、通常の単語のみならず、連続する漢字、カタカナ、アラビア数字、英字などがあり、（xxx）や「xxx」などと表わさるルビ、略称に対する正式呼称、注釈などもこの範疇として取り扱う。
【００５９】
字幕文テキストの分割にあたっては、上述の要素を充分考慮する必要があり、本発明では、これらの各要素を取り込むとともに、日本語の特徴を統計的に設定した分割ルール（改行・改頁ルール）を適用することで、理想的とも言える字幕文テキストの分割を実現するようにしている。
【００６０】
さて、本実施形態の説明に先立って、以下の説明で使用する用語の定義付けを行うと、本実施形態の説明において、提示対象となる字幕文の全体集合を「字幕文テキスト」と言い、字幕文テキストのうち、適宜の句点で区切られたひとかたまりの字幕文の部分集合を「単位字幕文」と言い、ディスプレイの表示画面上において提示単位となる字幕を「提示単位字幕」と言い、提示単位字幕に含まれる各行の個々の字幕を「提示単位字幕行」と言い、提示単位字幕行のうちの任意の文字を表現するとき、これを「字幕文字」と言うことにする。なお、表示画面上に単独の提示単位字幕行を提示するとき、「提示単位字幕」と「提示単位字幕行」とは同義となるため、この場合、「提示単位字幕行」の表現はあえて使用しないことととする。
【００６１】
まず、本発明に係る字幕文テキストの自動分割方法を具現化する自動字幕番組制作システム１１の概略構成について、図１を参照して説明する。
【００６２】
同図に示すように、自動字幕番組制作システム１１は、電子化原稿記録媒体１３と、同期検出装置１５と、統合化装置１７と、形態素解析部１９と、分割ルール記憶部２１と、番組素材ＶＴＲ例えばディジタル・ビデオ・テープ・レコーダ（以下、「Ｄ−ＶＴＲ」と言う）２３と、を含んで構成されている。
【００６３】
電子化原稿記録媒体１３は、例えばハードディスク記憶装置やフロッピーディスク装置等より構成され、提示対象となる字幕の全体集合を表す字幕文テキストを記憶している。なお、本実施形態では、ほぼ共通の電子化原稿をアナウンス用と字幕用の双方に利用する形態を想定しているので、電子化原稿記録媒体１３に記憶される字幕文テキストの内容は、提示対象字幕と一致するばかりでなく、素材ＶＴＲに収録されたアナウンス音声とも一致しているものとする。
【００６４】
同期検出装置１５は、提示単位字幕文と、これを読み上げたアナウンス音声との間における時間同期を検出する機能等を有している。さらに詳しく述べると、同期検出装置１５は、統合化装置１７で一応確定された提示単位字幕が送られてくる毎に、この提示単位字幕の妥当性を検証する妥当性検証機能と、妥当性検証機能を発揮することで得られた検証結果が不当であるとき、この検証結果を統合化装置１７宛に返答する検証結果返答機能と、妥当性検証機能を発揮することで得られた検証結果が妥当であるとき、番組素材ＶＴＲから取り込んだこの提示単位字幕に対応するアナウンス音声及びそのタイムコードを参照して、該当する提示単位字幕毎のタイミング情報、すなわち始点／終点タイムコードを検出し、検出した各始点／終点タイムコードを統合化装置１７宛に送出するタイミング情報検出機能と、を有している。
【００６５】
なお、上述したタイミング情報検出機能における提示単位字幕毎に付与する始点／終点タイムコードの同期検出は、本発明者らが研究開発したアナウンス音声を対象とした音声認識処理を含むアナウンス音声と字幕文テキスト間の同期検出技術を適用することで高精度に実現可能である。
【００６６】
すなわち、字幕送出タイミング検出の流れは、図６に示すように、まず、かな漢字交じり文で表記されている字幕文テキストを、音声合成などで用いられている読み付け技術を用いて発音記号列に変換する。この変換には、「日本語読み付けシステム」を用いる。次に、あらかじめ学習しておいた音響モデル（ＨＭＭ：隠れマルコフモデル）を参照し、「音声モデル合成システム」によりこれらの発音記号列をワード列ペアモデルと呼ぶ音声モデル（ＨＭＭ）に変換する。そして、「最尤照合システム」を用いてワード列ペアモデルにアナウンス音声を通して比較照合を行うことにより、字幕送出タイミングの同期検出を行う。
【００６７】
字幕送出タイミング検出の用途に用いるアルゴリズム(ワード列ペアモデル)は、キーワードスポッティングの手法を採用している。キーワードスポッティングの手法として、フォワード・バックワードアルゴリズムにより単語の事後確率を求め、その単語尤度のローカルピークを検出する方法が提案されている。ワード列ペアモデルは、図７に示すように、これを応用して字幕と音声を同期させたい点、すなわち同期点の前後でワード列１ (Keywords1)とワード列２ (Keywords2)とを連結したモデルになっており、ワード列の中点（Ｂ）で尤度を観測してそのローカルピークを検出し、ワード列２の発話開始時間を高精度に求めることを目的としている。ワード列は、音素ＨＭＭの連結により構成され、ガーベジ (Garbage)部分は全音素ＨＭＭの並列な枝として構成されている。また、アナウンサが原稿を読む場合、内容が理解しやすいように息継ぎの位置を任意に定めることから、ワード列１，２間にポーズ (Pause)を挿入している。なお、ポーズ時間の検出に関しては、素材ＶＴＲから音声とそのタイムコードが供給され、その音声レベルが指定レベル以下で連続する開始、終了タイムコードから、周知の技術で容易に達成できる。
【００６８】
統合化装置１７は、電子化原稿記録媒体１３から読み出した字幕文テキストのうち、文頭を起点とした所要文字数範囲を目安とした単位字幕文を順次抽出する単位字幕文抽出機能と、単位字幕文抽出機能を発揮することで抽出した単位字幕文を、所望の提示形式に従う提示単位字幕に変換する提示単位字幕化機能と、提示単位字幕化機能を発揮することで変換された提示単位字幕に対し、同期検出装置１５から送出されてきた提示単位字幕毎のタイミング情報である始点／終点の各タイムコードを付与するタイミング情報付与機能と、を有している。なお、文頭を起点とした所要文字数範囲とは、一行当たりの制限文字数Ｎを１５文字と想定したとき、例えば６Ｎ文字を上限とした７０〜９０字幕文字程度の範囲など、テキスト文のまとまりや処理データ量等を考慮した適宜の文字数範囲を選択することができる。
【００６９】
形態素解析部１９は、漢字かな交じり文で表記されている単位字幕文を対象として、形態素毎に分割する分割機能と、分割機能を発揮することで分割された各形態素毎に、表現形、品詞、読み、標準表現などの付加情報を付与する付加情報付与機能と、各形態素を文節や節単位にグループ化し、いくつかの情報素列を得る情報素列取得機能と、を有している。これにより、単位字幕文は、表面素列、記号素列（品詞列）、標準素列、及び情報素列として表現される。
【００７０】
分割ルール記憶部２１は、図５に示すように、単位字幕文を対象とした改行・改頁箇所の最適化を行う際に参照される分割ルールを記憶する機能を有している。
【００７１】
Ｄ−ＶＴＲ２３は、番組素材が収録されている番組素材ＶＴＲテープから、映像、音声、及びそれらのタイムコードを再生出力する機能を有している。
【００７２】
次に、自動字幕番組制作システム１１において主要な役割を果たす統合化装置１７の内部構成について説明していく。
【００７３】
統合化装置１７は、単位字幕文抽出部３３と、提示単位字幕化部３５と、タイミング情報付与部３７と、を含んで構成されている。
【００７４】
単位字幕文抽出部３３は、電子化原稿記録媒体１３から読み出した、単位字幕文が提示時間順に配列された字幕文テキストのなかから、例えば７０〜９０字幕文字程度を目安として、少なくとも提示単位字幕行に含まれる文字数よりも多い文字数を呈する提示対象となる単位字幕文を、付加した区切り可能箇所情報等を活用するなどして処理単位とするテキスト文を順次抽出する機能を有している。なお、区切り可能箇所情報としては、形態素解析部１９で得られた文節データ付き形態素解析データ、及び分割ルール記憶部２１に記憶されている分割ルール（改行・改頁データ）を利用することもできる。
【００７５】
提示単位字幕化部３５は、単位字幕文抽出部３３で抽出した単位字幕文、単位字幕文に付加した区切り可能箇所情報、及び同期検出装置１５からの情報等に基づいて、単位字幕文抽出部３３で抽出した単位字幕文を、所望の提示形式に従う少なくとも１以上の提示単位字幕に変換する提示単位字幕化機能を有している。
【００７６】
タイミング情報付与部３７は、提示単位字幕化部３５で変換された提示単位字幕に対し、同期検出装置１５から送出されてきた提示単位字幕毎のタイミング情報である始点／終点の各タイムコードを付与するタイミング情報付与機能を有している。
【００７７】
次に、本発明に係る字幕文テキストの分割手順について、図２に示す動作フローチャート図を参照しつつ説明する。
【００７８】
ステップＳ１において、字幕文テキストのうち、文頭を起点とした例えば６Ｎ文字（＝９０文字）程度の所要文字数範囲を対象として、例えば１秒間などの第１の所定時間ｔ１を越える長さを呈する文末に存在する無音区間、つまり第１の文末ポーズ点Ｐｔ１、及び句点を全て抽出する。ここで抽出した第１の文末ポーズ点Ｐｔ１のうち、特に、第１の所定時間ｔ１と比較して長い時間の例えば２秒間などの第２の所定時間ｔ２を越える長さの文末ポーズ点を第２の文末ポーズ点Ｐｔ２と呼び、これらの文末ポーズ点Ｐｔ１，Ｐｔ２を除く句点をＰｋと呼ぶことにする。
【００７９】
ステップＳ２において、所要文字数範囲内における第２の文末ポーズ点Ｐｔ２の存在有無を調査判定する。この調査判定の結果、第２の文末ポーズ点Ｐｔ２が存在する旨の判定が下されたときにはステップＳ３へ進む一方、第２の文末ポーズ点Ｐｔ２が存在しない旨の判定が下されたときにはステップＳ４へ進む。
【００８０】
ステップＳ２における調査判定の結果、第２の文末ポーズ点Ｐｔ２が存在する旨の判定が下されたとき、ステップＳ３において、前記所要文字数範囲において文頭から起算して最初に現れた第２の文末ポーズ点Ｐｔ２までの範囲を単位字幕文として抽出する。
【００８１】
一方、ステップＳ２における調査判定の結果、第２の文末ポーズ点Ｐｔ２が存在しない旨の判定が下されたとき、ステップＳ４において、前記所要文字数範囲において文頭から起算して最後に現れた第１の文末ポーズ点Ｐｔ１までの範囲を単位字幕文として抽出する。
【００８２】
上述したステップＳ１乃至Ｓ４の処理が単位字幕文の抽出処理であり、本発明での提示単位字幕化は、抽出処理で抽出された単位字幕文を一つの処理単位として取り扱い、以下に述べる各処理を順次実行する。この抽出処理において、字幕文テキストのなかから、所要文字数範囲を限度とした単位字幕文を抽出するにあたり、ある提示単位字幕中に相互に異なる内容に関わる字幕が混在する事態を回避する等の趣旨から、抽出された単位字幕文が共通したひとかたまりの内容に関わる字幕文の集合体であることが好ましい。
【００８３】
そこで、この抽出処理では、相互に異なる内容に関わる単位字幕文間に挿入される傾向がある、改頁推奨箇所とみなすことができる比較的長い間隔をもったポーズである第２の文末ポーズ点Ｐｔ２に着目し、字幕文テキストのうち、文頭から起算して第２の文末ポーズ点Ｐｔ２までの範囲を単位字幕文として抽出することにより、ひとかたまりの内容に関わる単位字幕文を意図的に抽出するようにしている。
【００８４】
また、ステップＳ２の調査判定の結果、改頁推奨箇所とみなすことができる比較的長い間隔をもったポーズである第２の文末ポーズ点Ｐｔ２が存在しない旨の判定が下されたときには、第２の文末ポーズ点Ｐｔ２に代えて、改行推奨箇所とみなすことができるある長さ間隔をもったポーズである第１の文末ポーズ点Ｐｔ１に着目し、前記所要文字数範囲において文頭から起算して最後に現れた第１の文末ポーズ点Ｐｔ１までの範囲を単位字幕文として抽出することにより、第２の文末ポーズ点Ｐｔ２が存在しない場合であっても、可及的にひとかたまりの内容に関わる単位字幕文を意図的に抽出するようにしている。
【００８５】
ステップＳ５において、ステップＳ３又はＳ４で抽出した単位字幕文を、第１の文末ポーズ点Ｐｔ１の箇所で順次改行していくことにより、単位字幕文の仮分割を行う。
【００８６】
ステップＳ６において、ステップＳ５で仮分割された複数の各行について、一行当たりの文字数が、所定の字幕提示形式で定義される一行当たりの制限文字数Ｎより少ない例えばＮ−３文字（＝１２文字）などの第１の所定文字数以上か否かに係る各行文字数判定を順次行い、この各行文字数判定の結果、一行当たりの文字数が第１の所定文字数以上の条件に合致する該当行が存在する旨の判定が下されたときにはステップＳ７へ進む一方、該当行が存在しない旨の判定が下されたときにはステップＳ８へ進む。ステップＳ６の各行文字数判定は、ステップＳ５で仮分割された複数の各行に含まれる文字数が、一行当たりの制限文字数Ｎを考慮したときに適正文字数に収束しているか否かを振り分ける趣旨である。
【００８７】
ステップＳ６の各行文字数判定の結果、該当行が存在する旨の判定が下されたとき、この該当行の各々について、先頭からの文字数が第１の所定文字数Ｎ−３文字（＝１２文字）に到達した直後の箇所で再改行することにより、当該単位字幕文の仮分割を行い、この再改行処理後にステップＳ６へ戻り、該当行が存在しなくなるまでステップＳ６乃至Ｓ７の各処理を繰り返し行う。なお、ステップＳ７での再改行箇所を再改行点Ｐｐと呼ぶことにする。
【００８８】
上述したステップＳ５乃至Ｓ７の処理が単位字幕文の仮分割処理であり、この仮分割処理を行う際に考慮すべき重要な点は、適切箇所で改行を施すこと、及び一行当たりの文字数が、所定の字幕提示形式で定義される一行当たりの制限文字数Ｎ内に収束すること、の２点である。
【００８９】
そこで、例えば図３に示すように、前者の適切箇所での改行については、文章の切れ目に挿入される傾向がある、改行推奨箇所とみなすことができるある長さ間隔をもったポーズである第１の文末ポーズ点Ｐｔ１に着目し、ひとかたまりの単位字幕文を、第１の文末ポーズ点Ｐｔ１の箇所で順次改行していく一方で、後者の制限文字数収束については、一行当たりの文字数が第１の所定文字数Ｎ−３文字（＝１２文字）以上の条件に合致する該当行の各々について、先頭からの文字数が第１の所定文字数に到達した直後の箇所で機械的に再改行することにより、一行当たりの文字数が、制限文字数Ｎを越えない適切な文字数に収束することを考慮しながら、単位字幕文を適切箇所で仮分割するようにしている。
【００９０】
ステップＳ８において、ステップＳ５乃至Ｓ７で複数行に仮分割された単位字幕文の総行数が奇数か又は偶数かに係る奇偶判定を行い、この奇偶判定の結果、総行数が奇数のときにはステップＳ９へ進む一方、総行数が偶数のときにはステップＳ１２へ進む。この奇偶判定は、例えば、所定の字幕提示形式として、２行の提示単位字幕を一括総入れ換えする字幕提示形式を採用した場合において、最終の提示単位字幕が単独行になるか否かを振り分ける趣旨である。
【００９１】
ステップＳ８における奇偶判定の結果、総行数が奇数である旨の判定が下されたとき、ステップＳ９において、仮分割された単位字幕文のうち、最終行の文字数が、制限文字数Ｎより少ない例えばＮ／２文字（＝８文字、ただし、端数は繰り上げ）などの第２の所定文字数以上か否かに係る最終行文字数判定を行い、この最終行文字数判定の結果、最終行の文字数が第２の所定文字数（Ｎ／２文字）以上の条件に合致しない旨の判定が下されたときにはステップＳ１０へ進む一方、この条件に合致する旨の判定が下されたときにはステップＳ１２へ進む。
【００９２】
ステップＳ９の最終行文字数判定の結果、最終行の文字数が第２の所定文字数（Ｎ／２文字）以上の条件に合致しない旨の判定が下されたとき、ステップＳ１０において、当該単位字幕文の文末から、第１の文末ポーズ点Ｐｔ１、句点Ｐｋ、又は再改行点Ｐｐの存在有無をこの優先順位に従って調査し、これら各点のうち、奇偶行間に最初に現れた点を含む行と、これの後続行間に空白行を挿入することで、この後続行を次頁に送って、最終行を二行化する。
【００９３】
ステップＳ１１において、ステップＳ１０で挿入した空白行の直前行の文字数が、第２の所定文字数（Ｎ／２文字）以上か否かに係る直前行文字数判定を行い、この直前行文字数判定の結果、直前行の文字数が前記第２の所定文字数以上の条件に合致しない旨の判定が下されたときにはステップＳ１０へ戻るとともに直前の空白行挿入を取り消し、ステップＳ１０乃至Ｓ１１の処理を、ステップＳ１１における直前行文字数判定の結果が、直前行の文字数が第２の所定文字数（Ｎ／２文字）以上の条件に合致するに至るまで繰り返し実行する。
【００９４】
上述したステップＳ９乃至Ｓ１１の処理が空白行挿入処理であり、この空白行挿入処理は、正確かつ確実な字幕提示内容の読みとり把握を促進する趣旨である。これについて詳述すると、当該単位字幕文の総行数が奇数であり、かつ、最終行の文字数が第２の所定文字数（Ｎ／２文字）以上の条件に合致しない場合とは、最終の提示単位字幕が単独行であり、しかも、この最終行の文字数が比較的少ない場合を意味しており、この場合には、ある提示単位字幕の提示継続時間長は、それに含まれる字幕文字数の多少に依存するといった原則から、この最終行に関わる提示継続時間長は必然的に短くなるため、最終行の字幕提示内容を見逃してしまうおそれがある。特に、否定文では否定語が文末におかれるといった日本語の特質上、例えばこの否定語部分を見逃してしまった場合には、本来の意味を誤解してしまうことにもなりかねない。
【００９５】
そこで、このような場合には、当該単位字幕文の文末から、第１の文末ポーズ点Ｐｔ１、句点Ｐｋ、又は再改行点Ｐｐの存在有無をこの優先順位に従って調査し、これら各点のうち、例えば図４に示すように、奇偶行間に最初に現れた点を含む行と、これの後続行間に空白行を挿入することにより、最終行に関わる提示継続時間長を本来のものより意図的に長く引き延ばすことで、最終行の字幕提示内容をうっかり見逃してしまうといった事態を可及的に回避し、これをもって、正確かつ確実な字幕提示内容の読みとり把握を促進するようにしている。
【００９６】
ステップＳ１２において、再改行点Ｐｐの箇所を対象として、当該単位字幕文に関する改行・改頁推奨箇所に係る分割ルールを適用することで再改行箇所の最適化を実行することにより、字幕文テキストを、所定の字幕提示形式に従う提示単位字幕へ自動的に分割する。ここで、上述した分割ルール（改行・改頁データ）について述べると、図５の図表には、自然感のある改行・改頁を行った際における、直前の形態素品詞とその頻度例が示されている。同図に示すように、分割ルール（改行・改頁データ）で定義される改行・改頁推奨箇所は、第１に句点の後ろ、第２に読点の後ろ、第３に文節と文節の間、第４に形態素品詞の間、を含んでおり、分割ルール（改行・改頁データ）を適用するにあたっては、上述した記述順の先頭から優先的に適用するのが好ましい。このようにすれば、実情に即して高精度に最適化された字幕文テキストの自動分割を実現することができる。
【００９７】
ステップＳ１２において、分割ルールを適用した再改行箇所の最適化を実行する趣旨は、本来の改行箇所である第１の文末ポーズ点Ｐｔ１では、分割ルールのうち「句点の後ろ」の適格条件を既に満たしており、これを適用した最適化の余地がないのに対し、先頭からの文字数が第１の所定文字数（Ｎ−３文字）に到達した直後の箇所で機械的に施される再改行点Ｐｐでは、分割ルールの適格条件を必ずしも満たしているとは言えず、これを適用した最適化の余地があり、したがって、この再改行箇所Ｐｐの最適化を実行することにより、単位字幕文の適切箇所における改行を保証する結果として、字幕文テキストの、所定の字幕提示形式に従う提示単位字幕への自動的な分割を担保するようにしている。
【００９８】
ステップＳ１３において、ステップＳ３又はＳ４で抽出した単位字幕文に後続する字幕文の存在有無に係る後続有無判定を行い、この後続有無判定の結果、後続する字幕文が存在する旨の判定が下されたとき、ステップＳ１へと戻り、後続する字幕文について以下の処理を繰り返す一方、後続する字幕文が存在しない旨の判定が下されたとき、字幕文テキストの自動分割処理を終了するのである。
【００９９】
これにより、字幕文テキスト中に含まれる全ての字幕文を対象とした自動分割処理を実行することができる。
【０１００】
このように、本発明に係る字幕文テキストの自動分割方法によれば、本発明で提案する日本語の特徴解析手法を用いたテキスト分割技術を適用することにより、字幕の基となる字幕文テキストを、所定の字幕提示形式に従う提示単位字幕へ自動的に分割することができる。
【０１０１】
また、本発明に係る字幕文テキストの自動分割方法によれば、字幕文テキストのなかから適宜抽出した単位字幕文のうち、最終の提示単位字幕が単独行であり、しかも、この最終行の文字数が比較的少ない場合には、抽出した単位字幕文のうち、適宜の行間に空白行を挿入することにより、最終行に関わる提示継続時間長を、本来のものより意図的に長く引き延ばすようにしたので、したがって、最終行の字幕提示内容をうっかり見逃してしまうといった事態を可及的に回避することができる結果として、正確かつ確実な字幕提示内容の読みとり把握を促進することができる。
【０１０２】
なお、本発明は、上述した実施形態の例に限定されることなく、請求の範囲内において適宜の変更を加えることにより、その他の態様で実施可能であることは言うまでもない。
【０１０３】
【発明の効果】
以上詳細に説明したように、請求項１の発明によれば、本発明で提案する日本語の特徴解析手法を用いたテキスト分割技術を適用することにより、字幕の基となる字幕文テキストを、所定の字幕提示形式に従う提示単位字幕へ自動的に分割可能な字幕文テキストの自動分割方法を得ることができる。
【０１０４】
また、請求項１の発明によれば、最終行の字幕提示内容をうっかり見逃してしまうといった事態を可及的に回避することができる結果として、正確かつ確実な字幕提示内容の読みとり把握を促進することができる。
【０１０５】
また、請求項２の発明によれば、文頭から起算して所要文字数範囲に第２の文末ポーズ点が存在しない場合であっても、可及的にひとかたまりの内容に関わる単位字幕文を意図的に抽出することができる。
【０１０６】
さらに、請求項３の発明によれば、直前行の字幕提示内容をうっかり見逃してしまうといった事態を可及的に回避することができる結果として、正確かつ確実な字幕提示内容の読みとり把握を促進することができる。
【０１０７】
さらにまた、請求項４の発明によれば、字幕文テキスト中に含まれる全ての字幕文を対象とした自動分割処理を実行することができる。
【０１０８】
しかも、請求項５の発明によれば、実情に即して高精度に最適化された字幕文テキストの自動分割を実現することができる。
【０１０９】
さらに、請求項６の発明によれば、例えば、１行当たりの制限文字数が１５文字となる標準的な字幕提示形式を採用した場合、各提示単位字幕行に含まれる１行当たりの字幕文字数は、１２乃至１５文字の範囲に収束する結果として、字幕提示時における見栄えが良好な字幕文テキストの自動分割を実現することができる。
【０１１０】
そして、請求項７の発明によれば、例えば、１行当たりの制限文字数が１５文字となる標準的な字幕提示形式を採用した場合、１行当たりの字幕文字数が少ないとみなされる文字数は７文字となり、このしきい値文字数は、例えば、字幕から目を離している１回当たりの見逃し動作時間長を０．５〜２秒間程度と想定し、字幕の提示速度を２００字／分と想定したとき、その見逃し動作時間の最大値である２秒間は約７文字に相当し、このことから、１回の見逃し動作で７文字分の字幕文字を見逃すおそれがあるとの検証結果からみて、きわめて妥当な文字数であると言うことができ、該当行の字幕提示内容をうっかり見逃してしまうといった事態を可及的に回避する効果を高い水準で期待できる結果として、正確かつ確実な字幕提示内容の読みとり把握を飛躍的に促進することができるというきわめて優れた効果を奏する。
【図面の簡単な説明】
【図１】図１は、本発明に係る字幕文テキストの自動分割方法を具現化する自動字幕番組制作システムの機能ブロック構成図である。
【図２】図２は、字幕文テキストの分割手順を表すフローチャート図である。
【図３】図３は、単位字幕文を適切箇所で仮分割した状態を表す図である。
【図４】図４は、単位字幕文のうち、適切箇所に空白行を挿入した状態を表す図である。
【図５】図５は、単位字幕文における仮分割箇所に適用される分割ルールの説明に供する図である。
【図６】図６は、アナウンス音声に対する字幕送出タイミングの同期検出技術に係る説明に供する図である。
【図７】図７は、アナウンス音声に対する字幕送出タイミングの同期検出技術に係る説明に供する図である。
【図８】図８は、現行字幕制作フロー、及び改良された現行字幕制作フローに係る説明図である。
【符号の説明】
１１自動字幕番組制作システム
１３電子化原稿記録媒体
１５同期検出装置
１７統合化装置
１９形態素解析部
２１分割ルール記憶部
２３ディジタル・ビデオ・テープ・レコーダ（Ｄ−ＶＴＲ）
３３単位字幕文抽出部
３５提示単位字幕化部
３７タイミング情報付与部

Claims

字幕番組を制作するにあたり、少なくとも字幕の基となる字幕文テキストを、所定の字幕提示形式に従う提示単位字幕へ分割する際に用いられる字幕文テキストの分割方法であって、
前記字幕文テキストのうち、文頭を起点とした所要文字数範囲を対象として、第１の所定時間を越える長さの第１の文末ポーズ点、及び句点を全て抽出し、
この抽出された第１の文末ポーズ点のうち、特に、第１の所定時間と比較して長い時間の第２の所定時間を越える長さの第２の文末ポーズ点の存在有無を調査判定し、
この調査判定の結果、第２の文末ポーズ点が存在する旨の判定が下されたとき、前記所要文字数範囲において文頭から起算して最初に現れた第２の文末ポーズ点までの範囲を単位字幕文として抽出し、
この抽出した単位字幕文を、第１の文末ポーズ点の箇所で順次改行していくことにより、当該単位字幕文の仮分割を行うとともに、この仮分割された複数の各行について、一行当たりの文字数が、所定の字幕提示形式で定義される一行当たりの制限文字数より少ない第１の所定文字数以上か否かに係る各行文字数判定を順次行い、
この各行文字数判定の結果、一行当たりの文字数が前記第１の所定文字数以上の条件に合致する該当行が存在する旨の判定が下されたとき、この該当行の各々について、先頭からの文字数が第１の所定文字数に到達した直後の箇所で再改行することにより、当該単位字幕文の仮分割を行い、
前記複数行に仮分割された単位字幕文の総行数が奇数か又は偶数かに係る奇偶判定を行い、
この奇偶判定の結果、総行数が奇数である旨の判定が下されたとき、前記仮分割された単位字幕文のうち、最終行の文字数が、前記制限文字数より少ない第２の所定文字数以上か否かに係る最終行文字数判定を行い、
この最終行文字数判定の結果、最終行の文字数が前記第２の所定文字数以上の条件に合致しない旨の判定が下されたとき、当該単位字幕文の文末から、第１の文末ポーズ点、句点、又は再改行点の存在有無をこの優先順位に従って調査し、
これら各点のうち、奇偶行間に最初に現れた点を含む行と、これの後続行間に空白行を挿入し、
前記再改行点の箇所を対象として、当該単位字幕文に関する改行・改頁推奨箇所に係る分割ルールを適用することで再改行箇所の最適化を実行することにより、前記字幕文テキストを、所定の字幕提示形式に従う提示単位字幕へ自動的に分割することを特徴とする字幕文テキストの自動分割方法。
請求項１に記載の字幕文テキストの自動分割方法であって、前記調査判定の結果、第２の文末ポーズ点が存在しない旨の判定が下されたとき、前記所要文字数範囲において文頭から起算して最後に現れた第１の文末ポーズ点までの範囲を単位字幕文として抽出し、この抽出した単位字幕文を対象として、当該単位字幕文の仮分割を含む以下の処理を実行することを特徴とする字幕文テキストの自動分割方法。
請求項１又は２のうちいずれか一項に記載の字幕文テキストの自動分割方法であって、
前記第１の文末ポーズ点、句点、又は再改行点を含む各点のうち、奇偶行間に最初に現れた点を含む行と、これの後続行間に空白行を挿入した後に、さらに、
この挿入した空白行の直前行の文字数が、所定の字幕提示形式で定義される一行当たりの制限文字数より少ない第２の所定文字数以上か否かに係る直前行文字数判定を行い、
この直前行文字数判定の結果、直前行の文字数が前記第２の所定文字数以上の条件に合致しない旨の判定が下されたとき、当該単位字幕文の文末から、第１の文末ポーズ点、句点、又は再改行点の存在有無をこの優先順位に従って調査し、
これら各点のうち、前記奇偶行間に現れた点の次に奇偶行間に現れた点を含む行と、これの後続行間に空白行を挿入し、
この空白行を挿入した後に、前記直前行文字数判定以下の処理を、直前行文字数判定の結果が、直前行の文字数が前記第２の所定文字数以上の条件に合致するに至るまで繰り返し実行することを特徴とする字幕文テキストの自動分割方法。
請求項１乃至３のうちいずれか一項に記載の字幕文テキストの自動分割方法であって、
前記再改行点の箇所を対象として、当該単位字幕文に関する改行・改頁推奨箇所に係る分割ルールを適用することで再改行箇所の最適化を実行した後に、前記抽出した単位字幕文に後続する字幕文の存在有無に係る後続有無判定を行い、
この後続有無判定の結果、後続する字幕文が存在する旨の判定が下されたとき、当初の処理工程へと戻り、後続する字幕文について以下の処理を繰り返す一方、後続する字幕文が存在しない旨の判定が下されたとき、字幕文テキストの自動分割処理を終了することを特徴とする字幕文テキストの自動分割方法。
請求項１乃至４のうちいずれか一項に記載の字幕文テキストの自動分割方法であって、
前記再改行点の箇所を対象として、当該単位字幕文に関する改行・改頁推奨箇所に係る分割ルールを適用することで再改行箇所の最適化を実行するにあたり、
当該分割ルールで定義される改行・改頁推奨箇所は、
句点の後ろ、読点の後ろ、文節と文節の間、形態素品詞の間、のうちいずれか１又は複数の組み合わせを含んでおり、
当該分割ルールを適用するにあたっては、前記記述順の先頭から優先的に適用することを特徴とする字幕文テキストの自動分割方法。
請求項１乃至５のうちいずれか一項に記載の字幕文テキストの自動分割方法であって、
前記所定の字幕提示形式で定義される一行当たりの制限文字数Ｎは１５文字であり、このとき、前記第１の所定文字数は１２（＝Ｎ−３）文字であることを特徴とする字幕文テキストの自動分割方法。
請求項１乃至６のうちいずれか一項に記載の字幕文テキストの自動分割方法であって、
前記所定の字幕提示形式で定義される一行当たりの制限文字数Ｎは１５文字であり、このとき、前記第２の所定文字数は８（＝Ｎ／２；ただし小数点以下切り上げ）文字であることを特徴とする字幕文テキストの自動分割方法。