JP4140744B2 - 字幕文テキストの自動分割方法 - Google Patents
字幕文テキストの自動分割方法 Download PDFInfo
- Publication number
- JP4140744B2 JP4140744B2 JP12759199A JP12759199A JP4140744B2 JP 4140744 B2 JP4140744 B2 JP 4140744B2 JP 12759199 A JP12759199 A JP 12759199A JP 12759199 A JP12759199 A JP 12759199A JP 4140744 B2 JP4140744 B2 JP 4140744B2
- Authority
- JP
- Japan
- Prior art keywords
- characters
- subtitle
- sentence
- line
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Studio Circuits (AREA)
Description
【発明の属する技術分野】
本発明は、ほぼ共通の電子化原稿をアナウンス用と字幕用の双方に利用する形態を想定して字幕番組を制作する字幕番組制作システムに適用される字幕文テキストの分割方法に係り、特に、本発明で提案するアナウンス音声と字幕文テキスト間の同期検出技術、及び日本語の特徴解析手法を用いたテキスト分割技術等を適用することにより、字幕の基となる字幕文テキストを、所定の字幕提示形式に従う提示単位字幕へ自動的に分割し得る字幕文テキストの自動分割方法に関する。
【0002】
【従来の技術】
現代は高度情報化社会と一般に言われているが、聴覚障害者は健常者と比較して情報の入手が困難な状況下におかれている。
【0003】
すなわち、例えば、情報メディアとして広く普及しているTV放送番組を例示して、日本国内の全TV放送番組に対する字幕番組の割合に言及すると、欧米では33〜70%に達しているのに対し、わずか10%程度ときわめて低くおかれているのが現状である。
【0004】
【発明が解決しようとする課題】
さて、日本国内の全TV放送番組に対する字幕番組の割合が欧米と比較して低くおかれている要因としては、主として字幕番組制作技術の未整備を挙げることができる。具体的には、日本語特有の問題も有り、字幕番組制作工程のほとんどが手作業によっており、多大な労力・時間・費用を要するためである。
【0005】
そこで、本発明者らは、字幕番組制作技術の整備を妨げている原因究明を企図して、現行の字幕番組制作の実体調査を行った。
【0006】
図8の左側には、現在一般に行われている字幕番組制作フローを示してある。ステップS101において、字幕番組制作者は、タイムコードを映像にスーパーした番組データと、タイムコードを音声チャンネルに記録した番組テープと、番組台本との3つの字幕原稿作成素材を放送局から受け取る。なお、図中において「タイムコード」を「TC」と略記する場合があることを付言しておく。
【0007】
ステップS103において、放送関係経験者等の専門家は、ステップS101で受け取った字幕原稿作成素材を基に、(1)番組アナウンスの要約書き起こし、(2)別途規定された字幕提示の基準となる原稿作成要領に従う字幕提示イメージ化、(3)その開始・終了タイムコード記入、の各作業を順次行ない、字幕原稿を作成する。
【0008】
ステップS105において、入力オペレータは、ステップS103で作成された字幕原稿をもとに電子化字幕を作成する。
【0009】
ステップS107において、ステップS105で作成された電子化字幕を、担当の字幕制作責任者、原稿作成者、及び入力オペレータの三者立ち会いのもとで試写・修正を行い、完成字幕とする。
【0010】
ところで、最近では、番組アナウンスの要約書き起こしと字幕の電子化双方に通じたキャプションオペレータと呼ばれる人材を養成することで、図8の右側に示す改良された現行字幕制作フローも一部実施されている。
【0011】
すなわち、ステップS111において、字幕番組制作者は、タイムコードを音声チャンネルに記録した番組テープと、番組台本との2つの字幕原稿作成素材を放送局から受け取る。
【0012】
ステップS113において、キャプションオペレータは、タイムコードを音声チャンネルに記録した番組テープを再生し、セリフの開始点でマウスのボタンをクリックすることでその点の音声チャンネルから始点タイムコードを取り出して記録する。さらに、セリフを聴取して要約電子データとして入力するとともに、字幕原稿作成要領に基づく区切り箇所に対応するセリフ点で再びマウスのボタンをクリックすることでその点の音声チャンネルから終点タイムコードを取り出して記録する。これらの操作を番組終了まで繰り返して、番組全体の字幕を電子化する。
【0013】
ステップS117において、ステップS105で作成された電子化字幕を、担当の字幕制作責任者、及びキャプションオペレータの二者立ち会いのもとで試写・修正を行い、完成字幕とする。
【0014】
後者の改良された現行字幕制作フローでは、キャプションオペレータは、タイムコードを音声チャンネルに記録した番組テープのみを使用して、セリフの要約と電子データ化を行うとともに、提示単位に分割した字幕の始点/終点にそれぞれ対応するセリフのタイミングでマウスボタンをクリックすることにより、音声チャンネルの各タイムコードを取り出して記録するものであり、かなり省力化された効果的な字幕制作フローといえる。
【0015】
さて、上述した現行字幕制作フローにおける一連の処理の流れの中で特に多大な工数を要するのは、ステップS103乃至S105又はステップS113の、(1)番組アナウンスの要約書き起こし、(2)字幕提示イメージ化、(3)その開始・終了タイムコード記入、の各作業工程であり、これらの作業工程は熟練者の知識・経験に負うところが大きい。
【0016】
しかし、現在放送中の字幕番組のなかで、予めアナウンス原稿が作成され、その原稿がほとんど修正されることなく実際の放送字幕となっていると推測される番組がいくつかある。例えば、「生きもの地球紀行」という字幕付き情報番組を実際に調べて見ると、アナウンス音声と字幕内容はほとんど共通であり、共通の原稿をアナウンス用と字幕用の双方に利用しているものと推測出来る。
【0017】
このようにアナウンス音声と字幕内容が極めて類似し、アナウンス用と字幕用の双方にほぼ共通の原稿を利用しており、その原稿が電子化されている番組を想定した場合、(1)の番組アナウンスの要約書き起こし作業はほとんど必要ないことになる。この場合、残る作業は、(2)の字幕提示イメージ化、及び(3)の開始・終了タイムコード記入、の各作業工程である。そこで、本発明者らは、これら各作業工程の簡略化を企図して鋭意研究を進めた結果、(2)の字幕提示イメージ化を、人手を介することなく自動化できる新規な技術を想到するに至ったのである。
【0018】
本発明は、上述した実情に鑑みてなされたものであり、本発明で提案する音声と字幕文テキストの同期検出技術、及び日本語の特徴解析手法を用いたテキスト分割技術等を適用することにより、字幕の基となる字幕文テキストを、所定の字幕提示形式に従う提示単位字幕へ自動的に分割し得る字幕文テキストの自動分割方法を提供することを課題とする。
【0019】
【課題を解決するための手段】
上記課題を解決するために、請求項1の発明は、字幕番組を制作するにあたり、少なくとも字幕の基となる字幕文テキストを、所定の字幕提示形式に従う提示単位字幕へ分割する際に用いられる字幕文テキストの分割方法であって、前記字幕文テキストのうち、文頭を起点とした所要文字数範囲を対象として、第1の所定時間を越える長さの第1の文末ポーズ点、及び句点を全て抽出し、この抽出された第1の文末ポーズ点のうち、特に、第1の所定時間と比較して長い時間の第2の所定時間を越える長さの第2の文末ポーズ点の存在有無を調査判定し、この調査判定の結果、第2の文末ポーズ点が存在する旨の判定が下されたとき、前記所要文字数範囲において文頭から起算して最初に現れた第2の文末ポーズ点までの範囲を単位字幕文として抽出し、この抽出した単位字幕文を、第1の文末ポーズ点の箇所で順次改行していくことにより、当該単位字幕文の仮分割を行うとともに、この仮分割された複数の各行について、一行当たりの文字数が、所定の字幕提示形式で定義される一行当たりの制限文字数より少ない第1の所定文字数以上か否かに係る各行文字数判定を順次行い、この各行文字数判定の結果、一行当たりの文字数が前記第1の所定文字数以上の条件に合致する該当行が存在する旨の判定が下されたとき、この該当行の各々について、先頭からの文字数が第1の所定文字数に到達した直後の箇所で再改行することにより、当該単位字幕文の仮分割を行い、前記複数行に仮分割された単位字幕文の総行数が奇数か又は偶数かに係る奇偶判定を行い、この奇偶判定の結果、総行数が奇数である旨の判定が下されたとき、前記仮分割された単位字幕文のうち、最終行の文字数が、前記制限文字数より少ない第2の所定文字数以上か否かに係る最終行文字数判定を行い、この最終行文字数判定の結果、最終行の文字数が前記第2の所定文字数以上の条件に合致しない旨の判定が下されたとき、当該単位字幕文の文末から、第1の文末ポーズ点、句点、又は再改行点の存在有無をこの優先順位に従って調査し、これら各点のうち、奇偶行間に最初に現れた点を含む行と、これの後続行間に空白行を挿入し、前記再改行点の箇所を対象として、当該単位字幕文に関する改行・改頁推奨箇所に係る分割ルールを適用することで再改行箇所の最適化を実行することにより、前記字幕文テキストを、所定の字幕提示形式に従う提示単位字幕へ自動的に分割することを要旨とする。
【0020】
請求項1の発明によれば、まず、字幕の基となる字幕文テキストのうち、文頭を起点とした所要文字数範囲を対象として、第1の所定時間を越える長さの第1の文末ポーズ点、及び句点を全て抽出し、この抽出された第1の文末ポーズ点のうち、特に、第1の所定時間と比較して長い時間の第2の所定時間を越える長さの第2の文末ポーズ点の存在有無を調査判定する。この調査判定の結果、第2の文末ポーズ点が存在する旨の判定が下されたとき、前記所要文字数範囲において文頭から起算して最初に現れた第2の文末ポーズ点までの範囲を単位字幕文として抽出する。
【0021】
上述した処理が、第2の文末ポーズ点が存在する場合における単位字幕文の抽出処理であり、本発明では、抽出処理で抽出された単位字幕文を一つの処理単位として取り扱い、以下に述べる各処理を順次実行する。この抽出処理において、字幕文テキストのなかから、所要文字数範囲を限度とした単位字幕文を抽出するにあたり、ある提示単位字幕中に相互に異なる内容に関わる字幕が混在する事態を回避する等の趣旨から、抽出された単位字幕文が共通したひとかたまりの意味をもつ字幕文の集合体であることが好ましい。そこで、この抽出処理では、相互に異なる内容に関わる単位字幕文間に挿入される傾向がある、改頁推奨箇所とみなすことができる比較的長い間隔をもったポーズである第2の文末ポーズ点に着目し、字幕文テキストのうち、文頭から起算して第2の文末ポーズ点までの範囲を単位字幕文として抽出することにより、ひとかたまりの内容に関わる単位字幕文を意図的に抽出するようにしている。
【0022】
次に、この抽出した単位字幕文を、第1の文末ポーズ点の箇所で順次改行していくことにより、当該単位字幕文の仮分割を行うとともに、この仮分割された複数の各行について、一行当たりの文字数が、所定の字幕提示形式で定義される一行当たりの制限文字数より少ない第1の所定文字数以上か否かに係る各行文字数判定を順次行い、この各行文字数判定の結果、一行当たりの文字数が前記第1の所定文字数以上の条件に合致する該当行が存在する旨の判定が下されたとき、この該当行の各々について、先頭からの文字数が第1の所定文字数に到達した直後の箇所で再改行することにより、当該単位字幕文の仮分割を行う。
【0023】
上述した処理が単位字幕文の仮分割処理であり、この仮分割処理を行う際に考慮すべき重要な点は、適切箇所で改行を施すこと、及び一行当たりの文字数が、所定の字幕提示形式で定義される一行当たりの制限文字数内に収束すること、の2点である。そこで、前者の適切箇所での改行については、文章の切れ目に挿入される傾向がある、改行推奨箇所とみなすことができるある長さ間隔をもったポーズである第1の文末ポーズ点に着目し、ひとかたまりの単位字幕文を、第1の文末ポーズ点の箇所で順次改行していく一方で、後者の制限文字数収束については、一行当たりの文字数が第1の所定文字数以上の条件に合致する該当行の各々について、先頭からの文字数が第1の所定文字数に到達した直後の箇所で機械的に再改行することにより、一行当たりの文字数が、制限文字数を越えない適切な文字数に収束することを考慮しながら、単位字幕文を適切箇所で仮分割するようにしている。
【0024】
次に、前記複数行に仮分割された単位字幕文の総行数が奇数か又は偶数かに係る奇偶判定を行う。この奇偶判定を行う趣旨は、例えば、所定の字幕提示形式として、2行の提示単位字幕を一括総入れ換えする字幕提示形式を採用した場合において、最終の提示単位字幕が単独行になるか否かを振り分ける趣旨である。
【0025】
上述した奇偶判定の結果、総行数が奇数である旨の判定が下されたとき、前記仮分割された単位字幕文のうち、最終行の文字数が、前記制限文字数より少ない第2の所定文字数以上か否かに係る最終行文字数判定を行い、この最終行文字数判定の結果、最終行の文字数が前記第2の所定文字数以上の条件に合致しない旨の判定が下されたとき、当該単位字幕文の文末から、第1の文末ポーズ点、句点、又は再改行点の存在有無をこの優先順位に従って調査し、これら各点のうち、奇偶行間に最初に現れた点を含む行と、これの後続行間に空白行を挿入する。
【0026】
上述した処理が空白行挿入処理であり、この空白行挿入処理を行う趣旨は、正確かつ確実な字幕提示内容の読みとり把握を促進する趣旨である。これについて詳述すると、当該単位字幕文の総行数が奇数であり、かつ、最終行の文字数が第2の所定文字数以上の条件に合致しない場合とは、最終の提示単位字幕が単独行であり、しかも、この最終行の文字数が比較的少ない場合を意味しており、この場合には、ある提示単位字幕の提示継続時間長は、それに含まれる字幕文字数の多少に依存するといった原則から、この最終行に関わる提示継続時間長は必然的に短くなるため、最終行の字幕提示内容を見逃してしまうおそれがある。特に、否定文では否定語が文末におかれるといった日本語の特質上、例えばこの否定語部分を見逃してしまった場合には、本来の意味を誤解してしまうことにもなりかねない。そこで、このような場合には、当該単位字幕文の文末から、第1の文末ポーズ点、句点、又は再改行点の存在有無をこの優先順位に従って調査し、これら各点のうち、奇偶行間に最初に現れた点を含む行と、これの後続行間に空白行を挿入することにより、最終行に関わる提示継続時間長を本来のものより意図的に長く引き延ばすことで、最終行の字幕提示内容をうっかり見逃してしまうといった事態を可及的に回避し、これをもって、正確かつ確実な字幕提示内容の読みとり把握を促進するようにしている。
【0027】
そして、前記再改行点の箇所を対象として、当該単位字幕文に関する改行・改頁推奨箇所に係る分割ルールを適用することで再改行箇所の最適化を実行することにより、前記字幕文テキストを、所定の字幕提示形式に従う提示単位字幕へ自動的に分割する。
【0028】
ここで、分割ルールを適用した再改行箇所の最適化を実行する趣旨は、本来の改行箇所である第1の文末ポーズ点では、分割ルールのうち「句点の後ろ」の適格条件を既に満たしており、これを適用した最適化の余地がないのに対し、先頭からの文字数が第1の所定文字数に到達した直後の箇所で機械的に施される再改行点では、分割ルールの適格条件を必ずしも満たしているとは言えず、これを適用した最適化の余地があり、したがって、この再改行箇所の最適化を実行することにより、単位字幕文の適切箇所における改行を保証する結果として、字幕文テキストの、所定の字幕提示形式に従う提示単位字幕への自動的な分割を担保する趣旨である。
【0029】
このように、請求項1の発明によれば、本発明で提案する日本語の特徴解析手法を用いたテキスト分割技術を適用することにより、字幕の基となる字幕文テキストを、所定の字幕提示形式に従う提示単位字幕へ自動的に分割可能な字幕文テキストの自動分割方法を得ることができる。
【0030】
また、請求項1の発明によれば、字幕文テキストのなかから適宜抽出した単位字幕文のうち、最終の提示単位字幕が単独行であり、しかも、この最終行の文字数が比較的少ない場合には、抽出した単位字幕文のうち、適宜の行間に空白行を挿入することにより、最終行に関わる提示継続時間長を、本来のものより意図的に長く引き延ばすようにしたので、したがって、最終行の字幕提示内容をうっかり見逃してしまうといった事態を可及的に回避することができる結果として、正確かつ確実な字幕提示内容の読みとり把握を促進することができる。
【0031】
また、請求項2の発明は、請求項1に記載の字幕文テキストの自動分割方法であって、前記調査判定の結果、第2の文末ポーズ点が存在しない旨の判定が下されたとき、前記所要文字数範囲において文頭から起算して最後に現れた第1の文末ポーズ点までの範囲を単位字幕文として抽出し、この抽出した単位字幕文を対象として、当該単位字幕文の仮分割を含む以下の処理を実行することを要旨とする。
【0032】
請求項2の発明によれば、前記調査判定の結果、改頁推奨箇所とみなすことができる比較的長い間隔をもったポーズである第2の文末ポーズ点が存在しない旨の判定が下されたとき、第2の文末ポーズ点に代えて、改行推奨箇所とみなすことができるある長さ間隔をもったポーズである第1の文末ポーズ点に着目し、前記所要文字数範囲において文頭から起算して最後に現れた第1の文末ポーズ点までの範囲を単位字幕文として抽出し、この抽出した単位字幕文を対象として、当該単位字幕文の仮分割を含む以下の処理を実行するので、したがって、第2の文末ポーズ点が存在しない場合であっても、可及的にひとかたまりの内容に関わる単位字幕文を意図的に抽出することができる。
【0033】
さらに、請求項3の発明は、請求項1又は2のうちいずれか一項に記載の字幕文テキストの自動分割方法であって、前記第1の文末ポーズ点、句点、又は再改行点を含む各点のうち、奇偶行間に最初に現れた点を含む行と、これの後続行間に空白行を挿入した後に、さらに、この挿入した空白行の直前行の文字数が、所定の字幕提示形式で定義される一行当たりの制限文字数より少ない第2の所定文字数以上か否かに係る直前行文字数判定を行い、この直前行文字数判定の結果、直前行の文字数が前記第2の所定文字数以上の条件に合致しない旨の判定が下されたとき、当該単位字幕文の文末から、第1の文末ポーズ点、句点、又は再改行点の存在有無をこの優先順位に従って調査し、これら各点のうち、前記奇偶行間に現れた点の次に奇偶行間に現れた点を含む行と、これの後続行間に空白行を挿入し、この空白行を挿入した後に、前記直前行文字数判定以下の処理を、直前行文字数判定の結果が、直前行の文字数が前記第2の所定文字数以上の条件に合致するに至るまで繰り返し実行することを要旨とする。
【0034】
請求項3の発明によれば、前記した空白行挿入処理後に、さらに、この挿入した空白行の直前行の文字数が、前記第2の所定文字数以上の条件に合致しない旨の判定が下されたとき、この直前行の提示継続時間長を、本来のものより意図的に長く引き延ばすようにしたので、したがって、直前行の字幕提示内容をうっかり見逃してしまうといった事態を可及的に回避することができる結果として、正確かつ確実な字幕提示内容の読みとり把握を促進することができる。
【0035】
さらにまた、請求項4の発明は、請求項1乃至3のうちいずれか一項に記載の字幕文テキストの自動分割方法であって、前記再改行点の箇所を対象として、当該単位字幕文に関する改行・改頁推奨箇所に係る分割ルールを適用することで再改行箇所の最適化を実行した後に、前記抽出した単位字幕文に後続する字幕文の存在有無に係る後続有無判定を行い、この後続有無判定の結果、後続する字幕文が存在する旨の判定が下されたとき、当初の処理工程へと戻り、後続する字幕文について以下の処理を繰り返す一方、後続する字幕文が存在しない旨の判定が下されたとき、字幕文テキストの自動分割処理を終了することを要旨とする。
【0036】
請求項4の発明によれば、前記再改行点の箇所を対象として、当該単位字幕文に関する改行・改頁推奨箇所に係る分割ルールを適用することで再改行箇所の最適化を実行した後に、前記抽出した単位字幕文に後続する字幕文が存在する旨の判定が下されたとき、当初の処理工程へと戻り、後続する字幕文について以下の処理を繰り返す一方、後続する字幕文が存在しない旨の判定が下されたとき、字幕文テキストの自動分割処理を終了するので、したがって、字幕文テキスト中に含まれる全ての字幕文を対象とした自動分割処理を実行することができる。
【0037】
しかも、請求項5の発明は、請求項1乃至4のうちいずれか一項に記載の字幕文テキストの自動分割方法であって、前記再改行点の箇所を対象として、当該単位字幕文に関する改行・改頁推奨箇所に係る分割ルールを適用することで再改行箇所の最適化を実行するにあたり、当該分割ルールで定義される改行・改頁推奨箇所は、句点の後ろ、読点の後ろ、文節と文節の間、形態素品詞の間、のうちいずれか1又は複数の組み合わせを含んでおり、当該分割ルールを適用するにあたっては、前記記述順の先頭から優先的に適用することを要旨とする。
【0038】
請求項5の発明によれば、前記再改行点の箇所を対象として、当該単位字幕文に関する改行・改頁推奨箇所に係る分割ルールを適用することで再改行箇所の最適化を実行するにあたり、当該分割ルールで定義される改行・改頁推奨箇所は、句点の後ろ、読点の後ろ、文節と文節の間、形態素品詞の間、のうちいずれか1又は複数の組み合わせを含んでおり、当該分割ルールを適用するにあたっては、前記記述順の先頭から優先的に適用するので、したがって、実情に即して高精度に最適化された字幕文テキストの自動分割を実現することができる。
【0039】
さらに、請求項6の発明は、請求項1乃至5のうちいずれか一項に記載の字幕文テキストの自動分割方法であって、前記所定の字幕提示形式で定義される一行当たりの制限文字数Nは15文字であり、このとき、前記第1の所定文字数は12(=N−3)文字であることを要旨とする。
【0040】
請求項6の発明によれば、前記所定の字幕提示形式で定義される一行当たりの制限文字数Nは15文字であり、このとき、前記第1の所定文字数は12(=N−3)文字とされるので、したがって、例えば、1行当たりの制限文字数が15文字となる標準的な字幕提示形式を採用した場合、各提示単位字幕行に含まれる1行当たりの字幕文字数は、12乃至15文字の範囲に収束する結果として、字幕提示時における見栄えが良好な字幕文テキストの自動分割を実現することができる。
【0041】
そして、請求項7の発明は、請求項1乃至6のうちいずれか一項に記載の字幕文テキストの自動分割方法であって、前記所定の字幕提示形式で定義される一行当たりの制限文字数Nは15文字であり、このとき、前記第2の所定文字数は8(=N/2;ただし小数点以下切り上げ)文字であることを要旨とする。
【0042】
請求項7の発明によれば、前記所定の字幕提示形式で定義される一行当たりの制限文字数Nは15文字であり、このとき、前記第2の所定文字数は8(=N/2;ただし小数点以下切り上げ)文字とされるので、したがって、例えば、1行当たりの制限文字数が15文字となる標準的な字幕提示形式を採用した場合、1行当たりの字幕文字数が少ないとみなされる文字数は7文字となり、このしきい値文字数は、例えば、字幕から目を離している見逃し動作時間の1回当たりの長さを0.5〜2秒間程度と想定し、字幕の提示速度を200字/分と想定したとき、その見逃し動作時間の最大値である2秒間は約7文字に相当し、このことから、1回の見逃し動作で7文字分の字幕文字を見逃すおそれがあるとの検証結果からみて、きわめて妥当な文字数であると言うことができ、該当行の字幕提示内容をうっかり見逃してしまうといった事態を可及的に回避する効果を高い水準で期待できる結果として、正確かつ確実な字幕提示内容の読みとり把握を飛躍的に促進することができる。
【0043】
【発明の実施の形態】
以下に、本発明に係る字幕文テキストの自動分割方法の一実施形態について、図に基づいて詳細に説明する。
【0044】
図1は、本発明に係る字幕文テキストの自動分割方法を具現化する自動字幕番組制作システムの機能ブロック構成図、図2は、字幕文テキストの分割手順を表すフローチャート図、図3は、単位字幕文を適切箇所で仮分割した状態を表す図、図4は、単位字幕文のうち、適切箇所に空白行を挿入した状態を表す図、図5は、単位字幕文における仮分割箇所に適用される分割ルールの説明に供する図、図6乃至図7は、アナウンス音声に対する字幕送出タイミングの同期検出技術に係る説明に供する図である。
【0045】
なお、本発明の実施形態で採用する所定の字幕提示形式として、1行当たりの制限文字数Nを15文字とし、2行からなる提示単位字幕を一括総入れ換えする字幕提示形式を例示して、以下の説明を進めることにする。
【0046】
既述したように、現在放送中の字幕番組のなかで、予めアナウンス原稿が作成され、その原稿がほとんど修正されることなく実際の放送字幕となっていると推測される番組がいくつかある。例えば、「生きもの地球紀行」という字幕付き情報番組を実際に調べて見ると、アナウンス音声と字幕内容はほぼ共通であり、ほぼ共通の原稿をアナウンス用と字幕用の両方に利用していると推測出来る。
【0047】
そこで、本発明者らは、このようにアナウンス音声と字幕の内容が極めて類似し、アナウンス用と字幕用の両方に共通の原稿を利用しており、その原稿が電子化されている番組を想定したとき、本発明で提案するアナウンス音声と字幕文テキストの同期検出技術、及び日本語の特徴解析手法を用いたテキスト分割技術等を適用することにより、字幕の基となる字幕文テキストを、所定の字幕提示形式に従う提示単位字幕へ自動的に分割し得る字幕文テキストの自動分割方法を想到するに至ったのである。
【0048】
ここで、本発明を想到するに至った背景について述べると、より読みやすく、理解しやすい字幕の観点から字幕文テキストの分割問題を考える場合、当然ながら読みやすく、理解しやすい字幕とはどのようなものかが問題となる。この問題に対する定量的に明確な回答は未だ見出せていないが、しかし、実験字幕番組の制作や字幕評価実験などの貴重な経験を通して、定性的ながら考慮すべき要素が明らかになりつつある。
【0049】
字幕の読み易さ、理解し易さの観点からは、一般にある程度以上の文字数が同時的に提示され、この提示が所要時間継続しているのが良いといわれるが、文字数や提示継続時間は、提示する字幕がどのように読まれるかと大きく関わる。
【0050】
例えば聴覚障害者が字幕付テレビ番組を見る場合を想定すると、視覚を介して、映像情報と音声情報とを交互に見ることになるので、本来字幕は間欠的にしか見ることが出来ない。そのため、音声情報をより読みやすく、理解しやすい字幕として提示することで、字幕を見ている割合を出来るだけ少なくして、その分だけ映像を多く見られるようにするのが望ましい。
【0051】
この場合の字幕の見方は、字幕の提示形式にも依存するが、例えば2行の提示単位字幕を一括入れ換えする字幕提示形式を例示し、提示される全字幕の捕捉を試みた場合、一般的には、基準となる字幕文字(例えば、音声アナウンスの進行に対応する文字)を中心として、先読み、後読みもしくはその両方を行うことになる。
【0052】
先読み、後読みもしくはその両方を行うことになる要因としては、映像の注視又はまばたきや脇見などを含む字幕から目を離している見逃し動作時間が存在するからであり、1回当たりの見逃し動作時間の長さは、経験的には0.5〜2秒間程度であると思われる。
【0053】
ここで、字幕の提示速度を200字/分と想定すると、その最大時間である2秒間は約7文字に相当し、このことから、1回の見逃し動作で7文字分の字幕文字を見逃すおそれがあることがわかる。
【0054】
このことから、基準となる字幕文字を中心に連続した14文字が最低限の提示単位として必要であり、再び字幕に注視点が戻って字幕を読み取り、認識する分を前後各5〜7文字とすると、内容の連続した24〜29文字程度の字幕を同時に画面提示するのが望ましいことがわかる。ちなみに現行の字幕放送では一行15文字で二行提示が多く、最大30文字程度まで提示されている。
【0055】
また、上記の分析結果に従い、字幕が提示されてから実際に読まれるまで最悪2秒間程度必要なものと仮定すると、文字数が7文字以下の字幕を文字数相当の時間のみ提示した場合には、この提示字幕が全く読まれないおそれがある。例えば日本語の特質上、否定文では否定語が文末におかれるので、この否定語部分が上記の状態に該当するような分割はきわめて悪い影響をもたらす可能性があり、このような分割は可及的に回避する必要がある。
【0056】
その対策として、少ない文字数への分割をしない、又は少ない文字数では提示時間を長くする、などの手法を適用するのが望ましい。
【0057】
次の問題は、例えば文間の無音区間、つまりポーズの取り扱いである。字幕文中に長いポーズが存在する場合には、このポーズの前後は相互に異なる内容に関わる字幕文である可能性が高いことから、そのポーズにまたがるような字幕提示は好ましくない。逆に極めて短いポーズが存在する場合には、このポーズの前後は相互に共通の内容に関わる字幕文である可能性が高いことから、むしろ連続した字幕文として取り扱う方が好ましい。このことから、ポーズ時間の長さを考慮した字幕文の分割手法を適用するのが望ましい。
【0058】
さらに、ひとかたまりの文字群は可能な限り分割せず、同一行に提示するのが望ましい。この例として、通常の単語のみならず、連続する漢字、カタカナ、アラビア数字、英字などがあり、(xxx)や「xxx」などと表わさるルビ、略称に対する正式呼称、注釈などもこの範疇として取り扱う。
【0059】
字幕文テキストの分割にあたっては、上述の要素を充分考慮する必要があり、本発明では、これらの各要素を取り込むとともに、日本語の特徴を統計的に設定した分割ルール(改行・改頁ルール)を適用することで、理想的とも言える字幕文テキストの分割を実現するようにしている。
【0060】
さて、本実施形態の説明に先立って、以下の説明で使用する用語の定義付けを行うと、本実施形態の説明において、提示対象となる字幕文の全体集合を「字幕文テキスト」と言い、字幕文テキストのうち、適宜の句点で区切られたひとかたまりの字幕文の部分集合を「単位字幕文」と言い、ディスプレイの表示画面上において提示単位となる字幕を「提示単位字幕」と言い、提示単位字幕に含まれる各行の個々の字幕を「提示単位字幕行」と言い、提示単位字幕行のうちの任意の文字を表現するとき、これを「字幕文字」と言うことにする。なお、表示画面上に単独の提示単位字幕行を提示するとき、「提示単位字幕」と「提示単位字幕行」とは同義となるため、この場合、「提示単位字幕行」の表現はあえて使用しないことととする。
【0061】
まず、本発明に係る字幕文テキストの自動分割方法を具現化する自動字幕番組制作システム11の概略構成について、図1を参照して説明する。
【0062】
同図に示すように、自動字幕番組制作システム11は、電子化原稿記録媒体13と、同期検出装置15と、統合化装置17と、形態素解析部19と、分割ルール記憶部21と、番組素材VTR例えばディジタル・ビデオ・テープ・レコーダ(以下、「D−VTR」と言う)23と、を含んで構成されている。
【0063】
電子化原稿記録媒体13は、例えばハードディスク記憶装置やフロッピーディスク装置等より構成され、提示対象となる字幕の全体集合を表す字幕文テキストを記憶している。なお、本実施形態では、ほぼ共通の電子化原稿をアナウンス用と字幕用の双方に利用する形態を想定しているので、電子化原稿記録媒体13に記憶される字幕文テキストの内容は、提示対象字幕と一致するばかりでなく、素材VTRに収録されたアナウンス音声とも一致しているものとする。
【0064】
同期検出装置15は、提示単位字幕文と、これを読み上げたアナウンス音声との間における時間同期を検出する機能等を有している。さらに詳しく述べると、同期検出装置15は、統合化装置17で一応確定された提示単位字幕が送られてくる毎に、この提示単位字幕の妥当性を検証する妥当性検証機能と、妥当性検証機能を発揮することで得られた検証結果が不当であるとき、この検証結果を統合化装置17宛に返答する検証結果返答機能と、妥当性検証機能を発揮することで得られた検証結果が妥当であるとき、番組素材VTRから取り込んだこの提示単位字幕に対応するアナウンス音声及びそのタイムコードを参照して、該当する提示単位字幕毎のタイミング情報、すなわち始点/終点タイムコードを検出し、検出した各始点/終点タイムコードを統合化装置17宛に送出するタイミング情報検出機能と、を有している。
【0065】
なお、上述したタイミング情報検出機能における提示単位字幕毎に付与する始点/終点タイムコードの同期検出は、本発明者らが研究開発したアナウンス音声を対象とした音声認識処理を含むアナウンス音声と字幕文テキスト間の同期検出技術を適用することで高精度に実現可能である。
【0066】
すなわち、字幕送出タイミング検出の流れは、図6に示すように、まず、かな漢字交じり文で表記されている字幕文テキストを、音声合成などで用いられている読み付け技術を用いて発音記号列に変換する。この変換には、「日本語読み付けシステム」を用いる。次に、あらかじめ学習しておいた音響モデル(HMM:隠れマルコフモデル)を参照し、「音声モデル合成システム」によりこれらの発音記号列をワード列ペアモデルと呼ぶ音声モデル(HMM)に変換する。そして、「最尤照合システム」を用いてワード列ペアモデルにアナウンス音声を通して比較照合を行うことにより、字幕送出タイミングの同期検出を行う。
【0067】
字幕送出タイミング検出の用途に用いるアルゴリズム(ワード列ペアモデル)は、キーワードスポッティングの手法を採用している。キーワードスポッティングの手法として、フォワード・バックワードアルゴリズムにより単語の事後確率を求め、その単語尤度のローカルピークを検出する方法が提案されている。ワード列ペアモデルは、図7に示すように、これを応用して字幕と音声を同期させたい点、すなわち同期点の前後でワード列1 (Keywords1)とワード列2 (Keywords2)とを連結したモデルになっており、ワード列の中点(B)で尤度を観測してそのローカルピークを検出し、ワード列2の発話開始時間を高精度に求めることを目的としている。ワード列は、音素HMMの連結により構成され、ガーベジ (Garbage)部分は全音素HMMの並列な枝として構成されている。また、アナウンサが原稿を読む場合、内容が理解しやすいように息継ぎの位置を任意に定めることから、ワード列1,2間にポーズ (Pause)を挿入している。なお、ポーズ時間の検出に関しては、素材VTRから音声とそのタイムコードが供給され、その音声レベルが指定レベル以下で連続する開始、終了タイムコードから、周知の技術で容易に達成できる。
【0068】
統合化装置17は、電子化原稿記録媒体13から読み出した字幕文テキストのうち、文頭を起点とした所要文字数範囲を目安とした単位字幕文を順次抽出する単位字幕文抽出機能と、単位字幕文抽出機能を発揮することで抽出した単位字幕文を、所望の提示形式に従う提示単位字幕に変換する提示単位字幕化機能と、提示単位字幕化機能を発揮することで変換された提示単位字幕に対し、同期検出装置15から送出されてきた提示単位字幕毎のタイミング情報である始点/終点の各タイムコードを付与するタイミング情報付与機能と、を有している。なお、文頭を起点とした所要文字数範囲とは、一行当たりの制限文字数Nを15文字と想定したとき、例えば6N文字を上限とした70〜90字幕文字程度の範囲など、テキスト文のまとまりや処理データ量等を考慮した適宜の文字数範囲を選択することができる。
【0069】
形態素解析部19は、漢字かな交じり文で表記されている単位字幕文を対象として、形態素毎に分割する分割機能と、分割機能を発揮することで分割された各形態素毎に、表現形、品詞、読み、標準表現などの付加情報を付与する付加情報付与機能と、各形態素を文節や節単位にグループ化し、いくつかの情報素列を得る情報素列取得機能と、を有している。これにより、単位字幕文は、表面素列、記号素列(品詞列)、標準素列、及び情報素列として表現される。
【0070】
分割ルール記憶部21は、図5に示すように、単位字幕文を対象とした改行・改頁箇所の最適化を行う際に参照される分割ルールを記憶する機能を有している。
【0071】
D−VTR23は、番組素材が収録されている番組素材VTRテープから、映像、音声、及びそれらのタイムコードを再生出力する機能を有している。
【0072】
次に、自動字幕番組制作システム11において主要な役割を果たす統合化装置17の内部構成について説明していく。
【0073】
統合化装置17は、単位字幕文抽出部33と、提示単位字幕化部35と、タイミング情報付与部37と、を含んで構成されている。
【0074】
単位字幕文抽出部33は、電子化原稿記録媒体13から読み出した、単位字幕文が提示時間順に配列された字幕文テキストのなかから、例えば70〜90字幕文字程度を目安として、少なくとも提示単位字幕行に含まれる文字数よりも多い文字数を呈する提示対象となる単位字幕文を、付加した区切り可能箇所情報等を活用するなどして処理単位とするテキスト文を順次抽出する機能を有している。なお、区切り可能箇所情報としては、形態素解析部19で得られた文節データ付き形態素解析データ、及び分割ルール記憶部21に記憶されている分割ルール(改行・改頁データ)を利用することもできる。
【0075】
提示単位字幕化部35は、単位字幕文抽出部33で抽出した単位字幕文、単位字幕文に付加した区切り可能箇所情報、及び同期検出装置15からの情報等に基づいて、単位字幕文抽出部33で抽出した単位字幕文を、所望の提示形式に従う少なくとも1以上の提示単位字幕に変換する提示単位字幕化機能を有している。
【0076】
タイミング情報付与部37は、提示単位字幕化部35で変換された提示単位字幕に対し、同期検出装置15から送出されてきた提示単位字幕毎のタイミング情報である始点/終点の各タイムコードを付与するタイミング情報付与機能を有している。
【0077】
次に、本発明に係る字幕文テキストの分割手順について、図2に示す動作フローチャート図を参照しつつ説明する。
【0078】
ステップS1において、字幕文テキストのうち、文頭を起点とした例えば6N文字(=90文字)程度の所要文字数範囲を対象として、例えば1秒間などの第1の所定時間t1を越える長さを呈する文末に存在する無音区間、つまり第1の文末ポーズ点Pt1、及び句点を全て抽出する。ここで抽出した第1の文末ポーズ点Pt1のうち、特に、第1の所定時間t1と比較して長い時間の例えば2秒間などの第2の所定時間t2を越える長さの文末ポーズ点を第2の文末ポーズ点Pt2と呼び、これらの文末ポーズ点Pt1,Pt2を除く句点をPkと呼ぶことにする。
【0079】
ステップS2において、所要文字数範囲内における第2の文末ポーズ点Pt2の存在有無を調査判定する。この調査判定の結果、第2の文末ポーズ点Pt2が存在する旨の判定が下されたときにはステップS3へ進む一方、第2の文末ポーズ点Pt2が存在しない旨の判定が下されたときにはステップS4へ進む。
【0080】
ステップS2における調査判定の結果、第2の文末ポーズ点Pt2が存在する旨の判定が下されたとき、ステップS3において、前記所要文字数範囲において文頭から起算して最初に現れた第2の文末ポーズ点Pt2までの範囲を単位字幕文として抽出する。
【0081】
一方、ステップS2における調査判定の結果、第2の文末ポーズ点Pt2が存在しない旨の判定が下されたとき、ステップS4において、前記所要文字数範囲において文頭から起算して最後に現れた第1の文末ポーズ点Pt1までの範囲を単位字幕文として抽出する。
【0082】
上述したステップS1乃至S4の処理が単位字幕文の抽出処理であり、本発明での提示単位字幕化は、抽出処理で抽出された単位字幕文を一つの処理単位として取り扱い、以下に述べる各処理を順次実行する。この抽出処理において、字幕文テキストのなかから、所要文字数範囲を限度とした単位字幕文を抽出するにあたり、ある提示単位字幕中に相互に異なる内容に関わる字幕が混在する事態を回避する等の趣旨から、抽出された単位字幕文が共通したひとかたまりの内容に関わる字幕文の集合体であることが好ましい。
【0083】
そこで、この抽出処理では、相互に異なる内容に関わる単位字幕文間に挿入される傾向がある、改頁推奨箇所とみなすことができる比較的長い間隔をもったポーズである第2の文末ポーズ点Pt2に着目し、字幕文テキストのうち、文頭から起算して第2の文末ポーズ点Pt2までの範囲を単位字幕文として抽出することにより、ひとかたまりの内容に関わる単位字幕文を意図的に抽出するようにしている。
【0084】
また、ステップS2の調査判定の結果、改頁推奨箇所とみなすことができる比較的長い間隔をもったポーズである第2の文末ポーズ点Pt2が存在しない旨の判定が下されたときには、第2の文末ポーズ点Pt2に代えて、改行推奨箇所とみなすことができるある長さ間隔をもったポーズである第1の文末ポーズ点Pt1に着目し、前記所要文字数範囲において文頭から起算して最後に現れた第1の文末ポーズ点Pt1までの範囲を単位字幕文として抽出することにより、第2の文末ポーズ点Pt2が存在しない場合であっても、可及的にひとかたまりの内容に関わる単位字幕文を意図的に抽出するようにしている。
【0085】
ステップS5において、ステップS3又はS4で抽出した単位字幕文を、第1の文末ポーズ点Pt1の箇所で順次改行していくことにより、単位字幕文の仮分割を行う。
【0086】
ステップS6において、ステップS5で仮分割された複数の各行について、一行当たりの文字数が、所定の字幕提示形式で定義される一行当たりの制限文字数Nより少ない例えばN−3文字(=12文字)などの第1の所定文字数以上か否かに係る各行文字数判定を順次行い、この各行文字数判定の結果、一行当たりの文字数が第1の所定文字数以上の条件に合致する該当行が存在する旨の判定が下されたときにはステップS7へ進む一方、該当行が存在しない旨の判定が下されたときにはステップS8へ進む。ステップS6の各行文字数判定は、ステップS5で仮分割された複数の各行に含まれる文字数が、一行当たりの制限文字数Nを考慮したときに適正文字数に収束しているか否かを振り分ける趣旨である。
【0087】
ステップS6の各行文字数判定の結果、該当行が存在する旨の判定が下されたとき、この該当行の各々について、先頭からの文字数が第1の所定文字数N−3文字(=12文字)に到達した直後の箇所で再改行することにより、当該単位字幕文の仮分割を行い、この再改行処理後にステップS6へ戻り、該当行が存在しなくなるまでステップS6乃至S7の各処理を繰り返し行う。なお、ステップS7での再改行箇所を再改行点Ppと呼ぶことにする。
【0088】
上述したステップS5乃至S7の処理が単位字幕文の仮分割処理であり、この仮分割処理を行う際に考慮すべき重要な点は、適切箇所で改行を施すこと、及び一行当たりの文字数が、所定の字幕提示形式で定義される一行当たりの制限文字数N内に収束すること、の2点である。
【0089】
そこで、例えば図3に示すように、前者の適切箇所での改行については、文章の切れ目に挿入される傾向がある、改行推奨箇所とみなすことができるある長さ間隔をもったポーズである第1の文末ポーズ点Pt1に着目し、ひとかたまりの単位字幕文を、第1の文末ポーズ点Pt1の箇所で順次改行していく一方で、後者の制限文字数収束については、一行当たりの文字数が第1の所定文字数N−3文字(=12文字)以上の条件に合致する該当行の各々について、先頭からの文字数が第1の所定文字数に到達した直後の箇所で機械的に再改行することにより、一行当たりの文字数が、制限文字数Nを越えない適切な文字数に収束することを考慮しながら、単位字幕文を適切箇所で仮分割するようにしている。
【0090】
ステップS8において、ステップS5乃至S7で複数行に仮分割された単位字幕文の総行数が奇数か又は偶数かに係る奇偶判定を行い、この奇偶判定の結果、総行数が奇数のときにはステップS9へ進む一方、総行数が偶数のときにはステップS12へ進む。この奇偶判定は、例えば、所定の字幕提示形式として、2行の提示単位字幕を一括総入れ換えする字幕提示形式を採用した場合において、最終の提示単位字幕が単独行になるか否かを振り分ける趣旨である。
【0091】
ステップS8における奇偶判定の結果、総行数が奇数である旨の判定が下されたとき、ステップS9において、仮分割された単位字幕文のうち、最終行の文字数が、制限文字数Nより少ない例えばN/2文字(=8文字、ただし、端数は繰り上げ)などの第2の所定文字数以上か否かに係る最終行文字数判定を行い、この最終行文字数判定の結果、最終行の文字数が第2の所定文字数(N/2文字)以上の条件に合致しない旨の判定が下されたときにはステップS10へ進む一方、この条件に合致する旨の判定が下されたときにはステップS12へ進む。
【0092】
ステップS9の最終行文字数判定の結果、最終行の文字数が第2の所定文字数(N/2文字)以上の条件に合致しない旨の判定が下されたとき、ステップS10において、当該単位字幕文の文末から、第1の文末ポーズ点Pt1、句点Pk、又は再改行点Ppの存在有無をこの優先順位に従って調査し、これら各点のうち、奇偶行間に最初に現れた点を含む行と、これの後続行間に空白行を挿入することで、この後続行を次頁に送って、最終行を二行化する。
【0093】
ステップS11において、ステップS10で挿入した空白行の直前行の文字数が、第2の所定文字数(N/2文字)以上か否かに係る直前行文字数判定を行い、この直前行文字数判定の結果、直前行の文字数が前記第2の所定文字数以上の条件に合致しない旨の判定が下されたときにはステップS10へ戻るとともに直前の空白行挿入を取り消し、ステップS10乃至S11の処理を、ステップS11における直前行文字数判定の結果が、直前行の文字数が第2の所定文字数(N/2文字)以上の条件に合致するに至るまで繰り返し実行する。
【0094】
上述したステップS9乃至S11の処理が空白行挿入処理であり、この空白行挿入処理は、正確かつ確実な字幕提示内容の読みとり把握を促進する趣旨である。これについて詳述すると、当該単位字幕文の総行数が奇数であり、かつ、最終行の文字数が第2の所定文字数(N/2文字)以上の条件に合致しない場合とは、最終の提示単位字幕が単独行であり、しかも、この最終行の文字数が比較的少ない場合を意味しており、この場合には、ある提示単位字幕の提示継続時間長は、それに含まれる字幕文字数の多少に依存するといった原則から、この最終行に関わる提示継続時間長は必然的に短くなるため、最終行の字幕提示内容を見逃してしまうおそれがある。特に、否定文では否定語が文末におかれるといった日本語の特質上、例えばこの否定語部分を見逃してしまった場合には、本来の意味を誤解してしまうことにもなりかねない。
【0095】
そこで、このような場合には、当該単位字幕文の文末から、第1の文末ポーズ点Pt1、句点Pk、又は再改行点Ppの存在有無をこの優先順位に従って調査し、これら各点のうち、例えば図4に示すように、奇偶行間に最初に現れた点を含む行と、これの後続行間に空白行を挿入することにより、最終行に関わる提示継続時間長を本来のものより意図的に長く引き延ばすことで、最終行の字幕提示内容をうっかり見逃してしまうといった事態を可及的に回避し、これをもって、正確かつ確実な字幕提示内容の読みとり把握を促進するようにしている。
【0096】
ステップS12において、再改行点Ppの箇所を対象として、当該単位字幕文に関する改行・改頁推奨箇所に係る分割ルールを適用することで再改行箇所の最適化を実行することにより、字幕文テキストを、所定の字幕提示形式に従う提示単位字幕へ自動的に分割する。ここで、上述した分割ルール(改行・改頁データ)について述べると、図5の図表には、自然感のある改行・改頁を行った際における、直前の形態素品詞とその頻度例が示されている。同図に示すように、分割ルール(改行・改頁データ)で定義される改行・改頁推奨箇所は、第1に句点の後ろ、第2に読点の後ろ、第3に文節と文節の間、第4に形態素品詞の間、を含んでおり、分割ルール(改行・改頁データ)を適用するにあたっては、上述した記述順の先頭から優先的に適用するのが好ましい。このようにすれば、実情に即して高精度に最適化された字幕文テキストの自動分割を実現することができる。
【0097】
ステップS12において、分割ルールを適用した再改行箇所の最適化を実行する趣旨は、本来の改行箇所である第1の文末ポーズ点Pt1では、分割ルールのうち「句点の後ろ」の適格条件を既に満たしており、これを適用した最適化の余地がないのに対し、先頭からの文字数が第1の所定文字数(N−3文字)に到達した直後の箇所で機械的に施される再改行点Ppでは、分割ルールの適格条件を必ずしも満たしているとは言えず、これを適用した最適化の余地があり、したがって、この再改行箇所Ppの最適化を実行することにより、単位字幕文の適切箇所における改行を保証する結果として、字幕文テキストの、所定の字幕提示形式に従う提示単位字幕への自動的な分割を担保するようにしている。
【0098】
ステップS13において、ステップS3又はS4で抽出した単位字幕文に後続する字幕文の存在有無に係る後続有無判定を行い、この後続有無判定の結果、後続する字幕文が存在する旨の判定が下されたとき、ステップS1へと戻り、後続する字幕文について以下の処理を繰り返す一方、後続する字幕文が存在しない旨の判定が下されたとき、字幕文テキストの自動分割処理を終了するのである。
【0099】
これにより、字幕文テキスト中に含まれる全ての字幕文を対象とした自動分割処理を実行することができる。
【0100】
このように、本発明に係る字幕文テキストの自動分割方法によれば、本発明で提案する日本語の特徴解析手法を用いたテキスト分割技術を適用することにより、字幕の基となる字幕文テキストを、所定の字幕提示形式に従う提示単位字幕へ自動的に分割することができる。
【0101】
また、本発明に係る字幕文テキストの自動分割方法によれば、字幕文テキストのなかから適宜抽出した単位字幕文のうち、最終の提示単位字幕が単独行であり、しかも、この最終行の文字数が比較的少ない場合には、抽出した単位字幕文のうち、適宜の行間に空白行を挿入することにより、最終行に関わる提示継続時間長を、本来のものより意図的に長く引き延ばすようにしたので、したがって、最終行の字幕提示内容をうっかり見逃してしまうといった事態を可及的に回避することができる結果として、正確かつ確実な字幕提示内容の読みとり把握を促進することができる。
【0102】
なお、本発明は、上述した実施形態の例に限定されることなく、請求の範囲内において適宜の変更を加えることにより、その他の態様で実施可能であることは言うまでもない。
【0103】
【発明の効果】
以上詳細に説明したように、請求項1の発明によれば、本発明で提案する日本語の特徴解析手法を用いたテキスト分割技術を適用することにより、字幕の基となる字幕文テキストを、所定の字幕提示形式に従う提示単位字幕へ自動的に分割可能な字幕文テキストの自動分割方法を得ることができる。
【0104】
また、請求項1の発明によれば、最終行の字幕提示内容をうっかり見逃してしまうといった事態を可及的に回避することができる結果として、正確かつ確実な字幕提示内容の読みとり把握を促進することができる。
【0105】
また、請求項2の発明によれば、文頭から起算して所要文字数範囲に第2の文末ポーズ点が存在しない場合であっても、可及的にひとかたまりの内容に関わる単位字幕文を意図的に抽出することができる。
【0106】
さらに、請求項3の発明によれば、直前行の字幕提示内容をうっかり見逃してしまうといった事態を可及的に回避することができる結果として、正確かつ確実な字幕提示内容の読みとり把握を促進することができる。
【0107】
さらにまた、請求項4の発明によれば、字幕文テキスト中に含まれる全ての字幕文を対象とした自動分割処理を実行することができる。
【0108】
しかも、請求項5の発明によれば、実情に即して高精度に最適化された字幕文テキストの自動分割を実現することができる。
【0109】
さらに、請求項6の発明によれば、例えば、1行当たりの制限文字数が15文字となる標準的な字幕提示形式を採用した場合、各提示単位字幕行に含まれる1行当たりの字幕文字数は、12乃至15文字の範囲に収束する結果として、字幕提示時における見栄えが良好な字幕文テキストの自動分割を実現することができる。
【0110】
そして、請求項7の発明によれば、例えば、1行当たりの制限文字数が15文字となる標準的な字幕提示形式を採用した場合、1行当たりの字幕文字数が少ないとみなされる文字数は7文字となり、このしきい値文字数は、例えば、字幕から目を離している1回当たりの見逃し動作時間長を0.5〜2秒間程度と想定し、字幕の提示速度を200字/分と想定したとき、その見逃し動作時間の最大値である2秒間は約7文字に相当し、このことから、1回の見逃し動作で7文字分の字幕文字を見逃すおそれがあるとの検証結果からみて、きわめて妥当な文字数であると言うことができ、該当行の字幕提示内容をうっかり見逃してしまうといった事態を可及的に回避する効果を高い水準で期待できる結果として、正確かつ確実な字幕提示内容の読みとり把握を飛躍的に促進することができるというきわめて優れた効果を奏する。
【図面の簡単な説明】
【図1】図1は、本発明に係る字幕文テキストの自動分割方法を具現化する自動字幕番組制作システムの機能ブロック構成図である。
【図2】図2は、字幕文テキストの分割手順を表すフローチャート図である。
【図3】図3は、単位字幕文を適切箇所で仮分割した状態を表す図である。
【図4】図4は、単位字幕文のうち、適切箇所に空白行を挿入した状態を表す図である。
【図5】図5は、単位字幕文における仮分割箇所に適用される分割ルールの説明に供する図である。
【図6】図6は、アナウンス音声に対する字幕送出タイミングの同期検出技術に係る説明に供する図である。
【図7】図7は、アナウンス音声に対する字幕送出タイミングの同期検出技術に係る説明に供する図である。
【図8】図8は、現行字幕制作フロー、及び改良された現行字幕制作フローに係る説明図である。
【符号の説明】
11 自動字幕番組制作システム
13 電子化原稿記録媒体
15 同期検出装置
17 統合化装置
19 形態素解析部
21 分割ルール記憶部
23 ディジタル・ビデオ・テープ・レコーダ(D−VTR)
33 単位字幕文抽出部
35 提示単位字幕化部
37 タイミング情報付与部
Claims (7)
- 字幕番組を制作するにあたり、少なくとも字幕の基となる字幕文テキストを、所定の字幕提示形式に従う提示単位字幕へ分割する際に用いられる字幕文テキストの分割方法であって、
前記字幕文テキストのうち、文頭を起点とした所要文字数範囲を対象として、第1の所定時間を越える長さの第1の文末ポーズ点、及び句点を全て抽出し、
この抽出された第1の文末ポーズ点のうち、特に、第1の所定時間と比較して長い時間の第2の所定時間を越える長さの第2の文末ポーズ点の存在有無を調査判定し、
この調査判定の結果、第2の文末ポーズ点が存在する旨の判定が下されたとき、前記所要文字数範囲において文頭から起算して最初に現れた第2の文末ポーズ点までの範囲を単位字幕文として抽出し、
この抽出した単位字幕文を、第1の文末ポーズ点の箇所で順次改行していくことにより、当該単位字幕文の仮分割を行うとともに、この仮分割された複数の各行について、一行当たりの文字数が、所定の字幕提示形式で定義される一行当たりの制限文字数より少ない第1の所定文字数以上か否かに係る各行文字数判定を順次行い、
この各行文字数判定の結果、一行当たりの文字数が前記第1の所定文字数以上の条件に合致する該当行が存在する旨の判定が下されたとき、この該当行の各々について、先頭からの文字数が第1の所定文字数に到達した直後の箇所で再改行することにより、当該単位字幕文の仮分割を行い、
前記複数行に仮分割された単位字幕文の総行数が奇数か又は偶数かに係る奇偶判定を行い、
この奇偶判定の結果、総行数が奇数である旨の判定が下されたとき、前記仮分割された単位字幕文のうち、最終行の文字数が、前記制限文字数より少ない第2の所定文字数以上か否かに係る最終行文字数判定を行い、
この最終行文字数判定の結果、最終行の文字数が前記第2の所定文字数以上の条件に合致しない旨の判定が下されたとき、当該単位字幕文の文末から、第1の文末ポーズ点、句点、又は再改行点の存在有無をこの優先順位に従って調査し、
これら各点のうち、奇偶行間に最初に現れた点を含む行と、これの後続行間に空白行を挿入し、
前記再改行点の箇所を対象として、当該単位字幕文に関する改行・改頁推奨箇所に係る分割ルールを適用することで再改行箇所の最適化を実行することにより、前記字幕文テキストを、所定の字幕提示形式に従う提示単位字幕へ自動的に分割することを特徴とする字幕文テキストの自動分割方法。 - 請求項1に記載の字幕文テキストの自動分割方法であって、前記調査判定の結果、第2の文末ポーズ点が存在しない旨の判定が下されたとき、前記所要文字数範囲において文頭から起算して最後に現れた第1の文末ポーズ点までの範囲を単位字幕文として抽出し、この抽出した単位字幕文を対象として、当該単位字幕文の仮分割を含む以下の処理を実行することを特徴とする字幕文テキストの自動分割方法。
- 請求項1又は2のうちいずれか一項に記載の字幕文テキストの自動分割方法であって、
前記第1の文末ポーズ点、句点、又は再改行点を含む各点のうち、奇偶行間に最初に現れた点を含む行と、これの後続行間に空白行を挿入した後に、さらに、
この挿入した空白行の直前行の文字数が、所定の字幕提示形式で定義される一行当たりの制限文字数より少ない第2の所定文字数以上か否かに係る直前行文字数判定を行い、
この直前行文字数判定の結果、直前行の文字数が前記第2の所定文字数以上の条件に合致しない旨の判定が下されたとき、当該単位字幕文の文末から、第1の文末ポーズ点、句点、又は再改行点の存在有無をこの優先順位に従って調査し、
これら各点のうち、前記奇偶行間に現れた点の次に奇偶行間に現れた点を含む行と、これの後続行間に空白行を挿入し、
この空白行を挿入した後に、前記直前行文字数判定以下の処理を、直前行文字数判定の結果が、直前行の文字数が前記第2の所定文字数以上の条件に合致するに至るまで繰り返し実行することを特徴とする字幕文テキストの自動分割方法。 - 請求項1乃至3のうちいずれか一項に記載の字幕文テキストの自動分割方法であって、
前記再改行点の箇所を対象として、当該単位字幕文に関する改行・改頁推奨箇所に係る分割ルールを適用することで再改行箇所の最適化を実行した後に、前記抽出した単位字幕文に後続する字幕文の存在有無に係る後続有無判定を行い、
この後続有無判定の結果、後続する字幕文が存在する旨の判定が下されたとき、当初の処理工程へと戻り、後続する字幕文について以下の処理を繰り返す一方、後続する字幕文が存在しない旨の判定が下されたとき、字幕文テキストの自動分割処理を終了することを特徴とする字幕文テキストの自動分割方法。 - 請求項1乃至4のうちいずれか一項に記載の字幕文テキストの自動分割方法であって、
前記再改行点の箇所を対象として、当該単位字幕文に関する改行・改頁推奨箇所に係る分割ルールを適用することで再改行箇所の最適化を実行するにあたり、
当該分割ルールで定義される改行・改頁推奨箇所は、
句点の後ろ、読点の後ろ、文節と文節の間、形態素品詞の間、のうちいずれか1又は複数の組み合わせを含んでおり、
当該分割ルールを適用するにあたっては、前記記述順の先頭から優先的に適用することを特徴とする字幕文テキストの自動分割方法。 - 請求項1乃至5のうちいずれか一項に記載の字幕文テキストの自動分割方法であって、
前記所定の字幕提示形式で定義される一行当たりの制限文字数Nは15文字であり、このとき、前記第1の所定文字数は12(=N−3)文字であることを特徴とする字幕文テキストの自動分割方法。 - 請求項1乃至6のうちいずれか一項に記載の字幕文テキストの自動分割方法であって、
前記所定の字幕提示形式で定義される一行当たりの制限文字数Nは15文字であり、このとき、前記第2の所定文字数は8(=N/2;ただし小数点以下切り上げ)文字であることを特徴とする字幕文テキストの自動分割方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP12759199A JP4140744B2 (ja) | 1999-05-07 | 1999-05-07 | 字幕文テキストの自動分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP12759199A JP4140744B2 (ja) | 1999-05-07 | 1999-05-07 | 字幕文テキストの自動分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000324394A JP2000324394A (ja) | 2000-11-24 |
JP4140744B2 true JP4140744B2 (ja) | 2008-08-27 |
Family
ID=14963877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP12759199A Expired - Fee Related JP4140744B2 (ja) | 1999-05-07 | 1999-05-07 | 字幕文テキストの自動分割方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4140744B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102082924A (zh) * | 2009-11-30 | 2011-06-01 | 新奥特(北京)视频技术有限公司 | 应用字幕模板替换字幕的方法及装置 |
CN102082923A (zh) * | 2009-11-30 | 2011-06-01 | 新奥特(北京)视频技术有限公司 | 字幕模板的字幕替换方法及装置 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4538618B2 (ja) * | 2001-05-17 | 2010-09-08 | 独立行政法人情報通信研究機構 | 字幕番組制作システムにおける表示単位字幕文の自動生成方法 |
JP2002351490A (ja) * | 2001-05-29 | 2002-12-06 | Telecommunication Advancement Organization Of Japan | 字幕へのタイミング情報付与方法 |
JP2005269205A (ja) * | 2004-03-18 | 2005-09-29 | National Institute Of Information & Communication Technology | 逐次型高速字幕制作システム |
JP4882782B2 (ja) * | 2007-02-15 | 2012-02-22 | 船井電機株式会社 | 字幕放送表示システム及び放送受信装置 |
CN110765889B (zh) * | 2019-09-29 | 2024-06-25 | 平安直通咨询有限公司上海分公司 | 法律文书的特征提取方法、相关装置及存储介质 |
-
1999
- 1999-05-07 JP JP12759199A patent/JP4140744B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102082924A (zh) * | 2009-11-30 | 2011-06-01 | 新奥特(北京)视频技术有限公司 | 应用字幕模板替换字幕的方法及装置 |
CN102082923A (zh) * | 2009-11-30 | 2011-06-01 | 新奥特(北京)视频技术有限公司 | 字幕模板的字幕替换方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2000324394A (ja) | 2000-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105245917B (zh) | 一种多媒体语音字幕生成的系统和方法 | |
US20070011012A1 (en) | Method, system, and apparatus for facilitating captioning of multi-media content | |
US7676373B2 (en) | Displaying text of speech in synchronization with the speech | |
CN105704538A (zh) | 一种音视频字幕生成方法及系统 | |
CN103559214A (zh) | 视频自动生成方法及装置 | |
JP4140745B2 (ja) | 字幕へのタイミング情報付与方法 | |
JP2012181358A (ja) | テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム | |
US12099815B2 (en) | Providing subtitle for video content in spoken language | |
JP3873926B2 (ja) | 字幕挿入方法、字幕挿入システム、および字幕挿入プログラム | |
JP2018033048A (ja) | メタデータ生成システム | |
CN110781649A (zh) | 一种字幕编辑方法、装置及计算机存储介质、电子设备 | |
JP4140744B2 (ja) | 字幕文テキストの自動分割方法 | |
CN115269884A (zh) | 生成视频语料的方法、装置及相关设备 | |
EP3839953A1 (en) | Automatic caption synchronization and positioning | |
JP4210723B2 (ja) | 自動字幕番組制作システム | |
JP4538618B2 (ja) | 字幕番組制作システムにおける表示単位字幕文の自動生成方法 | |
JP4496358B2 (ja) | オープンキャプションに対する字幕表示制御方法 | |
CN116017088A (zh) | 视频字幕处理方法、装置、电子设备和存储介质 | |
JP2003186491A (ja) | 電子化テキスト作成支援システム | |
JP3969570B2 (ja) | 逐次自動字幕制作処理システム | |
US7353175B2 (en) | Apparatus, method, and program for speech synthesis with capability of providing word meaning immediately upon request by a user | |
JP2002351490A (ja) | 字幕へのタイミング情報付与方法 | |
JP4500957B2 (ja) | 字幕制作システム | |
CN114245224A (zh) | 一种基于用户输入文本的配音视频生成方法及系统 | |
Lietaert | On the “Obviousness” of Satire |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20040513 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20040517 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20040903 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060224 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060302 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20060227 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080116 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080509 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080604 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110620 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110620 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120620 Year of fee payment: 4 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120620 Year of fee payment: 4 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120620 Year of fee payment: 4 |
|
R370 | Written measure of declining of transfer procedure |
Free format text: JAPANESE INTERMEDIATE CODE: R370 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120620 Year of fee payment: 4 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120620 Year of fee payment: 4 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130620 Year of fee payment: 5 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |