JP2007259121A

JP2007259121A - 字幕データ処理方法、字幕データ処理プログラム及び字幕データ処理装置

Info

Publication number: JP2007259121A
Application number: JP2006081438A
Authority: JP
Inventors: Osamu Isaka; 治井坂; Haruo Kochi; 晴雄東風; Mitsuru Takahashi; 充高橋
Original assignee: Daikin Industries Ltd
Current assignee: Daikin Industries Ltd
Priority date: 2006-03-23
Filing date: 2006-03-23
Publication date: 2007-10-04
Anticipated expiration: 2026-03-23
Also published as: JP4353198B2

Abstract

【課題】一連の文字群が複数の領域に亘って表示される場合であっても、より正確な文章を取得し、より有益なデータを効率よく生成することができる字幕データ処理方法、字幕データ処理プログラム及び字幕データ処理装置を提供する。
【解決手段】表示選択字幕データ処理部７０５は、ルビ特定条件に一致するルビのセグメントを削除する放送字幕ルビ処理を行なった後、１つの画面に２行以上の字幕があり、かつ２つ以上のセグメントを含む行がある場合には、セグメント毎に並び替え処理を行なう。この並び替え処理において、連続セグメントの条件を充足する場合には、このセグメントを先行セグメントの直後に配置するように、セグメントのテキストデータの移動を行なう。これにより、字幕データ中で分離された話し言葉が一連の文字群となったテキストデータ（字幕メタデータ）を生成して、タイムコード付加処理部７０７に供給する。
【選択図】図５

Description

本発明は、放送信号に含まれる字幕情報を利用して、放送の検索を可能とするための字幕データ処理方法、字幕データ処理プログラム及び字幕データ処理装置に関する。

通常、テレビジョン放送として放送される番組のデータには、映像データと音声データが含まれている。そして、放送される番組データには、表示させるか否かをユーザ側で選択可能な字幕データが含まれている場合がある。このような選択可能な字幕データは、一般にクローズドキャプション（closed caption）と称され、主に、聴覚障害者用に開発されたものである。この字幕の中には、出演者の会話だけではなく、例えば、ＢＧＭや効果音などの説明も含まれる。

このクローズドキャプションは、テレビジョン信号の２１番目の水平走査線に、画面に関する音声等を文字コード化したものを挿入する。クローズドキャプションのデータは、専用のデコーダによってテレビジョン信号から分離することができる。

このようなクローズドキャプションのデータに基づき映像を検索する映像検索装置に関する技術が開示されている（例えば、特許文献１を参照。）。この特許文献１に記載の映像検索装置では、入力部から「検索準備」の指示を受けると、映像再生部が媒体の再生を開始し、デコーダがテレビジョン信号をデコードしてクローズドキャプションデータを取得し、メモリに格納する。そして、入力部から「検索要求設定」を受けると、文章検索部においてメモリ内のクローズドキャプションデータを検索し、この検索結果をメモリに保存する。更に、メモリに記録された検索結果を読み出してデコーダへ送り、デコーダでテレビジョン信号に変換して、映像表示部に表示する。これにより、クローズドキャプションの文字情報を利用して映像の内容を容易に検索することができる。

また、表示するか否かをユーザが選択することが可能なテキストデータを用いてメタデータを生成する技術も開示されている（例えば、特許文献２を参照。）。この特許文献２に記載の情報処理装置においては、放送信号を取得し、この放送信号から番組を固有に区別可能な区別情報を取得する。そして、放送信号に、時刻情報と区別情報とを付加する。これにより、テキストデータに対応する時刻情報と番組を区別する区別情報を有するメタデータを用いて検索することができる。
特開平７−２１２７０８号公報（第１頁）特開２００５−１９８２０６号公報（第１頁）

ところで、対話の画面などでは、各話者の近くに、その発言の字幕を表示させることがある。このとき、発言が長い場合には、それらの発言を分割して複数行に亘って段組表示することがある。この場合、映像データの走査方向に字幕データを抽出してテキストデータを生成すると、段組が考慮されず複数の話者の発言が入れ子状態になってしなうことがある。これでは、このテキストデータからメタデータを生成しても、的確なデータを生成することができず、このようなメタデータでは正確な検索を行なうことが難しくなる。

本発明は、上記課題を解決するためになされたものであり、その目的は、一連の文字群が複数行に亘って表示される場合であっても、より的確なテキストデータを生成することができる字幕データ処理方法、字幕データ処理プログラム及び字幕データ処理装置を提供
することにある。

上記問題点を解決するために、請求項１に記載の発明は、映像信号から抽出した字幕データを処理する字幕データ処理方法であって、一画面に含まれる字幕データの行数を取得し、２行以上の有無を判定する複数行判定処理を行なう段階と、前記字幕データが２行以上ある場合には、セグメント判定条件に基づいて、前記字幕データの各行に含まれる個々のセグメントの各行内での位置を特定する特定段階と、特定された前記位置から前記セグメントが異なる他の行のセグメントに対して接続関係であると判定される接続判定条件を満たすか否かを判定する接続判定処理を行なう段階と、この接続判定処理において接続関係にあると判定された前記セグメント同士が隣り合うように並び替える配置変更段階と、前記並び替えたセグメントの順番に応じて字幕のテキストデータを生成する生成段階とを実行することを要旨とする。

請求項２に記載の発明は、請求項１に記載の字幕データ処理方法において、前記セグメント判定条件は、前記字幕データに含まれる動作位置指定であることを要旨とする。
請求項３に記載の発明は、請求項１又は２に記載の字幕データ処理方法において、前記セグメント判定条件は、前記字幕データに含まれる配色指定であることを要旨とする。

請求項４に記載の発明は、請求項１〜３のいずれか１項に記載の字幕データ処理方法において、前記接続判定条件は、第１のセグメントが、これを含む行の直前の行に含まれる第２のセグメントに対して隣接されており、前記第１のセグメントの開始位置が前記第２のセグメントの開始位置に対して字下げされているか又は同じであり、かつ前記第１のセグメントの配色が、前記第２のセグメントの配色と同じであることであり、前記配置変更段階は、前記第１及び前記第２のセグメントの位置に基づいて、前記接続判定条件が満たされた場合には、前記第１のセグメントの次に前記第２のセグメントが配置するように並び替えることを要旨とする。

請求項５に記載の発明は、請求項１〜４のいずれか１項に記載の字幕データ処理方法において、前記複数行判定処理の前に、前記一画面に異なる文字サイズの字幕データの有無を判定する文字サイズ判定段階と、異なる文字サイズの字幕データがあった場合には、小さい文字サイズの文字を含むセグメント毎にルビ条件を判定し、前記ルビ条件に一致するセグメントを削除する削除段階とを更に実行することを要旨とする。

請求項６に記載の発明は、請求項５に記載の字幕データ処理方法において、前記ルビ条件として、セグメントの文字列が、ひらがな、カタカナ又は空白から構成され、同じ行において隣接する文字のサイズが異ならず、次行において、より大きなサイズの文字に隣接していることを条件として用いることを要旨とする。

請求項７に記載の発明は、映像信号から抽出した字幕データを処理する字幕データ処理方法であって、一画面に含まれる字幕データの行数を取得し、２行以上の有無を判定する複数行判定処理を行なう段階と、前記字幕データが２行以上ある場合には、セグメント判定条件に基づいて、前記字幕データの各行に含まれる個々のセグメントの各行内での位置を特定する特定段階と、特定された前記位置に基づきグループ関係条件を満たすか否かを判定するグループ判定処理を行なう段階と、このグループ判定処理においてグループ関係にあると判定された前記セグメントに対して順番を付して前記セグメントをグループ化する段階と、このグループ内の個々のセグメントを前記順番で並ぶように並び替える段階と、前記並び替えたセグメントの順番に応じて字幕のテキストデータを生成する生成段階とを実行することを要旨とする。

請求項８に記載の発明は、映像信号から抽出した字幕データを処理する字幕データ処理プログラムであって、一画面に含まれる字幕データの行数を取得し、２行以上の有無を判定する複数行判定処理を行なう手段、前記字幕データが２行以上ある場合には、セグメント判定条件に基づいて、前記字幕データの各行に含まれる個々のセグメントの各行内での位置を特定する特定手段、特定された前記位置から前記セグメントが異なる他の行のセグメントに対して接続関係であると判定される接続判定条件を満たすか否かを判定する接続判定処理を行なう手段、この接続判定処理において接続関係にあると判定された前記セグメント同士が隣り合うように並び替える配置変更手段、及び前記並び替えたセグメントの順番に応じて字幕のテキストデータを生成する生成手段として機能させることを要旨とする。

請求項９に記載の発明は、映像信号から抽出した字幕データを処理する字幕データ処理プログラムであって、一画面に含まれる字幕データの行数を取得し、２行以上の有無を判定する複数行判定処理を行なう手段、前記字幕データが２行以上ある場合には、セグメント判定条件に基づいて、前記字幕データの各行に含まれる個々のセグメントの各行内での位置を特定する特定手段、特定された前記位置に基づきグループ関係条件を満たすか否かを判定するグループ判定処理を行なう手段、このグループ判定処理においてグループ関係にあると判定された前記セグメントに対して順番を付して前記セグメントをグループ化する手段、このグループ内の個々のセグメントを前記順番で並ぶように並び替える手段、及び前記並び替えたセグメントの順番に応じて字幕のテキストデータを生成する生成手段として機能させることを要旨とする。

請求項１０に記載の発明は、映像信号から抽出した字幕データを処理する字幕データ処理装置であって、一画面に含まれる字幕データの行数を取得し、２行以上の有無を判定する複数行判定処理を行なう手段、前記字幕データが２行以上ある場合には、セグメント判定条件に基づいて、前記字幕データの各行に含まれる個々のセグメントの各行内での位置を特定する特定手段、特定された前記位置から前記セグメントが異なる他の行のセグメントに対して接続関係であると判定される接続判定条件を満たすか否かを判定する接続判定処理を行なう手段、この接続判定処理において接続関係にあると判定された前記セグメント同士が隣り合うように並び替える配置変更手段、及び前記並び替えたセグメントの順番に応じて字幕のテキストデータを生成する生成手段を備えたことを要旨とする。

請求項１１に記載の発明は、映像信号から抽出した字幕データを処理する字幕データ処理装置であって、一画面に含まれる字幕データの行数を取得し、２行以上の有無を判定する複数行判定処理を行なう手段、前記字幕データが２行以上ある場合には、セグメント判定条件に基づいて、前記字幕データの各行に含まれる個々のセグメントの各行内での位置を特定する特定手段、特定された前記位置に基づきグループ関係条件を満たすか否かを判定するグループ判定処理を行なう手段、このグループ判定処理においてグループ関係にあると判定された前記セグメントに対して順番を付して前記セグメントをグループ化する手段、このグループ内の個々のセグメントを前記順番で並ぶように並び替える手段、及び前記並び替えたセグメントの順番に応じて字幕のテキストデータを生成する生成手段を備えたことを要旨とする。

（作用）
請求項１、８又は１０に記載の発明によれば、一画面に含まれる字幕データが２行以上ある場合には、字幕データの個々のセグメントの各行内での位置からセグメントが異なる他の行のセグメントに対して接続関係であると判定するための接続判定条件を満たすか否かを判定する。そして、接続関係にあると判定されたセグメント同士が隣り合うように並び替え、並び替えたセグメントの順番に応じて字幕のテキストデータを生成する。通常、表示の関係により、複数行に亘って一連の文字群が表示される場合には、それらが所定の
接続関係にある。このため、各行内の位置から、所定の接続関係にあるセグメント同士であるか否かを判定し、接続関係にあると判定した場合には、一連の文字群であるとしてセグメント同士が隣り合うように並び替える。これにより、一連の文字群が複数行に亘って表示される場合であっても、より正確に、一連の文字群を取得することができる。従って、より有益なデータを効率よく生成することができる。

請求項２に記載の発明によれば、字幕データに含まれる動作位置指定から、セグメントであるか否かを判定することができる。
請求項３に記載の発明によれば、字幕データに含まれる配色指定から、セグメントであるか否かを判定することができる。

請求項４に記載の発明によれば、接続判定条件は、第１のセグメントが、これを含む行の直前の行に含まれる第２のセグメントに対して隣接されており、第１のセグメントの開始位置が第２のセグメントの開始位置に対して字下げされているか又は同じであり、かつ第１のセグメントの配色が第２のセグメントの配色と同じであることである。この接続判定条件が満たされた場合には、第１のセグメントの次に第２のセグメントが配置するように並び替える。一連の文字群であれば、続く行に別のセグメントが同色で表示され、見易くなるように直後のセグメントは「字下げ」又は「左揃え」されていることが多い。これらの条件を用いることにより、近接しているが一連の文字群と一連でない文字群とを区別し、より確実に、接続関係を判定することができる。

請求項５に記載の発明によれば、一画面に異なる文字サイズの字幕データがあった場合には、小さい文字サイズの文字を含むセグメント毎にルビ条件を判定し、ルビ条件に一致するセグメントを削除する。これにより、テキストデータとしては重複して不要なルビを除去するので、必要なテキストデータのみを抽出して、より有益なデータを生成することができる。

請求項６に記載の発明によれば、ルビ条件として、セグメントの文字列が、ひらがな、カタカナ又は空白から構成され、同じ行において隣接する文字のサイズが異ならず、次行において、より大きなサイズの文字に隣接していることを条件とする。ルビは、漢字などの読み方を示すものであるため、ルビ以外の文字に比べて小さく表示され、ひらがな又はカタカナで表示されることが普通である。また、ルビの位置調整のために空白を含んでルビが構成されることがある。従って、他のセグメントの文字サイズや位置から、ルビのセグメントであるか否かを判定することができる。よって、不要なルビをより確実に除去することができる。

請求項７、９又は１１に記載の発明によれば、一画面に含まれる字幕データが２行以上ある場合には、字幕データの個々のセグメントの各行内での位置からグループ関係を満たすか否かを判定する。そして、グループ関係にあると判定されたセグメントを、順番どおりに並び替え、並び替えたセグメントの順番に応じて字幕のテキストデータを生成する。通常、表示の関係により、複数行に亘って一連の文字群が表示される場合には、それらが所定のグループ関係にある。このため、各セグメントの位置から一連の文字群であるか否か、すなわち所定のグループ関係にあるセグメント同士であるか否かを判定し、グループ関係にあると判定した場合には、一連の文字群であるとして複数のセグメントに対して順番を付けてグループ化して、この順番に並び替える。これにより、一連の文字群が複数の領域に亘って表示される場合であっても、より正確に、一連の文字群を取得することができる。従って、より的確なテキストデータを効率よく生成することができる。

本発明によれば、一連の文字群が複数の領域に亘って表示される場合であっても、一連
の文字群を一行としてより正確に取得し、より的確なテキストデータを生成することができる。

以下、本発明を具体化した一実施形態を、図１〜図９を用いて説明する。図１は、本発明を適用した字幕データ処理装置の構成について説明するための説明図である。本実施形態では、図１に示すように、放送局からの放送信号を、テレビジョン受像機３０を用いて受信する。このテレビジョン受像機３０には表示選択字幕デコーダ４０が接続され、この表示選択字幕デコーダ４０にはホームサーバ５０が接続される。このホームサーバ５０は、ネットワークとしてのインターネットＩを介して、字幕データ処理装置としてのメタデータ作成サーバ７０に接続される。このメタデータ作成サーバ７０には、文字データ入力手段としてのオペレータ端末（図示せず）に接続されている。

放送局１０は、地上波や衛星波などを用いて番組を放送する施設である。放送される番組の放送信号には、映像データと音声データが含まれる。この映像データは、動画像データであり、音声データは、映像データと同期して再生される音声に関するデータである。

また、この放送信号の中には、映像として常に表示される字幕と、選択により表示される字幕とが含まれる。前者には、番組の題名やキャストなどの紹介、海外の作品における日本語字幕等がある。一方、後者のように表示選択の可能な字幕データ（いわゆるクローズドキャプション）には、出演者の会話に対応するテキストデータや、例えばＢＧＭや効果音など、放送コンテンツに関する説明が含まれている場合もある。このように、表示と非表示を選択可能な字幕データを「表示選択字幕データ」と呼ぶ。

次に、この表示選択字幕データについて説明する。例えばＮＴＳＣ方式のアナログの地上波放送では、映像信号に５２５本の走査線が用いられている。この５２５本のうち、各フィールド（２フィールドで１フレームを構成）の最初の２１本相当は、ＶＢＩ（Vertical Blanking Interval：垂直帰線消去期間）と呼ばれ、走査を開始するためのインターバル用に割り当てられている。クローズドキャプションは、各フィールドのＶＢＩのうち、ＶＢＩの２１本目に７ｂｉｔの文字コードを多重化することによって伝送されるように構成されている。そして、各フィールドを使って２種類の文字セットを約６０文字／秒で伝送することができる。この表示選択字幕データは、再生時に映像データからデコードされて、映像と同時に表示させることができる。

ユーザ側では、テレビジョン受像機３０を用いて、表示選択字幕データを含む映像データ及び音声データで構成される放送信号が受信される。このテレビジョン受像機３０は、チューナ３１、信号処理部３２、ディスプレイやスピーカからなる出力部３３を備える。表示選択字幕データを表示させない場合には、テレビジョン受像機３０は、チューナ３１によって選局された放送信号を信号処理部３２において復調する。そして、出力部３３において、復調した放送信号のうち、映像信号はディスプレイに出力し、音声信号はスピーカに出力する。これにより、ユーザは番組を視聴することができる。

表示選択字幕デコーダ４０は、テレビジョン受像機３０のチューナ３１によって選局された放送信号を取得し、映像信号及び音声信号をデコードする。そして、表示選択字幕デコーダ４０は、ユーザの操作入力に基づいて、表示選択字幕データを抽出し、更にデコードし、出力部３３への出力を行なう。更に、表示選択字幕デコーダ４０は、ホームサーバ５０がインターネットＩを介してメタデータ作成サーバ７０から取得したメタデータを用いて検索や要約処理を実行する。

図３は、この表示選択字幕デコーダ４０の構成ブロック図である。映像信号デコーダ４
０１は、供給された映像信号をデコードし、デコードされた映像データをメモリ４０３に供給する。メモリ４０３は、供給された映像信号を一時保持するフレームメモリである。音声信号デコーダ４０２は、供給された音声信号をデコードし、デコードされた音声データを出力する。

表示選択字幕データデコーダ４０５は、受信された放送信号をリアルタイムに出力する場合、メモリ４０３から映像データを取得する。そして、表示選択字幕データの表示が指示された場合、表示選択字幕データデコーダ４０５は、取得した映像データに含まれる表示選択字幕データをデコードして、対応するテキストデータをＯＳＤ（On Screen Display ）４０６に供給するとともに、映像データを合成処理部４０７に供給する。

ＯＳＤ４０６は、供給されたテキストデータを、表示画面に重畳して表示させるための画像データであるＯＳＤデータに変換して、合成処理部４０７に供給する。合成処理部４０７は、供給された映像データに、供給されたＯＳＤデータを重畳して、出力端子からテレビジョン受像機３０の出力部３３のディスプレイに出力する。一方、音声処理部４０８は、音声信号デコーダ４０２によりデコードされた音声データを取得して、テレビジョン受像機３０の出力部３３のスピーカに出力する。

また、映像信号及び音声信号をホームサーバ５０に出力して録画させる場合、出力信号生成部４０９は、番組ＩＤ抽出部４１０に、メモリ４０３に保持されている映像データから番組管理データに含まれる番組ＩＤを抽出させる。出力信号生成部４０９は、タイマ４１１を参照して、録画が開始された時刻（絶対時刻）を取得し、メモリ４０３から供給される映像データ、又は音声信号デコーダ４０２から供給される音声データのうちの少なくともいずれか一方に、取得した時刻情報を付加する。更に、映像データ及び音声データに対して、番組ＩＤ抽出部４１０から供給された番組ＩＤを付加して、録画のための出力信号を生成してホームサーバ５０に供給する。ここで付加された時刻情報は、タイムスタンプとして、後述する検索や抽出処理において用いられる。

このような処理により、表示選択字幕デコーダ４０は、ユーザの操作入力に基づいて、表示選択字幕をデコードして映像に重畳させて表示させたり、録画データを生成し、ホームサーバ５０に供給して録画させたりすることが可能となる。また、表示選択字幕デコーダ４０は、映像データ及び音声データに付加された時刻情報や番組ＩＤを用いて検索や要略処理が実行できるようになる。

一方、ホームサーバ５０は、ユーザの操作入力に基づいて、表示選択字幕デコーダ４０により生成されたタイムスタンプつき録画データの供給を受けて、内部のデータ記憶手段に記録する。このホームサーバ５０は、インターネットＩを介して、メタデータ作成サーバ７０から、表示選択字幕データに対応するテキストデータと、テキストデータに対応するタイムコードにより構成される暗号化メタデータの供給を受ける。更に、ホームサーバ５０は、暗号化メタデータを、鍵データを利用して復号化し、このメタデータを用いてユーザが入力したテキストとメタデータとのマッチング処理を実行する。そして、マッチング処理の結果、ユーザが入力したテキストに対応するタイムコードを検出した場合には、タイムコードに基づいて録画データを検索し、表示選択字幕デコーダ４０に供給する。

図４は、このホームサーバ５０のブロック構成図である。操作入力部５０１は、例えば、ボタン、キー、タッチパネル、タッチパッド、レバーなどの入力デバイスで構成され、ユーザの操作入力を受ける。録画制御部５０２は、操作入力部５０１から放送番組の録画指示が入力された場合、表示選択字幕デコーダ４０に対して映像信号や音声信号の出力を指示する。表示部５０４は、例えば、ＬＣＤ（Liquid Crystal Display）又はＣＲＴ（Cathode Ray Tube）などで構成され、各種情報を表示する。

録画データ記憶部５２には、表示選択字幕デコーダ４０から供給される番組ＩＤ及びタイムスタンプが付加された映像データ及び音声データが記憶される。録画データ記憶部５２は、例えば、ハードディスクなどの大容量記録媒体により構成されるようにしても、ＤＶＤ（Digital Versatile Disk）や磁気テープなどのリムーバブルな記録媒体を用いることも可能である。

ネットワークＩＦ部５０３は、インターネットＩを介して通信を行なうインターフェースである。ここでは、メタデータ作成サーバ７０との間でデータの送受信を行なう。暗号化メタデータ記憶部５３は、ネットワークＩＦ部５０３を介して、メタデータ作成サーバ７０から取得した暗号化メタデータを記憶する。鍵データ記憶部５４は、暗号化メタデータを復号化するために、予め復号化鍵を記憶する。この復号化鍵は、メタデータ作成サーバ７０から番組ＩＤ毎に、ネットワークＩＦ部５０３を介して提供され、記録される。復号処理部５０５は、暗号化メタデータ記憶部５３に記録されている暗号化メタデータを、鍵データ記憶部５４に記憶されている復号化鍵を用いて復号し、メタデータ記憶部５５に記録する。

マッチング処理部５０６は、操作入力部５０１に、検索対象の番組ＩＤと、検索キーとなるテキストが入力された場合、メタデータ記憶部５５に記録されているメタデータを参照して、マッチング処理を実行する。そして、マッチング処理部５０６は、検索キーを含むテキストを特定した場合、このテキストに関連付けられたタイムコードを録画データ検索処理部５０７に供給する。

ここで、操作入力部５０１において番組ＩＤのみが指定されている場合、マッチング処理部５０６は、この番組ＩＤに関連付けられて記録されたメタデータをメタデータ記憶部５５から抽出する。そして、このメタデータに含まれるタイムコードと番組ＩＤは、録画データ記憶部５２を検索するために用いられる。このため、抽出したタイムコードを録画データ検索処理部５０７に供給する。

録画データ検索処理部５０７は、マッチング処理部５０６から供給されたマッチング結果（番組ＩＤとタイムコード）に基づいて録画データ記憶部５２を検索する。そして、この番組ＩＤの付与された録画において、タイムコードにより特定された画像を表示選択字幕デコーダ４０に供給する。

一方、メタデータ作成サーバ７０は、各種ネットワークや電波を介して受信することにより、放送局１０が作成した表示選択字幕データ付きの放送信号を取得する。そして、メタデータ作成サーバ７０は、この放送信号を用いてメタデータを作成し、作成したメタデータを暗号化する。また、メタデータ作成サーバ７０は、暗号化されたメタデータを、インターネットＩを介してユーザに配布する。このメタデータ作成サーバ７０は、制御手段としてのＣＰＵ（Central Processing Unit ）からなる制御手段、ＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory ）、ＨＤＤ（Hard Disk Drive ）等のデータ記
憶手段を備える。

次に、メタデータ作成サーバ７０の構成について詳述する。図５にはメタデータ作成サーバ７０のブロック構成を示す。メタデータ作成サーバ７０のＣＰＵは、字幕データ処理プログラムを実行することによって、複数行判定処理を行なう段階、特定段階、接続判定処理を行なう段階、配置変更段階、生成段階、文字サイズ判定段階及び削除段階等を実行する。この結果、メタデータ作成サーバ７０は、以下の機能ブロック図に示す機能を実現する。

放送信号取得部７０１は、ネットワークや放送電波を介して放送信号を取得してデコーダ７０２に供給する。デコーダ７０２は、放送信号取得部７０１から供給された放送信号をデコードする。ここで、デコーダ７０２は、放送信号のうち、メタデータの作成に必要となる番組ＩＤ情報を含む番組管理情報や表示選択字幕データが含まれている映像信号のみをデコードする。

番組ＩＤ情報抽出部７０３は、デコーダ７０２によりデコードされた映像データに含まれる番組管理データから、放送番組を特定することができる番組ＩＤ情報を抽出し、メタデータ生成部７０８に供給する。更に、番組ＩＤ情報抽出部７０３は、この映像データを、表示選択字幕データ処理部７０５に供給する。この表示選択字幕データ処理部７０５は、複数行判定処理を行なう手段、特定手段、接続判定処理を行なう手段、配置変更手段、生成手段、文字サイズ判定手段及び削除手段として機能し、取得した映像データに含まれる表示選択字幕データをデコードし、字幕メタデータを生成する。

次に、表示選択字幕データ処理部７０５における本発明に係わる字幕処理方法について、図６〜図９を用いて説明する。ここで、表示選択字幕データ処理部７０５は、画面毎に字幕処理を繰り返して行なう。

表示選択字幕データ処理部７０５は、まず、デコーダ７０２においてデコードされた映像データに含まれる８単位符号からなる字幕データをデコードする。この字幕データには、文字の表示位置や大きさ等の制御符号や、文字のテキストデータなどの情報が含まれる。表示選択字幕データ処理部７０５は、デコードした字幕データを用いて、まず放送字幕ルビ処理を行なう（ステップＳ１−１）。この放送字幕ルビ処理は、テキストデータから放送字幕のルビを削除するための処理である。

この放送字幕ルビ処理について、図７を用いて詳述する。この放送字幕ルビ処理において、表示選択字幕データ処理部７０５は、まず、画面内の文字のサイズがすべて同じか否かを判定する（ステップＳ２−１）。画面内の文字のサイズがすべて同じ場合（ステップＳ２−１において「ＹＥＳ」の場合）には、画面にはルビが含まれておらず、この放送字幕ルビ処理を終了する。

画面内の文字のサイズがすべて同じでない場合（ステップＳ２−１において「ＮＯ」の場合）には、表示選択字幕データ処理部７０５は、セグメント毎に、セグメントがルビ特定条件に一致しているか否かを判定する（ステップＳ２−２）。ここで、表示選択字幕データ処理部７０５は、文字列中に含まれる動作位置の指定や文字列の文字の色や背景色などの配色指定など制御符号から、一連の文字群からなるセグメントを特定する。これら字幕データに含まれる動作位置指定や配色指定により、セグメントか否かを判定することができる。

そして、このセグメントがルビかどうかを判定する。この場合、ルビは、漢字などの読み方を示すものであるため、ルビ以外の文字に比べて小さく表示され、ひらがな又はカタカナで表示されることが普通である。また、ルビの位置調整のために空白を含んでルビが構成されることがある。そこで、本実施形態では、ルビであると特定するためのルビ特定条件として、（１）異なる文字の文字サイズが小型サイズであり、（２）セグメントが「ひらがな」、「カタカナ」又は「空白」から構成されており、（３）標準サイズ文字に同じ行で隣接しておらず、かつ、（４）次の行において標準サイズ文字と隣接していることを用いる。例えば、（１）については文字サイズ指定の制御符号等を用いて判定する。また、（２）については、文字コード等を用いて判定する。更に、（３）、（４）については、位置指定の制御符号や文字サイズ指定の制御符号等を用いて判定する。

そして、セグメントが、上述した４つのルビ特定条件のすべてとは一致しない場合（ステップＳ２−２において「ＮＯ」の場合）には、表示選択字幕データ処理部７０５は、次のセグメントについての判定を行なう。

一方、セグメントが、上述した４つのルビ特定条件のすべてを充足する場合（ステップＳ２−２において「ＹＥＳ」の場合）には、表示選択字幕データ処理部７０５はルビであると判定して、このセグメントを削除する（ステップＳ２−３）。

そして、セグメントを削除した行に、他のセグメントが残っている場合には、表示選択字幕データ処理部７０５は、同じ行の他のセグメントについて上記ステップＳ２−２以降の処理を行なう（ステップＳ２−４において「ＹＥＳ」）。ここで、同じ行に他のセグメントが残っているか否かは、位置指定の制御符号や文字サイズ指定の制御符号等を用いて判定する。一方、セグメントが残っていない場合（ステップＳ２−４において「ＮＯ」の場合）には、その行の削除を行なう（ステップＳ２−５）。

以上のステップＳ２−２〜Ｓ２−５の処理をセグメント毎に行なう放送字幕ルビ処理を、表示選択字幕データ処理部７０５は画面毎に実行し（ステップＳ１−１）、ルビと判定したデータ以外の字幕データを抽出する。

次に、放送字幕ルビ処理以降の処理を、図６に戻って説明する。表示選択字幕データ処理部７０５は、１つの画面に２行以上の字幕があるか否かを判定する（ステップＳ１−２）。ここで、画面に２以上の字幕がない場合（ステップＳ１−２において「ＮＯ」の場合）には、その画面における字幕処理を終了し、次の画面について字幕処理を行なう。

一方、画面に２行以上の字幕がある場合（ステップＳ１−２において「ＹＥＳ」の場合）には、この画面に２つ以上のセグメントを含む行があるか否かを判断する（ステップＳ１−３）。具体的には、２行以上の字幕がある各行について、位置指定の制御符号や文字サイズ指定の制御符号等から、２以上のセグメントが含まれているか否かを判定する。ここで、２以上のセグメントを含む行がない場合（ステップＳ１−３において「ＮＯ」の場合）には、その画面における字幕処理を終了し、次の画面について字幕処理を行なう。

そして、画面に２行以上の字幕があり、かつ２以上のセグメントを含む行がある場合（ステップＳ１−３において「ＹＥＳ」の場合）には、並び替え処理を行なう（ステップＳ１−４）。この並び替え処理において、図８に示す連続セグメント条件の充足性を、セグメント毎に判定する（ステップＳ３−１）。本実施形態では、連続セグメント条件として、「直前行のセグメントと隣接」し、「字下げ」又は「左揃え」が行なわれており、かつ「同色で表示されている」ことを用いる。

具体的には、表示選択字幕データ処理部７０５は、まず、位置指定の制御符号や文字サイズ指定の制御符号等を用いて、連続セグメント条件の充足性の判定対象のセグメントの表示位置と、その直前の行にある各セグメントの位置とを比較する。この結果、判定対象のセグメントと、直前行にあるいずれかのセグメントとが隣接し、このセグメントに対して「字下げ」又は「左揃え」が行なわれていると判定されたとする。この場合には、配色についての制御符号を用いて、判定対象のセグメントの文字色と、隣接し、かつ「字下げ」又は「左揃え」が行なわれていると判定された直前行のセグメントの文字色とを比較する。この比較により、文字色が同色と判定された場合には、連続セグメント条件のすべてを充足することになる。なお、直前行のセグメントと隣接していなかったり、直前行のセグメントよりも左に位置していたり、異なる色で表示されていたりするような場合には、連続セグメント条件のすべての要素を充足しないので（ステップＳ３−１において「ＮＯ」）、このセグメントについての処理を終了し、次のセグメントについて処理を行なう。

一方、連続セグメント条件を充足する場合（ステップＳ３−１において「ＹＥＳ」の場合）には、このセグメントを先行セグメントの直後に配置するように、このセグメントのテキストデータの移動を行なう（ステップＳ３−２）。これにより、このセグメントについての処理を終了し、次のセグメントについて処理を行なう。そして、画面に含まれるセグメントのすべてについて処理を行なうと、並び替え処理が完了する（ステップＳ１−４）。

並び替え処理が完了すると、表示選択字幕データ処理部７０５は、オペレータ端末に並び替え検知を通知する（ステップＳ１−５）。これにより、オペレータ端末で並び替え処理（ステップＳ１−４）が行なわれて生成された字幕メタデータをオペレータが確認する。そして、オペレータ端末では、必要に応じて手動修正を行なう（ステップＳ１−６）。ここで、オペレータは、一連の文字群でないにも係わらず連続セグメント条件を充足した場合には、それらが一連の文字群として並び替えが行なわれることになる。具体的には、１つの画面において各話者が２度以上発言し、それらが連続セグメント条件を充足する表示となっている場合がある。このままの形態でテキストデータを生成すると、同一話者の別の発言を繋げた字幕メタデータとなる。このような場合には、オペレータ端末では、一連の文字群として移動されたセグメントのテキストデータを元の順番に戻すように手動で、テキストデータの移動が行なわれる。

そして、上述したステップＳ１−１〜Ｓ１−６の処理を画面毎に繰り返し、すべての画面についての処理が完了すると、字幕データ検知処理が完了し、字幕データが生成される。

次に、上述した字幕データ検知処理について、具体例を示しながら説明する。図９で示すように、この表示データには３行の字幕データが含まれる。第１行目にセグメントＡが含まれ、この次の第２行目に２つのセグメント（Ｂ、Ｃ）が含まれる。更に、第３行目にはセグメントＤが含まれている。また、ここでは、各セグメント（Ａ，Ｂ，Ｃ，Ｄ）を構成する文字は同じ大きさであると想定する。更に、各話者が話している一連の文字群は同じ色、すなわちセグメントＡとセグメントＣは同じ色、セグメントＢとセグメントＤは同じ色で表示されるような制御符号が含まれているものとする。

まず、字幕データ処理において、放送字幕ルビ処理（ステップＳ１−１）が行なわれる。この場合、各セグメント（Ａ，Ｂ，Ｃ，Ｄ）を構成する文字はすべて同じ大きさで構成されているため、画面内の文字のサイズがすべて同じと判定されて（ステップＳ２−１において「ＹＥＳ」）、放送字幕ルビ処理は、データの削除を行なわない。

図９に示す字幕データでは、１つの画面に２行以上の字幕がある（ステップＳ１−２において「ＹＥＳ」）。そして、この画面には、２つ以上のセグメント（Ｂ，Ｃ）を含む行がある（Ｓ１−３において「ＹＥＳ」）。このため、並び替え処理を実行する（ステップＳ１−４）。

ここで、まず、この画面の字幕の最初の行に含まれているセグメントＡについて、表示選択字幕データ処理部７０５は、連続セグメント条件の充足性を判定する（ステップＳ３−１）。このセグメントＡの直前行にはセグメントがなく、連続セグメント条件を充足しないので、次のセグメントが連続セグメント条件を充足性するか否かを判定する（ステップＳ３−１）。

ここで、次のセグメントは、セグメントＡの次の行に含まれる最初のセグメントのセグメントＢである。そこで、表示選択字幕データ処理部７０５は、セグメントＢについて、
連続セグメント条件の充足性を判定する（ステップＳ３−１）。この場合、図９に示すように、セグメントＢについては直前行に隣接する文字がないため、「直前行の文字と隣接」の条件に該当せず、連続セグメント条件を充足しない。従って、表示選択字幕データ処理部７０５は、ステップＳ３−１において「ＮＯ」と判定して、次のセグメントＣについて、連続セグメント条件の充足性を判定する（ステップＳ３−１）。

ここで、セグメントＣは、直前行のセグメントＡと隣接しており、このセグメントＡに対して字下げが行なわれており、セグメントＡと同じ色で表示されている。このため、表示選択字幕データ処理部７０５は、連続セグメント条件を充足するとして（ステップＳ３−１において「ＹＥＳ」）、先行するセグメントＡの直後にセグメントＣが配置されるように、セグメントＣのテキストデータの移動を行なう（ステップＳ３−２）。この結果、セグメントＣは、セグメントＢの後に続かずに、セグメントＡの後に続くようになる。

そして、表示選択字幕データ処理部７０５は、次のセグメント、すなわちセグメントＢ，Ｃを含む行の直後の行のセグメントＤについて連続セグメント条件の充足性を判定する（ステップＳ３−１）。ここで、セグメントＤは、直前行のセグメントＢと隣接しており、このセグメントＢに対して字下げが行なわれており、セグメントＢと同じ色で表示されている。このため、表示選択字幕データ処理部７０５は、連続セグメント条件を充足するとして（ステップＳ３−１において「ＹＥＳ」）、先行するセグメントＢの直後にセグメントＤのテキストが配置されるように、テキストデータの移動を行なう（ステップＳ３−２）。この場合、セグメントＡの後ろになるようにセグメントＣが既に移動しているため、セグメントＢの後ろにセグメントＤが続く状態となっている。従って、表示選択字幕データ処理部７０５は、テキストデータの移動が行なわれていることを確認して処理を終了する。

以上により、最後のセグメントＤについての処理を終了すると、図９に示す画面表示を行なう字幕放送信号に含まれる字幕データから構成される画面についての並び替え処理（ステップＳ１−４）が終了する。そして、これにより、字幕データ中で分離されていた言葉が一連の文字群となったテキストデータ（字幕メタデータ）が生成できる。そして、表示選択字幕データ処理部７０５は、オペレータ端末に並び替え位置の検知を通知し（ステップＳ１−５）、必要に応じて手動で修正する（ステップＳ１−６）。以上により、表示選択字幕データ処理部７０５における字幕データ検知処理が完了する。そして、表示選択字幕データ処理部７０５は、この字幕データ検知処理により生成した字幕メタデータをタイムコード付加処理部７０７に供給する。

図５に示すように、タイムコード付加処理部７０７は、表示選択字幕データ処理部７０５において生成された字幕メタデータの登録指示を受けると、タイマ７０６を用いて、登録指示を受けた時刻をタイムコードとして付加する。例えば、表示選択字幕に対応するテキストの場合には、表示選択字幕の開始時刻に対応するタイムコードが付加される。放送信号取得部７０１が、放送に対してリアルタイムで放送信号を取得した場合、タイムコード付加処理部７０７はタイマ７０６が示す現在時刻に基づいて、タイムコードをテキストデータに付加するものとする。また、番組放送時刻に対してタイムコード付加時刻に遅れがある場合には、タイムコード付加処理部７０７は、この遅延時間とタイマ７０６が示す現在時刻とに基づいて、番組の放送時刻に対応するタイムコードを算出し、テキストデータに付加する。

メタデータ生成部７０８は、タイムコード付加処理部７０７から供給されたタイムコードが付加されたテキストデータに、番組ＩＤ情報抽出部７０３から供給された番組ＩＤ情報を付加してメタデータを生成する。このメタデータは、図２に示すように、テキストデータに対して、テキスト群の開始時刻が記載されたタイムコードが付加される。そして、
番組ＩＤ情報抽出部７０３から供給された番組ＩＤ情報が付加されたメタデータは、暗号化処理部７０９に供給される。

暗号化処理部７０９は、番組ＩＤ毎に暗号化鍵を記憶している鍵データ記憶部７２に接続されている。暗号化処理部７０９は、メタデータ生成部７０８から供給されたメタデータに含まれる番組ＩＤに基づいて、鍵データ記憶部７２から暗号化鍵を抽出し、この暗号化鍵を用いてメタデータの暗号化を行ない、暗号化メタデータ記憶部７３に記録する。暗号化メタデータ記憶部７３は、検索を行なった文字に基づいて映像情報ファイルを記録する。この暗号化メタデータは、ユーザからの要求に応じて、番組毎に、送信手段としての通信部７１０からインターネットＩを介してホームサーバ５０に提供される。

本実施形態によれば、以下のような効果を得ることができる。
○ 本実施形態では、表示選択字幕データ処理部７０５は、１つの画面に２行以上の字幕があり、かつ２つ以上のセグメントを含む行がある場合（ステップＳ１−３において「ＹＥＳ」の場合）には、並び替え処理を行なう（ステップＳ１−４）。この処理において、直前行のセグメントと隣接し、「字下げ」又は「左揃え」が行なわれており、かつ、同色で表示されている場合には、連続セグメントの条件を充足すると判定する（ステップＳ３−１において「ＹＥＳ」）。そして、表示選択字幕データ処理部７０５は、このセグメントを先行セグメントの直後に配置するように、セグメントに対応するテキストデータの移動を行なう（ステップＳ３−２）。そして、すべてのセグメントについて並び替え処理（ステップＳ１−４）を画面毎に行なうことにより、字幕放送信号に含まれる字幕データ中で分離された文字群が一連の文字群となったテキストデータ（字幕メタデータ）が生成できる。通常、表示の関係により、複数行に亘って一連の文字群が表示される場合には、それらの位置が隣接している。このため、各行内の位置から、隣接するセグメント同士であるか否かを判定し、隣接すると判定した場合には、一連の文字群であるとしてセグメント同士が隣り合うように、自動的に並び替えることができる。更に、このように生成したテキストデータから字幕メタデータを生成するので、一連の文字群が複数行に亘って表示される場合であっても、一連の文字群を一行としてより正確に取得し、より的確なテキストデータを生成することができる。

○ 本実施形態では、並び替え処理（ステップＳ１−４）の前に、放送字幕ルビ処理（ステップＳ１−１）を行なう。この放送字幕ルビ処理において、表示選択字幕データ処理部７０５は、画面内の文字のサイズがすべて同じでなかった場合（ステップＳ２−１において「ＮＯ」の場合）には、セグメント毎に、セグメントがルビ特定の条件に一致しているか否かを判定する（ステップＳ２−２）。そして、これらルビ特定の条件のすべてと一致する場合（ステップＳ２−２において「ＹＥＳ」の場合）には、表示選択字幕データ処理部７０５は、次行のルビであると判定して、このセグメントを削除する（ステップＳ２−３）。そして、セグメントを削除した行に、他のセグメントが残っている場合には、表示選択字幕データ処理部７０５は、同じ行の他のセグメントについて上記ステップＳ２−２以降の処理を行ない、セグメントが残っていない場合（ステップＳ２−４において「ＮＯ」の場合）には、その行の削除を行なう（ステップＳ２−５）。このようにルビ条件に一致するセグメントを削除することにより、テキストデータとしては重複して不要なルビを除去することができるので、必要なテキストデータのみを抽出してテキストデータを生成することができる。

○ 本実施形態では、（１）異なる文字の文字サイズが小型サイズであり、（２）セグメントが「ひらがな」、「カタカナ」又は「空白」のみで構成されており、（３）標準サイズ文字に同じ行で隣接しておらず、かつ、（４）次の行において標準サイズ文字と隣接している場合には、ルビであると特定する。このため、これら４つのルビ特定条件を用いることにより、他のセグメントの文字サイズや位置から、ルビのセグメントであるか否か
を自動的に判定することができる。

○ 本実施形態の放送字幕ルビ処理では、表示選択字幕データ処理部７０５は、画面内の文字のサイズがすべて同じであった場合（ステップＳ２−１において「ＮＯ」の場合）には、ルビ特定条件を一致するか否かの判定（ステップＳ２−２）は行なわない。従って、ルビの存在がある画面についてのみ放送字幕ルビ処理（ステップＳ１−１）を行なうので、効率よく、より的確なテキストデータを生成することができる。

○ 本実施形態では、表示選択字幕データ処理部７０５は、ルビを削除しても２行以上の字幕があり、かつ２つ以上のセグメントを含む行がある場合には、並び替え処理（ステップＳ１−４）を行ない、オペレータ端末に並び替え検知を通知する（ステップＳ１−５）。並び替え処理（ステップＳ１−４）の実行により、ルビを削除してもこの場合に、一連の文字群でないにも係わらず連続セグメント条件を充足し、一連の文字群としてテキストデータの移動が行なわれる（ステップＳ３−２）可能性がある。従って、並び替え処理（ステップＳ１−４）を行なった画面をオペレータ端末に通知し修正を行なうことができるので、より的確なテキストデータを生成することができる。また、ルビを削除すると字幕が１行となる場合には並び替え処理が行なわれないので、この場合にはオペレータ端末に通知されない。よって、間違いの可能性のある画面についてのみ、オペレータが確認するだけで、より正確な字幕メタデータを生成することができる。

また、上記実施形態は、以下のように変更してもよい。
・上記実施形態では、ルビ判定条件として、（１）異なる文字の文字サイズが小型サイズであり、（２）セグメントが「ひらがな」、「カタカナ」又は「空白」のみで構成されており、（３）標準サイズ文字に同じ行で隣接しておらず、かつ、（４）次の行において標準サイズ文字と隣接しているという４つの条件を用いた。これに限らず、ルビ判定条件として、他の判定条件を用いてもよい。例えば、同じ画面において、「ひらがな」、「カタカナ」又は「空白」のみで構成されるセグメントの直下の位置に同じ読み方ができる漢字や外国文字がある場合には、ルビと判定してもよい。

・上記実施形態では、連続セグメントの条件として、「直前行のセグメントと隣接」し、「字下げ」又は「左揃え」が行なわれており、かつ「同色で表示されている」という３つの条件を用いた。これに限らず、他の条件でセグメントが連続しているか否かを判定してもよい。例えば、直前行のセグメントと隣接しかつ同色である場合、又は直前行のセグメントに対して「字下げ」又は「左揃え」が行なわれておりかつ同色である場合などをセグメントが連続していると判定してもよい。

・上記実施形態では、並び替え処理（ステップＳ１−４）において、連続セグメントの条件を充足するか否かを判定する判定対象セグメントは、直前行のセグメントとの関係で条件を充足するか否かを判定した（ステップＳ３−１）。これに代えて、判定対象セグメントを、直後の行のセグメントの関係で条件を充足するか否かを判定してもよい。この場合には、連続セグメントの条件として、例えば、直後の行のセグメントと隣接するか否か、直後の行のセグメントが判定対象セグメントに対して「字下げ」又は「左揃え」を行なっているか、同色であるかの３つの条件を用いる。

・上記実施形態では、行毎に行なう並び替え処理（ステップＳ１−４）において、セグメント毎に、そのセグメントが連続セグメントの条件を充足するか否かを判定した（ステップＳ３−１）。この代わりに、他の方法によって、並び替えを行なうようにしてもよい。具体的には、表示選択字幕データ処理部７０５を、複数行判定処理を行なう手段、特定手段、グループ判定処理を行なう手段、グループ化する手段、並び替える手段及び生成手段として機能させる。例えば、連続条件を満たすセグメントに対して、一連の文字群で
あると認識できるグループ番号と、そのグループにおける順番（何番目のセグメントであるか）を一時的に記録する。そして、１画面における全セグメントに対して、グループ番号及び順番を付した場合には、そのグループ番号毎及びそのグループ内の順番に各セグメントを並び替える。更に、各グループの最初のセグメントの表示位置に応じて、画面におけるグループの順番でテキストデータを生成する。この場合であっても、各セグメントの表示位置から、複数行に亘って一連の文字群が隣接するセグメント同士であるか否かを判定して、より正確に、一連の文字群を取得することができる。従って、より的確なテキストデータを効率よく生成することができる。

・上記実施形態では、２行以上の字幕があり、かつ２つ以上のセグメントを含む行がある場合（ステップＳ１−３において「ＹＥＳ」の場合）、オペレータ端末に並び替え位置の検知を通知した（ステップＳ１−５）。これに代えて、ステップＳ１−３の並び替え処理において、実際に連続セグメントを先行セグメントの直後に配置するようにテキストデータの移動を行なった場合（ステップＳ３−２）にのみ、オペレータ端末に並び替えの検知を通知してもよい。具体的には、ステップＳ３−２を実行した場合には、並び替えを行なったことを示す通知フラグを記録する。そして、画面に含まれるすべてのセグメントについて並び替え処理（ステップＳ１−４）を完了した場合には、表示選択字幕データ処理部７０５は、通知フラグが記録されているかを判定し、記録されている場合にのみオペレータ端末に並び替え位置の検知を通知する（ステップＳ１−５）。これにより、２行以上の字幕が含まれる画面においても並び替え処理（ステップＳ１−４）が行なわれなかった場合には、オペレータ端末への通知を省略でき、オペレータの負荷を軽減することができる。

・上記実施形態では、メタデータ作成サーバ７０の表示選択字幕データ処理部７０５が放送字幕ルビ処理や並び替え処理を行なった。これら処理を実行するハードウエアはこれに限定されるものではなく、放送受信者側、例えばホームサーバ５０に、外字処理を行なう解析処理部を設けてもよい。

・上記実施形態では、メタデータに基づいて画像を特定するポインタ情報としてタイムコードを用いたが、これに限られるものはではなく、画面毎に割り振られたフレームデータを用いることも可能である。この場合、字幕データ処理装置はフレームカウンタを備え、メタデータを記録する場合には、ポインタ情報としてフレームデータを用いる。そして、ダイジェストを作成したり、録画を再生したりする場合には、このフレームデータを用いて、画像や再生開始位置を特定することができる。この場合には、タイムコードにおける時刻のずれの影響をなくすことができる。

・上記実施形態では、表示選択字幕データ処理部７０５は、並び替え処理により生成したテキストデータを含む字幕メタデータを提供したが、テキスト変換した検索用ファイルやテキスト変換した表示ファイルを、利用者の要求に応じて組み合わせて提供してもよい。

本発明の実施形態のシステム概略図。本発明の実施形態のメタデータの説明図。本発明の実施形態の表示選択字幕デコーダの説明図。本発明の実施形態のホームサーバの説明図。本発明の実施形態のメタデータ作成サーバのブロック構成の説明図。本発明の実施形態における字幕データ検知処理の処理手順の説明図。本発明の実施形態における放送字幕ルビ処理の処理手順の説明図。本発明の実施形態における並び替え処理の処理手順の説明図。本発明の実施形態におけるデータの並び替え処理を説明する説明図。

符号の説明

Ａ，Ｂ，Ｃ，Ｄ…セグメント、１０…放送局、３０…録画装置、４０…表示字幕デコーダ、５０…ホームサーバ、７０…字幕データ処理装置としてのメタデータ作成サーバ、７０５…複数行判定処理を行なう手段、特定手段、接続判定処理を行なう手段、配置変更手段、生成手段、文字サイズ判定手段及び削除手段としての表示選択字幕データ処理部。

Claims

映像信号から抽出した字幕データを処理する字幕データ処理方法であって、
一画面に含まれる字幕データの行数を取得し、２行以上の有無を判定する複数行判定処理を行なう段階と、
前記字幕データが２行以上ある場合には、セグメント判定条件に基づいて、前記字幕データの各行に含まれる個々のセグメントの各行内での位置を特定する特定段階と、
特定された前記位置から前記セグメントが異なる他の行のセグメントに対して接続関係であると判定される接続判定条件を満たすか否かを判定する接続判定処理を行なう段階と、
この接続判定処理において接続関係にあると判定された前記セグメント同士が隣り合うように並び替える配置変更段階と、
前記並び替えたセグメントの順番に応じて字幕のテキストデータを生成する生成段階とを実行することを特徴とする字幕データ処理方法。
前記セグメント判定条件は、前記字幕データに含まれる動作位置指定であることを特徴とする請求項１に記載の字幕データ処理方法。
前記セグメント判定条件は、前記字幕データに含まれる配色指定であることを特徴とする請求項１又は２に記載の字幕データ処理方法。
前記接続判定条件は、
第１のセグメントが、これを含む行の直前の行に含まれる第２のセグメントに対して隣接されており、
前記第１のセグメントの開始位置が前記第２のセグメントの開始位置に対して字下げされているか又は同じであり、かつ
前記第１のセグメントの配色が、前記第２のセグメントの配色と同じであることであり、
前記配置変更段階は、前記第１及び前記第２のセグメントの位置に基づいて、前記接続判定条件が満たされた場合には、前記第１のセグメントの次に前記第２のセグメントが配置するように並び替えることを特徴とする請求項１〜３のいずれか１項に記載の字幕データ処理方法。
前記複数行判定処理の前に、
前記一画面に異なる文字サイズの字幕データの有無を判定する文字サイズ判定段階と、
異なる文字サイズの字幕データがあった場合には、小さい文字サイズの文字を含むセグメント毎にルビ条件を判定し、前記ルビ条件に一致するセグメントを削除する削除段階とを更に実行することを特徴とする請求項１〜４のいずれか１項に記載の字幕データ処理方法。
前記ルビ条件として、
セグメントの文字列が、ひらがな、カタカナ又は空白から構成され、
同じ行において隣接する文字のサイズが異ならず、
次行において、より大きなサイズの文字に隣接していることを条件として用いることを特徴とする請求項５に記載の字幕データ処理方法。
映像信号から抽出した字幕データを処理する字幕データ処理方法であって、
一画面に含まれる字幕データの行数を取得し、２行以上の有無を判定する複数行判定処理を行なう段階と、
前記字幕データが２行以上ある場合には、セグメント判定条件に基づいて、前記字幕デ
ータの各行に含まれる個々のセグメントの各行内での位置を特定する特定段階と、
特定された前記位置に基づきグループ関係条件を満たすか否かを判定するグループ判定処理を行なう段階と、
このグループ判定処理においてグループ関係にあると判定された前記セグメントに対して順番を付して前記セグメントをグループ化する段階と、
このグループ内の個々のセグメントを前記順番で並ぶように並び替える段階と、
前記並び替えたセグメントの順番に応じて字幕のテキストデータを生成する生成段階とを実行することを特徴とする字幕データ処理方法。
映像信号から抽出した字幕データを処理する字幕データ処理プログラムであって、
一画面に含まれる字幕データの行数を取得し、２行以上の有無を判定する複数行判定処理を行なう手段、
前記字幕データが２行以上ある場合には、セグメント判定条件に基づいて、前記字幕データの各行に含まれる個々のセグメントの各行内での位置を特定する特定手段、
特定された前記位置から前記セグメントが異なる他の行のセグメントに対して接続関係であると判定される接続判定条件を満たすか否かを判定する接続判定処理を行なう手段、
この接続判定処理において接続関係にあると判定された前記セグメント同士が隣り合うように並び替える配置変更手段、及び
前記並び替えたセグメントの順番に応じて字幕のテキストデータを生成する生成手段
として機能させることを特徴とする字幕データ処理プログラム。
映像信号から抽出した字幕データを処理する字幕データ処理プログラムであって、
一画面に含まれる字幕データの行数を取得し、２行以上の有無を判定する複数行判定処理を行なう手段、
前記字幕データが２行以上ある場合には、セグメント判定条件に基づいて、前記字幕データの各行に含まれる個々のセグメントの各行内での位置を特定する特定手段、
特定された前記位置に基づきグループ関係条件を満たすか否かを判定するグループ判定処理を行なう手段、
このグループ判定処理においてグループ関係にあると判定された前記セグメントに対して順番を付して前記セグメントをグループ化する手段、
このグループ内の個々のセグメントを前記順番で並ぶように並び替える手段、及び
前記並び替えたセグメントの順番に応じて字幕のテキストデータを生成する生成手段
として機能させることを特徴とする字幕データ処理プログラム。
映像信号から抽出した字幕データを処理する字幕データ処理装置であって、
一画面に含まれる字幕データの行数を取得し、２行以上の有無を判定する複数行判定処理を行なう手段、
前記字幕データが２行以上ある場合には、セグメント判定条件に基づいて、前記字幕データの各行に含まれる個々のセグメントの各行内での位置を特定する特定手段、
特定された前記位置から前記セグメントが異なる他の行のセグメントに対して接続関係であると判定される接続判定条件を満たすか否かを判定する接続判定処理を行なう手段、
この接続判定処理において接続関係にあると判定された前記セグメント同士が隣り合うように並び替える配置変更手段、及び
前記並び替えたセグメントの順番に応じて字幕のテキストデータを生成する生成手段
を備えたことを特徴とする字幕データ処理装置。
映像信号から抽出した字幕データを処理する字幕データ処理装置であって、
一画面に含まれる字幕データの行数を取得し、２行以上の有無を判定する複数行判定処理を行なう手段、
前記字幕データが２行以上ある場合には、セグメント判定条件に基づいて、前記字幕デ
ータの各行に含まれる個々のセグメントの各行内での位置を特定する特定手段、
特定された前記位置に基づきグループ関係条件を満たすか否かを判定するグループ判定処理を行なう手段、
このグループ判定処理においてグループ関係にあると判定された前記セグメントに対して順番を付して前記セグメントをグループ化する手段、
このグループ内の個々のセグメントを前記順番で並ぶように並び替える手段、及び
前記並び替えたセグメントの順番に応じて字幕のテキストデータを生成する生成手段
を備えたことを特徴とする字幕データ処理装置。