JP6796376B2

JP6796376B2 - 分割装置および解析装置、ならびにプログラム

Info

Publication number: JP6796376B2
Application number: JP2015230099A
Authority: JP
Inventors: 馬場　秋継; 秋継馬場; 悠樹広中; 藤澤　和也; 和也藤澤; 謙二郎加井; 洋一所
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2014-11-28
Filing date: 2015-11-25
Publication date: 2020-12-09
Anticipated expiration: 2035-11-25
Also published as: JP2016110645A

Description

本発明は、データを分割するための分割装置および解析装置、ならびにプログラムに関する。

テレビ放送における字幕テキストを伝送し、表示するために、タイムドテキストの技術が用いられる。タイムドテキストとは、時刻情報を伴うテキストデータを構造化したものである。字幕テキストに関しては、時刻情報として提示時刻が付加される。放送局側から、映像や音声のコンテンツと共にタイムドテキストを送信し、受信機側では、付加された提示時刻に基づいて、そのテキストを、映像や音声と共に提示する。

非特許文献１には、標準化された規格であるタイムドテキストマークアップ言語（ＴＴＭＬ）によるデータの記述方法が記載されている。
また、非特許文献２には、非特許文献１のＴＴＭＬをベースとして、テキストに加え、画像、音声、ＷＥＢフォントによる非組込フォントの提示にも対応したタイムドテキストマークアップ言語（ＡＲＩＢ−ＴＴＭＬ）によるデータの記述方法が記載されている。
さらに、非特許文献３の、例えば図９−２（ｐ．１１４）には、ＡＲＩＢ−ＴＴＭＬ文書ファイルを含む一連のファイルを伝送する方式の概要が記載されている。

World Wide Web Consortium（Ｗ３Ｃ，ワールド・ワイド・ウェブ・コンソーシアム），「Timed Text Markup Language 1 (TTML1) (Second Edition)」，西暦２０１３年（平成２５年）９月２４日，［平成２６年１１月９日検索］，インターネット＜ＵＲＬ：http://www.w3.org/TR/ttaf1-dfxp/＞「標準規格ＡＲＩＢＳＴＤ−Ｂ６２１．０版デジタル放送におけるマルチメディア符号化方式（第２世代）」，「第一編第３部第３章字幕・文字スーパーの記述言語」，ｐ．６３−７８，平成２６年７月３１日，一般社団法人電波産業会「標準規格ＡＲＩＢＳＴＤ−Ｂ６０１．０版デジタル放送におけるＭＭＴによるメディアトランスポート方式」，「第９章字幕・文字スーパーの伝送」，ｐ．１１４−１２１，平成２６年７月３１日，一般社団法人電波産業会

従来の技術では、テレビ番組等、映像コンテンツの字幕テキストは、番組全体を単位として一つのＴＴＭＬ文書ファイルとして構成されている。ＤＶＤやブルーレイディスクなどの記録媒体に映像コンテンツを記録して販売する場合も同様である。また、ビデオオンデマンドのサービス（要求に応じてインターネット等の通信回線を用いてコンテンツを配信するサービス）においても、ひとつのまとまった番組の全体の字幕テキストを一度に送信する形態がとられる。

しかしながら、例えば、３０分ないしは数時間におよぶ映像コンテンツの字幕テキストのデータ量は膨大であり、これを短時間内に放送波にのせて伝送することは困難である。また、受信機側では、視聴者は任意のタイミングで、受信機の電源をオンにしたり、放送サービス（放送チャンネル）を切り替えたりする。このため、視聴者があるタイミングで特定の放送番組の視聴を開始したときに、そのタイミングにおいて必要な字幕テキストをすばやく伝送する必要がある。番組の全体の字幕テキストを一度に送信する形態の場合、データ量が膨大であるため、すばやく伝送する事が困難であることに加え、番組が放送中の間に、繰り返し全体の字幕テキストを送信する必要があるため、放送の伝送帯域の多くを消費してしまう。

したがって、放送局側の設備として、一番組全体の分がまとまったＴＴＭＬ文書ファイル（字幕テキスト等）を、適切なサイズの断片に分割したり、分割された断片を単位として放送信号に載せて送出したりすることが求められる。
また、放送時にリアルタイムで字幕テキストを送出するためには、ＴＴＭＬ文書ファイルの分割処理の負荷を軽減することが求められる。

本発明は、上記の課題認識に基づいて行なわれたものであり、例えば放送用の一番組全体の字幕テキスト等のタイムドテキストを、断片に分割するための、分割装置および解析装置、ならびにプログラムを提供するものである。

［１］上記の課題を解決するため、本発明の一態様による解析装置は、時刻情報が付加された複数のテキスト文を含むテキスト文書データを取得する取得部と、前記時刻情報に基づいて前記テキスト文書データを、前記テキスト文を含む複数のグループに断片化するための断片化情報を生成する時刻解析部と、前記断片化された前記テキスト文のグループである断片ごとに、前記断片から参照される前記テキスト文書のヘッダ記述の情報を解析し、前記断片と前記断片から参照される前記ヘッダ記述との関係を表す参照関係情報を生成する参照関係解析部と、前記断片化情報と前記参照関係情報とを含んだ断片化テキスト文書送出情報を生成する送出情報生成部と、を具備することを特徴とする。

［２］また、本発明の一態様は、上記の解析装置において、前記断片を放送により伝送する際の、前記断片に含まれる前記テキスト文から参照される画像ファイルや音声ファイルや非組込フォントファイルのロケーション情報と、前記画像ファイルや前記音声ファイルや前記非組込フォントファイルの前記ロケーション情報が前記テキスト文書データのどの部分に記述されているかを示すロケーション情報記述位置指定情報と、前記画像ファイルや前記音声ファイルや前記非組込フォントファイルを前記断片と共に放送により伝送する際の放送信号中のリソースの取得位置を特定するための放送の名前空間による放送ロケーション情報と、を含んだ放送ロケーション変換情報を生成する変換情報解析部、をさらに具備し、前記送出情報生成部は、前記放送ロケーション変換情報をも含んだ断片化テキスト文書送出情報を生成する、ことを特徴とする。

［３］また、本発明の一態様は、上記［１］の解析装置において、前記送出情報生成部は、前記取得部によって取得された前記テキスト文書データに前記断片化情報と前記参照関係情報とを含んだ前記断片化テキスト文書送出情報を付加して、情報付加済テキスト文書データとして出力する、ことを特徴とする。
［４］また、本発明の一態様は、上記［２］の解析装置において、前記送出情報生成部は、前記取得部によって取得された前記テキスト文書データに前記断片化情報と前記参照関係情報と前記放送ロケーション変換情報とを含んだ前記断片化テキスト文書送出情報を付加して、情報付加済テキスト文書データとして出力する、ことを特徴とする。

［５］また、本発明の一態様は、上記の解析装置において、前記断片化情報に含まれる個々の断片に関する情報は、当該断片に含まれる前記テキスト文のグループを特定するための、
（１）前記断片に含まれる、前記テキスト文に付加されていた前記テキスト文を識別するＩＤのリスト、
（２）前記断片に含まれる前記テキスト文のうち一番時間順が早い前記テキスト文に付加されていた開始時刻の情報、
（３）前記断片に含まれる前記テキスト文のうち一番時間順が早い前記テキスト文に付加されていた開始時刻および一番時間順が遅い前記テキスト文に付加されていた終了時刻の情報、
の少なくともいずれかを含むものであり、前記参照関係情報は、前記断片の提示に必要な前記テキスト文書のヘッダ記述として、非組込フォントの情報と、埋め込み画像の情報、テキストのスタイルの情報と、テキスト提示の領域の情報との、少なくともいずれかを含むものである、ことを特徴とする。

［６］上記の課題を解決するため、本発明の一態様による分割装置は、時刻情報が付加された複数のテキスト文を含むテキスト文書データに加え、前記時刻情報に基づいて前記テキスト文書データを前記テキスト文の複数のグループに断片化するための断片化情報と、前記断片化された前記テキスト文のグループである断片ごとに、前記断片から参照される前記テキスト文書のヘッダ記述との関係を表す参照関係情報とを含んだ断片化テキスト文書送出情報を読み込み、前記断片化情報に基づいて前記テキスト文書データを前記テキスト文の複数のグループに分割するとともに、前記参照関係情報に基づいて、分割された断片である前記テキスト文のグループに、前記断片から参照される前記テキスト文書のヘッダ記述の情報を付加する分割部と、前記分割部によって分割された前記テキスト文の断片から参照されるリソースファイルを取得するリソースファイルデータ取得部と、前記分割部によって分割された前記テキスト文と、前記リソースファイルデータ取得部によって取得された前記リソースファイルとを含むデータを出力する出力部と、を具備することを特徴とする。

［７］また、本発明の一態様は、上記の分割装置において、前記分割部は、前記断片を放送により伝送する際の、前記断片に含まれる前記テキスト文から参照される画像ファイルや音声ファイルや非組込フォントファイルのロケーション情報と、前記画像ファイルや前記音声ファイルや前記非組込フォントファイルの前記ロケーション情報が前記テキスト文書データのどの部分に記述されているかを示すロケーション情報記述位置指定情報と、前記画像ファイルや前記音声ファイルや前記非組込フォントファイルを前記断片と共に放送により伝送する際の放送信号中のリソースの取得位置を特定するための放送の名前空間による放送ロケーション情報と、を含んだ放送ロケーション変換情報を更に含む、前記断片化テキスト文書送出情報を読み込み、前記放送ロケーション変換情報に基づいて、前記断片に含まれる前記画像ファイルや前記音声ファイルや前記非組込フォントファイルのロケーション情報を、放送の名前空間によるロケーション情報に書き換えて前記断片に分割する、ことを特徴とする。

［８］また、本発明の一態様は、上記の分割装置において、前記分割部は、時刻情報が付加されたテキストを含むテキスト文書データに、前記断片化テキスト文書送出情報が付加されている情報付加済テキスト文書データを読み込み、前記断片化テキスト文書送出情報に含まれる前記断片化情報に基づいて前記テキスト文書データを、テキスト文の複数のグループに分割するとともに、前記参照関係情報に基づいて分割された断片である前記テキスト文のグループに、前記断片から参照される前記テキスト文書のヘッダ記述の情報を付加し、また、前記分割部は、前記断片化テキスト文書情報に前記放送ロケーション変換情報が含まれる場合は、前記放送ロケーション変換情報に基づいて、前記断片に含まれる前記リソースファイルのロケーション情報を、放送の名前空間によるロケーション情報に書き換える、ことを特徴とする。

［９］また、本発明の一態様による分割装置は、時刻情報が付加された複数のテキスト文を含むテキスト文書データを取得する取得部と、前記時刻情報に基づいて前記テキスト文書データを、前記テキスト文を含む複数のグループに断片化するための断片化情報を生成する時刻解析部と、前記断片化された前記テキスト文のグループである断片ごとに、前記断片から参照される前記テキスト文書のヘッダ記述の情報を解析し、前記断片と前記断片から参照される前記ヘッダ記述との関係を表す参照関係情報を生成する参照関係解析部と、前記テキスト文書データに加え、前記断片化情報と前記参照関係情報とを含んだ断片化テキスト文書送出情報を読み込み、前記断片化情報に基づいて前記テキスト文書データを前記テキスト文の複数のグループに分割するとともに、前記参照関係情報に基づいて分割された断片である前記テキスト文のグループに前記断片から参照される前記テキスト文書のヘッダ記述の情報を付加する分割部と、前記分割部によって分割された前記テキスト文の断片から参照されるリソースファイルを取得するリソースファイルデータ取得部と、前記分割部によって分割された前記テキスト文と、前記リソースファイルデータ取得部によって取得されたリソースファイルとを含むデータを出力する出力部と、を具備することを特徴とする。

［１０］また、本発明の一態様は、上記の分割装置において、前記出力部は、前記断片に含まれる前記テキスト文に付加された前記提示時刻情報のうち、一番早い提示開始時刻にしたがって、分割された前記テキスト文と、前記リソースファイルとを含むデータを順次出力する、ことを特徴とする。

［１１］また、本発明の一態様は、上記の分割装置において、前記断片化情報に含まれる個々の断片に関する情報は、当該断片に含まれる前記テキスト文のグループを特定するための、
（１）前記断片に含まれる、前記テキスト文に付加されていた前記テキスト文を識別するＩＤのリスト、
（２）前記断片に含まれる前記テキスト文のうち一番時間順が早い前記テキスト文に付加されていた開始時刻の情報、
（３）前記断片に含まれる前記テキスト文のうち一番時間順が早い前記テキスト文に付加されていた開始時刻および一番時間順が遅い前記テキスト文に付加されていた終了時刻の情報、
の少なくともいずれかを含むものであり、前記参照関係情報は、前記断片の提示に必要な前記テキスト文書のヘッダ記述として、非組込フォントの情報と、埋め込み画像の情報、テキストのスタイルの情報と、テキスト提示の領域の情報との、少なくともいずれかを含むものである、ことを特徴とする。

［１２］また、本発明の一態様は、上記の分割装置において、前記参照関係情報は、前記断片の提示に必要な前記テキスト文書のヘッダ記述として、非組込フォントの情報と、埋め込み画像の情報、テキストのスタイルの情報と、テキスト提示の領域の情報との、少なくともいずれかを含むものである、ことを特徴とする。

［１３］また、本発明の一態様は、上記の解析装置としてコンピューターを機能させるためのプログラムである。

［１４］また、本発明の一態様は、上記の分割装置としてコンピューターを機能させるためのプログラムである。

本発明によれば、時刻情報が付加されたテキスト情報を、放送等の伝送に適した形に分割して、出力することができる。
また、本発明による字幕情報が付加されたテキスト情報は、一番組全体のテキスト情報として記述、管理できるため、インターネットでのビデオオンデマンドサービスにおいて一般的に用いられる一番組全体のテキスト情報を一括して送信することにも対応でき、インターネットでの字幕テキストの提供に適した形式でも出力することができる。

本発明の第１実施形態による分割装置（送出装置）の概略機能構成を示すブロック図である。同実施形態による分割装置が取得するテキスト文書データの構成を示す概略図である。同実施形態による分割装置によって解析される情報を示す概略図である。同実施形態による分割装置の処理の手順を示すフローチャートである。本発明の第２実施形態による装置構成を示す概略ブロック図である。同実施形態による解析装置の概略機能構成を示すブロック図である。同実施形態による分割装置の概略機能構成を示すブロック図である。同実施形態による解析装置の処理の手順を示すフローチャートである。同実施形態による分割装置の処理の手順を示すフローチャートである。第１実施形態および第２実施形態における解析結果の情報を付加したテキスト文書データの例を示す概略図（１／６）である。第１実施形態および第２実施形態における解析結果の情報を付加したテキスト文書データの例を示す概略図（２／６）である。第１実施形態および第２実施形態における解析結果の情報を付加したテキスト文書データの例を示す概略図（３／６）である。第１実施形態および第２実施形態における解析結果の情報を付加したテキスト文書データの例を示す概略図（４／６）である。第１実施形態および第２実施形態における解析結果の情報を付加したテキスト文書データの例を示す概略図（５／６）である。第１実施形態および第２実施形態における解析結果の情報を付加したテキスト文書データの例を示す概略図（６／６）である。第１実施形態および第２実施形態において出力される断片化テキスト文書データの例を示す概略図である。第１実施形態および第２実施形態において出力される、パッケージ化した字幕データの構造の例を示す概略図である。

次に、図面を参照しながら、本発明の実施形態について説明する。
［第１実施形態］
図１は、第１実施形態による分割装置（送出装置）の概略機能構成を示すブロック図である。図示するように、分割装置１は、取得部１１と、時刻解析部１２と、変換情報解析部１３と、参照関係解析部１４と、分割部１５と、出力部１７と、リソースファイルデータ取得部１８とを含んで構成される。また、図示するテキスト文書データ８１と断片化字幕データ８５とは、適宜、記録媒体等に記録された形態で保持される。具体的には、データ記憶手段としては、磁気ハードディスク装置や、半導体メモリ等が用いられる。

取得部１１は、時刻情報が付加されたテキストを含むテキスト文書データ８１を外部から取得する。テキスト文書データ８１は、このテキスト文書データ８１の詳細については後述する。
時刻解析部１２は、テキスト文書データ８１に含まれる時刻情報に基づいて、テキスト文書データ８１を断片化するための断片化情報を生成する。ここで、断片化とは、時間軸にしたがって、テキスト文書データ８１を、より短い適切な時間範囲を有する複数のグループに分割することである。なお、断片化によって分割された各グループは、１個または複数個のテキスト文を含む。また、時刻解析部１２によって分割されたテキスト（所定の時間の範囲内のテキスト文）を、以後、断片（フラグメント）と呼ぶ場合がある。適切な時間範囲とは、例えば、テレビ放送の字幕としての伝送用に適した時間範囲である。
時刻解析部１２は、生成した断片化情報を分割部１５に渡す。

参照関係解析部１４は、断片化されたテキスト文のグループである断片ごとに、その断片から参照されるテキスト文書のヘッダ記述の情報を解析し、その断片と、その断片から参照されるヘッダ記述との関係を表す参照関係情報を生成する。
参照関係解析部１４は、生成した参照関係情報を分割部１５に渡す。
なお、ヘッダ記述とは、テキスト文から参照されるテキスト文書データのヘッダ部に記述されているフォントの情報や埋め込み画像の情報やスタイル定義情報や字幕提示の領域情報などである。ヘッダ記述の詳細については後述する。

変換情報解析部１３は、断片化された字幕テキストのグループに含まれるリソースファイルを参照するためのロケーション情報を解析する。そして、変換情報解析部１３は、元のロケーション情報の記述を放送の名前空間によるロケーション情報へ書き換えるための、放送ロケーション変換情報を生成する。
変換情報解析部１３は、生成した放送ロケーション変換情報を分割部１５に渡す。

分割部１５は、テキスト文書データ８１と、時刻解析部１２から渡される断片化情報と、参照関係解析部１４から渡される参照関係情報とを取得する。そして、分割部１５は、断片化情報に基づいてテキスト文書データ８１を、テキスト文を含んだ複数のグループに分割するとともに、分割された断片であるテキスト文のグループに、その断片から参照されるテキスト文書のヘッダ記述の情報を付加する。
出力部１７は、分割部１５によって分割されたテキスト文のグループである断片と、その断片から参照されるリソースファイルのデータとを、放送等で利用される伝送フォーマットにて出力する。このとき、出力部１７は、断片に含まれるテキスト文に付加された時刻情報のうち一番早い開始時間にしたがって、分割されたテキスト文のグループである断片化テキスト文書データと、関連付けられたリソースのデータを放送等で利用される伝送フォーマットにて順次出力する。なお、出力部１７は、リソースファイルのデータを、リソースファイルデータ取得部１８から受け取る。
リソースファイルデータ取得部１８は、テキスト文書データ８１から参照されている外部のリソースファイル８７を取得して、上記の出力部１７に渡す。

図２は、分割装置１が取得するテキスト文書データ８１の概略構成を示す概略図である。同図に示すテキスト文書データ８１は、テレビ放送の字幕のデータであり、ＴＴＭＬ（Timed Text Markup Language，タイムドテキストマークアップ言語）の形式によるものである。ＴＴＭＬは、例えば「標準規格ＡＲＩＢＳＴＤ−Ｂ６２１．０版デジタル放送におけるマルチメディア符号化方式（第2世代）」，「第一編第3部第3章字幕・文字スーパーの記述言語」（ｐ．６３−７８，平成２６年７月３１日，一般社団法人電波産業会）で規定されたＡＲＩＢ−ＴＴＭＬにしたがう。ＴＴＭＬ文書は、時刻情報が付加された複数のテキスト文を保持することができる。本実施形態におけるＴＴＭＬ文書は、テレビ放送の字幕テキストおよびそのテキストの提示時刻（presentation time）の情報を含む。ＴＴＭＬ文書は、ＸＭＬ（Extensible Markup Language）文書の一種であり、時刻情報以外にも種々の情報を含んでいる。

図示するように、テキスト文書データ８１は、ヘッダ部（ｈｅａｄ要素）に、埋め込みイメージ情報や、非組込フォント情報や、スタイル情報や、字幕提示の領域情報を含む。
具体的には、テキスト文書データ８１は、メタデータ（ｍｅｔａｄａｔａ要素）の一部として、埋め込みイメージ情報を持っている。埋め込みイメージ情報は、ｓｍｐｔｅ：ｉｍａｇｅ要素として保持されるものであり、バイナリー形式のイメージを適宜コード化して文字としてテキスト文書データ８１内に含まれる。
また、テキスト文書データ８１は、スタイリング情報（ｓｔｙｌｉｎｇ要素）の一部として、非組込フォント情報（ａｒｉｂ−ｔｔ：ｆｏｎｔ−ｆａｃｅ要素）を持っている。非組込フォント情報には、ＴＴＭＬ文書とともに表示可能な非組込フォントのリソースフィルのロケーション情報等を記述する。
また、テキスト文書データ８１は、スタイリング情報の一部として、スタイル情報（ｓｔｙｌｅ要素）を持っている。このスタイル情報は、文字色や、フォントファミリーや、フォントサイズや、文字の配置（アラインメント指定）などの情報を含む。後続のｂｏｄｙ要素内に記述される字幕本文から、ここで定義したスタイル情報を参照して利用できる。
また、テキスト文書データ８１は、レイアウト情報（ｌａｙｏｕｔ要素）の一部として、字幕提示の領域情報（ｒｅｇｉｏｎ要素）を含む。この領域情報は、テキストを表示する領域（座標範囲）に関する情報である。後続のｂｏｄｙ要素内に記述される字幕本文から、ここで定義した領域情報を参照して利用できる。

また、テキスト文書データ８１は、ボディ部（ｂｏｄｙ要素）に字幕本文のテキストの情報を保持する。字幕本文は、ｐ要素や、ｄｉｖ要素として、テキスト文書データ８１内に含まれる。なお、字幕本文を保持するｐ要素やｄｉｖ要素は、上記のヘッダ部内の各情報（埋め込みイメージ情報、非組込フォント情報、スタイル情報、字幕提示の領域情報）を参照する。

分割装置１の入力となるテキスト文書データ８１は、例えば放送番組の単位でひとまとまりのファイルである。番組の長さは、多くの場合、数分から数時間の範囲内のものである。このテキスト文書データ８１は、例えば、ＤＶＤやブルーレイディスク等の記録媒体に記録されたパッケージの一部として組み込まれる場合には特段の不都合はないが、そのままでは、放送等のように逐次伝送される形態のコンテンツには向かない。

分割装置１は、そのようなテキスト文書データ８１を入力し、この文書に含まれるテキスト文をより短い時間帯ごとに分割して、放送用字幕用の複数のフラグメント（断片）のＴＴＭＬファイルとして出力する。分割装置によって分割された後のフラグメントのＴＴＭＬファイルは、各時間帯のテキスト文のグループの情報（１つまたは複数のｐ要素やｄｉｖ要素の情報）に、それらのｐ要素やｄｉｖ要素から参照されるテキスト文書データ８１のヘッダ部に記述されている、埋め込みイメージ情報、非組込フォント情報、スタイル情報、字幕提示の領域情報を追加したＴＴＭＬの記述方式に従った文書である。なお、分割装置１は、入力する文書ファイルの中から、分割後のファイルに必要な要素のみを適宜選択して出力する。

つまり、分割装置１の時刻解析部１２は、入力されたテキスト文書データ８１に含まれる各テキスト文に付加された時刻情報（提示時刻の情報）に基づいて、テキスト文のグループへの断片化を行う。そして、時刻解析部１２は、入力されたデータに、時刻解析の結果の情報を付加する。時刻解析の結果とは、入力されたデータを時間軸に沿っていかに断片化するかを表す情報である。つまり、時刻解析部１２によって付加される断片化情報とは、各断片の開始時刻（および必要に応じて終了時刻）を表す情報である。ＴＴＭＬにおいては、字幕本文の各時間帯のテキスト文（p要素やｄｉｖ要素）に開始時刻等を表す情報が記述されているため、ｐ要素やｄｉｖ要素の属性値として記述されているｉｄ情報を指定することで、上記の各断片の開始時刻（および必要に応じて終了時刻）を特定でき、各断片に含まれるテキスト文のｉｄ情報を、いかに断片化するかを表す断片化情報とすることもできる。複数のテキスト文をまたがった時間を指定する場合には、複数のテキスト文のｉｄ値のリストを指定することもできる。

また、参照関係解析部１４は、入力されたテキスト文書データ８１を分割するために、テキスト文書データ８１に含まれる時間帯（時間軸で区切った断片）ごとの、テキスト文書データ８１のヘッダ部のうち必要な部分の記述への参照の状況を解析する。そして、参照関係解析部１４は、解析した結果である参照関係情報を、入力データに付加する。分割部１５は、これらの、解析結果が付加されたデータを受け取り、それに基づいて分割されたファイルを生成する。
また、変換情報解析部１３は、断片化された字幕テキストのグループに含まれるリソースファイルの参照のためのロケーション情報を解析し、元のロケーション情報の記述を放送の名前空間によるロケーション情報へ書き換えるための、放送ロケーション変換情報を生成する。

図３は、分割装置１の時刻解析部１２と参照関係解析部１４と変換情報解析部１３とによってそれぞれ解析された結果として付加される、データを時間軸に沿っていかに断片化するかをＴＴＭＬ文書内に記述するためのＸＭＬの構造を示す概略図である。この付加情報を含むデータが、分割部１５に渡される。同図は、便宜上、ＸＭＬ形式のデータの階層構造を表として表した形である。なお、同図における横方向のインデントの位置は、階層の深さに対応している。但し、分割部１５が受け取るデータ（解析結果を付加したデータ）は、ＸＭＬ形式に限らず、同等の他の形式のデータであっても良い。また、この例ではＴＴＭＬ文書に中のｍｅｔａｄａｔａ要素としてデータを付加する例を示したが、字幕用のＴＴＭＬ文書とは別に、付加情報のファイルとして別のファイルを生成し、管理するようにしても良い。図示するように、図３は、ＴＴＭＬ文書ファイル内の階層構成のタグ情報およびパラメーターの種類と、同ファイル内に含まれる各要素の出現回数を示している。

なお、同図においては、各要素および各属性の出現回数の情報をも示している。出現回数の欄に「１」と示す属性は、共通の上位要素に属する同一レベルのものとしては１回出現する。出現回数の欄に「０．．１」と示す属性は、共通の上位要素に属する同一レベルのものとしては０回ないしは１回出現する。出現回数の欄に「０．．ｎ」と示す属性は、共通の上位要素に属する同一レベルのものとしては０回ないしはｎ回（ｎは自然数）出現する。

以下、各々の要素および属性について説明する。
ｔｔ要素は、ＴＴＭＬ文書ファイルにおける最上位の要素である。
ｈｅａｄ要素は、ＴＴＭＬ文書ファイルにおけるヘッダ部（ｈｅａｄ要素）である。
ｍｅｔａｄａｔａ要素は、ヘッダ部の中に含まれているメタデータである。ＴＴＭＬにおいては、ＴＴＭＬ文書に関する任意の情報をｍｅｔａｄａｔａ要素下に記述することができる。
ｃａｐｔｉｏｎＥｘｃｈａｎｇｅＩｎｆｏｒｍａｔｉｏｎ要素は、メタデータの一部として含まれている、字幕キャプションの交換に関する情報である。
ｔｒａｎｓｍｉｓｓｉｏｎＩｎｆｏｒｍａｔｉｏｎ要素は、ｃａｐｔｉｏｎＥｘｃｈａｎｇｅＩｎｆｏｒｍａｔｉｏｎの一部として含まれている、伝送に関する情報である。
ｔｒａｎｓｍｉｓｓｉｏｎＵｎｉｔｓ要素は、放送における伝送単位である「ｕｎｉｔ」を格納するための親要素である。

ｕｎｉｔ要素は、放送で伝送される字幕データの伝送単位を示す要素である。
＠ｘｍｌ：ｉｄ属性は、ｕｎｉｔの属性であり、字幕テキストの伝送単位の識別子を示す。この識別子により、伝送単位ごとの字幕データを番号等で管理することができる。なお、ｕｎｉｔを識別するために、連番等を値として持つ＠ｎｕｍｂｅｒ要素を用いるようにしても良い。
＠ｔｉｍｅｃｏｄｅ属性は、ｕｎｉｔの属性であり、提示時刻を示す。提示時刻は、当該伝送単位として伝送される字幕データを提示する時刻であり、例えば番組開始時点からの相対時刻で表される。提示時刻を表す形式は、例えば、「ｈｈ：ｍｍ：ｓｓ：ｎｎｎ」（時−分−秒−ミリ秒）である。放送局側の送出装置（本実施形態における分割装置１）は、この提示時刻に基づき、字幕データを送出する。なお、提示時刻よりも所定時間（伝送や処理等に要するオーバーヘッド時間）前に、送出装置は、字幕データを送出する。なお、＠ｔｉｍｅｃｏｄｅ属性の値としての提示時刻には、当該伝送単位に含まれる各字幕テキストの提示開始時刻のうち、一番早い開始時間の値を用いる。これにより、放送信号を受信する受信機側での提示に間に合うように、断片化字幕データ８５を送出することができる。

ｒｅｓｏｕｒｃｅ要素は、字幕データの伝送単位に含まれる各リソース（ｒｅｓｏｕｒｃｅ要素）に対応する要素である。ｒｅｓｏｕｒｃｅ要素は、そのリソースを構成するために必要な情報やデータを指し示すための情報を属性として含む。ｒｅｓｏｕｒｃｅ要素のｄａｔａｔｙｐｅ属性（下記）に応じて、記述可能な他の属性を切り替える。具体的には、ｄａｔａｔｙｐｅ＝「００００」の場合と、ｄａｔａｔｙｐｅ≠「００００」との場合で切り替える。

＠ｄａｔａｔｙｐｅ属性は、ｒｅｓｏｕｒｃｅの属性であり、データタイプを表す。例えば、ＡＲＩＢ標準規格である「デジタル放送におけるＭＭＴによるメディアトランスポート方式」（ARIB STD-B60 1.0版，２００４年７月３１日策定）の第１１７ページには、表９−１として、伝送時のデータタイプの一覧が示されている。ここでのｄａｔａｔｙｐｅ属性は、上記規格に準ずるものとして考えることができる。具体的には、ｄａｔａｔｙｐｅの値が「００００」であることは、当該リソースが字幕テキストそのもの（ＡＲＩＢ−ＴＴＭＬ文書ファイル）であることを示す。また、ｄａｔａｔｙｐｅの値が「００００」以外であることは、ＴＴＭＬ文書ファイル以外の外部リソースであることを示す。例えば、ｄａｔａｔｙｐｅの値が「０００１」であるとき、そのリソースはＰＮＧ形式の画像ファイルである。また、ｄａｔａｔｙｐｅの値が「００１０」であるとき、そのリソースはＳＶＧ形式の画像ファイルである。また、ｄａｔａｔｙｐｅの値が「０１１０」であるとき、そのリソースはＳＶＧ形式のフォントファイルである。また、ｄａｔａｔｙｐｅの値が「０１１１」であるとき、そのリソースはＷＯＦＦ形式のフォントファイルである。

ｄａｔａｔｙｐｅに後続する属性の種類は、＠ｄａｔａｓｉｚｅ属性を除き、上記のｄａｔａｔｙｐｅの値に応じて異なる。ｄａｔａｔｙｐｅの値が「００００」の場合は、後続する属性として、＠ｆｏｎｔ−ｆａｃｅ、＠ｓｔｙｌｅ、＠ｒｅｇｉｏｎ、＠ｓｕｂｔｉｔｌｅが用いられる。ｄａｔａｔｙｐｅの値が「００００」以外の場合は、後続する属性として、＠ｉｄｒｅｆ、＠ｓｒｃｐａｔｈ、＠ｓｒｃｖａｌｕｅ、＠ｒｅｐｌａｃｅｔｏが用いられる。ｄａｔａｔｙｐｅの値が「００００」以外の場合のこれらの属性情報は、外部リソースファイルのパスの情報や、放送伝送の名前空間への書き換えに関する情報を含むものである。
図中では、ｄａｔａｔｙｐｅ＝「００００」の場合と、ｄａｔａｔｙｐｅ≠「００００」との場合とのそれぞれに、異なるハッチングパターンを付して示している。

＠ｄａｔａｓｉｚｅ属性は、当該リソースのデータサイズを示すものである。この属性は、ｄａｔａｔｙｐｅの値によらず記述することができる。

次に挙げる＠ｉｍａｇｅ属性、＠ｆｏｎｔ−ｆａｃｅ属性、＠ｓｔｙｌｅ属性、＠ｒｅｇｉｏｎ属性、＠ｓｕｂｔｉｔｌｅ属性は、いずれも、ｄａｔａｔｙｐｅの値が「００００」の場合（ＴＴＭＬ文書を表す）に記述されるものである。また、これらの＠ｉｍａｇｅ属性、＠ｆｏｎｔ−ｆａｃｅ属性、＠ｓｔｙｌｅ属性、＠ｒｅｇｉｏｎ属性、＠ｓｕｂｔｉｔｌｅ属性の値は、本ｕｎｉｔ要素で伝送する字幕データを伝送するため、番組単位のＴＴＭＬ文書を分割する際に、抽出すべき要素を指定している。つまり、分割後のＴＴＭＬ文書に含まれるテキスト文と、それらのテキスト文から参照するヘッダ部に記述された情報の参照関係を予め解析しておき、その解析結果（参照される要素の識別子の情報）を伝送情報（ｔｒａｎｓｍｉｓｓｉｏｎＩｎｆｏｒｍａｔｉｏｎ）の一部として含めておく。言い換えれば、伝送単位（ｕｎｉｔ）ごとに、含まれるテキスト文の識別子と、参照先のヘッダ部内の情報の識別子の情報を保持しておくようにする。識別子はＴＴＭＬ文書内のｉｍａｇｅ要素、ｆｏｎｔ−ｆａｃｅ要素、ｓｔｙｌｅ要素、ｒｅｇｉｏｎ要素、字幕本文のｄｉｖ要素やｐ要素のｘｍｌ：ｉｄ属性として指定された識別子を利用する。＠ｉｍａｇｅ属性、＠ｆｏｎｔ−ｆａｃｅ属性、＠ｓｔｙｌｅ属性、＠ｒｅｇｉｏｎ属性、＠ｓｕｂｔｉｔｌｅ属性には、それぞれ複数の識別子を記述することができ、複数の属性値を記述した場合は、複数の要素を分割後のＴＴＭＬ文書に含めることを意味する。なお、ｄａｔａｔｙｐｅの値が「００００」であるｒｅｓｏｕｒｃｅ要素は必ず１つのみ存在する。

ｒｅｓｏｕｒｃｅ要素の＠ｓｕｂｔｉｔｌｅ属性は、ＴＴＭＬ文書中のｔｔ／ｂｏｄｙ／ｄｉｖ／ｄｉｖ要素もしくはｔｔ／ｂｏｄｙ／ｄｉｖ／ｐ要素（これらはいずれも、字幕テキスト）における識別子を規定する。なお、ｔｔ／ｂｏｄｙ／ｄｉｖ／ｄｉｖ要素およびｔｔ／ｂｏｄｙ／ｄｉｖ／ｐ要素においては、ｘｍｌ：ｉｄ属性によってその字幕テキストの識別子を規定する。＠ｓｕｂｔｉｔｌｅ属性に記述する情報は、番組単位の字幕テキスト文のうち、当該伝送単位（ｕｎｉｔ）にどのテキスト文を含めるかの情報であり、時刻解析部１２が生成する断片化情報に該当する。

ｒｅｓｏｕｒｃｅ要素の＠ｉｍａｇｅ属性は、ＴＴＭＬ文書中の、ｔｔ／ｈｅａｄ／ｍｅｔａｄａｔａ／ｓｍｐｔｅ：ｉｍａｇｅ要素（イメージ）における識別子を指定する。なお、ｔｔ／ｈｅａｄ／ｍｅｔａｄａｔａ／ｓｍｐｔｅ：ｉｍａｇｅ要素においては、＠ｘｍｌ：ｉｄ属性によってそのイメージの識別子を規定する。

ｒｅｓｏｕｒｃｅ要素の＠ｆｏｎｔ−ｆａｃｅ属性は、ＴＴＭＬ文書中のｔｔ／ｈｅａｄ／ｓｔｙｌｉｎｇ／ａｒｉｂ−ｔｔ：ｆｏｎｔ−ｆａｃｅ要素（フォント）における識別子を指定する。なお、ｔｔ／ｈｅａｄ／ｓｔｙｌｉｎｇ／ａｒｉｂ−ｔｔ：ｆｏｎｔ−ｆａｃｅ要素においては、ｉｄ属性によってそのフォントフェースの識別子を規定する。

ｒｅｓｏｕｒｃｅ要素の＠ｓｔｙｌｅ属性は、ＴＴＭＬ文書中のｔｔ／ｈｅａｄ／ｓｔｙｌｉｎｇ／ｓｔｙｌｅ要素（様々な表示スタイルの規定）における識別子を指定する。なお、ｔｔ／ｈｅａｄ／ｓｔｙｌｉｎｇ／ｓｔｙｌｅ要素においては、ｘｍｌ：ｉｄ属性によってそのスタイルの識別子を規定する。

ｒｅｓｏｕｒｃｅ要素の＠ｒｅｇｉｏｎ属性は、ＴＴＭＬ文書中のｔｔ／ｈｅａｄ／ｌａｙｏｕｔ／ｒｅｇｉｏｎ要素（表示の領域）における識別子を規定する。なお、ｔｔ／ｈｅａｄ／ｌａｙｏｕｔ／ｒｅｇｉｏｎ要素においては、ｘｍｌ：ｉｄ属性によってその領域の識別子を規定する。

なお、上記＠ｉｍａｇｅ属性、＠ｆｏｎｔ−ｆａｃｅ属性、＠ｓｔｙｌｅ属性、＠ｒｅｇｉｏｎ属性に記述する情報は、参照関係解析部１４が生成する各断片から参照されるテキスト文書のヘッダ記述の情報であり、それぞれ埋め込み画像の情報、非組込フォントの情報、スタイルの情報、字幕提示の領域情報などの参照関係情報に該当する。

ｒｅｓｏｕｒｃｅ要素のｄａｔａｔｙｐｅの値が「００００」以外の場合は、前述のとおり、リソースがＡＲＩＢ−ＴＴＭＬ文書以外であることを示し、ｒｅｓｏｕｒｃｅ要素には、当該伝送単位に含まれるが外部参照するリソースに関する情報を、リソース毎に記述する。つまり、ｄａｔａｔｙｐｅの値が「００００」以外のｒｅｓｏｕｒｃｅ要素が、ｕｎｉｔ要素にi個記述されている場合は、ＡＲＩＢ−ＴＴＭＬ文書以外に、i個のリソースを伝送単位として送出する事を意味する。
ｒｅｓｏｕｒｃｅ要素の＠ｉｄｒｅｆ属性は、伝送単位として一緒に送出するＡＲＩＢ−ＴＴＭＬ文書において、外部リソースの参照を行っている要素を指定するものである。具体的には、＠ｉｄｒｅｆ属性は、外部リソースを行っている要素の識別子（ｘｍｌ：ｉｄ属性）を用いる。
ｒｅｓｏｕｒｃｅ要素の＠ｓｒｃｐａｔｈ属性（ソースパス）は、上記のｉｄｒｅｆ属性で指定した要素を起点とした、リソースファイルのロケーションを指定する属性へのパスをｘｐａｔｈ（ｈｔｔｐ：／／ｗｗｗ．ｗ３．ｏｒｇ／ＴＲ／ｘｐａｔｈ／）により指定するものである。
ｒｅｓｏｕｒｃｅ要素の＠ｓｒｃｖａｌｕｅ属性（ソースバリュー）は、上記のｓｒｃｐａｔｈ属性で示した属性の値（リソースファイルのロケーション情報）である。
ｒｅｓｏｕｒｃｅ要素の＠ｒｅｐｌａｃｅｔｏ属性（リプレース・トゥ）は、当該リソースを放送で伝送した場合に、受信機が当該リソースを放送信号中から取得できるようにするため、放送の名前空間によるリソースのロケーションを指定するものである。つまり、ｒｅｐｌａｃｅｔｏ属性は、放送として伝送されるときには、ファイルの元の名（ｓｒｃｖａｌｕｅ属性で指定される値）を、このｒｅｐｌａｃｅｔｏ属性で指定される名に置き換えることを指定するものである。
ｒｅｓｏｕｒｃｅ要素の＠ｉｄｒｅｆ属性、＠ｓｒｃｐａｔｈ属性、＠ｓｒｃｖａｌｕｅ属性、＠ｒｅｐｌａｃｅｔｏ属性の一連の属性によって、ｕｎｉｔ属性で指定した字幕の伝送単位において、ＡＲＩＢ−ＴＴＭＬ文書から参照するリソースファイルの存在と、リソースファイルのロケーション情報を置き換えに必要な情報を指定することができる。つまり、これらの情報は、変換情報解析部１３が生成する、放送ロケーション変換情報に該当する。

なお、上記の、ｒｅｓｏｕｒｃｅ要素の＠ｓｒｃｖａｌｕｅ属性は、断片に含まれるテキスト文から参照されるリソースファイル（画像ファイルや音声ファイルや非組込フォントファイル等）のロケーション情報である。
また、上記の、ｒｅｓｏｕｒｃｅ要素の＠ｓｒｃｐａｔｈ属性は、前記リソースファイル（画像ファイルや音声ファイルや非組込フォントファイル等）のロケーション情報がテキスト文書データのどの部分に記述されているかを示すロケーション情報記述位置指定情報である。
また、上記の、ｒｅｓｏｕｒｃｅ要素の＠ｒｅｐｌａｃｅｔｏ属性は、前記リソースファイル（画像ファイルや音声ファイルや非組込フォントファイル等を断片と共に放送により伝送する際の放送信号中のリソースの取得位置を特定するための放送の名前空間による放送ロケーション情報である。
ここで述べたロケーション情報と、ロケーション情報記述位置指定情報と、放送の名前空間による放送ロケーション情報とを含むものが、放送ロケーション変換情報である。

次に、本実施形態における処理手順について説明する。
図４は、分割装置１による処理の手順を示すフローチャートである。
同図に示すように、まずステップＳ１１において、取得部１１は、テキスト文書データ８１を取得し、取得したテキスト文書データ８１に含まれる各要素にＩＤ（識別子）を付与済みであるか否かを判断する。この判断は、テキスト文書データ８１の各要素に関してＩＤが付与済みである場合には、それらの付与済みのＩＤを利用することによって、再付与の処理をスキップするためのものである。そして、ＩＤが付与済みである場合（ステップＳ１１：ＹＥＳ）には、ステップＳ１３に飛ぶ。また、ＩＤが付与されていない場合（ステップＳ１１：ＮＯ）には、次のステップＳ１２に進む。

次にステップＳ１２に進んだ場合、取得部１１は、テキスト文書データ８１に含まれている各要素の適宜ＩＤを付与する。なお、ここで付与するＩＤは、要素を識別できるものであれば充分である。具体的に、本ステップにおいてＩＤが付与される要素は、ＴＴＭＬ文書データにおける、次の６種類の要素である。即ち；
− ｔｔ／ｈｅａｄ／ｍｅｔａｄａｔａ／ｓｍｐｔｅ：ｉｍａｇｅ
− ｔｔ／ｈｅａｄ／ｓｔｙｌｉｎｇ／ａｒｉｂ−ｔｔ／ｆｏｎｔ−ｆａｃｅ
− ｔｔ／ｈｅａｄ／ｓｔｙｌｉｎｇ／ｓｔｙｌｅ
− ｔｔ／ｈｅａｄ／ｌａｙｏｕｔ／ｒｅｇｉｏｎ
− ｔｔ／ｈｅａｄ／ｄｉｖ／ｄｉｖ
− ｔｔ／ｈｅａｄ／ｄｉｖ／ｐ

ここで、要素の種類を容易に区別できるようなＩＤの付与のしかたをしても良い。例えば、次の通りである。
ｔｔ／ｈｅａｄ／ｍｅｔａｄａｔａ／ｓｍｐｔｅ：ｉｍａｇｅの要素に対しては、「ＳＭＰＴＥ」で始まるＩＤを付与する。一例としては、「ＳＭＰＴＥ＿ｌｏｇｏ１６」などといったＩＤを付与する。
ｔｔ／ｈｅａｄ／ｓｔｙｌｉｎｇ／ａｒｉｂ−ｔｔ／ｆｏｎｔ−ｆａｃｅの要素に対しては、「ｆ」で始まり、その後に連続番号を伴うＩＤを付与する。一例としては、「ｆ０１」、「ｆ０２」、・・・などといったＩＤを付与する。
ｔｔ／ｈｅａｄ／ｓｔｙｌｉｎｇ／ｓｔｙｌｅの要素やｔｔ／ｈｅａｄ／ｌａｙｏｕｔ／ｒｅｇｉｏｎの要素に対しては、「ｓ」で始まり、その後に連続番号を伴うＩＤを付与する。一例としては、「ｓ１」、「ｓ２」、・・・などといったＩＤを付与する。
ｔｔ／ｈｅａｄ／ｄｉｖ／ｄｉｖやｔｔ／ｈｅａｄ／ｄｉｖ／ｐの要素に対しては、「ｃ」で始まり、その後に連続番号を伴うＩＤを付与する。一例としては、「ｃ００１」、「ｃ００２」、・・・などといったＩＤを付与する。
このように各要素にＩＤを付与することにより、以後の処理において、そのＩＤによってそれぞれの要素を参照することができる。

次にステップＳ１３において、時刻解析部１２は、テキスト文書データ８１に含まれる全ての字幕文テキストに付与されている提示時刻の解析を行い、そして各々が字幕文テキストを有する複数のグループに断片化する断片化情報を生成する。時刻解析部１２による断片化の方法は、任意である。通常は、放送番組において特定の字幕テキストが表示されている時間（提示開始時刻から提示終了時刻まで）は、数秒から、せいぜい十数秒の範囲内に収まることが多い。また、番組の途中から視聴を開始する視聴者がいることを考慮すると、１つの伝送単位があまり長い時間（例えば１０秒、あるいはそれ以上）に渡ることは好ましくない。一例として、時刻解析部１２は、所定の時間（数秒程度）を超えるごとに伝送単位を区切る。また、他の例として、時刻解析部１２は、字幕テキストに対応する１つのｄｉｖ要素あるいはｐ要素ごとに、伝送単位を区切る。その他、伝送容量を考慮して、時刻解析部１２による伝送単位の区切り方を決めても良い。伝送単位の区切り方の詳細は、一種の設計事項である。
いずれの方法を取るにせよ、時刻解析部１２は、断片化した結果の時刻の区切りに含まれる字幕テキスト文（ｔｔ／ｈｅａｄ／ｄｉｖ／ｄｉｖ要素やｔｔ／ｈｅａｄ／ｄｉｖ／ｐ要素）のＩＤのリストの情報である断片化情報を生成して、参照関係解析部１４および分割部１５に渡す。

次にステップＳ１４において、参照関係解析部１４は、断片化情報をもとに断片化された字幕テキストのグループからの、テキスト文書データ８１のヘッダ部に記述された情報への参照関係を解析し、参照関係情報を生成する。ここで、参照関係の解析の対象となるヘッダ部内の情報は、次の通りである。即ち、スタイル（ｓｔｙｌｅ要素）や、字幕提示の領域（ｒｅｇｉｏｎ要素）や、埋め込みイメージ（ｓｍｐｔｅ：ｉｍａｇｅ要素）や、非組込フォント（ａｒｉｂ−ｔ：ｆｏｎｔ−ｆａｃｅ要素）などである。
そして、参照関係解析部１４は、断片化情報に参照関係に関する情報を付加して、変換情報解析部１３および分割部１５に渡す。

次にステップＳ１５において、変換情報解析部１３は、断片化された字幕テキストのグループに含まれるリソースファイルの参照のためのロケーション情報を解析し、放送ロケーション変換情報を生成し分割部１５に渡す。なお、変換情報解析部１３が生成する放送ロケーション変換情報は、具体的には、ｒｅｓｏｕｒｃｅ要素における＠ｓｒｃｐａｔｈ属性と、＠ｓｒｃｖａｌｕｅ属性と、＠ｒｅｐｌａｃｅｔｏ属性の、それぞれの値である。なお、放送ロケーション変換情報に含まれるこれらの属性については、図３を参照しながら説明した通りである。

なお、時刻解析部１２、参照関係解析部１４、変換情報解析部１３による解析結果の情報生成（付加）の一例は、後で、図１０，図１１，図１２，図１３，図１４，図１５を参照しながら説明する。

次にステップＳ１６において、分割部１５は、ステップＳ１３において生成した断片化の情報とステップＳ１４において生成した参照関係の情報と、ステップＳ１５において生成した放送ロケーション情報への変換に関する情報に基づいて、入力されたテキスト文書データ８１を分割し、断片化された複数のテキスト文書データを生成する。

次にステップＳ１７において、出力部１７は、分割部１５によって生成された断片化テキスト文書データが、外部イメージファイル、外部オーディオファイル、外部非組込フォントファイルなどを参照する場合は、断片化テキスト文書データと、リソースファイルデータ取得部１８によって取得した外部のリソースファイル８７を結合し、放送等で提供するフォーマットにしたがいパッケージ化した断片化字幕データ８５を生成する。この断片化字幕データ８５は、断片化によって区切られた時間帯の字幕テキストデータと、参照リソースファイルのデータとを含む。
そして、出力部１７は、複数の断片化字幕データ８５のそれぞれを、各断片に含まれる字幕テキストのうち一番早い提示開始時刻に合わせて（受信機側での提示に間に合うようなタイミングで）、出力（送出）する。
なお、分割部１５によるファイル分割、および出力部１７によるデータの送出の詳細な処理手順は、第２実施形態において説明する図９の手順と同様のものとしても良い。
以上で、本フローチャート全体の処理を終了する。

［第２実施形態］
次に、第２実施形態について説明する。なお、上述した実施形態と共通の事項については記載を省略し、本実施形態に特有の事項を中心に以下の説明を行う。
図５は、本実施形態による装置構成を示す概略ブロック図である。図示するように、本実施形態によるテキスト（字幕等）の分割・送出システムは、テキスト文書データ８１と、解析装置５と、情報付加済テキスト文書データ８３と、分割装置２（送出装置）と、断片化字幕データ８５とを含んで構成される。なお、テキスト文書データ８１と、情報付加済テキスト文書データ８３と、断片化字幕データ８５とは、適宜、記録媒体等に記録された形態で保持される。具体的には、データ記憶手段としては、磁気ハードディスク装置や、半導体メモリ等が用いられる。

同図に示す解析装置５は、テキスト文書データ８１を読み込み、断片化のための解析を行い、解析結果を付加して、情報付加済テキスト文書データ８３を出力する。解析装置５が行う解析には、断片化するための提示時刻の解析と、断片化した結果のテキスト文からのテキスト文書データ８１のヘッダ部の情報への参照の解析と、断片化した結果のテキスト文がリソースファイルを参照する場合の、リソースファイルのロケーション情報の解析の結果を含む。
また、分割装置２は、上記の情報付加済テキスト文書データ８３を読み込み、各断片の字幕テキストに対応した複数の断片化テキスト文書データを生成し、生成された断片化テキスト文書データが、外部イメージファイル、外部オーディオファイル、外部非組込フォントファイルなどを参照する場合は、断片化テキスト文書データと、リソースファイルデータ取得部によって取得した外部ファイルデータを結合し、放送等で提供するフォーマットにしたがいパッケージ化した断片化字幕データ８５を生成する。断片化字幕データ８５は、入力された字幕テキストを、所定の提示時刻の範囲で区切って独立のまとまった単位のファイルとして構成されるものである。

図６は、本実施形態による解析装置５の概略機能構成を示すブロック図である。図示するように、解析装置５は、取得部３１と、時刻解析部３２と、変換情報解析部３３と、参照関係解析部３４と、付加部３６（送出情報生成部）とを含んで構成される。

取得部３１は、時刻情報が付加されたテキストを含むテキスト文書データ８１を外部から取得する。
時刻解析部３２は、テキスト文書データ８１に含まれる各テキスト文に付加された時刻情報に基づいて、テキスト文書データ８１を複数のテキスト文のグループに断片化するための断片化情報を生成する。なお、断片化された後の各グループは、元のテキスト文書データ８１に含まれるテキスト文の時間範囲よりも、短い時間範囲のテキスト文を含むものである。
なお、時刻解析部３２は、生成した断片化情報を参照関係解析部３４および付加部３６に渡す。
参照関係解析部３４は、断片化されたテキスト文のグループである断片ごとに、その断片に含まれるテキスト文から参照されるテキスト文書データ８１のヘッダ部の情報を解析し、その断片と、参照される前記ヘッダ部の情報（ヘッダ記述）との関係を表す参照関係情報を生成する。
参照関係解析部３４は、断片化情報と生成した参照関係情報を変換情報解析部および付加部３６に渡す。
変換情報解析部３３は、断片化されたテキスト文のグループに含まれるリソースファイルの参照のためのロケーション情報を解析し、元のロケーション情報の記述を放送の名前空間によるロケーション情報へ書き換えるための、放送ロケーション変換情報を生成する。
変換情報解析部３３は、生成した放送ロケーション変換情報を付加部３６に渡す。
付加部３６は、取得部３１によって取得されたテキスト文書データ８１に、時刻解析部３２から渡された断片化情報と参照関係解析部３４から渡された参照関係情報と変換解析部３３から渡された放送ロケーション変換情報を付加して、情報付加済テキスト文書データ８３として出力する。

図７は、本実施形態による分割装置２の概略機能構成を示すブロック図である。図示するように、分割装置２は、分割部３５と、出力部３７と、リソースファイルデータ取得部３８とを含んで構成される。

分割部３５は、情報付加済テキスト文書データ８３を読み込み、情報付加済テキスト文書データ８３に含まれる断片化情報に基づいて情報付加済テキスト文書データ８３に含まれるテキスト文書を分割し断片化テキストデータを生成する。
なお、分割部３５が読み込む情報付加済テキスト文書データ８３は、前述の通り、時刻情報が付加された複数のテキスト文を含むテキスト文書データ８１に、時刻情報に基づいてテキスト文の複数のグループに断片化するための断片化情報を付加し、さらに断片化されたテキスト文の各グループごとに、その断片から参照されるテキスト文書データ８１のヘッダ部の情報との関係を表す参照関係情報を付加し、さらに断片化されたテキスト文の各グループがリソースファイルを参照する場合に、リソースァイルの参照のためのロケーション情報を元のロケーション情報の記述から放送の名前空間によるロケーション情報へ書き換えるための放送ロケーション変換情報を付加してなるものである。

出力部３７は、分割部３５によって分割されたテキストに加え、分割されたテキスト文書が、外部イメージファイル、外部オーディオファイル、外部非組込フォントファイルなどを参照する場合は、分割されたテキストと、リソースファイルデータ取得部によって取得した外部リソースファイルデータを結合し、放送等で提供するフォーマットにしたがいパッケージ化した断片化字幕データ８５を生成し出力する。断片化字幕データ８５は、入力された字幕テキストを、所定の提示時刻の範囲で区切って独立のまとまった単位のファイルとして構成されるものである。このとき、出力部３７は、各断片に含まれる字幕テキストのうち一番早い提示時刻情報に合わせて、分割されたテキスト含む断片化字幕データを順次出力する。
リソースファイルデータ取得部３８は、情報付加済テキスト文書データ８３から参照されているリソースファイル８７を取得し、上記の出力部３７に渡す。

次に、本実施形態における処理手順について説明する。
図８は、解析装置５による処理の手順を示すフローチャートである。
同図に示すように、まずステップＳ３１において、取得部３１は、テキスト文書データ８１を取得し、取得したテキスト文書データ８１に含まれる各要素にＩＤ（識別子）を付与済みであるか否かを判断する。この判断は、テキスト文書データ８１の各要素に関してＩＤが付与済みである場合には、それらの付与済みのＩＤを利用することによって、再付与の処理をスキップするためのものである。そして、ＩＤが付与済みである場合（ステップＳ３１：ＹＥＳ）には、ステップＳ３３に飛ぶ。また、ＩＤが付与されていない場合（ステップＳ３１：ＮＯ）には、次のステップＳ３２に進む。

次にステップＳ３２に進んだ場合、取得部３１は、テキスト文書データ８１に含まれている各要素の適宜ＩＤを付与する。なお、本ステップにおける処理は、第１実施形態でのステップＳ１２における処理と同様である。よって、ここでは詳細な説明を省略する。

次にステップＳ３３において、時刻解析部３２は、テキスト文書データ８１に含まれる全ての字幕文テキストに付与されている提示時刻の解析を行い、そして複数の字幕文テキストのグループに断片化する断片化情報を生成する。なお、本ステップにおける処理は、第１実施形態でのステップＳ１３における処理と同様である。よって、ここでは詳細な説明を省略する。

次にステップＳ３４において、参照関係解析部３４は、断片化情報をもとに断片化された字幕テキストのグループからの、テキスト文書データ８１のヘッダ部に記述された情報への参照関係を解析し、参照関係情報を付加する。なお、本ステップにおける処理は、第１実施形態でのステップＳ１４における処理と同様である。よって、ここでは詳細な説明を省略する。

次にステップＳ３５において、変換情報解析部３３は、断片化された字幕テキストのグループに含まれるリソースファイルの参照のためのロケーション情報を解析し、放送ロケーション変換情報を生成し、分割部に渡す。なお、本ステップにおける処理は、第１実施形態でのステップＳ１５における処理と同様である。よって、ここでは詳細な説明を省略する。

次にステップＳ３６において、付加部３６は、テキスト文書データ８１を適切に分割するために必要な情報を付加する。ここで付加部３６が付加する情報は、大きく、ステップＳ３３において生成された断片化情報と、ステップＳ３４において生成された参照関係情報と、ステップＳ３５において生成された放送ロケーション変換情報である。付加部３６は、ＴＴＭＬ文書データとしてのテキスト文書データ８１におけるヘッダ部（ｈｅａｄ要素）の中の、メタデータ（ｍｅｔａｄａｔａ要素）の部分に上記の付加情報を格納し、情報付加済テキスト文書データ８３として出力する。

なお、本実施形態においても、テキスト文書データ８１におけるヘッダ部に上記の付加情報を格納することによって情報付加済テキスト文書データ８３を出力する代わりに、付加情報を例えば別ファイルの形態として生成し、分割装置２に渡すようにしても良い。

次に、分割装置２の処理手順について説明する。
図９は、分割装置２による処理の手順を示すフローチャートである。
同図に示すように、まずステップＳ４１において、分割部３５は、付加情報を含むテキスト文書データである情報付加済テキスト文書データ８３を読み込む。この情報付加済テキスト文書データ８３はＸＭＬ文書データの一種であり、分割部３５は読み込んだＸＭＬデータをパージングすることにより、ＤＯＭ（ドキュメントオブジェクトモデル，Document Object Model）を作成する。これにより、分割部３５は、読み込んだ情報付加済テキスト文書データ８３の構成をツリー構造で把握する。

次のステップＳ４２からＳ４５までの処理は、ステップＳ４１で読み込んだデータのメタデータ内に含まれる伝送単位（ｕｎｉｔ要素）ごとに繰り返す。

ステップＳ４２において、分割部３５は、ユニット（伝送単位、ｕｎｉｔ要素）内の１つ目のリソース（ｒｅｓｏｕｒｃｅ要素）を読み込み、出力要素を追加する。ここで、出力要素とは、埋め込み画像（ｉｍａｇｅ属性により指定）と、非組込フォントフォント（ｆｏｎｔ−ｆａｃｅ属性により指定）と、スタイル（ｓｔｙｌｅ属性により指定）と、字幕提示の領域（ｒｅｇｉｏｎ属性により指定）と、字幕テキスト文（ｓｕｂｔｉｔｌｅ属性により指定）のための要素（ｐ要素やｄｉｖ要素）を追加する。なお、あるユニット内の最初のリソースに関して、データタイプ（ｄａｔａｔｙｐｅ属性）の値は、必ず「００００」である。

なお、ステップＳ４２における処理の詳細は次の通りである。
分割部３５は、ユニット内の１つ目のリソースを読み込み、そのリソース（ｒｅｓｏｕｒｃｅ要素）の属性ごとに、下記の（１）から（５）までの処理を行うことによって、空のＴＴＭＬ文書に要素を追加する。なお、空のＴＴＭＬ文書とは、「＜ｔｔ＞＜／ｔｔ＞」（ｔｔ要素の開始と終了）のみからなる文書である。なお、下の説明において、ＩＤリストとは、単数または複数のＩＤ（識別子）を持ち得るリストの表現である。具体的な例として、ＩＤリストが複数のＩＤを含む場合には、それら複数のＩＤを空白文字で区切って並べた文字列が、ＩＤリストである。

（１）１つ目のｒｅｓｏｕｒｃｅ要素のｉｍａｇｅ属性に指定されたＩＤリストを基に、入力側のＴＴＭＬ文書（情報付加済テキスト文書データ８３のこと。以下においても、同様。）中のｔｔ／ｈｅａｄ／ｍｅｔａｄａｔａ／ｓｍｐｔｅ：ｉｍａｇｅ要素であって上記ＩＤリストと同一のＩＤを持つ要素を、出力側のＴＴＭＬ文書（断片化テキスト文書データのこと。以下においても、同様。）中にコピーする。
（２）１つ目のｒｅｓｏｕｒｃｅ要素のｆｏｎｔ−ｆａｃｅ属性に指定されたＩＤリストを基に、入力側のＴＴＭＬ文書中のｔｔ／ｈｅａｄ／ｓｔｙｌｉｎｇ／ａｒｉｂ−ｔｔ：ｆｏｎｔ−ｆａｃｅ要素であって同一のＩＤを持つ要素を、出力側のＴＴＭＬ文書中にコピーする。
（３）１つ目のｒｅｓｏｕｒｃｅ要素のｓｔｙｌｅ属性に指定されたＩＤリストを基に、入力側のＴＴＭＬ文書中のｔｔ／ｈｅａｄ／ｓｙｌｉｎｇ／ｓｔｙｌｅ要素であって同一のＩＤを持つ要素を、出力側のＴＴＭＬ文書中にコピーする。
（４）１つ目のｒｅｓｏｕｒｃｅ要素のｒｅｇｉｏｎ属性に指定されたＩＤリストを基に、入力側のＴＴＭＬ文書中のｔｔ／ｈｅａｄ／ｌａｙｏｕｔ／ｒｅｇｉｏｎ要素であって同一のＩＤを持つ要素を、出力側のＴＴＭＬ文書中にコピーする。
（５）１つ目のｒｅｓｏｕｒｃｅ要素のｓｕｂｔｉｔｌｅ属性に指定されたＩＤリストを基に、入力側のＴＴＭＬ文書中のｔｔ／ｂｏｄｙ／ｄｉｖ要素の下の、ｄｉｖ要素またはｐ要素であって、同一のＩＤを持つ要素を、出力側のＴＴＭＬ文書中にコピーする。

次のステップＳ４３の処理は、現在のｕｎｉｔ要素内の２つ目以後のｒｅｓｏｕｒｃｅ要素の各々について、繰り返して実行する。なお、２つ目以後のｒｅｓｏｕｒｃｅ要素においては、ｄａｔａｔｙｐｅ属性の値は「００００」以外である。
ステップＳ４３において、分割部３５は、ｕｎｉｔ要素内の２つ目以後のリソース要素を読み込み、下記の（１）、（２）の処理を行う。
（１）出力側の文書中のｉｄｒｅｆ要素で指定されたＩＤを持つ要素を起点に、ｓｒｃｐａｔｈ要素に記述されているｘｐａｔｈによって指定された要素または属性の値を、ｒｅｐｌａｃｅｔｏ要素で指定さえた値に置き換える。
（２）ｓｒｃｖａｌｕｅ属性で指定された外部リソースファイルを、放送伝送用のデータ形式に変換する。なお、具体的な変換方法は、伝送方式によって異なる。例えばＴＳ（トランスポートストリーム）方式の場合には、カルーセル伝送用のデータに変換する。また、ＭＭＴ（ＭＰＥＧメディアトランスポート）方式の場合には、ＭＭＴのＭＦＵ（メディアフラグメントユニット）に変換する。

当該ｕｎｉｔ要素内のすべてのｒｅｓｏｕｒｃｅ要素についてのステップＳ４３の処理が終了すると、次のステップＳ４４の処理に移る。
ステップＳ４４において、出力部３７は、伝送単位に応じて生成されたＴＴＭＬ文書（断片化テキスト文書データの１つ）を、放送として送出伝送するためのデータ形式に変換する。なお、具体的な変換方法は、伝送方式によって異なる。例えばＴＳ（トランスポートストリーム）方式の場合には、カルーセル伝送用のデータに変換する。また、ＭＭＴ（ＭＰＥＧメディアトランスポート）方式の場合には、ＭＭＴのＭＦＵ（メディアフラグメントユニット）に変換する。

次にステップＳ４５において、出力部３７は、生成されたＴＴＭＬ文書（断片化テキスト文書データの１つ）とリソースファイル用のデータを、放送として送出伝送するためのデータ形式にパッケージ化し、ｔｉｍｅｃｏｄｅ要素（タイムコード）で指定された提示時刻での受信機側での提示に間に合うように、放送に多重するようにして送出する。具体的には、出力部３７は、指定された提示時刻と、伝送に要する時間と、送出装置側および受信機側のそれぞれの側での処理のオーバーヘッドとして必要な時間とに基づいて、間に合うようにデータの送出を行う。例えば、ＭＭＴ方式により伝送する場合は、ＭＦＵ（メディアフラグメントユニット）をＭＰＵ（メディアプロセッシングユニット）にパッケージ化して送出する。なお、パッケージ化した字幕データの構造の例については、後で、図１７を参照しながら説明する。

すべての伝送ユニット（ｕｎｉｔ要素）に関して、以上のＳ４１からＳ４５までの処理が終了すると、分割装置２は、このフローチャート全体の処理を終了する。

次に、実際のデータ例について説明する。図１０、図１１、図１２、図１３、図１４、図１５は、図５において示した情報付加済テキスト文書データ８３の一例を示す概略図である。
この図１０、図１１、図１２、図１３、図１４、図１５を順に連結したデータが、１件の情報付加済テキスト文書データ８３に当たる。なお、情報付加済テキスト文書データ８３は、一種のＸＭＬデータである。これらの図の中において、便宜上、ファイル内の行番号を示している。これらの行番号自体は、ファイル内に含まれているものではない。以下では、これらの図および行番号を参照しながら、情報付加済テキスト文書データ８３の例について説明する。

なお、第１実施形態では分割装置１の分割部１５が、情報付加済テキスト文書データ８３と同等のデータを受け取る。ここで、情報付加済テキスト文書データ８３と同等のデータとは、テキスト文書データをどう分割するかを表す情報と、分割後のテキスト文書データからテキスト文書データのヘッダ部に記述された情報を参照するための参照関係を示す情報と、分割後のテキスト文書がリソースファイルを参照する場合にリソースファイルのロケーション情報を放送の名前空間に対応するようにテキスト文章データ中のロケーション情報をどう書き換えるかを表す情報であり、分割装置１の内部的な情報の形式は任意である。
また、第２実施形態では分割装置２の分割部３５が、解析装置５から渡される情報付加済テキスト文書データ８３を読み込む。

第２行目から第１０５行目までは、ｔｔ要素である。
第１０行目から第８５行目までは、ヘッダ部（ｈｅａｄ要素）である。
第８６行目から第１０４行目までは、ボディ部（ｂｏｄｙ要素）である。

ヘッダ部内において、第１２行目から第４８行目までは、メタデータ（ｍｅｔａｄａｔａ要素）である。このメタデータは、字幕交換情報（ｃａｐｔｉｏｎＥｘｃｈａｎｇｅＩｎｆｏｒｍａｔｉｏｎ要素）と、埋め込みイメージ（ｓｍｐｔｅ：ｉｍａｇｅ要素）とを含む。
第１３行目から第４２行目までがキャプション交換情報である。
キャプション交換情報は、伝送情報（ｔｒａｎｓｍｉｓｓｉｏｎＩｎｆｏｒｍａｔｉｏｎ要素）を含む。
第１４行目から第４１行目までが伝送情報である。
また、第４５行目から第４７行目までが、埋め込みイメージである。
伝送情報は、複数の伝送単位のまとまり（ｔｒａｎｓｍｉｓｓｉｏｎＵｎｉｔｓ要素）を含んでいる。第１５行目から第４０行目までがｔｒａｎｓｍｉｓｓｉｏｎＵｎｉｔｓ要素である。
このｔｒａｎｓｍｉｓｓｉｏｎＵｎｉｔｓ要素は、個々に番号付けされた複数の伝送単位（ｕｎｉｔ要素）を有している。

個々の伝送単位（ｕｎｉｔ要素）は、時刻解析部（１２または３２）によって解析された結果として断片化された、断片に対応している。個々の伝送単位は、提示時刻（ｔｉｍｅｃｏｄｅ属性）を有している。提示時刻は、番組開始時点をゼロとする相対時刻であり、「ｈｈ：ｍｍ：ｓｓ．ｎｎｎ」（時−分−秒−ミリ秒）の形式の文字列として表現される。なお、＠ｔｉｍｅｃｏｄｅ属性の提示時刻は当該伝送単位に含まれる字幕テキストの提示開始時刻のうち、一番早い開始時間の値である。
本例においては、６個の伝送単位（ｕｎｉｔ要素）が存在し、それらのそれぞれがｘｍｌ：ｉｄ属性として「１」から「６」までの値をもっている。ｘｍｌ：ｉｄ属性が「１」である伝送単位は、第１６行目から第１９行目までである。ｘｍｌ：ｉｄ属性が「２」である伝送単位は、第２０行目から第２４行目までである。ｘｍｌ：ｉｄ属性が「３」である伝送単位は、第２５行目から第２８行目までである。ｘｍｌ：ｉｄ属性が「４」である伝送単位は、第２８行目から第３２行目までである。ｘｍｌ：ｉｄ属性が「５」である伝送単位は、第３４行目から第３６行目までである。ｘｍｌ：ｉｄ属性が「６」である伝送単位は、第３７行目から第３９行目までである。

各伝送単位の情報は、その伝送単位に含まれる字幕テキストの断片と、参照されるリソースとの関係を含んでいる。なお、字幕テキストの断片そのものもリソースの一種である。参照関係解析部（１４または３４）によって解析された結果、各伝送単位において必要とされるリソースの参照関係情報のみが、ｕｎｉｔ要素の中に含まれる。これにより、後で実際に断片化ファイルを生成する際に、余分な情報を参照したり解析したりする必要がなく、直接必要な情報のみを取り出しやすい。

ｘｍｌ：ｉｄ属性が「１」である伝送単位は、２つのリソース（ｒｅｓｏｕｒｃｅ要素）を含んでいる。
その第１のリソースのデータタイプ（ｄａｔａｔｙｐｅ属性）は「００００」であり、これは字幕テキストそのものに対応している。このリソースは、非組込フォント（ｆｏｎｔ−ｆａｃｅ属性）、スタイル（ｓｔｙｌｅ属性）、字幕提示の領域（ｒｅｇｉｏｎ属性）、字幕テキスト文（ｓｕｂｔｉｔｌｅ属性）を有している。各属性の値は、参照のためのＩＤである。なお、ｓｕｂｔｉｔｌｅ属性の値は「Ｃ００１」である。なお、このリソース（ｒｅｓｏｕｒｃｅ要素）において、ｆｏｎｔ−ｆａｃｅ属性や、ｓｔｙｌｅ属性や、ｒｅｇｉｏｎ属性が、参照関係情報の例である。また、このリソースにおいて、ｓｕｂｔｉｔｌｅ属性が、断片化情報の例であり、「Ｃ００１」という値によってテキスト文の断片（グループ）を参照している。これらの参照関係情報や断片化情報は、以下のリソース（データタイプが「００００」）においても同様である。
また、第２のリソースのデータタイプは「０１１０」であり、これはリソースがフォントであることを表す。このリソースは、ｉｄｒｅｆ属性を有し、その値は「ｆ０５」である。これは、参照のために用いられるＩＤである。また、ｓｒｃｐａｔｈ属性は、リソースファイルのロケーション記述へのパス（ｉｄｒｅｆ属性を有する要素を起点としたリソースファイルのロケーション情報の記述へのＸＰＡＴＨ情報）を示す。また、ｓｒｃｖａｌｕｅ属性は、リソースファイルのロケーション情報を指定するものである。また、ｒｅｐｌａｅｔｏ属性は、放送として送出される際の放送の名前空間によるロケーション情報の値を示す。なお、このリソース（ｒｅｓｏｕｒｃｅ要素）において、ｓｒｃｐａｔｈ属性や、ｓｒｃｖａｌｕｅ属性や、ｒｅｐｌａｃｅｔｏ属性が、放送ロケーション変換情報の例である。放送ロケーション変換情報については、以下のリソース（データタイプが「００００」ではない）においても同様である。

ｘｍｌ：ｉｄ属性が「２」である伝送単位は、３つのリソース（ｒｅｓｏｕｒｃｅ要素）を含んでいる。
第１のリソースのデータタイプ（ｄａｔａｔｙｐｅ属性）は「００００」であり、字幕テキストそのものを示す。このリソースにおけるｆｏｎｔｏ−ｆａｃｅ属性は、「ｆ０３」および「ｆ０４」という２つのＩＤを示すものであり、これら両者を空白で連結したものを属性値としている。なお、ｓｕｂｔｉｔｌｅ属性の値は「Ｃ００２」である。
第２および第３のリソースのデータタイプは「０１１０」であり、これはフォントに対応する。フォントであるリソースの属性については、既に述べたとおりである。

ｘｍｌ：ｉｄ属性が「３」である伝送単位は、２つのリソース（ｒｅｓｏｕｒｃｅ要素）を含んでいる。
第１のリソースのデータタイプ（ｄａｔａｔｙｐｅ属性）は「００００」であり、字幕テキストそのものを示す。なお、ｓｕｂｔｉｔｌｅ属性の値は「Ｃ００３」である。
第２のリソースのデータタイプは「０００１」であり、これは画像に対応する。このリソースは、外部の画像に対応する。

ｘｍｌ：ｉｄ属性が「４」である伝送単位は、３つのリソース（ｒｅｓｏｕｒｃｅ要素）を含んでいる。
第１のリソースのデータタイプ（ｄａｔａｔｙｐｅ属性）は「００００」であり、字幕テキストそのものを示す。なお、ｓｕｂｔｉｔｌｅ属性の値は「Ｃ００４」および「Ｃ００５」（両者を空白で連結）である。
第２および第３のリソースおデータタイプは「０００１」であり、これは画像に対応する。これらのリソースは、それぞれ、外部の画像に対応する。

ｘｍｌ：ｉｄ属性が「５」である伝送単位は、１つのリソース（ｒｅｓｏｕｒｃｅ要素）を含んでいる。そのリソースのデータタイプの値は「００００」である。また、このリソースは、埋め込み画像に関する情報を含むものであり、ｉｍａｇｅ属性として「ＳＭＰＴＥ＿ｌｏｇｏ１６」という値を有する。この「ＳＭＰＴＥ＿ｌｏｇｏ１６」は、埋め込み画像を参照するためのＩＤである。なお、このリソースのｓｕｂｔｉｔｌｅ属性の値は、「Ｃ００６」である。

ｘｍｌ：ｉｄ属性が「６」である伝送単位は、1つのリソース（ｒｅｓｏｕｒｃｅ要素）を含んでいる。
第１のリソースのデータタイプの値は「００００」である。このリソースのｓｕｂｔｉｔｌｅ属性の値は、「Ｃ００7」である。

第４５行目から第４７行目までは、埋め込み画像（ｓｍｐｔｅ：ｉｍａｇｅ要素）である。ｘｍｌ：ｉｄ属性はこの埋め込み画像のＩＤを示すものであり、その値は「ＳＭＰＴＥ＿ｌｏｇｏ１６」である。ｉｍａｇｅＴｙｐｅ属性は、画像ファイルの形式を表しており、その値は「ＰＮＧ」である。また、ｅｎｃｏｄｉｎｇ属性は、バイナリーデータを文字データとして表現する際の符号化の方式を表しており、その値は「ＢＡＳＥ６４」である。また、「ｉＶＢＯＲｗ・・・」という文字列が、画像そのものを表すものである。

ヘッダ部内における、メタデータ（ｍｅｔａｄａｔａ要素）の次の、第４９行目から第７４行目までは、スタイリング（ｓｔｙｌｉｎｇ要素）である。
本例におけるこのｓｔｙｌｉｎｇ要素は、５個のフォント（ａｒｉｂ−ｔｔ：ｆｏｎｔ−ｆａｃｅ要素）と、１個のスタイル（ｓｔｙｌｅ要素）とを持つ。
第５１行目から第６５行目までが、５個の非組込フォントの情報である。第１から第５までのフォントのｉｄ要素の値は、それぞれ、「ｆ０１」、「ｆ０２」、「ｆ０３」、「ｆ０４」、「ｆ０５」であり、これらは参照のためのＩＤである。
また、第６６行目から第７３行目までが１個のスタイルである。このスタイルのｘｍｌ：ｉｄ属性の値は「ｓ１」である。また、このスタイルは、色（ｔｔｓ：ｃｏｌｏｒ属性）と、フォント（ｔｔｓ：ｆｏｎｔＦａｍｉｌｙ属性）と、フォントサイズ（ｆｏｎｔＳｉｚｅ属性）と、テキスト位置揃えの調整（ｔｔｓ：ｔｅｘｔＡｌｉｇｎ属性）と、領域の背景色がいつ提示されるかの指定（ｔｔｓ：ｓｈｏｗＢａｃｋｇｒｏｕｎｄ）とを有する。

ヘッダ部内における、スタイリング（ｓｔｙｌｉｎｇ要素）の次の、第７５行目から第８４行目までは、レイアウト（ｌａｙｏｕｔ要素）である。このレイアウトは、領域（ｒｅｇｉｏｎ要素）を含む。本例において、第７６行目から第８３行目までが、ひとつの領域を表すものである。この領域のｘｍｌ：ｉｄ属性の値は「ａｌｌ」である。つまり、この領域は、ＩＤ「ａｌｌ」を用いて参照される。また、この領域は、スタイル（ｓｔｙｌｅ属性）と、その領域の原点（ｔｔｓ：ｏｒｉｇｉｎ属性）と、その領域の最大座標点（ｔｔｓ：ｅｘｔｅｎｔ属性）と、縦方向および横方向のパディングサイズ（ｔｔｓ：ｐａｄｄｉｎｇ属性）と、提示する位置揃えの指定（ｔｔｓ：ｄｉｓｐｌａｙＡｌｉｇｎ属性）と、領域の背景色がいつ提示されるかの指定（ｔｔｓ：ｓｈｏｗＢａｃｋｇｒｏｕｎｄ）とを有する。
なお、この領域における第７７行目で指定しているスタイルのＩＤは「ｓ１」である。これは、即ち、第６６行目から始まるスタイルを参照している。

ヘッダ部の説明は以上である。次にボディ部について説明する。

ボディ部は、領域（ｒｅｇｉｏｎ属性）を指定した１個のｄｉｖ要素を有する。このｄｉｖ要素は、第８７行目から第１０３行目に記述されている。

上記のｄｉｖ要素（ｂｏｄｙ要素の直下のｄｉｖ要素）は、その下のレベルに、７個の要素を有する。
第１の要素は、第８８行目に記述されているパラグラフ（段落、ｐ要素）であり、そのｘｍｌ：ｉｄ属性の値は「Ｃ００１」である。
第２の要素は、第８９行目に記述されているパラグラフ（ｐ要素）であり、そのｘｍｌ：ｉｄ属性の値は「Ｃ００２」である。
第３の要素は、第９０行目から第９２行目に記述されているｄｉｖ要素であり、そのｘｍｌ：ｉｄ属性の値は「Ｃ００３」である。
第４の要素は、第９３行目から第９５行目に記述されているｄｉｖ要素であり、そのｘｍｌ：ｉｄ属性の値は「Ｃ００４」である。
第５の要素は、第９６行目から第９８行目に記述されているｄｉｖ要素であり、そのｘｍｌ：ｉｄ属性の値は「Ｃ００５」である。
第６の要素は、第９９行目から第１０１行目に記述されているｄｉｖ要素であり、そのｘｍｌ：ｉｄ属性の値は「Ｃ００６」である。
第７の要素は、第１０２行目に記述されているパラグラフ（ｐ要素）であり、そのｘｍｌ：ｉｄ属性の値は「Ｃ００７」である。

以上説明したように、分割部１５（第１実施形態）または分割部３５（第２実施形態）が受け取るデータは、予め解析された結果として、内部で論理的に伝送単位の断片に分けられているデータである。また、同データは、各断片から参照されるデータとの関係を、情報としてすぐに取り出せる形で含んでいる。よって、断片化テキスト文書データ、および断片化テキスト文書データとリソースファイルのデータを含む断片化字幕データ８５を素早く生成し、リアルタイムな放送信号の伝送に間に合うように出力することができるようになる。

図１６は、断片化字幕データ８５に含まれる断片化テキスト文書データの例を示す概略図である。第１実施形態においては、断片化テキスト文書データを含む断片化字幕データ８５は、分割装置１の出力部１７から出力される。第２実施形態においては、断片化テキスト文書データを含む断片化字幕データ８５は、分割装置２の出力部３７から出力される。なお、断片化テキスト文書データもまた、ＴＴＭＬ文書データであり、一種のＸＭＬデータである。同図において、便宜上、ファイル内の行番号を示している。これらの行番号自体は、ファイル内に含まれているものではない。以下では、これらの図および行番号を参照しながら、断片化テキスト文書データの例について説明する。

同図に示す断片化テキスト文書データは、図１０の第１６行目から第１９行目において記述されているｕｎｉｔ要素（ｘｍｌ：ｉｄ属性は「１」）の内容と、それに対応する図１４の第８８行目に記述されているｐ要素とに基づく。これらの両者は、ＩＤ「Ｃ００１」によって相互に関連付いている。断片化テキスト文書データは、このように、分割装置１（第１実施形態の場合）あるいは解析装置５（第２実施形態の場合）による解析結果の情報に基づいて生成されるものである。

図１６において、第２行目から第２２行目までが、ｔｔ要素である。
そして、第３行目から第１４行目までは、ヘッダ部（ｈｅａｄ要素）である。
また、第１５行目から第２１行目までは、ボディ部（ｂｏｄｙ要素）である。

ヘッダ部内において、第５行目から第１０行目までは、スタイリング（ｓｔｙｌｉｎｇ要素）である。また、第１１行目から第１３行目までは、レイアウト（ｌａｙｏｕｔ要素）である。
上記のスタイリングには、フォント（ａｒｉｂ−ｔｔ：ｆｏｎｔ−ｆａｃｅ要素）と、スタイル（ｓｔｙｌｅ要素）とが含まれる。

図１６内のこのフォント（ａｒｉｂ−ｔｔ：ｆｏｎｔ−ｆａｃｅ要素）におけるｉｄ属性の値は「ｆ０５」である。これは、図１０における第１７行目のリソース（データタイプは「００００」）が、「ｆ０５」というＩＤを用いて、図１０における第１８行目のリソース（フォントのリソース）を参照していることに対応する。また、図１６内のフォントにおけるｆｏｎｔ−ｆａｍｉｌｙ属性の値は「ＦＡ丸ゴシックＭ」である。これは、図１２における第６３行目におけるｆｏｎｔ−ｆａｍｉｌｙの定義に対応している。また、図１６内のフォントにおけるｕｎｉｃｏｄｅ−ｒａｎｇｅ属性の値は「Ｕ＋Ｆ００２−Ｆ００３」である。これは、図１２における第６３行目におけるｕｎｉｃｏｄｅ−ｒａｎｇｅの定義に対応している。
また、図１６の第７行目のａｒｉｂ−ｔｔ：ｓｒｃ要素は、ｕｒｌ属性を有している。このｕｒｌ属性の値は、「ｓｕｂｔ：／／１」であり、放送名前空間におけるフォントの所在を示している。これは、図１０の第１８行目の定義におけるｒｅｐｌａｃｅｔｏ属性にしたがって置き換えられた後の名前である。

図１６内の上記のスタイル（第９行目、ｓｔｙｌｅ要素）では、ｘｍｌ：ｉｄ属性の値は「ｓ１」である。これは、図１０の第１７行目における、ｓｔｙｌｅ属性の値「ｓ１」に対応するものである。また、このスタイルは、ＩＤ「ｓ１」によって図１３の第６６行目から第７３行目に記述されているスタイルに関連付けられている。したがって、図１６の第９行目におけるスタイル（ｓｔｙｌｅ要素）の属性は、図１３の第６６行目から記述されているスタイルを引き継いでいる。即ち、具体的には、ｔｔｓ：ｃｏｌｏｒ属性の値が「ｗｈｉｔｅ」であり、ｔｔｓ：ｆｏｎｔ−ｆａｍｉｌｙ属性の値が「ＦＡ丸ゴシックＭ」であり、ｔｔｓ：ｆｏｎｔ−ｓｉｚｅの値が「８０ｐｘ」（８０ピクセル）であり、ｔｔｓ：ｔｅｘｔＡｌｉｇｎ属性の値が「ｌｅｆｔ」（左揃え）であり、ｔｔｓ：ｓｈｏｗＢａｃｋｇｒｏｕｎｄ属性の値が「ｗｈｅｎＡｃｔｉｖｅ」（アクティブなとき）である。

図１６の第１１行目から第１３行目までのレイアウト（ｌａｙｏｕｔ要素）は、直下のレベルに領域（ｒｅｇｉｏｎ要素）を含む。この領域は、図１６の第１２行目に記述されている。この領域のｘｍｌ：ｉｄ属性の値は「ａｌｌ」である。これは、図１０の第１７目においてｒｅｇｉｏｎ属性の値としてＩＤ「ａｌｌ」が指定されていることに対応する。図１６の第１２行目に記述されている領域（ｒｅｇｉｏｎ要素）の属性は、図１３の第７６行目から第８３行目に記述されている属性を引き継いでいるものである。即ち、具体的には、ｓｔｙｌｅ属性の値は「ａｌｌ」である。また、ｔｔｓ：ｏｒｉｇｉｎ属性（領域の開始点のｘ−ｙ座標値（百分率））は「０％０％」である。また、ｔｔｓ：ｅｘｔｅｎｔ属性（領域の終点のｘ−ｙ座標値（百分率））は「１００％１００％」である。また、ｔｔｓ：ｐａｄｄｉｎｇ属性（領域内における表示位置のための外周隙間のｘ方向およびｙ方向）は「０ｐｘ０ｐｘ」（縦横共に０ピクセル）である。また、ｔｔｓ：ｔｅｘｔＡｌｉｇｎ属性の値は「ｌｅｆｔ」（左揃え）である。また、ｔｔｓ：ｓｈｏｗＢａｃｋｇｒｏｕｎｄ属性の値は「ｗｈｅｎＡｃｔｉｖｅ」（アクティブなとき）である。

図１６に示すボディ部（ｂｏｄｙ要素）には、ｄｉｖ要素が含まれており、その直下のレベルにｐ要素が含まれている。
図１６の第１７行目に記述されている、ｐ要素のｘｍｌ：ｉｄ属性の値は「Ｃ００１」である。これは、図１０の第１７行目のｓｕｂｔｉｔｌｅ属性の値「Ｃ００１」に対応している。
また、図１６の第１7行目に記述されている通り、ｐ要素のｒｅｇｉｏｎ属性の値は「ａｌｌ」である。これは、図１０の第１７行目のｒｅｓｏｕｒｃｅ要素におけるｒｅｇｉｏｎ属性の値を引き継いでいる。
また、図１６の第１７行目に記述されているｐ要素の全体を、図１４の第８８行目に記述されているｐ要素から引き継いでいる。

以上のように分割部１５（第１実施形態）または分割部３５（第２実施形態）は、簡単な処理で素早く断片化テキスト、および断片化テキストを含む断片化字幕データを生成し、送出することができる。

図１７は、パッケージ化した字幕データの構造の例を示す図である。第１実施形態においては、分割装置１の出力部１７がこの字幕データを出力する。また、第２実施形態においては、分割装置２の出力部３７がこの字幕データを出力する。同図に示す例は、ＭＭＴによる伝送を行う場合のものである。図示する１つのＭＰＵ（メディアプロセッシングユニット，Media Processing Unit）が、１つの断片に相当する。ＭＰＵは、複数のＭＦＵ（メディアフラグメントユニット，Media Fragment Unit）を含む。ＭＰＵ中の１つのＭＦＵは、ＴＴＭＬ文書を格納している。そのＭＦＵは、ヘッダとＴＴＭＬ文書そのものを含んで構成される。他のＭＦＵは、ＴＴＭＬ文書から参照されるリソースを格納している。同図に示すＭＰＵは、参照リソース１，２，・・・，ｎを含む。参照リソースは、画像や非組込フォントなどである。これらの各ＭＦＵもまた、ヘッダと参照リソースそのものを含んで構成される。このように分割装置１（第１実施形態）や分割装置２（第２実施形態）は、字幕の断片と、関連する参照リソースとを、パッケージとして送出する。

なお、上述した実施形態における解析装置や分析装置の機能をコンピューターで実現するようにしても良い。その場合、これらの機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
例えば、放送だけでなく、ビデオオンデマンドのサービスにおいて利用者からの要求に応じて特定のコンテンツを通信等で配信する場合に、本発明を適用しても良い。これにより、一時に大量の字幕テキストを送信するためにまとまった時間を必要とすることを、解消することができる。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

本発明は、例えば放送事業やビデオオンデマンドサービス事業など、映像コンテンツを提供するしくみの一部などとして利用可能である。

１，２分割装置（送出装置）
５解析装置
１１取得部
１２時刻解析部
１３変換情報解析部
１４参照関係解析部
１５分割部
１７出力部
１８リソースファイルデータ取得部
３１取得部
３２時刻解析部
３３変換情報解析部
３４参照関係解析部
３５分割部
３６付加部（送出情報生成部）
３７出力部
３８リソースファイルデータ取得部

Claims

時刻情報が付加された複数のテキスト文を含むテキスト文書データを取得する取得部と、
前記テキスト文書データを、時間軸にしたがって、
所定時間を超えるごとに区切り、または、
テキストに対応する１つのｄｉｖ要素あるいはｐ要素ごとに区切り、または、
伝送容量に基づいて区切り、
前記テキスト文を含む複数のグループである断片に断片化するための断片化情報であって、各断片の開始時刻を表す断片化情報または各断片に含まれる前記テキスト文のＩＤ情報として指定される断片化情報、を生成する時刻解析部と、
前記断片化された前記テキスト文のグループである断片ごとに、前記断片内の前記テキスト文から参照される前記テキスト文書データのヘッダ部に記述されているヘッダ記述情報を解析し、前記断片と前記断片内の前記テキスト文から参照される前記ヘッダ記述情報との関係を表す参照関係情報を生成する参照関係解析部と、
前記断片化情報と前記参照関係情報とを含んだ断片化テキスト文書送出情報を生成し、前記取得部によって取得された前記テキスト文書データに前記断片化テキスト文書送出情報を付加して、情報付加済テキスト文書データとして出力する送出情報生成部と、
を具備することを特徴とする解析装置。
前記ヘッダ記述情報は、フォントの情報と、埋め込み画像の情報とスタイル定義情報と、字幕提示の領域情報と、の少なくともいずれかを含む、
請求項１に記載の解析装置。
断片化された字幕テキストのグループに含まれるリソースファイルの参照のためのロケーション情報を解析し、前記断片を放送により伝送する際の、前記断片に含まれる前記テキスト文から参照されるリソースファイルのロケーション情報と、前記リソースファイルの前記ロケーション情報が前記テキスト文書データのどの部分に記述されているかを示すロケーション情報記述位置指定情報と、前記リソースファイルを前記断片と共に放送により伝送する際の放送信号中のリソースの取得位置を特定するための放送の名前空間による放送ロケーション情報と、を含んだ放送ロケーション変換情報を生成する変換情報生成部、
をさらに具備し、
前記変換情報生成部は、前記リソースファイルごとに、前記リソースファイルへの参照を行っている要素を指定するｉｄｒｅｆ属性を指定し、前記ロケーション情報記述位置指定情報として前記ｉｄｒｅｆ属性で指定した要素を起点とした前記リソースファイルを指定する属性へのパスをｓｒｃｐａｔｈ属性で指定し、前記ロケーション情報として前記ｓｒｃｐａｔｈ属性で指定した属性の値をｓｒｃｖａｌｕｅ属性で指定し、前記放送の名前空間による放送ロケーション情報として前記リソースファイルを放送で伝送した場合に当該リソースファイルを放送信号中から取得できるようにするための放送の名前空間によるリソースのロケーションをｒｅｐｌａｃｅｔｏ属性で指定するものであり、
前記送出情報生成部は、前記放送ロケーション変換情報をも含んだ断片化テキスト文書送出情報を生成し、前記取得部によって取得された前記テキスト文書データに前記放送ロケーション変換情報をも含んだ前記断片化テキスト文書送出情報を付加して、情報付加済テキスト文書データとして出力する、
ことを特徴とする請求項１または２に記載の解析装置。
前記リソースファイルは、画像ファイルと、音声ファイルと、非組込フォントファイルと、のいずれかを含む、
請求項３に記載の解析装置。
時刻情報が付加された複数のテキスト文を含むテキスト文書データに加え、前記時刻情報に基づいて前記テキスト文書データを前記テキスト文の複数のグループに断片化するための断片化情報であって、各断片の開始時刻を表す断片化情報または各断片に含まれる前記テキスト文のＩＤ情報として指定される断片化情報、と、前記断片化された前記テキスト文のグループである断片ごとに、前記断片内の前記テキスト文から参照される前記テキスト文書のヘッダ記述との関係を表す参照関係情報とを含んだ断片化テキスト文書送出情報を読み込み、前記断片化情報に基づいて前記テキスト文書データを前記テキスト文の複数のグループに分割するとともに、前記参照関係情報に基づいて、分割された断片である前記テキスト文のグループに、前記断片内の前記テキスト文から参照される前記テキスト文書のヘッダ記述の情報を付加する分割部と、
前記分割部によって分割された前記断片に含まれる前記テキスト文から参照されるリソースファイルを取得するリソースファイルデータ取得部と、
前記分割部によって分割された前記断片と、前記リソースファイルデータ取得部によって取得された前記リソースファイルとを含むデータを出力する出力部と、
を具備し、
前記分割部は、前記断片を放送により伝送する際の、前記断片に含まれる前記テキスト文から参照されるリソースファイルのロケーション情報と、前記リソースファイルの前記ロケーション情報が前記テキスト文書データのどの部分に記述されているかを示すロケーション情報記述位置指定情報と、前記リソースファイルを前記断片と共に放送により伝送する際の放送信号中のリソースの取得位置を特定するための放送の名前空間による放送ロケーション情報と、を含んだ放送ロケーション変換情報を更に含む、前記断片化テキスト文書送出情報を読み込み、前記放送ロケーション変換情報に基づいて、前記断片に含まれる前記テキスト文から参照される前記リソースファイルのロケーション情報を、放送の名前空間によるロケーション情報に書き換えて前記断片に分割する、
分割装置。
前記リソースファイルは、画像ファイルと、音声ファイルと、非組込フォントファイルと、のいずれかを含む、
請求項５に記載の分割装置。
前記分割部は、時刻情報が付加されたテキストを含むテキスト文書データに、前記断片化テキスト文書送出情報が付加されている情報付加済テキスト文書データを読み込み、前記断片化テキスト文書送出情報に含まれる前記断片化情報に基づいて前記テキスト文書データを、テキスト文の複数のグループに分割するとともに、前記参照関係情報に基づいて分割された断片である前記テキスト文のグループに、前記断片内の前記テキスト文から参照される前記テキスト文書のヘッダ記述の情報を付加し、
また、前記分割部は、前記断片化テキスト文書情報に前記放送ロケーション変換情報が含まれる場合は、前記放送ロケーション変換情報に基づいて、前記断片に含まれる前記テキスト文から参照される前記リソースファイルのロケーション情報を、放送の名前空間によるロケーション情報に書き換える、
ことを特徴とする請求項５または６に記載の分割装置。
時刻情報が付加された複数のテキスト文を含むテキスト文書データを取得する取得部と、
前記テキスト文書データを、時間軸にしたがって、
所定時間を超えるごとに区切り、または、
テキストに対応する１つのｄｉｖ要素あるいはｐ要素ごとに区切り、または、
伝送容量に基づいて区切り、
前記テキスト文を含む複数のグループである断片に断片化するための断片化情報であって、各断片の開始時刻を表す断片化情報または各断片に含まれる前記テキスト文のＩＤ情報として指定される断片化情報、を生成する時刻解析部と、
前記断片化された前記テキスト文のグループである断片ごとに、前記断片に含まれるテキスト文から参照される前記テキスト文書のヘッダ記述の情報を解析し、前記断片と前記断片に含まれるテキスト文から参照される前記ヘッダ記述との関係を表す参照関係情報を生成する参照関係解析部と、
前記テキスト文書データに加え、前記断片化情報と前記参照関係情報とを含んだ断片化テキスト文書送出情報を読み込み、前記断片化情報に基づいて前記テキスト文書データを前記テキスト文の複数のグループに分割するとともに、前記参照関係情報に基づいて分割
された断片である前記テキスト文のグループに前記断片に含まれるテキスト文から参照される前記テキスト文書のヘッダ記述の情報を付加する分割部と、
前記分割部によって分割された前記断片に含まれるテキスト文から参照されるリソースファイルを取得するリソースファイルデータ取得部と、
前記分割部によって分割された前記断片と、前記リソースファイルデータ取得部によって取得されたリソースファイルとを含むデータを出力する出力部と、
を具備することを特徴とする分割装置。
前記出力部は、前記断片に含まれる前記テキスト文に付加された前記時刻情報のうち、一番早い提示開始時刻にしたがって、分割された前記テキスト文と、前記リソースファイルとを含むデータを順次出力する、
ことを特徴とする請求項５から８までのいずれか一項に記載の分割装置。
請求項１から４までのいずれか一項に記載の解析装置としてコンピューターを機能させるためのプログラム。
請求項５から９までのいずれか一項に記載の分割装置としてコンピューターを機能させるためのプログラム。