JP2011523133A - レイアウトファイルの構造処理方法及び装置 - Google Patents

レイアウトファイルの構造処理方法及び装置 Download PDF

Info

Publication number
JP2011523133A
JP2011523133A JP2011511963A JP2011511963A JP2011523133A JP 2011523133 A JP2011523133 A JP 2011523133A JP 2011511963 A JP2011511963 A JP 2011511963A JP 2011511963 A JP2011511963 A JP 2011511963A JP 2011523133 A JP2011523133 A JP 2011523133A
Authority
JP
Japan
Prior art keywords
document
content
information
layout
layout file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011511963A
Other languages
English (en)
Inventor
▲叡▼恒 仇
毅 王
▲帆▼ ▲沸▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical Peking University
Publication of JP2011523133A publication Critical patent/JP2011523133A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Processing Or Creating Images (AREA)

Abstract

レイアウトファイルの構造処理方法及び装置は、レイアウトファイルのドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報を取得し、ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報に基づいてレイアウトファイルのドキュメントコンテンツに対してコンテンツブロック分割を行い、コンテンツブロック分割の結果に基づいてレイアウトファイルのドキュメントフロー情報を生成する。

Description

本発明は、コンピュータ情報処理技術分野においてレイアウトファイルの構造処理方法及び装置に関するものである。
通常のレイアウトファイルは、ユーザ定義の座標系において各ドキュメントの表示位置や表示サイズ等を明記するいわゆる完全記述方法が採用されているため、プリントされた結果としてのドキュメンがコンピュータでの閲覧時と一致する。それと共に、ドキュメントが忠実に再現できるように、異なるコンピュータにもかかわらず表示が一致する特性を持たせる。例えば、代表的なレイアウトファイルとして、PDFファイルが取上げられる。レイアウトファイルは、比較的に安定するという特性があるため、電子公文書や、電子書籍や、電子ジャーナルや、電子新聞紙などの領域において電子ドキュメントの最終的な開示・伝播形式として広く用いられている。
最近、コンピュータ技術の普及や情報技術の進歩に従い、レイアウトファイルの数は爆発的に増加してくると共に、例えば、PDA、スマートフオンなど、クライアント端末の種類も増加してくる。異なる種類のクライアント端末を利用してレイアウトファイルを支障なく閲覧できることが要求される。よって、クライアント端末では、レイアウトファイルの固定した表示という制限を克服し、表示装置の表示画面サイズに基づいてレイアウトファイルのコンテンツを再編する必要がある。
本発明の発明者らは、レイアウトファイルにおいて各ドキュメントの表示位置やサイズが絶対値によって正確に指定されるため、編集などの構造処理が大変困難となるあることを見出した。例えば、ドキュメントコンテンツが修正される度に、レイアウトを再計算し、ドキュメント全体のレイアウト情報をリライトする必要がある。しかし、絶対値だけで記述されるドキュメントの表示位置やサイズに対するレイアウトの再計算やレイアウト情報のリライトが非常に困難である。また、レイアウトファイルのコンテンツに対する検索、構造化記憶、修正、抽出などの編集操作も非常に煩雑なものである。
本発明は、前記した問題を解決するために、レイアウトファイルのコンテンツが修正された後にドキュメント構造やレイアウト表示などの情報の更新が容易になるとともに、レイアウトファイルのコンテンツ検索、構造化記憶、修正、抽出、リアレンジなどの操作が実現できるように、レイアウトファイルのドキュメントフロー情報を記述してレイアウトファイルに対して構造処理を行うレイアウトファイルの構造処理方法及び装置を提供する。
本発明は、レイアウトファイルのドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報を取得し、ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報に基づいてレイアウトファイルのドキュメントコンテンツに対してコンテンツブロック分割を行い、コンテンツブロック分割の結果に基づいてレイアウトファイルのドキュメントフロー情報を生成するレイアウトファイルの構造処理方法を提供する。
また、本発明は、レイアウトファイルのドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報を取得するオリジナル情報取得モジュールと、前記ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報に基づいて、前記レイアウトファイルのドキュメントコンテンツに対してコンテンツブロック分割を行うコンテンツブロック分割モジュールと、前記コンテンツブロック分割の結果に基づいて、前記レイアウトファイルのドキュメントフロー情報を生成するドキュメントフロー情報記述モジュールと、を備えるレイアウトファイルの構造処理装置を提供する。
上記実施態様は、少なくとも1つの以下の効果を有する。
本発明の構成によれば、レイアウトファイルのドキュメントフロー情報を取得し、取得したドキュメントフロー情報に基づいてレイアウトファイルのドキュメントコンテンツに対してコンテンツブロック分割を行い、コンテンツブロック分割結果情報を記述し、コンテンツブロック分割結果情報に基づいて、コンテンツブロック分割された当該レイアウトファイルに基づくドキュメントフロー情報を記述することによって、レイアウトファイルに対する構造処理を容易にできる。例えば、レイアウトファイルはドキュメントコンテンツが修正された後、ドキュメント構造、レイアウト表示などの情報の更新が簡単にできる。また、レイアウトファイルのコンテンツに対する検索と、構造化記憶と、修正と、抽出と、レイアウトリアレンジなどの編集操作が柔軟化、簡素化される。
ここで説明される図面は、本発明に対して更に理解するためであり、本願の一部分となる。本発明を示す実施例及びその説明は本発明を解釈するに用いられ、本発明にたいする不当な制限を構成しない。
本発明の実施例におけるレイアウトファイルの構造処理方法を示すフローチャート図である。 本発明の実施例において、コンテンツブロック分割されたレイアウトファイルに基づくドキュメントフロー情報を説明する図である。 本発明の実施例におけるレイアウトファイル及びそのコンテンツ記述の図である。 本発明の実施例において、図3に示すレイアウトファイルのコンテンツブロック分割方法を示す図である。 本発明の実施例において、図3に示すレイアウトファイルのコンテンツ分割の結果情報を記述することを示す図である。 本発明の実施例において、図3に示すコンテンツブロック分割されたレイアウトファイルのドキュメントフロー情報におけるドキュメントの構造情報を示す図である。 本発明の実施例において、図3に示すコンテンツブロック分割されたレイアウトファイルのドキュメントフロー情報におけるドキュメントレイアウトの自己適応表示情報を示す図である。 本発明の実施例において、図3に示すコンテンツブロック分割されたレイアウトファイルのドキュメントフロー情報におけるドキュメントレイアウトのコンテンツのリアレンジを示す図である。 本発明の実施例におけるレイアウトファイルの構造処理装置の構成を示す図である。 本発明の実施例において、コンテンツ参照シーケンス分割の方法でレイアウトファイルのドキュメントコンテンツに対してコンテンツブロック分割を行うことを示す図である。
以下は、図面に参照して本発明の具体的な実施方法を詳細に説明する。
本発明の実施例では、先ず、レイアウトファイルのオリジナル情報を取得し、取得したオリジナル情報に基づいてレイアウトファイルのドキュメントコンテンツを複数のコンテンツブロックに分割し、次に、取得したコンテンツブロック分割の結果に基づいて、コンテンツブロック分割されたレイアウトファイルのドキュメントフロー情報を記述することによって、レイアウトファイルに対する構造処理を容易にできる。例えば、レイアウトファイルはドキュメントコンテンツが修正された後、ドキュメント構造、レイアウト表示などの情報の更新が簡単にできる。また、レイアウトファイルのコンテンツに対する検索と、構造化記憶と、修正と、抽出と、レイアウトリアレンジなどの編集操作が柔軟化、簡素化される。
以下は、図面に基づいて本発明の実施例を詳細に説明する。
図1は、レイアウトファイルの構造処理方法を示すフローチャート図である。具体的には、下記のステップを備える。
ステップ102:レイアウトファイルのドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報を取得する。ここで、レイアウトファイルとは、レイアウトファイルの全体でもよいが、レイアウトファイルの一頁または何頁などでもよい。また、レイアウトファイルのオリジナル情報とは、レイアウトファイルにおけるキュメントコンテンツの構造情報及び/又はレイアウトファイルにおけるドキュメントレイアウトの自己適応表示情報である。詳しくは、下記(1)〜(3)を含むが、これに限らない。すなわち、
(1)ドキュメントコンテンツの構造情報:ドキュメントの章節情報と、各章節内のコンテンツブロックの順序と、コンテンツブロック内の各エンティティ(entity)の順序等。
(2)閲覧クルー情報(reading clue information):具体的には、上記したドキュメントコンテンツの構造情報により提供される閲覧順序以外、必要によって提供される他の閲覧順序情報が含まれる。ユーザに提供される選択可能な閲覧順序情報である。閲覧クルー情報はレイアウトファイルのドキュメントコンテンツ全体の閲覧順序情報でもよいが、レイアウトファイルの一部分のドキュメントコンテンツの閲覧順序情報でもよい。
(3)レイアウト情報:具体的には、レイアウトファイルのレイアウトリアレンジを行う時にエンティティの最終的な表示効果を決める情報であり、エンティティ自身又はコンテンツブロック自身のレイアウトプロパティと、同じコンテンツブロックにおけるエンティティ同士又はコンテンツブロック同士のレイアウト関係とが含まれる。例えば、画像を指定する文字設定方式や、複数のコンテンツブロックを指定するコラム情報などである。上記したレイアウトリアレンジとは、レイアウトサイズ又はレイアウトコンテンツが変化する場合、一定の規則に従ってレイアウトにおける各エンティティを再編してレイアウト表示効果とする過程である。
ここで、本発明の実施例において、下記(1)、(2)、(3)のいずれか又はこれらの組み合わせによって、レイアウトファイルのドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報が取得される。
(1)ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報が含まれている電子ドキュメントは、レイアウトファイルのドキュメントコンテンツのソースである場合、レイアウトファイルのさまざまなドキュメントコンテンツのソースを解析することによってレイアウトファイルのドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報を直接に取得することができる。例えば、HTMLや、Microsoft Wordなど、レイアウトファイルに対応する、一部のドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報を含んでいる電子ドキュメントの場合は、当該ドキュメントのドキュメント処理システムを利用してそのドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報を抽出することができる。特に、Microsoft Wordドキュメントに対して、Officeの自動化オブジェクトを利用してそのドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報を取得することができる。
(2)ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報が含まれていない電子ドキュメントは、レイアウトファイルのドキュメントコンテンツのソースである場合、さまざまな識別アルゴリズム又はインテリジェント理解アルゴリズムを利用してレイアウトファイルに対して計算することによってレイアウトファイルのドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報を取得することができる。例えば、ドキュメント分析及びドキュメント理解に基づく処理システムを介してレイアウトファイルに対して計算することによって当該レイアウトファイルのドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報を取得することができる。
(3)ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報が含まれていない電子ドキュメントは、レイアウトファイルのドキュメントコンテンツのソースである場合、外部からユーザによって入力された、レイアウトファイルに関するドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報を受け付けることによって、レイアウトファイルのドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報を取得してもいい。例えば、ユーザはクラフィクインターフェイス付きコンピュータアプリケーションを介してレイアウトファイルのドキュメントコンテンツに対してマークすることによって当該レイアウトファイルのドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報の入力を実現できる。
ステップ103:ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報に基づいてレイアウトファイルのドキュメントコンテンツに対してコンテンツブロック分割を行う。
レイアウトファイルのドキュメントコンテンツを複数のコンテンツブロックに分割することは、レイアウトファイルを直接に組織することに基づいて実現できる。即ち、レイアウトファイルにおいて各グループのコマンド文、または、各グループの対象(object)、又は、各段落のコンテンツの記述を一つのコンテンツブロックユニットとして、当該レイアウトファイルのドキュメントコンテンツに対してコンテンツブロック分割を行う。具体的には、ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報に基づいて、文の番号、文の長さ、文のオフセット量、または、対象ID、対象のオフセット量、又は、コンテンツID、コンテンツのオフセット量、または、ある特殊な記号等を使用して、当該レイアウトファイルのドキュメントコンテンツを異なるコンテンツブロックに分割してもいい。ここで、分割されたコンテンツブロック同士は、重なり合うようにされてもいい。また、分割されたコンテンツブロック毎に唯一なIDが与えられてもいい。
例えば、レイアウトファイルを形成する複数のコマンド文を、ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報によってグループ毎のコマンド文の数が決定されるように、複数のグループに分割し、分割された各グループのコマンド文を一つのコンテンツブロックユニットとし、得られたコンテンツブロックの分割結果を記述してコンテンツブロック分割結果情報を取得する。
また、レイアウトファイルを形成する複数の対象を、ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報によってグループ毎の対象の数が決定されるように、複数のグループに分割し、分割された各グループの対象を一つのコンテンツブロックユニットとし、得られたコンテンツブロックの分割結果を記述してコンテンツブロック分割結果情報を取得する。
また、レイアウトファイルを形成する複数のコンテンツを、ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報によってグループ毎のコンテンツの数が決定されるように、複数のグループに分割し、分割された各グループのコンテンツを一つのコンテンツブロックユニットとし、得られたコンテンツブロックの分割結果を記述してコンテンツブロック分割結果情報を取得する。
なお、レイアウトファイルのドキュメントコンテンツに対してコンテンツブロック分割を行うことは、コンテンツの参照シーケンスを分割することによっても実現される。具体的には、レイアウトファイルを形成する、コンテンツの参照シーケンスを取得する。ここで、コンテンツの参照シーケンスとは、レイアウトファイルのドキュメントコンテンツにおけるテキストや、画像や、テーブルなどのさまざまなエンティティが、所定の順序に従ってシーケンスされる。この順序は、エンティティがレイアウトファイルのコンテンツのデータフローにおける順序でもよいが、ドキュメントツリーでのトラバーサル順序でもよい。取得した参照シーケンスを、ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報によって各サブ参照シーケンスのシーケンス数が決定されるように、順序付けの複数のサブ参照シーケンスに分割するとともに、分割された各サブ参照シーケンスを一つのコンテンツブロックとし、次に、得られれたコンテンツブロック分割の結果を記述することによってコンテンツブロック分割結果情報を取得する。これらのコンテンツのサブ参照シーケンスは、コンテンツが重なり合うように構成されてもよく、分割されたコンテンツのサブ参照シーケンス毎に唯一な番号が与えられてもいい。ここで、コンテンツの参照シーケンスは、コンテンツの参照シーケンスにおけるエンティティのオフセット位置によって分割することができる。また、コンテンツの参照シーケンスは、コンテンツの参照シーケンスにおける一つ又は幾つかの特殊エンティティ記号の位置によって分割することができる。また、コンテンツの参照シーケンスは、コンテンツの参照シーケンスにおける一つ又は幾つかのIDの位置によって分割することができる。
上記したコンテンツブロック分割の結果に基づいて当該レイアウトファイルのコンテンツブロック分割結果情報を記述する。構造化マークアップ言語(例えば、XML言語や、SGML言語等)を利用して記述してもよいが、これに限定されない。
ステップ104:コンテンツブロック分割の結果に基づいてレイアウトファイルのドキュメントフロー情報を生成する。
コンテンツブロックの分割された当該レイアウトファイルに基づくドキュメントフロー情報を記述する。具体的には、各コンテンツブロック自身のドキュメントフロー情報と、各コンテンツブロック間の関係、例えば、ドキュメントの構造情報や、閲覧クルー情報や、レイアウト情報等を記述する。ここで、XML言語や、SGML言語等でコンテンツブロック分割されたレイアウトファイルのドキュメントフロー情報を記述してもよいが、これに限定されない。当該レイアウトファイルは、例えばPDFドキュメント等のレイアウトファイルである。
具体的には、上記の記述によって取得されたコンテンツブロック分割結果情報と、ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報とを関連付けて、関連付けられたコンテンツブロック分割結果情報とドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報とを対応してス記憶してもいい。また、コンテンツブロック分割結果情報とドキュメントの構造情報及び/又はドキュメントレイアウトの表示情報は、レイアウトファイルとはそれぞれ記憶されてもよいが、レイアウトファイルに組み込まれてレイアウトファイルのデータブロックとしてもよい。
構造化マークアップ言語を利用して、得られたコンテンツブロック分割結果情報とドキュメントフロー情報を記述することができる。
ステップ105:前記ドキュメントフロー情報に基づいて前記レイアウトファイルに対して構造処理を行う。
レイアウトファイルのドキュメントフロー情報を取得し、取得されたドキュメントフロー情報に基づいてレイアウトファイルのドキュメントコンテンツに対してコンテンツブロック分割を行い、コンテンツブロック分割結果情報を記述し、コンテンツブロック分割結果情報に基づいて、コンテンツブロック分割された当該レイアウトファイルの基づくドキュメントフロー情報を記述し、よって、レイアウトファイルに対する構造処理が容易に行われることができる。例えば、レイアウトファイルはドキュメントコンテンツが修正された後、ドキュメント構造、レイアウト表示などの情報の更新が簡単にできる。また、レイアウトファイルのコンテンツに対する検索と、構造化記憶と、修正と、抽出と、レイアウトリアレンジなどの編集操作が柔軟化、簡素化される。
図2は、本発明に係る方法に従って、コンテンツブロック分割されたレイアウトファイルに基づくドキュメントフロー情報を記述することを示す図である。レイアウトファイル205のドキュメントコンテンツを複数のコンテンツブロックに分割し、構造化マークアップ言語でコンテンツブロック分割結果情報204を記述し、コンテンツブロック分割結果情報204に基づいて、コンテンツ分割された当該レイアウトファイル205に基づくドキュメントフロー情報を記述し、ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報は、ドキュメント構造情報201と、閲覧クルー情報202と、レイアウト情報203とを含む。ここで、本実施例において、コンテンツブロック分割結果情報204と、ドキュメントフロー情報(コンテンツブロック分割されたレイアウトファイル205に基づくドキュメント構造情報201、閲覧クルー情報202、レイアウト情報203、コンテンツブロック分割結果情報204の関係を含む)は、レイアウトファイル205とはそれぞれ記憶される。本実施例では、ドキュメントフロー情報は、インデックス構造であり、ドキュメント構造情報201と、閲覧クルー情報202と、レイアウト情報203とコンテンツブロック分割結果情報204との関係を示す。
以下は、更に具体的な実施例を挙げる。
図3に示すように、レイアウトファイル301は、そのドキュメントコンテンツが302及び303として記述されている。テキスト対象と画像エンティティ対象とを備える。302はレイアウトファイルのテキスト対象と画像エンティティ対象のコンテンツの定義である。各コンテンツの定義はそれぞれレイアウトファイルにおいて一つの対象ID(ID)を有する。303に示すように、レイアウトファイルにおいて対象ID(ID)に基づいて定義されたエンティティ対象またはテキスト対象を使用することによってレイアウトファイルの表示に際して302に定義されたエンティティ対象とテキスト対象とが表示される。
図4と図5は、インテリジェント理解アルゴリズムを用いて図3におけるレイアウトファイル301に対して計算して当該レイアウトファイル301に対応するドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報を取得した後、レイアウトファイル301のドキュメントコンテンツに対してコンテンツブロック分割を行ってコンテンツブロック分割結果情報を記述する実施例を示す図である。ここで、図4は、レイアウトファイルのドキュメントコンテンツに対してコンテンツブロック分割処理を行う方法を示す。レイアウトファイルを形成する対象によって違うコンテンツブロックに分割されるように、レイアウトファイル301では、IDが1と3であるエンティティ対象を一つのコンテンツブロックに分割し、分割された当該コンテンツブロックの番号を9とし、IDが2であるエンティティ対象を一つのコンテンツブロックに分割し、分割された当該コンテンツブロックの番号を8とする。図5は、XML言語を用いてコンテンツブロック分割結果情報を記述することを示す図である。
図6と図7は、コンテンツブロック分割されたレイアウトファイルに基づくドキュメントフロー情報を示す図である。図6は、コンテンツブロック分割されたレイアウトファイルに基づくドキュメントフロー情報におけるドキュメントの構造情報を示す。当該ドキュメントの構造情報はドキュメントの章節ツリーと各章節内のコンテンツブロックの順序(具体的には、図面では、コンテンツブロック番号で示される)を指定する。具体的には、図6では、レイアウトファイルにおける一つの段落が示される。当該段落には番号が8と9であるコンテンツブロックが含まれる。図7は、コンテンツブロック分割されたレイアウトファイルのドキュメントフロー情報におけるドキュメントレイアウトの自己適応表示情報を示す図であり、具体的には、番号が9であるコンテンツブロックにおいて対象IDが1であるテキスト対象と、対象IDが3であるエンティティ対象の順序が調整される方法、即ち、対象IDが3であるエンティティ対象を対象IDが1であるテキスト対象
Figure 2011523133
の第一字の後に挿入することを指定する。
図8は、本発明の実施例において、図3に示されたコンテンツブロック分割されたレイアウトファイルのドキュメントフロー情報におけるドキュメントレイアウトがコンテンツリアレンジされることを示す図である。図3、4、5、6、7の結果によって当該段落のコンテンツをレイアウトリアレンジして図8の結果になる。レイアウトリアレンジする際に、先ず、図6に基づいて段落の構造を取得し、取得した段落の構造によると、コンテンツ9が前に位置され、コンテンツ8が後に位置されるため、
Figure 2011523133
のようなシーケンスが形成される。また、図7による順序情報に基づいてシーケンスを
Figure 2011523133
として調整する。このように、フロー情報を利用して正確なコンテンツを取得できる。次に、レイアウトサイズ(3文字の幅)がレイアウトリアレンジによって下記の図に示す結果になる。すると、この実施例は、レイアウトファイル及びこの前の処理によってフロー情報を取得してコンテンツ抽出とレイアウトリアレンジを行うプロセスを完成した。この実施例によると、レイアウトファイルのコンテンツに対する検索と、構造化記憶と、修正と、抽出と、レイアウトリアレンジなどの編集操作が柔軟化、簡素化される。
閲覧クルー情報は、特殊なドキュメントコンテンツの構造情報であり、現存のドキュメントコンテンツの構造情報から直接に取得することができ、また、ユーザによって自由に指定することができる。閲覧クルー情報の処理方法は、ドキュメントコンテンツの構造情報の処理方法と同じであるため、ここでは、閲覧クルー情報の例を省略する。
ステップ105の構造処理としては、レイアウトファイルのコンテンツに対する検索操作、構造化記憶操作、修正操作、抽出操作、レイアウトリアレンジ操作の少なくとも一つを備えてもいい。すなわち、ドキュメントフロー情報に記述された、コンテンツブロック分割結果情報とドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報との関連に基づいて、レイアウトファイルのコンテンツブロックと、ドキュメントコンテンツの構造及び/又はドキュメントレイアウトに対して行われる操作である。
例えば、検索、構造化記憶、修正、抽出の操作は、下記のように実現できる。
先ず、ドキュメントフロー情報に記述された、コンテンツブロック分割結果情報とドキュメントコンテンツの構造情報との関連に基づいて相応なレイアウトドキュメントのフロー構造及び順序正確なコンテンツフローとを生成する。次に、フロー構造またはコンテンツフローにおいて、順次アクセスやマルチセクション検索等の方法でコンテンツを検索することによって検索、構造化記憶、修正、抽出などの目的を実現する。
例えば、レイアウトリアレンジは下記のように実現できる。
先ず、ドキュメントフロー情報に記述された、コンテンツブロック分割結果情報とドキュメントコンテンツの構造情報との関連に基づいてコンテンツフローにおけるコンテンツのために相応なレイアウト情報を提供し、レイアウトアルゴリズムを用いてレイアウトリアレンジを実現できる。例えば、レイアウトドキュメントを編集する時、正確なドキュメントフロー情報が得られたため、ドキュメントフロー情報に記述された、コンテンツブロック分割結果情報とドキュメントレイアウトの表示情報との関連に基づいてレイアウトファイルのドキュメント構造と、元のコンテンツの順序及び編集される位置とを取得でき、編集されるデータをドキュメントの構造情報またはドキュメントコンテンツフローの正確な位置に挿入でき、よって、編集を簡単で迅速にできると共に、編集後のドキュメントフロー情報を再建できる。
また、本発明の実施例によって相応してレイアウトファイルの構造処理装置が提供される。図8に示すように、オリジナル情報取得モジュール802と、コンテンツブロック分割モジュール803と、ドキュメントフロー情報記述モジュール804と構造処理モジュール805とを備える。
オリジナル情報取得モジュール802は、レイアウトファイルのドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報を取得する。ここで、レイアウトファイルとは、レイアウトファイルの全体でもよいが、レイアウトファイルの一頁または何頁などでもよい。また、レイアウトファイルのオリジナル情報とは、レイアウトファイルにおけるキュメントコンテンツの構造情報及び/又はレイアウトファイルにおけるドキュメントレイアウトの自己適応表示情報である。詳しくは、下記(1)〜(3)を含むが、これに限らない。すなわち、
(1)ドキュメントコンテンツの構造情報:ドキュメントの章節情報と、各章節内のコンテンツブロックの順序と、コンテンツブロック内の各エンティティの順序等。
(2)閲覧クルー情報:具体的には、上記したドキュメントコンテンツの構造情報により提供される閲覧順序以外、必要によって提供される他の閲覧順序情報が含まれる。ユーザに提供される選択可能な閲覧順序情報である。閲覧クルー情報はレイアウトファイルのドキュメントコンテンツ全体の閲覧順序情報でもよいが、レイアウトファイルの一部分のドキュメントコンテンツの閲覧順序情報でもよい。
(3)レイアウト情報:具体的には、レイアウトファイルのレイアウトリアレンジを行う時にエンティティの最終的な表示効果を決める情報であり、エンティティ自身又はコンテンツブロック自身のレイアウトプロパティと、同じコンテンツブロックにおけるエンティティ同士又はコンテンツブロック同士のレイアウト関係とが含まれる。例えば、画像を指定する文字引き立た方式や、複数のコンテンツブロックを指定するコラム情報など。上記したレイアウトリアレンジとは、レイアウトサイズ又はレイアウトコンテンツが変化する場合、一定の規則に従ってレイアウトにおける各エンティティを再編してレイアウト表示効果とする過程である。
コンテンツブロック分割モジュール803は、ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報に基づいてレイアウトファイルのドキュメントコンテンツに対してコンテンツブロック分割を行う。
ドキュメントフロー情報記述モジュール804は、コンテンツブロック分割の結果に基づいてレイアウトファイルのドキュメントフロー情報を生成する。
構造処理モジュール805は、前記ドキュメントフロー情報に基づいて前記レイアウトファイルに対して構造処理を行う。
レイアウトファイルのドキュメントフロー情報を取得し、取得されたドキュメントフロー情報に基づいてレイアウトファイルのドキュメントコンテンツに対してコンテンツブロック分割を行い、コンテンツブロック分割結果情報を記述し、コンテンツブロック分割結果情報に基づいて、コンテンツブロック分割された当該レイアウトファイルの基づくドキュメントフロー情報を記述し、よって、レイアウトファイルに対する構造処理が容易に行われることができる。例えば、レイアウトファイルはドキュメントコンテンツが修正された後、ドキュメント構造、レイアウト表示などの情報の更新が簡単にできる。また、レイアウトファイルのコンテンツに対する検索と、構造化記憶と、修正と、抽出と、レイアウトリアレンジなどの編集操作が柔軟化、簡素化される。
以下は、図9に基づいて本発明に係るレイアウトファイルの構造処理装置の動作について詳しく説明する。
オリジナル情報取得モジュール802は、下記(1)、(2)、(3)の少なくとも一つによって、レイアウトファイルのドキュメントフロー情報を取得する。
(1)ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報が含まれている電子ドキュメントは、レイアウトファイルのドキュメントコンテンツのソースである場合、レイアウトファイルのさまざまなドキュメントコンテンツのソースを解析することによってレイアウトファイルのドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報を直接に取得することができる。例えば、HTMLや、Microsoft Wordなど、レイアウトファイルに対応する、一部のドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報を含んでいる電子ドキュメントの場合は、当該ドキュメントのドキュメント処理システムを利用してそのドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報を抽出することができる。特に、Microsoft Wordドキュメントに対して、Officeの自動化オブジェクトを利用してそのドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報を取得することができる。
(2)ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報が含まれていない電子ドキュメントは、レイアウトファイルのドキュメントコンテンツのソースである場合、さまざまな識別アルゴリズム又はインテリジェント理解アルゴリズムを利用してレイアウトファイルに対して計算することによってレイアウトファイルのドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報を取得することができる。例えば、ドキュメント分析及びドキュメント理解に基づく処理システムを介してレイアウトファイルに対して計算することによって当該レイアウトファイルのドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報を取得することができる。
(3)ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報が含まれていない電子ドキュメントは、レイアウトファイルのドキュメントコンテンツのソースである場合、外部からユーザによって入力された、レイアウトファイルに関するドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報を受け付けることによって、レイアウトファイルのドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報を取得してもいい。例えば、ユーザはクラフィクインターフェイス付きコンピュータアプリケーションを介してレイアウトファイルのドキュメントコンテンツに対してマークすることによって当該レイアウトファイルのドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報の入力を実現できる。
コンテンツブロック分割モジュール803は、ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報に基づいてレイアウトファイルのドキュメントコンテンツに対してコンテンツブロック分割を行う。すなわち、レイアウトファイルの各グループのコマンド文、又は、各グループの対象、又は、各段落のコンテンツの記述を一つのコンテンツブロックユニットとして当該レイアウトファイルのドキュメントコンテンツに対してコンテンツブロック分割を行う。具体的には、ドキュメントフロー情報によって、文の番号、文の長さ、文のオフセット量、または、対象ID、対象のオフセット量、又は、コンテンツID、コンテンツのオフセット量、または、ある特殊な記号等を使用して、当該レイアウトファイルのドキュメントコンテンツを異なるコンテンツブロックに分割してもいい。ここで、分割されたコンテンツブロック同士は、重なり合うようにされてもいい。また、分割されたコンテンツブロック毎に唯一なIDが与えられてもいい。
例えば、レイアウトファイルを形成する複数のコマンド文を、ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報によってグループ毎のコマンド文の数が決定されるように、複数のグループに分割し、分割された各グループのコマンド文を一つのコンテンツブロックユニットとし、得られたコンテンツブロックの分割結果を記述してコンテンツブロック分割結果情報を取得する。
また、レイアウトファイルを形成する複数の対象を、ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報によってグループ毎の対象の数が決定されるように、複数のグループに分割し、分割された各グループの対象を一つのコンテンツブロックユニットとし、得られたコンテンツブロックの分割結果を記述してコンテンツブロック分割結果情報を取得する。
また、レイアウトファイルを形成する複数のコンテンツを、ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報によってグループ毎のコンテンツの数が決定されるように、複数のグループに分割し、分割された各グループのコンテンツを一つのコンテンツブロックユニットとし、得られたコンテンツブロックの分割結果を記述してコンテンツブロック分割結果情報を取得する。
図10に示すように、レイアウトファイルを複数のコンテンツブロックに分割する場合は、コンテンツ参照シーケンス取得サブモジュール901を用いて、レイアウトファイルを形成する、コンテンツの参照シーケンスを取得することができる。コンテンツブロック分割サブモジュール902を用いて、コンテンツの参照シーケンスを、ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報によって各サブ参照シーケンスにおけるシーケンス数が決定されるように、複数のコンテンツのサブ参照シーケンスに分割し、分割された各コンテンツのサブ参照シーケンスを一つのコンテンツブロックとされる。これらのコンテンツのサブ参照シーケンスは、コンテンツが重なり合うようにされてもいい。分割されたコンテンツのサブ参照シーケンス毎に、唯一な番号が与えられてもいい。また、記述サブモジュール903を用い、取得されたコンテンツブロック分割の結果を記述してコンテンツブロック分割結果情報を取得する。これらのコンテンツのサブ参照シーケンスは、コンテンツが重なり合うようにされてもよい。分割されたコンテンツのサブ参照シーケンス毎に、唯一な番号が与えられてもよい。ここで、コンテンツの参照シーケンスは、コンテンツの参照シーケンスにおけるエンティティのオフセット位置によって分割することができる。また、コンテンツの参照シーケンスは、コンテンツの参照シーケンスにおける一つ又は幾つかの特殊エンティティ記号の位置によって分割することができる。また、コンテンツの参照シーケンスは、コンテンツの参照シーケンスにおける一つ又は幾つかのIDの位置によって分割することができる。
上記したコンテンツブロック分割の結果に基づいて当該レイアウトファイルのコンテンツブロック分割結果情報を記述する。構造化マークアップ言語(例えば、XML言語や、SGML言語等)を利用して記述してもよいが、これに限定されない。
ドキュメントフロー情報記述モジュール804は、前記コンテンツブロック分割結果情報に基づいてレイアウトファイルのドキュメントフロー情報を生成する。コンテンツブロック分割された当該レイアウトファイルに基づくドキュメントフロー情報を記述する。具体的には、各コンテンツブロック自身のドキュメントフロー情報と、各コンテンツブロック間の関係、例えば、ドキュメントの構造情報や、閲覧クルー情報や、レイアウト情報等を記述する。ここで、XML言語や、SGML言語等でコンテンツブロック分割されたレイアウトファイルのドキュメントフロー情報を記述してもよいが、これに限定されない。
具体的には、上記コンテンツブロック分割結果情報と、ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報とを関連付けて、関連付けられたコンテンツブロック分割結果情報とドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報とを対応してス記憶してもいい。ここで、コンテンツブロック分割結果情報とドキュメントフロー情報は、レイアウトファイルとはそれぞれ記憶されてもよいが、レイアウトファイルに組み込まれてレイアウトファイルのデータブロックとしてもよい。
構造化マークアップ言語を利用して、得られたコンテンツブロック分割結果情報とドキュメントフロー情報を記述することができる。
実際の応用において、記憶された上記コンテンツブロック分割結果情報とドキュメントフロー情報とを転送やコピー等を介して他の記憶デバイスに移すことができる。そして、他のユーザ端末はコンテンツブロック分割されたレイアウトファイルに基づくドキュメントフロー情報を直接に便利に利用するこができる。
また、本発明の実施例におけるレイアウトファイルの構造処理措置とやり取りを行う外部システムは、フォーマット変換システムと、レイアウトリアレンジシステムなどを備える場合がある。このようなシステムでは、コンテンツブロック分割されたレイアウトファイルに基づくドキュメントフロー情報を利用してレイアウトファイルに対して処理を行い、例えば、情報抽出、レイアウトリアレンジ、他のフォーマットのファイルへの変換などを行う。
なお、ドキュメントフロー情報に基づくレイアウトファイルの構造処理としては、レイアウトファイルのコンテンツに対する検索操作、構造化記憶操作、修正操作、抽出操作、レイアウトリアレンジ操作の少なくとも一つを備えてもいい。すなわち、ドキュメントフロー情報に記述された、コンテンツブロック分割結果情報とドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報との関連に基づいて、レイアウトファイルのコンテンツブロックと、ドキュメントコンテンツの構造及び/又はドキュメントレイアウトに対して行われる操作である。
構造処理モジュール805に行われる検索、構造化記憶、修正は、例えば、下記のようにして実現できる。
先ず、ドキュメントフロー情報におけるコンテンツブロック分割結果情報とドキュメントコンテンツの構造情報との関連に基づいて相応なレイアウトドキュメントのフロー構造及び順序正確なコンテンツフローとを生成する。次に、フロー構造またはコンテンツフローにおいて、順次アクセスやマルチセクション検索等の方法でコンテンツを検索することによって検索、構造化記憶、修正、抽出などの目的を実現する。
構造処理モジュール805に行われるレイアウトリアレンジは、例えば、下記のようにして実現できる。
先ず、ドキュメントフロー情報に記述された、コンテンツブロック分割結果情報とドキュメントコンテンツの構造情報との関連に基づいてコンテンツフローにおけるコンテンツのために相応なレイアウト情報を提供し、レイアウトアルゴリズムを用いてレイアウトリアレンジを実現できる。例えば、レイアウトドキュメントを編集する時、正確なドキュメントフロー情報が得られたため、ドキュメントフロー情報に記述された、コンテンツブロック分割結果情報とドキュメントレイアウトの表示情報との関連に基づいてレイアウトファイルのドキュメント構造と、元のコンテンツの順序及び編集される位置とを取得でき、編集されるデータをドキュメントの構造情報またはドキュメントコンテンツフローの正確な位置に挿入でき、よって、編集を簡単で迅速にできると共に、編集後のドキュメントフロー情報を再建できる。
以上のように、本発明に係るレイアウトファイルの構造処理方法及び装置によれば、レイアウトファイルのドキュメントフロー情報を取得し、取得したドキュメントフロー情報に基づいてレイアウトファイルのドキュメントコンテンツに対してコンテンツブロック分割を行い、コンテンツブロック分割結果情報を記述し、コンテンツブロック分割結果情報に基づいて、コンテンツブロック分割された当該レイアウトファイルに基づくドキュメントフロー情報を記述する。それによって、レイアウトファイルは、ドキュメントコンテンツが修正された後に、レイアウトを再計算する必要も、ドキュメント全体のレイアウト情報をリライトする必要もなく、容易にドキュメント構造処理を行うことができる。例えば、レイアウトファイルのコンテンツに対する検索、構造化記憶、修正、抽出、レイアウトリアレンジなどの編集操作が柔軟化、簡素化される。
発明の詳細な説明の項においてなされた具体的な実施形態または実施例は、あくまでも、本発明の技術内容を明らかにするものであって、そのような具体例にのみ限定して狭義に解釈されるべきものではなく、本発明の精神と次に記載する特許請求事項の範囲内で、いろいろと変更して実施することができるものである。

Claims (14)

  1. レイアウトファイルのドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報を取得するステップと、
    前記ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報に基づいて前記レイアウトファイルのドキュメントコンテンツに対してコンテンツブロック分割を行うステップと、
    前記コンテンツブロック分割の結果に基づいて前記レイアウトファイル用のドキュメントフロー情報を生成するステップと、
    前記ドキュメントフロー情報に基づいて前記レイアウトファイルに対して構造処理を行うステップと、
    を有することを特徴とするレイアウトファイルの構造処理方法。
  2. (1)前記レイアウトファイルのドキュメントコンテンツの1つ以上のソースに従って、前記ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報を得るステップ、
    (2)前記レイアウトファイルを計算することにより、前記ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報を得るステップ、
    (3)外部からの入力を受けることにより、前記ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報を得るステップ、
    上記(1)、(2)、(3)の少なくともいずれか1つのステップによって、前記レイアウトファイルの前記ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報を得ることを特徴とする請求項1に記載のレイアウトファイルの構造処理方法。
  3. 前記ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報に基づいて、前記レイアウトファイルにおけるドキュメントコンテンツに対してコンテンツブロック分割を行うステップは、
    レイアウトファイルを形成する複数のコマンド文を、前記ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報によってグループ毎のコマンド文の数が決定されるように、複数のグループに分割し、分割された各グループのコマンド文を一つのコンテンツブロックユニットとし、得られたコンテンツブロックの分割結果を記述してコンテンツブロック分割結果情報を取得するステップ、
    または、
    レイアウトファイルを形成する複数の対象を、前記ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報によってグループ毎の対象の数が決定されるように、複数のグループに分割し、分割された各グループの対象を一つのコンテンツブロックユニットとし、得られたコンテンツブロックの分割結果を記述してコンテンツブロック分割結果情報を取得するステップ、
    または、
    レイアウトファイルを形成する複数のコンテンツを、前記ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報によってグループ毎のコンテンツの数が決定されるように、複数のグループに分割し、分割された各グループのコンテンツを一つのコンテンツブロックユニットとし、得られたコンテンツブロックの分割結果を記述してコンテンツブロック分割結果情報を取得するステップにより行うことを特徴とする請求項1に記載のレイアウトファイルの構造処理方法。
  4. 前記ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報に基づいて、前記レイアウトファイルのドキュメントコンテンツに対してコンテンツブロック分割を行うステップは、
    前記レイアウトファイルを形成する、コンテンツの参照シーケンスを取得し、
    前記参照シーケンスを、前記ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報によって各サブ参照シーケンスのシーケンス数が決定されるように、複数のサブ参照シーケンスに分割するとともに、分割された各サブ参照シーケンスを一つのコンテンツブロックとし、
    得られたコンテンツブロック分割の結果を記述することによってコンテンツブロック分割結果情報を取得することを特徴とする請求項1に記載のレイアウトファイルの構造処理方法。
  5. 前記コンテンツブロック分割の結果に基づいて、前記レイアウトファイルのドキュメントフロー情報を生成するステップは、
    前記コンテンツブロック分割結果情報と、前記ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報との関連を記述することによって、前記ドキュメントフロー情報を得ることを特徴とする請求項3または4に記載のレイアウトファイルの構造処理方法。
  6. 前記コンテンツブロック分割結果情報と前記ドキュメントフロー情報とは、構造化マーキング言語を利用して記述するものであることを特徴とする請求項5に記載のレイアウトファイルの構造処理方法。
  7. 前記ドキュメントフロー情報に基づいて前記レイアウトファイルに対して構造処理を行うステップは、
    レイアウトファイルのコンテンツに対する検索操作、構造化記憶操作、修正操作、抽出操作、及び、レイアウトリアレンジ操作の内の少なくとも一つの操作を有し、
    すなわち、
    前記ドキュメントフロー情報に記述された、前記コンテンツブロック分割結果情報と前記ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報との間の関連に基づいて、前記レイアウトファイルのコンテンツブロックと、前記ドキュメントコンテンツの構造及び/又はドキュメントレイアウトに対して行われる操作であることを特徴とする請求項5に記載のレイアウトファイルの構造処理方法。
  8. レイアウトファイルのドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報を取得するオリジナル情報取得モジュールと、
    前記ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報に基づいて、前記レイアウトファイルのドキュメントコンテンツに対してコンテンツブロック分割を行うコンテンツブロック分割モジュールと、
    前記コンテンツブロック分割の結果に基づいて、前記レイアウトファイル用のドキュメントフロー情報を生成するドキュメントフロー情報記述モジュールと、
    前記ドキュメントフロー情報に基づいて前記レイアウトファイルに対して構造処理を行う構造処理モジュールと、
    を備えることを特徴とするレイアウトファイルの構造処理装置。
  9. (1)前記レイアウトファイルのドキュメントコンテンツの1つ以上のソースに従って、前記ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報を得るステップ、
    (2)前記レイアウトファイルを計算することにより、前記ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報を得るステップ、
    (3)外部からの入力を受けることにより、前記ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報を得るステップ、
    前記オリジナル情報取得モジュールは、上記(1)、(2)、(3)の少なくともいずれか1つのステップによって、前記レイアウトファイルの前記ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報を得ることを特徴とする請求項8に記載のレイアウトファイルの構造処理装置。
  10. 前記コンテンツブロック分割モジュールは、
    レイアウトファイルを形成する複数のコマンド文を、前記ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報によってグループ毎のコマンド文の数が決定されるように、複数のグループに分割し、分割された各グループのコマンド文を一つのコンテンツブロックユニットとし、得られたコンテンツブロックの分割結果を記述してコンテンツブロック分割結果情報を取得し、
    または、
    レイアウトファイルを形成する複数の対象を、前記ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報によってグループ毎の対象の数が決定されるように、複数のグループに分割し、分割された各グループの対象を一つのコンテンツブロックユニットとし、得られたコンテンツブロックの分割結果を記述してコンテンツブロック分割結果情報を取得し、
    または、
    レイアウトファイルを形成する複数のコンテンツを、前記ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報によってグループ毎のコンテンツの数が決定されるように、複数のグループに分割し、分割された各グループのコンテンツを一つのコンテンツブロックユニットとし、得られたコンテンツブロックの分割結果を記述してコンテンツブロック分割結果情報を取得することを特徴とする請求項8に記載のレイアウトファイルの構造処理装置。
  11. 前記コンテンツブロック分割モジュールは、
    前記レイアウトファイルを形成する、コンテンツの参照シーケンスを取得するコンテンツ参照シーケンス取得サブモジュールと、
    前記コンテンツの参照シーケンスを、前記ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報によって各コンテンツのサブ参照シーケンスのシーケンス数が決定されるように、複数のコンテンツのサブ参照シーケンスに分割するとともに、分割された各コンテンツのサブ参照シーケンスを一つのコンテンツブロックとするコンテンツブロック分割サブモジュールと、
    取得されたコンテンツブロック分割の結果を記述することによってコンテンツブロック分割結果情報を取得する記述サブモジュールと、
    を備えることを特徴とする請求項8に記載のレイアウトファイルの構造処理装置。
  12. 前記ドキュメントフロー情報記述モジュールは、
    前記コンテンツブロック分割結果情報と、前記ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報との関連を記述することによって、前記ドキュメントフロー情報を得ることを特徴とする請求項10または11に記載のレイアウトファイルの構造処理装置。
  13. 前記コンテンツブロック分割結果情報と前記ドキュメントフロー情報とは、構造化マーキング言語を利用して記述するものであることを特徴とする請求項12に記載のレイアウトファイルの構造処理装置。
  14. 前記構造処理モジュールが前記ドキュメントフロー情報に基づいて前記レイアウトファイルに対して行う構造処理は、
    レイアウトファイルのコンテンツに対する検索操作、構造化記憶操作、修正操作、抽出操作、及び、レイアウトリアレンジ操作により行い、
    すなわち、
    前記ドキュメントフロー情報に記述された、前記コンテンツブロック分割結果情報と前記ドキュメントコンテンツの構造情報及び/又はドキュメントレイアウトの表示情報との間の関連に基づいて、前記レイアウトファイルのコンテンツブロックと、前記ドキュメントコンテンツの構造及び/又はドキュメントレイアウトに対して行われる操作であることを特徴とする請求項1に記載のレイアウトファイルの構造処理装置。
JP2011511963A 2008-06-05 2009-06-05 レイアウトファイルの構造処理方法及び装置 Pending JP2011523133A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN200810114437.2 2008-06-05
CN2008101144372A CN101308488B (zh) 2008-06-05 2008-06-05 基于版式文件的文档流式信息处理方法及装置
PCT/CN2009/072147 WO2009146657A1 (zh) 2008-06-05 2009-06-05 版式文件的结构处理方法及装置

Publications (1)

Publication Number Publication Date
JP2011523133A true JP2011523133A (ja) 2011-08-04

Family

ID=40124948

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011511963A Pending JP2011523133A (ja) 2008-06-05 2009-06-05 レイアウトファイルの構造処理方法及び装置

Country Status (5)

Country Link
US (1) US20110087959A1 (ja)
EP (1) EP2291010A1 (ja)
JP (1) JP2011523133A (ja)
CN (1) CN101308488B (ja)
WO (1) WO2009146657A1 (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101308488B (zh) * 2008-06-05 2010-06-02 北京大学 基于版式文件的文档流式信息处理方法及装置
CN101887413B (zh) * 2009-05-14 2012-07-04 北大方正集团有限公司 版式表格的结构处理方法和系统
CN101963955B (zh) * 2010-09-17 2013-01-30 深圳市万兴软件有限公司 XML格式文档转换为Word格式文档的系统和方法
US20120078966A1 (en) * 2010-09-29 2012-03-29 International Business Machines Corporation File System With Content Identifiers
CN102045388B (zh) * 2010-11-25 2013-05-29 汉王科技股份有限公司 在线阅读装置及在线阅读方法
CN102479173B (zh) * 2010-11-25 2013-11-06 北京大学 识别版面阅读顺序的方法及装置
CN102541819B (zh) * 2010-12-27 2015-03-04 北大方正集团有限公司 一种电子文档阅读模式处理的方法及装置
CN102541826B (zh) * 2010-12-27 2014-08-06 北大方正集团有限公司 文字块内容重组方法及装置
CN102841886B (zh) * 2011-06-21 2015-09-16 北大方正集团有限公司 拆分文档的方法和装置
CN103150704B (zh) * 2011-12-07 2016-04-27 中国移动通信集团广东有限公司 一种数据处理方法及装置
CN102521219A (zh) * 2011-12-19 2012-06-27 方正国际软件有限公司 版式与流式混合排版系统及其排版方法
CN103294650B (zh) * 2012-02-29 2016-02-03 北大方正集团有限公司 一种显示电子文档的方法和装置
CN104142961B (zh) * 2013-05-10 2017-08-25 北大方正集团有限公司 版式文档中复合图的逻辑处理装置和逻辑处理方法
CN104424174B (zh) * 2013-09-11 2017-11-07 北京大学 文档处理系统和文档处理方法
CN104572606B (zh) * 2013-10-17 2018-01-26 北大方正集团有限公司 电子书处理方法和装置
CN103927296A (zh) * 2014-03-06 2014-07-16 广东电网公司电网规划研究中心 输变电工程word文档段落内容中工程特性指标的智能提取方法
CN103914440A (zh) * 2014-03-06 2014-07-09 广东电网公司电网规划研究中心 输变电工程word文档表格内容中工程特性指标的智能提取方法
CN105446946B (zh) * 2014-07-17 2019-08-02 阿里巴巴集团控股有限公司 版式文档的重排方法、系统及电子阅读终端
CN104536947A (zh) * 2014-12-10 2015-04-22 百度在线网络技术(北京)有限公司 版式文档的处理方法及装置
CN105760358B (zh) * 2014-12-19 2019-07-23 阿里巴巴集团控股有限公司 电子书版面重排和电子书展示的方法及其装置
US10671796B2 (en) 2015-06-07 2020-06-02 Apple Inc. Article authoring, distribution and rendering architecture
CN105260353A (zh) * 2015-10-23 2016-01-20 北大方正集团有限公司 一种移动终端的排版方法及装置
CN106802880B (zh) * 2015-11-25 2020-12-04 创新先进技术有限公司 一种电子文档内容显示、处理方法及装置
CN107153633A (zh) * 2016-03-02 2017-09-12 北大方正集团有限公司 在线文档文件的切分方法和在线文档文件的切分系统
CN106708801B (zh) * 2016-11-29 2020-08-28 深圳市天朗时代科技有限公司 用于文本的校对方法
CN107977346B (zh) * 2017-11-23 2021-06-15 深圳市亿图软件有限公司 一种pdf文档编辑方法及终端设备
CN109815243B (zh) * 2019-02-18 2020-03-03 北京仁和汇智信息技术有限公司 一种文档界面化修改时的结构化存储方法和装置
CN112533022A (zh) * 2019-08-30 2021-03-19 中兴通讯股份有限公司 云化机顶盒透明度叠加方法、云化机顶盒及存储介质
CN111046096B (zh) * 2019-12-16 2023-11-24 北京信息科技大学 用于生成图文结构化信息的方法和装置
CN112732654B (zh) * 2021-01-12 2021-11-02 江苏中威科技软件系统有限公司 将文件的生命周期信息注册到ofd版式文件的方法
CN112883249B (zh) * 2021-03-26 2022-10-14 瀚高基础软件股份有限公司 版式文档处理方法、装置以及装置的应用方法
CN113408251B (zh) * 2021-06-30 2023-08-18 北京百度网讯科技有限公司 版式文档的处理方法、装置、电子设备及可读存储介质
CN115017877B (zh) * 2022-08-10 2022-10-11 佳瑛科技有限公司 一种版式文件的储存方法及样本数据库本地重建方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006046523A1 (ja) * 2004-10-25 2006-05-04 Nec Corporation 文書解析システム、及び文書適応システム
JP2006350867A (ja) * 2005-06-17 2006-12-28 Ricoh Co Ltd 文書処理装置、文書処理方法、プログラム及び情報記録媒体

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5089990A (en) * 1984-08-14 1992-02-18 Sharp Kabushiki Kaisha Word processor with column layout function
JPH04185050A (ja) * 1990-11-20 1992-07-01 Ricoh Co Ltd ミクストモード端末装置
JP3489119B2 (ja) * 1991-08-09 2004-01-19 富士ゼロックス株式会社 文書処理装置
US6665841B1 (en) * 1997-11-14 2003-12-16 Xerox Corporation Transmission of subsets of layout objects at different resolutions
JP3835194B2 (ja) * 2001-03-30 2006-10-18 セイコーエプソン株式会社 ディジタルコンテンツ作成システム及びディジタルコンテンツ作成プログラム
US20040205553A1 (en) * 2001-08-15 2004-10-14 Hall David M. Page layout markup language
CN1529264A (zh) * 2003-10-06 2004-09-15 李少峰 通过文字块位置编码查找相关联多媒体内容的方法
JP4047326B2 (ja) * 2004-11-25 2008-02-13 キヤノン株式会社 レイアウト装置、レイアウト方法及びプログラム
JP4733415B2 (ja) * 2005-04-05 2011-07-27 シャープ株式会社 電子文書の表示装置及び方法、並びにコンピュータプログラム
US7392473B2 (en) * 2005-05-26 2008-06-24 Xerox Corporation Method and apparatus for determining logical document structure
CN100429643C (zh) * 2005-12-07 2008-10-29 段君雷 面向多媒体网络电子出版物制作的实现方法
CN100356372C (zh) * 2005-12-31 2007-12-19 无锡永中科技有限公司 计算机版式文件生成方法和打开方法
US7788579B2 (en) * 2006-03-06 2010-08-31 Ricoh Co., Ltd. Automated document layout design
CN101169777A (zh) * 2007-11-13 2008-04-30 无锡永中科技有限公司 实现文字处理软件版式兼容的方法
CN101308488B (zh) * 2008-06-05 2010-06-02 北京大学 基于版式文件的文档流式信息处理方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006046523A1 (ja) * 2004-10-25 2006-05-04 Nec Corporation 文書解析システム、及び文書適応システム
JP2006350867A (ja) * 2005-06-17 2006-12-28 Ricoh Co Ltd 文書処理装置、文書処理方法、プログラム及び情報記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200800500020; 平野 敬 外3名: 'ページ記述言語の解析に基づく多様な文書からの構造化内容情報の抽出' 電子情報通信学会論文誌 第J91-D巻 第5号, 20080501, P.1406〜1417, 社団法人電子情報通信学会 *
JPN6013021603; 平野 敬 外3名: 'ページ記述言語の解析に基づく多様な文書からの構造化内容情報の抽出' 電子情報通信学会論文誌 第J91-D巻 第5号, 20080501, P.1406〜1417, 社団法人電子情報通信学会 *

Also Published As

Publication number Publication date
EP2291010A1 (en) 2011-03-02
CN101308488A (zh) 2008-11-19
CN101308488B (zh) 2010-06-02
WO2009146657A1 (zh) 2009-12-10
US20110087959A1 (en) 2011-04-14

Similar Documents

Publication Publication Date Title
JP2011523133A (ja) レイアウトファイルの構造処理方法及び装置
CN113609820B (zh) 基于可扩展标记语言文件生成word文件的方法、装置及设备
CN108351768B (zh) 用标记语言编写文档的同时实现处理信息系统的数据的用户界面的方法
CN108710601B (zh) 一种文本显示方法及其设备、存储介质、电子设备
JP2005512185A (ja) マルチページsvg文書用ディレクトリ
JP2000148736A (ja) フォントの取得方法、登録方法、表示方法、印刷方法、異体字フォントを含む電子文書の取り扱い方法およびその記録媒体
CN109656652B (zh) 网页图表绘制方法、装置、计算机设备和存储介质
US9141867B1 (en) Determining word segment boundaries
CN110990010A (zh) 一种软件界面代码的生成方法及装置
CN116383546B (zh) 文件处理方法、系统、计算机设备及计算机可读存储介质
JP2008090404A (ja) 文書検索装置、文書検索方法および文書検索プログラム
US10331800B2 (en) Search results modulator
JP5551986B2 (ja) 情報処理装置、情報処理方法、及びプログラム
CN116610304B (zh) 页面代码生成方法、装置、设备和存储介质
CN112906359A (zh) 基于人机交互的叠加信息处理方法及相关装置
CN112527738A (zh) 项目描述文件优化方法、系统及存储介质
CN104281575A (zh) 一种网页数据获取方法及模版引擎
US20120192046A1 (en) Generation of a source complex document to facilitate content access in complex document creation
JP2012141974A (ja) リンクされたテキストボックスを有する電子文書のレンダリング
CN112445474B (zh) 长文本文件名的显示方法、存储介质
CN115879417A (zh) 媒体编辑方法、装置、计算机及可读存储介质
CN109948123B (zh) 一种图像合并方法及装置
CN113343137A (zh) 优化seo页面生成方法、装置、电子设备及存储介质
CN112966481A (zh) 一种数据表格展示方法及装置
CN112860958B (zh) 一种信息显示方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120423

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130412

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130806

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140507