JP2020173779A

JP2020173779A - 文書における見出しのシーケンスの識別

Info

Publication number: JP2020173779A
Application number: JP2019237067A
Authority: JP
Inventors: ダレルユージンベラート，; Eugene Bellert Darrell
Original assignee: Konica Minolta Business Solutions USA Inc
Current assignee: Konica Minolta Business Solutions USA Inc
Priority date: 2019-03-29
Filing date: 2019-12-26
Publication date: 2020-10-22
Anticipated expiration: 2039-12-26
Also published as: US20200311571A1; CN111753534B; CN111753534A; US11468346B2

Abstract

【課題】電子文書（ＥＤ）を処理し、ＥＤのセクション見出しのシーケンスを推論することが可能な方法、記憶媒体及びシステムを提供する。【解決手段】電子文書（ＥＤ）を処理し、ＥＤのセクション見出しのシーケンスを推論する方法であって、コンピュータープロセッサーによって、所定のセクション見出しパターンとＥＤの複数の文字との間の通常の表現のマッチングに基づいて、ＥＤの候補見出しのリストを生成し、候補見出しのリストに基づいてセクション見出しのシーケンスの一部を推論するためのチェーンフラグメントのリストを生成し、所定の基準に基づいて、チェーンフラグメントのリストにおける少なくとも二つのチェーンフラグメントを合わせてセクション見出しのシーケンスを生成する。【選択図】図２Ａ

Description

電子文書（ＥＤ）（例えば、ＰＤＦドキュメント、ＯＯＸＭＬドキュメント等）の内容は、著者によりＥＤ内においてセクションに分けられて整理されうる。様々な異なるファイル形式が存在する。それぞれのファイル形式がどのようにファイルの内容が符号化されるかを規定する。ファイル形式に関わらず、セクションやセクション見出し等の著者が意図する意味情報はＥＤ内においてコンピューターによる認識可能な情報によって指定されないことがある。

一般に、本発明は一側面によれば、電子文書（ＥＤ）を処理し、ＥＤのセクション見出しのシーケンスを推論する方法に関する。当該方法は、コンピュータープロセッサーによって、所定のセクション見出しパターンとＥＤの複数の文字との間の通常の表現のマッチングに基づいて、ＥＤの候補見出しのリストを生成し、コンピュータープロセッサーによって、候補見出しのリストに基づいてセクション見出しのシーケンスの一部を推論するためのチェーンフラグメントのリストを生成し、コンピュータープロセッサーによって、所定の基準に基づいて、チェーンフラグメントのリストにおける少なくとも二つのチェーンフラグメントを合わせてセクション見出しのシーケンスを生成する。

一般に、本発明は一側面によれば、電子文書（ＥＤ）を処理し、ＥＤのセクション見出しのシーケンスを推論するためのコンピューター読取可能なプログラムコードを記憶する非一時的なコンピューター読取可能な記憶媒体に関する。前記コンピューター読取可能なプログラムコードはコンピューターに以下の機能を実行させる、所定のセクション見出しパターンとＥＤの複数の文字との間の通常の表現のマッチングに基づいて、ＥＤの候補見出しのリストを生成し、候補見出しのリストに基づいてセクション見出しのシーケンスの一部を推論するためのチェーンフラグメントのリストを生成し、所定の基準に基づいて、チェーンフラグメントのリストにおける少なくとも二つのチェーンフラグメントを合わせてセクション見出しのシーケンスを生成する。

一般に、本発明は一側面によれば、電子文書（ＥＤ）を処理し、ＥＤのセクション見出しのシーケンスを推論するシステムに関する。前記システムは、メモリーと、メモリーと接続するコンピュータープロセッサーと、を備え、前記コンピュータープロセッサーは、以下の機能を実行する、所定のセクション見出しパターンとＥＤの複数の文字との間の通常の表現のマッチングに基づいて、ＥＤの候補見出しのリストを生成し、候補見出しのリストに基づいてセクション見出しのシーケンスの一部を推論するためのチェーンフラグメントのリストを生成し、
所定の基準に基づいて、チェーンフラグメントのリストにおける少なくとも二つのチェーンフラグメントを合わせてセクション見出しのシーケンスを生成する。

本発明に関するその他の点は後述の実施形態の説明及び添付される請求項によって明らかにされる。

図１は本発明の一以上の実施形態におけるシステムを示す。図２Ａ〜図２Ｂは本発明の一以上の実施形態におけるフローチャートを示す。図３Ａ〜図３Ｇは本発明の一以上の実施形態における実施例を示す。図４は本発明の一以上の実施形態におけるコンピューターシステムを示す。

本発明の具体的な実施形態について図面を参照して説明する。図面における同様の要素は、一貫性を保つために同じ参照符号が付される。

以下の本発明の実施形態の詳細な説明において本発明の理解をより深めるため、細部について具体的で詳細な説明がなされる。しかし、当業者はこれらの具体的な詳細がなくても本発明を実施可能であることが明らかである。また、公知の特徴については、説明が不必要に複雑になることを避けるために詳細に記載されていない。

ＰＤＦドキュメントやＯＯＸＭＬドキュメント等、ＥＤによっては文書のセクションやセクション見出しが明確に示されないものがある。具体的には、セクション見出しとは著者によってＥＤのセクションの始めに示される一片のテキストである。より理解を深めるため、ユーザーは長い文書における具体的なセクションに記載される情報の閲覧又は検索を希望することがある。例えば、ユーザーは文書内の具体的なセクションに関する情報の検出を要求するために、「本文書内において、西部ライチョウの食習慣に関して記載されるセクションを示してください」といった命令を発行しうる。これに応じて、文書内のセクション及び／又はセクション見出しが具体的に示されない場合、示唆して目的とする質問に対する手助けとなる必要がある。

一般に、本発明における実施形態はあるテキストをＥＤにおけるシーケンスセクション見出しとして推測する方法、非一時的なコンピューター読取可能媒体、及びシステムである。本発明の一以上の実施形態においては、シーケンスセクション見出しは順番に並ぶセクション見出しであり、それぞれのセクション見出しは、一以上のシーケンス文字（例えば、１．１、１．２、１．２．１、ａ．、ｂ．、ｉ．、ｉｉ．、ｉｉｉ．、ｉｖ．、等）をセクション見出しの最初の位置（最も左の位置）に有する。特に、シーケンス文字は句読点によって分けられる場合がある。後続のシーケンスセクション見出しにおけるシーケンス文字は当該シーケンス内において互いに従う。シーケンス見出しに含まれるすべてのシーケンス文字は同じ分類に含まれるものであり、数字、大文字ローマ数字、小文字ローマ数字、大文字アルファベット、小文字アルファベットのいずれか一つにあたる。また、セクション見出しに含まれるセクション文字に基づいて、セクション見出しを、数字、大文字ローマ数字、小文字ローマ数字、大文字アルファベット、小文字アルファベットの五つの可能性のある分類のうちの一以上の分類にまとめることができる。

本発明の一以上の実施形態において、推測されるセクション見出しの情報が以前はセクションやセクション見出しがコンピューターによる認識可能な形で識別できなかったＥＤにおいて、ＯＯＸＭＬタグやその他の形式で指定されて挿入又は埋め込まれる。例えば、推測されるセクション見出し情報はＥＤ内の対応するテキストの近くに挿入または埋め込まれ又はその他の方法としてドキュメントプロパティに含まれる。また、推測情報が埋め込まれた最終的な文書はＯＯＸＭＬ、ＰＤＦ、又はＯＳやソフトウェアアプリケーションに含まれる標準的なテキスト検索ツールによって検索を実行できるその他のファイル形式である。

図１は本発明の一以上の実施形態におけるシステム（１００）を示す。図１に示すように当該システム（１００）は複数の構成要素を含み、例えば、バッファー（１０４）、解析エンジン（１０８）、及び推論エンジン（１１０）を備える。これらの構成要素は（１０４、１０８、１１０）それぞれ同じコンピューター装置（例えば、パーソナルコンピューター（ＰＣ）、ラップトップ、タブレットＰＣ、スマートフォン、複合機、キオスク、サーバー、等）に配置されるか又は有線及び／又は無線の部分を含み、規模を問わないネットワークによって接続される異なるコンピューター装置に配置される。これらの構成要素のそれぞれについて後述する。

本発明の一以上の実施形態において、バッファー（１０４）はハードウェア（つまり、回路）、ソフトウェア、又はこれらの組み合わせにより備えうる。バッファー（１０４）には、一以上の行の、文字で構成されるテキストを含むＥＤ（１０６）が保存される。ＥＤ（１０６）は画像やグラフィックを含みうる。ＥＤ（１０６）はあらゆるソースから取得しうる（例えば、ダウンロード、スキャン等）。ＥＤ（１０６）はＥＤのコレクションの一部でありうる。また、ＥＤ（１０６）はあらゆる形式（例えばＰＤＦ、ＯＯＸＭＬ、ＯＤＦ、ＨＴＭＬ、等）のあらゆるサイズでありうる。ＥＤ（１０６）は、著者がセクション及びセクション見出しとして意図した意味内容を含み、これらはＥＤ（１０６）自体によっては指定されておらず、明確に示されていない。つまり、セクション及びセクション見出しは、ＥＤ（１０６）においてタグ又はその他の識別子等のコンピューターに認識可能な情報によって指定されておらず、明確に示されていない。

本発明の一以上の実施形態において、解析エンジン（１０８）は、ハードウェア（つまり、回路）、ソフトウェア、又はこれらの組み合わせにより備えうる。解析エンジン（１０８）はＥＤ（１０６）を解析して、ＥＤ（１０６）の文字についての内容、レイアウト、及びスタイルに関する情報を抽出し、抽出された情報に基づいて解析されたＥＤ（１０６）（解析済みＥＤ（１０７）と称する）を生成する。具体的には、解析済みＥＤ（１０７）は、ＥＤ（１０６）の抽出した情報により元の内容の表現を含む。解析済みＥＤ（１０７）はバッファー（１０４）に保存される。

一以上の実施形態において、解析済みＥＤ（１０７）は、ＪＳＯＮやＸＭＬ等の一般的な所定の構築された形式であり、ＥＤ（１０６）からの抽出情報によって符号化される。この共通の形式はテキストの段落、行、塊に加え、対応するバウンディングボックス及びスタイル情報を保存する。また、この共通の形式は、画像やグラフィック等といった追加の文書の内容を保存しうる。ＥＤ（１０６）、解析済みＥＤ（１０７）の一例がそれぞれ図３Ａ、図３Ｂに示される。

図３Ａに示すように、ＥＤＡ（３１０）はＥＤ（１０６）の一例であり、複数の行にわたって、文字によって構成されるテキストを含む。テキストの行は段落（３１２）にまとめうる。図３Ａに示すように、各段落はテキストを一行又は複数行含みうる。ＥＤＡ（３１０）が解析された後、文書のサブセットについての共通の形式の表現が図３Ｂに示される。

図３Ｂは解析されたＥＤＡ（３１０）の一部を示す（以下、解析済みＥＤ（３２１）と称する）。解析済みＥＤ（３２１）は解析済みＥＤ（１０７）の一例であり、ＥＤＡ（３１０）の第三段落に含まれる文字に関するスタイル情報（３２４）、レイアウト情報（３２３）及び内容情報（３２２）を含む。例えば、内容情報（３２２）は図３Ａに示す「ｂｏｍｂ−ｓｎｉｆｆｉｎｇｃａｔ（爆弾探知猫）」という文字を含む。図３Ｂに示すように、スタイル情報（３２４）は変数（つまり、ｖ：４）として示されており、これはテキスト（つまり、ｓｔｙｌｅ＿ｉｄ）の様々な特徴や見た目（つまり、スタイル）を定義する。具体的には、内容情報（３２２）は、当該スタイル情報（３２４）が適用されるテキストの行におけるすべての文字を含む。

上述のものは例示的なものであるが、共通の形式は文書の基本的な構造とスタイルに関する詳細を示す。具体的には、文書の具体的な段落が識別され、各段落は一以上の行のテキストに分解される。また、各行はテキストの一以上の塊に分解され、塊に含まれるすべてのテキストは具体的なスタイル情報を有する。上述の例において、スタイル情報は参照ＩＤ（ファイルの最後に「ｒｕｎ＿ｐｒｏｐｓ」リストに登場する特定のＩＤについての的確なスタイルの詳細を含む）を通じて扱う。その他の例においては、スタイル情報は塊自体と同列に符号化されうる。とにかく、スタイルの詳細は書体、ポイントの大きさ、テキストの色、太字、下線、斜体、等の処理に関する情報を符号化する。スタイル情報に加えて、レイアウト情報（例えば、レイアウト情報（３２３））がｃｈａｒ＿ｂｂｏｘ／ｖｉｓｉｂｌｅ＿ｂｂｏｘを通じて提供され、これらは段落、行、及び塊の異なるバウンディングボックスを示す。最後に、文書自体のテキストがそれぞれの塊の一部として提供される。

図１の説明に戻り、本発明の一以上の実施形態において、推論エンジン（１１０）は、ハードウェア（つまり、回路）、ソフトウェア、又はこれらの組み合わせにより実施しうる。具体的には、推論エンジン（１１０）は、解析済みＥＤ（１０７）のあるテキストをＥＤ（１０６）の順序をシーケンスセクション見出しとして推論するように構成される。解析エンジン（１０８）によって抽出された内容情報及びスタイル属性に基づいて、推論エンジン（１１０）は、ＥＤ（１０６）における候補見出しを生成し、これらはいくつかのチェーンフラグメントに組み立てられて、セクション見出しのシーケンスの一部を構築する。より低いランクのチェーンのフラグメントはより高いランクのチェーンのフラグメントに合わせられ、セクション見出しの完全なシーケンスを生成する。ここでは、候補見出しとはセクション見出しとして識別される候補となる一片のテキストである。チェーンフラグメント、又は単にフラグメントとは、セクション見出しのシークエンスの一部を満たしうる一以上の候補見出しである。本明細書においては、明確に「セクション見出し」と表現されない限り、「候補見出し」、「見出し」という表現は互いに置き換えうるものとして用いられる。

本発明の一以上の実施形態において、推論エンジン（１１０）は推論エンジン（１１０）の一以上の中間結果に対応するＥＤ（１０６）のメタデータ（１１２）を生成し、例えば候補見出し、候補見出しの信頼度の値やランクの値、チェーンフラグメント、チェーンフラグメントの親子関係、等があげられる。言い換えると、メタデータ（１１２）は推論エンジン（１１０）の一以上の中間結果を表現する情報を含む。一以上の実施形態において、推論エンジン（１１０）はメタデータ（１１２）をバッファー（１０４）に保存する。また、一以上の実施形態において、推論エンジン（１１０）はメタデータ（１１２）を解析済みＥＤ（１０７）に戻して保存する。メタデータ（１１２）を外部バッファーに保存し、利用する際に推論エンジン（１１０）によって読み出されうる。

本発明の一以上の実施形態において、推論エンジン（１１０）は、図２Ａを参照しながら後述する方法を用いて、上述の機能を実行する。

システム（１００）は三つの構成要素（１０４、１０８、１１０）を有するものとして説明されているが、本発明のその他の実施形態において、システム（１００）はより多くの又はより少ない構成要素を有しうる。また、上述のそれぞれの構成要素の機能については各構成要素にわたって分担しうる。さらに、それぞれの構成要素（１０４、１０８、１１０）は複数回用いて反復処理を実行しうる。

図２Ａは本発明の一以上の実施形態におけるフローチャートを示す。フローチャートは電子文書（ＥＤ）内における一以上のシーケンスセクション見出しを推測する処理を描く。図２Ａに記載される一以上のステップは、図１を参照して説明したシステム（１００）に含まれる構成要素により実行される。本発明の一以上の実施形態によれば、図２Ａに示される一以上のステップが省略、反復、及び／又は図２Ａに示す順番とは異なる順番で実行しうる。よって、本発明の範囲は図２Ａで示される各ステップの具体的な構成に限定されるものではない。

図２Ａを参照して、まずステップ２００において、ＥＤを解析して、文字のスタイル属性、レイアウト属性、及び内容情報を含む解析済みＥＤを生成する。具体的には、ＥＤは、タグ又は他の識別子等のコンピューターによって認識可能な情報を用いてＥＤ内で指定又は明確に示されていないセクション及びセクション見出しを含む。

一以上の実施形態によれば、ステップ２０１において、所定のセクション見出しパターンに基づいてＥＤ内の候補見出しのリストが生成される。本発明の一以上の実施形態によれば、所定のセクション見出しパターンは「通常表現」であり、これは検索パターンを定義する文字のシーケンスである。候補見出しは、通常表現と一致する、セクション見出しのシーケンスを推測するＥＤ内における複数のテキストである（「通常表現マッチング」）。ＥＤ内における候補見出しを検索する通常表現として＜シーケンス文字＞＜テキスト＞というパターンが用いられる。つまり、＜シーケンス文字＞＜テキスト＞というパターンを有する一片のテキストは候補見出しの一つとして識別される。本明細書においては、候補見出しには、＜シーケンス文字＞部分と＜テキスト＞部分とを有し、これらはシーケンス文字、候補見出しのテキストと称する。候補見出しはＥＤ内において一つの段落を有する。つまり、候補見出しは、対応する段落のバウンディングボックスにより区切られる。候補見出しのリストは候補見出しの段落番号に応じてソートされ、候補見出しのリストを生成することは、リスト内の候補見出しを識別するメタデータを生成することとＥＤ又は解析済みＥＤと関連付けてメタデータを保存することとを含む。

一以上の実施形態におけるステップ２０２では、候補見出しのリストに含まれるそれぞれの候補見出しにランクが付けられる。候補見出しのランクは候補見出しのシーケンス文字にみられるネストレベルの値である。例えば、ランクは候補見出しのシーケンス文字において句読点により句切られるシーケンス文字の数に対応しうる。ランクはＥＤ又は解析済みＥＤと関連付けてメタデータに保存される。

一以上の実施形態におけるステップ２０３では、候補見出しのリストにおけるそれぞれの候補見出しの信頼度が生成される。候補見出しの信頼度は特定の候補見出しのスタイルの特有性の値である。例えば、スタイルの特有性は特定のスタイルを有する、ＥＤ内の文字の統計的な数値（例えば、パーセント）に対応しうる。信頼度はＥＤ又は解析済みのＥＤに関連付けられてメタデータに保存されうる。

一以上の実施形態におけるステップ２０４では、候補見出しのリストに基づいてセクション見出しのシーケンスを推測するためのチェーンフラグメントのリストを生成する。一以上の候補見出しがランク及び分類に基づいてチェーンフラグメントにまとめられる。つまり、チェーンフラグメントに含まれる候補見出しはすべて同じランクと同じ分類であり、これがチェーンフラグメントのランクと分類とを定義する。チェーンフラグメントは該当するランクに応じてソートされ、チェーンフラグメントのリストを形成し、それぞれのチェーンフラグメントの信頼度はチェーンフラグメントに含まれるそれぞれの候補見出しの信頼度に基づいて決定する。また、基本となる候補見出しの平均信頼度が所定の信頼度の閾値より低い一以上のチェーンフラグメントはチェーンフラグメントのリストから削除されるか除外される。チェーンフラグメントのリストを表す情報はＥＤ又は解析済みＥＤに関連付けられてメタデータとして記録される。

一以上の実施形態におけるステップ２０５では、セクション見出しのシーケンスは所定の基準に基づいてチェーンフラグメントを合わせることによって生成し、所定の基準として例えば、合わせるフラグメントについての近接性や信頼度に関する値が挙げられる。具体的には該当するランクや分類に応じて合わせられる。同じ分類において、より低いランクのチェーンフラグメントは当該より低いランクのチェーンフラグメントよりも一つ高いランクである、より高いランクのチェーンフラグメントと合わせられる。また、より高いランクのチェーンフラグメントとより低いランクのチェーンフラグメントとの間の近接性を示す値が生成される。例えば、近接性の値は、より高いランクのチェーンフラグメントが挿入される点とより低いランクのチェーンフラグメントの最初の候補見出しとの間の段落番号の差と対応しうる。さらに、より高いランクのチェーンフラグメントの点数はより高いランクのチェーンフラグメントの近接性の値と信頼度との重み付平均に基づいて生成される。よって、点数に基づいてより高いランクのチェーンフラグメントはより低いランクのチェーンフラグメントの親として選ばれる。例えば、より高いランクのチェーンフラグメントは、その点数がすべての可能性のあるより高いランクのチェーンフラグメントの中で最も高い場合はより低いランクのチェーンフラグメントの親として選ばれる。セクション見出しのシーケンスを表現する情報は、ＥＤまたは解析済みのＥＤと関連付けられてメタデータとして記録される。

図２Ｂは本発明の一以上の実施形態におけるフローチャートを示す。フローチャートは著者が意味上では意図したセクションやセクション見出しがタグやその他の識別子等のコンピューターによって認識可能な情報を用いてＥＤにおいて指定又は明確に識別されない場合にＥＤを検索する処理を示す。検索結果を向上させるため、図１を参照して説明したシステム（１００）に含まれる構成要素と図２Ａを参照して説明した方法を用いることによって、ＥＤのセクション見出し情報を生成しうる。本発明の一以上の実施形態において、図２Ｂに示す一以上のステップを省略、反復及び／又は図２Ｂで示したものと異なる順番で実行することができる。よって、本発明の範囲は図２Ｂに示すステップの具体的な構成によって限定されない。

ステップ２１０において、ユーザーから検索フレーズを指定した検索要求を受信する。本発明の一以上の実施形態において、ユーザーはファイルビューアーでＥＤを開きうる。ユーザーはファイルビューアーにおいて検索ダイアログボックスを開き、検索フレーズをタイプすることによって、ＥＤ内にあるユーザーにとって関連のある情報へ導く一以上の一致するフレーズを検索する。

ステップ２１１において、ＥＤを検索して、一以上の一致するフレーズの位置を識別する。例えば、ＥＤにおいて一致するフレーズは複数存在しうるが、他の一致するフレーズよりもユーザーにより関係するＥＤ内のセクションに一致するフレーズをいくつか検索することがある。推測されるセクション見出し情報は、一致するフレーズが検出されたセクション全体に返るためにすでに存在する検索エンジン（例えば、レガシー）が用いることができるようにＥＤに追加される。例えば、セクション見出し情報は、ユーザーからの検索要求を受信する前に推測され、ＥＤに追加されうる。他の例において、セクション見出し情報は、ユーザーからの検索要求を受信したことに応じて推測され、ＥＤに追加されうる。セクション見出し情報は図２Ａを参照して上述した方法を用いて推論され、ＥＤに追加される。

本発明の一以上の実施形態において、ビューアーの検索エンジンは、推論されるセクション見出し情報を検索して、一致するフレーズが検出されたセクション全体を識別する。一致が見つかった場合、ファイルビューアーは一致するフレーズと一致するフレーズを含むセクションの位置とを取得する。

ステップ２１２において、一致するフレーズと一致するフレーズを含むセクションが本発明の一以上の実施形態におけるユーザーに示される。一致するフレーズと関連するセクションを示す方法として関連するセクションにおける一致するフレーズをハイライトすることが挙げられる。複数の一致するフレーズを含む複数のセクションがユーザーに示され、ユーザーは、ユーザーにとってもっとも関連する情報を含むセクションを選択しうる。

図２Ａ及び図２Ｂに示すように、一以上の実施形態によれば、ＥＤをコンピューターによって検索することで、一致するフレーズを返すだけではなく、一致するフレーズが検出される、ＥＤ内のセクションも返す。よって、ユーザーは、タグ又はその他の識別子等のコンピューターによって認識可能な情報を用いてＥＤ内において指定又は明確に示されていない、著者が意味の上で意図するセクション見出しに基づいて、検索フレーズと関連する追加の情報を見ることができる。

図３Ｃ〜図３Ｇは本発明の一以上の実施形態における実施例を示す。図３Ｃ〜図３Ｇに示す実施例は、図１、図２Ａ、及び図２Ｂを参照して上述したシステム及び方法のフローチャートに基づく。本発明の一以上の実施形態において、図３Ｃ〜図３Ｇに示される一以上の要素は省略、反復及び／又は異なる形で構成しうる。よって、本発明の範囲は、図３Ｃ〜図３Ｇに示す要素の具体的構成によって限定されない。

関連するランクの値及び信頼度の値によって候補見出しを生成する例について、図３Ｃ及び表１を参照して以下に説明する。図３Ｃに示すように、ＥＤＢ（３３０）は段落０から段落２０までの２１の段落を有し、例えば段落０（３３１）、段落２（３３２）、段落５（３３３）、段落６（３３４）、段落１８（３３５）、段落１９（３３６）、等が含まれる。通常表現を用いて＜シーケンス文字＞＜テキスト＞というパターンを有するテキストを複数検索することによって、ＥＤの候補見出しとして、以下の表１で示すような入力が１６の行にわたるリストとして識別される。具体的には表１は上述の図２Ａに示すステップ２０１、２０２、及び２０３を参照して説明した候補見出しのリストの一例を示す。

表１の候補見出しのリストにおいて、候補見出しの位置はＥＤＢにおける候補見出しの段落番号を示す（３３０）。本明細書においては「位置」という用語は明示のない限り「候補見出しの位置」を意味する。候補見出しのランクは候補見出しに含まれるシーケンス文字の数である。ランクは候補見出しのネストレベルを示す。例えば、シーケンス文字「３．」を含む候補見出しはランク１であり、シーケンス文字「２．１」を含む候補見出しはランク２であり、シーケンス文字「２．２．１」を含む候補見出しはランク３であり、以下同様に続く。

候補見出しの信頼度は特定の候補見出しのスタイルの特有性を示す。一般にＥＤの著者が意図する見出しはＥＤ内の他のテキストと比較すると特有のスタイルを有する。例えば、段落０（３３１）、段落２（３３２）、及び段落１９（３３６）はすべて著者によって意図される主要な見出しであり、これらの段落のみに特有の、共通のスタイルを有する。よって、これらの候補見出しについての信頼度は以下のように計算される、この特定の共通スタイルである文字の数をＥＤ内の文字の総数と割った商から１引いた結果が信頼度となる。ＥＤＢ（３３０）の例では段落０（３３１）、段落２（３３２）、及び段落１９（３３６）には９０文字が含まれ、文字の総数は５０３文字となる。よって、段落０（３３１）、段落２（３３２）、及び段落１９（３３６）のそれぞれの信頼度は１−９０／５０３で計算され、結果は上述の表１に示すように０．８２となる。

具体的に、注目すべきこととして、段落６（３３４）は二つの見出し候補として、表１に示されており、一方は小文字アルファベット、他方は小文字ローマ数字である。これは「ｉ．」が曖昧で、アルファベットの文字であるとともにローマ数字だからである。つまりＥＤの一以上の候補見出しは、曖昧であることによって複数の分類に属するように分けられるが、これは後半のステップにおいて解決される。

図２Ａのステップ２０４を参照する例として、セクション見出しのシーケンスのチェーンフラグメントのいくつかが、ランクの値に基づいて候補見出しから生成される。上述のように、チェーンフラグメント又は単にフラグメントと称されるものは、セクション見出しのシーケンスの一部を満たす一以上の候補見出しである。最初のシーケンス文字（例えば、数字については「１．」、大文字アルファベットについては「Ａ．」、小文字ローマ数字については「ｉ．」）をシーケンス文字の最も右の値として有する候補見出しは、一つの見出しのチェーンフラグメントを形成するか複数の候補見出しを有するチェーンフラグメントの始まりとして機能する。チェーンフラグメントにおける複数の候補見出しのシーケンス文字は、始めのチェーンフラグメントより互いにしたがう。一以上の実施形態において、チェーンフラグメントは候補見出しのリストをさかのぼってチェーンフラグメントの始まりを検索して生成する。ここでは、「さかのぼる」とは表１の始まり又は上へ向かうことであり、「進む」とは表１の終わり又は下へ向かうことである。チェーンフラグメントの始まりはチェーンフラグメント始まりとも称される。例えば、以下のシーケンス文字はすべてチェーンフラグメントの始まりを示しうる。つまり、以下のシーケンス文字を含む候補見出しは潜在的なチェーンフラグメント始まりとして識別されうる。
●４．１
●４．２．１
●４．３．１
●１．
●ｉ．
●ａ）

いったん潜在的なチェーンフラグメント始まりが識別されると、チェーンフラグメントは、潜在的チェーンフラグメント始まりと同じテキストスタイルで、他のチェーンフラグメントにまだ組み込まれていない、同じランクで、同じ分類を有する後続の候補見出しを検索することによって、順次構築される。このステップでは異なる解釈の明確化が行われる。例えば、候補見出しにみられる「ｉ．」はローマ数字チェーンの始まりかアルファベットチェーンの９番目として区別される。具体的に、チェーンフラグメント始まりとして「ｉ．」を用いてチェーンフラグメントを生成しているかに基づいて区別される。つまり、チェーンフラグメント始まりとして「ｉ．」を用いてチェーンフラグメントを生成した場合、「ｉ．」はローマ数字として扱われる。一方、チェーンフラグメント始まりとして「ｉ．」を用いて生成したチェーンフラグメントが存在しない場合、「ｉ．」はアルファベットの文字として扱われる。

図３Ｃの例と上述の表１の続きとして、アルゴリズムは段落１９（３３６）から処理を始めて、この候補見出しのシーケンス文字が３で終わり、チェーンフラグメントの始まりではないことを検出する。表１の終わりからさかのぼって次の候補見出しは段落１８（３３５）であり、１．で終わるシーケンス文字２．１を有する。よって、段落１８（３３５）はチェーンフラグメントの始まりとして選択される。選択された段落１８（３３５）から、アルゴリズムは表１の終わりに向かって進み、段落１８（３３５）と同じスタイルを有する候補見出しに含まれる次のシーケンス文字２．２を検索する。しかし、表１のリストにこのような候補見出しは検出されないので、これにより、表２に示すように、チェーンフラグメント１は単一の候補見出しを含むとして結論付ける。

表１のリストにおける段落１８と同様に、表３に示すように、段落１６はチェーンフラグメント始まりとして識別され、これにより単一の候補見出しを含むチェーンフラグメント２が生成される。

アルゴリズムは表１のリストをさかのぼり、シーケンス文字の最も左の桁が「ａ）」であることに基づいて段落１２をチェーンフラグメントとして識別する。アルゴリズムは次に表１を進み、同じ分類（小文字アルファベット）に属し、同じスタイルを有し、順番が続く次の候補見出しを検索する。よって、段落１３、１４、及び１５は表４に示すようにチェーンフラグメント３に含まれる。

アルゴリズムは、表１のリストをさかのぼり、段落６を潜在的なチェーンフラグメント始まりとして識別する。ここでは、候補見出しの「ｉ．」として二つの解釈が可能である。「ｉ．」の第一の解釈は小文字アルファベットであり、潜在的なチェーンフラグメント始まりとして識別されず、無視される。「ｉ．」の第二の解釈は小文字ローマ数字であり、潜在的なチェーンフラグメント始まりとして識別され、処理を進めるようにアルゴリズムによって採用される。よって、表５に示すようにチェーンフラグメント４は段落６をチェーンフラグメント始まりとして用いて生成される。

同様に、表６及び表７に示すようにチェーンフラグメント５及び６が生成される。

図２Ａのステップ２０４を参照して説明するように、チェーンフラグメントはランクによってソートされる。一以上の実施形態において、ランク１のすべてのチェーンフラグメントがフラグメントのリストに最初に追加され、ランク２のすべてのチェーンフラグメントが続き、続いてランク３が続き、以下同様に続く。図３Ｄは、ＥＤＢ（３３０）から生成されたフラグメント（３４０）のソート済みリストの一例を示す。図３Ｄに示すように、チェーンフラグメント６（３４６）、チェーンフラグメント４（３４４）、及びチェーンフラグメント３（３４３）がフラグメント（３４０）のリストのランク１の部分に含まれ、チェーンフラグメント５（３４５）及びチェーンフラグメント１（３４１）がフラグメント（３４０）のリストのランク２の部分に含まれ、チェーンフラグメント２（３４２）がフラグメントのリストのランク３の部分に含まれる。

不適格なチェーンフラグメントはフラグメントのリストから除外される。いったんすべてのチェーンフラグメントを組み立てると、アルゴリズムはより長いシーケンスチェーンを形成する可能性が少ないチェーンフラグメントを削除する。一以上の実施形態において、一定の信頼度の閾値より低いリスト又はチェーンフラグメントと識別されたチェーンフラグメントは不適格とされ、フラグメントのリストから除外される。

チェーンフラグメントは、そのチェーンフラグメントの「リスト確率」が一定の閾値よりも高くなる場合にリストとして識別される。「リスト確率」はチェーンフラグメントの候補見出しの総数に対するチェーンフラグメントの隣接する候補見出しの数を表す比率として計算される。例えば、段落０、２、及び１９を含むチェーンフラグメント６（３４６）は、０、２、及び１９が隣接する位置の段落ではないため、隣接する候補見出しは０となる。よって、チェーンフラグメント６（３４６）の「リスト確率」は、０／３＝０である。他の例では、段落６、７、８、及び９を含むチェーンフラグメント４（３４４）は４つの隣接する段落を含み、「リスト確率」は４／４＝１である。単一の候補見出しを含むチェーンフラグメントは「リスト確率」に基づく削除対象とならない。なぜなら、チェーンフラグメントが独立した見出しであるか一つの要素のリストであるか識別するのに十分な内容がないからである。

チェーンフラグメントの信頼度は当該チェーンフラグメントのすべての候補見出しの信頼度の平均として計算される。例えば、段落４及び１０を有するチェーンフラグメント５（３４５）の信頼度は０．８８として計算される。指定の閾値よりも低い信頼度を有するチェーンフラグメントも削除される。

一以上の実施形態において、「リスト確率」の閾値は１とし、チェーンフラグメント信頼度の閾値は０．８とする。よって、段落６、７、８、及び９を含むチェーンフラグメント４（３４４）、段落１２、１３、１４、及び１５を含むチェーンフラグメント３（３４６）、及び段落１８を含むチェーンフラグメント１（３４１）はフラグメント（３４０）のリストから除外され、図３Ｅに示すように、フラグメント（３５０）の削除済みリストが生成される。

上述の図２Ａのステップ２０５を参照した一例として、セクション見出しのシーケンスはより低いランクのチェーンフラグメントをより高いランクのチェーンフラグメントに合わせることによって削除済みのフラグメントのリストから生成する。最も低いランクのチェーンフラグメントから始めて、それぞれのチェーンフラグメントにとって親として可能性のあるものを見つける。親として可能性のあるすべてのものから最もいい親が選択され、親と子のチェーンフラグメントは合わせられる。この処理は繰り返されて、より高いランクのチェーンフラグメントへ進む。

一以上の実施形態において、特定のランクでチェーンフラグメントを合わせる処理は以下のように行う。
● 特定のランクにおけるすべてのチェーンフラグメントを信頼度により降順でソートして、最も信頼度の高いチェーンフラグメントを最初に処理する。
● ソート済みリストのそれぞれのチェーンフラグメントについて以下を行う、
ａ．チェーンフラグメントが潜在的に入りうる、すべての親チェーンフラグメントのリストを生成する（ｐｏｔｅｎｔｉａｌ＿ｐａｒｅｎｔｓ）。検索する各親チェーンフラグメントは現在のチェーンフラグメントのランクよりひとつ高いランクのものである。よって、ひとつ高いランクのチェーンフラグメントにあるそれぞれの親チェーンフラグメントについて、チェーンフラグメントが親チェーンフラグメントに潜在的に入りうる場合、当該親チェーンフラグメントとその前にくる親見出しの位置（ｐａｒｅｎｔ＿ｐｏｓ）がｐｏｔｅｎｔｉａｌ＿ｐａｒｅｎｔｓのリストに追加される。つまり、当該親見出しは候補見出しとして、子チェーンフラグメントはこの後に挿入されることで合わせられうる。後述のＦｉｔｓＷｉｔｈｉｎ（）という機能を用いる。
ｂ．ｐｏｔｅｎｔｉａｌ＿ｐａｒｅｎｔｓに含まれるそれぞれのフラグメントについて、ｐａｒｅｎｔ＿ｐｏｓから子チェーンフラグメントの最初の候補見出しの位置までの距離を識別し、最大距離をｍａｘ＿ｄｉｓとして記録する。
ｃ．ｐｏｔｅｎｔｉａｌ＿ｐａｒｅｎｔｓのうち、最高の親チェーンフラグメントを識別する。これは近接性とチェーンフラグメントの信頼度とを組み合わせて判断する。それぞれの親チェーンフラグメントにＳｃｏｒｅＦｉｔ（）機能を適用して最も高い点数の親チェーンフラグメントを選択する。
ｄ．チェーンフラグメントを最高の親チェーフラグメントと合わせる。具体的に、チェーンフラグメントのうちのそれぞれの候補見出しは最高の親チェーンフラグメントへ移動され、空白となったチェーンフラグメントは消去される。

以下はＦｉｔｓＷｉｔｈｉｎ（）の機能の例示的な展開である。
● 親チェーンフラグメントにおけるそれぞれの見出しについて以下の行程を実行する。
ａ．もし存在する場合、現在の親見出しの後の、親チェーンフラグメントにおける次の見出しを識別し、これをｎｅｘｔ＿ｈｅａｄｉｎｇとして指定する。
ｂ．子チェーンフラグメントについてｐｌａｃｅｍｅｎｔ＿ｆｉｔを識別する。子チェーンフラグメントの最初の見出し位置が現在の親見出し位置ｐａｒｅｎｔ＿ｐｏｓよりも大きくかつ、１）ｎｅｘｔ＿ｈｅａｄｉｎｇが存在せず又は２）ｎｅｘｔ＿ｈｅａｄｉｎｇが存在し、子チェーンフラグメントの最後の見出し位置がｎｅｘｔ＿ｈｅａｄｉｎｇの位置よりも少ない場合、ｐｌａｃｅｍｅｎｔ＿ｆｉｔは真である。
ｃ．子チェーンフラグメントについてｓｅｑｕｅｎｃｅ＿ｆｉｔを識別する。子チェーンフラグメントの最初の見出し位置が現在の親見出しのシーケンス文字に続く場合に、ｓｅｑｕｅｎｃｅ＿ｆｉｔは真である。例えば、２．３及び２．２．１は２．２に続き、ともにシーケンスに合うものとして適格であるが、２．２．２及び２．４は２．２に続くものではなく、シーケンスに合わず、不適格である。ある候補見出しが他の候補見出しに続くかについてのチェックは後述の機能Ｆｏｌｌｏｗｓ（）で扱う。
ｄ．現在の親見出しについてｐｌａｃｅｍｅｎｔ＿ｆｉｔ及びｓｅｑｕｅｎｃｅ＿ｆｉｔの両方が存在する場合、この親フラグメント及び、子チェーンフラグメントを挿入する位置の前の親見出し（ｐａｒｅｎｔ＿ｐｏｓ）を識別し、ループを離れる。
● 親フラグメントを識別した場合、親フラグメントが子チェーンフラグメントの最初の見出しのシーケンス文字と一致するシーケンス文字を含まないことを確認する。つまり、追加する予定の子チェーンフラグメントがすでに親チェーンフラグメントに存在しないことを確認する。すでに存在する場合又は適切な親見出しが検出されない場合、親フラグメントについて「ＮＵＬＬ」と返し、ｐａｒｅｎｔ＿ｐｏｓについて「−１」を返す。その他の場合は親フラグメント及びｐａｒｅｎｔ＿ｐｏｓに対して参照を返す。

以下はＳｃｏｒｅＦｉｔ（）の機能の例示的な展開である。
● 子チェーンフラグメントから親チェーンフラグメントまでの距離に基づく距離の点数を計算する。例えば、ｄｉｓｔ＿ｓｃｏｒｅ＝１．０−（子チェーンフラグメントの最初の見出しの位置とｐａｒｅｎｔ＿ｐｏｓの差）／ｍａｘ＿ｄｉｓｔ。
● 親チェーンフラグメントのすべての見出しについての信頼度の平均としてｃｏｎｆｉｄｅｎｃｅ＿ｓｃｏｒｅを計算する。
● ｄｉｓｔ＿ｓｃｏｒｅとｃｏｎｆｉｄｅｎｃｅ＿ｓｃｏｒｅとの間の重み付平均を返す。ｆｉｎａｌ＿ｓｃｏｒｅとして。例えば、ｆｉｎａｌ＿ｓｃｏｒｅ＝０．７５＊ｄｉｓｔ＿ｓｃｏｒｅ＋０．２５＊ｃｏｎｆｉｄｅｎｃｅ＿ｓｃｏｒｅ。

以下はＦｏｌｌｏｗｓ（ａ，ｂ）の機能の例示的な展開であり、この機能により、見出しｂが見出しａに続くか判断する。
● ａとｂと両方に対応する数字レベルの配列を形成する。配列の大きさは見出しのランクに等しく、配列のそれぞれの値はシーケンスにおけるそれぞれの文字に等しい数字である。ここにいくつかの異なるシーケンス見出しについての数字レベルの例をいくつか示す。

● ｆｏｕｎｄ＿ａｎ＿ｉｎｃｒｅｍｅｎｔのブールを偽に初期化する。
● ｂの数字レベル配列に含まれる各値について以下を繰り返す。
ａ．この値の位置を識別し、ｅｎｔｒｙ＿ｎｕｍと称する。
ｂ．ｆｏｕｎｄ＿ａｎ＿ｉｎｃｒｅｍｅｎｔが真である場合、偽を返す。（根拠：インクリメントがすでに検出される場合、ｂの数字レベル配列に他に値が存在しないはずである。例えば：４．２．１．１は４．２に続かない。）
ｃ．値の数字がａの数字レベル配列の大きさより小さい場合、次に、
ｉ．ｅｎｔｒｙ＿ｎｕｍのｂの数字レベル配列がｅｎｔｒｙ＿ｎｕｍのａの数字レベル配列よりも小さい場合、偽を返す。（例：４．２．１は４．２．３に続かない、なぜなら１が３よりも小さいからである。）
ｉｉ．ｅｎｔｒｙ＿ｎｕｍのｂの数字レベル配列がｅｎｔｒｙ＿ｎｕｍに１を足したａの数字レベル配列と等しい場合、ｆｏｕｎｄ＿ａｎ＿ｉｎｃｒｅｍｅｎｔは真に設定する。その他の場合は、ｅｎｔｒｙ＿ｎｕｍのｂの数字レベル配列がｅｎｔｒｙ＿ｎｕｍでのａの数字レベル配列に等しくない場合、偽を返す。（根拠：ｂの値がａの対応する値より１大きい場合、インクリメントが検出される。その他の場合は、現在の対応する値が等しい場合は数字レベル配列の次の値へと続くのみである。例：４．２．２は４．２．１に続く。）
ｄ．その他、数値がａの数字レベル配列の大きさと等しい場合、次に、
ｉ．ｅｎｔｒｙ＿ｎｕｍでのｂの数字レベル配列が１と等しい場合、ｆｏｕｎｄ＿ａｎ＿ｉｎｃｒｅｍｅｎｔは真に設定する。（例：４．２．１は４．２に続く。）
● ｆｏｕｎｄ＿ａｎ＿ｉｎｃｒｅｍｅｎｔを返す。

上述の図３Ｅに示す削除済みフラグメント（３５０）について、チェーンフラグメントを合わせる処理は最も低いランクのすべてのチェーンフラグメントから始まり、これはフラグメント２（３４２）における３である。このランクのすべてのチェーンフラグメントは信頼度により降順でソートされる。ランク３のチェーンフラグメントが一つだけの場合（つまりフラグメント２（３４２））、ソートの効果はない。チェーンフラグメントを合わせる処理はすべてのチェーンフラグメントが一つ高いランクで始まり、これはランク２である。削除済みのフラグメント（３５０）のリストにおいて、ランク２のチェーンフラグメントは一つしかない（つまりフラグメント５（３４５））。ＦｉｔｓＷｉｔｈｉｎ（）の機能を適用することで、ランク２のフラグメント５（３４５）を親フラグメントとしてランク３のフラグメント２（３４２）が子フラグメントとして当てはまるか判断する。

ＦｉｔｓＷｉｔｈｉｎ（）では、ランク２のフラグメント５（３４５）におけるそれぞれの見出しを分析する。最初の見出しは下記の段落４と対応する。

この見出しについて、ｐｌａｃｅｍｅｎｔ＿ｆｉｔは偽である。フラグメント５（３４５）に次の見出しがあり（位置１０）、フラグメント２（３４２）の最後の見出し位置１６は次の見出しの位置１０を超えるからである。また、ｓｅｑｕｅｎｃｅ＿ｆｉｔは偽である。フラグメント２（３４２）のシーケンス文字２．２．１がフラグメント５（３４５）のシーケンス文字２．１に続かないからである。よって、ＦｉｔｓＷｉｔｈｉｎ（）の分析はランク２のフラグメント５（３４５）の次の見出しへ続く。次の見出しは下記の段落１０と対応する。

この見出しについて、ｐｌａｃｅｍｅｎｔ＿ｆｉｔは真である。フラグメント５（３４５）には次の見出しがなく、子フラグメント２（３４２）の最初の見出し位置１６は親フラグメント５（３４５）の現在の親見出し位置１０よりも大きいからである。また、ｓｅｑｕｅｎｃｅ＿ｆｉｔは真である。子フラグメント２（３４５）のシーケンス文字２．２．１が親フラグメント５（３４５）のシーケンス文字２．２に続くからである。

最後にランク２のフラグメント５（３４５）にはシーケンス文字２．２．１を含む見出しがすでに存在しないことを確認する。親フラグメントがすでにそのような子フラグメントを有しないことを確認すると、ＦｉｔｓＷｉｔｈｉｎ（）はフラグメント５（３４５）を親フラグメントとし、ｐａｒｅｎｔ＿ｐｏｓを１０として返し、これらは潜在的な親のリストに追加される。

リストに潜在的な親が一つしかない場合、ランク２のフラグメント５（３４５）がランク３のフラグメント２（３４２）に最もふさわしい親として選ばれる。よって、ランク３のフラグメント２（３４２）がランク２のフラグメント５（３４５）に合わせられて、図３Ｆに示す合わせられたフラグメントＡ（３６０）のリストを生成する。図３Ｆに示すように、合わせられたフラグメントＡ（３６０）のリストはランク１のフラグメント６（３４６）及びランク２の合わせられたフラグメントＡ（３６１）を含む。具体的に、合わせられたフラグメントＡ（３６１）は削除されたフラグメント（３５０）のリストにある、フラグメント２（３４２）とフラグメント５（３４５）の組み合わせである。

ランク３のチェーンフラグメントは残っておらず、合わせられたフラグメントＡ（３６０）で二度目の合わせる処理をランク２のすべてのチェーンフラグメントで繰り返すが、これには合わせられたフラグメントＡ（３６１）しか含まれない。合わせる処理によれば、ランク２のすべてのチェーンフラグメントは信頼度により降順でソートされる。チェーンフラグメントが一つしかない場合（つまり合わせられたフラグメントＡ（３６１））、ソートの効果はない。よって、チェーンフラグメントを合わせる処理はすべてのチェーンフラグメントが一つ高いランク、つまりランク１で始める。合わせたフラグメントＡ（３６０）のリストには、ランク１のチェーンフラグメント（つまりフラグメント６（３４６）は一つしか存在しない。ＦｉｔｓＷｉｔｈｉｎ（）の機能を適用して、親フラグメントとしてランク１のフラグメント６（３４６）に子フラグメントとしてランク２の合わせたフラグメントＡ（３６１）が合わせられるか判断する。

ＦｉｔｓＷｉｔｈｉｎ（）では、ランク１のフラグメント６（３４６）のそれぞれの見出しを評価する。最初の見出しは下記段落０と対応する。

この見出しについて、ｐｌａｃｅｍｅｎｔ＿ｆｉｔは偽である。フラグメント６（３４６）には次の見出し（位置２）があり、合わせたフラグメントＡ（３６１）の最後の見出し位置１６は次の見出しの位置２を超えるからである。また、ｓｅｑｕｅｎｃｅ＿ｆｉｔは偽である。合わせたフラグメントＡ（３６１）のシーケンス文字２．１はフラグメント６（３４６）のシーケンス文字１に続くものではないからである。よって、ＦｉｔｓＷｉｔｈｉｎ（）の分析はランク１のフラグメント６（３４６）における次の見出しへと続く。次の見出しは下記の段落２に対応する。

この見出しについて、ｐｌａｃｅｍｅｎｔ＿ｆｉｔは真である。合わせた子フラグメントＡ（３６１）の最初の見出し位置４は親フラグメント６（３４６）の現在の親見出し位置２よりも大きい。また、合わせた子フラグメントＡ（３６１）の最後の見出し位置１６は親フラグメント６（３４６）の次の見出し位置１９よりも少ない。また、ｓｅｑｕｅｎｃｅ＿ｆｉｔは真である。合わせた子フラグメントＡ（３６１）のシーケンス文字２．１は親フラグメント６（３４６）のシーケンス文字２に続くからである。

最後にランク１のフラグメント６（３４６）にシーケンス文字２．１を含む見出しがすでに存在しないことを確認する。親フラグメントがすでに子フラグメントを含まない場合、ＦｉｔｓＷｉｔｈｉｎ（）はフラグメント６（３４６）を親フラグメントとし、ｐａｒｅｎｔ＿ｐｏｓを２として返し、これらは潜在的な親のリストに追加される。

リストに潜在的な親が一つしかない場合、フラグメント６（３４６）がランク２の合わせたフラグメントＡ（３６１）に最もふさわしい親として選ばれる。よって、ランク２の合わせたフラグメントＡ（３６１）はランク１のフラグメント６（３４６）と合わせられて、図３Ｇに示すように、合わせたフラグメントＢ（３７０）のリストを生成する。図３Ｇに示すように、合わせたフラグメントＢ（３７０）のリストはランク１の合わせたフラグメントＢ（３７１）しか含まない。具体的に、合わせたフラグメントＢ（３７１）は、合わせたフラグメントＡ（３６０）のリストに含まれる合わせたフラグメントＡ（３６１）とフラグメント６（３４６）との組み合わせである。

合わせる処理はこれで完了し、合わせたフラグメントＢ（３７１）はシーケンス見出し又はＥＤＢ（３３０）のセクション見出しのシーケンスとして識別される。この情報から、セクション見出しの間のセクションは自動的にテキスト領域として識別され、文書のセクションの全体的なネストはランク情報から識別され、これにより「…に関するセクションを示してください」といった質問に答えられる。

上述の例のステップにおいて、推論メタデータは本発明の一以上の実施形態における中間結果について生成される。具体的には、推論メタデータは、候補見出しのリスト、関連するランクや信頼度、チェーンフラグメントのリスト、関連する点数及び親子関係の表現を含む。本発明の一以上の実施形態において、推論メタデータはＥＤ及び／又は解析済みＥＤに追加される。

本発明の実施形態は、用いられるプラットフォームを問わず、事実上あらゆる種類のコンピューターシステムの上で実施することができる。例えば、コンピューティングシステムとして一以上のモバイル装置（例えば、ノートパソコン、スマートフォン、ＰＤＡ、タブレット等のモバイル装置）、デスクトップパソコン、サーバー、サーバーの筐体に含まれるブレード、又はその他の種類のコンピューティングデバイス、又は本発明の一以上の実施形態を実施するのに最低限の処理能力、メモリー及び入力／出力装置を含む装置があげられる。例えば、図４に示すように、コンピューティングシステム（４００）は一以上のコンピュータープロセッサー（４０２）、関連するメモリー（４０４）（例えば、ＲＡＭ、キャッシュメモリー、フラッシュメモリー、等）、一以上の記憶装置（４０６）（例えば、ハードディスク、ＣＤドライブやＤＶＤドライブ等の光学ドライブ、フラッシュメモリースティック、等）、並びに複数のその他の要素や機能を含む。コンピュータープロセッサーは（４０２）は命令を処理する集積回路でありうる。例えば、コンピュータープロセッサーはプロセッサーの一以上のコア又はマイクロコアでありうる。コンピューティングシステム（４００）は一以上の入力装置（４１０）を含みうる。例えば、タッチスクリーン、キーボード、マウス、マイク、タッチパッド、電子ペン又はその他の種類の入力装置があげられる。さらに、コンピューティングシステム（４００）は、一以上の出力装置（４０８）を含む。例えば、表示画面（例えば、液晶ディスプレイ（ＬＣＤ）、プラズマディスプレイ、タッチスクリーン、ＣＲＴモニター、プロジェクター又はその他の表示装置）、プリンター、外部記憶、又はその他の出力装置が挙げられる。一以上の出力装置は入力装置とは同じか異なりうる。コンピューティングシステム（４００）は、ネットワークインターフェース接続（図示せず）を介してネットワーク（４１２）（例えば、ＬＡＮ、インターネット等のＷＡＮ、モバイルネットワーク又はその他の種類のネットワーク）に接続しうる。入力／出力装置はコンピュータープロセッサー（４０２）、メモリー（４０４）、及び記憶装置（４０６）にローカルで又はリモートで（例えば、ネットワーク（４１２）を介して）接続される。様々な異なる種類のコンピューティングシステムが存在し、上述の入力／出力装置はその他の形式を取りうる。

本発明の実施形態を実行するコンピューターに読取可能なプログラムコードの形式を取るソフトウェア命令は、すべて又はその一部が一時的に又は永続的に、非一時的なコンピューター読取可能媒体に記憶され、その例として、ＣＤ、ＤＶＤ、記憶装置、ディスケット、テープ、フラッシュメモリー、物理的メモリー、又はその他のコンピューター記録媒体を用いうる。具体的に、ソフトウェア命令はコンピューターに読取可能なプログラムコードに対応し、プロセッサーによって実行されることによって、本発明の実施形態を実行する。

さらに、上述のコンピューティングシステム（４００）の一以上の要素は離れた場所に位置し、ネットワーク（４１２）の他の要素に接続されうる。さらに、本発明の一以上の実施形態は、複数のノードを有する分散システムに実施し、本発明の各部分が分散システムの異なるノードに位置しうる。本発明の実施形態において、ノードは区別されたコンピューティング装置と対応する。また、ノードは関連付けられた物理的なメモリーを有するコンピュータープロセッサーに対応しうる。また、ノードは共有メモリー及び／又はリソースを含むコンピュータープロセッサー又はコンピュータープロセッサーのマイクロコアと対応しうる。

本発明は限られた実施形態について説明したが、当業者は本明細書によって、開示された本発明の範囲を逸脱することなくその他の実施形態を考案することができることを認識しうるであろう。よって、本発明の範囲は添付のクレームによってのみ限定される。

Claims

電子文書（ＥＤ）を処理し、ＥＤのセクション見出しのシーケンスを推論する方法であって、
コンピュータープロセッサーによって、所定のセクション見出しパターンとＥＤの複数の文字との間の通常の表現のマッチングに基づいて、ＥＤの候補見出しのリストを生成し、
コンピュータープロセッサーによって、候補見出しのリストに基づいてセクション見出しのシーケンスの一部を推論するためのチェーンフラグメントのリストを生成し、
コンピュータープロセッサーによって、所定の基準に基づいて、チェーンフラグメントのリストにおける少なくとも二つのチェーンフラグメントを合わせてセクション見出しのシーケンスを生成する。
ＥＤの複数の文字に関するスタイル属性が含まれる解析済みのＥＤを生成し、
スタイル属性の特有性の値に基づいて、候補見出しのリストのそれぞれの候補見出しの信頼度を判断する、
請求項１に記載の方法。
候補見出しのリストのそれぞれの候補見出しの信頼度に基づいて、チェーンフラグメントのリストのそれぞれのチェーンフラグメントの信頼度を判断し、
所定の信頼度の閾値とそれぞれのチェーンフラグメントの信頼度とに基づいて、セクション見出しのシーケンスを推論するためにチェーンフラグメントのリストから少なくとも一つのチェーンフラグメントを除外する、
請求項２に記載の方法。
前記複数の候補見出しはそれぞれ前記所定のセクション見出しパターンに応じた一以上のシーケンス文字を有し、
前記チェーンフラグメントのリストを生成するステップは、シーケンス文字のネストレベルに基づいて候補見出しのリストのそれぞれの候補見出しのランクを判断することを含み、
前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントは、当該チェーンフラグメントのランクを定義する単一のランクを含む一以上の候補見出しを含む、
請求項１に記載の方法。
前記チェーンフラグメントのリストを生成するステップは、
前記候補見出しのリストをさかのぼって検討して、前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントについて先頭候補見出しを識別し、
前記先頭候補見出しから前記候補見出しのリストを先に進んで検討してそれぞれのチェーンフラグメントの残りの候補見出しを識別し、
前記先頭候補見出しは前記シーケンス文字の最も右の桁に先頭シーケンス文字を含む、
請求項４に記載の方法。
前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントの前記ランクに応じて前記チェーンフラグメントのリストはソートされる、
請求項４に記載の方法。
前記少なくとも二つのチェーンフラグメントを合わせるステップは、
チェーンフラグメントのリストにおけるより高いランクのチェーンフラグメントとより低いランクのチェーンフラグメントとの間の近接性の値を判断し、前記より高いランクのチェーンフラグメントは前記より低いランクのチェーンフラグメントより一ランク高い、複数のより高いランクのチェーンフラグメントのうちの一つであり、
近接性の値の重み付平均とより高いランクのチェーンフラグメントの信頼度とに基づいて前記より高いランクのチェーンフラグメントの点数を生成し、
前記点数に基づいて、前記チェーンフラグメントのリストのうちの前記複数のより高いランクのチェーンフラグメントから前記より低いランクのチェーンフラグメントに合わせる前記より高いランクのチェーンフラグメントを選択する、
請求項４に記載の方法。
電子文書（ＥＤ）を処理し、ＥＤのセクション見出しのシーケンスを推論するためのコンピューター読取可能なプログラムコードを記憶する非一時的なコンピューター読取可能な記憶媒体であって、前記コンピューター読取可能なプログラムコードはコンピューターに以下の機能を実行させる、
所定のセクション見出しパターンとＥＤの複数の文字との間の通常の表現のマッチングに基づいて、ＥＤの候補見出しのリストを生成し、
候補見出しのリストに基づいてセクション見出しのシーケンスの一部を推論するためのチェーンフラグメントのリストを生成し、
所定の基準に基づいて、チェーンフラグメントのリストにおける少なくとも二つのチェーンフラグメントを合わせてセクション見出しのシーケンスを生成する。
前記コンピューター読取可能なプログラムコードはコンピューターに以下の機能を実行させる、
ＥＤの複数の文字に関するスタイル属性が含まれる解析済みのＥＤを生成し、
スタイル属性の特有性の値に基づいて、候補見出しのリストのそれぞれの候補見出しの信頼度を判断する、
請求項８に記載のコンピューター読取可能な記憶媒体。
前記コンピューター読取可能なプログラムコードはコンピューターに以下の機能を実行させる、
候補見出しのリストのそれぞれの候補見出しの信頼度に基づいて、チェーンフラグメントのリストのそれぞれのチェーンフラグメントの信頼度を判断し、
所定の信頼度の閾値とそれぞれのチェーンフラグメントの信頼度とに基づいて、セクション見出しのシーケンスを推論するためにチェーンフラグメントのリストから少なくとも一つのチェーンフラグメントを除外する、
請求項９に記載のコンピューター読取可能な記憶媒体。
前記複数の候補見出しはそれぞれ前記所定のセクション見出しパターンに応じた一以上のシーケンス文字を有し、
前記チェーンフラグメントのリストを生成する機能は、シーケンス文字のネストレベルに基づいて候補見出しのリストのそれぞれの候補見出しのランクを判断することを含み、
前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントは、当該チェーンフラグメントのランクを定義する単一のランクを含む一以上の候補見出しを含む、
請求項８に記載のコンピューター読取可能な記憶媒体。
前記チェーンフラグメントのリストを生成する機能は、
前記候補見出しのリストをさかのぼって検討して、前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントについて先頭候補見出しを識別し、
前記先頭候補見出しから前記候補見出しのリストを先に進んで検討してそれぞれのチェーンフラグメントの残りの候補見出しを識別し、
前記先頭候補見出しは前記シーケンス文字の最も右の桁に先頭シーケンス文字を含む、
請求項１１に記載のコンピューター読取可能な記憶媒体。
前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントの前記ランクに応じて前記チェーンフラグメントのリストはソートされる、
請求項１１に記載のコンピューター読取可能な記憶媒体。
前記少なくとも二つのチェーンフラグメントを合わせる機能は、
チェーンフラグメントのリストにおけるより高いランクのチェーンフラグメントとより低いランクのチェーンフラグメントとの間の近接性の値を判断し、前記より高いランクのチェーンフラグメントは前記より低いランクのチェーンフラグメントより一ランク高い、複数のより高いランクのチェーンフラグメントのうちの一つであり、
近接性の値の重み付平均とより高いランクのチェーンフラグメントの信頼度とに基づいて前記より高いランクのチェーンフラグメントの点数を生成し、
前記点数に基づいて、前記チェーンフラグメントのリストのうちの前記複数のより高いランクのチェーンフラグメントから前記より低いランクのチェーンフラグメントに合わせる前記より高いランクのチェーンフラグメントを選択する、
請求項１１に記載のコンピューター読取可能な記憶媒体。
電子文書（ＥＤ）を処理し、ＥＤのセクション見出しのシーケンスを推論するシステムであって、前記システムは、
メモリーと、
メモリーと接続するコンピュータープロセッサーと、
を備え、
前記コンピュータープロセッサーは、以下の機能を実行する、
所定のセクション見出しパターンとＥＤの複数の文字との間の通常の表現のマッチングに基づいて、ＥＤの候補見出しのリストを生成し、
候補見出しのリストに基づいてセクション見出しのシーケンスの一部を推論するためのチェーンフラグメントのリストを生成し、
所定の基準に基づいて、チェーンフラグメントのリストにおける少なくとも二つのチェーンフラグメントを合わせてセクション見出しのシーケンスを生成する。
前記コンピュータープロセッサーは、
ＥＤの複数の文字に関するスタイル属性が含まれる解析済みのＥＤを生成し、
スタイル属性の特有性の値に基づいて、候補見出しのリストのそれぞれの候補見出しの信頼度を判断する、
請求項１５に記載のシステム。
前記コンピュータープロセッサーは、
候補見出しのリストのそれぞれの候補見出しの信頼度に基づいて、チェーンフラグメントのリストのそれぞれのチェーンフラグメントの信頼度を判断し、
所定の信頼度の閾値とそれぞれのチェーンフラグメントの信頼度とに基づいて、セクション見出しのシーケンスを推論するためにチェーンフラグメントのリストから少なくとも一つのチェーンフラグメントを除外する、
請求項１６に記載のシステム。
前記複数の候補見出しはそれぞれ前記所定のセクション見出しパターンに応じた一以上のシーケンス文字を有し、
前記チェーンフラグメントのリストを生成する機能は、シーケンス文字のネストレベルに基づいて候補見出しのリストのそれぞれの候補見出しのランクを判断することを含み、
前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントは、当該チェーンフラグメントのランクを定義する単一のランクを含む一以上の候補見出しを含む、
請求項１５に記載のシステム。
前記チェーンフラグメントのリストを生成する機能は、
前記候補見出しのリストをさかのぼって検討して、前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントについて先頭候補見出しを識別し、
前記先頭候補見出しから前記候補見出しのリストを先に進んで検討してそれぞれのチェーンフラグメントの残りの候補見出しを識別し、
前記先頭候補見出しは前記シーケンス文字の最も右の桁に先頭シーケンス文字を含む、
請求項１８に記載のシステム。
前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントの前記ランクに応じて前記チェーンフラグメントのリストはソートされる、
請求項１８に記載のシステム。
前記少なくとも二つのチェーンフラグメントを合わせる機能は、
チェーンフラグメントのリストにおけるより高いランクのチェーンフラグメントとより低いランクのチェーンフラグメントとの間の近接性の値を判断し、前記より高いランクのチェーンフラグメントは前記より低いランクのチェーンフラグメントより一ランク高い、複数のより高いランクのチェーンフラグメントのうちの一つであり、
近接性の値の重み付平均とより高いランクのチェーンフラグメントの信頼度とに基づいて前記より高いランクのチェーンフラグメントの点数を生成し、
前記点数に基づいて、前記チェーンフラグメントのリストのうちの前記複数のより高いランクのチェーンフラグメントから前記より低いランクのチェーンフラグメントに合わせる前記より高いランクのチェーンフラグメントを選択する、
請求項１８に記載のシステム。