JP5037965B2 - 目次判別目的類似度リンク計算の高速化 - Google Patents

目次判別目的類似度リンク計算の高速化 Download PDF

Info

Publication number
JP5037965B2
JP5037965B2 JP2007040132A JP2007040132A JP5037965B2 JP 5037965 B2 JP5037965 B2 JP 5037965B2 JP 2007040132 A JP2007040132 A JP 2007040132A JP 2007040132 A JP2007040132 A JP 2007040132A JP 5037965 B2 JP5037965 B2 JP 5037965B2
Authority
JP
Japan
Prior art keywords
text fragment
index
index text
contents
fragment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007040132A
Other languages
English (en)
Other versions
JP2007226797A (ja
Inventor
リュク モニエ ジャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JP2007226797A publication Critical patent/JP2007226797A/ja
Application granted granted Critical
Publication of JP5037965B2 publication Critical patent/JP5037965B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、情報格納技術及び情報処理技術、特にレガシー文書(在来文書)の目録、索引乃至目次となる文書をXML(extensible markup language)、SGML(standard generalized markup language)、HTML(hyper text markup language)等のマークアップ言語フォーマットで自動生成する技術等、種々の分野に関する。
文書からその目次を抽出する処理においては、通常、テキスト断片(text fragment)同士を比較する手法が用いられている。
しかしながら、この手法には、文書内における目次(table of contents;TOC)の位置が判明していない場合、テキスト断片同士の比較をN×(N−1)/2回行わねばならないという問題がある(N:文書に含まれるテキスト断片の個数)。このようにN2回オーダの比較計算が必要になる手法は、とりわけ文書規模が大きい場合に厄介で能力を消費するものとなる。例えば、テキスト断片を20000〜60000個含む文書についてこの手法を適用するとしたら、約2×108〜1.8×109回の比較が必要になる。
文書内における目次の位置が判明しているのであれば、比較の回数はN×T回まで減る。Nは本文テキスト断片の個数(〜文書内テキスト断片個数)、Tは目次内の索引テキスト断片の個数である。例えば文書内テキスト断片個数が20000〜60000個、目次内の索引テキスト断片の個数が100〜300個であれば、比較の回数は2×106〜18×106回ですむ。ただ、これはN2回オーダの比較計算回数に比べれば少数であるが、それでもまだ多すぎる。
ここに、本発明の一実施形態に係る文書内目次認識方法においては、索引テキスト断片序列体中葉に位置する起点索引テキスト断片に、本文テキスト断片序列体内から選んだ1個又は複数個のリンク先候補本文テキスト断片からなる起点リンク先候補集合を関連付け、起点索引テキスト断片より冒頭寄りにある冒頭側処理対象索引テキスト断片に、起点リンク先候補集合内最末尾本文テキスト断片より冒頭寄りにある1個又は複数個のリンク先候補本文テキスト断片の集合を関連付け、起点索引テキスト断片より末尾寄りにある末尾側処理対象索引テキスト断片に、起点リンク先候補集合内最冒頭本文テキスト断片より末尾寄りにある1個又は複数個のリンク先候補本文テキスト断片の集合を関連付ける。
また、本発明の一実施形態に係る文書内目次認識方法においては、(a)索引テキスト断片序列体中葉に位置する起点索引テキスト断片に、本文テキスト断片序列体内から選んだ1個又は複数個のリンク先候補本文テキスト断片からなる起点リンク先候補集合を関連付け、(b)索引テキスト断片序列体内索引テキスト断片のうち起点索引テキスト断片より冒頭寄りの索引テキスト断片の集合である冒頭寄り部分集合の中葉に位置することとなるよう、冒頭側処理対象索引テキスト断片を選択し、(c)索引テキスト断片序列体内索引テキスト断片のうち起点索引テキスト断片より末尾寄りの索引テキスト断片の集合である末尾寄り部分集合の中葉に位置することとなるよう、末尾側処理対象索引テキスト断片を選択し、(d)冒頭側処理対象索引テキスト断片に、起点リンク先候補集合内最末尾本文テキスト断片より冒頭寄りにある1個又は複数個のリンク先候補本文テキスト断片の集合を関連付け、(e)末尾側処理対象索引テキスト断片に、起点リンク先候補集合内最冒頭本文テキスト断片より末尾寄りにある1個又は複数個のリンク先候補本文テキスト断片の集合を関連付け、(f)それまでの冒頭側処理対象索引テキスト断片を起点索引テキスト断片として、冒頭寄り部分集合についてステップ(b)、(c)、(d)及び(e)における選択動作及び関連付け動作と同様の動作を実行し、(g)それまでの末尾側処理対象索引テキスト断片を起点索引テキスト断片として、末尾寄り部分集合についてステップ(b)、(c)、(d)及び(e)における選択動作及び関連付け動作と同様の動作を実行する。
本発明の一実施形態に係り、索引テキスト断片序列体及び本文テキスト断片序列体を含む文書中の目次を認識する方法においては、索引テキスト断片序列体内で冒頭側処理対象索引テキスト断片の末尾側にN個蝟集して連接している索引テキスト断片に係る最末尾リンク先候補本文テキスト断片に比べ、冒頭寄りにある1個又は複数個のリンク先候補本文テキスト断片を、その冒頭側処理対象索引テキスト断片に関連付け、索引テキスト断片序列体内で末尾側処理対象索引テキスト断片の冒頭側にM個蝟集して連接している索引テキスト断片に係る最冒頭リンク先候補本文テキスト断片に比べ、末尾寄りにある1個又は複数個のリンク先候補本文テキスト断片を、その末尾側処理対象索引テキスト断片に関連付け、それまでの冒頭側処理対象索引テキスト断片より冒頭寄りの索引テキスト断片を新たな冒頭側処理対象索引テキスト断片とし、それまでの末尾側処理対象索引テキスト断片より末尾寄りの索引テキスト断片を新たな末尾側処理対象索引テキスト断片とし、これら、冒頭側処理対象索引テキスト断片へのリンク先候補の関連付け、末尾側処理対象索引テキスト断片へのリンク先候補の関連付け、冒頭側処理対象索引テキスト断片の更新、並びに末尾側処理対象索引テキスト断片の更新を繰り返すことによって、索引テキスト断片に係る1個又は複数個のリンク先候補本文テキスト断片の集合を生成する。
テキスト断片同士の比較により目次を抽出する際には、通常、目次内項目であるかもしれない一組の索引テキスト断片(目次内項目候補)と、そのリンク先となるテキスト断片即ち章見出しやセクション見出し等の見出しであるかもしれない一組の本文テキスト断片(見出し候補)と、の対応関係を当該比較により求め両者を関連付ける。この関連付け乃至対応関係のことをリンクと呼ぶ。また、目次内項目候補及び見出し候補の文書内位置については、例えば文書内ポインタによって指し示すことができる。関連付けの要否については、フォントサイズ、フォントタイプ、フォントスタイル、大文字の有無、下線の有無等の様々な条件に従い決定することができる。
以下の説明では、テキスト断片同士がテキスト的にどの程度似通っているかを示す指標であるテキスト類似度(textual similarity)に基づき、テキスト断片同士を比較し、それによって文書から目次を抽出する実施形態を採り上げる。ご理解頂けるように、本発明の実施形態はそうした実施形態に限られるわけではなく、本発明の実施に当たり採用できるテキスト断片比較手法は様々である。例えば、テキスト類似度、フォントサイズ、フォントタイプ、フォントスタイル、大文字の有無、下線の有無等の条件や、それらの任意の組合せによる条件に従い、テキスト断片同士を比較する手法を採ることができる。
図1中の処理対象文書8は非構造化文書(unstructured document)である。例えば、ワードプロセッサやスプレッドシート等のアプリケーションソフトウェアを使用して作成した文書や、紙等の原稿を光学スキャンして得た文書等、様々な手段によって得た文書を処理対象文書8とすることができる。また、同図中の目次領域10は、ユーザインタフェース9を介しユーザが指定する、同図の装置が自動的に認識する等のやり方によって定められた文書8内の領域である。領域10の自動認識に使用できるやり方としては、例えば、何個かのエリプシス(“…”)が連なった後にページ番号が付されているテキスト断片をサーチする、文字の羅列の冒頭又は末尾に数字が付されている行を探す、文書8の作成に使用したワードプロセッサ等のアプリケーションソフトウェアによって文書8内の領域10を自動認識させる、等々がある。テキストフラグメンタ(text fragmenter)12は、文書8を索引テキスト断片序列体14と本文テキスト断片序列体16とに分解する。テキスト断片序列体とは複数個のテキスト断片をその順序通りに並べたものをいい、なかでも(i)序列体14は索引テキスト断片を並べたもの、(ii)序列体16は本文テキスト断片を並べたものである。索引テキスト断片とは文書8内の領域10から抽出したテキスト断片を、また本文テキスト断片とは文書8内の1個又は複数個の領域(但し領域10以外或いは序列体14以外)から抽出したテキスト断片を、それぞれ指している。通常、文書8は文字列リストとしてロードされる。文書8たる文字列リストは、例えばAdobe(登録商標)PDF、Word(商標)、FrameMaker(登録商標)等のフォーマットで入力された文書を、市販の文書コンバータを用いテキスト、XML等のフォーマットに変換することによって得たものである。また、紙文書を光学スキャナによりスキャンし、更にOCR(optical character recognition)により処理することによっても、文書8たる文字列リストを好適にロードすることができる。文書8がテキスト文書なら、例えばそのテキスト文書を構成している行を単位としてテキスト断片が抽出され、行の順序と同じ順序で並べられることとなろう。また、文書8がXML文書やHTML文書なら、例えばPCDATAを単位としてテキスト断片が抽出されることとなろう。
テキスト断片を順序通りに並べる方法は種々あるが、文書内順序乃至ページ内テキスト断片位置を利用するのがよいであろう。例えば文字が横書きで各行が左から始まる文書なら、下の行より上の行を優先し同じ行内ではより左寄りにある語を優先する上下方向優先左端開始法(depth-first left-to-right traversal)を用いるとよい。また、XMLノードとテキスト断片との関係を示す情報を保持しておき、目次内項目であることが判明したテキスト断片からそれに対応するXMLノードへの後方参照関係を、処理終了時にマッピングすることができるようにしてもよい。更に、テキストフラグメンタ12による断片化の単位は、行、ブロック、同一行内連接語群等、様々に設定することができる。場合によっては、単一の語が複数個のテキスト断片に分かれることもある。例えば、タイトルの冒頭語の冒頭文字の体裁が後続文字の体裁と異なる場合である。
テキストフラグメンタ12から得られる索引テキスト断片序列体14及び本文テキスト断片序列体16は、テキスト類似度性リンクアイデンティファイア(textual similarity link identifier)20によって処理され、それによりリンク候補22が認識される。各候補22は、テキスト的に類似している一対のテキスト断片、即ち索引テキスト断片序列体14を構成する索引テキスト断片のうち一つと本文テキスト断片序列体16を構成する本文テキスト断片のうち一つとの対によって、形成される。そのテキスト断片対が候補22を形成する対であるかどうかを判別する手法は幾つかあるが、概ねどの手法でも、索引テキスト断片の個数がT個で本文テキスト断片の個数がN個ならT×N回のテキスト断片比較が必要になる。これに対して、本実施形態においては、後述の通り、序列体16のうちどの部分列をサーチ対象とすべきかをサーチ範囲セレクタ24によって認識し、その結果に基づきアイデンティファイア20によるサーチ対象を制限しているため、テキスト断片比較回数がT×N回よりかなり少なくなることが多い。
テキスト断片比較に当たっては、しばしばテキスト中に混入するノイズの影響を考慮して処理を行うことも求められる。ノイズ発生原因としては、文書変換や目次構成上の問題等、様々な原因を挙げることができる。例えば、PDFからテキストへのフォーマット変換時に変換誤りが生じると、その変換誤りはノイズとなる。また、目次構成上の問題に起因するノイズとしては、例えば、目次内に登場するが本文には登場しないページ番号によって発生するノイズや、目次内でセクションタイトルとページ番号とをつなぐのに使用されている記号(例えばエリプシス“………”)により発生するノイズがある。また、リンク候補22をなす対かどうかを判断するため本実施形態ではテキスト類似度を求めているが、その際には、例えば、テキスト断片間をセパレータで区切って複数個のトークンの集合に変換する。例えば各テキスト断片が英文字からなる文字列である場合、セパレータとしては英文字でないもの、例えばタブ、スペース、句読点等を用いればよい。更に、テキスト類似度を測ることができる指標としては、Jaccard係数や編集距離(edit distance)等、種々の指標がある。Jaccard係数は、索引テキスト断片から導出したトークン集合と、本文テキスト断片から導出したトークン集合とに基づき、それら二種類のトークン集合の積集合即ち交わり部分の基数(cardinal)と、当該二種類のトークン集合の和集合即ち合併集合の基数とを求め、積集合の基数を和集合の基数により除することによって、求めることができる。求めたJaccard係数が所定のマッチングしきい値を上回っているなら、それらテキスト断片同士をリンクさせる。また、編集距離を用いる場合は、編集距離の上限を以て編集距離しきい値とする。ある2個のテキスト断片間の編集距離が編集距離しきい値より小さければ、テキスト的に類似していると判断してそれらテキスト断片同士をリンクさせる。これらの他にも、テキスト類似度を測るのに適しリンク選択条件を定めるのに使用できる条件は幾つかある。
テキスト断片同士の組合せは例えば(i,j)と表すことができる。iは索引テキスト断片序列体14に含まれる索引テキスト断片の番号、jは本文テキスト断片序列体16に含まれる本文テキスト断片の番号である。本実施形態では、あるテキスト断片対(i,j)がしきい値条件等のリンク選択条件を満足しているなら、そのテキスト断片対(i,j)について、リンク候補22を形成する対の一つであるとの判断を下す。また、リンク選択条件を満たした(例えばそのJaccard係数がしきい値を上回っている)テキスト断片対(i,j)即ち候補22には、テキスト類似度で表したリンク強度を示す指標値、例えばJaccard係数の値を関連付ける。なお、本実施形態ではJaccard係数等のテキスト類似度を用いて候補22を認識するようにしているが、フォントサイズ、フォントスタイル、フォント特性、大文字の有無、下線の有無等を用いて候補22を認識する手法や、それらの任意の組合せにより候補22を認識する手法や、更にはそれらとテキスト類似度との任意の組合せにより候補22を認識する手法等によって、本発明を実施することもできる。
図2に、目次領域10における目次110の位置関係の例を示す。この図に示す目次110は、領域10の一部分だけを占めるに過ぎず、領域10の全体に亘っているわけではない。但し、目次が目次領域全体に拡がるケースもある。目次内項目と、そのリンク先本文テキスト断片例えばセクション見出し、章見出し等と、の間のリンクを弁別、認識するに当たっては、概略、次に述べる四種類の一般的条件を使用する。そのうち第1の条件は蝟集性条件(contiguity)である。蝟集性条件は、目次内テキスト断片は領域10内で蝟集し序列体を形成しているはずであり、従って領域10内テキスト断片蝟集序列体又はその部分列が目次になるはずである、という事実を利用した判断基準である。蝟集序列体とは蝟集体であって序列体でもあるもののことをいい、蝟集体とは蝟集している複数個のテキスト断片の集合のことをいい、序列体とはその順序通りに並んでいる複数個のテキスト断片の集合のことをいい、部分列(部分序列体)とは序列体に含まれる一連なりのテキスト断片のことをいい、蝟集とは複数個のテキスト断片が1箇所に寄り集まることをいう。蝟集性条件を満たす蝟集序列体又はその部分序列体内のテキスト断片は、大抵は目次内項目112である。また、項目112ならばその文書8内で目次110より後に位置する別のテキスト断片に何れかのリンクによってリンクしているはずである。図中の矢印付曲線114は目次110内に発するリンクを表している。目次110内の項目112に発し対応するリンク先テキスト断片に至っているリンク114の集合は、テキスト類似度性リンクアイデンティファイア20によって算出された候補22の集合の部分集合となる。候補22の集合の中にリンク114でないものが多数含まれることも多い。
更に、目次110内テキスト断片の多くは目次内項目112であるが、なかには袋小路(hole)になっているものもある。袋小路とは、図中の116のように、文書8中の他の部分にリンク114を介してリンクしていないテキスト断片のことである。袋小路116になるテキスト断片は比較的少数であり、通常は、項目112に対する袋小路116の個数比率は0.2未満である。こうした袋小路116については、その許容最大個数をユーザがパラメータとして設定できるようにしてもよい。
第2の目次認識条件はテキスト類似度条件(textual similarity)である。テキスト類似度条件とは、各目次内項目112を他のテキスト断片例えば見出しにリンクさせるには、その項目112とその項目112にリンクさせたいテキスト断片とが、テキスト的に十分類似していなければならない、という条件である。前述のJaccard係数等は、テキスト類似度性リンクアイデンティファイア20により好適に計測できテキスト類似度指標値として至便に使用できるものである。また、項目112のリンク先本文テキスト断片の性質は、その目次110の性質乃至構成によって変わる。例えば目次110が通常の構成ならセクション見出しが、また文書内の図のリスト(図一覧表)なら図に付された表題等が、或いは表のリスト(表一覧表)なら表に付された表題等が、それぞれリンク先になる。なお、通常、表題は対応する図や表の下側等に付されている。
第3の目次認識条件は順序条件(ordering)である。順序条件とは、目次内項目112の順序と、それら項目112のリンク先本文テキスト断片の順序とが、同順でなければならない、という条件である。例えば、一組の目次内項目{i1,i2,i3,…}を一組のリンク{(i1,j1),(i2,j2),(i3,j3),…}を介し一組の本文テキスト断片{j1,j2,j3,…}にリンクさせる場合、テキスト断片蝟集体における項目登場順序i1,i2,i3,…と同じ順序j1,j2,j3,…でリンク先本文テキスト断片が登場する、という関係が成り立っていなければならない。
第4の目次認識条件は自己参照忌避条件(lack of self-reference)である。自己参照忌避条件とは、各リンク114のリンク元テキスト断片とリンク先テキスト断片とが同じ目次110内のテキスト断片であってはならない、という条件である。自己参照忌避条件を満たすには、目次領域10から抽出された索引テキスト断片序列体14から選択する目次内項目112の集合{i1,i2,i3,…}と、同じ文書8内にあり領域10とは別の1個又は複数個の領域から抽出された本文テキスト断片序列体16から選択する対応するリンク先本文テキスト断片の集合{j1,j2,j3,…}との間に、交わり部分が生じないようにすると共に、リンク先本文テキスト断片集合{j1,j2,j3,…}に目次110内袋小路116に対応するテキスト断片が含まれないようにすればよい。
また、図1に示されている目次領域10は、例えばユーザ入力によって、或いは処理対象文書8を生成したアプリケーションプログラムによる目次領域自動認識処理の結果として、アプリオリに与えられるものである。目次が領域10全体に拡がっており領域10全体が目次で埋め尽くされていると見なしてよい場合は、アプリオリに与えられる領域10によって目次位置が厳密に決まる。これに対して、アプリオリに与えられる領域10に比べて目次の拡がりが狭い場合は、領域10内目次位置を精密に判別する必要がある。例えば、文書8をスキャンによって取り込み、目次記載ページ(群)をユーザが指定し、ユーザ指定ページ(群)を領域10として扱う使用形態では、ユーザ指定ページ(群)全体が目次であることは少なく、実際にはその一部だけが目次であるのが普通である。
目次領域10内目次を認識する際には、例えば、蝟集性条件、テキスト類似度条件、順序条件及び自己参照忌避条件に従い目次選択を行う。目次選択に当たってはまずは目次候補選択を行う。目次候補選択を行うのは目次候補セレクタ30であり、これによって領域10から1個又は複数個の目次候補が選択される。目次候補選択に当たっては、例えば、索引テキスト断片序列体14内索引テキスト断片個数をT、期待目次長最小値をΔとし、ある種の命題をT−Δ回検証する。即ち、索引テキスト断片のうちT−Δ個を目次筆頭項目候補とし、各目次筆頭項目候補について、命題「この索引テキスト断片から目次が始まっている可能性があるか?」の成否を検証し、成り立つ場合はその目次筆頭項目候補に続くテキスト断片を可能な限りその目次候補に入れることでその目次候補の規模を拡張していく。目次候補規模拡張は、新たなテキスト断片を追加すると順序条件が成り立たなくなるようになるまで続ける。例えば、最近その目次候補に追加した索引テキスト断片のリンク先候補がj=15の本文テキスト断片及びj=33の本文テキスト断片であるとする。また、その次の索引テキスト断片のリンク先候補がj=20の本文テキスト断片だけであるとする。この場合、いま調べている索引テキスト断片のリンク先候補(j=20)は先に追加した索引テキスト断片のリンク先(j=15)より後であるので、いま調べている索引テキスト断片をその目次候補に追加する。これに対して、いま調べている索引テキスト断片のリンク先候補がj=12の本文テキスト断片だけなら、いま調べている索引テキスト断片をその目次候補に追加すると順序条件が成り立たなくなるので、その索引テキスト断片をその目次候補に追加しない。但し、順序条件を若干緩和し、目次候補内に数個の袋小路116が残りうるようにした方が、有益でもある。そうするには、例えば、どのリンク候補22にも関連付けられていないテキスト断片を所定個数まで許容し、またリンク交差(link-crossing)のあるテキスト断片(関連する候補22全部がその目次候補内で順序条件を満たしていないテキスト断片)を所定個数まで許容するようにすればよい。そうした若干のリンク交差を許容することが有益に働くのは、例えば、現在選定中の目次候補内でそのテキスト断片より前に登場しているテキスト断片が、その文書内でかなり前方に位置しているテキスト断片だけにリンクしている場合等である。
各目次候補を調べるこの処理は、T−Δ個の目次筆頭項目候補それぞれについて、従ってT−Δ回繰り返して実行する。その結果として得られるのは、それぞれ索引テキスト断片序列体14の部分序列体となっている1個又は複数個の目次候補の集合である。それらの目次候補は、確実に順序条件に従うように(或いは更に袋小路116を所定個数まで許容しつつ)構築されているので、当然、各目次候補内の目次内項目候補それぞれに対応する何個かのリンク候補22の中から、順序条件を満足する候補22を目次内項目候補毎に1個は、選択することができる。また、目次候補セレクタ30にて篩い落とし条件(filtering)を適用し、明らかに目次でない目次候補を除外するようにしてもよい。例えば、ある目次候補内のテキスト断片個数が期待目次長最小値Δを下回っている場合、その目次候補は無視するのが適当であろう。
目次セレクタ34は、こうして選定された目次候補にランク付けし、最高ランクの目次候補を選択する。リンクオプティマイザ38は、その最高ランク目次候補に係るリンク候補22を最適化することによって、最終的な目次110を生成する。この場合、セレクタ34が目次候補にランク付けするため実行する処理の計算量は比較的少なく、選択された目次候補に対しオプティマイザ38が施す処理はより徹底した計算を伴う。本願出願人の知見によれば、このやり方は、目次110を正確に抽出できるという点でも上首尾な手法である。また、各目次候補にリンク最適化を施し、リンク最適化後の一群の目次候補をランク付けする、というやり方も、計算量が多くなるが採用に値するやり方である。
図1に基づき更に説明すると、目次セレクタ34では、スコアリング関数を使用して各目次候補にランク付けし、その中で最高ランクの目次候補を目次110として選択して、後の処理に供する。セレクタ34にてスコアリング関数として使用できる量としては、項目荷重総和、項目総数、文書内見出し分布拡がり率等、種々の量がある。それらのうち項目荷重総和は、各目次内項目候補に関連付けられているリンク候補22の個数に反比例するよう項目荷重を定め、定めた項目荷重をその目次候補内で総和することによって得られる。一般に、ある索引テキスト断片に発する候補22がその目次候補における“真正な”リンク114である確率は、同じ索引テキスト断片に発する候補22の個数が多ければ多い程低くなるので、項目荷重によって各候補22の確からしさを評価することができる。また、スコアリング関数として使用でき熟考に値する量としては、更にその目次候補内の項目総数がある。順序条件及び自己参照忌避条件を満足するテキスト断片が数多く蝟集していることが判明している“長大な”目次候補は、それより“短小な”目次候補に比べより“真正な”可能性が高いものであるといえる。もう一つ、スコアリング関数として熟考に値する量としては、処理対象文書8全体に対する見出し分布範囲の割合、即ち文書内見出し分布拡がり率がある。例えば、ある同じ目次候補内からのリンク先本文テキスト断片の文書8内分布が比較的狭い場合、その目次候補がその文書8の“真正な”目次110である確率は低い。なお、以上の量はスコアリング関数の例に過ぎず、従ってこれら以外のスコアリング関数を使用することも、また何種類かのスコアリング関数を組み合わせて使用することも可能である。
最高ランクが付された目次候補に対しては、最終的な目次110を得るべく、リンクオプティマイザ38が適用される。オプティマイザ38は、その最高ランク目次候補に係るリンク候補22について大局的に最適な解を導出することによって、その目次に係る候補22の中で最良の候補22を目次内項目112毎に選択し、それによって最終的な目次110を構築する。最良リンク候補選択に当たっては、目次認識に使用した蝟集性条件、テキスト類似度条件、順序条件及び自己参照忌避条件の四条件が引き続き満足されるようにする。更に、最良リンク候補選択の手法としては、例えばマッチングの度合いに比例する荷重を各候補22に割り当てそれを利用して最適な候補22を選択する、Viterbiの最短パスアルゴリズム(Viterbi shortest path algorithm)を用いて最適な候補22を選択する等、種々のアルゴリズムを使用できる。
目次が目次領域10の(ほぼ)全体に拡がっていると見なしてよい場合は、目次候補セレクタ30及び目次セレクタ34の適用を省略し、領域10から抽出された索引テキスト断片序列体14の全体を目次と見なしてリンクオプティマイザ38を適用することができる。領域10の拡がりと実際の目次の拡がりとの間に僅かに食い違いが生じることもありうるが、そうした食い違いは目次内袋小路として問題なく吸収することができる。例えば、目次であることを示す見出しが領域10の先頭に付されているために生じる食い違いや、ページ番号又はページ見出しを表すテキスト断片が領域10に含まれているため生じる食い違いである。
こうして認識した目次110は種々の処理に使用できる。例えば、各目次内項目112のリンク先セクション見出し毎に処理対象文書8が分割され、それによってその文書8が構造化文書(structured document)に変換されるように、文書オーガナイザ120による構造化に目次110を利用することができる。また、目次110を用いて文書8を自動的に構造化する場合は、通常、順序条件を厳密に適用した方が有利である。これは、構造化文書フォーマット時に交差リンクがエラーを引き起こすからである。また、ここに述べた例はとりわけテキストセクションの索引となる目次110を認識する例であるが、順に図、表、式等の索引である図一覧表、表一覧表、式一覧表等を生成して目次110とする際にも、同様の処理を適用して類似した効果を得ることができる。
また、T個の索引テキスト断片及びN個の本文テキスト断片全てを対象としてテキスト類似度性リンクアイデンティファイア20にテキスト断片比較を行わせると、所要比較回数がほぼT×N回にもなってしまう。これは、例えば数万個の本文テキスト断片を含む文書8の目次領域10に十数個〜数千個のテキスト断片が含まれていると、テキスト断片比較所要回数T×Nが当然の如くに数百万、数千万或いはそれ以上にもなってしまう、ということである。しかも、テキスト断片比較に際して行う必要がある計算、例えばJaccard係数等の比較指標の計算は、かなり計算能力を要する計算となるのが普通である。本実施形態でサーチ範囲セレクタ24を用いる目的は、本文テキスト断片序列体16のうちのある部分序列体へとサーチ対象を絞り込むことによって、テキスト断片比較所要回数をT×N回より少ない回数に抑えることにある。これによって、通常、当該回数をT×N回よりもかなり少ない回数にすることができる。
図3に、図1に示した装置にて処理される文書8の例208を示す。この図の文書208は索引テキスト断片序列体214及び本文テキスト断片序列体216から構成されており、序列体214は順に7個の索引テキスト断片{Ftoc,1},…,{Ftoc,7}を、また序列体216は順に本文テキスト断片{Fb,1},{Fb,2},{Fb,3},…を、それぞれ含んでいる。サーチ範囲セレクタ24及びテキスト類似度性リンクアイデンティファイア20は、協働乃至分業して、前者のリンク先候補を後者から選択するリンク先候補認識処理を実行する。その際には、まず、序列体214中葉に位置する索引テキスト断片{Ftoc,4}を起点として選択し、アイデンティファイア20が起点{Ftoc,4}のリンク先候補として見つけ出した本文テキスト断片{Fb,8},{Fb,10},{Fb,13}を起点{Ftoc,4}に関連付ける。起点{Ftoc,4}についてリンク先候補認識処理を実行する際には、序列体216全体をサーチ範囲とするのが望ましい。結果として得られるリンク先候補本文テキスト断片{Fb,8},{Fb,10},{Fb,13}の集合中、最冒頭の即ち最も順序が早い本文テキスト断片は{Fb,8}、最末尾の即ち最も順序が遅い本文テキスト断片は{Fb,13}である。従って、起点{Ftoc,4}に対するリンク先候補最小順序dminは8、リンク先候補最大順序dmaxは13となる。セレクタ24は、起点{Ftoc,4}のリンク先候補の最小順序dmin及び最大順序dmaxに基づきサーチ範囲を制限した上で、別の索引テキスト断片のリンク先候補本文テキスト断片をサーチし見つかったリンク先候補をその索引テキスト断片に関連付ける処理を、実行させる。
図4中、索引テキスト断片{Ftoc,2}は起点索引テキスト断片{Ftoc,4}より冒頭寄りにある。次はこの冒頭側処理対象索引テキスト断片{Ftoc,2}のリンク先候補本文テキスト断片をサーチし、見つけ出した何個かのリンク先候補本文テキスト断片の集合を冒頭側処理対象{Ftoc,2}に関連付ける。このサーチに当たっては、サーチ範囲セレクタ24が、起点{Ftoc,4}のリンク先候補の最大順序dmax及び順序条件に基づき、冒頭側処理対象{Ftoc,2}についてのリンク先候補サーチ範囲を制限する。例えば、序列体216内で最冒頭に位置する第1本文テキスト断片{Fb,1}から第dmax−1=第12本文テキスト断片{Fb,12}に至る範囲{Fb,1},…,{Fb,12}に制限する。ここで第dmax−1までをリンク先候補サーチ範囲とするのは、起点{Ftoc,4}との関係で冒頭側処理対象{Ftoc,2}が順序条件を満たすようにするためである。即ち、冒頭側処理対象{Ftoc,2}は目次内で起点{Ftoc,4}より冒頭寄りにあるのであるから、仮にdmax番目又はそれより末尾寄りの本文テキスト断片に冒頭側処理対象{Ftoc,2}がリンクしていると、順序条件違背となってしまう。サーチ範囲制限は、比較回数抑制だけでなく冒頭側の順序条件違背を回避する役にも立つ。
同様に、図5中、索引テキスト断片{Ftoc,6}は起点索引テキスト断片{Ftoc,4}より末尾寄りにある。次は、冒頭側処理対象索引テキスト断片{Ftoc,2}についてのリンク先候補サーチと並行して又は相前後して、この末尾側処理対象索引テキスト断片{Ftoc,6}のリンク先候補本文テキスト断片をサーチし、見つけ出した何個かのリンク先候補本文テキスト断片の集合を末尾側処理対象{Ftoc,6}に関連付ける。このサーチに当たっては、サーチ範囲セレクタ24が、起点{Ftoc,4}のリンク先候補の最小順序dmin及び順序条件に基づき、末尾側処理対象{Ftoc,6}についてのリンク先候補サーチ範囲を制限する。例えば、第dmin+1本文テキスト断片{Fb,9}から最末尾本文テキスト断片に至る範囲{Fb,9},…に制限する。ここで第dmin+1からをリンク先候補サーチ範囲とするのは、起点{Ftoc,4}との関係で末尾側処理対象{Ftoc,6}が順序条件を満たすようにするためである。即ち、末尾側処理対象{Ftoc,6}は目次内で起点{Ftoc,4}よりも末尾寄りにあるのであるから、仮に第dmin又はそれより冒頭寄りの本文テキスト断片に末尾側処理対象{Ftoc,6}がリンクしていると、順序条件違背となってしまう。サーチ範囲制限は、比較回数抑制だけでなく末尾側の順序条件違背を回避する役にも立つ。
図6に示すように、索引テキスト断片序列体が図3〜図5に示したものより多数の索引テキスト断片を含む大きな序列体である場合は、以上の処理を複数回繰り返して行うとよい。この図に示した索引テキスト断片序列体314は17個の索引テキスト断片{Ftoc,1},…,{Ftoc,17}を含んでおり、0巡目及び1巡目を含む複数巡のリンク先候補認識処理の対象とされる。そのうち0巡目処理においては、まず、序列体314中葉にある索引テキスト断片例えば{Ftoc,9}を0巡目起点索引テキスト断片i(0)として選択し(i(0)等の()内の数字は何巡目かを示す;以下同様)、起点i(0)のリンク先候補本文テキスト断片をサーチし、見つかった何個かのリンク先候補(図示せず)を起点i(0)に関連付け、それらリンク先候補における最小順序dmin及び最大順序dmaxを求める。次いで、最冒頭索引テキスト断片{Ftoc,1}と起点i(0)の中間にある索引テキスト断片例えば{Ftoc,4}を0巡目冒頭側処理対象索引テキスト断片L(0)として選択し、最冒頭本文テキスト断片{Fb,1}から第dmax−1本文テキスト断片に至る部分序列体をサーチ範囲として冒頭側処理対象L(0)のリンク先候補本文テキスト断片をサーチし、見つかった何個かのリンク先候補(図示せず)を冒頭側処理対象L(0)に関連付ける。サーチ範囲を制限するのは、仮に冒頭側処理対象L(0)が起点i(0)のリンク先候補より末尾寄りの本文テキスト断片とリンクしていると、順序条件に違背してしまうからである。同様に、冒頭側処理対象L(0)についての処理と並行して又は相前後して、起点i(0)と最末尾索引テキスト断片{Ftoc,17}の中間にある索引テキスト断片例えば{Ftoc,14}を0巡目末尾側処理対象索引テキスト断片H(0)として選択し、第dmin+1本文テキスト断片から最末尾本文テキスト断片に至る部分序列体をサーチ範囲として末尾側処理対象H(0)のリンク先候補本文テキスト断片をサーチし、見つかった何個かのリンク先候補(図示せず)を末尾側処理対象H(0)に関連付ける。サーチ範囲を制限するのは、仮に末尾側処理対象H(0)が起点i(0)のリンク先候補より冒頭寄りの本文テキスト断片とリンクしていると、順序条件に違背してしまうからである。
図6に示す例では、続いて、索引テキスト断片序列体314内索引テキスト断片のうち0巡目起点索引テキスト断片i(0)より順序が早い索引テキスト断片の集合即ち冒頭寄り部分集合と、同じ起点i(0)より順序が遅い索引テキスト断片の集合即ち末尾寄り部分集合とを定めて、同様の処理を繰り返す。即ち、1巡目においては、冒頭寄り部分集合と末尾寄り部分集合とを別個に処理する。その際、冒頭寄り部分集合については、最冒頭索引テキスト断片{Ftoc,1}と0巡目起点i(0)のほぼ中間に位置しており従って冒頭寄り部分集合の中葉にある索引テキスト断片例えば{Ftoc,4}を、1巡目起点索引テキスト断片iL(1)として選択し、また、末尾寄り部分集合については、0巡目起点i(0)と最末尾索引テキスト断片{Ftoc,17}のほぼ中間に位置しており従って末尾寄り部分集合の中葉にある索引テキスト断片例えば{Ftoc,14}を、1巡目起点索引テキスト断片iH(1)として選択する。
冒頭寄り部分集合について1巡目処理を実行する際には、冒頭寄り部分集合冒頭索引テキスト断片{Ftoc,1}と、冒頭寄り部分集合についての1巡目起点索引テキスト断片iL(1)と、の中間に位置する索引テキスト断片例えば{Ftoc,2}を1巡目冒頭側処理対象索引テキスト断片LL(1)とし、また、同じ起点iL(1)と、冒頭寄り部分集合末尾索引テキスト断片{Ftoc,8}と、の中間に位置する索引テキスト断片例えば{Ftoc,6}を1巡目末尾側処理対象索引テキスト断片HL(1)とする。更に、1巡目起点iL(1)についてリンク先候補最小順序dmin及び最大順序dmaxを求め、それらを用いリンク先候補サーチ範囲を定める。そして、こうして制限されたサーチ範囲内で冒頭側処理対象LL(1)及び末尾側処理対象HL(1)のリンク先候補本文テキスト断片をサーチし、見つけたリンク先候補を対応する処理対象に関連付ける。
同様に、末尾寄り部分集合について1巡目処理を実行する際には、末尾寄り部分集合冒頭索引テキスト断片{Ftoc,10}と、末尾寄り部分集合についての1巡目起点索引テキスト断片iH(1)と、の中間に位置する索引テキスト断片例えば{Ftoc,12}を1巡目冒頭側処理対象索引テキスト断片LH(1)とし、また、同じ起点iH(1)と、末尾寄り部分集合末尾索引テキスト断片{Ftoc,17}と、の中間に位置する索引テキスト断片例えば{Ftoc,16}を、1巡目末尾側処理対象索引テキスト断片HH(1)とする。更に、1巡目起点iH(1)についてリンク先候補最小順序dmin及び最大順序dmaxを求め、それらを用いリンク先候補サーチ範囲を定める。そして、こうして制限されたサーチ範囲内で冒頭側処理対象LH(1)及び末尾側処理対象HH(1)のリンク先候補本文テキスト断片をサーチし、見つけたリンク先候補を対応する処理対象に関連付ける。なお、一般に、以上述べた処理と同様の処理(2巡目等々の処理)を繰り返す場合もある。即ち図6に示す例であれば、図示しないが、冒頭寄り部分集合を更に冒頭寄り部分集合と末尾寄り部分集合とに分割し、末尾寄り部分集合も更に冒頭寄り部分集合と末尾寄り部分集合とに分割して、それら部分集合について同様の処理を繰り返すようにするとよい。
また、図3〜図6においては、それぞれ単一の索引テキスト断片を以て起点索引テキスト断片、冒頭側処理対象索引テキスト断片及び末尾側処理対象索引テキスト断片としているが、目次中に袋小路が含まれている場合、その袋小路が起点、冒頭側処理対象又は末尾側処理対象として選択されてしまう可能性があり、選択されてしまうとそれに対応するリンク先候補本文テキスト断片は見つけられなくなる。こうした状況にうまく対処するには、例えば索引テキスト断片序列体中葉に蝟集している複数個の索引テキスト断片を以て起点索引テキスト断片とし、各起点のリンク先候補本文テキスト断片を本文テキスト断片序列体から見つけ出し、見つけ出した何個かのリンク先候補をその起点に関連付けると共に、同じく索引テキスト断片序列体中で蝟集している複数個の索引テキスト断片を以て冒頭側処理対象索引テキスト断片とし、索引テキスト断片序列体中で蝟集している複数個の索引テキスト断片を以て末尾側処理対象索引テキスト断片とするとよい。起点個数、冒頭側処理対象個数及び末尾側処理対象個数が袋小路最大許容蝟集個数より多ければ、リンク先候補最小順序dmin及び最大順序dmaxを必ず定めることができるので、図3〜図6に示した複数巡構成のリンク先候補認識処理は目次内袋小路に対してロバストになる。
図3〜図6に示した手法によれば、テキスト断片比較回数を減らし処理時間を短縮することができる。例えば、261個の目次内索引テキスト断片及び55238個の本文テキスト断片を含む1300ページの文書8を、サーチ範囲セレクタ24を用いずに処理してみたところ、テキスト断片比較回数がN×T=261×55238=14417118回にもなり、テキスト類似度性リンクアイデンティファイア20にてこれを実行するのに170秒もの処理時間が必要であった。これに対し、同じ文書8をセレクタ24を用いて処理してみたところ、テキスト断片比較回数が8414288回まで減り、アイデンティファイア20にてこれを実行するのに110秒で足りた。これは処理速度にして40%の上昇である。また、他の処理も含めた総処理時間も260秒から155秒へと減り、処理速度にして40%上昇していることからすれば、目次候補セレクタ30、目次セレクタ34及びリンクオプティマイザ38による処理も、リンク候補総数低減の恩恵を受けているといえよう。
また、場合によっては、目次が目次領域10に比べかなり小さいことがある。即ち、領域10のうちの目次前部分、目次後部分又はその双方に、多数の非目次テキスト断片が存在していることがある。この状況に対しては、目次セレクタ30にて領域10内目次を認識することで少なくとも部分的に対処できるが、領域10内の目次前部分や目次後部分に含まれるテキスト断片に係るリンクが順序条件に従うとは限らないので、そうしたテキスト断片の存在はまた別の問題を生む原因となりかねない。従って、領域10内目次前部分及び目次後部分にかなりの個数の非目次テキスト断片が存在している場合には、リンク先候補認識処理の深さを例えば最大3巡に制限することによって、対処する方がよい。0巡目から2巡目までの3巡に制限する場合、領域10は、0巡目ではひとまとまりで、1巡目では2個の部分に分けて、2巡目では4個の部分に分けて、それぞれ処理されるので、処理時における領域10の分割数は最大4個になる。最大四分割に留まるので、領域10内最冒頭部分である第1略四半部や領域10内最末尾部分である第4略四半部、更にはその構成部分に属するテキスト断片について、そのリンク先候補の最小順序dminや最大順序dmaxが計算されることがない。そのため、こうしたやり方を採れば、領域10内目次外部分が領域10全体の約1/4又はそれ未満に留まる場合に、ロバスト性が向上する。但し、リンク先候補認識処理の深さを制限するとその分処理速度向上効果が損なわれる。例えば、先に例示した1300ページの文書であれば、処理の深さを3巡に制限すると速度向上幅が40%から20%に狭まる。
図7に、目次領域10のうち本物の目次外に位置する目次外部分に余分なテキスト断片が存在しているとき、それに抗してロバスト性を向上させる手法について、また別の例を示す。この図に示した索引テキスト断片序列体314は図6に示したものと同じもの、即ち17個の索引テキスト断片{Ftoc,1},…,{Ftoc,17}を含むものである。この図の序列体314に対し本例に係るロバスト性向上手法を適用する際には、図6に示した例と同様、まずは領域10中葉に位置する索引テキスト断片を0巡目起点索引テキスト断片i(0)として選択し、0巡目起点i(0)に対し何個かの本文テキスト断片をリンク先候補として関連付け、そしてそれらリンク先候補における最小順序dmin及び最大順序dmaxを導出する。なお、この例においても、袋小路最大許容蝟集個数より多くの索引テキスト断片を含む索引テキスト断片蝟集体を以て起点とすることによって、目次内袋小路に対するロバスト性を向上できる(後の巡でも同様)。
但し、この図に示すやり方では、0巡目冒頭側処理対象索引テキスト断片L(0)及び末尾側処理対象索引テキスト断片H(0)の選び方が図6に示した例とは異なっている。即ち、この図の例では、索引テキスト断片序列体314内で0巡目起点索引テキスト断片i(0)に連接するように索引テキスト断片を選択して0巡目冒頭側処理対象L(0)及び末尾側処理対象H(0)とする。こうして選択した0巡目冒頭側処理対象L(0)及び末尾側処理対象H(0)については、先の例と同様にしてリンク先候補認識処理を実施する。即ち、0巡目起点i(0)のリンク先候補の最大順序dmaxに従いサーチ範囲を制限して0巡目冒頭側処理対象L(0)のリンク先候補本文テキスト断片をサーチし認識する一方、0巡目起点i(0)のリンク先候補の最小順序dminに従いサーチ範囲を制限して0巡目末尾側処理対象H(0)のリンク先候補本文テキスト断片をサーチし認識する。
次の1巡目においては、0巡目起点索引テキスト断片i(0)並びにそれに連接する0巡目冒頭側処理対象索引テキスト断片L(0)及び末尾側処理対象索引テキスト断片H(0)の集合、即ち目次領域10中葉にあり索引テキスト断片蝟集体を構成している複数個の索引テキスト断片の集合{L(0),i(0),H(0)}を以て、1巡目起点索引テキスト断片i(1)として選択し、それら1巡目起点i(1)のリンク先候補本文テキスト断片をサーチして関連付け、それらリンク先候補における最小順序dmin及び最大順序dmaxを導出する。このとき1巡目リンク先候補最小順序dminとされるのは、複数個の1巡目起点i(1)のうち何れかについてのリンク先候補本文テキスト断片の中で最冒頭の本文テキスト断片であり、1巡目リンク先候補最大順序dmaxとされるのは、複数個の1巡目起点i(1)のうち何れかについてのリンク先候補本文テキスト断片の中で最末尾の本文テキスト断片である。更に、1巡目起点i(1)に連接するよう1巡目冒頭側処理対象索引テキスト断片L(1)及び末尾側処理対象索引テキスト断片H(1)を選択し、1巡目リンク先候補最小順序dmin及び最大順序dmaxをサーチ範囲制限手段として用いて、それら処理対象L(1)及びH(1)についてリンク先候補認識処理を行う。
そして2巡目においては、索引テキスト断片蝟集体{L(1),i(1),H(1)}を構成する複数個の索引テキスト断片を以て2巡目起点索引テキスト断片i(2)とし、それに連接する索引テキスト断片を以て2巡目冒頭側処理対象索引テキスト断片L(2)及び末尾側処理対象索引テキスト断片H(2)とし、それら処理対象L(2)及びH(2)についてリンク先候補認識処理を行う。最後に3巡目においては、索引テキスト断片蝟集体{L(2),i(2),H(2)}を構成する複数個の索引テキスト断片を以て3巡目起点索引テキスト断片i(3)とし、それに連接する索引テキスト断片を以て3巡目冒頭側処理対象索引テキスト断片L(3)及び末尾側処理対象索引テキスト断片H(3)とし、それら処理対象L(3)及びH(3)についてリンク先候補認識処理を行う。このように、先の巡目での冒頭側及び末尾側処理対象索引テキスト断片を先の巡目での起点索引テキスト断片に連ねた索引テキスト断片蝟集体を以て起点索引テキスト断片とし、その冒頭側及び末尾側に連接する索引テキスト断片を処理対象索引テキスト断片として選択し、そのリンク先候補本文テキスト断片をサーチして対応する処理対象に関連付ける処理を、必要な巡数分繰り返すようにすればよい。
なお、図7に示した例では、0巡目起点索引テキスト断片i(0)並びに各巡目冒頭側及び末尾側処理対象索引テキスト断片が何れも1個であったが、目次には袋小路が含まれていることもある。目次に袋小路、即ち最終的な目次内で本文テキスト断片にリンクすることのない索引テキスト断片が含まれていると、その袋小路が、0巡目起点i(0)又は各巡目冒頭側若しくは末尾側処理対象として選ばれてしまうかもしれない。こうした状況に対処するには、例えば、索引テキスト断片序列体中葉にある複数個の索引テキスト断片の蝟集体を以て、0巡目起点i(0)とするのが望ましい。その場合、複数個の0巡目起点i(0)に対しては、それぞれ、本文テキスト断片序列体からリンク先候補本文テキスト断片を選択し、選択した何個かのリンク先候補を関連付ける。更に、リンク先候補最小順序dmin及び最大順序dmaxについては、蝟集体を構成している複数個の0巡目起点i(0)のうち何れかについてのリンク候補本文テキスト断片の中で最冒頭のものの順序を最小順序dmin、最末尾のものの順序を最大順序dmaxとすることによって定める。0巡目起点i(0)の個数Nを袋小路最大許容蝟集個数より多くすれば最小順序dmin及び最大順序dmaxを必ず求めることができる。その後の処理は、例えば図7に示した例と同じやり方でもよいが、別のやり方を採ることもできる。
例えば、各巡目(但し0巡目より後)のリンク先候補認識処理毎に、それぞれ複数個の起点索引テキスト断片から構成される複数個の固定長摺動窓を使用し、それら摺動窓を互いに逆の方向に摺動させる、というやり方がある。即ち、索引テキスト断片序列体14内で現在の冒頭側処理対象の末尾側に連接及び蝟集しているN個の索引テキスト断片を以て上摺動窓とし、また同じ序列体14内で現在の末尾側処理対象の冒頭側に連接及び蝟集しているN個の索引テキスト断片を以て下摺動窓とする。各巡目(但し0巡目より後)のリンク先候補認識処理においては、リンク先候補サーチに当たり、上摺動窓内のN個の索引テキスト断片についての最大順序dmaxにより冒頭側処理対象のリンク先候補サーチ範囲を制限し、下摺動窓内のN個の索引テキスト断片についての最小順序dminにより末尾側処理対象のリンク先候補サーチ範囲を制限する。これによってその巡目に係るリンク先候補認識処理を終えたら、それまでの冒頭側処理対象より順序が1個早い索引テキスト断片を新たな冒頭側処理対象とすることにより、N個の索引テキスト断片からなる上摺動窓を“上向き”に索引テキスト断片1個分摺動させ、また、それまでの末尾側処理対象より順序が1個遅い索引テキスト断片を新たな末尾側処理対象とすることにより、N個の索引テキスト断片からなる下摺動窓を“下向き”に索引テキスト断片1個分摺動させた上で、次の巡目の処理を実行する。なお、このやり方においても、単独の索引テキスト断片を以て冒頭側又は末尾側処理対象とするだけでなく、ひとまとまりに連接している複数個のテキスト断片を以て冒頭側又は末尾側処理対象とすることも可能である。後者、即ち一連なりになっている複数個のテキスト断片を以て処理対象とする場合には、各巡目における冒頭側処理対象索引テキスト断片蝟集個数分だけ上摺動窓を動かすことができ、同様に各巡目における末尾側処理対象索引テキスト断片蝟集個数分だけ下摺動窓を動かすことができる。更に、例えば上摺動窓内索引テキスト断片蝟集個数をN個とし、下摺動窓内索引テキスト断片蝟集個数をM個とする、というように、2個の摺動窓の大きさを違えることも熟慮に値する。
図7に示したやり方は、目次領域10内にあり目次の先頭、末尾又はその双方に位置している余分な即ちノイズになるテキスト断片に対してロバストになる、という点で有益である。即ち、起点索引テキスト断片蝟集体が、各巡目の処理を終える毎に領域10中葉から見て上下方向に拡張されていくので、領域10内外寄り部分に位置しておりノイズが多い可能性がある領域に、処理当初からぶつかることを避けることができる。
文書内目次認識装置の一例構成を示す図である。 目次認識結果の一例を示す図である。 1巡構成のリンク先候補認識処理における起点索引テキスト断片、その処理によって判明したリンク先候補並びにその最小順序及び最大順序を示す図である。 図3の起点索引テキスト断片より冒頭寄りの領域から選んだ処理対象索引テキスト断片のリンク先候補をサーチする際使用され、起点索引テキスト断片のリンク先候補最大順序に基づき制限されているサーチ範囲を示す図である。 図3の起点索引テキスト断片より末尾寄りの領域から選んだ処理対象索引テキスト断片のリンク先候補をサーチする際使用され、起点索引テキスト断片のリンク先候補最小順序に基づき制限されているサーチ範囲を示す図である。 図3〜図5に示した例より長い目次について実施される2巡構成のリンク先候補認識処理を示す図である。 図6に示した例と同じ目次について実施される4巡構成のリンク先候補認識処理を示す図である。
符号の説明
8,208 処理対象文書(非構造化文書)、9 ユーザインタフェース、10 目次領域、12 テキストフラグメンタ、14,214,314 索引テキスト断片序列体、16,216 本文テキスト断片序列体、20 テキスト類似度性リンクアイデンティファイア、22 リンク候補、24 サーチ範囲セレクタ、30 目次候補セレクタ、34 目次セレクタ、38 リンクオプティマイザ、110 目次、112 目次内項目、114 リンク、116 袋小路、120 文書オーガナイザ、dmin リンク先候補最小順序、dmax リンク先候補最大順序、Fb,n 本文テキスト断片、Ftoc,n,H(n),HL(n),i(n),iL(n),iH(n),L(n),LL(n) 索引テキスト断片。

Claims (4)

  1. コンピュータにより実施され、
    電子文書から索引テキスト断片序列体及び本文テキスト断片序列体を抽出するステップと、
    (a)索引テキスト断片序列体中葉に位置する起点索引テキスト断片に、本文テキスト断片序列体内から選んだ1個又は複数個のリンク先候補本文テキスト断片からなる起点リンク先候補集合を関連付けるステップと、
    (b)索引テキスト断片序列体内索引テキスト断片のうち起点索引テキスト断片より冒頭寄りの索引テキスト断片の集合である冒頭寄り部分集合の中葉に位置することとなるよう、冒頭側処理対象索引テキスト断片を選択するステップと、
    (c)索引テキスト断片序列体内索引テキスト断片のうち起点索引テキスト断片より末尾寄りの索引テキスト断片の集合である末尾寄り部分集合の中葉に位置することとなるよう、末尾側処理対象索引テキスト断片を選択するステップと、
    (d)冒頭側処理対象索引テキスト断片に、起点リンク先候補集合内最末尾本文テキスト断片より冒頭寄りにある1個又は複数個のリンク先候補本文テキスト断片の集合を関連付けるステップと、
    (e)末尾側処理対象索引テキスト断片に、起点リンク先候補集合内最冒頭本文テキスト断片より末尾寄りにある1個又は複数個のリンク先候補本文テキスト断片の集合を関連付けるステップと、
    (f)それまでの冒頭側処理対象索引テキスト断片を起点索引テキスト断片として、冒頭寄り部分集合についてステップ(b)、(c)、(d)及び(e)における選択動作及び関連付け動作と同様の動作を実行するステップと、
    (g)それまでの末尾側処理対象索引テキスト断片を起点索引テキスト断片として、末尾寄り部分集合についてステップ(b)、(c)、(d)及び(e)における選択動作及び関連付け動作と同様の動作を実行するステップと、
    を有する文書内目次認識方法。
  2. 請求項1記載の文書内目次認識方法であって、起点索引テキスト断片、冒頭側処理対象索引テキスト断片及び末尾側処理対象索引テキスト断片のうち少なくとも何れかが、索引テキスト断片序列体の一部を構成する複数個の索引テキスト断片の蝟集部分を含む文書内目次認識方法。
  3. 請求項1記載の文書内目次認識方法であって、ステップ(a)、(d)及び(e)における関連付け動作が、索引テキスト断片に対するテキスト類似度に基づき索引テキスト断片に対応するリンク先候補本文テキスト断片を選択する動作を含む文書内目次認識方法。
  4. コンピュータにより実施され、索引テキスト断片序列体及び本文テキスト断片序列体を含む文書中の目次を認識する方法であって、
    電子文書から索引テキスト断片序列体及び本文テキスト断片序列体を抽出するステップと、
    索引テキスト断片序列体内で、索引テキスト断片序列体中葉に位置する起点索引テキスト断片と、当該起点索引テキスト断片に連接する索引テキスト断片と、で構成される索引テキスト断片の集合のうち冒頭寄りにある冒頭側処理対象索引テキスト断片の末尾側にN(Nは2以上の整数)個蝟集して連接している索引テキスト断片に係る最末尾リンク先候補本文テキスト断片に比べ、冒頭寄りにある1個又は複数個のリンク先候補本文テキスト断片を、その冒頭側処理対象索引テキスト断片に関連付けるステップと、
    索引テキスト断片序列体内で、前記索引テキスト断片の集合のうち末尾寄りにある末尾側処理対象索引テキスト断片の冒頭側にM(Mは2以上の整数)個蝟集して連接している索引テキスト断片に係る最冒頭リンク先候補本文テキスト断片に比べ、末尾寄りにある1個又は複数個のリンク先候補本文テキスト断片を、その末尾側処理対象索引テキスト断片に関連付けるステップと、
    それまでの冒頭側処理対象索引テキスト断片より冒頭寄りの索引テキスト断片を新たな冒頭側処理対象索引テキスト断片とするステップと、
    それまでの末尾側処理対象索引テキスト断片より末尾寄りの索引テキスト断片を新たな末尾側処理対象索引テキスト断片とするステップと、
    これら、冒頭側処理対象索引テキスト断片へのリンク先候補の関連付け、末尾側処理対象索引テキスト断片へのリンク先候補の関連付け、冒頭側処理対象索引テキスト断片の更新、並びに末尾側処理対象索引テキスト断片の更新を繰り返すことによって、索引テキスト断片に係る1個又は複数個のリンク先候補本文テキスト断片の集合を生成するステップと、
    を有する方法。

JP2007040132A 2006-02-23 2007-02-21 目次判別目的類似度リンク計算の高速化 Expired - Fee Related JP5037965B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/360,951 US7890859B2 (en) 2006-02-23 2006-02-23 Rapid similarity links computation for table of contents determination
US11/360,951 2006-02-23

Publications (2)

Publication Number Publication Date
JP2007226797A JP2007226797A (ja) 2007-09-06
JP5037965B2 true JP5037965B2 (ja) 2012-10-03

Family

ID=38230118

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007040132A Expired - Fee Related JP5037965B2 (ja) 2006-02-23 2007-02-21 目次判別目的類似度リンク計算の高速化

Country Status (4)

Country Link
US (1) US7890859B2 (ja)
EP (1) EP1826683B1 (ja)
JP (1) JP5037965B2 (ja)
DE (1) DE602007010850D1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9317494B2 (en) * 2007-04-03 2016-04-19 Sap Se Graphical hierarchy conversion
US8504553B2 (en) * 2007-04-19 2013-08-06 Barnesandnoble.Com Llc Unstructured and semistructured document processing and searching
US8065599B1 (en) * 2007-06-29 2011-11-22 Emc Corporation Electronic submission preparation
US7991709B2 (en) * 2008-01-28 2011-08-02 Xerox Corporation Method and apparatus for structuring documents utilizing recognition of an ordered sequence of identifiers
JP5412903B2 (ja) * 2009-03-17 2014-02-12 コニカミノルタ株式会社 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
US8719702B2 (en) * 2010-03-09 2014-05-06 Xerox Corporation Document organizing based on page numbers
US8340425B2 (en) 2010-08-10 2012-12-25 Xerox Corporation Optical character recognition with two-pass zoning
JP5536687B2 (ja) * 2011-01-31 2014-07-02 インターナショナル・ビジネス・マシーンズ・コーポレーション 目次と見出しの対応付け方法、対応付け装置、及び対応付けプログラム
US20130174030A1 (en) * 2012-01-04 2013-07-04 Freedom Solutions Group, LLC, d/b/a Microsystems Method and apparatus for analyzing abbreviations in a document
US8830487B2 (en) 2012-07-09 2014-09-09 Xerox Corporation System and method for separating image and text in a document
US8812870B2 (en) 2012-10-10 2014-08-19 Xerox Corporation Confidentiality preserving document analysis system and method
US20140258851A1 (en) * 2013-03-11 2014-09-11 Microsoft Corporation Table of Contents Detection in a Fixed Format Document
CN103729422A (zh) * 2013-12-23 2014-04-16 武汉传神信息技术有限公司 一种信息碎片关联输出的方法及系统
CN103744883A (zh) * 2013-12-23 2014-04-23 武汉传神信息技术有限公司 一种快速选取信息碎片的方法及系统
CN103744884A (zh) * 2013-12-23 2014-04-23 武汉传神信息技术有限公司 一种整理信息碎片的方法及系统
US9454696B2 (en) * 2014-04-17 2016-09-27 Xerox Corporation Dynamically generating table of contents for printable or scanned content
US20150310003A1 (en) * 2014-04-28 2015-10-29 Elwha Llc Methods, systems, and devices for machines and machine states that manage relation data for modification of documents based on various corpora and/or modification data
US10635743B2 (en) * 2018-03-12 2020-04-28 Microsoft Technology Licensing, Llc Automatic extraction of document page numbers from PDF

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5434962A (en) 1990-09-07 1995-07-18 Fuji Xerox Co., Ltd. Method and system for automatically generating logical structures of electronic documents
US5359729A (en) * 1991-05-31 1994-10-25 Timeline, Inc. Method for searching for a given point in regions defined by attribute ranges, then sorted by lower and upper range values and dimension
US5491628A (en) 1993-12-10 1996-02-13 Xerox Corporation Method and apparatus for document transformation based on attribute grammars and attribute couplings
US6298357B1 (en) 1997-06-03 2001-10-02 Adobe Systems Incorporated Structure extraction on electronic documents
IE980959A1 (en) 1998-03-31 1999-10-20 Datapage Ireland Ltd Document Production
US6487566B1 (en) 1998-10-05 2002-11-26 International Business Machines Corporation Transforming documents using pattern matching and a replacement language
JP2000330979A (ja) * 1999-05-18 2000-11-30 Ntt Data Corp 検索対象となる電子文書の解析方法及び電子文書登録システム
US20040003028A1 (en) * 2002-05-08 2004-01-01 David Emmett Automatic display of web content to smaller display devices: improved summarization and navigation
US20020143818A1 (en) 2001-03-30 2002-10-03 Roberts Elizabeth A. System for generating a structured document
JP2003150586A (ja) 2001-11-12 2003-05-23 Ntt Docomo Inc 文書変換システム、文書変換方法及び文書変換プログラムを記録したコンピュータ読み取り可能な記録媒体
US7137062B2 (en) * 2001-12-28 2006-11-14 International Business Machines Corporation System and method for hierarchical segmentation with latent semantic indexing in scale space
US6907431B2 (en) 2002-05-03 2005-06-14 Hewlett-Packard Development Company, L.P. Method for determining a logical structure of a document
US20040024780A1 (en) 2002-08-01 2004-02-05 Koninklijke Philips Electronics N.V. Method, system and program product for generating a content-based table of contents

Also Published As

Publication number Publication date
US7890859B2 (en) 2011-02-15
EP1826683B1 (en) 2010-12-01
US20070198912A1 (en) 2007-08-23
EP1826683A3 (en) 2008-07-02
DE602007010850D1 (de) 2011-01-13
JP2007226797A (ja) 2007-09-06
EP1826683A2 (en) 2007-08-29

Similar Documents

Publication Publication Date Title
JP5037965B2 (ja) 目次判別目的類似度リンク計算の高速化
JP5144940B2 (ja) 目次抽出におけるロバスト性向上
JP4717049B2 (ja) 文書のページ番号を検出する方法及びシステム
US8706475B2 (en) Method and apparatus for detecting a table of contents and reference determination
US20120197908A1 (en) Method and apparatus for associating a table of contents and headings
US8352857B2 (en) Methods and apparatuses for intra-document reference identification and resolution
US20080065671A1 (en) Methods and apparatuses for detecting and labeling organizational tables in a document
US8504356B2 (en) Word classification system, method, and program
JP5010885B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
JPH09198398A (ja) パターン検索装置
US9501557B2 (en) Information generating computer product, apparatus, and method; and information search computer product, apparatus, and method
US11842152B2 (en) Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP3975825B2 (ja) 文字認識誤り訂正方法、装置及びプログラム
CN112307205A (zh) 基于自动摘要的文本分类方法、系统及计算机存储介质
JP5990124B2 (ja) 略語生成装置、略語生成方法、及びプログラム
JP2006072787A (ja) 自動質問解答方法、そのためのモデル作成方法、およびコンピュータプログラム
JP2009176148A (ja) 未知語判定システム、方法及びプログラム
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム
US10515297B2 (en) Recognition device, recognition method, and computer program product
JP3939264B2 (ja) 形態素解析装置
JP2005189955A (ja) 文書処理方法、文書処理装置、制御プログラム及び記録媒体
Mihov et al. Tuning the selection of correction candidates for garbled tokens using error dictionaries
WO2014097751A1 (ja) 定義済み表現抽出システム、方法およびプログラム
JP2005189954A (ja) 文書処理方法、文書処理装置、制御プログラム及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120228

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120612

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120705

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150713

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees