JP6528763B2

JP6528763B2 - 整合チェック箇所推定装置、整合チェックシステム、整合チェック箇所推定方法、および、整合チェック箇所推定プログラム

Info

Publication number: JP6528763B2
Application number: JP2016509962A
Authority: JP
Inventors: 由希子黒岩
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2014-03-28
Filing date: 2015-02-27
Publication date: 2019-06-12
Anticipated expiration: 2035-02-27
Also published as: JPWO2015145991A1; WO2015145991A1

Description

本発明は、ドキュメント間の整合性をチェックする技術に関する。

システム・ソフトウェア開発において作成されるドキュメントでは、同じ事柄が複数の観点から複数のドキュメントに記述されることが多い。このため、ドキュメント作成においては、ドキュメント間で互いに漏れや矛盾がないよう整合性をチェックする必要がある。以下、整合性をチェックすることを、整合チェックとも記載する。整合チェックは、人手で行うとコスト（費用と時間）がかかり、また、見逃す場合がある。

このような問題に対応する技術の一例が、特許文献１に記載されている。特許文献１に記載された関連技術は、要件定義書や設計書などの分析対象ドキュメントから仕様テキストを抽出し、漏れなどを自動チェックする。

国際公開第２０１１／１２９１９８号

しかしながら、特許文献１に記載されたような自動チェックであっても、あるいは手動チェックであっても、より精度の高い整合チェックのためには、整合チェック箇所が指定されることが望ましい。その理由について以下に述べる。

ここでは、図８に示すドキュメント８ａおよび８ｂの間で整合性をチェックする場合を例として説明する。ドキュメント８ａは、画面一覧が記述された表を含む。このドキュメント８ａでは、１行目に、機能ＩＤ、画面ＩＤおよび画面名の各見出しが記述されている。また、ドキュメント８ｂは、画面レイアウトが記述された表を含む。このドキュメント８ｂでは、１行目に、画面ＩＤ、画面名および説明の各見出しが記述されている。

ここで、ドキュメント８ａでは、画面名の列に、「成果物登録」、「成果物改版」、「成果物メンテナンス」が記述されている。一方で、ドキュメント８ｂでは、画面名の列に、「成果物改版」および「成果物メンテナンス」は記述されているが、「成果物登録」が漏れている。

この場合に、自動チェックを行う特許文献１の関連技術を用いて不整合を検出することを想定する。この関連技術は、言明単位（例えば１行）を用いて不整合の検出を行うため、機械的にドキュメントの１行を１仕様として抽出することになる。すると、ドキュメント８ａでは、「ZTA00、SZTA001、成果物登録」などが１つの仕様として抽出される。また、ドキュメント８ｂでは、「SZTA002、成果物改版、成果物登録(SZTA001)で登録した成果物を改版する。」などが1つの仕様として抽出される。すると、この関連技術は、「ZTA00、SZTA001、成果物登録」と「SZTA002、成果物改版、成果物登録(SZTA001)で登録した成果物を改版する。」との類似度が高いため、整合しているとみなしてしまう。このため、この関連技術は、ドキュメント８ｂにおける「成果物登録」の漏れを見逃す可能性がある。

また、自動チェックでなく、人手で文字列を検索して不整合をチェックする場合を想定する。ここで、ドキュメント８ｂでは、画面名の列に「成果物登録」が漏れているが、「成果物改版」の説明の列に、「成果物登録」の文字列が含まれている。そのため、チェック者は、整合チェック箇所を意識しない場合、ドキュメント８ａにおける「成果物登録」の文字列が、ドキュメント８ｂにおける「説明」の列に検索された段階で、整合しているとみなしてしまい、漏れを見逃す可能性がある。ここで、ドキュメント８ａおよび８ｂにおいて、それぞれの画面名の列が整合チェック箇所であると提示されれば、チェック者は、不整合に気づく可能性が高い。

このように、自動チェックであっても手動チェックであっても、より精度の高い整合チェックのためには、整合チェック箇所が指定されることが望ましい。

なお、統一されたドキュメントフォーマットを用いることを想定すれば、そのフォーマットにおいて整合チェック箇所となる箇所をあらかじめ定めておくことも可能である。また、そのフォーマットにおいて定められた整合チェック箇所を用いて、整合チェックを自動化することも可能である。しかし、顧客やプロジェクトごとに重要な観点が異なるため、統一されたドキュメントフォーマットを用いることは難しい。また、無理に統一されたドキュメントフォーマットを用いると、ドキュメントの人による可読性が低下するという問題が生じる。

本発明は、上述の課題を解決するためになされたもので、ドキュメント間における整合チェック箇所を精度よく推定する技術を提供することを目的とする。

上記目的を達成するために、本発明の整合チェック箇所推定装置は、見出しの特徴を表す事前知識を記憶する事前知識記憶手段と、前記事前知識に基づいて、分析対象の各ドキュメントにおいて、それぞれ１つ以上の見出しを抽出し、抽出した各見出しに対応する情報の集合を、主要な集合（主集合）または前記主集合に付随する副次的な情報が含まれる副集合として推定する主副集合推定手段と、前記各ドキュメントにおける主集合および副集合に基づいて、前記各ドキュメントにおいて他の前記ドキュメントとの間で整合性をチェックする箇所（整合チェック箇所）を推定するチェック箇所推定手段と、を備える。

また、本発明の整合チェックシステムは、上述の整合チェック箇所推定装置と、前記整合チェック箇所推定装置によって推定された前記整合チェック箇所を用いて、前記ドキュメント間の整合性を判定する整合性判定手段と、を備える。

また、本発明の整合チェック箇所推定方法は、見出しの特徴を表す事前知識に基づいて、分析対象の各ドキュメントにおいて、それぞれ１つ以上の見出しを抽出し、抽出した各見出しに対応する情報の集合を、主要な集合（主集合）または前記主集合に付随する副次的な情報が含まれる副集合として推定し、前記各ドキュメントにおける主集合および副集合に基づいて、前記各ドキュメントにおいて他の前記ドキュメントとの間で整合性をチェックする箇所（整合チェック箇所）を推定する。

また、本発明の整合性判定プログラムは、見出しの特徴を表す事前知識に基づいて、分析対象の各ドキュメントにおいて、それぞれ１つ以上の見出しを抽出し、抽出した各見出しに対応する情報の集合を、主要な集合（主集合）または前記主集合に付随する副次的な情報が含まれる副集合として推定する主副集合推定ステップと、前記各ドキュメントにおける主集合および副集合に基づいて、前記各ドキュメントにおいて他の前記ドキュメントとの間で整合性をチェックする箇所（整合チェック箇所）を推定するチェック箇所推定ステップと、をコンピュータ装置に実行させる。

本発明は、ドキュメント間における整合チェック箇所を精度よく推定する技術を提供することができる。

本発明の第１の実施の形態としての整合チェック箇所推定装置の機能ブロック図である。本発明の第１の実施の形態としての整合チェック箇所推定装置のハードウェア構成図である。本発明の第１の実施の形態としての整合チェック箇所推定装置の動作を説明するフローチャートである。本発明の第２の実施の形態としての整合チェック箇所推定装置の機能ブロック図である。本発明の第２の実施の形態としての整合チェック箇所推定装置の動作の概略を説明するフローチャートである。本発明の第２の実施の形態としての整合チェック箇所推定装置が主集合および副集合を推定する動作を説明するフローチャートである。本発明の第２の実施の形態における事前知識の一例を示す図である。本発明の第２の実施の形態における分析対象のドキュメント（参照元ドキュメントおよび参照先ドキュメント）の一例を示す図である。本発明の第２の実施の形態における分析対象のドキュメント（参照元ドキュメントおよび参照先ドキュメント）の他の一例を示す図である。本発明の第２の実施の形態における事前知識の他の一例を示す図である。本発明の第２の実施の形態における事前知識のさらに他の一例を示す図である。本発明の第３の実施の形態としての整合チェック箇所推定装置の機能ブロック図である。本発明の第３の実施の形態としての整合チェック箇所推定装置の動作を説明するフローチャートである。本発明の第４の実施の形態としての整合チェック箇所推定装置の機能ブロック図である。本発明の第４の実施の形態としての整合チェック箇所推定装置の動作を説明するフローチャートである。本発明の第４の実施の形態において推定される整合チェック箇所の一例を示す図である。本発明の第４の実施の形態において推定される整合チェック箇所の他の一例を示す図である。

以下、本発明の実施の形態について、図面を参照して詳細に説明する。

（第１の実施の形態）
本発明の第１の実施の形態としての整合チェック箇所推定装置１の機能ブロック構成を図１に示す。図１において、整合チェック箇所推定装置１は、事前知識記憶部１１と、主副集合推定部１２と、チェック箇所推定部１３とを備える。

ここで、整合チェック箇所推定装置１のハードウェア構成例を図２に示す。図２において、整合チェック箇所推定装置１は、ＣＰＵ（Central Processing Unit）１００１と、ＲＡＭ（Random Access Memory）１００２と、ＲＯＭ（Read Only Memory）１００３と、ハードディスク等の記憶装置１００４とによって構成可能である。この場合、事前知識記憶部１１は、記憶装置１００４によって構成される。また、主副集合推定部１２およびチェック箇所推定部１３は、ＲＯＭ１００３および記憶装置１００４に記憶されたコンピュータ・プログラムおよび各種データをＲＡＭ１００２に読み込んで実行するＣＰＵ１００１によって構成される。なお、整合チェック箇所推定装置１およびその各機能ブロックのハードウェア構成は、上述の構成に限定されない。

事前知識記憶部１１は、事前知識を記憶する。事前知識とは、分析対象のドキュメントにおける見出しの特徴を表す情報である。事前知識記憶部１１は、ユーザによってキーボードなどの入力装置を介して入力される事前知識を記憶してもよい。あるいは、事前知識記憶部１１は、あらかじめ事前知識を記憶していてもよい。あるいは、事前知識記憶部１１は、その他の様態で取得された事前知識を記憶してもよい。

主副集合推定部１２は、事前知識に基づいて、分析対象の各ドキュメントにおいて、それぞれ１つ以上の見出しを抽出する。

また、主副集合推定部１２は、各ドキュメントにおいて、抽出した各見出しに対応する情報の集合を、主集合または副集合として推定する。分析対象の各ドキュメントは、ユーザによってキーボードなどの入力装置を介して入力されるものであってもよい。あるいは、分析対象の各ドキュメントは、あらかじめ記憶装置１００４に記憶されているものであってもよい。また、分析対象の各ドキュメントは、あらかじめ記憶装置１００４に記憶されている複数のドキュメントのうち、入力装置を介して入力される情報により指定されるものであってもよい。あるいは、分析対象の各ドキュメントは、その他の様態で取得されるものであってもよい。

ここで、各見出しに対応する情報の集合について説明する。例えば、ドキュメントにおいて、表の列の見出しが抽出されているとする。この場合、その表においてその見出しに対応する列の各欄の内容は、その見出しに対応する情報である。また、そのような情報の集合、すなわち、その列全体は、その見出しに対応する情報の集合である。また、例えば、ドキュメントにおいて、段落の見出しが抽出されているとする。この場合、その段落に含まれる各文は、その見出しに対応する情報である。また、そのような情報の集合、すなわち、その段落全体は、各見出しに対応する情報の集合である。

また、主集合とは、ドキュメントにおいて整合チェック対象となる主要な情報が含まれる箇所である。また、副集合とは、主集合に含まれる情報に付随する副次的な情報が含まれる箇所である。

例えば、主副集合推定部１２は、各見出しに対応する情報の集合における要素の重複度合に基づいて、該当する集合が、主集合であるか副集合であるかを推定してもよい。要素の重複度合としては、例えば、Ｎ／Ｍによって算出される値が適用可能である。ここで、Ｍは、集合における重複を含む要素数を表す。また、Ｎは、集合における重複を含まない要素数を表す。また、“／”は除算を表す。この場合、Ｎ／Ｍは、重複する要素が少ないほど大きい値となる。重複する要素が少ない集合は、主要な整合チェック箇所となる可能性が高い。そこで、この場合、主副集合推定部１２は、要素の重複度合Ｎ／Ｍが所定条件を満たす集合を主集合に推定し、それ以外の集合を副集合に推定してもよい。また、この場合の所定条件とは、閾値以上であることであってもよい。

チェック箇所推定部１３は、分析対象の各ドキュメントにおける主集合および副集合に基づいて、分析対象のドキュメント間での整合チェック箇所を推定する。整合チェック箇所とは、分析対象のそれぞれのドキュメントにおいて、他の分析対象のドキュメントとの間で整合性をチェックする箇所である。

ここで、主集合は、各ドキュメントにおける主要な箇所であるため、全て整合チェック箇所として適切であると考えられる。また、システム・ソフトウェア開発などにおいて整合チェックが必要となるドキュメントでは、多くの関連者によって分かり易いように、対応する見出し名が一致している場合が多い。したがって、各ドキュメントの副集合のうち対応する他のドキュメントに対して見出しが共通する集合は、整合チェック箇所として適切であると考えられる。

そこで、例えば、チェック箇所推定部１３は、各ドキュメントにおける主集合を、整合チェック箇所として推定してもよい。また、チェック箇所推定部１３は、各ドキュメントにおける副集合のうち、他のドキュメントの主集合または副集合に対して見出しが所定の共通条件を満たす副集合を、整合チェック箇所として推定してもよい。なお、所定の共通条件とは、見出しの文字列が同一であること、あるいは、類似することであってもよい。その他、所定の共通条件とは、見出しが共通しているとみなすことができるその他の条件であってもよい。

以上のように構成された整合チェック箇所推定装置１の動作について、図３を参照して説明する。

図３において、まず、主副集合推定部１２は、分析対象の各ドキュメントにおいて、事前知識に基づいて１つ以上の見出しを抽出する。そして、主副集合推定部１２は、抽出した各見出しに対応する情報の集合を、主集合または副集合に推定する（ステップＳ１）。

前述のように、主副集合推定部１２は、各見出しに対応する情報の集合における要素の重複度合Ｎ／Ｍに基づいて、主集合または副集合の推定を行ってもよい。

次に、チェック箇所推定部１３は、各ドキュメントにおける主集合および副集合に基づいて、各ドキュメントにおける整合チェック箇所を推定する（ステップＳ２）。

前述のように、チェック箇所推定部１３は、各ドキュメントの主集合を、整合チェック箇所として推定してもよい。加えて、チェック箇所推定部１３は、各ドキュメントの副集合のうち他のドキュメントの主集合または副集合に対して見出しが共通条件を満たす副集合を、整合チェック箇所として推定してもよい。

また、このステップにおいて、チェック箇所推定部１３は、推定した各ドキュメントの整合チェック箇所を、ディスプレイ装置や印刷装置などの出力装置や、ネットワークを介して接続された他の装置等に出力してもよい。また、チェック箇所推定部１３は、推定した各ドキュメントの整合チェック箇所を、整合チェック箇所を用いた処理を行う他の装置に対して出力してもよい。また、チェック箇所推定部１３は、推定した整合チェック箇所を、記憶装置１００４に記憶しておき、ユーザからのリクエストなどに応じて出力してもよい。また、チェック箇所推定部１３は、推定した整合チェック箇所を、その他の様態で出力してもよい。

以上で、整合チェック箇所推定装置１は、動作を終了する。

次に、本発明の第１の実施の形態の効果について述べる。

本発明の第１の実施の形態としての整合チェック箇所推定装置は、ドキュメント間における整合チェック箇所を精度よく推定することができる。

その理由について説明する。本実施の形態では、主副集合推定部が、分析対象の各ドキュメントにおいて、事前知識に基づいてそれぞれ１つ以上の見出しを抽出し、各見出しに対応する情報の集合を、主集合および副集合に推定する。そして、チェック箇所推定部が、各ドキュメントの主集合および副集合に基づいて、ドキュメント間での整合チェック箇所を推定するからである。

このように、本実施の形態は、見出しの特徴を示す事前知識に基づいて各ドキュメントを分析することにより、整合チェック対象となる可能性が高い部分的な箇所を出力することができる。したがって、本実施の形態によって出力される整合チェック箇所を利用して自動チェックを行う装置または手動チェックを行うチェック者は、各ドキュメント全体を構成するすべての単位（行等）を対象にしてドキュメント間の整合チェックを行う必要がない。本実施の形態の出力を利用する装置またはチェック者は、本実施の形態により提示される整合チェック箇所間で整合チェックを行えばよい。したがって、本実施の形態は、整合チェックの分析精度を向上させることができる。

（第２の実施の形態）
次に、本発明の第２の実施の形態について図面を参照して詳細に説明する。なお、本実施の形態の説明において参照する各図面において、本発明の第１の実施の形態と同一の構成および同様に動作するステップには同一の符号を付して本実施の形態における詳細な説明を省略する。

なお、本発明の第２の実施の形態以降では、本発明における分析対象の各ドキュメントとして、参照元ドキュメントおよび参照先ドキュメントの２つのドキュメント間での整合チェック箇所を推定する例について説明する。以降、参照元ドキュメントを、参照元とも記載する。また、参照先ドキュメントを、参照先とも記載する。

まず、本発明の第２の実施の形態としての整合チェック箇所推定装置２の構成を図４に示す。図４において、整合チェック箇所推定装置２は、本発明の第１の実施の形態としての整合チェック箇所推定装置１に対して、事前知識記憶部１１に替えて事前知識記憶部２１と、主副集合推定部１２に替えて主副集合推定部２２とを備える点が異なる。ここで、整合チェック箇所推定装置２およびその各機能ブロックは、図２を参照して説明した本発明の第１の実施の形態としての整合チェック箇所推定装置１と同一のハードウェア要素によって構成可能である。なお、整合チェック箇所推定装置２およびその各機能ブロックのハードウェア構成は、上述の構成に限定されない。

事前知識記憶部２１は、主集合特徴と、副集合特徴と、不要集合特徴とを含む事前知識を記憶する。

ここで、主集合特徴は、主要な見出しの特徴を表す。主要な見出しは、単独で整合チェックの対象となりやすい。例えば、表における列見出しのうち、「機能ＩＤ」や「画面名称」といったような特定の単語を含むものを主要な見出しとみなすことができるとする。この場合、主集合特徴は、そのような特定の単語を含む正規表現等で表されていてもよい。

また、副集合特徴は、主要な見出しに付随する見出しの特徴を表す。このような付随的な見出しは、単独では整合チェックの対象となりにくく、主要な見出しに付随して整合チェックされる対象となりやすい。例えば、表における列見出しのうち、「桁数」や「説明」といったような特定の単語を含むものを、主要な見出しに付随する見出しとみなすことができるとする。この場合、副集合特徴は、そのような特定の単語を含む正規表現等で表されていてもよい。

また、不要集合特徴は、整合チェックで不要となる見出しの特徴を表す。例えば、表における列見出しのうち、「項」といったような特定の単語を含むものを不要な見出しとみなすことができるとする。この場合、不要集合特徴は、そのような特定の単語を含む正規表現等で表されていてもよい。

なお、これらの主集合特徴、副集合特徴、不要集合特徴などの事前知識は、正規表現に限らず、書式、アウトラインレベル、その他の情報、または、それらの組み合わせ等によって表されていてもよい。例えば、事前知識は、文字列そのもので表されていてもよい。また、事前知識の内容は、「背景色がＸ色」といったような、見出しに設定されている書式の特徴で表されていてもよい。また、事前知識の内容は、「アウトラインレベルがＸ」などといったような、階層構造が設定された文章において見出しに設定されている階層の深さによって表されていてもよい。その他、事前知識の内容は、見出しの特徴を表すものであれば、他の表現であってもよい。

また、参照元ドキュメントまたは参照先ドキュメントに表が含まれることが想定される場合、これらの事前知識は、表の見出しの特徴を表す情報であってもよい。なお、表の見出しとは、列見出しであってもよいし、行見出しであってもよい。また、参照元ドキュメントまたは参照先ドキュメントに段落からなる文章が含まれることが想定される場合、これらの事前知識は、段落の見出しの特徴を表す情報であってもよい。

なお、事前知識記憶部２１は、本発明の第１の実施の形態と同様に、上述した各種の事前知識として、入力装置を介して入力されたものを記憶してもよいし、あらかじめ記憶していてもよい。また、事前知識記憶部２１は、その他の様態で取得された各種の事前知識を記憶してもよい。

主副集合推定部２２は、主集合特徴と、副集合特徴と、不要集合特徴とを含む事前知識に基づいて、参照元ドキュメントおよび参照先ドキュメントにおいて、それぞれ１つ以上の見出しを抽出する。そして、主副集合推定部２２は、これらの事前知識に基づいて、抽出した見出しに対応する情報の集合が、主集合であるか副集合であるかを推定する。

例えば、参照元ドキュメントまたは参照先ドキュメントに表が含まれることがわかっており、これらの事前知識が表の列見出しの特徴を表している場合を想定する。この場合、主副集合推定部２２は、列見出しの特徴である事前知識の少なくともいずれかに合致する文字列を含む見出し行を検索してもよい。そして、主副集合推定部２２は、検索した見出し行における表の各欄に含まれる情報を、見出しとして抽出してもよい。そして、この場合、主副集合推定部２２は、表において、抽出した見出しの列を、その見出しに対応する情報の集合とみなせばよい。この場合、その列における各欄に含まれる情報は、その集合の要素とみなされる。

また、例えば、参照元ドキュメントまたは参照先ドキュメントに、段落からなる文章が含まれることがわかっており、これらの事前知識が段落の見出しの特徴を表している場合を想定する。この場合、主副集合推定部２２は、段落の見出しの特徴である事前知識に合致する情報を、見出しとして抽出すればよい。そして、この場合、主副集合推定部２２は、その見出しに続く段落を、その見出しに対応する情報の集合とみなせばよい。この場合、その段落を構成する各文が、その集合の要素とみなされる。

また、主副集合推定部２２は、抽出した各見出しに対応する情報の集合が、主集合であるか副集合であるかを推定する処理を、要素の重複度合と、主集合特徴と、副集合特徴と、不要集合特徴とに基づいて行う。また、このとき、例えば、主副集合推定部２２は、抽出した見出しに対応する情報の集合に含まれる要素の数に応じて異なる条件を用いてもよい。

例えば、主副集合推定部２２は、抽出した見出しのうち、不要集合特徴に合致しないものについて、その見出しに対応する情報の集合に含まれる要素数を求める。そして、要素数が所定条件を満たさない（例えば、閾値以下である）場合、主副集合推定部２２は、要素の重複度合によらずに、見出しが主集合特徴に合致するか否かに基づいて、対応する情報の集合が主集合であるか副集合であるかを推定してもよい。また、要素数が所定条件を満たす（例えば、閾値より大きい）場合、主副集合推定部２２は、見出しが副集合特徴に合致すれば、要素の重複度合によらずに、対応する情報の集合が副集合であると推定してもよい。また、要素数が所定条件を満たす場合で、見出しが副集合特徴に合致しない場合、主副集合推定部２２は、要素の重複度合に基づいて、対応する情報の集合が主集合であるか副集合であるかを推定してもよい。

チェック箇所推定部１３は、本発明の第１の実施の形態で説明したように構成される。つまり、本実施の形態では、チェック箇所推定部１３は、参照元および参照先の主集合については全て整合チェック箇所とみなす。また、チェック箇所推定部１３は、参照元および参照先の副集合のうち、他方のドキュメントにおける主集合または副集合に対して見出しが所定の共通条件を満たす副集合を、整合チェック箇所とみなす。

以上のように構成された整合チェック箇所推定装置２の動作を、図面を参照して説明する。

まず、整合チェック箇所推定装置２の動作の概略を、図５に示す。

図５において、まず、主副集合推定部２２は、参照元ドキュメントにおいて、事前知識に基づいて、１つ以上の見出しを抽出する。そして、主副集合推定部２２は、抽出した各見出しに対応する情報の集合を、主集合または副集合として推定する（ステップＡ１）。このステップの詳細については後述する。

次に、主副集合推定部２２は、参照先ドキュメントにおいて、事前知識に基づいて、１つ以上の見出しを抽出する。そして、主副集合推定部２２は、抽出した各見出しに対応する情報の集合を、主集合または副集合として推定する（ステップＡ２）。このステップの詳細については後述する。

次に、チェック箇所推定部１３は、参照元の主集合と、参照元の副集合のうち参照先の主集合または副集合に対して見出しが所定の共通条件を満たす副集合とを、整合チェック箇所として推定する（ステップＡ３）。

次に、チェック箇所推定部１３は、参照先の主集合と、参照先の副集合のうち参照元の主集合または副集合に対して見出しが所定の共通条件を満たす副集合とを、整合チェック箇所として推定する（ステップＡ４）。

以上で、整合チェック箇所推定装置２の動作の概略の説明を終了する。

次に、ステップＡ１およびステップＡ２において主集合および副集合を推定する動作の詳細を図６に示す。なお、ステップＡ１またはステップＡ２における動作は、対象のドキュメントが参照元ドキュメントであるか参照先ドキュメントであるかが異なるだけで同一である。

図６では、まず、主副集合推定部２２は、事前知識に基づいて、対象ドキュメントから1つ以上の見出しを抽出する（ステップＡ５）。

例えば、対象ドキュメントに表が含まれる場合を想定する。このとき、事前知識が列見出しの特徴を表す正規表現であるとする。この場合、主副集合推定部２２は、対象ドキュメントを先頭行から順に調べ、事前知識である正規表現のいずれかに合致する文字列を含む行を、見出し行とみなしてもよい。また、事前知識が列見出しの特徴を表す文字列であるとする。この場合、主副集合推定部２２は、対象ドキュメントを先頭行から順に調べ、事前知識である文字列と類似する文字列を含む行を、見出し行とみなしてもよい。また、事前知識が列見出しに設定された「背景色がＸ色」などの書式であるとする。この場合、主副集合推定部２２は、対象ドキュメントを先頭行から順に調べ、事前知識である書式が設定された欄を含む行を、見出し行とみなしてもよい。そして、主副集合推定部２２は、検索した見出し行における表の各欄に含まれる情報を、見出しと抽出してもよい。

また、例えば、対象ドキュメントに段落からなる文章が含まれる場合を想定する。このとき、事前知識が段落の見出しの特徴（正規表現、書式、アウトラインレベル等）を表すとする。この場合、主副集合推定部２２は、対象ドキュメントを先頭行から順に調べ、事前知識である段落の見出しの特徴のいずれかに合致する行を見出しとして抽出してもよい。

次に、主副集合推定部２２は、ステップＡ５で抽出した見出しのうち、ステップＡ７以降の処理を行っていない未処理の見出しがあるか否かを判断する（ステップＡ６）。なお、ある対象ドキュメントについて最初にこのステップが実行される時点では、ステップＡ５で抽出された全ての見出しが未処理であると設定されているものとする。

ここで、未処理の見出しがなければ、主副集合推定部２２は、主副集合推定動作を終了する。

一方、未処理の見出しがあれば、主副集合推定部２２は、未処理の見出しのうちの1つを選択する（ステップＡ７）。

次に、主副集合推定部２２は、選択した見出しが、不要集合特徴に合致するか否かを判断する（ステップＡ８）。

例えば、不要集合特徴が正規表現の場合、不要集合特徴に合致するとは、選択した見出しの文字列が正規表現にマッチすることであってもよい。また、例えば、不要集合特徴が文字列の場合、不要集合特徴に合致するとは、選択した見出しの文字列が不要集合特徴に類似することであってもよい。また、例えば、不要集合特徴が「空欄である」等という条件である場合、不要集合特徴に合致するとは、選択した見出しが空欄である等の条件を満たすことであってもよい。

ここで、選択した見出しが不要集合特徴に合致する場合、主副集合推定部２２は、選択した見出しを処理済みと設定し（ステップＡ１８）、ステップＡ６からの処理を繰り返す。

一方、選択した見出しが不要集合特徴に合致しない場合、主副集合推定部２２は、選択した見出しに対応する情報の集合に含まれる要素を抽出する（ステップＡ９）。

例えば、対象ドキュメントに、列見出しを含む表が含まれる場合を想定する。この場合、主副集合推定部２２は、その列見出しの列の各欄に含まれる情報を要素として抽出する。また、対象ドキュメントに段落からなる文章が含まれる場合を想定する。この場合、主副集合推定部２２は、その見出しに続く段落に含まれる各文を要素として抽出する。

次に、主副集合推定部２２は、選択した見出しに対応する情報の集合の要素数をＭに代入する（ステップＡ１０）。

なお、要素数Ｍは、空欄を含む要素の数でもよいし、空欄を除いた要素の数であってもよい。また、要素数Ｍは、選択した見出しの列の要素数であってもよいし、選択した見出しを含む表全体のうちで、空欄以外の欄のある行数であってもよい。

次に、主副集合推定部２２は、要素数Ｍを、閾値Nthresと比較する（ステップＡ１１）。

なお、Nthresは、ユーザによってキーボードなどの入力装置を介して指定された値であってもよい。また、Nthresは、あらかじめ記憶装置１００４に記憶されている値であってもよい。また、Nthresは、その他の様態で取得された値であってもよい。例えば、Nthresは、１などの値であってもよい。

ここで、要素数Ｍが閾値Nthresより大きい場合、主副集合推定部２２は、選択した見出しが副集合特徴に合致するか否かを判断する（ステップＡ１２）。

ここで、選択した見出しが副集合特徴に合致する場合、主副集合推定部２２は、選択した見出しに対応する情報の集合を、副集合であると推定する（ステップＡ１７）。これにより、要素数Ｍが閾値Nthresより大きく、見出しが副集合特徴に合致する集合は、要素の重複度合によらずに副集合として推定される。

一方、選択した見出しが副集合特徴に合致しない場合、主副集合推定部２２は、選択した見出しに対応する情報の集合について、重複を除いた要素数をＮに代入する（ステップＡ１３）。

なお、重複を除いた要素数Ｎは、空欄を含む数でもよいし、空欄を除いた数でもよい。

次に、主副集合推定部２２は、重複ありの要素数Ｍに対する重複なしの要素数Ｎの割合（重複度合Ｎ／Ｍ）を、閾値Rthresと比較する（ステップＡ１４）。

なお、Rthresは、ユーザによってキーボードなどの入力装置を介して指定された値であってもよい。また、Rthresは、あらかじめ記憶装置１００４に記憶されている値であってもよい。また、Rthresは、その他の様態で取得された値であってもよい。例えば、Rthresは、0.5や0.7などの値であってもよい。

また、対象ドキュメントが複数のファイルや複数のシートによって構成される場合、主副集合推定部２２は、各ファイルや各シートのそれぞれにおいて、全てN／M≧Rthresが満たされるか否かを判断してもよい。あるいは、このような場合、主副集合推定部２２は、各ファイルや各シートにおけるＮ’の合計Ｎ、および、各ファイルや各シートにおけるＭ’の合計Ｍをもとめ、トータルとしてN／M≧Rthresとなるかどうかを調べてもよい。

ここで、重複度合N／Mが閾値Rthres以上である場合、主副集合推定部２２は、選択した見出しに対応する情報の集合を、主集合として推定する（ステップＡ１６）。

一方、重複度合Ｎ／Ｍが閾値Rthresより小さい場合、主副集合推定部２２は、選択した見出しに対応する情報の集合を、副集合として推定する（ステップＡ１７）。

これにより、要素数Ｍが閾値Nthresより大きく、見出しが副集合特徴に合致しない集合は、要素の重複度合に基づいて、主集合であるか副集合であるかが推定される。

また、ステップＡ１１において、要素数Ｍが閾値Nthres以下であると判断された場合、主副集合推定部２２は、選択した見出しが主集合特徴に合致するか否かを判断する（ステップＡ１５）。

ここで、選択した見出しが主集合特徴に合致する場合、主副集合推定部２２は、選択した見出しに対応する情報の集合を、主集合として推定する（ステップＡ１６）。

一方、選択した見出しが主集合特徴に合致しない場合、主副集合推定部２２は、選択した見出しに対応する情報の集合を、副集合として推定する（ステップＡ１７）。

これにより、要素数Ｍが閾値Nthres以下である集合については、要素の重複度合によらずに、事前知識である主集合特徴に基づいて、主集合であるか副集合であるかが推定される。

ステップＡ１６またはステップＡ１７において主集合または副集合であると推定した後、主副集合推定部２２は、選択した見出しを処理済みと設定し（ステップＡ１８）、ステップＡ６からの処理を繰り返す。

以上で、主副集合推定部２２によるステップＡ１およびステップＡ２における動作の説明を終了する。

次に、整合チェック箇所推定装置２の動作について、２つの具体例（具体例１および具体例２）を示す。

＜具体例１＞
まず、この具体例１において用いられる事前知識を図７に示す。図７において、「種類」の列は、事前知識が主集合特徴、副集合特徴、不要集合特徴のいずれかであるかを表す。また、「内容」の列は、事前知識の内容を表す。ここでは、事前知識の内容は、正規表現で表されている。例えば、「^」は文字列の先頭を示す正規表現であり、「$」は文字列の末尾を示す正規表現である。

また、図８に、具体例１において用いられる参照元ドキュメント８ａおよび参照先ドキュメント８ｂを示す。これらの参照元ドキュメント８ａおよび参照先ドキュメント８ｂには表が含まれ、整合チェック箇所は、列単位で推定されることになる。また、これらの参照元ドキュメント８ａおよび参照先ドキュメント８ｂでは、１行目が表の列見出し行であり、２行目以降が具体的な内容となっている。また、この例では、参照元ドキュメント８ａにおける「画面ＩＤ」の列および「画面名」の列と、参照先ドキュメント８ｂにおける「画面ＩＤ」の列および「画面名」の列とがそれぞれ対応している。このため、これらの列が、整合チェックすべき箇所である。

このような参照元ドキュメント８ａおよび参照元ドキュメント８ｂを対象として、図７に示した事前知識を用いて、整合チェック箇所推定装置２が整合チェック箇所を推定する動作について説明する。

まず、主副集合推定部２２は、参照元ドキュメント８ａにおいて、主集合として、「画面ＩＤ」の列および「画面名」の列と、副集合として「機能ＩＤ」の列とを推定する（図５のステップＡ１）。これらの列が主集合または副集合として推定される動作の詳細については後述する。

次に、主副集合推定部２２は、参照先ドキュメント８ｂにおいて、主集合の列はないと推定し、副集合として「画面ＩＤ」の列、「画面名」の列、および、「説明」の列を推定する（ステップＡ２）。これらの列が副集合として推定される動作の詳細については後述する。

次に、チェック箇所推定部１３は、参照元の整合チェック箇所として、「画面ＩＤ」の列および「画面名」の列を、以下のようにして推定する（ステップＡ３）。

ここでは、チェック箇所推定部１３は、参照元の主集合である「画面ＩＤ」の列および「画面名」の列の全てを、整合チェック箇所と推定する。また、チェック箇所推定部１３は、参照元の副集合「機能ＩＤ」の列について、参照先の主集合または副集合と見出しが共通するか否かを判断する。ここでは、参照先の主集合はなく、副集合「画面ＩＤ」の列、「画面名」の列、および、「説明」の列のいずれも、見出しが「機能ＩＤ」ではない。そこで、チェック箇所推定部１３は、参照元の副集合「機能ＩＤ」の列については、整合チェック箇所として推定しない。

次に、チェック箇所推定部１３は、参照先の整合チェック箇所として、「画面ＩＤ」の列および「画面名」の列を、以下のようにして推定する（ステップＡ４）。

ここでは、参照先ドキュメント８ｂにおいて、主集合は推定されていない。そこで、チェック箇所推定部１３は、参照先の副集合「画面ＩＤ」の列、「画面名」の列、および、「説明」の列について、参照元の主集合または副集合と見出しが共通するか否かを判断する。ここでは、「画面ＩＤ」および「画面名」が、参照元の主集合の見出しと共通する。そこで、チェック箇所推定部１３は、これらの副集合のうち、「画面ＩＤ」の列および「画面名」の列を、整合チェック箇所と推定する。

このようにして、整合チェック箇所推定装置２は、参照元ドキュメント８ａおよび参照先ドキュメント８ｂにおいて、整合チェックすべき箇所を整合チェック箇所として推定できたことになる。

次に、参照元ドキュメント８ａにおける主集合および副集合の推定動作（ステップＡ１）の詳細について説明する。なお、ここでは、要素数Ｍの閾値Nthresは１であり、重複度合Ｎ／Ｍの閾値Rthresは0.5であるものとする。

ここでは、まず、主副集合推定部２２は、参照元ドキュメント８ａを先頭行から順に調べ、１行１列目の「機能ＩＤ」が、図７の事前知識にある正規表現「^機能ＩＤ$」に合致すると判断する。そこで、主副集合推定部２２は、参照元ドキュメント８ａの1行目を列見出し行とみなし、列見出し行に含まれる見出し「機能ＩＤ」、「画面ＩＤ」、「画面名」を抽出する（図６のステップＡ５）。

次に、主副集合推定部２２は、参照元ドキュメント８ａの１行目の列見出し行のうち、「機能ＩＤ」を選択する（ステップＡ６でＹｅｓ、ステップＡ７）。

次に、主副集合推定部２２は、選択した見出し「機能ＩＤ」が不要集合特徴「^項$」に合致しないと判断する（ステップＡ８でＮｏ）。

次に、主副集合推定部２２は、選択した見出し「機能ＩＤ」の列の要素として、「ZTA00」、「ZTA00」、「ZTA00」を抽出する（ステップＡ９）。

次に、主副集合推定部２２は、選択した見出し「機能ＩＤ」の列の要素数３をＭに代入する（ステップＡ１０）。なお、具体例１では、要素数Ｍとして、空欄を含む要素の数を適用するものとする。

次に、主副集合推定部２２は、Ｍ（＝３）＞Nthres（＝１）であると判断し（ステップＡ１１でＹｅｓ）、選択した見出し「機能ＩＤ」が図７の副集合特徴のいずれにも合致しないと判断する（ステップＡ１２でＮｏ）。

ここで、参照元ドキュメント８ａの「機能ＩＤ」の列において、３つの要素「ZTA00」、「ZTA00」、「ZTA00」は全て重複しているため、重複を除いた要素数は１である。そこで、主副集合推定部２２は、「機能ＩＤ」の列の重複無し要素数１をＮに代入する（ステップＡ１３）。

次に、主副集合推定部２２は、重複度合N／M（＝１／３）がRthres（＝0.5）未満であると判断する（ステップＡ１４でＮｏ）。

したがって、主副集合推定部２２は、見出し「機能ＩＤ」の列を副集合として推定する（ステップＡ１７）。

そして、主副集合推定部２２は、見出し「機能ＩＤ」を処理済みと設定し（ステップＡ１８）、ステップＡ６からの処理を繰り返す。

次に、主副集合推定部２２は、参照元ドキュメント８ａの1行目の列見出し行のうち、まだ処理済みでない「画面ＩＤ」を選択する（ステップＡ６でＹｅｓ、ステップＡ７）。

次に、主副集合推定部２２は、選択した見出し「画面ＩＤ」が不要集合特徴「^項$」に合致しないと判断する（ステップＡ８でＮｏ）。

次に、主副集合推定部２２は、選択した見出し「画面ＩＤ」の列の要素として、「SZTA001」、「SZTA002」、「SZTA003」を抽出する（ステップＡ９）。

次に、主副集合推定部２２は、選択した見出し「画面ＩＤ」の列の要素数３をＭに代入する（ステップＡ１０）。

次に、主副集合推定部２２は、Ｍ（＝３）＞Nthres（＝１）であると判断し（ステップＡ１１でＹｅｓ）、選択した見出し「画面ＩＤ」が図７の副集合特徴のいずれにも合致しないと判断する（ステップＡ１２でＮｏ）。

ここで、参照元ドキュメント８ａの「画面ＩＤ」の列において、３つの要素「SZTA001」、「SZTA002」、「SZTA003」はいずれも重複していないため、重複を除いても要素数は３である。そこで、主副集合推定部２２は、「画面ＩＤ」の列の重複無し要素数３をＮに代入する（ステップＡ１３）。

次に、チェック箇所推定部１３は、重複度合N／M（＝３／３）がRthres（＝0.5）以上であると判断する（ステップＡ１４でＹｅｓ）。

したがって、主副集合推定部２２は、見出し「画面ＩＤ」の列を主集合として推定する（ステップＡ１６）。

そして、主副集合推定部２２は、見出し「画面ＩＤ」を処理済と設定し（ステップＡ１８）、ステップＡ６からの処理を繰り返す。

次に、主副集合推定部２２は、見出し「画面名」を選択し（ステップＡ７）、見出し「画面ＩＤ」を選択したときと略同様の処理を繰り返す。これにより、主副集合推定部２２は、見出し「画面名」の列を主集合として推定する（ステップＡ１６）。

このようにして、主副集合推定部２２は、参照元ドキュメント８ａにおいて、主集合として「画面ＩＤ」の列および「画面名」の列と、副集合として見出し「機能ＩＤ」の列とを推定する。

以上で、具体例１におけるステップＡ１の動作の説明を終了する。

次に、参照先ドキュメント８ｂにおける主集合および副集合の推定動作（ステップＡ２）の詳細について説明する。

ここでは、まず、主副集合推定部２２は、参照先ドキュメント８ｂを先頭行から順に調べ、１行１列目の「画面ＩＤ」が、図７の事前知識にある正規表現「^画面ＩＤ$」に合致すると判断する。そこで、主副集合推定部２２は、参照先ドキュメント８ｂの1行目を列見出し行とみなし、列見出し行に含まれる見出し「画面ＩＤ」、「画面名」、「説明」を抽出する（ステップＡ５）。

次に、主副集合推定部２２は、参照先ドキュメント８ｂの1行目の列見出し行のうち、「画面ＩＤ」を選択する（ステップＡ６でＹｅｓ、ステップＡ７）。

次に、主副集合推定部２２は、選択した見出し「画面ＩＤ」の列の要素として、「SZTA002」、空欄、空欄、「SZTA003」、空欄、空欄を抽出する（ステップＡ９）。

次に、主副集合推定部２２は、選択した見出し「画面ＩＤ」の列の要素数６をＭに代入する（ステップＡ１０）。

次に、主副集合推定部２２は、Ｍ（＝６）＞Nthres（＝１）であると判断し（ステップＡ１１でＹｅｓ）、選択した見出し「画面ＩＤ」が図７の副集合特徴のいずれにも合致しないと判断する（ステップＡ１２でＮｏ）。

ここで、参照先ドキュメント８ｂの「画面ＩＤ」の列において、空欄を除いた要素は、「SZTA002」、「SZTA003」の２つであり、これらは重複していない。そこで、主副集合推定部２２は、「画面ＩＤ」の列の重複無し要素数として２をＮに代入する（ステップＡ１３）。

次に、主副集合推定部２２は、重複度合N／M（＝２／６）がRthres（＝0.5）未満であると判断する（ステップＡ１４でＮｏ）。

したがって、主副集合推定部２２は、見出し「画面ＩＤ」の列を副集合として推定する（ステップＡ１７）。

そして、主副集合推定部２２は、見出し「画面ＩＤ」を処理済みと設定し（ステップＡ１８）、ステップＡ６からの処理を繰り返す。

次に、主副集合推定部２２は、まだ処理済みでない見出し「画面名」を選択し（ステップＡ７）、見出し「画面ＩＤ」を選択したときと略同様の処理を繰り返す。これにより、主副集合推定部２２は、見出し「画面名」の列を副集合として推定する。

次に、主副集合推定部２２は、まだ処理済みでない見出し「説明」を選択する（ステップＡ７）。

次に、主副集合推定部２２は、選択した見出し「説明」が不要集合特徴「^項$」に合致しないと判断する（ステップＡ８でＮｏ）。

次に、主副集合推定部２２は、選択した見出し「説明」の列の要素として、「成果物・・・改版する。」、空欄、空欄、「成果物・・・を行う。」、空欄、空欄を抽出する（ステップＡ９）。なお、主副集合推定部２２は、表の欄に貼り付けられたイメージ図を、空欄とみなしてもよいし、図に含まれるテキストを抽出してもよい。ここでは、イメージ図の欄を空欄とみなしたものとする。

次に、主副集合推定部２２は、選択した見出しの要素数６をＭに代入する（ステップＡ１０）。

次に、チェック箇所推定部１３は、主副集合推定部２２は、Ｍ（＝６）＞Nthres（＝１）であると判断し（ステップＡ１１でＹｅｓ）、選択した見出し「説明」が図７の副集合特徴「^説明$」に合致すると判断する（ステップＡ１２でＹｅｓ）。

したがって、主副集合推定部２２は、見出し「説明」の列を副集合として推定する（ステップＡ１７）。

このようにして、主副集合推定部２２は、参照先ドキュメント８ｂにおいて、主集合となる見出しがなく、副集合として「画面ＩＤ」の列、「画面名」の列、「説明」の列を推定する。

以上で、ステップＡ２の動作の説明を終了し、具体例１の説明を終了する。

＜具体例２＞
次に、具体例２について説明する。具体例２において、具体例１と同様に、参照元ドキュメントおよび参照先ドキュメントには表が含まれ、整合チェック箇所は、列単位で推定されるものとする。また、要素数Ｍとして、空欄を含む要素の数を適用するものとする。また、重複無し要素数Ｎとして、空欄を除いた重複のない要素の数を適用するものとする。また、要素数Ｍの閾値Nthresは１であり、重複度合Ｎ／Ｍの閾値Rthresは0.5であるものとする。

また、具体例２において用いられる事前知識は、具体例１と同様に図７に示したものである。

また、図９に、具体例２において用いられる参照元ドキュメント９ａおよび参照先ドキュメント９ｂを示す。この参照元ドキュメント９ａでは、１行目が表の列見出し行であり、２行目以降が具体的な内容となっている。また、この参照先ドキュメント９ｂでは、１行目および２行目が表全体に関する情報を示し、３行目が空欄の行である。また、この参照先ドキュメント９ｂでは、４行目が表の列見出し行であり、５行目以降が具体的な内容となっている。また、この例では、参照元ドキュメント９ａにおける「機能名」の列と、この参照先ドキュメント９ｂにおける「エンティティ候補」の列とが対応している。このため、これらの列が、整合チェックすべき箇所である。

このような参照元ドキュメント９ａおよび参照先ドキュメント９ｂを対象として、図７に示した事前知識を用いて、整合チェック箇所推定装置２が整合チェック箇所を推定する動作について説明する。

まず、主副集合推定部２２は、参照元ドキュメント９ａにおいて、主集合として、「機能名」の列と、副集合として「Ａ」、「Ｂ」、・・・、「Ｊ」の各列とを推定する（図５のステップＡ１）。これらの列が主集合または副集合として推定される動作の詳細については後述する。

次に、主副集合推定部２２は、参照先ドキュメント９ｂにおいて、主集合として「エンティティ候補」の列と、副集合として「種別」の列および「説明」の列とを推定する（ステップＡ２）。これらの列が主集合または副集合として推定される動作の詳細については後述する。

次に、チェック箇所推定部１３は、参照元の整合チェック箇所として、「機能名」の列を、以下のようにして推定する（ステップＡ３）。

ここでは、チェック箇所推定部１３は、参照元の主集合である「機能名」の列を、整合チェック箇所と推定する。また、チェック箇所推定部１３は、参照元の副集合「Ａ」、「Ｂ」、・・・、「Ｊ」の各列について、参照先の主集合または副集合と見出しが共通するか否かを判断する。ここでは、参照先の主集合および副集合のいずれも、見出しが「Ａ」、「Ｂ」、・・・、「Ｊ」であるものはない。そこで、チェック箇所推定部１３は、参照元の副集合の各列については、整合チェック箇所として推定しない。

次に、チェック箇所推定部１３は、参照先の整合チェック箇所として、「エンティティ候補」の列を、以下のようにして推定する（ステップＡ４）。

ここでは、チェック箇所推定部１３は、参照先の主集合である「エンティティ候補」の列を、整合チェック箇所と推定する。また、チェック箇所推定部１３は、参照先の副集合「種別」の列および「説明」の列について、参照元の主集合または副集合と見出しが共通するか否かを判断する。ここでは、参照元の主集合および副集合のいずれも、見出しが「種別」または「説明」であるものはない。そこで、チェック箇所推定部１３は、参照先の副集合「種別」の列および「説明」の列については、整合チェック箇所として推定しない。

このようにして、整合チェック箇所推定装置２は、参照元ドキュメント９ａおよび参照先ドキュメント９ｂにおいて、整合チェックすべき箇所を整合チェック箇所として推定できたことになる。

次に、参照元ドキュメント９ａにおける主集合および副集合の推定動作（ステップＡ１）の詳細について説明する。

ここでは、まず、主副集合推定部２２は、参照元ドキュメント９ａを先頭行から順に調べ、１行１列目の「機能名」が、図７の事前知識にある正規表現「^機能名$」に合致すると判断する。そこで、主副集合推定部２２は、参照元ドキュメント９ａの1行目を列見出し行とみなし、列見出し行に含まれる見出し「機能名」、「Ａ」、「Ｂ」、・・・、「Ｊ」を抽出する（ステップＡ５）。

次に、主副集合推定部２２は、参照元ドキュメント９ａの1行目の列見出し行のうち、「機能名」を選択する（ステップＡ６でＹｅｓ、ステップＡ７）。

次に、主副集合推定部２２は、選択した見出し「機能名」が不要集合特徴「^項$」に合致しないと判断する（ステップＡ８でＮｏ）。

次に、主副集合推定部２２は、選択した見出し「機能名」の列の要素として、「発注計画確認」、「発注計画保留」、・・・、「見積依頼の作成」を抽出する（ステップＡ９）。

次に、主副集合推定部２２は、選択した見出し「機能名」の列の要素数５をＭに代入する（ステップＡ１０）。

次に、主副集合推定部２２は、Ｍ（＝５）＞Nthres（＝１）であると判断し（ステップＡ１１でＹｅｓ）、選択した見出し「機能名」が図７の副集合特徴のいずれにも合致しないと判断する（ステップＡ１２でＮｏ）。

ここで、参照元ドキュメント９ａの「機能名」の列において、５つの要素「発注計画確認」、「発注計画保留」、・・・、「見積依頼の作成」はいずれも重複していないため、重複を除いても要素数は５である。そこで、主副集合推定部２２は、「機能名」の列の重複無し要素数５をＮに代入する（ステップＡ１３）。

次に、主副集合推定部２２は、重複度合N／M（＝５／５）がRthres（＝0.5）以上であると判断する（ステップＡ１４でＹｅｓ）。

したがって、主副集合推定部２２は、見出し「機能名」の列を主集合として推定する（ステップＡ１６）。

そして、主副集合推定部２２は、見出し「機能名」を処理済みと設定し（ステップＡ１８）、ステップＡ６からの処理を繰り返す。

次に、主副集合推定部２２は、参照元ドキュメント９ａの1行目の列見出し行のうち、まだ処理済みでない「Ａ」を選択する（ステップＡ６でＹｅｓ、ステップＡ７）。

次に、主副集合推定部２２は、選択した見出し「Ａ」が不要集合特徴「^項$」に合致しないと判断する（ステップＡ８でＮｏ）。

次に、主副集合推定部２２は、選択した見出し「Ａ」の列の要素として、「〇」、空欄、「〇」、「〇」、空欄を抽出する（ステップＡ９）。

次に、主副集合推定部２２は、選択した見出し「画面ＩＤ」の列の要素数５をＭに代入する（ステップＡ１０）。

次に、主副集合推定部２２は、Ｍ（＝５）＞Nthres（＝１）であると判断し（ステップＡ１１でＹｅｓ）、選択した見出し「Ａ」が図７の副集合特徴のいずれにも合致しないと判断する（ステップＡ１２でＮｏ）。

ここで、参照元ドキュメント９ａの「Ａ」の列において、空欄を除いた要素「〇」、「〇」、「〇」は重複しているため、重複を除いた要素数は１である。そこで、主副集合推定部２２は、「Ａ」の列の重複無し要素数１をＮに代入する（ステップＡ１３）。

次に、チェック箇所推定部１３は、重複度合N／M（＝１／５）がRthres（＝0.5）未満であると判断する（ステップＡ１４でＮｏ）。

したがって、主副集合推定部２２は、見出し「Ａ」の列を副集合として推定する（ステップＡ１７）。

そして、主副集合推定部２２は、見出し「Ａ」を処理済と設定し（ステップＡ１８）、ステップＡ６からの処理を繰り返す。

以降、主副集合推定部２２は、見出し「Ｂ」、「Ｃ」、・・・、「Ｊ」を順次選択し（ステップＡ７）、見出し「Ａ」を選択したときと略同様の処理を繰り返す。これにより、主副集合推定部２２は、見出し「Ｂ」、「Ｃ」、・・・、「Ｊ」の各列を副集合として推定する。

このようにして、主副集合推定部２２は、参照元ドキュメント９ａにおいて、主集合として「機能名」の列と、副集合として「Ａ」、「Ｂ」、・・・、「Ｊ」の各列とを推定する。

以上で、具体例２におけるステップＡ１の動作の説明を終了する。

次に、参照先ドキュメント９ｂにおける主集合および副集合の推定動作（ステップＡ２）の詳細について説明する。

ここでは、まず、主副集合推定部２２は、参照先ドキュメント９ｂを先頭行から順に調べ、４行１列目の「項」が、図７の事前知識にある正規表現「^項$」に合致すると判断する。そこで、主副集合推定部２２は、参照先ドキュメント９ｂの４行目を列見出し行とみなし、列見出し行に含まれる見出し「項」、「種別」、「エンティティ候補」、「説明」を抽出する（ステップＡ５）。

次に、主副集合推定部２２は、参照先ドキュメント９ｂの４行目の列見出しのうち、「項」を選択する（ステップＡ６でＹｅｓ、ステップＡ７）。

次に、主副集合推定部２２は、選択した見出し「項」が不要集合特徴「^項$」に合致すると判断する（ステップＡ８でＹｅｓ）。

そこで、主副集合推定部２２は、見出し「項」を処理済と設定し（ステップＡ１８）、ステップＡ６からの処理を繰り返す。

次に、主副集合推定部２２は、参照先ドキュメント９ｂの４行目の列見出しのうち、まだ処理済みでない「種別」を選択する（ステップＡ６でＹｅｓ、ステップＡ７）。

次に、主副集合推定部２２は、選択した見出し「種別」が不要集合特徴「^項$」に合致しないと判断する（ステップＡ８でＮｏ）。

次に、主副集合推定部２２は、選択した見出し「種別」の列の要素として、「イベント系」、「イベント系」、「イベント系」を抽出する（ステップＡ９）。

次に、主副集合推定部２２は、選択した見出し「種別」の列の要素数３をＭに代入する（ステップＡ１０）。

次に、主副集合推定部２２は、Ｍ（＝３）＞Nthres（＝１）であると判断し（ステップＡ１１でＹｅｓ）、選択した見出し「種別」が図７の副集合特徴のいずれにも合致しないと判断する（ステップＡ１２でＮｏ）。

ここで、参照先ドキュメント９ｂの「種別」の列において、３つの要素「イベント系」、「イベント系」、「イベント系」は全て重複しているため、重複を除いた要素数は１である。そこで、主副集合推定部２２は、「種別」の列の重複無し要素数１をＮに代入する（ステップＡ１３）。

したがって、主副集合推定部２２は、見出し「種別」の列を副集合として推定する（ステップＡ１７）。

そして、主副集合推定部２２は、見出し「種別」を処理済みと設定し（ステップＡ１８）、ステップＡ６からの処理を繰り返す。

次に、主副集合推定部２２は、参照先ドキュメント９ｂの４行目の列見出し行のうち、まだ処理済みでない「エンティティ候補」を選択する（ステップＡ６でＹｅｓ、ステップＡ７）。

次に、主副集合推定部２２は、選択した見出し「エンティティ候補」が不要集合特徴「^項$」に合致しないと判断する（ステップＡ８でＮｏ）。

次に、主副集合推定部２２は、選択した見出し「エンティティ候補」の列の要素として、「受注」、「発注計画」、「プロジェクト」を抽出する（ステップＡ９）。

次に、主副集合推定部２２は、選択した見出し「エンティティ候補」の列の要素数３をＭに代入する（ステップＡ１０）。

次に、主副集合推定部２２は、Ｍ（＝３）＞Nthres（＝１）であると判断し（ステップＡ１１でＹｅｓ）、選択した見出し「エンティティ候補」が図７の副集合特徴のいずれにも合致しないと判断する（ステップＡ１２でＮｏ）。

ここで、参照先ドキュメント９ｂの「エンティティ候補」の列において、３つの要素「受注」、「発注計画」、「プロジェクト」はいずれも重複していないため、重複を除いても要素数は３である。そこで、主副集合推定部２２は、「エンティティ候補」の列の重複無し要素数３をＮに代入する（ステップＡ１３）。

したがって、主副集合推定部２２は、見出し「エンティティ候補」の列を主集合として推定する（ステップＡ１６）。

そして、主副集合推定部２２は、見出し「エンティティ候補」を処理済と設定し（ステップＡ１８）、ステップＡ６からの処理を繰り返す。

次に、主副集合推定部２２は、選択した見出し「説明」の列の要素として、「得意様毎の・・・」、「オーダーされた・・・」、「プロジェクト情報・・・」を抽出する（ステップＡ９）。

次に、主副集合推定部２２は、選択した見出し「説明」の要素数３をＭに代入する（ステップＡ１０）。

次に、チェック箇所推定部１３は、主副集合推定部２２は、Ｍ（＝３）＞Nthres（＝１）であると判断し（ステップＡ１１でＹｅｓ）、選択した見出し「説明」が図７の副集合特徴「^説明$」に合致すると判断する（ステップＡ１２でＹｅｓ）。

このようにして、主副集合推定部２２は、参照先ドキュメント９ｂにおいて、主集合として「エンティティ候補」の列と、副集合として見出し「種別」の列、「説明」の列とを推定する。

以上で、ステップＡ２の動作の説明を終了し、具体例２の説明を終了する。

これらの具体例１および具体例２に示したように、整合チェック箇所推定装置２は、事前知識のいずれかに合致する見出しを１つでも含む行を見出し行としてみなしている。ここで、システム・ソフトウェア開発等におけるドキュメントでは、多くの関連者にとって分かり易いよう、「画面名」などのように、異なる案件でも同一（類似）の見出しが用いられることが多い。ただし、案件特有の見出しもある。このような場合であっても、整合チェック箇所推定装置２は、一般的な見出しの特徴を事前知識として準備しておくことで、そのような一般的な見出しの特徴を含む見出し行に含まれる案件特有の見出しも検出することができる。

また、これらの具体例１および具体例２に示したように、整合チェック箇所推定装置２は、主集合と副集合とを区別して、整合チェック箇所を推定している。ここで、システム・ソフトウェア開発等におけるドキュメントでは、「画面一覧」などの一覧表を作成して必要項目を洗い出してから、洗い出した個々の必要項目に対して「画面レイアウト」など属性を副次的に定義して詳細化する場合が多い。そのような場合に対応して、整合チェック箇所推定装置２は、必要項目である主集合と副次的な箇所である副集合とを区別して、整合チェック箇所を推定することができる。

なお、上述した本実施の形態および各具体例では、参照元ドキュメントおよび参照先ドキュメントには表が含まれ、整合チェック箇所が列単位となる例を中心に説明した。

この他、整合チェック箇所が行単位となる場合にも、本実施の形態は適用可能である。この場合、主副集合推定部２２は、事前知識の少なくともいずれかに合致する文字列を含む表の列を見出し列として選択し、見出し列に含まれる各欄を見出しとして抽出してもよい。そして、整合チェック箇所推定装置２は、抽出した見出しを含む行を、その見出しに対応する情報の集合とみなし、その行に含まれる各欄の情報を、集合の要素とみなしてもよい。そして、整合チェック箇所推定装置２は、上述した本実施の形態と略同様に動作して、整合チェック箇所を推定することができる。

この他、参照元ドキュメントおよび参照先ドキュメントに段落からなる文章が含まれ、整合チェック箇所が段落単位となる場合についても、本実施の形態は適用可能である。

この場合、例えば、図１０に示すような事前知識があらかじめ用意されていてもよい。図１０では、主集合特徴は、見出しに相当する段落のタイトルに設定されるアウトラインレベルで表されている。また、不要集合特徴は、正規表現で表されている。そして、主副集合推定部２２は、主集合特徴「アウトラインレベル＝Ｘ」に合致する段落のタイトルを見出しとして抽出すればよい。また、主副集合推定部２２は、抽出した見出しのうち、不要集合特徴に合致する見出しに対応する段落を、整合チェック箇所から除外する。

また、例えば、図１１に示すような事前知識があらかじめ用意されていてもよい。図１１では、主集合特徴は、見出しに相当する段落のタイトルに設定される複数の特徴の組み合わせで表されている。この場合、主副集合推定部２２は、主集合特徴「アウトラインレベル＝Ｘかつ文字列が“機能要件”と類似」に基づいて、アウトラインレベルがＸに設定された段落のタイトルのうち、「機能要件」に類似するタイトルを見出しとして抽出すればよい。

そして、整合チェック箇所推定装置２は、抽出した見出しに続く段落を、その見出しに対応する情報の集合とみなし、段落に含まれる各文を、集合の要素とみなしてもよい。そして、整合チェック箇所推定装置２は、上述した本実施の形態と略同様に動作して、整合チェック箇所を推定することができる。

次に、本発明の第２の実施の形態の効果について述べる。

本発明の第２の実施の形態としての整合チェック箇所推定装置は、ドキュメント間における整合チェック箇所を、さらに精度よく推定することができる。

その理由について説明する。本実施の形態では、主副集合推定部が、参照元ドキュメントおよび参照先ドキュメントにおいて、事前知識の少なくとも１つに合致する情報を含む行を見出し行とみなし、その見出し行から１つ以上の見出しを抽出する。そして、主副集合推定部が、抽出した各見出しに対応する情報の集合を、その要素数と、要素の重複度合と、事前知識に含まれる主集合特徴、副集合特徴、および、不要集合特徴とに基づいて、主集合および副集合に推定するからである。また、チェック箇所推定部が、参照元の主集合と、参照元の副集合のうち参照先と見出しが共通条件を満たすものと、参照先の主集合と、参照先の副集合のうち参照元と見出しが共通条件を満たすものとを、整合チェック箇所として推定するからである。

このように、本実施の形態は、多くの関連者にとって分かり易いよう用いられる一般的な見出しの特徴を事前知識として準備しておく。これにより、本実施の形態は、そのような一般的な見出しの特徴を含む見出し行に含まれる、案件特有の見出しも抽出することができる。その結果、本実施の形態は、整合チェックすることが望ましい箇所の見出しをより精度よく検出することになる。

また、このように、本実施の形態は、ドキュメントにおいて主要な情報が記述されていると推定された箇所（主集合）については、すべて整合チェック箇所と推定する。また、本実施の形態は、主要な情報が記述された箇所（主集合）に対して付随する情報の箇所（副集合）については、対応するドキュメントにおいて共通条件を満たす見出しがあるものを、整合チェック箇所と推定する。つまり、本実施の形態は、主要な情報である主集合と、副次的な情報である副集合とを区別して、整合チェック箇所を推定することで、より精度よく整合チェック箇所を推定することになる。

（第３の実施の形態）
次に、本発明の第３の実施の形態について図面を参照して詳細に説明する。なお、本実施の形態の説明において参照する各図面において、本発明の第１の実施の形態と同一の構成および同様に動作するステップには同一の符号を付して本実施の形態における詳細な説明を省略する。

まず、本発明の第３の実施の形態としての整合チェック箇所推定装置３の構成を図１２に示す。図１２において、整合チェック箇所推定装置３は、本発明の第２の実施の形態としての整合チェック箇所推定装置２に対して、チェック箇所推定部１３に替えてチェック箇所推定部３３を備える点が異なる。ここで、整合チェック箇所推定装置３およびその各機能ブロックは、図２を参照して説明した本発明の第２の実施の形態としての整合チェック箇所推定装置２と同一のハードウェア要素によって構成可能である。なお、整合チェック箇所推定装置３およびその各機能ブロックのハードウェア構成は、上述の構成に限定されない。

チェック箇所推定部３３は、本発明の第２の実施の形態におけるチェック箇所推定部１３と略同様に構成されることにより、本発明の第２の実施の形態においては整合チェック箇所として推定した主集合または副集合を、整合チェック箇所の候補の集合とする。

そして、チェック箇所推定部３３は、参照元ドキュメントにおける各候補および参照先ドキュメントにおける各候補の間で、互いの要素数の関係が所定条件を満たす候補の組み合わせを、整合チェック箇所の組み合わせとして推定する。なお、互いの要素数の関係が所定条件を満たすとは、例えば、要素数の比が閾値以下であることであってもよい。この場合、参照元の候補の要素数をｎとし、参照先の候補の要素数をｍとして、ｎ／ｍまたはｍ／ｎのいずれかが閾値以下となることを所定条件としてもよい。

ここで、参照元ドキュメントおよび参照先ドキュメントの間で、このような整合チェック箇所の組み合わせを推定する理由について説明する。整合チェックが有効となるのは、箇所の多くが整合している場合である。箇所のほとんどが整合していない場合、不整合というアラームが多く検出され、整合チェックの有効性が薄れる。もし、参照元の整合チェック箇所と参照先の整合チェック箇所とで要素数が大きく異なる場合、箇所の多くが整合せず、整合チェックの有効性が薄れることになる。このように、要素数が大きく異ならない整合チェック箇所の候補の組み合わせは、互いに整合をチェックする整合チェック箇所の組み合わせとして適しているからである。

また、チェック箇所推定部３３は、参照元ドキュメントまたは参照先ドキュメントにおいて、互いの要素数の関係が所定条件を満たす１つ以上の整合チェック箇所を、関連性のある整合チェック箇所として推定する。なお、互いの要素数の関係が所定条件を満たすとは、上述と同様に、例えば、要素数の比が閾値以下であることであってもよい。

ここで、参照元ドキュメントまたは参照先ドキュメントにおいて、このような関連性のある１つ以上の整合チェック箇所を推定する理由について説明する。参照元ドキュメントまたは参照先ドキュメントにおいて、要素数が大きく異ならない複数の整合チェック箇所の候補は、互いに関連性のある箇所である可能性が高い。このような互いに関連性のある箇所としては、例えば１つの表における複数の列等がある。この場合、それらの列は、同一の表に記述される関連性のある情報を含んでいるからである。また、参照元ドキュメントまたは参照先ドキュメントにおいて、要素数が大きく異なる複数の整合チェック箇所の候補は、互いに関連性のない箇所である可能性が高い。このような互いに関連性のない箇所としては、例えば異なる表に含まれる列等がある。この場合、それらの列は、互いに関連性のない情報を含んでいる可能性が高い。そこで、一方のドキュメントにおいて要素数が大きく異ならない複数の箇所を互いに関連性のある整合チェック箇所として提示することにより、他方のドキュメントとの間で整合チェックする箇所のグループを提示することが可能となる。

以上のように構成された整合チェック箇所推定装置３の動作について、図１３を参照して説明する。なお、以下では、要素数の関係を判定するための所定条件として、要素数の比が閾値以下であることを用いるものとする。

図１３では、まず、主副集合推定部２２は、本発明の第２の実施の形態と同様にステップＡ１を実行することにより、参照元の主集合および副集合を推定する。

次に、主副集合推定部２２は、本発明の第２の実施の形態と同様にステップＡ２を実行することにより、参照先の主集合および副集合を推定する。

次に、チェック箇所推定部３３は、参照元の主集合と、参照元の副集合のうち参照先の主集合および副集合に対して見出しが共通条件を満たす副集合とを、整合チェック箇所の候補として推定する（ステップＡ２１）。

次に、チェック箇所推定部３３は、参照先の主集合と、参照先の副集合のうち参照元の主集合または副集合に対して見出しが共通条件を満たす副集合とを、整合チェック箇所の候補として推定する（ステップＡ２２）。

次に、チェック箇所推定部３３は、参照元の整合チェック箇所の候補のうち、ステップＡ２４以降の処理を行っていない未処理の候補があるか否かを判断する（ステップＡ２３）。なお、ある参照元ドキュメントについて最初にこのステップが実行される時点では、ステップＡ２１で推定された全ての候補が未処理であると設定されているものとする。

ここで、未処理の候補がなければ、チェック箇所推定部３３は、動作を終了する。

一方、未処理の候補があれば、チェック箇所推定部３３は、参照元ドキュメントにおける未処理の候補のうちの１つを選択する（ステップＡ２４）。

次に、チェック箇所推定部３３は、参照元ドキュメントにおいて、ステップＡ２４で選択した候補と、この候補の要素数との比が閾値以下の要素数を持つ参照元の他の候補とを、関連性のある整合チェック箇所として推定する（ステップＡ２５）。

なお、要素数の比の閾値は、ユーザによってキーボードなどの入力装置を介して入力された値であってもよいし、記憶装置１００４にあらかじめ記憶されている値であってもよい。また、要素数の比の閾値は、それ以外の様態で取得された値であってもよい。例えば、要素数の比の閾値は、１０等の値であってもよい。

次に、チェック箇所推定部３３は、選択した参照元の候補の要素数に対して、要素数の比が閾値以下の参照先の各候補を、選択した参照元の候補に対応する整合チェック箇所として推定する（ステップＡ２６）。

なお、要素数の比の閾値は、ユーザによってキーボードなどの入力装置を介して入力された値であってもよいし、記憶装置１００４にあらかじめ記憶されている値であってもよい。また、要素数の比の閾値は、それ以外の様態で取得される値であってもよい。また、このステップで用いられる要素数の比の閾値は、ステップＡ２５で用いられる閾値と同一であってもよい。

これにより、ステップＡ２５で推定された参照元における１つ以上の整合チェック箇所と、ステップＡ２６で推定された参照先における１つ以上の整合チェック箇所とが、互いに整合しているかをチェックする組み合わせとして対応付けられる。

次に、チェック箇所推定部３３は、ステップＡ２４で選択した候補を処理済と設定し（ステップＡ２７）、ステップＡ２３からの処理を繰り返す。

なお、このようにして、参照元の各候補に対してステップＡ２５〜Ａ２６を実行することにより、チェック箇所推定部３３は、前回の処理で既に推定した整合チェック箇所と同一の整合チェック箇所を再度推定する場合がある。その場合、チェック箇所推定部３３は、重複を除いてもよい。つまり、このような場合、チェック箇所推定部３３は、既に推定済みの整合チェック箇所を推定しないようにしてもよい。あるいは、チェック箇所推定部３３は、ステップＡ２５で推定した１つ以上の参照元の整合チェック箇所を、ステップＡ２７において全て処理済みと設定してもよい。

また、このようにして、参照元の各候補に対してステップＡ２５〜Ａ２６を実行することにより、チェック箇所推定部３３は、参照元ドキュメントと参照先ドキュメントとの間で、２グループ以上の整合チェック箇所の組み合わせを推定することもある。例えば、チェック箇所推定部３３が、参照元ドキュメントにおける集合Ａ１およびＡ２と、参照先ドキュメントにおける集合Ｂ１およびＢ２とを、互いに整合しているかをチェックすべき整合チェック箇所の組み合わせとして推定したとする。この場合、さらに、チェック箇所推定部３３は、同じ参照元ドキュメントにおける集合Ｘ１およびＸ２と、参照先ドキュメントにおける集合Ｙ１およびＹ２とを、互いに整合チェックすべき整合チェック箇所の組み合わせとして推定する場合もある。

以上で、整合チェック箇所推定装置３の動作の説明を終了する。

次に、本発明の第３の実施の形態の効果について述べる。

本発明の第３の実施の形態としての整合チェック箇所推定装置は、ドキュメント間における整合チェック箇所として、互いに整合チェックするのに適した組み合わせを、精度よく推定することができる。

その理由について説明する。本実施の形態では、チェック箇所推定部が、参照元ドキュメントの主集合および副集合、ならびに、参照先ドキュメントの主集合および副集合から、それぞれ整合チェック箇所の候補を推定する。そして、チェック箇所推定部が、参照元ドキュメントにおける各候補および参照先ドキュメントにおける各候補の間で、互いの要素数の関係が所定条件を満たす組み合わせを、互いに整合チェックする整合チェック箇所の組み合わせとして推定するからである。また、このとき、チェック箇所推定部は、参照元ドキュメントまたは参照先ドキュメントにおいて、これらの候補のうち、互いの要素数の関係が所定条件を満たす１つ以上の候補を、関連性のある整合チェック箇所として推定するからである。

これにより、本実施の形態は、参照元ドキュメントおよび参照先ドキュメント間で要素数が大きく異なるため有効でない箇所を除いた上で、整合チェック箇所として適した組み合わせを推定することができる。

（第４の実施の形態）
次に、本発明の第４の実施の形態について図面を参照して詳細に説明する。本実施の形態では、本発明の整合チェック箇所推定装置によって推定される整合チェック箇所を用いて整合チェックを自動で行う整合チェックシステムについて説明する。なお、本実施の形態の説明において参照する各図面において、本発明の第３の実施の形態と同一の構成および同様に動作するステップには同一の符号を付して本実施の形態における詳細な説明を省略する。

まず、本発明の第４の実施の形態としての整合チェックシステム４の構成を図１４に示す。図１４において、整合チェックシステム４は、整合チェック箇所推定装置３と、整合性判定部４４とを備える。ここで、整合チェックシステム４は、図２を参照して説明した本発明の第３の実施の形態としての整合チェック箇所推定装置３と同一のコンピュータ装置によって構成可能である。この場合、整合性判定部４４は、ＲＯＭ１００３および記憶装置１００４に記憶されたコンピュータ・プログラムおよび各種データをＲＡＭ１００２に読み込んで実行するＣＰＵ１００１によって構成される。なお、整合チェックシステム４およびその各機能ブロックのハードウェア構成は、上述の構成に限定されない。

整合チェック箇所推定装置３は、本発明の第３の実施の形態において説明したように、参照元ドキュメントにおける１つ以上の整合性チェック箇所と、参照先ドキュメントにおける１つ以上の整合性チェック箇所との組み合わせを推定する。例えば、整合チェック箇所推定装置３は、記憶装置１００４に、推定した整合チェック箇所の組み合わせを表す情報を出力してもよい。

整合性判定部４４は、整合チェック箇所推定装置３によって推定された整合チェック箇所を用いて、参照元ドキュメントおよび参照先ドキュメント間で、整合チェック箇所間の整合性を判定する。

具体的には、整合性判定部４４は、整合チェック箇所推定装置３によって推定された参照元の整合チェック箇所を、参照元ドキュメントから抽出する。また、整合性判定部４４は、参照元の整合チェック箇所に対応する箇所として組み合わせられた参照先の整合チェック箇所を、参照先ドキュメントから抽出する。

ここで、参照元の整合性チェック箇所が、複数の関連性のある整合チェック箇所からなる場合について説明する。この場合、整合性判定部４４は、それらの整合チェック箇所において対応する各要素を連結して参照元の整合チェック箇所の要素とする。同様に、参照先の整合性チェック箇所が、複数の関連性のある整合チェック箇所からなる場合について説明する。この場合、整合性判定部４４は、それらの整合チェック箇所において対応する各要素を連結して参照先の整合チェック箇所の要素とする。例えば、関連性のある整合チェック箇所として、同一の表に含まれる複数の列が推定されているとする。この場合、整合性判定部４４は、該当する複数の列において同一行に含まれる要素を連結してもよい。

そして、整合性判定部４４は、参照元の整合チェック箇所に含まれる各要素と、参照先の整合チェック箇所に含まれる各要素との間でそれぞれ関連性を表す情報を算出する。そして、整合性判定部４４は、関連性を表す情報が所定条件を満たす場合に、参照元の整合チェック箇所における該当する要素と、参照先の整合チェック箇所における該当する要素とが整合すると判定する。また、整合性判定部４４は、参照元の整合チェック箇所の要素に対して整合する参照先の要素がない場合、参照先における記述漏れとして検出してもよい。同様に、整合性判定部４４は、参照先の整合チェック箇所の要素に対して整合する参照元の要素がない場合、参照元における記述漏れとして検出してもよい。

整合性の判定において用いる関連性を表す情報としては、たとえば、コルモゴロフ複雑性に基づいて抽出した文字列間の類似度を用いてもよい。この場合、整合性判定部４４は、概算した類似度が閾値以上であるならば、整合すると判定してもよい。

以上のように構成された整合チェックシステム４の動作について、図１５を参照して説明する。

図１５では、まず、整合チェック箇所推定装置３は、参照元ドキュメントおよび参照先ドキュメント間で、整合チェック箇所の組み合わせを推定する（ステップＡ２８）。

このステップの動作は、本発明の第３の実施の形態において図１３を参照して説明した動作と同様である。このとき、チェック箇所推定装置３は、推定した整合チェック箇所およびその組み合わせを表す情報を、記憶装置１００４に記憶してもよい。また、整合チェックシステム４は、推定された整合チェック箇所およびその組み合わせを、ユーザによって修正可能に出力し、入力装置を介して入力された情報に基づく修正処理を行ってから記憶装置１００４に記憶するようにしてもよい。

次に、整合性判定部４４は、参照元ドキュメントから、ステップＡ２８で推定された参照元の整合チェック箇所を抽出する。また、整合性判定部４４は、この参照元の整合チェック箇所に対応する箇所としてステップＡ２８で組み合わせられた参照先の整合チェック箇所を、参照先ドキュメントから抽出する（ステップＡ２９）。

このとき、もし、参照元または参照先において、複数の関連性のある整合チェック箇所が推定されている場合、整合性判定部４４は、それらの箇所において対応する各要素を連結して整合チェック箇所の要素とする。

次に、整合性判定部４４は、ステップＡ２９で抽出した参照元の整合チェック箇所における各要素と、参照先の整合チェック箇所における各要素との間で、関連性を表す情報を算出する（ステップＡ３０）。

なお、整合性判定部４４は、このステップにおける各要素間の計算結果を、ディスプレイ装置や印刷装置などの出力装置に出力してもよい。また、整合性判定部４４は、計算結果を、記憶装置１００４に記憶しておいてユーザからのリクエストなどに応じて出力してもよい。また、整合性判定部４４は、計算結果を、その他の様態で出力してもよい。

次に、整合性判定部４４は、ステップＡ３０で計算した関連性に基づいて、参照元および参照先の整合チェック箇所の整合性を判定する（ステップＡ３１）。

例えば、前述のように、整合性判定部４４は、関連性を表す情報が閾値以上の参照元および参照先間の要素のペアを、互いに整合していると判定して出力してもよい。また、整合性判定部４４は、参照先に整合する要素が検出されなかった参照元の要素を、参照先における記述漏れと判定して出力してもよい。同様に、整合性判定部４４は、参照元に整合する要素が検出されなかった参照先の要素を、参照元における記述漏れと判定して出力してもよい。なお、出力先は、ディスプレイ装置や印刷装置等であってもよいし、記憶装置１００４であってもよい。記憶装置１００４に出力した場合、整合性判定部４４は、ユーザからのリクエストに応じて、記憶装置１００４に出力しておいた判定結果を出力してもよい。また、出力先は、ネットワークを介して接続された他の装置などでもよい。

また、整合性の判定に用いられる閾値は、キーボード等の入力装置を介して入力されたものであってもよいし、記憶装置１００４にあらかじめ記憶されているものであってもよい。また、閾値は、それ以外の様態で取得されたものであってもよい。

以上で、整合チェックシステム４は動作を終了する。

次に、整合チェックシステム４の動作を具体例で示す。

まず、ステップＡ２８〜Ａ２９の動作について、具体例を説明する。

例えば、図８に示した参照元ドキュメント８ａおよび参照先ドキュメント８ｂを想定する。

この場合、ステップＡ２８において、整合チェック箇所推定装置３は、参照元での関連性のある整合チェック箇所として「画面ＩＤ」および「画面名」を推定し、これらに対応する参照先の整合チェック箇所として「画面ＩＤ」および「画面名」を推定したとする。そして、整合チェック箇所推定装置３は、これらの整合チェック箇所の組み合わせを、記憶装置１００４に出力する。

ここで、記憶装置１００４に出力される整合チェック箇所の組み合わせを表す情報の一例を、図１６に示す。図１６において、「参照元箇所」は、参照元の整合チェック箇所の見出しの文字列を表す。また、「参照先箇所」は、参照先の整合チェック箇所の見出しの文字列を表す。また、同一の行に示された参照元箇所および参照先箇所は、互いに整合チェックするよう推定された組み合わせである。

なお、これらの参照元箇所および参照先箇所は、整合チェック箇所の見出しの文字列に限らず、その他の情報で表されていてもよい。例えば、参照元ドキュメントまたは参照先ドキュメントがスプレッドシートファイルである場合、参照元箇所および参照先箇所は、整合チェック箇所を特定可能なシート名やセルの位置情報などで表されていてもよい。また、参照元ドキュメントまたは参照先ドキュメントが文書ファイルである場合、参照元箇所および参照先箇所は、整合チェック箇所を特定可能なページ番号や行番号、章番号などで表されていてもよい。

次に、ステップＡ２９において、整合性判定部４４は、参照元ドキュメント８ａから、図１６の「参照元箇所」に基づいて、参照元の整合チェック箇所「SZTA001、成果物登録」、「SZTA002、成果物改版」、「SZTA003、成果物メンテナンス」を抽出する。また、整合性判定部４４は、参照先ドキュメントから、図１６の「参照先箇所」に基づいて、参照先の整合チェック箇所「SZTA002、成果物改版」、「SZTA003、成果物メンテナンス」を抽出する。このように、整合性判定部４４は、一方のドキュメントにおいて関連性のある複数の整合チェック箇所「画面ＩＤ」および「画面名」の各列において、同一行に含まれる要素を連結した情報を抽出する。

また、例えば、図９に示した参照元ドキュメント９ａおよび参照先ドキュメント９ｂを想定する。

この場合、ステップＡ２８において、整合チェック箇所推定装置３は、参照元の整合チェック箇所として「機能名」を推定し、対応する参照先の整合チェック箇所として「エンティティ候補」を推定したとする。そして、整合チェック箇所推定装置３は、これらの整合チェック箇所の組み合わせを、図１７に示すように、記憶装置１００４に出力する。

次に、ステップＡ２９において、整合性判定部４４は、参照元ドキュメント９ａから、図１７の「参照元箇所」に基づいて、整合チェック箇所「発注計画確認」、「発注計画保留」、・・・、「見積依頼の作成」を抽出する。また、整合性判定部４４は、参照先ドキュメント９ｂから、図１７の「参照先箇所」に基づいて、整合チェック箇所「受注」、「発注計画」、「プロジェクト」を抽出する。

次に、ステップＡ３０の動作について具体例を説明する。

ここでは、関連性を表す情報を、コルモゴロフ複雑性に基づいて概算する例について説明する。この場合、対象を圧縮するアルゴリズムをあらかじめ定めておくと、対象ｉと対象ｊとの間の類似度s（ｉ，ｊ）は、次式（１）または次式（２）によって算出可能である。

ｓ（ｉ，ｊ）＝１−Ｃ（ｉｊ）／｛Ｃ（ｉ）＋Ｃ（ｊ）｝・・・（１）
ｓ（ｉ，ｊ）＝１−［Ｃ（ｉｊ）−ｍｉｎ｛Ｃ（ｉ），Ｃ（ｊ）｝］／ｍａｘ｛Ｃ（ｉ），Ｃ（ｊ）｝・・・（２）
なお、式（１）および（２）において、Ｃ（ｉ）は対象ｉを圧縮した場合のサイズを表し、Ｃ（ｊ）は、対象ｊを圧縮した場合のサイズを表す。また、Ｃ（ｉｊ）は、対象ｉおよび対象ｊを連結させた新たな対象を圧縮した場合のサイズを表す。

また、ここで指定される圧縮アルゴリズムとしては、たとえば、zip、gzip（ＧＮＵＺＩＰ）などが採用可能である。このような圧縮アルゴリズムは、文字列を、文字そのものを示す記号あるいはその文字以前に出現した部分文字列を表す情報（一致長、一致位置のペア）に符号化する。また、このような符号化では、文字列に出現する記号の個数に応じて、個数の多い記号ほど短い符号が割り当てられる。したがって、したがって、コルモゴロフ複雑性の概算により、助詞も含めて単語順を考慮した対象ｉ、ｊ間の類似度が計算可能である。

そこで、ステップＡ３０において、この具体例では、整合性判定部４４は、上記式（１）または（２）における対象ｉおよび対象ｊに、参照元および参照先の整合チェック箇所における各要素を適用し、これらの要素間の類似度を算出する。

例えば、図８に示した参照元ドキュメント８ａおよび参照先ドキュメント８ｂを対象としている場合について説明する。この場合、参照元ドキュメント８ａの整合チェック箇所が「SZTA001、成果物登録」、「SZTA002、成果物改版」、「SZTA003、成果物メンテナンス」である。また、参照先ドキュメント８ｂの整合チェック箇所が「SZTA002、成果物改版」、「SZTA003、成果物メンテナンス」である。この場合、参照元の整合チェック箇所に３つの要素が含まれ、参照先の整合チェック箇所に２つの要素が含まれる。そこで、この場合、整合性判定部４４は、参照元の３つの各要素に対して参照先の２つの要素の合計６通りの要素のペアについて、それぞれ関連性を表す情報を計算する。具体的には、整合性判定部４４は、対象ｉに参照元の「SZTA001、成果物登録」を適用し、対象ｊに参照先の「SZTA002、成果物改版」を適用して要素間の類似度を算出する。同様に、整合性判定部４４は、残りの５通りの要素のペアについても、それぞれ類似度を算出する。

また、例えば、図９に示した参照元ドキュメント９ａおよび参照先ドキュメント９ｂを対象としている場合について説明する。この場合、参照元ドキュメント９ａの整合チェック箇所が「発注計画確認」、「発注計画保留」、・・・、「見積依頼の作成」である。また、参照先ドキュメント９ｂの整合チェック箇所が「受注」、「発注計画」、「プロジェクト」である。この場合、参照元の整合チェック箇所に５つの要素が含まれ、参照先の整合チェック箇所に３つの要素が含まれる。そこで、この場合、整合性判定部４４は、参照元の５つの各要素に対して参照先の３つの要素の合計１５通りの要素のペアについて、それぞれ関連性を表す情報を計算する。具体的には、整合性判定部４４は、対象ｉに参照元の「発注計画確認」を適用し、対象ｊに参照先の「受注」を適用して要素間の類似度を算出する。同様に、整合性判定部４４は、残りの１４通りの要素のペアについても、それぞれ類似度を算出する。

次に、ステップＡ３１では、整合性判定部４４は、ステップＡ３０で算出した要素のペアの類似度が、それぞれ閾値以上であるか否かを判定する。閾値は、例えば、０．３、０．３５、０．５５などの値であってもよい。

例えば、図８に示した参照元ドキュメント８ａおよび参照先ドキュメント８ｂを対象とする場合について説明する。この場合、整合性判定部４４は、参照元の要素「SZTA002、成果物改版」に対しては、参照先の要素「SZTA002、成果物改版」が整合していると判定したものとする。また、整合性判定部４４は、参照元の要素「SZTA003、成果物メンテナンス」に対しては、参照先の要素「SZTA003、成果物メンテナンス」が整合していると判定したものとする。一方で、整合性判定部４４は、参照元の要素「SZTA001、成果物登録」に対しては、参照先で類似度が閾値以上となる要素がないため、整合しない（記述漏れ）と判定する。

また、例えば、図９に示した参照元ドキュメント９ａおよび参照先ドキュメント９ｂを対象とする場合について説明する。この場合、整合性判定部４４は、参照元の「発注計画確認」、「発注計画保留」等に対しては、参照先の「発注計画」が整合していると判定する。一方で、整合性判定部４４は、参照元の「見積依頼の作成」に対しては、参照先で類似度が閾値以上となる要素がないため、整合しない（記述漏れ）と判定する。

以上で、具体例の説明を終了する。

次に、本発明の第４の実施の形態の効果について述べる。

本発明の第４の実施の形態としての整合チェックシステムは、分析対象の各ドキュメントにおいて推定した整合チェック箇所を用いて、ドキュメント間の整合チェックをより精度よく行うことができる。

その理由について説明する。本実施の形態では、整合チェック箇所推定装置が、参照元ドキュメントおよび参照先ドキュメントにおいて互いに整合性をチェックする整合チェック箇所の組み合わせを推定する。そして、整合性判定部が、参照元の整合チェック箇所に含まれる各要素と、参照先の整合チェック箇所に含まれる各要素との間で、関連性を表す情報が所定条件を満たすペアを整合していると判定するからである。また、整合性判定部が、参照元または参照先の一方の整合チェック箇所に含まれる要素のうち、関連性を表す情報が所定条件を満たす要素が他方の整合チェック箇所にない場合に、他方において該要素が記述漏れであると判定するからである。

これにより、本実施の形態は、参照元ドキュメントを構成する全ての単位（行等）と、参照先ドキュメントを構成するすべての単位との間で関連性を計算する必要がない。したがって、本実施の形態は、より効率的に参照元ドキュメントおよび参照先ドキュメント間の整合性を判定することができる。

なお、本発明の第２から第４の実施の形態において、本発明における分析対象のドキュメントが、参照元ドキュメントおよび参照先ドキュメントから構成される例を中心に説明した。この他、各実施の形態は、参照元ドキュメントおよび参照先ドキュメントの２つを分析対象とする場合に限らず、３つ以上のドキュメントを分析対象とする場合にも適用可能である。その場合、各実施の形態の構成および動作は、参照元ドキュメントを各ドキュメントと読み替え、参照先ドキュメントを、他のドキュメントと読み替えることにより同様に説明される。

また、上述した本発明の各実施の形態において、整合チェック箇所推定装置が、整合チェック箇所を、表の列単位で推定する例を中心に説明したが、その他の単位で推定してもよい。例えば、各実施の形態は、整合チェック箇所を、表における行の単位で推定してもよい。また、参照元ドキュメントと参照先ドキュメントとにそれぞれ複数の表が含まれる場合、各実施の形態は、それぞれの表において列単位または行単位などで整合チェック箇所を推定してもよい。また、参照元ドキュメントと参照先ドキュメントとが段落によって構成される文章である場合、各実施の形態は、整合チェック箇所を、段落単位で推定してもよい。

また、上述した本発明の各実施の形態において、整合チェック箇所推定装置および整合チェックシステムの各機能ブロックが、記憶装置またはＲＯＭに記憶されたコンピュータ・プログラムを実行するＣＰＵによって実現される例を中心に説明した。これに限らず、各機能ブロックの一部、全部、または、それらの組み合わせが専用のハードウェアにより実現されていてもよい。

また、上述した本発明の各実施の形態において、整合チェック箇所装置および整合チェックシステムの機能ブロックは、複数の装置に分散されて実現されてもよい。

また、上述した本発明の各実施の形態において、各フローチャートを参照して説明した整合チェック箇所装置および整合チェックシステムの動作を、本発明のコンピュータ・プログラムとしてコンピュータ装置の記憶装置（記憶媒体）に格納してもよい。そして、係るコンピュータ・プログラムを当該ＣＰＵが読み出して実行するようにしてもよい。このような場合において、本発明は、係るコンピュータ・プログラムのコードあるいは記憶媒体によって構成される。

また、上述した各実施の形態は、適宜組み合わせて実施されることが可能である。
また、上述した各実施の形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
（付記１）
見出しの特徴を表す事前知識を記憶する事前知識記憶部と、
前記事前知識に基づいて、分析対象の各ドキュメントにおいて、それぞれ１つ以上の見出しを抽出し、抽出した各見出しに対応する情報の集合を、主要な集合（主集合）または前記主集合に付随する副次的な情報が含まれる副集合として推定する主副集合推定部と、
前記各ドキュメントにおける主集合および副集合に基づいて、前記各ドキュメントにおいて他の前記ドキュメントとの間で整合性をチェックする箇所（整合チェック箇所）を推定するチェック箇所推定部と、
を備えた整合チェック箇所推定装置。
（付記２）
前記主副集合推定部は、前記集合に含まれる要素の重複度合に基づいて、前記主集合または前記副集合を推定することを特徴とする付記１に記載の整合チェック箇所推定装置。
（付記３）
前記主副集合推定部は、前記集合に含まれる要素の重複度合として、前記集合における重複を含む要素数に対する重複を含まない要素数の割合を用いることを特徴とする付記２に記載の整合チェック箇所推定装置。
（付記４）
前記チェック箇所推定部は、前記各ドキュメントにおける主集合と、前記各ドキュメントにおける副集合のうち他の前記ドキュメントにおける主集合または副集合に対して見出しが所定の共通条件を満たす副集合とを、前記整合チェック箇所として推定することを特徴とする付記１から付記３のいずれか１つに記載の整合チェック箇所推定装置。
（付記５）
前記事前知識記憶部は、整合チェックが不要な見出しの特徴を表す不要集合特徴を前記事前知識に含めて記憶し、
前記主副集合推定部は、前記不要集合特徴に合致する見出しに対応する情報を含む不要集合を除外して、前記主集合または前記副集合を推定することを特徴とする付記１から付記４のいずれか１つに記載の整合チェック箇所推定装置。
（付記６）
前記事前知識記憶部は、主要な見出しに付随する見出しの特徴を表す副集合特徴を前記事前知識に含めて記憶し、
前記主副集合推定部は、前記副集合特徴に合致する見出しに対応する情報の集合を、前記副集合として推定することを特徴とする付記１から付記５のいずれか１つに記載の整合チェック箇所推定装置。
（付記７）
前記主副集合推定部は、前記副集合特徴に合致する見出しに対応する情報の集合を、要素の重複度合によらずに、前記副集合として推定することを特徴とする付記６に記載の整合チェック箇所推定装置。
（付記８）
前記主副集合推定部は、前記副集合特徴に合致しない見出しに対応する情報の集合を、要素の重複度合に基づいて、前記主集合または前記副集合として推定することを特徴とする付記６または付記７に記載の整合チェック箇所推定装置。
（付記９）
前記事前知識記憶部は、主要な見出しの特徴を表す主集合特徴を前記事前知識に含めて記憶し、
前記主副集合推定部は、前記主集合特徴に合致する見出しに対応する情報の集合を、前記主集合として推定することを特徴とする付記１から付記８のいずれか１つに記載の整合チェック箇所推定装置。
（付記１０）
前記主副集合推定部は、前記主集合または前記副集合を推定するために用いる条件として、前記集合の要素数に応じた条件を用いることを特徴とする付記１から付記９のいずれか１つに記載の整合チェック箇所推定装置。
（付記１１）
前記主副集合推定部は、前記集合の要素数が所定条件を満たさない場合、前記重複度合によらずに前記主集合特徴に基づいて、前記主集合または前記副集合を推定することを特徴とする付記１０に記載の整合チェック箇所推定装置。
（付記１２）
前記主副集合推定部は、前記集合の要素数が所定条件を満たす場合、前記副集合特徴および前記重複度合に基づいて、前記主集合または前記副集合を推定することを特徴とする付記１０または付記１１に記載の整合チェック箇所推定装置。
（付記１３）
前記チェック箇所推定部は、前記各ドキュメントにおける主集合および副集合に基づいて、前記各ドキュメントにおいて前記整合チェック箇所の候補となる集合を推定し、前記各ドキュメントにおける候補と他の前記ドキュメントにおける候補との間で、互いの要素数の関係が所定条件を満たす組み合わせを、整合チェック箇所の組み合わせとして推定することを特徴とする付記1から付記１２のいずれか１つに記載の整合チェック箇所推定装置。
（付記１４）
前記チェック箇所推定部は、前記各ドキュメントにおいて、前記候補のうち互いの要素数の関係が所定条件を満たす１つ以上の候補を、関連性のある整合チェック箇所として推定することを特徴とする付記１から付記１３のいずれか１つに記載の整合チェック箇所推定装置。
（付記１５）
前記ドキュメントに表が含まれるとき、
前記事前知識記憶部は、表の列見出しの特徴を表す前記事前知識を記憶し、
前記主副集合推定部は、前記列見出しの特徴に合致する文字列を含む行における前記表の各欄に含まれる情報を見出しとして抽出し、抽出した各見出しの列を前記見出しに対応する情報の集合とし、前記列における各欄に含まれる情報を前記集合の要素として、前記主集合および前記副集合の推定を行うことを特徴とする付記1から付記１４のいずれか１つに記載の整合チェック箇所推定装置。
（付記１６）
前記ドキュメントに段落からなる文章が含まれるとき、
前記事前知識記憶部は、段落の見出しの特徴を表す前記事前知識を記憶し、
前記主副集合推定部は、前記段落の見出しの特徴に合致する情報を前記見出しとして抽出し、抽出した各見出しに対応する段落を前記見出しに対応する情報の集合とし、前記段落に含まれる各文を前記集合の要素として、前記主集合および前記副集合の推定を行うことを特徴とする付記1から付記１５のいずれか１つに記載の整合チェック箇所推定装置。
（付記１７）
付記１から付記１６のいずれか１つに記載の整合チェック箇所推定装置と、
前記整合チェック箇所推定装置によって推定された前記整合チェック箇所を用いて、前記ドキュメント間の整合性を判定する整合性判定部と、
を備えた整合チェックシステム。
（付記１８）
前記整合性判定部は、前記各ドキュメントにおける整合チェック箇所に含まれる各要素と、他の前記ドキュメントにおける整合チェック箇所に含まれる各要素との間の関連性を表す情報を算出し、関連性を表す情報が所定条件を満たす要素のペアを整合していると判定することを特徴とする付記１７に記載の整合チェックシステム。
（付記１９）
前記整合性判定部は、前記各ドキュメントにおける整合チェック箇所に含まれる要素のうち、他の前記ドキュメントの整合チェック箇所に、関連性を表す情報が所定条件を満たす要素がない要素を、該他のドキュメントにおける記述漏れと判定することを特徴とする付記１８に記載の整合チェックシステム。
（付記２０）
前記整合性判定部は、前記ドキュメントにおいて関連性のある複数の整合チェック箇所が推定されている場合、それらの整合チェック箇所に含まれる対応する各要素を連結した情報を、他のドキュメントとの間で整合をチェックする対象の要素とすることを特徴とする付記１７から付記１９のいずれか１つに記載の整合チェックシステム。
（付記２１）
見出しの特徴を表す事前知識に基づいて、分析対象の各ドキュメントにおいて、それぞれ１つ以上の見出しを抽出し、
抽出した各見出しに対応する情報の集合を、主要な集合（主集合）または前記主集合に付随する副次的な情報が含まれる副集合として推定し、
前記各ドキュメントにおける主集合および副集合に基づいて、前記各ドキュメントにおいて他の前記ドキュメントとの間で整合性をチェックする箇所（整合チェック箇所）を推定する整合チェック箇所推定方法。
（付記２２）
見出しの特徴を表す事前知識に基づいて、分析対象の各ドキュメントにおいて、それぞれ１つ以上の見出しを抽出し、抽出した各見出しに対応する情報の集合を、主要な集合（主集合）または前記主集合に付随する副次的な情報が含まれる副集合として推定する主副集合推定ステップと、
前記各ドキュメントにおける主集合および副集合に基づいて、前記各ドキュメントにおいて他の前記ドキュメントとの間で整合性をチェックする箇所（整合チェック箇所）を推定するチェック箇所推定ステップと、
をコンピュータ装置に実行させるコンピュータ・プログラム。
（付記２３）
付記２１に記載の整合チェック箇所推定方法によって推定された整合チェック箇所を用いて、ドキュメント間の整合性を判定する整合性判定方法。
（付記２４）
付記２２に記載のコンピュータ・プログラムの実行によって推定される整合チェック箇所を用いて、ドキュメント間の整合性を判定する整合性判定ステップをコンピュータ装置に実行させるコンピュータ・プログラム。

以上、上述した実施形態を模範的な例として本発明を説明した。しかしながら、本発明は、上述した実施形態には限定されない。即ち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。

この出願は、２０１４年３月２８日に出願された日本出願特願２０１４−６７５２１を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１、２、３整合チェック箇所推定装置
４整合チェックシステム
１１、２１事前知識記憶部
１２、２２主副集合推定部
１３、３３チェック箇所推定部
４４整合性判定部
１００１ＣＰＵ
１００２ＲＡＭ
１００３ＲＯＭ
１００４記憶装置

Claims

見出しの特徴を表す事前知識を記憶する事前知識記憶手段と、
分析対象の各ドキュメントにおいて、前記事前知識に基づいてそれぞれ１つ以上の見出しを抽出し、抽出した各見出しに対応する情報の集合を、主要な集合（主集合）または前記主集合に付随する副次的な情報が含まれる副集合として推定する主副集合推定手段と、
前記各ドキュメントにおける主集合および副集合に基づいて、前記各ドキュメントにおいて他の前記ドキュメントとの間で整合性をチェックする箇所（整合チェック箇所）を推定するチェック箇所推定手段と、
を備え、
前記主副集合推定手段は、前記集合に含まれる要素の重複度合に基づいて、前記主集合または前記副集合を推定し、
前記チェック箇所推定手段は、前記各ドキュメントにおける主集合と、前記各ドキュメントにおける副集合のうち他の前記ドキュメントにおける主集合または副集合に対して見出しが所定の共通条件を満たす副集合とを、前記整合チェック箇所として推定することを特徴とする整合チェック箇所推定装置。
前記事前知識記憶手段は、整合チェックが不要な見出しの特徴を表す不要集合特徴を前記事前知識に含めて記憶し、
前記主副集合推定手段は、前記不要集合特徴に合致する見出しに対応する情報を含む不要集合を除外して、前記主集合または前記副集合を推定することを特徴とする請求項１に記載の整合チェック箇所推定装置。
前記事前知識記憶手段は、主要な見出しに付随する見出しの特徴を表す副集合特徴を前記事前知識に含めて記憶し、
前記主副集合推定手段は、前記副集合特徴に合致する見出しに対応する情報の集合を、前記副集合として推定することを特徴とする請求項１または２に記載の整合チェック箇所推定装置。
前記事前知識記憶手段は、主要な見出しの特徴を表す主集合特徴を前記事前知識に含めて記憶し、
前記主副集合推定手段は、前記主集合特徴に合致する見出しに対応する情報の集合を、前記主集合として推定することを特徴とする請求項１から請求項３のいずれか１項に記載の整合チェック箇所推定装置。
分析対象の各ドキュメントにおいて、見出しの特徴を表す事前知識に基づいてそれぞれ１つ以上の見出しを抽出し、
抽出した各見出しに対応する情報の集合を、主要な集合（主集合）または前記主集合に付随する副次的な情報が含まれる副集合として推定し、
前記各ドキュメントにおける主集合および副集合に基づいて、前記各ドキュメントにおいて他の前記ドキュメントとの間で整合性をチェックする箇所（整合チェック箇所）を推定し、
前記集合に含まれる要素の重複度合に基づいて、前記主集合または前記副集合を推定し、
前記各ドキュメントにおける主集合と、前記各ドキュメントにおける副集合のうち他の前記ドキュメントにおける主集合または副集合に対して見出しが所定の共通条件を満たす副集合とを、前記整合チェック箇所として推定する整合チェック箇所推定方法。
分析対象の各ドキュメントにおいて、見出しの特徴を表す事前知識に基づいてそれぞれ１つ以上の見出しを抽出し、抽出した各見出しに対応する情報の集合を、主要な集合（主集合）または前記主集合に付随する副次的な情報が含まれる副集合として推定する主副集合推定ステップと、
前記各ドキュメントにおける主集合および副集合に基づいて、前記各ドキュメントにおいて他の前記ドキュメントとの間で整合性をチェックする箇所（整合チェック箇所）を推定するチェック箇所推定ステップと、
前記集合に含まれる要素の重複度合に基づいて、前記主集合または前記副集合を推定するステップと、
前記各ドキュメントにおける主集合と、前記各ドキュメントにおける副集合のうち他の前記ドキュメントにおける主集合または副集合に対して見出しが所定の共通条件を満たす副集合とを、前記整合チェック箇所として推定するステップと
をコンピュータ装置に実行させる整合チェック箇所推定プログラム。