JP6657920B2

JP6657920B2 - 文書検証支援装置、文書検証支援方法、及び、文書検証支援プログラム

Info

Publication number: JP6657920B2
Application number: JP2015247531A
Authority: JP
Inventors: 俊輔河野; 英司平尾; 大地木村
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2015-12-18
Filing date: 2015-12-18
Publication date: 2020-03-04
Anticipated expiration: 2035-12-18
Also published as: JP2017111742A

Description

本願発明は、記載内容に対応関係がある文書間において、その対応関係を検証する作業を支援する技術に関する。

文書を作成する際に、既存の文書に記載された内容を、新たに作成する文書の内容に漏れなく反映させなければならない場合がある。例えばＩＴ（Information Technology）システムあるいはソフトウェアを構築する際に、上流工程において作成される提案書は、顧客から提示された提案依頼書（RFP：Request For Proposal）を参照する。この提案書では、提案依頼書に記載されている顧客の各要求に対する提案内容が、漏れがないように記載されている必要がある。また、要件定義書に対する基本設計書、あるいは、基本設計書に対する詳細設計書等も、このような提案書と同様に作成される。このように文書を作成する手順は、ＩＴシステムやソフトウェアの構築に限らず、例えば、文書の骨子やあらすじを先に作成したのち、それらを参照して文書を作成する場合も同様である。

このような手順で文書を作成する場合、通常、参照先である既存文書と当該既存文書を参照して作成する作成文書との間における、記載内容の対応関係について、検証作業が行われる。このような検証作業は、一般的に、人手作業により行われている。しかしながら人手作業では、時間がかかることに加えて記載漏れを見逃す虞があるという問題がある。したがって、このような検証作業を、例えば類似文書の検索技術等を用いて支援する技術が期待されている。

このような技術の一例として、特許文献１には、検索対象文書および入力テキストから抽出した重み付きキーワードを用いる類似文書検索において、精度が高い検索結果を得る方法が開示されている。この方法では、入力テキスト全体から抽出したキーワードによる検索結果に加えて、入力テキストを分割した各部分文字列から抽出したキーワードによる検索結果を使用する。

また、特許文献２には、複数の文を含む２つの文書の間において、文の対応付けを決定する装置が開示されている。この装置は、２つの部分文書の間について計算される対応付けスコアを最適化するように文の対応付けを決定し、２つの文書について文の対応付けを行う。

また、特許文献３には、計算量の増大を抑制して、文の対応付けを精度よく決定するようにした装置が開示されている。この装置は、２つの文書について、個々に系列二分決定グラフを生成する。この装置は、生成又は前回更新された２つの系列二分決定グラフに基づいて、その系列二分決定グラフを更新する処理を繰り返し、繰り返し計算された文のペアを、２つの文書間における文の対応付けとして出力する。

特許第4426894号公報特開2015-170131号公報特開2015-022497号公報

既存の文書に記載された内容と対応関係がある（対応付けされる）内容について新たに記載する文書の内容は、参照先である既存の文書に記載された内容よりも、詳細化あるいは具体化された内容であることが多い。そのような文書では、参照した既存の文書の内容と対応関係がある記載が、文書中の離れた位置にまたがることが頻繁に発生する。

例えば、提案書においては、提案依頼書に記載された個々の要求に対する充足手段の詳細が、提案内容として記載される。この際、その充足手段の詳細に関する記載は、提案書において離れた位置にまたがることが多い。具体的には、提案依頼書に、「現用系サーバ障害時の予備系サーバへの切り替え処理に際しては配信データの欠落を最小限に抑えること。」という要求が記載されていたとする。この要求に対する提案内容は、サーバ切り替え処理の詳細に関する説明を含めて、提案書のひとつの段落を用いて記載することができる。すなわち提案書においては、「現用系サーバ障害時には予備系サーバへの切り替え処理を行います。（中略）速やかに再同期処理を行うことにより、配信データの欠落を最小限に抑えます。」というように、提案内容を記載することができる。

しかしながら、例えば、特許文献１に記載された技術をこのような例に適用する場合、検索に用いる部分文字列への分割方法は、ユーザ（検証作業者）が文書の特性を見極めてから手作業により決定する必要がある。そのため、ユーザの負荷が大きく作業効率が悪いという課題がある。特許文献２及び３は、この課題について言及していない。本願発明の主たる目的は、この課題を解決した文書検証支援装置等を提供することである。

本願発明の一態様に係る文書検証支援装置は、参照文書情報が示す参照文書と検証対象文書情報が示す検証対象文書とを分割する際の分割粒度を、前記参照文書及び前記検証対象文書の特性に基づいて、前記参照文書及び前記検証対象文書毎に決定する粒度決定手段と、前記参照文書及び前記検証対象文書が用いる言語の仕様情報に基づいて、前記参照文書及び前記検証対象文書を、前記粒度決定手段により決定された前記分割粒度によって１以上の要素に分割する分割手段と、前記分割手段によって前記要素に分割された前記参照文書と前記検証対象文書との間において、対応関係がある前記要素同士を、所定の抽出基準に基づいて抽出し、抽出した結果を検証支援情報として出力する抽出手段と、を備える。

上記目的を達成する他の見地において、本願発明の一態様に係る文書検証支援方法は、情報処理装置によって、参照文書情報が示す参照文書と検証対象文書情報が示す検証対象文書とを分割する際の分割粒度を、前記参照文書及び前記検証対象文書の特性に基づいて、前記参照文書及び前記検証対象文書毎に決定し、前記参照文書及び前記検証対象文書が用いる言語の仕様情報に基づいて、前記参照文書及び前記検証対象文書を、決定された前記分割粒度によって１以上の要素に分割し、前記要素に分割された前記参照文書と前記検証対象文書との間において、対応関係がある前記要素同士を、所定の抽出基準に基づいて抽出し、抽出した結果を検証支援情報として出力する。

また、上記目的を達成する更なる見地において、本願発明の一態様に係る文書検証支援プログラムは、参照文書情報が示す参照文書と検証対象文書情報が示す検証対象文書をと分割する際の分割粒度を、前記参照文書及び前記検証対象文書の特性に基づいて、前記参照文書及び前記検証対象文書毎に決定する粒度決定処理と、前記参照文書及び前記検証対象文書が用いる言語の仕様情報に基づいて、前記参照文書及び前記検証対象文書を、前記粒度決定処理により決定された前記分割粒度によって１以上の要素に分割する分割処理と、前記分割処理によって前記要素に分割された前記参照文書と前記検証対象文書との間において、対応関係がある前記要素同士を、所定の抽出基準に基づいて抽出し、抽出した結果を検証支援情報として出力する抽出処理と、をコンピュータに実行させるためのプログラムである。

更に、本願発明は、係る文書検証支援プログラム（コンピュータプログラム）が格納された、コンピュータ読み取り可能な、不揮発性の記録媒体によっても実現可能である。

本願発明は、記載内容に対応関係がある文書間において、その対応関係を検証する作業を、ユーザが高精度かつ効率的に行うことを可能とする。

本願発明の第１の実施形態に係る文書検証支援装置１０の構成を示すブロック図である。本願発明の第１の実施形態に係る参照文書情報１６０の構成を例示する図である。本願発明の第１の実施形態に係る検証対象文書情報１７０の構成を例示する図である。本願発明の第１の実施形態に係る分割粒度別カウント情報１２０の構成を例示する図である。本願発明の第１の実施形態に係る参照文書の分割情報１３０の構成を例示する図である。本願発明の第１の実施形態に係る検証対象文書の分割情報１３３の構成を例示する図である。本願発明の第１の実施形態に係る分割部１３がテキスト情報１６２を形態素解析した結果を例示する図である。本願発明の第１の実施形態に係る対応関係情報テーブル１５０の構成を例示する図である。本願発明の第１の実施形態に係る抽出部１５が、参照文書及び検証対象文書の間において、対応関係がある要素同士を抽出する際に行う処理を説明する図である。本願発明の第１の実施形態に係る検証支援情報１８０の構成を例示する図である。本願発明の第１の実施形態に係る文書検証支援装置１０の動作を示すフローチャートである。本願発明の第２の実施形態に係る文書検証支援装置２０の構成を示すブロック図である。本願発明の各実施形態に係る文書検証支援装置を実行可能な情報処理装置の構成を示すブロック図である。

以下、本願発明の実施の形態について図面を参照して詳細に説明する。尚、以降の説明では、検証対象である文書を検証対象文書と称する。また、検証対象文書に記載された内容と対応関係がある内容が記載されている既存の文書を参照文書と称する。上述したＩＴシステムあるいはソフトウェアの構築における提案依頼書及び提案書の例では、提案依頼書が参照文書に相当し、提案書が検証対象文書に相当する。

＜第１の実施形態＞
図１は、本願発明の第１の実施の形態に係る文書検証支援装置１０を概念的に示すブロック図である。文書検証支援装置１０は、参照文書と検証対象文書との間において、記載内容に関する対応関係を抽出することにより、参照文書に記載された内容と対応関係がある記載が、検証対象文書の中に存在するか否かを、ユーザが検証することを支援する装置である。

本実施形態に係る文書検証支援装置１０は、文書入力部１１、粒度決定部１２、分割部１３、記憶部１４、及び、抽出部１５を備えている。文書入力部１１、粒度決定部１２、分割部１３、及び、抽出部１５は、電子回路の場合もあれば、コンピュータプログラムとそのコンピュータプログラムに従って動作するプロセッサによって実現される場合もある。記憶部１４は、メモリあるいは磁気ディスク等の記憶デバイスである。記憶部１４は、電子回路、あるいは、コンピュータプログラムとそのコンピュータプログラムに従って動作するプロセッサによって実現される記憶制御機能を備えている。これらの構成要素は、独立した論理回路でもよいし、通信可能に接続された複数の物理的な位置に分散して配置されてもよい。

文書入力部１１は、ユーザによる入力操作等を介して、参照文書情報１６０及び検証対象文書情報１７０が入力される。文書入力部１１は、複数の参照文書に関して、参照文書情報１６０が入力され、複数の検証対象文書に関して、検証対象文書情報１７０が入力される場合がある。

図２は、参照文書情報１６０の構成を例示する図である。参照文書情報１６０は、文書名情報１６１、及び、テキスト情報１６２を含んでいる。文書名情報１６１は、参照文書の名称を表す情報である。テキスト情報１６２は、参照文書の本体を表す情報である。図２に示すテキスト情報１６２は、その一部を示しており、「・・・」は、省略を表す記号である（その他の図においても同様）。

図３は、検証対象文書情報１７０の構成を例示する図である。検証対象文書情報１７０は、文書名情報１７１、及び、テキスト情報１７２を含んでいる。文書名情報１７１は、検証対象文書の名称を表す情報である。テキスト情報１７２は、検証対象文書の本体を表す情報である。図３に示すテキスト情報１７２は、その一部を示している。

本実施形態に係る文書検証支援装置１０が処理対象とする参照文書及び検証対象文書の形式は、テキスト形式に限定されない。参照文書及び検証対象文書の形式は、例えば、レイアウト情報あるいはアウトライン構造を有する形式、あるいはスプレッドシート形式、あるいはプレゼンテーション形式、あるいはマークアップ言語により記述された形式などであってもよい。

参照文書情報１６０及び検証対象文書情報１７０は、文書名情報及びテキスト情報以外に、文書に関するメタ情報を含んでもよい。このメタ情報としては、例えば、文書のアウトライン構造情報があり、より具体的には、章及び節等の名称、章及び節等とテキストとの対応関係、及び、テキストに関するページ番号等の位置情報等がある。このメタ情報は、スプレッドシートのシート名称、及び、セルの位置とテキストとの対応関係を示す情報等を含んでもよい。

粒度決定部１２は、テキスト情報１６２が示す参照文書、及び、テキスト情報１７２が示す検証対象文書について、それぞれを分割する際の分割粒度を決定する。粒度決定部１２は、この分割粒度として、例えば、段落、文、節、及び、句等を含む、文章の構造を示す単位を用いることができる。粒度決定部１２は、あるいは、所定の文字数を分割粒度として用いてもよい。

粒度決定部１２は、分割粒度を、例えば下記の通り算出する。すなわち、粒度決定部１２は、まず、記憶部１４に記憶された言語仕様情報１４０に基づいて、形態素解析あるいは構文解析等を行うことによって、参照文書及び検証対象文書における、分割粒度の候補となる段落、文、節、及び、句の数をカウントし、そのカウント結果である分割粒度別カウント情報１２０を生成する。粒度決定部１２は、分割粒度別カウント情報１２０に基づき、参照文書及び検証対象文書の分割粒度を、それぞれ、分割された要素（部分）の数が最も近くなるように決定する。

図４は、分割粒度別カウント情報１２０の構成を例示する図である。分割粒度別カウント情報１２０は、分割粒度（段落、文、節、句）毎に、参照文書及び検証対象文書における要素の数を示す情報である。粒度決定部１２は、分割粒度別カウント情報１２０に基づき、例えば、参照文書における要素数と検証対象文書における要素数との比が最も「１」に近くなるような、分割粒度に関する組み合わせを決定する。より具体的には、図４に示す例の場合、粒度決定部１２は、参照文書に関する分割粒度を「句」に決定し、検証対象文書に関する分割粒度を「文」に決定する。尚、粒度決定部１２は、参照文書における要素数と検証対象文書における要素数との差の絶対値が最も小さくなるような、分割粒度に関する組み合わせを決定してもよい。

また、テキスト情報１６２が示す参照文書、及び、テキスト情報１７２が示す検証対象文書が、例えばアウトライン構造などの階層構造を示す情報を含む場合がある。この場合、粒度決定部１２は、当該アウトライン構造が示す、章あるいは節の名称に関する対応関係を示す情報を利用して、分割粒度を決定してもよい。粒度決定部１２は、あるいはまた、ユーザにより参照文書と検証対象文書との対応関係を示す情報を入力された場合、当該情報が示す、章あるいは節単位の対応関係に基づいて、分割粒度を決定してもよい。

粒度決定部１２は、例えばユーザによる指示に基づいて、決定した分割粒度に対して、要素に関する限定条件を示す情報を付加してもよい。すなわち、この場合、粒度決定部１２は、後述する分割部１３が、当該限定条件に合致する要素のみを、参照文書及び検証対象文書を分割した結果として生成できるように指定する。例えば、「句」には、名詞句や形容詞句など、複数の種類が存在する。粒度決定部１２は、例えば、分割粒度を「句」における「名詞句」に限定する条件を、決定した分割粒度に付加することにより、分割部１３が名詞句のみを参照文書及び検証対象文書を分割した結果として生成できるように指定することができる。また、粒度決定部１２は、参照文書及び検証対象文書の特性から分割粒度を決定する際に、上述した限定条件を満たす単位を、予め分割粒度の候補としてもよい。例えば、参照文書がＩＴシステムあるいはソフトウェアの構築における提案依頼書である場合、提案依頼書に記載された要求事項に含まれる名詞句は、分割粒度として好適であるといえる。さらに、検証対象文書がＩＴシステムあるいはソフトウェアの構築における提案書である場合、提案書には提案依頼書に記載された個々の要求に対する充足手段の詳細が記載される。このため、提案書については、参照文書である提案依頼書の分割粒度である名詞句より広い範囲を示す、文や段落が、分割粒度として好適であるといえる。

本実施形態に関する以降の説明では、粒度決定部１２が、参照文書について分割粒度を「名詞句」に決定し、検証対象文書について分割粒度を「文」に決定したこととする。なお、粒度決定部１２が、参照文書及び検証対象文書について、分割粒度を上述とは異なる単位に決定した場合も、本実施形態の動作は、以下の説明と同様である。

分割部１３は、粒度決定部１２により決定された分割粒度により、テキスト情報１６２が示す参照文書、及び、テキスト情報１７２が示す検証対象文書を要素に分割する。この際、分割部１３は、必要に応じて、記憶部１４に記憶されている言語仕様情報１４０を参照する。分割部１３は、参照文書を分割した結果として、参照文書の分割情報１３０を生成し、検証対象文書を分割した結果として、検証対象文書の分割情報１３３を生成する。

図５は、分割部１３が、図２に示す参照文書情報１６０を基に生成した参照文書の分割情報１３０の構成を例示する図である。参照文書の分割情報１３０は、文書名情報１３１及び名詞句情報テーブル１３２を含む。図５に示す文書名情報１３１は、図２に示す文書名情報１６１と等しい情報である。図５には、名詞句情報テーブル１３２の一部が示されている。図５に示す名詞句情報テーブル１３２は、図２に示すテキスト情報１６２の一部である、「現用系サーバ障害時の予備系サーバへの切り替え処理」、及び、「配信データの欠落」という２つの名詞句に基づく情報である。

図５に示す例では、上述した２つの名詞句に基づく情報は、形態素単位で名詞句情報テーブル１３２に格納されている。名詞句情報テーブル１３２には、エントリとして、上述した２つの名詞句に含まれる形態素の情報が、順に格納されている。個々のエントリは、当該形態素が属する名詞句を識別可能な名詞句識別子と、単語文字列と、品詞の種別と、品詞付加情報とを関連付けている。品詞付加情報は、例えば、連体修飾語を形成するといった、形態素が構文において果たす役割を表す情報、あるいは、格助詞あるいは係助詞といった、品詞における分類を表す情報等を含む情報である。

図６は、分割部１３が、図３に示す検証対象文書情報１７０を基に生成した検証対象文書の分割情報１３３の構成を例示する図である。検証対象文書の分割情報１３３は、文書名情報１３４及び文情報テーブル１３５を含む。図６に示す文書名情報１３４は、図３に示す文書名情報１７１と等しい情報である。図６には、文情報テーブル１３５の一部が示されている。文情報テーブル１３５には、エントリとして、図３に示すテキスト情報１７２における文に含まれる形態素の情報が、順に格納されている。個々のエントリは、当該形態素が属する文を識別可能な文識別子と、単語文字列と、品詞の種別と、品詞付加情報とを関連付けている。

参照文書情報１６０及び検証対象文書情報１７０にメタ情報が含まれている場合、分割部１３は、当該メタ情報を含む、参照文書の分割情報１３０及び検証対象文書の分割情報１３３を生成してもよい。より具体的には、分割部１３は、例えば、名詞句あるいは文について、文書内の位置情報、あるいは、文書のアウトライン構造との関連情報等を含んだ、参照文書の分割情報１３０及び検証対象文書の分割情報１３３を生成してもよい。

分割部１３は、参照文書情報１６０を基に、参照文書の分割情報１３０を、例えば下記の通り生成する。すなわち、分割部１３は、テキスト情報１６２について、記憶部１４に記憶された言語仕様情報１４０を参照することによって、形態素解析を行う。言語仕様情報１４０は、形態素解析に必要な情報として、単語の辞書情報、形態素解析における単語間の接続コスト情報、品詞情報、及び、文法情報等を含んでいる。言語仕様情報１４０に含まれるこれらの情報は、事前に与えられていてもよいし、必要に応じてユーザ等から入力されてもよい。

図７は、分割部１３が図２に示すテキスト情報１６２を形態素解析した結果を例示する図である。図７に示す通り、分割部１３は、テキスト情報１６２から単語文字列を抽出し、抽出した単語文字列ごとに、品詞の種別、及び、品詞付加情報を求める。

分割部１３は、テキスト情報１６２を形態素解析した結果、及び、言語仕様情報１４０に含まれる文法情報に基づいて名詞句を取得し、取得した結果を用いて名詞句情報テーブル１３２を生成する。分割部１３は、例えば、言語仕様情報１４０に含まれる文法情報を用いて構文解析を行った結果に基づいて構文木を生成することによって、名詞句を取得することができる。

分割部１３は、名詞句を取得する際に、ユーザ等から入力された情報を用いてもよい。すなわち、分割部１３は、ユーザ等から入力された単語辞書に基づいて、構文解析により取得した名詞句を選別する処理を行ってもよいし、ユーザ等から名詞句を取得する基準となる情報を入力されてもよい。分割部１３は、あるいは、ユーザ等により指定された、名詞が接続された特定の表現を、名詞句と定義することによって、名詞句を取得してもよい。

分割部１３は、検証対象文書情報１７０を基に、検証対象文書の分割情報１３３を、例えば下記の通り生成する。すなわち、分割部１３は、テキスト情報１７２について、記憶部１４に記憶された言語仕様情報１４０を参照することによって、形態素解析を行う。分割部１３は、テキスト情報１７２を形態素解析した結果、及び、言語仕様情報１４０に含まれる文法情報に基づいて文を取得し、文情報テーブル１３５を生成する。分割部１３は、例えば、句点あるいは改行といった区切りを表す文字によって、検証対象文書を文に分割することができる。分割部１３は、これらの区切りを表す文字を、言語仕様情報１４０から取得してもよいし、ユーザ等から入力された辞書情報から取得してもよい。

分割部１３は、参照文書及び検証対象文書を分割する際に、必要に応じて、一部の処理を省略してもよい。分割部１３は、例えば、検証対象文書を、区切りを表す文字によって単純に文に分割する場合、形態素解析を省略することができる。

図１に示す抽出部１５は、分割部１３により生成された、参照文書の分割情報１３０及び検証対象文書の分割情報１３３に基づいて、対応関係情報テーブル１５０を生成する。

図８は、抽出部１５が、図５に示す名詞句情報テーブル１３２、及び、図６に示す文情報テーブル１３５に基づいて生成した、対応関係情報テーブル１５０の構成を例示する図である。図８に示す通り、対応関係情報テーブル１５０は、テキスト情報１６２が示す参照文書から抽出された名詞句と、テキスト情報１７２が示す検証対象文書から抽出された文との組み合わせを示すエントリを含んでいる。

図８に示す例では、対応関係情報テーブル１５０における１番目のエントリは、参照文書から抽出された名詞句「現用系サーバ障害時の予備系サーバへの切り替え処理」と、検証対象文書から抽出された文「現用系サーバ障害時には予備系サーバへの切り替え処理を行います。」との間に対応関係があることを示している。対応関係情報テーブル１５０における２番目のエントリは、参照文書から抽出された名詞句「配信データの欠落」と、検証対象文書から抽出された文「切り替え処理後は、配信先と速やかに再同期処理を行うことにより、配信データの欠落を最小限に抑えます。」との間に対応関係があることを示している。参照文書の分割情報１３０及び検証対象文書の分割情報１３３にメタ情報が含まれる場合、抽出部１５は、当該メタ情報を含む対応関係情報テーブル１５０を生成してもよい。

抽出部１５は、参照文書の分割情報１３０及び検証対象文書の分割情報１３３を基に、対応関係情報テーブル１５０を、例えば下記の通り生成する。すなわち、抽出部１５は、名詞句情報テーブル１３２、及び、文情報テーブル１３５を参照することにより、参照文書から抽出された何れかの名詞句と、検証対象文書から抽出された何れかの文との組み合わせを構成する。抽出部１５は、構成した当該組み合わせについて、参照文書から抽出された名詞句と検証対象文書から抽出された文との間に、対応関係があるか否かを判定する。抽出部１５は、対応関係があると判定した場合、当該組み合わせを、対応関係情報テーブル１５０に登録する。

抽出部１５は、上述した判定を、参照文書から抽出された名詞句と検証対象文書から抽出された文に関する全ての組み合わせについて行ってもよいし、判定を行う組み合わせを絞り込んでもよい。抽出部１５は、例えば、参照文書の分割情報１３０及び検証対象文書の分割情報１３３に、メタ情報として、章あるいは節の名称等が含まれる場合、当該メタ情報に基づいて、判定を行う組み合わせを絞り込んでもよい。抽出部１５は、あるいは、ユーザ等から入力された情報に基づいて、判定を行う組み合わせを絞り込んでもよい。

抽出部１５は、例えば、図９に示すように、上述した名詞句及び文が、名詞を共有することをもって、上述した名詞句と文との間に対応関係があるか否かを判定することができる。すなわち、抽出部１５は、名詞句情報テーブル１３２を参照することによって、各名詞句に含まれる全ての名詞を抽出する。具体的には、抽出部１５は、名詞句「現用系サーバ障害時の予備系サーバへの切り替え処理」から、「現用」、「系」、「サーバ」、「障害」、「時」、「予備」、「切り替え」、及び、「処理」を抽出する。抽出部１５は、同様に、名詞句「配信データの欠落」から、「配信」、「データ」、及び、「欠落」を抽出する。

抽出部１５は、文情報テーブル１３５を参照することにより、名詞句Ａに含まれる全ての名詞が文Ｂにも含まれる場合に、文Ｂと名詞句Ａとの間に対応関係があると判定する。図９に示す通り、名詞句「現用系サーバ障害時の予備系サーバへの切り替え処理」から抽出された全ての名詞は、文「現用系サーバ障害時には予備系サーバへの切り替え処理を行います。」にも含まれる。したがって、抽出部１５は、当該文と当該名詞句との間に対応関係があると判定する。

抽出部１５は、あるいは、参照文書から抽出された名詞句に含まれる名詞のうち、ユーザ等により指定された名詞が、検証対象文書から抽出された文に含まれない場合に、その指定された名詞を除く名詞が全て当該文に含まれることをもって、当該文と当該名詞句との間に対応関係があると判定してもよい。

抽出部１５は、あるいはまた、上記とは異なる方法により、対応関係の判定を行ってもよい。すなわち、抽出部１５は、例えば、Ｎグラム等のモデルを用いることによって、類似度に基づいて判定してもよい。抽出部１５は、また、この類似度を算出する際に単語を用いる場合、当該単語に関する出現頻度等に応じた重みづけを行ってもよい。抽出部１５は、類似度など、判定に際して使用した情報を含んだ対応関係情報テーブル１５０を生成してもよい。

抽出部１５は、対応関係情報テーブル１５０を基に、検証支援情報１８０を生成し、生成した検証支援情報１８０を出力する。抽出部１５は、検証支援情報１８０を、例えば、ディスプレイ装置（図示せず）に表示してもよいし、あるいは、電子ファイルとして出力してもよい。

図１０は、抽出部１５が、図８に示す対応関係情報テーブル１５０等に基づいて生成した、検証支援情報１８０の構成を例示する図である。図１０に示す検証支援情報１８０は、本実施形態に係る文書検証支援装置１０が、複数の参照文書と複数の検証対象文書との間において、対応関係がある要素同士を抽出した場合における例である。図１０に示す例では、抽出部１５は、対応関係情報テーブル１５０が示す情報に加えて、文書名情報１６１及び１７１、及び、メタ情報を、検証支援情報１８０として出力する。当該メタ情報は、参照文書における抽出した名詞句の位置、及び、検証対象文書における抽出した文の位置を示す情報である。

抽出部１５は、参照文書から抽出された名詞句と対応関係がある文が存在しない場合、図１０に例示する通り、例えば「該当なし」という警告メッセージを、検証支援情報１８０に盛り込んで出力する。

抽出部１５は、図１０に示す構成とは異なる構成の検証支援情報１８０を出力してもよい。抽出部１５は、例えば、可読性向上のため、検証支援情報１８０において重複する名詞句あるいは文を省略して出力してもよいし、特定の名詞句と対応関係がある文が多数存在する場合には、それらの一部を省略して出力してもよい。抽出部１５は、あるいは、検証支援情報１８０をディスプレイ装置に表示する際に、ユーザによる操作入力に応じて、検証支援情報１８０の一部を省略して表示してもよい。

抽出部１５は、検証対象文書から抽出された文において、参照文書から抽出された名詞句と共通する部分を強調表示してもよい。抽出部１５は、また、対応関係情報テーブル１５０に、例えば類似度など、名詞句と文との間に対応関係があるか否かを判定する際に用いた情報が含まれている場合に、当該情報を検証支援情報１８０に盛り込んで出力してもよい。これによりユーザは、対応関係に対する最終判断を行う際に、当該情報を参考とすることができる。

次に図１１のフローチャートを参照して、本実施形態に係る文書検証支援装置１０の動作（処理）について詳細に説明する。

文書入力部１１は、参照文書情報１６０、及び、検証対象文書情報１７０を取得する（ステップＳ１０１）。粒度決定部１２は、参照文書情報１６０、及び、検証対象文書情報１７０の内容に基づいて、分割粒度別カウント情報１２０を生成する（ステップＳ１０２）。粒度決定部１２は、分割粒度別カウント情報１２０に基づいて、参照文書及び検証対象文書ごとに分割粒度を決定する（ステップＳ１０３）。

分割部１３は、言語仕様情報１４０を参照して形態素解析を実行し、粒度決定手段により決定された分割粒度を用いて、参照文書の分割情報１３０及び検証対象文書の分割情報１３３を生成する（ステップＳ１０４）。抽出部１５は、参照文書の分割情報１３０及び検証対象文書の分割情報１３３に基づいて、対応関係情報テーブル１５０を生成する（ステップＳ１０５）。抽出部１５は、対応関係情報テーブル１５０に基づいて検証支援情報１８０を生成し、生成した検証支援情報１８０を出力し、全体の処理は終了する（ステップＳ１０６）。

本実施形態に係る文書検証支援装置１０は、記載内容に対応関係がある文書間において、その対応関係を検証する作業を、ユーザが高精度かつ効率的に行うようにすることができる。その理由は、粒度決定部１２は、参照文書及び検証対象文書の特性に基づいて、参照文書及び検証対象文書毎に分割粒度を決定し、抽出部１５は、当該分割粒度により分割された参照文書及び検証対象文書において、対応関係がある要素同士を抽出するからである。

以下に、本実施形態に係る文書検証支援装置１０によって実現される効果について、詳細に説明する。

既存の文書（参照文書）に記載された内容と対応関係がある内容について記載する文書（検証対象文書）の内容は、参照先である参照文書に記載された内容よりも、詳細化あるいは具体化された内容であることが多い。そのような検証対象文書では、参照文書の内容と対応関係がある記載が、文書中の離れた位置にまたがることが頻繁に発生する。このような文書間における対応関係を、参照文書を分割した部分文字列から抽出したキーワードを用いて検証する場合、その分割方法は、一般的に、ユーザが文書の特性を見極めた上で手作業により決定する必要がある。そのため、ユーザの負荷が大きく作業効率が悪いという課題がある。

これに対して、本実施形態に係る文書検証支援装置１０では、粒度決定部１２は、参照文書及び検証対象文書を分割する際の分割粒度を、それら文書の特性に基づいて、参照文書及び検証対象文書毎に決定する。分割部１３は、参照文書及び検証対象文書が用いる言語仕様情報１４０に基づいて、参照文書及び検証対象文書を、粒度決定部１２により決定された分割粒度による分割を行う。そして、抽出部１５は、分割部１３によって要素に分割された参照文書及び検証対象文書の間において、対応関係がある要素同士を、所定の抽出基準に基づいて抽出し、抽出した結果を検証支援情報１８０として出力する。これにより、本実施形態に係る文書検証支援装置１０は、参照文書及び検証対象文書の間において、その対応関係を検証する作業を、ユーザが高精度かつ効率的に行うようにすることができる。

また、本実施形態に係る文書検証支援装置１０では、粒度決定部１２は、参照文書及び検証対象文書に含まれる、アウトライン構造などの階層構造を示す情報を使用することによって、分割粒度を決定することができる。これにより、文書検証支援装置１０は、対応関係を検証する作業を、ユーザがより高精度かつ効率的に行うようにすることができる。

また、本実施形態に係る文書検証支援装置１０では、抽出部１５は、参照文書の要素及び検証対象文書の要素について、所定の絞り込み基準に基づいて、抽出する対象を絞り込むことができる。これにより、文書検証支援装置１０は、ユーザによる対応関係を検証する作業の効率を向上することができる。

さらに、本実施形態に係る文書検証支援装置１０では、抽出部１５は、分割部１３によって分割された参照文書の要素のうち、検証対象文書の要素と対応関係がある要素同士の一方として抽出しない要素が存在する場合、当該要素に関する警告メッセージを、検証支援情報１８０に含めて出力することできる。これにより、ユーザは、検証対象文書において対応する記載がない、参照文書の部分について、文書検証支援装置１０による提示を受けることができる。したがって、本実施形態に係る文書検証支援装置１０は、参照文書及び検証対象文書の間において、その対応関係を検証する作業を、ユーザがより高精度かつ効率的に行うようにすることができる。

＜第２の実施形態＞
図１２は、第２の実施形態に係る文書検証支援装置２０の構成を概念的に示すブロック図である。

本実施形態に係る文書検証支援装置２０は、粒度決定部２２、分割部２３、及び、抽出部２５を備えている。

粒度決定部２２は、参照文書情報２６０が示す参照文書及び検証対象文書情報２７０が示す検証対象文書を分割する際の分割粒度を、参照文書及び検証対象文書の特性に基づいて、参照文書及び検証対象文書毎に決定する。

分割部２３は、参照文書及び検証対象文書が用いる言語の仕様情報２３０に基づいて、参照文書及び前記検証対象文書を、粒度決定部２２により決定された分割粒度による分割を行う。

抽出部２５は、分割部２３によって要素に分割された参照文書及び検証対象文書の間において、対応関係がある要素同士を、所定の抽出基準に基づいて抽出し、抽出した結果を検証支援情報２８０として出力する。

本実施形態に係る文書検証支援装置２０は、記載内容に対応関係がある文書間において、その対応関係を検証する作業を、ユーザが高精度かつ効率的に行うようにすることができる。その理由は、粒度決定部２２は、参照文書及び検証対象文書の特性に基づいて、参照文書及び検証対象文書毎に分割粒度を決定し、抽出部２５は、当該分割粒度により分割された参照文書及び検証対象文書において、対応関係がある要素同士を抽出するからである。

＜ハードウェア構成例＞
上述した各実施形態において図１、及び、図１２に示した各部は、専用のＨＷ（ＨａｒｄＷａｒｅ）（電子回路）によって実現することができる。また、図１及び図１２において、少なくとも、下記構成は、ソフトウェアプログラムの機能（処理）単位（ソフトウェアモジュール）と捉えることができる。
・文書入力部１１、
・粒度決定部１２及び２２、
・分割部１３及び２３、
・記憶部１４における記憶制御機能、
・抽出部１５及び２５。

但し、これらの図面に示した各部の区分けは、説明の便宜上の構成であり、実装に際しては、様々な構成が想定され得る。この場合のハードウェア環境の一例を、図１３を参照して説明する。

図１３は、本願発明の各実施形態に係る文書検証支援装置を実行可能な情報処理装置９００（コンピュータ）の構成を例示的に説明する図である。即ち、図１３は、図１及び図１２に示した文書検証支援装置を実現可能なコンピュータ（情報処理装置）の構成であって、上述した実施形態における各機能を実現可能なハードウェア環境を表す。

図１３に示した情報処理装置９００は、構成要素として下記を備えている。
・ＣＰＵ（Ｃｅｎｔｒａｌ＿Ｐｒｏｃｅｓｓｉｎｇ＿Ｕｎｉｔ）９０１、
・ＲＯＭ（Ｒｅａｄ＿Ｏｎｌｙ＿Ｍｅｍｏｒｙ）９０２、
・ＲＡＭ（Ｒａｎｄｏｍ＿Ａｃｃｅｓｓ＿Ｍｅｍｏｒｙ）９０３、
・ハードディスク（記憶装置）９０４、
・外部装置との通信インタフェース９０５、
・バス９０６（通信線）、
・ＣＤ−ＲＯＭ（Ｃｏｍｐａｃｔ＿Ｄｉｓｃ＿Ｒｅａｄ＿Ｏｎｌｙ＿Ｍｅｍｏｒｙ）等の記録媒体９０７に格納されたデータを読み書き可能なリーダライタ９０８、
・入出力インタフェース９０９。

即ち、上記構成要素を備える情報処理装置９００は、これらの構成がバス９０６を介して接続された一般的なコンピュータである。情報処理装置９００は、ＣＰＵ９０１を複数備える場合もあれば、マルチコアにより構成されたＣＰＵ９０１を備える場合もある。

そして、上述した実施形態を例に説明した本願発明は、図１３に示した情報処理装置９００に対して、次の機能を実現可能なコンピュータプログラムを供給する。その機能とは、その実施形態の説明において参照したブロック構成図（図１及び図１２）における上述した構成、或いはフローチャート（図１１）の機能である。本願発明は、その後、そのコンピュータプログラムを、当該ハードウェアのＣＰＵ９０１に読み出して解釈し実行することによって達成される。また、当該装置内に供給されたコンピュータプログラムは、読み書き可能な揮発性のメモリ（ＲＡＭ９０３）またはハードディスク９０４等の不揮発性の記憶デバイスに格納すれば良い。

また、前記の場合において、当該ハードウェア内へのコンピュータプログラムの供給方法は、現在では一般的な手順を採用することができる。その手順としては、例えば、ＣＤ−ＲＯＭ等の各種記録媒体９０７を介して当該装置内にインストールする方法や、インターネット等の通信回線を介して外部よりダウンロードする方法等がある。そして、このような場合において、本願発明は、係るコンピュータプログラムを構成するコード或いは、そのコードが格納された記録媒体９０７によって構成されると捉えることができる。

以上、上述した実施形態を模範的な例として本願発明を説明した。しかしながら、本願発明は、上述した実施形態には限定されない。即ち、本願発明は、本願発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。

１０文書検証支援装置
１１文書入力部
１２粒度決定部
１２０分割粒度別カウント情報
１３分割部
１３０参照文書の分割情報
１３１文書名情報
１３２名詞句情報テーブル
１３３検証対象文書の分割情報
１３４文書名情報
１３５文情報テーブル
１４記憶部
１４０言語仕様情報
１５抽出部
１５０対応関係情報テーブル
１６０参照文書情報
１７０検証対象文書情報
１８０検証支援情報
２０文書検証支援装置
２２粒度決定部
２３分割部
２３０仕様情報
２５抽出部
２６０参照文書情報
２７０検証対象文書情報
２８０検証支援情報
９００情報処理装置
９０１ＣＰＵ
９０２ＲＯＭ
９０３ＲＡＭ
９０４ハードディスク（記憶装置）
９０５通信インタフェース
９０６バス
９０７記録媒体
９０８リーダライタ
９０９入出力インタフェース

Claims

参照文書情報が示す参照文書と検証対象文書情報が示す検証対象文書とを分割する際の分割粒度を、前記参照文書及び前記検証対象文書の特性に基づいて、前記参照文書及び前記検証対象文書毎に決定する粒度決定手段と、
前記参照文書及び前記検証対象文書が用いる言語の仕様情報に基づいて、前記参照文書及び前記検証対象文書を、前記粒度決定手段により決定された前記分割粒度によって１以上の要素に分割する分割手段と、
前記分割手段によって前記要素に分割された前記参照文書と前記検証対象文書との間において、対応関係がある前記要素同士を、所定の抽出基準に基づいて抽出し、抽出した結果を検証支援情報として出力する抽出手段と、
を備え、
前記粒度決定手段は、前記分割手段によって分割される前記参照文書の要素の個数と、前記分割手段によって分割される前記検証対象文書の要素の個数とが、最も近い値になるように、前記分割粒度を決定する、
文書検証支援装置。
前記粒度決定手段は、前記参照文書及び前記検証対象文書に含まれる階層構造を示す情報を使用することによって、前記分割粒度を決定する、
請求項１に記載の文書検証支援装置。
前記粒度決定手段は、前記分割粒度を、文書を構成する、段落、文、節、及び、句を含む単位、あるいは、文字数のうちのいずれかに決定する、
請求項１または２に記載の文書検証支援装置。
前記粒度決定手段は、前記参照文書を分割する際の前記分割粒度を、名詞句に決定する、
請求項３に記載の文書検証支援装置。
前記抽出手段は、前記分割手段によって分割された前記参照文書の第一の前記要素に含まれる名詞のうち、所定の割合あるいは所定の個数以上の名詞が、前記分割手段によって分割された前記検証対象文書の第二の前記要素にも含まれる場合に、前記参照文書の前記第一の要素と前記検証対象文書の前記第二の要素とを、前記対応関係がある要素同士として抽出する、
請求項１乃至４のいずれか一項に記載の文書検証支援装置。
前記抽出手段は、前記参照文書の要素及び前記検証対象文書の要素について、所定の絞り込み基準に基づいて、抽出する対象を絞り込む、
請求項１乃至５のいずれか一項に記載の文書検証支援装置。
前記抽出手段は、前記分割手段によって分割された前記参照文書の要素のうち、前記対応関係がある要素同士の一方として抽出しない前記要素が存在する場合、当該要素に関する警告メッセージを、前記検証支援情報に含めて出力する、
請求項１乃至６のいずれか一項に記載の文書検証支援装置。
情報処理装置によって、
参照文書情報が示す参照文書と検証対象文書情報が示す検証対象文書とを分割する際の分割粒度を、前記参照文書及び前記検証対象文書の特性に基づいて、前記参照文書及び前記検証対象文書毎に決定し、
前記参照文書及び前記検証対象文書が用いる言語の仕様情報に基づいて、前記参照文書及び前記検証対象文書を、決定された前記分割粒度によって１以上の要素に分割し、
前記要素に分割された前記参照文書と前記検証対象文書との間において、対応関係がある前記要素同士を、所定の抽出基準に基づいて抽出し、抽出した結果を検証支援情報として出力する方法であって、
分割される前記参照文書の要素の個数と、分割される前記検証対象文書の要素の個数とが、最も近い値になるように、前記分割粒度を決定する、
文書検証支援方法。
参照文書情報が示す参照文書と検証対象文書情報が示す検証対象文書とを分割する際の分割粒度を、前記参照文書及び前記検証対象文書の特性に基づいて、前記参照文書及び前記検証対象文書毎に決定する粒度決定処理と、
前記参照文書及び前記検証対象文書が用いる言語の仕様情報に基づいて、前記参照文書及び前記検証対象文書を、前記粒度決定処理により決定された前記分割粒度によって１以上の要素に分割する分割処理と、
前記分割処理によって前記要素に分割された前記参照文書と前記検証対象文書との間において、対応関係がある前記要素同士を、所定の抽出基準に基づいて抽出し、抽出した結果を検証支援情報として出力する抽出処理と、
をコンピュータに実行させるためのプログラムであって、
前記粒度決定処理は、前記分割処理によって分割される前記参照文書の要素の個数と、前記分割処理によって分割される前記検証対象文書の要素の個数とが、最も近い値になるように、前記分割粒度を決定する、
文書検証支援プログラム。