JP6657920B2 - 文書検証支援装置、文書検証支援方法、及び、文書検証支援プログラム - Google Patents

文書検証支援装置、文書検証支援方法、及び、文書検証支援プログラム Download PDF

Info

Publication number
JP6657920B2
JP6657920B2 JP2015247531A JP2015247531A JP6657920B2 JP 6657920 B2 JP6657920 B2 JP 6657920B2 JP 2015247531 A JP2015247531 A JP 2015247531A JP 2015247531 A JP2015247531 A JP 2015247531A JP 6657920 B2 JP6657920 B2 JP 6657920B2
Authority
JP
Japan
Prior art keywords
document
information
division
granularity
verification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015247531A
Other languages
English (en)
Other versions
JP2017111742A (ja
Inventor
俊輔 河野
俊輔 河野
英司 平尾
英司 平尾
大地 木村
大地 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2015247531A priority Critical patent/JP6657920B2/ja
Publication of JP2017111742A publication Critical patent/JP2017111742A/ja
Application granted granted Critical
Publication of JP6657920B2 publication Critical patent/JP6657920B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本願発明は、記載内容に対応関係がある文書間において、その対応関係を検証する作業を支援する技術に関する。
文書を作成する際に、既存の文書に記載された内容を、新たに作成する文書の内容に漏れなく反映させなければならない場合がある。例えばIT(Information Technology)システムあるいはソフトウェアを構築する際に、上流工程において作成される提案書は、顧客から提示された提案依頼書(RFP:Request For Proposal)を参照する。この提案書では、提案依頼書に記載されている顧客の各要求に対する提案内容が、漏れがないように記載されている必要がある。また、要件定義書に対する基本設計書、あるいは、基本設計書に対する詳細設計書等も、このような提案書と同様に作成される。このように文書を作成する手順は、ITシステムやソフトウェアの構築に限らず、例えば、文書の骨子やあらすじを先に作成したのち、それらを参照して文書を作成する場合も同様である。
このような手順で文書を作成する場合、通常、参照先である既存文書と当該既存文書を参照して作成する作成文書との間における、記載内容の対応関係について、検証作業が行われる。このような検証作業は、一般的に、人手作業により行われている。しかしながら人手作業では、時間がかかることに加えて記載漏れを見逃す虞があるという問題がある。したがって、このような検証作業を、例えば類似文書の検索技術等を用いて支援する技術が期待されている。
このような技術の一例として、特許文献1には、検索対象文書および入力テキストから抽出した重み付きキーワードを用いる類似文書検索において、精度が高い検索結果を得る方法が開示されている。この方法では、入力テキスト全体から抽出したキーワードによる検索結果に加えて、入力テキストを分割した各部分文字列から抽出したキーワードによる検索結果を使用する。
また、特許文献2には、複数の文を含む2つの文書の間において、文の対応付けを決定する装置が開示されている。この装置は、2つの部分文書の間について計算される対応付けスコアを最適化するように文の対応付けを決定し、2つの文書について文の対応付けを行う。
また、特許文献3には、計算量の増大を抑制して、文の対応付けを精度よく決定するようにした装置が開示されている。この装置は、2つの文書について、個々に系列二分決定グラフを生成する。この装置は、生成又は前回更新された2つの系列二分決定グラフに基づいて、その系列二分決定グラフを更新する処理を繰り返し、繰り返し計算された文のペアを、2つの文書間における文の対応付けとして出力する。
特許第4426894号公報 特開2015-170131号公報 特開2015-022497号公報
既存の文書に記載された内容と対応関係がある(対応付けされる)内容について新たに記載する文書の内容は、参照先である既存の文書に記載された内容よりも、詳細化あるいは具体化された内容であることが多い。そのような文書では、参照した既存の文書の内容と対応関係がある記載が、文書中の離れた位置にまたがることが頻繁に発生する。
例えば、提案書においては、提案依頼書に記載された個々の要求に対する充足手段の詳細が、提案内容として記載される。この際、その充足手段の詳細に関する記載は、提案書において離れた位置にまたがることが多い。具体的には、提案依頼書に、「現用系サーバ障害時の予備系サーバへの切り替え処理に際しては配信データの欠落を最小限に抑えること。」という要求が記載されていたとする。この要求に対する提案内容は、サーバ切り替え処理の詳細に関する説明を含めて、提案書のひとつの段落を用いて記載することができる。すなわち提案書においては、「現用系サーバ障害時には予備系サーバへの切り替え処理を行います。(中略)速やかに再同期処理を行うことにより、配信データの欠落を最小限に抑えます。」というように、提案内容を記載することができる。
しかしながら、例えば、特許文献1に記載された技術をこのような例に適用する場合、検索に用いる部分文字列への分割方法は、ユーザ(検証作業者)が文書の特性を見極めてから手作業により決定する必要がある。そのため、ユーザの負荷が大きく作業効率が悪いという課題がある。特許文献2及び3は、この課題について言及していない。本願発明の主たる目的は、この課題を解決した文書検証支援装置等を提供することである。
本願発明の一態様に係る文書検証支援装置は、参照文書情報が示す参照文書と検証対象文書情報が示す検証対象文書とを分割する際の分割粒度を、前記参照文書及び前記検証対象文書の特性に基づいて、前記参照文書及び前記検証対象文書毎に決定する粒度決定手段と、前記参照文書及び前記検証対象文書が用いる言語の仕様情報に基づいて、前記参照文書及び前記検証対象文書を、前記粒度決定手段により決定された前記分割粒度によって1以上の要素に分割する分割手段と、前記分割手段によって前記要素に分割された前記参照文書と前記検証対象文書との間において、対応関係がある前記要素同士を、所定の抽出基準に基づいて抽出し、抽出した結果を検証支援情報として出力する抽出手段と、を備える。
上記目的を達成する他の見地において、本願発明の一態様に係る文書検証支援方法は、情報処理装置によって、参照文書情報が示す参照文書と検証対象文書情報が示す検証対象文書とを分割する際の分割粒度を、前記参照文書及び前記検証対象文書の特性に基づいて、前記参照文書及び前記検証対象文書毎に決定し、前記参照文書及び前記検証対象文書が用いる言語の仕様情報に基づいて、前記参照文書及び前記検証対象文書を、決定された前記分割粒度によって1以上の要素に分割し、前記要素に分割された前記参照文書と前記検証対象文書との間において、対応関係がある前記要素同士を、所定の抽出基準に基づいて抽出し、抽出した結果を検証支援情報として出力する。
また、上記目的を達成する更なる見地において、本願発明の一態様に係る文書検証支援プログラムは、参照文書情報が示す参照文書と検証対象文書情報が示す検証対象文書をと分割する際の分割粒度を、前記参照文書及び前記検証対象文書の特性に基づいて、前記参照文書及び前記検証対象文書毎に決定する粒度決定処理と、前記参照文書及び前記検証対象文書が用いる言語の仕様情報に基づいて、前記参照文書及び前記検証対象文書を、前記粒度決定処理により決定された前記分割粒度によって1以上の要素に分割する分割処理と、前記分割処理によって前記要素に分割された前記参照文書と前記検証対象文書との間において、対応関係がある前記要素同士を、所定の抽出基準に基づいて抽出し、抽出した結果を検証支援情報として出力する抽出処理と、をコンピュータに実行させるためのプログラムである。
更に、本願発明は、係る文書検証支援プログラム(コンピュータプログラム)が格納された、コンピュータ読み取り可能な、不揮発性の記録媒体によっても実現可能である。
本願発明は、記載内容に対応関係がある文書間において、その対応関係を検証する作業を、ユーザが高精度かつ効率的に行うことを可能とする。
本願発明の第1の実施形態に係る文書検証支援装置10の構成を示すブロック図である。 本願発明の第1の実施形態に係る参照文書情報160の構成を例示する図である。 本願発明の第1の実施形態に係る検証対象文書情報170の構成を例示する図である。 本願発明の第1の実施形態に係る分割粒度別カウント情報120の構成を例示する図である。 本願発明の第1の実施形態に係る参照文書の分割情報130の構成を例示する図である。 本願発明の第1の実施形態に係る検証対象文書の分割情報133の構成を例示する図である。 本願発明の第1の実施形態に係る分割部13がテキスト情報162を形態素解析した結果を例示する図である。 本願発明の第1の実施形態に係る対応関係情報テーブル150の構成を例示する図である。 本願発明の第1の実施形態に係る抽出部15が、参照文書及び検証対象文書の間において、対応関係がある要素同士を抽出する際に行う処理を説明する図である。 本願発明の第1の実施形態に係る検証支援情報180の構成を例示する図である。 本願発明の第1の実施形態に係る文書検証支援装置10の動作を示すフローチャートである。 本願発明の第2の実施形態に係る文書検証支援装置20の構成を示すブロック図である。 本願発明の各実施形態に係る文書検証支援装置を実行可能な情報処理装置の構成を示すブロック図である。
以下、本願発明の実施の形態について図面を参照して詳細に説明する。尚、以降の説明では、検証対象である文書を検証対象文書と称する。また、検証対象文書に記載された内容と対応関係がある内容が記載されている既存の文書を参照文書と称する。上述したITシステムあるいはソフトウェアの構築における提案依頼書及び提案書の例では、提案依頼書が参照文書に相当し、提案書が検証対象文書に相当する。
<第1の実施形態>
図1は、本願発明の第1の実施の形態に係る文書検証支援装置10を概念的に示すブロック図である。文書検証支援装置10は、参照文書と検証対象文書との間において、記載内容に関する対応関係を抽出することにより、参照文書に記載された内容と対応関係がある記載が、検証対象文書の中に存在するか否かを、ユーザが検証することを支援する装置である。
本実施形態に係る文書検証支援装置10は、文書入力部11、粒度決定部12、分割部13、記憶部14、及び、抽出部15を備えている。文書入力部11、粒度決定部12、分割部13、及び、抽出部15は、電子回路の場合もあれば、コンピュータプログラムとそのコンピュータプログラムに従って動作するプロセッサによって実現される場合もある。記憶部14は、メモリあるいは磁気ディスク等の記憶デバイスである。記憶部14は、電子回路、あるいは、コンピュータプログラムとそのコンピュータプログラムに従って動作するプロセッサによって実現される記憶制御機能を備えている。これらの構成要素は、独立した論理回路でもよいし、通信可能に接続された複数の物理的な位置に分散して配置されてもよい。
文書入力部11は、ユーザによる入力操作等を介して、参照文書情報160及び検証対象文書情報170が入力される。文書入力部11は、複数の参照文書に関して、参照文書情報160が入力され、複数の検証対象文書に関して、検証対象文書情報170が入力される場合がある。
図2は、参照文書情報160の構成を例示する図である。参照文書情報160は、文書名情報161、及び、テキスト情報162を含んでいる。文書名情報161は、参照文書の名称を表す情報である。テキスト情報162は、参照文書の本体を表す情報である。図2に示すテキスト情報162は、その一部を示しており、「・・・」は、省略を表す記号である(その他の図においても同様)。
図3は、検証対象文書情報170の構成を例示する図である。検証対象文書情報170は、文書名情報171、及び、テキスト情報172を含んでいる。文書名情報171は、検証対象文書の名称を表す情報である。テキスト情報172は、検証対象文書の本体を表す情報である。図3に示すテキスト情報172は、その一部を示している。
本実施形態に係る文書検証支援装置10が処理対象とする参照文書及び検証対象文書の形式は、テキスト形式に限定されない。参照文書及び検証対象文書の形式は、例えば、レイアウト情報あるいはアウトライン構造を有する形式、あるいはスプレッドシート形式、あるいはプレゼンテーション形式、あるいはマークアップ言語により記述された形式などであってもよい。
参照文書情報160及び検証対象文書情報170は、文書名情報及びテキスト情報以外に、文書に関するメタ情報を含んでもよい。このメタ情報としては、例えば、文書のアウトライン構造情報があり、より具体的には、章及び節等の名称、章及び節等とテキストとの対応関係、及び、テキストに関するページ番号等の位置情報等がある。このメタ情報は、スプレッドシートのシート名称、及び、セルの位置とテキストとの対応関係を示す情報等を含んでもよい。
粒度決定部12は、テキスト情報162が示す参照文書、及び、テキスト情報172が示す検証対象文書について、それぞれを分割する際の分割粒度を決定する。粒度決定部12は、この分割粒度として、例えば、段落、文、節、及び、句等を含む、文章の構造を示す単位を用いることができる。粒度決定部12は、あるいは、所定の文字数を分割粒度として用いてもよい。
粒度決定部12は、分割粒度を、例えば下記の通り算出する。すなわち、粒度決定部12は、まず、記憶部14に記憶された言語仕様情報140に基づいて、形態素解析あるいは構文解析等を行うことによって、参照文書及び検証対象文書における、分割粒度の候補となる段落、文、節、及び、句の数をカウントし、そのカウント結果である分割粒度別カウント情報120を生成する。粒度決定部12は、分割粒度別カウント情報120に基づき、参照文書及び検証対象文書の分割粒度を、それぞれ、分割された要素(部分)の数が最も近くなるように決定する。
図4は、分割粒度別カウント情報120の構成を例示する図である。分割粒度別カウント情報120は、分割粒度(段落、文、節、句)毎に、参照文書及び検証対象文書における要素の数を示す情報である。粒度決定部12は、分割粒度別カウント情報120に基づき、例えば、参照文書における要素数と検証対象文書における要素数との比が最も「1」に近くなるような、分割粒度に関する組み合わせを決定する。より具体的には、図4に示す例の場合、粒度決定部12は、参照文書に関する分割粒度を「句」に決定し、検証対象文書に関する分割粒度を「文」に決定する。尚、粒度決定部12は、参照文書における要素数と検証対象文書における要素数との差の絶対値が最も小さくなるような、分割粒度に関する組み合わせを決定してもよい。
また、テキスト情報162が示す参照文書、及び、テキスト情報172が示す検証対象文書が、例えばアウトライン構造などの階層構造を示す情報を含む場合がある。この場合、粒度決定部12は、当該アウトライン構造が示す、章あるいは節の名称に関する対応関係を示す情報を利用して、分割粒度を決定してもよい。粒度決定部12は、あるいはまた、ユーザにより参照文書と検証対象文書との対応関係を示す情報を入力された場合、当該情報が示す、章あるいは節単位の対応関係に基づいて、分割粒度を決定してもよい。
粒度決定部12は、例えばユーザによる指示に基づいて、決定した分割粒度に対して、要素に関する限定条件を示す情報を付加してもよい。すなわち、この場合、粒度決定部12は、後述する分割部13が、当該限定条件に合致する要素のみを、参照文書及び検証対象文書を分割した結果として生成できるように指定する。例えば、「句」には、名詞句や形容詞句など、複数の種類が存在する。粒度決定部12は、例えば、分割粒度を「句」における「名詞句」に限定する条件を、決定した分割粒度に付加することにより、分割部13が名詞句のみを参照文書及び検証対象文書を分割した結果として生成できるように指定することができる。また、粒度決定部12は、参照文書及び検証対象文書の特性から分割粒度を決定する際に、上述した限定条件を満たす単位を、予め分割粒度の候補としてもよい。例えば、参照文書がITシステムあるいはソフトウェアの構築における提案依頼書である場合、提案依頼書に記載された要求事項に含まれる名詞句は、分割粒度として好適であるといえる。さらに、検証対象文書がITシステムあるいはソフトウェアの構築における提案書である場合、提案書には提案依頼書に記載された個々の要求に対する充足手段の詳細が記載される。このため、提案書については、参照文書である提案依頼書の分割粒度である名詞句より広い範囲を示す、文や段落が、分割粒度として好適であるといえる。
本実施形態に関する以降の説明では、粒度決定部12が、参照文書について分割粒度を「名詞句」に決定し、検証対象文書について分割粒度を「文」に決定したこととする。なお、粒度決定部12が、参照文書及び検証対象文書について、分割粒度を上述とは異なる単位に決定した場合も、本実施形態の動作は、以下の説明と同様である。
分割部13は、粒度決定部12により決定された分割粒度により、テキスト情報162が示す参照文書、及び、テキスト情報172が示す検証対象文書を要素に分割する。この際、分割部13は、必要に応じて、記憶部14に記憶されている言語仕様情報140を参照する。分割部13は、参照文書を分割した結果として、参照文書の分割情報130を生成し、検証対象文書を分割した結果として、検証対象文書の分割情報133を生成する。
図5は、分割部13が、図2に示す参照文書情報160を基に生成した参照文書の分割情報130の構成を例示する図である。参照文書の分割情報130は、文書名情報131及び名詞句情報テーブル132を含む。図5に示す文書名情報131は、図2に示す文書名情報161と等しい情報である。図5には、名詞句情報テーブル132の一部が示されている。図5に示す名詞句情報テーブル132は、図2に示すテキスト情報162の一部である、「現用系サーバ障害時の予備系サーバへの切り替え処理」、及び、「配信データの欠落」という2つの名詞句に基づく情報である。
図5に示す例では、上述した2つの名詞句に基づく情報は、形態素単位で名詞句情報テーブル132に格納されている。名詞句情報テーブル132には、エントリとして、上述した2つの名詞句に含まれる形態素の情報が、順に格納されている。個々のエントリは、当該形態素が属する名詞句を識別可能な名詞句識別子と、単語文字列と、品詞の種別と、品詞付加情報とを関連付けている。品詞付加情報は、例えば、連体修飾語を形成するといった、形態素が構文において果たす役割を表す情報、あるいは、格助詞あるいは係助詞といった、品詞における分類を表す情報等を含む情報である。
図6は、分割部13が、図3に示す検証対象文書情報170を基に生成した検証対象文書の分割情報133の構成を例示する図である。検証対象文書の分割情報133は、文書名情報134及び文情報テーブル135を含む。図6に示す文書名情報134は、図3に示す文書名情報171と等しい情報である。図6には、文情報テーブル135の一部が示されている。文情報テーブル135には、エントリとして、図3に示すテキスト情報172における文に含まれる形態素の情報が、順に格納されている。個々のエントリは、当該形態素が属する文を識別可能な文識別子と、単語文字列と、品詞の種別と、品詞付加情報とを関連付けている。
参照文書情報160及び検証対象文書情報170にメタ情報が含まれている場合、分割部13は、当該メタ情報を含む、参照文書の分割情報130及び検証対象文書の分割情報133を生成してもよい。より具体的には、分割部13は、例えば、名詞句あるいは文について、文書内の位置情報、あるいは、文書のアウトライン構造との関連情報等を含んだ、参照文書の分割情報130及び検証対象文書の分割情報133を生成してもよい。
分割部13は、参照文書情報160を基に、参照文書の分割情報130を、例えば下記の通り生成する。すなわち、分割部13は、テキスト情報162について、記憶部14に記憶された言語仕様情報140を参照することによって、形態素解析を行う。言語仕様情報140は、形態素解析に必要な情報として、単語の辞書情報、形態素解析における単語間の接続コスト情報、品詞情報、及び、文法情報等を含んでいる。言語仕様情報140に含まれるこれらの情報は、事前に与えられていてもよいし、必要に応じてユーザ等から入力されてもよい。
図7は、分割部13が図2に示すテキスト情報162を形態素解析した結果を例示する図である。図7に示す通り、分割部13は、テキスト情報162から単語文字列を抽出し、抽出した単語文字列ごとに、品詞の種別、及び、品詞付加情報を求める。
分割部13は、テキスト情報162を形態素解析した結果、及び、言語仕様情報140に含まれる文法情報に基づいて名詞句を取得し、取得した結果を用いて名詞句情報テーブル132を生成する。分割部13は、例えば、言語仕様情報140に含まれる文法情報を用いて構文解析を行った結果に基づいて構文木を生成することによって、名詞句を取得することができる。
分割部13は、名詞句を取得する際に、ユーザ等から入力された情報を用いてもよい。すなわち、分割部13は、ユーザ等から入力された単語辞書に基づいて、構文解析により取得した名詞句を選別する処理を行ってもよいし、ユーザ等から名詞句を取得する基準となる情報を入力されてもよい。分割部13は、あるいは、ユーザ等により指定された、名詞が接続された特定の表現を、名詞句と定義することによって、名詞句を取得してもよい。
分割部13は、検証対象文書情報170を基に、検証対象文書の分割情報133を、例えば下記の通り生成する。すなわち、分割部13は、テキスト情報172について、記憶部14に記憶された言語仕様情報140を参照することによって、形態素解析を行う。分割部13は、テキスト情報172を形態素解析した結果、及び、言語仕様情報140に含まれる文法情報に基づいて文を取得し、文情報テーブル135を生成する。分割部13は、例えば、句点あるいは改行といった区切りを表す文字によって、検証対象文書を文に分割することができる。分割部13は、これらの区切りを表す文字を、言語仕様情報140から取得してもよいし、ユーザ等から入力された辞書情報から取得してもよい。
分割部13は、参照文書及び検証対象文書を分割する際に、必要に応じて、一部の処理を省略してもよい。分割部13は、例えば、検証対象文書を、区切りを表す文字によって単純に文に分割する場合、形態素解析を省略することができる。
図1に示す抽出部15は、分割部13により生成された、参照文書の分割情報130及び検証対象文書の分割情報133に基づいて、対応関係情報テーブル150を生成する。
図8は、抽出部15が、図5に示す名詞句情報テーブル132、及び、図6に示す文情報テーブル135に基づいて生成した、対応関係情報テーブル150の構成を例示する図である。図8に示す通り、対応関係情報テーブル150は、テキスト情報162が示す参照文書から抽出された名詞句と、テキスト情報172が示す検証対象文書から抽出された文との組み合わせを示すエントリを含んでいる。
図8に示す例では、対応関係情報テーブル150における1番目のエントリは、参照文書から抽出された名詞句「現用系サーバ障害時の予備系サーバへの切り替え処理」と、検証対象文書から抽出された文「現用系サーバ障害時には予備系サーバへの切り替え処理を行います。」との間に対応関係があることを示している。対応関係情報テーブル150における2番目のエントリは、参照文書から抽出された名詞句「配信データの欠落」と、検証対象文書から抽出された文「切り替え処理後は、配信先と速やかに再同期処理を行うことにより、配信データの欠落を最小限に抑えます。」との間に対応関係があることを示している。参照文書の分割情報130及び検証対象文書の分割情報133にメタ情報が含まれる場合、抽出部15は、当該メタ情報を含む対応関係情報テーブル150を生成してもよい。
抽出部15は、参照文書の分割情報130及び検証対象文書の分割情報133を基に、対応関係情報テーブル150を、例えば下記の通り生成する。すなわち、抽出部15は、名詞句情報テーブル132、及び、文情報テーブル135を参照することにより、参照文書から抽出された何れかの名詞句と、検証対象文書から抽出された何れかの文との組み合わせを構成する。抽出部15は、構成した当該組み合わせについて、参照文書から抽出された名詞句と検証対象文書から抽出された文との間に、対応関係があるか否かを判定する。抽出部15は、対応関係があると判定した場合、当該組み合わせを、対応関係情報テーブル150に登録する。
抽出部15は、上述した判定を、参照文書から抽出された名詞句と検証対象文書から抽出された文に関する全ての組み合わせについて行ってもよいし、判定を行う組み合わせを絞り込んでもよい。抽出部15は、例えば、参照文書の分割情報130及び検証対象文書の分割情報133に、メタ情報として、章あるいは節の名称等が含まれる場合、当該メタ情報に基づいて、判定を行う組み合わせを絞り込んでもよい。抽出部15は、あるいは、ユーザ等から入力された情報に基づいて、判定を行う組み合わせを絞り込んでもよい。
抽出部15は、例えば、図9に示すように、上述した名詞句及び文が、名詞を共有することをもって、上述した名詞句と文との間に対応関係があるか否かを判定することができる。すなわち、抽出部15は、名詞句情報テーブル132を参照することによって、各名詞句に含まれる全ての名詞を抽出する。具体的には、抽出部15は、名詞句「現用系サーバ障害時の予備系サーバへの切り替え処理」から、「現用」、「系」、「サーバ」、「障害」、「時」、「予備」、「切り替え」、及び、「処理」を抽出する。抽出部15は、同様に、名詞句「配信データの欠落」から、「配信」、「データ」、及び、「欠落」を抽出する。
抽出部15は、文情報テーブル135を参照することにより、名詞句Aに含まれる全ての名詞が文Bにも含まれる場合に、文Bと名詞句Aとの間に対応関係があると判定する。図9に示す通り、名詞句「現用系サーバ障害時の予備系サーバへの切り替え処理」から抽出された全ての名詞は、文「現用系サーバ障害時には予備系サーバへの切り替え処理を行います。」にも含まれる。したがって、抽出部15は、当該文と当該名詞句との間に対応関係があると判定する。
抽出部15は、あるいは、参照文書から抽出された名詞句に含まれる名詞のうち、ユーザ等により指定された名詞が、検証対象文書から抽出された文に含まれない場合に、その指定された名詞を除く名詞が全て当該文に含まれることをもって、当該文と当該名詞句との間に対応関係があると判定してもよい。
抽出部15は、あるいはまた、上記とは異なる方法により、対応関係の判定を行ってもよい。すなわち、抽出部15は、例えば、Nグラム等のモデルを用いることによって、類似度に基づいて判定してもよい。抽出部15は、また、この類似度を算出する際に単語を用いる場合、当該単語に関する出現頻度等に応じた重みづけを行ってもよい。抽出部15は、類似度など、判定に際して使用した情報を含んだ対応関係情報テーブル150を生成してもよい。
抽出部15は、対応関係情報テーブル150を基に、検証支援情報180を生成し、生成した検証支援情報180を出力する。抽出部15は、検証支援情報180を、例えば、ディスプレイ装置(図示せず)に表示してもよいし、あるいは、電子ファイルとして出力してもよい。
図10は、抽出部15が、図8に示す対応関係情報テーブル150等に基づいて生成した、検証支援情報180の構成を例示する図である。図10に示す検証支援情報180は、本実施形態に係る文書検証支援装置10が、複数の参照文書と複数の検証対象文書との間において、対応関係がある要素同士を抽出した場合における例である。図10に示す例では、抽出部15は、対応関係情報テーブル150が示す情報に加えて、文書名情報161及び171、及び、メタ情報を、検証支援情報180として出力する。当該メタ情報は、参照文書における抽出した名詞句の位置、及び、検証対象文書における抽出した文の位置を示す情報である。
抽出部15は、参照文書から抽出された名詞句と対応関係がある文が存在しない場合、図10に例示する通り、例えば「該当なし」という警告メッセージを、検証支援情報180に盛り込んで出力する。
抽出部15は、図10に示す構成とは異なる構成の検証支援情報180を出力してもよい。抽出部15は、例えば、可読性向上のため、検証支援情報180において重複する名詞句あるいは文を省略して出力してもよいし、特定の名詞句と対応関係がある文が多数存在する場合には、それらの一部を省略して出力してもよい。抽出部15は、あるいは、検証支援情報180をディスプレイ装置に表示する際に、ユーザによる操作入力に応じて、検証支援情報180の一部を省略して表示してもよい。
抽出部15は、検証対象文書から抽出された文において、参照文書から抽出された名詞句と共通する部分を強調表示してもよい。抽出部15は、また、対応関係情報テーブル150に、例えば類似度など、名詞句と文との間に対応関係があるか否かを判定する際に用いた情報が含まれている場合に、当該情報を検証支援情報180に盛り込んで出力してもよい。これによりユーザは、対応関係に対する最終判断を行う際に、当該情報を参考とすることができる。
次に図11のフローチャートを参照して、本実施形態に係る文書検証支援装置10の動作(処理)について詳細に説明する。
文書入力部11は、参照文書情報160、及び、検証対象文書情報170を取得する(ステップS101)。粒度決定部12は、参照文書情報160、及び、検証対象文書情報170の内容に基づいて、分割粒度別カウント情報120を生成する(ステップS102)。粒度決定部12は、分割粒度別カウント情報120に基づいて、参照文書及び検証対象文書ごとに分割粒度を決定する(ステップS103)。
分割部13は、言語仕様情報140を参照して形態素解析を実行し、粒度決定手段により決定された分割粒度を用いて、参照文書の分割情報130及び検証対象文書の分割情報133を生成する(ステップS104)。抽出部15は、参照文書の分割情報130及び検証対象文書の分割情報133に基づいて、対応関係情報テーブル150を生成する(ステップS105)。抽出部15は、対応関係情報テーブル150に基づいて検証支援情報180を生成し、生成した検証支援情報180を出力し、全体の処理は終了する(ステップS106)。
本実施形態に係る文書検証支援装置10は、記載内容に対応関係がある文書間において、その対応関係を検証する作業を、ユーザが高精度かつ効率的に行うようにすることができる。その理由は、粒度決定部12は、参照文書及び検証対象文書の特性に基づいて、参照文書及び検証対象文書毎に分割粒度を決定し、抽出部15は、当該分割粒度により分割された参照文書及び検証対象文書において、対応関係がある要素同士を抽出するからである。
以下に、本実施形態に係る文書検証支援装置10によって実現される効果について、詳細に説明する。
既存の文書(参照文書)に記載された内容と対応関係がある内容について記載する文書(検証対象文書)の内容は、参照先である参照文書に記載された内容よりも、詳細化あるいは具体化された内容であることが多い。そのような検証対象文書では、参照文書の内容と対応関係がある記載が、文書中の離れた位置にまたがることが頻繁に発生する。このような文書間における対応関係を、参照文書を分割した部分文字列から抽出したキーワードを用いて検証する場合、その分割方法は、一般的に、ユーザが文書の特性を見極めた上で手作業により決定する必要がある。そのため、ユーザの負荷が大きく作業効率が悪いという課題がある。
これに対して、本実施形態に係る文書検証支援装置10では、粒度決定部12は、参照文書及び検証対象文書を分割する際の分割粒度を、それら文書の特性に基づいて、参照文書及び検証対象文書毎に決定する。分割部13は、参照文書及び検証対象文書が用いる言語仕様情報140に基づいて、参照文書及び検証対象文書を、粒度決定部12により決定された分割粒度による分割を行う。そして、抽出部15は、分割部13によって要素に分割された参照文書及び検証対象文書の間において、対応関係がある要素同士を、所定の抽出基準に基づいて抽出し、抽出した結果を検証支援情報180として出力する。これにより、本実施形態に係る文書検証支援装置10は、参照文書及び検証対象文書の間において、その対応関係を検証する作業を、ユーザが高精度かつ効率的に行うようにすることができる。
また、本実施形態に係る文書検証支援装置10では、粒度決定部12は、参照文書及び検証対象文書に含まれる、アウトライン構造などの階層構造を示す情報を使用することによって、分割粒度を決定することができる。これにより、文書検証支援装置10は、対応関係を検証する作業を、ユーザがより高精度かつ効率的に行うようにすることができる。
また、本実施形態に係る文書検証支援装置10では、抽出部15は、参照文書の要素及び検証対象文書の要素について、所定の絞り込み基準に基づいて、抽出する対象を絞り込むことができる。これにより、文書検証支援装置10は、ユーザによる対応関係を検証する作業の効率を向上することができる。
さらに、本実施形態に係る文書検証支援装置10では、抽出部15は、分割部13によって分割された参照文書の要素のうち、検証対象文書の要素と対応関係がある要素同士の一方として抽出しない要素が存在する場合、当該要素に関する警告メッセージを、検証支援情報180に含めて出力することできる。これにより、ユーザは、検証対象文書において対応する記載がない、参照文書の部分について、文書検証支援装置10による提示を受けることができる。したがって、本実施形態に係る文書検証支援装置10は、参照文書及び検証対象文書の間において、その対応関係を検証する作業を、ユーザがより高精度かつ効率的に行うようにすることができる。
<第2の実施形態>
図12は、第2の実施形態に係る文書検証支援装置20の構成を概念的に示すブロック図である。
本実施形態に係る文書検証支援装置20は、粒度決定部22、分割部23、及び、抽出部25を備えている。
粒度決定部22は、参照文書情報260が示す参照文書及び検証対象文書情報270が示す検証対象文書を分割する際の分割粒度を、参照文書及び検証対象文書の特性に基づいて、参照文書及び検証対象文書毎に決定する。
分割部23は、参照文書及び検証対象文書が用いる言語の仕様情報230に基づいて、参照文書及び前記検証対象文書を、粒度決定部22により決定された分割粒度による分割を行う。
抽出部25は、分割部23によって要素に分割された参照文書及び検証対象文書の間において、対応関係がある要素同士を、所定の抽出基準に基づいて抽出し、抽出した結果を検証支援情報280として出力する。
本実施形態に係る文書検証支援装置20は、記載内容に対応関係がある文書間において、その対応関係を検証する作業を、ユーザが高精度かつ効率的に行うようにすることができる。その理由は、粒度決定部22は、参照文書及び検証対象文書の特性に基づいて、参照文書及び検証対象文書毎に分割粒度を決定し、抽出部25は、当該分割粒度により分割された参照文書及び検証対象文書において、対応関係がある要素同士を抽出するからである。
<ハードウェア構成例>
上述した各実施形態において図1、及び、図12に示した各部は、専用のHW(HardWare)(電子回路)によって実現することができる。また、図1及び図12において、少なくとも、下記構成は、ソフトウェアプログラムの機能(処理)単位(ソフトウェアモジュール)と捉えることができる。
・文書入力部11、
・粒度決定部12及び22、
・分割部13及び23、
・記憶部14における記憶制御機能、
・抽出部15及び25。
但し、これらの図面に示した各部の区分けは、説明の便宜上の構成であり、実装に際しては、様々な構成が想定され得る。この場合のハードウェア環境の一例を、図13を参照して説明する。
図13は、本願発明の各実施形態に係る文書検証支援装置を実行可能な情報処理装置900(コンピュータ)の構成を例示的に説明する図である。即ち、図13は、図1及び図12に示した文書検証支援装置を実現可能なコンピュータ(情報処理装置)の構成であって、上述した実施形態における各機能を実現可能なハードウェア環境を表す。
図13に示した情報処理装置900は、構成要素として下記を備えている。
・CPU(Central_Processing_Unit)901、
・ROM(Read_Only_Memory)902、
・RAM(Random_Access_Memory)903、
・ハードディスク(記憶装置)904、
・外部装置との通信インタフェース905、
・バス906(通信線)、
・CD−ROM(Compact_Disc_Read_Only_Memory)等の記録媒体907に格納されたデータを読み書き可能なリーダライタ908、
・入出力インタフェース909。
即ち、上記構成要素を備える情報処理装置900は、これらの構成がバス906を介して接続された一般的なコンピュータである。情報処理装置900は、CPU901を複数備える場合もあれば、マルチコアにより構成されたCPU901を備える場合もある。
そして、上述した実施形態を例に説明した本願発明は、図13に示した情報処理装置900に対して、次の機能を実現可能なコンピュータプログラムを供給する。その機能とは、その実施形態の説明において参照したブロック構成図(図1及び図12)における上述した構成、或いはフローチャート(図11)の機能である。本願発明は、その後、そのコンピュータプログラムを、当該ハードウェアのCPU901に読み出して解釈し実行することによって達成される。また、当該装置内に供給されたコンピュータプログラムは、読み書き可能な揮発性のメモリ(RAM903)またはハードディスク904等の不揮発性の記憶デバイスに格納すれば良い。
また、前記の場合において、当該ハードウェア内へのコンピュータプログラムの供給方法は、現在では一般的な手順を採用することができる。その手順としては、例えば、CD−ROM等の各種記録媒体907を介して当該装置内にインストールする方法や、インターネット等の通信回線を介して外部よりダウンロードする方法等がある。そして、このような場合において、本願発明は、係るコンピュータプログラムを構成するコード或いは、そのコードが格納された記録媒体907によって構成されると捉えることができる。
以上、上述した実施形態を模範的な例として本願発明を説明した。しかしながら、本願発明は、上述した実施形態には限定されない。即ち、本願発明は、本願発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。
10 文書検証支援装置
11 文書入力部
12 粒度決定部
120 分割粒度別カウント情報
13 分割部
130 参照文書の分割情報
131 文書名情報
132 名詞句情報テーブル
133 検証対象文書の分割情報
134 文書名情報
135 文情報テーブル
14 記憶部
140 言語仕様情報
15 抽出部
150 対応関係情報テーブル
160 参照文書情報
170 検証対象文書情報
180 検証支援情報
20 文書検証支援装置
22 粒度決定部
23 分割部
230 仕様情報
25 抽出部
260 参照文書情報
270 検証対象文書情報
280 検証支援情報
900 情報処理装置
901 CPU
902 ROM
903 RAM
904 ハードディスク(記憶装置)
905 通信インタフェース
906 バス
907 記録媒体
908 リーダライタ
909 入出力インタフェース

Claims (9)

  1. 参照文書情報が示す参照文書と検証対象文書情報が示す検証対象文書とを分割する際の分割粒度を、前記参照文書及び前記検証対象文書の特性に基づいて、前記参照文書及び前記検証対象文書毎に決定する粒度決定手段と、
    前記参照文書及び前記検証対象文書が用いる言語の仕様情報に基づいて、前記参照文書及び前記検証対象文書を、前記粒度決定手段により決定された前記分割粒度によって1以上の要素に分割する分割手段と、
    前記分割手段によって前記要素に分割された前記参照文書と前記検証対象文書との間において、対応関係がある前記要素同士を、所定の抽出基準に基づいて抽出し、抽出した結果を検証支援情報として出力する抽出手段と、
    を備え
    前記粒度決定手段は、前記分割手段によって分割される前記参照文書の要素の個数と、前記分割手段によって分割される前記検証対象文書の要素の個数とが、最も近い値になるように、前記分割粒度を決定する、
    文書検証支援装置。
  2. 前記粒度決定手段は、前記参照文書及び前記検証対象文書に含まれる階層構造を示す情報を使用することによって、前記分割粒度を決定する、
    請求項に記載の文書検証支援装置。
  3. 前記粒度決定手段は、前記分割粒度を、文書を構成する、段落、文、節、及び、句を含む単位、あるいは、文字数のうちのいずれかに決定する、
    請求項1または2に記載の文書検証支援装置。
  4. 前記粒度決定手段は、前記参照文書を分割する際の前記分割粒度を、名詞句に決定する、
    請求項に記載の文書検証支援装置。
  5. 前記抽出手段は、前記分割手段によって分割された前記参照文書の第一の前記要素に含まれる名詞のうち、所定の割合あるいは所定の個数以上の名詞が、前記分割手段によって分割された前記検証対象文書の第二の前記要素にも含まれる場合に、前記参照文書の前記第一の要素と前記検証対象文書の前記第二の要素とを、前記対応関係がある要素同士として抽出する、
    請求項1乃至のいずれか一項に記載の文書検証支援装置。
  6. 前記抽出手段は、前記参照文書の要素及び前記検証対象文書の要素について、所定の絞り込み基準に基づいて、抽出する対象を絞り込む、
    請求項1乃至のいずれか一項に記載の文書検証支援装置。
  7. 前記抽出手段は、前記分割手段によって分割された前記参照文書の要素のうち、前記対応関係がある要素同士の一方として抽出しない前記要素が存在する場合、当該要素に関する警告メッセージを、前記検証支援情報に含めて出力する、
    請求項1乃至のいずれか一項に記載の文書検証支援装置。
  8. 情報処理装置によって、
    参照文書情報が示す参照文書と検証対象文書情報が示す検証対象文書とを分割する際の分割粒度を、前記参照文書及び前記検証対象文書の特性に基づいて、前記参照文書及び前記検証対象文書毎に決定し、
    前記参照文書及び前記検証対象文書が用いる言語の仕様情報に基づいて、前記参照文書及び前記検証対象文書を、決定された前記分割粒度によって1以上の要素に分割し、
    前記要素に分割された前記参照文書と前記検証対象文書との間において、対応関係がある前記要素同士を、所定の抽出基準に基づいて抽出し、抽出した結果を検証支援情報として出力する方法であって
    分割される前記参照文書の要素の個数と、分割される前記検証対象文書の要素の個数とが、最も近い値になるように、前記分割粒度を決定する、
    書検証支援方法。
  9. 参照文書情報が示す参照文書と検証対象文書情報が示す検証対象文書とを分割する際の分割粒度を、前記参照文書及び前記検証対象文書の特性に基づいて、前記参照文書及び前記検証対象文書毎に決定する粒度決定処理と、
    前記参照文書及び前記検証対象文書が用いる言語の仕様情報に基づいて、前記参照文書及び前記検証対象文書を、前記粒度決定処理により決定された前記分割粒度によって1以上の要素に分割する分割処理と、
    前記分割処理によって前記要素に分割された前記参照文書と前記検証対象文書との間において、対応関係がある前記要素同士を、所定の抽出基準に基づいて抽出し、抽出した結果を検証支援情報として出力する抽出処理と、
    をコンピュータに実行させるためのプログラムであって、
    前記粒度決定処理は、前記分割処理によって分割される前記参照文書の要素の個数と、前記分割処理によって分割される前記検証対象文書の要素の個数とが、最も近い値になるように、前記分割粒度を決定する、
    文書検証支援プログラム。
JP2015247531A 2015-12-18 2015-12-18 文書検証支援装置、文書検証支援方法、及び、文書検証支援プログラム Active JP6657920B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015247531A JP6657920B2 (ja) 2015-12-18 2015-12-18 文書検証支援装置、文書検証支援方法、及び、文書検証支援プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015247531A JP6657920B2 (ja) 2015-12-18 2015-12-18 文書検証支援装置、文書検証支援方法、及び、文書検証支援プログラム

Publications (2)

Publication Number Publication Date
JP2017111742A JP2017111742A (ja) 2017-06-22
JP6657920B2 true JP6657920B2 (ja) 2020-03-04

Family

ID=59079703

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015247531A Active JP6657920B2 (ja) 2015-12-18 2015-12-18 文書検証支援装置、文書検証支援方法、及び、文書検証支援プログラム

Country Status (1)

Country Link
JP (1) JP6657920B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5423993B2 (ja) * 2008-12-26 2014-02-19 日本電気株式会社 テキスト処理装置、テキスト処理方法、及びプログラム
KR101384405B1 (ko) * 2010-01-19 2014-04-10 후지쯔 가부시끼가이샤 해석 방법, 해석 장치 및 해석 프로그램
JP2014232505A (ja) * 2013-05-30 2014-12-11 株式会社東芝 項目間関連生成支援装置

Also Published As

Publication number Publication date
JP2017111742A (ja) 2017-06-22

Similar Documents

Publication Publication Date Title
US7478092B2 (en) Key term extraction
AU2016269573B2 (en) Input entity identification from natural language text information
Padró et al. Freeling 3.0: Towards wider multilinguality
Xue et al. The penn chinese treebank: Phrase structure annotation of a large corpus
US10762293B2 (en) Using parts-of-speech tagging and named entity recognition for spelling correction
US9002695B2 (en) Machine translation device, method of processing data, and program
AU2017208219A1 (en) Generating a domain ontology using word embeddings
JP2009534743A (ja) 非構造化リソースの構文解析方法
JP2007287134A (ja) 情報抽出装置、及び情報抽出方法
JP2020126493A (ja) 対訳処理方法および対訳処理プログラム
WO2014064803A1 (ja) 文書処理プログラム、文書処理装置、文書処理システム、文書処理方法
US11074402B1 (en) Linguistically consistent document annotation
JP5564705B2 (ja) 文構造解析装置、文構造解析方法および文構造解析プログラム
US9158748B2 (en) Correction of quotations copied from electronic documents
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
JP5979650B2 (ja) 用語を適切な粒度で分割する方法、並びに、用語を適切な粒度で分割するためのコンピュータ及びそのコンピュータ・プログラム
JP6657920B2 (ja) 文書検証支援装置、文書検証支援方法、及び、文書検証支援プログラム
JP2017151553A (ja) 機械翻訳装置、機械翻訳方法、及びプログラム
Habash et al. Mada+ tokan manual
JP2015095182A (ja) 文字列処理装置、方法、及びプログラム
JP5795302B2 (ja) 形態素解析装置、方法、及びプログラム
JP6677158B2 (ja) 文書データ処理装置、文書データ処理方法、及び文書データ処理プログラム
Gakis et al. Construction of a Modern Greek grammar checker through Mnemosyne formalism
Hardie et al. Extending corpus annotation of Nepali: advances in tokenisation and lemmatisation
KR20240070874A (ko) 텍스트 데이터에 대한 띄어쓰기 교정 수행 방법 및 텍스트 데이터에 대한 띄어쓰기 교정 수행 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191023

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191029

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200120

R150 Certificate of patent or registration of utility model

Ref document number: 6657920

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150