JP2013156815A

JP2013156815A - ドキュメント整合性評価システム、ドキュメント整合性評価方法、およびプログラム

Info

Publication number: JP2013156815A
Application number: JP2012016424A
Authority: JP
Inventors: Tomohisa Goto; 智久五藤; Eiji Hirao; 英司平尾
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2012-01-30
Filing date: 2012-01-30
Publication date: 2013-08-15

Abstract

【課題】所定範囲内におけるドキュメント整合性評価を精度良く行うことが困難である。
【解決手段】ドキュメント整合性評価システムとして、評価対象を受けるドキュメント登録部と、評価範囲から語間の類似性が高い語を同義語候補として抽出する同義語候補抽出部と、抽出された同義語候補を元となる語に置き換える変換を行う同義語候補変換部と、評価範囲で同義語候補の先の変換を行う前後の整合性をそれぞれ算定するドキュメント整合性算出部と、先のそれぞれの算定結果を基に整合性への影響が大きな同義語候補を同義語確認候補として抽出する同義語確認候補抽出部と、抽出した同義語確認候補を表示する同義語確認候補表示部と、登録が指示された同義語確認候補を辞書に登録する同義語登録部と、登録された辞書を使用して評価範囲について整合性を算定するドキュメント整合性評価部と、結果を出力する整合性評価結果出力部とを設ける。
【選択図】図１

Description

本発明は、文書間や文章間の整合性を判定する技術に関し、特に、システムやソフトウェアを構築する際に作成されるドキュメント内あるいはドキュメント間で整合性を精度良く分析するドキュメント整合性評価システムに関する。

システムやソフトウェアを構築する際の上流工程では、顧客からの提案依頼書（Ｒｅｑｕｅｓｔ Fｏｒ Pｒｏｐｏｓａｌ：ＲＦＰ）、顧客への提案書、顧客と合意すべき要件定義書、および各種仕様書（基本仕様書、機能仕様書、詳細仕様書等）がある。これらのドキュメントは、下流工程で行うプログラム実装の設計書といえる。

これらの上流工程のドキュメント中の誤りは、下流のプログラミングで拡散して行く。この場合、拡散した全ての誤りを他のプログラムに影響を与えずに修正するためには、多大な工数、すなわちコストが必要となる。この修正のコストがプロジェクトを不採算にする大きな原因ともいえる。この上流工程のドキュメント中の誤りを見つける有効な方法として、プロジェクトマネージャーによるインスペクション（レビュー）がある。このインスペクションは有効な方法である。一方で人的なリソースは限られている場合は、インスペクションに要するリソースの運用が困難となる。この問題点を、ツールを用いてドキュメントの分析を支援しようというアプローチを取ることができる。このアプローチにおける発明者らが考案した一手法を非特許文献１で開示している。この開示技術は、ドキュメントにおける要件の整合性を自動で行う整合性評価技術に関する。

システム開発では、上流工程のドキュメント（提案依頼書、提案書、仕様書など）が高い整合性を維持することが必要である。この整合性評価技術の精度は、自然言語処理ということもあり、利用する辞書に大きく依存する。この利用する辞書は、単純に様々な同義語辞書を足し合わせることのみでは精度の向上を望めない。特に、システム開発におけるこのようなドキュメントでは、各案件に固有の同義語が多数含まれる。ここで、同義語とは、発音や表記は異なるが、意味が同様となる語を示す。その同義語がツールによる自然言語処理の効率を低下させる一つの原因となっていることは広く知られており、ドキュメントの整合性評価を行う上でもその同義語の取り扱いが重要である。なお、システム開発では、同義語について、出来る限り同一の語句を使用したり、同義語の有する意味を同一とすることが望まれる。

同義語を抽出する方法は、例えば特許文献１ないし４に開示されている。
特許文献１では、複合語の類似性を算出する際、複合語を構成する単位語の重みを重要視する位置などで定義する技術が開示されている。特許文献２では、係り受け情報、２単語の意味情報の一致性、２単語の字句情報の一致性により類似度を判定する技術が開示されている。特許文献３では、同意文対間において共通する複数の単語列と、任意の二つの単語列に挟まれた同意文対間において互いに異なる単語列からなる単語列対を、同意文対からそれぞれ抽出する技術が開示されている。さらに、特許文献４では、ペアの単語それぞれの表記と読みを正規化して類似性を判定し、残りは分類器を用いて判定する技術が開示されている。
このように同義語を抽出する技術は複数開示されているが、これらの開示技術は、同義語を自動的に見出し、同義語辞書に登録することが目的である。また、そのようにして作成された同義語辞書は、検索エンジンなどに活用されている。

特開平６−２７４５４７号公報特開２００７−０７９７３０号公報特開２００７−２３３４４６号公報特開２００９−２２３４６３号公報

藤原由希子、五藤智久、谷幹也著、「コルモゴロフ複雑性に基づく文書間の整合性確認」、ソフトウェアエンジニアリングシンポジウム２０１０（ＳＥＳ２０１０）、Ｐ−５

本発明が分析の対象とできるシステムやソフトウェア開発の上流工程におけるドキュメントでは、特定の語間において、案件毎に同義語の判定が大きく異なるケース、すなわち、ある案件では同義として扱うべきであるが、別の案件では同義として扱うべきではないというケースが起きる。これは、会社毎、部署毎、担当者毎でも発生している。

また、上流工程で作成される各文書は校正などの機会が少なく、誤記や記載者固有の言い回しなどを含みやすい問題を有する。このようなドキュメントに係り受けやコーパス情報、辞書情報などを利用するような従来技術を闇雲に適用しても、所要の同義語の抽出精度が低く、整合性評価の精度向上につながりにくい。

また、整合性評価の精度向上には、抽出された同義語候補を人手で確認する必要があるが、上流工程のドキュメントの同義語候補は一定の網羅率における正答率が低く、確認の負荷が膨大になってしまう。このような場合に、情報処理を用いるにしても、従来技術だけでは対応できない。

本発明の目的は、所要な同義語候補（同義語確認候補）を効率的に抽出すると共に、整合性評価に大きく影響を与える同義語候補を反映して精度の高いドキュメント整合性評価を行うドキュメント整合性評価システムを提供することにある。

本発明に係るドキュメント整合性評価システムは、評価対象を受け付けるドキュメント登録部と、評価範囲から、語間の類似性が高い語を同義語候補として抽出する同義語候補抽出部と、抽出された同義語候補について、定めた元となる語に置き換える変換処理を行う同義語候補変換部と、前記評価範囲について、同義語候補の前記変換処理を行う前後の整合性を、それぞれ算定するドキュメント整合性算出部と、前記それぞれの算定結果に基づいて、整合性への影響が大きな同義語候補を影響が大きい順に同義語確認候補として抽出処理する同義語確認候補抽出部と、抽出した同義語確認候補を整合性への影響の大きさと同義語である可能性の高さが分かるように表示する同義語確認候補表示部と、登録が指示された同義語確認候補を辞書に登録する同義語登録部と、前記評価範囲でのドキュメント整合性への影響が大きな同義語確認候補が登録された前記辞書を使用して、前記評価範囲について整合性を算定するドキュメント整合性評価部と、整合性評価結果を出力する整合性評価結果出力部とを少なくとも具備することを特徴とする。

本発明によれば、所要な同義語候補を効率的に抽出すると共に、整合性評価に大きく影響を与える同義語候補を反映して精度の高いドキュメント整合性評価を行うドキュメント整合性評価システムを提供できる。
すなわち、本発明によれば、所定範囲内におけるドキュメント整合性評価を精度良く行うために、確認すべき同義語確認候補を効率的に抽出して、ドキュメント整合性評価を行える。

本発明の一実施形態のドキュメント整合性評価システム１００の構成を示すブロック図である。ドキュメント整合性評価システム１００の動作例を示すシーケンス図である。同義語確認候補（確認が必要と考えられる語句）の選択方法を示す説明図である。同義語確認候補を説明する説明図である。同義語確認候補を説明する説明図である整合性評価結果出力の画面一例を示す模式図である。実施例に係るドキュメント整合性評価システムの構成を示すブロック図である。

発明の一実施形態について図面を参照して具体的に詳細に説明する。

図１に示すドキュメント整合性評価システム１００は、少なくとも一つのドキュメントを入力するドキュメント登録部１１０と、入力されたドキュメントから同義語候補を抽出する同義語候補抽出部１２０と、抽出された同義語候補を変換する同義語候補変換部１３０と、同義語候補の変換前後のドキュメント整合性をそれぞれ算出するドキュメント整合性算出部１４０と、ドキュメント整合性への影響が大きな同義語確認候補を抽出する同義語確認候補抽出部１５０と、辞書への登録の要否を判断するために同義語確認候補を表示する同義語確認候補表示部１６０と、辞書への登録が必要と判断した同義語確認候補を辞書に登録する同義語登録部１７０と、ドキュメント整合性への影響が大きな同義語確認候補を登録した辞書１８０を利用するドキュメント整合性評価部１９０と、整合性評価結果を出力する整合性評価結果出力部２００と、を少なくとも具備する。

なお、電子デバイスで本ドキュメント整合性評価システムを構成する場合には、ドキュメント整合性評価システム１００を、プログラム制御により動作するコンピュータで実現することが可能である。コンピュータは周知のように、データを入力する入力装置と、データ処理装置と、データ処理装置での処理結果を出力する出力装置と、種々のデータベースとして働く補助記憶装置と、を具備するものである。そして、そのデータ処理装置は、プログラムを記憶するリードオンリメモリ（ＲＯＭ）と、データを一時的に記憶するワークエリアとして使用されるランダムアクセスメモリ（ＲＡＭ）と、ＲＯＭに記憶されたプログラムに従いＲＡＭに記憶されているデータを処理する中央処理装置（ＣＰＵ）と、を含み構成される。

コンピュータで本ドキュメント整合性評価システムを構成する場合、上記各部は、補助記憶装置に記録されたドキュメント整合性評価プログラムによって実現される。このドキュメント整合性評価プログラムは、ＲＡＭに展開されてＣＰＵ等のハードウェアと協働して上記各部を実現する。

次に、図２を参照して動作例を説明する。
本発明におけるドキュメントとは、自然言語で記載された種々の文書あるいは文章を示しており、具体的には、顧客から提出される提案依頼書（ＲＦＰ）やベンダーが顧客に提出する提案書や要件定義書、さらには、基本設計書、機能設計書等がこれに該当する。また、テスト仕様書などでも構わない。

ドキュメント登録部１１０は、ドキュメント整合性評価の対象となるドキュメントの少なくとも一部あるいは全文の登録を受け付ける。また、複数のドキュメントをドキュメント整合性評価の対象ともできる。

同義語候補抽出部１２０は、ドキュメント整合性評価システム１００にて分析評価の対象とする評価範囲から同義語の可能性があるペア若しくはそれ以上の語の組み合わせである同義語候補を抽出する。同義語候補抽出部１２０では、同義語である可能性を示してくれる手法であれば、いずれの方法を用いても構わない。また、同義語候補内の語間の類似度の値を合わせて同義語候補と共に記憶しても良い。
具体的には、単語語間の類似性を判定として、語の意味、語の字面、語の周辺情報、これらの組合せなどを利用する方法がある。
なお、これらのことを行うためのベースとなる技術として、辞書を利用して文字列を、意味を持つ最小の単位に分解する形態素解析があり、形態素解析は必要に応じて随時利用することができる。

語の意味を利用する方法としては、例えばシソーラスを用いて、距離や段数による類似度計算やベクトル化による類似度計算等がある。ここでいう距離とは、シソーラス上のカテゴリ間の枝の数であり、また、段数とは根カテゴリを一段として、それからカテゴリが一つ下位になると１が加算される。一方、ベクトル化とは、シソーラスのカテゴリに属する概念を抽象化したカテゴリ数次元のベクトルで表現するものであり、ベクトル値としては、シソーラス構造に基づいて各カテゴリに適切な重みを付与することで決定する。類似度は、例えば２つのベクトルがなす角度で示され、角度の尺度としてベクトルのなす余弦の値（コサイン類似度）が用いられる。なお、類似度という尺度は、比較する対象が類似しているほど、その値は高くなり、距離や段数という尺度は、比較する対象が類似しているほど、その値が小さくなる。

語の字面を評価する方法としては、例えば、レーベンシュタイン距離（編集距離）がある。レーベンシュタイン距離は、文字の挿入、文字の削除あるいは文字の置換という３種類の手順によって、ある文字列を別の文字列に変形するために必要な最小手順回数である。この距離の計算には、動的計画法で計算することができる。また、同様な方法にハミング距離を用いる方法がある。ハミング距離は２つの文字列の同じ位置の文字の不一致を示す。

語の周辺情報を利用する方法としては、例えば共起やｎ−ｇｒａｍを用いる方法がある。

共起を用いる方法では、共起単語による類似度を利用する方法もあるし、係り受け共起関係によって類似度を計算する方法もある。すなわち、これはある語と関連する複数の語との共起の回数の分布が二つの語間で類似しているかどうかを判定の尺度とする。具体的には、類似度は共起の回数から共起の行列を作成し、二行の数列から算出されるベクトル距離である。そのベクトル距離としては、例えば、ユークリッド空間上での２点の幾何学的な直線距離であるユークリッド距離がある。ｎ−ｇｒａｍは、文字の意味は考慮しないで、Ｎ文字で文章を区切るものである。

同義語候補変換部１３０は、同義語候補抽出部１２０で抽出した同義語候補（ペア若しくはそれ以上の組）を、一つの基本とする語に置換することによって、分析評価の対象となっているドキュメント範囲に反映させるものである。
ここで、同義語候補抽出部１２０で抽出した同義語候補は、同義語候補セットとみなすことができ、例えば、Ｓ_αβと表わすことができる。ここでαは元となる語を示し、βはその元となる語の同義語候補を示す。ここで、β＝０の語を元となる語Ｓ_α０とする。具体的には、ある元となる語Ｓ_１０の同義語候補は、Ｓ_１１、Ｓ_１２、・・・・Ｓ_１βとなる。この時点で元となる語Ｓ_１０とＳ_１１〜Ｓ_１βの個々の類似度の値に基づいて同義語候補を並び替えて記憶してもよい。なお、ベータの数は元となる語や同義語候補抽出の閾値によって変化する。

本発明では、このように同義語候補抽出部１２０で抽出された同義語候補を同義語候補変換部１３０によってドキュメントに反映させて整合性を評価する。すなわち、元となる語で同義語候補を置き直させて、整合性を評価する。なお、同義語候補抽出部１２０で抽出された同義語候補は複数あることが想定される。これは元となる語が複数ある場合もあるし、ある元となる語に対して複数の同義語候補がある場合もある。また、両方の場合が同時に起こる場合もある。

同義語候補が複数抽出された場合は、一つずつ変換して、整合性評価を行うことが望ましい。その場合、類似性が高い結果となった同義語候補から変換していくという手順でも良いし、元となる語を決めて、その語に係わるすべての同義語候補の整合性評価を行っても構わない。その際、元なる語の選択として、その元となる語の全ての同義語候補に関する類似度の平均をとることにより、元となる語を決めることができる。また、同義語候補抽出部１２０での類似度を利用するだけでなく、得られた同義語候補全体に対して、もう一度、元となる語と同義語候補との間の類似性を分析することで、整合性評価に向けた変換の順番を決定していくことも可能である。
この再類似度評価の方法としては、例えば、ｎ−ｇｒａｍを用いる方法もあるし、コルモゴロフ複雑性という指標を利用することもできる。

一方、一つずつ変換することに変えて、同義語候補変換部１３０では、複数の同義語候補を同時に変換して、整合性評価を行っても構わない。この場合、他の同義語候補と平均的に類似度の高い同義語候補に変換しても良いし、元の語を何れかに特定し、それに係わる同義語候補をまとめて変換することもできる。また、所定の類似度を満足する同義語について元の語に置換して、それ以外の同義語についてそのままに残すように、複数の同義語候補を同時に変換してもよい。

ドキュメント整合性算出部１４０は、同義語候補が入力される前のドキュメントを用いてドキュメントの整合性評価を行うと共に、同義語候補が所要に変換されているドキュメントすなわち同義語候補を元の語や基準とする同義語に置換されているドキュメントを用いてドキュメントの整合性評価を行う。なお、整合性評価は、ドキュメント内全てとせずとも、ドキュメント内の所定の範囲で行なうこととしてもよいし、複数のドキュメントを指定範囲として扱って評価を行なってもよい。
同義語候補が複数ある場合は、それに対応して、ドキュメントの整合性評価を変換前と変換後の評価範囲とする文章にそれぞれに行う。これにより、分析評価の対象となるドキュメントの整合性を算定する。

ここで評価範囲内での整合性には、文と文の類似性を定量化した類似度を、対象とする評価範囲全体で積算したもの、あるいはその平均などが利用できる。
このドキュメント整合性算出部１４０での整合性の算定には、文と文との類似度を評価する既存の方法が利用でき、例えば、Ｎ―ｇｒａｍ、構文構造解析、コルモゴロフ複雑性などが利用できる。構文構造解析では、構文構造の類似度として、構文解析木の部分木が完全一致する個数を基にする方法や部分木のレーベンシュタイン距離を算出する方法がある。コルモゴロフ複雑性は、文字列Ｘの本質的な複雑さを示しており、この文字列Ｘのコルモゴロフ複雑性は、万能計算機でＸを出力できる最も短いプログラムの長さに等しい。コルモゴロフ複雑性に基づく距離は、文字列Ａに文字列Ｂを追加したとき、どれくらい複雑さが増加するかで概算することができ、２つの文字列正規化圧縮距離として算出できる。
なお、ドキュメントの整合性を算出する指定範囲の領域（評価範囲）としては、関連するドキュメント全体で行うことが好ましい。しかし、例えば、ファイル毎や、作成チーム毎、担当者毎のように、ドキュメントを区切り、区切った単位毎にドキュメント整合性評価を行っても構わない。

同義語確認候補抽出部１５０は、ドキュメント整合性算出部１４０で得た結果に基づいて、ドキュメント整合性への影響が大きい順に同義語確認候補を抽出するものである。抽出される同義語確認候補について、以下に詳説する。

図３は、同義語確認候補（確認が必要な語句）の選択方法を示す模式図である。ここで、図３を参照して、本発明で狙うべき同義語確認候補を詳細に説明する。
図３における横軸は推測される語間の類似性であり、言い換えると同義語である可能性を示している。すなわち、同義語候補抽出部１２０で抽出される同義語候補で定まる類似度が、この指標に関するものである。なお、類似度は、同義語候補抽出部１２０又は同義語確認候補抽出部１５０が求めれば何れでもよい。
一方、図３の縦軸は、語句の重要性（整合性評価に与えた影響の大きさ）を示している。

同義語確認候補抽出部１５０は、これらの指標で両方とも高い値を示す同義語候補を同義語確認候補として抽出する。
単純化のため、各軸を高と低の２つに区切ると、結果として図示するように４つの象限が得られる。なお、同義語確認候補として抽出される同義語候補は、図中の高低を分ける値を操作する閾値を用いることにより範囲が定められる。また、同義語確認候補の最大個数や最小個数を用いて抽出量を調整してもよい。
本発明では、推測される語間の類似性が高く、かつ、語句の重要性が高いものが、確認が必要な語句すなわち同義語確認候補であるとして抽出される。

同義語確認候補表示部１６０は、同義語確認候補抽出部１５０で抽出された同義語確認候補を作業者が見やすい形で結果を提示し、修正を促すと共にその判断結果を受け付けるものである。ここでの見やすい形とは、作業者が表示結果を見て、その表示された同義語確認候補について同義語と扱うか否かを定める確認の優先順位を直感的に決定できることを示している。また、修正を促すとは、作業者が同義語確認候補に関連する文を閲覧して、同義語として修正するか否かの判断を適切に実行できるようにすることを示している。表示の仕方として、図４のように数字を示す形式でも良いし、図５のように二次元の座標に同義語確認候補をプロットして示す形式としても良い。なお、これに限定されるものではない。

同義語候補登録部１７０は、作業者が同義語確認候補表示部１６０を見て行った操作を受けて、判断した結果を辞書１８０に登録するものである。この辞書１８０は、最初は一般的な同義語データベースや関連語データベースを基本にして作成されるものであるが、本発明の一連の操作により辞書への登録が必要であると判断された同義語候補を辞書に登録することで逐次拡充が図られるものである。
なお、登録される同義語候補は、対象となるドキュメントの整合性評価に大きく寄与するものである。すなわち、辞書１８０には、対象とした文章範囲（各案件毎など）に特有の同義語（語間の関係性）が登録されて収集される。
この同義語辞書を優先的に利用することにより、ドキュメント間の整合性が向上し、整合性評価の妥当性が向上する。すなわち、間違ったリンクを作成するリスクが低下する。これにより、整合性を図る範囲内のトレサビリティが容易となる。

ドキュメント整合性評価部１９０は、上記のようにして作成した辞書１８０を活用してドキュメント整合性評価を行うものである。
整合性評価結果出力部２００では、ドキュメントの整合性を評価した最終的な結果が出力される。ドキュメントの整合性を出力する方法としては、例えば、図６で示される形式がある。図６では、左のドキュメント２１０（ａ）の上から４番目の文２２０（ａ−４）と、右のドキュメント２１０（ｂ）の上から１から３番目の文２２０（ｂ−１）〜（ｂ−３）との整合性が予め設定された閾値よりも高くなり、結果として整合しているものとしてリンクが張られている。なお、本発明において、文とは句点やスペース等で区切られたテキスト形式の文字列を示しており、ドキュメントはこれらの文が纏まったものである。

このように、ドキュメント整合性評価システム１００として、推測される語間の類似性（同義語である可能性）が高く、かつ、語句の重要性（整合性評価に影響大）が高いものを優先的に辞書に反映させ、その辞書を用いて文章の整合性評価を行う。

すなわち、ドキュメントの整合性評価を行う上で、同義語の推定と整合性評価を関連させ、同義語候補を整合性評価の観点から絞り込むことで、望むべき評価に必要な同義語候補（同義語確認候補）を効率的に抽出することで、精度の高いドキュメント整合性評価を行うことができる。

その結果、文書間や文章間の整合性等を指定範囲に合致するように判定することが可能になる。

次に、具体的な実施例を用いて、実施形態に係るドキュメント整合性評価システム１００の動作について説明する。なお、本発明は本実施例に記載された処理方法の内容に限定されるものではない。

本実施例では、図７のようにドキュメント整合性評価システム１００は、分析実施者の持つＰＣ端末３００と通信ネットワークを介して接続されたサーバ３１０とから構成される。

ＰＣ端末３００は、ドキュメント登録部１１０、同義語候補変換部１３０、同義語確認候補抽出部１５０、同義語確認候補表示部１６０、同義語登録部１７０、整合性評価結果出力２００を具備している。

一方、サーバ３１０は、同義語候補抽出部１２０、ドキュメント整合性算出部１４０、ドキュメント整合性評価部１９０、および、辞書１８０を具備している。サーバ３１０は、ＰＣ端末３００からの送られたコマンドを実行し、その処理結果をＰＣ端末３００に返すと共に、整合性評価に利用する同義語を辞書１８０に蓄積する。

ドキュメント整合性評価の実施者は、ドキュメント入力部１１０を介してドキュメント整合性評価を行いたいドキュメントの入力を行い、同義語確認候補表示部１６０を介して辞書１８０に登録する同義語を選択し、整合性評価結果出力部２００を介してドキュメント整合性評価を得る。

ドキュメント登録部１１０には、整合性を図る対象とするドキュメントが登録、すなわち入力される。本実施例では、ＲＦＰと要件定義書というテキスト形式からなる２つのドキュメントが登録されたとする。ドキュメント整合性評価システム１００（ＰＣ端末３００）は、登録された２つのドキュメントをサーバ３１０にある同義語候補抽出部１２０に送信する。

同義語候補抽出部１２０では、評価範囲であるドキュメントを構成する文ごとに形態素解析および構文解析を適用して文を構成する単語に分解し、その係り受け関係や格を解析することで、単語Ｗｉ（ｉ＝１、２、・・・、ｎ）と各単語Ｗｉの格、係り受け構造といった単語情報を抽出する。そして、その結果を活用して同義語の候補の抽出を行う。
同義語候補抽出部１２０では、形態素解析の結果を利用して、共起単語の集合をベクトルとして表現し、その特性ベクトル間の類似度をコサイン類似度により算出する。コサイン類似度では、１になるとベクトルは同じ要素となり、０になると全く違う要素となる。同義語候補抽出部１２０では、コサイン類似度が高い順に同義語候補Ｓ_αβを抽出処理し、下限のコサイン類似度をγに設定する。

同義語候補変換部１３０では、同義語候補抽出部１２０で抽出されたコサイン類似度がγ以上の同義語候補Ｓ_αβについて、指定範囲としたドキュメント（ＲＦＰ、要件定義書）に展開する。具体的な一例では、コサイン類似度が高い順に同義語候補Ｓ_αβを元となる語Ｓ_α０と置き換える変換する。ここで、抽出した全同義語候補Ｓ_αβを元となる語Ｓ_α０に一度にすべて変換するのではなく、各同義語候補が変換によりどの程度ドキュメント整合性評価に影響を与えるかを評価するために、一語を変換した後、次のドキュメント整合性算出部１４０に移る。

ドキュメント整合性算出部１４０では、同義語候補が入力される前のドキュメントを用いてドキュメントの整合性評価を行うと共に、同義語候補が入力されて変換されたドキュメントを用いてドキュメントの整合性評価を行う。
なお、整合性評価の条件を変えなければ、同義語候補が入力される前のドキュメントを用いた整合性評価の処理は、最初に一度行う。他方、同義語候補が入力された後のドキュメントを用いた整合性評価の処理は、同義語候補を入れ替えて繰り返し行う。

本例では、ドキュメント整合性算出部１４０およびドキュメント整合性評価部１９０では、以下の処理によって、ドキュメント間の整合性評価を行う。

個々の整合性評価には、コルモゴロフ複雑性に基づく距離を利用する。評価範囲としたＲＦＰと要件定義書の両文章について、ＲＦＰがＮ個の文（テキスト形式）を、要件定義書がＭ個の文を有する場合、類似度を合わせて算定する文と文とのペア数はＮ×Ｍとなる。類似度の指標としては、文ｘに文ｙを追加したときの複雑さの増加である正規化圧縮距離を利用する。正規化圧縮距離ＮＣＤは以下の式（１）により算出する。

ここで、Ｃ（ｘ）とＣ（ｙ）は、それぞれ文ｘと文ｙの圧縮列の長さを示し、Ｃ（ｘ・ｙ）は、文ｘと文ｙを連結させた圧縮列の長さを示す。この正規化圧縮距離が小さいほど、文ｘと文ｙとが類似している。なお、（１−ＮＣＤ）×１００という値を類似度として定義することも可能性である。ドキュメントの全体の整合性評価には、Ｎ×Ｍ個のペアついて、この正規化圧縮距離を計算する。

結果として、ドキュメント全体の整合性としては、すべてのペアの正規化圧縮距離の加算値、あるいは、その平均値などが利用できる。
まず、同義語候補を変換する前のドキュメント全体の正規化圧縮距離の加算値（＝初期全ＮＣＤ）を算出しておき、次に、同義語候補Ｓ_αβ（α＝１、２、３・・・Ｋ、β＝１、２、３、・・Ｌ）に変換したときの正規化圧縮距離の加算値（＝変換全ＮＣＤ_αβ）を算出する。

同義語確認候補抽出部１５０は、人手により確認すべき同義語確認候補を効率的に抽出するものであり、具体的には、よりドキュメントの整合性に影響を与えたものを優先的に抽出する。その方法としては、同義語候補を変換したことによるドキュメント全体の正規化圧縮距離との差分Ｄを算出する方法がある。すなわち、ドキュメント全体の正規化圧縮距離との差分Ｄ＝初期全ＮＣＤ−変換全ＮＣＤが正となれば、同義語の変換により、ドキュメントの整合性が増加したことを示している。一方、Ｄが負となれば、それはドキュメントの整合性が減少したことを示す。効率的に抽出する一つの方法は、Ｄの値が大きい順に同義語確認候補を抽出することと云える。なお、同義語確認候補の抽出としては、このＤだけではなく、同義語候補抽出部１２０で算出したコサイン類似度を利用しても構わない。

同義語確認候補表示部１６０では、同義語候補、ドキュメント全体の正規化圧縮距離の差分Ｄ、コサイン類似度を一覧表にして、差分Ｄが高い順にソートして作業者に同義語確認候補として提示する。

作業者は、その結果を見て、同義語登録部１７０のその同義語確認候補を辞書１８０に登録するか判断する。すなわち、本システムでは、推測される語間の類似性（同義語である可能性）が高く、かつ、語句の重要性（整合性評価に影響大）が高いものを優先的に辞書に反映させるようにしてインスペクションを行なうプロジェクトマネージャーなどの作業効率を上げる。

ドキュメント整合性評価部１９０では、登録が必要と判断された同義語確認候補が登録され終わった辞書１８０を用いてドキュメント整合性評価を行い、所要に文書間のリンク等を形成する。
そして、整合性評価結果出力部２００にて、ドキュメント間においてトレーサビリティリンクが反映された結果が図６に例示したように出力される。

なお、ドキュメント整合性評価システムの各部は、上記したように、ハードウェアとソフトウェアの組み合わせを用いて実現すればよい。ハードウェアとソフトウェアとを組み合わせた形態では、ＲＡＭにドキュメント整合性評価システムが展開され、プログラムに基づいて制御部（ＣＰＵ）等のハードウェアを動作させることによって、各部を各種手段として実現する。また、ドキュメント整合性評価プログラムは、記憶媒体に記録されて頒布されても良い。当該記録媒体に記録されたプログラムは、有線、無線、又は記録媒体そのものを介して、メモリに読込まれ、制御部等を動作させる。尚、記録媒体を例示すれば、オプティカルディスクや磁気ディスク、半導体メモリ装置、ハードディスクなどが挙げられる。

上記実施の形態を別の表現で説明すれば、ドキュメント整合性評価システムとして動作させる情報処理システムを、ＲＡＭに展開されたドキュメント整合性評価プログラムに基づき、ドキュメント登録手段、同義語候補抽出手段、同義語候補変換手段、ドキュメント整合性算出手段、同義語確認候補抽出手段、同義語確認候補表示手段、同義語登録手段、ドキュメント整合性評価手段、整合性評価結果出力手段として制御部を動作させることで実現することが可能である。

このように、ドキュメント整合性評価プログラムは、評価範囲での整合性への影響が大きな同義語が登録された辞書を収集して整合性を算定処理する際に、評価対象の文章を受け付けて、評価する範囲の文章から、語間の類似性が高い語を同義語候補として抽出した同義語候補について、類似度を算定する基準となる元となる語に置き換える変換処理を行うと共に、評価範囲について、同義語候補の前記変換処理を行う前の整合性と変換処理を行う後の整合性に基づいて、整合性への影響が大きな同義語候補を同義語確認候補として抽出処理し、整合性への影響の大きさと同義語である可能性の高さが評価者に順序付けて理解できるように同義語確認候補を提示することで、同義語確認候補を辞書に登録させて、該辞書を使用して、前記評価範囲について整合性を算定処理するように、ハードウェア資源を動作させる。

以上、実施の形態および実施例の説明で示したように、本発明によれば、所定範囲内におけるドキュメント整合性評価を精度良く行うために、確認すべき同義語確認候補を効率的に抽出して、ドキュメント整合性評価を行える。すなわち、所要な同義語候補を効率的に抽出すると共に、整合性評価に大きく影響を与える同義語候補を反映して精度の高いドキュメント整合性評価を行うドキュメント整合性評価システムを提供できる。
また、本発明の具体的な構成は前述の実施の形態に限られるものではなく、この発明の要旨を逸脱しない範囲の変更があってもこの発明に含まれる。

また、上記の実施形態の一部又は全部は、以下のようにも記載されうる。尚、以下の付記は本発明をなんら限定するものではない。
［付記１］
評価対象を受け付けるドキュメント登録部と、
評価範囲から、語間の類似性が高い語を同義語候補として抽出する同義語候補抽出部と、
抽出された同義語候補について、定めた元となる語に置き換える変換処理を行う同義語候補変換部と、
前記評価範囲について、同義語候補の前記変換処理を行う前後の整合性を、それぞれ算定するドキュメント整合性算出部と、
前記それぞれの算定結果に基づいて、整合性への影響が大きな同義語候補を影響が大きい順に同義語確認候補として抽出処理する同義語確認候補抽出部と、
抽出した同義語確認候補を整合性への影響の大きさと同義語である可能性の高さが分かるように表示する同義語確認候補表示部と、
登録が指示された同義語確認候補を辞書に登録する同義語登録部と、
前記評価範囲でのドキュメント整合性への影響が大きな同義語確認候補が登録された前記辞書を使用して、前記評価範囲について整合性を算定するドキュメント整合性評価部と、
整合性評価結果を出力する整合性評価結果出力部と、
を少なくとも具備することを特徴とするドキュメント整合性評価システム。

［付記２］
前記同義語候補変換部は、前記同義語候補抽出部で抽出した同義語候補のセットに対して、再類似度評価を実施して、同義語候補を選択したのち、その同義語候補を元となる語で変換することを特徴とする上記付記記載のドキュメント整合性評価システム。

［付記３］
前記同義語候補変換部における前記再類似度評価は、語の字面の類似性に準ずる類似度評価であることを特徴とする上記付記記載のドキュメント整合性評価システム。

［付記４］
前記同義語候補変換部は、同義語候補を一つ変換した後に、ドキュメント整合性算出部にて整合性を算定する処理に移行することを特徴とする上記付記記載のドキュメント整合性評価システム。

［付記５］
前記ドキュメント整合性算出部は、コルモゴロフ複雑性の概算を用いて整合性を計算することを特徴とする上記付記記載のドキュメント整合性評価システム。

［付記６］
前記ドキュメント整合性算出部は、同義語候補の変換前後の評価範囲に関する整合性の差分を算出することを特徴とする上記付記記載のドキュメント整合性評価システム。

［付記７］
評価対象の文章を受け付け、
評価する範囲の文章から、語間の類似性が高い語を同義語候補として抽出処理し、
抽出した同義語候補について、定めた元となる語に置き換える変換処理を行い、
前記評価範囲について、同義語候補の前記変換処理を行う前後の整合性を、それぞれ算定し、
前記それぞれの算定結果に基づいて、整合性への影響が大きな同義語候補を影響が大きい順に同義語確認候補として抽出処理し、
抽出した同義語確認候補を整合性への影響の大きさと同義語である可能性の高さが分かるように表示処理し、
表示した内容を参照して登録を指示された同義語確認候補を辞書に登録し、
前記評価範囲でのドキュメント整合性への影響が大きな同義語確認候補が登録された前記辞書を使用して、前記評価範囲について整合性を算定処理する
ことを特徴とする情報処理システムにおけるドキュメント整合性評価方法。

［付記８］
前記同義語候補の変換処理は、前記同義語候補の抽出処理で抽出した同義語候補のセットに対して、再類似度評価を実施して、同義語候補を選択したのち、その同義語候補を元となる語で変換することを特徴とする上記付記記載のドキュメント整合性評価方法。

［付記９］
前記同義語候補の変換処理における前記再類似度評価は、語の字面の類似性に準ずる類似度評価であることを特徴とする上記付記記載のドキュメント整合性評価方法。

［付記１０］
前記同義語候補の変換処理は、同義語候補を一つ変換した後に、ドキュメント整合性の算出処理にて整合性を算定する処理に移行することを特徴とする上記付記記載のドキュメント整合性評価方法。

［付記１１］
前記ドキュメント整合性の算出処理は、コルモゴロフ複雑性の概算を用いて整合性を計算することを特徴とする上記付記記載のドキュメント整合性評価方法。

［付記１２］
前記ドキュメント整合性の算出処理は、同義語候補の変換前後の評価範囲に関する整合性の差分を算出することを特徴とする上記付記記載のドキュメント整合性評価方法。

［付記１３］
評価範囲での整合性への影響が大きな同義語が登録された辞書を収集して整合性を算定処理する際に、
前記評価対象の文章を受け付けて、
評価する範囲の文章から、語間の類似性が高い語を同義語候補として抽出した同義語候補について、類似度を算定する基準となる元となる語に置き換える変換処理を行うと共に、前記評価範囲について、同義語候補の前記変換処理を行う前の整合性と前記変換処理を行う後の整合性に基づいて、整合性への影響が大きな同義語候補を同義語確認候補として抽出処理し、
整合性への影響の大きさと同義語である可能性の高さが評価者に順序付けて理解できるように同義語確認候補を提示することで、同義語確認候補を辞書に登録させて、
該辞書を使用して、前記評価範囲について整合性を算定処理する
ことを特徴とする情報処理システムにおけるドキュメント整合性評価方法。

［付記１４］
情報処理システムを、
評価対象を受け付けるドキュメント登録手段と、
評価範囲から、語間の類似性が高い語を同義語候補として抽出する同義語候補抽出手段と、
抽出された同義語候補について、定めた元となる語に置き換える変換処理を行う同義語候補変換手段と、
前記評価範囲について、同義語候補の前記変換処理を行う前後の整合性を、それぞれ算定するドキュメント整合性算出手段と、
前記それぞれの算定結果に基づいて、整合性への影響が大きな同義語候補を影響が大きい順に同義語確認候補として抽出処理する同義語確認候補抽出手段と、
抽出した同義語確認候補を整合性への影響の大きさと同義語である可能性の高さが分かるように表示する同義語確認候補表示手段と、
登録が指示された同義語確認候補を辞書に登録する同義語登録手段と、
前記評価範囲でのドキュメント整合性への影響が大きな同義語確認候補が登録された前記辞書を使用して、前記評価範囲について整合性を算定するドキュメント整合性評価手段と、
整合性評価結果を出力する整合性評価結果出力手段と、
して動作させることを特徴とするドキュメント整合性評価プログラム。

［付記１５］
前記同義語候補変換手段は、前記同義語候補抽出手段で抽出した同義語候補のセットに対して、再類似度評価を実施して、同義語候補を選択したのち、その同義語候補を元となる語で変換することを特徴とする上記付記記載のドキュメント整合性評価プログラム。

［付記１６］
前記同義語候補変換手段における前記再類似度評価は、語の字面の類似性に準ずる類似度評価であることを特徴とする上記付記記載のドキュメント整合性評価プログラム。

［付記１７］
前記同義語候補変換手段は、同義語候補を一つ変換した後に、ドキュメント整合性算出手段にて整合性を算定する処理に移行することを特徴とする上記付記記載のドキュメント整合性評価プログラム。

［付記１８］
前記ドキュメント整合性算出手段は、コルモゴロフ複雑性の概算を用いて整合性を計算することを特徴とする上記付記記載のドキュメント整合性評価プログラム。

［付記１９］
前記ドキュメント整合性算出手段は、同義語候補の変換前後の評価範囲に関する整合性の差分を算出することを特徴とする上記付記記載のドキュメント整合性評価プログラム。

［付記２０］
同義語が登録された辞書を用いて整合性を算定処理する際に、
評価する範囲の文章から、語間の類似性が高い語を同義語候補として抽出した同義語候補について、類似度を算定する基準となる元となる語に置き換える変換処理を行うと共に、前記評価範囲について、同義語候補の前記変換処理を行う前の整合性と前記変換処理を行う後の整合性に基づいて、整合性への影響が大きな同義語候補を同義語確認候補として抽出処理する手段と、
整合性への影響の大きさと同義語である可能性の高さが評価者に順序付けて理解できるように同義語確認候補を提示する手段と、
同義語確認候補が登録された辞書を使用して、前記評価範囲について整合性を算定処理する手段
として情報処理システムを動作させることを特徴とするドキュメント整合性評価プログラム。

本発明は、文書間や文章間の整合性を判定するドキュメント整合性判定システムに使用できる。また、本発明は、システムやソフトウェアを構築する際の各種仕様書類の分析や評価という用途に適用できる。

１００ドキュメント整合性評価システム
１１０ドキュメント登録部
１２０同義語候補抽出部
１３０同義語候補変換部
１４０ドキュメント整合性算出部
１５０同義語確認候補抽出部
１６０同義語確認候補表示部
１７０同義語登録部
１８０辞書
１９０ドキュメント整合性評価部
２００整合性評価結果出力部
２１０ドキュメント（文書）
２２０文（一文）
２３０リンク（関連性）
３００ＰＣ端末
３１０サーバ

Claims

評価対象を受け付けるドキュメント登録部と、
評価範囲から、語間の類似性が高い語を同義語候補として抽出する同義語候補抽出部と、
抽出された同義語候補について、定めた元となる語に置き換える変換処理を行う同義語候補変換部と、
前記評価範囲について、同義語候補の前記変換処理を行う前後の整合性を、それぞれ算定するドキュメント整合性算出部と、
前記それぞれの算定結果に基づいて、整合性への影響が大きな同義語候補を影響が大きい順に同義語確認候補として抽出処理する同義語確認候補抽出部と、
抽出した同義語確認候補を整合性への影響の大きさと同義語である可能性の高さが分かるように表示する同義語確認候補表示部と、
登録が指示された同義語確認候補を辞書に登録する同義語登録部と、
前記評価範囲でのドキュメント整合性への影響が大きな同義語確認候補が登録された前記辞書を使用して、前記評価範囲について整合性を算定するドキュメント整合性評価部と、
整合性評価結果を出力する整合性評価結果出力部と、
を少なくとも具備することを特徴とするドキュメント整合性評価システム。
前記同義語候補変換部は、前記同義語候補抽出部で抽出した同義語候補のセットに対して、再類似度評価を実施して、同義語候補を選択したのち、その同義語候補を元となる語で変換することを特徴とする請求項１記載のドキュメント整合性評価システム。
前記同義語候補変換部における前記再類似度評価は、語の字面の類似性に準ずる類似度評価であることを特徴とする請求項２記載のドキュメント整合性評価システム。
前記同義語候補変換部は、同義語候補を一つ変換した後に、ドキュメント整合性算出部にて整合性を算定する処理に移行することを特徴とする請求項１乃至３の何れか一項に記載のドキュメント整合性評価システム。
前記ドキュメント整合性算出部は、コルモゴロフ複雑性の概算を用いて整合性を計算することを特徴とする請求項１乃至４の何れか一項に記載のドキュメント整合性評価システム。
前記ドキュメント整合性算出部は、同義語候補の変換前後の評価範囲に関する整合性の差分を算出することを特徴とする請求項１乃至５の何れか一項に記載のドキュメント整合性評価システム。
評価対象の文章を受け付け、
評価する範囲の文章から、語間の類似性が高い語を同義語候補として抽出処理し、
抽出した同義語候補について、定めた元となる語に置き換える変換処理を行い、
前記評価範囲について、同義語候補の前記変換処理を行う前後の整合性を、それぞれ算定し、
前記それぞれの算定結果に基づいて、整合性への影響が大きな同義語候補を影響が大きい順に同義語確認候補として抽出処理し、
抽出した同義語確認候補を整合性への影響の大きさと同義語である可能性の高さが分かるように表示処理し、
表示した内容を参照して登録を指示された同義語確認候補を辞書に登録し、
前記評価範囲でのドキュメント整合性への影響が大きな同義語確認候補が登録された前記辞書を使用して、前記評価範囲について整合性を算定処理する
ことを特徴とする情報処理システムにおけるドキュメント整合性評価方法。
評価範囲での整合性への影響が大きな同義語が登録された辞書を収集して整合性を算定処理する際に、
前記評価対象の文章を受け付けて、
評価する範囲の文章から、語間の類似性が高い語を同義語候補として抽出した同義語候補について、類似度を算定する基準となる元となる語に置き換える変換処理を行うと共に、前記評価範囲について、同義語候補の前記変換処理を行う前の整合性と前記変換処理を行う後の整合性に基づいて、整合性への影響が大きな同義語候補を同義語確認候補として抽出処理し、
整合性への影響の大きさと同義語である可能性の高さが評価者に順序付けて理解できるように同義語確認候補を提示することで、同義語確認候補を辞書に登録させて、
該辞書を使用して、前記評価範囲について整合性を算定処理する
ことを特徴とする情報処理システムにおけるドキュメント整合性評価方法。
情報処理システムを、
評価対象を受け付けるドキュメント登録手段と、
評価範囲から、語間の類似性が高い語を同義語候補として抽出する同義語候補抽出手段と、
抽出された同義語候補について、定めた元となる語に置き換える変換処理を行う同義語候補変換手段と、
前記評価範囲について、同義語候補の前記変換処理を行う前後の整合性を、それぞれ算定するドキュメント整合性算出手段と、
前記それぞれの算定結果に基づいて、整合性への影響が大きな同義語候補を影響が大きい順に同義語確認候補として抽出処理する同義語確認候補抽出手段と、
抽出した同義語確認候補を整合性への影響の大きさと同義語である可能性の高さが分かるように表示する同義語確認候補表示手段と、
登録が指示された同義語確認候補を辞書に登録する同義語登録手段と、
前記評価範囲でのドキュメント整合性への影響が大きな同義語確認候補が登録された前記辞書を使用して、前記評価範囲について整合性を算定するドキュメント整合性評価手段と、
整合性評価結果を出力する整合性評価結果出力手段と、
して動作させることを特徴とするドキュメント整合性評価プログラム。
同義語が登録された辞書を用いて整合性を算定処理する際に、
評価する範囲の文章から、語間の類似性が高い語を同義語候補として抽出した同義語候補について、類似度を算定する基準となる元となる語に置き換える変換処理を行うと共に、前記評価範囲について、同義語候補の前記変換処理を行う前の整合性と前記変換処理を行う後の整合性に基づいて、整合性への影響が大きな同義語候補を同義語確認候補として抽出処理する手段と、
整合性への影響の大きさと同義語である可能性の高さが評価者に順序付けて理解できるように同義語確認候補を提示する手段と、
同義語確認候補が登録された辞書を使用して、前記評価範囲について整合性を算定処理する手段
として情報処理システムを動作させることを特徴とするドキュメント整合性評価プログラム。