JP2013156815A - ドキュメント整合性評価システム、ドキュメント整合性評価方法、およびプログラム - Google Patents
ドキュメント整合性評価システム、ドキュメント整合性評価方法、およびプログラム Download PDFInfo
- Publication number
- JP2013156815A JP2013156815A JP2012016424A JP2012016424A JP2013156815A JP 2013156815 A JP2013156815 A JP 2013156815A JP 2012016424 A JP2012016424 A JP 2012016424A JP 2012016424 A JP2012016424 A JP 2012016424A JP 2013156815 A JP2013156815 A JP 2013156815A
- Authority
- JP
- Japan
- Prior art keywords
- synonym
- consistency
- evaluation
- document
- candidates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】所定範囲内におけるドキュメント整合性評価を精度良く行うことが困難である。
【解決手段】ドキュメント整合性評価システムとして、評価対象を受けるドキュメント登録部と、評価範囲から語間の類似性が高い語を同義語候補として抽出する同義語候補抽出部と、抽出された同義語候補を元となる語に置き換える変換を行う同義語候補変換部と、評価範囲で同義語候補の先の変換を行う前後の整合性をそれぞれ算定するドキュメント整合性算出部と、先のそれぞれの算定結果を基に整合性への影響が大きな同義語候補を同義語確認候補として抽出する同義語確認候補抽出部と、抽出した同義語確認候補を表示する同義語確認候補表示部と、登録が指示された同義語確認候補を辞書に登録する同義語登録部と、登録された辞書を使用して評価範囲について整合性を算定するドキュメント整合性評価部と、結果を出力する整合性評価結果出力部とを設ける。
【選択図】図1
【解決手段】ドキュメント整合性評価システムとして、評価対象を受けるドキュメント登録部と、評価範囲から語間の類似性が高い語を同義語候補として抽出する同義語候補抽出部と、抽出された同義語候補を元となる語に置き換える変換を行う同義語候補変換部と、評価範囲で同義語候補の先の変換を行う前後の整合性をそれぞれ算定するドキュメント整合性算出部と、先のそれぞれの算定結果を基に整合性への影響が大きな同義語候補を同義語確認候補として抽出する同義語確認候補抽出部と、抽出した同義語確認候補を表示する同義語確認候補表示部と、登録が指示された同義語確認候補を辞書に登録する同義語登録部と、登録された辞書を使用して評価範囲について整合性を算定するドキュメント整合性評価部と、結果を出力する整合性評価結果出力部とを設ける。
【選択図】図1
Description
本発明は、文書間や文章間の整合性を判定する技術に関し、特に、システムやソフトウェアを構築する際に作成されるドキュメント内あるいはドキュメント間で整合性を精度良く分析するドキュメント整合性評価システムに関する。
システムやソフトウェアを構築する際の上流工程では、顧客からの提案依頼書(Request For Proposal:RFP)、顧客への提案書、顧客と合意すべき要件定義書、および各種仕様書(基本仕様書、機能仕様書、詳細仕様書等)がある。これらのドキュメントは、下流工程で行うプログラム実装の設計書といえる。
これらの上流工程のドキュメント中の誤りは、下流のプログラミングで拡散して行く。この場合、拡散した全ての誤りを他のプログラムに影響を与えずに修正するためには、多大な工数、すなわちコストが必要となる。この修正のコストがプロジェクトを不採算にする大きな原因ともいえる。この上流工程のドキュメント中の誤りを見つける有効な方法として、プロジェクトマネージャーによるインスペクション(レビュー)がある。このインスペクションは有効な方法である。一方で人的なリソースは限られている場合は、インスペクションに要するリソースの運用が困難となる。この問題点を、ツールを用いてドキュメントの分析を支援しようというアプローチを取ることができる。このアプローチにおける発明者らが考案した一手法を非特許文献1で開示している。この開示技術は、ドキュメントにおける要件の整合性を自動で行う整合性評価技術に関する。
システム開発では、上流工程のドキュメント(提案依頼書、提案書、仕様書など)が高い整合性を維持することが必要である。この整合性評価技術の精度は、自然言語処理ということもあり、利用する辞書に大きく依存する。この利用する辞書は、単純に様々な同義語辞書を足し合わせることのみでは精度の向上を望めない。特に、システム開発における このようなドキュメントでは、各案件に固有の同義語が多数含まれる。ここで、同義語とは、発音や表記は異なるが、意味が同様となる語を示す。その同義語がツールによる自然言語処理の効率を低下させる一つの原因となっていることは広く知られており、ドキュメントの整合性評価を行う上でもその同義語の取り扱いが重要である。なお、システム開発では、同義語について、出来る限り同一の語句を使用したり、同義語の有する意味を同一とすることが望まれる。
同義語を抽出する方法は、例えば特許文献1ないし4に開示されている。
特許文献1では、複合語の類似性を算出する際、複合語を構成する単位語の重みを重要視する位置などで定義する技術が開示されている。特許文献2では、係り受け情報、2単語の意味情報の一致性、2単語の字句情報の一致性により類似度を判定する技術が開示されている。特許文献3では、同意文対間において共通する複数の単語列と、任意の二つの単語列に挟まれた同意文対間において互いに異なる単語列からなる単語列対を、同意文対からそれぞれ抽出する技術が開示されている。さらに、特許文献4では、ペアの単語それぞれの表記と読みを正規化して類似性を判定し、残りは分類器を用いて判定する技術が開示されている。
このように同義語を抽出する技術は複数開示されているが、これらの開示技術は、同義語を自動的に見出し、同義語辞書に登録することが目的である。また、そのようにして作成された同義語辞書は、検索エンジンなどに活用されている。
特許文献1では、複合語の類似性を算出する際、複合語を構成する単位語の重みを重要視する位置などで定義する技術が開示されている。特許文献2では、係り受け情報、2単語の意味情報の一致性、2単語の字句情報の一致性により類似度を判定する技術が開示されている。特許文献3では、同意文対間において共通する複数の単語列と、任意の二つの単語列に挟まれた同意文対間において互いに異なる単語列からなる単語列対を、同意文対からそれぞれ抽出する技術が開示されている。さらに、特許文献4では、ペアの単語それぞれの表記と読みを正規化して類似性を判定し、残りは分類器を用いて判定する技術が開示されている。
このように同義語を抽出する技術は複数開示されているが、これらの開示技術は、同義語を自動的に見出し、同義語辞書に登録することが目的である。また、そのようにして作成された同義語辞書は、検索エンジンなどに活用されている。
藤原 由希子、五藤 智久、谷 幹也 著 、「コルモゴロフ複雑性に基づく文書間の整合性確認」、ソフトウェアエンジニアリングシンポジウム2010(SES2010)、P−5
本発明が 分析の対象とできるシステムやソフトウェア開発の上流工程におけるドキュメントでは、特定の語間において、案件毎に同義語の判定が大きく異なるケース、すなわち、ある案件では同義として扱うべきであるが、別の案件では同義として扱うべきではないというケースが起きる。これは、会社毎、部署毎、担当者毎でも発生している。
また、上流工程で作成される各文書は校正などの機会が少なく、誤記や記載者固有の言い回しなどを含みやすい問題を有する。このようなドキュメントに係り受けやコーパス情報、辞書情報などを利用するような従来技術を闇雲に適用しても、所要の同義語の抽出精度が低く、整合性評価の精度向上につながりにくい。
また、整合性評価の精度向上には、抽出された同義語候補を人手で確認する必要があるが、上流工程のドキュメントの同義語候補は一定の網羅率における正答率が低く、確認の負荷が膨大になってしまう。このような場合に、情報処理を用いるにしても、従来技術だけでは対応できない。
本発明の目的は、所要な同義語候補(同義語確認候補)を効率的に抽出すると共に、整合性評価に大きく影響を与える同義語候補を反映して精度の高いドキュメント整合性評価を行うドキュメント整合性評価システムを提供することにある。
本発明に係るドキュメント整合性評価システムは、評価対象を受け付けるドキュメント登録部と、評価範囲から、語間の類似性が高い語を同義語候補として抽出する同義語候補抽出部と、抽出された同義語候補について、定めた元となる語に置き換える変換処理を行う同義語候補変換部と、前記評価範囲について、同義語候補の前記変換処理を行う前後の整合性を、それぞれ算定するドキュメント整合性算出部と、前記それぞれの算定結果に基づいて、整合性への影響が大きな同義語候補を影響が大きい順に同義語確認候補として抽出処理する同義語確認候補抽出部と、抽出した同義語確認候補を整合性への影響の大きさと同義語である可能性の高さが分かるように表示する同義語確認候補表示部と、登録が指示された同義語確認候補を辞書に登録する同義語登録部と、前記評価範囲でのドキュメント整合性への影響が大きな同義語確認候補が登録された前記辞書を使用して、前記評価範囲について整合性を算定するドキュメント整合性評価部と、整合性評価結果を出力する整合性評価結果出力部とを少なくとも具備することを特徴とする。
本発明によれば、所要な同義語候補を効率的に抽出すると共に、整合性評価に大きく影響を与える同義語候補を反映して精度の高いドキュメント整合性評価を行うドキュメント整合性評価システムを提供できる。
すなわち、本発明によれば、所定範囲内におけるドキュメント整合性評価を精度良く行うために、確認すべき同義語確認候補を効率的に抽出して、ドキュメント整合性評価を行える。
すなわち、本発明によれば、所定範囲内におけるドキュメント整合性評価を精度良く行うために、確認すべき同義語確認候補を効率的に抽出して、ドキュメント整合性評価を行える。
発明の一実施形態について図面を参照して具体的に詳細に説明する。
図1に示すドキュメント整合性評価システム100は、少なくとも一つのドキュメントを入力するドキュメント登録部110と、入力されたドキュメントから同義語候補を抽出する同義語候補抽出部120と、抽出された同義語候補を変換する同義語候補変換部130と、同義語候補の変換前後のドキュメント整合性をそれぞれ算出するドキュメント整合性算出部140と、ドキュメント整合性への影響が大きな同義語確認候補を抽出する同義語確認候補抽出部150と、辞書への登録の要否を判断するために同義語確認候補を表示する同義語確認候補表示部160と、辞書への登録が必要と判断した同義語確認候補を辞書に登録する同義語登録部170と、ドキュメント整合性への影響が大きな同義語確認候補を登録した辞書180を利用するドキュメント整合性評価部190と、整合性評価結果を出力する整合性評価結果出力部200と、を少なくとも具備する。
なお、電子デバイスで本ドキュメント整合性評価システムを構成する場合には、ドキュメント整合性評価システム100を、プログラム制御により動作するコンピュータで実現することが可能である。コンピュータは周知のように、データを入力する入力装置と、データ処理装置と、データ処理装置での処理結果を出力する出力装置と、種々のデータベースとして働く補助記憶装置と、を具備するものである。そして、そのデータ処理装置は、プログラムを記憶するリードオンリメモリ(ROM)と、データを一時的に記憶するワークエリアとして使用されるランダムアクセスメモリ(RAM)と、ROMに記憶されたプログラムに従いRAMに記憶されているデータを処理する中央処理装置(CPU)と、を含み構成される。
コンピュータで本ドキュメント整合性評価システムを構成する場合、上記各部は、補助記憶装置に記録されたドキュメント整合性評価プログラムによって実現される。このドキュメント整合性評価プログラムは、RAMに展開されてCPU等のハードウェアと協働して上記各部を実現する。
次に、図2を参照して動作例を説明する。
本発明におけるドキュメントとは、自然言語で記載された種々の文書あるいは文章を示しており、具体的には、顧客から提出される提案依頼書(RFP)やベンダーが顧客に提出する提案書や要件定義書、さらには、基本設計書、機能設計書等がこれに該当する。また、テスト仕様書などでも構わない。
本発明におけるドキュメントとは、自然言語で記載された種々の文書あるいは文章を示しており、具体的には、顧客から提出される提案依頼書(RFP)やベンダーが顧客に提出する提案書や要件定義書、さらには、基本設計書、機能設計書等がこれに該当する。また、テスト仕様書などでも構わない。
ドキュメント登録部110は、ドキュメント整合性評価の対象となるドキュメントの少なくとも一部あるいは全文の登録を受け付ける。また、複数のドキュメントをドキュメント整合性評価の対象ともできる。
同義語候補抽出部120は、ドキュメント整合性評価システム100にて分析評価の対象とする評価範囲から同義語の可能性があるペア若しくはそれ以上の語の組み合わせである同義語候補を抽出する。同義語候補抽出部120では、同義語である可能性を示してくれる手法であれば、いずれの方法を用いても構わない。また、同義語候補内の語間の類似度の値を合わせて同義語候補と共に記憶しても良い。
具体的には、単語語間の類似性を判定として、語の意味、語の字面、語の周辺情報、これらの組合せなどを利用する方法がある。
なお、これらのことを行うためのベースとなる技術として、辞書を利用して文字列を、意味を持つ最小の単位に分解する形態素解析があり、形態素解析は必要に応じて随時利用することができる。
具体的には、単語語間の類似性を判定として、語の意味、語の字面、語の周辺情報、これらの組合せなどを利用する方法がある。
なお、これらのことを行うためのベースとなる技術として、辞書を利用して文字列を、意味を持つ最小の単位に分解する形態素解析があり、形態素解析は必要に応じて随時利用することができる。
語の意味を利用する方法としては、例えばシソーラスを用いて、距離や段数による類似度計算やベクトル化による類似度計算等がある。ここでいう距離とは、シソーラス上のカテゴリ間の枝の数であり、また、段数とは根カテゴリを一段として、それからカテゴリが一つ下位になると1が加算される。 一方、ベクトル化とは、シソーラスのカテゴリに属する概念を抽象化したカテゴリ数次元のベクトルで表現するものであり、ベクトル値としては、シソーラス構造に基づいて各カテゴリに適切な重みを付与することで決定する。 類似度は、例えば2つのベクトルがなす角度で示され、角度の尺度としてベクトルのなす余弦の値(コサイン類似度)が用いられる。 なお、類似度という尺度は、比較する対象が類似しているほど、その値は高くなり、距離や段数という尺度は、比較する対象が類似しているほど、その値が小さくなる。
語の字面を評価する方法としては、例えば、レーベンシュタイン距離(編集距離)がある。レーベンシュタイン距離は、文字の挿入、文字の削除あるいは文字の置換という3種類の手順によって、ある文字列を別の文字列に変形するために必要な最小手順回数である。この距離の計算には、動的計画法で計算することができる。 また、同様な方法にハミング距離を用いる方法がある。ハミング距離は2つの文字列の同じ位置の文字の不一致を示す。
語の周辺情報を利用する方法としては、例えば共起やn−gramを用いる方法がある。
共起を用いる方法では、共起単語による類似度を利用する方法もあるし、係り受け共起関係によって類似度を計算する方法もある。すなわち、これはある語と関連する複数の語との共起の回数の分布が二つの語間で類似しているかどうかを判定の尺度とする。具体的には、類似度は共起の回数から共起の行列を作成し、二行の数列から算出されるベクトル距離である。そのベクトル距離としては、例えば、ユークリッド空間上での2点の幾何学的な直線距離であるユークリッド距離がある。n−gramは、文字の意味は考慮しないで、N文字で文章を区切るものである。
同義語候補変換部130は、同義語候補抽出部120で抽出した同義語候補(ペア若しくはそれ以上の組)を、一つの基本とする語に置換することによって、分析評価の対象となっているドキュメント範囲に反映させるものである。
ここで、同義語候補抽出部120で抽出した同義語候補は、同義語候補セットとみなすことができ、例えば、Sαβと表わすことができる。ここでαは元となる語を示し、βはその元となる語の同義語候補を示す。ここで、β=0の語を元となる語Sα0とする。具体的には、ある元となる語S10の同義語候補は、S11、S12、・・・・S1βとなる。この時点で元となる語S10とS11〜S1βの個々の類似度の値に基づいて同義語候補を並び替えて記憶してもよい。なお、ベータの数は元となる語や同義語候補抽出の閾値によって変化する。
ここで、同義語候補抽出部120で抽出した同義語候補は、同義語候補セットとみなすことができ、例えば、Sαβと表わすことができる。ここでαは元となる語を示し、βはその元となる語の同義語候補を示す。ここで、β=0の語を元となる語Sα0とする。具体的には、ある元となる語S10の同義語候補は、S11、S12、・・・・S1βとなる。この時点で元となる語S10とS11〜S1βの個々の類似度の値に基づいて同義語候補を並び替えて記憶してもよい。なお、ベータの数は元となる語や同義語候補抽出の閾値によって変化する。
本発明では、このように同義語候補抽出部120で抽出された同義語候補を同義語候補変換部130によってドキュメントに反映させて整合性を評価する。すなわち、元となる語で同義語候補を置き直させて、整合性を評価する。なお、同義語候補抽出部120で抽出された同義語候補は複数あることが想定される。これは元となる語が複数ある場合もあるし、ある元となる語に対して複数の同義語候補がある場合もある。また、両方の場合が同時に起こる場合もある。
同義語候補が複数抽出された場合は、一つずつ変換して、整合性評価を行うことが望ましい。その場合、類似性が高い結果となった同義語候補から変換していくという手順でも良いし、元となる語を決めて、その語に係わるすべての同義語候補の整合性評価を行っても構わない。その際、元なる語の選択として、その元となる語の全ての同義語候補に関する類似度の平均をとることにより、元となる語を決めることができる。また、同義語候補抽出部120での類似度を利用するだけでなく、得られた同義語候補全体に対して、もう一度、元となる語と同義語候補との間の類似性を分析することで、整合性評価に向けた変換の順番を決定していくことも可能である。
この再類似度評価の方法としては、例えば、n−gramを用いる方法もあるし、コルモゴロフ複雑性という指標を利用することもできる。
この再類似度評価の方法としては、例えば、n−gramを用いる方法もあるし、コルモゴロフ複雑性という指標を利用することもできる。
一方、一つずつ変換することに変えて、同義語候補変換部130では、複数の同義語候補を同時に変換して、整合性評価を行っても構わない。この場合、他の同義語候補と平均的に類似度の高い同義語候補に変換しても良いし、元の語を何れかに特定し、それに係わる同義語候補をまとめて変換することもできる。また、所定の類似度を満足する同義語について元の語に置換して、それ以外の同義語についてそのままに残すように、複数の同義語候補を同時に変換してもよい。
ドキュメント整合性算出部140は、同義語候補が入力される前のドキュメントを用いてドキュメントの整合性評価を行うと共に、同義語候補が所要に変換されているドキュメント すなわち同義語候補を元の語や基準とする同義語に置換されているドキュメントを用いてドキュメントの整合性評価を行う。なお、整合性評価は、ドキュメント内全てとせずとも、ドキュメント内の所定の範囲で行なうこととしてもよいし、複数のドキュメントを指定範囲として扱って評価を行なってもよい。
同義語候補が複数ある場合は、それに対応して、ドキュメントの整合性評価を変換前と変換後の評価範囲とする文章にそれぞれに行う。これにより、分析評価の対象となるドキュメントの整合性を算定する。
同義語候補が複数ある場合は、それに対応して、ドキュメントの整合性評価を変換前と変換後の評価範囲とする文章にそれぞれに行う。これにより、分析評価の対象となるドキュメントの整合性を算定する。
ここで評価範囲内での整合性には、文と文の類似性を定量化した類似度を、対象とする評価範囲全体で積算したもの、あるいはその平均などが利用できる。
このドキュメント整合性算出部140での整合性の算定には、文と文との類似度を評価する既存の方法が利用でき、例えば、N―gram、構文構造解析、コルモゴロフ複雑性などが利用できる。 構文構造解析では、構文構造の類似度として、構文解析木の部分木が完全一致する個数を基にする方法や部分木のレーベンシュタイン距離を算出する方法がある。 コルモゴロフ複雑性は、文字列Xの本質的な複雑さを示しており、この文字列Xのコルモゴロフ複雑性は、万能計算機でXを出力できる最も短いプログラムの長さに等しい。コルモゴロフ複雑性に基づく距離は、文字列Aに文字列Bを追加したとき、どれくらい複雑さが増加するかで概算することができ、2つの文字列正規化圧縮距離として算出できる。
なお、ドキュメントの整合性を算出する指定範囲の領域(評価範囲)としては、関連するドキュメント全体で行うことが好ましい。しかし、例えば、ファイル毎や、作成チーム毎、担当者毎のように、ドキュメントを区切り、区切った単位毎にドキュメント整合性評価を行っても構わない。
このドキュメント整合性算出部140での整合性の算定には、文と文との類似度を評価する既存の方法が利用でき、例えば、N―gram、構文構造解析、コルモゴロフ複雑性などが利用できる。 構文構造解析では、構文構造の類似度として、構文解析木の部分木が完全一致する個数を基にする方法や部分木のレーベンシュタイン距離を算出する方法がある。 コルモゴロフ複雑性は、文字列Xの本質的な複雑さを示しており、この文字列Xのコルモゴロフ複雑性は、万能計算機でXを出力できる最も短いプログラムの長さに等しい。コルモゴロフ複雑性に基づく距離は、文字列Aに文字列Bを追加したとき、どれくらい複雑さが増加するかで概算することができ、2つの文字列正規化圧縮距離として算出できる。
なお、ドキュメントの整合性を算出する指定範囲の領域(評価範囲)としては、関連するドキュメント全体で行うことが好ましい。しかし、例えば、ファイル毎や、作成チーム毎、担当者毎のように、ドキュメントを区切り、区切った単位毎にドキュメント整合性評価を行っても構わない。
同義語確認候補抽出部150は、ドキュメント整合性算出部140で得た結果に基づいて、ドキュメント整合性への影響が大きい順に同義語確認候補を抽出するものである。抽出される同義語確認候補について、以下に詳説する。
図3は、同義語確認候補(確認が必要な語句)の選択方法を示す模式図である。ここで、図3を参照して、本発明で狙うべき同義語確認候補を詳細に説明する。
図3における横軸は推測される語間の類似性であり、言い換えると同義語である可能性を示している。すなわち、同義語候補抽出部120で抽出される同義語候補で定まる類似度が、この指標に関するものである。なお、類似度は、同義語候補抽出部120又は同義語確認候補抽出部150が求めれば何れでもよい。
一方、図3の縦軸は、語句の重要性(整合性評価に与えた影響の大きさ)を示している。
図3における横軸は推測される語間の類似性であり、言い換えると同義語である可能性を示している。すなわち、同義語候補抽出部120で抽出される同義語候補で定まる類似度が、この指標に関するものである。なお、類似度は、同義語候補抽出部120又は同義語確認候補抽出部150が求めれば何れでもよい。
一方、図3の縦軸は、語句の重要性(整合性評価に与えた影響の大きさ)を示している。
同義語確認候補抽出部150は、これらの指標で両方とも高い値を示す同義語候補を同義語確認候補として抽出する。
単純化のため、各軸を高と低の2つに区切ると、結果として図示するように4つの象限が得られる。なお、同義語確認候補として抽出される同義語候補は、図中の高低を分ける値を操作する閾値を用いることにより範囲が定められる。また、同義語確認候補の最大個数や最小個数を用いて抽出量を調整してもよい。
本発明では、推測される語間の類似性が高く、かつ、語句の重要性が高いものが、確認が必要な語句 すなわち同義語確認候補であるとして抽出される。
単純化のため、各軸を高と低の2つに区切ると、結果として図示するように4つの象限が得られる。なお、同義語確認候補として抽出される同義語候補は、図中の高低を分ける値を操作する閾値を用いることにより範囲が定められる。また、同義語確認候補の最大個数や最小個数を用いて抽出量を調整してもよい。
本発明では、推測される語間の類似性が高く、かつ、語句の重要性が高いものが、確認が必要な語句 すなわち同義語確認候補であるとして抽出される。
同義語確認候補表示部160は、同義語確認候補抽出部150で抽出された同義語確認候補を作業者が見やすい形で結果を提示し、修正を促すと共にその判断結果を受け付けるものである。ここでの見やすい形とは、作業者が表示結果を見て、その表示された同義語確認候補について同義語と扱うか否かを定める確認の優先順位を直感的に決定できることを示している。また、修正を促すとは、作業者が同義語確認候補に関連する文を閲覧して、同義語として修正するか否かの判断を適切に実行できるようにすることを示している。表示の仕方として、図4のように数字を示す形式でも良いし、図5のように二次元の座標に同義語確認候補をプロットして示す形式としても良い。なお、これに限定されるものではない。
同義語候補登録部170は、作業者が同義語確認候補表示部160を見て行った操作を受けて、判断した結果を辞書180に登録するものである。この辞書180は、最初は一般的な同義語データベースや関連語データベースを基本にして作成されるものであるが、本発明の一連の操作により辞書への登録が必要であると判断された同義語候補を辞書に登録することで逐次拡充が図られるものである。
なお、登録される同義語候補は、対象となるドキュメントの整合性評価に大きく寄与するものである。すなわち、辞書180には、対象とした文章範囲(各案件毎など)に特有の同義語(語間の関係性)が登録されて収集される。
この同義語辞書を優先的に利用することにより、ドキュメント間の整合性が向上し、整合性評価の妥当性が向上する。すなわち、間違ったリンクを作成するリスクが低下する。これにより、整合性を図る範囲内のトレサビリティが容易となる。
なお、登録される同義語候補は、対象となるドキュメントの整合性評価に大きく寄与するものである。すなわち、辞書180には、対象とした文章範囲(各案件毎など)に特有の同義語(語間の関係性)が登録されて収集される。
この同義語辞書を優先的に利用することにより、ドキュメント間の整合性が向上し、整合性評価の妥当性が向上する。すなわち、間違ったリンクを作成するリスクが低下する。これにより、整合性を図る範囲内のトレサビリティが容易となる。
ドキュメント整合性評価部190は、上記のようにして作成した辞書180を活用してドキュメント整合性評価を行うものである。
整合性評価結果出力部200では、ドキュメントの整合性を評価した最終的な結果が出力される。ドキュメントの整合性を出力する方法としては、例えば、図6で示される形式がある。図6では、左のドキュメント210(a)の上から4番目の文220(a−4)と、右のドキュメント210(b)の上から1から3番目の文220(b−1)〜(b−3)との整合性が予め設定された閾値よりも高くなり、結果として整合しているものとしてリンクが張られている。なお、本発明において、文とは句点やスペース等で区切られたテキスト形式の文字列を示しており、ドキュメントはこれらの文が纏まったものである。
整合性評価結果出力部200では、ドキュメントの整合性を評価した最終的な結果が出力される。ドキュメントの整合性を出力する方法としては、例えば、図6で示される形式がある。図6では、左のドキュメント210(a)の上から4番目の文220(a−4)と、右のドキュメント210(b)の上から1から3番目の文220(b−1)〜(b−3)との整合性が予め設定された閾値よりも高くなり、結果として整合しているものとしてリンクが張られている。なお、本発明において、文とは句点やスペース等で区切られたテキスト形式の文字列を示しており、ドキュメントはこれらの文が纏まったものである。
このように、ドキュメント整合性評価システム100として、推測される語間の類似性(同義語である可能性)が高く、かつ、語句の重要性(整合性評価に影響大)が高いものを優先的に辞書に反映させ、その辞書を用いて文章の整合性評価を行う。
すなわち、ドキュメントの整合性評価を行う上で、同義語の推定と整合性評価を関連させ、同義語候補を整合性評価の観点から絞り込むことで、望むべき評価に必要な同義語候補(同義語確認候補)を効率的に抽出することで、精度の高いドキュメント整合性評価を行うことができる。
その結果、文書間や文章間の整合性等を指定範囲に合致するように判定することが可能になる。
次に、具体的な実施例を用いて、実施形態に係るドキュメント整合性評価システム100の動作について説明する。なお、本発明は本実施例に記載された処理方法の内容に限定されるものではない。
本実施例では、図7のようにドキュメント整合性評価システム100は、分析実施者の持つPC端末300と通信ネットワークを介して接続されたサーバ310とから構成される。
PC端末300は、ドキュメント登録部110、同義語候補変換部130、同義語確認候補抽出部150、同義語確認候補表示部160、同義語登録部170、整合性評価結果出力200を具備している。
一方、サーバ310は、同義語候補抽出部120、ドキュメント整合性算出部140、ドキュメント整合性評価部190、および、辞書180を具備している。サーバ310は、PC端末300からの送られたコマンドを実行し、その処理結果をPC端末300に返すと共に、整合性評価に利用する同義語を辞書180に蓄積する。
ドキュメント整合性評価の実施者は、ドキュメント入力部110を介してドキュメント整合性評価を行いたいドキュメントの入力を行い、同義語確認候補表示部160を介して辞書180に登録する同義語を選択し、整合性評価結果出力部200を介してドキュメント整合性評価を得る。
ドキュメント登録部110には、整合性を図る対象とするドキュメントが登録、すなわち入力される。本実施例では、RFPと要件定義書というテキスト形式からなる2つのドキュメントが登録されたとする。ドキュメント整合性評価システム100(PC端末300)は、登録された2つのドキュメントをサーバ310にある同義語候補抽出部120に送信する。
同義語候補抽出部120では、評価範囲であるドキュメントを構成する文ごとに形態素解析および構文解析を適用して文を構成する単語に分解し、その係り受け関係や格を解析することで、単語Wi(i=1、2、・・・、n)と各単語Wiの格、係り受け構造といった単語情報を抽出する。そして、その結果を活用して同義語の候補の抽出を行う。
同義語候補抽出部120では、形態素解析の結果を利用して、共起単語の集合をベクトルとして表現し、その特性ベクトル間の類似度をコサイン類似度により算出する。コサイン類似度では、1になるとベクトルは同じ要素となり、0になると全く違う要素となる。同義語候補抽出部120では、コサイン類似度が高い順に同義語候補Sαβを抽出処理し、下限のコサイン類似度をγに設定する。
同義語候補抽出部120では、形態素解析の結果を利用して、共起単語の集合をベクトルとして表現し、その特性ベクトル間の類似度をコサイン類似度により算出する。コサイン類似度では、1になるとベクトルは同じ要素となり、0になると全く違う要素となる。同義語候補抽出部120では、コサイン類似度が高い順に同義語候補Sαβを抽出処理し、下限のコサイン類似度をγに設定する。
同義語候補変換部130では、同義語候補抽出部120で抽出されたコサイン類似度がγ以上の同義語候補Sαβについて、指定範囲としたドキュメント(RFP、要件定義書)に展開する。具体的な一例では、コサイン類似度が高い順に同義語候補Sαβを元となる語Sα0と置き換える変換する。ここで、抽出した全同義語候補Sαβを 元となる語Sα0に一度にすべて変換するのではなく、各同義語候補が変換によりどの程度ドキュメント整合性評価に影響を与えるかを評価するために、一語を変換した後、次のドキュメント整合性算出部140に移る。
ドキュメント整合性算出部140では、同義語候補が入力される前のドキュメントを用いてドキュメントの整合性評価を行うと共に、同義語候補が入力されて変換されたドキュメントを用いてドキュメントの整合性評価を行う。
なお、整合性評価の条件を変えなければ、同義語候補が入力される前のドキュメントを用いた整合性評価の処理は、最初に一度行う。他方、同義語候補が入力された後のドキュメントを用いた整合性評価の処理は、同義語候補を入れ替えて繰り返し行う。
なお、整合性評価の条件を変えなければ、同義語候補が入力される前のドキュメントを用いた整合性評価の処理は、最初に一度行う。他方、同義語候補が入力された後のドキュメントを用いた整合性評価の処理は、同義語候補を入れ替えて繰り返し行う。
本例では、ドキュメント整合性算出部140およびドキュメント整合性評価部190では、以下の処理によって、ドキュメント間の整合性評価を行う。
個々の整合性評価には、コルモゴロフ複雑性に基づく距離を利用する。評価範囲としたRFPと要件定義書の両文章について、RFPがN個の文(テキスト形式)を、要件定義書がM個の文を有する場合、類似度を合わせて算定する文と文とのペア数はN×Mとなる。類似度の指標としては、文xに文yを追加したときの複雑さの増加である正規化圧縮距離を利用する。正規化圧縮距離NCDは以下の式(1)により算出する。
ここで、C(x)とC(y)は、それぞれ文xと文yの圧縮列の長さを示し、C(x・y)は、文xと文yを連結させた圧縮列の長さを示す。この正規化圧縮距離が小さいほど、文xと文yとが類似している。なお、(1−NCD)×100という値を類似度として定義することも可能性である。ドキュメントの全体の整合性評価には、N×M個のペアついて、この正規化圧縮距離を計算する。
結果として、ドキュメント全体の整合性としては、すべてのペアの正規化圧縮距離の加算値、あるいは、その平均値などが利用できる。
まず、同義語候補を変換する前のドキュメント全体の正規化圧縮距離の加算値(=初期全NCD)を算出しておき、次に、同義語候補Sαβ(α=1、2、3・・・K、β=1、2、3、・・L)に変換したときの正規化圧縮距離の加算値(=変換全NCDαβ)を算出する。
まず、同義語候補を変換する前のドキュメント全体の正規化圧縮距離の加算値(=初期全NCD)を算出しておき、次に、同義語候補Sαβ(α=1、2、3・・・K、β=1、2、3、・・L)に変換したときの正規化圧縮距離の加算値(=変換全NCDαβ)を算出する。
同義語確認候補抽出部150は、人手により確認すべき同義語確認候補を効率的に抽出するものであり、具体的には、よりドキュメントの整合性に影響を与えたものを優先的に抽出する。その方法としては、同義語候補を変換したことによるドキュメント全体の正規化圧縮距離との差分Dを算出する方法がある。すなわち、ドキュメント全体の正規化圧縮距離との差分D=初期全NCD−変換全NCDが正となれば、同義語の変換により、ドキュメントの整合性が増加したことを示している。一方、Dが負となれば、それはドキュメントの整合性が減少したことを示す。効率的に抽出する一つの方法は、Dの値が大きい順に同義語確認候補を抽出することと云える。なお、同義語確認候補の抽出としては、このDだけではなく、同義語候補抽出部120で算出したコサイン類似度を利用しても構わない。
同義語確認候補表示部160では、同義語候補、ドキュメント全体の正規化圧縮距離の差分D、コサイン類似度を一覧表にして、差分Dが高い順にソートして作業者に同義語確認候補として提示する。
作業者は、その結果を見て、同義語登録部170のその同義語確認候補を辞書180に登録するか判断する。すなわち、本システムでは、推測される語間の類似性(同義語である可能性)が高く、かつ、語句の重要性(整合性評価に影響大)が高いものを優先的に辞書に反映させるようにしてインスペクションを行なうプロジェクトマネージャーなどの作業効率を上げる。
ドキュメント整合性評価部190では、登録が必要と判断された同義語確認候補が登録され終わった辞書180を用いてドキュメント整合性評価を行い、所要に文書間のリンク等を形成する。
そして、整合性評価結果出力部200にて、ドキュメント間においてトレーサビリティリンクが反映された結果が図6に例示したように出力される。
そして、整合性評価結果出力部200にて、ドキュメント間においてトレーサビリティリンクが反映された結果が図6に例示したように出力される。
なお、ドキュメント整合性評価システムの各部は、上記したように、ハードウェアとソフトウェアの組み合わせを用いて実現すればよい。ハードウェアとソフトウェアとを組み合わせた形態では、RAMにドキュメント整合性評価システムが展開され、プログラムに基づいて制御部(CPU)等のハードウェアを動作させることによって、各部を各種手段として実現する。また、ドキュメント整合性評価プログラムは、記憶媒体に記録されて頒布されても良い。当該記録媒体に記録されたプログラムは、有線、無線、又は記録媒体そのものを介して、メモリに読込まれ、制御部等を動作させる。尚、記録媒体を例示すれば、オプティカルディスクや磁気ディスク、半導体メモリ装置、ハードディスクなどが挙げられる。
上記実施の形態を別の表現で説明すれば、ドキュメント整合性評価システムとして動作させる情報処理システムを、RAMに展開されたドキュメント整合性評価プログラムに基づき、ドキュメント登録手段、同義語候補抽出手段、同義語候補変換手段、ドキュメント整合性算出手段、同義語確認候補抽出手段、同義語確認候補表示手段、同義語登録手段、ドキュメント整合性評価手段、整合性評価結果出力手段として制御部を動作させることで実現することが可能である。
このように、ドキュメント整合性評価プログラムは、評価範囲での整合性への影響が大きな同義語が登録された辞書を収集して整合性を算定処理する際に、評価対象の文章を受け付けて、評価する範囲の文章から、語間の類似性が高い語を同義語候補として抽出した同義語候補について、類似度を算定する基準となる元となる語に置き換える変換処理を行うと共に、評価範囲について、同義語候補の前記変換処理を行う前の整合性と変換処理を行う後の整合性に基づいて、整合性への影響が大きな同義語候補を同義語確認候補として抽出処理し、整合性への影響の大きさと同義語である可能性の高さが評価者に順序付けて理解できるように同義語確認候補を提示することで、同義語確認候補を辞書に登録させて、該辞書を使用して、前記評価範囲について整合性を算定処理するように、ハードウェア資源を動作させる。
以上、実施の形態および実施例の説明で示したように、本発明によれば、所定範囲内におけるドキュメント整合性評価を精度良く行うために、確認すべき同義語確認候補を効率的に抽出して、ドキュメント整合性評価を行える。すなわち、所要な同義語候補を効率的に抽出すると共に、整合性評価に大きく影響を与える同義語候補を反映して精度の高いドキュメント整合性評価を行うドキュメント整合性評価システムを提供できる。
また、本発明の具体的な構成は前述の実施の形態に限られるものではなく、この発明の要旨を逸脱しない範囲の変更があってもこの発明に含まれる。
また、本発明の具体的な構成は前述の実施の形態に限られるものではなく、この発明の要旨を逸脱しない範囲の変更があってもこの発明に含まれる。
また、上記の実施形態の一部又は全部は、以下のようにも記載されうる。尚、以下の付記は本発明をなんら限定するものではない。
[付記1]
評価対象を受け付けるドキュメント登録部と、
評価範囲から、語間の類似性が高い語を同義語候補として抽出する同義語候補抽出部と、
抽出された同義語候補について、定めた元となる語に置き換える変換処理を行う同義語候補変換部と、
前記評価範囲について、同義語候補の前記変換処理を行う前後の整合性を、それぞれ算定するドキュメント整合性算出部と、
前記それぞれの算定結果に基づいて、整合性への影響が大きな同義語候補を影響が大きい順に同義語確認候補として抽出処理する同義語確認候補抽出部と、
抽出した同義語確認候補を整合性への影響の大きさと同義語である可能性の高さが分かるように表示する同義語確認候補表示部と、
登録が指示された同義語確認候補を辞書に登録する同義語登録部と、
前記評価範囲でのドキュメント整合性への影響が大きな同義語確認候補が登録された前記辞書を使用して、前記評価範囲について整合性を算定するドキュメント整合性評価部と、
整合性評価結果を出力する整合性評価結果出力部と、
を少なくとも具備することを特徴とするドキュメント整合性評価システム。
[付記1]
評価対象を受け付けるドキュメント登録部と、
評価範囲から、語間の類似性が高い語を同義語候補として抽出する同義語候補抽出部と、
抽出された同義語候補について、定めた元となる語に置き換える変換処理を行う同義語候補変換部と、
前記評価範囲について、同義語候補の前記変換処理を行う前後の整合性を、それぞれ算定するドキュメント整合性算出部と、
前記それぞれの算定結果に基づいて、整合性への影響が大きな同義語候補を影響が大きい順に同義語確認候補として抽出処理する同義語確認候補抽出部と、
抽出した同義語確認候補を整合性への影響の大きさと同義語である可能性の高さが分かるように表示する同義語確認候補表示部と、
登録が指示された同義語確認候補を辞書に登録する同義語登録部と、
前記評価範囲でのドキュメント整合性への影響が大きな同義語確認候補が登録された前記辞書を使用して、前記評価範囲について整合性を算定するドキュメント整合性評価部と、
整合性評価結果を出力する整合性評価結果出力部と、
を少なくとも具備することを特徴とするドキュメント整合性評価システム。
[付記2]
前記同義語候補変換部は、前記同義語候補抽出部で抽出した同義語候補のセットに対して、再類似度評価を実施して、同義語候補を選択したのち、その同義語候補を元となる語で変換することを特徴とする上記付記記載のドキュメント整合性評価システム。
前記同義語候補変換部は、前記同義語候補抽出部で抽出した同義語候補のセットに対して、再類似度評価を実施して、同義語候補を選択したのち、その同義語候補を元となる語で変換することを特徴とする上記付記記載のドキュメント整合性評価システム。
[付記3]
前記同義語候補変換部における前記再類似度評価は、語の字面の類似性に準ずる類似度評価であることを特徴とする上記付記記載のドキュメント整合性評価システム。
前記同義語候補変換部における前記再類似度評価は、語の字面の類似性に準ずる類似度評価であることを特徴とする上記付記記載のドキュメント整合性評価システム。
[付記4]
前記同義語候補変換部は、同義語候補を一つ変換した後に、ドキュメント整合性算出部にて整合性を算定する処理に移行することを特徴とする上記付記記載のドキュメント整合性評価システム。
前記同義語候補変換部は、同義語候補を一つ変換した後に、ドキュメント整合性算出部にて整合性を算定する処理に移行することを特徴とする上記付記記載のドキュメント整合性評価システム。
[付記5]
前記ドキュメント整合性算出部は、コルモゴロフ複雑性の概算を用いて整合性を計算することを特徴とする上記付記記載のドキュメント整合性評価システム。
前記ドキュメント整合性算出部は、コルモゴロフ複雑性の概算を用いて整合性を計算することを特徴とする上記付記記載のドキュメント整合性評価システム。
[付記6]
前記ドキュメント整合性算出部は、同義語候補の変換前後の評価範囲に関する整合性の差分を算出することを特徴とする上記付記記載のドキュメント整合性評価システム。
前記ドキュメント整合性算出部は、同義語候補の変換前後の評価範囲に関する整合性の差分を算出することを特徴とする上記付記記載のドキュメント整合性評価システム。
[付記7]
評価対象の文章を受け付け、
評価する範囲の文章から、語間の類似性が高い語を同義語候補として抽出処理し、
抽出した同義語候補について、定めた元となる語に置き換える変換処理を行い、
前記評価範囲について、同義語候補の前記変換処理を行う前後の整合性を、それぞれ算定し、
前記それぞれの算定結果に基づいて、整合性への影響が大きな同義語候補を影響が大きい順に同義語確認候補として抽出処理し、
抽出した同義語確認候補を整合性への影響の大きさと同義語である可能性の高さが分かるように表示処理し、
表示した内容を参照して登録を指示された同義語確認候補を辞書に登録し、
前記評価範囲でのドキュメント整合性への影響が大きな同義語確認候補が登録された前記辞書を使用して、前記評価範囲について整合性を算定処理する
ことを特徴とする情報処理システムにおけるドキュメント整合性評価方法。
評価対象の文章を受け付け、
評価する範囲の文章から、語間の類似性が高い語を同義語候補として抽出処理し、
抽出した同義語候補について、定めた元となる語に置き換える変換処理を行い、
前記評価範囲について、同義語候補の前記変換処理を行う前後の整合性を、それぞれ算定し、
前記それぞれの算定結果に基づいて、整合性への影響が大きな同義語候補を影響が大きい順に同義語確認候補として抽出処理し、
抽出した同義語確認候補を整合性への影響の大きさと同義語である可能性の高さが分かるように表示処理し、
表示した内容を参照して登録を指示された同義語確認候補を辞書に登録し、
前記評価範囲でのドキュメント整合性への影響が大きな同義語確認候補が登録された前記辞書を使用して、前記評価範囲について整合性を算定処理する
ことを特徴とする情報処理システムにおけるドキュメント整合性評価方法。
[付記8]
前記同義語候補の変換処理は、前記同義語候補の抽出処理で抽出した同義語候補のセットに対して、再類似度評価を実施して、同義語候補を選択したのち、その同義語候補を元となる語で変換することを特徴とする上記付記記載のドキュメント整合性評価方法。
前記同義語候補の変換処理は、前記同義語候補の抽出処理で抽出した同義語候補のセットに対して、再類似度評価を実施して、同義語候補を選択したのち、その同義語候補を元となる語で変換することを特徴とする上記付記記載のドキュメント整合性評価方法。
[付記9]
前記同義語候補の変換処理における前記再類似度評価は、語の字面の類似性に準ずる類似度評価であることを特徴とする上記付記記載のドキュメント整合性評価方法。
前記同義語候補の変換処理における前記再類似度評価は、語の字面の類似性に準ずる類似度評価であることを特徴とする上記付記記載のドキュメント整合性評価方法。
[付記10]
前記同義語候補の変換処理は、同義語候補を一つ変換した後に、ドキュメント整合性の算出処理にて整合性を算定する処理に移行することを特徴とする上記付記記載のドキュメント整合性評価方法。
前記同義語候補の変換処理は、同義語候補を一つ変換した後に、ドキュメント整合性の算出処理にて整合性を算定する処理に移行することを特徴とする上記付記記載のドキュメント整合性評価方法。
[付記11]
前記ドキュメント整合性の算出処理は、コルモゴロフ複雑性の概算を用いて整合性を計算することを特徴とする上記付記記載のドキュメント整合性評価方法。
前記ドキュメント整合性の算出処理は、コルモゴロフ複雑性の概算を用いて整合性を計算することを特徴とする上記付記記載のドキュメント整合性評価方法。
[付記12]
前記ドキュメント整合性の算出処理は、同義語候補の変換前後の評価範囲に関する整合性の差分を算出することを特徴とする上記付記記載のドキュメント整合性評価方法。
前記ドキュメント整合性の算出処理は、同義語候補の変換前後の評価範囲に関する整合性の差分を算出することを特徴とする上記付記記載のドキュメント整合性評価方法。
[付記13]
評価範囲での整合性への影響が大きな同義語が登録された辞書を収集して整合性を算定処理する際に、
前記評価対象の文章を受け付けて、
評価する範囲の文章から、語間の類似性が高い語を同義語候補として抽出した同義語候補について、類似度を算定する基準となる元となる語に置き換える変換処理を行うと共に、前記評価範囲について、同義語候補の前記変換処理を行う前の整合性と前記変換処理を行う後の整合性に基づいて、整合性への影響が大きな同義語候補を同義語確認候補として抽出処理し、
整合性への影響の大きさと同義語である可能性の高さが評価者に順序付けて理解できるように同義語確認候補を提示することで、同義語確認候補を辞書に登録させて、
該辞書を使用して、前記評価範囲について整合性を算定処理する
ことを特徴とする情報処理システムにおけるドキュメント整合性評価方法。
評価範囲での整合性への影響が大きな同義語が登録された辞書を収集して整合性を算定処理する際に、
前記評価対象の文章を受け付けて、
評価する範囲の文章から、語間の類似性が高い語を同義語候補として抽出した同義語候補について、類似度を算定する基準となる元となる語に置き換える変換処理を行うと共に、前記評価範囲について、同義語候補の前記変換処理を行う前の整合性と前記変換処理を行う後の整合性に基づいて、整合性への影響が大きな同義語候補を同義語確認候補として抽出処理し、
整合性への影響の大きさと同義語である可能性の高さが評価者に順序付けて理解できるように同義語確認候補を提示することで、同義語確認候補を辞書に登録させて、
該辞書を使用して、前記評価範囲について整合性を算定処理する
ことを特徴とする情報処理システムにおけるドキュメント整合性評価方法。
[付記14]
情報処理システムを、
評価対象を受け付けるドキュメント登録手段と、
評価範囲から、語間の類似性が高い語を同義語候補として抽出する同義語候補抽出手段と、
抽出された同義語候補について、定めた元となる語に置き換える変換処理を行う同義語候補変換手段と、
前記評価範囲について、同義語候補の前記変換処理を行う前後の整合性を、それぞれ算定するドキュメント整合性算出手段と、
前記それぞれの算定結果に基づいて、整合性への影響が大きな同義語候補を影響が大きい順に同義語確認候補として抽出処理する同義語確認候補抽出手段と、
抽出した同義語確認候補を整合性への影響の大きさ と同義語である可能性の高さが分かるように表示する同義語確認候補表示手段と、
登録が指示された同義語確認候補を辞書に登録する同義語登録手段と、
前記評価範囲でのドキュメント整合性への影響が大きな同義語確認候補が登録された前記辞書を使用して、前記評価範囲について整合性を算定するドキュメント整合性評価手段と、
整合性評価結果を出力する整合性評価結果出力手段と、
して動作させることを特徴とするドキュメント整合性評価プログラム。
情報処理システムを、
評価対象を受け付けるドキュメント登録手段と、
評価範囲から、語間の類似性が高い語を同義語候補として抽出する同義語候補抽出手段と、
抽出された同義語候補について、定めた元となる語に置き換える変換処理を行う同義語候補変換手段と、
前記評価範囲について、同義語候補の前記変換処理を行う前後の整合性を、それぞれ算定するドキュメント整合性算出手段と、
前記それぞれの算定結果に基づいて、整合性への影響が大きな同義語候補を影響が大きい順に同義語確認候補として抽出処理する同義語確認候補抽出手段と、
抽出した同義語確認候補を整合性への影響の大きさ と同義語である可能性の高さが分かるように表示する同義語確認候補表示手段と、
登録が指示された同義語確認候補を辞書に登録する同義語登録手段と、
前記評価範囲でのドキュメント整合性への影響が大きな同義語確認候補が登録された前記辞書を使用して、前記評価範囲について整合性を算定するドキュメント整合性評価手段と、
整合性評価結果を出力する整合性評価結果出力手段と、
して動作させることを特徴とするドキュメント整合性評価プログラム。
[付記15]
前記同義語候補変換手段は、前記同義語候補抽出手段で抽出した同義語候補のセットに対して、再類似度評価を実施して、同義語候補を選択したのち、その同義語候補を元となる語で変換することを特徴とする上記付記記載のドキュメント整合性評価プログラム。
前記同義語候補変換手段は、前記同義語候補抽出手段で抽出した同義語候補のセットに対して、再類似度評価を実施して、同義語候補を選択したのち、その同義語候補を元となる語で変換することを特徴とする上記付記記載のドキュメント整合性評価プログラム。
[付記16]
前記同義語候補変換手段における前記再類似度評価は、語の字面の類似性に準ずる類似度評価であることを特徴とする上記付記記載のドキュメント整合性評価プログラム。
前記同義語候補変換手段における前記再類似度評価は、語の字面の類似性に準ずる類似度評価であることを特徴とする上記付記記載のドキュメント整合性評価プログラム。
[付記17]
前記同義語候補変換手段は、同義語候補を一つ変換した後に、ドキュメント整合性算出手段にて整合性を算定する処理に移行することを特徴とする上記付記記載のドキュメント整合性評価プログラム。
前記同義語候補変換手段は、同義語候補を一つ変換した後に、ドキュメント整合性算出手段にて整合性を算定する処理に移行することを特徴とする上記付記記載のドキュメント整合性評価プログラム。
[付記18]
前記ドキュメント整合性算出手段は、コルモゴロフ複雑性の概算を用いて整合性を計算することを特徴とする上記付記記載のドキュメント整合性評価プログラム。
前記ドキュメント整合性算出手段は、コルモゴロフ複雑性の概算を用いて整合性を計算することを特徴とする上記付記記載のドキュメント整合性評価プログラム。
[付記19]
前記ドキュメント整合性算出手段は、同義語候補の変換前後の評価範囲に関する整合性の差分を算出することを特徴とする上記付記記載のドキュメント整合性評価プログラム。
前記ドキュメント整合性算出手段は、同義語候補の変換前後の評価範囲に関する整合性の差分を算出することを特徴とする上記付記記載のドキュメント整合性評価プログラム。
[付記20]
同義語が登録された辞書を用いて整合性を算定処理する際に、
評価する範囲の文章から、語間の類似性が高い語を同義語候補として抽出した同義語候補について、類似度を算定する基準となる元となる語に置き換える変換処理を行うと共に、前記評価範囲について、同義語候補の前記変換処理を行う前の整合性と前記変換処理を行う後の整合性に基づいて、整合性への影響が大きな同義語候補を同義語確認候補として抽出処理する手段と、
整合性への影響の大きさと同義語である可能性の高さが評価者に順序付けて理解できるように同義語確認候補を提示する手段と、
同義語確認候補が登録された辞書を使用して、前記評価範囲について整合性を算定処理する手段
として情報処理システムを動作させる ことを特徴とするドキュメント整合性評価プログラム。
同義語が登録された辞書を用いて整合性を算定処理する際に、
評価する範囲の文章から、語間の類似性が高い語を同義語候補として抽出した同義語候補について、類似度を算定する基準となる元となる語に置き換える変換処理を行うと共に、前記評価範囲について、同義語候補の前記変換処理を行う前の整合性と前記変換処理を行う後の整合性に基づいて、整合性への影響が大きな同義語候補を同義語確認候補として抽出処理する手段と、
整合性への影響の大きさと同義語である可能性の高さが評価者に順序付けて理解できるように同義語確認候補を提示する手段と、
同義語確認候補が登録された辞書を使用して、前記評価範囲について整合性を算定処理する手段
として情報処理システムを動作させる ことを特徴とするドキュメント整合性評価プログラム。
本発明は、文書間や文章間の整合性を判定するドキュメント整合性判定システムに使用できる。また、本発明は、システムやソフトウェアを構築する際の各種仕様書類の分析や評価という用途に適用できる。
100 ドキュメント整合性評価システム
110 ドキュメント登録部
120 同義語候補抽出部
130 同義語候補変換部
140 ドキュメント整合性算出部
150 同義語確認候補抽出部
160 同義語確認候補表示部
170 同義語登録部
180 辞書
190 ドキュメント整合性評価部
200 整合性評価結果出力部
210 ドキュメント(文書)
220 文(一文)
230 リンク(関連性)
300 PC端末
310 サーバ
110 ドキュメント登録部
120 同義語候補抽出部
130 同義語候補変換部
140 ドキュメント整合性算出部
150 同義語確認候補抽出部
160 同義語確認候補表示部
170 同義語登録部
180 辞書
190 ドキュメント整合性評価部
200 整合性評価結果出力部
210 ドキュメント(文書)
220 文(一文)
230 リンク(関連性)
300 PC端末
310 サーバ
Claims (10)
- 評価対象を受け付けるドキュメント登録部と、
評価範囲から、語間の類似性が高い語を同義語候補として抽出する同義語候補抽出部と、
抽出された同義語候補について、定めた元となる語に置き換える変換処理を行う同義語候補変換部と、
前記評価範囲について、同義語候補の前記変換処理を行う前後の整合性を、それぞれ算定するドキュメント整合性算出部と、
前記それぞれの算定結果に基づいて、整合性への影響が大きな同義語候補を影響が大きい順に同義語確認候補として抽出処理する同義語確認候補抽出部と、
抽出した同義語確認候補を整合性への影響の大きさと同義語である可能性の高さが分かるように表示する同義語確認候補表示部と、
登録が指示された同義語確認候補を辞書に登録する同義語登録部と、
前記評価範囲でのドキュメント整合性への影響が大きな同義語確認候補が登録された前記辞書を使用して、前記評価範囲について整合性を算定するドキュメント整合性評価部と、
整合性評価結果を出力する整合性評価結果出力部と、
を少なくとも具備することを特徴とするドキュメント整合性評価システム。 - 前記同義語候補変換部は、前記同義語候補抽出部で抽出した同義語候補のセットに対して、再類似度評価を実施して、同義語候補を選択したのち、その同義語候補を元となる語で変換することを特徴とする請求項1記載のドキュメント整合性評価システム。
- 前記同義語候補変換部における前記再類似度評価は、語の字面の類似性に準ずる類似度評価であることを特徴とする請求項2記載のドキュメント整合性評価システム。
- 前記同義語候補変換部は、同義語候補を一つ変換した後に、ドキュメント整合性算出部にて整合性を算定する処理に移行することを特徴とする請求項1乃至3の何れか一項に記載のドキュメント整合性評価システム。
- 前記ドキュメント整合性算出部は、コルモゴロフ複雑性の概算を用いて整合性を計算することを特徴とする請求項1乃至4の何れか一項に記載のドキュメント整合性評価システム。
- 前記ドキュメント整合性算出部は、同義語候補の変換前後の評価範囲に関する整合性の差分を算出することを特徴とする請求項1乃至5の何れか一項に記載のドキュメント整合性評価システム。
- 評価対象の文章を受け付け、
評価する範囲の文章から、語間の類似性が高い語を同義語候補として抽出処理し、
抽出した同義語候補について、定めた元となる語に置き換える変換処理を行い、
前記評価範囲について、同義語候補の前記変換処理を行う前後の整合性を、それぞれ算定し、
前記それぞれの算定結果に基づいて、整合性への影響が大きな同義語候補を影響が大きい順に同義語確認候補として抽出処理し、
抽出した同義語確認候補を整合性への影響の大きさと同義語である可能性の高さが分かるように表示処理し、
表示した内容を参照して登録を指示された同義語確認候補を辞書に登録し、
前記評価範囲でのドキュメント整合性への影響が大きな同義語確認候補が登録された前記辞書を使用して、前記評価範囲について整合性を算定処理する
ことを特徴とする情報処理システムにおけるドキュメント整合性評価方法。 - 評価範囲での整合性への影響が大きな同義語が登録された辞書を収集して整合性を算定処理する際に、
前記評価対象の文章を受け付けて、
評価する範囲の文章から、語間の類似性が高い語を同義語候補として抽出した同義語候補について、類似度を算定する基準となる元となる語に置き換える変換処理を行うと共に、前記評価範囲について、同義語候補の前記変換処理を行う前の整合性と前記変換処理を行う後の整合性に基づいて、整合性への影響が大きな同義語候補を同義語確認候補として抽出処理し、
整合性への影響の大きさと同義語である可能性の高さが評価者に順序付けて理解できるように同義語確認候補を提示することで、同義語確認候補を辞書に登録させて、
該辞書を使用して、前記評価範囲について整合性を算定処理する
ことを特徴とする情報処理システムにおけるドキュメント整合性評価方法。 - 情報処理システムを、
評価対象を受け付けるドキュメント登録手段と、
評価範囲から、語間の類似性が高い語を同義語候補として抽出する同義語候補抽出手段と、
抽出された同義語候補について、定めた元となる語に置き換える変換処理を行う同義語候補変換手段と、
前記評価範囲について、同義語候補の前記変換処理を行う前後の整合性を、それぞれ算定するドキュメント整合性算出手段と、
前記それぞれの算定結果に基づいて、整合性への影響が大きな同義語候補を影響が大きい順に同義語確認候補として抽出処理する同義語確認候補抽出手段と、
抽出した同義語確認候補を整合性への影響の大きさ と同義語である可能性の高さが分かるように表示する同義語確認候補表示手段と、
登録が指示された同義語確認候補を辞書に登録する同義語登録手段と、
前記評価範囲でのドキュメント整合性への影響が大きな同義語確認候補が登録された前記辞書を使用して、前記評価範囲について整合性を算定するドキュメント整合性評価手段と、
整合性評価結果を出力する整合性評価結果出力手段と、
して動作させることを特徴とするドキュメント整合性評価プログラム。 - 同義語が登録された辞書を用いて整合性を算定処理する際に、
評価する範囲の文章から、語間の類似性が高い語を同義語候補として抽出した同義語候補について、類似度を算定する基準となる元となる語に置き換える変換処理を行うと共に、前記評価範囲について、同義語候補の前記変換処理を行う前の整合性と前記変換処理を行う後の整合性に基づいて、整合性への影響が大きな同義語候補を同義語確認候補として抽出処理する手段と、
整合性への影響の大きさと同義語である可能性の高さが評価者に順序付けて理解できるように同義語確認候補を提示する手段と、
同義語確認候補が登録された辞書を使用して、前記評価範囲について整合性を算定処理する手段
として情報処理システムを動作させる ことを特徴とするドキュメント整合性評価プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012016424A JP2013156815A (ja) | 2012-01-30 | 2012-01-30 | ドキュメント整合性評価システム、ドキュメント整合性評価方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012016424A JP2013156815A (ja) | 2012-01-30 | 2012-01-30 | ドキュメント整合性評価システム、ドキュメント整合性評価方法、およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013156815A true JP2013156815A (ja) | 2013-08-15 |
Family
ID=49051933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012016424A Pending JP2013156815A (ja) | 2012-01-30 | 2012-01-30 | ドキュメント整合性評価システム、ドキュメント整合性評価方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013156815A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017062716A (ja) * | 2015-09-25 | 2017-03-30 | 富士通株式会社 | 校正支援装置、校正支援方法および校正支援プログラム |
JP2020190970A (ja) * | 2019-05-23 | 2020-11-26 | 株式会社日立製作所 | 文書処理装置およびその方法、プログラム |
-
2012
- 2012-01-30 JP JP2012016424A patent/JP2013156815A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017062716A (ja) * | 2015-09-25 | 2017-03-30 | 富士通株式会社 | 校正支援装置、校正支援方法および校正支援プログラム |
JP2020190970A (ja) * | 2019-05-23 | 2020-11-26 | 株式会社日立製作所 | 文書処理装置およびその方法、プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11682226B2 (en) | Method and system for assessing similarity of documents | |
CN106844368B (zh) | 用于人机对话的方法、神经网络系统和用户设备 | |
CN105069124B (zh) | 一种自动化的国际疾病分类编码方法及系统 | |
CN105095204B (zh) | 同义词的获取方法及装置 | |
US20120022850A1 (en) | Statistical machine translation processing | |
US9575937B2 (en) | Document analysis system, document analysis method, document analysis program and recording medium | |
JP2011118526A (ja) | 単語意味関係抽出装置 | |
CA2853627C (en) | Automatic creation of clinical study reports | |
CN113987199B (zh) | 一种规范自动解译的bim智能审图方法、系统和介质 | |
KR20130056207A (ko) | 관계 정보 확장 장치, 관계 정보 확장 방법, 및 프로그램 | |
CN110874536A (zh) | 语料质量评估模型生成方法和双语句对互译质量评估方法 | |
JP2014132406A (ja) | 同義語抽出システム、方法およびプログラム | |
JP6112536B2 (ja) | 対訳表現抽出装置、対訳表現抽出方法及び対訳表現抽出のためのコンピュータプログラム | |
CN112559711A (zh) | 一种同义文本提示方法、装置及电子设备 | |
JP2013156815A (ja) | ドキュメント整合性評価システム、ドキュメント整合性評価方法、およびプログラム | |
CN111368547A (zh) | 基于语义解析的实体识别方法、装置、设备和存储介质 | |
CN116360794A (zh) | 数据库语言解析方法、装置、计算机设备及存储介质 | |
US20210318949A1 (en) | Method for checking file data, computer device and readable storage medium | |
CN112395865A (zh) | 报关单校验方法及装置 | |
JP5807966B2 (ja) | 文書評価学習装置、文書評価装置、方法、及びプログラム | |
JP6181890B2 (ja) | 文献解析装置、文献解析方法およびプログラム | |
JP4592556B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
JP7154113B2 (ja) | システム資産分析装置、及びシステム資産分析方法 | |
CN115034230B (zh) | 语义级多模态多粒度文档重复度评估方法和系统 | |
Michailoudis et al. | Towards Readability-Aware Recommendations of Source Code Snippets. |