JP2012234282A - Request document analysis system, method, and program - Google Patents
Request document analysis system, method, and program Download PDFInfo
- Publication number
- JP2012234282A JP2012234282A JP2011101394A JP2011101394A JP2012234282A JP 2012234282 A JP2012234282 A JP 2012234282A JP 2011101394 A JP2011101394 A JP 2011101394A JP 2011101394 A JP2011101394 A JP 2011101394A JP 2012234282 A JP2012234282 A JP 2012234282A
- Authority
- JP
- Japan
- Prior art keywords
- word
- words
- cluster
- document
- mainstream
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims description 129
- 238000000034 method Methods 0.000 title claims description 76
- 238000000605 extraction Methods 0.000 claims description 116
- 230000002093 peripheral effect Effects 0.000 claims description 73
- 238000004364 calculation method Methods 0.000 claims description 37
- 239000000284 extract Substances 0.000 claims description 36
- 230000000877 morphologic effect Effects 0.000 claims description 9
- 239000002245 particle Substances 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 8
- 238000011144 upstream manufacturing Methods 0.000 abstract description 11
- 238000011156 evaluation Methods 0.000 abstract description 3
- 238000012986 modification Methods 0.000 abstract 1
- 230000004048 modification Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000010276 construction Methods 0.000 description 9
- 238000013519 translation Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000012937 correction Methods 0.000 description 5
- 238000010438 heat treatment Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000033772 system development Effects 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000012913 prioritisation Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、要求文書分析システム、方法およびプログラムに関し、特に、情報システム構築の上流工程で、顧客から交付される提案依頼書や開発者側から提供する提案書や仕様書などの要求関連文書の要求文書分析システム、方法およびプログラムに関する。 The present invention relates to a requirement document analysis system, method and program, and in particular, a request related document such as a request for proposal issued by a customer or a proposal or specification provided by a developer in an upstream process of information system construction. The present invention relates to a requirement document analysis system, method and program.
要求文書分析システム、方法およびプログラムに関する従来技術の一例が、特許文献1に「翻訳装置」として記載されている。この特許文献1に開示された翻訳装置は、入力部、 翻訳部、 記憶部、 出力部から構成されている。このような構成を有する翻訳装置は、次のように動作する。
An example of prior art relating to a requested document analysis system, method, and program is described in
すなわち、翻訳部は、入力部から入力された原文の切れ目の位置を中断位置として検出する。また、翻訳部は、上記原文における上記中断位置より前方に在る単語列に対して記憶部に登録された解析規則に基づき構文解析して解析候補を検索する。そして、翻訳部は、複数の解析候補がある箇所について、オペレータに対する問い合わせ文と適用された解析規則に基づく問い合わせの必要度レベルを付加する。さらに表示部は、必要度レベルが設定された問い合わせ頻度のレベルより高い解析候補について、問い合わせ文を表示する。翻訳装置は、上記入力部から入力される上記表示された問い合わせに対する応答が当該解析候補の破棄である場合に当該解析候補を破棄することで、文章の係り受けに曖昧性が存在する場合に、オペレータとの対話によって上記曖昧性を除去して多義の解析結果を一意に絞り込んでいる。 That is, the translation unit detects the break position of the original text input from the input unit as the interruption position. Further, the translation unit searches for a candidate for analysis by parsing a word string ahead of the interruption position in the original text based on an analysis rule registered in the storage unit. And a translation part adds the necessity level of the inquiry based on the inquiry sentence with respect to an operator, and the applied analysis rule about the place with a some analysis candidate. Further, the display unit displays an inquiry sentence for an analysis candidate having a necessity level higher than the inquiry frequency level set. The translation device discards the analysis candidate when the response to the displayed query input from the input unit is the discard of the analysis candidate, and when there is ambiguity in the dependency of the sentence, The ambiguity is removed by dialogue with the operator, and the ambiguous analysis results are uniquely narrowed down.
さらに、要求文書分析システム、方法およびプログラムに関する従来技術の他の例が、特許文献2に「ソフトウェアの仕様記述方式」として記載されている。この特許文献2に開示されたソフトウェアの仕様記述方式では、対象システムを抽象化したモデルの構成要素を表現する基本語彙と詳細語彙とを、全体の処理の流れを記述した擬似コード文の中の詳細語彙に対する具体物の代入の様子を記述した代入表によって対応づけ、該対応づけられた基本語彙および詳細語彙を用いて仕様を記述している。また、このソフトウェアの仕様記述方式では、対象システムを抽象化したモデルの構成要素を表現する基本語彙を用いて基本処理記述文を記述し、擬似コード文の中にこの基本処理記述文を用いた仕様の記述を行っている。さらに、このソフトウェアの仕様記述方式は、動詞語彙の意味する処理の引数と格助詞の関係を定義し対応する基本語彙を記入した動詞語彙関連表を作成し、人間の記述した擬似コード文の機械的チェックを実行している。このような構成により、構文の曖昧さや仕様の記述の誤り可能性のある部分をユーザに提示し、修正を促している。 Further, another example of the related art relating to the requested document analysis system, method and program is described in Patent Document 2 as “Software Specification Description Method”. In the software specification description method disclosed in Patent Document 2, the basic vocabulary and detailed vocabulary expressing the components of the model that abstracts the target system are included in a pseudo-code sentence that describes the overall processing flow. The specification is described using the basic vocabulary and the detailed vocabulary associated with each other by using an assignment table that describes the state of assignment of specific objects to the detailed vocabulary. Also, in this software specification description method, a basic process description sentence is described using a basic vocabulary that expresses the components of the model that abstracts the target system, and this basic process description sentence is used in the pseudo code sentence. The specification is described. In addition, this software specification description method creates a verb vocabulary relation table that defines the relationship between the processing vocabulary meaning of the verb vocabulary and case particles and fills in the corresponding basic vocabulary, and creates a machine for pseudo-code sentences written by humans. Is performing a dynamic check. With such a configuration, the ambiguous syntax and the possibility of erroneous specification description are presented to the user to promote correction.
従来技術の第一の課題は、従来技術による曖昧ポイントの提示方法を、情報システム構築の上流工程に用いられる要求関連文書の曖昧さの改善に適用すると、作業者の負荷が高くなってしまうということである。その理由は、情報システム構築の上流工程に用いられる要求関連文書は、人間が精読することが前提であり、相対的に曖昧さの程度が弱いポイントについては人間が判断できる。このため、曖昧ポイントを無差別に指摘し、修正を求めることは、煩雑な作業を増すだけであり、思い込みなどで誤った解釈を行ってしまう危険性の高いポイントのみに限定した提示が必要となるためである。 The first problem of the prior art is that if the vague point presentation method according to the prior art is applied to improve the ambiguity of requirements-related documents used in the upstream process of information system construction, the burden on the worker will increase. That is. The reason is that the requirement-related document used in the upstream process of information system construction is premised on being read carefully by humans, and humans can judge points where the degree of ambiguity is relatively weak. For this reason, pointing out ambiguous points indiscriminately and requesting corrections only adds to the cumbersome work, and it is necessary to present only those points that have a high risk of misinterpretation due to assumptions, etc. It is to become.
さらに従来技術の第二の課題は、従来技術による曖昧ポイントの提示方法は、情報システム構築の上流工程に用いられる要求関連文書の曖昧さの改善に適さないということである。その理由は、情報システム構築の上流工程に用いられる要求関連文書は、要求関連文書内で特有な言葉の意味付け・用法が想定されるが、従来技術では汎用的な曖昧さの特徴によって曖昧ポイントの絞り込みが行われており、要求関連文書に特有の評価基準に基づく優先順位を付けが行われていないためである。 Furthermore, the second problem of the prior art is that the vague point presentation method according to the prior art is not suitable for improving the ambiguity of requirement-related documents used in the upstream process of information system construction. The reason for this is that requirements-related documents used in the upstream process of information system construction are supposed to have the meaning and usage of unique words in requirements-related documents. This is because there is no narrowing down and prioritization based on evaluation criteria specific to requirement-related documents is not performed.
本発明の目的は、情報システム構築の上流工程に用いられる要求関連文書の曖昧さを改善する、要求文書分析システム、方法およびプログラムを提供することにある。 An object of the present invention is to provide a requirement document analysis system, method, and program for improving the ambiguity of requirement-related documents used in the upstream process of information system construction.
本発明に係る要求文書分析システムは、要求文書を分析するシステムであって、対象とする文書の各文に形態素解析および構文解析を適用し、所定の抽出ルールに基づき、単語セットを抽出する単語セット抽出部と;単語セット毎に、所定の基軸設定ルールに基づき、単語セットに含まれる各単語から基軸単語を抽出し、単語セットを基軸単語とそれ以外の単語である周辺単語とに分類する基軸単語抽出部と;単語の意味的分類および同義語、類義語などの意味的情報を蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する意味情報を検索し応答する単語類似性データベースと;全単語セットから、同一の基軸単語を持つ単語セット群をまとめ、単語セット群の各周辺単語のそれぞれに対して、上記単語類似性データベースに意味情報を問い合わせ、応答された意味情報に基づき、単語間の類似性を算出する単語類似性算出部と;文書内で同一の基軸単語を持つ単語セット群毎に、周辺単語間の類似性に基づき周辺単語のクラスタリングを実施し、周辺単語を分類する単語分類部と;この単語分類部で実施した分類結果から、文書内で同一の基軸単語を持つ単語セット群毎に、抽出基準によって単語の用法として主流でないクラスタを非主流クラスタとして抽出し、非主流クラスタに属する周辺単語と基軸単語の組み合わせを係り受けミスなどの可能性が想定される曖昧ポイントとして抽出する曖昧ポイント抽出部と;この曖昧ポイント抽出部で文書内の同一の基軸単語を持つ単語セット群毎に抽出した曖昧ポイントを出力する曖昧ポイント出力部と;を備える。 A requested document analysis system according to the present invention is a system for analyzing a requested document, which applies morphological analysis and syntax analysis to each sentence of a target document and extracts a word set based on a predetermined extraction rule A set extraction unit; for each word set, based on a predetermined basic axis setting rule, extract a basic word from each word included in the word set, and classify the word set into a basic word and peripheral words that are other words A basic word extraction unit; accumulates semantic information of words, synonyms, synonyms, etc., and retrieves and responds to inquiries about specific words by retrieving semantic information related to the meaning and usage of words A word database; a group of word sets having the same basic word from all word sets, and the above word similarity data for each peripheral word of the word set group A word similarity calculation unit that calculates the similarity between words based on the semantic information that has been queried and sent back; and between adjacent words for each word set group having the same basic word in the document A word classification unit that classifies peripheral words based on similarity and classifies the peripheral words; from the classification results performed by the word classification unit, an extraction criterion for each word set group having the same basic word in the document A non-mainstream cluster is extracted as a non-mainstream cluster as a word usage, and an ambiguous point extraction unit that extracts a combination of a peripheral word and a base word belonging to the non-mainstream cluster as an ambiguous point that is assumed to be a potential mistake An ambiguous point output unit that outputs an ambiguous point extracted for each word set group having the same basic word in the document by the ambiguous point extracting unit; That.
本発明の効果は、要求関連文書内で特有な言葉の意味付け・用法が想定される要求文書について誤った解釈を行う可能性の高い曖昧なポイントを簡易に把握し、的確に理解することが可能となり、以降の工程での手戻りなどの削減につなげられることにある。その理由は、曖昧なポイントについて要求関連文書に特有の評価基準に基づき曖昧性の優先順位を付け、絞り込んで提示するためである。 The effect of the present invention is to easily grasp and accurately understand ambiguous points that are likely to be misinterpreted in a requirement document that is assumed to have a meaning and usage of unique words in the requirement-related document. It is possible to reduce the rework in subsequent processes. The reason for this is to prioritize and present the ambiguity points based on the evaluation criteria specific to the request-related document.
[実施形態1]
最初、本発明の第1の実施形態について、図面を参照して詳細に説明する。
[Embodiment 1]
First, a first embodiment of the present invention will be described in detail with reference to the drawings.
図1は、本発明の第1の実施形態に係る要求文書分析システム100の構成を示すブロック図である。
FIG. 1 is a block diagram showing the configuration of a requested
図1を参照すると、本発明の第1の実施形態に係る要求文書分析システム100は、基本的に電子機器内もしくはサーバと電子機器およびこれらを相互に接続するインターネット等の情報通信ネットワークからなるシステム内に、少なくとも、単語セット抽出部10と、基軸単語抽出部20と、単語類似性算出部30と、単語類似性データベース110と、単語分類部40と、曖昧ポイント抽出部50と、曖昧ポイント出力部60と、を含む。
Referring to FIG. 1, a requested
図示の要求文書分析システム100は、情報システム構築の上流工程で、顧客から交付される提案依頼書や開発者側から提供する提案書や仕様書などの要求関連文書の要求文書分析システムである。
The illustrated requirement
電子機器で要求文書分析システムを構成する場合、要求文書分析システム100は、プログラム制御により動作するコンピュータで実現可能である。図示はしないが、この種のコンピュータは、周知のように、データを入力する入力装置と、データ処理装置と、データ処理装置での処理結果を出力する出力装置と、種々のデータベースとして働く補助記憶装置とを備えている。そして、データ処理装置は、プログラムを記憶するリードオンリメモリ(ROM)と、データを一時的に記憶するワークエリアとして使用されるランダムアクセスメモリ(RAM)と、ROMに記憶されたプログラムに従って、RAMに記憶されているデータを処理する中央処理装置(CPU)とから構成される。
When the required document analysis system is configured by an electronic device, the required
この場合、データ処理装置が、単語セット抽出部10、基軸単語抽出部20、単語類似性算出部30、単語分類部40、および曖昧ポイント抽出部50として働き、補助記憶装置が単語類似性データベース110として動作し、出力装置が曖昧ポイント出力部60として働く。
In this case, the data processing device functions as the word set
次に、要求文書分析システム100を構成する各構成要素の動作について説明する。
Next, the operation of each component constituting the request
単語セット抽出部10は、対象とする文書もしくは文書群の入力を受け付ける。単語セット抽出部10は、文書もしくは文書群を構成する全ての文章に形態素解析および構文解析を適用し、所定の抽出ルールに基づき単語セットを抽出する。ここで、「抽出ルール」としては、文を構成する単語間の用法の特徴を反映したルールであればどの様な方法でも良い。例えば、特徴として共起に注目すれば、抽出ルールは、一文などの文書の任意の範囲内で共起する単語の組み合わせを単語セットとして抽出するなどのルールが相当する。また、より単語間の係り受け関係に注目すれば、抽出ルールは、係り受け関係にある単語の組み合わせを単語セットとして抽出するというルールが相当する。
The word set
基軸単語抽出部20は、単語セット毎に、所定の基軸設定ルールに基づき単語セットに含まれる各単語から基軸単語を抽出する。そして、基軸単語抽出部20は、単語セット内の単語を基軸単語とそれ以外の単語である周辺単語とに分類する。ここで、「基軸設定ルール」としては、文の中心的な単語を取り出すルールであればどのような方法でも良い。例えば、基軸設定ルールとしては、名詞や形容詞、動詞などの単独で意味をなす品詞の内で一般的なWebや文書などでの使用頻度が文書内で相対的に多い単語を基軸単語とするルールが適用される。或いは、係り受け関係に基づいて抽出された単語セットの場合、基軸設定ルールとしては、係る語や主語を基軸単語とし、係られる語や述語、主語と述語を繋ぐ助詞などを周辺単語とするルールが適用される。
The base
単語類似性データベース110は、単語の意味的分類および同義語、類義語などの意味的情報を収集して蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する意味情報を検索し応答するデータベースである。単語類似性データベース110は、単語の上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけたシソーラスや、一般的なWebや文書内の文中で各単語と共起する共起語の種類と数を集計した共起語集計表などが相当する。
The
単語類似性算出部30は、文書に含まれる全単語セットから、同一の基軸単語を持つ単語セット群をまとめ、単語セット群の各周辺単語のそれぞれに対して、単語類似性データベース110に意味情報を問い合わせ、応答された意味情報に基づき、周辺単語間の類似性を算出する。単語類似性データベース110がシソーラスである場合、周辺単語間の類似性の算出方法としては、単語同士が共通の概念とされる階層の深さを非類似性の指標とする方法で良い。或いは、周辺単語間の類似性の算出方法としては、共起語集計表から一般的なWebや文書内の文中で各周辺単語と共起する共起語の種類と数を抽出し、周辺単語間の共起語の重複率などを類似性の指標として利用する方法でも良い。
The word
単語分類部40は、文書内で同一の基軸単語を持つ単語セット群毎に、周辺単語間の類似性に基づき周辺単語のクラスタリングを実施し、周辺単語を分類する。クラスタリングの手法は一般的な手法で良い。例えば、クラスタリングの手法としては、デンドログラムなどを用いた階層的クラスタリングを適用しても良い。或いは、クラスタリングの手法としては、周辺単語間の類似性と単調減少する指標を距離として導かれる仮想的な周辺単語の位置情報に、k−means法やFussy−c−means法などの非階層的クラスタリングを適用しても良い。或いは、単語類似性データベース110がシソーラスである場合、シソーラスでの周辺単語の帰属する大分類や中分類、小分類のいずれかをそのまま、分類として用いても良い。
The
曖昧ポイント抽出部50は、単語分類部40で実施した分類結果から、文書内で同一の基軸単語を持つ単語セット群毎に、所定の抽出基準によって単語の用法として主流でないクラスタを非主流クラスタとして抽出し、非主流クラスタに属する周辺単語と基軸単語の組み合わせを構文解析などの誤った解釈の可能性が想定される曖昧ポイントとして抽出する。ここで、「抽出基準」は、単語の用法として主流でないクラスタを分別する基準であれば良い。例えば、抽出基準は、周辺単語の帰属数が任意の閾値より少ないクラスタを非主流クラスタとするなど数的基準で抽出する方法であって良い。或いは、抽出基準としては、周辺単語の帰属数が最大のクラスタとクラスタ間の距離が最も遠いもしくは任意の閾値より遠いクラスタを抽出するなどの意味的基準で抽出する方法などが適当である。なお、周辺単語がファジィクラスタリングによって分類された場合は、前記帰属数を帰属度の総和として取り扱う。
The ambiguous
曖昧ポイント出力部60は、曖昧ポイント抽出部50で文書内の同一の基軸単語を持つ単語セット群毎に抽出した曖昧ポイントを出力する。ここで、出力形態は、文書内における曖昧ポイントを色分けや太字による強調などで明示することで、文書全体を出力する形態などが適当である。他にも、出力形態としては、基軸単語と周辺単語とをリンクで結んだグラフを表示し、曖昧ポイントとされた周辺単語とリンクを色分けするなどの形態であって良い。或いは、出力形態として、基軸単語と、周辺単語のクラスタを代表するキーワードを代表ノードとしてリンクで結び、さらにクラスタに含まれた各周辺単語を従属ノードとして代表ノードと結んだグラフを表示し、曖昧ポイントとされたクラスタ以下の周辺単語とリンクを色分けするなどの形態などでも良い。また、出力形態としては、非主流クラスタを抽出する際に用いた周辺単語の帰属数やそこから導かれる帰属率、もしくはクラスタ間距離などで曖昧ポイントに定量的な曖昧度を付加し、曖昧度が任意に設定された閾値より大きい曖昧ポイントのみに表示を限定しても良い。もしくは、出力形態としては、曖昧ポイントの曖昧度によって色分けや太字による強調もしくはグラフの単語の文字の大きさなどに強弱を与えるなどしても良い。
The ambiguous
次に、図1及び図2のシーケンス図を参照して、本発明の第1の実施形態に係る要求文書分析システム100の全体の動作について詳細に説明する。
Next, the overall operation of the requested
単語セット抽出部10は、対象とする文書の入力を受け付け、文書の各文に形態素解析および構文解析を適用し、所定の抽出ルールに基づき単語セットを抽出する(図2のステップA1)。
The word set
基軸単語抽出部20は、単語セット毎に、所定の基軸設定ルールに基づき単語セットに含まれる各単語から基軸単語を抽出し、単語セット内の単語を基軸単語とそれ以外の単語である周辺単語とに分類する(ステップA2)。
For each word set, the base
単語類似性データベース110は、単語の意味的分類および同義語、類義語などの意味的情報を収集して蓄積し、特定の単語に関する問い合わせに対し、単語の意味に関連する意味情報を検索し応答する(ステップA3)。
The
単語類似性算出部30は、全単語セットから、同一の基軸単語を持つ単語セット群をまとめ、単語セット群の各周辺単語のそれぞれに対して、単語類似性データベース110に意味情報を問い合わせ、応答された意味情報に基づき、周辺単語間の類似性を算出する(ステップA4)。
The word
単語分類部40は、文書内で同一の基軸単語を持つ単語セット群毎に、周辺単語間の類似性に基づき周辺単語のクラスタリングを実施し、周辺単語を分類する(ステップA5)。
The
曖昧ポイント抽出部50は、単語分類部40で実施した分類結果から、文書内で同一の基軸単語を持つ単語セット群毎に、所定の抽出基準によって単語の用法として主流でないクラスタを非主流クラスタとして抽出し、非主流クラスタに属する周辺単語と基軸単語の組み合わせを係り受けミスなどの可能性が想定される曖昧ポイントとして抽出する(ステップA6)。
The ambiguous
曖昧ポイント出力部60は、曖昧ポイント抽出部50で文書内の同一の基軸単語を持つ単語セット群毎に抽出した曖昧ポイントを出力する(ステップA7)。
The ambiguous
次に、本発明の第1の実施形態に係る要求文書分析システム100の効果について説明する。
Next, the effect of the requested
本第1の実施形態では、文書内もしくは文書群内の単語の用法の類似性によって判別された非主流クラスタに基づいて曖昧ポイントを抽出するように構成されているため、対象とする文書もしくは文書群に特有の用法に対して不自然と見なされる用法のポイントを見出すことができ、独自の用法が多い要求文書などの曖昧ポイントを抽出できる。 In the first embodiment, since the ambiguity point is extracted based on the non-mainstream cluster determined by the similarity of the usage of the words in the document or document group, the target document or document It is possible to find usage points that are considered unnatural with respect to usage specific to a group, and it is possible to extract ambiguous points such as request documents that have many unique usages.
尚、上記本発明の第1の実施形態に係る要求文書分析システム100は、要求文書分析方法として実現され得る。また、上記本発明の第1の実施形態に係る要求文書分析システム100は、要求文書分析プログラムによりコンピュータによって実行させるようにしても良い。
The required
[実施形態2]
次に、本発明の第2の実施形態について、図面を参照して詳細に説明する。
[Embodiment 2]
Next, a second embodiment of the present invention will be described in detail with reference to the drawings.
図3は、本発明の第3の実施形態に係る要求文書分析システム100Aの構成を示すブロック図である。
FIG. 3 is a block diagram showing the configuration of a requested
図3を参照すると、本発明の第2の実施形態に係る要求文書分析システム100Aは、基軸単語汎用度算出部25を更に含むと共に、後述するように曖昧ポイント抽出部の動作が相違する点を除いて、図1に示した第1の実施形態に係る要求文書分析システム100と同様の構成を有し、動作をする。したがって、曖昧ポイント抽出部に50Aの参照符号を付してある。
Referring to FIG. 3, the requested
図示の要求文書分析システム100Aを上述したコンピュータで実現した場合、データ処理装置が、単語セット抽出部10、基軸単語抽出部20、基軸単語汎用度算出部25、単語類似性算出部30、単語分類部40、および曖昧ポイント抽出部50Aとして働き、補助記憶装置が単語類似性データベース110として動作し、出力装置が曖昧ポイント出力部60として働く。
When the requested
基軸単語汎用度算出部25が、基軸単語の汎用度を算出し、曖昧ポイント抽出部50Aが、汎用度に基づき周辺単語群の非主流クラスタの抽出基準を変換する。
The basic word
次に、要求文書分析システム100Aを構成する各構成要素の動作について説明する。
Next, the operation of each component constituting the requested
基軸単語汎用度算出部25は、基軸単語抽出部20で抽出された基軸単語について、一般文書での使用頻度など基軸単語の用例からみた汎用性を表す汎用度を算出する。ここで、「汎用度」は、基軸単語が様々な他の単語と組み合されやすい汎用的な単語なのか、特定の単語との組み合わせしか想定されない特殊な単語なのかを反映する指標であれば良い。汎用度の算出方法としては、一般的な辞書における語彙の種類数や例文の数、書籍やWebなどに存在する一般的な文書群における出現頻度、およびこれらのいずれか一つもしくは組み合わせで算出される値が適している。
The basic word
曖昧ポイント抽出部50Aは、文書内で同一の基軸単語を持つ単語セット群毎に、基軸単語の汎用度に基づき周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を算出し、この閾値に基づく抽出基準を用いる点で、図1に示した曖昧ポイント抽出部50と異なる。ここで、「閾値」は、基軸単語の汎用性により、基軸単語と組み合される周辺単語の種類数の見込みを変化させるように設定されれば良い。例えば、汎用度の高い基軸単語と組み合された周辺単語群は様々な意味的な組み合わせが想定されうるため、非主流と見なす閾値を高め、汎用度の低い基軸単語と組み合された周辺単語群は様々な意味的な組み合わせが想定しにくいため、非主流と見なす閾値を下げるように、閾値を設定する。閾値の算出方法は、基軸単語の汎用度と単調増加の関係にある関数を任意に設定して算出しても良い。或いは、閾値を、基軸単語の汎用性と、適正なクラスタ間距離の経験的な関係から推算しても良い。
The ambiguous
それ以外の単語セット抽出部10と、基軸単語抽出部20と、単語類似性算出部30と、単語類似性データベース110と、単語分類部40と、曖昧ポイント出力部60の構成と機能は、図1に示した第1の実施形態のそれらとそれぞれ同じであるので、説明を省略する。
Other configurations of the word set
次に、図3及び図4のシーケンス図を参照して、本発明の第2の実施形態に係る要求文書分析システム100Aの全体の動作について詳細に説明する。
Next, the entire operation of the requested
上述した第1の実施形態の動作と比較すると、本第2の実施形態の動作は、次の動作が加わっている点で異なる。 Compared to the operation of the first embodiment described above, the operation of the second embodiment is different in that the following operation is added.
すなわち、基軸単語汎用度算出部25は、基軸単語抽出部20で抽出された基軸単語について、一般文書での使用頻度など基軸単語の用例からみた汎用性を表す汎用度を算出する(ステップB1)。
That is, the basic word
さらに曖昧ポイント抽出部50Aは、文書内で同一の基軸単語を持つ単語セット群毎に、基軸単語の汎用度に基づき周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を算出する(ステップB2)。
Further, the ambiguous
他のステップの動作は、上述した第1の実施形態における動作と同一であるので、それらの説明については省略する。 The operation of other steps is the same as the operation in the first embodiment described above, and a description thereof will be omitted.
次に、本発明の第2の実施形態の効果について説明する。 Next, effects of the second exemplary embodiment of the present invention will be described.
本第2の実施の形態では、基軸単語の汎用度を算出し、汎用性により、基軸単語と組み合される周辺単語の種類数の見込みを変化させるように構成されているため、より基軸単語の特徴に合った基準で対象とする文書もしくは文書群に特有の用法に対して不自然と見なされる用法のポイントを見出すことができ、独自の用法が多い要求文書などの曖昧ポイントを抽出できる。 In the second embodiment, since the versatility of the base word is calculated and the likelihood of the number of types of peripheral words combined with the base word is changed due to the generality, the feature of the base word is further improved. It is possible to find usage points that are regarded as unnatural with respect to usages specific to a target document or document group based on criteria that match the criteria, and to extract ambiguous points such as required documents that have many unique usages.
尚、上記本発明の第2の実施形態に係る要求文書分析システム100Aは、要求文書分析方法として実現され得る。また、上記本発明の第1の実施形態に係る要求文書分析システム100Aは、要求文書分析プログラムによりコンピュータによって実行させるようにしても良い。
The required
次に、図5を参照して、具体的な第1の実施例を用いて、本発明の第1の実施形態に係る要求文書分析システム100の動作について説明する。
Next, with reference to FIG. 5, the operation of the requested
本第1の実施例では、次のことを目的としている。 The purpose of the first embodiment is as follows.
先ず、要求文書分析システム100は、情報システム構築の上流工程で、顧客から交付される提案依頼書や、開発者側から提供する提案書などの要求文書D内の曖昧なポイントAを抽出する。そして、交付された文書であれば解釈に誤りが無いよう精読、もしくは文書の記載者に正しい解釈を確認するため、要求文書分析システム100は、提供する文書であれば修正等のための情報として可視化することで、正確な要求獲得と要件定義を行う。
First, the requested
また、本第1の実施例では、要求文書分析システム100は、図5に示されるように、要求文書解析システムYと、インターネット・サーバZとで構成されるものとする。
In the first embodiment, the requested
要求文書解析システムYは、分析実施者Bの持つPC端末上で動作し、入力部及び出力部を介して、分析実施者Bが曖昧ポイントを抽出したい文書群を構成する文章の入力と、曖昧ポイントAの提示を実現する。 The requested document analysis system Y operates on the PC terminal possessed by the analyst B, and through the input unit and the output unit, the input of the sentences constituting the group of documents that the analyst B wants to extract the ambiguous points, and the ambiguous Realize point A.
インターネット・サーバZは、通信ネットワークを介して要求文書解析システムYを実装した分析実施者Bの持つPC端末と接続されている。インターネット・サーバZは、要求文書解析システムYからの単語と単語間の類似性の問い合わせに対し、意味的に類似性に関する情報の検索を可能にする装置である。 The Internet server Z is connected via a communication network to a PC terminal owned by an analyst B who implements the requested document analysis system Y. The Internet server Z is a device that enables retrieval of information on semantic similarity in response to an inquiry about the similarity between words from the request document analysis system Y.
図5と図1との対応関係について説明する。 The correspondence between FIG. 5 and FIG. 1 will be described.
単語セット抽出部10と、基軸単語抽出部20と、単語類似性算出部30と、単語分類部40と、曖昧ポイント抽出部50とは、要求文書解析システムY内に含まれている。曖昧ポイント出力部60は、PC端末の出力部として動作する。単語類似性データベース110はインターネット・サーバZ内に含まれている。
The word set
この様な手段を備えた要求文書解析システムY、インターネット・サーバZは以下のような動作をする。 The requested document analysis system Y and the Internet server Z provided with such means operate as follows.
要求文書解析システムYは、入力部から、分析実施者Bが曖昧ポイントを抽出したい文書Dの入力を受け付ける。そして、要求文書解析システムYは、文書Dを構成するn個の文書i(i=1、2、・・・、n)の全ての文章i毎に形態素解析および構文解析を適用し、文章iを構成する単語に分解し、各単語の品詞とその係り受け関係を解析することで、主語Siと述語Viに相当する単語を抽出し、対応する主語Siと述語Viの組み合わせを単語セットTiとして抽出する。 The requested document analysis system Y receives an input of the document D from which the analysis operator B wants to extract the ambiguous point from the input unit. Then, the requested document analysis system Y applies morphological analysis and syntax analysis to every sentence i of the n documents i (i = 1, 2,..., N) constituting the document D, and the sentence i Are extracted, and the words corresponding to the subject Si and the predicate Vi are extracted, and a combination of the corresponding subject Si and the predicate Vi is defined as a word set Ti. Extract.
なお、重文など、主語Siaが述語Viaに係り、主語Sibが述語Vibに係るといった文章i中に複数種の主語Siや述語Viが有る場合、単語セットTiは単語セットTia{主語Sia、述語Via}、Tib{主語Sib、述語Vib}のようにそれぞれ別々に抽出される。また、複文など、主語Sicが述語Vicと述語Vidに係るような場合も、単語セットTiは単語セットTic{主語Sic、述語Vic}、Tid{主語Sic、述語Vid}のようにそれぞれ別々に抽出される。 When there are a plurality of types of subjects Si and predicates Vi in a sentence i such that the subject Sia relates to the predicate Via and the subject Sib relates to the predicate Vib, such as a heavy sentence, the word set Ti is the word set Tia {subject Sia, predicate Via. }, Tib {subject Sib, predicate Vib}, respectively. Also, in the case where the subject Sic is related to the predicate Vic and the predicate Vid, such as a compound sentence, the word set Ti is extracted separately like the word set Tic {subject Sic, predicate Vic}, Tid {subject Sic, predicate Vid}. Is done.
さらに要求文書解析システムYは、文書Dに含まれる全ての単語セットTiについて、各主語Siを基軸として、同一の主語Saである単語セットTaを集計することで、同一の主語Saと主語Saと組み合されたm個の述語Vaj(j==1、2、・・・、m)をまとめた単語セット群Ga{Sa、Vaj}を抽出する。そして、要求文書解析システムYは、単語セット群Gaの各述語Vajのそれぞれの意味的な分類についてインターネット・サーバZに問い合わせを行うことで、インターネット・サーバZ内に保存されたシソーラスの分類体系から、各述語Vajが属する意味分類Cajおよび同義語Weajと類義語Wsajとを抽出する。 Further, the requested document analysis system Y adds up the word set Ta, which is the same subject Sa, with respect to all the word sets Ti included in the document D by using the subject Si as a base, thereby obtaining the same subject Sa and subject Sa. A word set group Ga {Sa, Vaj} in which m predicates Vaj (j == 1, 2,..., M) combined are extracted. Then, the requested document analysis system Y makes an inquiry to the Internet server Z about the semantic classification of each predicate Vaj of the word set group Ga, so that the thesaurus classification system stored in the Internet server Z is used. , The semantic classification Caj to which each predicate Vaj belongs, the synonym Weaj, and the synonym Wsaj are extracted.
インターネット・サーバZは、単語の上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけたシソーラスの情報を蓄積する。また、インターネット・サーバZは、任意の単語の情報を抽出する検索エンジンなどの機能も提供することで、要求文書解析システムYからの問い合わせに応じて、問い合わせ対象の単語の分類および同義語と類義語とを抽出し、提示する。 The Internet server Z classifies the words according to the upper / lower relationship, the partial / whole relationship, the synonym relationship, the synonym relationship, etc. of the word, and accumulates systematic thesaurus information. In addition, the Internet server Z also provides a function such as a search engine that extracts information of an arbitrary word, so that the classification of the query target word and the synonyms and synonyms in response to the inquiry from the request document analysis system Y Are extracted and presented.
さらに要求文書解析システムYは、各述語Vajが属する意味分類Cajおよび同義語Weajと類義語Wsajとに基づき、各述語Vaj間の類似性Faを算出する。 Further, the requested document analysis system Y calculates the similarity Fa between the predicates Vaj based on the semantic classification Caj to which each predicate Vaj belongs, the synonym Weaj, and the synonym Wsaj.
述語Vap(j=p)と述語Vaq(j=q)との類似性Fapqの算出方法の例としては、意味分類CapとCaqが同一の分類になる分類階層と分類体系における最も大まかな分類階層までの階層差によって定量化する方法がある。例えば、大分類(1層目)、中分類(2層目)、小分類(3層目)、細分類(4層目)の4階層からなる分類体系を持つシソーラスで意味分類CapとCaqが小分類で一致した場合は、1層目と3層目の差分として「2」が類似性の指標となる。 As an example of a method for calculating the similarity Fapq between the predicate Vap (j = p) and the predicate Vaq (j = q), the classification hierarchy in which the semantic classification Cap and Caq are the same classification and the rough classification hierarchy in the classification system There is a method of quantifying by the hierarchy difference. For example, in a thesaurus having a classification system consisting of four levels of major classification (first layer), middle classification (second layer), minor classification (third layer), and fine classification (fourth layer), semantic classification Cap and Caq are If they match in the small classification, “2” is used as the similarity index as the difference between the first and third layers.
また、述語Vapと述語Vaqとの類似性Fapqをより定量的に算出する例としては、同義語Weap、Weaqと類義語Wsap、Wsaqとに基づき、同義語の重複率Repq、類義語の重複率Rspqを算出し、別に同義語重み付け係数αeと類義語重み付け係数αsを(αe+αs=1、αe≧αs)任意に設定し、それぞれ重み付けした和(αe×Repq+αs×Rspq)によって定量化する方法がある。例として、図6に、単語セット群Ga{Sa=「制御システム」、Va=「行う」、「実施」、「稼働」、「使う」、「開発」、「構築」、「修正」、「追加」、「加熱」、「・・・」、「・・・」}として、算出した類似性Faの一部を示した。 Further, as an example of calculating the similarity Fapq between the predicate Vap and the predicate Vaq more quantitatively, based on the synonyms Weap and Weaq and the synonyms Wsap and Wsaq, the synonym duplication rate Repq and the synonym duplication rate Rspq are calculated. There is a method in which the synonym weighting coefficient αe and the synonym weighting coefficient αs are set arbitrarily (αe + αs = 1, αe ≧ αs) and quantified by the weighted sum (αe × Repq + αs × Rspq). For example, in FIG. 6, the word set group Ga {Sa = “control system”, Va = “perform”, “implement”, “operation”, “use”, “development”, “construction”, “correction”, “ A part of the calculated similarity Fa is shown as “addition”, “heating”, “...”, “.
さらに要求文書解析システムYは、単語セット群Ga{Sa、Vaj}毎に、各述語Vaj間の類似性Faに基づき、類似する各述語Vaj同士をまとめるクラスタリングを行うことで各述語Vajを分類し、デンドログラムHaを作成する。 Further, the requested document analysis system Y classifies each predicate Vaj by performing clustering that groups similar predicates Vaj based on the similarity Fa between the predicates Vaj for each word set group Ga {Sa, Vaj}. The dendrogram Ha is created.
デンドログラムHaは、各述語Vajを初期のクラスタと見なし、類似性Faの逆数を各クラスタ(述語Vaj)間距離として、最もクラスタ間距離が近いクラスタ同士を新しいクラスタとし、さらに新しい全てのクラスタ間の距離を求め、最も近い2つを結合して新しくクラスタを作るという処理を繰り返し、全てのクラスタが一つのクラスタに結合されるまで繰り返すことで作成する。図7は、図6の類似性Faに基づき、デンドログラムを用いて、クラスタリングして得られたデンドログラムHaの例を示す。 In the dendrogram Ha, each predicate Vaj is regarded as an initial cluster, the reciprocal of the similarity Fa is defined as the distance between each cluster (predicate Vaj), the clusters having the closest intercluster distance are defined as new clusters, and all new clusters It is created by repeating the process of combining the nearest two and creating a new cluster until all the clusters are combined into one cluster. FIG. 7 shows an example of a dendrogram Ha obtained by clustering using a dendrogram based on the similarity Fa of FIG.
さらに要求文書解析システムYは、単語セット群Ga{Sa、Vaj}毎に、デンドログラムHaにおける各クラスタ間の距離に基づき、述語Vajのクラスタ間の距離が任意に設定した閾値Nより遠い分類となるクラスタ同士で帰属する述語数が多い側を主流クラスタ、帰属する述語数が少ない側を非主流クラスタとして、非主流クラスタに属する述語Vaxを抽出し、主語Saとの組み合わせを曖昧ポイントAa{Sa、Vax}として抽出する。 Further, for each word set group Ga {Sa, Vaj}, the requested document analysis system Y is classified based on the distance between the clusters in the dendrogram Ha, and the distance between the clusters of the predicate Vaj is arbitrarily set to a threshold N. The predicate Vax belonging to the non-mainstream cluster is extracted with the side having a larger number of predicates belonging to the cluster as the mainstream cluster and the side having the smaller number of predicates belonging to the non-mainstream cluster, and the combination with the subject Sa is defined as an ambiguous point Aa {Sa , Vax}.
図7の例でクラスタ間の距離の閾値を5以上とすると、図8の様に「加熱」が属するクラスタとそれ以外の全ての述語が属するクラスタとに分類され、帰属する述語の少ない「加熱」が属するクラスタが非主流クラスタとなるため、Vaxは「加熱」となり、曖昧ポイントAa{Sa=「制御システム」、Vax=「加熱」}となる。 In the example of FIG. 7, when the threshold of the distance between the clusters is 5 or more, as shown in FIG. 8, the cluster is classified into a cluster to which “heating” belongs and a cluster to which all other predicates belong, and “heating” with few attributed predicates. ”Belongs to a non-mainstream cluster, Vax becomes“ heating ”, and the ambiguous point Aa {Sa =“ control system ”, Vax =“ heating ”}.
さらに要求文書解析システムYは、主語Sa毎に抽出した曖昧ポイントAa{Sa、Vax}について、要求文書Dで該当する曖昧ポイントAa{Sa、Vax}を色分けもしくは太字による強調などの加工を行い、加工後の要求文書Dを、出力部から出力する。また曖昧ポイントAa{Sa、Vax}を含む文内に主流クラスタに含まれた述語Vamが有る場合は、別の係り受け候補として、述語Vamも色分けもしくは太字による強調などの加工を行っても良い。 Further, the requested document analysis system Y processes the ambiguous points Aa {Sa, Vax} corresponding to the requested document D for the ambiguous points Aa {Sa, Vax} extracted for each subject Sa by color coding or emphasis by bold type, The processed request document D is output from the output unit. In addition, when there is a predicate Vam included in the mainstream cluster in a sentence including the ambiguous point Aa {Sa, Vax}, the predicate Vam may be subjected to processing such as color coding or bold emphasis as another dependency candidate. .
次に、図9を参照して、具体的な第2の実施例を用いて、本発明の第2の実施形態に係る要求文書分析システム100Aの動作を説明する。
Next, the operation of the requested
本第2の実施例では、要求文書分析システム100Aは、図9に示されるように、要求文書解析システムYaと、インターネット・サーバZとで構成されるものとする。
In the second embodiment, the requested
要求文書解析システムYaは、分析実施者Bの持つPC端末上で動作し、入力部及び出力部を介して、分析実施者Bが曖昧ポイントを抽出したい文書群を構成する文章の入力と、曖昧ポイントAの提示を実現する。 The requested document analysis system Ya operates on the PC terminal possessed by the analyst B, and through the input unit and the output unit, the input of the sentences constituting the group of documents that the analyst B wants to extract the ambiguous points, and the ambiguous Realize point A.
インターネット・サーバZは、通信ネットワークを介して要求文書解析システムYaを実装した分析実施者Bの持つPC端末と接続されている。インターネット・サーバZは、要求文書解析システムYaからの単語と単語間の類似性の問い合わせに対し、意味的に類似性に関する情報の検索を可能にする装置である。 The Internet server Z is connected via a communication network to a PC terminal owned by an analyst B who implements the requested document analysis system Ya. The Internet server Z is a device that enables retrieval of information related to similarity semantically in response to a query for similarity between words from the request document analysis system Ya.
本第2の実施例では、第1の実施例の動作に加え、要求文書解析システムYaが基軸単語汎用度算出部25を含む。
In the second embodiment, in addition to the operation of the first embodiment, the requested document analysis system Ya includes a basic word
すなわち、図9と図3との対応関係は次のように成る。 That is, the correspondence between FIG. 9 and FIG. 3 is as follows.
単語セット抽出部10と、基軸単語抽出部20と、基軸単語汎用度算出部25と、単語類似性算出部30と、単語分類部40と、曖昧ポイント抽出部50とは、要求文書解析システムYa内に含まれている。曖昧ポイント出力部60は、PC端末の出力部として動作する。単語類似性データベース110はインターネット・サーバZ内に含まれている。
The word set
この様な構成を含めた要求文書解析システムYaは、上述した第1の実施例に対して、以下のような動作を加える。 The requested document analysis system Ya including such a configuration adds the following operation to the first embodiment described above.
要求文書解析システムYaは、基軸単語とした各主語Siについて、Web検索を実施し、Web上で公開されている文書群における各主語Siの出現頻度を抽出する。また、要求文書解析システムYaは、国語辞典により各主語Siの語彙数を算出し、それらを掛け合わせた値を、各主語Siの汎用性を表す汎用度Jiとして算出する。 The requested document analysis system Ya performs a Web search for each subject Si as a base word, and extracts the appearance frequency of each subject Si in a document group published on the Web. Further, the requested document analysis system Ya calculates the number of vocabularies of each subject Si from the Japanese dictionary, and calculates a value obtained by multiplying them as the versatility Ji representing the versatility of each subject Si.
さらに、要求文書解析システムYaは、単語セット群Ga{Sa、Vaj}毎に、主語Saの汎用度Jaに基づき、述語Vajを主流クラスタと非主流クラスタとに分類する際に設定する閾値Naを算出する。 Further, the requested document analysis system Ya sets a threshold Na to be set when classifying the predicate Vaj into mainstream clusters and non-mainstream clusters based on the generality Ja of the subject Sa for each word set group Ga {Sa, Vaj}. calculate.
閾値Naの算出方法としては、過去の事例から様々な主語Sについて算出された汎用度Jおよび述語Vの非主流クラスタの分類に用いたクラスタ間距離の適性値を集計し、その集計結果を図10の様に単語の汎用度Jを横軸、適正なクラスタ間距離を縦軸としてマッピングし、単語の汎用度Jを説明変数、適正なクラスタ間距離を目的変数とした回帰分析を行い、得られた回帰式に汎用度Jaを代入することで得られる適正なクラスタ間距離を閾値Naとする方法が適当である。 As a method for calculating the threshold Na, the suitability values of the inter-cluster distances used for the classification of the non-mainstream clusters of the generality J and the predicate V calculated for various subjects S from past cases are tabulated, and the tabulated results are shown in FIG. As shown in Fig. 10, the general-purpose degree J of the word is mapped on the horizontal axis and the appropriate inter-cluster distance is plotted on the vertical axis, and the regression analysis is performed by using the general-purpose degree J of the word as an explanatory variable and the appropriate inter-cluster distance as an objective variable. A method in which an appropriate inter-cluster distance obtained by substituting the general-purpose degree Ja into the obtained regression equation is set as the threshold value Na is appropriate.
以下に、本発明の態様について説明する。 Below, the aspect of this invention is demonstrated.
本発明の第1の態様による要求文書分析システムは、要求文書を分析するシステムであって、対象とする文書の各文に形態素解析および構文解析を適用し、所定の抽出ルールに基づき、単語セットを抽出する単語セット抽出部と;単語セット毎に、所定の基軸設定ルールに基づき、単語セットに含まれる各単語から基軸単語を抽出し、単語セットを基軸単語とそれ以外の単語である周辺単語とに分類する基軸単語抽出部と;単語の意味的分類および同義語、類義語などの意味的情報を蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する意味情報を検索し応答する単語類似性データベースと;全単語セットから、同一の基軸単語を持つ単語セット群をまとめ、単語セット群の各周辺単語のそれぞれに対して、上記単語類似性データベースに意味情報を問い合わせ、応答された意味情報に基づき、単語間の類似性を算出する単語類似性算出部と;文書内で同一の基軸単語を持つ単語セット群毎に、周辺単語間の類似性に基づき周辺単語のクラスタリングを実施し、周辺単語を分類する単語分類部と;この単語分類部で実施した分類結果から、文書内で同一の基軸単語を持つ単語セット群毎に、抽出基準によって単語の用法として主流でないクラスタを非主流クラスタとして抽出し、非主流クラスタに属する周辺単語と基軸単語の組み合わせを係り受けミスなどの可能性が想定される曖昧ポイントとして抽出する曖昧ポイント抽出部と;曖昧ポイント抽出部で文書内の同一の基軸単語を持つ単語セット群毎に抽出した曖昧ポイントを出力する曖昧ポイント出力部と;を備える。 A requested document analysis system according to a first aspect of the present invention is a system for analyzing a requested document, which applies morphological analysis and syntax analysis to each sentence of a target document, and sets a word set based on a predetermined extraction rule. A word set extraction unit for extracting the word word; for each word set, based on a predetermined rule setting rule, the word word is extracted from each word included in the word set, and the word set is the word word and the surrounding words that are other words A key word extraction unit that categorizes the words into words; accumulates semantic information of words and synonyms, synonyms, etc., and searches for semantic information related to the meaning and usage of a word in response to a query about a specific word A word similarity database that responds; a group of word sets having the same basic word from all word sets, and the above word for each peripheral word in the word set group A word similarity calculation unit that inquires semantic information in the similarity database and calculates similarity between words based on the returned semantic information; between adjacent words for each word set group having the same basic word in the document A word classification unit that classifies peripheral words based on similarity of words and classifies the peripheral words; for each word set group that has the same basic word in the document, it is extracted from the classification results performed by this word classification unit A non-mainstream cluster is extracted as a non-mainstream cluster as a word usage according to the criteria, and an ambiguous point extraction unit that extracts a combination of a peripheral word and a base word belonging to the non-mainstream cluster as an ambiguous point that is assumed to have a potential error. And an ambiguous point output unit that outputs an ambiguous point extracted for each word set group having the same basic word in the document. ; Comprises.
上記本発明の第1の態様による要求文書分析システムは、上記基軸単語抽出部で抽出された基軸単語について、一般文書での使用頻度など基軸単語の用例からみた汎用性を表す汎用度を算出する基軸単語汎用度算出部を更に備えてよい。この場合、上記曖昧ポイント抽出部は、文書内で同一の基軸単語を持つ単語セット群毎に、基軸単語の汎用度に基づき、周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を算出し、この閾値に基づく抽出基準を用いてよい。 The requested document analysis system according to the first aspect of the present invention calculates a versatility representing the versatility of the basic word extracted by the basic word extraction unit, such as the frequency of use in a general document, as seen from the example of the basic word. You may further provide a basic word general-purpose degree calculation part. In this case, the ambiguous point extraction unit is set when classifying peripheral word groups into mainstream clusters and non-mainstream clusters for each word set group having the same basic word in the document based on the generality of the basic word. A threshold value to be calculated may be calculated, and an extraction criterion based on this threshold value may be used.
上記要求文書分析システムにおいて、上記基軸単語汎用度算出部は、一般的な辞書における語彙の種類数や例文の数、書籍やWebなどに存在する一般的な文書群における出現頻度、およびこれらのいずれか一つもしくは組み合わせで算出される汎用度を用いてよい。この場合、上記曖昧ポイント抽出部は、周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を、基軸単語の汎用性と、適正なクラスタ間距離の実績とに基づく回帰式から算出することが好ましい。 In the required document analysis system, the basic word versatility calculating unit includes the number of vocabulary types and the number of example sentences in a general dictionary, the appearance frequency in a general document group existing in a book, the Web, and any of these. The general degree calculated by one or a combination may be used. In this case, the ambiguous point extraction unit uses a regression equation based on the versatility of the basic word and the actual results of the distance between the clusters as the threshold to be set when the peripheral word group is classified into the mainstream cluster and the non-mainstream cluster. It is preferable to calculate from
上記要求文書分析システムにおいて、上記基軸単語抽出部は、係る語や主語を基軸単語、係られる語や述語、主語と述語を繋ぐ助詞などを周辺単語とする基軸設定ルールに基づき、基軸単語および周辺単語を抽出してよい。上記単語セット抽出部は、係り受け関係にある単語の組み合わせを単語セットとして抽出してよい。上記単語類似性データベースは、単語の上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけたシソーラスであってよい。上記単語類似性算出部は、一般的なWebや文書内の文中で各周辺単語と共起する共起語の種類と数を抽出し、周辺単語間の共起語の重複率を類似性の指標として利用してよい。上記曖昧ポイント抽出部は、周辺単語の帰属数が最大のクラスタとクラスタ間の距離が最も遠いもしくは任意の閾値より遠いクラスタを抽出してよい。 In the required document analysis system, the basic word extraction unit is configured to determine the basic word and the peripheral based on a basic setting rule in which the related word or subject is the basic word, the word or predicate involved, the particle that connects the subject and the predicate, or the like. Words may be extracted. The word set extraction unit may extract a combination of words having a dependency relationship as a word set. The word similarity database may be a thesaurus in which words are classified and organized according to the upper / lower relationship, partial / whole relationship, synonym relationship, synonym relationship, and the like. The word similarity calculation unit extracts the types and number of co-occurrence words that co-occur with each neighboring word in a sentence on a general Web or document, and calculates the overlapping rate of the co-occurrence words between the neighboring words. It may be used as an indicator. The ambiguous point extraction unit may extract a cluster having the largest number of neighboring words and a cluster having the longest distance between the clusters or farther than an arbitrary threshold.
上記要求文書分析システムにおいて、上記曖昧ポイント出力部は、周辺単語のクラスタを代表するキーワードを代表ノードとしてリンクで結び、さらにクラスタに含まれた各周辺単語を従属ノードとして代表ノードと結んだグラフを表示し、前記曖昧ポイントとされたクラスタ以下の周辺単語とリンクを色分けしてよい。その代わりに、上記曖昧ポイント出力部は、非主流クラスタを抽出する際に用いた周辺単語の帰属数やそこから導かれる帰属率、もしくはクラスタ間距離などで曖昧ポイントに定量的な曖昧度を付加し、曖昧度が任意に設定された閾値より大きい曖昧ポイントのみに表示を限定する、もしくは曖昧ポイントの曖昧度によって色分けや太字による強調もしくはグラフの単語の文字の大きさなどに強弱を与えてよい。 In the requested document analysis system, the ambiguous point output unit connects a keyword representing a cluster of neighboring words with a link as a representative node, and further connects each neighboring word included in the cluster with a representative node as a subordinate node. The surrounding words and links below the cluster displayed as the ambiguous point may be color-coded. Instead, the ambiguous point output unit adds quantitative ambiguity to the ambiguous points based on the number of surrounding words used when extracting non-mainstream clusters, the attribution rate derived from them, or the distance between clusters. However, the display may be limited to only the ambiguous points whose ambiguity is larger than the arbitrarily set threshold, or depending on the ambiguity of the ambiguous points, color coding, bold emphasis, or the size of the words of the graph may be given strength .
本発明の第2の態様による要求文書分析方法は、要求文書を分析する方法であって、対象とする文書の各文に形態素解析および構文解析を適用し、所定の抽出ルールに基づき、単語セットを抽出する単語セット抽出ステップと;単語セット毎に、所定の基軸設定ルールに基づき、単語セットに含まれる各単語から基軸単語を抽出し、単語セットを基軸単語とそれ以外の単語である周辺単語とに分類する基軸単語抽出ステップと;単語の意味的分類および同義語、類義語などの意味的情報を蓄積する単語類似性データベースに、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する意味情報を検索させ応答させるステップと;全単語セットから、同一の基軸単語を持つ単語セット群をまとめ、単語セット群の各周辺単語のそれぞれに対して、上記単語類似性データベースに意味情報を問い合わせ、応答された意味情報に基づき、単語間の類似性を算出する単語類似性算出ステップと;文書内で同一の基軸単語を持つ単語セット群毎に、周辺単語間の類似性に基づき周辺単語のクラスタリングを実施し、周辺単語を分類する単語分類ステップと;この単語分類ステップで実施した分類結果から、文書内で同一の基軸単語を持つ単語セット群毎に、抽出基準によって単語の用法として主流でないクラスタを非主流クラスタとして抽出し、非主流クラスタに属する周辺単語と基軸単語の組み合わせを係り受けミスなどの可能性が想定される曖昧ポイントとして抽出する曖昧ポイント抽出ステップと;この曖昧ポイント抽出ステップで文書内の同一の基軸単語を持つ単語セット群毎に抽出した曖昧ポイントを出力する曖昧ポイント出力ステップと;を含む。 A request document analysis method according to a second aspect of the present invention is a method for analyzing a request document, wherein morpheme analysis and syntax analysis are applied to each sentence of a target document, and a word set is based on a predetermined extraction rule. A word set extraction step for extracting the word set; for each word set, based on a predetermined basic axis setting rule, a basic word is extracted from each word included in the word set, and the word set is a basic word and other words that are other words A word extraction step that classifies the words into a word similarity database that accumulates semantic classification of words and semantic information such as synonyms and synonyms, and is related to the meaning and usage of words for inquiries about specific words Searching for semantic information and responding; collecting word sets having the same basic word from all word sets, and collecting each of the surrounding words of the word set A word similarity calculation step of querying the word similarity database for semantic information and calculating similarity between words based on the returned semantic information; a set of words having the same basic word in the document For each word, a word classification step of classifying the peripheral words based on the similarity between the peripheral words and classifying the peripheral words; a word having the same base word in the document from the classification result performed in this word classification step For each set group, a non-mainstream cluster is extracted as a non-mainstream cluster as a word usage according to the extraction criteria, and a combination of a peripheral word and a base word belonging to the non-mainstream cluster is assumed as an ambiguous point that may be a misunderstanding point. A fuzzy point extraction step to extract; a word set having the same basic word in the document in this fuzzy point extraction step Including; a fuzzy point output step of outputting the ambiguous points extracted for each.
上記本発明の第2の態様による要求文書分析方法は、上記基軸単語抽出ステップで抽出された基軸単語について、一般文書での使用頻度など基軸単語の用例からみた汎用性を表す汎用度を算出する基軸単語汎用度算出ステップを更に含んでよい。この場合、上記曖昧ポイント抽出ステップは、文書内で同一の基軸単語を持つ単語セット群毎に、基軸単語の汎用度に基づき、周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を算出し、この閾値に基づく抽出基準を用いてよい。 In the request document analysis method according to the second aspect of the present invention, the versatility indicating the versatility of the basic word extracted in the basic word extraction step, such as the frequency of use in a general document, as seen from the example of the basic word is calculated. A basic word versatility calculation step may be further included. In this case, the ambiguous point extraction step is set when classifying the peripheral word group into the mainstream cluster and the non-mainstream cluster based on the versatility of the base word for each word set group having the same base word in the document. A threshold value to be calculated may be calculated, and an extraction criterion based on this threshold value may be used.
上記要求文書分析方法において、上記基軸単語汎用度算出ステップは、一般的な辞書における語彙の種類数や例文の数、書籍やWebなどに存在する一般的な文書群における出現頻度、およびこれらのいずれか一つもしくは組み合わせで算出される汎用度を用いてよい。この場合、上記曖昧ポイント抽出ステップは、周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を、基軸単語の汎用性と、適正なクラスタ間距離の実績とに基づく回帰式から算出することが好ましい。 In the required document analysis method, the basic word versatility calculation step includes the number of types of vocabulary and the number of example sentences in a general dictionary, the appearance frequency in a general document group existing in a book or the Web, and any of these The general degree calculated by one or a combination may be used. In this case, the ambiguous point extraction step uses a regression equation based on the versatility of the basic word and the actual results of the distance between the clusters, as the threshold value set when classifying the peripheral word group into the mainstream cluster and the non-mainstream cluster. It is preferable to calculate from
上記要求文書分析方法において、上記基軸単語抽出ステップは、係る語や主語を基軸単語、係られる語や述語、主語と述語を繋ぐ助詞などを周辺単語とする前記基軸設定ルールに基づき、基軸単語および周辺単語を抽出してよい。上記単語セット抽出ステップは、係り受け関係にある単語の組み合わせを単語セットとして抽出してよい。上記単語類似性データベースは、単語の上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけたシソーラスであってよい。上記単語類似性算出ステップは、一般的なWebや文書内の文中で各周辺単語と共起する共起語の種類と数を抽出し、周辺単語間の共起語の重複率を類似性の指標として利用してよい。上記曖昧ポイント抽出ステップは、周辺単語の帰属数が最大のクラスタとクラスタ間の距離が最も遠いもしくは任意の閾値より遠いクラスタを抽出してよい。 In the required document analysis method, the basic word extraction step includes the basic word and the subject based on the basic setting rule in which the related word or subject is a basic word, the related word or predicate, the particle that connects the subject and the predicate, and the like. Peripheral words may be extracted. In the word set extraction step, a combination of words having a dependency relationship may be extracted as a word set. The word similarity database may be a thesaurus in which words are classified and organized according to the upper / lower relationship, partial / whole relationship, synonym relationship, synonym relationship, and the like. The word similarity calculation step extracts the types and number of co-occurrence words that co-occur with each neighboring word in a sentence on a general Web or document, and calculates the overlapping rate of the co-occurrence words between the neighboring words. It may be used as an indicator. The fuzzy point extracting step may extract a cluster having the largest number of neighboring words and a cluster having the longest distance between the clusters or farther than an arbitrary threshold.
上記要求文書分析方法において、上記曖昧ポイント出力ステップは、周辺単語のクラスタを代表するキーワードを代表ノードとしてリンクで結び、さらにクラスタに含まれた各周辺単語を従属ノードとして代表ノードと結んだグラフを表示し、前記曖昧ポイントとされたクラスタ以下の周辺単語とリンクを色分けしてよい。その代わりに、上記曖昧ポイント出力ステップは、非主流クラスタを抽出する際に用いた周辺単語の帰属数やそこから導かれる帰属率、もしくはクラスタ間距離などで曖昧ポイントに定量的な曖昧度を付加し、曖昧度が任意に設定された閾値より大きい曖昧ポイントのみに表示を限定する、もしくは曖昧ポイントの曖昧度によって色分けや太字による強調もしくはグラフの単語の文字の大きさなどに強弱を与えてよい。 In the requested document analysis method, the ambiguous point output step includes a graph in which a keyword representing a cluster of neighboring words is linked with a representative node as a representative node, and each neighboring word included in the cluster is linked with a representative node as a dependent node. The surrounding words and links below the cluster displayed as the ambiguous point may be color-coded. Instead, the ambiguity point output step adds quantitative ambiguity to the ambiguity point based on the number of surrounding words used to extract the non-mainstream cluster, the affiliation rate derived from it, or the distance between clusters. However, the display may be limited to only the ambiguous points whose ambiguity is larger than the arbitrarily set threshold, or depending on the ambiguity of the ambiguous points, color coding, bold emphasis, or the size of the words of the graph may be given strength .
上記本発明の第3の態様による要求文書分析プログラムは、コンピュータに要求文書を分析せる要求文書分析プログラムであって、上記コンピュータに、対象とする文書の各文に形態素解析および構文解析を適用し、所定の抽出ルールに基づき、単語セットを抽出する単語セット抽出手順と;単語セット毎に、所定の基軸設定ルールに基づき、単語セットに含まれる各単語から基軸単語を抽出し、単語セットを基軸単語とそれ以外の単語である周辺単語とに分類する基軸単語抽出手順と;単語の意味的分類および同義語、類義語などの意味的情報を蓄積する単語類似性データベースに、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する意味情報を検索させ応答させる手順と;全単語セットから、同一の基軸単語を持つ単語セット群をまとめ、単語セット群の各周辺単語のそれぞれに対して、上記単語類似性データベースに意味情報を問い合わせ、応答された意味情報に基づき、単語間の類似性を算出する単語類似性算出手順と;文書内で同一の基軸単語を持つ単語セット群毎に、周辺単語間の類似性に基づき周辺単語のクラスタリングを実施し、周辺単語を分類する単語分類手順と;この単語分類ステップで実施した分類結果から、文書内で同一の基軸単語を持つ単語セット群毎に、抽出基準によって単語の用法として主流でないクラスタを非主流クラスタとして抽出し、非主流クラスタに属する周辺単語と基軸単語の組み合わせを係り受けミスなどの可能性が想定される曖昧ポイントとして抽出する曖昧ポイント抽出手順と;この曖昧ポイント抽出ステップで文書内の同一の基軸単語を持つ単語セット群毎に抽出した曖昧ポイントを出力する曖昧ポイント出力手順と;を実行させる。 The requirement document analysis program according to the third aspect of the present invention is a requirement document analysis program that causes a computer to analyze a requirement document, and applies morphological analysis and syntax analysis to each sentence of the target document to the computer. A word set extraction procedure for extracting a word set based on a predetermined extraction rule; for each word set, a basic word is extracted from each word included in the word set based on a predetermined basic setting rule; Base word extraction procedure for classifying words into other words and neighboring words; word semantic database that stores semantic classification of words and semantic information such as synonyms and synonyms; On the other hand, a procedure for retrieving and responding to semantic information related to the meaning and usage of a word; a word having the same basic word from all word sets Word similarity calculation that collects word groups, queries the word similarity database for semantic information for each peripheral word in the word set group, and calculates similarity between words based on the responded semantic information Procedure: A word classification procedure for classifying neighboring words by clustering neighboring words based on the similarity between neighboring words for each word set group having the same basic word in the document; implemented in this word classification step From the classification results, for each word set group that has the same basic word in the document, non-mainstream clusters are extracted as non-mainstream clusters as word usage according to the extraction criteria, and combinations of peripheral words and basic words belonging to non-mainstream clusters A fuzzy point extraction procedure for extracting fuzzy points as possible fuzzy points that are likely to have a dependency error; A fuzzy point output procedure to output the ambiguous points extracted for each word set group with the same base shaft words in writing; to execution.
上記本発明の第3の態様による要求文書分析プログラムは、上記コンピュータに、上記基軸単語抽出手順で抽出された基軸単語について、一般文書での使用頻度など基軸単語の用例からみた汎用性を表す汎用度を算出する基軸単語汎用度算出手順を更に実行させてよい。この場合、上記曖昧ポイント抽出手順は、文書内で同一の基軸単語を持つ単語セット群毎に、基軸単語の汎用度に基づき、周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を算出し、この閾値に基づく抽出基準を用いてよい。 The requested document analysis program according to the third aspect of the present invention is a general-purpose computer that represents the versatility of the basic word extracted in the basic word extraction procedure in terms of the use of the basic word such as the frequency of use in a general document. The basic word general-purpose degree calculation procedure for calculating the degree may be further executed. In this case, the ambiguous point extraction procedure is set when classifying peripheral word groups into mainstream clusters and non-mainstream clusters based on the generality of the base word for each word set group having the same base word in the document. A threshold value to be calculated may be calculated, and an extraction criterion based on this threshold value may be used.
上記要求文書分析プログラムにおいて、上記基軸単語汎用度算出手順は、一般的な辞書における語彙の種類数や例文の数、書籍やWebなどに存在する一般的な文書群における出現頻度、およびこれらのいずれか一つもしくは組み合わせで算出される汎用度を用いてよい。この場合、上記曖昧ポイント抽出手順は、周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を、基軸単語の汎用性と、適正なクラスタ間距離の実績とに基づく回帰式から算出することが好ましい。 In the required document analysis program, the basic word versatility calculation procedure includes the number of types of vocabulary and the number of example sentences in a general dictionary, the appearance frequency in a general document group existing in a book or the Web, and any of these. The general degree calculated by one or a combination may be used. In this case, the ambiguous point extraction procedure uses a regression formula based on the versatility of the basic word and the actual results of the distance between the clusters as the threshold value set when classifying the peripheral word group into the mainstream cluster and the non-mainstream cluster. It is preferable to calculate from
上記要求文書分析プログラムにおいて、上記基軸単語抽出手順は、係る語や主語を基軸単語、係られる語や述語、主語と述語を繋ぐ助詞などを周辺単語とする前記基軸設定ルールに基づき、基軸単語および周辺単語を抽出してよい。上記単語セット抽出手順は、係り受け関係にある単語の組み合わせを単語セットとして抽出してよい。上記単語類似性データベースは、単語の上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけたシソーラスであってよい。上記単語類似性算出手順は、一般的なWebや文書内の文中で各周辺単語と共起する共起語の種類と数を抽出し、周辺単語間の共起語の重複率を類似性の指標として利用してよい。上記曖昧ポイント抽出手順は、周辺単語の帰属数が最大のクラスタとクラスタ間の距離が最も遠いもしくは任意の閾値より遠いクラスタを抽出してよい。 In the requirement document analysis program, the basic word extraction procedure is based on the basic word setting rule in which the word or subject is the basic word, the word or predicate to be engaged, the particle connecting the subject and the predicate, and the like as the peripheral word. Peripheral words may be extracted. In the word set extraction procedure, a combination of words having a dependency relationship may be extracted as a word set. The word similarity database may be a thesaurus in which words are classified and organized according to the upper / lower relationship, partial / whole relationship, synonym relationship, synonym relationship, and the like. The above word similarity calculation procedure extracts the types and number of co-occurrence words that co-occur with each neighboring word in a sentence on a general Web or document, and calculates the overlapping rate of co-occurrence words between neighboring words. It may be used as an indicator. The ambiguous point extraction procedure may extract a cluster having the largest number of neighboring words and a cluster having the longest distance between the clusters or farther than an arbitrary threshold.
上記要求文書分析プログラムにおいて、上記曖昧ポイント出力手順は、周辺単語のクラスタを代表するキーワードを代表ノードとしてリンクで結び、さらにクラスタに含まれた各周辺単語を従属ノードとして代表ノードと結んだグラフを表示し、曖昧ポイントとされたクラスタ以下の周辺単語とリンクを色分けしてよい。その代わりに、上記曖昧ポイント出力手順は、非主流クラスタを抽出する際に用いた周辺単語の帰属数やそこから導かれる帰属率、もしくはクラスタ間距離などで曖昧ポイントに定量的な曖昧度を付加し、曖昧度が任意に設定された閾値より大きい曖昧ポイントのみに表示を限定する、もしくは曖昧ポイントの曖昧度によって色分けや太字による強調もしくはグラフの単語の文字の大きさなどに強弱を与えてよい。 In the requested document analysis program, the ambiguous point output procedure includes a graph in which keywords representing a cluster of neighboring words are linked by a representative node, and each neighboring word included in the cluster is linked to a representative node as a subordinate node. Peripheral words and links below the cluster displayed as ambiguous points may be color-coded. Instead, the above ambiguous point output procedure adds quantitative ambiguity to the ambiguous point based on the number of neighboring words used to extract the non-mainstream cluster, the attribution rate derived from it, or the distance between clusters. However, the display may be limited to only the ambiguous points whose ambiguity is larger than the arbitrarily set threshold, or depending on the ambiguity of the ambiguous points, color coding, bold emphasis, or the size of the words of the graph may be given strength .
以上、実施形態(及び実施例)を参照して本発明を説明したが、本発明は上記実施形態(及び実施例)に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。 The present invention has been described above with reference to the embodiments (and examples), but the present invention is not limited to the above embodiments (and examples). Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention.
本発明によれば、ソフトウェアやシステムの開発における要件定義などの作業においてやり取りされる各種文書に関して、文書の曖昧さを除外することで文書の理解・作成・修正を支援することが可能になり、手戻りの減少や顧客満足の向上などシステム開発の効率化に関する用途に適用できる。 According to the present invention, it is possible to support understanding, creation, and correction of documents by excluding ambiguity of documents for various documents exchanged in work such as requirement definition in software and system development. It can be applied to applications related to streamlining system development, such as reducing rework and improving customer satisfaction.
10 単語セット抽出部
20 基軸単語抽出部
25 基軸単語汎用度算出部
30 単語類似性算出部
40 単語分類部
50、50A 曖昧ポイント抽出部
60 曖昧ポイント出力部
100、100A 要求文書分析システム
110 単語類似性データベース
D 要求文書
A 曖昧ポイント
Y、Ya 要求文書解析システム
Z インターネット・サーバ
DESCRIPTION OF
Claims (30)
対象とする文書の各文に形態素解析および構文解析を適用し、所定の抽出ルールに基づき、単語セットを抽出する単語セット抽出部と、
前記単語セット毎に、所定の基軸設定ルールに基づき、前記単語セットに含まれる各単語から基軸単語を抽出し、前記単語セットを基軸単語とそれ以外の単語である周辺単語とに分類する基軸単語抽出部と、
単語の意味的分類および同義語、類義語などの意味的情報を蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する意味情報を検索し応答する単語類似性データベースと、
全単語セットから、同一の基軸単語を持つ単語セット群をまとめ、前記単語セット群の各周辺単語のそれぞれに対して、前記単語類似性データベースに意味情報を問い合わせ、応答された意味情報に基づき、単語間の類似性を算出する単語類似性算出部と、
文書内で同一の基軸単語を持つ単語セット群毎に、周辺単語間の類似性に基づき周辺単語のクラスタリングを実施し、周辺単語を分類する単語分類部と、
前記単語分類部で実施した分類結果から、文書内で同一の基軸単語を持つ単語セット群毎に、抽出基準によって単語の用法として主流でないクラスタを非主流クラスタとして抽出し、非主流クラスタに属する周辺単語と基軸単語の組み合わせを係り受けミスなどの可能性が想定される曖昧ポイントとして抽出する曖昧ポイント抽出部と、
前記曖昧ポイント抽出部で文書内の同一の基軸単語を持つ単語セット群毎に抽出した曖昧ポイントを出力する曖昧ポイント出力部と、
を備えたことを特徴とする要求文書分析システム。 A system for analyzing requirements documents,
A word set extraction unit that applies morphological analysis and syntax analysis to each sentence of a target document and extracts a word set based on a predetermined extraction rule;
A base word that extracts a base word from each word included in the word set and classifies the word set into a base word and peripheral words that are other words based on a predetermined base setting rule for each word set An extractor;
A word similarity database that accumulates semantic information of words, synonyms, synonyms, etc., retrieves and responds to inquiries about specific words, and retrieves semantic information related to the meaning and usage of words;
Summarizing word sets having the same basic word from all word sets, inquiring semantic information from the word similarity database for each of the surrounding words of the word set group, based on the responded semantic information, A word similarity calculator for calculating similarity between words;
For each word set group having the same basic word in the document, a word classification unit that performs clustering of the peripheral words based on the similarity between the peripheral words and classifies the peripheral words,
For each word set group having the same basic word in the document, a non-mainstream cluster is extracted as a non-mainstream cluster as a word usage according to the extraction criteria from the classification result performed in the word classification unit, and the peripherals belonging to the non-mainstream cluster An ambiguous point extraction unit that extracts a combination of a word and a basic word as an ambiguous point that is assumed to have a possibility of a mistake, etc .;
An ambiguous point output unit that outputs an ambiguous point extracted for each word set group having the same basic word in the document in the ambiguous point extracting unit;
A requirement document analysis system characterized by comprising:
前記曖昧ポイント抽出部が、文書内で同一の基軸単語を持つ単語セット群毎に、基軸単語の汎用度に基づき、周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を算出し、この閾値に基づく抽出基準を用いる、ことを特徴とする請求項1に記載の要求文書分析システム。 For the base word extracted by the base word extraction unit, the base word general degree calculation unit further calculates a general degree representing generality as seen from the use example of the base word such as the frequency of use in a general document,
For each word set group having the same basic word in the document, the ambiguous point extracting unit sets a threshold value to be set when classifying the peripheral word group into the mainstream cluster and the non-mainstream cluster based on the generality of the basic word. The request document analysis system according to claim 1, wherein an extraction criterion based on the threshold is calculated and used.
前記曖昧ポイント抽出部が、周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を、基軸単語の汎用性と、適正なクラスタ間距離の実績とに基づく回帰式から算出する、ことを特徴とする請求項2に記載の要求文書分析システム。 The basic word general-purpose degree calculation unit calculates the number of vocabulary types and the number of example sentences in a general dictionary, the appearance frequency in a general document group existing in a book or the Web, and any one or a combination thereof. Use the versatility to be
The ambiguous point extraction unit calculates a threshold value that is set when the neighboring word group is classified into the mainstream cluster and the non-mainstream cluster from a regression equation based on the versatility of the basic word and the actual results of the distance between the clusters. The requirement document analysis system according to claim 2, wherein:
対象とする文書の各文に形態素解析および構文解析を適用し、所定の抽出ルールに基づき、単語セットを抽出する単語セット抽出ステップと、
前記単語セット毎に、所定の基軸設定ルールに基づき、前記単語セットに含まれる各単語から基軸単語を抽出し、前記単語セットを基軸単語とそれ以外の単語である周辺単語とに分類する基軸単語抽出ステップと、
単語の意味的分類および同義語、類義語などの意味的情報を蓄積する単語類似性データベースに、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する意味情報を検索させ応答させるステップと、
全単語セットから、同一の基軸単語を持つ単語セット群をまとめ、前記単語セット群の各周辺単語のそれぞれに対して、前記単語類似性データベースに意味情報を問い合わせ、応答された意味情報に基づき、単語間の類似性を算出する単語類似性算出ステップと、
文書内で同一の基軸単語を持つ単語セット群毎に、周辺単語間の類似性に基づき周辺単語のクラスタリングを実施し、周辺単語を分類する単語分類ステップと、
前記単語分類ステップで実施した分類結果から、文書内で同一の基軸単語を持つ単語セット群毎に、抽出基準によって単語の用法として主流でないクラスタを非主流クラスタとして抽出し、非主流クラスタに属する周辺単語と基軸単語の組み合わせを係り受けミスなどの可能性が想定される曖昧ポイントとして抽出する曖昧ポイント抽出ステップと、
前記曖昧ポイント抽出ステップで文書内の同一の基軸単語を持つ単語セット群毎に抽出した曖昧ポイントを出力する曖昧ポイント出力ステップと、
を含むことを特徴とする要求文書分析方法。 A method for analyzing a requirements document, comprising:
A word set extraction step of applying morphological analysis and syntax analysis to each sentence of a target document and extracting a word set based on a predetermined extraction rule;
A base word that extracts a base word from each word included in the word set and classifies the word set into a base word and peripheral words that are other words based on a predetermined base setting rule for each word set An extraction step;
Searching and responding to semantic information related to the meaning and usage of a word in response to an inquiry about a specific word in a word similarity database that accumulates semantic information such as semantic classification and synonyms and synonyms of the word; and
Summarizing word sets having the same basic word from all word sets, inquiring semantic information from the word similarity database for each of the surrounding words of the word set group, based on the responded semantic information, A word similarity calculation step for calculating similarity between words;
For each word set group having the same basic word in the document, a word classification step for classifying the peripheral words by performing clustering of the peripheral words based on the similarity between the peripheral words,
From the classification result performed in the word classification step, for each word set group having the same basic word in the document, a non-mainstream cluster is extracted as a non-mainstream cluster as a word usage according to the extraction criterion, and the surroundings belonging to the non-mainstream cluster An ambiguous point extraction step of extracting a combination of a word and a basic word as an ambiguous point that is assumed to be a possibility of a mistake, etc .;
An ambiguous point output step for outputting the ambiguous point extracted for each word set group having the same basic word in the document in the ambiguous point extracting step;
A requirement document analysis method comprising:
前記曖昧ポイント抽出ステップが、文書内で同一の基軸単語を持つ単語セット群毎に、基軸単語の汎用度に基づき、周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を算出し、この閾値に基づく抽出基準を用いる、ことを特徴とする請求項11に記載の要求文書分析方法。 For the base word extracted in the base word extraction step, it further includes a base word versatility calculation step for calculating a general degree representing versatility from the viewpoint of examples of the base word such as frequency of use in general documents,
The threshold value set when the fuzzy point extraction step classifies peripheral word groups into mainstream clusters and non-mainstream clusters based on the generality of the base word for each word set group having the same base word in the document. 12. The request document analysis method according to claim 11, wherein an extraction criterion based on the threshold is calculated and used.
前記曖昧ポイント抽出ステップが、周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を、基軸単語の汎用性と、適正なクラスタ間距離の実績とに基づく回帰式から算出する、ことを特徴とする請求項12に記載の要求文書分析方法。 The basic word versatility calculation step calculates the number of types of vocabulary and the number of example sentences in a general dictionary, the appearance frequency in a general document group existing in a book or the Web, and any one or a combination thereof. Use the versatility to be
The fuzzy point extracting step calculates a threshold value set when classifying the peripheral word group into the mainstream cluster and the non-mainstream cluster from a regression equation based on the versatility of the basic word and the actual results of the distance between the clusters. The request document analysis method according to claim 12, wherein:
対象とする文書の各文に形態素解析および構文解析を適用し、所定の抽出ルールに基づき、単語セットを抽出する単語セット抽出手順と、
前記単語セット毎に、所定の基軸設定ルールに基づき、前記単語セットに含まれる各単語から基軸単語を抽出し、前記単語セットを基軸単語とそれ以外の単語である周辺単語とに分類する基軸単語抽出手順と、
単語の意味的分類および同義語、類義語などの意味的情報を蓄積する単語類似性データベースに、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する意味情報を検索させ応答させる手順と、
全単語セットから、同一の基軸単語を持つ単語セット群をまとめ、前記単語セット群の各周辺単語のそれぞれに対して、前記単語類似性データベースに意味情報を問い合わせ、応答された意味情報に基づき、単語間の類似性を算出する単語類似性算出手順と、
文書内で同一の基軸単語を持つ単語セット群毎に、周辺単語間の類似性に基づき周辺単語のクラスタリングを実施し、周辺単語を分類する単語分類手順と、
前記単語分類ステップで実施した分類結果から、文書内で同一の基軸単語を持つ単語セット群毎に、抽出基準によって単語の用法として主流でないクラスタを非主流クラスタとして抽出し、非主流クラスタに属する周辺単語と基軸単語の組み合わせを係り受けミスなどの可能性が想定される曖昧ポイントとして抽出する曖昧ポイント抽出手順と、
前記曖昧ポイント抽出ステップで文書内の同一の基軸単語を持つ単語セット群毎に抽出した曖昧ポイントを出力する曖昧ポイント出力手順と、
を実行させる要求文書分析プログラム。 A request document analysis program for causing a computer to analyze a request document, wherein the computer
A word set extraction procedure that applies morphological analysis and syntax analysis to each sentence of a target document and extracts a word set based on a predetermined extraction rule;
A base word that extracts a base word from each word included in the word set and classifies the word set into a base word and peripheral words that are other words based on a predetermined base setting rule for each word set Extraction procedure;
A procedure for retrieving and responding to semantic information related to the meaning and usage of a word in a query related to a specific word in a word similarity database that accumulates semantic information such as semantic classification and synonyms and synonyms of the word,
Summarizing word sets having the same basic word from all word sets, inquiring semantic information from the word similarity database for each of the surrounding words of the word set group, based on the responded semantic information, A word similarity calculation procedure for calculating similarity between words;
For each word set group having the same basic word in the document, a word classification procedure for performing clustering of the peripheral words based on the similarity between the peripheral words and classifying the peripheral words,
From the classification result performed in the word classification step, for each word set group having the same basic word in the document, a non-mainstream cluster is extracted as a non-mainstream cluster as a word usage according to the extraction criterion, and the surroundings belonging to the non-mainstream cluster An ambiguous point extraction procedure that extracts a combination of a word and a basic word as an ambiguous point that is assumed to be a possibility of a mistake, etc.,
An ambiguous point output procedure for outputting the ambiguous point extracted for each word set group having the same basic word in the document in the ambiguous point extracting step;
Request document analysis program to execute.
前記曖昧ポイント抽出手順が、文書内で同一の基軸単語を持つ単語セット群毎に、基軸単語の汎用度に基づき、周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を算出し、この閾値に基づく抽出基準を用いる、ことを特徴とする請求項21に記載の要求文書分析プログラム。 Causing the computer to further execute a baseline word versatility calculation procedure for calculating a versatility representing versatility from a viewpoint word example, such as a use frequency in a general document, with respect to a baseline word extracted in the baseline word extraction procedure;
For the word set group having the same basic word in the document, the fuzzy point extracting procedure sets a threshold value to be set when classifying the peripheral word group into the mainstream cluster and the non-mainstream cluster based on the generality of the basic word. The requirement document analysis program according to claim 21, wherein an extraction criterion based on the threshold is calculated and used.
前記曖昧ポイント抽出手順が、周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を、基軸単語の汎用性と、適正なクラスタ間距離の実績とに基づく回帰式から算出する、ことを特徴とする請求項22に記載の要求文書分析プログラム。 The basic word versatility calculation procedure is calculated based on the number of types of vocabulary and the number of example sentences in a general dictionary, the appearance frequency in a general document group existing in a book or the Web, and any one or a combination thereof. Use the versatility to be
The fuzzy point extraction procedure calculates a threshold value that is set when the neighboring word group is classified into the mainstream cluster and the non-mainstream cluster from a regression equation based on the versatility of the basic word and the actual distance between the clusters. The request document analysis program according to claim 22, wherein:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011101394A JP5740743B2 (en) | 2011-04-28 | 2011-04-28 | Requirements document analysis system, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011101394A JP5740743B2 (en) | 2011-04-28 | 2011-04-28 | Requirements document analysis system, method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012234282A true JP2012234282A (en) | 2012-11-29 |
JP5740743B2 JP5740743B2 (en) | 2015-07-01 |
Family
ID=47434564
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011101394A Active JP5740743B2 (en) | 2011-04-28 | 2011-04-28 | Requirements document analysis system, method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5740743B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101620841B1 (en) * | 2014-10-22 | 2016-05-23 | 고려대학교 산학협력단 | Patent Analysis Method using A Hierarchical Diagram of Technology based on Statistical Patent Analysis |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000132382A (en) * | 1998-10-26 | 2000-05-12 | Meidensha Corp | System for describing specification of software |
JP2006065366A (en) * | 2004-08-24 | 2006-03-09 | Nec Corp | Keyword classification device, its method, terminal device, and program |
JP2010152561A (en) * | 2008-12-24 | 2010-07-08 | Toshiba Corp | Similar expression extraction device, server unit, and program |
-
2011
- 2011-04-28 JP JP2011101394A patent/JP5740743B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000132382A (en) * | 1998-10-26 | 2000-05-12 | Meidensha Corp | System for describing specification of software |
JP2006065366A (en) * | 2004-08-24 | 2006-03-09 | Nec Corp | Keyword classification device, its method, terminal device, and program |
JP2010152561A (en) * | 2008-12-24 | 2010-07-08 | Toshiba Corp | Similar expression extraction device, server unit, and program |
Non-Patent Citations (1)
Title |
---|
JPN6014045113; 増山毅司,関根聡: '大規模コーパスからのカタカナ語の表記の揺れリストの自動構築' online [検索日2014.10.20],インターネット, 200403, 言語処理学会 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101620841B1 (en) * | 2014-10-22 | 2016-05-23 | 고려대학교 산학협력단 | Patent Analysis Method using A Hierarchical Diagram of Technology based on Statistical Patent Analysis |
Also Published As
Publication number | Publication date |
---|---|
JP5740743B2 (en) | 2015-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111104794B (en) | Text similarity matching method based on subject term | |
US8024329B1 (en) | Using inverted indexes for contextual personalized information retrieval | |
US9280535B2 (en) | Natural language querying with cascaded conditional random fields | |
CN101872351B (en) | Method, device for identifying synonyms, and method and device for searching by using same | |
US20140280314A1 (en) | Dimensional Articulation and Cognium Organization for Information Retrieval Systems | |
CN102609512A (en) | System and method for heterogeneous information mining and visual analysis | |
JP6187877B2 (en) | Synonym extraction system, method and recording medium | |
JP5754019B2 (en) | Synonym extraction system, method and program | |
Höffner et al. | CubeQA—question answering on RDF data cubes | |
CN114254653A (en) | Scientific and technological project text semantic extraction and representation analysis method | |
CN105760462B (en) | Man-machine interaction method and device based on associated data inquiry | |
US20230205996A1 (en) | Automatic Synonyms Using Word Embedding and Word Similarity Models | |
JP5057474B2 (en) | Method and system for calculating competition index between objects | |
He et al. | Question answering over linked data using first-order logic | |
JPWO2014002775A1 (en) | Synonym extraction system, method and recording medium | |
Limsettho et al. | Comparing hierarchical dirichlet process with latent dirichlet allocation in bug report multiclass classification | |
Anoop et al. | A topic modeling guided approach for semantic knowledge discovery in e-commerce | |
Zanibbi et al. | Math search for the masses: Multimodal search interfaces and appearance-based retrieval | |
Sun | A natural language interface for querying graph databases | |
Rogushina | Use of Semantic Similarity Estimates for Unstructured Data Analysis. | |
CN110020436A (en) | A kind of microblog emotional analytic approach of ontology and the interdependent combination of syntax | |
JP5740743B2 (en) | Requirements document analysis system, method and program | |
CN110688559A (en) | Retrieval method and device | |
WO2021250950A1 (en) | Method, system, and device for evaluating performance of document search | |
Zhang et al. | Map search via a factor graph model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140407 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20140407 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141029 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141031 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141114 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150318 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150409 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5740743 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |