JP6108212B2

JP6108212B2 - 同義語抽出システム、方法およびプログラム

Info

Publication number: JP6108212B2
Application number: JP2013000436A
Authority: JP
Inventors: 智久五藤; 英司平尾; 古橋　武; 武古橋; 大弘吉川
Original assignee: Nagoya University NUC; NEC Corp; Tokai National Higher Education and Research System NUC
Current assignee: Nagoya University NUC; NEC Corp; Tokai National Higher Education and Research System NUC
Priority date: 2013-01-07
Filing date: 2013-01-07
Publication date: 2017-04-05
Anticipated expiration: 2033-01-07
Also published as: JP2014132406A

Description

本発明は、同義語抽出システム、方法およびプログラムに関し、特に、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、同義語を抽出する同義語抽出システム、方法およびプログラムに関する。

システムやソフトウェアを構築する際の上流工程では、顧客からの提案依頼書（ＲｅｑｕｅｓｔＦｏｒＰｒｏｐｏｓａｌ：ＲＦＰ）、顧客への提案書、顧客と合意すべき要件定義書、および基本仕様書、機能仕様書、詳細仕様書等の各種仕様書がある。

これらの開発文書は、下流工程で行うプログラム実装の設計書といえる。これらの上流工程の文書の誤りは下流のプログラムで拡散していく。拡散した全ての誤りを他のプログラムに影響を与えずに修正するためには、多大な工数が必要となる。この上流工程の開発文書中の誤りの一つとして同義語がある。なお、ここでの同義語とは、意義は同じで語形が異なっている語、換言すれば、発音や表記は異なるが、意味の同じである語をいう。

この同義語を検出する方法としては、プロジェクト全体を理解しているプロジェクトマネージャーによるインスペクション（レビュー）が有効であるが、人的リソースが限られている場合は、その運用は困難といえる。一方、この問題点を、ツールを用いて支援しようという開示技術が報告されている。

同義語抽出システムに関する関連技術の一例が、特許文献１に「類似表現抽出装置」として記載されている。この特許文献１に開示された類似表現抽出装置は、データ記憶部、単語グループ記憶部、シソーラス記憶部、文書入力部、単語グループ作成処理部、および、評価調整処理部から構成されている。このような構成の類似表現抽出装置は、入力された文書中の単語について、共起の頻度による単語類似度に基づく単語グループと、シソーラスでの距離などに基づく学習データグループとを作成する。そして、その学習データグループの個数と構成単語に、単語グループの個数および構成単語を一致するように単語グループの境界を調整し類似表現の各単語を出力する。すなわち、単語分類としてシソーラスとの整合と、共起類似性の程度とを考慮して、単語間の類似グループを調整するため、未知語の類似表現を抽出することが可能となる。

特開２０１０−１５２５６１号公報

このような先行技術は、類似表現を抽出する技術としては有効であると考えられるが、情報システム構築に関する提案書や仕様書等というような開発文書に適用した場合、誤検出（同義関係となっていない単語ペア）が高いランク（高い類似度）に多数出現してしまう。これは、類似度が高い方からある特定数（例えば上位１００位）を目視で確認した場合、その中に含まれる、同義関係となっている単語ペア（同義語）の抽出率が低いことを示している。

このようなことが起きる理由は、開発文書特有の記載内容にある。すなわち、開発文書では、一部の単語だけが置き換えられた定型表現（以降、「定型文」と呼ぶ）が繰り返し用いられている場合が多い。このような定型文を通常の共起類似性等を用いた同義語分析技術では、置き換え単語間の類似性が極端に高くなってしまい、相対的に正しい同義語の類似性が低く見積もられてしまうということが起きてしまう。

なお、従来の同義語を抽出する技術は、異なる文（文字列）と文の類似度をより正しく算出することを主眼としている。すなわち、意味的に類似する二つの文を類似と判定させて、その結果から同義関係の単語ペアを抽出している。

本発明の目的は、情報システム構築に関する提案書や仕様書等という開発文書から、特定の案件に関する文書群でのみ成り立つ同義語を効率的に抽出する、同義語抽出システム、方法およびプログラムを提供することにある。

本発明者らは、上記目的を達成するために、誤検出の原因となっている開発文書中の定型文を抽出し、その結果を同義語分析に反映させることで、判定精度の向上を図ることができることを見出した。なお、本発明は誤検出結果の抽出技術であり、同義語分析の方法はいずれの方法でも構わない。

より具体的には、本発明者らが更に、鋭意検討した結果、分析対象である文書の入力を受け付ける文書入力部と、各文および複合語に形態素解析および構文解析を適用し、各単語の品詞や係り受け関係を抽出する単語分析部と、共起関係等の類似性により同義語候補を抽出する同義語候補分析部と、各文が定型文か否かを判定する定型文分析部と、同義語候補分析部で得られた同義語候補から、定型文分析部にて定型文と判定された定型文中の非定型語を削除する同義候補補正部とその結果を表示する同義語候補出力部とを具備することを特徴とする同義語抽出システム２００にて、上述の目的を達成できることを見出した。

即ち、本発明の第１の態様によれば、文書を分析して、文書中の同義語を抽出する同義語抽出システムであって、分析対象である文書の入力を受け付ける文書入力部と、各文および複合語に形態素解析および構文解析を適用し、各単語の品詞や係り受け関係を抽出する単語分析部と、各文が定型文か否かを判定する定型文分析部と、同義関係を持つ単語ペア候補を同義語候補として推定する同義語候補推定部と、推定した同義語候補から定型文と判定された定型文中の非定型語を除外する同義語候補補正部と、同義語候補補正部の結果を表示する同義語候補出力部とを有することを特徴とする同義語抽出システムが得られる。

ここで、本発明の第１の態様において、更に、単語の品詞や構文などの情報を収集して蓄積する単語データベースを備え、前記単語データベースは、前記単語分析部からの特定の単語に関する問い合わせに対し、単語の品詞や構文に関連する情報を検索し応答することが好ましい。

また、本発明の第１の態様において、前記定型文分析部が、形態素列から成る各文の形態素編集距離分析部と、少なくとも得られた形態素編集距離と定型文判定閾値とを比較し、定型文判定閾値以下の文を定型文とする定型文判定部とを有することがより好ましい。

また、本発明の第２の態様によれば、文書を分析して、文書中の同義語を抽出する同義語抽出方法であって、分析対象である文書の入力を受け付ける文書入力段階と、各文および複合語に形態素解析および構文解析を適用し、各単語の品詞や係り受け関係を抽出する単語分析段階と、各文が定型文か否かを判定する定型文分析段階と、同義関係を持つ単語ペア候補を同義語候補として推定する同義語候補推定段階と、推定した同義語候補から定型文と判定された定型文中の非定型語を除外する同義語候補補正段階と、同義語候補補正部の結果を表示する同義語候補出力段階とを有することを特徴とする同義語抽出方法が得られる。

ここで、本発明の第２の態様において、更に、単語の品詞や構文などの情報を収集して蓄積する単語データベースを備え、前記単語データベースは、前記単語分析部からの特定の単語に関する問い合わせに対し、単語の品詞や構文に関連する情報を検索し応答することが好ましい。

さらに、本発明第２の態様において、前記定型文分析段階が、形態素列から成る各文の形態素編集距離分析段階と、少なくとも得られた形態素編集距離と定型文判定閾値とを比較し、定型文判定閾値以下の文を定型文とする定型文判定段階とを有することがより好ましい。

また、本発明の第３の態様によれば、コンピュータに、文書を分析して、文書中の同義語を抽出する同義語抽出システムとして機能させるプログラムであって、入力された分析対象である文書の各文および複合語に形態素解析および構文解析を適用し、各単語の品詞や係り受け関係を抽出する単語分析部と、各文が定型文か否かを判定する定型文分析部と、同義関係を持つ単語ペア候補を同義語候補として推定する同義語候補推定部と、推定した同義語候補から定型文と判定された定型文中の非定型語を除外する同義語候補補正部と、同義語候補補正部の結果を表示する同義語候補出力部として機能させることを特徴とする同義語抽出プログラムが得られる。

ここで、本発明の第３の態様において、更に、単語の品詞や構文などの情報を収集して蓄積する単語データベースを前記単語分析部からの特定の単語に関する問い合わせに対し、単語の品詞や構文に関連する情報を検索し応答するように機能させることが好ましい。

また、本発明の第３の態様において、前記定型文分析部が、形態素列から成る各文の形態素編集距離分析部と、少なくとも得られた形態素編集距離と定型文判定閾値とを比較し、定型文判定閾値以下の文を定型文とする定型文判定部とを有するように機能させることがより好ましい。

本発明によれば、情報システム構築における要件定義や仕様書策定において作成される各種文書において成り立つ同義語を抽出し、それを提示することが可能となる。

本発明の第１の実施の形態に係る同義語抽出システムの構成の一例を示すブロック図である。本発明の第１の実施の形態に係る同義語抽出システムの構成の第１の変形例を示すブロック図である。本発明の第１の実施の形態に係る同義語抽出システムの構成の第２の変形例を示すブロック図である。本発明の第１の実施の形態に係る同義語抽出システムの定型分析部の具体的構成を示すブロック図である。図１に示した同義語抽出システムの動作例を示すシーケンス図である。本発明の第２の実施の形態に係る同義語抽出システムの構成を示すブロック図である。本発明の実施例の結果の一例を示す図である。

次に、本発明に係るいくらかの実施の形態について、図面を参照して詳細に説明する。なお、本発明はこれらの実施の形態に限定されるものではない。

（第１の実施の形態）
図１は、本発明の第１の実施の形態に係る同義語抽出システム２００の構成の一例を示すブロック図である。図示の同義語抽出システム２００は、情報システム構築に関する提案書や仕様書等というような、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、同義語を抽出するのに特に有効な同義語抽出システムである。

図１を参照すると、本発明の第１の実施の形態に係る同義語抽出システム２００は、基本的に電子機器内もしくはサーバーと電子機器およびこれらを相互に接続するインターネット等の情報通信ネットワークからなるシステム内に、少なくとも、文書入力部１０、単語分析部２０、同義語候補分析部３０、定型文分析部４０、同義語候補補正部５０、同義語候補出力部６０、および単語データベース１００を含む。

ここで、文書入力部１０は、分析対象である文書の入力を受け付ける。

単語分析部２０は、文書もしくは文書群を構成する各文章および複合語に形態素解析や構文解析を適用し、各単語の品詞や係り受け関係を抽出する。

同義語候補分析部３０は、共起関係等の類似性により同義語候補を抽出する。

定型文分析部４０は、形態素編集距離等の利用により、定型文か否かを判定する。

同義語候補補正部５０は、同義語候補分析部３０で抽出された同義語候補から、定型文分析部４０で抽出された定型文中の非定型部分を除外する。

同義語候補出力部６０は、同義語候補補正部５０からの結果を表示する。即ち、同義語候補補正部５０にて補正された同義語候補を提示する。

単語データベース１００は、単語の品詞や構文などの情報を収集して蓄積し、単語分析部２０からの特定の単語に関する問い合わせに対し、単語の品詞や構文に関連する情報を検索し応答する、データベースである。この単語データベース１００としては、インターネット上のデータベースを使用することとしてもよい。

ここで、本発明による同義語抽出システム２００においては、定型文という意味的に全く違う二つの文を類似と判定させて、それらを除外するものであり、これは前述した特許文献１における構成も作用効果も全く異なるものである。

なお、本発明における定型文とは、例えば、次に（１）〜（３）の３つの文を示す。これらの文は、センターの名称が異なるだけで、それ以外は、全く同一である。
（１）Ａセンターの運用受託者と責任の範囲の切り分けを以下に示す。
（２）Ｂセンターの運用受託者と責任の範囲の切り分けを以下に示す。
（３）Ｃセンターの運用受託者と責任の範囲の切り分けを以下に示す。

ここで、本発明における、定型文と判定された定型文中の「非定型語」とは、定型文分析部４０にて定型文と判定された文の中で共通する文以外の語である。

上述の３つの定型文の例を用いて説明すると、「Ａセンター」、「Ｂセンター」、「Ｃセンター」が非定型語に該当する。この定型文では、「Ａセンター」、「Ｂセンター」、「Ｃセンター」を除いた残りの文は完全に一致している。しかし、「Ａセンター」、「Ｂセンター」、「Ｃセンター」は、明らかに異なるものであり、これらが同義語ではないことは明らかである。

図２及び図３は本発明の第１の実施の形態による同義語抽出システムの構成の第１及び第２の変形例を夫々示すブロック図である。図１の第１の実施の形態の一例では、同義語候補分析部３０と定型文分析部４０とが並列の構成であるが、図２および図３で示される第１及び第２の変形例のように、同義語候補分析部３０と定型文分析部４０とが直列の構成であっても構わない。すなわち、同義候候補補正部５０に、同義語候補分析部３０と定型文分析部４０における結果がこの順番に関係なく直列に導入されていれば、いずれの構成でも構わない。

第１の実施の形態に係る同義語抽出システム２００を電子デバイスで構成する場合には、同義語抽出システム２００を、プログラム制御により動作するコンピュータで実現することが可能である。

コンピュータは、周知のように、データを入力する入力装置と、データ処理装置と、データ処理装置での処理結果を出力する出力装置と、種々のデータベースとして働く補助記憶装置と、を具備するものである。

そして、そのデータ処理装置は、プログラムを記憶するリードオンリメモリ（ＲＯＭ）と、データを一時的に記憶するワークエリアとして使用されるランダムアクセスメモリ（ＲＡＭ）と、ＲＯＭに記憶されたプログラムに従いＲＡＭに記憶されているデータを処理する中央処理装置（ＣＰＵ）とを含んで構成される。

本発明の第１の実施の形態による同義語抽出システムを前述したようにコンピュータで実現する場合、入力装置が文書入力部１０として働き、データ処理装置が、単語分析部２０、同義語候補分析部３０、定型文分析部４０、同義候候補補正部５０として働き、補助記憶装置が単語データベース１００として動作し、出力装置が同義語候補出力部６０として働く。

次に、第１の実施の形態による同義語抽出システム２００を構成する各構成要素を更に、詳細に説明する。

文書入力部１０は、分析対象とする文書もしくは文書群の登録（入力）を受け付ける。

本発明の第１の実施の形態における文書あるいは文書群とは、自然言語で記載された特定の文書あるいは文書群を示し、その一つとして、情報システム構築の際に顧客から提出される提案依頼書（ＲＦＰ）やベンダーが顧客に提出する提案書や要件定義書、さらには、基本設計書、機能設計書、テスト仕様書等があるが、これに限定されるものではない。

単語分析部２０は、文書もしくは文書群を構成する各文章に形態素解析や構文解析を適用することで、各文章に使用されている全単語の抽出および単語毎の品詞や格、組み合される助詞、単語間の係り受け関係に関する単語情報の抽出を行う。ここで、単語は名詞、動詞、形容詞など単独で意味をなす自立語に限定しても良い。上記単語情報には必要に応じて単語間の係り受け関係などを含めても良い。具体的には、単語分析部２０は単語データベース１００に単語情報を問い合わせ、文書もしくは文書群を構成する各文章に形態素解析や構文解析を適用することで、各文章に使用されている全単語の抽出および単語毎の品詞などの単語情報の抽出を行うことができる。

同義語候補分析部３０は、既存の同義語分析技術を利用することができる。例えば、各単語の共起語による共起語ベクトルを、単語間の文脈情報として抽出する技術がある。

なお、本発明の同義語抽出システム２００は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、同義語を抽出することを目的とするものであり、同義語候補分析部３０は情報システム構築に関する提案書や仕様書の特性に合った同義語分析技術を利用することが望ましい。

例えば、同義語候補分析部３０の一例としては、単語分析部２０で抽出された各文章に使用されている任意の単語を基軸単語として選択し、基軸単語毎の単語情報に基づき、任意の基軸単語共起判定ルールで基軸単語と共起関係とみなされる共起語とその共起数とで表される基軸単語共起語ベクトルを全基軸単語についてまとめた基軸単語共起表を作成する方法がある。

ここで、上記基軸単語共起判定ルールとしては、１文、１段落内の全文章、目次上の同一項目内での全文章、文書全体など、文書の特徴に合わせて共起語と見なす範囲を設定して良く、１文内での共起する動詞、および目次上の同一項目内の文章内の名詞のように品詞毎に共起とみなす範囲を変えても良い。さらに、単語情報に単語間の係り受け関係が含まれる場合は、係り受け関係のある単語かどうかを上記基軸単語共起判定ルールとして利用しても良い。

また、共起数は共起回数でも良いが、共起回数を基軸単語毎の全共起語数で除した頻度などでも良い。また、上記基軸単語共起表とは、各行が各基軸単語に、各列が各共起語に対応している行列で、基軸単語に対する共起語の共起数が表の各値として登録されたものである。

なお、基軸単語は相互的なもので、先に基軸単語として選択された単語であっても、後に他の単語を基軸単語とみなす場合は共起語として扱うことができる。

定型文分析部４０は、単語分析部２０にて得られた形態素解析結果等を利用して、同義語分析の誤検出となる定型文を抽出するものである。この定型文分析部４０で使われる方法としては、単語分析部２０の分析結果を利用して、定型文を効率的に抽出するものであれば、特に限定されない。２つの文と文との類似度を評価するものであれば、いずれのものでも構わないが、定型文という非常に類似した２つの文を抽出するためには、形態素を用いて編集距離を評価し、文と文の類似度を評価する方法が好ましい。

編集距離とは、二つの文（文字列）がどの程度異なっているかを示す数値であり、文字の挿入等の編集操作により、一つの文を別の文に変形するのに必要な手順の最小回数を示す。

図４は図１の同義語抽出システム２００の定型文分析部４０を具体的な構成を示すブロック図である。図４に示すように、この定型文分析部４０は、形態素編集距離分析部４１および定型文判定部４２から構成されることができる。

形態素編集距離分析部４１は、単語分析部２０の形態素解析結果を編集操作して必要最低限の操作数を導出するものであり、この編集距離としては、挿入、削除、置換を編集操作とするＬｅｖｅｎｓｈｔｅｉｎ距離、これに転置を加えたＤａｍｅｒａｕ−Ｌｅｖｅｎｓｈｔｅｉｎ距離などが利用できる。なお、形態素を利用した編集距離ということで、文と文の編集距離としては、名詞以外の品詞の一致も考慮されることは言うまでもない。さらに、同一品詞の置換のコストを挿入や削除に比べて低く設定し、さらに、長い方の形態素数で正規化することで、文と文の類似度をより的確に算出することができる。また、同一品詞の置換のコストを置換の回数に対して単調増加するように設定し、より置換回数の少ない文同士の距離を小さくすれば、文と文の類似度をより的確に算出することができる。ここで、文と文のペアの中で、形態素編集距離が閾値以下で、かつ、形態素数が等しいものを定型文と判定する。この閾値の設定は、操作ルールにより任意に設定することができる。

定型文判定部４２は、形態素編集距離分析部４１にて導出された形態素編集距離の値と、予め設定した定型文閾値を比較し、形態素編集距離が定型文閾値以下あるいは未満の場合を定型文と判定し、その定型文として判定された定型文中の非定型語を抽出する。

同義語候補補正部５０は、定型文分析部４０にて定型文と判定された定型文中の非定型語を、同義語候補分析部３０の結果から除外する。除外の方法としては、同義語候補分析部３０の結果から定型文分析部４０にて定型文と判定された定型文中の非定型語を機械的に一括して行っても良い。しかし、同義語候補分析部３０の分析結果と、定型文分析部４０にて定型文と判定された定型文中の非定型語と、関連する定型文とを作業者が参照しながら、除外するべきか否かを判断しても構わない。なお、この作業は、どちらか一方を選択するものではなく、同義語候補分析部３０の分析結果の上位にランク、すなわち、同義性の高い同義語候補に関しては、作業者が確認し、下位にランクしたものについては、一括して除外しても構わない。さらに、定型文と判定された定型文中の非定型語の除外作業は、同義語候補分析部３０の上位にランクしたものだけを対象にしても構わない。上位とは、対象とする文書の量や、作業者の工数、あるいは、同義語候補の類似度にもよるが、３００程度が望ましく、１００程度がさら望ましい。

同義語候補出力部６０は、同義語候補補正部５０で補正された同義語候補を出力する。ここで、出力形態は、文書内における同義語候補の組合せを色分けや太字による強調などで明示することで、文書全体を出力する形態などが適当である。他にも、出力形態としては、同義語候補の組合せを抽出した表などの形態であって良い。その際、各抽出条件における単語ペアの類似性を示すランキング表のランキングトップのみを表示する方法や、各抽出条件を総和した結果を表示することも可能である。その他、同義語候補とされた基軸単語を主ノード、その共起語を中間ノード、概念を端ノードとして関係をリンクで結んだグラフを表示し、同義語候補とされた基軸単語を最短で繋ぐリンクを色分けして強調するなどの形態であっても構わない。さらに、同義語候補を抽出する際に用いた非類似度などで同義語間に定量的な同義度を付加し、同義度が任意に設定された閾値より大きい同義語のみに表示を限定しても良いし、同義語候補間の同義度によって色分けや太字による強調もしくはグラフの単語の文字の大きさなどに強弱を与えるなどしても構わない。また、各出力形態を選択できるように、ベースとなる表示形態から必要に応じて表やグラフに移行できるようにしてもよい。また、必要に応じて動詞や名詞などを選択的に出力するようにしてもよい。

次に、図１のブロック図および図５のシーケンス図を参照して、本発明の第１実施の形態に係る同義語抽出システム２００の全体の動作について詳細に説明する。なお、図５に示すシーケンス図および以下の説明は処理例であり、適宜求める処理に応じて処理順等を入れ替えたり処理を戻したり繰り返したりすることを行ってもよい。

図５を参照すると、文書入力部１０は、対象とする文書もしくは文書群の入力を受け付ける（ステップＡ１）。

単語分析部２０は、文書もしくは文書群を構成する各文章に形態素解析や構文解析を適用することで、各文章に使用されている全単語の抽出および単語毎の品詞や格、組み合わされる助詞、単語間の係り受け関係に関する単語情報の抽出を行う（ステップＡ２）。

この際、単語データベース１００は、単語の品詞や構文などの情報を収集して蓄積し、特定の単語に関する問い合わせに対し、単語の品詞や構文に関連する情報を検索し応答する（ステップＡ３）。

定型文分析部４０は、単語分析部２０にて得られた形態素解析結果等を利用して、同義語分析の誤検出となる定型文を抽出する（ステップＡ４）。

また、同義語候補分析部３０は、単語分析部２０で分析された文章中の単語や構文情報を基に単語間の同義性を判定し、同義性すなわち類似度の高い単語ペアを抽出する（ステップＡ５）。

同義語候補補正部５０は、同義語候補分析部３０の分析結果と定型文分析結果から、同義語の可能性が想定される単語の組合せを同義語候補として順次抽出（推定）する（ステップＡ６）。

同義語候補出力部６０は、同義語候補補正部５０で補正した同義語候補を出力する（ステップＡ７）。

次に、本発明の第１の実施の形態に係る同義語抽出システム２００の効果について説明する。

本発明の第１の実施の形態では、形態素編集距離分析部４１および定型文判定部４２からなる定型文分析部により、定型文を抽出し、この定型文と判定された定型文中の非定型語を、同義語候補分析部３０の分析結果から除外することで、情報システム構築に関する提案書や仕様書等という開発文書から、特定の案件に関する文書群でのみ成り立つ同義語を効率的に抽出することが可能となる。すなわち、先行技術の課題を解決することができる。

なお、上記本発明の第１実施の形態に係る文書中の同義語抽出システム２００は、同義語抽出方法として実現され得る。また、上記本発明の実施の形態に係る文書中の同義語抽出システム２００は、同義語抽出プログラムによりコンピュータによって実行させるようにしても良い。

（第２の実施の形態）
図６は、本発明の第２の実施の形態による同義語抽出システム２００の構成の一例を示すブロック図である。

図６に示すように、第２の実施の形態に係る同義語抽出システム２００においては、同義語候補分析に概念分析部２５と概念データベース１１０とを具備している。

この概念データベース１１０は、単語の概念分類、同義語、類義語、用法といった単語の一般概念を体系付けた一般概念情報を収集して蓄積するとともに、同義語候補分析部３０に含まれる概念情報抽出部（図示せず）からの特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答する。

同義語候補分析部３０の同義語候補分析に概念情報を活用することで、各単語の出現回数が少ない同義語候補分析では、共起念ベクトルが疎行列で類似の判定が困難な文章量の少ない条件でも、より的確に類似性の評価が可能になり、情報システム構築に関する提案書や仕様書等というような、特定の案件に関する文書から意義は同じで語形が異なっている同義語を抽出できる。ただし、概念情報を同義語分析に取り入れても定型文に起因する誤検出は含まれる。

概念分析部２５は、各単語の共起語ベクトルを集約した概念ベクトルを、単語間の文脈情報として抽出する。共起語ベクトルの抽出としては、上記の実施の形態で記載した方法を利用することができる。概念ベクトルの抽出としては、具体的には、基軸単語共起表の基軸単語共起語ベクトルの各共起語のそれぞれについて、概念データベース１１０に一般概念情報を問い合わせ、任意の範囲内で基軸単語共起表における各基軸単語共起語ベクトルの各共起語を概念に変換した基軸単語概念ベクトルを、全基軸単語についてまとめた基軸単語概念表を作成することができる。

概念への変換で異なる共起語が同じ概念となる場合、同義語候補分析部３０に含まれる概念情報抽出部（図示せず）は、それぞれの共起語を合流し、共起数の和を対応箇所へ登録する。

また、概念データベース１１０として大分類、中分類、小分類のような複数の階層での概念が一般概念情報として登録されたシソーラスを用いる場合、概念分析部２５は、階層毎に概念表を作成し、大分類など広い概念での基軸単語概念表で異なる共起語が同じ概念となる場合は、それぞれの共起語を合流し、共起数の和を対応箇所へ登録する。他に、概念データベース１１０として同義語を含む類義語群が一般概念情報として登録された類語辞書を用いた場合、概念分析部２５は、共起語を対応する類義語群の各類義語に変換し、各類義語の共起数として対応する共起語の共起数を割り当て、同一の基軸単語の共起語に関して変換された類義語毎の共起数の延べ数を基軸単語概念ベクトルとして算出しても良い。

なお、概念データベース１１０に共起語に対応する概念が無い場合、概念分析部２５は、上記共起語を概念に変換せず、共起語の単語をそのまま概念として扱い残す。なお、基軸単語概念ベクトルに、本発明の実施の形態と同様に直行ベクトルを追加し、共起数が少ない単語ペアに対する補正を行っても良い。基本的な操作は、共起語ベクトルを用いた実施の形態と同等である。

以上説明した本発明の実施の形態においては、情報システム構築における要件定義や仕様書策定において作成される各種文書において成り立つ同義語を抽出し、それを提示することが可能となり、情報システム構築における要件定義や仕様書策定において作成される各種文書で頻出する定型文を効率的に除去することで、単語間の類似性や同義性をより的確に算出することを可能にする。

したがって、顧客と情報システム構築者、あるいは、情報システム構築者間の齟齬に起因する混乱を防ぎ、最終的に、齟齬に起因する情報システム構築の手戻りの削減を実現することができる。

次に、具体的な実施例を用いて、本発明の実施の形態に係る同義語抽出システム２００について具体的に説明する。

同義語抽出システム２００は、文書に形態素解析および構文解析を適用し、文書を構成する単語に分解し、単語毎の抽出元の文および品詞を解析することで、名詞、動詞、形容詞、および形容動詞を単語として抽出する。

なお、動詞の内でサ行変格活用に属する動詞は、活用部分を除去しいわゆるサ変名詞化した形態で抽出する。

さらに、同義語抽出システム２００は、文書に含まれる単語の内で名詞を単語Ｓとし、各単語ｉ（ｉ＝１、２、・・・、ｎ）について、特定の単語Ｓｉと同一文中で共起関係にある名詞、動詞、形容詞を、共起語Ｖｊ（ｊ＝１、２、・・・、ｍ）として抽出し、単語Ｓｉに対する各共起語Ｖｉｊの共起回数を共起数Ｎｉｊとして集計し、全ての単語Ｓｉに対する各共起語Ｖｉについて表形式にまとめた単語共起表Ｅを作成する。なお、単語共起表Ｅの単語Ｓｉに対する各共起語Ｖｊの共起数Ｎｉｊをまとめたデータセットを単語共起語ベクトルＮｉと呼ぶ。

このようにして作成した単語共起語ベクトルＮｉにコサイン類似度を適用し、単語ペアの類似度のランキングを導出する。コサイン類似度が高い単語ペアほど同義性が高いということになる。前述の通り、この結果は定型文に起因する誤検出結果を含んでいる可能性があり、別の工程として、その定型文の抽出作業を行う。

抽出作業は、まず、形態素解析結果を利用して、形態素編集距離を評価する。本実施例では挿入、削除、置換を編集操作とする。

また、編集操作のコストは、挿入が１、削除が１、置換を０．１とする。コストは編集操作を行った回数を示し、編集距離はそのコストの和を示す。

本実施例では、形態素編集距離が０．５以下で、かつ、形態素数が等しいものを定型文と判定する。例えば以下のような例文が二つあったとする。
例文１）サーバーの機能仕様の一覧を下表に示す
例文２）プリンターの機能仕様の一覧を下表に示す
この２つの文を形態素解析すると次のようになる。
例文１）サーバー／の／機能仕様／の／一覧／を／下表／に／示す
例文２）プリンター／の／機能仕様／の／一覧／を／下表／に／示す

編集操作として、例文１中の「サーバー」を「プリンター」を置換することで２つの文は同一となる。置換のコストは、０．１に設定しているため、２つの文の形態素編集距離は０．１となる。また、形態素数は双方とも９で等しく、設定した定型文としての判定条件を満たしている。また、定型文と判定された定型文中の非定型語は、「サーバー」と「プリンター」となる。このようにして抽出された単語ペアを同義語候補分析結果から除外する。

なお、ここでは、定型文の判定として、形態素編集距離と形態素数という２つ評価指標を利用しているが、形態素編集距離のみを利用することもできる。その際、形態素編集距離を形態素数で規格化しても構わない。

また、文書範囲を評価指標とすることも可能である。この文書範囲とは評価する文と文の開発文書中の距離を示している。開発文書中の２つの定型文は比較的近い位置で記載されることが多いためである。この文書範囲としては、例えば２００〜３００文以内がある。

図７は、補正前の同義語候補（同義語候補分析結果）と補正後（定型文分析の結果を反映）の結果の一例を示している。図中のランキングは、同義語候補分析結果を類似度の高い順に並べたもので、ランキング１位は、最も類似度が高いことを示している。定型文分析で抽出された「サーバー」と「プリンター」は明らかに同義語ではなく、この結果を同義語候補の結果か除外する。

以上説明したように、本発明の同義語抽出システムによれば、情報システム構築に関する提案書や仕様書等というような、特定の案件に関する文書群でのみ成り立つ同義語を、その特定の案件に関する文書群から精度良く抽出し、それを提示することが可能となる。その結果、顧客と情報システム構築者、あるいは、情報システム構築者間の齟齬に起因する混乱を防ぎ、最終的に、齟齬に起因する情報システム構築の手戻りの削減を実現することができる。

その具体的な理由は、情報システム構築における要件定義や仕様書策定において作成される各種文書中にある定型文中の非定型部分を、形態素編集距離を用いた分析により同義語候補から除外するため、同義語候補の上位にランクされる同義語候補の誤報を除去することを可能にしているためである。

なお、実施の形態および実施例を参照して本願発明を説明したが、本願発明は上記の実施の形態および実施例に限定されるものではない。

本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

本発明によれば、情報システム構築における要件定義や仕様書策定において作成される各種文書において、文書中の曖昧さを除外し、文書の理解・作成・修正を支援することが可能になる。したがって、本発明は手戻りの減少や顧客満足の向上など情報システム構築の効率化に関する用途に利用可能である。

１０文書入力部
２０単語分析部
２５概念分析部
３０同義語候補分析部
４０定型文分析部
４１形態素編集距離分析部
４２定型文判定部
５０同義語候補補正部
６０同義語候補出力部
１００単語データベース
１１０概念データベース
２００同義語抽出システム

Claims

文書を分析して、文書中の同義語を抽出する同義語抽出システムであって、
分析対象である文書の入力を受け付ける文書入力部と、
各文および複合語に形態素解析および構文解析を適用し、各単語の品詞や係り受け関係を抽出する単語分析部と、
各文が定型文か否かを判定する定型文分析部と、
同義関係を持つ単語ペア候補を同義語候補として推定する同義語候補推定部と、
推定した同義語候補から定型文と判定された定型文中の非定型語を除外する同義語候補補正部と、
同義語候補補正部の結果を表示する同義語候補出力部と、
を有することを特徴とする同義語抽出システム。
請求項１に記載の同義語抽出システムにおいて、更に、単語の品詞や構文などの情報を収集して蓄積する単語データベースを備え、
前記単語データベースは、前記単語分析部からの特定の単語に関する問い合わせに対し、単語の品詞や構文に関連する情報を検索し応答することを特徴とする同義語抽出システム。
請求項１又は２に記載の同義語抽出システムにおいて、
前記定型文分析部が、形態素列から成る各文の形態素編集距離分析部と、
少なくとも得られた形態素編集距離と定型文判定閾値とを比較し、定型文判定閾値以下の文を定型文とする定型文判定部と、
を有することを特徴とする同義語抽出システム。
請求項３に記載の同義語抽出システムにおいて、前記定型文判定部が、文と文が共存する文書の範囲を定型文判定に利用することを特徴とする同義語抽出システム。
請求項１乃至４の内のいずれか一項に記載の同義語抽出システムにおいて、前記同義語候補推定部が、各単語の共起情報の共起情報の類似度に基づき、同義関係を持つ単語ペア候補を同義語候補として推定することを特徴とする同義語抽出システム。
請求項１乃至５の内のいずれか一項に記載の同義語抽出システムにおいて、更に、単語の一般概念を体系付けた一般概念情報を収集して蓄積する概念データベースを備え、前記概念データベースは、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答することを特徴とする同義語抽出システム。
請求項１乃至６の内のいずれか一項に記載の同義語抽出システムにおいて、前記同義語候補推定部が、各単語の概念情報の共起情報の類似度に基づき、同義関係を持つ単語ペア候補を同義語候補として推定することを特徴とする同義語抽出システム。
請求項１乃至７の内のいずれか一項に記載の同義語抽出システムにおいて、前記分析対象である文書は、情報システム構築に関する提案書や仕様書というような、特定のプロジェクト案件に関する開発文書であることを特徴とする同義語抽出システム。
文書を分析して、文書中の同義語を抽出する同義語抽出方法であって、
分析対象である文書の入力を受け付ける文書入力段階と、
各文および複合語に形態素解析および構文解析を適用し、各単語の品詞や係り受け関係を抽出する単語分析段階と、
各文が定型文か否かを判定する定型文分析段階と、
同義関係を持つ単語ペア候補を同義語候補として推定する同義語候補推定段階と、
推定した同義語候補から定型文と判定された定型文中の非定型語を除外する同義語候補補正段階と、
同義語候補補正段階の結果を表示する同義語候補出力段階と、
を有することを特徴とする同義語抽出方法。
請求項９に記載の同義語抽出方法において、更に、単語の品詞や構文などの情報を収集して蓄積する単語データベースを備え、
前記単語データベースは、前記単語分析段階からの特定の単語に関する問い合わせに対し、単語の品詞や構文に関連する情報を検索し応答することを特徴とする同義語抽出方法。
請求項９又は１０に記載の同義語抽出方法において、
前記定型文分析段階が、形態素列から成る各文の形態素編集距離分析段階と、
少なくとも得られた形態素編集距離と定型文判定閾値とを比較し、定型文判定閾値以下の文を定型文とする定型文判定段階と、
を有することを特徴とする同義語抽出方法。
請求項１１に記載の同義語抽出方法において、前記定型文判定段階が、文と文が共存する文書の範囲を定型文判定に利用することを特徴とする同義語抽出方法。
請求項９乃至１２の内のいずれか一項に記載の同義語抽出方法において、前記同義語候補推定段階が、各単語の共起情報の共起情報の類似度に基づき、同義関係を持つ単語ペア候補を同義語候補として推定することを特徴とする同義語抽出方法。
請求項９乃至１３の内のいずれか一項に記載の同義語抽出方法において、更に、単語の一般概念を体系付けた一般概念情報を収集して蓄積する概念データベースを備え、前記概念データベースは、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答することを特徴とする同義語抽出方法。
請求項９乃至１４の内のいずれか一項に記載の同義語抽出方法において、前記同義語候補推定段階が、各単語の概念情報の共起情報の類似度に基づき、同義関係を持つ単語ペア候補を同義語候補として推定することを特徴とする同義語抽出方法。
請求項９乃至１５の内のいずれか一項に記載の同義語抽出方法において、前記分析対象である文書は、情報システム構築に関する提案書や仕様書というような、特定のプロジェクト案件に関する開発文書であることを特徴とする同義語抽出方法。
コンピュータに、文書を分析して、文書中の同義語を抽出する同義語抽出システムとして機能させるプログラムであって、
入力された分析対象である文書の各文および複合語に形態素解析および構文解析を適用し、各単語の品詞や係り受け関係を抽出する単語分析部と、
各文が定型文か否かを判定する定型文分析部と、
同義関係を持つ単語ペア候補を同義語候補として推定する同義語候補推定部と、
推定した同義語候補から定型文と判定された定型文中の非定型語を除外する同義語候補補正部と、
同義語候補補正部の結果を表示する同義語候補出力部として機能させることを特徴とする同義語抽出プログラム。
請求項１７に記載の同義語抽出プログラムにおいて、更に、単語の品詞や構文などの情報を収集して蓄積する単語データベースを前記単語分析部からの特定の単語に関する問い合わせに対し、単語の品詞や構文に関連する情報を検索し応答するように機能させることを特徴とする同義語抽出プログラム。
請求項１７又は１８に記載の同義語抽出プログラムにおいて、
前記定型文分析部が、形態素列から成る各文の形態素編集距離分析部と、
少なくとも得られた形態素編集距離と定型文判定閾値とを比較し、定型文判定閾値以下の文を定型文とする定型文判定部と、
を有するように機能させることを特徴とする同義語抽出プログラム。
請求項１９に記載の同義語抽出プログラムにおいて、前記定型文判定部が、文と文が共存する文書の範囲を定型文判定に利用するように機能させることを特徴とする同義語抽出プログラム。
請求項１７乃至２０の内のいずれか一項に記載の同義語抽出プログラムにおいて、前記同義語候補推定部が、各単語の共起情報の共起情報の類似度に基づき、同義関係を持つ単語ペア候補を同義語候補として推定することを特徴とする同義語抽出プログラム。
請求項１７乃至２１の内のいずれか一項に記載の同義語抽出プログラムにおいて、更に、単語の一般概念を体系付けた一般概念情報を収集して蓄積する概念データベースを特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答するように機能させることを特徴とする同義語抽出プログラム。
請求項１７乃至２２の内のいずれか一項に記載の同義語抽出プログラムにおいて、前記同義語候補推定部が、各単語の概念情報の共起情報の類似度に基づき、同義関係を持つ単語ペア候補を同義語候補として推定することを特徴とする同義語抽出プログラム。
請求項１７乃至２３の内のいずれか一項に記載の同義語抽出プログラムにおいて、前記分析対象である文書は、情報システム構築に関する提案書や仕様書というような、特定のプロジェクト案件に関する開発文書であることを特徴とする同義語抽出プログラム。