JP5754018B2

JP5754018B2 - 多義語抽出システム、多義語抽出方法、およびプログラム

Info

Publication number: JP5754018B2
Application number: JP2011152983A
Authority: JP
Inventors: 英司平尾; 古橋　武; 武古橋; 大弘吉川
Original assignee: Nagoya University NUC; NEC Corp; Tokai National Higher Education and Research System NUC
Current assignee: Nagoya University NUC; NEC Corp; Tokai National Higher Education and Research System NUC
Priority date: 2011-07-11
Filing date: 2011-07-11
Publication date: 2015-07-22
Anticipated expiration: 2031-07-11
Also published as: JP2013020431A

Description

本発明は、多義語抽出システム、多義語抽出方法およびプログラムに関し、特に、情報システム構築に関する提案書や仕様書等といった所定の案件に関する文書内で複数の意味を割り当てられている多義語を抽出する多義語抽出システム、方法およびプログラムに関する。

近年、情報処理装置を用いて、自然言語で書かれた文書を分析して、その文書の意味や意義を自動抽出するシステムが開発されている。そのなかで、文章中の多義語の取り扱いが問題になることがある。

多義語抽出システムに関する技術の一例が、特許文献１に「単語シソーラス構築システム」として記載されている。この特許文献１に開示された単語シソーラス構築システムは、文章解析部、名詞間距離計算部、名詞クラスタリング部、多義性解消部、再クラスタリング部、シソーラス生成部、データ格納部から構成されている。このような構成を有する単語シソーラス構築システムは、次のように動作する。
すなわち、文章解析部は、解析対象とするコーパス中の文章の形態素解析及び構文解析を実行して動詞各関係基礎データを生成し、名詞リスト、動詞リスト及び共起関係データを生成する。名詞間距離計算部は、生成した各リスト、及び共起関係データに基づいて名詞間距離を求める。名詞クラスタリング部は、計算された名詞間距離に基づいて名詞クラスタを生成する。多義性解消部は、この名詞クラスタの有するツリー構造に基づいて各名詞と共起関係のある動詞の多義性を解消し前記動詞リスト及び共起関係データを修正する。再クラスタリング部は、この多義性解消部によって修正された動詞リスト及び共起関係データに基づいて再度名詞クラスタリングを実行する。シソーラス生成部は、この再クラスタリング結果に基づいて単語のシソーラスを生成する。データ格納部は、解析対象である大量の文章であるコーパスと、このコーパスを解析することで生成された動詞格関係基礎データと、文章中に出現した動詞をその出現頻度と共に格納する動詞リストと、文書中に出現する名詞をその出現頻度と共に格納する名詞リストと、前記各リスト中の動詞と名詞の共起関係を格納する共起関係データと、名詞間距離計算部によって求められる名詞間距離と、クラスタリング処理によって生成された名詞クラスタと、シソーラス生成処理によって生成された名詞及び動詞のシソーラスとを格納する。このような構成により、文書中の単語について、動詞と名詞の単語間距離とに基づいて、動詞の多義性を判断し、この判断に基づいて単語リスト及び共起関係データを修正し、これに基づいて再度名詞のクラスタリングを行うことで、精度の高いシソーラスが構築できるとしている。

さらに、多義語抽出システムに関する技術の他の例が、特許文献２に「機械翻訳装置」として記載されている。この特許文献２に開示された機械翻訳装置は、入力部、入力文字列記憶部、翻訳辞書部、辞書検索部、翻訳処理部、知識ベース部、単語シソーラス部、多義性解消部、翻訳結果出力部から構成されている。このような構成を有する機械翻訳装置は、次のように動作する。
入力部は、原言語文字列を入力する。次に、入力文字列記憶部は、入力された文字列を記憶する。翻訳辞書部は、原言語単語と相手言語の形態情報、原言語と相手言語の対訳情報などを保持している。辞書検索部は、翻訳辞書を検索する。翻訳処理部は、原言語を前記翻訳辞書部を参照して他の言語に翻訳し、翻訳処理において多義性を識別したとき、多義性解消部に多義性の解消を指示する。知識ベース部は、原言語における単語間の共起関係と、それに対応する相手言語の表現とを集める。単語シソーラス部は、意味的に類似した単語を記憶する。多義性解消部は、入力文字列を相手言語に翻訳するときに生じる多義性を解消する。そのため、多義性解消部は前記知識ベースを参照して訳語を検出し、検出できないときは前記単語シソーラス部中の意味類似単語に置き換えた原文で前記知識ベースを検索して訳語を検出し、さらに検出できないときは、訳語を頻度により決定する。翻訳結果出力部は、翻訳処理結果を出力する。このような構成により、訳語に多義性が発生したとき、知識ベースの規模が、単語シソーラスで補われて、等価的に大きな知識ベースをもとに多義性を解消することを実現している。

特開２００１−３３１５１５号公報特開平０５−１５８９７０号公報

上記のような技術の問題は、情報システム構築に関する提案書や仕様書等といった所定の案件に関する文書内で複数の意味を割り当てられている多義語の抽出に、例示した技術による多義語の抽出方法を適用すると、多義語の抽出率が低くなってしまうことが挙げられる。

その理由は、このような多義語が使用されている文書の多くは、一般的に文章量が限られているため任意の単語に対する共起語として同一の単語が出現する可能性が低く、大量のコーパスを前提とした特許文献１の手法で用いられているような共起語のクラスタリングを行うことが難しいためである。換言すれば、特許文献１の手法では、少量のコーパスに基づいて共起語をクラスタ化したとしても、所望の精度での多義語の抽出が行なえない課題を有している。

また、別の観点での問題は、情報システム構築に関する提案書や仕様書等といった所定の案件に関する文書内で複数の意味を割り当てられている多義語の抽出に、例示した技術による多義語の抽出方法を適用すると、特定の案件に関する文書群で成り立つている多義語を抽出することができないことである。

その理由は、このような多義語は、事前にその同義関係を把握することが難しく、特許文献２の手法で用いられているような翻訳辞書によって多義性のために訳しわけを行なう必要のある箇所の有無を判断することが困難であるためである。このため、特殊な多義語用に既存辞書とは別にシソーラスを準備するなどの対策が必要と成る。しかし、そのシソーラスを準備するためには多大な負担が必要となってしまう。

そこで、特定の範囲で用いられている独特な多義語を含む文書中からその多義語を所要に抽出することを課題とする。

本発明の目的は、上記事柄に鑑み、情報システム構築に関する提案書や仕様書等といった所定の案件に関する文書内で複数の意味を割り当てられている多義語を抽出する、多義語抽出システム、方法およびプログラムを提供することにある。

本発明に係る多義語抽出システムは、入力を受けた所定の文章に使用されている各単語の抽出を行う単語分析部と、前記単語の内で任意の単語を基軸単語として選択し、該基軸単語と共起関係とみなされる基軸単語共起語とその共起数とで表される基軸単語共起ベクトルを抽出する基軸単語共起ベクトル抽出部と、基軸単語共起ベクトルの各基軸単語共起語の共起語概念を一般概念から推定する共起語概念推定部と、推定した共起語概念群について、対応する共起語概念間の類似性に基づき、前記選択した基軸単語に関する各基軸単語共起語のクラスタリングを行う共起語分類部と、前記選択した基軸単語に関して複数のクラスタが存在した際に該基軸単語を多義語候補として抽出する多義語候補推定部と、抽出した多義語候補を出力する多義語候補出力部と、を備えたことを特徴とする。
本発明に係る情報処理システムによる多義語抽出方法は、入力を受けた所定の文章に使用されている各単語を抽出処理し、抽出した単語の内で任意の単語を基軸単語として選択して、該基軸単語と共起関係とみなされる基軸単語共起語とその共起数とで表される基軸単語共起ベクトルを抽出処理し、抽出した基軸単語共起ベクトルの各基軸単語共起語の共起語概念を一般概念から推定処理し、推定した共起語概念群について、対応する共起語概念間の類似性に基づき、前記選択した基軸単語に関する各基軸単語共起語についてクラスタリング処理を行い、前記選択した基軸単語に関して複数のクラスタが存在した際に該基軸単語を多義語候補として抽出処理することを特徴とする。
本発明に係るプログラムは、情報処理装置の制御部を、入力を受けた所定の文章に使用されている各単語の抽出を行う単語分析部と、前記単語の内で任意の単語を基軸単語として選択し、該基軸単語と共起関係とみなされる基軸単語共起語とその共起数とで表される基軸単語共起ベクトルを抽出する基軸単語共起ベクトル抽出部と、基軸単語共起ベクトルの各基軸単語共起語の共起語概念を一般概念から推定する共起語概念推定部と、推定した共起語概念群について、対応する共起語概念間の類似性に基づき、前記選択した基軸単語に関する各基軸単語共起語のクラスタリングを行う共起語分類部と、前記選択した基軸単語に関して複数のクラスタが存在した際に該基軸単語を多義語候補として抽出する多義語候補推定部と、抽出した多義語候補を出力する多義語候補出力部として動作させることを特徴とする。

本発明によれば、情報システム構築に関する提案書や仕様書等といった所定の案件に関する文書内で複数の意味を割り当てられている多義語を抽出する、多義語抽出システム、方法およびプログラムを提供できる。

第１の実施形態に係る多義語抽出システムの構成を示すブロック図である。図１に示した多義語抽出システムの動作例を示す流れ図である。第２の実施形態に係る多義語抽出システムの構成を示すブロック図である。図３に示した多義語抽出システムの動作例を示す流れ図である。第１の実施例に係る多義語抽出システムの構成を示すブロック図である。基軸単語共起ベクトルＮｉをまとめた表の例を示す説明図である。基軸単語共起語Ｖｉｊに関するシソーラスの一般概念情報Ｃｇの分類体系例を示す説明図である。基軸単語「資材」に関する共起語概念図Ｃｖｗｊを樹形図として表した例である。周辺語構成表ＶＶの例を示す説明図である。周辺語Ｖｖｗｊｆに関するシソーラスの一般概念情報Ｃｇの分類体系の例を示す説明図である。基軸単語「資材」の共起語の周辺語Ｖｖｗｊｆに基づく大分類の共起語概念表ＶＣ１を示す説明図である。基軸単語「資材」の共起語の周辺語Ｖｖｗｊｆに基づく中分類の共起語概念表ＶＣ２を示す説明図である。基軸単語「資材」の共起語の周辺語Ｖｖｗｊｆに基づく小分類の共起語概念表ＶＣ３を示す説明図である。基軸単語「資材」に関する共起語概念図Ｃｖｗｊの樹形図に基づくクラスタリング結果の一例を示す説明図である。基軸単語「資材」に関する共起語概念図Ｃｖｗｊのデンドログラムに基づくクラスタリング結果の一例を示す説明図である。第２の実施例に係る多義語抽出システムの構成を示すブロック図である。構成語「処理」を含む部分一致複合語共起表ＶＵｘの例を示す説明図である。構成語「変更」を含む部分一致複合語共起表ＶＵｘの例を示す説明図である。複合語「変更処理」に関する複合語構成配分表Ｔｅの例を示す説明図である。複合語を考慮した基軸単語共起ベクトルＮｉをまとめた表の例を示す説明図である。複合語を考慮した基軸単語共起語Ｖｉｊに関するシソーラスの一般概念情報Ｃｇの分類体系例を示す説明図である。基軸単語「資材」に関して、複合語を考慮した共起語概念図Ｃｖｗｊを樹形図として表した例である。基軸単語「資材」に関して、複合語を考慮した共起語概念図Ｃｖｗｊの樹形図に基づくクラスタリング結果の一例を示す説明図である。

［実施形態１］
最初に、本発明の第１の実施形態について、図面を参照して詳細に説明する。
図１は、本発明の第１の実施形態に係る多義語抽出システム１００の構成を示すブロック図である。

図１を参照すると、本発明の第１の実施形態に係る多義語抽出システム１００は、基本的に電子機器内もしくはサーバと電子機器およびこれらを相互に接続するインターネット等の情報通信ネットワークからなるシステム内に、少なくとも、文書入力部１０、単語分析部２０、基軸単語共起ベクトル抽出部３０、共起語概念推定部４０、共起語分類部５０、多義語候補推定部６０、多義語候補出力部７０、概念データベース１１０と、を含む。
図示の多義語抽出システム１００は、情報システム構築に関する提案書や仕様書等といった所定の案件に関する文書内で複数の意味を割り当てられている多義語を抽出する多義語抽出システムである。

電子機器で多義語抽出システムを構成する場合、多義語抽出システム１００は、プログラム制御により動作するコンピュータで実現可能である。図示はしないが、この種のコンピュータは、周知のように、データを入力する入力装置と、データ処理装置と、データ処理装置での処理結果を出力する出力装置と、種々のデータベースとして働く補助記憶装置とを備えている。そして、データ処理装置は、プログラムを記憶するリードオンリメモリ（ＲＯＭ）と、データを一時的に記憶するワークエリアとして使用されるランダムアクセスメモリ（ＲＡＭ）と、ＲＯＭに記憶されたプログラムに従って、ＲＡＭに記憶されているデータを処理する中央処理装置（ＣＰＵ）とから構成される。
この場合、データ処理装置が、文書入力部１０、単語分析部２０、基軸単語共起ベクトル抽出部３０、共起語概念推定部４０、共起語分類部５０、多義語候補推定部６０として働き、補助記憶装置が概念データベース１１０として動作し、出力装置が多義語候補出力部７０として働く。

次に、多義語抽出システム１００を構成する各構成要素の動作について説明する。

文書入力部１０は、多義語を抽出する対象とする文書もしくは文書群の入力を受け付ける。

単語分析部２０は、文書もしくは文書群を構成する各文章に形態素解析や構文解析などを適用することで、各文章に使用されている名詞、動詞、形容詞、形容動詞など単独で意味をなす自立語を単語として抽出し、さらに必要に応じて単語毎の品詞や直後に使用された助詞の種類、単語間の係り受け関係などの単語情報の抽出を行う。なお、自立語ではなく形態素をそのまま使用するようにしてもよい。

基軸単語共起ベクトル抽出部３０は、単語分析部２０で抽出された各文章に使用されている任意の単語を基軸単語として順次選択し、基軸単語毎の単語情報などを用いて任意の基軸単語共起判定ルールで基軸単語と共起関係とみなされる基軸単語共起語とその共起数とで表される基軸単語共起ベクトルをそれぞれ抽出する。ここで、前記基軸単語共起判定ルールとしては、基軸単語と係り受けの関係にある単語を共起語と見なすルールや、基軸単語と同一の文内で特定の助詞を伴って使用されている単語を共起語と見なすルールなどが考えられる。また、共起数は共起回数でも良いが、共起回数を基軸単語毎の全共起語数で除した頻度などでも良い。また、基軸単語共起語とその共起数について、抽出元とする所定文書について、重要度や確度、文書間の親子関係などに基づく重み付けを行なうようにしても良い。

概念データベース１１０は、収集された単語の概念分類および一般的な同義語、類義語、用法などの一般概念情報を蓄積し、特定の単語に関する問い合わせに対して、単語の意味や用法に関連する一般概念情報を検索し応答するデータベースである。概念データベース１１０は、単語の上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけたシソーラスなどが相当する。概念データベース１１０としてインターネット上のデータベースを使用することとしてもよい。

共起語概念推定部４０は、概念データベース１１０の一般概念情報を利用して、所定の概念推定方法に基づき、基軸単語共起ベクトルの各基軸単語共起語の共起語概念を推定する。

前記概念推定方法としては、直接、各基軸単語共起語に関する一般概念情報を概念データベース１１０に問い合わせ、特定の基軸単語の全基軸単語共起語を一般概念情報に基づく一般概念に置き換えた基軸単語共起概念ベクトルを共起語概念とする方法が良い。概念への置き換えで異なる基軸単語共起語が同じ一般概念となる場合はそれぞれの基軸単語共起語を合流し、共起数の和を対応箇所へ登録する。また、概念データベース１１０として大分類、中分類、小分類のような複数の階層での概念が一般概念情報として登録されたシソーラスを用いる場合、階層毎に基軸単語共起概念ベクトルを作成し、大分類など広い概念での基軸単語共起概念ベクトルで異なる共起語が同じ概念となる場合は、それぞれの共起語を合流させて、共起数の和を対応箇所へ登録する。他に、概念データベース１１０として同義語を含む類義語群が一般概念情報として登録された類語辞書を用いた場合、基軸単語共起語を対応する類義語群の各類義語に変換し、各類義語の共起数として対応する基軸単語共起語の共起数を割り当て、同一の基軸単語の基軸単語共起語に関して変換された類義語毎の共起数の延べ数を基軸単語共起概念ベクトルとして算出しても良い。なお、概念データベース１１０に基軸単語共起語に対応する概念が無い場合、前記共起語を概念に変換せず、共起語の単語をそのまま概念として扱い残す。

また前記概念推定方法の他の例としては、基軸単語共起語について任意の周辺語判定ルールで基軸単語共起語の周辺に存在する周辺語とその存在数に基づく周辺語構成ベクトルを全基軸単語共起語についてまとめた周辺語構成表を作成し、周辺語構成表の周辺語構成ベクトルにおける各周辺語のそれぞれについて、概念データベース１１０に一般概念情報を問い合わせ、任意の範囲内で周辺語構成表における各周辺語構成ベクトルの各周辺語を一般概念に変換した周辺語概念ベクトルを対応する基軸単語共起語毎に作成し、特定の基軸単語の全基軸単語共起語に対応する周辺概念ベクトルをまとめた基軸単語共起概念表を共起語概念とする方法でも良い。
ここで、前記周辺語判定ルールとしては１文、１段落内の全文章、目次上の同一項目内での全文章、文書全体など、文書の特徴に合わせて周辺と見なす範囲を設定して良く、１文内で共存する動詞、および目次上の同一項目内の文章内の名詞のように品詞毎に周辺とみなす範囲を変えても良い。さらに、単語間の係り受け関係のある単語かどうかを前記周辺語判定ルールとして利用しても良い。また、存在数は存在個数でも良いが、存在個数を基軸単語共起語毎の全周辺語数で除した頻度などでも良い。また、周辺語構成表とは各行が各基軸単語共起語に、各列が各周辺語に対応している行列で、基軸単語共起語に対する周辺語の存在数が表の各値として登録されたものである。概念への変換で異なる周辺語が同じ概念となる場合はそれぞれの周辺語を合流し、存在数の和を対応箇所へ登録する。また、概念データベース１１０として大分類、中分類、小分類のような複数の階層での概念が一般概念情報として登録されたシソーラスを用いる場合、階層毎に基軸単語共起概念表を作成し、大分類など広い概念での基軸単語共起概念表で異なる周辺語が同じ概念となる場合は、それぞれの周辺語を合流し、存在数の和を対応箇所へ登録する。他に、概念データベース１１０として同義語を含む類義語群が一般概念情報として登録された類語辞書を用いた場合、周辺語を対応する類義語群の各類義語に変換し、各類義語の存在数として対応する周辺語の存在数を割り当て、同一の基軸単語共起語の周辺語に関して変換された類義語毎の共起数の延べ数を周辺語概念ベクトルとして算出し、特定の基軸単語の全基軸単語共起語に対応する周辺概念ベクトルをまとめることで基軸単語共起概念表を作成しても良い。なお、概念データベース１１０に周辺語に対応する概念が無い場合、前記共起語を概念に変換せず、共起語の単語をそのまま仮の概念として扱い残す。

共起語分類部５０は、特定の基軸単語に関する基軸単語共起語の各共起語概念について、所定の類似性指標によって対応する共起語概念間の類似性を算出し、前記共起語概念間の類似性指標に基づき各基軸単語共起語のクラスタリングを行う。ここで、類似性の判定を行う「類似性指標」は共起語概念間の意味的な類似性を判断する基準であれば良く、例えば、共起語概念が、特定の基軸単語の全基軸単語共起語を一般概念情報に基づく一般概念に置き換えた基軸単語共起概念ベクトルで、概念データベース１１０として前記シソーラスを用いる場合、全基軸単語共起語が同一の一般概念と見なされるまでの分類の深さが類似性指標として有効であり、概念データベース１１０として前記類語辞書を用いた場合、基軸単語共起語に関して変換された類義語毎の共起数の延べ数で作成した基軸単語共起概念ベクトル間のコサイン距離やユークリッド距離などの距離と単調減少の関係にある関数値が類似性指標として適当である。また、共起語概念が、特定の基軸単語の全基軸単語共起語に対応する前記周辺語概念ベクトルをまとめた前記基軸単語共起概念表で、概念データベース１１０として前記シソーラスを用いる場合、階層毎に各基軸単語共起語に対応する前記周辺語概念ベクトル間のコサイン距離やユークリッド距離などを算出し、小分類などより詳細な深い分類での距離ほど重視するように重み付けした距離と単調減少の関係にある関数値が類似性指標として適切である。また、クラスタリングの手法は一般的な手法で良く、デンドログラムなどを用いた階層的クラスタリングを適用しても良いし、周辺単語間の類似性と単調減少する指標を距離として導かれる仮想的な周辺単語の位置情報にｋ−ｍｅａｎｓ法やＦｕｓｓｙ−ｃ−ｍｅａｎｓ法などの非階層的クラスタリングを適用しても良い。

多義語候補推定部６０は、基軸単語としたそれぞれの単語について、それぞれの基軸単語に関する各基軸単語共起語のクラスタリング結果から、クラスタの規模が任意に定めた閾値以上である複数のクラスタが存在する基軸単語を、意味的に複数の用法が見られるとして、多義語の可能性が想定される多義語候補として抽出する。なお、前記クラスタの規模としては、クラスタに帰属する各基軸単語共起語の共起数などを指標とすれば良い。

多義語候補出力部７０は、多義語候補推定部６０で抽出した多義語候補を出力する。ここで、出力形態は、所要の形態で出力すればよく、文書内における多義語候補の基軸単語を色分けや太字による強調などで明示することで、文書全体を出力する形態などが適当である。他にも、出力形態としては、多義語候補の組合せを抽出した表などの形態であって良い。また、他の出力形態としては、多義語候補とされた基軸単語を主ノード、その基軸単語共起語の概念に基づく各クラスタを中間ノード、各クラスタに帰属する基軸単語共起語を端ノードとして関係をリンクで結んだグラフを表示し、共起数の多いリンクを色分けして強調するなどの形態であって良い。また、出力形態としては、多義語候補を抽出する際に用いた類似性指標などで多義語間に定量的な多義度を付加し、多義度が任意に設定された閾値より大きい多義語のみに表示を限定しても良い。もしくは、出力形態としては、多義語候補間の多義度によって色分けや太字による強調もしくはグラフの単語の文字の大きさなどに強弱を与えるなどしても良い。また、各出力形態を選択できるようにして、ベースとなる表示形態から必要に応じて表やグラフに移行できるようにしてもよい。また、必要に応じて動詞や名詞などを選択的に出力するようにしてもよい。
次に、図１、及び図２に示すシーケンスを参照して、第１の実施形態に係る多義語抽出システム１００の全体の動作について詳細に説明する。なお、図２に示す流れ図および以下の説明は処理例であり、適宜求める効果に応じて処理順等を入れ替えたり処理を戻したり繰り返したりすることを行ってもよい。

文書入力部１０は、対象とする文書もしくは文書群の入力を受け付ける（図２のステップＡ１）。
単語分析部２０は、文書もしくは文書群を構成する各文章に形態素解析や構文解析などを適用することで、各文章に使用されている名詞、動詞、形容詞、形容動詞など単独で意味をなす自立語を単語として抽出し、さらに単語毎の品詞や直後に使用された助詞の種類、単語間の係り受け関係などの単語情報の抽出を行う（ステップＡ２）。

基軸単語共起ベクトル抽出部３０は、単語分析部２０で抽出された各文章に使用されている任意の単語を基軸単語として選択し、基軸単語毎の単語情報に基づき、所定の基軸単語共起判定ルールで基軸単語と共起関係とみなされる基軸単語共起語とその共起数とで表される基軸単語共起ベクトルを抽出する（ステップＡ３）。

概念データベース１１０は、収集蓄積されている単語の概念分類および一般的な同義語、類義語、用法などの一般概念情報から、特定の単語に関する問い合わせに対して、適宜単語の意味や用法に関連する一般概念情報を検索し応答する（ステップＡ４）。

共起語概念推定部４０は、概念データベース１１０の一般概念情報を利用して、所定の概念推定方法に基づき、基軸単語共起ベクトルの各基軸単語共起語について個々の共起語概念を推定する（ステップＡ５）。

共起語分類部５０は、特定の基軸単語に関する各基軸単語共起語について、推定した個々の共起語概念を参照することにより対応する前記共起語概念間の類似性を所定の類似性指標によって算出し、その共起語概念間の類似性指標に基づき各基軸単語共起語のクラスタリングを行う（ステップＡ６）。

多義語候補推定部６０は、特定の基軸単語に関する各基軸単語共起語のクラスタリング結果から、各クラスタの規模が任意に定めた閾値以上のクラスタが複数存在する基軸単語を、意味的に複数の用法が見られ多義語の可能性が想定される多義語候補として順次抽出する（ステップＡ７）。

多義語候補出力部７０は、多義語候補推定部６０で抽出できた多義語候補を出力する（ステップＡ８）。

次に、本発明の第１の実施形態に係る多義語抽出システム１００の効果について説明する。
本第１の実施形態では、文書内もしくは文書群内の基軸単語共起語を共起語概念に変換することによって、意味的には類似するが単語としては一致しない共起語をクラスタリングした結果に基づいて多義語候補を抽出するように構成しているため、各基軸単語共起語の出現回数が少なく基軸単語共起語間の距離が０となりがちな文章量の少ない条件でも基軸単語について用法のパターンが複数あるかどうかの把握が可能になり、所定の案件に関する文書内で複数の意味を割り当てられている多義語を精度よく抽出できる。
尚、上記第１の実施形態に係る多義語抽出システム１００は、多義語抽出方法として実現され得る。また、上記第１の実施形態に係る多義語抽出システム１００は、多義語抽出プログラムによりコンピュータによって実行させるようにしても良い。

［実施形態２］
次に、第２の実施形態について、図面を参照して詳細に説明する。
図３は、第３の実施形態に係る多義語抽出システム１００Ａの構成を示すブロック図である。

図３を参照すると、第２の実施形態に係る多義語抽出システム１００Ａは、構成語支配度算出部３５と、複合語構成配分推定部３６と、を更に含むと共に、後述するように単語分析部と共起語概念推定部の動作が相違する点を除いて、図１に示した第１の実施形態に係る多義語抽出システム１００と同様の構成を有し、動作をする。したがって、単語分析部に２０Ａの参照符号を付し、共起語概念推定部に４０Ａの参照符号を付してある。

図示の多義語抽出システム１００Ａを上述したコンピュータで実現した場合、データ処理装置が、文書入力部１０、単語分析部２０Ａ、基軸単語共起ベクトル抽出部３０、構成語支配度算出部３５、複合語構成配分推定部３６、共起語概念推定部４０Ａ、共起語分類部５０、多義語候補推定部６０として働き、補助記憶装置が概念データベース１１０として動作し、出力装置が多義語候補出力部７０として働く。
そして、単語分析部２０Ａが文書中の単語の中の複合語および複合語の構成語を取得し、構成語支配度算出部３５が、複合語の構成語毎の構成語支配度を算出し、複合語構成配分推定部３６が、構成語支配度に基づき複合語の構成語毎の概念に重み付けを行った複合語構成配分表を作成し、共起語概念推定部４０Ａが、基軸単語共起語を概念に変換する前に、基軸単語共起ベクトルの中で複合語となっている基軸単語共起語の共起数を複合語構成配分表に基づいて分配した共起数に換算を行う。

次に、多義語抽出システム１００Ａを構成する各構成要素の動作について説明する。

単語分析部２０Ａは、図１に示した単語分析部２０の動作に加え、抽出された各単語の一般概念情報を概念データベース１１０に問い合わせ、概念データベース１１０に登録が無く、かつ文字数が２文字以上の単語を複合語として抽出する点で、図１に示した単語分析部２０と異なる。さらに単語分析部２０Ａは、複合語を構成するあらゆる部分文字列について、概念データベース１１０に一般概念情報を問い合わせ、一般概念情報の登録がある部分文字列を複合語の有意構成語として抽出し、抽出した有意構成語を元の複合語から分離した場合に概念データベース１１０に一般概念情報の登録が無い部分文字列が残る場合は不明構成語として抽出する点で、図１に示した単語分析部２０と異なる。
なお複合語を構成する部分文字列の内、概念データベース１１０に一般概念情報の登録がある部分文字列の組合せパターンが複数考えられる場合は、任意の構成語分離ルールに基づいて最適な組合せパターンを判定し、その組合せパターンでの有意構成語、不明構成語を抽出する。ここで、構成語分離ルールとしては、不明構成語の文字数が最も少なくなるパターンを優先するルールや、入力された文書中に単独の単語として出現する頻度が高い有意構成語を優先するルール、一般の文書中に単独の単語として出現する頻度が高い有意構成語を優先するルール、およびこれらを組合せたルールなどが有効である。また、入力された文書中に含まれる他の複合語に共通して使用されている文字列が所定頻度以上に使用されている場合にはその文字列を除いた残りの文字列について、有意構成語として優先するルールを用いてもよい。
なお、一般概念情報とはシソ−ラスにおける分類や、単語の意味を直接的に表すキーワード、類語の集合などが考えられる。
なお、以下で単に構成語と記載した場合は有意構成語と不明構成語を含む。

構成語支配度算出部３５は、単語分析部２０Ａで抽出された各文章に使用されている単語および複合語に基づき、任意の複合語共起判定ルールで複合語と共起する単語を複合語共起語として、複合語毎に複合語共起語とその共起数を抽出し、これらをまとめることで複合語共起表を作成する。
ここで、複合語共起判定ルールとしては１文、１段落内の全文章、目次上の同一項目内での全文章、文書全体、文書のタイトル、文書群の中での位置付けなど、文書の特徴に合わせて選択して良い。例えば、品詞が動詞であれば１文内での共起、名詞であれば目次上の同一項目内での全文章内共起のように品詞毎に文書群の範囲を変えるようにすれば良い。
また、共起数は共起回数でも良いが、共起回数を複合語毎の全共起語数で除した頻度などでも良い。
さらに、単語情報に単語間の係り受け関係が含まれる場合は、係り受け関係のある単語かどうかを複合語共起判定ルールとして利用しても良い。
また、複合語共起表とは各行が各複合語に、各列が各複合語共起語に対応している行列で、複合語に対する複合語共起語の共起数が表の各値として登録されたものである。

さらに、構成語支配度算出部３５は、複合共起表と単語分析部２０Ａで抽出された構成語に基づき、その複合語共起表から同じ構成語を含む部分一致複合語の複合語共起語からなる複合語共起ベクトルを抽出し、構成語別に部分一致複合語共起表を作成する。そして、部分一致複合語共起表の複合語共起ベクトルから得られる共起ベクトル空間における各部分一致複合語間の集約度を構成語支配度として算出する。
ここで、共起ベクトル空間は各ベクトルを対等としても良いが、複合語共起語の品詞によって重み付けを行ったベクトル空間に変換しても良い。また、各部分一致複合語間の集約度とは各部分一致複合語に対応するベクトル間の散らばりの小ささを表す指標であればどのような算出方法によっても良い。例えば分散や標準偏差、変動係数などの一般に統計で用いられるばらつきを示す指標と単調減少の関係にある関数であればよく、分散の逆数や変動係数の逆数などが適している。

複合語構成配分推定部３６は、構成語支配度算出部３５で算出した各構成語支配度で複合語毎の各構成語間の構成語重み付け係数を算出し、構成語重み付け係数をまとめた複合語構成配分表を作成する。
複合語概念構成表とは、各行が各複合語に、各列が複合語の各構成語に対応した行列で、対応する構成語重み付け係数が登録されたものである。
ここで、構成語重み付け係数の算出方法としては、各構成語の構成語支配度を複合語毎の構成語支配度の総和で除すことで正規化した値を指標とする方法などが有効である。

共起語概念推定部４０Ａは、上記説明した共起語概念推定部４０の動作に加え、基軸単語共起ベクトル抽出部３０で作成された基軸単語共起表の基軸単語共起ベクトルの各共起語の内で複合語になっている基軸単語共起語について、複合語構成配分推定部３６で作成した複合語構成配分表に基づく係数を使用して、所要の推定方法に合致させて各複合語に適する共起語概念を推定する。一例としては、共起語概念推定部４０Ａに、各複合語を構成する各構成語をそれぞれ基軸単語共起語として独立させ、複合語構成配分推定部３６で作成した複合語構成配分表に基づき、前記基軸単語共起語の共起数に各構成語の構成語重み付け係数を掛けて算出した値を各構成語の共起数として基軸単語共起ベクトルを変更し、前記所定の概念推定方法に基づき、基軸単語共起ベクトルの各基軸単語共起語の共起語概念を推定する。
なお、使用する概念推定方法として、複合語を含む周辺語を考慮し、特定の基軸単語の全基軸単語共起語に対応する周辺概念ベクトルをまとめた基軸単語共起概念表を共起語概念とする場合、前記基軸単語共起表の周辺語構成ベクトルの各周辺語の内で複合語になっている周辺語について、各構成語をそれぞれ周辺語として独立させ、複合語構成配分推定部３６で作成した複合語構成配分表に基づき、前記周辺語の存在数に各構成語の構成語重み付け係数を掛けて算出した値を各構成語の存在数として周辺語構成ベクトルを変更しても良い。

それ以外の文書入力部１０、基軸単語共起ベクトル抽出部３０、共起語分類部５０、多義語候補推定部６０、多義語候補出力部７０、概念データベース１１０の構成と機能は、第１の実施形態のそれらとそれぞれ同じであるので、説明を省略する。

次に、図３、及び図４に示すシーケンスを参照して、第２の実施形態に係る多義語抽出システム１００Ａの全体の動作について説明する。なお、図４に示す流れ図および以下の説明は処理例であり、第１の実施形態と同様に処理順等を入れ替えたり処理を戻したりすることを行ってもよい。
上述した第１の実施形態の動作と比較すると、以下に説明する本第２の実施形態の動作は、次の動作が加わっている点で異なる。

単語分析部２０Ａは、図１に示した単語分析部２０の動作（ステップＡ２）に加え、抽出された各単語の一般概念情報を概念データベース１１０に問い合わせ、概念データベース１１０に登録が無く、かつ文字数が２文字以上の単語を複合語として抽出する（ステップＢ１）。
さらに単語分析部２０Ａは、複合語を構成するあらゆる部分文字列について、概念データベース１１０に一般概念情報を問い合わせ、一般概念情報の登録がある部分文字列を複合語の有意構成語として抽出し、抽出した有意構成語を元の複合語から分離した場合に概念データベース１１０に一般概念情報の登録が無い部分文字列が残る場合は不明構成語として抽出する（ステップＢ２）。

次に構成語支配度算出部３５は、単語分析部２０Ａで抽出された各文章に使用されている単語の単語情報および複合語に基づき、複合語共起判定ルールで複合語と共起する単語を複合語共起語として、複合語毎に複合語共起語とその共起数を抽出し、これらをまとめることで複合語共起表を作成する（ステップＢ３）。
さらに構成語支配度算出部３５は、複合共起表と単語分析部２０Ａで抽出された構成語に基づき、前記複合語共起表から同じ構成語を含む部分一致複合語の複合語共起語からなる複合語共起ベクトルを抽出し、構成語別に部分一致複合語共起表を作成し、部分一致複合語共起表の複合語共起ベクトルから得られる共起ベクトル空間における各部分一致複合語間の集約度を構成語支配度として算出する（ステップＢ４）。

次に複合語構成配分推定部３６は、構成語支配度算出部３５で算出した各構成語支配度で複合語毎の各構成語間の構成語重み付け係数を算出し、構成語重み付け係数をまとめた複合語構成配分表を作成する（ステップＢ５）。

共起語概念推定部４０Ａは、図１に示した共起語概念推定部４０の動作内容（ステップＡ５）に加え、基軸単語共起ベクトル抽出部３０で作成された基軸単語共起表の基軸単語共起ベクトルの各共起語の内で複合語になっている基軸単語共起語について、各構成語をそれぞれ基軸単語共起語として独立させ、複合語構成配分推定部３６で作成した複合語構成配分表に基づき、前記基軸単語共起語の共起数に各構成語の構成語重み付け係数を掛けて算出した値を各構成語の共起数として基軸単語共起ベクトルを変更し、前記所定の概念推定方法に基づき、基軸単語共起ベクトルの各基軸単語共起語の共起語概念を推定する（ステップＡ５’）。
他のステップの動作は、上述した第１の実施形態における動作と同一であるので、それらの説明については省略する。

次に、第２の実施形態の上記動作での効果について説明する。
第２の実施形態では、第１の実施の形態の効果に加え、基軸単語共起語の中の複合語について構成語毎の構成語支配度を算出し、構成語支配度に基づき重み付けを行った概念に変換する。このことによって、シソーラスなどに一般概念情報の登録が無い複合語なども考慮して多義語候補を抽出するように構成できるため、基軸単語共起ベクトルから基軸単語概念ベクトルへの変換の障害となる、独自の複合語の多い文章群でも基軸単語共起語間の類似性の評価が可能になり、所定の案件に関する文書内で複数の意味を割り当てられている多義語をより精度よく抽出できる。
尚、上記第２の実施形態に係る多義語抽出システム１００Ａは、多義語抽出方法として実現され得る。また、上記本発明の第２の実施形態に係る多義語抽出システム１００Ａは、多義語抽出プログラムによりコンピュータによって実行させるようにしても良い。

次に、図５を参照して、具体的な第１の実施例を用いて、第１の実施形態に係る多義語抽出システム１００の動作について説明する。

本第１の実施例では、次のことを目的としている。
先ず、多義語抽出システム１００は、情報システム構築に関する提案書や仕様書といった一般的な意味と異なった概念を示す意味としても使用される多義語を含む文書Ｄ内に含まれる特定の案件に関する文書群でのみ成り立つ多義語候補Ａを推定する。そして、多義語抽出システム１００は、推定結果を出力することで、未登録の用語に関する用語集の作成や単語の定義を支援する。また、本第１の実施例では、多義語抽出システム１００は、図５に示されるように、文書解析システムＹと、インターネット・サーバＺとで構成されるものとする。
文書解析システムＹは、分析実施者Ｂの持つＰＣ端末上で動作し、入力部及び出力部を介して、分析実施者Ｂが多義語を抽出したい文書群を構成する文章の入力と、多義語候補Ａの提示を実現する。
インターネット・サーバＺは、通信ネットワークを介して文書解析システムＹを実装した分析実施者Ｂの持つＰＣ端末と接続されている。インターネット・サーバＺは、文書解析システムＹからの単語の意味などの概念情報の問い合わせに対して、単語の概念分類や一般的な多義語や類義語、用法に関連する一般概念情報Ｃｇの検索を可能にする装置である。

図５と図１との対応関係について説明する。
文書入力部１０と、単語分析部２０と、基軸単語共起ベクトル抽出部３０と、共起語概念推定部４０と、共起語分類部５０と、多義語候補推定部６０とは、文書解析システムＹ内に含まれている。多義語候補出力部７０は、ＰＣ端末の出力部として動作する。概念データベース１１０はインターネット・サーバＺ内に含まれている。この様な手段を備えた文書解析システムＹ、インターネット・サーバＺは以下のような動作をする。

文書解析システムＹは、入力部から、分析実施者Ｂが特定の案件に関する文書群でのみ成り立つ多義語候補Ａを推定したい文書群を構成する文書Ｄの入力を受け付ける。そして、文書解析システムＹは、文書Ｄを構成する文章毎に形態素解析および構文解析を適用して文書を構成する単語に分解し、各単語の品詞とその係り受け関係を解析することで、名詞および、動詞、形容詞、形容動詞を単語Ｗとして抽出する。なお、動詞の内でサ行変格活用に属する動詞は活用部分を除去しいわゆるサ変名詞化したものを動詞として抽出することとする。

さらに文書解析システムＹは、文書Ｄに含まれる単語Ｗの内で名詞を基軸単語Ｓとし、各基軸単語Ｓｉ（ｉ＝１、２、・・・、ｎ）について、特定の基軸単語Ｓｗ（ｉ＝ｗ）と係り受け関係にある動詞と形容詞と形容動詞を、基軸単語共起語Ｖｗｊ（ｊ＝１、２、・・・、ｍ）として抽出し、基軸単語Ｓｗに対する各基軸単語共起語Ｖｗｊの共起回数を共起数Ｎｗｊとして集計し、基軸単語共起ベクトルＮｗを作成する。例えば、文書Ｄから、基軸単語Ｓｗとして「資材」、「総務」、・・・などの単語が、共起語Ｖとして「製造」、「備蓄」、「採掘」、「廃棄」、「混合」、「購買処理」、「見積」、「発注」、「予算」、「変更処理」、・・・などの単語が抽出され、各基軸単語Ｓｗに対する基軸単語共起語Ｖｗｊの共起数Ｎｗｊが図６のようになっていた場合、図６の表の各行のデータセットが基軸単語共起ベクトルＮｉに、特定の基軸単語Ｓｗのデータセットが基軸単語共起ベクトルＮｗに相当し、「資材」の基軸単語共起ベクトルＮｗは｛５，１，１，１，３，３，４，２，１，４・・・｝のように表される。

インターネット・サーバＺは、単語の一般的な上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類して体系づけたシソーラスの一般概念情報Ｃｇを蓄積する。また、インターネット・サーバＺは、任意の単語の情報を抽出する検索エンジンなどの機能も提供することで、文書解析システムＹからの問い合わせに応じて、問い合わせ対象の単語の一般的な概念分類として大分類、中分類、小分類を一般概念情報Ｃｇとして抽出し、提示する。

文書解析システムＹは、基軸単語共起ベクトルＮｗの各基軸単語共起語Ｖｗｊのそれぞれに関する共起語概念Ｃｖｗｊを、インターネット・サーバＺに問い合わせた一般概念情報Ｃｇに基づき抽出する。

共起語概念Ｃｖｗｊの抽出方法としては、直接的に各基軸単語共起語Ｖｗｊのそれぞれの一般概念情報Ｃｇについてインターネット・サーバＺに問い合わせを行うことで、インターネット・サーバＺ内に保存されたシソーラスの一般概念情報Ｃｇの分類体系から、各基軸単語共起語Ｖｗｊが属する共起語概念Ｃｖｗｊとして大分類の共起語概念Ｃ１ｖｗｊと、中分類の共起語概念Ｃ２ｖｗｊと、小分類の共起語概念Ｃ３ｖｗｊとを抽出し、各分類の階層での概念共起数Ｎｃｗｊが分かるように木構造などにまとめた共起語概念図Ｃｖｗｊを作成する方法が適切である。この方法を概念直接抽出法とする。概念直接抽出方法に寄れば、図６の基軸単語Ｓｗ「資材」に関する基軸単語共起ベクトルＮｗの共起数Ｎｗｊの各基軸単語共起語Ｖｗｊについて、図７のような共起語概念Ｃ１ｖｗｊ、共起語概念Ｃ２ｖｗｊ、共起語概念Ｃ３ｖｗｊが抽出された場合、共起語概念図Ｃｖｗｊは図８のような樹形図で表される。図８で共起語概念図Ｃｖｗの各分類の階層での概念共起数Ｎｃｗｊはより下位に帰属する基軸単語共起語Ｖｗｊの共起数Ｎｗｊの総和で算出される。なお、インターネット・サーバＺに一般概念情報Ｃｇの登録が無い「変更処理」、「購買処理」などの複合語は、基軸単語共起語の単語をそのまま仮の概念として残して処理する。

また、より高度な共起語概念Ｃｖｗｊの抽出方法として概念間接抽出法を以下に解説する。概念間接抽出方法では、各基軸単語共起語Ｖｗｊのそれぞれについて、各基軸単語共起語Ｖｗｊと係り受け関係にある動詞と形容詞と形容動詞、および目次上の同一項目内の文章内で共起する名詞を、周辺語Ｖｖｗｊｆ（ｆ＝１、２、・・・、ｙ）として抽出し、基軸単語共起語Ｖｗｊに対する各周辺語Ｖｖｗｊｆの共起回数を存在数Ｌｊｆとして集計し、全ての基軸単語共起語Ｖｗｊに対する各周辺語Ｖｖｗｊｆについて表形式にまとめた周辺語構成表ＶＶを作成する。
なお、周辺語構成表ＶＶの基軸単語共起語Ｖｗｊに対する各周辺語Ｖｖｗｊｆの存在数Ｌｊｆをまとめたデータセットを周辺語構成ベクトルＬｊと呼ぶ。周辺語構成表ＶＶの各周辺語Ｖｖｗｊｆのそれぞれの一般概念情報Ｃｇについてインターネット・サーバＺに問い合わせを行うことで、インターネット・サーバＺ内に保存されたシソーラスの一般概念情報Ｃｇの分類体系から取得する。その後、各周辺語Ｖｖｗｊｆが属する大分類の周辺語概念Ｃ１ｖｗｊｆと、中分類の周辺語概念Ｃ２ｖｗｊｆと、小分類の周辺語概念Ｃ３ｖｗｊｆとを抽出し、周辺語構成表ＶＶにおける周辺語Ｖｖｗｊｆを周辺語概念Ｃ１ｖｗｊｆに変換し、同じ概念となる周辺語Ｖｖｗｊｆをまとめ、存在数Ｌｊｆの和を対応箇所へ登録した大分類の共起語概念表ＶＣ１、周辺語構成表ＶＶにおける周辺語Ｖｖｗｊｆを周辺語概念Ｃ２ｖｆｗｊｆに変換し、同じ概念となる周辺語Ｖｖｗｊｆをまとめ、存在数Ｌｊｆの和を対応箇所へ登録した中分類の共起語概念表ＶＣ２、周辺語構成表ＶＶにおける周辺語Ｖｖｗｊｆを周辺語概念Ｃ３ｖｆｗｊｆに変換し、同じ概念となる周辺語Ｖｖｗｊｆをまとめ、存在数Ｌｊｆの和を対応箇所へ登録した小分類の共起語概念表ＶＣ３を作成する。
なお、大分類の共起語概念表ＶＣ１の基軸単語共起語Ｖｗｊに対する各周辺語概念Ｃ１ｖｆｗｊｆの存在数Ｌｃ１ｊｆをまとめたデータセットを大分類共起語概念ベクトルＬｃ１ｊと呼び、中分類の共起語概念表ＶＣ２の基軸単語共起語Ｖｗｊに対する各周辺語概念Ｃ２ｖｆｗｊｆの存在数Ｌｃ２ｊｆをまとめたデータセットを中分類基軸単語概念ベクトルＬｃ２ｊと呼び、小分類の共起語概念表ＶＣ３の基軸単語共起語Ｖｗｊに対する各周辺語概念Ｃ３ｖｆｗｊｆの存在数Ｌｃ３ｊｆをまとめたデータセットを小分類共起語概念ベクトルＬｃ３ｊと呼ぶ。

ここで、大分類共起語概念ベクトルＬｃ１ｊと中分類基軸単語概念ベクトルＬｃ２ｊと小分類共起語概念ベクトルＬｃ３ｊとが共起語概念Ｃｖｗｊに相当する。例えば、図６のように、文書Ｄから基軸単語共起語Ｖｗｊとして「製造」、「変更処理」、・・・などの単語が抽出され、これらの基軸単語共起語Ｖｗｊの周辺語Ｖｖｗｊｆとして「利用」、「操作」、「構築」、「改善」、「システム変更」、「メカニズム」、「瞬時」、「短期」、「稼働」、「高速処理」、・・・などの単語が抽出された場合、周辺語構成表ＶＶは図９のような、各行に基軸単語共起語Ｖｗｊを各列に周辺語Ｖｖｗｊｆを配置し、その存在数Ｌｊｆを記載した表になる。また、図９の基軸単語共起語Ｖｗｊの行のデータセットが周辺語構成ベクトルＬｊに相当し、「製造」の周辺語構成ベクトルＬｊは｛０、３、２、０、４、０、１、０、３、０、・・・｝のように表される。なお、基軸単語共起語Ｖｗｊと周辺語Ｖｖｗｊｆはいずれも名詞を含むため、先に基軸単語共起語Ｖｗｊとして選択された単語も、他の単語が基軸単語共起語Ｖｗｊの場合は周辺語Ｖｖｗｊｆとして扱われることがある。

さらに図９の周辺語構成表ＶＶにおける各周辺語Ｖｖｗｊｆについて、図１０のような周辺語概念Ｃ１ｖｗｊｆ、周辺語概念Ｃ２ｖｗｊｆ、周辺語概念Ｃ３ｖｗｊｆが抽出された場合、大分類の共起語概念表ＶＣ１は図１１、中分類の共起語概念表ＶＣ２は図１２、小分類の共起語概念表ＶＣ３は図１３のような各行に基軸単語共起語Ｖｗｊを各列に各分類の周辺語概念Ｃｖｗｊｆを配置した表となる。共起語概念表ＶＣ１、ＶＣ２、ＶＣ３の各共起数は、大分類の共起語概念表ＶＣ１を例とすると、周辺語Ｖｖｗｊｆの内で「利用」、「操作」、「構築」、「改善」、「稼働」の周辺語概念Ｃ１ｖｗｊｆは「人間活動」で共通のため、これらの周辺語Ｖｖｗｊｆにおける存在数を同一の基軸単語共起語「製造」に関して足し合わせた「８」が存在数Ｌｃ１ｊｆとなる。同様に周辺語Ｖｖｗｊｆの内で「メカニズム」、「瞬時」、「短期」の周辺語概念Ｃ１ｖｗｊｆは「抽象」で共通のため、これらの周辺語Ｖｖｗｊｆにおける存在数を基軸単語共起語「製造」に関して足し合わせた「１」が存在数Ｌｃ１ｊｆとなる。なお、インターネット・サーバＺに一般概念情報Ｃｇの登録が無い「システム変更」、「高速処理」などの複合語は、共起語の単語をそのまま仮の概念として残して処理する。図１１より、基軸単語共起語「製造」の大分類共起語概念ベクトルＬｃ１ｊは｛８、４、１、０、・・・｝のように表される。

さらに文書解析システムＹは、各共起語概念Ｃｖｗｊに基づき各基軸単語共起語Ｖｗｊ間の類似性Ｆｗを算出し、任意の閾値よりも類似性Ｆｗが大きい各基軸単語共起語Ｖｗｊをまとめ、各基軸単語共起語Ｖｗｊをクラスタリングすることで、各基軸単語共起語クラスタＥｗｚを抽出する。

基軸単語共起語Ｖｗｐ（ｊ＝ｐ）と基軸単語共起語Ｖｗｑ（ｊ＝ｑ）の類似性Ｆｗｐｑの算出方法の例としては、前記概念直接抽出法によって各共起語概念Ｃｖｗｊを求めた場合は、共起語概念Ｃｖｗｐと共起語概念Ｃｖｗｑが同一の分類になる分類階層と分類体系における最も大まかな分類階層までの階層差によって定量化する。例えば、図８の例のように大分類（１層目）、中分類（２層目）、小分類（３層目）の３階層からなる分類体系を持つシソーラスで基軸単語共起語Ｖｗｐ「製造」と基軸単語共起語Ｖｗｑ「採掘」は小分類の共起語概念Ｃ３ｖｗｊ「生産」で一致しているため、１層目と３層目の差分として「２」が類似性の指標となる。また、図８の例で類似性Ｆｗの閾値を１以上とすると、中分類の共起語概念Ｃ２ｖｗｊ以下で各基軸単語共起語Ｖｗｊがクラスタリングされることになり、図１４に示すような点線で囲まれた５つのクラスタが基軸単語共起語クラスタＥｗｚとして抽出される。

一方、前記概念間接抽出法によって各共起語概念Ｃｖｗｊを求めた場合は、基軸単語共起語Ｖｗｐに対応する大分類共起語概念ベクトルＬｃ１ｐと基軸単語共起語Ｖｗｑに対応する大分類共起語概念ベクトルＬｃ１ｑの間のコサイン距離ｄｃ１ｐｑと、中分類共起語概念ベクトルＬｃ２ｐとＬｃ２ｑの間のコサイン距離ｄｃ２ｐｑと、小分類共起語概念ベクトルＬｃ３ｐとＬｃ３ｑの間のコサイン距離ｄｃ３ｐｑとを算出し、以下の（１）式によりそれぞれの分類重み付け係数β１、β２、β３（β１<β２<β３）を掛けた和を基軸単語共起語間距離ｄｗｐｑとして算出し、逆数など基軸単語共起語間距離ｄｐｑと単調減少の関係にある関数によって類似性Ｆｗｐｑを算出する。この処理を全ての基軸単語共起語Ｖｉｊの組合せについて行う。
ｄｐｑ＝β１×ｄｃ１ｐｑ＋β２×ｄｃ２ｐｑ＋β３×ｄｃ３ｐｑ・・・（１）式

例えば、図１１〜１３の例では基軸単語「製造」と「蓄積」のコサイン距離は、ｄｃ１ｐｑ＝０．２６、ｄｃ２ｐｑ＝０．５７、ｄｃ３ｐｑ＝０．６８となり、分類重み付け係数をβ１＝０．００９、β２＝０．０９、β３＝０．９とすると、基軸単語共起語間距離ｄｐｑ＝０．６７となる。さらに、クラスタリング方法としては各基軸単語共起語Ｖｗｊを初期のクラスタと見なし、基軸単語共起語間距離ｄｐｑについて、最もクラスタ間距離が近いクラスタ同士を新しいクラスタとし、さらに新しい全てのクラスタ間の距離を求め、最も近い２つを結合して新しくクラスタを作るという処理を繰り返し、全てのクラスタが一つのクラスタに結合されるまで繰り返すことでデンドログラムを作成し、任意のクラスタ間距離基準でまとめられた基軸単語共起語Ｖｗｊの集団を基軸単語共起語クラスタＥｗｚとする。図９〜１３の情報に基づき、得られたデンドログラムでクラスタ間距離基準を５とした場合、図１５に示すように２つのクラスタが基軸単語共起語クラスタＥｗｚとして抽出される。

文書解析システムＹは、特定の基軸単語Ｓｗに関する各基軸単語共起語Ｖｗｊのクラスタリング結果として得られた基軸単語共起語クラスタＥｗｚについて、また各基軸単語共起語クラスタＥｗｚに属する基軸単語共起語Ｖｗｊの共起数Ｎｗｊの総和をクラスタ規模Ｎｗｚとして抽出する。そして、クラスタ規模Ｎｗｚが任意に定めた閾値以上のクラスタが複数存在する基軸単語Ｓｗを、意味的に複数の用法が見られ、多義語の可能性が想定される多義語候補Ａｗとして抽出する。
前記概念直接抽出法によって各共起語概念Ｃｖｗｊを求めた図６〜９の例で、閾値を２０％とすると、基軸単語共起語Ｖｗｊは２５個あるため、５個以上の基軸単語共起語Ｖｗｊが属する基軸単語共起語クラスタＥｗｚとして「産業」と「経済」の二つが抽出され、基軸単語Ｓｗ「資材」は多義語候補Ａｗと判定される。これは基軸単語共起語クラスタＥｗｚ「産業」に属する基軸単語共起語Ｖｗｊの意味、および基軸単語共起語クラスタＥｗｚ「経済」に属する基軸単語共起語Ｖｗｊの意味から、「資材」は「材料」および「資材調達部門」の略語としての二つの意味を持った可能性が高く、このような多義性を見出すことができる。同様に、前記概念間接抽出法によって各共起語概念Ｃｖｗｊを求めた図１５の例で、閾値を２０％とすると、２つのクラスタはいずれも５個以上の基軸単語共起語Ｖｗｊが属しているため基軸単語Ｓｗ「資材」は多義語候補Ａｗと判定される。
さらに文書解析システムＹは、多義語候補Ａｗについて、要求文書Ｄで該当する多義語候補Ａｗを色分けや太字による強調などの加工を行い、加工後の要求文書Ｄを、出力部から出力する。

次に、図１０を参照して、具体的な第２の実施例を用いて、第２の実施形態に係る多義語抽出システム１００Ａの動作を説明する。
本第２の実施例では、多義語抽出システム１００Ａは、図１６に示されるように、インターネット・サーバＺ’を利用するものとする。
文書解析システムＹａは、分析実施者Ｂの持つＰＣ端末上で動作し、入力部及び出力部を介して、分析実施者Ｂが多義語を抽出したい文書群を構成する文章の入力と、多義語候補Ａの提示を実現する。

インターネット・サーバＺ’は、既存のシソーラスを提供するサーバであり、通信ネットワークを介して文書解析システムＹａを実装した分析実施者Ｂの持つＰＣ端末と接続されている。インターネット・サーバＺ’は、文書解析システムＹａからの単語の概念情報の問い合わせに対して、単語の概念分類や一般的な同義語や類義語、用法に関連する一般概念情報Ｃｇの検索を可能にする装置である。

本第２の実施例では、第１の実施例の動作に加え、文書解析システムＹａが構成語支配度算出部３５と、複合語構成配分推定部３６と、を更に含む。
すなわち、図１６と図３との対応関係は次のように成る。
文書入力部１０と、単語分析部２０Ａと、構成語支配度算出部３５と、複合語構成配分推定部３６と、基軸単語共起ベクトル抽出部３０と、共起語概念推定部４０Ａと、共起語分類部５０と、多義語候補推定部６０とは、文書解析システムＹａ内に含まれている。多義語候補出力部７０は、ＰＣ端末の出力部として動作する。概念データベース１１０はインターネット・サーバＺ’内に含まれている。

この様な構成を含めた文書解析システムＹａは、上述した第１の実施例に対して、以下のような動作を加える。
文書解析システムＹａは、各基軸単語共起語Ｖｉｊのそれぞれの一般概念情報Ｃｇをインターネット・サーバＺ’に問い合わせることで、インターネット・サーバＺ’内に保存されたシソーラスに、各単語Ｖｉｊの一般概念情報Ｃｇが登録されているかどうかを検索し、シソーラスに一般概念情報Ｃｇの登録が無く、かつ文字数が２文字以上の単語を複合語Ｖｍｅ（ｅ＝１、２、・・・、ｈ）として抽出する。例えば「購買処理」という単語がシソーラスに登録されていない場合は、２文字以上であるため複合語として抽出する。

さらに文書解析システムＹａは、複合語Ｖｍｅ毎に複合語Ｖｍｅの文字列をあらゆるパターンで分離し、分離した全ての部分文字列について、インターネット・サーバＺ’内に保存されたシソーラスに一般概念情報Ｃｇが登録されているかどうかを検索する。そして、一般概念情報の登録がない部分文字列の文字数が最も少なくなるパターンでの、部分文字列を複合語Ｖｍｅの構成語Ｐｅｋ（ｋ＝１、２、・・・、ｌ）として処理し、構成語Ｐｅｋの内、一般概念情報Ｃｇの登録が有る部分文字列は有意構成語Ｐａｅｋとし、登録が無い部分文字列は不明構成語Ｐｂｅｋとして、それぞれ複合語毎に抽出する。
図６の「購買処理」という複合語の例では、｛「購」、「買処理」｝、｛「購買」、「処理」｝、｛「購買処」、「理」｝が分離可能な文字列として想定され、「買処理」と「購買処」がシソーラスに登録されていない場合は、「購」、「購買」、「処理」、「理」が有意構成語Ｐａｅｋの候補、「買処理」、「購買処」が不明構成語Ｐｂｅｋの候補となるが、一般概念情報Ｃｇの登録がない部分文字列の文字数が最も少ない｛「購買」、「処理」｝の組合せが複合語「購買処理」の有意構成語として選択される。

文書解析システムＹａは、「構築する情報システムの機能」など文書Ｄで一定の範囲の内容に言及している文章群として分析者Ｂが指定した段落の文章内で複合語Ｖｍｅと共起する名詞、および複合語Ｖｍｅに係る動詞と形容詞、形容動詞をｓ個の複合語共起語Ｕｍｅｒ（ｒ＝１、２、・・・、ｓ）として、複合語Ｖｍｅ毎に複合語共起語Ｕｍｅｒと、共起と見なした範囲内での共起回数Ｍｅｒを抽出し、各行を各複合語Ｖｍｅに各列を各複合語共起語Ｕｍｅｒに対応させ、複合語Ｖｍｅに対する複合語共起語Ｕｍｅｒの共起回数Ｍｅｒを各値として登録した疎行列からなる複合語共起表ＶＵｍを作成する。
さらに、文書解析システムＹａは、前記複合語共起表ＶＵｍの各構成語Ｐｅｋ別に、同じ構成語Ｐｘ（ｘ＝１、２、・・・、ｔ）を含むｔ個の複合語Ｖｍｘの行成分（Ｍｘ１，Ｍｘ２，Ｍｘ３，・，・，・，Ｍｘｓ）を抽出し、各行成分を各複合語Ｖｍｘに、各列を各複合語共起語Ｕｍｘｒに対応させ、複合語Ｖｍｘに対する複合語共起語Ｕｍｘｒの共起回数Ｍｘｒを各値として登録した疎行列からなる部分一致複合語共起表ＶＵｘを作成する。
例えば「処理」という構成語を含む部分一致複合語共起表としては図１７、「変更」という構成語を含む部分一致複合語共起表としては図１８のような表が作成される。さらに、文書解析システムＹａは、以下の数１のように、部分一致複合語共起表ＶＵｘの複合語共起語Ｕｍｘｒ毎のデータ列（Ｍ１ｒ，Ｍ２ｒ，Ｍ３ｒ，・，・，・，Ｍｔｒ）で分散σｘｒを算出し、全複合語共起語Ｕｍｘｒの分散σｘｒの平均値の平方根の逆数を構成語Ｐｘの構成語支配度Ｇｘとして算出する。

文書解析システムＹａは、複合語Ｖｍｅ毎の各構成語Ｐｅｋに対応する各構成語支配度Ｇｘｅｋの値を構成語支配度Ｇｘｅｋの総和で除すことで正規化した構成語重み付け係数αｅｋを算出し、各行を各複合語Ｖｍｅに各列を各構成語Ｐｅｋに対応させ、複合語Ｖｍｅに対する各構成語Ｐｅｋの構成語重み付け係数αｅｋを各値として登録した疎行列からなる、複合語構成配分表Ｔｅを作成する。
例えば、図６の基軸単語共起語の内で複合語であった「変更処理」、「購買処理」に関して、構成語「処理」の構成語支配度Ｇｘが１．４７で、構成語「変更」の構成語支配度Ｇｘが２．２１、構成語「購買」の構成語支配度Ｇｘが３．４３であった場合、複合語構成配分表Ｔｅは図１９のようになる。図１９は、複合語「変更処理」を構成語「変更」と構成語「処理」の組合せとして理解する場合、構成語「変更」の方が構成語「処理」よりも重要であることを示している。

文書解析システムＹａは、複合語Ｖｍｅが基軸単語共起語Ｖｉｊの一つであるという観点から、特定の基軸単語Ｓｗと共起した複合語Ｖｍｗｅの構成語Ｐｅｋを、それぞれ基軸単語共起語Ｖｍｗｅｋとして独立させる。そして、複合語構成配分表Ｔｅに基づき複合語Ｖｍｗｅの共起数Ｎｗｅに各構成語Ｐｅｋに対応する構成語重み付け係数αｅｋを掛けた値を共起数Ｎｗｅｋとして算出することで、基軸単語共起ベクトルＮｗを変更する。図６の基軸単語「資材」について詳細に説明すれば、複合語である「変更処理」と「購買処理」の構成語「処理」と「変更」、および「購買」と「処理」が基軸単語共起語として独立し、図１９に示しているように「変更処理」の構成語重み付け係数が「変更＝０．６」、「処理＝０．４」で、同様に「購買処理」の構成語重み付け係数が「購買＝０．７」と「処理＝０．３」であるので、重み付け共起数Ｎｗｅｋは「変更：２．４＝４×０．６」、「処理：２．５＝４×０．４＋３×０．３」、「購買：２．１＝３×０．７」となる。他の各基軸単語共起語Ｖｗも同様に処理を行い、図６に示した基軸単語共起ベクトルは図２０に示す基軸単語共起ベクトルのように変換される。

文書解析システムＹａの他の動作は第一の実施例と同様である。例えば、図２０の基軸単語Ｓｗ「資材」に関する基軸単語共起ベクトルＮｗの共起数Ｎｗｊの各基軸単語共起語Ｖｗｊについて、前記概念直接抽出法によって、図２１のような共起語概念Ｃ１ｖｗｊ、共起語概念Ｃ２ｖｗｊ、共起語概念Ｃ３ｖｗｊが抽出された場合、共起語概念図Ｃｖｗｊは図２２のような樹形図で表される。さらに、図２２の例で類似性Ｆｗの閾値を１以上とすると、中分類の共起語概念Ｃ２ｖｗｊ以下で各基軸単語共起語Ｖｗｊがクラスタリングされることになり、図２３に示すような点線で囲まれた３つのクラスタが基軸単語共起語クラスタＥｗｚとして抽出される。クラスタ規模の閾値を第一の実施例よりも高く３０％としても、基軸単語共起語Ｖｗｊが属する基軸単語共起語クラスタＥｗｚとして「産業」と「経済」の二つが抽出され、基軸単語Ｓｗ「資材」は多義語候補Ａｗと判定される。このように辞書に登録されていない未知の複合語を、構成語毎に考慮することでより多くの基軸単語共起語を考慮した多義語の推定が精度よく可能となる。

以上説明したように、本発明の多義語抽出システムによれば、情報システム構築に関する提案書や仕様書等といった所定の案件に関する文書内で複数の意味を割り当てられている多義語のある文書について、その文書で成り立っている多義語を把握することが分析に使用した文書又は文書群から可能となる。もって、情報システムの構築時に、誤解に基づく混乱や失敗などの削減につながる。その理由は、単語の共起語の類似性を概念レベルでの一致具合で算出し、共起語をクラスタリングすることで、特定の案件に関する文書群という限られた文書量の情報で同一の共起語の使用が無くても、用法的に複数の共起語群を持ち多義である可能性の高い単語を抽出可能にしているためである。

また、本発明の具体的な構成は前述の実施の形態に限られるものではなく、この発明の要旨を逸脱しない範囲の変更があってもこの発明に含まれる。

例えば、一般概念と異なる概念での用法を有する多義語を含む文書中からその多義語を所要に抽出するため、多義語抽出システムとして動作する情報処理装置を、入力部から受け付けた文書から多義語を抽出する際に、文章として使用されている各単語の抽出を行うと共に、抽出した単語群から任意の単語を基軸単語として共起関係を有する基軸単語共起語及び共起数から前記基軸単語の基軸単語共起ベクトルを抽出し、該基軸単語共起ベクトルに含まれる各基軸単語共起語の共起語概念を個々に推定し、推定した共起語概念間の類似性に基づいて含まれていた各基軸単語共起語をクラスタ化し、前記任意の単語として選択した基軸単語に関して複数のクラスタが存在した際に該基軸単語を多義語候補とする処理を繰り返して、抽出した多義語候補を出力部から出力する。

この際に、分析対象とする文書毎（文章群毎）に重み付けを与えられるようにしてもよい。
例えば、確度の高い文書とそうではない文書とを重み付けと共に入力を受け付けて、各係数として使用してもよい。
また、分析対象とする文書群（文章群）の作成者や所属機関などについて重み付けを与えられるようにしてもよい。
また、文書群の有する引用関係や引用数に基づいて重み付けを算定してもよい。
また、翻訳されている文章についてその多義語を抽出する際に、使用する一般概念を翻訳前の元言語の一般概念を使用するようにしてもよい。
これらの情報は、操作者から受け付けることとしてもよいし、文章を構文解析や意味解析などの自然言語解析を行って自動的に抽出するようにしてもよい。
また、自然言語解析によって、使用する概念推定方法などのアルゴリズムを、適する候補の抽出や自動選択を行うようにしてもよい。

本発明によれば、ソフトウェアやシステムの開発における要件定義などの作業においてやり取りされる各種文書に関して、文書の曖昧さを除外することで文書の理解・作成・修正を支援することが可能になり、手戻りの減少や顧客満足の向上などシステム開発の効率化に関する用途に適用できる。
また、多義語を精度よく抽出できるので、翻訳システムに用いて訳し分けに利用できる。

１０文書入力部
２０、２０Ａ単語分析部
３０基軸単語共起ベクトル抽出部
３５構成語支配度算出部
３６複合語構成配分推定部
４０、４０Ａ共起語概念推定部
５０共起語分類部
６０多義語候補推定部
７０多義語候補出力部
１００、１００Ａ多義語抽出システム
Ｄ文書
Ｙ、Ｙａ文書解析システム
Ｚ、Ｚ’ インターネット・サーバ

Claims

入力を受けた所定の文章に使用されている各単語の抽出を行う単語分析部と、
前記単語の内で任意の単語を基軸単語として選択し、該基軸単語と共起関係とみなされる基軸単語共起語とその共起数とで表される基軸単語共起ベクトルを抽出する基軸単語共起ベクトル抽出部と、
基軸単語共起ベクトルの各基軸単語共起語の共起語概念を一般概念から推定する共起語概念推定部と、
推定した共起語概念群について、対応する共起語概念間の類似性に基づき、前記選択した基軸単語に関する各基軸単語共起語のクラスタリングを行う共起語分類部と、
前記選択した基軸単語に関して複数のクラスタが存在した際に該基軸単語を多義語候補として抽出する多義語候補推定部と、
抽出した多義語候補を出力する多義語候補出力部と、
を備えたことを特徴とする多義語抽出システム。
対象とする文書もしくは文書群の入力を受け付ける文書入力部と、
文書もしくは文書群を構成する文章に使用されている各単語の抽出および単語毎の品詞や格、組み合される助詞、単語間の係り受け関係に関する単語情報の抽出を行う単語分析部と、
前記単語の内で任意の単語を基軸単語として選択して、基軸単語毎の単語情報に基づき、任意の基軸単語共起判定ルールで基軸単語と共起関係とみなされる基軸単語共起語とその共起数とで表される基軸単語共起ベクトルをそれぞれ抽出する基軸単語共起ベクトル抽出部と、
単語の概念分類、同義語、類義語、用法といった単語の一般概念を体系付けた一般概念情報を収集して蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答する概念データベースと、
概念データベースの一般概念情報を利用し、所定の概念推定方法に基づき、基軸単語共起ベクトルの各基軸単語共起語の共起語概念を推定する共起語概念推定部と、
特定の基軸単語に関する各基軸単語共起語について、対応する前記共起語概念間の類似性を所定の類似性指標によって算出し、前記共起語概念間の類似性指標に基づき各基軸単語共起語のクラスタリングを行う共起語分類部と、
各基軸単語に関する各基軸単語共起語の各クラスタの規模が任意に定めた閾値以上のクラスタが複数存在する基軸単語を、多義語候補として抽出する多義語候補推定部と、
抽出した多義語候補を出力する多義語候補出力部と、
を備えたことを特徴とする多義語抽出システム。
入力を受けた所定の文章に使用されている各単語の抽出を行い、各単語の内で複合語とその構成語を抽出する単語分析部と、
構成語毎に構成語支配度を算出する構成語支配度算出部と、
各構成語支配度を使用して複合語毎に構成語重み付け係数を算出する複合語構成配分推定部と、
前記単語の内で任意の単語を基軸単語として選択し、該基軸単語と共起関係とみなされる基軸単語共起語とその共起数とで表される基軸単語共起ベクトルを抽出する基軸単語共起ベクトル抽出部と、
基軸単語共起表の基軸単語共起ベクトルの各共起語の内で複合語になっている基軸単語共起語について、各構成語をそれぞれ基軸単語共起語として扱い、前記基軸単語共起語の共起数に各構成語の構成語重み付け係数を掛けて算出した値を各構成語の共起数として基軸単語共起ベクトルを更新し、基軸単語共起ベクトルの各基軸単語共起語の共起語概念を一般概念から推定する共起語概念推定部と、
推定した共起語概念群について、対応する共起語概念間の類似性に基づき、前記選択した基軸単語に関する各基軸単語共起語のクラスタリングを行う共起語分類部と、
前記選択した基軸単語に関して複数のクラスタが存在した際に該基軸単語を多義語候補として抽出する多義語候補推定部と、
抽出した多義語候補を出力する多義語候補出力部と、
を備えたことを特徴とする多義語抽出システム。
対象とする文書もしくは文書群の入力を受け付ける文書入力部と、
単語の概念分類、同義語、類義語、用法といった単語の一般概念を体系付けた一般概念情報を収集して蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答する概念データベースと、
文書もしくは文書群を構成する文章に使用されている各単語の抽出および単語毎の品詞や格、組み合される助詞、単語間の係り受け関係に関する単語情報の抽出を行い、概念データベースに抽出された各単語で一般概念情報の登録が無く、かつ文字数が２文字以上の単語を複合語として抽出し、複合語を構成するあらゆる部分文字列について、一般概念情報の登録がある部分文字列を複合語の有意構成語として抽出し、登録が無い部分文字列を不明構成語として抽出する単語分析部と、
各単語の単語情報、および複合語に基づき、複合語共起判定ルールで複合語と共起する単語を複合語共起語として、複合語毎に複合語共起語とその共起数を抽出し、これらをまとめることで複合語共起表を作成し、前記複合語共起表から同じ構成語を含む部分一致複合語の複合語共起語からなる複合語共起ベクトルを抽出し、構成語別に部分一致複合語共起表を作成し、部分一致複合語共起表の複合語共起ベクトルから得られる共起ベクトル空間における各部分一致複合語間の集約度を構成語支配度として算出する構成語支配度算出部と、
各構成語支配度を使用して複合語毎の各構成語間の構成語重み付け係数を算出し、構成語重み付け係数をまとめた複合語構成配分表を作成する複合語構成配分推定部と、
前記単語の内で任意の単語を基軸単語として選択して、基軸単語毎の単語情報に基づき、任意の基軸単語共起判定ルールで基軸単語と共起関係とみなされる基軸単語共起語とその共起数とで表される基軸単語共起ベクトルをそれぞれ抽出する基軸単語共起ベクトル抽出部と、
基軸単語共起表の基軸単語共起ベクトルの各共起語の内で複合語になっている基軸単語共起語について、各構成語をそれぞれ基軸単語共起語として扱い、複合語構成配分表に基づき、前記基軸単語共起語の共起数に各構成語の構成語重み付け係数を掛けて算出した値を各構成語の共起数として基軸単語共起ベクトルを更新し、概念データベースの一般概念情報を利用し、所定の概念推定方法に基づき、基軸単語共起ベクトルの各基軸単語共起語の共起語概念を推定する共起語概念推定部と、
前記任意の基軸単語に関する各基軸単語共起語について、対応する前記共起語概念間の類似性を所定の類似性指標によって算出し、前記共起語概念間の類似性指標に基づき各基軸単語共起語のクラスタリングをそれぞれ行う共起語分類部と、
各基軸単語に関する各基軸単語共起語の各クラスタの規模が任意に定めた閾値以上のクラスタが複数存在する基軸単語を、多義語候補として抽出する多義語候補推定部と、
抽出した多義語候補を出力する多義語候補出力部と、
を備えたことを特徴とする多義語抽出システム。
前記基軸単語共起ベクトル抽出部における基軸単語共起判定ルールが、基軸単語と係り受けの関係にある単語を共起語と見なすルール、又は基軸単語と同一の文内で特定の助詞を伴って使用されている単語を共起語と見なすルールを用いることを特徴とする請求項２又は４に記載の多義語抽出システム。
前記概念データベースは、単語を分類体系付けて記憶しており、単語間の同義関係、類義関係、上位/下位関係、部分/全体関係について、一般概念情報として取得できるシソーラスである、ことを特徴とする請求項２又は４に記載の多義語抽出システム。
前記共起語概念推定部の概念推定方法が、各基軸単語共起語に関する一般概念情報を前記概念データベースに問い合わせ、特定の基軸単語の全基軸単語共起語を一般概念情報概念に置き換えた基軸単語共起概念ベクトルを共起語概念とし、前記共起語分類部が、全基軸単語共起語が同一の一般概念情報概念と見なされるまでの分類の深さを類似性指標としてクラスタリングを行う、ことを特徴とする請求項６に記載の多義語抽出システム。
前記共起語概念推定部の概念推定方法が、基軸単語共起語について任意の周辺語判定ルールで基軸単語共起語の周辺に存在する周辺語とその存在数に基づく周辺語構成ベクトルを全基軸単語共起語についてまとめた周辺語構成表を作成し、周辺語構成表の周辺語構成ベクトルにおける各周辺語のそれぞれについて、前記概念データベースに一般概念情報を問い合わせ、任意の範囲内で周辺語構成表における各周辺語構成ベクトルの各周辺語を一般概念に変換した周辺語概念ベクトルを対応する基軸単語共起語毎に作成し、特定の基軸単語の全基軸単語共起語に対応する周辺概念ベクトルをまとめた基軸単語共起概念表を共起語概念とし、
前記共起語分類部が、階層毎に各基軸単語共起語に対応する前記周辺語概念ベクトル間の距離を算出し、より詳細な分類での距離ほど重視するように重み付けた距離と単調減少の関係にある関数値を類似性指標としてクラスタリングを行う、ことを特徴とする請求項６に記載の多義語抽出システム。
前記共起語概念推定部の概念推定方法における任意の周辺語判定ルールが、１文内で共存する動詞、および目次上の同一項目内の文章内の名詞のように品詞毎に周辺とみなす範囲を変えるアルゴリズムを含む、ことを特徴とする請求項８に記載の多義語抽出システム。
前記構成語支配度算出部の複合語共起判定ルールが、品詞が動詞であれば係り受け関係が有る単語、名詞であれば同一段落内の単語のように、品詞毎に共起と見なす範囲をおよび条件を変えて複合語共起語の抽出および複合語共起数の算出を行うアルゴリズムを含む、ことを特徴とする請求項４乃至９のいずれか１項に記載の多義語抽出システム。
前記構成語支配度算出部における部分一致複合語間の集約度が、各部分一致複合語に対応するベクトル間の散らばりの小ささを表す指標として、ばらつきを示す指標と単調減少の関係にある関数で算出される、ことを特徴とする請求項４乃至１０のいずれか１項に記載の多義語抽出システム。
前記構成語支配度算出部における部分一致複合語間の集約度が、共起語の品詞によって重み付けを行ったベクトル空間に基づいて算出される、ことを特徴とする請求項４乃至１１のいずれか１項に記載の多義語抽出システム。
前記複合語構成配分推定部が、複合語の各構成語の構成語支配度を複合語毎の構成語支配度の総和で除すことで、正規化した重み付け係数を算出する、ことを特徴とする請求項４乃至１２のいずれか１項に記載の多義語抽出システム。
分析対象とする文書毎又は文章群毎に重み付け係数を与えて、任意の基軸単語に関する個々の基軸単語共起語の確度ある共起語概念を一般概念から推定することに使用し、該推定した共起語概念を用いてクラスタを形成して、前記基軸単語を多義語候補とするか判別することを特徴とする請求項１乃至１３のいずれか１項に記載の多義語抽出システム。
入力を受けた所定の文章に使用されている各単語を抽出処理し、
抽出した単語の内で任意の単語を基軸単語として選択して、該基軸単語と共起関係とみなされる基軸単語共起語とその共起数とで表される基軸単語共起ベクトルを抽出処理し、
抽出した基軸単語共起ベクトルの各基軸単語共起語の共起語概念を一般概念から推定処理し、
推定した共起語概念群について、対応する共起語概念間の類似性に基づき、前記選択した基軸単語に関する各基軸単語共起語についてクラスタリング処理を行い、
前記選択した基軸単語に関して複数のクラスタが存在した際に該基軸単語を多義語候補として抽出処理する
ことを特徴とする情報処理システムによる多義語抽出方法。
入力部から受け付けた文書もしくは文書群を構成する文章に使用されている各単語の抽出および単語毎の品詞や格、組み合される助詞、単語間の係り受け関係に関する単語情報の抽出を実行し、
前記単語の内で任意の単語を基軸単語として選択して、基軸単語毎の単語情報に基づき、任意の基軸単語共起判定ルールで基軸単語と共起関係とみなされる基軸単語共起語とその共起数とで表される基軸単語共起ベクトルをそれぞれ抽出処理し、
単語の概念分類、同義語、類義語、用法といった単語の一般概念を体系付けた一般概念情報を収集して蓄積すると共に特定の単語に関する問い合わせに対して、単語の意味や用法に関連する一般概念情報を検索し応答する概念データベースから、応答として得られる一般概念情報を利用し、所定の概念推定方法に基づき、基軸単語共起ベクトルの各基軸単語共起語の共起語概念を推定処理し、
特定の基軸単語に関する各基軸単語共起語について、対応する前記共起語概念間の類似性を所定の類似性指標によって算出し、前記共起語概念間の類似性指標に基づき各基軸単語共起語のクラスタリング処理を行い、
各基軸単語に関する各基軸単語共起語の各クラスタの規模が任意に定めた閾値以上のクラスタが複数存在する基軸単語を、多義語候補として抽出処理する
ことを特徴とする情報処理システムによる多義語抽出方法。
情報処理装置の制御部を、
入力を受けた所定の文章に使用されている各単語の抽出を行う単語分析部と、
前記単語の内で任意の単語を基軸単語として選択し、該基軸単語と共起関係とみなされる基軸単語共起語とその共起数とで表される基軸単語共起ベクトルを抽出する基軸単語共起ベクトル抽出部と、
基軸単語共起ベクトルの各基軸単語共起語の共起語概念を一般概念から推定する共起語概念推定部と、
推定した共起語概念群について、対応する共起語概念間の類似性に基づき、前記選択した基軸単語に関する各基軸単語共起語のクラスタリングを行う共起語分類部と、
前記選択した基軸単語に関して複数のクラスタが存在した際に該基軸単語を多義語候補として抽出する多義語候補推定部と、
抽出した多義語候補を出力する多義語候補出力部
として動作させることを特徴とするプログラム。
情報処理装置の制御部を、
対象とする文書もしくは文書群の入力を受け付ける文書入力部と、
文書もしくは文書群を構成する文章に使用されている各単語の抽出および単語毎の品詞や格、組み合される助詞、単語間の係り受け関係に関する単語情報の抽出を行う単語分析部と、
前記単語の内で任意の単語を基軸単語として選択して、基軸単語毎の単語情報に基づき、任意の基軸単語共起判定ルールで基軸単語と共起関係とみなされる基軸単語共起語とその共起数とで表される基軸単語共起ベクトルをそれぞれ抽出する基軸単語共起ベクトル抽出部と、
単語の概念分類、同義語、類義語、用法といった単語の一般概念を体系付けた一般概念情報を収集して蓄積すると共に特定の単語に関する問い合わせに対して、単語の意味や用法に関連する一般概念情報を検索し応答する概念データベースから応答として得られた一般概念情報を利用し、所定の概念推定方法に基づき、基軸単語共起ベクトルの各基軸単語共起語の共起語概念を推定する共起語概念推定部と、
特定の基軸単語に関する各基軸単語共起語について、対応する前記共起語概念間の類似性を所定の類似性指標によって算出し、前記共起語概念間の類似性指標に基づき各基軸単語共起語のクラスタリングを行う共起語分類部と、
各基軸単語に関する各基軸単語共起語の各クラスタの規模が任意に定めた閾値以上のクラスタが複数存在する基軸単語を、多義語候補として抽出する多義語候補推定部と、
抽出した多義語候補を出力する多義語候補出力部
として動作させることを特徴とするプログラム。