JP5754018B2 - 多義語抽出システム、多義語抽出方法、およびプログラム - Google Patents
多義語抽出システム、多義語抽出方法、およびプログラム Download PDFInfo
- Publication number
- JP5754018B2 JP5754018B2 JP2011152983A JP2011152983A JP5754018B2 JP 5754018 B2 JP5754018 B2 JP 5754018B2 JP 2011152983 A JP2011152983 A JP 2011152983A JP 2011152983 A JP2011152983 A JP 2011152983A JP 5754018 B2 JP5754018 B2 JP 5754018B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- occurrence
- basic
- concept
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
すなわち、文章解析部は、解析対象とするコーパス中の文章の形態素解析及び構文解析を実行して動詞各関係基礎データを生成し、名詞リスト、動詞リスト及び共起関係データを生成する。名詞間距離計算部は、生成した各リスト、及び共起関係データに基づいて名詞間距離を求める。名詞クラスタリング部は、計算された名詞間距離に基づいて名詞クラスタを生成する。多義性解消部は、この名詞クラスタの有するツリー構造に基づいて各名詞と共起関係のある動詞の多義性を解消し前記動詞リスト及び共起関係データを修正する。再クラスタリング部は、この多義性解消部によって修正された動詞リスト及び共起関係データに基づいて再度名詞クラスタリングを実行する。シソーラス生成部は、この再クラスタリング結果に基づいて単語のシソーラスを生成する。データ格納部は、解析対象である大量の文章であるコーパスと、このコーパスを解析することで生成された動詞格関係基礎データと、文章中に出現した動詞をその出現頻度と共に格納する動詞リストと、文書中に出現する名詞をその出現頻度と共に格納する名詞リストと、前記各リスト中の動詞と名詞の共起関係を格納する共起関係データと、名詞間距離計算部によって求められる名詞間距離と、クラスタリング処理によって生成された名詞クラスタと、シソーラス生成処理によって生成された名詞及び動詞のシソーラスとを格納する。このような構成により、文書中の単語について、動詞と名詞の単語間距離とに基づいて、動詞の多義性を判断し、この判断に基づいて単語リスト及び共起関係データを修正し、これに基づいて再度名詞のクラスタリングを行うことで、精度の高いシソーラスが構築できるとしている。
入力部は、原言語文字列を入力する。次に、入力文字列記憶部は、入力された文字列を記憶する。翻訳辞書部は、原言語単語と相手言語の形態情報、原言語と相手言語の対訳情報などを保持している。辞書検索部は、翻訳辞書を検索する。翻訳処理部は、原言語を前記翻訳辞書部を参照して他の言語に翻訳し、翻訳処理において多義性を識別したとき、多義性解消部に多義性の解消を指示する。知識ベース部は、原言語における単語間の共起関係と、それに対応する相手言語の表現とを集める。単語シソーラス部は、意味的に類似した単語を記憶する。多義性解消部は、入力文字列を相手言語に翻訳するときに生じる多義性を解消する。そのため、多義性解消部は前記知識ベースを参照して訳語を検出し、検出できないときは前記単語シソーラス部中の意味類似単語に置き換えた原文で前記知識ベースを検索して訳語を検出し、さらに検出できないときは、訳語を頻度により決定する。翻訳結果出力部は、翻訳処理結果を出力する。このような構成により、訳語に多義性が発生したとき、知識ベースの規模が、単語シソーラスで補われて、等価的に大きな知識ベースをもとに多義性を解消することを実現している。
本発明に係る情報処理システムによる多義語抽出方法は、入力を受けた所定の文章に使用されている各単語を抽出処理し、抽出した単語の内で任意の単語を基軸単語として選択して、該基軸単語と共起関係とみなされる基軸単語共起語とその共起数とで表される基軸単語共起ベクトルを抽出処理し、抽出した基軸単語共起ベクトルの各基軸単語共起語の共起語概念を一般概念から推定処理し、推定した共起語概念群について、対応する共起語概念間の類似性に基づき、前記選択した基軸単語に関する各基軸単語共起語についてクラスタリング処理を行い、前記選択した基軸単語に関して複数のクラスタが存在した際に該基軸単語を多義語候補として抽出処理することを特徴とする。
本発明に係るプログラムは、情報処理装置の制御部を、入力を受けた所定の文章に使用されている各単語の抽出を行う単語分析部と、前記単語の内で任意の単語を基軸単語として選択し、該基軸単語と共起関係とみなされる基軸単語共起語とその共起数とで表される基軸単語共起ベクトルを抽出する基軸単語共起ベクトル抽出部と、基軸単語共起ベクトルの各基軸単語共起語の共起語概念を一般概念から推定する共起語概念推定部と、推定した共起語概念群について、対応する共起語概念間の類似性に基づき、前記選択した基軸単語に関する各基軸単語共起語のクラスタリングを行う共起語分類部と、前記選択した基軸単語に関して複数のクラスタが存在した際に該基軸単語を多義語候補として抽出する多義語候補推定部と、抽出した多義語候補を出力する多義語候補出力部として動作させることを特徴とする。
最初に、本発明の第1の実施形態について、図面を参照して詳細に説明する。
図1は、本発明の第1の実施形態に係る多義語抽出システム100の構成を示すブロック図である。
図示の多義語抽出システム100は、情報システム構築に関する提案書や仕様書等といった 所定の案件に関する文書内で複数の意味を割り当てられている多義語を抽出する多義語抽出システムである。
この場合、データ処理装置が、文書入力部10、単語分析部20、基軸単語共起ベクトル抽出部30、共起語概念推定部40、共起語分類部50、多義語候補推定部60として働き、補助記憶装置が概念データベース110として動作し、出力装置が多義語候補出力部70として働く。
ここで、前記周辺語判定ルールとしては1文、1段落内の全文章、目次上の同一項目内での全文章、文書全体など、文書の特徴に合わせて周辺と見なす範囲を設定して良く、1文内で共存する動詞、および目次上の同一項目内の文章内の名詞のように品詞毎に周辺とみなす範囲を変えても良い。さらに、単語間の係り受け関係のある単語かどうかを前記周辺語判定ルールとして利用しても良い。また、存在数は存在個数でも良いが、存在個数を基軸単語共起語毎の全周辺語数で除した頻度などでも良い。また、周辺語構成表とは各行が各基軸単語共起語に、各列が各周辺語に対応している行列で、基軸単語共起語に対する周辺語の存在数が表の各値として登録されたものである。概念への変換で異なる周辺語が同じ概念となる場合はそれぞれの周辺語を合流し、存在数の和を対応箇所へ登録する。また、概念データベース110として大分類、中分類、小分類のような複数の階層での概念が一般概念情報として登録されたシソーラスを用いる場合、階層毎に基軸単語共起概念表を作成し、大分類など広い概念での基軸単語共起概念表で異なる周辺語が同じ概念となる場合は、それぞれの周辺語を合流し、存在数の和を対応箇所へ登録する。他に、概念データベース110として同義語を含む類義語群が一般概念情報として登録された類語辞書を用いた場合、周辺語を対応する類義語群の各類義語に変換し、各類義語の存在数として対応する周辺語の存在数を割り当て、同一の基軸単語共起語の周辺語に関して変換された類義語毎の共起数の延べ数を周辺語概念ベクトルとして算出し、特定の基軸単語の全基軸単語共起語に対応する周辺概念ベクトルをまとめることで基軸単語共起概念表を作成しても良い。なお、概念データベース110に周辺語に対応する概念が無い場合、前記共起語を概念に変換せず、共起語の単語をそのまま仮の概念として扱い残す。
次に、図1、及び図2に示すシーケンスを参照して、第1の実施形態に係る多義語抽出システム100の全体の動作について詳細に説明する。なお、図2に示す流れ図および以下の説明は処理例であり、適宜求める効果に応じて処理順等を入れ替えたり処理を戻したり繰り返したりすることを行ってもよい。
単語分析部20は、文書もしくは文書群を構成する各文章に形態素解析や構文解析などを適用することで、各文章に使用されている名詞、動詞、形容詞、形容動詞など単独で意味をなす自立語を単語として抽出し、さらに単語毎の品詞や直後に使用された助詞の種類、単語間の係り受け関係などの単語情報の抽出を行う(ステップA2)。
本第1の実施形態では、文書内もしくは文書群内の基軸単語共起語を共起語概念に変換することによって、意味的には類似するが単語としては一致しない共起語をクラスタリングした結果に基づいて多義語候補を抽出するように構成しているため、各基軸単語共起語の出現回数が少なく基軸単語共起語間の距離が0となりがちな文章量の少ない条件でも基軸単語について用法のパターンが複数あるかどうかの把握が可能になり、所定の案件に関する文書内で複数の意味を割り当てられている多義語を精度よく抽出できる。
尚、上記第1の実施形態に係る多義語抽出システム100は、多義語抽出方法として実現され得る。また、上記第1の実施形態に係る多義語抽出システム100は、多義語抽出プログラムによりコンピュータによって実行させるようにしても良い。
次に、第2の実施形態について、図面を参照して詳細に説明する。
図3は、第3の実施形態に係る多義語抽出システム100Aの構成を示すブロック図である。
そして、単語分析部20Aが文書中の単語の中の複合語および複合語の構成語を取得し、構成語支配度算出部35が、複合語の構成語毎の構成語支配度を算出し、複合語構成配分推定部36が、構成語支配度に基づき複合語の構成語毎の概念に重み付けを行った複合語構成配分表を作成し、共起語概念推定部40Aが、基軸単語共起語を概念に変換する前に、基軸単語共起ベクトルの中で複合語となっている基軸単語共起語の共起数を複合語構成配分表に基づいて分配した共起数に換算を行う。
なお複合語を構成する部分文字列の内、概念データベース110に一般概念情報の登録がある部分文字列の組合せパターンが複数考えられる場合は、任意の構成語分離ルールに基づいて最適な組合せパターンを判定し、その組合せパターンでの有意構成語、不明構成語を抽出する。ここで、構成語分離ルールとしては、不明構成語の文字数が最も少なくなるパターンを優先するルールや、入力された文書中に単独の単語として出現する頻度が高い有意構成語を優先するルール、一般の文書中に単独の単語として出現する頻度が高い有意構成語を優先するルール、およびこれらを組合せたルールなどが有効である。また、入力された文書中に含まれる他の複合語に共通して使用されている文字列が所定頻度以上に使用されている場合にはその文字列を除いた残りの文字列について、有意構成語として優先するルールを用いてもよい。
なお、一般概念情報とはシソ−ラスにおける分類や、単語の意味を直接的に表すキーワード、類語の集合などが考えられる。
なお、以下で単に構成語と記載した場合は有意構成語と不明構成語を含む。
ここで、複合語共起判定ルールとしては1文、1段落内の全文章、目次上の同一項目内での全文章、文書全体、文書のタイトル、文書群の中での位置付けなど、文書の特徴に合わせて選択して良い。例えば、品詞が動詞であれば1文内での共起、名詞であれば目次上の同一項目内での全文章内共起のように品詞毎に文書群の範囲を変えるようにすれば良い。
また、共起数は共起回数でも良いが、共起回数を複合語毎の全共起語数で除した頻度などでも良い。
さらに、単語情報に単語間の係り受け関係が含まれる場合は、係り受け関係のある単語かどうかを複合語共起判定ルールとして利用しても良い。
また、複合語共起表とは各行が各複合語に、各列が各複合語共起語に対応している行列で、複合語に対する複合語共起語の共起数が表の各値として登録されたものである。
ここで、共起ベクトル空間は各ベクトルを対等としても良いが、複合語共起語の品詞によって重み付けを行ったベクトル空間に変換しても良い。また、各部分一致複合語間の集約度とは各部分一致複合語に対応するベクトル間の散らばりの小ささを表す指標であればどのような算出方法によっても良い。例えば分散や標準偏差、変動係数などの一般に統計で用いられるばらつきを示す指標と単調減少の関係にある関数であればよく、分散の逆数や変動係数の逆数などが適している。
複合語概念構成表とは、各行が各複合語に、各列が複合語の各構成語に対応した行列で、対応する構成語重み付け係数が登録されたものである。
ここで、構成語重み付け係数の算出方法としては、各構成語の構成語支配度を複合語毎の構成語支配度の総和で除すことで正規化した値を指標とする方法などが有効である。
なお、使用する概念推定方法として、複合語を含む周辺語を考慮し、特定の基軸単語の全基軸単語共起語に対応する周辺概念ベクトルをまとめた基軸単語共起概念表を共起語概念とする場合、前記基軸単語共起表の周辺語構成ベクトルの各周辺語の内で複合語になっている周辺語について、各構成語をそれぞれ周辺語として独立させ、複合語構成配分推定部36で作成した複合語構成配分表に基づき、前記周辺語の存在数に各構成語の構成語重み付け係数を掛けて算出した値を各構成語の存在数として周辺語構成ベクトルを変更しても良い。
上述した第1の実施形態の動作と比較すると、以下に説明する本第2の実施形態の動作は、次の動作が加わっている点で異なる。
さらに単語分析部20Aは、複合語を構成するあらゆる部分文字列について、概念データベース110に一般概念情報を問い合わせ、一般概念情報の登録がある部分文字列を複合語の有意構成語として抽出し、抽出した有意構成語を元の複合語から分離した場合に概念データベース110に一般概念情報の登録が無い部分文字列が残る場合は不明構成語として抽出する(ステップB2)。
さらに構成語支配度算出部35は、複合共起表と単語分析部20Aで抽出された構成語に基づき、前記複合語共起表から同じ構成語を含む部分一致複合語の複合語共起語からなる複合語共起ベクトルを抽出し、構成語別に部分一致複合語共起表を作成し、部分一致複合語共起表の複合語共起ベクトルから得られる共起ベクトル空間における各部分一致複合語間の集約度を構成語支配度として算出する(ステップB4)。
他のステップの動作は、上述した第1の実施形態における動作と同一であるので、それらの説明については省略する。
第2の実施形態では、第1の実施の形態の効果に加え、基軸単語共起語の中の複合語について構成語毎の構成語支配度を算出し、構成語支配度に基づき重み付けを行った概念に変換する。このことによって、シソーラスなどに一般概念情報の登録が無い複合語なども考慮して多義語候補を抽出するように構成できるため、基軸単語共起ベクトルから基軸単語概念ベクトルへの変換の障害となる、独自の複合語の多い文章群でも基軸単語共起語間の類似性の評価が可能になり、所定の案件に関する文書内で複数の意味を割り当てられている多義語をより精度よく抽出できる。
尚、上記第2の実施形態に係る多義語抽出システム100Aは、多義語抽出方法として実現され得る。また、上記本発明の第2の実施形態に係る多義語抽出システム100Aは、多義語抽出プログラムによりコンピュータによって実行させるようにしても良い。
先ず、多義語抽出システム100は、情報システム構築に関する提案書や仕様書といった一般的な意味と異なった概念を示す意味としても使用される多義語を含む文書D内に含まれる特定の案件に関する文書群でのみ成り立つ多義語候補Aを推定する。そして、多義語抽出システム100は、推定結果を出力することで、未登録の用語に関する用語集の作成や単語の定義を支援する。また、本第1の実施例では、多義語抽出システム100は、図5に示されるように、文書解析システムYと、インターネット・サーバZとで構成されるものとする。
文書解析システムYは、分析実施者Bの持つPC端末上で動作し、入力部及び出力部を介して、分析実施者Bが多義語を抽出したい文書群を構成する文章の入力と、多義語候補Aの提示を実現する。
インターネット・サーバZは、通信ネットワークを介して文書解析システムYを実装した分析実施者Bの持つPC端末と接続されている。インターネット・サーバZは、文書解析システムYからの単語の意味などの概念情報の問い合わせに対して、単語の概念分類や一般的な多義語や類義語、用法に関連する一般概念情報Cgの検索を可能にする装置である。
文書入力部10と、単語分析部20と、基軸単語共起ベクトル抽出部30と、共起語概念推定部40と、共起語分類部50と、多義語候補推定部60とは、文書解析システムY内に含まれている。多義語候補出力部70は、PC端末の出力部として動作する。概念データベース110はインターネット・サーバZ内に含まれている。この様な手段を備えた文書解析システムY、インターネット・サーバZは以下のような動作をする。
なお、周辺語構成表VVの基軸単語共起語Vwjに対する各周辺語Vvwjfの存在数Ljfをまとめたデータセットを周辺語構成ベクトルLjと呼ぶ。周辺語構成表VVの各周辺語Vvwjfのそれぞれの一般概念情報Cgについてインターネット・サーバZに問い合わせを行うことで、インターネット・サーバZ内に保存されたシソーラスの一般概念情報Cgの分類体系から取得する。その後、各周辺語Vvwjfが属する大分類の周辺語概念C1vwjfと、中分類の周辺語概念C2vwjfと、小分類の周辺語概念C3vwjfとを抽出し、周辺語構成表VVにおける周辺語Vvwjfを周辺語概念C1vwjfに変換し、同じ概念となる周辺語Vvwjfをまとめ、存在数Ljfの和を対応箇所へ登録した大分類の共起語概念表VC1、周辺語構成表VVにおける周辺語Vvwjfを周辺語概念C2vfwjfに変換し、同じ概念となる周辺語Vvwjfをまとめ、存在数Ljfの和を対応箇所へ登録した中分類の共起語概念表VC2、周辺語構成表VVにおける周辺語Vvwjfを周辺語概念C3vfwjfに変換し、同じ概念となる周辺語Vvwjfをまとめ、存在数Ljfの和を対応箇所へ登録した小分類の共起語概念表VC3を作成する。
なお、大分類の共起語概念表VC1の基軸単語共起語Vwjに対する各周辺語概念C1vfwjfの存在数Lc1jfをまとめたデータセットを大分類共起語概念ベクトルLc1jと呼び、中分類の共起語概念表VC2の基軸単語共起語Vwjに対する各周辺語概念C2vfwjfの存在数Lc2jfをまとめたデータセットを中分類基軸単語概念ベクトルLc2jと呼び、小分類の共起語概念表VC3の基軸単語共起語Vwjに対する各周辺語概念C3vfwjfの存在数Lc3jfをまとめたデータセットを小分類共起語概念ベクトルLc3jと呼ぶ。
dpq=β1×dc1pq+β2×dc2pq+β3×dc3pq・・・(1)式
前記概念直接抽出法によって各共起語概念Cvwjを求めた図6〜9の例で、閾値を20%とすると、基軸単語共起語Vwjは25個あるため、5個以上の基軸単語共起語Vwjが属する基軸単語共起語クラスタEwzとして「産業」と「経済」の二つが抽出され、基軸単語Sw「資材」は多義語候補Awと判定される。これは基軸単語共起語クラスタEwz「産業」に属する基軸単語共起語Vwjの意味、および基軸単語共起語クラスタEwz「経済」に属する基軸単語共起語Vwjの意味から、「資材」は「材料」および「資材調達部門」の略語としての二つの意味を持った可能性が高く、このような多義性を見出すことができる。同様に、前記概念間接抽出法によって各共起語概念Cvwjを求めた図15の例で、閾値を20%とすると、2つのクラスタはいずれも5個以上の基軸単語共起語Vwjが属しているため基軸単語Sw「資材」は多義語候補Awと判定される。
さらに文書解析システムYは、多義語候補Awについて、要求文書Dで該当する多義語候補Awを色分けや太字による強調などの加工を行い、加工後の要求文書Dを、出力部から出力する。
本第2の実施例では、多義語抽出システム100Aは、図16に示されるように、インターネット・サーバZ’を利用するものとする。
文書解析システムYaは、分析実施者Bの持つPC端末上で動作し、入力部及び出力部を介して、分析実施者Bが多義語を抽出したい文書群を構成する文章の入力と、多義語候補Aの提示を実現する。
すなわち、図16と図3との対応関係は次のように成る。
文書入力部10と、単語分析部20Aと、構成語支配度算出部35と、複合語構成配分推定部36と、基軸単語共起ベクトル抽出部30と、共起語概念推定部40Aと、共起語分類部50と、多義語候補推定部60とは、文書解析システムYa内に含まれている。多義語候補出力部70は、PC端末の出力部として動作する。概念データベース110はインターネット・サーバZ’内に含まれている。
文書解析システムYaは、各基軸単語共起語Vijのそれぞれの一般概念情報Cgをインターネット・サーバZ’に問い合わせることで、インターネット・サーバZ’内に保存されたシソーラスに、各単語Vijの一般概念情報Cgが登録されているかどうかを検索し、シソーラスに一般概念情報Cgの登録が無く、かつ文字数が2文字以上の単語を複合語Vme(e=1、2、・・・、h)として抽出する。例えば「購買処理」という単語がシソーラスに登録されていない場合は、2文字以上であるため複合語として抽出する。
図6の「購買処理」という複合語の例では、{「購」、「買処理」}、{「購買」、「処理」}、{「購買処」、「理」}が分離可能な文字列として想定され、「買処理」と「購買処」がシソーラスに登録されていない場合は、「購」、「購買」、「処理」、「理」が有意構成語Paekの候補、「買処理」、「購買処」が不明構成語Pbekの候補となるが、一般概念情報Cgの登録がない部分文字列の文字数が最も少ない{「購買」、「処理」}の組合せが複合語「購買処理」の有意構成語として選択される。
さらに、文書解析システムYaは、前記複合語共起表VUmの各構成語Pek別に、同じ構成語Px(x=1、2、・・・、t)を含むt個の複合語Vmxの行成分(Mx1,Mx2,Mx3,・,・,・,Mxs)を抽出し、各行成分を各複合語Vmxに、各列を各複合語共起語Umxrに対応させ、複合語Vmxに対する複合語共起語Umxrの共起回数Mxrを各値として登録した疎行列からなる部分一致複合語共起表VUxを作成する。
例えば「処理」という構成語を含む部分一致複合語共起表としては図17、「変更」という構成語を含む部分一致複合語共起表としては図18のような表が作成される。さらに、文書解析システムYaは、以下の数1のように、部分一致複合語共起表VUxの複合語共起語Umxr毎のデータ列(M1r,M2r,M3r,・,・,・,Mtr)で分散σxrを算出し、全複合語共起語Umxrの分散σxrの平均値の平方根の逆数を構成語Pxの構成語支配度Gxとして算出する。
例えば、図6の基軸単語共起語の内で複合語であった「変更処理」、「購買処理」に関して、構成語「処理」の構成語支配度Gxが1.47で、構成語「変更」の構成語支配度Gxが2.21、構成語「購買」の構成語支配度Gxが3.43であった場合、複合語構成配分表Teは図19のようになる。図19は、複合語「変更処理」を構成語「変更」と構成語「処理」の組合せとして理解する場合、構成語「変更」の方が構成語「処理」よりも重要であることを示している。
例えば、確度の高い文書とそうではない文書とを重み付けと共に入力を受け付けて、各係数として使用してもよい。
また、分析対象とする文書群(文章群)の作成者や所属機関などについて重み付けを与えられるようにしてもよい。
また、文書群の有する引用関係や引用数に基づいて重み付けを算定してもよい。
また、翻訳されている文章についてその多義語を抽出する際に、使用する一般概念を翻訳前の元言語の一般概念を使用するようにしてもよい。
これらの情報は、操作者から受け付けることとしてもよいし、文章を構文解析や意味解析などの自然言語解析を行って自動的に抽出するようにしてもよい。
また、自然言語解析によって、使用する概念推定方法などのアルゴリズムを、適する候補の抽出や自動選択を行うようにしてもよい。
また、多義語を精度よく抽出できるので、翻訳システムに用いて訳し分けに利用できる。
20、20A 単語分析部
30 基軸単語共起ベクトル抽出部
35 構成語支配度算出部
36 複合語構成配分推定部
40、40A 共起語概念推定部
50 共起語分類部
60 多義語候補推定部
70 多義語候補出力部
100、100A 多義語抽出システム
D 文書
Y、Ya 文書解析システム
Z、Z’ インターネット・サーバ
Claims (18)
- 入力を受けた所定の文章に使用されている各単語の抽出を行う単語分析部と、
前記単語の内で任意の単語を基軸単語として選択し、該基軸単語と共起関係とみなされる基軸単語共起語とその共起数とで表される基軸単語共起ベクトルを抽出する基軸単語共起ベクトル抽出部と、
基軸単語共起ベクトルの各基軸単語共起語の共起語概念を一般概念から推定する共起語概念推定部と、
推定した共起語概念群について、対応する共起語概念間の類似性に基づき、前記選択した基軸単語に関する各基軸単語共起語のクラスタリングを行う共起語分類部と、
前記選択した基軸単語に関して複数のクラスタが存在した際に該基軸単語を多義語候補として抽出する多義語候補推定部と、
抽出した多義語候補を出力する多義語候補出力部と、
を備えたことを特徴とする多義語抽出システム。 - 対象とする文書もしくは文書群の入力を受け付ける文書入力部と、
文書もしくは文書群を構成する文章に使用されている各単語の抽出および単語毎の品詞や格、組み合される助詞、単語間の係り受け関係に関する単語情報の抽出を行う単語分析部と、
前記単語の内で任意の単語を基軸単語として選択して、基軸単語毎の単語情報に基づき、任意の基軸単語共起判定ルールで基軸単語と共起関係とみなされる基軸単語共起語とその共起数とで表される基軸単語共起ベクトルをそれぞれ抽出する基軸単語共起ベクトル抽出部と、
単語の概念分類、同義語、類義語、用法といった単語の一般概念を体系付けた一般概念情報を収集して蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答する概念データベースと、
概念データベースの一般概念情報を利用し、所定の概念推定方法に基づき、基軸単語共起ベクトルの各基軸単語共起語の共起語概念を推定する共起語概念推定部と、
特定の基軸単語に関する各基軸単語共起語について、対応する前記共起語概念間の類似性を所定の類似性指標によって算出し、前記共起語概念間の類似性指標に基づき各基軸単語共起語のクラスタリングを行う共起語分類部と、
各基軸単語に関する各基軸単語共起語の各クラスタの規模が任意に定めた閾値以上のクラスタが複数存在する基軸単語を、多義語候補として抽出する多義語候補推定部と、
抽出した多義語候補を出力する多義語候補出力部と、
を備えたことを特徴とする多義語抽出システム。 - 入力を受けた所定の文章に使用されている各単語の抽出を行い、各単語の内で複合語とその構成語を抽出する単語分析部と、
構成語毎に構成語支配度を算出する構成語支配度算出部と、
各構成語支配度を使用して複合語毎に構成語重み付け係数を算出する複合語構成配分推定部と、
前記単語の内で任意の単語を基軸単語として選択し、該基軸単語と共起関係とみなされる基軸単語共起語とその共起数とで表される基軸単語共起ベクトルを抽出する基軸単語共起ベクトル抽出部と、
基軸単語共起表の基軸単語共起ベクトルの各共起語の内で複合語になっている基軸単語共起語について、各構成語をそれぞれ基軸単語共起語として扱い、前記基軸単語共起語の共起数に各構成語の構成語重み付け係数を掛けて算出した値を各構成語の共起数として基軸単語共起ベクトルを更新し、基軸単語共起ベクトルの各基軸単語共起語の共起語概念を一般概念から推定する共起語概念推定部と、
推定した共起語概念群について、対応する共起語概念間の類似性に基づき、前記選択した基軸単語に関する各基軸単語共起語のクラスタリングを行う共起語分類部と、
前記選択した基軸単語に関して複数のクラスタが存在した際に該基軸単語を多義語候補として抽出する多義語候補推定部と、
抽出した多義語候補を出力する多義語候補出力部と、
を備えたことを特徴とする多義語抽出システム。 - 対象とする文書もしくは文書群の入力を受け付ける文書入力部と、
単語の概念分類、同義語、類義語、用法といった単語の一般概念を体系付けた一般概念情報を収集して蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答する概念データベースと、
文書もしくは文書群を構成する文章に使用されている各単語の抽出および単語毎の品詞や格、組み合される助詞、単語間の係り受け関係に関する単語情報の抽出を行い、概念データベースに抽出された各単語で一般概念情報の登録が無く、かつ文字数が2文字以上の単語を複合語として抽出し、複合語を構成するあらゆる部分文字列について、一般概念情報の登録がある部分文字列を複合語の有意構成語として抽出し、登録が無い部分文字列を不明構成語として抽出する単語分析部と、
各単語の単語情報、および複合語に基づき、複合語共起判定ルールで複合語と共起する単語を複合語共起語として、複合語毎に複合語共起語とその共起数を抽出し、これらをまとめることで複合語共起表を作成し、前記複合語共起表から同じ構成語を含む部分一致複合語の複合語共起語からなる複合語共起ベクトルを抽出し、構成語別に部分一致複合語共起表を作成し、部分一致複合語共起表の複合語共起ベクトルから得られる共起ベクトル空間における各部分一致複合語間の集約度を構成語支配度として算出する構成語支配度算出部と、
各構成語支配度を使用して複合語毎の各構成語間の構成語重み付け係数を算出し、構成語重み付け係数をまとめた複合語構成配分表を作成する複合語構成配分推定部と、
前記単語の内で任意の単語を基軸単語として選択して、基軸単語毎の単語情報に基づき、任意の基軸単語共起判定ルールで基軸単語と共起関係とみなされる基軸単語共起語とその共起数とで表される基軸単語共起ベクトルをそれぞれ抽出する基軸単語共起ベクトル抽出部と、
基軸単語共起表の基軸単語共起ベクトルの各共起語の内で複合語になっている基軸単語共起語について、各構成語をそれぞれ基軸単語共起語として扱い、複合語構成配分表に基づき、前記基軸単語共起語の共起数に各構成語の構成語重み付け係数を掛けて算出した値を各構成語の共起数として基軸単語共起ベクトルを更新し、概念データベースの一般概念情報を利用し、所定の概念推定方法に基づき、基軸単語共起ベクトルの各基軸単語共起語の共起語概念を推定する共起語概念推定部と、
前記任意の基軸単語に関する各基軸単語共起語について、対応する前記共起語概念間の類似性を所定の類似性指標によって算出し、前記共起語概念間の類似性指標に基づき各基軸単語共起語のクラスタリングをそれぞれ行う共起語分類部と、
各基軸単語に関する各基軸単語共起語の各クラスタの規模が任意に定めた閾値以上のクラスタが複数存在する基軸単語を、多義語候補として抽出する多義語候補推定部と、
抽出した多義語候補を出力する多義語候補出力部と、
を備えたことを特徴とする多義語抽出システム。 - 前記基軸単語共起ベクトル抽出部における基軸単語共起判定ルールが、基軸単語と係り受けの関係にある単語を共起語と見なすルール、又は基軸単語と同一の文内で特定の助詞を伴って使用されている単語を共起語と見なすルールを用いることを特徴とする請求項2又は4に記載の多義語抽出システム。
- 前記概念データベースは、単語を分類体系付けて記憶しており、単語間の同義関係、類義関係、上位/下位関係、部分/全体関係について、一般概念情報として取得できるシソーラスである、ことを特徴とする請求項2又は4に記載の多義語抽出システム。
- 前記共起語概念推定部の概念推定方法が、各基軸単語共起語に関する一般概念情報を前記概念データベースに問い合わせ、特定の基軸単語の全基軸単語共起語を一般概念情報概念に置き換えた基軸単語共起概念ベクトルを共起語概念とし、前記共起語分類部が、全基軸単語共起語が同一の一般概念情報概念と見なされるまでの分類の深さを類似性指標としてクラスタリングを行う、ことを特徴とする請求項6に記載の多義語抽出システム。
- 前記共起語概念推定部の概念推定方法が、基軸単語共起語について任意の周辺語判定ルールで基軸単語共起語の周辺に存在する周辺語とその存在数に基づく周辺語構成ベクトルを全基軸単語共起語についてまとめた周辺語構成表を作成し、周辺語構成表の周辺語構成ベクトルにおける各周辺語のそれぞれについて、前記概念データベースに一般概念情報を問い合わせ、任意の範囲内で周辺語構成表における各周辺語構成ベクトルの各周辺語を一般概念に変換した周辺語概念ベクトルを対応する基軸単語共起語毎に作成し、特定の基軸単語の全基軸単語共起語に対応する周辺概念ベクトルをまとめた基軸単語共起概念表を共起語概念とし、
前記共起語分類部が、階層毎に各基軸単語共起語に対応する前記周辺語概念ベクトル間の距離を算出し、より詳細な分類での距離ほど重視するように重み付けた距離と単調減少の関係にある関数値を類似性指標としてクラスタリングを行う、ことを特徴とする請求項6に記載の多義語抽出システム。 - 前記共起語概念推定部の概念推定方法における任意の周辺語判定ルールが、1文内で共存する動詞、および目次上の同一項目内の文章内の名詞のように品詞毎に周辺とみなす範囲を変えるアルゴリズムを含む、ことを特徴とする請求項8に記載の多義語抽出システム。
- 前記構成語支配度算出部の複合語共起判定ルールが、品詞が動詞であれば係り受け関係が有る単語、名詞であれば同一段落内の単語のように、品詞毎に共起と見なす範囲をおよび条件を変えて複合語共起語の抽出および複合語共起数の算出を行うアルゴリズムを含む、ことを特徴とする請求項4乃至9のいずれか1項に記載の多義語抽出システム。
- 前記構成語支配度算出部における部分一致複合語間の集約度が、各部分一致複合語に対応するベクトル間の散らばりの小ささを表す指標として、ばらつきを示す指標と単調減少の関係にある関数で算出される、ことを特徴とする請求項4乃至10のいずれか1項に記載の多義語抽出システム。
- 前記構成語支配度算出部における部分一致複合語間の集約度が、共起語の品詞によって重み付けを行ったベクトル空間に基づいて算出される、ことを特徴とする請求項4乃至11のいずれか1項に記載の多義語抽出システム。
- 前記複合語構成配分推定部が、複合語の各構成語の構成語支配度を複合語毎の構成語支配度の総和で除すことで、正規化した重み付け係数を算出する、ことを特徴とする請求項4乃至12のいずれか1項に記載の多義語抽出システム。
- 分析対象とする文書毎又は文章群毎に重み付け係数を与えて、任意の基軸単語に関する個々の基軸単語共起語の確度ある共起語概念を一般概念から推定することに使用し、該推定した共起語概念を用いてクラスタを形成して、前記基軸単語を多義語候補とするか判別することを特徴とする請求項1乃至13のいずれか1項に記載の多義語抽出システム。
- 入力を受けた所定の文章に使用されている各単語を抽出処理し、
抽出した単語の内で任意の単語を基軸単語として選択して、該基軸単語と共起関係とみなされる基軸単語共起語とその共起数とで表される基軸単語共起ベクトルを抽出処理し、
抽出した基軸単語共起ベクトルの各基軸単語共起語の共起語概念を一般概念から推定処理し、
推定した共起語概念群について、対応する共起語概念間の類似性に基づき、前記選択した基軸単語に関する各基軸単語共起語についてクラスタリング処理を行い、
前記選択した基軸単語に関して複数のクラスタが存在した際に該基軸単語を多義語候補として抽出処理する
ことを特徴とする情報処理システムによる多義語抽出方法。 - 入力部から受け付けた文書もしくは文書群を構成する文章に使用されている各単語の抽出および単語毎の品詞や格、組み合される助詞、単語間の係り受け関係に関する単語情報の抽出を実行し、
前記単語の内で任意の単語を基軸単語として選択して、基軸単語毎の単語情報に基づき、任意の基軸単語共起判定ルールで基軸単語と共起関係とみなされる基軸単語共起語とその共起数とで表される基軸単語共起ベクトルをそれぞれ抽出処理し、
単語の概念分類、同義語、類義語、用法といった単語の一般概念を体系付けた一般概念情報を収集して蓄積すると共に特定の単語に関する問い合わせに対して、単語の意味や用法に関連する一般概念情報を検索し応答する概念データベースから、応答として得られる一般概念情報を利用し、所定の概念推定方法に基づき、基軸単語共起ベクトルの各基軸単語共起語の共起語概念を推定処理し、
特定の基軸単語に関する各基軸単語共起語について、対応する前記共起語概念間の類似性を所定の類似性指標によって算出し、前記共起語概念間の類似性指標に基づき各基軸単語共起語のクラスタリング処理を行い、
各基軸単語に関する各基軸単語共起語の各クラスタの規模が任意に定めた閾値以上のクラスタが複数存在する基軸単語を、多義語候補として抽出処理する
ことを特徴とする情報処理システムによる多義語抽出方法。 - 情報処理装置の制御部を、
入力を受けた所定の文章に使用されている各単語の抽出を行う単語分析部と、
前記単語の内で任意の単語を基軸単語として選択し、該基軸単語と共起関係とみなされる基軸単語共起語とその共起数とで表される基軸単語共起ベクトルを抽出する基軸単語共起ベクトル抽出部と、
基軸単語共起ベクトルの各基軸単語共起語の共起語概念を一般概念から推定する共起語概念推定部と、
推定した共起語概念群について、対応する共起語概念間の類似性に基づき、前記選択した基軸単語に関する各基軸単語共起語のクラスタリングを行う共起語分類部と、
前記選択した基軸単語に関して複数のクラスタが存在した際に該基軸単語を多義語候補として抽出する多義語候補推定部と、
抽出した多義語候補を出力する多義語候補出力部
として動作させることを特徴とするプログラム。 - 情報処理装置の制御部を、
対象とする文書もしくは文書群の入力を受け付ける文書入力部と、
文書もしくは文書群を構成する文章に使用されている各単語の抽出および単語毎の品詞や格、組み合される助詞、単語間の係り受け関係に関する単語情報の抽出を行う単語分析部と、
前記単語の内で任意の単語を基軸単語として選択して、基軸単語毎の単語情報に基づき、任意の基軸単語共起判定ルールで基軸単語と共起関係とみなされる基軸単語共起語とその共起数とで表される基軸単語共起ベクトルをそれぞれ抽出する基軸単語共起ベクトル抽出部と、
単語の概念分類、同義語、類義語、用法といった単語の一般概念を体系付けた一般概念情報を収集して蓄積すると共に特定の単語に関する問い合わせに対して、単語の意味や用法に関連する一般概念情報を検索し応答する概念データベースから応答として得られた一般概念情報を利用し、所定の概念推定方法に基づき、基軸単語共起ベクトルの各基軸単語共起語の共起語概念を推定する共起語概念推定部と、
特定の基軸単語に関する各基軸単語共起語について、対応する前記共起語概念間の類似性を所定の類似性指標によって算出し、前記共起語概念間の類似性指標に基づき各基軸単語共起語のクラスタリングを行う共起語分類部と、
各基軸単語に関する各基軸単語共起語の各クラスタの規模が任意に定めた閾値以上のクラスタが複数存在する基軸単語を、多義語候補として抽出する多義語候補推定部と、
抽出した多義語候補を出力する多義語候補出力部
として動作させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011152983A JP5754018B2 (ja) | 2011-07-11 | 2011-07-11 | 多義語抽出システム、多義語抽出方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011152983A JP5754018B2 (ja) | 2011-07-11 | 2011-07-11 | 多義語抽出システム、多義語抽出方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013020431A JP2013020431A (ja) | 2013-01-31 |
JP5754018B2 true JP5754018B2 (ja) | 2015-07-22 |
Family
ID=47691808
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011152983A Active JP5754018B2 (ja) | 2011-07-11 | 2011-07-11 | 多義語抽出システム、多義語抽出方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5754018B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105373528A (zh) * | 2015-08-18 | 2016-03-02 | 新华网股份有限公司 | 一种文本内容敏感性分析方法和装置 |
CN106909537A (zh) * | 2017-02-07 | 2017-06-30 | 中山大学 | 一种基于主题模型和向量空间的一词多义分析方法 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101478016B1 (ko) * | 2013-09-04 | 2015-01-02 | 한국과학기술정보연구원 | 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치 및 방법 |
CN106776562B (zh) * | 2016-12-20 | 2020-07-28 | 上海智臻智能网络科技股份有限公司 | 一种关键词提取方法和提取系统 |
JP6930179B2 (ja) | 2017-03-30 | 2021-09-01 | 富士通株式会社 | 学習装置、学習方法及び学習プログラム |
JP6972711B2 (ja) | 2017-06-30 | 2021-11-24 | 富士通株式会社 | 語義ベクトル生成プログラム、語義ベクトル生成方法および語義ベクトル生成装置 |
JP7006402B2 (ja) | 2018-03-14 | 2022-01-24 | 富士通株式会社 | クラスタリングプログラム、クラスタリング方法およびクラスタリング装置 |
EP3825896A4 (en) | 2018-07-19 | 2021-08-04 | Fujitsu Limited | LEARNING PROCEDURES, TRANSLATION PROCEDURES, LEARNING PROGRAM, TRANSLATION PROGRAM AND INFORMATION PROCESSING DEVICE |
AU2018433736B2 (en) | 2018-07-23 | 2022-05-12 | Fujitsu Limited | Generating method, generating program, and information processing apparatus |
JP7147625B2 (ja) * | 2019-02-21 | 2022-10-05 | 日本電信電話株式会社 | 同義語抽出装置、同義語抽出方法、および、同義語抽出プログラム |
CN110928992B (zh) * | 2019-11-21 | 2022-06-10 | 邝俊伟 | 文本搜索方法、装置、服务器及存储介质 |
JPWO2022130579A1 (ja) * | 2020-12-17 | 2022-06-23 | ||
WO2022130578A1 (ja) * | 2020-12-17 | 2022-06-23 | 富士通株式会社 | 類似度判定プログラム、類似度判定装置、及び、類似度判定方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6256629B1 (en) * | 1998-11-25 | 2001-07-03 | Lucent Technologies Inc. | Method and apparatus for measuring the degree of polysemy in polysemous words |
JP2005025555A (ja) * | 2003-07-03 | 2005-01-27 | Ricoh Co Ltd | シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体 |
US7917496B2 (en) * | 2007-12-14 | 2011-03-29 | Yahoo! Inc. | Method and apparatus for discovering and classifying polysemous word instances in web documents |
JP5430960B2 (ja) * | 2009-02-09 | 2014-03-05 | 株式会社東芝 | コンテンツ分類装置、方法及びプログラム |
CN101840397A (zh) * | 2009-03-20 | 2010-09-22 | 日电(中国)有限公司 | 词义消歧方法和系统 |
-
2011
- 2011-07-11 JP JP2011152983A patent/JP5754018B2/ja active Active
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105373528A (zh) * | 2015-08-18 | 2016-03-02 | 新华网股份有限公司 | 一种文本内容敏感性分析方法和装置 |
CN105373528B (zh) * | 2015-08-18 | 2019-03-12 | 新华网股份有限公司 | 一种文本内容敏感性分析方法和装置 |
CN106909537A (zh) * | 2017-02-07 | 2017-06-30 | 中山大学 | 一种基于主题模型和向量空间的一词多义分析方法 |
CN106909537B (zh) * | 2017-02-07 | 2020-04-07 | 中山大学 | 一种基于主题模型和向量空间的一词多义分析方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2013020431A (ja) | 2013-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5754018B2 (ja) | 多義語抽出システム、多義語抽出方法、およびプログラム | |
CN109284357B (zh) | 人机对话方法、装置、电子设备及计算机可读介质 | |
Gambhir et al. | Recent automatic text summarization techniques: a survey | |
JP5754019B2 (ja) | 同義語抽出システム、方法およびプログラム | |
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
CN112632228A (zh) | 一种基于文本挖掘的辅助评标方法及系统 | |
WO2014002776A1 (ja) | 同義語抽出システム、方法および記録媒体 | |
WO2014002775A1 (ja) | 同義語抽出システム、方法および記録媒体 | |
JP2011227688A (ja) | テキストコーパスにおける2つのエンティティ間の関係抽出方法及び装置 | |
JP5057474B2 (ja) | オブジェクト間の競合指標計算方法およびシステム | |
Sarwadnya et al. | Marathi extractive text summarizer using graph based model | |
WO2014002774A1 (ja) | 同義語抽出システム、方法および記録媒体 | |
JP4534666B2 (ja) | テキスト文検索装置及びテキスト文検索プログラム | |
Ojokoh et al. | A feature–opinion extraction approach to opinion mining | |
Litvak et al. | Cross-lingual training of summarization systems using annotated corpora in a foreign language | |
Gromann et al. | Comparing pretrained multilingual word embeddings on an ontology alignment task | |
JP2006338342A (ja) | 単語ベクトル生成装置、単語ベクトル生成方法およびプログラム | |
JP6108212B2 (ja) | 同義語抽出システム、方法およびプログラム | |
JP7110554B2 (ja) | オントロジー生成装置、オントロジー生成プログラム及びオントロジー生成方法 | |
CN110020436A (zh) | 一种本体和句法依存结合的微博情感分析法 | |
JP2001331515A (ja) | 単語シソーラス構築方法及びコンピュータシステムに単語シソーラスの構築を行わせるためのコンピュータソフトウエアプログラム製品 | |
JP5720071B2 (ja) | 複合語概念分析システム、方法およびプログラム | |
JP2004272352A (ja) | 類似度計算方法、装置、プログラムおよび該プログラムを格納した記録媒体 | |
Kutuzov et al. | Neural embedding language models in semantic clustering of web search results | |
CN113538106A (zh) | 基于评论整合挖掘的商品精细化推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140709 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20140709 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141216 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150121 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150311 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150408 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150428 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5754018 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |