JP2008225846A

JP2008225846A - 単語意味タグ付与装置および方法、プログラム並びに記録媒体

Info

Publication number: JP2008225846A
Application number: JP2007063244A
Authority: JP
Inventors: Takaaki Tanaka; 貴秋田中; Sanae Fujita; 早苗藤田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2007-03-13
Filing date: 2007-03-13
Publication date: 2008-09-25
Anticipated expiration: 2027-03-13
Also published as: JP5117744B2

Abstract

【課題】対象単語に対する意味タグの付与精度を高める。
【解決手段】特徴量抽出部１２により、対象単語のうちから選択した処理対象単語について、当該処理対象単語と対象文に含まれる他の単語との間の単語共起関係を示す一次特徴量を生成し、当該処理対象単語と単語共起関係を持つ他の対象単語について記憶部の単語辞書を検索して得られた意味タグおよび意味クラスと当該処理対象単語との間の意味共起関係を示す意味共起特徴量を生成し、当該処理対象単語の一次特徴量と意味共起特徴量から当該処理対象単語の拡張特徴量を生成し、意味タグ決定部１３により、処理対象単語の拡張特徴量に基づいて、単語辞書に記述されている当該処理対象単語の意味タグのうち、対象文で使用されている当該処理対象単語の最も適切な意味を示す意味タグを決定する。
【選択図】図１

Description

本発明は、自然言語解析技術に関し、特に自然言語データを構成する各単語に対して文脈にあった意味を示すタグを付与する単語意味タグ付与技術に関する。

自然言語処理において、意味的な情報を扱う場合、文中に含まれる各単語に、辞書やシソーラスで定義された単語の意味、すなわち意味タグを自動的に付与する技術が用いられる。
従来、このような技術として、対象文を構文解析器にかけ、依存構造にある単語対の意味タグを左から右へ決定していく方法や（例えば、非特許文献１など参照）、隠れマルコフモデルを使い、形態素解析と同様の方法で、左から右へ単語の意味タグを決定していく方法（例えば、非特許文献２など参照）が提案されている。
なお、これら技術では、意味タグは辞書やシソーラスで定義されているものとして説明しているが、単語が意味のまとまりで分類されているものは本質的に同じであり、例えばテキスト中での出現分布の特徴に基づいて既存の自動分類手法で分類されたものなども含まれる。

SenseLeaner, Rada Mihalcea and Ehsanul Faruque 著, "SenseLearner: Minimally Supervised Word Sense Disambiguation for All Words in Open Text" in Proceedings of ACL/SIGLEX Senseval-3, Barcelona, Spain, July 2004. Antonia Molina他著, "WSD system based on Specialized Hidden Markov Model(upv-shmm-eaw)" in Proceedings of ACL/SIGLEX Senseval-3, Barcelona, Spain, July 2004. 笠原要也著, "基本語意味データベース：Lexeedの構築", 情報処理学会研究報告、NLC-159, 2004

しかしながら、このような従来技術では、対象文の中の複数の単語に対して意味タグを付与する際に、各単語の出現順に沿って各単語に意味タグを付与しているため、意味タグの付与精度を高めることができないという問題点があった。

すなわち各単語の出現順に沿って各単語に意味タグを付与する場合、出現順に沿った単語の意味タグ付与結果が他の単語の意味タグ付けに大きな影響を与えるため、場合によっては誤った意味タグの系列を選択してしまう恐れがある。
例えば、「茶のグラスをかけた男」という文中の「茶」と「グラス」という語に意味タグを付与する場合、左から右に意味タグを決定していくと、「茶」の共起語「グラス」が持つ「食器」という意味に引きずられて、「茶」の意味タグを「飲料」と決定し、その意味タグとの共起関係から次の「グラス」の意味タグを「食器」と誤る可能性がある。

本発明はこのような課題を解決するためのものであり、意味タグの付与精度を高めることができる単語意味タグ付与装置および方法、プログラム並びに記録媒体を提供することを目的としている。

このような目的を達成するために、本発明にかかる単語意味タグ付与装置は、自然言語データからなる対象文に含まれる各対象単語に対して、当該対象単語の意味を示す意味タグをそれぞれ付与する単語意味タグ付与装置であって、単語の意味ごとに設けられた、当該意味を示す意味タグと当該意味の概念を示す意味クラスの組からなる単語辞書を記憶する記憶部と、対象単語のうちから選択した処理対象単語について、当該処理対象単語と対象文に含まれる他の単語との間の単語共起関係を示す一次特徴量を生成し、当該処理対象単語と単語共起関係を持つ他の対象単語について記憶部の単語辞書を検索して得られた意味タグおよび意味クラスと当該処理対象単語との間の意味共起関係を示す意味共起特徴量を生成し、当該処理対象単語の一次特徴量と意味共起特徴量から当該処理対象単語の拡張特徴量を生成する特徴量抽出部と、処理対象単語の拡張特徴量に基づいて、単語辞書に記述されている当該処理対象単語の意味タグのうち、対象文で使用されている当該処理対象単語の最も適切な意味を示す意味タグを決定する意味タグ決定部とを備えている。

この際、特徴量抽出部に、処理対象単語と対象文に含まれる他の単語との間の単語共起関係ごとに当該単語共起関係を示す一次特徴量をそれぞれ生成する一次特徴量抽出部と、対象文に含まれる他の対象単語にそれぞれついて記憶部の単語辞書を検索し、得られた意味タグおよび意味クラスのそれぞれについて処理対象単語との間の意味共起関係を示す意味共起特徴量をそれぞれ生成し、これら意味共起特徴量と当該処理対象単語の一次特徴量とから当該対象単語の拡張特徴量を生成する特徴量拡張部とを設けてもよい。

また、記憶部により、対象単語に対する一次特徴量および意味共起特徴量ごとに、当該対象単語に対応して選択される各意味タグの重みを示す意味タグ選択モデルを記憶し、意味タグ決定部により、拡張特徴量に含まれる処理対象単語の一次特徴量および意味共起特徴量について記憶部の意味タグ選択モデルを検索し、意味タグごと得られた重みに基づいて当該処理対象単語と各意味タグとの組合せごとに評価値を算出し、これら評価値に基づいて当該処理対象単語の意味タグを決定するようにしてもよい。

また、記憶部により、対象単語に対する意味タグの付与順序を示す付与順序データベースを記憶し、意味タグ決定部により、複数の処理対象単語について意味タグを決定する場合、記憶部の付与順序データベースを検索して各処理対象単語の付与順序を取得し、これら付与順序に基づいて各処理対象単語に対して順に意味タグを決定するようにしてもよい。

また、対象文を形態素解析する形態素解析部と、対象文を構文意味解析する構文意味解析部と、これら形態素解析部と構文意味解析部での種類の解析結果を、同一解析対象ごとに統合し、対象文とともに一次特徴量抽出部へ出力する解析結果統合部とを有する対象文入力部をさらに備えてもよい。

また、本発明にかかる単語意味タグ付与方法は、自然言語データからなる対象文に含まれる各対象単語に対して、当該対象単語の意味を示す意味タグをそれぞれ付与する単語意味タグ付与方法であって、単語の意味ごとに設けられた、当該意味を示す意味タグと当該意味の分類を示す意味クラスの組からなる単語辞書を記憶部で記憶する記憶ステップと、特徴量抽出部により、対象単語のうちから選択した処理対象単語について、当該処理対象単語と対象文に含まれる他の単語との間の単語共起関係を示す一次特徴量を生成し、対象文に含まれる他の対象単語について記憶部の単語辞書を検索して得られた意味タグおよび意味クラスと当該処理対象単語との間の意味共起関係を示す意味共起特徴量を生成し、当該処理対象単語の一次特徴量と意味共起特徴量から当該処理対象単語の拡張特徴量を生成する特徴量抽出ステップと、意味タグ決定部により、処理対象単語の拡張特徴量に基づいて、単語辞書に記述されている当該処理対象単語の意味タグのうち、対象文で使用されている当該処理対象単語の最も適切な意味を示す意味タグを決定する意味タグ決定ステップとを備えている。

また、本発明にかかるプログラムは、コンピュータに、上記単語意味タグ付与方法の各ステップを実行させるためのプログラムである。
また、本発明にかかる記録媒体は、上記プログラムが記録された記録媒体である。

本発明によれば、特徴量抽出部により、対象単語のうちから選択した処理対象単語について、当該処理対象単語と対象文に含まれる他の単語との間の単語共起関係を示す一次特徴量を生成し、当該処理対象単語と単語共起関係を持つ他の対象単語について記憶部の単語辞書を検索して得られた意味タグおよび意味クラスと当該処理対象単語との間の意味共起関係を示す意味共起特徴量を生成し、当該処理対象単語の一次特徴量と意味共起特徴量から当該処理対象単語の拡張特徴量を生成し、意味タグ決定部により、処理対象単語の拡張特徴量に基づいて、単語辞書に記述されている当該処理対象単語の意味タグのうち、対象文で使用されている当該処理対象単語の最も適切な意味を示す意味タグを決定している。

これにより、対象単語の意味タグを付与する際、当該対象単語と単語共起関係を持つ単語だけでなく、当該対象単語と意味共起関係を持つ単語との関係に基づいて意味タグを付与することができる。したがって、単語の出現順に沿って各単語に意味タグを付与する場合と比較して、より広範囲の関係に基づいて意味タグを付与することができ、意味タグの付与精度を高めることができる。

次に、本発明の実施の形態について図面を参照して説明する。
[第１の実施の形態]
まず、図１を参照して、本発明の第１の実施の形態にかかる単語意味タグ付与装置について説明する。図１は、本発明の第１の実施の形態にかかる単語意味タグ付与装置の構成を示すブロック図である。
単語意味タグ付与装置１０は、サーバやパーソナルコンピュータなどの一般的な情報処理装置からなり、自然言語データからなる対象文Ｘに含まれる各対象単語に対して、当該対象単語の意味を示す意味タグをそれぞれ付与し、出力文Ｙとして出力する機能を有している。

本実施の形態は、記憶部により、単語の意味ごとに設けられた、当該意味を示す意味タグと当該意味の概念を示す意味クラスの組からなる単語辞書を記憶しておき、特徴量抽出部により、対象単語のうちから選択した処理対象単語について、当該処理対象単語と対象文に含まれる他の単語との間の単語共起関係を示す一次特徴量を生成し、当該処理対象単語と単語共起関係を持つ他の対象単語について記憶部の単語辞書を検索して得られた意味タグおよび意味クラスと当該処理対象単語との間の意味共起関係を示す意味共起特徴量を生成し、当該処理対象単語の一次特徴量と意味共起特徴量から当該処理対象単語の拡張特徴量を生成し、意味タグ決定部により、処理対象単語の拡張特徴量に基づいて、単語辞書に記述されている当該処理対象単語の意味タグのうち、対象文で使用されている当該処理対象単語の最も適切な意味を示す意味タグを決定するようにしたものである。

以下、図１を参照して、本発明の第１の実施の形態にかかる単語意味タグ付与装置の構成について詳細に説明する。
単語意味タグ付与装置１０には、主な機能部として、一般的な情報処理装置と同様に、演算処理部１、記憶部２、入出力インターフェース部（以下、入出力Ｉ／Ｆ部という）３、通信インターフェース部（以下、通信Ｉ／Ｆ部という）４、操作入力部５、および画面表示部６が設けられている。

演算処理部１は、ＣＰＵなどのマイクロプロセッサとその周辺回路からなり、記憶部２に格納されているプログラム２０を読み出して実行することにより、上記ハードウェアとプログラム２０とを協働させて各種処理部を実現する。
演算処理部１で実現される主な処理部としては、対象文解析部１１、特徴量抽出部１２、意味タグ決定部１３、および意味タグ出力部１４がある。

記憶部２は、ハードディスクやメモリなどの記憶装置からなり、演算処理部１で実行するプログラム２０や、意味タグの付与処理に用いる各種処理情報を記憶する。プログラム２０は、例えば入出力Ｉ／Ｆ部３を介して記録媒体Ｍから読み込まれ、あるいは通信Ｉ／Ｆ部４を介して外部装置（図示せず）から読み込まれ、記憶部２へ予め格納される。
記憶部２で記憶する主な処理情報としては、単語辞書２１と意味タグ選択モデル２２がある。

入出力Ｉ／Ｆ部３は、専用のデータ入出力回路からなり、ＣＤやＤＶＤ、さらには不揮発性メモリカードなどの記録媒体Ｍとの間で、演算処理部１からの指示に応じて、対象文Ｘ、出力文Ｙ、辞書、データベースなどの各種データやプログラムを入出力する機能を有している。
通信Ｉ／Ｆ部４は、専用のデータ通信回路からなり、ＬＡＮなどの通信回線を介して接続されたサーバなどの外部装置との間で、演算処理部１からの指示に応じて、対象文Ｘ、出力文Ｙ、辞書、データベースなどの各種データやプログラムを送受信する機能を有している。

操作入力部５は、キーボードやマウスなどの操作入力装置からなり、オペレータの操作を検出して演算処理部１へ出力する機能を有している。
画面表示部６は、ＬＣＤやＰＤＰなどの画面表示装置からなり、演算処理部１からの指示に応じて対象文Ｘや出力文Ｙなどの各種データや操作画面を画面表示する機能を有している。

図２は、本発明の第１の実施の形態にかかる単語意味タグ付与装置の要部を示すブロック図である。
対象文解析部１１は、自然言語データからなる対象文Ｘを、記憶部２、入出力Ｉ／Ｆ部３、通信Ｉ／Ｆ部４、操作入力部５などから受け取って、２つの異なる言語解析を行う機能を有しており、ここでは形態素解析部１１Ａ、構文意味解析部１１Ｂ、解析結果統合部１１Ｃから構成されている。

形態素解析部１１Ａは、対象文Ｘについて公知の形態素解析処理を行う機能を有している。構文意味解析部１１Ｂは、対象文Ｘについて公知の構文意味解析処理を行う機能を有している。解析結果統合部１１Ｃは、形態素解析部１１Ａ、構文意味解析部１１Ｂから受け取った複数の種類の解析結果を受け取り、同一文に対する解析結果を対応付ける、あるいは／さらに同一単語に関する解析結果を対応付ける機能と、同一文に対する複数の異なる解析結果を統合する機能とを有している。

特徴量抽出部１２は、対象文解析部１１で得られた言語解析結果に基づいて、記憶部２の単語辞書２１を参照することにより、対象文Ｘに含まれる各対象言語について特徴量（特徴情報）を抽出する機能を有しており、ここでは一次特徴量抽出部１２Ａと特徴量拡張部１２Ｂから構成されている。単語辞書２１は、各単語について、その意味ごとに設けられた、当該意味を示す意味タグと当該意味の分類を示す意味クラスの組からなるデータベースである。なお、単語辞書２１として、任意の知識ベースで前提としている概念と、その概念同士の相互関係を明示したオントロジを用いてもよい。

一次特徴量抽出部１２Ａは、言語解析結果に基づき対象文Ｘから抽出した単語ごとに単語辞書２１を検索する機能と、これら単語のうち複数の意味を持つ単語を意味タグ付与対象となる対象言語として決定する機能と、対象単語のうちから選択した処理対象単語について、当該処理対象単語と対象文Ｘに含まれる他の単語との間の単語共起関係を示す一次（単語共起）特徴量（一次特徴情報）を生成する機能とを有している。

特徴量拡張部１２Ｂは、対象文Ｘに含まれる他の対象単語について単語辞書２１を検索する機能と、検索により得られた意味タグおよび意味クラスと当該処理対象単語との間の意味共起関係を示す意味共起特徴量（意味共起特徴情報）を生成する機能と、当該処理対象単語の一次特徴量と意味共起特徴量から当該処理対象単語の拡張特徴量を生成する機能とを有している。

意味タグ決定部１３は、特徴量抽出部１２で抽出された各対象言語の拡張特徴量に基づいて、記憶部２の意味タグ選択モデル２２を参照することにより、単語辞書２１に記述されている当該処理対象単語の意味タグのうち、対象文で使用されている当該処理対象単語の最も適切な意味を示す意味タグを決定する機能を有しており、ここでは意味タグ組合せ探索部１３Ａから構成されている。意味タグ選択モデル２２は、対象単語に対する一次特徴量および意味共起特徴量ごとに、当該対象単語に対応して選択される各意味タグの重みを示すデータベースである。

意味タグ組合せ探索部１３Ａは、拡張特徴量に含まれる処理対象単語の一次特徴量および意味共起特徴量について意味タグ選択モデル２２を検索する機能と、意味タグごと得られた重みに基づいて当該処理対象単語と各意味タグとの組合せごとに評価値を算出する機能と、これら評価値が最も高い組合せをビーム探索などの探索アルゴリズムにより求めることにより当該処理対象単語の意味タグを決定する機能とを有している。

意味タグ出力部１４は、意味タグ決定部１３で決定した各対象単語の意味タグに基づいて、対象文Ｘの各対象言語に最適な意味タグが付与された出力文Ｙを生成力する機能と、この出力文Ｙを記憶部２、入出力Ｉ／Ｆ部３、通信Ｉ／Ｆ部４、画面表示部６などへ出力する機能とを有している。

[第１の実施の形態の動作]
次に、図２を参照して、本発明の第１の実施の形態にかかる単語意味タグ付与装置の動作について説明する。
単語意味タグ付与装置１０の演算処理部１は、操作入力部５により、オペレータによる処理開始操作を検出した場合、まず対象文解析部１１により、意味タグの付与対象とする対象文Ｘを受け取り、言語解析処理を行う。なお、対象文Ｘについてすでに言語解析されている場合、対象文解析部１１による言語解析処理は不要となり、入力された対象文Ｘとその言語解析結果が特徴量抽出部１２へ渡される。

対象文Ｘが「茶のグラスをかけた男」という自然言語データ（テキストデータ）である場合、形態素解析部１１Ａは、対象文Ｘを受け取って形態素解析処理を行い、得られた単語とその品詞を解析結果として出力する。図３は、形態素解析結果の例である。この例では、対象文Ｘが７つの単語に分割され、それぞれの単語に品詞が付与されている。文字位置は、それぞれの単語の対象文Ｘにおける文字の始まりと終わりの位置（文字桁）を表している。例えば「茶」は、対象文Ｘで１文字目から１文字目までの位置にあることを示している。

一方、構文意味解析部１１Ｂは、対象文Ｘを受け取って構文意味解析を行い、各単語間の意味的な関係を出力する。図４は、構文意味解析結果の例である。この例では、（１）「茶のグラス」という名詞句があり、主辞「グラス」と修飾辞「茶」の２つの語が助詞「の」で連結されている、という関係と、（２）「グラスをかけた男」という名詞句があり、「かけた」という述語に対して「男」が主格、「グラス」が目的格である、という関係の２つの関係を示している。丸括弧内は、図３と同様に元の文での文字位置を示している。
解析結果統合部１１Ｃは、形態素解析部１１Ａと構文意味解析部１１Ｂの異なる言語解析結果を受け取り１つの結果にまとめ、特徴量抽出部１２に送る。

次に、演算処理部１は、特徴量抽出部１２により、対象文解析部１１で得られた対象文Ｘの言語解析結果に基づいて、各対象単語の特徴量を抽出する。
まず、特徴量抽出部１２は、一次特徴量抽出部１２Ａにより、対象文Ｘの言語解析結果と単語辞書２１に基づいて意味タグの付与対象となる対象単語を特定する。図５は、単語辞書の例である。

この例では、単語「茶」には意味タグ「茶₁」「茶₂」に対応する２つの意味が存在し、単語「グラス」には意味タグ「グラス₁」「グラス₂」に対応する２つの意味が存在し、単語「男」には意味タグ「男₁」に対応する１つの意味のみが存在し、単語「かける」には意味タグ「かける₁」に対応する１つの意味のみが存在していることを示している。従って、ここでは複数の意味が存在する「茶」と「グラス」の２語が意味タグ付け対象単語と決定される。

続いて、一次特徴量抽出部１２Ａは、これら対象単語のうちから処理対象単語を１つずつ順に次選択し、その処理対象単語ごとに一次特徴量を生成する。図６は、一次特徴量の定義例である。図７は、図６の定義に従って抽出した一次特徴量の例である。例えば、「茶（１、１）」の欄のＣｏＷｏｒｄ（グラス）は、対象単語「茶」が出現している文に、単語「グラス」が共起して出現していることを表している。
この際、一次特徴量抽出部１２Ａは、まず、図６の定義に基づいて処理対象単語と対象文Ｘに含まれる他の単語との単語共起関係を抽出し、それぞれ単語共起関係を示す一次特徴量を生成する。そして、これら一次特徴量からの羅列からなる一次特徴量を生成する。

次に、特徴量抽出部１２は、特徴量拡張部１２Ｂにより、単語辞書２１を参照して、処理対象単語と単語共起関係を持つ他の対象単語の意味タグや当該意味の分類を示す意味クラスを検索し、得られた意味タグおよび意味クラスのぞれぞれと当該処理対象単語との共起関係を示す新たな特徴量を生成し、これを一次特徴量に付加することにより、一次特徴量をより広範な概念まで拡張した拡張特徴量を生成する。

図８は、拡張特徴量の例である。例えば、対象単語「茶」の一次特徴量ＣｏＷｏｒｄ（グラス）に含まれる単語「グラス」が「グラス₁：ガラス製の杯」である場合、単語辞書２１を検索して単語「グラス」の意味タグ「グラス₁」と意味クラス[食器]を取得し、当該一次特徴量の「グラス」を意味タグ「グラス₁」で置き換えた新たな特徴量ＣｏＷｏｒｄ（グラス₁）や、意味クラス[食器]で置き換えた新たな特徴量ＣｏＷｏｒｄ（[食器]）を生成する。

一次特徴量は、対象単語「茶」と他の単語との単語レベルにおける共起関係を示す特徴量であるのに対して、これら新たな特徴量は、対象単語「茶」に対して単語共起関係を持つ他の対象単語との意味レベルにおける共起関係、すなわち意味共起関係を示す特徴量であり、これら新たな特徴量は意味共起特徴量といえる。
したがって、[食器]という意味クラスに置き換えた意味共起特徴量ＣｏＷｏｒｄ（[食器]）を加えることにより、[食器]の意味クラスに属する「皿」や「ジョッキ」などの他の単語が出現した文に対して、似た文脈であることを示す特徴量を得ることが可能となる。

次に、演算処理部１は、意味タグ決定部１３により、特徴量抽出部１２で抽出された各対象言語の拡張特徴量に基づいて、対象文Ｘの各対象単語に最適な意味タグを決定する。
意味タグ決定部１３は、意味タグ組合せ探索部１３Ａにより、記憶部２の意味タグ選択モデル２２から各意味タグの組合せの評価値を計算し、その評価値が最大になる意味タグの組合せを探索により求める。

図９は、最大エントロピモデルに基づく意味タグ選択モデルの例である。図９中の数字は、対象単語について各特徴量が得られたときの各意味タグが選択される重みを表している。この重みは、正解の意味タグの付与されている学習データを用いて最大エントロピモデル（A. Berger他著："A maximum entropy approach to natural language processing."、Computational Linguistics, 22(1), 39-71）に基づく方法などで決定することができる。

意味タグ選択モデルが最大エントロピモデルである場合、対象文の文脈ｃで、意味タグｔが選択される確率ｐ（ｔ｜ｃ）は、次の式（１）および式（２）で求められ、これを評価値とする。ここで、ｆｉ（ｔ，ｃ）は素性関数であり、各特徴量ｉが得られたとき１、それ以外のとき０となる２値関数である。また、λｉはモデルのパラメータであり、図９中の「重み」にあたる。

初期状態では、どの意味タグも決定しておらず、単語「茶」に対する特徴量のうち非ゼロの重みを持つのは、「ＣｏＷｏｒｄ（グラス）」のみであるので、
Ｚ（ｃ）ｐ（茶₁｜ｃ）＝０．６×１＝０．６
Ｚ（ｃ）ｐ（茶₂｜ｃ）＝０．２
より、評価値（確率）は、
ｐ（茶₁｜ｃ）＝０．６／（０．６＋０．２）＝０．７５
ｐ（茶₂｜ｃ）＝０．２／（０．６＋０．２）＝０．２５
である。

同様に単語「グラス」に関しては、特徴量「ＣｏＷｏｒｄ（茶）」，「ＡＲＧ２／ＲＥＬ（述語_かける）」から、
Ｚ（ｃ）ｐ（グラス₁｜ｃ）＝０．２×１＋０．０２×１＝０．２２
Ｚ（ｃ）ｐ（グラス₂｜ｃ）＝０．３×１＋１．３×１＝１．６
より、評価値（確率）は、
ｐ（グラス₁｜ｃ）＝０．２２／（０．２２＋１．６）＝０．１２１
ｐ（グラス₂｜ｃ）＝１．６／（０．２２＋１．６）＝０．８７９
である。

この後、意味タグ組合せ探索部１３Ａは、ビーム探索アルゴリズムにより、最も評価値の高い意味タグを探索する。
図１０は、ビーム探索アルゴリズムの例である。ここで、対象単語の集合をＷ＝{ｗ₁,...,ｗ_n}、単語ｗｉのｋ番目の意味タグをｔ_wik、決定された意味タグのリストをＴ、ビーム幅をｂとする。探索は、Ｎ＝[Ｗ，Ｔ]を探索ノードとして行う。またノードの評価値ｓ（Ｎ）は、ノードＮが直前ノードＮ_１＝[Ｗ_１，Ｔ_１]から、単語ｗｉの意味タグをｔ_wikに決定してできたとすると、ｓ（Ｎ）＝ｐ（ｔ_wik｜ｃ）・ｓ（Ｎ_１）と定義する。ｐ（ｔ_wik｜ｃ）は、前述のように図８の拡張特徴量、図３の形態素解析結果、および意味タグ選択モデル２２から求めることができる。

この例では、図１０のステップＳ１において、初期ノードＮ₀＝[Ｗ₀＝{茶、グラス}，Ｔ０＝{}]が初期キューＱ₀に挿入される。続くステップＳ２において、Ｗ₀から順番に「茶」、「グラス」を取り出し、それぞれに意味タグを決定したノードを作成する。これらのノードをキューＱ’に挿入し、Ｑ’＝＜[{グラス}，{茶₁}]，[{グラス}，{茶₂}]，[{茶}，{グラス₁}]，[{茶}，{グラス₂}]＞となる。

ここで、評価値ｓ（[{グラス}，{茶₁}]）は、ｐ（茶₁｜ｃ）に等しく０．７５であり、評価値ｓ（[{グラス}，{茶₂}]）は、ｐ（茶₂｜ｃ）に等しく０．２５である。同様に、ｓ（[{茶}，{グラス₁}]）＝０．１２１、ｓ（[{茶}，{グラス₂}]）＝０．８７９である。
ステップＳ３において、評価値の高い順にキューＱ’の中をソートすると、Ｑ’＝＜[{茶}，{グラス₂}]，[{グラス}，{茶₁}]，[{グラス}，{茶₂}]，[{茶}，{グラス₁}]＞となる。ビーム幅ｂ＝２とすると、新しいキューＱは、Ｑ＝＜[{茶}，{グラス₂}]，{グラス}，{茶₁}]＞となる。

次に、キューＱの先頭のノード[{茶}、{グラス₂}]からは、図８から新しく特徴量ＣｏＷｏｒｄ（グラス₂）、ＣｏＷｏｒｄ（[衣服]）、ＡＲＧ１／ＲＥＬ−ＡＲＧ２（名詞句_の、[衣服]）が得られる。同様にして計算を進めると、ステップＳ４において、最終的に[{}，{茶₂，グラス₂}]が最も評価値の高いノードとなり、この意味タグの組合せが意味タグ出力部１４に渡される。

図１１は、意味タグ付与結果の例である。対象単語「茶」，「グラス」にそれぞれ「茶₂」，「グラス₂」の意味タグが付与されている。「男」，「かける」は単語辞書２１上でそれぞれ意味タグが１つしかないので自動的に唯一の意味タグ「男₁」，「かける₁」がそれぞれ付与される。

このように、本実施の形態では、記憶部２により、単語の意味ごとに設けられた、当該意味を示す意味タグと当該意味の概念を示す意味クラスの組からなる単語辞書２１を記憶しておき、特徴量抽出部１２により、対象単語のうちから選択した処理対象単語について、当該処理対象単語と対象文に含まれる他の単語との間の単語共起関係を示す一次特徴量を生成し、当該処理対象単語と単語共起関係を持つ他の対象単語について記憶部の単語辞書を検索して得られた意味タグおよび意味クラスと当該処理対象単語との間の意味共起関係を示す意味共起特徴量を生成し、当該処理対象単語の一次特徴量と意味共起特徴量から当該処理対象単語の拡張特徴量を生成し、意味タグ決定部１３により、処理対象単語の拡張特徴量に基づいて、単語辞書に記述されている当該処理対象単語の意味タグのうち、対象文で使用されている当該処理対象単語の最も適切な意味を示す意味タグを決定している。

また、本実施の形態では、対象文に対してことなる複数の解析処理によって言語解析を行い、これら解析結果を統合した解析情報に基づいて、単語共起関係や意味共起関係を抽出するようにしたので、特徴量を正確に生成することができ、より精度の高い意味タグの付与が実現可能となる。

[第２の実施の形態]
次に、図１２を参照して、本発明の第２の実施の形態にかかる単語意味タグ付与装置について説明する。図１２は、本発明の第２の実施の形態にかかる単語意味タグ付与装置の要部を示すブロック図であり、前述した図２と同じ又は同等部分には同一符号を付してある。
第１の実施の形態では、対象文解析部１１において、対象文Ｘについて形態素解析と構文意味解析の異なる２つの言語解析を行う場合を例として説明した。本実施の形態では、対象文解析部１１において、形態素解析だけを行う場合について説明する。

第１の実施の形態と比較して、本実施の形態にかかる単語意味タグ付与装置１０では、対象文解析部１１が形態素解析部１１Ａからのみ構成されている点が異なる。なお、他の構成については、前述した第１の実施の形態と同様であり、ここでの詳細な説明は省略する。

[第２の実施の形態の動作]
次に、図１２を参照して、本発明の第２の実施の形態にかかる単語意味タグ付与装置の動作について説明する。
単語意味タグ付与装置１０の演算処理部１は、操作入力部５により、オペレータによる処理開始操作を検出した場合、まず対象文解析部１１により、意味タグの付与対象とする対象文Ｘを受け取り、言語解析処理を行う。
対象文Ｘが「男がグラスで茶を出した」という自然言語データ（テキストデータ）である場合、対象文解析部１１は、形態素解析部１１Ａにより、対象文Ｘを受け取って形態素解析処理を行い、得られた単語とその品詞を解析結果として出力する。図１３は、解析結果の例である。

次に、演算処理部１は、特徴量抽出部１２により、対象文解析部１１で得られた対象文Ｘの言語解析結果に基づいて、各対象単語の特徴量を抽出する。
まず、特徴量抽出部１２は、一次特徴量抽出部１２Ａにより、対象文Ｘの言語解析結果と単語辞書２１に基づいて意味タグの付与対象となる対象単語を特定する。
この例では、単語「「グラス」，「茶」，「出す」にはそれぞれ２つずつの意味が存在するので、これら「茶」，「グラス」，「出す」の３語が意味タグ付け対象単語と決定される。

続いて、一次特徴量抽出部１２Ａは、これら対象単語のうちから処理対象単語を１つずつ順に次選択し、その処理対象単語ごとに一次特徴量を生成する。
この際、一次特徴量抽出部１２Ａは、前述と同様に、まず、図６の定義に基づいて処理対象単語と対象文Ｘに含まれる他の単語との単語共起関係を抽出し、それぞれ単語共起関係を示す一次特徴量を生成する。そして、これら一次特徴量からの羅列からなる一次特徴量を生成する。図１４は、一次特徴量の例である。

次に、特徴量抽出部１２は、特徴量拡張部１２Ｂにより、単語辞書２１を参照して、処理対象単語と単語共起関係を持つ他の対象単語の意味タグや当該意味の分類を示す意味クラスを検索し、得られた意味タグおよび意味クラスのぞれぞれと当該処理対象単語との共起関係を示す新たな特徴量を生成し、これを一次特徴量に付加することにより、一次特徴量をより広範な概念まで拡張した拡張特徴量を生成する。図１５は、拡張特徴量の例である。

図１６は、最大エントロピモデルに基づく意味タグ選択モデルの例である。初期状態では、どの意味タグも決定しておらず、単語「グラス」に対する特徴量のうち非ゼロの重みを持つのは「ＣｏＷｏｒｄ（男）」，「ＣｏＷｏｒｄ（茶）」，「ＣｏＷｏｒｄ（出す）」であるので、
Ｚ（ｃ）ｐ（グラス₁｜ｃ）＝０．１×１＋０．１×１＋０．２×１＝０．４
Ｚ（ｃ）ｐ（グラス₂｜ｃ）＝０．４＋１＋０．１×１＝０．５
より、評価値（確率）は、
ｐ（グラス₁｜ｃ）＝０．４／（０．４＋０．５）＝０．４４
ｐ（グラス₂｜ｃ）＝０．５／（０．４＋０．５）＝０．５６
である。

同様に単語「茶」に関しては、特徴量「ＣｏＷｏｒｄ（グラス）」，「ＣｏＷｏｒｄ（出す）」から
Ｚ（ｃ）ｐ（茶₁｜ｃ）＝０．８×１＋０．９×１＝１．７
Ｚ（ｃ）ｐ（茶₂｜ｃ）＝０．２×１＋０．１×１＝０．３
より、評価値（確率）は、
ｐ（茶₁｜ｃ）＝１．７／（１．７＋０．３）＝０．８５
ｐ（茶₂｜ｃ）＝０．３／（１．７＋０．３）＝０．１５
である。

同様に単語「出す」に関しては、特徴量「ＣｏＷｏｒｄ（グラス）」，「ＣｏＷｏｒｄ（茶）」から
Ｚ（ｃ）ｐ（出す₁｜ｃ）＝０．２×１＋０＝０．２
Ｚ（ｃ）ｐ（出す₂｜ｃ）＝０．３×１＋０．９×１＝１．２
より、評価値（確率）は、
ｐ（出す₁｜ｃ）＝０．２／（０．２＋１．２）＝０．１４
ｐ（出す₂｜ｃ）＝０．２／（０．２＋１．２）＝０．８６
である。

この後、意味タグ組合せ探索部１３Ａは、ビーム探索アルゴリズムにより、最も評価値の高い意味タグを探索する。
この例では、図１０のステップＳ１において、初期ノードＮ₀＝[Ｗ₀＝{グラス，茶，出す}、Ｔ０＝{}]が初期キューＱ₀に挿入される。続くステップＳ２において、Ｗ₀から順番に「グラス」，「茶」，「出す」を取り出し、それぞれに意味タグを決定したノードを作成する。これらのノードをキューＱ’に挿入し、Ｑ’＝＜[{茶，出す}，{グラス₁}]，[{茶，出す}，{グラス₂}]，[{グラス，出す}，{茶₁}]，[{グラス，出す}，{茶₂}]，[{グラス，茶}，{出す₁}]，[{グラス，茶}，{出す₂}]＞となる。

ステップＳ３において、評価値の高い順にキューＱ’の中をソートすると、Ｑ’＝＜[{グラス，茶}，{出す₂}]，[{グラス，出す}，{茶₁}]，[{茶，出す}，{グラス₂}]，[{茶、出す}，{グラス₁}]，[{グラス，出す}，{茶₂}]，[{グラス，茶}，{出す₁}]＞となる。
ビーム幅ｂ＝２とすると、新しいキューＱは、Ｑ＝＜[{グラス，茶}，{出す₂}]，[{グラス，出す}，{茶₁}]＞となる。

同様にして計算を進めると、ステップＳ４において、最終的に[{}、{グラス₁、茶₁、出す₂}]が最も評価値の高いノードとなり、この意味タグの組合せを意味タグ出力部１４に渡す。図１７は、意味タグ付与結果の例である。対象単語「グラス」、「茶」、「出す」にそれぞれ「グラス₁」、「茶₁」、「出す₂」の意味タグが付与されている。「男」は単語辞書２１上でそれぞれ意味タグが１つずつしかないので自動的に唯一の意味タグ「男₁」が付与される。

このように、本実施の形態では、対象文解析部１１において形態素解析のみを行うようにしたので、演算処理部１での処理負担を軽減できる。なお、第１の実施の形態より利用する情報が少ないため単語共起関係や意味共起関係の抽出精度が低くなる可能性があるものの、単語共起関係や意味共起関係を用いているため、より広範囲の関係に基づいて意味タグを付与することができ、意味タグの付与精度を高めることができる。

[第３の実施の形態]
次に、図１８を参照して、本発明の第３の実施の形態にかかる単語意味タグ付与装置について説明する。図１８は、本発明の第３の実施の形態にかかる単語意味タグ付与装置の要部を示すブロック図であり、前述した図２と同じ又は同等部分には同一符号を付してある。

第１の実施の形態では、意味タグ決定部１３において、特徴量抽出部１２で抽出された各対象言語の拡張特徴量に基づいて、記憶部２の意味タグ選択モデル２２を参照することにより、対象単語の最も適切な意味を示す意味タグを決定する場合について説明した。本実施の形態では、予め記憶部２に付与優先順データベース２３を設け、意味タグ決定部１３において対象単語の意味タグを付与する際、付与優先順データベース２３の優先順に基づく順序で各対象単語に意味タグを付与する場合について説明する。

第１の実施の形態と比較して、本実施の形態にかかる単語意味タグ付与装置１０では、意味タグ決定部１３に意味タグ付与順決定部１３Ｂが追加されており、記憶部２に付与優先順データベース２３が追加されている点が異なる。なお、他の構成については、前述した第１の実施の形態と同様であり、ここでの詳細な説明は省略する。

図１９は、付与優先順データベースの一例である。ここでは、各対象単語の優先順を示す優先順データとして、特定のコーパスで計測した単語ごとの意味タグのエントロピーを用いている。一般にエントロピーが低いほど、単語の意味タグの使われ方のばらつきが小さく、意味タグを決めやすいと考えられる。したがって、この例によれば、対象単語への意味タグ付与順として（１）グラス、（２）茶の順となる。

意味タグ決定部１３は、意味タグ組合せ探索部１３Ａにより、特徴量抽出部１２で抽出された各対象言語の拡張特徴量に基づいて、対象文Ｘの各対象単語に最適な意味タグを決定する際、前もって意味タグ付与順決定部１３Ｂにより、各対象単語への意味タグ付与順を決定する。意味タグ付与順決定部１３Ｂは、各対象単語について記憶部２の付与優先順データベース２３を検索して、各対象単語の優先順データ、ここでは意味タグのエントロピーを取得し、この優先順データに基づいて各対象単語への意味タグ付与順を決定する。

意味タグ組合せ探索部１３Ａは、意味タグ付与順決定部１３Ｂで決定された付与順に基づいて、各対象単語から１つずつ処理対象単語を選択し、当該処理対象単語について第１の実施の形態と同様のビーム探索アルゴリズムにより、最も評価値の高い意味タグを探索する。

このように、本実施の形態では、記憶部２により、対象単語に対する意味タグの付与順序を示す付与順序データベース２３を記憶しておき、意味タグ決定部１３により、複数の処理対象単語について意味タグを決定する場合、記憶部の付与順序データベースを検索して各処理対象単語の付与順序を取得し、これら付与順序に基づいて各処理対象単語に対して順に意味タグを決定するようにしたので、より高い精度で意味タグを付与することが可能となる。

また、本実施の形態では、単語の意味タグ付与順の優先順データとしてエントロピーを用いる場合を例として説明したが、これに限定されるものではなく、例えば引用文献３で述べられている「単語親密度」を使用し、この単語親密度の低い順に意味タグを付与するなど、他の基準に基づいて意味タグ付与順を決定してもよい。

本発明の第１の実施の形態にかかる単語意味タグ付与装置の構成を示すブロック図である。本発明の第１の実施の形態にかかる単語意味タグ付与装置の要部を示すブロック図である。形態素解析結果の例である。構文意味解析結果の例である。単語辞書の例である。一次特徴量の定義例である。図６の定義に従って抽出した一次特徴量の例である。拡張特徴量の例である。最大エントロピモデルに基づく意味タグ選択モデルの例である。ビーム探索アルゴリズムの例である。意味タグ付与結果の例である。本発明の第２の実施の形態にかかる単語意味タグ付与装置の要部を示すブロック図である。他の解析結果の例である。他の一次特徴量の例である。他の拡張特徴量の例である。最大エントロピモデルに基づく他の意味タグ選択モデルの例である。意味タグ付与結果の例である。本発明の第３の実施の形態にかかる単語意味タグ付与装置の要部を示すブロック図である。付与優先順データベースの一例である。

符号の説明

１０…単語意味タグ付与装置、１…演算処理部、１１…対象文解析部、１１Ａ…形態素解析部、１１Ｂ…構文意味解析部、１１Ｃ…解析結果統合部、１２…特徴量抽出部、１２Ａ…一次特徴量抽出部、１２Ｂ…特徴量拡張部、１３…意味タグ決定部、１３Ａ…意味タグ組合せ探索部、１３Ｂ…意味タグ付与順決定部、１４…意味タグ出力部、２…記憶部、２０…プログラム、２１…単語辞書、２２…意味タグ選択モデル、２３…付与優先順データベース、３…入出力Ｉ／Ｆ部、４…通信Ｉ／Ｆ部、５…操作入力部、６…画面表示部、Ｘ…対象文、Ｙ…出力文、Ｍ…記録媒体。

Claims

自然言語データからなる対象文に含まれる各対象単語に対して、当該対象単語の意味を示す意味タグをそれぞれ付与する単語意味タグ付与装置であって、
単語の意味ごとに設けられた、当該意味を示す意味タグと当該意味の概念を示す意味クラスの組からなる単語辞書を記憶する記憶部と、
前記対象単語のうちから選択した処理対象単語について、当該処理対象単語と前記対象文に含まれる他の単語との間の単語共起関係を示す一次特徴量を生成し、当該処理対象単語と前記単語共起関係を持つ他の対象単語について前記記憶部の単語辞書を検索して得られた意味タグおよび意味クラスと当該処理対象単語との間の意味共起関係を示す意味共起特徴量を生成し、当該処理対象単語の一次特徴量と意味共起特徴量から当該処理対象単語の拡張特徴量を生成する特徴量抽出部と、
前記処理対象単語の拡張特徴量に基づいて、前記単語辞書に記述されている当該処理対象単語の意味タグのうち、前記対象文で使用されている当該処理対象単語の最も適切な意味を示す意味タグを決定する意味タグ決定部と
を備えることを特徴とする単語意味タグ付与装置。
請求項１に記載の単語意味タグ付与装置において、
前記特徴量抽出部は、
前記処理対象単語と前記対象文に含まれる他の単語との間の単語共起関係ごとに当該単語共起関係を示す一次特徴量をそれぞれ生成する一次特徴量抽出部と、
前記対象文に含まれる他の対象単語にそれぞれついて前記記憶部の単語辞書を検索し、得られた意味タグおよび意味クラスのそれぞれについて前記処理対象単語との間の意味共起関係を示す意味共起特徴量をそれぞれ生成し、これら意味共起特徴量と当該処理対象単語の一次特徴量とから当該対象単語の拡張特徴量を生成する特徴量拡張部と
を有することを特徴とする単語意味タグ付与装置。
請求項１に記載の単語意味タグ付与装置において、
前記記憶部は、対象単語に対する一次特徴量および意味共起特徴量ごとに、当該対象単語に対応して選択される各意味タグの重みを示す意味タグ選択モデルを記憶し、
前記意味タグ決定部は、前記拡張特徴量に含まれる前記処理対象単語の一次特徴量および意味共起特徴量について前記記憶部の意味タグ選択モデルを検索し、意味タグごと得られた重みに基づいて当該処理対象単語と各意味タグとの組合せごとに評価値を算出し、これら評価値に基づいて当該処理対象単語の意味タグを決定する
ことを特徴とする単語意味タグ付与装置。
請求項３に記載の単語意味タグ付与装置において、
前記記憶部は、対象単語に対する意味タグの付与順序を示す付与順序データベースを記憶し、
前記意味タグ決定部は、複数の処理対象単語について意味タグを決定する場合、前記記憶部の付与順序データベースを検索して各処理対象単語の付与順序を取得し、これら付与順序に基づいて各処理対象単語に対して順に意味タグを決定する
ことを特徴とする単語意味タグ付与装置。
請求項１に記載の単語意味タグ付与装置において、
前記対象文を形態素解析する形態素解析部と、前記対象文を構文意味解析する構文意味解析部と、これら形態素解析部と構文意味解析部での種類の解析結果を、同一解析対象ごとに統合し、前記対象文とともに前記一次特徴量抽出部へ出力する解析結果統合部とを有する対象文入力部をさらに備えることを特徴とする単語意味タグ付与装置。
自然言語データからなる対象文に含まれる各対象単語に対して、当該対象単語の意味を示す意味タグをそれぞれ付与する単語意味タグ付与方法であって、
単語の意味ごとに設けられた、当該意味を示す意味タグと当該意味の分類を示す意味クラスの組からなる単語辞書を記憶部で記憶する記憶ステップと、
特徴量抽出部により、前記対象単語のうちから選択した処理対象単語について、当該処理対象単語と前記対象文に含まれる他の単語との間の単語共起関係を示す一次特徴量を生成し、前記対象文に含まれる他の対象単語について前記記憶部の単語辞書を検索して得られた意味タグおよび意味クラスと当該処理対象単語との間の意味共起関係を示す意味共起特徴量を生成し、当該処理対象単語の一次特徴量と意味共起特徴量から当該処理対象単語の拡張特徴量を生成する特徴量抽出ステップと、
意味タグ決定部により、前記処理対象単語の拡張特徴量に基づいて、前記単語辞書に記述されている当該処理対象単語の意味タグのうち、前記対象文で使用されている当該処理対象単語の最も適切な意味を示す意味タグを決定する意味タグ決定ステップと
を備えることを特徴とする単語意味タグ付与方法。
コンピュータに、請求項６に記載の単語意味タグ付与方法の各ステップを実行させるためのプログラム。
請求項７に記載のプログラムが記録された記録媒体。