JP5117744B2 - Word meaning tag assigning device and method, program, and recording medium - Google Patents
Word meaning tag assigning device and method, program, and recording medium Download PDFInfo
- Publication number
- JP5117744B2 JP5117744B2 JP2007063244A JP2007063244A JP5117744B2 JP 5117744 B2 JP5117744 B2 JP 5117744B2 JP 2007063244 A JP2007063244 A JP 2007063244A JP 2007063244 A JP2007063244 A JP 2007063244A JP 5117744 B2 JP5117744 B2 JP 5117744B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- semantic
- tag
- meaning
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、自然言語解析技術に関し、特に自然言語データを構成する各単語に対して文脈にあった意味を示すタグを付与する単語意味タグ付与技術に関する。 The present invention relates to a natural language analysis technique, and more particularly to a word meaning tag assignment technique for assigning a tag indicating meaning in context to each word constituting natural language data.
自然言語処理において、意味的な情報を扱う場合、文中に含まれる各単語に、辞書やシソーラスで定義された単語の意味、すなわち意味タグを自動的に付与する技術が用いられる。
従来、このような技術として、対象文を構文解析器にかけ、依存構造にある単語対の意味タグを左から右へ決定していく方法や(例えば、非特許文献1など参照)、隠れマルコフモデルを使い、形態素解析と同様の方法で、左から右へ単語の意味タグを決定していく方法(例えば、非特許文献2など参照)が提案されている。
なお、これら技術では、意味タグは辞書やシソーラスで定義されているものとして説明しているが、単語が意味のまとまりで分類されているものは本質的に同じであり、例えばテキスト中での出現分布の特徴に基づいて既存の自動分類手法で分類されたものなども含まれる。
In the case of handling semantic information in natural language processing, a technique is used in which the meaning of a word defined by a dictionary or thesaurus, that is, a semantic tag is automatically assigned to each word included in a sentence.
Conventionally, as such a technique, a method of applying a target sentence to a parser and determining a semantic tag of a word pair in a dependency structure from left to right (for example, see Non-Patent Document 1), a hidden Markov model A method is proposed in which semantic tags of words are determined from left to right in the same manner as in morphological analysis (see, for example, Non-Patent Document 2).
In these technologies, meaning tags are described as being defined in a dictionary or thesaurus. However, words that are classified according to meaning groups are essentially the same. For example, they appear in text. Those classified by the existing automatic classification method based on the characteristics of the distribution are also included.
しかしながら、このような従来技術では、対象文の中の複数の単語に対して意味タグを付与する際に、各単語の出現順に沿って各単語に意味タグを付与しているため、意味タグの付与精度を高めることができないという問題点があった。 However, in such a conventional technique, when a semantic tag is assigned to a plurality of words in a target sentence, a semantic tag is assigned to each word along the order of appearance of each word. There was a problem that the application accuracy could not be increased.
すなわち各単語の出現順に沿って各単語に意味タグを付与する場合、出現順に沿った単語の意味タグ付与結果が他の単語の意味タグ付けに大きな影響を与えるため、場合によっては誤った意味タグの系列を選択してしまう恐れがある。
例えば、「茶のグラスをかけた男」という文中の「茶」と「グラス」という語に意味タグを付与する場合、左から右に意味タグを決定していくと、「茶」の共起語「グラス」が持つ「食器」という意味に引きずられて、「茶」の意味タグを「飲料」と決定し、その意味タグとの共起関係から次の「グラス」の意味タグを「食器」と誤る可能性がある。
In other words, when meaning tags are assigned to each word in the order of appearance of each word, the meaning tag assignment result of words in the order of appearance has a great influence on the meaning tagging of other words. There is a risk of selecting the series.
For example, if you add meaning tags to the words “tea” and “glass” in the sentence “a man wearing a glass of tea,” the co-occurrence of “tea” The word “glass” is dragged by the meaning of “tableware”, the meaning tag of “tea” is determined as “beverage”, and the next meaning tag of “glass” is determined as “tableware” from the co-occurrence relationship with the meaning tag. ”May be mistaken.
本発明はこのような課題を解決するためのものであり、意味タグの付与精度を高めることができる単語意味タグ付与装置および方法、プログラム並びに記録媒体を提供することを目的としている。 The present invention has been made to solve such problems, and an object thereof is to provide a word meaning tag assigning device and method, a program, and a recording medium that can improve the accuracy of meaning tag assignment.
このような目的を達成するために、本発明にかかる単語意味タグ付与装置は、自然言語データからなる対象文に含まれる各対象単語に対して、当該対象単語の意味を示す意味タグをそれぞれ付与する単語意味タグ付与装置であって、単語の意味ごとに設けられた、当該意味を示す意味タグと当該意味の概念を示す意味クラスの組からなる単語辞書を記憶する記憶部と、対象単語のうちから選択した処理対象単語について、当該処理対象単語と対象文に含まれる他の単語との間の単語共起関係を示す一次特徴量を生成し、当該処理対象単語と単語共起関係を持つ他の対象単語について記憶部の単語辞書を検索して得られた意味タグおよび意味クラスと当該処理対象単語との間の意味共起関係を示す意味共起特徴量を生成し、当該処理対象単語の一次特徴量と意味共起特徴量から当該処理対象単語の拡張特徴量を生成する特徴量抽出部と、処理対象単語の拡張特徴量に基づいて、単語辞書に記述されている当該処理対象単語の意味タグのうち、対象文で使用されている当該処理対象単語の最も適切な意味を示す意味タグを決定する意味タグ決定部とを備えている。 In order to achieve such an object, the word meaning tag assignment device according to the present invention assigns a meaning tag indicating the meaning of the target word to each target word included in the target sentence composed of natural language data. A word meaning tag assigning device for each word meaning, a storage unit for storing a word dictionary composed of a meaning tag indicating the meaning and a meaning class indicating a concept of the meaning, and a target word For a processing target word selected from among them, a primary feature amount indicating a word co-occurrence relationship between the processing target word and another word included in the target sentence is generated, and the word has a word co-occurrence relationship with the processing target word A semantic co-occurrence feature amount indicating a semantic co-occurrence relationship between a semantic tag and a semantic class obtained by searching the word dictionary in the storage unit for another target word and the processing target word is generated, and the processing target word of A feature amount extraction unit that generates an extended feature amount of the processing target word from the next feature amount and the semantic co-occurrence feature amount, and the processing target word described in the word dictionary based on the extended feature amount of the processing target word A semantic tag determination unit that determines a semantic tag indicating the most appropriate meaning of the processing target word used in the target sentence among the semantic tags.
この際、特徴量抽出部に、処理対象単語と対象文に含まれる他の単語との間の単語共起関係ごとに当該単語共起関係を示す一次特徴量をそれぞれ生成する一次特徴量抽出部と、対象文に含まれる他の対象単語にそれぞれついて記憶部の単語辞書を検索し、得られた意味タグおよび意味クラスのそれぞれについて処理対象単語との間の意味共起関係を示す意味共起特徴量をそれぞれ生成し、これら意味共起特徴量と当該処理対象単語の一次特徴量とから当該対象単語の拡張特徴量を生成する特徴量拡張部とを設けてもよい。 At this time, the feature quantity extraction unit generates a primary feature quantity indicating the word co-occurrence relationship for each word co-occurrence relationship between the processing target word and other words included in the target sentence. And semantic co-occurrence indicating a semantic co-occurrence relationship with the processing target word for each of the semantic tag and semantic class obtained by searching the word dictionary in the storage unit for each of the other target words included in the target sentence. A feature amount expansion unit that generates feature amounts and generates an extended feature amount of the target word from the semantic co-occurrence feature amount and the primary feature amount of the processing target word may be provided.
また、記憶部により、対象単語に対する一次特徴量および意味共起特徴量ごとに、当該対象単語に対応して選択される各意味タグの重みを示す意味タグ選択モデルを記憶し、意味タグ決定部により、拡張特徴量に含まれる処理対象単語の一次特徴量および意味共起特徴量について記憶部の意味タグ選択モデルを検索し、意味タグごと得られた重みに基づいて当該処理対象単語と各意味タグとの組合せごとに評価値を算出し、これら評価値に基づいて当該処理対象単語の意味タグを決定するようにしてもよい。 Further, the storage unit stores a semantic tag selection model indicating the weight of each semantic tag selected corresponding to the target word for each primary feature and semantic co-occurrence feature for the target word, and a semantic tag determination unit Thus, the semantic tag selection model in the storage unit is searched for the primary feature value and the semantic co-occurrence feature value of the processing target word included in the extended feature value, and the processing target word and each meaning are determined based on the weight obtained for each semantic tag. An evaluation value may be calculated for each combination with a tag, and a semantic tag for the processing target word may be determined based on the evaluation value.
また、記憶部により、対象単語に対する意味タグの付与順序を示す付与順序データベースを記憶し、意味タグ決定部により、複数の処理対象単語について意味タグを決定する場合、記憶部の付与順序データベースを検索して各処理対象単語の付与順序を取得し、これら付与順序に基づいて各処理対象単語に対して順に意味タグを決定するようにしてもよい。 In addition, the storage unit stores an assignment order database indicating the order in which the semantic tags are assigned to the target words, and when the semantic tag determination unit determines the semantic tags for a plurality of processing target words, the storage unit grant order database is searched. Then, the order of giving each processing target word may be acquired, and the semantic tag may be sequentially determined for each processing target word based on the order of giving.
また、対象文を形態素解析する形態素解析部と、対象文を構文意味解析する構文意味解析部と、これら形態素解析部と構文意味解析部での種類の解析結果を、同一解析対象ごとに統合し、対象文とともに一次特徴量抽出部へ出力する解析結果統合部とを有する対象文入力部をさらに備えてもよい。 In addition, the morphological analysis unit that performs morphological analysis on the target sentence, the syntactic and semantic analysis unit that performs syntactic and semantic analysis on the target sentence, and the types of analysis results in the morpheme analysis unit and the syntax and semantic analysis unit are integrated for each same analysis target. The target sentence input unit may further include an analysis result integration unit that outputs to the primary feature quantity extraction unit together with the target sentence.
また、本発明にかかる単語意味タグ付与方法は、自然言語データからなる対象文に含まれる各対象単語に対して、当該対象単語の意味を示す意味タグをそれぞれ付与する単語意味タグ付与方法であって、単語の意味ごとに設けられた、当該意味を示す意味タグと当該意味の分類を示す意味クラスの組からなる単語辞書を記憶部で記憶する記憶ステップと、特徴量抽出部により、対象単語のうちから選択した処理対象単語について、当該処理対象単語と対象文に含まれる他の単語との間の単語共起関係を示す一次特徴量を生成し、対象文に含まれる他の対象単語について記憶部の単語辞書を検索して得られた意味タグおよび意味クラスと当該処理対象単語との間の意味共起関係を示す意味共起特徴量を生成し、当該処理対象単語の一次特徴量と意味共起特徴量から当該処理対象単語の拡張特徴量を生成する特徴量抽出ステップと、意味タグ決定部により、処理対象単語の拡張特徴量に基づいて、単語辞書に記述されている当該処理対象単語の意味タグのうち、対象文で使用されている当該処理対象単語の最も適切な意味を示す意味タグを決定する意味タグ決定ステップとを備えている。 The word meaning tag assignment method according to the present invention is a word meaning tag assignment method for assigning a meaning tag indicating the meaning of the target word to each target word included in the target sentence composed of natural language data. A storage step of storing a word dictionary composed of a combination of a meaning tag indicating the meaning and a meaning class indicating the classification of the meaning, provided for each meaning of the word in the storage unit; For the processing target word selected from the above, a primary feature amount indicating a word co-occurrence relationship between the processing target word and another word included in the target sentence is generated, and the other target word included in the target sentence is generated. Generating a semantic co-occurrence feature amount indicating a semantic co-occurrence relationship between the semantic tag and semantic class obtained by searching the word dictionary in the storage unit and the processing target word, and a primary feature amount of the processing target word; The processing target described in the word dictionary based on the extended feature amount of the processing target word by the feature amount extraction step for generating the extended feature amount of the processing target word from the taste co-occurrence feature amount and the semantic tag determination unit A semantic tag determination step of determining a semantic tag indicating the most appropriate meaning of the processing target word used in the target sentence among the semantic tags of the word.
また、本発明にかかるプログラムは、コンピュータに、上記単語意味タグ付与方法の各ステップを実行させるためのプログラムである。
また、本発明にかかる記録媒体は、上記プログラムが記録された記録媒体である。
Moreover, the program concerning this invention is a program for making a computer perform each step of the said word meaning tag provision method.
A recording medium according to the present invention is a recording medium on which the program is recorded.
本発明によれば、特徴量抽出部により、対象単語のうちから選択した処理対象単語について、当該処理対象単語と対象文に含まれる他の単語との間の単語共起関係を示す一次特徴量を生成し、当該処理対象単語と単語共起関係を持つ他の対象単語について記憶部の単語辞書を検索して得られた意味タグおよび意味クラスと当該処理対象単語との間の意味共起関係を示す意味共起特徴量を生成し、当該処理対象単語の一次特徴量と意味共起特徴量から当該処理対象単語の拡張特徴量を生成し、意味タグ決定部により、処理対象単語の拡張特徴量に基づいて、単語辞書に記述されている当該処理対象単語の意味タグのうち、対象文で使用されている当該処理対象単語の最も適切な意味を示す意味タグを決定している。 According to the present invention, a primary feature amount indicating a word co-occurrence relationship between the processing target word and another word included in the target sentence for the processing target word selected from the target words by the feature amount extraction unit. And the semantic co-occurrence relationship between the semantic tag and semantic class obtained by searching the word dictionary in the storage unit for other target words having a word co-occurrence relationship with the processing target word and the processing target word Is generated from the primary feature value and the semantic co-occurrence feature amount of the processing target word, and the semantic tag determination unit causes the extended feature of the processing target word to be generated. Based on the amount, the semantic tag indicating the most appropriate meaning of the processing target word used in the target sentence is determined from the semantic tags of the processing target word described in the word dictionary.
これにより、対象単語の意味タグを付与する際、当該対象単語と単語共起関係を持つ単語だけでなく、当該対象単語と意味共起関係を持つ単語との関係に基づいて意味タグを付与することができる。したがって、単語の出現順に沿って各単語に意味タグを付与する場合と比較して、より広範囲の関係に基づいて意味タグを付与することができ、意味タグの付与精度を高めることができる。 Thereby, when assigning a semantic tag for a target word, a semantic tag is assigned based on the relationship between the target word and a word having a semantic co-occurrence relationship as well as a word having a word co-occurrence relationship with the target word. be able to. Therefore, compared with the case where a meaning tag is given to each word along the order of appearance of the word, the meaning tag can be given based on a wider range of relationships, and the meaning tag assignment accuracy can be improved.
次に、本発明の実施の形態について図面を参照して説明する。
[第1の実施の形態]
まず、図1を参照して、本発明の第1の実施の形態にかかる単語意味タグ付与装置について説明する。図1は、本発明の第1の実施の形態にかかる単語意味タグ付与装置の構成を示すブロック図である。
単語意味タグ付与装置10は、サーバやパーソナルコンピュータなどの一般的な情報処理装置からなり、自然言語データからなる対象文Xに含まれる各対象単語に対して、当該対象単語の意味を示す意味タグをそれぞれ付与し、出力文Yとして出力する機能を有している。
Next, embodiments of the present invention will be described with reference to the drawings.
[First embodiment]
First, with reference to FIG. 1, the word meaning tag provision apparatus concerning the 1st Embodiment of this invention is demonstrated. FIG. 1 is a block diagram showing a configuration of a word meaning tag assigning apparatus according to a first embodiment of the present invention.
The word meaning
本実施の形態は、記憶部により、単語の意味ごとに設けられた、当該意味を示す意味タグと当該意味の概念を示す意味クラスの組からなる単語辞書を記憶しておき、特徴量抽出部により、対象単語のうちから選択した処理対象単語について、当該処理対象単語と対象文に含まれる他の単語との間の単語共起関係を示す一次特徴量を生成し、当該処理対象単語と単語共起関係を持つ他の対象単語について記憶部の単語辞書を検索して得られた意味タグおよび意味クラスと当該処理対象単語との間の意味共起関係を示す意味共起特徴量を生成し、当該処理対象単語の一次特徴量と意味共起特徴量から当該処理対象単語の拡張特徴量を生成し、意味タグ決定部により、処理対象単語の拡張特徴量に基づいて、単語辞書に記述されている当該処理対象単語の意味タグのうち、対象文で使用されている当該処理対象単語の最も適切な意味を示す意味タグを決定するようにしたものである。 In the present embodiment, the storage unit stores a word dictionary that is provided for each word meaning and includes a meaning tag that indicates the meaning and a meaning class that indicates the concept of the meaning. For the processing target word selected from the target words, a primary feature amount indicating a word co-occurrence relationship between the processing target word and another word included in the target sentence is generated, and the processing target word and the word A semantic co-occurrence feature amount indicating a semantic co-occurrence relationship between a semantic tag and a semantic class obtained by searching the word dictionary in the storage unit for another target word having a co-occurrence relationship and the processing target word is generated. Then, an extended feature quantity of the processing target word is generated from the primary feature quantity and semantic co-occurrence feature quantity of the processing target word, and is described in the word dictionary by the semantic tag determination unit based on the extended feature quantity of the processing target word. The processing target Of meaning tag word, in which so as to determine the meaning tag indicating the most appropriate means of the processing target word used in the sentence.
以下、図1を参照して、本発明の第1の実施の形態にかかる単語意味タグ付与装置の構成について詳細に説明する。
単語意味タグ付与装置10には、主な機能部として、一般的な情報処理装置と同様に、演算処理部1、記憶部2、入出力インターフェース部(以下、入出力I/F部という)3、通信インターフェース部(以下、通信I/F部という)4、操作入力部5、および画面表示部6が設けられている。
Hereinafter, with reference to FIG. 1, the structure of the word meaning tag provision apparatus concerning the 1st Embodiment of this invention is demonstrated in detail.
The word meaning
演算処理部1は、CPUなどのマイクロプロセッサとその周辺回路からなり、記憶部2に格納されているプログラム20を読み出して実行することにより、上記ハードウェアとプログラム20とを協働させて各種処理部を実現する。
演算処理部1で実現される主な処理部としては、対象文解析部11、特徴量抽出部12、意味タグ決定部13、および意味タグ出力部14がある。
The
As main processing units realized by the
記憶部2は、ハードディスクやメモリなどの記憶装置からなり、演算処理部1で実行するプログラム20や、意味タグの付与処理に用いる各種処理情報を記憶する。プログラム20は、例えば入出力I/F部3を介して記録媒体Mから読み込まれ、あるいは通信I/F部4を介して外部装置(図示せず)から読み込まれ、記憶部2へ予め格納される。
記憶部2で記憶する主な処理情報としては、単語辞書21と意味タグ選択モデル22がある。
The storage unit 2 is composed of a storage device such as a hard disk or a memory, and stores a
Main processing information stored in the storage unit 2 includes a
入出力I/F部3は、専用のデータ入出力回路からなり、CDやDVD、さらには不揮発性メモリカードなどの記録媒体Mとの間で、演算処理部1からの指示に応じて、対象文X、出力文Y、辞書、データベースなどの各種データやプログラムを入出力する機能を有している。
通信I/F部4は、専用のデータ通信回路からなり、LANなどの通信回線を介して接続されたサーバなどの外部装置との間で、演算処理部1からの指示に応じて、対象文X、出力文Y、辞書、データベースなどの各種データやプログラムを送受信する機能を有している。
The input / output I / F unit 3 is composed of a dedicated data input / output circuit, and is connected to a recording medium M such as a CD, a DVD, or a nonvolatile memory card in accordance with an instruction from the
The communication I / F unit 4 includes a dedicated data communication circuit, and communicates with an external device such as a server connected via a communication line such as a LAN in accordance with an instruction from the
操作入力部5は、キーボードやマウスなどの操作入力装置からなり、オペレータの操作を検出して演算処理部1へ出力する機能を有している。
画面表示部6は、LCDやPDPなどの画面表示装置からなり、演算処理部1からの指示に応じて対象文Xや出力文Yなどの各種データや操作画面を画面表示する機能を有している。
The operation input unit 5 includes an operation input device such as a keyboard and a mouse, and has a function of detecting an operation of the operator and outputting the operation to the
The screen display unit 6 includes a screen display device such as an LCD or a PDP, and has a function of displaying various data such as a target sentence X and an output sentence Y and an operation screen on the screen according to instructions from the
図2は、本発明の第1の実施の形態にかかる単語意味タグ付与装置の要部を示すブロック図である。
対象文解析部11は、自然言語データからなる対象文Xを、記憶部2、入出力I/F部3、通信I/F部4、操作入力部5などから受け取って、2つの異なる言語解析を行う機能を有しており、ここでは形態素解析部11A、構文意味解析部11B、解析結果統合部11Cから構成されている。
FIG. 2 is a block diagram showing a main part of the word meaning tag assigning device according to the first embodiment of the present invention.
The target
形態素解析部11Aは、対象文Xについて公知の形態素解析処理を行う機能を有している。構文意味解析部11Bは、対象文Xについて公知の構文意味解析処理を行う機能を有している。解析結果統合部11Cは、形態素解析部11A、構文意味解析部11Bから受け取った複数の種類の解析結果を受け取り、同一文に対する解析結果を対応付ける、あるいは/さらに同一単語に関する解析結果を対応付ける機能と、同一文に対する複数の異なる解析結果を統合する機能とを有している。
The
特徴量抽出部12は、対象文解析部11で得られた言語解析結果に基づいて、記憶部2の単語辞書21を参照することにより、対象文Xに含まれる各対象言語について特徴量(特徴情報)を抽出する機能を有しており、ここでは一次特徴量抽出部12Aと特徴量拡張部12Bから構成されている。単語辞書21は、各単語について、その意味ごとに設けられた、当該意味を示す意味タグと当該意味の分類を示す意味クラスの組からなるデータベースである。なお、単語辞書21として、任意の知識ベースで前提としている概念と、その概念同士の相互関係を明示したオントロジを用いてもよい。
The feature
一次特徴量抽出部12Aは、言語解析結果に基づき対象文Xから抽出した単語ごとに単語辞書21を検索する機能と、これら単語のうち複数の意味を持つ単語を意味タグ付与対象となる対象言語として決定する機能と、対象単語のうちから選択した処理対象単語について、当該処理対象単語と対象文Xに含まれる他の単語との間の単語共起関係を示す一次(単語共起)特徴量(一次特徴情報)を生成する機能とを有している。
The primary feature
特徴量拡張部12Bは、対象文Xに含まれる他の対象単語について単語辞書21を検索する機能と、検索により得られた意味タグおよび意味クラスと当該処理対象単語との間の意味共起関係を示す意味共起特徴量(意味共起特徴情報)を生成する機能と、当該処理対象単語の一次特徴量と意味共起特徴量から当該処理対象単語の拡張特徴量を生成する機能とを有している。
The feature
意味タグ決定部13は、特徴量抽出部12で抽出された各対象言語の拡張特徴量に基づいて、記憶部2の意味タグ選択モデル22を参照することにより、単語辞書21に記述されている当該処理対象単語の意味タグのうち、対象文で使用されている当該処理対象単語の最も適切な意味を示す意味タグを決定する機能を有しており、ここでは意味タグ組合せ探索部13Aから構成されている。意味タグ選択モデル22は、対象単語に対する一次特徴量および意味共起特徴量ごとに、当該対象単語に対応して選択される各意味タグの重みを示すデータベースである。
The semantic
意味タグ組合せ探索部13Aは、拡張特徴量に含まれる処理対象単語の一次特徴量および意味共起特徴量について意味タグ選択モデル22を検索する機能と、意味タグごと得られた重みに基づいて当該処理対象単語と各意味タグとの組合せごとに評価値を算出する機能と、これら評価値が最も高い組合せをビーム探索などの探索アルゴリズムにより求めることにより当該処理対象単語の意味タグを決定する機能とを有している。
The semantic tag
意味タグ出力部14は、意味タグ決定部13で決定した各対象単語の意味タグに基づいて、対象文Xの各対象言語に最適な意味タグが付与された出力文Yを生成力する機能と、この出力文Yを記憶部2、入出力I/F部3、通信I/F部4、画面表示部6などへ出力する機能とを有している。
The semantic
[第1の実施の形態の動作]
次に、図2を参照して、本発明の第1の実施の形態にかかる単語意味タグ付与装置の動作について説明する。
単語意味タグ付与装置10の演算処理部1は、操作入力部5により、オペレータによる処理開始操作を検出した場合、まず対象文解析部11により、意味タグの付与対象とする対象文Xを受け取り、言語解析処理を行う。なお、対象文Xについてすでに言語解析されている場合、対象文解析部11による言語解析処理は不要となり、入力された対象文Xとその言語解析結果が特徴量抽出部12へ渡される。
[Operation of the first embodiment]
Next, with reference to FIG. 2, the operation of the word meaning tag assigning device according to the first exemplary embodiment of the present invention will be described.
When the operation input unit 5 detects a process start operation by the operator, the
対象文Xが「茶のグラスをかけた男」という自然言語データ(テキストデータ)である場合、形態素解析部11Aは、対象文Xを受け取って形態素解析処理を行い、得られた単語とその品詞を解析結果として出力する。図3は、形態素解析結果の例である。この例では、対象文Xが7つの単語に分割され、それぞれの単語に品詞が付与されている。文字位置は、それぞれの単語の対象文Xにおける文字の始まりと終わりの位置(文字桁)を表している。例えば「茶」は、対象文Xで1文字目から1文字目までの位置にあることを示している。
When the target sentence X is natural language data (text data) of “a man wearing a brown glass”, the
一方、構文意味解析部11Bは、対象文Xを受け取って構文意味解析を行い、各単語間の意味的な関係を出力する。図4は、構文意味解析結果の例である。この例では、(1)「茶のグラス」という名詞句があり、主辞「グラス」と修飾辞「茶」の2つの語が助詞「の」で連結されている、という関係と、(2)「グラスをかけた男」という名詞句があり、「かけた」という述語に対して「男」が主格、「グラス」が目的格である、という関係の2つの関係を示している。丸括弧内は、図3と同様に元の文での文字位置を示している。
解析結果統合部11Cは、形態素解析部11Aと構文意味解析部11Bの異なる言語解析結果を受け取り1つの結果にまとめ、特徴量抽出部12に送る。
On the other hand, the syntax and
The analysis
次に、演算処理部1は、特徴量抽出部12により、対象文解析部11で得られた対象文Xの言語解析結果に基づいて、各対象単語の特徴量を抽出する。
まず、特徴量抽出部12は、一次特徴量抽出部12Aにより、対象文Xの言語解析結果と単語辞書21に基づいて意味タグの付与対象となる対象単語を特定する。図5は、単語辞書の例である。
Next, the
First, the feature
この例では、単語「茶」には意味タグ「茶1」「茶2」に対応する2つの意味が存在し、単語「グラス」には意味タグ「グラス1」「グラス2」に対応する2つの意味が存在し、単語「男」には意味タグ「男1」に対応する1つの意味のみが存在し、単語「かける」には意味タグ「かける1」に対応する1つの意味のみが存在していることを示している。従って、ここでは複数の意味が存在する「茶」と「グラス」の2語が意味タグ付け対象単語と決定される。 In this example, the word “tea” has two meanings corresponding to the meaning tags “tea 1 ” and “tea 2 ”, and the word “glass” has two meanings corresponding to the meaning tags “glass 1 ” and “glass 2 ”. one of meaning is present, only the meaning of the one corresponding to the meaning tag "man 1" in the word "man" is present, the word "put" there is only the meaning of the one corresponding to the meaning tag "multiplied by 1" It shows that you are doing. Accordingly, here, two words “tea” and “glass” having a plurality of meanings are determined as meaning tagging target words.
続いて、一次特徴量抽出部12Aは、これら対象単語のうちから処理対象単語を1つずつ順に次選択し、その処理対象単語ごとに一次特徴量を生成する。図6は、一次特徴量の定義例である。図7は、図6の定義に従って抽出した一次特徴量の例である。例えば、「茶(1、1)」の欄のCoWord(グラス)は、対象単語「茶」が出現している文に、単語「グラス」が共起して出現していることを表している。
この際、一次特徴量抽出部12Aは、まず、図6の定義に基づいて処理対象単語と対象文Xに含まれる他の単語との単語共起関係を抽出し、それぞれ単語共起関係を示す一次特徴量を生成する。そして、これら一次特徴量からの羅列からなる一次特徴量を生成する。
Subsequently, the primary feature
At this time, the primary feature
次に、特徴量抽出部12は、特徴量拡張部12Bにより、単語辞書21を参照して、処理対象単語と単語共起関係を持つ他の対象単語の意味タグや当該意味の分類を示す意味クラスを検索し、得られた意味タグおよび意味クラスのぞれぞれと当該処理対象単語との共起関係を示す新たな特徴量を生成し、これを一次特徴量に付加することにより、一次特徴量をより広範な概念まで拡張した拡張特徴量を生成する。
Next, the feature
図8は、拡張特徴量の例である。例えば、対象単語「茶」の一次特徴量CoWord(グラス)に含まれる単語「グラス」が「グラス1:ガラス製の杯」である場合、単語辞書21を検索して単語「グラス」の意味タグ「グラス1」と意味クラス[食器]を取得し、当該一次特徴量の「グラス」を意味タグ「グラス1」で置き換えた新たな特徴量CoWord(グラス1)や、意味クラス[食器]で置き換えた新たな特徴量CoWord([食器])を生成する。
FIG. 8 is an example of the extended feature amount. For example, when the word “glass” included in the primary feature value CoWord (glass) of the target word “tea” is “glass 1 : glass cup”, the
一次特徴量は、対象単語「茶」と他の単語との単語レベルにおける共起関係を示す特徴量であるのに対して、これら新たな特徴量は、対象単語「茶」に対して単語共起関係を持つ他の対象単語との意味レベルにおける共起関係、すなわち意味共起関係を示す特徴量であり、これら新たな特徴量は意味共起特徴量といえる。
したがって、[食器]という意味クラスに置き換えた意味共起特徴量CoWord([食器])を加えることにより、[食器]の意味クラスに属する「皿」や「ジョッキ」などの他の単語が出現した文に対して、似た文脈であることを示す特徴量を得ることが可能となる。
The primary feature value is a feature value indicating a co-occurrence relationship at the word level between the target word “tea” and another word, whereas these new feature values are the same for the target word “tea”. It is a feature quantity indicating a co-occurrence relation at a semantic level with another target word having an origin relation, that is, a semantic co-occurrence relation. These new feature quantities can be said to be semantic co-occurrence feature quantities.
Therefore, by adding the semantic co-occurrence feature CoWord ([tableware]) replaced with the semantic class [tableware], other words such as “dish” and “mug” belonging to the semantic class of [tableware] appeared. It is possible to obtain a feature value indicating that the sentence has a similar context.
次に、演算処理部1は、意味タグ決定部13により、特徴量抽出部12で抽出された各対象言語の拡張特徴量に基づいて、対象文Xの各対象単語に最適な意味タグを決定する。
意味タグ決定部13は、意味タグ組合せ探索部13Aにより、記憶部2の意味タグ選択モデル22から各意味タグの組合せの評価値を計算し、その評価値が最大になる意味タグの組合せを探索により求める。
Next, the
The semantic
図9は、最大エントロピモデルに基づく意味タグ選択モデルの例である。図9中の数字は、対象単語について各特徴量が得られたときの各意味タグが選択される重みを表している。この重みは、正解の意味タグの付与されている学習データを用いて最大エントロピモデル(A. Berger他著:"A maximum entropy approach to natural language processing."、Computational Linguistics, 22(1), 39-71)に基づく方法などで決定することができる。 FIG. 9 is an example of a semantic tag selection model based on the maximum entropy model. The numbers in FIG. 9 represent the weights at which each semantic tag is selected when each feature amount is obtained for the target word. This weight is calculated using the maximum entropy model (A. Berger et al .: "A maximum entropy approach to natural language processing.", Computational Linguistics, 22 (1), 39- 71).
意味タグ選択モデルが最大エントロピモデルである場合、対象文の文脈cで、意味タグtが選択される確率p(t|c)は、次の式(1)および式(2)で求められ、これを評価値とする。ここで、fi(t,c)は素性関数であり、各特徴量iが得られたとき1、それ以外のとき0となる2値関数である。また、λiはモデルのパラメータであり、図9中の「重み」にあたる。 When the semantic tag selection model is the maximum entropy model, the probability p (t | c) that the semantic tag t is selected in the context c of the target sentence is obtained by the following expressions (1) and (2): This is an evaluation value. Here, fi (t, c) is a feature function, which is a binary function that is 1 when each feature quantity i is obtained, and 0 otherwise. Further, λi is a parameter of the model and corresponds to “weight” in FIG.
初期状態では、どの意味タグも決定しておらず、単語「茶」に対する特徴量のうち非ゼロの重みを持つのは、「CoWord(グラス)」のみであるので、
Z(c)p(茶1|c)=0.6×1=0.6
Z(c)p(茶2|c)=0.2
より、評価値(確率)は、
p(茶1|c)=0.6/(0.6+0.2)=0.75
p(茶2|c)=0.2/(0.6+0.2)=0.25
である。
In the initial state, no semantic tag is determined, and only “CoWord (glass)” has a non-zero weight among the feature values for the word “brown”.
Z (c) p (Brown 1 | c) = 0.6 × 1 = 0.6
Z (c) p (Brown 2 | c) = 0.2
Therefore, the evaluation value (probability) is
p (Brown 1 | c) = 0.6 / (0.6 + 0.2) = 0.75
p (Brown 2 | c) = 0.2 / (0.6 + 0.2) = 0.25
It is.
同様に単語「グラス」に関しては、特徴量「CoWord(茶)」,「ARG2/REL(述語_かける)」から、
Z(c)p(グラス1|c)=0.2×1+0.02×1=0.22
Z(c)p(グラス2|c)=0.3×1+1.3×1=1.6
より、評価値(確率)は、
p(グラス1|c)=0.22/(0.22+1.6)=0.121
p(グラス2|c)=1.6/(0.22+1.6)=0.879
である。
Similarly, for the word “glass”, from the feature quantities “CoWord (brown)” and “ARG2 / REL (predicate_kake)”,
Z (c) p (Glass 1 | c) = 0.2 × 1 + 0.02 × 1 = 0.22
Z (c) p (glass 2 | c) = 0.3 × 1 + 1.3 × 1 = 1.6
Therefore, the evaluation value (probability) is
p (glass 1 | c) = 0.22 / (0.22 + 1.6) = 0.121
p (glass 2 | c) = 1.6 / (0.22 + 1.6) = 0.879
It is.
この後、意味タグ組合せ探索部13Aは、ビーム探索アルゴリズムにより、最も評価値の高い意味タグを探索する。
図10は、ビーム探索アルゴリズムの例である。ここで、対象単語の集合をW={w1,...,wn}、単語wiのk番目の意味タグをtwik、決定された意味タグのリストをT、ビーム幅をbとする。探索は、N=[W,T]を探索ノードとして行う。またノードの評価値s(N)は、ノードNが直前ノードN_1=[W_1,T_1]から、単語wiの意味タグをtwikに決定してできたとすると、s(N)=p(twik|c)・s(N_1)と定義する。p(twik|c)は、前述のように図8の拡張特徴量、図3の形態素解析結果、および意味タグ選択モデル22から求めることができる。
Thereafter, the semantic tag
FIG. 10 is an example of a beam search algorithm. Here, the set of target words is W = {w 1 ,..., W n }, the k-th semantic tag of the word wi is t wik , the list of determined semantic tags is T, and the beam width is b. . The search is performed using N = [W, T] as a search node. Further, the node evaluation value s (N) is obtained when s (N) = p (t wik ), assuming that the node N determines the meaning tag of the word wi as t wik from the immediately preceding node N_1 = [W_1, T_1]. | C) · s (N_1). As described above, p (t wik | c) can be obtained from the extended feature quantity of FIG. 8, the morphological analysis result of FIG. 3, and the semantic
この例では、図10のステップS1において、初期ノードN0=[W0={茶、グラス},T0={}]が初期キューQ0に挿入される。続くステップS2において、W0から順番に「茶」、「グラス」を取り出し、それぞれに意味タグを決定したノードを作成する。これらのノードをキューQ’に挿入し、Q’=<[{グラス},{茶1}],[{グラス},{茶2}],[{茶},{グラス1}],[{茶},{グラス2}]>となる。 In this example, in step S1 of FIG. 10, the initial node N 0 = [W 0 = {brown, glass}, T0 = {}] is inserted into the initial queue Q 0 . In the subsequent step S2, “brown” and “grass” are taken out in order from W 0 , and a node with a semantic tag determined for each is created. Insert these nodes into the queue Q ′, and Q ′ = <[{Glass}, {Brown 1 }], [{Glass}, {Brown 2 }], [{Brown}, {Glass 1 }], [{ Tea}, {glass 2 }]>.
ここで、評価値s([{グラス},{茶1}])は、p(茶1|c)に等しく0.75であり、評価値s([{グラス},{茶2}])は、p(茶2|c)に等しく0.25である。同様に、s([{茶},{グラス1}])=0.121、s([{茶},{グラス2}])=0.879である。
ステップS3において、評価値の高い順にキューQ’の中をソートすると、Q’=<[{茶},{グラス2}],[{グラス},{茶1}],[{グラス},{茶2}],[{茶},{グラス1}]>となる。ビーム幅b=2とすると、新しいキューQは、Q=<[{茶},{グラス2}],{グラス},{茶1}]>となる。
Here, the evaluation value s ([{glass}, {tea 1 }]) is equal to p (tea 1 | c) and is 0.75, and the evaluation value s ([{glass}, {tea 2 }]) Is equal to p (brown 2 | c) and is 0.25. Similarly, s ([{Brown}, {Glass 1 }]) = 0.121 and s ([{Brown}, {Glass 2 }]) = 0.879.
In step S3, when the queue Q ′ is sorted in descending order of evaluation value, Q ′ = <[{Brown}, {Glass 2 }], [{Glass}, {Brown 1 }], [{Glass}, { Tea 2 }], [{Brown}, {Glass 1 }]>. If the beam width is b = 2, the new cue Q becomes Q = <[{Brown}, {Glass 2 }], {Glass}, {Brown 1 }]>.
次に、キューQの先頭のノード[{茶}、{グラス2}]からは、図8から新しく特徴量CoWord(グラス2)、CoWord([衣服])、ARG1/REL−ARG2(名詞句_の、[衣服])が得られる。同様にして計算を進めると、ステップS4において、最終的に[{},{茶2,グラス2}]が最も評価値の高いノードとなり、この意味タグの組合せが意味タグ出力部14に渡される。
Next, from the first node [{brown}, {glass 2 }] of the queue Q, new feature quantities CoWord (glass 2 ), CoWord ([clothes]), ARG1 / REL-ARG2 (noun phrase_ [Clothes]). When the calculation proceeds in the same manner, in step S4, [{}, {Brown 2 , Glass 2 }] finally becomes the node with the highest evaluation value, and this combination of semantic tags is passed to the semantic
図11は、意味タグ付与結果の例である。対象単語「茶」,「グラス」にそれぞれ「茶2」,「グラス2」の意味タグが付与されている。「男」,「かける」は単語辞書21上でそれぞれ意味タグが1つしかないので自動的に唯一の意味タグ「男1」,「かける1」がそれぞれ付与される。
FIG. 11 is an example of a semantic tag assignment result. Meaning tags “tea 2 ” and “glass 2 ” are assigned to the target words “tea” and “glass”, respectively. Since “male” and “kake” have only one semantic tag on the
このように、本実施の形態では、記憶部2により、単語の意味ごとに設けられた、当該意味を示す意味タグと当該意味の概念を示す意味クラスの組からなる単語辞書21を記憶しておき、特徴量抽出部12により、対象単語のうちから選択した処理対象単語について、当該処理対象単語と対象文に含まれる他の単語との間の単語共起関係を示す一次特徴量を生成し、当該処理対象単語と単語共起関係を持つ他の対象単語について記憶部の単語辞書を検索して得られた意味タグおよび意味クラスと当該処理対象単語との間の意味共起関係を示す意味共起特徴量を生成し、当該処理対象単語の一次特徴量と意味共起特徴量から当該処理対象単語の拡張特徴量を生成し、意味タグ決定部13により、処理対象単語の拡張特徴量に基づいて、単語辞書に記述されている当該処理対象単語の意味タグのうち、対象文で使用されている当該処理対象単語の最も適切な意味を示す意味タグを決定している。
As described above, in the present embodiment, the storage unit 2 stores the
これにより、対象単語の意味タグを付与する際、当該対象単語と単語共起関係を持つ単語だけでなく、当該対象単語と意味共起関係を持つ単語との関係に基づいて意味タグを付与することができる。したがって、単語の出現順に沿って各単語に意味タグを付与する場合と比較して、より広範囲の関係に基づいて意味タグを付与することができ、意味タグの付与精度を高めることができる。 Thereby, when assigning a semantic tag for a target word, a semantic tag is assigned based on the relationship between the target word and a word having a semantic co-occurrence relationship as well as a word having a word co-occurrence relationship with the target word. be able to. Therefore, compared with the case where a meaning tag is given to each word along the order of appearance of the word, the meaning tag can be given based on a wider range of relationships, and the meaning tag assignment accuracy can be improved.
また、本実施の形態では、対象文に対してことなる複数の解析処理によって言語解析を行い、これら解析結果を統合した解析情報に基づいて、単語共起関係や意味共起関係を抽出するようにしたので、特徴量を正確に生成することができ、より精度の高い意味タグの付与が実現可能となる。 In this embodiment, language analysis is performed by a plurality of different analysis processes for the target sentence, and word co-occurrence relations and semantic co-occurrence relations are extracted based on analysis information obtained by integrating these analysis results. As a result, feature quantities can be generated accurately, and more accurate semantic tags can be assigned.
[第2の実施の形態]
次に、図12を参照して、本発明の第2の実施の形態にかかる単語意味タグ付与装置について説明する。図12は、本発明の第2の実施の形態にかかる単語意味タグ付与装置の要部を示すブロック図であり、前述した図2と同じ又は同等部分には同一符号を付してある。
第1の実施の形態では、対象文解析部11において、対象文Xについて形態素解析と構文意味解析の異なる2つの言語解析を行う場合を例として説明した。本実施の形態では、対象文解析部11において、形態素解析だけを行う場合について説明する。
[Second Embodiment]
Next, with reference to FIG. 12, the word meaning tag provision apparatus concerning the 2nd Embodiment of this invention is demonstrated. FIG. 12 is a block diagram showing the main part of the word meaning tag assigning apparatus according to the second embodiment of the present invention, and the same or equivalent parts as those in FIG.
In the first embodiment, a case has been described as an example where the target
第1の実施の形態と比較して、本実施の形態にかかる単語意味タグ付与装置10では、対象文解析部11が形態素解析部11Aからのみ構成されている点が異なる。なお、他の構成については、前述した第1の実施の形態と同様であり、ここでの詳細な説明は省略する。
Compared to the first embodiment, the word meaning
[第2の実施の形態の動作]
次に、図12を参照して、本発明の第2の実施の形態にかかる単語意味タグ付与装置の動作について説明する。
単語意味タグ付与装置10の演算処理部1は、操作入力部5により、オペレータによる処理開始操作を検出した場合、まず対象文解析部11により、意味タグの付与対象とする対象文Xを受け取り、言語解析処理を行う。
対象文Xが「男がグラスで茶を出した」という自然言語データ(テキストデータ)である場合、対象文解析部11は、形態素解析部11Aにより、対象文Xを受け取って形態素解析処理を行い、得られた単語とその品詞を解析結果として出力する。図13は、解析結果の例である。
[Operation of Second Embodiment]
Next, the operation of the word meaning tag assigning device according to the second exemplary embodiment of the present invention will be described with reference to FIG.
When the operation input unit 5 detects a process start operation by the operator, the
When the target sentence X is natural language data (text data) that “a man made a tea with a glass”, the target
次に、演算処理部1は、特徴量抽出部12により、対象文解析部11で得られた対象文Xの言語解析結果に基づいて、各対象単語の特徴量を抽出する。
まず、特徴量抽出部12は、一次特徴量抽出部12Aにより、対象文Xの言語解析結果と単語辞書21に基づいて意味タグの付与対象となる対象単語を特定する。
この例では、単語「「グラス」,「茶」,「出す」にはそれぞれ2つずつの意味が存在するので、これら「茶」,「グラス」,「出す」の3語が意味タグ付け対象単語と決定される。
Next, the
First, the feature
In this example, there are two meanings for each of the words “glass”, “tea”, and “take out”, so these three words “tea”, “glass”, and “take out” are subject to semantic tagging. Determined as a word.
続いて、一次特徴量抽出部12Aは、これら対象単語のうちから処理対象単語を1つずつ順に次選択し、その処理対象単語ごとに一次特徴量を生成する。
この際、一次特徴量抽出部12Aは、前述と同様に、まず、図6の定義に基づいて処理対象単語と対象文Xに含まれる他の単語との単語共起関係を抽出し、それぞれ単語共起関係を示す一次特徴量を生成する。そして、これら一次特徴量からの羅列からなる一次特徴量を生成する。図14は、一次特徴量の例である。
Subsequently, the primary feature
At this time, the primary feature
次に、特徴量抽出部12は、特徴量拡張部12Bにより、単語辞書21を参照して、処理対象単語と単語共起関係を持つ他の対象単語の意味タグや当該意味の分類を示す意味クラスを検索し、得られた意味タグおよび意味クラスのぞれぞれと当該処理対象単語との共起関係を示す新たな特徴量を生成し、これを一次特徴量に付加することにより、一次特徴量をより広範な概念まで拡張した拡張特徴量を生成する。図15は、拡張特徴量の例である。
Next, the feature
次に、演算処理部1は、意味タグ決定部13により、特徴量抽出部12で抽出された各対象言語の拡張特徴量に基づいて、対象文Xの各対象単語に最適な意味タグを決定する。
意味タグ決定部13は、意味タグ組合せ探索部13Aにより、記憶部2の意味タグ選択モデル22から各意味タグの組合せの評価値を計算し、その評価値が最大になる意味タグの組合せを探索により求める。
Next, the
The semantic
図16は、最大エントロピモデルに基づく意味タグ選択モデルの例である。初期状態では、どの意味タグも決定しておらず、単語「グラス」に対する特徴量のうち非ゼロの重みを持つのは「CoWord(男)」,「CoWord(茶)」,「CoWord(出す)」であるので、
Z(c)p(グラス1|c)=0.1×1+0.1×1+0.2×1=0.4
Z(c)p(グラス2|c)=0.4+1+0.1×1=0.5
より、評価値(確率)は、
p(グラス1|c)=0.4/(0.4+0.5)=0.44
p(グラス2|c)=0.5/(0.4+0.5)=0.56
である。
FIG. 16 is an example of a semantic tag selection model based on the maximum entropy model. In the initial state, no semantic tag is determined, and “CoWord (male)”, “CoWord (brown)”, and “CoWord (out)” have a non-zero weight among the feature quantities for the word “glass”. Because
Z (c) p (Glass 1 | c) = 0.1 × 1 + 0.1 × 1 + 0.2 × 1 = 0.4
Z (c) p (glass 2 | c) = 0.4 + 1 + 0.1 × 1 = 0.5
Therefore, the evaluation value (probability) is
p (glass 1 | c) = 0.4 / (0.4 + 0.5) = 0.44
p (glass 2 | c) = 0.5 / (0.4 + 0.5) = 0.56
It is.
同様に単語「茶」に関しては、特徴量「CoWord(グラス)」,「CoWord(出す)」から
Z(c)p(茶1|c)=0.8×1+0.9×1=1.7
Z(c)p(茶2|c)=0.2×1+0.1×1=0.3
より、評価値(確率)は、
p(茶1|c)=1.7/(1.7+0.3)=0.85
p(茶2|c)=0.3/(1.7+0.3)=0.15
である。
Similarly, with respect to the word “tea”, the feature quantities “CoWord (glass)” and “CoWord (deposit)” are used. Z (c) p (tea 1 | c) = 0.8 × 1 + 0.9 × 1 = 1.7
Z (c) p (Brown 2 | c) = 0.2 × 1 + 0.1 × 1 = 0.3
Therefore, the evaluation value (probability) is
p (Brown 1 | c) = 1.7 / (1.7 + 0.3) = 0.85
p (Brown 2 | c) = 0.3 / (1.7 + 0.3) = 0.15
It is.
同様に単語「出す」に関しては、特徴量「CoWord(グラス)」,「CoWord(茶)」から
Z(c)p(出す1|c)=0.2×1+0=0.2
Z(c)p(出す2|c)=0.3×1+0.9×1=1.2
より、評価値(確率)は、
p(出す1|c)=0.2/(0.2+1.2)=0.14
p(出す2|c)=0.2/(0.2+1.2)=0.86
である。
Similarly, for the word “out”, Z (c) p (out 1 | c) = 0.2 × 1 + 0 = 0.2 from the feature quantities “CoWord (glass)” and “CoWord (brown)”.
Z (c) p ( 2 < 2 > c) = 0.3 * 1 + 0.9 * 1 = 1.2
Therefore, the evaluation value (probability) is
p ( 1 to be put out | c) = 0.2 / (0.2 + 1.2) = 0.14
p ( 2 out | c) = 0.2 / (0.2 + 1.2) = 0.86
It is.
この後、意味タグ組合せ探索部13Aは、ビーム探索アルゴリズムにより、最も評価値の高い意味タグを探索する。
この例では、図10のステップS1において、初期ノードN0=[W0={グラス,茶,出す}、T0={}]が初期キューQ0に挿入される。続くステップS2において、W0から順番に「グラス」,「茶」,「出す」を取り出し、それぞれに意味タグを決定したノードを作成する。これらのノードをキューQ’に挿入し、Q’=<[{茶,出す},{グラス1}],[{茶,出す},{グラス2}],[{グラス,出す},{茶1}],[{グラス,出す},{茶2}],[{グラス,茶},{出す1}],[{グラス,茶},{出す2}]>となる。
Thereafter, the semantic tag
In this example, in step S1 of FIG. 10, the initial node N 0 = [W 0 = {glass, brown, out}, T0 = {}] is inserted into the initial queue Q 0 . In the subsequent step S2, “glass”, “brown”, and “take out” are extracted in order from W 0 , and a node for which a semantic tag is determined is created for each. Insert these nodes into the queue Q ', Q' = <[{Brown, out}, {Glass 1 }], [{Brown, out}, {Glass 2 }], [{Glass, out}, {Brown 1 }], [{Glass, out}, {Brown 2 }], [{Glass, tea}, {Out 1 }], [{Glass, tea}, {Out 2 }]>.
ステップS3において、評価値の高い順にキューQ’の中をソートすると、Q’=<[{グラス,茶},{出す2}],[{グラス,出す},{茶1}],[{茶,出す},{グラス2}],[{茶、出す},{グラス1}],[{グラス,出す},{茶2}],[{グラス,茶},{出す1}]>となる。
ビーム幅b=2とすると、新しいキューQは、Q=<[{グラス,茶},{出す2}],[{グラス,出す},{茶1}]>となる。
In the step S3, when the queue Q ′ is sorted in descending order of evaluation value, Q ′ = <[{glass, tea}, {out 2 }], [{glass, out}, {tea 1 }], [{ Tea, out}, {glass 2 }], [{tea, out}, {glass 1 }], [{glass, out}, {tea 2 }], [{glass, tea}, {out 1 }]> It becomes.
If the beam width b = 2, the new cue Q becomes Q = <[{glass, brown}, {out 2 }], [{glass, out}, {brown 1 }]>.
同様にして計算を進めると、ステップS4において、最終的に[{}、{グラス1、茶1、出す2}]が最も評価値の高いノードとなり、この意味タグの組合せを意味タグ出力部14に渡す。図17は、意味タグ付与結果の例である。対象単語「グラス」、「茶」、「出す」にそれぞれ「グラス1」、「茶1」、「出す2」の意味タグが付与されている。「男」は単語辞書21上でそれぞれ意味タグが1つずつしかないので自動的に唯一の意味タグ「男1」が付与される。
When the calculation proceeds in the same manner, in step S4, [{}, {Glass 1 , Brown 1 , Out 2 }] finally becomes the node with the highest evaluation value, and this semantic tag combination is used as the semantic
このように、本実施の形態では、対象文解析部11において形態素解析のみを行うようにしたので、演算処理部1での処理負担を軽減できる。なお、第1の実施の形態より利用する情報が少ないため単語共起関係や意味共起関係の抽出精度が低くなる可能性があるものの、単語共起関係や意味共起関係を用いているため、より広範囲の関係に基づいて意味タグを付与することができ、意味タグの付与精度を高めることができる。
As described above, in the present embodiment, since only the morphological analysis is performed in the target
[第3の実施の形態]
次に、図18を参照して、本発明の第3の実施の形態にかかる単語意味タグ付与装置について説明する。図18は、本発明の第3の実施の形態にかかる単語意味タグ付与装置の要部を示すブロック図であり、前述した図2と同じ又は同等部分には同一符号を付してある。
[Third embodiment]
Next, with reference to FIG. 18, the word meaning tag provision apparatus concerning the 3rd Embodiment of this invention is demonstrated. FIG. 18 is a block diagram showing a main part of a word meaning tag assigning device according to the third exemplary embodiment of the present invention. The same or equivalent parts as those in FIG.
第1の実施の形態では、意味タグ決定部13において、特徴量抽出部12で抽出された各対象言語の拡張特徴量に基づいて、記憶部2の意味タグ選択モデル22を参照することにより、対象単語の最も適切な意味を示す意味タグを決定する場合について説明した。本実施の形態では、予め記憶部2に付与優先順データベース23を設け、意味タグ決定部13において対象単語の意味タグを付与する際、付与優先順データベース23の優先順に基づく順序で各対象単語に意味タグを付与する場合について説明する。
In the first embodiment, the semantic
第1の実施の形態と比較して、本実施の形態にかかる単語意味タグ付与装置10では、意味タグ決定部13に意味タグ付与順決定部13Bが追加されており、記憶部2に付与優先順データベース23が追加されている点が異なる。なお、他の構成については、前述した第1の実施の形態と同様であり、ここでの詳細な説明は省略する。
Compared with the first embodiment, in the word meaning
図19は、付与優先順データベースの一例である。ここでは、各対象単語の優先順を示す優先順データとして、特定のコーパスで計測した単語ごとの意味タグのエントロピーを用いている。一般にエントロピーが低いほど、単語の意味タグの使われ方のばらつきが小さく、意味タグを決めやすいと考えられる。したがって、この例によれば、対象単語への意味タグ付与順として(1)グラス、(2)茶の順となる。 FIG. 19 is an example of a priority database. Here, the entropy of the semantic tag for each word measured by a specific corpus is used as the priority order data indicating the priority order of each target word. In general, the lower the entropy, the smaller the variation in the use of word semantic tags, and the easier it is to determine semantic tags. Therefore, according to this example, the meaning tags are assigned to the target words in the order of (1) glass and (2) brown.
意味タグ決定部13は、意味タグ組合せ探索部13Aにより、特徴量抽出部12で抽出された各対象言語の拡張特徴量に基づいて、対象文Xの各対象単語に最適な意味タグを決定する際、前もって意味タグ付与順決定部13Bにより、各対象単語への意味タグ付与順を決定する。意味タグ付与順決定部13Bは、各対象単語について記憶部2の付与優先順データベース23を検索して、各対象単語の優先順データ、ここでは意味タグのエントロピーを取得し、この優先順データに基づいて各対象単語への意味タグ付与順を決定する。
The semantic
意味タグ組合せ探索部13Aは、意味タグ付与順決定部13Bで決定された付与順に基づいて、各対象単語から1つずつ処理対象単語を選択し、当該処理対象単語について第1の実施の形態と同様のビーム探索アルゴリズムにより、最も評価値の高い意味タグを探索する。
The semantic tag
このように、本実施の形態では、記憶部2により、対象単語に対する意味タグの付与順序を示す付与順序データベース23を記憶しておき、意味タグ決定部13により、複数の処理対象単語について意味タグを決定する場合、記憶部の付与順序データベースを検索して各処理対象単語の付与順序を取得し、これら付与順序に基づいて各処理対象単語に対して順に意味タグを決定するようにしたので、より高い精度で意味タグを付与することが可能となる。
As described above, in the present embodiment, the storage unit 2 stores the
また、本実施の形態では、単語の意味タグ付与順の優先順データとしてエントロピーを用いる場合を例として説明したが、これに限定されるものではなく、例えば引用文献3で述べられている「単語親密度」を使用し、この単語親密度の低い順に意味タグを付与するなど、他の基準に基づいて意味タグ付与順を決定してもよい。 In the present embodiment, the case where entropy is used as the priority order data in the meaning tag assignment order of words has been described as an example. However, the present invention is not limited to this. For example, “word” described in cited document 3 The order of meaning tag assignment may be determined based on other criteria, such as using “familiarity” and assigning semantic tags in order of increasing word familiarity.
10…単語意味タグ付与装置、1…演算処理部、11…対象文解析部、11A…形態素解析部、11B…構文意味解析部、11C…解析結果統合部、12…特徴量抽出部、12A…一次特徴量抽出部、12B…特徴量拡張部、13…意味タグ決定部、13A…意味タグ組合せ探索部、13B…意味タグ付与順決定部、14…意味タグ出力部、2…記憶部、20…プログラム、21…単語辞書、22…意味タグ選択モデル、23…付与優先順データベース、3…入出力I/F部、4…通信I/F部、5…操作入力部、6…画面表示部、X…対象文、Y…出力文、M…記録媒体。
DESCRIPTION OF
Claims (7)
単語の意味ごとに設けられた、当該意味を示す意味タグと当該意味の概念を示す意味クラスの組からなる単語辞書を記憶する記憶部と、
前記対象単語のうちから選択した処理対象単語について、当該処理対象単語と前記対象文に含まれる他の単語との間の単語共起関係を示す一次特徴量を生成し、前記対象文に含まれる他の単語について前記記憶部の単語辞書を検索して得られた意味タグおよび意味クラスと当該処理対象単語との間の意味共起関係を示す意味共起特徴量を生成し、当該処理対象単語の一次特徴量に前記意味共起特徴量を付加して当該処理対象単語の拡張特徴量を生成する特徴量抽出部と、
前記処理対象単語の拡張特徴量に基づいて、前記単語辞書に記述されている当該処理対象単語の意味タグのうち、前記対象文で使用されている当該処理対象単語の最も適切な意味を示す意味タグを決定する意味タグ決定部と
を備え、
前記記憶部は、各意味タグが選択される確率を最大エントロピ法により求める際に、前記処理対象単語の拡張特徴量と前記意味タグとの組ごとに付与される重みを記憶し、
前記意味タグ決定部は、前記処理対象単語の拡張特徴量について、前記拡張特徴量と対応する意味タグごとに付与された前記重みを乗じて、前記最大エントロピ法により当該処理対象単語と各意味タグとの組合せごとに前記確率を算出し、当該処理対象単語に対応する意味タグのうち前記確率が最も高い意味タグを当該処理対象単語の意味タグとして決定する
ことを特徴とする単語意味タグ付与装置。 A word meaning tag assigning device that assigns a meaning tag indicating the meaning of a target word to each target word included in a target sentence composed of natural language data,
A storage unit that stores a word dictionary including a set of a meaning tag indicating the meaning and a meaning class indicating the concept of the meaning, provided for each meaning of the word;
For a processing target word selected from the target words, a primary feature amount indicating a word co-occurrence relationship between the processing target word and another word included in the target sentence is generated and included in the target sentence A semantic co-occurrence feature amount indicating a semantic co-occurrence relationship between the semantic tag and semantic class obtained by searching the word dictionary of the storage unit for the other word and the processing target word is generated, and the processing target word a feature extraction unit which adds the meaning co-occurrence characteristic amount to the primary characteristic of generating an extended feature amount of the processing target word,
Meaning indicating the most appropriate meaning of the processing target word used in the target sentence among the semantic tags of the processing target word described in the word dictionary based on the extended feature amount of the processing target word A semantic tag determination unit for determining a tag , and
The storage unit stores a weight given to each set of the extended feature amount of the processing target word and the semantic tag when determining the probability that each semantic tag is selected by the maximum entropy method,
The semantic tag determining unit multiplies the weight given to each semantic tag corresponding to the extended feature amount, with respect to the extended feature amount of the processing target word, and uses the maximum entropy method to determine the processing target word and each semantic tag. And calculating a probability for each combination, and determining a semantic tag having the highest probability among semantic tags corresponding to the processing target word as a semantic tag of the processing target word .
前記特徴量抽出部は、
前記処理対象単語と前記対象文に含まれる他の単語との間の単語共起関係ごとに当該単語共起関係を示す一次特徴量をそれぞれ生成する一次特徴量抽出部と、
前記対象文に含まれる他の対象単語にそれぞれついて前記記憶部の単語辞書を検索し、得られた意味タグおよび意味クラスのそれぞれについて前記処理対象単語との間の意味共起関係を示す意味共起特徴量をそれぞれ生成し、これら意味共起特徴量と当該処理対象単語の一次特徴量とから当該対象単語の拡張特徴量を生成する特徴量拡張部と
を有することを特徴とする単語意味タグ付与装置。 In the word meaning tag grant apparatus of Claim 1,
The feature amount extraction unit includes:
A primary feature amount extraction unit that generates a primary feature amount indicating the word co-occurrence relationship for each word co-occurrence relationship between the processing target word and another word included in the target sentence;
A word dictionary in the storage unit is searched for each of the other target words included in the target sentence, and a semantic co-occurrence relationship indicating a semantic co-occurrence relationship with the processing target word is obtained for each of the obtained semantic tags and semantic classes. A word meaning tag comprising: a feature amount expansion unit that generates each occurrence feature amount and generates an extended feature amount of the target word from the semantic co-occurrence feature amount and a primary feature amount of the processing target word Granting device.
前記記憶部は、対象単語に対する意味タグの付与順序を示す付与順序データベースを記憶し、
前記意味タグ決定部は、複数の処理対象単語について意味タグを決定する場合、前記記憶部の付与順序データベースを検索して各処理対象単語の付与順序を取得し、これら付与順序に基づいて各処理対象単語に対して順に意味タグを決定する
ことを特徴とする単語意味タグ付与装置。 In the word meaning tag grant apparatus of Claim 1 ,
The storage unit stores an assignment order database indicating an assignment order of semantic tags for the target word;
When the semantic tag determining unit determines a semantic tag for a plurality of processing target words, the semantic tag determining unit acquires a processing order of the processing target words by searching a storage order database of the storage unit, and performs each processing based on the processing order. A semantic word tagging apparatus characterized in that a semantic tag is sequentially determined for a target word.
前記対象文を形態素解析する形態素解析部と、前記対象文を構文意味解析する構文意味解析部と、これら形態素解析部と構文意味解析部での種類の解析結果を、同一解析対象ごとに統合し、前記対象文とともに前記一次特徴量抽出部へ出力する解析結果統合部とを有する対象文入力部をさらに備えることを特徴とする単語意味タグ付与装置。 In the word meaning tag grant apparatus of Claim 1,
The morphological analysis unit that performs morphological analysis on the target sentence, the syntax-semantic analysis unit that performs syntax-separation analysis on the target sentence, and the types of analysis results in the morpheme analysis unit and the syntax-semantic analysis unit are integrated for each same analysis target. A word meaning tagging apparatus, further comprising: a target sentence input unit including an analysis result integration unit that outputs the target sentence together with the target sentence to the primary feature amount extraction unit.
単語の意味ごとに設けられた、当該意味を示す意味タグと当該意味の分類を示す意味クラスの組からなる単語辞書を記憶部で記憶する記憶ステップと、
特徴量抽出部により、前記対象単語のうちから選択した処理対象単語について、当該処理対象単語と前記対象文に含まれる他の単語との間の単語共起関係を示す一次特徴量を生成し、前記対象文に含まれる他の単語について前記記憶部の単語辞書を検索して得られた意味タグおよび意味クラスと当該処理対象単語との間の意味共起関係を示す意味共起特徴量を生成し、当該処理対象単語の一次特徴量に前記意味共起特徴量を付加して当該処理対象単語の拡張特徴量を生成する特徴量抽出ステップと、
意味タグ決定部により、前記処理対象単語の拡張特徴量に基づいて、前記単語辞書に記述されている当該処理対象単語の意味タグのうち、前記対象文で使用されている当該処理対象単語の最も適切な意味を示す意味タグを決定する意味タグ決定ステップと
を備え、
前記記憶ステップは、各意味タグが選択される確率を最大エントロピ法により求める際に、前記処理対象単語の拡張特徴量と前記意味タグとの組ごとに付与される重みを記憶し、
前記意味タグ決定ステップは、前記処理対象単語の拡張特徴量について、前記拡張特徴量と対応する意味タグごとに付与された前記重みを乗じて、前記最大エントロピ法により当該処理対象単語と各意味タグとの組合せごとに前記確率を算出し、当該処理対象単語に対応する意味タグのうち前記確率が最も高い意味タグを当該処理対象単語の意味タグとして決定する
ことを特徴とする単語意味タグ付与方法。 A word meaning tag assigning method for assigning a meaning tag indicating the meaning of a target word to each target word included in a target sentence composed of natural language data,
A storage step of storing in the storage unit a word dictionary composed of a combination of a meaning tag indicating the meaning and a meaning class indicating the classification of the meaning, provided for each meaning of the word;
A feature amount extraction unit generates a primary feature amount indicating a word co-occurrence relationship between the processing target word and another word included in the target sentence for the processing target word selected from the target words, Semantic co-occurrence feature quantity indicating a semantic co-occurrence relationship between a semantic tag and a semantic class obtained by searching the word dictionary in the storage unit for other words included in the target sentence and the processing target word is generated. A feature amount extraction step of generating the extended feature amount of the processing target word by adding the semantic co-occurrence feature amount to the primary feature amount of the processing target word;
Based on the extended feature amount of the processing target word, the semantic tag determination unit selects the most processing target word used in the target sentence from the semantic tags of the processing target word described in the word dictionary. A semantic tag determination step for determining a semantic tag indicating an appropriate meaning , and
The storing step stores a weight given to each set of the extended feature amount of the processing target word and the semantic tag when obtaining the probability that each semantic tag is selected by the maximum entropy method,
The semantic tag determination step multiplies the weight given to each semantic tag corresponding to the extended feature amount by multiplying the extended feature amount of the processing target word by the maximum entropy method and each semantic tag. And calculating a probability for each combination of the above and determining a semantic tag having the highest probability among semantic tags corresponding to the processing target word as a semantic tag of the processing target word .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007063244A JP5117744B2 (en) | 2007-03-13 | 2007-03-13 | Word meaning tag assigning device and method, program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007063244A JP5117744B2 (en) | 2007-03-13 | 2007-03-13 | Word meaning tag assigning device and method, program, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008225846A JP2008225846A (en) | 2008-09-25 |
JP5117744B2 true JP5117744B2 (en) | 2013-01-16 |
Family
ID=39844394
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007063244A Expired - Fee Related JP5117744B2 (en) | 2007-03-13 | 2007-03-13 | Word meaning tag assigning device and method, program, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5117744B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5254888B2 (en) * | 2009-06-05 | 2013-08-07 | 日本電信電話株式会社 | Language resource information generating apparatus, method, program, and recording medium |
JP5718407B2 (en) * | 2013-05-13 | 2015-05-13 | 日本電信電話株式会社 | Dialog pattern extraction apparatus, dialog apparatus, method, and program |
JP6201702B2 (en) * | 2013-12-06 | 2017-09-27 | 富士ゼロックス株式会社 | Semantic information classification program and information processing apparatus |
JP6495124B2 (en) * | 2015-07-09 | 2019-04-03 | 日本電信電話株式会社 | Term semantic code determination device, term semantic code determination model learning device, method, and program |
US20170235796A1 (en) * | 2016-02-16 | 2017-08-17 | Taleris Global Llp | Interrelation of Multiple Data Streams |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3847273B2 (en) * | 2003-05-12 | 2006-11-22 | 沖電気工業株式会社 | Word classification device, word classification method, and word classification program |
JP2005327107A (en) * | 2004-05-14 | 2005-11-24 | Fuji Xerox Co Ltd | Proper name category estimation device and program |
-
2007
- 2007-03-13 JP JP2007063244A patent/JP5117744B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008225846A (en) | 2008-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7444325B2 (en) | Method and system for information extraction | |
CN110008349B (en) | Computer-implemented method and apparatus for event risk assessment | |
CN109299228B (en) | Computer-implemented text risk prediction method and device | |
JP6828335B2 (en) | Search program, search device and search method | |
GB2401972A (en) | Identifying special word usage in a document | |
US11379536B2 (en) | Classification device, classification method, generation method, classification program, and generation program | |
JP6737151B2 (en) | Synonym expression extraction device, synonym expression extraction method, and synonym expression extraction program | |
JP2008198132A (en) | Peculiar expression extraction program, peculiar expression extraction method and peculiar expression extraction device | |
JP5117744B2 (en) | Word meaning tag assigning device and method, program, and recording medium | |
WO2015170963A1 (en) | System and method for automatically generating a knowledge base | |
JP4534666B2 (en) | Text sentence search device and text sentence search program | |
JP2006227823A (en) | Information processor and its control method | |
JP4979637B2 (en) | Compound word break estimation device, method, and program for estimating compound word break position | |
KR20190101718A (en) | User review based rating re-calculation apparatus and method, storage media storing the same | |
JP6689466B1 (en) | Sentence structure vectorization device, sentence structure vectorization method, and sentence structure vectorization program | |
JP5447368B2 (en) | NEW CASE GENERATION DEVICE, NEW CASE GENERATION METHOD, AND NEW CASE GENERATION PROGRAM | |
JP4361299B2 (en) | Evaluation expression extraction apparatus, program, and storage medium | |
KR101983477B1 (en) | Method and System for zero subject resolution in Korean using a paragraph-based pivotal entity identification | |
KR20220041336A (en) | Graph generation system of recommending significant keywords and extracting core documents and method thereof | |
KR20220041337A (en) | Graph generation system of updating a search word from thesaurus and extracting core documents and method thereof | |
JP4671440B2 (en) | Reputation relationship extraction device, method and program thereof | |
Lai et al. | An unsupervised approach to discover media frames | |
US20080120263A1 (en) | Computer-readable recording medium, apparatus and method for calculating scale-parameter | |
JP5326781B2 (en) | Extraction rule creation system, extraction rule creation method, and extraction rule creation program | |
JP4592556B2 (en) | Document search apparatus, document search method, and document search program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090109 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20111125 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20111125 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120217 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120228 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120501 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121016 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121018 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151026 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |