JP2008225846A - 単語意味タグ付与装置および方法、プログラム並びに記録媒体 - Google Patents

単語意味タグ付与装置および方法、プログラム並びに記録媒体 Download PDF

Info

Publication number
JP2008225846A
JP2008225846A JP2007063244A JP2007063244A JP2008225846A JP 2008225846 A JP2008225846 A JP 2008225846A JP 2007063244 A JP2007063244 A JP 2007063244A JP 2007063244 A JP2007063244 A JP 2007063244A JP 2008225846 A JP2008225846 A JP 2008225846A
Authority
JP
Japan
Prior art keywords
word
semantic
meaning
tag
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007063244A
Other languages
English (en)
Other versions
JP5117744B2 (ja
Inventor
Takaaki Tanaka
貴秋 田中
Sanae Fujita
早苗 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007063244A priority Critical patent/JP5117744B2/ja
Publication of JP2008225846A publication Critical patent/JP2008225846A/ja
Application granted granted Critical
Publication of JP5117744B2 publication Critical patent/JP5117744B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】対象単語に対する意味タグの付与精度を高める。
【解決手段】特徴量抽出部12により、対象単語のうちから選択した処理対象単語について、当該処理対象単語と対象文に含まれる他の単語との間の単語共起関係を示す一次特徴量を生成し、当該処理対象単語と単語共起関係を持つ他の対象単語について記憶部の単語辞書を検索して得られた意味タグおよび意味クラスと当該処理対象単語との間の意味共起関係を示す意味共起特徴量を生成し、当該処理対象単語の一次特徴量と意味共起特徴量から当該処理対象単語の拡張特徴量を生成し、意味タグ決定部13により、処理対象単語の拡張特徴量に基づいて、単語辞書に記述されている当該処理対象単語の意味タグのうち、対象文で使用されている当該処理対象単語の最も適切な意味を示す意味タグを決定する。
【選択図】 図1

Description

本発明は、自然言語解析技術に関し、特に自然言語データを構成する各単語に対して文脈にあった意味を示すタグを付与する単語意味タグ付与技術に関する。
自然言語処理において、意味的な情報を扱う場合、文中に含まれる各単語に、辞書やシソーラスで定義された単語の意味、すなわち意味タグを自動的に付与する技術が用いられる。
従来、このような技術として、対象文を構文解析器にかけ、依存構造にある単語対の意味タグを左から右へ決定していく方法や(例えば、非特許文献1など参照)、隠れマルコフモデルを使い、形態素解析と同様の方法で、左から右へ単語の意味タグを決定していく方法(例えば、非特許文献2など参照)が提案されている。
なお、これら技術では、意味タグは辞書やシソーラスで定義されているものとして説明しているが、単語が意味のまとまりで分類されているものは本質的に同じであり、例えばテキスト中での出現分布の特徴に基づいて既存の自動分類手法で分類されたものなども含まれる。
SenseLeaner, Rada Mihalcea and Ehsanul Faruque 著, "SenseLearner: Minimally Supervised Word Sense Disambiguation for All Words in Open Text" in Proceedings of ACL/SIGLEX Senseval-3, Barcelona, Spain, July 2004. Antonia Molina他 著, "WSD system based on Specialized Hidden Markov Model(upv-shmm-eaw)" in Proceedings of ACL/SIGLEX Senseval-3, Barcelona, Spain, July 2004. 笠原要也著, "基本語意味データベース:Lexeedの構築", 情報処理学会研究報告、NLC-159, 2004
しかしながら、このような従来技術では、対象文の中の複数の単語に対して意味タグを付与する際に、各単語の出現順に沿って各単語に意味タグを付与しているため、意味タグの付与精度を高めることができないという問題点があった。
すなわち各単語の出現順に沿って各単語に意味タグを付与する場合、出現順に沿った単語の意味タグ付与結果が他の単語の意味タグ付けに大きな影響を与えるため、場合によっては誤った意味タグの系列を選択してしまう恐れがある。
例えば、「茶のグラスをかけた男」という文中の「茶」と「グラス」という語に意味タグを付与する場合、左から右に意味タグを決定していくと、「茶」の共起語「グラス」が持つ「食器」という意味に引きずられて、「茶」の意味タグを「飲料」と決定し、その意味タグとの共起関係から次の「グラス」の意味タグを「食器」と誤る可能性がある。
本発明はこのような課題を解決するためのものであり、意味タグの付与精度を高めることができる単語意味タグ付与装置および方法、プログラム並びに記録媒体を提供することを目的としている。
このような目的を達成するために、本発明にかかる単語意味タグ付与装置は、自然言語データからなる対象文に含まれる各対象単語に対して、当該対象単語の意味を示す意味タグをそれぞれ付与する単語意味タグ付与装置であって、単語の意味ごとに設けられた、当該意味を示す意味タグと当該意味の概念を示す意味クラスの組からなる単語辞書を記憶する記憶部と、対象単語のうちから選択した処理対象単語について、当該処理対象単語と対象文に含まれる他の単語との間の単語共起関係を示す一次特徴量を生成し、当該処理対象単語と単語共起関係を持つ他の対象単語について記憶部の単語辞書を検索して得られた意味タグおよび意味クラスと当該処理対象単語との間の意味共起関係を示す意味共起特徴量を生成し、当該処理対象単語の一次特徴量と意味共起特徴量から当該処理対象単語の拡張特徴量を生成する特徴量抽出部と、処理対象単語の拡張特徴量に基づいて、単語辞書に記述されている当該処理対象単語の意味タグのうち、対象文で使用されている当該処理対象単語の最も適切な意味を示す意味タグを決定する意味タグ決定部とを備えている。
この際、特徴量抽出部に、処理対象単語と対象文に含まれる他の単語との間の単語共起関係ごとに当該単語共起関係を示す一次特徴量をそれぞれ生成する一次特徴量抽出部と、対象文に含まれる他の対象単語にそれぞれついて記憶部の単語辞書を検索し、得られた意味タグおよび意味クラスのそれぞれについて処理対象単語との間の意味共起関係を示す意味共起特徴量をそれぞれ生成し、これら意味共起特徴量と当該処理対象単語の一次特徴量とから当該対象単語の拡張特徴量を生成する特徴量拡張部とを設けてもよい。
また、記憶部により、対象単語に対する一次特徴量および意味共起特徴量ごとに、当該対象単語に対応して選択される各意味タグの重みを示す意味タグ選択モデルを記憶し、意味タグ決定部により、拡張特徴量に含まれる処理対象単語の一次特徴量および意味共起特徴量について記憶部の意味タグ選択モデルを検索し、意味タグごと得られた重みに基づいて当該処理対象単語と各意味タグとの組合せごとに評価値を算出し、これら評価値に基づいて当該処理対象単語の意味タグを決定するようにしてもよい。
また、記憶部により、対象単語に対する意味タグの付与順序を示す付与順序データベースを記憶し、意味タグ決定部により、複数の処理対象単語について意味タグを決定する場合、記憶部の付与順序データベースを検索して各処理対象単語の付与順序を取得し、これら付与順序に基づいて各処理対象単語に対して順に意味タグを決定するようにしてもよい。
また、対象文を形態素解析する形態素解析部と、対象文を構文意味解析する構文意味解析部と、これら形態素解析部と構文意味解析部での種類の解析結果を、同一解析対象ごとに統合し、対象文とともに一次特徴量抽出部へ出力する解析結果統合部とを有する対象文入力部をさらに備えてもよい。
また、本発明にかかる単語意味タグ付与方法は、自然言語データからなる対象文に含まれる各対象単語に対して、当該対象単語の意味を示す意味タグをそれぞれ付与する単語意味タグ付与方法であって、単語の意味ごとに設けられた、当該意味を示す意味タグと当該意味の分類を示す意味クラスの組からなる単語辞書を記憶部で記憶する記憶ステップと、特徴量抽出部により、対象単語のうちから選択した処理対象単語について、当該処理対象単語と対象文に含まれる他の単語との間の単語共起関係を示す一次特徴量を生成し、対象文に含まれる他の対象単語について記憶部の単語辞書を検索して得られた意味タグおよび意味クラスと当該処理対象単語との間の意味共起関係を示す意味共起特徴量を生成し、当該処理対象単語の一次特徴量と意味共起特徴量から当該処理対象単語の拡張特徴量を生成する特徴量抽出ステップと、意味タグ決定部により、処理対象単語の拡張特徴量に基づいて、単語辞書に記述されている当該処理対象単語の意味タグのうち、対象文で使用されている当該処理対象単語の最も適切な意味を示す意味タグを決定する意味タグ決定ステップとを備えている。
また、本発明にかかるプログラムは、コンピュータに、上記単語意味タグ付与方法の各ステップを実行させるためのプログラムである。
また、本発明にかかる記録媒体は、上記プログラムが記録された記録媒体である。
本発明によれば、特徴量抽出部により、対象単語のうちから選択した処理対象単語について、当該処理対象単語と対象文に含まれる他の単語との間の単語共起関係を示す一次特徴量を生成し、当該処理対象単語と単語共起関係を持つ他の対象単語について記憶部の単語辞書を検索して得られた意味タグおよび意味クラスと当該処理対象単語との間の意味共起関係を示す意味共起特徴量を生成し、当該処理対象単語の一次特徴量と意味共起特徴量から当該処理対象単語の拡張特徴量を生成し、意味タグ決定部により、処理対象単語の拡張特徴量に基づいて、単語辞書に記述されている当該処理対象単語の意味タグのうち、対象文で使用されている当該処理対象単語の最も適切な意味を示す意味タグを決定している。
これにより、対象単語の意味タグを付与する際、当該対象単語と単語共起関係を持つ単語だけでなく、当該対象単語と意味共起関係を持つ単語との関係に基づいて意味タグを付与することができる。したがって、単語の出現順に沿って各単語に意味タグを付与する場合と比較して、より広範囲の関係に基づいて意味タグを付与することができ、意味タグの付与精度を高めることができる。
次に、本発明の実施の形態について図面を参照して説明する。
[第1の実施の形態]
まず、図1を参照して、本発明の第1の実施の形態にかかる単語意味タグ付与装置について説明する。図1は、本発明の第1の実施の形態にかかる単語意味タグ付与装置の構成を示すブロック図である。
単語意味タグ付与装置10は、サーバやパーソナルコンピュータなどの一般的な情報処理装置からなり、自然言語データからなる対象文Xに含まれる各対象単語に対して、当該対象単語の意味を示す意味タグをそれぞれ付与し、出力文Yとして出力する機能を有している。
本実施の形態は、記憶部により、単語の意味ごとに設けられた、当該意味を示す意味タグと当該意味の概念を示す意味クラスの組からなる単語辞書を記憶しておき、特徴量抽出部により、対象単語のうちから選択した処理対象単語について、当該処理対象単語と対象文に含まれる他の単語との間の単語共起関係を示す一次特徴量を生成し、当該処理対象単語と単語共起関係を持つ他の対象単語について記憶部の単語辞書を検索して得られた意味タグおよび意味クラスと当該処理対象単語との間の意味共起関係を示す意味共起特徴量を生成し、当該処理対象単語の一次特徴量と意味共起特徴量から当該処理対象単語の拡張特徴量を生成し、意味タグ決定部により、処理対象単語の拡張特徴量に基づいて、単語辞書に記述されている当該処理対象単語の意味タグのうち、対象文で使用されている当該処理対象単語の最も適切な意味を示す意味タグを決定するようにしたものである。
以下、図1を参照して、本発明の第1の実施の形態にかかる単語意味タグ付与装置の構成について詳細に説明する。
単語意味タグ付与装置10には、主な機能部として、一般的な情報処理装置と同様に、演算処理部1、記憶部2、入出力インターフェース部(以下、入出力I/F部という)3、通信インターフェース部(以下、通信I/F部という)4、操作入力部5、および画面表示部6が設けられている。
演算処理部1は、CPUなどのマイクロプロセッサとその周辺回路からなり、記憶部2に格納されているプログラム20を読み出して実行することにより、上記ハードウェアとプログラム20とを協働させて各種処理部を実現する。
演算処理部1で実現される主な処理部としては、対象文解析部11、特徴量抽出部12、意味タグ決定部13、および意味タグ出力部14がある。
記憶部2は、ハードディスクやメモリなどの記憶装置からなり、演算処理部1で実行するプログラム20や、意味タグの付与処理に用いる各種処理情報を記憶する。プログラム20は、例えば入出力I/F部3を介して記録媒体Mから読み込まれ、あるいは通信I/F部4を介して外部装置(図示せず)から読み込まれ、記憶部2へ予め格納される。
記憶部2で記憶する主な処理情報としては、単語辞書21と意味タグ選択モデル22がある。
入出力I/F部3は、専用のデータ入出力回路からなり、CDやDVD、さらには不揮発性メモリカードなどの記録媒体Mとの間で、演算処理部1からの指示に応じて、対象文X、出力文Y、辞書、データベースなどの各種データやプログラムを入出力する機能を有している。
通信I/F部4は、専用のデータ通信回路からなり、LANなどの通信回線を介して接続されたサーバなどの外部装置との間で、演算処理部1からの指示に応じて、対象文X、出力文Y、辞書、データベースなどの各種データやプログラムを送受信する機能を有している。
操作入力部5は、キーボードやマウスなどの操作入力装置からなり、オペレータの操作を検出して演算処理部1へ出力する機能を有している。
画面表示部6は、LCDやPDPなどの画面表示装置からなり、演算処理部1からの指示に応じて対象文Xや出力文Yなどの各種データや操作画面を画面表示する機能を有している。
図2は、本発明の第1の実施の形態にかかる単語意味タグ付与装置の要部を示すブロック図である。
対象文解析部11は、自然言語データからなる対象文Xを、記憶部2、入出力I/F部3、通信I/F部4、操作入力部5などから受け取って、2つの異なる言語解析を行う機能を有しており、ここでは形態素解析部11A、構文意味解析部11B、解析結果統合部11Cから構成されている。
形態素解析部11Aは、対象文Xについて公知の形態素解析処理を行う機能を有している。構文意味解析部11Bは、対象文Xについて公知の構文意味解析処理を行う機能を有している。解析結果統合部11Cは、形態素解析部11A、構文意味解析部11Bから受け取った複数の種類の解析結果を受け取り、同一文に対する解析結果を対応付ける、あるいは/さらに同一単語に関する解析結果を対応付ける機能と、同一文に対する複数の異なる解析結果を統合する機能とを有している。
特徴量抽出部12は、対象文解析部11で得られた言語解析結果に基づいて、記憶部2の単語辞書21を参照することにより、対象文Xに含まれる各対象言語について特徴量(特徴情報)を抽出する機能を有しており、ここでは一次特徴量抽出部12Aと特徴量拡張部12Bから構成されている。単語辞書21は、各単語について、その意味ごとに設けられた、当該意味を示す意味タグと当該意味の分類を示す意味クラスの組からなるデータベースである。なお、単語辞書21として、任意の知識ベースで前提としている概念と、その概念同士の相互関係を明示したオントロジを用いてもよい。
一次特徴量抽出部12Aは、言語解析結果に基づき対象文Xから抽出した単語ごとに単語辞書21を検索する機能と、これら単語のうち複数の意味を持つ単語を意味タグ付与対象となる対象言語として決定する機能と、対象単語のうちから選択した処理対象単語について、当該処理対象単語と対象文Xに含まれる他の単語との間の単語共起関係を示す一次(単語共起)特徴量(一次特徴情報)を生成する機能とを有している。
特徴量拡張部12Bは、対象文Xに含まれる他の対象単語について単語辞書21を検索する機能と、検索により得られた意味タグおよび意味クラスと当該処理対象単語との間の意味共起関係を示す意味共起特徴量(意味共起特徴情報)を生成する機能と、当該処理対象単語の一次特徴量と意味共起特徴量から当該処理対象単語の拡張特徴量を生成する機能とを有している。
意味タグ決定部13は、特徴量抽出部12で抽出された各対象言語の拡張特徴量に基づいて、記憶部2の意味タグ選択モデル22を参照することにより、単語辞書21に記述されている当該処理対象単語の意味タグのうち、対象文で使用されている当該処理対象単語の最も適切な意味を示す意味タグを決定する機能を有しており、ここでは意味タグ組合せ探索部13Aから構成されている。意味タグ選択モデル22は、対象単語に対する一次特徴量および意味共起特徴量ごとに、当該対象単語に対応して選択される各意味タグの重みを示すデータベースである。
意味タグ組合せ探索部13Aは、拡張特徴量に含まれる処理対象単語の一次特徴量および意味共起特徴量について意味タグ選択モデル22を検索する機能と、意味タグごと得られた重みに基づいて当該処理対象単語と各意味タグとの組合せごとに評価値を算出する機能と、これら評価値が最も高い組合せをビーム探索などの探索アルゴリズムにより求めることにより当該処理対象単語の意味タグを決定する機能とを有している。
意味タグ出力部14は、意味タグ決定部13で決定した各対象単語の意味タグに基づいて、対象文Xの各対象言語に最適な意味タグが付与された出力文Yを生成力する機能と、この出力文Yを記憶部2、入出力I/F部3、通信I/F部4、画面表示部6などへ出力する機能とを有している。
[第1の実施の形態の動作]
次に、図2を参照して、本発明の第1の実施の形態にかかる単語意味タグ付与装置の動作について説明する。
単語意味タグ付与装置10の演算処理部1は、操作入力部5により、オペレータによる処理開始操作を検出した場合、まず対象文解析部11により、意味タグの付与対象とする対象文Xを受け取り、言語解析処理を行う。なお、対象文Xについてすでに言語解析されている場合、対象文解析部11による言語解析処理は不要となり、入力された対象文Xとその言語解析結果が特徴量抽出部12へ渡される。
対象文Xが「茶のグラスをかけた男」という自然言語データ(テキストデータ)である場合、形態素解析部11Aは、対象文Xを受け取って形態素解析処理を行い、得られた単語とその品詞を解析結果として出力する。図3は、形態素解析結果の例である。この例では、対象文Xが7つの単語に分割され、それぞれの単語に品詞が付与されている。文字位置は、それぞれの単語の対象文Xにおける文字の始まりと終わりの位置(文字桁)を表している。例えば「茶」は、対象文Xで1文字目から1文字目までの位置にあることを示している。
一方、構文意味解析部11Bは、対象文Xを受け取って構文意味解析を行い、各単語間の意味的な関係を出力する。図4は、構文意味解析結果の例である。この例では、(1)「茶のグラス」という名詞句があり、主辞「グラス」と修飾辞「茶」の2つの語が助詞「の」で連結されている、という関係と、(2)「グラスをかけた男」という名詞句があり、「かけた」という述語に対して「男」が主格、「グラス」が目的格である、という関係の2つの関係を示している。丸括弧内は、図3と同様に元の文での文字位置を示している。
解析結果統合部11Cは、形態素解析部11Aと構文意味解析部11Bの異なる言語解析結果を受け取り1つの結果にまとめ、特徴量抽出部12に送る。
次に、演算処理部1は、特徴量抽出部12により、対象文解析部11で得られた対象文Xの言語解析結果に基づいて、各対象単語の特徴量を抽出する。
まず、特徴量抽出部12は、一次特徴量抽出部12Aにより、対象文Xの言語解析結果と単語辞書21に基づいて意味タグの付与対象となる対象単語を特定する。図5は、単語辞書の例である。
この例では、単語「茶」には意味タグ「茶1」「茶2」に対応する2つの意味が存在し、単語「グラス」には意味タグ「グラス1」「グラス2」に対応する2つの意味が存在し、単語「男」には意味タグ「男1」に対応する1つの意味のみが存在し、単語「かける」には意味タグ「かける1」に対応する1つの意味のみが存在していることを示している。従って、ここでは複数の意味が存在する「茶」と「グラス」の2語が意味タグ付け対象単語と決定される。
続いて、一次特徴量抽出部12Aは、これら対象単語のうちから処理対象単語を1つずつ順に次選択し、その処理対象単語ごとに一次特徴量を生成する。図6は、一次特徴量の定義例である。図7は、図6の定義に従って抽出した一次特徴量の例である。例えば、「茶(1、1)」の欄のCoWord(グラス)は、対象単語「茶」が出現している文に、単語「グラス」が共起して出現していることを表している。
この際、一次特徴量抽出部12Aは、まず、図6の定義に基づいて処理対象単語と対象文Xに含まれる他の単語との単語共起関係を抽出し、それぞれ単語共起関係を示す一次特徴量を生成する。そして、これら一次特徴量からの羅列からなる一次特徴量を生成する。
次に、特徴量抽出部12は、特徴量拡張部12Bにより、単語辞書21を参照して、処理対象単語と単語共起関係を持つ他の対象単語の意味タグや当該意味の分類を示す意味クラスを検索し、得られた意味タグおよび意味クラスのぞれぞれと当該処理対象単語との共起関係を示す新たな特徴量を生成し、これを一次特徴量に付加することにより、一次特徴量をより広範な概念まで拡張した拡張特徴量を生成する。
図8は、拡張特徴量の例である。例えば、対象単語「茶」の一次特徴量CoWord(グラス)に含まれる単語「グラス」が「グラス1:ガラス製の杯」である場合、単語辞書21を検索して単語「グラス」の意味タグ「グラス1」と意味クラス[食器]を取得し、当該一次特徴量の「グラス」を意味タグ「グラス1」で置き換えた新たな特徴量CoWord(グラス1)や、意味クラス[食器]で置き換えた新たな特徴量CoWord([食器])を生成する。
一次特徴量は、対象単語「茶」と他の単語との単語レベルにおける共起関係を示す特徴量であるのに対して、これら新たな特徴量は、対象単語「茶」に対して単語共起関係を持つ他の対象単語との意味レベルにおける共起関係、すなわち意味共起関係を示す特徴量であり、これら新たな特徴量は意味共起特徴量といえる。
したがって、[食器]という意味クラスに置き換えた意味共起特徴量CoWord([食器])を加えることにより、[食器]の意味クラスに属する「皿」や「ジョッキ」などの他の単語が出現した文に対して、似た文脈であることを示す特徴量を得ることが可能となる。
次に、演算処理部1は、意味タグ決定部13により、特徴量抽出部12で抽出された各対象言語の拡張特徴量に基づいて、対象文Xの各対象単語に最適な意味タグを決定する。
意味タグ決定部13は、意味タグ組合せ探索部13Aにより、記憶部2の意味タグ選択モデル22から各意味タグの組合せの評価値を計算し、その評価値が最大になる意味タグの組合せを探索により求める。
図9は、最大エントロピモデルに基づく意味タグ選択モデルの例である。図9中の数字は、対象単語について各特徴量が得られたときの各意味タグが選択される重みを表している。この重みは、正解の意味タグの付与されている学習データを用いて最大エントロピモデル(A. Berger他著:"A maximum entropy approach to natural language processing."、Computational Linguistics, 22(1), 39-71)に基づく方法などで決定することができる。
意味タグ選択モデルが最大エントロピモデルである場合、対象文の文脈cで、意味タグtが選択される確率p(t|c)は、次の式(1)および式(2)で求められ、これを評価値とする。ここで、fi(t,c)は素性関数であり、各特徴量iが得られたとき1、それ以外のとき0となる2値関数である。また、λiはモデルのパラメータであり、図9中の「重み」にあたる。
Figure 2008225846
初期状態では、どの意味タグも決定しておらず、単語「茶」に対する特徴量のうち非ゼロの重みを持つのは、「CoWord(グラス)」のみであるので、
Z(c)p(茶1|c)=0.6×1=0.6
Z(c)p(茶2|c)=0.2
より、評価値(確率)は、
p(茶1|c)=0.6/(0.6+0.2)=0.75
p(茶2|c)=0.2/(0.6+0.2)=0.25
である。
同様に単語「グラス」に関しては、特徴量「CoWord(茶)」,「ARG2/REL(述語_かける)」から、
Z(c)p(グラス1|c)=0.2×1+0.02×1=0.22
Z(c)p(グラス2|c)=0.3×1+1.3×1=1.6
より、評価値(確率)は、
p(グラス1|c)=0.22/(0.22+1.6)=0.121
p(グラス2|c)=1.6/(0.22+1.6)=0.879
である。
この後、意味タグ組合せ探索部13Aは、ビーム探索アルゴリズムにより、最も評価値の高い意味タグを探索する。
図10は、ビーム探索アルゴリズムの例である。ここで、対象単語の集合をW={w1,...,wn}、単語wiのk番目の意味タグをtwik、決定された意味タグのリストをT、ビーム幅をbとする。探索は、N=[W,T]を探索ノードとして行う。またノードの評価値s(N)は、ノードNが直前ノードN_1=[W_1,T_1]から、単語wiの意味タグをtwikに決定してできたとすると、s(N)=p(twik|c)・s(N_1)と定義する。p(twik|c)は、前述のように図8の拡張特徴量、図3の形態素解析結果、および意味タグ選択モデル22から求めることができる。
この例では、図10のステップS1において、初期ノードN0=[W0={茶、グラス},T0={}]が初期キューQ0に挿入される。続くステップS2において、W0から順番に「茶」、「グラス」を取り出し、それぞれに意味タグを決定したノードを作成する。これらのノードをキューQ’に挿入し、Q’=<[{グラス},{茶1}],[{グラス},{茶2}],[{茶},{グラス1}],[{茶},{グラス2}]>となる。
ここで、評価値s([{グラス},{茶1}])は、p(茶1|c)に等しく0.75であり、評価値s([{グラス},{茶2}])は、p(茶2|c)に等しく0.25である。同様に、s([{茶},{グラス1}])=0.121、s([{茶},{グラス2}])=0.879である。
ステップS3において、評価値の高い順にキューQ’の中をソートすると、Q’=<[{茶},{グラス2}],[{グラス},{茶1}],[{グラス},{茶2}],[{茶},{グラス1}]>となる。ビーム幅b=2とすると、新しいキューQは、Q=<[{茶},{グラス2}],{グラス},{茶1}]>となる。
次に、キューQの先頭のノード[{茶}、{グラス2}]からは、図8から新しく特徴量CoWord(グラス2)、CoWord([衣服])、ARG1/REL−ARG2(名詞句_の、[衣服])が得られる。同様にして計算を進めると、ステップS4において、最終的に[{},{茶2,グラス2}]が最も評価値の高いノードとなり、この意味タグの組合せが意味タグ出力部14に渡される。
図11は、意味タグ付与結果の例である。対象単語「茶」,「グラス」にそれぞれ「茶2」,「グラス2」の意味タグが付与されている。「男」,「かける」は単語辞書21上でそれぞれ意味タグが1つしかないので自動的に唯一の意味タグ「男1」,「かける1」がそれぞれ付与される。
このように、本実施の形態では、記憶部2により、単語の意味ごとに設けられた、当該意味を示す意味タグと当該意味の概念を示す意味クラスの組からなる単語辞書21を記憶しておき、特徴量抽出部12により、対象単語のうちから選択した処理対象単語について、当該処理対象単語と対象文に含まれる他の単語との間の単語共起関係を示す一次特徴量を生成し、当該処理対象単語と単語共起関係を持つ他の対象単語について記憶部の単語辞書を検索して得られた意味タグおよび意味クラスと当該処理対象単語との間の意味共起関係を示す意味共起特徴量を生成し、当該処理対象単語の一次特徴量と意味共起特徴量から当該処理対象単語の拡張特徴量を生成し、意味タグ決定部13により、処理対象単語の拡張特徴量に基づいて、単語辞書に記述されている当該処理対象単語の意味タグのうち、対象文で使用されている当該処理対象単語の最も適切な意味を示す意味タグを決定している。
これにより、対象単語の意味タグを付与する際、当該対象単語と単語共起関係を持つ単語だけでなく、当該対象単語と意味共起関係を持つ単語との関係に基づいて意味タグを付与することができる。したがって、単語の出現順に沿って各単語に意味タグを付与する場合と比較して、より広範囲の関係に基づいて意味タグを付与することができ、意味タグの付与精度を高めることができる。
また、本実施の形態では、対象文に対してことなる複数の解析処理によって言語解析を行い、これら解析結果を統合した解析情報に基づいて、単語共起関係や意味共起関係を抽出するようにしたので、特徴量を正確に生成することができ、より精度の高い意味タグの付与が実現可能となる。
[第2の実施の形態]
次に、図12を参照して、本発明の第2の実施の形態にかかる単語意味タグ付与装置について説明する。図12は、本発明の第2の実施の形態にかかる単語意味タグ付与装置の要部を示すブロック図であり、前述した図2と同じ又は同等部分には同一符号を付してある。
第1の実施の形態では、対象文解析部11において、対象文Xについて形態素解析と構文意味解析の異なる2つの言語解析を行う場合を例として説明した。本実施の形態では、対象文解析部11において、形態素解析だけを行う場合について説明する。
第1の実施の形態と比較して、本実施の形態にかかる単語意味タグ付与装置10では、対象文解析部11が形態素解析部11Aからのみ構成されている点が異なる。なお、他の構成については、前述した第1の実施の形態と同様であり、ここでの詳細な説明は省略する。
[第2の実施の形態の動作]
次に、図12を参照して、本発明の第2の実施の形態にかかる単語意味タグ付与装置の動作について説明する。
単語意味タグ付与装置10の演算処理部1は、操作入力部5により、オペレータによる処理開始操作を検出した場合、まず対象文解析部11により、意味タグの付与対象とする対象文Xを受け取り、言語解析処理を行う。
対象文Xが「男がグラスで茶を出した」という自然言語データ(テキストデータ)である場合、対象文解析部11は、形態素解析部11Aにより、対象文Xを受け取って形態素解析処理を行い、得られた単語とその品詞を解析結果として出力する。図13は、解析結果の例である。
次に、演算処理部1は、特徴量抽出部12により、対象文解析部11で得られた対象文Xの言語解析結果に基づいて、各対象単語の特徴量を抽出する。
まず、特徴量抽出部12は、一次特徴量抽出部12Aにより、対象文Xの言語解析結果と単語辞書21に基づいて意味タグの付与対象となる対象単語を特定する。
この例では、単語「「グラス」,「茶」,「出す」にはそれぞれ2つずつの意味が存在するので、これら「茶」,「グラス」,「出す」の3語が意味タグ付け対象単語と決定される。
続いて、一次特徴量抽出部12Aは、これら対象単語のうちから処理対象単語を1つずつ順に次選択し、その処理対象単語ごとに一次特徴量を生成する。
この際、一次特徴量抽出部12Aは、前述と同様に、まず、図6の定義に基づいて処理対象単語と対象文Xに含まれる他の単語との単語共起関係を抽出し、それぞれ単語共起関係を示す一次特徴量を生成する。そして、これら一次特徴量からの羅列からなる一次特徴量を生成する。図14は、一次特徴量の例である。
次に、特徴量抽出部12は、特徴量拡張部12Bにより、単語辞書21を参照して、処理対象単語と単語共起関係を持つ他の対象単語の意味タグや当該意味の分類を示す意味クラスを検索し、得られた意味タグおよび意味クラスのぞれぞれと当該処理対象単語との共起関係を示す新たな特徴量を生成し、これを一次特徴量に付加することにより、一次特徴量をより広範な概念まで拡張した拡張特徴量を生成する。図15は、拡張特徴量の例である。
次に、演算処理部1は、意味タグ決定部13により、特徴量抽出部12で抽出された各対象言語の拡張特徴量に基づいて、対象文Xの各対象単語に最適な意味タグを決定する。
意味タグ決定部13は、意味タグ組合せ探索部13Aにより、記憶部2の意味タグ選択モデル22から各意味タグの組合せの評価値を計算し、その評価値が最大になる意味タグの組合せを探索により求める。
図16は、最大エントロピモデルに基づく意味タグ選択モデルの例である。初期状態では、どの意味タグも決定しておらず、単語「グラス」に対する特徴量のうち非ゼロの重みを持つのは「CoWord(男)」,「CoWord(茶)」,「CoWord(出す)」であるので、
Z(c)p(グラス1|c)=0.1×1+0.1×1+0.2×1=0.4
Z(c)p(グラス2|c)=0.4+1+0.1×1=0.5
より、評価値(確率)は、
p(グラス1|c)=0.4/(0.4+0.5)=0.44
p(グラス2|c)=0.5/(0.4+0.5)=0.56
である。
同様に単語「茶」に関しては、特徴量「CoWord(グラス)」,「CoWord(出す)」から
Z(c)p(茶1|c)=0.8×1+0.9×1=1.7
Z(c)p(茶2|c)=0.2×1+0.1×1=0.3
より、評価値(確率)は、
p(茶1|c)=1.7/(1.7+0.3)=0.85
p(茶2|c)=0.3/(1.7+0.3)=0.15
である。
同様に単語「出す」に関しては、特徴量「CoWord(グラス)」,「CoWord(茶)」から
Z(c)p(出す1|c)=0.2×1+0=0.2
Z(c)p(出す2|c)=0.3×1+0.9×1=1.2
より、評価値(確率)は、
p(出す1|c)=0.2/(0.2+1.2)=0.14
p(出す2|c)=0.2/(0.2+1.2)=0.86
である。
この後、意味タグ組合せ探索部13Aは、ビーム探索アルゴリズムにより、最も評価値の高い意味タグを探索する。
この例では、図10のステップS1において、初期ノードN0=[W0={グラス,茶,出す}、T0={}]が初期キューQ0に挿入される。続くステップS2において、W0から順番に「グラス」,「茶」,「出す」を取り出し、それぞれに意味タグを決定したノードを作成する。これらのノードをキューQ’に挿入し、Q’=<[{茶,出す},{グラス1}],[{茶,出す},{グラス2}],[{グラス,出す},{茶1}],[{グラス,出す},{茶2}],[{グラス,茶},{出す1}],[{グラス,茶},{出す2}]>となる。
ステップS3において、評価値の高い順にキューQ’の中をソートすると、Q’=<[{グラス,茶},{出す2}],[{グラス,出す},{茶1}],[{茶,出す},{グラス2}],[{茶、出す},{グラス1}],[{グラス,出す},{茶2}],[{グラス,茶},{出す1}]>となる。
ビーム幅b=2とすると、新しいキューQは、Q=<[{グラス,茶},{出す2}],[{グラス,出す},{茶1}]>となる。
同様にして計算を進めると、ステップS4において、最終的に[{}、{グラス1、茶1、出す2}]が最も評価値の高いノードとなり、この意味タグの組合せを意味タグ出力部14に渡す。図17は、意味タグ付与結果の例である。対象単語「グラス」、「茶」、「出す」にそれぞれ「グラス1」、「茶1」、「出す2」の意味タグが付与されている。「男」は単語辞書21上でそれぞれ意味タグが1つずつしかないので自動的に唯一の意味タグ「男1」が付与される。
このように、本実施の形態では、対象文解析部11において形態素解析のみを行うようにしたので、演算処理部1での処理負担を軽減できる。なお、第1の実施の形態より利用する情報が少ないため単語共起関係や意味共起関係の抽出精度が低くなる可能性があるものの、単語共起関係や意味共起関係を用いているため、より広範囲の関係に基づいて意味タグを付与することができ、意味タグの付与精度を高めることができる。
[第3の実施の形態]
次に、図18を参照して、本発明の第3の実施の形態にかかる単語意味タグ付与装置について説明する。図18は、本発明の第3の実施の形態にかかる単語意味タグ付与装置の要部を示すブロック図であり、前述した図2と同じ又は同等部分には同一符号を付してある。
第1の実施の形態では、意味タグ決定部13において、特徴量抽出部12で抽出された各対象言語の拡張特徴量に基づいて、記憶部2の意味タグ選択モデル22を参照することにより、対象単語の最も適切な意味を示す意味タグを決定する場合について説明した。本実施の形態では、予め記憶部2に付与優先順データベース23を設け、意味タグ決定部13において対象単語の意味タグを付与する際、付与優先順データベース23の優先順に基づく順序で各対象単語に意味タグを付与する場合について説明する。
第1の実施の形態と比較して、本実施の形態にかかる単語意味タグ付与装置10では、意味タグ決定部13に意味タグ付与順決定部13Bが追加されており、記憶部2に付与優先順データベース23が追加されている点が異なる。なお、他の構成については、前述した第1の実施の形態と同様であり、ここでの詳細な説明は省略する。
図19は、付与優先順データベースの一例である。ここでは、各対象単語の優先順を示す優先順データとして、特定のコーパスで計測した単語ごとの意味タグのエントロピーを用いている。一般にエントロピーが低いほど、単語の意味タグの使われ方のばらつきが小さく、意味タグを決めやすいと考えられる。したがって、この例によれば、対象単語への意味タグ付与順として(1)グラス、(2)茶の順となる。
意味タグ決定部13は、意味タグ組合せ探索部13Aにより、特徴量抽出部12で抽出された各対象言語の拡張特徴量に基づいて、対象文Xの各対象単語に最適な意味タグを決定する際、前もって意味タグ付与順決定部13Bにより、各対象単語への意味タグ付与順を決定する。意味タグ付与順決定部13Bは、各対象単語について記憶部2の付与優先順データベース23を検索して、各対象単語の優先順データ、ここでは意味タグのエントロピーを取得し、この優先順データに基づいて各対象単語への意味タグ付与順を決定する。
意味タグ組合せ探索部13Aは、意味タグ付与順決定部13Bで決定された付与順に基づいて、各対象単語から1つずつ処理対象単語を選択し、当該処理対象単語について第1の実施の形態と同様のビーム探索アルゴリズムにより、最も評価値の高い意味タグを探索する。
このように、本実施の形態では、記憶部2により、対象単語に対する意味タグの付与順序を示す付与順序データベース23を記憶しておき、意味タグ決定部13により、複数の処理対象単語について意味タグを決定する場合、記憶部の付与順序データベースを検索して各処理対象単語の付与順序を取得し、これら付与順序に基づいて各処理対象単語に対して順に意味タグを決定するようにしたので、より高い精度で意味タグを付与することが可能となる。
また、本実施の形態では、単語の意味タグ付与順の優先順データとしてエントロピーを用いる場合を例として説明したが、これに限定されるものではなく、例えば引用文献3で述べられている「単語親密度」を使用し、この単語親密度の低い順に意味タグを付与するなど、他の基準に基づいて意味タグ付与順を決定してもよい。
本発明の第1の実施の形態にかかる単語意味タグ付与装置の構成を示すブロック図である。 本発明の第1の実施の形態にかかる単語意味タグ付与装置の要部を示すブロック図である。 形態素解析結果の例である。 構文意味解析結果の例である。 単語辞書の例である。 一次特徴量の定義例である。 図6の定義に従って抽出した一次特徴量の例である。 拡張特徴量の例である。 最大エントロピモデルに基づく意味タグ選択モデルの例である。 ビーム探索アルゴリズムの例である。 意味タグ付与結果の例である。 本発明の第2の実施の形態にかかる単語意味タグ付与装置の要部を示すブロック図である。 他の解析結果の例である。 他の一次特徴量の例である。 他の拡張特徴量の例である。 最大エントロピモデルに基づく他の意味タグ選択モデルの例である。 意味タグ付与結果の例である。 本発明の第3の実施の形態にかかる単語意味タグ付与装置の要部を示すブロック図である。 付与優先順データベースの一例である。
符号の説明
10…単語意味タグ付与装置、1…演算処理部、11…対象文解析部、11A…形態素解析部、11B…構文意味解析部、11C…解析結果統合部、12…特徴量抽出部、12A…一次特徴量抽出部、12B…特徴量拡張部、13…意味タグ決定部、13A…意味タグ組合せ探索部、13B…意味タグ付与順決定部、14…意味タグ出力部、2…記憶部、20…プログラム、21…単語辞書、22…意味タグ選択モデル、23…付与優先順データベース、3…入出力I/F部、4…通信I/F部、5…操作入力部、6…画面表示部、X…対象文、Y…出力文、M…記録媒体。

Claims (8)

  1. 自然言語データからなる対象文に含まれる各対象単語に対して、当該対象単語の意味を示す意味タグをそれぞれ付与する単語意味タグ付与装置であって、
    単語の意味ごとに設けられた、当該意味を示す意味タグと当該意味の概念を示す意味クラスの組からなる単語辞書を記憶する記憶部と、
    前記対象単語のうちから選択した処理対象単語について、当該処理対象単語と前記対象文に含まれる他の単語との間の単語共起関係を示す一次特徴量を生成し、当該処理対象単語と前記単語共起関係を持つ他の対象単語について前記記憶部の単語辞書を検索して得られた意味タグおよび意味クラスと当該処理対象単語との間の意味共起関係を示す意味共起特徴量を生成し、当該処理対象単語の一次特徴量と意味共起特徴量から当該処理対象単語の拡張特徴量を生成する特徴量抽出部と、
    前記処理対象単語の拡張特徴量に基づいて、前記単語辞書に記述されている当該処理対象単語の意味タグのうち、前記対象文で使用されている当該処理対象単語の最も適切な意味を示す意味タグを決定する意味タグ決定部と
    を備えることを特徴とする単語意味タグ付与装置。
  2. 請求項1に記載の単語意味タグ付与装置において、
    前記特徴量抽出部は、
    前記処理対象単語と前記対象文に含まれる他の単語との間の単語共起関係ごとに当該単語共起関係を示す一次特徴量をそれぞれ生成する一次特徴量抽出部と、
    前記対象文に含まれる他の対象単語にそれぞれついて前記記憶部の単語辞書を検索し、得られた意味タグおよび意味クラスのそれぞれについて前記処理対象単語との間の意味共起関係を示す意味共起特徴量をそれぞれ生成し、これら意味共起特徴量と当該処理対象単語の一次特徴量とから当該対象単語の拡張特徴量を生成する特徴量拡張部と
    を有することを特徴とする単語意味タグ付与装置。
  3. 請求項1に記載の単語意味タグ付与装置において、
    前記記憶部は、対象単語に対する一次特徴量および意味共起特徴量ごとに、当該対象単語に対応して選択される各意味タグの重みを示す意味タグ選択モデルを記憶し、
    前記意味タグ決定部は、前記拡張特徴量に含まれる前記処理対象単語の一次特徴量および意味共起特徴量について前記記憶部の意味タグ選択モデルを検索し、意味タグごと得られた重みに基づいて当該処理対象単語と各意味タグとの組合せごとに評価値を算出し、これら評価値に基づいて当該処理対象単語の意味タグを決定する
    ことを特徴とする単語意味タグ付与装置。
  4. 請求項3に記載の単語意味タグ付与装置において、
    前記記憶部は、対象単語に対する意味タグの付与順序を示す付与順序データベースを記憶し、
    前記意味タグ決定部は、複数の処理対象単語について意味タグを決定する場合、前記記憶部の付与順序データベースを検索して各処理対象単語の付与順序を取得し、これら付与順序に基づいて各処理対象単語に対して順に意味タグを決定する
    ことを特徴とする単語意味タグ付与装置。
  5. 請求項1に記載の単語意味タグ付与装置において、
    前記対象文を形態素解析する形態素解析部と、前記対象文を構文意味解析する構文意味解析部と、これら形態素解析部と構文意味解析部での種類の解析結果を、同一解析対象ごとに統合し、前記対象文とともに前記一次特徴量抽出部へ出力する解析結果統合部とを有する対象文入力部をさらに備えることを特徴とする単語意味タグ付与装置。
  6. 自然言語データからなる対象文に含まれる各対象単語に対して、当該対象単語の意味を示す意味タグをそれぞれ付与する単語意味タグ付与方法であって、
    単語の意味ごとに設けられた、当該意味を示す意味タグと当該意味の分類を示す意味クラスの組からなる単語辞書を記憶部で記憶する記憶ステップと、
    特徴量抽出部により、前記対象単語のうちから選択した処理対象単語について、当該処理対象単語と前記対象文に含まれる他の単語との間の単語共起関係を示す一次特徴量を生成し、前記対象文に含まれる他の対象単語について前記記憶部の単語辞書を検索して得られた意味タグおよび意味クラスと当該処理対象単語との間の意味共起関係を示す意味共起特徴量を生成し、当該処理対象単語の一次特徴量と意味共起特徴量から当該処理対象単語の拡張特徴量を生成する特徴量抽出ステップと、
    意味タグ決定部により、前記処理対象単語の拡張特徴量に基づいて、前記単語辞書に記述されている当該処理対象単語の意味タグのうち、前記対象文で使用されている当該処理対象単語の最も適切な意味を示す意味タグを決定する意味タグ決定ステップと
    を備えることを特徴とする単語意味タグ付与方法。
  7. コンピュータに、請求項6に記載の単語意味タグ付与方法の各ステップを実行させるためのプログラム。
  8. 請求項7に記載のプログラムが記録された記録媒体。
JP2007063244A 2007-03-13 2007-03-13 単語意味タグ付与装置および方法、プログラム並びに記録媒体 Expired - Fee Related JP5117744B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007063244A JP5117744B2 (ja) 2007-03-13 2007-03-13 単語意味タグ付与装置および方法、プログラム並びに記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007063244A JP5117744B2 (ja) 2007-03-13 2007-03-13 単語意味タグ付与装置および方法、プログラム並びに記録媒体

Publications (2)

Publication Number Publication Date
JP2008225846A true JP2008225846A (ja) 2008-09-25
JP5117744B2 JP5117744B2 (ja) 2013-01-16

Family

ID=39844394

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007063244A Expired - Fee Related JP5117744B2 (ja) 2007-03-13 2007-03-13 単語意味タグ付与装置および方法、プログラム並びに記録媒体

Country Status (1)

Country Link
JP (1) JP5117744B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010282517A (ja) * 2009-06-05 2010-12-16 Nippon Telegr & Teleph Corp <Ntt> 言語資源情報生成装置、方法、プログラム、および記録媒体
JP2014222413A (ja) * 2013-05-13 2014-11-27 日本電信電話株式会社 対話パターン抽出装置、対話装置、方法、及びプログラム
JP2015111350A (ja) * 2013-12-06 2015-06-18 富士ゼロックス株式会社 意味情報分類プログラム及び情報処理装置
JP2017021523A (ja) * 2015-07-09 2017-01-26 日本電信電話株式会社 用語意味コード判定装置、方法、及びプログラム
JP2017188083A (ja) * 2016-02-16 2017-10-12 タレリス・グローバル・エルエルピーTaleris Global LLP 複数のデータストリームの相互関係

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004334766A (ja) * 2003-05-12 2004-11-25 Oki Electric Ind Co Ltd 単語分類装置、単語分類方法及び単語分類プログラム
JP2005327107A (ja) * 2004-05-14 2005-11-24 Fuji Xerox Co Ltd 固有名カテゴリ推定装置及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004334766A (ja) * 2003-05-12 2004-11-25 Oki Electric Ind Co Ltd 単語分類装置、単語分類方法及び単語分類プログラム
JP2005327107A (ja) * 2004-05-14 2005-11-24 Fuji Xerox Co Ltd 固有名カテゴリ推定装置及びプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010282517A (ja) * 2009-06-05 2010-12-16 Nippon Telegr & Teleph Corp <Ntt> 言語資源情報生成装置、方法、プログラム、および記録媒体
JP2014222413A (ja) * 2013-05-13 2014-11-27 日本電信電話株式会社 対話パターン抽出装置、対話装置、方法、及びプログラム
JP2015111350A (ja) * 2013-12-06 2015-06-18 富士ゼロックス株式会社 意味情報分類プログラム及び情報処理装置
JP2017021523A (ja) * 2015-07-09 2017-01-26 日本電信電話株式会社 用語意味コード判定装置、方法、及びプログラム
JP2017188083A (ja) * 2016-02-16 2017-10-12 タレリス・グローバル・エルエルピーTaleris Global LLP 複数のデータストリームの相互関係

Also Published As

Publication number Publication date
JP5117744B2 (ja) 2013-01-16

Similar Documents

Publication Publication Date Title
US7444325B2 (en) Method and system for information extraction
JP6828335B2 (ja) 検索プログラム、検索装置および検索方法
JP6737151B2 (ja) 同義表現抽出装置、同義表現抽出方法、及び同義表現抽出プログラム
JP2008198132A (ja) 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置
WO2015170963A1 (en) System and method for automatically generating a knowledge base
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
JP5117744B2 (ja) 単語意味タグ付与装置および方法、プログラム並びに記録媒体
JP2006227823A (ja) 情報処理装置及びその制御方法
JP2011165087A (ja) 重要語抽出装置、重要語抽出方法及び重要語抽出プログラム
JP2009295052A (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
KR20220041337A (ko) 유사어로 검색어 갱신 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법
JP6689466B1 (ja) 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
JP2013222418A (ja) パッセージ分割方法、装置、及びプログラム
Lai et al. An unsupervised approach to discover media frames
JP2004272352A (ja) 類似度計算方法、装置、プログラムおよび該プログラムを格納した記録媒体
JPWO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP5326781B2 (ja) 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム
KR20220041336A (ko) 중요 키워드 추천 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법
JP4793931B2 (ja) 相互に関係する固有表現の組抽出装置及びその方法
JP4671440B2 (ja) 評判関係抽出装置、その方法およびプログラム
JP5739352B2 (ja) 辞書生成装置、文書ラベル判定システム及びコンピュータプログラム
JP2010191851A (ja) 記事特徴語抽出装置、記事特徴語抽出方法及びプログラム
JP5998779B2 (ja) 検索装置、検索方法、及びプログラム
JP4933118B2 (ja) 文章区間抽出装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090109

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20111125

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20111125

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120228

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120501

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121016

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121018

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151026

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees