JP2013182580A - 素性ベクトル構築装置、素性ベクトル構築方法、述部類似度計算装置、述部類似度計算方法および述部類似度計算プログラム - Google Patents

素性ベクトル構築装置、素性ベクトル構築方法、述部類似度計算装置、述部類似度計算方法および述部類似度計算プログラム Download PDF

Info

Publication number
JP2013182580A
JP2013182580A JP2012048049A JP2012048049A JP2013182580A JP 2013182580 A JP2013182580 A JP 2013182580A JP 2012048049 A JP2012048049 A JP 2012048049A JP 2012048049 A JP2012048049 A JP 2012048049A JP 2013182580 A JP2013182580 A JP 2013182580A
Authority
JP
Japan
Prior art keywords
feature
predicates
predicate
extracted
similarity calculation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012048049A
Other languages
English (en)
Inventor
Tomoko Izumi
朋子 泉
Masaaki Nagata
昌明 永田
Yasuhiro Akiba
泰弘 秋葉
Kaname Kasahara
要 笠原
Hiroyori Taira
博順 平
Sanae Fujita
早苗 藤田
Sadao Kurohashi
禎夫 黒橋
Daisuke Kawahara
大輔 河原
Tomohide Shibata
知秀 柴田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyoto University
Nippon Telegraph and Telephone Corp
Original Assignee
Kyoto University
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyoto University, Nippon Telegraph and Telephone Corp filed Critical Kyoto University
Priority to JP2012048049A priority Critical patent/JP2013182580A/ja
Publication of JP2013182580A publication Critical patent/JP2013182580A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】表層文字列が互いに異なる述部間の適確な同義判定を行う。
【解決手段】形態素解析部は、複数の文の形態素解析を行う。係り受け解析部は、複数の文の各々の文節間の係り受け解析を行う。意味ラベル付与部は、複数の文に含まれる複数の述部の機能表現を特定して機能表現の各々にその意味を示す意味ラベルを付与する。素性抽出部は、形態素解析結果に基づいて複数の述部の各々の機能表現を表す文字列を第1の素性として抽出し、抽出した機能表現の各々に対して付与された意味ラベルを第2の素性として抽出し、複数の述部の各々と係り受け関係にある語を第3の素性として抽出する。素性ベクトル構築部は、複数の述部について述部毎に複数の述部の各々に関して素性抽出手段によって抽出された第1、第2および第3の素性の各々と、当該述部との相互情報量に基づいて、第1、第2および第3の素性を要素として含む素性ベクトルを構築する。
【選択図】図2

Description

本発明は、文の核情報を表す述部の同義性を自動で判定するための述部同義判定技術に関する。
現在、Web上のブログや音声対話ログなど大量のテキスト情報から欲しい情報を探し出す検索技術や、有益な情報のみを自動で抽出・集計するテキストマイニング技術の高精度化が求められている。これらを実現するために必要なことは、計算機による自然文の意味理解である。
例えば、計算機が下記の2つの例文が同じことを表しているということを判定できなければ、利用者が求める情報を正しく検索できず、また、テキストマイニングで必要な「同じ情報のまとめ上げ」ができない。
例文1:アメリカ兵が、自国にひきあげていった。
例文2:米兵が、アメリカに戻っていった。
上記の例文1および2は、文字列が異なるが、同じ出来事を表している。すなわち、「アメリカ兵」と「米兵」、「自国」と「アメリカ」、「引き上げていった」と「戻っていった」は、それぞれ同じ意味である。しかし、計算機が表層文字列のみを手がかりに意味理解を行った場合、上記の例文1および2が同じ出来事を表していると判定することができず、その結果、情報検索や情報抽出に障害が起きる結果となる。従って、計算機は、表層文字列以外の要素をも手がかりとして自然文の意味理解を行う必要がある。特に、「ひきあげていった」や「戻っていった」のような文の「どうした」を表す述部は、文の核情報を表している故、表層文字列の異なる述部間の同義判定が可能になれば、より精度の高い情報検索および情報抽出が可能となる。尚、表層文字列とは、品詞や意味ラベルなどを用いない、文書に出現する文字列そのものをいうものとする。
ここで、日本語の述部は、動詞、名詞、形容詞、形容動詞などの「内容語」と、助詞、助動詞などの「機能語」もしくは「ていく」、「づらい」、「こと」といった非自立性の動詞、形容詞、名詞の組み合わせから成り立っている。以後、述部の内容語以外の部分を「機能表現」と呼ぶ。
例えば、上記例文1の述部である「ひきあげていった」は、以下に示すように、1つの内容語と、1つの非自立性動詞と、1つの機能語により構成されており、「ひきあげ(る)」が内容語に該当し、「ていった」が機能表現に該当する。
ひきあげ(内容語)/ていっ(非自立性動詞)/た(機能語)
述部の同義判定手法として、非特許文献1に記載のものがある。非特許文献1では、抽象的な意味ラベルを用いて機能表現を分類し、この意味ラベルに基づいて当該機能表現が「述部が表す出来事の意味に影響するか否か」を判断し、「影響する」に属する機能表現を残す一方、「影響する」に属さない機能表現を削除すことにより、述部の正規化(言い換え)を行う手法が提案されている。非特許文献1に記載の手法では、機能表現を分類するための抽象的な意味ラベルとして、「時制の差異」、「否定の差異」、及び「モダリティの差異」という3つの指標を立て、述部の正規化に際して、これらに属さない機能表現を削除している。
例えば、上記例文1の述部「ひきあげていった」を非特許文献1に記載の手法により正規化する場合について考える。「ていっ(く)」という機能語は、「自制」、「否定」、「モダリティ」のいずれにも属さないことから、当該機能語は、述部が表す出来事の意味に影響しないものと判定され、削除される。その結果、述部は「ひきあげた」に正規化される。これにより、「ひきあげていった」と「ひきあげた」は同義であるということが判定できる。
述部の同義判定の他の手法として、非特許文献2に記載のものがある。非特許文献2では、「(景気が)冷え込む」と「(景気が)悪化する」のように、文脈によって同義になるような述部をも考慮した同義判定手法を提案している。非特許文献2に記載の手法では、「景気が−冷え込む」のように、「何が」や「何を」を表す項と、述部の内容語とをペアとして、分布類似度という指標を用いて同義判定を行っている。分布類似度とは、「似た意味の語はその語が出現する文脈も似ている」という分布仮説に基づいて計算される語の類似度をいう。分布類似度を用いた同義判定では、同義判定の対象となる述部の周辺に出現する要素を素性として、当該述部の周辺にどうような要素がどのような頻度で出現しているかをもとに、当該述部が、似た文脈で出現するものであるか否かを計算する。非特許文献2に記載の手法では、「景気が−冷え込む」という「項−内容語」からなるペアおよび「冷え込む」という単語そのものの出現を、文脈を表す素性としている。
Izumi T., Imamura K., Kikui G.& Sato S.、「Standardizing Complex Functional Expressions in Japanese Predicates: Applying Theoretically-Based Paraphrasing Rules」、Proceedings of the Workshop on Multiword Expressions : From theory to applications (MWE 2010)、 63-71。 柴田和秀・黒橋禎夫(2010). 文脈に依存した述語の同義関係獲得. IPSJ SIG Notes 2010-NL-199(13), 1-6. 今村賢治,泉朋子,菊井玄一郎,佐藤理史 (2011). 述部機能表現の意味ラベルタガー言語処理学会第17回年次大会, 518-521 松吉俊,佐藤理史,宇津呂武仁 (2007). 日本語機能表現辞書の編纂自然言語処理,vol.14,No.5., 123-146. Manning, C., & Schutze, H. (1999). Foundations of statistical natural language processing. Cambridge, MA: MIT Press.
非特許文献1に記載の手法は、機能表現に対してのみ正規化を行うものである。従って、「ひきあげた」と「戻った」のように内容語の部分が異なる述部に対しては同義判定ができない。その結果、上記例文1および2の述部が同じ事を表しているか否かの判定を行うことはできない。
一方、非特許文献2に記載の手法は、先に例示したように、「景気が−冷え込む」のような「項−内容語」からなるペアおよび「冷え込む」のような単語の出現を文脈を表す素性としており、述部の機能表現を文脈を表す素性として使用していない。しかしながら、述部の機能表現そのものの振る舞いが、述部の同義判定の重要な要素となる場合がある。
例えば、「キッチンが片付いている」の「片付く」と、「キッチンが整っている」の「整う」を例に説明する。図1は、Web上のブログに含まれる800万文から抽出した表層文字列が異なるが同義関係にある内容語「片付ける」および「整える」に付随する機能表現の出現頻度を示す図である。図1に示すように、「片付ける」および「整える」という内容語は、共に「継続」を意味する「ている」や「ていた」のような機能表現を多く伴って出現する。これは、継続表現は、状態(すなわち、片付いている、整っている)を表す表現だからである。一方、「片付ける」および「整える」という内容語は共に、「たい」という願望表現を伴って出現することは殆どない。
このように、表層文字列が異なるが同義関係にある内容語は、後続する機能表現の出現パターンやその機能表現の意味パターンが共通している場合が多い。すなわち、述部内における機能表現の振る舞いが述部の同義判定に重要な影響を与える場合がある。しかしならが、非特許文献2に記載の手法によれば、述部の内容語と項からなるペアを文脈を表す素性としているため、機能表現を手がかりとした述部の同義判定を行うことができず、その結果、必ずしも精度の高い同義判定を行うものとはなっていなかった。
本発明は、上記した点に鑑みてなされたものであり、表層文字列が互いに異なる述部間の適確な同義判定に寄与することができる素性ベクトル構築装置、素性ベクトル構築方法、述部類似度計算装置、述部類似度計算方法、述部類似度計算プログラムを提供することを目的とする。
本発明に係る素性ベクトル構築装置は、自然言語で記載され且つ電子化された複数の文の形態素解析を行う形態素解析手段と、前記複数の文の各々の文節間の係り受け解析を行う係り受け解析手段と、前記複数の文に含まれる複数の述部の機能表現を特定して前記機能表現の各々にその意味を示す意味ラベルを付与する意味ラベル付与手段と、前記形態素解析手段による形態素解析結果に基づいて前記複数の述部の各々の機能表現を表す文字列を第1の素性として抽出し、前記第1の素性として抽出された機能表現の各々に対して前記意味ラベル付与手段によって付与された意味ラベルを第2の素性として抽出し、前記係り受け解析手段による係り受け解析結果に基づいて前記複数の述部の各々と係り受け関係にある語を第3の素性として抽出する素性抽出手段と、前記複数の述部について述部毎に、前記複数の述部の各々に関して前記素性抽出手段によって抽出された前記第1の素性の各々、前記第2の素性の各々および前記第3の素性の各々と、前記述部との相互情報量に基づいて、前記第1の素性、前記第2の素性および前記第3の素性を要素として含む素性ベクトルを構築する素性ベクトル構築手段と、を含んで構成されている。
また、本発明に係る述部類似度計算装置は、上記の素性ベクトル構築装置によって構築された述部毎の素性ベクトルの各々を記憶した記憶手段と、類似度計算の対象となる2つの述部に対応する素性ベクトルを前記記憶手段から抽出し、抽出した2つの素性ベクトルの対応する要素間の重なりの程度に基づいて前記2つの述部の類似度を計算する類似度計算手段と、を含んで構成されている。
また、本発明に係る素性ベクトル構築方法は、自然言語で記載され且つ電子化された複数の文の形態素解析を行う形態素解析ステップと、前記複数の文の各々の文節間の係り受け解析を行う係り受け解析ステップと、前記複数の文に含まれる複数の述部の機能表現を特定して前記機能表現の各々にその意味を示す意味ラベルを付与する意味ラベル付与ステップと、前記形態素解析ステップにおける形態素解析結果に基づいて前記複数の述部の各々の機能表現を表す文字列を第1の素性として抽出し、前記第1の素性として抽出された機能表現の各々に対して前記意味ラベル付与ステップにおいて付与された意味ラベルを第2の素性として抽出し、前記係り受け解析ステップにおける係り受け解析結果に基づいて前記複数の述部の各々と係り受け関係にある語を第3の素性として抽出する素性抽出ステップと、前記複数の述部について述部毎に、前記複数の述部の各々に関して前記素性抽出ステップにおいて抽出された前記第1の素性の各々、前記第2の素性の各々および前記第3の素性の各々と、前記述部との相互情報量に基づいて、前記第1の素性、前記第2の素性および前記第3の素性を要素として含む素性ベクトルを構築する素性ベクトル構築ステップと、を含んで構成されている。
また、本発明に係る述部類似度計算方法は、上記の素性ベクトル構築方法を用いて構築された述部毎の素性ベクトルの各々を記憶手段に記憶させるステップと、類似度計算の対象となる2つの述部に対応する素性ベクトルを前記記憶手段から抽出し、抽出した2つの素性ベクトルの対応する要素間の重なりの程度に基づいて前記2つの述部の類似度を計算する類似度計算ステップと、を含んで構成されている。
また、本発明に係る述部類似度計算プログラムは、コンピュータを上記の素性ベクトル構築装置又は上記の述部類似度計算装置を構成する各手段として機能させるためのプログラムである。
本発明に係る素性ベクトル構築装置および素性ベクトル構築方法によれば、複数の述部の各々の機能表現を表す文字列が第1の素性として抽出され、第1の素性として抽出された機能表現の各々に対して付与された意味ラベルが第2の素性として抽出され、複数の述部の各々と係り受け関係にある語が第3の素性として抽出され、これら第1の素性、第2の素性および第3の素性を要素とする素性ベクトルが構築される。これにより、機能表現の表層文字列と意味の両方が加味された素性ベクトルを構築することが可能となる。これにより、表層文字列が互いに異なる述部間の適確な同義判定に寄与することができる
また、本発明に係る述部類似度計算装置および述部類似度計算方法によれば、上記した素性ベクトル構築装置又は方法によって構築された素性ベクトルを用いて、2つの述部の分布類似度を算出するので、述部の機能表現の特徴を好適に取り入れた分布類似度計算を行うことが可能となる。これにより、表層文字列が異なる同義関係にある述部についてより適確な類似度計算を行うことが可能となり、そのような述部の同義判定をより適確に行うことが可能となる。
図1は、文字列が異なるが同義関係にある内容語「片付ける」および「整える」に付随する機能表現の出現頻度を示す図である 図2は、本発明の実施形態に係る述部同義判定システムの構成を示す機能ブロック図である。 図3は機能表現意味ラベル辞書の一例を示す図である。 図4は、本発明の実施形態に係る基本解析部による解析結果を示す図である。 図5は、本発明の実施形態に係る素性抽出部によって抽出された述部に関する素性の一例を示す図である。 図6は、本発明の実施形態に係るベクトル構築部によって構築された素性ベクトルの一例を示す図である。 図7は、本発明の実施形態に係る素性ベクトル構築処理ルーチンを示すフローチャートである。 図8は、本発明の実施形態に係る分布類似度計算処理ルーチンを示すフローチャートである。 図9(a)および(b)は、本発明の実施例形態に係る述部同義判定システムおよび比較例に係るシステムを用いて同義関係にある述部の分布類似度を算出した結果を示す図である。
以下、本発明の実施の形態について図面を参照しつつ詳細に説明する。
図2は、本発明の実施形態に係る述部同義判定システム1の構成を示す機能ブロック図である。述部同義判定システム1は、述部の素性ベクトルを構築するための素性ベクトル構築装置2と、素性ベクトル構築装置2によって構築された素性ベクトルを用いて同義判定の対象となる2つの述部間の類似度を計算する述部類似度計算装置3と、により構成されている。
素性ベクトル構築装置2は、後述する素性ベクトル構築処理ルーチンにおける各処理を記述した素性ベクトル構築プログラムを格納したROMと、この素性ベクトル構築プログラムを実行するためのCPUと、CUPにおける処理内容を一時的に記憶しておくためのRAM等を備えたコンピュータで構成されている。
述部類似度計算装置3は、後述する分布類似度計算処理ルーチンの各処理を記述した類似度計算プログラムを格納したROMと、この類似度計算プログラムを実行するためのCPUと、CUPにおける処理内容を一時的に記憶しておくためのRAM等を備えたコンピュータで構成されている。尚、上記した素性ベクトル構築プログラムと類似度計算プログラムは、それぞれ別箇のプログラムとして構成されていてもよいし、一連一体のプログラムとして構成されていてもよい。
素性ベクトル構築装置2は、機能的には、図2に示すように、基本解析部10、素性抽出部20および素性ベクトル構築部30により構成されている。基本解析部10は、更に、形態素解析部11、係り受け解析部12および機能表現意味ラベル付与部13により構成されている。述部類似度計算装置3は、素性ベクトル蓄積部40および分布類似度計算部50により構成されている。
形態素解析部11は、自然言語で記載され且つ電子化された複数の文を蓄積したテキストコーパスから文を抽出し、抽出した文に対して公知の形態素解析手法を用いて形態素解析を行う。すなわち、形態素解析部11は、テキストコーパスから抽出した文を形態素単位に分割し、形態素の各々に品詞や活用型、活用形などの情報を付与する。
係り受け解析部12は、公知の係り受け解析手法を用いて、テキストコーパスから抽出した文を文節単位に分割して、各文節の係り元と係り先を判定する。尚、係り受け解析部12は、形態素解析部11による形態素解析結果を利用して係り受け解析を行うこととしてもよい。
機能表現意味ラベル付与部13は、機能表現に抽象的な意味ラベルを付与して構成された機能表現意味ラベル辞書を用いて、テキストコーパスから抽出した文字列に含まれる機能表現(機能語)を特定すると共に、その機能表現(機能語)に意味ラベルを付与する。図3に、機能表現意味ラベル付与部13において使用される機能表現意味ラベル辞書の一例を示す。機能表現意味ラベル辞書には、述部の意味に影響を与えるとされる複数の機能表現が収録されており、各機能表現には「完了」、「否定」、「疑問」等の機能表現の意味を示す意味ラベルが付与されている。例えば、「た」という機能表現に対しては、「完了」という意味ラベルが付与されている。尚、機能表現意味ラベル辞書は、各機能表現に対応するIDなどの情報を更に含んでいてもよい。
機能表現意味ラベル付与部13による意味ラベルの付与は、例えば、機能表現意味ラベル辞書との最長マッチのようなルールベースの付与方法であってもよい。また、非特許文献3に記載さているような、正解意味ラベルが付与されたコーパスから学習した、統計的に意味ラベルを付与するタガーを用いる方法であってもよい。本実施形態においては、非特許文献3に記載されているような統計的意味ラベル付与方法を用いる。すなわち、機能表現意味ラベル付与部13は、コーパス内の機能表現に正しい意味ラベルを人手で付与した正解データを使用して平均化パーセプトロンという手法で学習して生成された識別モデルと、機能表現意味ラベル辞書およびフレーズテーブルを用いて、一文内に出現する機能表現に対して、最適な機能表現意味ラベルを出力してこれを付与する。
尚、基本解析部10は、非特許文献1に記載されるように、出来事の意味に影響を与える機能表現のみを残し、それ以外を削除する正規化処理を上記した各処理に先立って行うこととしてもよい。本実施形態では、文の最後に現れる最終述部と等位接続という形式で接続されている文中の述部のみには、正規化処理を行うことで表層のばらつきを抑えている。
図4は、基本解析部10が、例えば「米兵が、自国にひきあげた。」という文について、形態素解析処理、係り受け解析処理および機能表現意味ラベル付与を行った結果を示す図である。図4において、*(アスタリスク)が付されている行は、係り受け解析処理部12による処理結果であり、それ以外の行は、形態素解析部11および機能表現意味ラベル付与部13による処理結果である。
形態素解析部11は、図4に示すように、入力された上記の文を、「米兵/が/、/自国/に/ひきあげ/た/。」のように形態素単位に分割し、形態素の各々に品詞、活用型、活用形などの情報を付与する。
係り受け解析部12は、図4に示すように、入力された上記の例文を「米兵が/自国に/ひきあげた。」のように文節単位に分割し、各文節に対して文節番号“0”、“1”、“2”を付与するとともに、各文節の係り受け関係を示す符号を付与する。すなわち、係り受け解析部12は、第1文節「米兵が」および第2文節「自国に」は、第3文節「ひきあげた」に係っているものと判定し、第1文節および第2文節の文節番号に付随するように係り先である第3文節を示す符号“2D”を付与する。機能表現意味ラベル付与部13は、機能表現意味ラベル辞書を用いて述部の機能表現「た」に意味ラベル「完了」を付与する。基本解析部10は、上記した形態素解析処理、係り受け解析処理および機能表現意味ラベル付与を例えばテキストコーパス内に蓄積された全ての文に対して行う。
素性抽出部20は、基本解析部10によって処理された文の述部に対して分布類似度計算(同義判定)を行うための素性を抽出する。ここで、本実施形態に係る述部同義判定システム1における述部間の類似度計算は、例えば図1に例示されるように、「同義関係にある述部は、機能表現の出現パターンが似ている」という分布仮説に基づいている。そこで、素性抽出部20は、「機能表現出現パターン」および「機能表現意味ラベルパターン」を述部の同義判定を行うための素性として抽出する。
「機能表現出現パターン」を素性とする素性抽出は、述部の機能表現の表層文字列を使用して行われる。例えば、基本解析部10が、図4に示すような解析結果を出力している場合において、素子抽出部20は、述部の内容語となる動詞「ひきあげる」に後続する、助動詞「た」を第1の素性として抽出する。このとき表層形および標準形のいずれを抽出してもよい。本実施形態では、標準形を用いて機能表現の表層文字列「た」を内容語である「ひきあげる」に関する第1の素性として抽出する。
一方、「機能表現意味ラベルパターン」を素性とする素性抽出は、述部の内容語に後続する機能表現(機能語)の意味的な側面を第2の素性として抽出するものである。すなわち、素性抽出部20は、先に第1の素性として抽出した機能表現に対して機能表現意味ラベル付与部13によって付与された意味ラベルを第2の素性として抽出する。例えば、上記の例において、素子抽出部20は、先に第1の素性として抽出した機能表現「た」に対して付与された意味ラベル「完了」を第2の素性として抽出する。
素性抽出部20は、更に、述部以外の単語を文脈素性として抽出する。例えば、素性抽出部20は、「が、を、に、から、と、へ、まで、より、の、で」のいずれかの格助詞を持った名詞が、述部の動詞(内容語)に対して係り受け関係にあれば、その名詞と格助詞からなるペアを第3の素性として抽出する。具体的には、「米兵が」と「自国に」という文節が、動詞「ひきあげる」を含む文節に係っているので、「米兵が」および「自国に」が第3の素性として抽出される。係り受け関係についての判定は、係り受け解析部11による解析結果を利用することができる。
このように、素性抽出部20は、例えば、基本解析部10による図4に例示された解析結果に対して、図5に示すように「た」、「完了」、「米兵:が」、「自国:に」を素性として抽出する。素性抽出部20は、以上の処理を例えばテキストコーパス内に蓄積された全ての文に対して行う。
素性ベクトル構築部30は、基本解析部10による解析結果および素性抽出部20によって抽出された素性を用いて、テキストコーパスから抽出した複数の述部の各々を対象として、述部毎に素性ベクトルの構築を行う。素性ベクトル構築部30は、素性ベクトル構築の対象となる1の述部と、複数の述部の各々に関して素性抽出部20によって抽出された第1の素性の各々、第2の素性の各々、第3の素性の各々との間の相互情報量MIを算出する。素性ベクトル構築の対象となる1の述部と素性との間の相互情報量MIは、下記の式(1)によって求めることができる。
Figure 2013182580
ここで、uは分布類似度を計算する単位(素性ベクトルを構築する単位)であり、本実施形態においては述部の内容語を表す。fは、素性を表す。P(u)は、テキストコーパス内である述部(内容語)が出現する確率を表す。例えば、上記の例において、「ひきあげる」という言葉がテキストコーパス内で出現する確率のことである。P(f)は、テキストコーパス内である述部に関して抽出されたある素性が出現する確率を表す。例えば、上記の例において、ある述部の素性として抽出された意味ラベル「完了」がテキストコーパス内で出現する確率のことである。P(u,f)は、その述部とその素性が同時に現れる確率を表す。例えば、上記の例において、内容語「ひきあげる」と素性「完了」が同時に出現する確率のことである。
素性ベクトル構築部30は、相互情報量MIの算出値の各々を下記の式(2)によって表されるweight関数を用いて処理する。
Figure 2013182580
すなわち、素性ベクトル構築部30は、素性ベクトル構築の対象となる述部(例えば「ひきあげる」)と素性抽出部20によって抽出されたある素性(例えば「完了」)との相互情報量MIの値が0よりも大である場合(MI>0)、その述部とその素性との間に“1”を立て、相互情報量MIの値が上記以外の場合は、その述部とその素性との間に“0”を立てる。同様に、素性ベクトル構築部30は、その述部と素性抽出部20によって抽出された他の素性との間にも“1”または“0”を立てる。このようにして1つの述部に関して、第1の素性の各々、第2の素性の各々および第3の素性に対する“0”及び“1”を要素とする素性ベクトルが構築される。素性ベクトル構築部30は、例えばテキストコーパス内の全ての述部に対して上記したように素性ベクトルの構築を行う。
図6は、素性ベクトル構築部30によって構築された素性ベクトルの一例を示す図である。図6においては、テキストコーパス内から抽出された述部「ひきあげる」および「戻る」のそれぞれに関して構築された素性ベクトルが示されている。素性ベクトル構築部30は、述部「ひきあげる」と、素性抽出部20によって抽出された素性「完了」、「た」、「米兵:が」、「アメリカ軍:が」、「自国:に」、「アメリカ:に」等との間の相互情報量MIを算出し、その算出値に基づいて述部「ひきあげる」と上記の各素性との間に“1”又は“0”を立てることにより、述部「ひきあげる」に関する素性ベクトルを構築する。同様に、素性ベクトル構築部30は、述部「戻る」と、素性抽出部20によって抽出された素性「完了」、「た」、「米兵:が」、「アメリカ軍:が」、「自国:に」、「アメリカ:に」等との間の相互情報量MIを算出し、その算出値に基づいて述部「戻る」と上記の各素性との間に“1”又は“0”を立てることにより、述部「戻る」に関する素性ベクトルを構築する。
尚、本実施形態においては、述部と素性との間の相互情報量MIを用いて素性ベクトルを構築することとしたが、述部と素性との間の相互依存性を示す他の指標を用いて素性ベクトルを構築してもよい(例えば非特許文献5を参照)。
素性ベクトル蓄積部40は、素性ベクトル構築部30によって構築された述部毎の素性ベクトルを蓄積しておくための記憶媒体である。ベクトル蓄積部40は、ハードディスク、CD−ROM、半導体メモリ等のあらゆるコンピュータ読み取り可能な記憶媒体を用いて構成することができる。素性ベクトル蓄積部40は、テキストコーパス内に含まれる例えば800万文から構築された複数の述部に関する素性ベクトルが蓄積されている。
分布類似度計算部50は、素性ベクトル蓄積部40に蓄積された素性ベクトルを用いて、外部より入力される同義判定の対象となる2つの述部間の分布類似度を算出する。素性ベクトルを用いた分布類似度の計算は、様々な手法が提案されているが、本実施形態において分布類似度計算部50は、下記の式(3)によって表わされるmeasure関数を用いて2つの述部間の分布類似度を算出する。
Figure 2013182580
ここで、JACCARD係数(ジャッカード係数)は、下記の式(4)で表わされる。
Figure 2013182580
SIMPSON係数(シンプソン係数)は、下記の式(5)で表わされる
Figure 2013182580
JACCARD係数の分子は、類似度の算出を行う2つの述部の素性ベクトルを要素毎(素性毎)に比較したときに、第1の述部の素性ベクトルに“1”が立っており、且つ第2の述部に関する素性ベクトルにも“1”が立っている要素(素性)の個数である。JACCARD係数の分母は、類似度の算出を行う2つの述部の素性ベクトルを要素毎(素性毎)に比較したときに、1つ目の述部および2つ目の述部に関するベクトルの少なくとも一方に“1”が立っている個数である。例えば、「ひきあげる」「戻る」の2つの述部に関して、図6に示すような素性ベクトルが構築されている場合においてJACCARD係数を計算する場合を例に説明する。「ひきあげる」と「戻る」の双方に対して “1”が立っている要素(素性)は、「完了」と「た」の2つであるので、JACCARD係数の分子は1となる。また「ひきあげる」および「戻る」の少なくとも一方に対して “1”が立っている要素(素性)は、「完了」「た」「米兵:が」「アメリカ軍:が」「自国:に」「アメリカ:に」の6つであるのでJACCARD係数の分母は6となる。従って、JACCARD係数の値は2/6となる。
SIMPSON係数の分子は、JACCARD係数の分子と同様である。SIMPSON係数の分母は、第1の述部において“1”が立っている要素(素性)の個数と、第2の述部において“1”が立っている要素(素性)の個数のうち、少ない方の個数である。
分布類似度計算部50は、measure関数を用いて処理することにより(すなわち、JACCARD係数とSIMPSON係数の和を2で除算することにより)、入力された2つの述部間の分布類似度を算出する。このようにしてmeasure関数を使用することにより得られる分布類似度は、0から1.0までの値をとり、その値が大きいほど2つの述部は類似していることを示す。得られる分布類似度は、2つの述部間の同義判定を行うための指標として用いることが可能である。尚、本実施形態では、分布類似度をmeasure関数を用いて算出することとしたが、これに限定されるものではない。例えば、JACCARD係数のみ又はSIMPSON係数のみを用いて分布類似度を算出してもよく、また、下記の式(6)で表わされるmatching係数(マッチング係数)、下記の式(7)で表わされるDice係数(ダイス係数)などの他の公知の指標を用いることが可能である。すなわち、分布類似度計算部50は、同義判定の対象となる2つの述部に関してそれぞれ構築された素性ベクトルの各要素の重なりの程度(すなわち、2つの素性ベクトルの要素が一致する数や一致する割合など)に基づいてこれら2つの述部間の分布類似度を算出する。
Figure 2013182580
Figure 2013182580
次に本発明の実施形態に係る素性ベクトル構築装置2によって実行される素性ベクトル構築処理ルーチンについて図7に示すフローチャートを参照しつつ説明する。
ステップS101において、基本解析部10の構成要素である形態素解析部11は、テキストコーパス内に蓄積された自然文で記載され且つ電子化された文を抽出して、抽出した文に対して公知の形態素解析手法を用いて形態素解析を行う。すなわち、形態素解析部11は、抽出した文を形態素単位に分割し、形態素の各々に品詞や活用型、活用形などの情報を付与する。
ステップS102において、基本解析部10の構成要素である係り受け解析部12は、公知の係り受け解析手法を用いて、形態素解析部11によって解析処理された文を文節単位に分割して各文節の係り元と係り先を判定する。係り受け解析部12は、各文節に文節番号を付与するとともに、各文節の係り受け関係を表示する識別符号を付与する。
ステップS103において、基本解析部10の構成要素である機能表現意味ラベル付与部13は、図3に示されるような機能表現意味ラベル辞書を用いて、形態素解析部11によって形態素単位に分割された文のうちの機能表現(機能語)を特定し、特定した機能表現に対して「完了」、「否定」、「疑問」等の機能表現の意味を示す意味ラベルを付与する。機能表現意味ラベル付与部13は、例えば、テキストコーパスに蓄積された文の機能表現に正しい意味ラベルを人手で付与した正解データを使用して平均化パーセプトロンという手法で学習して生成された識別モデルと、機能表現意味ラベル辞書およびフレーズテーブルを用いて、一文内に出現する機能表現に対して、最適な機能表現意味ラベルを出力してこれを付与する。機能表現意味ラベル付与部13は、機能表現意味ラベル辞書との最長マッチのようなルールベースの方法で機能表現に対して意味ラベルを付与することとしてもよい。
上記したステップS101からS103までは、基本解析部10による文の基本解析処理である。基本解析部10によるこれら一連の処理の結果は、図4に例示されている。基本解析部10は、例えば、テキストコーパスから抽出した文「米兵が、自国にひきあげた。」に対して、上記した形態素解析部11よる処理において、上記の文を形態素単位に分割するとともに形態素の各々に品詞や活用型、活用形などの情報を付与する。その後、基本解析部10は、係り受け解析部12による処理において、上記の文を文節単位に分割して、各文節に文節番号を付与するとともに、各文節の係り受け関係を示す符号を付与する。続いて、基本解析部10は、機能表現意味ラベル付与部13による処理において、上記の文に含まれる機能表現「た」に対して意味ラベル「完了」を付与する。基本解析部100は、テキストコーパスに蓄積された全ての文に対して上記した基本解析処理を行う。
ステップS104において、素性抽出部20は、基本解析部100によって解析処理された文の述部に関する素性を抽出する。はじめに、素性抽出部20は、「機能表現出現パターン」を当該述部に関する第1の素性として抽出する。例えば、素性抽出部20は、上記の例文「米兵が、自国にひきあげた。」の述部を構成する内容語である動詞「ひきあげる」に後続する、文字列「た」を機能表現であるものと判定してこれを述部「ひきあげる」に関する第1の素性(機能表現出現パターン)として抽出する。
次に、素性抽出部20は、先に第1の素性として抽出した機能表現に対して付された意味ラベルを第2の素性として抽出する。例えば、素性抽出部20は、先に抽出された機能表現「た」に対して付与されている意味ラベル「完了」を述部「ひきあげる」に関する第2の素性(機能表現意味ラベルパターン)として抽出する。
更に、素性抽出部20は、基本解析部100によって解析された文の述部と係り受け関係にある名詞および格助詞のペアを第3の素性として抽出する。当該述部と係り受け関係にあるか否かの判定は、先の係り受け解析部12による処理結果を用いることができる。例えば、素性抽出部20は、上記の例文「米兵が、自国にひきあげた。」の述部「ひきあげる」と係り受け関係にある名詞および格助詞のペア「米兵:が」および「自国:に」を述部「ひきあげる」に関する第3の素性として抽出する。素性抽出部20は、図5に示すように、上記の例文「米兵が、自国にひきあげた。」の述部「ひきあげる」に関する素性として「た」、「完了」、「米兵:が」、「自国:に」を抽出する。素性抽出部20は、以上のような処理をテキストコーパス内に蓄積された全ての文の各述部に関してして行う。
ステップS105において、素性ベクトル構築部30は、基本解析部10による解析結果および素性抽出部20によって抽出された素性を用いてテキストコーパス内に蓄積された全て述部を対象として、述部毎に素性ベクトルを構築する。すなわち、素性ベクトル構築部30は、述部毎に、当該述部と、テキストコーパス内の複数の述部の各々に関して素性抽出部20によって抽出された第1の素性の各々、第2の素性の各々、第3の素性の各々との間の相互情報量MIを算出し、算出値の各々をweight関数を用いて処理することにより、当該述部に関して第1の素性の各々、第2の素性の各々および第3の素性の各々に対する“0”および“1”を要素とする素性ベクトルを構築する。
素性ベクトル構築部30によって構築された素性ベクトルの一例が、図6に示されている。素性ベクトル構築部30は、例えば、テキストコーパスから抽出された述部「ひきあげる」と、テキストコーパスから抽出された複数の述部に関して素性抽出部20によって抽出された素性「完了」、「た」、「米兵:が」、「アメリカ軍:が」、「自国:に」、「アメリカ:に」等との間の相互情報量MIを算出し、その算出値に基づいて述部「ひきあげる」と上記の各素性との間に“1”又は“0”を立てることにより、述部「ひきあげる」に関する素性ベクトルを構築する。同様に、素性ベクトル構築部30は、テキストコーパスから抽出された述部「戻る」と、テキストコーパスから抽出された複数の述部に関して素性抽出部20によって抽出された素性「完了」、「た」、「米兵:が」、「アメリカ軍:が」、「自国:に」、「アメリカ:に」等との間の相互情報量MIを算出し、その算出値に基づいて述部「戻る」と上記の各素性との間に“1”又は“0”を立てることにより、述部「戻る」に関する素性ベクトルを構築する。以上のような処理をテキストコーパス内に蓄積された全ての文の各述部に関してして行う。
ステップS106において、素性ベクトル構築部30は、テキストコーパス内から抽出された複数の述部の各々に関して構築した素性ベクトルの各々を、素性ベクトル蓄積部40に格納する。
以上のステップS101〜S106の各処理を経て、素性ベクトル構築処理ルーチンが終了する。尚、素性ベクトル構築処理ルーチンを構成する各ステップは、素性ベクトル構築プログラムとして記述され、素性ベクトル構築装置2を構成するコンピュータにインストールされている。
次に本発明の実施形態に係る述部類似度計算装置3によって実行される分布類似度計算処理ルーチンについて図8に示すフローチャートを参照しつつ説明する。尚、素性ベクトル蓄積部40には、テキストコーパス内から抽出された複数の述部の各々に関して構築された複数の素性ベクトルが予め蓄積されているものとする。
ステップS201において、分布類似度計算部50は、分布類似度計算の対象となる(すなわち、同義判定の対象となる)2つの述部の入力を受け付ける。この2つの述部は、ユーザによるマニュアル操作によって与えられるものであってもよいし、外部装置から与えられるものであってもよい。
ステップS202において、分布類似度計算部50は、ステップS201において受け付けた2つの述部に関する素性ベクトルを素性ベクトル蓄積部40から抽出する。
ステップS203において、分布類似度計算部50は、ステップS202において抽出した素性ベクトルを上記した数式3で表されるmeasure関数を用いて処理することにより、2つの述部の分布類似度を算出する。すなわち、分布類似度算出部50は、2つの述部に関する素性ベクトルの各要素の重なりの程度に基づいて当該2つの述部の分布類似度を算出する。
以上のステップS201〜S203の処理を経て、分布類似度計算処理ルーチンが終了する。尚、分布類似度計算処理ルーチンを構成する各ステップは、分布類似度計算処理プログラムとして記述され、述部類似度計算装置3を構成するコンピュータに予めインストールされている。また、上記した素性ベクトル構築プログラムと分布類似度計算処理プログラムを組み合わせて、素性ベクトル構築装置2と述部類似度計算装置3とを一体的に機能させるプログラムとして構成することも可能である。
図9(a)は、本発明の実施例形態に係る述部同義判定システム1および比較例に係るシステムを用いて同義関係にある述部「ひきあげる」と「戻る」の分布類似度を算出した結果を示す図である。図9(a)において最下段の値が本発明の実施形態に係る述部同義判定システム1を用いて得られた分布類似度である。すなわち、図9(a)最下段は、機能表現出現パターン(Surf)、機能表現意味ラベルパターン(Sem)および当該述部と係り受け関係にある名詞(Noun)の3つの項目を素性として構築した素性ベクトルを用いて算出した分布類似度を示す。
図9(a)の最上段は、比較例であり、当該述部と係り受け関係にある名詞(Noun)のみを素性として構築した素性ベクトルを用いて算出された分布類似度を示す。
図9(a)の2段目は、比較例であり、当該述部と係り受け関係にある名詞(Noun)と、機能表現意味ラベルパターン(Sem)の2項目を素性として構築した素性ベクトルを用いて算出された分布類似度を示す。
図9(a)において、3段目は、比較例であり、当該述部と係り受け関係にある名詞(Noun)と、機能表現出現パターン(Surf)の2項目を素性として構築した素性ベクトルを用いて算出された分布類似度を示す。尚、それぞれのケースにおいて、素性ベクトルは、800万文を蓄積したテキストコーパスを用いて構築した。
図9(b)は、「片付く」と「整う」について同様の評価を行った結果である。図9(a)および図9(b)に示すように、述部と係り受け関係にある語だけでなく、機能表現をも素性として加えることにより、表層文字列が異なる同義関係にある述部に対してより高い分布類似度を得ることができた。更に、本発明の実施形態に係る述部同義判定システム1のように機能表現の表層文字列を用いた「機能表現出現パターン」と、機能表現の意味を用いた「機能表現意味ラベルパターン」を素性として加えることにより、比較例よりも高い分布類似度が得られることが確認できた。すなわち、「機能表現出現パターン」と「機能表現意味ラベルパターン」を述部の素性として加えて素性ベクトルを構築することにより、機能表現の特徴を好適に分布類似度計算に取り入れることができた。
以上の説明から明らかなように、本発明の実施形態に係る素性ベクトル構築装置2は「同義関係にある述部は、機能表現の出現パターンが似ている」という分布仮説に基づいて、機能表現を述部の文脈素性として抽出して素性ベクトルを構築する。すなわち、素性ベクトル構築装置2は、機能表現の出現形式を素性として取り込む「機能表現出現パターン」の抽出と、機能表現の意味を素性として取り込む「機能表現意味ラベルパターン」の抽出を行って、これらを要素に含む素性ベクトルを構築する。これにより、機能表現の表層文字列と意味の両方が加味された素性ベクトルを構築することが可能となる。
本発明の実施形態に係る述部類似度計算装置3は、素性ベクトル構築装置2によって構築された素性ベクトルを用いて、2つの述部の分布類似度を算出するので、述部の機能表現の特徴を好適に取り入れた分布類似度を算出することが可能となり、表層文字列が異なる同義関係にある述部についてもより適確な類似度計算を行うことが可能となる。
すなわち、本発明の実施形態に係る素性ベクトル構築装置2と述部類似度計算装置3とを含む述部同義判定システム1によれば、述部の機能表現の特徴を好適に取り入れて分布類似度を算出するので、「ひきあげる」と「戻る」のように表層文字列が異なるが同じ事を表している述部に対してより適確な分布類似度を得ることが可能となり、より正確な述部の同義判定を行うことが可能となる。その結果、ユーザが求める情報を探し出す検索技術において、文字列が異なる表現で検索しても同じ事を表すテキストを表示することが可能となり、検索技術の精度の向上を図ることが可能となる。更に、大量のテキストから重要な情報のみを抽出・集計・提示するテキストマイニング技術において、表層文字列にかかわらず同じ出来事を正しく集計することが可能となる。
尚、本明細書中において、プログラムが予めインストールされているコンピュータが素性ベクトル構築装置、述部類似度計算装置および述部同義判定システムとして機能する場合を例示しているが、当該プログラムをコンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
1 述部同義判定システム
2 素性ベクトル構築装置
3 述部類似度計算装置
10 基本解析部
11 形態素解析部
12 係り受け解析部
13 機能表現意味ラベル付与部
20 素性抽出部
30 素性ベクトル構築部
40 素性ベクトル蓄積部
50 分布類似度計算部

Claims (5)

  1. 自然言語で記載され且つ電子化された複数の文の形態素解析を行う形態素解析手段と、
    前記複数の文の各々の文節間の係り受け解析を行う係り受け解析手段と、
    前記複数の文に含まれる複数の述部の機能表現を特定して前記機能表現の各々にその意味を示す意味ラベルを付与する意味ラベル付与手段と、
    前記形態素解析手段による形態素解析結果に基づいて前記複数の述部の各々の機能表現を表す文字列を第1の素性として抽出し、前記第1の素性として抽出された機能表現の各々に対して前記意味ラベル付与手段によって付与された意味ラベルを第2の素性として抽出し、前記係り受け解析手段による係り受け解析結果に基づいて前記複数の述部の各々と係り受け関係にある語を第3の素性として抽出する素性抽出手段と、
    前記複数の述部について述部毎に、前記複数の述部の各々に関して前記素性抽出手段によって抽出された前記第1の素性の各々、前記第2の素性の各々および前記第3の素性の各々と、前記述部との相互情報量に基づいて、前記第1の素性、前記第2の素性および前記第3の素性を要素として含む素性ベクトルを構築する素性ベクトル構築手段と、を含む素性ベクトル構築装置。
  2. 請求項1に記載の素性ベクトル構築装置によって構築された述部毎の素性ベクトルの各々を記憶した記憶手段と、
    類似度計算の対象となる2つの述部に対応する素性ベクトルを前記記憶手段から抽出し、抽出した2つの素性ベクトルの対応する要素間の重なりの程度に基づいて前記2つの述部の類似度を計算する類似度計算手段と、を含む述部類似度計算装置。
  3. 自然言語で記載され且つ電子化された複数の文の形態素解析を行う形態素解析ステップと、
    前記複数の文の各々の文節間の係り受け解析を行う係り受け解析ステップと、
    前記複数の文に含まれる複数の述部の機能表現を特定して前記機能表現の各々にその意味を示す意味ラベルを付与する意味ラベル付与ステップと、
    前記形態素解析ステップにおける形態素解析結果に基づいて前記複数の述部の各々の機能表現を表す文字列を第1の素性として抽出し、前記第1の素性として抽出された機能表現の各々に対して前記意味ラベル付与ステップにおいて付与された意味ラベルを第2の素性として抽出し、前記係り受け解析ステップにおける係り受け解析結果に基づいて前記複数の述部の各々と係り受け関係にある語を第3の素性として抽出する素性抽出ステップと、
    前記複数の述部について述部毎に、前記複数の述部の各々に関して前記素性抽出ステップにおいて抽出された前記第1の素性の各々、前記第2の素性の各々および前記第3の素性の各々と、前記述部との相互情報量に基づいて、前記第1の素性、前記第2の素性および前記第3の素性を要素として含む素性ベクトルを構築する素性ベクトル構築ステップと、を含む素性ベクトル構築方法。
  4. 請求項3に記載の素性ベクトル構築方法を用いて構築された述部毎の素性ベクトルの各々を記憶手段に記憶させるステップと、
    類似度計算の対象となる2つの述部に対応する素性ベクトルを前記記憶手段から抽出し、抽出した2つの素性ベクトルの対応する要素間の重なりの程度に基づいて前記2つの述部の類似度を計算する類似度計算ステップと、を含む述部類似度計算方法。
  5. コンピュータを請求項1に記載の素性ベクトル構築装置又は請求項2に記載の述部類似度計算装置を構成する各手段として機能させるための述部類似度計算プログラム。
JP2012048049A 2012-03-05 2012-03-05 素性ベクトル構築装置、素性ベクトル構築方法、述部類似度計算装置、述部類似度計算方法および述部類似度計算プログラム Pending JP2013182580A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012048049A JP2013182580A (ja) 2012-03-05 2012-03-05 素性ベクトル構築装置、素性ベクトル構築方法、述部類似度計算装置、述部類似度計算方法および述部類似度計算プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012048049A JP2013182580A (ja) 2012-03-05 2012-03-05 素性ベクトル構築装置、素性ベクトル構築方法、述部類似度計算装置、述部類似度計算方法および述部類似度計算プログラム

Publications (1)

Publication Number Publication Date
JP2013182580A true JP2013182580A (ja) 2013-09-12

Family

ID=49273158

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012048049A Pending JP2013182580A (ja) 2012-03-05 2012-03-05 素性ベクトル構築装置、素性ベクトル構築方法、述部類似度計算装置、述部類似度計算方法および述部類似度計算プログラム

Country Status (1)

Country Link
JP (1) JP2013182580A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015177861A1 (ja) * 2014-05-20 2015-11-26 株式会社日立製作所 教師データ作成装置及び方法
JP2016045908A (ja) * 2014-08-27 2016-04-04 Kddi株式会社 コンテンツ文章に記述された所定対象の対象数値を用いて検索するプログラム及び検索装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015177861A1 (ja) * 2014-05-20 2015-11-26 株式会社日立製作所 教師データ作成装置及び方法
JP2016045908A (ja) * 2014-08-27 2016-04-04 Kddi株式会社 コンテンツ文章に記述された所定対象の対象数値を用いて検索するプログラム及び検索装置

Similar Documents

Publication Publication Date Title
Mukhtar et al. Urdu sentiment analysis using supervised machine learning approach
CN104991891B (zh) 一种短文本特征提取方法
JP6466952B2 (ja) 文章生成システム
US20100205198A1 (en) Search query disambiguation
US9342592B2 (en) Method for systematic mass normalization of titles
CN109933785A (zh) 用于实体关联的方法、装置、设备和介质
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
WO2010038540A1 (ja) テキストセグメントを有する文書から用語を抽出するためのシステム
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
JP2005352888A (ja) 表記揺れ対応辞書作成システム
CN112559684A (zh) 一种关键词提取及信息检索方法
CN109783806A (zh) 一种利用语义解析结构的文本匹配方法
TW201826145A (zh) 從中文語料庫提取知識的方法和系統
US10198497B2 (en) Search term clustering
CN114997288A (zh) 一种设计资源关联方法
WO2018072501A1 (en) Information extraction apparatus and method
CN115757819A (zh) 裁判文书中引用法条信息获取方法及装置
WO2014002774A1 (ja) 同義語抽出システム、方法および記録媒体
JP6409071B2 (ja) 文の並び替え方法および計算機
Garrido et al. GEO-NASS: A semantic tagging experience from geographical data on the media
CN111339778B (zh) 文本处理方法、装置、存储介质和处理器
JP2013182580A (ja) 素性ベクトル構築装置、素性ベクトル構築方法、述部類似度計算装置、述部類似度計算方法および述部類似度計算プログラム
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
JP2014119988A (ja) 同義判定装置、同義学習装置、及びプログラム
CN109298796B (zh) 一种词联想方法及装置