JP2011129006A - 意味分類付与装置、意味分類付与方法、意味分類付与プログラム - Google Patents

意味分類付与装置、意味分類付与方法、意味分類付与プログラム Download PDF

Info

Publication number
JP2011129006A
JP2011129006A JP2009288603A JP2009288603A JP2011129006A JP 2011129006 A JP2011129006 A JP 2011129006A JP 2009288603 A JP2009288603 A JP 2009288603A JP 2009288603 A JP2009288603 A JP 2009288603A JP 2011129006 A JP2011129006 A JP 2011129006A
Authority
JP
Japan
Prior art keywords
semantic classification
word
semantic
classification
assigning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009288603A
Other languages
English (en)
Other versions
JP5757551B2 (ja
Inventor
Hiroyori Taira
博順 平
Masaaki Nagata
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009288603A priority Critical patent/JP5757551B2/ja
Publication of JP2011129006A publication Critical patent/JP2011129006A/ja
Application granted granted Critical
Publication of JP5757551B2 publication Critical patent/JP5757551B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】意味分類付与の精度を向上させる。
【解決手段】特徴重みテーブル3は、あらかじめテキストの特徴と意味分類との間の関連性を示す特徴重みとして、語句の後続機能表現と該後続機能表現の係る語句との意味分類の異同を特徴とする重みを保持する。スコア算出部4は、入力部2で受け付けたテキスト中の注目単語の特徴をキーとして前記テーブル3を探索し、該単語に付与する意味分類タグ候補とスコアを算出する。意味分類付与手段5は、意味分類タグ候補の系列のうちスコア総和が最大となる系列を選択し、入力テキスト中の各単語に該意味分類タグを付与した意味分類付与結果を出力する。
【選択図】図1

Description

自然言語で表現されたテキスト中の語句(例えば名詞句など)を特定し、特定された語句の意味分類を自動的に付与する技術に関する。
従来の意味分類付与装置では、非特許文献1に示すように、入力されたテキストに対し、あらかじめ機械学習などで作成されたテキストの特徴と意味分類との間の関連性を示す特徴重みを用いて、入力テキストの単語系列に対してスコアが最大になるような名詞句および意味分類の系列を得て、名詞句の意味分類を出力する手法が提案されている
具体的には、入力テキスト中の各単語に対して、前後数単語の単語および品詞、単語単位の意味分類、係り受け状態などに注目し、それらの特徴と名詞句の意味分類との間の関連性の高さを示す予め用意された重みを用い、その重みの合計スコアが最も高くなるような名詞句および名詞句に対する意味分類の系列の付与を行っていた。
Massimiliano Ciaramita and Mark Johnson "Supersense Tagging of Unknown Nouns in WordNet" Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing(EMNLP) P.168−175
しかしながら、従来の意味分類付与装置では、入力テキスト中の単語の中に、未知語が含まれている場合には、正しく名詞句および名詞句に対する意味分類の付与ができないことが多かった。
特に、「A」.「B」をそれぞれ未知語の名詞句とした場合に、「AをはじめとするB」といった表現では、Aに対する意味分類は、「を」「はじめ」などAの周囲に存在する単語を手がかりにするだけでは定められない可能性が高く、意味分類の精度を下げる原因となっていた。
本発明は、上述のような従来技術の問題点を解決するためになされたものであり、意味分類付与の精度を向上させることを解決課題としている。
そこで、本発明は、意味分類を付与する対象の周辺単語の特徴だけでなく、語句の後続機能表現と該後続機能表現の係る語句との意味分類の異同を特徴とする重みを併せて利用し、文書全体として特徴重みの総和が最大となるような意味分類の系列を選択する。ここで選択された意味分類系列を出力し、入力テキスト中の語句の意味分類を提示する。
本発明の一態様は、入力されたテキスト中における語句に対して、意味分類を付与する意味分類付与装置であって、テキストの特徴と意味分類との間の関連性を示す特徴重みとして、語句の後続機能表現と該後続機能表現の係る語句とにおける意味分類の異同を保持するテーブルと、前記テーブルを参照して得られた入力テキストの特徴重みの総和が最大となる意味分類の系列を選択し、該選択結果を入力テキストの意味分類付与結果として提示する意味分類付与手段と、を備える。
本発明の他の態様は、入力されたテキスト中における語句に対して、意味分類を付与する意味分類付与方法であって、意味分類付与手段が、テキストの特徴と意味分類との間の関連性を示す特徴重みに語句の後続機能表現と該後続機能表現の係る語句とにおける意味分類の異同を保持するテーブルを参照して得られた入力テキストの特徴重みをもとに、該特徴重みの総和が最大となる意味分類の系列を選択する意味分類選択ステップと、前記意味分類付与手段が、前記意味分類選択ステップの選択結果を入力テキストの意味分類付与結果として提示する出力ステップと、を有する。
なお、本発明は、前記装置の意味分類付与手段としてコンピュータを機能させるプログラムの態様としてもよい。このプログラムはネットワークや記録媒体などを通じて提供することができる。
本発明によれば、入力テキスト中の未知語に対しても、より高精度に意味分類が付与される。
本発明の実施形態に係る意味分類付与装置の構成を示すブロック図。 同 入力テキスト例。 同 動作原理を示すフローチャート。 同 最終出力結果例。
≪装置構成例≫
図1に基づき本発明の実施形態に係る意味分類付与装置を説明する。ここでは自然言語で記述されたテキストに対して、該テキスト中の名詞句の意味分類を自動的に付与する事例を説明する。この意味分類付与装置1は、コンピュータにより構成され、通常のコンピュータのハードウェアリソース、例えばCPU,メモリ(RAM),ハードディスドライブ装置,入出力デバイスなどを備える。
このハードウェアリソースとソフトウェアリソース(OS,アプリケーションなど)との協働の結果、前記意味分類付与装置1は、ユーザ入力のテキスト(入力文字列)を受け付ける入力部2と、あらかじめ学習されたテキストの特徴と意味分類との関連性を示す重み(特徴重み)を保持する特徴重みテーブル3と、該テーブル3を参照して入力テキストの各単語に付与する名詞句の意味分類候補と該候補のスコアを算出するスコア算出部4と、該スコア算出部4にて付与された意味分類候補の系列のうちスコアの総和が最大の系列を選択し、該選択された系列を意味分類付与結果として出力する意味分類付与手段5とを実装する。このうち前記テーブル3は、前記ハードディスドライブ装置などの保存手段に保存されているものとする。
Figure 2011129006
表1は、入力テキスト中の名詞句に対して意味分類付与する際の前記テーブル3の保持データ例を示している。ここではテキスト中に含まれる単語の特徴のみならず、名詞句に後続する機能表現と該機能表現が係る名詞句とが同一の意味分類に属するか否かをも特徴とし、それぞれの特徴に対する重みが保持されている。
この保持データはあらかじめ前記テーブル3に与えられ、例えば機械学習を用いて事前に訓練データから学習しておくことにより作成することができる。この表1の保持データ例は、図2の入力テキスト例、即ち「03Aシリーズを始めとする新製品が登場。」に応じた名詞句と機能表現が例示されているが、実際には入力テキストに含まれていない名詞句などに対する特徴重みも保持される。
表1中の「位置」は、注目している単語に対する位置情報を示している。ここでは「−1」は注目している単語の1単語前の位置情報を示し、「+1」は注目している単語の1単語後の位置情報を示し、「0」は注目している単語自体の位置情報を示している。なお、注目している単語は、スコア算出部4において探索対象となる単語を意味する。
また、表1中の「意味分類タグ」はIOE2方式に従った表現表方法を示している。IOE2方式は、一つの名詞句の中でその単語が占める位置を表すもので、「E(End)」は名詞句の末尾あるいはその一語で名詞句となる場合を表し、「I(Inside)」は名詞句の末尾にある単語を表し、「O(Other)」は名詞句以外の品詞を表している。
例えば「03Aシリーズ」という名詞句は、「0」、「3」、「A」、「シリーズ」の4単語から名詞句が構成されている。ここで「03Aシリーズ」全体の意味分類(意味カテゴリ)が「具体物」であり、「03Aシリーズ」が4単語で構成されているとすると、名詞句の意味単語分類タグの並びは前から「I−具体物」、「I−具体物」、「I−具体物」、「E−具体物」からなる。もし1単語で構成される場合には「E−(意味分類名)」のタグのみからなる。また、2単語で構成される場合には「I−(意味分類名)」、「E−(意味分類名)」からなる。
このような前記テーブル3の各行は、特徴重みのルールと見ることができる。例えば、表1のルールA(1行目)は、『注目する単語に対する位置情報「−1」(注目する単語の1つ前の単語)の品詞が「名詞−数」であれば意味分類タグ「O」を付与したときの重み(スコア)を「3」とする』というルールに該当する。また、表1のルールB(2行目)は、『注目する単語に対する位置情報「−1」(注目する単語の1つ前の単語)の品詞が「名詞−数」であれば意味分類タグ「E−系・類」を付与したときの重み(スコア)を「1」とする』ルールに該当する。
≪処理ステップ≫
以下、図3に基づき前記テーブル3の保持データを利用し、入力テキスト中の名詞句に意味分類を自動的に付与する処理ステップを説明する。
S01:処理が開始されると、入力部2はユーザから周知の形態素解析及び構文解析が行われた結果が付与されたテキスト(文字列)の入力を受け付ける。このとき構文解析の情報に加えて、入力テキスト中の各単語に対して単語単位の意味分類を付与する図示省略の解析器(構文解析手段・単語意味分類付与手段)を利用して、付加情報を付けてもよい。ここでは一例として図2のテキストに表2の構文解析結果が付与され、これが入力部2に入力されたものとする。
Figure 2011129006
S02:スコア算出部4は、S01の入力テキストの受付後に前記テーブル3を参照して、入力テキスト中の各単語が有する特徴に応じた特徴の重み和(スコア)を算出し、意味分類付与部5に出力する。
ここでは入力テキスト中の各単語を注目する単語として、その単語が有する特徴、即ち単語そのものや品詞または後続する機能表現の係り先の名詞句と当該単語の意味分類が一致するか否かなどをキーとして、前記テーブル3の保持データを探索し、その単語に付与する名詞句における意味分類(意味カテゴリ)タグの候補とそのスコア(重み和)とを算出する。
具体的には、まず、入力テキスト中の末尾の単語を注目する単語とし、注目する単語自身と、注目する単語の前後数単語と、その品詞と、その単語の意味分類とをキーとして前記テーブル3から該当するルールを探索し、対応する意味分類タグ候補と重みを求める。つぎに順次注目する単語を前方(先頭方向)に移動させながら意味分類タグ候補と重みを探索し、各意味分類タグ候補の系列毎に対応する重みを加算した値をスコアとして算出する。
以下、前記入力テキスト例(図2・表2)に基づく処理例を説明する。ここで表1の前記テーブル3には、位置情報は注目する単語自身(位置情報「0」)と、注目する単語の1単語前の単語(位置情報「−1」)と、注目する単語の1単語後の単語(位置情報「+1」)に関するルールA〜Oが記述されているため、注目する単語自身・その前後1単語に該当するルールが探索される。また、前提として表2の構文解析結果に示すように、単語「シリーズ」には「名詞−一般」の意味分類タグ、単語「はじめ」には「名詞−副詞可能」、単語「製品」には「具体物」の意味分類タグ、単語「登場」には「行為」の意味分類タグが、それぞれ予め付与されている。なお、算出に際してスコアの初期値は「0」とする。
(1)単語「。」
まず、末尾の単語「。」に注目する。表2の構文解析結果によれば、単語「。」の品詞は「記号−句点」と示されている。表1の前記テーブル3を参照すると、単語「。」を特徴とするルールは存在しないものの、位置情報「0」(自分自身の単語)かつ特徴「品詞=記号−句点」を示すルールM(13行目)のみが該当する。したがって、末尾の単語「。」には、意味分類タグ「O」を候補とするスコア「10」と、それ以外の意味分類タグを候補とするスコア「0」とが付与される。
(2)単語「登場」
つぎに末尾から2番目の単語「登場」に注目する。表2の構文解析結果によれば、単語「登場」の品詞は「名詞−サ変接続」と示されている。表1の前記テーブル3を参照すると、位置情報「0」(自分自身の単語)かつ特徴「単語=登場」を示すルールL(12行目)のみが該当する。したがって、末尾から2番目の単語「登場」は、意味分類タグ「E−行為」を候補とするスコア「8」と、それ以外の意味分類タグを候補とするスコア「0」が付与される。
(3)単語「が」
つぎに末尾から3番目の単語「が」に注目する。表2の構文解析結果によれば、単語「が」の品詞は「助詞−格助詞−一般」と示されている。表1の前記テーブル3を参照すると、単語「が」を特徴とするルールは存在しないものの、位置情報「0」(自分自身の単語)かつ特徴「品詞=助詞−格助詞−一般」を示すルールJ(10行目)のみが該当する。したがって、末尾から3番目の単語「が」は、意味分類タグ「O」を候補とするスコア「10」と、それ以外の意味分離タグを候補とするスコア「0」とが付与される。
(4)単語「製品」
つぎに末尾から4番目の単語「製品」に注目する。表2の構文解析結果によれば、単語「製品」の品詞は「名詞−一般」と示されている。表1の前記テーブル3を参照すると、位置情報「0」(自分自身の単語)かつ特徴「単語=製品」を示すルールH(8行目)のみが該当する。したがって、末尾から4番目の単語「製品」は、意味分類タグ「E−具体物」を候補とするスコア「5」と、それ以外の意味分類タグを候補とするスコア「0」とが付与される。
(5)単語「新」
つぎに末尾から5番目の単語「新」に注目する。表2の構文解析結果によれば、単語「新」の品詞は「接頭詞−名詞接続」と示されている。表1の前記テーブル中には、単語「新」あるいは品詞「接頭詞−名詞接続」のルールは存在しないものの、ルールG(7行目)には注目単語から1語後の単語が「製品」であるときのルールが示されている。したがって、末尾から5番目の単語「新」は、ルールGのみが該当し、意味分類タグ「I−具体物」を候補とするスコア「5」と、それ以外の意味分類タグを候補とするスコア「0」とが付与される。
(6)単語「する」
つぎに末尾から6番目の単語「する」に注目する。表2の構文解析結果によれば、単語「する」の品詞は「動詞−自立」と示されている。表1の前記テーブル3を参照すると、単語「する」を特徴とするルールは存在しないものの、位置情報「0」(自分自身の単語)かつ特徴「品詞=動詞−自立」を示すルールK(11行目)のみが該当する。したがって、末尾から6番目の単語「する」は、意味分類タグ「O」を候補とするスコア「10」と、それ以外の意味分類タグを候補とするスコア「0」とが付与される。
(7)単語「と」
つぎに末尾から7番目の単語「と」に注目する。表2の構文解析結果によれば、単語「と」の品詞は「助詞−格助詞−一般」と示されている。表1の前記テーブル3を参照すると、単語「と」を特徴とするルールは存在しないものの、位置情報「0」(自分自身の単語)かつ特徴「品詞=助詞−格助詞−一般」を示すルールJ(10行目)のみが該当する。したがって、末尾から7番目の単語「と」は、意味分類タグ「O」を候補とするスコアを「10」と、それ以外の意味分類タグを候補とするスコア「0」とが付与される。
(8)単語「はじめ」
つぎに末尾から8番目の単語「はじめ」に注目する。表2の構文解析結果によれば、単語「はじめ」の品詞は「名詞−副詞可能」と示されている。表1の前記テーブル3を参照すると、位置情報「0」(自分自身の単語)かつ特徴「単語=はじめ」を示すルールE(5行目).ルールI(9行目)が該当する。したがって、末尾から8番目の単語「はじめ」は、意味分類タグ「E−抽象的関係」を候補とするスコア「5」と、意味分類タグ「I−抽象的関係」を候補とするスコアを「2」と、それ以外の意味分類タグを候補とするスコアを「0」とが付与される。
(9)単語「を」
つぎに末尾から9番目の単語「を」に注目する。表2の構文解析結果によれば、単語「を」の品詞は「助詞−格助詞−一般」と示されている。表1の前記テーブル3を参照すると、単語「を」を特徴とするルールは存在しないが、位置情報「0」(自分自身の単語)かつ特徴「品詞=助詞−格助詞−一般」を示すルールJ(10行目)のみが該当する。したがって、末尾から9番目の単語「を」は、意味分類タグ「O」を候補とするスコアを「10」と、それ以外の意味分類タグを候補とするスコア「0」とが付与される。
(10)単語「シリーズ」
つぎに末尾から10番目の単語「シリーズ」に注目する。表2の構文解析結果によれば、単語「シリーズ」の品詞は「名詞−一般」と示されている。表1の前記テーブル3中には、単語「シリーズ」を特徴とするルールあるいは品詞「名詞−一般」を特徴とするルールは存在しない。もっとも、この単語の後続機能表現は「をはじめとする」であるから、ルールN(14行目)またはルールO(第15行目)が該当する可能性がある。
このとき表2の構文解析結果によれば、後続機能表現「をはじめとする」の末尾の単語「する」が係る文節番号は「3」と示されている。したがって、文節番号「3」の文節中における名詞句「新製品」の意味分類が未決定の状態ではルールN、ルールOのいずれが該当するかを決定することができず、すべての意味分類タグを候補に仮スコア「0」を付与して処理を進める。
(11)単語「A」
つぎに末尾から11番目の単語「A」に注目する。表2の構文解析結果によれば、単語「A」の品詞は「記号−アルファベット」と示されている。表1の前記テーブル3を参照すると、単語「A」を特徴とするルールは存在しないものの、位置情報「0」(自分自身の単語)かつ特徴「記号−アルファベット」を示すルールF(6行目)が該当する。また、表2の構文解析結果によれば、単語「A」の一つ前に存在する単語「3」の品詞は「名詞−数」と示されているため、表1の前記テーブル3中のルールA(1行目)およびルールB(2行目)にも該当する。したがって、単語「A」の意味分類タグは、
・意味分類タグ「O」を候補とするスコア「3+3=6」
・意味分類タグ「E−系・類」を候補とするスコア「1+0=1」
・それ以外の意味分類タグを候補とするスコア「0」
となる。
(12)単語「3」
つぎに末尾から12番目の単語「3」に注目する。表2の構文解析結果によれば、単語「3」の品詞は「名詞−数」と示されている。表1の前記テーブル3を参照すると、単語「3」を特徴とするルールは存在しないものの、位置情報「0」(自分自身の単語)かつ特徴「品詞=名詞−数」を示すルールC(3行目)およびルールD(4行目)が該当する。また、表2の構文解析結果によれば、単語「3」の一つ前に存在する単語「0」の品詞は「名詞−数」と示されているため、表1の前記テーブル3中のルールA(1行目)およびルールB(2行目)にも該当する。したがって、単語「3」の意味分類タグは、
・意味分類タグ「O」を候補とするスコア「3+4=7」
・意味分類タグ「E−系・類」を候補とするスコア「1+0=1」
・意味分類タグ「E−数量」を候補とするスコア「0+5=5」
・それ以外の意味分類タグを候補とするスコア「0」
となる。
(13)単語「0」
最後に、末尾から13番目の単語「0」に注目する。表2の構文解析結果によれば、単語「0」の品詞は「名詞−数」と示されている。表1の特徴重みテーブル3を参照すると、単語「0」を特徴とするルールは存在しないものの、位置情報「0」(自分自身の単語)かつ特徴「品詞=名詞−数」を示すルールC(3行目)およびルールD(4行目)が該当する。したがって、単語「0」の意味分類タグは、
・意味分類タグ「O」を候補とするスコア「4」
・意味分類タグ「E−数量」を候補とするスコア「5」
・それ以外の意味分類タグを候補とするスコア「0」
となる。
このように順次注目する単語をずらしながらスコアを計算していくと、表3のようなスコア算出結果が得られる。このスコア算出結果は、前記メモリに一時記憶してもよく、あるいは前記ハードディスクドライブ装置に保存してもよい。
Figure 2011129006
S03:意味分類付与部5は、S02のスコア算出後に入力テキストに含まれる各単語に付与し得る意味分類タグ候補の組合せ(系列)のうち、スコアの総和が最大となる意味分類タグ候補の系列を選択する。この選択結果を最終的な意味分類タグとし、入力テキスト中の各単語にそれらの意味分類タグを付与した意味分類付与結果を出力し、処理を終了する。
なお、IOE2タグフォーマットの制約から、「I−意味分類(意味カテゴリ)」のタグが付与された単語の一つ後の単語に付与される意味タグは、「I−意味分類(意味カテゴリ)」または「E−意味分類(意味カテゴリ)」でかつ、同一の意味分類が付与されるように意味分類を決定する。
Figure 2011129006
表4は、意味分類付与部5の意味分類付与結果を示している。この意味分類付与結果は、表3のスコア算出結果をもとに作成されている。表4中の「単語意味分類」(右から2列目)は、1単語ごとに辞書引きしたときに得られた意味分類(意味カテゴリ)を示している。例えば、「シリーズ」という単語を辞書引きしたら、意味分類として「系・類」が記述されていることを意味する。
表4中の「名詞句意味分類」(右から1列目)は、各単語に付与された意味分類タグを示している。ここでは「シリーズ」という単語は、単語として見ると「系・類」の意味カテゴリであるものの、「03Aシリーズ」という名詞句全体として見れば、その全体で「具体物」という意味分類を意味し、「E−具体物」の意味分類タグが付与されている。
このとき後続機能表現「をはじめとする」の係る文節番号「3」の名詞句「新製品」は、各構成単語に表3中のスコア最大値の意味分類タグ、即ち「I−具体物」、「E−具体物」の意味タグが付与される。そうすると「シリーズ」という単語は、後続機能表現「をはじめとする」の係る文節番号「3」中の名詞句「新製品」と同じ意味分類「具体物」となるから、ルールNに従ってスコア「10」が与えられる。同様に「0」「3」「A」の各単語も、IOE2タグフォーマットの制約から、「I−具体物」の意味分類が付与され、それぞれルールNに従ってスコア「10」が与えられる。なお、他の単語は、表3中のスコア最大値の意味分類タグが付与される。例えば、単語「を」「と」「する」などは名詞句ではなく、表3中の「O(Other)」がそのまま付与されている。
このような表4における意味分類タグの系列とスコアは、
「0」→意味分類タグ(I−具体物),スコア「10」
「3」→意味分類タグ(I−具体物),スコア「10」
「A」→意味分類タグ(I−具体物),スコア「10」
「シリーズ」→意味分類タグ(E−具体物),スコア「10」
「を」→意味分類タグ(O),スコア「10」
「はじめ」→意味分類タグ(E−抽象的関係),スコア「5」
「と」→意味分類タグ(O),スコア「10」
「する」→意味分類タグ(O),スコア「10」
「新」→意味分類タグ(I−具体物),スコア「5」
「製品」→意味分類タグ(E−具体物),スコア5
「が」→意味分類タグ(O),スコア「10」
「登場」→意味分類タグ(E−行為),スコア「8」
「。」→意味分類タグ(O),スコア「10」
となる。この意味分類タグの系列は、合計スコア「10+10+10+10+10+5+10+10+5+5+10+8+10=113」であり、他の意味分類タグの系列、例えば次の比較例などよりも合計スコアが大きいため、意味分類付与手段3により最大スコアとして選択される。なお、表4の意味分類付与結果は、表3と同様に前記メモリに一時記憶してもよく、あるいは前記ハードディスクドライブ装置に保存してもよい。
(1)比較例
比較例は、「シリーズ」に意味分類タグ(O)を付与した事例を示している。ここでは、「0」「3」「A」の各単語には、「E−数量」あるいは「O(Other)」の意味分類タグが付与され、その結果、「03Aシリーズ」の名詞句を構成する各単語には、ルールNではなく、ルールOが適用される。この比較例における意味分類タグの系列とスコアは、
「0」→意味分類タグ(E−数量),スコア「5−5=0」
「3」→意味分類タグ(E−数量),スコア「5−5=0」
「A」→意味分類タグ(O),スコア「6−5=1」
「シリーズ」→意味分類タグ(O),スコア「0−5=−5」
「を」→意味分類タグ(O),スコア「10」
「はじめ」→意味分類タグ(E−抽象的関係),スコア「5」
「と」→意味分類タグ(O),スコア「10」
「する」→意味分類タグ(O),スコア「10」
「新」→意味分類タグ(I−具体物),スコア「5」
「製品」→意味分類タグ(E−具体物),スコア「5」
「が」→意味分類タグ(O),スコア「10」
「登場」→意味分類タグ(E−行為),スコア「8」
「。」→意味分類タグ(O),スコア「10」
となる。この意味分類系列は、合計スコア「0+0+1−5+10+5+10+10+5+5+10+8+10=69」であり、表4の意味分類タグの系列よりも合計スコアが小さいため、最大スコアには該当しなく、意味分類付与手段3の選択対象とはならない。
(2)従来技術との対比
従来の意味分類付与装置は、前記テーブル3にルールN.ルールOの記述されていないため、
「0」→意味分類タグ(E−数量),スコア「5」
「3」→意味分類タグ(E−数量),スコア「5」
「A」→意味分類タグ(O),スコア「6」
「シリーズ」→意味分類タグ(O),スコア「0」
「を」→意味分類タグ(O),スコア「10」
「はじめ」→意味分類タグ(E−抽象的関係),スコア「5」
「と」→意味分類タグ(O),スコア「10」
「する」→意味分類タグ(O),スコア「10」
「新」→意味分類タグ(I−具体物),スコア「5」
「製品」→意味分類タグ(E−具体物),スコア「5」
「が」→意味分類タグ(O),スコア「10」
「登場」→意味分類タグ(E−行為),スコア「8」
「。」→意味分類タグ(O),スコア「10」
を最大スコア「5+5+6+0+10+5+10+10+5+5+10+8+10=84」の意味分類タグの系列として選択し、「03Aシリーズ」に対する名詞句の意味カテゴリが誤って推定されてしまう。
これに対して、表4における意味部類タグの系列によれば、表4に示すように、ルールNを適用することで「03Aシリーズ」の名詞句に対して正しく「具体物」の意味カテゴリを推定でき、これにより未知語に対する意味分類の精度を向上させることができる。ここで表4の意味分類付与結果を出力する際には、IOE2タグからXMLタグを再構成し、図4に示す出力結果を構成してもよい。出力される意味分類付与結果は、ユーザに提示され、翻訳装置や文書要約装置あるいは文書検索装置のキーワードマッチングなどに利用される。これにより翻訳精度やキーワードマッチングの精度向上などに貢献することができる。
なお、本発明は、上記実施形態に限定されるものではなく、各請求項に記載した範囲内で変形して実施することが可能である。例えば、本発明は、名詞句に対する意味分類付与に限らず、後続機能表現と係り先の単語を目的に応じたものに調整(表1のルールN.ルールOの調整)すれば、一般の系列ラベリング問題についても精度を向上させることが可能である。
≪プログラム等≫
本発明は、前記意味分類付与装置1の各部2〜5の一部もしくは全部として、コンピュータを機能させるプログラムとして構成することもできる。このプログラムによれば、S01〜S03の全ステップあるいは一部のステップをコンピュータに実行させる。
このプログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,Blu−ray Disk(登録商標)などの記録媒体に記録して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。
1…意味分類付与装置
2…入力部
3…特徴重みテーブル(テーブル)
4…スコア算出部
5…意味分類付与部(意味分類付与手段)

Claims (9)

  1. 入力されたテキスト中における語句に対して、意味分類を付与する意味分類付与装置であって、
    テキストの特徴と意味分類との間の関連性を示す特徴重みとして、語句の後続機能表現と該後続機能表現の係る語句とにおける意味分類の異同を保持するテーブルと、
    前記テーブルを参照して得られた入力テキストの特徴重みの総和が最大となる意味分類の系列を選択し、該選択結果を入力テキストの意味分類付与結果として提示する意味分類付与手段と、
    を備えることを特徴とする意味分類付与装置。
  2. 前記意味分類付与手段は、入力テキスト中で特定された語句の後続機能表現と該後続機能表現の係る語句との意味分類の異同に応じて、特徴重みの総和が最大となる意味分類の系列を選択する
    ことを特徴とする請求項1記載の意味分類付与装置。
  3. 前記意味分類付与手段は、構文解析手段を通じて構文解析された入力テキストを処理対象とする
    ことを特徴とする請求項1または2のいずれか1項に記載の意味分類付与装置。
  4. 入力テキストに対してテキスト中に含まれる各単語の意味分類を付与する単語意味付与手段をさらに備え、
    前記意味分類付与手段は、前記単語意味付与手段を通じて単語意味の付与済みの入力テキストを処理対象とする
    ことを特徴とする請求項1〜3のいずれか1項に記載の意味分類付与装置。
  5. 入力されたテキスト中における語句に対して、意味分類を付与する意味分類付与方法であって、
    意味分類付与手段が、テキストの特徴と意味分類との間の関連性を示す特徴重みに語句の後続機能表現と該後続機能表現の係る語句とにおける意味分類の異同を保持するテーブルを参照して得られた入力テキストの特徴重みをもとに、該特徴重みの総和が最大となる意味分類の系列を選択する意味分類選択ステップと、
    前記意味分類付与手段が、前記意味分類選択ステップの選択結果を入力テキストの意味分類付与結果として提示する出力ステップと、
    を有することを特徴とする意味分類付与方法。
  6. 前記意味分類選択ステップは、入力テキスト中で特定された語句の後続機能表現と該後続機能表現の係る語句との意味分類の異同に応じて、特徴重みの総和が最大となる意味分類の系列を選択する
    ことを特徴とする請求項5記載の意味分類付与方法。
  7. 前記意味分類選択ステップは、構文解析手段を通じて構文解析済みの入力テキストを処理対象とする
    ことを特徴とする請求項5または6のいずれか1項に記載の意味分類付与方法。
  8. 単語意味付与手段が、入力テキストに対してテキスト中に含まれる各単語の意味分類を付与する単語分類付与ステップをさらに有し、
    前記意味分類選択ステップは、前記単語意味付与ステップを通じて単語意味の付与済みの入力テキストを処理対象とする
    ことを特徴とする請求項5〜7のいずれか1項に記載の意味分類付与方法。
  9. 請求項1〜4のいずれか1項に記載の意味分類付与装置を構成する各手段としてコンピュータを機能させる意味分類付与プログラム。
JP2009288603A 2009-12-21 2009-12-21 意味分類付与装置、意味分類付与方法、意味分類付与プログラム Expired - Fee Related JP5757551B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009288603A JP5757551B2 (ja) 2009-12-21 2009-12-21 意味分類付与装置、意味分類付与方法、意味分類付与プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009288603A JP5757551B2 (ja) 2009-12-21 2009-12-21 意味分類付与装置、意味分類付与方法、意味分類付与プログラム

Publications (2)

Publication Number Publication Date
JP2011129006A true JP2011129006A (ja) 2011-06-30
JP5757551B2 JP5757551B2 (ja) 2015-07-29

Family

ID=44291510

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009288603A Expired - Fee Related JP5757551B2 (ja) 2009-12-21 2009-12-21 意味分類付与装置、意味分類付与方法、意味分類付与プログラム

Country Status (1)

Country Link
JP (1) JP5757551B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929858A (zh) * 2012-09-25 2013-02-13 太原理工大学 一种基于词缀的用于对未知词进行语义分类的方法
US8989483B2 (en) * 2011-06-10 2015-03-24 Sri International Method and apparatus for inferring the geographic location of captured scene depictions
CN109740164A (zh) * 2019-01-09 2019-05-10 国网浙江省电力有限公司舟山供电公司 基于深度语义匹配的电力缺陷等级识别方法
US11698943B2 (en) 2019-05-21 2023-07-11 Nippon Telegraph And Telephone Corporation Mapping support apparatus, mapping support method and program

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008242626A (ja) * 2007-03-26 2008-10-09 Mitsubishi Electric Corp 用語登録装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008242626A (ja) * 2007-03-26 2008-10-09 Mitsubishi Electric Corp 用語登録装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8989483B2 (en) * 2011-06-10 2015-03-24 Sri International Method and apparatus for inferring the geographic location of captured scene depictions
CN102929858A (zh) * 2012-09-25 2013-02-13 太原理工大学 一种基于词缀的用于对未知词进行语义分类的方法
CN102929858B (zh) * 2012-09-25 2015-09-30 太原理工大学 一种基于词缀的用于对未知词进行语义分类的方法
CN109740164A (zh) * 2019-01-09 2019-05-10 国网浙江省电力有限公司舟山供电公司 基于深度语义匹配的电力缺陷等级识别方法
CN109740164B (zh) * 2019-01-09 2023-08-15 国网浙江省电力有限公司舟山供电公司 基于深度语义匹配的电力缺陷等级识别方法
US11698943B2 (en) 2019-05-21 2023-07-11 Nippon Telegraph And Telephone Corporation Mapping support apparatus, mapping support method and program

Also Published As

Publication number Publication date
JP5757551B2 (ja) 2015-07-29

Similar Documents

Publication Publication Date Title
CN104252533B (zh) 搜索方法和搜索装置
Bhat et al. Iiit-h system submission for fire2014 shared task on transliterated search
US9075793B2 (en) System and method of providing autocomplete recommended word which interoperate with plurality of languages
TWI512507B (zh) A method and apparatus for providing multi-granularity word segmentation results
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
JP2007087397A (ja) 形態素解析プログラム、補正プログラム、形態素解析装置、補正装置、形態素解析方法および補正方法
Tasharofi et al. Evaluation of statistical part of speech tagging of Persian text
JP5757551B2 (ja) 意味分類付与装置、意味分類付与方法、意味分類付与プログラム
JP2006065387A (ja) テキスト文検索装置、テキスト文検索方法、及びテキスト文検索プログラム
WO2010109594A1 (ja) 文書検索装置、文書検索システム、文書検索プログラム、および文書検索方法
CN111199151A (zh) 数据处理方法、及数据处理装置
JP2006227823A (ja) 情報処理装置及びその制御方法
Etxeberria et al. Weighted finite-state transducers for normalization of historical texts
JP2018072979A (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
JP2007164635A (ja) 同義語彙獲得方法及び装置及びプログラム
US8977538B2 (en) Constructing and analyzing a word graph
JP2010092169A (ja) 情報処理装置及びプログラム
JP5085584B2 (ja) 記事特徴語抽出装置、記事特徴語抽出方法及びプログラム
Rodrigues Processing highly variant language using incremental model selection
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
WO2020157887A1 (ja) 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム
JP5506482B2 (ja) 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム
JP2009140113A (ja) 辞書編集装置、および辞書編集方法、並びにコンピュータ・プログラム
JP2008276561A (ja) 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130326

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130723

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130924

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20131105

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150528

R150 Certificate of patent or registration of utility model

Ref document number: 5757551

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees