JP5757551B2 - 意味分類付与装置、意味分類付与方法、意味分類付与プログラム - Google Patents

意味分類付与装置、意味分類付与方法、意味分類付与プログラム Download PDF

Info

Publication number
JP5757551B2
JP5757551B2 JP2009288603A JP2009288603A JP5757551B2 JP 5757551 B2 JP5757551 B2 JP 5757551B2 JP 2009288603 A JP2009288603 A JP 2009288603A JP 2009288603 A JP2009288603 A JP 2009288603A JP 5757551 B2 JP5757551 B2 JP 5757551B2
Authority
JP
Japan
Prior art keywords
semantic classification
word
semantic
input text
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009288603A
Other languages
English (en)
Other versions
JP2011129006A (ja
Inventor
博順 平
博順 平
永田 昌明
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009288603A priority Critical patent/JP5757551B2/ja
Publication of JP2011129006A publication Critical patent/JP2011129006A/ja
Application granted granted Critical
Publication of JP5757551B2 publication Critical patent/JP5757551B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

自然言語で表現されたテキスト中の語句(例えば名詞句など)を特定し、特定された語句の意味分類を自動的に付与する技術に関する。
従来の意味分類付与装置では、非特許文献1に示すように、入力されたテキストに対し、あらかじめ機械学習などで作成されたテキストの特徴と意味分類との間の関連性を示す特徴重みを用いて、入力テキストの単語系列に対してスコアが最大になるような名詞句および意味分類の系列を得て、名詞句の意味分類を出力する手法が提案されている
具体的には、入力テキスト中の各単語に対して、前後数単語の単語および品詞、単語単位の意味分類、係り受け状態などに注目し、それらの特徴と名詞句の意味分類との間の関連性の高さを示す予め用意された重みを用い、その重みの合計スコアが最も高くなるような名詞句および名詞句に対する意味分類の系列の付与を行っていた。
Massimiliano Ciaramita and Mark Johnson "Supersense Tagging of Unknown Nouns in WordNet" Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing(EMNLP) P.168−175
しかしながら、従来の意味分類付与装置では、入力テキスト中の単語の中に、未知語が含まれている場合には、正しく名詞句および名詞句に対する意味分類の付与ができないことが多かった。
特に、「A」.「B」をそれぞれ未知語の名詞句とした場合に、「AをはじめとするB」といった表現では、Aに対する意味分類は、「を」「はじめ」などAの周囲に存在する単語を手がかりにするだけでは定められない可能性が高く、意味分類の精度を下げる原因となっていた。
本発明は、上述のような従来技術の問題点を解決するためになされたものであり、意味分類付与の精度を向上させることを解決課題としている。
そこで、本発明は、意味分類を付与する対象の周辺単語の特徴だけでなく、語句に後続する複数の単語からなる機能表現と該機能表現の係る語句との意味分類の異同を特徴とする重みを併せて利用し、文書全体として特徴重みの総和が最大となるような意味分類の系列を選択する。ここで選択された意味分類系列を出力し、入力テキスト中の語句の意味分類を提示する。
本発明の一態様は、入力されたテキスト中における語句に対して、意味分類を付与する意味分類付与装置であって、テキストの特徴と意味分類との間の関連性を示す特徴重みとして、テキスト中に含まれる単語の特徴に対する特徴重み、及び、語句に後続する複数の単語からなる機能表現と該後続機能表現の係る語句とにおける意味分類の異同に対する特徴重みを保持するテーブルと、前記テーブルを参照して得られた、入力テキスト中に含まれる単語の特徴に対する特徴重みと入力テキスト中で特定された語句に後続する複数の単語からなる機能表現と該機能表現の係る語句との意味分類の異同に対する特徴重みとの総和が最大となる意味分類の系列を選択し、該選択結果を入力テキストの意味分類付与結果として提示する意味分類付与手段と、を備える。
本発明の他の態様は、入力されたテキスト中における語句に対して、意味分類を付与する意味分類付与方法であって、意味分類付与手段が、テキストの特徴と意味分類との間の関連性を示す特徴重みとしてテキスト中に含まれる単語の特徴に対する特徴重み及び語句に後続する複数の単語からなる機能表現と該機能表現の係る語句とにおける意味分類の異同に対する特徴重みを保持するテーブルを参照して得られた入力テキスト中に含まれる単語の特徴に対する特徴重みと入力テキスト中で特定された語句に後続する複数の単語からなる機能表現と該機能表現の係る語句との意味分類の異同に対する特徴重みとの総和が最大となる意味分類の系列を選択する意味分類選択ステップと、前記意味分類付与手段が、前記意味分類選択ステップの選択結果を入力テキストの意味分類付与結果として提示する出力ステップと、を有する。
なお、本発明は、前記装置の意味分類付与手段としてコンピュータを機能させるプログラムの態様としてもよい。このプログラムはネットワークや記録媒体などを通じて提供することができる。
本発明によれば、入力テキスト中の未知語に対しても、より高精度に意味分類が付与される。
本発明の実施形態に係る意味分類付与装置の構成を示すブロック図。 同 入力テキスト例。 同 動作原理を示すフローチャート。 同 最終出力結果例。
≪装置構成例≫
図1に基づき本発明の実施形態に係る意味分類付与装置を説明する。ここでは自然言語で記述されたテキストに対して、該テキスト中の名詞句の意味分類を自動的に付与する事例を説明する。この意味分類付与装置1は、コンピュータにより構成され、通常のコンピュータのハードウェアリソース、例えばCPU,メモリ(RAM),ハードディスドライブ装置,入出力デバイスなどを備える。
このハードウェアリソースとソフトウェアリソース(OS,アプリケーションなど)との協働の結果、前記意味分類付与装置1は、ユーザ入力のテキスト(入力文字列)を受け付ける入力部2と、あらかじめ学習されたテキストの特徴と意味分類との関連性を示す重み(特徴重み)を保持する特徴重みテーブル3と、該テーブル3を参照して入力テキストの各単語に付与する名詞句の意味分類候補と該候補のスコアを算出するスコア算出部4と、該スコア算出部4にて付与された意味分類候補の系列のうちスコアの総和が最大の系列を選択し、該選択された系列を意味分類付与結果として出力する意味分類付与手段5とを実装する。このうち前記テーブル3は、前記ハードディスドライブ装置などの保存手段に保存されているものとする。
Figure 0005757551
表1は、入力テキスト中の名詞句に対して意味分類付与する際の前記テーブル3の保持データ例を示している。ここではテキスト中に含まれる単語の特徴のみならず、名詞句に後続する機能表現と該機能表現が係る名詞句とが同一の意味分類に属するか否かをも特徴とし、それぞれの特徴に対する重みが保持されている。
この保持データはあらかじめ前記テーブル3に与えられ、例えば機械学習を用いて事前に訓練データから学習しておくことにより作成することができる。この表1の保持データ例は、図2の入力テキスト例、即ち「03Aシリーズを始めとする新製品が登場。」に応じた名詞句と機能表現が例示されているが、実際には入力テキストに含まれていない名詞句などに対する特徴重みも保持される。
表1中の「位置」は、注目している単語に対する位置情報を示している。ここでは「−1」は注目している単語の1単語前の位置情報を示し、「+1」は注目している単語の1単語後の位置情報を示し、「0」は注目している単語自体の位置情報を示している。なお、注目している単語は、スコア算出部4において探索対象となる単語を意味する。
また、表1中の「意味分類タグ」はIOE2方式に従った表現表方法を示している。IOE2方式は、一つの名詞句の中でその単語が占める位置を表すもので、「E(End)」は名詞句の末尾あるいはその一語で名詞句となる場合を表し、「I(Inside)」は名詞句の末尾にある単語を表し、「O(Other)」は名詞句以外の品詞を表している。
例えば「03Aシリーズ」という名詞句は、「0」、「3」、「A」、「シリーズ」の4単語から名詞句が構成されている。ここで「03Aシリーズ」全体の意味分類(意味カテゴリ)が「具体物」であり、「03Aシリーズ」が4単語で構成されているとすると、名詞句の意味単語分類タグの並びは前から「I−具体物」、「I−具体物」、「I−具体物」、「E−具体物」からなる。もし1単語で構成される場合には「E−(意味分類名)」のタグのみからなる。また、2単語で構成される場合には「I−(意味分類名)」、「E−(意味分類名)」からなる。
このような前記テーブル3の各行は、特徴重みのルールと見ることができる。例えば、表1のルールA(1行目)は、『注目する単語に対する位置情報「−1」(注目する単語の1つ前の単語)の品詞が「名詞−数」であれば意味分類タグ「O」を付与したときの重み(スコア)を「3」とする』というルールに該当する。また、表1のルールB(2行目)は、『注目する単語に対する位置情報「−1」(注目する単語の1つ前の単語)の品詞が「名詞−数」であれば意味分類タグ「E−系・類」を付与したときの重み(スコア)を「1」とする』ルールに該当する。
≪処理ステップ≫
以下、図3に基づき前記テーブル3の保持データを利用し、入力テキスト中の名詞句に意味分類を自動的に付与する処理ステップを説明する。
S01:処理が開始されると、入力部2はユーザから周知の形態素解析及び構文解析が行われた結果が付与されたテキスト(文字列)の入力を受け付ける。このとき構文解析の情報に加えて、入力テキスト中の各単語に対して単語単位の意味分類を付与する図示省略の解析器(構文解析手段・単語意味分類付与手段)を利用して、付加情報を付けてもよい。ここでは一例として図2のテキストに表2の構文解析結果が付与され、これが入力部2に入力されたものとする。
Figure 0005757551
S02:スコア算出部4は、S01の入力テキストの受付後に前記テーブル3を参照して、入力テキスト中の各単語が有する特徴に応じた特徴の重み和(スコア)を算出し、意味分類付与部5に出力する。
ここでは入力テキスト中の各単語を注目する単語として、その単語が有する特徴、即ち単語そのものや品詞または後続する機能表現の係り先の名詞句と当該単語の意味分類が一致するか否かなどをキーとして、前記テーブル3の保持データを探索し、その単語に付与する名詞句における意味分類(意味カテゴリ)タグの候補とそのスコア(重み和)とを算出する。
具体的には、まず、入力テキスト中の末尾の単語を注目する単語とし、注目する単語自身と、注目する単語の前後数単語と、その品詞と、その単語の意味分類とをキーとして前記テーブル3から該当するルールを探索し、対応する意味分類タグ候補と重みを求める。つぎに順次注目する単語を前方(先頭方向)に移動させながら意味分類タグ候補と重みを探索し、各意味分類タグ候補の系列毎に対応する重みを加算した値をスコアとして算出する。
以下、前記入力テキスト例(図2・表2)に基づく処理例を説明する。ここで表1の前記テーブル3には、位置情報は注目する単語自身(位置情報「0」)と、注目する単語の1単語前の単語(位置情報「−1」)と、注目する単語の1単語後の単語(位置情報「+1」)に関するルールA〜Oが記述されているため、注目する単語自身・その前後1単語に該当するルールが探索される。また、前提として表2の構文解析結果に示すように、単語「シリーズ」には「名詞−一般」の意味分類タグ、単語「はじめ」には「名詞−副詞可能」、単語「製品」には「具体物」の意味分類タグ、単語「登場」には「行為」の意味分類タグが、それぞれ予め付与されている。なお、算出に際してスコアの初期値は「0」とする。
(1)単語「。」
まず、末尾の単語「。」に注目する。表2の構文解析結果によれば、単語「。」の品詞は「記号−句点」と示されている。表1の前記テーブル3を参照すると、単語「。」を特徴とするルールは存在しないものの、位置情報「0」(自分自身の単語)かつ特徴「品詞=記号−句点」を示すルールM(13行目)のみが該当する。したがって、末尾の単語「。」には、意味分類タグ「O」を候補とするスコア「10」と、それ以外の意味分類タグを候補とするスコア「0」とが付与される。
(2)単語「登場」
つぎに末尾から2番目の単語「登場」に注目する。表2の構文解析結果によれば、単語「登場」の品詞は「名詞−サ変接続」と示されている。表1の前記テーブル3を参照すると、位置情報「0」(自分自身の単語)かつ特徴「単語=登場」を示すルールL(12行目)のみが該当する。したがって、末尾から2番目の単語「登場」は、意味分類タグ「E−行為」を候補とするスコア「8」と、それ以外の意味分類タグを候補とするスコア「0」が付与される。
(3)単語「が」
つぎに末尾から3番目の単語「が」に注目する。表2の構文解析結果によれば、単語「が」の品詞は「助詞−格助詞−一般」と示されている。表1の前記テーブル3を参照すると、単語「が」を特徴とするルールは存在しないものの、位置情報「0」(自分自身の単語)かつ特徴「品詞=助詞−格助詞−一般」を示すルールJ(10行目)のみが該当する。したがって、末尾から3番目の単語「が」は、意味分類タグ「O」を候補とするスコア「10」と、それ以外の意味分タグを候補とするスコア「0」とが付与される。
(4)単語「製品」
つぎに末尾から4番目の単語「製品」に注目する。表2の構文解析結果によれば、単語「製品」の品詞は「名詞−一般」と示されている。表1の前記テーブル3を参照すると、位置情報「0」(自分自身の単語)かつ特徴「単語=製品」を示すルールH(8行目)のみが該当する。したがって、末尾から4番目の単語「製品」は、意味分類タグ「E−具体物」を候補とするスコア「5」と、それ以外の意味分類タグを候補とするスコア「0」とが付与される。
(5)単語「新」
つぎに末尾から5番目の単語「新」に注目する。表2の構文解析結果によれば、単語「新」の品詞は「接頭詞−名詞接続」と示されている。表1の前記テーブル中には、単語「新」あるいは品詞「接頭詞−名詞接続」のルールは存在しないものの、ルールG(7行目)には注目単語から1語後の単語が「製品」であるときのルールが示されている。したがって、末尾から5番目の単語「新」は、ルールGのみが該当し、意味分類タグ「I−具体物」を候補とするスコア「5」と、それ以外の意味分類タグを候補とするスコア「0」とが付与される。
(6)単語「する」
つぎに末尾から6番目の単語「する」に注目する。表2の構文解析結果によれば、単語「する」の品詞は「動詞−自立」と示されている。表1の前記テーブル3を参照すると、単語「する」を特徴とするルールは存在しないものの、位置情報「0」(自分自身の単語)かつ特徴「品詞=動詞−自立」を示すルールK(11行目)のみが該当する。したがって、末尾から6番目の単語「する」は、意味分類タグ「O」を候補とするスコア「10」と、それ以外の意味分類タグを候補とするスコア「0」とが付与される。
(7)単語「と」
つぎに末尾から7番目の単語「と」に注目する。表2の構文解析結果によれば、単語「と」の品詞は「助詞−格助詞−一般」と示されている。表1の前記テーブル3を参照すると、単語「と」を特徴とするルールは存在しないものの、位置情報「0」(自分自身の単語)かつ特徴「品詞=助詞−格助詞−一般」を示すルールJ(10行目)のみが該当する。したがって、末尾から7番目の単語「と」は、意味分類タグ「O」を候補とするスコアを「10」と、それ以外の意味分類タグを候補とするスコア「0」とが付与される。
(8)単語「はじめ」
つぎに末尾から8番目の単語「はじめ」に注目する。表2の構文解析結果によれば、単語「はじめ」の品詞は「名詞−副詞可能」と示されている。表1の前記テーブル3を参照すると、位置情報「0」(自分自身の単語)かつ特徴「単語=はじめ」を示すルールE(5行目).ルールI(9行目)が該当する。したがって、末尾から8番目の単語「はじめ」は、意味分類タグ「E−抽象的関係」を候補とするスコア「5」と、意味分類タグ「I−抽象的関係」を候補とするスコアを「2」と、それ以外の意味分類タグを候補とするスコアを「0」とが付与される。
(9)単語「を」
つぎに末尾から9番目の単語「を」に注目する。表2の構文解析結果によれば、単語「を」の品詞は「助詞−格助詞−一般」と示されている。表1の前記テーブル3を参照すると、単語「を」を特徴とするルールは存在しないが、位置情報「0」(自分自身の単語)かつ特徴「品詞=助詞−格助詞−一般」を示すルールJ(10行目)のみが該当する。したがって、末尾から9番目の単語「を」は、意味分類タグ「O」を候補とするスコアを「10」と、それ以外の意味分類タグを候補とするスコア「0」とが付与される。
(10)単語「シリーズ」
つぎに末尾から10番目の単語「シリーズ」に注目する。表2の構文解析結果によれば、単語「シリーズ」の品詞は「名詞−一般」と示されている。表1の前記テーブル3中には、単語「シリーズ」を特徴とするルールあるいは品詞「名詞−一般」を特徴とするルールは存在しない。もっとも、この単語の後続機能表現は「をはじめとする」であるから、ルールN(14行目)またはルールO(第15行目)が該当する可能性がある。
このとき表2の構文解析結果によれば、後続機能表現「をはじめとする」の末尾の単語「する」が係る文節番号は「3」と示されている。したがって、文節番号「3」の文節中における名詞句「新製品」の意味分類が未決定の状態ではルールN、ルールOのいずれが該当するかを決定することができず、すべての意味分類タグを候補に仮スコア「0」を付与して処理を進める。
(11)単語「A」
つぎに末尾から11番目の単語「A」に注目する。表2の構文解析結果によれば、単語「A」の品詞は「記号−アルファベット」と示されている。表1の前記テーブル3を参照すると、単語「A」を特徴とするルールは存在しないものの、位置情報「0」(自分自身の単語)かつ特徴「記号−アルファベット」を示すルールF(6行目)が該当する。また、表2の構文解析結果によれば、単語「A」の一つ前に存在する単語「3」の品詞は「名詞−数」と示されているため、表1の前記テーブル3中のルールA(1行目)およびルールB(2行目)にも該当する。したがって、単語「A」の意味分類タグは、
・意味分類タグ「O」を候補とするスコア「3+3=6」
・意味分類タグ「E−系・類」を候補とするスコア「1+0=1」
・それ以外の意味分類タグを候補とするスコア「0」
となる。
(12)単語「3」
つぎに末尾から12番目の単語「3」に注目する。表2の構文解析結果によれば、単語「3」の品詞は「名詞−数」と示されている。表1の前記テーブル3を参照すると、単語「3」を特徴とするルールは存在しないものの、位置情報「0」(自分自身の単語)かつ特徴「品詞=名詞−数」を示すルールC(3行目)およびルールD(4行目)が該当する。また、表2の構文解析結果によれば、単語「3」の一つ前に存在する単語「0」の品詞は「名詞−数」と示されているため、表1の前記テーブル3中のルールA(1行目)およびルールB(2行目)にも該当する。したがって、単語「3」の意味分類タグは、
・意味分類タグ「O」を候補とするスコア「3+4=7」
・意味分類タグ「E−系・類」を候補とするスコア「1+0=1」
・意味分類タグ「E−数量」を候補とするスコア「0+5=5」
・それ以外の意味分類タグを候補とするスコア「0」
となる。
(13)単語「0」
最後に、末尾から13番目の単語「0」に注目する。表2の構文解析結果によれば、単語「0」の品詞は「名詞−数」と示されている。表1の特徴重みテーブル3を参照すると、単語「0」を特徴とするルールは存在しないものの、位置情報「0」(自分自身の単語)かつ特徴「品詞=名詞−数」を示すルールC(3行目)およびルールD(4行目)が該当する。したがって、単語「0」の意味分類タグは、
・意味分類タグ「O」を候補とするスコア「4」
・意味分類タグ「E−数量」を候補とするスコア「5」
・それ以外の意味分類タグを候補とするスコア「0」
となる。
このように順次注目する単語をずらしながらスコアを計算していくと、表3のようなスコア算出結果が得られる。このスコア算出結果は、前記メモリに一時記憶してもよく、あるいは前記ハードディスクドライブ装置に保存してもよい。
Figure 0005757551
S03:意味分類付与部5は、S02のスコア算出後に入力テキストに含まれる各単語に付与し得る意味分類タグ候補の組合せ(系列)のうち、スコアの総和が最大となる意味分類タグ候補の系列を選択する。この選択結果を最終的な意味分類タグとし、入力テキスト中の各単語にそれらの意味分類タグを付与した意味分類付与結果を出力し、処理を終了する。
なお、IOE2タグフォーマットの制約から、「I−意味分類(意味カテゴリ)」のタグが付与された単語の一つ後の単語に付与される意味タグは、「I−意味分類(意味カテゴリ)」または「E−意味分類(意味カテゴリ)」でかつ、同一の意味分類が付与されるように意味分類を決定する。
Figure 0005757551
表4は、意味分類付与部5の意味分類付与結果を示している。この意味分類付与結果は、表3のスコア算出結果をもとに作成されている。表4中の「単語意味分類」(右から2列目)は、1単語ごとに辞書引きしたときに得られた意味分類(意味カテゴリ)を示している。例えば、「シリーズ」という単語を辞書引きしたら、意味分類として「系・類」が記述されていることを意味する。
表4中の「名詞句意味分類」(右から1列目)は、各単語に付与された意味分類タグを示している。ここでは「シリーズ」という単語は、単語として見ると「系・類」の意味カテゴリであるものの、「03Aシリーズ」という名詞句全体として見れば、その全体で「具体物」という意味分類を意味し、「E−具体物」の意味分類タグが付与されている。
このとき後続機能表現「をはじめとする」の係る文節番号「3」の名詞句「新製品」は、各構成単語に表3中のスコア最大値の意味分類タグ、即ち「I−具体物」、「E−具体物」の意味タグが付与される。そうすると「シリーズ」という単語は、後続機能表現「をはじめとする」の係る文節番号「3」中の名詞句「新製品」と同じ意味分類「具体物」となるから、ルールNに従ってスコア「10」が与えられる。同様に「0」「3」「A」の各単語も、IOE2タグフォーマットの制約から、「I−具体物」の意味分類が付与され、それぞれルールNに従ってスコア「10」が与えられる。なお、他の単語は、表3中のスコア最大値の意味分類タグが付与される。例えば、単語「を」「と」「する」などは名詞句ではなく、表3中の「O(Other)」がそのまま付与されている。
このような表4における意味分類タグの系列とスコアは、
「0」→意味分類タグ(I−具体物),スコア「10」
「3」→意味分類タグ(I−具体物),スコア「10」
「A」→意味分類タグ(I−具体物),スコア「10」
「シリーズ」→意味分類タグ(E−具体物),スコア「10」
「を」→意味分類タグ(O),スコア「10」
「はじめ」→意味分類タグ(E−抽象的関係),スコア「5」
「と」→意味分類タグ(O),スコア「10」
「する」→意味分類タグ(O),スコア「10」
「新」→意味分類タグ(I−具体物),スコア「5」
「製品」→意味分類タグ(E−具体物),スコア5
「が」→意味分類タグ(O),スコア「10」
「登場」→意味分類タグ(E−行為),スコア「8」
「。」→意味分類タグ(O),スコア「10」
となる。この意味分類タグの系列は、合計スコア「10+10+10+10+10+5+10+10+5+5+10+8+10=113」であり、他の意味分類タグの系列、例えば次の比較例などよりも合計スコアが大きいため、意味分類付与手段3により最大スコアとして選択される。なお、表4の意味分類付与結果は、表3と同様に前記メモリに一時記憶してもよく、あるいは前記ハードディスクドライブ装置に保存してもよい。
(1)比較例
比較例は、「シリーズ」に意味分類タグ(O)を付与した事例を示している。ここでは、「0」「3」「A」の各単語には、「E−数量」あるいは「O(Other)」の意味分類タグが付与され、その結果、「03Aシリーズ」の名詞句を構成する各単語には、ルールNではなく、ルールOが適用される。この比較例における意味分類タグの系列とスコアは、
「0」→意味分類タグ(E−数量),スコア「5−5=0」
「3」→意味分類タグ(E−数量),スコア「5−5=0」
「A」→意味分類タグ(O),スコア「6−5=1」
「シリーズ」→意味分類タグ(O),スコア「0−5=−5」
「を」→意味分類タグ(O),スコア「10」
「はじめ」→意味分類タグ(E−抽象的関係),スコア「5」
「と」→意味分類タグ(O),スコア「10」
「する」→意味分類タグ(O),スコア「10」
「新」→意味分類タグ(I−具体物),スコア「5」
「製品」→意味分類タグ(E−具体物),スコア「5」
「が」→意味分類タグ(O),スコア「10」
「登場」→意味分類タグ(E−行為),スコア「8」
「。」→意味分類タグ(O),スコア「10」
となる。この意味分類系列は、合計スコア「0+0+1−5+10+5+10+10+5+5+10+8+10=69」であり、表4の意味分類タグの系列よりも合計スコアが小さいため、最大スコアには該当しなく、意味分類付与手段3の選択対象とはならない。
(2)従来技術との対比
従来の意味分類付与装置は、前記テーブル3にルールN.ルールOの記述されていないため、
「0」→意味分類タグ(E−数量),スコア「5」
「3」→意味分類タグ(E−数量),スコア「5」
「A」→意味分類タグ(O),スコア「6」
「シリーズ」→意味分類タグ(O),スコア「0」
「を」→意味分類タグ(O),スコア「10」
「はじめ」→意味分類タグ(E−抽象的関係),スコア「5」
「と」→意味分類タグ(O),スコア「10」
「する」→意味分類タグ(O),スコア「10」
「新」→意味分類タグ(I−具体物),スコア「5」
「製品」→意味分類タグ(E−具体物),スコア「5」
「が」→意味分類タグ(O),スコア「10」
「登場」→意味分類タグ(E−行為),スコア「8」
「。」→意味分類タグ(O),スコア「10」
を最大スコア「5+5+6+0+10+5+10+10+5+5+10+8+10=84」の意味分類タグの系列として選択し、「03Aシリーズ」に対する名詞句の意味カテゴリが誤って推定されてしまう。
これに対して、表4における意味部類タグの系列によれば、表4に示すように、ルールNを適用することで「03Aシリーズ」の名詞句に対して正しく「具体物」の意味カテゴリを推定でき、これにより未知語に対する意味分類の精度を向上させることができる。ここで表4の意味分類付与結果を出力する際には、IOE2タグからXMLタグを再構成し、図4に示す出力結果を構成してもよい。出力される意味分類付与結果は、ユーザに提示され、翻訳装置や文書要約装置あるいは文書検索装置のキーワードマッチングなどに利用される。これにより翻訳精度やキーワードマッチングの精度向上などに貢献することができる。
なお、本発明は、上記実施形態に限定されるものではなく、各請求項に記載した範囲内で変形して実施することが可能である。例えば、本発明は、名詞句に対する意味分類付与に限らず、後続機能表現と係り先の単語を目的に応じたものに調整(表1のルールN.ルールOの調整)すれば、一般の系列ラベリング問題についても精度を向上させることが可能である。
≪プログラム等≫
本発明は、前記意味分類付与装置1の各部2〜5の一部もしくは全部として、コンピュータを機能させるプログラムとして構成することもできる。このプログラムによれば、S01〜S03の全ステップあるいは一部のステップをコンピュータに実行させる。
このプログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,Blu−ray Disk(登録商標)などの記録媒体に記録して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。
1…意味分類付与装置
2…入力部
3…特徴重みテーブル(テーブル)
4…スコア算出部
5…意味分類付与部(意味分類付与手段)

Claims (7)

  1. 入力されたテキスト中における語句に対して、意味分類を付与する意味分類付与装置であって、
    テキストの特徴と意味分類との間の関連性を示す特徴重みとして、テキスト中に含まれる単語の特徴に対する特徴重み、及び、語句に後続する複数の単語からなる機能表現と該機能表現の係る語句とにおける意味分類の異同に対する特徴重みを保持するテーブルと、
    前記テーブルを参照して得られた、入力テキスト中に含まれる単語の特徴に対する特徴重みと入力テキスト中で特定された語句に後続する複数の単語からなる機能表現と該機能表現の係る語句との意味分類の異同に対する特徴重みとの総和が最大となる意味分類の系列を選択し、該選択結果を入力テキストの意味分類付与結果として提示する意味分類付与手段と、
    を備えることを特徴とする意味分類付与装置
  2. 前記意味分類付与手段は、構文解析手段を通じて構文解析された入力テキストを処理対象とする
    ことを特徴とする請求項1記載の意味分類付与装置。
  3. 入力テキストに対してテキスト中に含まれる各単語の意味分類を付与する単語意味付与手段をさらに備え、
    前記意味分類付与手段は、前記単語意味付与手段を通じて単語意味の付与済みの入力テキストを処理対象とする
    ことを特徴とする請求項1〜のいずれか1項に記載の意味分類付与装置。
  4. 入力されたテキスト中における語句に対して、意味分類を付与する意味分類付与方法であって、
    意味分類付与手段が、テキストの特徴と意味分類との間の関連性を示す特徴重みとしてテキスト中に含まれる単語の特徴に対する特徴重み及び語句に後続する複数の単語からなる機能表現と該機能表現の係る語句とにおける意味分類の異同に対する特徴重みを保持するテーブルを参照して得られた入力テキスト中に含まれる単語の特徴に対する特徴重みと入力テキスト中で特定された語句に後続する複数の単語からなる機能表現と該機能表現の係る語句との意味分類の異同に対する特徴重みとの総和が最大となる意味分類の系列を選択する意味分類選択ステップと、
    前記意味分類付与手段が、前記意味分類選択ステップの選択結果を入力テキストの意味分類付与結果として提示する出力ステップと、
    を有することを特徴とする意味分類付与方法。
  5. 前記意味分類選択ステップは、構文解析手段を通じて構文解析済みの入力テキストを処理対象とする
    ことを特徴とする請求項記載の意味分類付与方法。
  6. 単語意味付与手段が、入力テキストに対してテキスト中に含まれる各単語の意味分類を付与する単語意味付与ステップ
    をさらに有し、
    前記意味分類選択ステップは、前記単語意味付与ステップを通じて単語意味の付与済みの入力テキストを処理対象とする
    ことを特徴とする請求項のいずれか1項に記載の意味分類付与方法。
  7. 請求項1〜のいずれか1項に記載の意味分類付与装置を構成する各手段としてコンピュータを機能させる意味分類付与プログラム。
JP2009288603A 2009-12-21 2009-12-21 意味分類付与装置、意味分類付与方法、意味分類付与プログラム Expired - Fee Related JP5757551B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009288603A JP5757551B2 (ja) 2009-12-21 2009-12-21 意味分類付与装置、意味分類付与方法、意味分類付与プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009288603A JP5757551B2 (ja) 2009-12-21 2009-12-21 意味分類付与装置、意味分類付与方法、意味分類付与プログラム

Publications (2)

Publication Number Publication Date
JP2011129006A JP2011129006A (ja) 2011-06-30
JP5757551B2 true JP5757551B2 (ja) 2015-07-29

Family

ID=44291510

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009288603A Expired - Fee Related JP5757551B2 (ja) 2009-12-21 2009-12-21 意味分類付与装置、意味分類付与方法、意味分類付与プログラム

Country Status (1)

Country Link
JP (1) JP5757551B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8989483B2 (en) * 2011-06-10 2015-03-24 Sri International Method and apparatus for inferring the geographic location of captured scene depictions
CN102929858B (zh) * 2012-09-25 2015-09-30 太原理工大学 一种基于词缀的用于对未知词进行语义分类的方法
CN109740164B (zh) * 2019-01-09 2023-08-15 国网浙江省电力有限公司舟山供电公司 基于深度语义匹配的电力缺陷等级识别方法
US11698943B2 (en) 2019-05-21 2023-07-11 Nippon Telegraph And Telephone Corporation Mapping support apparatus, mapping support method and program

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008242626A (ja) * 2007-03-26 2008-10-09 Mitsubishi Electric Corp 用語登録装置

Also Published As

Publication number Publication date
JP2011129006A (ja) 2011-06-30

Similar Documents

Publication Publication Date Title
CN104252533B (zh) 搜索方法和搜索装置
JP4463256B2 (ja) 複数の言語を連動する自動完成推薦語提供システムおよび方法
KR20160026892A (ko) 논팩토이드형 질의 응답 시스템 및 방법
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
TW201222291A (en) Method and device for providing text segmentation results with multiple granularity levels
JP2006252380A (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP2007087397A (ja) 形態素解析プログラム、補正プログラム、形態素解析装置、補正装置、形態素解析方法および補正方法
JP5757551B2 (ja) 意味分類付与装置、意味分類付与方法、意味分類付与プログラム
Tasharofi et al. Evaluation of statistical part of speech tagging of Persian text
WO2010109594A1 (ja) 文書検索装置、文書検索システム、文書検索プログラム、および文書検索方法
CN111199151A (zh) 数据处理方法、及数据处理装置
JP5980520B2 (ja) 効率的にクエリを処理する方法及び装置
CN101470701A (zh) 支持基于有限状态机的语义规则的文本分析器及其方法
JP2018072979A (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
JP2007249421A (ja) 情報分類装置
US8977538B2 (en) Constructing and analyzing a word graph
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
US20090259995A1 (en) Apparatus and Method for Standardizing Textual Elements of an Unstructured Text
WO2020157887A1 (ja) 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム
JP2010191851A (ja) 記事特徴語抽出装置、記事特徴語抽出方法及びプログラム
JP2009140113A (ja) 辞書編集装置、および辞書編集方法、並びにコンピュータ・プログラム
JP2008276561A (ja) 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
JP4985096B2 (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
JP2004334382A (ja) 構造化文書要約装置、プログラムおよび記録媒体
Kim et al. Annotated Bibliographical Reference Corpora in Digital Humanities.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130326

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130723

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130924

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20131105

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150528

R150 Certificate of patent or registration of utility model

Ref document number: 5757551

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees