JP2011129006A - 意味分類付与装置、意味分類付与方法、意味分類付与プログラム - Google Patents
意味分類付与装置、意味分類付与方法、意味分類付与プログラム Download PDFInfo
- Publication number
- JP2011129006A JP2011129006A JP2009288603A JP2009288603A JP2011129006A JP 2011129006 A JP2011129006 A JP 2011129006A JP 2009288603 A JP2009288603 A JP 2009288603A JP 2009288603 A JP2009288603 A JP 2009288603A JP 2011129006 A JP2011129006 A JP 2011129006A
- Authority
- JP
- Japan
- Prior art keywords
- semantic classification
- word
- semantic
- classification
- assigning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】特徴重みテーブル3は、あらかじめテキストの特徴と意味分類との間の関連性を示す特徴重みとして、語句の後続機能表現と該後続機能表現の係る語句との意味分類の異同を特徴とする重みを保持する。スコア算出部4は、入力部2で受け付けたテキスト中の注目単語の特徴をキーとして前記テーブル3を探索し、該単語に付与する意味分類タグ候補とスコアを算出する。意味分類付与手段5は、意味分類タグ候補の系列のうちスコア総和が最大となる系列を選択し、入力テキスト中の各単語に該意味分類タグを付与した意味分類付与結果を出力する。
【選択図】図1
Description
具体的には、入力テキスト中の各単語に対して、前後数単語の単語および品詞、単語単位の意味分類、係り受け状態などに注目し、それらの特徴と名詞句の意味分類との間の関連性の高さを示す予め用意された重みを用い、その重みの合計スコアが最も高くなるような名詞句および名詞句に対する意味分類の系列の付与を行っていた。
図1に基づき本発明の実施形態に係る意味分類付与装置を説明する。ここでは自然言語で記述されたテキストに対して、該テキスト中の名詞句の意味分類を自動的に付与する事例を説明する。この意味分類付与装置1は、コンピュータにより構成され、通常のコンピュータのハードウェアリソース、例えばCPU,メモリ(RAM),ハードディスドライブ装置,入出力デバイスなどを備える。
以下、図3に基づき前記テーブル3の保持データを利用し、入力テキスト中の名詞句に意味分類を自動的に付与する処理ステップを説明する。
まず、末尾の単語「。」に注目する。表2の構文解析結果によれば、単語「。」の品詞は「記号−句点」と示されている。表1の前記テーブル3を参照すると、単語「。」を特徴とするルールは存在しないものの、位置情報「0」(自分自身の単語)かつ特徴「品詞=記号−句点」を示すルールM(13行目)のみが該当する。したがって、末尾の単語「。」には、意味分類タグ「O」を候補とするスコア「10」と、それ以外の意味分類タグを候補とするスコア「0」とが付与される。
つぎに末尾から2番目の単語「登場」に注目する。表2の構文解析結果によれば、単語「登場」の品詞は「名詞−サ変接続」と示されている。表1の前記テーブル3を参照すると、位置情報「0」(自分自身の単語)かつ特徴「単語=登場」を示すルールL(12行目)のみが該当する。したがって、末尾から2番目の単語「登場」は、意味分類タグ「E−行為」を候補とするスコア「8」と、それ以外の意味分類タグを候補とするスコア「0」が付与される。
つぎに末尾から3番目の単語「が」に注目する。表2の構文解析結果によれば、単語「が」の品詞は「助詞−格助詞−一般」と示されている。表1の前記テーブル3を参照すると、単語「が」を特徴とするルールは存在しないものの、位置情報「0」(自分自身の単語)かつ特徴「品詞=助詞−格助詞−一般」を示すルールJ(10行目)のみが該当する。したがって、末尾から3番目の単語「が」は、意味分類タグ「O」を候補とするスコア「10」と、それ以外の意味分離タグを候補とするスコア「0」とが付与される。
つぎに末尾から4番目の単語「製品」に注目する。表2の構文解析結果によれば、単語「製品」の品詞は「名詞−一般」と示されている。表1の前記テーブル3を参照すると、位置情報「0」(自分自身の単語)かつ特徴「単語=製品」を示すルールH(8行目)のみが該当する。したがって、末尾から4番目の単語「製品」は、意味分類タグ「E−具体物」を候補とするスコア「5」と、それ以外の意味分類タグを候補とするスコア「0」とが付与される。
つぎに末尾から5番目の単語「新」に注目する。表2の構文解析結果によれば、単語「新」の品詞は「接頭詞−名詞接続」と示されている。表1の前記テーブル中には、単語「新」あるいは品詞「接頭詞−名詞接続」のルールは存在しないものの、ルールG(7行目)には注目単語から1語後の単語が「製品」であるときのルールが示されている。したがって、末尾から5番目の単語「新」は、ルールGのみが該当し、意味分類タグ「I−具体物」を候補とするスコア「5」と、それ以外の意味分類タグを候補とするスコア「0」とが付与される。
つぎに末尾から6番目の単語「する」に注目する。表2の構文解析結果によれば、単語「する」の品詞は「動詞−自立」と示されている。表1の前記テーブル3を参照すると、単語「する」を特徴とするルールは存在しないものの、位置情報「0」(自分自身の単語)かつ特徴「品詞=動詞−自立」を示すルールK(11行目)のみが該当する。したがって、末尾から6番目の単語「する」は、意味分類タグ「O」を候補とするスコア「10」と、それ以外の意味分類タグを候補とするスコア「0」とが付与される。
つぎに末尾から7番目の単語「と」に注目する。表2の構文解析結果によれば、単語「と」の品詞は「助詞−格助詞−一般」と示されている。表1の前記テーブル3を参照すると、単語「と」を特徴とするルールは存在しないものの、位置情報「0」(自分自身の単語)かつ特徴「品詞=助詞−格助詞−一般」を示すルールJ(10行目)のみが該当する。したがって、末尾から7番目の単語「と」は、意味分類タグ「O」を候補とするスコアを「10」と、それ以外の意味分類タグを候補とするスコア「0」とが付与される。
つぎに末尾から8番目の単語「はじめ」に注目する。表2の構文解析結果によれば、単語「はじめ」の品詞は「名詞−副詞可能」と示されている。表1の前記テーブル3を参照すると、位置情報「0」(自分自身の単語)かつ特徴「単語=はじめ」を示すルールE(5行目).ルールI(9行目)が該当する。したがって、末尾から8番目の単語「はじめ」は、意味分類タグ「E−抽象的関係」を候補とするスコア「5」と、意味分類タグ「I−抽象的関係」を候補とするスコアを「2」と、それ以外の意味分類タグを候補とするスコアを「0」とが付与される。
つぎに末尾から9番目の単語「を」に注目する。表2の構文解析結果によれば、単語「を」の品詞は「助詞−格助詞−一般」と示されている。表1の前記テーブル3を参照すると、単語「を」を特徴とするルールは存在しないが、位置情報「0」(自分自身の単語)かつ特徴「品詞=助詞−格助詞−一般」を示すルールJ(10行目)のみが該当する。したがって、末尾から9番目の単語「を」は、意味分類タグ「O」を候補とするスコアを「10」と、それ以外の意味分類タグを候補とするスコア「0」とが付与される。
つぎに末尾から10番目の単語「シリーズ」に注目する。表2の構文解析結果によれば、単語「シリーズ」の品詞は「名詞−一般」と示されている。表1の前記テーブル3中には、単語「シリーズ」を特徴とするルールあるいは品詞「名詞−一般」を特徴とするルールは存在しない。もっとも、この単語の後続機能表現は「をはじめとする」であるから、ルールN(14行目)またはルールO(第15行目)が該当する可能性がある。
つぎに末尾から11番目の単語「A」に注目する。表2の構文解析結果によれば、単語「A」の品詞は「記号−アルファベット」と示されている。表1の前記テーブル3を参照すると、単語「A」を特徴とするルールは存在しないものの、位置情報「0」(自分自身の単語)かつ特徴「記号−アルファベット」を示すルールF(6行目)が該当する。また、表2の構文解析結果によれば、単語「A」の一つ前に存在する単語「3」の品詞は「名詞−数」と示されているため、表1の前記テーブル3中のルールA(1行目)およびルールB(2行目)にも該当する。したがって、単語「A」の意味分類タグは、
・意味分類タグ「O」を候補とするスコア「3+3=6」
・意味分類タグ「E−系・類」を候補とするスコア「1+0=1」
・それ以外の意味分類タグを候補とするスコア「0」
となる。
つぎに末尾から12番目の単語「3」に注目する。表2の構文解析結果によれば、単語「3」の品詞は「名詞−数」と示されている。表1の前記テーブル3を参照すると、単語「3」を特徴とするルールは存在しないものの、位置情報「0」(自分自身の単語)かつ特徴「品詞=名詞−数」を示すルールC(3行目)およびルールD(4行目)が該当する。また、表2の構文解析結果によれば、単語「3」の一つ前に存在する単語「0」の品詞は「名詞−数」と示されているため、表1の前記テーブル3中のルールA(1行目)およびルールB(2行目)にも該当する。したがって、単語「3」の意味分類タグは、
・意味分類タグ「O」を候補とするスコア「3+4=7」
・意味分類タグ「E−系・類」を候補とするスコア「1+0=1」
・意味分類タグ「E−数量」を候補とするスコア「0+5=5」
・それ以外の意味分類タグを候補とするスコア「0」
となる。
最後に、末尾から13番目の単語「0」に注目する。表2の構文解析結果によれば、単語「0」の品詞は「名詞−数」と示されている。表1の特徴重みテーブル3を参照すると、単語「0」を特徴とするルールは存在しないものの、位置情報「0」(自分自身の単語)かつ特徴「品詞=名詞−数」を示すルールC(3行目)およびルールD(4行目)が該当する。したがって、単語「0」の意味分類タグは、
・意味分類タグ「O」を候補とするスコア「4」
・意味分類タグ「E−数量」を候補とするスコア「5」
・それ以外の意味分類タグを候補とするスコア「0」
となる。
「0」→意味分類タグ(I−具体物),スコア「10」
「3」→意味分類タグ(I−具体物),スコア「10」
「A」→意味分類タグ(I−具体物),スコア「10」
「シリーズ」→意味分類タグ(E−具体物),スコア「10」
「を」→意味分類タグ(O),スコア「10」
「はじめ」→意味分類タグ(E−抽象的関係),スコア「5」
「と」→意味分類タグ(O),スコア「10」
「する」→意味分類タグ(O),スコア「10」
「新」→意味分類タグ(I−具体物),スコア「5」
「製品」→意味分類タグ(E−具体物),スコア5
「が」→意味分類タグ(O),スコア「10」
「登場」→意味分類タグ(E−行為),スコア「8」
「。」→意味分類タグ(O),スコア「10」
となる。この意味分類タグの系列は、合計スコア「10+10+10+10+10+5+10+10+5+5+10+8+10=113」であり、他の意味分類タグの系列、例えば次の比較例などよりも合計スコアが大きいため、意味分類付与手段3により最大スコアとして選択される。なお、表4の意味分類付与結果は、表3と同様に前記メモリに一時記憶してもよく、あるいは前記ハードディスクドライブ装置に保存してもよい。
比較例は、「シリーズ」に意味分類タグ(O)を付与した事例を示している。ここでは、「0」「3」「A」の各単語には、「E−数量」あるいは「O(Other)」の意味分類タグが付与され、その結果、「03Aシリーズ」の名詞句を構成する各単語には、ルールNではなく、ルールOが適用される。この比較例における意味分類タグの系列とスコアは、
「0」→意味分類タグ(E−数量),スコア「5−5=0」
「3」→意味分類タグ(E−数量),スコア「5−5=0」
「A」→意味分類タグ(O),スコア「6−5=1」
「シリーズ」→意味分類タグ(O),スコア「0−5=−5」
「を」→意味分類タグ(O),スコア「10」
「はじめ」→意味分類タグ(E−抽象的関係),スコア「5」
「と」→意味分類タグ(O),スコア「10」
「する」→意味分類タグ(O),スコア「10」
「新」→意味分類タグ(I−具体物),スコア「5」
「製品」→意味分類タグ(E−具体物),スコア「5」
「が」→意味分類タグ(O),スコア「10」
「登場」→意味分類タグ(E−行為),スコア「8」
「。」→意味分類タグ(O),スコア「10」
となる。この意味分類系列は、合計スコア「0+0+1−5+10+5+10+10+5+5+10+8+10=69」であり、表4の意味分類タグの系列よりも合計スコアが小さいため、最大スコアには該当しなく、意味分類付与手段3の選択対象とはならない。
従来の意味分類付与装置は、前記テーブル3にルールN.ルールOの記述されていないため、
「0」→意味分類タグ(E−数量),スコア「5」
「3」→意味分類タグ(E−数量),スコア「5」
「A」→意味分類タグ(O),スコア「6」
「シリーズ」→意味分類タグ(O),スコア「0」
「を」→意味分類タグ(O),スコア「10」
「はじめ」→意味分類タグ(E−抽象的関係),スコア「5」
「と」→意味分類タグ(O),スコア「10」
「する」→意味分類タグ(O),スコア「10」
「新」→意味分類タグ(I−具体物),スコア「5」
「製品」→意味分類タグ(E−具体物),スコア「5」
「が」→意味分類タグ(O),スコア「10」
「登場」→意味分類タグ(E−行為),スコア「8」
「。」→意味分類タグ(O),スコア「10」
を最大スコア「5+5+6+0+10+5+10+10+5+5+10+8+10=84」の意味分類タグの系列として選択し、「03Aシリーズ」に対する名詞句の意味カテゴリが誤って推定されてしまう。
本発明は、前記意味分類付与装置1の各部2〜5の一部もしくは全部として、コンピュータを機能させるプログラムとして構成することもできる。このプログラムによれば、S01〜S03の全ステップあるいは一部のステップをコンピュータに実行させる。
2…入力部
3…特徴重みテーブル(テーブル)
4…スコア算出部
5…意味分類付与部(意味分類付与手段)
Claims (9)
- 入力されたテキスト中における語句に対して、意味分類を付与する意味分類付与装置であって、
テキストの特徴と意味分類との間の関連性を示す特徴重みとして、語句の後続機能表現と該後続機能表現の係る語句とにおける意味分類の異同を保持するテーブルと、
前記テーブルを参照して得られた入力テキストの特徴重みの総和が最大となる意味分類の系列を選択し、該選択結果を入力テキストの意味分類付与結果として提示する意味分類付与手段と、
を備えることを特徴とする意味分類付与装置。 - 前記意味分類付与手段は、入力テキスト中で特定された語句の後続機能表現と該後続機能表現の係る語句との意味分類の異同に応じて、特徴重みの総和が最大となる意味分類の系列を選択する
ことを特徴とする請求項1記載の意味分類付与装置。 - 前記意味分類付与手段は、構文解析手段を通じて構文解析された入力テキストを処理対象とする
ことを特徴とする請求項1または2のいずれか1項に記載の意味分類付与装置。 - 入力テキストに対してテキスト中に含まれる各単語の意味分類を付与する単語意味付与手段をさらに備え、
前記意味分類付与手段は、前記単語意味付与手段を通じて単語意味の付与済みの入力テキストを処理対象とする
ことを特徴とする請求項1〜3のいずれか1項に記載の意味分類付与装置。 - 入力されたテキスト中における語句に対して、意味分類を付与する意味分類付与方法であって、
意味分類付与手段が、テキストの特徴と意味分類との間の関連性を示す特徴重みに語句の後続機能表現と該後続機能表現の係る語句とにおける意味分類の異同を保持するテーブルを参照して得られた入力テキストの特徴重みをもとに、該特徴重みの総和が最大となる意味分類の系列を選択する意味分類選択ステップと、
前記意味分類付与手段が、前記意味分類選択ステップの選択結果を入力テキストの意味分類付与結果として提示する出力ステップと、
を有することを特徴とする意味分類付与方法。 - 前記意味分類選択ステップは、入力テキスト中で特定された語句の後続機能表現と該後続機能表現の係る語句との意味分類の異同に応じて、特徴重みの総和が最大となる意味分類の系列を選択する
ことを特徴とする請求項5記載の意味分類付与方法。 - 前記意味分類選択ステップは、構文解析手段を通じて構文解析済みの入力テキストを処理対象とする
ことを特徴とする請求項5または6のいずれか1項に記載の意味分類付与方法。 - 単語意味付与手段が、入力テキストに対してテキスト中に含まれる各単語の意味分類を付与する単語分類付与ステップをさらに有し、
前記意味分類選択ステップは、前記単語意味付与ステップを通じて単語意味の付与済みの入力テキストを処理対象とする
ことを特徴とする請求項5〜7のいずれか1項に記載の意味分類付与方法。 - 請求項1〜4のいずれか1項に記載の意味分類付与装置を構成する各手段としてコンピュータを機能させる意味分類付与プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009288603A JP5757551B2 (ja) | 2009-12-21 | 2009-12-21 | 意味分類付与装置、意味分類付与方法、意味分類付与プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009288603A JP5757551B2 (ja) | 2009-12-21 | 2009-12-21 | 意味分類付与装置、意味分類付与方法、意味分類付与プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011129006A true JP2011129006A (ja) | 2011-06-30 |
JP5757551B2 JP5757551B2 (ja) | 2015-07-29 |
Family
ID=44291510
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009288603A Expired - Fee Related JP5757551B2 (ja) | 2009-12-21 | 2009-12-21 | 意味分類付与装置、意味分類付与方法、意味分類付与プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5757551B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929858A (zh) * | 2012-09-25 | 2013-02-13 | 太原理工大学 | 一种基于词缀的用于对未知词进行语义分类的方法 |
US8989483B2 (en) * | 2011-06-10 | 2015-03-24 | Sri International | Method and apparatus for inferring the geographic location of captured scene depictions |
CN109740164A (zh) * | 2019-01-09 | 2019-05-10 | 国网浙江省电力有限公司舟山供电公司 | 基于深度语义匹配的电力缺陷等级识别方法 |
US11698943B2 (en) | 2019-05-21 | 2023-07-11 | Nippon Telegraph And Telephone Corporation | Mapping support apparatus, mapping support method and program |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008242626A (ja) * | 2007-03-26 | 2008-10-09 | Mitsubishi Electric Corp | 用語登録装置 |
-
2009
- 2009-12-21 JP JP2009288603A patent/JP5757551B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008242626A (ja) * | 2007-03-26 | 2008-10-09 | Mitsubishi Electric Corp | 用語登録装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8989483B2 (en) * | 2011-06-10 | 2015-03-24 | Sri International | Method and apparatus for inferring the geographic location of captured scene depictions |
CN102929858A (zh) * | 2012-09-25 | 2013-02-13 | 太原理工大学 | 一种基于词缀的用于对未知词进行语义分类的方法 |
CN102929858B (zh) * | 2012-09-25 | 2015-09-30 | 太原理工大学 | 一种基于词缀的用于对未知词进行语义分类的方法 |
CN109740164A (zh) * | 2019-01-09 | 2019-05-10 | 国网浙江省电力有限公司舟山供电公司 | 基于深度语义匹配的电力缺陷等级识别方法 |
CN109740164B (zh) * | 2019-01-09 | 2023-08-15 | 国网浙江省电力有限公司舟山供电公司 | 基于深度语义匹配的电力缺陷等级识别方法 |
US11698943B2 (en) | 2019-05-21 | 2023-07-11 | Nippon Telegraph And Telephone Corporation | Mapping support apparatus, mapping support method and program |
Also Published As
Publication number | Publication date |
---|---|
JP5757551B2 (ja) | 2015-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104252533B (zh) | 搜索方法和搜索装置 | |
Bhat et al. | Iiit-h system submission for fire2014 shared task on transliterated search | |
US9075793B2 (en) | System and method of providing autocomplete recommended word which interoperate with plurality of languages | |
TWI512507B (zh) | A method and apparatus for providing multi-granularity word segmentation results | |
WO2005059771A1 (ja) | 対訳判断装置、方法及びプログラム | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
JP2007087397A (ja) | 形態素解析プログラム、補正プログラム、形態素解析装置、補正装置、形態素解析方法および補正方法 | |
Tasharofi et al. | Evaluation of statistical part of speech tagging of Persian text | |
JP5757551B2 (ja) | 意味分類付与装置、意味分類付与方法、意味分類付与プログラム | |
JP2006065387A (ja) | テキスト文検索装置、テキスト文検索方法、及びテキスト文検索プログラム | |
WO2010109594A1 (ja) | 文書検索装置、文書検索システム、文書検索プログラム、および文書検索方法 | |
CN111199151A (zh) | 数据处理方法、及数据处理装置 | |
JP2006227823A (ja) | 情報処理装置及びその制御方法 | |
Etxeberria et al. | Weighted finite-state transducers for normalization of historical texts | |
JP2018072979A (ja) | 対訳文抽出装置、対訳文抽出方法およびプログラム | |
JP2007164635A (ja) | 同義語彙獲得方法及び装置及びプログラム | |
US8977538B2 (en) | Constructing and analyzing a word graph | |
JP2010092169A (ja) | 情報処理装置及びプログラム | |
JP5085584B2 (ja) | 記事特徴語抽出装置、記事特徴語抽出方法及びプログラム | |
Rodrigues | Processing highly variant language using incremental model selection | |
JP2005202924A (ja) | 対訳判断装置、方法及びプログラム | |
WO2020157887A1 (ja) | 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム | |
JP5506482B2 (ja) | 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム | |
JP2009140113A (ja) | 辞書編集装置、および辞書編集方法、並びにコンピュータ・プログラム | |
JP2008276561A (ja) | 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130326 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130527 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130723 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130924 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20131105 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150507 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150528 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5757551 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |