JP5291351B2 - 評価表現抽出方法、評価表現抽出装置、および、評価表現抽出プログラム - Google Patents
評価表現抽出方法、評価表現抽出装置、および、評価表現抽出プログラム Download PDFInfo
- Publication number
- JP5291351B2 JP5291351B2 JP2008022961A JP2008022961A JP5291351B2 JP 5291351 B2 JP5291351 B2 JP 5291351B2 JP 2008022961 A JP2008022961 A JP 2008022961A JP 2008022961 A JP2008022961 A JP 2008022961A JP 5291351 B2 JP5291351 B2 JP 5291351B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- evaluation
- data
- morpheme
- dependency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000014509 gene expression Effects 0.000 title claims description 213
- 238000011156 evaluation Methods 0.000 title claims description 157
- 238000000605 extraction Methods 0.000 title claims description 91
- 238000002372 labelling Methods 0.000 claims description 71
- 230000000877 morphologic effect Effects 0.000 claims description 20
- 238000005520 cutting process Methods 0.000 claims description 17
- 238000000034 method Methods 0.000 claims description 16
- 238000013498 data listing Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 3
- 238000003860 storage Methods 0.000 description 30
- 241000220317 Rosa Species 0.000 description 19
- 238000012706 support-vector machine Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 17
- 239000008239 natural water Substances 0.000 description 16
- 238000010801 machine learning Methods 0.000 description 15
- 230000011218 segmentation Effects 0.000 description 10
- 238000009825 accumulation Methods 0.000 description 6
- 239000002245 particle Substances 0.000 description 6
- 230000001419 dependent effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 235000005979 Citrus limon Nutrition 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 244000248349 Citrus limon Species 0.000 description 1
- 244000131522 Citrus pyriformis Species 0.000 description 1
- 241000109329 Rosa xanthina Species 0.000 description 1
- 235000004789 Rosa xanthina Nutrition 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005554 pickling Methods 0.000 description 1
- 230000000699 topical effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
(1)解析対象文の形態素解析
(2)文節切り
(3)係り受け解析
(4)評価表現抽出
(1)の形態素解析では、辞書情報を用いて解析対象文を単語(形態素)の単位に分解する。分解された形態素には品詞情報等が付加される。
また、非特許文献1には、二つ以上の語から構成され全体として一つの機能的な意味をもつ機能表現を、ラベル付けすることで識別し、機能表現を考慮した係り受け解析を行う技術の開示がある。
(a)固有名詞や慣用句等の固有表現であっても、途中に助詞や名詞を含んでいる場合には、助詞の後や名詞の前で別の文節に分解されてしまうことになる。例えば、「夕摘みバラ天然水」が一かたまりの固有名詞(商品名)であるとして、形態素列「夕」「摘み」「バラ」「天然水」のそれぞれがそのまま文節と認識されてしまうことになる。
(b)その結果、続く(3)の係り受け解析を経て(4)の評価表現抽出を行った場合に、誤った評価表現を抽出してしまう。上記の例では商品名「夕摘みバラ天然水」が対象語あるいは属性語として抽出されなくなってしまう。
(c)辞書情報として上記の商品名「夕摘みバラ天然水」のようなものまでを事前に登録しておけば、これを一つの名詞として形態素解析が行われるため、その後に誤った文節切りが行われることを防ぐことができる。しかし、これらの固有表現は現存するものだけでも膨大な数になるとともに、日々新たなものが出現しており、事前に辞書情報として登録することは困難である。
図6は上記の実施形態における評価表現抽出部131の処理例を示すフローチャートである。
1.対象語を固定して属性語と評価語を抽出
2.属性語を固定して対象語と評価語を抽出
3.評価語を固定して対象語と属性語を抽出
を試みる。この際、固有表現ラベルが付されている場合には、その固有表現ラベルの識別子(OBJ、SCP、OPI)により、対象語(OBJ)、属性語(SCP)、評価語(OPI)のいずれであるかを考慮し、優先的に抽出を行う。
101 学習モデル生成部
102 形態素解析部
103 固有表現ラベル付与部
104 固有表現ラベル付きコーパス蓄積部
105 機械学習部
106 文節ラベル付与部
107 文節ラベル付きコーパス蓄積部
108 機械学習部
109 係り受けラベル付与部
110 係り受けラベル付きコーパス蓄積部
111 機械学習部
121 固有表現ラベル付けモデル蓄積部
122 文節ラベル付けモデル蓄積部
123 係り受けラベル付けモデル蓄積部
131 評価表現抽出部
132 形態素解析部
133 固有表現抽出部
134 文節切り部
135 係り受け解析部
136 評価表現抽出部
Claims (4)
- 評価表現抽出装置が、入力文テキストデータに対して形態素解析を行い、形態素を列記した形態素解析結果データを生成する形態素解析工程と、
前記評価表現抽出装置が、前記形態素解析結果データに対して、固有表現に含まれる形態素を識別する、評価表現を構成する対象語、属性語もしくは評価語のいずれかであることを示す識別子を含む固有表現ラベルデータを付与して固有表現抽出結果データを生成する固有表現抽出工程と、
前記評価表現抽出装置が、前記固有表現抽出結果データに対して、文節に含まれる形態素を識別する文節ラベルデータを付与して文節切り結果データを生成する文節切り工程と、
前記評価表現抽出装置が、前記文節切り結果データに対して、文節の係り受け関係を識別する係り受けラベルデータを付与して係り受け解析結果データを生成する係り受け解析工程と、
前記評価表現抽出装置が、前記係り受け解析結果データから、前記識別子を含む場合には当該識別子の示す対象語、属性語および評価語の別を優先し、前記識別子を含まない場合には名詞の形態素を対象語および属性語とするとともに形容詞の形態素を評価語とし、対象語を固定して当該対象語が係る形態素を属性語もしくは評価語、当該属性語が係る形態素を評価語として抽出し、属性語を固定して当該属性語に係る形態素を対象語、当該属性語が係る形態素を評価語として抽出し、評価語を固定して当該評価語に係る形態素を属性語もしくは対象語、当該属性語に係る形態素を対象語として抽出することにより、評価表現を構成する対象語、属性語もしくは評価語を抽出する評価表現抽出工程と
を備え、
前記固有表現抽出工程は、SVMで学習を行った固有表現ラベル付けモデルデータを用いて固有表現抽出結果データを生成し、
前記文節切り工程は、SVMで学習を行った文節ラベル付けモデルデータを用いて文節切り結果データを生成し、
前記係り受け解析工程は、SVMで学習を行った係り受けラベル付けモデルデータを用いて係り受け解析結果データを生成する
ことを特徴とする評価表現抽出方法。 - 請求項1に記載の評価表現抽出方法において、
生コーパスデータに対して形態素解析を行い、形態素を列記した学習用形態素解析結果データを生成する工程と、
前記学習用形態素解析結果データに対し、固有表現に含まれる形態素を識別する固有表現ラベルデータを付与して固有表現ラベル付きコーパスデータを生成し、当該固有表現ラベル付きコーパスデータから前記固有表現ラベル付けモデルデータの学習を行う工程と、
前記固有表現ラベル付きコーパスデータに対し、文節に含まれる形態素を識別する文節ラベルデータを付与して文節ラベル付きコーパスデータを生成し、当該文節ラベル付きコーパスデータから前記文節ラベル付けモデルデータの学習を行う工程と、
前記文節ラベル付きコーパスデータに対し、文節の係り受け関係を識別する係り受けラベルデータを付与して係り受けラベル付きコーパスデータを生成し、当該係り受けラベル付きコーパスデータから前記係り受けラベル付けモデルデータの学習を行う工程と
を備えたことを特徴とする評価表現抽出方法。 - 入力文テキストデータに対して形態素解析を行い、形態素を列記した形態素解析結果データを生成する形態素解析手段と、
前記形態素解析結果データに対して、固有表現に含まれる形態素を識別する、評価表現を構成する対象語、属性語もしくは評価語のいずれかであることを示す識別子を含む固有表現ラベルデータを付与して固有表現抽出結果データを生成する固有表現抽出手段と、
前記固有表現抽出結果データに対して、文節に含まれる形態素を識別する文節ラベルデータを付与して文節切り結果データを生成する文節切り手段と、
前記文節切り結果データに対して、文節の係り受け関係を識別する係り受けラベルデータを付与して係り受け解析結果データを生成する係り受け解析手段と、
前記係り受け解析結果データから、前記識別子を含む場合には当該識別子の示す対象語、属性語および評価語の別を優先し、前記識別子を含まない場合には名詞の形態素を対象語および属性語とするとともに形容詞の形態素を評価語とし、対象語を固定して当該対象語が係る形態素を属性語もしくは評価語、当該属性語が係る形態素を評価語として抽出し、属性語を固定して当該属性語に係る形態素を対象語、当該属性語が係る形態素を評価語として抽出し、評価語を固定して当該評価語に係る形態素を属性語もしくは対象語、当該属性語に係る形態素を対象語として抽出することにより、評価表現を構成する対象語、属性語もしくは評価語を抽出する評価表現抽出手段と
を備え、
前記固有表現抽出手段は、SVMで学習を行った固有表現ラベル付けモデルデータを用いて固有表現抽出結果データを生成し、
前記文節切り手段は、SVMで学習を行った文節ラベル付けモデルデータを用いて文節切り結果データを生成し、
前記係り受け解析手段は、SVMで学習を行った係り受けラベル付けモデルデータを用いて係り受け解析結果データを生成する
ことを特徴とする評価表現抽出装置。 - コンピュータを、
入力文テキストデータに対して形態素解析を行い、形態素を列記した形態素解析結果データを生成する形態素解析手段、
前記形態素解析結果データに対して、固有表現に含まれる形態素を識別する、評価表現を構成する対象語、属性語もしくは評価語のいずれかであることを示す識別子を含む固有表現ラベルデータを付与して固有表現抽出結果データを生成する固有表現抽出手段、
前記固有表現抽出結果データに対して、文節に含まれる形態素を識別する文節ラベルデータを付与して文節切り結果データを生成する文節切り手段、
前記文節切り結果データに対して、文節の係り受け関係を識別する係り受けラベルデータを付与して係り受け解析結果データを生成する係り受け解析手段、
前記係り受け解析結果データから、前記識別子を含む場合には当該識別子の示す対象語、属性語および評価語の別を優先し、前記識別子を含まない場合には名詞の形態素を対象語および属性語とするとともに形容詞の形態素を評価語とし、対象語を固定して当該対象語が係る形態素を属性語もしくは評価語、当該属性語が係る形態素を評価語として抽出し、属性語を固定して当該属性語に係る形態素を対象語、当該属性語が係る形態素を評価語として抽出し、評価語を固定して当該評価語に係る形態素を属性語もしくは対象語、当該属性語に係る形態素を対象語として抽出することにより、評価表現を構成する対象語、属性語もしくは評価語を抽出する評価表現抽出手段
として機能させ、
前記固有表現抽出手段は、SVMで学習を行った固有表現ラベル付けモデルデータを用いて固有表現抽出結果データを生成し、
前記文節切り手段は、SVMで学習を行った文節ラベル付けモデルデータを用いて文節切り結果データを生成し、
前記係り受け解析手段は、SVMで学習を行った係り受けラベル付けモデルデータを用いて係り受け解析結果データを生成する
評価表現抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008022961A JP5291351B2 (ja) | 2008-02-01 | 2008-02-01 | 評価表現抽出方法、評価表現抽出装置、および、評価表現抽出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008022961A JP5291351B2 (ja) | 2008-02-01 | 2008-02-01 | 評価表現抽出方法、評価表現抽出装置、および、評価表現抽出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009187048A JP2009187048A (ja) | 2009-08-20 |
JP5291351B2 true JP5291351B2 (ja) | 2013-09-18 |
Family
ID=41070273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008022961A Active JP5291351B2 (ja) | 2008-02-01 | 2008-02-01 | 評価表現抽出方法、評価表現抽出装置、および、評価表現抽出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5291351B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI690036B (zh) | 2017-09-28 | 2020-04-01 | 日商新川股份有限公司 | 封裝裝置以及半導體裝置的製造方法 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5729633B2 (ja) * | 2010-12-13 | 2015-06-03 | 国立研究開発法人情報通信研究機構 | 端末装置、表現出力方法、およびプログラム |
JP5908855B2 (ja) * | 2013-02-21 | 2016-04-26 | 日本電信電話株式会社 | 3次元オブジェクト生成装置、方法、及びプログラム |
US9436676B1 (en) | 2014-11-25 | 2016-09-06 | Truthful Speaking, Inc. | Written word refinement system and method |
CN107729317B (zh) * | 2017-10-13 | 2021-07-30 | 北京三快在线科技有限公司 | 评价标签的确定方法、装置及服务器 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4361299B2 (ja) * | 2003-03-20 | 2009-11-11 | 株式会社リコー | 評価表現抽出装置、プログラム、及び記憶媒体 |
JP3899414B2 (ja) * | 2004-03-31 | 2007-03-28 | 独立行政法人情報通信研究機構 | 教師データ作成装置およびプログラム、ならびに言語解析処理装置およびプログラム |
JP4576397B2 (ja) * | 2006-11-08 | 2010-11-04 | 日本電信電話株式会社 | 評価情報抽出装置、評価情報抽出方法およびそのプログラム |
-
2008
- 2008-02-01 JP JP2008022961A patent/JP5291351B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI690036B (zh) | 2017-09-28 | 2020-04-01 | 日商新川股份有限公司 | 封裝裝置以及半導體裝置的製造方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2009187048A (ja) | 2009-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Petrov et al. | Overview of the 2012 shared task on parsing the web | |
US8010539B2 (en) | Phrase based snippet generation | |
WO2018232290A1 (en) | Systems and methods for automatically generating content summaries for topics | |
US20040073874A1 (en) | Device for retrieving data from a knowledge-based text | |
US20040236566A1 (en) | System and method for identifying special word usage in a document | |
Sawalha et al. | SALMA: standard Arabic language morphological analysis | |
Richter et al. | Korektor–a system for contextual spell-checking and diacritics completion | |
JP5291351B2 (ja) | 評価表現抽出方法、評価表現抽出装置、および、評価表現抽出プログラム | |
JP5564705B2 (ja) | 文構造解析装置、文構造解析方法および文構造解析プログラム | |
Mataoui et al. | A new syntax-based aspect detection approach for sentiment analysis in Arabic reviews | |
Singh et al. | Web based manipuri corpus for multiword ner and reduplicated mwes identification using svm | |
Patil et al. | Automatic text summarizer | |
Yang et al. | Ontology generation for large email collections. | |
Pham et al. | Information extraction for Vietnamese real estate advertisements | |
JP2010198278A (ja) | 評判情報分類装置、評判情報分類方法及びプログラム | |
JP2003167898A (ja) | 情報検索システム | |
JP5085584B2 (ja) | 記事特徴語抽出装置、記事特徴語抽出方法及びプログラム | |
JP4478042B2 (ja) | 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置 | |
Salah et al. | Generating domain-specific sentiment lexicons for opinion mining | |
JP6375367B2 (ja) | 反論生成方法,反論生成システム | |
JP2002278982A (ja) | 情報抽出方法および情報検索方法 | |
JP5506482B2 (ja) | 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム | |
KR101092355B1 (ko) | 대용어 복원 방법 | |
JPH11259524A (ja) | 情報検索システム、情報検索システムにおける情報処理方法および記録媒体 | |
JP2007241900A (ja) | ネーミングシステム及びネーミング自動化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090624 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120203 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120413 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121113 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130528 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130607 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5291351 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |