JP5291351B2 - 評価表現抽出方法、評価表現抽出装置、および、評価表現抽出プログラム - Google Patents

評価表現抽出方法、評価表現抽出装置、および、評価表現抽出プログラム Download PDF

Info

Publication number
JP5291351B2
JP5291351B2 JP2008022961A JP2008022961A JP5291351B2 JP 5291351 B2 JP5291351 B2 JP 5291351B2 JP 2008022961 A JP2008022961 A JP 2008022961A JP 2008022961 A JP2008022961 A JP 2008022961A JP 5291351 B2 JP5291351 B2 JP 5291351B2
Authority
JP
Japan
Prior art keywords
word
evaluation
data
morpheme
dependency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008022961A
Other languages
English (en)
Other versions
JP2009187048A (ja
Inventor
慶 内海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2008022961A priority Critical patent/JP5291351B2/ja
Publication of JP2009187048A publication Critical patent/JP2009187048A/ja
Application granted granted Critical
Publication of JP5291351B2 publication Critical patent/JP5291351B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、自然言語文の解析技術に関する。
インターネット上には膨大な量の情報が存在しており、その中から有用な情報を迅速に取得することが求められている。
個人が運用するブログ(日記風のサイト)では、話題の店舗や商品等を実際に利用したことに基づく率直な意見(評価)の書き込みが含まれることが多く、そのような評価(評判)を分析して検索する「評判検索」と呼ばれるサービスも既に提供されている(例えば、「Yahoo!ブログ検索 ヘルプ - 評判を分析して検索する(評判検索) 」(http://help.yahoo.co.jp/help/jp/blog-search/blog-search-37.html)等を参照。)。
このようなブログ等の書き込み内容(自然言語文)から評価表現を抽出する場合、一般的には次のような手順で処理が行われる。
(1)解析対象文の形態素解析
(2)文節切り
(3)係り受け解析
(4)評価表現抽出
(1)の形態素解析では、辞書情報を用いて解析対象文を単語(形態素)の単位に分解する。分解された形態素には品詞情報等が付加される。
(2)の文節切りでは、分解された形態素列に対し、助詞の後や名詞の前等に着目して文節を単位に形態素をまとめる。
(3)の係り受け解析では、文節の性質(文節末尾の助詞による格等)等に着目して文節間の係り受け関係を特定する。
(4)の評価表現抽出では、特定された文節間の係り受け関係から、対象語、属性語、評価語を抽出する。例えば、解析対象文「○○社はエンジンがいい。」の場合、文節「○○社は」と文節「エンジンが」は、文節「いい」に係ることから、各文節から不要な助詞等を除去した上で、対象語は「○○社」、属性語は「エンジン」、評価語は「いい」となる。
一方、特許文献1には、アンケート結果等における回答者が寄せる自由記述部分から、評価対象とその評価対象に対応する評価表現の対を抽出する技術の開示がある。この特許文献1では、テキストに対して形態素解析処理と文節係り受け解析処理とを行なった言語解析結果に基づき、テキストを構成単語の表記、係り受け情報を含む文節情報を保持したデータ構造に変換し、係り受け関係にあるとされた文節対から、事物に対する評価に言及する文節対を選別し、選別された文節対から評価対象とこの評価対象に対応する評価表現とを特定している。
また、非特許文献1には、二つ以上の語から構成され全体として一つの機能的な意味をもつ機能表現を、ラベル付けすることで識別し、機能表現を考慮した係り受け解析を行う技術の開示がある。
特開2004−287683号公報 「日本語機能表現の自動検出と統計的係り受け解析への応用」(自然言語処理 Vol.14 No.15)
上述した一般的な評価表現の抽出手法においては、特に(2)の文節切りにおいて、分解された形態素列に対し助詞の後や名詞の前等に着目して文節を単位に形態素をまとめるようにしていたため、辞書情報にない固有名詞や慣用句等の固有表現について、以下のような問題が発生していた。
(a)固有名詞や慣用句等の固有表現であっても、途中に助詞や名詞を含んでいる場合には、助詞の後や名詞の前で別の文節に分解されてしまうことになる。例えば、「夕摘みバラ天然水」が一かたまりの固有名詞(商品名)であるとして、形態素列「夕」「摘み」「バラ」「天然水」のそれぞれがそのまま文節と認識されてしまうことになる。
(b)その結果、続く(3)の係り受け解析を経て(4)の評価表現抽出を行った場合に、誤った評価表現を抽出してしまう。上記の例では商品名「夕摘みバラ天然水」が対象語あるいは属性語として抽出されなくなってしまう。
(c)辞書情報として上記の商品名「夕摘みバラ天然水」のようなものまでを事前に登録しておけば、これを一つの名詞として形態素解析が行われるため、その後に誤った文節切りが行われることを防ぐことができる。しかし、これらの固有表現は現存するものだけでも膨大な数になるとともに、日々新たなものが出現しており、事前に辞書情報として登録することは困難である。
一方、上述した特許文献1と非特許文献1は、固有名詞や慣用句等の固有表現が複数の文節に分解されてしまうという状況は考慮しておらず、上記の問題点を解決できるものではない。
本発明は上記の従来の問題点に鑑み提案されたものであり、その目的とするところは、固有名詞や慣用句等の固有表現を識別した上で正確に文節切りすることができ、精度よく評価表現を抽出することのできる評価表現抽出方法、評価表現抽出装置、および、評価表現抽出プログラムを提供することにある。
上記の課題を解決するため、本発明にあっては、請求項1に記載されるように、評価表現抽出装置が、入力文テキストデータに対して形態素解析を行い、形態素を列記した形態素解析結果データを生成する形態素解析工程と、前記評価表現抽出装置が、前記形態素解析結果データに対して、固有表現に含まれる形態素を識別する、評価表現を構成する対象語、属性語もしくは評価語のいずれかであることを示す識別子を含む固有表現ラベルデータを付与して固有表現抽出結果データを生成する固有表現抽出工程と、前記評価表現抽出装置が、前記固有表現抽出結果データに対して、文節に含まれる形態素を識別する文節ラベルデータを付与して文節切り結果データを生成する文節切り工程と、前記評価表現抽出装置が、前記文節切り結果データに対して、文節の係り受け関係を識別する係り受けラベルデータを付与して係り受け解析結果データを生成する係り受け解析工程と、前記評価表現抽出装置が、前記係り受け解析結果データから、前記識別子を含む場合には当該識別子の示す対象語、属性語および評価語の別を優先し、前記識別子を含まない場合には名詞の形態素を対象語および属性語とするとともに形容詞の形態素を評価語とし、対象語を固定して当該対象語が係る形態素を属性語もしくは評価語、当該属性語が係る形態素を評価語として抽出し、属性語を固定して当該属性語に係る形態素を対象語、当該属性語が係る形態素を評価語として抽出し、評価語を固定して当該評価語に係る形態素を属性語もしくは対象語、当該属性語に係る形態素を対象語として抽出することにより、評価表現を構成する対象語、属性語もしくは評価語を抽出する評価表現抽出工程とを備え、前記固有表現抽出工程は、SVMで学習を行った固有表現ラベル付けモデルデータを用いて固有表現抽出結果データを生成し、前記文節切り工程は、SVMで学習を行った文節ラベル付けモデルデータを用いて文節切り結果データを生成し、前記係り受け解析工程は、SVMで学習を行った係り受けラベル付けモデルデータを用いて係り受け解析結果データを生成する評価表現抽出方法を要旨としている。
また、請求項に記載されるように、請求項に記載の評価表現抽出方法において、生コーパスデータに対して形態素解析を行い、形態素を列記した学習用形態素解析結果データを生成する工程と、前記学習用形態素解析結果データに対し、固有表現に含まれる形態素を識別する固有表現ラベルデータを付与して固有表現ラベル付きコーパスデータを生成し、当該固有表現ラベル付きコーパスデータから前記固有表現ラベル付けモデルデータの学習を行う工程と、前記固有表現ラベル付きコーパスデータに対し、文節に含まれる形態素を識別する文節ラベルデータを付与して文節ラベル付きコーパスデータを生成し、当該文節ラベル付きコーパスデータから前記文節ラベル付けモデルデータの学習を行う工程と、前記文節ラベル付きコーパスデータに対し、文節の係り受け関係を識別する係り受けラベルデータを付与して係り受けラベル付きコーパスデータを生成し、当該係り受けラベル付きコーパスデータから前記係り受けラベル付けモデルデータの学習を行う工程とを備えるようにすることができる。
また、請求項に記載されるように、入力文テキストデータに対して形態素解析を行い、形態素を列記した形態素解析結果データを生成する形態素解析手段と、前記形態素解析結果データに対して、固有表現に含まれる形態素を識別する、評価表現を構成する対象語、属性語もしくは評価語のいずれかであることを示す識別子を含む固有表現ラベルデータを付与して固有表現抽出結果データを生成する固有表現抽出手段と、前記固有表現抽出結果データに対して、文節に含まれる形態素を識別する文節ラベルデータを付与して文節切り結果データを生成する文節切り手段と、前記文節切り結果データに対して、文節の係り受け関係を識別する係り受けラベルデータを付与して係り受け解析結果データを生成する係り受け解析手段と、前記係り受け解析結果データから、前記識別子を含む場合には当該識別子の示す対象語、属性語および評価語の別を優先し、前記識別子を含まない場合には名詞の形態素を対象語および属性語とするとともに形容詞の形態素を評価語とし、対象語を固定して当該対象語が係る形態素を属性語もしくは評価語、当該属性語が係る形態素を評価語として抽出し、属性語を固定して当該属性語に係る形態素を対象語、当該属性語が係る形態素を評価語として抽出し、評価語を固定して当該評価語に係る形態素を属性語もしくは対象語、当該属性語に係る形態素を対象語として抽出することにより、評価表現を構成する対象語、属性語もしくは評価語を抽出する評価表現抽出手段とを備え、前記固有表現抽出手段は、SVMで学習を行った固有表現ラベル付けモデルデータを用いて固有表現抽出結果データを生成し、前記文節切り手段は、SVMで学習を行った文節ラベル付けモデルデータを用いて文節切り結果データを生成し、前記係り受け解析手段は、SVMで学習を行った係り受けラベル付けモデルデータを用いて係り受け解析結果データを生成する評価表現抽出装置として構成することができる。
また、請求項に記載されるように、コンピュータを、入力文テキストデータに対して形態素解析を行い、形態素を列記した形態素解析結果データを生成する形態素解析手段、前記形態素解析結果データに対して、固有表現に含まれる形態素を識別する、評価表現を構成する対象語、属性語もしくは評価語のいずれかであることを示す識別子を含む固有表現ラベルデータを付与して固有表現抽出結果データを生成する固有表現抽出手段、前記固有表現抽出結果データに対して、文節に含まれる形態素を識別する文節ラベルデータを付与して文節切り結果データを生成する文節切り手段、前記文節切り結果データに対して、文節の係り受け関係を識別する係り受けラベルデータを付与して係り受け解析結果データを生成する係り受け解析手段、前記係り受け解析結果データから、前記識別子を含む場合には当該識別子の示す対象語、属性語および評価語の別を優先し、前記識別子を含まない場合には名詞の形態素を対象語および属性語とするとともに形容詞の形態素を評価語とし、対象語を固定して当該対象語が係る形態素を属性語もしくは評価語、当該属性語が係る形態素を評価語として抽出し、属性語を固定して当該属性語に係る形態素を対象語、当該属性語が係る形態素を評価語として抽出し、評価語を固定して当該評価語に係る形態素を属性語もしくは対象語、当該属性語に係る形態素を対象語として抽出することにより、評価表現を構成する対象語、属性語もしくは評価語を抽出する評価表現抽出手段として機能させ、前記固有表現抽出手段は、SVMで学習を行った固有表現ラベル付けモデルデータを用いて固有表現抽出結果データを生成し、前記文節切り手段は、SVMで学習を行った文節ラベル付けモデルデータを用いて文節切り結果データを生成し、前記係り受け解析手段は、SVMで学習を行った係り受けラベル付けモデルデータを用いて係り受け解析結果データを生成する評価表現抽出プログラムとして構成することができる。
本発明の評価表現抽出方法、評価表現抽出装置、および、評価表現抽出プログラムにあっては、形態素解析の後、文節切りの前に、固有名詞や慣用句等の固有表現の抽出を行うようにしているため、固有表現を識別した上で正確に文節切りすることができ、精度よく評価表現を抽出することができる。
以下、本発明の好適な実施形態につき説明する。
以下の実施形態においては、自然言語文の解析にSVM(Support Vector Machine)を用いているが、これ以外に、決定木、最大エントロピー法などの教師データを用いた機械学習を用いた処理を行ってもよい。
図1は本発明の一実施形態にかかる評価表現抽出装置100の構成例を示す図である。
図1において、評価表現抽出装置100は、評価表現抽出処理に先立って3種類の学習モデルデータ(固有表現ラベル付けモデルデータ、文節ラベル付けモデルデータ、係り受けラベル付けモデルデータ)を生成する学習モデル生成部101と、これらの3種類の学習モデルデータをそれぞれ蓄積する固有表現ラベル付けモデル蓄積部121、文節ラベル付けモデル蓄積部122、係り受けラベル付けモデル蓄積部123と、これらの固有表現ラベル付けモデル蓄積部121、文節ラベル付けモデル蓄積部122、係り受けラベル付けモデル蓄積部123にそれぞれ蓄積された3種類の学習モデルデータを使用して評価表現の抽出を行う評価表現抽出部131とを備えている。
学習モデル生成部101は、学習用の生コーパスデータに対して形態素解析処理を行う形態素解析部102と、形態素解析結果データに対して管理者の操作により固有表現ラベルを付与する固有表現ラベル付与部103と、形態素解析結果データに固有表現ラベルが付与された固有表現ラベル付きコーパスデータを蓄積する固有表現ラベル付きコーパス蓄積部104と、この固有表現ラベル付きコーパス蓄積部104に蓄積された固有表現ラベル付きコーパスデータに基づいてSVMによる機械学習を行って固有表現ラベル付けモデル蓄積部121に固有表現ラベル付けモデルデータを出力する機械学習部105とを備えている。
また、学習モデル生成部101は、固有表現ラベル付きコーパス蓄積部104に蓄積された固有表現ラベル付きコーパスデータに対して管理者の操作により文節ラベルを付与する文節ラベル付与部106と、固有表現ラベル付きコーパスデータに文節ラベルが付与された文節ラベル付きコーパスデータを蓄積する文節ラベル付きコーパス蓄積部107と、この文節ラベル付きコーパス蓄積部107に蓄積された文節ラベル付きコーパスデータに基づいてSVMによる機械学習を行って文節ラベル付けモデル蓄積部122に文節ラベル付けモデルデータを出力する機械学習部108とを備えている。
また、学習モデル生成部101は、文節ラベル付きコーパス蓄積部107に蓄積された文節ラベル付きコーパスデータに対して管理者の操作により係り受けラベルを付与する係り受けラベル付与部109と、文節ラベル付きコーパスデータに係り受けラベルが付与された係り受けラベル付きコーパスデータを蓄積する係り受けラベル付きコーパス蓄積部110と、この係り受けラベル付きコーパス蓄積部110に蓄積された係り受けラベル付きコーパスデータに基づいてSVMによる機械学習を行って係り受けラベル付けモデル蓄積部123に係り受けラベル付けモデルデータを出力する機械学習部111とを備えている。
一方、評価表現抽出部131は、入力文テキストデータに対して辞書情報(図示せず)を用いて形態素解析処理を行う形態素解析部132と、形態素解析結果データに対して固有表現ラベル付けモデル蓄積部121の固有表現ラベル付けモデルデータを用いた固有表現抽出処理を行って固有表現抽出結果データを出力する固有表現抽出部133と、固有表現抽出結果データに対して文節ラベル付けモデル蓄積部122を用いた文節切り処理を行って文節切り結果データを出力する文節切り部134と、文節切り結果データに対して係り受けラベル付けモデル蓄積部123を用いた係り受け解析処理を行って係り受け解析結果データを出力する係り受け解析部135と、係り受け解析結果データに対して評価表現抽出処理を行い、評価表現データを出力する評価表現抽出部136とを備えている。
図2は上記の実施形態における学習モデル生成部101の処理例を示すフローチャートである。
図2において、学習モデル生成処理を開始すると(ステップS101)、形態素解析部102は、管理者によって用意された学習用の生コーパスデータを入力する(ステップS102)。図3(a)は生コーパスデータの例を示しており、ここでは「その中で夕摘みバラ天然水は最もおいしい」となっている。
図2に戻り、形態素解析部102は、入力した生コーパスデータに対して、辞書情報を用いて形態素解析処理を行い、分解した形態素および品詞の対のデータ列からなる形態素解析結果データを出力する(ステップS103)。図3(b)は形態素解析結果データの例を示しており、図3(a)の生コーパスデータに対応した例である。ここでは、{その 連体詞}{中 名詞}{で 助詞}{夕 名詞}{摘み 動詞}{バラ 名詞}{天然水 名詞}{は 助詞}{最も 副詞}{おいしい 形容詞}というデータ列となる。なお、品詞については実データ上では識別子等の内部表現が用いられる。
図2に戻り、固有表現ラベル付与部103は、形態素解析結果データに対して、管理者の操作により固有表現ラベルを付与して固有表現ラベル付きコーパスデータを生成し(ステップS104)、生成した固有表現ラベル付きコーパスデータを固有表現ラベル付きコーパス蓄積部104に出力する(ステップS105)。図3(c)は固有表現ラベル付きコーパスデータの例を示しており、図3(b)の形態素解析結果データに固有表現ラベルを付与したものである。ここでは、「夕摘みバラ天然水」が一連の固有表現(商品名)であって対象語であることを示すために、対象語の固有表現の開始位置を示すラベル「B_OBJ」(B:begin、OBJ:object)を形態素「夕」に付し、続く形態素「摘み」「バラ」「天然水」のそれぞれに同固有表現に含まれることを示すラベル「I_OBJ」(I:inside)を付し、それ以外の形態素に固有表現に含まれないことを示すラベル「O」(O:outside)を付している。その他、属性語の固有表現には「B_SCP」「I_SCP」が、評価語の固有表現には「B_OPI」「I_OPI」が付される。
図2に戻り、機械学習部105は、固有表現ラベル付きコーパス蓄積部104に蓄積された固有表現ラベル付きコーパスデータに基づいてSVMによる機械学習を行い(ステップS106)、学習の結果として生成される固有表現ラベル付けモデルデータを固有表現ラベル付けモデル蓄積部121に出力する(ステップS107)。図4は固有表現ラベル付けモデルデータの構造例を示したものであり(文節ラベル付けモデルデータ、係り受けラベル付けモデルデータについても同様のデータ構造)、(a)はウインドウサイズが0の例、(b)はウインドウサイズが1の例である。(a)では、形態素の個々につき学習結果としての重さが設定される。(b)では、形態素の位置関係を含めた組み合わせ(「L=夕−摘み−R=バラ」は左に「夕」、右に「バラ」があり、間に「摘み」が挟まった位置関係にあることを示す)に対して重さが設定される。
図2に戻り、文節ラベル付与部106は、固有表現ラベル付きコーパス蓄積部104から固有表現ラベル付きコーパスデータを入力し(ステップS108)、入力した固有表現ラベル付きコーパスデータに対して、管理者の操作により文節ラベルを付与して文節ラベル付きコーパスデータを生成し(ステップS109)、生成した文節ラベル付きコーパスデータを文節ラベル付きコーパス蓄積部107に出力する(ステップS110)。図5(a)は文節ラベル付きコーパスデータの例を示しており、図3(c)の固有表現ラベル付きコーパスデータに文節ラベルを付与したものである。ここでは、第1の文節を構成する形態素「その」に文節の開始を示すラベル「B」(B:begin)を付している。また、第2の文節を構成する形態素「中」「で」の先頭の形態素「中」に文節の開始を示すラベル「B」を付し、続く形態素「で」に文節の内部にあることを示すラベル「I」(I:inside)を付している。同様に、第3の文節を構成する形態素「夕」「摘み」「バラ」「天然水」「は」の先頭の形態素「夕」に文節の開始を示すラベル「B」を付し、続く形態素「摘み」「バラ」「天然水」「は」に文節の内部にあることを示すラベル「I」を付している。同様に、第4の文節を構成する形態素「最も」に文節の開始を示すラベル「B」を付し、第5の文節を構成する形態素「おいしい」に文節の開始を示すラベル「B」を付している。
図2に戻り、機械学習部108は、文節ラベル付きコーパス蓄積部107に蓄積された文節ラベル付きコーパスデータに基づいてSVMによる機械学習を行い(ステップS111)、学習の結果として生成される文節ラベル付けモデルデータを文節ラベル付けモデル蓄積部122に出力する(ステップS112)。文節ラベル付けモデルデータの構造は図4に示したものと同様(重さは異なる)になる。
図2に戻り、係り受けラベル付与部109は、文節ラベル付きコーパス蓄積部107から文節ラベル付きコーパスデータを入力し(ステップS113)、入力した文節ラベル付きコーパスデータに対して、管理者の操作により係り受けラベルを付与して係り受けラベル付きコーパスデータを生成し(ステップS114)、生成した係り受けラベル付きコーパスデータを係り受けラベル付きコーパス蓄積部110に出力する(ステップS115)。図5(b)は係り受けラベル付きコーパスデータの例を示しており、図5(a)の文節ラベル付きコーパスデータに係り受けラベルを付与したものである。係り受けラベルは例えば「*0 1D」のような形式をしており、先頭の「*」は処理系のための記号、「*」に続く最初の数字部分は係る元の文節の通し番号(「0」から付すため、第1の文節では「0」、第2の分節では「1」)、その後にスペースを挟んで続く数字部分は係る先の文節の通し番号(負の値の場合は最後の文節であることを示す)、「D」は係りの種類(D:dependent、P:parallel等がある)を示している。ここでは、第1の文節「その」の前には、第1の文節が第2の文節「中」「で」に係ることを示すラベル「*0 1D」が付与され、第2の文節「中」「で」の前には、第2の文節が第5の文節に係ることを示すラベル「*1 4D」が付与され、第3の文節「夕」「摘み」「バラ」「天然水」「は」の前には、第3の文節が第5の文節に係ることを示すラベル「*2 4D」が付与され、第4の文節「最も」の前には、第4の文節が第5の文節に係ることを示すラベル「*3 4D」が付与され、第5の文節「おいしい」の前には、最後の文節であって係り先がないことを示すラベル「*4 -1D」が付与されている。
図2に戻り、機械学習部111は、係り受けラベル付きコーパス蓄積部110に蓄積された係り受けラベル付きコーパスデータに基づいてSVMによる機械学習を行い(ステップS116)、学習の結果として生成される係り受けラベル付けモデルデータを係り受けラベル付けモデル蓄積部123に出力する(ステップS117)。係り受けラベル付けモデルデータの構造は図4に示したものと同様(重さは異なる)になる。
以上の処理を、対象となる生コーパスデータの全てについて行なった上で学習モデル生成の処理を終了する(ステップS118)
図6は上記の実施形態における評価表現抽出部131の処理例を示すフローチャートである。
図6において、評価表現抽出の処理を開始すると(ステップS201)、形態素解析部132は、入力文テキストデータを入力し(ステップS202)、入力した入力文テキストデータに対して辞書情報を用いて形態素解析処理を行い、形態素解析結果データを次段に出力する(ステップS203)。図7(a)は入力文テキストデータの例を示しており、(b)はその入力文テキストデータに対する形態素解析結果データの例である。ここでは、入力文テキストデータとして「その中で夕摘みバラ天然水のレモン味は頬が落ちるようです」という文を想定している。
図6に戻り、固有表現抽出部133は、前段の形態素解析部132の出力である形態素解析結果データに対して固有表現ラベル付けモデル蓄積部121の固有表現ラベル付けモデルデータを用いた固有表現抽出処理を行い、形態素解析結果データに固有表現ラベルが付された固有表現抽出結果データを次段に出力する(ステップS204)。より詳しく説明すると、固有表現抽出部133は、固有表現ラベル付けモデル蓄積部121に蓄積された、多数の生コーパスデータに対応する固有表現ラベル付けモデルデータと形態素列の比較を行い、固有表現ラベル付けモデルデータに含まれる重さのデータに基づき、固有表現に属するか否かの判断を行い、その判断に従って固有表現ラベルを付す。図7(c)は固有表現抽出結果データの例を示しており、多数の生コーパスデータに基づく学習内容から最適な固有表現ラベルが付される。従って、辞書情報としてカバーされていない新たな固有表現であっても適切に固有表現であると認識することができる。
図6に戻り、文節切り部134は、前段の固有表現抽出部133の出力である固有表現抽出結果データに対して文節ラベル付けモデル蓄積部122を用いた文節切り処理を行い、固有表現抽出結果データに文節ラベルが付された文節切り結果データを次段に出力する(ステップS205)。より詳しく説明すると、文節切り部134は、文節ラベル付けモデル蓄積部122に蓄積された、多数の生コーパスデータに対応する文節ラベル付けモデルデータと形態素列の比較を行い、文節ラベル付けモデルデータに含まれる重さのデータに基づき、個々の分節に属するか否かの判断を行い、その判断に従って文節ラベルを付す。図7(d)は文節切り結果データの例を示しており、多数の生コーパスデータに基づく学習内容から最適な文節ラベルが付される。
図6に戻り、係り受け解析部135は、前段の文節切り部134の出力である文節切り結果データに対して係り受けラベル付けモデル蓄積部123を用いた係り受け解析処理を行い、分節切り結果データに係り受けラベルが付された係り受け解析結果データを次段に出力する(ステップS206)。より詳しく説明すると、係り受け解析部135は、係り受けラベル付けモデル蓄積部123に蓄積された、多数の生コーパスデータに対応する係り受けラベル付けモデルデータと形態素列の比較を行い、係り受けラベル付けモデルデータに含まれる重さのデータに基づき、各分節間に係り受け関係があるか否かの判断を行い、その判断に従って係り受けラベルを付す。図7(e)は係り受け解析結果データの例を示しており、多数の生コーパスデータに基づく学習内容から最適な係り受けラベルが付される。
図6に戻り、評価表現抽出部136は、前段の係り受け解析部135の出力である係り受け解析結果データに対して評価表現抽出処理を行い、評価表現データを出力し(ステップS207)、評価表現抽出の処理を終了する(ステップS208)。図8は評価表現抽出の処理例を示す図であり、(a)において、評価表現抽出部136は、係り受け解析部135から渡される係り受け解析結果データに対して、
1.対象語を固定して属性語と評価語を抽出
2.属性語を固定して対象語と評価語を抽出
3.評価語を固定して対象語と属性語を抽出
を試みる。この際、固有表現ラベルが付されている場合には、その固有表現ラベルの識別子(OBJ、SCP、OPI)により、対象語(OBJ)、属性語(SCP)、評価語(OPI)のいずれであるかを考慮し、優先的に抽出を行う。
(b)〜(e)は対象語、属性語、評価語の係り受け関係のパターンに示したものであり、(b)は対象語が属性語に係る場合、(c)は属性語が評価語に係る場合、(d)は対象語が評価語に係る場合、(e)は対象語が属性語に係り、その属性語が評価語に係る場合である。固有表現ラベルの識別子から対象語、属性語、評価語が判断できる場合はそれを優先するが、固有表現ラベルがない場合であっても、対象語は属性語か評価語に係り、属性語は評価語に係り、原則として対象語と属性語は名詞であり、評価語は形容詞であることから、係り受け関係と品詞から対象語、属性語、評価語を特定することができ、不要な助詞の除去等を行なうことで対象語、属性語、評価語を抽出することができる。なお、対象語、属性語、評価語の全てを抽出できること((e)のパターン)が最も望ましいが、それができない場合は、対象語と属性語か((b)のパターン)、属性語と評価語か((c)のパターン)、対象語と評価語か((d)のパターン)のいずれか部分的な組み合わせを抽出する。また、対象語、属性語、評価語の組み合わせ、あるいはその部分的な組み合わせが複数存在する場合には、複数の組み合わせを抽出する。
図7(e)の係り受け解析結果データからは、対象語として「夕摘みバラ天然水」が抽出され、属性語として「レモン味」が抽出され、評価語として「頬が落ちる」が抽出される。従来手法であれば、形態素解析によって「夕摘みバラ天然水」が「夕」「摘み」「バラ」「天然水」に分解されてしまい、「頬が落ちる」が「頬」「が」「落ちる」に分解されてしまい、その分解された状態で文節切りおよび係り受け解析が行なわれるため、対象語として「夕摘みバラ天然水」を、評価語として「頬が落ちる」を抽出することは難しい。しかし、本実施形態では形態素解析の後、文節切りの前に、固有表現抽出を行なっているため、「夕摘みバラ天然水」「頬が落ちる」が分解されてしまうことがなく、精度の高い評価表現の抽出を行なうことができる。また、固有表現抽出はSVMにより多数の学習データに基づいて行なわれるため、上記の「夕摘みバラ天然水」「頬が落ちる」そのものが事前に学習されていなくても、似たパターンの学習データがあれば高い精度で固有表現であると認識することができ、日々発生する新たな固有表現にも対応することができる。
以上、本発明の好適な実施の形態により本発明を説明した。ここでは特定の具体例を示して本発明を説明したが、特許請求の範囲に定義された本発明の広範な趣旨および範囲から逸脱することなく、これら具体例に様々な修正および変更を加えることができることは明らかである。すなわち、具体例の詳細および添付の図面により本発明が限定されるものと解釈してはならない。
本発明の一実施形態にかかる評価表現抽出装置の構成例を示す図である。 実施形態における学習モデル生成部の処理例を示すフローチャートである。 生コーパスデータ、形態素解析結果データおよび固有表現ラベル付きコーパスデータの構造例を示す図である。 固有表現ラベル付けモデルデータ、文節ラベル付けモデルデータおよび係り受けラベル付けモデルデータの構造例を示す図である。 文節ラベル付きコーパスデータおよび係り受けラベル付きコーパスデータの構造例を示す図である。 実施形態における評価表現抽出部の処理例を示すフローチャートである。 評価表現抽出部における処理結果の例を示す図である。 評価表現抽出の処理例を示す図である。
符号の説明
100 評価表現抽出装置
101 学習モデル生成部
102 形態素解析部
103 固有表現ラベル付与部
104 固有表現ラベル付きコーパス蓄積部
105 機械学習部
106 文節ラベル付与部
107 文節ラベル付きコーパス蓄積部
108 機械学習部
109 係り受けラベル付与部
110 係り受けラベル付きコーパス蓄積部
111 機械学習部
121 固有表現ラベル付けモデル蓄積部
122 文節ラベル付けモデル蓄積部
123 係り受けラベル付けモデル蓄積部
131 評価表現抽出部
132 形態素解析部
133 固有表現抽出部
134 文節切り部
135 係り受け解析部
136 評価表現抽出部

Claims (4)

  1. 評価表現抽出装置が、入力文テキストデータに対して形態素解析を行い、形態素を列記した形態素解析結果データを生成する形態素解析工程と、
    前記評価表現抽出装置が、前記形態素解析結果データに対して、固有表現に含まれる形態素を識別する、評価表現を構成する対象語、属性語もしくは評価語のいずれかであることを示す識別子を含む固有表現ラベルデータを付与して固有表現抽出結果データを生成する固有表現抽出工程と、
    前記評価表現抽出装置が、前記固有表現抽出結果データに対して、文節に含まれる形態素を識別する文節ラベルデータを付与して文節切り結果データを生成する文節切り工程と、
    前記評価表現抽出装置が、前記文節切り結果データに対して、文節の係り受け関係を識別する係り受けラベルデータを付与して係り受け解析結果データを生成する係り受け解析工程と、
    前記評価表現抽出装置が、前記係り受け解析結果データから、前記識別子を含む場合には当該識別子の示す対象語、属性語および評価語の別を優先し、前記識別子を含まない場合には名詞の形態素を対象語および属性語とするとともに形容詞の形態素を評価語とし、対象語を固定して当該対象語が係る形態素を属性語もしくは評価語、当該属性語が係る形態素を評価語として抽出し、属性語を固定して当該属性語に係る形態素を対象語、当該属性語が係る形態素を評価語として抽出し、評価語を固定して当該評価語に係る形態素を属性語もしくは対象語、当該属性語に係る形態素を対象語として抽出することにより、評価表現を構成する対象語、属性語もしくは評価語を抽出する評価表現抽出工程と
    を備え
    前記固有表現抽出工程は、SVMで学習を行った固有表現ラベル付けモデルデータを用いて固有表現抽出結果データを生成し、
    前記文節切り工程は、SVMで学習を行った文節ラベル付けモデルデータを用いて文節切り結果データを生成し、
    前記係り受け解析工程は、SVMで学習を行った係り受けラベル付けモデルデータを用いて係り受け解析結果データを生成する
    ことを特徴とする評価表現抽出方法。
  2. 請求項に記載の評価表現抽出方法において、
    生コーパスデータに対して形態素解析を行い、形態素を列記した学習用形態素解析結果データを生成する工程と、
    前記学習用形態素解析結果データに対し、固有表現に含まれる形態素を識別する固有表現ラベルデータを付与して固有表現ラベル付きコーパスデータを生成し、当該固有表現ラベル付きコーパスデータから前記固有表現ラベル付けモデルデータの学習を行う工程と、
    前記固有表現ラベル付きコーパスデータに対し、文節に含まれる形態素を識別する文節ラベルデータを付与して文節ラベル付きコーパスデータを生成し、当該文節ラベル付きコーパスデータから前記文節ラベル付けモデルデータの学習を行う工程と、
    前記文節ラベル付きコーパスデータに対し、文節の係り受け関係を識別する係り受けラベルデータを付与して係り受けラベル付きコーパスデータを生成し、当該係り受けラベル付きコーパスデータから前記係り受けラベル付けモデルデータの学習を行う工程と
    を備えたことを特徴とする評価表現抽出方法。
  3. 入力文テキストデータに対して形態素解析を行い、形態素を列記した形態素解析結果データを生成する形態素解析手段と、
    前記形態素解析結果データに対して、固有表現に含まれる形態素を識別する、評価表現を構成する対象語、属性語もしくは評価語のいずれかであることを示す識別子を含む固有表現ラベルデータを付与して固有表現抽出結果データを生成する固有表現抽出手段と、
    前記固有表現抽出結果データに対して、文節に含まれる形態素を識別する文節ラベルデータを付与して文節切り結果データを生成する文節切り手段と、
    前記文節切り結果データに対して、文節の係り受け関係を識別する係り受けラベルデータを付与して係り受け解析結果データを生成する係り受け解析手段と、
    前記係り受け解析結果データから、前記識別子を含む場合には当該識別子の示す対象語、属性語および評価語の別を優先し、前記識別子を含まない場合には名詞の形態素を対象語および属性語とするとともに形容詞の形態素を評価語とし、対象語を固定して当該対象語が係る形態素を属性語もしくは評価語、当該属性語が係る形態素を評価語として抽出し、属性語を固定して当該属性語に係る形態素を対象語、当該属性語が係る形態素を評価語として抽出し、評価語を固定して当該評価語に係る形態素を属性語もしくは対象語、当該属性語に係る形態素を対象語として抽出することにより、評価表現を構成する対象語、属性語もしくは評価語を抽出する評価表現抽出手段と
    を備え
    前記固有表現抽出手段は、SVMで学習を行った固有表現ラベル付けモデルデータを用いて固有表現抽出結果データを生成し、
    前記文節切り手段は、SVMで学習を行った文節ラベル付けモデルデータを用いて文節切り結果データを生成し、
    前記係り受け解析手段は、SVMで学習を行った係り受けラベル付けモデルデータを用いて係り受け解析結果データを生成する
    ことを特徴とする評価表現抽出装置。
  4. コンピュータを、
    入力文テキストデータに対して形態素解析を行い、形態素を列記した形態素解析結果データを生成する形態素解析手段、
    前記形態素解析結果データに対して、固有表現に含まれる形態素を識別する、評価表現を構成する対象語、属性語もしくは評価語のいずれかであることを示す識別子を含む固有表現ラベルデータを付与して固有表現抽出結果データを生成する固有表現抽出手段、
    前記固有表現抽出結果データに対して、文節に含まれる形態素を識別する文節ラベルデータを付与して文節切り結果データを生成する文節切り手段、
    前記文節切り結果データに対して、文節の係り受け関係を識別する係り受けラベルデータを付与して係り受け解析結果データを生成する係り受け解析手段、
    前記係り受け解析結果データから、前記識別子を含む場合には当該識別子の示す対象語、属性語および評価語の別を優先し、前記識別子を含まない場合には名詞の形態素を対象語および属性語とするとともに形容詞の形態素を評価語とし、対象語を固定して当該対象語が係る形態素を属性語もしくは評価語、当該属性語が係る形態素を評価語として抽出し、属性語を固定して当該属性語に係る形態素を対象語、当該属性語が係る形態素を評価語として抽出し、評価語を固定して当該評価語に係る形態素を属性語もしくは対象語、当該属性語に係る形態素を対象語として抽出することにより、評価表現を構成する対象語、属性語もしくは評価語を抽出する評価表現抽出手段
    として機能させ
    前記固有表現抽出手段は、SVMで学習を行った固有表現ラベル付けモデルデータを用いて固有表現抽出結果データを生成し、
    前記文節切り手段は、SVMで学習を行った文節ラベル付けモデルデータを用いて文節切り結果データを生成し、
    前記係り受け解析手段は、SVMで学習を行った係り受けラベル付けモデルデータを用いて係り受け解析結果データを生成する
    評価表現抽出プログラム。
JP2008022961A 2008-02-01 2008-02-01 評価表現抽出方法、評価表現抽出装置、および、評価表現抽出プログラム Active JP5291351B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008022961A JP5291351B2 (ja) 2008-02-01 2008-02-01 評価表現抽出方法、評価表現抽出装置、および、評価表現抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008022961A JP5291351B2 (ja) 2008-02-01 2008-02-01 評価表現抽出方法、評価表現抽出装置、および、評価表現抽出プログラム

Publications (2)

Publication Number Publication Date
JP2009187048A JP2009187048A (ja) 2009-08-20
JP5291351B2 true JP5291351B2 (ja) 2013-09-18

Family

ID=41070273

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008022961A Active JP5291351B2 (ja) 2008-02-01 2008-02-01 評価表現抽出方法、評価表現抽出装置、および、評価表現抽出プログラム

Country Status (1)

Country Link
JP (1) JP5291351B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI690036B (zh) 2017-09-28 2020-04-01 日商新川股份有限公司 封裝裝置以及半導體裝置的製造方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5729633B2 (ja) * 2010-12-13 2015-06-03 国立研究開発法人情報通信研究機構 端末装置、表現出力方法、およびプログラム
JP5908855B2 (ja) * 2013-02-21 2016-04-26 日本電信電話株式会社 3次元オブジェクト生成装置、方法、及びプログラム
US9436676B1 (en) 2014-11-25 2016-09-06 Truthful Speaking, Inc. Written word refinement system and method
CN107729317B (zh) * 2017-10-13 2021-07-30 北京三快在线科技有限公司 评价标签的确定方法、装置及服务器

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4361299B2 (ja) * 2003-03-20 2009-11-11 株式会社リコー 評価表現抽出装置、プログラム、及び記憶媒体
JP3899414B2 (ja) * 2004-03-31 2007-03-28 独立行政法人情報通信研究機構 教師データ作成装置およびプログラム、ならびに言語解析処理装置およびプログラム
JP4576397B2 (ja) * 2006-11-08 2010-11-04 日本電信電話株式会社 評価情報抽出装置、評価情報抽出方法およびそのプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI690036B (zh) 2017-09-28 2020-04-01 日商新川股份有限公司 封裝裝置以及半導體裝置的製造方法

Also Published As

Publication number Publication date
JP2009187048A (ja) 2009-08-20

Similar Documents

Publication Publication Date Title
Petrov et al. Overview of the 2012 shared task on parsing the web
US8010539B2 (en) Phrase based snippet generation
US20040073874A1 (en) Device for retrieving data from a knowledge-based text
US20040236566A1 (en) System and method for identifying special word usage in a document
Sawalha et al. SALMA: standard Arabic language morphological analysis
Richter et al. Korektor–a system for contextual spell-checking and diacritics completion
JP5291351B2 (ja) 評価表現抽出方法、評価表現抽出装置、および、評価表現抽出プログラム
JP5564705B2 (ja) 文構造解析装置、文構造解析方法および文構造解析プログラム
Mataoui et al. A new syntax-based aspect detection approach for sentiment analysis in Arabic reviews
Singh et al. Web based manipuri corpus for multiword ner and reduplicated mwes identification using svm
Patil et al. Automatic text summarizer
Yang et al. Ontology generation for large email collections.
JP2010198278A (ja) 評判情報分類装置、評判情報分類方法及びプログラム
JP2003167898A (ja) 情報検索システム
JP5085584B2 (ja) 記事特徴語抽出装置、記事特徴語抽出方法及びプログラム
JP4478042B2 (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
Salah et al. Generating domain-specific sentiment lexicons for opinion mining
JP6375367B2 (ja) 反論生成方法,反論生成システム
JP2002278982A (ja) 情報抽出方法および情報検索方法
JP5506482B2 (ja) 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム
KR101092355B1 (ko) 대용어 복원 방법
JPH11259524A (ja) 情報検索システム、情報検索システムにおける情報処理方法および記録媒体
KR100886688B1 (ko) 한국어 수량사 생성 방법 및 장치
JP2007241900A (ja) ネーミングシステム及びネーミング自動化方法
Saad et al. Keyphrase extraction for Islamic Knowledge ontology

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090624

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120413

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130528

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130607

R150 Certificate of patent or registration of utility model

Ref document number: 5291351

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350