JP2007241881A - 意見性判定データベース作成方法及び装置及びプログラム及び意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 - Google Patents

意見性判定データベース作成方法及び装置及びプログラム及び意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP2007241881A
JP2007241881A JP2006066308A JP2006066308A JP2007241881A JP 2007241881 A JP2007241881 A JP 2007241881A JP 2006066308 A JP2006066308 A JP 2006066308A JP 2006066308 A JP2006066308 A JP 2006066308A JP 2007241881 A JP2007241881 A JP 2007241881A
Authority
JP
Japan
Prior art keywords
opinion
sentence
word
determination
semantic category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006066308A
Other languages
English (en)
Other versions
JP4054046B2 (ja
Inventor
Nobuaki Hiroshima
伸章 廣嶋
Setsuo Yamada
節夫 山田
Kura Furuse
蔵 古瀬
Ryoji Kataoka
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006066308A priority Critical patent/JP4054046B2/ja
Publication of JP2007241881A publication Critical patent/JP2007241881A/ja
Application granted granted Critical
Publication of JP4054046B2 publication Critical patent/JP4054046B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】意味と意見表現の組み合わせを考慮し、文が意見かどうかを正しく判定することができるようにする。
【解決手段】本発明は、意見がどうかを判定するための手掛かりとなる意見表現だけでなく、単語の意味カテゴリを用いて文中に含まれる単語の意味を表現し、2値分類可能な機械学習手法を用いた学習を行い作成されたモデルを格納した意見性判定データベースを作成し、当該意見性判定データベースのモデルを用いて分類を行って意味と意見表現の組み合わせを考慮し、意見性を判断する。
【選択図】図1

Description

本発明は、意見性判定データベース作成方法及び装置及びプログラム及び意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に係り、特に、製品・人物・出来事などの対象事物について書かれた複数の文から、文が意見であるかを判定するためのデータベースを作成する意見性判定データベース作成方法及び装置及びプログラム及び、対象事物について書かれた文から、その文が意見であるかを判定する意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に関する。
Webページの文書には、製品・人物・出来事など(以下では対象事物と記す)について意見が書かれた文を含むページが数多く存在する。意見には、「電池の持ちがよい」や「デザインがかわいい」というような評判を表す文や、「アプリが使えてうれしい」というような感情を表す文や、「活用していきたい」や「価格を下げるべき」というような主義・主張を表す文などその種類は様々である。このような意見を含む文書から意見を表す文を抽出することができれば、製品を購入する際の参考情報として有益である。そのため、文が意見かどうかを判定し、文書から意見文を抽出する研究が行われている。
従来の技術では、意見である文及び意見でない文を複数用意し、それらの文に含まれる単語が意見である文に含まれる確率を予め計算しておき、単語の確率をもとに文が意見であるかどうかを判定している(例えば、非特許文献1参照)。
また、「色」や「重さ」のような対象事物の性質を表す属性表現のリストと、「よい」や「美しい」のような属性表現に対する評価を表す評価表現のリストを作成し、属性表現リストと評価表現リストを参照して、文からパターンマッチングにより属性表現と評価表現の組を意見表現として抽出するという方法も提案されている(例えば、非特許文献2参照)。この方法を用いて、意見表現を持つ文を意見であると判定し、持たない文を意見でないと判定することができる。
峠泰成他、「ドメイン特徴語の自動取得によるWeb掲示板からの意見文抽出」、言語処理学会第11回年次大会、pp. 672-675, 2005 立石健二他、「Web文書集合からの意見情報抽出と着眼点に基づく要約生成」、言語処理学会第10回年次大会、pp. 644-647, 2004
しかしながら、文が意見かどうかは、意見の手掛かりとなる表現だけでなく、文中に含まれる単語の意味による影響を受ける。上記の非特許文献1では、単語単位で確率が付与されているので、確率が高い単語が文中に存在すれば、その文は意見と判定されてしまう傾向がある。例えば、「高い」という単語の確率が高ければ、「値段が高い」は正しく意見であると判定されるが、「背が高い」は意見でないにも関わらず誤って意見であると判定されてしまう。そのため、正しく意見かどうかを判定することができない。また、非特許文献2では、属性表現と評価表現の組を全て登録しなければならず、全ての組み合わせを考慮することは不可能であるため、正しく意見かどうかを判定することができない。
本発明は、上記の点に鑑みなされたもので、意見がどうかを判定するための手掛かりとなる意見表現だけでなく、単語の意味カテゴリを用いて文中に含まれる単語の意味を表現し、2値分類可能な機械学習手法を用いた学習・分類を行って意味と意見表現の組み合わせを考慮することにより、文が意見かどうかを正しく判定することができるような意見性判定データベース作成方法及び装置及びプログラム及び意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体を提供することを目的とする。
図1は、本発明の原理を説明するための図(その1)である。
本発明(請求項1)は、単語分割手段、意味カテゴリベクトル算出手段、意見表現ベクトル算出手段、意見性判定データベース作成手段と、を有する意見性判定データベース作成装置において、製品・人物・出来事を含む対象事物について書かれた複数の文を入力として、入力とは異なる文に対しても意見かどうかを判定するためのデータベースを作成する意見性判定データベース作成方法であって、
単語分割手段が、入力された意見であるかどうかの判定結果が付与された複数の文を形態素解析により単語に分割し、各単語に表記、品詞及び単語の意味的な分類を表す意味カテゴリを付与する単語分割ステップ(ステップ1)と、
意味カテゴリベクトル算出手段が、文内の一部または全ての単語からなる単語列に対し、該単語列中に含まれる意味カテゴリの出現の度合いに応じて算出される値を要素値とする意味カテゴリベクトルを求める意味カテゴリベクトル算出ステップ(ステップ2)と、
意見表現ベクトル算出手段が、文内の一部または全ての単語からなる単語列に対し、意見表現リスト記憶手段に格納されている意見かどうかを表す手掛かりとなる意見表現が記載された意見表現リストを参照して、単語列中に含まれる該意見表現リスト中の意見表現の度合いに応じて算出される値を要素値とする意見表現ベクトルを求める意見表現ベクトル算出ステップ(ステップ3)と、
意見性判定データベース作成手段が、各文に対して算出された意味カテゴリベクトルと意見表現ベクトルに対し、2値分類可能な機械学習手法を用いて学習を行い、学習の結果得られたモデルを意見性判定データベースに格納する意見性判定データベース作成ステップ(ステップ4)と、を行う。
図2は、本発明の原理構成図(その1)である。
本発明(請求項2)は、製品・人物・出来事を含む対象事物について書かれた複数の文を入力として、入力とは異なる文に対しても意見かどうかを判定するためのデータベースを作成する意見性判定データベース作成装置であって、
入力された意見であるかどうかの判定結果が付与された複数の文を形態素解析により単語に分割し、各単語に表記、品詞及び単語の意味的な分類を表す意味カテゴリを付与する単語分割手段1と、
文内の一部または全ての単語からなる単語列に対し、該単語列中に含まれる意味カテゴリの出現の度合いに応じて算出される値を要素値とする意味カテゴリベクトルを求める意味カテゴリベクトル算出手段2と、
文内の一部または全ての単語からなる単語列に対し、意見表現リスト記憶手段6に格納されている意見かどうかを表す手掛かりとなる意見表現が記載された意見表現リストを参照して、単語列中に含まれる該意見表現リスト中の意見表現の度合いに応じて算出される値を要素値とする意見表現ベクトルを求める意見表現ベクトル算出手段3と、
各文に対して算出された意味カテゴリベクトルと意見表現ベクトルに対し、2値分類可能な機械学習手法を用いて学習を行い、学習の結果得られたモデルを意見性判定データベース7に格納する意見性判定データベース作成手段4と、を有する。
本発明(請求項3)は、コンピュータを、請求項2記載の意見性判定データベース作成装置として機能させる意見性判定データベース作成プログラムである。
本発明(請求項4)は、コンピュータを、請求項2記載の意見性判定データベース作成装置として機能させる意見性判定データベース作成プログラムを格納したコンピュータ読み取り可能な記録媒体である。
図3は、本発明の原理を説明するための図(その2)である。
本発明(請求項5)は、単語分割手段、意味カテゴリベクトル算出手段、意見表現ベクトル算出手段、意見性判定手段、請求項1で作成された意見性判定データベースと、を有する意見性判定装置において、製品・人物・出来事を含む対象事物について書かれた文から、該文が意見かどうかを判定する意見性判定方法であって、
単語分割手段が、文を形態素解析により単語に分割し、各単語に表記、品詞、及び単語の意味的な分類を表す意味カテゴリを付与する単語分割ステップ(ステップ5)と、
意味カテゴリベクトル算出手段が、文内の一部または全ての単語からなる単語列に対し、該単語列中に含まれる意味カテゴリの出現の度合いに応じて算出される値を要素値とする意味カテゴリベクトルを求める意味カテゴリベクトル算出ステップ(ステップ6)と、
意見表現ベクトル算出手段が、文内の一部または全ての単語からなる単語列に対し、意見表現リスト記憶手段に格納されている、意見かどうかを表す手掛かりとなる意見表現が記載された意見表現リストを参照して、該単語列中に含まれる該意見表現リスト中の意見表現の出現の度合いに応じて算出される値を要素値とする意見表現ベクトルを求める意見表現ベクトル算出ステップ(ステップ7)と、
意見性判定手段が、文に対して算出された意味カテゴリベクトルと意見表現ベクトルに対し、2値分類可能な機械学習手法を用いて意見性判定データベースに格納されたモデルに基づき分類を行い、分類の結果から得られた値から文の意見性を判定する意見性判定ステップ(ステップ8)と、を行う。
また、本発明(請求項6)は、意見性判定ステップにおいて、
意見性判定手段が、2値分類可能な機械学習手法を用いて分類した結果得られた値だけでなく、記憶手段に格納された意見・気持ち・感情を特に強く表す特定意見表現が記載された特定意見表現リスト中の特定意見表現を含むかどうかにより得られる値も用いて文の意見性を判定する。
図4は、本発明の原理構成図(その2)である。
本発明(請求項7)は、製品・人物・出来事を含む対象事物について書かれた文から、該文が意見かどうかを判定する意見性判定装置であって、
文を形態素解析により単語に分割し、各単語に表記、品詞、及び単語の意味的な分類を表す意味カテゴリを付与する単語分割手段1と、
文内の一部または全ての単語からなる単語列に対し、該単語列中に含まれる意味カテゴリの出現の度合いに応じて算出される値を要素値とする意味カテゴリベクトルを求める意味カテゴリベクトル算出手段2と、
文内の一部または全ての単語からなる単語列に対し、意見表現リスト記憶手段6に格納されている、意見かどうかを表す手掛かりとなる意見表現が記載された意見表現リストを参照して、該単語列中に含まれる該意見表現リスト中の意見表現の出現の度合いに応じて算出される値を要素値とする意見表現ベクトルを求める意見表現ベクトル算出手段3と、
文に対して算出された意味カテゴリベクトルと意見表現ベクトルに対し、2値分類可能な機械学習手法を用いて、請求項2で作成された意見性判定データベース7に格納されたモデルに基づき分類を行い、分類の結果から得られた値から文の意見性を判定する意見性判定手段5と、を有する。
また、本発明(請求項8)は、意見性判定手段5において、2値分類可能な機械学習手法を用いて分類した結果得られた値だけでなく、記憶手段に格納された意見・気持ち・感情を特に強く表す特定意見表現が記載された特定意見表現リスト中の特定意見表現を含むかどうかにより得られる値も用いて文の意見性を判定する手段を含む。
本発明(請求項9)は、コンピュータを、請求項7または8記載の意見性判定装置として機能させる意見性判定プログラムである。
本発明(請求項10)は、コンピュータを、請求項7または8記載の意見性判定装置として機能させる意見性判定プログラムを格納したコンピュータ読み取り可能な記録媒体である。
上記のように本発明によれば、文が意見かどうかを判定するための手掛かりとなる意見表現だけでなく、単語の意味カテゴリを用いて文中に含まれる単語の意味を表現し、2値分類可能な機械学習手法を用いた学習・分類を行って意味と意見表現の組み合わせを考慮するため、文が意見かどうかを正しく判断することができる。
以下、図面と共に本発明の実施の形態を説明する。
[第1の実施の形態]
図5は、本発明の第1の実施の形態における意見性判定データベース作成装置の構成図である。
意見性判定データベース作成装置10は、単語分割部1、意味カテゴリベクトル算出部2、意見表現ベクトル算出部3、意見性判定データベース作成部4、意見表現リスト記憶部6、意見性判定データベース7から構成される。
単語分割部1は、文記憶部8から意見であるかどうかの判定結果が付与された複数の文を取得して、当該複数の文を形態素解析により複数の単語に分割し、各単語に表記、品詞、及び単語の意味的な分類を表す意味カテゴリを付与し、メモリ(図示せず)等に格納する。
意味カテゴリベクトル算出部2は、文内の一部または全ての単語からなる単語列に対し、単語列中に含まれる意味カテゴリの出現の度合いに応じて算出される値を要素値とする意味カテゴリベクトルを求め、メモリ(図示せず)等に格納する。
意見表現ベクトル算出部3は、文内の一部または全ての単語からなる単語列に対し、意見表現リスト記憶部6に格納されている意見かどうかを表す手掛かりとなる表現が記載された意見表現リストを参照して、単語列中に含まれる意見表現リスト中の意見表現の出現の度合いに応じて算出される値を要素値とする意見表現ベクトルを求め、メモリ(図示せず)等に格納する。
意見性判定データベース作成部4は、各文に対して算出され、メモリ(図示せず)等に格納されている意味カテゴリベクトルと意見表現ベクトルに対し、2値分類可能な機械学習手法を用いて学習を行い、学習の結果得られたモデルを意見性判定データベース7に格納する。
次に、上記の構成における動作を説明する。
図6は、本発明の第1の実施の形態における意見性判定データベース作成装置の全体の動作のフローチャートである。
ステップ100) まず、単語分割部1により、意見であるかどうかの判定結果が付与された複数の文を形態素解析により単語に分割し、各単語に表記、品詞、及び単語の意味的な分類を表す意味カテゴリを付与し、メモリ(図示せず)等に格納する。
ステップ200) 次に、意味カテゴリベクトル算出部2により、文内の一部または全ての単語からなる単語列に対し、単語列中に含まれる意味カテゴリの出現の度合いに応じて算出される値を要素値とする意味カテゴリベクトルを求め、メモリ(図示せず)等に格納する。
ステップ300) 次に、意見表現ベクトル算出部3により、文内の一部または全ての単語からなる単語列に対し、意見表現リスト記憶部6の意見かどうかを表す手掛かりとなる表現が記載された意見表現リストを参照して、単語列中に含まれる意見表現リスト中の意見表現の出現の度合いに応じて算出される値を要素値とする意見表現ベクトルを求め、メモリ(図示せず)等に格納する。
ステップ400) 最後に、意見性判定データベース作成部4により、各文に対して算出され、メモリ(図示せず)等に格納されている意味カテゴリベクトルと意味表現ベクトルに対し、2値分類可能な機械学習手法を用いて学習を行い、学習の結果得られたモデルを意見性判定データベース7に格納する。
以下に、上記の動作について具体例を挙げて説明する。
まず、以下の説明では、図7に示す複数の文から意見性判定データベース7を作成する場合について説明する。
図7に示す文記憶部8に格納されているそれぞれの文には、意見であるかどうかの判定結果が付与されているものとする。判定の結果の欄に記載されている値が“1”である文は意見であり、“−1”である文は意見でない文を表している。
ステップ100において、単語分割部1により、図7に示す各文が入力されると、当該文を形態素解析により単語に分割し、各単語に表記、品詞、及び単語の意味的な分類を表す意味カテゴリを付与する。ここでは、意味カテゴリとして、図8に示す意味カテゴリとそのカテゴリに属する単語の対応を基に意味カテゴリを付与する。この例では1個の意味カテゴリを付与したが、複数の意味カテゴリを付与しても構わない。また、意味カテゴリの付与方法はこれに限定されるものではなく、日本語語彙大系(池原悟他、「日本語語彙大系」岩波書店、1997)などのシソーラスを利用したりしてもよい。
図7の先頭の文を単語に分割した結果を図9に示す。同図において、意味カテゴリ番号は図8における単語の属する意味カテゴリに対応する意味カテゴリ番号である。このように分割された単語はメモリ(図示せず)に格納される。
ステップ200において、意味カテゴリベクトル算出部2は、単語分割部1によりメモリ(図示せず)に格納されている文内の一部または全ての単語からなる単語列に対し、単語列中に含まれる意味カテゴリの出現の度合いに応じて算出される値を要素値とする意味カテゴリベクトルを求め、メモリ(図示せず)等に格納する。ここでは、図8に記載した3種類の意味カテゴリに対し、意味カテゴリ番号がjである意味カテゴリが文中の全ての単語からなる単語列に含まれていれば“1”、含まれていなければ“0”をベクトルの第j要素における要素値とする3次元の意味カテゴリベクトルを求める。この例では、文中の全ての単語を意味カテゴリの作成に用いたが、一部の単語を用いても構わない。
また、各単語に対して複数の意味カテゴリが付与されている場合には、ベクトルの作成に全ての意味カテゴリを用いてもよいし、一部の意味カテゴリを用いても構わない。また、ベクトルの各要素の値は、意味カテゴリが含まれているかどうかにより算出したが、意味カテゴリの出現の度合いによるものであればこれに限定されるものではなく、意味カテゴリの頻度を用いたり、意味カテゴリの頻度を全ての意味カテゴリの出現頻度で割った値を用いたりしてもよい。また、作成するベクトルは1つでなくてもよく、一部の単語列と全ての単語列からそれぞれベクトルを作成したりしてもよい。図7に示す意見性判定結果が付与された8個の文に対し、意味カテゴリベクトルを作成した結果を図10に示す。
ステップ300において、意見表現ベクトル算出部3は、単語分割部1により、メモリ(図示せず)に格納された文内の一部または全ての単語からなる単語列に対し、意見表現リスト記憶部6に格納されている意見の手掛かりとなる意見表現が記載された意見表現リストを参照して、単語列中に含まれる意見表現リスト中の意見表現の度合いに応じて算出される値を要素とする意見表現ベクトルを求め、メモリ(図示せず)等に格納する。
ここでは、図11の意見表現リストに記載された3種類の意見表現に対し、意見表現番号がjである意見表現が文中の全ての単語からなる単語列に含まれていれば“1”、含まれていなければ“0”をベクトルの第j要素における要素値とする3次元の意見表現ベクトルを求める。この例では、文中の全ての単語をベクトルの作成に用いたが、一部の単語を用いても構わない。
また、図11に示した意見表現リストをベクトルの作成に用いたが、意見表現はこれに限定されるものではなく、意見の手掛かりとなる他の意見表現を追加したり、図11から一部の意見表現を削除したりしても構わない。特に、意見表現として「〜して欲しい」のような欲求を表す表現や、「期待したい」のような期待を表す表現や、「〜すべき」のような主張を表す表現を加えることにより、従来の技術では扱えなかった意見を含む文を扱うことが可能となる。また、ベクトルの各要素の値は、意見表現が含まれているかどうかにより算出したが、意見表現の出現の度合いによるものであればこれに限定されるものではなく、意見表現の頻度を用いたり、意見表現の頻度を全ての意見表現の出現頻度で割った値を用いたりしてもよい。また、作成するベクトルは1つでなくてもよく、一部の単語列と全ての単語列からそれぞれベクトルを作成したりしてもよい。図7の8個の文に対し、意見表現ベクトルを作成した結果を図12に示す。
ステップ400において、意見性判定データベース作成部4は、各文に対して算出され、メモリ(図示せず)等に格納されている意味カテゴリベクトルと意見表現ベクトルに対し、2値分類可能な機械学習手法を用いて学習を行い、学習の結果得られたモデルを意見性判定データベース7に格納する。ここでは、2値分類可能な機械学習手法としてサポートベクターマシン(以下、SVMと呼ぶ)を用いる。SVMは、訓練データを正例と負例に分け、正例と負例の間のマージンが最大となるような分離超平面を求める2値分類の機械学習手法である。SVMの学習時には、データの特徴を表現したベクトルxとそのデータに対する分類結果y(+1、−1の2値)の組である訓練データ{(x,y),(x,y),…,(x,y)}を入力として、正例と負例を分類するための分類超平面をモデルとして出力する。
図7の文番号がi(1≦i≦8)である文に対し、図10で得られた意味カテゴリベクトルと図12で得られた意見表現ベクトルを連結したベクトル、すなわち、1≦j≦3の範囲における第j要素の要素値を意味カテゴリベクトルの第j要素とし、4≦j≦6の範囲における第j要素の要素値を意見表現ベクトルの第(j−3)要素とする6次元のベクトルをxとし、図7に記載された分類結果をyとして、訓練データ{(x,y),(x,y),…,(x,y)}を作成する。訓練データを作成した結果の例を図13に示す。この訓練データを入力としてSVMによりモデルを出力し、このモデルを意見性判定データベース7に格納する。SVMの学習では、カーネル関数と呼ばれる関数を用いることにより、訓練データを非線形に分類できるようになる。ここでは、カーネル関数として2次の多項式カーネルを用いる。カーネル関数は用いなくてもよいし、別のカーネル関数を用いてもよい。
また、この例では、2値分類可能な機械学習手法としてSVMを用いたが、ナイーブベイズ、決定木、決定リスト、k−最近隣法、ブースティングなどを適用してもよい。
[第2の実施の形態]
本実施の形態では、意見性判定装置について説明する。本実施の形態では、第1の実施の形態で作成された意見性判定データベースに基づいて、文の意見性を判定する。
図14は、本発明の第2の実施の形態における意見性判定装置の構成図である。
同図において、図5と同一構成部分については同一符号を付す。
意見性判定装置20は、単語分割部1、意味カテゴリベクトル算出部2、意見表現ベクトル算出部3、意見性判定部5、意見表現リスト記憶部6、意見性判定データベース7から構成される。
単語分割部1は、入力された文を形態素解析により単語に分割し、各単語に表記、品詞、及び単語の意味的な分類を表す意味カテゴリを付与し、メモリ(図示せず)等に格納する。
意味カテゴリベクトル算出部2は、メモリ(図示せず)に格納されている文内の一部または全ての単語からなる単語列に対し、単語列中に含まれる意味カテゴリの出現の度合いに応じて算出される値を要素値とする意味カテゴリベクトルを求め、メモリ(図示せず)等に格納する。
意見表現ベクトル算出部3は、メモリ(図示せず)に格納されている文内の一部または全ての単語からなる単語列に対し、意見表現リスト記憶部6に格納された意見かどうかを表す手掛かりとなる表現が記載された意見表現リストを参照して、単語列中に含まれる意見表現リスト中の意見表現の出現の度合いに応じて算出される値を要素値とする意見表現ベクトルを求め、メモリ(図示せず)等に格納する。
意見性判定部5は、メモリ(図示せず)に格納されている意味カテゴリベクトルと意見表現ベクトルに対し、2値分類可能な機械学習手法を用いて意見性判定データベース7に格納されたモデルに基づき分類を行い、分類の結果得られた値から文の意見性を判定する。
以下に、上記の構成における動作を説明する。
図15は、本発明の第2の実施の形態における意見性判定装置の動作のフローチャートである。
ステップ500) まず、単語分割部1により、文を形態素解析により単語に分割し、各単語に表記、品詞、及び単語の意味的な分類を表す意味カテゴリを付与し、メモリ(図示せず)等に格納する。
ステップ600) 次に、意味カテゴリベクトル算出部2により、文内の一部または全ての単語からなる単語列に対し、単語列中に含まれる意味カテゴリの出現の度合いに応じて算出される値を要素値とする意味カテゴリベクトルを求め、メモリ(図示せず)等に格納する。
ステップ700) 次に、意見表現ベクトル算出部3により、文内の一部または全ての単語からなる単語列に対し、意見表現リスト記憶部6に格納されている意見かどうかを表す手掛かりとなる表現が記載された意見表現リストを参照して、単語列中に含まれる意見表現リスト中の意見表現の出現の度合いに応じて算出される値を要素値とする意見表現ベクトルを求め、メモリ(図示せず)等に格納する。
ステップ800) 最後に、意見性判定部5により、メモリ(図示せず)に格納されている意味カテゴリベクトルと意見表現ベクトルに対し、2値分類可能な機械学習手法を用いて意見性判定データベース7に格納されたモデルに基づき分類を行い、分類の結果得られた値から文の意見性を判定する。
以下に、上記の動作について具体例を挙げて説明する。
以下では、図16に示す入力文が意見かどうかを判定する場合について説明する。
ステップ500において、単語分割部1により、図16の文を形態素解析により単語に分割し、各単語に表記、品詞、及び単語の意味的な分類を表す意味カテゴリを付与する。前述の第1の実施の形態におけるステップ100と同様であるため、詳細は省略する。図16の入力文を単語に分割した結果を図17に示す。図17に示す結果はメモリ(図示せず)に格納しておくものとする。
ステップ600において、意味カテゴリベクトル算出部2により、メモリ(図示せず)に格納されている一部または全ての単語からなる単語列に対し、単語列中に含まれる意味カテゴリの出現の度合いに応じて算出される値を要素値とする意味カテゴリベクトルを求め、メモリ(図示せず)等に格納する。当該処理は、前述の第1の実施の形態におけるステップ200の処理と同様であるため、詳細については省略する。図17に示す単語列から意味カテゴリベクトルを作成した結果を図18に示す。
ステップ700では、意見表現ベクトル算出部3により、メモリ(図示せず)に格納されている一部または全ての単語からなる単語列に対し、意見かどうかの手掛かりとなる意見表現が記載された意見表現リスト5を参照して、単語列中に含まれる意見表現リスト中の意見表現の出現の度合いに応じて算出される値を要素値とする意見表現ベクトルを求め、メモリ(図示せず)等に格納する。当該処理は、前述の第1の実施の形態におけるステップ300の処理と同様であるため、詳細については省略する。図17の単語列から意見表現ベクトルを作成した結果を図19に示す。
ステップ800では、意見性判定部5により、メモリ(図示せず)に格納されている意味カテゴリベクトルと意見表現ベクトルに対し、2値分類可能な機械学習手法を用いて、意見性判定データベース7に格納されたモデルに基づき分類を行い、分類の結果得られた値から文の意見性を判定する。
SVMの分類時には、データの特徴を表現したベクトルを入力として、モデルに基づき正例か負例かを表す尤度を出力する。尤度が正であれば分類結果は“+1”、負であれば分類結果は“−1”となる。最終的に、分類結果が+1である文は意見であり、−1である文は意見でないという判定結果を得る。
意見性判定部5は、意味カテゴリベクトル算出部2により取得した図18に示す意味カテゴリベクトルと、意見表現ベクトル算出により取得した図19に示す意見表現ベクトルを連結したベクトルを作成する。連結したベクトルを作成した結果を図20に示す。このベクトルを入力として、意見性判定データベース7から読み込んだモデルに基づき、SVMにより尤度を出力すると、尤度の値は、0.99となり、分類結果は“+1”であるので、図16の文は「意見」であるという判定結果を得る。
同様にして、図21に示す文から求めたベクトルを入力としてSVMにより尤度を出力すると、尤度の値は−0.99となり、分類結果は“−1”であるので、図21の文は意見ではないという判定結果を得る。
図14の文と図21の文は共に「高い」という意見表現を持つが、意味と意見表現の組み合わせを考慮することにより、「価格が高い」という文は意見であり、「建物が高い」という文は意見でないと正しく判定することができる。このように、意見かどうかを判定するための手掛かりとなる意見表現だけでなく、単語の意味カテゴリを用いて文中に含まれる単語の意味を表現し、2値分類可能な機械学習手法を用いた学習・分類を行って意味と意見表現の組み合わせを考慮することにより、文の意見かどうかを正しく判定することができる。上記の意見性判定装置における実施の形態では、意見性判定ステップ(ステップ800)において、2値分類可能な機械学習手法により出力される値のみを用いて文が意見かどうかの判定を行ったが、この値だけでなく、特定意見表現記憶部(図示せず)に格納された意見・気持ち・感情を特に強く表す特定意見表現が記載された特定意見表現リスト中の特定意見表現を含むかどうかにより得られる値も用いて文の意見性を判定することもできる。
特定意見表現リストの例を図22に示す。特定意見表現リストは、意見・気持ち・感情を特に強く表す表現であればこれに限るものではなく、他の特定意見表現を追加したり、一部の特定意見表現を削除したりしても構わない。また、意見表現リスト記憶部6に格納された意見表現リスト中の意見表現を含んでいても構わない。
ここでは、特定意見表現リスト中の特定意見表現が文中に含まれていれば、SVMにより出力される尤度の値に2を加えた値の正負により分類結果を求め、意見かどうかを判定するものとする。ここでは、どの特定意見表現が含まれていても、“2”という一定の値を加えたが、特定意見表現毎に異なる値を加えてもよい。複数の特定意見表現が含まれていた場合には、それぞれの特定意見表現に対する値を全て加えたり、その中の最大の値だけを加えたりしてもよい。特定意見表現が含まれていた場合の計算方法はこれに限定されるものではない。また、文中の全ての単語列から特定意見表現が含まれているかを調べてもよいし、述部などの一部の単語列から特定意見表現が含まれているかを調べてもよい。述部の単語列を用いることで、「この風景は美しい」という文は意見で、「美しい風景の町に行った」という文は意見ではないというような判定を行うことができる。
図23の文から求めたベクトルを入力としてSVMにより尤度を出力すると、尤度の値は、図21の文と同じく−0.99となる。ここで、図23の文は図22の特定意見表現リスト中の「思う」という特定意見表現を含んでいるので、−0.99に“2”を加えた値を求めると、その値は1.01となる。この値は正であるから、分類結果は+1となり、図23の文は意見と判定される。
なお、上記の第1の実施の形態における図5に示す意見性判定データベース作成装置及び、第2の実施の形態における図14に示す意見性判定装置の機能をプログラムとして構築し、意見性判定データベース作成装置、意見性判定装置として利用されるコンピュータにインストールしてCPU等の制御手段に実行させる、または、ネットワークを介して流通させることが可能である。
また、構築されたプログラムをハードディスク装置や、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、意見性判定データベース作成装置、意見性判定装置として利用されるコンピュータにインストールして実行させる、または、配布することが可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、製品についての顧客満足度の調査などに利用可能である。
本発明の原理を説明するための図(その1)である。 本発明の原理構成図(その1)である。 本発明の原理を説明するための図(その2)である。 本発明の原理構成図(その2)である。 本発明の第1の実施の形態における意見性判定データベース作成装置の構成図である。 本発明の第1の実施の形態における意見性判定データベース作成装置の動作のフローチャートである。 本発明の第1の実施の形態における入力文の例である。 本発明の第1の実施の形態における意味カテゴリと単語の対応の例である。 本発明の第1の実施の形態における単語分割の例である。 本発明の第1の実施の形態における文に対する意味カテゴリベクトルの例である。 本発明の第1の実施の形態における意見表現リストの例である。 本発明の第1の実施の形態における作成した意見表現ベクトルの例である。 本発明の第1の実施の形態におけるSVMの学習時における入力の訓練データの例である。 本発明の第2の実施の形態における意見性判定装置の構成図である。 本発明の第2の実施の形態における意見性判定装置の動作のフローチャートである。 本発明の第2の実施の形態における入力文の例である。 本発明の第2の実施の形態における単語分割結果の例である。 本発明の第2の実施の形態における意味カテゴリベクトルの例である。 本発明の第2の実施の形態における意見表現ベクトルの例である。 本発明の第2の実施の形態における連結したベクトルの例である。 本発明の第2の実施の形態における入力文の例である。 本発明の第2の実施の形態における特定意見表現リストの例である。 本発明の第2の実施の形態における入力文の例である。
符号の説明
1 単語分割手段、単語分割部
2 意味カテゴリベクトル算出手段、意味カテゴリベクトル算出部
3 意見表現ベクトル算出手段、意見表現ベクトル算出部
4 意見性判定データベース作成手段、意見性判定データベース作成部
5 意見性判定手段、意見性判定部
6 意見表現リスト記憶手段、意見表現リスト記憶部
7 意見性判定データベース
8 文記憶部

Claims (10)

  1. 単語分割手段、意味カテゴリベクトル算出手段、意見表現ベクトル算出手段、意見性判定データベース作成手段と、を有する意見性判定データベース作成装置において、製品・人物・出来事を含む対象事物について書かれた複数の文を入力として、入力とは異なる文に対しても意見かどうかを判定するためのデータベースを作成する意見性判定データベース作成方法であって、
    前記単語分割手段が、入力された意見であるかどうかの判定結果が付与された複数の文を形態素解析により単語に分割し、各単語に表記、品詞及び単語の意味的な分類を表す意味カテゴリを付与する単語分割ステップと、
    前記意味カテゴリベクトル算出手段が、前記文内の一部または全ての単語からなる単語列に対し、該単語列中に含まれる意味カテゴリの出現の度合いに応じて算出される値を要素値とする意味カテゴリベクトルを求める意味カテゴリベクトル算出ステップと、
    前記意見表現ベクトル算出手段が、前記文内の一部または全ての単語からなる単語列に対し、意見表現リスト記憶手段に格納されている意見かどうかを表す手掛かりとなる意見表現が記載された意見表現リストを参照して、単語列中に含まれる該意見表現リスト中の意見表現の度合いに応じて算出される値を要素値とする意見表現ベクトルを求める意見表現ベクトル算出ステップと、
    前記意見性判定データベース作成手段が、前記各文に対して算出された前記意味カテゴリベクトルと前記意見表現ベクトルに対し、2値分類可能な機械学習手法を用いて学習を行い、学習の結果得られたモデルを意見性判定データベースに格納する意見性判定データベース作成ステップと、
    を行うことを特徴とする意見性判定データベース作成方法。
  2. 製品・人物・出来事を含む対象事物について書かれた複数の文を入力として、入力とは異なる文に対しても意見かどうかを判定するためのデータベースを作成する意見性判定データベース作成装置であって、
    入力された意見であるかどうかの判定結果が付与された複数の文を形態素解析により単語に分割し、各単語に表記、品詞及び単語の意味的な分類を表す意味カテゴリを付与する単語分割手段と、
    前記文内の一部または全ての単語からなる単語列に対し、該単語列中に含まれる意味カテゴリの出現の度合いに応じて算出される値を要素値とする意味カテゴリベクトルを求める意味カテゴリベクトル算出手段と、
    前記文内の一部または全ての単語からなる単語列に対し、意見表現リスト記憶手段に格納されている意見かどうかを表す手掛かりとなる意見表現が記載された意見表現リストを参照して、単語列中に含まれる該意見表現リスト中の意見表現の度合いに応じて算出される値を要素値とする意見表現ベクトルを求める意見表現ベクトル算出手段と、
    前記各文に対して算出された前記意味カテゴリベクトルと前記意見表現ベクトルに対し、2値分類可能な機械学習手法を用いて学習を行い、学習の結果得られたモデルを意見性判定データベースに格納する意見性判定データベース作成手段と、
    を有することを特徴とする意見性判定データベース作成装置。
  3. コンピュータを、
    請求項2記載の意見性判定データベース作成装置として機能させることを特徴とする意見性判定データベース作成プログラム。
  4. コンピュータを、
    請求項2記載の意見性判定データベース作成装置として機能させる意見性判定データベース作成プログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。
  5. 単語分割手段、意味カテゴリベクトル算出手段、意見表現ベクトル算出手段、意見性判定手段、請求項1で作成された意見性判定データベースと、を有する意見性判定装置において、製品・人物・出来事を含む対象事物について書かれた文から、該文が意見かどうかを判定する意見性判定方法であって、
    前記単語分割手段が、前記文を形態素解析により単語に分割し、各単語に表記、品詞、及び単語の意味的な分類を表す意味カテゴリを付与する単語分割ステップと、
    前記意味カテゴリベクトル算出手段が、前記文内の一部または全ての単語からなる単語列に対し、該単語列中に含まれる意味カテゴリの出現の度合いに応じて算出される値を要素値とする意味カテゴリベクトルを求める意味カテゴリベクトル算出ステップと、
    前記意見表現ベクトル算出手段が、前記文内の一部または全ての単語からなる単語列に対し、意見表現リスト記憶手段に格納されている、意見かどうかを表す手掛かりとなる意見表現が記載された意見表現リストを参照して、該単語列中に含まれる該意見表現リスト中の意見表現の出現の度合いに応じて算出される値を要素値とする意見表現ベクトルを求める意見表現ベクトル算出ステップと、
    前記意見性判定手段が、前記文に対して算出された前記意味カテゴリベクトルと前記意見表現ベクトルに対し、2値分類可能な機械学習手法を用いて前記意見性判定データベースに格納されたモデルに基づき分類を行い、分類の結果から得られた値から文の意見性を判定する意見性判定ステップと、
    を行うことを特徴とする意見性判定方法。
  6. 前記意見性判定ステップにおいて、
    前記意見性判定手段が、前記2値分類可能な機械学習手法を用いて分類した結果得られた値だけでなく、記憶手段に格納された意見・気持ち・感情を特に強く表す特定意見表現が記載された特定意見表現リスト中の特定意見表現を含むかどうかにより得られる値も用いて文の意見性を判定する、
    請求項5記載の意見性判定方法。
  7. 製品・人物・出来事を含む対象事物について書かれた文から、該文が意見かどうかを判定する意見性判定装置であって、
    前記文を形態素解析により単語に分割し、各単語に表記、品詞、及び単語の意味的な分類を表す意味カテゴリを付与する単語分割手段と、
    前記文内の一部または全ての単語からなる単語列に対し、該単語列中に含まれる意味カテゴリの出現の度合いに応じて算出される値を要素値とする意味カテゴリベクトルを求める意味カテゴリベクトル算出手段と、
    前記文内の一部または全ての単語からなる単語列に対し、意見表現リスト記憶手段に格納されている、意見かどうかを表す手掛かりとなる意見表現が記載された意見表現リストを参照して、該単語列中に含まれる該意見表現リスト中の意見表現の出現の度合いに応じて算出される値を要素値とする意見表現ベクトルを求める意見表現ベクトル算出手段と、
    前記文に対して算出された前記意味カテゴリベクトルと前記意見表現ベクトルに対し、2値分類可能な機械学習手法を用いて、請求項2で作成された意見性判定データベースに格納されたモデルに基づき分類を行い、分類の結果から得られた値から文の意見性を判定する意見性判定手段と、
    を有することを特徴とする意見性判定装置。
  8. 前記意見性判定手段は、
    前記2値分類可能な機械学習手法を用いて分類した結果得られた値だけでなく、記憶手段に格納された意見・気持ち・感情を特に強く表す特定意見表現が記載された特定意見表現リスト中の特定意見表現を含むかどうかにより得られる値も用いて文の意見性を判定する手段を含む請求項7記載の意見性判定装置。
  9. コンピュータを、
    請求項7または8記載の意見性判定装置として機能させることを特徴とする意見性判定プログラム。
  10. コンピュータを、
    請求項7または8記載の意見性判定装置として機能させる意見性判定プログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。
JP2006066308A 2006-03-10 2006-03-10 意見性判定データベース作成方法及び装置及びプログラム及び意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 Active JP4054046B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006066308A JP4054046B2 (ja) 2006-03-10 2006-03-10 意見性判定データベース作成方法及び装置及びプログラム及び意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006066308A JP4054046B2 (ja) 2006-03-10 2006-03-10 意見性判定データベース作成方法及び装置及びプログラム及び意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JP2007241881A true JP2007241881A (ja) 2007-09-20
JP4054046B2 JP4054046B2 (ja) 2008-02-27

Family

ID=38587326

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006066308A Active JP4054046B2 (ja) 2006-03-10 2006-03-10 意見性判定データベース作成方法及び装置及びプログラム及び意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP4054046B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009192311A (ja) * 2008-02-13 2009-08-27 Nippon Telegr & Teleph Corp <Ntt> 発雷予測装置およびその方法、プログラム
JP2009192312A (ja) * 2008-02-13 2009-08-27 Nippon Telegr & Teleph Corp <Ntt> 発雷予測装置およびその方法、プログラム
JP2011065380A (ja) * 2009-09-16 2011-03-31 Nippon Hoso Kyokai <Nhk> 意見分類装置およびプログラム
WO2016163043A1 (ja) * 2015-04-10 2016-10-13 株式会社ソリトンシステムズ 電子メール誤送信判定装置、電子メール送信システム及び記録媒体
CN112256849A (zh) * 2020-10-20 2021-01-22 深圳前海微众银行股份有限公司 模型训练方法、文本检测方法、装置、设备和存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009192311A (ja) * 2008-02-13 2009-08-27 Nippon Telegr & Teleph Corp <Ntt> 発雷予測装置およびその方法、プログラム
JP2009192312A (ja) * 2008-02-13 2009-08-27 Nippon Telegr & Teleph Corp <Ntt> 発雷予測装置およびその方法、プログラム
JP2011065380A (ja) * 2009-09-16 2011-03-31 Nippon Hoso Kyokai <Nhk> 意見分類装置およびプログラム
WO2016163043A1 (ja) * 2015-04-10 2016-10-13 株式会社ソリトンシステムズ 電子メール誤送信判定装置、電子メール送信システム及び記録媒体
US10311408B2 (en) 2015-04-10 2019-06-04 Soliton Systems K.K. Electronic mail wrong transmission determination apparatus, electronic mail transmission system, and recording medium
US11100471B2 (en) 2015-04-10 2021-08-24 Soliton Systems K.K. Warning apparatus for preventing electronic mail wrong transmission, electronic mail transmission system, and program
CN112256849A (zh) * 2020-10-20 2021-01-22 深圳前海微众银行股份有限公司 模型训练方法、文本检测方法、装置、设备和存储介质
CN112256849B (zh) * 2020-10-20 2024-02-13 深圳前海微众银行股份有限公司 模型训练方法、文本检测方法、装置、设备和存储介质

Also Published As

Publication number Publication date
JP4054046B2 (ja) 2008-02-27

Similar Documents

Publication Publication Date Title
Arora et al. Character level embedding with deep convolutional neural network for text normalization of unstructured data for Twitter sentiment analysis
RU2678716C1 (ru) Использование автоэнкодеров для обучения классификаторов текстов на естественном языке
US11210470B2 (en) Automatic text segmentation based on relevant context
CN110110062B (zh) 机器智能问答方法、装置与电子设备
US9477652B2 (en) Machine learning dialect identification
Jin et al. A novel lexicalized HMM-based learning framework for web opinion mining
US11544177B2 (en) Mapping of test cases to test data for computer software testing
KR20190125153A (ko) 텍스트 기반 사용자심리상태예측 및 콘텐츠추천 장치 및 그 방법
KR102310487B1 (ko) 속성 단위 리뷰 분석 장치 및 방법
CN113011186B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN112711948A (zh) 一种中文句子的命名实体识别方法及装置
CN116821318B (zh) 基于大语言模型的业务知识推荐方法、装置及存储介质
US11755668B1 (en) Apparatus and method of performance matching
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
US20230169058A1 (en) Efficient Embedding Table Storage and Lookup
CN111400584A (zh) 联想词的推荐方法、装置、计算机设备和存储介质
CN110705304A (zh) 一种属性词提取方法
Patel et al. Dynamic lexicon generation for natural scene images
Liu et al. Open intent discovery through unsupervised semantic clustering and dependency parsing
JP4054046B2 (ja) 意見性判定データベース作成方法及び装置及びプログラム及び意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
Bodrunova et al. Topics in the Russian Twitter and relations between their interpretability and sentiment
JP5812534B2 (ja) 質問応答装置、方法、及びプログラム
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
US20230178073A1 (en) Systems and methods for parsing and correlating solicitation video content
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070918

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071206

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101214

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4054046

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101214

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111214

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111214

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121214

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121214

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131214

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350