JP2008140359A - 評価情報抽出装置、評価情報抽出方法およびそのプログラム - Google Patents

評価情報抽出装置、評価情報抽出方法およびそのプログラム Download PDF

Info

Publication number
JP2008140359A
JP2008140359A JP2007099571A JP2007099571A JP2008140359A JP 2008140359 A JP2008140359 A JP 2008140359A JP 2007099571 A JP2007099571 A JP 2007099571A JP 2007099571 A JP2007099571 A JP 2007099571A JP 2008140359 A JP2008140359 A JP 2008140359A
Authority
JP
Japan
Prior art keywords
expression
information
evaluation
word
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007099571A
Other languages
English (en)
Other versions
JP4576397B2 (ja
Inventor
Hisako Asano
久子 浅野
Yoshihiro Matsuo
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007099571A priority Critical patent/JP4576397B2/ja
Publication of JP2008140359A publication Critical patent/JP2008140359A/ja
Application granted granted Critical
Publication of JP4576397B2 publication Critical patent/JP4576397B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】入力されたテキストデータから対象表現、属性表現および評価表現よりなる評価情報を抽出して出力する際、様々なドメインに対しコストをかけずに評価情報の各要素の関係を抽出でき、関連付けて出力可能とすること。
【解決手段】形態素解析部6、固有表現抽出部7および係り受け解析部8により、テキストデータから単語、固有表現、文節および係り受け情報を抽出し、評価表現抽出部9により、評価表現辞書3および評価表現ルール4を参照して単語情報から評価表現情報を抽出し、属性表現抽出部10により、カテゴリフィルタを参照して単語、固有表現、文節、係り受けおよび評価表現情報から属性表現情報を抽出し、対象表現抽出部11により、単語、固有表現、文節、係り受け、評価表現情報および属性表現情報から対象表現情報を抽出し、評価情報作成部12により評価情報を出力する。
【選択図】図1

Description

本発明は、入力されたテキストデータから、ある対象に関する意見や評価等の情報を抽出する技術に関する。
近年、入力されたテキストデータから、ある対象に関する意見や評価等の情報である評価情報を抽出し、整理して提示する技術についての研究が進んでいる。ここで、評価情報を構成する要素としては、評価する対象を表す対象表現(情報)、評価する対象の仕様(性質や特徴等)やその一部分など(の具体的な評価項目)を表す属性表現(情報)、意見や評価そのものを表す評価表現(情報)がある(なお、上記以外の要素として、評価を行う人や組織を表す評価者(情報)を含む場合もあるが、本発明では省略する。)(非特許文献1、2参照)。
そして、テキストデータから評価情報の各要素を抽出する(例えば、テキスト「○○レストランのオムライスはおいしいけど、カレーはまずい」から、評価情報の各要素「対象表現=○○レストラン、属性表現=オムライス;カレー、評価表現=おいしい;まずい」を抽出する)、例えば評価表現を抽出する手法としては、評価表現(の単語情報)とその表現が有する評価極性の組の集合からなる評価表現辞書を用いて行う方法が提案され、また、特に属性表現を抽出する手法としては、属性表現の集合からなる属性辞書を作成して行う方法が一般的である(非特許文献1(特に「3.4.1 要素抽出」)参照)。
しかし、評価情報の各要素を関係を抽出し、関連付けて出力する(例えば、テキスト「○○レストランのオムライスはおいしいけど、カレーはまずい」および評価情報の各要素「対象表現=○○レストラン、属性表現=オムライス;カレー、評価表現=おいしい;まずい」から、関連付けられた評価情報「(対象表現,属性表現,評価表現)=(○○レストラン,オムライス,おいしい);(○○レストラン,カレー,まずい)」を出力する)手法については、まだ精度の良い手法は確立されていない(非特許文献1(特に「3.4.2 関係抽出」)参照)。
なお、評価情報の各要素の関係を抽出する手法として、あるドメイン(例えば、「車」)におけるコーパスを用いてモデルを作成して行う方法が提案されている(非特許文献2参照)。
乾 孝司,他「テキストを対象とした評価情報の分析に関する研究動向」自然言語処理,言語処理学会、2006年7月,Vol.13,No.3,pp.201−241 小林のぞみ,他「照応解析手法を利用した属性−評価値対および意見性情報の抽出」言語処理学会第11回年次大会論文集,2005年3月,pp.436−439
しかし、前述したモデルの作成には、その素性として、表層文字列やそのドメインにおける共起用例を用いているため、ドメイン依存度が非常に高く、他のドメインへ適用する場合には、大規模なコーパスの整備など膨大なコストがかかるという問題があった。
また、「私の車はデザインがかっこいい」というテキストにおける評価情報は、(対象表現,属性表現,評価表現)=(私の車,デザイン,かっこいい)であるが、「私の車」のように、他の者が特定できない対象表現を含む評価情報は、当該他の者にとっては、あまり意味がないと考えられる(「私の車」の車種が特定されて、他の者にとっては意味がある情報となる)。
さらにまた、評価情報を利用する際には、特定の評価情報のみを収集したいという場合もあり得る(例えば、「各種携帯電話の評価情報を知りたい」、「デザインの評価がよいものなら何でも知りたい」、「特定の車種の評価情報を知りたい」等)。
本発明は、上記の点に鑑みなされたもので、対象表現を固有表現に相当する語(=他者が特定できるもの)として、様々なドメインに対しコストをかけずに評価情報の各要素の関係を抽出でき、関連付けて出力可能な評価情報抽出装置、その方法およびプログラムを提供することを目的とする。
本発明は、入力されたテキストデータに対し、少なくとも一般単語辞書を用いて形態素解析を行い、単語情報を出力し、
前記単語情報に対して固有表現抽出を行い、固有表現情報を出力し、
前記単語情報に対して係り受け解析を行い、文節情報および係り受け情報を出力し、
少なくとも前記単語情報に対し、少なくとも評価表現辞書および評価表現ルールを用いて評価表現抽出を行い、評価表現情報を出力し、
前記評価表現情報に対し、前記単語情報、固有表現情報、文節情報、係り受け情報およびカテゴリフィルタを用いて属性表現抽出を行い、属性表現情報を出力し、
前記評価表現情報に対し、前記単語情報、固有表現情報、文節情報、係り受け情報および属性表現情報を用いて固有表現に相当する対象表現抽出を行い、対象表現情報を出力し、
前記評価表現情報、属性表現情報および対象表現情報を用いて対象表現、属性表現および評価表現よりなる評価情報を作成することを特徴とする。
本発明によれば、評価表現に対し、単語情報、固有表現情報、文節情報および係り受け情報を用いて属性表現を抽出し、また、単語情報、固有表現情報、文節情報、係り受け情報および属性表現情報を用いて固有表現に相当する対象表現を抽出することにより、ドメインに依存したコーパスからモデルを作成するような必要がなく、様々なドメインに対しコストをかけずに評価情報の各要素の関係を抽出でき、固有表現に相当する語からなる対象表現を含む評価情報を抽出することができる。
以下、この発明を図示の実施の形態により説明する。
<第1の実施の形態>
図1は本発明の第1の実施の形態に係る評価情報抽出装置の概要を示すもので、図中、1は一般単語辞書、2は対象リスト単語辞書、3は評価表現辞書、4は評価表現ルール、5はカテゴリフィルタ、6は形態素解析部、7は固有表現抽出部、8は係り受け解析部、9は評価表現抽出部、10は属性表現抽出部、11は対象表現抽出部、12は評価情報作成部である。
図2は本発明の第1の実施の形態に係る評価情報抽出装置のハードウェア構成、ここではコンピュータを用いて構成した例を示すもので、図中、21は一般単語辞書記憶部、22は対象リスト単語辞書記憶部、23は評価表現辞書記憶部、24は評価表現ルール記憶部、25はカテゴリフィルタ記憶部、26は入力文書記憶部、27は単語列記憶部、28は中央処理装置(CPU)である。
一般単語辞書記憶部21、対象リスト単語辞書記憶部22、評価表現辞書記憶部23、評価表現ルール記憶部24およびカテゴリフィルタ記憶部25はそれぞれ、前述した一般単語辞書1、対象リスト単語辞書2、評価表現辞書3、評価表現ルール4およびカテゴリフィルタ5を記憶している。
入力文書記憶部26は、入力文書もしくはこれに加えて対象キーワード(後述する)を記憶する。単語列記憶部27は、前述した形態素解析部6、固有表現抽出部7、係り受け解析部8、評価表現抽出部9、属性表現抽出部10、対象表現抽出部11および評価情報作成部12によって作成される各段階の単語列を記憶する。
中央処理装置(CPU)28は、図3乃至図6にフローチャートで示すプログラムに従って、前述した各部を制御するとともに、この際、前述した形態素解析部6、固有表現抽出部7、係り受け解析部8、評価表現抽出部9、属性表現抽出部10、対象表現抽出部11および評価情報作成部12を構成する。
以下、図3に従い、本実施の形態における評価情報抽出の全体的な流れについて説明する。
まず、CPU28は、入力文書もしくはこれに加えて対象キーワードが図示しないキーボード等から直接入力され又は記憶媒体から読み出されて入力され又は通信媒体を介して他の装置等から入力されると、これを入力文書記憶部26に記憶する(s1)。
次に、CPU28は、その形態素解析部6により、入力文書記憶部26から入力文書(または入力文書および対象キーワード)を読み出し(s2)、一般単語辞書記憶部21に記憶された一般単語辞書1および対象リスト単語辞書記憶部22に記憶された対象リスト単語辞書2を参照し、後述する形態素解析を行って単語情報を作成し(s3)、これを単語列(単語情報)として単語列記憶部27に記憶する(s4)。
次に、CPU28は、その固有表現抽出部7により、単語列記憶部27から単語列(単語情報)を読み出し(s5)、後述する固有表現抽出を行って固有表現情報を生成し(s6)、これを追加した単語列(単語情報、固有表現情報)を単語列記憶部27に記憶する(s7)。
次に、CPU28は、その係り受け解析部8により、単語列記憶部27から単語列(単語情報、固有表現情報)を読み出し(s8)、後述する係り受け解析を行って文節情報および係り受け情報を生成し(s9)、これを追加した単語列(単語情報、固有表現情報、文節情報、係り受け情報)を単語列記憶部27に記憶する(s10)。
なお、実際には係り受け解析処理(s9)に固有表現情報は必要なく、固有表現抽出工程(s5〜s7)と係り受け解析工程(s8〜s10)の順序は逆でも良い。
次に、CPU28は、その評価表現抽出部9により、単語列記憶部27から単語列(単語情報、固有表現情報、文節情報、係り受け情報)を読み出し(s11)、評価表現辞書記憶部23に記憶された評価表現辞書3および評価表現ルール記憶部24に記憶された評価表現ルール4を参照し、後述する評価表現抽出を行って評価表現情報を作成し(s12)、これを追加した単語列(単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報)を単語列記憶部27に記憶する(s13)。
次に、CPU28は、その属性表現抽出部10により、単語列記憶部27から単語列(単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報)を読み出し(s14)、カテゴリフィルタ記憶部25に記憶されたカテゴリフィルタ5を参照し、後述する属性表現抽出を行って属性表現情報を作成し(s15)、これを追加するとともに必要に応じて評価表現情報を修正した単語列(単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報、属性表現情報)を単語列記憶部27に記憶する(s16)。
次に、CPU28は、その対象表現抽出部11により、単語列記憶部27から単語列(単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報、属性表現情報)を読み出し(s17)、後述する対象表現抽出を行って対象表現情報を作成し(s18)、これを追加した単語列(単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報、属性表現情報、対象表現情報)を単語列記憶部27に記憶する(s19)。
最後に、CPU28は、その評価情報作成部12により、単語列記憶部27から単語列(単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報、属性表現情報、対象表現情報)を読み出し(s20)、組となった対象表現情報、属性表現情報および評価表現情報にそれぞれ対応する単語の表記を対象表現、属性表現および評価表現とする評価情報を作成して(s21)出力し(s22)、処理を終了する。
次に、本実施の形態における評価情報抽出について、各部の構成とともに詳細に説明する。
一般単語辞書1は、周知の形態素解析技術で用いられる単語辞書に相当するもので、少なくとも1つの文字を含む単語について、単語毎にその表記、品詞、読み、意味カテゴリ等の単語情報を登録してなるものである。
対象リスト単語辞書2は、周知の形態素解析技術で用いられる単語辞書のうち、一般にユーザ辞書と呼ばれるユーザが任意に登録可能な辞書に相当するもので、対象侯補となり得る単語について、一般単語辞書1の登録単語と識別するために、例えば単語情報のうちの品詞を特殊な品詞として登録したり、単語情報に識別用の情報(フィールド)を含めて登録してなるものである。なお、この対象リスト単語辞書2はなくても良い。
評価表現辞書3は、少なくとも1つの単語を含む単語列からなる評価表現について、その単語列を構成する各単語の単語情報(例えば、表記、品詞、読みの組)と、当該評価表現の一般的な極性(例えば、肯定(P)、否定(N)、不明(PN))とを登録してなるものである。
図7に評価表現辞書3の一例を示す。例えば、「暑/形容詞語幹/アツ」は、表記が「暑」、品詞が「形容詞語幹」、読みが「アツ」である単語を表し、この「暑」の極性をPNとしている。また、「自由/名詞/ジユウ 自在/名詞/ジザイ」は、表記が「自由」、品詞が「名詞」、読みが「ジユウ」である単語と、これに続く表記が「自在」、品詞が「名詞」、読みが「自在」である単語とからなる単語列を表し、この単語列「自由自在」の極性をPNとしている。
評価表現ルール4は、評価表現の記述に関するルールについて、そのルール番号と、評価表現を構成する各単語の正規表現からなる評価表現パターンと、当該評価表現の極性とを登録してなるものである。なお、単語の正規表現の外、固有表現情報、文節情報、係り受け情報の正規表現を用いても良い。
図8に評価表現ルール4の一例を示す。図8において、<>は1個(の単語)の正規表現、(?:<>)*は0個以上(の単語)の正規表現、(?:<>)?は0または1個(の単語)の正規表現に相当し、「e:」は評価表現に対する条件、「p:」は品詞に対する条件、「h:」は表記に対する条件であることを示す。例えばルール番号1の評価表現パターン「<e:B−P>(?:<e:I−P>)*(?:<p:形容詞接尾辞>)?」は、「<e:B−P>」がP極性の評価表現の先頭の単語の正規表現、「(?:<e:I−P>)*」が0個以上のP極性の評価表現の中間の単語の正規表現、「(?:<p:形容詞接尾辞>)?」が0または1個の品詞が形容詞接尾辞である単語の正規表現を表し、このパターンにマッチした評価表現の極性はPであることを表している。
カテゴリフィルタ5は、抽出する評価情報のカテゴリを限定するために、単語情報として付与される意味カテゴリのうち、抽出すべき評価情報のカテゴリに対応する意味カテゴリを登録してなるものである。
図9にカテゴリフィルタの一例、ここでは商品系の評価情報を抽出する場合の例を示す。この例では、カテゴリ「無生物」もしくはその下位カテゴリ、あるいはカテゴリ「創作物」もしくはその下位カテゴリであれば通過する。
形態素解析部6は、入力文書または入力文書および対象キーワードを入力とし、一般単語辞書1および対象リスト単語辞書2を参照して、入力文書を単語に分割し、各単語に表記、品詞、読み、意味カテゴリ等の単語情報を付与した単語列を出力する。
ここで、入力文書は、図示しないキーボード等から直接入力され又は記憶媒体から読み出されて入力され又は通信媒体を介して他の装置から入力される、少なくとも1つの文を含むテキストデータである。また、対象キーワードは、図示しないキーボード等から直接入力され又は記憶媒体から読み出されて入力され又は通信媒体を介して他の装置から入力される、前述した対象リスト単語辞書2に登録されている単語と同等の扱いをする単語である。
この際、形態素解析部6への入力が入力文書のみの場合は、そのまま入力文書に対して周知の形態素解析を行う。一方、形態素解析部6への入力が、入力文書および対象キーワードの場合は、入力文書中から対象キーワードと一致する文字列を検索し、その文字列に対して、対象リスト単語辞書2と同等の単語情報(例えば、特殊な品詞)を指定した単語情報付入力文書を作成し、この単語情報付入力文書に対して形態素解析を行う。
単語情報付入力文書を形態素解析する手法としては、例えば、特許第3379643号「形態素解析方法および形態素解析プログラムを記録した記録媒体」等に記載された手法を用いることができる。
固有表現抽出部7は、単語列(単語情報)を入力とし、周知の固有表現抽出技術を用いて、人名、地名、組織名といった固有表現のクラスとその位置(当該固有表現の先頭の単語か、それ以外(継続)の単語かを表す情報)からなる固有表現情報を各単語に付与する。
固有表現抽出技術としては、例えば、特開2004−46775号公報「固有表現抽出装置および方法並びに固有表現抽出プログラム」等に記載された手法を用いることができる。
その後、対象キーワードあるいは対象リスト単語辞書2に登録された単語、即ち識別用の情報がついている単語に対し、専用の固有表現情報(例えば、対象リストクラスとその位置)を付与する。
なお、前述した固有表現抽出に対する周知の固有表現抽出技術を用いず、対象キーワードもしくは対象リスト単語辞書2に登録された単語のみに固有表現情報を付与するようにしても良い。あるいは、さらにこれらに加えて、特定の品詞を有する単語(例えば、「名詞:固有」)に固有表現情報を付与するようにしても良い。
こうして、単語情報に固有表現情報を追加した単語列を出力する。
係り受け解析部8は、単語列(単語情報)を入力とし、周知の係り受け解析技術を用いて、文節認定および係り受け解析を行い、その結果を単語列と対応付けて、単語情報に文節情報および係り受け情報を追加した単語列を出力する(固有表現抽出部2で追加された固有表現情報と併せて、単語列は、単語情報、固有表現情報、文節情報、係り受け情報からなる。)。
文節認定・係り受け解析技術としては、例えば、工藤 拓,松本裕治「チャンキングの段階適用による係り受け解析」情報処理学会論文誌,2002年,Vol.43,No.6等に記載された手法を用いることができる。
評価表現抽出部9は、単語列(少なくとも単語情報)を入力とし、評価表現辞書3および評価表現ルール4を用いて、1文単位に、予め定めた処理方向(文頭から文末、あるいは文末から文頭)で評価表現抽出処理を行い、評価表現情報を各単語に付与し、単語情報に評価表現情報を追加した単語列を出力する(固有表現抽出部2および係り受け解析部8で追加された固有表現情報、文節情報、係り受け情報と併せて、単語列は、単語情報、固有表現情報、文節情報、係り受け情報および評価表現情報からなる。)。
以下、評価表現抽出部9の1文に対する処理の流れを図4を用いて詳細に説明する。以降の説明では、処理方向は全て文頭→文末とする。
ステップS31では、入力された文が抽出対象文となるかを、単語情報を用いた条件で判定する。例えば、末尾単語が「?」であるものは疑問文(例えば、「○○レストランはおいしいですか?」という疑問文では「おいしい」か評価していない。)として、抽出対象文ではないと判定する。また、表記に「かもしれない」などの推定を含む文、「だったら」などの仮定を含む文も抽出対象文でないと判定しても良い。抽出対象文である場合には、ステップS32に移る。そうでない場合には、処理を終了する。
ステップS32では、文頭の単語から文末の単語まで、順に評価表現辞書3と照合を行い、評価表現辞書3中のいずれかの評価表現にマッチした単語(列)は、その位置(当該評価表現の先頭の単語か、それ以外(中間)の単語かを表す情報)および極性を記憶しておく。これは、例えば評価表現辞書照合結果として、評価表現の先頭の単語にはB−極性、評価表現の中間の単語にはI−極性、評価表現ではない単語にはNILというタグを付与することにより、実現できる。
次にステップS33に進む。
ステップS33では、文頭の単語から文末の単語まで、順に評価表現ルール4と照合を行い、評価表現ルール4中のいずれかのルールとマッチした単語(列)は、その位置および極性を記憶しておく。これは、例えば評価表現ルール照合結果として、評価表現の先頭の単語にはB−極性、評価表現の中間の単語にはI−極性、評価表現ではない単語にはNILというタグを付与することにより、実現できる。
これらの評価表現の位置および極性を評価表現情報とする。その後、処理を終了する。
属性表現抽出部10は、単語列(単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報)を入力とし、カテゴリフィルタ5を用いて、予め定めた処理方向(文頭から文末、あるいは文末から文頭)で順に、各評価表現に対する属性表現を抽出し、属性表現情報を追加した単語列を出力する。
以下、属性表現抽出部10の1つの評価表現に対する処理の流れを図5を用いて詳細に説明する。
ステップS41では、当該評価表現の係り元の主格および連体修飾先の体言(但し、連体修飾先の文節が主格、目的格、連体格などの場合は除く)が存在するかを文節情報および係り受け情報から判定する。存在する場合には、これ(ら)を属性表現侯補として記憶し、ステップS42に移る。存在しない場合には、ステップS45に移る。
ステップS42では、各属性表現侯補が全て固有表現相当語(固有表現のクラスが付与された単語)であるかを固有表現情報から判定し、固有表現相当語の属性表現侯補は、属性表現侯補から除外する。全てが固有表現相当語の場合にはステップS44に、そうでない場合にはステップS43に移る。
ステップS43では、各属性表現侯補がカテゴリフィルタ5を通過するか(当該属性表現侯補の意味カテゴリが、カテゴリフィルタ5に登録された意味カテゴリと同一もしくはその下位カテゴリか)を判定し、カテゴリフィルタ5を通過しない属性表現侯補は属性表現侯補から除外する。1つでも通過する場合にはステップ44に移る。1つも通過しない場合にはステップS45に移る。
ステップS44では、属性表現侯補の数が1つの場合は、その属性表現侯補を属性表現に決定する。属性表現侯補が複数ある場合は、予め係り受けの種類により優先順位を定めておき(例えば、ガ格>ワ格>その他主格>連体修飾)、最も優先順位の高い属性表現侯補を属性表現に決定する。属性表現侯補の数が0(ステップS42より移る)場合、属性表現は省略されていると決定する。決定した属性表現の単語の位置を、当該評価表現の属性表現情報として保存する。その後、処理を終了する。
ステップS45では、属性に相当する表現がなく、当該評価表現は評価情報を表していないとして、評価表現情報をクリア(NILに書換)する。その後、処理を終了する。
対象表現抽出部11は、単語列(単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報、属性表現情報)を入力とし、各評価表現に対する対象表現を抽出し、対象表現情報を追加した単語列を出力する。
以下、対象表現抽出部11の1つの評価表現に対する処理の流れを図6を用いて詳細に説明する。
ステップS51では、まず、当該評価表現の係り元の主格に固有表現相当語があるかを固有表現情報、文節情報および係り受け情報から判定し、存在する場合にはステップS55に移る。次に、係り元の主格で属性にならなかった体言があるかを判定し、存在する場合にはステップS55に移る。さらに、連体修飾先の体言に固有表現相当語があるかを判定し、存在する場合にはステップS55に移る。それ以外の場合にはステップS52に移る。
ステップS52では、当該評価表現を含む文および予め定めた範囲の文を対象として、固有表現相当語が存在するかを検索し、存在した全ての固有表現相当語を対象表現侯補として記憶する。
また、この際、固有表現クラスの種類(例:対象リスト、組織名、地名など)、文位置の種類(評価表現と同じ文、評価表現の文−1など)などの情報に対して予め重みを設定しておき、それぞれの重みを掛け合わせた値を対象表現侯補のスコアとして求め、記憶する。ここで、同じ固有表現相当語が、範囲内の文中に複数回出現した場合には、その全ての和を、その対象表現侯補のスコアとする。
この処理は、当該文で初めての対象表現抽出を行うときに一度行い、当該文における対象表現侯補およびそのスコアを保存し、その後の対象表現抽出の際には、保存した対象表現侯補およびスコアをそのまま利用すれば良い。
その後、ステップS53に移る。
ステップS53では、対象表現侯補が1つでも抽出できたかを判定する。抽出できた場合にはステップS54に移る。抽出できなかった場合にはステップS56に移る。
ステップS54では、対象表現侯補が1つである場合はその対象侯補を対象表現として決定する。対象表現侯補が複数ある場合は、最もスコアが高いものを対象表現として決定する。決定した対象表現の単語の位置を、当該評価表現の対象表現情報として保存する。その後、処理を終了する。
ステップS55では、ステップS51で固有表現相当語が抽出されているかを判定する。抽出されている場合にはステップS54に移る(なお、この場合のステップS54の処理は、対象表現侯補が1つである場合に該当する。)。抽出されていない場合にはステップS56に移る。
ステップS56では、当該評価表現に対する対象表現は存在しないと決定する。その後、処理を終了する。
評価情報作成部12は、単語列(少なくとも評価表現情報、属性表現情報、対象表現情報)を入力とし、組となった対象表現情報、属性表現情報および評価表現情報にそれぞれ対応する単語の表記を対象表現、属性表現および評価表現(極性を含んでも良い)とする評価情報を全て作成して出力する(なお、ここで、評価表現情報、属性表現情報、評価表現情報が単語の表記を含まない場合は、これらに加えて単語情報も必須となる。)。
この評価情報の出力の方法としては、単語列に追加する形でも、独立した形でも、両者とも出力する形でもいずれでも良い。
但し、図示しないキーボード等から直接入力され又は記憶媒体から読み出されて入力され又は通信媒体を介して他の装置等から関連キーワードが与えられたとき、その関連キーワードを対象表現、属性表現、評価表現のいずれにも含まない場合には、その評価情報は出力しない。
また、対象表現、属性表現および評価表現の3つ全てに値を持つものだけを評価情報として出力するようにしても良い(即ち、属性表現が省略されたり、対象表現なしの評価情報は出力しない)。
<具体的な処理例>
以下、図10乃至図16を用いて、本実施の形態の評価情報抽出の具体的な処理例を説明する。なお、この例では対象リスト単語辞書2は用いないものとする。また、対象侯補となり得る単語の識別には「対象リスト」という専用の単語情報を用いるものとし、「0」で対象リストではない単語、「1」で対象リストの単語を表すものとする。そして、対象キーワードに対しては、品詞=名詞:固有、対象リスト=1という単語情報指定を行うものとする。
また、固有表現のクラスは、人名、組織名、地名、人工物名、対象リストとする。また、評価表現辞書3としては図7、評価表現ルール4としては図8、カテゴリフィルタ5としては図9のものを用いるものとする。また、処理方向は全て、文頭→文末とする。
また、ステップS31における抽出対象文は、疑問文(文末が「?」)以外の文とする。ステップS52における固有表現相当語探索範囲は当該文およびその直前3文とする。
また、ステップS52における対象侯補のスコアの重みの種類としては、固有表現クラス重み、格重み、文位置重みの3種類を用いるものとし、固有表現クラス重みは、人名=0.2,組織名=1.0、地名=0.4、人工物名=1.0、対象リスト=1.5、格重みは主格=2.0、その他=1.0、文位置重みは、当該文=5、当該文−n文=4−nであるとする。
評価情報作成部12では、評価情報のみを出力するものとする。
入力文書は、図10(1)入力文書に示すものである。また、対象キーワードは「季節のパフェ」とする。
形態素解析部6において、入力文書と対象キーワードが入力されたことから、入力文書第4文の「季節のパフェ」という文字列に対し、品詞=名詞:固有、対象リスト=1という単語情報を付与して公知の技術により形態素解析を行い、図10(2)に示すように、単語情報からなる単語列を出力する。対象リスト単語辞書2を用いてないため、単語情報の対象リストが1となるのは、対象キーワードである「季節のパフェ」(単語ID=w4−8)のみとなる。
次に、固有表現抽出部7では、公知の技術を用いて、図11(3)に示すように、固有表現情報を追加した単語列を出力する。
次に、係り受け解析部8では、公知の技術を用いて、図12(4)に示すように、文節情報(本例では、文節先頭の単語に文節IDおよび文節単語数を付与)と、係り受け情報(本例では、文節先頭の単語に係り先の文節IDを付与)を追加した単語列を出力する。
次に、評価表現抽出部9の処理を、図4のフローに従って説明する。
入力文書の第1文は疑問文でないので、ステップS31からステップS32に移る。ステップS32では、「暑」(単語ID=w1−3)のみが評価表現辞書3にマッチするので、単語ID=w1−3の評価表現辞書照合結果(図13中省略)をB−PNとして、ステップS33に移る。ステップS33では、評価表現ルール4と照合を行い、ルール番号3が単語ID=w1−3にマッチするため、単語ID=w1−3の評価表現情報をB−PNとする。
入力文書の第2〜4文は、いずれもステップS31からステップS32に移り、どの単語も評価表現辞書3にマッチせず、ステップS33に移り、評価表現ルール4ともマッチしないので、評価表現情報はどの単語にも付与されない。
入力文書の第5文では、ステップS31からステップS32に移り、評価表現辞書照合結果として、w5−3「上品」=B−P,w5−8「たくさん」=B−PN,w5−11「幸せ」=B−Pを付与して、ステップS33に移る。ステップS33では、w5−3,w5−11が評価表現ルール4のルール番号1、w5−8がルール番号3にマッチするため、評価表現情報として、w5−3「上品」=B−P,w5−8「たくさん」=B−PN,w5−11「幸せ」=B−Pを付与する。
同様に入力文書の第6文では、w6−15「濃厚」にB−PNという評価表現情報を付与する。
こうして、入力文書全文の処理を行い、図13(5)に示すように、評価表現情報を追加した単語列を出力する。
次に、属性表現抽出部10の処理を、図5のフローに従って説明する。この処理は、入力文書の先頭から順に、全ての評価表現を対象として行う。
はじめに、単語ID=w1−3「暑」に対して処理を行う。ステップS41で、主格の体言 単語ID=w1−1「今日」が存在するため、ステップS42に移り、固有表現でないため、ステップS43に移る。
ステップS43では、w1−1「今日」のカテゴリは「日」であり、図9に示したカテゴリフィルタ「無生物」「創作物」およびその下位カテゴリにあてはらまないことから、ステップS45に移る。
ステップ45では、w1−3「暑」の評価表現情報B−PNをクリアして、NILに書き換える。
次に、単語ID=w5−3「上品」に対して処理を行う。主格の体言 単語ID=w5−1「クリーム」が存在するため、ステップS42に移り、固有表現ではないため、ステップS43に移る。
ステップS43では、w5−1「クリーム」のカテゴリは「菓子」であり、カテゴリフィルタ「無生物」の下位カテゴリであるため、ステップS44に移る。
ステップS44では、属性表現侯補がw5−1「クリーム」のみであることから、これを属性表現に決定し、w5−3「上品」の属性表現情報とする。
前述した単語w5−3「上品」と同様に処理を行い、単語w5−8「たくさん」の属性表現がw5−6「フルーツ」、単語w6−15「濃厚」の属性表現がw6−13「チョコレート」となる。
こうして、図14(6)に示すように、評価表現情報を一部修正、属性表現情報を追加した単語列を出力する。
次に、対象表現抽出部11の処理を、図6のフローに従って説明する。この処理は、入力文書の先頭から順に、この時点で残っている全ての評価表現を対象に行う。
まず、単語ID=w5−3「上品」に対して処理を行う。ステップS51では、係り元の主格は属性であり、連体修飾先の体言は存在しないので、ステップS52に移る。
ステップS52では、第2〜5文で固有表現相当語を検索し、w2−2「銀座」、w2−4〜5「ABCカフェ」、w3−3「ゆき」、w4−8「季節のパフェ」を対象表現侯補とする。
それぞれのスコアは、(固有表現クラス重み×格重み×文位置重み)の出現数和で算出されるので、
銀座=0.4×1.0×1=0.4
ABCカフェ=1.0×1.0×1=1.0
ゆき=0.2×1.0×2=0.4
季節のパフェ=1.5×1.0×5=7.5
となる。
次にステップS53からステップS54に移り、最もスコアの高いw4−8「季節のパフェ」を対象表現とする。
次に、w5−8「たくさん」に対しては、同様にステップS51からステップS52に移り、ステップS52では既にw5−3で対象表現侯補およびそのスコアが設定されており、それを利用するため何も処理を行わない。
ステップS53からステップS54に移り、最もスコアの高いw4−8「季節のパフェ」を対象表現とする。
次に、w6−15「濃厚」に対しては、ステップS51で、係り元の主格の固有表現w6−8〜9「チョコスペシャル」が存在するのでステップS55からステップS54に移り、w6−8〜9「チョコスペシャル」を対象表現とする。
こうして、図15(7)に示すように、対象表現情報を追加した単語列を出力する。
次の評価情報作成部12で、関連キーワードが与えられなかった場合には、図15(7)の単語列の情報より、図16(8−1)に示す評価情報を出力する。
関連キーワードとして「パフェ」が与えられた場合には、「パフェ」を含まない評価情報を削除し、図16(8−2)に示す評価情報を出力する。
<第2の実施の形態>
図17は本発明の第2の実施の形態に係る評価情報抽出装置、ここでは第1の実施の形態に係る評価情報抽出装置において係り受け情報を不要となした装置の概要を示すもので、図中、第1の実施の形態と同一構成要素は同一符号をもって表す。即ち、1は一般単語辞書、2は対象リスト単語辞書、3は評価表現辞書、4は評価表現ルール、5はカテゴリフィルタ、6は形態素解析部、7は固有表現抽出部、9は評価表現抽出部、12は評価情報作成部、13は文節認定部、14は属性表現抽出部、15は対象表現抽出部である。
図18は本発明の第2の実施の形態に係る評価情報抽出装置のハードウェア構成、ここではコンピュータを用いて構成した例を示すもので、図中、第1の実施の形態と同一構成要素は同一符号をもって表す。即ち、21は一般単語辞書記憶部、22は対象リスト単語辞書記憶部、23は評価表現辞書記憶部、24は評価表現ルール記憶部、25はカテゴリフィルタ記憶部、26は入力文書記憶部、27は単語列記憶部、29は中央処理装置(CPU)である。
中央処理装置(CPU)29は、図19、図4乃至図6にフローチャートで示すプログラムに従って、前述した各部を制御するとともに、この際、前述した形態素解析部6、固有表現抽出部7、評価表現抽出部9、評価情報作成部12、係り受け解析部13、属性表現抽出部14および対象表現抽出部15を構成する。
以下、図19に従い、本実施の形態における評価情報抽出の全体的な流れについて説明するが、固有表現抽出処理(s1〜s7)までは第1の実施の形態の場合と同様であるから省略する。
CPU29は、その文節認定部13により、単語列記憶部27から単語列(単語情報、固有表現情報)を読み出し(s61)、後述する文節認定を行って文節情報を生成し(s62)、これを追加した単語列(単語情報、固有表現情報、文節情報)を単語列記憶部27に記憶する(s63)。
なお、実際には文節認定処理(s62)に固有表現情報は必要なく、固有表現抽出工程(s5〜s7)と文節認定工程(s61〜s63)の順序は逆でも良い。
次に、CPU29は、その評価表現抽出部9により、単語列記憶部27から単語列(単語情報、固有表現情報、文節情報)を読み出し(s64)、評価表現辞書記憶部23に記憶された評価表現辞書3および評価表現ルール記憶部24に記憶された評価表現ルール4を参照し、後述する評価表現抽出を行って評価表現情報を作成し(s12)、これを追加した単語列(単語情報、固有表現情報、文節情報、評価表現情報)を単語列記憶部27に記憶する(s65)。
次に、CPU29は、その属性表現抽出部14により、単語列記憶部27から単語列(単語情報、固有表現情報、文節情報、評価表現情報)を読み出し(s66)、カテゴリフィルタ記憶部25に記憶されたカテゴリフィルタ5を参照し、後述する属性表現抽出を行って属性表現情報を作成し(s67)、これを追加するとともに必要に応じて評価表現情報を修正した単語列(単語情報、固有表現情報、文節情報、評価表現情報、属性表現情報)を単語列記憶部27に記憶する(s68)。
次に、CPU29は、その対象表現抽出部15により、単語列記憶部27から単語列(単語情報、固有表現情報、文節情報、評価表現情報、属性表現情報)を読み出し(s69)、後述する対象表現抽出を行って対象表現情報を作成し(s70)、これを追加した単語列(単語情報、固有表現情報、文節情報、評価表現情報、属性表現情報、対象表現情報)を単語列記憶部27に記憶する(s71)。
最後に、CPU29は、その評価情報作成部12により、単語列記憶部27から単語列(単語情報、固有表現情報、文節情報、評価表現情報、属性表現情報、対象表現情報)を読み出し(s72)、組となった対象表現情報、属性表現情報および評価表現情報にそれぞれ対応する単語の表記を対象表現、属性表現および評価表現とする評価情報を作成して(s21)出力し(s22)、処理を終了する。
次に、本実施の形態における評価情報抽出について、各部の構成とともに詳細に説明するが、ここでは第1の実施の形態と異なる点、つまり文節認定部13、属性表現抽出部14および対象表現抽出部15についてのみ説明する。
文節認定部13は、単語列(単語情報)を入力とし、前記同様に周知の文節認定技術を用いて、文節認定を行い、その結果を単語列と対応付けて、単語情報に文節情報を追加した単語列を出力する(固有表現抽出部2で追加された固有表現情報と併せて、単語列は、単語情報、固有表現情報、文節情報からなる。)。
属性表現抽出部14は、単語列(単語情報、固有表現情報、文節情報、評価表現情報)を入力とし、カテゴリフィルタ5を用いて、予め定めた処理方向(文頭から文末、あるいは文末から文頭)で順に、各評価表現に対する属性表現を抽出し、属性表現情報を追加した単語列を出力する。
以下、属性表現抽出部14の1つの評価表現に対する処理の流れを図5を用いて説明するが、ここでは第1の実施の形態の場合と異なる点のみ説明する。
即ち、第1の実施の形態の属性表現抽出部10では、ステップS41において、当該評価表現の係り元の主格および連体修飾先の体言(但し、連体修飾先の文節が主格、目的格、連体格などの場合は除く)が存在するかを文節情報および係り受け情報から判定していたが、本実施の形態の属性表現抽出部14では、ステップS41において、係り受け情報を用いず、当該評価表現前方の所定の一定範囲にある主格を係り元の主格と扱う、当該評価表現が連体修飾句で直後が体言の場合に連体修飾先の体言であると扱う、などの単語情報を用いた係り元・連体修飾先の認定を行うものとする。なお、以後の処理は第1の実施の形態の場合と同様である。
対象表現抽出部15は、単語列(単語情報、固有表現情報、文節情報、評価表現情報、属性表現情報)を入力とし、各評価表現に対する対象表現を抽出し、対象表現を追加した単語列を出力する。
以下、対象表現抽出部15の1つの評価表現に対する処理の流れを図6を用いて説明する、ここでは第1の実施の形態の場合と異なる点のみ説明する。
即ち、第1の実施の形態の対象表現抽出部11では、ステップS51において、当該評価表現の係り元の主格に固有表現相当語があるかを固有表現情報、文節情報および係り受け情報から判定していたが、本実施の形態の対象表現抽出部15では、ステップS51において、前記属性表現抽出部14の場合と同様に単語情報を用いた係り元の主格の認定を行うものとする。なお、以後の処理は第1の実施の形態の場合と同様である。
<第3の実施の形態>
図20は本発明の第3の実施の形態に係る評価情報抽出装置、ここでは第1の実施の形態に係る評価情報抽出装置において、評価情報に対し、まとめて集計や表示する際に利用すると便利な情報、即ち対象表現標準形、属性表現標準形、評価表現標準形を追加し、且つ抽出精度向上のためのデータおよび処理を追加した装置の概要を示すもので、図中、第1の実施の形態と同一構成要素は同一符号をもって表す。即ち、1は一般単語辞書、2は対象リスト単語辞書、4は評価表現ルール、6は形態素解析部、7は固有表現抽出部、8は係り受け解析部、31は評価表現辞書、32は固有表現クラス辞書、33はカテゴリフィルタ、34は出力設定情報、35は評価表現抽出部、36は属性表現抽出部、37は対象表現抽出部、38は評価情報作成部である。
図21は本発明の第3の実施の形態に係る評価情報抽出装置のハードウェア構成、ここではコンピュータを用いて構成した例を示すもので、図中、21は一般単語辞書記憶部、22は対象リスト単語辞書記憶部、24は評価表現ルール記憶部、26は入力文書記憶部、27は単語列記憶部、41は評価表現辞書記憶部、42は固有表現クラス辞書記憶部、43はカテゴリフィルタ記憶部、44は出力設定情報記憶部、45は中央処理装置(CPU)である。
評価表現辞書記憶部41、固有表現クラス辞書記憶部42、カテゴリフィルタ記憶部43および出力設定情報記憶部44はそれぞれ、前述した評価表現辞書31、固有表現クラス辞書32、カテゴリフィルタ33および出力設定情報34を記憶している。
単語列記憶部27は、第1の実施の形態の場合と同様、前述した形態素解析部6、固有表現抽出部7、係り受け解析部8、評価表現抽出部35、属性表現抽出部36、対象表現抽出部37および評価情報作成部38によって作成される各段階の単語列を記憶する。
中央処理装置(CPU)45は、図22乃至図25にフローチャートで示すプログラムに従って、前述した各部を制御するとともに、この際、前述した形態素解析部6、固有表現抽出部7、係り受け解析部8、評価表現抽出部35、属性表現抽出部36、対象表現抽出部37および評価情報作成部38を構成する。
以下、図22に従い、本実施の形態における評価情報抽出の全体的な流れについて説明するが、係り受け解析処理(s1〜s10)までは第1の実施の形態の場合と同様であるから省略する。
CPU45は、その評価表現抽出部35より、単語列記憶部27から単語列(単語情報、固有表現情報、文節情報、係り受け情報)を読み出し(s81)、評価表現辞書記憶部41に記憶された評価表現辞書31、評価表現ルール記憶部24に記憶された評価表現ルール4および固有表現クラス辞書記憶部42に記憶された固有表現クラス辞書32を参照し、後述する評価表現抽出を行って評価表現情報を作成し(s82)、これを追加した単語列(単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報)を単語列記憶部27に記憶する(s83)。
次に、CPU45は、その属性表現抽出部36により、単語列記憶部27から単語列(単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報)を読み出し(s84)、カテゴリフィルタ記憶部43に記憶されたカテゴリフィルタ33を参照し、後述する属性表現抽出を行って属性表現情報を作成し(s85)、これを追加した単語列(単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報、属性表現情報)を単語列記憶部27に記憶する(s86)。
次に、CPU45は、その対象表現抽出部37により、単語列記憶部27から単語列(単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報、属性表現情報)を読み出し(s87)、後述する対象表現抽出を行って対象表現情報を作成し(s88)、これを追加した単語列(単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報、属性表現情報、対象表現情報)を単語列記憶部27に記憶する(s89)。
最後に、CPU45は、その評価情報作成部38により、単語列記憶部27から単語列(単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報、属性表現情報、対象表現情報)を読み出し(s90)、出力設定情報記憶部44に記憶された出力設定情報34に基づいて評価情報を作成し(s91)、これを出力して(s92)処理を終了する。
次に、本実施の形態における評価情報抽出について、各部の構成とともに詳細に説明するが、ここでは第1の実施の形態と異なる点、つまり評価表現辞書31、固有表現クラス辞書32、カテゴリフィルタ33、出力設定情報34、評価表現抽出部35、属性表現抽出部36、対象表現抽出部37および評価情報作成部38についてのみ説明する。
但し、本実施の形態における一般単語辞書1は、少なくとも1つの文字を含む単語について、単語毎にその表記、品詞、読み、意味カテゴリとともに、標準表記、表記終止形、標準表記終止形等を含む単語情報を登録してなるものとし、また、本実施の形態における形態素解析部6では、単語情報として、単語ID、表記、品詞、読み、意味カテゴリに加え、標準表記、表記終止形、標準表記終止形も併せて出力するものとする。
第1の実施の形態の評価表現辞書3は、評価表現の単語情報およびその極性を登録してなるものであったが、本実施の形態の評価表現辞書31は、少なくとも1つの単語を含む単語列からなる評価表現について、その単語列を構成する各単語の単語情報(例えば、表記、品詞、読みの組)と、その単語列を構成する単語が当該評価表現における主要語かどうかを単語毎に表す主要語フラグ(例えば、主要語であれば(on)1,主要語でなければ(off)0)と、当該評価表現の一般的な極性(例えば、肯定(P)、否定(N)、不明(PN))とを登録してなるものとする。
図26に評価表現辞書31の一例を示す。例えば、「暑/形容詞語幹/アツ/1」は、表記が「暑」、品詞が「形容詞語幹」、読みが「アツ」である単語を表し、この単語「暑」の主要語フラグを1(on)とし、また極性をPNとしている。また、「一風/連用詞/イップウ/0 変わ/動詞語幹/カワ/1 っ/動詞活用語尾/ッ/1 て/動詞接尾辞/テ/1 い/動詞語幹/イ/1」は、表記がそれぞれ「一風」「変わ」「っ」「て」「い」、品詞がそれぞれ「連用詞」「動詞語幹」「動詞活用語尾」「動詞接尾辞」「動詞語幹」、読みがそれぞれ「イップウ」「カワ」「ッ」「テ」「イ」である単語からなる単語列を表し、各単語のうち「一風」の主要語フラグを0(off)、「変わ」「っ」「て」「い」の主要語フラグを1(on)とし、この単語列「一風変わってい」の極性をPNとしている。
固有表現クラス辞書32は、少なくとも1つの単語を含む単語列からなる評価表現について、当該評価表現の評価表現標準形(後述する)と、当該評価表現が評価対象として取り得る固有表現のクラス(複数可、これらを以後、固有表現クラス侯補と呼ぶ。)とを登録してなるものである。評価表現標準形をキーとして検索すると、固有表現クラス侯補を返す。
図27に固有表現クラス辞書32の一例を示す。例えば、評価表現標準形が「暑い」の場合は、評価対象として取り得る固有表現クラス(固有表現クラス侯補)は「LOC」(地名)のみであることを表す。同様に、評価表現標準形が「人と変わっている」の場合の固有表現クラス侯補は「PSN」(人名)、評価表現標準形が「変わっている」の場合の固有表現クラス侯補は「ALL」(全ての固有表現クラスを表す。)となる。
第1の実施の形態のカテゴリフィルタ5は、属性表現を意味カテゴリによりフィルタリングするためのもので、1集合の意味カテゴリから構成されていたが、本実施の形態のカテゴリフィルタ33では、単語情報として付与される意味カテゴリのうち、抽出すべき評価情報のカテゴリに対応する意味カテゴリ(の集合)を固有表現クラス別に登録することにより、様々な種類の評価情報を抽出するものである。
ここで用いる意味カテゴリとしては、例えば、池原 悟,他「日本語語彙大系 CD−ROM版」(岩波書店,1999年9月24日発行)などに記載された、任意の意味分類を用いることが可能である。
図28にカテゴリフィルタ33の一例を示す。例えば、固有表現クラス「ART」(人工物)の場合は、カテゴリ「無生物」もしくはその下位カテゴリ、あるいは「創作物」もしくはその下位カテゴリであれば通過する。同様に、固有表現クラス「LOC」(地名)の場合は、カテゴリ「地形」「食料」「景観」もしくはそれらの下位カテゴリであれば通過する。また、固有表現クラス「PSN」(人名)の場合は、カテゴリ「属性(主体)」「動物(部分)」もしくはそれらの下位カテゴリであれば通過する。
出力設定情報34は、出力する評価情報や単語列を制御するための情報を、その種別(設定種別)毎に予め登録してなるものであり、評価情報の出力フィルタリング等の指定を行う。
図29に出力設定情報34の一例を示す。この例では、設定種別として、関連キーワード、NG完全一致ワード、NG部分一致ワード、2つ組評価情報出力条件、3つ組評価情報出力条件、単語列出力指定を行えるものとする。
この出力設定情報の例を用いた具体的な処理については、評価情報作成部38の説明にて後述する。
第1の実施の形態の評価表現抽出部9は、評価表現辞書3および評価表現ルール4を用いて評価表現を抽出したが、本実施の形態の評価表現抽出部35は、評価表現辞書31、評価表現ルール4および固有表現クラス辞書32を用いて評価表現を抽出する、詳細には、単語列(少なくとも単語情報)を入力とし、評価表現辞書31、評価表現ルール4および固有表現クラス辞書32を用いて、1文単位に、予め定めた処理方向(文頭から文末、あるいは文末から文頭)で評価表現抽出処理を行い、評価表現情報を各単語に付与し、単語情報に評価表現情報を追加した単語列を出力する(固有表現抽出部2および係り受け解析部8で追加された固有表現情報、文節情報、係り受け情報と併せて、単語列は、単語情報、固有表現情報、文節情報、係り受け情報および評価表現情報からなる。)。
以下、評価表現抽出部35の1文に対する処理の流れを図23を用いて詳細に説明する。以降の説明では、処理方向は全て文頭→文末とする。
ステップS31については、第1の実施の形態の評価表現抽出部9と同じ処理となる。
即ち、ステップS31では、入力された文が抽出対象文となるかを、単語情報を用いた条件で判定する。例えば、末尾単語が「?」であるものは疑問文として、抽出対象文ではないと判定する。また、表記に「かもしれない」などの推定を含む文、「だったら」などの仮定を含む文も抽出対象文でないと判定しても良い。抽出対象文である場合には、ステップS101に移る。そうでない場合には、処理を終了する。
ステップS101では、文頭の単語から文末の単語まで、順に評価表現辞書31と照合を行い、評価表現辞書31中のいずれかの評価表現にマッチした単語(列)は、そのマッチした単語全体を評価表現辞書照合位置として、該マッチした評価表現辞書31中の評価表現の極性とともに記憶しておく。また、マッチした単語のうち、主要語フラグがonの単語を評価表現標準形位置として記憶しておく。これは、例えば評価表現辞書照合結果として、マッチした単語列の先頭の単語の単語IDに対応して当該単語列の単語数(評価表現辞書照合単語数)および極性を付与し、また、主要語フラグがonの単語の単語IDに対応して当該単語の総数(評価表現標準形単語数)を付与することにより、実現できる。
次にステップS102に進む。
ステップS102では、文頭の単語から文末の単語まで、順に評価表現ルール4と照合を行い、評価表現ルール4中のいずれかのルールとマッチした単語(列)は、そのマッチした単語全体を評価表現ルール照合位置として、該マッチした評価表現ルール4中の評価表現パターンの極性とともに記憶しておく。これは、例えば評価表現ルール照合結果として、マッチした単語列の先頭の単語の単語IDに対応して当該単語列の単語数(評価表現ルール照合単語数)および極性を付与することにより、実現できる。
次にステップS103に移る。
ステップS103では、評価表現標準形の生成を行う。ステップS101で得られた各評価表現における主要語フラグがonの単語の標準表記(単語情報の中に含まれる)をつなげたものを、評価表現標準形とする。但し、主要語フラグがonの最末尾の単語の標準表記終止形(単語情報の中に含まれる)が存在する場合には、その単語に関しては、標準表記終止形をつなげる。また、各評価表現の単語の表記を全てつなげたものを、評価表現表記とする。
次にステップS104に進む。
ステップS104では、各評価表現における固有表現クラス侯補を設定する。前記生成した評価表現標準形をキーとして固有表現クラス辞書32を検索し、固有表現クラス侯補を得る。
これらの評価表現辞書または評価表現ルールにマッチした単語列の位置(単語数)、極性、評価表現表記、評価表現標準形および固有表現クラス侯補を評価表現情報とする。その後、処理を終了する。
第1の実施の形態の属性表現抽出部10は、カテゴリフィルタ5を用いて属性表現を抽出し、属性表現が抽出されない場合には評価表現をクリアしたが、本実施の形態の属性表現抽出部36は、カテゴリフィルタ33を用いて属性表現を抽出し、属性表現が抽出されない場合にも評価表現はクリアしない。
以下、属性表現抽出部36の1つの評価表現に対する処理の流れを図24を用いて詳細に説明する。
ステップS41、ステップS42については、第1の実施の形態の属性表現抽出部10と同じ処理となる。
即ち、ステップS41では、当該評価表現の係り元の主格および連体修飾先の体言(但し、連体修飾先の文節が主格、目的格、連体格などの場合は除く)が存在するかを文節情報および係り受け情報から判定する。存在する場合には、これ(ら)を属性表現侯補として記憶し、ステップS42に移る。存在しない場合には、ステップS113に移る。
また、ステップS42では、各属性表現侯補が全て固有表現相当語(固有表現のクラスが付与された単語)であるかを固有表現情報から判定し、固有表現相当語の属性表現侯補は、属性表現侯補から除外する。全てが固有表現相当語の場合にはステップS112に、そうでない場合にはステップS111に移る。
ステップS111では、各属性表現侯補が、カテゴリフィルタ33のうち、当該評価表現の各固有表現クラス侯補のもののいずれかを通過するかを判定し、どの固有表現クラス侯補のカテゴリフィルタも通過しない属性表現侯補は属性表現侯補から除外する。1つでも通過する場合にはステップS112に移る。
ステップS112では、第1の実施の形態のステップS44と同様にして、属性表現を決定し、属性表現情報を設定する。本ステップでは、決定した属性表現の単語の位置とともに、属性表現に該当する単語の単語情報の標準表記をつなげて得られる属性表現標準形、表記をつなげて得られる属性表現表記も含めて当該評価表現の属性表現情報として保存する。
また、カテゴリフィルタ33において、当該評価表現の固有表現クラス侯補のうち、カテゴリフィルタを通過しなかったものが存在した場合には、当該評価表現情報より、その固有表現クラス侯補を除外する。
その後、処理を終了する。
ステップS113では、当該評価表現は属性表現なしと設定して処理を終了する。
第1の実施の形態の対象表現抽出部11は、評価表現1つに対応する対象表現を0個または1個抽出したが、本実施の形態の対象表現抽出部37は、評価表現1つに対応する対象表現を0個以上抽出する、詳細には、単語列(単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報、属性表現情報)を入力とし、各評価表現に対する対象表現を0個以上抽出し、対象表現情報を追加した単語列を出力する。
以下、対象表現抽出部37の1つの評価表現に対する処理の流れを図25を用いて詳細に説明する。
ステップS51、ステップS53、ステップS55、ステップS56については、第1の実施の形態の対象表現抽出部11と同じ処理となる。
即ち、ステップS51では、まず、当該評価表現の係り元の主格に固有表現相当語があるかを固有表現情報、文節情報および係り受け情報から判定し、存在する場合にはステップS55に移る。次に、係り元の主格で属性にならなかった体言があるかを判定し、存在する場合にはステップS55に移る。さらに、連体修飾先の体言に固有表現相当語があるかを判定し、存在する場合にはステップS55に移る。それ以外の場合にはステップS121に移る。
ステップS121では、当該評価表現を含む文および予め定めた範囲の文を対象として、当該評価表現の固有表現クラス侯補と一致する固有表現クラスを有する固有表現相当語が存在するかを検索し、存在した全ての固有表現相当語を対象表現侯補として記憶する。対象表現侯補のスコアの算出については、第1の実施の形態のステップS52の場合と同様に算出する。
その後、ステップS53に移る。
ステップS53では、対象表現侯補が1つでも抽出できたかを判定する。抽出できた場合にはステップS122に移る。抽出できなかった場合にはステップS56に移る。
ステップS122では、対象表現侯補が1つである場合はその対象侯補を対象表現として決定する。対象表現侯補が複数ある場合は、スコアが高い順に複数の対象表現として決定する。決定した各対象表現の単語の位置およびスコアを、当該評価表現の対象表現情報として保存する。なお、本ステップでは、対象表現に該当する単語の単語情報の標準表記をつなげて得られる対象表現標準形、表記をつなげて得られる対象表現表記も、対象表現情報に含める。
その後、処理を終了する。
ステップS55では、ステップS51で固有表現相当語が抽出されているかを判定する。抽出されている場合にはステップS122に移る(なお、この場合のステップS122の処理は、対象表現侯補が1つである場合に該当する。)。抽出されていない場合にはステップS56に移る。
ステップS56では、当該評価表現に対する対象表現は存在しないと決定する。その後、処理を終了する。
評価情報作成部38は、対象表現抽出部37までに作成された単語列(少なくとも評価表現情報、属性表現情報、対象表現情報)を入力とし、出力設定情報34の設定内容に基づいて評価情報を作成して出力する。それぞれの評価情報には、対象表現情報、属性表現情報、評価表現情報などから得られるスコアを含めても良い。
例えば、出力設定として、関連キーワード、NG完全一致ワード、NG部分一致ワード、2つ組評価情報出力条件、3つ組評価情報出力条件、単語列出力指定を行う。
関連キーワードは、その設定された文字列を含まない評価情報を出力しないものである。
NG完全一致ワードは、その設定された文字列が、対象表現表記、属性表現表記、評価表現表記のいずれとも完全一致しない場合に評価情報を出力する。例えば、図29の例では対象表現表記、属性表現表記、評価表現表記がいずれも「殺人」と完全一致しない場合に評価情報を出力する。
NG部分一致ワードは、その設定された文字列が、対象表現表記、属性表現表記、評価表現表記のいずれとも部分一致しない場合に評価情報を出力する。例えば、図29の例では対象表現表記、属性表現表記、評価表現表記がいずれも「馬鹿」という文字列を含まない場合に評価情報を出力する。例えば、評価表現表記が「馬鹿馬鹿しい」「馬鹿」「馬鹿やろう」などの場合、その評価情報は出力されない。
2つ組評価情報出力条件は、属性表現情報、評価表現情報からなる評価情報を出力する条件を指定するものである。例えば、図29の例では、「3つ組」なし、つまり、対象表現が抽出されなかった評価情報についてのみ、2つ組評価情報を出力するという指定である。これ以外にも、例えば、対象表現が存在する評価情報から、対象表現を除いた2つ組を出力するよう指定したり、属性表現が空ではない評価情報についてのみ出力するよう指定したりしても良い。
3つ組評価情報出力条件は、対象表現情報、属性表現情報、評価表現情報からなる評価情報を出力する条件を指定するものである。例えば、図29の例では、「対象表現1best」、つまり複数の対象表現が抽出されている場合には、その最もスコアが高い対象表現からなる評価情報のみを出力するものである。
例として、評価表現=「かっこいい」に対応する属性表現=「ボディ」と対象表現=「XXX123」(スコア10)、「○×自動車」(スコア5)が抽出されている場合、対象表現1bestが指定されている場合には、(XXX123、ボディ、かっこいい)という3つ組評価情報のみを出力する。「対象表現1best」が指定されていない場合には、(XXX123、ボディ、かっこいい)と(○×自動車、ボディ、かっこいい)の2つの評価情報を出力する。
単語列出力指定は、単語列を出力に含めるかどうかを指定するものである。例えば、図29の例では、単語列は出力しない。
上記に示した以外にも出力設定情報として、単語情報や、評価表現情報、属性表現情報、対象表現情報についての任意の条件を与えて、出力を制御しても良い。
<具体的な処理例>
以下、図30〜37を用いて、本実施の形態の評価情報抽出の具体的な処理例を説明する。なお、この例では対象キーワードの入力はなく、また、対象リスト単語辞書2は用いないものとする。
また、固有表現クラスは、PSN(人名)、ORG(組織名)、LOC(地名)、ART(人工物名)とする。また、評価表現辞書31としては図26、評価表現ルール4としては図30、固有表現クラス辞書32としては図27、カテゴリフィルタ33としては図28、出力設定情報34としては図29のものを用いるものとする。また、処理方向は全て文頭→文末とする。
また、ステップS121における対象侯補のスコアの重みの種類としては、第1の実施の形態のステップS52で利用したものと同一とする。
入力文書は、図31(1)入力文書に示すものである。
形態素解析部6において、入力文書が入力されたことから、公知の技術により形態素解析を行い、図31(2)に示すように、単語情報からなる単語列を出力する。なお、ここでは単語情報として、単語ID、表記、品詞、読みに加え、標準表記、表記終止形、標準表記終止形も併せて出力している。
次に、固有表現抽出部7では、公知の技術を用いて、図32(3)に示すように、固有表現情報を追加した単語列を出力する。
次に、係り受け解析部8では、公知の技術を用いて、図33(4)に示すように、文節情報(本例では、文節先頭の単語に文節IDおよび文節単語数を付与)と、係り受け情報(本例では、文節先頭の単語に係り先の文節IDを付与)を追加した単語列を出力する。
次に、評価表現抽出部35の処理を、図23のフローに従って説明する。
入力文書の第1文は疑問文でないので、ステップS31からステップS101に移る。ステップS101では、評価表現辞書31にマッチする単語が全く存在しないため、ステップS102、S103、S104では何も処理を行わず、処理を終了する。評価表現情報は何も付与されない。
次に、入力文書の第2文も疑問文でないので、ステップS31からステップS101に移る。ステップS101では、単語列「人と変わってい」(単語ID=w2−1〜w2−6)が評価表現辞書31の単語情報とマッチする。また、マッチした単語ID=w2−1〜w2−6の各単語は全て主要語フラグがonである。このため、評価表現辞書照合位置(図34中省略)として、単語ID=w2−1に評価表現辞書照合単語数=6,極性=PNを付与し、評価表現標準形位置(図34中省略)として、単語ID=w2−1に評価表現標準形単語数=6を付与して、ステップS33に移る。
ステップS102では、評価表現ルール4との照合を行い、ルール番号3が単語ID=w2−1〜w2−7にマッチするため、単語ID=w2−1の評価表現情報として、評価表現ルール照合単語数=7,極性=PNを付与して、ステップS103に移る。
ステップS103では、評価表現標準形を作成する。評価表現標準形位置は単語ID=w2−1〜w2−6であり、単語ID=w2−6は単語情報として標準表記終止形「いる」を含む(図32(2)参照)。そこで、単語ID=w2−1〜w2−5の標準表記および単語ID=w2−6の標準表記終止形をつなげた「人と変わっている」が評価表現標準形となる。また、単語ID=w2−1〜w2−7の表記をつなげた「人と変わっていて」が評価表現表記となる。
ステップS104では、「人と変わっている」で固有表現クラス辞書32を検索して、PSNを固有表現クラス侯補と設定する。
最終的に、図34(5)に示すように、評価表現情報を追加した単語列を出力する。
次に、属性表現抽出部36の処理を、図24のフローに従って説明する。この処理は、入力文書の先頭から順に、全ての評価表現を対象に行うものであるが、本例では、評価表現が1つのみしか抽出されていないため、単語ID=w2−1〜w2−7の評価表現1つのみについて行う。
ステップS41では、単語ID=w2−1〜w2−7の評価表現については主格の体言が存在しないので、ステップS113に移る。
ステップS113では、単語ID=w2−1〜w2−7の評価表現について、属性表現なしの属性表現情報を設定して処理を終了する。
最終的に、図35(6)に示すように、属性表現情報を追加した単語列を出力する。
次に、対象表現抽出部37の処理を、図25のフローに従って説明する。この処理は、入力文書の先頭から順に、全ての評価表現を対象に行うものであるが、本例では、評価表現が1つのみしか抽出されていないため、単語ID=w2−1〜w2−7の評価表現1つのみについて行う。
ステップS51では、単語ID=w2−1〜w2−7の評価表現については係り受け関係が存在しないので、ステップS121に移る。
ステップS121では、当該固有表現の固有表現クラス侯補は「PSN」であるため、第1〜2文の中で、固有表現クラスがPSNである固有表現相当語を検索し、単語ID=w1−1〜w1−2の「山田太郎」を対象表現侯補とする。単語ID=w1−24〜w1−25の「日本シリーズ」は固有表現クラスが「ART」であるため、抽出対象外となる。
ステップS53からステップS122に移り、対象表現侯補が「山田太郎」1つであるため、これを対象表現として決定する。そして、当該対象表現の単語の表記をつなげた「山田太郎」を対象表現表記、単語の標準表記をつなげた同じく「山田太郎」を対象表現標準形として、処理を終了する。
最終的に、図36(7)に示すように、対象表現情報を追加した単語列を出力する。
最後に、評価情報作成部38では、図29に示した出力設定情報34に基づき、出力情報を作成する。
2つ組評価情報出力条件が「3つ組なし」であり、対象表現がない評価情報は存在しないので、2つ組み評価情報は出力しない。
3つ組評価情報出力条件が評価対象1bestであるため、3つ組として抽出されている(山田太郎,(なし),人と変わっていて)について、NG完全一致ワード「殺人」と完全一致する文字列がない、NG部分一致ワード「馬鹿」を含む文字列がないことから、3つ組評価情報とする。
単語列出力指定はoffなので、単語列は出力しない。
最終的に、図37(8)に示すような評価情報を出力する。
なお、第3の実施の形態においても、第2の実施の形態の場合と同様に係り受け情報を不要とする構成、即ち係り受け解析部8の代わりに文節認定部13を用いる構成を採ることが可能である。また、その場合の属性表現抽出部36および対象表現抽出部37における処理も、第2の実施の形態の場合と同様に変更すれば良い。
また、第1、第2および第3の実施の形態における一般単語辞書記憶部、対象リスト単語辞書記憶部、評価表現辞書記憶部、評価表現ルール記憶部、カテゴリフィルタ記憶部、入力文書記憶部、単語列記憶部、固有表現クラス辞書記憶部および出力設定情報記憶部という記載は、どのようなデータを記憶するかという機能上の違いに基づく表現であり、ハードウェア的に個別の記憶部(記憶装置)が必要であるという意味ではない。また、実施の形態では、形態素解析部、固有表現抽出部、係り受け解析部、文節認定部、評価表現抽出部、属性表現抽出部、対象表現抽出部および評価情報作成部を中央演算処理装置(CPU)上でプログラムにより構成した例を示したが、それぞれハードウェアで構成しても良いことはいうまでもない。
本発明の第1の実施の形態に係る評価情報抽出装置の概要を示す機能ブロック図 本発明の第1の実施の形態に係る評価情報抽出装置のハードウェア構成を示す構成図 本発明の第1の実施の形態に係る評価情報抽出装置のプログラムに対応するフローチャート 図3中の評価表現抽出処理の詳細内容を示すフローチャート 図3中の属性表現抽出処理の詳細内容を示すフローチャート 図3中の対象表現抽出処理の詳細内容を示すフローチャート 図1中の評価表現辞書の一例を示す説明図 図1中の評価表現ルールの一例を示す説明図 図1中のカテゴリフィルタの一例を示す説明図 第1の実施の形態による具体的な評価情報抽出の具体例を示す説明図 第1の実施の形態による具体的な評価情報抽出の具体例を示す説明図 第1の実施の形態による具体的な評価情報抽出の具体例を示す説明図 第1の実施の形態による具体的な評価情報抽出の具体例を示す説明図 第1の実施の形態による具体的な評価情報抽出の具体例を示す説明図 第1の実施の形態による具体的な評価情報抽出の具体例を示す説明図 第1の実施の形態による具体的な評価情報抽出の具体例を示す説明図 本発明の第2の実施の形態に係る評価情報抽出装置の概要を示す機能ブロック図 本発明の第2の実施の形態に係る評価情報抽出装置のハードウェア構成を示す構成図 本発明の第2の実施の形態に係る評価情報抽出装置のプログラムに対応するフローチャート 本発明の第3の実施の形態に係る評価情報抽出装置の概要を示す機能ブロック図 本発明の第3の実施の形態に係る評価情報抽出装置のハードウェア構成を示す構成図 本発明の第3の実施の形態に係る評価情報抽出装置のプログラムに対応するフローチャート 図22中の評価表現抽出処理の詳細内容を示すフローチャート 図22中の属性表現抽出処理の詳細内容を示すフローチャート 図22中の対象表現抽出処理の詳細内容を示すフローチャート 図20中の評価表現辞書の一例を示す説明図 図20中の固有表現クラス辞書の一例を示す説明図 図20中のカテゴリフィルタの一例を示す説明図 図20中の出力設定情報の一例を示す説明図 評価表現ルールの他の例を示す説明図 第3の実施の形態による具体的な評価情報抽出の具体例を示す説明図 第3の実施の形態による具体的な評価情報抽出の具体例を示す説明図 第3の実施の形態による具体的な評価情報抽出の具体例を示す説明図 第3の実施の形態による具体的な評価情報抽出の具体例を示す説明図 第3の実施の形態による具体的な評価情報抽出の具体例を示す説明図 第3の実施の形態による具体的な評価情報抽出の具体例を示す説明図 第3の実施の形態による具体的な評価情報抽出の具体例を示す説明図
符号の説明
1:一般単語辞書、2:対象リスト単語辞書、3,31:評価表現辞書、4:評価表現ルール、5,33:カテゴリフィルタ、6:形態素解析部、7:固有表現抽出部、8:係り受け解析部、9,35:評価表現抽出部、10,14,36:属性表現抽出部、11,15,37:対象表現抽出部、12,38:評価情報作成部、13:文節認定部、21:一般単語辞書記憶部、22:対象リスト単語辞書記憶部、23,41:評価表現辞書記憶部、24:評価表現ルール記憶部、25,43:カテゴリフィルタ記憶部、26:入力文書記憶部、27:単語列記憶部、28,29,45:中央処理装置(CPU)、32:固有表現クラス辞書、34:出力設定情報、42:固有表現クラス辞書記憶部、44:出力設定情報記憶部。

Claims (11)

  1. 入力されたテキストデータから対象表現、属性表現および評価表現よりなる評価情報を抽出する評価情報抽出装置において、
    入力されたテキストデータに対し、少なくとも一般単語辞書を用いて形態素解析を行い、単語情報を出力する形態素解析部と、
    前記単語情報に対して固有表現抽出を行い、固有表現情報を出力する固有表現抽出部と、
    前記単語情報に対して係り受け解析を行い、文節情報および係り受け情報を出力する係り受け解析部と、
    少なくとも前記単語情報に対し、少なくとも評価表現辞書および評価表現ルールを用いて評価表現抽出を行い、評価表現情報を出力する評価表現抽出部と、
    前記評価表現情報に対し、前記単語情報、固有表現情報、文節情報、係り受け情報およびカテゴリフィルタを用いて属性表現抽出を行い、属性表現情報を出力する属性表現抽出部と、
    前記評価表現情報に対し、前記単語情報、固有表現情報、文節情報、係り受け情報および属性表現情報を用いて固有表現に相当する対象表現抽出を行い、対象表現情報を出力する対象表現抽出部と、
    前記評価表現情報、属性表現情報および対象表現情報を用いて対象表現、属性表現および評価表現よりなる評価情報を作成する評価情報作成部とを備えた
    ことを特徴とする評価情報抽出装置。
  2. 少なくとも1つの単語を含む単語列からなる評価表現について、その単語列を構成する各単語の単語情報および当該評価表現の一般的な極性を登録してなる評価表現辞書と、少なくとも1つの単語を含む単語列からなる評価表現の記述に関するルールについて、当該評価表現を構成する少なくとも各単語の正規表現からなる評価表現パターンおよび当該評価表現の極性を登録してなる評価表現ルールとを用いて評価表現抽出を行う評価表現抽出部と、
    単語情報として付与される意味カテゴリのうち、抽出すべき評価情報のカテゴリに対応する意味カテゴリを登録してなるカテゴリフィルタを用いて属性表現抽出を行う属性表現抽出部と、
    単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報および属性表現情報から得られる重みを用いて対象表現抽出を行う対象表現抽出部とを備えた
    ことを特徴とする請求項1記載の評価情報抽出装置。
  3. 少なくとも1つの単語を含む単語列からなる評価表現について、その単語列を構成する各単語の単語情報、その単語列を構成する各単語の主要語フラグおよび当該評価表現の一般的な極性を登録してなる評価表現辞書と、少なくとも1つの単語を含む単語列からなる評価表現の記述に関するルールについて、当該評価表現を構成する少なくとも各単語の正規表現からなる評価表現パターンおよび当該評価表現の極性を登録してなる評価表現ルールと、少なくとも1つの単語を含む単語列からなる評価表現について、当該評価表現が評価対象として取り得る固有表現クラスを登録してなる固有表現クラス辞書とを用いて評価表現抽出を行う評価表現抽出部と、
    単語情報として付与される意味カテゴリのうち、抽出すべき評価情報のカテゴリに対応する意味カテゴリを固有表現クラス別に登録してなるカテゴリフィルタを用いて属性表現抽出を行う属性表現抽出部と、
    単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報および属性表現情報から得られる重みであって、評価表現情報に規定されていない固有表現クラスの重みは0とする重みを用いて対象表現抽出を行う対象表現抽出部とを備えた
    ことを特徴とする請求項1記載の評価情報抽出装置。
  4. 予め登録された出力設定情報に基づき、前記評価表現情報、属性表現情報および対象表現情報を用いて対象表現、属性表現および評価表現よりなる評価情報を作成する評価情報作成部を備えた
    ことを特徴とする請求項3記載の評価情報抽出装置。
  5. 係り受け解析部の代わりに、前記単語情報に対して文節認定を行い、文節情報を出力する文節認定部を備えるとともに、
    前記評価表現情報に対し、前記単語情報、固有表現情報、文節情報およびカテゴリフィルタを用いて属性表現抽出を行い、属性表現情報を出力する属性表現抽出部と、
    前記評価表現情報に対し、前記単語情報、固有表現情報、文節情報および属性表現情報を用いて固有表現に相当する対象表現抽出を行い、対象表現情報を出力する対象表現抽出部とを備えた
    ことを特徴とする請求項1乃至4のいずれか記載の評価情報抽出装置。
  6. 入力されたテキストデータから対象表現、属性表現および評価表現よりなる評価情報を抽出する評価情報抽出方法において、
    一般単語辞書と、評価表現辞書と、評価表現ルールと、カテゴリフィルタとを少なくとも記憶したコンピュータを用い、
    当該コンピュータが、
    入力されたテキストデータに対し、少なくとも一般単語辞書を用いて形態素解析を行い、単語情報を出力する形態素解析工程と、
    前記単語情報に対して固有表現抽出を行い、固有表現情報を出力する固有表現抽出工程と、
    前記単語情報に対して係り受け解析を行い、文節情報および係り受け情報を出力する係り受け解析工程と、
    少なくとも前記単語情報に対し、少なくとも評価表現辞書および評価表現ルールを用いて評価表現抽出を行い、評価表現情報を出力する評価表現抽出工程と、
    前記評価表現情報に対し、前記単語情報、固有表現情報、文節情報、係り受け情報およびカテゴリフィルタを用いて属性表現抽出を行い、属性表現情報を出力する属性表現抽出工程と、
    前記評価表現情報に対し、前記単語情報、固有表現情報、文節情報、係り受け情報および属性表現情報を用いて固有表現に相当する対象表現抽出を行い、対象表現情報を出力する対象表現抽出工程と、
    前記評価表現情報、属性表現情報および対象表現情報を用いて対象表現、属性表現および評価表現よりなる評価情報を作成する評価情報作成工程とを実行する
    ことを特徴とする評価情報抽出方法。
  7. 少なくとも1つの単語を含む単語列からなる評価表現について、その単語列を構成する各単語の単語情報および当該評価表現の一般的な極性を登録してなる評価表現辞書と、少なくとも1つの単語を含む単語列からなる評価表現の記述に関するルールについて、当該評価表現を構成する少なくとも各単語の正規表現からなる評価表現パターンおよび当該評価表現の極性を登録してなる評価表現ルールとを用いて評価表現抽出を行う評価表現抽出工程と、
    単語情報として付与される意味カテゴリのうち、抽出すべき評価情報のカテゴリに対応する意味カテゴリを登録してなるカテゴリフィルタを用いて属性表現抽出を行う属性表現抽出工程と、
    単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報および属性表現情報から得られる重みを用いて対象表現抽出を行う対象表現抽出工程とを含む
    ことを特徴とする請求項6記載の評価情報抽出方法。
  8. 少なくとも1つの単語を含む単語列からなる評価表現について、その単語列を構成する各単語の単語情報、その単語列を構成する各単語の主要語フラグおよび当該評価表現の一般的な極性を登録してなる評価表現辞書と、少なくとも1つの単語を含む単語列からなる評価表現の記述に関するルールについて、当該評価表現を構成する少なくとも各単語の正規表現からなる評価表現パターンおよび当該評価表現の極性を登録してなる評価表現ルールと、少なくとも1つの単語を含む単語列からなる評価表現について、当該評価表現が評価対象として取り得る固有表現クラスを登録してなる固有表現クラス辞書とを用いて評価表現抽出を行う評価表現抽出工程と、
    単語情報として付与される意味カテゴリのうち、抽出すべき評価情報のカテゴリに対応する意味カテゴリを固有表現クラス別に登録してなるカテゴリフィルタを用いて属性表現抽出を行う属性表現抽出工程と、
    単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報および属性表現情報から得られる重みであって、評価表現情報に規定されていない固有表現クラスの重みは0とする重みを用いて対象表現抽出を行う対象表現抽出工程とを含む
    ことを特徴とする請求項6記載の評価情報抽出方法。
  9. 予め登録された出力設定情報に基づき、前記評価表現情報、属性表現情報および対象表現情報を用いて対象表現、属性表現および評価表現よりなる評価情報を作成する評価情報作成工程を含む
    ことを特徴とする請求項8記載の評価情報抽出方法。
  10. 係り受け解析工程の代わりに、前記単語情報に対して文節認定を行い、文節情報を出力する文節認定工程を含むとともに、
    前記評価表現情報に対し、前記単語情報、固有表現情報、文節情報およびカテゴリフィルタを用いて属性表現抽出を行い、属性表現情報を出力する属性表現抽出工程と、
    前記評価表現情報に対し、前記単語情報、固有表現情報、文節情報および属性表現情報を用いて固有表現に相当する対象表現抽出を行い、対象表現情報を出力する対象表現抽出工程とを含む
    ことを特徴とする請求項6乃至9のいずれか記載の評価情報抽出方法。
  11. コンピュータに、請求項6乃至10いずれか記載の評価情報抽出方法の各処理ステップを実行させるための評価情報抽出プログラム。
JP2007099571A 2006-11-08 2007-04-05 評価情報抽出装置、評価情報抽出方法およびそのプログラム Active JP4576397B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007099571A JP4576397B2 (ja) 2006-11-08 2007-04-05 評価情報抽出装置、評価情報抽出方法およびそのプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006302745 2006-11-08
JP2007099571A JP4576397B2 (ja) 2006-11-08 2007-04-05 評価情報抽出装置、評価情報抽出方法およびそのプログラム

Publications (2)

Publication Number Publication Date
JP2008140359A true JP2008140359A (ja) 2008-06-19
JP4576397B2 JP4576397B2 (ja) 2010-11-04

Family

ID=39601704

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007099571A Active JP4576397B2 (ja) 2006-11-08 2007-04-05 評価情報抽出装置、評価情報抽出方法およびそのプログラム

Country Status (1)

Country Link
JP (1) JP4576397B2 (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009187048A (ja) * 2008-02-01 2009-08-20 Yahoo Japan Corp 評価表現抽出方法、評価表現抽出装置、および、評価表現抽出プログラム
JP2010079812A (ja) * 2008-09-29 2010-04-08 Oki Electric Ind Co Ltd 位置表現特定装置、位置表現特定方法及びプログラム
JP2010146171A (ja) * 2008-12-17 2010-07-01 Nippon Hoso Kyokai <Nhk> 表現補完装置およびコンピュータプログラム
JP2010211556A (ja) * 2009-03-11 2010-09-24 Yahoo Japan Corp 観光ルート提供装置、観光ルート提供方法、及びプログラム
JP2011048527A (ja) * 2009-08-26 2011-03-10 Nippon Telegr & Teleph Corp <Ntt> 感性情報抽出装置、感性検索装置、その方法およびプログラム
JP2011070541A (ja) * 2009-09-28 2011-04-07 Shimizu Corp ネットマーケティング支援方法及びネットマーケティング支援装置
JP2011085986A (ja) * 2009-10-13 2011-04-28 Nippon Telegr & Teleph Corp <Ntt> テキスト要約方法、その装置およびプログラム
JP2011154576A (ja) * 2010-01-28 2011-08-11 Nippon Telegr & Teleph Corp <Ntt> 評判分析装置、評判分析方法及び評判分析プログラム
JP2011165087A (ja) * 2010-02-12 2011-08-25 Nippon Telegr & Teleph Corp <Ntt> 重要語抽出装置、重要語抽出方法及び重要語抽出プログラム
JP2012226747A (ja) * 2011-04-21 2012-11-15 Palo Alto Research Center Inc 感情分類を向上させるためにsvm学習に用語集知識を組み込むこと
JP2013008348A (ja) * 2011-05-23 2013-01-10 Nippon Telegr & Teleph Corp <Ntt> 著者行動推定装置、著者行動推定モデル学習装置、著者行動推定方法、著者行動推定モデル学習方法、及びプログラム
JP2013200794A (ja) * 2012-03-26 2013-10-03 Ntt Communications Kk 属性抽出装置、属性抽出方法、および属性抽出プログラム
US10198426B2 (en) 2014-07-28 2019-02-05 International Business Machines Corporation Method, system, and computer program product for dividing a term with appropriate granularity
CN110019681A (zh) * 2017-12-19 2019-07-16 优酷网络技术(北京)有限公司 一种评论内容过滤方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278982A (ja) * 2001-03-22 2002-09-27 Ricoh Co Ltd 情報抽出方法および情報検索方法
JP2003157254A (ja) * 2001-11-20 2003-05-30 Just Syst Corp 情報処理装置、情報処理方法、及び情報処理プログラム
JP2007219880A (ja) * 2006-02-17 2007-08-30 Fujitsu Ltd 評判情報処理プログラム、方法及び装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278982A (ja) * 2001-03-22 2002-09-27 Ricoh Co Ltd 情報抽出方法および情報検索方法
JP2003157254A (ja) * 2001-11-20 2003-05-30 Just Syst Corp 情報処理装置、情報処理方法、及び情報処理プログラム
JP2007219880A (ja) * 2006-02-17 2007-08-30 Fujitsu Ltd 評判情報処理プログラム、方法及び装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009187048A (ja) * 2008-02-01 2009-08-20 Yahoo Japan Corp 評価表現抽出方法、評価表現抽出装置、および、評価表現抽出プログラム
JP2010079812A (ja) * 2008-09-29 2010-04-08 Oki Electric Ind Co Ltd 位置表現特定装置、位置表現特定方法及びプログラム
JP2010146171A (ja) * 2008-12-17 2010-07-01 Nippon Hoso Kyokai <Nhk> 表現補完装置およびコンピュータプログラム
JP2010211556A (ja) * 2009-03-11 2010-09-24 Yahoo Japan Corp 観光ルート提供装置、観光ルート提供方法、及びプログラム
JP2011048527A (ja) * 2009-08-26 2011-03-10 Nippon Telegr & Teleph Corp <Ntt> 感性情報抽出装置、感性検索装置、その方法およびプログラム
JP2011070541A (ja) * 2009-09-28 2011-04-07 Shimizu Corp ネットマーケティング支援方法及びネットマーケティング支援装置
JP2011085986A (ja) * 2009-10-13 2011-04-28 Nippon Telegr & Teleph Corp <Ntt> テキスト要約方法、その装置およびプログラム
JP2011154576A (ja) * 2010-01-28 2011-08-11 Nippon Telegr & Teleph Corp <Ntt> 評判分析装置、評判分析方法及び評判分析プログラム
JP2011165087A (ja) * 2010-02-12 2011-08-25 Nippon Telegr & Teleph Corp <Ntt> 重要語抽出装置、重要語抽出方法及び重要語抽出プログラム
JP2012226747A (ja) * 2011-04-21 2012-11-15 Palo Alto Research Center Inc 感情分類を向上させるためにsvm学習に用語集知識を組み込むこと
JP2013008348A (ja) * 2011-05-23 2013-01-10 Nippon Telegr & Teleph Corp <Ntt> 著者行動推定装置、著者行動推定モデル学習装置、著者行動推定方法、著者行動推定モデル学習方法、及びプログラム
JP2013200794A (ja) * 2012-03-26 2013-10-03 Ntt Communications Kk 属性抽出装置、属性抽出方法、および属性抽出プログラム
US10198426B2 (en) 2014-07-28 2019-02-05 International Business Machines Corporation Method, system, and computer program product for dividing a term with appropriate granularity
CN110019681A (zh) * 2017-12-19 2019-07-16 优酷网络技术(北京)有限公司 一种评论内容过滤方法及系统

Also Published As

Publication number Publication date
JP4576397B2 (ja) 2010-11-04

Similar Documents

Publication Publication Date Title
JP4576397B2 (ja) 評価情報抽出装置、評価情報抽出方法およびそのプログラム
Thanaki Python natural language processing
US9152623B2 (en) Natural language processing system and method
Perkins Python text processing with NLTK 2.0 cookbook
JP3429184B2 (ja) テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
CN108885617B (zh) 语句解析系统以及程序
Tabassum et al. A survey on text pre-processing & feature extraction techniques in natural language processing
Altinok Mastering spaCy: An end-to-end practical guide to implementing NLP applications using the Python ecosystem
Ghosh et al. Natural language processing fundamentals: build intelligent applications that can interpret the human language to deliver impactful results
Seraji Morphosyntactic corpora and tools for Persian
KR102188739B1 (ko) 감정 온톨로지에 기반을 둔 이모티콘 추천 장치 및 방법
Virk et al. Exploiting frame-semantics and frame-semantic parsing for automatic extraction of typological information from descriptive grammars of natural languages
Kumar et al. A Comparative Analysis of Pre-Processing Time in Summary of Hindi Language using Stanza and Spacy
Imane et al. A set of parameters for automatically annotating a Sentiment Arabic Corpus
Chopra et al. The Natural Language Processing Workshop: Confidently design and build your own NLP projects with this easy-to-understand practical guide
Radoev et al. AMAL: answering french natural language questions using DBpedia
JPH1078969A (ja) 情報検索装置
Hajbi et al. Natural Language Processing Based Approach to Overcome Arabizi and Code Switching in Social Media Moroccan Dialect
KR100858035B1 (ko) 형태소 분석용 다차원 해석 사전 구축 방법 및 그 다차원해석 사전 구축 장치
Ahmed et al. Arabic/english word translation disambiguation approach based on naive bayesian classifier
Sawalha et al. Linguistically informed and corpus informed morphological analysis of Arabic
Gholami-Dastgerdi et al. Part of speech tagging using part of speech sequence graph
Vanetik et al. Multilingual text analysis: History, tasks, and challenges
Issa Alaa Aldine et al. DHPs: Dependency Hearst’s Patterns for Hypernym Relation Extraction

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100216

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100412

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100816

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100823

R150 Certificate of patent or registration of utility model

Ref document number: 4576397

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130827

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350