JP2008140359A

JP2008140359A - 評価情報抽出装置、評価情報抽出方法およびそのプログラム

Info

Publication number: JP2008140359A
Application number: JP2007099571A
Authority: JP
Inventors: Hisako Asano; 久子浅野; Yoshihiro Matsuo; 義博松尾
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2006-11-08
Filing date: 2007-04-05
Publication date: 2008-06-19
Anticipated expiration: 2027-04-05
Also published as: JP4576397B2

Abstract

【課題】入力されたテキストデータから対象表現、属性表現および評価表現よりなる評価情報を抽出して出力する際、様々なドメインに対しコストをかけずに評価情報の各要素の関係を抽出でき、関連付けて出力可能とすること。
【解決手段】形態素解析部６、固有表現抽出部７および係り受け解析部８により、テキストデータから単語、固有表現、文節および係り受け情報を抽出し、評価表現抽出部９により、評価表現辞書３および評価表現ルール４を参照して単語情報から評価表現情報を抽出し、属性表現抽出部１０により、カテゴリフィルタを参照して単語、固有表現、文節、係り受けおよび評価表現情報から属性表現情報を抽出し、対象表現抽出部１１により、単語、固有表現、文節、係り受け、評価表現情報および属性表現情報から対象表現情報を抽出し、評価情報作成部１２により評価情報を出力する。
【選択図】図１

Description

本発明は、入力されたテキストデータから、ある対象に関する意見や評価等の情報を抽出する技術に関する。

近年、入力されたテキストデータから、ある対象に関する意見や評価等の情報である評価情報を抽出し、整理して提示する技術についての研究が進んでいる。ここで、評価情報を構成する要素としては、評価する対象を表す対象表現（情報）、評価する対象の仕様（性質や特徴等）やその一部分など（の具体的な評価項目）を表す属性表現（情報）、意見や評価そのものを表す評価表現（情報）がある（なお、上記以外の要素として、評価を行う人や組織を表す評価者（情報）を含む場合もあるが、本発明では省略する。）（非特許文献１、２参照）。

そして、テキストデータから評価情報の各要素を抽出する（例えば、テキスト「○○レストランのオムライスはおいしいけど、カレーはまずい」から、評価情報の各要素「対象表現＝○○レストラン、属性表現＝オムライス；カレー、評価表現＝おいしい；まずい」を抽出する）、例えば評価表現を抽出する手法としては、評価表現（の単語情報）とその表現が有する評価極性の組の集合からなる評価表現辞書を用いて行う方法が提案され、また、特に属性表現を抽出する手法としては、属性表現の集合からなる属性辞書を作成して行う方法が一般的である（非特許文献１（特に「３．４．１要素抽出」）参照）。

しかし、評価情報の各要素を関係を抽出し、関連付けて出力する（例えば、テキスト「○○レストランのオムライスはおいしいけど、カレーはまずい」および評価情報の各要素「対象表現＝○○レストラン、属性表現＝オムライス；カレー、評価表現＝おいしい；まずい」から、関連付けられた評価情報「（対象表現，属性表現，評価表現）＝（○○レストラン，オムライス，おいしい）；（○○レストラン，カレー，まずい）」を出力する）手法については、まだ精度の良い手法は確立されていない（非特許文献１（特に「３．４．２関係抽出」）参照）。

なお、評価情報の各要素の関係を抽出する手法として、あるドメイン（例えば、「車」）におけるコーパスを用いてモデルを作成して行う方法が提案されている（非特許文献２参照）。
乾孝司，他「テキストを対象とした評価情報の分析に関する研究動向」自然言語処理，言語処理学会、２００６年７月，Ｖｏｌ．１３，Ｎｏ．３，ｐｐ．２０１−２４１小林のぞみ，他「照応解析手法を利用した属性−評価値対および意見性情報の抽出」言語処理学会第１１回年次大会論文集，２００５年３月，ｐｐ．４３６−４３９

しかし、前述したモデルの作成には、その素性として、表層文字列やそのドメインにおける共起用例を用いているため、ドメイン依存度が非常に高く、他のドメインへ適用する場合には、大規模なコーパスの整備など膨大なコストがかかるという問題があった。

また、「私の車はデザインがかっこいい」というテキストにおける評価情報は、（対象表現，属性表現，評価表現）＝（私の車，デザイン，かっこいい）であるが、「私の車」のように、他の者が特定できない対象表現を含む評価情報は、当該他の者にとっては、あまり意味がないと考えられる（「私の車」の車種が特定されて、他の者にとっては意味がある情報となる）。

さらにまた、評価情報を利用する際には、特定の評価情報のみを収集したいという場合もあり得る（例えば、「各種携帯電話の評価情報を知りたい」、「デザインの評価がよいものなら何でも知りたい」、「特定の車種の評価情報を知りたい」等）。

本発明は、上記の点に鑑みなされたもので、対象表現を固有表現に相当する語（＝他者が特定できるもの）として、様々なドメインに対しコストをかけずに評価情報の各要素の関係を抽出でき、関連付けて出力可能な評価情報抽出装置、その方法およびプログラムを提供することを目的とする。

本発明は、入力されたテキストデータに対し、少なくとも一般単語辞書を用いて形態素解析を行い、単語情報を出力し、
前記単語情報に対して固有表現抽出を行い、固有表現情報を出力し、
前記単語情報に対して係り受け解析を行い、文節情報および係り受け情報を出力し、
少なくとも前記単語情報に対し、少なくとも評価表現辞書および評価表現ルールを用いて評価表現抽出を行い、評価表現情報を出力し、
前記評価表現情報に対し、前記単語情報、固有表現情報、文節情報、係り受け情報およびカテゴリフィルタを用いて属性表現抽出を行い、属性表現情報を出力し、
前記評価表現情報に対し、前記単語情報、固有表現情報、文節情報、係り受け情報および属性表現情報を用いて固有表現に相当する対象表現抽出を行い、対象表現情報を出力し、
前記評価表現情報、属性表現情報および対象表現情報を用いて対象表現、属性表現および評価表現よりなる評価情報を作成することを特徴とする。

本発明によれば、評価表現に対し、単語情報、固有表現情報、文節情報および係り受け情報を用いて属性表現を抽出し、また、単語情報、固有表現情報、文節情報、係り受け情報および属性表現情報を用いて固有表現に相当する対象表現を抽出することにより、ドメインに依存したコーパスからモデルを作成するような必要がなく、様々なドメインに対しコストをかけずに評価情報の各要素の関係を抽出でき、固有表現に相当する語からなる対象表現を含む評価情報を抽出することができる。

以下、この発明を図示の実施の形態により説明する。

＜第１の実施の形態＞
図１は本発明の第１の実施の形態に係る評価情報抽出装置の概要を示すもので、図中、１は一般単語辞書、２は対象リスト単語辞書、３は評価表現辞書、４は評価表現ルール、５はカテゴリフィルタ、６は形態素解析部、７は固有表現抽出部、８は係り受け解析部、９は評価表現抽出部、１０は属性表現抽出部、１１は対象表現抽出部、１２は評価情報作成部である。

図２は本発明の第１の実施の形態に係る評価情報抽出装置のハードウェア構成、ここではコンピュータを用いて構成した例を示すもので、図中、２１は一般単語辞書記憶部、２２は対象リスト単語辞書記憶部、２３は評価表現辞書記憶部、２４は評価表現ルール記憶部、２５はカテゴリフィルタ記憶部、２６は入力文書記憶部、２７は単語列記憶部、２８は中央処理装置（ＣＰＵ）である。

一般単語辞書記憶部２１、対象リスト単語辞書記憶部２２、評価表現辞書記憶部２３、評価表現ルール記憶部２４およびカテゴリフィルタ記憶部２５はそれぞれ、前述した一般単語辞書１、対象リスト単語辞書２、評価表現辞書３、評価表現ルール４およびカテゴリフィルタ５を記憶している。

入力文書記憶部２６は、入力文書もしくはこれに加えて対象キーワード（後述する）を記憶する。単語列記憶部２７は、前述した形態素解析部６、固有表現抽出部７、係り受け解析部８、評価表現抽出部９、属性表現抽出部１０、対象表現抽出部１１および評価情報作成部１２によって作成される各段階の単語列を記憶する。

中央処理装置（ＣＰＵ）２８は、図３乃至図６にフローチャートで示すプログラムに従って、前述した各部を制御するとともに、この際、前述した形態素解析部６、固有表現抽出部７、係り受け解析部８、評価表現抽出部９、属性表現抽出部１０、対象表現抽出部１１および評価情報作成部１２を構成する。

以下、図３に従い、本実施の形態における評価情報抽出の全体的な流れについて説明する。

まず、ＣＰＵ２８は、入力文書もしくはこれに加えて対象キーワードが図示しないキーボード等から直接入力され又は記憶媒体から読み出されて入力され又は通信媒体を介して他の装置等から入力されると、これを入力文書記憶部２６に記憶する（ｓ１）。

次に、ＣＰＵ２８は、その形態素解析部６により、入力文書記憶部２６から入力文書（または入力文書および対象キーワード）を読み出し（ｓ２）、一般単語辞書記憶部２１に記憶された一般単語辞書１および対象リスト単語辞書記憶部２２に記憶された対象リスト単語辞書２を参照し、後述する形態素解析を行って単語情報を作成し（ｓ３）、これを単語列（単語情報）として単語列記憶部２７に記憶する（ｓ４）。

次に、ＣＰＵ２８は、その固有表現抽出部７により、単語列記憶部２７から単語列（単語情報）を読み出し（ｓ５）、後述する固有表現抽出を行って固有表現情報を生成し（ｓ６）、これを追加した単語列（単語情報、固有表現情報）を単語列記憶部２７に記憶する（ｓ７）。

次に、ＣＰＵ２８は、その係り受け解析部８により、単語列記憶部２７から単語列（単語情報、固有表現情報）を読み出し（ｓ８）、後述する係り受け解析を行って文節情報および係り受け情報を生成し（ｓ９）、これを追加した単語列（単語情報、固有表現情報、文節情報、係り受け情報）を単語列記憶部２７に記憶する（ｓ１０）。

なお、実際には係り受け解析処理（ｓ９）に固有表現情報は必要なく、固有表現抽出工程（ｓ５〜ｓ７）と係り受け解析工程（ｓ８〜ｓ１０）の順序は逆でも良い。

次に、ＣＰＵ２８は、その評価表現抽出部９により、単語列記憶部２７から単語列（単語情報、固有表現情報、文節情報、係り受け情報）を読み出し（ｓ１１）、評価表現辞書記憶部２３に記憶された評価表現辞書３および評価表現ルール記憶部２４に記憶された評価表現ルール４を参照し、後述する評価表現抽出を行って評価表現情報を作成し（ｓ１２）、これを追加した単語列（単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報）を単語列記憶部２７に記憶する（ｓ１３）。

次に、ＣＰＵ２８は、その属性表現抽出部１０により、単語列記憶部２７から単語列（単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報）を読み出し（ｓ１４）、カテゴリフィルタ記憶部２５に記憶されたカテゴリフィルタ５を参照し、後述する属性表現抽出を行って属性表現情報を作成し（ｓ１５）、これを追加するとともに必要に応じて評価表現情報を修正した単語列（単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報、属性表現情報）を単語列記憶部２７に記憶する（ｓ１６）。

次に、ＣＰＵ２８は、その対象表現抽出部１１により、単語列記憶部２７から単語列（単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報、属性表現情報）を読み出し（ｓ１７）、後述する対象表現抽出を行って対象表現情報を作成し（ｓ１８）、これを追加した単語列（単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報、属性表現情報、対象表現情報）を単語列記憶部２７に記憶する（ｓ１９）。

最後に、ＣＰＵ２８は、その評価情報作成部１２により、単語列記憶部２７から単語列（単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報、属性表現情報、対象表現情報）を読み出し（ｓ２０）、組となった対象表現情報、属性表現情報および評価表現情報にそれぞれ対応する単語の表記を対象表現、属性表現および評価表現とする評価情報を作成して（ｓ２１）出力し（ｓ２２）、処理を終了する。

次に、本実施の形態における評価情報抽出について、各部の構成とともに詳細に説明する。

一般単語辞書１は、周知の形態素解析技術で用いられる単語辞書に相当するもので、少なくとも１つの文字を含む単語について、単語毎にその表記、品詞、読み、意味カテゴリ等の単語情報を登録してなるものである。

対象リスト単語辞書２は、周知の形態素解析技術で用いられる単語辞書のうち、一般にユーザ辞書と呼ばれるユーザが任意に登録可能な辞書に相当するもので、対象侯補となり得る単語について、一般単語辞書１の登録単語と識別するために、例えば単語情報のうちの品詞を特殊な品詞として登録したり、単語情報に識別用の情報（フィールド）を含めて登録してなるものである。なお、この対象リスト単語辞書２はなくても良い。

評価表現辞書３は、少なくとも１つの単語を含む単語列からなる評価表現について、その単語列を構成する各単語の単語情報（例えば、表記、品詞、読みの組）と、当該評価表現の一般的な極性（例えば、肯定（Ｐ）、否定（Ｎ）、不明（ＰＮ））とを登録してなるものである。

図７に評価表現辞書３の一例を示す。例えば、「暑／形容詞語幹／アツ」は、表記が「暑」、品詞が「形容詞語幹」、読みが「アツ」である単語を表し、この「暑」の極性をＰＮとしている。また、「自由／名詞／ジユウ自在／名詞／ジザイ」は、表記が「自由」、品詞が「名詞」、読みが「ジユウ」である単語と、これに続く表記が「自在」、品詞が「名詞」、読みが「自在」である単語とからなる単語列を表し、この単語列「自由自在」の極性をＰＮとしている。

評価表現ルール４は、評価表現の記述に関するルールについて、そのルール番号と、評価表現を構成する各単語の正規表現からなる評価表現パターンと、当該評価表現の極性とを登録してなるものである。なお、単語の正規表現の外、固有表現情報、文節情報、係り受け情報の正規表現を用いても良い。

図８に評価表現ルール４の一例を示す。図８において、＜＞は１個（の単語）の正規表現、（？：＜＞）＊は０個以上（の単語）の正規表現、（？：＜＞）？は０または１個（の単語）の正規表現に相当し、「ｅ：」は評価表現に対する条件、「ｐ：」は品詞に対する条件、「ｈ：」は表記に対する条件であることを示す。例えばルール番号１の評価表現パターン「＜ｅ：Ｂ−Ｐ＞（？：＜ｅ：Ｉ−Ｐ＞）＊（？：＜ｐ：形容詞接尾辞＞）？」は、「＜ｅ：Ｂ−Ｐ＞」がＰ極性の評価表現の先頭の単語の正規表現、「（？：＜ｅ：Ｉ−Ｐ＞）＊」が０個以上のＰ極性の評価表現の中間の単語の正規表現、「（？：＜ｐ：形容詞接尾辞＞）？」が０または１個の品詞が形容詞接尾辞である単語の正規表現を表し、このパターンにマッチした評価表現の極性はＰであることを表している。

カテゴリフィルタ５は、抽出する評価情報のカテゴリを限定するために、単語情報として付与される意味カテゴリのうち、抽出すべき評価情報のカテゴリに対応する意味カテゴリを登録してなるものである。

図９にカテゴリフィルタの一例、ここでは商品系の評価情報を抽出する場合の例を示す。この例では、カテゴリ「無生物」もしくはその下位カテゴリ、あるいはカテゴリ「創作物」もしくはその下位カテゴリであれば通過する。

形態素解析部６は、入力文書または入力文書および対象キーワードを入力とし、一般単語辞書１および対象リスト単語辞書２を参照して、入力文書を単語に分割し、各単語に表記、品詞、読み、意味カテゴリ等の単語情報を付与した単語列を出力する。

ここで、入力文書は、図示しないキーボード等から直接入力され又は記憶媒体から読み出されて入力され又は通信媒体を介して他の装置から入力される、少なくとも１つの文を含むテキストデータである。また、対象キーワードは、図示しないキーボード等から直接入力され又は記憶媒体から読み出されて入力され又は通信媒体を介して他の装置から入力される、前述した対象リスト単語辞書２に登録されている単語と同等の扱いをする単語である。

この際、形態素解析部６への入力が入力文書のみの場合は、そのまま入力文書に対して周知の形態素解析を行う。一方、形態素解析部６への入力が、入力文書および対象キーワードの場合は、入力文書中から対象キーワードと一致する文字列を検索し、その文字列に対して、対象リスト単語辞書２と同等の単語情報（例えば、特殊な品詞）を指定した単語情報付入力文書を作成し、この単語情報付入力文書に対して形態素解析を行う。

単語情報付入力文書を形態素解析する手法としては、例えば、特許第３３７９６４３号「形態素解析方法および形態素解析プログラムを記録した記録媒体」等に記載された手法を用いることができる。

固有表現抽出部７は、単語列（単語情報）を入力とし、周知の固有表現抽出技術を用いて、人名、地名、組織名といった固有表現のクラスとその位置（当該固有表現の先頭の単語か、それ以外（継続）の単語かを表す情報）からなる固有表現情報を各単語に付与する。

固有表現抽出技術としては、例えば、特開２００４−４６７７５号公報「固有表現抽出装置および方法並びに固有表現抽出プログラム」等に記載された手法を用いることができる。

その後、対象キーワードあるいは対象リスト単語辞書２に登録された単語、即ち識別用の情報がついている単語に対し、専用の固有表現情報（例えば、対象リストクラスとその位置）を付与する。

なお、前述した固有表現抽出に対する周知の固有表現抽出技術を用いず、対象キーワードもしくは対象リスト単語辞書２に登録された単語のみに固有表現情報を付与するようにしても良い。あるいは、さらにこれらに加えて、特定の品詞を有する単語（例えば、「名詞：固有」）に固有表現情報を付与するようにしても良い。

こうして、単語情報に固有表現情報を追加した単語列を出力する。

係り受け解析部８は、単語列（単語情報）を入力とし、周知の係り受け解析技術を用いて、文節認定および係り受け解析を行い、その結果を単語列と対応付けて、単語情報に文節情報および係り受け情報を追加した単語列を出力する（固有表現抽出部２で追加された固有表現情報と併せて、単語列は、単語情報、固有表現情報、文節情報、係り受け情報からなる。）。

文節認定・係り受け解析技術としては、例えば、工藤拓，松本裕治「チャンキングの段階適用による係り受け解析」情報処理学会論文誌，２００２年，Ｖｏｌ．４３，Ｎｏ．６等に記載された手法を用いることができる。

評価表現抽出部９は、単語列（少なくとも単語情報）を入力とし、評価表現辞書３および評価表現ルール４を用いて、１文単位に、予め定めた処理方向（文頭から文末、あるいは文末から文頭）で評価表現抽出処理を行い、評価表現情報を各単語に付与し、単語情報に評価表現情報を追加した単語列を出力する（固有表現抽出部２および係り受け解析部８で追加された固有表現情報、文節情報、係り受け情報と併せて、単語列は、単語情報、固有表現情報、文節情報、係り受け情報および評価表現情報からなる。）。

以下、評価表現抽出部９の１文に対する処理の流れを図４を用いて詳細に説明する。以降の説明では、処理方向は全て文頭→文末とする。

ステップＳ３１では、入力された文が抽出対象文となるかを、単語情報を用いた条件で判定する。例えば、末尾単語が「？」であるものは疑問文（例えば、「○○レストランはおいしいですか？」という疑問文では「おいしい」か評価していない。）として、抽出対象文ではないと判定する。また、表記に「かもしれない」などの推定を含む文、「だったら」などの仮定を含む文も抽出対象文でないと判定しても良い。抽出対象文である場合には、ステップＳ３２に移る。そうでない場合には、処理を終了する。

ステップＳ３２では、文頭の単語から文末の単語まで、順に評価表現辞書３と照合を行い、評価表現辞書３中のいずれかの評価表現にマッチした単語（列）は、その位置（当該評価表現の先頭の単語か、それ以外（中間）の単語かを表す情報）および極性を記憶しておく。これは、例えば評価表現辞書照合結果として、評価表現の先頭の単語にはＢ−極性、評価表現の中間の単語にはＩ−極性、評価表現ではない単語にはＮＩＬというタグを付与することにより、実現できる。

次にステップＳ３３に進む。

ステップＳ３３では、文頭の単語から文末の単語まで、順に評価表現ルール４と照合を行い、評価表現ルール４中のいずれかのルールとマッチした単語（列）は、その位置および極性を記憶しておく。これは、例えば評価表現ルール照合結果として、評価表現の先頭の単語にはＢ−極性、評価表現の中間の単語にはＩ−極性、評価表現ではない単語にはＮＩＬというタグを付与することにより、実現できる。

これらの評価表現の位置および極性を評価表現情報とする。その後、処理を終了する。

属性表現抽出部１０は、単語列（単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報）を入力とし、カテゴリフィルタ５を用いて、予め定めた処理方向（文頭から文末、あるいは文末から文頭）で順に、各評価表現に対する属性表現を抽出し、属性表現情報を追加した単語列を出力する。

以下、属性表現抽出部１０の１つの評価表現に対する処理の流れを図５を用いて詳細に説明する。

ステップＳ４１では、当該評価表現の係り元の主格および連体修飾先の体言（但し、連体修飾先の文節が主格、目的格、連体格などの場合は除く）が存在するかを文節情報および係り受け情報から判定する。存在する場合には、これ（ら）を属性表現侯補として記憶し、ステップＳ４２に移る。存在しない場合には、ステップＳ４５に移る。

ステップＳ４２では、各属性表現侯補が全て固有表現相当語（固有表現のクラスが付与された単語）であるかを固有表現情報から判定し、固有表現相当語の属性表現侯補は、属性表現侯補から除外する。全てが固有表現相当語の場合にはステップＳ４４に、そうでない場合にはステップＳ４３に移る。

ステップＳ４３では、各属性表現侯補がカテゴリフィルタ５を通過するか（当該属性表現侯補の意味カテゴリが、カテゴリフィルタ５に登録された意味カテゴリと同一もしくはその下位カテゴリか）を判定し、カテゴリフィルタ５を通過しない属性表現侯補は属性表現侯補から除外する。１つでも通過する場合にはステップ４４に移る。１つも通過しない場合にはステップＳ４５に移る。

ステップＳ４４では、属性表現侯補の数が１つの場合は、その属性表現侯補を属性表現に決定する。属性表現侯補が複数ある場合は、予め係り受けの種類により優先順位を定めておき（例えば、ガ格＞ワ格＞その他主格＞連体修飾）、最も優先順位の高い属性表現侯補を属性表現に決定する。属性表現侯補の数が０（ステップＳ４２より移る）場合、属性表現は省略されていると決定する。決定した属性表現の単語の位置を、当該評価表現の属性表現情報として保存する。その後、処理を終了する。

ステップＳ４５では、属性に相当する表現がなく、当該評価表現は評価情報を表していないとして、評価表現情報をクリア（ＮＩＬに書換）する。その後、処理を終了する。

対象表現抽出部１１は、単語列（単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報、属性表現情報）を入力とし、各評価表現に対する対象表現を抽出し、対象表現情報を追加した単語列を出力する。

以下、対象表現抽出部１１の１つの評価表現に対する処理の流れを図６を用いて詳細に説明する。

ステップＳ５１では、まず、当該評価表現の係り元の主格に固有表現相当語があるかを固有表現情報、文節情報および係り受け情報から判定し、存在する場合にはステップＳ５５に移る。次に、係り元の主格で属性にならなかった体言があるかを判定し、存在する場合にはステップＳ５５に移る。さらに、連体修飾先の体言に固有表現相当語があるかを判定し、存在する場合にはステップＳ５５に移る。それ以外の場合にはステップＳ５２に移る。

ステップＳ５２では、当該評価表現を含む文および予め定めた範囲の文を対象として、固有表現相当語が存在するかを検索し、存在した全ての固有表現相当語を対象表現侯補として記憶する。

また、この際、固有表現クラスの種類（例：対象リスト、組織名、地名など）、文位置の種類（評価表現と同じ文、評価表現の文−１など）などの情報に対して予め重みを設定しておき、それぞれの重みを掛け合わせた値を対象表現侯補のスコアとして求め、記憶する。ここで、同じ固有表現相当語が、範囲内の文中に複数回出現した場合には、その全ての和を、その対象表現侯補のスコアとする。

この処理は、当該文で初めての対象表現抽出を行うときに一度行い、当該文における対象表現侯補およびそのスコアを保存し、その後の対象表現抽出の際には、保存した対象表現侯補およびスコアをそのまま利用すれば良い。

その後、ステップＳ５３に移る。

ステップＳ５３では、対象表現侯補が１つでも抽出できたかを判定する。抽出できた場合にはステップＳ５４に移る。抽出できなかった場合にはステップＳ５６に移る。

ステップＳ５４では、対象表現侯補が１つである場合はその対象侯補を対象表現として決定する。対象表現侯補が複数ある場合は、最もスコアが高いものを対象表現として決定する。決定した対象表現の単語の位置を、当該評価表現の対象表現情報として保存する。その後、処理を終了する。

ステップＳ５５では、ステップＳ５１で固有表現相当語が抽出されているかを判定する。抽出されている場合にはステップＳ５４に移る（なお、この場合のステップＳ５４の処理は、対象表現侯補が１つである場合に該当する。）。抽出されていない場合にはステップＳ５６に移る。

ステップＳ５６では、当該評価表現に対する対象表現は存在しないと決定する。その後、処理を終了する。

評価情報作成部１２は、単語列（少なくとも評価表現情報、属性表現情報、対象表現情報）を入力とし、組となった対象表現情報、属性表現情報および評価表現情報にそれぞれ対応する単語の表記を対象表現、属性表現および評価表現（極性を含んでも良い）とする評価情報を全て作成して出力する（なお、ここで、評価表現情報、属性表現情報、評価表現情報が単語の表記を含まない場合は、これらに加えて単語情報も必須となる。）。

この評価情報の出力の方法としては、単語列に追加する形でも、独立した形でも、両者とも出力する形でもいずれでも良い。

但し、図示しないキーボード等から直接入力され又は記憶媒体から読み出されて入力され又は通信媒体を介して他の装置等から関連キーワードが与えられたとき、その関連キーワードを対象表現、属性表現、評価表現のいずれにも含まない場合には、その評価情報は出力しない。

また、対象表現、属性表現および評価表現の３つ全てに値を持つものだけを評価情報として出力するようにしても良い（即ち、属性表現が省略されたり、対象表現なしの評価情報は出力しない）。

＜具体的な処理例＞
以下、図１０乃至図１６を用いて、本実施の形態の評価情報抽出の具体的な処理例を説明する。なお、この例では対象リスト単語辞書２は用いないものとする。また、対象侯補となり得る単語の識別には「対象リスト」という専用の単語情報を用いるものとし、「０」で対象リストではない単語、「１」で対象リストの単語を表すものとする。そして、対象キーワードに対しては、品詞＝名詞：固有、対象リスト＝１という単語情報指定を行うものとする。

また、固有表現のクラスは、人名、組織名、地名、人工物名、対象リストとする。また、評価表現辞書３としては図７、評価表現ルール４としては図８、カテゴリフィルタ５としては図９のものを用いるものとする。また、処理方向は全て、文頭→文末とする。

また、ステップＳ３１における抽出対象文は、疑問文（文末が「？」）以外の文とする。ステップＳ５２における固有表現相当語探索範囲は当該文およびその直前３文とする。

また、ステップＳ５２における対象侯補のスコアの重みの種類としては、固有表現クラス重み、格重み、文位置重みの３種類を用いるものとし、固有表現クラス重みは、人名＝０．２，組織名＝１．０、地名＝０．４、人工物名＝１．０、対象リスト＝１．５、格重みは主格＝２．０、その他＝１．０、文位置重みは、当該文＝５、当該文−ｎ文＝４−ｎであるとする。

評価情報作成部１２では、評価情報のみを出力するものとする。

入力文書は、図１０（１）入力文書に示すものである。また、対象キーワードは「季節のパフェ」とする。

形態素解析部６において、入力文書と対象キーワードが入力されたことから、入力文書第４文の「季節のパフェ」という文字列に対し、品詞＝名詞：固有、対象リスト＝１という単語情報を付与して公知の技術により形態素解析を行い、図１０（２）に示すように、単語情報からなる単語列を出力する。対象リスト単語辞書２を用いてないため、単語情報の対象リストが１となるのは、対象キーワードである「季節のパフェ」（単語ＩＤ＝ｗ４−８）のみとなる。

次に、固有表現抽出部７では、公知の技術を用いて、図１１（３）に示すように、固有表現情報を追加した単語列を出力する。

次に、係り受け解析部８では、公知の技術を用いて、図１２（４）に示すように、文節情報（本例では、文節先頭の単語に文節ＩＤおよび文節単語数を付与）と、係り受け情報（本例では、文節先頭の単語に係り先の文節ＩＤを付与）を追加した単語列を出力する。

次に、評価表現抽出部９の処理を、図４のフローに従って説明する。

入力文書の第１文は疑問文でないので、ステップＳ３１からステップＳ３２に移る。ステップＳ３２では、「暑」（単語ＩＤ＝ｗ１−３）のみが評価表現辞書３にマッチするので、単語ＩＤ＝ｗ１−３の評価表現辞書照合結果（図１３中省略）をＢ−ＰＮとして、ステップＳ３３に移る。ステップＳ３３では、評価表現ルール４と照合を行い、ルール番号３が単語ＩＤ＝ｗ１−３にマッチするため、単語ＩＤ＝ｗ１−３の評価表現情報をＢ−ＰＮとする。

入力文書の第２〜４文は、いずれもステップＳ３１からステップＳ３２に移り、どの単語も評価表現辞書３にマッチせず、ステップＳ３３に移り、評価表現ルール４ともマッチしないので、評価表現情報はどの単語にも付与されない。

入力文書の第５文では、ステップＳ３１からステップＳ３２に移り、評価表現辞書照合結果として、ｗ５−３「上品」＝Ｂ−Ｐ，ｗ５−８「たくさん」＝Ｂ−ＰＮ，ｗ５−１１「幸せ」＝Ｂ−Ｐを付与して、ステップＳ３３に移る。ステップＳ３３では、ｗ５−３，ｗ５−１１が評価表現ルール４のルール番号１、ｗ５−８がルール番号３にマッチするため、評価表現情報として、ｗ５−３「上品」＝Ｂ−Ｐ，ｗ５−８「たくさん」＝Ｂ−ＰＮ，ｗ５−１１「幸せ」＝Ｂ−Ｐを付与する。

同様に入力文書の第６文では、ｗ６−１５「濃厚」にＢ−ＰＮという評価表現情報を付与する。

こうして、入力文書全文の処理を行い、図１３（５）に示すように、評価表現情報を追加した単語列を出力する。

次に、属性表現抽出部１０の処理を、図５のフローに従って説明する。この処理は、入力文書の先頭から順に、全ての評価表現を対象として行う。

はじめに、単語ＩＤ＝ｗ１−３「暑」に対して処理を行う。ステップＳ４１で、主格の体言単語ＩＤ＝ｗ１−１「今日」が存在するため、ステップＳ４２に移り、固有表現でないため、ステップＳ４３に移る。

ステップＳ４３では、ｗ１−１「今日」のカテゴリは「日」であり、図９に示したカテゴリフィルタ「無生物」「創作物」およびその下位カテゴリにあてはらまないことから、ステップＳ４５に移る。

ステップ４５では、ｗ１−３「暑」の評価表現情報Ｂ−ＰＮをクリアして、ＮＩＬに書き換える。

次に、単語ＩＤ＝ｗ５−３「上品」に対して処理を行う。主格の体言単語ＩＤ＝ｗ５−１「クリーム」が存在するため、ステップＳ４２に移り、固有表現ではないため、ステップＳ４３に移る。

ステップＳ４３では、ｗ５−１「クリーム」のカテゴリは「菓子」であり、カテゴリフィルタ「無生物」の下位カテゴリであるため、ステップＳ４４に移る。

ステップＳ４４では、属性表現侯補がｗ５−１「クリーム」のみであることから、これを属性表現に決定し、ｗ５−３「上品」の属性表現情報とする。

前述した単語ｗ５−３「上品」と同様に処理を行い、単語ｗ５−８「たくさん」の属性表現がｗ５−６「フルーツ」、単語ｗ６−１５「濃厚」の属性表現がｗ６−１３「チョコレート」となる。

こうして、図１４（６）に示すように、評価表現情報を一部修正、属性表現情報を追加した単語列を出力する。

次に、対象表現抽出部１１の処理を、図６のフローに従って説明する。この処理は、入力文書の先頭から順に、この時点で残っている全ての評価表現を対象に行う。

まず、単語ＩＤ＝ｗ５−３「上品」に対して処理を行う。ステップＳ５１では、係り元の主格は属性であり、連体修飾先の体言は存在しないので、ステップＳ５２に移る。

ステップＳ５２では、第２〜５文で固有表現相当語を検索し、ｗ２−２「銀座」、ｗ２−４〜５「ＡＢＣカフェ」、ｗ３−３「ゆき」、ｗ４−８「季節のパフェ」を対象表現侯補とする。

それぞれのスコアは、（固有表現クラス重み×格重み×文位置重み）の出現数和で算出されるので、
銀座＝０．４×１．０×１＝０．４
ＡＢＣカフェ＝１．０×１．０×１＝１．０
ゆき＝０．２×１．０×２＝０．４
季節のパフェ＝１．５×１．０×５＝７．５
となる。

次にステップＳ５３からステップＳ５４に移り、最もスコアの高いｗ４−８「季節のパフェ」を対象表現とする。

次に、ｗ５−８「たくさん」に対しては、同様にステップＳ５１からステップＳ５２に移り、ステップＳ５２では既にｗ５−３で対象表現侯補およびそのスコアが設定されており、それを利用するため何も処理を行わない。

ステップＳ５３からステップＳ５４に移り、最もスコアの高いｗ４−８「季節のパフェ」を対象表現とする。

次に、ｗ６−１５「濃厚」に対しては、ステップＳ５１で、係り元の主格の固有表現ｗ６−８〜９「チョコスペシャル」が存在するのでステップＳ５５からステップＳ５４に移り、ｗ６−８〜９「チョコスペシャル」を対象表現とする。

こうして、図１５（７）に示すように、対象表現情報を追加した単語列を出力する。

次の評価情報作成部１２で、関連キーワードが与えられなかった場合には、図１５（７）の単語列の情報より、図１６（８−１）に示す評価情報を出力する。

関連キーワードとして「パフェ」が与えられた場合には、「パフェ」を含まない評価情報を削除し、図１６（８−２）に示す評価情報を出力する。

＜第２の実施の形態＞
図１７は本発明の第２の実施の形態に係る評価情報抽出装置、ここでは第１の実施の形態に係る評価情報抽出装置において係り受け情報を不要となした装置の概要を示すもので、図中、第１の実施の形態と同一構成要素は同一符号をもって表す。即ち、１は一般単語辞書、２は対象リスト単語辞書、３は評価表現辞書、４は評価表現ルール、５はカテゴリフィルタ、６は形態素解析部、７は固有表現抽出部、９は評価表現抽出部、１２は評価情報作成部、１３は文節認定部、１４は属性表現抽出部、１５は対象表現抽出部である。

図１８は本発明の第２の実施の形態に係る評価情報抽出装置のハードウェア構成、ここではコンピュータを用いて構成した例を示すもので、図中、第１の実施の形態と同一構成要素は同一符号をもって表す。即ち、２１は一般単語辞書記憶部、２２は対象リスト単語辞書記憶部、２３は評価表現辞書記憶部、２４は評価表現ルール記憶部、２５はカテゴリフィルタ記憶部、２６は入力文書記憶部、２７は単語列記憶部、２９は中央処理装置（ＣＰＵ）である。

中央処理装置（ＣＰＵ）２９は、図１９、図４乃至図６にフローチャートで示すプログラムに従って、前述した各部を制御するとともに、この際、前述した形態素解析部６、固有表現抽出部７、評価表現抽出部９、評価情報作成部１２、係り受け解析部１３、属性表現抽出部１４および対象表現抽出部１５を構成する。

以下、図１９に従い、本実施の形態における評価情報抽出の全体的な流れについて説明するが、固有表現抽出処理（ｓ１〜ｓ７）までは第１の実施の形態の場合と同様であるから省略する。

ＣＰＵ２９は、その文節認定部１３により、単語列記憶部２７から単語列（単語情報、固有表現情報）を読み出し（ｓ６１）、後述する文節認定を行って文節情報を生成し（ｓ６２）、これを追加した単語列（単語情報、固有表現情報、文節情報）を単語列記憶部２７に記憶する（ｓ６３）。

なお、実際には文節認定処理（ｓ６２）に固有表現情報は必要なく、固有表現抽出工程（ｓ５〜ｓ７）と文節認定工程（ｓ６１〜ｓ６３）の順序は逆でも良い。

次に、ＣＰＵ２９は、その評価表現抽出部９により、単語列記憶部２７から単語列（単語情報、固有表現情報、文節情報）を読み出し（ｓ６４）、評価表現辞書記憶部２３に記憶された評価表現辞書３および評価表現ルール記憶部２４に記憶された評価表現ルール４を参照し、後述する評価表現抽出を行って評価表現情報を作成し（ｓ１２）、これを追加した単語列（単語情報、固有表現情報、文節情報、評価表現情報）を単語列記憶部２７に記憶する（ｓ６５）。

次に、ＣＰＵ２９は、その属性表現抽出部１４により、単語列記憶部２７から単語列（単語情報、固有表現情報、文節情報、評価表現情報）を読み出し（ｓ６６）、カテゴリフィルタ記憶部２５に記憶されたカテゴリフィルタ５を参照し、後述する属性表現抽出を行って属性表現情報を作成し（ｓ６７）、これを追加するとともに必要に応じて評価表現情報を修正した単語列（単語情報、固有表現情報、文節情報、評価表現情報、属性表現情報）を単語列記憶部２７に記憶する（ｓ６８）。

次に、ＣＰＵ２９は、その対象表現抽出部１５により、単語列記憶部２７から単語列（単語情報、固有表現情報、文節情報、評価表現情報、属性表現情報）を読み出し（ｓ６９）、後述する対象表現抽出を行って対象表現情報を作成し（ｓ７０）、これを追加した単語列（単語情報、固有表現情報、文節情報、評価表現情報、属性表現情報、対象表現情報）を単語列記憶部２７に記憶する（ｓ７１）。

最後に、ＣＰＵ２９は、その評価情報作成部１２により、単語列記憶部２７から単語列（単語情報、固有表現情報、文節情報、評価表現情報、属性表現情報、対象表現情報）を読み出し（ｓ７２）、組となった対象表現情報、属性表現情報および評価表現情報にそれぞれ対応する単語の表記を対象表現、属性表現および評価表現とする評価情報を作成して（ｓ２１）出力し（ｓ２２）、処理を終了する。

次に、本実施の形態における評価情報抽出について、各部の構成とともに詳細に説明するが、ここでは第１の実施の形態と異なる点、つまり文節認定部１３、属性表現抽出部１４および対象表現抽出部１５についてのみ説明する。

文節認定部１３は、単語列（単語情報）を入力とし、前記同様に周知の文節認定技術を用いて、文節認定を行い、その結果を単語列と対応付けて、単語情報に文節情報を追加した単語列を出力する（固有表現抽出部２で追加された固有表現情報と併せて、単語列は、単語情報、固有表現情報、文節情報からなる。）。

属性表現抽出部１４は、単語列（単語情報、固有表現情報、文節情報、評価表現情報）を入力とし、カテゴリフィルタ５を用いて、予め定めた処理方向（文頭から文末、あるいは文末から文頭）で順に、各評価表現に対する属性表現を抽出し、属性表現情報を追加した単語列を出力する。

以下、属性表現抽出部１４の１つの評価表現に対する処理の流れを図５を用いて説明するが、ここでは第１の実施の形態の場合と異なる点のみ説明する。

即ち、第１の実施の形態の属性表現抽出部１０では、ステップＳ４１において、当該評価表現の係り元の主格および連体修飾先の体言（但し、連体修飾先の文節が主格、目的格、連体格などの場合は除く）が存在するかを文節情報および係り受け情報から判定していたが、本実施の形態の属性表現抽出部１４では、ステップＳ４１において、係り受け情報を用いず、当該評価表現前方の所定の一定範囲にある主格を係り元の主格と扱う、当該評価表現が連体修飾句で直後が体言の場合に連体修飾先の体言であると扱う、などの単語情報を用いた係り元・連体修飾先の認定を行うものとする。なお、以後の処理は第１の実施の形態の場合と同様である。

対象表現抽出部１５は、単語列（単語情報、固有表現情報、文節情報、評価表現情報、属性表現情報）を入力とし、各評価表現に対する対象表現を抽出し、対象表現を追加した単語列を出力する。

以下、対象表現抽出部１５の１つの評価表現に対する処理の流れを図６を用いて説明する、ここでは第１の実施の形態の場合と異なる点のみ説明する。

即ち、第１の実施の形態の対象表現抽出部１１では、ステップＳ５１において、当該評価表現の係り元の主格に固有表現相当語があるかを固有表現情報、文節情報および係り受け情報から判定していたが、本実施の形態の対象表現抽出部１５では、ステップＳ５１において、前記属性表現抽出部１４の場合と同様に単語情報を用いた係り元の主格の認定を行うものとする。なお、以後の処理は第１の実施の形態の場合と同様である。

＜第３の実施の形態＞
図２０は本発明の第３の実施の形態に係る評価情報抽出装置、ここでは第１の実施の形態に係る評価情報抽出装置において、評価情報に対し、まとめて集計や表示する際に利用すると便利な情報、即ち対象表現標準形、属性表現標準形、評価表現標準形を追加し、且つ抽出精度向上のためのデータおよび処理を追加した装置の概要を示すもので、図中、第１の実施の形態と同一構成要素は同一符号をもって表す。即ち、１は一般単語辞書、２は対象リスト単語辞書、４は評価表現ルール、６は形態素解析部、７は固有表現抽出部、８は係り受け解析部、３１は評価表現辞書、３２は固有表現クラス辞書、３３はカテゴリフィルタ、３４は出力設定情報、３５は評価表現抽出部、３６は属性表現抽出部、３７は対象表現抽出部、３８は評価情報作成部である。

図２１は本発明の第３の実施の形態に係る評価情報抽出装置のハードウェア構成、ここではコンピュータを用いて構成した例を示すもので、図中、２１は一般単語辞書記憶部、２２は対象リスト単語辞書記憶部、２４は評価表現ルール記憶部、２６は入力文書記憶部、２７は単語列記憶部、４１は評価表現辞書記憶部、４２は固有表現クラス辞書記憶部、４３はカテゴリフィルタ記憶部、４４は出力設定情報記憶部、４５は中央処理装置（ＣＰＵ）である。

評価表現辞書記憶部４１、固有表現クラス辞書記憶部４２、カテゴリフィルタ記憶部４３および出力設定情報記憶部４４はそれぞれ、前述した評価表現辞書３１、固有表現クラス辞書３２、カテゴリフィルタ３３および出力設定情報３４を記憶している。

単語列記憶部２７は、第１の実施の形態の場合と同様、前述した形態素解析部６、固有表現抽出部７、係り受け解析部８、評価表現抽出部３５、属性表現抽出部３６、対象表現抽出部３７および評価情報作成部３８によって作成される各段階の単語列を記憶する。

中央処理装置（ＣＰＵ）４５は、図２２乃至図２５にフローチャートで示すプログラムに従って、前述した各部を制御するとともに、この際、前述した形態素解析部６、固有表現抽出部７、係り受け解析部８、評価表現抽出部３５、属性表現抽出部３６、対象表現抽出部３７および評価情報作成部３８を構成する。

以下、図２２に従い、本実施の形態における評価情報抽出の全体的な流れについて説明するが、係り受け解析処理（ｓ１〜ｓ１０）までは第１の実施の形態の場合と同様であるから省略する。

ＣＰＵ４５は、その評価表現抽出部３５より、単語列記憶部２７から単語列（単語情報、固有表現情報、文節情報、係り受け情報）を読み出し（ｓ８１）、評価表現辞書記憶部４１に記憶された評価表現辞書３１、評価表現ルール記憶部２４に記憶された評価表現ルール４および固有表現クラス辞書記憶部４２に記憶された固有表現クラス辞書３２を参照し、後述する評価表現抽出を行って評価表現情報を作成し（ｓ８２）、これを追加した単語列（単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報）を単語列記憶部２７に記憶する（ｓ８３）。

次に、ＣＰＵ４５は、その属性表現抽出部３６により、単語列記憶部２７から単語列（単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報）を読み出し（ｓ８４）、カテゴリフィルタ記憶部４３に記憶されたカテゴリフィルタ３３を参照し、後述する属性表現抽出を行って属性表現情報を作成し（ｓ８５）、これを追加した単語列（単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報、属性表現情報）を単語列記憶部２７に記憶する（ｓ８６）。

次に、ＣＰＵ４５は、その対象表現抽出部３７により、単語列記憶部２７から単語列（単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報、属性表現情報）を読み出し（ｓ８７）、後述する対象表現抽出を行って対象表現情報を作成し（ｓ８８）、これを追加した単語列（単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報、属性表現情報、対象表現情報）を単語列記憶部２７に記憶する（ｓ８９）。

最後に、ＣＰＵ４５は、その評価情報作成部３８により、単語列記憶部２７から単語列（単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報、属性表現情報、対象表現情報）を読み出し（ｓ９０）、出力設定情報記憶部４４に記憶された出力設定情報３４に基づいて評価情報を作成し（ｓ９１）、これを出力して（ｓ９２）処理を終了する。

次に、本実施の形態における評価情報抽出について、各部の構成とともに詳細に説明するが、ここでは第１の実施の形態と異なる点、つまり評価表現辞書３１、固有表現クラス辞書３２、カテゴリフィルタ３３、出力設定情報３４、評価表現抽出部３５、属性表現抽出部３６、対象表現抽出部３７および評価情報作成部３８についてのみ説明する。

但し、本実施の形態における一般単語辞書１は、少なくとも１つの文字を含む単語について、単語毎にその表記、品詞、読み、意味カテゴリとともに、標準表記、表記終止形、標準表記終止形等を含む単語情報を登録してなるものとし、また、本実施の形態における形態素解析部６では、単語情報として、単語ＩＤ、表記、品詞、読み、意味カテゴリに加え、標準表記、表記終止形、標準表記終止形も併せて出力するものとする。

第１の実施の形態の評価表現辞書３は、評価表現の単語情報およびその極性を登録してなるものであったが、本実施の形態の評価表現辞書３１は、少なくとも１つの単語を含む単語列からなる評価表現について、その単語列を構成する各単語の単語情報（例えば、表記、品詞、読みの組）と、その単語列を構成する単語が当該評価表現における主要語かどうかを単語毎に表す主要語フラグ（例えば、主要語であれば（ｏｎ）１，主要語でなければ（ｏｆｆ）０）と、当該評価表現の一般的な極性（例えば、肯定（Ｐ）、否定（Ｎ）、不明（ＰＮ））とを登録してなるものとする。

図２６に評価表現辞書３１の一例を示す。例えば、「暑／形容詞語幹／アツ／１」は、表記が「暑」、品詞が「形容詞語幹」、読みが「アツ」である単語を表し、この単語「暑」の主要語フラグを１（ｏｎ）とし、また極性をＰＮとしている。また、「一風／連用詞／イップウ／０変わ／動詞語幹／カワ／１っ／動詞活用語尾／ッ／１て／動詞接尾辞／テ／１い／動詞語幹／イ／１」は、表記がそれぞれ「一風」「変わ」「っ」「て」「い」、品詞がそれぞれ「連用詞」「動詞語幹」「動詞活用語尾」「動詞接尾辞」「動詞語幹」、読みがそれぞれ「イップウ」「カワ」「ッ」「テ」「イ」である単語からなる単語列を表し、各単語のうち「一風」の主要語フラグを０（ｏｆｆ）、「変わ」「っ」「て」「い」の主要語フラグを１（ｏｎ）とし、この単語列「一風変わってい」の極性をＰＮとしている。

固有表現クラス辞書３２は、少なくとも１つの単語を含む単語列からなる評価表現について、当該評価表現の評価表現標準形（後述する）と、当該評価表現が評価対象として取り得る固有表現のクラス（複数可、これらを以後、固有表現クラス侯補と呼ぶ。）とを登録してなるものである。評価表現標準形をキーとして検索すると、固有表現クラス侯補を返す。

図２７に固有表現クラス辞書３２の一例を示す。例えば、評価表現標準形が「暑い」の場合は、評価対象として取り得る固有表現クラス（固有表現クラス侯補）は「ＬＯＣ」（地名）のみであることを表す。同様に、評価表現標準形が「人と変わっている」の場合の固有表現クラス侯補は「ＰＳＮ」（人名）、評価表現標準形が「変わっている」の場合の固有表現クラス侯補は「ＡＬＬ」（全ての固有表現クラスを表す。）となる。

第１の実施の形態のカテゴリフィルタ５は、属性表現を意味カテゴリによりフィルタリングするためのもので、１集合の意味カテゴリから構成されていたが、本実施の形態のカテゴリフィルタ３３では、単語情報として付与される意味カテゴリのうち、抽出すべき評価情報のカテゴリに対応する意味カテゴリ（の集合）を固有表現クラス別に登録することにより、様々な種類の評価情報を抽出するものである。

ここで用いる意味カテゴリとしては、例えば、池原悟，他「日本語語彙大系ＣＤ−ＲＯＭ版」（岩波書店，１９９９年９月２４日発行）などに記載された、任意の意味分類を用いることが可能である。

図２８にカテゴリフィルタ３３の一例を示す。例えば、固有表現クラス「ＡＲＴ」（人工物）の場合は、カテゴリ「無生物」もしくはその下位カテゴリ、あるいは「創作物」もしくはその下位カテゴリであれば通過する。同様に、固有表現クラス「ＬＯＣ」（地名）の場合は、カテゴリ「地形」「食料」「景観」もしくはそれらの下位カテゴリであれば通過する。また、固有表現クラス「ＰＳＮ」（人名）の場合は、カテゴリ「属性（主体）」「動物（部分）」もしくはそれらの下位カテゴリであれば通過する。

出力設定情報３４は、出力する評価情報や単語列を制御するための情報を、その種別（設定種別）毎に予め登録してなるものであり、評価情報の出力フィルタリング等の指定を行う。

図２９に出力設定情報３４の一例を示す。この例では、設定種別として、関連キーワード、ＮＧ完全一致ワード、ＮＧ部分一致ワード、２つ組評価情報出力条件、３つ組評価情報出力条件、単語列出力指定を行えるものとする。

この出力設定情報の例を用いた具体的な処理については、評価情報作成部３８の説明にて後述する。

第１の実施の形態の評価表現抽出部９は、評価表現辞書３および評価表現ルール４を用いて評価表現を抽出したが、本実施の形態の評価表現抽出部３５は、評価表現辞書３１、評価表現ルール４および固有表現クラス辞書３２を用いて評価表現を抽出する、詳細には、単語列（少なくとも単語情報）を入力とし、評価表現辞書３１、評価表現ルール４および固有表現クラス辞書３２を用いて、１文単位に、予め定めた処理方向（文頭から文末、あるいは文末から文頭）で評価表現抽出処理を行い、評価表現情報を各単語に付与し、単語情報に評価表現情報を追加した単語列を出力する（固有表現抽出部２および係り受け解析部８で追加された固有表現情報、文節情報、係り受け情報と併せて、単語列は、単語情報、固有表現情報、文節情報、係り受け情報および評価表現情報からなる。）。

以下、評価表現抽出部３５の１文に対する処理の流れを図２３を用いて詳細に説明する。以降の説明では、処理方向は全て文頭→文末とする。

ステップＳ３１については、第１の実施の形態の評価表現抽出部９と同じ処理となる。

即ち、ステップＳ３１では、入力された文が抽出対象文となるかを、単語情報を用いた条件で判定する。例えば、末尾単語が「？」であるものは疑問文として、抽出対象文ではないと判定する。また、表記に「かもしれない」などの推定を含む文、「だったら」などの仮定を含む文も抽出対象文でないと判定しても良い。抽出対象文である場合には、ステップＳ１０１に移る。そうでない場合には、処理を終了する。

ステップＳ１０１では、文頭の単語から文末の単語まで、順に評価表現辞書３１と照合を行い、評価表現辞書３１中のいずれかの評価表現にマッチした単語（列）は、そのマッチした単語全体を評価表現辞書照合位置として、該マッチした評価表現辞書３１中の評価表現の極性とともに記憶しておく。また、マッチした単語のうち、主要語フラグがｏｎの単語を評価表現標準形位置として記憶しておく。これは、例えば評価表現辞書照合結果として、マッチした単語列の先頭の単語の単語ＩＤに対応して当該単語列の単語数（評価表現辞書照合単語数）および極性を付与し、また、主要語フラグがｏｎの単語の単語ＩＤに対応して当該単語の総数（評価表現標準形単語数）を付与することにより、実現できる。

次にステップＳ１０２に進む。

ステップＳ１０２では、文頭の単語から文末の単語まで、順に評価表現ルール４と照合を行い、評価表現ルール４中のいずれかのルールとマッチした単語（列）は、そのマッチした単語全体を評価表現ルール照合位置として、該マッチした評価表現ルール４中の評価表現パターンの極性とともに記憶しておく。これは、例えば評価表現ルール照合結果として、マッチした単語列の先頭の単語の単語ＩＤに対応して当該単語列の単語数（評価表現ルール照合単語数）および極性を付与することにより、実現できる。

次にステップＳ１０３に移る。

ステップＳ１０３では、評価表現標準形の生成を行う。ステップＳ１０１で得られた各評価表現における主要語フラグがｏｎの単語の標準表記（単語情報の中に含まれる）をつなげたものを、評価表現標準形とする。但し、主要語フラグがｏｎの最末尾の単語の標準表記終止形（単語情報の中に含まれる）が存在する場合には、その単語に関しては、標準表記終止形をつなげる。また、各評価表現の単語の表記を全てつなげたものを、評価表現表記とする。

次にステップＳ１０４に進む。

ステップＳ１０４では、各評価表現における固有表現クラス侯補を設定する。前記生成した評価表現標準形をキーとして固有表現クラス辞書３２を検索し、固有表現クラス侯補を得る。

これらの評価表現辞書または評価表現ルールにマッチした単語列の位置（単語数）、極性、評価表現表記、評価表現標準形および固有表現クラス侯補を評価表現情報とする。その後、処理を終了する。

第１の実施の形態の属性表現抽出部１０は、カテゴリフィルタ５を用いて属性表現を抽出し、属性表現が抽出されない場合には評価表現をクリアしたが、本実施の形態の属性表現抽出部３６は、カテゴリフィルタ３３を用いて属性表現を抽出し、属性表現が抽出されない場合にも評価表現はクリアしない。

以下、属性表現抽出部３６の１つの評価表現に対する処理の流れを図２４を用いて詳細に説明する。

ステップＳ４１、ステップＳ４２については、第１の実施の形態の属性表現抽出部１０と同じ処理となる。

即ち、ステップＳ４１では、当該評価表現の係り元の主格および連体修飾先の体言（但し、連体修飾先の文節が主格、目的格、連体格などの場合は除く）が存在するかを文節情報および係り受け情報から判定する。存在する場合には、これ（ら）を属性表現侯補として記憶し、ステップＳ４２に移る。存在しない場合には、ステップＳ１１３に移る。

また、ステップＳ４２では、各属性表現侯補が全て固有表現相当語（固有表現のクラスが付与された単語）であるかを固有表現情報から判定し、固有表現相当語の属性表現侯補は、属性表現侯補から除外する。全てが固有表現相当語の場合にはステップＳ１１２に、そうでない場合にはステップＳ１１１に移る。

ステップＳ１１１では、各属性表現侯補が、カテゴリフィルタ３３のうち、当該評価表現の各固有表現クラス侯補のもののいずれかを通過するかを判定し、どの固有表現クラス侯補のカテゴリフィルタも通過しない属性表現侯補は属性表現侯補から除外する。１つでも通過する場合にはステップＳ１１２に移る。

ステップＳ１１２では、第１の実施の形態のステップＳ４４と同様にして、属性表現を決定し、属性表現情報を設定する。本ステップでは、決定した属性表現の単語の位置とともに、属性表現に該当する単語の単語情報の標準表記をつなげて得られる属性表現標準形、表記をつなげて得られる属性表現表記も含めて当該評価表現の属性表現情報として保存する。

また、カテゴリフィルタ３３において、当該評価表現の固有表現クラス侯補のうち、カテゴリフィルタを通過しなかったものが存在した場合には、当該評価表現情報より、その固有表現クラス侯補を除外する。

その後、処理を終了する。

ステップＳ１１３では、当該評価表現は属性表現なしと設定して処理を終了する。

第１の実施の形態の対象表現抽出部１１は、評価表現１つに対応する対象表現を０個または１個抽出したが、本実施の形態の対象表現抽出部３７は、評価表現１つに対応する対象表現を０個以上抽出する、詳細には、単語列（単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報、属性表現情報）を入力とし、各評価表現に対する対象表現を０個以上抽出し、対象表現情報を追加した単語列を出力する。

以下、対象表現抽出部３７の１つの評価表現に対する処理の流れを図２５を用いて詳細に説明する。

ステップＳ５１、ステップＳ５３、ステップＳ５５、ステップＳ５６については、第１の実施の形態の対象表現抽出部１１と同じ処理となる。

即ち、ステップＳ５１では、まず、当該評価表現の係り元の主格に固有表現相当語があるかを固有表現情報、文節情報および係り受け情報から判定し、存在する場合にはステップＳ５５に移る。次に、係り元の主格で属性にならなかった体言があるかを判定し、存在する場合にはステップＳ５５に移る。さらに、連体修飾先の体言に固有表現相当語があるかを判定し、存在する場合にはステップＳ５５に移る。それ以外の場合にはステップＳ１２１に移る。

ステップＳ１２１では、当該評価表現を含む文および予め定めた範囲の文を対象として、当該評価表現の固有表現クラス侯補と一致する固有表現クラスを有する固有表現相当語が存在するかを検索し、存在した全ての固有表現相当語を対象表現侯補として記憶する。対象表現侯補のスコアの算出については、第１の実施の形態のステップＳ５２の場合と同様に算出する。

その後、ステップＳ５３に移る。

ステップＳ５３では、対象表現侯補が１つでも抽出できたかを判定する。抽出できた場合にはステップＳ１２２に移る。抽出できなかった場合にはステップＳ５６に移る。

ステップＳ１２２では、対象表現侯補が１つである場合はその対象侯補を対象表現として決定する。対象表現侯補が複数ある場合は、スコアが高い順に複数の対象表現として決定する。決定した各対象表現の単語の位置およびスコアを、当該評価表現の対象表現情報として保存する。なお、本ステップでは、対象表現に該当する単語の単語情報の標準表記をつなげて得られる対象表現標準形、表記をつなげて得られる対象表現表記も、対象表現情報に含める。

その後、処理を終了する。

ステップＳ５５では、ステップＳ５１で固有表現相当語が抽出されているかを判定する。抽出されている場合にはステップＳ１２２に移る（なお、この場合のステップＳ１２２の処理は、対象表現侯補が１つである場合に該当する。）。抽出されていない場合にはステップＳ５６に移る。

評価情報作成部３８は、対象表現抽出部３７までに作成された単語列（少なくとも評価表現情報、属性表現情報、対象表現情報）を入力とし、出力設定情報３４の設定内容に基づいて評価情報を作成して出力する。それぞれの評価情報には、対象表現情報、属性表現情報、評価表現情報などから得られるスコアを含めても良い。

例えば、出力設定として、関連キーワード、ＮＧ完全一致ワード、ＮＧ部分一致ワード、２つ組評価情報出力条件、３つ組評価情報出力条件、単語列出力指定を行う。

関連キーワードは、その設定された文字列を含まない評価情報を出力しないものである。

ＮＧ完全一致ワードは、その設定された文字列が、対象表現表記、属性表現表記、評価表現表記のいずれとも完全一致しない場合に評価情報を出力する。例えば、図２９の例では対象表現表記、属性表現表記、評価表現表記がいずれも「殺人」と完全一致しない場合に評価情報を出力する。

ＮＧ部分一致ワードは、その設定された文字列が、対象表現表記、属性表現表記、評価表現表記のいずれとも部分一致しない場合に評価情報を出力する。例えば、図２９の例では対象表現表記、属性表現表記、評価表現表記がいずれも「馬鹿」という文字列を含まない場合に評価情報を出力する。例えば、評価表現表記が「馬鹿馬鹿しい」「馬鹿」「馬鹿やろう」などの場合、その評価情報は出力されない。

２つ組評価情報出力条件は、属性表現情報、評価表現情報からなる評価情報を出力する条件を指定するものである。例えば、図２９の例では、「３つ組」なし、つまり、対象表現が抽出されなかった評価情報についてのみ、２つ組評価情報を出力するという指定である。これ以外にも、例えば、対象表現が存在する評価情報から、対象表現を除いた２つ組を出力するよう指定したり、属性表現が空ではない評価情報についてのみ出力するよう指定したりしても良い。

３つ組評価情報出力条件は、対象表現情報、属性表現情報、評価表現情報からなる評価情報を出力する条件を指定するものである。例えば、図２９の例では、「対象表現１ｂｅｓｔ」、つまり複数の対象表現が抽出されている場合には、その最もスコアが高い対象表現からなる評価情報のみを出力するものである。

例として、評価表現＝「かっこいい」に対応する属性表現＝「ボディ」と対象表現＝「ＸＸＸ１２３」（スコア１０）、「○×自動車」（スコア５）が抽出されている場合、対象表現１ｂｅｓｔが指定されている場合には、（ＸＸＸ１２３、ボディ、かっこいい）という３つ組評価情報のみを出力する。「対象表現１ｂｅｓｔ」が指定されていない場合には、（ＸＸＸ１２３、ボディ、かっこいい）と（○×自動車、ボディ、かっこいい）の２つの評価情報を出力する。

単語列出力指定は、単語列を出力に含めるかどうかを指定するものである。例えば、図２９の例では、単語列は出力しない。

上記に示した以外にも出力設定情報として、単語情報や、評価表現情報、属性表現情報、対象表現情報についての任意の条件を与えて、出力を制御しても良い。

＜具体的な処理例＞
以下、図３０〜３７を用いて、本実施の形態の評価情報抽出の具体的な処理例を説明する。なお、この例では対象キーワードの入力はなく、また、対象リスト単語辞書２は用いないものとする。

また、固有表現クラスは、ＰＳＮ（人名）、ＯＲＧ（組織名）、ＬＯＣ（地名）、ＡＲＴ（人工物名）とする。また、評価表現辞書３１としては図２６、評価表現ルール４としては図３０、固有表現クラス辞書３２としては図２７、カテゴリフィルタ３３としては図２８、出力設定情報３４としては図２９のものを用いるものとする。また、処理方向は全て文頭→文末とする。

また、ステップＳ１２１における対象侯補のスコアの重みの種類としては、第１の実施の形態のステップＳ５２で利用したものと同一とする。

入力文書は、図３１（１）入力文書に示すものである。

形態素解析部６において、入力文書が入力されたことから、公知の技術により形態素解析を行い、図３１（２）に示すように、単語情報からなる単語列を出力する。なお、ここでは単語情報として、単語ＩＤ、表記、品詞、読みに加え、標準表記、表記終止形、標準表記終止形も併せて出力している。

次に、固有表現抽出部７では、公知の技術を用いて、図３２（３）に示すように、固有表現情報を追加した単語列を出力する。

次に、係り受け解析部８では、公知の技術を用いて、図３３（４）に示すように、文節情報（本例では、文節先頭の単語に文節ＩＤおよび文節単語数を付与）と、係り受け情報（本例では、文節先頭の単語に係り先の文節ＩＤを付与）を追加した単語列を出力する。

次に、評価表現抽出部３５の処理を、図２３のフローに従って説明する。

入力文書の第１文は疑問文でないので、ステップＳ３１からステップＳ１０１に移る。ステップＳ１０１では、評価表現辞書３１にマッチする単語が全く存在しないため、ステップＳ１０２、Ｓ１０３、Ｓ１０４では何も処理を行わず、処理を終了する。評価表現情報は何も付与されない。

次に、入力文書の第２文も疑問文でないので、ステップＳ３１からステップＳ１０１に移る。ステップＳ１０１では、単語列「人と変わってい」（単語ＩＤ＝ｗ２−１〜ｗ２−６）が評価表現辞書３１の単語情報とマッチする。また、マッチした単語ＩＤ＝ｗ２−１〜ｗ２−６の各単語は全て主要語フラグがｏｎである。このため、評価表現辞書照合位置（図３４中省略）として、単語ＩＤ＝ｗ２−１に評価表現辞書照合単語数＝６，極性＝ＰＮを付与し、評価表現標準形位置（図３４中省略）として、単語ＩＤ＝ｗ２−１に評価表現標準形単語数＝６を付与して、ステップＳ３３に移る。

ステップＳ１０２では、評価表現ルール４との照合を行い、ルール番号３が単語ＩＤ＝ｗ２−１〜ｗ２−７にマッチするため、単語ＩＤ＝ｗ２−１の評価表現情報として、評価表現ルール照合単語数＝７，極性＝ＰＮを付与して、ステップＳ１０３に移る。

ステップＳ１０３では、評価表現標準形を作成する。評価表現標準形位置は単語ＩＤ＝ｗ２−１〜ｗ２−６であり、単語ＩＤ＝ｗ２−６は単語情報として標準表記終止形「いる」を含む（図３２（２）参照）。そこで、単語ＩＤ＝ｗ２−１〜ｗ２−５の標準表記および単語ＩＤ＝ｗ２−６の標準表記終止形をつなげた「人と変わっている」が評価表現標準形となる。また、単語ＩＤ＝ｗ２−１〜ｗ２−７の表記をつなげた「人と変わっていて」が評価表現表記となる。

ステップＳ１０４では、「人と変わっている」で固有表現クラス辞書３２を検索して、ＰＳＮを固有表現クラス侯補と設定する。

最終的に、図３４（５）に示すように、評価表現情報を追加した単語列を出力する。

次に、属性表現抽出部３６の処理を、図２４のフローに従って説明する。この処理は、入力文書の先頭から順に、全ての評価表現を対象に行うものであるが、本例では、評価表現が１つのみしか抽出されていないため、単語ＩＤ＝ｗ２−１〜ｗ２−７の評価表現１つのみについて行う。

ステップＳ４１では、単語ＩＤ＝ｗ２−１〜ｗ２−７の評価表現については主格の体言が存在しないので、ステップＳ１１３に移る。

ステップＳ１１３では、単語ＩＤ＝ｗ２−１〜ｗ２−７の評価表現について、属性表現なしの属性表現情報を設定して処理を終了する。

最終的に、図３５（６）に示すように、属性表現情報を追加した単語列を出力する。

次に、対象表現抽出部３７の処理を、図２５のフローに従って説明する。この処理は、入力文書の先頭から順に、全ての評価表現を対象に行うものであるが、本例では、評価表現が１つのみしか抽出されていないため、単語ＩＤ＝ｗ２−１〜ｗ２−７の評価表現１つのみについて行う。

ステップＳ５１では、単語ＩＤ＝ｗ２−１〜ｗ２−７の評価表現については係り受け関係が存在しないので、ステップＳ１２１に移る。

ステップＳ１２１では、当該固有表現の固有表現クラス侯補は「ＰＳＮ」であるため、第１〜２文の中で、固有表現クラスがＰＳＮである固有表現相当語を検索し、単語ＩＤ＝ｗ１−１〜ｗ１−２の「山田太郎」を対象表現侯補とする。単語ＩＤ＝ｗ１−２４〜ｗ１−２５の「日本シリーズ」は固有表現クラスが「ＡＲＴ」であるため、抽出対象外となる。

ステップＳ５３からステップＳ１２２に移り、対象表現侯補が「山田太郎」１つであるため、これを対象表現として決定する。そして、当該対象表現の単語の表記をつなげた「山田太郎」を対象表現表記、単語の標準表記をつなげた同じく「山田太郎」を対象表現標準形として、処理を終了する。

最終的に、図３６（７）に示すように、対象表現情報を追加した単語列を出力する。

最後に、評価情報作成部３８では、図２９に示した出力設定情報３４に基づき、出力情報を作成する。

２つ組評価情報出力条件が「３つ組なし」であり、対象表現がない評価情報は存在しないので、２つ組み評価情報は出力しない。

３つ組評価情報出力条件が評価対象１ｂｅｓｔであるため、３つ組として抽出されている（山田太郎，（なし），人と変わっていて）について、ＮＧ完全一致ワード「殺人」と完全一致する文字列がない、ＮＧ部分一致ワード「馬鹿」を含む文字列がないことから、３つ組評価情報とする。

単語列出力指定はｏｆｆなので、単語列は出力しない。

最終的に、図３７（８）に示すような評価情報を出力する。

なお、第３の実施の形態においても、第２の実施の形態の場合と同様に係り受け情報を不要とする構成、即ち係り受け解析部８の代わりに文節認定部１３を用いる構成を採ることが可能である。また、その場合の属性表現抽出部３６および対象表現抽出部３７における処理も、第２の実施の形態の場合と同様に変更すれば良い。

また、第１、第２および第３の実施の形態における一般単語辞書記憶部、対象リスト単語辞書記憶部、評価表現辞書記憶部、評価表現ルール記憶部、カテゴリフィルタ記憶部、入力文書記憶部、単語列記憶部、固有表現クラス辞書記憶部および出力設定情報記憶部という記載は、どのようなデータを記憶するかという機能上の違いに基づく表現であり、ハードウェア的に個別の記憶部（記憶装置）が必要であるという意味ではない。また、実施の形態では、形態素解析部、固有表現抽出部、係り受け解析部、文節認定部、評価表現抽出部、属性表現抽出部、対象表現抽出部および評価情報作成部を中央演算処理装置（ＣＰＵ）上でプログラムにより構成した例を示したが、それぞれハードウェアで構成しても良いことはいうまでもない。

本発明の第１の実施の形態に係る評価情報抽出装置の概要を示す機能ブロック図本発明の第１の実施の形態に係る評価情報抽出装置のハードウェア構成を示す構成図本発明の第１の実施の形態に係る評価情報抽出装置のプログラムに対応するフローチャート図３中の評価表現抽出処理の詳細内容を示すフローチャート図３中の属性表現抽出処理の詳細内容を示すフローチャート図３中の対象表現抽出処理の詳細内容を示すフローチャート図１中の評価表現辞書の一例を示す説明図図１中の評価表現ルールの一例を示す説明図図１中のカテゴリフィルタの一例を示す説明図第１の実施の形態による具体的な評価情報抽出の具体例を示す説明図第１の実施の形態による具体的な評価情報抽出の具体例を示す説明図第１の実施の形態による具体的な評価情報抽出の具体例を示す説明図第１の実施の形態による具体的な評価情報抽出の具体例を示す説明図第１の実施の形態による具体的な評価情報抽出の具体例を示す説明図第１の実施の形態による具体的な評価情報抽出の具体例を示す説明図第１の実施の形態による具体的な評価情報抽出の具体例を示す説明図本発明の第２の実施の形態に係る評価情報抽出装置の概要を示す機能ブロック図本発明の第２の実施の形態に係る評価情報抽出装置のハードウェア構成を示す構成図本発明の第２の実施の形態に係る評価情報抽出装置のプログラムに対応するフローチャート本発明の第３の実施の形態に係る評価情報抽出装置の概要を示す機能ブロック図本発明の第３の実施の形態に係る評価情報抽出装置のハードウェア構成を示す構成図本発明の第３の実施の形態に係る評価情報抽出装置のプログラムに対応するフローチャート図２２中の評価表現抽出処理の詳細内容を示すフローチャート図２２中の属性表現抽出処理の詳細内容を示すフローチャート図２２中の対象表現抽出処理の詳細内容を示すフローチャート図２０中の評価表現辞書の一例を示す説明図図２０中の固有表現クラス辞書の一例を示す説明図図２０中のカテゴリフィルタの一例を示す説明図図２０中の出力設定情報の一例を示す説明図評価表現ルールの他の例を示す説明図第３の実施の形態による具体的な評価情報抽出の具体例を示す説明図第３の実施の形態による具体的な評価情報抽出の具体例を示す説明図第３の実施の形態による具体的な評価情報抽出の具体例を示す説明図第３の実施の形態による具体的な評価情報抽出の具体例を示す説明図第３の実施の形態による具体的な評価情報抽出の具体例を示す説明図第３の実施の形態による具体的な評価情報抽出の具体例を示す説明図第３の実施の形態による具体的な評価情報抽出の具体例を示す説明図

符号の説明

１：一般単語辞書、２：対象リスト単語辞書、３，３１：評価表現辞書、４：評価表現ルール、５，３３：カテゴリフィルタ、６：形態素解析部、７：固有表現抽出部、８：係り受け解析部、９，３５：評価表現抽出部、１０，１４，３６：属性表現抽出部、１１，１５，３７：対象表現抽出部、１２，３８：評価情報作成部、１３：文節認定部、２１：一般単語辞書記憶部、２２：対象リスト単語辞書記憶部、２３，４１：評価表現辞書記憶部、２４：評価表現ルール記憶部、２５，４３：カテゴリフィルタ記憶部、２６：入力文書記憶部、２７：単語列記憶部、２８，２９，４５：中央処理装置（ＣＰＵ）、３２：固有表現クラス辞書、３４：出力設定情報、４２：固有表現クラス辞書記憶部、４４：出力設定情報記憶部。

Claims

入力されたテキストデータから対象表現、属性表現および評価表現よりなる評価情報を抽出する評価情報抽出装置において、
入力されたテキストデータに対し、少なくとも一般単語辞書を用いて形態素解析を行い、単語情報を出力する形態素解析部と、
前記単語情報に対して固有表現抽出を行い、固有表現情報を出力する固有表現抽出部と、
前記単語情報に対して係り受け解析を行い、文節情報および係り受け情報を出力する係り受け解析部と、
少なくとも前記単語情報に対し、少なくとも評価表現辞書および評価表現ルールを用いて評価表現抽出を行い、評価表現情報を出力する評価表現抽出部と、
前記評価表現情報に対し、前記単語情報、固有表現情報、文節情報、係り受け情報およびカテゴリフィルタを用いて属性表現抽出を行い、属性表現情報を出力する属性表現抽出部と、
前記評価表現情報に対し、前記単語情報、固有表現情報、文節情報、係り受け情報および属性表現情報を用いて固有表現に相当する対象表現抽出を行い、対象表現情報を出力する対象表現抽出部と、
前記評価表現情報、属性表現情報および対象表現情報を用いて対象表現、属性表現および評価表現よりなる評価情報を作成する評価情報作成部とを備えた
ことを特徴とする評価情報抽出装置。
少なくとも１つの単語を含む単語列からなる評価表現について、その単語列を構成する各単語の単語情報および当該評価表現の一般的な極性を登録してなる評価表現辞書と、少なくとも１つの単語を含む単語列からなる評価表現の記述に関するルールについて、当該評価表現を構成する少なくとも各単語の正規表現からなる評価表現パターンおよび当該評価表現の極性を登録してなる評価表現ルールとを用いて評価表現抽出を行う評価表現抽出部と、
単語情報として付与される意味カテゴリのうち、抽出すべき評価情報のカテゴリに対応する意味カテゴリを登録してなるカテゴリフィルタを用いて属性表現抽出を行う属性表現抽出部と、
単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報および属性表現情報から得られる重みを用いて対象表現抽出を行う対象表現抽出部とを備えた
ことを特徴とする請求項１記載の評価情報抽出装置。
少なくとも１つの単語を含む単語列からなる評価表現について、その単語列を構成する各単語の単語情報、その単語列を構成する各単語の主要語フラグおよび当該評価表現の一般的な極性を登録してなる評価表現辞書と、少なくとも１つの単語を含む単語列からなる評価表現の記述に関するルールについて、当該評価表現を構成する少なくとも各単語の正規表現からなる評価表現パターンおよび当該評価表現の極性を登録してなる評価表現ルールと、少なくとも１つの単語を含む単語列からなる評価表現について、当該評価表現が評価対象として取り得る固有表現クラスを登録してなる固有表現クラス辞書とを用いて評価表現抽出を行う評価表現抽出部と、
単語情報として付与される意味カテゴリのうち、抽出すべき評価情報のカテゴリに対応する意味カテゴリを固有表現クラス別に登録してなるカテゴリフィルタを用いて属性表現抽出を行う属性表現抽出部と、
単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報および属性表現情報から得られる重みであって、評価表現情報に規定されていない固有表現クラスの重みは０とする重みを用いて対象表現抽出を行う対象表現抽出部とを備えた
ことを特徴とする請求項１記載の評価情報抽出装置。
予め登録された出力設定情報に基づき、前記評価表現情報、属性表現情報および対象表現情報を用いて対象表現、属性表現および評価表現よりなる評価情報を作成する評価情報作成部を備えた
ことを特徴とする請求項３記載の評価情報抽出装置。
係り受け解析部の代わりに、前記単語情報に対して文節認定を行い、文節情報を出力する文節認定部を備えるとともに、
前記評価表現情報に対し、前記単語情報、固有表現情報、文節情報およびカテゴリフィルタを用いて属性表現抽出を行い、属性表現情報を出力する属性表現抽出部と、
前記評価表現情報に対し、前記単語情報、固有表現情報、文節情報および属性表現情報を用いて固有表現に相当する対象表現抽出を行い、対象表現情報を出力する対象表現抽出部とを備えた
ことを特徴とする請求項１乃至４のいずれか記載の評価情報抽出装置。
入力されたテキストデータから対象表現、属性表現および評価表現よりなる評価情報を抽出する評価情報抽出方法において、
一般単語辞書と、評価表現辞書と、評価表現ルールと、カテゴリフィルタとを少なくとも記憶したコンピュータを用い、
当該コンピュータが、
入力されたテキストデータに対し、少なくとも一般単語辞書を用いて形態素解析を行い、単語情報を出力する形態素解析工程と、
前記単語情報に対して固有表現抽出を行い、固有表現情報を出力する固有表現抽出工程と、
前記単語情報に対して係り受け解析を行い、文節情報および係り受け情報を出力する係り受け解析工程と、
少なくとも前記単語情報に対し、少なくとも評価表現辞書および評価表現ルールを用いて評価表現抽出を行い、評価表現情報を出力する評価表現抽出工程と、
前記評価表現情報に対し、前記単語情報、固有表現情報、文節情報、係り受け情報およびカテゴリフィルタを用いて属性表現抽出を行い、属性表現情報を出力する属性表現抽出工程と、
前記評価表現情報に対し、前記単語情報、固有表現情報、文節情報、係り受け情報および属性表現情報を用いて固有表現に相当する対象表現抽出を行い、対象表現情報を出力する対象表現抽出工程と、
前記評価表現情報、属性表現情報および対象表現情報を用いて対象表現、属性表現および評価表現よりなる評価情報を作成する評価情報作成工程とを実行する
ことを特徴とする評価情報抽出方法。
少なくとも１つの単語を含む単語列からなる評価表現について、その単語列を構成する各単語の単語情報および当該評価表現の一般的な極性を登録してなる評価表現辞書と、少なくとも１つの単語を含む単語列からなる評価表現の記述に関するルールについて、当該評価表現を構成する少なくとも各単語の正規表現からなる評価表現パターンおよび当該評価表現の極性を登録してなる評価表現ルールとを用いて評価表現抽出を行う評価表現抽出工程と、
単語情報として付与される意味カテゴリのうち、抽出すべき評価情報のカテゴリに対応する意味カテゴリを登録してなるカテゴリフィルタを用いて属性表現抽出を行う属性表現抽出工程と、
単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報および属性表現情報から得られる重みを用いて対象表現抽出を行う対象表現抽出工程とを含む
ことを特徴とする請求項６記載の評価情報抽出方法。
少なくとも１つの単語を含む単語列からなる評価表現について、その単語列を構成する各単語の単語情報、その単語列を構成する各単語の主要語フラグおよび当該評価表現の一般的な極性を登録してなる評価表現辞書と、少なくとも１つの単語を含む単語列からなる評価表現の記述に関するルールについて、当該評価表現を構成する少なくとも各単語の正規表現からなる評価表現パターンおよび当該評価表現の極性を登録してなる評価表現ルールと、少なくとも１つの単語を含む単語列からなる評価表現について、当該評価表現が評価対象として取り得る固有表現クラスを登録してなる固有表現クラス辞書とを用いて評価表現抽出を行う評価表現抽出工程と、
単語情報として付与される意味カテゴリのうち、抽出すべき評価情報のカテゴリに対応する意味カテゴリを固有表現クラス別に登録してなるカテゴリフィルタを用いて属性表現抽出を行う属性表現抽出工程と、
単語情報、固有表現情報、文節情報、係り受け情報、評価表現情報および属性表現情報から得られる重みであって、評価表現情報に規定されていない固有表現クラスの重みは０とする重みを用いて対象表現抽出を行う対象表現抽出工程とを含む
ことを特徴とする請求項６記載の評価情報抽出方法。
予め登録された出力設定情報に基づき、前記評価表現情報、属性表現情報および対象表現情報を用いて対象表現、属性表現および評価表現よりなる評価情報を作成する評価情報作成工程を含む
ことを特徴とする請求項８記載の評価情報抽出方法。
係り受け解析工程の代わりに、前記単語情報に対して文節認定を行い、文節情報を出力する文節認定工程を含むとともに、
前記評価表現情報に対し、前記単語情報、固有表現情報、文節情報およびカテゴリフィルタを用いて属性表現抽出を行い、属性表現情報を出力する属性表現抽出工程と、
前記評価表現情報に対し、前記単語情報、固有表現情報、文節情報および属性表現情報を用いて固有表現に相当する対象表現抽出を行い、対象表現情報を出力する対象表現抽出工程とを含む
ことを特徴とする請求項６乃至９のいずれか記載の評価情報抽出方法。
コンピュータに、請求項６乃至１０いずれか記載の評価情報抽出方法の各処理ステップを実行させるための評価情報抽出プログラム。