JP2013171328A

JP2013171328A - 偏り述部抽出装置、方法、及びプログラム

Info

Publication number: JP2013171328A
Application number: JP2012033242A
Authority: JP
Inventors: Tomoko Izumi; 朋子泉; Taichi Asami; 太一浅見; Kuniko Saito; 邦子齋藤
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-02-17
Filing date: 2012-02-17
Publication date: 2013-09-02
Anticipated expiration: 2032-02-17
Also published as: JP5646522B2

Abstract

【課題】述部の意味の異なりを識別した適切な偏り述部抽出を行う。
【解決手段】述部正規化部２０で、２つの文書集合各々に含まれる各文書に対して形態素解析を行い、機能表現意味ラベル辞書２８に基づいて、各機能表現に意味ラベルを付与し、不要な機能表現を削除して、述部を正規化する。偏り述部粒度選択部３０で、抽出する偏り述部の粒度として「内容語＋意味ラベル」か「表層述部」かを選択し、選択された粒度に従って正規化述部を抽出する。偏り述部抽出部４０ａまたは４０ｂで、選択された粒度に従って抽出された正規化述部を対象に、各述部がどれだけの文書に出現したか（ＤＦ）を計算し、各述部のＤＦを用いて、各述部が抽出対象の文書集合に偏って出現しているか否かを検定するためのχ^２値を計算し、χ^２値≧閾値の場合には、その述部を偏り述部として抽出する。
【選択図】図１

Description

本発明は、偏り述部抽出装置、方法、及びプログラムに係り、特に、文書集合を特徴づける偏り述部を抽出する偏り述部抽出装置、方法、及びプログラムに関する。

現在、Ｗｅｂ上のブログや音声対話ログなど大量のテキストデータから、有益な情報を自動で抽出・分析することが求められている。このように、大量のテキストデータから有益な情報を抽出する技術をテキストマイニング技術と呼ぶ。

このテキストマイニング技術において重要なのが、与えられた文書集合からその集合を特徴づける表現を抽出し、そこから新しい発見を得るということである。他の文書集合と比較して偏って出現している表現（すなわち、その文書集合のみに頻繁に出現している表現）を抽出することで、その文書集合に対してよく言われている評判や苦情、トラブルなどを自動で発見することができるようになる。以後、この技術を、「偏り抽出」と呼ぶ。

例えば、ある「商品Ａ」と「商品Ｂ」に対して、下記のような口コミを集めた文書集合があったとする。

［商品Ａ］
・結構使いづらいですよぉ。
・値段が高い。
・使いにくい。
・ＸＸで購入しました。
・とにかく使いづらいです！

［商品Ｂ］
・価格が高いです。
・毎日使ってます！
・みなさんにお勧めしたい。
・ＸＸで購入した。
・いつも使っています。
・ぜひお勧めしたいです。
・使いやすいですよ。

商品Ａと商品Ｂの口コミ文書集合を比較すると、商品Ａに対しては、「使いづらい」、「使いにくい」といった表現が多く出現しており、商品Ｂに対しては「お勧めしたい」、「使っている」といった表現が多く出現している。

偏り抽出は、上記のような文書集合に対して、「［商品Ａ］については『使いづらい』というような表現が偏って出現しており、［商品Ｂ］には『お勧めしたい』、『使っている』というような表現が偏って出現している。」という傾向を機械的に発見することを目的とする。

上記の例が表すように、ある文書集合を特徴づける表現を抽出する点で重要なのが「使いづらい」といったような、「どうした」を表す表現の抽出である。この「どうした」を述部と呼び、その偏り抽出を「偏り述部抽出」と呼ぶ。

日本語の述部は、動詞、名詞、形容詞、形容動詞、副詞といった「内容語」と、助詞、助動詞などの「機能語」または「づらい」、「過ぎる」、「こと」といった非自立性の形容詞、動詞、名詞との組み合わせから成り立っているため、表層の異なりが激しい。この、述部の内容語以外の表現をまとめて「機能表現」と呼ぶ。

例えば、下記の例文（１）の場合、「使う」という内容語に「づらい／です」という機能表現が組み合わさって「使いづらいです」という述部が構成されている。

使いづらいです
＝使い（う）＜内容語＞＋づらい＜非自立性形容詞＞
＋です＜機能語＞（１）

偏り抽出を行う場合は、ある単語の出現頻度を用いて特徴的な表現を抽出する。例えば、述部の表層に着目して述部の出現頻度をカウントする方法や、述部の内容語一語のみを頼りに述部の出現頻度をカウントする方法が提案されている（例えば、非特許文献１参照）

倉島健、藤村考、奥田英範、「大規模テキストからの経験マイニング」、電子情報通信学会第１９回データ工学ワークショップ論文集（ＤＥＷＳ２００８）、Ａ１−４，２００８

しかし、述部は複数の単語の組み合わせで成り立っているため、表層の異なりが激しく、述部を対象として文書集合の偏り抽出を行う場合、正しく出現頻度をカウントすることが難しい。例えば、上記の商品Ａと商品Ｂに対する口コミ文書集合の述部を表層に着目してカウントした結果を図１５に示す。

図１５に示すように、表層のみを頼りにすると「使いづらいですよぉ」と「使いにくい」のように、本来は同じ事を言っている述部が、別のものとして扱われる。そのため、正確な頻度計算ができず、偏りもうまく抽出することができない。

一方、非特許文献１に記載の方法のように、述部の内容語一語のみを頼りに述部の出現頻度をカウントする場合、「使いづらい」、「使いたい」など実際は異なる事を表している場合も、全て「使う」という表現にまとめられてしまう。そのため、「〜たい（要望）」や「〜づらい（苦情）」など重要な表現を保持した偏り抽出を行うことができず、さらに、場合によっては、誤った集計が行われることで、偏りが出ない場合もある。上記の商品Ａと商品Ｂに対する口コミ文書集合の述部を内容語に着目してカウントした結果を図１６に示す。

図１６に示すように、内容語一語のみの集計の場合、［商品Ａ］も［商品Ｂ］も両方「使う」という単語が同じ頻度で出現していることが分かる。そのため、「偏った表現」としては抽出されなくなる。しかし、例が表すように、［商品Ａ］に対しては「使いづらい」、「使いにくい」といったネガティブな表現が、［商品Ｂ］に対しては「使いやすい」、「使っている」といったポジティブな表現が多く含まれており、これらが「偏った表現」として抽出されるべきである。

このように、テキストマイニングなどで必要な、特定の文書集合に特徴的に現れる述部を抽出する「偏り述部抽出」において、従来手法のように、述部の表層をそのまま使用した場合、表層の異なりが激しいため出現頻度を正確にカウントすることができず、結果、偏り抽出が困難になる、という問題がある。

また、述部の内容語一語のみを使用した場合、「使いづらい」、「使いやすい」といった正反対の事を言っている述部に対しても「使う」というかたちでまとめ上げてしまう。結果、テキストマイニングなどにおいて有益な情報を落としてしまい、さらに場合によっては誤った偏り抽出を行ってしまう、という問題がある。

本発明は上記問題点に鑑みてなされたものであり、述部の意味の異なりを識別した適切な偏り述部抽出を行うことができる偏り述部抽出装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明の偏り述部抽出装置は、複数の文書集合に含まれる複数の文書各々を形態素解析した解析結果に基づいて、前記文書各々の述部を抽出すると共に、該述部に含まれる機能表現に該機能表現が表す意味を示すラベルを付与し、該ラベルに基づいて、前記述部が表す出来事の意味に影響を与える機能表現以外を削除することにより、前記文書各々の述部を正規化する述部正規化手段と、前記形態素解析の解析結果及び前記ラベルに基づく粒度に従った、前記述部正規化手段により正規化された述部の出現頻度、または前記正規化された述部が出現する文書の数に基づいて、前記複数の文書集合のいずれかの文書集合に偏って出現する偏り述部を抽出する抽出手段と、を含んで構成されている。

本発明の偏り述部抽出装置によれば、述部正規化手段が、複数の文書集合に含まれる複数の文書各々を形態素解析した解析結果に基づいて、文書各々の述部を抽出すると共に、述部に含まれる機能表現に機能表現が表す意味を示すラベルを付与し、ラベルに基づいて、述部が表す出来事の意味に影響を与える機能表現以外を削除することにより、文書各々の述部を正規化する。そして、抽出手段が、前記形態素解析の解析結果及び前記ラベルに基づく粒度に従った、前記述部正規化手段により正規化された述部の出現頻度、または前記正規化された述部が出現する文書の数に基づいて、前記複数の文書集合のいずれかの文書集合に偏って出現する偏り述部を抽出する。

このように、述部に含まれる機能表現が表す意味を示すラベルを付与して述部を正規化し、このラベルを用いた粒度に従った正規化述部の出現頻度または正規化述部が出現する文書の数に基づいて偏り述部を抽出するため、述部の意味の異なりを識別した適切な偏り述部抽出を行うことができる。

また、本発明の偏り述部抽出装置は、前記粒度として、前記正規化された述部の内容語と前記ラベルとの組み合わせを用いるか、または、前記正規化された述部の表層形を用いるかを選択する選択手段を含んで構成することができる。これにより、目的に応じて適切な偏り述部を抽出することができる。

また、本発明の述部抽出方法は、述部正規化手段と、抽出手段とを含む偏り述部抽出装置における述部抽出方法であって、前記述部正規化手段は、複数の文書集合に含まれる複数の文書各々を形態素解析した解析結果に基づいて、前記文書各々の述部を抽出すると共に、該述部に含まれる機能表現に該機能表現が表す意味を示すラベルを付与し、該ラベルに基づいて、前記述部が表す出来事の意味に影響を与える機能表現以外を削除することにより、前記文書各々の述部を正規化し、前記抽出手段は、前記形態素解析の解析結果及び前記ラベルに基づく粒度に従った、前記述部正規化手段により正規化された述部の出現頻度、または前記正規化された述部が出現する文書の数に基づいて、前記複数の文書集合のいずれかの文書集合に偏って出現する偏り述部を抽出する方法である。

また、本発明の述部抽出方法は、選択手段を更に含む偏り述部抽出装置における述部抽出方法であって、前記選択手段は、前記粒度として、前記正規化された述部の内容語と前記ラベルとの組み合わせを用いるか、または、前記正規化された述部の表層形を用いるかを選択する方法である。

また、本発明の述部抽出プログラムは、コンピュータを、上記の偏り述部抽出装置を構成する各手段として機能させるためのプログラムである。

以上説明したように、本発明の偏り述部抽出装置、方法、及びプログラムによれば、述部に含まれる機能表現が表す意味を示すラベルを付与して述部を正規化し、このラベルを用いた粒度に従った正規化述部の出現頻度または正規化述部が出現する文書の数に基づいて偏り述部を抽出するため、述部の意味の異なりを識別した適切な偏り述部抽出を行うことができる、という効果が得られる。

本実施の形態の偏り述部抽出装置の機能的構成を示すブロック図である。機能表現意味ラベル辞書の一例を示す図である。述部正規化部の機能的構成を示すブロック図である。形態素解析結果の一例を示す図である。意味ラベルの付与及び述部抽出結果の一例を示す図である。不要機能表現削除部での処理結果の一例を示す図である。偏り述部抽出部の機能的構成を示すブロック図である。粒度「内容語＋意味ラベル」での正規化述部の抽出結果の一例を示す図である。粒度「内容語＋意味ラベル」での正規化述部のＤＦの一例を示す図である。粒度「表層述部」での正規化述部の抽出結果の一例を示す図である。粒度「表層述部」での正規化述部のＤＦの一例を示す図である。本実施の形態の偏り述部抽出装置における偏り述部抽出処理ルーチンの内容を示すフローチャートである。内容語一語のみを用いた場合の述部のＤＦの一例を示す図である。表層形そのままを用いた場合の述部のＤＦの一例を示す図である。従来技術の問題点を説明するための述部の出現頻度の一例を示す図である。従来技術の問題点を説明するための述部の出現頻度の一例を示す図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

本実施の形態に係る偏り述部抽出装置１０は、ＣＰＵと、ＲＡＭと、後述する述部抽出処理ルーチンを実行するためのプログラム及び各種データを記憶したＲＯＭとを備えたコンピュータで構成されている。このコンピュータは、機能的には、図１に示すように、述部正規化部２０と、偏り述部粒度選択部３０と、偏り述部抽出部（内容語＋意味ラベル）４０ａと、偏り述部抽出部（表層述部）４０ｂとを含んだ構成で表すことができる。

偏り述部抽出装置１０は、偏り述部の抽出対象となる文書集合と、比較対象となる文書集合とを入力とし、抽出対象の文書集合から偏り述部を抽出して、出力する。以下、各部について詳述する。

述部正規化部２０は、各文書集合に含まれる各文書（各テキストデータ）の述部を単純な形に言い換える処理を行う。ここでは、この言い換え処理を「正規化」と呼ぶ。述部の正規化手法は、例えば、非特許文献２（Izumi T., Imamura K., Kikui G., & Sato S. "Standardizing Complex Functional Expressions in Japanese Predicates: Applying Theoretically-Based Paraphrasing Rules.", Proceedings of the Workshop on Multiword Expressions: From theory to applications (MWE 2010), 63-71, 2010.）の手法を用いることができる。

非特許文献２の手法では、「述部が表す出来事の意味に影響を与える機能表現を残し、残りは削除する」という手法を取る。述部が表す出来事の意味に影響を与えるとされる機能表現を、「時制の差異」、「否定の差異」、「モダリティの差異」という３つの指標をもとに分類し、機能表現意味ラベル辞書２８として予め記憶しておく。機能表現意味ラベル辞書２８の一例を図２に示す。

述部正規化部２０は、図３に示すように、形態素解析部２２と、意味ラベル付与・述部抽出部２４と、不要機能表現削除部２６とを含んだ構成で表すことができる。

形態素解析部２２は、各テキストデータに対して、公知の形態素解析器を用いて一文毎に形態素解析を行う。形態素解析では、文が単語単位に分割され、各単語に品詞や活用型、活用形などの情報が付与される。図４に、入力された文書の一文「結構使いづらいですよぉ」に対する形態素解析の結果の一例を示す。

意味ラベル付与・述部抽出部２４は、形態素解析結果に対して、機能表現の意味ラベルを自動で付与し、さらに述部の範囲を抽出する。ここでは、意味ラベル付与及び述部抽出を統計的な手法で行う場合について説明する。図２に示すような機能表現意味ラベル辞書２８をもとに人手で正解の意味ラベルを付与したコーパスから、述部の範囲及び意味ラベルの並びの尤もらしさを学習して、自動で付与する。また、機能表現意味ラベル辞書２８に登録されていない機能表現には「ＮＵＬＬ」のラベルを付与する。

図５に、意味ラベルの付与及び述部の抽出結果の一例を示す。この例では、ＢＩタグというものを使用し、述部の内容語であって、内容語の先頭の単語には「Ｃ，Ｂ−ＰＲＥＤ」のラベルを付与し、また、述部の内容語であって、内容語の先頭以外の単語には、「Ｃ，Ｉ−ＰＲＥＤ」のラベルを付与する。Ｃは内容語（Ｃｏｎｔｅｎｔｗｏｒｄｓ）の頭文字である。また、機能語（Ｆｕｎｃｔｉｏｎｗｏｒｄｓ）には「Ｆ」のラベルを付与し、それに加えて、機能表現単位で該当する意味ラベルを付与する。内容語と同様に、該当する機能語が、ある機能表現の先頭の単語だった場合は、「Ｂ−困難」のように、その機能語が含まれる機能表現に付与された意味ラベルの前に「Ｂ」を付け、先頭以外の単語だった場合は、「Ｉ−困難」のように意味ラベルの前に「Ｉ」を付ける。

また、非特許文献２で「保持しなくてはいけない」とされていた「Ｇｒａｍｍａｒ」に属する機能語（助動詞の「だ」及び助詞の「の」）には、上記と同様に、機能語を示すラベル「Ｆ」、機能表現の先頭または先頭以外の単語を示す「Ｂ」または「Ｉ」のラベルと共に、「Ｇｒａｍｍａｒ」のラベルを付与する。機能表現意味ラベル辞書２８に登録されていない単語、及び「Ｇｒａｍｍａｒ」に属する単語以外の単語には、上記と同様に、機能語を示すラベル「Ｆ」、機能表現の先頭または先頭以外の単語を示す「Ｂ」または「Ｉ」のラベルと共に、「ＮＵＬＬ」のラベルを付与する。

述部は、１個以上の内容語（Ｃ）及び０個以上の機能語（Ｆ）の連続から成り立っているため、ここでは「使いづらいですよぉ」が述部として抽出される。この述部は、「使う」を内容語とし、「づらい／です／よ／ぉ」という４つの機能表現をもつ。

不要機能表現削除部２６は、「時制の差異」、「否定の差異」、「モダリティの差異」の３つの指標のいずれにも属さず、かつ文法的に必要な表現（「Ｇｒａｍｍａｒ」の意味ラベルが付与された機能表現）にも属さない機能表現を削除し、単純な述部を生成する。上記の例の場合、図６に示すように、「感嘆」の意味ラベルをもつ「よ」、及び「ＮＵＬＬ」の意味ラベルをもつ「ぉ」が削除され、「使い／づらい／です」という表現のみが残る。必要に応じて、各要素を正しい形に活用させ、単純化された述部「使いづらいです（使う＋困難）」を生成する。

上記の形態素解析部２２、意味ラベル付与・述部抽出部２４、及び不要機能表現削除部２６の各部の処理により、入力文「結構使いづらいですよぉ」に対して、述部正規化部２０の出力として正規化述部「使いづらいです」が出力される。上記の処理を、各文書の全ての文（テキストデータ）に対して行う。

偏り述部粒度選択部３０は、抽出する偏り述部の粒度を選択し、選択した粒度に従った正規化述部を抽出する。粒度として「内容語＋意味ラベル」が選択された場合には、述部正規化部２０から出力された正規化述部の内容語の標準形と機能表現の意味ラベルとの組み合わせを抽出する。例えば、正規化述部が「使いづらいです」の場合、「使う＋困難」が選択された粒度に従った正規化述部として抽出される。また、粒度として「表層述部」が選択された場合には、正規化述部の表記を抽出する。例えば、正規化述部が「使いづらいです」の場合、「使いづらいです」が選択された粒度に従った正規化述部として抽出される。

粒度の選択は、図示しない入力装置等からユーザにより設定された情報を用いて行う。例えば、「使うかもしれない」と「使うらしい」という２つの述部があった場合、「かもしれない」も「らしい」も両方とも「推量」の意味ラベルが付与されるため、粒度を「内容語＋意味ラベル」に設定した場合、「使うかもしれない」と「使うらしい」とが同じものとしてまとめ上げてカウントされる。一方、表現の「確信度」の違いを区別したい場合、「使うかもしれない」と「使うらしい」の確信度には異なりがある（「かもしれない」の方が確信度が低く、「らしい」の方が確信度が高い）。これらを区別することが必要な場合は、粒度を「表層述部」に設定する。

偏り述部抽出部（内容語＋意味ラベル）４０ａは、ある特定の文書集合に偏って出現する述部を抽出するための「偏り述部抽出」を行う。ここでは、特定の述部が出現した文書の数を表すＤＦ（ＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）を用いて偏り述部を抽出する。偏りの抽出指標は、他に述部そのものの出現頻度であるＴＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ）などを用いてもよい。

偏り述部抽出部（内容語＋意味ラベル）４０ａの入力は、偏り述部粒度選択部３０で抽出された粒度「内容語＋意味ラベル」の正規化述部を保持した２つの異なる文書集合である。上記の［商品Ａ］と［商品Ｂ］とに対する口コミ文書集合を例に説明する。なお、以下では、商品Ａに対する口コミ文書集合を「文書集合Ａ」、商品Ｂに対する口コミ文書集合を「文書集合Ｂ」といい、文書集合Ａを偏り述部抽出対象の文書集合、文書集合Ｂを比較対象の文書集合とする。また、ここでは、文書集合Ａ及び文書集合Ｂは、それぞれ２００件の文書を含み、また一行一文書として計算する。文書の単位は任意であるため、一文書に複数の正規化述部が現れる場合もある。

図７に示すように、偏り述部抽出部（内容語＋意味ラベル）４０ａは、頻度計算部４２ａと、偏り検定部４４ａと、抽出部４６ａとを含んだ構成で表すことができる。

頻度計算部４２ａに入力される文書集合Ａ及び文書集合Ｂは、図８に示すような粒度「内容語＋意味ラベル」の正規化述部を保持している。頻度計算部４２ａでは、これらの正規化述部を対象に、各述部がどれだけの文書に出現したか（ＤＦ）を計算する。各述部に対してＤＦを計算した結果を図９に示す。

偏り検定部４４ａは、その述部が特定の文書集合に偏って出現しているか否かを計算する。ここでは、「使う＋困難」という述部が文書集合Ａに偏って出現しているか否かを検定する場合を例に説明する。本実施の形態では、χ^２検定を用い、偏っているか否かを判断するための有意水準を、ｐ＜0.01とする。χ^２検定の場合、χ^２値が6.635以上を取るとｐ＜0.01となり、「その述部は対象の文書集合に偏っている」とみなせる。すなわち、その述部を偏り述部として認定することができる。なお、述部が偏っているか否かの判定には、他の検定方法や有意水準を用いてもよい。χ^２値は、下記（１）式に従って計算する。

ここで、ｎは、頻度計算部４２で計算された抽出対象の文書集合（ここでは文書集合Ａ）におけるその述部のＤＦ、Ｅは、「本来その述部が偏っていない場合における抽出対象の文書集合での述部のＤＦ」を示す期待値である。

例えば、文書集合Ａでは、「使う＋困難」という述部のＤＦは１７０（すなわち、ｎ＝１７０）である。一方、文書集合Ｂでは、「使う＋困難」という述部のＤＦは１０である。文書集合Ａ及び文書集合Ｂはそれぞれ２００文書ずつを含んでいるため（すなわち、文書集合に含まれる文書数の比は１対１）、もし仮に、「使う＋困難」という述部が各文書集合に均等に出現する場合、文書集合Ａ及び文書集合Ｂを合わせて１８０文書に登場した「使う＋困難」という述部が、各文書集合に等分に出現することとなる。すなわち、文書集合Ａに含まれる９０文書、文書集合Ｂに含まれる９０文書に出現することになる（すなわち、Ｅ＝９０）。これらの値を用いて（１）式により「使う＋困難」という述部についてのχ^２値を計算すると、71.1となる。

抽出部４６ａは、偏り検定部４４ａで計算されたχ^２値が閾値（本実施の形態の場合は6.635）以上か否かを判定し、χ^２値が閾値以上となる述部を「その文書集合に偏っている述部」とみなして抽出する。文書集合Ａにおいて、「使う＋困難」という述部のχ^２値は71.1で閾値よりも高い。そのため、「使う＋困難」という述部表現が文書集合Ａの偏り述部として出力される。

偏り述部抽出部（表層述部）４０ｂは、偏り述部抽出部（内容語＋意味ラベル）４０ａと同様に、ある特定の文書集合に偏って出現する述部を抽出するための「偏り述部抽出」を行う。偏り述部抽出部（表層述部）４０ｂの入力は、偏り述部粒度選択部３０で抽出された粒度「表層述部」の正規化述部を保持した２つの異なる文書集合である。ここでは、［商品Ｃ］と［商品Ｄ］とに対する口コミ文書集合を例に説明する。なお、以下では、商品Ｃに対する口コミ文書集合を「文書集合Ｃ」、商品Ｄに対する口コミ文書集合を「文書集合Ｄ」という。

偏り述部抽出部（表層述部）４０ｂは、偏り述部抽出部（内容語＋意味ラベル）４０ａと同様に、頻度計算部４２ｂと、偏り検定部４４ｂと、抽出部４６ｂとを含んだ構成で表すことができる（図７）。

頻度計算部４２ｂに入力される文書集合Ｃ及び文書集合Ｄは、図１０に示すような粒度「表層述部」の正規化述部を保持している。頻度計算部４２では、これらの正規化述部を対象に、各述部がどれだけの文書に出現したか（ＤＦ）を計算する。各述部に対してＤＦを計算した結果を図１１に示す。

偏り検定部４４ｂは、頻度計算部４２ｂで計算された粒度「表層述部」の正規化述部のＤＦを用いて、その述部が特定の文書集合に偏って出現しているか否かを計算する。ここでは、「売れるに違いない」という述部が文書集合Ｃに偏って出現しているか否かと、「売れるかも知れない」が文書集合Ｄに偏って出現しているか否かと検定する場合を例に説明する。偏り検定部４４ｂでは、偏り検定部４４ａと同様、χ^２検定を行う。「売れるに違いない」は文書集合Ｃでは、１５０文書に出現し（ｎ＝１５０）、文書集合Ｄでは、１０文書に出現した（Ｅ＝８０）。そのため、χ^２値は、61.25である。一方、「売れるかも知れない」は、文書集合Ｃでは２０文書に出現し、文書集合Ｄでは１６０文書に出現した（ｎ＝１６０，Ｅ＝９０）。そのため、χ^２値は54.44である。

抽出部４６ｂは、偏り検定部４４ｂで計算されたχ^２値が閾値（本実施の形態の場合は6.635）以上か否かを判定し、χ^２値が閾値以上となる述部を「その文書集合に偏っている述部」とみなして抽出する。文書集合Ｃにおいて、表層述部「売れるに違いない」という述部のχ^２値は61.25で閾値よりも高い。そのため、「売れるに違いない」という述部表現が文書集合Ｃの偏り述部として出力される。また、表層述部「売れるかも知れない」という述部のχ^２値は54.44と閾値より高い。そのため、「売れるかも知れない」という述部表現が文書集合Ｄの偏り述部として出力される。

このように、偏り述部粒度選択部３０において、表層述部を選択した場合、「売れるかも知れない」と「売れるに違いない」のような、意味ラベル上では「推量」と同じカテゴリに属する表現であっても、表層述部を見ると、推量表現の「確信度」が異なるような述部の区別をつけた偏り述部の抽出が可能となる。

次に、図１２を参照して、本実施の形態の偏り述部抽出装置における偏り述部抽出処理ルーチンについて説明する。

ステップ１００で、偏り述部の抽出対象の文書集合と、比較対象の文書集合とを取得する。

次に、ステップ１０２で、上記ステップ１００で取得した各文書集合に含まれる各文書（各テキストデータ）に対して形態素解析を行い、文を単語単位に分割し、各単語に品詞や活用型、活用形などの情報を付与する。

次に、ステップ１０４で、上記ステップ１０２の形態素解析結果に対して、機能表現意味ラベル辞書２８に基づいて、各機能表現に意味ラベルを付与すると共に、述部を抽出する。

次に、ステップ１０６で、上記ステップ１０４で付与された意味ラベルを参照して、不要な機能表現を削除する。ステップ１０２〜１０６の処理により、各文書の述部が正規化される。

次に、ステップ１０８で、抽出する偏り述部の粒度を選択し、選択した粒度に従った正規化述部を抽出する。粒度として「内容語＋意味ラベル」が選択された場合には、上記ステップ１０２〜１０６で正規化された正規化述部の内容語の標準形と機能表現の意味ラベルとの組み合わせを抽出する。また、粒度として「表層述部」が選択された場合には、正規化述部の表記を抽出する。

次に、ステップ１１０で、上記ステップ１０８で抽出された正規化述部を対象に、各述部がどれだけの文書に出現したか、すなわちＤＦを計算する。

次に、ステップ１１２で、上記ステップ１１０で計算された各述部のＤＦを用いて、各述部が抽出対象の文書集合に偏って出現しているか否かを検定するためのχ^２値を計算する。

次に、ステップ１１４で、上記ステップ１１２で計算されたχ^２値が予め定めた閾値≧か否かを判定する。χ^２値≧閾値の場合には、ステップ１１６へ移行して、その述部を偏り述部として抽出する。χ^２値＜閾値の場合には、その述部を偏り述部として抽出しない。上記ステップ１０８で抽出された述部の全てについて、χ^２値による検定が終了した場合には、ステップ１１８へ移行し、上記ステップ１１６で抽出された偏り述部を出力して、処理を終了する。

ここで、本実施の形態の有効性を説明するために、同様の偏り述部抽出を、内容語一語のみを用いて行った場合、及び述部の表層形のみを用いて行った場合の実施例を示す。

以下に、「使う」という内容語のみを使用した場合の実施例を示す。内容語のみを用いるので、意味ラベル付与・述部抽出部２４において、「Ｃ」のラベルが付与された単語のみを用いる。形態素解析等の処理は本実施の形態と同じであるため、ここでは、偏り抽出のみを説明する。

出現した内容語毎にＤＦを計算する。本実施例では、１文書１行としているため、図９に示したＤＦの値のうち、内容語の「使う」が一緒の正規化述部が統合され、内容語毎のＤＦは図１３のようになる。図１３の場合、「使う」に対するχ^２値は、0.56である。これは、閾値の6.635以下であるために、「使う」という述部は偏り述部として抽出されない。

次に、述部の表層形のみを用いた場合の偏り抽出の実施例を示す。表層形のみを用いるので、意味ラベル付与・述部抽出部２４において「Ｃ」及び「Ｆ」のラベルが付与された範囲を述部として取り出す。不要機能表現削除部２６による不要機能表現の削除は行わない。形態素解析等の処理は本実施の形態と同じであるため、ここでは、偏り抽出のみを説明する。

出現した表層形毎に、ＤＦを計算した例を図１４に示す。図１４の場合、「使いづらいですよぉ」に対するχ^２値は1.5である。これは、閾値の6.635以下であるために、「使いづらいですよぉ」という述部は文書集合Ａの偏り述部として抽出されない。

以上のように、述部の内容語のみを用いた場合や、述部の表層形をそのまま用いた場合、文書集合Ａから「使いづらい」という表現を抽出することができない。

以上説明したように、本実施の形態の偏り述部抽出装置によれば、特定の文書集合に偏っている述部表現を抽出する偏り述部抽出において、述部を単純に言い換えた正規化述部を用いて偏り述部抽出を行うことで、従来の単語一語だけの抽出では不可能であった、意味が異なる述部を正しく識別しつつ偏り述部を抽出することができる。結果、特定の文書に特徴的に現れる表現を自動で抽出するテキストマイニング技術の精度を上げることができる。

また、内容語と複数の機能表現との組み合わせで構成されている述部を単純に言い換える正規化を用いて偏り述部を抽出することで、述部の表層そのものを用いることではうまく偏りを発見することができない述部表現に対しても、述部を抽出することができるようになる。結果、より正確に特定の文書集合に偏っている述部を抽出することができる。

また、偏り述部抽出を行う対象を「内容語＋意味ラベル」または正規化後の「表層述部」で選択することによって、偏り述部抽出の粒度を選択できる。結果、分析の目的によって適切な偏り述部抽出を行うことができる。

なお、本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

また、本願明細書中において、プログラムが予めインストールされている実施の形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１０偏り述部抽出装置
２０述部正規化部
２２形態素解析部
２４意味ラベル付与・述部抽出部
２６不要機能表現削除部
２８機能表現意味ラベル辞書
３０偏り述部粒度選択部
４０ａ偏り述部抽出部（内容語＋意味ラベル）
４０ｂ偏り述部抽出部（表層述部）
４２ａ、４２ｂ頻度計算部
４４ａ、４４ｂ偏り検定部
４６ａ、４６ｂ抽出部

Claims

複数の文書集合に含まれる複数の文書各々を形態素解析した解析結果に基づいて、前記文書各々の述部を抽出すると共に、該述部に含まれる機能表現に該機能表現が表す意味を示すラベルを付与し、該ラベルに基づいて、前記述部が表す出来事の意味に影響を与える機能表現以外を削除することにより、前記文書各々の述部を正規化する述部正規化手段と、
前記形態素解析の解析結果及び前記ラベルに基づく粒度に従った、前記述部正規化手段により正規化された述部の出現頻度、または前記正規化された述部が出現する文書の数に基づいて、前記複数の文書集合のいずれかの文書集合に偏って出現する偏り述部を抽出する抽出手段と、
を含む偏り述部抽出装置。
前記粒度として、前記正規化された述部の内容語と前記ラベルとの組み合わせを用いるか、または、前記正規化された述部の表層形を用いるかを選択する選択手段を含む請求項１記載の偏り述部抽出装置。
述部正規化手段と、抽出手段とを含む偏り述部抽出装置における述部抽出方法であって、
前記述部正規化手段は、複数の文書集合に含まれる複数の文書各々を形態素解析した解析結果に基づいて、前記文書各々の述部を抽出すると共に、該述部に含まれる機能表現に該機能表現が表す意味を示すラベルを付与し、該ラベルに基づいて、前記述部が表す出来事の意味に影響を与える機能表現以外を削除することにより、前記文書各々の述部を正規化し、
前記抽出手段は、前記形態素解析の解析結果及び前記ラベルに基づく粒度に従った、前記述部正規化手段により正規化された述部の出現頻度、または前記正規化された述部が出現する文書の数に基づいて、前記複数の文書集合のいずれかの文書集合に偏って出現する偏り述部を抽出する
述部抽出方法。
選択手段を更に含む偏り述部抽出装置における述部抽出方法であって、
前記選択手段は、前記粒度として、前記正規化された述部の内容語と前記ラベルとの組み合わせを用いるか、または、前記正規化された述部の表層形を用いるかを選択する
請求項３記載の述部抽出方法。
コンピュータを、請求項１または請求項２記載の偏り述部抽出装置を構成する各手段として機能させるための述部抽出プログラム。