JP2013171328A - 偏り述部抽出装置、方法、及びプログラム - Google Patents

偏り述部抽出装置、方法、及びプログラム Download PDF

Info

Publication number
JP2013171328A
JP2013171328A JP2012033242A JP2012033242A JP2013171328A JP 2013171328 A JP2013171328 A JP 2013171328A JP 2012033242 A JP2012033242 A JP 2012033242A JP 2012033242 A JP2012033242 A JP 2012033242A JP 2013171328 A JP2013171328 A JP 2013171328A
Authority
JP
Japan
Prior art keywords
predicate
extraction
label
normalized
bias
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012033242A
Other languages
English (en)
Other versions
JP5646522B2 (ja
Inventor
Tomoko Izumi
朋子 泉
Taichi Asami
太一 浅見
Kuniko Saito
邦子 齋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012033242A priority Critical patent/JP5646522B2/ja
Publication of JP2013171328A publication Critical patent/JP2013171328A/ja
Application granted granted Critical
Publication of JP5646522B2 publication Critical patent/JP5646522B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

【課題】述部の意味の異なりを識別した適切な偏り述部抽出を行う。
【解決手段】述部正規化部20で、2つの文書集合各々に含まれる各文書に対して形態素解析を行い、機能表現意味ラベル辞書28に基づいて、各機能表現に意味ラベルを付与し、不要な機能表現を削除して、述部を正規化する。偏り述部粒度選択部30で、抽出する偏り述部の粒度として「内容語+意味ラベル」か「表層述部」かを選択し、選択された粒度に従って正規化述部を抽出する。偏り述部抽出部40aまたは40bで、選択された粒度に従って抽出された正規化述部を対象に、各述部がどれだけの文書に出現したか(DF)を計算し、各述部のDFを用いて、各述部が抽出対象の文書集合に偏って出現しているか否かを検定するためのχ値を計算し、χ値≧閾値の場合には、その述部を偏り述部として抽出する。
【選択図】図1

Description

本発明は、偏り述部抽出装置、方法、及びプログラムに係り、特に、文書集合を特徴づける偏り述部を抽出する偏り述部抽出装置、方法、及びプログラムに関する。
現在、Web上のブログや音声対話ログなど大量のテキストデータから、有益な情報を自動で抽出・分析することが求められている。このように、大量のテキストデータから有益な情報を抽出する技術をテキストマイニング技術と呼ぶ。
このテキストマイニング技術において重要なのが、与えられた文書集合からその集合を特徴づける表現を抽出し、そこから新しい発見を得るということである。他の文書集合と比較して偏って出現している表現(すなわち、その文書集合のみに頻繁に出現している表現)を抽出することで、その文書集合に対してよく言われている評判や苦情、トラブルなどを自動で発見することができるようになる。以後、この技術を、「偏り抽出」と呼ぶ。
例えば、ある「商品A」と「商品B」に対して、下記のような口コミを集めた文書集合があったとする。
[商品A]
・結構使いづらいですよぉ
・値段が高い。
使いにくい
・XXで購入しました。
・とにかく使いづらいです
[商品B]
・価格が高いです。
・毎日使ってます
・みなさんにお勧めしたい
・XXで購入した。
・いつも使っています
・ぜひお勧めしたいです
・使いやすいですよ。
商品Aと商品Bの口コミ文書集合を比較すると、商品Aに対しては、「使いづらい」、「使いにくい」といった表現が多く出現しており、商品Bに対しては「お勧めしたい」、「使っている」といった表現が多く出現している。
偏り抽出は、上記のような文書集合に対して、「[商品A]については『使いづらい』というような表現が偏って出現しており、[商品B]には『お勧めしたい』、『使っている』というような表現が偏って出現している。」という傾向を機械的に発見することを目的とする。
上記の例が表すように、ある文書集合を特徴づける表現を抽出する点で重要なのが「使いづらい」といったような、「どうした」を表す表現の抽出である。この「どうした」を述部と呼び、その偏り抽出を「偏り述部抽出」と呼ぶ。
日本語の述部は、動詞、名詞、形容詞、形容動詞、副詞といった「内容語」と、助詞、助動詞などの「機能語」または「づらい」、「過ぎる」、「こと」といった非自立性の形容詞、動詞、名詞との組み合わせから成り立っているため、表層の異なりが激しい。この、述部の内容語以外の表現をまとめて「機能表現」と呼ぶ。
例えば、下記の例文(1)の場合、「使う」という内容語に「づらい/です」という機能表現が組み合わさって「使いづらいです」という述部が構成されている。
使いづらいです
=使い(う)<内容語>+づらい<非自立性形容詞>
+です<機能語> (1)
偏り抽出を行う場合は、ある単語の出現頻度を用いて特徴的な表現を抽出する。例えば、述部の表層に着目して述部の出現頻度をカウントする方法や、述部の内容語一語のみを頼りに述部の出現頻度をカウントする方法が提案されている(例えば、非特許文献1参照)
倉島健、藤村考、奥田英範、「大規模テキストからの経験マイニング」、電子情報通信学会第19回データ工学ワークショップ論文集(DEWS2008)、A1−4,2008
しかし、述部は複数の単語の組み合わせで成り立っているため、表層の異なりが激しく、述部を対象として文書集合の偏り抽出を行う場合、正しく出現頻度をカウントすることが難しい。例えば、上記の商品Aと商品Bに対する口コミ文書集合の述部を表層に着目してカウントした結果を図15に示す。
図15に示すように、表層のみを頼りにすると「使いづらいですよぉ」と「使いにくい」のように、本来は同じ事を言っている述部が、別のものとして扱われる。そのため、正確な頻度計算ができず、偏りもうまく抽出することができない。
一方、非特許文献1に記載の方法のように、述部の内容語一語のみを頼りに述部の出現頻度をカウントする場合、「使いづらい」、「使いたい」など実際は異なる事を表している場合も、全て「使う」という表現にまとめられてしまう。そのため、「〜たい(要望)」や「〜づらい(苦情)」など重要な表現を保持した偏り抽出を行うことができず、さらに、場合によっては、誤った集計が行われることで、偏りが出ない場合もある。上記の商品Aと商品Bに対する口コミ文書集合の述部を内容語に着目してカウントした結果を図16に示す。
図16に示すように、内容語一語のみの集計の場合、[商品A]も [商品B]も両方「使う」という単語が同じ頻度で出現していることが分かる。そのため、「偏った表現」としては抽出されなくなる。しかし、例が表すように、[商品A]に対しては「使いづらい」、「使いにくい」といったネガティブな表現が、[商品B]に対しては「使いやすい」、「使っている」といったポジティブな表現が多く含まれており、これらが「偏った表現」として抽出されるべきである。
このように、テキストマイニングなどで必要な、特定の文書集合に特徴的に現れる述部を抽出する「偏り述部抽出」において、従来手法のように、述部の表層をそのまま使用した場合、表層の異なりが激しいため出現頻度を正確にカウントすることができず、結果、偏り抽出が困難になる、という問題がある。
また、述部の内容語一語のみを使用した場合、「使いづらい」、「使いやすい」といった正反対の事を言っている述部に対しても「使う」というかたちでまとめ上げてしまう。結果、テキストマイニングなどにおいて有益な情報を落としてしまい、さらに場合によっては誤った偏り抽出を行ってしまう、という問題がある。
本発明は上記問題点に鑑みてなされたものであり、述部の意味の異なりを識別した適切な偏り述部抽出を行うことができる偏り述部抽出装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明の偏り述部抽出装置は、複数の文書集合に含まれる複数の文書各々を形態素解析した解析結果に基づいて、前記文書各々の述部を抽出すると共に、該述部に含まれる機能表現に該機能表現が表す意味を示すラベルを付与し、該ラベルに基づいて、前記述部が表す出来事の意味に影響を与える機能表現以外を削除することにより、前記文書各々の述部を正規化する述部正規化手段と、前記形態素解析の解析結果及び前記ラベルに基づく粒度に従った、前記述部正規化手段により正規化された述部の出現頻度、または前記正規化された述部が出現する文書の数に基づいて、前記複数の文書集合のいずれかの文書集合に偏って出現する偏り述部を抽出する抽出手段と、を含んで構成されている。
本発明の偏り述部抽出装置によれば、述部正規化手段が、複数の文書集合に含まれる複数の文書各々を形態素解析した解析結果に基づいて、文書各々の述部を抽出すると共に、述部に含まれる機能表現に機能表現が表す意味を示すラベルを付与し、ラベルに基づいて、述部が表す出来事の意味に影響を与える機能表現以外を削除することにより、文書各々の述部を正規化する。そして、抽出手段が、前記形態素解析の解析結果及び前記ラベルに基づく粒度に従った、前記述部正規化手段により正規化された述部の出現頻度、または前記正規化された述部が出現する文書の数に基づいて、前記複数の文書集合のいずれかの文書集合に偏って出現する偏り述部を抽出する。
このように、述部に含まれる機能表現が表す意味を示すラベルを付与して述部を正規化し、このラベルを用いた粒度に従った正規化述部の出現頻度または正規化述部が出現する文書の数に基づいて偏り述部を抽出するため、述部の意味の異なりを識別した適切な偏り述部抽出を行うことができる。
また、本発明の偏り述部抽出装置は、前記粒度として、前記正規化された述部の内容語と前記ラベルとの組み合わせを用いるか、または、前記正規化された述部の表層形を用いるかを選択する選択手段を含んで構成することができる。これにより、目的に応じて適切な偏り述部を抽出することができる。
また、本発明の述部抽出方法は、述部正規化手段と、抽出手段とを含む偏り述部抽出装置における述部抽出方法であって、前記述部正規化手段は、複数の文書集合に含まれる複数の文書各々を形態素解析した解析結果に基づいて、前記文書各々の述部を抽出すると共に、該述部に含まれる機能表現に該機能表現が表す意味を示すラベルを付与し、該ラベルに基づいて、前記述部が表す出来事の意味に影響を与える機能表現以外を削除することにより、前記文書各々の述部を正規化し、前記抽出手段は、前記形態素解析の解析結果及び前記ラベルに基づく粒度に従った、前記述部正規化手段により正規化された述部の出現頻度、または前記正規化された述部が出現する文書の数に基づいて、前記複数の文書集合のいずれかの文書集合に偏って出現する偏り述部を抽出する方法である。
また、本発明の述部抽出方法は、選択手段を更に含む偏り述部抽出装置における述部抽出方法であって、前記選択手段は、前記粒度として、前記正規化された述部の内容語と前記ラベルとの組み合わせを用いるか、または、前記正規化された述部の表層形を用いるかを選択する方法である。
また、本発明の述部抽出プログラムは、コンピュータを、上記の偏り述部抽出装置を構成する各手段として機能させるためのプログラムである。
以上説明したように、本発明の偏り述部抽出装置、方法、及びプログラムによれば、述部に含まれる機能表現が表す意味を示すラベルを付与して述部を正規化し、このラベルを用いた粒度に従った正規化述部の出現頻度または正規化述部が出現する文書の数に基づいて偏り述部を抽出するため、述部の意味の異なりを識別した適切な偏り述部抽出を行うことができる、という効果が得られる。
本実施の形態の偏り述部抽出装置の機能的構成を示すブロック図である。 機能表現意味ラベル辞書の一例を示す図である。 述部正規化部の機能的構成を示すブロック図である。 形態素解析結果の一例を示す図である。 意味ラベルの付与及び述部抽出結果の一例を示す図である。 不要機能表現削除部での処理結果の一例を示す図である。 偏り述部抽出部の機能的構成を示すブロック図である。 粒度「内容語+意味ラベル」での正規化述部の抽出結果の一例を示す図である。 粒度「内容語+意味ラベル」での正規化述部のDFの一例を示す図である。 粒度「表層述部」での正規化述部の抽出結果の一例を示す図である。 粒度「表層述部」での正規化述部のDFの一例を示す図である。 本実施の形態の偏り述部抽出装置における偏り述部抽出処理ルーチンの内容を示すフローチャートである。 内容語一語のみを用いた場合の述部のDFの一例を示す図である。 表層形そのままを用いた場合の述部のDFの一例を示す図である。 従来技術の問題点を説明するための述部の出現頻度の一例を示す図である。 従来技術の問題点を説明するための述部の出現頻度の一例を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
本実施の形態に係る偏り述部抽出装置10は、CPUと、RAMと、後述する述部抽出処理ルーチンを実行するためのプログラム及び各種データを記憶したROMとを備えたコンピュータで構成されている。このコンピュータは、機能的には、図1に示すように、述部正規化部20と、偏り述部粒度選択部30と、偏り述部抽出部(内容語+意味ラベル)40aと、偏り述部抽出部(表層述部)40bとを含んだ構成で表すことができる。
偏り述部抽出装置10は、偏り述部の抽出対象となる文書集合と、比較対象となる文書集合とを入力とし、抽出対象の文書集合から偏り述部を抽出して、出力する。以下、各部について詳述する。
述部正規化部20は、各文書集合に含まれる各文書(各テキストデータ)の述部を単純な形に言い換える処理を行う。ここでは、この言い換え処理を「正規化」と呼ぶ。述部の正規化手法は、例えば、非特許文献2(Izumi T., Imamura K., Kikui G., & Sato S. "Standardizing Complex Functional Expressions in Japanese Predicates: Applying Theoretically-Based Paraphrasing Rules.", Proceedings of the Workshop on Multiword Expressions: From theory to applications (MWE 2010), 63-71, 2010.)の手法を用いることができる。
非特許文献2の手法では、「述部が表す出来事の意味に影響を与える機能表現を残し、残りは削除する」という手法を取る。述部が表す出来事の意味に影響を与えるとされる機能表現を、「時制の差異」、「否定の差異」、「モダリティの差異」という3つの指標をもとに分類し、機能表現意味ラベル辞書28として予め記憶しておく。機能表現意味ラベル辞書28の一例を図2に示す。
述部正規化部20は、図3に示すように、形態素解析部22と、意味ラベル付与・述部抽出部24と、不要機能表現削除部26とを含んだ構成で表すことができる。
形態素解析部22は、各テキストデータに対して、公知の形態素解析器を用いて一文毎に形態素解析を行う。形態素解析では、文が単語単位に分割され、各単語に品詞や活用型、活用形などの情報が付与される。図4に、入力された文書の一文「結構使いづらいですよぉ」に対する形態素解析の結果の一例を示す。
意味ラベル付与・述部抽出部24は、形態素解析結果に対して、機能表現の意味ラベルを自動で付与し、さらに述部の範囲を抽出する。ここでは、意味ラベル付与及び述部抽出を統計的な手法で行う場合について説明する。図2に示すような機能表現意味ラベル辞書28をもとに人手で正解の意味ラベルを付与したコーパスから、述部の範囲及び意味ラベルの並びの尤もらしさを学習して、自動で付与する。また、機能表現意味ラベル辞書28に登録されていない機能表現には「NULL」のラベルを付与する。
図5に、意味ラベルの付与及び述部の抽出結果の一例を示す。この例では、BIタグというものを使用し、述部の内容語であって、内容語の先頭の単語には「C,B−PRED」のラベルを付与し、また、述部の内容語であって、内容語の先頭以外の単語には、「C,I−PRED」のラベルを付与する。Cは内容語(Content words)の頭文字である。また、機能語(Function words)には「F」のラベルを付与し、それに加えて、機能表現単位で該当する意味ラベルを付与する。内容語と同様に、該当する機能語が、ある機能表現の先頭の単語だった場合は、「B−困難」のように、その機能語が含まれる機能表現に付与された意味ラベルの前に「B」を付け、先頭以外の単語だった場合は、「I−困難」のように意味ラベルの前に「I」を付ける。
また、非特許文献2で「保持しなくてはいけない」とされていた「Grammar」に属する機能語(助動詞の「だ」及び助詞の「の」)には、上記と同様に、機能語を示すラベル「F」、機能表現の先頭または先頭以外の単語を示す「B」または「I」のラベルと共に、「Grammar」のラベルを付与する。機能表現意味ラベル辞書28に登録されていない単語、及び「Grammar」に属する単語以外の単語には、上記と同様に、機能語を示すラベル「F」、機能表現の先頭または先頭以外の単語を示す「B」または「I」のラベルと共に、「NULL」のラベルを付与する。
述部は、1個以上の内容語(C)及び0個以上の機能語(F)の連続から成り立っているため、ここでは「使いづらいですよぉ」が述部として抽出される。この述部は、「使う」を内容語とし、「づらい/です/よ/ぉ」という4つの機能表現をもつ。
不要機能表現削除部26は、「時制の差異」、「否定の差異」、「モダリティの差異」の3つの指標のいずれにも属さず、かつ文法的に必要な表現(「Grammar」の意味ラベルが付与された機能表現)にも属さない機能表現を削除し、単純な述部を生成する。上記の例の場合、図6に示すように、「感嘆」の意味ラベルをもつ「よ」、及び「NULL」の意味ラベルをもつ「ぉ」が削除され、「使い/づらい/です」という表現のみが残る。必要に応じて、各要素を正しい形に活用させ、単純化された述部「使いづらいです(使う+困難)」を生成する。
上記の形態素解析部22、意味ラベル付与・述部抽出部24、及び不要機能表現削除部26の各部の処理により、入力文「結構使いづらいですよぉ」に対して、述部正規化部20の出力として正規化述部「使いづらいです」が出力される。上記の処理を、各文書の全ての文(テキストデータ)に対して行う。
偏り述部粒度選択部30は、抽出する偏り述部の粒度を選択し、選択した粒度に従った正規化述部を抽出する。粒度として「内容語+意味ラベル」が選択された場合には、述部正規化部20から出力された正規化述部の内容語の標準形と機能表現の意味ラベルとの組み合わせを抽出する。例えば、正規化述部が「使いづらいです」の場合、「使う+困難」が選択された粒度に従った正規化述部として抽出される。また、粒度として「表層述部」が選択された場合には、正規化述部の表記を抽出する。例えば、正規化述部が「使いづらいです」の場合、「使いづらいです」が選択された粒度に従った正規化述部として抽出される。
粒度の選択は、図示しない入力装置等からユーザにより設定された情報を用いて行う。例えば、「使うかもしれない」と「使うらしい」という2つの述部があった場合、「かもしれない」も「らしい」も両方とも「推量」の意味ラベルが付与されるため、粒度を「内容語+意味ラベル」に設定した場合、「使うかもしれない」と「使うらしい」とが同じものとしてまとめ上げてカウントされる。一方、表現の「確信度」の違いを区別したい場合、「使うかもしれない」と「使うらしい」の確信度には異なりがある(「かもしれない」の方が確信度が低く、「らしい」の方が確信度が高い)。これらを区別することが必要な場合は、粒度を「表層述部」に設定する。
偏り述部抽出部(内容語+意味ラベル)40aは、ある特定の文書集合に偏って出現する述部を抽出するための「偏り述部抽出」を行う。ここでは、特定の述部が出現した文書の数を表すDF(Document Frequency)を用いて偏り述部を抽出する。偏りの抽出指標は、他に述部そのものの出現頻度であるTF(Term Frequency)などを用いてもよい。
偏り述部抽出部(内容語+意味ラベル)40aの入力は、偏り述部粒度選択部30で抽出された粒度「内容語+意味ラベル」の正規化述部を保持した2つの異なる文書集合である。上記の[商品A]と[商品B]とに対する口コミ文書集合を例に説明する。なお、以下では、商品Aに対する口コミ文書集合を「文書集合A」、商品Bに対する口コミ文書集合を「文書集合B」といい、文書集合Aを偏り述部抽出対象の文書集合、文書集合Bを比較対象の文書集合とする。また、ここでは、文書集合A及び文書集合Bは、それぞれ200件の文書を含み、また一行一文書として計算する。文書の単位は任意であるため、一文書に複数の正規化述部が現れる場合もある。
図7に示すように、偏り述部抽出部(内容語+意味ラベル)40aは、頻度計算部42aと、偏り検定部44aと、抽出部46aとを含んだ構成で表すことができる。
頻度計算部42aに入力される文書集合A及び文書集合Bは、図8に示すような粒度「内容語+意味ラベル」の正規化述部を保持している。頻度計算部42aでは、これらの正規化述部を対象に、各述部がどれだけの文書に出現したか(DF)を計算する。各述部に対してDFを計算した結果を図9に示す。
偏り検定部44aは、その述部が特定の文書集合に偏って出現しているか否かを計算する。ここでは、「使う+困難」という述部が文書集合Aに偏って出現しているか否かを検定する場合を例に説明する。本実施の形態では、χ検定を用い、偏っているか否かを判断するための有意水準を、p<0.01とする。χ検定の場合、χ値が6.635以上を取るとp<0.01となり、「その述部は対象の文書集合に偏っている」とみなせる。すなわち、その述部を偏り述部として認定することができる。なお、述部が偏っているか否かの判定には、他の検定方法や有意水準を用いてもよい。χ値は、下記(1)式に従って計算する。
ここで、nは、頻度計算部42で計算された抽出対象の文書集合(ここでは文書集合A)におけるその述部のDF、Eは、「本来その述部が偏っていない場合における抽出対象の文書集合での述部のDF」を示す期待値である。
例えば、文書集合Aでは、「使う+困難」という述部のDFは170(すなわち、n=170)である。一方、文書集合Bでは、「使う+困難」という述部のDFは10である。文書集合A及び文書集合Bはそれぞれ200文書ずつを含んでいるため(すなわち、文書集合に含まれる文書数の比は1対1)、もし仮に、「使う+困難」という述部が各文書集合に均等に出現する場合、文書集合A及び文書集合Bを合わせて180文書に登場した「使う+困難」という述部が、各文書集合に等分に出現することとなる。すなわち、文書集合Aに含まれる90文書、文書集合Bに含まれる90文書に出現することになる(すなわち、E=90)。これらの値を用いて(1)式により「使う+困難」という述部についてのχ値を計算すると、71.1となる。
抽出部46aは、偏り検定部44aで計算されたχ値が閾値(本実施の形態の場合は6.635)以上か否かを判定し、χ値が閾値以上となる述部を「その文書集合に偏っている述部」とみなして抽出する。文書集合Aにおいて、「使う+困難」という述部のχ値は71.1で閾値よりも高い。そのため、「使う+困難」という述部表現が文書集合Aの偏り述部として出力される。
偏り述部抽出部(表層述部)40bは、偏り述部抽出部(内容語+意味ラベル)40aと同様に、ある特定の文書集合に偏って出現する述部を抽出するための「偏り述部抽出」を行う。偏り述部抽出部(表層述部)40bの入力は、偏り述部粒度選択部30で抽出された粒度「表層述部」の正規化述部を保持した2つの異なる文書集合である。ここでは、[商品C]と[商品D]とに対する口コミ文書集合を例に説明する。なお、以下では、商品Cに対する口コミ文書集合を「文書集合C」、商品Dに対する口コミ文書集合を「文書集合D」という。
偏り述部抽出部(表層述部)40bは、偏り述部抽出部(内容語+意味ラベル)40aと同様に、頻度計算部42bと、偏り検定部44bと、抽出部46bとを含んだ構成で表すことができる(図7)。
頻度計算部42bに入力される文書集合C及び文書集合Dは、図10に示すような粒度「表層述部」の正規化述部を保持している。頻度計算部42では、これらの正規化述部を対象に、各述部がどれだけの文書に出現したか(DF)を計算する。各述部に対してDFを計算した結果を図11に示す。
偏り検定部44bは、頻度計算部42bで計算された粒度「表層述部」の正規化述部のDFを用いて、その述部が特定の文書集合に偏って出現しているか否かを計算する。ここでは、「売れるに違いない」という述部が文書集合Cに偏って出現しているか否かと、「売れるかも知れない」が文書集合Dに偏って出現しているか否かと検定する場合を例に説明する。偏り検定部44bでは、偏り検定部44aと同様、χ検定を行う。「売れるに違いない」は文書集合Cでは、150文書に出現し(n=150)、文書集合Dでは、10文書に出現した(E=80)。そのため、χ値は、61.25である。一方、「売れるかも知れない」は、文書集合Cでは20文書に出現し、文書集合Dでは160文書に出現した(n=160,E=90)。そのため、χ値は54.44である。
抽出部46bは、偏り検定部44bで計算されたχ値が閾値(本実施の形態の場合は6.635)以上か否かを判定し、χ値が閾値以上となる述部を「その文書集合に偏っている述部」とみなして抽出する。文書集合Cにおいて、表層述部「売れるに違いない」という述部のχ値は61.25で閾値よりも高い。そのため、「売れるに違いない」という述部表現が文書集合Cの偏り述部として出力される。また、表層述部「売れるかも知れない」という述部のχ値は54.44と閾値より高い。そのため、「売れるかも知れない」という述部表現が文書集合Dの偏り述部として出力される。
このように、偏り述部粒度選択部30において、表層述部を選択した場合、「売れるかも知れない」と「売れるに違いない」のような、意味ラベル上では「推量」と同じカテゴリに属する表現であっても、表層述部を見ると、推量表現の「確信度」が異なるような述部の区別をつけた偏り述部の抽出が可能となる。
次に、図12を参照して、本実施の形態の偏り述部抽出装置における偏り述部抽出処理ルーチンについて説明する。
ステップ100で、偏り述部の抽出対象の文書集合と、比較対象の文書集合とを取得する。
次に、ステップ102で、上記ステップ100で取得した各文書集合に含まれる各文書(各テキストデータ)に対して形態素解析を行い、文を単語単位に分割し、各単語に品詞や活用型、活用形などの情報を付与する。
次に、ステップ104で、上記ステップ102の形態素解析結果に対して、機能表現意味ラベル辞書28に基づいて、各機能表現に意味ラベルを付与すると共に、述部を抽出する。
次に、ステップ106で、上記ステップ104で付与された意味ラベルを参照して、不要な機能表現を削除する。ステップ102〜106の処理により、各文書の述部が正規化される。
次に、ステップ108で、抽出する偏り述部の粒度を選択し、選択した粒度に従った正規化述部を抽出する。粒度として「内容語+意味ラベル」が選択された場合には、上記ステップ102〜106で正規化された正規化述部の内容語の標準形と機能表現の意味ラベルとの組み合わせを抽出する。また、粒度として「表層述部」が選択された場合には、正規化述部の表記を抽出する。
次に、ステップ110で、上記ステップ108で抽出された正規化述部を対象に、各述部がどれだけの文書に出現したか、すなわちDFを計算する。
次に、ステップ112で、上記ステップ110で計算された各述部のDFを用いて、各述部が抽出対象の文書集合に偏って出現しているか否かを検定するためのχ値を計算する。
次に、ステップ114で、上記ステップ112で計算されたχ値が予め定めた閾値≧か否かを判定する。χ値≧閾値の場合には、ステップ116へ移行して、その述部を偏り述部として抽出する。χ値<閾値の場合には、その述部を偏り述部として抽出しない。上記ステップ108で抽出された述部の全てについて、χ値による検定が終了した場合には、ステップ118へ移行し、上記ステップ116で抽出された偏り述部を出力して、処理を終了する。
ここで、本実施の形態の有効性を説明するために、同様の偏り述部抽出を、内容語一語のみを用いて行った場合、及び述部の表層形のみを用いて行った場合の実施例を示す。
以下に、「使う」という内容語のみを使用した場合の実施例を示す。内容語のみを用いるので、意味ラベル付与・述部抽出部24において、「C」のラベルが付与された単語のみを用いる。形態素解析等の処理は本実施の形態と同じであるため、ここでは、偏り抽出のみを説明する。
出現した内容語毎にDFを計算する。本実施例では、1文書1行としているため、図9に示したDFの値のうち、内容語の「使う」が一緒の正規化述部が統合され、内容語毎のDFは図13のようになる。図13の場合、「使う」に対するχ値は、0.56である。これは、閾値の6.635以下であるために、「使う」という述部は偏り述部として抽出されない。
次に、述部の表層形のみを用いた場合の偏り抽出の実施例を示す。表層形のみを用いるので、意味ラベル付与・述部抽出部24において「C」及び「F」のラベルが付与された範囲を述部として取り出す。不要機能表現削除部26による不要機能表現の削除は行わない。形態素解析等の処理は本実施の形態と同じであるため、ここでは、偏り抽出のみを説明する。
出現した表層形毎に、DFを計算した例を図14に示す。図14の場合、「使いづらいですよぉ」に対するχ値は1.5である。これは、閾値の6.635以下であるために、「使いづらいですよぉ」という述部は文書集合Aの偏り述部として抽出されない。
以上のように、述部の内容語のみを用いた場合や、述部の表層形をそのまま用いた場合、文書集合Aから「使いづらい」という表現を抽出することができない。
以上説明したように、本実施の形態の偏り述部抽出装置によれば、特定の文書集合に偏っている述部表現を抽出する偏り述部抽出において、述部を単純に言い換えた正規化述部を用いて偏り述部抽出を行うことで、従来の単語一語だけの抽出では不可能であった、意味が異なる述部を正しく識別しつつ偏り述部を抽出することができる。結果、特定の文書に特徴的に現れる表現を自動で抽出するテキストマイニング技術の精度を上げることができる。
また、内容語と複数の機能表現との組み合わせで構成されている述部を単純に言い換える正規化を用いて偏り述部を抽出することで、述部の表層そのものを用いることではうまく偏りを発見することができない述部表現に対しても、述部を抽出することができるようになる。結果、より正確に特定の文書集合に偏っている述部を抽出することができる。
また、偏り述部抽出を行う対象を「内容語+意味ラベル」または正規化後の「表層述部」で選択することによって、偏り述部抽出の粒度を選択できる。結果、分析の目的によって適切な偏り述部抽出を行うことができる。
なお、本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
また、本願明細書中において、プログラムが予めインストールされている実施の形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 偏り述部抽出装置
20 述部正規化部
22 形態素解析部
24 意味ラベル付与・述部抽出部
26 不要機能表現削除部
28 機能表現意味ラベル辞書
30 偏り述部粒度選択部
40a 偏り述部抽出部(内容語+意味ラベル)
40b 偏り述部抽出部(表層述部)
42a、42b 頻度計算部
44a、44b 偏り検定部
46a、46b 抽出部

Claims (5)

  1. 複数の文書集合に含まれる複数の文書各々を形態素解析した解析結果に基づいて、前記文書各々の述部を抽出すると共に、該述部に含まれる機能表現に該機能表現が表す意味を示すラベルを付与し、該ラベルに基づいて、前記述部が表す出来事の意味に影響を与える機能表現以外を削除することにより、前記文書各々の述部を正規化する述部正規化手段と、
    前記形態素解析の解析結果及び前記ラベルに基づく粒度に従った、前記述部正規化手段により正規化された述部の出現頻度、または前記正規化された述部が出現する文書の数に基づいて、前記複数の文書集合のいずれかの文書集合に偏って出現する偏り述部を抽出する抽出手段と、
    を含む偏り述部抽出装置。
  2. 前記粒度として、前記正規化された述部の内容語と前記ラベルとの組み合わせを用いるか、または、前記正規化された述部の表層形を用いるかを選択する選択手段を含む請求項1記載の偏り述部抽出装置。
  3. 述部正規化手段と、抽出手段とを含む偏り述部抽出装置における述部抽出方法であって、
    前記述部正規化手段は、複数の文書集合に含まれる複数の文書各々を形態素解析した解析結果に基づいて、前記文書各々の述部を抽出すると共に、該述部に含まれる機能表現に該機能表現が表す意味を示すラベルを付与し、該ラベルに基づいて、前記述部が表す出来事の意味に影響を与える機能表現以外を削除することにより、前記文書各々の述部を正規化し、
    前記抽出手段は、前記形態素解析の解析結果及び前記ラベルに基づく粒度に従った、前記述部正規化手段により正規化された述部の出現頻度、または前記正規化された述部が出現する文書の数に基づいて、前記複数の文書集合のいずれかの文書集合に偏って出現する偏り述部を抽出する
    述部抽出方法。
  4. 選択手段を更に含む偏り述部抽出装置における述部抽出方法であって、
    前記選択手段は、前記粒度として、前記正規化された述部の内容語と前記ラベルとの組み合わせを用いるか、または、前記正規化された述部の表層形を用いるかを選択する
    請求項3記載の述部抽出方法。
  5. コンピュータを、請求項1または請求項2記載の偏り述部抽出装置を構成する各手段として機能させるための述部抽出プログラム。
JP2012033242A 2012-02-17 2012-02-17 偏り述部抽出装置、方法、及びプログラム Active JP5646522B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012033242A JP5646522B2 (ja) 2012-02-17 2012-02-17 偏り述部抽出装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012033242A JP5646522B2 (ja) 2012-02-17 2012-02-17 偏り述部抽出装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2013171328A true JP2013171328A (ja) 2013-09-02
JP5646522B2 JP5646522B2 (ja) 2014-12-24

Family

ID=49265238

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012033242A Active JP5646522B2 (ja) 2012-02-17 2012-02-17 偏り述部抽出装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5646522B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023144925A1 (ja) * 2022-01-26 2023-08-03 三菱電機株式会社 学習装置、推定装置、学習方法、推定方法、学習プログラム、及び推定プログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004030177A (ja) * 2002-06-25 2004-01-29 Nec Corp テキスト分析システム、テキスト分析方法、および、テキスト分析プログラム
JP2007241635A (ja) * 2006-03-08 2007-09-20 Nec Corp 文書検索装置、情報処理装置、検索結果出力方法、検索結果表示方法およびプログラム
JP2010056682A (ja) * 2008-08-26 2010-03-11 National Institute Of Information & Communication Technology 電子メール受信装置及び電子メール受信方法、電子メール送信装置及び電子メール送信方法、メール送信サーバ
JP2011145844A (ja) * 2010-01-14 2011-07-28 Nippon Telegr & Teleph Corp <Ntt> 述部機能表現正規化方法、その装置及びプログラム
JP2011164678A (ja) * 2010-02-04 2011-08-25 Nippon Telegr & Teleph Corp <Ntt> 機能表現補完装置、方法及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004030177A (ja) * 2002-06-25 2004-01-29 Nec Corp テキスト分析システム、テキスト分析方法、および、テキスト分析プログラム
JP2007241635A (ja) * 2006-03-08 2007-09-20 Nec Corp 文書検索装置、情報処理装置、検索結果出力方法、検索結果表示方法およびプログラム
JP2010056682A (ja) * 2008-08-26 2010-03-11 National Institute Of Information & Communication Technology 電子メール受信装置及び電子メール受信方法、電子メール送信装置及び電子メール送信方法、メール送信サーバ
JP2011145844A (ja) * 2010-01-14 2011-07-28 Nippon Telegr & Teleph Corp <Ntt> 述部機能表現正規化方法、その装置及びプログラム
JP2011164678A (ja) * 2010-02-04 2011-08-25 Nippon Telegr & Teleph Corp <Ntt> 機能表現補完装置、方法及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSND200900479003; 杉本 昭彦 外1名: '指標編 単なる件数把握からの脱却を目指し成果検証に役立つ新指標の開発進む' 日経ネットマーケティング 第20号, 20090525, P.14〜15, 日経BP社 *
JPN6013063868; 杉本 昭彦 外1名: '指標編 単なる件数把握からの脱却を目指し成果検証に役立つ新指標の開発進む' 日経ネットマーケティング 第20号, 20090525, P.14〜15, 日経BP社 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023144925A1 (ja) * 2022-01-26 2023-08-03 三菱電機株式会社 学習装置、推定装置、学習方法、推定方法、学習プログラム、及び推定プログラム

Also Published As

Publication number Publication date
JP5646522B2 (ja) 2014-12-24

Similar Documents

Publication Publication Date Title
CN107644011B (zh) 用于细粒度医疗实体提取的系统和方法
Stamatatos et al. Clustering by authorship within and across documents
Kaur et al. Sentiment analysis approach based on N-gram and KNN classifier
JP5389273B1 (ja) 文脈解析装置および文脈解析方法
US11755841B2 (en) Method for updating a knowledge base of a sentiment analysis system
WO2017137859A1 (en) Systems and methods for language feature generation over multi-layered word representation
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
US11429790B2 (en) Automated detection of personal information in free text
Kawahara et al. Rapid development of a corpus with discourse annotations using two-stage crowdsourcing
US11386270B2 (en) Automatically identifying multi-word expressions
CN107077640B (zh) 经由经验归属来分析、资格化和摄取非结构化数据源的系统和处理
Swanson et al. Extracting the native language signal for second language acquisition
Solovyev et al. Dictionary-based problem phrase extraction from user reviews
US10528660B2 (en) Leveraging word patterns in the language of popular influencers to predict popular trends
CN108021595B (zh) 检验知识库三元组的方法及装置
US20200387668A1 (en) Text analysis method, non-transitory computer-readable recording medium for storing text analysis program, and text analysis system
Putri et al. Software feature extraction using infrequent feature extraction
JP5646522B2 (ja) 偏り述部抽出装置、方法、及びプログラム
Bobicev et al. Can anonymous posters on medical forums be reidentified?
Tungthamthiti et al. Sentiment analyzer with rich features for ironic and sarcastic tweets
Gutiérrez et al. Sentiment groups as features of a classification model using a spanish sentiment lexicon: A hybrid approach
Alsudais et al. Corpus periodization framework to periodize a temporally ordered text corpus
Jayathilaka et al. Making sense of large volumes of unstructured email responses
CN114492409B (zh) 文件内容的评价方法、装置、电子设备及程序产品
Puspitasari et al. Identify Fake Author in Indonesia Crime Cases: A Forensic Authorsip Analysis Using N-gram and Stylometric Features

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140107

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140305

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141007

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141105

R150 Certificate of patent or registration of utility model

Ref document number: 5646522

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150