JP2006113746A

JP2006113746A - 文書分類装置、方法、プログラム

Info

Publication number: JP2006113746A
Application number: JP2004299229A
Authority: JP
Inventors: Hiromi Oda; 弘美小田
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2004-10-13
Filing date: 2004-10-13
Publication date: 2006-04-27
Anticipated expiration: 2024-10-13
Also published as: EP1650680A3; JP4713870B2; EP1650680B1; EP1650680A2; US20060112040A1; KR20060052194A; DE602005018429D1

Abstract

【課題】
様々な商品や物事についての意見を含んだ文書を、二つのカテゴリーに大別する場合に従来技術では、分野を狭く限定し、データを新聞記事等の文章に固定し、特定の表現や判定のためのルールを抽出することによって文書の分類および、意味的情報の判定を行っている。従って、一つの分野・領域で抽出したルールを他の分野に適用することは困難であり、期待した精度での分類は出来ないと考えられる。
【解決手段】
本願発明では、文書を肯定的内容・否定的内容のカテゴリーに分類する事例を用い、基本的表現リストに加え、非自立的要素のＮグラムによって否定・肯定の含意を含む連語を利用することにより、様々の分野・領域における意見を含む文書について特定の分野・領域に限定せず、広い分野・領域に適用可能な方法等を提案する。
【選択図】図３

Description

本願発明は、様々な商品や物事についての意見を含んだ文書を、二つの相反するカテゴリーに大別する方法、装置、プログラムに関する。相反するカテゴリーへの分類の典型的なものとして、文書を肯定的、否定的内容へ分類する事例を用いて説明する。
様々な商品や物事についての意見を含んだ文書群が大量に存在している場合に、先ずそれらに含まれる意見がおおまかに肯定的な意見を含むものか、あるいは、否定的な意見を含むものかという情報を抽出することは重要である。その後さらに詳細の処理を行う場合にも、前処理として大別することは非常に有効である。
従来技術では、分類対象となる文書を特定の分野に絞りそれなりの精度を得ているが、本発明ではどのような文書にも必ずあらわれるような表現と非自立要素に着目することにより、広い分野の文書に適用できる文書分類装置、方法、プログラムを提案する。
本願明細書では、商品の購入後のユーザの意見が書き込まれている書き込みサイトの情報を大別する場合を例にとって説明するが、本願発明の権利範囲はこれに限られるものではない。

様々な商品や物事についての意見を含んだ文書を、二つのカテゴリーに大別する方法に次のようなものが知られている。

(１）表現辞書などを準備したパターンマッチング
表現辞書などを準備したパターンマッチングによって書き手の意図を抽出するための方法がいくつか提案されている。意図抽出表現をあらかじめ準備しておき、表現が含まれているかどうかといった情報から重み付け等を行い、判定を行う。特許文献１、特許文献２、非特許文献１、非特許文献７を参照。

(２）パターンテンプレートを用いた方法
文書から必要な情報を取得するためにテンプレートを用いる方法がある。井上ら(1997)は特定の製品についての情報を含む記事であるかどうかといった判定をするテンプレートを提案している。この方法を応用してある文書に特定のパターンにマッチする情報があるかどうかという判定をすることができる。この方法は文書を２つのカテゴリーに分類する目的にも応用可能である。
非特許文献２、非特許文献３を参照。

(３）決定木などのルールを用いた方法
Arnowら(1994)などに見られる決定木を用いた方法。ある症例に当てはまる記述かどうかを判定するシステムの提案において、上述の「表現辞書などを準備したパターンマッチング」の方法に加え、その確率を計算するために決定木を用いる。Arnowら(1994)は、このよう方法によって約８０％の精度を報告している。非特許文献４、非特許文献５を参照。

特開2003-157271 テキストマイニング装置および方法特開2003-271616 文書分類装置、文書分類方法及び記録媒体乾、松本(2004)「出来事の望ましさ判定を目的とした語彙知識獲得」言語処理学会第１０回年次大会発表論文集pp. 91-94, 井出裕二、永井秀利、中村貞吾、野村浩郷「単一項目テンプレートによる新聞記事からの製品情報抽出」情報処理学会研究報告、Vol.97、No.109、1997 藤吉誠、井出裕二、永井秀利、中村貞吾、野村浩郷「情報抽出処理のためのテンプレート作成」平成8年度電気関係学会九州支部連合大会論文集、No.1332、p694, 1996 Aronow, Soderland, & Feng, 1994. Automated Classification of Encounter Notes In A Computer Based Medical Record, unpublished (http://citeseer.ist.psu.edu/aronow94automated.html) Kantor, Lee, Ng & Zhao, 1996. Application of Logical Analysis of Data to the TREC6 Routing Task. Text {REtrieval} Conference Proceedings, 611-617, 1997. Dumais, S. T., Furnas, G. W., Landauer, T. K., & Deerwester, S. (1988). Using latent semantic analysis to improve information retrieval. In CHI'88: Conference on Human Factors in Computing, (pp. 281-285). New York: ACM P.D. Turney, 2002, Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Philadelphia, Pennsylvania, U.S.A. (pp.417-424).

以上のように従来技術では、どの方法においても、文書分類の対象となる文書の分野を狭く限定し、データを新聞記事等の文章に固定し、特定の表現や判定のためのルールを抽出することによって文書の分類および、意味的情報の判定を行っている。従って、一つの分野・領域で抽出したルールを他の分野に適用することは困難であり、期待した精度での分類は出来ないと考えられる。
本願発明では、「基本表現リスト」に加え、「−[と][も]−(言える）、−[か][も]−[ない]」等、非自立的要素のＮグラムによって否定、肯定の含意を含む連語を利用することにより、様々の分野・領域における意見を含む文書について特定の分野・領域に限定せず、広い分野・領域に適用可能な方法等を提案する。

本願発明は、様々な商品や物事についての意見を含んだ文書を、二つのグループに大別する方法、装置に関するが、以下の説明では、商品や物品についての意見を含んでいる文書が肯定的内容を持つか、否定的内容を持つかを判断する方法等について説明する。

本願発明では、以下の(ａ）及び(ｂ)の手段を有し、入力文書を２つのカテゴリーに分類する装置、方法を開示する、
(ａ）入力文書から、所定の非自立的要素を含む連語の発生頻度をもとに、文書素性ベクトルを作成する手段、
(ｂ）文書素性ベクトルを用いた判別式により入力文書を分類する手段。
さらに、所定の非自立的要素を含む連語は、間に一つ以上の語を含むスキップＮグラムであっても良い。

文書素性ベクトルを作成する手段は、さらに、統計的手法により所定の非自立的要素を含む連語の数を少なくする手段を有することが出来る。
文書素性ベクトルを作成する手段は、さらに、特異値分解手法を用いて、文書素性ベクトルの次元を圧縮する手段を有することが出来る。
入力文書を分類する手段は、さらに、訓練文書を用いた機械学習によって修正される手段を有することが出来る。
さらに、文書素性ベクトルは、入力文書から、所定の肯定的含意表現及び否定的含意表現の発生頻度をもとに得られる値を含むことが出来る。

本願発明では、コンピュータを制御して、以下の(ａ）から(ｂ）の手段を動作させ、入力文書を２つのカテゴリーに分類する文書分類プログラムも開示する、
(ａ）入力文書から、所定の非自立的要素を含む連語の発生頻度をもとに、文書素性ベクトルを作成する手段、
(ｂ）文書素性ベクトルを用いた判別式により入力文書を分類する手段。
さらに、文書素性ベクトルを作成する手段は、さらに、特異値分解手法を用いて、前記文書素性ベクトルの次元を圧縮する手段を有することが出来る。
入力文書を分類する手段は、さらに、訓練文書を用いた機械学習によって修正される手段を有することが出来る。
文書素性ベクトルは、入力文書から、所定の肯定的含意表現及び否定的含意表現の発生頻度をもとに得られる値を含むことが出来る。

(１）様々な商品や物事についての意見を含んだ文書群が大量に存在している場合に、それらに含まれる意見がおおまかに肯定的な意見を含むものか、否定的な意見を含むものかという情報を抽出することが出来る。

(２）直接的には、ある商品について消費者が寄せるコメントが大量にある場合に、そのおおまかな傾向をつかむことが容易となり、アンケート調査の情報を補完する用途に用いることが出来る。また、電子掲示板などの運営において、極度に否定的なコメント等はそのコミュニティを誤った方向に導いたり、全体の雰囲気を損なったりすることがある。そのような投稿にフラッグをつけ、管理者に警告を発することによって、大量の投稿のある電子掲示板の管理者が効率的に運営することを助ける用途に用いることも出来る。

(３）間接的には、このような分類装置を前処理に用いることによって、肯定的文脈、否定的文脈という意味的な情報を付加することが可能となる。例えば、価値判断を含む多数の文書をクラスタリングによってトピックに分類しようという場合、肯定的、否定的傾向の文書に大まかに分けた後にクラスタリングを行うことによってより精度の高いトピック分類が可能となると期待される。また、フレームネット等の枠組みを用いて、文章の意味構造を解析しようという場合、「賞賛」「非難」等の意味フレームの選択において、肯定、否定的文脈のどちらの可能性が高いかという情報があれば、その選択の精度を上げる補助となることが予想される。このように文書を肯定的傾向の文書、否定的傾向の文書といった分類をすることによって、いろいろな処理が容易となることが期待される。
特定の分野に絞れば高い精度を得ることもできるが、本発明ではどのような文書にも必ずあらわれるような表現と非自立要素に着目することにより、広い分野の文書に適用出来る方法を提案する。

以下に最良の形態を説明する。

図１は、本願発明を実施する装置を示している。筐体１００の中には、記憶部１１０、メインメモリー１２０、出力部１３０、中央制御部(ＣＰＵ）１４０、操作部１５０、入力部１６０が含まれている。使用者が操作部１５０から必要な情報を入力する。中央制御部１４０は記憶部１１０に記憶されている情報を読み出し入力された情報をに基づいて、入力部１６０から入力される文書の分類を行い、出力部１３０に結果を出力する。

図２は、本願発明のブロック図を示している。２１０は文書入力部、２２０は基本表現リスト作成部、２２５は基本表現リスト格納部、２３０は基本表現比率計算部、２４０は連語リスト作成部、２４５は連語リスト格納部、２５０は入力文書全素性(ソセイ）ベクトル作成部、２５５は訓練文書全素性ベクトル作成部、２５７はベクトル圧縮用部分行列作成部、２６０は入力文書全素性ベクトル圧縮部、２７０は判別式作成部、２７５は判別式格納部、２８０は入力文書分類部、２９０は分類文書出力部を示す。以下、これらの詳細について説明する。

(１）文書入力部(ブロック２１０）
ここには、分類すべき文書が入力される。
(２）基本表現リスト作成部(ブロック２２０）
ブロック２２０では、一般の文書の表現から基本表現リストを作成する。基本表現リストには、それぞれのカテゴリーへの含意を持つ語彙、表現を記載する。語彙、表現の中には、特定のカテゴリーへの意味的偏向を示すものがある。肯定的、否定的内容という２つのカテゴリーの場合で考えれば、「豪華、はなやか」、「、、ふんわり、なめらか」、あるいは「始まって以来の、、」等の表現には肯定的内容への偏りがあり「いま一つ、もの足りない」、「、、はいかがなものか」あるいは「残念ながら、、、」等の表現には否定的内容への意味的偏りが感じられる。この意味的偏りを一般的に含意と呼び、ここでは肯定的含意、否定的含意という用語を用いる。このような肯定的、否定的含意を持つ表現を選択し、肯定表現リスト、否定表現リストを作り基本表現リストとする。
(３）基本表現リスト格納部(ブロック２２５）
ブロック２２５には、ブロック２２０で選択された基本表現リストを格納する。

(４）基本表現比率計算部(２３０）
ここでは、分類すべき入力文書から、ブロック２２０に格納されている基本表現リストを用いて、肯定表現比率、及び、否定表現比率を算出する。肯定表現比率、及び、否定表現比率は次のように定義する。
(式１）肯定表現比率＝
当該文書における肯定表現の総数／当該文書における自立語の数
(式２）否定表現比率＝
当該文書における否定表現の総数／当該文書における自立語の数
ここで、自立語とは、ある観念を表し、文中で単独でも文節を構成することのできる語を言う。名詞、代名詞、動詞、形容詞、形容動詞、連体詞、副詞、接続詞、感動詞の類を言う。
これらの肯定表現比率、否定表現比率をそれぞれの「文書素性ベクトル」(後述）の成分の一部とすることが出来る。

(５）連語リスト作成部(ブロック２４０）
ブロック２４０では連語リストを作成する。以下に連語リストについて説明する。
(ａ）連語素性
「非自立的要素」の「連語」を定義し、入力文書から候補のパターンの発生頻度を抽出する。多数の候補が抽出される場合には、統計的方法によって文書分類に有効なパターンを選び出し「連語素性」とする。ここで、「非自立的要素」とは、言語の構成要素の中で、独自には出現せず、必ず他の要素について補助的な役割を果たすもので、品詞名としては、格助詞、終助詞、助動詞、接頭辞、接尾辞などが含まれる。これらの要素は直接的には、肯定的であるか否定的であるかを明確には示さないが、他の言葉との関連で、肯定的であるか否定的であるかが判断される場合がある。

「連語」とは、非自立要素の連鎖と定義する。一定のパターンで生じる言語要素が通常より強い結びつきを持ち、特定の意味を持ったり、機能を果たしたりするものである。連続した要素だけでなく、間隔の空いた要素を許し、一つおき、二つおきといった要素によるパターンを連語の候補とする。一定のパターンで生じる言語要素が通常より強い結びつきを持ち、特定の意味を持ったり、機能を果たしたりするものである。熟語などはその結びつきが非常に強い連語の例と考えることができる。

(ｂ）具体例
以下、具体的な例で説明する。
先ず、日本語の例として次の表現を取り上げる。
(イ）「それは良い提案である。」
(ロ）「それは良い提案ではある。」
(イ）と(ロ）を比較すると、「で」が「では」に変わっただけで、発言の持つ含意全体が否定的な方向に大きく変わる。「は」だけではそのような否定的含意があるとは考えられないので、[で][は]という連鎖を形成することによってそのような含意が発生した、と考えられる。

同様に、英語の例として次の表現を取り上げて説明する。
(ハ）"This is a killer application."
(ニ）"This could have been a killer application."
(ハ）と(ニ）の違いは「is」と「could have been」の違いだけであるが、(ニ）においては、話し手はその製品が「killer application」ではない、と考えているというニュアンスが伝わる。このように、英語においても、このような助動詞の連鎖の中に否定的含意がある、と考えられる。
このように、個々の非自立要素では発生しない含意が、他の要素とつながることによって発生する。このような肯定、否定を示唆する含意を持つ連語を検知することによって文書全体の肯定、否定への偏りを判定することを考える。
本発明では、例えば、「〜[と][も]〜(言える）、〜[か][も]〜[ない]」等、非自立的要素からなるゆるい連語を大量に検出することにより、文書分類を行う。

(ｃ）訓練文書からの連語素性の抽出肯定、否定の訓練文書の中のそれぞれの文書について次の操作を行う。ここで、「訓練文書」とは、予め内容を把握し肯定的な文書であるか、否定的な文書であるか、その分類が既知の文書のことを言う。Ｎグラムとは、連続した１以上の語であって、一語の場合はユニグラム(Uni-gram）、二語の場合はバイグラム(Bi-gram）, 三語の場合はトライグラム(Tri-gram）と呼ばれる。本願明細書では、定まった間隔の不連続要素を検出するスキップ-Ｎグラム(skip N-gram）を用いる。具体的にはバイグラム(bi-gram）で１語、２語、３語の間隔を有するものを用いる。これを２−１グラム(2-1gram）、２−２グラム(2-2 gram）、２−３グラム(2-3 gram）と表記する。(イ）訓練文書にあらわれる非自立語要素のみを取り出し、一つながりの文字列とする。(ロ）2-1, 2-2, 2-3 グラムのＮ−グラムの連鎖をすべて抽出する。(ハ）これをソートし、訓練文書の連語素性とする。

(ｄ）統計処理
単純なＮ−グラム連語を素性とすると数千の単位の素性が得られるが、これでは文書の分類には適さない。そこで、訓練文書の肯定及び否定の文書を比較し、一方に有意に偏って出現する素性(Ｎ−グラム連語）を選択する(Z-test）。２つの文書集合にそれぞれのＮ−グラム連語の出現する比率を比較し、その統計テストをする比率の検定の方法を用いる。

ここで、比率の差の検定方法について説明する。今、ある用語Ｗが２つの文書集合d1, d2に共に表れたと考え、その頻度がw1, w2であったとする。文書集合d1に表れた用語の総数をn1, 文書d2のそれをn2とする。するとＷがそれぞれの文書集合に表れた割合は次のようになる。
(式３）p1= w1/n1,
(式４）p2= w2/n2
ここで、標本比率を実際のデータから得られた比率とすると、p1及びp2はを標本比率である。ここで、p1 > p2である場合に、これが有意であるかどうかを検定する、すなわち、用語Ｗはd1の文書の方に有意に偏って出現するかどうかを検定するということを意味する(片側検定）。

ここで、帰無仮説と対立仮説は次のようになる。
H0: pi1 = pi2 帰無仮説
H1: pi1 > pi2 片側検定における対立仮説
検定を行うために、まず実際には知られていない母比率pihat(式５）を標本比率から推定する。
(式５） pihat = (n1*p1 + n2*p2) / (n1 + n2)
ここからzを(式６）で計算する。
(式６） z = (p1-p2)/ sqrt(pihat*(1-pihat)*(1/n1+1/n2))
帰無仮説を棄却し、対立仮説を採用するには、５％の危険率において、z > 1.65でなくてはならないことになる。
このように、各連語について検定を行い、文書の中に現れるＮ−グラム連語であって、肯定的な文書に有意に出現するＮ−グラム連語、及び、否定的な文書に有意に出現するＮ−グラム連語をそれぞれ選択することが出来る。
(６）連語リスト格納部(ブロック２４５）
ブロック２４５には、ブロック２４０によって選択されたスキップＮ−グラム連語が格納される。本願実施例では、訓練文書から求められた約数百次元のスキップＮ−グラム連語が格納されている。

(７）入力文書全素性ベクトル作成部(ブロック２５０）分類すべき入力文書について、連語リスト格納部(２４５）に格納されているスキップＮ−グラム連語をもとに、当該連語の発生頻度を検出する。以下、本願明細書では、これを「非自立要素連語素性」もしくは、単に「連語素性」と呼ぶ。これにより各入力文書に対して、数百次元の素性値を求めることが出来る。選択された連語が当該文書に出現する回数を単一の素性の値とし、当該文書に出現する全ての素性を要素とする「入力文書全素性ベクトル」によって一つの文書を表現する。「入力文書全素性ベクトル」の成分として約数百次元の素性値が選択される。
(８）訓練文書全素性ベクトル作成部(ブロック２５５）
約数百次元の「入力文書全素性ベクトル」を圧縮するための準備を行う。そのために、訓練文書を用いて、(７）と同様に、連語リスト格納部(２４０）に格納されているスキップＮ−グラム連語をもとに、当該連語の発生頻度を検出し、「訓練文書全素性ベクトル」を作成する。

(９）ベクトル圧縮用部分行列作成部(ブロック２５７）
文書全素性ベクトルを圧縮するために特異値分解の手法を用いる。この方法によれば多数の素性によって表現され、さらにその素性の値に多くの０が含まれる場合でも、全体の特徴を最も良く表現するより低い次元のベクトルへと変換することが可能である。また、素性が単語である場合に、単語間の間接的共起関係を捉え得ることが知られている。

ここで、特異値分解の手法について説明する。
(m x n）の行列Ａについて、次のような３つの行列に分解することを特異値分解と呼ぶ。
(式７）Ａ = D x S x T'
Dは、(m x n）の行列、Ｓは、左上から右下の対角要素に特異値が大きい順に表れる (n x n）の行列をなし、また、Tは、(n x n）の行列である。ここで「T'」は行列「T」の転置行列を表す。DとＴはそれぞれの列が直交関係にある直交行列となる。ここで、Sの特異値を大きい方からr 個取り(r <= n)、(r x r）の行列 Srとし、Dから、(m x r）の部分行列を取り出し Dr とし、T'から、(r x n）の部分行列を取り出し、Tr'とすると、
(式８） A-hat = Dr x Sr x Tr'
となり、行列Ａのランクｒにおける近似行列A-hatが得られる。Dumais et.al.(1988)等のLaternt Semantic Indexingでは、元のＡの行列が、m個の文書、n個の用語に対応する情報を持った行列である場合に、Drは、r次元における文書の新しい配置を示し、またTrはr 次元における新しい用語の配置を示し、その重要な特徴を抽出した表示となっていると主張されている。また、Trの用語の表示においては、用語の間接的共起関係が反映される。

ここで、間接的共起関係について説明する。例として、D1〜D2の２個の文書における、ｔ１〜ｔ３の３個の用語の次のような分布を考える。
t1 t2 t3
D1 1 1
D2 1 1
のようにt1とt3が実際に共起する文書はなくても、t1, t2の共起と、t2, t3の共起する文書とが十分にあれば、その間にはt2を介した間接的な共起関係があると言える。Latent Semantic Indexingでは、このような場合にt1, t3の間の距離が近くなるような配置関係が抽出される。
結果として、この手法を用いれば、n次元の用語の表現が、r次元の表現に圧縮されたことになる。また、上述の間接的共起関係が反映されるという好ましい特徴も備えている。非特許文献６を参照。
本実施例では、(式８）を変形して(式９）を求める。
(式９）Dr = A-hat x Inv(Sr x Tr'）
ここで、Inv(Sr x Tr'）は(Sr x Tr'）の逆行列である。訓練文書から求められる(r x r）の部分行列 Sr、及び、(r x n)の部分行列Tr'から(Sr x Tr'）を求め、その逆行列Inv(Sr x Tr'）を求める。Inv(Sr x Tr'）がベクトル圧縮用部分行列である。
(１０）入力文書全素性ベクトル圧縮部(ブロック２６０）
非特許文献６によればA-hatは(m x n）の行列であり、m個の文書、n個の用語に対応する情報を持った行列に対応する。本実施例では、入力文書は1個ずつであると考えられるので、ｍ＝１として、A-hatは(１ x n）の行列と考えてよい。同様にDrは、(１ x r)の部分行列である考えてよい。よって本実施例では、A-hatは「入力文書全素性ベクトル」であり、Drは圧縮された「入力文書素性ベクトル」である。
ブロック２６０では、訓練文書から求められたベクトル圧縮用部分行列Inv(Sr x Tr'）、及び、入力文書から求められたA-hatを用いて、(式９）に従ってDrを求める。これにより、ｎ次元(本実施例では数百次元）の入力文書全素性ベクトル「A-hat」をｒ次元(本実施例では１５次元）まで圧縮した入力文書素性ベクトル「Dr」を求めることが出来る。

(１１）判別式作成部(ブロック２７０）
ブロック２７０では、入力文書を分類するための判別式を求める。本実施例では、判別式の精度を向上させるために、訓練文書を基に判別式の分類基準を学習する機械学習を行う。機械学習のための手法としてサポートベクトルマシンを用いる。すなわちサポートベクトルマシンに、あらかじめ２つのカテゴリに分類された訓練文書から求められた「文書素性ベクトル」を準備し、分類基準の学習を行わせる。V. Vapnikらによって開発されたサポートベクトルマシン(Support Vector machine) は、基本的に２クラスへの分類を行う高い汎化性能を持ち、本課題に適した学習方式である。サポートベクトルマシンは、判断基準となる超平面から判断基準とするデータポイント(＝サポートベクトル）までの距離(マージン）を最大にする、という方法によって、高速で安定した学習をすることで知られている。

(１２）判別式格納部(ブロック２７５）
ブロック２７５には、ブロック２７０により機械学習によって、分類精度を向上した判別式が格納される。
(１３）文書分類部(ブロック２８０）
ブロック２６０で圧縮された１５次元の連語素性、さらに必要に応じて、(式１）(式２）に従って求められた肯定表現比率、否定表現比率を加えて、１７次元の「入力文書素性ベクトル」を作成する。この入力文書素性ベクトルを用いて、ブロック２７５に格納されている判別式により、入力文書の分類を行う。
(１４）分類文書出力部(ブロック２９０）
分類された入力文書が、図1に示す出力部１３０から出力される。

図３に本願発明をに従い入力文書を分類する方法のアルゴリズムを示す。
１０：文書の入力
２０：基本表現比率の計算
３０：入力文書全素性ベクトルの作成
４０：入力文書全素性ベクトルの圧縮
５０：判別式による入力文書の分類
６０：分類文書の出力

以下に本アルゴリズムについて詳細を示す。
ステップ１０：文書入力
分類すべき文書を入力する。
ステップ２０：基本表現比率の計算
前述の(式１）及び(式２）に従って、肯定表現比率、否定表現比率を計算する。
ステップ３０：入力文書全素性ベクトルの作成
入力文書について、連語リスト格納部(２４０）に格納されているＮ−グラム連語をもとに、当該連語の発生頻度を検出する。

ステップ４０：入力文書全素性ベクトルの圧縮
入力文書に対する連語素性選択を行うと約数百次元の素性値が選択される。これを本願実施例では１５次元まで圧縮する。
ステップ５０：判別式による入力文書の分類
図２のブロック２６０で圧縮された１５次元の連語素性ベクトル値、さらに必要に応じて、肯定表現比率、否定表現比率を加えて、１７次元の連語素性ベクトル値を用いて、ブロック２７５に格納されている判別式により文書の分類を行う。
ステップ６０：分類文書の出力
分類結果を所定の出力装置に出力する。
本実施例では約83％の正解率で文書を肯定的傾向の文書、否定的内容の文書に分類することが出来た。

本発明を実施する装置を示す図である。本発明の好適実施例に関するブロック図である。本発明の好適実施例に関するフローチャートである。

符号の説明

１００：筐体
１１０：記憶部
１２０：メインメモリー
１３０：表示部
１４０：中央制御部(ＣＰＵ）
１５０：操作部
１６０：入力部

Claims

以下の（ａ）及び(ｂ)の手段を有し、入力文書を２つのカテゴリーに分類する装置、
（ａ）前記入力文書から、所定の非自立的要素を含む連語の発生頻度をもとに、文書素性ベクトルを作成する手段、
（ｂ）前記文書素性ベクトルを用いて、判別式により前記入力文書を分類する手段。
前記所定の非自立的要素を含む連語は、連続したＮグラム、又は、間に一つ以上の語を含むスキップＮグラムである請求項１に記載の装置。
前記文書素性ベクトルを作成する手段は、さらに、
統計的手法により所定の非自立的要素を含む連語の数を少なくする手段、
を有する請求項１及び２に記載の装置。
前記文書素性ベクトルを作成する手段は、さらに、
特異値分解手法を用いて、前記文書素性ベクトルの次元を圧縮する手段、
を有する請求項１から３に記載の装置。
前記文書素性ベクトルは、
前記入力文書から、それぞれのカテゴリーへの意味的偏向を持つ含意表現の発生頻度をもとに得られる値を含む、
請求項１から４に記載の装置。
前記入力文書を分類する手段は、さらに、
訓練文書を用いた機械学習によって、前記判別式を修正する手段、
を有する請求項１から５に記載の装置。
以下の（ａ）及び(ｂ)のステップを有し、入力文書を２つのカテゴリーに分類する方法、
（ａ）前記入力文書から、所定の非自立的要素を含む連語の発生頻度をもとに、文書素性ベクトルを作成するステップ、
（ｂ）前記文書素性ベクトルを用いて、判別式により前記入力文書を分類するステップ。
前記文書素性ベクトルを作成するステップは、さらに、
統計的手法により所定の非自立的要素を含む連語の数を少なくするステップ、
を有する請求項７に記載の方法。
前記文書素性ベクトルを作成するステップは、さらに、
特異値分解手法を用いて、前記文書素性ベクトルの次元を圧縮するステップ、
を有する請求項７及び８に記載の方法。
前記文書素性ベクトルは、
前記入力文書から、それぞれのカテゴリーへの意味的偏向を持つ含意表現の発生頻度をもとに得られる値を、
含む請求項７から９に記載の方法。
前記入力文書を分類するステップは、さらに、
訓練文書を用いた機械学習によって、前記判別式を修正するステップ、
を有する請求項７から１０に記載の方法。
コンピュータを制御して、以下の（ａ）から（ｂ）の手段を動作させ、
入力文書を２つのカテゴリーに分類する文書分類プログラム、
（ａ）前記入力文書から、所定の非自立的要素を含む連語の発生頻度をもとに、文書素性ベクトルを作成する手段、
（ｂ）前記文書素性ベクトルを用いて、判別式により前記入力文書を分類する手段。
前記文書素性ベクトルを作成する手段は、さらに、
特異値分解手法を用いて、前記文書素性ベクトルの次元を圧縮する手段、
を有する請求項１２に記載のプログラム。
前記文書素性ベクトルは、
前記入力文書から、それぞれのカテゴリーへの意味的偏向を持つ含意表現の発生頻度をもとに得られる値を、
含む請求項１２及び１３に記載のプログラム。
前記入力文書を分類する手段は、さらに、
訓練文書を用いた機械学習によって、前記判別式を修正する手段、
を有する請求項１２から１４に記載のプログラム。