JP2006113746A - 文書分類装置、方法、プログラム - Google Patents

文書分類装置、方法、プログラム Download PDF

Info

Publication number
JP2006113746A
JP2006113746A JP2004299229A JP2004299229A JP2006113746A JP 2006113746 A JP2006113746 A JP 2006113746A JP 2004299229 A JP2004299229 A JP 2004299229A JP 2004299229 A JP2004299229 A JP 2004299229A JP 2006113746 A JP2006113746 A JP 2006113746A
Authority
JP
Japan
Prior art keywords
document
feature vector
input
classifying
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004299229A
Other languages
English (en)
Other versions
JP2006113746A5 (ja
JP4713870B2 (ja
Inventor
Hiromi Oda
弘美 小田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Priority to JP2004299229A priority Critical patent/JP4713870B2/ja
Priority to EP05256262A priority patent/EP1650680B1/en
Priority to DE602005018429T priority patent/DE602005018429D1/de
Priority to US11/245,123 priority patent/US20060112040A1/en
Priority to KR1020050095808A priority patent/KR20060052194A/ko
Publication of JP2006113746A publication Critical patent/JP2006113746A/ja
Publication of JP2006113746A5 publication Critical patent/JP2006113746A5/ja
Application granted granted Critical
Publication of JP4713870B2 publication Critical patent/JP4713870B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】
様々な商品や物事についての意見を含んだ文書を、二つのカテゴリーに大別する場合に従来技術では、分野を狭く限定し、データを新聞記事等の文章に固定し、特定の表現や判定のためのルールを抽出することによって文書の分類および、意味的情報の判定を行っている。従って、一つの分野・領域で抽出したルールを他の分野に適用することは困難であり、期待した精度での分類は出来ないと考えられる。
【解決手段】
本願発明では、文書を肯定的内容・否定的内容のカテゴリーに分類する事例を用い、基本的表現リストに加え、非自立的要素のNグラムによって否定・肯定の含意を含む連語を利用することにより、様々の分野・領域における意見を含む文書について特定の分野・領域に限定せず、広い分野・領域に適用可能な方法等を提案する。
【選択図】図3

Description

本願発明は、様々な商品や物事についての意見を含んだ文書を、二つの相反するカテゴリーに大別する方法、装置、プログラムに関する。相反するカテゴリーへの分類の典型的なものとして、文書を肯定的、否定的内容へ分類する事例を用いて説明する。
様々な商品や物事についての意見を含んだ文書群が大量に存在している場合に、先ずそれらに含まれる意見がおおまかに肯定的な意見を含むものか、あるいは、否定的な意見を含むものかという情報を抽出することは重要である。その後さらに詳細の処理を行う場合にも、前処理として大別することは非常に有効である。
従来技術では、分類対象となる文書を特定の分野に絞りそれなりの精度を得ているが、本発明ではどのような文書にも必ずあらわれるような表現と非自立要素に着目することにより、広い分野の文書に適用できる文書分類装置、方法、プログラムを提案する。
本願明細書では、商品の購入後のユーザの意見が書き込まれている書き込みサイトの情報を大別する場合を例にとって説明するが、本願発明の権利範囲はこれに限られるものではない。
様々な商品や物事についての意見を含んだ文書を、二つのカテゴリーに大別する方法に次のようなものが知られている。
(1)表現辞書などを準備したパターンマッチング
表現辞書などを準備したパターンマッチングによって書き手の意図を抽出するための方法がいくつか提案されている。意図抽出表現をあらかじめ準備しておき、表現が含まれているかどうかといった情報から重み付け等を行い、判定を行う。特許文献1、特許文献2、非特許文献1、非特許文献7を参照。
(2)パターンテンプレートを用いた方法
文書から必要な情報を取得するためにテンプレートを用いる方法がある。井上ら(1997)は特定の製品についての情報を含む記事であるかどうかといった判定をするテンプレートを提案している。この方法を応用してある文書に特定のパターンにマッチする情報があるかどうかという判定をすることができる。この方法は文書を2つのカテゴリーに分類する目的にも応用可能である。
非特許文献2、非特許文献3を参照。
(3)決定木などのルールを用いた方法
Arnowら(1994)などに見られる決定木を用いた方法。ある症例に当てはまる記述かどうかを判定するシステムの提案において、上述の「表現辞書などを準備したパターンマッチング」の方法に加え、その確率を計算するために決定木を用いる。Arnowら(1994)は、このよう方法によって約80%の精度を報告している。非特許文献4、非特許文献5を参照。
特開2003-157271 テキストマイニング装置および方法 特開2003-271616 文書分類装置、文書分類方法及び記録媒体 乾、松本(2004)「出来事の望ましさ判定を目的とした語彙知識獲得」言語処理学会第10回年次大会発表論文集pp. 91-94, 井出裕二、永井秀利、中村貞吾、野村浩郷「単一項目テンプレートによる新聞記事からの製品情報抽出」 情報処理学会研究報告、Vol.97、No.109、1997 藤吉誠、井出裕二、永井秀利、中村貞吾、野村浩郷「情報抽出処理のためのテンプレート作成」 平成8年度電気関係学会九州支部連合大会論文集、No.1332、p694, 1996 Aronow, Soderland, & Feng, 1994. Automated Classification of Encounter Notes In A Computer Based Medical Record, unpublished (http://citeseer.ist.psu.edu/aronow94automated.html) Kantor, Lee, Ng & Zhao, 1996. Application of Logical Analysis of Data to the TREC6 Routing Task. Text {REtrieval} Conference Proceedings, 611-617, 1997. Dumais, S. T., Furnas, G. W., Landauer, T. K., & Deerwester, S. (1988). Using latent semantic analysis to improve information retrieval. In CHI'88: Conference on Human Factors in Computing, (pp. 281-285). New York: ACM P.D. Turney, 2002, Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Philadelphia, Pennsylvania, U.S.A. (pp.417-424).
以上のように従来技術では、どの方法においても、文書分類の対象となる文書の分野を狭く限定し、データを新聞記事等の文章に固定し、特定の表現や判定のためのルールを抽出することによって文書の分類および、意味的情報の判定を行っている。従って、一つの分野・領域で抽出したルールを他の分野に適用することは困難であり、期待した精度での分類は出来ないと考えられる。
本願発明では、「基本表現リスト」に加え、「−[と][も]−(言える)、−[か][も]−[ない]」等、非自立的要素のNグラムによって否定、肯定の含意を含む連語を利用することにより、様々の分野・領域における意見を含む文書について特定の分野・領域に限定せず、広い分野・領域に適用可能な方法等を提案する。
本願発明は、様々な商品や物事についての意見を含んだ文書を、二つのグループに大別する方法、装置に関するが、以下の説明では、商品や物品についての意見を含んでいる文書が肯定的内容を持つか、否定的内容を持つかを判断する方法等について説明する。
本願発明では、以下の(a)及び(b)の手段を有し、入力文書を2つのカテゴリーに分類する装置、方法を開示する、
(a)入力文書から、所定の非自立的要素を含む連語の発生頻度をもとに、文書素性ベクトルを作成する手段、
(b)文書素性ベクトルを用いた判別式により入力文書を分類する手段。
さらに、所定の非自立的要素を含む連語は、間に一つ以上の語を含むスキップNグラムであっても良い。
文書素性ベクトルを作成する手段は、さらに、統計的手法により所定の非自立的要素を含む連語の数を少なくする手段を有することが出来る。
文書素性ベクトルを作成する手段は、さらに、特異値分解手法を用いて、文書素性ベクトルの次元を圧縮する手段を有することが出来る。
入力文書を分類する手段は、さらに、訓練文書を用いた機械学習によって修正される手段を有することが出来る。
さらに、文書素性ベクトルは、入力文書から、所定の肯定的含意表現及び否定的含意表現の発生頻度をもとに得られる値を含むことが出来る。
本願発明では、コンピュータを制御して、以下の(a)から(b)の手段を動作させ、入力文書を2つのカテゴリーに分類する文書分類プログラムも開示する、
(a)入力文書から、所定の非自立的要素を含む連語の発生頻度をもとに、文書素性ベクトルを作成する手段、
(b)文書素性ベクトルを用いた判別式により入力文書を分類する手段。
さらに、文書素性ベクトルを作成する手段は、さらに、特異値分解手法を用いて、前記文書素性ベクトルの次元を圧縮する手段を有することが出来る。
入力文書を分類する手段は、さらに、訓練文書を用いた機械学習によって修正される手段を有することが出来る。
文書素性ベクトルは、入力文書から、所定の肯定的含意表現及び否定的含意表現の発生頻度をもとに得られる値を含むことが出来る。
(1)様々な商品や物事についての意見を含んだ文書群が大量に存在している場合に、それらに含まれる意見がおおまかに肯定的な意見を含むものか、否定的な意見を含むものかという情報を抽出することが出来る。
(2)直接的には、ある商品について消費者が寄せるコメントが大量にある場合に、そのおおまかな傾向をつかむことが容易となり、アンケート調査の情報を補完する用途に用いることが出来る。また、電子掲示板などの運営において、極度に否定的なコメント等はそのコミュニティを誤った方向に導いたり、全体の雰囲気を損なったりすることがある。そのような投稿にフラッグをつけ、管理者に警告を発することによって、大量の投稿のある電子掲示板の管理者が効率的に運営することを助ける用途に用いることも出来る。
(3)間接的には、このような分類装置を前処理に用いることによって、肯定的文脈、否定的文脈という意味的な情報を付加することが可能となる。例えば、価値判断を含む多数の文書をクラスタリングによってトピックに分類しようという場合、肯定的、否定的傾向の文書に大まかに分けた後にクラスタリングを行うことによってより精度の高いトピック分類が可能となると期待される。また、フレームネット等の枠組みを用いて、文章の意味構造を解析しようという場合、「賞賛」「非難」等の意味フレームの選択において、肯定、否定的文脈のどちらの可能性が高いかという情報があれば、その選択の精度を上げる補助となることが予想される。このように文書を肯定的傾向の文書、否定的傾向の文書といった分類をすることによって、いろいろな処理が容易となることが期待される。
特定の分野に絞れば高い精度を得ることもできるが、本発明ではどのような文書にも必ずあらわれるような表現と非自立要素に着目することにより、広い分野の文書に適用出来る方法を提案する。
以下に最良の形態を説明する。
図1は、本願発明を実施する装置を示している。筐体100の中には、記憶部110、メインメモリー120、出力部130、中央制御部(CPU)140、操作部150、入力部160が含まれている。使用者が操作部150から必要な情報を入力する。中央制御部140は記憶部110に記憶されている情報を読み出し入力された情報をに基づいて、入力部160から入力される文書の分類を行い、出力部130に結果を出力する。
図2は、本願発明のブロック図を示している。210は文書入力部、220は基本表現リスト作成部、225は基本表現リスト格納部、230は基本表現比率計算部、240は連語リスト作成部、245は連語リスト格納部、250は入力文書全素性(ソセイ)ベクトル作成部、255は訓練文書全素性ベクトル作成部、257はベクトル圧縮用部分行列作成部、260は入力文書全素性ベクトル圧縮部、270は判別式作成部、275は判別式格納部、280は入力文書分類部、290は分類文書出力部を示す。以下、これらの詳細について説明する。
(1)文書入力部(ブロック210)
ここには、分類すべき文書が入力される。
(2)基本表現リスト作成部(ブロック220)
ブロック220では、一般の文書の表現から基本表現リストを作成する。基本表現リストには、それぞれのカテゴリーへの含意を持つ語彙、表現を記載する。語彙、表現の中には、特定のカテゴリーへの意味的偏向を示すものがある。肯定的、否定的内容という2つのカテゴリーの場合で考えれば、「豪華、はなやか」、「、、ふんわり、なめらか」、あるいは「始まって以来の、、」等の表現には肯定的内容への偏りがあり「いま一つ、もの足りない」、「、、はいかがなものか」あるいは「残念ながら、、、」等の表現には否定的内容への意味的偏りが感じられる。この意味的偏りを一般的に含意と呼び、ここでは肯定的含意、否定的含意という用語を用いる。 このような肯定的、否定的含意を持つ表現を選択し、肯定表現リスト、否定表現リストを作り基本表現リストとする。
(3)基本表現リスト格納部(ブロック225)
ブロック225には、ブロック220で選択された基本表現リストを格納する。
(4)基本表現比率計算部(230)
ここでは、分類すべき入力文書から、ブロック220に格納されている基本表現リストを用いて、肯定表現比率、及び、否定表現比率を算出する。肯定表現比率、及び、否定表現比率は次のように定義する。
(式1) 肯定表現比率 =
当該文書における肯定表現の総数 / 当該文書における自立語の数
(式2) 否定表現比率 =
当該文書における否定表現の総数 / 当該文書における自立語の数
ここで、自立語とは、ある観念を表し、文中で単独でも文節を構成することのできる語を言う。名詞、代名詞、動詞、形容詞、形容動詞、連体詞、副詞、接続詞、感動詞の類を言う。
これらの肯定表現比率、否定表現比率をそれぞれの「文書素性ベクトル」(後述)の成分の一部とすることが出来る。
(5)連語リスト作成部(ブロック240)
ブロック240では連語リストを作成する。以下に連語リストについて説明する。
(a)連語素性
「非自立的要素」の「連語」を定義し、入力文書から候補のパターンの発生頻度を抽出する。多数の候補が抽出される場合には、統計的方法によって文書分類に有効なパターンを選び出し「連語素性」とする。ここで、「非自立的要素」とは、言語の構成要素の中で、独自には出現せず、必ず他の要素について補助的な役割を果たすもので、品詞名としては、格助詞、終助詞、助動詞、接頭辞、接尾辞などが含まれる。これらの要素は直接的には、肯定的であるか否定的であるかを明確には示さないが、他の言葉との関連で、肯定的であるか否定的であるかが判断される場合がある。
「連語」とは、非自立要素の連鎖と定義する。一定のパターンで生じる言語要素が通常より強い結びつきを持ち、特定の意味を持ったり、機能を果たしたりするものである。連続した要素だけでなく、間隔の空いた要素を許し、一つおき、二つおきといった要素によるパターンを連語の候補とする。一定のパターンで生じる言語要素が通常より強い結びつきを持ち、特定の意味を持ったり、機能を果たしたりするものである。熟語などはその結びつきが非常に強い連語の例と考えることができる。
(b)具体例
以下、具体的な例で説明する。
先ず、日本語の例として次の表現を取り上げる。
(イ)「それは良い提案である。」
(ロ)「それは良い提案ではある。」
(イ)と(ロ)を比較すると、「で」が「では」に変わっただけで、発言の持つ含意全体が否定的な方向に大きく変わる。「は」だけではそのような否定的含意があるとは考えられないので、[で][は]という連鎖を形成することによってそのような含意が発生した、と考えられる。
同様に、英語の例として次の表現を取り上げて説明する。
(ハ)"This is a killer application."
(ニ)"This could have been a killer application."
(ハ)と(ニ)の違いは「is」 と「could have been」の違いだけであるが、(ニ)においては、話し手はその製品が「killer application」ではない、と考えているというニュアンスが伝わる。このように、英語においても、このような助動詞の連鎖の中に否定的含意がある、と考えられる。
このように、個々の非自立要素では発生しない含意が、他の要素とつながることによって発生する。このような肯定、否定を示唆する含意を持つ連語を検知することによって文書全体の肯定、否定への偏りを判定することを考える。
本発明では、例えば、「〜[と][も]〜(言える)、〜[か][も]〜[ない]」等、非自立的要素からなるゆるい連語を大量に検出することにより、文書分類を行う。
(c)訓練文書からの連語素性の抽出肯定、否定の訓練文書の中のそれぞれの文書について次の操作を行う。ここで、「訓練文書」とは、予め内容を把握し肯定的な文書であるか、否定的な文書であるか、その分類が既知の文書のことを言う。Nグラムとは、連続した1以上の語であって、一語の場合はユニグラム(Uni-gram)、二語の場合はバイグラム(Bi-gram), 三語の場合はトライグラム(Tri-gram)と呼ばれる。本願明細書では、定まった間隔の不連続要素を検出するスキップ-Nグラム(skip N-gram)を用いる。具体的にはバイグラム(bi-gram)で1語、2語、3語の間隔を有するものを用いる。これを2−1グラム(2-1gram)、2−2グラム(2-2 gram)、2−3グラム(2-3 gram)と表記する。(イ)訓練文書にあらわれる非自立語要素のみを取り出し、一つながりの文字列とする。(ロ)2-1, 2-2, 2-3 グラムのN−グラムの連鎖をすべて抽出する。(ハ)これをソートし、訓練文書の連語素性とする。
(d)統計処理
単純なN−グラム連語を素性とすると数千の単位の素性が得られるが、これでは文書の分類には適さない。そこで、訓練文書の肯定及び否定の文書を比較し、一方に有意に偏って出現する素性(N−グラム連語)を選択する(Z-test)。2つの文書集合にそれぞれのN−グラム連語の出現する比率を比較し、その統計テストをする比率の検定の方法を用いる。
ここで、比率の差の検定方法について説明する。今、ある用語Wが2つの文書集合d1, d2に共に表れたと考え、その頻度がw1, w2であったとする。文書集合d1に表れた用語の総数をn1, 文書d2のそれをn2とする。するとWがそれぞれの文書集合に表れた割合は次のようになる。
(式3)p1= w1/n1,
(式4)p2= w2/n2
ここで、標本比率を実際のデータから得られた比率とすると、p1及びp2はを標本比率である。ここで、p1 > p2である場合に、これが有意であるかどうかを検定する、すなわち、用語Wはd1の文書の方に有意に偏って出現するかどうかを検定するということを意味する(片側検定)。
ここで、帰無仮説と対立仮説は次のようになる。
H0: pi1 = pi2 帰無仮説
H1: pi1 > pi2 片側検定における対立仮説
検定を行うために、まず実際には知られていない母比率pihat(式5)を標本比率から推定する。
(式5) pihat = (n1*p1 + n2*p2) / (n1 + n2)
ここからzを(式6)で計算する。
(式6) z = (p1-p2)/ sqrt(pihat*(1-pihat)*(1/n1+1/n2))
帰無仮説を棄却し、対立仮説を採用するには、5%の危険率において、z > 1.65でなくてはならないことになる。
このように、各連語について検定を行い、文書の中に現れるN−グラム連語であって、肯定的な文書に有意に出現するN−グラム連語、及び、否定的な文書に有意に出現するN−グラム連語をそれぞれ選択することが出来る。
(6)連語リスト格納部(ブロック245)
ブロック245には、ブロック240によって選択されたスキップN−グラム連語が格納される。本願実施例では、訓練文書から求められた約数百次元のスキップN−グラム連語が格納されている。
(7)入力文書全素性ベクトル作成部(ブロック250) 分類すべき入力文書について、連語リスト格納部(245)に格納されているスキップN−グラム連語をもとに、当該連語の発生頻度を検出する。以下、本願明細書では、これを「非自立要素連語素性」もしくは、単に「連語素性」と呼ぶ。これにより各入力文書に対して、数百次元の素性値を求めることが出来る。 選択された連語が当該文書に出現する回数を単一の素性の値とし、当該文書に出現する全ての素性を要素とする「入力文書全素性ベクトル」によって一つの文書を表現する。「入力文書全素性ベクトル」の成分として約数百次元の素性値が選択される。
(8)訓練文書全素性ベクトル作成部(ブロック255)
約数百次元の「入力文書全素性ベクトル」を圧縮するための準備を行う。そのために、訓練文書を用いて、(7)と同様に、連語リスト格納部(240)に格納されているスキップN−グラム連語をもとに、当該連語の発生頻度を検出し、「訓練文書全素性ベクトル」を作成する。
(9)ベクトル圧縮用部分行列作成部(ブロック257)
文書全素性ベクトルを圧縮するために特異値分解の手法を用いる。この方法によれば多数の素性によって表現され、さらにその素性の値に多くの0が含まれる場合でも、全体の特徴を最も良く表現するより低い次元のベクトルへと変換することが可能である。また、素性が単語である場合に、単語間の間接的共起関係を捉え得ることが知られている。
ここで、特異値分解の手法について説明する。
(m x n)の行列Aについて、次のような3つの行列に分解することを特異値分解と呼ぶ。
(式7) A = D x S x T'
Dは、(m x n)の行列、Sは、左上から右下の対角要素に特異値が大きい順に表れる (n x n)の行列をなし、また、Tは、(n x n)の行列である。ここで「T'」は行列「T」の転置行列を表す。DとTはそれぞれの列が直交関係にある直交行列となる。 ここで、Sの特異値を大きい方からr 個取り(r <= n)、(r x r)の行列 Srとし、Dから、(m x r)の部分行列を取り出し Dr とし、T'から、(r x n)の部分行列を取り出し、Tr'とすると、
(式8) A-hat = Dr x Sr x Tr'
となり、行列Aのランクrにおける近似行列A-hatが得られる。Dumais et.al.(1988)等のLaternt Semantic Indexingでは、元のAの行列が、m個の文書、n個の用語に対応する情報を持った行列である場合に、Drは、r次元における文書の新しい配置を示し、またTrはr 次元における新しい用語の配置を示し、その重要な特徴を抽出した表示となっていると主張されている。また、Trの用語の表示においては、用語の間接的共起関係が反映される。
ここで、間接的共起関係について説明する。例として、D1〜D2の2個の文書における、t1〜t3の3個の用語の次のような分布を考える。
t1 t2 t3
D1 1 1
D2 1 1
のようにt1とt3が実際に共起する文書はなくても、t1, t2の共起と、t2, t3の共起する文書とが十分にあれば、その間にはt2を介した間接的な共起関係があると言える。Latent Semantic Indexingでは、このような場合にt1, t3の間の距離が近くなるような配置関係が抽出される。
結果として、この手法を用いれば、n次元の用語の表現が、r次元の表現に圧縮されたことになる。また、上述の間接的共起関係が反映されるという好ましい特徴も備えている。非特許文献6を参照。
本実施例では、(式8)を変形して(式9)を求める。
(式9)Dr = A-hat x Inv(Sr x Tr')
ここで、Inv(Sr x Tr')は(Sr x Tr')の逆行列である。訓練文書から求められる(r x r)の部分行列 Sr、及び、(r x n)の部分行列Tr'から(Sr x Tr')を求め、その逆行列Inv(Sr x Tr')を求める。Inv(Sr x Tr')がベクトル圧縮用部分行列である。
(10)入力文書全素性ベクトル圧縮部(ブロック260)
非特許文献6によればA-hatは(m x n)の行列であり、m個の文書、n個の用語に対応する情報を持った行列に対応する。本実施例では、入力文書は1個ずつであると考えられるので、m=1として、A-hatは(1 x n)の行列と考えてよい。同様にDrは、(1 x r)の部分行列である考えてよい。よって本実施例では、A-hatは「入力文書全素性ベクトル」であり、Drは圧縮された「入力文書素性ベクトル」である。
ブロック260では、訓練文書から求められたベクトル圧縮用部分行列Inv(Sr x Tr')、及び、入力文書から求められたA-hatを用いて、(式9)に従ってDrを求める。これにより、n次元(本実施例では数百次元)の入力文書全素性ベクトル「A-hat」をr次元(本実施例では15次元)まで圧縮した入力文書素性ベクトル「Dr」を求めることが出来る。
(11)判別式作成部(ブロック270)
ブロック270では、入力文書を分類するための判別式を求める。本実施例では、判別式の精度を向上させるために、訓練文書を基に判別式の分類基準を学習する機械学習を行う。機械学習のための手法としてサポートベクトルマシンを用いる。すなわちサポートベクトルマシンに、あらかじめ2つのカテゴリに分類された訓練文書から求められた「文書素性ベクトル」を準備し、分類基準の学習を行わせる。V. Vapnikらによって開発されたサポートベクトルマシン(Support Vector machine) は、基本的に2クラスへの分類を行う高い汎化性能を持ち、本課題に適した学習方式である。サポートベクトルマシンは、判断基準となる超平面から判断基準とするデータポイント(=サポートベクトル)までの距離(マージン)を最大にする、という方法によって、高速で安定した学習をすることで知られている。
(12)判別式格納部(ブロック275)
ブロック275には、ブロック270により機械学習によって、分類精度を向上した判別式が格納される。
(13)文書分類部(ブロック280)
ブロック260で圧縮された15次元の連語素性、さらに必要に応じて、(式1)(式2)に従って求められた肯定表現比率、否定表現比率を加えて、17次元の「入力文書素性ベクトル」を作成する。この入力文書素性ベクトルを用いて、ブロック275に格納されている判別式により、入力文書の分類を行う。
(14)分類文書出力部(ブロック290)
分類された入力文書が、図1に示す出力部130から出力される。
図3に本願発明をに従い入力文書を分類する方法のアルゴリズムを示す。
10:文書の入力
20:基本表現比率の計算
30:入力文書全素性ベクトルの作成
40:入力文書全素性ベクトルの圧縮
50:判別式による入力文書の分類
60:分類文書の出力
以下に本アルゴリズムについて詳細を示す。
ステップ10:文書入力
分類すべき文書を入力する。
ステップ20:基本表現比率の計算
前述の(式1)及び(式2)に従って、肯定表現比率、否定表現比率を計算する。
ステップ30:入力文書全素性ベクトルの作成
入力文書について、連語リスト格納部(240)に格納されているN−グラム連語をもとに、当該連語の発生頻度を検出する。
ステップ40:入力文書全素性ベクトルの圧縮
入力文書に対する連語素性選択を行うと約数百次元の素性値が選択される。これを本願実施例では15次元まで圧縮する。
ステップ50:判別式による入力文書の分類
図2のブロック260で圧縮された15次元の連語素性ベクトル値、さらに必要に応じて、肯定表現比率、否定表現比率を加えて、17次元の連語素性ベクトル値を用いて、ブロック275に格納されている判別式により文書の分類を行う。
ステップ60:分類文書の出力
分類結果を所定の出力装置に出力する。
本実施例では約83%の正解率で文書を肯定的傾向の文書、否定的内容の文書に分類することが出来た。
本発明を実施する装置を示す図である。 本発明の好適実施例に関するブロック図である。 本発明の好適実施例に関するフローチャートである。
符号の説明
100:筐体
110:記憶部
120:メインメモリー
130:表示部
140:中央制御部(CPU)
150:操作部
160:入力部

Claims (15)

  1. 以下の(a)及び(b)の手段を有し、入力文書を2つのカテゴリーに分類する装置、
    (a)前記入力文書から、所定の非自立的要素を含む連語の発生頻度をもとに、文書素性ベクトルを作成する手段、
    (b)前記文書素性ベクトルを用いて、判別式により前記入力文書を分類する手段。
  2. 前記所定の非自立的要素を含む連語は、連続したNグラム、又は、間に一つ以上の語を含むスキップNグラムである請求項1に記載の装置。
  3. 前記文書素性ベクトルを作成する手段は、さらに、
    統計的手法により所定の非自立的要素を含む連語の数を少なくする手段、
    を有する請求項1及び2に記載の装置。
  4. 前記文書素性ベクトルを作成する手段は、さらに、
    特異値分解手法を用いて、前記文書素性ベクトルの次元を圧縮する手段、
    を有する請求項1から3に記載の装置。
  5. 前記文書素性ベクトルは、
    前記入力文書から、それぞれのカテゴリーへの意味的偏向を持つ含意表現の発生頻度をもとに得られる値を含む、
    請求項1から4に記載の装置。
  6. 前記入力文書を分類する手段は、さらに、
    訓練文書を用いた機械学習によって、前記判別式を修正する手段、
    を有する請求項1から5に記載の装置。
  7. 以下の(a)及び(b)のステップを有し、入力文書を2つのカテゴリーに分類する方法、
    (a)前記入力文書から、所定の非自立的要素を含む連語の発生頻度をもとに、文書素性ベクトルを作成するステップ、
    (b)前記文書素性ベクトルを用いて、判別式により前記入力文書を分類するステップ。
  8. 前記文書素性ベクトルを作成するステップは、さらに、
    統計的手法により所定の非自立的要素を含む連語の数を少なくするステップ、
    を有する請求項7に記載の方法。
  9. 前記文書素性ベクトルを作成するステップは、さらに、
    特異値分解手法を用いて、前記文書素性ベクトルの次元を圧縮するステップ、
    を有する請求項7及び8に記載の方法。
  10. 前記文書素性ベクトルは、
    前記入力文書から、それぞれのカテゴリーへの意味的偏向を持つ含意表現の発生頻度をもとに得られる値を、
    含む請求項7から9に記載の方法。
  11. 前記入力文書を分類するステップは、さらに、
    訓練文書を用いた機械学習によって、前記判別式を修正するステップ、
    を有する請求項7から10に記載の方法。
  12. コンピュータを制御して、以下の(a)から(b)の手段を動作させ、
    入力文書を2つのカテゴリーに分類する文書分類プログラム、
    (a)前記入力文書から、所定の非自立的要素を含む連語の発生頻度をもとに、文書素性ベクトルを作成する手段、
    (b)前記文書素性ベクトルを用いて、判別式により前記入力文書を分類する手段。
  13. 前記文書素性ベクトルを作成する手段は、さらに、
    特異値分解手法を用いて、前記文書素性ベクトルの次元を圧縮する手段、
    を有する請求項12に記載のプログラム。
  14. 前記文書素性ベクトルは、
    前記入力文書から、それぞれのカテゴリーへの意味的偏向を持つ含意表現の発生頻度をもとに得られる値を、
    含む請求項12及び13に記載のプログラム。
  15. 前記入力文書を分類する手段は、さらに、
    訓練文書を用いた機械学習によって、前記判別式を修正する手段、
    を有する請求項12から14に記載のプログラム。
JP2004299229A 2004-10-13 2004-10-13 文書分類装置、方法、プログラム Expired - Fee Related JP4713870B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2004299229A JP4713870B2 (ja) 2004-10-13 2004-10-13 文書分類装置、方法、プログラム
EP05256262A EP1650680B1 (en) 2004-10-13 2005-10-06 Device, method, processor arrangement and computer-readable medium storing program for document classification
DE602005018429T DE602005018429D1 (de) 2004-10-13 2005-10-06 Vorrichtung, Verfahren, Prozessoranordnung und computerlesbares Datenträgerspeicherprogramm zur Dokumentklassifizierung
US11/245,123 US20060112040A1 (en) 2004-10-13 2005-10-07 Device, method, and program for document classification
KR1020050095808A KR20060052194A (ko) 2004-10-13 2005-10-12 문서 분류 장치, 방법, 프로그램

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004299229A JP4713870B2 (ja) 2004-10-13 2004-10-13 文書分類装置、方法、プログラム

Publications (3)

Publication Number Publication Date
JP2006113746A true JP2006113746A (ja) 2006-04-27
JP2006113746A5 JP2006113746A5 (ja) 2007-11-15
JP4713870B2 JP4713870B2 (ja) 2011-06-29

Family

ID=35871194

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004299229A Expired - Fee Related JP4713870B2 (ja) 2004-10-13 2004-10-13 文書分類装置、方法、プログラム

Country Status (5)

Country Link
US (1) US20060112040A1 (ja)
EP (1) EP1650680B1 (ja)
JP (1) JP4713870B2 (ja)
KR (1) KR20060052194A (ja)
DE (1) DE602005018429D1 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102007013139A1 (de) * 2007-03-15 2008-09-18 Stefan Kistner Verfahren und Computerprommprodukt zur Klassifizierung elektronischer Daten
US7996210B2 (en) * 2007-04-24 2011-08-09 The Research Foundation Of The State University Of New York Large-scale sentiment analysis
US8005782B2 (en) * 2007-08-10 2011-08-23 Microsoft Corporation Domain name statistical classification using character-based N-grams
US8041662B2 (en) * 2007-08-10 2011-10-18 Microsoft Corporation Domain name geometrical classification using character-based n-grams
KR100931785B1 (ko) * 2007-11-19 2009-12-14 주식회사 오피엠에스 부정 컨텐츠 판별 장치 및 방법
US20090274376A1 (en) * 2008-05-05 2009-11-05 Yahoo! Inc. Method for efficiently building compact models for large multi-class text classification
KR101005337B1 (ko) * 2008-09-29 2011-01-04 주식회사 버즈니 웹 문서에서의 의견 추출 및 분석 장치 및 그 방법
EP2377054A4 (en) * 2008-12-08 2013-01-23 Decernis Llc APPARATUS AND METHOD FOR THE AUTOMATIC DISCOVERY OF CONTROL EVENTS FROM PUBLICATION OF DOCUMENTS
CN101833555B (zh) * 2009-03-12 2016-05-04 富士通株式会社 信息提取方法和装置
US8868402B2 (en) * 2009-12-30 2014-10-21 Google Inc. Construction of text classifiers
US8924391B2 (en) 2010-09-28 2014-12-30 Microsoft Corporation Text classification using concept kernel
KR101355956B1 (ko) * 2011-12-13 2014-02-03 한국과학기술원 논쟁적인 이슈에 관한 상반된 관점들을 제시할 수 있는 기사 분류 방법 및 시스템
CA2886581C (en) * 2012-09-28 2023-10-17 Alkis Papadopoullos Method and system for analysing sentiments
FR3016981A1 (fr) * 2014-01-28 2015-07-31 Deadia Procede d'analyse semantique d'un texte
US10152474B2 (en) * 2015-08-28 2018-12-11 Accenture Global Services Limited Automated term extraction
JP6775935B2 (ja) 2015-11-04 2020-10-28 株式会社東芝 文書処理装置、方法、およびプログラム
JP6602243B2 (ja) * 2016-03-16 2019-11-06 株式会社東芝 学習装置、方法、及びプログラム
JP6622172B2 (ja) 2016-11-17 2019-12-18 株式会社東芝 情報抽出支援装置、情報抽出支援方法およびプログラム
CN109739950B (zh) * 2018-12-25 2020-03-31 中国政法大学 筛选适用法律条文的方法及装置
CN109614494B (zh) * 2018-12-29 2021-10-26 东软集团股份有限公司 一种文本分类方法及相关装置
CN112256865B (zh) * 2019-01-31 2023-03-21 青岛科技大学 一种基于分类器的中文文本分类方法
US11734582B2 (en) * 2019-10-31 2023-08-22 Sap Se Automated rule generation framework using machine learning for classification problems

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000207404A (ja) * 1999-01-11 2000-07-28 Sumitomo Metal Ind Ltd 文書検索方法及び装置並びに記録媒体
JP2000339310A (ja) * 1999-05-25 2000-12-08 Nippon Telegr & Teleph Corp <Ntt> 文書分類方法、文書分類装置、およびプログラムを記録する記録媒体
JP2001022727A (ja) * 1999-07-05 2001-01-26 Nippon Telegr & Teleph Corp <Ntt> テキスト分類学習方法及び装置及びテキスト分類学習プログラムを格納した記憶媒体
JP2002092006A (ja) * 2000-07-21 2002-03-29 Ford Motor Co テーマに基く文書分類システム
JP2002092004A (ja) * 2000-09-13 2002-03-29 Nec Corp 情報分類装置
JP2002140465A (ja) * 2000-08-21 2002-05-17 Fujitsu Ltd 自然文処理装置及び自然文処理用プログラム
JP2003271616A (ja) * 2002-03-13 2003-09-26 Ricoh Co Ltd 文書分類装置、文書分類方法及び記録媒体
JP2004094521A (ja) * 2002-08-30 2004-03-25 Nippon Telegr & Teleph Corp <Ntt> 質問タイプ学習方法、学習装置、質問タイプ学習プログラム、同プログラムを記録した記録媒体、学習データを記録した記録媒体、学習データを用いた質問タイプ同定方法、装置、プログラム、および該プログラムを記録した記録媒体

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9821787D0 (en) * 1998-10-06 1998-12-02 Data Limited Apparatus for classifying or processing data
US20020032564A1 (en) * 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
CN1310172C (zh) * 2001-07-26 2007-04-11 国际商业机器公司 生成候补同义词的数据处理方法和系统
NO316480B1 (no) * 2001-11-15 2004-01-26 Forinnova As Fremgangsmåte og system for tekstuell granskning og oppdagelse

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000207404A (ja) * 1999-01-11 2000-07-28 Sumitomo Metal Ind Ltd 文書検索方法及び装置並びに記録媒体
JP2000339310A (ja) * 1999-05-25 2000-12-08 Nippon Telegr & Teleph Corp <Ntt> 文書分類方法、文書分類装置、およびプログラムを記録する記録媒体
JP2001022727A (ja) * 1999-07-05 2001-01-26 Nippon Telegr & Teleph Corp <Ntt> テキスト分類学習方法及び装置及びテキスト分類学習プログラムを格納した記憶媒体
JP2002092006A (ja) * 2000-07-21 2002-03-29 Ford Motor Co テーマに基く文書分類システム
JP2002140465A (ja) * 2000-08-21 2002-05-17 Fujitsu Ltd 自然文処理装置及び自然文処理用プログラム
JP2002092004A (ja) * 2000-09-13 2002-03-29 Nec Corp 情報分類装置
JP2003271616A (ja) * 2002-03-13 2003-09-26 Ricoh Co Ltd 文書分類装置、文書分類方法及び記録媒体
JP2004094521A (ja) * 2002-08-30 2004-03-25 Nippon Telegr & Teleph Corp <Ntt> 質問タイプ学習方法、学習装置、質問タイプ学習プログラム、同プログラムを記録した記録媒体、学習データを記録した記録媒体、学習データを用いた質問タイプ同定方法、装置、プログラム、および該プログラムを記録した記録媒体

Also Published As

Publication number Publication date
DE602005018429D1 (de) 2010-02-04
EP1650680B1 (en) 2009-12-23
JP4713870B2 (ja) 2011-06-29
EP1650680A3 (en) 2007-06-20
KR20060052194A (ko) 2006-05-19
US20060112040A1 (en) 2006-05-25
EP1650680A2 (en) 2006-04-26

Similar Documents

Publication Publication Date Title
JP4713870B2 (ja) 文書分類装置、方法、プログラム
Mohammad et al. Paraphrase identification and semantic text similarity analysis in Arabic news tweets using lexical, syntactic, and semantic features
EP2553605B1 (en) Text classifier system
CN111897970A (zh) 基于知识图谱的文本比对方法、装置、设备及存储介质
Menai Word sense disambiguation using evolutionary algorithms–Application to Arabic language
Atkinson et al. Rhetorics-based multi-document summarization
Meyer et al. Fine-grained financial news sentiment analysis
Priyadarshi et al. Towards the first Maithili part of speech tagger: Resource creation and system development
Imran et al. The impact of synthetic text generation for sentiment analysis using GAN based models
Chandio et al. Sentiment analysis of roman Urdu on e-commerce reviews using machine learning
Das et al. Identifying emotional expressions, intensities and sentence level emotion tags using a supervised framework
Singh et al. Writing Style Change Detection on Multi-Author Documents.
Cajueiro et al. A comprehensive review of automatic text summarization techniques: method, data, evaluation and coding
Garcia et al. Fakerecogna: A new brazilian corpus for fake news detection
Shi et al. A supervised fine-grained sentiment analysis system for online reviews
Qian et al. Tri-Training for authorship attribution with limited training data: a comprehensive study
Priyadarshi et al. A study on the performance of recurrent neural network based models in Maithili part of speech tagging
HaCohen-Kerner et al. Cross-domain Authorship Attribution: Author Identification using char sequences, word unigrams, and POS-tags features
Raring et al. Semantic relations between text segments for semantic storytelling: Annotation tool-dataset-evaluation
Ogunsuyi Opeyemi et al. K-nearest neighbors bayesian approach to false news detection from text on social media
Abdul-Mageed et al. Automatic identification of subjectivity in morphologically rich languages: the case of Arabic
Kopeć Three-step coreference-based summarizer for Polish news texts
Misini et al. Albanian Authorship Attribution Model
Kaur et al. Keyword extraction for punjabi language
Sureja et al. Using sentimental analysis approach review on classification of movie script

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070928

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070928

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20071102

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071113

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071220

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20091127

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20091130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100531

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100830

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101020

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110118

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110302

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110325

LAPS Cancellation because of no payment of annual fees