JP4713870B2 - 文書分類装置、方法、プログラム - Google Patents
文書分類装置、方法、プログラム Download PDFInfo
- Publication number
- JP4713870B2 JP4713870B2 JP2004299229A JP2004299229A JP4713870B2 JP 4713870 B2 JP4713870 B2 JP 4713870B2 JP 2004299229 A JP2004299229 A JP 2004299229A JP 2004299229 A JP2004299229 A JP 2004299229A JP 4713870 B2 JP4713870 B2 JP 4713870B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- feature vector
- input
- classifying
- document feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
様々な商品や物事についての意見を含んだ文書群が大量に存在している場合に、先ずそれらに含まれる意見がおおまかに肯定的な意見を含むものか、あるいは、否定的な意見を含むものかという情報を抽出することは重要である。その後さらに詳細の処理を行う場合にも、前処理として大別することは非常に有効である。
従来技術では、分類対象となる文書を特定の分野に絞りそれなりの精度を得ているが、本発明ではどのような文書にも必ずあらわれるような表現と非自立要素に着目することにより、広い分野の文書に適用できる文書分類装置、方法、プログラムを提案する。
本願明細書では、商品の購入後のユーザの意見が書き込まれている書き込みサイトの情報を大別する場合を例にとって説明するが、本願発明の権利範囲はこれに限られるものではない。
表現辞書などを準備したパターンマッチングによって書き手の意図を抽出するための方法がいくつか提案されている。意図抽出表現をあらかじめ準備しておき、表現が含まれているかどうかといった情報から重み付け等を行い、判定を行う。特許文献1、特許文献2、非特許文献1、非特許文献7を参照。
文書から必要な情報を取得するためにテンプレートを用いる方法がある。井上ら(1997)は特定の製品についての情報を含む記事であるかどうかといった判定をするテンプレートを提案している。この方法を応用してある文書に特定のパターンにマッチする情報があるかどうかという判定をすることができる。この方法は文書を2つのカテゴリーに分類する目的にも応用可能である。
非特許文献2、非特許文献3を参照。
Arnowら(1994)などに見られる決定木を用いた方法。ある症例に当てはまる記述かどうかを判定するシステムの提案において、上述の「表現辞書などを準備したパターンマッチング」の方法に加え、その確率を計算するために決定木を用いる。Arnowら(1994)は、このよう方法によって約80%の精度を報告している。非特許文献4、非特許文献5を参照。
本願発明では、「基本表現リスト」に加え、「−[と][も]−(言える)、−[か][も]−[ない]」等、非自立的要素のNグラムによって否定、肯定の含意を含む連語を利用することにより、様々の分野・領域における意見を含む文書について特定の分野・領域に限定せず、広い分野・領域に適用可能な方法等を提案する。
(a)入力文書から、所定の非自立的要素を含む連語の発生頻度をもとに、文書素性ベクトルを作成する手段、
(b)文書素性ベクトルを用いた判別式により入力文書を分類する手段。
さらに、所定の非自立的要素を含む連語は、間に一つ以上の語を含むスキップNグラムであっても良い。
文書素性ベクトルを作成する手段は、さらに、特異値分解手法を用いて、文書素性ベクトルの次元を圧縮する手段を有することが出来る。
入力文書を分類する手段は、さらに、訓練文書を用いた機械学習によって修正される手段を有することが出来る。
さらに、文書素性ベクトルは、入力文書から、所定の肯定的含意表現及び否定的含意表現の発生頻度をもとに得られる値を含むことが出来る。
(a)入力文書から、所定の非自立的要素を含む連語の発生頻度をもとに、文書素性ベクトルを作成する手段、
(b)文書素性ベクトルを用いた判別式により入力文書を分類する手段。
さらに、文書素性ベクトルを作成する手段は、さらに、特異値分解手法を用いて、前記文書素性ベクトルの次元を圧縮する手段を有することが出来る。
入力文書を分類する手段は、さらに、訓練文書を用いた機械学習によって修正される手段を有することが出来る。
文書素性ベクトルは、入力文書から、所定の肯定的含意表現及び否定的含意表現の発生頻度をもとに得られる値を含むことが出来る。
特定の分野に絞れば高い精度を得ることもできるが、本発明ではどのような文書にも必ずあらわれるような表現と非自立要素に着目することにより、広い分野の文書に適用出来る方法を提案する。
ここには、分類すべき文書が入力される。
(2)基本表現リスト作成部(ブロック220)
ブロック220では、一般の文書の表現から基本表現リストを作成する。基本表現リストには、それぞれのカテゴリーへの含意を持つ語彙、表現を記載する。語彙、表現の中には、特定のカテゴリーへの意味的偏向を示すものがある。肯定的、否定的内容という2つのカテゴリーの場合で考えれば、「豪華、はなやか」、「、、ふんわり、なめらか」、あるいは「始まって以来の、、」等の表現には肯定的内容への偏りがあり「いま一つ、もの足りない」、「、、はいかがなものか」あるいは「残念ながら、、、」等の表現には否定的内容への意味的偏りが感じられる。この意味的偏りを一般的に含意と呼び、ここでは肯定的含意、否定的含意という用語を用いる。 このような肯定的、否定的含意を持つ表現を選択し、肯定表現リスト、否定表現リストを作り基本表現リストとする。
(3)基本表現リスト格納部(ブロック225)
ブロック225には、ブロック220で選択された基本表現リストを格納する。
ここでは、分類すべき入力文書から、ブロック220に格納されている基本表現リストを用いて、肯定表現比率、及び、否定表現比率を算出する。肯定表現比率、及び、否定表現比率は次のように定義する。
(式1) 肯定表現比率 =
当該文書における肯定表現の総数 / 当該文書における自立語の数
(式2) 否定表現比率 =
当該文書における否定表現の総数 / 当該文書における自立語の数
ここで、自立語とは、ある観念を表し、文中で単独でも文節を構成することのできる語を言う。名詞、代名詞、動詞、形容詞、形容動詞、連体詞、副詞、接続詞、感動詞の類を言う。
これらの肯定表現比率、否定表現比率をそれぞれの「文書素性ベクトル」(後述)の成分の一部とすることが出来る。
ブロック240では連語リストを作成する。以下に連語リストについて説明する。
(a)連語素性
「非自立的要素」の「連語」を定義し、入力文書から候補のパターンの発生頻度を抽出する。多数の候補が抽出される場合には、統計的方法によって文書分類に有効なパターンを選び出し「連語素性」とする。ここで、「非自立的要素」とは、言語の構成要素の中で、独自には出現せず、必ず他の要素について補助的な役割を果たすもので、品詞名としては、格助詞、終助詞、助動詞、接頭辞、接尾辞などが含まれる。これらの要素は直接的には、肯定的であるか否定的であるかを明確には示さないが、他の言葉との関連で、肯定的であるか否定的であるかが判断される場合がある。
以下、具体的な例で説明する。
先ず、日本語の例として次の表現を取り上げる。
(イ)「それは良い提案である。」
(ロ)「それは良い提案ではある。」
(イ)と(ロ)を比較すると、「で」が「では」に変わっただけで、発言の持つ含意全体が否定的な方向に大きく変わる。「は」だけではそのような否定的含意があるとは考えられないので、[で][は]という連鎖を形成することによってそのような含意が発生した、と考えられる。
(ハ)"This is a killer application."
(ニ)"This could have been a killer application."
(ハ)と(ニ)の違いは「is」 と「could have been」の違いだけであるが、(ニ)においては、話し手はその製品が「killer application」ではない、と考えているというニュアンスが伝わる。このように、英語においても、このような助動詞の連鎖の中に否定的含意がある、と考えられる。
このように、個々の非自立要素では発生しない含意が、他の要素とつながることによって発生する。このような肯定、否定を示唆する含意を持つ連語を検知することによって文書全体の肯定、否定への偏りを判定することを考える。
本発明では、例えば、「〜[と][も]〜(言える)、〜[か][も]〜[ない]」等、非自立的要素からなるゆるい連語を大量に検出することにより、文書分類を行う。
単純なN−グラム連語を素性とすると数千の単位の素性が得られるが、これでは文書の分類には適さない。そこで、訓練文書の肯定及び否定の文書を比較し、一方に有意に偏って出現する素性(N−グラム連語)を選択する(Z-test)。2つの文書集合にそれぞれのN−グラム連語の出現する比率を比較し、その統計テストをする比率の検定の方法を用いる。
(式3)p1= w1/n1,
(式4)p2= w2/n2
ここで、標本比率を実際のデータから得られた比率とすると、p1及びp2はを標本比率である。ここで、p1 > p2である場合に、これが有意であるかどうかを検定する、すなわち、用語Wはd1の文書の方に有意に偏って出現するかどうかを検定するということを意味する(片側検定)。
H0: pi1 = pi2 帰無仮説
H1: pi1 > pi2 片側検定における対立仮説
検定を行うために、まず実際には知られていない母比率pihat(式5)を標本比率から推定する。
(式5) pihat = (n1*p1 + n2*p2) / (n1 + n2)
ここからzを(式6)で計算する。
(式6) z = (p1-p2)/ sqrt(pihat*(1-pihat)*(1/n1+1/n2))
帰無仮説を棄却し、対立仮説を採用するには、5%の危険率において、z > 1.65でなくてはならないことになる。
このように、各連語について検定を行い、文書の中に現れるN−グラム連語であって、肯定的な文書に有意に出現するN−グラム連語、及び、否定的な文書に有意に出現するN−グラム連語をそれぞれ選択することが出来る。
(6)連語リスト格納部(ブロック245)
ブロック245には、ブロック240によって選択されたスキップN−グラム連語が格納される。本願実施例では、訓練文書から求められた約数百次元のスキップN−グラム連語が格納されている。
(8)訓練文書全素性ベクトル作成部(ブロック255)
約数百次元の「入力文書全素性ベクトル」を圧縮するための準備を行う。そのために、訓練文書を用いて、(7)と同様に、連語リスト格納部(240)に格納されているスキップN−グラム連語をもとに、当該連語の発生頻度を検出し、「訓練文書全素性ベクトル」を作成する。
文書全素性ベクトルを圧縮するために特異値分解の手法を用いる。この方法によれば多数の素性によって表現され、さらにその素性の値に多くの0が含まれる場合でも、全体の特徴を最も良く表現するより低い次元のベクトルへと変換することが可能である。また、素性が単語である場合に、単語間の間接的共起関係を捉え得ることが知られている。
(m x n)の行列Aについて、次のような3つの行列に分解することを特異値分解と呼ぶ。
(式7) A = D x S x T'
Dは、(m x n)の行列、Sは、左上から右下の対角要素に特異値が大きい順に表れる (n x n)の行列をなし、また、Tは、(n x n)の行列である。ここで「T'」は行列「T」の転置行列を表す。DとTはそれぞれの列が直交関係にある直交行列となる。 ここで、Sの特異値を大きい方からr 個取り(r <= n)、(r x r)の行列 Srとし、Dから、(m x r)の部分行列を取り出し Dr とし、T'から、(r x n)の部分行列を取り出し、Tr'とすると、
(式8) A-hat = Dr x Sr x Tr'
となり、行列Aのランクrにおける近似行列A-hatが得られる。Dumais et.al.(1988)等のLaternt Semantic Indexingでは、元のAの行列が、m個の文書、n個の用語に対応する情報を持った行列である場合に、Drは、r次元における文書の新しい配置を示し、またTrはr 次元における新しい用語の配置を示し、その重要な特徴を抽出した表示となっていると主張されている。また、Trの用語の表示においては、用語の間接的共起関係が反映される。
t1 t2 t3
D1 1 1
D2 1 1
のようにt1とt3が実際に共起する文書はなくても、t1, t2の共起と、t2, t3の共起する文書とが十分にあれば、その間にはt2を介した間接的な共起関係があると言える。Latent Semantic Indexingでは、このような場合にt1, t3の間の距離が近くなるような配置関係が抽出される。
結果として、この手法を用いれば、n次元の用語の表現が、r次元の表現に圧縮されたことになる。また、上述の間接的共起関係が反映されるという好ましい特徴も備えている。非特許文献6を参照。
本実施例では、(式8)を変形して(式9)を求める。
(式9)Dr = A-hat x Inv(Sr x Tr')
ここで、Inv(Sr x Tr')は(Sr x Tr')の逆行列である。訓練文書から求められる(r x r)の部分行列 Sr、及び、(r x n)の部分行列Tr'から(Sr x Tr')を求め、その逆行列Inv(Sr x Tr')を求める。Inv(Sr x Tr')がベクトル圧縮用部分行列である。
(10)入力文書全素性ベクトル圧縮部(ブロック260)
非特許文献6によればA-hatは(m x n)の行列であり、m個の文書、n個の用語に対応する情報を持った行列に対応する。本実施例では、入力文書は1個ずつであると考えられるので、m=1として、A-hatは(1 x n)の行列と考えてよい。同様にDrは、(1 x r)の部分行列である考えてよい。よって本実施例では、A-hatは「入力文書全素性ベクトル」であり、Drは圧縮された「入力文書素性ベクトル」である。
ブロック260では、訓練文書から求められたベクトル圧縮用部分行列Inv(Sr x Tr')、及び、入力文書から求められたA-hatを用いて、(式9)に従ってDrを求める。これにより、n次元(本実施例では数百次元)の入力文書全素性ベクトル「A-hat」をr次元(本実施例では15次元)まで圧縮した入力文書素性ベクトル「Dr」を求めることが出来る。
ブロック270では、入力文書を分類するための判別式を求める。本実施例では、判別式の精度を向上させるために、訓練文書を基に判別式の分類基準を学習する機械学習を行う。機械学習のための手法としてサポートベクトルマシンを用いる。すなわちサポートベクトルマシンに、あらかじめ2つのカテゴリに分類された訓練文書から求められた「文書素性ベクトル」を準備し、分類基準の学習を行わせる。V. Vapnikらによって開発されたサポートベクトルマシン(Support Vector machine) は、基本的に2クラスへの分類を行う高い汎化性能を持ち、本課題に適した学習方式である。サポートベクトルマシンは、判断基準となる超平面から判断基準とするデータポイント(=サポートベクトル)までの距離(マージン)を最大にする、という方法によって、高速で安定した学習をすることで知られている。
ブロック275には、ブロック270により機械学習によって、分類精度を向上した判別式が格納される。
(13)文書分類部(ブロック280)
ブロック260で圧縮された15次元の連語素性、さらに必要に応じて、(式1)(式2)に従って求められた肯定表現比率、否定表現比率を加えて、17次元の「入力文書素性ベクトル」を作成する。この入力文書素性ベクトルを用いて、ブロック275に格納されている判別式により、入力文書の分類を行う。
(14)分類文書出力部(ブロック290)
分類された入力文書が、図1に示す出力部130から出力される。
10:文書の入力
20:基本表現比率の計算
30:入力文書全素性ベクトルの作成
40:入力文書全素性ベクトルの圧縮
50:判別式による入力文書の分類
60:分類文書の出力
ステップ10:文書入力
分類すべき文書を入力する。
ステップ20:基本表現比率の計算
前述の(式1)及び(式2)に従って、肯定表現比率、否定表現比率を計算する。
ステップ30:入力文書全素性ベクトルの作成
入力文書について、連語リスト格納部(240)に格納されているN−グラム連語をもとに、当該連語の発生頻度を検出する。
入力文書に対する連語素性選択を行うと約数百次元の素性値が選択される。これを本願実施例では15次元まで圧縮する。
ステップ50:判別式による入力文書の分類
図2のブロック260で圧縮された15次元の連語素性ベクトル値、さらに必要に応じて、肯定表現比率、否定表現比率を加えて、17次元の連語素性ベクトル値を用いて、ブロック275に格納されている判別式により文書の分類を行う。
ステップ60:分類文書の出力
分類結果を所定の出力装置に出力する。
本実施例では約83%の正解率で文書を肯定的傾向の文書、否定的内容の文書に分類することが出来た。
110:記憶部
120:メインメモリー
130:表示部
140:中央制御部(CPU)
150:操作部
160:入力部
Claims (15)
- 以下の(a)及び(b)の手段を有し、入力文書を複数のカテゴリーに分類する装置、
(a)前記入力文書から、所定の複数の非自立的要素であって単独の非自立的要素のみには肯定または否定の含意はない複数の非自立的要素のみからなる連語であって肯定または否定の含意を有する連語の発生頻度をもとに、文書素性ベクトルを作成する手段と、
(b)前記文書素性ベクトルを用いて、判別式により前記入力文書を分類する手段。 - 前記所定の非自立的要素を含む連語は、連続したNグラム、又は、間に一つ以上の語を含むスキップNグラムである
請求項1に記載の装置。 - 前記文書素性ベクトルを作成する手段は、さらに、
統計的手法により所定の非自立的要素を含む連語の数を少なくする手段、
を有する請求項1及び2に記載の装置。 - 前記文書素性ベクトルを作成する手段は、さらに、
特異値分解手法を用いて、前記文書素性ベクトルの次元を圧縮する手段、
を有する請求項1から3に記載の装置。 - 前記文書素性ベクトルは、前記入力文書から、それぞれのカテゴリーへの意味的偏向を持つ含意表現の発生頻度をもとに得られる値を含む、
請求項1から4に記載の装置。 - 前記入力文書を分類する手段は、さらに、
訓練文書を用いた機械学習によって、前記判別式の分類精度を向上させる手段、
を有する請求項1から5に記載の装置。 - コンピュータによって実行され、以下の(a)及び(b)のステップによって、入力文書を複数のカテゴリーに分類する方法であって、
(a)前記入力文書から、所定の複数の非自立的要素であって単独の非自立的要素のみには肯定または否定の含意はない複数の非自立的要素のみからなる連語であって肯定または否定の含意を有する連語の発生頻度をもとに、文書素性ベクトルを作成するステップと、
(b)前記文書素性ベクトルを用いて、判別式により前記入力文書を分類し出力部へ出力するステップ。 - 前記文書素性ベクトルを作成するステップは、さらに、
統計的手法により所定の非自立的要素を含む連語の数を少なくするステップ、
を有する請求項7に記載の方法。 - 前記文書素性ベクトルを作成するステップは、さらに、
特異値分解手法を用いて、前記文書素性ベクトルの次元を圧縮するステップ、
を有する請求項7及び8に記載の方法。 - 前記文書素性ベクトルは、前記入力文書から、それぞれのカテゴリーへの意味的偏向を持つ含意表現の発生頻度をもとに得られる値を含む
請求項7から9に記載の方法。 - 前記入力文書を分類するステップは、さらに、
訓練文書を用いた機械学習によって、前記判別式の分類精度を向上させるステップ、
を有する請求項7から10に記載の方法。 - コンピュータを制御して、以下の(a)から(b)の手段を動作させ、入力文書を複数のカテゴリーに分類する文書分類プログラム、
(a)前記入力文書から、所定の複数の非自立的要素であって単独の非自立的要素のみには肯定または否定の含意はない複数の非自立的要素のみからなる連語であって肯定または否定の含意を有する連語の発生頻度をもとに、文書素性ベクトルを作成する手段、
(b)前記文書素性ベクトルを用いて、判別式により前記入力文書を分類し出力部へ出力する手段。 - 前記文書素性ベクトルを作成する手段は、さらに、
特異値分解手法を用いて、前記文書素性ベクトルの次元を圧縮する手段、
を有する請求項12に記載のプログラム。 - 前記文書素性ベクトルは、
前記入力文書から、それぞれのカテゴリーへの意味的偏向を持つ含意表現の発生頻度をもとに得られる値を、
含む請求項12及び13に記載のプログラム。 - 前記入力文書を分類する手段は、さらに、
訓練文書を用いた機械学習によって、前記判別式の分類精度を向上させる手段、
を有する請求項12から14に記載のプログラム。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004299229A JP4713870B2 (ja) | 2004-10-13 | 2004-10-13 | 文書分類装置、方法、プログラム |
EP05256262A EP1650680B1 (en) | 2004-10-13 | 2005-10-06 | Device, method, processor arrangement and computer-readable medium storing program for document classification |
DE602005018429T DE602005018429D1 (de) | 2004-10-13 | 2005-10-06 | Vorrichtung, Verfahren, Prozessoranordnung und computerlesbares Datenträgerspeicherprogramm zur Dokumentklassifizierung |
US11/245,123 US20060112040A1 (en) | 2004-10-13 | 2005-10-07 | Device, method, and program for document classification |
KR1020050095808A KR20060052194A (ko) | 2004-10-13 | 2005-10-12 | 문서 분류 장치, 방법, 프로그램 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004299229A JP4713870B2 (ja) | 2004-10-13 | 2004-10-13 | 文書分類装置、方法、プログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2006113746A JP2006113746A (ja) | 2006-04-27 |
JP2006113746A5 JP2006113746A5 (ja) | 2007-11-15 |
JP4713870B2 true JP4713870B2 (ja) | 2011-06-29 |
Family
ID=35871194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004299229A Expired - Fee Related JP4713870B2 (ja) | 2004-10-13 | 2004-10-13 | 文書分類装置、方法、プログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20060112040A1 (ja) |
EP (1) | EP1650680B1 (ja) |
JP (1) | JP4713870B2 (ja) |
KR (1) | KR20060052194A (ja) |
DE (1) | DE602005018429D1 (ja) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102007013139A1 (de) * | 2007-03-15 | 2008-09-18 | Stefan Kistner | Verfahren und Computerprommprodukt zur Klassifizierung elektronischer Daten |
US7996210B2 (en) * | 2007-04-24 | 2011-08-09 | The Research Foundation Of The State University Of New York | Large-scale sentiment analysis |
US8005782B2 (en) * | 2007-08-10 | 2011-08-23 | Microsoft Corporation | Domain name statistical classification using character-based N-grams |
US8041662B2 (en) * | 2007-08-10 | 2011-10-18 | Microsoft Corporation | Domain name geometrical classification using character-based n-grams |
KR100931785B1 (ko) * | 2007-11-19 | 2009-12-14 | 주식회사 오피엠에스 | 부정 컨텐츠 판별 장치 및 방법 |
US20090274376A1 (en) * | 2008-05-05 | 2009-11-05 | Yahoo! Inc. | Method for efficiently building compact models for large multi-class text classification |
KR101005337B1 (ko) * | 2008-09-29 | 2011-01-04 | 주식회사 버즈니 | 웹 문서에서의 의견 추출 및 분석 장치 및 그 방법 |
EP2377054A4 (en) * | 2008-12-08 | 2013-01-23 | Decernis Llc | APPARATUS AND METHOD FOR THE AUTOMATIC DISCOVERY OF CONTROL EVENTS FROM PUBLICATION OF DOCUMENTS |
CN101833555B (zh) * | 2009-03-12 | 2016-05-04 | 富士通株式会社 | 信息提取方法和装置 |
US8868402B2 (en) * | 2009-12-30 | 2014-10-21 | Google Inc. | Construction of text classifiers |
US8924391B2 (en) | 2010-09-28 | 2014-12-30 | Microsoft Corporation | Text classification using concept kernel |
KR101355956B1 (ko) * | 2011-12-13 | 2014-02-03 | 한국과학기술원 | 논쟁적인 이슈에 관한 상반된 관점들을 제시할 수 있는 기사 분류 방법 및 시스템 |
CA2886581C (en) * | 2012-09-28 | 2023-10-17 | Alkis Papadopoullos | Method and system for analysing sentiments |
FR3016981A1 (fr) * | 2014-01-28 | 2015-07-31 | Deadia | Procede d'analyse semantique d'un texte |
US10152474B2 (en) * | 2015-08-28 | 2018-12-11 | Accenture Global Services Limited | Automated term extraction |
JP6775935B2 (ja) | 2015-11-04 | 2020-10-28 | 株式会社東芝 | 文書処理装置、方法、およびプログラム |
JP6602243B2 (ja) * | 2016-03-16 | 2019-11-06 | 株式会社東芝 | 学習装置、方法、及びプログラム |
JP6622172B2 (ja) | 2016-11-17 | 2019-12-18 | 株式会社東芝 | 情報抽出支援装置、情報抽出支援方法およびプログラム |
CN109739950B (zh) * | 2018-12-25 | 2020-03-31 | 中国政法大学 | 筛选适用法律条文的方法及装置 |
CN109614494B (zh) * | 2018-12-29 | 2021-10-26 | 东软集团股份有限公司 | 一种文本分类方法及相关装置 |
CN112256865B (zh) * | 2019-01-31 | 2023-03-21 | 青岛科技大学 | 一种基于分类器的中文文本分类方法 |
US11734582B2 (en) * | 2019-10-31 | 2023-08-22 | Sap Se | Automated rule generation framework using machine learning for classification problems |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000207404A (ja) * | 1999-01-11 | 2000-07-28 | Sumitomo Metal Ind Ltd | 文書検索方法及び装置並びに記録媒体 |
JP2000339310A (ja) * | 1999-05-25 | 2000-12-08 | Nippon Telegr & Teleph Corp <Ntt> | 文書分類方法、文書分類装置、およびプログラムを記録する記録媒体 |
JP2001022727A (ja) * | 1999-07-05 | 2001-01-26 | Nippon Telegr & Teleph Corp <Ntt> | テキスト分類学習方法及び装置及びテキスト分類学習プログラムを格納した記憶媒体 |
JP2002092006A (ja) * | 2000-07-21 | 2002-03-29 | Ford Motor Co | テーマに基く文書分類システム |
JP2002092004A (ja) * | 2000-09-13 | 2002-03-29 | Nec Corp | 情報分類装置 |
JP2002140465A (ja) * | 2000-08-21 | 2002-05-17 | Fujitsu Ltd | 自然文処理装置及び自然文処理用プログラム |
JP2003271616A (ja) * | 2002-03-13 | 2003-09-26 | Ricoh Co Ltd | 文書分類装置、文書分類方法及び記録媒体 |
JP2004094521A (ja) * | 2002-08-30 | 2004-03-25 | Nippon Telegr & Teleph Corp <Ntt> | 質問タイプ学習方法、学習装置、質問タイプ学習プログラム、同プログラムを記録した記録媒体、学習データを記録した記録媒体、学習データを用いた質問タイプ同定方法、装置、プログラム、および該プログラムを記録した記録媒体 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9821787D0 (en) * | 1998-10-06 | 1998-12-02 | Data Limited | Apparatus for classifying or processing data |
US20020032564A1 (en) * | 2000-04-19 | 2002-03-14 | Farzad Ehsani | Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface |
EP1429258A4 (en) * | 2001-07-26 | 2007-08-29 | Ibm | DATA PROCESSING, DATA PROCESSING SYSTEM AND PROGRAM |
NO316480B1 (no) * | 2001-11-15 | 2004-01-26 | Forinnova As | Fremgangsmåte og system for tekstuell granskning og oppdagelse |
-
2004
- 2004-10-13 JP JP2004299229A patent/JP4713870B2/ja not_active Expired - Fee Related
-
2005
- 2005-10-06 EP EP05256262A patent/EP1650680B1/en not_active Not-in-force
- 2005-10-06 DE DE602005018429T patent/DE602005018429D1/de active Active
- 2005-10-07 US US11/245,123 patent/US20060112040A1/en not_active Abandoned
- 2005-10-12 KR KR1020050095808A patent/KR20060052194A/ko active IP Right Grant
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000207404A (ja) * | 1999-01-11 | 2000-07-28 | Sumitomo Metal Ind Ltd | 文書検索方法及び装置並びに記録媒体 |
JP2000339310A (ja) * | 1999-05-25 | 2000-12-08 | Nippon Telegr & Teleph Corp <Ntt> | 文書分類方法、文書分類装置、およびプログラムを記録する記録媒体 |
JP2001022727A (ja) * | 1999-07-05 | 2001-01-26 | Nippon Telegr & Teleph Corp <Ntt> | テキスト分類学習方法及び装置及びテキスト分類学習プログラムを格納した記憶媒体 |
JP2002092006A (ja) * | 2000-07-21 | 2002-03-29 | Ford Motor Co | テーマに基く文書分類システム |
JP2002140465A (ja) * | 2000-08-21 | 2002-05-17 | Fujitsu Ltd | 自然文処理装置及び自然文処理用プログラム |
JP2002092004A (ja) * | 2000-09-13 | 2002-03-29 | Nec Corp | 情報分類装置 |
JP2003271616A (ja) * | 2002-03-13 | 2003-09-26 | Ricoh Co Ltd | 文書分類装置、文書分類方法及び記録媒体 |
JP2004094521A (ja) * | 2002-08-30 | 2004-03-25 | Nippon Telegr & Teleph Corp <Ntt> | 質問タイプ学習方法、学習装置、質問タイプ学習プログラム、同プログラムを記録した記録媒体、学習データを記録した記録媒体、学習データを用いた質問タイプ同定方法、装置、プログラム、および該プログラムを記録した記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
EP1650680B1 (en) | 2009-12-23 |
EP1650680A2 (en) | 2006-04-26 |
US20060112040A1 (en) | 2006-05-25 |
JP2006113746A (ja) | 2006-04-27 |
DE602005018429D1 (de) | 2010-02-04 |
EP1650680A3 (en) | 2007-06-20 |
KR20060052194A (ko) | 2006-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4713870B2 (ja) | 文書分類装置、方法、プログラム | |
Joty et al. | Combining intra-and multi-sentential rhetorical parsing for document-level discourse analysis | |
US8027979B2 (en) | Document summarization | |
EP2553605B1 (en) | Text classifier system | |
US9053089B2 (en) | Part-of-speech tagging using latent analogy | |
CN111897970A (zh) | 基于知识图谱的文本比对方法、装置、设备及存储介质 | |
Antony et al. | Kernel based part of speech tagger for kannada | |
Menai | Word sense disambiguation using evolutionary algorithms–Application to Arabic language | |
Imran et al. | The impact of synthetic text generation for sentiment analysis using GAN based models | |
Meyer et al. | Fine-grained financial news sentiment analysis | |
Chandio et al. | Sentiment analysis of roman Urdu on e-commerce reviews using machine learning | |
Cajueiro et al. | A comprehensive review of automatic text summarization techniques: method, data, evaluation and coding | |
Dalai et al. | Part-of-speech tagging of Odia language using statistical and deep learning based approaches | |
Das et al. | Identifying emotional expressions, intensities and sentence level emotion tags using a supervised framework | |
Singh et al. | Writing Style Change Detection on Multi-Author Documents. | |
Garcia et al. | Fakerecogna: A new brazilian corpus for fake news detection | |
Al Mahmoud et al. | Cluster-based ensemble learning model for improving sentiment classification of Arabic documents | |
Shi et al. | A supervised fine-grained sentiment analysis system for online reviews | |
Priyadarshi et al. | A study on the performance of recurrent neural network based models in Maithili part of speech tagging | |
HaCohen-Kerner et al. | Cross-domain Authorship Attribution: Author Identification using char sequences, word unigrams, and POS-tags features | |
Raring et al. | Semantic relations between text segments for semantic storytelling: Annotation tool-dataset-evaluation | |
Ogunsuyi Opeyemi et al. | K-nearest neighbors bayesian approach to false news detection from text on social media | |
Jurdziński | Word embeddings for morphologically complex languages | |
Pfütze et al. | A Corpus for Suggestion Mining of German Peer Feedback | |
Sureja et al. | Using sentimental analysis approach review on classification of movie script |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070928 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070928 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20071102 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071113 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071220 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20091127 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20091130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100531 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100830 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101020 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110118 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110302 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110325 |
|
LAPS | Cancellation because of no payment of annual fees |