JP4906123B2 - 文書分類装置、文書分類方法、プログラム及び記録媒体 - Google Patents
文書分類装置、文書分類方法、プログラム及び記録媒体 Download PDFInfo
- Publication number
- JP4906123B2 JP4906123B2 JP2008187335A JP2008187335A JP4906123B2 JP 4906123 B2 JP4906123 B2 JP 4906123B2 JP 2008187335 A JP2008187335 A JP 2008187335A JP 2008187335 A JP2008187335 A JP 2008187335A JP 4906123 B2 JP4906123 B2 JP 4906123B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- vector
- category
- subcategory
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
別所克人、内山俊郎、片岡良治著「単語間の階層関係に基づくテキスト分類方式」信学技報、Vol.PRMU2007-15、pp79-84、2007年5月
上記で、TFpugの代わりに、以下の式で表されるXpugのTFIDFpugを用いて、以降の処理を行ってもよい。
クラスタリングの終了条件として、(A):クラスタ数N0、(B):距離の閾値d0のいずれかを定めておく。
上記で、TFLfの代わりに、以下の式で表されるWLfのTFIDFLfを用いて、以降の処理を行ってもよい。
d(L,Spq):‖v(L)−v(Spq)‖
として算出する。
s(L,Spq):=(v(L)・v(Spq))/(‖v(L)‖・‖v(Spq)‖)
として算出する。上式の右辺の分子は、v(L)、v(Spq)の内積である。
(2.2)…文書クラスタリング手段、
(2.3)…サブカテゴリベクトル取得手段、
(2.4)…入力文書ベクトル取得手段、
(2.5)…関連度算出手段、
(2.6)…単語概念ベース。
Claims (4)
- 単語とその意味表現である単語ベクトルの対の集合を格納した単語概念ベースを具備し、
カテゴリ毎に該カテゴリに該当する文書の集合が対応付けられているカテゴリの集合が入力されたとき、
各カテゴリに対し、該カテゴリの各文書ベクトルを、該文書内の単語の、前記単語概念ベースから取得した単語ベクトルの重心として算出する文書ベクトル取得手段と、
該カテゴリに対し、該カテゴリの各文書の、前記文書ベクトル取得手段で取得した文書ベクトルをクラスタリングし、その結果得られた文書ベクトルの各クラスタをサブカテゴリとするサブカテゴリ集合を取得する文書クラスタリング手段と、
該カテゴリの、前記文書クラスタリング手段で取得した各サブカテゴリに対し、該サブカテゴリ内の各文書の、前記文書ベクトル取得手段で取得した文書ベクトルの重心を、該サブカテゴリのサブカテゴリベクトルとして取得するサブカテゴリベクトル取得手段と、
を有し、
文書が入力されると、
該入力文書の入力文書ベクトルを、該入力文書内の単語の、前記単語概念ベースから取得した単語ベクトルの重心として算出する入力文書ベクトル取得手段と、
各カテゴリに対し、該カテゴリの各サブカテゴリの、前記サブカテゴリベクトル取得手段で取得したサブカテゴリベクトルと、前記入力文書ベクトル取得手段で取得した入力文書ベクトルとの距離または類似度を求め、該距離の最小値、または、該類似度の最大値を、該カテゴリと入力文書との距離または類似度として出力する関連度算出手段とをさらに併せ持つことを特徴とする文書分類装置。 - カテゴリ毎に該カテゴリに該当する文書の集合が対応付けられているカテゴリの集合が入力されたとき、
文書ベクトル取得手段が、各カテゴリに対し、該カテゴリの各文書ベクトルを、該文書内の単語の、単語とその意味表現である単語ベクトルの対の集合を格納した単語概念ベースから取得した単語ベクトルの重心として算出し、記憶装置に記憶する文書ベクトル取得工程と、
文書クラスタリング手段が、該カテゴリに対し、該カテゴリの各文書の、前記文書ベクトル取得工程で取得した文書ベクトルをクラスタリングし、その結果得られた文書ベクトルの各クラスタをサブカテゴリとするサブカテゴリ集合を取得し、記憶装置に記憶する文書クラスタリング工程と、
サブカテゴリベクトル取得手段が、該カテゴリの、前記文書クラスタリング工程で取得した各サブカテゴリに対し、該サブカテゴリ内の各文書の、前記文書ベクトル取得工程で取得した文書ベクトルの重心を、該サブカテゴリのサブカテゴリベクトルとして取得し、記憶装置に記憶するサブカテゴリベクトル取得工程と、
を有し、
文書が入力されると、
入力文書ベクトル取得手段が、該入力文書の入力文書ベクトルを、該入力文書内の単語の、前記単語概念ベースから取得した単語ベクトルの重心として算出し、記憶装置に記憶する入力文書ベクトル取得工程と、
関連度算出手段が、各カテゴリに対し、該カテゴリの各サブカテゴリの、前記サブカテゴリベクトル取得工程で取得したサブカテゴリベクトルと、前記入力文書ベクトル取得工程で取得した入力文書ベクトルとの距離または類似度を求め、該距離の最小値、または、該類似度の最大値を、該カテゴリと入力文書との距離または類似度として算出し、記憶装置に記憶し、出力する関連度算出工程とをさらに併せ持つことを特徴とする文書分類方法。 - 請求項1に記載の文書分類装置を構成する各手段としてコンピュータを機能させるプログラム。
- 請求項1に記載の文書分類装置を構成する各手段としてコンピュータを機能させるプログラムを記録したコンピュータ読取可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008187335A JP4906123B2 (ja) | 2008-07-18 | 2008-07-18 | 文書分類装置、文書分類方法、プログラム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008187335A JP4906123B2 (ja) | 2008-07-18 | 2008-07-18 | 文書分類装置、文書分類方法、プログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010026782A JP2010026782A (ja) | 2010-02-04 |
JP4906123B2 true JP4906123B2 (ja) | 2012-03-28 |
Family
ID=41732561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008187335A Active JP4906123B2 (ja) | 2008-07-18 | 2008-07-18 | 文書分類装置、文書分類方法、プログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4906123B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014232494A (ja) * | 2013-05-30 | 2014-12-11 | 日本電信電話株式会社 | 文書作成支援装置およびその動作方法 |
JP6722615B2 (ja) * | 2017-04-07 | 2020-07-15 | 日本電信電話株式会社 | クエリクラスタリング装置、方法、及びプログラム |
WO2022208706A1 (ja) * | 2021-03-31 | 2022-10-06 | 日本電気株式会社 | 情報処理装置、分類方法、および分類プログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3118725B2 (ja) * | 1991-09-11 | 2000-12-18 | 株式会社日立製作所 | 自動分類方法 |
JP2002183171A (ja) * | 2000-12-12 | 2002-06-28 | Matsushita Electric Ind Co Ltd | 文書データ・クラスタリングシステム |
-
2008
- 2008-07-18 JP JP2008187335A patent/JP4906123B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010026782A (ja) | 2010-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Abbas et al. | Multinomial Naive Bayes classification model for sentiment analysis | |
Devika et al. | Sentiment analysis: a comparative study on different approaches | |
Feng et al. | The deep learning–based recommender system “Pubmender” for choosing a biomedical publication venue: Development and validation study | |
CN110413780B (zh) | 文本情感分析方法和电子设备 | |
Bastian et al. | Linkedin skills: large-scale topic extraction and inference | |
Rossi et al. | Optimization and label propagation in bipartite heterogeneous networks to improve transductive classification of texts | |
JP2012027845A (ja) | 情報処理装置、関連文提供方法、及びプログラム | |
CN107423371B (zh) | 一种文本正负类情感分类方法 | |
Liu et al. | Clustering documents with labeled and unlabeled documents using fuzzy semi-Kmeans | |
Zhang et al. | Continuous word embeddings for detecting local text reuses at the semantic level | |
Ashok et al. | A personalized recommender system using machine learning based sentiment analysis over social data | |
Yang et al. | Understanding online consumer review opinions with sentiment analysis using machine learning | |
Agarwal et al. | Classification of RSS feed news items using ontology | |
JP4906123B2 (ja) | 文書分類装置、文書分類方法、プログラム及び記録媒体 | |
Roul et al. | Sentiment analysis and extractive summarization based recommendation system | |
Razavi et al. | Word embedding-based approach to aspect detection for aspect-based summarization of persian customer reviews | |
Miao et al. | Multimodal semantics-based supervised latent dirichlet allocation for event classification | |
Hao et al. | Mining high-quality fine-grained type information from Chinese online encyclopedias | |
JP3925418B2 (ja) | トピック境界決定装置及びプログラム | |
Taileb et al. | Multimodal automatic image annotation method using association rules mining and clustering | |
Sobkowicz et al. | Reading book by the cover—book genre detection using short descriptions | |
Kalaivani et al. | Feature selection based on genetic algorithm and hybrid model for sentiment polarity classification | |
JP4964917B2 (ja) | ベクトル間距離算出装置、ベクトル間距離算出方法、プログラム及び記録媒体 | |
Ahmed et al. | A systematic literature review on English and Bangla Topic Modeling | |
Almaghrabi et al. | Deep Machine Learning Digital Library recommendation system based on metadata for Arabic and English languages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110324 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110415 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110610 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120106 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120106 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150120 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4906123 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |