JP2008299616A - 文書分類装置、文書分類方法、プログラム及び記録媒体 - Google Patents
文書分類装置、文書分類方法、プログラム及び記録媒体 Download PDFInfo
- Publication number
- JP2008299616A JP2008299616A JP2007145343A JP2007145343A JP2008299616A JP 2008299616 A JP2008299616 A JP 2008299616A JP 2007145343 A JP2007145343 A JP 2007145343A JP 2007145343 A JP2007145343 A JP 2007145343A JP 2008299616 A JP2008299616 A JP 2008299616A
- Authority
- JP
- Japan
- Prior art keywords
- document
- word
- words
- document data
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 指定された個数に複数の文書データを分類する文書分類装置1は、複数の文書データから単語を抽出する単語抽出部5と、単語抽出部5により抽出された各単語が存在する文書データの数を計算する文書数計算部7と、指定された個数に基づいて、文書数計算部7により計算された文書データの数の多い単語から順に単語を抽出する単語限定部11と、単語限定部11により抽出された単語で複数の文書データをベクトル化するベクトル化部13と、ベクトル化部13により生成されたベクトルを指定された個数に分類する分類部15を備える。
【選択図】 図1
Description
Claims (10)
- 指定された個数に複数の文書データを分類する文書分類装置であって、
前記複数の文書データから単語を抽出する単語抽出手段と、
前記単語抽出手段により抽出された各単語が存在する文書データの数を計算する文書数計算手段と、
前記指定された個数に基づいて、前記文書数計算手段により計算された文書データの数の多い単語から順に単語を抽出する単語限定手段と、
前記単語限定手段により抽出された単語で前記複数の文書データをベクトル化するベクトル化手段と、
前記ベクトル化手段により生成されたベクトルを前記指定された個数に分類する分類手段と、
を備える文書分類装置。 - 前記単語限定手段により抽出された単語から、前記分類手段により分類された各ベクトル群の特徴語を抽出する特徴語抽出手段を備える、請求項1に記載の文書分類装置。
- 前記指定された個数をKとし、前記記憶手段に記憶された文書データの数をRとし、関数f(x)を整数n1とn2(n1<n2)に対してf(R/n1)≧f(R/n2)を満たす関数とし、
前記単語限定手段は、前記文書数計算手段により計算された文書データの数がf(R/K)以上である単語を抽出する、請求項1又は2に記載の文書分類装置。 - 前記単語限定手段は、前記文書数計算手段により計算された文書データの数がR/K以上である単語を抽出する、請求項3に記載の文書分類装置。
- 前記指定された個数をKとし、関数g(x)を整数n1とn2(n1<n2)に対してg(n1)≦g(n2)を満たす関数とし、
前記単語限定手段は、前記文書数計算手段により計算された文書データの数が多い順に単語をg(K)個抽出する、請求項1又は2に記載の文書分類装置。 - 前記単語限定手段は、前記文書数計算手段により計算された文書データの数が多い順に単語をK個抽出する、請求項5に記載の文書分類装置。
- 前記単語限定手段は、抽出された単語のうち、存在する文書データの数が所定の数以上のものを除く、請求項1から6のいずれかに記載の文書分類装置。
- 指定された個数に複数の文書データを分類する文書分類方法であって、
単語抽出手段が、前記複数の文書データから単語を抽出する単語抽出ステップと、
文書数計算手段が、前記単語抽出手段により抽出された各単語が出現する文書データの数を計算する文書数計算ステップと、
単語限定手段が、前記指定された個数に基づいて、前記文書数計算手段により計算された文書数の多い単語から順に単語を抽出する単語限定ステップと、
ベクトル化手段が、前記単語限定手段により抽出された単語で前記複数の文書データをベクトル化するベクトル化ステップと、
分類手段が、前記ベクトル化手段により生成されたベクトルを前記指定された個数に分類する分類ステップと、
を含む文書分類方法。 - コンピュータを、請求項1から4のいずれかに記載の文書分類装置として機能させるためのプログラム。
- 請求項9記載のプログラムを記録した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007145343A JP2008299616A (ja) | 2007-05-31 | 2007-05-31 | 文書分類装置、文書分類方法、プログラム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007145343A JP2008299616A (ja) | 2007-05-31 | 2007-05-31 | 文書分類装置、文書分類方法、プログラム及び記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008299616A true JP2008299616A (ja) | 2008-12-11 |
Family
ID=40173084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007145343A Pending JP2008299616A (ja) | 2007-05-31 | 2007-05-31 | 文書分類装置、文書分類方法、プログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008299616A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012003334A (ja) * | 2010-06-14 | 2012-01-05 | Nippon Telegr & Teleph Corp <Ntt> | 文書分類装置、文書分類方法、そのプログラムおよび記録媒体 |
JP2012173813A (ja) * | 2011-02-17 | 2012-09-10 | Jvc Kenwood Corp | コンテンツ分類装置、コンテンツ分類方法およびコンテンツ分類プログラム |
JP6154933B1 (ja) * | 2016-03-29 | 2017-06-28 | 西日本電信電話株式会社 | グループ化装置、グループ化方法及びコンピュータプログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004139222A (ja) * | 2002-10-16 | 2004-05-13 | Internatl Business Mach Corp <Ibm> | 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム |
JP2004318408A (ja) * | 2003-04-15 | 2004-11-11 | Tokyo Electric Power Co Inc:The | テキスト主旨分析装置およびテキスト主旨分析プログラム |
JP2005063157A (ja) * | 2003-08-13 | 2005-03-10 | Fuji Xerox Co Ltd | 文書クラスタ抽出装置および方法 |
-
2007
- 2007-05-31 JP JP2007145343A patent/JP2008299616A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004139222A (ja) * | 2002-10-16 | 2004-05-13 | Internatl Business Mach Corp <Ibm> | 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム |
JP2004318408A (ja) * | 2003-04-15 | 2004-11-11 | Tokyo Electric Power Co Inc:The | テキスト主旨分析装置およびテキスト主旨分析プログラム |
JP2005063157A (ja) * | 2003-08-13 | 2005-03-10 | Fuji Xerox Co Ltd | 文書クラスタ抽出装置および方法 |
Non-Patent Citations (3)
Title |
---|
CSNG200600838004; 大久保 好章: 'Top-N形式概念に基づく文書クラスタの抽出' 第74回 知識ベースシステム研究会資料 (SIG-KBS-A601) , 20060727, 27-32ページ, 社団法人人工知能学会 * |
JPN6012021819; 大久保 好章: 'Top-N形式概念に基づく文書クラスタの抽出' 第74回 知識ベースシステム研究会資料 (SIG-KBS-A601) , 20060727, 27-32ページ, 社団法人人工知能学会 * |
JPN6012021822; 徳永 健伸: 言語と計算5 情報検索と言語処理 第1版, 19991125, 15-28ページ、193-194ページ, 財団法人東京大学出版会 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012003334A (ja) * | 2010-06-14 | 2012-01-05 | Nippon Telegr & Teleph Corp <Ntt> | 文書分類装置、文書分類方法、そのプログラムおよび記録媒体 |
JP2012173813A (ja) * | 2011-02-17 | 2012-09-10 | Jvc Kenwood Corp | コンテンツ分類装置、コンテンツ分類方法およびコンテンツ分類プログラム |
JP6154933B1 (ja) * | 2016-03-29 | 2017-06-28 | 西日本電信電話株式会社 | グループ化装置、グループ化方法及びコンピュータプログラム |
JP2017182341A (ja) * | 2016-03-29 | 2017-10-05 | 西日本電信電話株式会社 | グループ化装置、グループ化方法及びコンピュータプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Contextual bag-of-words for visual categorization | |
JP6004016B2 (ja) | 情報変換方法、情報変換装置および情報変換プログラム | |
CN110362677B (zh) | 文本数据类别的识别方法及装置、存储介质、计算机设备 | |
CN107194430B (zh) | 一种样本筛选方法及装置,电子设备 | |
CN103473327A (zh) | 图像检索方法与系统 | |
JP5458815B2 (ja) | マルチメディア検索システム | |
CN113850281B (zh) | 一种基于meanshift优化的数据处理方法和装置 | |
CN108595688A (zh) | 基于在线学习的潜在语义跨媒体哈希检索方法 | |
Yang et al. | A feature-metric-based affinity propagation technique for feature selection in hyperspectral image classification | |
JP2012042990A (ja) | 画像識別情報付与プログラム及び画像識別情報付与装置 | |
CN110751027B (zh) | 一种基于深度多示例学习的行人重识别方法 | |
Ju et al. | Fusing global and local features for generalized ai-synthesized image detection | |
Hahsler et al. | remm: Extensible markov model for data stream clustering in r | |
JP4937395B2 (ja) | 特徴ベクトル生成装置、特徴ベクトル生成方法及びプログラム | |
Maher et al. | Effectiveness of different similarity measures for text classification and clustering | |
CN112559747A (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
WO2014118978A1 (ja) | 学習方法、情報処理装置および学習プログラム | |
CN111506726B (zh) | 基于词性编码的短文本聚类方法、装置及计算机设备 | |
Torres-Tramón et al. | Topic detection in Twitter using topology data analysis | |
CN104143088A (zh) | 一种基于图像检索和特征权重学习的人脸识别方法 | |
JP2008299616A (ja) | 文書分類装置、文書分類方法、プログラム及び記録媒体 | |
CN116935057A (zh) | 目标评价方法、电子设备和计算机可读存储介质 | |
Omori et al. | Predict inter-photo visual similarity via pre-trained computer vision models | |
Saito et al. | Demian: Deep modality invariant adversarial network | |
Saxena et al. | Evolving efficient clustering patterns in liver patient data through data mining techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100527 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100701 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110128 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120423 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120427 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20121109 |