JP4407272B2 - 文書分類方法、文書分類装置及び文書分類プログラム - Google Patents
文書分類方法、文書分類装置及び文書分類プログラム Download PDFInfo
- Publication number
- JP4407272B2 JP4407272B2 JP2003424905A JP2003424905A JP4407272B2 JP 4407272 B2 JP4407272 B2 JP 4407272B2 JP 2003424905 A JP2003424905 A JP 2003424905A JP 2003424905 A JP2003424905 A JP 2003424905A JP 4407272 B2 JP4407272 B2 JP 4407272B2
- Authority
- JP
- Japan
- Prior art keywords
- group
- cluster
- document
- classification
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
Claims (6)
- 複数の文書をユーザが所望するグループに分類する文書分類装置として、コンピュータシステムを機能させるためのプログラムであって、当該コンピュータを、
記憶手段に記憶された分類体系に基づいて新たに分類する文書群を、その文書群に含まれる各文書の特徴量に基づいてクラスタ分けすると共に、各クラスタの特徴量を当該クラスタに属する文書の特徴量に基づき算出するクラスタリング手段、
前記分類体系を形成する各グループの特徴量と、前記クラスタリング手段により算出された各クラスタの特徴量とに基づき各グループと各クラスタとの類似度を求める類似度算出手段、
前記類似度算出手段により求められた類似度と予め設定されている基準値との比較結果に基づいて、当該クラスタを既存のグループに振り分けるか、あるいは当該クラスタを分類する新たなグループを生成して前記分類体系に追加するかを決定する分類手段、
として機能させることを特徴とする文書分類プログラム。 - 請求項1記載の文書分類プログラムにおいて、
前記クラスタリング手段は、文書群に含まれる各文書の特徴量を表す要素として、前記分類体系を形成するグループの各名称と、文書群において出現頻度の多い所定数のキーワードとを用いることを特徴とする文書分類プログラム。 - 請求項1記載の文書分類プログラムにおいて、
前記分類手段は、前記類似度と前記基準値とを比較した結果、
前記類似度算出手段により求められた類似度が前記基準値に達していないクラスタに対しては、当該クラスタを分類するためのグループを新たに生成し、
前記類似度算出手段により求められた類似度が前記基準値に達している場合には、当該クラスタを最も類似度の高いグループに振り分けることを特徴とする文書分類プログラム。 - 請求項1記載の文書分類プログラムにおいて、
前記クラスタリング手段は、各クラスタに対して当該クラスタに属する文書において出現頻度の多いキーワードの一つを当該クラスタの名称として決定し、
前記分類手段は、前記類似度と前記基準値とを比較した結果、
前記類似度判定手段により求められた類似度が前記基準値に達していないクラスタに対しては、当該クラスタを分類するためのグループを新たに生成し、
前記類似度判定手段により求められた類似度が前記基準値に達している場合において、最も類似度の高いグループのグループ名と当該クラスタ名とが一致したときには当該クラスタを当該グループに振り分け、一致していないときには当該クラスタを分類するためのグループを、当該グループのサブグループとして新たに生成することを特徴とする文書分類プログラム。 - 複数の文書をユーザが所望するグループに分類するための分類体系が記憶される分類体系記憶手段と、
新たに分類する文書群を、その文書群に含まれる各文書の特徴量に基づいてクラスタ分けすると共に、各クラスタの特徴量を当該クラスタに属する文書の特徴量に基づき算出するクラスタリング手段と、
前記分類体系を形成する各グループの特徴量と、前記クラスタリング手段により算出された各クラスタの特徴量とに基づき各グループと各クラスタとの類似度を求める類似度算出手段と、
前記類似度算出手段により求められた類似度と予め設定されている基準値との比較結果に基づいて、当該クラスタを既存のグループに振り分けるか、あるいは当該クラスタを分類する新たなグループを生成して前記分類体系に追加するかを決定する分類手段と、
を有することを特徴とする文書分類装置。 - 複数の文書をユーザが所望するグループに分類する、文書分類装置が実行する文書分類方法において、
記憶手段に記憶された分類体系に基づいて新たに分類する文書群を、クラスタリング手段によりその文書群に含まれる各文書の特徴量に基づいてクラスタ分けすると共に、各クラスタの特徴量を当該クラスタに属する文書の特徴量に基づき算出するクラスタリングステップと、
前記分類体系を形成する各グループの特徴量と、前記クラスタリングステップにより算出された各クラスタの特徴量とに基づき類似度算出手段により各グループと各クラスタとの類似度を求める類似度算出ステップと、
前記類似度算出ステップにより求められた類似度と予め設定されている基準値との比較結果に基づいて、当該クラスタを既存のグループに振り分けるか、あるいは当該クラスタを分類手段により分類する新たなグループを生成して前記分類体系に追加するかを決定する分類ステップと、
を有することを特徴とする文書分類方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003424905A JP4407272B2 (ja) | 2003-12-22 | 2003-12-22 | 文書分類方法、文書分類装置及び文書分類プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003424905A JP4407272B2 (ja) | 2003-12-22 | 2003-12-22 | 文書分類方法、文書分類装置及び文書分類プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005182611A JP2005182611A (ja) | 2005-07-07 |
JP4407272B2 true JP4407272B2 (ja) | 2010-02-03 |
Family
ID=34784958
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003424905A Expired - Fee Related JP4407272B2 (ja) | 2003-12-22 | 2003-12-22 | 文書分類方法、文書分類装置及び文書分類プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4407272B2 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7831599B2 (en) * | 2005-03-04 | 2010-11-09 | Eastman Kodak Company | Addition of new images to an image database by clustering according to date/time and image content and representative image comparison |
JP2008070958A (ja) * | 2006-09-12 | 2008-03-27 | Sony Corp | 情報処理装置および方法、並びに、プログラム |
CN101561805B (zh) * | 2008-04-18 | 2014-06-25 | 日电(中国)有限公司 | 文档分类器生成方法和系统 |
KR101071495B1 (ko) | 2009-05-12 | 2011-10-10 | 인하대학교 산학협력단 | 전자문서 자동 분류 방법 및 장치 |
JP6007784B2 (ja) | 2012-12-21 | 2016-10-12 | 富士ゼロックス株式会社 | 文書分類装置及びプログラム |
JP6039057B2 (ja) * | 2013-03-14 | 2016-12-07 | 株式会社東芝 | 文書分析装置及び文書分析プログラム |
JP6429383B2 (ja) * | 2015-01-13 | 2018-11-28 | 日本放送協会 | 下位表現抽出装置およびプログラム |
CN107786943B (zh) * | 2017-11-15 | 2020-09-01 | 北京腾云天下科技有限公司 | 一种用户分群方法及计算设备 |
CN110941645B (zh) * | 2018-09-21 | 2023-04-07 | 北京国双科技有限公司 | 一种自动判定串案的方法、装置、存储介质及处理器 |
CN111324737B (zh) * | 2020-03-23 | 2022-04-22 | 中国电子科技集团公司第三十研究所 | 一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置 |
CN114969348B (zh) * | 2022-07-27 | 2023-10-27 | 杭州电子科技大学 | 基于逆变调节知识库的电子文件分级分类方法及系统 |
-
2003
- 2003-12-22 JP JP2003424905A patent/JP4407272B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005182611A (ja) | 2005-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6782858B2 (ja) | 文献分類装置 | |
US7769771B2 (en) | Searching a document using relevance feedback | |
JP5503046B2 (ja) | 形状に基づく画像検索 | |
US6654744B2 (en) | Method and apparatus for categorizing information, and a computer product | |
EP1678635B1 (en) | Method and apparatus for automatic file clustering into a data-driven, user-specific taxonomy | |
JP6183376B2 (ja) | インデックス生成装置及び方法並びに検索装置及び検索方法 | |
US20090327259A1 (en) | Automatic concept clustering | |
AU2013365452B2 (en) | Document classification device and program | |
WO2001031502A1 (fr) | Dispositif et procede de classement et de rangement d'informations multimedia | |
CN108334951B (zh) | 针对决策树的节点的数据的预统计 | |
KR20100072070A (ko) | 콘텐트 아이템들의 수집과 연관하여 메타데이터 생성 | |
JP4407272B2 (ja) | 文書分類方法、文書分類装置及び文書分類プログラム | |
JP2009099124A (ja) | データ構築方法とシステム | |
US20120046937A1 (en) | Semantic classification of variable data campaign information | |
US20180107720A1 (en) | Dynamic assignment of search parameters to search phrases | |
JP2001101227A (ja) | 文書分類装置および文書分類方法 | |
US6424963B1 (en) | Document retrieval having retrieval conditions that shuffles documents in a sequence of occurrence | |
CN106294784B (zh) | 资源搜索方法及装置 | |
JPH10111869A (ja) | 情報分類装置とその方法 | |
JP2003323454A (ja) | メタ情報を有するコンテンツをマッピングする方法、装置、及びコンピュータプログラム | |
JP2005010848A (ja) | 情報検索装置、情報検索方法、情報検索プログラム、及び記録媒体 | |
JP2000305950A (ja) | 文書分類装置および文書分類方法 | |
JP2004206571A (ja) | 文書情報提示方法及び装置並びにプログラム及び記録媒体 | |
JP4128033B2 (ja) | プロファイルデータ検索装置及びプログラム | |
JPH10162011A (ja) | 情報検索方法、情報検索システム、情報検索端末装置および情報検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061127 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090522 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090602 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090715 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091020 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091102 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4407272 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121120 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121120 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131120 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |