JP2010146222A - 文書分類装置、文書分類方法およびプログラム - Google Patents
文書分類装置、文書分類方法およびプログラム Download PDFInfo
- Publication number
- JP2010146222A JP2010146222A JP2008321725A JP2008321725A JP2010146222A JP 2010146222 A JP2010146222 A JP 2010146222A JP 2008321725 A JP2008321725 A JP 2008321725A JP 2008321725 A JP2008321725 A JP 2008321725A JP 2010146222 A JP2010146222 A JP 2010146222A
- Authority
- JP
- Japan
- Prior art keywords
- classification
- document
- score
- learning
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】文書解析部2と検索インデクス生成部3と類似文書検索部9と分類特定部12とを備えた文書分類装置において、学習用文書の集合を構成する各学習用文書を対象として、前記学習用文書毎の分類情報が格納された学習用文書−分類対応テーブル13を参照して分類スコアを分類毎に算出し、該分類時の分類精度を前記分類スコアの値の範囲毎に算出し、該分類精度を前記分類スコアの値の範囲に対応付けてスコア補正値テーブル17に格納し、該スコア補正値テーブル17を参照して、前記分類対象文書に対して算出された分類スコアと前記分類精度の間の乖離度合いに応じて分類スコアを補正する。
【選択図】図1
Description
そこで、これらの作業にかかる作業者の負担を軽減する技術として文書分類技術が注目されている。分類アルゴリズムとしては、特開2007−323454号公報に開示されているように、予め人手によって分類が付与された文書集合を学習用文書集合として用意し、まだ分類が付与されていない文書に対して、これに類似する学習用文書を検索し、検索結果上位の学習用文書に付与された分類の付与状況を統計解析して分類スコアを分類毎に算出し、当該分類スコアの大小に応じて付与すべき分類を特定するという、k近傍法(K-Nearest Neighbors法)と呼ばれる方法が一般的である(以下、本明細書では、KNN法と呼ぶこととする)。KNN法では、検索結果上位K件(KNNのK)の学習用文書の多くに付与された分類は何か、より上位の学習用文書に付与された分類は何かなどに基づいて分類スコアを分類毎に算出し、分類スコアの高い順に分類を出力する。
(他実施の形態)
次に、本発明の他実施の形態について述べる。
Claims (4)
- 既に分類が付与された学習用文書集合および分類がまだ付与されていない分類対象文書集合から構成される分類対象文書集合と、学習用文書集合を構成する各学習用文書から重み付き単語を抽出する文書解析部と、前記学習用文書と前記重み付き単語を対応付けて格納した検索インデクスを生成する検索インデクス生成部と、前記分類対象文書から重み付き単語を抽出し、前記検索インデクスを参照して、当該分類対象文書に類似する文書を、前記学習用文書集合の中から検索する類似文書検索部と、前記学習用文書に付与された分類を格納した学習用文書−分類対応テーブルを参照して、前記類似文書検索部によって検索された学習用文書に付与された分類の付与状況を解析して前記分類対象文書に対する分類スコアを分類毎に算出し、前記分類スコアの大小に応じて付与すべき分類を特定する分類特定部を備えた文書分類装置において、
前記学習用文書集合を構成する各学習用文書を対象として、前記学習用文書−分類対応テーブルを参照して分類スコアを分類毎に算出し、該分類時の分類精度を前記分類スコアの値の範囲毎に算出し、該分類精度を前記分類スコアの値の範囲に対応付けてスコア補正値テーブルに格納するスコア補正値算出部と、
前記スコア補正値テーブルを参照して、前記分類対象文書に対して算出された分類スコアと前記分類精度の間の乖離度合いに応じて分類スコアを補正するスコア補正部とを備えた、
ことを特徴とする文書分類装置。 - 既に分類が付与された学習用文書集合および分類がまだ付与されていない分類対象文書集合から構成される分類対象文書集合と、前記学習用文書集合を構成する各学習用文書から重み付き単語を抽出する文書解析部と、前記学習用文書と前記重み付き単語を対応付けて格納した検索インデクスを生成する検索インデクス生成部と、前記分類対象文書から重み付き単語を抽出し、前記検索インデクスを参照して、当該分類対象文書に類似する文書を、前記学習用文書集合の中から検索する類似文書検索部と、前記学習用文書に付与された分類を格納した学習用文書−分類対応テーブルを参照して、前記類似文書検索部によって検索された学習用文書に付与された分類の付与状況を解析して前記分類対象文書に対する分類スコアを分類毎に算出し、前記分類スコアの大小に応じて付与すべき分類を特定する分類特定部を備えた文書分類装置における文書分類方法であって、
前記学習用文書集合を構成する各学習用文書を対象として、前記学習用文書−分類対応テーブルを参照して分類スコアを分類毎に算出し、
該分類時の分類精度を前記分類スコアの値の範囲毎に算出し、
該分類精度を前記分類スコアの値の範囲に対応付けてスコア補正値テーブルに格納し、
前記スコア補正値テーブルを参照して、前記分類対象文書に対して算出された分類スコアと前記分類精度の間の乖離度合いに応じて分類スコアを補正する、
ことを特徴とする文書分類方法。 - 既に分類が付与された学習用文書集合および分類がまだ付与されていない分類対象文書集合から構成される分類対象文書集合と、前記学習用文書集合を構成する各学習用文書から重み付き単語を抽出する文書解析部と、前記学習用文書と前記重み付き単語を対応付けて格納した検索インデクスを生成する検索インデクス生成部と、前記分類対象文書から重み付き単語を抽出し、前記検索インデクスを参照して、当該分類対象文書に類似する文書を、前記学習用文書集合の中から検索する類似文書検索部と、前記学習用文書に付与された分類を格納した学習用文書−分類対応テーブルを参照して、前記類似文書検索部によって検索された学習用文書に付与された分類の付与状況を解析して前記分類対象文書に対する分類スコアを分類毎に算出し、前記分類スコアの大小に応じて付与すべき分類を特定する分類特定部を備えた文書分類装置において、
前記学習用文書集合を構成する各学習用文書を対象として、前記学習用文書−分類対応テーブルを参照して分類スコアを分類毎に算出し、該分類時の分類精度を前記分類特定部で特定された分類毎および前記分類スコアの値の範囲毎に算出し、前記分類特定部で特定された分類毎に、前記分類精度を前記分類スコアの値の範囲に対応付けてスコア補正値テーブルに格納するスコア補正値算出部と、
前記分類対象文書に対して算出された分類に対応する前記スコア補正値テーブルを参照して、前記分類対象文書に対して算出された分類スコアと前記分類精度の間の乖離度合いに応じて分類スコアを補正するスコア補正部とを備えた、
ことを特徴とする文書分類装置。 - 既に分類が付与された学習用文書集合および分類がまだ付与されていない分類対象文書集合から構成される分類対象文書集合と、前記学習用文書集合を構成する各学習用文書から重み付き単語を抽出する文書解析部と、前記学習用文書と前記重み付き単語を対応付けて格納した検索インデクスを生成する検索インデクス生成部と、前記分類対象文書から重み付き単語を抽出し、前記検索インデクスを参照して、当該分類対象文書に類似する文書を、前記学習用文書集合の中から検索する類似文書検索部と、前記学習用文書に付与された分類を格納した学習用文書−分類対応テーブルを参照して、前記類似文書検索部によって検索された学習用文書に付与された分類の付与状況を解析して前記分類対象文書に対する分類スコアを分類毎に算出し、前記分類スコアの大小に応じて付与すべき分類を特定する分類特定部を備えた文書分類装置における文書分類方法であって、
前記学習用文書集合を構成する各学習用文書を対象として、前記学習用文書−分類対応テーブルを参照して分類スコアを分類毎に算出し、
該分類時の分類精度を前記分類特定部で特定された分類毎および前記分類スコアの値の範囲毎に算出し、
前記分類特定部で特定された分類毎に、前記分類精度を前記分類スコアの値の範囲に対応付けてスコア補正値テーブルに格納し、
前記分類対象文書に対して算出された分類に対応する前記スコア補正値テーブルを参照して、前記分類対象文書に対して算出された分類スコアと前記分類精度の間の乖離度合いに応じて分類スコアを補正する、
ことを特徴とする文書分類方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008321725A JP4521459B2 (ja) | 2008-12-18 | 2008-12-18 | 文書分類装置、文書分類方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008321725A JP4521459B2 (ja) | 2008-12-18 | 2008-12-18 | 文書分類装置、文書分類方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010146222A true JP2010146222A (ja) | 2010-07-01 |
JP4521459B2 JP4521459B2 (ja) | 2010-08-11 |
Family
ID=42566614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008321725A Expired - Fee Related JP4521459B2 (ja) | 2008-12-18 | 2008-12-18 | 文書分類装置、文書分類方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4521459B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013025496A (ja) * | 2011-07-19 | 2013-02-04 | Nippon Telegr & Teleph Corp <Ntt> | データ分類装置及び方法及びプログラム |
CN104636402A (zh) * | 2013-11-13 | 2015-05-20 | 阿里巴巴集团控股有限公司 | 一种业务对象的分类、搜索、推送方法和系统 |
JP2018169753A (ja) * | 2017-03-29 | 2018-11-01 | トヨタテクニカルディベロップメント株式会社 | 文書分類装置、文書分類方法及び文書分類プログラム |
JP2020173673A (ja) * | 2019-04-11 | 2020-10-22 | 富士通株式会社 | 文書処理方法、文書処理プログラムおよび情報処理装置 |
CN111897953A (zh) * | 2020-07-08 | 2020-11-06 | 西北工业大学 | 一种新型网络媒体平台评论文本分类标注数据纠正方法 |
JP7400543B2 (ja) | 2020-02-28 | 2023-12-19 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11167581A (ja) * | 1997-12-04 | 1999-06-22 | Ntt Data Corp | 情報分類方法、装置及びシステム |
JP2003108576A (ja) * | 2001-09-28 | 2003-04-11 | Toshiba Corp | データベース管理装置およびデータベース管理方法 |
JP2008077252A (ja) * | 2006-09-19 | 2008-04-03 | Ricoh Co Ltd | 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体 |
JP2008282111A (ja) * | 2007-05-09 | 2008-11-20 | Hitachi Ltd | 類似文書検索方法、プログラムおよび装置 |
-
2008
- 2008-12-18 JP JP2008321725A patent/JP4521459B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11167581A (ja) * | 1997-12-04 | 1999-06-22 | Ntt Data Corp | 情報分類方法、装置及びシステム |
JP2003108576A (ja) * | 2001-09-28 | 2003-04-11 | Toshiba Corp | データベース管理装置およびデータベース管理方法 |
JP2008077252A (ja) * | 2006-09-19 | 2008-04-03 | Ricoh Co Ltd | 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体 |
JP2008282111A (ja) * | 2007-05-09 | 2008-11-20 | Hitachi Ltd | 類似文書検索方法、プログラムおよび装置 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013025496A (ja) * | 2011-07-19 | 2013-02-04 | Nippon Telegr & Teleph Corp <Ntt> | データ分類装置及び方法及びプログラム |
CN104636402A (zh) * | 2013-11-13 | 2015-05-20 | 阿里巴巴集团控股有限公司 | 一种业务对象的分类、搜索、推送方法和系统 |
CN104636402B (zh) * | 2013-11-13 | 2018-05-01 | 阿里巴巴集团控股有限公司 | 一种业务对象的分类、搜索、推送方法和系统 |
JP2018169753A (ja) * | 2017-03-29 | 2018-11-01 | トヨタテクニカルディベロップメント株式会社 | 文書分類装置、文書分類方法及び文書分類プログラム |
JP2020173673A (ja) * | 2019-04-11 | 2020-10-22 | 富士通株式会社 | 文書処理方法、文書処理プログラムおよび情報処理装置 |
JP7243402B2 (ja) | 2019-04-11 | 2023-03-22 | 富士通株式会社 | 文書処理方法、文書処理プログラムおよび情報処理装置 |
JP7400543B2 (ja) | 2020-02-28 | 2023-12-19 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
CN111897953A (zh) * | 2020-07-08 | 2020-11-06 | 西北工业大学 | 一种新型网络媒体平台评论文本分类标注数据纠正方法 |
CN111897953B (zh) * | 2020-07-08 | 2022-12-30 | 西北工业大学 | 一种网络媒体平台评论文本分类标注数据纠正方法 |
Also Published As
Publication number | Publication date |
---|---|
JP4521459B2 (ja) | 2010-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190228064A1 (en) | Generation apparatus, generation method, and program | |
US10496755B2 (en) | Information processing apparatus, information processing method, and non-transitory computer readable medium storing program | |
US9195952B2 (en) | Systems and methods for contextual mapping utilized in business process controls | |
US9898464B2 (en) | Information extraction supporting apparatus and method | |
JP4521459B2 (ja) | 文書分類装置、文書分類方法およびプログラム | |
US20080021891A1 (en) | Searching a document using relevance feedback | |
US20210157977A1 (en) | Display system, program, and storage medium | |
US8676738B2 (en) | Relationship detector, relationship detection method, and recording medium | |
CN116401464B (zh) | 一种职业用户画像的构建方法、装置、设备及存储介质 | |
CN112685475A (zh) | 报表查询方法、装置、计算机设备及存储介质 | |
US7734633B2 (en) | Listwise ranking | |
CN112784054A (zh) | 概念图处理装置、概念图处理方法和计算机可读介质 | |
US20170154294A1 (en) | Performance evaluation device, control method for performance evaluation device, and control program for performance evaluation device | |
JP2016177359A (ja) | 検索装置及びプログラム | |
CN113780365A (zh) | 样本生成方法和装置 | |
JP5439235B2 (ja) | 文書分類方法、文書分類装置、およびプログラム | |
CN112734307A (zh) | 一种在线实时企业画像生成方法、装置、设备及存储介质 | |
JP6883561B2 (ja) | 脆弱性推定装置及び脆弱性推定方法 | |
CN111737548A (zh) | 点选验证码识别方法、装置、计算机设备和存储介质 | |
US10467530B2 (en) | Searching text via function learning | |
CN108170665B (zh) | 基于综合相似度的关键词拓展方法和装置 | |
WO2021250950A1 (ja) | 文書検索の性能を評価する方法、システム、および装置 | |
US20230177362A1 (en) | Risk assessment apparatus, risk assessment method, and program | |
JP4426893B2 (ja) | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 | |
CN112131475A (zh) | 一种可解释、可交互的用户画像方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100421 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100518 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100524 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130528 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4521459 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130528 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |