CN105045845A - 一种文档分类管理方法及装置 - Google Patents

一种文档分类管理方法及装置 Download PDF

Info

Publication number
CN105045845A
CN105045845A CN201510382990.4A CN201510382990A CN105045845A CN 105045845 A CN105045845 A CN 105045845A CN 201510382990 A CN201510382990 A CN 201510382990A CN 105045845 A CN105045845 A CN 105045845A
Authority
CN
China
Prior art keywords
document
disaggregated model
data processing
sample data
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510382990.4A
Other languages
English (en)
Other versions
CN105045845B (zh
Inventor
郭美思
吴楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201510382990.4A priority Critical patent/CN105045845B/zh
Publication of CN105045845A publication Critical patent/CN105045845A/zh
Application granted granted Critical
Publication of CN105045845B publication Critical patent/CN105045845B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种文档分类管理方法及装置,上述方法包括以下步骤:日志收集终端获取与业务类型对应业务行为的日志记录文件;所述日志收集终端确定与所述日志记录文件对应的分布式存储区域并将所述日志记录文件发送至与所述分布式存储区域位于的日志存储终端并由所述日志存储终端进行存储;实现了有效的获取不同机器上相关联的日志信息,方便用户及管理员对日志进行整体的查询或分析,大大提升了用户体验。

Description

一种文档分类管理方法及装置
技术领域
本发明属于文档分类管理领域,尤其涉及一种文档分类管理方法及装置。
背景技术
现有技术公开了一种文档分类方法和系统,应用于包括Map程序和Reduce程序的Hadoop集群中,所述方法包括以下步骤:所述Map程序对训练文档和待分类文档进行解析,根据解析结果确定特征属性,并对所述特征属性进行划分;所述Map程序根据所述训练文档的特征属性以及对所述训练文档的分类结果,生成分类器;所述Reduce程序使用所述分类器对所述待分类文档进行分类,得到待分类文档的分类结果;该方案充分利用了Hadoop集群的分布式特点,避免了传统系统框架的局限性,具有并行快速的特点,能够快速实现对海量文档的分类,节省了分类时间,提高了文档分类效率。
但是在上述文档分类的方案中并没有结合分布式文档之间关联程度、分布式文档安全级别来确定对应数量的文档特征属性,很难满足文档的个性化分类,造成了文档分类不精确,导致用户获取一些无关内容,浪费了用户时间,大大降低了用户体验。
因此,迫切需要一种对分布式文档进行个性化、精确性的分类方案。
发明内容
本发明提供一种文档分类管理方法及装置,以解决上述问题。
本发明提供一种文档分类管理方法。上述方法包括以下步骤:分类模型获取模块根据从样本数据处理模块中获取的文档对应数目的特征属性,生成分类模型并将所述分类模型发送至文档分类模块;所述文档分类模块根据所述分类模型,对所述待分类文档进行分类。
本发明还提供一种文档分类管理装置,包括样本数据处理模块、分类模型获取模块、文档分类模块;其中,所述样本数据处理模块通过所述分类模型获取模块与所述文档分类模块相连;
所述样本数据处理模块,用于获取的文档对应数目的特征属性并将所述特征属性发送至所述分类模型获取模块;
所述分类模型获取模块,用于根据从样本数据处理模块中获取的文档对应数目的特征属性,生成分类模型并将所述分类模型发送至所述文档分类模块;
所述文档分类模块,用于根据所述分类模型,对所述待分类文档进行分类。
通过以下方案:分类模型获取模块根据从样本数据处理模块中获取的文档对应数目的特征属性,生成分类模型并将所述分类模型发送至文档分类模块;所述文档分类模块根据所述分类模型,对所述待分类文档进行分类;实现了对分布式文档进行个性化、精确性的分类方案,节约了用户时间,大大提升了用户体验。
通过以下方案:所述样本数据处理模块根据文档之间的关联度或文档的安全级别,获取所述文档对应数目的特征属性;实现了对文档的个性化分类方案,大大提升了用户体验。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1所示为本发明实施例1的文档分类管理方法处理流程图;
图2所示为本发明实施例2的文档分类管理方法处理流程图;
图3所示为本发明实施例3的文档分类管理装置结构图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图1所示为本发明实施例1的文档分类管理方法处理流程图,包括以下步骤:
步骤101:样本数据处理模块获取文档对应数目的特征属性;其中,所述文档包括训练文档、待分类文档。
进一步地,样本数据处理模块根据文档之间的关联度或文档的安全级别,获取所述文档对应数目的特征属性。
进一步地,文档之间的关联度分为三级,包括:关联度0、关联度1、关联度2。
其中,所述文档之间的关联度是指文档之间的关联程度,例如:文档P、以文档P为基础进行修改后的修改文档M之间的关联度最为紧密,设置文档P与文档M之间的关联度为2;
文档Q中的引用的部分语句来自文档T,则文档Q与文档T之间的关联度为1;
文档R、文档K之间没有任何关系,则文档R与文档K之间的关联度为0。
进一步地,所述样本数据处理模块存储关联度、文档名称及特征属性对照表,如表1所示:
关联度、文档名称及特征属性对照表
关联度 文档名称 特征属性
0 文档A、文档B、文档C 1个
1 文档D、文档E 2个
2 文档G、文档H、文档I 3个
表1
进一步地,所述安全级别分为高、中、低三级。
进一步地,所述样本数据处理模块存储安全级别、文档名称及特征属性对照表,如表2所示:
安全级别、文档名称及特征属性对照表
安全级别 文档名称 特征属性
文档1、文档2、文档3 1个
文档4、文档5 2个
文档6、文档7、文档8 3个
表2
关联度的划分、安全级别划分、特征属性个数仅仅是列举说明,可以根据实际情况进行设定,在此不用于限定本实施例的保护范围。
进一步地,所述特征属性包括日志数量、好友数量、是否使用真实头像。
步骤102:所述样本数据处理模块根据所述特征属性,分别对训练文档和待分类文档进行格式转换,得到符合预设格式的训练文档和待分类文档并将所述符合预设格式的训练文档和待分类文档发送至分类模型获取模块;
进一步地,所述样本数据处理模块使用命令行Mahout中的RrepareTwentyNewsgroups类,将训练文档和待分类文档转换为符合预设格式的训练文档和待分类文档;其中,预设格式可以是VectorWritable格式,在符合VectorWritable格式的文档中,第一个字符是类标签,其余的字符是特征属性。
进一步地,所述样本数据处理模块使用命令行Mahout中的RrepareTwentyNewsgroups类,将训练文档和待分类文档转换为符合预设格式的训练文档和待分类文档之后,还包括:
所述样本数据处理模块将所述符合预设格式的训练文档和待分类文档上传至分布式文件系统HDFS。
其中,所述样本数据处理模块采用Hadoopfs–put命令将符合预设格式的训练文档和待分类文档上传至分布式文件系统HDFS。
步骤103:所述分类模型获取模块根据格式转换后的训练文档的特征属性,生成分类模型并将所述分类模型发送至文档分类模块;
进一步地,所述分类模型获取模块根据格式转换后的训练文档的特征属性,生成分类模型并将所述分类模型发送至文档分类模块的过程为:
所述分类模型获取模块根据格式转换后的训练文档的特征属性,在分布式计算框架MapReduce下,运行对应的训练命令mahouttrainclassifier,生成分类模型并将所述分类模型发送至文档分类模块。
进一步地,所述分类模型是指贝叶斯分类器、决策树分类器。
进一步地,所述贝叶斯分类器包括Bayes分类器、TAN分类器、BAN分类器、GBN分类器。
步骤104:所述文档分类模块根据所述分类模型,对所述待分类文档进行分类。
进一步地,所述文档分类模块根据所述分类模型,运行对应的文档分类命令mahouttestclassifier,对所述待分类文档进行分类。
图2所示为本发明实施例2的文档分类管理方法处理流程图,包括以下步骤:
步骤201:分类模型获取模块根据从样本数据处理模块中获取的文档对应数目的特征属性,生成分类模型并将所述分类模型发送至文档分类模块;
步骤202:所述文档分类模块根据所述分类模型,对所述待分类文档进行分类。
图3所示为本发明实施例3的文档分类管理装置结构图,包括样本数据处理模块301、分类模型获取模块302、文档分类模块303;其中,所述样本数据处理模块301通过所述分类模型获取模块302与所述文档分类模块303相连;
所述样本数据处理模块301,用于获取的文档对应数目的特征属性并将所述特征属性发送至所述分类模型获取模块302;
所述分类模型获取模块302,用于根据从样本数据处理模块中获取的文档对应数目的特征属性,生成分类模型并将所述分类模型发送至所述文档分类模块303;
所述文档分类模块303,用于根据所述分类模型,对所述待分类文档进行分类。
通过以下方案:分类模型获取模块根据从样本数据处理模块中获取的文档对应数目的特征属性,生成分类模型并将所述分类模型发送至文档分类模块;所述文档分类模块根据所述分类模型,对所述待分类文档进行分类;实现了对分布式文档进行个性化、精确性的分类方案,节约了用户时间,大大提升了用户体验。
通过以下方案:所述样本数据处理模块根据文档之间的关联度或文档的安全级别,获取所述文档对应数目的特征属性;实现了对文档的个性化分类方案,大大提升了用户体验。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文档分类管理方法,其特征在于,包括以下步骤:
分类模型获取模块根据从样本数据处理模块中获取的文档对应数目的特征属性,生成分类模型并将所述分类模型发送至文档分类模块;
所述文档分类模块根据所述分类模型,对所述待分类文档进行分类。
2.根据权利要求1所述的方法,其特征在于,分类模型获取模块从样本数据处理模块中获取文档对应数目的特征属性之前,还包括:
样本数据处理模块获取文档对应数目的特征属性;其中,所述文档包括训练文档、待分类文档。
3.根据权利要求2所述的方法,其特征在于,所述样本数据处理模块根据所述特征属性,分别对训练文档和待分类文档进行格式转换,得到符合预设格式的训练文档和待分类文档并将所述符合预设格式的训练文档和待分类文档发送至分类模型获取模块。
4.根据权利要求3所述的方法,其特征在于,所述样本数据处理模块使用命令行Mahout中的RrepareTwentyNewsgroups类,将训练文档和待分类文档转换为符合预设格式的训练文档和待分类文档。
5.根据权利要求4所述的方法,其特征在于,所述样本数据处理模块将所述符合预设格式的训练文档和待分类文档上传至分布式文件系统HDFS。
6.根据权利要求3所述的方法,其特征在于,所述分类模型获取模块根据格式转换后的训练文档的特征属性,在分布式计算框架MapReduce下,运行对应的训练命令mahouttrainclassifier,生成分类模型并将所述分类模型发送至文档分类模块。
7.根据权利要求2所述的方法,其特征在于,所述样本数据处理模块根据文档之间的关联度或文档的安全级别,获取所述文档对应数目的特征属性。
8.根据权利要求5所述的方法,其特征在于,所述样本数据处理模块存储关联度、文档名称及特征属性对照表;安全级别、文档名称及特征属性对照表。
9.根据权利要求1所述的方法,其特征在于,所述文档分类模块根据所述分类模型,运行对应的文档分类命令mahouttestclassifier,对所述待分类文档进行分类。
10.一种文档分类管理装置,其特征在于,包括样本数据处理模块、分类模型获取模块、文档分类模块;其中,所述样本数据处理模块通过所述分类模型获取模块与所述文档分类模块相连;
所述样本数据处理模块,用于获取的文档对应数目的特征属性并将所述特征属性发送至所述分类模型获取模块;
所述分类模型获取模块,用于根据从样本数据处理模块中获取的文档对应数目的特征属性,生成分类模型并将所述分类模型发送至所述文档分类模块;
所述文档分类模块,用于根据所述分类模型,对所述待分类文档进行分类。
CN201510382990.4A 2015-07-02 2015-07-02 一种文档分类管理方法及装置 Active CN105045845B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510382990.4A CN105045845B (zh) 2015-07-02 2015-07-02 一种文档分类管理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510382990.4A CN105045845B (zh) 2015-07-02 2015-07-02 一种文档分类管理方法及装置

Publications (2)

Publication Number Publication Date
CN105045845A true CN105045845A (zh) 2015-11-11
CN105045845B CN105045845B (zh) 2018-07-31

Family

ID=54452392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510382990.4A Active CN105045845B (zh) 2015-07-02 2015-07-02 一种文档分类管理方法及装置

Country Status (1)

Country Link
CN (1) CN105045845B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682527A (zh) * 2016-12-25 2017-05-17 北京明朝万达科技股份有限公司 一种基于数据分类分级的数据安全管控方法及系统
CN116796371A (zh) * 2023-08-24 2023-09-22 北京创元天成科技发展有限公司 一种客户数据安全信息分级处理系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1609859A (zh) * 2004-11-26 2005-04-27 孙斌 搜索结果聚类的方法
CN1667607A (zh) * 2004-03-11 2005-09-14 国际商业机器公司 用于文档浏览的个性化分类处理方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1667607A (zh) * 2004-03-11 2005-09-14 国际商业机器公司 用于文档浏览的个性化分类处理方法及系统
CN1609859A (zh) * 2004-11-26 2005-04-27 孙斌 搜索结果聚类的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
乔鸿欣: "《基于MapReduce的KNN分类算法的研究与实现》", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682527A (zh) * 2016-12-25 2017-05-17 北京明朝万达科技股份有限公司 一种基于数据分类分级的数据安全管控方法及系统
CN106682527B (zh) * 2016-12-25 2019-11-15 北京明朝万达科技股份有限公司 一种基于数据分类分级的数据安全管控方法及系统
CN116796371A (zh) * 2023-08-24 2023-09-22 北京创元天成科技发展有限公司 一种客户数据安全信息分级处理系统
CN116796371B (zh) * 2023-08-24 2023-11-21 北京创元天成科技发展有限公司 一种客户数据安全信息分级处理系统

Also Published As

Publication number Publication date
CN105045845B (zh) 2018-07-31

Similar Documents

Publication Publication Date Title
CN106383877B (zh) 一种社交媒体在线短文本聚类和话题检测方法
CN102043863B (zh) 一种Web服务聚类的方法
CN106911757A (zh) 一种业务信息的推送方法和装置
CN106528641B (zh) 一种数据存储方法、装置及通信网关机
CN109657063A (zh) 一种海量环保人工上报事件数据的处理方法及存储介质
CN106846082B (zh) 基于硬件信息的旅游冷启动用户产品推荐系统及方法
CN107870981A (zh) 电子装置、数据表归档处理的方法及存储介质
CN104090936B (zh) 一种基于超图排序的新闻推荐方法
CN102855282B (zh) 一种文档推荐方法及装置
CN103473276B (zh) 超大型数据存储方法、分布式数据库系统及其检索方法
CN104135498A (zh) 一种跨平台的信息推送系统及其推送方法
CN106294738B (zh) 一种智能家居场景配置方法
CN104216979B (zh) 中文工艺专利自动分类系统及利用该系统进行专利分类的方法
CN103020645A (zh) 一种垃圾图片识别方法和系统
CN104182465A (zh) 一种基于网络的大数据处理方法
CN102567494A (zh) 网站分类方法及装置
CN103473275A (zh) 一种采用多特征融合的图像自动标注方法和系统
CN109670037A (zh) 基于主题模型和粗糙集的K-means文本聚类方法
CN102708164A (zh) 电影期望值的计算方法及系统
CN107506407B (zh) 一种文件分类、调用的方法及装置
CN107305640A (zh) 一种不均衡数据分类的方法
CN105045845A (zh) 一种文档分类管理方法及装置
CN104636492A (zh) 一种基于模糊积分特征融合的动态数据分级方法
CN109871302B (zh) 基于资源开销统计的云计算应用识别装置及方法
CN106227776A (zh) 一种支撑智慧金融的数据预处理方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant