CN111949770A - 一种文档分类方法及装置 - Google Patents

一种文档分类方法及装置 Download PDF

Info

Publication number
CN111949770A
CN111949770A CN202010856639.5A CN202010856639A CN111949770A CN 111949770 A CN111949770 A CN 111949770A CN 202010856639 A CN202010856639 A CN 202010856639A CN 111949770 A CN111949770 A CN 111949770A
Authority
CN
China
Prior art keywords
document
classification
classification model
training set
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010856639.5A
Other languages
English (en)
Inventor
何东
刘瀚琳
潘思晨
张烨华
陈可
冯珺
谢裕清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Zhejiang Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
State Grid Zhejiang Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Zhejiang Electric Power Co Ltd, Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd filed Critical State Grid Zhejiang Electric Power Co Ltd
Priority to CN202010856639.5A priority Critical patent/CN111949770A/zh
Publication of CN111949770A publication Critical patent/CN111949770A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本发明提供了一种文档分类方法及装置,创建分类语料库,将分类语料库划分为训练集和测试集,通过根据分类语料库对应的词典从训练集和测试集的每个文档中提取文档特征向量,提高了文档特征提取的准确性,在此基础上,通过利用训练集的文档特征向量对多个机器学习模型进行训练,并根据测试集的文档特征向量对每个训练得到的分类模型的分类效果进行评价,将分类效果最好的分类模型作为最终的文档分类模型,最后利用该文档分类模型进行文档分类,提高了文档分类的准确性。

Description

一种文档分类方法及装置
技术领域
本发明涉及计算机技术领域,更具体的,涉及一种文档分类方法及装置。
背景技术
随着电力技术的发展,电力行业文档的数量越来越多,种类也越来越繁杂。为了便于挖掘海量文档中有价值的数据,需要对文档进行准确分类。
目前文档分类主流技术有两种。一种是规则法,是指由专业人员为每个类别定义大量的推理规则,如果一个文档能满足某个推理规则,则可以判定为该文档属于对应的类别。但是规则法分类的质量依赖于规则的好坏,而规则需要大量的专业人员进行制定,人工投入大且质量不稳定,不同的领域需要构建完全不同的分类系统,不具备可推广性。第二种是机器学习方法,以统计理论为基础,利用算法对事先准备好分类语料做统计分析从而获得规律,构建出“分类模型”,再运用该“分类模型”对未知文本做所属分类的预测分析,实现自动分类。但是,机器学习方法分类效果依赖于模型的训练效果,如何训练出有效的分类模型成为本领域亟需解决的技术问题。
发明内容
有鉴于此,本发明提供了一种文档分类方法及装置,通过训练有效的分类模型,提高了文档分类的准确性。
为了实现上述发明目的,本发明的有益效果如下:
一种文档分类方法,包括:
创建分类语料库,并将所述分类语料库划分为训练集和测试集,所述分类语料库包括多个已标注文档类型的文档;
根据所述分类语料库对应的词典,分别从所述训练集和所述测试集的每个文档中提取文档特征向量,所述词典包括所述分类语料库中所有文档的有效分词;
基于所述训练集中每个文档的文档特征向量分别对多个机器学习模型进行训练,得到每个所述机器学习模型对应的分类模型;
利用所述测试集中每个文档的文档特征向量和已标注文档类型,分别对每个所述分类模型的分类效果进行评价,得到每个所述分类模型的评价指标值;
根据每个所述分类模型的评价指标值,确定最终的文档分类模型;
利用最终的文档分类模型进行文档分类。
可选的,所述根据所述分类语料库对应的词典,分别从所述训练集和所述测试集的每个文档中提取文档特征向量,包括:
分别对所述训练集和所述测试集的每个文档进行分词处理;
根据所述词典,对分词处理后的每个文档进行向量化处理,得到所述训练集和所述测试集中每个文档的文档特征向量。
可选的,所述分别对所述训练集和所述测试集的每个文档进行分词处理,包括:
分别对所述训练集和所述测试集的每个文档进行分词处理;
根据预先设定的停用词表,剔除所述训练集和所述测试集中每个文档的分词结果中的停用词,得到所述训练集和所述测试集中每个文档的有效分词。
可选的,所述根据所述词典,对分词处理后的每个文档进行向量化处理,得到所述训练集和所述测试集中每个文档的文档特征向量,包括:
将所述训练集和所述测试集中每个文档转换为一个多维向量,多维向量的维数与所述词典的总词数相同,多维向量每个维度分别对应所述词典中的一个词;
分别对所述训练集和所述测试集中每个文档的有效分词与所述词典进行匹配,根据匹配结果对相应的多维向量进行赋值;
对每个赋值后的多维向量进行特征优化,得到所述训练集和所述测试集中每个文档的文档特征向量。
可选的,所述分类模型的评价指标包括召回率和正确率,所述根据每个所述分类模型的评价指标值,确定最终的文档分类模型,包括:
根据预先设定的召回率权重和正确率权重,对每个所述分类模型的召回率和正确率进行加权求和,得到每个所述分类模型的评价值;
将评价值最高的所述分类模型确定为最终的文档分类模型。
一种文档分类装置,包括:
分类语料库创建单元,用于创建分类语料库,并将所述分类语料库划分为训练集和测试集,所述分类语料库包括多个已标注文档类型的文档;
特征向量提取单元,用于根据所述分类语料库对应的词典,分别从所述训练集和所述测试集的每个文档中提取文档特征向量,所述词典包括所述分类语料库中所有文档的有效分词;
分类模型训练单元,用于基于所述训练集中每个文档的文档特征向量分别对多个机器学习模型进行训练,得到每个所述机器学习模型对应的分类模型;
分类模型评价单元,用于利用所述测试集中每个文档的文档特征向量和已标注文档类型,分别对每个所述分类模型的分类效果进行评价,得到每个所述分类模型的评价指标值;
最终分类模型确定单元,用于根据每个所述分类模型的评价指标值,确定最终的文档分类模型;
文档分类单元,用于利用最终的文档分类模型进行文档分类。
可选的,所述特征向量提取单元包括:
分词处理子单元,用于分别对所述训练集和所述测试集的每个文档进行分词处理;
向量化处理子单元,用于根据所述词典,对分词处理后的每个文档进行向量化处理,得到所述训练集和所述测试集中每个文档的文档特征向量。
可选的,所述分词处理子单元,具体用于:
分别对所述训练集和所述测试集的每个文档进行分词处理;
根据预先设定的停用词表,剔除所述训练集和所述测试集中每个文档的分词结果中的停用词,得到所述训练集和所述测试集中每个文档的有效分词。
可选的,所述向量化处理子单元,具体用于:
将所述训练集和所述测试集中每个文档转换为一个多维向量,多维向量的维数与所述词典的总词数相同,多维向量每个维度分别对应所述词典中的一个词;
分别对所述训练集和所述测试集中每个文档的有效分词与所述词典进行匹配,根据匹配结果对相应的多维向量进行赋值;
对每个赋值后的多维向量进行特征优化,得到所述训练集和所述测试集中每个文档的文档特征向量。
可选的,所述最终分类模型确定单元,具体用于:
根据预先设定的召回率权重和正确率权重,对每个所述分类模型的召回率和正确率进行加权求和,得到每个所述分类模型的评价值;
将评价值最高的所述分类模型确定为最终的文档分类模型。
相对于现有技术,本发明的有益效果如下:
本发明公开的一种文档分类方法,通过根据分类语料库对应的词典从训练集和测试集的每个文档中提取文档特征向量,提高了文档特征提取的准确性,在此基础上,通过利用训练集的文档特征向量对多个机器学习模型进行训练,并根据测试集的文档特征向量对每个训练得到的分类模型的分类效果进行评价,将分类效果最好的分类模型作为最终的文档分类模型,最后利用该文档分类模型进行文档分类,提高了文档分类的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种文档分类原理示意图;
图2为本发明实施例公开的一种文档分类方法的流程示意图;
图3为本发明实施例公开的一种从训练集和测试集的每个文档中提取文档特征向量的方法流程示意图;
图4为本发明实施例公开的一种文档特征向量的提取方法流程示意图;
图5为本发明实施例公开的基于文档分词的特征化表示示意图;
图6为本发明实施例公开的一种文档分类装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种文档分类方法,请参阅图1,创建包括多个已标注文档类型的文档的分类语料库,将分类语料库划分为训练集和测试集,分别对训练集和测试集的文档进行特征提取,利用训练集的文档特征向量对多个机器学习模型进行训练,然后利用测试集的文档特征向量对训练得到的分类模型进行效果评估,最后根据评估结果确定最终的文档分类模型,进而利用最终的文档分类模型进行文档分类。其中,通过根据分类语料库对应的词典从训练集和测试集的每个文档中提取文档特征向量,提高了文档特征提取的准确性,并通过根据分类模型的评价指标值对训练得到的分类模型的分类效果进行评价,实现对分类模型的分类效果进行准确评价,从而得到最优的文档分类模型,进而实现对文档的准确分类。
具体的,请参阅图2,本实施例公开的一种文档分类方法包括如下步骤:
S101:创建分类语料库,并将分类语料库划分为训练集和测试集,分类语料库包括多个已标注文档类型的文档;
其中,分类语料库中语料文档的准确选取是后续训练模型的基础,可以根据文档分类需求选取相应专业领域中的语料文档,如对电力技术领域中的语料文档进行分类,可以将电力公司文档管理(如发文、收文、通知、会议管理等)和电力业务(输、发、配、变)以及OA系统中的公告、通知、请示、工单票据以及巡检报告等作为电力专业语料来源。
通过一致性、适用性、忠实性、易于获取、适时性、通用性、确定性、符合语言规范、典型性、随机挑选、具有统计样本意义等各指标归纳语料的选择规范,形成语料选取规范标准,确保语料的高质量要求。
一致性原则是指关联数据之间的逻辑关系的正确性和完整性。可以理解为应用程序自己认为的数据状态与最终写入到磁盘中的数据状态是否一致。在选取语料时,无论是采取机器自动切分的方法,还是采取人工分词后机器自动校对的方法,需要保证语料的选取与原始语料保持一致性,不仅应从词汇层面上保持与原文一致,同时要求从深层次上保持句法和语篇结构的一致性。
适用性原则是指选取的语料符合电力业务特性,结合电力业务特性进行规划选取,便于构建面向电力业务特性的公告、通知、通报、工作总结等文档的语料库。
易于获取原则是指能够便捷的获取语料数据,保证在需要的时候能方便地读取语料数据,这也是构建语料库的必备原则之一。
国家电网公司文档管理(如发文、收文、通知、会议管理等)涉及积累了大量的模板及与电力业务(输、发、配、变)等专业领域的主题词库和术语,在构建电力业务的语料库时,要包含电力业务领域的文本通用语料,保证基础语料库的通用性,才能追求可共享性,才能最大限度发挥语料库的价值。
从原始文档中获取语料资源时,必须按照语料库的规范原则,运用语言规范,获取符合语言规范的语料,才能保证语料库语料的可用性。
由于国家电网公司积累了大量的文档(如发文、收文、通知、会议管理等)及与电力业务(输、发、配、变)等专业领域文档,从繁杂、海量的文本中获取语料时,就要尽量追求语料的代表性,要使有限的样本语料,尽可能多地反映无限的真实语言生活的特征,才能确保获取的语料具有一定的代表性,即语料获取时遵循典型性原则。
语料选材时,科学的抽样方法是保证语料库的代表性的重要手段。概率抽样方法在抽取样本时,严格按照随机原则从总体中抽取所需样本数,使总体中所有单位都有被抽中的概率,这种方法在语料库选材中应用广泛。
为了使语料选取具有统计样本意义,语料库的选材结构就要具有平衡性。所谓平衡,不是指各种类型的语料在语料库中占有相同的比例,而是指语料库中各种类型语料的比例恰当,这种比例能和每种类型的语料对实际公司文档管理的影响因子一致。因此在语料库选材时,要预先设计分类指标,科学地确定每种类型的语料在语料库中的比例。
语料文档选取以后需要对文档类型进行标注,标注可以为专家标注。
创建分类语料库后,按照预设比例将分类语料库划分为训练集和测试集,如按照80%的比例划分训练集,按照20%的比例划分测试集,训练集和测试集的结构和分类语料库的结构完全相同。
S102:根据分类语料库对应的词典,分别从训练集和测试集的每个文档中提取文档特征向量,词典包括分类语料库中所有文档的有效分词;
具体的,分类语料库对应的词典的创建方法如下:对分类语料库中的每个文档进行分词处理,根据预先设定的停用词表,剔除分类语料库中每个文档的分词结果中的停用词,得到分类语料库中所有文档的有效分词,即得到分类语料库对应的词典。
请参阅图3,分别从训练集和测试集的每个文档中提取文档特征向量的方法如下:
S201:分别对训练集和测试集的每个文档进行分词处理;
具体的,为了避免常用的、无意义的虚词等停用词对后续分类的干扰,根据预先设定的停用词表,剔除训练接和测试集中每个文档的分词结果中的停用词,得到训练集和测试集中每个文档的有效分词。例如:内容为“通过更换网卡解决了不能上网的故障”的文档,经过上述分词处理后,简化为以下形式:[通过,更换,网卡,解决,不能,上网,故障],不再是连续的文本内容。
S202:根据分类语料库对应的词典,对分词处理后的每个文档进行向量化处理,得到训练集和测试集中每个文档的文档特征向量。
文档特征向量的提取是后续文档分类的基础,请参阅图4,本实施例公开的一种文档特征向量的提取方法如下:
S301:将训练集和测试集中每个文档转换为一个多维向量,多维向量的维数与词典的总词数相同,多维向量每个维度分别对应词典中的一个词;
S302:分别对训练集和测试集中每个文档的有效分词与词典进行匹配,根据匹配结果对相应的多维向量进行赋值;
具体的,请参阅图5,从字典的第一个词开始判断,如果文档中包含词典该位置对应的分词,则在向量的相关位置标记为1,否则标记为0,那么一个文档就可以表示为维度等于“字典总词数”、并用0和1两个数字构成的特征向量。
S303:对每个赋值后的多维向量进行特征优化,得到训练集和测试集中每个文档的文档特征向量。
在将文档内容转换为一系列分词及特征向量表示后,丢失了“大量的语义信息”。为了提升后续的算法预测质量,可以采用一系列称为“特征优化”的方法,对上述过程进行更为优化的处理。具体的算法较多,有期望交叉熵方法、信息增益方法等。
经过上述步骤,所有的文档都转换为一个计算机可以处理的特征向量,并对基于特定算法合理化调整了特征向量中各值的权重,该过程就完成了文档的特征提取。
S103:基于训练集中每个文档的文档特征向量分别对多个机器学习模型进行训练,得到每个机器学习模型对应的分类模型;
S104:利用测试集中每个文档的文档特征向量和已标注文档类型,分别对每个分类模型的分类效果进行评价,得到每个分类模型的评价指标值;
优选的,分类模型的评价指标包括召回率和正确率,当然,分类模型的评价指标也可以仅包括召回率或正确率或其他评价指标,经过实验验证,分类模型的评价指标包括召回率和正确率时,对分类模型的的分类效果评价更为准确。
S105:根据每个分类模型的评价指标值,确定最终的文档分类模型;
当分类模型的评价指标包括召回率和正确率时,确定最终的文档分类模型的方法如下:
根据预先设定的召回率权重和正确率权重,对每个分类模型的召回率和正确率进行加权求和,得到每个分类模型的评价值;
将评价值最高的分类模型确定为最终的文档分类模型。
其中,召回率权重和正确率权重可以根据召回率和正确率的重要程度进行预先设定,如将召回率权重和正确率权重都设置为1。
召回率和正确率的形式化定义如下:
设定a表示分类器将输入的文本(即测试集,下同)正确分类到某个类别的个数;b表示分类器将输入文本错误分类到某个类别的个数;c表示分类器将输入文本错误地排除在某个类别之外的个数;d表示分类器将输入文本正确地排除在某个类别之外的个数。则该分类器的召回率、正确率分别采用以下公式计算:召回率r=a/(a+c)*100%;正确率p=a/(a+b)*100%。
从上述定义可知,正确率是评价分类器找到的属于某个分类的文档是否正确的指标,而召回率是评价分类器在发现属于该分类文档过程中是否存在“遗漏”的指标。两个指标值均为越高越好,特别是当正确率和召回率都为100%时,表示该分类器发现了所有属于特定分类的文档(没有遗漏),并且发现的文档全部都是属于该分类(全部正确);故在实际过程中,可以结合业务目标基于上述两个数值对分类器效果进行评价。例如:业务要求分类器尽可能找到所有该分类的文档,并可以接受找到的文档有部分是不属于该分类的(宁可错杀,绝不放过),则可以加大“召回率”指标的评价权重。
S106:利用最终的文档分类模型进行文档分类。
具体的,将待分类文档的文档特征向量输入到最终的文档分类模型中,即可得到待分类文档的分类结果。
可见,本实施例公开的一种文档分类方法,通过根据分类语料库对应的词典从训练集和测试集的每个文档中提取文档特征向量,提高了文档特征提取的准确性,在此基础上,通过利用训练集的文档特征向量对多个机器学习模型进行训练,并根据测试集的文档特征向量对每个训练得到的分类模型的分类效果进行评价,将分类效果最好的分类模型作为最终的文档分类模型,最后利用该文档分类模型进行文档分类,提高了文档分类的准确性。
基于上述实施例公开的一种文档分类方法,本实施例对应公开了一种文档分类装置,请参阅图6,该装置包括:
分类语料库创建单元100,用于创建分类语料库,并将所述分类语料库划分为训练集和测试集,所述分类语料库包括多个已标注文档类型的文档;
特征向量提取单元200,用于根据所述分类语料库对应的词典,分别从所述训练集和所述测试集的每个文档中提取文档特征向量,所述词典包括所述分类语料库中所有文档的有效分词;
分类模型训练单元300,用于基于所述训练集中每个文档的文档特征向量分别对多个机器学习模型进行训练,得到每个所述机器学习模型对应的分类模型;
分类模型评价单元400,用于利用所述测试集中每个文档的文档特征向量和已标注文档类型,分别对每个所述分类模型的分类效果进行评价,得到每个所述分类模型的评价指标值;
最终分类模型确定单元500,用于根据每个所述分类模型的评价指标值,确定最终的文档分类模型;
文档分类单元600,用于利用最终的文档分类模型进行文档分类。
可选的,所述特征向量提取单元200包括:
分词处理子单元,用于分别对所述训练集和所述测试集的每个文档进行分词处理;
向量化处理子单元,用于根据所述词典,对分词处理后的每个文档进行向量化处理,得到所述训练集和所述测试集中每个文档的文档特征向量。
可选的,所述分词处理子单元,具体用于:
分别对所述训练集和所述测试集的每个文档进行分词处理;
根据预先设定的停用词表,剔除所述训练集和所述测试集中每个文档的分词结果中的停用词,得到所述训练集和所述测试集中每个文档的有效分词。
可选的,所述向量化处理子单元,具体用于:
将所述训练集和所述测试集中每个文档转换为一个多维向量,多维向量的维数与所述词典的总词数相同,多维向量每个维度分别对应所述词典中的一个词;
分别对所述训练集和所述测试集中每个文档的有效分词与所述词典进行匹配,根据匹配结果对相应的多维向量进行赋值;
对每个赋值后的多维向量进行特征优化,得到所述训练集和所述测试集中每个文档的文档特征向量。
可选的,所述最终分类模型确定单元500,具体用于:
根据预先设定的召回率权重和正确率权重,对每个所述分类模型的召回率和正确率进行加权求和,得到每个所述分类模型的评价值;
将评价值最高的所述分类模型确定为最终的文档分类模型。
本实施例公开的一种文档分类装置,通过根据分类语料库对应的词典从训练集和测试集的每个文档中提取文档特征向量,提高了文档特征提取的准确性,在此基础上,通过利用训练集的文档特征向量对多个机器学习模型进行训练,并根据测试集的文档特征向量对每个训练得到的分类模型的分类效果进行评价,将分类效果最好的分类模型作为最终的文档分类模型,最后利用该文档分类模型进行文档分类,提高了文档分类的准确性。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种文档分类方法,其特征在于,包括:
创建分类语料库,并将所述分类语料库划分为训练集和测试集,所述分类语料库包括多个已标注文档类型的文档;
根据所述分类语料库对应的词典,分别从所述训练集和所述测试集的每个文档中提取文档特征向量,所述词典包括所述分类语料库中所有文档的有效分词;
基于所述训练集中每个文档的文档特征向量分别对多个机器学习模型进行训练,得到每个所述机器学习模型对应的分类模型;
利用所述测试集中每个文档的文档特征向量和已标注文档类型,分别对每个所述分类模型的分类效果进行评价,得到每个所述分类模型的评价指标值;
根据每个所述分类模型的评价指标值,确定最终的文档分类模型;
利用最终的文档分类模型进行文档分类。
2.根据权利要求1所述的方法,其特征在于,所述根据所述分类语料库对应的词典,分别从所述训练集和所述测试集的每个文档中提取文档特征向量,包括:
分别对所述训练集和所述测试集的每个文档进行分词处理;
根据所述词典,对分词处理后的每个文档进行向量化处理,得到所述训练集和所述测试集中每个文档的文档特征向量。
3.根据权利要求2所述的方法,其特征在于,所述分别对所述训练集和所述测试集的每个文档进行分词处理,包括:
分别对所述训练集和所述测试集的每个文档进行分词处理;
根据预先设定的停用词表,剔除所述训练集和所述测试集中每个文档的分词结果中的停用词,得到所述训练集和所述测试集中每个文档的有效分词。
4.根据权利要求3所述的方法,其特征在于,所述根据所述词典,对分词处理后的每个文档进行向量化处理,得到所述训练集和所述测试集中每个文档的文档特征向量,包括:
将所述训练集和所述测试集中每个文档转换为一个多维向量,多维向量的维数与所述词典的总词数相同,多维向量每个维度分别对应所述词典中的一个词;
分别对所述训练集和所述测试集中每个文档的有效分词与所述词典进行匹配,根据匹配结果对相应的多维向量进行赋值;
对每个赋值后的多维向量进行特征优化,得到所述训练集和所述测试集中每个文档的文档特征向量。
5.根据权利要求1所述的方法,其特征在于,所述分类模型的评价指标包括召回率和正确率,所述根据每个所述分类模型的评价指标值,确定最终的文档分类模型,包括:
根据预先设定的召回率权重和正确率权重,对每个所述分类模型的召回率和正确率进行加权求和,得到每个所述分类模型的评价值;
将评价值最高的所述分类模型确定为最终的文档分类模型。
6.一种文档分类装置,其特征在于,包括:
分类语料库创建单元,用于创建分类语料库,并将所述分类语料库划分为训练集和测试集,所述分类语料库包括多个已标注文档类型的文档;
特征向量提取单元,用于根据所述分类语料库对应的词典,分别从所述训练集和所述测试集的每个文档中提取文档特征向量,所述词典包括所述分类语料库中所有文档的有效分词;
分类模型训练单元,用于基于所述训练集中每个文档的文档特征向量分别对多个机器学习模型进行训练,得到每个所述机器学习模型对应的分类模型;
分类模型评价单元,用于利用所述测试集中每个文档的文档特征向量和已标注文档类型,分别对每个所述分类模型的分类效果进行评价,得到每个所述分类模型的评价指标值;
最终分类模型确定单元,用于根据每个所述分类模型的评价指标值,确定最终的文档分类模型;
文档分类单元,用于利用最终的文档分类模型进行文档分类。
7.根据权利要求6所述的装置,其特征在于,所述特征向量提取单元包括:
分词处理子单元,用于分别对所述训练集和所述测试集的每个文档进行分词处理;
向量化处理子单元,用于根据所述词典,对分词处理后的每个文档进行向量化处理,得到所述训练集和所述测试集中每个文档的文档特征向量。
8.根据权利要求7所述的装置,其特征在于,所述分词处理子单元,具体用于:
分别对所述训练集和所述测试集的每个文档进行分词处理;
根据预先设定的停用词表,剔除所述训练集和所述测试集中每个文档的分词结果中的停用词,得到所述训练集和所述测试集中每个文档的有效分词。
9.根据权利要求8所述的装置,其特征在于,所述向量化处理子单元,具体用于:
将所述训练集和所述测试集中每个文档转换为一个多维向量,多维向量的维数与所述词典的总词数相同,多维向量每个维度分别对应所述词典中的一个词;
分别对所述训练集和所述测试集中每个文档的有效分词与所述词典进行匹配,根据匹配结果对相应的多维向量进行赋值;
对每个赋值后的多维向量进行特征优化,得到所述训练集和所述测试集中每个文档的文档特征向量。
10.根据权利要求6所述的装置,其特征在于,所述最终分类模型确定单元,具体用于:
根据预先设定的召回率权重和正确率权重,对每个所述分类模型的召回率和正确率进行加权求和,得到每个所述分类模型的评价值;
将评价值最高的所述分类模型确定为最终的文档分类模型。
CN202010856639.5A 2020-08-24 2020-08-24 一种文档分类方法及装置 Pending CN111949770A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010856639.5A CN111949770A (zh) 2020-08-24 2020-08-24 一种文档分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010856639.5A CN111949770A (zh) 2020-08-24 2020-08-24 一种文档分类方法及装置

Publications (1)

Publication Number Publication Date
CN111949770A true CN111949770A (zh) 2020-11-17

Family

ID=73360205

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010856639.5A Pending CN111949770A (zh) 2020-08-24 2020-08-24 一种文档分类方法及装置

Country Status (1)

Country Link
CN (1) CN111949770A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360658A (zh) * 2021-07-14 2021-09-07 福建亿榕信息技术有限公司 一种用于审计业务的文本自动分类方法
CN115292498A (zh) * 2022-08-19 2022-11-04 北京华宇九品科技有限公司 一种文档分类方法、系统、计算机设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992633A (zh) * 2018-01-09 2018-05-04 国网福建省电力有限公司 基于关键词特征的电子文档自动分类方法及系统
CN111199801A (zh) * 2018-11-19 2020-05-26 零氪医疗智能科技(广州)有限公司 一种用于识别病历的疾病类型的模型的构建方法及应用

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992633A (zh) * 2018-01-09 2018-05-04 国网福建省电力有限公司 基于关键词特征的电子文档自动分类方法及系统
CN111199801A (zh) * 2018-11-19 2020-05-26 零氪医疗智能科技(广州)有限公司 一种用于识别病历的疾病类型的模型的构建方法及应用

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360658A (zh) * 2021-07-14 2021-09-07 福建亿榕信息技术有限公司 一种用于审计业务的文本自动分类方法
CN115292498A (zh) * 2022-08-19 2022-11-04 北京华宇九品科技有限公司 一种文档分类方法、系统、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN110781276B (zh) 文本抽取方法、装置、设备及存储介质
CN109872162B (zh) 一种处理用户投诉信息的风控分类识别方法及系统
CN113535963B (zh) 一种长文本事件抽取方法、装置、计算机设备及存储介质
CN111460149B (zh) 文本分类方法、相关设备及可读存储介质
KR102019207B1 (ko) 텍스트 분석을 위한 데이터 품질 평가 장치 및 방법
CN111949770A (zh) 一种文档分类方法及装置
CN111539612A (zh) 一种风险分类模型的训练方法和系统
CN111723182B (zh) 一种用于漏洞文本的关键信息抽取方法及装置
CN116861358A (zh) 基于bp神经网络与多源数据融合的计算思维评测方法
CN111104422A (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN116339799A (zh) 一种智能化数据接口管理的方法、系统、终端设备及存储介质
CN112732908B (zh) 试题新颖度评估方法、装置、电子设备和存储介质
CN115408527A (zh) 文本分类方法、装置、电子设备及存储介质
CN113254612A (zh) 知识问答处理方法、装置、设备及存储介质
CN113836345A (zh) 信息处理设备、信息处理方法以及计算机可读存储介质
JP2020166426A (ja) 文書分析装置および文書分析方法
CN116187299B (zh) 一种科技项目文本数据检定评价方法、系统及介质
CN109325126B (zh) 语言文本的对象化处理方法、装置及计算机存储介质
CN110888977B (zh) 文本分类方法、装置、计算机设备和存储介质
CN114169335A (zh) 智能客服的信息处理方法、装置、设备及介质
CN117725903A (zh) 裁判文书生成方法、装置、系统和存储介质
CN117555983A (zh) 一种基于机器学习的辅助定密方法及系统
CN114676679A (zh) 工单文本内容的分析方法、系统、设备以及存储介质
Indrahimawan et al. Handling Data Imbalance Using Text Augmentation For Classifying Public Complaints
CN113220879A (zh) 用户类别识别方法、装置、设备、介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination