CN111949770A

CN111949770A - 一种文档分类方法及装置

Info

Publication number: CN111949770A
Application number: CN202010856639.5A
Authority: CN
Inventors: 何东; 刘瀚琳; 潘思晨; 张烨华; 陈可; 冯珺; 谢裕清
Original assignee: State Grid Zhejiang Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Current assignee: State Grid Zhejiang Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2020-11-17

Abstract

本发明提供了一种文档分类方法及装置，创建分类语料库，将分类语料库划分为训练集和测试集，通过根据分类语料库对应的词典从训练集和测试集的每个文档中提取文档特征向量，提高了文档特征提取的准确性，在此基础上，通过利用训练集的文档特征向量对多个机器学习模型进行训练，并根据测试集的文档特征向量对每个训练得到的分类模型的分类效果进行评价，将分类效果最好的分类模型作为最终的文档分类模型，最后利用该文档分类模型进行文档分类，提高了文档分类的准确性。

Description

一种文档分类方法及装置

技术领域

本发明涉及计算机技术领域，更具体的，涉及一种文档分类方法及装置。

背景技术

随着电力技术的发展，电力行业文档的数量越来越多，种类也越来越繁杂。为了便于挖掘海量文档中有价值的数据，需要对文档进行准确分类。

目前文档分类主流技术有两种。一种是规则法，是指由专业人员为每个类别定义大量的推理规则，如果一个文档能满足某个推理规则，则可以判定为该文档属于对应的类别。但是规则法分类的质量依赖于规则的好坏，而规则需要大量的专业人员进行制定，人工投入大且质量不稳定，不同的领域需要构建完全不同的分类系统，不具备可推广性。第二种是机器学习方法，以统计理论为基础，利用算法对事先准备好分类语料做统计分析从而获得规律，构建出“分类模型”，再运用该“分类模型”对未知文本做所属分类的预测分析，实现自动分类。但是，机器学习方法分类效果依赖于模型的训练效果，如何训练出有效的分类模型成为本领域亟需解决的技术问题。

发明内容

有鉴于此，本发明提供了一种文档分类方法及装置，通过训练有效的分类模型，提高了文档分类的准确性。

为了实现上述发明目的，本发明的有益效果如下：

一种文档分类方法，包括：

创建分类语料库，并将所述分类语料库划分为训练集和测试集，所述分类语料库包括多个已标注文档类型的文档；

根据所述分类语料库对应的词典，分别从所述训练集和所述测试集的每个文档中提取文档特征向量，所述词典包括所述分类语料库中所有文档的有效分词；

基于所述训练集中每个文档的文档特征向量分别对多个机器学习模型进行训练，得到每个所述机器学习模型对应的分类模型；

利用所述测试集中每个文档的文档特征向量和已标注文档类型，分别对每个所述分类模型的分类效果进行评价，得到每个所述分类模型的评价指标值；

根据每个所述分类模型的评价指标值，确定最终的文档分类模型；

利用最终的文档分类模型进行文档分类。

可选的，所述根据所述分类语料库对应的词典，分别从所述训练集和所述测试集的每个文档中提取文档特征向量，包括：

分别对所述训练集和所述测试集的每个文档进行分词处理；

根据所述词典，对分词处理后的每个文档进行向量化处理，得到所述训练集和所述测试集中每个文档的文档特征向量。

可选的，所述分别对所述训练集和所述测试集的每个文档进行分词处理，包括：

分别对所述训练集和所述测试集的每个文档进行分词处理；

根据预先设定的停用词表，剔除所述训练集和所述测试集中每个文档的分词结果中的停用词，得到所述训练集和所述测试集中每个文档的有效分词。

可选的，所述根据所述词典，对分词处理后的每个文档进行向量化处理，得到所述训练集和所述测试集中每个文档的文档特征向量，包括：

将所述训练集和所述测试集中每个文档转换为一个多维向量，多维向量的维数与所述词典的总词数相同，多维向量每个维度分别对应所述词典中的一个词；

分别对所述训练集和所述测试集中每个文档的有效分词与所述词典进行匹配，根据匹配结果对相应的多维向量进行赋值；

对每个赋值后的多维向量进行特征优化，得到所述训练集和所述测试集中每个文档的文档特征向量。

可选的，所述分类模型的评价指标包括召回率和正确率，所述根据每个所述分类模型的评价指标值，确定最终的文档分类模型，包括：

根据预先设定的召回率权重和正确率权重，对每个所述分类模型的召回率和正确率进行加权求和，得到每个所述分类模型的评价值；

将评价值最高的所述分类模型确定为最终的文档分类模型。

一种文档分类装置，包括：

分类语料库创建单元，用于创建分类语料库，并将所述分类语料库划分为训练集和测试集，所述分类语料库包括多个已标注文档类型的文档；

特征向量提取单元，用于根据所述分类语料库对应的词典，分别从所述训练集和所述测试集的每个文档中提取文档特征向量，所述词典包括所述分类语料库中所有文档的有效分词；

分类模型训练单元，用于基于所述训练集中每个文档的文档特征向量分别对多个机器学习模型进行训练，得到每个所述机器学习模型对应的分类模型；

分类模型评价单元，用于利用所述测试集中每个文档的文档特征向量和已标注文档类型，分别对每个所述分类模型的分类效果进行评价，得到每个所述分类模型的评价指标值；

最终分类模型确定单元，用于根据每个所述分类模型的评价指标值，确定最终的文档分类模型；

文档分类单元，用于利用最终的文档分类模型进行文档分类。

可选的，所述特征向量提取单元包括：

分词处理子单元，用于分别对所述训练集和所述测试集的每个文档进行分词处理；

向量化处理子单元，用于根据所述词典，对分词处理后的每个文档进行向量化处理，得到所述训练集和所述测试集中每个文档的文档特征向量。

可选的，所述分词处理子单元，具体用于：

分别对所述训练集和所述测试集的每个文档进行分词处理；

可选的，所述向量化处理子单元，具体用于：

可选的，所述最终分类模型确定单元，具体用于：

将评价值最高的所述分类模型确定为最终的文档分类模型。

相对于现有技术，本发明的有益效果如下：

本发明公开的一种文档分类方法，通过根据分类语料库对应的词典从训练集和测试集的每个文档中提取文档特征向量，提高了文档特征提取的准确性，在此基础上，通过利用训练集的文档特征向量对多个机器学习模型进行训练，并根据测试集的文档特征向量对每个训练得到的分类模型的分类效果进行评价，将分类效果最好的分类模型作为最终的文档分类模型，最后利用该文档分类模型进行文档分类，提高了文档分类的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例公开的一种文档分类原理示意图；

图2为本发明实施例公开的一种文档分类方法的流程示意图；

图3为本发明实施例公开的一种从训练集和测试集的每个文档中提取文档特征向量的方法流程示意图；

图4为本发明实施例公开的一种文档特征向量的提取方法流程示意图；

图5为本发明实施例公开的基于文档分词的特征化表示示意图；

图6为本发明实施例公开的一种文档分类装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种文档分类方法，请参阅图1，创建包括多个已标注文档类型的文档的分类语料库，将分类语料库划分为训练集和测试集，分别对训练集和测试集的文档进行特征提取，利用训练集的文档特征向量对多个机器学习模型进行训练，然后利用测试集的文档特征向量对训练得到的分类模型进行效果评估，最后根据评估结果确定最终的文档分类模型，进而利用最终的文档分类模型进行文档分类。其中，通过根据分类语料库对应的词典从训练集和测试集的每个文档中提取文档特征向量，提高了文档特征提取的准确性，并通过根据分类模型的评价指标值对训练得到的分类模型的分类效果进行评价，实现对分类模型的分类效果进行准确评价，从而得到最优的文档分类模型，进而实现对文档的准确分类。

具体的，请参阅图2，本实施例公开的一种文档分类方法包括如下步骤：

S101：创建分类语料库，并将分类语料库划分为训练集和测试集，分类语料库包括多个已标注文档类型的文档；

其中，分类语料库中语料文档的准确选取是后续训练模型的基础，可以根据文档分类需求选取相应专业领域中的语料文档，如对电力技术领域中的语料文档进行分类，可以将电力公司文档管理(如发文、收文、通知、会议管理等)和电力业务(输、发、配、变)以及OA系统中的公告、通知、请示、工单票据以及巡检报告等作为电力专业语料来源。

通过一致性、适用性、忠实性、易于获取、适时性、通用性、确定性、符合语言规范、典型性、随机挑选、具有统计样本意义等各指标归纳语料的选择规范，形成语料选取规范标准，确保语料的高质量要求。

一致性原则是指关联数据之间的逻辑关系的正确性和完整性。可以理解为应用程序自己认为的数据状态与最终写入到磁盘中的数据状态是否一致。在选取语料时，无论是采取机器自动切分的方法，还是采取人工分词后机器自动校对的方法，需要保证语料的选取与原始语料保持一致性，不仅应从词汇层面上保持与原文一致，同时要求从深层次上保持句法和语篇结构的一致性。

适用性原则是指选取的语料符合电力业务特性，结合电力业务特性进行规划选取，便于构建面向电力业务特性的公告、通知、通报、工作总结等文档的语料库。

易于获取原则是指能够便捷的获取语料数据，保证在需要的时候能方便地读取语料数据，这也是构建语料库的必备原则之一。

国家电网公司文档管理(如发文、收文、通知、会议管理等)涉及积累了大量的模板及与电力业务(输、发、配、变)等专业领域的主题词库和术语，在构建电力业务的语料库时，要包含电力业务领域的文本通用语料，保证基础语料库的通用性，才能追求可共享性，才能最大限度发挥语料库的价值。

从原始文档中获取语料资源时，必须按照语料库的规范原则，运用语言规范，获取符合语言规范的语料，才能保证语料库语料的可用性。

由于国家电网公司积累了大量的文档(如发文、收文、通知、会议管理等)及与电力业务(输、发、配、变)等专业领域文档，从繁杂、海量的文本中获取语料时，就要尽量追求语料的代表性，要使有限的样本语料，尽可能多地反映无限的真实语言生活的特征，才能确保获取的语料具有一定的代表性，即语料获取时遵循典型性原则。

语料选材时，科学的抽样方法是保证语料库的代表性的重要手段。概率抽样方法在抽取样本时，严格按照随机原则从总体中抽取所需样本数，使总体中所有单位都有被抽中的概率，这种方法在语料库选材中应用广泛。

为了使语料选取具有统计样本意义，语料库的选材结构就要具有平衡性。所谓平衡，不是指各种类型的语料在语料库中占有相同的比例，而是指语料库中各种类型语料的比例恰当，这种比例能和每种类型的语料对实际公司文档管理的影响因子一致。因此在语料库选材时，要预先设计分类指标，科学地确定每种类型的语料在语料库中的比例。

语料文档选取以后需要对文档类型进行标注，标注可以为专家标注。

创建分类语料库后，按照预设比例将分类语料库划分为训练集和测试集，如按照80％的比例划分训练集，按照20％的比例划分测试集，训练集和测试集的结构和分类语料库的结构完全相同。

S102：根据分类语料库对应的词典，分别从训练集和测试集的每个文档中提取文档特征向量，词典包括分类语料库中所有文档的有效分词；

具体的，分类语料库对应的词典的创建方法如下：对分类语料库中的每个文档进行分词处理，根据预先设定的停用词表，剔除分类语料库中每个文档的分词结果中的停用词，得到分类语料库中所有文档的有效分词，即得到分类语料库对应的词典。

请参阅图3，分别从训练集和测试集的每个文档中提取文档特征向量的方法如下：

S201：分别对训练集和测试集的每个文档进行分词处理；

具体的，为了避免常用的、无意义的虚词等停用词对后续分类的干扰，根据预先设定的停用词表，剔除训练接和测试集中每个文档的分词结果中的停用词，得到训练集和测试集中每个文档的有效分词。例如：内容为“通过更换网卡解决了不能上网的故障”的文档，经过上述分词处理后，简化为以下形式：[通过，更换，网卡，解决，不能，上网，故障]，不再是连续的文本内容。

S202：根据分类语料库对应的词典，对分词处理后的每个文档进行向量化处理，得到训练集和测试集中每个文档的文档特征向量。

文档特征向量的提取是后续文档分类的基础，请参阅图4，本实施例公开的一种文档特征向量的提取方法如下：

S301：将训练集和测试集中每个文档转换为一个多维向量，多维向量的维数与词典的总词数相同，多维向量每个维度分别对应词典中的一个词；

S302：分别对训练集和测试集中每个文档的有效分词与词典进行匹配，根据匹配结果对相应的多维向量进行赋值；

具体的，请参阅图5，从字典的第一个词开始判断，如果文档中包含词典该位置对应的分词，则在向量的相关位置标记为1，否则标记为0，那么一个文档就可以表示为维度等于“字典总词数”、并用0和1两个数字构成的特征向量。

S303：对每个赋值后的多维向量进行特征优化，得到训练集和测试集中每个文档的文档特征向量。

在将文档内容转换为一系列分词及特征向量表示后，丢失了“大量的语义信息”。为了提升后续的算法预测质量，可以采用一系列称为“特征优化”的方法，对上述过程进行更为优化的处理。具体的算法较多，有期望交叉熵方法、信息增益方法等。

经过上述步骤，所有的文档都转换为一个计算机可以处理的特征向量，并对基于特定算法合理化调整了特征向量中各值的权重，该过程就完成了文档的特征提取。

S103：基于训练集中每个文档的文档特征向量分别对多个机器学习模型进行训练，得到每个机器学习模型对应的分类模型；

S104：利用测试集中每个文档的文档特征向量和已标注文档类型，分别对每个分类模型的分类效果进行评价，得到每个分类模型的评价指标值；

优选的，分类模型的评价指标包括召回率和正确率，当然，分类模型的评价指标也可以仅包括召回率或正确率或其他评价指标，经过实验验证，分类模型的评价指标包括召回率和正确率时，对分类模型的的分类效果评价更为准确。

S105：根据每个分类模型的评价指标值，确定最终的文档分类模型；

当分类模型的评价指标包括召回率和正确率时，确定最终的文档分类模型的方法如下：

根据预先设定的召回率权重和正确率权重，对每个分类模型的召回率和正确率进行加权求和，得到每个分类模型的评价值；

将评价值最高的分类模型确定为最终的文档分类模型。

其中，召回率权重和正确率权重可以根据召回率和正确率的重要程度进行预先设定，如将召回率权重和正确率权重都设置为1。

召回率和正确率的形式化定义如下：

设定a表示分类器将输入的文本(即测试集，下同)正确分类到某个类别的个数；b表示分类器将输入文本错误分类到某个类别的个数；c表示分类器将输入文本错误地排除在某个类别之外的个数；d表示分类器将输入文本正确地排除在某个类别之外的个数。则该分类器的召回率、正确率分别采用以下公式计算：召回率r＝a/(a+c)*100％；正确率p＝a/(a+b)*100％。

从上述定义可知，正确率是评价分类器找到的属于某个分类的文档是否正确的指标，而召回率是评价分类器在发现属于该分类文档过程中是否存在“遗漏”的指标。两个指标值均为越高越好，特别是当正确率和召回率都为100％时，表示该分类器发现了所有属于特定分类的文档(没有遗漏)，并且发现的文档全部都是属于该分类(全部正确)；故在实际过程中，可以结合业务目标基于上述两个数值对分类器效果进行评价。例如：业务要求分类器尽可能找到所有该分类的文档，并可以接受找到的文档有部分是不属于该分类的(宁可错杀，绝不放过)，则可以加大“召回率”指标的评价权重。

S106：利用最终的文档分类模型进行文档分类。

具体的，将待分类文档的文档特征向量输入到最终的文档分类模型中，即可得到待分类文档的分类结果。

可见，本实施例公开的一种文档分类方法，通过根据分类语料库对应的词典从训练集和测试集的每个文档中提取文档特征向量，提高了文档特征提取的准确性，在此基础上，通过利用训练集的文档特征向量对多个机器学习模型进行训练，并根据测试集的文档特征向量对每个训练得到的分类模型的分类效果进行评价，将分类效果最好的分类模型作为最终的文档分类模型，最后利用该文档分类模型进行文档分类，提高了文档分类的准确性。

基于上述实施例公开的一种文档分类方法，本实施例对应公开了一种文档分类装置，请参阅图6，该装置包括：

分类语料库创建单元100，用于创建分类语料库，并将所述分类语料库划分为训练集和测试集，所述分类语料库包括多个已标注文档类型的文档；

特征向量提取单元200，用于根据所述分类语料库对应的词典，分别从所述训练集和所述测试集的每个文档中提取文档特征向量，所述词典包括所述分类语料库中所有文档的有效分词；

分类模型训练单元300，用于基于所述训练集中每个文档的文档特征向量分别对多个机器学习模型进行训练，得到每个所述机器学习模型对应的分类模型；

分类模型评价单元400，用于利用所述测试集中每个文档的文档特征向量和已标注文档类型，分别对每个所述分类模型的分类效果进行评价，得到每个所述分类模型的评价指标值；

最终分类模型确定单元500，用于根据每个所述分类模型的评价指标值，确定最终的文档分类模型；

文档分类单元600，用于利用最终的文档分类模型进行文档分类。

可选的，所述特征向量提取单元200包括：

可选的，所述分词处理子单元，具体用于：

分别对所述训练集和所述测试集的每个文档进行分词处理；

可选的，所述向量化处理子单元，具体用于：

可选的，所述最终分类模型确定单元500，具体用于：

将评价值最高的所述分类模型确定为最终的文档分类模型。

本实施例公开的一种文档分类装置，通过根据分类语料库对应的词典从训练集和测试集的每个文档中提取文档特征向量，提高了文档特征提取的准确性，在此基础上，通过利用训练集的文档特征向量对多个机器学习模型进行训练，并根据测试集的文档特征向量对每个训练得到的分类模型的分类效果进行评价，将分类效果最好的分类模型作为最终的文档分类模型，最后利用该文档分类模型进行文档分类，提高了文档分类的准确性。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文档分类方法，其特征在于，包括：

利用最终的文档分类模型进行文档分类。

2.根据权利要求1所述的方法，其特征在于，所述根据所述分类语料库对应的词典，分别从所述训练集和所述测试集的每个文档中提取文档特征向量，包括：

分别对所述训练集和所述测试集的每个文档进行分词处理；

3.根据权利要求2所述的方法，其特征在于，所述分别对所述训练集和所述测试集的每个文档进行分词处理，包括：

分别对所述训练集和所述测试集的每个文档进行分词处理；

4.根据权利要求3所述的方法，其特征在于，所述根据所述词典，对分词处理后的每个文档进行向量化处理，得到所述训练集和所述测试集中每个文档的文档特征向量，包括：

5.根据权利要求1所述的方法，其特征在于，所述分类模型的评价指标包括召回率和正确率，所述根据每个所述分类模型的评价指标值，确定最终的文档分类模型，包括：

将评价值最高的所述分类模型确定为最终的文档分类模型。

6.一种文档分类装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述特征向量提取单元包括：

8.根据权利要求7所述的装置，其特征在于，所述分词处理子单元，具体用于：

分别对所述训练集和所述测试集的每个文档进行分词处理；

9.根据权利要求8所述的装置，其特征在于，所述向量化处理子单元，具体用于：

10.根据权利要求6所述的装置，其特征在于，所述最终分类模型确定单元，具体用于：

将评价值最高的所述分类模型确定为最终的文档分类模型。