CN107992633A

CN107992633A - 基于关键词特征的电子文档自动分类方法及系统

Info

Publication number: CN107992633A
Application number: CN201810017865.7A
Authority: CN
Inventors: 蔡宇翔; 叶勇; 苏运东; 付婷; 肖琦敏; 潘丹; 张航; 倪时龙; 苏江文; 刘心
Original assignee: State Grid Corp of China SGCC; State Grid Fujian Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Fujian Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Fujian Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Fujian Electric Power Co Ltd
Priority date: 2018-01-09
Filing date: 2018-01-09
Publication date: 2018-05-04
Anticipated expiration: 2038-01-09
Also published as: CN107992633B

Abstract

本发明公开了一种基于关键词特征的电子文档自动分类方法及系统，该方法提出通过构建企业的领域词汇表，采用企业级搜索引擎对分类语料库进行逐个词汇搜索，计算词汇与文档的相关度，将所有文档特征化为相关度最大的前100个关键词的相关度组成的特征向量，基于训练集文档的特征向量利用不同的机器学习算法构建分类器，利用测试集文档对构建的分类器进行评估，最终选择最优的分类器进行部署应用，调用最优分类器的接口对新增的文档进行自动分类。本发明结合企业电子文档特点，采用关键词为特征，能够显著减少生成的特征向量中的无关信息，大大减少了特征向量的维度，提升了特征抽取阶段对文档重要语义的保留，提升了企业电子文档的自动分类效果。

Description

基于关键词特征的电子文档自动分类方法及系统

技术领域

本发明涉及信息技术领域，具体涉及一种基于关键词特征的电子文档自动分类方法及系统。

背景技术

文档自动分类主流技术有两种。一种是“知识工程”方法（或者称为“规则法”），是指由专业人员为每个类别定义大量的推理规则，如果一篇文档能满足某个推理规则，则可以判定为该文档属于对应的类别。知识工程方法有比较明显的缺点，包括：分类的质量依赖于规则的好坏，而规则需要大量的专业人员进行规则的制定，人工投入大且质量不稳定；不同的领域需要构建完全不同的分类系统，重复工作较多，不具备可推广。所以在企业中，这种文档自动分类方法较少被大规模应用。第二种是 “机器学习”方法。机器学习技术以统计理论为基础，利用算法对事先准备好分类语料（包括多个人工设定的类别，每一个类别都关联了多份属于该类别的典型文档）做统计分析从而获得规律，构建出“分类模型”，再运用该“分类模型”对未知文本做所属分类的预测分析，实现自动分类。由于机器学习方法在文本分类领域有着良好的实际表现，已经成为了该领域的主流。

机器学习算法需要对文档进行特征提取，通常将“词”选择为文档的特征。利用“中文分词”技术，将文档表示为一系列词。将语料库中的所有文档分词组成一个“词典”；针对特定的文档构建向量的过程如下：从字典的第一个词开始判断，如果文档中包含词典该位置对应的分词，则在向量的相关位置标记为1，否则标记为0，那么一个文档就可以表示为维度等于“字典总词数”、并用0和1两个数字构成的特征向量，如图1所示。在将文档内容转换为一系列分词及特征向量表示后，丢失了“大量的语义信息”。为了提升后续的算法预测质量，可以采用一系列称为“特征优化”的方法，具体的算法较多，有期望交叉熵方法、信息增益方法等。比较典型且常用的方法是TF-IDF算法，即TF方法（词频法）和IDF方法（逆文档频次法），经过TF-IDF处理后，特征向量就不再是以0和1两个数字构成，而是体现每个词权重的、在0到1之间的任何实数，如图2所示。

上述方法将文档转换为数学向量时，存在较多的语义信息丢失——把连续的文档变成上下文无关的一系列“分词”，并且仅依靠“词频”等要素对分词权重进行一定的调整。这在通用的文档分类中是可取的，因为“通用”意味着很难利用文档的个性化特点进行更优的 “特征提取”。传统的自动化文档关键词提取方法，主要着眼于文档内容本身，利用候选关键词的统计性质，如TF-IDF算法等，根据“词频”和“逆文档概率”，在分词的基础上，选择本文档中出现最频繁、且在其它文档中出现较少的分词作为关键词，但在后续的分类应用上效果往往不好。一方面是因为在主流的机器学习分类方法的特征提取阶段，也可以采用TF-IDF等算法调整分词权重达到类似效果，另一方面，有一些对主题有很强相关的关键词在文档中并没有明确提及（如以不同形式对该词进行了表述），这导致基于分词的关键词提取在相关性上存在天然不足。

发明内容

针对现有技术的不足，本发明提出一种基于关键词特征的电子文档自动分类方法及系统，基于企业文档的特点对文档特征提取进行优化，显著减少最终生成的特征向量中的无关信息，提升企业电子文档的自动分类效果。

为实现上述目的，本发明的技术方案是：一种基于关键词特征的电子文档自动分类方法，包括：

步骤S1：准备分类语料库即企业电子文档目标分类体系和对应类别的文档集合，将语料库分成训练集和测试集；

步骤S2：构建本企业的领域词汇表；

步骤S3：采用企业级搜索引擎，将领域词汇表中的词汇作为搜索词，对整个语料库进行逐个搜索词搜索；

步骤S4：将与文档相关度最高的前100个词汇作为文档的关键词；

步骤S5：所有文档特征化为由100个关键词的相关度组成的特征向量；

步骤S6：基于训练集文档的特征向量利用不同的机器学习算法构建分类器；

步骤S7：利用测试集文档对构建的分类器进行评估，根据分类器的正确率和召回率选择最优的分类器；

步骤S8：将最优的分类器在生产系统中部署，调用最优分类器的接口对新增的文档进行自动分类。

进一步地，随机选取语料库的80%文档作为训练集，20%文档作为训练集。

进一步地，从企业的正规文档素材中，包括企业的已有知识库、相关标准文档、业务术语文档、业务规范文档，通过分词技术发现海量词汇，对发现的海量词汇进行优先删除业务特色不明显的词汇，最终形成一个领域词汇表。

进一步地，所述企业级搜索引擎采用基于开源的ElasticSearch全文检索工具。

进一步地，所述步骤S4具体包括：

步骤S41：对领域词汇表中的每一个词汇执行搜索，获得文档在搜索结果中的排名：

步骤S42：计算词汇与该文档的相关度R：

R=1-n/m，其中，n为该文档在搜索结果中的排名，m为总文档数；

步骤S43：根据相关度从高到低排名，获得文档最相关的前100个词汇作为该文档的关键词。

进一步地，所述机器学习算法包括：朴素贝叶斯算法、决策树算法、KNN最近邻算法、中心向量算法和支持向量机算法。

进一步地，所述正确率和召回率采用以下公式计算：

p = a / (a + b) * 100%

r = a / (a + c) * 100%

其中，a表示将输入的测试集文档正确分类到某个类别的个数，b表示分类器将输入的测试集文档错误分类到某个类别的个数，c表示分类器将输入的测试集文档错误地排除在某个类别之外的个数；d表示分类器将输入的测试集文档正确地排除在某个类别之外的个数。

一种基于关键词特征的电子文档自动分类系统，包括：数据存储模块、领域词汇管理模块、文档预处理模块、搜索引擎模块、特征提取模块、文档分类模块和分类优选模块；

所述数据存储模块，用于存储文档数据库、关系数据库；文档数据库是根据企业电子文档特点准备的分类语料库，包括训练集和测试集；

所述领域词汇管理模块，用于从企业的正规文档素材中，包括企业的已有知识库、相关标准文档、业务术语文档、业务规范文档，通过分词技术发现海量词汇，对发现的海量词汇进行优先删除业务特色不明显的词汇，构建本企业的领域词汇表；

所述文档预处理模块，用于从文档数据库的不同格式文档中抽取文本；

所述搜索引擎模块，用于将领域词汇表中的词汇作为搜索词，对整个文档数据库中的文档进行逐个搜索词搜索；

所述特征提取模块，用于获取与文档相关度最高的前100个词汇作为文档的关键词，将所有文档特征化为由100个关键词的相关度组成的特征向量；

所述文档分类模块，用于提供不同的机器学习算法，基于训练集文档的特征向量构建分类器；

所述分类优选模块，用于利用测试集文档对构建的分类器进行评估，根据分类器的正确率和召回率选择最优的分类器。

进一步地，所述特征提取模块，根据搜索引擎模块的搜索结果计算词汇与文档的相关度R：

R=1-n/m，其中，n为文档在搜索结果中的排名，m为总文档数。

进一步地，所述搜索引擎模块采用基于开源的ElasticSearch全文检索工具。

与现有技术相比，本发明具有有益效果：采用文档关键词作为文档特征，大大减少了特征向量的维度，并且关键词能涵盖到文本的主要语义信息，大大减少在分类模型构建阶段对算法的“干扰”，从而提高分类性能。

附图说明

图1是现有技术中基于文档分词的特征化表示；

图2是现有技术中经过特征优化的文档特征向量；

图3是本发明基于关键词特征的电子文档自动分类方法示意图；

图4是本发明一实施例获取文档关键词的流程示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

企业电子文档，泛指在企业中常用的各类文书（请示、通知、函、报告、会议纪要）、报告、方案，等。当前，企业中流程越来越多地运行在线上，大量的业务运行信息以电子文档的形式存在。不同于互联网中由各类用户产生的“文档”（如论坛帖子、博客、微博，等），由于企业电子文档通常承载着具体的业务信息，通常具有主题突出、文风朴实、结构紧凑等特点。特别是企业电子文档所具备的以下两个特点，可以在自动分类过程中加以应用，提升自动分类效果：

1）文章主题性强。通篇公文通常都围绕一个显著的主题进行内容阐述。如一份“新闻稿”通常围绕某个事件进行过程和总结性说明；一份“运维案例”，则讲述的通常是针对某个特定故障及其解决过程的总结。

2）文档中有更多的领域语言。领域语言是指只在某个特定的业务领域广泛使用的词组和表达方式，包括术语、专业词汇、习惯性表达等。

如图3所示，一种基于关键词特征的电子文档自动分类方法，包括：

步骤S2：构建本企业的领域词汇表；

在本实施例中，随机选取语料库的80%文档作为训练集，20%文档作为训练集。

关键词要能涵盖文档的主要语义，主要有两方面的要求：

1）相关性(relevance)。既关键词必须与文档主题相关。例如，一份运维工单“ERP系统网络服务中断故障排查及解决”文档，其中可能只顺带提到“变电站维修”这个短语，这时就不希望这个短语被选取作为文档关键词，因为可能对后续的文档分类照成很大干扰。

2）覆盖度(coverage)。关键词要能够对文档的主题有较好的覆盖，不能只集中在文档某个主题而忽略了文档其他主题。

在本实施例中，从企业的正规文档素材中，包括企业的已有知识库、相关标准文档、业务术语文档、业务规范文档，通过分词技术发现海量词汇，对发现的海量词汇进行优先删除业务特色不明显的词汇，最终形成一个领域词汇表，一般是10万规模级别。

在本实施例中，所述企业级搜索引擎采用基于开源的ElasticSearch全文检索工具。

如图4所示，所述步骤S4具体包括：

步骤S42：计算词汇与该文档的相关度R：

在本实施例中，所述机器学习算法包括：朴素贝叶斯算法、决策树算法、KNN最近邻算法、中心向量算法和支持向量机算法。

在本实施例中，分类的效果评估基于两个指标，分别是正确率和召回率，采用以下公式计算：

p = a / (a + b) * 100%

r = a / (a + c) * 100%

正确率是评价分类器找到的属于某个分类的文档是否正确的指标，而召回率是评价分类器在发现属于该分类文档过程中是否存在“遗漏”的指标。两个指标值均为越高越好，特别是当正确率和召回率都为100%时，表示该分类器发现了所有属于特定分类的文档（没有遗漏），并且发现的文档全部都是属于该分类（全部正确）；故，在实际过程中，可以结合业务目标基于上述两个数值对分类器效果进行评价。例如：业务要求分类器尽可能找到所有该分类的文档，并可以接受找到的文档有部分是不属于该分类的（宁可错杀，绝不放过），则可以加大“召回率”指标的评价权重。

构建分类器、分类效果评估是一个迭代的过程，直到找到符合指标要求的分类器为止。

在某电力公司运维案例的自动化分类实验中，基于本发明方法构建的分类器效果得到了较大提升，企业电子文档自动分类模型运行效果具体如表1所示：

表1

特征类型	准确率（%）	召回率（%）
			文档分词（现有技术）	82.4%	77.3%
文档关键词（本发明）	85.1%	86.9%

在本实施例中，所述特征提取模块，根据搜索引擎模块的搜索结果计算词汇与文档的相关度R：

R=1-n/m，其中，n为文档在搜索结果中的排名，m为总文档数。

在本实施例中，所述搜索引擎模块采用基于开源的ElasticSearch全文检索工具。

在实际应用中，系统可分为三个层次，1）基础设施层

主要包括数据存储（关系数据库、文档数据库）及用于关键词与文档相关性计算的全文检索引擎（采用开源软件ElasticSearch）；

2）服务层

是系统的核心层次，实现了电子文档分类系统的核心服务。包括文档预处理模块：提供从不同格式文档中抽取文本的“文档流抽取”功能、“分词提取”功能和本发明提出的“关键词提取”功能；文档分类模块：提供各类机器学习分类算法库，分类效果的评估功能，以及将分类模型持久化存储并最终部署应用的模型部署功能；辅助工具模块：提供自动化与人工结合的语料标注工具，以及领域词汇标记工具；

3）界面层。

提供各类系统用户使用的交互界面。包括几个主要界面模块，分别是：语料管理、词汇管理、文档分类管理，以及系统管理。

以上所述的具体实施例，对本发明的目的、技术方案和成果进行了详尽说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于关键词特征的电子文档自动分类方法，其特征在于，包括：

步骤S2：构建企业的领域词汇表；

2.根据权利要求1所述的基于关键词特征的电子文档自动分类方法，其特征在于，随机选取语料库的80%文档作为训练集，20%文档作为训练集。

3.根据权利要求1所述的基于关键词特征的电子文档自动分类方法，其特征在于，所述步骤S2具体为：从企业的正规文档素材中，包括企业的已有知识库、相关标准文档、业务术语文档、业务规范文档，通过分词技术发现海量词汇，对发现的海量词汇进行优先删除业务特色不明显的词汇，最终形成一个领域词汇表。

4.根据权利要求1所述的基于关键词特征的电子文档自动分类方法，其特征在于，所述企业级搜索引擎采用基于开源的ElasticSearch全文检索工具。

5.根据权利要求1所述的基于关键词特征的电子文档自动分类方法，其特征在于，所述步骤S4具体包括：

步骤S42：计算词汇与该文档的相关度R：

6.根据权利要求1所述的基于关键词特征的电子文档自动分类方法，其特征在于，所述机器学习算法包括：朴素贝叶斯算法、决策树算法、KNN最近邻算法、中心向量算法和支持向量机算法。

7.根据权利要求1所述的基于关键词特征的电子文档自动分类方法，其特征在于，所述正确率和召回率采用以下公式计算：

p = a / (a + b) * 100%

r = a / (a + c) * 100%

8.一种基于关键词特征的电子文档自动分类系统，其特征在于，包括：数据存储模块、领域词汇管理模块、文档预处理模块、搜索引擎模块、特征提取模块、文档分类模块和分类优选模块；

所述领域词汇管理模块，用于构建本企业的领域词汇表；

9.根据权利要求8所述的基于关键词特征的电子文档自动分类系统，其特征在于，所述特征提取模块，根据搜索引擎模块的搜索结果计算词汇与文档的相关度R：

R=1-n/m，其中，n为文档在搜索结果中的排名，m为总文档数。

10.根据权利要求8所述的基于关键词特征的电子文档自动分类系统，其特征在于，所述搜索引擎模块采用基于开源的ElasticSearch全文检索工具。