CN107368610A

CN107368610A - 基于全文的大文本 crf 和规则分类方法和系统

Info

Publication number: CN107368610A
Application number: CN201710685936.6A
Authority: CN
Inventors: 谭培波; 史晓凌; 茹海燕
Original assignee: Beiming Zhitong (beijing) Technology Co Ltd
Current assignee: Beiming Zhitong (beijing) Technology Co Ltd
Priority date: 2017-08-11
Filing date: 2017-08-11
Publication date: 2017-11-21
Anticipated expiration: 2037-08-11
Also published as: CN107368610B

Abstract

本发明提供了一种基于全文的大文本CRF和规则分类方法和系统，是条件随机场和规则分类方法相结合，对大文本的全文进行分类。对输入大文本的标题部分采用基于语义的统计CRF分类方法；对大文本的正文部分采用基于规则的词袋分类方法；最后按照CRF分类结果为主规则分类结果为辅的方式对分类结果进行整合、去重、排序，输出语义层次和字符层次整合的最终分类结果。这种方法由于解决了标题的高度抽象性和正文的实体繁杂性之间的矛盾，实现了对文本不同视角的认识，满足了不同人群对大文本的个性化认识，具有全文分类整体准确度高的特点。

Description

基于全文的大文本CRF和规则分类方法和系统

技术领域

本发明属于文本处理领域，尤其涉及到一种基于全文的大文本CRF和规则分类方法和系统。

背景技术

自然语言，尤其是文字，是人类知识和智慧的主要载体。如何从文本中挖掘出有用的知识，并由此升华成独到的洞见，是当下互联网时代和未来人工智能时代的主要目标。分类作为自然语言处理的基本任务，将在自然语言知识挖掘中占据核心地位。

一般互联网上的文本都比较短，因此对它的分类和挖掘不会出现准确度低的问题。但是对于某些行业领域的应用，比如石油行业上游研发板块，其研发所参考的文献基本都超过300页以上，而且图文并茂、内容广泛，使得一般短文本分类方法难以对其进行准确分类。

基于规则的大文本分类方法，以词袋为基础进行集合运算得到特征词，通过文本与特征词集合的比较来确定类属关系。规则方法由于破坏了以句子为载体的文本语义，一般用于确定文本字符在类中的份量，是一种字面意义的分类。但是大文本一般都有一个超越字面意义的、抽象度更高、视野更宽阔的意义类，这一般体现为文本的标题、摘要、关键词、前言、简介等部分。而这一意涵丰富的部分如果拆分成无序的词袋，将失去其凝聚为一体的高层意义，如果采用规则分类，分类准确度很低，不能满足业务需求。

纯粹基于统计的分类方法，由于文本规模大，比如超过30万字，任何一种统计方法都将解析出大量的统计特征，在大数据下对这些特征进行优化计算，将耗费大量的系统资源，比如超过200G的内存都不能有效的进行分类模型的迭代计算，计算出来的模型超过5G以上，在运行时将占据大量的内存空间。因此统计的方法虽然有准确度的优势，但是却受到了计算资源的限制，也不能有效而准确的工作。

发明内容

本发明提供了一种基于全文的大文本CRF和规则分类方法和系统，是条件随机场(CRF:Conditional Random Filed)和规则分类方法相结合，对大文本的全文进行分类。对输入大文本的标题部分采用基于语义的统计CRF分类方法；对大文本的正文部分采用基于规则的词袋分类方法；最后按照CRF分类结果为主规则分类结果为辅的方式对分类结果进行整合、去重、排序，输出语义层次和字符层次整合的最终分类结果。这种方法由于解决了标题的高度抽象性和正文的实体繁杂性之间的矛盾，实现了对文本不同视角的认识，满足了不同人群对大文本的个性化认识，具有全文分类整体准确度高的特点。

本发明提供一种基于全文的大文本CRF和规则分类方法，其包括以下步骤：

将待拆分文件拆分成标题文本和正文文本两部分并分别保存；

采用CRF文本处理方式对所述标题文本进行处理得到文件名和分类分本之间的对应关系，根据每个分类目录下存储的文件名进行三级分词处理并对分词结果进行分类标注，并采用CRF learn方法进行标题分类建模得到CRF模型；

采用DEC文本处理方式对所述正文文本进行处理得到分词文本和分类分本之间的对应关系，根据每个分类目录下存储分词文本进行三级分词处理并对分词结果构建DEC张量并进行DEC类处理得到DEC模型；

获取待分类文件并将其拆分成待分类标题文本和待分类正文文本两部分分别保存；

将所述待分类标题文本进行三级分词处理并采用CRF test方法调用所述CRF模型计算得出CRF分类结果；

将所述待分类正文文本进行三级分词处理并构建DEC张量后调用所述DEC模型计算得出DEC分类结果；

取所述CRF分类结果中的第一个和所述DEC分类结果中的前四个并进行去重处理得到分类结果并输出。

优选的是，所述的基于全文的大文本CRF和规则分类方法中，获取原始文件并将其转换为txt格式并作为所述待拆分文件。

本发明还提供一种基于全文的大文本CRF和规则分类系统，其包括：

基础语料层，其用于存储建立规则的DEC分类模型参数、CRF模板文件以及按类记录的标注语料文件；

模型层，其用于根据所述建立规则的DEC分类模型参数、所述CRF模板文件以及所述按类记录的标注语料文件建立CRF模型和DEC规则模型；

应用层，其用于接收用户输入的文本文件并根据所述CRF模型和所述DEC规则模型进行分类并将分类结果输出。

优选的是，所述的基于全文的大文本CRF和规则分类系统中，

所述基础语料层包括模型要素模块和语料库模块；

所述模型要素模块包括DEC分类模型参数DC表、CRF模板文件以及分类结构树。

优选的是，所述的基于全文的大文本CRF和规则分类系统中，

所述模型层包括标题和正文文本截取模块、3级分词模块、CRF模块、DEC模块，以及分类结果整合模块；

所述CRF模块包括CRF模型构建模块和CRF模型调用模块；所述CRF模型构建模块用于对输入的样本语料进行建模；所述CRF模型调用模块用于接收分词后的标题输入文本，调用所述CRF模型构建模块建立的模型，计算输入文本的预测结果作为分类输出；

所述DEC模块包括DEC模型构建模块和DEC模型调用模块；所述DEC模型构建模块用于接收分词后的正文语料，根据所述DEC分类模型参数DC表构建DEC分类模型。所述DEC模型调用模块调用所述DEC模型构建模块建立的模型，计算正文部分的字符输出类；

所述分类结果整合模块用于取CRF输出结果中的第1个和DEC结果中的前4个，去重，然后组合在一起输出，作为全文的分类结果。

优选的是，所述的基于全文的大文本CRF和规则分类系统中，所述应用层包括新文献接收模块和输出结果显示模块。

本发明由于将类分成了意义类和字符类，满足了对大文本不同视角的分类，提高了全文的整体分类准确率。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明提供的基于全文的大文本CRF和规则分类方法的一个实施例的建模流程图；

图2为本发明提供的基于全文的大文本CRF和规则分类方法的一个实施例的调用流程图；

图3为本发明提供的基于全文的大文本CRF和规则分类系统的一个实施例的结构框图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

应当理解，本文所使用的诸如“具有”、“包含”以及“包括”术语并不配出一个或多个其它元件或其组合的存在或添加。

所述的基于全文的大文本CRF和规则分类方法中，获取原始文件并将其转换为txt格式并作为所述待拆分文件。

所述的基于全文的大文本CRF和规则分类系统中，

所述基础语料层包括模型要素模块和语料库模块；

所述的基于全文的大文本CRF和规则分类系统中，

所述的基于全文的大文本CRF和规则分类系统中，所述应用层包括新文献接收模块和输出结果显示模块。

如图1所示，本发明提供的基于全文的大文本CRF+规则分类方法的模型构建过程，包括如下步骤：

步骤1：读取目录下每篇原始文献，清洗；

这些文献一般是从其他格式如pdf、html等转换到txt的，格式混乱，图片识别为乱码。对这些符号进行清洗，整理出比较干净的文本。

步骤2全文拆分为标题和正文两部分，保存在各自目录下；

标题一般取文本前100-200字，正文一般取文本前1000-10000字，具体字数需要根据语料的特点和分类的结果进行调整，直到分类结果满意为止。

步骤3：CRF文本预处理，完成分类文本和分类结果之间的对应；

步骤3-1：读取文件名→类对应表；

该表是一张预先梳理好的文件名和类的对应表，如表1中的文件名和分类两列所示，其中的类可以是多类。

步骤3-2：构建类→文件名对应关系；

以类为主键，将属于类的所有文件用一个集合记录下来，这里痛一篇文章可以属于多个类，满足多分类的要求。

步骤4：CRF标注和建模；

步骤4-1：对每个类，在目录下读取每个标题文本，3级分词；

按照目录下存储的文件名，依次读取各文件，进行3级分词。采用三级分词是为了保证分词的结果具有一定的专业性。

步骤4-2：对分词结果进行类标注；

给分出来的词打标记，一个类的所有文档的多有词都标为同一个类的类名，最终按照句子中词的类标记出现的次数多少进行排序。

步骤4-3：采用crf_learn计算分类模型；

Crf++是以款开源的crf算法，crf_learn是其模型学写算法。

步骤5：DEC文本预处理；

DEC是按照领域D、要素E和概念C实现的3阶张量模型。

步骤5-1：正文文本3级分词、清洗，保存在分词目录下；

清洗指去掉单字、纯字母、数字，只保留2个字以上且至少含有1个中文字的词，一保证词袋的词有比较明确的意义。

步骤5-2：读取文本→类对应表；这个表的格式如表1所示。

步骤5-3：构建类→正文分词文本对应关系；

构建结果如表1所示。由于分词清洗后词比较少，可以在一个独立的文件里实现。

步骤6:DEC张量处理；

步骤6-1：对每个类，读取正文文本语料；

也就是读取表1的第5列词集合；

步骤6-1：读取DC，构造E集合；

E集合词是全文排除掉D\C集合词之后的剩余的词。

步骤6-2：构建CE张量；

就是按照C的要求，将E进行扩展，有的行为0有的行为E。

步骤6-3：构建DEC张量；

就是将CE按照D的格式，扩展为0或者CE，共同形成DEC张量。

每篇文章都是一耳光DEC张量，然后要回到6-1，完成对每类的文献和对每类的2层循环，得到整个类的张量；

步骤7：DEC类处理；

步骤7-1：每个类以外的张量累加，构造类的反例；

标注7-2：类的整理排除类的反例，构建类的特征张量；

也就是正例集合和反例集合项减，剩下的就是该类的特征词构成的张量。

步骤7-3：张量转变为json格式输出。

由于张量最后要作为模型被其他程序调用，因此要和调用程序的格式保持一致。

如图2所示，本发明提供的基于全文的大文本CRF+规则分类方法的模型调用，包括以下步骤：

步骤1：读取前台输入文本；

采用异步方式，解决大文本的接收和存储问题，等接收完之后，再开始处理。

步骤2：文本拆分为标题和正文两部分；

标题一般取100-200字，正文取1000-10000字，具体的数量需要根据语料的特点进行调整，以得到一个最佳的分类效果。统一截取，可以在大文本和小文本之间保持一个量的平衡，以防大文本全覆盖小文本、小文本无类可分的情况发生。

步骤3：标题文本3级分词；

将标题文本当作一句进行分词。

步骤4：采用crf_test调用CRF模型；

Crf_test是crf++的调用函数。

步骤5：正文语料文本3级分词、清洗；

正文语料当作1句进行分词，然后去重、挑选至少含一个汉字的2个字以上的词，作为输入文本的词集合。

步骤6：构建DEC张量；

整个过程和模型构建阶段的6-1～6-3同。

步骤7：调用DEC张量模型，计算分类结果；

将文本张量和类张量相乘，然后降维相加，得到的总数，就是文本属于各类的强度。按照强度的大小排序，得到DEC分类结果的输出。

步骤8：取CRF分类的第1个，额DEC分类的前4个，整合输出；

CRF分类可以有很多，只取概率最大的第1个；DEC有些文献没有类，有些累很多。对于多类，只取前4个；然后和CRF的类拼在一起，如果CRF的分类在4个当中，则DEC只输出3个。

步骤9：按照顺序前台显示分类结果。

如图3所示，本发明提供的基于全文的大文本CRF+规则分类系统，整体分为3个层次，基础语料层、模型层和应用层。基础语料层存储建立规则DEC分类的模型参数、CRF模板文件，以及按类记录的标注语料文件；模型层具有模型构建和模型调用两个功能，建模是根据语料建立CRF模型和DEC规则模型，以支持应用层对模型的调用；应用层完成用户输入文件的接收和输出分类结果的展示。

所述基础语料层由模型要素模块1和语料库模块2组成。模块1由DEC模型参数DC表1-1、CRF模板文件1-2以及分类结构树1-3组成。DEC模型参数DC表是用户根据业务梳理出来的用于建立DEC模型的D表和C表，代表领域D(Domain)常用对象和业务常用主题概念C(Concept)，而要素E(Element)指跟D紧密相连的要素。CRF模板文件1-2用于对词和词组合进行灵活配置，是建立CRF模型的变量选择方式，如下所示，其中U[0，0]代表选择的词，U[-2，0]代表选择词的前2个词，而U[+2，0]代表选择词的后2个词，B代表考虑CRF标签的之间交互因子。

#Unigram

U00：％x[-2，0]

U01：％x[-1，0]

U02：％x[0，0]

U03：％x[1，0]

U04：％x[2，0]

U05：％x[-1，0]/％x[0，0]

U06：％x[0，0]/％x[1，0]

#Bigram

B

所述模型层包括标题和正文文本截取模块3、3级分词模块4、CRF模块5、DEC模块6，以及分类结果整合模块7。所述标题和正文文本截取模块3对转换后的txt输入文件进行清洗，截取一定长度的文字作为标题；截取更长的一段作为正文。对于几百页的大文本，分类所用的信息首先集中在标题部分，然后集中在摘要、前言部分，而之后对目录展开进行描述的章节内容细节，由于所及实体的层次低粒度小、内涵指向分散，对全文分类的贡献较低，因此一般可以不考虑。3级分词模块4是一个内部的3级级分词模块，其中按照2-3字分词、4字分词和5字以上分词进行级联，不断扩大词的粒度，也就是让词具有越来越具体的内容，从纸面走线实体、从抽象走向对象。所述CRF模块5包括CRF模型构建模块5-1和CRF模型调用模块5-2。CRF模型构建模块5-1对输入的样本语料进行建模，模型采用表1-2规定的特征，并且这个特征的项数和意义需要不断调整，直到获得最佳的模型效果。CRF模型调用模块5-2接收分词后的标题输入文本，调用CRF模型构建模块5-1建立的模型，计算输入文本的预测结果作为分类输出。所述DEC模块6包括DEC模型构建模块6-1和模型调用模块6-2。DEC模型构建模块6-1接收分词后的正文语料，根据DEC模型参数DC表1-1的模型构建DEC分类模型。所述模型调用模块6-2调用6-1建立的模型，计算正文部分的字符输出类。所述分类结果整合模块7取CRF输出结果中的第1个和DEC结果中的前4个，去重，然后组合在一起输出，作为全文的分类结果。

所述应用层包括新文献接收模块8和输出结果显示模块9。新文献接收模块8包括一个可编辑的输入文本框和一个按钮，接收前端的文本文件。所述输出结果显示模块9包括一个显示的标签框，具有格式调整功能，现实输出分类结果及排序。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.基于全文的大文本CRF和规则分类方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于全文的大文本CRF和规则分类方法，其特征在于，获取原始文件并将其转换为txt格式并作为所述待拆分文件。

3.基于全文的大文本CRF和规则分类系统，其特征在于，包括：

4.如权利要求3所述的基于全文的大文本CRF和规则分类系统，其特征在于，

所述基础语料层包括模型要素模块和语料库模块；

5.如权利要求4所述的基于全文的大文本CRF和规则分类系统，其特征在于，

6.如权利要求5所述的基于全文的大文本CRF和规则分类系统，其特征在于，所述应用层包括新文献接收模块和输出结果显示模块。