CN105243130A

CN105243130A - 面向数据挖掘的文本处理系统及方法

Info

Publication number: CN105243130A
Application number: CN201510638674.9A
Authority: CN
Inventors: 陈培华; 谢彬; 焦莹
Original assignee: No32 Research Institute Of China Electronics Technology Group Corp
Current assignee: No32 Research Institute Of China Electronics Technology Group Corp
Priority date: 2015-09-29
Filing date: 2015-09-29
Publication date: 2016-01-13

Abstract

本发明提供了一种面向数据挖掘的文本处理系统，包括：文本抽取模块、文本分词模块、索引建立模块、实体识别模块、关键词提取模块、自动摘要模块、自动分类模块以及服务接口模块。文本分词模块对文本抽取模块抽取的文本进行编码转换、简繁转换、词性标注操作；利用索引建立模块、实体识别模块、关键词提取模块、自动摘要模块、自动分类模块分别得到文本内容的索引文件、实体词、关键词、摘要以及分类结果；利用服务接口模块将所述的索引建立模块、实体识别模块、关键词提取模块、自动摘要模块和自动分类模块的输出结果以服务形式发布给其他系统以供其调用。本发明还提供了一种面向数据挖掘的文本处理方法，该方法能够提供更全面的文本处理能力。

Description

面向数据挖掘的文本处理系统及方法

技术领域

本发明涉及计算机信息处理技术领域，具体地，涉及面向数据挖掘的文本处理系统及方法。

背景技术

随着网络信息服务和计算机技术的迅速发展和普及，大量结构化和非结构化数据应运而生，尤其是以文本等为代表的非结构化数据，人们力图从海量数据中提取出有效、简洁、精炼和易于理解的知识。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程，针对文本类数据的数据挖掘主要有索引建立、实体识别、关键词提取、自动摘要和自动分类等操作过程，而这些过程的实现均需要进行文本处理。所以，面向数据挖掘的文本处理系统需要解决文本抽取、文本分词、索引建立、实体识别、关键词提取、自动摘要和自动分类等多方面的问题。

经对现有技术的文献检索发现，中国专利公开号CN101576872A，公开日为2009.11.11，专利名称为：一种中文文本处理方法及装置，公开了一种中文文本处理方法及装置，仅使用了中文分词方法对文本进行分割，然后对得到的文本片段进行聚合，虽然其通过增加文本片段长度降低了检索结果的误报概率，但是其仅仅涉及了文本分词和聚合的文本处理方法，对其他文本处理方面有一定局限性。中国专利公开号为：CN102262632A，公开日为2011.11.30，专利名称为：进行文本处理的方法和系统，公开了一种文本处理方法和实现这种方法的系统，介绍了一种在数据挖掘领域利用对现有的对象共指技术的扩展实现有效的文本数据的分析和处理，但是其主要涉及到了文本获取、文本分词、主体词提取等文本处理方法，其还可以通过自动摘要和自动分类等文本处理技术进一步提升其系统能力。中国专利公开号为：CN103176953A，公开日为2013.06.26，专利名称为：一种文本处理方法及系统，公开了一种用于提高现有技术中文本处理的效率和准确性的文本处理方法及系统，但其中仅涉及了文本分词、词性标注、实体识别等有限的文本处理技术，限制了对文本处理的能力。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种面向数据挖掘的文本处理系统及方法。

根据本发明提供的面向数据挖掘的文本处理系统，包括：文本抽取模块、文本分词模块、索引建立模块、实体识别模块、关键词提取模块、自动摘要模块、自动分类模块以及服务接口模块；

-所述文本抽取模块，用于接收外部文本文件，当判断出外部文本文件为破损时，舍弃掉该外部文本文件；否则识别该外部文本文件的文件格式，并根据该文件格式抽取文本；

-所述文本分词模块，用于接收所述文本抽取模块抽取的文本，对接收到的文本依次进行编码转换、简繁转换、分词以及词性标注操作，并且将带词性标注的分词结果分别传递给索引建立模块、实体识别模块、关键词提取模块、自动摘要模块和自动分类模块；

-所述索引建立模块，用于根据文本分词模块所提供的分词结果建立文本内容的索引文件，并为服务接口模块提供索引文件；

-所述实体识别模块，用于针对来自文本分词模块的分词结果，识别出文本内容中的实体词，并输出给服务接口模块；

-所述关键词提取模块，用于接收文本分词模块的分词结果，提取文本内容中的关键词，并输出给服务接口模块；

-所述自动摘要模块，用于根据文本分词模块所得到的分词结果以及上下文结构，自动生成摘要，并将生成的摘要输出给服务接口模块；

-所述自动分类模块，用于根据文本分词模块所输出的分词结果给文本内容确定一个类别分类，并将该分类结果输出给服务接口模块；

-所述服务接口模块，用于分别接收来自索引建立模块、实体识别模块、关键词提取模块、自动摘要模块、自动分类模块的输出结果，并分别以服务的形式发布这些结果，以供其他系统调用。

根据本发明提供的面向数据挖掘的文本处理方法，包括如下步骤：

步骤1：根据外部文本文件的文件格式，对外部文本文件进行抽取文本操作；

步骤2：对所述文本进行编码转换、简繁转换、分词以及词性标注操作；

步骤3：利用分词结果分别得到文本内容的索引文件、实体词、关键词、摘要以及类别分类结果；

步骤4：以服务的形式发布所述结果，以供其他系统调用。

优选地，所述步骤1包括如下步骤：

步骤1.1：接收外部文本文件，判断外部文本文件是否为破损，若接收的外部文本文件为破损状态，则舍弃该外部文本文件，并提醒用户文件已破损，结束流程；若接收的外部文本文件无破损，则进入步骤1.2；

步骤1.2：识别无破损外部文本文件的文件格式，并根据识别出的文件格式进行相应的文本抽取操作。

优选地，所述步骤2包括如下步骤：

步骤2.1：将抽取的文本转换成统一编码格式的文本内容；

步骤2.2：将统一编码格式的文本内容进行繁简转换，即将该文本内容中包含的中文繁体字统一转换为中文简体字；

步骤2.3：将统一编码格式、中文简体的文本内容进行文本分词操作，将该文本内容按词进行切分并进行词性标注。

优选地，所述步骤3包括：

-根据分词结果建立文本内容的索引文件；

-针对分词结果，识别出文本内容中的实体词；

-接收分词结果，提取文本内容中的关键词；

-根据分词结果以及上下文结构，自动生成摘要；

-根据分词结果给文本内容确定一个类别分类。

优选地，所述步骤1.1中判断外部文本文件是否为破损，包括判断文本结构、扩展名及内部标志位是否完整。

优选地，步骤2.1中将抽取的文本转换成统一的编码格式，所述编码格式为UTF-8格式。

优选地，所述提取文本内容中的关键词，具体包括：根据词项在文本内容中的文档频率、位置、词性权重、词频以及文本内容长度参数确定每个词项的综合权重，依据综合权重大小排序得到M个关键词，其中M的数量由用户指定。

优选地，所述自动生成摘要，具体包括：

通过计算词和句子的权重，并对文本内容中的所有句子根据权重值按高低降序排列，经过以余弦距离为度量的相似性判断进行去重和整合，从而得到根据要求输出的摘要文本。

优选地，所述给文本内容确定一个类别，具体包括：

根据预先定义的分类体系以及经过训练得到的分类模型，对分词结果进行特征向量表示，利用朴素贝叶斯、K近邻、支持向量积这些算法中的任一种算法将所述文本内容与分类模型进行距离计算，从而得到该文本内容的分类类别。

与现有技术相比，本发明具有如下的有益效果：

1、本发明提供的方法，包括文本分词、词性标注、实体识别、关键词提取、自动生成摘要、自动分类等文本处理能力，功能更全面。

2、本发明提供的方法更加充分挖掘文本数据背后的信息和价值，并能够对不同格式、不同编码的文本数据进行文本处理。

3、本发明提供的方法提高了文本处理效率，同时加快了与文本处理相关系统的开发进度，提高了系统的交互性和扩展性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明提供的面向数据挖掘的文本处理系统框图；

图2为本发明提供的面向数据挖掘的文本处理系统流程图；

图中：

101-面向数据挖掘的文本处理系统；

102-文本抽取模块；

103-文本分词模块；

104-索引建立模块；

105-实体识别模块；

106-关键词提取模块；

107-自动摘要模块；

108-自动分类模块；

109-服务接口模块。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

根据本发明提供的面向数据挖掘的文本处理系统，包括：文本抽取模块102、文本分词模块103、索引建立模块104、实体识别模块105、关键词提取模块106、自动摘要模块107、自动分类模块108以及服务接口模块109；

-所述文本抽取模块102，用于接收外部文本文件，当判断出外部文本文件为破损时，舍弃掉该外部文本文件；否则识别该外部文本文件的文件格式，并根据该文件格式抽取文本；

-所述文本分词模块103，用于接收所述文本抽取模块102抽取的文本，对接收到的文本依次进行编码转换、简繁转换、分词以及词性标注操作，并且将带词性标注的分词结果分别传递给索引建立模块104、实体识别模块105、关键词提取模块106、自动摘要模块107和自动分类模块108；

-所述索引建立模块104，用于根据文本分词模块103所提供的分词结果建立文本内容的索引文件，并为服务接口模块109提供索引文件；

-所述实体识别模块105，用于针对来自文本分词模块103的分词结果，识别出文本内容中的实体词，并输出给服务接口模块109；

-所述关键词提取模块106，用于接收文本分词模块103的分词结果，提取文本内容中部分的关键词，并输出给服务接口模块109；

-所述自动摘要模块107，用于根据文本分词模块103所得到的分词结果以及上下文结构，自动生成摘要，并将生成的摘要输出给服务接口模块109；

-所述自动分类模块108，用于根据文本分词模块103所输出的分词结果给文本内容确定一个类别，并将该分类结果输出给服务接口模块109；

-所述服务接口模块109，用于分别接收来自索引建立模块104、实体识别模块105、关键词提取模块106、自动摘要模块107、自动分类模块108的输出结果，并分别以服务的形式发布这些结果，以供其他系统调用。

具体地，如图1所示，本发明提供的文本处理系统101包括：文本抽取模块102、文本分词模块103、索引建立模块104、实体识别模块105、关键词提取模块106、自动摘要模块107、自动分类模块108和服务接口模块109。其中，文本抽取模块102接收外部文本文件，首先判断其文件是否破损，若是则不再进行后续文本处理，否则再识别其文件格式，根据识别出的文件格式进行相应的文本抽取操作，为文本分词模块103输出所抽取的文本内容；文本分词模块103接收来自文本抽取模块102的文本内容后，先进行编码转换，转换成统一的编码格式后再进行繁简转换，然后经过文本分词模块103进行分词和词性标注，并将带词性标注的分词结果分别传递给索引建立模块104、实体识别模块105、关键词提取模块106、自动摘要模块107和自动分类模块108；索引建立模块104根据文本分词模块103所提供的分词结果建立文本内容的索引文件，为服务接口模块109提供索引文件；实体识别模块105针对来自文本分词模块103的分词结果，识别出文本内容中的实体词，并输出给服务接口模块109；关键词提取模块106接收文本分词模块103的分词结果，提取文本内容中一定数量的关键词，并输出给服务接口模块109；自动摘要模块107则是根据文本分词模块103所得到的分词结果以及上下文结构，进行自动的摘要生成，并将生成的一定长度的文本内容摘要输出给服务接口模块109；自动分类模块108则是根据文本分词模块103所输出的分词结果，按照预先定义的主题类别给文本内容确定一个类别，并将该分类结果输出给服务接口模块109；服务接口模块109则是分别接收来自索引建立、实体识别、关键词提取、自动摘要和自动分类等模块的输出结果，并将这些结果分别以服务的形式发布出去，以供其他系统调用相应的文本处理结果。

本发明还提供一种面向数据挖掘的文本处理方法，本领域技术人员可以将所述面向数据挖掘的文本处理方法理解为所述面向数据挖掘的文本处理系统的优选实现方案。具体地，所述面向数据挖掘的文本处理方法，包括如下步骤：

步骤1：利用文本抽取模块102对外部文本文件进行抽取操作；

步骤2：利用文本分词模块103对所述文本抽取模块102抽取的文本进行编码转换、简繁转换、分词以及词性标注操作，并且将带词性标注的分词结果分别传递给索引建立模块104、实体识别模块105、关键词提取模块106、自动摘要模块107和自动分类模块108；

步骤3：利用索引建立模块104、实体识别模块105、关键词提取模块106、自动摘要模块107、自动分类模块108分别得到文本内容的索引文件、实体词、部分的关键词、摘要以及分类结果，并将这些结果输送到服务接口模块109；

步骤4：利用服务接口模块109分别以服务的形式发布来自索引建立模块104、实体识别模块105、关键词提取模块106、自动摘要模块107、自动分类模块108的输出结果，以供其他系统调用。

具体地，如图2所示，步骤201为获取待处理的文本。所述文本主要是单篇文本，可以来自公开的渠道(比如因特网上的网页、论坛或博客等)，也可以来自私有的渠道(如私有的数据库)，其存储格式可以是Office、PDF、TXT、XML、HTML等任何文档格式。当有多篇文档时，所述文本处理系统可以通过循环执行该文本处理流程以获取文本处理结果。

步骤202表示从所述的文本结构、扩展名及内部标志位等方面进行破损文件识别。

而步骤203则是根据步骤202的识别结果判断所述的文本是否破损，若为破损文本，则执行步骤215结束本次文本处理流程并提示用户文件已破损的提醒；否则，继续往下执行步骤204等文本处理流程。

步骤204根据文本扩展名和标识符等来识别文本格式，即判断所述文本为TXT、Word、PPT、Excel或PDF等文档格式。

步骤205根据步骤204所得到的文档格式进行相应的文本抽取操作，抽取出所述文本中的文本内容，以供后续的文本处理操作所使用。

步骤206将步骤205中所抽取的文本内容进行编码转换，将不同的编码格式统一转换为UTF-8的编码格式。

步骤207将经过步骤206转换成统一编码格式的文本内容进行繁简转换，将所述文本内容中可能包含的中文繁体字统一转换为中文简体字。

步骤208对经过步骤206、207所得到的统一编码格式、中文简体的文本内容进行文本分词操作，将所述的文本内容按词进行切分并进行词性标注。

步骤209依据步骤208的分词结果，对所述的文本内容建立索引并生成索引文件以提供给步骤214进行结果输出。

步骤210通过识别和分析步骤208的分词结果，识别出其中具有一定规则的确定结构的词汇，自动抽取出时间和PLO(人名、地名和机构名)等实体词信息，并经步骤214进行结果输出。

步骤211则是针对步骤208的分词结果，根据词项在文本内容中的文档频率、词性权重(如名词等赋予较大的权重，而副词、连词等赋予较小的权重)、位置权重(即在所述文本内容中越靠前的词，其权重越高)、词频以及文本内容长度等参数确定的综合权重来提取出一定数量的关键词并经步骤214进行结果输出，其中的关键词数量可以由用户指定(一般为3-8个)。其中，所述综合权重的计算方法如下：

S＝IDF*(α·W+β·TF)

其中，

IDF为修改的逆文档频率，且IDF＝ln(10000+10000/(df+1))，df为包含词项的文档频率；

词权重W＝(L-Tp)*Ps/L，L表示文本内容长度，Tp表示词项的起始位置，Ps为词性权重；

TF表示词项在所述文本内容中的词频；

α、β代表词权重W和词频TF的权重系统，且α+β＝1。

步骤212中对经过步骤205、206和207所得到的文本内容和步骤208的分词结果进行切分、排序，获取所述文本的句子序列和句子的词序列表达，然后计算词和句子的权重并对所述文本内容的所有句子根据权重值高低降序排列，再经过以余弦距离为度量的相似性判断进行去重和整合，最后根据要求的长度范围输出所述文本内容的摘要结果，并经步骤214进行结果输出。

步骤213中根据预先定义的分类体系以及经过训练得到的分类模型，对于经步骤208得到的文本分词结果进行特征向量表示(如采用向量空间模型VSM)，然后利用合适的分类算法(如朴素贝叶斯、K近邻、支持向量积等算法)将所述的文本与分类模型进行距离计算以求出其分类类别，最后将所述文本的分类类别经步骤214进行输出。

步骤214主要是将从步骤209得到的索引文件、步骤210得到的实体词、步骤211得到的关键词、步骤212得到的摘要内容和步骤213得到的文本分类结果(即分类类别)进行输出，并可以供其他系统进行调用。

步骤215表示了经过上述流程操作后便可以结束本次文本处理流程了。

优选地，所述步骤1包括如下步骤：

步骤1.1：接收外部文本文件，判断外部文本文件是否为破损，若接收的外部文本文件为破损状态，则舍弃该外部文本文件，并提醒用户文件已破损，同时结束全部流程；若接收的外部文本文件无破损，则进入步骤1.2；

步骤1.2：识别无破损外部文本文件的文件格式，并根据识别出的文件格式进行相应的文本抽取操作；

步骤1.3：将抽取的文本发送给文本分词模块103。

优选地，所述步骤2包括如下步骤：

步骤2.1：接收文本抽取模块102抽取的文本，将抽取的文本转换成统一编码格式的文本内容；

步骤2.3：将统一编码格式、中文简体的文本内容进行文本分词操作，将该文本内容按词进行切分并进行词性标注；

步骤2.4：将带词性标注的分词结果分别传递给索引建立模块104、实体识别模块105、关键词提取模块106、自动摘要模块107和自动分类模块108。

优选地，所述步骤3包括：

-利用索引建立模块104根据文本分词模块103所提供的分词结果建立文本内容的索引文件，并为服务接口模块109提供索引文件；

-利用实体识别模块105，针对来自文本分词模块103的分词结果，识别出文本内容中的实体词，并输出给服务接口模块109；

-利用关键词提取模块106接收文本分词模块103的分词结果，提取文本内容中的关键词，并输出给服务接口模块109；

-利用自动摘要模块107根据文本分词模块103所得到的分词结果以及上下文结构，自动生成摘要，并将生成的摘要输出给服务接口模块109；

-利用自动分类模块108根据文本分词模块103所输出的分词结果给文本内容确定一个类别，并将该分类结果输出给服务接口模块109。

优选地，所述步骤1.1中判断外部文本文件是否为破损，包括判断文本结构、扩展名及内部标志位是否完整；所述步骤1.2中能够识别的文件格式包括：TXT、Word、PPT、Excel、PDF。

优选地，利用关键词提取模块106提取文本内容中的关键词，根据所述文本内容中的不同词性赋予不同的权重，同时考虑每个词在文本中的位置，根据位置顺序设置不同的权重，经过综合评价后得到M个关键词，其中M的数量由用户指定。

优选地，利用自动摘要模块107自动生产摘要，通过计算词和句子的权重，并对文本内容中的所有句子根据权重值按高低降序排列，经过以余弦距离为度量的相似性判断进行去重和整合，从而得到根据要求输出的摘要文本。

优选地，利用自动分类模块108给文本内容确定一个类别，根据预先定义的分类体系以及经过训练得到的分类模型，对文本分词模块103所得到的分词结果进行特征向量表示，利用朴素贝叶斯、K近邻、支持向量积等算法中的任一种算法将所述文本内容与分类模型进行距离计算，从而得到该文本内容的分类类别。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种面向数据挖掘的文本处理系统，其特征在于，包括：文本抽取模块(102)、文本分词模块(103)、索引建立模块(104)、实体识别模块(105)、关键词提取模块(106)、自动摘要模块(107)、自动分类模块(108)以及服务接口模块(109)；

-所述文本抽取模块(102)，用于接收外部文本文件，当判断出外部文本文件为破损时，舍弃掉该外部文本文件；否则识别该外部文本文件的文件格式，并根据该文件格式抽取文本；

-所述文本分词模块(103)，用于接收所述文本抽取模块(102)抽取的文本，对接收到的文本依次进行编码转换、简繁转换、分词以及词性标注操作，并且将带词性标注的分词结果分别传递给索引建立模块(104)、实体识别模块(105)、关键词提取模块(106)、自动摘要模块(107)和自动分类模块(108)；

-所述索引建立模块(104)，用于根据文本分词模块(103)所提供的分词结果建立文本内容的索引文件，并为服务接口模块(109)提供索引文件；

-所述实体识别模块(105)，用于针对来自文本分词模块(103)的分词结果，识别出文本内容中的实体词，并输出给服务接口模块(109)；

-所述关键词提取模块(106)，用于接收文本分词模块(103)的分词结果，提取文本内容中的关键词，并输出给服务接口模块(109)；

-所述自动摘要模块(107)，用于根据文本分词模块(103)所得到的分词结果以及上下文结构，自动生成摘要，并将生成的摘要输出给服务接口模块(109)；

-所述自动分类模块(108)，用于根据文本分词模块(103)所输出的分词结果给文本内容确定一个类别分类，并将该分类结果输出给服务接口模块(109)；

-所述服务接口模块(109)，用于分别接收来自索引建立模块(104)、实体识别模块(105)、关键词提取模块(106)、自动摘要模块(107)、自动分类模块(108)的输出结果，并分别以服务的形式发布这些结果，以供其他系统调用。

2.一种面向数据挖掘的文本处理方法，其特征在于，包括如下步骤：

步骤4：以服务的形式发布所述结果，以供其他系统调用。

3.根据权利要求2所述的面向数据挖掘的文本处理方法，其特征在于，所述步骤1包括如下步骤：

4.根据权利要求2所述的面向数据挖掘的文本处理方法，其特征在于，所述步骤2包括如下步骤：

步骤2.1：将抽取的文本转换成统一编码格式的文本内容；

5.根据权利要求2所述的面向数据挖掘的文本处理方法，其特征在于，所述步骤3包括：

-根据分词结果建立文本内容的索引文件；

-针对分词结果，识别出文本内容中的实体词；

-接收分词结果，提取文本内容中的关键词；

-根据分词结果以及上下文结构，自动生成摘要；

-根据分词结果给文本内容确定一个类别分类。

6.根据权利要求3所述的面向数据挖掘的文本处理方法，其特征在于，所述步骤1.1中判断外部文本文件是否为破损，包括判断文本结构、扩展名及内部标志位是否完整。

7.根据权利要求4所述的面向数据挖掘的文本处理方法，其特征在于，步骤2.1中将抽取的文本转换成统一的编码格式，所述编码格式为UTF-8格式。

8.根据权利要求5所述的面向数据挖掘的文本处理方法，其特征在于，所述提取文本内容中的关键词，具体包括：根据词项在文本内容中的文档频率、位置、词性权重、词频以及文本内容长度参数确定每个词项的综合权重，依据综合权重大小排序得到M个关键词，其中M的数量由用户指定。

9.根据权利要求5或8所述的面向数据挖掘的文本处理方法，其特征在于，所述自动生成摘要，具体包括：

10.根据权利要求5所述的面向数据挖掘的文本处理方法，其特征在于，所述给文本内容确定一个类别，具体包括：