CN106599041A

CN106599041A - 基于大数据平台的文本处理及检索系统

Info

Publication number: CN106599041A
Application number: CN201610976155.8A
Authority: CN
Inventors: 姜鑫; 王金华
Original assignee: No32 Research Institute Of China Electronics Technology Group Corp
Current assignee: No32 Research Institute Of China Electronics Technology Group Corp
Priority date: 2016-11-07
Filing date: 2016-11-07
Publication date: 2017-04-26

Abstract

本发明公开了一种基于大数据平台的文本处理及检索系统，其包括基于Hadoop的文本处理部分和基于Hadoop分布式检索功能部分；基于Hadoop的文本处理部分包括文本抽取模块等；基于Hadoop分布式检索功能部分包括语义标注模块、基于分布式内存共享检索模块。本发明能够对不同格式、不同编码的文本数据进行文本处理；对文本进行内容抽取、文本分词、索引建立、实体识别、关键词提取、自动摘要、文本聚类、自动分类的更全面的文本处理操作，充分挖掘文本数据所包含的信息和价值；文本处理结果可以通过服务接口的形式发布出去，提高了系统的交互性和扩展性；采用基于分布式内存共享的全文检索技术，提高文本处理后全文检索的效率。

Description

基于大数据平台的文本处理及检索系统

技术领域

本发明涉及一种计算机信息处理系统，特别是涉及一种基于大数据平台的文本处理及检索系统。

背景技术

数据的爆炸性增长是信息时代最典型的特征。国际互联网数据中心(InternetData Center，IDC)的研究报告指出，2011年全球已有1.8ZB(即1.8万亿GB)数据创建产生。这相当于每位美国人每分钟写3条Tweet(“推特”上的留言)，并且还是不停地写2.7万年。Google数据中心的服务器规模以达数百万台，每天处理的数据量超过100PB。这样的大数据中包括大量结构化和非结构化数据，尤其是以文本等为代表的非结构化数据，处理海量数据的两个关键问题就是海量数据的存储和计算问题，传统的文本处理系统在这两个方面都不能满足海量网络文本处理的需求。如何从海量数据中分析和挖掘潜在的价值已经成为大数据研究的重点。

基于大数据平台的文本处理及检索系统围绕着基于Hadoop(海杜普，Hadoop是一个由Apache基金会所开发的分布式系统基础架构)平台下的网络文本处理展开，研究的内容包括基于Hadoop的文本处理部分和基于Hadoop分布式检索功能部分构建。其中基于Hadoop一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程，主要有创建索引、实体识别、提取关键词、文本自动摘要、文本聚类和自动分类等操作过程，而这些过程的实现均需要进行文本处理。为了解决效率和安全的问题，同时考虑到现有的软件、硬件资源情况，决定将系统的文本处理部分移植到Hadoop分布式计算机平台中。Hadoop平台可将处理程序分发到不同的计算节点实现分布式处理，然后将化理的结果统一地在Hadoop分布式文件系统——HDFS中进行管理。所以基于大数据平台文本处理系统需要解决文本抽取、文本分词、创建索引、实体识别、提取关键词、自动摘要、文本聚类和自动分类等多方面的问题。基于Hadoop分布式检索功能部分构建介绍基于Hadoop平台下检索相关的技术。首先实现了对Lucene(全文搜索引擎)功能的扩展，使Lucene能支持对HDFS文件系统的读写。其次，实现了二个MapReduce(一种编程模型，用于大规模数据集的并行运算)类，一个完成分布式的分词功能，另一个完成建立倒排索引功能。

现有的发明专利中，“面向数据挖掘的文本处理系统及方法”专利(中国专利申请号201510638674.9、2015.09.29)，描述了文本处理的方法，仅针对文本类数据的数据挖掘，包括索引建立、实体识别、关键词提取、自动摘要和自动分类等操作过程，而这些过程的实现均需要进行文本处理，虽然其文本处理方法比较详细，但是其仅仅涉及了文本处理方法，并未将文本处理方法跟大数据相结合，具有一定的局限性。“一种基于语义的大数据分析系统”专利(中国专利公开号为：CN104281697A、2015.01.14)，介绍了一种基于语义的大数据分析系统，包括数据采集入库部件、实时数据流处理部件、实时数据流处理部件、存储体系部件和底层支持部件。该发明实现基于web的大数据分析，其底层支持部件中涉及的文本处理和检索相关的事务可以进一步提升。“一种基于语义的大数据分析商业智能服务系统”专利(中国专利公开号为：CN104182389A、2014.12.03)，介绍了一种基于语义的大数据分析商业智能服务系统，实现了对互联网富含的商业信息地精准分析，可以方便快捷的为中小型企业提供商业智能服务，但是其在文本分词、词性标注、实体识别等方面，限制了对文本处理的能力。

发明内容

本发明所要解决的技术问题是提供一种基于大数据平台的文本处理及检索系统，其能够提供丰富的文本处理技术，包括文本抽取、文本分词、创建索引、实体识别、提取关键词、自动摘要、文本聚类和自动分类；基于大数据分析技术，充分分析和挖掘文本的内在信息和体现的重要价值；将文本处理技术和大数据分析技术进行结合，有效的提高文本处理的效率和准确度；提供基于分布式内容共享的全文检索技术，提高本文的检索效率。

本发明是通过下述技术方案来解决上述技术问题的：一种基于大数据平台的文本处理及检索系统，其特征在于，其包括基于Hadoop的文本处理部分和基于Hadoop分布式检索功能部分；

所述基于Hadoop的文本处理部分包括：

文本抽取模块，接收外部文本文件；

文本分词模块，接收来自文本抽取模块的文本内容；

索引建立模块，根据文本分词模块所提供的分词结果建立文本内容的索引文件，为服务接口模块提供索引文件；

实体识别模块，针对来自文本分词模块的分词结果，识别出文本内容中的实体词，并输出给服务接口模块；

关键词提取模块，接收文本分词模块的分词结构，提取文本内容中的关键词，并输出给服务接口模块；

自动摘要模块，根据文本分词模块所得到的分词结果以及上下文结构，进行自动的摘要生成，并将生成的文本内容摘要输出给服务接口模块；

文本聚类模块，根据自动聚类功能是通过在文档的处理过程中，自动生成文档的特征向量，根据特征向量，将相似的文档聚合归类；

自动分类模块，根据文本分词模块所输出的分词结构，按照预先定义的主体类别给文本内容确定一个类别，并将该分类结构输出给服务接口模块；

服务接口模块，分别接受来自索引建立模块、实体识别模块、关键词提取模块、自动摘要模块、自动分类模块的输出结果，并将这些结构分别以服务的形式发布出去，来提供其他系统调用相应的文本处理结果；

所述基于Hadoop分布式检索功能部分包括：

语义标注模块，对文本添加语义标注，利用标注信息和文本之间的关系，进行辅助检索；

基于分布式内存共享检索模块，将文本处理的结果存储到大数据平台中，并加载到内容中。

优选地，所述文件抽取模块接收外部文件时，首先判断其文件是否破损，若是则不再进行后续文本处理，否则再识别其文件格式，根据识别出的文件格式进行相应的文本抽取操作，为文本分词模块输出所抽取的文本内容。

优选地，所述文件分词模块接收文件抽取模块的文本内容后，先进行编码转换，转换成统一的编码格式后再进行繁简转换，然后经过文本分词模块进行分词和词性标注，并将带词性标注的分词结果分别传递给索引建立模块、实体识别模块、关键词提取模块、自动摘要模块、自动分类模块。

优选地，所述文本聚类模块中的特征向量是由文档中出现的概念、关键词以及它出现的频率构成。

优选地，所述基于大数据平台的文本处理及检索系统采用如下工作流程：

步骤一，获取待处理的文本；

步骤二，表示从所述的文本结构、扩展名及内部标志位进行破损文件识别；

步骤三，识别结果判断文本是否损坏，若为破损文本，则执行步骤十三结束本次文本处理流程并提示用户文件已破损；否则，继续往下执行步骤四以下流程；

步骤四，对文本分词前进行预处理；

步骤五，对基于Lucene和Hadoop模式对文本内容进行文本分词操作，将所述的文本内容按词进行切分并进行词性标注；

步骤六，根据分词结果，对所述的文本内容建立索引并生成索引文件以提供给步骤十二进行结果输出；

步骤七，通过识别和分析步骤五的分词结果，自动抽取出时间和PLO的实体词信息；

步骤八，根据不同词性赋予不同的权重、同时考虑词的位置权重来提取出一定数量的关键词；

步骤九，中对文本内容和分词结果进行切分、排序，获取所述文本的句子序列和句子的词序列表达，然后计算词和句子的权重并对所述文本内容的所有句子按权重值高低降序排列，再经过以余弦距离为度量的相似性判断进行去重和整合，最后根据要求的长度范围输出所述文本内容的摘要结果；

步骤十，根据预先定义的分类体系以及经过训练得到的分类模型，对于文本分词结果进行特征向量表示，然后利用合适的分类算法将所述的文本与分类模型进行距离计算以求出其分类类别，最后将所述文本的分类类别；

步骤十一，将多个文档进行按照在文档的处理过程中，根据自动生成文档的特征向量，根据特征向量，将相似的文档聚合归类；

步骤十二，主要是将文本处理结果进行输出，并供其他系统进行调用；

步骤十三，表示结束本次流程。

本发明的积极进步效果在于：本发明能够对不同格式、不同编码的文本数据进行文本处理；对文本进行内容抽取、文本分词、索引建立、实体识别、关键词提取、自动摘要、文本聚类、自动分类的更全面的文本处理操作，充分挖掘文本数据所包含的信息和价值；文本处理结果可以通过服务接口的形式发布出去，提高了系统的交互性和扩展性；采用基于分布式内存共享的全文检索技术，提高文本处理后全文检索的效率。

附图说明

图1为基于大数据平台的文本处理及检索系统框图。

图2为文本处理流程图。

具体实施方式

下面结合附图给出本发明较佳实施例，以详细说明本发明的技术方案。

如图1所示，本发明实施例所提供的基于大数据平台的文本处理及检索系统101包括文本抽取模块102、文本分词模块103、索引建立模块104,、实体识别模块105,、关键词提取模块106、自动摘要模块107、文本聚类模块108、自动分类模块109、服务接口模块110、语义标注模块111和基于分布式内存共享检索模块112；

文本抽取模块102接收外部文本文件，首先判断其文件是否破损，若是则不再进行后续文本处理，否则再识别其文件格式，根据识别出的文件格式进行相应的文本抽取操作，为文本分词模块103输出所抽取的文本内容；

文本分词模块103接收来自文本抽取模块102的文本内容后，先进行编码转换，转换成统一的编码格式后再进行繁简转换，然后经过文本分词模块103进行分词和词性标注，并将带词性标注的分词结果分别传递给索引建立模块104、实体识别模块105、关键词提取模块106、自动摘要模块107、自动分类模块109；

索引建立模块104根据文本分词模块103所提供的分词结果建立文本内容的索引文件，为服务接口模块110提供索引文件；

实体识别模块105针对来自文本分词模块103的分词结果，识别出文本内容中的实体词，并输出给服务接口模块110；

关键词提取模块106接收文本分词模块103的分词结构，提取文本内容中的关键词，并输出给服务接口模块110；

自动摘要模块107根据文本分词模块103所得到的分词结果以及上下文结构，进行自动的摘要生成，并将生成的文本内容摘要输出给服务接口模块110；

文本聚类模块108根据自动聚类功能是通过在文档的处理过程中，自动生成文档的特征向量，根据特征向量，将相似的文档聚合归类；

自动分类模块109根据文本分词模块所输出的分词结构，按照预先定义的主体类别给文本内容确定一个类别，并将该分类结构输出给服务接口模块110；

服务接口模块110分别接受来自索引建立模块104、实体识别模块105、关键词提取模块106、自动摘要模块107、自动分类模块109的输出结果，并将这些结构分别以服务的形式发布出去，来提供其他系统调用相应的文本处理结果；

语义标注模块111对文本添加语义标注，利用标注信息和文本之间的关系，进行辅助检索，提供检索效率；

基于分布式内存共享检索模块112将文本处理的结果存储到大数据平台中，并加载到内容中，在检索的时候提高检索的效率。

图2为本发明实施例提供的文本处理流程，即本发明基于大数据平台的文本处理及检索系统采用如下工作流程：

步骤201为获取待处理的文本；所述文本主要是单篇文本，其存储格式可以是Office、PDF、TXT、XML、HTML中的任何文档格式；当有多篇文档时，所述文本处理系统可以通过循环执行该文本处理流程以获取文本处理结果；

步骤202表示从所述的文本结构、扩展名及内部标志位等方面进行破损文件识别；

步骤203识别结果判断文本是否损坏，若为破损文本，则执行步骤213结束本次文本处理流程并提示用户文件已破损；否则，继续往下执行步骤204以下文本处理流程；

步骤204是对文本分词前进行预处理，包括格式识别、文本抽取、编码转换和繁简转换；其中格式识别主要包括根据文本扩展名和标识符等来识别文本格式，即判断所述文本为TXT、Word、PPT、Excel或PDF中的文档格式；文本抽取进行相应的文本抽取操作，抽取出所述文本中的文本内容，以供后续的文本处理操作所使用；编码转换将所抽取的文本内容进行编码转换；繁简转换将文本内容进行繁简转换，中文繁体字统一转换为中文简体字；

步骤205对基于Lucene和Hadoop模式对文本内容进行文本分词操作，将所述的文本内容按词进行切分并进行词性标注；

步骤206根据分词结果，对所述的文本内容建立索引并生成索引文件以提供给步骤212进行结果输出；

步骤207通过识别和分析步骤205的分词结果，自动抽取出时间和PLO(人名、地名和机构名)的实体词信息；

步骤208根据不同词性赋予不同的权重、同时考虑词的位置权重等综合评价标准来提取出一定数量的关键词；

步骤209中对文本内容和分词结果进行切分、排序，获取所述文本的句子序列和句子的词序列表达，然后计算词和句子的权重并对所述文本内容的所有句子按权重值高低降序排列，再经过以余弦距离为度量的相似性判断进行去重和整合，最后根据要求的长度范围输出所述文本内容的摘要结果；

步骤210中根据预先定义的分类体系以及经过训练得到的分类模型，对于文本分词结果进行特征向量表示，然后利用合适的分类算法将所述的文本与分类模型进行距离计算以求出其分类类别，最后将所述文本的分类类别；

步骤211将多个文档进行按照在文档的处理过程中，根据自动生成文档的特征向量，根据特征向量，将相似的文档聚合归类；

步骤212主要是将文本处理结果进行输出，并可以供其他系统进行调用；

步骤213表示结束本次文本处理流程。

综上所述，本发明能够对不同格式、不同编码的文本数据进行文本处理；对文本进行内容抽取、文本分词、索引建立、实体识别、关键词提取、自动摘要、文本聚类、自动分类的更全面的文本处理操作，充分挖掘文本数据所包含的信息和价值；文本处理结果可以通过服务接口的形式发布出去，提高了系统的交互性和扩展性；采用基于分布式内存共享的全文检索技术，提高文本处理后全文检索的效率。

以上所述的具体实施例，对本发明的解决的技术问题、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据平台的文本处理及检索系统，其特征在于，所述基于大数据平台的文本处理及检索系统包括基于Hadoop的文本处理部分和基于Hadoop分布式检索功能部分；

所述基于Hadoop的文本处理部分包括：

文本抽取模块，接收外部文本文件；

文本分词模块，接收来自文本抽取模块的文本内容；

所述基于Hadoop分布式检索功能部分包括：

2.根据权利要求1所述的基于大数据平台的文本处理及检索系统，其特征在于，所述文件抽取模块接收外部文件时，首先判断其文件是否破损，若是则不再进行后续文本处理，否则再识别其文件格式，根据识别出的文件格式进行相应的文本抽取操作，为文本分词模块输出所抽取的文本内容。

3.根据权利要求1所述的基于大数据平台的文本处理及检索系统，其特征在于，所述文件分词模块接收文件抽取模块的文本内容后，先进行编码转换，转换成统一的编码格式后再进行繁简转换，然后经过文本分词模块进行分词和词性标注，并将带词性标注的分词结果分别传递给索引建立模块、实体识别模块、关键词提取模块、自动摘要模块、自动分类模块。

4.根据权利要求1所述的基于大数据平台的文本处理及检索系统，其特征在于，所述文本聚类模块中的特征向量是由文档中出现的概念、关键词以及它出现的频率构成。

5.根据权利要求1所述的基于大数据平台的文本处理及检索系统，其特征在于，所述基于大数据平台的文本处理及检索系统采用如下工作流程：

步骤一，获取待处理的文本；

步骤四，对文本分词前进行预处理；

步骤十三，表示结束本次流程。