CN105243130A - 面向数据挖掘的文本处理系统及方法 - Google Patents
面向数据挖掘的文本处理系统及方法 Download PDFInfo
- Publication number
- CN105243130A CN105243130A CN201510638674.9A CN201510638674A CN105243130A CN 105243130 A CN105243130 A CN 105243130A CN 201510638674 A CN201510638674 A CN 201510638674A CN 105243130 A CN105243130 A CN 105243130A
- Authority
- CN
- China
- Prior art keywords
- text
- module
- word
- content
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 title claims description 39
- 238000007418 data mining Methods 0.000 title abstract description 6
- 230000011218 segmentation Effects 0.000 claims abstract description 53
- 238000000605 extraction Methods 0.000 claims abstract description 29
- 238000006243 chemical reaction Methods 0.000 claims abstract description 21
- 239000000284 extract Substances 0.000 claims description 12
- 238000009412 basement excavation Methods 0.000 claims description 10
- 230000010354 integration Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000003672 processing method Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000013332 literature search Methods 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种面向数据挖掘的文本处理系统,包括:文本抽取模块、文本分词模块、索引建立模块、实体识别模块、关键词提取模块、自动摘要模块、自动分类模块以及服务接口模块。文本分词模块对文本抽取模块抽取的文本进行编码转换、简繁转换、词性标注操作;利用索引建立模块、实体识别模块、关键词提取模块、自动摘要模块、自动分类模块分别得到文本内容的索引文件、实体词、关键词、摘要以及分类结果;利用服务接口模块将所述的索引建立模块、实体识别模块、关键词提取模块、自动摘要模块和自动分类模块的输出结果以服务形式发布给其他系统以供其调用。本发明还提供了一种面向数据挖掘的文本处理方法,该方法能够提供更全面的文本处理能力。
Description
技术领域
本发明涉及计算机信息处理技术领域,具体地,涉及面向数据挖掘的文本处理系统及方法。
背景技术
随着网络信息服务和计算机技术的迅速发展和普及,大量结构化和非结构化数据应运而生,尤其是以文本等为代表的非结构化数据,人们力图从海量数据中提取出有效、简洁、精炼和易于理解的知识。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程,针对文本类数据的数据挖掘主要有索引建立、实体识别、关键词提取、自动摘要和自动分类等操作过程,而这些过程的实现均需要进行文本处理。所以,面向数据挖掘的文本处理系统需要解决文本抽取、文本分词、索引建立、实体识别、关键词提取、自动摘要和自动分类等多方面的问题。
经对现有技术的文献检索发现,中国专利公开号CN101576872A,公开日为2009.11.11,专利名称为:一种中文文本处理方法及装置,公开了一种中文文本处理方法及装置,仅使用了中文分词方法对文本进行分割,然后对得到的文本片段进行聚合,虽然其通过增加文本片段长度降低了检索结果的误报概率,但是其仅仅涉及了文本分词和聚合的文本处理方法,对其他文本处理方面有一定局限性。中国专利公开号为:CN102262632A,公开日为2011.11.30,专利名称为:进行文本处理的方法和系统,公开了一种文本处理方法和实现这种方法的系统,介绍了一种在数据挖掘领域利用对现有的对象共指技术的扩展实现有效的文本数据的分析和处理,但是其主要涉及到了文本获取、文本分词、主体词提取等文本处理方法,其还可以通过自动摘要和自动分类等文本处理技术进一步提升其系统能力。中国专利公开号为:CN103176953A,公开日为2013.06.26,专利名称为:一种文本处理方法及系统,公开了一种用于提高现有技术中文本处理的效率和准确性的文本处理方法及系统,但其中仅涉及了文本分词、词性标注、实体识别等有限的文本处理技术,限制了对文本处理的能力。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种面向数据挖掘的文本处理系统及方法。
根据本发明提供的面向数据挖掘的文本处理系统,包括:文本抽取模块、文本分词模块、索引建立模块、实体识别模块、关键词提取模块、自动摘要模块、自动分类模块以及服务接口模块;
-所述文本抽取模块,用于接收外部文本文件,当判断出外部文本文件为破损时,舍弃掉该外部文本文件;否则识别该外部文本文件的文件格式,并根据该文件格式抽取文本;
-所述文本分词模块,用于接收所述文本抽取模块抽取的文本,对接收到的文本依次进行编码转换、简繁转换、分词以及词性标注操作,并且将带词性标注的分词结果分别传递给索引建立模块、实体识别模块、关键词提取模块、自动摘要模块和自动分类模块;
-所述索引建立模块,用于根据文本分词模块所提供的分词结果建立文本内容的索引文件,并为服务接口模块提供索引文件;
-所述实体识别模块,用于针对来自文本分词模块的分词结果,识别出文本内容中的实体词,并输出给服务接口模块;
-所述关键词提取模块,用于接收文本分词模块的分词结果,提取文本内容中的关键词,并输出给服务接口模块;
-所述自动摘要模块,用于根据文本分词模块所得到的分词结果以及上下文结构,自动生成摘要,并将生成的摘要输出给服务接口模块;
-所述自动分类模块,用于根据文本分词模块所输出的分词结果给文本内容确定一个类别分类,并将该分类结果输出给服务接口模块;
-所述服务接口模块,用于分别接收来自索引建立模块、实体识别模块、关键词提取模块、自动摘要模块、自动分类模块的输出结果,并分别以服务的形式发布这些结果,以供其他系统调用。
根据本发明提供的面向数据挖掘的文本处理方法,包括如下步骤:
步骤1:根据外部文本文件的文件格式,对外部文本文件进行抽取文本操作;
步骤2:对所述文本进行编码转换、简繁转换、分词以及词性标注操作;
步骤3:利用分词结果分别得到文本内容的索引文件、实体词、关键词、摘要以及类别分类结果;
步骤4:以服务的形式发布所述结果,以供其他系统调用。
优选地,所述步骤1包括如下步骤:
步骤1.1:接收外部文本文件,判断外部文本文件是否为破损,若接收的外部文本文件为破损状态,则舍弃该外部文本文件,并提醒用户文件已破损,结束流程;若接收的外部文本文件无破损,则进入步骤1.2;
步骤1.2:识别无破损外部文本文件的文件格式,并根据识别出的文件格式进行相应的文本抽取操作。
优选地,所述步骤2包括如下步骤:
步骤2.1:将抽取的文本转换成统一编码格式的文本内容;
步骤2.2:将统一编码格式的文本内容进行繁简转换,即将该文本内容中包含的中文繁体字统一转换为中文简体字;
步骤2.3:将统一编码格式、中文简体的文本内容进行文本分词操作,将该文本内容按词进行切分并进行词性标注。
优选地,所述步骤3包括:
-根据分词结果建立文本内容的索引文件;
-针对分词结果,识别出文本内容中的实体词;
-接收分词结果,提取文本内容中的关键词;
-根据分词结果以及上下文结构,自动生成摘要;
-根据分词结果给文本内容确定一个类别分类。
优选地,所述步骤1.1中判断外部文本文件是否为破损,包括判断文本结构、扩展名及内部标志位是否完整。
优选地,步骤2.1中将抽取的文本转换成统一的编码格式,所述编码格式为UTF-8格式。
优选地,所述提取文本内容中的关键词,具体包括:根据词项在文本内容中的文档频率、位置、词性权重、词频以及文本内容长度参数确定每个词项的综合权重,依据综合权重大小排序得到M个关键词,其中M的数量由用户指定。
优选地,所述自动生成摘要,具体包括:
通过计算词和句子的权重,并对文本内容中的所有句子根据权重值按高低降序排列,经过以余弦距离为度量的相似性判断进行去重和整合,从而得到根据要求输出的摘要文本。
优选地,所述给文本内容确定一个类别,具体包括:
根据预先定义的分类体系以及经过训练得到的分类模型,对分词结果进行特征向量表示,利用朴素贝叶斯、K近邻、支持向量积这些算法中的任一种算法将所述文本内容与分类模型进行距离计算,从而得到该文本内容的分类类别。
与现有技术相比,本发明具有如下的有益效果:
1、本发明提供的方法,包括文本分词、词性标注、实体识别、关键词提取、自动生成摘要、自动分类等文本处理能力,功能更全面。
2、本发明提供的方法更加充分挖掘文本数据背后的信息和价值,并能够对不同格式、不同编码的文本数据进行文本处理。
3、本发明提供的方法提高了文本处理效率,同时加快了与文本处理相关系统的开发进度,提高了系统的交互性和扩展性。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明提供的面向数据挖掘的文本处理系统框图;
图2为本发明提供的面向数据挖掘的文本处理系统流程图;
图中:
101-面向数据挖掘的文本处理系统;
102-文本抽取模块;
103-文本分词模块;
104-索引建立模块;
105-实体识别模块;
106-关键词提取模块;
107-自动摘要模块;
108-自动分类模块;
109-服务接口模块。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
根据本发明提供的面向数据挖掘的文本处理系统,包括:文本抽取模块102、文本分词模块103、索引建立模块104、实体识别模块105、关键词提取模块106、自动摘要模块107、自动分类模块108以及服务接口模块109;
-所述文本抽取模块102,用于接收外部文本文件,当判断出外部文本文件为破损时,舍弃掉该外部文本文件;否则识别该外部文本文件的文件格式,并根据该文件格式抽取文本;
-所述文本分词模块103,用于接收所述文本抽取模块102抽取的文本,对接收到的文本依次进行编码转换、简繁转换、分词以及词性标注操作,并且将带词性标注的分词结果分别传递给索引建立模块104、实体识别模块105、关键词提取模块106、自动摘要模块107和自动分类模块108;
-所述索引建立模块104,用于根据文本分词模块103所提供的分词结果建立文本内容的索引文件,并为服务接口模块109提供索引文件;
-所述实体识别模块105,用于针对来自文本分词模块103的分词结果,识别出文本内容中的实体词,并输出给服务接口模块109;
-所述关键词提取模块106,用于接收文本分词模块103的分词结果,提取文本内容中部分的关键词,并输出给服务接口模块109;
-所述自动摘要模块107,用于根据文本分词模块103所得到的分词结果以及上下文结构,自动生成摘要,并将生成的摘要输出给服务接口模块109;
-所述自动分类模块108,用于根据文本分词模块103所输出的分词结果给文本内容确定一个类别,并将该分类结果输出给服务接口模块109;
-所述服务接口模块109,用于分别接收来自索引建立模块104、实体识别模块105、关键词提取模块106、自动摘要模块107、自动分类模块108的输出结果,并分别以服务的形式发布这些结果,以供其他系统调用。
具体地,如图1所示,本发明提供的文本处理系统101包括:文本抽取模块102、文本分词模块103、索引建立模块104、实体识别模块105、关键词提取模块106、自动摘要模块107、自动分类模块108和服务接口模块109。其中,文本抽取模块102接收外部文本文件,首先判断其文件是否破损,若是则不再进行后续文本处理,否则再识别其文件格式,根据识别出的文件格式进行相应的文本抽取操作,为文本分词模块103输出所抽取的文本内容;文本分词模块103接收来自文本抽取模块102的文本内容后,先进行编码转换,转换成统一的编码格式后再进行繁简转换,然后经过文本分词模块103进行分词和词性标注,并将带词性标注的分词结果分别传递给索引建立模块104、实体识别模块105、关键词提取模块106、自动摘要模块107和自动分类模块108;索引建立模块104根据文本分词模块103所提供的分词结果建立文本内容的索引文件,为服务接口模块109提供索引文件;实体识别模块105针对来自文本分词模块103的分词结果,识别出文本内容中的实体词,并输出给服务接口模块109;关键词提取模块106接收文本分词模块103的分词结果,提取文本内容中一定数量的关键词,并输出给服务接口模块109;自动摘要模块107则是根据文本分词模块103所得到的分词结果以及上下文结构,进行自动的摘要生成,并将生成的一定长度的文本内容摘要输出给服务接口模块109;自动分类模块108则是根据文本分词模块103所输出的分词结果,按照预先定义的主题类别给文本内容确定一个类别,并将该分类结果输出给服务接口模块109;服务接口模块109则是分别接收来自索引建立、实体识别、关键词提取、自动摘要和自动分类等模块的输出结果,并将这些结果分别以服务的形式发布出去,以供其他系统调用相应的文本处理结果。
本发明还提供一种面向数据挖掘的文本处理方法,本领域技术人员可以将所述面向数据挖掘的文本处理方法理解为所述面向数据挖掘的文本处理系统的优选实现方案。具体地,所述面向数据挖掘的文本处理方法,包括如下步骤:
步骤1:利用文本抽取模块102对外部文本文件进行抽取操作;
步骤2:利用文本分词模块103对所述文本抽取模块102抽取的文本进行编码转换、简繁转换、分词以及词性标注操作,并且将带词性标注的分词结果分别传递给索引建立模块104、实体识别模块105、关键词提取模块106、自动摘要模块107和自动分类模块108;
步骤3:利用索引建立模块104、实体识别模块105、关键词提取模块106、自动摘要模块107、自动分类模块108分别得到文本内容的索引文件、实体词、部分的关键词、摘要以及分类结果,并将这些结果输送到服务接口模块109;
步骤4:利用服务接口模块109分别以服务的形式发布来自索引建立模块104、实体识别模块105、关键词提取模块106、自动摘要模块107、自动分类模块108的输出结果,以供其他系统调用。
具体地,如图2所示,步骤201为获取待处理的文本。所述文本主要是单篇文本,可以来自公开的渠道(比如因特网上的网页、论坛或博客等),也可以来自私有的渠道(如私有的数据库),其存储格式可以是Office、PDF、TXT、XML、HTML等任何文档格式。当有多篇文档时,所述文本处理系统可以通过循环执行该文本处理流程以获取文本处理结果。
步骤202表示从所述的文本结构、扩展名及内部标志位等方面进行破损文件识别。
而步骤203则是根据步骤202的识别结果判断所述的文本是否破损,若为破损文本,则执行步骤215结束本次文本处理流程并提示用户文件已破损的提醒;否则,继续往下执行步骤204等文本处理流程。
步骤204根据文本扩展名和标识符等来识别文本格式,即判断所述文本为TXT、Word、PPT、Excel或PDF等文档格式。
步骤205根据步骤204所得到的文档格式进行相应的文本抽取操作,抽取出所述文本中的文本内容,以供后续的文本处理操作所使用。
步骤206将步骤205中所抽取的文本内容进行编码转换,将不同的编码格式统一转换为UTF-8的编码格式。
步骤207将经过步骤206转换成统一编码格式的文本内容进行繁简转换,将所述文本内容中可能包含的中文繁体字统一转换为中文简体字。
步骤208对经过步骤206、207所得到的统一编码格式、中文简体的文本内容进行文本分词操作,将所述的文本内容按词进行切分并进行词性标注。
步骤209依据步骤208的分词结果,对所述的文本内容建立索引并生成索引文件以提供给步骤214进行结果输出。
步骤210通过识别和分析步骤208的分词结果,识别出其中具有一定规则的确定结构的词汇,自动抽取出时间和PLO(人名、地名和机构名)等实体词信息,并经步骤214进行结果输出。
步骤211则是针对步骤208的分词结果,根据词项在文本内容中的文档频率、词性权重(如名词等赋予较大的权重,而副词、连词等赋予较小的权重)、位置权重(即在所述文本内容中越靠前的词,其权重越高)、词频以及文本内容长度等参数确定的综合权重来提取出一定数量的关键词并经步骤214进行结果输出,其中的关键词数量可以由用户指定(一般为3-8个)。其中,所述综合权重的计算方法如下:
S=IDF*(α·W+β·TF)
其中,
IDF为修改的逆文档频率,且IDF=ln(10000+10000/(df+1)),df为包含词项的文档频率;
词权重W=(L-Tp)*Ps/L,L表示文本内容长度,Tp表示词项的起始位置,Ps为词性权重;
TF表示词项在所述文本内容中的词频;
α、β代表词权重W和词频TF的权重系统,且α+β=1。
步骤212中对经过步骤205、206和207所得到的文本内容和步骤208的分词结果进行切分、排序,获取所述文本的句子序列和句子的词序列表达,然后计算词和句子的权重并对所述文本内容的所有句子根据权重值高低降序排列,再经过以余弦距离为度量的相似性判断进行去重和整合,最后根据要求的长度范围输出所述文本内容的摘要结果,并经步骤214进行结果输出。
步骤213中根据预先定义的分类体系以及经过训练得到的分类模型,对于经步骤208得到的文本分词结果进行特征向量表示(如采用向量空间模型VSM),然后利用合适的分类算法(如朴素贝叶斯、K近邻、支持向量积等算法)将所述的文本与分类模型进行距离计算以求出其分类类别,最后将所述文本的分类类别经步骤214进行输出。
步骤214主要是将从步骤209得到的索引文件、步骤210得到的实体词、步骤211得到的关键词、步骤212得到的摘要内容和步骤213得到的文本分类结果(即分类类别)进行输出,并可以供其他系统进行调用。
步骤215表示了经过上述流程操作后便可以结束本次文本处理流程了。
优选地,所述步骤1包括如下步骤:
步骤1.1:接收外部文本文件,判断外部文本文件是否为破损,若接收的外部文本文件为破损状态,则舍弃该外部文本文件,并提醒用户文件已破损,同时结束全部流程;若接收的外部文本文件无破损,则进入步骤1.2;
步骤1.2:识别无破损外部文本文件的文件格式,并根据识别出的文件格式进行相应的文本抽取操作;
步骤1.3:将抽取的文本发送给文本分词模块103。
优选地,所述步骤2包括如下步骤:
步骤2.1:接收文本抽取模块102抽取的文本,将抽取的文本转换成统一编码格式的文本内容;
步骤2.2:将统一编码格式的文本内容进行繁简转换,即将该文本内容中包含的中文繁体字统一转换为中文简体字;
步骤2.3:将统一编码格式、中文简体的文本内容进行文本分词操作,将该文本内容按词进行切分并进行词性标注;
步骤2.4:将带词性标注的分词结果分别传递给索引建立模块104、实体识别模块105、关键词提取模块106、自动摘要模块107和自动分类模块108。
优选地,所述步骤3包括:
-利用索引建立模块104根据文本分词模块103所提供的分词结果建立文本内容的索引文件,并为服务接口模块109提供索引文件;
-利用实体识别模块105,针对来自文本分词模块103的分词结果,识别出文本内容中的实体词,并输出给服务接口模块109;
-利用关键词提取模块106接收文本分词模块103的分词结果,提取文本内容中的关键词,并输出给服务接口模块109;
-利用自动摘要模块107根据文本分词模块103所得到的分词结果以及上下文结构,自动生成摘要,并将生成的摘要输出给服务接口模块109;
-利用自动分类模块108根据文本分词模块103所输出的分词结果给文本内容确定一个类别,并将该分类结果输出给服务接口模块109。
优选地,所述步骤1.1中判断外部文本文件是否为破损,包括判断文本结构、扩展名及内部标志位是否完整;所述步骤1.2中能够识别的文件格式包括:TXT、Word、PPT、Excel、PDF。
优选地,步骤2.1中将抽取的文本转换成统一的编码格式,所述编码格式为UTF-8格式。
优选地,利用关键词提取模块106提取文本内容中的关键词,根据所述文本内容中的不同词性赋予不同的权重,同时考虑每个词在文本中的位置,根据位置顺序设置不同的权重,经过综合评价后得到M个关键词,其中M的数量由用户指定。
优选地,利用自动摘要模块107自动生产摘要,通过计算词和句子的权重,并对文本内容中的所有句子根据权重值按高低降序排列,经过以余弦距离为度量的相似性判断进行去重和整合,从而得到根据要求输出的摘要文本。
优选地,利用自动分类模块108给文本内容确定一个类别,根据预先定义的分类体系以及经过训练得到的分类模型,对文本分词模块103所得到的分词结果进行特征向量表示,利用朴素贝叶斯、K近邻、支持向量积等算法中的任一种算法将所述文本内容与分类模型进行距离计算,从而得到该文本内容的分类类别。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (10)
1.一种面向数据挖掘的文本处理系统,其特征在于,包括:文本抽取模块(102)、文本分词模块(103)、索引建立模块(104)、实体识别模块(105)、关键词提取模块(106)、自动摘要模块(107)、自动分类模块(108)以及服务接口模块(109);
-所述文本抽取模块(102),用于接收外部文本文件,当判断出外部文本文件为破损时,舍弃掉该外部文本文件;否则识别该外部文本文件的文件格式,并根据该文件格式抽取文本;
-所述文本分词模块(103),用于接收所述文本抽取模块(102)抽取的文本,对接收到的文本依次进行编码转换、简繁转换、分词以及词性标注操作,并且将带词性标注的分词结果分别传递给索引建立模块(104)、实体识别模块(105)、关键词提取模块(106)、自动摘要模块(107)和自动分类模块(108);
-所述索引建立模块(104),用于根据文本分词模块(103)所提供的分词结果建立文本内容的索引文件,并为服务接口模块(109)提供索引文件;
-所述实体识别模块(105),用于针对来自文本分词模块(103)的分词结果,识别出文本内容中的实体词,并输出给服务接口模块(109);
-所述关键词提取模块(106),用于接收文本分词模块(103)的分词结果,提取文本内容中的关键词,并输出给服务接口模块(109);
-所述自动摘要模块(107),用于根据文本分词模块(103)所得到的分词结果以及上下文结构,自动生成摘要,并将生成的摘要输出给服务接口模块(109);
-所述自动分类模块(108),用于根据文本分词模块(103)所输出的分词结果给文本内容确定一个类别分类,并将该分类结果输出给服务接口模块(109);
-所述服务接口模块(109),用于分别接收来自索引建立模块(104)、实体识别模块(105)、关键词提取模块(106)、自动摘要模块(107)、自动分类模块(108)的输出结果,并分别以服务的形式发布这些结果,以供其他系统调用。
2.一种面向数据挖掘的文本处理方法,其特征在于,包括如下步骤:
步骤1:根据外部文本文件的文件格式,对外部文本文件进行抽取文本操作;
步骤2:对所述文本进行编码转换、简繁转换、分词以及词性标注操作;
步骤3:利用分词结果分别得到文本内容的索引文件、实体词、关键词、摘要以及类别分类结果;
步骤4:以服务的形式发布所述结果,以供其他系统调用。
3.根据权利要求2所述的面向数据挖掘的文本处理方法,其特征在于,所述步骤1包括如下步骤:
步骤1.1:接收外部文本文件,判断外部文本文件是否为破损,若接收的外部文本文件为破损状态,则舍弃该外部文本文件,并提醒用户文件已破损,结束流程;若接收的外部文本文件无破损,则进入步骤1.2;
步骤1.2:识别无破损外部文本文件的文件格式,并根据识别出的文件格式进行相应的文本抽取操作。
4.根据权利要求2所述的面向数据挖掘的文本处理方法,其特征在于,所述步骤2包括如下步骤:
步骤2.1:将抽取的文本转换成统一编码格式的文本内容;
步骤2.2:将统一编码格式的文本内容进行繁简转换,即将该文本内容中包含的中文繁体字统一转换为中文简体字;
步骤2.3:将统一编码格式、中文简体的文本内容进行文本分词操作,将该文本内容按词进行切分并进行词性标注。
5.根据权利要求2所述的面向数据挖掘的文本处理方法,其特征在于,所述步骤3包括:
-根据分词结果建立文本内容的索引文件;
-针对分词结果,识别出文本内容中的实体词;
-接收分词结果,提取文本内容中的关键词;
-根据分词结果以及上下文结构,自动生成摘要;
-根据分词结果给文本内容确定一个类别分类。
6.根据权利要求3所述的面向数据挖掘的文本处理方法,其特征在于,所述步骤1.1中判断外部文本文件是否为破损,包括判断文本结构、扩展名及内部标志位是否完整。
7.根据权利要求4所述的面向数据挖掘的文本处理方法,其特征在于,步骤2.1中将抽取的文本转换成统一的编码格式,所述编码格式为UTF-8格式。
8.根据权利要求5所述的面向数据挖掘的文本处理方法,其特征在于,所述提取文本内容中的关键词,具体包括:根据词项在文本内容中的文档频率、位置、词性权重、词频以及文本内容长度参数确定每个词项的综合权重,依据综合权重大小排序得到M个关键词,其中M的数量由用户指定。
9.根据权利要求5或8所述的面向数据挖掘的文本处理方法,其特征在于,所述自动生成摘要,具体包括:
通过计算词和句子的权重,并对文本内容中的所有句子根据权重值按高低降序排列,经过以余弦距离为度量的相似性判断进行去重和整合,从而得到根据要求输出的摘要文本。
10.根据权利要求5所述的面向数据挖掘的文本处理方法,其特征在于,所述给文本内容确定一个类别,具体包括:
根据预先定义的分类体系以及经过训练得到的分类模型,对分词结果进行特征向量表示,利用朴素贝叶斯、K近邻、支持向量积这些算法中的任一种算法将所述文本内容与分类模型进行距离计算,从而得到该文本内容的分类类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510638674.9A CN105243130A (zh) | 2015-09-29 | 2015-09-29 | 面向数据挖掘的文本处理系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510638674.9A CN105243130A (zh) | 2015-09-29 | 2015-09-29 | 面向数据挖掘的文本处理系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105243130A true CN105243130A (zh) | 2016-01-13 |
Family
ID=55040778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510638674.9A Pending CN105243130A (zh) | 2015-09-29 | 2015-09-29 | 面向数据挖掘的文本处理系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105243130A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106528776A (zh) * | 2016-11-07 | 2017-03-22 | 上海智臻智能网络科技股份有限公司 | 一种文本分类的方法和装置 |
CN106599041A (zh) * | 2016-11-07 | 2017-04-26 | 中国电子科技集团公司第三十二研究所 | 基于大数据平台的文本处理及检索系统 |
CN107103556A (zh) * | 2017-05-16 | 2017-08-29 | 杭州云锄科技有限公司 | 植物种植管理方法及装置 |
CN107943867A (zh) * | 2017-11-10 | 2018-04-20 | 中国电子科技集团公司第三十二研究所 | 支持异构存储的高性能层次化存储系统 |
CN108415959A (zh) * | 2018-02-06 | 2018-08-17 | 北京捷通华声科技股份有限公司 | 一种文本分类方法及装置 |
CN108470035A (zh) * | 2018-02-05 | 2018-08-31 | 延安大学 | 一种基于判别混合模型的实体-引文相关性分类方法 |
CN109508448A (zh) * | 2018-07-17 | 2019-03-22 | 网易传媒科技(北京)有限公司 | 基于长篇文章生成短资讯方法、介质、装置和计算设备 |
CN110222346A (zh) * | 2019-06-20 | 2019-09-10 | 贵州电网有限责任公司 | 一种从交互数据中提取有效时间的方法 |
CN111046135A (zh) * | 2019-11-04 | 2020-04-21 | 智器云南京信息科技有限公司 | 非结构文本处理方法、装置、计算机设备、存储介质 |
CN111274815A (zh) * | 2020-01-15 | 2020-06-12 | 北京百度网讯科技有限公司 | 用于挖掘文本中的实体关注点的方法和装置 |
CN111985189A (zh) * | 2020-08-20 | 2020-11-24 | 朵镇山 | 适用于深度学习及思考的模块化笔记系统及电子转换方法 |
CN112307205A (zh) * | 2020-10-22 | 2021-02-02 | 首都师范大学 | 基于自动摘要的文本分类方法、系统及计算机存储介质 |
CN113010669A (zh) * | 2020-12-24 | 2021-06-22 | 华戎信息产业有限公司 | 一种新闻分类方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090030891A1 (en) * | 2007-07-26 | 2009-01-29 | Siemens Aktiengesellschaft | Method and apparatus for extraction of textual content from hypertext web documents |
CN101398814A (zh) * | 2007-09-26 | 2009-04-01 | 北京大学 | 一种同时抽取文档摘要和关键词的方法及系统 |
CN103077164A (zh) * | 2012-12-27 | 2013-05-01 | 新浪网技术(中国)有限公司 | 文本分析方法及文本分析器 |
CN103440256A (zh) * | 2013-07-26 | 2013-12-11 | 中国科学院深圳先进技术研究院 | 一种中文文字标签云自动生成方法及装置 |
CN103885934A (zh) * | 2014-02-19 | 2014-06-25 | 中国专利信息中心 | 一种专利文献关键短语自动提取方法 |
CN104346382A (zh) * | 2013-07-31 | 2015-02-11 | 香港理工大学 | 使用语言查询的文本分析系统和方法 |
-
2015
- 2015-09-29 CN CN201510638674.9A patent/CN105243130A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090030891A1 (en) * | 2007-07-26 | 2009-01-29 | Siemens Aktiengesellschaft | Method and apparatus for extraction of textual content from hypertext web documents |
CN101398814A (zh) * | 2007-09-26 | 2009-04-01 | 北京大学 | 一种同时抽取文档摘要和关键词的方法及系统 |
CN103077164A (zh) * | 2012-12-27 | 2013-05-01 | 新浪网技术(中国)有限公司 | 文本分析方法及文本分析器 |
CN103440256A (zh) * | 2013-07-26 | 2013-12-11 | 中国科学院深圳先进技术研究院 | 一种中文文字标签云自动生成方法及装置 |
CN104346382A (zh) * | 2013-07-31 | 2015-02-11 | 香港理工大学 | 使用语言查询的文本分析系统和方法 |
CN103885934A (zh) * | 2014-02-19 | 2014-06-25 | 中国专利信息中心 | 一种专利文献关键短语自动提取方法 |
Non-Patent Citations (2)
Title |
---|
吴丹: "《跨语言信息检索 翻译优化理论与技术》", 31 August 2011 * |
王生辉: "基于领域特征的Web数据实体抽取的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599041A (zh) * | 2016-11-07 | 2017-04-26 | 中国电子科技集团公司第三十二研究所 | 基于大数据平台的文本处理及检索系统 |
CN106528776A (zh) * | 2016-11-07 | 2017-03-22 | 上海智臻智能网络科技股份有限公司 | 一种文本分类的方法和装置 |
CN107103556A (zh) * | 2017-05-16 | 2017-08-29 | 杭州云锄科技有限公司 | 植物种植管理方法及装置 |
CN107943867A (zh) * | 2017-11-10 | 2018-04-20 | 中国电子科技集团公司第三十二研究所 | 支持异构存储的高性能层次化存储系统 |
CN107943867B (zh) * | 2017-11-10 | 2021-11-23 | 中国电子科技集团公司第三十二研究所 | 支持异构存储的高性能层次化存储系统 |
CN108470035B (zh) * | 2018-02-05 | 2021-07-13 | 延安大学 | 一种基于判别混合模型的实体-引文相关性分类方法 |
CN108470035A (zh) * | 2018-02-05 | 2018-08-31 | 延安大学 | 一种基于判别混合模型的实体-引文相关性分类方法 |
CN108415959A (zh) * | 2018-02-06 | 2018-08-17 | 北京捷通华声科技股份有限公司 | 一种文本分类方法及装置 |
CN109508448A (zh) * | 2018-07-17 | 2019-03-22 | 网易传媒科技(北京)有限公司 | 基于长篇文章生成短资讯方法、介质、装置和计算设备 |
CN110222346A (zh) * | 2019-06-20 | 2019-09-10 | 贵州电网有限责任公司 | 一种从交互数据中提取有效时间的方法 |
CN111046135A (zh) * | 2019-11-04 | 2020-04-21 | 智器云南京信息科技有限公司 | 非结构文本处理方法、装置、计算机设备、存储介质 |
CN111274815A (zh) * | 2020-01-15 | 2020-06-12 | 北京百度网讯科技有限公司 | 用于挖掘文本中的实体关注点的方法和装置 |
US11775761B2 (en) | 2020-01-15 | 2023-10-03 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for mining entity focus in text |
CN111274815B (zh) * | 2020-01-15 | 2024-04-12 | 北京百度网讯科技有限公司 | 用于挖掘文本中的实体关注点的方法和装置 |
CN111985189A (zh) * | 2020-08-20 | 2020-11-24 | 朵镇山 | 适用于深度学习及思考的模块化笔记系统及电子转换方法 |
CN111985189B (zh) * | 2020-08-20 | 2024-04-12 | 朵镇山 | 适用于深度学习及思考的模块化笔记系统及电子转换方法 |
CN112307205A (zh) * | 2020-10-22 | 2021-02-02 | 首都师范大学 | 基于自动摘要的文本分类方法、系统及计算机存储介质 |
CN113010669A (zh) * | 2020-12-24 | 2021-06-22 | 华戎信息产业有限公司 | 一种新闻分类方法和系统 |
CN113010669B (zh) * | 2020-12-24 | 2022-06-21 | 华戎信息产业有限公司 | 一种新闻分类方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105243130A (zh) | 面向数据挖掘的文本处理系统及方法 | |
CN109033307B (zh) | 基于crp聚类的词语多原型向量表示及词义消歧方法 | |
CN100474301C (zh) | 基于数据挖掘获取词或词组单元译文信息的系统和方法 | |
CN106599041A (zh) | 基于大数据平台的文本处理及检索系统 | |
CN109145260B (zh) | 一种文本信息自动提取方法 | |
CN101079025B (zh) | 一种文档相关度计算系统和方法 | |
CN101079024B (zh) | 一种专业词表动态生成系统和方法 | |
CN103150381B (zh) | 一种高精度汉语谓词识别方法 | |
CN106570171A (zh) | 一种基于语义的科技情报处理方法及系统 | |
CN105701084A (zh) | 一种基于互信息的文本分类的特征提取方法 | |
CN107102993B (zh) | 一种用户诉求分析方法和装置 | |
CN109635297A (zh) | 一种实体消歧方法、装置、计算机装置及计算机存储介质 | |
CN112256861A (zh) | 一种基于搜索引擎返回结果的谣言检测方法及电子装置 | |
CN115080750B (zh) | 基于融合提示序列的弱监督文本分类方法、系统和装置 | |
CN111475608B (zh) | 一种基于功能语义关联计算的Mashup服务特征表示方法 | |
CN115859980A (zh) | 一种半监督式命名实体识别方法、系统及电子设备 | |
CN115759071A (zh) | 基于大数据的政务敏感信息识别系统和方法 | |
Oo et al. | An analysis of ambiguity detection techniques for software requirements specification (SRS) | |
CN111368532B (zh) | 一种基于lda的主题词嵌入消歧方法及系统 | |
Di Castro et al. | Automated extractions for machine generated mail | |
KR102455747B1 (ko) | 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 시스템 및 방법 | |
Suhasini et al. | A Hybrid TF-IDF and N-Grams Based Feature Extraction Approach for Accurate Detection of Fake News on Twitter Data | |
Tadesse et al. | Event extraction from unstructured amharic text | |
Sabty et al. | Techniques for named entity recognition on arabic-english code-mixed data | |
CN114298041A (zh) | 网络安全命名实体的识别方法及识别装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160113 |