CN108197117B - 一种基于文档主题结构与语义的中文文本关键词提取方法 - Google Patents

一种基于文档主题结构与语义的中文文本关键词提取方法 Download PDF

Info

Publication number
CN108197117B
CN108197117B CN201810094963.0A CN201810094963A CN108197117B CN 108197117 B CN108197117 B CN 108197117B CN 201810094963 A CN201810094963 A CN 201810094963A CN 108197117 B CN108197117 B CN 108197117B
Authority
CN
China
Prior art keywords
document
word
text
keywords
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810094963.0A
Other languages
English (en)
Other versions
CN108197117A (zh
Inventor
王晓黎
林坤辉
邱明
王美红
潘洋彬
杜文源
高楚楚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Zongheng Group Technology Co ltd
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN201810094963.0A priority Critical patent/CN108197117B/zh
Publication of CN108197117A publication Critical patent/CN108197117A/zh
Application granted granted Critical
Publication of CN108197117B publication Critical patent/CN108197117B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

一种基于文档主题结构与语义的中文文本关键词提取方法,涉及关键词提取。文本预处理;中文分词及词性标注;停用词过滤与词性过滤;关键词提取。介绍文本关键词提取的基本概念、中文分词与英文分词存在的差异、常用的中文文本关键词提取方法。研究基于文档主题结构的方法和基于语义的方法,分析其原理以及现有的实现方案。针对中文分词中存在的新词识别的难点,使用动态更新分词词典来不断改善中文分词的效果。对基于文档主题结构的方法进行改进,提取全局的关键词。将中文词语之间的语义相似度考虑进来,进一步改进算法。并在自构建的数据集中验证改进算法,通过验证实验和对比实验,都得到较好的结果,表明改进算法能够改善关键词提取的效果。

Description

一种基于文档主题结构与语义的中文文本关键词提取方法
技术领域
本发明涉及关键词提取,尤其是涉及一种基于文档主题结构与语义的中文文本关键词提取方法。
背景技术
迈入21世纪,伴随着科技的不断进步和互联网的高速发展,各类的信息资源成倍快速增加。人们迫切地希望能快速地、准确地从庞大的信息源中寻找到对自己真正有用的资料。关键词能够高度归纳文档的内容,并且反映文档的主题,为人们寻找资源提供有力的帮助。
在一篇文档当中,关键词是对文档的内容的深度提炼,其一般通过几个词语或者短语来表示。透过文档的关键词,能够洞悉该篇文档描写的主要内容,迅速判断出是否是需要的资源。关键词自动提取技术可以帮助人们从庞大的数据资源中高效查找与识别出其所需的资源,提高对资源检索的效率。
在多个领域,关键词提取技术为其提供了重要的技术支持。关键词可作为文本的索引,使得人们可以很方便地查找到特定主题的资料。利用搜索引擎(如百度搜索、Google搜索等)查询资源时,提供合适的关键词将使得搜索结果更加准确,提高查询效率。文本分类指的是按照一定的标准,构建出分类的模型,把待分析文本中提取出来的特征信息放入模型中计算,计算出待分析文本所属的类别,完成分类。文本分类的典型方法是依据文本当中是否包含和类别名称相关的关键词,进而将其归类于所属的类别。而文本聚类会选用文本中的某些特征信息来计算不同文本间的相似程度,将彼此之间具有较高相似性的文本聚拢到一起,并且将彼此之间的相似性较低的文本分散到不相同的簇里。准确的关键词能够优化文本聚类的过程,获取更加符合实际的结果。
不幸的是,当前大部分的文本资源没有标注关键词,如技术文章、微博等。通过调研得知,一共存在两种解决方案,其一,人工标注关键词;其二,关键词自动提取。人类阅读、理解文本内容后,对其标注关键词,一般拥有比较高的准确性。但是由于标注者的学识储备、对关键词的理解以及总结概括能力不同,带有较强的主观性,提取的关键词不尽相同。况且,使用人力来对文本标注关键词会花费较多的精力来阅览、理解文本内容,这显然满足不了当前信息资源数量不断翻倍的现状。关键词提取技术由此产生,其可以很好地处理这个问题。建立一致的提取规则,借助于机器的强大功能,自动提取文本的关键词。通过该方法,能够大大减轻人力、时间的花费。
发明内容
本发明的目的在于提供一种基于文档主题结构与语义的中文文本关键词提取方法。
本发明包括以下步骤:
1)文本预处理;
2)中文分词及词性标注;
3)停用词过滤与词性过滤;
4)关键词提取。
本发明包括以下工作:
1.对国内外在文本关键词提取领域的成果进行研究,并对中文分词和英文分词的差异,以及对关键词提取的影响进行对比。
2.对基于文档主题结构的方法以及基于语义的方法进行研究,分析其原理,并以实际的例子研究其如何提取关键词。
3.借助于向量空间模型,使用改进算法在连续的文本分段中寻找最优聚类,构建文档的主题结构。对基于文档主题结构的方法做出改进,从文档中提取出全局的关键词。以此为基础,利用同义词林,将中文词语间的语义相似度考虑进来,进一步改进算法,提升中文文本关键词提取的效果。并且针对中文分词存在的新词识别的难点,动态更新中文分词系统的分词词典,改善中文分词的效果。
4.由于中文文本关键词提取领域缺乏标准的标注关键词语料库,自构建数据集对改进算法进行实验。并以准确率、召回率以及F度量作为评价标准,开展验证实验与对比实验,通过实验验证改进算法是有效的。
本发明首先介绍了文本关键词提取的基本概念、中文分词与英文分词存在的差异、常用的中文文本关键词提取方法。研究了基于文档主题结构的方法和基于语义的方法,分析其原理以及现有的实现方案。针对中文分词中存在的新词识别的难点,使用动态更新分词词典来不断改善中文分词的效果。对基于文档主题结构的方法进行改进,提取全局的关键词。在此基础上,将中文词语之间的语义相似度考虑进来,进一步改进算法。并在自构建的数据集中验证改进算法,通过验证实验和对比实验,都得到了较好的结果,表明改进算法能够改善关键词提取的效果。
与现有方法相比,本发明具有以下优点:
1)针对中文分词的新词识别这一难点问题,动态更新分词词典来提高中文分词的准确性。
2)借助于向量空间模型,使用改进算法在连续的文本分段中寻找最优聚类,构建文档的主题结构,其结果优于现有算法。
3)加入中文词语之间的语义相似度的因素,进一步改进算法,将统计方法与语义相结合,提升关键词提取的效果。
附图说明
图1为分段和分段对应的带权二分图。
图2为对比算法准确率变化趋势图。
图3为对比算法召回率变化趋势图。
图4为对比算法F度量变化趋势图。
具体实施方式
以下实施例将结合附图对本发明作进一步的说明。
本发明包括以下步骤:
1)文本预处理步骤:
使用的文本文档主要来自于网页、PDF、Word等多种类型数据,预处理的过程分为两个方面,一个是网页的预处理,另一个是其他文本类型的预处理;
针对网页进行预处理:对这些新闻网页进行预处理,目标在于从中抽取出对应的标题、内容以及标注的关键词。通过编写抽取的规则,条件过滤,对网页进行结构化抽取,将其保存为文本的形式。不同的网站,其网页的模板大多是不同的。经过网站调研,新浪新闻网中提供的每一篇新闻都会提供人工标注好的关键词,能够较好地反映新闻内容,本发明使用其收集新闻网页数据。在某个网站中,同种类型的网页往往使用相同的结构,利用同一网页模板将数据展示出来。分析实际网页信息,可以获知网页内容的分布规律。进而,分析出新闻标题和正文对应的标签位置,然后,利用这些标签来提取标题和正文。
在网页预处理时,使用了Java中的Executor框架来并发抓取网页,加快抓取速度,提高效率。Executor框架的内在实现运用到了线程池的机制,是一个优秀的多线程并发框架。通过该框架的使用,多线程的生命周期的管理不再复杂,极大的简化了相关操作。在本发明中,通过新浪网首页获取所有新闻网页的链接,将这些链接平均分配给多个线程,根据网页抽取规则,并发抓取网页的有用信息。
针对其他文本类型进行预处理:对于PDF类型的文档,利用Apache软件基金会提供的PDFBox库来抽取文档的文本信息。对于Word类型的文档,使用POI开源库来提取文本信息。Word文档有两种文件类型,分别是doc和docx。本发明利用WordExtractor来抽取doc类型的Word文档,使用HWPFDocment来读取docx类型的Word文档。
2)中文分词及词性标注步骤:
使用NLPIR汉语分词系统,将文档中的句子切分成一个个有意义的词语,并且在每个词语的后面为其标注了词性。在此基础上,新增分词词典的动态更新功能。该分词系统可以从外部加载用户定义的词典,这样可以改进新词识别这一难点,提高中文分词的准确性。
3)停用词过滤与词性过滤步骤:
将经过分词系统切分出来的词语依次和停用词词表逐一比较,若该词表中包含这个词语,那么这个词语将会被过滤掉,只留下名词、动词、副词、形容词这四种词性的词语,其他词性的词语将会被过滤掉。名词、动词、副词、形容词这些词性在NLPIR汉语分词系统中分别以“n”、“v”、“d”、“a”字母开头,而其他词性的词语都不是以这些字母开头,因此可以用其作为词性过滤的依据。
4)关键词提取步骤:
所述关键词提取步骤包括两种算法,一种是改进的基于文档主体结构的算法,另一种是改进的机遇文档主体结构与语义的算法。
(1)改进的基于文档主体结构的算法:
给定一篇文档,首先分析其包含的内容,构造出文档的主题结构。其目标是将文档分割成多个级别的主题树,每一层包含多个簇,将适当数量的连续文本单元分配给这些簇。一般来讲,主题树的某一层簇的数量会比下一层簇的数量少一个,逐层增加。
根据文档的文本内容来进行聚类,经过多次迭代建立聚类的层次结构,进而构建文档的主题结构。给定聚类的簇数k个,目标函数Quality,对于一篇文档,将其分成N个段,迭代分割聚类,最终获得k个簇,并使得目标函数取得最大值。同时满足聚类中的簇只包含连续的文本分段的约束条件。每一次聚类没有两个簇是有交集的,并且每一次聚类包含文档的所有段。
对于每个段向量中的权重的计算方法进行改进,通过公式(1-1)求得。
Figure BDA0001564736800000051
其中,
Figure BDA0001564736800000052
指的是段si中的总词数,对词频进行标准化,避免分段包含词语不同的噪音干扰。
为了提取文档的关键词,既保留文档上下文信息,又使得关键词多样化,本发明使用改进的重要性得分,用Sig表示。计算每个词语的重要性得分,用Sig(tj)表示,其可以通过公式(1-2)求得。
Figure BDA0001564736800000053
其中,tf(tj,Ii)指的是词语tj在簇Ii里一共出现的次数。tf(tj)指的是词语tj在整个文档中的词频,因此
Figure BDA0001564736800000054
是指词语tj在全文中的重要程度。sf(tj,Ii)是一个指标变量,如果簇Ii对应的文本内容包含词语tj,则sf(tj,Ii)=1,否则sf(tj,Ii)=0,所以
Figure BDA0001564736800000055
表示含有词语tj的簇的数量。α是一个预定义的权重,其取值范围是0≤α≤1。当α=1时,只考虑词语在簇中的分布情况;当α=0时,只考虑词语在全文中的分布情况。同时在各个簇和全文中对应的词频比较大的词语将得到较高的重要性得分,因此其将更有机会成为关键词。
对于任意的候选词语,分别计算对应的Sig(tj)值,按得分从大到小排序,从中选出得分最高的前number个词语当作关键词。
(2)改进的机遇文档主体结构与语义的算法:
通过同义词林,计算中文词语之间的语义相似度,使得算法能够考虑到同义或者同类词语之间的语义关联,进一步提高关键词提取的效果。这个方法是在改进算法基础上,加入语义因素,进一步改进算法。
加入语义因素后,将聚类中的簇对应的簇心与簇中其他所有成员的余弦相似度之和以及簇中所有相邻连续段的语义距离之和,两者相加求得的值定义为目标函数Quality。对于第i个簇,其目标函数Quality(Ii)的值可以通过公式(1-3)求得:
Figure BDA0001564736800000061
其中,Sim(uj,uj+1)表示分段uj和分段uj+1的语义相似度,其具体的计算方法将在下面进行介绍。
因此,聚类目标函数将通过公式(1-4)求得:
Figure BDA0001564736800000062
在本发明中,在计算两个中文词语的语义相似度的算法中,将weightArr权重数组的值设置为[1.0,0.5,0.25,0.125,0.063,0.031],前一项是其紧随后一项的两倍。把距离初始值initDis设为10。将β设置为5。
在计算簇的目标函数的时候,提及需要计算同一个簇中两个连续段的语义相似度Sim(uj,uj+1)。对于每个文本分段,可以将其看成词语的集合。只有当文本分段si包含词语tj,即tf(tj,si)>0的时候,词语tj才会出现在分段si的词语集合中。段与段之间的语义相似度问题可以转变成带权二分图G={V,E}的最佳匹配问题,其中,V指的是图G的顶点集,而E指的是图G的边集。对于分段ui和分段uj,假设分段ui共有n个词语,而分段uj共有m个词语,那么对应的词语集合分别使用Xi={xi1,xi2,...,xin}和Yj={yj1,yj2,...,yjm}来表示。把词语集合Xi和Yj中的所有词语当作带权二分图中的顶点。集合Xi中的任意词语与集合Yj的词语都存在一个带权的边,但是集合Xi和集合Yj内部的顶点之间不存在边,构成边集E。带权二分图中的每条边的具体权重可以使用词语间的相似度Sim(Ta,Tb)求得,如图1所示。
完成带权二分图的最佳匹配的计算后,将会产生min(|Xi|,|Yj|)对匹配,任意的两条匹配边不存在公共顶点,并且使得全部匹配边的权重和取得最大值。本发明中,将使用KM(Kuhn-Munkres)算法来解决最佳匹配的问题,而后,将最终得到的权重和除于min(|Xi|,|Yj|),避免分段的不同长度大小造成的噪音影响。最终,得到两个分段ui和uj的语义相似度Sim(uj,uj+1)的值。
为了对关键词自动提取的结果进行对比,选取3个指标来衡量实验的结果,其一,准确率,用P表示;其二,召回率,用R表示;其三,F度量,用F-measure表示。
对比算法准确率变化趋势图参见图2,对比算法召回率变化趋势图参见图3。
准确率指的是使用算法从文本中提取到的关键词中正确的数量占总的数量的比率。准确率的值越大代表关键词提取的正确率越大,反之,正确率越小。召回率指的是使用算法从文本中提取到的关键词中正确的数量占参照关键词的总数的比率。召回率越高表明提取到了更多的真正关键词。每篇文档的准确率P和召回率R的值可以分别通过公式(2-1)、公式(2-2)求得:
Figure BDA0001564736800000071
Figure BDA0001564736800000072
其中,X代表文档的参照关键词集合,Y代表通过算法提取到的关键词集合,则|X|指的是参照关键词集合的大小,|Y|指的是提取的关键词集合的大小,X∩Y指的是参照关键词集合与算法提取的关键词集合的交集,那么|X∩Y|是指交集的大小。
接着,计算所有文档提取的关键词的平均准确率Pave和平均召回率Rave,其可以分别通过公式(2-3)和公式(2-4)求得:
Pave=Average(P1,P2,...,Pn) (2-3)
Rave=Average(R1,R2,...,Rn) (2-4)
其中,Pi指的是第i篇文档对应的准确率,而Ri指的是第i篇文档对应的召回率,Average函数的功能是求平均值。
准确率与召回率彼此会互相影响,存在一定的矛盾关系。为了对结果进行综合的评价,不能单独考虑准确率或者召回率,而应该对两者进行综合评价,使得准确率和召回率两者都取得较大的值。这就需要F-measure这一指标来评估自动提取关键词的结果。对数据集中的全部文档提取到的关键词和参照关键词进行计算,得到平均准确率与平均召回率后,进一步计算F度量的值,如公式(2-5)所示:
Figure BDA0001564736800000073
提取不同关键词个数下对比算法的结果如表1所示。
表1
Figure BDA0001564736800000081
实验结果表明,当提取的关键词个数逐步增加的时候,各种算法的平均准确率呈现下降趋势,而平均召回率则呈现上升趋势。相比于作为基准的TFIDFCKE算法,TSSCKE算法和TSCKE算法这两种改进算法在召回率与准确率上均得到较大程度的提升。而相对于基于文档主题结构的方法,基于文档主题结构与语义的方法将中文词语语义相似度的因素考虑进来,其关键词提取效果也得到了进一步的改善。
F度量综合了准确率以及召回率两者的特点,能更好地从多个方面对关键词提取的效果进行评价。如图4所示,三种算法的结果的F度量值随着提取的关键词个数的逐步添加,都展示出先升后降的态势。并且,都是在提取五个关键词的时候,F度量值取得最大值。

Claims (4)

1.一种基于文档主题结构与语义的中文文本关键词提取方法,其特征在于包括以下步骤:
1)文本预处理;包括针对网页进行预处理以及针对其他文本类型进行预处理;
2)中文分词及词性标注;
3)停用词过滤与词性过滤;
4)关键词提取;
所述关键词提取的具体方法为:
所述关键词提取包括两种算法,一种是改进的基于文档主题结构的算法,另一种是改进的基于文档主题结构与语义的算法;
所述改进的基于文档主题结构的算法如下:
给定一篇文档,首先分析其包含的内容,构造出文档的主题结构,其目标是将文档分割成多层的主题树,每一层包含多个簇,将连续文本单元分配给这些簇;主题树的某一层簇的数量会比下一层簇的数量少一个,逐层增加;
根据文档的文本内容进行聚类,经过多次迭代建立聚类的层次结构,进而构建文档的主题结构;给定聚类的簇数设k个,对于一篇文档,将其分成N个段,迭代分割聚类,最终获得k个簇,并使得目标函数取得最大值;同时满足聚类中的簇只包含连续的文本分段的约束条件,每一次聚类没有簇是有交集的,并且每一次聚类包含文档的所有段;
对于每个分段中的权重的计算方法进行改进,通过公式(1-1)求得:
Figure FDA0002443389080000011
其中,
Figure FDA0002443389080000012
指的是段si中的总词数,对词频进行标准化,避免分段包含词语不同的噪音干扰;
为了提取文档的关键词,既保留文档上下文信息,又使得关键词多样化,使用改进的重要性得分,用Sig表示;计算每个词语的重要性得分,用Sig(tj)表示,通过公式(1-2)求得:
Figure FDA0002443389080000013
其中,tf(tj,Ii)指的是词语tj在簇Ii里一共出现的次数,tf(tj)指的是词语tj在整个文档中的词频,因此
Figure FDA0002443389080000021
是指词语tj在全文中的重要程度;sf(tj,Ii)是一个指标变量,若簇Ii对应的文本内容包含词语tj,则sf(tj,Ii)=1,否则sf(tj,Ii)=0,所以
Figure FDA0002443389080000022
表示含有词语tj的簇的数量;α是一个预定义的权重,其取值范围是0≤α≤1;当α=1时,只考虑词语在簇中的分布情况;当α=0时,只考虑词语在全文中的分布情况;同时在各个簇和全文中对应的词频比较大的词语将得到较高的重要性得分,因此其将更有机会成为关键词;
对于任意的候选词语,分别计算对应的Sig(tj)值,按得分从大到小排序,从中选出得分最高的前number个词语当作关键词,number为五个;
所述改进的基于文档主体结构与语义的算法如下:
通过同义词林,计算中文词语之间的语义相似度,使得算法能够考虑到同义或者同类词语之间的语义关联,进一步提高关键词提取的效果;再加入语义因素,进一步改进算法;
加入语义因素后,将聚类中的簇对应的簇心与簇中其他所有成员的语义距离之和以及簇中所有相邻连续段的语义相似度之和,两者相加求得的值定义为目标函数Quality;对于第i个簇,其目标函数Quality(Ii)的值通过公式(1-3)求得:
Figure FDA0002443389080000023
其中,Sim(uj,uj+1)表示分段uj和分段uj+1的语义相似度;
聚类目标函数将通过公式(1-4)求得:
Figure FDA0002443389080000024
在计算簇的目标函数时,需要计算同一个簇中两个连续段的语义相似度Sim(uj,uj+1),对于每个文本分段,将其看成词语的集合,只有当文本分段si包含词语tj,即tf(tj,si)>0的时候,词语tj才会出现在分段si的词语集合中;段与段之间的语义相似度问题转变成带权二分图G={V,E}的最佳匹配问题,其中,V指的是图G的顶点集,而E指的是图G的边集;对于分段uj和分段uj+1,假设分段uj共有n个词语,而分段uj+1共有m个词语,那么对应的词语集合分别使用Xi={xi1,xi2,...,xin}和Yj={yj1,yj2,...,yjm}表示;把词语集合Xi和Yj中的所有词语当作带权二分图中的顶点;集合Xi中的任意词语与集合Yj的任意词语都存在一个带权的边,但是集合Xi和集合Yj内部的顶点之间不存在边,构成边集E;带权二分图中的每条边的具体权重使用语义相似度Sim(uj,uj+1)求得;
完成带权二分图的最佳匹配的计算后,将会产生min(|Xi|,|Yj|),|Xi|、|Yj|均为匹配边,任意的两条匹配边不存在公共顶点,且全部匹配边的权重和取得最大值;将使用KM算法来解决最佳匹配的问题,而后,将最终得到的权重和除以min(|Xi|,|Yj|),避免分段的不同长度大小造成的噪音影响;最终,得到两个分段ui和uj的语义相似度Sim(uj,uj+1)的值;
为了对关键词自动提取的结果进行对比,选取3个指标来衡量实验的结果,其一,准确率,用P表示;其二,召回率,用R表示;其三,F度量,用F-measure表示;
准确率指的是使用算法从文本中提取到的关键词中正确的数量占总的关键词的数量的比率;准确率的值越大代表关键词提取的正确率越大,反之,正确率越小;召回率指的是使用算法从文本中提取到的关键词中正确的数量占参照关键词的总数的比率;召回率越高表明提取到了更多的真正关键词;每篇文档的准确率P和召回率R的值分别通过公式(2-1)、公式(2-2)求得:
Figure FDA0002443389080000031
Figure FDA0002443389080000032
其中,X代表文档的参照关键词集合,Y代表通过算法提取到的关键词集合,则|X|指的是参照关键词集合的大小,|Y|指的是提取的关键词集合的大小,X∩Y指的是参照关键词集合与算法提取的关键词集合的交集,那么|X∩Y|是指交集的大小;
接着,计算所有文档提取的关键词的平均准确率Pave和平均召回率Rave,分别通过公式(2-3)和公式(2-4)求得:
Pave=Average(P1,P2,...,Pn) (2-3)
Rave=Average(R1,R2,...,Rn) (2-4)
其中,Pi指的是第i篇文档对应的准确率,而Ri指的是第i篇文档对应的召回率,Average函数的功能是求平均值;
准确率与召回率彼此会互相影响,存在一定的矛盾关系;准确率和召回率都取得较大的值,以实现对结果的综合评价;由F-measure指标评估自动提取关键词的结果;对数据集中的全部文档提取到的关键词和参照关键词进行计算,得到平均准确率与平均召回率后,进一步计算F度量的值,如公式(2-5)所示:
Figure FDA0002443389080000033
当提取的关键词个数逐步增加的时候,相对于基于文档主题结构的算法,基于文档主题结构与语义的算法将中文词语语义相似度的因素考虑进来,其关键词提取效果得到了进一步的改善。
2.如权利要求1所述一种基于文档主题结构与语义的中文文本关键词提取方法,其特征在于在步骤1)中,所述文本预处理的具体方法为:
使用的文本文档来自于网页、PDF、Word,预处理的过程分为两个方面,一个是网页的预处理,另一个是其他文本类型的预处理;
(1)针对网页的预处理:对新闻网页进行预处理,目标在于从中抽取出对应的标题、内容以及标注的关键词,通过编写抽取的规则,条件过滤,对网页进行结构化抽取,将其保存为文本的形式;不同的网站,其网页的模板大多是不同的;经过网站调研,新浪新闻网中提供的每一篇新闻都会提供人工标注好的关键词,能够较好地反映新闻内容,使用其收集新闻网页数据;分析实际网页信息,获知网页内容的分布规律,进而,分析出新闻标题和正文对应的标签位置,然后,利用这些标签来提取标题和正文;在网页预处理时,使用Java中的Executor框架来并发抓取网页,加快抓取速度,提高效率;Executor框架的内在实现运用到线程池的机制;通过Executor框架的使用,通过新浪网首页获取所有新闻网页的链接,将所有新闻网页的链接平均分配给多个线程,根据网页抽取规则,并发抓取网页的有用信息;
(2)针对其他文本类型的预处理:对于PDF类型的文档,利用Apache软件基金会提供的PDFBox库来抽取文档的文本信息;对于Word类型的文档,使用POI开源库来提取文本信息;Word文档有两种文件类型,分别是doc和docx;利用WordExtractor来抽取doc类型的Word文档,使用HWPFDocment来读取docx类型的Word文档。
3.如权利要求1所述一种基于文档主题结构与语义的中文文本关键词提取方法,其特征在于在步骤2)中,所述中文分词及词性标注的具体方法为:
使用NLPIR汉语分词系统,将文档中的句子切分成一个个有意义的词语,并且在每个词语的后面为其标注词性,再新增分词词典的动态更新功能,NLPIR汉语分词系统从外部加载用户定义的词典。
4.如权利要求1所述一种基于文档主题结构与语义的中文文本关键词提取方法,其特征在于在步骤3)中,所述停用词过滤与词性过滤的具体方法为:
将经过分词系统切分出来的词语依次和停用词词表逐一比较,若停用词词表中包含这个词语,则这个词语将会被过滤掉,只留下名词、动词、副词、形容词这四种词性的词语,其他词性的词语将会被过滤掉;名词、动词、副词、形容词这些词性在NLPIR汉语分词系统中分别以“n”、“v”、“d”、“a”字母开头,而其他词性的词语都不是以这些字母开头,因此用其作为词性过滤的依据。
CN201810094963.0A 2018-01-31 2018-01-31 一种基于文档主题结构与语义的中文文本关键词提取方法 Active CN108197117B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810094963.0A CN108197117B (zh) 2018-01-31 2018-01-31 一种基于文档主题结构与语义的中文文本关键词提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810094963.0A CN108197117B (zh) 2018-01-31 2018-01-31 一种基于文档主题结构与语义的中文文本关键词提取方法

Publications (2)

Publication Number Publication Date
CN108197117A CN108197117A (zh) 2018-06-22
CN108197117B true CN108197117B (zh) 2020-05-26

Family

ID=62591508

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810094963.0A Active CN108197117B (zh) 2018-01-31 2018-01-31 一种基于文档主题结构与语义的中文文本关键词提取方法

Country Status (1)

Country Link
CN (1) CN108197117B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109062899B (zh) * 2018-07-31 2021-10-15 中国科学院信息工程研究所 一种基于词性标注的文档相似性度量方法
CN109241533A (zh) * 2018-09-06 2019-01-18 科大国创软件股份有限公司 一种基于自然语言处理的语意理解系统及方法
CN109712043B (zh) * 2018-12-28 2021-03-19 杭州大拿科技股份有限公司 一种答案批改方法及装置
CN110196980B (zh) * 2019-06-05 2020-08-04 北京邮电大学 一种基于卷积网络在中文分词任务上的领域迁移
CN110287321A (zh) * 2019-06-26 2019-09-27 南京邮电大学 一种基于改进特征选择的电力文本分类方法
CN110348133B (zh) * 2019-07-15 2022-08-19 西南交通大学 一种高速列车三维产品结构技术功效图构建系统及方法
CN110347934B (zh) * 2019-07-18 2023-12-08 腾讯科技(成都)有限公司 一种文本数据过滤方法、装置及介质
CN110888981B (zh) * 2019-10-30 2022-11-01 深圳价值在线信息科技股份有限公司 基于标题的文档聚类方法、装置、终端设备及介质
CN111274428B (zh) * 2019-12-19 2023-06-30 北京创鑫旅程网络技术有限公司 一种关键词的提取方法及装置、电子设备、存储介质
CN112100329A (zh) * 2020-08-31 2020-12-18 湖北美和易思教育科技有限公司 一种基于大数据的学习心得评测方法及装置
CN112257424A (zh) * 2020-09-29 2021-01-22 华为技术有限公司 一种关键词提取方法、装置、存储介质及设备
CN112861990B (zh) * 2021-03-05 2022-11-04 电子科技大学 一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质
CN113326350B (zh) * 2021-05-31 2023-05-26 江汉大学 基于远程学习的关键词提取方法、系统、设备及存储介质
CN115310564B (zh) * 2022-10-11 2023-01-13 北京睿企信息科技有限公司 一种分类标签更新方法及系统
CN115879901B (zh) * 2023-02-22 2023-07-28 陕西湘秦衡兴科技集团股份有限公司 一种智能人事自助服务平台
CN116975246B (zh) * 2023-08-03 2024-04-26 深圳市博锐高科科技有限公司 一种数据采集方法、装置、芯片及终端
CN117113964B (zh) * 2023-08-18 2024-03-08 北方工业大学 一种作文抄袭检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440256A (zh) * 2013-07-26 2013-12-11 中国科学院深圳先进技术研究院 一种中文文字标签云自动生成方法及装置
CN105843795A (zh) * 2016-03-21 2016-08-10 华南理工大学 基于主题模型的文档关键词抽取方法及其系统
CN106021390A (zh) * 2016-05-12 2016-10-12 福建南威软件有限公司 一种文件的管理方法和装置
CN106934005A (zh) * 2017-03-07 2017-07-07 重庆邮电大学 一种基于密度的文本聚类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440256A (zh) * 2013-07-26 2013-12-11 中国科学院深圳先进技术研究院 一种中文文字标签云自动生成方法及装置
CN105843795A (zh) * 2016-03-21 2016-08-10 华南理工大学 基于主题模型的文档关键词抽取方法及其系统
CN106021390A (zh) * 2016-05-12 2016-10-12 福建南威软件有限公司 一种文件的管理方法和装置
CN106934005A (zh) * 2017-03-07 2017-07-07 重庆邮电大学 一种基于密度的文本聚类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DocRicher:An Automatic Annotation System for Text Documents Using Social Media;Qiang Hu et al.;《SIGMOD’15》;20150604;901-906 *
基于组合特征的中文新闻网页关键词提取研究;毛新武;《中国优秀硕士学位论文全文数据库 信息科技辑(月刊 )》;20130915(第09期);I138-532 *
毛新武.基于组合特征的中文新闻网页关键词提取研究.《中国优秀硕士学位论文全文数据库 信息科技辑(月刊 )》.2013,(第09期), *
自动关键词抽取研究综述;赵京胜等;《软件学报》;20170605;第28卷(第9期);2431-2449 *

Also Published As

Publication number Publication date
CN108197117A (zh) 2018-06-22

Similar Documents

Publication Publication Date Title
CN108197117B (zh) 一种基于文档主题结构与语义的中文文本关键词提取方法
CN106997382B (zh) 基于大数据的创新创意标签自动标注方法及系统
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
JP5391633B2 (ja) オントロジー空間を規定するタームの推奨
US20110112995A1 (en) Systems and methods for organizing collective social intelligence information using an organic object data model
Wang et al. Ptr: Phrase-based topical ranking for automatic keyphrase extraction in scientific publications
CN108763348B (zh) 一种扩展短文本词特征向量的分类改进方法
US8812504B2 (en) Keyword presentation apparatus and method
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
JP5057474B2 (ja) オブジェクト間の競合指標計算方法およびシステム
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
Yalcin et al. An external plagiarism detection system based on part-of-speech (POS) tag n-grams and word embedding
CN116501875B (zh) 一种基于自然语言和知识图谱的文档处理方法和系统
CN114706972A (zh) 一种基于多句压缩的无监督科技情报摘要自动生成方法
CN114997288A (zh) 一种设计资源关联方法
CN114138979B (zh) 基于词拓展无监督文本分类的文物安全知识图谱创建方法
Wang et al. A semantic query expansion-based patent retrieval approach
Qingyun et al. Keyword extraction method for complex nodes based on TextRank algorithm
Zhang Start small, build complete: Effective and efficient semantic table interpretation using tableminer
CN108804422B (zh) 一种科技论文文本建模方法
CN111259136A (zh) 一种基于用户偏好自动生成主题评价摘要的方法
CN113516202A (zh) Cbl特征提取与去噪的网页精准分类方法
Ma et al. Enhancing graph-based keywords extraction with node association
CN110019814B (zh) 一种基于数据挖掘与深度学习的新闻信息聚合方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230526

Address after: Unit 302, No. 16 Guanri Road, Phase II, Software Park, Siming District, Xiamen City, Fujian Province, 361000

Patentee after: XIAMEN ZONGHENG GROUP TECHNOLOGY Co.,Ltd.

Address before: Xiamen City, Fujian Province, 361005 South Siming Road No. 422

Patentee before: XIAMEN University