CN109977397A - 基于词性组合的新闻热点提取方法、系统及存储介质 - Google Patents

基于词性组合的新闻热点提取方法、系统及存储介质 Download PDF

Info

Publication number
CN109977397A
CN109977397A CN201910120240.8A CN201910120240A CN109977397A CN 109977397 A CN109977397 A CN 109977397A CN 201910120240 A CN201910120240 A CN 201910120240A CN 109977397 A CN109977397 A CN 109977397A
Authority
CN
China
Prior art keywords
noun
word
speech
collection
word set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910120240.8A
Other languages
English (en)
Other versions
CN109977397B (zh
Inventor
罗嘉惠
白云龙
唐昊
魏延峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MAYWIDE TECHNOLOGY Co Ltd
Original Assignee
MAYWIDE TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MAYWIDE TECHNOLOGY Co Ltd filed Critical MAYWIDE TECHNOLOGY Co Ltd
Priority to CN201910120240.8A priority Critical patent/CN109977397B/zh
Publication of CN109977397A publication Critical patent/CN109977397A/zh
Application granted granted Critical
Publication of CN109977397B publication Critical patent/CN109977397B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本发明公开了基于词性组合的新闻热点提取方法、系统及存储介质,方法包括:对新闻标题集进行第一分词处理,生成第一词集;根据第一词集对新闻标题集进行第一文本匹配,生成目标标题集;对目标标题集进行第二分词处理,生成第二词集;将第一词集中的每个名词进行两两对比,并将第一词集中每个名词对应的第二词集中的非名词词性的词语序列进行两两对比,生成第一关键词单元集;对第一关键词单元集进行聚类处理,生成第二关键词单元集;根据第二关键词单元集对新闻标题集进行第二文本匹配,识别得到热点新闻标题。本发明的计算复杂度低且识别精度高,可广泛应用于文字处理技术领域。

Description

基于词性组合的新闻热点提取方法、系统及存储介质
技术领域
本发明涉及文字处理技术领域,尤其是基于词性组合的新闻热点提取方法、系统及存储介质。
背景技术
名词解释:
词频,即词语出现频率,在本发明中具体指词语在新闻标题中出现的频率。
词性,即词语的属性,指以词的特点作为划分词类的根据。现代汉语的词可以分为两类14种词性(词类)。一类是实词:名词、动词、形容词、区别词、代词、数词、量词、一类是虚词:副词、介词、连词、助词、语气词、拟声词、叹词。
在信息化时代,每天都有海量的新闻出现在互联网上。新闻反映着社会、民生、舆情等当下时代的信息。针对新闻的时效性和舆情指引性,快速地对新闻信息进行加工、处理、提取关键热点具有重要的经济价值。
文本新闻的呈现方式主要以标题,标签,摘要,正文等内容组成。对一则文本新闻最简洁、全面的概括方式无疑是标题。从海量新闻标题中筛选出相似程度和出现频率较高的标题对于新闻热点具有可靠的代表性。
目前对于文本新闻的热点抽取主要有两类。一类是以机器学习为基础的人工智能算法,该方法有技术门槛高,计算复杂,大部分泛化能力弱等缺点。另一类是以纯词频统计为主的统计学算法,该算法有抽取率低,结果精度低,不能代表新闻热点等缺点。
发明内容
为解决上述技术问题,本发明的目的在于:提供一种复杂度低且精度高的基于词性组合的新闻热点提取方法、系统及存储介质。
本发明一方面所采取的技术方案为:
基于词性组合的新闻热点提取方法,包括以下步骤:
对新闻标题集进行第一分词处理,生成第一词集,所述第一词集由名词组成;
根据第一词集对新闻标题集进行第一文本匹配,生成目标标题集;
对目标标题集进行第二分词处理,生成第二词集;所述第二词集由多个非名词词性的词语序列组成,所述第二词集中的每个非名词词性的词语序列与第一词集中的一个名词一一对应;
将第一词集中的每个名词进行两两对比,并将第一词集中每个名词对应的第二词集中的非名词词性的词语序列进行两两对比,生成第一关键词单元集;
对第一关键词单元集进行聚类处理,生成第二关键词单元集;
根据第二关键词单元集对新闻标题集进行第二文本匹配,识别得到热点新闻标题。
进一步,所述对新闻标题集进行第一分词处理,生成第一词集这一步骤,包括以下步骤:
对新闻标题集进行第一分词处理;
从第一分词处理后得到的结果中删除停用词,得到第一结果;
根据TFIDF算法,计算第一结果中所有名词的重要程度;
基于预设的第一筛选规则,根据名词的重要程度筛选得到第一词集。
进一步,所述对目标标题集进行第二分词处理,生成第二词集这一步骤,包括以下步骤:
对目标标题集进行第二分词处理;
从第二分词处理后得到的结果中删除停用词,得到第二结果;
根据TFIDF算法,计算第二结果中所有非名词词性词的重要程度;
基于预设的第二筛选规则,根据非名词词性词的重要程度筛选得到第二词集。
进一步,所述将第一词集中的每个名词进行两两对比,并将第一词集中每个名词对应的第二词集中的非名词词性的词语序列进行两两对比,生成第一关键词单元集这一步骤,包括以下步骤:
将第一词集中的名词及其在第二词集中对应的非名词词性的词语序列,与第一词集中另一个名词及其在第二词集中对应的非名词词性的词语序列进行两两对比,并判断比对结果中出现的重复的词的个数是否小于第一阈值,若是,则不做处理;反之,则执行下一步骤;
提取第一词集中的名词及其在第二词集中对应的非名词词性的词语序列中重复的词,生成第一关键词单元集。
进一步,所述对第一关键词单元集进行聚类处理,生成第二关键词单元集这一步骤,包括以下步骤:
对第一关键词单元集中的关键词单元进行两两比较,判断关键词单元中是否存在相同名词,若是,则执行下一步骤;反之,则不做处理;
对关键词单元中的非名词词性词进行比较,判断非名词词性词的重复个数是否大于第二阈值,若是,则确认对应的两个关键词单元为同一聚类;反之,则继续执行对关键词单元中的非名词词性词进行比较,判断非名词词性词的重复个数是否大于第二阈值这一步骤,直至遍历完成所有关键词单元后,执行下一步骤;
根据词语的出现频率,在同一聚类中选取若干个非名词词性词和若干个名词进行组合,得到第二关键词单元集。
本发明另一方面所采取的技术方案是:
基于词性组合的新闻热点提取系统,包括:
第一分词处理模块,用于对新闻标题集进行第一分词处理,生成第一词集,所述第一词集由名词组成;
第一文本匹配模块,用于根据第一词集对新闻标题集进行第一文本匹配,生成目标标题集;
第二分词处理模块,用于对目标标题集进行第二分词处理,生成第二词集;所述第二词集由多个非名词词性的词语序列组成,所述第二词集中的每个非名词词性的词语序列与第一词集中的一个名词一一对应;
比对处理模块,用于将第一词集中的每个名词进行两两对比,并将第一词集中每个名词对应的第二词集中的非名词词性的词语序列进行两两对比,生成第一关键词单元集;
聚类处理模块,用于对第一关键词单元集进行聚类处理,生成第二关键词单元集;
第二文本匹配模块,用于根据第二关键词单元集对新闻标题集进行第二文本匹配,识别得到热点新闻标题。
进一步,所述第一分词处理模块包括:
第一分词处理单元,用于对新闻标题集进行第一分词处理;
第一删除单元,用于从第一分词处理后得到的结果中删除停用词,得到第一结果;
第一计算单元,用于根据TFIDF算法,计算第一结果中所有名词的重要程度;
第一筛选单元,用于基于预设的第一筛选规则,根据名词的重要程度筛选得到第一词集。
进一步,所述比对处理模块包括:
第一比较单元,用于将第一词集中的名词及其在第二词集中对应的非名词词性的词语序列,与第一词集中另一个名词及其在第二词集中对应的非名词词性的词语序列进行两两对比,并判断比对结果中出现的重复的词的个数是否小于第一阈值,若是,则不做处理;反之,则执行下一步骤;
提取单元,用于提取第一词集中的名词及其在第二词集中对应的非名词词性的词语序列中重复的词,生成第一关键词单元集;
所述聚类处理模块包括:
第二比较单元,用于对第一关键词单元集中的关键词单元进行两两比较,判断关键词单元中是否存在相同名词,若是,则执行下一步骤;反之,则不做处理;
聚类单元,用于对关键词单元中的非名词词性词进行比较,判断非名词词性词的重复个数是否大于第二阈值,若是,则确认对应的两个关键词单元为同一聚类;反之,则继续执行对关键词单元中的非名词词性词进行比较,判断非名词词性词的重复个数是否大于第二阈值这一步骤,直至遍历完成所有关键词单元后,执行下一步骤;
组合单元,用于根据词语的出现频率,在同一聚类中选取若干个非名词词性词和若干个名词进行组合,得到第二关键词单元集。
本发明另一方面所采取的技术方案是:
基于词性组合的新闻热点提取系统,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现所述的基于词性组合的新闻热点提取方法。
本发明另一方面所采取的技术方案是:
一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于执行所述的基于词性组合的新闻热点提取方法。
本发明的有益效果是:本发明通过分词处理方法、聚类处理方法以及匹配处理方法,能够从新闻标题集中提取得到热点新闻标题,相较于现有的机器学习的识别算法,本发明的计算复杂度低,不用执行复杂的机器学习过程;另外,相较于词频统计的方法,本发明的识别精度高。
附图说明
图1为本发明实施例的步骤流程图。
具体实施方式
下面结合说明书附图和具体实施例对本发明作进一步解释和说明。对于本发明实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
参照图1,本发明实施例提供了一种基于词性组合的新闻热点提取方法,包括以下步骤:
对新闻标题集进行第一分词处理,生成第一词集,所述第一词集由名词组成;
根据第一词集对新闻标题集进行第一文本匹配,生成目标标题集;
对目标标题集进行第二分词处理,生成第二词集;所述第二词集由多个非名词词性的词语序列组成,所述第二词集中的每个非名词词性的词语序列与第一词集中的一个名词一一对应;
将第一词集中的每个名词进行两两对比,并将第一词集中每个名词对应的第二词集中的非名词词性的词语序列进行两两对比,生成第一关键词单元集;
对第一关键词单元集进行聚类处理,生成第二关键词单元集;
根据第二关键词单元集对新闻标题集进行第二文本匹配,识别得到热点新闻标题。
进一步作为优选的实施方式,所述对新闻标题集进行第一分词处理,生成第一词集这一步骤,包括以下步骤:
对新闻标题集进行第一分词处理;
从第一分词处理后得到的结果中删除停用词,得到第一结果;
根据TFIDF算法,计算第一结果中所有名词的重要程度;
基于预设的第一筛选规则,根据名词的重要程度筛选得到第一词集。
进一步作为优选的实施方式,所述对目标标题集进行第二分词处理,生成第二词集这一步骤,包括以下步骤:
对目标标题集进行第二分词处理;
从第二分词处理后得到的结果中删除停用词,得到第二结果;
根据TFIDF算法,计算第二结果中所有非名词词性词的重要程度;
基于预设的第二筛选规则,根据非名词词性词的重要程度筛选得到第二词集。
进一步作为优选的实施方式,所述将第一词集中的每个名词进行两两对比,并将第一词集中每个名词对应的第二词集中的非名词词性的词语序列进行两两对比,生成第一关键词单元集这一步骤,包括以下步骤:
将第一词集中的名词及其在第二词集中对应的非名词词性的词语序列,与第一词集中另一个名词及其在第二词集中对应的非名词词性的词语序列进行两两对比,并判断比对结果中出现的重复的词的个数是否小于第一阈值,若是,则不做处理;反之,则执行下一步骤;
提取第一词集中的名词及其在第二词集中对应的非名词词性的词语序列中重复的词,生成第一关键词单元集。
进一步作为优选的实施方式,所述对第一关键词单元集进行聚类处理,生成第二关键词单元集这一步骤,包括以下步骤:
对第一关键词单元集中的关键词单元进行两两比较,判断关键词单元中是否存在相同名词,若是,则执行下一步骤;反之,则不做处理;
对关键词单元中的非名词词性词进行比较,判断非名词词性词的重复个数是否大于第二阈值,若是,则确认对应的两个关键词单元为同一聚类;反之,则继续执行对关键词单元中的非名词词性词进行比较,判断非名词词性词的重复个数是否大于第二阈值这一步骤,直至遍历完成所有关键词单元后,执行下一步骤;
根据词语的出现频率,在同一聚类中选取若干个非名词词性词和若干个名词进行组合,得到第二关键词单元集。
与图1的方法相对应,本发明实施例还提供了一种基于词性组合的新闻热点提取系统,包括:
第一分词处理模块,用于对新闻标题集进行第一分词处理,生成第一词集,所述第一词集由名词组成;
第一文本匹配模块,用于根据第一词集对新闻标题集进行第一文本匹配,生成目标标题集;
第二分词处理模块,用于对目标标题集进行第二分词处理,生成第二词集;所述第二词集由多个非名词词性的词语序列组成,所述第二词集中的每个非名词词性的词语序列与第一词集中的一个名词一一对应;
比对处理模块,用于将第一词集中的每个名词进行两两对比,并将第一词集中每个名词对应的第二词集中的非名词词性的词语序列进行两两对比,生成第一关键词单元集;
聚类处理模块,用于对第一关键词单元集进行聚类处理,生成第二关键词单元集;
第二文本匹配模块,用于根据第二关键词单元集对新闻标题集进行第二文本匹配,识别得到热点新闻标题。
进一步作为优选的实施方式,所述第一分词处理模块包括:
第一分词处理单元,用于对新闻标题集进行第一分词处理;
第一删除单元,用于从第一分词处理后得到的结果中删除停用词,得到第一结果;
第一计算单元,用于根据TFIDF算法,计算第一结果中所有名词的重要程度;
第一筛选单元,用于基于预设的第一筛选规则,根据名词的重要程度筛选得到第一词集。
进一步作为优选的实施方式,所述比对处理模块包括:
第一比较单元,用于将第一词集中的名词及其在第二词集中对应的非名词词性的词语序列,与第一词集中另一个名词及其在第二词集中对应的非名词词性的词语序列进行两两对比,并判断比对结果中出现的重复的词的个数是否小于第一阈值,若是,则不做处理;反之,则执行下一步骤;
提取单元,用于提取第一词集中的名词及其在第二词集中对应的非名词词性的词语序列中重复的词,生成第一关键词单元集;
所述聚类处理模块包括:
第二比较单元,用于对第一关键词单元集中的关键词单元进行两两比较,判断关键词单元中是否存在相同名词,若是,则执行下一步骤;反之,则不做处理;
聚类单元,用于对关键词单元中的非名词词性词进行比较,判断非名词词性词的重复个数是否大于第二阈值,若是,则确认对应的两个关键词单元为同一聚类;反之,则继续执行对关键词单元中的非名词词性词进行比较,判断非名词词性词的重复个数是否大于第二阈值这一步骤,直至遍历完成所有关键词单元后,执行下一步骤;
组合单元,用于根据词语的出现频率,在同一聚类中选取若干个非名词词性词和若干个名词进行组合,得到第二关键词单元集。
与图1的方法相对应,本发明实施例还提供了一种基于词性组合的新闻热点提取系统,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现所述的基于词性组合的新闻热点提取方法。
上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
与图1的方法相对应,本发明实施例还提供了一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于执行所述的基于词性组合的新闻热点提取方法。
下面详细描述本发明一种基于词性组合的新闻热点提取方法的具体实施步骤:
step1、获取新闻标题集,以下称总新闻标题集;
step2、对总新闻标题集进行分词,去停用词,保留名词,并调用Jieba分词模块的TFIDF算法计算关键词重要程度得分,本实施例中选取得分前100名的名词,构成重要名词集(即第一词集);其中,TFIDF算法包含在Jieba分词模块中,无需人工进行计算,直接调用即可,降低了本发明的计算复杂度。
step3、对重要名词集中的每个名词进行文本匹配,在总新闻标题集中选出包含该名词的所有标题(即目标标题集);
step4、对每个名词选出的各个标题集分别进行分词,去停用词,保留非名词词性词,并依据TFIDF算法计算各个词的重要程度得分,本实施例选取得分前10名的非名词词性词,构成各个重要名词下的非名词词性词集(即第二词集);
step5、对重要名词集中各名词及其对应的非名词词性词集进行两两比较,若比较结果中重复的词的个数大于或等于第一阈值(本实施例中预设第一阈值为3),则将两词集对应的名词以及词集中重复的词提取出来,组成一个关键词单元,所有提取出来的关键词单元的集合,以下称为关键词单元集(即第一关键词单元集);
step6、对关键词单元进行聚类,聚类的依据为关键词单元中的非名词词性词。本实施例中聚类的步骤为:1、对关键词单元两两进行比较,查看关键词单元中是否有相同的名词;2、若有相同的名词,则比较关键词单元中的非名词词性词,若非名词词性词重复的个数超过两关键词单元中非名词词性词总数的50%(即第二阈值),则将此两个关键词单元聚成一类;3、遍历所有关键词单元,得到总的聚类结果。聚类后将同一类中出现频率最高的前三个非名词词性词和出现频率最高的前两个名词组合成最简关键词单元,各类的最简关键词单元的集合称为最简关键词单元集(即第二关键词单元集);
step7、分别对每个最简关键词单元中的关键词组成的关键词集进行文本匹配,匹配对象为总新闻标题集,匹配程度最高的新闻标题即为热点新闻标题。
综上所述,本发明由于算法简单,计算方式简便,等待时间短,可用于新闻的实时快速展示。另外,本发明基于词性的新闻热点提取,可用于新闻热点以外的短文本信息聚类。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.基于词性组合的新闻热点提取方法,其特征在于:包括以下步骤:
对新闻标题集进行第一分词处理,生成第一词集,所述第一词集由名词组成;
根据第一词集对新闻标题集进行第一文本匹配,生成目标标题集;
对目标标题集进行第二分词处理,生成第二词集;所述第二词集由多个非名词词性的词语序列组成,所述第二词集中的每个非名词词性的词语序列与第一词集中的一个名词一一对应;
将第一词集中的每个名词进行两两对比,并将第一词集中每个名词对应的第二词集中的非名词词性的词语序列进行两两对比,生成第一关键词单元集;
对第一关键词单元集进行聚类处理,生成第二关键词单元集;
根据第二关键词单元集对新闻标题集进行第二文本匹配,识别得到热点新闻标题。
2.根据权利要求1所述的基于词性组合的新闻热点提取方法,其特征在于:所述对新闻标题集进行第一分词处理,生成第一词集这一步骤,包括以下步骤:
对新闻标题集进行第一分词处理;
从第一分词处理后得到的结果中删除停用词,得到第一结果;
根据TFIDF算法,计算第一结果中所有名词的重要程度;
基于预设的第一筛选规则,根据名词的重要程度筛选得到第一词集。
3.根据权利要求1所述的基于词性组合的新闻热点提取方法,其特征在于:所述对目标标题集进行第二分词处理,生成第二词集这一步骤,包括以下步骤:
对目标标题集进行第二分词处理;
从第二分词处理后得到的结果中删除停用词,得到第二结果;
根据TFIDF算法,计算第二结果中所有非名词词性词的重要程度;
基于预设的第二筛选规则,根据非名词词性词的重要程度筛选得到第二词集。
4.根据权利要求3所述的基于词性组合的新闻热点提取方法,其特征在于:所述将第一词集中的每个名词进行两两对比,并将第一词集中每个名词对应的第二词集中的非名词词性的词语序列进行两两对比,生成第一关键词单元集这一步骤,包括以下步骤:
将第一词集中的名词及其在第二词集中对应的非名词词性的词语序列,与第一词集中另一个名词及其在第二词集中对应的非名词词性的词语序列进行两两对比,并判断比对结果中出现的重复的词的个数是否小于第一阈值,若是,则不做处理;反之,则执行下一步骤;
提取第一词集中的名词及其在第二词集中对应的非名词词性的词语序列中重复的词,生成第一关键词单元集。
5.根据权利要求4所述的基于词性组合的新闻热点提取方法,其特征在于:所述对第一关键词单元集进行聚类处理,生成第二关键词单元集这一步骤,包括以下步骤:
对第一关键词单元集中的关键词单元进行两两比较,判断关键词单元中是否存在相同名词,若是,则执行下一步骤;反之,则不做处理;
对关键词单元中的非名词词性词进行比较,判断非名词词性词的重复个数是否大于第二阈值,若是,则确认对应的两个关键词单元为同一聚类;反之,则继续执行对关键词单元中的非名词词性词进行比较,判断非名词词性词的重复个数是否大于第二阈值这一步骤,直至遍历完成所有关键词单元后,执行下一步骤;
根据词语的出现频率,在同一聚类中选取若干个非名词词性词和若干个名词进行组合,得到第二关键词单元集。
6.基于词性组合的新闻热点提取系统,其特征在于:包括:
第一分词处理模块,用于对新闻标题集进行第一分词处理,生成第一词集,所述第一词集由名词组成;
第一文本匹配模块,用于根据第一词集对新闻标题集进行第一文本匹配,生成目标标题集;
第二分词处理模块,用于对目标标题集进行第二分词处理,生成第二词集;所述第二词集由多个非名词词性的词语序列组成,所述第二词集中的每个非名词词性的词语序列与第一词集中的一个名词一一对应;
比对处理模块,用于将第一词集中的每个名词进行两两对比,并将第一词集中每个名词对应的第二词集中的非名词词性的词语序列进行两两对比,生成第一关键词单元集;
聚类处理模块,用于对第一关键词单元集进行聚类处理,生成第二关键词单元集;
第二文本匹配模块,用于根据第二关键词单元集对新闻标题集进行第二文本匹配,识别得到热点新闻标题。
7.根据权利要求6所述的基于词性组合的新闻热点提取系统,其特征在于:所述第一分词处理模块包括:
第一分词处理单元,用于对新闻标题集进行第一分词处理;
第一删除单元,用于从第一分词处理后得到的结果中删除停用词,得到第一结果;
第一计算单元,用于根据TFIDF算法,计算第一结果中所有名词的重要程度;
第一筛选单元,用于基于预设的第一筛选规则,根据名词的重要程度筛选得到第一词集。
8.根据权利要求7所述的基于词性组合的新闻热点提取系统,其特征在于:
所述比对处理模块包括:
第一比较单元,用于将第一词集中的名词及其在第二词集中对应的非名词词性的词语序列,与第一词集中另一个名词及其在第二词集中对应的非名词词性的词语序列进行两两对比,并判断比对结果中出现的重复的词的个数是否小于第一阈值,若是,则不做处理;反之,则执行下一步骤;
提取单元,用于提取第一词集中的名词及其在第二词集中对应的非名词词性的词语序列中重复的词,生成第一关键词单元集;
所述聚类处理模块包括:
第二比较单元,用于对第一关键词单元集中的关键词单元进行两两比较,判断关键词单元中是否存在相同名词,若是,则执行下一步骤;反之,则不做处理;
聚类单元,用于对关键词单元中的非名词词性词进行比较,判断非名词词性词的重复个数是否大于第二阈值,若是,则确认对应的两个关键词单元为同一聚类;反之,则继续执行对关键词单元中的非名词词性词进行比较,判断非名词词性词的重复个数是否大于第二阈值这一步骤,直至遍历完成所有关键词单元后,执行下一步骤;
组合单元,用于根据词语的出现频率,在同一聚类中选取若干个非名词词性词和若干个名词进行组合,得到第二关键词单元集。
9.基于词性组合的新闻热点提取系统,其特征在于:包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-5中任一项所述的基于词性组合的新闻热点提取方法。
10.一种存储介质,其中存储有处理器可执行的指令,其特征在于:所述处理器可执行的指令在由处理器执行时用于执行如权利要求1-5中任一项所述的基于词性组合的新闻热点提取方法。
CN201910120240.8A 2019-02-18 2019-02-18 基于词性组合的新闻热点提取方法、系统及存储介质 Active CN109977397B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910120240.8A CN109977397B (zh) 2019-02-18 2019-02-18 基于词性组合的新闻热点提取方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910120240.8A CN109977397B (zh) 2019-02-18 2019-02-18 基于词性组合的新闻热点提取方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN109977397A true CN109977397A (zh) 2019-07-05
CN109977397B CN109977397B (zh) 2022-11-15

Family

ID=67077098

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910120240.8A Active CN109977397B (zh) 2019-02-18 2019-02-18 基于词性组合的新闻热点提取方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN109977397B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328792A (zh) * 2020-11-09 2021-02-05 浪潮软件股份有限公司 一种基于dbscan聚类算法识别信用事件的优化方法
CN113361272A (zh) * 2021-06-22 2021-09-07 海信视像科技股份有限公司 一种媒资标题的概念词提取方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120117092A1 (en) * 2010-11-05 2012-05-10 Zofia Stankiewicz Systems And Methods Regarding Keyword Extraction
CN102662965A (zh) * 2012-03-07 2012-09-12 上海引跑信息科技有限公司 一种自动发现互联网热点新闻主题的方法及系统
CN107153658A (zh) * 2016-03-03 2017-09-12 常州普适信息科技有限公司 一种基于关键字加权算法的舆情热词发现方法
KR101850993B1 (ko) * 2016-12-08 2018-04-23 서울시립대학교 산학협력단 클러스터 기반 키워드 산출 방법 및 장치
CN108170666A (zh) * 2017-11-29 2018-06-15 同济大学 一种基于tf-idf关键词提取的改进方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120117092A1 (en) * 2010-11-05 2012-05-10 Zofia Stankiewicz Systems And Methods Regarding Keyword Extraction
CN102662965A (zh) * 2012-03-07 2012-09-12 上海引跑信息科技有限公司 一种自动发现互联网热点新闻主题的方法及系统
CN107153658A (zh) * 2016-03-03 2017-09-12 常州普适信息科技有限公司 一种基于关键字加权算法的舆情热词发现方法
KR101850993B1 (ko) * 2016-12-08 2018-04-23 서울시립대학교 산학협력단 클러스터 기반 키워드 산출 방법 및 장치
CN108170666A (zh) * 2017-11-29 2018-06-15 同济大学 一种基于tf-idf关键词提取的改进方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328792A (zh) * 2020-11-09 2021-02-05 浪潮软件股份有限公司 一种基于dbscan聚类算法识别信用事件的优化方法
CN113361272A (zh) * 2021-06-22 2021-09-07 海信视像科技股份有限公司 一种媒资标题的概念词提取方法及装置

Also Published As

Publication number Publication date
CN109977397B (zh) 2022-11-15

Similar Documents

Publication Publication Date Title
CN109146610B (zh) 一种智能保险推荐方法、装置及智能保险机器人设备
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
JP6721179B2 (ja) 因果関係認識装置及びそのためのコンピュータプログラム
US11531818B2 (en) Device and method for machine reading comprehension question and answer
CN109960756B (zh) 新闻事件信息归纳方法
Vivaldi et al. Improving term extraction by system combination using boosting
CN112069298A (zh) 基于语义网和意图识别的人机交互方法、设备及介质
Hull et al. Xerox TREC-5 Site Report: Routing, Filtering, NLP, and Spanish Tracks.
CN108920599B (zh) 一种基于知识本体库的问答系统答案精准定位和抽取方法
CN110263154A (zh) 一种网络舆情情感态势量化方法、系统及存储介质
CN107423440A (zh) 一种基于情感分析的问答上下文切换与强化选择方法
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN109284389A (zh) 一种文本数据的信息处理方法、装置
CN109189907A (zh) 一种基于语义匹配的检索方法及装置
CN109977397A (zh) 基于词性组合的新闻热点提取方法、系统及存储介质
CN110704638A (zh) 一种基于聚类算法的电力文本词典构造方法
CN114265937A (zh) 科技情报的智能分类分析方法、系统、存储介质及服务器
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
Whittaker et al. A statistical classification approach to question answering using web data
CN113590821B (zh) 一种隐含语篇关系的分类方法
Thilagavathi et al. Document clustering in forensic investigation by hybrid approach
CN113761104A (zh) 知识图谱中实体关系的检测方法、装置和电子设备
JP2002183194A (ja) 検索式生成装置およびその方法
Gayen et al. Automatic identification of Bengali noun-noun compounds using random forest
Im et al. Multilayer CARU Model for Text Summarization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant