CN109977397A

CN109977397A - 基于词性组合的新闻热点提取方法、系统及存储介质

Info

Publication number: CN109977397A
Application number: CN201910120240.8A
Authority: CN
Inventors: 罗嘉惠; 白云龙; 唐昊; 魏延峰
Original assignee: MAYWIDE TECHNOLOGY Co Ltd
Current assignee: MAYWIDE TECHNOLOGY Co Ltd
Priority date: 2019-02-18
Filing date: 2019-02-18
Publication date: 2019-07-05
Anticipated expiration: 2039-02-18
Also published as: CN109977397B

Abstract

本发明公开了基于词性组合的新闻热点提取方法、系统及存储介质，方法包括：对新闻标题集进行第一分词处理，生成第一词集；根据第一词集对新闻标题集进行第一文本匹配，生成目标标题集；对目标标题集进行第二分词处理，生成第二词集；将第一词集中的每个名词进行两两对比，并将第一词集中每个名词对应的第二词集中的非名词词性的词语序列进行两两对比，生成第一关键词单元集；对第一关键词单元集进行聚类处理，生成第二关键词单元集；根据第二关键词单元集对新闻标题集进行第二文本匹配，识别得到热点新闻标题。本发明的计算复杂度低且识别精度高，可广泛应用于文字处理技术领域。

Description

基于词性组合的新闻热点提取方法、系统及存储介质

技术领域

本发明涉及文字处理技术领域，尤其是基于词性组合的新闻热点提取方法、系统及存储介质。

背景技术

名词解释：

词频，即词语出现频率，在本发明中具体指词语在新闻标题中出现的频率。

词性，即词语的属性，指以词的特点作为划分词类的根据。现代汉语的词可以分为两类14种词性(词类)。一类是实词：名词、动词、形容词、区别词、代词、数词、量词、一类是虚词：副词、介词、连词、助词、语气词、拟声词、叹词。

在信息化时代，每天都有海量的新闻出现在互联网上。新闻反映着社会、民生、舆情等当下时代的信息。针对新闻的时效性和舆情指引性，快速地对新闻信息进行加工、处理、提取关键热点具有重要的经济价值。

文本新闻的呈现方式主要以标题，标签，摘要，正文等内容组成。对一则文本新闻最简洁、全面的概括方式无疑是标题。从海量新闻标题中筛选出相似程度和出现频率较高的标题对于新闻热点具有可靠的代表性。

目前对于文本新闻的热点抽取主要有两类。一类是以机器学习为基础的人工智能算法，该方法有技术门槛高，计算复杂，大部分泛化能力弱等缺点。另一类是以纯词频统计为主的统计学算法，该算法有抽取率低，结果精度低，不能代表新闻热点等缺点。

发明内容

为解决上述技术问题，本发明的目的在于：提供一种复杂度低且精度高的基于词性组合的新闻热点提取方法、系统及存储介质。

本发明一方面所采取的技术方案为：

基于词性组合的新闻热点提取方法，包括以下步骤：

对新闻标题集进行第一分词处理，生成第一词集，所述第一词集由名词组成；

根据第一词集对新闻标题集进行第一文本匹配，生成目标标题集；

对目标标题集进行第二分词处理，生成第二词集；所述第二词集由多个非名词词性的词语序列组成，所述第二词集中的每个非名词词性的词语序列与第一词集中的一个名词一一对应；

将第一词集中的每个名词进行两两对比，并将第一词集中每个名词对应的第二词集中的非名词词性的词语序列进行两两对比，生成第一关键词单元集；

对第一关键词单元集进行聚类处理，生成第二关键词单元集；

根据第二关键词单元集对新闻标题集进行第二文本匹配，识别得到热点新闻标题。

进一步，所述对新闻标题集进行第一分词处理，生成第一词集这一步骤，包括以下步骤：

对新闻标题集进行第一分词处理；

从第一分词处理后得到的结果中删除停用词，得到第一结果；

根据TFIDF算法，计算第一结果中所有名词的重要程度；

基于预设的第一筛选规则，根据名词的重要程度筛选得到第一词集。

进一步，所述对目标标题集进行第二分词处理，生成第二词集这一步骤，包括以下步骤：

对目标标题集进行第二分词处理；

从第二分词处理后得到的结果中删除停用词，得到第二结果；

根据TFIDF算法，计算第二结果中所有非名词词性词的重要程度；

基于预设的第二筛选规则，根据非名词词性词的重要程度筛选得到第二词集。

进一步，所述将第一词集中的每个名词进行两两对比，并将第一词集中每个名词对应的第二词集中的非名词词性的词语序列进行两两对比，生成第一关键词单元集这一步骤，包括以下步骤：

将第一词集中的名词及其在第二词集中对应的非名词词性的词语序列，与第一词集中另一个名词及其在第二词集中对应的非名词词性的词语序列进行两两对比，并判断比对结果中出现的重复的词的个数是否小于第一阈值，若是，则不做处理；反之，则执行下一步骤；

提取第一词集中的名词及其在第二词集中对应的非名词词性的词语序列中重复的词，生成第一关键词单元集。

进一步，所述对第一关键词单元集进行聚类处理，生成第二关键词单元集这一步骤，包括以下步骤：

对第一关键词单元集中的关键词单元进行两两比较，判断关键词单元中是否存在相同名词，若是，则执行下一步骤；反之，则不做处理；

对关键词单元中的非名词词性词进行比较，判断非名词词性词的重复个数是否大于第二阈值，若是，则确认对应的两个关键词单元为同一聚类；反之，则继续执行对关键词单元中的非名词词性词进行比较，判断非名词词性词的重复个数是否大于第二阈值这一步骤，直至遍历完成所有关键词单元后，执行下一步骤；

根据词语的出现频率，在同一聚类中选取若干个非名词词性词和若干个名词进行组合，得到第二关键词单元集。

本发明另一方面所采取的技术方案是：

基于词性组合的新闻热点提取系统，包括：

第一分词处理模块，用于对新闻标题集进行第一分词处理，生成第一词集，所述第一词集由名词组成；

第一文本匹配模块，用于根据第一词集对新闻标题集进行第一文本匹配，生成目标标题集；

第二分词处理模块，用于对目标标题集进行第二分词处理，生成第二词集；所述第二词集由多个非名词词性的词语序列组成，所述第二词集中的每个非名词词性的词语序列与第一词集中的一个名词一一对应；

比对处理模块，用于将第一词集中的每个名词进行两两对比，并将第一词集中每个名词对应的第二词集中的非名词词性的词语序列进行两两对比，生成第一关键词单元集；

聚类处理模块，用于对第一关键词单元集进行聚类处理，生成第二关键词单元集；

第二文本匹配模块，用于根据第二关键词单元集对新闻标题集进行第二文本匹配，识别得到热点新闻标题。

进一步，所述第一分词处理模块包括：

第一分词处理单元，用于对新闻标题集进行第一分词处理；

第一删除单元，用于从第一分词处理后得到的结果中删除停用词，得到第一结果；

第一计算单元，用于根据TFIDF算法，计算第一结果中所有名词的重要程度；

第一筛选单元，用于基于预设的第一筛选规则，根据名词的重要程度筛选得到第一词集。

进一步，所述比对处理模块包括：

第一比较单元，用于将第一词集中的名词及其在第二词集中对应的非名词词性的词语序列，与第一词集中另一个名词及其在第二词集中对应的非名词词性的词语序列进行两两对比，并判断比对结果中出现的重复的词的个数是否小于第一阈值，若是，则不做处理；反之，则执行下一步骤；

提取单元，用于提取第一词集中的名词及其在第二词集中对应的非名词词性的词语序列中重复的词，生成第一关键词单元集；

所述聚类处理模块包括：

第二比较单元，用于对第一关键词单元集中的关键词单元进行两两比较，判断关键词单元中是否存在相同名词，若是，则执行下一步骤；反之，则不做处理；

聚类单元，用于对关键词单元中的非名词词性词进行比较，判断非名词词性词的重复个数是否大于第二阈值，若是，则确认对应的两个关键词单元为同一聚类；反之，则继续执行对关键词单元中的非名词词性词进行比较，判断非名词词性词的重复个数是否大于第二阈值这一步骤，直至遍历完成所有关键词单元后，执行下一步骤；

组合单元，用于根据词语的出现频率，在同一聚类中选取若干个非名词词性词和若干个名词进行组合，得到第二关键词单元集。

本发明另一方面所采取的技术方案是：

基于词性组合的新闻热点提取系统，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现所述的基于词性组合的新闻热点提取方法。

本发明另一方面所采取的技术方案是：

一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行所述的基于词性组合的新闻热点提取方法。

本发明的有益效果是：本发明通过分词处理方法、聚类处理方法以及匹配处理方法，能够从新闻标题集中提取得到热点新闻标题，相较于现有的机器学习的识别算法，本发明的计算复杂度低，不用执行复杂的机器学习过程；另外，相较于词频统计的方法，本发明的识别精度高。

附图说明

图1为本发明实施例的步骤流程图。

具体实施方式

下面结合说明书附图和具体实施例对本发明作进一步解释和说明。对于本发明实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

参照图1，本发明实施例提供了一种基于词性组合的新闻热点提取方法，包括以下步骤：

进一步作为优选的实施方式，所述对新闻标题集进行第一分词处理，生成第一词集这一步骤，包括以下步骤：

对新闻标题集进行第一分词处理；

根据TFIDF算法，计算第一结果中所有名词的重要程度；

进一步作为优选的实施方式，所述对目标标题集进行第二分词处理，生成第二词集这一步骤，包括以下步骤：

对目标标题集进行第二分词处理；

进一步作为优选的实施方式，所述将第一词集中的每个名词进行两两对比，并将第一词集中每个名词对应的第二词集中的非名词词性的词语序列进行两两对比，生成第一关键词单元集这一步骤，包括以下步骤：

进一步作为优选的实施方式，所述对第一关键词单元集进行聚类处理，生成第二关键词单元集这一步骤，包括以下步骤：

与图1的方法相对应，本发明实施例还提供了一种基于词性组合的新闻热点提取系统，包括：

进一步作为优选的实施方式，所述第一分词处理模块包括：

第一分词处理单元，用于对新闻标题集进行第一分词处理；

进一步作为优选的实施方式，所述比对处理模块包括：

所述聚类处理模块包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

与图1的方法相对应，本发明实施例还提供了一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行所述的基于词性组合的新闻热点提取方法。

下面详细描述本发明一种基于词性组合的新闻热点提取方法的具体实施步骤：

step1、获取新闻标题集，以下称总新闻标题集；

step2、对总新闻标题集进行分词，去停用词，保留名词，并调用Jieba分词模块的TFIDF算法计算关键词重要程度得分，本实施例中选取得分前100名的名词，构成重要名词集(即第一词集)；其中，TFIDF算法包含在Jieba分词模块中，无需人工进行计算，直接调用即可，降低了本发明的计算复杂度。

step3、对重要名词集中的每个名词进行文本匹配，在总新闻标题集中选出包含该名词的所有标题(即目标标题集)；

step4、对每个名词选出的各个标题集分别进行分词，去停用词，保留非名词词性词，并依据TFIDF算法计算各个词的重要程度得分，本实施例选取得分前10名的非名词词性词，构成各个重要名词下的非名词词性词集(即第二词集)；

step5、对重要名词集中各名词及其对应的非名词词性词集进行两两比较，若比较结果中重复的词的个数大于或等于第一阈值(本实施例中预设第一阈值为3)，则将两词集对应的名词以及词集中重复的词提取出来，组成一个关键词单元，所有提取出来的关键词单元的集合，以下称为关键词单元集(即第一关键词单元集)；

step6、对关键词单元进行聚类，聚类的依据为关键词单元中的非名词词性词。本实施例中聚类的步骤为：1、对关键词单元两两进行比较，查看关键词单元中是否有相同的名词；2、若有相同的名词，则比较关键词单元中的非名词词性词，若非名词词性词重复的个数超过两关键词单元中非名词词性词总数的50％(即第二阈值)，则将此两个关键词单元聚成一类；3、遍历所有关键词单元，得到总的聚类结果。聚类后将同一类中出现频率最高的前三个非名词词性词和出现频率最高的前两个名词组合成最简关键词单元，各类的最简关键词单元的集合称为最简关键词单元集(即第二关键词单元集)；

step7、分别对每个最简关键词单元中的关键词组成的关键词集进行文本匹配，匹配对象为总新闻标题集，匹配程度最高的新闻标题即为热点新闻标题。

综上所述，本发明由于算法简单，计算方式简便，等待时间短，可用于新闻的实时快速展示。另外，本发明基于词性的新闻热点提取，可用于新闻热点以外的短文本信息聚类。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.基于词性组合的新闻热点提取方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于词性组合的新闻热点提取方法，其特征在于：所述对新闻标题集进行第一分词处理，生成第一词集这一步骤，包括以下步骤：

对新闻标题集进行第一分词处理；

根据TFIDF算法，计算第一结果中所有名词的重要程度；

3.根据权利要求1所述的基于词性组合的新闻热点提取方法，其特征在于：所述对目标标题集进行第二分词处理，生成第二词集这一步骤，包括以下步骤：

对目标标题集进行第二分词处理；

4.根据权利要求3所述的基于词性组合的新闻热点提取方法，其特征在于：所述将第一词集中的每个名词进行两两对比，并将第一词集中每个名词对应的第二词集中的非名词词性的词语序列进行两两对比，生成第一关键词单元集这一步骤，包括以下步骤：

5.根据权利要求4所述的基于词性组合的新闻热点提取方法，其特征在于：所述对第一关键词单元集进行聚类处理，生成第二关键词单元集这一步骤，包括以下步骤：

6.基于词性组合的新闻热点提取系统，其特征在于：包括：

7.根据权利要求6所述的基于词性组合的新闻热点提取系统，其特征在于：所述第一分词处理模块包括：

第一分词处理单元，用于对新闻标题集进行第一分词处理；

8.根据权利要求7所述的基于词性组合的新闻热点提取系统，其特征在于：

所述比对处理模块包括：

所述聚类处理模块包括：

9.基于词性组合的新闻热点提取系统，其特征在于：包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-5中任一项所述的基于词性组合的新闻热点提取方法。

10.一种存储介质，其中存储有处理器可执行的指令，其特征在于：所述处理器可执行的指令在由处理器执行时用于执行如权利要求1-5中任一项所述的基于词性组合的新闻热点提取方法。