CN112597280A

CN112597280A - 一种自动发现热点关键词和热点新闻的方法

Info

Publication number: CN112597280A
Application number: CN202011580056.0A
Authority: CN
Inventors: 尹扬
Original assignee: Shanghai Suntime Information Technology Co ltd
Current assignee: Shanghai Suntime Information Technology Co ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-04-02
Also published as: WO2022141803A1

Abstract

本发明涉及一种自动发现热点关键词和热点新闻的方法，包括以下步骤：提取各新闻的主题关键词；计算预设周期内各主题关键词所对应新闻数量与预设周期内新增的新闻数量的比值，以得到预设周期内各主题关键词所对应新闻的占比；计算各主题关键词在预设历史时间段内的占比平均值和占比标准差；根据各主题关键词在预设历史时间段内的占比平均值和占比标准差计算各主题关键词的热度值；若热度值大于预设热门阈值，则判断热度值所对应的主题关键词为热点关键词；根据所述热点关键词查找对应热点新闻。本发明通过自动获取、计算和筛查得到热点关键词和热点新闻，节省了人工成本，也降低了中小企业和个人及时自动获取热点关键词和热点新闻的门槛。

Description

一种自动发现热点关键词和热点新闻的方法

技术领域

本发明涉及互联网应用技术领域，特别涉及一种自动发现热点关键词和热点新闻的方法。

背景技术

当今的互联网时代，每天都会产生海量的新闻资讯信息，并且这些资讯信息每时每刻都在通过互联网以极快的速度在全世界各地传播。如何在这些海量的信息中快速获得有价值的热点信息，在金融投资、管理决策等领域变得至关重要。

目前已有的热点新闻发现方法主要有人工编辑的方法和通过用户行为数据计算得到热点信息的方法。对于人工编辑的方法，需要聘用专业的编辑，每天阅读、整理和编辑海量的新闻，费时费力，人工成本高昂。通过用户行为数据计算则是类似百度、谷歌这样的大型互联网搜索公司所采用的通过用户搜索记录排序、点击量、页面访问量以及分享率等大量的用户行为数据计算得到当前人们关注的热点，但对于大多数公司和个人，没有足够的用户行为数据通过类似的方法得到当前的热点信息。

因此有必要提供一种自动发现热点关键词和热点新闻的方法，以解决现有中小企业难以自动获取热点关键词和热点新闻，导致在投资和决策等中失去先机的问题。

发明内容

本发明的目的在于提供一种自动发现热点关键词和热点新闻的方法，以解决现有中小企业难以自动获取热点关键词和热点新闻，导致在投资和决策等中失去先机的问题。

为了解决现有技术中存在的问题，本发明提供了一种自动发现热点关键词和热点新闻的方法，包括以下步骤：

提取各新闻的主题关键词；

计算预设周期内各主题关键词所对应新闻数量与预设周期内新增的新闻数量的比值，以得到预设周期内各主题关键词所对应新闻的占比；

计算各主题关键词在预设历史时间段内的占比平均值和占比标准差；

根据各主题关键词在预设历史时间段内的占比平均值和占比标准差计算各主题关键词的热度值；

若热度值大于预设热门阈值，则判断热度值所对应的主题关键词为热点关键词；

根据所述热点关键词查找对应热点新闻。

可选的，在所述自动发现热点关键词和热点新闻的方法中，热度值的计算公式为：Hot(w)＝(Proportion(w)-Mean(w))/Std(w)，其中，w为待计算热度值的主题关键词，Hot(w)为该主题关键词的热度值，Proportion(w)为预设周期内该主题关键词所对应新闻当前的占比，Mean(w)为该主题关键词在预设历史时间段内的占比平均值，Std(w)为该主题关键词在预设历史时间段内的占比标准差。

可选的，在所述自动发现热点关键词和热点新闻的方法中，占比平均值的计算方式为：

M＝(P₁+P₂+……P_n)/n，其中，M为任一主题关键词在预设历史时间段内的占比平均值，P₁到P_n为在预设历史时间段内计算的该主题关键词所对应新闻的占比，n为在预设历史时间段内该主题关键词所对应新闻的占比的个数。

可选的，在所述自动发现热点关键词和热点新闻的方法中，占比标准差的计算方式为：

Std＝sqrt(((P₁-M)^2+(P₂-M)^2+......(P_n-M)^2)/n)，其中，Std为任一主题关键词在预设历史时间段内的占比标准差，P₁到P_n为在预设历史时间段内计算的该主题关键词所对应新闻的占比，M为该主题关键词在预设历史时间段内的占比平均值，n为在预设历史时间段内该主题关键词所对应新闻的占比的个数。

可选的，在所述自动发现热点关键词和热点新闻的方法中，按照预设频率计算预设周期内各主题关键词所对应新闻的占比，以及时更新所述占比。

可选的，在所述自动发现热点关键词和热点新闻的方法中，

所述预设频率包括：30分钟、1个小时或2个小时；

所述预设周期包括：1天、1周或1个月；

所述预设历史时间段包括：1个月、1个季度或2个季度。

可选的，在所述自动发现热点关键词和热点新闻的方法中，所述预设热门阈值包括：2.8、3.0或3.2。

可选的，在所述自动发现热点关键词和热点新闻的方法中，提取各主题关键词的方式包括以下步骤：

采用TextRank算法获取各新闻主题中的关键词；

采用机器学习分类器对获取的关键词进行分类；

得到不同类别的主题关键词。

可选的，在所述自动发现热点关键词和热点新闻的方法中，从海量新闻中提取各新闻的主题关键词。

可选的，在所述自动发现热点关键词和热点新闻的方法中，

将提取的各主题关键词作为各对应新闻的标签存入数据库备用；

将预设周期内各主题关键词所对应新闻的占比存入数据库备用。

在本发明所提供的自动发现热点关键词和热点新闻的方法中，通过计算预设周期内各主题关键词所对应新闻的占比、占比平均值、占比标准差和热度值等，使本发明能够完全自动、及时地从数据库中海量杂乱无章的新闻资讯中计算出当前的热点关键词，并以这些热点关键词为基础，找出与之对应的热点新闻。本发明整个过程不需要任何的人工干预，也不需要收集和使用任何用户行为数据。节省了人工成本，也降低了中小企业和个人及时自动获取热点关键词和热点新闻的门槛。

附图说明

图1为本发明实施例提供的自动发现热点关键词和热点新闻的方法的流程图；

图2为本发明实施例提供的主题关键词所对应新闻占比的变化趋势图；

图3为本发明实施例提供的热点关键词所对应热点新闻的展示图。

具体实施方式

下面将结合示意图对本发明的具体实施方式进行更详细的描述。根据下列描述，本发明的优点和特征将更清楚。需说明的是，附图均采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施例的目的。

在下文中，如果本文所述的方法包括一系列步骤，则本文所呈现的这些步骤的顺序并非必须是可执行这些步骤的唯一顺序，且一些所述的步骤可被省略和/或一些本文未描述的其他步骤可被添加到该方法中。

目前已有的热点新闻发现方法主要有人工编辑的方法和通过用户行为数据计算得到热点信息的方法。对于人工编辑的方法，存在费时费力，人工成本高昂等问题；通过用户行为数据计算的方法，相对于大多数公司和个人而言，没有足够的用户行为数据参与行为数据计算得到当前的热点信息。

因此有必要提供一种自动发现热点关键词和热点新闻的方法，如图1所示，图1为本发明实施例提供的自动发现热点关键词和热点新闻的方法的流程图，所述自动发现热点关键词和热点新闻的方法包括以下步骤：

提取各新闻的主题关键词；

根据所述热点关键词查找对应热点新闻。

本发明通过计算预设周期内各主题关键词所对应新闻的占比、占比平均值、占比标准差和热度值等，使本发明能够完全自动、及时地从数据库中海量杂乱无章的新闻资讯中计算出当前的热点关键词，并以这些热点关键词为基础，找出与之对应的热点新闻。本发明整个过程不需要任何的人工干预，也不需要收集和使用任何用户行为数据。节省了人工成本，也降低了中小企业和个人及时自动获取热点关键词和热点新闻的门槛。

具体的，在所述自动发现热点关键词和热点新闻的方法中，提取各主题关键词的方式包括以下步骤：

采用TextRank算法获取各新闻主题中的关键词；

采用机器学习分类器对获取的关键词进行分类；

得到不同类别的主题关键词。

通常的，采用所述TextRank算法和所述机器学习分类器从海量新闻中提取各新闻的主题关键词，海量的新闻一般存储在新闻资讯数据库等存储设备中，当所述新闻资讯数据库每新增一篇新闻，就可以采用所述TextRank算法和所述机器学习分类器去提取新增新闻的主题关键词，并将提取的各主题关键词作为各对应新闻的标签存入数据库备用。

进一步的，按照预设频率计算预设周期内各主题关键词所对应新闻的占比，以及时更新所述占比，所述预设频率包括：30分钟、1个小时或2个小时，所述预设周期包括：1天、1周或1个月。例如优选预设频率为1个小时，预设周期为1天，即每隔一个小时就计算一次占比，计算一次占比的公式为：P＝T/N，其中P为1天内任一主题关键词所对应新闻的占比，T为1天内该主题关键词所对应新闻数量，N为1天内新增的新闻数量，从而得到预设周期内各主题关键词所对应新闻的占比，并将预设周期内各主题关键词所对应新闻的占比存入数据库备用。

接着，由于各主题关键词在整个语料库里出现的概率不一样。例如，对于金融领域的新闻资讯，“投资”、“股票”等关键词所对应新闻占比总是高于其他主题关键词，因此，不能简单的按照关键词所对应新闻占比的大小排序来寻找热点主题。为此，本发明会首先计算每一个主题关键词所对应新闻占比在预设历史时间段内的历史分布，然后计算每个主题关键词所对应当前新闻占比相对于历史分布的热度值。

具体的，根据数据库中存储的各预设周期内各主题关键词所对应新闻的占比等计算各主题关键词的热度值，所述热度值的计算公式如下：Hot(w)＝(Proportion(w)-Mean(w))/Std(w)，其中，w为待计算热度值的主题关键词，Hot(w)为该主题关键词的热度值，Proportion(w)为预设周期内该主题关键词所对应新闻当前的占比，Mean(w)为该主题关键词在预设历史时间段内的占比平均值，Std(w)为该主题关键词在预设历史时间段内的占比标准差。

进一步的，任意一个主题关键词在预设历史时间段内的占比平均值的计算方式相同，占比标准差的计算方式也相同。其中，占比平均值的计算方式为：M＝(P₁+P₂+……P_n)/n，其中，M为任一主题关键词在预设历史时间段内的占比平均值，P₁到P_n为在预设历史时间段内计算的该主题关键词所对应新闻的占比，这些占比都是按照预设频率计算预设周期内各主题关键词所对应新闻的占比得到的，n为在预设历史时间段内该主题关键词所对应新闻的占比的个数。占比标准差的计算方式为：Std＝sqrt(((P₁-M)^2+(P₂-M)^2+......(P_n-M)^2)/n)，其中，Std为任一主题关键词在预设历史时间段内的占比标准差，P₁到P_n为在预设历史时间段内计算的该主题关键词所对应新闻的占比，这些占比都是按照预设频率计算预设周期内各主题关键词所对应新闻的占比得到的，M为该主题关键词在预设历史时间段内的占比平均值，n为在预设历史时间段内该主题关键词所对应新闻的占比的个数。通常情况下，所述预设历史时间段包括：1个月、1个季度或2个季度，优选所述预设历史时间段为1个月。

通常的，对于某一主题关键词，若没有关于该主题关键词的热点事件发生，那么这个主题关键词的词频是符合正常分布的；若发生了与该主题关键词相关的热点事件，分布就会改变。如果在当前周期内该主题关键词的词频偏离均值并达到了Hot倍的标准差，偏离得越多，则该主题关键词的词频来自原有分布的概率越低，即没有热点事件的可能性越小，也就是越可能发生了与该主题关键词相关的热点事件。所以该主题关键词的热度值越大，表明该主题关键词越热门。

进一步的，在计算得到各主题关键词的热度值之后，按照热度值从大到小对主题关键词进行排序，取排名靠前的几个主题关键词或者预设一个热度阈值对主题关键词进行筛查。预设热度阈值的筛查方式为若热度值大于预设热度阈值，则判断热度值所对应的主题关键词为热点关键词。然后在数据库中查询出和热点关键词对应的新闻，查询得到的新闻即为当前的热点新闻。其中，所述预设热门阈值包括：2.8、3.0或3.2，优选所述预设热门阈值可以为3.0。

较佳的，所述预设频率、所述预设周期、所述预设历史时间段以及所述预设热门阈值都可以根据新闻及时性和热点准确率等要求具体设定。

在一个实施例中，通过采用本发明计算主题关键词“斗鱼”所对应新闻占比的历史分布，从而发现2020年10月13日发生的斗鱼直播和虎牙直播合并的热点新闻。如图2所示，图2为本发明实施例提供的主题关键词所对应新闻占比的变化趋势图，从图中可以看出2020年10月13日之前，主题关键词“斗鱼”所对应新闻占比proportion基本在0.001以内波动；然而，2020年10月13日主题关键词“斗鱼”所对应新闻占比proportion突然飙升到0.007以上。通过本发明的算法计算出的2020年10月13日主题关键词“斗鱼”的热度值Hot[“斗鱼”]为11.24，远远超出热度值的预设热门阈值(3.0以内)，表明有关于主题关键词“斗鱼”的热点事件发生。

接着在数据库中查询与“斗鱼”相关的新闻，如图3所示，图3为本发明实施例提供的热点关键词所对应热点新闻的展示图，便可看到2020年10月13日有大量关于斗鱼直播和虎牙直播合并的新闻，从而发现热点新闻。

上述仅为本发明的优选实施例而已，并不对本发明起到任何限制作用。任何所属技术领域的技术人员，在不脱离本发明的技术方案的范围内，对本发明揭露的技术方案和技术内容做任何形式的等同替换或修改等变动，均属未脱离本发明的技术方案的内容，仍属于本发明的保护范围之内。

Claims

1.一种自动发现热点关键词和热点新闻的方法，其特征在于，包括以下步骤：

提取各新闻的主题关键词；

根据所述热点关键词查找对应热点新闻。

2.如权利要求1所述的自动发现热点关键词和热点新闻的方法，其特征在于，热度值的计算公式为：Hot(w)＝(Proportion(w)-Mean(w))/Std(w)，其中，w为待计算热度值的主题关键词，Hot(w)为该主题关键词的热度值，Proportion(w)为预设周期内该主题关键词所对应新闻当前的占比，Mean(w)为该主题关键词在预设历史时间段内的占比平均值，Std(w)为该主题关键词在预设历史时间段内的占比标准差。

3.如权利要求1所述的自动发现热点关键词和热点新闻的方法，其特征在于，占比平均值的计算方式为：

4.如权利要求1所述的自动发现热点关键词和热点新闻的方法，其特征在于，占比标准差的计算方式为：

5.如权利要求1所述的自动发现热点关键词和热点新闻的方法，其特征在于，按照预设频率计算预设周期内各主题关键词所对应新闻的占比，以及时更新所述占比。

6.如权利要求5所述的自动发现热点关键词和热点新闻的方法，其特征在于，

所述预设频率包括：30分钟、1个小时或2个小时；

所述预设周期包括：1天、1周或1个月；

所述预设历史时间段包括：1个月、1个季度或2个季度。

7.如权利要求1所述的自动发现热点关键词和热点新闻的方法，其特征在于，所述预设热门阈值包括：2.8、3.0或3.2。

8.如权利要求1所述的自动发现热点关键词和热点新闻的方法，其特征在于，提取各主题关键词的方式包括以下步骤：

采用TextRank算法获取各新闻主题中的关键词；

采用机器学习分类器对获取的关键词进行分类；

得到不同类别的主题关键词。

9.如权利要求8所述的自动发现热点关键词和热点新闻的方法，其特征在于，从海量新闻中提取各新闻的主题关键词。

10.如权利要求1所述的自动发现热点关键词和热点新闻的方法，其特征在于，