CN117371436B

CN117371436B - 一种热度递增的热词获取系统

Info

Publication number: CN117371436B
Application number: CN202311300672.XA
Authority: CN
Inventors: 石江枫; 于伟; 靳雯; 王全修; 赵洲洋
Original assignee: Rizhao Ruian Information Technology Co ltd; Beijing Rich Information Technology Co ltd
Current assignee: Rizhao Ruian Information Technology Co ltd; Beijing Rich Information Technology Co ltd
Priority date: 2023-10-09
Filing date: 2023-10-09
Publication date: 2024-04-12
Anticipated expiration: 2043-10-09
Also published as: CN117371436A

Abstract

本发明提供了一种热度递增的热词获取系统，包括：目标文本对应的关键特征词列表、预设热度递增特征词列表、处理器和存储有计算机程序的存储器，当计算机程序被处理器执行时，实现如下步骤：获取第三特征相似度；当第三特征相似度不大于第三相似度阈值时，获取预设中间周期列表；根据目标关键词和预设中间周期列表，获取增长率列表；根据增长率，获取目标关键词对应的候选权重，进一步地获取目标关键词对应的中间优先级，将中间优先级和预设中间优先级阈值进行对比，确定热度递增的热词。可知，本发明能够根据目标关键词对应的增长率和目标关键词在第一预设中间周期中出现的次数，确定出热度递增的热词，有利于提高获取热度递增的热词的精准度。

Description

一种热度递增的热词获取系统

技术领域

本发明涉及热词技术领域，特别是涉及一种热度递增的热词获取系统。

背景技术

热词为热门词汇，随着计算机网络的快速发展，热词的数量逐渐增多，热词能够很好的反映出一些事件的发展趋势，对热词进行分析，有利于用户更全面的了解事件的本质、细节或事件发展的趋势，热词的热度会跟随着时间的演变而发生变化，对热度递增的热词进行分析，有利于帮助用户了解事件发展的趋势，现有技术中，确定热度递增的热词的方法为实时监控热词的热度值，当热度值实时发生增长，则将所述热词确定为热度递增的热词。

但是上述方法存在以下技术问题：

实时监控热词的热度值，无法对关键词出现的频次以及出现频次对应的增长率进行分析，存在较短时间内热词为热度递增的热词但较长时间内热词非热度递增的热词的情况，因此，通过上述方法获取到的热度递增的热词的精准度较低。

发明内容

针对上述技术问题，本发明采用的技术方案为：

一种热度递增的热词获取系统，包括：目标文本对应的关键特征词列表C＝{C₁，C₂，……，C_j，……，C_n}、预设热度递增特征词列表A₃＝{A₃₍₁₎，A₃₍₂₎，……，A_3(i2)，……，A_3(m2)}、处理器和存储有计算机程序的存储器，其中，C_j为第j个关键特征词，j＝1，2，……，n，n为关键特征词数量，A_3(i2)为第i2个预设热度递增特征词，i2＝1，2，……，m2，m2为预设热度递增特征词数量，当计算机程序被处理器执行时，实现如下步骤：

S10、根据C和A₃，获取C和A₃之间的第三特征相似度D₃，其中，D₃符合如下条件：

D₃＝Σⁿ _j＝1(Σ^m2 _i2＝1E^3j _(i2)/m2)/n，E^3j _(i2)为C_j与A_3(i2)对应的第三词语相似度，第三词语相似度为关键特征词与预设热度递增特征词之间的相似度。

S20、当D₃≤ΔD₃时，获取预设中间周期列表W＝{W₁，W₂，W₃，W₄，W₅}，W₁为第一预设中间周期，W₂为第二预设中间周期，W₃为第三预设中间周期，W₄为第四预设中间周期，W₅为第五预设中间周期，ΔD₃为第三相似度阈值。

S30、根据G_x和W，获取G_x对应的增长率列表W⁰ _x＝{W⁰ _x1，W⁰ _x2，W⁰ _x3，W⁰ _x4}，W⁰ _x1为W⁰ _x中的第一增长率，W⁰ _x2为W⁰ _x中的第二增长率，W⁰ _x3为W⁰ _x中的第三增长率，W⁰ _x4为W⁰ _x中的第四增长率，G_x为目标关键词列表G中的第x个目标关键词，G＝{G₁，G₂，……，G_x，……，G_p}，x＝1，2，……，p，p为目标关键词数量。

S40、根据W⁰ _x1、W⁰ _x2、W⁰ _x3、W⁰ _x4，获取G_x对应的候选权重G⁰ _x。

S50、根据W⁰ _x1、W⁰ _x2、W⁰ _x3、W⁰ _x4和G⁰ _x，获取G_x对应的中间优先级G¹ _x，G¹ _x符合如下条件：

G¹ _x＝logG_x1×(W⁰ _x1+W⁰ _x4×η⁰ _x4+((G_x2-G_x3)/G_x3×100％)×η¹+((G_x3-G_x4)/G_x4×100％)×η²)×

(1+1.5×γ)×((1-G⁰ _x)×1+G⁰ _x×α)，η⁰ _x4为W⁰ _x4对应的第一中间权重，用于表征第四增长率的重要程度，η¹为用于调整中间优先级的第二中间权重，η²为用于调整中间优先级的第三中间权重，γ为用于调整中间优先级的第四中间权重，α为G⁰ _x对应的指定权重，用于根据候选权重的具体值调整中间优先级。

S60、当G¹ _x≥G² _x时，将G_x作为热度递增的热词，G² _x为预设中间优先级阈值。

本发明至少具有以下有益效果：

本发明提供了一种热度递增的热词获取系统，包括：目标文本对应的关键特征词列表、预设热度递增特征词列表、处理器和存储有计算机程序的存储器，当计算机程序被处理器执行时，实现如下步骤：获取关键特征词列表和预设热度递增特征词列表之间的第三特征相似度；当第三特征相似度不大于第三相似度阈值时，获取预设中间周期列表；根据目标关键词和预设中间周期列表，获取目标关键词对应的增长率列表；根据增长率列表中的增长率，获取目标关键词对应的候选权重，进一步地获取目标关键词对应的中间优先级，将中间优先级和预设中间优先级阈值进行对比，确定热度递增的热词。可知，本发明能够根据目标关键词在预设中间周期列表中的预设中间周期中出现的次数确定目标关键词的增长率列表，对目标关键词对应的增长率列表中的增长率以及目标关键词在第一预设中间周期中出现的次数进行对比，确定出热度递增的热词，而非只根据热词的热度值确定热度递增的热词，有利于提高获取热度递增的热词的精准度，进而有利于帮助用户更准确的了解事件的发展趋势。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的一种热度递增的热词获取系统执行计算机程序的流程图。

图2为本发明实施例二提供的一种获取热度稳定的热词的方法的流程图；

图3为本发明实施例三提供的一种获取热度发生波动的热词的数据处理系统执行计算机程序的流程图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例一提供了一种热度递增的热词获取系统，包括：目标文本对应的关键特征词列表C＝{C₁，C₂，……，C_j，……，C_n}、预设热度递增特征词列表A₃＝{A₃₍₁₎，A₃₍₂₎，……，A_3(i2)，……，A_3(m2)}、处理器和存储有计算机程序的存储器，其中，C_j为第j个关键特征词，j＝1，2，……，n，n为关键特征词数量，A_3(i2)为第i2个预设热度递增特征词，i2＝1，2，……，m2，m2为预设热度递增特征词数量，当计算机程序被处理器执行时，实现如下步骤，如图1所示：

D₃＝Σⁿ _j＝1(Σ^m2 _i2＝1E^3j _(i2)/m2)/n，E^3j _(i2)为C_j与A_3(i2)对应的第三词语相似度，第三词语相似度为关键特征词与预设热度递增特征词之间的相似度，其中，本领域技术人员知晓，现有技术中任一获取两个词语的相似度的方法，均属于本发明的保护范围，在此不再赘述，例如：余弦距离、词袋模型、TF-IDF、K-mxans聚类。

具体地，目标文本为用户在系统中输入的能够表达用户需求的文本。

进一步地，目标文本对应的关键特征词为从目标文本中提取出的能够表达目标文本的文本特征的词语，其中，本领域技术人员知晓，现有技术中任一从文本中提取出的能够表达文本特征的词语的方法均属于本发明的保护范围，在此不再赘述，例如：Word2Vx，关联分析法，NLP模型。

具体地，第三词语相似度越小，关键特征词与预设热度递增特征词越相似。

进一步地，第三特征相似度越小，关键特征词列表与预设热度递增特征词列表越相似。

具体地，预设热度递增特征词为预设的能够表征热词的热度快速增长这一特征的词语，例如：猛增、迅速、递增，其中，本领域技术人员知晓，预设热度递增特征词为本领域技术人员根据实际需求预先设置好的词，在此不再赘述。

S20、当D₃≤ΔD₃时，获取预设中间周期列表W＝{W₁，W₂，W₃，W₄，W₅}，W₁为第一预设中间周期，W₂为第二预设中间周期，W₃为第三预设中间周期，W₄为第四预设中间周期，W₅为第五预设中间周期，第二预设中间周期为第一预设中间周期的前一个周期，第三预设中间周期为第二预设中间周期的前一个周期，第四预设中间周期为第三预设中间周期的前一个周期，第五预设中间周期为与第一预设中间周期的时间间隔为一年的周期且第五预设中间周期在第一预设中间周期之前，ΔD₃为第三相似度阈值，其中，本领域技术人员知晓，第一预设中间周期以及第一预设中间周期的长度由本领域技术人员根据实际需求设置，在此不再赘述。

具体地，第一预设中间周期、第二预设中间周期、第三预设中间周期、第四预设中间周期、第五预设中间周期的长度均相同且长度的计量单位为天。

具体地，S20包括如下步骤获取ΔD₃：

a.根据C和预设热度波动特征词列表A₁＝{A₁₁，A₁₂，……，A_1i，……，A_1m}，获取C和A₁之间的第一特征相似度D₁，A_1i为第i个预设热度波动特征词，i＝1，2，……，m，m为预设热度波动特征词数量，其中，D₁符合如下条件：

D₁＝Σⁿ _j＝1(Σ^m _i＝1E^1j _i/m)/n，E^1j _i为C_j与A_1i对应的第一词语相似度，第一词语相似度为关键特征词与预设热度波动特征词之间的相似度，本领域技术人员知晓，获取第一词语相似度的方式与获取第三词语相似度的方式相同，在此不再赘述。

具体地，第一词语相似度越小，关键特征词与预设热度波动特征词越相似。

进一步地，第一特征相似度越小，关键特征词列表与预设热度波动特征词列表越相似。

具体地，预设热度波动特征词为预设的能够表征热词的热度发生微小的上下浮动这一特征的词语，例如：微小变化、忽高忽低、小幅度上升或下降，其中，本领域技术人员知晓，预设热度波动特征词为本领域技术人员根据实际需求预先设置好的词，在此不再赘述。

b.根据C和预设热度稳定特征词列表A₂＝{A₂₍₁₎，A₂₍₂₎，……，A_2(i1)，……，A_2(m1)}，获取C和A₂之间的第二特征相似度D₂，A_2(i1)为第i1个预设热度稳定特征词，i1＝1，2，……，m1，m1为预设热度稳定特征词数量，其中，D₂符合如下条件：

D₂＝Σⁿ _j＝1(Σ^m1 _i1＝1E^2j _(i1)/m1)/n，E^2j _(i1)为C_j与A_2(i1)对应的第二词语相似度，第二词语相似度为关键特征词与预设热度稳定特征词之间的相似度，本领域技术人员知晓，获取第二词语相似度的方式与获取第三词语相似度的方式相同，在此不再赘述。

具体地，第二词语相似度越小，关键特征词与预设热度稳定特征词越相似。

进一步地，第二特征相似度越小，关键特征词列表与预设热度稳定特征词列表越相似。

具体地，预设热度稳定特征词为预设的能够表征热词的热度稳定不变这一特征的词语，例如：稳定、无变化、无波动，其中，本领域技术人员知晓，预设热度稳定特征词为本领域技术人员根据实际需求预先设置好的词，在此不再赘述。

c.根据D₁和D₂，获取ΔD₃，ΔD₃符合如下条件：

ΔD₃＝(D₁+D₂)/2。

上述，当第三特征相似度不大于第一特征相似度与第二特征相似度的和的二分之一时，说明关键特征词列表与预设热度递增特征词列表最相似，进而可以确定出用户的需求为获取热度递增的热词，此时，获取预设中间周期列表，根据目标关键词在第一预设中间周期、第二预设中间周期、第三预设中间周期、第四预设中间周期、第五预设中间周期出现的次数，获取目标关键词对应的增长率列表，对增长率列表中增长率进行分析，获取目标关键词对应的候选权重，进一步地，获取目标关键词对应的中间优先级，对中间优先级进行对比，将近期热度逐渐上升或突然上升的目标关键词作为热度递增的热词，有利于提高获取热度递增的热词的精准度。

具体地，目标关键词为系统中存储的用于获取热词的关键词。

具体地，S30包括如下步骤：

S301、根据G_x、W₁和W₂，获取W⁰ _x1，W⁰ _x1符合如下条件：

W⁰ _x1＝(G_x1-G_x2)/G_x2×100％，其中，G_x1为W₁中G_x在系统中出现的次数，G_x2为W₂中G_x在系统中出现的次数。

S303、根据G_x、G_x1、G_x2和W₃，获取W⁰ _x2，W⁰ _x2符合如下条件：

W⁰ _x2＝(G_x1-(G_x2+G_x3))/(G_x2+G_x3)×100％，其中，G_x3为W₃中G_x在系统中出现的次数。

S305、根据G_x、G_x1、G_x2、G_x3和W₄，获取W⁰ _x3，W⁰ _x3符合如下条件：

W⁰ _x3＝(G_x1-(G_x2+G_x3+G_x4))/(G_x2+G_x3+G_x4)×100％，其中，G_x4为W₄中G_x在系统中出现的次数。

S307、根据G_x、G_x1和W₅，获取W⁰ _x4，W⁰ _x4符合如下条件：

W⁰ _x4＝(G_x1-G_x5)/G_x5×100％，G_x5为W₅中G_x在系统中出现的次数。

上述，根据目标关键词在第一预设中间周期、第二预设中间周期、第三预设中间周期、第四预设中间周期、第五预设中间周期出现的次数，获取目标关键词对应的增长率列表，对增长率列表中增长率进行分析，获取目标关键词对应的候选权重，进一步地，获取目标关键词对应的中间优先级，对中间优先级进行对比，将近期热度逐渐上升或突然上升的目标关键词作为热度递增的热词，有利于提高获取热度递增的热词的精准度。

具体地，S40包括如下步骤：

S401、当W⁰ _x1＜Y且W⁰ _x2＜Y且W⁰ _x3＜Y且W⁰ _x4＜Y或W⁰ _x1+W⁰ _x2+W⁰ _x3+W⁰ _x4＜Y⁰时，生成G_x对应的第一反馈标识为标识“1”，否则，生成G_x对应的第一反馈标识为标识“0”，Y为第一预设增长率，Y⁰为第二预设增长率，本领域技术人员知晓，第一预设增长率和第二与预设增长率由本领域技术人员根据实际需求设置，在此不再赘述。

具体地，第一反馈标识为用于表征增长率是否小于预设增长率阈值的标识。

进一步地，标识“1”表征为：第一增长率、第二增长率、第三增长率、第四增长率均小于第一预设增长率或第一增长率、第二增长率、第三增长率、第四增长率之和小于第二预设增长率。

进一步地，标识“0”表征为：第一增长率、第二增长率、第三增长率、第四增长率均不小于第一预设增长率且第一增长率、第二增长率、第三增长率、第四增长率之和不小于第二预设增长率。

S403、当G_x1＜Y¹时，生成G_x对应的第二反馈标识为标识“-1”，否则，生成G_x对应的第二反馈标识为标识“-2”，Y¹为预设频次值，其中，本领域技术人员知晓，预设频次值由本领域技术人员根据实际需求设置，在此不再赘述。

具体地，第二反馈标识为用于表征第一预设周期中目标关键词在系统中出现的次数是否小于预设频次值的标识。

进一步地，标识“-1”表征为：第一预设周期中目标关键词在系统中出现的次数小于预设频次值的标识。

进一步地，标识“-2”表征为：第一预设周期中目标关键词在系统中出现的次数不小于预设频次值的标识。

S405、当G_x对应的第一反馈标识为标识“1”且G_x对应的第二反馈标识为标识“-1”时，获取G⁰ _x＝0，否则，获取G⁰ _x＝1。

上述，通过对增长率列表中的增长率进行对比，确定目标关键词对应的第一反馈标识，根据第一预设中间周期中目标关键词在系统中出现的次数进行对比，确定目标关键词对应的第二反馈标识，根据第一反馈标识和第二反馈标识，能够精准的确定出目标关键词对应的候选权重，进一步地，获取目标关键词对应的中间优先级，对中间优先级进行对比，将近期热度逐渐上升或突然上升的目标关键词作为热度递增的热词，有利于提高获取热度递增的热词的精准度。

(1+1.5×γ)×((1-G⁰ _x)×1+G⁰ _x×α)，η⁰ _x4为W⁰ _x4对应的第一中间权重，用于表征第四增长率的重要程度，η¹为用于调整中间优先级的第二中间权重，η²为用于调整中间优先级的第三中间权重，γ为用于调整中间优先级的第四中间权重，α为G⁰ _x对应的指定权重，用于根据候选权重的具体值调整中间优先级，其中，本领域技术人员知晓，第一中间权重、第二中间权重、第三中间权重、第四中间权重以及指定权重由本领域技术人员根据实际需求设置，在此不再赘述。

S60、当G¹ _x≥G² _x时，将G_x作为热度递增的热词，G² _x为预设中间优先级阈值，其中，本领域技术人员知晓，预设中间优先级阈值的取值由本领域技术人员根据实际需求设置，在此不再赘述。

上述，当第三特征相似度不大于第一特征相似度与第二特征相似度的和的二分之一时，确定获取热度递增的热词，此时，获取预设中间周期列表，根据目标关键词在第一预设中间周期、第二预设中间周期、第三预设中间周期、第四预设中间周期、第五预设中间周期出现的次数，获取目标关键词对应的增长率列表，对增长率列表中增长率进行分析，确定目标关键词对应的第一反馈标识，根据第一预设中间周期中目标关键词在系统中出现的次数进行对比，确定目标关键词对应的第二反馈标识，根据第一反馈标识和第二反馈标识，能够精准的确定出目标关键词对应的候选权重，进一步地，获取目标关键词对应的中间优先级，对中间优先级进行对比，将近期热度逐渐上升或突然上升的目标关键词作为热度递增的热词，有利于提高获取热度递增的热词的精准度。

实施例二

本实施例二提供了一种获取热度稳定的热词的方法，如图2所示，包括如下步骤：

S100、根据C和A₂，获取D₂，其中，D₂符合如下条件：

D₂＝Σⁿ _j＝1(Σ^m1 _i1＝1E^2j _(i1)/m1)/n，E^2j _(i1)为C_j与A_2(i1)对应的第二词语相似度，第二词语相似度为关键特征词与预设热度稳定特征词之间的相似度。

S200、当D₂≤ΔD₂时，获取预设时间段列表J＝{J₁，J₂，……，J_b，……，J_d}，J_b为第b个预设时间段，b＝1，2，……，d，d为预设时间段数量，其中，△D₂为第二相似度阈值且△D₂符合如下条件：

ΔD₂＝(D₁+D₃)/2，预设时间段长度的计量单位为天，本领域技术人员知晓，预设时间段以及预设时间段的长度由本领域技术人员根据实际需求设置，在此不再赘述。

上述，根据关键特征词与预设热度稳定特征词之间的第二词语相似度，获取关键特征词列表与预设热度稳定特征词列表之间的第二特征相似度，同理，获取关键特征词列表与预设热度波动特征词列表之间的第一特征相似度和关键特征词列表与预设热度递增特征词列表之间的第一特征相似度，当第二特征相似度不大于第一特征相似度与第三特征相似度的和的二分之一时，说明关键特征词列表与预设热度稳定特征词列表最相似，进而可以确定出用户的需求为获取热度稳定的热词，此时，获取预设时间段列表，根据预设时间段列表获取历史时间段列表，根据目标关键词在预设时间段内出现的次数、在历史时间段内出现的次数以及预设时间段对应的预设权重，获取目标关键词对应的第三优先级，对第三优先级进行比对，进一步确定出热度稳定的热词，有利于提高获取热度稳定的热词的精准度，进而使用户更全面的了解事件的本质。

S300、根据J，获取J对应的历史时间段列表J⁰＝{J⁰ ₁，J⁰ ₂，……，J⁰ _b，……，J⁰ _d}，J⁰ _b＝{J⁰ _b1，J⁰ _b2，……，J⁰ _bf，……，J⁰ _bz}，J⁰ _bf为J_b对应的历史时间段列表J⁰ _b中第f个历史时间段，f＝1，2，……，z，z为预设时间段对应的历史时间段数量。

具体地，预设时间段的长度与其对应的历史时间段的长度相同。

进一步地，同一个预设时间段对应的所有历史时间段的长度和为一年。

进一步地，预设时间段对应的最后一个历史时间段的结束时间点为预设时间段的起始时间点。

S400、根据G_x和J_b，获取J_b中G_x对应的第一优先级K^b _x，G_x为目标关键词列表G中的第x个目标关键词，G＝{G₁，G₂，……，G_x，……，G_p}，x＝1，2，……，p，p为目标关键词数量，K^b _x符合如下条件：

K^b _x＝β^b×K^b-1 _x+(1-β^b)×P^b _x，其中，K^b-1 _x为J_b-1中G_x对应的第一优先级，β^b为J_b对应的预设权重，P^b _x为J_b中G_x在系统中出现的次数，其中，当b＝1时，K¹ _x＝β¹+(1-β¹)×P¹ _x，预设权重用于表征预设时间段的重要程度，本领域技术人员知晓，预设权重由本领域技术人员根据实际需求设置，在此不再赘述。

具体地，预设权重越大，预设时间段的重要程度越高。

S500、根据K^b _x和J⁰ _bf，获取J_b中G_x对应的第二优先级K^0b _x，K^0b _x符合如下条件：

K^0b _x＝log(P^b _x×Q^b _x/K^b-1 _x)，Q^b _x为J⁰ _b中包含G_x在系统中出现的时间点的J⁰ _bf的数量，且当b＝1时，K⁰¹ _x＝log(P¹ _x×Q¹ _x)。

S600、根据K^0b _x，获取J_b中G_x对应的第三优先级K^1b _x，K^1b _x符合如下条件：

K^1b _x＝P^b _x/(P^b _x+Σ^p _x＝1P^b _x/p)×K^0b _x+Σ^p _x＝1P^b _x/p/(P^b _x+Σ^p _x＝1P^b _x/p)×(Σ^p _x＝1K^0b _x/p)。

S700、当K^1b _x≥K² _b时，将G_x作为热度稳定的热词，K² _b为J_b对应的预设优先级阈值，其中，本领域技术人员知晓，预设优先级阈值由本领域技术人员根据实际需求设置，在此不再赘述。

现有技术中，获取热度稳定的热词的方法大多为对事件文本进行分析，提取出文本中的关键特征词，对关键特征词在文本中出现的频次值以及关键特征词在预设时间段内出现的频次值进行分析处理，获取关键特征词对应的热度值，将关键特征词对应的热度值与关键特征词的历史热度值进行对比，确定关键特征词是否为热度稳定的热词；现有技术只能获取到短时间内热度较稳定的热词，无法对关键特征词在历史时间段中出现的次数以及预设时间段的重要程度进行分析，获取长时间内热度较稳定的热词，短时间内的热度较稳定的热词相较于长时间内热度较稳定的热词，反映出的事件本质较局限，不够全面，且短时间内热度较稳定的热词数量较多，存在较多含义相同的热词，因此，通过现有技术获取到的热度稳定的热词的精准度较低，反映出的事件的本质不够全面。

上述，获取第二特征相似度，对第二特征相似度进行对比，确定是否需要获取热度稳定的热词，当确定需要获取热度稳定的热词时，根据目标关键词在预设时间段内出现的次数、在历史时间段内出现的次数以及预设时间段对应的预设权重，获取目标关键词对应的第三优先级，对第三优先级进行比对，进一步确定出热度稳定的热词，有利于提高获取热度稳定的热词的精准度，进而使用户更全面的了解事件的本质。

本发明的实施例还提供了一种非瞬时性计算机可读存储介质，该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。

本发明的实施例还提供了一种电子设备，包括处理器和前述的非瞬时性计算机可读存储介质。

本发明的实施例还提供一种计算机程序产品，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。

实施例三

本实施例三提供了一种获取热度发生波动的热词的数据处理系统，包括：目标文本对应的关键特征词列表C＝{C₁，C₂，……，C_j，……，C_n}、预设热度波动特征词列表A₁＝{A₁₁，A₁₂，……，A_1i，……，A_1m}、处理器和存储有计算机程序的存储器，当计算机程序被处理器执行时，实现如下步骤，如图3所示：

S1、根据C和A₁，获取D₁，其中，D₁符合如下条件：

D₁＝Σⁿ _j＝1(Σ^m _i＝1E^1j _i/m)/n，E^1j _i为C_j与A_1i对应的第一词语相似度，第一词语相似度为关键特征词与预设热度波动特征词之间的相似度。

S2、当D₁≤ΔD₁时，获取预设周期列表T＝{T₁，T₂，……，T_g，……，T_h}，T_g＝{T_g1，T_g2，……，T_gr，……，T_gs}，T_gr为第g个预设周期列表T_g中的第r个预设周期，g＝1，2，……，h，h为预设周期列表数量，r＝1，2，……，s，s为预设周期列表中的预设周期数量，ΔD₁为第一相似度阈值且ΔD₁符合如下条件：

ΔD₁＝(D₂+D₃)/2，其中，本领域技术人员知晓，预设周期列表中的预设周期为本领域技术人员根据实际需求预先设置好的周期，在此不再赘述。

具体地，预设周期的计量单位为天。

进一步地，同一个预设周期列表中的任意两个预设周期的长度均相同，任意两个不同的预设周期列表中的预设周期的长度均不相同。

上述，当第一特征相似度不大于第二特征相似度与第三特征相似度的和的二分之一时，说明关键特征词列表与预设热度波动特征词列表最相似，进而可以确定出用户的需求为获取热度发生波动的热词，此时，获取预设周期列表，根据预设周期内目标关键词在系统中出现的次数以及预设关键词，获取第一关键词，根据第一关键词，获取第一字符串，将第一字符串中的空格字符删除，获取第二字符串，对第二字符串的长度进行对比，确定出热度发生波动的热词，有利于提高获取热度发生波动的热词的精准度。

S3、根据目标关键词列表G和T_gr，获取T_gr对应的第一关键词列表H_gr，H_gr中包括若干个第一关键词，G＝{G₁，G₂，……，G_x，……，G_p}，G_x为第x个目标关键词，x＝1，2，……，p，p为目标关键词数量。

具体地，S3包括如下步骤获取H_gr：

S31、获取T_gr中G_x对应的频次值L^x _gr，频次值为在预设周期内目标关键词在系统中出现的次数。

S32、当L^x _gr/(Σ^s _r＝1L^x _gr/s)≥L⁰时，获取T_gr中G_x对应的关键优先级M^x _gr，其中，M^x _gr符合如下条件：

M^x _gr＝log((L^x _gr/(Σ^s _r＝1L^x _gr/s)+e)×(L^x _gr+e)×log10×(Σ^s _r＝1L^x _gr+10))，其中，e为自然常数，L⁰为预设频次比，本领域技术人员知晓，预设频次比由本领域技术人员根据实际需求设置，在此不再赘述。

S33、当L^x _gr/(Σ^s _r＝1L^x _gr/s)＜L⁰时，获取M^x _gr＝0。

S34、当Σ^s _r＝1L^x _gr≥L¹且所有的L^x _gr≥L²且M^x _gr＞M⁰时，将G_x作为T_gr对应的第二关键词，以获取T_gr对应的第二关键词列表N_gr＝{N¹ _gr，N² _gr，……，N^y _gr，……，N^q _gr}，N^y _gr为T_gr对应的第y个第二关键词，y＝1，2，……，q，q为预设周期对应的第二关键词数量，其中，L¹为第一预设频次值，L²为第二预设频次值，M⁰为预设关键优先级阈值，本领域技术人员知晓，第一预设频次值、第二预设频次值以及预设关键优先级阈值由本领域技术人员根据实际需求设置，在此不再赘述。

S35、获取预设关键词列表U＝{U₁，U₂，……，U_a，……，U_c}，U_a为第a个预设关键词，a＝1，2，……，c，c为预设关键词数量，其中，本领域技术人员知晓，预设关键词为本领域技术人员根据实际需求设置的预先设置好的关键词，在此不再赘述。

S36、获取N^y _gr与U_a之间的关键相似度V^ya _gr，关键相似度为第二关键词和预设关键词的相似度，其中，本领域技术人员知晓，获取关键相似度的方式与获取第一词语相似度的方式相同，在此不再赘述。

具体地，关键相似度越小，第二关键词和预设关键词越相似。

S37、当V^ya _gr＞V⁰时，将N^y _gr作为T_gr对应的第一关键词，以获取H_gr，V⁰为预设关键相似度阈值，其中，本领域技术人员知晓，预设关键相似度阈值的具体值由本领域技术人员根据实际需求设置，在此不再赘述。

上述，对每一预设周期内目标关键词在系统中出现的次数进行处理，获取目标关键词对应的关键优先级，将预设周期内目标关键词在系统中出现的次数以及对关键优先级进行比对，确定出第二关键词，将明显不是热词的目标关键词筛选掉，再获取第二关键词与预设关键词之间的关键相似度，对第二关键相似度进行对比，将与预设关键词相同的第二关键词筛选掉，确定出第一关键词，预设关键词可以理解为用户设置的黑名单中的词，有利于提高获取第一关键词的精准度，根据第一关键词，获取热度发生波动的热词，进而有利于提高获取热度发生波动的热词的精准度。

S4、当T⁰ _gr∈[T¹，T²]时，将H_gr中的第一关键词作为第一字符串，以获取第一字符串列表R＝{R₁，R₂，……，R_k，……，R_t}，R_k为第k个第一字符串，k＝1，2，……，t，t为第一字符串数量，其中，T¹为第一预设周期长度，T²为第二预设周期长度，本领域技术人员知晓，本领域技术人员根据实际需求设置第一预设周期长度和第二预设周期长度，在此不再赘述。

S5、将R_k中的空格字符删除，以获取R_k对应的第二字符串R⁰ _k，其中，本领域技术人员知晓，现有技术中任一将字符串中的空格字符删除的方法，均属于被发明的保护范围，在此不再赘述。

S6、当R¹ _k＞0时，将R⁰ _k作为热度发生波动的热词，其中，R¹ _k为R⁰ _k的字符串长度，本领域技术人员知晓，现有技术中任一获取字符串长度的方法，均属于本发明的保护范围，在此不再赘述。

上述，当第一特征相似度不大于第二特征相似度与第三特征相似度的和的二分之一时，确定获取热度发生波动的热词，此时，获取预设周期列表，根据预设周期内目标关键词在系统中出现的次数以及预设关键词，获取第一关键词，根据第一关键词，获取第一字符串，将第一字符串中的空格字符删除，获取第二字符串，对第二字符串的长度进行对比，确定出热度发生波动的热词，对热度发生微小波动的热词进行分析，有利于帮助用户更深入的了解事件的细节，现有技术中，只能将关键词的热度值大于阈值的关键词确定为热词，无法确定出关键词是否为热度值发生微小波动的热词，当用户需要了解事件的细节时，无法获取到热度值发生微小波动的热词，只能获取到热度值大于阈值的热词，因此，上述方法无法满足用户需求且在此需求下用户获取到的热词的精准度较低，相较于现有技术，本发明能够获取热度发生微小波动的热词，能够满足用户的需求，有利于提高在此需求下获取热词的精准度，使用户能够更深入的了解到事件的细节。

具体地，本发明还提供了另一实施例，与上述实施例的区别在于，包括如下步骤获取目标关键词：

S1000、将关键文本输入到预设文本分词模型中，以获取关键文本对应的第一关键词信息列表，第一关键词信息列表中包括若干个第一关键词信息，第一关键词信息包括第一关键词和第一关键词对应的关键词词性，其中，关键文本为用户输入到系统中的需要提取热词的文本，本领域技术人员知晓，预设文本分词模型为本领域技术人员根据实际需求训练好的能够将文本进行分词处理并输出分词信息的NLP模型，在此不再赘述。

具体地，关键词词性包括：名词、动词、形容词等词性。

S2000、将第一关键词信息列表输入到实体识别模型中，获取第一关键词对应的关键词类型，其中，本领域技术人员知晓，现有技术中任一实体识别模型均属于本发明的保护范围，在此不再赘述。

具体地，关键词类型包括：人名、地名、机构名等类型。

S3000、获取预设正则表达式列表AB＝{AB₍₁₎，AB₍₂₎，……，AB_(ai)，……，AB_(am)}，AB_(ai)为第ai个预设正则表达式，ai＝1，2，……，am，am为预设正则表达式数量，预设正则表达式包括预设词语类型或预设词性，其中，本领域技术人员知晓，预设正则表达式与本领域技术人员根据实际需求预先设置好的正则表达式，在此不再赘述。

S4000、根据第一关键词对应的关键词类型、关键词词性和AB_(ai)，获取候选关键词列表AE＝{AE₍₁₎，AE₍₂₎，……，AE_(ae)，……，AE_(af)}，AE_(ae)为第ae个候选关键词，ae＝1，2……，af，af为候选关键词数量。

具体地，S4000包括如下步骤获取AE：

S4100、将第一关键词对应的关键词类型和关键词词性与AB_(ai)进行匹配，以获取AB_(ai)对应的第二关键词列表AC_(ai)，第二关键词列表中包括若干个第二关键词，第二关键词为第一关键词的关键词词性与关键词类型符合AB_(ai)的过滤逻辑的第一关键词。

S4300、获取用户输入的关键正则表达式列表AD＝{AD₍₁₎，AD₍₂₎，……，AD_(aj)，……，AD_(an)}，AD_(aj)为第aj个关键正则表达式，aj＝1，2，……，an，an为关键正则表达式数量。

S4500、当AB_(ai)与AD_(aj)完全相同时，确定AC_(ai)中的第二关键词为第一中间关键词，以获取第一中间关键词列表，第一中间关键词列表中包括若干个第一中间关键词，其中，完全相同可以理解为预设正则表达式和关键正则表达式中的字符一模一样。

S4700、将第一中间关键词列表中的第一中间关键词中的空格字符删除，以获取第二中间关键词列表。

S4900、对第二中间关键词列表进行去重处理，以获取AE。

上述，对关键文本进行处理，获取第一关键词信息和第一关键词对应的关键词类型，根据第一关键词的关键词词性与关键词类型与正则表达式进行匹配获取候选关键词，进而对候选关键词进行处理，获取目标关键词，能够根据文本内容以及用户的需求精准的确定出目标关键词，有利于提高获取目标关键词的精准度。

S5000、根据AE_(ae)，获取目标关键词。

具体地，S5000包括如下步骤：

S5100、获取预设词语类型列表AF＝{AF₍₁₎，AF₍₂₎，……，AF_(ar)，……，AF_(as)}，AF_(ar)为第ar个预设词语类型，ar＝1，2，……，as，as为预设词语类型数量，其中，本领域技术人员知晓，预设词语类型为本领域技术人员根据实际需求预先设置好的词语类型，在此不再赘述。

S5200、获取AE_(ae)对应的中间词语类型AE⁰ _(ae)，中间词语类型为与候选关键词对应的第一中间关键词相同的第一关键词对应的关键词类型。

S5300、获取AE⁰ _(ae)与AF_(ar)之间的类型相似度AG^(ae) _(ar)，其中，词语类型可以理解为标签，本领域技术人员知晓，现有技术中任一获取两个标签之间的相似度的方法，均属于本发明的保护范围，在此不再赘述，例如：余弦相似度。

具体地，类型相似度为1时，中间词语类型和预设词语类型最相似。

S5400、获取预设指定词列表AH＝{AH₍₁₎，AH₍₂₎，……，AH_(ax)，……，AH_(ap)}，AH_(ax)为第ax个预设指定词，ax＝1，2，……，ap，ap为预设指定词数量，其中，本领域技术人员知晓，预设指定词为本领域技术人员根据实际需求预先设置好的词，在此不再赘述。

S5500、获取AE_(ae)与AH_(ax)之间的词语相似度AR^(ae) _(ar)，其中，本领域技术人员知晓，获取词语相似度的方式与获取类型相似度的方式相同，在此不再赘述。

具体地，词语相似度为1时，候选关键词和预设指定词最相似。

S5600、获取预设匹配规则列表AS，预设匹配规则列表中包括若干条预设匹配规则，其中，本领域技术人员知晓，预设匹配规则为本领域技术人员根据实际需求预先设置好的规则，在此不再赘述，例如：关键词中不包括不准确的数字后缀，其中，不准确的数字后缀由本领域技术人员根据实际需求设置。

S5700、当AE_(ae)符合AS中的所有预设匹配规则时，生成AE_(ae)对应的第一标识为标识“2”，否则，生成AE_(ae)对应的第一标识为标识“3”，其中，本领域技术人员知晓，现有技术中任一确定关键词是否符合匹配规则的方法，均属于本发明的保护范围，在此不再赘述。

具体地，第一标识为表征候选关键词是否符合所有的预设匹配规则的标识。

具体地，标识“2”表征为：候选关键词符合所有的预设匹配规则。

进一步地，标识“3”表征为：候选关键词符合所有的预设匹配规则。

S5800、当AE_(ae)对应的任一AG^(ae) _(ar)＝1且任一AR^(ae) _(ar)＝1且第一标识为标识“2”且length_(ae)≥length⁰时，将AE_(ae)作为目标关键词，length_(ae)为关键词的长度，length⁰为预设关键词长度，其中，本领域技术人员知晓，预设关键词长度由本领域技术人员根据实际需求设置，在此不再赘述。

现有技术中，大多通过TF-IDF获取关键词，无法根据文本内容以及用户需求获取关键词，上述，对关键文本进行处理，获取第一关键词信息和第一关键词对应的关键词类型，根据第一关键词的关键词词性与关键词类型与正则表达式进行匹配获取候选关键词，对候选关键词进行处理，获取目标关键词，能够根据文本内容以及用户的需求精准的确定出目标关键词，有利于提高获取目标关键词的精准度。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。

Claims

1.一种热度递增的热词获取系统，其特征在于，所述系统包括：目标文本对应的关键特征词列表C＝{C₁，C₂，……，C_j，……，C_n}、预设热度递增特征词列表A₃＝{A₃₍₁₎，A₃₍₂₎，……，A_3(i2)，……，A_3(m2)}、处理器和存储有计算机程序的存储器，其中，C_j为第j个关键特征词，j＝1，2，……，n，n为关键特征词数量，A_3(i2)为第i2个预设热度递增特征词，i2＝1，2，……，m2，m2为预设热度递增特征词数量，当计算机程序被处理器执行时，实现如下步骤：

D₃＝Σⁿ _j＝1(Σ^m2 _i2＝1E^3j _(i2)/m2)/n，E^3j _(i2)为C_j与A_3(i2)对应的第三词语相似度，第三词语相似度为关键特征词与预设热度递增特征词之间的相似度；

S20、当D₃≤ΔD₃时，获取预设中间周期列表W＝{W₁，W₂，W₃，W₄，W₅}，W₁为第一预设中间周期，W₂为第二预设中间周期，W₃为第三预设中间周期，W₄为第四预设中间周期，W₅为第五预设中间周期，ΔD₃为第三相似度阈值；

S30、根据G_x和W，获取G_x对应的增长率列表W⁰ _x＝{W⁰ _x1，W⁰ _x2，W⁰ _x3，W⁰ _x4}，W⁰ _x1为W⁰ _x中的第一增长率，W⁰ _x2为W⁰ _x中的第二增长率，W⁰ _x3为W⁰ _x中的第三增长率，W⁰ _x4为W⁰ _x中的第四增长率，G_x为目标关键词列表G中的第x个目标关键词，G＝{G₁，G₂，……，G_x，……，G_p}，x＝1，2，……，p，p为目标关键词数量；S30包括如下步骤：

S301、根据G_x、W₁和W₂，获取W⁰ _x1，W⁰ _x1符合如下条件：

W⁰ _x1＝(G_x1-G_x2)/G_x2×100％，其中，G_x1为W₁中G_x在系统中出现的次数，G_x2为W₂中G_x在系统中出现的次数；

W⁰ _x2＝(G_x1-(G_x2+G_x3))/(G_x2+G_x3)×100％，其中，G_x3为W₃中G_x在系统中出现的次数；

W⁰ _x3＝(G_x1-(G_x2+G_x3+G_x4))/(G_x2+G_x3+G_x4)×100％，其中，G_x4为W₄中G_x在系统中出现的次数；

S307、根据G_x、G_x1和W₅，获取W⁰ _x4，W⁰ _x4符合如下条件：

W⁰ _x4＝(G_x1-G_x5)/G_x5×100％，G_x5为W₅中G_x在系统中出现的次数；

S40、根据W⁰ _x1、W⁰ _x2、W⁰ _x3、W⁰ _x4，获取G_x对应的候选权重G⁰ _x；

(1+1.5×γ)×((1-G⁰ _x)×1+G⁰ _x×α)，η⁰ _x4为W⁰ _x4对应的第一中间权重，用于表征第四增长率的重要程度，η¹为用于调整中间优先级的第二中间权重，η²为用于调整中间优先级的第三中间权重，γ为用于调整中间优先级的第四中间权重，α为G⁰ _x对应的指定权重，用于根据候选权重的具体值调整中间优先级；

2.根据权利要求1所述的热度递增的热词获取系统，其特征在于，S20包括如下步骤获取ΔD₃：

D₁＝Σⁿ _j＝1(Σ^m _i＝1E^1j _i/m)/n，E^1j _i为C_j与A_1i对应的第一词语相似度，第一词语相似度为关键特征词与预设热度波动特征词之间的相似度；

D₂＝Σⁿ _j＝1(Σ^m1 _i1＝1E^2j _(i1)/m1)/n，E^2j _(i1)为C_j与A_2(i1)对应的第二词语相似度，第二词语相似度为关键特征词与预设热度稳定特征词之间的相似度；

c.根据D₁和D₂，获取ΔD₃，ΔD₃符合如下条件：

ΔD₃＝(D₁+D₂)/2。

3.根据权利要求1所述的热度递增的热词获取系统，其特征在于，S40包括如下步骤：

S401、当W⁰ _x1＜Y且W⁰ _x2＜Y且W⁰ _x3＜Y且W⁰ _x4＜Y或W⁰ _x1+W⁰ _x2+W⁰ _x3+W⁰ _x4＜Y⁰时，生成G_x对应的第一反馈标识为标识“1”，否则，生成G_x对应的第一反馈标识为标识“0”，Y为第一预设增长率，Y⁰为第二预设增长率；

S403、当G_x1＜Y¹时，生成G_x对应的第二反馈标识为标识“-1”，否则，生成G_x对应的第二反馈标识为标识“-2”，Y¹为预设频次值；

4.根据权利要求1所述的热度递增的热词获取系统，其特征在于，目标文本为用户在系统中输入的能够表达用户需求的文本。

5.根据权利要求4所述的热度递增的热词获取系统，其特征在于，目标文本对应的关键特征词为从目标文本中提取出的能够表达目标文本的文本特征的词语。

6.根据权利要求1所述的热度递增的热词获取系统，其特征在于，预设热度递增特征词为预设的能够表征热词的热度快速增长这一特征的词语。

7.根据权利要求1所述的热度递增的热词获取系统，其特征在于，第一预设中间周期、第二预设中间周期、第三预设中间周期、第四预设中间周期、第五预设中间周期的长度均相同且长度的计量单位为天。

8.根据权利要求3所述的热度递增的热词获取系统，其特征在于，第一反馈标识为用于表征增长率是否小于预设增长率阈值的标识。

9.根据权利要求3所述的热度递增的热词获取系统，其特征在于，第二反馈标识为用于表征第一预设周期中目标关键词在系统中出现的次数是否小于预设频次值的标识。