CN117371436B - 一种热度递增的热词获取系统 - Google Patents

一种热度递增的热词获取系统 Download PDF

Info

Publication number
CN117371436B
CN117371436B CN202311300672.XA CN202311300672A CN117371436B CN 117371436 B CN117371436 B CN 117371436B CN 202311300672 A CN202311300672 A CN 202311300672A CN 117371436 B CN117371436 B CN 117371436B
Authority
CN
China
Prior art keywords
preset
heat
list
word
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311300672.XA
Other languages
English (en)
Other versions
CN117371436A (zh
Inventor
石江枫
于伟
靳雯
王全修
赵洲洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rizhao Ruian Information Technology Co ltd
Beijing Rich Information Technology Co ltd
Original Assignee
Rizhao Ruian Information Technology Co ltd
Beijing Rich Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rizhao Ruian Information Technology Co ltd, Beijing Rich Information Technology Co ltd filed Critical Rizhao Ruian Information Technology Co ltd
Priority to CN202311300672.XA priority Critical patent/CN117371436B/zh
Publication of CN117371436A publication Critical patent/CN117371436A/zh
Application granted granted Critical
Publication of CN117371436B publication Critical patent/CN117371436B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种热度递增的热词获取系统,包括:目标文本对应的关键特征词列表、预设热度递增特征词列表、处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现如下步骤:获取第三特征相似度;当第三特征相似度不大于第三相似度阈值时,获取预设中间周期列表;根据目标关键词和预设中间周期列表,获取增长率列表;根据增长率,获取目标关键词对应的候选权重,进一步地获取目标关键词对应的中间优先级,将中间优先级和预设中间优先级阈值进行对比,确定热度递增的热词。可知,本发明能够根据目标关键词对应的增长率和目标关键词在第一预设中间周期中出现的次数,确定出热度递增的热词,有利于提高获取热度递增的热词的精准度。

Description

一种热度递增的热词获取系统
技术领域
本发明涉及热词技术领域,特别是涉及一种热度递增的热词获取系统。
背景技术
热词为热门词汇,随着计算机网络的快速发展,热词的数量逐渐增多,热词能够很好的反映出一些事件的发展趋势,对热词进行分析,有利于用户更全面的了解事件的本质、细节或事件发展的趋势,热词的热度会跟随着时间的演变而发生变化,对热度递增的热词进行分析,有利于帮助用户了解事件发展的趋势,现有技术中,确定热度递增的热词的方法为实时监控热词的热度值,当热度值实时发生增长,则将所述热词确定为热度递增的热词。
但是上述方法存在以下技术问题:
实时监控热词的热度值,无法对关键词出现的频次以及出现频次对应的增长率进行分析,存在较短时间内热词为热度递增的热词但较长时间内热词非热度递增的热词的情况,因此,通过上述方法获取到的热度递增的热词的精准度较低。
发明内容
针对上述技术问题,本发明采用的技术方案为:
一种热度递增的热词获取系统,包括:目标文本对应的关键特征词列表C={C1,C2,……,Cj,……,Cn}、预设热度递增特征词列表A3={A3(1),A3(2),……,A3(i2),……,A3(m2)}、处理器和存储有计算机程序的存储器,其中,Cj为第j个关键特征词,j=1,2,……,n,n为关键特征词数量,A3(i2)为第i2个预设热度递增特征词,i2=1,2,……,m2,m2为预设热度递增特征词数量,当计算机程序被处理器执行时,实现如下步骤:
S10、根据C和A3,获取C和A3之间的第三特征相似度D3,其中,D3符合如下条件:
D3=Σn j=1m2 i2=1E3j (i2)/m2)/n,E3j (i2)为Cj与A3(i2)对应的第三词语相似度,第三词语相似度为关键特征词与预设热度递增特征词之间的相似度。
S20、当D3≤ΔD3时,获取预设中间周期列表W={W1,W2,W3,W4,W5},W1为第一预设中间周期,W2为第二预设中间周期,W3为第三预设中间周期,W4为第四预设中间周期,W5为第五预设中间周期,ΔD3为第三相似度阈值。
S30、根据Gx和W,获取Gx对应的增长率列表W0 x={W0 x1,W0 x2,W0 x3,W0 x4},W0 x1为W0 x中的第一增长率,W0 x2为W0 x中的第二增长率,W0 x3为W0 x中的第三增长率,W0 x4为W0 x中的第四增长率,Gx为目标关键词列表G中的第x个目标关键词,G={G1,G2,……,Gx,……,Gp},x=1,2,……,p,p为目标关键词数量。
S40、根据W0 x1、W0 x2、W0 x3、W0 x4,获取Gx对应的候选权重G0 x
S50、根据W0 x1、W0 x2、W0 x3、W0 x4和G0 x,获取Gx对应的中间优先级G1 x,G1 x符合如下条件:
G1 x=logGx1×(W0 x1+W0 x4×η0 x4+((Gx2-Gx3)/Gx3×100%)×η1+((Gx3-Gx4)/Gx4×100%)×η2
(1+1.5×γ)×((1-G0 x)×1+G0 x×α),η0 x4为W0 x4对应的第一中间权重,用于表征第四增长率的重要程度,η1为用于调整中间优先级的第二中间权重,η2为用于调整中间优先级的第三中间权重,γ为用于调整中间优先级的第四中间权重,α为G0 x对应的指定权重,用于根据候选权重的具体值调整中间优先级。
S60、当G1 x≥G2 x时,将Gx作为热度递增的热词,G2 x为预设中间优先级阈值。
本发明至少具有以下有益效果:
本发明提供了一种热度递增的热词获取系统,包括:目标文本对应的关键特征词列表、预设热度递增特征词列表、处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现如下步骤:获取关键特征词列表和预设热度递增特征词列表之间的第三特征相似度;当第三特征相似度不大于第三相似度阈值时,获取预设中间周期列表;根据目标关键词和预设中间周期列表,获取目标关键词对应的增长率列表;根据增长率列表中的增长率,获取目标关键词对应的候选权重,进一步地获取目标关键词对应的中间优先级,将中间优先级和预设中间优先级阈值进行对比,确定热度递增的热词。可知,本发明能够根据目标关键词在预设中间周期列表中的预设中间周期中出现的次数确定目标关键词的增长率列表,对目标关键词对应的增长率列表中的增长率以及目标关键词在第一预设中间周期中出现的次数进行对比,确定出热度递增的热词,而非只根据热词的热度值确定热度递增的热词,有利于提高获取热度递增的热词的精准度,进而有利于帮助用户更准确的了解事件的发展趋势。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的一种热度递增的热词获取系统执行计算机程序的流程图。
图2为本发明实施例二提供的一种获取热度稳定的热词的方法的流程图;
图3为本发明实施例三提供的一种获取热度发生波动的热词的数据处理系统执行计算机程序的流程图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本实施例一提供了一种热度递增的热词获取系统,包括:目标文本对应的关键特征词列表C={C1,C2,……,Cj,……,Cn}、预设热度递增特征词列表A3={A3(1),A3(2),……,A3(i2),……,A3(m2)}、处理器和存储有计算机程序的存储器,其中,Cj为第j个关键特征词,j=1,2,……,n,n为关键特征词数量,A3(i2)为第i2个预设热度递增特征词,i2=1,2,……,m2,m2为预设热度递增特征词数量,当计算机程序被处理器执行时,实现如下步骤,如图1所示:
S10、根据C和A3,获取C和A3之间的第三特征相似度D3,其中,D3符合如下条件:
D3=Σn j=1m2 i2=1E3j (i2)/m2)/n,E3j (i2)为Cj与A3(i2)对应的第三词语相似度,第三词语相似度为关键特征词与预设热度递增特征词之间的相似度,其中,本领域技术人员知晓,现有技术中任一获取两个词语的相似度的方法,均属于本发明的保护范围,在此不再赘述,例如:余弦距离、词袋模型、TF-IDF、K-mxans聚类。
具体地,目标文本为用户在系统中输入的能够表达用户需求的文本。
进一步地,目标文本对应的关键特征词为从目标文本中提取出的能够表达目标文本的文本特征的词语,其中,本领域技术人员知晓,现有技术中任一从文本中提取出的能够表达文本特征的词语的方法均属于本发明的保护范围,在此不再赘述,例如:Word2Vx,关联分析法,NLP模型。
具体地,第三词语相似度越小,关键特征词与预设热度递增特征词越相似。
进一步地,第三特征相似度越小,关键特征词列表与预设热度递增特征词列表越相似。
具体地,预设热度递增特征词为预设的能够表征热词的热度快速增长这一特征的词语,例如:猛增、迅速、递增,其中,本领域技术人员知晓,预设热度递增特征词为本领域技术人员根据实际需求预先设置好的词,在此不再赘述。
S20、当D3≤ΔD3时,获取预设中间周期列表W={W1,W2,W3,W4,W5},W1为第一预设中间周期,W2为第二预设中间周期,W3为第三预设中间周期,W4为第四预设中间周期,W5为第五预设中间周期,第二预设中间周期为第一预设中间周期的前一个周期,第三预设中间周期为第二预设中间周期的前一个周期,第四预设中间周期为第三预设中间周期的前一个周期,第五预设中间周期为与第一预设中间周期的时间间隔为一年的周期且第五预设中间周期在第一预设中间周期之前,ΔD3为第三相似度阈值,其中,本领域技术人员知晓,第一预设中间周期以及第一预设中间周期的长度由本领域技术人员根据实际需求设置,在此不再赘述。
具体地,第一预设中间周期、第二预设中间周期、第三预设中间周期、第四预设中间周期、第五预设中间周期的长度均相同且长度的计量单位为天。
具体地,S20包括如下步骤获取ΔD3
a.根据C和预设热度波动特征词列表A1={A11,A12,……,A1i,……,A1m},获取C和A1之间的第一特征相似度D1,A1i为第i个预设热度波动特征词,i=1,2,……,m,m为预设热度波动特征词数量,其中,D1符合如下条件:
D1=Σn j=1m i=1E1j i/m)/n,E1j i为Cj与A1i对应的第一词语相似度,第一词语相似度为关键特征词与预设热度波动特征词之间的相似度,本领域技术人员知晓,获取第一词语相似度的方式与获取第三词语相似度的方式相同,在此不再赘述。
具体地,第一词语相似度越小,关键特征词与预设热度波动特征词越相似。
进一步地,第一特征相似度越小,关键特征词列表与预设热度波动特征词列表越相似。
具体地,预设热度波动特征词为预设的能够表征热词的热度发生微小的上下浮动这一特征的词语,例如:微小变化、忽高忽低、小幅度上升或下降,其中,本领域技术人员知晓,预设热度波动特征词为本领域技术人员根据实际需求预先设置好的词,在此不再赘述。
b.根据C和预设热度稳定特征词列表A2={A2(1),A2(2),……,A2(i1),……,A2(m1)},获取C和A2之间的第二特征相似度D2,A2(i1)为第i1个预设热度稳定特征词,i1=1,2,……,m1,m1为预设热度稳定特征词数量,其中,D2符合如下条件:
D2=Σn j=1m1 i1=1E2j (i1)/m1)/n,E2j (i1)为Cj与A2(i1)对应的第二词语相似度,第二词语相似度为关键特征词与预设热度稳定特征词之间的相似度,本领域技术人员知晓,获取第二词语相似度的方式与获取第三词语相似度的方式相同,在此不再赘述。
具体地,第二词语相似度越小,关键特征词与预设热度稳定特征词越相似。
进一步地,第二特征相似度越小,关键特征词列表与预设热度稳定特征词列表越相似。
具体地,预设热度稳定特征词为预设的能够表征热词的热度稳定不变这一特征的词语,例如:稳定、无变化、无波动,其中,本领域技术人员知晓,预设热度稳定特征词为本领域技术人员根据实际需求预先设置好的词,在此不再赘述。
c.根据D1和D2,获取ΔD3,ΔD3符合如下条件:
ΔD3=(D1+D2)/2。
上述,当第三特征相似度不大于第一特征相似度与第二特征相似度的和的二分之一时,说明关键特征词列表与预设热度递增特征词列表最相似,进而可以确定出用户的需求为获取热度递增的热词,此时,获取预设中间周期列表,根据目标关键词在第一预设中间周期、第二预设中间周期、第三预设中间周期、第四预设中间周期、第五预设中间周期出现的次数,获取目标关键词对应的增长率列表,对增长率列表中增长率进行分析,获取目标关键词对应的候选权重,进一步地,获取目标关键词对应的中间优先级,对中间优先级进行对比,将近期热度逐渐上升或突然上升的目标关键词作为热度递增的热词,有利于提高获取热度递增的热词的精准度。
S30、根据Gx和W,获取Gx对应的增长率列表W0 x={W0 x1,W0 x2,W0 x3,W0 x4},W0 x1为W0 x中的第一增长率,W0 x2为W0 x中的第二增长率,W0 x3为W0 x中的第三增长率,W0 x4为W0 x中的第四增长率,Gx为目标关键词列表G中的第x个目标关键词,G={G1,G2,……,Gx,……,Gp},x=1,2,……,p,p为目标关键词数量。
具体地,目标关键词为系统中存储的用于获取热词的关键词。
具体地,S30包括如下步骤:
S301、根据Gx、W1和W2,获取W0 x1,W0 x1符合如下条件:
W0 x1=(Gx1-Gx2)/Gx2×100%,其中,Gx1为W1中Gx在系统中出现的次数,Gx2为W2中Gx在系统中出现的次数。
S303、根据Gx、Gx1、Gx2和W3,获取W0 x2,W0 x2符合如下条件:
W0 x2=(Gx1-(Gx2+Gx3))/(Gx2+Gx3)×100%,其中,Gx3为W3中Gx在系统中出现的次数。
S305、根据Gx、Gx1、Gx2、Gx3和W4,获取W0 x3,W0 x3符合如下条件:
W0 x3=(Gx1-(Gx2+Gx3+Gx4))/(Gx2+Gx3+Gx4)×100%,其中,Gx4为W4中Gx在系统中出现的次数。
S307、根据Gx、Gx1和W5,获取W0 x4,W0 x4符合如下条件:
W0 x4=(Gx1-Gx5)/Gx5×100%,Gx5为W5中Gx在系统中出现的次数。
上述,根据目标关键词在第一预设中间周期、第二预设中间周期、第三预设中间周期、第四预设中间周期、第五预设中间周期出现的次数,获取目标关键词对应的增长率列表,对增长率列表中增长率进行分析,获取目标关键词对应的候选权重,进一步地,获取目标关键词对应的中间优先级,对中间优先级进行对比,将近期热度逐渐上升或突然上升的目标关键词作为热度递增的热词,有利于提高获取热度递增的热词的精准度。
S40、根据W0 x1、W0 x2、W0 x3、W0 x4,获取Gx对应的候选权重G0 x
具体地,S40包括如下步骤:
S401、当W0 x1<Y且W0 x2<Y且W0 x3<Y且W0 x4<Y或W0 x1+W0 x2+W0 x3+W0 x4<Y0时,生成Gx对应的第一反馈标识为标识“1”,否则,生成Gx对应的第一反馈标识为标识“0”,Y为第一预设增长率,Y0为第二预设增长率,本领域技术人员知晓,第一预设增长率和第二与预设增长率由本领域技术人员根据实际需求设置,在此不再赘述。
具体地,第一反馈标识为用于表征增长率是否小于预设增长率阈值的标识。
进一步地,标识“1”表征为:第一增长率、第二增长率、第三增长率、第四增长率均小于第一预设增长率或第一增长率、第二增长率、第三增长率、第四增长率之和小于第二预设增长率。
进一步地,标识“0”表征为:第一增长率、第二增长率、第三增长率、第四增长率均不小于第一预设增长率且第一增长率、第二增长率、第三增长率、第四增长率之和不小于第二预设增长率。
S403、当Gx1<Y1时,生成Gx对应的第二反馈标识为标识“-1”,否则,生成Gx对应的第二反馈标识为标识“-2”,Y1为预设频次值,其中,本领域技术人员知晓,预设频次值由本领域技术人员根据实际需求设置,在此不再赘述。
具体地,第二反馈标识为用于表征第一预设周期中目标关键词在系统中出现的次数是否小于预设频次值的标识。
进一步地,标识“-1”表征为:第一预设周期中目标关键词在系统中出现的次数小于预设频次值的标识。
进一步地,标识“-2”表征为:第一预设周期中目标关键词在系统中出现的次数不小于预设频次值的标识。
S405、当Gx对应的第一反馈标识为标识“1”且Gx对应的第二反馈标识为标识“-1”时,获取G0 x=0,否则,获取G0 x=1。
上述,通过对增长率列表中的增长率进行对比,确定目标关键词对应的第一反馈标识,根据第一预设中间周期中目标关键词在系统中出现的次数进行对比,确定目标关键词对应的第二反馈标识,根据第一反馈标识和第二反馈标识,能够精准的确定出目标关键词对应的候选权重,进一步地,获取目标关键词对应的中间优先级,对中间优先级进行对比,将近期热度逐渐上升或突然上升的目标关键词作为热度递增的热词,有利于提高获取热度递增的热词的精准度。
S50、根据W0 x1、W0 x2、W0 x3、W0 x4和G0 x,获取Gx对应的中间优先级G1 x,G1 x符合如下条件:
G1 x=logGx1×(W0 x1+W0 x4×η0 x4+((Gx2-Gx3)/Gx3×100%)×η1+((Gx3-Gx4)/Gx4×100%)×η2
(1+1.5×γ)×((1-G0 x)×1+G0 x×α),η0 x4为W0 x4对应的第一中间权重,用于表征第四增长率的重要程度,η1为用于调整中间优先级的第二中间权重,η2为用于调整中间优先级的第三中间权重,γ为用于调整中间优先级的第四中间权重,α为G0 x对应的指定权重,用于根据候选权重的具体值调整中间优先级,其中,本领域技术人员知晓,第一中间权重、第二中间权重、第三中间权重、第四中间权重以及指定权重由本领域技术人员根据实际需求设置,在此不再赘述。
S60、当G1 x≥G2 x时,将Gx作为热度递增的热词,G2 x为预设中间优先级阈值,其中,本领域技术人员知晓,预设中间优先级阈值的取值由本领域技术人员根据实际需求设置,在此不再赘述。
上述,当第三特征相似度不大于第一特征相似度与第二特征相似度的和的二分之一时,确定获取热度递增的热词,此时,获取预设中间周期列表,根据目标关键词在第一预设中间周期、第二预设中间周期、第三预设中间周期、第四预设中间周期、第五预设中间周期出现的次数,获取目标关键词对应的增长率列表,对增长率列表中增长率进行分析,确定目标关键词对应的第一反馈标识,根据第一预设中间周期中目标关键词在系统中出现的次数进行对比,确定目标关键词对应的第二反馈标识,根据第一反馈标识和第二反馈标识,能够精准的确定出目标关键词对应的候选权重,进一步地,获取目标关键词对应的中间优先级,对中间优先级进行对比,将近期热度逐渐上升或突然上升的目标关键词作为热度递增的热词,有利于提高获取热度递增的热词的精准度。
本发明提供了一种热度递增的热词获取系统,包括:目标文本对应的关键特征词列表、预设热度递增特征词列表、处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现如下步骤:获取关键特征词列表和预设热度递增特征词列表之间的第三特征相似度;当第三特征相似度不大于第三相似度阈值时,获取预设中间周期列表;根据目标关键词和预设中间周期列表,获取目标关键词对应的增长率列表;根据增长率列表中的增长率,获取目标关键词对应的候选权重,进一步地获取目标关键词对应的中间优先级,将中间优先级和预设中间优先级阈值进行对比,确定热度递增的热词。可知,本发明能够根据目标关键词在预设中间周期列表中的预设中间周期中出现的次数确定目标关键词的增长率列表,对目标关键词对应的增长率列表中的增长率以及目标关键词在第一预设中间周期中出现的次数进行对比,确定出热度递增的热词,而非只根据热词的热度值确定热度递增的热词,有利于提高获取热度递增的热词的精准度,进而有利于帮助用户更准确的了解事件的发展趋势。
实施例二
本实施例二提供了一种获取热度稳定的热词的方法,如图2所示,包括如下步骤:
S100、根据C和A2,获取D2,其中,D2符合如下条件:
D2=Σn j=1m1 i1=1E2j (i1)/m1)/n,E2j (i1)为Cj与A2(i1)对应的第二词语相似度,第二词语相似度为关键特征词与预设热度稳定特征词之间的相似度。
S200、当D2≤ΔD2时,获取预设时间段列表J={J1,J2,……,Jb,……,Jd},Jb为第b个预设时间段,b=1,2,……,d,d为预设时间段数量,其中,△D2为第二相似度阈值且△D2符合如下条件:
ΔD2=(D1+D3)/2,预设时间段长度的计量单位为天,本领域技术人员知晓,预设时间段以及预设时间段的长度由本领域技术人员根据实际需求设置,在此不再赘述。
上述,根据关键特征词与预设热度稳定特征词之间的第二词语相似度,获取关键特征词列表与预设热度稳定特征词列表之间的第二特征相似度,同理,获取关键特征词列表与预设热度波动特征词列表之间的第一特征相似度和关键特征词列表与预设热度递增特征词列表之间的第一特征相似度,当第二特征相似度不大于第一特征相似度与第三特征相似度的和的二分之一时,说明关键特征词列表与预设热度稳定特征词列表最相似,进而可以确定出用户的需求为获取热度稳定的热词,此时,获取预设时间段列表,根据预设时间段列表获取历史时间段列表,根据目标关键词在预设时间段内出现的次数、在历史时间段内出现的次数以及预设时间段对应的预设权重,获取目标关键词对应的第三优先级,对第三优先级进行比对,进一步确定出热度稳定的热词,有利于提高获取热度稳定的热词的精准度,进而使用户更全面的了解事件的本质。
S300、根据J,获取J对应的历史时间段列表J0={J0 1,J0 2,……,J0 b,……,J0 d},J0 b={J0 b1,J0 b2,……,J0 bf,……,J0 bz},J0 bf为Jb对应的历史时间段列表J0 b中第f个历史时间段,f=1,2,……,z,z为预设时间段对应的历史时间段数量。
具体地,预设时间段的长度与其对应的历史时间段的长度相同。
进一步地,同一个预设时间段对应的所有历史时间段的长度和为一年。
进一步地,预设时间段对应的最后一个历史时间段的结束时间点为预设时间段的起始时间点。
S400、根据Gx和Jb,获取Jb中Gx对应的第一优先级Kb x,Gx为目标关键词列表G中的第x个目标关键词,G={G1,G2,……,Gx,……,Gp},x=1,2,……,p,p为目标关键词数量,Kb x符合如下条件:
Kb x=βb×Kb-1 x+(1-βb)×Pb x,其中,Kb-1 x为Jb-1中Gx对应的第一优先级,βb为Jb对应的预设权重,Pb x为Jb中Gx在系统中出现的次数,其中,当b=1时,K1 x=β1+(1-β1)×P1 x,预设权重用于表征预设时间段的重要程度,本领域技术人员知晓,预设权重由本领域技术人员根据实际需求设置,在此不再赘述。
具体地,预设权重越大,预设时间段的重要程度越高。
S500、根据Kb x和J0 bf,获取Jb中Gx对应的第二优先级K0b x,K0b x符合如下条件:
K0b x=log(Pb x×Qb x/Kb-1 x),Qb x为J0 b中包含Gx在系统中出现的时间点的J0 bf的数量,且当b=1时,K01 x=log(P1 x×Q1 x)。
S600、根据K0b x,获取Jb中Gx对应的第三优先级K1b x,K1b x符合如下条件:
K1b x=Pb x/(Pb xp x=1Pb x/p)×K0b xp x=1Pb x/p/(Pb xp x=1Pb x/p)×(Σp x=1K0b x/p)。
S700、当K1b x≥K2 b时,将Gx作为热度稳定的热词,K2 b为Jb对应的预设优先级阈值,其中,本领域技术人员知晓,预设优先级阈值由本领域技术人员根据实际需求设置,在此不再赘述。
现有技术中,获取热度稳定的热词的方法大多为对事件文本进行分析,提取出文本中的关键特征词,对关键特征词在文本中出现的频次值以及关键特征词在预设时间段内出现的频次值进行分析处理,获取关键特征词对应的热度值,将关键特征词对应的热度值与关键特征词的历史热度值进行对比,确定关键特征词是否为热度稳定的热词;现有技术只能获取到短时间内热度较稳定的热词,无法对关键特征词在历史时间段中出现的次数以及预设时间段的重要程度进行分析,获取长时间内热度较稳定的热词,短时间内的热度较稳定的热词相较于长时间内热度较稳定的热词,反映出的事件本质较局限,不够全面,且短时间内热度较稳定的热词数量较多,存在较多含义相同的热词,因此,通过现有技术获取到的热度稳定的热词的精准度较低,反映出的事件的本质不够全面。
上述,获取第二特征相似度,对第二特征相似度进行对比,确定是否需要获取热度稳定的热词,当确定需要获取热度稳定的热词时,根据目标关键词在预设时间段内出现的次数、在历史时间段内出现的次数以及预设时间段对应的预设权重,获取目标关键词对应的第三优先级,对第三优先级进行比对,进一步确定出热度稳定的热词,有利于提高获取热度稳定的热词的精准度,进而使用户更全面的了解事件的本质。
本发明的实施例还提供了一种非瞬时性计算机可读存储介质,该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。
本发明的实施例还提供了一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。
本发明的实施例还提供一种计算机程序产品,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。
实施例三
本实施例三提供了一种获取热度发生波动的热词的数据处理系统,包括:目标文本对应的关键特征词列表C={C1,C2,……,Cj,……,Cn}、预设热度波动特征词列表A1={A11,A12,……,A1i,……,A1m}、处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现如下步骤,如图3所示:
S1、根据C和A1,获取D1,其中,D1符合如下条件:
D1=Σn j=1m i=1E1j i/m)/n,E1j i为Cj与A1i对应的第一词语相似度,第一词语相似度为关键特征词与预设热度波动特征词之间的相似度。
S2、当D1≤ΔD1时,获取预设周期列表T={T1,T2,……,Tg,……,Th},Tg={Tg1,Tg2,……,Tgr,……,Tgs},Tgr为第g个预设周期列表Tg中的第r个预设周期,g=1,2,……,h,h为预设周期列表数量,r=1,2,……,s,s为预设周期列表中的预设周期数量,ΔD1为第一相似度阈值且ΔD1符合如下条件:
ΔD1=(D2+D3)/2,其中,本领域技术人员知晓,预设周期列表中的预设周期为本领域技术人员根据实际需求预先设置好的周期,在此不再赘述。
具体地,预设周期的计量单位为天。
进一步地,同一个预设周期列表中的任意两个预设周期的长度均相同,任意两个不同的预设周期列表中的预设周期的长度均不相同。
上述,当第一特征相似度不大于第二特征相似度与第三特征相似度的和的二分之一时,说明关键特征词列表与预设热度波动特征词列表最相似,进而可以确定出用户的需求为获取热度发生波动的热词,此时,获取预设周期列表,根据预设周期内目标关键词在系统中出现的次数以及预设关键词,获取第一关键词,根据第一关键词,获取第一字符串,将第一字符串中的空格字符删除,获取第二字符串,对第二字符串的长度进行对比,确定出热度发生波动的热词,有利于提高获取热度发生波动的热词的精准度。
S3、根据目标关键词列表G和Tgr,获取Tgr对应的第一关键词列表Hgr,Hgr中包括若干个第一关键词,G={G1,G2,……,Gx,……,Gp},Gx为第x个目标关键词,x=1,2,……,p,p为目标关键词数量。
具体地,S3包括如下步骤获取Hgr
S31、获取Tgr中Gx对应的频次值Lx gr,频次值为在预设周期内目标关键词在系统中出现的次数。
S32、当Lx gr/(Σs r=1Lx gr/s)≥L0时,获取Tgr中Gx对应的关键优先级Mx gr,其中,Mx gr符合如下条件:
Mx gr=log((Lx gr/(Σs r=1Lx gr/s)+e)×(Lx gr+e)×log10×(Σs r=1Lx gr+10)),其中,e为自然常数,L0为预设频次比,本领域技术人员知晓,预设频次比由本领域技术人员根据实际需求设置,在此不再赘述。
S33、当Lx gr/(Σs r=1Lx gr/s)<L0时,获取Mx gr=0。
S34、当Σs r=1Lx gr≥L1且所有的Lx gr≥L2且Mx gr>M0时,将Gx作为Tgr对应的第二关键词,以获取Tgr对应的第二关键词列表Ngr={N1 gr,N2 gr,……,Ny gr,……,Nq gr},Ny gr为Tgr对应的第y个第二关键词,y=1,2,……,q,q为预设周期对应的第二关键词数量,其中,L1为第一预设频次值,L2为第二预设频次值,M0为预设关键优先级阈值,本领域技术人员知晓,第一预设频次值、第二预设频次值以及预设关键优先级阈值由本领域技术人员根据实际需求设置,在此不再赘述。
S35、获取预设关键词列表U={U1,U2,……,Ua,……,Uc},Ua为第a个预设关键词,a=1,2,……,c,c为预设关键词数量,其中,本领域技术人员知晓,预设关键词为本领域技术人员根据实际需求设置的预先设置好的关键词,在此不再赘述。
S36、获取Ny gr与Ua之间的关键相似度Vya gr,关键相似度为第二关键词和预设关键词的相似度,其中,本领域技术人员知晓,获取关键相似度的方式与获取第一词语相似度的方式相同,在此不再赘述。
具体地,关键相似度越小,第二关键词和预设关键词越相似。
S37、当Vya gr>V0时,将Ny gr作为Tgr对应的第一关键词,以获取Hgr,V0为预设关键相似度阈值,其中,本领域技术人员知晓,预设关键相似度阈值的具体值由本领域技术人员根据实际需求设置,在此不再赘述。
上述,对每一预设周期内目标关键词在系统中出现的次数进行处理,获取目标关键词对应的关键优先级,将预设周期内目标关键词在系统中出现的次数以及对关键优先级进行比对,确定出第二关键词,将明显不是热词的目标关键词筛选掉,再获取第二关键词与预设关键词之间的关键相似度,对第二关键相似度进行对比,将与预设关键词相同的第二关键词筛选掉,确定出第一关键词,预设关键词可以理解为用户设置的黑名单中的词,有利于提高获取第一关键词的精准度,根据第一关键词,获取热度发生波动的热词,进而有利于提高获取热度发生波动的热词的精准度。
S4、当T0 gr∈[T1,T2]时,将Hgr中的第一关键词作为第一字符串,以获取第一字符串列表R={R1,R2,……,Rk,……,Rt},Rk为第k个第一字符串,k=1,2,……,t,t为第一字符串数量,其中,T1为第一预设周期长度,T2为第二预设周期长度,本领域技术人员知晓,本领域技术人员根据实际需求设置第一预设周期长度和第二预设周期长度,在此不再赘述。
S5、将Rk中的空格字符删除,以获取Rk对应的第二字符串R0 k,其中,本领域技术人员知晓,现有技术中任一将字符串中的空格字符删除的方法,均属于被发明的保护范围,在此不再赘述。
S6、当R1 k>0时,将R0 k作为热度发生波动的热词,其中,R1 k为R0 k的字符串长度,本领域技术人员知晓,现有技术中任一获取字符串长度的方法,均属于本发明的保护范围,在此不再赘述。
上述,当第一特征相似度不大于第二特征相似度与第三特征相似度的和的二分之一时,确定获取热度发生波动的热词,此时,获取预设周期列表,根据预设周期内目标关键词在系统中出现的次数以及预设关键词,获取第一关键词,根据第一关键词,获取第一字符串,将第一字符串中的空格字符删除,获取第二字符串,对第二字符串的长度进行对比,确定出热度发生波动的热词,对热度发生微小波动的热词进行分析,有利于帮助用户更深入的了解事件的细节,现有技术中,只能将关键词的热度值大于阈值的关键词确定为热词,无法确定出关键词是否为热度值发生微小波动的热词,当用户需要了解事件的细节时,无法获取到热度值发生微小波动的热词,只能获取到热度值大于阈值的热词,因此,上述方法无法满足用户需求且在此需求下用户获取到的热词的精准度较低,相较于现有技术,本发明能够获取热度发生微小波动的热词,能够满足用户的需求,有利于提高在此需求下获取热词的精准度,使用户能够更深入的了解到事件的细节。
具体地,本发明还提供了另一实施例,与上述实施例的区别在于,包括如下步骤获取目标关键词:
S1000、将关键文本输入到预设文本分词模型中,以获取关键文本对应的第一关键词信息列表,第一关键词信息列表中包括若干个第一关键词信息,第一关键词信息包括第一关键词和第一关键词对应的关键词词性,其中,关键文本为用户输入到系统中的需要提取热词的文本,本领域技术人员知晓,预设文本分词模型为本领域技术人员根据实际需求训练好的能够将文本进行分词处理并输出分词信息的NLP模型,在此不再赘述。
具体地,关键词词性包括:名词、动词、形容词等词性。
S2000、将第一关键词信息列表输入到实体识别模型中,获取第一关键词对应的关键词类型,其中,本领域技术人员知晓,现有技术中任一实体识别模型均属于本发明的保护范围,在此不再赘述。
具体地,关键词类型包括:人名、地名、机构名等类型。
S3000、获取预设正则表达式列表AB={AB(1),AB(2),……,AB(ai),……,AB(am)},AB(ai)为第ai个预设正则表达式,ai=1,2,……,am,am为预设正则表达式数量,预设正则表达式包括预设词语类型或预设词性,其中,本领域技术人员知晓,预设正则表达式与本领域技术人员根据实际需求预先设置好的正则表达式,在此不再赘述。
S4000、根据第一关键词对应的关键词类型、关键词词性和AB(ai),获取候选关键词列表AE={AE(1),AE(2),……,AE(ae),……,AE(af)},AE(ae)为第ae个候选关键词,ae=1,2……,af,af为候选关键词数量。
具体地,S4000包括如下步骤获取AE:
S4100、将第一关键词对应的关键词类型和关键词词性与AB(ai)进行匹配,以获取AB(ai)对应的第二关键词列表AC(ai),第二关键词列表中包括若干个第二关键词,第二关键词为第一关键词的关键词词性与关键词类型符合AB(ai)的过滤逻辑的第一关键词。
S4300、获取用户输入的关键正则表达式列表AD={AD(1),AD(2),……,AD(aj),……,AD(an)},AD(aj)为第aj个关键正则表达式,aj=1,2,……,an,an为关键正则表达式数量。
S4500、当AB(ai)与AD(aj)完全相同时,确定AC(ai)中的第二关键词为第一中间关键词,以获取第一中间关键词列表,第一中间关键词列表中包括若干个第一中间关键词,其中,完全相同可以理解为预设正则表达式和关键正则表达式中的字符一模一样。
S4700、将第一中间关键词列表中的第一中间关键词中的空格字符删除,以获取第二中间关键词列表。
S4900、对第二中间关键词列表进行去重处理,以获取AE。
上述,对关键文本进行处理,获取第一关键词信息和第一关键词对应的关键词类型,根据第一关键词的关键词词性与关键词类型与正则表达式进行匹配获取候选关键词,进而对候选关键词进行处理,获取目标关键词,能够根据文本内容以及用户的需求精准的确定出目标关键词,有利于提高获取目标关键词的精准度。
S5000、根据AE(ae),获取目标关键词。
具体地,S5000包括如下步骤:
S5100、获取预设词语类型列表AF={AF(1),AF(2),……,AF(ar),……,AF(as)},AF(ar)为第ar个预设词语类型,ar=1,2,……,as,as为预设词语类型数量,其中,本领域技术人员知晓,预设词语类型为本领域技术人员根据实际需求预先设置好的词语类型,在此不再赘述。
S5200、获取AE(ae)对应的中间词语类型AE0 (ae),中间词语类型为与候选关键词对应的第一中间关键词相同的第一关键词对应的关键词类型。
S5300、获取AE0 (ae)与AF(ar)之间的类型相似度AG(ae) (ar),其中,词语类型可以理解为标签,本领域技术人员知晓,现有技术中任一获取两个标签之间的相似度的方法,均属于本发明的保护范围,在此不再赘述,例如:余弦相似度。
具体地,类型相似度为1时,中间词语类型和预设词语类型最相似。
S5400、获取预设指定词列表AH={AH(1),AH(2),……,AH(ax),……,AH(ap)},AH(ax)为第ax个预设指定词,ax=1,2,……,ap,ap为预设指定词数量,其中,本领域技术人员知晓,预设指定词为本领域技术人员根据实际需求预先设置好的词,在此不再赘述。
S5500、获取AE(ae)与AH(ax)之间的词语相似度AR(ae) (ar),其中,本领域技术人员知晓,获取词语相似度的方式与获取类型相似度的方式相同,在此不再赘述。
具体地,词语相似度为1时,候选关键词和预设指定词最相似。
S5600、获取预设匹配规则列表AS,预设匹配规则列表中包括若干条预设匹配规则,其中,本领域技术人员知晓,预设匹配规则为本领域技术人员根据实际需求预先设置好的规则,在此不再赘述,例如:关键词中不包括不准确的数字后缀,其中,不准确的数字后缀由本领域技术人员根据实际需求设置。
S5700、当AE(ae)符合AS中的所有预设匹配规则时,生成AE(ae)对应的第一标识为标识“2”,否则,生成AE(ae)对应的第一标识为标识“3”,其中,本领域技术人员知晓,现有技术中任一确定关键词是否符合匹配规则的方法,均属于本发明的保护范围,在此不再赘述。
具体地,第一标识为表征候选关键词是否符合所有的预设匹配规则的标识。
具体地,标识“2”表征为:候选关键词符合所有的预设匹配规则。
进一步地,标识“3”表征为:候选关键词符合所有的预设匹配规则。
S5800、当AE(ae)对应的任一AG(ae) (ar)=1且任一AR(ae) (ar)=1且第一标识为标识“2”且length(ae)≥length0时,将AE(ae)作为目标关键词,length(ae)为关键词的长度,length0为预设关键词长度,其中,本领域技术人员知晓,预设关键词长度由本领域技术人员根据实际需求设置,在此不再赘述。
现有技术中,大多通过TF-IDF获取关键词,无法根据文本内容以及用户需求获取关键词,上述,对关键文本进行处理,获取第一关键词信息和第一关键词对应的关键词类型,根据第一关键词的关键词词性与关键词类型与正则表达式进行匹配获取候选关键词,对候选关键词进行处理,获取目标关键词,能够根据文本内容以及用户的需求精准的确定出目标关键词,有利于提高获取目标关键词的精准度。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。

Claims (9)

1.一种热度递增的热词获取系统,其特征在于,所述系统包括:目标文本对应的关键特征词列表C={C1,C2,……,Cj,……,Cn}、预设热度递增特征词列表A3={A3(1),A3(2),……,A3(i2),……,A3(m2)}、处理器和存储有计算机程序的存储器,其中,Cj为第j个关键特征词,j=1,2,……,n,n为关键特征词数量,A3(i2)为第i2个预设热度递增特征词,i2=1,2,……,m2,m2为预设热度递增特征词数量,当计算机程序被处理器执行时,实现如下步骤:
S10、根据C和A3,获取C和A3之间的第三特征相似度D3,其中,D3符合如下条件:
D3=Σn j=1m2 i2=1E3j (i2)/m2)/n,E3j (i2)为Cj与A3(i2)对应的第三词语相似度,第三词语相似度为关键特征词与预设热度递增特征词之间的相似度;
S20、当D3≤ΔD3时,获取预设中间周期列表W={W1,W2,W3,W4,W5},W1为第一预设中间周期,W2为第二预设中间周期,W3为第三预设中间周期,W4为第四预设中间周期,W5为第五预设中间周期,ΔD3为第三相似度阈值;
S30、根据Gx和W,获取Gx对应的增长率列表W0 x={W0 x1,W0 x2,W0 x3,W0 x4},W0 x1为W0 x中的第一增长率,W0 x2为W0 x中的第二增长率,W0 x3为W0 x中的第三增长率,W0 x4为W0 x中的第四增长率,Gx为目标关键词列表G中的第x个目标关键词,G={G1,G2,……,Gx,……,Gp},x=1,2,……,p,p为目标关键词数量;S30包括如下步骤:
S301、根据Gx、W1和W2,获取W0 x1,W0 x1符合如下条件:
W0 x1=(Gx1-Gx2)/Gx2×100%,其中,Gx1为W1中Gx在系统中出现的次数,Gx2为W2中Gx在系统中出现的次数;
S303、根据Gx、Gx1、Gx2和W3,获取W0 x2,W0 x2符合如下条件:
W0 x2=(Gx1-(Gx2+Gx3))/(Gx2+Gx3)×100%,其中,Gx3为W3中Gx在系统中出现的次数;
S305、根据Gx、Gx1、Gx2、Gx3和W4,获取W0 x3,W0 x3符合如下条件:
W0 x3=(Gx1-(Gx2+Gx3+Gx4))/(Gx2+Gx3+Gx4)×100%,其中,Gx4为W4中Gx在系统中出现的次数;
S307、根据Gx、Gx1和W5,获取W0 x4,W0 x4符合如下条件:
W0 x4=(Gx1-Gx5)/Gx5×100%,Gx5为W5中Gx在系统中出现的次数;
S40、根据W0 x1、W0 x2、W0 x3、W0 x4,获取Gx对应的候选权重G0 x
S50、根据W0 x1、W0 x2、W0 x3、W0 x4和G0 x,获取Gx对应的中间优先级G1 x,G1 x符合如下条件:
G1 x=logGx1×(W0 x1+W0 x4×η0 x4+((Gx2-Gx3)/Gx3×100%)×η1+((Gx3-Gx4)/Gx4×100%)×η2
(1+1.5×γ)×((1-G0 x)×1+G0 x×α),η0 x4为W0 x4对应的第一中间权重,用于表征第四增长率的重要程度,η1为用于调整中间优先级的第二中间权重,η2为用于调整中间优先级的第三中间权重,γ为用于调整中间优先级的第四中间权重,α为G0 x对应的指定权重,用于根据候选权重的具体值调整中间优先级;
S60、当G1 x≥G2 x时,将Gx作为热度递增的热词,G2 x为预设中间优先级阈值。
2.根据权利要求1所述的热度递增的热词获取系统,其特征在于,S20包括如下步骤获取ΔD3
a.根据C和预设热度波动特征词列表A1={A11,A12,……,A1i,……,A1m},获取C和A1之间的第一特征相似度D1,A1i为第i个预设热度波动特征词,i=1,2,……,m,m为预设热度波动特征词数量,其中,D1符合如下条件:
D1=Σn j=1m i=1E1j i/m)/n,E1j i为Cj与A1i对应的第一词语相似度,第一词语相似度为关键特征词与预设热度波动特征词之间的相似度;
b.根据C和预设热度稳定特征词列表A2={A2(1),A2(2),……,A2(i1),……,A2(m1)},获取C和A2之间的第二特征相似度D2,A2(i1)为第i1个预设热度稳定特征词,i1=1,2,……,m1,m1为预设热度稳定特征词数量,其中,D2符合如下条件:
D2=Σn j=1m1 i1=1E2j (i1)/m1)/n,E2j (i1)为Cj与A2(i1)对应的第二词语相似度,第二词语相似度为关键特征词与预设热度稳定特征词之间的相似度;
c.根据D1和D2,获取ΔD3,ΔD3符合如下条件:
ΔD3=(D1+D2)/2。
3.根据权利要求1所述的热度递增的热词获取系统,其特征在于,S40包括如下步骤:
S401、当W0 x1<Y且W0 x2<Y且W0 x3<Y且W0 x4<Y或W0 x1+W0 x2+W0 x3+W0 x4<Y0时,生成Gx对应的第一反馈标识为标识“1”,否则,生成Gx对应的第一反馈标识为标识“0”,Y为第一预设增长率,Y0为第二预设增长率;
S403、当Gx1<Y1时,生成Gx对应的第二反馈标识为标识“-1”,否则,生成Gx对应的第二反馈标识为标识“-2”,Y1为预设频次值;
S405、当Gx对应的第一反馈标识为标识“1”且Gx对应的第二反馈标识为标识“-1”时,获取G0 x=0,否则,获取G0 x=1。
4.根据权利要求1所述的热度递增的热词获取系统,其特征在于,目标文本为用户在系统中输入的能够表达用户需求的文本。
5.根据权利要求4所述的热度递增的热词获取系统,其特征在于,目标文本对应的关键特征词为从目标文本中提取出的能够表达目标文本的文本特征的词语。
6.根据权利要求1所述的热度递增的热词获取系统,其特征在于,预设热度递增特征词为预设的能够表征热词的热度快速增长这一特征的词语。
7.根据权利要求1所述的热度递增的热词获取系统,其特征在于,第一预设中间周期、第二预设中间周期、第三预设中间周期、第四预设中间周期、第五预设中间周期的长度均相同且长度的计量单位为天。
8.根据权利要求3所述的热度递增的热词获取系统,其特征在于,第一反馈标识为用于表征增长率是否小于预设增长率阈值的标识。
9.根据权利要求3所述的热度递增的热词获取系统,其特征在于,第二反馈标识为用于表征第一预设周期中目标关键词在系统中出现的次数是否小于预设频次值的标识。
CN202311300672.XA 2023-10-09 2023-10-09 一种热度递增的热词获取系统 Active CN117371436B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311300672.XA CN117371436B (zh) 2023-10-09 2023-10-09 一种热度递增的热词获取系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311300672.XA CN117371436B (zh) 2023-10-09 2023-10-09 一种热度递增的热词获取系统

Publications (2)

Publication Number Publication Date
CN117371436A CN117371436A (zh) 2024-01-09
CN117371436B true CN117371436B (zh) 2024-04-12

Family

ID=89399609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311300672.XA Active CN117371436B (zh) 2023-10-09 2023-10-09 一种热度递增的热词获取系统

Country Status (1)

Country Link
CN (1) CN117371436B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012212333A (ja) * 2011-03-31 2012-11-01 Yahoo Japan Corp 急上昇ワード関連付け装置及び方法
CN104252470A (zh) * 2013-06-26 2014-12-31 重庆新媒农信科技有限公司 一种热词推荐方法及系统
CN107153658A (zh) * 2016-03-03 2017-09-12 常州普适信息科技有限公司 一种基于关键字加权算法的舆情热词发现方法
CN107423444A (zh) * 2017-08-10 2017-12-01 世纪龙信息网络有限责任公司 热词词组提取方法和系统
CN111783438A (zh) * 2020-05-22 2020-10-16 贵州电网有限责任公司 实现工单分析的热词检测方法
CN112667814A (zh) * 2020-12-31 2021-04-16 苏州思必驰信息科技有限公司 热词的发现方法及系统
CN113988053A (zh) * 2021-10-22 2022-01-28 中国烟草总公司郑州烟草研究院 一种热词提取方法及装置
CN114781379A (zh) * 2022-06-22 2022-07-22 中科雨辰科技有限公司 一种获取关键短语的数据处理系统
CN115248888A (zh) * 2022-01-19 2022-10-28 西京学院 一种通过大数据对热词进行搜索的数据识别系统
CN116522930A (zh) * 2023-05-22 2023-08-01 广东亿迅科技有限公司 一种热词提取方法、装置及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012212333A (ja) * 2011-03-31 2012-11-01 Yahoo Japan Corp 急上昇ワード関連付け装置及び方法
CN104252470A (zh) * 2013-06-26 2014-12-31 重庆新媒农信科技有限公司 一种热词推荐方法及系统
CN107153658A (zh) * 2016-03-03 2017-09-12 常州普适信息科技有限公司 一种基于关键字加权算法的舆情热词发现方法
CN107423444A (zh) * 2017-08-10 2017-12-01 世纪龙信息网络有限责任公司 热词词组提取方法和系统
CN111783438A (zh) * 2020-05-22 2020-10-16 贵州电网有限责任公司 实现工单分析的热词检测方法
CN112667814A (zh) * 2020-12-31 2021-04-16 苏州思必驰信息科技有限公司 热词的发现方法及系统
CN113988053A (zh) * 2021-10-22 2022-01-28 中国烟草总公司郑州烟草研究院 一种热词提取方法及装置
CN115248888A (zh) * 2022-01-19 2022-10-28 西京学院 一种通过大数据对热词进行搜索的数据识别系统
CN114781379A (zh) * 2022-06-22 2022-07-22 中科雨辰科技有限公司 一种获取关键短语的数据处理系统
CN116522930A (zh) * 2023-05-22 2023-08-01 广东亿迅科技有限公司 一种热词提取方法、装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于Google趋势公式的热词计算公式在医学热点分析中的应用;张浩 等;《中华医学会第二十一次全国医学信息学术会议论文汇编》;20150618;427-431 *
基于农业网络信息分类的热词自动提取方法;段青玲;张璐;刘怡然;王沙沙;;农业机械学报;20180417(第07期);1-5 *

Also Published As

Publication number Publication date
CN117371436A (zh) 2024-01-09

Similar Documents

Publication Publication Date Title
CN109408665B (zh) 一种信息推荐方法及装置、存储介质
WO2018086470A1 (zh) 关键词提取方法、装置和服务器
CN105893533B (zh) 一种文本匹配方法及装置
CN110377558B (zh) 文档查询方法、装置、计算机设备和存储介质
CN112163419B (zh) 文本的情绪识别方法、装置、计算机设备和存储介质
CN112380244B (zh) 一种分词搜索方法、装置、电子设备及可读存储介质
CN107957929B (zh) 一种基于主题模型的软件缺陷报告修复人员分配方法
KR101505546B1 (ko) 텍스트 마이닝을 이용한 키워드 도출 방법
CN111506727B (zh) 文本内容类别获取方法、装置、计算机设备和存储介质
CN110162754B (zh) 一种岗位描述文档的生成方法及设备
CN109165040B (zh) 一种基于随机森林模型的代码抄袭嫌疑检测的方法
US20140297628A1 (en) Text Information Processing Apparatus, Text Information Processing Method, and Computer Usable Medium Having Text Information Processing Program Embodied Therein
CN112287094B (zh) 相似病例文本检索系统
CN111639493A (zh) 一种地址信息标准化方法、装置、设备及可读存储介质
CN116739541A (zh) 一种基于ai技术的智能人才匹配方法及系统
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN117371436B (zh) 一种热度递增的热词获取系统
CN117371435B (zh) 一种获取热度发生波动的热词的数据处理系统
CN117034904B (zh) 一种获取热度稳定的热词的方法、电子设备及存储介质
CN117763126A (zh) 知识检索方法、设备、存储介质及装置
CN112883267A (zh) 基于深度学习的数据热度统计方法及装置
CN109284392B (zh) 一种文本分类方法、装置、终端及存储介质
CN114511027B (zh) 通过大数据网络进行英语远程数据提取方法
CN115738285A (zh) 一种游戏质量评价反馈方法及系统
CN115408527A (zh) 文本分类方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant