CN111737555A - 热点关键词的选取方法、设备和存储介质 - Google Patents
热点关键词的选取方法、设备和存储介质 Download PDFInfo
- Publication number
- CN111737555A CN111737555A CN202010561415.1A CN202010561415A CN111737555A CN 111737555 A CN111737555 A CN 111737555A CN 202010561415 A CN202010561415 A CN 202010561415A CN 111737555 A CN111737555 A CN 111737555A
- Authority
- CN
- China
- Prior art keywords
- keyword
- hot
- value
- keywords
- change speed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012360 testing method Methods 0.000 claims abstract description 7
- 238000004590 computer program Methods 0.000 claims description 9
- 238000009826 distribution Methods 0.000 abstract description 11
- 238000004364 calculation method Methods 0.000 description 3
- 230000003203 everyday effect Effects 0.000 description 2
- 206010038743 Restlessness Diseases 0.000 description 1
- 238000001801 Z-test Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
技术领域
本发明涉及互联网技术领域,特别是涉及一种热点关键词的选取方法、设备和存储介质。
背景技术
随着网络日益成为人们发布信息、沟通信息的主要媒体,网络上的信息也越来越能反映人们关注的焦点和社会热点事件。因此,通过监控网络信息中所反映的热点问题和热点事件就成为一个自然的需求。
在一般情况下,互联网信息中某个关键词大量集中出现往往意味着某个热点新闻或者热点事件的发生。因此,互联网文本中热点关键词的数量的较大变化常常反映了社会热点新闻或事件的出现,也就是说,可以通过关键词的词频的变化速度来判断是否出现热点新闻或事件。
但是,不同的关键词有不同的词频,不同关键词的词频的相同的变化程度预示着不同的结果。对于一个使用频率很高的关键词来说,如果词频增加几倍就意味着发生了相应的热点新闻或事件(比如原先词频500次/天的词频,增加到1200次/天)。而对一个使用频率比较低的关键词,如果词频只是增加几倍也是正常的变化(比如从15次/天增加到50次/天),并不能预示热点新闻或事件的发生。或者,对于一个高频率的关键词来说,词频增加几百次/天并不意味着什么,但是对于一个低频率的关键词来说,词频增加几百次/天就预示热点新闻或事件的发生。
因此,如何根据关键词词频的变化速度,科学、准确的选取热点关键词,是我们需要解决的问题。
发明内容
本发明的目的在于提供一种热点关键词的选取方法、设备和存储介质。
为实现上述发明目的之一,本发明一实施方式提供一种热点关键词的选取方法,所述方法包括:
获取一关键词在多个预定周期内的变化速度的均值μ0和标准差S,所述关键词的变化速度是指相邻两个预定周期内所述关键词的标准化词频的差值;
获取所述关键词在最近的预定周期内的变化速度μ;
根据所述μ0、S和μ,计算所述关键词的变化速度的Z检验的Z值:
根据所述Z值,判断所述关键词是否是热点关键词。
作为本发明一实施方式的进一步改进,所述“获取某个关键词在预定周期内的变化速度的均值μ0和标准差S”具体包括:
获取所述关键词在多个预定周期内的多个变化速度,得到所述关键词的变化速度集合;
根据所述变化速度集合,求所述关键词的变化速度的均值μ0,并根据所述均值μ0,求所述关键词的变化速度的标准差S。
作为本发明一实施方式的进一步改进,所述方法还包括:
将所述关键词在最近的预定周期内的变化速度μ加入所述变化速度集合,重新计算所述关键词的变化速度的均值μ0和标准差S。
作为本发明一实施方式的进一步改进,所述“根据所述Z值,判断所述关键词是否是热点关键词”具体包括:
若所述关键词的Z值超过设定阈值,判定所述关键词为热点关键词。
作为本发明一实施方式的进一步改进,所述方法还包括:
每隔所述预定周期计算一次所述热点关键词的Z值,当发现所述Z值变为负值,则判定所述热点关键词对应的热点新闻开始消退。
作为本发明一实施方式的进一步改进,所述“根据所述Z值,判断所述关键词是否是热点关键词”具体包括:
若所述关键词的Z值超过设定阈值,判断所述关键词对应的新闻是否为垃圾新闻,若是,删除所述关键词对应的新闻,若否,判定所述关键词为热点关键词,所述关键词对应的新闻为热点新闻。
作为本发明一实施方式的进一步改进,所述方法还包括:
每隔固定周期重新计算新闻中出现的所有关键词;
分别计算每个关键词在每个预定周期的变化速度的Z值,将每个关键词的所有Z值存入数据库中;
将每个预定周期内的每个关键词的大小与Z值成正比的方式显示在一起。
作为本发明一实施方式的进一步改进,所述关键词在预定周期内的标准化词频,是指所述关键词在预定周期内出现的次数除以预定周期内的新闻总量。
为实现上述发明目的之一,本发明一实施方式提供一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任意一项所述热点关键词的选取方法中的步骤。
为实现上述发明目的之一,本发明一实施方式提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述热点关键词的选取方法中的步骤。
与现有技术相比,本发明热点关键词的选取方法,根据相邻时间段内关键词的变化速度服从正太分布的现象,利用Z检验,计算关键词的变化速度的Z值,从而不同关键词的变化速度可以进行比较,根据Z值的大小,科学、快速、准确的选取热点关键词。
附图说明
图1是关键词的变化速度服从的正态分布图。
图2是本发明热点关键词的选取方法的流程示意图。
具体实施方式
以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实施方式并不限制本发明,本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
关键词的词频是指在预定时间段(或称预定周期)内所述关键词出现的次数。考虑到每个时间段内的新闻总量会发生变化,对每个时间段的关键词的词频用这个时间段内的新闻总量进行标准化,即关键词在预定时间段内出现的次数除以对应时间段内的新闻总量,得到标准化词频。而相邻时间段的标准化词频的差值即是关键词在预定时间段的变化速度(所述差值是指后一个时间段的标准化词频减去前一个时间段的标准化词频)。比如在一天的新闻中,有100篇新闻的关键词包括有某一关键词,即认为所述关键词出现了100次,则所述关键词的词频是100次/天。在这一天中,新闻总量为10000篇,则所述关键词的标准化词频为0.01次/天。前一个时间段的所述关键词的标准化词频为0.02次/天,则所述关键词的在这个时间段的变化速度为-0.01次/天。
每个预定周期都计算各个关键词的变化速度,观察一段时间后发现,每个关键词的变化速度基本都服从正态分布,如图1所示,查看任意关键词的分布都有类似的结果,关键词的变化速度的正态分布的均值基本都为0,或在0上下徘徊,不同关键词的变化速度的正态分布只是标准差不同而已。
Z检验是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著,一般通过计算Z值将差异数值化。若检验一个样本平均数与已知的总体平均数的差异是否显著,其Z值的计算公式如下:
其中μ为样本平均数,n为样本容量,μ0为已知的总体平均数,S是已知的总体标准差。
从上面可以看出,计算Z值是用标准差和均值来标准化不同正态分布的方法,可以使得具有不同正态分布的变量之间可比。因此,可以通过计算每个关键词在指定时刻的Z值,判断在指定时刻哪个或哪些关键词的变化速度显著,这样就可以筛选那些变化显著的关键词。
如图2所示,本发明提供一种热点关键词的选取方法,所述方法根据相邻时间段内关键词的变化速度服从正太分布的现象,利用Z检验,计算关键词的变化速度的Z值,从而不同关键词的变化速度可以进行比较,根据Z值的大小,科学、快速、准确的选取热点关键词。所述方法包括:
步骤S100:获取一关键词在多个预定周期内的变化速度的均值μ0和标准差S,所述关键词的变化速度是指相邻两个预定周期内所述关键词的标准化词频的差值。
具体的,首先,获取所述关键词在多个预定周期内的多个变化速度,得到所述关键词的变化速度集合。所述预定周期可以是10分钟、30分钟或者60分钟等,可以根据需要进行设置。而连续多个预定周期是指连续多个10分钟、或者连续多个30分钟等。可以是连续多个预定周期内的所述关键词的变化速度,比如一天之内每个小时的所述关键词的变化速度,得到24个所述关键词的变化速度。
然后,根据所述变化速度集合,求所述关键词的变化速度的均值μ0,并根据所述均值μ0,求所述关键词的变化速度的标准差S。这样就得到了所述所述关键词的变化速度的均值和标准差。可以使用这个方法计算每个关键词的变化速度的均值和标准差。
步骤S200:获取所述关键词在最近的预定周期内的变化速度μ。
将所述关键词在最近的预定周期内的标准化词频减去上一个预定周期内的标准化词频,即得到所述变化速度μ。
步骤S300:根据所述μ0、S和μ,计算所述关键词的变化速度的Z检验的Z值。
此处计算的是单样本与总体平均数的差异是否显著,因此单样本的值即为单样本的平均数,单样本容量为1,因此,Z值的计算公式为:
步骤S400:根据所述Z值,判断所述关键词是否是热点关键词。
具体的,若所述关键词的Z值超过设定阈值(优选所述设定阈值为5),判定所述关键词为热点关键词。
进一步的,每隔所述预定周期计算一次所述热点关键词的Z值,当发现所述Z值变为负值,则判定所述热点关键词对应的热点新闻开始消退。
由于在实际提取关键词的过程中,可能从一些重复冗余的信息中提取到错误的关键词(比如从大批量重复的广告中提取到的关键词),也会导致对应关键词的Z值很大,因此,在一个具体的实施方式中,所述“根据所述Z值,判断所述关键词是否是热点关键词”具体包括:
若所述关键词的Z值超过设定阈值,判断所述关键词对应的新闻是否为垃圾新闻,若是,删除所述关键词对应的新闻,若否,判定所述关键词为热点关键词,所述关键词对应的新闻为热点新闻。
由于有效样本数越多,均值和方差就越准确,因此,在一个优选的实施方式中,通过将每次所述关键词在最近的预定周期内的变化速度μ加入所述变化速度集合,重新计算所述关键词的变化速度的均值μ0和标准差S,对所述关键词的均值和方差进行优化。
在一个具体的实施方式中,设置一个定时器,每天每个小时计算一次所有关键词的变化速度,并根据数据库中存储的每个关键词在1小时间的最新均值和标准差,计算每个关键词的变化速度在1小时间的Z值,并将每个关键词的变化速度和Z值都保存在数据库中,并且,根据最新的变化速度,重新计算每个关键词最新的均值和标准差,以便下一个小时的Z值的计算。
在另一个具体的实施方式中,设置三个定时器,每天在每个10分钟、30分钟和60分钟的时候,计算每个关键词的变化速度,并根据数据库中存储的每个关键词在对应预定周期的最新均值和标准差,计算每个关键词的变化速度在对应预定周期的Z值,并将变化速度和Z值都保存在数据库中,并且,根据最新的变化速度,重新计算最新的均值和标准差,以便下一个预定周期的Z值的计算。后续根据实际需求,选择对应精度的计算即可。
在又一个具体实施方式中,每隔固定周期重新计算新闻中出现的所有关键词,分别计算每个关键词在每个预定周期的变化速度的Z值,将每个关键词的所有Z值存入数据库中。然后将每个预定周期内的每个关键词的大小与Z值成正比的方式显示在一起。例如如果关键词A的Z值是关键词B的Z值的三倍,那么在显示时,关键词A是关键词的3倍大小。另外,显示时也可以根据不同关键词的Z值设置不同的颜色、不同粗细的线条、不同方向的字体、不同清晰度的字体等。
本发明还提供一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述所述热点关键词的选取方法中的任意一个步骤,也就是说,实现上述所述热点关键词的选取方法中任意一个技术方案中的步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述热点关键词的选取方法中的任意一个步骤,也就是说,实现上述所述热点关键词的选取方法中的任意一个技术方案中的步骤。
应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施方式中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。
Claims (10)
2.根据权利要求1所述热点关键词的选取方法,其特征在于,所述“获取某个关键词在预定周期内的变化速度的均值μ0和标准差S”具体包括:
获取所述关键词在多个预定周期内的多个变化速度,得到所述关键词的变化速度集合;
根据所述变化速度集合,求所述关键词的变化速度的均值μ0,并根据所述均值μ0,求所述关键词的变化速度的标准差S。
3.根据权利要求2所述热点关键词的选取方法,其特征在于,所述方法还包括:
将所述关键词在最近的预定周期内的变化速度μ加入所述变化速度集合,重新计算所述关键词的变化速度的均值μ0和标准差S。
4.根据权利要求1所述热点关键词的选取方法,其特征在于,所述“根据所述Z值,判断所述关键词是否是热点关键词”具体包括:
若所述关键词的Z值超过设定阈值,判定所述关键词为热点关键词。
5.根据权利要求4所述热点关键词的选取方法,其特征在于,所述方法还包括:
每隔所述预定周期计算一次所述热点关键词的Z值,当发现所述Z值变为负值,则判定所述热点关键词对应的热点新闻开始消退。
6.根据权利要求1所述热点关键词的选取方法,其特征在于,所述“根据所述Z值,判断所述关键词是否是热点关键词”具体包括:
若所述关键词的Z值超过设定阈值,判断所述关键词对应的新闻是否为垃圾新闻,若是,删除所述关键词对应的新闻,若否,判定所述关键词为热点关键词,所述关键词对应的新闻为热点新闻。
7.根据权利要求1所述热点关键词的选取方法,其特征在于,所述方法还包括:
每隔固定周期重新计算新闻中出现的所有关键词;
分别计算每个关键词在每个预定周期的变化速度的Z值,将每个关键词的所有Z值存入数据库中;
将每个预定周期内的每个关键词的大小与Z值成正比的方式显示在一起。
8.根据权利要求1所述热点关键词的选取方法,其特征在于:
所述关键词在预定周期内的标准化词频,是指所述关键词在预定周期内出现的次数除以预定周期内的新闻总量。
9.一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-8任意一项所述热点关键词的选取方法中的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8任意一项所述热点关键词的选取方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010561415.1A CN111737555A (zh) | 2020-06-18 | 2020-06-18 | 热点关键词的选取方法、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010561415.1A CN111737555A (zh) | 2020-06-18 | 2020-06-18 | 热点关键词的选取方法、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111737555A true CN111737555A (zh) | 2020-10-02 |
Family
ID=72649865
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010561415.1A Pending CN111737555A (zh) | 2020-06-18 | 2020-06-18 | 热点关键词的选取方法、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111737555A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597280A (zh) * | 2020-12-28 | 2021-04-02 | 上海朝阳永续信息技术股份有限公司 | 一种自动发现热点关键词和热点新闻的方法 |
CN112989161A (zh) * | 2021-03-10 | 2021-06-18 | 平安科技(深圳)有限公司 | 新闻舆情监控方法、装置、电子设备及存储介质 |
CN114780693A (zh) * | 2022-03-25 | 2022-07-22 | 昆明理工大学 | 一种基于对抗学习的深度迁移问句分类方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049443A (zh) * | 2011-10-12 | 2013-04-17 | 腾讯科技(深圳)有限公司 | 一种挖掘热点词的方法与装置 |
CN104598629A (zh) * | 2015-02-05 | 2015-05-06 | 北京航空航天大学 | 基于流式图模型的社交网络突发事件检测方法 |
CN104615718A (zh) * | 2015-02-05 | 2015-05-13 | 北京航空航天大学 | 社交网络突发事件的层次分析方法 |
CN104615717A (zh) * | 2015-02-05 | 2015-05-13 | 北京航空航天大学 | 社交网络突发事件的多维度评估方法 |
CN107908618A (zh) * | 2017-11-01 | 2018-04-13 | 中国银行股份有限公司 | 一种热点词发现方法和装置 |
CN110069635A (zh) * | 2019-04-30 | 2019-07-30 | 秒针信息技术有限公司 | 一种热度词的确定方法及装置 |
-
2020
- 2020-06-18 CN CN202010561415.1A patent/CN111737555A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049443A (zh) * | 2011-10-12 | 2013-04-17 | 腾讯科技(深圳)有限公司 | 一种挖掘热点词的方法与装置 |
CN104598629A (zh) * | 2015-02-05 | 2015-05-06 | 北京航空航天大学 | 基于流式图模型的社交网络突发事件检测方法 |
CN104615718A (zh) * | 2015-02-05 | 2015-05-13 | 北京航空航天大学 | 社交网络突发事件的层次分析方法 |
CN104615717A (zh) * | 2015-02-05 | 2015-05-13 | 北京航空航天大学 | 社交网络突发事件的多维度评估方法 |
CN107908618A (zh) * | 2017-11-01 | 2018-04-13 | 中国银行股份有限公司 | 一种热点词发现方法和装置 |
CN110069635A (zh) * | 2019-04-30 | 2019-07-30 | 秒针信息技术有限公司 | 一种热度词的确定方法及装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597280A (zh) * | 2020-12-28 | 2021-04-02 | 上海朝阳永续信息技术股份有限公司 | 一种自动发现热点关键词和热点新闻的方法 |
WO2022141803A1 (zh) * | 2020-12-28 | 2022-07-07 | 上海朝阳永续信息技术股份有限公司 | 一种自动发现热点关键词和热点新闻的方法 |
CN112989161A (zh) * | 2021-03-10 | 2021-06-18 | 平安科技(深圳)有限公司 | 新闻舆情监控方法、装置、电子设备及存储介质 |
CN114780693A (zh) * | 2022-03-25 | 2022-07-22 | 昆明理工大学 | 一种基于对抗学习的深度迁移问句分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111737555A (zh) | 热点关键词的选取方法、设备和存储介质 | |
CN105389349B (zh) | 词典更新方法及装置 | |
JP5450842B2 (ja) | 単語情報エントロピの決定 | |
CN111064614A (zh) | 一种故障根因定位方法、装置、设备及存储介质 | |
US20150234883A1 (en) | Method and system for retrieving real-time information | |
CN109062936B (zh) | 一种数据查询方法、计算机可读存储介质及终端设备 | |
CN106202280A (zh) | 一种信息处理方法及服务器 | |
WO2022007626A1 (zh) | 视频内容推荐方法、装置及计算机设备 | |
CN108664605B (zh) | 一种模型评估方法及系统 | |
CN111476375B (zh) | 一种确定识别模型的方法、装置、电子设备及存储介质 | |
CN106874332B (zh) | 数据库访问方法和装置 | |
CN110147353B (zh) | 基于日志分析的MongoDB数据迁移监控方法及装置 | |
CN105405051A (zh) | 金融事件预测方法和装置 | |
CN114238389A (zh) | 数据库查询优化方法、装置、电子设备、介质和程序产品 | |
CN113761390A (zh) | 一种用于属性亲密度的分析方法和系统 | |
CN110580265B (zh) | Etl任务的处理方法、装置、设备及存储介质 | |
Horváth et al. | Monitoring customer satisfaction in service industry: A cluster analysis approach | |
EP2731021A1 (en) | Apparatus, program, and method for reconciliation processing in a graph database | |
CN110019783B (zh) | 属性词聚类方法及装置 | |
CN108429632B (zh) | 一种业务监控方法和装置 | |
CN110955760A (zh) | 判决结果的评价方法和相关装置 | |
CN108170664A (zh) | 基于重点关键词的关键词拓展方法和装置 | |
CN114881761A (zh) | 相似样本的确定方法与授信额度的确定方法 | |
EP3674911A1 (en) | Method and electronic device for populating a database from multiple data sources, related computer program | |
CN105589950A (zh) | 事件属性语句确定及基于事件属性语句预警方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |