CN113051893B - 一种热词统计方法、系统、电子设备和存储介质 - Google Patents
一种热词统计方法、系统、电子设备和存储介质 Download PDFInfo
- Publication number
- CN113051893B CN113051893B CN202110486427.7A CN202110486427A CN113051893B CN 113051893 B CN113051893 B CN 113051893B CN 202110486427 A CN202110486427 A CN 202110486427A CN 113051893 B CN113051893 B CN 113051893B
- Authority
- CN
- China
- Prior art keywords
- word
- hotword
- hot
- counting
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 34
- 238000012216 screening Methods 0.000 claims abstract description 10
- 230000007774 longterm Effects 0.000 claims description 29
- 230000000737 periodic effect Effects 0.000 claims description 25
- 238000007619 statistical method Methods 0.000 claims description 14
- 238000012217 deletion Methods 0.000 claims description 8
- 230000037430 deletion Effects 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种热词统计方法、系统、电子设备和存储介质,获取预设时间段内的客户语料,对客户语料按照预设处理规则进行处理得到待选词集合,统计待选词集合中每个待选词出现的次数,得到每个待选词的词频,基于每个待选词的词频,从待选词集合中筛选出热词集合,热词集合中每个热词的词频高于待选词集合中非热词的词频,对热词集合中的各个热词按照不同的词频分布规律进行统计得到不同类型的热词子集合。本发明在从客户语料中筛选出热词集合后,根据热词集合中的各个热词按照不同的词频分布规律,对热词集合做了进一步划分,得到不同类型的热词子集合,从而可以满足不同运营角色的需求。
Description
技术领域
本发明涉及热词识别技术领域,更具体的说,涉及一种热词统计方法、系统、电子设备和存储介质。
背景技术
呼叫中心是银行与客户的联络中心,通过在呼叫中心运营系统实时统计客户语料,从客户语料中统计出热门词汇(简称热词),可以有助于银行确定用户需求,从而有针对性的解决客户的问题,提高客户体验。
现有技术中针对客户语料中提取的热词采用的是相同的统计方法,然而在实际应用中,不同的运营角色所关注的热词不同,因此,现有的热词统计方法无法满足不同运营角色的需求。
发明内容
有鉴于此,本发明公开一种热词统计方法、系统、电子设备和存储介质,以实现进行热词统计时,满足不同运营角色的需求。
一种热词统计方法,包括:
获取预设时间段内的客户语料;
对所述客户语料按照预设处理规则进行处理,得到待选词集合;
统计所述待选词集合中每个待选词出现的次数,得到每个所述待选词的词频;
基于每个所述待选词的词频,从所述待选词集合中筛选出热词集合,所述热词集合中每个热词的词频高于所述待选词集合中非热词的词频;
对所述热词集合中的各个热词按照不同的词频分布规律进行统计,得到不同类型的热词子集合。
可选的,所述对所述热词集合中的各个热词按照不同的词频分布规律进行统计,得到不同类型的热词子集合,具体包括:
将所述热词集合中在所述客户语料中出现的次数一直稳定在预设区间内容中的热词,确定为长期热词;
对所述热词集合中所有的所述长期热词进行统计,得到长期热词子集合。
可选的,所述对所述热词集合中的各个热词按照不同的词频分布规律进行统计,得到不同类型的热词子集合,具体包括:
将所述热词集合按照时序划分成多个统计区间;
将所述热词集合中在不同的所述统计区间中出现的次数为梯度分布,且梯度值大于梯度阈值的热词,确定为短期突发热词;
对所述热词集合中所有的所述短期突发热词进行统计,得到短期突发热词子集合。
可选的,所述对所述热词集合中的各个热词按照不同的词频分布规律进行统计,得到不同类型的热词子集合,具体包括:
将所述热词集合按照时序划分成多个统计区间;
确定每个统计区间中的各个热词出现的次数;
将所述热词集合中在不同的所述统计区间中出现的次数成周期性分布的热词,确定为周期性热词;
对所述热词集合中所有的所述周期性热词进行统计,得到周期性热词子集合。
可选的,所述对所述客户语料按照预设处理规则进行处理,得到待选词集合,具体包括:
对所述客户语料进行中文分词和停用词删除,得到所述待选词集合。
一种热词统计系统,包括:
获取单元,用于获取预设时间段内的客户语料;
处理单元,用于对所述客户语料按照预设处理规则进行处理,得到待选词集合;
词频统计单元,用于统计所述待选词集合中每个待选词出现的次数,得到每个所述待选词的词频;
筛选单元,用于基于每个所述待选词的词频,从所述待选词集合中筛选出热词集合,所述热词集合中每个热词的词频高于所述待选词集合中非热词的词频;
热词子集合统计单元,用于对所述热词集合中的各个热词按照不同的词频分布规律进行统计,得到不同类型的热词子集合。
可选的,所述热词子集合统计单元具体包括:
长期热词确定子单元,用于将所述热词集合中在所述客户语料中出现的次数一直稳定在预设区间内容中的热词,确定为长期热词;
第一集合统计子单元,用于对所述热词集合中所有的所述长期热词进行统计,得到长期热词子集合。
可选的,所述热词子集合统计单元具体包括:
第一划分子单元,用于将所述热词集合按照时序划分成多个统计区间;
短期突发热词确定子单元,用于将所述热词集合中在不同的所述统计区间中出现的次数为梯度分布,且梯度值大于梯度阈值的热词,确定为短期突发热词;
第二集合统计子单元,用于对所述热词集合中所有的所述短期突发热词进行统计,得到短期突发热词子集合。
可选的,所述热词子集合统计单元具体包括:
第二划分子单元,用于将所述热词集合按照时序划分成多个统计区间;
次数确定子单元,用于确定每个统计区间中的各个热词出现的次数;
周期性热词确定子单元,用于将所述热词集合中在不同的所述统计区间中出现的次数成周期性分布的热词,确定为周期性热词;
第三集合统计子单元,用于对所述热词集合中所有的所述周期性热词进行统计,得到周期性热词子集合。
可选的,所述处理单元具体用于:
对所述客户语料进行中文分词和停用词删除,得到所述待选词集合。
一种电子设备,包括存储器和处理器;
所述存储器用于存储至少一个指令;
所述处理器用于执行所述至少一个指令以实现上述所述的热词统计方法。
一种存储介质,所述存储介质存储有至少一个指令,所述至少一个指令被处理器执行是实现上述所述的热词统计方法。
从上述的技术方案可知,本发明公开了一种热词统计方法、系统、电子设备和存储介质,获取预设时间段内的客户语料,对客户语料按照预设处理规则进行处理得到待选词集合,统计待选词集合中每个待选词出现的次数,得到每个待选词的词频,基于每个待选词的词频,从待选词集合中筛选出热词集合,热词集合中每个热词的词频高于待选词集合中非热词的词频,对热词集合中的各个热词按照不同的词频分布规律进行统计得到不同类型的热词子集合。本发明在从客户语料中筛选出热词集合后,根据热词集合中的各个热词按照不同的词频分布规律,对热词集合做了进一步划分,得到不同类型的热词子集合,从而可以满足不同运营角色的需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据公开的附图获得其他的附图。
图1为本发明实施例公开的一种热词统计方法流程图;
图2为本发明实施例公开的一种从热词集合中确定长期热词子集合的方法流程图;
图3为本发明实施例公开的一种从热词集合中确定短期突发热词子集合的方法流程图;
图4为本发明实施例公开的一种从热词集合中确定周期性热词子集合的方法流程图;
图5为本发明实施例公开的一种热词统计系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种热词统计方法、系统、电子设备和存储介质,获取预设时间段内的客户语料,对客户语料按照预设处理规则进行处理得到待选词集合,统计待选词集合中每个待选词出现的次数,得到每个待选词的词频,基于每个待选词的词频,从待选词集合中筛选出热词集合,热词集合中每个热词的词频高于待选词集合中非热词的词频,对热词集合中的各个热词按照不同的词频分布规律进行统计得到不同类型的热词子集合。本发明在从客户语料中筛选出热词集合后,根据热词集合中的各个热词按照不同的词频分布规律,对热词集合做了进一步划分,得到不同类型的热词子集合,从而可以满足不同运营角色的需求。
参见图1,本发明实施例公开的一种热词统计方法流程图,该方法包括:
步骤S101、获取预设时间段内的客户语料;
其中,预设时间段的取值依据实际需要而定,比如一个小时,本发明在此不做限定。
客户语料可以包括:客户与客服对应的语音信息和客户输入的文本信息。
步骤S102、对所述客户语料按照预设处理规则进行处理,得到待选词集合;
其中,预设处理规则包括但不限于:中文分词、停用词删除等等。
停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。对于一个给定的目的,任何一类的词语都可以被选作停用词。本实施例中的停用词可以由技术人员预先确定。
因此,步骤S102实现过程具体可以包括:
对客户语料进行中文分词和停用词删除,得到待选词集合。
步骤S103、统计所述待选词集合中每个待选词出现的次数,得到每个所述待选词的词频;
步骤S104、基于每个待选词的词频,从待选词集合中筛选出热词集合;
其中,所述热词集合中每个热词的词频高于所述待选词集合中非热词的词频。
当从待选词集合中筛选出热词集合后,待选词集合中剩余的待选词构成非热词集合。
在实际应用中,可以将待选词集合中各个待选词的词频按照由大到小的顺序进行排序,将排名前预设数量的待选词确定为热词,得到热词集合,比如将排名前100的待选词确定为热词,得到热词集合。
或者,将待选词集合中词频超过词频阈值的待选词确定为热词,得到热词集合。
步骤S105、对热词集合中的各个热词按照不同的词频分布规律进行统计,得到不同类型的热词子集合。
本实施例中,词频分布规律指的是待选词在客户语料中出现频次的分布规律。
其中,词频的分布规律可以为:热词的周期性,热词频次的变化幅度,等等,以满足不同运行角色的需求,比如,部门管理层关注长期热词,运营班长更关注短期热词等等。
不同类型的热词子集合可以包括但不限于:长期热词子集合、短期突发热词子集合和周期性热词子集合等等。
综上可知,本发明公开了一种热词统计方法,获取预设时间段内的客户语料,对客户语料按照预设处理规则进行处理得到待选词集合,统计待选词集合中每个待选词出现的次数,得到每个待选词的词频,基于每个待选词的词频,从待选词集合中筛选出热词集合,热词集合中每个热词的词频高于待选词集合中非热词的词频,对热词集合中的各个热词按照不同的词频分布规律进行统计得到不同类型的热词子集合。本发明在从客户语料中筛选出热词集合后,根据热词集合中的各个热词按照不同的词频分布规律,对热词集合做了进一步划分,得到不同类型的热词子集合,从而可以满足不同运营角色的需求。
为便于理解本发明所要保护的技术方案,本发明提供了几种对热词集合中的各个热词按照不同的词频分布规律进行统计,得到不同类型的热词子集合的实现过程。
参见图2,本发明实施例公开的一种从热词集合中确定长期热词子集合的方法流程图,该方法包括:
步骤S201、将热词集合中在客户语料中出现的次数一直稳定在预设区间内容中的热词,确定为长期热词;
其中,预设区间内容根据实际需要而定,本发明在此不做限定。
在实际应用中,还可以将热词集合按照时序划分成多个统计区间,首先确定各个统计区间中各个热词出现的次数,然后将出现的次数一直稳定在预设区间内容中的热词确定为长期热词。
步骤S201、对所述热词集合中所有的所述长期热词进行统计,得到长期热词子集合。
参见图3,本发明实施例公开的一种从热词集合中确定短期突发热词子集合的方法流程图,该方法包括:
步骤S301、将热词集合按照时序划分成多个统计区间;
其中,本实施例中的时序指的是热词在客户语料中出现的顺序。在统计热词中,对客户语料在实际应用中的发生的顺序进行统计。
步骤S302、将所述热词集合中在不同的所述统计区间中出现的次数为梯度分布,且梯度值大于梯度阈值的热词,确定为短期突发热词;
其中,梯度值的计算过程如下:
式中,Si表示梯度值,Fi表示当前统计区间的热词出现次数,Fi-1表示所述当前统计区间的上一个统计区间的热词出现次数,Fi-2表示所述上一个统计区间的上一个统计区间的热词出现次数,i表示当前统计区间在所有统计区间中的排序。
也即是说,本发明统计的是三个统计区间内的梯度值。在当前统计区间为所有统计区间中的第一个时,当前统计区间的上一个统计区间的热词出现次数为0。
步骤S303、对所述热词集合中所有的所述短期突发热词进行统计,得到短期突发热词子集合。
参见图4,本发明实施例公开的一种从热词集合中确定周期性热词子集合的方法流程图,该方法包括:
步骤S401、将热词集合按照时序划分成多个统计区间;
步骤S402、确定每个统计区间中的各个热词出现的次数;
步骤S403、将所述热词集合中在不同的所述统计区间中出现的次数成周期性分布的热词,确定为周期性热词;
在实际应用中,可以针对不同统计区间中相同热词出现的次数绘制热词出现次数的波动曲线,曲线的横轴对应统计区间的编号,曲线的纵轴对应每个统计区间同一热词出现的次数,根据绘制得到的曲线的走向,即可确定热词是否为周期性热词。
步骤S404、对所述热词集合中所有的所述周期性热词进行统计,得到周期性热词子集合。
需要特别说明的是,本发明可以针对不同的访问人,按照运行角色定制化显示热词类型。在实际应用中,本发明也支持按照业务领域进行划分,确定特定领域的热词情况。
与上述方法实施例相对应,本发明还公开了一种热词统计系统。
参见图5,本发明实施例公开的一种热词统计系统的结构示意图,该系统包括:
获取单元501,用于获取预设时间段内的客户语料;
其中,预设时间段的取值依据实际需要而定,比如一个小时,本发明在此不做限定。
客户语料可以包括:客户与客服对应的语音信息和客户输入的文本信息。
处理单元502,用于对所述客户语料按照预设处理规则进行处理,得到待选词集合;
其中,预设处理规则包括但不限于:中文分词、停用词删除等等。
因此,处理单元502具体可以用于:
对客户语料进行中文分词和停用词删除,得到待选词集合。
词频统计单元503,用于统计所述待选词集合中每个待选词出现的次数,得到每个所述待选词的词频;
筛选单元504,用于基于每个所述待选词的词频,从所述待选词集合中筛选出热词集合,所述热词集合中每个热词的词频高于所述待选词集合中非热词的词频;
其中,所述热词集合中每个热词的词频高于所述待选词集合中非热词的词频。
当从待选词集合中筛选出热词集合后,待选词集合中剩余的待选词构成非热词集合。
在实际应用中,可以将待选词集合中各个待选词的词频按照由大到小的顺序进行排序,将排名前预设数量的待选词确定为热词,得到热词集合,比如将排名前100的待选词确定为热词,得到热词集合。
或者,将待选词集合中词频超过词频阈值的待选词确定为热词,得到热词集合。
热词子集合统计单元505,用于对所述热词集合中的各个热词按照不同的词频分布规律进行统计,得到不同类型的热词子集合。
本实施例中,词频分布规律指的是待选词在客户语料中出现频次的分布规律。
其中,词频的分布规律可以为:热词的周期性,热词频次的变化幅度,等等,以满足不同运行角色的需求,比如,部门管理层关注长期热词,运营班长更关注短期热词等等。
不同类型的热词子集合可以包括但不限于:长期热词子集合、短期突发热词子集合和周期性热词子集合等等。
综上可知,本发明公开了一种热词统计系统,获取预设时间段内的客户语料,对客户语料按照预设处理规则进行处理得到待选词集合,统计待选词集合中每个待选词出现的次数,得到每个待选词的词频,基于每个待选词的词频,从待选词集合中筛选出热词集合,热词集合中每个热词的词频高于待选词集合中非热词的词频,对热词集合中的各个热词按照不同的词频分布规律进行统计得到不同类型的热词子集合。本发明在从客户语料中筛选出热词集合后,根据热词集合中的各个热词按照不同的词频分布规律,对热词集合做了进一步划分,得到不同类型的热词子集合,从而可以满足不同运营角色的需求。
为便于理解本发明所要保护的技术方案,本发明提供了几种对热词集合中的各个热词按照不同的词频分布规律进行统计,得到不同类型的热词子集合的实现过程。
热词子集合统计单元505具体可以包括:
长期热词确定子单元,用于将所述热词集合中在所述客户语料中出现的次数一直稳定在预设区间内容中的热词,确定为长期热词;
第一集合统计子单元,用于对所述热词集合中所有的所述长期热词进行统计,得到长期热词子集合。
其中,其中,预设区间内容根据实际需要而定,本发明在此不做限定。
在实际应用中,还可以将热词集合按照时序划分成多个统计区间,首先确定各个统计区间中各个热词出现的次数,然后将出现的次数一直稳定在预设区间内容中的热词确定为长期热词。
热词子集合统计单元505具体还可以包括:
第一划分子单元,用于将所述热词集合按照时序划分成多个统计区间;
短期突发热词确定子单元,用于将所述热词集合中在不同的所述统计区间中出现的次数为梯度分布,且梯度值大于梯度阈值的热词,确定为短期突发热词;
第二集合统计子单元,用于对所述热词集合中所有的所述短期突发热词进行统计,得到短期突发热词子集合。
其中,本实施例中的时序指的是热词在客户语料中出现的顺序。在统计热词中,对客户语料在实际应用中的发生的顺序进行统计。
热词子集合统计单元505具体还可以包括:
第二划分子单元,用于将所述热词集合按照时序划分成多个统计区间;
次数确定子单元,用于确定每个统计区间中的各个热词出现的次数;
周期性热词确定子单元,用于将所述热词集合中在不同的所述统计区间中出现的次数成周期性分布的热词,确定为周期性热词;
第三集合统计子单元,用于对所述热词集合中所有的所述周期性热词进行统计,得到周期性热词子集合。
在实际应用中,可以针对不同统计区间中相同热词出现的次数绘制热词出现次数的波动曲线,曲线的横轴对应统计区间的编号,曲线的纵轴对应每个统计区间同一热词出现的次数,根据绘制得到的曲线的走向,即可确定热词是否为周期性热词。
本发明还公开了一种电子设备,包括:存储器和处理器;
所述存储器用于存储至少一个指令;
所述处理器用于执行所述至少一个指令以实现如上述所述的热词统计方法。
本发明还公开了一种存储介质,存储介质存储有至少一个指令,所述至少一个指令被处理器执行是实现上述所述的热词统计方法。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (12)
1.一种热词统计方法,其特征在于,包括:
获取预设时间段内的客户语料;
对所述客户语料按照预设处理规则进行处理,得到待选词集合;
统计所述待选词集合中每个待选词出现的次数,得到每个所述待选词的词频;
基于每个所述待选词的词频,从所述待选词集合中筛选出热词集合,所述热词集合中每个热词的词频高于所述待选词集合中非热词的词频;
对所述热词集合中的各个热词按照不同的词频分布规律进行统计,得到不同类型的热词子集合,包括:将所述热词集合按照时序划分成多个统计区间,确定每个统计区间中的各个热词出现的次数,根据每个所述统计区间中的各个热词出现的次数,对所述热词集合中的各个热词的词频分布规律进行统计。
2.根据权利要求1所述的热词统计方法,其特征在于,所述对所述热词集合中的各个热词按照不同的词频分布规律进行统计,得到不同类型的热词子集合,具体包括:
将所述热词集合中在所述客户语料中出现的次数一直稳定在预设区间内容中的热词,确定为长期热词;
对所述热词集合中所有的所述长期热词进行统计,得到长期热词子集合。
3.根据权利要求1所述的热词统计方法,其特征在于,所述对所述热词集合中的各个热词按照不同的词频分布规律进行统计,得到不同类型的热词子集合,具体包括:
将所述热词集合中在不同的所述统计区间中出现的次数为梯度分布,且梯度值大于梯度阈值的热词,确定为短期突发热词;
对所述热词集合中所有的所述短期突发热词进行统计,得到短期突发热词子集合。
4.根据权利要求1所述的热词统计方法,其特征在于,所述对所述热词集合中的各个热词按照不同的词频分布规律进行统计,得到不同类型的热词子集合,具体包括:
将所述热词集合中在不同的所述统计区间中出现的次数成周期性分布的热词,确定为周期性热词;
对所述热词集合中所有的所述周期性热词进行统计,得到周期性热词子集合。
5.根据权利要求1所述的热词统计方法,其特征在于,所述对所述客户语料按照预设处理规则进行处理,得到待选词集合,具体包括:
对所述客户语料进行中文分词和停用词删除,得到所述待选词集合。
6.一种热词统计系统,其特征在于,包括:
获取单元,用于获取预设时间段内的客户语料;
处理单元,用于对所述客户语料按照预设处理规则进行处理,得到待选词集合;
词频统计单元,用于统计所述待选词集合中每个待选词出现的次数,得到每个所述待选词的词频;
筛选单元,用于基于每个所述待选词的词频,从所述待选词集合中筛选出热词集合,所述热词集合中每个热词的词频高于所述待选词集合中非热词的词频;
热词子集合统计单元,用于对所述热词集合中的各个热词按照不同的词频分布规律进行统计,得到不同类型的热词子集合,包括:将所述热词集合按照时序划分成多个统计区间,确定每个统计区间中的各个热词出现的次数,根据每个所述统计区间中的各个热词出现的次数,对所述热词集合中的各个热词的词频分布规律进行统计。
7.根据权利要求6所述的热词统计系统,其特征在于,所述热词子集合统计单元具体包括:
长期热词确定子单元,用于将所述热词集合中在所述客户语料中出现的次数一直稳定在预设区间内容中的热词,确定为长期热词;
第一集合统计子单元,用于对所述热词集合中所有的所述长期热词进行统计,得到长期热词子集合。
8.根据权利要求6所述的热词统计系统,其特征在于,所述热词子集合统计单元具体包括:
第一划分子单元,用于将所述热词集合按照时序划分成多个统计区间;
短期突发热词确定子单元,用于将所述热词集合中在不同的所述统计区间中出现的次数为梯度分布,且梯度值大于梯度阈值的热词,确定为短期突发热词;
第二集合统计子单元,用于对所述热词集合中所有的所述短期突发热词进行统计,得到短期突发热词子集合。
9.根据权利要求6所述的热词统计系统,其特征在于,所述热词子集合统计单元具体包括:
第二划分子单元,用于将所述热词集合按照时序划分成多个统计区间;
次数确定子单元,用于确定每个统计区间中的各个热词出现的次数;
周期性热词确定子单元,用于将所述热词集合中在不同的所述统计区间中出现的次数成周期性分布的热词,确定为周期性热词;
第三集合统计子单元,用于对所述热词集合中所有的所述周期性热词进行统计,得到周期性热词子集合。
10.根据权利要求6所述的热词统计系统,其特征在于,所述处理单元具体用于:
对所述客户语料进行中文分词和停用词删除,得到所述待选词集合。
11.一种电子设备,其特征在于,包括存储器和处理器;
所述存储器用于存储至少一个指令;
所述处理器用于执行所述至少一个指令以实现如权利要求1~5任意一项所述的热词统计方法。
12.一种存储介质,其特征在于,所述存储介质存储有至少一个指令,所述至少一个指令被处理器执行是实现如权利要求1~5任意一项所述的热词统计方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110486427.7A CN113051893B (zh) | 2021-04-30 | 2021-04-30 | 一种热词统计方法、系统、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110486427.7A CN113051893B (zh) | 2021-04-30 | 2021-04-30 | 一种热词统计方法、系统、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113051893A CN113051893A (zh) | 2021-06-29 |
CN113051893B true CN113051893B (zh) | 2024-01-26 |
Family
ID=76518140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110486427.7A Active CN113051893B (zh) | 2021-04-30 | 2021-04-30 | 一种热词统计方法、系统、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113051893B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019771A (zh) * | 2017-07-28 | 2019-07-16 | 北京国双科技有限公司 | 文本处理的方法及装置 |
CN111353087A (zh) * | 2018-12-20 | 2020-06-30 | 北京京东尚科信息技术有限公司 | 热词统计方法及装置、存储介质、电子终端 |
CN111694930A (zh) * | 2020-06-11 | 2020-09-22 | 中国农业科学院农业信息研究所 | 一种动态知识热点演化及趋势分析方法 |
-
2021
- 2021-04-30 CN CN202110486427.7A patent/CN113051893B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019771A (zh) * | 2017-07-28 | 2019-07-16 | 北京国双科技有限公司 | 文本处理的方法及装置 |
CN111353087A (zh) * | 2018-12-20 | 2020-06-30 | 北京京东尚科信息技术有限公司 | 热词统计方法及装置、存储介质、电子终端 |
CN111694930A (zh) * | 2020-06-11 | 2020-09-22 | 中国农业科学院农业信息研究所 | 一种动态知识热点演化及趋势分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113051893A (zh) | 2021-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102131099B1 (ko) | 지식 그래프에 기초한 사용자 인터페이스 요소의 동적 수정 방법 | |
US20180260484A1 (en) | Method, Apparatus, and Device for Generating Hot News | |
US8135692B2 (en) | Information retrieval apparatus and computer program | |
CN106528894B (zh) | 设置标签信息的方法及装置 | |
US20220188366A1 (en) | Combined Wide And Deep Machine Learning Models For Automated Database Element Processing Systems, Methods And Apparatuses | |
CN110232126A (zh) | 热点挖掘方法及服务器和计算机可读存储介质 | |
US20190073346A1 (en) | Method And System For Image Tagging In A Social Network | |
JP2012226649A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US9454568B2 (en) | Method, apparatus and computer storage medium for acquiring hot content | |
CN112534410B (zh) | 一种用于管理移动设备及其计算机程序产品中的事件通知的装置和方法 | |
JP2007528531A (ja) | カテゴリ別のキーワードの入力順位を提供するための検索サービスシステムおよびその方法 | |
CN113051893B (zh) | 一种热词统计方法、系统、电子设备和存储介质 | |
CN109558531A (zh) | 新闻信息推送方法、装置以及计算机设备 | |
US11216894B2 (en) | Image-based semantic accommodation search | |
JP2017219899A (ja) | ナレッジ検索装置、ナレッジ検索方法、および、ナレッジ検索プログラム | |
CN110633302A (zh) | 一种海量结构化数据的处理方法及装置 | |
JP5068358B2 (ja) | 回答者抽出装置及びその方法 | |
CN115757973A (zh) | 推荐系统的排序方法、装置、设备及可读存储介质 | |
WO2022150573A1 (en) | Providing ambient information based on learned user context and interaction, and associated systems and devices | |
US11321375B2 (en) | Text object management system | |
CN114143590A (zh) | 一种视频播放方法、服务器及存储介质 | |
CN109670108B (zh) | 一种信息过滤方法及装置 | |
US20160148095A1 (en) | Electronic calculating apparatus, method thereof and non-transitory machine-readable medium thereof for sensing context and recommending information | |
CN111935204A (zh) | 一种节目推荐方法、装置及电子设备 | |
CN111190996A (zh) | 话题挖掘方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |