CN110069635A - 一种热度词的确定方法及装置 - Google Patents

一种热度词的确定方法及装置 Download PDF

Info

Publication number
CN110069635A
CN110069635A CN201910364424.9A CN201910364424A CN110069635A CN 110069635 A CN110069635 A CN 110069635A CN 201910364424 A CN201910364424 A CN 201910364424A CN 110069635 A CN110069635 A CN 110069635A
Authority
CN
China
Prior art keywords
temperature
word
preset time
term vector
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910364424.9A
Other languages
English (en)
Inventor
王千
黄楷
梁新敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Miaozhen Information Technology Co Ltd
Miaozhen Systems Information Technology Co Ltd
Original Assignee
Miaozhen Systems Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Miaozhen Systems Information Technology Co Ltd filed Critical Miaozhen Systems Information Technology Co Ltd
Priority to CN201910364424.9A priority Critical patent/CN110069635A/zh
Publication of CN110069635A publication Critical patent/CN110069635A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种热度词的确定方法及装置,其中,该确定方法包括获取连续多个预设时间段中每个预设时间段对应的热度词向量;将连续多个预设时间段对应的多个热度词向量进行聚合处理,得到连续多个预设时间段的热度词。本申请提供的热度词的确定方法中,首先获取连续多个预设时间段对应的热度词向量,其中,每个预设时间段对应的热度词向量为预先计算得到的;然后将连续多个预设时间段对应的多个热度词向量进行聚合处理,得到连续多个预设时间段的热度词,相比于利用LDA模型直接在连续多个预设时间段中预推定子文本分布,并通过抽样操作实现热度词的计算,效率较高,同时也提高了热度词的实时性。

Description

一种热度词的确定方法及装置
技术领域
本申请涉及数据挖掘技术领域,具体而言,涉及一种热度词的确定方法及装置。
背景技术
用户在微信、微博、论坛等互联网平台发表的评议、讨论等文本信息,反映了当前舆情对于某些事件、活动的关注热度。基于这些文本信息,能够发掘出用户的兴趣区间以及热度事件的热度词。
但是由于事件、活动等具备时效性,不同时间区间的用户原创内容(UserGenerated Content,UGC)聚焦的热度词,会由于高热度事件的高关注度使得用户发表的评议或言论远高于其他零散事件,从而该时间区间提取的热度词会呈现出高热度覆盖低热度。因此,基于某个时间区间的文本信息,难以准确、快速地提取出该时间区间低热度事件对应的热度词。
现有技术中,采用隐含狄利克雷模型(Latent Dirichlet Allocation,LDA)提取出文本的热度词的。但是,LDA模型考虑了全局词之间的共现关系,涉及大量抽样操作,再进行拟合生成该预设时间段内的热度词,耗时较长。
发明内容
有鉴于此,本申请实施例的目的在于提供一种热度词的确定方法及装置,能够提高确定热度词的效率,实时性高。
第一方面,本申请实施例提供了一种热度词的确定方法,其中,包括:
获取连续多个预设时间段中每个预设时间段对应的热度词向量;
将所述连续多个预设时间段对应的多个热度词向量进行聚合处理,得到所述连续多个预设时间段的热度词。
结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,所述连续多个预设时间段对应的多个热度词向量进行聚合处理,得到所述连续多个预设时间段的热度词,包括:
针对每个热度词向量,将所述热度词向量进行标准化处理,得到标准热度词向量;
利用多时区聚合算法对所述多个标准热度词向量进行计算,得到最终热度词向量;
根据所述最终热度词向量,确定所述连续多个预设时间段的热度词。
结合第一方面的第一种可能的实施方式,本申请实施例提供了第一方面的第二种可能的实施方式,其中,所述将所述热度词的向量进行标准化处理,得到标准热度词向量,包括:
将所述热度词向量中的每个初始元素按照如下公式进行计算,得到该元素对应的替换元素;其中,所述初始元素为所述预设时间段的热度词的权值;
其中,所述公式如下:
X=(x-μ)/σ;
其中,所述X表示所述替换元素,所述x表示所述初始元素,所述μ表示向量平均值,所述σ表示向量标准差;
将所述替换元素对所述初始元素进行替换,得到所述标准热度词向量。
结合第一方面,本申请实施例提供了第一方面的第三种可能的实施方式,其中,在获取连续多个预设时间段中每个预设时间段对应的热度词向量之前,还包括:
获取预设时间段对应的多个目标文本;
针对每个目标文本,基于词汇之间的共现关系,得到所述目标文本的热度词及每个热度词概率;
基于所述目标文本的热度词及每个热度词概率,确定该目标文本对应的热度词向量;
将所述预设时间段对应的多个热度词向量进行聚合处理,得到所述预设时间段的热度词。
结合第一方面的第三种可能的实施方式,本申请实施例提供了第一方面的第四种可能的实施方式,其中,所述目标文本包括短文本;所述基于词汇之间的共现关系,得到所述目标文本的热度词及每个热度词概率,包括:
从所述目标文本中筛选出文本字符个数小于第一预设阈值的文本,作为短文本;
基于所述短文本包括的词汇之间的共现关系,得到所述预设时间段的热度词及每个热度词概率。
结合第一方面的第三种可能的实施方式,本申请实施例提供了第一方面的第五种可能的实施方式,其中,所述目标文本包括长文本;所述基于词汇之间的共现关系,得到所述目标文本的热度词及每个热度词概率,包括:
从所述目标文本中筛选出文本字符个数大于或等于第一预设阈值的文本,作为长文本;
基于所述长文本包括的词汇之间的共现关系,得到所述预设时间段的热度词及每个热度词概率。
第二方面,本申请实施例还提供了一种热度词的确定装置,其中,包括:
获取模块,用于获取连续多个预设时间段中每个预设时间段对应的热度词向量;
聚合模块,用于将所述连续多个预设时间段对应的多个热度词向量进行聚合处理,得到所述连续多个预设时间段的热度词。
结合第二方面,本申请实施例提供了第二方面的第一种可能的实施方式,其中,所述聚合模块包括:
标准化单元,用于针对每个热度词向量,将所述热度词向量进行标准化处理,得到标准热度词向量;
硬聚类单元,用于利用多时区聚合算法对所述多个标准热度词向量进行计算,得到最终热度词向量;
确定单元,用于根据所述最终热度词向量,确定所述连续多个预设时间段的热度词。
结合第二方面的第一种可能的实施方式,本申请实施例提供了第二方面的第二种可能的实施方式,其中,所述标准化单元,具体用于:
将所述热度词向量中的每个初始元素按照如下公式进行计算,得到该元素对应的替换元素;其中,所述初始元素为所述预设时间段的热度词的权值;
其中,所述公式如下:
X=(x-μ)/σ;
其中,所述X表示所述替换元素,所述x表示所述初始元素,所述μ表示向量平均值,所述σ表示向量标准差;
将所述替换元素对所述初始元素进行替换,得到所述标准热度词向量。
结合第二方面,本申请实施例提供了第二方面的第三种可能的实施方式,其中,还包括:
确定模块,用于获取预设时间段对应的多个目标文本;
针对每个目标文本,基于词汇之间的共现关系,得到所述目标文本的热度词及每个热度词概率;
基于所述目标文本的热度词及每个热度词概率,确定该目标文本对应的热度词向量;
将所述预设时间段对应的多个热度词向量进行聚合处理,得到所述预设时间段的热度词。
本申请实施例提供的一种热度词的确定方法及装置,其中,该确定方法包括获取连续多个预设时间段对应的热度词向量;将连续多个预设时间段对应的多个热度词向量进行聚合处理,得到连续多个预设时间段的热度词。本申请提供的热度词的确定方法中,首先获取连续多个预设时间段对应的热度词向量,其中,每个预设时间段对应的热度词向量为预先计算得到的;然后将连续多个预设时间段对应的多个热度词向量进行聚合处理,得到连续多个预设时间段的热度词,相比于利用LDA模型直接在连续多个预设时间段中预推定子文本分布,并通过抽样操作实现热度词的计算,效率较高,同时也提高了热度词的实时性。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种热度词的确定方法的流程图;
图2示出了本申请实施例所提供的另一种热度词的确定方法的流程图;
图3示出了本申请实施例所提供的另一种热度词的确定方法的流程图;
图4示出了本申请实施例所提供的一种热度词的确定装置的结构示意图;
图5示出了本申请实施例所提供的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,采用LDA模型提取出文本的热度词的。但是,LDA模型考虑了全局词之间的共现关系,涉及大量抽样操作,再进行拟合生成该预设时间段内的热度词,耗时较长。针对上述问题,本申请实施例提供的一种热度词的确定方法及装置,能够提高确定热度词的效率,实时性高。
为便于对本申请实施例进行理解,首先对本申请实施例所公开的一种热度词的确定方法进行详细介绍。
如图1所示,为本申请实施例以服务器为执行主体时热度词的确定方法的流程图,具体步骤如下:
S101,获取连续多个预设时间段中每个预设时间段对应的热度词向量。
在具体实施中,预设时间段可以是一周,还可以是一个月。
针对每个预设时间段,均可以获取该预设时间段内的热度词,进而了解社会关注的热点话题。
在确定每个预设时间段的热度词时,同时可以得到该预设时间段对应的热度词向量,具体的计算方法,在后文中进行详细阐述,在此不做过多赘述。
服务器可以将每个预设时间段对应的热度词向量进行存储,其中,可以按照计算时间的先后顺序进行存储。
S102,将连续多个预设时间段对应的多个热度词向量进行聚合处理,得到连续多个预设时间段的热度词。
在服务器获取到连续多个预设时间段对应的热度词向量之后,服务器将按照预设算法将连续多个预设时间段对应的热度词向量进行聚合处理,得到该连续多个预设时间段的热度词。
例如,预设时间段设置为10天时,获取2019年4月1号至2019年4月10号对应的热度词向量,2019年4月11号至2019年4月20号对应的热度词向量,2019年4月21号至2019年4月30号对应的热度词向量,将上述三个热度词向量进行聚合处理,便可以得到2019年4月1号至2019年4月30号的热度词。相比于利用LDA模型从2019年4月1号至2019年4月30号内进行抽样操作,再进行拟合生成2019年4月1号至2019年4月30号的热度词,效率较高,同时也提高了热度词的实时性。
值得说明的是,各预设时间段的热度词向量是可以并行计算的,相对于逐个对预设时间段的热度词向量进行计算,在一定程度上提高了效率。利用本申请实施例提供的方法,不仅可以实时计算截止至当前时间点的热度词,还可以根据用户需求,计算任意时间段以及任意时间段长度的热度词,例如,可以计算2018年4-6月的热度词,还可以计算2018年5-8月的热度词等,便捷快速。
如图2所示,为将连续多个预设时间段对应的多个热度词向量进行聚合处理的方法,其中,具体步骤如下:
S201,针对每个热度词向量,将热度词向量进行标准化处理,得到标准热度词向量;
S202,利用多时区聚合算法对多个标准热度词向量进行计算,得到最终热度词向量;
S203,根据最终热度词向量,确定连续多个预设时间段的热度词。
在具体实施中,对热度词向量进行标准化处理时,可以针对每个热度词向量中包括的每个元素进行处理。
具体的,将热度词向量中的每个初始元素按照如下公式进行计算,得到该元素对应的替换元素;其中,初始元素为预设时间段的热度词的权值;
其中,公式如下:
X=(x-μ)/σ;
其中,X表示替换元素,x表示初始元素,μ表示向量平均值,σ表示向量标准差;
将替换元素对初始元素进行替换,便可以得到标准热度词向量。
在具体实施中,通过将热度词向量进行标准化处理,可以减小热度词向量中的极大值或极小值对确定热度词产生的影响,可以精确地筛选出预设时间段内的热度词。
在计算出标准热度词向量之后,利用多时区聚合算法对多个标准热度词向量进行计算,将每个热度词进行编码,将每个热度词及对应的权值组成坐标值,将预设时间段内所有的热度词对应的坐标值,按照多时区聚合算法计算得到多个热度词组。其中,得到的热度词组的个数与目标文本的个数可以相同,也可以不同。
将每个热度词组中每个热度词的权值按照从高到低进行排列,利用Softmax函数,对热度词组中包括的每个热度词的权值进行归一化操作,得到最终热度词向量。
基于编码与热度词之间的对应关系,根据最终热度词向量确定该连续多个预设时间段的热度词。
本申请实施例基于连续多个预设时间段对应的多个热度词向量,将各预设时间段对应的热度词向量进行聚合处理,便可确定连续多个预设时间段内的热度词,不仅提高了确定热度词的效率,还提高了热度词的实时性。
在获取连续多个预设时间段对应的热度词向量之前,按照图3的方法计算每个预设时间段对应的热度词向量,其中,具体步骤如下:
S301,获取预设时间段对应的多个目标文本。
在具体实施中,针对某一平台,例如微博,可以每天获取多个热度较高的微博文本,将其作为目标文本。在预设时间段内则得到该预设时间段对应的多个目标文本。
S302,针对每个目标文本,基于词汇之间的共现关系,得到目标文本的热度词及每个热度词概率。
这里,在对每个目标文本进行分析时,首先将目标文本包括的所有词汇进行清洗,包括去除昵称词汇(包括你、我、他等),利用固定词汇将目标文本中的表情、网址、手机号码、座机号码、恶意词汇等进行替换,利用目标文本对应的行业词典将目标文本进行分词处理等。
在一篇文章中出现的两个词汇之间,一定具有某种共现关系,在本申请实施例中,针对该目标文本中包括的多个词汇中,利用词汇与词汇之间的共现关系,计算目标文本中的词汇,得到该目标文本的热度词及每个词概率。
在具体实施中,目标文本包括短文本和/或长文本,其中,短文本为文本字符个数小于第一预设阈值的文本,长文本为文本字符个数大于或等于第一预设阈值的文本。
在目标文本仅包括短文本时,从目标文本中筛选出文本字符个数小于第一预设阈值的文本,作为短文本;利用词汇与词汇之间的共现关系,计算短文本中的词汇,得到该短文本的热度词及每个词概率,该短文本的热度词及每个词概率即为目标文本的热度词及每个词概率。
在目标文本仅包括长文本时,从目标文本中筛选出文本字符个数大于或等于第一预设阈值的文本,作为长文本;利用词汇与词汇之间的共现关系,计算长文本中的词汇,得到该长文本的热度词及每个词概率,该长文本的热度词及每个词概率即为目标文本的热度词及每个词概率。
其中,在目标文本既包括短文本,又包括长文本时,将短文本的热度词和长文本的热度词的集合,作为目标文本的热度词。
值得说明的是,在具体实施中可以利用预先LDA模型来筛选出每个目标文本的热度词,该LDA模型在训练时,均利用预设时间段内的多个目标文本样本来进行训练的,以使得利用LDA模型在实际应用中精确度较高。
并且,针对短文本,可以训练对应的短文本LDA模型,针对长文本,同样训练对应的长文本LDA模型,以使得更加合理、有效的提取出目标文本的热度词。
S303,基于目标文本的热度词及每个热度词概率,确定该目标文本对应的热度词向量。
在具体实施中,得到目标文本的热度词以及每个热度词概率之后,计算该目标文本包括的子文本条数,将热度词概率与目标文本包括的词汇个数进行乘法计算,得到该热度词的权值,即该热度词在该目标文本中出现的次数。其中,每个目标文本中包括多个子文本条数。
基于目标文本的热度词的权值,确定该目标文本对应的热度词向量。例如,该预设时间段对应有两个目标文本,分别为文本A和文本B,并且根据上述方法得到每个目标文本为两个热度词,分别为A1,A2,B1,B2,其中,A1的权值为58,A2的权值为70,B1的权值为61,B2的权值为67。则文本A对应热度词向量为(58,70,0,0),文本B对应热度词向量为(0,0,61,67)。
S304,将预设时间段对应的多个热度词向量进行聚合处理,得到预设时间段的热度词。
在具体实施中,将预设时间段对应的多个热度词向量进行聚合处理的具体方法可以按照上述聚合方法进行聚合,在此不做过多赘述。
在对多个热度词向量进行聚合处理之后,便可以得到该预设时间段的热度词。
基于同一发明构思,本申请实施例还提供了与热度词的确定方法对应的热度词的确定装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述热度词的确定方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参见图4所示,本申请又一实施例所提供的热度词的确定装置包括:
获取模块401,用于获取连续多个预设时间段中每个预设时间段对应的热度词向量;
聚合模块402,用于将所述连续多个预设时间段对应的多个热度词向量进行聚合处理,得到所述连续多个预设时间段的热度词。
在一种实施方式中,所述所述聚合模块402包括:
标准化单元4021,用于针对每个热度词向量,将所述热度词向量进行标准化处理,得到标准热度词向量;
硬聚类单元4022,用于利用多时区聚合算法对所述多个标准热度词向量进行计算,得到最终热度词向量;
确定单元4023,用于根据所述最终热度词向量,确定所述连续多个预设时间段的热度词。。
在另一种实施方式中,所述标准化单元4021,具体用于:
将所述热度词向量中的每个初始元素按照如下公式进行计算,得到该元素对应的替换元素;其中,所述初始元素为所述预设时间段的热度词的权值;
其中,所述公式如下:
X=(x-μ)/σ;
其中,所述X表示所述替换元素,所述x表示所述初始元素,所述μ表示向量平均值,所述σ表示向量标准差;
将所述替换元素对所述初始元素进行替换,得到所述标准热度词向量。
在又一种实施方式中,上述热度词的确定装置还包括:
确定模块403,用于获取预设时间段对应的多个目标文本;
针对每个目标文本,基于词汇之间的共现关系,得到所述目标文本的热度词及每个热度词概率;
基于所述目标文本的热度词及每个热度词概率,确定该目标文本对应的热度词向量;
将所述预设时间段对应的多个热度词向量进行聚合处理,得到所述预设时间段的热度词。
在再一种实施方式中,所述目标文本包括短文本;上述确定模块403,还具体用于:
从所述目标文本中筛选出文本字符个数小于第一预设阈值的文本,作为短文本;
基于所述短文本包括的词汇之间的共现关系,得到所述预设时间段的热度词及每个热度词概率。
在再一种实施方式中,所述目标文本包括短文本;上述确定模块403,还具体用于:
从所述目标文本中筛选出文本字符个数大于或等于第一预设阈值的文本,作为长文本;
基于所述长文本包括的词汇之间的共现关系,得到所述预设时间段的热度词及每个热度词概率。
图5描述了本发明实施例提供的一种电子设备500的结构,该电子设备500包括:至少一个处理器501,至少一个网络接口504或者其他用户接口503,存储器505,至少一个通信总线502。通信总线502用于实现这些组件之间的连接通信。该电子设备500可选的包含用户接口503,包括显示器(例如,触摸屏、LCD、CRT、全息成像(Holographic)或者投影(Projector)等),键盘或者点击设备(例如,鼠标,轨迹球(trackball),触感板或者触摸屏等)。
存储器505可以包括只读存储器和随机存取存储器,并向处理器501提供指令和数据。存储器505的一部分还可以包括非易失性随机存取存储器(NVRAM)。
在一些实施方式中,存储器505存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:
操作系统5051,包含各种系统程序,用于实现各种基础业务以及处理基于硬件的任务;
应用程序模块5052,包含各种应用程序,例如桌面(launcher)、媒体播放器(MediaPlayer)、浏览器(Browser)等,用于实现各种应用业务。
在本发明实施例中,通过调用存储器505存储的程序或指令,处理器501用于:
获取连续多个预设时间段中每个预设时间段对应的热度词向量;
将所述连续多个预设时间段对应的多个热度词向量进行聚合处理,得到所述连续多个预设时间段的热度词。
可选地,处理器501执行的方法中,所述连续多个预设时间段对应的多个热度词向量进行聚合处理,得到所述连续多个预设时间段的热度词,包括:
针对每个热度词向量,将所述热度词向量进行标准化处理,得到标准热度词向量;
利用多时区聚合算法对所述多个标准热度词向量进行计算,得到最终热度词向量;
根据所述最终热度词向量,确定所述连续多个预设时间段的热度词。
可选地,处理器501执行的方法中,所述将所述热度词的向量进行标准化处理,得到标准热度词向量,包括:
将所述热度词向量中的每个初始元素按照如下公式进行计算,得到该元素对应的替换元素;其中,所述初始元素为所述预设时间段的热度词的权值;
其中,所述公式如下:
X=(x-μ)/σ;
其中,所述X表示所述替换元素,所述x表示所述初始元素,所述μ表示向量平均值,所述σ表示向量标准差;
将所述替换元素对所述初始元素进行替换,得到所述标准热度词向量。
可选地,处理器501执行的方法中,在获取连续多个预设时间段中每个预设时间段对应的热度词向量之前,还包括:
获取预设时间段对应的多个目标文本;
针对每个目标文本,基于词汇之间的共现关系,得到所述目标文本的热度词及每个热度词概率;
基于所述目标文本的热度词及每个热度词概率,确定该目标文本对应的热度词向量;
将所述预设时间段对应的多个热度词向量进行聚合处理,得到所述预设时间段的热度词。
可选地,处理器501执行的方法中,所述目标文本包括短文本;所述基于词汇之间的共现关系,得到所述目标文本的热度词及每个热度词概率,包括:
从所述目标文本中筛选出文本字符个数小于第一预设阈值的文本,作为短文本;
基于所述短文本包括的词汇之间的共现关系,得到所述预设时间段的热度词及每个热度词概率。
可选地,处理器501执行的方法中,所述目标文本包括长文本;所述基于词汇之间的共现关系,得到所述目标文本的热度词及每个热度词概率,包括:
从所述目标文本中筛选出文本字符个数大于或等于第一预设阈值的文本,作为长文本;
基于所述长文本包括的词汇之间的共现关系,得到所述预设时间段的热度词及每个热度词概率。
本申请实施例所提供的热度词的确定方法及装置的计算机程序产品,包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行前面方法实施例中的方法,具体实现可参见方法实施例,在此不再赘述。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够提高确定热度词的效率,实时性高。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种热度词的确定方法,其特征在于,包括:
获取连续多个预设时间段中每个预设时间段对应的热度词向量;
将所述连续多个预设时间段对应的多个热度词向量进行聚合处理,得到所述连续多个预设时间段的热度词。
2.根据权利要求1所述的确定方法,其特征在于,所述连续多个预设时间段对应的多个热度词向量进行聚合处理,得到所述连续多个预设时间段的热度词,包括:
针对每个热度词向量,将所述热度词向量进行标准化处理,得到标准热度词向量;
利用多时区聚合算法对多个标准热度词向量进行计算,得到最终热度词向量;
根据所述最终热度词向量,确定所述连续多个预设时间段的热度词。
3.根据权利要求2所述的确定方法,其特征在于,所述将所述热度词的向量进行标准化处理,得到标准热度词向量,包括:
将所述热度词向量中的每个初始元素按照如下公式进行计算,得到该元素对应的替换元素;其中,所述初始元素为所述预设时间段的热度词的权值;
其中,所述公式如下:
X=(x-μ)/σ;
其中,所述X表示所述替换元素,所述x表示所述初始元素,所述μ表示向量平均值,所述σ表示向量标准差;
将所述替换元素对所述初始元素进行替换,得到所述标准热度词向量。
4.根据权利要求1所述的确定方法,其特征在于,在获取连续多个预设时间段中每个预设时间段对应的热度词向量之前,还包括:
获取预设时间段对应的多个目标文本;
针对每个目标文本,基于词汇之间的共现关系,得到所述目标文本的热度词及每个热度词概率;
基于所述目标文本的热度词及每个热度词概率,确定该目标文本对应的热度词向量;
将所述预设时间段对应的多个热度词向量进行聚合处理,得到所述预设时间段的热度词。
5.根据权利要求4所述的确定方法,其特征在于,所述目标文本包括短文本;所述基于词汇之间的共现关系,得到所述目标文本的热度词及每个热度词概率,包括:
从所述目标文本中筛选出文本字符个数小于第一预设阈值的文本,作为短文本;
基于所述短文本包括的词汇之间的共现关系,得到所述预设时间段的热度词及每个热度词概率。
6.根据权利要求4所述的确定方法,其特征在于,所述目标文本包括长文本;所述基于词汇之间的共现关系,得到所述目标文本的热度词及每个热度词概率,包括:
从所述目标文本中筛选出文本字符个数大于或等于第一预设阈值的文本,作为长文本;
基于所述长文本包括的词汇之间的共现关系,得到所述预设时间段的热度词及每个热度词概率。
7.一种热度词的确定装置,其特征在于,包括:
获取模块,用于获取连续多个预设时间段中每个预设时间段对应的热度词向量;
聚合模块,用于将所述连续多个预设时间段对应的多个热度词向量进行聚合处理,得到所述连续多个预设时间段的热度词。
8.根据权利要求7所述的确定装置,其特征在于,所述聚合模块包括:
标准化单元,用于针对每个热度词向量,将所述热度词向量进行标准化处理,得到标准热度词向量;
硬聚类单元,用于利用多时区聚合算法对所述多个标准热度词向量进行计算,得到最终热度词向量;
确定单元,用于根据所述最终热度词向量,确定所述连续多个预设时间段的热度词。
9.根据权利要求8述的确定装置,其特征在于,所述标准化单元,具体用于:
将所述热度词向量中的每个初始元素按照如下公式进行计算,得到该元素对应的替换元素;其中,所述初始元素为所述预设时间段的热度词的权值;
其中,所述公式如下:
X=(x-μ)/σ;
其中,所述X表示所述替换元素,所述x表示所述初始元素,所述μ表示向量平均值,所述σ表示向量标准差;
将所述替换元素对所述初始元素进行替换,得到所述标准热度词向量。
10.根据权利要求7所述的确定装置,其特征在于,还包括:
确定模块,用于获取预设时间段对应的多个目标文本;
针对每个目标文本,基于词汇之间的共现关系,得到所述目标文本的热度词及每个热度词概率;
基于所述目标文本的热度词及每个热度词概率,确定该目标文本对应的热度词向量;
将所述预设时间段对应的多个热度词向量进行聚合处理,得到所述预设时间段的热度词。
CN201910364424.9A 2019-04-30 2019-04-30 一种热度词的确定方法及装置 Pending CN110069635A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910364424.9A CN110069635A (zh) 2019-04-30 2019-04-30 一种热度词的确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910364424.9A CN110069635A (zh) 2019-04-30 2019-04-30 一种热度词的确定方法及装置

Publications (1)

Publication Number Publication Date
CN110069635A true CN110069635A (zh) 2019-07-30

Family

ID=67370149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910364424.9A Pending CN110069635A (zh) 2019-04-30 2019-04-30 一种热度词的确定方法及装置

Country Status (1)

Country Link
CN (1) CN110069635A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737555A (zh) * 2020-06-18 2020-10-02 苏州朗动网络科技有限公司 热点关键词的选取方法、设备和存储介质

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030033295A1 (en) * 2001-07-11 2003-02-13 Adler Marc Stephen Method for analyzing and recording innovations
US20070112760A1 (en) * 2005-11-15 2007-05-17 Powerreviews, Inc. System for dynamic product summary based on consumer-contributed keywords
CN101419625A (zh) * 2008-12-02 2009-04-29 西安交通大学 一种基于最小可查询模式的Deep Web自适应爬取方法
CN101706807A (zh) * 2009-11-27 2010-05-12 清华大学 一种中文网页新词自动获取方法
CN101727494A (zh) * 2009-12-29 2010-06-09 华中师范大学 特定区域内网络热词生成系统
CN103198146A (zh) * 2013-04-19 2013-07-10 中国科学院计算技术研究所 面向网络流式数据的事件实时过滤方法和系统
CN104199846A (zh) * 2014-08-08 2014-12-10 杭州电子科技大学 基于维基百科的评论主题词聚类方法
CN105718440A (zh) * 2014-12-03 2016-06-29 南开大学 基于聚合加权矩阵压缩算法的文本语义表示方法
CN106066856A (zh) * 2016-05-24 2016-11-02 北京工商大学 一种基于编辑距离以及词频和词向量的实体关系识别方法
CN106599029A (zh) * 2016-11-02 2017-04-26 焦点科技股份有限公司 一种中文短文本聚类方法
CN106777191A (zh) * 2016-12-23 2017-05-31 北京奇虎科技有限公司 一种基于搜索引擎的检索模式生成方法及装置
CN106874419A (zh) * 2017-01-22 2017-06-20 北京航空航天大学 一种多粒度实时热点聚合方法
CN107273913A (zh) * 2017-05-11 2017-10-20 武汉理工大学 一种基于多特征融合的短文本相似度计算方法
CN108363821A (zh) * 2018-05-09 2018-08-03 深圳壹账通智能科技有限公司 一种信息推送方法、装置、终端设备及存储介质
CN109086375A (zh) * 2018-07-24 2018-12-25 武汉大学 一种基于词向量增强的短文本主题抽取方法
CN109446329A (zh) * 2018-11-08 2019-03-08 大连瀚闻资讯有限公司 一种舆情分析的热点识别方法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030033295A1 (en) * 2001-07-11 2003-02-13 Adler Marc Stephen Method for analyzing and recording innovations
US20070112760A1 (en) * 2005-11-15 2007-05-17 Powerreviews, Inc. System for dynamic product summary based on consumer-contributed keywords
CN101419625A (zh) * 2008-12-02 2009-04-29 西安交通大学 一种基于最小可查询模式的Deep Web自适应爬取方法
CN101706807A (zh) * 2009-11-27 2010-05-12 清华大学 一种中文网页新词自动获取方法
CN101727494A (zh) * 2009-12-29 2010-06-09 华中师范大学 特定区域内网络热词生成系统
CN103198146A (zh) * 2013-04-19 2013-07-10 中国科学院计算技术研究所 面向网络流式数据的事件实时过滤方法和系统
CN104199846A (zh) * 2014-08-08 2014-12-10 杭州电子科技大学 基于维基百科的评论主题词聚类方法
CN105718440A (zh) * 2014-12-03 2016-06-29 南开大学 基于聚合加权矩阵压缩算法的文本语义表示方法
CN106066856A (zh) * 2016-05-24 2016-11-02 北京工商大学 一种基于编辑距离以及词频和词向量的实体关系识别方法
CN106599029A (zh) * 2016-11-02 2017-04-26 焦点科技股份有限公司 一种中文短文本聚类方法
CN106777191A (zh) * 2016-12-23 2017-05-31 北京奇虎科技有限公司 一种基于搜索引擎的检索模式生成方法及装置
CN106874419A (zh) * 2017-01-22 2017-06-20 北京航空航天大学 一种多粒度实时热点聚合方法
CN107273913A (zh) * 2017-05-11 2017-10-20 武汉理工大学 一种基于多特征融合的短文本相似度计算方法
CN108363821A (zh) * 2018-05-09 2018-08-03 深圳壹账通智能科技有限公司 一种信息推送方法、装置、终端设备及存储介质
CN109086375A (zh) * 2018-07-24 2018-12-25 武汉大学 一种基于词向量增强的短文本主题抽取方法
CN109446329A (zh) * 2018-11-08 2019-03-08 大连瀚闻资讯有限公司 一种舆情分析的热点识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737555A (zh) * 2020-06-18 2020-10-02 苏州朗动网络科技有限公司 热点关键词的选取方法、设备和存储介质

Similar Documents

Publication Publication Date Title
JP6661790B2 (ja) テキストタイプを識別する方法、装置及びデバイス
JP2019519019A5 (zh)
WO2013073377A1 (ja) 情報拡散規模予測装置、情報拡散規模予測方法、および情報拡散規模予測プログラム
CN111210335A (zh) 用户风险识别方法、装置及电子设备
US20190311035A1 (en) Prediction of tone of interpersonal text communications
CN112070545B (zh) 用于优化信息触达的方法、装置、介质和电子设备
CN112204610A (zh) 基于神经网络的电子内容
Tian et al. Pricing barrier and American options under the SABR model on the graphics processing unit
CN110069635A (zh) 一种热度词的确定方法及装置
Flouri et al. Efficient Bayesian inference under the multispecies coalescent with migration
CN114792097B (zh) 预训练模型提示向量的确定方法、装置及电子设备
Chiong et al. Split-second decision-making in the field: Response times in mobile advertising
CN114925275A (zh) 产品推荐方法、装置、计算机设备及存储介质
CN110837596B (zh) 一种智能推荐方法、装置、计算机设备及存储介质
JP2013088939A (ja) 情報処理装置、情報処理方法、及びプログラム
CN110942192A (zh) 犯罪概率的确定方法及装置
CN110033351A (zh) 一种相似度的确定方法及装置
CN114764472A (zh) 一种内容推送方法及装置
CN110929123A (zh) 一种电商产品竞争分析方法及系统
CN113706204B (zh) 基于深度学习的权益发放方法、装置、设备及存储介质
CN114579860B (zh) 用户行为画像生成方法、装置、电子设备及存储介质
JP2013257747A (ja) 自由時間推定装置、方法、及びプログラム
JP2013088930A (ja) 情報処理装置、情報処理方法、及びプログラム
Cha et al. A data-driven visual simulation of fire phenomena
CN104809059A (zh) 应用上线指标的检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190730

RJ01 Rejection of invention patent application after publication