CN108733706B - 热度信息的生成方法和装置 - Google Patents
热度信息的生成方法和装置 Download PDFInfo
- Publication number
- CN108733706B CN108733706B CN201710263136.5A CN201710263136A CN108733706B CN 108733706 B CN108733706 B CN 108733706B CN 201710263136 A CN201710263136 A CN 201710263136A CN 108733706 B CN108733706 B CN 108733706B
- Authority
- CN
- China
- Prior art keywords
- target
- user behavior
- words
- behavior
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000006399 behavior Effects 0.000 claims abstract description 388
- 238000001914 filtration Methods 0.000 claims description 45
- 239000013598 vector Substances 0.000 claims description 14
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000015654 memory Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 241000283690 Bos taurus Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种热度信息的生成方法和装置。该方法包括:获取关键词集合,关键词集合包括:多个关键词;根据关键词集合获取扩展词集合,扩展词集合中的词语包括:多个关键词以及与多个关键词中的每个关键词相似的相似词;从预定的用户行为数据集合中获取与扩展词集合中的词语匹配的目标用户行为数据,目标用户行为数据至少用于指示用户行为、用户行为执行的次数、用户行为所属的行为类型;根据目标用户行为数据生成每个行为类型的热度信息,行为类型的热度信息用于指示行为类型的热度。本发明解决了相关技术针对单个词的指数分析,分析结果所反映的热度信息的覆盖面较窄,进而导致热度信息的准确度较低的技术问题。
Description
技术领域
本发明涉及计算机领域,具体而言,涉及一种热度信息的生成方法和装置。
背景技术
随着互联网社交产品的多样性变化以及用户群规模的不断膨胀,互联网所覆盖的范围越来越大。基于互联网产品来定义的指数也越来越多,例如google趋势,百度指数,360指数等,这些指数可以用于度量互联网用户对某一事物的热度及变化趋势。例如,百度指数是以百度海量网民行为数据为基础的数据分享平台,是当前互联网乃至整个数据时代最重要的统计分析平台之一,自发布之日便成为众多企业营销决策的重要依据。百度指数能够反映:某个关键词在百度的搜索规模有多大,一段时间内的涨跌态势以及相关的新闻舆论变化,关注这些词的网民是什么样的,分布在哪里,同时还搜了哪些相关的词等,百度指数可以帮助用户优化数字营销活动方案。但是,相关技术针对单个词的指数分析,分析结果所反映的热度信息的覆盖面较窄,进而导致热度信息的准确度较低,无法为数字营销提供准确的数据支持。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种热度信息的生成方法和装置,以至少解决相关技术针对单个词的指数分析,分析结果所反映的热度信息的覆盖面较窄,进而导致热度信息的准确度较低的技术问题。
根据本发明实施例的一个方面,提供了一种热度信息的生成方法,包括:获取关键词集合,其中,关键词集合包括:多个关键词;根据关键词集合获取扩展词集合,其中,扩展词集合中的词语包括:多个关键词以及与多个关键词中的每个关键词相似的相似词;从预定的用户行为数据集合中获取与扩展词集合中的词语匹配的目标用户行为数据,其中,目标用户行为数据至少用于指示用户行为、用户行为执行的次数、用户行为所属的行为类型;根据目标用户行为数据生成每个行为类型的热度信息,其中,行为类型的热度信息用于指示行为类型的热度。
根据本发明实施例的另一方面,还提供了一种热度信息的生成装置,包括:第一获取单元,用于获取关键词集合,其中,关键词集合包括:多个关键词;第二获取单元,用于根据关键词集合获取扩展词集合,其中,扩展词集合中的词语包括:多个关键词以及与多个关键词中的每个关键词相似的相似词;第三获取单元,用于从预定的用户行为数据集合中获取与扩展词集合中的词语匹配的目标用户行为数据,其中,目标用户行为数据至少用于指示用户行为、用户行为执行的次数、用户行为所属的行为类型;生成单元,用于根据目标用户行为数据生成每个行为类型的热度信息,其中,行为类型的热度信息用于指示行为类型的热度。
在本发明实施例中,通过根据关键词集合获取扩展词集合,使得关键词所覆盖的范围较广,然后从预定的用户行为数据集合中获取与扩展词集合中的词语匹配的目标用户行为数据,以便于根据目标用户行为数据生成每个行为类型的热度信息,达到了增加所生成的热度信息的覆盖范围的目的,进而解决了相关技术针对单个词的指数分析,分析结果所反映的热度信息的覆盖面较窄,进而导致热度信息的准确度较低的技术问题,从而实现了提高热度信息的准确度的技术效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的热度信息的生成方法的硬件环境的示意图;
图2是根据本发明实施例的一种可选的热度信息的生成方法的流程图;
图3是根据本发明优选实施例的构建金融指数的流程图;
图4是根据本发明优选实施例的金融指数以及各个金融产品的指数的展示示意图;
图5是根据本发明实施例的一种可选的热度信息的生成装置的示意图;
图6是根据本发明实施例的一种另可选的热度信息的生成装置的示意图;
图7是根据本发明实施例的一种另可选的热度信息的生成装置的示意图;
图8是根据本发明实施例的一种另可选的热度信息的生成装置的示意图;
图9是根据本发明实施例的一种另可选的热度信息的生成装置的示意图;
图10是根据本发明实施例的一种另可选的热度信息的生成装置的示意图;
图11是根据本发明实施例的一种另可选的热度信息的生成装置的示意图;
图12是根据本发明实施例的一种另可选的热度信息的生成装置的示意图;以及
图13是根据本发明实施例的一种终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本发明实施例进行描述的过程中出现的部分名词或者术语适用于如下解释:
指数:从广义上说,反映现象总体数量变动的相对数都是指数,狭义的指数在于反映复杂现象总体数量上的变动,常见的指数有股票指数(如上证指数),消费者物价指数(CPI),空气指数等。
实施例1
根据本发明实施例,提供了一种热度信息的生成方法的方法实施例。
可选地,在本实施例中,上述热度信息的生成方法可以应用于如图1所示的由服务器102和终端104所构成的硬件环境中。如图1所示,服务器102通过网络与终端104进行连接,上述网络包括但不限于:广域网、城域网或局域网,终端104并不限定于PC、手机、平板电脑等。本发明实施例的热度信息的生成方法可以由服务器102来执行,也可以由终端104来执行,还可以是由服务器102和终端104共同执行。其中,终端104执行本发明实施例的热度信息的生成方法也可以是由安装在其上的客户端来执行。
图2是根据本发明实施例的一种可选的热度信息的生成方法的流程图,如图2所示,该方法可以包括以下步骤:
步骤S202,获取关键词集合,其中,关键词集合包括:多个关键词;
步骤S204,根据关键词集合获取扩展词集合,其中,扩展词集合中的词语包括:多个关键词以及与多个关键词中的每个关键词相似的相似词;
步骤S206,从预定的用户行为数据集合中获取与扩展词集合中的词语匹配的目标用户行为数据,其中,目标用户行为数据至少用于指示用户行为、用户行为执行的次数、用户行为所属的行为类型;
步骤S208,根据目标用户行为数据生成每个行为类型的热度信息,其中,行为类型的热度信息用于指示行为类型的热度。
通过上述步骤S202至步骤S208,通过根据关键词集合获取扩展词集合,使得关键词所覆盖的范围较广,然后从预定的用户行为数据集合中获取与扩展词集合中的词语匹配的目标用户行为数据,以便于根据目标用户行为数据生成每个行为类型的热度信息,达到了增加所生成的热度信息的覆盖范围的目的,进而解决了相关技术针对单个词的指数分析,分析结果所反映的热度信息的覆盖面较窄,进而导致热度信息的准确度较低的技术问题,从而实现了提高热度信息的准确度的技术效果。
在步骤S202提供的技术方案中,本发明实施例中的关键词集合可以为待分析热点信息的目标领域所涉及的所有的关键词的集合,其中,本发明实施例对目标领域并不做具体限定,例如,金融领域、游戏领域、视频领域等。目标领域所涉及的所有的关键词可以按照该目标领域中的产品对象的类型进行分类,也就是说,关键词集合中可以包括至少一个产品对象所对应的关键词子集,每个关键词子集中还可以包括该产品对象所涉及的多个关键词。例如,金融领域的关键词集合中可以包括“股票”这一金融产品所对应的关键词子集{股票|上证指数|A股},其中,该关键词子集中包括三个关键词。再例如,游戏领域的关键词集合中可以包括“QQ炫舞”这一游戏产品所对应的关键词子集{QQ炫舞|舞步|舞曲|角色},其中,该关键词子集中包括四个关键词。需要说明的是,上述举例只是一种简单示意,在实际应用中关键词集合中的多个关键词的数量可以很大,以便于能够基于大量关键词获取到更加准确的热点信息。
在实际应用场景中,本发明实施例可以采取以下方式获取关键词集合:服务器可以从海量词语中筛选与待分析热点信息的目标领域相关的词语添加至关键词集合中;或者,利用数据采集与数据处理技术预先采集并保存与待分析热点信息的目标领域相关的词语,以便于服务器直接获取,该方式能够减少服务器执行数据处理所消耗的系统资源,能够优化服务器系统性能。需要说明的是,本发明实施例还可以采用其他方式获取关键词集合,此处不再一一举例说明。
在步骤S204提供的技术方案中,在获取关键词集合之后,为了使得待分析热度信息的目标领域所涉及的关键词更加丰富,以便于准确生成该目标领域的热度信息,本发明实施例可以根据该关键词集合获取扩展词集合,此处需要说明的是,该扩展词集合除了包括关键词集合中的多个关键词之外,还可以包括与关键词集合中的多个关键词相似的相似词。
作为一种可选的实施例,步骤S204根据关键词集合获取扩展词集合可以包括步骤S2042至步骤S2044,具体地:
步骤S2042,从相似词集合中获取与多个关键词中的每个关键词相似的目标相似词。
需要说明的是,相似词集合可以为由google的开源工具word2vec预先生成,该相似词集合中可以包括多个相似词组,每个相似词组中包括至少两个相似的相似词。该可选实施例可以利用相似词集合获取与关键词集合中的每个关键词相似的词语作为目标相似词,然后将这些目标相似词与关键词集合中的多个关键词组成扩展词集合。
可选地,步骤S2042从相似词集合中获取与多个关键词中的每个关键词相似的目标相似词可以包括:
对于关键词集合中的每个关键词,可以执行以下步骤S20422,其中,每个关键词均可以被视为当前关键词:
步骤S20422,在当前关键词的相似词集合中查找与当前关键词相似的目标相似词,其中,与当前关键词相似的目标相似词与当前关键词之间的向量距离小于或等于预定阈值。
需要说明的是,针对关键词集合中的每个当前关键词,如果在相似词集合中能够查找到与该当前关键词之间的向量距离小于等于预定阈值的词语,则可以将查找到的该词语作为该当前关键词的目标相似词,需要说明的是,预定阈值可以根据实际情况确定,此处不做具体限定,还需要说明的是,此处的向量距离可以理解为两个词向量之间的距离;如果在相似词集合中并未查找到与该当前关键词之间的向量距离小于等于预定阈值的词语,则确定不存在与该当前关键词相似的目标相似词。此处需要说明的是,词向量之间的距离的计算方法本发明实施例不做具体限定,凡是能够计算词向量之间的距离所采用的方法均属于本发明实施例的保护范围。
还需要说明的是,在对关键词集合中的每个关键词查找目标相似词之后,便可以将查找到的一个或者多个目标相似词以及关键词集合中的多个关键词组成扩展词集合。该可选实施例利用词向量之间的距离确定与关键词集合中的关键词相似的目标相似词,能够达到提高所确定的目标相似词的准确度的目的。而且,将关键词集合中的多个关键词以及与这些关键词相似的相似词组成扩展词集合,利用扩展词集合生成目标领域的热点信息,能够达到提高热度信息的准确度的效果。
在利用步骤S2042得到扩展词集合之后,为了提高所得到的扩展词的准确度,防止扩展词集合中存在重复多余的词语,该可选实施例还可以执行以下步骤:
步骤S2044,在多个关键词和目标相似词中过滤掉无效词,得到扩展词集合。
需要说明的是,利用步骤S2042所得到的扩展词集合中可能存在无效词,该无效词可以是重复词语、具有包含关系的词语或者可能引入噪音的词语。为了提高扩展词集合中的词语的准确度,该可选实施例可以利用一下步骤S20442至步骤S20446过滤掉扩展词集合中的无效词,具体地:
步骤S20442,展示多个关键词和目标相似词;
步骤S20444,接收过滤指令,其中,过滤指令中携带需要过滤掉的无效词;
步骤S20446,响应过滤指令,在多个关键词和目标相似词中过滤掉无效词,得到扩展词集合。
在上述步骤S20442至步骤S20446中,过滤指令中可以携带有需要过滤掉的无效词,其中,无效词的个数可以是一个,也可以是多个,需要说明的是,该过滤指令可以为用户根据实际需求所触发生成的指令,也可以为根据预定的过滤策略生成的过滤指令,此处不做具体限定。在得到扩展词集合之后,服务器可以向用户展示该扩展词集合中的多个关键词以及与其相似的目标相似词,用户可以根据实际需求选择是否需要触发过滤指令,在用户选择触发过滤指令的情况下,服务器在接收到该过滤指令之后,可以对其进行响应从多个关键词以及与其相似的目标相似词中过滤掉过滤指令中所携带的需要过滤掉的无效词,以便于得到准确地扩展词集合。
例如,关键词集合{股票|上证指数|A股}经步骤S2042后被扩展为{股票|股票型|炒股|股市|上证指数|深证指数|A股|港股|美股|散户|股份},该扩展词集合中“股票型”和“股票”是有包含关系的词,在数据挖掘中是重复的可以剔除,而“股份”是可能会给后续挖掘数据引入噪音的关键词也可以剔除。
可选地,服务器响应过滤指令可以逐个地从多个关键词和目标相似词中过滤掉无效词,每过滤掉一个无效词,向用户所展示的扩展词集合便会更新一次,以便于使得用户可以清楚地掌握过滤进度,并根据实际需求灵活地选择是否进行再次过滤或者停止过滤,进而达到了便于用户灵活控制的目的。
该可选实施例通过对扩展词集合进行无效词过滤,能够达到提高扩展词集合的准确度,进而提高根据扩展词集合所生成的热度信息的准确度的效果。
在步骤S206提供的技术方案中,预定的用户行为数据集合可以包括用户在待分析热度信息的目标领域中所执行的大量用户行为的数据,例如,金融领域的预定的用户行为数据集合可以包括用户在涉及网站上的所有金融行为,如阅读金融类新闻资讯、转发分享相关内容、安装金融类APP、加入金融兴趣群等。本发明实施例在获取到扩展词集合之后,可以从预定的用户行为数据集合中获取与该扩展词集合中的词语相匹配的目标用户行为数据,其中,目标用户行为数据可以至少用于指示用户行为、用户行为执行的次数、用户行为所述的行为类型等,除上述列举的指示信息之外,本发明实施例中的目标用户行为数据还可以用于指示用户行为的执行对象的类型、用户行为的执行时间、用户行为的执行频率等信息。例如,某一用户搜索了一次关键词xx股票,则记录该行为是[金融行为|搜索|股票|一次],其中,金融行为为该用户行为所述的行为类型,搜索为该用户行为,一次为该用户行为执行的次数,股票为金融产品类型;再例如,某一用户安装了“陆金所”的APP,则记录该行为是[金融行为|安装APP|p2p理财|一次],其中,金融行为为该用户行为所述的行为类型,安装APP为该用户行为,一次为该用户行为执行的次数,p2p理财为金融产品类型。
需要说明的是,目标用户行为数据可以为预定的用户行为数据集合中的与扩展词集合中的词语相匹配的用户行为数据,此处的相匹配可以理解为目标用户行为数据所指示的用户行为或者行为类型与扩展词集合中的词语相匹配,可选地可以理解为:目标用户行为数据中用于指示用户行为或者行为类型的行为信息中可以包括扩展词集合中的词语;或者目标用户行为数据中用于指示用户行为或者行为类型的行为信息中可以包括与扩展词集合中的词语相关的词语,此处的相关可以理解为相似或者具有某种关联关系。
基于对目标用户行为数据与扩展词集合中的词语相匹配的理解,作为一种可选的实施例,步骤S206从预定的用户行为数据集合中获取与扩展词集合中的词语匹配的目标用户行为数据可以包括:步骤S2062,在用户行为数据集合中查找目标用户行为数据,其中,目标用户行为数据所指示的用户行为或行为类型与扩展词集合中的词语匹配,具体地,目标用户行为数据中用于指示用户行为或者行为类型的行为信息中可以包括扩展词集合中的词语,或者与扩展词集合中的词语相关的词语。
例如,扩展词集合为{股票炒股|股市|上证指数|深证指数|A股|港股|美股|散户},其中,扩展词集合中的词语包括“股票”,则通过从预定的用户行为数据中查找包括该“股票”的目标用户行为数据[金融行为|搜索|股票|一次],其中,行为类型为金融行为与该“股票”相匹配,具体地,目标用户行为数据中的行为信息包括该“股票”。
该可选实施例通过从预定的用户行为数据中查找与扩展词集合中的词语相匹配的用户行为数据作为目标行为数据,能够使得查找到的目标用户行为数据与扩展词集合中词语的相关度更高,进而使得根据目标用户行为数据所生成的热度信息更加准确。
在步骤S208提供的技术方案中,本发明实施例中的扩展词集合可以包括多个词语,与每个词语相匹配的目标用户行为数据可以为一个,也可以为多个,其中,多个目标用户行为数据中的每个目标用户行为数据所指示的行为类型可以全部相同,也可以部分相同,还可以全不相同。当多个目标用户行为数据只是多个行为类型时,本发明实施例可以根据目标用户行为数据分别计算每个行为类型的热度信息,其中,每种行为类型的热度信息可以用于指示该行为类型的热度。
作为一种可选的实施例,步骤S208所述根据所述目标用户行为数据生成每个所述行为类型的热度信息可以包括:
步骤S2082,根据所述目标用户行为数据计算每个所述行为类型的热度指数,其中,所述行为类型的热度指数用于指示所述行为类型的热度信息,所述行为类型的热度指数为属于所述行为类型的用户行为执行的次数与预先分配给所述属于所述行为类型的用户行为的权重的乘积。
需要说明的是,行为类型的热度指数可以用于指示行为类型的热度信息,其中,行为类型的热度指数越大说明该行为类型的热度越高,行为类型的热度指数越小说明该行为类型的热度越低。在属于该行为类型的用户行为只包括一个用户行为的情况下,该行为类型的热度指数=该用户行为执行的次数×预先分配给该用户行为的权重,其中,预先分配给用户行为的权重可以根据实际需求设定,此处不做具体限定。在属于该行为类型的用户行为包括多个用户行为的情况下,该行为类型的 其中,N为属于该行为类型的用户行为的个数,Ci为第i个用户行为执行的次数,Wi为预先分配给第i个用户行为的权重。
例如,属于金融行为这一行为类型的用户行为有:[金融行为|搜索|股票|一次],其中,该用户行为执行的次数为1,预先分配给该用户行为的权重为0.5;[金融行为|安装APP|p2p理财|一次],其中,该用户行为执行的次数为1×0.5+1×1.9=2.4。
作为一种可选的实施例,在步骤S208根据目标用户行为数据生成每个行为类型的热度信息之后,该可选实施例还可以包括:
步骤S209,展示预定时间段内的每个行为类型的热度信息。
需要说明的是,在获取到每个行为类型的热度信息之后,可以将这些行为类型的热度信息进行对比展示,以便于用户可以直观清楚地进行对比分析每个行为类型的热度以及各个行为类型的热度差异。该可选实施例对行为类型的热度信息的展示方式不做具体限定,例如多个行为类型的热度信息可以以曲线对比图形式展示,也可以以柱状图形式展示。还需要说明的是,该可选实施例还可以展示预定时间段内的每个行为类型的热度信息,其中,预定时间段可以根据实际分析求设定,此处不做具体限定,这样能够实现清楚地分析出每个行为类型的热度变化趋势的目的。
作为一种可选的实施例,在步骤S208根据目标用户行为数据生成每个行为类型的热度信息之后,该可选实施例还可以包括:
步骤S210,在预定的应用中投放与每个行为类型的热度信息匹配的媒体资源。
需要说明的是,在分析得到每个行为类型的热度信息之后,该可选实施例可以确定与其相匹配的媒体资源,可选地,媒体资源可以包括但并不限于广告、音频、视频等形式。该可选实施例可以在预定的应用中投放与每个行为类型的热度信息相匹配的媒体资源,其中,该可选实施例对预定的应用的类型也不做具体限定,例如,浏览器应用、视频客户端应用、游戏客户端应用、理财客户端应用等。还需要说明的是,该可选实施例对与每个行为类型的热度信息匹配的媒体资源的投放方式也不做具体限定,例如,该媒体资源可以在应用启动时进行投放,也可以在应用启动之后按照预定时间间隔投放。
该可选实施例以每个行为类型的热度信息为依据,在预定的应用中投放与其匹配的媒体资源,能够达到提升用户对所投放的媒体资源的兴趣,进而增加所投放的媒体资源的曝光率的目的。
本发明实施例的热度信息的生成方法可以适用于各个领域的热度分析,例如金融领域,游戏领域、视频领域等。下面的优选实施例以金融领域的热度分析为例对本发明实施例的热度信息的生成方法再做进一步说明。
由于近年互联网金融的蓬勃发展,用户在互联网社交体系涉及行业的行为越来越多,比如用户会在牛市到来时在社交平台上广泛讨论股市行情,用户也会在房价暴涨时在各社交平台上热烈议论房价相关话题。衡量互联网用户的金融行业关注热度,本发明还提供了一种优选实施例,该优选实施例提供了一种社交金融指数的构建方案用以跟踪金融行业的热度趋势。该方案中的社交金融指数是基于互联网社交产品以腾讯海量网民行为数据为基础构建的体现用户在金融领域热度的度量,包括用户金融热度指数、用户证券热度指数、用户房地产热度指数、保险热度指数等。金融指数可以告诉大家行业的整体趋势、地域分布、人群属性;也可以看出哪些细分领域的变化趋势。
在该方案中,社交金融指数基于腾讯海量网民在众多产品上的行为数据,通过word2vec技术手段筛选出关键词集作为金融词集。金融词集覆盖证券、理财、保险、贷款、房地产等产品类型。进一步使用关键词匹配、行为挖掘等手段构建用户在各金融产品上的金融行为集,该金融行为集包括产品类型、行为类型、行为频率、行为时间等信息。在金融行为集的基础上构建金融指数:根据产品类型、行为类型、行为次数等属性计算加权和作为指数值。结合用户画像:年龄、性别、地域、学历、职业等可以计算出更多纬度的指数。比如北京市的金融指数,比如70后/80后的金融指数,比如硕士学历人群的金融指数。金融指数按天来计算,数据积累一段时间即可得到一段时间的整体趋势。从金融产品层看,社交金融指数包括用户金融指数、理财指数、证券指数、保险指数、房地产指数,各指数支持细分,如股票指数、各p2p产品指数等。金融指数反正的是社交平台上用户在金融行为的热度趋势,为互联网金融广告主在社交媒体上投广告提供了大数据依据,可以预测受众数量、人群质量等。
该金融指数构建方案的执行流程可以如图3所示,具体可以包括以下步骤:
步骤S302,构建金融词集。针对各类金融产品,人工给出种子词集S。比如“股票”的词集如下(以下为简单例子,实际词集规模会大很多):{股票|上证指数|A股}。
步骤S304,基于相似词表扩展金融词库(相似词表可以使用google的开源工具word2vec生成)。扩展步骤具体如下:
对S中每个种子词Si进行相似词扩充得到Si扩充集E(Si)。遍历种子词集S,对于任意种子关键词Si从相似词表中查询距离Si小于等于n的关键词组成集合E(Si),即E(Si)={e(Si)|dis(e(Si)-Si)<=n},dis(e(Si)-Si)表示两个词向量的距离。
人工标注生成目标词集D。通过人工标注实现无效词过滤,得到最终在数据挖掘中使用的目标词集D。例如,金融词集{股票|上证指数|A股}经本步骤后被扩展为{股票|股票型|炒股|股市|上证指数|深证指数|A股|港股|美股|散户|股份},其中,“股票型”和“股票”是有包含关系的词,在数据挖掘中是重复的可以剔除;而“股份”是可能会给后续挖掘数据引入噪音的关键词也可以剔除。
步骤S306,构建用户金融行为集。在目标词集D的基础上通过关键词挖掘从海量用户行为数据中过滤出金融行为集。金融行为集覆盖用户在社交网站上的所有金融行为:如阅读金融类新闻资讯、转发分享相关内容、安装金融类APP(如平安证券、自选股等)、加入金融兴趣群等。例如:某一用户搜索了一次关键词xx股票,则记录该行为是[金融行为|搜寻|股票|一次],再例如:某一用户安装了“陆金所”的APP,则记录该行为是[金融行为|安装APP|p2p理财|一次]。
步骤S308,构建金融指数。在金融行为集的基础上汇总各金融产品的加权次数为当天的指数。例如,股票指数的计算方法如下:
其中,Istock为股票指数,Ci的行为次数,Wtype为权重,Wtype可以是按照人工经验分配的权重,比如用户阅读金融文章权重为1,转发金融文章为2等。
步骤S310,展示累计的金融指数的趋势。金融指数可以按天生成,累计一段时间,即可得到一段时间的金融指数的涨跌趋势。金融指数的趋势以及多个金融产品的指数的对比可以如图4所示,从图4中可以看出,该金融指数可以反映出一个金融产品的热度趋势以及关注热度,也可以看出不同的金融产品的热度差异。
金融指数反映的是社交平台上的金融热度趋势,为金融产品在社交媒体上投放广告提供了可靠的依据,对受众人数、质量提供了可预测的依据,还能提供给广告主社交平台上金融产品的活跃情况及趋势。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述热度信息的生成方法的热度信息的生成装置。图5是根据本发明实施例的一种可选的热度信息的生成装置的示意图,如图5所示,该装置可以包括:
第一获取单元22,用于获取关键词集合,其中,关键词集合包括:多个关键词;第二获取单元24,用于根据关键词集合获取扩展词集合,其中,扩展词集合中的词语包括:多个关键词以及与多个关键词中的每个关键词相似的相似词;第三获取单元26,用于从预定的用户行为数据集合中获取与扩展词集合中的词语匹配的目标用户行为数据,其中,目标用户行为数据至少用于指示用户行为、用户行为执行的次数、用户行为所属的行为类型;生成单元28,用于根据目标用户行为数据生成每个行为类型的热度信息,其中,行为类型的热度信息用于指示行为类型的热度。
需要说明的是,该实施例中的第一获取单元22可以用于执行本申请实施例1中的步骤S202,该实施例中的第二获取单元24可以用于执行本申请实施例1中的步骤S204,该实施例中的第三获取单元26可以用于执行本申请实施例1中的步骤S206,该实施例中的生成单元28可以用于执行本申请实施例1中的步骤S208。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
作为一种可选的实施例,如图6所示,第二获取单元24可以包括:获取模块242,用于从相似词集合中获取与多个关键词中的每个关键词相似的目标相似词;过滤模块244,用于在多个关键词和目标相似词中过滤掉无效词,得到扩展词集合。
需要说明的是,该实施例中的获取模块242可以用于执行本申请实施例1中的步骤S2042,该实施例中的过滤模块244可以用于执行本申请实施例1中的步骤S2044。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
作为一种可选的实施例,如图7所示,获取模块242可以包括:查找子模块2422,用于对于每个关键词,执行以下步骤,其中,每个关键词被视为当前关键词:在当前关键词的相似词集合中查找与当前关键词相似的目标相似词,其中,与当前关键词相似的目标相似词与当前关键词之间的向量距离小于或等于预定阈值。
需要说明的是,该实施例中的查找子模块2422可以用于执行本申请实施例1中的步骤S20422。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
作为一种可选的实施例,如图8所示,过滤模块244可以包括:展示子模块2442,用于展示多个关键词和目标相似词;接收子模块2444,用于接收过滤指令,其中,过滤指令中携带需要过滤掉的无效词;响应子模块2446,用于响应过滤指令,在多个关键词和目标相似词中过滤掉无效词,得到扩展词集合。
需要说明的是,该实施例中的展示子模块2442可以用于执行本申请实施例1中的步骤S20442,该实施例中的接收子模块2444可以用于执行本申请实施例1中的步骤S20444,该实施例中的响应子模块2446可以用于执行本申请实施例1中的步骤S20446。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
作为一种可选的实施例,如图9所示,第三获取单元26可以包括:查找模块262,用于在用户行为数据集合中查找目标用户行为数据,其中,目标用户行为数据所指示的用户行为或行为类型与扩展词集合中的词语匹配。
需要说明的是,该实施例中的查找模块262可以用于执行本申请实施例1中的步骤S2026。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
作为一种可选的实施例,查找模块262所查找到的目标用户行为数据所指示的用户行为或行为类型与扩展词集合中的词语匹配包括:目标用户行为数据中用于指示用户行为或行为类型的行为信息包括:扩展词集合中的词语,或,与扩展词集合中的词语相关的词语。
作为一种可选的实施例,如图10所示,生成单元28可以包括:计算模块282,用于根据所述目标用户行为数据计算每个所述行为类型的热度指数,其中,所述行为类型的热度指数用于指示所述行为类型的热度信息,所述行为类型的热度指数为属于所述行为类型的用户行为执行的次数与预先分配给所述属于所述行为类型的用户行为的权重的乘积。
需要说明的是,该实施例中的计算模块282可以用于执行本申请实施例1中的步骤S2082。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
作为一种可选的实施例,如图11所示,该装置还可以包括:展示单元29,用于在根据目标用户行为数据生成每个行为类型的热度信息之后,展示预定时间段内的每个行为类型的热度信息。
需要说明的是,该实施例中的展示单元29可以用于执行本申请实施例1中的步骤S209。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
作为一种可选的实施例,如图12所示,该装置还可以包括:投放单元210,用于在根据目标用户行为数据生成每个行为类型的热度信息之后,在预定的应用中投放与每个行为类型的热度信息匹配的媒体资源。
需要说明的是,该实施例中的投放单元210可以用于执行本申请实施例1中的步骤S210。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
通过上述模块,能够达到增加所生成的热度信息的覆盖范围的目的,进而解决了相关技术针对单个词的指数分析,分析结果所反映的热度信息的覆盖面较窄,进而导致热度信息的准确度较低的技术问题,从而实现了提高热度信息的准确度的技术效果。
实施例3
根据本发明实施例,还提供了一种用于实施上述热度信息的生成方法的终端。
图13是根据本发明实施例的一种终端的结构框图,如图13所示,该终端可以包括:一个或多个(图中仅示出一个)处理器201、存储器203、以及传输装置205,如图13所示,该终端还可以包括输入输出设备207。
其中,存储器203可用于存储软件程序以及模块,如本发明实施例中的热度信息的生成方法和装置对应的程序指令/模块,处理器201通过运行存储在存储器203内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的热度信息的生成方法。存储器203可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器203可进一步包括相对于处理器201远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的传输装置205用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置205包括一个网络适配器(NetworkInterface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置205为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
其中,具体地,存储器203用于存储应用程序。
处理器201可以调用存储器203存储的应用程序,以执行下述步骤:获取关键词集合,其中,关键词集合包括:多个关键词;根据关键词集合获取扩展词集合,其中,扩展词集合中的词语包括:多个关键词以及与多个关键词中的每个关键词相似的相似词;从预定的用户行为数据集合中获取与扩展词集合中的词语匹配的目标用户行为数据,其中,目标用户行为数据至少用于指示用户行为、用户行为执行的次数、用户行为所属的行为类型;根据目标用户行为数据生成每个行为类型的热度信息,其中,行为类型的热度信息用于指示行为类型的热度。
处理器201还用于执行下述步骤:从相似词集合中获取与多个关键词中的每个关键词相似的目标相似词;在多个关键词和目标相似词中过滤掉无效词,得到扩展词集合。
处理器201还用于执行下述步骤:对于每个关键词,执行以下步骤,其中,每个关键词被视为当前关键词:在当前关键词的相似词集合中查找与当前关键词相似的目标相似词,其中,与当前关键词相似的目标相似词与当前关键词之间的向量距离小于或等于预定阈值。
处理器201还用于执行下述步骤:展示多个关键词和目标相似词;接收过滤指令,其中,过滤指令中携带需要过滤掉的无效词;响应过滤指令,在多个关键词和目标相似词中过滤掉无效词,得到扩展词集合。
处理器201还用于执行下述步骤:在用户行为数据集合中查找目标用户行为数据,其中,目标用户行为数据所指示的用户行为或行为类型与扩展词集合中的词语匹配,目标用户行为数据中用于指示用户行为或行为类型的行为信息包括:扩展词集合中的词语,或,与扩展词集合中的词语相关的词语。
处理器201还用于执行下述步骤:根据所述目标用户行为数据计算每个所述行为类型的热度指数,其中,所述行为类型的热度指数用于指示所述行为类型的热度信息,所述行为类型的热度指数为属于所述行为类型的用户行为执行的次数与预先分配给所述属于所述行为类型的用户行为的权重的乘积。
处理器201还用于执行下述步骤:在根据目标用户行为数据生成每个行为类型的热度信息之后,展示预定时间段内的每个行为类型的热度信息。
处理器201还用于执行下述步骤:在根据目标用户行为数据生成每个行为类型的热度信息之后,在预定的应用中投放与每个行为类型的热度信息匹配的媒体资源。
采用本发明实施例,提供了一种热度信息的生成方案。通过根据关键词集合获取扩展词集合,使得关键词所覆盖的范围较广,然后从预定的用户行为数据集合中获取与扩展词集合中的词语匹配的目标用户行为数据,以便于根据目标用户行为数据生成每个行为类型的热度信息,达到了增加所生成的热度信息的覆盖范围的目的,进而解决了相关技术针对单个词的指数分析,分析结果所反映的热度信息的覆盖面较窄,进而导致热度信息的准确度较低的技术问题,从而实现了提高热度信息的准确度的技术效果。
可选地,本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图13所示的结构仅为示意,终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile InternetDevices,MID)、PAD等终端设备。图13其并不对上述电子装置的结构造成限定。例如,终端还可包括比图13中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图13所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例4
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行热度信息的生成方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
S1,获取关键词集合,其中,关键词集合包括:多个关键词;
S2,根据关键词集合获取扩展词集合,其中,扩展词集合中的词语包括:多个关键词以及与多个关键词中的每个关键词相似的相似词;
S3,从预定的用户行为数据集合中获取与扩展词集合中的词语匹配的目标用户行为数据,其中,目标用户行为数据至少用于指示用户行为、用户行为执行的次数、用户行为所属的行为类型;
S4,根据目标用户行为数据生成每个行为类型的热度信息,其中,行为类型的热度信息用于指示行为类型的热度。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:从相似词集合中获取与多个关键词中的每个关键词相似的目标相似词;在多个关键词和目标相似词中过滤掉无效词,得到扩展词集合。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:对于每个关键词,执行以下步骤,其中,每个关键词被视为当前关键词:在当前关键词的相似词集合中查找与当前关键词相似的目标相似词,其中,与当前关键词相似的目标相似词与当前关键词之间的向量距离小于或等于预定阈值。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:展示多个关键词和目标相似词;接收过滤指令,其中,过滤指令中携带需要过滤掉的无效词;响应过滤指令,在多个关键词和目标相似词中过滤掉无效词,得到扩展词集合。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:在用户行为数据集合中查找目标用户行为数据,其中,目标用户行为数据所指示的用户行为或行为类型与扩展词集合中的词语匹配,目标用户行为数据中用于指示用户行为或行为类型的行为信息包括:扩展词集合中的词语,或,与扩展词集合中的词语相关的词语。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:根据所述目标用户行为数据计算每个所述行为类型的热度指数,其中,所述行为类型的热度指数用于指示所述行为类型的热度信息,所述行为类型的热度指数为属于所述行为类型的用户行为执行的次数与预先分配给所述属于所述行为类型的用户行为的权重的乘积。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:在根据目标用户行为数据生成每个行为类型的热度信息之后,展示预定时间段内的每个行为类型的热度信息。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:在根据目标用户行为数据生成每个行为类型的热度信息之后,在预定的应用中投放与每个行为类型的热度信息匹配的媒体资源。
可选地,本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例,本实施例在此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (15)
1.一种热度信息的生成方法,其特征在于,包括:
获取与目标领域关联的关键词集合,其中,所述与目标领域关联的关键词集合包括:多个关键词;
根据所述与目标领域关联的关键词集合获取扩展词集合,其中,所述扩展词集合中的词语包括:所述多个关键词以及与所述多个关键词中的每个关键词相似的相似词;
从预定的用户行为数据集合中获取与所述扩展词集合中的词语匹配的目标用户行为数据,其中,所述目标用户行为数据至少用于指示用户行为、所述用户行为执行的次数、所述用户行为所属的行为类型;
根据所述目标用户行为数据生成与目标领域相关的每个所述行为类型的热度信息,其中,所述热度信息用于指示与目标领域相关的所述行为类型的热度;
根据与目标领域相关的每个所述行为类型的热度信息确定所述目标领域的热度指数。
2.根据权利要求1所述的方法,其特征在于,所述根据所述与目标领域关联的关键词集合获取扩展词集合包括:
从相似词集合中获取与所述多个关键词中的每个关键词相似的目标相似词;
在所述多个关键词和所述目标相似词中过滤掉无效词,得到所述扩展词集合。
3.根据权利要求2所述的方法,其特征在于,所述从相似词集合中获取与所述多个关键词中的每个关键词相似的目标相似词包括:
对于每个所述关键词,执行以下步骤,其中,所述每个所述关键词被视为当前关键词:在所述当前关键词的相似词集合中查找与所述当前关键词相似的目标相似词,其中,所述与所述当前关键词相似的目标相似词与所述当前关键词之间的向量距离小于或等于预定阈值。
4.根据权利要求2所述的方法,其特征在于,所述在所述多个关键词和所述目标相似词中过滤掉无效词,得到所述扩展词集合包括:
展示所述多个关键词和所述目标相似词;
接收过滤指令,其中,所述过滤指令中携带需要过滤掉的所述无效词;
响应所述过滤指令,在所述多个关键词和所述目标相似词中过滤掉所述无效词,得到所述扩展词集合。
5.根据权利要求1所述的方法,其特征在于,所述从预定的用户行为数据集合中获取与所述扩展词集合中的词语匹配的目标用户行为数据包括:
在所述用户行为数据集合中查找所述目标用户行为数据,其中,所述目标用户行为数据所指示的用户行为或行为类型与所述扩展词集合中的词语匹配。
6.根据权利要求5所述的方法,其特征在于,所述目标用户行为数据所指示的用户行为或行为类型与所述扩展词集合中的词语匹配包括:
所述目标用户行为数据中用于指示所述用户行为或行为类型的行为信息包括:所述扩展词集合中的词语,或,与所述扩展词集合中的词语相关的词语。
7.根据权利要求1所述的方法,其特征在于,所述根据所述目标用户行为数据生成与目标领域相关的每个所述行为类型的热度信息包括:
根据所述目标用户行为数据计算每个所述行为类型的热度指数,其中,所述行为类型的热度指数用于指示所述行为类型的热度信息,所述行为类型的热度指数为属于所述行为类型的用户行为执行的次数与预先分配给所述属于所述行为类型的用户行为的权重的乘积。
8.根据权利要求1至7中任一项所述的方法,其特征在于,在所述根据所述目标用户行为数据生成与目标领域相关的每个所述行为类型的热度信息之后,所述方法还包括:
展示预定时间段内的所述每个所述行为类型的热度信息。
9.根据权利要求1至7中任一项所述的方法,其特征在于,在所述根据所述目标用户行为数据生成与目标领域相关的每个所述行为类型的热度信息之后,所述方法还包括:
在预定的应用中投放与每个所述行为类型的热度信息匹配的媒体资源。
10.一种热度信息的生成装置,其特征在于,包括:
第一获取单元,用于获取与目标领域关联的关键词集合,其中,所述与目标领域关联的关键词集合包括:多个关键词;
第二获取单元,用于根据所述与目标领域关联的关键词集合获取扩展词集合,其中,所述扩展词集合中的词语包括:所述多个关键词以及与所述多个关键词中的每个关键词相似的相似词;
第三获取单元,用于从预定的用户行为数据集合中获取与所述扩展词集合中的词语匹配的目标用户行为数据,其中,所述目标用户行为数据至少用于指示用户行为、所述用户行为执行的次数、所述用户行为所属的行为类型;
生成单元,用于根据所述目标用户行为数据生成与目标领域相关的每个所述行为类型的热度信息,其中,所述热度信息用于指示与目标领域相关的所述行为类型的热度;
根据与目标领域相关的每个所述行为类型的热度信息确定所述目标领域的热度指数。
11.根据权利要求10所述的装置,其特征在于,所述第二获取单元包括:
获取模块,用于从相似词集合中获取与所述多个关键词中的每个关键词相似的目标相似词;
过滤模块,用于在所述多个关键词和所述目标相似词中过滤掉无效词,得到所述扩展词集合。
12.根据权利要求11所述的装置,其特征在于,所述获取模块包括:
查找子模块,用于对于每个所述关键词,执行以下步骤,其中,所述每个所述关键词被视为当前关键词:在所述当前关键词的相似词集合中查找与所述当前关键词相似的目标相似词,其中,所述与所述当前关键词相似的目标相似词与所述当前关键词之间的向量距离小于或等于预定阈值。
13.根据权利要求10所述的装置,其特征在于,所述第三获取单元包括:
查找模块,用于在所述用户行为数据集合中查找所述目标用户行为数据,其中,所述目标用户行为数据所指示的用户行为或行为类型与所述扩展词集合中的词语匹配。
14.根据权利要求13所述的装置,其特征在于,所述查找模块所查找到的目标用户行为数据所指示的用户行为或行为类型与所述扩展词集合中的词语匹配包括:
所述目标用户行为数据中用于指示所述用户行为或行为类型的行为信息包括:所述扩展词集合中的词语,或,与所述扩展词集合中的词语相关的词语。
15.根据权利要求10所述的装置,其特征在于,所述生成单元包括:
计算模块,用于根据所述目标用户行为数据计算每个所述行为类型的热度指数,其中,所述行为类型的热度指数用于指示所述行为类型的热度信息,所述行为类型的热度指数为属于所述行为类型的用户行为执行的次数与预先分配给所述属于所述行为类型的用户行为的权重的乘积。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710263136.5A CN108733706B (zh) | 2017-04-20 | 2017-04-20 | 热度信息的生成方法和装置 |
PCT/CN2018/083397 WO2018192496A1 (zh) | 2017-04-20 | 2018-04-17 | 热度信息的生成方法和装置、存储介质以及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710263136.5A CN108733706B (zh) | 2017-04-20 | 2017-04-20 | 热度信息的生成方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108733706A CN108733706A (zh) | 2018-11-02 |
CN108733706B true CN108733706B (zh) | 2022-12-20 |
Family
ID=63856489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710263136.5A Active CN108733706B (zh) | 2017-04-20 | 2017-04-20 | 热度信息的生成方法和装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108733706B (zh) |
WO (1) | WO2018192496A1 (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992656A (zh) * | 2018-11-15 | 2019-07-09 | 厦门笨鸟电子商务有限公司 | 一种在社交媒体上发布的具有高关注度内容的机器撰写系统和方法 |
CN109992720A (zh) * | 2018-11-15 | 2019-07-09 | 厦门笨鸟电子商务有限公司 | 一种提升用户撰写内容在社交媒体上的关注度的系统和方法 |
CN109784648A (zh) * | 2018-12-14 | 2019-05-21 | 北京三快在线科技有限公司 | 调度资源分配方法、装置、电子设备及可读存储介质 |
CN111415180B (zh) * | 2019-01-04 | 2023-08-01 | 百度在线网络技术(北京)有限公司 | 资源价值调整方法、装置、服务器及存储介质 |
CN110059178A (zh) * | 2019-02-12 | 2019-07-26 | 阿里巴巴集团控股有限公司 | 问题派发方法及装置 |
CN109918424A (zh) * | 2019-03-18 | 2019-06-21 | 武汉优品楚鼎科技有限公司 | 一种加载股票数据的方法、系统、装置及存储介质 |
CN110070397B (zh) * | 2019-04-24 | 2021-08-20 | 厦门美图之家科技有限公司 | 广告定向方法及电子设备 |
CN110287255A (zh) * | 2019-05-23 | 2019-09-27 | 深圳壹账通智能科技有限公司 | 基于用户行为的数据共享方法、装置及计算机设备 |
CN112579874B (zh) * | 2019-09-29 | 2024-06-11 | 腾讯科技(深圳)有限公司 | 一种关键词的指数确定方法、装置、设备及存储介质 |
CN110929198B (zh) * | 2019-12-05 | 2023-04-28 | 中国银行股份有限公司 | 热点事件展示方法及装置 |
CN111371844B (zh) * | 2020-02-20 | 2024-01-19 | 平安科技(深圳)有限公司 | 课程推送方法及相关装置 |
CN111369298A (zh) * | 2020-03-09 | 2020-07-03 | 成都欧魅时尚科技有限责任公司 | 一种基于互联网热点事件自动调整广告预算的方法 |
CN113409777B (zh) * | 2020-03-16 | 2023-05-23 | 上海博泰悦臻网络技术服务有限公司 | 一种记录用户关注点的方法、车载主机及车辆 |
CN111444429B (zh) * | 2020-03-27 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 信息推送方法、装置及服务器 |
CN111666298A (zh) * | 2020-04-29 | 2020-09-15 | 中国平安财产保险股份有限公司 | 基于flink的用户服务类别检测方法、装置、计算机设备 |
CN113743973B (zh) * | 2020-11-30 | 2024-07-16 | 北京沃东天骏信息技术有限公司 | 分析市场热点趋势的方法和装置 |
CN112883267A (zh) * | 2021-02-22 | 2021-06-01 | 深圳市星网储区块链有限公司 | 基于深度学习的数据热度统计方法及装置 |
CN114331098A (zh) * | 2021-12-24 | 2022-04-12 | 中国工商银行股份有限公司 | 信息处理方法、装置、设备及介质 |
CN114818664A (zh) * | 2022-03-26 | 2022-07-29 | 深圳格隆汇信息科技有限公司 | 一种金融资讯的获取方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102855261A (zh) * | 2011-07-01 | 2013-01-02 | 上海聚力传媒技术有限公司 | 一种用于确定视频权威值的方法与设备 |
CN103092956A (zh) * | 2013-01-17 | 2013-05-08 | 上海交通大学 | 社交网络平台上话题关键词自适应扩充的方法及系统 |
CN103123649A (zh) * | 2013-01-29 | 2013-05-29 | 广州一找网络科技有限公司 | 一种基于微博平台的消息搜索方法及系统 |
CN103164804A (zh) * | 2011-12-16 | 2013-06-19 | 阿里巴巴集团控股有限公司 | 一种个性化的信息推送方法及装置 |
CN103678613A (zh) * | 2013-12-17 | 2014-03-26 | 北京启明星辰信息安全技术有限公司 | 一种计算影响力数据的方法与装置 |
CN104462118A (zh) * | 2013-09-21 | 2015-03-25 | 郑建锋 | 控制信息传播风险的方法及系统 |
CN104615593A (zh) * | 2013-11-01 | 2015-05-13 | 北大方正集团有限公司 | 微博热点话题自动检测方法及装置 |
CN104778251A (zh) * | 2015-04-15 | 2015-07-15 | 天脉聚源(北京)传媒科技有限公司 | 一种文献热度的获取方法及装置 |
CN106126558A (zh) * | 2016-06-16 | 2016-11-16 | 东软集团股份有限公司 | 一种舆情监控方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102760138B (zh) * | 2011-04-26 | 2015-03-11 | 北京百度网讯科技有限公司 | 用户网络行为的分类方法和装置及对应的搜索方法和装置 |
CN102194015B (zh) * | 2011-06-30 | 2013-11-13 | 重庆新媒农信科技有限公司 | 根据检索信息热度统计实现检索的方法 |
CN103279529A (zh) * | 2013-05-30 | 2013-09-04 | 北京邮电大学 | 非结构化数据检索方法及系统 |
US20150120717A1 (en) * | 2013-10-25 | 2015-04-30 | Marketwire L.P. | Systems and methods for determining influencers in a social data network and ranking data objects based on influencers |
CN104572889B (zh) * | 2014-12-24 | 2016-10-05 | 深圳市腾讯计算机系统有限公司 | 一种搜索词推荐方法、装置和系统 |
-
2017
- 2017-04-20 CN CN201710263136.5A patent/CN108733706B/zh active Active
-
2018
- 2018-04-17 WO PCT/CN2018/083397 patent/WO2018192496A1/zh active Application Filing
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102855261A (zh) * | 2011-07-01 | 2013-01-02 | 上海聚力传媒技术有限公司 | 一种用于确定视频权威值的方法与设备 |
CN103164804A (zh) * | 2011-12-16 | 2013-06-19 | 阿里巴巴集团控股有限公司 | 一种个性化的信息推送方法及装置 |
CN103092956A (zh) * | 2013-01-17 | 2013-05-08 | 上海交通大学 | 社交网络平台上话题关键词自适应扩充的方法及系统 |
CN103123649A (zh) * | 2013-01-29 | 2013-05-29 | 广州一找网络科技有限公司 | 一种基于微博平台的消息搜索方法及系统 |
CN104462118A (zh) * | 2013-09-21 | 2015-03-25 | 郑建锋 | 控制信息传播风险的方法及系统 |
CN104615593A (zh) * | 2013-11-01 | 2015-05-13 | 北大方正集团有限公司 | 微博热点话题自动检测方法及装置 |
CN103678613A (zh) * | 2013-12-17 | 2014-03-26 | 北京启明星辰信息安全技术有限公司 | 一种计算影响力数据的方法与装置 |
CN104778251A (zh) * | 2015-04-15 | 2015-07-15 | 天脉聚源(北京)传媒科技有限公司 | 一种文献热度的获取方法及装置 |
CN106126558A (zh) * | 2016-06-16 | 2016-11-16 | 东软集团股份有限公司 | 一种舆情监控方法及装置 |
Non-Patent Citations (2)
Title |
---|
A survey of user modelling in social media websites;Abdel-Hafez等;《Computer and Information Science》;20131231;第6卷(第4期);59-71页 * |
社会化媒体内容关注度分析与建模方法研究;周仁杰;《中国博士学位论文全文数据库 信息科技辑》;20130215;I139-1 * |
Also Published As
Publication number | Publication date |
---|---|
WO2018192496A1 (zh) | 2018-10-25 |
CN108733706A (zh) | 2018-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108733706B (zh) | 热度信息的生成方法和装置 | |
CN106940705B (zh) | 一种用于构建用户画像的方法与设备 | |
US20100030648A1 (en) | Social media driven advertisement targeting | |
US20170017986A1 (en) | Tracking digital design asset usage and performance | |
CN107426328B (zh) | 信息推送方法和装置 | |
US20210209624A1 (en) | Online platform for predicting consumer interest level | |
CN104462156A (zh) | 一种基于用户行为的特征提取、个性化推荐方法和系统 | |
US20140330651A1 (en) | System and method for social media-aware advertisement brokering | |
US20200051131A1 (en) | Analyzing the advertisement bidding-cha | |
US20220114616A1 (en) | Digital anthropology and ethnography system | |
Thomas | Programming, filtering, adblocking: advertising and media automation | |
Piccardi et al. | On the Value of Wikipedia as a Gateway to the Web | |
CN105493123A (zh) | 识别有促销资格的媒体商店用户 | |
CN111054078B (zh) | 对象信息获取方法及装置 | |
CN108965360B (zh) | 一种推荐数据处理方法及服务器、计算机存储介质 | |
US20110029377A1 (en) | System and method for forecasting an inventory of online advertisement impressions by sampling in a map-reduce framework | |
US10331713B1 (en) | User activity analysis using word clouds | |
US10068006B1 (en) | Generating trend-based item recommendations | |
CN109829593B (zh) | 目标对象的信用度确定方法、装置、存储介质及电子装置 | |
KR20200092551A (ko) | 선정된 대상자에게 광고를 제공하는 광고 방법 및 그 시스템 | |
US20160342699A1 (en) | Systems, methods, and devices for profiling audience populations of websites | |
US10096045B2 (en) | Tying objective ratings to online items | |
CN115375339A (zh) | 多媒体信息推荐方法、装置和设备及计算机存储介质 | |
JP2013033476A (ja) | 入力回数が急上昇する検索語を利用した検索広告方法、システム及びコンピュータ読み取り可能な記録媒体 | |
CN110175295B (zh) | 广告位推荐方法、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |