CN107545039B - 关键词的指数获取方法和装置、计算机设备和存储介质 - Google Patents

关键词的指数获取方法和装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN107545039B
CN107545039B CN201710642880.6A CN201710642880A CN107545039B CN 107545039 B CN107545039 B CN 107545039B CN 201710642880 A CN201710642880 A CN 201710642880A CN 107545039 B CN107545039 B CN 107545039B
Authority
CN
China
Prior art keywords
preset
keyword
user
index
set data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710642880.6A
Other languages
English (en)
Other versions
CN107545039A (zh
Inventor
张重阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710642880.6A priority Critical patent/CN107545039B/zh
Publication of CN107545039A publication Critical patent/CN107545039A/zh
Application granted granted Critical
Publication of CN107545039B publication Critical patent/CN107545039B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种关键词的指数获取方法和装置、计算机设备和存储介质,该方法包括:获取查询请求,查询请求包括请求查询的预设关键词;根据预设关键词查找对应的用户集合数据,用户集合数据通过预先集合对各预设关键词对应的内容执行了预设操作的用户标识得到;当预设关键词的数量大于一个时,对各预设关键词对应的用户集合数据做交和/或并集运算得到查询请求对应的关键词的指数;将关键词的指数发送至请求方。采用该关键词的指数获取方法得到的关键词的指数,能够较为全面的对多个关键词的组合指数进行分析。

Description

关键词的指数获取方法和装置、计算机设备和存储介质
技术领域
本发明涉及互联网领域,特别是涉及一种关键词的指数获取方法和装置、计算机设备和存储介质。
背景技术
随着互联网的快速发展,人们花费在互联网平台上的时间越来越多,因此,通过对互联网平台的用户行为进行分析能够把握用户的关注热点。为此,越来越多的平台提供关键词的指数分析功能。关键词的指数是指关键词在一段时间中反映的用户关注度,关注度与关键词对应内容在该平台的阅读量或搜索量相关。
传统的平台的关键词的指数基于对单个关键词进行查询,查询结果单一、不全面。
发明内容
基于此,有必要针对传统的关键词的指数单一、不全面的问题,提供一种分析全面的关键词的指数获取方法和装置、计算机设备和存储介质。
为达到上述目的,一个实施例采用以下技术方案:
一种关键词的指数获取方法,包括:
获取查询请求,所述查询请求包括请求查询的预设关键词;
根据所述预设关键词查找对应的用户集合数据,所述用户集合数据通过预先集合对各预设关键词对应的内容执行了预设操作的用户标识得到;
当所述预设关键词的数量大于一个时,对各所述预设关键词对应的用户集合数据做交和/或并集运算得到所述查询请求对应的关键词的指数;
将所述关键词的指数发送至请求方。
一种关键词的指数获取装置,包括:查询请求获取模块、查找模块、运算模块和发送模块;
所述请求获取模块,用于获取查询请求,所述查询请求包括请求查询的预设关键词;
所述查找模块,用于根据所述预设关键词查找对应的用户集合数据,所述用户集合数据通过预先集合对各预设关键词对应的内容执行了预设操作的用户标识得到;
所述运算模块,用于当所述预设关键词的数量大于一个时,对各所述预设关键词对应的用户集合数据做交和/或并集运算得到所述查询请求对应的关键词的指数;
所述发送模块,用于将所述关键词的指数发送至请求方。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的关键词的指数获取装置的步骤。
一种存储介质,其上存储有计算机程序,该程序被处理器执行时,实现上述的关键词的指数获取装置的步骤。
上述的关键词的指数获取方法和装置、计算机设备和存储介质,当获取到查询请求时,根据请求查询的关键词查找对应的用户集合数据,由于用户集合数据通过预先集合对各预设关键词对应的内容执行了预设操作的用户标识得到,故用户集合数据能够反应哪些用户标识对关键词有与预设操作对应的关注行为,通过对各预设关键词对应的用户集合数据做交和/或并集运算,能够得到对各预设关键词都执行了预设操作用户的数量和/或对任意各预设关键词对应的内容执行了预设操作的全部用户的数量,从而得到各预设关键词组合的指数。采用该关键词的指数获取方法得到的关键词的指数,能够较为全面的对多个关键词的组合指数进行分析。
附图说明
图1为一个实施例的关键词的指数获取方法和装置的应用环境示意图;
图2为一个实施例的服务器的内部结构示意图;
图3为另一个实施例的关键词的指数获取方法的流程图;
图4为又一个实施例的关键词的指数获取方法的流程图;
图5为一个实施例的关键词的指数分布趋势图
图6为再一个实施例的关键词的指数获取方法的流程图;
图7为一个实施例的关键词的指数获取装置的结构框图;
图8为又一个实施例的关键词的指数获取装置的结构框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
本申请的关键词的指数获取方法和装置可应用于各网络平台的关键词的指数查询场景。图1为一个实施例提供的关键词的指数获取方法和装置的应用环境示意图。如图1所示,该应用环境包括用户终端101和服务器102。其中,用户终端101和服务器102通信连接。操作人员可以为网络平台的运维人员也可以为网络平台的用户,操作人员通过用户终端101输入关键词,并将关键词发送至服务器102,服务器102为网络平台的管理服务器,采用关键词的指数获取方法得到各关键词在该网络平台的组合指数,并将关键词的指数发送至用户终端101,用户终端101接收并展示关键词的指数。
图2为一个实施例中的服务器的内部结构示意图。如图2所示,该实施例中的服务器包括:通过系统总线连接的处理器、存储介质、内存储器和网络接口。其中,该处理器用于提供计算和控制能力,支撑整个服务器的运行。服务器的存储介质存储有操作系统以及一种关键词的指数获取装置的计算机程序,该基于关键词的指数获取装置的计算机程序被处理器执行时,用于实现一种关键词的指数获取方法。服务器的内存储器为存储介质中的关键词的指数获取装置的运行提供环境。服务器的网络接口用于与终端进行网络通信,例如,接收查询请求,发送预设关键词的指数等。本领域技术人员可以理解,图2中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的服务器的限定,具体的服务器可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
一个实施例的关键词的指数获取方法的流程示意图如图3所示,该方法通过在如图1所示的服务器运行,该方法包括以下步骤S302至步骤S308:
S302:获取查询请求,查询请求包括请求查询的预设关键词。
查询请求由操作人员在用户终端输入,并发送至服务器。预设关键词是指由管理人员根据网络平台的业务类型、查询目的和时下热点整理的供用户查询的关键词。对应地,在前端设置有热词库管理界面,操作人员能够根据业务类型和时下热点对预设关键词进行查询、增加、删除和修改的操作。以查询目的为广告业务分析为例,为了较好地向广告主展示投放广告的阅读量,可以将广告产品设置为预设关键词。本实施例中的操作人员可以为网络平台的用户,采用本实施例的关键词的指数获取方法,能够把握时下热点。一个实施例的操作人员也可以为网络平台的运维人员,采用本实施例的关键词的指数获取方法,能够对关键词的指数和用户行为进行分析。例如,向广告主分析投放的广告的关注度。
S304:根据预设关键词查找对应的用户集合数据。
用户集合数据通过预先集合对各预设关键词对应的内容执行了预设操作的用户标识得到。预设操作是预先设置的操作类型,例如阅读、转发和搜索等。预设关键词对应的内容包括:包含预设关键词的内容或与预设关键词关联的内容等。例如,包含预设关键词的文章,与预设关键词关联的视频等。
当用户在网络平台对预设关键词对应的内容执行了预设操作时,后台记录操作行为施加方的用户标识和操作类型,集合对一个预设关键词对应的内容执行了预设操作的用户标识,得到该预设关键词的用户集合数据。当接收到查询请求时,根据查询请求的预设关键词,查找对应的用户集合数据。由于用户集合数据通过预先集合对各预设关键词对应的内容执行了预设操作的用户标识得到,故用户集合数据能够通过用户标识反应哪些用户对关键词有关注行为,关注行为与预设操作对应。
S306:当预设关键词的数量大于一个时,对各预设关键词对应的用户集合数据做交和/或并集运算得到查询请求对应的关键词的指数。
当预设关键词的数量大于一个时,即操作人员在用户终端输入多个关键词时,通过对各预设关键词的用户集合数据做交和/并集运算得到各关键词组合的指数。各预设关键词组合的形式包括交集运算和/或并集运算。交集运算是指从各预设关键词的用户集合数据中确定相同的用户标识的数量,即对各预设关键词都执行了预设操作的用户标识的数量。并集运算是指从各预设关键词的用户集合数据中确定对各预设关键词对应的内容执行预设操作的全部的用户标识的数量。由于用户集合数据是集合用户标识得到,故对用户集合数据进行交和/或并集操作时,能够从多个预设关键字对应的用户集合数据中确定重合的用户标识,从而从各关键词组合的交集/和或并集运算结果,得到关键词组合的指数。
以预设关键词包括关键词A和关键词B为例,对应用户集合数据A和用户集合数据B,则交集运算的结果为既对关键词A执行了预设操作,也对关键词B执行了预设操作的用户标识的数量。并集运算的结果为对关键词A执行了预设操作和对关键词B执行了预设操作的用户标识之和的数量。例如,用户需要查找同时包含多个关键词,或是包含多个输入关键词之一的指数。比如,用户输入,宝马,奥迪,奔驰,选择并集运算可以获得包含其中之一关键词的指数,如选择交集运算,则可以获得同时包含这三个词的指数。
本实施例中的关键词的指数为至少两个关键词组合的指数。在具体的实施例中,关键词组合的类型可以由用户指定,例如选择交集、并集以及交集和并集中的一种(前端可选择),在这种情况中,查询请求还包括组合类型,根据查询请求中的组合类型进行对应的运算得到关键词组合的指数。在其它的实施例中,关键词组合的类型还可以由系统预先设定。
S308:将关键词的指数发送至请求方。
具体地,将关键词的指数发送至查询请求的请求方的用户终端,在其它的实施例中,在用户终端显示对应的关键词的指数。
当预设关键词的数量等于一个时,根据各预设关键词对应的用户集合数据得到查询请求对应的关键词的指数。具体的,当预设关键词的数量等于一个时,则将用户合集合数据中用户标识的数量作为关键词的指数。
上述的关键词的指数获取方法,当获取到查询请求时,根据请求查询的关键词查找对应的用户集合数据,由于用户集合数据通过预先集合对各预设关键词对应的内容执行了预设操作的用户标识得到,故用户集合数据能够反应哪些用户标识对关键词有与预设操作对应的关注行为,通过对各预设关键词对应的用户集合数据做交和/或并集运算,能够得到对各预设关键词都执行了预设操作用户的数量和/或对任意各预设关键词对应的内容执行了预设操作的全部用户的数量,从而得到各预设关键词组合的指数。采用该关键词的指数获取方法得到的关键词的指数,能够较为全面的对多个关键词的组合指数进行分析。
在另一个实施例中,在获取查询请求的步骤之前,还包括预先得到各预设关键词的用户集合数据的步骤。具体地,该步骤包括以下步骤S1至S3:
S1:获取对预设关键词对应的内容执行了预设操作的用户标识集合。
网络平台根据用户在平台的操作,生成指定格式的日志数据,日志数据包括但不限于用户标识、操作时间、预设操作类型(阅读、搜索或转发等)和文章内容等。对日志数据按照预设关键词进行分类,用户标识集合是对预设关键词的内容执行了预设操作的用户标识的集合。用户标识集合中的各元素为用户标识。
S2:对用户标识集合做最小哈希转换得到各预设关键词对应的用户集合数据。
用户标识集合的元素(用户标识)的数量M可能很多,则会导致后续交集和/或并集的计算量过大,数据的存储量也较多(需要占用大量存储空间)。本实施例中,采用最小哈希(Minhash)转换,用于对用户标识集合进行降维处理。
具体地,预先将最小哈希转换设计成N个哈希函数,将用户标识集合通过最小哈希转换,得到用户标识集的N个哈希值,从而原来用户标识集合的M个数量的存储量变成压缩后的N个哈希值的存储量。例如,一个用户标识集合对应的用户标识的数量有80万个,将最小哈希转换设计为1万个哈希函数,则转换后得到1万个对应的哈希值,即相当于原来80万的存储量变成了1万的存储量,从而减少了用户标识集合的特征量,降低了数据的存储量,减少了数据的存储资源。
S3:建立预设关键词与用户集合数据的对应关系。
为加快用户集合数据的查询效率,在一个实施例中,将用户集合数据存储至KV数据库中,其中以预设关键词的主键。
本实施例中,通过对用户标识集合做最小哈希转换,降低用户标识集合的特征量,减小了数据的存储空间,为关键词的指数的在线获取提供了可能。
在又一个实施例中,提供一种关键词的指数获取方法,基于该方法能够得到指定用户群的关键词的指数。一种关键词的指数获取方法的流程图如图4所示,该方法包括以下步骤:
S402:获取查询请求,查询请求包括请求查询的预设关键词。
S404:获取指定用户集合数据。
在一个实施例中,指定用户集合数据包括指定用户的用户标识标的集合,集合的元素为用户标识。本实施例中的指定用户可以广告产品的关键消费人群,通过从网络平台的用户中筛选对应性别和年龄段的用户,得到指定用户的用户标识。
S406:根据预设关键词查找对应的用户集合数据。
用户集合数据通过预先集合对各预设关键词对应的内容执行了预设操作的用户标识得到。
S408:当预设关键词的数量大于一个时,对各预设关键词对应的用户集合数据做交和/或并集运算得到查询请求对应的关键词的指数。
具体地,该步骤包括以下步骤S1至S3:
S1:对各预设关键词对应的用户集合数据做交和/或并集运算,得到第一运算结果。
在一个实施例中,当预设关键词的数量大于一个时,对各预设关键词对应的用户集合数据做交集运算和/或并集运算,得到第一运算结果。其中,查询请求还包括组合类型,根据查询请求中的组合类型进行对应的运算得到关键词组合的指数。第一运算结果可以为各预设关键词相交或相并的用户标识集合。
S2:对第一运算结果与指定用户集合数据做交和/或并集运算,得到查询请求对应的关键词的指数。
第一运算结果与指定用户集合数据的组合类型与第一运算结果相同。第一运算结果和用户集合数据做交和/或并集运算得到的结果可以为二者的集合中相交或相并的用户标识集合的元素的数量,即指定用户集合数据中对预设关键字对应的内容执行了预设操作的用户数量。
S410:将关键词的指数发送至请求方。
采用本实施例的关键词的指数获取方法,能够对指定用户群的关键词的指数进行分析。
在另一个实施例中,用户关注的是一段时间内的指数的波动,对查询的关键词的指数的精度要求并不高。本实施例中为了提高指数在线获取的效率,降低数据的存储量,预先获取对预设关键词对应的内容执行了预设操作的用户标识集合,对用户标识集合做最小哈希转换得到各预设关键词对应的用户集合数据,并建立预设关键词与用户集合数据的对应关系。基于此,对各预设关键词的用户集合数据做交和/或并集运算时,基于最小哈希做快速交和/或并集运算。例如,并集的估计方法将各预设关键词的所有最小哈希值集合,并利用以下公式计算:
Count=Maxhash/Avg(minhash)-1
其中,Maxhash为并集中哈希范围内的最大值,Avg(minhash)为并集中各哈希值的平均数。
对于交集可以通过jaccard公式进行转换Pr[hmin(A)=hmin(B)]=J(A,B)。
其中,J(A,B)就是集合A和集合B的jaccard值,为集合A和集合B的相似度,将J(A,B)乘以集合A和集合B并集的数量,得到集合A和集合B的交集对应的指数。
查询请求还包括上传的指定用户数据包,指定用户数包包括指定用户的用户标识集合,获取指定用户集合数据的步骤包括:对指定用户数据包进行最小哈希转换,得到指定用户集合数据。
采用上述方法,基于最小哈希转换得到各预设关键词的用户集合数据的交和/或并集运算的第一运算结果,再利用上述方法得到第一运算结果与哈小哈希转换后的指定用户的指定用户集合数据的交集和/或并集计算结果,得到指定用户的关键词的指数。该方法提高指数在线获取的效率,降低数据的存储量。
在再一个实施例中,为体现关键词的指数的动态变化,通常以指数分布的形式向用户展示关键词的指数变化趋势。
为此,在预处理得到用户集合数据的过程中,在建立预设关键词与用户集合数据对应关系的步骤之后,还包括:根据预设操作的操作时间建立用户集合数据和操作时间的对应关系。即每一用户集合数据与对关键词对应的内容的操作时间对应。操作时间可以为具体日期,也可以具体到具体的时间(小时或分钟)。
在获取到查询请求后,查询请求还包括查询时间段,根据预设关键词查找对应的用户集合数据的步骤之后,包括:根据操作时间确定查询时间段内各时间点的用户集合数据。即当获取到查询请求后,通过利用预先建立的用户集合数据和操作时间的对应关系,确定查询时间段内各时间点的用户集合时间。
而交和/或并集运算应当分别对各时间点的用户集合数据分别进行,从而得查询请求所请求查询的时间段内各时间点的各预设关键词的交和/或并集结果。具体地,对各预设关键词对应的用户集合数据做交和/或并集运算得到查询请求对应的关键词的指数的步骤包括:分别对各预设关键词对应的各时间点的用户集合数据做交和/或并集运算得到查询请求对应的关键词的指数分布,即得到每个时间点的关键词组合的指数的分布趋势,一个实施例的实施例的关键词的指数分布趋势图如图5所示。
本实施例的关键词的指数获取方法,能够得到一定时间段的关键词的指数分布趋势。
又一个实施例的关键词的指数获取方法,如图6所示,包括以下步骤:
S502:预先得到各预设关键词的用户集合数据。
具体地,该步骤包括:获取对预设关键词对应的内容执行了预设操作的用户标识集合,对用户标识集合做最小哈希转换得到各预设关键词对应的用户集合数据,建立预设关键词与用户集合数据对应关系,根据预设操作的操作时间建立用户集合数据和操作时间的对应关系。
S504:获取查询请求,查询请求包括请求查询的预设关键词、查询时间段和上传的指定用户数据包。
S506:获取指定用户集合数据。
具体地,对指定用户数据包进行最小哈希转换,得到指定用户集合数据。
S508:当预设关键词的数量大于一个时,对各预设关键词对应的用户集合数据做交和/或并集运算得到查询请求对应的关键词的指数。
具体地,对各预设关键词对应的用户集合数据做交和/或并集运算,得到第一运算结果,对第一运算结果与指定用户集合数据做交和/或并集运算,得到查询请求对应的关键词的指数。
S510:当预设关键词的数量为一个时,对预设关键词对应的用户集合数据和指定用户集合数据做交和/或并集运算得到查询请求对应的关键词的指数。
本实施例中的步骤S508和步骤S510的交和/或并集运算,基于用户集合数据和指定用户集合数据的最小哈希值进行,能够提高在线查询的效率。
在步骤S508和步骤S510的步骤之后,执行步骤S512:将关键词的指数发送至请求方。
本实施例的关键词的指数获取方法,能够对指定用户和多个关键词组合的指数进行分析,且指数的获取基于用户集合数据的最小哈希值进行,能够提高在线查询的效率,减少数据的存储量。
一个实施例中,提供一种关键词的指数获取装置,如图7所示,包括:查询请求获取模块602、查找模块604、运算模块606和发送模块608。
请求获取模块602,用于获取查询请求,查询请求包括请求查询的预设关键词。
查找模块604,用于根据预设关键词查找对应的用户集合数据,用户集合数据通过预先集合对各预设关键词对应的内容执行了预设操作的用户标识得到。
运算模块606,用于当预设关键词的数量大于一个时,对各预设关键词对应的用户集合数据做交和/或并集运算得到查询请求对应的关键词的指数。
发送模块608,用于将关键词的指数发送至请求方。
上述的关键词的指数获取装置,当获取到查询请求时,根据请求查询的关键词查找对应的用户集合数据,由于用户集合数据通过预先集合对各预设关键词对应的内容执行了预设操作的用户标识得到,故用户集合数据能够反应哪些用户标识对关键词有与预设操作对应的关注行为,通过对各预设关键词对应的用户集合数据做交和/或并集运算,能够得到对各预设关键词都执行了预设操作用户的数量和/或对任意各预设关键词对应的内容执行了预设操作的全部用户的数量,从而得到各预设关键词组合的指数。采用该关键词的指数获取方法得到的关键词的指数,能够较为全面的对多个关键词的组合指数进行分析。
在又一个实施例中,如图8所示,关键词的指数获取装置还包括集合获取模块610、转换模块612和对应关系建立模块614。
集合获取模块610,用于获取对预设关键词对应的内容执行了预设操作的用户标识集合。
转换模块612,用于对用户标识集合做最小哈希转换得到各预设关键词对应的用户集合数据。
对应关系建立模块614,用于建立预设关键词与用户集合数据的对应关系。
在再一个实施例中,还包括指定用户集合获取模块616,用于获取指定用户集合数据。
运算模块606,用于对各预设关键词对应的用户集合数据做交和/或并集运算,得到第一运算结果;对第一运算结果与指定用户集合数据做交和/或并集运算,得到查询请求对应的关键词的指数。
在又一个实施例中,查询请求还包括上传的指定用户数据包;指定用户集合获取模块616,用于对指定用户数据包进行最小哈希转换,得到指定用户集合数据。
在一个实施例中,对应关系建立模块614,还用于根据预设操作的操作时间建立用户集合数据和操作时间的对应关系。
查找模块604,还用于根据操作时间确定查询时间段内各时间点的用户集合数据。
查询请求还包括查询时间段,运算模块606,用于分别对各预设关键词对应的各时间点的用户集合数据做交和/或并集运算得到查询请求对应的关键词的指数分布。
在另一个实施例中,运算模块606,还用于当预设关键词的数量为一个时,对预设关键词对应的用户集合数据和指定用户集合数据做交和/或并集运算得到查询请求对应的关键词的指数。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性的计算机可读取存储介质中,如本发明实施例中,该程序可存储于计算机系统的存储介质中,并被该计算机系统中的至少一个处理器执行,以实现包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
据此,在一个实施例中还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述各实施例中的任意一种关键词的指数获取方法。
据此,在一个实施例中还提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时,实现上述各实施例中的任意一种关键词的指数获取方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种关键词的指数获取方法,其特征在于,包括:
对根据用户在网络平台的操作生成的日志数据,按照预设关键词进行分类,获取对预设关键词对应的内容执行了预设操作的用户标识集合;所述用户标识集合的元素为用户标识;所述用户标识集合中的用户标识对所述预设关键词有关注行为;所述预设操作与关注行为对应;
预先将最小哈希转换设计成N个哈希函数,对所述用户标识集合做最小哈希转换得到各预设关键词对应的N个哈希值的用户集合数据;所述哈希函数的数量N小于所述用户标识集合的元素的数量;
建立所述预设关键词与所述用户集合数据的对应关系;
获取查询请求,所述查询请求包括请求查询的预设关键词和上传的指定用户数据包;
对所述指定用户数据包进行最小哈希转换,得到指定用户集合数据;
根据所述预设关键词查找对应的用户集合数据,所述用户集合数据通过预先集合对各预设关键词对应的内容执行了预设操作的用户标识得到;
当所述预设关键词的数量大于一个时,对各所述预设关键词对应的用户集合数据做交和/或并集运算,得到第一运算结果;对所述第一运算结果与所述指定用户集合数据做交和/或并集运算,得到所述查询请求对应的关键词的指数;
将所述关键词的指数发送至请求方。
2.根据权利要求1所述的关键词的指数获取方法,其特征在于,建立所述预设关键词与所述用户集合数据对应关系的步骤之后,还包括:根据预设操作的操作时间建立所述用户集合数据和操作时间的对应关系;
根据所述预设关键词查找对应的用户集合数据的步骤之后,包括:根据所述操作时间确定所述查询时间段内各时间点的用户集合数据;
所述查询请求还包括查询时间段,对各所述预设关键词对应的用户集合数据做交和/或并集运算得到所述查询请求对应的关键词的指数的步骤包括:
分别对各所述预设关键词对应的各时间点的用户集合数据做交和/或并集运算得到所述查询请求对应的关键词的指数分布。
3.根据权利要求1所述的关键词的指数获取方法,其特征在于,还包括:当所述预设关键词的数量为一个时,对所述预设关键词对应的用户集合数据和指定用户集合数据做交和/或并集运算得到所述查询请求对应的关键词的指数。
4.一种关键词的指数获取装置,其特征在于,包括:集合获取模块、转换模块、对应关系建立模块、查询请求获取模块、查找模块、运算模块和发送模块;
所述集合获取模块,用于对根据用户在网络平台的操作生成的日志数据,按照预设关键词进行分类,获取对预设关键词对应的内容执行了预设操作的用户标识集合;所述用户标识集合的元素为用户标识;所述用户标识集合中的用户标识对所述预设关键词有关注行为;所述预设操作与关注行为对应;
所述转换模块,用于预先将最小哈希转换设计成N个哈希函数,对所述用户标识集合做最小哈希转换得到各预设关键词对应的N个哈希值的用户集合数据;所述哈希函数的数量N小于所述用户标识集合的元素的数量;
所述对应关系建立模块,用于建立所述预设关键词与所述用户集合数据的对应关系
所述请求获取模块,用于获取查询请求,所述查询请求包括请求查询的预设关键词和上传的指定用户数据包;
指定用户集合获取模块,用于对所述指定用户数据包进行最小哈希转换,得到指定用户集合数据;
所述查找模块,用于根据所述预设关键词查找对应的用户集合数据,所述用户集合数据通过预先集合对各预设关键词对应的内容执行了预设操作的用户标识得到;
所述运算模块,用于当所述预设关键词的数量大于一个时,对各所述预设关键词对应的用户集合数据做交和/或并集运算,得到第一运算结果;对所述第一运算结果与所述指定用户集合数据做交和/或并集运算,得到所述查询请求对应的关键词的指数;
所述发送模块,用于将所述关键词的指数发送至请求方。
5.根据权利要求4所述的关键词的指数获取装置,其特征在于,所述对应关系建立模块,还用于根据预设操作的操作时间建立所述用户集合数据和操作时间的对应关系;
所述查找模块,还用于根据所述操作时间确定查询时间段内各时间点的用户集合数据;
所述查询请求还包括查询时间段,所述运算模块,用于分别对各所述预设关键词对应的各时间点的用户集合数据做交和/或并集运算得到所述查询请求对应的关键词的指数分布。
6.根据权利要求4所述的关键词的指数获取装置,其特征在于,所述运算模块,还用于当所述预设关键词的数量为一个时,对所述预设关键词对应的用户集合数据和指定用户集合数据做交和/或并集运算得到所述查询请求对应的关键词的指数。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至3任一项所述的关键词的指数获取方法的步骤。
8.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时,实现权利要求1至3任一项所述的关键词的指数获取方法的步骤。
CN201710642880.6A 2017-07-31 2017-07-31 关键词的指数获取方法和装置、计算机设备和存储介质 Active CN107545039B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710642880.6A CN107545039B (zh) 2017-07-31 2017-07-31 关键词的指数获取方法和装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710642880.6A CN107545039B (zh) 2017-07-31 2017-07-31 关键词的指数获取方法和装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN107545039A CN107545039A (zh) 2018-01-05
CN107545039B true CN107545039B (zh) 2021-05-18

Family

ID=60971244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710642880.6A Active CN107545039B (zh) 2017-07-31 2017-07-31 关键词的指数获取方法和装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN107545039B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614549B (zh) * 2018-12-10 2019-11-12 北京字节跳动网络技术有限公司 用于推送信息的方法和装置
CN112579874B (zh) * 2019-09-29 2024-06-11 腾讯科技(深圳)有限公司 一种关键词的指数确定方法、装置、设备及存储介质
CN112307264A (zh) * 2020-10-22 2021-02-02 深圳市欢太科技有限公司 数据查询方法和装置、以及存储介质和电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101004737A (zh) * 2007-01-24 2007-07-25 贵阳易特软件有限公司 基于关键词的个性化文档处理系统
CN104408036A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 关联话题的识别方法和装置
CN105574054A (zh) * 2014-11-06 2016-05-11 阿里巴巴集团控股有限公司 一种分布式缓存范围查询方法、装置及系统
CN106503037A (zh) * 2016-09-14 2017-03-15 乐视控股(北京)有限公司 关键词微指数数据的获取方法及装置
CN106610965A (zh) * 2015-10-21 2017-05-03 北京瀚思安信科技有限公司 确定文本串公共子序列的方法和设备
CN106681688A (zh) * 2016-12-28 2017-05-17 北京酷云互动科技有限公司 一种基于minhash的集合相似度计算方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101004737A (zh) * 2007-01-24 2007-07-25 贵阳易特软件有限公司 基于关键词的个性化文档处理系统
CN105574054A (zh) * 2014-11-06 2016-05-11 阿里巴巴集团控股有限公司 一种分布式缓存范围查询方法、装置及系统
CN104408036A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 关联话题的识别方法和装置
CN106610965A (zh) * 2015-10-21 2017-05-03 北京瀚思安信科技有限公司 确定文本串公共子序列的方法和设备
CN106503037A (zh) * 2016-09-14 2017-03-15 乐视控股(北京)有限公司 关键词微指数数据的获取方法及装置
CN106681688A (zh) * 2016-12-28 2017-05-17 北京酷云互动科技有限公司 一种基于minhash的集合相似度计算方法和系统

Also Published As

Publication number Publication date
CN107545039A (zh) 2018-01-05

Similar Documents

Publication Publication Date Title
CN107679211B (zh) 用于推送信息的方法和装置
US10546006B2 (en) Method and system for hybrid information query
TWI615792B (zh) 會話內容合倂方法和系統
CN108664480B (zh) 一种多数据源用户信息整合方法和装置
CN107885873B (zh) 用于输出信息的方法和装置
CN108182258B (zh) 分布式的数据分析系统及方法
CN107545039B (zh) 关键词的指数获取方法和装置、计算机设备和存储介质
US11048766B1 (en) Audience-centric event analysis
CN111008321A (zh) 基于逻辑回归推荐方法、装置、计算设备、可读存储介质
CN106470110B (zh) 向用户列表中的多个用户群发消息的方法及装置
CN101477527B (zh) 一种检索多媒体资源的方法及装置
CN108123972B (zh) 多媒体文件的分配方法及装置
CN111159563B (zh) 用户兴趣点信息的确定方法、装置、设备及存储介质
CN111913954A (zh) 智能数据标准目录生成方法和装置
CN110019980B (zh) 索引处理方法、装置、存储介质和计算机设备
CN113505265A (zh) 数据的查询方法、装置及电子设备、存储介质、程序产品
CN111414410A (zh) 数据处理方法、装置、设备和存储介质
CN116055551A (zh) 信息推送方法、装置、系统、电子设备及存储介质
CN104636368A (zh) 数据检索方法、装置及服务器
CN109885729B (zh) 一种显示数据的方法、装置及系统
CN108304570B (zh) 一种搜索结果的处理方法及展现方法、服务器、客户端
JP2012089014A (ja) 購買行動分析装置、購買行動分析方法及び購買行動分析プログラム
CN112347099A (zh) 数据处理方法、装置、计算设备及计算机可读存储介质
CN112835863A (zh) 操作日志的处理方法和处理装置
CN107844536B (zh) 应用程序选择的方法、装置和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant