CN112579874A - 一种关键词的指数确定方法、装置、设备及存储介质 - Google Patents

一种关键词的指数确定方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112579874A
CN112579874A CN201910930537.0A CN201910930537A CN112579874A CN 112579874 A CN112579874 A CN 112579874A CN 201910930537 A CN201910930537 A CN 201910930537A CN 112579874 A CN112579874 A CN 112579874A
Authority
CN
China
Prior art keywords
index
target
operation record
information
record information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910930537.0A
Other languages
English (en)
Inventor
卓达城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910930537.0A priority Critical patent/CN112579874A/zh
Publication of CN112579874A publication Critical patent/CN112579874A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种关键词的指数确定方法、装置、设备及存储介质,所述方法包括:获取关键词,对所述关键词进行分词,得到目标分词;在第一索引文件中查找与所述目标分词对应的目标对象的操作记录信息集合;基于所述目标分词以及与所述目标分词对应的目标对象的操作记录信息集合,得到第一指数信息;将所述目标分词发送给服务器;接收所述服务器返回的第二指数信息;基于所述第一指数信息和所述第二指数信息,确定所述关键词的指数。本申请能够基于用户操作记录信息进行关键词的指数计算,从而使得计算得出的关键词指数更加贴合用户的操作行为,并体现出用户特性。

Description

一种关键词的指数确定方法、装置、设备及存储介质
技术领域
本申请涉及互联网技术领域,尤其涉及一种关键词的指数确定方法、装置、设备及存储介质。
背景技术
关键词的指数是以海量网络信息数据为基础,用以反映关键词在过去一段时间内每天的变化趋势的数据表现形式,能够直接、客观地反映社会热点、网民的兴趣和需求,从而可以发现、共享和挖掘互联网上有价值的信息和资讯。
现有的技术方案中对于各关键词指数一般都是基于全网公开的信息进行计算的,并呈现给用户,从而对于每一个关键词,各个用户看到的关键词指数都是一样的,没有任何差别,跟用户自身的相关性极小,不能体现出各个用户的特性。
发明内容
本申请所要解决的技术问题在于,提供一种关键词的指数确定方法、装置、设备及存储介质,能够结合网络公开信息以及用户操作记录信息进行关键词的指数计算,从而使得计算得出的关键词指数更加贴合用户的操作行为,并体现出用户特性。
为了解决上述技术问题,一方面,本申请提供了一种关键词的指数确定方法,所述方法包括:
获取关键词,对所述关键词进行分词,得到目标分词;
在第一索引文件中查找与所述目标分词对应的目标对象的操作记录信息集合,所述第一索引文件中包括与多个分词对应的目标对象的操作记录信息集合;
基于所述目标分词以及与所述目标分词对应的目标对象的操作记录信息集合,得到第一指数信息;
将所述目标分词发送给服务器;
接收所述服务器返回的基于所述目标分词和第二索引文件得到的第二指数信息,所述第二索引文件包括通过所述服务器对网络信息进行处理得到的与多个分词对应的操作记录信息集合;
基于所述第一指数信息和所述第二指数信息,确定所述关键词的指数。
另一方面,本申请提供了一种关键词的指数确定装置,所述装置包括:
关键词分词模块,用于获取关键词,对所述关键词进行分词,得到目标分词;
查找模块,用于在第一索引文件中查找与所述目标分词对应的目标对象的操作记录信息集合,所述第一索引文件中包括与多个分词对应的目标对象的操作记录信息集合;
第一指数信息确定模块,用于基于所述目标分词以及与所述目标分词对应的目标对象的操作记录信息集合,得到第一指数信息;
目标分词发送模块,用于将所述目标分词发送给服务器;
第二指数信息接收模块,用于接收所述服务器返回的基于所述目标分词和第二索引文件得到的第二指数信息,所述第二索引文件包括通过所述服务器对网络信息进行处理得到的与多个分词对应的操作记录信息集合;
关键词指数确定模块,用于基于所述第一指数信息和所述第二指数信息,确定所述关键词的指数。
另一方面,本申请提供了一种设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述的关键词的指数确定方法。
另一方面,本申请提供了一种计算机存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行如上述的关键词的指数确定方法。
实施本申请实施例,具有如下有益效果:
本申请通过对获取的关键词进行分词,得到目标分词;在用户终端的第一索引文件中查找的所述目标分词,以及与所述目标分词对应的目标对象的操作记录信息集合;将所述目标分词发送给服务器,接收所述服务器返回的基于所述目标分词和第二索引文件得到的第二指数信息;基于用户终端计算得到的第一指数信息和服务器计算得到的第二指数信息,得到所述关键词的指数。本申请在基于全网公开信息对关键词进行指数计算的基础上,添加了基于目标对象的操作信息对关键词的指数进行计算,从而使得对关键词的指数计算更加贴合目标对象的特性;另外,由于目标对象的操作信息的数据量较少,基于目标对象的操作信息对关键词的指数进行计算的过程在用户终端侧进行,既减轻了服务器的计算压力,又保护了用户的隐私。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例提供的应用场景示意图;
图2是本申请实施例提供的一种关键词的指数确定方法流程图;
图3是本申请实施例提供的第一索引文件的生成方法流程图;
图4是本申请实施例提供的一种第一指数信息确定方法流程图;
图5是本申请实施例提供的另一种第一指数信息确定方法流程图;
图6是本申请实施例提供的又一种第一指数信息确定方法流程图;
图7是本申请实施例提供的又一种第一指数信息确定方法流程图;
图8是本申请实施例提供的基于第一指数信息和第二指数信息确定所关键词的指数的方法流程图;
图9是本申请实施例提供的一种关键词的指数确定装置示意图;
图10是本申请实施例提供的一种第一指数信息确定模块示意图;
图11是本申请实施例提供的另一种第一指数信息确定模块示意图;
图12是本申请实施例提供的又一种第一指数信息确定模块示意图;
图13是本申请实施例提供的又一种第一指数信息确定模块示意图;
图14是本申请实施例提供的一种关键词指数确定模块示意图;
图15是本申请实施例提供的一种第一索引文件更新模块示意图;
图16是本申请实施例提供的一种设备的硬件结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,其示出本申请实施例提供的应用场景示意图,该应用场景包括:至少一个用户终端110和服务器120,所述用户终端110和所述服务器120可通过网络进行数据通信。具体地,所述用户终端110接收用户输入的待处理信息,用户终端110基于预先处理得到用户操作记录信息,对所述待处理信息进行处理,并得到第一处理结果;用户终端110将所述待处理信息发送给服务器120,以使得服务器基于预先处理得到的记录信息对所述待处理信息进行处理,得到第二处理结果并返回给用户终端110;用户终端110基于第一处理结果以及第二处理结果,得到对所述待处理信息的最终处理结果。
所述用户终端110可以基于浏览器/服务器模式(Browser/Server,B/S)或客户端/服务器模式(Client/Server,C/S)与服务器120进行通信。所述用户终端110可以包括:智能手机、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、车载终端、服务器等类型的实体设备,也可以包括运行于实体设备中的软体,例如应用程序等。本申请实施例中的用户终端110上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。
所述服务器120与用户终端110可以通过有线或者无线建立通信连接,所述服务器120可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群,其中服务器可以是云端服务器。
为了使得对于关键词的指数计算更加贴合用户行为特性,为每个用户展示与该用户高度相关的关键词指数,本申请实施例提供了一种关键词的指数确定方法,其执行主体可以为图1中的用户终端,具体请参阅图2,所述方法包括:
S210.获取关键词,对所述关键词进行分词,得到目标分词。
这里获取的关键词可以为用户通过用户终端的输入接口输入的关键词,用户终端在获取到关键词之后,需要对所述关键词进行分词,这里具体分词的方法可采用现有的自然语言处理技术;对关键词进行分词之后,可得到至少一个目标分词,当只有一个目标分词时,说明输入的关键词就是一个单独的不可再分的词汇,当目标分词的数量大于等于两个时,说明输入的关键词是由多个分词组合而成的。
S220.在第一索引文件中查找与所述目标分词对应的目标对象的操作记录信息集合,所述第一索引文件中包括与多个分词对应的目标对象的操作记录信息集合。
第一索引文件可存储在用户终端,是基于对目标对象的历史操作信息进行处理得到的,其中目标对象可以看成是当前用户,即输入关键词的用户,这里的历史操作信息可以是指用户的历史行为数据,本实施例中用户的历史行为数据可以包括:用户社交软件中的聊天记录、用户的社交平台上显示的数据、用户关注的自媒体平台的相关数据等。
相对于当前时刻,第一索引文件中包含的数据均是与当前用户相关的历史数据,第一索引文件是不断更新的,是根据实时获取的信息进行实时的数据处理而得到的;具体的第一索引文件的生成方法请参阅图3,所述方法包括:
S310.获取所述目标对象的历史操作数据。
用户终端可获取到当前用户的历史行为数据,包括用户社交软件中的聊天记录、用户的社交平台上显示的数据、用户关注的自媒体平台的相关数据等不同类型数据,具体获取数据可以是按照预设的时间段进行的,例如,每一个小时获取一次用户历史数据,这里获取的历史数据仅为当前时刻之前的一小时内的数据,因为在一小时之前的数据已经获取过并已经处理完毕,且存储到第一索引文件中了。
S320.对所述历史操作数据进行划分,得到历史操作信息集合,其中,所述历史操作信息集合包括至少一项操作记录信息。
对当前时刻前一小时内的数据进行划分,得到若干项操作记录信息,当数据为用户社交软件中的聊天记录数据时,可以对聊天记录按句进行划分,得到若干各句子,这里可以为每句话标上相应的ID以及记录时间,这里经过划分之后得到的每个句子便可看成是一项操作记录信息,基于划分之后的若干个句子,构建当前时刻前一小时内的历史操作信息集合;对于用户的社交平台上显示的数据、用户关注的自媒体平台的相关数据可采用同样的划分方法。
S330.对各项操作记录信息进行分词,得到至少一个分词。
对每一句话进行分词,从而将一句话划分为若干个分词。
S340.对于每个分词,从所述历史操作信息集合中确定出包含所述分词的操作记录信息,并基于包含所述分词的操作记录信息构建与所述分词对应的所述操作记录信息集合。
用户终端可存储有预先设置好的分词表单,其中包括了在用户历史操作记录中出现过的分词,将上述对每句话进行分词之后得到的各分词与分词表单中的分词进行匹配,当在分词表单中找到相同的分词时,确定所述分词在当前时刻前一小时内的哪个句子中出现过,并确定这句话对应的ID,将各ID对应的句子放入到与所述分词对应的操作记录信息集合中。
当在分词表单中没有找到相同的分词时,可将所述分词加入到所述分词表单中以更新所述分词表单,确定所述分词在当前时刻前一小时内的哪个句子出现过,并确定这句话对应的ID,创建与该分词对应的操作记录信息集合,将各ID对应的句子放入到与所述分词对应的操作记录信息集合中。
当不存在所述分词表单时,基于当前获取的用户历史操作记录创建一个分词表单,该分词列表包括了在用户历史操作记录中出现过的分词,其中重复的分词只出现一次;对于同一个分词,其可能出现在不同的句子中,所以对于每一个分词,需要确定其在哪个句子中出现过,并确定这个句子对应的ID,从而一个分词可对应至少一个句子,基于这些句子创建与所述分词对应的操作记录信息集合。
对于当前时刻,第一索引文件的当前分词表单中的各分词均可看成是预设分词,在当前获取到新的用户历史操作记录信息时,可直接将新的用户历史操作记录信息中出现的分词与分词表单中的各预设分词进行匹配,确定新的用户历史操作记录信息中出现的分词是否为各预设分词中的一个或多个。需要说明的是,随着不断地获取用户历史操作记录信息,其中可能会出现新的分词,需要将新出现的分词添加到分词表单中以更新所述分词表单,从而预设分词的数量也是相应增加的。
S350.基于各分词,以及与各分词对应的所述操作记录信息集合,更新所述第一索引文件。
基于上述步骤中的当前时刻前一段预设时间内的用户历史数据得到各分词以及对应的操作记录信息集合,更新所述第一索引文件。
上述步骤中对于每个分词所创建的操作记录信息集合可以是由多个不同类型的子集合构成的,其中每个子集合中包括一种类型数据的操作记录信息,例如可包括聊天记录信息集合、社交平台信息集合、自媒体平台信息集合等;也可以是与每个分词对应的操作记录信息集合中包括多项不同类型的操作记录信息,本申请实施例中的操作记录信息类型包括聊天记录信息、社交平台信息以及自媒体平台信息等,具体实施方法可自行确定。
S230.基于所述目标分词以及与所述目标分词对应的目标对象的操作记录信息集合,得到第一指数信息。
用户在输入关键词时,可以指定计算关键词指数的时间段,也可以是默认的时间段,本实施例中以默认时间段7天为例,例如只要用户输入关键词,就默认用户需要知道该关键词在过去7天之内的指数变化;对于每个单独的分词,可每隔一个预设的时间段,例如每隔一个小时就进行一次第一指数信息的计算,例如可将与该关键词对应的操作记录信息集合中记录时间为近一个小时的操作记录信息的项数作为该时间段的指数信息;根据每个句子的记录时间,筛选出7天之内的操作记录信息,并将每个时间段对应的指数信息相加,从而可以直接得到过去7天之内基于用户操作记录信息关键词的第一指数信息。
上述对于第一指数信息的确定方法是在没有对用户操作记录信息进行分类的情况下实现的,当考虑到需要基于不同的操作记录信息计算第一指数信息时,需要对各个类型的操作信息进行加权计算。当所述关键词是由至少两个分词组成时,需要求多个分词分别对应的操作记录信息集合的交集,具体地,请参阅图4,其示出了一种第一指数信息确定方法,所述方法包括:
S410.当所述目标分词的数量大于等于两个时,基于与各目标分词对应的目标对象的操作记录信息集合中的各项操作记录信息,求各操作记录信息集合的交集,得到第一集合。
S420.确定所述第一集合中所述操作记录信息的项数为所述第一指数信息。
具体地,请参阅图5,其示出了另一种第一指数信息确定方法,其中所述与每个目标分词对应的目标对象的操作记录信息集合包括多个不同类型的操作记录信息子集合,每个操作记录信息子集合中包括至少一项操作记录信息,多个不同类型的操作记录信息子集合具体可包括聊天记录信息集合、社交平台信息集合以及自媒体平台信息集合;所述方法包括:
S510.当所述目标分词的数量大于等于两个时,对各目标分词对应的同类型的所述操作记录信息子集合求交集,得到多个同类型子集合。
以目标分词的数量是2个为例进行说明,对关键词进行分词之后得到目标分词a和目标分词b,并在索引文件中找到目标分词a和目标分词b以及相应的操作记录信息集合,例如目标分词a对应:子集合A1、子集合A2和子集合A3,目标分词b对应:子集合B1、子集合B2和子集合B3,其中A1和B1为聊天记录信息集合,A2和B2为社交平台信息集合,A3和B3为自媒体平台信息集合,求A1和B1的交集,得到第一类型交集;求A2和B2的交集,得到第二类型交集;求A3和B3的交集,得到第三类型交集。这里求交集的具体方式可基于每个句子的ID来实现,假设两个集合中存在同一ID对应的句子,则这个句子会出现在这两个集合的交集中。
S520.确定每个同类型子集合中操作记录信息的项数,以及与每个类型的操作记录信息对应的权重。
本申请实施例中,每项操作记录信息可看成是一个句子,从而分别确定第一类型交集、第二类型交集以及第三类型交集中句子的数量,例如分别为n1、n2和n3;假设聊天记录信息的权重为w1,社交平台信息的权重为w2,自媒体平台信息的权重为w3
S530.基于每个同类型子集合中操作记录信息的项数以及相应的权重,计算得到所述第一指数信息。
那么计算的第一指数信息可以为:n1*w1+n2*w2+n3*w3,其中w1+w2+w3=1。
对于每个目标分词,其可以只对应一个操作记录信息集合,且这个操作记录信息集合中可包括多种不同类型的操作记录信息,例如可以包括聊天记录信息、社交平台信息以及自媒体平台信息等。具体请参阅图6,其示出了又一种第一指数信息确定方法,所述方法包括:
S610.当所述目标分词的数量大于等于两个时,对各目标分词对应的操作记录信息集合求交集,得到第二集合。
同样以目标分词的数量是2个为例进行说明,对于目标分词a和目标分词b,其分别对应集合A和集合B,基于集合A和集合B中各句子的ID来求各目标分词对应的操作记录信息集合的交集,得到第二集合。
S620.对所述第二集合中的多项操作记录信息进行分类。
将第二集合中的各个句子分为聊天记录信息、社交平台信息以及自媒体平台信息等类型。
S630.确定所述第二集合中每个类型的操作记录信息的项数,以及与每个类型的操作记录信息对应的权重。
若第二集合中与聊天记录信息相关的句子数量为m1,与社交平台信息相关的句子数量为m2,与自媒体平台信息相关的句子数量为m3;且聊天记录信息的权重为w1,社交平台信息的权重为w2,自媒体平台信息的权重为w3
S640.基于每个类型的操作记录信息的项数以及相应的权重,计算得到所述第一指数信息。
那么计算得到的第一指数信息为:m1*w1+m2*w2+m3*w3,其中,w1+w2+w3=1。
在目标分词为多个的情况下,可能会涉及到各个目标分词之间的顺序问题,在对需要出现在操作记录信息中的各分词之间的顺序与关键词中各目标分词的顺序相同时,可通过以下方法来确定第一指数信息,请参阅图7,其示出了又一种第一指数信息确定方法,所述方法包括:
S710.当所述目标分词的数量大于等于两个时,记录在所述关键词中各目标分词出现的先后顺序。
S720.对各目标分词对应的目标对象的目标操作记录信息集合求交集,得到第三集合。
S730.对所述第三集合中的各项操作记录信息进行分析。
S740.当所述目标分词在所述操作记录信息中出现的先后顺序与记录的各目标分词出现的先后顺序一致,判定所述操作记录信息符合预设条件。
这里各目标分词在操作记录信息中出现的先后顺序可以包括各分词连续出现,也可以包括各分词不连续出现,但只要顺序一致即可;例如关键词中的顺序为目标分词1+目标分词2,而操作记录信息中的顺序为目标分词1+其他词+目标分词2,这种情况也可以认为是符合要求的。
S750.确定所述第三集合中符合所述预设条件的操作记录信息的项数为所述第一指数信息。
对于不存在分类的操作记录信息的情况,此时可直接将第三集合中符合条件的句子的数量作为所述第一指数信息;在存在分类的操作记录信息时,需要对符合条件的句子进行分类,确定相应的数量以及权重,计算得到所述第一指数信息。
需要说明的是,对于上述各种第一指数信息确定方法,在可能的情况下,可进行一种或者多种方法的组合,以得到其他的第一指数信息确定方法,在此不再赘述。
S240.将所述目标分词发送给服务器。
S250.接收所述服务器返回的基于所述目标分词和第二索引文件得到的第二指数信息,所述第二索引文件包括通过所述服务器对网络信息进行处理得到的与多个分词对应的操作记录信息集合。
第二索引文件的生成方法与第一索引文件的生成方法类似,只是所基于的数据不同,第二索引文件是基于对全网公开数据进行处理得到的。服务器采用流式计算方法计算第二指数信息,其中所述第二指数信息的计算方法与上述用户终端计算第一指数信息的方法基本一致,唯一不同的是,服务器侧是基于对全网公开资源信息进行第二指数信息计算的,而不同于用户终端侧是基于目标用户的行为记录信息进行实现的。服务器侧获取的全网公开的信息的类型可以包括新闻信息、论坛信息、博客信息等。
S260.基于所述第一指数信息和所述第二指数信息,确定所述关键词的指数。
本申请实施例中是基于第一指数信息和第二指数信息两方面的信息来确定所述关键词的指数的,具体地,请参阅图8,所述方法包括:
S810.确定与所述目标分词相关的操作信息对应的权重,以及与所述目标分词相关的网络信息对应的权重。
在进行指数信息汇总时,可根据各方面的指数信息在最终结果中所占的比重来分别确定每一方面指数信息的权重。
S820.基于与所述目标分词相关的对象信息对应的权重,以及与所述目标分词相关的网络信息对应的权重,计算所述第一指数信息和所述第二指数信息的加权和,得到所述关键词的指数。
对于第一指数信息和第二指数信息的加权和,可以直接对操作记录信息以及全网公开信息两方面信息的求加权和,此时关键词的指数的具体计算公式可以为:
第一指数信息*v1+第二指数信息*v2,其中v1+v2=1;
基于上述步骤,得到了与输入关键词对应的指数,具体地,以一具体示例来说明本申请的具体实施过程。
本申请具体可集成到相关的应用软件中进行实现,用户可通过软件中的入口或者接口来进行调用;服务器和用户端会根据获取的信息实时进行相关数据的处理,用户查询时,服务器返回服务器计算的数据,用户端结合自身计算的数据与服务器计算的数据相结合,展现给用户;若关键词为“汽车”,则计算其指数的过程可包括:
1.根据全网公开的信息(一周,一天或者一个时间段),命中关键词“汽车”,即加分,再乘以权重,得到分数A,这里的加分是指在全网公开信息中每命中一次“汽车”,就加1分;
2.根据用户的朋友圈(一周,一天或者一个时间段),命中关键词“汽车”,即加分,再乘以权重,得到分数B(为保护隐私,这里为用户端本地计算);
3.根据用户关注的公众号(一周,一天或者一个时间段),命中关键词“汽车”,即加分,再乘以权重,得到分数C(为保护隐私,这里为用户端本地计算);
4.根据用户的聊天记录(一周,一天或者一个时间段),命中关键词“汽车”,即加分,再乘以权重,得到分数D(为保护隐私,这里为用户端本地计算);
5.把所有分数相加,平滑,得到一个跟用户高度相关独一无二的指数,用户点击进去,则能看到更详细的指数随时间的变化图;再进一步,则可以看到分数的详细计算形式,即每个项的得分,通过多种图表进行表示,例如饼图等,从中可以看到,哪方面的信息对当前关键词指数的计算占比比较大。
本申请根据用户输入的关键词,计算该关键词的指数,并以时间为横坐标,指数为纵坐标展现给用户;对于同一个关键词,每个人看到的指数不一样,即指数不仅仅通过全网公开的信息计算,还跟用户、用户的好友和用户关注的公众号等的行为有关。例如:关键词为“公务员加薪”,如果用户是公务员群体,那么用户的朋友一定对其关注更高,聊天,朋友圈,公务员相关公众号必然有大量相关信息,指数会变化非常大,对公务员用户的价值也更高;而用户是非公务员,则指数变化相对较小,用户对其关注程度和兴趣也更小,其价值对用户来说也更小。
对于本实施例上述的用户操作信息类型、全网数据信息类型以及各项信息类型对应的权重均可可根据实际情况进行调整,本申请实施例不作具体限定。
本申请在基于全网公开信息对关键词进行指数计算的基础上,添加了基于目标对象的操作信息对关键词的指数进行计算,从而使得对关键词的指数计算更加贴合目标对象的特性;另外,由于目标对象的操作信息的数据量较少,基于目标对象的操作信息对关键词的指数进行计算的过程在用户终端侧进行,既减轻了服务器的计算压力,提高计算速度,又保护了用户的隐私;另外,服务器不记录用户相关数据,从而杜绝数据泄露。
本实施例还提供了一种关键词的指数确定装置,请参阅图9,该装置可通过硬件和/或软件的方式实现,并一般可以集成于客户端中,与提供资源的服务器配合使用,具体地,所述装置包括:
关键词分词模块910,用于获取关键词,对所述关键词进行分词,得到目标分词;
查找模块920,用于在第一索引文件中查找与所述目标分词对应的目标对象的操作记录信息集合,所述第一索引文件中包括与多个分词对应的目标对象的操作记录信息集合;
第一指数信息确定模块930,用于基于所述目标分词以及与所述目标分词对应的目标对象的操作记录信息集合,得到第一指数信息;
目标分词发送模块940,用于将所述目标分词发送给服务器;
第二指数信息接收模块950,用于接收所述服务器返回的基于所述目标分词和第二索引文件得到的第二指数信息,所述第二索引文件包括通过所述服务器对网络信息进行处理得到的与多个分词对应的操作记录信息集合;
关键词指数确定模块960,用于基于所述第一指数信息和所述第二指数信息,确定所述关键词的指数。
请参阅图10,其示出了一种第一指数信息确定模块,每个操作记录信息集合中包括至少一项操作记录信息,所述第一指数信息确定模块930包括:
第一集合确定模块1010,用于当所述目标分词的数量大于等于两个时,基于与各目标分词对应的目标对象的操作记录信息集合中的各项操作记录信息,求各操作记录信息集合的交集,得到第一集合;
第一确定模块1020,用于确定所述第一集合中所述操作记录信息的项数为所述第一指数信息。
请参阅图11,其示出了另一种第一指数信息确定模块,所述与每个目标分词对应的目标对象的操作记录信息集合包括多个不同类型的操作记录信息子集合,每个操作记录信息子集合中包括至少一项操作记录信息,所述第一指数信息确定模块930包括:
同类型子集合确定模块1110,用于当所述目标分词的数量大于等于两个时,对各目标分词对应的同类型的所述操作记录信息子集合求交集,得到多个同类型子集合;
第二确定模块1120,用于确定每个同类型子集合中操作记录信息的项数,以及与每个类型的操作记录信息对应的权重;
第一计算模块1130,用于基于每个同类型子集合中操作记录信息的项数以及相应的权重,计算得到所述第一指数信息。
请参阅图12,其示出了又一种第一指数信息确定模块,所述与每个目标分词对应的目标对象的操作记录信息集合中包括多项不同类型的操作记录信息,所述第一指数信息确定模块930包括:
第二集合确定模块1210,用于当所述目标分词的数量大于等于两个时,对各目标分词对应的操作记录信息集合求交集,得到第二集合;
分类模块1220,用于对所述第二集合中的多项操作记录信息进行分类;
第三确定模块1230,用于确定所述第二集合中每个类型的操作记录信息的项数,以及与每个类型的操作记录信息对应的权重;
第二计算模块1240,用于基于每个类型的操作记录信息的项数以及相应的权重,计算得到所述第一指数信息。
请参阅图13,其示出了又一种第一指数信息确定模块,每个操作记录信息集合中包括至少一项操作记录信息,所述第一指数信息确定模块930包括:
顺序记录模块1310,用于当所述目标分词的数量大于等于两个时,记录在所述关键词中各目标分词出现的先后顺序;
第三集合确定模块1320,用于对各目标分词对应的目标对象的目标操作记录信息集合求交集,得到第三集合;
分析模块1330,用于对所述第三集合中的各项操作记录信息进行分析;
判定模块1340,用于当所述目标分词在所述操作记录信息中出现的先后顺序与记录的各目标分词出现的先后顺序一致,判定所述操作记录信息符合预设条件;
第四确定模块1350,确定所述第三集合中符合所述预设条件的操作记录信息的项数为所述第一指数信息。
请参阅图14,其示出了一种关键词指数确定模块,所述关键词指数确定模块960包括:
第五确定模块1410,用于确定与所述目标分词相关的操作信息对应的权重,以及与所述目标分词相关的网络信息对应的权重;
第三计算模块1420,用于基于与所述目标分词相关的对象信息对应的权重,以及与所述目标分词相关的网络信息对应的权重,计算所述第一指数信息和所述第二指数信息的加权和,得到所述关键词的指数。
请参阅图15,其示出了一种第一索引文件更新模块,所述第一索引文件更新模块1500包括:
第一获取模块1510,用于获取所述目标对象的历史操作数据;
操作数据划分模块1520,用于对所述历史操作数据进行划分,得到历史操作信息集合,其中,所述历史操作信息集合包括至少一项操作记录信息;
第一分词模块1530,用于对各项操作记录信息进行分词,得到至少一个分词;
第六计算模块1540,用于对于每个分词,从所述历史操作信息集合中确定出包含所述分词的操作记录信息,并基于包含所述分词的操作记录信息构建与所述分词对应的所述操作记录信息集合;
第一更新模块1550,用于基于各分词,以及与各分词对应的所述操作记录信息集合,更新所述第一索引文件。
上述实施例中提供的装置可执行本申请任意实施例所提供方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的方法。
本实施例还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行如本实施例上述任一方法。
进一步地,图16示出了一种用于实现本发明实施例所提供的方法的设备的硬件结构示意图,所述设备可以参与构成或包含本发明实施例所提供的装置。如图16所示,设备10可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图16所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,设备10还可包括比图16中所示更多或者更少的组件,或者具有与图16所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到设备10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中所述的方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的一种播放器预加载方法或一种播放器运行方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括设备10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与设备10(或移动设备)的用户界面进行交互。
本实施例上述的任一方法均可基于图16所示的设备进行实施。
本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤和顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或中断产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
本实施例中所示出的结构,仅仅是与本申请方案相关的部分结构,并不构成对本申请方案所应用于其上的设备的限定,具体的设备可以包括比示出的更多或更少的部件,或者组合某些部件,或者具有不同的部件的布置。应当理解到,本实施例中所揭露的方法、装置等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分仅仅为一种逻辑功能的划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元模块的间接耦合或通信连接。
基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员还可以进一步意识到,结合本说明书所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但这种实现不应认为超出本申请的范围。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种关键词的指数确定方法,其特征在于,包括:
获取关键词,对所述关键词进行分词,得到目标分词;
在第一索引文件中查找与所述目标分词对应的目标对象的操作记录信息集合,所述第一索引文件中包括与多个分词对应的目标对象的操作记录信息集合;
基于所述目标分词以及与所述目标分词对应的目标对象的操作记录信息集合,得到第一指数信息;
将所述目标分词发送给服务器;
接收所述服务器返回的基于所述目标分词和第二索引文件得到的第二指数信息,所述第二索引文件包括通过所述服务器对网络信息进行处理得到的与多个分词对应的操作记录信息集合;
基于所述第一指数信息和所述第二指数信息,确定所述关键词的指数。
2.根据权利要求1所述的一种关键词的指数确定方法,其特征在于,每个操作记录信息集合中包括至少一项操作记录信息;
相应地,所述基于所述目标分词以及与所述目标分词对应的目标对象的操作记录信息集合,得到第一指数信息包括:
当所述目标分词的数量大于等于两个时,基于与各目标分词对应的目标对象的操作记录信息集合中的各项操作记录信息,求各操作记录信息集合的交集,得到第一集合;
确定所述第一集合中所述操作记录信息的项数为所述第一指数信息。
3.根据权利要求1所述的一种关键词的指数确定方法,其特征在于,所述与所述目标分词对应的目标对象的操作记录信息集合包括多个不同类型的操作记录信息子集合,每个操作记录信息子集合中包括至少一项操作记录信息;
相应地,所述基于所述目标分词以及与所述目标分词对应的目标对象的操作记录信息集合,得到第一指数信息包括:
当所述目标分词的数量大于等于两个时,对各目标分词对应的同类型的所述操作记录信息子集合求交集,得到多个同类型子集合;
确定每个同类型子集合中操作记录信息的项数,以及与每个类型的操作记录信息对应的权重;
基于每个同类型子集合中操作记录信息的项数以及相应的权重,计算得到所述第一指数信息。
4.根据权利要求1所述的一种关键词的指数确定方法,其特征在于,所述与所述目标分词对应的目标对象的操作记录信息集合包括多项不同类型的操作记录信息;
相应地,所述基于所述目标分词以及与所述目标分词对应的目标对象的操作记录信息集合,得到第一指数信息包括:
当所述目标分词的数量大于等于两个时,对各目标分词对应的操作记录信息集合求交集,得到第二集合;
对所述第二集合中的多项操作记录信息进行分类;
确定所述第二集合中每个类型的操作记录信息的项数,以及与每个类型的操作记录信息对应的权重;
基于每个类型的操作记录信息的项数以及相应的权重,计算得到所述第一指数信息。
5.根据权利要求1所述的一种关键词的指数确定方法,其特征在于,每个操作记录信息集合中包括至少一项操作记录信息;
相应地,所述基于所述目标分词以及与所述目标分词对应的目标对象的操作记录信息集合,得到第一指数信息包括:
当所述目标分词的数量大于等于两个时,记录在所述关键词中各目标分词出现的先后顺序;
对各目标分词对应的目标对象的目标操作记录信息集合求交集,得到第三集合;
对所述第三集合中的各项操作记录信息进行分析;
当所述目标分词在所述操作记录信息中出现的先后顺序与记录的各目标分词出现的先后顺序一致,判定所述操作记录信息符合预设条件;
确定所述第三集合中符合所述预设条件的操作记录信息的项数为所述第一指数信息。
6.根据权利要求1所述的一种关键词的指数确定方法,其特征在于,所述基于所述第一指数信息和所述第二指数信息,确定所述关键词的指数包括:
确定与所述目标分词相关的操作信息对应的权重,以及与所述目标分词相关的网络信息对应的权重;
基于与所述目标分词相关的对象信息对应的权重,以及与所述目标分词相关的网络信息对应的权重,计算所述第一指数信息和所述第二指数信息的加权和,得到所述关键词的指数。
7.根据权利要求1所述的一种关键词的指数确定方法,其特征在于,所述方法还包括:
获取所述目标对象的历史操作数据;
对所述历史操作数据进行划分,得到历史操作信息集合,其中,所述历史操作信息集合包括至少一项操作记录信息;
对各项操作记录信息进行分词,得到至少一个分词;
对于每个分词,从所述历史操作信息集合中确定出包含所述分词的操作记录信息,并基于包含所述分词的操作记录信息构建与所述分词对应的所述操作记录信息集合;
基于各分词,以及与各分词对应的所述操作记录信息集合,更新所述第一索引文件。
8.一种关键词的指数确定装置,其特征在于,包括:
关键词分词模块,用于获取关键词,对所述关键词进行分词,得到目标分词;
查找模块,用于在第一索引文件中查找与所述目标分词对应的目标对象的操作记录信息集合,所述第一索引文件中包括与多个分词对应的目标对象的操作记录信息集合;
第一指数信息确定模块,用于基于所述目标分词以及与所述目标分词对应的目标对象的操作记录信息集合,得到第一指数信息;
目标分词发送模块,用于将所述目标分词发送给服务器;
第二指数信息接收模块,用于接收所述服务器返回的基于所述目标分词和第二索引文件得到的第二指数信息,所述第二索引文件包括通过所述服务器对网络信息进行处理得到的与多个分词对应的操作记录信息集合;
关键词指数确定模块,用于基于所述第一指数信息和所述第二指数信息,确定所述关键词的指数。
9.一种设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一项所述的关键词的指数确定方法。
10.一种计算机存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行如权利要求1至7任一项所述的关键词的指数确定方法。
CN201910930537.0A 2019-09-29 2019-09-29 一种关键词的指数确定方法、装置、设备及存储介质 Pending CN112579874A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910930537.0A CN112579874A (zh) 2019-09-29 2019-09-29 一种关键词的指数确定方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910930537.0A CN112579874A (zh) 2019-09-29 2019-09-29 一种关键词的指数确定方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112579874A true CN112579874A (zh) 2021-03-30

Family

ID=75110344

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910930537.0A Pending CN112579874A (zh) 2019-09-29 2019-09-29 一种关键词的指数确定方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112579874A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030217052A1 (en) * 2000-08-24 2003-11-20 Celebros Ltd. Search engine method and apparatus
CN102737050A (zh) * 2011-04-11 2012-10-17 阿里巴巴集团控股有限公司 应用在搜索引擎优化中的关键词动态调整方法和系统
CN103186662A (zh) * 2012-12-28 2013-07-03 中联竞成(北京)科技有限公司 一种动态舆情关键词抽取系统和方法
CN104166726A (zh) * 2014-08-26 2014-11-26 哈尔滨工程大学 一种面向微博文本流的突发关键词检测方法
CN107545039A (zh) * 2017-07-31 2018-01-05 腾讯科技(深圳)有限公司 关键词的指数获取方法和装置、计算机设备和存储介质
CN108733706A (zh) * 2017-04-20 2018-11-02 腾讯科技(深圳)有限公司 热度信息的生成方法和装置
CN109190017A (zh) * 2018-08-02 2019-01-11 腾讯科技(北京)有限公司 热点信息的确定方法、装置、服务器及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030217052A1 (en) * 2000-08-24 2003-11-20 Celebros Ltd. Search engine method and apparatus
CN1823334A (zh) * 2003-05-14 2006-08-23 塞利布罗斯有限公司 搜索引擎方法及装置
CN102737050A (zh) * 2011-04-11 2012-10-17 阿里巴巴集团控股有限公司 应用在搜索引擎优化中的关键词动态调整方法和系统
CN103186662A (zh) * 2012-12-28 2013-07-03 中联竞成(北京)科技有限公司 一种动态舆情关键词抽取系统和方法
CN104166726A (zh) * 2014-08-26 2014-11-26 哈尔滨工程大学 一种面向微博文本流的突发关键词检测方法
CN108733706A (zh) * 2017-04-20 2018-11-02 腾讯科技(深圳)有限公司 热度信息的生成方法和装置
CN107545039A (zh) * 2017-07-31 2018-01-05 腾讯科技(深圳)有限公司 关键词的指数获取方法和装置、计算机设备和存储介质
CN109190017A (zh) * 2018-08-02 2019-01-11 腾讯科技(北京)有限公司 热点信息的确定方法、装置、服务器及存储介质

Similar Documents

Publication Publication Date Title
CN110909165B (zh) 数据处理方法、装置、介质及电子设备
CN107798027B (zh) 一种信息热度预测方法、信息推荐方法及装置
CN107562947B (zh) 一种移动时空感知下动态即时推荐服务模型建立方法
CN109033408B (zh) 信息推送方法及装置、计算机可读存储介质、电子设备
CN110413867B (zh) 用于内容推荐的方法及系统
CN108269122B (zh) 广告的相似度处理方法和装置
US20160246896A1 (en) Methods and systems for identifying target users of content
US11275994B2 (en) Unstructured key definitions for optimal performance
CN111159563A (zh) 用户兴趣点信息的确定方法、装置、设备及存储介质
WO2024098699A1 (zh) 实体对象的威胁检测方法、装置、设备及存储介质
US20230114228A1 (en) Method for arbitrating encrypted electronic transactions among intermediary and authoring users only when an interaction occurs between authoring and candidate users who was exposed by the intermediary user to data published by authoring user
CN114036398A (zh) 内容推荐和排序模型训练方法、装置、设备以及存储介质
CN112765452A (zh) 搜索推荐方法、装置及电子设备
CN109388693A (zh) 一种确定分区意图的方法以及相关设备
CN113011886B (zh) 帐号类型的确定方法和装置及电子设备
CN115329078B (zh) 文本数据处理方法、装置、设备以及存储介质
CN111368552A (zh) 一种面向特定领域的网络用户群组划分方法及装置
CN112579422A (zh) 一种方案测试方法、装置、服务器及存储介质
CN112182460A (zh) 资源的推送方法和装置、存储介质及电子装置
CN115858815A (zh) 确定映射信息的方法、广告推荐方法、装置、设备及介质
CN112579874A (zh) 一种关键词的指数确定方法、装置、设备及存储介质
CN113722593A (zh) 事件数据处理方法、装置、电子设备和介质
CN109299351B (zh) 内容推荐方法和装置、电子设备及计算机可读介质
CN112905885A (zh) 向用户推荐资源的方法、装置、设备、介质和程序产品
CN114554253B (zh) 一种资源推荐方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination