CN113158055A - 信息召回方法和信息召回装置 - Google Patents
信息召回方法和信息召回装置 Download PDFInfo
- Publication number
- CN113158055A CN113158055A CN202110455895.8A CN202110455895A CN113158055A CN 113158055 A CN113158055 A CN 113158055A CN 202110455895 A CN202110455895 A CN 202110455895A CN 113158055 A CN113158055 A CN 113158055A
- Authority
- CN
- China
- Prior art keywords
- information
- implicit
- type
- warehousing
- historical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000013507 mapping Methods 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 139
- 238000012545 processing Methods 0.000 claims description 5
- 230000006399 behavior Effects 0.000 description 66
- 230000006870 function Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 241000219109 Citrullus Species 0.000 description 2
- 235000012828 Citrullus lanatus var citroides Nutrition 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种信息召回方法和信息召回装置,属于计算机技术领域。该信息召回方法包括:获取目标用户的第一信息浏览记录;基于所述第一信息浏览记录,确定与所述第一信息浏览记录对应的第一隐式语义;从索引系统中检索到与所述第一隐式语义对应的目标信息;为所述目标用户召回所述目标信息;其中,所述索引系统包括新入库信息、历史入库信息与隐式语义的映射关系信息,所述新入库信息对应的隐式语义为通过所述新入库信息的标签信息及所述历史入库信息对应的隐式语义确定。
Description
技术领域
本申请属于计算机技术领域,具体涉及一种信息召回方法和信息召回装置。
背景技术
在信息爆炸的时代,信息个性化推荐可以帮助实现信息的精准投放,信息 个性化推荐一般包含信息召回、信息排序和信息重排等过程。其中,信息召回 主要用于从海量信息中筛选出符合条件的目标信息,这样可以减少信息排序时 的负载。当前的信息召回方式主要通过基于标签的召回、ICF(基于物品的协 同过滤)召回、UCF(基于用户的协同过滤)召回、基于用户兴趣的深度召回 等。上述召回方法难以召回新入库信息,使得信息冷启动较为困难。
发明内容
本申请实施例的目的是提供一种信息召回方法和信息召回装置,能够解决 信息冷启动的问题。
第一方面,本申请实施例提供了一种信息召回方法,该方法包括:
获取目标用户的第一信息浏览记录;
基于所述第一信息浏览记录,确定与所述第一信息浏览记录对应的第一隐 式语义;
从索引系统中检索到与所述第一隐式语义对应的目标信息;
为所述目标用户召回所述目标信息;
其中,所述索引系统包括新入库信息、历史入库信息与隐式语义的映射关 系信息,所述新入库信息对应的隐式语义为通过所述新入库信息的标签信息及 所述历史入库信息对应的隐式语义确定。
第二方面,本申请实施例提供了一种信息召回装置,该装置包括:
第一接收模块,用于获取目标用户的第一信息浏览记录;
第一确定模块,用于基于所述第一信息浏览记录,确定与所述第一信息浏 览记录对应的第一隐式语义;
第一检索模块,用于从索引系统中检索到与所述第一隐式语义对应的目标 信息;
第一处理模块,用于为所述目标用户召回所述目标信息;
其中,所述索引系统包括新入库信息、历史入库信息与隐式语义的映射关 系信息,所述新入库信息对应的隐式语义为通过所述新入库信息的标签信息及 所述历史入库信息对应的隐式语义确定。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、 存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程 序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上 存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法 的步骤。
第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接 口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现 如第一方面所述的方法。
在本申请实施例中,通过基于新入库信息的标签信息及历史入库信息对应 的隐式语义,来确定新入库信息对应的隐式语义,巧妙地解决了新入库信息缺 失浏览记录的问题,且新入库信息和历史入库信息均通过隐式语义来实现召回, 可以降低对人工标签的依赖,提高召回的准确度。
附图说明
图1是本申请实施例提供的信息召回方法的流程图之一;
图2是本申请实施例提供的信息召回方法的流程图之二;
图3是本申请实施例提供的信息召回装置的结构图;
图4是本申请实施例提供的电子设备的结构示意图之一;
图5是本申请实施例提供的电子设备的硬件示意图之二。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清 楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施 例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都 属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类 似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在 适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那 些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限 定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及 权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前 后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的信 息召回方法、信息召回装置、电子设备和可读存储介质进行详细地说明。
本申请实施例提供一种信息召回方法,该信息召回方法可应用于电子设备, 具体可由,电子设备中的硬件或软件执行,该电子设备可以为服务器和网络附 属存储器等。
该信息召回方法可以用于从海量的信息库中筛选出符合条件的少量信息, 在此基础上,在给用户推荐信息时,可以基于该少量信息进行排序和重排等操 作,以减少排序模块的负载。
如图1所示,该信息召回方法包括:步骤110、步骤120、步骤130和步 骤140。
步骤110、电子设备获取目标用户的第一信息浏览记录;
可以理解的是,用户的终端在正常工作时,用户可以打开目标应用(application,APP)的浏览界面。
其中,该终端可以为具有显示屏的终端,包括移动终端或固定终端。
目标应用可以是具有浏览功能的APP。例如目标应用可以为视频播放APP, 这样目标应用可以展示视频信息;或者目标应用可以为新闻或社区类APP,这 样目标应用可以展示新闻信息或社区分享的其他信息,该信息可以包括视频信 息或图文信息。
或者目标应用也可以是具有浏览功能的网页,比如新闻门户网站、视频网 站和社区网站等。
用户通过终端在目标应用的浏览界面浏览信息后,该浏览记录会上传给服 务器等电子设备,并储存于电子设备的存储器中。该步骤可以为电子设备的处 理器从存储器中获取第一信息浏览记录。
对于目标用户,其在目标应用上的浏览记录上传到服务器等电子设备,该 浏览记录可以包括用户浏览过的图文信息或视频信息的浏览时刻、类目、标签、 点击率和浏览时长等特征。
目标用户的第一信息浏览记录,可以为目标用户在目标时间段的浏览记录, 目标时间段可以为预设的时间段。
比如目标时间段可以为从当前时刻回溯目标时长形成的时间段。这样,该 第一信息浏览记录为目标用户的实时浏览记录,基于该实时浏览记录召回的信 息对于目标用户更精准。
在实际的执行中,可以直接从KV存储系统中读取实时更新的目标用户的 第一信息浏览记录。
步骤120、电子设备基于第一信息浏览记录,确定与第一信息浏览记录对 应的第一隐式语义;
该电子设备的处理器通过第一信息浏览记录,通过检索或其他方式可以确 定对应的第一隐式语义。
步骤120可以包括:
电子设备的处理器基于第一信息浏览记录,确定与第一信息浏览记录对应 的第一信息;
电子设备的处理器从索引系统中检索到与第一信息对应的第一隐式语义。
需要说明的是,第一信息浏览记录包括有信息的地址、标签和浏览时间等 特征,从第一信息浏览记录中,可以解析出这些第一信息。
对于第一信息浏览记录中的每条第一信息,均存在对应的第一隐式语义。 第一信息与第一隐式语义的映射关系信息可以存储于索引系统。
对于第一信息浏览记录包括多条第一信息的情形,与第一信息浏览记录对 应的第一隐式语义也为多个。这些第一隐式语义可以按照第一信息浏览记录中 的浏览时间顺序排序。
需要说明的是,第一信息浏览记录中的每条信息均为信息库中的历史入库 信息,对于信息库中的历史入库信息,可以预先得到该历史入库信息与隐式语 义的映射关系信息,这样基于第一信息浏览记录中的历史入库信息,即可得到 对应的隐式语义。
在实际的执行中,历史入库信息对应的隐式语义可以基于对历史入库信息 的行为特征向量进行聚类得到,该行为特征向量可以基于历史入库信息浏览记 录得到。
换言之,历史入库信息对应的隐式语义可以通过如下方法确定:
电子设备的处理器基于历史入库信息浏览记录,得到历史入库信息的行为 特征向量;
电子设备的处理器对行为特征向量进行聚类,得到与历史入库信息对应的 隐式语义。
通过聚类,可以简单快捷地实现对海量信息的隐式语义标记。
其中,基于历史入库信息浏览记录,得到历史入库信息的行为特征向量, 可以包括:
电子设备的处理器基于历史入库信息浏览记录,构造不特定用户的历史入 库信息浏览序列,该历史入库信息浏览序列可以按照浏览时间顺序先后排列;
电子设备的处理器提取不特定用户的历史入库信息浏览特征,历史入库信 息通常被多用户浏览过,其具有较多的特征可供提取,历史入库信息浏览特征 为信息的相关特征,包括但不限于类目、标签、点击率和浏览时长等特征;
电子设备的处理器基于第一GNN模型,得到历史入库信息的行为特征向 量,在实际的执行过程,将历史入库信息浏览序列及历史入库信息浏览特征输 入到第一GNN模型,得到第一GNN模型输出的历史入库信息的行为特征向 量。
上述过程可以理解为,对第一GNN模型的无监督训练过程,该第一GNN 模型在训练过程中,可以输出历史入库信息的行为特征向量。
需要说明的是,行为特征向量的获取方法不局限于使用GNN模型,比如 还可以使用GCN模型等,在此就不再一一赘述。
上述,对行为特征向量进行聚类,得到与历史入库信息对应的隐式语义, 可以包括:对历史入库信息的行为特征向量进行聚类,可以得到多个聚类簇, 每个聚类簇中均与多个历史入库信息对应,对每个聚类簇打标记,该标记即为 聚类簇对应的信息的隐式语义。该标记可以基于预设的规则形成,这样确保不 同聚类簇之间的隐式语义具有可比性。
在实际执行的过程中,可以通过K-means算法对历史入库信息的行为特征 向量进行聚类,或者使用均值漂移聚类算法或DBSCAN聚类算法等算法进行 聚类。
可以理解的是,相关技术中,索引系统一般仅包括历史入库信息,对于新 入库信息,由于其基本没有浏览记录,难以从信息库中将其召回。
步骤120中的第一隐式语义用于从索引系统中检索到目标信息,而在本申 请中索引系统不仅仅包括历史入库信息,在本申请中,索引系统包括新入库信 息、历史入库信息与隐式语义的映射关系信息,而新入库信息对应的隐式语义 为通过新入库信息的标签信息及历史入库信息对应的隐式语义确定。
换言之,对于新入库信息,由于其缺失浏览记录,无法如历史入库信息那 样,得到对应的隐式语义。
本申请的信息召回方法中,基于新入库信息的标签信息及历史入库信息对 应的隐式语义,来确定新入库信息对应的隐式语义,这样即可规避掉新入库信 息缺失浏览记录的问题,且新入库信息和历史入库信息均通过隐式语义来实现 召回,可以降低对人工标签的依赖,提高召回的准确度。
在实际的执行中,新入库信息对应的隐式语义可以通过新入库信息的标签 特征向量与隐式语义对应的标签中心向量的相似度得到,该新入库信息的标签 特征向量可以基于新入库信息的标签得到,隐式语义对应的标签中心向量可以 基于隐式语义对应的历史入库信息所对应的标签特征向量得到,历史入库信息 对应的标签特征向量可以基于历史入库信息的标签序列得到,历史入库信息的 标签序列可以基于历史入库信息浏览记录得到。
换言之,新入库信息对应的隐式语义通过如下方法确定:
电子设备的处理器基于历史入库信息浏览记录,得到历史入库信息的标签 序列,对于不特定用户的历史入库信息浏览记录,可以统计历史入库信息浏览 序列,该历史入库信息浏览序列可以按照浏览时间顺序先后排列;历史入库信 息浏览序列中的信息替换为其对应的标签,例如视频A的标签为“海南”和“西 瓜”,则视频A在历史入库信息浏览序列中就转换为“海南”、“西瓜”,替换后 得到历史入库信息的标签序列。
电子设备的处理器基于历史入库信息的标签序列,得到历史入库信息对应 的标签特征向量;比如可以基于第二GNN模型,得到历史入库信息对应的标 签特征向量,在实际的执行过程,将历史入库信息的标签序列输入到第二GNN 模型,得到第二GNN模型输出的历史入库信息对应的标签特征向量,第二GNN 模型的结构可以与第一GNN模型的结构相同,但是参数不同;
电子设备的处理器基于隐式语义对应的历史入库信息所对应的标签特征 向量,确定隐式语义对应的标签中心向量,对于历史入库信息的隐式语义,每 个隐式语义均对应若干信息,每条信息对应若干标签,展开后,每个隐式语义 对应若干标签,对隐式语义对应的所有标签特征向量求平均值,即得到隐式语 义对应的标签中心向量;
电子设备的处理器基于新入库信息的标签,确定新入库信息的标签特征向 量;可以理解的是,新入库信息的标签与目标历史入库信息的标签相同,通过 对照历史入库信息的标签和对应的标签特征向量,即可得到新入库信息的标签 特征向量;
电子设备的处理器基于新入库信息的标签特征向量与隐式语义对应的标 签中心向量的相似度,确定新入库信息对应的隐式语义;在实际的执行中,可 以计算新入库信息的标签特征向量与各个隐式语义对应的标签中心向量的余 弦相似度,将余弦相似度最大的隐式语义标记为该新入库信息对应的隐式语义。
上述方法,即可通过现有标签,实现对新入库信息的隐式语义的标定,且 标定的参考标准还是依据历史入库信息,这样新入库信息的标定准确,便于实 现冷启动。
步骤130、电子设备从索引系统中检索到与第一隐式语义对应的目标信息;
可以理解的是,索引系统包括信息(包括新入库信息和历史入库信息)与 隐式语义的映射关系信息,通过筛选即可找到与第一隐式语义对应的信息,该 信息即为目标信息。
在实际的执行过程中,索引系统可以为倒排索引系统,该电子设备的处理 器直接通过倒排索引系统对第一隐式语义进行检索,即可得到对应的目标信息。
步骤140、电子设备为目标用户召回目标信息。
在检索到目标信息后,电子设备的处理器将该目标信息召回,即可供后续 信息推荐中进行排序和重排。
根据本申请实施例提供的信息召回方法,通过基于新入库信息的标签信息 及历史入库信息对应的隐式语义,来确定新入库信息对应的隐式语义,巧妙地 解决了新入库信息缺失浏览记录的问题,且新入库信息和历史入库信息均通过 隐式语义来实现召回,可以降低对人工标签的依赖,提高召回的准确度。
在一些实施例中,对于不同类型的信息,即使部分类型的信息的浏览记录 缺失或不足,也可以通过如下方法。得到这类信息的隐式语义。
历史入库信息包括第一类信息和第二类信息,比如第一类信息为视频信息, 第二类信息为图文信息,或者第一类信息为图文信息,第二类信息为视频信息。
在历史入库信息浏览记录包括第一类信息的浏览记录,可以基于如下方法, 得到第二类信息对应的隐式语义。
换言之,基于历史入库信息浏览记录,得到历史入库信息的行为特征向量, 包括:电子设备的处理器基于第一类信息的浏览记录,得到第一类信息的行为 特征向量,基于第二类信息的浏览记录,得到第二类信息的行为特征向量;
基于浏览记录,得到行为特征向量的方法如下:
电子设备的处理器基于第一类信息浏览记录,构造不特定用户的第一类信 息浏览序列,该第一类信息浏览序列可以按照浏览时间顺序先后排列;
电子设备的处理器提取不特定用户的第一类信息浏览特征,第一类信息浏 览特征为信息的相关特征,包括但不限于类目、标签、点击率和浏览时长等特 征;
电子设备的处理器基于第一GNN模型,得到第一类信息的行为特征向量, 在实际的执行过程,将第一类信息浏览序列及第一类信息浏览特征输入到第一 GNN模型,得到第一GNN模型输出的第一类信息的行为特征向量。
对于第二类信息,采取同样的方法,可以得到第二类信息的行为特征向量。
对行为特征向量进行聚类,得到与历史入库信息对应的隐式语义,包括:
电子设备的处理器对第一类信息的行为特征向量进行聚类,得到与第一类 信息对应的隐式语义;对第一类信息的行为特征向量进行聚类,可以得到多个 聚类簇,每个聚类簇中均与多条第一类信息对应,对每个聚类簇打标记,该标 记即为聚类簇对应的信息的隐式语义。
电子设备的处理器基于聚类后的第一类信息的行为特征向量,得到第一类 信息对应的隐式语义所对应的行为中心向量;聚类簇中所有第一类信息对应的 行为特征向量的平均值即为该隐式语义对应的行为中心向量。
电子设备的处理器基于第二类信息的行为特征向量与行为中心向量的相 似度,确定第二类信息对应的隐式语义。计算第二类信息的行为特征向量与各 个隐式语义对应的行为中心向量的余弦相似度,将余弦相似度最大的隐式语义 标记为该第二类信息对应的隐式语义。
此时得到所有第一类信息和第二类信息的隐式语义。
对于用户只有第一类信息浏览行为,而无第二类信息浏览行为的情况,上 述方法可以实现对第二类信息的隐式语义的标定,使得第二类信息也可以被召 回。
下面参考图2,描述本申请的一个具体的实施例,该实施例中,信息召回 方法可以包括:
步骤211、电子设备构造不特定用户的历史入库信息浏览序列
可以理解的是,基于历史入库信息浏览记录,按照浏览时间顺序先后排列, 可以得到不特定用户的历史入库信息浏览序列;
步骤212、电子设备提取不特定用户的历史入库信息浏览特征;
历史入库信息通常被多用户浏览过,其具有较多的特征可供提取,历史入 库信息浏览特征为信息的相关特征,包括但不限于类目、标签、点击率和浏览 时长等特征;
步骤213、电子设备基于第一GNN模型,得到历史入库信息的行为特征 向量;
在实际的执行过程,将历史入库信息浏览序列及历史入库信息浏览特征输 入到第一GNN模型,得到第一GNN模型输出的历史入库信息的行为特征向 量。
步骤214、电子设备对第一类信息的行为特征向量聚类,得到与第一类信 息对应的隐式语义;
对第一类信息的行为特征向量进行聚类,可以得到多个聚类簇,每个聚类 簇中均与多条第一类信息对应,对每个聚类簇打标记,该标记即为聚类簇对应 的信息的隐式语义。
步骤215、电子设备确定第二类信息的行为特征向量与第一类信息对应的 隐式语义的行为中心向量的相似度,得到与第二类信息对应的隐式语义;
基于聚类后的第一类信息的行为特征向量,得到第一类信息对应的隐式语 义所对应的行为中心向量;聚类簇中所有第一类信息对应的行为特征向量的平 均值即为该隐式语义对应的行为中心向量;计算第二类信息的行为特征向量与 各个隐式语义对应的行为中心向量的余弦相似度,将余弦相似度最大的隐式语 义标记为该第二类信息对应的隐式语义。
步骤221、电子设备构造不特定用户的历史入库信息的标签序列;
对于不特定用户的历史入库信息浏览记录,可以统计历史入库信息浏览序 列,该历史入库信息浏览序列可以按照浏览时间顺序先后排列;历史入库信息 浏览序列中的信息替换为其对应的标签,例如图文B的标签为“车展”和“汽 车”,则图文B在历史入库信息浏览序列中就转换为“车展”、“汽车”,替换后 得到历史入库信息的标签序列。
步骤222、电子设备基于第二GNN模型,得到新入库信息的标签特征向 量;
在实际的执行过程,将历史入库信息的标签序列输入到第二GNN模型, 得到第二GNN模型输出的历史入库信息对应的标签特征向量;
步骤223、电子设备根据标签特征向量与历史入库信息的隐式语义对应的 标签中心向量的相似度,确定新入库信息对应的隐式语义;
对于历史入库信息的隐式语义,每个隐式语义均对应若干信息,每条信息 对应若干标签,展开后,每个隐式语义对应若干标签,对隐式语义对应的所有 标签特征向量求平均值,即得到隐式语义对应的标签中心向量;
计算新入库信息的标签特征向量与各个隐式语义对应的标签中心向量的 余弦相似度,将余弦相似度最大的隐式语义标记为该新入库信息对应的隐式语 义。
步骤231、电子设备确定目标用户的第一信息浏览记录对应的第一隐式语 义;
第一信息浏览记录包括多条信息的情形,与第一信息浏览记录对应的第一 隐式语义也为多个。
步骤232、电子设备通过索引系统召回目标信息。
索引系统包括信息(包括新入库信息和历史入库信息)与隐式语义的映射 关系信息,通过筛选即可找到与第一隐式语义对应的信息,该信息即为目标信 息。将该目标信息召回,即可供后续信息推荐中进行排序和重排。
根据本申请实施例的信息召回方法,能够通过用户的浏览序列,自动构建 隐式语义,可以有效降低信息召回对人工标签的依赖,并且能够高效召回新入 库信息。
需要说明的是,本申请实施例提供的信息召回方法,执行主体可以为信息 召回装置,或者该信息召回装置中的用于执行信息召回方法的控制模块。本申 请实施例中以信息召回装置执行信息召回的方法为例,说明本申请实施例提供 的信息召回的装置。
本申请实施例还提供一种信息召回装置。
如图3所示,该信息召回装置包括:第一接收模块310、第一确定模块320、 第一检索模块330和第一处理模块340。
第一接收模块310,用于获取目标用户的第一信息浏览记录;
第一确定模块320,用于基于第一信息浏览记录,确定与第一信息浏览记 录对应的第一隐式语义;
第一检索模块330,用于从索引系统中检索到与第一隐式语义对应的目标 信息;
第一处理模块340,用于为目标用户召回目标信息;
其中,索引系统包括新入库信息、历史入库信息与隐式语义的映射关系信 息,新入库信息对应的隐式语义为通过新入库信息的标签信息及历史入库信息 对应的隐式语义确定。
根据本申请实施例提供的信息召回装置,通过基于新入库信息的标签信息 及历史入库信息对应的隐式语义,来确定新入库信息对应的隐式语义,巧妙地 解决了新入库信息缺失浏览记录的问题,且新入库信息和历史入库信息均通过 隐式语义来实现召回,可以降低对人工标签的依赖,提高召回的准确度。
在一些实施例中,历史入库信息对应的隐式语义通过如下方法确定:
基于历史入库信息浏览记录,得到历史入库信息的行为特征向量;
对行为特征向量进行聚类,得到与历史入库信息对应的隐式语义。
在一些实施例中,新入库信息对应的隐式语义通过如下方法确定:
基于历史入库信息浏览记录,得到历史入库信息的标签序列;
基于历史入库信息的标签序列,得到历史入库信息对应的标签特征向量;
基于隐式语义对应的历史入库信息所对应的标签特征向量,确定隐式语义 对应的标签中心向量;
基于新入库信息的标签,确定新入库信息的标签特征向量;
基于新入库信息的标签特征向量与隐式语义对应的标签中心向量的相似 度,确定新入库信息对应的隐式语义。
在一些实施例中,历史入库信息包括第一类信息和第二类信息,历史入库 信息浏览记录包括第一类信息的浏览记录;
基于历史入库信息浏览记录,得到历史入库信息的行为特征向量,包括: 基于第一类信息的浏览记录,得到第一类信息的行为特征向量,基于第二类信 息的浏览记录,得到第二类信息的行为特征向量;
对行为特征向量进行聚类,得到与历史入库信息对应的隐式语义,包括: 对第一类信息的行为特征向量进行聚类,得到与第一类信息对应的隐式语义; 基于聚类后的第一类信息的行为特征向量,得到第一类信息对应的隐式语义所 对应的行为中心向量;基于第二类信息的行为特征向量与行为中心向量的相似 度,确定第二类信息对应的隐式语义。
在一些实施例中,第一确定模块320,还用于基于第一信息浏览记录,确 定与第一信息浏览记录对应的第一信息;从索引系统中检索到与第一信息对应 的第一隐式语义。
本申请实施例中的信息召回装置可以是装置,也可以是终端中的部件、集 成电路、或芯片。该装置可以是非移动电子设备,非移动电子设备可以为服务 器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施 例不作具体限定。
本申请实施例中的信息召回装置可以为具有操作系统的装置。该操作系统 可以为安卓(Android)操作系统,可以为IOS操作系统,还可以为其他可能 的操作系统,本申请实施例不作具体限定。
本申请实施例提供的信息召回装置能够实现图1至图2的方法实施例实现 的各个过程,为避免重复,这里不再赘述。
可选地,如图4所示,本申请实施例还提供一种电子设备400,包括处理 器401,存储器402,存储在存储器402上并可在所述处理器401上运行的程 序或指令,该程序或指令被处理器401执行时实现上述信息召回方法实施例的 各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述所述非移动电子设备。
图5为实现本申请实施例的一种电子设备的硬件结构示意图。
该电子设备500包括但不限于:射频单元501、网络模块502、音频输出 单元503、输入单元504、传感器505、显示单元506、用户输入单元507、接 口单元508、存储器509以及处理器510等部件。
本领域技术人员可以理解,电子设备500还可以包括给各个部件供电的电 源(比如电池),电源可以通过电源管理系统与处理器510逻辑相连,从而通 过电源管理系统实现管理充电、放电、以及功耗管理等功能。图5中示出的电 子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少 的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,网络模块502,用于获取目标用户的第一信息浏览记录;
处理器510,用于基于第一信息浏览记录,确定与第一信息浏览记录对应 的第一隐式语义;从索引系统中检索到与第一隐式语义对应的目标信息;为目 标用户召回目标信息;其中,索引系统包括新入库信息、历史入库信息与隐式 语义的映射关系信息,新入库信息对应的隐式语义为通过新入库信息的标签信 息及历史入库信息对应的隐式语义确定。
根据本申请实施例提供的电子设备,通过基于新入库信息的标签信息及历 史入库信息对应的隐式语义,来确定新入库信息对应的隐式语义,巧妙地解决 了新入库信息缺失浏览记录的问题,且新入库信息和历史入库信息均通过隐式 语义来实现召回,可以降低对人工标签的依赖,提高召回的准确度。
可选地,处理器510,还用于基于历史入库信息浏览记录,得到历史入库 信息的行为特征向量;对行为特征向量进行聚类,得到与历史入库信息对应的 隐式语义。
可选地,处理器510,还用于基于历史入库信息浏览记录,得到历史入库 信息的标签序列;基于历史入库信息的标签序列,得到历史入库信息对应的标 签特征向量;基于隐式语义对应的历史入库信息所对应的标签特征向量,确定 隐式语义对应的标签中心向量;基于新入库信息的标签,确定新入库信息的标 签特征向量;基于新入库信息的标签特征向量与隐式语义对应的标签中心向量 的相似度,确定新入库信息对应的隐式语义。
可选地,历史入库信息包括第一类信息和第二类信息,历史入库信息浏览 记录包括第一类信息的浏览记录;
处理器510,还用于基于第一类信息的浏览记录,得到第一类信息的行为 特征向量,基于第二类信息的浏览记录,得到第二类信息的行为特征向量;
处理器510,还用于对第一类信息的行为特征向量进行聚类,得到与第一 类信息对应的隐式语义;基于聚类后的第一类信息的行为特征向量,得到第一 类信息对应的隐式语义所对应的行为中心向量;基于第二类信息的行为特征向 量与行为中心向量的相似度,确定第二类信息对应的隐式语义。
处理器510,还用于基于第一信息浏览记录,确定与第一信息浏览记录对 应的第一信息;从索引系统中检索到与第一信息对应的第一隐式语义。
应理解的是,本申请实施例中,输入单元504可以包括图形处理器 (GraphicsProcessing Unit,GPU)5041和麦克风5042,图形处理器5041对在 视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片 或视频的图像数据进行处理。显示单元506可包括显示面板5061,可以采用液 晶显示器、有机发光二极管等形式来配置显示面板5061。用户输入单元507 包括触控面板5071以及其他输入设备5072。触控面板5071,也称为触摸屏。 触控面板5071可包括触摸检测装置和触摸控制器两个部分。其他输入设备5072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、 轨迹球、鼠标、操作杆,在此不再赘述。存储器509可用于存储软件程序以及 各种数据,包括但不限于应用程序和操作系统。处理器510可集成应用处理器 和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程 序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理 器也可以不集成到处理器510中。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序 或指令,该程序或指令被处理器执行时实现上述信息召回方法实施例的各个过 程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读 存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory, ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述 通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述信息 召回方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不 再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯 片系统或片上系统芯片等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意 在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装 置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为 这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由 语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物 品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式 中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所 涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同 于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步 骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实 施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬 件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方 案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体 现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘) 中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网 络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述 的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本 领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保 护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
Claims (10)
1.一种信息召回方法,其特征在于,包括:
获取目标用户的第一信息浏览记录;
基于所述第一信息浏览记录,确定与所述第一信息浏览记录对应的第一隐式语义;
从索引系统中检索到与所述第一隐式语义对应的目标信息;
为所述目标用户召回所述目标信息;
其中,所述索引系统包括新入库信息、历史入库信息与隐式语义的映射关系信息,所述新入库信息对应的隐式语义为通过所述新入库信息的标签信息及所述历史入库信息对应的隐式语义确定。
2.根据权利要求1所述的信息召回方法,其特征在于,所述历史入库信息对应的隐式语义通过如下方法确定:
基于历史入库信息浏览记录,得到历史入库信息的行为特征向量;
对所述行为特征向量进行聚类,得到与所述历史入库信息对应的隐式语义。
3.根据权利要求2所述的信息召回方法,其特征在于,所述新入库信息对应的隐式语义通过如下方法确定:
基于历史入库信息浏览记录,得到历史入库信息的标签序列;
基于所述历史入库信息的标签序列,得到历史入库信息对应的标签特征向量;
基于所述隐式语义对应的历史入库信息所对应的标签特征向量,确定所述隐式语义对应的标签中心向量;
基于所述新入库信息的标签,确定所述新入库信息的标签特征向量;
基于所述新入库信息的标签特征向量与所述隐式语义对应的标签中心向量的相似度,确定所述新入库信息对应的隐式语义。
4.根据权利要求2所述的信息召回方法,其特征在于,所述历史入库信息包括第一类信息和第二类信息,所述历史入库信息浏览记录包括所述第一类信息的浏览记录;
所述基于历史入库信息浏览记录,得到历史入库信息的行为特征向量,包括:基于第一类信息的浏览记录,得到第一类信息的行为特征向量,基于第二类信息的浏览记录,得到第二类信息的行为特征向量;
所述对所述行为特征向量进行聚类,得到与所述历史入库信息对应的隐式语义,包括:对所述第一类信息的行为特征向量进行聚类,得到与所述第一类信息对应的隐式语义;基于聚类后的所述第一类信息的行为特征向量,得到所述第一类信息对应的隐式语义所对应的行为中心向量;基于所述第二类信息的行为特征向量与所述行为中心向量的相似度,确定所述第二类信息对应的隐式语义。
5.根据权利要求1-4中任一项所述的信息召回方法,其特征在于,所述基于所述第一信息浏览记录,确定与所述第一信息浏览记录对应的第一隐式语义,包括:
基于所述第一信息浏览记录,确定与所述第一信息浏览记录对应的第一信息;
从所述索引系统中检索到与所述第一信息对应的第一隐式语义。
6.一种信息召回装置,其特征在于,包括:
第一接收模块,用于获取目标用户的第一信息浏览记录;
第一确定模块,用于基于所述第一信息浏览记录,确定与所述第一信息浏览记录对应的第一隐式语义;
第一检索模块,用于从索引系统中检索到与所述第一隐式语义对应的目标信息;
第一处理模块,用于为所述目标用户召回所述目标信息;
其中,所述索引系统包括新入库信息、历史入库信息与隐式语义的映射关系信息,所述新入库信息对应的隐式语义为通过所述新入库信息的标签信息及所述历史入库信息对应的隐式语义确定。
7.根据权利要求6所述的信息召回装置,其特征在于,所述历史入库信息对应的隐式语义通过如下方法确定:
基于历史入库信息浏览记录,得到历史入库信息的行为特征向量;
对所述行为特征向量进行聚类,得到与所述历史入库信息对应的隐式语义。
8.根据权利要求7所述的信息召回装置,其特征在于,所述新入库信息对应的隐式语义通过如下方法确定:
基于历史入库信息浏览记录,得到历史入库信息的标签序列;
基于所述历史入库信息的标签序列,得到历史入库信息对应的标签特征向量;
基于所述隐式语义对应的历史入库信息所对应的标签特征向量,确定所述隐式语义对应的标签中心向量;
基于所述新入库信息的标签,确定所述新入库信息的标签特征向量;
基于所述新入库信息的标签特征向量与所述隐式语义对应的标签中心向量的相似度,确定所述新入库信息对应的隐式语义。
9.根据权利要求7所述的信息召回装置,其特征在于,所述历史入库信息包括第一类信息和第二类信息,所述历史入库信息浏览记录包括所述第一类信息的浏览记录;
所述基于历史入库信息浏览记录,得到历史入库信息的行为特征向量,包括:基于第一类信息的浏览记录,得到第一类信息的行为特征向量,基于第二类信息的浏览记录,得到第二类信息的行为特征向量;
所述对所述行为特征向量进行聚类,得到与所述历史入库信息对应的隐式语义,包括:对所述第一类信息的行为特征向量进行聚类,得到与所述第一类信息对应的隐式语义;基于聚类后的所述第一类信息的行为特征向量,得到所述第一类信息对应的隐式语义所对应的行为中心向量;基于所述第二类信息的行为特征向量与所述行为中心向量的相似度,确定所述第二类信息对应的隐式语义。
10.根据权利要求6-9中任一项所述的信息召回装置,其特征在于,所述第一确定模块,还用于基于所述第一信息浏览记录,确定与所述第一信息浏览记录对应的第一信息;从所述索引系统中检索到与所述第一信息对应的第一隐式语义。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110455895.8A CN113158055A (zh) | 2021-04-26 | 2021-04-26 | 信息召回方法和信息召回装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110455895.8A CN113158055A (zh) | 2021-04-26 | 2021-04-26 | 信息召回方法和信息召回装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113158055A true CN113158055A (zh) | 2021-07-23 |
Family
ID=76871071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110455895.8A Pending CN113158055A (zh) | 2021-04-26 | 2021-04-26 | 信息召回方法和信息召回装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113158055A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190205472A1 (en) * | 2017-12-28 | 2019-07-04 | Salesforce.Com, Inc. | Ranking Entity Based Search Results Based on Implicit User Interactions |
CN112541110A (zh) * | 2019-09-20 | 2021-03-23 | 北京搜狗科技发展有限公司 | 一种信息推荐方法、装置和电子设备 |
-
2021
- 2021-04-26 CN CN202110455895.8A patent/CN113158055A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190205472A1 (en) * | 2017-12-28 | 2019-07-04 | Salesforce.Com, Inc. | Ranking Entity Based Search Results Based on Implicit User Interactions |
CN112541110A (zh) * | 2019-09-20 | 2021-03-23 | 北京搜狗科技发展有限公司 | 一种信息推荐方法、装置和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20150262069A1 (en) | Automatic topic and interest based content recommendation system for mobile devices | |
CN105320766A (zh) | 信息推送方法和装置 | |
US20140317117A1 (en) | Method, device and computer storage media for user preferences information collection | |
CN109168047B (zh) | 视频推荐方法、装置、服务器及存储介质 | |
CN109753601B (zh) | 推荐信息点击率确定方法、装置及电子设备 | |
CN111327955B (zh) | 基于用户画像的点播方法、存储介质及智能电视 | |
CN101901450A (zh) | 媒体内容推荐方法和媒体内容推荐系统 | |
CN109977296B (zh) | 一种信息推送方法、装置、设备及存储介质 | |
CN107133263B (zh) | Poi推荐方法、装置、设备及计算机可读存储介质 | |
US20180060427A1 (en) | Navigating a Taxonomy Using Search Queries | |
CN105022810A (zh) | 一种显示页面位置浏览信息的方法和装置 | |
US20170287041A1 (en) | Information processing apparatus, information processing method, and information processing program | |
CN107911448A (zh) | 一种内容推送方法及装置 | |
CN113190741B (zh) | 搜索方法、装置、电子设备及存储介质 | |
CN111159431A (zh) | 基于知识图谱的信息可视化方法、装置、设备及存储介质 | |
CN112783594A (zh) | 一种消息显示方法、装置及电子设备 | |
US20130204864A1 (en) | Information provision device, information provision method, program, and information recording medium | |
CN112417133A (zh) | 排序模型的训练方法和装置 | |
CN114417157B (zh) | 一种数据推送方法、装置、计算机设备以及计算机介质 | |
CN116166906A (zh) | 一种基于云计算的检索页面优化布局分析系统及方法 | |
US9064014B2 (en) | Information provisioning device, information provisioning method, program, and information recording medium | |
CN115757952A (zh) | 内容信息推荐方法、装置、设备及存储介质 | |
CN115563189A (zh) | 一种基于数据挖掘技术的海量数据查询方法 | |
CN113158055A (zh) | 信息召回方法和信息召回装置 | |
CN111914173B (zh) | 内容处理方法、装置、计算机系统和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |