CN112231555A - 基于用户画像标签的召回方法、装置、设备及存储介质 - Google Patents

基于用户画像标签的召回方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112231555A
CN112231555A CN202011082815.0A CN202011082815A CN112231555A CN 112231555 A CN112231555 A CN 112231555A CN 202011082815 A CN202011082815 A CN 202011082815A CN 112231555 A CN112231555 A CN 112231555A
Authority
CN
China
Prior art keywords
article
recall
target
sets
portrait label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011082815.0A
Other languages
English (en)
Other versions
CN112231555B (zh
Inventor
陈辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202011082815.0A priority Critical patent/CN112231555B/zh
Publication of CN112231555A publication Critical patent/CN112231555A/zh
Application granted granted Critical
Publication of CN112231555B publication Critical patent/CN112231555B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及大数据技术领域,提供一种基于用户画像标签的召回方法、装置、设备及存储介质,用于提高信息流推荐系统的召回准确率和灵活性。基于用户画像标签的召回方法包括:接收用户请求,根据用户请求从预置数据库中获取对应的多个目标用户画像;提取每个目标用户画像对应的目标画像标签集,得到多个目标画像标签集;获取多个召回配置信息集和多个文章倒排索引集;根据权重值、多个召回配置信息集和多个文章倒排索引集,对预置键值数据库中的多个排序文章集进行检索和循环读取,得到多个待处理召回文章集;将多个待处理召回文章集进行融合去重处理,得到目标召回文章集。此外,本发明还涉及区块链技术,多个目标用户画像可存储于区块链节点中。

Description

基于用户画像标签的召回方法、装置、设备及存储介质
技术领域
本发明涉及用户兴趣画像技术领域,尤其涉及一种基于用户画像标签的召回方法、装置、设备及存储介质。
背景技术
召回是指从全量信息集合中触发尽可能多的正确结果,将正确结果返回,并对返回的所有正确结果进行打分排序,选出得分最高的几个结果推荐给用户的一种方式。在信息流feeds推荐系统中,召回是第一道筛选环节,对推荐系统的整体指标有决定性的影响。基于用户兴趣标签的基础标签tag-base召回,其召回量基本能占在线推荐系统整体召回物品数的50%以上,是绝大多数在线推荐系统的核心召回方式。
目前,信息流feeds推荐系统通常采用基于开源搜索引擎如ElasticSearch来构建的tag-base召回方法,即将所有文章根据其标签构建ElasticSearch的索引,召回时把用户的兴趣标签作为搜索词发送到ElasticSearch中,由ElasticSearch进行搜索,将ElasticSearch的搜索结果作为tag-base召回的结果。
但是,上述tag-base召回方法存在以下缺点:由于是通过基于关键词的匹配算法对搜索结果进行打分,因而基本只考虑了字符串的相似度,导致其召回准确率低;强依赖于复杂的搜索引擎系统,搜索引擎的运维部署代价较高,消耗的服务器资源多,且不容易做针对性的优化,导致信息流推荐系统的灵活性低。
发明内容
本发明的主要目的在于解决信息流推荐系统的召回准确率低和灵活性低的问题。
本发明第一方面提供了一种基于用户画像标签的召回方法,包括:
接收用户请求,根据所述用户请求从预置数据库中获取对应的多个目标用户画像;
提取每个目标用户画像对应的目标画像标签集,得到多个目标画像标签集,其中,每个目标画像标签集包含多个目标画像标签,每个目标画像标签包括权重值;
获取多个召回配置信息集和多个文章倒排索引集,每个召回配置信息集包括每个目标画像标签集中每个目标画像标签对应的召回配置信息,每个文章倒排索引集包括每个目标画像标签集中每个目标画像标签对应的文章倒排索引;
根据所述权重值、所述多个召回配置信息集和所述多个文章倒排索引集,对预置键值数据库中的多个排序文章集进行检索和循环读取,得到多个待处理召回文章集;
将所述多个待处理召回文章集进行融合去重处理,得到目标召回文章集。
可选的,在本发明第一方面的第一种实现方式中,所述接收用户请求,根据所述用户请求从预置数据库中获取对应的多个目标用户画像之前,还包括:
获取用户信息,对所述用户信息依次进行画像标签生成和用户画像建立,得到多个初始用户画像,每个初始用户画像包括多个初始画像标签;
获取每个初始画像标签对应的权重值,根据所述权重值对每个初始画像标签进行更新,得到多个目标画像标签;
根据所述多个目标画像标签,对所述多个初始用户画像进行更新,得到多个目标用户画像;
获取各目标画像标签对应的文章集,以及每个文章集中每个文章的倒排分数,根据所述倒排分数对每个文章集中的文章进行排序,得到多个排序文章集,一个排序文章集对应一个目标画像标签;
通过预置键值数据库,创建并存储每个目标画像标签对应的排序文章集的文章倒排索引。
可选的,在本发明第一方面的第二种实现方式中,所述获取每个初始画像标签对应的权重值,根据所述权重值对每个初始画像标签进行更新,得到多个目标画像标签,包括:
从预置数据库中提取每个初始画像标签对应的文章集,并通过预置的自然语言处理算法,提取每个初始画像标签对应的文章集中每个文章的多个关键词;
分别计算所述多个关键词的词频-逆文本频率指数值,得到多个词频-逆文本频率指数值;
对所述多个词频-逆文本频率指数值进行归一化处理,得到每个初始画像标签对应的权重值;
将所述每个初始画像标签对应的权重值,添加至每个初始画像标签,得到多个目标画像标签。
可选的,在本发明第一方面的第三种实现方式中,所述获取各目标画像标签对应的文章集,以及每个文章集中每个文章的倒排分数,根据所述倒排分数对每个文章集中的文章进行排序,得到多个排序文章集,包括:
获取各目标画像标签对应的文章集,以及每个文章集中每个文章的点击量衰减系数,以及在预设时刻的点击量数值和曝光量数值;
根据所述点击量衰减系数、所述点击量数值和所述曝光量数值,计算每个文章集中每个文章的倒排分数;
按照每个文章集中每个文章的倒排分数从大到小的顺序,对每个文章集中的文章进行排序,得到多个排序文章集,一个排序文章集对应一个目标画像标签。
可选的,在本发明第一方面的第四种实现方式中,所述根据所述权重值、所述多个召回配置信息集和所述多个文章倒排索引集,对预置键值数据库中的多个排序文章集进行检索和循环读取,得到多个待处理召回文章集,包括:
根据每个目标画像标签以及每个目标画像标签对应的权重值和文章倒排索引,对预置键值数据库中的多个排序文章集进行检索和循环读取,得到每个目标画像标签集对应的初始召回文章集;
根据每个目标画像标签集对应的召回配置信息集,对所述每个目标画像标签集对应的初始召回文章集进行循环读取,得到多个待处理召回文章集,一个待处理召回文章集对应一个目标画像标签集。
可选的,在本发明第一方面的第五种实现方式中,所述根据每个目标画像标签以及每个目标画像标签对应的权重值和文章倒排索引,对预置键值数据库中的多个排序文章集进行检索和循环读取,得到每个目标画像标签集对应的初始召回文章集,包括:
通过所述多个目标画像标签集中的每个目标画像标签,以及每个目标画像标签对应的文章倒排索引,对预置键值数据库中的多个排序文章集进行检索,得到每个目标画像标签对应的多个召回文章;
根据每个目标画像标签对应的权重值,对所述每个目标画像标签对应的多个召回文章进行读取,得到每个目标画像标签对应的多个候选召回文章;
将每个目标画像标签集中所有目标画像标签分别对应的多个候选召回文章,确定为每个目标画像标签集对应的初始召回文章集。
可选的,在本发明第一方面的第六种实现方式中,所述根据每个目标画像标签集对应的召回配置信息集,对所述每个目标画像标签集对应的初始召回文章集进行循环读取,得到多个待处理召回文章集,包括:
根据每个目标画像标签集中各个目标画像标签的子标签召回配置信息,对每个目标画像标签集对应的初始召回文章集进行循环读取,直至循环读取的初始召回文章的数量符合所述子标签召回配置信息,得到每个目标画像标签集对应的候选召回文章集,每个召回配置信息集包括类标签召回配置信息和子标签召回配置信息;
计算每个目标画像标签集对应的候选召回文章集的文章数量总和,并判断所述文章数量总和是否小于或等于所述类标签召回配置信息中的预设阈值;
若所述文章数量总和小于或等于所述预设阈值,则将对应的候选召回文章集确定为每个目标画像标签集对应的待处理召回文章集,得到多个待处理召回文章集。
本发明第二方面提供了一种基于用户画像标签的召回装置,包括:
接收模块,用于接收用户请求,根据所述用户请求从预置数据库中获取对应的多个目标用户画像;
提取模块,用于提取每个目标用户画像对应的目标画像标签集,得到多个目标画像标签集,其中,每个目标画像标签集包含多个目标画像标签,每个目标画像标签包括权重值;
获取模块,用于获取多个召回配置信息集和多个文章倒排索引集,每个召回配置信息集包括每个目标画像标签集中每个目标画像标签对应的召回配置信息,每个文章倒排索引集包括每个目标画像标签集中每个目标画像标签对应的文章倒排索引;
检索读取模块,用于根据所述权重值、所述多个召回配置信息集和所述多个文章倒排索引集,对预置键值数据库中的多个排序文章集进行检索和循环读取,得到多个待处理召回文章集;
融合去重模块,用于将所述多个待处理召回文章集进行融合去重处理,得到目标召回文章集。
可选的,在本发明第二方面的第一种实现方式中,所述基于用户画像标签的召回装置,还包括:
生成建立模块,用于获取用户信息,对所述用户信息依次进行画像标签生成和用户画像建立,得到多个初始用户画像,每个初始用户画像包括多个初始画像标签;
第一更新模块,用于获取每个初始画像标签对应的权重值,根据所述权重值对每个初始画像标签进行更新,得到多个目标画像标签;
第二更新模块,用于根据所述多个目标画像标签,对所述多个初始用户画像进行更新,得到多个目标用户画像;
排序模块,用于获取各目标画像标签对应的文章集,以及每个文章集中每个文章的倒排分数,根据所述倒排分数对每个文章集中的文章进行排序,得到多个排序文章集,一个排序文章集对应一个目标画像标签;
创建存储模块,用于通过预置键值数据库,创建并存储每个目标画像标签对应的排序文章集的文章倒排索引。
可选的,在本发明第二方面的第二种实现方式中,所述第一更新模块具体用于:
从预置数据库中提取每个初始画像标签对应的文章集,并通过预置的自然语言处理算法,提取每个初始画像标签对应的文章集中每个文章的多个关键词;
分别计算所述多个关键词的词频-逆文本频率指数值,得到多个词频-逆文本频率指数值;
对所述多个词频-逆文本频率指数值进行归一化处理,得到每个初始画像标签对应的权重值;
将所述每个初始画像标签对应的权重值,添加至每个初始画像标签,得到多个目标画像标签。
可选的,在本发明第二方面的第三种实现方式中,所述排序模块具体用于:
获取各目标画像标签对应的文章集,以及每个文章集中每个文章的点击量衰减系数,以及在预设时刻的点击量数值和曝光量数值;
根据所述点击量衰减系数、所述点击量数值和所述曝光量数值,计算每个文章集中每个文章的倒排分数;
按照每个文章集中每个文章的倒排分数从大到小的顺序,对每个文章集中的文章进行排序,得到多个排序文章集,一个排序文章集对应一个目标画像标签。
可选的,在本发明第二方面的第四种实现方式中,所述检索读取模块包括:
第一读取单元,用于根据每个目标画像标签以及每个目标画像标签对应的权重值和文章倒排索引,对预置键值数据库中的多个排序文章集进行检索和循环读取,得到每个目标画像标签集对应的初始召回文章集;
第二读取单元,用于根据每个目标画像标签集对应的召回配置信息集,对所述每个目标画像标签集对应的初始召回文章集进行循环读取,得到多个待处理召回文章集,一个待处理召回文章集对应一个目标画像标签集。
可选的,在本发明第二方面的第五种实现方式中,所述第一读取单元具体用于:
通过所述多个目标画像标签集中的每个目标画像标签,以及每个目标画像标签对应的文章倒排索引,对预置键值数据库中的多个排序文章集进行检索,得到每个目标画像标签对应的多个召回文章;
根据每个目标画像标签对应的权重值,对所述每个目标画像标签对应的多个召回文章进行读取,得到每个目标画像标签对应的多个候选召回文章;
将每个目标画像标签集中所有目标画像标签分别对应的多个候选召回文章,确定为每个目标画像标签集对应的初始召回文章集。
可选的,在本发明第二方面的第六种实现方式中,所述第二读取单元具体用于:
根据每个目标画像标签集中各个目标画像标签的子标签召回配置信息,对每个目标画像标签集对应的初始召回文章集进行循环读取,直至循环读取的初始召回文章的数量符合所述子标签召回配置信息,得到每个目标画像标签集对应的候选召回文章集,每个召回配置信息集包括类标签召回配置信息和子标签召回配置信息;
计算每个目标画像标签集对应的候选召回文章集的文章数量总和,并判断所述文章数量总和是否小于或等于所述类标签召回配置信息中的预设阈值;
若所述文章数量总和小于或等于所述预设阈值,则将对应的候选召回文章集确定为每个目标画像标签集对应的待处理召回文章集,得到多个待处理召回文章集。
本发明第三方面提供了一种基于用户画像标签的召回设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述基于用户画像标签的召回设备执行上述的基于用户画像标签的召回方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当其在计算机上运行时,使得计算机执行上述的基于用户画像标签的召回方法。
本发明提供的技术方案中,接收用户请求,根据用户请求从预置数据库中获取对应的多个目标用户画像;提取每个目标用户画像对应的目标画像标签集,得到多个目标画像标签集,其中,每个目标画像标签集包含多个目标画像标签,每个目标画像标签包括权重值;获取多个召回配置信息集和多个文章倒排索引集,每个召回配置信息集包括每个目标画像标签集中每个目标画像标签对应的召回配置信息,每个文章倒排索引集包括每个目标画像标签集中每个目标画像标签对应的文章倒排索引;根据权重值、多个召回配置信息集和多个文章倒排索引集,对预置键值数据库中的多个排序文章集进行检索和循环读取,得到多个待处理召回文章集;将多个待处理召回文章集进行融合去重处理,得到目标召回文章集。本发明中,通过采用目标画像标签的权重值、多个召回配置信息集和多个文章倒排索引集,对预置键值数据库中的多个排序文章集进行检索和循环读取,能够增加召回的文章的多样性,避免某一种目标画像标签召回过多的文章,能够以配置的方式对标签召回的方式进行调整,方便灵活,能随时跟进信息流推荐系统线上的表现进行调整,无需进行开发和部署,从而,提高了信息流推荐系统对于基础标签的召回准确率,以及增强了信息流推荐系统的灵活性。
附图说明
图1为本发明实施例中基于用户画像标签的召回方法的一个实施例示意图;
图2为本发明实施例中基于用户画像标签的召回方法的另一个实施例示意图;
图3为本发明实施例中基于用户画像标签的召回装置的一个实施例示意图;
图4为本发明实施例中基于用户画像标签的召回装置的另一个实施例示意图;
图5为本发明实施例中基于用户画像标签的召回设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种基于用户画像标签的召回方法、装置、设备及存储介质,提高了信息流推荐系统的召回准确率,以及增强了信息流推荐系统的灵活性。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中基于用户画像标签的召回方法的一个实施例包括:
101、接收用户请求,根据用户请求从预置数据库中获取对应的多个目标用户画像。
可以理解的是,本发明的执行主体可以为基于用户画像标签的召回装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
其中,用户请求包括用户的身份标识号(identity document,ID)。每个目标用户画像包括多个画像标签。
每个用户对应多个目标用户画像,每个目标用户画像存储时具有对应的标识类型,即一个目标用户画像对应一个标识类型,标识类型可为分类、关键词、静态和动态等,标识类型采用字符的形式,例如:服务器接收的是用户甲的用户请求,则获取的用户甲对应的多个目标用户画像分别对应为用户分类画像、用户关键词画像、用户静态画像和用户动态画像,多个目标用户画像分别对应的标识类型为u_sub(分类)、u_word(关键词)、u_profile(静态)和u_dynamic(动态),其中,用户静态画像为基于用户甲的性别、年龄、学历、角色、收入、地域和婚姻等静态属性数据构建的目标用户画像,用户动态画像为基于用户甲的娱乐偏好、社交习惯、出行方式和学习手段等动态属性数据构建的用户画像。
服务器获取用户请求中用户的身份标识号后,遍历预置数据库中所有用户图像,并将用户的身份标识号与所有用户图像的预置用户身份标识号进行对比分析,得到与用户的身份标识号相同的预置用户身份标识号所对应的多个目标用户画像。
102、提取每个目标用户画像对应的目标画像标签集,得到多个目标画像标签集,其中,每个目标画像标签集包含多个目标画像标签,每个目标画像标签包括权重值。
其中,多个目标画像标签包括多个类画像标签和每个类画像标签所属的多个子画像标签,例如:类画像标签为理财和体育,理财所属的多个子画像标签为个人理财和家庭理财,体育所属的多个子画像标签为足球和篮球。多个类画像标签包括级别不同的画像标签,例如:一级分类画像标签、二级分类画像标签,二级分类画像标签包含于一级分类画像标签。
服务器通过预置的标签提取算法,从目标用户画像中提取所有的类画像标签以及类画像标签所属的所有子画像标签,从而得到多个目标画像标签集,每个目标画像标签都配置有权重值,该权重值用于指示该目标画像标签对应召回的文章中读取的文章所占的比例,例如,权重值为0.6,目标画像标签召回的文章有30个,则从30个取30*0.6=5个文章。
103、获取多个召回配置信息集和多个文章倒排索引集,每个召回配置信息集包括每个目标画像标签集中每个目标画像标签对应的召回配置信息,每个文章倒排索引集包括每个目标画像标签集中每个目标画像标签对应的文章倒排索引。
服务器从配置文件中提取每个目标画像标签集中每个目标画像标签对应的召回配置信息,从而得到多个召回配置信息集,一个召回配置信息集对应一个目标画像标签集。服务器从预置键值数据库Redis中调取每个目标画像标签集中每个目标画像标签对应的文章倒排索引,从而得到多个文章倒排索引集,一个文章倒排索引集对应一个目标画像标签集。其中,召回配置信息集可根据每类目标画像标签的点击率进行调整。
104、根据权重值、多个召回配置信息集和多个文章倒排索引集,对预置键值数据库中的多个排序文章集进行检索和循环读取,得到多个待处理召回文章集。
服务器通过每个目标画像标签集中每个目标画像标签对应的召回配置信息和文章倒排索引,按照预置的召回顺序对预置键值数据库中的多个排序文章集进行检索和召回,从而得到多个待处理召回文章集,其中,预置召回顺序可为:先根据每类目标画像标签的可允许召回量对预置键值数据库中的多个排序文章集进行检索和召回,得到第一召回文章集,根据预设比例截取第一召回文章集中的召回文章,再根据每类目标画像标签的最大召回量对截取的召回文章进行循环读取;预置召回顺序也可为:先根据每类目标画像标签的最大召回量对预置键值数据库中的多个排序文章集进行检索和召回,得到第二召回文章集,再根据预设比例截取第二召回文章集中的召回文章。通过对多个排序文章集进行检索和循环读取,有效地提升信息流推荐系统的整体指标,避免了使用开源的键值数据库搜索文章倒排索引引擎时,难以对搜索文章倒排索引引擎的排序分进行针对性的修正的问题。
105、将多个待处理召回文章集进行融合去重处理,得到目标召回文章集。
服务器获得多个待处理召回文章集后,将多个待处理召回文章集进行合并处理得到合并待处理召回文章集,通过对象函数ES6 Set,对合并待处理召回文章集进行重复文章去除,得到目标召回文章集;服务器也可通过对象函数ES6 Set,对多个待处理召回文章集进行重复文章去除,得到多个待合并召回文章集,将多个待合并召回文章集进行合并,得到目标召回文章集。通过将多个待处理召回文章集进行融合去重处理,实现目标召回文章集中文章的单一性。
本发明实施例中,通过采用目标画像标签的权重值、多个召回配置信息集和多个文章倒排索引集,对预置键值数据库中的多个排序文章集进行检索和循环读取,能够增加召回的文章的多样性,避免某一种目标画像标签召回过多的文章,能够以配置的方式对标签召回的方式进行调整,方便灵活,能随时跟进信息流推荐系统线上的表现进行调整,无需进行开发和部署,从而,提高了信息流推荐系统对于基础标签的召回准确率,以及增强了信息流推荐系统的灵活性。
请参阅图2,本发明实施例中基于用户画像标签的召回方法的另一个实施例包括:
201、接收用户请求,根据用户请求从预置数据库中获取对应的多个目标用户画像。
步骤201的执行过程与上述101的执行过程类似,此处不再赘述。
具体地,服务器接收用户请求,根据用户请求从预置数据库中获取对应的多个目标用户画像之前,获取用户信息,对用户信息依次进行画像标签生成和用户画像建立,得到多个初始用户画像,每个初始用户画像包括多个初始画像标签;获取每个初始画像标签对应的权重值,根据权重值对每个初始画像标签进行更新,得到多个目标画像标签;根据多个目标画像标签,对多个初始用户画像进行更新,得到多个目标用户画像;获取各目标画像标签对应的文章集,以及每个文章集中每个文章的倒排分数,根据倒排分数对每个文章集中的文章进行排序,得到多个排序文章集,一个排序文章集对应一个目标画像标签;通过预置键值数据库,创建并存储每个目标画像标签对应的排序文章集的文章倒排索引。
服务器可通过从预置数据库中提取用户的静态数据和动态数据,得到用户信息,或者接收预置终端发送的用户信息,从而获得用户信息,其中,用户信息包括用户标识、标识用户行为的时间戳和时间长度、用户接触点、所述用户接触点的内容和用户行为类型。
服务器可通过对用户信息进行用户群分类和标签分类,得到分类用户信息,根据分类用户信息生成多个标识类型的画像标签,根据生成的画像标签和分类用户信息建立用户画像,服务器通过计算每个初始画像标签对应的权重值,并将权重值添加至每个初始画像标签,得到多个目标画像标签,通过多个目标画像标签对多个初始用户画像进行丰富,得到多个目标用户画像。其中,权重值可为在该初始画像标签下的文章的得分。
服务器可通过调用预置键值数据库(remote dictionary server,Redis),通过Redis构建每个目标画像标签为键key,通过Redis构建每个目标画像标签对应的排序文章集为值value,根据所构建的键key和值value生成每个目标画像标签对应的文章倒排索引,并缓存文章倒排索引。通过利用开源的键值数据库缓存多个排序文章集,减少了对复杂的搜索引擎系统的依赖性。
具体地,服务器从预置数据库中提取每个初始画像标签对应的文章集,并通过预置的自然语言处理算法,提取每个初始画像标签对应的文章集中每个文章的多个关键词;分别计算多个关键词的词频-逆文本频率指数值,得到多个词频-逆文本频率指数值;对多个词频-逆文本频率指数值进行归一化处理,得到每个初始画像标签对应的权重值;将每个初始画像标签对应的权重值,添加至每个初始画像标签,得到多个目标画像标签。
例如:以初始画像标签1为例说明,服务器提取初始画像标签1对应的文章1中的多个关键词,多个关键词为词1、词2和词3,文章2中的多个关键词分别词4、词5和词6,分别计算词1、词2、词3、词4、词5和词6在所有文章中的词频-逆文本频率指数值,分别得到0.53、0.71、0.65、0.59、0.85和0.90,对0.53、0.71、0.65、0.59、0.85和0.90进行归一化处理:((0.53+0.71+0.65+0.59+0.85+0.90)/6-0.53)/(0.90-0.53)=0.47,得到初始画像标签1对应的权重值0.47,将0.47作为权重值添加至初始画像标签1,得到目标画像标签1,其中,多个词频-逆文本频率指数值进行归一化处理后为0,或无多个词频-逆文本频率指数值,则权重值为1。
具体地,服务器获取各目标画像标签对应的文章集,以及每个文章集中每个文章的点击量衰减系数,以及在预设时刻的点击量数值和曝光量数值;根据点击量衰减系数、点击量数值和曝光量数值,计算每个文章集中每个文章的倒排分数;按照每个文章集中每个文章的倒排分数从大到小的顺序,对每个文章集中的文章进行排序,得到多个排序文章集,一个排序文章集对应一个目标画像标签。
例如:预设时段为每隔1小时(12:00-13:00),预设时刻为13:00,服务器从预置数据库中提取或从网络平台中爬取,获得各目标画像标签对应的文章集,以及每隔1小时(12:00-13:00)获取每个文章集中每个文章的点击量衰减系数,以及在13:00时的点击量数值和曝光量数值,根据点击量衰减系数、点击量数值和曝光量数值,计算每个文章集中每个文章的倒排分数,倒排分数的计算公式如下:
Figure BDA0002719259390000081
w为每个初始画像标签对应的权重值,c为点击量数值,s为曝光量数值,Δt为文章发布间隔天数,β为点击量衰减系数,目标画像标签甲对应的文章集甲对应有文章甲1、甲2和甲3,目标画像标签乙对应的文章集乙有文章乙1、乙2和乙3,甲1、甲2和甲3的倒排分数分别为0.4、0.8和0.7,乙1、乙2和乙3的倒排分数分别为0.52、0.76和0.85,则按照每个文章集中每个文章的倒排分数从大到小的顺序,对每个文章集进行排序,得到目标画像标签甲对应的排序文章集甲为甲2、甲3和甲1,目标画像标签甲对应的排序文章集乙为乙3、乙2和乙1,其中,倒排的排序标准需要考虑以下问题:1)与画像标签越相关越靠前;2)点击率越高的越靠前;3)文章越新的越靠前;
其中,点击量衰减系数β例如:衰减系数是根据业务需求来取,比如希望k天衰减为原来的一半,β=ln2/k,即假设30天后衰减为原来的一半,β=ln2/30=0.023,更形象的解释为3天前衰减为0.93,7天前衰减为0.85,14天前衰减为0.72。
202、提取每个目标用户画像对应的目标画像标签集,得到多个目标画像标签集,其中,每个目标画像标签集包含多个目标画像标签,每个目标画像标签包括权重值。
203、获取多个召回配置信息集和多个文章倒排索引集,每个召回配置信息集包括每个目标画像标签集中每个目标画像标签对应的召回配置信息,每个文章倒排索引集包括每个目标画像标签集中每个目标画像标签对应的文章倒排索引。
步骤202-203的执行过程与上述102-103的执行过程类似,此处不再赘述。
204、根据每个目标画像标签以及每个目标画像标签对应的权重值和文章倒排索引,对预置键值数据库中的多个排序文章集进行检索和循环读取,得到每个目标画像标签集对应的初始召回文章集。
具体地,服务器通过多个目标画像标签集中的每个目标画像标签,以及每个目标画像标签对应的文章倒排索引,对预置键值数据库中的多个排序文章集进行检索,得到每个目标画像标签对应的多个召回文章;根据每个目标画像标签对应的权重值,对每个目标画像标签对应的多个召回文章进行读取,得到每个目标画像标签对应的多个候选召回文章;将每个目标画像标签集中所有目标画像标签分别对应的多个候选召回文章,确定为每个目标画像标签集对应的初始召回文章集。
例如,以目标画像标签集H为例说明,目标画像标签集H中的目标画像标签为tag1和tag2,tag1和tag2的权重值分别为0.5和0.6,则通过目标画像标签集H中的目标画像标签tag1和tag2,以及tag1和tag2分别对应的文章倒排索引,对预置键值数据库中的多个排序文章集检索,得到tag1和tag2分别对应的多个召回文章,即tag1:doc11、doc12、doc13和doc4,tag2:doc21、doc22、doc23、doc24和doc25,根据tag1和tag2各自的权重值读取,得到tag1和tag2各自对应的多个候选召回文章,即tag1:doc11和doc12,tag2:doc21、doc22和doc23,目标画像标签集H对应的初始召回文章集为tag1:doc11和doc12,tag2:doc21、doc22和doc23,同理可得其他画像标签集对应的初始召回文章集。
205、根据每个目标画像标签集对应的召回配置信息集,对每个目标画像标签集对应的初始召回文章集进行循环读取,得到多个待处理召回文章集,一个待处理召回文章集对应一个目标画像标签集。
具体地,服务器根据每个目标画像标签集中各个目标画像标签的子标签召回配置信息,对每个目标画像标签集对应的初始召回文章集进行循环读取,直至循环读取的初始召回文章的数量符合子标签召回配置信息,得到每个目标画像标签集对应的候选召回文章集,每个召回配置信息集包括类标签召回配置信息和子标签召回配置信息;计算每个目标画像标签集对应的候选召回文章集的文章数量总和,并判断文章数量总和是否小于或等于类标签召回配置信息中的预设阈值;若文章数量总和小于或等于预设阈值,则将对应的候选召回文章集确定为每个目标画像标签集对应的待处理召回文章集,得到多个待处理召回文章集。
若文章数量总和大于预设阈值,则服务器从对应的候选召回文章集中读取文章数量为预设阈值的多个候选召回文章,将多个候选召回文章确定为对应的目标画像标签集的待处理召回文章集,得到多个待处理召回文章集。其中,类标签召回配置信息为每个目标画像标签集中的类画像标签所对应的最大召回文章数量,子标签召回配置信息为类画像标签所属的每个子画像标签对应的最大召回文章数量,例如:类画像标签为关键词,其召回配置信息为最大召回数量为M=100,即所有关键词的召回文章的数量总和最大为100个,各个具体的关键词(即子画像标签)的召回配置信息为最大召回数量为n=20,即各个具体的关键词(即子画像标签)的召回文章最多为20个。
对于待处理召回文章集中每个子画像标签对应的最大召回数量的设置可为ni=[wi*N],ni为在第i个子画像标签的最大召回文章数量,wi为子画像标签对应的权重值,N为子画像标签对应的最大召回文章数量,[]表示四舍五入取整,最小值为3,即在第i个子画像标签上召回的文章数区间为[3,ni],即待处理召回文章集的文章数量为[3,ni]。
在循环读取时,每一次的读取符合以下条件:ki<ni
Figure BDA0002719259390000101
其中,ki为i个子画像标签的召回文章数量,M为类画像标签所对应的最大召回文章数量,k为子画像标签的数量。当类画像标签对应的召回文章不足时跳过,等到以下条件满足:1)达到类画像标签所对应的最大召回文章数量M;2)已经取完各子画像标签对应的倒排文章集中的所有文章。
例如:以目标画像标签集Q为例说明,若类标签召回配置信息为最大召回数量(即预设阈值)为50,子标签召回配置信息为最大召回数量为16,目标画像标签集Q对应的初始召回文章集为子画像标签t1下有文章A1-A15,子画像标签t2下有文章B1-B20,子画像标签t3下有文章C1-C10,进行第一轮的读取:取A1、B1和C1,第二轮的读取:取A2、B2和C3,依次循环读取至第十一轮的读取:取A11和B11,依次循环读取至第十六轮的读取:B16,得到画像标签集Q对应的候选召回文章集为子画像标签t1下有文章A1-A15,子画像标签t2下有文章B1-B16,子画像标签t3下有文章C1-C10,目标画像标签集Q对应的候选召回文章集的数量和值为15+16+10=41,41<50(判断文章数量总和是否小于或等于类标签召回配置信息中的预设阈值),则目标画像标签集Q对应的候选召回文章集为多个待处理召回文章集中的一个待处理召回文章集(若所述文章数量总和小于或等于所述预设阈值,则将对应的候选召回文章集确定为每个目标画像标签集对应的待处理召回文章集,得到多个待处理召回文章集);
其中,若类标签召回配置信息的最大召回数量(即预设阈值)为40,目标画像标签集Q对应的候选召回文章集的数量和值为15+16+10=41,41>40,即数量总和大于类标签召回配置信息的最大召回数量(即预设阈值)40,则从对应的候选召回文章集中读取文章数量为预设阈值的多个候选召回文章,将多个候选召回文章确定为对应的目标画像标签集对应的待处理召回文章集,得到多个待处理召回文章集,即A1-A15、B1-B15和C1-C10。
206、将多个待处理召回文章集进行融合去重处理,得到目标召回文章集。
步骤206的执行过程与上述105的执行过程类似,此处不再赘述。
本发明实施例中,通过采用目标画像标签的权重值、多个召回配置信息集和多个文章倒排索引集,对预置键值数据库中的多个排序文章集进行检索和循环读取,能够增加召回的文章的多样性,避免某一种画像标签召回过多的文章,能够以配置的方式对标签召回的方式进行调整,方便灵活,能随时跟进信息流推荐系统线上的表现进行调整,无需进行开发和部署,从而,提高了信息流推荐系统对于基础标签的召回准确率,以及增强了信息流推荐系统的灵活性。
上面对本发明实施例中基于用户画像标签的召回方法进行了描述,下面对本发明实施例中基于用户画像标签的召回装置进行描述,请参阅图3,本发明实施例中基于用户画像标签的召回装置一个实施例包括:
接收模块301,用于接收用户请求,根据用户请求从预置数据库中获取对应的多个目标用户画像;
提取模块302,用于提取每个目标用户画像对应的目标画像标签集,得到多个目标画像标签集,其中,每个目标画像标签集包含多个目标画像标签,每个目标画像标签包括权重值;
获取模块303,用于获取多个召回配置信息集和多个文章倒排索引集,每个召回配置信息集包括每个目标画像标签集中每个目标画像标签对应的召回配置信息,每个文章倒排索引集包括每个目标画像标签集中每个目标画像标签对应的文章倒排索引;
检索读取模块304,用于根据权重值、多个召回配置信息集和多个文章倒排索引集,对预置键值数据库中的多个排序文章集进行检索和循环读取,得到多个待处理召回文章集;
融合去重模块305,用于将多个待处理召回文章集进行融合去重处理,得到目标召回文章集。
上述基于用户画像标签的召回装置中各个模块的功能实现与上述基于用户画像标签的召回方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
本发明实施例中,通过采用目标画像标签的权重值、多个召回配置信息集和多个文章倒排索引集,对预置键值数据库中的多个排序文章集进行检索和循环读取,能够增加召回的文章的多样性,避免某一种目标画像标签召回过多的文章,能够以配置的方式对标签召回的方式进行调整,方便灵活,能随时跟进信息流推荐系统线上的表现进行调整,无需进行开发和部署,从而,提高了信息流推荐系统对于基础标签的召回准确率,以及增强了信息流推荐系统的灵活性。
请参阅图4,本发明实施例中基于用户画像标签的召回装置的另一个实施例包括:
接收模块301,用于接收用户请求,根据用户请求从预置数据库中获取对应的多个目标用户画像;
提取模块302,用于提取每个目标用户画像对应的目标画像标签集,得到多个目标画像标签集,其中,每个目标画像标签集包含多个目标画像标签,每个目标画像标签包括权重值;
获取模块303,用于获取多个召回配置信息集和多个文章倒排索引集,每个召回配置信息集包括每个目标画像标签集中每个目标画像标签对应的召回配置信息,每个文章倒排索引集包括每个目标画像标签集中每个目标画像标签对应的文章倒排索引;
检索读取模块304,用于根据权重值、多个召回配置信息集和多个文章倒排索引集,对预置键值数据库中的多个排序文章集进行检索和循环读取,得到多个待处理召回文章集;
其中,检索读取模块304具体包括:
第一读取单元3041,用于根据每个目标画像标签以及每个目标画像标签对应的权重值和文章倒排索引,对预置键值数据库中的多个排序文章集进行检索和循环读取,得到每个目标画像标签集对应的初始召回文章集;
第二读取单元3042,用于根据每个目标画像标签集对应的召回配置信息集,对每个目标画像标签集对应的初始召回文章集进行循环读取,得到多个待处理召回文章集,一个待处理召回文章集对应一个目标画像标签集;
融合去重模块305,用于将多个待处理召回文章集进行融合去重处理,得到目标召回文章集。
可选的,基于用户画像标签的召回装置,还包括:
生成建立模块306,用于获取用户信息,对用户信息依次进行画像标签生成和用户画像建立,得到多个初始用户画像,每个初始用户画像包括多个初始画像标签;
第一更新模块307,用于获取每个初始画像标签对应的权重值,根据权重值对每个初始画像标签进行更新,得到多个目标画像标签;
第二更新模块308,用于根据多个目标画像标签,对多个初始用户画像进行更新,得到多个目标用户画像;
排序模块309,用于获取各目标画像标签对应的文章集,以及每个文章集中每个文章的倒排分数,根据倒排分数对每个文章集中的文章进行排序,得到多个排序文章集,一个排序文章集对应一个目标画像标签;
创建存储模块310,用于通过预置键值数据库,创建并存储每个目标画像标签对应的排序文章集的文章倒排索引。
可选的,第一更新模块307还可以具体用于:
从预置数据库中提取每个初始画像标签对应的文章集,并通过预置的自然语言处理算法,提取每个初始画像标签对应的文章集中每个文章的多个关键词;
分别计算多个关键词的词频-逆文本频率指数值,得到多个词频-逆文本频率指数值;
对多个词频-逆文本频率指数值进行归一化处理,得到每个初始画像标签对应的权重值;
将每个初始画像标签对应的权重值,添加至每个初始画像标签,得到多个目标画像标签。
可选的,排序模块309还可以具体用于:
获取各目标画像标签对应的文章集,以及每个文章集中每个文章的点击量衰减系数,以及在预设时刻的点击量数值和曝光量数值;
根据点击量衰减系数、点击量数值和曝光量数值,计算每个文章集中每个文章的倒排分数;
按照每个文章集中每个文章的倒排分数从大到小的顺序,对每个文章集中的文章进行排序,得到多个排序文章集,一个排序文章集对应一个目标画像标签。
可选的,第一读取单元3041还可以具体用于:
通过多个目标画像标签集中的每个目标画像标签,以及每个目标画像标签对应的文章倒排索引,对预置键值数据库中的多个排序文章集进行检索,得到每个目标画像标签对应的多个召回文章;
根据每个目标画像标签对应的权重值,对每个目标画像标签对应的多个召回文章进行读取,得到每个目标画像标签对应的多个候选召回文章;
将每个目标画像标签集中所有目标画像标签分别对应的多个候选召回文章,确定为每个目标画像标签集对应的初始召回文章集。
可选的,第二读取单元3042还可以具体用于:
根据每个目标画像标签集中各个目标画像标签的子标签召回配置信息,对每个目标画像标签集对应的初始召回文章集进行循环读取,直至循环读取的初始召回文章的数量符合子标签召回配置信息,得到每个目标画像标签集对应的候选召回文章集,每个召回配置信息集包括类标签召回配置信息和子标签召回配置信息;
计算每个目标画像标签集对应的候选召回文章集的文章数量总和,并判断文章数量总和是否小于或等于类标签召回配置信息中的预设阈值;
若文章数量总和小于或等于预设阈值,则将对应的候选召回文章集确定为每个目标画像标签集对应的待处理召回文章集,得到多个待处理召回文章集。
上述基于用户画像标签的召回装置中各模块和各单元的功能实现与上述基于用户画像标签的召回方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
本发明实施例中,通过采用目标画像标签的权重值、多个召回配置信息集和多个文章倒排索引集,对预置键值数据库中的多个排序文章集进行检索和循环读取,能够增加召回的文章的多样性,避免某一种目标画像标签召回过多的文章,能够以配置的方式对标签召回的方式进行调整,方便灵活,能随时跟进信息流推荐系统线上的表现进行调整,无需进行开发和部署,从而,提高了信息流推荐系统对于基础标签的召回准确率,以及增强了信息流推荐系统的灵活性。
上面图3和图4从模块化功能实体的角度对本发明实施例中的基于用户画像标签的召回装置进行详细描述,下面从硬件处理的角度对本发明实施例中基于用户画像标签的召回设备进行详细描述。
图5是本发明实施例提供的一种基于用户画像标签的召回设备的结构示意图,该基于用户画像标签的召回设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对基于用户画像标签的召回设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在基于用户画像标签的召回设备500上执行存储介质530中的一系列指令操作。
基于用户画像标签的召回设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的基于用户画像标签的召回设备结构并不构成对基于用户画像标签的召回设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种基于用户画像标签的召回设备,所述基于用户画像标签的召回设备包括存储器和处理器,存储器中存储有指令,所述指令被处理器执行时,使得处理器执行上述各实施例中的所述基于用户画像标签的召回方法的步骤。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述基于用户画像标签的召回方法的步骤。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于用户画像标签的召回方法,其特征在于,所述基于用户画像标签的召回方法包括:
接收用户请求,根据所述用户请求从预置数据库中获取对应的多个目标用户画像;
提取每个目标用户画像对应的目标画像标签集,得到多个目标画像标签集,其中,每个目标画像标签集包含多个目标画像标签,每个目标画像标签包括权重值;
获取多个召回配置信息集和多个文章倒排索引集,每个召回配置信息集包括每个目标画像标签集中每个目标画像标签对应的召回配置信息,每个文章倒排索引集包括每个目标画像标签集中每个目标画像标签对应的文章倒排索引;
根据所述权重值、所述多个召回配置信息集和所述多个文章倒排索引集,对预置键值数据库中的多个排序文章集进行检索和循环读取,得到多个待处理召回文章集;
将所述多个待处理召回文章集进行融合去重处理,得到目标召回文章集。
2.根据权利要求1所述的基于用户画像标签的召回方法,其特征在于,所述接收用户请求,根据所述用户请求从预置数据库中获取对应的多个目标用户画像之前,还包括:
获取用户信息,对所述用户信息依次进行画像标签生成和用户画像建立,得到多个初始用户画像,每个初始用户画像包括多个初始画像标签;
获取每个初始画像标签对应的权重值,根据所述权重值对每个初始画像标签进行更新,得到多个目标画像标签;
根据所述多个目标画像标签,对所述多个初始用户画像进行更新,得到多个目标用户画像;
获取各目标画像标签对应的文章集,以及每个文章集中每个文章的倒排分数,根据所述倒排分数对每个文章集中的文章进行排序,得到多个排序文章集,一个排序文章集对应一个目标画像标签;
通过预置键值数据库,创建并存储每个目标画像标签对应的排序文章集的文章倒排索引。
3.根据权利要求2所述的基于用户画像标签的召回方法,其特征在于,所述获取每个初始画像标签对应的权重值,根据所述权重值对每个初始画像标签进行更新,得到多个目标画像标签,包括:
从预置数据库中提取每个初始画像标签对应的文章集,并通过预置的自然语言处理算法,提取每个初始画像标签对应的文章集中每个文章的多个关键词;
分别计算所述多个关键词的词频-逆文本频率指数值,得到多个词频-逆文本频率指数值;
对所述多个词频-逆文本频率指数值进行归一化处理,得到每个初始画像标签对应的权重值;
将所述每个初始画像标签对应的权重值,添加至每个初始画像标签,得到多个目标画像标签。
4.根据权利要求2所述的基于用户画像标签的召回方法,其特征在于,所述获取各目标画像标签对应的文章集,以及每个文章集中每个文章的倒排分数,根据所述倒排分数对每个文章集中的文章进行排序,得到多个排序文章集,包括:
获取各目标画像标签对应的文章集,以及每个文章集中每个文章的点击量衰减系数,以及在预设时刻的点击量数值和曝光量数值;
根据所述点击量衰减系数、所述点击量数值和所述曝光量数值,计算每个文章集中每个文章的倒排分数;
按照每个文章集中每个文章的倒排分数从大到小的顺序,对每个文章集中的文章进行排序,得到多个排序文章集,一个排序文章集对应一个目标画像标签。
5.根据权利要求1-4中任一项所述的基于用户画像标签的召回方法,其特征在于,所述根据所述权重值、所述多个召回配置信息集和所述多个文章倒排索引集,对预置键值数据库中的多个排序文章集进行检索和循环读取,得到多个待处理召回文章集,包括:
根据每个目标画像标签以及每个目标画像标签对应的权重值和文章倒排索引,对预置键值数据库中的多个排序文章集进行检索和循环读取,得到每个目标画像标签集对应的初始召回文章集;
根据每个目标画像标签集对应的召回配置信息集,对所述每个目标画像标签集对应的初始召回文章集进行循环读取,得到多个待处理召回文章集,一个待处理召回文章集对应一个目标画像标签集。
6.根据权利要求5所述的基于用户画像标签的召回方法,其特征在于,所述根据每个目标画像标签以及每个目标画像标签对应的权重值和文章倒排索引,对预置键值数据库中的多个排序文章集进行检索和循环读取,得到每个目标画像标签集对应的初始召回文章集,包括:
通过所述多个目标画像标签集中的每个目标画像标签,以及每个目标画像标签对应的文章倒排索引,对预置键值数据库中的多个排序文章集进行检索,得到每个目标画像标签对应的多个召回文章;
根据每个目标画像标签对应的权重值,对所述每个目标画像标签对应的多个召回文章进行读取,得到每个目标画像标签对应的多个候选召回文章;
将每个目标画像标签集中所有目标画像标签分别对应的多个候选召回文章,确定为每个目标画像标签集对应的初始召回文章集。
7.根据权利要求5所述的基于用户画像标签的召回方法,其特征在于,所述根据每个目标画像标签集对应的召回配置信息集,对所述每个目标画像标签集对应的初始召回文章集进行循环读取,得到多个待处理召回文章集,包括:
根据每个目标画像标签集中各个目标画像标签的子标签召回配置信息,对每个目标画像标签集对应的初始召回文章集进行循环读取,直至循环读取的初始召回文章的数量符合所述子标签召回配置信息,得到每个目标画像标签集对应的候选召回文章集,每个召回配置信息集包括类标签召回配置信息和子标签召回配置信息;
计算每个目标画像标签集对应的候选召回文章集的文章数量总和,并判断所述文章数量总和是否小于或等于所述类标签召回配置信息中的预设阈值;
若所述文章数量总和小于或等于所述预设阈值,则将对应的候选召回文章集确定为每个目标画像标签集对应的待处理召回文章集,得到多个待处理召回文章集。
8.一种基于用户画像标签的召回装置,其特征在于,所述基于用户画像标签的召回装置包括:
接收模块,用于接收用户请求,根据所述用户请求从预置数据库中获取对应的多个目标用户画像;
提取模块,用于提取每个目标用户画像对应的目标画像标签集,得到多个目标画像标签集,其中,每个目标画像标签集包含多个目标画像标签,每个目标画像标签包括权重值;
获取模块,用于获取多个召回配置信息集和多个文章倒排索引集,每个召回配置信息集包括每个目标画像标签集中每个目标画像标签对应的召回配置信息,每个文章倒排索引集包括每个目标画像标签集中每个目标画像标签对应的文章倒排索引;
检索读取模块,用于根据所述权重值、所述多个召回配置信息集和所述多个文章倒排索引集,对预置键值数据库中的多个排序文章集进行检索和循环读取,得到多个待处理召回文章集;
融合去重模块,用于将所述多个待处理召回文章集进行融合去重处理,得到目标召回文章集。
9.一种基于用户画像标签的召回设备,其特征在于,所述基于用户画像标签的召回设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述基于用户画像标签的召回设备执行如权利要求1-7中任意一项所述的基于用户画像标签的召回方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-7中任一项所述基于用户画像标签的召回方法。
CN202011082815.0A 2020-10-12 2020-10-12 基于用户画像标签的召回方法、装置、设备及存储介质 Active CN112231555B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011082815.0A CN112231555B (zh) 2020-10-12 2020-10-12 基于用户画像标签的召回方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011082815.0A CN112231555B (zh) 2020-10-12 2020-10-12 基于用户画像标签的召回方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112231555A true CN112231555A (zh) 2021-01-15
CN112231555B CN112231555B (zh) 2023-09-15

Family

ID=74113293

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011082815.0A Active CN112231555B (zh) 2020-10-12 2020-10-12 基于用户画像标签的召回方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112231555B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948678A (zh) * 2021-02-26 2021-06-11 北京房江湖科技有限公司 文章召回方法及系统、文章推荐方法及系统
CN113360689A (zh) * 2021-06-28 2021-09-07 北京百度网讯科技有限公司 图像检索系统、方法、相关装置及计算机程序产品
CN113706253A (zh) * 2021-08-30 2021-11-26 康键信息技术(深圳)有限公司 实时产品推荐方法、装置、电子设备及可读存储介质
CN114201651A (zh) * 2021-11-12 2022-03-18 广东广信通信服务有限公司 一种基于呼叫中心的知识检索方法、系统、设备及介质
CN114996347A (zh) * 2022-06-24 2022-09-02 中国电信股份有限公司 一种用户画像管理方法、装置、电子设备及存储介质
CN115062184A (zh) * 2022-06-29 2022-09-16 四川长虹电器股份有限公司 一种语音召回场景下的影片排序方法
CN115062184B (zh) * 2022-06-29 2024-05-28 四川长虹电器股份有限公司 一种语音召回场景下的影片排序方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255126A (zh) * 2018-09-10 2019-01-22 百度在线网络技术(北京)有限公司 文章推荐方法及装置
US20190122260A1 (en) * 2016-09-27 2019-04-25 Tencent Technology (Shenzhen) Company Limited Method and apparatus for generating targeted label, and storage medium
CN110347781A (zh) * 2019-07-18 2019-10-18 腾讯科技(深圳)有限公司 文章倒排方法、文章推荐方法、装置、设备及存储介质
CN110866805A (zh) * 2019-11-13 2020-03-06 第四范式(北京)技术有限公司 一种推荐对象的方法和系统
US20200097608A1 (en) * 2018-09-24 2020-03-26 Salesforce.Com, Inc. Method and system for service agent assistance of article recommendations to a customer in an app session
CN111078994A (zh) * 2019-11-06 2020-04-28 珠海健康云科技有限公司 基于画像的医学科普文章推荐方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190122260A1 (en) * 2016-09-27 2019-04-25 Tencent Technology (Shenzhen) Company Limited Method and apparatus for generating targeted label, and storage medium
CN109255126A (zh) * 2018-09-10 2019-01-22 百度在线网络技术(北京)有限公司 文章推荐方法及装置
US20200097608A1 (en) * 2018-09-24 2020-03-26 Salesforce.Com, Inc. Method and system for service agent assistance of article recommendations to a customer in an app session
CN110347781A (zh) * 2019-07-18 2019-10-18 腾讯科技(深圳)有限公司 文章倒排方法、文章推荐方法、装置、设备及存储介质
CN111078994A (zh) * 2019-11-06 2020-04-28 珠海健康云科技有限公司 基于画像的医学科普文章推荐方法及系统
CN110866805A (zh) * 2019-11-13 2020-03-06 第四范式(北京)技术有限公司 一种推荐对象的方法和系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948678A (zh) * 2021-02-26 2021-06-11 北京房江湖科技有限公司 文章召回方法及系统、文章推荐方法及系统
CN112948678B (zh) * 2021-02-26 2023-07-21 北京房江湖科技有限公司 文章召回方法及系统、文章推荐方法及系统
CN113360689A (zh) * 2021-06-28 2021-09-07 北京百度网讯科技有限公司 图像检索系统、方法、相关装置及计算机程序产品
CN113706253A (zh) * 2021-08-30 2021-11-26 康键信息技术(深圳)有限公司 实时产品推荐方法、装置、电子设备及可读存储介质
CN114201651A (zh) * 2021-11-12 2022-03-18 广东广信通信服务有限公司 一种基于呼叫中心的知识检索方法、系统、设备及介质
CN114996347A (zh) * 2022-06-24 2022-09-02 中国电信股份有限公司 一种用户画像管理方法、装置、电子设备及存储介质
CN115062184A (zh) * 2022-06-29 2022-09-16 四川长虹电器股份有限公司 一种语音召回场景下的影片排序方法
CN115062184B (zh) * 2022-06-29 2024-05-28 四川长虹电器股份有限公司 一种语音召回场景下的影片排序方法

Also Published As

Publication number Publication date
CN112231555B (zh) 2023-09-15

Similar Documents

Publication Publication Date Title
CN112231555B (zh) 基于用户画像标签的召回方法、装置、设备及存储介质
US8195674B1 (en) Large scale machine learning systems and methods
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
US8095547B2 (en) Method and apparatus for detecting spam user created content
JP6691280B1 (ja) 管理システム及び管理方法
WO2020019562A1 (zh) 搜索排序方法、装置、电子设备和存储介质
KR101355945B1 (ko) 온라인 문맥기반 광고 장치 및 방법
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
KR101970978B1 (ko) 상품 카테고리별 추천 키워드 추출 방법
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN113761218A (zh) 一种实体链接的方法、装置、设备及存储介质
CN110866102A (zh) 检索处理方法
Li et al. Query Rewriting in TaoBao Search
CN113515699A (zh) 信息推荐方法及装置、计算机可读存储介质、处理器
CN112948526A (zh) 用户画像的生成方法及装置、电子设备、存储介质
CN116823410A (zh) 数据处理方法、对象处理方法、推荐方法及计算设备
CN108810577B (zh) 一种用户画像的构建方法、装置及电子设备
CN108875014B (zh) 基于大数据与人工智能的精准项目推荐方法和机器人系统
CN110020214A (zh) 一种融合知识的社交网络流式事件检测系统
Brefeld et al. Document assignment in multi-site search engines
CN114461822A (zh) 资源处理方法、装置、设备及存储介质
WO2012127986A1 (ja) 情報検索システム、情報検索方法および情報検索プログラム
CN110262906B (zh) 接口标签推荐方法、装置、存储介质和电子设备
CN112328779A (zh) 训练样本构建方法、装置、终端设备及存储介质
CN112417845A (zh) 一种文本评价方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant