CN112989169B - 目标对象识别方法、信息推荐方法、装置、设备及介质 - Google Patents

目标对象识别方法、信息推荐方法、装置、设备及介质 Download PDF

Info

Publication number
CN112989169B
CN112989169B CN202110203638.5A CN202110203638A CN112989169B CN 112989169 B CN112989169 B CN 112989169B CN 202110203638 A CN202110203638 A CN 202110203638A CN 112989169 B CN112989169 B CN 112989169B
Authority
CN
China
Prior art keywords
node
user
behavior data
quality
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110203638.5A
Other languages
English (en)
Other versions
CN112989169A (zh
Inventor
申珺怡
钟滨
徐进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110203638.5A priority Critical patent/CN112989169B/zh
Publication of CN112989169A publication Critical patent/CN112989169A/zh
Application granted granted Critical
Publication of CN112989169B publication Critical patent/CN112989169B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种目标对象识别方法、信息推荐方法、装置、电子设备及存储介质,涉及计算机技术领域。其中,该目标对象识别方法包括:基于用户集合中的用户,确定目标用户集合;获取目标用户集合中目标用户关于对象的行为数据,并根据目标用户关于对象的行为数据,进行对象的质量识别,生成高质量对象集合;通过图嵌入模型对行为数据图中的对象进行向量特征提取,得到对象的向量特征,行为数据图是根据用户集合中用户关于对象的行为数据构建的;根据对象的向量特征,对高质量对象集合进行关于高质量对象的扩散,得到目标对象集合。本申请实施例解决了相关技术中目标对象识别的准确率不高的问题。

Description

目标对象识别方法、信息推荐方法、装置、设备及介质
技术领域
本申请涉及计算机技术领域,具体而言,本申请涉及一种目标对象识别方法、信息推荐方法、装置、电子设备及存储介质。
背景技术
随着互联网技术的发展,不同类型的信息可借由互联网推荐给用户,例如,信息可以是文章、视频、图片、新闻、商品、电影等等。
以文章推荐为例,用户提供其所感兴趣的文章会涉及到的搜索关键词,与该搜索关键词相匹配的文章便会被搜索到并推荐给用户。应当理解,对于文章搜索来说,搜索到的文章是否优质,很大程度上取决于发表该文章的账号(例如公众号)是否优质,这也是影响用户搜索体验的关键因素。
相关技术中,账号识别依赖于账号的静态属性特征(例如粉丝量、发文量)来衡量账号质量,这往往导致账号识别的准确率不高。
发明内容
本申请各实施例提供了一种目标对象识别方法、信息推荐方法、装置、电子设备及存储介质,可以解决相关技术中存在的目标对象识别的准确率不高的问题。所述技术方案如下:
根据本申请实施例的一个方面,一种目标对象识别方法,包括:基于用户集合中的用户,确定目标用户集合;获取目标用户集合中目标用户关于对象的行为数据,并根据目标用户关于对象的行为数据,进行对象的质量识别,生成高质量对象集合;通过图嵌入模型对行为数据图中的对象进行向量特征提取,得到对象的向量特征,行为数据图是根据用户集合中用户关于对象的行为数据构建的;根据对象的向量特征,对高质量对象集合进行关于高质量对象的扩散,得到目标对象集合。
在一种可能的实施方式,所述基于用户分类模型,对所述用户集合中的用户进行分类预测,得到所述目标用户集合,包括:基于所述用户分类模型,计算所述用户集合中用户属于目标用户的概率;根据所述用户集合中用户属于目标用户的概率,从所述用户集合中选取目标用户,生成所述目标用户集合。
在一种可能的实施方式,所述基于用户分类模型,对所述用户集合中的用户进行分类预测,得到所述目标用户集合之前,所述方法还包括:获取第一训练样本,所述第一训练样本至少包括进行标注的用户的属性特征;根据所述第一训练样本对逻辑回归模型进行训练,当模型训练完成,得到所述用户分类模型。
在一种可能的实施方式,所述以所述行为数据图作为第二训练样本,对初始的图嵌入模型进行训练,包括:基于初始的节点向量化子模型,以所述行为数据图中的每一个节点作为起始节点进行随机游走,得到每一个所述节点对应的节点序列;将所述行为数据图中各所述节点对应的节点序列输入初始的词向量子模型,进行关于初始的图嵌入模型的训练。
根据本申请实施例的一个方面,一种信息推荐方法,包括:获取搜索关键词;在候选信息库中搜索与搜索关键词相匹配的候选信息,并确定与搜索到的候选信息相关联的对象;基于所确定对象是否属于目标对象集合的检测结果,对搜索到的候选信息进行筛选,得到信息搜索结果,目标对象集合是如上的目标对象识别方法得到的;进行关于信息搜索结果的推荐。
根据本申请实施例的一个方面,一种目标对象识别装置,包括:用户分类模块,用于基于用户集合中的用户,确定目标用户集合;数据获取模块,用于获取目标用户集合中目标用户关于对象的行为数据,并根据目标用户关于对象的行为数据,进行对象的质量识别,生成高质量对象集合;特征提取模块,用于通过图嵌入模型对行为数据图中的对象进行向量特征提取,得到对象的向量特征,行为数据图是根据用户集合中用户关于对象的行为数据构建的;对象扩散模块,用于根据对象的向量特征,对高质量对象集合进行关于高质量对象的扩散,得到目标对象集合。
根据本申请实施例的一个方面,一种信息推荐装置,包括:关键词获取模块,用于获取搜索关键词;信息搜索模块,用于在候选信息库中搜索与搜索关键词相匹配的候选信息,并确定与搜索到的候选信息相关联的对象;信息筛选模块,用于基于所确定对象是否属于目标对象集合的检测结果,对搜索到的候选信息进行筛选,得到信息搜索结果,目标对象集合是如上的目标对象识别方法得到的;信息推荐模块,用于进行关于信息搜索结果的推荐。
根据本申请实施例的一个方面,一种电子设备,包括:至少一个处理器、至少一个存储器、以及至少一条通信总线,其中,存储器上存储有计算机程序,处理器通过通信总线读取存储器中的计算机程序;计算机程序被处理器执行时实现以下步骤:基于用户集合中的用户,确定目标用户集合;获取目标用户集合中目标用户关于对象的行为数据,并根据目标用户关于对象的行为数据,进行对象的质量识别,生成高质量对象集合;通过图嵌入模型对行为数据图中的对象进行向量特征提取,得到对象的向量特征,行为数据图是根据用户集合中用户关于对象的行为数据构建的;根据对象的向量特征,对高质量对象集合进行关于高质量对象的扩散,得到目标对象集合。
在一种可能的实施方式,处理器还用于执行以下步骤:基于用户分类模型,对用户集合中的用户进行分类预测,得到目标用户集合。
在一种可能的实施方式,处理器还用于执行以下步骤:基于用户分类模型,计算用户集合中用户属于目标用户的概率;根据用户集合中用户属于目标用户的概率,从用户集合中选取目标用户,生成目标用户集合。
在一种可能的实施方式,处理器还用于执行以下步骤:获取第一训练样本,第一训练样本至少包括进行标注的用户的属性特征;根据第一训练样本对逻辑回归模型进行训练,当模型训练完成,得到用户分类模型。
在一种可能的实施方式,处理器还用于执行以下步骤:基于目标用户关于对象的行为数据,确定行为数据的类型;根据行为数据的类型,对对象进行评分,得到对象的质量分数;根据对象的质量分数选取高质量对象,生成高质量对象集合。
在一种可能的实施方式,图嵌入模型包括完成模型训练的节点向量化子模型和词向量子模型;处理器还用于执行以下步骤:基于节点向量化子模型,以行为数据图中的每一个节点作为起始节点进行随机游走,得到每一个节点对应的节点序列,节点用于标识行为数据图中的用户或对象;将行为数据图中各节点对应的节点序列输入词向量子模型,得到各节点的向量特征,节点的向量特征包括用户的向量特征或对象的向量特征。
在一种可能的实施方式,处理器还用于执行以下步骤:对行为数据图中的每一个节点执行遍历步骤:将遍历到的节点作为起始节点,基于节点向量化子模型,在行为数据图中确定起始节点的跳转节点;由起始节点和所确定的跳转节点,形成遍历到的节点对应的节点序列;重复执行遍历步骤,当遍历步骤完成,得到每一个节点对应的节点序列。
在一种可能的实施方式,处理器还用于执行以下步骤:计算起始节点跳转至行为数据图中其余节点的跳转概率;基于起始节点与其余节点之间的跳转概率,确定第一个跳转节点;如果停止跳转条件不满足,则计算第一个跳转节点跳转至行为数据图中其余节点的跳转概率;基于第一个跳转节点与其余节点之间的跳转概率,确定第二个跳转节点;直至停止跳转条件满足,停止跳转节点的确定。
在一种可能的实施方式,处理器还用于执行以下步骤:确定起始节点与其余节点之间的最短路径距离,以及确定行为数据图中连接第一个跳转节点与其余节点的路径对应的权重;根据所确定的最短路径距离、以及返回参数和进出参数,确定第一个跳转节点随机游走至其余节点的游走概率;根据所确定的权重和游走概率,计算得到第一个跳转节点跳转至其余节点的跳转概率。
在一种可能的实施方式,处理器还用于执行以下步骤:获取用户集合中用户关于对象的行为数据,并根据获取到的行为数据构建行为数据图;以行为数据图作为第二训练样本,对初始的图嵌入模型进行训练;当模型训练完成,得到包含完成模型训练的节点向量化子模型和词向量子模型的图嵌入模型。
在一种可能的实施方式,处理器还用于执行以下步骤:以用户集合中的用户作为第一节点,并以用户相关的对象作为第二节点;在第一节点与第二节点之间构建一条路径;基于用户关于对象的行为数据,确定路径对应的权重,形成关于用户及其相关对象的行为数据图。
在一种可能的实施方式,处理器还用于执行以下步骤:根据用户的向量特征,更新目标用户集合;基于更新的目标用户集合中目标用户关于对象的行为数据,更新行为数据图;其中,用户的向量特征,是通过图嵌入模型对行为数据图中的用户进行向量特征提取得到。
在一种可能的实施方式,处理器还用于执行以下步骤:根据用户的向量特征、以及目标用户集合中每一个目标用户的向量特征,分别计算用户与每一个目标用户的相似度;根据用户与每一个目标用户的相似度,对用户进行评分,得到用户的第一相似分数;基于用户的第一相似分数,从用户集合中选取目标用户,添加至目标用户集合。
在一种可能的实施方式,处理器还用于执行以下步骤:基于初始的节点向量化子模型,以行为数据图中的每一个节点作为起始节点进行随机游走,得到每一个节点对应的节点序列;将行为数据图中各节点对应的节点序列输入初始的词向量子模型,进行关于初始的图嵌入模型的训练。
在一种可能的实施方式,处理器还用于执行以下步骤:根据对象的向量特征、以及高质量对象集合中每一个高质量对象的向量特征,分别计算对象与每一个高质量对象的相似度;根据对象与每一个高质量对象的相似度,对对象进行评分,得到对象的第二相似分数;基于对象的第二相似分数进行高质量对象的扩散,由扩散的高质量对象和高质量对象集合中的高质量对象,生成目标对象集合。
根据本申请实施例的一个方面,一种存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上所述的目标对象识别方法。
根据本申请实施例的一个方面,一种计算机程序产品,计算机程序产品包括计算机程序,计算机程序存储在存储介质中,计算机设备的处理器从存储介质读取计算机程序,处理器执行计算机程序,使得计算机设备执行时实现如上所述的目标对象识别方法。
本申请提供的技术方案带来的有益效果是:
在上述技术方案中,基于用户集合中的用户,确定目标用户集合,并获取目标用户集合中目标用户关于对象的行为数据,以根据目标用户关于对象的行为数据,进行对象的质量识别,生成高质量对象集合,进而基于通过图嵌入模型对行为数据图中对象进行向量特征提取得到的对象的向量特征,对高质量对象集合进行关于高质量对象的扩散,最终得到目标对象集合,也就是说,在高质量对象集合已生成的前提下,利用用户关于对象的行为数据构建行为数据图,扩散更多的高质量对象,以形成目标对象集合,由于行为数据图充分体现了用户与对象之间的行为关系链,不仅考虑了用户本身的差异性,而且考虑了不同用户对同一个对象的影响力,使得目标对象的覆盖范围更广,从而能够有效地解决相关技术中存在的目标对象识别的准确率不高的问题。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1是根据本申请所涉及的实施环境的示意图;
图2是根据一示例性实施例示出的一种信息推荐方法的时序交互图;
图3是根据一示例性实施例示出的一种目标对象识别方法的流程图;
图4是根据一示例性实施例示出的行为数据图的构建过程的流程图;
图5是根据一示例性实施例示出的文章阅读场景中行为数据图的拓扑结构示意图;
图6是根据一示例性实施例示出的用户分类模型的构建过程的流程图;
图7是图3对应实施例中步骤310在一个实施例的流程图;
图8是根据一示例性实施例示出的适用于任意场景的行为数据图的拓扑结构示意图;
图9是图8示出的行为数据图中各节点对应的节点序列的示意图;
图10是根据一示例性实施例示出的词向量子模型的网络结构示意图;
图11是根据一示例性实施例示出的图嵌入模型的构建过程的流程图;
图12是根据一示例性实施例示出的目标用户集合的更新过程的流程图;
图13是根据一示例性实施例示出的随机游走过程的流程图;
图14是根据一示例性实施例示出的节点之间游走概率的示意图;
图15是图3对应实施例中步骤330在一个实施例的流程图;
图16是图3对应实施例中步骤370在一个实施例的流程图;
图17是文章阅读场景中文章推荐相关界面的示意图;
图18是文章阅读场景中一种目标对象识别方法的流程示意图;
图19是根据一示例性实施例示出的一种目标对象识别装置的结构框图;
图20是根据一示例性实施例示出的一种服务器的硬件结构图;
图21是根据一示例性实施例示出的一种电子设备的结构框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
下面是对本申请涉及的几个名词进行的介绍和解释:
Graph Embedding,是指图嵌入算法。该图嵌入算法的中心思想就是利用一种映射函数,将一个空间的点映射到另一个空间,通常是从高维的抽象空间映射到低维的具象空间,也可以理解为,是利用该种映射函数将网络中的每个节点转换为低维度的Embedding向量表示。例如,该种映射函数可以是Node2Vec、Word2vec、LINE、GCN、CANE等等。其中,图嵌入模型即采用了该图嵌入算法。
Node2Vec,英文全称为Node-to-Vector,中文含义为节点向量化,可应用于图嵌入模型。
Word2vec,英文全称为word-to-Vector,中文含义为词向量化,可应用于图嵌入模型。
LR,英文全称为logistic regression,中文含义为逻辑回归模型,属于机器学习模型中的一种,适用于各种预测分类领域,例如,文本分类、用户分类等等。
People Rank,是指人群排序算法。基于该人群排序算法,一方面,如果用户接收到其他用户“关注”的数量越多,则表明该用户越权威;另一方面,如果越多数量的权威用户都“关注”同一个其他用户,则该其他用户也可视为权威用户。
如前所述,对于文章搜索来说,搜索到的文章是否优质,很大程度上取决于发表该文章的账号(例如公众号)是否优质,这也是影响用户搜索体验的关键因素。
目前,账号识别主要依赖于账号的静态属性特征来衡量账号质量。
具体而言,可以包括以下步骤:步骤一、确定多个账号的静态属性特征,包括但不限于粉丝量、发文量、该账号所发表历史文章的标题、内容和涉及的图片等;步骤二、基于该多个账号的静态属性特征,人工标注出大量优质的账号,作为训练样本;步骤三、利用训练样本对账号分类模型加以训练;步骤四、基于完成模型训练的账号分类模型对未标注的账号进行分类预测,识别得到优质的账号。
然而,账号的静态属性特征往往导致账号识别的准确率不高。例如,有些粉丝量高的账号已迁移,那么,该粉丝量高的账号则不能视为优质账号。或者,有些账号曾经的发文量很高,但近期已长时间未发文,则该发文量高的账号也不能视为优质账号。
换而言之,账号是否优质往往体现在多个维度,包括但不限于粉丝量、用户喜爱度、内容原创度、权威认证等等。而上述识别方法基于账号的静态属性特征,不仅对样本需求多,随着样本数量的海量增长,人力成本相应增加,而且识别耗时长,资源占用多,效率低,无法体现用户喜爱度、原创度、权威度等。
为此,相关技术又提出一种账号识别方案,通过阅读数和点赞数来替代静态属性特征,以此改善静态属性特征所造成的准确率不高的缺陷。
具体地,此种方案可以包括以下步骤:步骤一、采集某个账号下设定时间内发表的m篇文章中每一篇文章的阅读数αi和点赞数βi,以此计算阅读数和点赞数的转化率k=m篇文章的阅读总数/m篇文章的点赞总数;步骤二、当该账号下某篇文章的阅读数为100000+时,利用αx=k×βx,计算该篇文章的阅读数αx,其中,k为阅读数和点赞数的转化率,βx为该篇文章的点赞数,设置单篇文章的阅读数1×107为上限;步骤三、计算该账号的影响力权重,以此对该账号进行影响力分析,来判断该账号是否为优质账号。
上述方案中,账号的影响力权重虽然会随着阅读数和点赞数的变化而变化,但是由于忽略了用户本身的差异性,也忽略了不同用户对同一个账号的影响力的差异性,使得此种方案对账号识别的准确率的提高非常有限。
举例来说,账号a所发表历史文章的阅读总数和账号b所发表历史文章的阅读总数相同,但是对于账号a来说,做出阅读行为的用户质量明显高于账号b,这就说明账号a的影响力要高于账号b,然而此种方案并未考虑做出阅读行为的用户质量,这也导致了账号识别的准确率有所欠缺。
由上可知,如何提高账号识别的准确率仍有待解决。
有鉴于此,本申请提供的目标对象识别方法、装置、电子设备及存储介质,旨在解决相关技术的如上技术问题。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
图1为一种目标对象识别方法所涉及的实施环境的示意图。该实施环境包括终端100和服务器200。
具体地,终端100可供具备信息搜索功能的客户端运行,可以是台式电脑、笔记本电脑、平板电脑、智能手机等等电子设备,在此不进行限定。
其中,客户端,具备信息搜索功能,例如,浏览器、阅读器、媒体播放器、社交应用、购物应用等等,可以是应用程序形式,也可以是网页形式,相应地,客户端提供搜索关键词的输入界面则可以是程序窗口形式,还可以是网页页面形式的,此处也并未加以限定。
服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。例如,本实施环境中,服务器200为终端100提供信息推荐服务,或者,服务器200提供目标对象识别服务。
当然,根据实际营运的需要,信息推荐服务和目标对象标识服务不局限于部署于同一台服务器,还可以部署于不同的服务器,以此方式提高处理效率。
服务器200通过有线或者无线等通信方式预先与终端100之间建立通信连接,以通过该通信连接实现服务器200与终端100之间的数据传输。例如,传输的数据包括但不限于搜索关键词、信息搜索结果等等。
对于服务器200而言,基于用户集合中用户关于对象的行为数据,执行目标对象的识别过程,便可得到目标对象集合,以作为后续提供信息推荐服务的依据。
如图2所示,通过终端100与服务器200的交互,步骤201,运行于终端100的客户端将向服务器200发送搜索关键词,请求服务器200根据该搜索关键词提供信息推荐服务。
对应地,服务器200便接收到该搜索关键词,并结合该搜索关键词和目标对象集合为终端100进行信息搜索结果的推荐,以此来充分地保证信息推荐的准确性。
具体而言,步骤202,在候选信息库中搜索与搜索关键词相匹配的候选信息,并确定与搜索到的候选信息相关联的对象。
步骤203,基于所确定对象是否属于目标对象集合的检测结果,对搜索到的候选信息进行筛选,得到信息搜索结果。
步骤204,进行关于信息搜索结果的推荐。
请参阅图3,本申请实施例提供了一种目标对象识别方法,该方法适用于图1所示出实施环境中的服务器200。
在下述方法实施例中,为了便于描述,以各步骤的执行主体为服务器加以说明,但是并非对此构成具体限定。
如图3所示,该方法可以包括以下步骤:
步骤310,基于用户集合中的用户,确定目标用户集合。
如前所述,对于文章搜索来说,搜索到的文章是否优质,很大程度上取决于该文章的账号是否优质。基于此,目标用户可以是指优质用户,也可以认为是权威用户;目标对象则是指优质账号,也可以认为是权威账号。
同理,对于商品搜索来说,目标用户也可以是指优质用户,而目标对象则是指优质商品;或者,对于电影搜索来说,目标用户是指优质用户,而目标对象则是指优质电影。
由上可知,目标对象可以是优质账号、优质商品、优质电影等等,本实施例并未对目标对象的类型作具体限定。相应地,由于目标对象的不同类型可对应不同的场景,例如,优质账号可对应文章阅读场景,优质商品可对应商品购买场景,优质电影可对应电影观看场景,因此,本实施例提供的目标对象识别方法可根据不同类型的目标对象而适用于不同的场景,例如,在文章阅读场景中,根据目标对象向读者推荐其感兴趣的文章。
其次,用户集合中的用户,也对应于不同的场景。例如,在文章阅读场景中,该用户是指针对文章做出阅读、点赞、转发、评论等行为的用户;在商品购买场景中,该用户是指针对商品做出查看、收藏、添加购物车、购买等行为的用户;在电影观看场景,该用户则是指针对电影做出观看、评论等行为的用户。
由于用户集合中的用户可能是目标用户(例如优质用户),也可能是非目标用户(例如非优质用户),因此,通过选取,方可从用户集合中选取目标用户,得到包含至少一个目标用户的目标用户集合。
在一种可能的实施方式,选取是基于人工标注实现的。例如,用户集合中,用户A标注为目标用户,用户B标注为非目标用户,那么,用户A即作为目标用户添加至目标用户集合。
在一种可能的实施方式,选取是基于用户分类模型实现的。具体地:基于用户分类模型,对用户集合中的用户进行分类预测,得到目标用户集合。
步骤330,获取目标用户集合中目标用户关于对象的行为数据,并根据目标用户关于对象的行为数据,进行对象的质量识别,生成高质量对象集合。
首先,关于行为数据的获取,对于服务器而言,将由目标用户所在客户端提供。例如,在文章阅读场景中,目标用户将针对某一篇文章做出阅读、点赞、转发、评论等行为,那么,目标用户所在客户端便以此生成目标用户关于对象的行为数据,并上传至服务器。其中,对象是指发表该某一篇文章的账号,例如,账号为某个公众号。又或者,在商品购买场景中,目标用户将针对某一个商品做出查看、收藏、添加购物车、购买等行为,那么,目标用户所在客户端也将以此生成目标用户关于对象的行为数据,并上传至服务器。其中,对象是指该某一个商品。
在获取到行为数据之后,服务器可实时提供目标对象识别服务,以此提高识别实时性,也可以预先存储,并在设定时间段提供目标对象识别服务,例如,设定时间段是指服务器的内存占用率低于门限的时间段,以此提高识别效率,本实施例并未对此加以限定。
其次,高质量对象集合,包括至少一个高质量对象。例如,在文章阅读场景中,高质量对象为优质账号;在商品购买场景中,高质量对象为优质商品;在电影观看场景中,高质量对象为优质电影。
在一种可能的实施方式,高质量对象,是指质量分数大于设定分数的对象。例如,如果设定分数为90分,则质量分数大于90分的对象可视为高质量对象。其中,设定分数可以根据应用场景的实际需要灵活地调整,此处并非构成具体限定。
在一种可能的实施方式,高质量对象,是指质量分数排设定名次之前的对象。例如,假设设定名次为100,那么,质量分数排前100名的对象可视为高质量对象。其中,设定名次也是可以根据应用场景的实际需要灵活地调整,此处也并未加以限定。
由上可知,高质量对象,是基于对象的质量分数确定的。故而,本实施例中,对象的质量识别过程,实质是基于目标用户关于对象的行为数据确定对象的质量分数的过程。
步骤350,通过图嵌入模型对行为数据图中的对象进行向量特征提取,得到对象的向量特征。
在高质量对象集合生成之后,发明人意识到,高质量对象虽然与目标用户集合中的目标用户有关,但并未考虑用户集合中的非目标用户,正如前述所说,如果忽略用户本身的差异性,和/或忽略不同用户对同一个账号的影响力的差异性,将会导致账号识别的准确率提高非常有限。
有鉴于此,在高质量对象集合已生成的前提下,将利用行为数据图进行关于高质量对象的扩散。其中,行为数据图是根据用户集合中用户关于对象的行为数据构建的。
下面对行为数据图的构建过程加以说明如下,如图4所示:
步骤410,以用户集合中的用户作为第一节点,并以用户相关的对象作为第二节点。
换句话说,第一节点,用于标识用户集合中的用户。第二节点,用于标识用户相关的对象。其中,用户相关的对象,是指用户针对该对象做出相应行为。
例如,在文章阅读场景中,用户针对账号发表的文章做出阅读、点赞、转发、评论等行为;在商品购买场景中,用户针对商品做出查看、收藏、添加购物车、购买等行为;在电影观看场景中,用户针对电影做出观看、评论等行为。
步骤430,在第一节点与第二节点之间构建一条路径。
也就是说,如果第一节点与第二节点之间构建有路径,表示第一节点所标识的用户针对第二节点所标识的对象做出了相应的行为。
例如,假设用户A针对账号a发表的文章做出了阅读行为,则第一节点用于标识用户A,第二节点用于标识账号a,该第一节点与该第二节点之间构建有路径。
步骤450,基于用户关于对象的行为数据,确定路径对应的权重,形成关于用户及其相关对象的行为数据图。
其中,权重,用于表示用户针对对象所做出行为的类型。应当理解,行为的类型不同,则权重有所差异,权重越大,表示该类型的行为对是否为高质量对象的影响力越大。同时,该权重可根据应用场景的实际需要灵活地设置,此处并未加以限定。
例如,在商品购买场景中,用户关于商品的行为数据的类型包括查看、收藏、添加购物车、购买,相应地,路径用于表示用户针对商品做出的查看行为、添加购物车行为、购买行为,上述路径的权重可分别设置为1、3、5。
以文章阅读场景举例说明,图5示例性示出了文章阅读场景中行为数据图的拓扑结构示意图。
假设用户集合包括A类用户和B类用户,其中,A类用户均属于目标用户,分别为用户A1、A2、A3,B类用户均属于非目标用户,分别为用户B1、B2。
对于用户A1,阅读过账号a发表的文章、分别转发过账号b和账号d发表的文章。
对于用户A2,转发过账号b发表的文章、阅读过账号d发表的文章。
对于用户A3,分别阅读过账号b和账号c发表的文章、转发过账号e发表的文章、评论过账号a发表的文章。
对于用户B1,分别评论过账号d和账号e发表的文章。
对于用户B2,分别转发过账号d和账号e发表的文章。
再假设阅读行为、转发行为、评论行为对应的权重分别为1、3、5。同时,考虑用户本身的差异性,针对目标用户所做出的阅读行为、转发行为、评论行为,对应权重+5。
那么,在图5中,以用户A1-A3(目标用户)、用户B1-B2(非目标用户)作为第一节点,以账号a-e作为第二节点。
用户A1分别与账号a、b、d之间构建有路径,对应权重为1+5、3+5、3+5。
用户A2分别与账号b、d之间构建有路径,对应权重为3+5、1+5。
用户A3分别与账号a、b、c、e之间构建有路径,对应权重为5+5、1+5、1+5、3+5。
用户B1分别与账号d、e之间构建有路径,对应权重为5、5。
用户B2分别与账号d、e之间构建有路径,对应权重为3、3。
由此可见,一方面,基于行为数据图所体现的用户与对象之间的行为关系链,不仅能够考虑用户本身的差异性,而且能够考虑不同用户对同一个账号的影响力,从而充分地保证高质量对象的扩散效果。
另一方面,随着用户与对象之间的行为关系链的引入,充分考虑了社交网络中用户量的优势,使得样本需求大大减少,即不再需要进行人工标注,以此有利于降低人力成本,进而保障目标对象识别的效率和资源。
在构建得到行为数据图之后,便可通过图嵌入模型的特征提取,将行为数据图中的各节点表示为相应的特征向量,以便于服务器能够识别并据此提供目标对象识别服务。
其中,节点用于标识用户或对象,也可以认为,节点中存储有用户标识或对象标识。例如,对于用户A1,A1即为该用户A1的用户标识,存储于节点A1,换而言之,节点A1用于标识用户A1,如图5所示。
节点的向量特征包括用户的向量特征或对象的向量特征。用户或对象的向量特征,用于实现对用户或对象的准确描述,进而在数字信息上唯一地表示用户或对象,可以理解,如果用户或对象不同,则用户或对象的向量特征也有所区别。
步骤370,根据对象的向量特征,对高质量对象集合进行关于高质量对象的扩散,得到目标对象集合。
其中,目标对象集合中的目标对象=高质量对象集合中的高质量对象+扩散的高质量对象。由此可见,目标对象,不仅覆盖了与目标用户有关的高质量对象,而且覆盖了与非目标用户有关的高质量对象,具有更广的覆盖范围,充分地保障了目标对象识别的准确性。
通过上述过程,在高质量对象集合已生成的前提下,利用用户关于对象的行为数据构建行为数据图,扩散更多的高质量对象,以形成目标对象集合,由于行为数据图充分体现了用户与对象之间的行为关系链,不仅考虑了用户本身的差异性,而且考虑了不同用户对同一个对象的影响力,使得目标对象的覆盖范围更广,从而能够有效地解决相关技术中存在的目标对象识别的准确率不高的问题。
本申请实施例中提供了一种可能的实施方式,步骤310可以包括以下步骤:
基于用户分类模型,对用户集合中的用户进行分类预测,得到目标用户集合。
首先,对用户分类模型的构建过程进行如下说明,如图6所示:
步骤510,获取第一训练样本。
其中,第一训练样本至少包括进行标注的用户的属性特征。
首先,标注是指对用户进行标签标记,该标签至少包括“目标用户”标签和“非目标用户”标签。
例如,如果用户A为目标用户,则以“目标用户”标签对该用户A进行标记,以基于进行标注的用户A的属性特征生成第一训练样本。
当然,在其它实施例中,标记,不局限于前述的文字,还可以是数字、字符、图形、颜色等方式,此处并非构成具体限定。
在一种可能的实施方式,第一训练样本包括第一数量个训练正样本和第二数量个训练负样本,以此提高用户分类的准确率。其中,标记“目标用户”标签的用户作为训练正样本,标记“非目标用户”标签的用户作为训练负样本。
在一种可能的实施方式,训练正样本的第一数量与训练负样本的第二数量之间的比例为1:2。例如,第一数量为5000,第二数量为10000。
其次,属性特征用于实现对用户是否属于目标用户的准确描述,进而在数字信息上唯一地表示用户是否属于目标用户。在一种可能的实施方式,用户的属性特征包括但不限于:是否属于高质量用户、所在城市、学历、好友数、是否绑卡用户等等。
例如,是否属于高质量用户,1表示是,0表示否;所在城市,取值1-5(分别表示其它城市、四线城市、三线城市、二线城市、一线城市);学历,取值0-3(分别表示其它学历、本科学历、硕士学历、博士学历);好友数,取值为0或正整数;是否绑卡用户,1表示是,0表示否。
那么,假设用户A属于高质量用户,所在城市为一线城市,具有博士学历,好友数为100,属于绑卡用户,则该用户A的属性特征可表示为[1,5,3,100,1]。
步骤530,根据第一训练样本对逻辑回归模型进行训练。
具体而言,步骤一,对逻辑回归模型的参数进行随机初始化,由随机化初始化的参数和当前一个第一训练样本构建对应的损失函数。该损失函数包括但不限于:交叉熵函数、类内分布函数、类间分布函数、激活分类函数等等。
本实施例中,损失函数表示为:
其中,假设用户x的属性特征为[x0,x1,x2,x3,……,xN],则yi表示基于xi时用户x属于目标用户的概率。
步骤二,计算步骤一中损失函数的损失值,并判断该损失值是否达到最小值。
如果该损失值未达到最小值,则该损失函数未收敛,此时,执行步骤三。
反之,如果该损失值达到最小值,则该损失函数收敛,此时,执行步骤五。
步骤三,对逻辑回归模型的参数进行更新,并由更新的参数和后一个第一训练样本构建对应的损失函数。
步骤四,计算步骤三中损失函数的损失值,并判断该损失值是否达到最小值。
通过如此迭代,直至该损失函数的损失值达到最小,视为该损失函数收敛。其中,迭代次数可以根据应用场景的实际需要灵活地设置,例如,对精准度要求较高的应用场景,设置较大的迭代次数。
步骤五,当损失函数收敛,由逻辑回归模型收敛得到最终的用户分类模型。
至此,通过上述梯度下降和反向传播更新参数的模型训练过程,用户分类模型便具备了用户分类预测能力。
其次说明的是,用户分类过程可以包括以下步骤,如图7所示:
步骤311,基于用户分类模型,计算用户集合中用户属于目标用户的概率。
具体地,概率计算公式表示为:Y=hθ(x)。
其中,Y表示用户x属于目标用户的概率;
假设用户x的属性特征为[x0,x1,x2,x3,……,xN],则 yi表示基于xi时用户x属于目标用户的概率。
步骤313,根据用户集合中用户属于目标用户的概率,从用户集合中选取目标用户,生成目标用户集合。
在一种可能的实施方式,根据计算得到的概率,从用户集合中选取设定数量的目标用户。例如,设定数量为1000,则从用户集合中选取概率排前1000名的用户作为目标用户。
在一种可能的实施方式,根据计算得到的概率,从用户集合中选取概率超过阈值的目标用户。例如,阈值为0.8,则从用户集合中选取概率超过0.8的用户作为目标用户。
举例来说,对于用户集合中的用户A而言,假设用户A属于目标用户的概率为P0,以阈值为0.8进行说明,如果P0超过0.8,则用户A属于目标用户。反之,如果P0未超过0.8,则用户A不属于目标用户。
由此,即实现了基于用户分类模型的用户分类,为高质量对象集合的生成提供了数据依据,进而使得目标对象识别方法得以实现。
在一种可能的实施方式,图嵌入模型包括完成模型训练的节点向量化子模型和词向量子模型。
首先,节点向量子模型,用于以行为数据图中的每一个节点作为起始节点进行随机游走,得到每一个节点对应的节点序列。
图8示例性示出了适用于任意场景的行为数据图的拓扑结构示意图。在图8中,该行为数据图包含多个节点,每一个节点分别用于标识不同的用户或对象。例如,节点A用于标识用户A,节点B用于标识对象B。在此说明的是,图8中的箭头方向表示节点的跳转方向,行为数据图实质是无向图。
那么,图9示例性示出了图8示出的行为数据图中各节点对应的节点序列的示意图,在图9中,基于节点向量子模型,以图8示出的行为数据图中的节点A作为起始节点进行随机游走,便可分别得到节点A对应的节点序列为{A,B,E,F}、{A,B,E,C,B}。
以图8中示出的行为数据图中的节点B作为起始节点进行随机游走,便可得到节点B对应的节点序列为{B,E,C,B,A}。
以图8中示出的行为数据图中的节点C作为起始节点进行随机游走,便可得到节点C对应的节点序列为{C,B,A,B,E}。
以此类推,便可得到图8示出的行为数据图中的每一个节点对应的节点序列。
其次,词向量子模型,用于以行为数据图中的每一个节点对应的节点序列作为输入进行向量转换,得到各节点的向量特征。
图10示例性示出了词向量子模型的网络结构示意图。在图10中,input表示行为数据图中每一个节点对应的节点序列,output表示每一个节点的向量特征。
下面对图嵌入模型的构建过程加以说明,如图11所示:
步骤610,获取用户集合中用户关于对象的行为数据,并根据获取到的行为数据构建行为数据图。
具体地,以用户集合中用户作为第一节点,以用户相关对象作为第二节点,并在第一节点与第二节点之间构建一条路径。
基于用户关于对象的行为数据,确定路径对应的权重,形成关于用户及其相关对象的行为数据图,回请参阅图5。
如前所述,考虑用户本身的差异性,基于目标用户和非目标用户关于同一个对象的行为数据,所确定路径对应的权重也将有所差异,由此,行为数据图的更新,一方面,将随着行为数据的不断获取而进行,例如,用户A1针对账号a发表的文章做出评论行为,则用户A1与账号a之间新构建一条权重为5的路径,或者,用户A1与账号a之间构建的原路径对应的权重+5;另一方面,将随着目标用户集合的更新而进行,例如,用户B1作为目标用户更新至目标用户集合,那么,行为数据图中,用户B1相关路径对应的权重+5。
现对目标用户集合的更新过程进行如下说明:
如图12所示,在一种可能的实施方式,更新过程可以包括以下步骤:
步骤611,根据用户的向量特征、以及目标用户集合中每一个目标用户的向量特征,分别计算用户与每一个目标用户的相似度。
具体而言,相似度的计算公式表示为:
其中,Ai表示目标用户集合中目标用户A的向量特征,Bi表示用户集合中用户B的向量特征。
当然,在其它实施例中,相似度的计算不局限于余弦相似度,还可以基于曼哈顿距离、欧式距离、闵可夫斯基距离、汉明距离、切比雪夫距离、杰尔德相似系数等等,此处并非构成具体限定。
步骤613,根据用户与每一个目标用户的相似度,对用户进行评分,得到用户的第一相似分数。
针对目标用户集合中的每一个目标用户,如果用户与该目标用户的相似度超过相似度门限,则用户的第一相似分数Si=Si+1。
也就是说,如果用户与目标用户集合中越多个目标用户足够相似,则该用户的第一相似分数越高,那么,该用户可视为目标用户的可能性越大,以此达到目标用户扩散的目的。
在此说明的是,相似度门限,可以根据应用场景的实际需要灵活地调整,此处并未加以限定。例如,相似度门限为0.8。
步骤615,基于用户的第一相似分数,从用户集合中选取目标用户,添加至目标用户集合。
在一种可能的实施方式,根据用户的第一相似分数,从用户集合中选取设定数量的目标用户。例如,设定数量为5000,则从用户集合中选取第一相似分数排前5000名的用户作为目标用户。
在一种可能的实施方式,根据用户的第一相似分数,从用户集合中选取第一相似分数超过设定相似分数的目标用户。例如,设定相似分数为80分,则从用户集合中选取第一相似分数超过80分的用户作为目标用户。
由此,目标用户集合中的目标用户,一方面,基于用户分类模型的用户分类,另一方面,基于相似度的用户扩散,使得目标用户的覆盖范围更广,进而有利于促进行为数据图的更新,保持用户与对象之间的行为关系链的准确性,从而充分地保障目标对象识别的准确性。
步骤630,以行为数据图作为第二训练样本,对初始的图嵌入模型进行训练。
如前所述,一方面,随着行为数据图的不断获取,行为数据图不断地更新;另一方面,随着目标用户集合中目标用户的不断扩散,行为数据图也将不断地更新,进而随着第二训练样本的不断丰富,促使图嵌入模型的训练迭代进行,从而有利于提高图嵌入模型的精度。
具体而言,将行为数据图中各节点对应的节点序列输入初始的词向量子模型,进行关于初始的图嵌入模型的训练。训练过程如下:
首先,对初始的图嵌入模型的参数进行随机初始化,并基于随机初始化的参数构建对应的损失函数。该损失函数包括但不限于:交叉熵函数、类内分布函数、类间分布函数、激活分类函数等等。
其次,计算损失函数的损失值,并判断该损失值是否达到最小值。
如果该损失值未达到最小值,则该损失函数未收敛,此时,对参数进行更新,并基于更新的参数重新构建对应的损失函数,重新计算损失函数的损失值。
通过如此迭代,直至该损失值达到最小值,视为损失函数收敛,则模型训练完成。其中,迭代次数可以根据应用场景的实际需要灵活地设置,例如,对精准度要求较高的应用场景,设置较大的迭代次数。
当模型训练完成,得到包含完成模型训练的节点向量化子模型和词向量子模型的图嵌入模型。
至此,图嵌入模型便具备了向量特征提取能力,使得基于用户/对象的向量特征的高质量对象的扩散得以实现,以此保证目标对象识别的准确率的提高。
请参阅图13,在一种可能的实施方式,针对行为数据图中的每一个节点,随机游走过程可以包括以下遍历步骤:
步骤710,将遍历到的节点作为起始节点,基于节点向量化子模型,在行为数据图中确定起始节点的跳转节点。
以前述例子进行说明,假设遍历到的节点为节点B,那么,节点E、C、B、A即可视为在行为数据图中确定的以节点B作为起始节点的跳转节点。
下面结合前述例子,对跳转节点的确定过程加以详细地说明:
步骤一,计算起始节点B跳转至行为数据图中其余节点A、C、E的跳转概率。
在此说明的是,如图8所示,由于节点B和节点D、F之间并未构建路径,故无法由节点B直接跳转至节点D或节点F。换而言之,跳转的前提是在行为数据图中两个节点之间已构建了路径。
步骤二,基于起始节点B与其余节点A、C、E之间的跳转概率,确定第一个跳转节点E。
如果停止跳转条件不满足,则执行步骤三,基于第一个跳转节点E确定第二个跳转节点。
反之,如果停止跳转条件满足,则执行步骤五。
其中,停止跳转条件,可以是跳转次数达到阈值;也可以是跳转节点重复跳转至起始节点,例如,如图8所示,对于节点B对应的节点序列{B,E,C,B,A}来说,如果最后一个跳转节点A继续跳转,便会重复跳转至节点B,此时,即可视为满足停止跳转条件;还可以是行为数据图中的节点不存在相应路径,例如,如图8所示,当跳转节点为节点F,视为满足停止跳转条件。
步骤三,计算第一个跳转节点E跳转至行为数据图中其余节点D、C、F的跳转概率。
步骤四,基于第一个跳转节点E与其余节点D、C、F之间的跳转概率,确定第二个跳转节点C。
同理,如果停止跳转条件不满足,则返回执行步骤三,继续基于第二个跳转节点C确定第三个跳转节点。
反之,如果停止跳转条件满足,则执行步骤五。
步骤五,直至停止跳转条件满足,停止跳转节点的确定。
待上述确定过程结束,即得到节点B对应的节点序列为{B,E,C,B,A}。
概略地说,图14示例性示出了节点之间游走概率的示意图。在图14中,节点t作为起始节点,节点v作为第一个跳转节点,那么,α表示由第一个跳转节点v随机游走至其余节点x(第二个跳转节点)的游走概率。在此说明的是,第二个跳转节点可能是其余节点x(例如节点t、x1、x2、x3)中的任意一个节点。
具体地,节点v跳转至节点x的跳转概率Π的计算公式如下:
πvx=αpq(t,x)·ωvx
其中,α表示节点v随机游走至节点x的游走概率,w表示节点v与节点x的路径对应的权重。
进一步地,节点v随机游走至节点x的游走概率α的计算公式如下:
其中,dtx表示节点t与节点x之间的最短路径距离。p表示返回参数,q表示进出参数。
在此说明的是,p和q共同控制节点v随机游走的倾向性,即,p越小,节点v随机游走至节点t的可能性越大;q越小,节点v随机游走至远方节点的可能性越大,反之,q越大,节点v随机游走至附近节点的可能性越大。
步骤730,由起始节点和所确定的跳转节点,形成遍历到的节点对应的节点序列。
仍以前述例子进行说明,基于起始节点B和所确定的跳转节点E、C、B、A,形成节点B对应的节点序列{B,E,C,B,A}。
以此类推,重复执行遍历步骤,当遍历步骤完成,便可得到每一个节点对应的节点序列。
上述过程中,通过返回参数p体现随机游走注重表达行为数据图的同质性,而通过进出参数q体现随机游走注重表达行为数据图的结构性,从而使得节点向量化子模型能够学习到相邻且结构相似的节点,以便于更好地表达用户本身的差异性,以及不同用户对同一个对象的影响力的差异性,进而能够充分地提高目标对象识别的准确率。
如前所述,目标质量对象集合中的目标对象=高质量对象集合中的高质量对象+扩散的高质量对象,以使目标对象不仅能够覆盖与目标用户有关的高质量对象,而且能够覆盖与非目标用户有关的高质量对象。
现结合图15至图16,对目标对象集合的生成过程进行如下详细地说明:
一方面,目标对象,来自基于目标用户生成的高质量对象集合。
请参阅图15,本申请实施例中提供了一种可能的实施方式,步骤330中关于对象的质量识别过程可以包括以下步骤:
步骤331,基于目标用户关于对象的行为数据,确定行为数据的类型。
其中,行为数据的类型,实质是指目标用户针对对象所做出行为的类型。
以文章阅读场景为例进行说明,目标用户关于账号的行为数据是基于目标用户针对账号所发表的某一篇文章做出的阅读、点赞、转发、评论等行为生成的,那么,在文章阅读场景中,行为数据的类型即包括阅读、点赞、转发、评论。
步骤333,根据行为数据的类型,对对象进行评分,得到对象的质量分数。
也就是说,行为数据的类型不同,表示该类型的行为对对象是否为高质量对象的影响力有所区别,则给予对象的评分将有所差异。应当理解,对象的质量分数越高,表示该对象为高质量对象的可能性越大。
继续以文章阅读场景为例进行说明,例如,行为数据的类型为阅读,该对象的评分为1分;或者,行为数据的类型为转发,该对象的评分为3分;又或者,行为数据的行为为评论,该对象的评分为5分。
由此可知,阅读行为对对象是否为高质量对象的影响力最小,而评论行为对对象是否为高质量对象的影响力最大,如果目标用户针对该对象做出的评论的次数越多,则该对象的质量分数可能越高,那么,该对象为高质量对象的可能性越大。
步骤335,根据对象的质量分数选取高质量对象,生成高质量对象集合。
在一种可能的实施方式,根据对象的质量分数,选取设定数量的高质量对象。在一种可能的实施方式,根据对象的质量分数,选取质量分数超过阈值的高质量对象。
回请参阅图5,在图5中,以目标用户集合中的目标用户A1-A3,对象为账号a-e举例说明如下:
假设行为数据图中各路径对应的权重即为基于不同行为数据的类型给予对象的评分,例如,不考虑目标用户引入的额外权重+5,路径对应的权重为1,表示给对象的评分为1分;路径对应的权重为3,表示给对象的评分为3分;路径对应的权重为5,表示给对象的评分为5分。那么:
对于账号a,质量分数为1+5=6;
对于账号b,质量分数为3+3+1=7;
对于账号c,质量分数为1;
对于账号d,质量分数为3+1=4;
对于账号e,质量分数为3。
假设阈值为5分,则账号a、b可视为高质量对象,由此,生成高质量对象集合={a,b}。
由此,即实现了基于目标用户生成高质量对象集合,以此作为目标对象集合中的一部分目标对象。
另一方面,目标对象,来自基于非目标用户扩散得到的高质量对象。
请参阅图16,本申请实施例中提供了一种可能的实施方式,步骤370可以包括以下步骤:
步骤371,根据对象的向量特征、以及高质量对象集合中每一个高质量对象的向量特征,分别计算对象与每一个高质量对象的相似度。
具体而言,相似度的计算公式表示为:
其中,Ai表示高质量对象集合中高质量对象A的向量特征,Bi表示用户集合中用户相关对象B的向量特征。
当然,在其它实施例中,相似度的计算不局限于余弦相似度,还可以基于曼哈顿距离、欧式距离、闵可夫斯基距离、汉明距离、切比雪夫距离、杰尔德相似系数等等,此处并非构成具体限定。
步骤373,根据对象与每一个高质量对象的相似度,对对象进行评分,得到对象的第二相似分数。
针对高质量对象集合中的每一个高质量对象,如果对象与该高质量对象的相似度超过相似度门限,则对象的第二相似分数Si=Si+1。
也就是说,如果对象与高质量对象集合中越多个高质量对象足够相似,则该对象的第二相似分数越高,那么,该对象可视为高质量对象的可能性越大,以此达到高质量对象扩散的目的。
在此说明的是,相似度门限,可以根据应用场景的实际需要灵活地调整,此处并未加以限定。例如,相似度门限为0.8。
步骤375,基于对象的第二相似分数进行高质量对象的扩散,由扩散的高质量对象和高质量对象集合中的高质量对象,生成目标对象集合。
在一种可能的实施方式,根据对象的第二相似分数,从用户集合中用户相关对象中选取设定数量的高质量对象。例如,设定数量为5000,则从用户集合中用户相关对象中选取第二相似分数排前5000名的对象作为扩散的高质量对象。
在一种可能的实施方式,根据对象的第二相似分数,从用户集合中用户相关对象中选取第二相似分数超过设定相似分数的高质量对象。例如,设定相似分数为80分,则从用户集合中用户相关对象中选取第二相似分数超过80分的对象作为扩散的高质量对象。
由此,即实现了基于非目标用户进行的高质量对象的扩散,以此作为目标对象集合中的另一部分目标对象。
在上述实施例的作用下,随着高质量对象的扩散,目标对象具有更广的覆盖范围,不仅涉及目标用户集合中的目标用户,而且与用户集合中的用户相关,进而充分地保障了目标对象识别的准确性。
图17示例性示出文章阅读场景中文章推荐相关界面的示意图。图18示例性示出文章阅读场景中一种目标对象识别方法的流程示意图。
现结合图17至图18,以文章阅读场景进行如下示例性说明:
该文章阅读场景中,终端为智能手机,可供社交应用运行。
随着社交应用在智能手机中运行,智能手机便可借助该社交应用为用户构建文章阅读场景,并基于该文章阅读场景,向用户展示文章推荐相关界面,以便于为用户推荐相关文章。
例如,社交应用为微信,对应地,由微信所构建的文章阅读场景为“搜一搜”。图17(a)是微信所涉及的文章推荐界面,在该文章推荐界面,提供搜索关键词输入入口,即“搜一搜”。图17(b)是微信所涉及搜索关键词输入界面,随着用户点击“搜一搜”输入入口,便可由文章推荐界面跳转进入搜索关键词输入界面。图17(c)为推荐文章展示界面,随着用户在搜索关键词输入界面输入“新年”,推荐文章展示界面便会向用户推荐与“新年”相关的文章。
可以理解,影响用户搜索体验的关键因素,即是推荐文章展示界面中向用户展示的相关文章的头部内容是否优质,也可以认为是,发表该些文章的账号(例如公众号)是否优质。由此,文章推荐过程,实质以优质账号识别为前提。
具体而言,如图18所示,优质账号识别过程主要包括三个部分:优质用户挖掘;图嵌入模型训练和识别;优质账号输出。
首先,优质用户挖掘,目的在于利用People Rank思想,从社交网络发现有效且权威的优质用户,从而通过优质用户针对账号所发表文章的行为去衡量账号的有效性和权威性,进行第一批优质账号的挖掘。
其次,图嵌入模型训练和识别,即通过用户针对账号所发表文章的行为数据,涉及阅读、点赞、转发、评论等行为,以此构建以用户、账号为节点的行为数据图,并基于该行为数据图,对初始的图嵌入模型加以训练,从而基于完成模型训练的图嵌入模型,得到该行为数据图中每个节点的Embedding向量表示,亦即是用户/账号的向量特征。
最后,利用该行为数据图中每个节点的向量特征,一方面,针对用户集合中的用户,进行相似的优质用户的扩散,以此更新相关的行为数据,以进一步地更新行为数据图,充分地保障了优质账号识别的完备性。
另一方面,针对用户集合中用户相关的账号,进行相似的优质账号的扩散,以挖掘出第二批优质账号,并结合第一批优质账号,作为最终结果输出。
由此,推荐的文章,便能够基于输出的优质账号进行筛选,过滤非优质账号所发表的相关文章,从而保证向用户推荐的相关文章的头部内容足够优质,以此有效地提高用户的搜索体验。
在本应用场景中,一方面,相较于传统识别方法可识别优质账号1.8w个,本识别方法可识别优质账号9.6w个,充分地利用了用户与账号之间海量的行为数据,通过以此构建地行为关系链,使得识别覆盖范围更广,从而能够从普通账号中扩散得到更多的优质账号,供“搜一搜”使用。
当然,微信也可构建视频观看场景“看一看”,具体过程同理于上述识别方式,区别在于向用户推荐优质账号发布的视频,此处不再重复赘述。
另一方面,相较于传统识别方法,通过图嵌入模型,不仅能够召回更多的大众优质账号,而且能够召回传统识别方法不容易识别出的更多的小众优质账号。
具体地:(1)外部榜单校验:本识别方法:新榜榜单覆盖率98.2%(491/500);清博数据覆盖率100%(100/100);西瓜数据覆盖率92%(851/930);传统识别方法:新榜榜单覆盖率为56.8%(284/500);清博数据覆盖率64%(64/100);西瓜数据覆盖率33.9%(316/930)。
(2)优质公众号:本识别方法:覆盖率92.4%(1200/1299);传统识别方法:覆盖率90.22%(1172/1299)。
(3)推荐账号等级校验:本识别方法:对推荐5、6级账号覆盖率73%(1w3/1w8);未覆盖的5k账号中,其中3.7k的账号为已迁移账号、长时间未发文账号;6级账号共1446个,除238个已迁移与未发文账号外,覆盖率100%。
(4)本识别方法识别出的9.6w个优质账号,人工评测低质率低至2.2%。
从以上覆盖率可以看出,本识别方法所识别的优质账号已覆盖各个外部榜单90%以上,以此证明本识别方法所识别出的优质账号具有较强的完备性,既大幅度地节省了人力成本,且大幅度地扩展了优质账号的数量;并且能够有效地通过行为数据的不断更新,剔除长时间未发文、已迁移的优质账号;从低质率2.2%表明,本识别方法具有识别精度高、误判低等优势。
下述为本申请装置实施例,可以用于执行本申请所涉及的目标对象识别方法。对于本申请装置实施例中未披露的细节,请参照本申请所涉及的目标对象识别方法的方法实施例。
请参阅图19,本申请实施例中提供了一种目标对象识别装置900,包括但不限于:用户分类模块910、数据获取模块930、特征提取模块950以及对象扩散模块970。
其中,用户分类模块910,用于基于用户集合中的用户,确定目标用户集合。
数据获取模块930,用于获取目标用户集合中目标用户关于对象的行为数据,并根据目标用户关于对象的行为数据,进行对象的质量识别,生成高质量对象集合。
特征提取模块950,用于通过图嵌入模型对行为数据图中的对象进行向量特征提取,得到对象的向量特征,行为数据图是根据用户集合中用户关于对象的行为数据构建的。
对象扩散模块970,用于根据对象的向量特征,对高质量对象集合进行关于高质量对象的扩散,得到目标对象集合。
需要说明的是,上述实施例所提供的目标对象识别装置在进行目标对象识别时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即目标对象识别装置的内部结构将划分为不同的功能模块,以完成以上描述的全部或者部分功能。
另外,上述实施例所提供的目标对象识别装置与目标对象识别方法的实施例属于同一构思,其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。
由此,在高质量对象集合已生成的前提下,利用用户关于对象的行为数据构建行为数据图,扩散更多的高质量对象,以形成目标对象集合,由于行为数据图充分体现了用户与对象之间的行为关系链,不仅考虑了用户本身的差异性,而且考虑了不同用户对同一个对象的影响力,使得目标对象的覆盖范围更广,从而能够有效地解决相关技术中存在的目标对象识别的准确率不高的问题。
图20根据一示例性实施例示出的一种服务器的结构示意。该服务器适用于图1所示出实施环境中的服务器200。
需要说明的是,该服务器只是一个适配于本申请的示例,不能认为是提供了对本申请的使用范围的任何限制。该服务器也不能解释为需要依赖于或者必须具有图20示出的示例性的服务器2000中的一个或者多个组件。
服务器2000的硬件结构可因配置或者性能的不同而产生较大的差异,如图20所示,服务器2000包括:电源210、接口230、至少一存储器250、以及至少一中央处理器(CPU,Central Processing Units)270。
具体地,电源210用于为服务器2000上的各硬件设备提供工作电压。
接口230包括至少一有线或无线网络接口,用于与外部设备交互。例如,进行图1所示出实施环境中终端100与服务器200之间的交互。
当然,在其余本申请适配的示例中,接口230还可以进一步包括至少一串并转换接口233、至少一输入输出接口235以及至少一USB接口237等,如图20所示,在此并非对此构成具体限定。
存储器250作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源包括操作系统251、应用程序253及数据255等,存储方式可以是短暂存储或者永久存储。
其中,操作系统251用于管理与控制服务器200上的各硬件设备以及应用程序253,以实现中央处理器270对存储器250中海量数据255的运算与处理,其可以是WindowsServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM等。
应用程序253是基于操作系统251之上完成至少一项特定工作的计算机程序,其可以包括至少一模块(图20未示出),每个模块都可以分别包含有对服务器2000的计算机程序。例如,数据检测装置可视为部署于服务器2000的应用程序253。
数据255可以是存储于磁盘中的照片、图片等,还可以是行为数据等等,存储于存储器250中。
中央处理器270可以包括一个或多个以上的处理器,并设置为通过至少一通信总线与存储器250通信,以读取存储器250中存储的计算机程序,进而实现对存储器250中海量数据255的运算与处理。例如,通过中央处理器270读取存储器250中存储的一系列计算机程序的形式来完成目标对象识别方法。
此外,通过硬件电路或者硬件电路结合软件也能同样实现本申请,因此,实现本申请并不限于任何特定硬件电路、软件以及两者的组合。
请参阅图21,本申请实施例中提供了一种电子设备4000,例如,该电子设备400可以包括:服务器。
在图21中,该电子设备4000包括至少一个处理器4001、至少一条通信总线4002以及至少一个存储器4003。
其中,处理器4001和存储器4003相连,如通过通信总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
通信总线4002可包括一通路,在上述组件之间传送信息。通信总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。通信总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图21中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器4003上存储有计算机程序,处理器4001通过通信总线4002读取存储器4003中存储的计算机程序。
该计算机程序被处理器4001执行时实现上述各实施例中的目标对象识别方法。
此外,本申请实施例中提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述各实施例中的目标对象识别方法。
本申请实施例中还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在存储介质中。计算机设备的处理器从存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述各实施例中的目标对象识别方法。
与相关技术相比,在高质量对象集合已生成的前提下,利用用户关于对象的行为数据构建行为数据图,扩散更多的高质量对象,以形成目标对象集合,由于行为数据图充分体现了用户与对象之间的行为关系链,不仅考虑了用户本身的差异性,而且考虑了不同用户对同一个对象的影响力,使得目标对象的覆盖范围更广,从而能够有效地解决相关技术中存在的目标对象识别的准确率不高的问题。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (13)

1.一种目标对象识别方法,其特征在于,包括:
基于用户集合中的用户,确定目标用户集合;
获取所述目标用户集合中目标用户关于对象的行为数据,并根据所述目标用户关于所述对象的行为数据,进行所述对象的质量识别,生成高质量对象集合;
通过图嵌入模型对行为数据图中的对象进行向量特征提取,得到所述对象的向量特征,所述行为数据图是根据所述用户集合中用户关于所述对象的行为数据构建的;
根据所述对象的向量特征,对所述高质量对象集合进行关于高质量对象的扩散,得到目标对象集合;
所述图嵌入模型包括完成模型训练的节点向量化子模型和词向量子模型;
所述通过图嵌入模型对行为数据图中的对象进行向量特征提取,得到所述对象的向量特征,包括:
基于所述节点向量化子模型,以所述行为数据图中的每一个节点作为起始节点进行随机游走,得到每一个所述节点对应的节点序列,所述节点用于标识所述行为数据图中的用户或对象;
将所述行为数据图中各所述节点对应的节点序列输入所述词向量子模型,得到各所述节点的向量特征,所述节点的向量特征包括所述用户的向量特征或所述对象的向量特征;
所述根据所述对象的向量特征,对所述高质量对象集合进行关于高质量对象的扩散,得到目标对象集合,包括:
根据所述对象的向量特征、以及所述高质量对象集合中每一个高质量对象的向量特征,分别计算所述对象与每一个所述高质量对象的相似度;
根据所述对象与每一个所述高质量对象的相似度,对所述对象进行评分,得到所述对象的第二相似分数;
基于所述对象的第二相似分数进行高质量对象的扩散,由扩散的高质量对象和所述高质量对象集合中的高质量对象,生成所述目标对象集合。
2.如权利要求1所述的方法,其特征在于,所述基于用户集合中的用户,确定目标用户集合,包括:
基于用户分类模型,对所述用户集合中的用户进行分类预测,得到所述目标用户集合。
3.如权利要求1所述的方法,其特征在于,所述根据所述目标用户关于所述对象的行为数据,进行所述对象的质量识别,生成高质量对象集合,包括:
基于所述目标用户关于所述对象的行为数据,确定所述行为数据的类型;
根据所述行为数据的类型,对所述对象进行评分,得到所述对象的质量分数;
根据所述对象的质量分数选取高质量对象,生成所述高质量对象集合。
4.如权利要求1所述的方法,其特征在于,所述基于所述节点向量化子模型,以所述行为数据图中的每一个节点作为起始节点进行随机游走,得到每一个所述节点对应的节点序列,包括:
对所述行为数据图中的每一个所述节点执行遍历步骤:
将遍历到的所述节点作为所述起始节点,基于所述节点向量化子模型,在所述行为数据图中确定所述起始节点的跳转节点;
由所述起始节点和所确定的跳转节点,形成遍历到的所述节点对应的节点序列;
重复执行所述遍历步骤,当所述遍历步骤完成,得到每一个所述节点对应的节点序列。
5.如权利要求4所述的方法,其特征在于,所述基于所述节点向量化子模型,在所述行为数据图中确定所述起始节点的跳转节点,包括:
计算所述起始节点跳转至所述行为数据图中其余节点的跳转概率;
基于所述起始节点与所述其余节点之间的跳转概率,确定第一个所述跳转节点;
如果停止跳转条件不满足,则计算第一个所述跳转节点跳转至所述行为数据图中其余节点的跳转概率;
基于第一个所述跳转节点与所述其余节点之间的跳转概率,确定第二个所述跳转节点;
直至所述停止跳转条件满足,停止所述跳转节点的确定。
6.如权利要求5所述的方法,其特征在于,所述计算第一个所述跳转节点跳转至所述行为数据图中其余节点的跳转概率,包括:
确定所述起始节点与所述其余节点之间的最短路径距离,以及确定所述行为数据图中连接所述第一个跳转节点与所述其余节点的路径对应的权重;
根据所确定的最短路径距离、以及返回参数和进出参数,确定所述第一个跳转节点随机游走至所述其余节点的游走概率;
根据所确定的权重和游走概率,计算得到所述第一个跳转节点跳转至所述其余节点的跳转概率。
7.如权利要求1所述的方法,其特征在于,所述通过图嵌入模型对行为数据图中的对象进行向量特征提取,得到所述对象的向量特征之前,所述方法还包括:
获取所述用户集合中用户关于所述对象的行为数据,并根据获取到的行为数据构建所述行为数据图;
以所述行为数据图作为第二训练样本,对初始的图嵌入模型进行训练;
当模型训练完成,得到包含完成模型训练的节点向量化子模型和词向量子模型的图嵌入模型。
8.如权利要求7所述的方法,其特征在于,所述根据获取到的行为数据构建所述行为数据图,包括:
以所述用户集合中的用户作为第一节点,并以所述用户相关的对象作为第二节点;
在所述第一节点与所述第二节点之间构建一条路径;
基于所述用户关于所述对象的行为数据,确定所述路径对应的权重,形成关于所述用户及其相关对象的所述行为数据图。
9.如权利要求7所述的方法,其特征在于,所述根据获取到的行为数据构建所述行为数据图之后,所述方法还包括:
根据所述用户的向量特征,更新所述目标用户集合;
基于更新的所述目标用户集合中所述目标用户关于所述对象的行为数据,更新所述行为数据图;
其中,所述用户的向量特征,是通过所述图嵌入模型对所述行为数据图中的所述用户进行向量特征提取得到。
10.如权利要求9所述的方法,其特征在于,所述根据所述用户的向量特征,更新所述目标用户集合,包括:
根据所述用户的向量特征、以及所述目标用户集合中每一个目标用户的向量特征,分别计算所述用户与每一个所述目标用户的相似度;
根据所述用户与每一个所述目标用户的相似度,对所述用户进行评分,得到所述用户的第一相似分数;
基于所述用户的第一相似分数,从所述用户集合中选取所述目标用户,添加至所述目标用户集合。
11.一种信息推荐方法,其特征在于,包括:
获取搜索关键词;
在候选信息库中搜索与所述搜索关键词相匹配的候选信息,并确定与搜索到的候选信息相关联的对象;
基于所确定对象是否属于目标对象集合的检测结果,对搜索到的候选信息进行筛选,得到信息搜索结果,所述目标对象集合是根据权利要求1至10中任一项所述的目标对象识别方法得到的;
进行关于所述信息搜索结果的推荐。
12.一种目标对象识别装置,其特征在于,包括:
用户分类模块,用于基于用户集合中的用户,确定目标用户集合;
数据获取模块,用于获取所述目标用户集合中目标用户关于对象的行为数据,并根据所述目标用户关于所述对象的行为数据,进行所述对象的质量识别,生成高质量对象集合;
特征提取模块,用于通过图嵌入模型对行为数据图中的对象进行向量特征提取,得到所述对象的向量特征,所述行为数据图是根据所述用户集合中用户关于所述对象的行为数据构建的;
对象扩散模块,用于根据所述对象的向量特征,对所述高质量对象集合进行关于高质量对象的扩散,得到目标对象集合;
所述图嵌入模型包括完成模型训练的节点向量化子模型和词向量子模型;
所述特征提取模块在用于通过图嵌入模型对行为数据图中的对象进行向量特征提取,得到所述对象的向量特征时,具体用于:
基于所述节点向量化子模型,以所述行为数据图中的每一个节点作为起始节点进行随机游走,得到每一个所述节点对应的节点序列,所述节点用于标识所述行为数据图中的用户或对象;
将所述行为数据图中各所述节点对应的节点序列输入所述词向量子模型,得到各所述节点的向量特征,所述节点的向量特征包括所述用户的向量特征或所述对象的向量特征;
所述对象扩散模块在用于根据所述对象的向量特征,对所述高质量对象集合进行关于高质量对象的扩散,得到目标对象集合时,具体用于:
根据所述对象的向量特征、以及所述高质量对象集合中每一个高质量对象的向量特征,分别计算所述对象与每一个所述高质量对象的相似度;
根据所述对象与每一个所述高质量对象的相似度,对所述对象进行评分,得到所述对象的第二相似分数;
基于所述对象的第二相似分数进行高质量对象的扩散,由扩散的高质量对象和所述高质量对象集合中的高质量对象,生成所述目标对象集合。
13.一种电子设备,其特征在于,包括:至少一个处理器、至少一个存储器、以及至少一条通信总线,其中,
所述存储器上存储有计算机程序,所述处理器通过所述通信总线读取所述存储器中的所述计算机程序;
所述计算机程序被所述处理器执行时实现权利要求1至10中任一项所述的目标对象识别方法或权利要求11所述的信息推荐方法。
CN202110203638.5A 2021-02-23 2021-02-23 目标对象识别方法、信息推荐方法、装置、设备及介质 Active CN112989169B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110203638.5A CN112989169B (zh) 2021-02-23 2021-02-23 目标对象识别方法、信息推荐方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110203638.5A CN112989169B (zh) 2021-02-23 2021-02-23 目标对象识别方法、信息推荐方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN112989169A CN112989169A (zh) 2021-06-18
CN112989169B true CN112989169B (zh) 2023-07-25

Family

ID=76349863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110203638.5A Active CN112989169B (zh) 2021-02-23 2021-02-23 目标对象识别方法、信息推荐方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN112989169B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115905670A (zh) * 2021-08-20 2023-04-04 腾讯科技(深圳)有限公司 内容推荐方法、装置、设备及可读存储介质
CN113704566B (zh) * 2021-10-29 2022-01-18 贝壳技术有限公司 识别号主体识别方法、存储介质和电子设备
CN114155049B (zh) * 2022-02-08 2022-05-17 北京金堤科技有限公司 一种确定目标对象的方法和装置
CN115293861A (zh) * 2022-10-09 2022-11-04 连连银通电子支付有限公司 一种商品识别方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598847A (zh) * 2019-08-15 2019-12-20 阿里巴巴集团控股有限公司 处理交互序列数据的方法及装置
CN111444334A (zh) * 2019-01-16 2020-07-24 阿里巴巴集团控股有限公司 数据处理方法、文本识别方法、装置及计算机设备
CN111681059A (zh) * 2020-08-14 2020-09-18 支付宝(杭州)信息技术有限公司 行为预测模型的训练方法及装置
CN112035743A (zh) * 2020-08-28 2020-12-04 腾讯科技(深圳)有限公司 数据推荐方法、装置、计算机设备以及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10846614B2 (en) * 2017-03-16 2020-11-24 Facebook, Inc. Embeddings for feed and pages
US10970350B2 (en) * 2019-08-15 2021-04-06 Advanced New Technologies Co., Ltd. Method and apparatus for processing user interaction sequence data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444334A (zh) * 2019-01-16 2020-07-24 阿里巴巴集团控股有限公司 数据处理方法、文本识别方法、装置及计算机设备
CN110598847A (zh) * 2019-08-15 2019-12-20 阿里巴巴集团控股有限公司 处理交互序列数据的方法及装置
CN111681059A (zh) * 2020-08-14 2020-09-18 支付宝(杭州)信息技术有限公司 行为预测模型的训练方法及装置
CN112035743A (zh) * 2020-08-28 2020-12-04 腾讯科技(深圳)有限公司 数据推荐方法、装置、计算机设备以及存储介质

Also Published As

Publication number Publication date
CN112989169A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN112989169B (zh) 目标对象识别方法、信息推荐方法、装置、设备及介质
CN111061946B (zh) 场景化内容推荐方法、装置、电子设备及存储介质
CN109919316B (zh) 获取网络表示学习向量的方法、装置和设备及存储介质
CN108804633B (zh) 基于行为语义知识网络的内容推荐方法
CN110837598B (zh) 信息推荐方法、装置、设备及存储介质
CN107833117B (zh) 一种考虑标签信息的贝叶斯个性化排序推荐方法
CN108959323B (zh) 视频分类方法和装置
CN112507246B (zh) 一种融合全局和局部社会兴趣影响的社会推荐方法
Khan et al. Collaborative filtering based online recommendation systems: A survey
CN113569129A (zh) 点击率预测模型处理方法、内容推荐方法、装置及设备
US11947616B2 (en) Systems and methods for implementing session cookies for content selection
CN113656699B (zh) 用户特征向量确定方法、相关设备及介质
CN116823410B (zh) 数据处理方法、对象处理方法、推荐方法及计算设备
CN112989182A (zh) 信息处理方法、装置、信息处理设备及存储介质
CN114817692A (zh) 确定推荐对象的方法、装置和设备及计算机存储介质
CN117251586A (zh) 多媒体资源推荐方法、装置及存储介质
CN110928920B (zh) 一种基于改进位置社交的知识推荐方法、系统及存储介质
KR102323424B1 (ko) 관측평점과 유사도 그래프를 활용한 추천 알고리즘의 평점 예측 방법
CN111460300A (zh) 网络内容推送方法、装置及存储介质
CN116628310B (zh) 内容的推荐方法、装置、设备、介质及计算机程序产品
CN117786234B (zh) 一种基于两阶段对比学习的多模态资源推荐方法
Ugli et al. Movie Recommendation System Using Community Detection Based on the Girvan–Newman Algorithm
Gu et al. Key analysis of smart tourism project setting and tourists' satisfaction degree based on data mining
Kaple Influence Detection And Spread Estimation in Social Networks
Kaple SJSU ScholarWorks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40045973

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant