CN108304526B - 一种数据处理方法、装置及服务器 - Google Patents

一种数据处理方法、装置及服务器 Download PDF

Info

Publication number
CN108304526B
CN108304526B CN201810074460.7A CN201810074460A CN108304526B CN 108304526 B CN108304526 B CN 108304526B CN 201810074460 A CN201810074460 A CN 201810074460A CN 108304526 B CN108304526 B CN 108304526B
Authority
CN
China
Prior art keywords
target user
vector
model
data
search word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810074460.7A
Other languages
English (en)
Other versions
CN108304526A (zh
Inventor
黎新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810074460.7A priority Critical patent/CN108304526B/zh
Publication of CN108304526A publication Critical patent/CN108304526A/zh
Application granted granted Critical
Publication of CN108304526B publication Critical patent/CN108304526B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Abstract

本发明实施例提供了一种数据处理方法、装置及服务器,其中方法包括:获取目标用户的历史行为数据和关系网络数据;利用行为分析模型对所述历史行为数据进行建模处理,得到所述目标用户的兴趣特征向量;利用关系分析模型对所述关系网络数据进行建模处理,得到所述目标用户的关系特征向量;对所述兴趣特征向量和所述关系特征向量进行融合处理,生成所述目标用户的描述向量。通过本发明实施例可以提高对用户进行描述时的完整度和准确度。

Description

一种数据处理方法、装置及服务器
技术领域
本发明涉及互联网技术领域,尤其涉及一种数据处理方法、装置及服务器。
背景技术
用户建模对互联网产品有着非常重要的作用,一方面可以帮助互联网产品运营提升对用户群体的理解,例如用户的年龄和性别的构成,职业和学历的分布等,另一方面还可以根据用户的属性、兴趣信息为用户提供个性化服务。例如,利用用户的搜索数据(query),挖掘用户的兴趣已经在搜索引擎平台、电商平台、社交平台等上面有所应用。目前主要是基于关键词词频向量来描述用户的兴趣,然而由于关键词词频向量包含的是各个关键字及其出现的次数这两方面信息,且关键字之间是孤立的,无法体现关键词之间的语义相关性,导致对用户的描述比较单一,不够深入,准确度较低。
发明内容
本发明实施例提供了一种数据处理方法、装置及服务器,可以提高对用户进行描述时的完整度和准确度。
本发明实施例第一方面提供了一种数据处理方法,包括:
获取目标用户的历史行为数据和关系网络数据。
利用行为分析模型对所述历史行为数据进行建模处理,得到所述目标用户的兴趣特征向量。
利用关系分析模型对所述关系网络数据进行建模处理,得到所述目标用户的关系特征向量。
对所述兴趣特征向量和所述关系特征向量进行融合处理,生成所述目标用户的描述向量。
本发明实施例第二方面提供了一种数据处理装置,包括:
获取单元,用于获取目标用户的历史行为数据和关系网络数据。
处理单元,用于利用行为分析模型对所述历史行为数据进行建模处理,得到所述目标用户的兴趣特征向量。
所述处理单元,还用于利用关系分析模型对所述关系网络数据进行建模处理,得到所述目标用户的关系特征向量。
生成单元,用于对所述兴趣特征向量和所述关系特征向进行融合处理,生成所述目标用户的描述向量。
本发明实施例第三方面提供了一种服务器,包括:处理器、网络接口和存储器,所述存储器存储有可执行程序代码,所述网络接口受所述处理器的控制用于收发消息,所述处理器用于调用所述可执行程序代码,执行上述第一方面所述的数据处理方法。
本发明实施例第四方面提供了一种存储介质,所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的数据处理方法。
本发明实施例第五方面提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的数据处理方法。
通过本发明实施例可以获取目标用户的历史行为数据和关系网络数据,利用行为分析模型对该历史行为数据进行建模处理,得到该目标用户的兴趣特征向量,以及利用关系分析模型对该关系网络数据进行建模处理,得到该目标用户的关系特征向量,进而对该兴趣特征向量和该关系特征向量进行融合处理,生成该目标用户的描述向量,可见,得到的用户描述向量既包括了兴趣特征,又包括了关系特征,从而可以提高对用户进行描述时的完整度和准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种内容推荐的应用场景示意图;
图2是本发明实施例提供的一种数据处理方法的流程示意图;
图3是本发明实施例提供的另一种数据处理方法的流程示意图;
图4是本发明实施例提供的一种用户模型挖掘系统框架示意图;
图5是本发明实施例提供的一种数据处理装置的结构示意图;
图6是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,为本发明实施例提供的一种内容推荐的应用场景示意图。图1所示的应用场景中,内容推荐主要包括离线过程和在线应用两方面。
离线过程对应于用户描述向量的建立,互联网平台可以包括社交平台、电商平台、搜索平台、学术平台等,服务器可以从这些互联网平台中收集用户的行为日志,行为日志可以包括搜索行为日志(log)和交互行为log,搜索行为log具体可以是指用户在过去一段时间内提交的搜索数据(query),query通常是与用户的兴趣或者需求相关。交互行为log具体可以是指用户在过去一段时间内与其他用户之间的交互情况,包括聊天次数、聊天时长、点赞次数、评论次数、发红包次数、发表情次数等。
其中,用户的兴趣是指用户在日常生活中对认知事物或者从事活动时的心理倾向,例如,相对于玩单机游戏,用户更倾向于玩网络游戏,则用户对网络游戏的相关消息的关注会比较多;用户的需求是指用户在日常生活中为解决遇到的问题所要寻求的帮助,例如,用户在撰写毕业论文时去网上查找所需的资料。
对于搜索行为log,服务器可以利用模块1对query序列进行建模,得到用户的兴趣特征向量。对于交互行为log,服务器可以根据交互行为log进行网络构造,得到用户的关系网络数据,进而利用模块2的网络嵌入(Network Embedding)方法对关系网络数据建模,得到用户的关系特征向量。服务器再利用模块3的全连接神经网络将兴趣特征向量和关系特征向量进行融合,从而得到用户的描述向量。
在线应用对应于根据离线过程的结果进行内容推荐,服务器可以将得到的用户的描述向量更新到线上的用户描述模型,从而广告或者推荐系统可以读取最新的用户描述模型,以获取到用户最新的描述向量,从而根据描述向量可以计算用户之间的相似度,根据相似度进行协同过滤,从而为用户生成新的推荐列表,推荐列表例如可以包括向用户推荐的商品、文章、人物等,由于用户的描述向量既包括了兴趣特征,又包括了关系特征,从而可以结合其他用户的兴趣特征对当前用户进行兴趣特征的深度挖掘,提高了对用户进行描述时的完整度和准确度,进而提高了进行内容推荐时的准确度。
请参阅图2,为本发明实施例提供的一种数据处理方法的流程示意图。本实施例中所描述的数据处理方法,包括:
201、服务器获取目标用户的历史行为数据和关系网络数据。
具体实现中,服务器可以从互联网平台处获取互联网平台记录的目标用户在过去一段时间内(例如1个月内)的行为日志,通过对行为日志进行解析可以得到目标用户的历史行为数据和关系网络数据。
其中,历史行为数据可以包括目标用户进行搜索行为时提交的搜索词,目标用户的搜索行为例如可以包括搜索平台的网页搜索、电商平台的商品搜索、社交平台信息搜索等等,历史行为数据体现了目标用户的兴趣或者需求。
在一些可行的实施方式中,历史行为数据还可以包括目标用户发布的评论、文章、个人动态等,即能够体现目标用户的兴趣或者需求的数据都可以考虑作为该目标用户的历史行为数据。
在一些可行的实施方式中,历史行为数据还可以包括目标用户的交互行为数据,即服务器可以先获取目标用户的历史行为数据,再根据历史行为数据中包括的交互行为数据对目标用户的交互行为进行分析,获取与其他用户之间的聊天、点赞、评论等互动情况,进而得到目标用户的关系网络数据,关系网络数据体现了目标用户在关系网络中所处的位置和重要程度等信息。
需要说明的是,关系网络数据指的是互联网平台用户之间通过各种交互关系而形成的社交关系数据,并不只是限于社交平台的好友关系数据,在其它领域,例如学术领域通过论文互相引用、阅读平台的相互点赞、评论关系等数据,也可以作为关系网络数据。
202、所述服务器利用行为分析模型对所述历史行为数据进行建模处理,得到所述目标用户的兴趣特征向量。
其中,行为分析模型具体可以是循环神经网络(Recurrent Neural Network,RNN)模型。
具体实现中,服务器将历史行为数据输入RNN模型中进行建模处理,从而得到目标用户的兴趣特征向量,该兴趣特征向量为实数向量,使得目标用户与其他用户之间的兴趣特征具有可比较性。
203、所述服务器利用关系分析模型对所述关系网络数据进行建模处理,得到所述目标用户的关系特征向量。
其中,关系分析模型具体可以是词向量(word2vec)模型。
具体实现中,服务器可以利用词向量模型的训练方法对关系网络数据进行训练,从而得到目标用户的关系特征向量,该关系特征向量也为实数向量,使得目标用户与其他用户之间的关系特征(包括在关系网络中所处的位置和重要程度等)具有可比较性。
204、所述服务器对所述兴趣特征向量和所述关系特征向量进行融合处理,生成所述目标用户的描述向量。
具体实现中,服务器可以将兴趣特征向量和关系特征向量融合成一个向量,可以先将兴趣特征向量和关系特征向量进行拼接处理,得到一个拼接向量,再将拼接向量输入全连接神经网络模型,从而输出得到目标用户的描述向量,该描述向量也是实数向量,使得目标用户与其他用户之间的描述向量具有可比较性,该描述向量既描述了目标用户的兴趣特征,又描述了目标用户的关系特征,从而具备强大、完整、准确的描述能力。
本发明实施例中,服务器可以获取目标用户的历史行为数据和关系网络数据,利用行为分析模型对该历史行为数据进行建模处理,得到该目标用户的兴趣特征向量,以及利用关系分析模型对该关系网络数据进行建模处理,得到该目标用户的关系特征向量,进而对该兴趣特征向量和该关系特征向量进行融合处理,生成该目标用户的描述向量,可见,得到的用户描述向量既包括了兴趣特征,又包括了关系特征,从而可以提高对用户进行描述时的完整度和准确度。
在一些可行的实施方式中,本实施例中所描述的数据处理方法还可以包括以下步骤:
205、所述服务器利用所述目标用户的描述向量更新所述目标用户的描述模型,所述描述模型用于为所述目标用户确定推荐内容或者计算所述目标用户与其他用户之间的相似度。
具体实现中,服务器可以将得到的目标用户的描述向量更新到线上的目标用户的描述模型,从而广告或者推荐系统可以读取最新的目标用户的描述模型,以获取到目标用户最新的描述向量,从而根据描述向量可以计算目标用户与其他用户之间的相似度,还可以进一步根据相似度进行协同过滤,从而为目标用户生成新的推荐列表,推荐列表例如可以包括向目标用户推荐的商品、文章、人物等,由于目标用户的描述向量既包括了兴趣特征,又包括了关系特征,从而可以结合其他用户的兴趣特征对目标用户进行兴趣特征的深度挖掘,提高了对目标用户进行描述时的完整度和准确度,进而提高了进行内容推荐时的准确度。
请参阅图3,为本发明实施例提供的另一种数据处理方法的流程示意图。本实施例中所描述的数据处理方法,包括:
301、服务器获取目标用户的历史行为数据和关系网络数据。
其中,步骤301的具体实现方式可以参见上面实施例中的步骤201,此处不再赘述。
其中,本实施例中的历史行为数据具体可以是序列数据,包括目标用户提交的搜索词组成的搜索词序列。
302、所述服务器将搜索词序列划分成多个搜索词子序列。
具体实现中,考虑到RNN模型在处理较长的序列数据时会存在信息丢失的情况,服务器可以将目标用户的搜索词序列进行划分,得到多个搜索词子序列,使得RNN模型处理的序列数据的长度大大减小。服务器可以利用训练好的会话划分模型对搜索词序列进行划分,获取搜索词序列包括的搜索词中属于同一个会话(session)的搜索词,属于同一个会话是指这些搜索词之间的提交时间比较接近,具有语义相关性,属于目标用户的同一次搜索行为,从而将属于同一个会话的搜索词作为一个搜索词子序列,进而得到目标用户的多个会话对应的多个搜索词子序列。
在一些可行的实施方式中,服务器可以利用训练数据对会话划分模型进行训练,训练数据包括有多个用户(例如随机选取的1000个用户)的历史行为数据,以历史行为数据为query序列为例,可以先通过人工标注的方式标注出各个会话划分点,再提取出每个会话划分点左右两侧的query的特征,进而利用每个会话划分点左右两侧的query的特征,采用支持向量机(Support Vector Machine,SVM)模型对会话划分模型进行训练。
其中,会话划分点左右两侧的query的特征可以如表1所示:
表1
特征 特征解释
query_left_count 左侧的query数量
query_right_count 右侧的query数量
query_left_avg_length 左侧的query平均长度
query_right_avg_length 右侧的query平均长度
common_keywords_count 左右两侧相同关键词的数量
query_submit_time_interval 左右两侧query递交的时间差
需要说明的是,本发明实施例是将session划分问题转化成了分类问题,即可以对每对相邻query插入一个分隔符号y,如果y=1,则表示这个位置是会话划分点,如果y=0,则表示这个位置不是会话划分点。会话划分模型对应的分类模型函数可以记为f(q-2,q-1,q1,q2)=y,其中,y=1或0,q-2,q-1分别是当前位置前面的第2个、第1个query,q1,q2是当前位置后面的第1个、第2个query,也就是说,可以根据当前位置的前后query来判断该位置是否为会话划分点。
303、所述服务器将所述多个搜索词子序列分别输入第一循环神经网络模型进行建模处理,得到所述多个搜索词子序列对应的多个中间向量。
304、所述服务器将所述多个中间向量输入第二循环神经网络模型进行建模处理,得到所述目标用户的兴趣特征向量。
具体实现中,服务器可以采用层次的RNN模型对搜索词序列进行建模处理,以减少搜索词序列的信息损失,可以先将多个搜索词子序列分别输入第一层RNN模型(记为第一RNN模型)进行建模处理,得到每一个搜索词子序列对应的中间向量,从而得到多个中间向量。
进一步地,服务器再将该多个中间向量输入第二层RNN模型(记为第二RNN模型)进行建模处理,从而得到目标用户的兴趣特征向量。
在一些可行的实施方式中,第二RNN模型可以采用基于注意力(attention)机制的RNN模型,从而在训练过程中,能够记录下中间序列对于目标输出的不同权重,从而使得获取的输出向量,能够包含输入不同位置的不同重要程度的信息。
在一些可行的实施方式中,服务器可以先利用词向量模型将多个搜索词子序列中的每一个搜索词子序列转换成对应的实数描述向量,具体是服务器对搜索词子序列的每个搜索词到词向量模型中进行查找,如果存在,则转换成固定维度的实数描述向量(例如200维),如果不存在,则可以用默认的随机实数向量作为相应的搜索词的实数描述向量,从而得到多个实数描述向量,再将多个实数描述向量分别输入第一RNN模型进行建模处理,从而得到多个搜索词子序列对应的多个中间向量。
其中,服务器对于词向量模型的训练方式可以是:将每个会话对应的搜索词子序列作为文档,每条搜索词作为文档的词,用word2vec的训练方法训练得到搜索词序列的词向量模型。
305、所述服务器利用所述关系网络数据,获取所述目标用户在关系网络中对应的目标节点与其它节点之间的关系边权重。
具体实现中,服务器可以根据关系网络数据获取目标用户在关系网络中对应的目标节点,然后再计算目标节点与其它节点之间的关系边权重,关系边权重指示的是目标用户与其他用户之间的关系紧密程度,关系紧密的用户之间在兴趣特征上有较大可能的相似。
在一些可行的实施方式中,关系边权重的计算方式可以如下:
其中,假设用户i、j在互联网平台上的交互关系类型集合为Rels={r1,r2,…,rn},每种类型对应的关系边的权重分别为Weights={w1,w2,…,wn},则用户i、j之间关系边权重Wij为:
Figure BDA0001559102530000081
例如,用户A、B在互联网平台上,发生过的交互关系包括:发消息、互相点赞、互相评论、发红包、发表情、转发文章等行为,分别计算每种行为的月平均次数,再分别乘以每种行为的权重因子,最后除以一个规范化因子Z,即可得到用户A、B之间的关系边权重。
306、所述服务器根据所述关系边权重对所述其它节点进行采样,得到所述目标节点的邻居节点。
具体实现中,服务器可以采用节点向量(node2vec)的采样方法,根据关系边权重对关系网络中除目标节点之外的其他节点进行随机游走(Random Walk)采样,得到目标节点的邻居节点,与目标用户对应的目标节点之间的关系边权重越大,则相应的节点被采样的概率越高。可见,对目标用户而言,仅选择目标用户的部分好友而不是全部好友都进行采样,相当于在关系网络中,选择了一个基于紧密关系的子关系网络,一方面可以缩小网络的规模,提高采样和模型训练的速度,另一方面,基于紧密关系的子网络能有效避免噪音节点的影响。
307、所述服务器利用词向量模型的训练方法对所述目标节点和所述邻居节点进行训练,得到所述目标用户的关系特征向量。
具体实现中,服务器采样得到目标用户对应的目标节点的邻居节点后,可以将目标节点和邻居节点组成类似于词向量训练过程中的“句子”,然后利用词向量模型的训练方法对这些“句子”进行训练,从而得到目标用户的关系特征向量,由于获取邻居节点时是根据关系边权重进行的,实现了不同用户的兴趣特征通过关系边进行有效的扩散,可以对兴趣特征较少的用户(例如新用户等)。进行强有力的补充,从而解决了对兴趣特征较少(即信息稀疏)的用户进行内容推荐时较为困难的问题,扩大了内容推荐的覆盖率和有效性。
例如,目标节点和邻居节点组成的“句子”可以表示如下:
“w11w12w13w14…”
“w21w22w23w24…”
其中,wij表示关系网络中的节点,出现在窗口(window=n,例如n=3)内的w,则是当前节点的上下文(即上述邻居节点),例如,w11w12w14就是是w13的上下文。
308、所述服务器对所述兴趣特征向量和所述关系特征向量进行融合处理,生成所述目标用户的描述向量。
其中,步骤308的具体实现方式可以参见上面实施例中的步骤204,此处不再赘述。
本发明实施例中,服务器获取目标用户的历史行为数据和关系网络数据,将历史行为数据包括的搜索词序列划分成多个搜索词子序列,将多个搜索词子序列分别输入第一循环神经网络模型进行建模处理,得到多个搜索词子序列对应的多个中间向量,再将多个中间向量输入第二循环神经网络模型进行建模处理,得到目标用户的兴趣特征向量。服务器利用关系网络数据,获取目标用户在关系网络中对应的目标节点与其它节点之间的关系边权重,再基于关系边权重对其它节点进行采样,从而得到目标节点的邻居节点,通过利用词向量模型的训练方法对目标节点和所述邻居节点进行训练,得到目标用户的关系特征向量,再对兴趣特征向量和关系特征向量进行融合处理,即可生成目标用户的描述向量,从而通过将搜索词序列进行拆分,并利用层次的RNN模型进行建模处理减少了信息丢失,在关系网络中根据关系边权重对节点进行采样,可以缩小网络的规模,提高采样和模型训练的速度,也避免了噪音节点的影响,进而提高了对目标用户进行描述时的完整度和准确度。此外,还可以使得不同用户的兴趣特征通过关系边进行有效的扩散,扩大了内容推荐时的覆盖率和有效性。
在一些可行的实施方式中,本发明实施例提供的用户模型挖掘系统框架可以如图4所示,一方面,对query序列{q1,q2,…,qn}按照session进行划分,得到多个query子序列{q11,q12,…,q1k},{q21,q22,…,q2k},…,{qn1,qn2,…,qnk},将划分得到的多个query子序列采用词嵌入(Word-Embedding)的方法(即上述词向量模型)得到每个query子序列对应的实数描述向量,再将实数描述向量输入第一层RNN模型(即RNN-1)得到中间向量e1,e2,…,en,再将中间向量e1,e2,…,en输入第二层RNN模型(即Attention-RNN)得到query序列描述向量C1(即上述兴趣特征向量)。
另一方面,对用户关系网络数据基于关系边权重进行随机游走(Random Walk)采样,获取到当前节点的邻居节点,如图4中所示的用户关系网络中的节点分布以及连接关系,利用关系边权重进行Random Walk采样后,可以得到各个节点的邻居节点,其中一种采样结果可以为:节点5的邻居节点为1、2、3、4,节点6的邻居节点为1、2、3、4、7,节点7的邻居节点为6、8、9、10,节点8的邻居节点为7,节点9的邻居节点为7,然后再通过Word2vec的训练方法对当前节点和邻居节点进行训练,得到节点嵌入Embedding向量C2(即上述关系特征向量),最后对C1和C2进行融合处理,具体的融合处理过程包括:先将C1和C2进行拼接(concat),再将拼接得到的向量输入全连接神经网络,进而完成对C1和C2的融合,全连接神经网络的输出(即C1和C2的融合结果)即为用户描述向量。
进一步地,获取到用户的描述向量后,可以向目标服务器发送该用户的描述向量,目标服务器例如可以是内容推荐服务器或者信息评估服务器等,目标服务器可以根据用户的描述向量为用户确定推荐内容,或者生成用户的个人特征信息等,具体可以应用到多种场景中,包括但不限于:
(1)用户之间的相似度计算,基于描述向量是实数向量,具有可比较性,目标服务器可以根据用户的描述向量方便地计算出不同用户之间的相似度,与其它用户之间的相似度可以作为用户的个人特征信息中的一种。
(2)用户推荐,目标服务器可以根据该用户与其他用户之间的相似度为该用户推荐兴趣相似的其他用户,便于用户快速地发现与自己兴趣相符的其他用户,有助于扩大用户的交友圈。
(3)基于协同过滤的商品推荐或者文章推荐,目标服务器可以先利用描述向量确定与该用户关系密切的其他用户,再结合该其他用户的描述向量中包含的兴趣特征对该用户进行兴趣特征的过滤筛选或者扩展,特别对兴趣特征较少的用户(例如新用户等),可以实现对该用户的兴趣特征的有效补充,结合其他用户的兴趣特征可以准确、有效地为该用户进行商品、文章等内容的推荐,扩大了推荐的覆盖率和有效性。
(4)个人信用信息的评估,目标服务器可以先利用描述向量确定与该用户关系密切的其他用户,再结合该其他用户的个人征信情况(例如个人信用评分或者评级)对该用户的个人信用信息进行辅助评估,以生成用户最新的个人信用信息,从而可以准确、全面地对用户的个人信用信息进行评估,生成的用户最新的个人信用信息可以作为用户的个人特征信息中的一种。
请参阅图5,为本发明实施例提供的一种数据处理装置的结构示意图。本实施例中所描述的数据处理装置,包括:
获取单元501,用于获取目标用户的历史行为数据和关系网络数据。
处理单元502,用于利用行为分析模型对所述历史行为数据进行建模处理,得到所述目标用户的兴趣特征向量。
所述处理单元502,还用于利用关系分析模型对所述关系网络数据进行建模处理,得到所述目标用户的关系特征向量。
生成单元503,用于对所述兴趣特征向量和所述关系特征向进行融合处理,生成所述目标用户的描述向量。
可选的,所述装置还包括:
更新单元504,用于利用所述目标用户的描述向量更新所述目标用户的描述模型,所述描述模型用于为所述目标用户确定推荐内容或者计算所述目标用户与其他用户之间的相似度。
可选的,所述装置还包括:
发送单元505,用于向目标服务器发送所述目标用户的描述向量,以使所述目标服务器根据所述目标用户的描述向量为所述目标用户确定推荐内容,或者生成所述目标用户的个人特征信息。
可选的,所述历史行为数据包括搜索词序列,所述行为分析模型包括第一循环神经网络模型和第二循环神经网络模型,所述处理单元502,具体用于:
将所述搜索词序列划分成多个搜索词子序列。
将所述多个搜索词子序列分别输入所述第一循环神经网络模型进行建模处理,得到所述多个搜索词子序列对应的多个中间向量。
将所述多个中间向量输入所述第二循环神经网络模型进行建模处理,得到所述目标用户的兴趣特征向量。
可选的,所述行为分析模型还包括词向量模型,所述处理单元502将所述多个搜索词子序列分别输入所述第一循环神经网络模型进行建模处理,得到所述多个搜索词子序列对应的多个中间向量的具体方式为:
利用所述词向量模型将所述多个搜索词子序列中的每一个搜索词子序列转换成实数描述向量,得到多个实数描述向量。
将所述多个实数描述向量分别输入所述第一循环神经网络模型进行建模处理,得到所述多个搜索词子序列对应的多个中间向量。
可选的,所述处理单元502将所述搜索词序列划分成多个搜索词子序列的具体方式为:
利用会话划分模型对所述搜索词序列进行划分,获取所述搜索词序列包括的搜索词中属于同一个会话的搜索词。
将所述属于同一个会话的搜索词作为一个搜索词子序列,得到多个会话对应的多个搜索词子序列。
可选的,所述装置还包括:训练单元506,其中:
所述获取单元501,还用于获取训练数据,所述训练数据包括多个用户的历史行为数据。
所述获取单元501,还用于获取人工标注的各个会话划分点。
所述获取单元501,还用于提取每个所述会话划分点两侧的历史行为数据的特征。
所述训练单元506,用于利用所述每个会话划分点两侧的历史行为数据的特征对会话划分模型进行训练。
可选的,所述关系分析模型包括词向量模型,所述处理单元502,具体用于:
获取所述目标用户在关系网络中对应的目标节点与其它节点之间的关系边权重。
根据所述关系边权重对所述其它节点进行采样,得到所述目标节点的邻居节点。
利用所述词向量模型的训练方法对所述目标节点和所述邻居节点进行训练,得到所述目标用户的关系特征向量。
可选的,所述生成单元503,具体用于:
将所述兴趣特征向量和所述关系特征向量进行拼接处理,得到拼接向量。
将所述拼接向量输入全连接神经网络模型,输出得到所述目标用户的描述向量。
可选的,所述获取单元501,具体用于:
获取目标用户的历史行为数据,所述历史行为数据包括交互行为数据。
根据所述交互行为数据确定所述目标用户的关系网络数据。
可以理解的是,本实施例的数据处理装置的各功能单元的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
本发明实施例中,获取单元501获取目标用户的历史行为数据和关系网络数据,处理单元502利用行为分析模型对历史行为数据进行建模处理,得到目标用户的兴趣特征向量,以及利用关系分析模型对关系网络数据进行建模处理,得到目标用户的关系特征向量,生成单元503对兴趣特征向量和关系特征向进行融合处理,进而生成目标用户的描述向量,可以提高对用户进行描述时的完整度和准确度。
请参阅图6,为本发明实施例提供的一种服务器的结构示意图。本实施例中所描述的服务器,包括:处理器601、网络接口602及存储器603。其中,处理器601、网络接口602及存储器603可通过总线或其他方式连接,本发明实施例以通过总线连接为例。
其中,处理器601(或称中央处理器(Central Processing Unit,CPU))是服务器的计算核心以及控制核心。网络接口602可选的可以包括标准的有线接口、无线接口(如WI-FI、移动通信接口等),受处理器601的控制用于收发数据。存储器603(Memory)是服务器的记忆设备,用于存放程序和数据。可以理解的是,此处的存储器603可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器601的存储装置。存储器603提供存储空间,该存储空间存储了服务器的操作系统和可执行程序代码,可包括但不限于:Windows系统(一种操作系统)、Linux(一种操作系统)系统等等,本发明对此并不作限定。
在本发明实施例中,处理器601通过运行存储器603中的可执行程序代码,执行如下操作:
处理器601,用于通过网络接口602获取目标用户的历史行为数据和关系网络数据。
所述处理器601,还用于利用行为分析模型对所述历史行为数据进行建模处理,得到所述目标用户的兴趣特征向量。
所述处理器601,还用于利用关系分析模型对所述关系网络数据进行建模处理,得到所述目标用户的关系特征向量。
所述处理器601,还用于对所述兴趣特征向量和所述关系特征向进行融合处理,生成所述目标用户的描述向量。
可选的,所述处理器601,还用于通过所述网络接口602利用所述目标用户的描述向量更新所述目标用户的描述模型,所述描述模型用于为所述目标用户确定推荐内容或者计算所述目标用户与其他用户之间的相似度。
可选的,所述处理器601,还用于通过所述网络接口602向目标服务器发送所述目标用户的描述向量,以使所述目标服务器根据所述目标用户的描述向量为所述目标用户确定推荐内容,或者生成所述目标用户的个人特征信息。
可选的,所述历史行为数据包括搜索词序列,所述行为分析模型包括第一循环神经网络模型和第二循环神经网络模型,所述处理器601,具体用于:
将所述搜索词序列划分成多个搜索词子序列。
将所述多个搜索词子序列分别输入所述第一循环神经网络模型进行建模处理,得到所述多个搜索词子序列对应的多个中间向量。
将所述多个中间向量输入所述第二循环神经网络模型进行建模处理,得到所述目标用户的兴趣特征向量。
可选的,所述行为分析模型还包括词向量模型,所述处理器601将所述多个搜索词子序列分别输入所述第一循环神经网络模型进行建模处理,得到所述多个搜索词子序列对应的多个中间向量的具体方式为:
利用所述词向量模型将所述多个搜索词子序列中的每一个搜索词子序列转换成实数描述向量,得到多个实数描述向量。
将所述多个实数描述向量分别输入所述第一循环神经网络模型进行建模处理,得到所述多个搜索词子序列对应的多个中间向量。
可选的,所述处理器601将所述搜索词序列划分成多个搜索词子序列的具体方式为:
利用会话划分模型对所述搜索词序列进行划分,获取所述搜索词序列包括的搜索词中属于同一个会话的搜索词。
将所述属于同一个会话的搜索词作为一个搜索词子序列,得到多个会话对应的多个搜索词子序列。
可选的,所述处理器601,还用于获取训练数据,所述训练数据包括多个用户的历史行为数据。
所述处理器601,还用于获取人工标注的各个会话划分点。
所述处理器601,还用于提取每个所述会话划分点两侧的历史行为数据的特征。
所述处理器601,还用于利用所述每个会话划分点两侧的历史行为数据的特征对会话划分模型进行训练。
可选的,所述关系分析模型包括词向量模型,所述处理器601,具体用于:
获取所述目标用户在关系网络中对应的目标节点与其它节点之间的关系边权重。
根据所述关系边权重对所述其它节点进行采样,得到所述目标节点的邻居节点。
利用所述词向量模型的训练方法对所述目标节点和所述邻居节点进行训练,得到所述目标用户的关系特征向量。
可选的,所述处理器601,具体用于:
将所述兴趣特征向量和所述关系特征向量进行拼接处理,得到拼接向量。
将所述拼接向量输入全连接神经网络模型,输出得到所述目标用户的描述向量。
可选的,所述处理器601,具体用于:
获取目标用户的历史行为数据,所述历史行为数据包括交互行为数据。
根据所述交互行为数据确定所述目标用户的关系网络数据。
具体实现中,本发明实施例中所描述的处理器601、网络接口602及存储器603可执行本发明实施例提供的一种数据处理方法中所描述的实现方式,也可执行本发明实施例提供的一种数据处理装置中所描述的实现方式,在此不再赘述。
本发明实施例中,处理器601通过网络接口602获取目标用户的历史行为数据和关系网络数据,处理器601利用行为分析模型对历史行为数据进行建模处理,得到目标用户的兴趣特征向量,以及利用关系分析模型对关系网络数据进行建模处理,得到目标用户的关系特征向量,并通过对兴趣特征向量和关系特征向进行融合处理生成目标用户的描述向量,可以提高对用户进行描述时的完整度和准确度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (11)

1.一种数据处理方法,其特征在于,包括:
获取目标用户的历史行为数据和关系网络数据;
利用行为分析模型对所述历史行为数据进行建模处理,得到所述目标用户的兴趣特征向量;
利用关系分析模型对所述关系网络数据进行建模处理,得到所述目标用户的关系特征向量;
对所述兴趣特征向量和所述关系特征向量进行融合处理,生成所述目标用户的描述向量,
其中,所述关系分析模型包括词向量模型,所述利用关系分析模型对所述关系网络数据进行建模处理,得到所述目标用户的关系特征向量,包括:
利用所述关系网络数据,获取所述目标用户在关系网络中对应的目标节点与其它节点之间的关系边权重;
根据所述关系边权重对所述其它节点进行采样,得到所述目标节点的邻居节点;
利用所述词向量模型的训练方法对所述目标节点和所述邻居节点进行训练,得到所述目标用户的关系特征向量;
其中,所述对所述兴趣特征向量和所述关系特征向量进行融合处理,生成所述目标用户的描述向量,包括:
将所述兴趣特征向量和所述关系特征向量进行拼接处理,得到拼接向量;
将所述拼接向量输入全连接神经网络模型,输出得到所述目标用户的描述向量。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用所述目标用户的描述向量更新所述目标用户的描述模型,所述描述模型用于为所述目标用户确定推荐内容或者计算所述目标用户与其他用户之间的相似度。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
向目标服务器发送所述目标用户的描述向量,以使所述目标服务器根据所述目标用户的描述向量为所述目标用户确定推荐内容,或者生成所述目标用户的个人特征信息。
4.根据权利要求1或2所述的方法,其特征在于,所述历史行为数据包括搜索词序列,所述行为分析模型包括第一循环神经网络模型和第二循环神经网络模型,所述利用行为分析模型对所述历史行为数据进行建模处理,得到所述目标用户的兴趣特征向量,包括:
将所述搜索词序列划分成多个搜索词子序列;
将所述多个搜索词子序列分别输入所述第一循环神经网络模型进行建模处理,得到所述多个搜索词子序列对应的多个中间向量;
将所述多个中间向量输入所述第二循环神经网络模型进行建模处理,得到所述目标用户的兴趣特征向量。
5.根据权利要求4所述的方法,其特征在于,所述行为分析模型还包括词向量模型,所述将所述多个搜索词子序列分别输入所述第一循环神经网络模型进行建模处理,得到所述多个搜索词子序列对应的多个中间向量,包括:
利用所述词向量模型将所述多个搜索词子序列中的每一个搜索词子序列转换成实数描述向量,得到多个实数描述向量;
将所述多个实数描述向量分别输入所述第一循环神经网络模型进行建模处理,得到所述多个搜索词子序列对应的多个中间向量。
6.根据权利要求4或5所述的方法,其特征在于,所述将所述搜索词序列划分成多个搜索词子序列,包括:
利用会话划分模型对所述搜索词序列进行划分,获取所述搜索词序列包括的搜索词中属于同一个会话的搜索词;
将所述属于同一个会话的搜索词作为一个搜索词子序列,得到多个会话对应的多个搜索词子序列。
7.根据权利要求6所述的方法,其特征在于,所述利用会话划分模型对所述搜索词序列进行划分,获取所述搜索词序列包括的搜索词中属于同一个会话的搜索词之前,所述方法还包括:
获取训练数据,所述训练数据包括多个用户的历史行为数据;
获取人工标注的各个会话划分点;
提取每个所述会话划分点两侧的历史行为数据的特征;
利用所述每个会话划分点两侧的历史行为数据的特征对会话划分模型进行训练。
8.根据权利要求1或2所述的方法,其特征在于,所述获取目标用户的历史行为数据和关系网络数据,包括:
获取目标用户的历史行为数据,所述历史行为数据包括交互行为数据;
根据所述交互行为数据确定所述目标用户的关系网络数据。
9.一种数据处理装置,其特征在于,包括:
获取单元,用于获取目标用户的历史行为数据和关系网络数据;
处理单元,用于利用行为分析模型对所述历史行为数据进行建模处理,得到所述目标用户的兴趣特征向量;
所述处理单元,还用于利用关系分析模型对所述关系网络数据进行建模处理,得到所述目标用户的关系特征向量;
生成单元,用于对所述兴趣特征向量和所述关系特征向量进行融合处理,生成所述目标用户的描述向量,
其中,所述关系分析模型包括词向量模型,所述处理单元具体用于:
获取所述目标用户在关系网络中对应的目标节点与其它节点之间的关系边权重;
根据所述关系边权重对所述其它节点进行采样,得到所述目标节点的邻居节点;
利用所述词向量模型的训练方法对所述目标节点和所述邻居节点进行训练,得到所述目标用户的关系特征向量;
将所述兴趣特征向量和所述关系特征向量进行拼接处理,得到拼接向量;
将所述拼接向量输入全连接神经网络模型,输出得到所述目标用户的描述向量。
10.一种服务器,其特征在于,包括:处理器、网络接口和存储器,所述存储器存储有可执行程序代码,所述网络接口受所述处理器的控制用于收发消息,所述处理器用于调用所述可执行程序代码,执行如权利要求1~8中任一项所述的数据处理方法。
11.一种存储介质,其特征在于,所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行如权利要求1~8中任一项所述的数据处理方法。
CN201810074460.7A 2018-01-25 2018-01-25 一种数据处理方法、装置及服务器 Active CN108304526B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810074460.7A CN108304526B (zh) 2018-01-25 2018-01-25 一种数据处理方法、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810074460.7A CN108304526B (zh) 2018-01-25 2018-01-25 一种数据处理方法、装置及服务器

Publications (2)

Publication Number Publication Date
CN108304526A CN108304526A (zh) 2018-07-20
CN108304526B true CN108304526B (zh) 2022-02-11

Family

ID=62866654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810074460.7A Active CN108304526B (zh) 2018-01-25 2018-01-25 一种数据处理方法、装置及服务器

Country Status (1)

Country Link
CN (1) CN108304526B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875090B (zh) * 2018-08-07 2023-02-28 腾讯科技(深圳)有限公司 一种歌曲推荐方法、装置和存储介质
CN111125272B (zh) * 2018-10-31 2023-07-25 百度在线网络技术(北京)有限公司 一种区域特征获取方法、装置、计算机设备及介质
CN111461296B (zh) * 2018-12-29 2023-09-22 中科寒武纪科技股份有限公司 数据处理方法、电子设备和可读存储介质
JP6982017B2 (ja) * 2019-02-08 2021-12-17 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
CN110196944B (zh) * 2019-05-07 2021-06-01 深圳前海微众银行股份有限公司 一种序列化信息的推荐方法及装置
CN110263250B (zh) * 2019-06-12 2023-04-28 深圳前海微众银行股份有限公司 一种推荐模型的生成方法及装置
CN112131320A (zh) * 2019-06-25 2020-12-25 杭州海康威视数字技术股份有限公司 异常数据的检测方法、装置及存储介质
CN110418171B (zh) * 2019-07-23 2022-07-29 腾讯科技(深圳)有限公司 媒体资源的推送方法和装置、存储介质及电子装置
CN110717106B (zh) * 2019-10-14 2022-05-17 支付宝(杭州)信息技术有限公司 信息推送的方法及装置
CN110737846B (zh) * 2019-10-28 2022-05-31 北京字节跳动网络技术有限公司 一种社交界面推荐方法、装置、电子设备及存储介质
CN111222563B (zh) * 2020-01-02 2023-10-10 腾讯科技(深圳)有限公司 一种模型训练方法、数据获取方法以及相关装置
CN111291125A (zh) * 2020-02-18 2020-06-16 广州腾讯科技有限公司 一种数据处理方法及相关设备
CN111368552B (zh) * 2020-02-26 2023-09-26 北京市公安局 一种面向特定领域的网络用户群组划分方法及装置
CN111475720A (zh) * 2020-03-31 2020-07-31 北京三快在线科技有限公司 推荐方法、装置、服务器及存储介质
CN114298118B (zh) * 2020-09-28 2024-02-09 腾讯科技(深圳)有限公司 一种基于深度学习的数据处理方法、相关设备及存储介质
CN112115381A (zh) * 2020-09-28 2020-12-22 北京百度网讯科技有限公司 融合关系网络的构建方法、装置、电子设备和介质
CN112667252A (zh) * 2020-12-30 2021-04-16 瀚云科技有限公司 数据处理方法和装置、服务器及存储介质
CN113065895A (zh) * 2021-03-29 2021-07-02 上海酷量信息技术有限公司 一种基于地理位置的广告推荐方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102486796A (zh) * 2010-12-03 2012-06-06 腾讯科技(深圳)有限公司 获取视频信息的方法和装置
CN103559262A (zh) * 2013-11-04 2014-02-05 北京邮电大学 基于社区的作者及其学术论文推荐系统和推荐方法
CN105608105A (zh) * 2015-10-30 2016-05-25 浙江大学 一种基于收听上下文的音乐推荐方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102486796A (zh) * 2010-12-03 2012-06-06 腾讯科技(深圳)有限公司 获取视频信息的方法和装置
CN103559262A (zh) * 2013-11-04 2014-02-05 北京邮电大学 基于社区的作者及其学术论文推荐系统和推荐方法
CN105608105A (zh) * 2015-10-30 2016-05-25 浙江大学 一种基于收听上下文的音乐推荐方法

Also Published As

Publication number Publication date
CN108304526A (zh) 2018-07-20

Similar Documents

Publication Publication Date Title
CN108304526B (zh) 一种数据处理方法、装置及服务器
Smeureanu et al. Applying supervised opinion mining techniques on online user reviews
US20170011029A1 (en) Hybrid human machine learning system and method
US20140337257A1 (en) Hybrid human machine learning system and method
CN105574067A (zh) 项目推荐装置以及项目推荐方法
US10013659B2 (en) Methods and systems for creating a classifier capable of predicting personality type of users
KR20160057475A (ko) 소셜 데이터를 능동적으로 획득하기 위한 시스템 및 방법
CN104471568A (zh) 对自然语言问题的基于学习的处理
CN110009430B (zh) 作弊用户检测方法、电子设备及计算机可读存储介质
Okazaki et al. How to mine brand Tweets: Procedural guidelines and pretest
CN110727761B (zh) 对象信息获取方法、装置及电子设备
Zou et al. Exploring user engagement strategies and their impacts with social media mining: the case of public libraries
CN110955750A (zh) 评论区域和情感极性的联合识别方法、装置、电子设备
CN114238573A (zh) 基于文本对抗样例的信息推送方法及装置
CN115017288A (zh) 模型训练方法、模型训练装置、设备及存储介质
Chowdhary et al. Fake review detection using classification
Gandhe et al. Sentiment analysis of Twitter data with hybrid learning for recommender applications
CN112182126A (zh) 用于确定匹配度的模型训练方法、装置、电子设备及可读存储介质
CN112685618A (zh) 用户特征识别方法、装置、计算设备及计算机存储介质
Desai et al. A hybrid classification algorithm to classify engineering students' problems and perks
Nahili et al. Digital marketing with social media: What Twitter says!
CN112115258B (zh) 一种用户的信用评价方法、装置、服务器及存储介质
Vinithra et al. Simulated and self-sustained classification of Twitter data based on its sentiment
CN109241993B (zh) 融合用户和整体评价信息的评价对象情感分类方法及装置
JP7003481B2 (ja) ソーシャル・メディア・アカウントおよびコンテンツの相互に補強するランキング

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant