CN107741953A - 社交平台用户的现实关系匹配方法、装置及可读存储介质 - Google Patents
社交平台用户的现实关系匹配方法、装置及可读存储介质 Download PDFInfo
- Publication number
- CN107741953A CN107741953A CN201710827452.0A CN201710827452A CN107741953A CN 107741953 A CN107741953 A CN 107741953A CN 201710827452 A CN201710827452 A CN 201710827452A CN 107741953 A CN107741953 A CN 107741953A
- Authority
- CN
- China
- Prior art keywords
- user
- users
- social platform
- model
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 239000013598 vector Substances 0.000 claims abstract description 117
- 230000003993 interaction Effects 0.000 claims abstract description 53
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 230000002452 interceptive effect Effects 0.000 abstract description 11
- 238000004458 analytical method Methods 0.000 abstract description 10
- 230000007547 defect Effects 0.000 description 6
- 238000003672 processing method Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种社交平台用户的现实关系匹配方法,包括步骤:获取社交平台上的用户的账号信息,根据每一所述用户的账号信息和TransE模型建立用户向量模型;获取所述社交平台上的用户之间的文本交互信息,根据所述用户之间的文本交互信息和卷积神经网络模型建立文本关系预测模型;将所述用户向量模型的输出结果以及所述文本关系预测模型的输出结果投射到同一个空间进行线性联合输出,以得到所述社交平台上的用户的现实关系预测结果。本发明结合用户的账号信息和用户之间的交互文本信息分析的方式,可以从社交平台里上亿的海量用户中准确的挖掘出在线用户的现实关系。本发明还提供一种数据处理装置及计算机可读存储介质。
Description
技术领域
本发明涉及计算机网络技术领域,尤其涉及一种社交平台用户的现实关系匹配方法、数据处理装置及计算机可读存储介质。
背景技术
随着互联网的发展,微博、朋友圈、脸书(Facebook)以及推特(Twitter)等各类社交平台的流行,如何从上亿的海量用户中准确的挖掘出在线用户的现实关系,例如朋友、熟人和家人等亲密关系成为了一个重要的课题。
传统的社交网络分析中,通常做法是根据网络结构进行节点间距离的衡量,或者用聚类方法找到团簇来划分节点,在社交拓扑网络结构中通过不同的算法来计算用户之间的相似度,从而判断用户之间的关系。但是,由于社交网络特性,不少节点间虽然距离近,但是他们可能只是线上好友,线下或真实生活中根本没有见过面。
而在例如金融产品领域、公共安全监控领域等应用中,正确地计算和识别在线用户在现实生活中的亲密关系才是最迫切需要的。
发明内容
本发明的主要目的在于提供一种在线社交用户的现实关系匹配方法、数据处理装置及计算机可读存储介质,旨在解决如何准确地计算和识别在线用户在现实生活中的亲密关系的技术问题。
为实现上述目的,本发明提供的一种社交平台用户的现实关系匹配方法,包括以下步骤:
获取社交平台上的用户的账号信息,根据每一所述用户的账号信息和TransE模型建立用户向量模型;
获取所述社交平台上的用户之间的文本交互信息,根据所述用户之间的文本交互信息和卷积神经网络模型建立文本关系预测模型;
将所述用户向量模型的输出结果以及所述文本关系预测模型的输出结果投射到同一个空间进行线性联合输出,以得到所述社交平台上的用户的现实关系预测结果。
进一步地,所述根据每一所述用户的账号信息和TransE模型建立用户向量模型的步骤包括:
根据每一所述用户的账号信息建立一个三元组<h,r,t>,其中,h,t是用户的账号信息中的实体,r是连接所述实体h,t之间的关系;
根据TransE模型把所述每一个三元组<h,r,t>中每个实体和实体之间的关系映射为包含每个实体和实体之间的关系的低维度向量。
进一步地,所述用户向量模型的目标函数包括:
其中,<h,r,t>∈R(k×1),k是向量维度,[*]+为取*的正数部分,γ是一个超参数,S是所有真三元组集合,S'是所有随机生成的假三元组集合S'={<h',r,t>|h'∈E∪<h,r,t'>|t'∈E。
进一步地,所述用户向量模型的输出结果hp=tanh(W1v1+W2v2),其中,所述v1和v2为所述用户向量模型的两个用户的向量输入,所述hp为所述用户向量模型的两个用户的向量输入v1和v2的加权非线性转化输出经偏差修正的输出结果,所述W1为所述用户的向量输入v1的权重,所述W2为所述用户的向量输入v2的权重。
进一步地,所述获取所述社交平台上的用户之间的文本交互信息,根据所述用户之间的文本交互信息和卷积神经网络模型建立文本关系预测模型的步骤包括:
获取所述社交平台上的用户之间的文本交互信息m,其中,所述文本交互信息m包括多个词语{u1,u2,u3,...un},m∈M<h,t>;m代表包含实体h,t的文本交互信息,M代表包含实体h,t的文本交互信息的集合;
根据卷积神经网络模型对所述每一个词语建立低维度向量,通过已训练好的Word2Vec算法对所述每一个词语建立的低维度向量进行训练,重复提取所述词语并计算隐含特征向量,获取每一维所述隐含特征向量的最大值,并将所述隐含特征向量的最大值进行分类。
进一步地,所述文本关系预测模型的目标函数包括:
其中,这里是预测分类标记,fm是真实分类标记。
进一步地,所述文本关系预测模型的输出结果r=max{hi},其中,hi=tanh(W-1ui-1+W0ui+W1ui+1),所述u为所述用户之间的文本交互信息中的词语,所述W-1代表ui-1的权重,所述W0代表ui的权重,所述W1代表ui+1的权重。
进一步地,所述将所述用户向量模型的输出结果以及所述文本关系预测模型的输出结果投射到同一个空间进行线性联合输出,以得到所述社交平台上的用户的现实关系预测分类的步骤包括:
根据预设的线性联合算法函数:将所述用户向量模型的输出结果hp以及所述文本关系预测模型的输出结果Υ投射到一预设空间,输出得到所述社交平台上的用户的现实关系预测分类;
其中,所述为将所述用户向量模型的输出结果hp投射到所述预设空间的参数,所述为将所述文本关系预测模型的输出结果Υ投射到所述预设空间的参数。
本发明还提供一种数据处理装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述的社交平台用户的现实关系匹配方法的步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述的社交平台用户的现实关系匹配方法的步骤。
在本发明中,通过根据社交平台上的用户的账号信息和TransE模型建立用户向量模型,预测两个用户实体之间的关系程度;然后通过社交平台上的用户之间的文本交互信息和卷积神经网络模型建立文本关系预测模型,得到所述社交平台上的用户之间的现实关系的预测分类;通过将所述用户向量模型的输出结果以及所述文本关系预测模型的输出结果投射到同一个空间进行线性联合输出,以得到所述社交平台上的用户的现实关系预测结果。采用结合用户的账号信息和用户之间的交互文本信息分析的方式,根据社交平台上人与人间的互动行为进行亲密关系预测;有效地解决了仅仅进行用户的个人信息分析,通常只能分析出线上好友的缺点;同时,解决了针对用户之间的交互文本信息分析无法精准的分析用户之间的现实关系,例如,排除了采用交互文本信息分析的时候,通常只要两个用户用亲密表达交流,两个用户之间就被确定为有亲密关系的缺点。
附图说明
图1为本发明第一实施方式中的社交平台用户的现实关系匹配方法的方法流程图;
图2为图1中社交平台用户的现实关系匹配方法的步骤S10的子流程图;
图3为图1中社交平台用户的现实关系匹配方法的步骤S20的子流程图;
图4为本发明一实施方式中的数据处理装置的模块结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参照图1,图1为本发明第一实施方式中的社交平台用户的现实关系匹配方法100的方法流程图,其中,所述数据处理方法100包括如下步骤:
步骤S10,获取社交平台上的用户的账号信息,根据每一所述用户的账号信息和TransE模型建立用户向量模型。
其中,所述社交平台上的用户可以是同一个平台上的注册的用户,也可以是跨社交平台上的不同社交平台的用户。所述社交平台可以是,互联网中的各类社交软件或者社交网站等,在此不做具体限制。
所述用户的账号信息包括但不限于是,用户的姓名、昵称、性别、年龄、爱好、工作经历、个性签名、标签、籍贯、常住地址、邮箱、电话、社交账号等。
TransE模型是基于实体和关系的分布式向量表示,将每个三元组实例(head,relation,tail)中的关系relation看作从实体head到实体tail的空间连接关系,通过不断调整h、r和t(head、relation和tail的向量),使(h+r)尽可能与t相等,即h+r=t;TransE模型可以用于解决多关系数据(multi-relational data)的处理问题。
例如,在所述社交平台为微博时,根据微博中每一个用户的个人简介信息和TransE模型建立用户向量模型,例如,用户张三的个人简介信息包括:姓名-张三,性别-女性;根据该张三的个人简介信息建立一个三元组<张三,性别,女性>,其中,h-张三,t-女性是用户的账号信息中的实体,r-性别是连接所述实体h-张三,t-女性之间的关系;又例如,用户李四的个人简介信息包括:姓名-李四,性别-男性;根据该李四的个人简介信息建立一个三元组<李四,性别,男性>,其中,h-李四,t-男性是用户的账号信息中的实体,r-性别是连接所述实体h-张三,t-男性之间的关系;或者用户王五的个人简介信息包括:姓名-王五,职业-老师;根据该王五的个人简介信息建立一个三元组<王五,职业,老师>,其中,h-王五,t-老师是用户的账号信息中的实体,r-职业是连接所述实体h-王五,t-老师之间的关系;然后根据每一所述用户的所有的信息和TransE模型建立所述用户向量模型。
对于一个真的三元组,有h+r≈t,但如果该三元组是假的,则h+r距离t较远。因此对于不相似性度量d(*),真三元组的不相似性d(h+r,t)应当小于假三元组d(h'+r,t)或者d(h+r,t'),也就是说,当两个实体同有很多相同的关系,它们的低维向量将会非常相似。
步骤S20,获取所述社交平台上的用户之间的文本交互信息,根据所述用户之间的文本交互信息和卷积神经网络模型建立文本关系预测模型。
在同一个社交平台或者多个跨社交平台的用户互动中,用户之间可以进行文本信息的交互,例如在微博平台中,两个用户之间可以相互@或者彼此回复文本信息,所述社交平台上的用户之间的文本交互信息可以作为判断用户之间的现实关系的数据基础。
在一实施例中,可以定义所述社交平台上的用户之间的文本交互信息m,其中,所述文本交互信息m包括多个词语{u1,u2,u3,...un},m∈M<h,t>;m代表包含实体h,t的文本交互信息,M代表包含实体h,t的文本交互信息的集合。
根据所述用户之间的文本交互信息和卷积神经网络模型可以建立文本关系预测模型,以得到基于所述用户之间的文本交互信息得到的用户之间的现实关系的预测分类。
步骤S30,将所述用户向量模型的输出结果以及所述文本关系预测模型的输出结果投射到同一个空间进行线性联合输出,以得到所述社交平台上的用户的现实关系预测结果。
具体的,所述用户向量模型的输出结果是用户向量模型的两个用户的向量输入v1和v2的加法输出hp;所述文本关系预测模型输出的是所述用户之间的现实关系的预测分类r;将所述用户向量模型的输出结果hp以及所述文本关系预测模型的输出结果Υ投射到同一个空间进行线性联合输出,以得到所述社交平台上的用户的现实关系预测结果。
举例来说,用户A发布“情人节快乐!亲爱的@B”,如果A与B是异性,则他们是情侣的概率非常高;若他们为同性,则他们是情侣的概率非常低。
在本实施方式中,所述社交平台用户的现实关系匹配方法100,通过根据社交平台上的用户的账号信息和TransE模型建立用户向量模型,预测两个用户实体之间的关系程度;然后通过社交平台上的用户之间的文本交互信息和卷积神经网络模型建立文本关系预测模型,得到所述社交平台上的用户之间的现实关系的预测分类;通过将所述用户向量模型的输出结果以及所述文本关系预测模型的输出结果投射到同一个空间进行线性联合输出,以得到所述社交平台上的用户的现实关系预测结果。采用结合用户的账号信息和用户之间的交互文本信息分析的方式,根据社交平台上人与人间的互动行为进行亲密关系预测;有效地解决了仅仅进行用户的个人信息分析,通常只能分析出线上好友的缺点;同时,解决了针对用户之间的交互文本信息分析无法精准的分析用户之间的现实关系,例如,排除了采用交互文本信息分析的时候,通常只要两个用户用亲密表达交流,两个用户之间就被确定为有亲密关系的缺点。
请一并参考图2,可选地,在一实施例中,在所述步骤S10,根据每一所述用户的账号信息和TransE模型建立用户向量模型,具体包括:
步骤S101,根据每个所述用户的账号信息建立一个三元组<h,r,t>,其中,h,t是用户的账号信息中的实体,r是连接所述实体h,t之间的关系;
步骤S102,根据TransE模型把所述每一个三元组<h,r,t>中每个实体和实体之间的关系映射为包含每个实体和实体之间的关系的低维度向量。
具体的,可以根据每个所述用户的账号信息建立一个三元组<h,r,t>,其中,h,t是用户的账号信息中的实体,r是连接所述实体h,t之间的关系;然后,根据TransE模型把所述每一个三元组<h,r,t>中每个实体和实体之间的关系映射为包含每个实体和实体之间的关系的低维度向量。
例如,在所述社交平台为微博时,根据微博中每一个用户的个人简介信息和TransE模型建立用户向量模型,例如,在所述社交平台为微博时,根据微博中每一个用户的个人简介信息和TransE模型建立用户向量模型,例如,用户张三的个人简介信息包括:姓名-张三,性别-女性;根据该张三的个人简介信息建立一个三元组<张三,性别,女性>,其中,h-张三,t-女性是用户的账号信息中的实体,r-性别是连接所述实体h-张三,t-女性之间的关系;又例如,用户李四的个人简介信息包括:姓名-李四,性别-男性;根据该李四的个人简介信息建立一个三元组<李四,性别,男性>,其中,h-李四,t-男性是用户的账号信息中的实体,r-性别是连接所述实体h-张三,t-男性之间的关系;或者用户王五的个人简介信息包括:姓名-王五,职业-老师;根据该王五的个人简介信息建立一个三元组<王五,职业,老师>,其中,h-王五,t-老师是用户的账号信息中的实体,r-职业是连接所述实体h-王五,t-老师之间的关系;然后根据每一所述用户的所有的信息和TransE模型建立所述用户向量模型。
把三元组中的首尾实体看作空间中的点,关系看连接实体的关系,可以得到相应的网络图。在网络图中存在多个三元组<h,r,,>∈G,h,r∈E代表网络图中所有可能的实体,r∈R代表网络中连接实体的关系;然后根据TransE模型把所述每一个三元组<h,r,t>中每个实体和实体之间的关系映射为包含每个实体和实体之间的关系的低维度向量。
进一步地,在本实施例中,优选的,所述用户向量模型的目标函数可以包括:
其中,<h,r,t>∈R(k×1),k是向量维度,[*]+为取*的正数部分,γ是一个超参数,S是所有真三元组集合,S'是所有随机生成的假三元组集合S'={<h',r,t>|h'∈E∪<h,r,t'>|t'∈E。
对于一个真的三元组,有h+r≈t,但如果该三元组是假的,则h+r距离t较远。因此对于不相似性度量d(*),真三元组的不相似性d(h+r,t)应当小于假三元组d(h'+r,t)或者d(h+r,t'),当两个实体同有很多相同的关系,它们的低维向量将会非常相似。
可选地,在所述用户向量模型中,v1和v2为所述用户向量模型的两个用户的向量输入,所述用户向量模型的输出hp为所述两个向量v1和v2加权非线性转化得到的向量,在一实施例中,所述用户向量模型的输出hp引入线性偏差算法,hp=tanh(W1v1+W2v2),所述hp为所述用户向量模型的两个用户的向量输入v1和v2的加权非线性转化输出经偏差修正的输出结果,所述W1为所述用户的向量输入v1的权重,所述W2为所述用户的向量输入v2的权重。
请一并参考图3,优选的,在一实施例中,所述步骤S20,所述获取所述社交平台上的用户之间的文本交互信息,根据所述用户之间的文本交互信息和卷积神经网络模型建立文本关系预测模型,可以包括:
步骤S201,获取所述社交平台上的用户之间的文本交互信息m,其中,所述文本交互信息m包括多个词语{u1,u2,u3,...un},m∈M<h,t>;m代表包含实体h,t的文本交互信息,M代表包含实体h,t的文本交互信息的集合;
步骤S202,根据卷积神经网络模型对所述每一个词语建立低维度向量,通过已训练好的Word2Vec算法对所述每一个词语建立的低维度向量进行训练,重复提取所述词语并计算隐含特征向量,获取每一维所述隐含特征向量的最大值,并将所述隐含特征向量的最大值进行分类。
具体的,在步骤S201中,所述文本交互信息m包括多个词语{u1,u2,u3,...un},m∈M<h,t>;m代表包含实体h,t的文本交互信息,M代表包含实体h,t的文本交互信息的集合。例如,在微博平台上,用户发布文本信息“情人节快乐!亲爱的@李四”,所述文本交互信息m包括多个词语{u1=情人节,u2=快乐,u3=!,u4=亲爱的}。
具体的,在步骤S202中,根据卷积神经网络模型(Convolutional NeuralNetworks,CNN)对所述每一个词语建立低维度向量,通过已训练好的Word2Vec算法对所述每一个词语建立的低维度向量进行训练,通过卷积层(convolutional layer)重复提取所述词语计算隐含特征向量,通过最大池化层(max pooling)获取每一维所述隐含特征向量的最大值,并将所述隐含特征向量的最大值进行分类。
进一步地,在一实施例中,所述文本关系预测模型的目标函数包括:
其中,这里是预测分类标记,fm是真实分类标记。
可选地,在一实施例中,所述文本关系预测模型的输出结果r=max{hi},其中,hi=tanh(W-1ui-1+W0ui+W1ui+1),所述u为所述用户之间的文本交互信息中的词语,所述W-1代表ui-1的权重,所述W0代表ui的权重,所述W1代表ui+1的权重。
在上述实施例中,采用CNN模型,可抓取文本交互信息的相对全局特征,比如,可以认识到“情人节是个节日”和“情人节快乐”的差异;从而提高文本关系预测模型的准确性。
进一步地,在一实施例中,所述步骤S30可以包括:
根据预设的线性联合算法函数:将所述用户向量模型的输出结果hp以及所述文本关系预测模型的输出结果Υ投射到一预设空间,输出得到所述社交平台上的用户的现实关系预测分类;
其中,所述为将所述用户向量模型的输出结果hp投射到所述预设空间的参数,所述为将所述文本关系预测模型的输出结果Υ投射到所述预设空间的参数。
在本实施例中,所述预设的线性联合算法函数与所述文本关系预测模型的目标函数类型一致,通过引入偏差算法,将所述用户向量模型的输出结果hp以及所述文本关系预测模型的输出结果Υ以预设的线性联合算法的方式投射到一预设空间,输出得到所述社交平台上的用户的现实关系预测分类,可以更准确地计算和识别在线用户在现实生活中的亲密关系。
上述实施例中的社交平台用户的现实关系匹配方法可以从社交平台里上亿的海量用户中准确的挖掘出在线用户的现实关系,所述社交平台用户的现实关系匹配方法可以应用于金融产品领域、公共安全监控领域等。
例如,金融公司内部数据一般是单个的用户数据,用户与用户之间是没有关联的。然而,在很多金融类产品应用中,人与人之间的关系程度是非常重要的。比方说,在风控模型中,假设某个用户来借款,其本身没有任何不良记录,然而他的家人或者密友曾经有不良信用记录。那么,在其信用评估时,就应该更仔细一些。金融公司根据外部数据用户数据中的社交账号信息,例如新浪微博、微信等,建立用户的亲密好友匹配网络,可以将用户及其家人、熟人、朋友的不良信用记录在该匹配网络上进行扩展,从而更好的进行风险控制,防止潜在损失。
请一并结合图4,为本发明一实施方式中的数据处理装置200的模块结构示意图。
所述数据处理装置200包括存储器201、处理器202及存储在存储器上并可在处理器202上运行的计算机程序,所述处理器202执行所述程序时实现如下的步骤:
步骤S10,获取社交平台上的用户的账号信息,根据每一所述用户的账号信息和TransE模型建立用户向量模型;
步骤S20,获取所述社交平台上的用户之间的文本交互信息,根据所述用户之间的文本交互信息和卷积神经网络模型建立文本关系预测模型;
步骤S30,将所述用户向量模型的输出结果以及所述文本关系预测模型的输出结果投射到同一个空间进行线性联合输出,以得到所述社交平台上的用户的现实关系预测结果。
在本实施方式中,所述数据处理装置,通过根据社交平台上的用户的账号信息和TransE模型建立用户向量模型,预测两个用户实体之间的关系程度;然后通过社交平台上的用户之间的文本交互信息和卷积神经网络模型建立文本关系预测模型,得到所述社交平台上的用户之间的现实关系的预测分类;通过将所述用户向量模型的输出结果以及所述文本关系预测模型的输出结果投射到同一个空间进行线性联合输出,以得到所述社交平台上的用户的现实关系预测结果。采用结合用户的账号信息和用户之间的交互文本信息分析的方式,根据社交平台上人与人间的互动行为进行亲密关系预测;有效地解决了仅仅进行用户的个人信息分析,通常只能分析出线上好友的缺点;同时,解决了针对用户之间的交互文本信息分析无法精准的分析用户之间的现实关系,例如,排除了采用交互文本信息分析的时候,通常只要两个用户用亲密表达交流,两个用户之间就被确定为有亲密关系的缺点。
其中,该数据处理装置200可以是服务器,计算机、便携式计算机设备、手机、平板电脑等具备数据处理功能的电子产品。
在一实施方式中,所述步骤S10可以包括:
步骤S101,根据每个所述用户的账号信息建立一个三元组<h,r,t>,其中,h,t是用户的账号信息中的实体,r是连接所述实体h,t之间的关系;
步骤S102,根据TransE模型把所述每一个三元组<h,r,t>中每个实体和实体之间的关系映射为包含每个实体和实体之间的关系的低维度向量。
进一步地,所述用户向量模型的目标函数可以包括:
其中,<h,r,t>∈R(k×1),k是向量维度,[*]+为取*的正数部分,γ是一个超参数,S是所有真三元组集合,S'是所有随机生成的假三元组集合S'={<h',r,t>|h'∈E∪<h,r,t'>|t'∈E。
可选地,在所述用户向量模型中,v1和v2为所述用户向量模型的两个用户的向量输入,所述用户向量模型的输出hp为所述两个向量v1和v2加权非线性转化得到的向量,在一实施例中,所述用户向量模型的输出hp引入线性偏差算法,hp=tanh(W1v1+W2v2),所述hp为所述用户向量模型的两个用户的向量输入v1和v2的加权非线性转化输出经偏差修正的输出结果,所述W1为所述用户的向量输入v1的权重,所述W2为所述用户的向量输入v2的权重。
在一实施方式中,所述步骤S20可以包括:
步骤S201,获取所述社交平台上的用户之间的文本交互信息m,其中,所述文本交互信息m包括多个词语{u1,u2,u3,...un},m∈M<h,t>;m代表包含实体h,t的文本交互信息,M代表包含实体h,t的文本交互信息的集合;
步骤S202,根据卷积神经网络模型对所述每一个词语建立低维度向量,通过已训练好的Word2Vec算法对所述每一个词语建立的低维度向量进行训练,重复提取所述词语并计算隐含特征向量,获取每一维所述隐含特征向量的最大值,并将所述隐含特征向量的最大值进行分类。
进一步地,在一实施例中,所述文本关系预测模型的目标函数包括:
其中,这里是预测分类标记,fm是真实分类标记。
可选地,在一实施例中,所述文本关系预测模型的输出结果r=max{hi},其中,hi=tanh(W-1ui-1+W0ui+W1ui+1),所述u为所述用户之间的文本交互信息中的词语,所述W-1代表ui-1的权重,所述W0代表ui的权重,所述W1代表ui+1的权重。
进一步地,在一实施例中,所述步骤S30可以包括:
根据预设的线性联合算法函数:将所述用户向量模型的输出结果hp以及所述文本关系预测模型的输出结果Υ投射到一预设空间,输出得到所述社交平台上的用户的现实关系预测分类;
其中,所述为将所述用户向量模型的输出结果hp投射到所述预设空间的参数,所述为将所述文本关系预测模型的输出结果Υ投射到所述预设空间的参数。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可以实现如上所述的数据处理方法100、数据处理方法102、数据处理方法103、数据处理方法104的步骤。
可以理解的是,在本说明书的描述中,参考术语“一实施例”、“另一实施例”、“其他实施例”、或“第一实施例~第N实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
可以理解的是,以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种社交平台用户的现实关系匹配方法,其特征在于,包括步骤:
获取社交平台上的用户的账号信息,根据每一所述用户的账号信息和TransE模型建立用户向量模型;
获取所述社交平台上的用户之间的文本交互信息,根据所述用户之间的文本交互信息和卷积神经网络模型建立文本关系预测模型;
将所述用户向量模型的输出结果以及所述文本关系预测模型的输出结果投射到同一个空间进行线性联合输出,以得到所述社交平台上的用户的现实关系预测结果。
2.如权利要求1所述的社交平台用户的现实关系匹配方法,其特征在于,所述根据每一所述用户的账号信息和TransE模型建立用户向量模型的步骤包括:
根据每一所述用户的账号信息建立一个三元组<h,r,t>,其中,h,t是用户的账号信息中的实体,r是连接所述实体h,t之间的关系;
根据TransE模型把所述每一个三元组<h,r,t>中每个实体和实体之间的关系映射为包含每个实体和实体之间的关系的低维度向量。
3.如权利要求2所述的社交平台用户的现实关系匹配方法,其特征在于,所述用户向量模型的目标函数包括:
<mrow>
<msub>
<mi>L</mi>
<mn>1</mn>
</msub>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mo><</mo>
<mi>h</mi>
<mo>,</mo>
<mi>r</mi>
<mo>,</mo>
<mi>t</mi>
<mo>></mo>
<mo>&Element;</mo>
<mi>S</mi>
</mrow>
</munder>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mo><</mo>
<mi>h</mi>
<mo>,</mo>
<mi>r</mi>
<mo>,</mo>
<mi>t</mi>
<mo>></mo>
<mo>&Element;</mo>
<msup>
<mi>S</mi>
<mo>&prime;</mo>
</msup>
</mrow>
</munder>
<msub>
<mrow>
<mo>&lsqb;</mo>
<mi>&gamma;</mi>
<mo>+</mo>
<mi>d</mi>
<mrow>
<mo>(</mo>
<mi>h</mi>
<mo>+</mo>
<mi>r</mi>
<mo>,</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mi>d</mi>
<mrow>
<mo>(</mo>
<msup>
<mi>h</mi>
<mo>&prime;</mo>
</msup>
<mo>+</mo>
<mi>r</mi>
<mo>,</mo>
<msup>
<mi>t</mi>
<mo>&prime;</mo>
</msup>
<mo>)</mo>
</mrow>
<mo>&rsqb;</mo>
</mrow>
<mo>+</mo>
</msub>
<mo>;</mo>
</mrow>
其中,<h,r,t>∈R(k×1),k是向量维度,[*]+为取*的正数部分,γ是一个超参数,S是所有真三元组集合,S'是所有随机生成的假三元组集合S'={<h',r,t>|h'∈E∪<h,r,t'>|t'∈E。
4.如权利要求2所述的社交平台用户的现实关系匹配方法,其特征在于,所述用户向量模型的输出结果hp=tanh(W1v1+W2v2),其中,所述v1和v2为所述用户向量模型的两个用户的向量输入,所述hp为所述用户向量模型的两个用户的向量输入v1和v2的加权非线性转化输出经偏差修正的输出结果,所述W1为所述用户的向量输入v1的权重,所述W2为所述用户的向量输入v2的权重。
5.如权利要求1所述的社交平台用户的现实关系匹配方法,其特征在于,所述获取所述社交平台上的用户之间的文本交互信息,根据所述用户之间的文本交互信息和卷积神经网络模型建立文本关系预测模型的步骤包括:
获取所述社交平台上的用户之间的文本交互信息m,其中,所述文本交互信息m包括多个词语{u1,u2,u3,...un},m∈M<h,t>;m代表包含实体h,t的文本交互信息,M代表包含实体h,t的文本交互信息的集合;
根据卷积神经网络模型对所述每一个词语建立低维度向量,通过已训练好的Word2Vec算法对所述每一个词语建立的低维度向量进行训练,重复提取所述词语并计算隐含特征向量,获取每一维所述隐含特征向量的最大值,并将所述隐含特征向量的最大值进行分类。
6.如权利要求5所述的社交平台用户的现实关系匹配方法,其特征在于,所述文本关系预测模型的目标函数包括:
其中,这里是预测分类标记,fm是真实分类标记。
7.如权利要求5所述的社交平台用户的现实关系匹配方法,其特征在于,所述文本关系预测模型的输出结果r=max{hi},其中,hi=tanh(W-1ui-1+W0ui+W1ui+1),所述u为所述用户之间的文本交互信息中的词语,所述W-1代表ui-1的权重,所述W0代表ui的权重,所述W1代表ui+1的权重。
8.如权利要求1~6中任一项所述的社交平台用户的现实关系匹配方法,其特征在于,所述将所述用户向量模型的输出结果以及所述文本关系预测模型的输出结果投射到同一个空间进行线性联合输出,以得到所述社交平台上的用户的现实关系预测分类的步骤包括:
根据预设的线性联合算法函数:将所述用户向量模型的输出结果hp以及所述文本关系预测模型的输出结果Υ投射到一预设空间,输出得到所述社交平台上的用户的现实关系预测分类;
其中,所述为将所述用户向量模型的输出结果hp投射到所述预设空间的参数,所述为将所述文本关系预测模型的输出结果Υ投射到所述预设空间的参数。
9.一种数据处理装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8中任一项所述的社交平台用户的现实关系匹配方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至8中任一项所述的社交平台用户的现实关系匹配方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710827452.0A CN107741953B (zh) | 2017-09-14 | 2017-09-14 | 社交平台用户的现实关系匹配方法、装置及可读存储介质 |
PCT/CN2017/109222 WO2019051962A1 (zh) | 2017-09-14 | 2017-11-03 | 社交平台用户的现实关系匹配方法、装置及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710827452.0A CN107741953B (zh) | 2017-09-14 | 2017-09-14 | 社交平台用户的现实关系匹配方法、装置及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107741953A true CN107741953A (zh) | 2018-02-27 |
CN107741953B CN107741953B (zh) | 2020-01-21 |
Family
ID=61235804
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710827452.0A Active CN107741953B (zh) | 2017-09-14 | 2017-09-14 | 社交平台用户的现实关系匹配方法、装置及可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107741953B (zh) |
WO (1) | WO2019051962A1 (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108537624A (zh) * | 2018-03-09 | 2018-09-14 | 西北大学 | 一种基于深度学习的旅游服务推荐方法 |
CN109947817A (zh) * | 2019-03-01 | 2019-06-28 | 武汉达梦数据库有限公司 | 一种基于关联图谱的六度空间关系分析方法及系统 |
WO2019196546A1 (zh) * | 2018-04-12 | 2019-10-17 | 阿里巴巴集团控股有限公司 | 确定业务请求事件的风险概率的方法及装置 |
CN110674637A (zh) * | 2019-09-06 | 2020-01-10 | 腾讯科技(深圳)有限公司 | 一种人物关系识别模型训练方法、装置、设备及介质 |
CN111369375A (zh) * | 2020-03-17 | 2020-07-03 | 深圳市随手金服信息科技有限公司 | 一种社交关系确定方法、装置、设备及存储介质 |
CN111797333A (zh) * | 2020-06-04 | 2020-10-20 | 南京擎盾信息科技有限公司 | 舆情传播任务展示的方法及装置 |
CN111797197A (zh) * | 2020-06-04 | 2020-10-20 | 南京擎盾信息科技有限公司 | 舆情分析的方法及装置 |
CN112085114A (zh) * | 2020-09-14 | 2020-12-15 | 杭州中奥科技有限公司 | 线上线下身份匹配方法、装置、设备及存储介质 |
CN112685614A (zh) * | 2021-03-17 | 2021-04-20 | 中国电子科技集团公司第三十研究所 | 一种社交媒体机器人群体快速检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104657369A (zh) * | 2013-11-19 | 2015-05-27 | 深圳市腾讯计算机系统有限公司 | 用户属性信息的生成方法及系统 |
US20160042282A1 (en) * | 2014-08-11 | 2016-02-11 | Rashied Baradaran Amini | Relationship evaluator |
CN106570764A (zh) * | 2016-11-09 | 2017-04-19 | 广州杰赛科技股份有限公司 | 一种用户关系预测方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140288999A1 (en) * | 2013-03-12 | 2014-09-25 | Correlor Technologies Ltd | Social character recognition (scr) system |
CN104615608B (zh) * | 2014-04-28 | 2018-05-15 | 腾讯科技(深圳)有限公司 | 一种数据挖掘处理系统及方法 |
CN104657434B (zh) * | 2015-01-30 | 2017-10-24 | 中国科学院信息工程研究所 | 一种社交网络结构构建方法 |
CN105741175B (zh) * | 2016-01-27 | 2019-08-20 | 电子科技大学 | 一种对在线社交网络中账户进行关联的方法 |
-
2017
- 2017-09-14 CN CN201710827452.0A patent/CN107741953B/zh active Active
- 2017-11-03 WO PCT/CN2017/109222 patent/WO2019051962A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104657369A (zh) * | 2013-11-19 | 2015-05-27 | 深圳市腾讯计算机系统有限公司 | 用户属性信息的生成方法及系统 |
US20160042282A1 (en) * | 2014-08-11 | 2016-02-11 | Rashied Baradaran Amini | Relationship evaluator |
CN106570764A (zh) * | 2016-11-09 | 2017-04-19 | 广州杰赛科技股份有限公司 | 一种用户关系预测方法及装置 |
Non-Patent Citations (1)
Title |
---|
李德民: "社会网络用户关系分析与预测", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108537624A (zh) * | 2018-03-09 | 2018-09-14 | 西北大学 | 一种基于深度学习的旅游服务推荐方法 |
CN108537624B (zh) * | 2018-03-09 | 2021-08-03 | 西北大学 | 一种基于深度学习的旅游服务推荐方法 |
WO2019196546A1 (zh) * | 2018-04-12 | 2019-10-17 | 阿里巴巴集团控股有限公司 | 确定业务请求事件的风险概率的方法及装置 |
CN109947817A (zh) * | 2019-03-01 | 2019-06-28 | 武汉达梦数据库有限公司 | 一种基于关联图谱的六度空间关系分析方法及系统 |
CN110674637A (zh) * | 2019-09-06 | 2020-01-10 | 腾讯科技(深圳)有限公司 | 一种人物关系识别模型训练方法、装置、设备及介质 |
CN111369375A (zh) * | 2020-03-17 | 2020-07-03 | 深圳市随手金服信息科技有限公司 | 一种社交关系确定方法、装置、设备及存储介质 |
CN111797197A (zh) * | 2020-06-04 | 2020-10-20 | 南京擎盾信息科技有限公司 | 舆情分析的方法及装置 |
CN111797197B (zh) * | 2020-06-04 | 2021-03-26 | 南京擎盾信息科技有限公司 | 舆情分析的方法及装置 |
CN111797333B (zh) * | 2020-06-04 | 2021-04-20 | 南京擎盾信息科技有限公司 | 舆情传播任务展示的方法及装置 |
CN111797333A (zh) * | 2020-06-04 | 2020-10-20 | 南京擎盾信息科技有限公司 | 舆情传播任务展示的方法及装置 |
CN112085114A (zh) * | 2020-09-14 | 2020-12-15 | 杭州中奥科技有限公司 | 线上线下身份匹配方法、装置、设备及存储介质 |
CN112085114B (zh) * | 2020-09-14 | 2024-07-12 | 杭州中奥科技有限公司 | 线上线下身份匹配方法、装置、设备及存储介质 |
CN112685614A (zh) * | 2021-03-17 | 2021-04-20 | 中国电子科技集团公司第三十研究所 | 一种社交媒体机器人群体快速检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107741953B (zh) | 2020-01-21 |
WO2019051962A1 (zh) | 2019-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107741953B (zh) | 社交平台用户的现实关系匹配方法、装置及可读存储介质 | |
CN110162703B (zh) | 内容推荐方法、训练方法、装置、设备及存储介质 | |
WO2022142006A1 (zh) | 基于语义识别的话术推荐方法、装置、设备及存储介质 | |
US9830313B2 (en) | Identifying expanding hashtags in a message | |
US10509791B2 (en) | Statistical feature engineering of user attributes | |
US11501161B2 (en) | Method to explain factors influencing AI predictions with deep neural networks | |
Xu et al. | Casflow: Exploring hierarchical structures and propagation uncertainty for cascade prediction | |
Wen et al. | A new automatic machine learning based hyperparameter optimization for workpiece quality prediction | |
CN108769026A (zh) | 用户账号检测系统和方法 | |
CN115270001A (zh) | 基于云端协同学习的隐私保护推荐方法及系统 | |
Kótyuk et al. | A machine learning based approach for predicting undisclosed attributes in social networks | |
CN111506733B (zh) | 对象画像的生成方法、装置、计算机设备和存储介质 | |
Rahman et al. | Spy-bot: Machine learning-enabled post filtering for social network-integrated industrial internet of things | |
Pathi et al. | Detecting groups and estimating f-formations for social human–robot interactions | |
CN110008348B (zh) | 结合节点和边进行网络图嵌入的方法和装置 | |
Shyaa et al. | Enhanced intrusion detection with data stream classification and concept drift guided by the incremental learning genetic programming combiner | |
US9569727B2 (en) | Predicting computer model accuracy | |
Sharma et al. | Comparative analysis of different algorithms in link prediction on social networks | |
CN113409096B (zh) | 目标对象识别方法、装置、计算机设备及存储介质 | |
CN111316259A (zh) | 用于反馈和裁定的语义属性的动态合成和瞬时聚簇的系统和方法 | |
Wan et al. | A security detection approach based on autonomy-oriented user sensor in social recommendation network | |
Kainz et al. | Information and agreement in the reputation game simulation | |
Bhambulkar et al. | Detecting fake profiles on social networks: a systematic investigation | |
JP2021077206A (ja) | 学習方法、評価装置、及び評価システム | |
US20230334299A1 (en) | Time series data set simulation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |