CN109190039B - 确定相似对象的方法、装置及计算机可读存储介质 - Google Patents

确定相似对象的方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN109190039B
CN109190039B CN201810999235.4A CN201810999235A CN109190039B CN 109190039 B CN109190039 B CN 109190039B CN 201810999235 A CN201810999235 A CN 201810999235A CN 109190039 B CN109190039 B CN 109190039B
Authority
CN
China
Prior art keywords
target object
neural network
relationship
sample objects
relation value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810999235.4A
Other languages
English (en)
Other versions
CN109190039A (zh
Inventor
彭颖鸿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810999235.4A priority Critical patent/CN109190039B/zh
Publication of CN109190039A publication Critical patent/CN109190039A/zh
Application granted granted Critical
Publication of CN109190039B publication Critical patent/CN109190039B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种确定相似对象的方法、装置及计算机可读存储介质,属于互联网技术领域。方法包括:根据第一目标对象和第二目标对象以及多个指定关系,确定第一目标对象和第二目标对象之间的第一关系值组合,第一关系值组合包括多个指定关系的关系值,每个指定关系的关系值用于指示第一目标对象和第二目标对象是否具有指定关系;将第一关系值组合输入到相似度神经网络中,得到第一目标对象和第二目标对象之间的相似度;当相似度大于预设相似度,确定第一目标对象和第二目标对象为相似对象。本申请考虑第一目标对象和第二目标对象的多个指定关系,确定匹配度,避免了仅根据两个目标对象的一个特征,确定匹配度导致的准确性差的问题,提高了准确性。

Description

确定相似对象的方法、装置及计算机可读存储介质
技术领域
本发明涉及互联网技术领域,特别涉及一种确定相似对象的方法、装置及计算机可读存储介质。
背景技术
随着互联网技术的发展,互联网中的对象的数量和种类也越来越多。例如,互联网中的对象包括多媒体信息、贴吧信息或者公众号信息等。在很多场景(例如,为用户推荐对象时)都需要确定某些对象是否为相似对象。
以两个对象分别为第一目标对象和第二目标对象为例进行说明。则相关技术中确定第一目标对象和第二目标对象是否为相似对象的步骤可以为:提取第一目标对象的第一特征和第二目标对象的第二特征;确定第一特征与第二特征的笛卡尔乘积,将该笛卡尔乘积作为第一目标对象和第二目标对象的相似度;当该相似度超过第一预设阈值时,确定第一目标对象和第二目标对象为相似对象;否则,确定第一目标对象和第二目标对象不为相似对象。
由于直接将两个特征的笛卡尔乘积作为相似度,并没有考虑第一目标对象和第二目标对象之间的关系。因此,导致确定相似对象的准确性差。
发明内容
本申请实施例提供了一种确定相似对象的方法、装置及计算机可读存储介质,可以解决准确性差的问题。技术方案如下:
第一方面,提供了一种定相似对象的方法,所述方法包括:
确定待第一目标对象和第二目标对象;
根据所述第一目标对象和所述第二目标对象,以及多个指定关系,确定所述第一目标对象和所述第二目标对象之间的第一关系值组合,所述第一关系值组合包括多个指定关系的关系值,每个指定关系的关系值用于指示所述第一目标对象和所述第二目标对象是否具有所述指定关系;
将所述第一关系值组合输入到相似度神经网络中,得到所述第一目标对象和所述第二目标对象之间的相似度,所述相似度神经网络为基于多个样本对象以及多个样本对象之间的关系值组合训练得到的;
当所述相似度大于预设相似度,确定所述第一目标对象和所述第二目标对象为相似对象。
第二方面,提供了一种确定相似对象的装置,所述装置包括:
第一确定模块,用于确定第一目标对象和第二目标对象;
第二确定模块,还用于根据所述第一目标对象和所述第二目标对象,以及多个指定关系,确定所述第一目标对象和所述第二目标对象之间的第一关系值组合,所述第一关系值组合包括多个指定关系的关系值,每个指定关系的关系值用于指示所述第一目标对象和所述第二目标对象是否具有所述指定关系;
输入模块,用于将所述第一关系值组合输入到相似度神经网络中,得到所述第一目标对象和所述第二目标对象之间的相似度,所述相似度神经网络为基于多个样本对象以及多个样本对象之间的关系值组合训练得到的;
第三确定模块,用于当所述相似度大于预设相似度,确定所述第一目标对象和所述第二目标对象为相似对象。
第三方面,提供了一种确定相似对象的装置,所述装置包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如第一方面所述的确定相似对象的方法中所执行的操作。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现如第一方面所述的确定相似对象的方法中所执行的操作。
在本申请实施例中,由于本申请是通过对第一关系值组合进行深度学习,确定两个目标对象之间的相似度,而第一关系值组合包括多个指定关系的关系值,因此本申请是考虑第一目标对象和第二目标对象之间的多个指定关系,确定两个目标对象之间的匹配度,避免了仅根据两个目标对象的一个特征,确定两个目标对象之间的匹配度导致的准确性差的问题,从而提高了准确性。
附图说明
图1是本申请实施例提供的一种实施环境的示意图;
图2是本申请实施例提供的一种相似度神经网络的训练的方法流程图;
图3是本申请实施例提供的一种训练编码神经网络和解码神经网络的示意图;
图4是本申请实施例提供的一种确定相似对象的方法流程图;
图5是本申请实施例提供的一种确定相似对象装置的结构示意图;
图6是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是本申请实施例提供的一种实施环境的示意图,参见图1,该实施环境包括终端101和服务器102。终端101和服务器102之间通过网络连接。终端101中运行服务器102关联的查询应用,基于该查询应用可以登录服务器102,从而与服务器102进行交互。
该查询应用可以为任一能够从服务器102中查询第一目标对象和第二目标对象是否为相似对象的应用。第一目标对象和第二目标对象可以为任一类型的两个目标对象。并且,第一目标对象和第二目标对象可以为同一类型的两个目标对象,也可以为不同类型的两个目标对象。在本申请实施例中,以第一目标对象和第二目标对象为同一类型的两个目标对象为例进行说明。例如,第一目标对象和第二目标对象的类型为公众号,相应的,本申请实施例可以确定出两个公众号是否为相似公众号。再如,第一目标对象和第二目标对象的类型为多媒体信息,相应的,本申请实施例可以确定出两个多媒体信息是否为相似多媒体信息。再如,第一目标对象和第二目标对象的类型为贴吧信息,相应的,本申请实施例可以确定出两个贴吧信息是否为相似贴吧信息。
在本申请实施例中,服务器102事先基于多个样本对象以及多个样本对象之间的关系值组合训练得到相似度神经网络。终端101在确定第一目标对象和第二目标对象是否为相似对象时,终端101基于已安装的查询应用向服务器102发送查询请求,该查询请求携带第一目标对象和第二目标对象。服务器102接收该查询请求,根据第一目标对象和第二目标对象,以及多个指定关系,确定第一目标对象和第二目标对象之间的第一关系值组合,第一关系值组合包括多个指定关系的关系值。服务器102将该第一关系值组合输入到事先训练得到的相似度神经网络中,得到第一目标对象和第二目标对象之间的相似度,根据该相似度,确定第一目标对象和第二目标对象是否为相似对象。
服务器102在确定出第一目标对象和第二目标对象是否为相似对象之后,服务器102还可以向终端101返回查询结果,该查询结果可以为第一目标对象和第二目标对象为相似对象,或者第一目标对象和第二目标对象为非相似对象。
在本申请实施例中,服务器102在确定第一目标对象和第二目标对象是否为相似对象之后,服务器102还可以根据第一目标对象和/或第二目标对象,确定第一目标对象的相似对象和/或第二目标对象的相似对象,向终端101返回第一目标对象的相似对象和/或第二目标对象的相似对象。从而实现服务器102为终端101推荐相似对象的过程。
终端101可以为手机终端、PAD(Portable Android Device,平板电脑)终端或者电脑终端等。服务器102是指为终端101提供后台服务的服务器102,可以为一台服务器102,或者由若干台服务器102组成的服务器102集群,或者是一个云计算服务器102中心,本申请实施例对此不做限定。在一种可能的实现方式中,服务器102可以为终端101中安装的查询应用的后台服务器。另外,该查询应用可以为终端101上安装的一个独立应用,也可以为终端101上的某个应用中的一个查询模块。
在本申请实施例中,通过相似度神经网络确定第一目标对象和第二目标对象是否为相似对象。第一目标对象和第二目标对象可以为任一对象,在本申请实施例中,对第一目标对象和第二目标对象不作具体限定。例如,第一目标对象和第二目标对象可以为两个公众号,第一目标对象和第二目标对象可以为两个多媒体信息,第一目标对象和第二目标对象可以为两个贴吧信息,第一目标对象和第二目标对象可以为两个广告信息等。
由于本申请实施例中是通过相似度神经网络确定第一目标对象和第二目标对象是否为相似对象。因此,在确定第一目标对象和第二目标对象是否为相似对象之前,需要训练相似度神经网络。在本申请实施例中以训练相似度神经网络为例进行说明。参见图2,该方法包括:
步骤201:服务器确定多个第一样本对象中的任意两个第一样本对象之间的第二关系值组合。
本步骤可以通过以下步骤(1)至(3)实现,包括:
(1):服务器确定多个第一样本对象。
多个第一样本对象为事先标注的样本对象。第一样本对象可以为多媒体数据、贴吧信息或者公众号等。在本申请实施例中对第一样本对象不作具体限定。并且,多个第一样本对象的数量可以根据需要进行设置并更改,在本申请实施例中,对第一样本对象的数量不作具体限定。例如,多个第一样本对象分别为样本A和样本B。
(2):服务器确定多个指定关系。
该多个指定关系可以为服务器默认的多个指定关系,也可以为用户设置的多个指定关系。当该多个指定关系为服务器默认的多个指定关系时,本步骤可以为:服务器获取默认的多个指定关系。当该多个指定关系为用户设置的多个指定关系时,本步骤可以为:终端向服务器发送配置请求,该配置请求携带该多个指定关系。服务器接收终端的配置请求,从该配置请求中获取该多个指定关系。
当第一样本对象为公众号时,多个指定关系可以为是否在同一台电脑上登录,是否发表相同文章、是否在同一时间登录等。在本申请实施例中,对多个指定关系不作具体限定。另外,多个指定关系的数量可以根据需要进行设置并更改,在本申请实施例中,对多个指定关系的数量不作具体限定;例如,该多个指定关系的数量可以为5;相应的,多个指定关系可以为关系1、关系2、关系3、关系4和关系5。
(3):对于多个第一样本对象中的任意两个样本对象,服务器确定该任意两个第一样本对象之间的第二关系值组合。
对于任一指定关系,服务器确定该任意两个第一样本对象是否具有该指定关系;当该任意两个第一样本对象具有该指定关系时,将该指定关系的关系值确定为第一数值;当该任意两个第一样本对象不具有该指定关系时,将该指定关系的关系值设置为第二数值,第一数值和第二数值不同。服务器将该任意两个第一样本对象的多个指定关系的关系值组成该任意两个第一样本对象之间的第二关系值组合。其中,第一数值和第二数值为任一不同的值;例如,第一数值可以为1,第二数值可以为0。
例如,多个第一样本对象分别为样本A和样本B;多个指定关系可以为关系1、关系2、关系3、关系4和关系5。则样本A与样本B之间的第一关系值组合为(样本A,样本B,关系1的关系值,关系2的关系值,关系3的关系值、关系4的关系值和关系5的关系值)。
需要说明的一点是,多个第一样本对象采用关系对的形式存储,避免需要重新计算多个第一样本对象之间的笛卡尔乘积,从而提高了处理效率。
步骤202:服务器根据该任意两个第一样本对象之间的第二关系值组合,对初始编码神经网络和初始解码神经网络进行迭代训练,直到任意两个第一样本对象在相邻两次迭代之间的梯度差小于第一预设阈值为止。
在本申请实施例中,利用神经网络构造一个编码器和解码器,通过神经网络进行训练时,会将数据进行“先编码后解码”的过程,在压缩的同时尽可能让原始数据跟解码后的数据保持一致,训练完成后,仅保留编码器,通过该编码器就可以计算出两个对象之间的相似度。相应的,本步骤可以通过以下步骤(1)至(6)实现,包括:
(1):服务器通过所述初始编码神经网络和所述初始解码神经网络,对所述任意两个第一样本对象之间的第二关系值组合进行编码和解码,得到所述任意两个第一样本对象之间的第四关系值组合。
初始编码神经网络用于基于关系值组合进行相似度计算。初始解码神经网络用于基于相似度确定关系值组合。相应的,本步骤可以为:服务器将该任意两个第一样本对象之间的第二关系值组合输入到该编码器中,输出该任意两个第一样本对象之间的第一相似度。将该任意两个第一样本对象之间的第一相似度输入至初始解码神经网络,得到该任意两个第一样本对象之间的第四关系值组合。例如,参见图3,虚线左侧为初始编码神经网络,虚线右侧为初始解码神经网络。
(2):服务器根据所述任意两个第一样本对象之间的第四关系值组合和第二关系值组合,确定所述任意两个第一样本对象之间的第一梯度。
本步骤可以通过以下步骤(2-1)和(2-2)实现,包括:
(2-1):服务器根据所述任意两个第一样本对象之间的第四关系值组合和第二关系值组合,确定所述任意两个第一样本对象之间的第一损失值,以及第一关系值向量和第二关系值向量。
第一损失值与该任意两个第一样本对象之间的第二关系值组合和第四关系值组合之间的差值成正比;且该第一损失值可以通过与第一关系值组合和第四关系值组合之间的差值成正比的任一计算公式确定。在本申请实施例中,对根据第一关系值组合和第四关系值组合,确定该第一损失值的具体计算公式不作具体限定。例如,服务器根据该任意两个第一样本对象之间的第二关系值组合和第四关系值组合,通过以下公式一,确定多个第一样本对象之间的第一损失值。
公式一:
Figure BDA0001782313730000071
其中,L(f(X))为该第一损失值,i为该任意两个第一样本对象的序号,N为任意两个第一样本对象的数量。xi为第i个任意两个第一样本对象的第一关系值组合,
Figure BDA0001782313730000072
为第i个任意两个第一样本对象的第四关系值组合。
其中,服务器确定第一关系值向量和第二关系值向量的步骤可以为:服务器将多个第一样本对象中的任意两个第一样本对象之间的第二关系值组合组成第一关系值向量,将多个第一样本对象中的任意多个第一样本对象之间的第四关系值组合组成第二关系值向量。
例如,多个第一样本对象中的任意两个第一样本对象之间的第二关系值组合分别为xi,则第一关系值向量为X。多个第一样本对象中的任意两个第一样本对象之间的第四关系值组合分别为
Figure BDA0001782313730000073
则第二关系值向量为
Figure BDA0001782313730000074
(2-2):服务器根据所述第一损失值、所述第一关系值向量和所述第二关系值向量,确定所述任意两个第一样本对象之间的第一梯度。
服务器确定第二关系值向量与第一关系值向量之间的向量差,根据该向量差和该第一损失值,确定该任意两个第一样本对象之间的第一梯度。其中,该第一梯度与该向量差成反比。并且,服务器根据该向量差和该第一损失值,确定该任意两个第一样本对象之间的第一梯度可以通过任一该第一梯度与该向量差成反比的计算公式计算,在本申请实施例中,对该计算公式不作具体限定。例如,服务器根据该第一关系值向量、第二关系值向量和该第一损失值,通过以下公式二,确定该任意两个第一样本对象之间的第一梯度。
公式二:
Figure BDA0001782313730000081
其中,
Figure BDA0001782313730000082
为该第一梯度,该
Figure BDA0001782313730000083
为第二关系值向量,X为第一关系值向量,L(f(X))为该第一损失值。
Figure BDA0001782313730000084
为该向量差。
(3):服务器更新所述初始编码神经网络和所述初始解码神经网络,并通过更新后的初始编码神经网络和更新后的解码神经网络,对所述任意两个第一样本对象之间的第二关系值组合进行编码和解码,得到所述任意两个第一样本对象之间的第五关系值组合。
其中,服务器更新所述初始编码神经网络和所述初始解码神经网络的步骤可以通过以下步骤(3-1)和(3-3)实现,包括:
(3-1):服务器获取多个第二样本对象中的任意两个第二样本对象之间的基准相似度。其中,基准相似度可以为用户标注的相似度。
(3-2):服务器获取所述任意两个第二样本对象之间的多个第六关系值组合。
服务器获取该任意两个第二样本对象之间的基准关系值组合,对该基准关系值组合进行高斯噪声处理,得到多个第六关系值组合。
例如,多个第二样本对象分别为样本C和样本D;样本C和样本D的基准关系值组合为(1,1),服务器对该基准关系值组合进行高斯噪声处理,得到多个第四关系值组合分别为(0.91,0.92)、(0.98,095)和(0.96,0.97)等等。
(3-3):服务器根据所述任意两个第二样本对象之间的基准相似度和多个第六关系值组合,通过迭代所述初始编码神经网络和所述初始解码神经网络,直到通过更新后的编码神经网络对所述任意两个第二样本对象之间的多个第六关系值组合得到的训练相似度与所述基准相似度匹配,且通过更新后的解码神经网络对所述训练相似度进行解码,得到的多个第七关系值组合与所述多个第六关系值组合匹配为止。
在本申请实施例中,在服务器在更新编码器和解码器时,服务器可以根据业务需要,为网络提供训练的方向。例如,在具体业务当中,要求当两个第二样本对象具有关系1和关系2时,两个第二样本对象几乎完全相似,其基准相似度为1。因此基于该方法更新该初始编码神经网络和初始解码神经网络的准确性更高。
另外,服务器通过更新后的初始编码神经网络和更新后的解码神经网络,对所述任意两个第一样本对象之间的第二关系值组合进行编码和解码,得到所述任意两个第一样本对象之间的第五关系值组合的步骤与步骤(1)的过程相似,在此不再赘述。
(4):服务器根据所述任意两个第一样本对象之间的第五关系值组合和第二关系值组合,确定所述任意两个第一样本对象之间的第二梯度。
本步骤和步骤(2)的处理过程相似,在此不再赘述。
(5):当所述第二梯度和所述第一梯度之间的梯度差小于预设阈值时,停止。
服务器确定第二梯度与第一梯度之间的梯度差,确定该梯度差是否小于预设阈值;当该梯度差小于预设阈值时,停止迭代,将当前的编码神经网络和解码神经网络作为更新后的编码神经网络和解码神经网络。
(6):当所述第二梯度和所述第一梯度之间的梯度差不小于预设阈值时,再次更新所述更新后的编码神经网络和解码神经网络,直到所述任意两个第一样本对象在相邻两次迭代之间的梯度差小于预设阈值为止。
步骤203:服务器将迭代后的编码神经网络作为该相似度神经网络。
图4是根据一示例性实施例提出的一种确定相似对象的方法的流程图,如图4所示,该方法应用在服务器中,包括以下步骤。
步骤401、服务器确定第一目标对象和第二目标对象。
当需要确定两个对象是否为相似对象时,终端向服务器发送查询请求,该查询请求携带第一目标对象和第二目标对象。服务器接收终端的查询请求,从该查询请求中获取第一目标对象和第二目标对象。例如,第一目标对象和第二目标对象分别为公众号1和公众号2。
步骤402:服务器获取第一目标对象和第二目标对象之间的第一关系值组合。
该第一关系值组合包括多个指定关系的关系值,每个关系的关系值用于指示第一目标对象和第二目标对象之间是否具有该指定关系。相应的,本步骤可以通过以下步骤(1)至(3)实现,包括:
(1):服务器确定多个指定关系。
该多个指定关系可以为服务器默认的多个指定关系,也可以为用户设置的多个指定关系。当该多个指定关系为服务器默认的多个指定关系时,本步骤可以为:服务器获取默认的多个指定关系。当该多个指定关系为用户设置的多个指定关系时,本步骤可以为:终端向服务器发送的该查询请求不仅携带第一目标对象和第二目标对象,该查询请求还携带多个指定关系。服务器从该查询请求中获取该多个指定关系。第一目标对象和第二目标对象可以为两个多媒体信息、两个贴吧信息或者两个公众号等。当第一目标对象和第二目标对象为两个公众号时,多个指定关系可以为是否发表过同一篇文章,是否登录同一台电脑或者是否在同一时间登录等。
(2):对于每个指定关系,服务器确定所述第一目标对象和所述第二目标对象是否具有所述指定关系;当所述第一目标对象和所述第二目标对象具有所述指定关系时,将所述指定关系的关系值设置为第一数值,当所述第一目标对象和所述第二目标对象不具有所述指定关系时,将所述指定关系的关系值设置为第二数值,所述第一数值和所述第二数值不同。
(3):服务器将所述第一目标对象和所述第二目标对象的多个指定关系的关系值组成所述第一目标对象和所述第二目标对象之间的第一关系值组合。
步骤403:服务器将第一关系值组合输入到相似度神经网络中,得到第一目标对象和第二目标对象之间的相似度,该相似度神经网络为基于多个样本对象以及多个样本对象之间的关系值组合训练得到的。
服务器将该第一关系值组合输入至相似度神经网络,输出第一目标对象和第二目标对象之间的相似度。
步骤404:服务器确定该相似度是否大于预设相似度;当该相似度大于预设相似度时,确定第一目标对象和第二目标对象为相似对象。
当该相似度不大于预设相似度时,服务器确定第一目标对象和第二目标对象为非相似对象。其中,预设相似度可以根据需要进行设置并更改,在本申请实施例中,对预设相似度不作具体限定;例如,预设相似度可以为85%或者90%等。
在一个可能的实现方式中,服务器确定出第一目标对象和第二目标对象是否为相似对象之后,服务器向终端发送查询结果,该查询结果可以为第一目标对象和第二目标对象为相似对象,或者第一目标对象和第二目标对象为非相似对象。
另外,服务器确定出第一目标对象和第二目标对象是否相似对象之后,还可以获取第一目标对象的相似对象或者第二目标对象的相似对象,向终端返回第一目标对象的相似对象或者第二目标对象的相似对象。
在本申请实施例中,由于本申请是通过对第一关系值组合进行深度学习,确定两个目标对象之间的相似度,而第一关系值组合包括多个指定关系的关系值,因此本申请是考虑第一目标对象和第二目标对象之间的多个指定关系,确定两个目标对象之间的匹配度,避免了仅根据两个目标对象的一个特征,确定两个目标对象之间的匹配度导致的准确性差的问题,从而提高了准确性。
图5是根据一示例性实施例提出的一种确定相似对象的装置结构示意图,该装置应用于服务器中,用于执行上述确定相似对象的方法中服务器执行的步骤。参见图5,该装置包括:
第一确定模块501,用于确定第一目标对象和第二目标对象;
第二确定模块502,还用于根据所述第一目标对象和所述第二目标对象,以及多个指定关系,确定所述第一目标对象和所述第二目标对象之间的第一关系值组合,所述第一关系值组合包括多个指定关系的关系值,每个指定关系的关系值用于指示所述第一目标对象和所述第二目标对象是否具有所述指定关系;
输入模块503,用于将所述第一关系值组合输入到相似度神经网络中,得到所述第一目标对象和所述第二目标对象之间的相似度,所述相似度神经网络为基于多个样本对象以及多个样本对象之间的关系值组合训练得到的;
第三确定模块504,用于当所述相似度大于预设相似度,确定所述第一目标对象和所述第二目标对象为相似对象。
在一个可能的实现方式中,所述第二确定模块502,还用于确定多个指定关系;对于每个指定关系,确定所述第一目标对象和所述第二目标对象是否具有所述指定关系,当所述第一目标对象和所述第二目标对象具有所述指定关系时,将所述指定关系的关系值设置为第一数值,当所述第一目标对象和所述第二目标对象不具有所述指定关系时,将所述指定关系的关系值设置为第二数值,所述第一数值和所述第二数值不同;将所述第一目标对象和所述第二目标对象的多个指定关系的关系值组成所述第一目标对象和所述第二目标对象之间的第一关系值组合。
在另一个可能的实现方式中,所述装置还包括:
第四确定模块,用于确定多个第一样本对象中的任意两个第一样本对象之间的第二关系值组合;
迭代模块,用于根据所述任意两个第一样本对象之间的第二关系值组合,对初始编码神经网络和初始解码神经网络进行迭代训练,直到所述任意两个第一样本对象在相邻两次迭代之间的梯度差小于预设阈值为止;
作为模块,用于将迭代后的编码神经网络作为所述相似度神经网络。
在另一个可能的实现方式中,所述迭代模块,还用于:
通过所述初始编码神经网络和所述初始解码神经网络,对所述任意两个第一样本对象之间的第二关系值组合进行编码和解码,得到所述任意两个第一样本对象之间的第四关系值组合;
根据所述任意两个第一样本对象之间的第四关系值组合和第二关系值组合,确定所述任意两个第一样本对象之间的第一梯度;
更新所述初始编码神经网络和所述初始解码神经网络,并通过更新后的初始编码神经网络和更新后的解码神经网络,对所述任意两个第一样本对象之间的第二关系值组合进行编码和解码,得到所述任意两个第一样本对象之间的第五关系值组合;
根据所述任意两个第一样本对象之间的第五关系值组合和第二关系值组合,确定所述任意两个第一样本对象之间的第二梯度;
当所述第二梯度和所述第一梯度之间的梯度差小于预设阈值时,停止;
当所述第二梯度和所述第一梯度之间的梯度差不小于预设阈值时,再次更新所述更新后的编码神经网络和解码神经网络,直到所述任意两个第一样本对象在相邻两次迭代之间的梯度差小于预设阈值为止。
在另一个可能的实现方式中,所述迭代模块,还用于:
根据所述任意两个第一样本对象之间的第四关系值组合和第二关系值组合,确定所述任意两个第一样本对象之间的第一损失值,以及第一关系值向量和第二关系值向量;
根据所述第一损失值、所述第一关系值向量和所述第二关系值向量,确定所述任意两个第一样本对象之间的第一梯度。
在另一个可能的实现方式中,所述迭代模块,还用于:
获取多个第二样本对象中的任意两个第二样本对象之间的基准相似度,以及获取所述任意两个第二样本对象之间的多个第六关系值组合;
根据所述任意两个第二样本对象之间的基准相似度和多个第六关系值组合,通过迭代所述初始编码神经网络和所述初始解码神经网络,直到通过更新后的编码神经网络对所述任意两个第二样本对象之间的多个第六关系值组合得到的训练相似度与所述基准相似度匹配,且通过更新后的解码神经网络对所述训练相似度进行解码,得到的多个第七关系值组合与所述多个第六关系值组合匹配为止。
在另一个可能的实现方式中,所述迭代模块,还用于:
获取多个第二样本对象中的任意两个第二样本对象之间的基准相似度,以及获取所述任意两个第二样本对象之间的多个第六关系值组合;
根据所述任意两个第二样本对象之间的基准相似度和多个第六关系值组合,通过迭代所述初始编码神经网络和所述初始解码神经网络,直到通过更新后的编码神经网络对所述任意两个第二样本对象之间的多个第六关系值组合得到的训练相似度与所述基准相似度匹配,且通过更新后的解码神经网络对所述训练相似度进行解码,得到的多个第七关系值组合与所述多个第六关系值组合匹配为止。
在另一个可能的实现方式中,所述迭代模块,还用于:
获取所述任意两个第二样本对象之间的基准关系值组合;
对所述基准关系值组合进行高斯噪声处理,得到多个第六关系值组合。
在本申请实施例中,由于本申请是通过对第一关系值组合进行深度学习,确定两个目标对象之间的相似度,而第一关系值组合包括多个指定关系的关系值,因此本申请是考虑第一目标对象和第二目标对象之间的多个指定关系,确定两个目标对象之间的匹配度,避免了仅根据两个目标对象的一个特征,确定两个目标对象之间的匹配度导致的准确性差的问题,从而提高了准确性。
需要说明的是:上述实施例提供的确定相似对象的装置在确定相似对象时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的确定相似对象的装置与确定相似对象的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图6是本申请实施例提供的一种服务器的结构示意图;该服务器600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)622(例如,一个或一个以上处理器)和存储器632,一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器622可以设置为与存储介质630通信,在服务器600上执行存储介质630中的一系列指令操作。
服务器600还可以包括一个或一个以上电源626,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口658,一个或一个以上键盘656,和/或,一个或一个以上操作系统641,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
该服务器600可以用于执行上述实施例提供的确定相似对象的方法中服务器所执行的步骤。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质应用于服务器,该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,该指令、该程序、该代码集或该指令集由处理器加载并执行以实现上述实施例的确定相似对象的方法中服务器所执行的操作。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种确定相似对象的方法,其特征在于,所述方法包括:
确定第一目标对象和第二目标对象;
根据所述第一目标对象和所述第二目标对象,以及多个指定关系,确定所述第一目标对象和所述第二目标对象之间的第一关系值组合,所述第一关系值组合包括多个指定关系的关系值,每个指定关系的关系值用于指示所述第一目标对象和所述第二目标对象是否具有所述指定关系;
将所述第一关系值组合输入到相似度神经网络中,得到所述第一目标对象和所述第二目标对象之间的相似度,所述相似度神经网络为基于多个样本对象以及多个样本对象之间的关系值组合训练得到的;
当所述相似度大于预设相似度,确定所述第一目标对象和所述第二目标对象为相似对象。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一目标对象和所述第二目标对象,以及多个指定关系,确定所述第一目标对象和所述第二目标对象之间的第一关系值组合,包括:
确定多个指定关系;
对于每个指定关系,确定所述第一目标对象和所述第二目标对象是否具有所述指定关系,当所述第一目标对象和所述第二目标对象具有所述指定关系时,将所述指定关系的关系值设置为第一数值,当所述第一目标对象和所述第二目标对象不具有所述指定关系时,将所述指定关系的关系值设置为第二数值,所述第一数值和所述第二数值不同;
将所述第一目标对象和所述第二目标对象的多个指定关系的关系值组成所述第一目标对象和所述第二目标对象之间的第一关系值组合。
3.根据权利要求1所述的方法,其特征在于,所述相似度神经网络为基于多个样本对象以及多个样本对象之间的关系值组合训练得到的,包括:
确定多个第一样本对象中的任意两个第一样本对象之间的第二关系值组合;
根据所述任意两个第一样本对象之间的第二关系值组合,对初始编码神经网络和初始解码神经网络进行迭代训练,直到所述任意两个第一样本对象在相邻两相邻两次迭代之间的梯度差小于预设阈值为止;
将迭代后的编码神经网络作为所述相似度神经网络。
4.根据权利要求3所述的方法,其特征在于,所述根据所述任意两个第一样本对象之间的第二关系值组合,对初始编码神经网络和初始解码神经网络进行迭代训练,直到所述任意两个第一样本对象在相邻两次迭代之间的梯度差小于预设阈值为止,包括:
通过所述初始编码神经网络和所述初始解码神经网络,对所述任意两个第一样本对象之间的第二关系值组合进行编码和解码,得到所述任意两个第一样本对象之间的第四关系值组合;
根据所述任意两个第一样本对象之间的第四关系值组合和第二关系值组合,确定所述任意两个第一样本对象之间的第一梯度;
更新所述初始编码神经网络和所述初始解码神经网络,并通过更新后的初始编码神经网络和更新后的解码神经网络,对所述任意两个第一样本对象之间的第二关系值组合进行编码和解码,得到所述任意两个第一样本对象之间的第五关系值组合;
根据所述任意两个第一样本对象之间的第五关系值组合和第二关系值组合,确定所述任意两个第一样本对象之间的第二梯度;
当所述第二梯度和所述第一梯度之间的梯度差小于预设阈值时,停止;
当所述第二梯度和所述第一梯度之间的梯度差不小于预设阈值时,再次更新所述更新后的编码神经网络和解码神经网络,直到所述任意两个第一样本对象在相邻两次迭代之间的梯度差小于预设阈值为止。
5.根据权利要求4所述的方法,其特征在于,所述根据所述任意两个第一样本对象之间的第四关系值组合和第二关系值组合,确定所述任意两个第一样本对象之间的第一梯度,包括:
根据所述任意两个第一样本对象之间的第四关系值组合和第二关系值组合,确定所述任意两个第一样本对象之间的第一损失值,以及第一关系值向量和第二关系值向量;
根据所述第一损失值、所述第一关系值向量和所述第二关系值向量,确定所述任意两个第一样本对象之间的第一梯度。
6.根据权利要求4所述的方法,其特征在于,所述更新所述初始编码神经网络和所述初始解码神经网络,包括:
获取多个第二样本对象中的任意两个第二样本对象之间的基准相似度,以及获取所述任意两个第二样本对象之间的多个第六关系值组合;
根据所述任意两个第二样本对象之间的基准相似度和多个第六关系值组合,通过迭代所述初始编码神经网络和所述初始解码神经网络,直到通过更新后的编码神经网络对所述任意两个第二样本对象之间的多个第六关系值组合得到的训练相似度与所述基准相似度匹配,且通过更新后的解码神经网络对所述训练相似度进行解码,得到的多个第七关系值组合与所述多个第六关系值组合匹配为止。
7.根据权利要求6所述的方法,其特征在于,所述获取所述任意两个第二样本对象之间的多个第六关系值组合,包括:
获取所述任意两个第二样本对象之间的基准关系值组合;
对所述基准关系值组合进行高斯噪声处理,得到多个第六关系值组合。
8.一种确定相似对象的装置,其特征在于,所述装置包括:
第一确定模块,用于确定第一目标对象和第二目标对象;
第二确定模块,还用于根据所述第一目标对象和所述第二目标对象,以及多个指定关系,确定所述第一目标对象和所述第二目标对象之间的第一关系值组合,所述第一关系值组合包括多个指定关系的关系值,每个指定关系的关系值用于指示所述第一目标对象和所述第二目标对象是否具有所述指定关系;
输入模块,用于将所述第一关系值组合输入到相似度神经网络中,得到所述第一目标对象和所述第二目标对象之间的相似度,所述相似度神经网络为基于多个样本对象以及多个样本对象之间的关系值组合训练得到的;
第三确定模块,用于当所述相似度大于预设相似度,确定所述第一目标对象和所述第二目标对象为相似对象。
9.根据权利要求8所述的装置,其特征在于,所述第二确定模块,还用于:
确定多个指定关系;
对于每个指定关系,确定所述第一目标对象和所述第二目标对象是否具有所述指定关系,当所述第一目标对象和所述第二目标对象具有所述指定关系时,将所述指定关系的关系值设置为第一数值,当所述第一目标对象和所述第二目标对象不具有所述指定关系时,将所述指定关系的关系值设置为第二数值,所述第一数值和所述第二数值不同;
将所述第一目标对象和所述第二目标对象的多个指定关系的关系值组成所述第一目标对象和所述第二目标对象之间的第一关系值组合。
10.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第四确定模块,用于确定多个第一样本对象中的任意两个第一样本对象之间的第二关系值组合;
迭代模块,用于根据所述任意两个第一样本对象之间的第二关系值组合,对初始编码神经网络和初始解码神经网络进行迭代训练,直到所述任意两个第一样本对象在相邻两次迭代之间的梯度差小于预设阈值为止;
作为模块,用于将迭代后的编码神经网络作为所述相似度神经网络。
11.根据权利要求10所述的装置,其特征在于,所述迭代模块,还用于:
通过所述初始编码神经网络和所述初始解码神经网络,对所述任意两个第一样本对象之间的第二关系值组合进行编码和解码,得到所述任意两个第一样本对象之间的第四关系值组合;
根据所述任意两个第一样本对象之间的第四关系值组合和第二关系值组合,确定所述任意两个第一样本对象之间的第一梯度;
更新所述初始编码神经网络和所述初始解码神经网络,并通过更新后的初始编码神经网络和更新后的解码神经网络,对所述任意两个第一样本对象之间的第二关系值组合进行编码和解码,得到所述任意两个第一样本对象之间的第五关系值组合;
根据所述任意两个第一样本对象之间的第五关系值组合和第二关系值组合,确定所述任意两个第一样本对象之间的第二梯度;
当所述第二梯度和所述第一梯度之间的梯度差小于预设阈值时,停止;
当所述第二梯度和所述第一梯度之间的梯度差不小于预设阈值时,再次更新所述更新后的编码神经网络和解码神经网络,直到所述任意两个第一样本对象在相邻两次迭代之间的梯度差小于预设阈值为止。
12.根据权利要求11所述的装置,其特征在于,所述迭代模块,还用于:
根据所述任意两个第一样本对象之间的第四关系值组合和第二关系值组合,确定所述任意两个第一样本对象之间的第一损失值,以及第一关系值向量和第二关系值向量;
根据所述第一损失值、所述第一关系值向量和所述第二关系值向量,确定所述任意两个第一样本对象之间的第一梯度。
13.根据权利要求11所述的装置,其特征在于,所述迭代模块,还用于:
获取多个第二样本对象中的任意两个第二样本对象之间的基准相似度,以及获取所述任意两个第二样本对象之间的多个第六关系值组合;
根据所述任意两个第二样本对象之间的基准相似度和多个第六关系值组合,通过迭代所述初始编码神经网络和所述初始解码神经网络,直到通过更新后的编码神经网络对所述任意两个第二样本对象之间的多个第六关系值组合得到的训练相似度与所述基准相似度匹配,且通过更新后的解码神经网络对所述训练相似度进行解码,得到的多个第七关系值组合与所述多个第六关系值组合匹配为止。
14.一种确定相似对象的装置,其特征在于,所述装置包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至7任一权利要求所述的确定相似对象的方法中所执行的操作。
15.一种计算机可读存储介质,其特征在于,应用于服务器,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1至7任一权利要求所述的确定相似对象的方法中所执行的操作。
CN201810999235.4A 2018-08-29 2018-08-29 确定相似对象的方法、装置及计算机可读存储介质 Active CN109190039B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810999235.4A CN109190039B (zh) 2018-08-29 2018-08-29 确定相似对象的方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810999235.4A CN109190039B (zh) 2018-08-29 2018-08-29 确定相似对象的方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109190039A CN109190039A (zh) 2019-01-11
CN109190039B true CN109190039B (zh) 2021-12-14

Family

ID=64916734

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810999235.4A Active CN109190039B (zh) 2018-08-29 2018-08-29 确定相似对象的方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109190039B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110275936B (zh) * 2019-05-09 2021-11-23 浙江工业大学 一种基于自编码神经网络的相似法律案例检索方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372659A (zh) * 2016-08-30 2017-02-01 五八同城信息技术有限公司 相似对象确定方法及装置
WO2017190610A1 (zh) * 2016-05-05 2017-11-09 腾讯科技(深圳)有限公司 目标用户定向方法、装置和计算机存储介质
CN108062556A (zh) * 2017-11-10 2018-05-22 广东药科大学 一种药物-疾病关系识别方法、系统和装置
CN108154165A (zh) * 2017-11-20 2018-06-12 华南师范大学 基于大数据与深度学习的婚恋对象匹配数据处理方法、装置、计算机设备和存储介质
CN108197670A (zh) * 2018-01-31 2018-06-22 国信优易数据有限公司 伪标签生成模型训练方法、装置及伪标签生成方法及装置
CN108227564A (zh) * 2017-12-12 2018-06-29 深圳和而泰数据资源与云技术有限公司 一种信息处理方法、终端及计算机可读介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180027887A (ko) * 2016-09-07 2018-03-15 삼성전자주식회사 뉴럴 네트워크에 기초한 인식 장치 및 뉴럴 네트워크의 트레이닝 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017190610A1 (zh) * 2016-05-05 2017-11-09 腾讯科技(深圳)有限公司 目标用户定向方法、装置和计算机存储介质
CN106372659A (zh) * 2016-08-30 2017-02-01 五八同城信息技术有限公司 相似对象确定方法及装置
CN108062556A (zh) * 2017-11-10 2018-05-22 广东药科大学 一种药物-疾病关系识别方法、系统和装置
CN108154165A (zh) * 2017-11-20 2018-06-12 华南师范大学 基于大数据与深度学习的婚恋对象匹配数据处理方法、装置、计算机设备和存储介质
CN108227564A (zh) * 2017-12-12 2018-06-29 深圳和而泰数据资源与云技术有限公司 一种信息处理方法、终端及计算机可读介质
CN108197670A (zh) * 2018-01-31 2018-06-22 国信优易数据有限公司 伪标签生成模型训练方法、装置及伪标签生成方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Similarity of Objects and the Meaning of Words;Rudi Cilibrasi等;《Theory and Applications of Models of Computation. TAMC 2006. Lecture Notes in Computer Science》;20061231;第21-45页 *
基于BP神经网络的属性匹配方法研究;强保华等;《计算机科学》;20060130;第249-251+259页 *

Also Published As

Publication number Publication date
CN109190039A (zh) 2019-01-11

Similar Documents

Publication Publication Date Title
CN107506495B (zh) 信息推送方法和装置
US20190253760A1 (en) Method and apparatus for recommending video
CN111144937A (zh) 广告素材确定方法、装置、设备及存储介质
CN111260220B (zh) 群控设备识别方法、装置、电子设备和存储介质
CN114245896A (zh) 向量查询方法、装置、电子设备及存储介质
CN112800197A (zh) 一种目标故障信息的确定方法和装置
CN110442623B (zh) 大数据挖掘方法、装置及数据挖掘服务器
CN115357571A (zh) 一种数据去重方法、装置、设备及介质
CN111368697A (zh) 一种信息识别方法和装置
CN111629063A (zh) 基于区块链的分布式文件下载的方法和电子设备
CN109190039B (zh) 确定相似对象的方法、装置及计算机可读存储介质
CN111667018B (zh) 一种对象聚类的方法、装置、计算机可读介质及电子设备
CN111125163B (zh) 用于处理数据的方法和装置
CN112182108A (zh) 基于区块链的分布式数据存储更新方法和电子设备
CN110020040B (zh) 查询数据的方法、装置和系统
US20190340542A1 (en) Computational Efficiency in Symbolic Sequence Analytics Using Random Sequence Embeddings
CN115756821A (zh) 在线任务处理模型训练、任务处理方法及装置
CN110895582A (zh) 一种数据处理的方法和设备
CN112328641B (zh) 多维度数据聚合方法、装置及计算机设备
CN109308299B (zh) 用于搜索信息的方法和装置
CN110334067B (zh) 一种稀疏矩阵压缩方法、装置、设备及存储介质
CN112231510A (zh) 声纹存储方法、声纹查询方法、服务器及存储介质
CN112052341A (zh) 知识图谱剪枝方法及装置
CN115982206B (zh) 一种处理数据的方法和装置
CN111767391B (zh) 目标文本生成方法、装置、计算机系统和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant