CN113326860A - 数据处理方法、装置、电子设备和计算机存储介质 - Google Patents

数据处理方法、装置、电子设备和计算机存储介质 Download PDF

Info

Publication number
CN113326860A
CN113326860A CN202010479762.XA CN202010479762A CN113326860A CN 113326860 A CN113326860 A CN 113326860A CN 202010479762 A CN202010479762 A CN 202010479762A CN 113326860 A CN113326860 A CN 113326860A
Authority
CN
China
Prior art keywords
graph
target
sample
path
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010479762.XA
Other languages
English (en)
Other versions
CN113326860B (zh
Inventor
师超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202010479762.XA priority Critical patent/CN113326860B/zh
Publication of CN113326860A publication Critical patent/CN113326860A/zh
Application granted granted Critical
Publication of CN113326860B publication Critical patent/CN113326860B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种数据处理方法、装置、电子设备和计算机存储介质。所述数据处理方法用于对预测模型进行训练,所述预测模型对邻近图进行检索路径区段质量预测,所述方法包括:基于至少一个邻近图样本进行特征向量检索,得到对应的邻近图样本的路径区段访问统计信息;基于所述至少一个邻近图样本和其对应的路径区段访问统计信息,对图神经网络进行训练,得到所述预测模型。本发明实施例的方案由于基于邻近图样本的路径区段访问统计信息来训练预测模型,因此能够有效地利用预测模型对邻近图进行检索路径区段质量预测,从而提高了检索效率。

Description

数据处理方法、装置、电子设备和计算机存储介质
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种数据处理方法、装置、电子设备和计算机存储介质。
背景技术
在机器学习领域,语义检索、图像识别、推荐系统等方向常涉及到从海量的向量库中找到最相似的前K个向量。通常这些向量的维度很高,对于在线服务,用传统的方法查找是非常耗时的,容易使得时延上成为瓶颈,因此业界通用的方式就是将最相似的查找转换成近似最近邻(ANN,Approximate Nearest Neighbor)问题。
通常,在执行ANN检索时,在基于内容的图像、视频、文本、语音的检索和推荐系统中通常从图像、视频、文本、语音中提取出描述内容的特征向量,然后在数据库中查找与检索特征向量相似的向量,并返回结果。但是,上述的检索效率还存进一步改进的空间。
发明内容
有鉴于此,本发明实施例提供一种数据处理方法、装置、电子设备和计算机存储介质,以解决或缓解上述问题。
根据本发明实施例的第一方面,提供了一种数据处理方法,用于对预测模型进行训练,所述预测模型对邻近图进行检索路径区段质量预测,所述方法包括:基于至少一个邻近图样本进行特征向量检索,得到对应的邻近图样本的路径区段访问统计信息;基于所述至少一个邻近图样本和其对应的路径区段访问统计信息,对图神经网络进行训练,得到所述预测模型。
根据本发明实施例的第二方面,提供了一种数据处理方法,包括:获取目标邻近图;基于预测模型,得到所述目标近邻图的路径区段质量信息,所述预测模型通过第一方面所述的方法训练得到;基于所述路径区段质量信息,对所述目标近邻图进行剪裁。
根据本发明实施例的第三方面,提供了一种数据处理方法,包括:获取对目标特征向量的近似最邻近检索请求;向所述近似最邻近检索请求,对存储的邻近图进行检索,得到近似最邻近检索结果,所述存储的邻近图为第二方面所述的经剪裁邻近图;返回所述近似最邻近检索结构。
根据本发明实施例的第四方面,提供了一种数据处理装置,用于对预测模型进行训练,所述预测模型对邻近图进行检索路径区段质量预测,所述装置包括:检索模块,基于至少一个邻近图样本进行特征向量检索,得到对应的邻近图样本的路径区段访问统计信息;训练模块,基于所述至少一个邻近图样本和其对应的路径区段访问统计信息,对图神经网络进行训练,得到所述预测模型。
根据本发明实施例的第五方面,提供了一种数据处理装置,包括:获取模块,获取目标邻近图;预测模块,基于预测模型,得到所述目标近邻图的路径区段质量信息,所述预测模型通过第一方面所述的方法训练得到;剪裁模块,基于所述路径区段质量信息,对所述目标近邻图进行剪裁。
根据本发明实施例的第六方面,提供了一种数据处理装置,包括:获取模块,获取对目标特征向量的近似最邻近检索请求;检索模块,向所述近似最邻近检索请求,对存储的邻近图进行检索,得到近似最邻近检索结果,所述存储的邻近图为第二方面所述的经剪裁邻近图;返回模块,返回所述近似最邻近检索结构。
根据本发明实施例的第七方面,提供了一种电子设备,所述设备包括:一个或多个处理器;计算机可读介质,配置为存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面至第三方面中的任一方面所述的方法。
根据本发明实施例的第八方面,提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面至第三方面中的任一方面所述的方法。
本发明实施例的方案由于基于邻近图样本的路径区段访问统计信息来训练预测模型,因此能够有效地利用预测模型对邻近图进行检索路径区段质量预测,从而提高了检索效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明的一个实施例的数据处理方法所适用的网络架构的示意性流程图;
图2A为本发明的另一实施例的数据处理方法的示意性流程图;
图2B为本发明的另一实施例的数据处理方法的示意图;
图2C为本发明的另一实施例的数据处理方法的示意图;
图3A为本发明的另一实施例的数据处理方法的一个示例的稀疏图的示意图;
图3B为本发明的另一实施例的数据处理方法的一个示例的一阶子图的示意图;
图3C为本发明的另一实施例的数据处理方法的一个示例的二阶图的示意图;
图3D为本发明的另一实施例的数据处理方法的示意图;
图4A为本发明的另一实施例的数据处理方法的示意性流程图;
图4B为本发明的另一实施例的数据处理方法的示意图;
图4C为本发明的另一实施例的数据处理方法的示意图;
图4D为本发明的另一实施例的数据处理方法的示意流程图;
图4E为本发明的另一实施例的数据处理方法的示意图;
图5为本发明的另一实施例的数据处理方法的示意性流程图;
图6为本发明的另一实施例的数据处理装置的示意性框图;
图7为本发明的另一实施例的数据处理装置的示意性框图;
图8为本发明的另一实施例的数据处理装置的示意性框图;
图9为本发明的另一实施例的电子设备的示意性结构图;
图10为本发明的另一实施例的电子设备的硬件结构。
具体实施方式
为了使本领域的人员更好地理解本发明实施例中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明实施例一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明实施例保护的范围。
下面结合本发明实施例附图进一步说明本发明实施例具体实现。
图1为本发明的一个实施例的数据处理方法所适用的网络架构的示意性流程图。用于标识图像中的用户的系统100的所示描述包括用户设备115a、115b…115n、电子商务服务器101和第三方服务器122。用户设备115a、115b…115n分别经由I/O设备由用户访问,例如,登录电子商务应用程序117或搜索应用程序。用户设备115a、115b…115n分别经由链路108和链路112访问网络105。尽管图1图示了三个用户设备,但是该描述适用于具有一个或者多个用户设备的任何系统架构。另外,尽管仅一个网络105耦合到用户设备115a、115b…115n、电子商务101和第三方服务器122,但是在实践中,任何数目的网络105可以连接到实体。
用户设备115a是能够连接到网络的任何计算设备,例如,个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机或者这些设备中的任何设备的组合。在一个实施例中,用户设备115a包括用于捕获用户的图像获取存储中的目标图像以及向电子商务服务器101传输图像以用于图像识别处理的电子商务应用程序117。在一些示例中,图像被存储于用户设备115上并且向电子商务服务器101传输以用于图像识别处理。在一个实施例中,用户设备115也包括用于结合电子商务应用信息标识用户的工具。
电子商务服务器101在用户的支配下返回联系信息(比如用户的蜂窝电话号码),从而提供用于散布联系信息的权限。在一些示例中,可以提供用于访问由用户指定的其他信息(例如,关系状态等)或者访问文档(例如,相册等)的权限。例如,请求者用包括相机的用户设备115a拍摄的图片或用户设备115a的存储器中存储的图片。电子商务应用程序117向特征向量计算模块103传输捕获或获取的图像,特征向量计算模块103标识用户并且向请求者传输用户的联系信息。
在一个实施例中,电子商务服务器101包括特征向量计算模块103、电子商务应用服务端116和存储装置111。特征向量计算模块103从请求者的用户设备115a、115b…115n接收图像。如果用户已经选择参加服务,则特征向量计算模块103对图像执行特征识别以标识图像中的用户。特征向量计算模块103从存储装置111取回用户信息,并且进行图像的特征向量计算。存储装置111中存储用于KNN检索或ANN检索的至少一个邻近图,以便进行ANN检索或KNN检索。应理解,存储装置111可以为多个存储实体或多个存储区域。不同的存储区域可以存储分离的邻近图。可选地,可以对电子商务服务器101采用虚拟技术,例如,容器云技术,将其配置为云服务端。另外,所述多个存储实体或多个存储区域可以存储一张邻近图。例如,不同的存储实体或存储区域之间,采用共用节点进行索引或查询。
电子商务应用服务端116是用于生成电子商务的软件和例程。电子商务是基于社交网络的系统,在该系统中,用户由共同偏好特征连接。共同偏好特征包括买卖关系、家庭成员关系、兴趣品类等。
在另一实施例中,电子商务应用服务端116与包括用户信息的存储装置111一起被存储于第三方服务器122上。在这一示例中,第三方电子商务服务器101托管电子商务应用服务端116。在电子商务服务器101上存储的特征向量计算模块103请求来自电子商务应用服务端116的用户信息。电子商务应用服务端116确认用户授权传输用户信息、从存储装置111取回信息并且经由信号线104向特征向量计算模块103传输请求的信息。尽管仅示出了一个第三方服务器122,但是系统100可以包括一个或者多个第三方服务器122。应理解,对图片、声音、视频等进行计算的特征向量计算模块的部分功能也可以存储在服务器端,也可以存储在客户端。
另外,特征向量计算模块103对存储装置111中的邻近图进行检索,返回检索结果。所述检索结果中包括至少一个特征向量指示的图片(或者,音频或视频)。
网络105是常规有线或者无线类型,并且可以具有任何数目的配置,比如星型配置、令牌环配置或者本领域技术人员已知的其他配置。另外,网络105可以包括局域网(LAN)、广域网(WAN)(例如,因特网)和/或任何其他互连的数据路径,多个设备可以跨越该数据路径通信。在又一实施例中,网络105可以是对等网络。网络105也可以耦合到或者包括用于在多种不同通信协议中发送数据的远程通信网络的部分。在示例实施例中,网络105包括通信网络或者用于比如经由短消息接发服务(SMS)、多媒体消息接发服务(MMS)、超文本传送协议(HTTP)、直接数据连接、WAP、电子邮件等发送和接收数据的蜂窝通信网络。
还应理解,上述的电子商务网络架构仅仅为示例性,本发明实施例还可以用于对于诸如图片、音频、视频等进行的搜索服务。本发明实施例还可以应用于所有利用邻近图进行检索、查询、索引的装置以及网络。
图2A为本发明的另一实施例的数据处理方法的示意性流程图。图2的数据处理方法用于对预测模型进行训练,预测模型对邻近图进行检索路径区段质量预测。图2的数据处理方法包括:
210:基于至少一个邻近图样本进行特征向量检索,得到对应的邻近图样本的路径区段访问统计信息。
应理解,文中的邻近图可以为诸如KNN(K-Nearest Neighbor)的用于最邻近检索的邻近图、也可以为用于近似邻近检索(ANN,Approximate Nearest Neighbor)的邻近图等。所述邻近图的全部或部分包括但不限于稠密图、稀疏图、简单图、有向简单图、无向简单图、有向有环图、无向有环图、有向无环图、无向无环图等。本发明实施例对此不作限定。
文中的邻近图例如包括节点(或者,顶点)元素和边元素。例如,节点元素包括多个节点,边元素为不同节点之间的连接(或者,链路;或者,链接)。例如,邻近图中的多个节点中的任意两个节点之间可以存在连接(或者,边)。例如,在所述多个节点中,也可以部分节点之间存在连接。例如,所述多个节点包括第一节点和第二节点。其中,任意两个第一节点之间存在连接。任意两个第二节点之间都不存在连接。例如,任一第二节点与第一节点之间存在连接。文中的边可以为有向边、也可以为无向边。
还应理解,文中的路径区段可以为在近邻图中进行检索的检索路径的全部或部分。所述路径区段由不同的边元素的连接。例如,对于同一邻近图而言,针对每次检索,路径区段由连续的边元素构成。例如,所述路径区段可以为每个边。例如,所述路径区段可以为至少两条边连接构成。换言之,路径区段可以包括至少两条边。例如,不同的路径区段可以包括相同的边数。例如,不同的路径区段可以包括相同的边。
还应理解,所述路径区段访问统计信息可以为多个路径区段的访问频率信息。例如,所述频率信息包括但不限于频率、频次等。所述路径区段访问统计信息可以为多个路径区段的访问概率信息。例如,所述概率信息包括但不限于概率、几率等。例如,路径区段访问统计信息可以为多个路径区段中的每个路径区段在目标检索路径中的概率信息或频率信息。例如,路径区段访问统计信息可以为目标路径区段在目标检索路径中的概率信息或频率信息。例如,所述路径区段访问统计信息可以为每个路径区段在目标检索路径中的次数相对于总检索次数的概率信息或频率信息。例如,路径区段访问统计信息可以为目标路径区段在目标检索路径中的次数相对于总检索次数的概率信息或频率信息。例如,所述路径区段访问统计信息可以基于第一访问统计信息和第二访问统计信息确定。例如,所述第一访问统计信息指示多个检索路径中的较佳检索路径的概率信息(或频率信息)。第二访问统计信息指示多个路径区段中的每个路径区段在所述较佳检索路径中的概率信息(或频率信息)。例如,所述路径区段访问统计信息可以与第一访问统计信息和第二访问统计信息的乘积正相关。例如,上述多个检索路径可以通过多次检索获得。例如,目标检索路径为用户指定的路径。例如,目标检索路径为较佳检索路径。例如,目标检索路径为上次检索的较佳检索路径。例如,目标检索路径为前N(N为大于1的正整数)次检索的较佳检索路径。可选地,目标检索路径也可以为当前较佳检索路径。例如,每次检索获得一个检索路径。例如,每次检索获得至少一个检索路径,以通过多次检索获得多个检索路径。例如,每次检索获得的路径中包括一个较佳检索路径。例如,每次检索获得的路径中包括多个较佳检索路径。例如,较佳检索路径可以为检索开销满足预设条件的检索路径中的任意路径。例如,较佳检索路径可以为检索开销的最小的N个检索路径中的任一路径(N为大于1的正整数)。
还应理解,检索开销可以通过检索的边数和检索的阶数来确定。所述检索的阶数可以基于待检索特征向量的数目确定。例如,输入的检索项为目标特征向量和与所述目标特征向量距离最近或近似距离最近的M的特征向量。例如,可以针对不同的M值以及邻近图的稀疏程度,构建一阶图、二阶图、N(N为大于1的正整数)阶图等。应理解,阶图中的节点为邻近图中的节点的部分。例如,邻近图可以为零阶图。例如,可以针对不同的M值以及邻近图的稀疏程度确定所述邻近图的子邻近图。例如,所述子邻近图为所述邻近图的部分。例如,所述子邻近图中的节点至少为所述邻近图中的节点的一部分。例如,所述子邻近图为通过随机算法在邻近图中确定部分节点而构成。例如,在N阶图中,目标特征向量的邻近特征向量的数目大于M,而在N-1阶图中,目标特征向量的邻近特征向量的数目小于M,则可以基于N-1阶图直接进行检索。例如,通过构建子邻近图或N阶图提高了检索效率,从而提高了获取路径区段访问统计信息的效率。
例如,对于基于至少一个邻近图样本进行特征向量检索而言,可以直接对至少一个邻近图样本进行特征向量检索,也可以对至少一个邻近图样本的子邻近图进行特征向量检索。例如,可以针对每次检索,确定与较佳检索策略确定的子邻近图,对该子邻近图进行特征向量检索。本发明实施例对此不作限定。例如,利用邻近图样本的邻近矩阵进行特征向量检索。例如,采用特征向量计算进行上述的特征向量检索。例如,利用邻近矩阵和特征向量检索进行上述的特征向量检索。
220:基于至少一个邻近图样本和其对应的路径区段访问统计信息,对图神经网络进行训练,得到预测模型。
应理解,所述图神经网络包括但不限于图卷积网络(Graph ConvolutionNetworks,GCN)、图注意力网络(Graph Attention Networks)、图自编码器(GraphAutoencoders)、图生成网络(Graph Generative Networks)和图时空网络(GraphSpatial-temporal Networks)。优选地,所述图神经网络为图卷积网络。
还应理解,可以直接基于至少一个邻近图样本和其对应的路径区段访问统计信息,对图神经网络进行训练。还可以,基于至少一个邻近图样本和其对应的路径区段访问统计信息进一步获得子样本,并且基于子样本对图神经网络进行训练。例如,可以对图神经网络进行单次训练。例如,可以对图神经网络进行多次训练。例如,可以采用多个样本或子样本对可以对图神经网络进行单次训练。例如,可以采用多个样本或子样本可以对图神经网络进行多次训练。例如,基于邻近图的邻近矩阵和路径区段访问统计信息对图神经网络进行训练。
例如,所述子样本包括但不限于构建一阶子图、二阶子图、N(N为大于1的正整数)阶子图等。检索路径区段质量包括但不限于路径区段质量指数、路径区段访问频率、路径区段访问概率、路径区段使用频率等。例如,检索路径区段质量可以用于对邻近图进行路径区段剪裁,例如,对邻近图进行裁边。
本发明实施例的方案由于基于邻近图样本的路径区段访问统计信息来训练预测模型,因此能够有效地利用预测模型对邻近图进行检索路径区段质量预测,从而提高了检索效率。
图2B为本发明的另一实施例的数据处理方法的示意图。如图所示,节点1、节点2和节点3分别为在邻近图样本中进行特征向量查询的节点。应理解,上述的三个节点仅仅示例性的。例如,节点1为邻近图样本中的随机节点。例如,基于节点1进行至少一个特征向量检索。例如,节点1、节点2和节点3可以为连续的三次特征向量检索所采用的检索项特征向量。还应理解,本发明实施例的检索项特征向量还可以为随机生成的随机特征向量。如图所示,节点1、节点2和节点3可以为通过蒙特卡洛实验在邻近图中的多个节点中随机确定的三个节点。例如,对节点1、节点2和节点3的确定可以认为三次独立随机事件。另外,节点1、节点2和节点3之间不必然具有先后关系,例如,节点2的位置可以在节点1的位置确定之前被确定。例如,节点3的位置可以在节点2的位置确定之前被确定。本发明实施例对此不作限定。
图2C为本发明的另一实施例的数据处理方法的示意图。如图所示,基于邻近图对图神经网络进行训练。应理解,可以如图所示直接利用上述的邻近图对图神经网络进行训练,但这仅仅为本发明实施例的一个示例。还可以基于上述的邻近图样本生成不同的子样本进行训练。另外,还可以基于上述的至少一种子样本与邻近图样本结合进行训练。如图所示,通过上述的训练,生成的邻近图中的路径区段对应不同的数字。上述的数字可以指示路径区段质量信息。例如,较小的数字指示在上述的特征向量检索过程中,该路径区段(在本示例中为边元素)处于较佳检索路径(或者,预定义的检索路径,或者,目标检索路径)中的频率较小,或者,被访问到的频率或概率较小。类似地,较大的数字指示在上述的特征向量检索过程中,该路径区段处于较佳检索路径(或者,预定义的检索路径,或者,目标检索路径)中的频率较大,或者,被访问到的频率或概率较大。还应理解,上述的路径区段访问统计信息仅仅为示例性的,本发明实施例的路径区段访问统计信息还可以具有其他形式或类型。
在本发明的另一实现方式中,对于基于至少一个邻近图样本进行特征向量检索而言,可以采用随机检索,也可以采用预设检索策略。例如,确定低质量路径区段范围。例如,在所述低质量路径区段范围内,确定目标节点,并且基于目标节点进行检索。例如,上述的检索策略还包括检索范围。例如,设定初始检索范围(邻近特征向量的数目,或者,邻近节点的数目)进行初始检索。例如,基于预设步长(增加的节点的数目)进行多次检索。例如,基于当前检索范围与预设步长,确定下次检索的检索范围。
例如,所述随机特征向量可以采用统计模拟法、统计试验法。例如,基于蒙特卡洛实验进行随机抽样。例如,邻近图中的节点特征向量为N维向量,确定随机N维向量,作为检索向量。例如,计算邻近图中的多个节点特征向量与随机N维向量之间的距离,从最近的距离对应的节点特征向量起开始检索。由于N维随机向量为随机生成,从而保证了良好的随机性,进而保证了路径区段访问统计信息的准确性。例如,随机在邻近图中确定的节点特征向量,作为检索向量。由于无需计算检索向量与邻近图的节点特征向量之间的相似度,因此提高了计算效率。应理解,对于基于至少一个邻近图样本进行特征向量检索而言,可以进行多次检索,也可以进行一次检索。可以针对目标随机特征向量进行多个检索,也可以每次针对不同的随机特征向量进行多次检索。还应理解,对于路径区段访问统计信息而言,可以对边元素进行统计。也可以对由多个边元素(例如,两个以上的边元素)形成的路径区段进行统计,也可以对由不同个数的边元素构成的路径区段进行统计。例如,对邻近图的第一稀疏图进行向量检索。所述第一稀疏图中的节点数目小于所述邻近图的节点数目。例如,对邻近图的第二稀疏图进行向量检索。所述第二稀疏图为所述第一稀疏图的稀疏图。换言之,第二稀疏图中的节点数目小于第一稀疏图中的节点数目。例如,基于至少一个邻近图样本进行特征向量检索,包括:对多个第二稀疏图进行特征向量检索。例如,基于不同的对象进行特征向量检索时,得到不同的路径区段访问统计信息。例如,所述不同的路径区段访问统计信息包括第一稀疏图路径区段访问统计信息、第二稀疏图路径区段访问统计信息、邻近图路径区段访问统计信息等。
还应理解,可以确定分别与至少一个邻近图样本对应的至少一个随机特征向量。也可以确定目标邻近图样本对应的多个随机特征向量。还应理解,可以针对每个随机特征向量进行多次特征向量检索。也可以针对针对目标邻近图样本进行多个特征向量检索。例如,所述特征向量检索可以为KNN检索、也可以为ANN检索。
作为一个示例,基于至少一个邻近图样本进行特征向量检索,得到对应的邻近图样本的路径区段访问统计信息,包括:确定分别与至少一个邻近图样本对应的至少一个随机特征向量;通过在目标邻近图样本中检索对应的随机特征向量,得到该邻近图样本中的检索路径,以便基于检索路径,确定该邻近图样本的路径区段访问统计信息。
作为一个示例,确定分别与至少一个邻近图样本对应的至少一个随机特征向量,包括:在目标邻近图样本中,随机确定该邻近图样本中的多个节点中的检索节点;将检索节点的特征向量确定为相应的随机特征向量,以得到至少一个随机特征向量。
作为一个示例,目标邻近图样本中的节点的特征向量具有目标维度。确定分别与至少一个邻近图样本对应的至少一个随机特征向量,包括:针对目标邻近图样本,随机生成具有目标维度的相应的随机特征向量。
作为一个示例,通过在目标邻近图样本中检索对应的随机特征向量,得到该邻近图样本中的检索路径,以便基于检索路径,确定该邻近图样本的路径区段访问统计信息,包括:通过在目标邻近图样本中对相应的随机特征向量进行多次检索,分别得到该邻近图样本中的多个检索路径;确定多个检索路径中的目标检索路径;基于目标检索路径,确定该邻近图样本的路径区段访问统计信息。
作为一个示例,通过在目标邻近图样本中对相应的随机特征向量进行多次检索,分别得到该邻近图样本中的多个检索路径,包括:在目标邻近图样本中,以目标次数检索相应的随机特征向量,得到该邻近图样本中的多个检索路径。基于目标检索路径,确定该邻近图样本的路径区段访问统计信息,包括:针对该邻近图样本中,确定多个路径区段中的每个路径区段经过目标检索路径中的历经次数,得到多个路径区段分别对应的多个历经次数;基于多个历经次数与目标次数,确定多个路径区段的路径区段访问统计信息。
作为一个示例,多个路径区段分别对应于该邻近图样本中的多个节点中的任意两个节点之间的多个边。
作为一个示例,确定多个检索路径中的目标检索路径,包括:分别确定多个检索路径的多个检索开销;将多个检索开销中的目标检索开销对应的检索路径确定为目标检索路径。
作为一个示例,分别确定多个检索路径的多个检索开销,包括:在该邻近图样本中,分别确定目标检索路径中所包括的节点数目,作为该检索路径对应的检索开销。
在本发明的另一实现方式中,对于基于至少一个邻近图样本和其对应的路径区段访问统计信息,对图神经网络进行训练,得到预测模型而言,可以利用邻近图的稀疏图及其路径区段访问统计信息,对图神经网络进行训练。也可以利用邻近图的子图及其路径区段访问统计信息,对图神经网络进行训练。
例如,先利用邻近图的稀疏图及其路径区段访问统计信息,对图神经网络进行初始训练,再利用邻近图及其路径区段访问统计信息,对图神经网络进行训练。由于先采用稀疏图进行初始训练,再利用邻近图进行训练,从而在保证了计算精度的前提下减小了计算量。另外,对于邻近图的稀疏图(或者,稀疏图样本)及其路径区段访问统计信息而言,可以构建所述稀疏图对应的稀疏图特征矩阵,例如,对邻近图的特征矩阵中的行或列中进行相应的删除或对所述邻近图特征矩阵中的元素进行删除,以得到稀疏图特征矩阵。
还应理解,所述方法还包括:确定邻近图的邻近图特征矩阵;基于所述邻近特征矩阵,确定稀疏图特征矩阵。例如,对上述至少一个邻近图样本中的全部或部分进行上述处理,得到至少一个稀疏图样本。
例如,先利用邻近图的子图(或者,子图样本)及其路径区段访问统计信息,对图神经网络进行初始训练,再利用邻近图及其路径区段访问统计信息,对图神经网络进行训练。由于先采用子图进行初始训练,再利用邻近图进行训练,从而在保证了计算精度的前提下减小了计算量。另外,对于邻近图的子图(或者,子图样本)及其路径区段访问统计信息而言,可以构建所述子图对应的子图特征矩阵,例如,对邻近图的特征矩阵中的行或列中进行相应的删除或对所述邻近图特征矩阵中的元素进行删除,以得到子图特征矩阵。
例如,所述方法还包括:确定邻近图的邻近图特征矩阵;基于所述邻近特征矩阵,确定子图特征矩阵。例如,对上述至少一个邻近图样本中的全部或部分进行上述处理,得到至少一个子图样本。
应理解,还可以分别利用邻近图的子图及其路径区段访问统计信息、以及邻近图的稀疏图及其路径区段访问统计信息,对图神经网络进行初始训练。应理解,对上述针对子图和稀疏图分别进行训练的顺序不作限定。所述子图包括一阶子图、二阶子图、N阶子图等。例如,一阶子图表示由目标节点以及与目标节点直接连接的多个节点组成。二阶子图由目标节点、与目标节点直接连接的多个节点、以及与所述多个节点分别直接连接的多组节点组成。类似地,N阶子图中包括目标节点通过N次以内的连接到达的所有的节点组成。
还应理解,图神经网络可以针对第一维度的特征向量进行计算。例如,邻近图样本中的节点具有第二维度的特征向量。第一维度可以与第二维度相同。可选地,第一维度可以与第二维度不同。例如,在第一维度与第二维度相同的情况下,可以以邻近图样本的特征矩阵和多个节点分别对应的多个特征向量作为输入,并且以路径区段访问统计信息(例如,边元素的频率信息)作为输出,对所述图神经网络进行训练。从而,极大地提高了训练的精度。例如,在第一维度与第二维度不同的情况下,可以对所述多个节点分别对应的多个特征向量进行插值处理,得到与所述多个节点分别对应的具有第一维度的多个插值特征向量。例如,以多个插值特征向量和所述特征矩阵作为输入,对所述图神经网络进行训练。例如,在第一维度与第二维度不同的情况下,可以直接以所述特征矩阵作为输入,并且以路径区段访问统计信息作为输出,对图神经网络进行训练,从而在保证计算精度的前提下,极大地减小了计算量。
作为一个示例,基于至少一个邻近图样本和其对应的路径区段访问统计信息,对图神经网络进行训练,得到预测模型,包括:基于至少一个邻近图样本,确定多个子邻近图样本以及与多个子邻近图样本对应的路径区段访问统计信息;至少基于多个子邻近图样本以及与多个子邻近图样本对应的访问统计信息,对图神经网络进行训练。
作为一个示例,基于至少一个邻近图样本,确定多个子邻近图样本以及与多个子邻近图样本对应的路径区段访问统计信息,包括:基于目标邻近图样本,确定其中的至少一组部分节点,以在至少一个邻近图样本中确定多组部分节点;将多组部分节点分别形成的子邻近图样本确定为多个子邻近图样本,并且确定与多个子邻近图样本对应的路径区段访问统计信息。
作为一个示例,确定与多个子邻近图样本对应的路径区段访问统计信息,包括:确定每组部分节点的路径访问频率信息;将多组部分节点各自的路径访问频率信息确定为路径区段访问统计信息。
作为一个示例,基于目标邻近图样本,确定其中的至少一组部分节点,包括:以目标阶数,从目标邻近图样本中,确定至少一组部分节点,其中,每组部分节点中的任一节点至少经过该邻近图样本中的目标阶数个节点到达该组部分节点中的另一节点。
作为一个示例,至少基于多个子邻近图样本以及与多个子邻近图样本对应的访问统计信息,对图神经网络进行训练,包括:基于多个子邻近图样本以及与多个子邻近图样本对应的访问统计信息,对子神经网络进行初始训练,得到初始预测模型;利用至少一个邻近图样本,对初始预测模型进行训练,得到预测模型。
在本发明的另一实现方式中,可以以邻近图样本的特征矩阵作为输入,将路径区段访问统计信息作为输出,对图神经网络进行训练。可选地,可以以邻近图样本的特征矩阵和多个节点分别对应的多个特征向量作为输入,将路径区段访问统计信息作为输出,对图神经网络进行训练。
还应理解,所述图神经网络可以包括第一图卷积神经网络、第二图卷积神经网络和共用神经网络。例如,第一图卷积神经网络具有第一输入和第一输出。例如,第二图卷积神经网络具有第二输入和第二输出。例如,第一输出和第二输出作为共用神经网络的输入,共用神经网络的输出作为所述图神经网络的输出。例如,以邻近图样本的邻近特征向量(或者,邻近特征向量和多个节点特征向量)作为第一输入,相应的路径区段访问统计信息作为输出,对第一图卷积神经网络和共用神经网络进行训练。例如,以子图样本的邻近特征向量(或者,邻近特征向量和多个节点特征向量)作为第二输入,相应的路径区段访问统计信息作为输出,对第二图卷积神经网络和共用神经网络进行训练。例如,以稀疏图样本的邻近特征向量(或者,邻近特征向量和多个节点特征向量)作为第二输入,相应的路径区段访问统计信息作为输出,对第二图卷积神经网络和共用神经网络进行训练。
作为一个示例,基于至少一个邻近图样本和其对应的路径区段访问统计信息,对图神经网络进行训练,得到预测模型,包括:确定目标邻近图样本的多个节点特征向量,以得到对应于至少一个邻近图样本的至少一组节点特征向量;以至少一个邻近图样本及其至少一组节点特征向量作为输入,以路径区段访问统计信息作为输出,训练图神经网络,得到预测模型。
图3A为本发明的另一实施例的数据处理方法的一个示例的稀疏图的示意图。如图所示,在邻近图中存储粗边的第一边元素以及细边的第二边元素。第一边元素为第一节点(实心填充节点)之间的边元素。第二边元素为第二节点(未填充节点)之间的边元素。可见,第一节点为所有节点中的部分节点。第一节点中存在经过第二节点到达另一第一节点的节点。应理解,第一边元素可以连接第一节点和第二节点,但是两个第二节点之间的边元素为第二边元素。由此,上述的多个第一节点以及多个第一边元素构成了邻近图的稀疏图。该稀疏图可以作为稀疏图样本,例如,对图神经网络进行训练。
图3B为本发明的另一实施例的数据处理方法的一个示例的一阶子图的示意图。如图所示,该邻近图中示出了一阶子图。邻近图中示出了实心填充节点、未填充节点和图案填充节点。图案填充节点与各个实心填充节点之间为粗边的第一边元素,其他的细边为第二边元素。该图案填充节点和实心填充节点以及第一边元素构成了一阶子图。在该一阶子图中,中心节点(图案填充节点)通过一次连接到达其他的节点(实心填充节点)。
图3C为本发明的另一实施例的数据处理方法的一个示例的二阶图的示意图。如图所示,该邻近图中示出了二阶子图。邻近图中示出了实心填充节点、未填充节点和图案填充节点。图案填充节点与各个实心填充节点之间为粗边的第一边元素,其他的细边为第二边元素。该图案填充节点和实心填充节点以及第一边元素构成了二阶子图。在该二阶子图中,中心节点(图案填充节点)通过不超过两次连接到达其他的节点(实心填充节点)。
图3D为本发明的另一实施例的数据处理方法的示意图。如图所示,所述图神经网络可以包括第一图卷积神经网络、第二图卷积神经网络和共用神经网络。例如,第一图卷积神经网络具有第一输入和第一输出。例如,第二图卷积神经网络具有第二输入和第二输出。例如,第一输出和第二输出作为共用神经网络的输入,共用神经网络的输出作为所述图神经网络的输出。例如,以邻近图样本的邻近特征向量(或者,邻近特征向量和多个节点特征向量)作为第一输入,相应的路径区段访问统计信息作为输出,对第一图卷积神经网络和共用神经网络进行训练。例如,以子图样本的邻近特征向量(或者,邻近特征向量和多个节点特征向量)作为第二输入,相应的路径区段访问统计信息作为输出,对第二图卷积神经网络和共用神经网络进行训练。例如,以稀疏图样本的邻近特征向量(或者,邻近特征向量和多个节点特征向量)作为第二输入,相应的路径区段访问统计信息作为输出,对第二图卷积神经网络和共用神经网络进行训练。
图4A为本发明的另一实施例的数据处理方法的示意性流程图;图4A的数据处理方法包括:
410:获取目标邻近图;
420:基于预测模型,得到目标近邻图的路径区段质量信息;
430:基于路径区段质量信息,对目标近邻图进行剪裁。
应理解,对目标近邻图进行剪裁,包括,在目标邻近图的邻近特征矩阵中对目标路径区段进行删除。所述目标路径区段的质量信息或频率信息或概率信息小于预设阈值。在一个示例中,对目标近邻图进行剪裁,包括,在目标邻近图的邻近特征矩阵中对目标边元素进行删除。
还应理解,所述预测模型可以通过上述的图神经网络训练得到。例如,所述图神经网络可以包括第一图卷积神经网络、第二图卷积神经网络和共用神经网络。例如,第一图卷积神经网络具有第一输入和第一输出。例如,第二图卷积神经网络具有第二输入和第二输出。例如,第一输出和第二输出作为共用神经网络的输入,共用神经网络的输出作为所述图神经网络的输出。例如,基于预测模型,得到目标近邻图的路径区段质量信息,包括:确定目标邻近图的目标子图;将所述目标子图和目标邻近图作为预测模型的第二输入和第一输入,得到所述共用神经网络的输出;将所述共用神经网络的输出作为路径区段质量信息。应理解,上述的子图可以替换为目标邻近图的稀疏图。
图4B为本发明的另一实施例的数据处理方法的示意图。如图所示,上侧示出了利用邻近图样本以及路径区段访问统计信息,得到预测模型。所述预测模型对待预测邻近图进行预测,得到该待预测邻近图的路径区段质量。如图所示,上侧的邻近图样本的边元素标记有路径区段访问统计信息,作为标准样本。下侧的待预测邻近图的边元素标记有预测后的路径区段质量。
图4C为本发明的另一实施例的数据处理方法的示意图。如图所示,例如,经过图4B预测的待预测邻近图中存在不同质量的路径区段(本示例中的边元素)。例如,对路径质量低于0.4的边元素进行裁边,得到右侧的经裁边后的邻近图。应理解,上述的裁边处理所采用的阈值可以基于存储参数或计算参数中的至少一者而确定。所述存储参数包括存储空间、存储区域的数量等。所述计算参数诸如检索开销、特征向量计算开销等。可见,经裁边后的邻近图由于具有较少的高质量的边元素,从而在保证检索效率的前提下减小了存储空间。
本发明实施例的方案由于基于邻近图样本的路径区段访问统计信息来训练预测模型,因此能够有效地利用预测模型对邻近图进行检索路径区段质量预测,从而提高了检索效率。
在本发明的另一实现方式中,目标邻近图中包括多个节点之间的多个边,基于预测模型,得到目标近邻图的路径区段质量信息,包括:将指示多个边之间的关系的待剪裁邻近图矩阵输入到预测模型,得到多个边分别对应的多个质量指数,基于路径区段质量信息,对目标近邻图进行剪裁,包括:基于预设阈值,确定多个质量指数中的部分质量指数对应的部分边;基于待剪裁邻近图矩阵,确定指示部分边之间的关系的经剪裁邻近图。
图4D为本发明的另一实施例的数据处理方法的示意流程图。如果所示,本示例的数据处理方法的流程图示出了训练处理、预测处理以及裁边处理。将结合其他的示例图对本流程图进行描述。但是,应当理解,本流程图不仅仅对应于上述的示意图。
在左侧的附图中,基于各个节点的特征向量构建邻近图。在邻近图样本中对目标特征向量进行查询(或者检索)。例如,采用蒙特卡洛实现对上述目标特效向量进行检索。统计每个边元素处于较佳查询路径上的次数,以及总查询次数。经由上述数据,得到每个边元素的使用率,作为样本标签。
在中间的附图中,以邻近图的特征矩阵作为输入,并且以各个边元素的使用率作为输出,训练图神经网络,得到预测模型。具体而言,得到了基于图神经网络的边质量预测模型。
在右侧的附图中,示出了裁边处理流程。如图所示,将待剪裁邻近图输入到边质量预测模型中,得到该待剪裁邻近图的各个边的预测使用率。例如,通过设定阈值来确定待剪裁的边元素。例如,可以采用上述的计算参数和存储参数中的一者来确定该阈值。例如,该阈值还可以通过经验获得。例如,如果预测边使用率(边质量)小于所述阈值,则对该边界线剪裁;如果预测边使用率大于所述阈值,则对该边进行保留。
图4E为本发明的另一实施例的数据处理方法的示意图。如图所示,示出了另一种数据处理方法。上侧的附图示出了采用未剪裁邻近图对图神经网络进行第一训练。下次的附图示出了采用剪裁后邻近图对图神经网络进行第二训练。应理解,附图仅仅为示意性的,本发明实施例的方案还可以对图神经网络进行进一步的训练处理。例如,可以对经剪裁邻近图进行再次剪裁,并且基于该经剪裁邻近图对图神经网络进行第三训练。由此,通过上述的多个剪裁方式对图神经网络进行多次训练,即,采用训练和剪裁交替的方式,实现了更准确的路径区段质量预测。另外,上述的方式实现了图神经网络的更新。例如,所述方法还包括:基于剪裁后的预测邻近图对图神经网络进行训练。另外,所述方法还包括:基于训练后的邻近图对待预测邻近图进行预测,得到所述预测邻近图。
图5为本发明的另一实施例的数据处理方法的示意性流程图;图5的数据处理方法包括:
510:获取对目标特征向量的近似最邻近检索请求;
520:向近似最邻近检索请求,对存储的邻近图进行检索,得到近似最邻近检索结果;
530返回近似最邻近检索结构。
本发明实施例的方案由于基于邻近图样本的路径区段访问统计信息来训练预测模型,因此能够有效地利用预测模型对邻近图进行检索路径区段质量预测,从而提高了检索效率。
图6为本发明的另一实施例的数据处理装置的示意性框图;图6的数据处理装置用于对预测模型进行训练,预测模型对邻近图进行检索路径区段质量预测,图6的装置包括:
检索模块610,基于至少一个邻近图样本进行特征向量检索,得到对应的邻近图样本的路径区段访问统计信息;
训练模块620,基于至少一个邻近图样本和其对应的路径区段访问统计信息,对图神经网络进行训练,得到预测模型。
本发明实施例的方案由于基于邻近图样本的路径区段访问统计信息来训练预测模型,因此能够有效地利用预测模型对邻近图进行检索路径区段质量预测,从而提高了检索效率。
在本发明的另一实现方式中,检索模块具体用于:确定分别与至少一个邻近图样本对应的至少一个随机特征向量;通过在目标邻近图样本中检索对应的随机特征向量,得到该邻近图样本中的检索路径,以便基于检索路径,确定该邻近图样本的路径区段访问统计信息。
在本发明的另一实现方式中,检索模块具体用于:在目标邻近图样本中,随机确定该邻近图样本中的多个节点中的检索节点;将检索节点的特征向量确定为相应的随机特征向量,以得到至少一个随机特征向量。
在本发明的另一实现方式中,目标邻近图样本中的节点的特征向量具有目标维度,检索模块具体用于:针对目标邻近图样本,随机生成具有目标维度的相应的随机特征向量。
在本发明的另一实现方式中,检索模块具体用于:通过在目标邻近图样本中对相应的随机特征向量进行多次检索,分别得到该邻近图样本中的多个检索路径;确定多个检索路径中的目标检索路径;基于目标检索路径,确定该邻近图样本的路径区段访问统计信息。
在本发明的另一实现方式中,检索模块具体用于:分别确定多个检索路径的多个检索开销;将多个检索开销中的目标检索开销对应的检索路径确定为目标检索路径。
在本发明的另一实现方式中,检索模块具体用于:在目标邻近图样本中,以目标次数检索相应的随机特征向量,得到该邻近图样本中的多个检索路径;针对该邻近图样本中,确定多个路径区段中的目标路径区段经过目标检索路径中的历经次数,得到多个路径区段分别对应的多个历经次数;基于多个历经次数与目标次数,确定多个路径区段的路径区段访问统计信息。
在本发明的另一实现方式中,多个路径区段分别对应于该邻近图样本中的多个节点中的任意两个节点之间的多个边。
在本发明的另一实现方式中,检索模块具体用于:在该邻近图样本中,分别确定目标检索路径中所包括的节点数目,作为该检索路径对应的检索开销。
在本发明的另一实现方式中,训练模块具体用于:基于至少一个邻近图样本,确定多个子邻近图样本以及与多个子邻近图样本对应的路径区段访问统计信息;至少基于多个子邻近图样本以及与多个子邻近图样本对应的访问统计信息,对图神经网络进行训练。
在本发明的另一实现方式中,训练模块具体用于:基于目标邻近图样本,确定其中的至少一组部分节点,以在至少一个邻近图样本中确定多组部分节点;将多组部分节点分别形成的子邻近图样本确定为多个子邻近图样本,并且确定与多个子邻近图样本对应的路径区段访问统计信息。
在本发明的另一实现方式中,训练模块具体用于:确定每组部分节点的路径访问频率信息;将多组部分节点各自的路径访问频率信息确定为路径区段访问统计信息。
在本发明的另一实现方式中,训练模块具体用于:以目标阶数,从目标邻近图样本中,确定至少一组部分节点,其中,每组部分节点中的任一节点至少经过该邻近图样本中的目标阶数个节点到达该组部分节点中的另一节点。
在本发明的另一实现方式中,训练模块具体用于:基于多个子邻近图样本以及与多个子邻近图样本对应的访问统计信息,对子神经网络进行初始训练,得到初始预测模型;利用至少一个邻近图样本,对初始预测模型进行训练,得到预测模型。
在本发明的另一实现方式中,训练模块具体用于:确定目标邻近图样本的多个节点特征向量,以得到对应于至少一个邻近图样本的至少一组节点特征向量;以至少一个邻近图样本及其至少一组节点特征向量作为输入,以路径区段访问统计信息作为输出,训练图神经网络,得到预测模型。
本实施例的方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。
本实施例的装置用于实现前述多个方法实施例中相应的方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本实施例的装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述,在此亦不再赘述。
图7为本发明的另一实施例的数据处理装置的示意性框图;图7的数据处理装置包括:
获取模块710,获取目标邻近图。
预测模块720,基于预测模型,得到目标近邻图的路径区段质量信息。
剪裁模块730,基于路径区段质量信息,对目标近邻图进行剪裁。
本发明实施例的方案由于基于邻近图样本的路径区段访问统计信息来训练预测模型,因此能够有效地利用预测模型对邻近图进行检索路径区段质量预测,从而提高了检索效率。
在本发明的另一实现方式中,目标邻近图中包括多个节点之间的多个边,预测模块具体用于:将指示多个边之间的关系的待剪裁邻近图矩阵输入到预测模型,得到多个边分别对应的多个质量指数,剪裁模块具体用于:基于预设阈值,确定多个质量指数中的部分质量指数对应的部分边;基于待剪裁邻近图矩阵,确定指示部分边之间的关系的经剪裁邻近图。
本实施例的方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。
本实施例的装置用于实现前述多个方法实施例中相应的方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本实施例的装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述,在此亦不再赘述。
图8为本发明的另一实施例的数据处理装置的示意性框图;图8的数据处理装置包括:
获取模块810,获取对目标特征向量的近似最邻近检索请求;
检索模块820,向近似最邻近检索请求,对存储的邻近图进行检索,得到近似最邻近检索结果。
返回模块830,返回近似最邻近检索结构。
本发明实施例的方案由于基于邻近图样本的路径区段访问统计信息来训练预测模型,因此能够有效地利用预测模型对邻近图进行检索路径区段质量预测,从而提高了检索效率。
本实施例的方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。
本实施例的装置用于实现前述多个方法实施例中相应的方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本实施例的装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述,在此亦不再赘述。
图9为本发明的另一实施例的电子设备的结构示意图;该电子设备可以包括:
一个或多个处理器901;
计算机可读介质902,可以配置为存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述实施例所述的方法。
图10为本发明的另一实施例的电子设备的硬件结构;如图10所示,该电子设备的硬件结构可以包括:处理器1001,通信接口1002,计算机可读介质1003和通信总线1004;
其中处理器1001、通信接口1002、计算机可读介质1003通过通信总线1004完成相互间的通信;
可选地,通信接口1002可以为通信模块的接口;
其中,处理器1001具体可以配置为:基于至少一个邻近图样本进行特征向量检索,得到对应的邻近图样本的路径区段访问统计信息;基于所述至少一个邻近图样本和其对应的路径区段访问统计信息,对图神经网络进行训练,得到所述预测模型,或者,
获取目标邻近图;基于预测模型,得到所述目标近邻图的路径区段质量信息;基于所述路径区段质量信息,对所述目标近邻图进行剪裁,或者,
获取对目标特征向量的近似最邻近检索请求;向所述近似最邻近检索请求,对存储的邻近图进行检索,得到近似最邻近检索结果;返回所述近似最邻近检索结构。
处理器1001可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
计算机可读介质1003可以是,但不限于,随机存取存储介质(Random AccessMemory,RAM),只读存储介质(Read Only Memory,ROM),可编程只读存储介质(Programmable Read-Only Memory,PROM),可擦除只读存储介质(Erasable ProgrammableRead-Only Memory,EPROM),电可擦除只读存储介质(Electric Erasable ProgrammableRead-Only Memory,EEPROM)等。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含配置为执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本发明的方法中限定的上述功能。需要说明的是,本发明所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质(RAM)、只读存储介质(ROM)、可擦式可编程只读存储介质(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储介质(CD-ROM)、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输配置为由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写配置为执行本发明的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络:包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个配置为实现规定的逻辑功能的可执行指令。上述具体实施例中有特定先后关系,但这些先后关系只是示例性的,在具体实现的时候,这些步骤可能会更少、更多或执行顺序有调整。即在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。这些模块的名称在某种情况下并不构成对该模块本身的限定。
作为另一方面,本发明还提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例所描述的方法。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:基于至少一个邻近图样本进行特征向量检索,得到对应的邻近图样本的路径区段访问统计信息;基于所述至少一个邻近图样本和其对应的路径区段访问统计信息,对图神经网络进行训练,得到所述预测模型,或者,
获取目标邻近图;基于预测模型,得到所述目标近邻图的路径区段质量信息;基于所述路径区段质量信息,对所述目标近邻图进行剪裁,或者,
获取对目标特征向量的近似最邻近检索请求;向所述近似最邻近检索请求,对存储的邻近图进行检索,得到近似最邻近检索结果;返回所述近似最邻近检索结构。
在本公开的各种实施方式中所使用的表述“第一”、“第二”、“所述第一”或“所述第二”可修饰各种部件而与顺序和/或重要性无关,但是这些表述不限制相应部件。以上表述仅配置为将元件与其它元件区分开的目的。例如,第一用户设备和第二用户设备表示不同的用户设备,虽然两者均是用户设备。例如,在不背离本公开的范围的前提下,第一元件可称作第二元件,类似地,第二元件可称作第一元件。
当一个元件(例如,第一元件)称为与另一元件(例如,第二元件)“(可操作地或可通信地)联接”或“(可操作地或可通信地)联接至”另一元件(例如,第二元件)或“连接至”另一元件(例如,第二元件)时,应理解为该一个元件直接连接至该另一元件或者该一个元件经由又一个元件(例如,第三元件)间接连接至该另一个元件。相反,可理解,当元件(例如,第一元件)称为“直接连接”或“直接联接”至另一元件(第二元件)时,则没有元件(例如,第三元件)插入在这两者之间。
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (23)

1.一种数据处理方法,用于对预测模型进行训练,所述预测模型对邻近图进行检索路径区段质量预测,所述方法包括:
基于至少一个邻近图样本进行特征向量检索,得到对应的邻近图样本的路径区段访问统计信息;
基于所述至少一个邻近图样本和其对应的路径区段访问统计信息,对图神经网络进行训练,得到所述预测模型。
2.根据权利要求1所述的方法,其中,所述基于至少一个邻近图样本进行特征向量检索,得到对应的邻近图样本的路径区段访问统计信息,包括:
确定分别与所述至少一个邻近图样本对应的至少一个随机特征向量;
通过在目标邻近图样本中检索对应的随机特征向量,得到所述目标邻近图样本中的检索路径,以便基于所述检索路径,确定所述目标邻近图样本的路径区段访问统计信息。
3.根据权利要求2所述的方法,其中,所述确定分别与所述至少一个邻近图样本对应的至少一个随机特征向量,包括:
在所述目标邻近图样本中,随机确定该邻近图样本中的多个节点中的检索节点;
将所述检索节点的特征向量确定为相应的随机特征向量,以得到所述至少一个随机特征向量。
4.根据权利要求2所述的方法,其中,所述目标邻近图样本中的节点的特征向量具有目标维度,
所述确定分别与所述至少一个邻近图样本对应的至少一个随机特征向量,包括:
针对所述目标邻近图样本,随机生成具有所述目标维度的相应的随机特征向量。
5.根据权利要求2所述的方法,其中,通过在所述目标邻近图样本中检索对应的随机特征向量,得到该邻近图样本中的检索路径,以便基于所述检索路径,确定该邻近图样本的路径区段访问统计信息,包括:
通过在所述目标邻近图样本中对相应的随机特征向量进行多次检索,分别得到该邻近图样本中的多个检索路径;
确定所述多个检索路径中的目标检索路径;
基于所述目标检索路径,确定该邻近图样本的路径区段访问统计信息。
6.根据权利要求5所述的方法,其中,所述确定所述多个检索路径中的目标检索路径,包括:
分别确定所述多个检索路径的多个检索开销;
将所述多个检索开销中的目标检索开销对应的检索路径确定为目标检索路径。
7.根据权利要求6所述的方法,其中,所述分别确定所述多个检索路径的多个检索开销,包括:
在该邻近图样本中,分别确定目标检索路径中所包括的节点数目,作为该检索路径对应的检索开销。
8.根据权利要求5所述的方法,其中,所述通过在所述目标邻近图样本中对相应的随机特征向量进行多次检索,分别得到该邻近图样本中的多个检索路径,包括:
在所述目标邻近图样本中,以目标次数检索相应的随机特征向量,得到该邻近图样本中的多个检索路径,
所述基于所述目标检索路径,确定该邻近图样本的路径区段访问统计信息,包括:
针对该邻近图样本中,确定多个路径区段中的目标路径区段经过所述目标检索路径中的历经次数,得到所述多个路径区段分别对应的多个历经次数;
基于所述多个历经次数与所述目标次数,确定所述多个路径区段的路径区段访问统计信息。
9.根据权利要求8所述的方法,其中,所述多个路径区段分别对应于该邻近图样本中的多个节点中的任意两个节点之间的多个边。
10.根据权利要求1所述的方法,其中,所述基于所述至少一个邻近图样本和其对应的路径区段访问统计信息,对图神经网络进行训练,得到所述预测模型,包括:
基于所述至少一个邻近图样本,确定多个子邻近图样本以及与所述多个子邻近图样本对应的路径区段访问统计信息;
至少基于所述多个子邻近图样本以及与所述多个子邻近图样本对应的访问统计信息,对图神经网络进行训练。
11.根据权利要求10所述的方法,其中,所述基于所述至少一个邻近图样本,确定多个子邻近图样本以及与所述多个子邻近图样本对应的路径区段访问统计信息,包括:
基于所述目标邻近图样本,确定其中的至少一组部分节点,以在所述至少一个邻近图样本中确定多组部分节点;
将所述多组部分节点分别形成的子邻近图样本确定为所述多个子邻近图样本,并且确定与所述多个子邻近图样本对应的路径区段访问统计信息。
12.根据权利要求11所述的方法,其中,所述确定与所述多个子邻近图样本对应的路径区段访问统计信息,包括:
确定每组部分节点的路径访问频率信息;
将所述多组部分节点各自的路径访问频率信息确定为所述对应的路径区段访问统计信息。
13.根据权利要求11所述的方法,其中,所述基于所述目标邻近图样本,确定其中的至少一组部分节点,包括:
以目标阶数,从所述目标邻近图样本中,确定至少一组部分节点,其中,每组部分节点中的任一节点至少经过该邻近图样本中的所述目标阶数个节点到达该组部分节点中的另一节点。
14.根据权利要求10所述的方法,其中,所述至少基于所述多个子邻近图样本以及与所述多个子邻近图样本对应的访问统计信息,对图神经网络进行训练,包括:
基于所述多个子邻近图样本以及与所述多个子邻近图样本对应的访问统计信息,对子神经网络进行初始训练,得到初始预测模型;
利用所述至少一个邻近图样本,对所述初始预测模型进行训练,得到所述预测模型。
15.根据权利要求10所述的方法,其中,基于所述至少一个邻近图样本和其对应的路径区段访问统计信息,对图神经网络进行训练,得到所述预测模型,包括:
确定所述目标邻近图样本的多个节点特征向量,以得到对应于所述至少一个邻近图样本的至少一组节点特征向量;
以所述至少一个邻近图样本及其至少一组节点特征向量作为输入,以所述对应的路径区段访问统计信息作为输出,训练所述图神经网络,得到所述预测模型。
16.一种数据处理方法,包括:
获取目标邻近图;
基于预测模型,得到所述目标近邻图的路径区段质量信息,所述预测模型通过权利要求1-15中的任一项所述的方法训练得到;
基于所述路径区段质量信息,对所述目标近邻图进行剪裁。
17.根据权利要求16所述的方法,其中,所述目标邻近图中包括多个节点之间的多个边,
所述基于预测模型,得到所述目标近邻图的路径区段质量信息,包括:
将指示所述多个边之间的关系的待剪裁邻近图矩阵输入到所述预测模型,得到所述多个边分别对应的多个质量指数,
所述基于所述路径区段质量信息,对所述目标近邻图进行剪裁,包括:
基于预设阈值,确定所述多个质量指数中的部分质量指数对应的所述多个边中的部分边;
基于所述待剪裁邻近图矩阵,确定指示所述部分边之间的关系的经剪裁邻近图。
18.一种数据处理方法,包括:
获取对目标特征向量的近似最邻近检索请求;
向所述近似最邻近检索请求,对存储的邻近图进行检索,得到近似最邻近检索结果,所述存储的邻近图为权利要求16或17所述的经剪裁邻近图;
返回所述近似最邻近检索结构。
19.一种数据处理装置,用于对预测模型进行训练,所述预测模型对邻近图进行检索路径区段质量预测,所述装置包括:
检索模块,基于至少一个邻近图样本进行特征向量检索,得到对应的邻近图样本的路径区段访问统计信息;
训练模块,基于所述至少一个邻近图样本和其对应的路径区段访问统计信息,对图神经网络进行训练,得到所述预测模型。
20.一种数据处理装置,包括:
获取模块,获取目标邻近图;
预测模块,基于预测模型,得到所述目标近邻图的路径区段质量信息,所述预测模型通过权利要求1-15中的任一项所述的方法训练得到;
剪裁模块,基于所述路径区段质量信息,对所述目标近邻图进行剪裁。
21.一种数据处理装置,包括:
获取模块,获取对目标特征向量的近似最邻近检索请求;
检索模块,向所述近似最邻近检索请求,对存储的邻近图进行检索,得到近似最邻近检索结果,所述存储的邻近图为权利要求15或16所述的经剪裁邻近图;
返回模块,返回所述近似最邻近检索结构。
22.一种电子设备,所述设备包括:
一个或多个处理器;
计算机可读介质,配置为存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-18中任一项权利要求所述的方法。
23.一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-18中任一项权利要求所述的方法。
CN202010479762.XA 2020-05-29 2020-05-29 数据处理方法、装置、电子设备和计算机存储介质 Active CN113326860B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010479762.XA CN113326860B (zh) 2020-05-29 2020-05-29 数据处理方法、装置、电子设备和计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010479762.XA CN113326860B (zh) 2020-05-29 2020-05-29 数据处理方法、装置、电子设备和计算机存储介质

Publications (2)

Publication Number Publication Date
CN113326860A true CN113326860A (zh) 2021-08-31
CN113326860B CN113326860B (zh) 2023-12-15

Family

ID=77412984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010479762.XA Active CN113326860B (zh) 2020-05-29 2020-05-29 数据处理方法、装置、电子设备和计算机存储介质

Country Status (1)

Country Link
CN (1) CN113326860B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103679674A (zh) * 2013-11-29 2014-03-26 航天恒星科技有限公司 一种无人飞行器实时图像拼接方法及系统
US20150186374A1 (en) * 2013-12-27 2015-07-02 Nuctech Company Limited Retrieving system, retrieving method, and security inspection device based on contents of fluoroscopic images
JP6068568B1 (ja) * 2015-07-08 2017-01-25 ヤフー株式会社 改変k最近傍グラフ生成装置及び改変k最近傍グラフ生成装置の動作方法
CN110287954A (zh) * 2019-06-05 2019-09-27 北京字节跳动网络技术有限公司 目标区域确定模型的训练方法、装置和计算机可读存储介质
CN111198940A (zh) * 2019-12-27 2020-05-26 北京百度网讯科技有限公司 Faq方法、问答检索系统、电子设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103679674A (zh) * 2013-11-29 2014-03-26 航天恒星科技有限公司 一种无人飞行器实时图像拼接方法及系统
US20150186374A1 (en) * 2013-12-27 2015-07-02 Nuctech Company Limited Retrieving system, retrieving method, and security inspection device based on contents of fluoroscopic images
JP6068568B1 (ja) * 2015-07-08 2017-01-25 ヤフー株式会社 改変k最近傍グラフ生成装置及び改変k最近傍グラフ生成装置の動作方法
CN110287954A (zh) * 2019-06-05 2019-09-27 北京字节跳动网络技术有限公司 目标区域确定模型的训练方法、装置和计算机可读存储介质
CN111198940A (zh) * 2019-12-27 2020-05-26 北京百度网讯科技有限公司 Faq方法、问答检索系统、电子设备和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YUANCHEN FANG; HUYANG XU; NASSER FARD: "Time Series Chain Graph for Reliability Covariate Modelling", IEEE *
张惠凡;罗泽;: "基于卷积神经网络的鸟类视频图像检索研究", 科研信息化技术与应用, no. 05 *
赵文玉;周栋;曹步清;刘建勋;: "结合文档处理与查询处理技术的Web服务搜索方法", 计算机集成制造系统, no. 07 *

Also Published As

Publication number Publication date
CN113326860B (zh) 2023-12-15

Similar Documents

Publication Publication Date Title
CN109919316B (zh) 获取网络表示学习向量的方法、装置和设备及存储介质
Potamias et al. Fast shortest path distance estimation in large networks
CN110909182B (zh) 多媒体资源搜索方法、装置、计算机设备及存储介质
CN107784010B (zh) 一种用于确定新闻主题的热度信息的方法与设备
US20200285960A1 (en) Effective user modeling with time-aware based binary hashing
CN109101658B (zh) 信息搜索方法、装置及设备/终端/服务器
US9864855B2 (en) Verification data processing method and device and storage medium
CN110413867B (zh) 用于内容推荐的方法及系统
US9542669B1 (en) Encoding and using information about distributed group discussions
WO2013110357A1 (en) Social network analysis
Zhang et al. Hierarchical information quadtree: efficient spatial temporal image search for multimedia stream
WO2017156994A1 (zh) 多媒体资源的质量评估方法和装置
CN109388634A (zh) 地址信息的处理方法、终端设备及计算机可读存储介质
CN112070550A (zh) 基于搜索平台的关键词确定方法、装置、设备及存储介质
CN115687690A (zh) 一种视频推荐方法、装置、电子设备及存储介质
Damiani et al. Learning behavioral representations of human mobility
CN111191065B (zh) 一种同源图像确定方法及装置
CN113326860B (zh) 数据处理方法、装置、电子设备和计算机存储介质
Valliyammai et al. Distributed and scalable Sybil identification based on nearest neighbour approximation using big data analysis techniques
Da Costa et al. Group-based collaborative filtering supported by multiple users' feedback to improve personalized ranking
CN113127767A (zh) 手机号码提取方法、装置、电子设备及存储介质
KR20200036173A (ko) 사용자 그루핑 및 그룹별 선호 기계학습 분석 알고리즘을 추천하는 방법 및 장치
CN112488765B (zh) 广告反作弊方法、广告反作弊装置、电子设备及存储介质
CN113468389B (zh) 一种基于特征序列比对的用户画像建立方法和装置
WO2024113665A1 (zh) 媒体内容处理方法、装置、存储介质以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40059816

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant