具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护但是不排除包含至少一种的情况。应当理解,本文中使用的术语“和/或的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
术语定义:
半监督学习(Semi-Supervised Learning,简称SSL):是监督学习(完全标记的训练数据)与无监督学习(没有任何标记的训练数据)相结合的一种学习方法。半监督学习使用大量的未标记数据、同时使用标记数据来进行机器学习任务。
泛化能力(Generalization ability):是指机器学习算法对新样本数据的适应能力,及模型在新数据集上准确预测的能力。
拟合能力(Fitting ability):是指机器学习算法对训练数据的适应能力,及模型在训练集上准确预测的能力。
预训练(Pre-train):是通过大量数据集进行模型的训练,得到一套模型参数,利用这套参数对模型进行初始化,再根据具体任务在类似的数据集上对模型进行微调。
采样(Sampling):通过一定的规则或者算法对数据集进行样本抽取。
为了便于理解本申请中技术方案的具体实现过程和实现效果,下面对相关技术进行简要说明:
图结构数据是指通过节点的特征以及节点之间的连边关系来描述各种复杂的数据对象,例如,对于文章之间的引用关系,可以将各个文章作为节点生成图结构数据,基于图结构数据进行数据处理,以实现对文章的信息整合。
对于图结构数据而言,图结构数据中可以包括多个节点,其中,多个节点中可以包括携带有标签信息的节点以及未携带有标签信息的节点,在对图结构数据进行分析处理时,往往直接基于携带有标签信息的节点的特征信息进行数据处理操作。然而,由于图结构数据中包括有未携带有标签信息的节点,且未携带有标签信息的节点的数量一般较多,因此,上述并未考虑未携带有标签信息的节点所对应的特征信息来对图结构数据进行数据处理的准确率较低。
另外,基于图结构数据的半监督学习(SSL-G)是指将无处不在的未标记知识(如图拓扑、节点属性)与很少可用的标记知识(如节点类别标签)相结合来进行机器学习操作。半监督图学习的实现方式主要包括:基于图神经网络(Graph Neural Network,简称GNN)的完整图的半监督学习、基于采样子图的半监督学习,具体的:
(1)基于GNN的完整图半监督学习:将整体的图结构数据作为输入进行监督学习操作,以生成半监督学习网络。然而,上述半监督学习网络的时间复杂度高,难以应用于大型图结构数据中。同时,在完整的图结构数据中,互连通的图结构阻止了图结构数据的并行计算,使得对于一个图结构数据的计算操作难以在多卡上并行进行处理。
(2)基于采样子图的半监督学习:对整体的图结构数据进行采样操作,获得采样子图,通过采样子图来进行监督学习操作,从而可以获得半监督学习网络模型。具体的,图结构数据的采样方法可以包括:批量训练算法(fast learning with Graph ConvolutionalNetworks Via Importance Sampling,简称fastGCN)等,通过采样子图来进行监督学习操作时,可以减少边的数量来提高半监督学习网络的学习质量和效率。但是,由于节点的数量级不变,仍然无法从根本上解决问题。
此外,对于图结构数据而言,由于标签是昂贵的,在标签数量少的情况下,大图上标签的分布可能是稀疏的、不均匀的,因此,在获取到采样子图之后,某些采样子图上可能保留了很少的标签节点,甚至没有标签节点,此时,基于上述的采样子图来进行监督学习操作时,无法保证半监督学习网络的训练稳定性。另外,在使用标签节点的作为约束进行有监督训练,获得半监督学习网络模型,则可以通过半监督学习网络模型获得无标签的样本标签。然而,上述所获得的半监督模型非常依赖于分类模型的预测质量,当样本较少时,容易造成偏差,并且,对于训练数据的标签具有较强的标签依赖性,从而使得半监督模型的泛化性和鲁棒性较差。
总的来说,如何准确地获取到图结构数据所对应的特征信息,以及如何有效地利用利用有限数量的标记数据来训练获得一种准确率较高的半监督学习模型,同时兼顾平衡半监督学习模型的泛化能力和拟合能力仍然存在挑战。
为了解决上述技术问题,本实施例提供了一种图结构的节点特征提取方法、设备及存储介质,其中,图结构的节点特征提取方法的执行主体为图结构的节点特征提取装置,该图结构的节点特征提取装置通信连接有客户端/请求端,参考附图1所示:
其中,客户端可以是任何具有一定数据传输能力的计算设备,具体实现时,客户端可以是手动、平板电脑、设定应用程序等等。此外,客户端的基本结构可以包括:至少一个处理器。处理器的数量取决于客户端的配置和类型。客户端也可以包括存储器,该存储器可以为易失性的,例如RAM,也可以为非易失性的,例如只读存储器(Read-Only Memory,简称ROM)、闪存等,或者也可以同时包括两种类型。存储器内通常存储有操作系统(OperatingSystem,简称OS)、一个或多个应用程序,也可以存储有程序数据等。除了处理单元和存储器之外,客户端还包括一些基本配置,例如网卡芯片、IO总线、显示组件以及一些外围设备等。可选地,一些外围设备可以包括,例如键盘、鼠标、输入笔、打印机等。其它外围设备在本领域中是众所周知的,在此不做赘述。
图结构的节点特征提取装置是指可以在网络虚拟环境中提供图结构的节点特征提取服务的设备,通常是指利用网络进行信息规划、图结构的节点特征提取操作的装置。在物理实现上,图结构的节点特征提取装置可以是任何能够提供计算服务,响应服务请求,并进行处理的设备,例如:可以是集群服务器、常规服务器、云服务器、云主机、虚拟中心等。图结构的节点特征提取装置的构成主要包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似。
在上述本实施例中,客户端可以与图结构的节点特征提取装置进行网络连接,该网络连接可以是无线或有线网络连接。若客户端与图结构的节点特征提取装置是通信连接,该移动网络的网络制式可以为2G(GSM)、2.5G(GPRS)、3G(WCDMA、TD-SCDMA、CDMA2000、UTMS)、4G(LTE)、4G+(LTE+)、WiMax、5G等中的任意一种。
在本申请实施例中,客户端可以获取用于生成或者获得待处理图结构,具体的,可以基于用户输入的执行操作获取待处理图结构,待处理图结构是指需要进行特征提取操作的图结构,该待处理图结构中可以包括多个节点,多个节点中的部分节点对应有标签信息。在获取到待处理图结构之后,可以将待处理图结构发送至图结构的节点特征提取装置,以使得图结构的节点特征提取装置可以获取到待处理图结构,以对待处理图结构进行分析处理,获得与待处理图结构中节点相对应的半监督节点特征。
图结构的节点特征提取装置,用于获取待处理图结构;而后对待处理图结构进行处理,可以确定与待处理图结构中节点相对应的无监督节点特征和监督节点特征,上述的节点可以包括对应有标签信息的节点和未对应有标签信息的节点;在获取到无监督节点特征和监督节点特征之后,可以基于无监督节点特征和监督节点特征来生成待处理图结构中节点相对应的半监督节点特征,该半监督节点特征用于对未对应有标签信息的节点进行分类预测。
本实施例提供的技术方案,通过对所获得的待处理图结构进行分析处理,确定与节点相对应的无监督节点特征和监督节点特征,其中,监督节点特征与节点所对应的标签信息相关,无监督节点特征与节点所对应的标签信息无关,而后则可以基于无监督节点特征和监督节点特征准确地获取到与图结构中节点所对应的半监督节点特征,所获取到的半监督节点特征可以对待处理图结构中未对应有标签信息的节点进行分类预测,从而可以获取到大量的标签信息,这样不仅降低了标签信息获取的成本,并且也有利于基于大量的标签信息来获取到准确率较高的半监督学习模型,进而有利于提高利用所获得的半监督学习模型对图结构进行分析处理的质量和需求,进一步保证了该方法的实用性。
下面结合附图,对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
图2为本发明实施例提供的一种图结构的节点特征提取方法的流程示意图;参考附图2所示,本实施例提供了一种图结构的节点特征提取方法,该方法的执行主体可以为图结构的节点特征提取装置,该图结构的节点特征提取装置可以实现为软件、或者软件和硬件的组合,具体的,该图结构的节点特征提取方法可以包括以下步骤:
步骤S201:获取待处理图结构,其中,待处理图结构中包括多个节点,多个节点中的部分节点对应有标签信息。
步骤S202:对待处理图结构进行处理,确定与节点相对应的无监督节点特征和监督节点特征,监督节点特征与标签信息相关。
步骤S203:基于无监督节点特征和监督节点特征,确定与待处理图结构中节点相对应的半监督节点特征。
下面对上述各个步骤进行详细说明:
步骤S201:获取待处理图结构,其中,待处理图结构中包括多个节点,多个节点中的部分节点对应有标签信息。
其中,待处理图结构可以是指需要进行特征提取操作的图结构数据,该待处理图结构中可以包括多个节点,多个节点中的部分节点对应有标签信息,即待处理图结构包括两类节点,其中一类节点对应有标签信息,另一类节点未对应有标签信息,为了方便理解和说明,可以将待处理图结构中对应有标签信息的节点称为标记节点,将待处理图结构中未对应有标签信息的节点称为未标记节点。
在一些实例中,对于待处理图结构而言,待处理图结构可以是指与整图相对应的整图结构或者可以是指与子图相对应的子图结构。在待处理图结构为整图结构时,该待处理图结构可以用于表达一个完整的数据关系,并且,该待处理图结构中可以包括多个子图结构,而不同的子图结构可以用于表征不同的关联关系,其中,子图结构可以是通过对整图结构进行采样或者划分处理所获得的一部分。
另外,在不同的应用场景中,待处理图结构可以用于表征不同的数据关系,例如:在社交的应用场景中,待处理图结构可以用于表征用户与用户之间的好友关系、同学关系、同事关系以及交易关系等;在文件引用领域中,待处理图结构可以用于表征文件之间的引用关系等等;此外,待处理图结构还可以是基于地图上各个目的地之间的线路关系构建的图结构,或者,在其他应用场景中,待处理图结构还能够表征图片、句子所对应的各种关系等等,对此不进行限制。
此外,本实施例对于获取待处理图结构的具体实现方式不做限定,本领域技术人员可以根据具体的应用场景或者应用需求进行设置,例如:待处理图结构可以存储在预设区域中,通过访问预设区域即可获取到待处理图结构;或者,待处理图结构可以存储在第三设备中,第三设备与节点特征提取装置通信连接,节点特征提取装置可以向第三设备发送请求信息,第三设备可以基于请求信息将待处理图结构发送至节点特征提取装置,从而使得节点特征提取装置可以稳定地获取到待处理图结构。或者,节点特征提取装置上可以设置有交互界面,用户可以在交互界面上输入图结构的配置操作,通过图结构的配置操作可以生成待处理图结构。
步骤S202:对待处理图结构进行处理,确定与节点相对应的无监督节点特征和监督节点特征,监督节点特征与标签信息相关。
在获取到待处理图结构之后,可以对待处理图结构进行分析处理,以确定与节点相对应的无监督节点特征和监督节点特征,监督节点特征与待处理图结构中节点所对应的标签信息相关,无监督节点与待处理图结构中节点所对应的标签信息无关。
需要注意的是,待处理图结构中的节点包括标记节点和未标记节点,对于标记节点和未标记节点而言,均会获取到无监督节点特征和监督节点特征。举例来说,待处理图结构中的节点包括:第一节点(未标记节点)、第二节点(标记节点)和第三节点(未标记节点),在获取到上述的待处理图结构之后,可以对待处理图结构进行分析处理,从而可以获取到第一节点所对应的无监督节点特征和监督节点特征、第二节点所对应的无监督节点特征和监督节点特征以及第三节点所对应的无监督节点特征和监督节点特征。
在一些实例中,对待处理图结构进行处理,确定与节点相对应的无监督节点特征和监督节点特征可以包括:获取用于对待处理图结构进行分析处理的机器学习模型,利用机器学习模型对待处理图结构进行分析处理,从而可以确定与节点相对应的无监督节点特征和监督节点特征,其中,机器学习模型被训练为用于对确定图结构中节点的监督节点特征和无监督节点特征。
在另一些实例中,对待处理图结构进行处理,确定与节点相对应的无监督节点特征和监督节点特征可以包括:获取用于对待处理图结构进行分析处理的第一处理器和第二处理器,利用第一处理器对待处理图结构进行分析处理,以确定与节点相对应的无监督节点特征;利用第二处理器对待处理图结构进行分析处理,以确定与节点相对应的监督节点特征,从而可以稳定地获取到无监督节点特征和监督节点特征。
在又一些实例中,待处理图结构还包括用于标识节点之间关联关系的节点拓扑信息,上述的节点拓扑信息可以称为边结构;此时,对待处理图结构进行处理,确定与节点相对应的无监督节点特征和监督节点特征可以包括:对待处理图结构中的节点拓扑信息和节点进行处理,确定与节点相对应的无监督节点特征;对待处理图结构中的节点拓扑信息、节点和标签信息进行处理,确定与节点相对应的监督节点特征。
具体的,预先配置有用于对待处理图结构中的节点拓扑信息和节点进行分析处理的第一数据通道(或者第一编码器)和用于对待处理图结构中节点拓扑信息、节点和标签信息进行分析处理的第二数据通道(或者第二编码器),在获取到待处理图结构之后,可以将待处理图结构中的节点拓扑信息和节点输入至第一数据通道,从而可以确定与节点相对应的无监督节点特征,此时,所获得的无监督节点特征与标签信息无关。另外,在获取到待处理图结构之后,可以将待处理图结构中的节点拓扑信息、节点和标签信息输入至第二数据通道,从而可以确定与节点相对应的监督节点特征,此时,所获得的监督节点特征与标签信息相关。通过对待处理图结构中的节点拓扑信息和节点进行处理,确定与节点相对应的无监督节点特征,对待处理图结构中的节点拓扑信息、节点和标签信息进行处理,有效地实现了通过双通道对待处理图结构进行处理,这样不仅能够方便实现对待处理图结构进行并行的数据处理操作,并且还可以稳定地获得无监督节点特征和监督节点特征。
需要注意的是,利用第一数据通道和第二数据通道可以同步地或者异步地对待处理图结构进行分析处理,从而可以同步地或者异步地确定与节点相对应的无监督节点特征和监督节点特征。
步骤S203:基于无监督节点特征和监督节点特征,确定与待处理图结构中节点相对应的半监督节点特征。
在获取到无监督节点特征和监督节点特征之后,可以对无监督节点特征和监督节点特征进行分析处理,以确定与待处理图结构中节点相对应的半监督节点特征,该半监督节点特征可以用于对待处理图结构中未对应有标签信息的节点进行分类预测操作。在一些实例中,基于无监督节点特征和监督节点特征,确定与待处理图结构中节点相对应的半监督节点特征可以包括:获取与无监督节点特征和监督节点特征各自对应的权重信息,利用权重信息对无监督节点特征和监督节点特征进行加权求和处理,从而可以获得半监督节点特征。
在另一些实例中,基于无监督节点特征和监督节点特征,确定与待处理图结构中节点相对应的半监督节点特征可以包括:对无监督节点特征和监督节点特征进行融合处理,获得与待处理图结构中节点相对应的半监督节点特征。
在获取到无监督节点和监督节点特征之后,可以对无监督节点特征和监督节点特征进行融合处理,从而可以获得待处理图结构中节点相对应的半监督节点特征。具体的,对无监督节点特征和监督节点特征进行融合处理,获得与待处理图结构中节点相对应的半监督节点特征可以包括:以矩阵行为基准,将无监督节点特征和监督节点特征进行拼接处理,获得与待处理图结构中节点相对应的半监督节点特征。或者,本领域技术人员也可以以矩阵列为基准,将无监督节点特征和监督节点特征进行拼接处理,从而准确地获得与待处理图结构中节点相对应的半监督节点特征。
在又一些实例中,在确定与待处理图结构中节点相对应的半监督节点特征之后,本实施例中的方法还可以包括:基于半监督节点特征,确定与待处理图结构中未对应有标签信息的节点相对应的标签信息,从而有效地提高了该方法的实用性。
本实施例提供的图结构的节点特征提取方法,通过获取待处理图结构,而后对所述待处理图结构进行处理,确定与所述节点相对应的无监督节点特征和监督节点特征,其中,监督节点特征与节点所对应的标签信息相关,无监督节点特征与节点所对应的标签信息无关,而后则可以基于无监督节点特征和监督节点特征准确地获取到与图结构所对应的半监督节点特征,所获取到的半监督节点特征可以对待处理图结构中未对应有标签信息的节点进行分类预测,从而可以获取到大量的标签信息,这样不仅降低了标签信息获取的成本,并且也有利于基于所获得的标签信息来获取到准确率较高的半监督学习模型,这样有利于提高利用所获得的半监督学习模型对图结构进行分析处理的质量和需求,进一步保证了该方法的实用性,有利于市场的推广与应用。
图3为本发明实施例提供的一种获取待处理图结构的流程示意图;参考附图3所示,本实施例提供了一种对待处理图结构进行获取的实现方式,具体的,本实施例中的获取待处理图结构可以包括:
步骤S301:获取原始图结构。
其中,原始图结构的获取方式与上述步骤S201中待处理图结构的获取方式相类似,具体可参考上述陈述内容,在此不再赘述。
步骤S302:对原始图结构进行采样,获得与原始图结构相对应的至少一个待处理图结构,待处理图结构为原始图结构的至少一部分。
具体的,为了能够提高特征提取的质量和效率,上述所获取到的待处理图结构可以是通过对原始图结构进行采样处理后所获得的子图结构。此时,对原始图结构进行采样,获得与原始图结构相对应的至少一个待处理图结构,可以包括:获取到用于对原始图结构进行采样的参数信息,具体的,参数信息可以是用户输入或者用户配置的,在不同的应用场景中,所获取到的用于对原始图结构进行采样的参数信息不同。在获取到参数信息之后,基于参数信息对原始图结构进行采样,从而可以获得与原始图结构相对应的至少一个待处理图结构,该待处理图结构可以为原始图结构的至少一部分。
在又一些实例中,对原始图结构进行采样,获得与原始图结构相对应的至少一个待处理图结构可以包括:获取原始图结构中的至少一个节点;对至少一个节点以及各个节点所对应的邻接节点进行采样,获得至少一个待处理图结构。
具体的,原始图结构中可以包括多个节点,每个节点可以对应有各自对应的邻接节点,每个节点所对应的邻接节点可以是位于预设距离范围内的节点,简单来说,与节点相对应的邻接节点是指位于节点周围的其他节点。其中,每个节点所对应的邻接节点的数量可以为一个或多个,并且不同节点所对应的邻接节点的数量可以不同。
为了能够实现对原始图结构进行采样操作,在获取到原始图结构之后,可以获取原始图结构中的至少一个节点,而后对至少一个节点以及各个节点所对应的邻接节点进行采样,从而可以获得至少一个待处理图结构,该待处理图结构即为原始图结构中与某一个节点相对应的子图结构,该待处理图结构中包括上述节点以及上述节点所对应的邻接节点,从而有效地保证了对待处理图结构进行获取的准确可靠性。需要注意的是,不同的待处理图结构中所包括的节点的数量可以相同或者不同。
本实施例中,通过获取原始图结构,而后对原始图结构进行采样,获得与原始图结构相对应的至少一个待处理图结构,待处理图结构为原始图结构的至少一部分,有效地实现了可以将一个原始图结构采样为至少一个待处理图结构,而后通过对上述的待处理图结构进行分析处理,而后基于待处理图结构的分析处理结果来获取到原始图结构的分析处理结果,这样不仅降低了原始图结构所对应的数据量,减少了对原始图结构进行分析处理时所需要的数据处理资源,并且可以并行地对不同的待处理图结构进行分析处理,有效地提高了对原始图结构进行分析处理的质量和效率,进一步提高了该方法使用的稳定可靠性。
图4为本发明实施例提供的一种半监督学习模型的训练方法的流程示意图;参考附图4所示,本实施例提供了一种图半监督学习模型的训练方法,该方法的执行主体可以为半监督学习模型的训练装置,该半监督学习模型的训练装置可以实现为软件、或者软件和硬件的组合,具体的,该半监督学习模型的训练方法可以包括以下步骤:
步骤S401:获取样本图结构,样本图结构中包括多个节点,其中,多个节点中的部分节点对应有标签信息。
步骤S402:确定与节点相对应的无监督节点特征和监督节点特征。
步骤S403:基于样本图结构、无监督节点特征、监督节点特征以及与部分节点相对应的标签信息进行学习训练,获得半监督学习模型,半监督学习模型被训练为用于预测待处理图结构中节点所对应的标签信息。
下面对上述各个步骤进行详细说明:
步骤S401:获取样本图结构,样本图结构中包括多个节点,其中,多个节点中的部分节点对应有标签信息。
其中,样本图结构可以是指具有标准特征的图结构数据,该样本图结构中可以包括多个节点,多个节点中的部分节点对应有标签信息,即样本图结构包括两类节点,其中一类节点对应有标签信息,另一类节点未对应有标签信息,为了方便表征,将样本图结构中对应有标签信息的节点可以为标记节点,将样本图结构中未对应有标签信息的节点可以为未标记节点。
步骤S402:确定与节点相对应的无监督节点特征和监督节点特征。
在一些实例中,本实施例中上述步骤S401-步骤S402的实现方式和实现效果与上述实施例中步骤S201-步骤S202的具体实现方式和实现效果相类似,具体可参考上述陈述内容,在此不再赘述。
在另一些实例中,半监督学习模型可以包括第一子模型和第二子模型;本实施例中的确定与节点相对应的无监督节点特征和监督节点特征可以包括:利用第一子模型对样本图结构中的节点拓扑信息和节点进行处理,确定与节点相对应的无监督节点特征;利用第二子模型对样本图结构中的节点拓扑信息、节点和标签信息进行处理,确定与节点相对应的监督节点特征。
具体的,预先配置有用于对样本图结构中的节点拓扑信息和节点进行分析处理的第一子模型和用于对样本图结构中节点拓扑信息、节点和标签信息进行分析处理的第二子模型,在获取到样本图结构之后,可以将样本图结构中的节点拓扑信息和节点输入至第一子模型,从而可以确定与节点相对应的无监督节点特征,此时,无监督节点特征与标签信息无关。另外,在获取到样本图结构之后,可以将样本图结构中的节点拓扑信息、节点和标签信息输入至第二子模型,从而可以确定与节点相对应的监督节点特征,该监督节点特征与标签信息相关。通过对样本图结构中的节点拓扑信息和节点进行处理,确定与节点相对应的无监督节点特征;对样本图结构中的节点拓扑信息、节点和标签信息进行处理,从而有效地实现了通过双通道(即第一子模型所对应的通道和第二子模型所对应的通道)对样本图结构中的不同特征进行提取处理,可以稳定地获得无监督节点特征和监督节点特征。
需要注意的是,利用第一子模型和第二子模型可以同步地或者异步地对样本图结构进行分析处理,从而可以同步地或者异步地确定与节点相对应的无监督节点特征和监督节点特征。
步骤S403:基于样本图结构、无监督节点特征、监督节点特征以及与部分节点相对应的标签信息进行学习训练,获得半监督学习模型,半监督学习模型被训练为用于预测待处理图结构中节点所对应的标签信息。
在获取到样本图结构、无监督节点特征、监督节点特征以及与部分节点相对应的标签信息进行学习训练,从而可以获得半监督学习模型,该半监督学习模型被训练为用于预测待处理图结构中未对应有标签信息的节点所对应的标签信息。
在一些实例中,基于样本图结构、无监督节点特征、监督节点特征以及与部分节点相对应的标签信息进行学习训练,获得半监督学习模型可以包括:基于无监督节点特征和监督节点特征,获得与样本图结构中节点相对应的半监督节点特征;基于样本图结构、半监督节点特征、监督节点特征以及与部分节点相对应的标签信息进行学习训练,获得半监督学习模型。
具体的,在获取到无监督节点特征和监督节点特征之后,可以对无监督节点特征和监督节点特征进行分析处理,以确定与待处理图结构中节点相对应的半监督节点特征,该半监督节点特征可以用于对待处理图结构中为对应有标签信息的节点进行分类预测操作。在一些实例中,基于无监督节点特征和监督节点特征,确定与待处理图结构中节点相对应的半监督节点特征可以包括:获取与无监督节点特征和监督节点特征各自对应的权重信息,利用权重信息对无监督节点特征和监督节点特征进行加权求和处理,从而可以获得半监督节点特征。
在另一些实例中,基于无监督节点特征和监督节点特征,确定与待处理图结构中节点相对应的半监督节点特征可以包括:对无监督节点特征和监督节点特征进行融合处理,获得与待处理图结构中节点相对应的半监督节点特征。
在获取到无监督节点和监督节点特征之后,可以对无监督节点特征和监督节点特征进行融合处理,从而可以获得待处理图结构中节点相对应的半监督节点特征。具体的,对无监督节点特征和监督节点特征进行融合处理,获得与待处理图结构中节点相对应的半监督节点特征可以包括:以矩阵行为基准,将无监督节点特征和监督节点特征进行拼接处理,获得与待处理图结构中节点相对应的半监督节点特征。
在获取到半监督节点特征之后,可以对样本图结构、半监督节点特征、监督节点特征以及与部分节点相对应的标签信息进行学习训练,从而可以获得半监督学习模型。
本实施例提供的半监督学习模型的训练方法,通过获取样本图结构,而后确定与节点相对应的无监督节点特征和监督节点特征,并基于样本图结构、无监督节点特征、监督节点特征以及与部分节点相对应的标签信息进行学习训练,获得半监督学习模型,有效地实现了对半监督学习模型进行学习训练操作,在获取到半监督学习模型之后,可以利用半监督学习模型对待处理图结构中为未对应有标签信息的节点进行标签预测操作,从而有效地保证了该方法的实用性。
图5为本发明实施例提供的基于样本图结构、无监督节点特征、监督节点特征以及与部分节点相对应的标签信息进行学习训练,获得半监督学习模型的流程示意图;参考附图5所示,本实施例提供了一种对半监督学习模型进行学习训练的实现方式,具体的,本实施例中的基于样本图结构、无监督节点特征、监督节点特征以及与部分节点相对应的标签信息进行学习训练,获得半监督学习模型可以包括:
步骤S501:获取与无监督节点特征相对应的第一损失函数、与监督节点特征相对应的第二损失函数以及与无监督节点特征和监督节点特征相对应的相关约束损失函数。
为了能够保证半监督学习模型的训练质量和效果,可以分别获取与无监督节点特征相对应的第一损失函数、与监督节点特征相对应的第二损失函数以及与无监督节点特征和监督节点特征相对应的相关约束损失函数。在一些实例中,第一损失函数可以通过样本图结构中节点的无监督节点特征与实际无监督节点特征进行比较所获得的。在又一些实例中,获取与无监督节点特征相对应的第一损失函数可以包括:获取未对应有标签信息的节点与相邻节点之间的第一互信息以及未对应有标签信息的节点与非相邻节点之间的第二互信息;基于第一互信息与第二互信息,获得与无监督节点特征相对应的第一损失函数。
其中,由于样本图结构中包括对应有标签信息的节点(标记节点)和未对应有标签信息的节点(未标记节点),而不同的节点可以对应有不同的损失函数,不同的损失函数对半监督学习模型的学习训练操作具有不同的影响程度,因此,为了能够保证半监督学习模型的学习训练指廊和效果,可以获取与无监督节点特征相对应的第一损失函数,具体的,可以获取未对应有标签信息的节点与相邻节点之间的第一互信息以及未对应有标签信息的节点与非相邻节点之间的第二互信息,而后可以对第一互信息和第二互信息进行分析处理,以获得与无监督节点特征相对应的第一损失函数。在一些实例中,对第一互信息和第二互信息进行加权求和处理,从而可以获得与无监督节点特征相对应的第一损失函数。在又一些实例中,将第一互信息最大化,获得第一处理后互信息,将第二互信息最小化,获得第二处理后互信息,而后将第一处理后互信息和第二处理后互信息进行累加,获得与无监督节点特征相对应的第一损失函数。
相类似的,在获取到监督节点特征之后,可以对监督节点特征进行分析处理,以获得与监督节点特征相对应的第二损失函数,在一些实例中,获取与监督节点特征相对应的第二损失函数可以包括:获取监督节点的实际标签以及预测标签所对应的分布概率,基于监督节点的实际标签和预测标签所对应的分布概率来确定第二损失函数,从而有效地保证了对第二损失函数进行确定的准确可靠性。
相类似的,在获取到无监督节点特征和监督节点特征之后,可以对无监督节点特征和监督节点特征进行分析处理,以获取到与无监督节点特征和监督节点特征相对应的相关约束损失函数。在一些实例中,预先训练有用于确定损失函数的机器学习模型,在获取到无监督节点特征和监督节点特征之后,可以将无监督节点特征和监督节点特征输入至机器学习模型中,从而可以获取到与无监督节点特征和监督节点特征所对应的相关约束损失函数。
在另一些实例中,获取与无监督节点特征和监督节点特征相对应的相关约束损失函数可以包括:获取无监督节点特征与监督节点特征之间的相似度;确定与无监督节点特征相对应的第一分类概率和与监督节点特征相对应的第二分类概率;基于相似度、第一分类概率和第二分类概率,确定与无监督节点特征和监督节点特征相对应的相关约束损失函数。
具体的,在获取到无监督节点特征和监督节点特征之后,可以利用预设的相似度计算算法对无监督节点特征和监督节点特征进行分析处理,从而可以获取到无监督节点特征与监督节点特征之间的相似度,在一些实例中,相似度可以为余弦相似度。此外,为了能够准确地获取到相关约束损失函数,可以分别对无监督节点特征和监督节点特征进行分析处理,以确定与无监督节点特征相对应的第一分类概率和第二分类概率,其中,第一分类概率和第二分类概率可以通过线性变换函数和归一化函数分别对无监督节点特征和监督节点特征进行分析处理所获得的。
在获取到无监督节点特征与监督节点特征之间的相似度、与无监督节点特征相对应的第一分类概率和与监督节点特征相对应的第二分类概率之后,可以对相似度、第一分类概率和第二分类概率进行分析处理,以确定与无监督节点特征和监督节点特征相对应的相关约束损失函数。在一些实例中,基于相似度、第一分类概率和第二分类概率,确定与无监督节点特征和监督节点特征相对应的相关约束损失函数可以包括:基于第一分类概率和第二分类概率获取到与无监督节点和监督节点相对应的相关分类概率,对相关分类概率与相似度进行乘积求和处理,从而可以获取到相关约束损失函数。
步骤S502:基于第一损失函数、第二损失函数和相关约束损失函数对无监督节点特征、监督节点特征以及与部分节点相对应的标签信息进行学习训练,获得半监督学习模型。
在获取到第一损失函数、第二损坏函数和相关约束损失函数之后,可以基于第一损失函数、第二损失函数和相关约束损失函数对无监督节点特征、监督节点特征和与部分节点相对应的标签信息进行学习训练,从而可以获取到半监督学习模型。在一些实例中,基于第一损失函数、第二损失函数和相关约束损失函数对无监督节点特征、监督节点特征以及与部分节点相对应的标签信息进行学习训练,获得半监督学习模型可以包括:基于第一损失函数、第二损失函数和相关约束损失函数确定目标损失函数,具体的,目标损失函数可以为通过对第一损失函数、第二损失函数和相关约束损失函数进行加权求和所获得的,而后以目标损失函数最小作为约束,对无监督节点特征、监督节点特征和与部分节点相对应的标签信息进行学习训练,从而可以获取到半监督学习模型。
本实施例中,通过获取与无监督节点特征相对应的第一损失函数、与监督节点特征相对应的第二损失函数以及与无监督节点特征和监督节点特征相对应的相关约束损失函数,而后基于第一损失函数、第二损失函数和相关约束损失函数对无监督节点特征、监督节点特征以及与部分节点相对应的标签信息进行学习训练,从而可以稳定地获取到半监督学习模型。
图6为本发明实施例提供的一种半监督学习模型的训练方法的流程示意图;参考附图6所示,为了进一步提高半监督学习模型的数据处理质量和效率,在获得半监督学习模型之后,本实施例中的方法还可以包括:
步骤S601:基于第一损失函数和相关损失函数,对第一子模型进行优化,获得优化后的第一子模型;和/或,基于第二损失函数和相关损失函数,对第二子模型进行优化,获得优化后的第二子模型。
步骤S602:基于优化后的第一子模型和/或优化后的第二子模型,获得优化后的半监督学习模型。
其中,由于半监督学习模型中包括第一子模型和第二子模型,因此,可以通过第一子模型和第二子模型中的至少一个进行优化处理来实现对半监督学习模型的优化操作。在一些实例中,通过第一损失函数和相关损失函数对第一子模型进行优化,获得优化后的第一子模型,而后可以基于优化后的第一子模型来获得优化后的半监督学习模型。在另一些实例中,通过第二损失函数和相关损失函数对第二子模型进行优化,获得优化后的第二子模型,而后可以基于优化后的第二子模型获得优化后的半监督学习模型。在又一些实例中,通过第一损失函数和相关损失函数,对第一子模型进行优化,获得优化后的第一子模型;基于第二损失函数和相关损失函数,对第二子模型进行优化,获得优化后的第二子模型,而后基于优化后的第一子模型和优化后的第二子模型来获取到优化后的半监督学习模型。
本实施例中,通过基于第一损失函数和相关损失函数,对第一子模型进行优化,获得优化后的第一子模型;和/或,基于第二损失函数和相关损失函数,对第二子模型进行优化,获得优化后的第二子模型,而后基于优化后的第一子模型和/或优化后的第二子模型,从而有效地实现了采用元学习的方式对半监督学习模型中的第一子模型和第二子模型分别进行优化操作,不仅保证了对半监督学习模型进行优化的灵活可靠性,并且也提高了半监督学习模型的优化效果,有利于保证半监督模型对图结构数据进行分析处理的准确度。
具体应用时,本应用实施例提供了一种半监督学习模型的训练方法,该训练方法可以高效的通过双通道来确定图结构中节点相对应的监督信息和无监督信息,而后利用监督信息和无监督信息之间的相关性来进行半监督学习操作,从而可以获得兼顾泛化能力和拟合能力的半监督学习模型。具体的,参考附图7所示,本实施例中的模型训练方法可以包括以下步骤:
步骤1:获取用于进行学习训练的图结构,该图结构中包括节点和边结构,且图结构中的部分节点对应有标签信息,其他节点未对应有标签信息。
具体的,图结构中的节点可以对应有节点信息,该节点信息X用于标识图结构中节点所对应的属性信息,该属性信息可以包括:节点名称、节点值、节点类型等等,边结构A用于标识节点与节点之间的关联关系。
步骤2:训练双通道编码器。
其中,双通道编码器可以包括与监督通道相对应的第一编码器和与无监督通道相对应的第二编码器,第一编码器用于对图结构中的监督信息进行提取,而后通过读出模块获取到节点的监督表征向量,第二编码器用于对图结构中的无监督信息进行提取,而后通过读出模块获取到节点的无监督表征向量。
具体的,为了能够构建双通道编码器,可以对与节点相对应的无监督特征和监督特征所集成的节点表征进行学习训练,以获取到第一编码器f
θ(θ;A,X)和第二编码器
其中,θ为第一编码器所对应的参数集合,A是图中节点所对应的拓扑信息,X用于标识每个节点所对应的属性信息,
为第二编码器所对应的参数集合。第一编码器f
θ能够在标签集Y的指导下,从图结构中提取出与节点相对应的监督信息,并输出节点所对应的监督表征矩阵Z
(S);第二编码器
能够从图结构中提取出与节点相对应的无监督信息,并输出输出节点所对应的无监督表征矩阵Z
(U)。
由于半监督学习模型中可以包括第一编码器和第二编码器,为了能够学习生成半监督学习模型,可以先对第一编码器和第二编码器的参数进行学习训练,具体的,可以将第一编码器和第二编码器所对应的目标损失函数写成:
其中,θ
*是优化后的参数,
是优化后的参数,
是第一编码器和第二编码器所对应的目标损失函数,λ
1、λ
2是超参数,
为节点所对应的监督节点特征,
为节点所对应的无监督节点特征,
为与无监督节点特征和监督节点特征相对应的相关约束损失函数。
对于上述的目标损失函数
而言,为了能够准确地获取到目标损失函数,可以先获取到以下三个参数:1)节点所对应的监督节点损失
在一些实例中,监督节点损失所对应的节点可以为标记节点;2)节点所对应的无监督损失
3)相关约束损失
将所获得的监督节点特征
输入线性变换函数Linear(.)和归一化函数softmax(.),从而可以获得与监督节点特征相对应的分类概率信息
具体的公式如下:
在获取到分类概率信息之后,可以基于分类概率信息和节点所对应的实际标签来获取到监督通道损失,具体的公式如下:
其中,1(.)→{0,1}是指标函数,
是标记节点的索引集,每个节点有一个索引号,用这个索引集合来找到有标签的节点,而后只需要训练有标签的节点,通过训练有标签的节点,来更新监督通道的参数。
表示概率分布
和one-hot标签y之间的交叉熵,y
i∈Y是n
i的实际标签。
(2)采用基于互信息(MI)的对比学习目标作为无监督的通道损失,以获取节点所对应的无监督损失
具体可以通过以下步骤来获得:
构建训练的目标,让中心节点的标识与邻居节点的标识比较接近,负采样。具体的,考虑采样子图中中心节点与其所有相邻节点之间的强相关性,旨在最大化它们表征之间的互信息。因此,在节点表征上,可以使用Corrupting函数来生成负中心节点表征,表示为:
其中,
用于表征非邻居节点的节点表征信息,
用于表征邻居节点的节点表征信息。
在获取到
和
之后,可以基于
和
获取到无监督损失
具体的公式如下:
其中,MI(z,u)用于计算参数z和参数u之间互信息得分的函数,
用于标识节点与邻居节点之间的互信息,
用于标识节点与非邻居节点之间的互信息,
是无监督通道中G
i中节点n
j的相应隐层输出。具体的,可以将
最大化,并将
最小化,而后基于处理后的互信息来获取到无监督损失
给定批节点的无监督节点表征来重建批图,而后基于重建的批图来确定无监督节点特征与监督节点特征之间的相似度,具体可以通过以下公式来获得:
其中,
用于表征无监督节点特征与监督节点特征之间的相似度,
可以是核相似函数(例如:余弦相似性),α是控制重构图密度的阈值,举例来说,在一个图结构中包括有64个节点时,而后可以针对每个节点获取到无监督节点特征与监督节点特征之间的相似度,为了能够保证半监督学习模型训练的质量和效率,可以将相似度较低
的忽略掉,获取到相似度较高
的相似度表征。
在获取到无监督节点特征和监督节点特征之间的相似度,并可以确定与无监督节点特征相对应的第一分类概率
和与监督节点相对应的第二分类概率
而后可以基于相似度、第一分类概率和第二分类概率来获取到相关约束损失
具体公式如下:
其中,如果n
i有标签,可以用硬标签y
i∈Y替换软分类概率
相关约束定义为:
其中,L是重建批处理图的拉普拉斯算子,定义为L=DS
(μ),并且D是满足
的对角矩阵。
在获取到监督节点损失
无监督损失
和相关约束损失
之后,可以确定目标损失函数
而后可以在最小化目标损失函数之后,获得最终节点所对应的半监督节点表征Z,具体的如下:
Z(S)=fθ*=ψ(θ*;A,X);
Z=Merge(Z(S),Z(μ),axis=1)
其中,Merge(.)是一个融合有监督和无监督节点表征的合并函数,Z被称为半监督节点表征,使用标记节点的表征及其标签集来训练一个轻量级分类器,从而可以获得训练后的半监督学习模型,然后,使用训练好的半监督学习模型来预测未标记节点的类别。
步骤3:对半监督学习模型进行参数优化。
基于元学习优化的方式来对半监督学习模型中所包括的双通道编码器进行参数优化操作。具体的,可以根据无监督表示之间的相似性去约束不同子图的分类概率之间的距离,达到使用无监督信息提升分类效果和泛化能力的目标。其中,元学习通常涉及一个双层优化过程,通过元梯度参数更新可以提高模型的泛化能力。在第t-th个训练步骤的内学习阶段,假设θ
t和
分别是双通道编码器所对应的参数,可以对M(可以为1、16、32、64等等,只要内存更多)批节点进行采样,获得内学习数据,表示为
其中,
基于上述所获取到的内学习数据,则可以对双通道编码器所对应的参数进行更新,具体如下:
其中,α和β是学习率,
分别为双通道编码器所对应的更新后的参数,θ
t、
分别为双通道编码器所对应的参数,
是梯度函数。然后,在元学习的阶段,同样可以对其他批节点
进行采样,并输入到训练参数中,参数的最终元梯度可以通过以下方式计算:
最后,基于获取到的最终元梯度可以对参数θ
t和
进行更新,具体的,
和
从而有效地实现了参数的更新操作。
在另一些实例中,为了能够提升模型优化的速度和效率,本应用实施例中的用于进行学习训练的图结构可以是通过对完全图结构进行采样获得的子图结构,此时,本应用实施例中的方法还可以包括子图采样操作,即对完全图进行采样,获得采样子图,而后可以将采样子图进行模型训练操作,或者,在模型训练之后,可以利用训练后的半监督学习模型对采样子图进行分析处理,即将采样子图输入到双通道编码器中,得到对应的子图表征。
具体的,子图采样可以包括以下步骤:
在获取到图结构之后,可以识别图结构中所包括的一批节点,对每个节点n
i采样一个子图G
i={A
i,X
i},其中,
是对称邻接矩阵,N
i是G
i中的节点数,
是节点特征矩阵,d是特征维度,即通过对节点以及节点所对应的邻接节点进行采样操作,获得与节点相对应的采样子图
然后,将采样子图
送入两个编码器通道,以生成两批节点表征。B是采样数量(一批节点的数量),R是是N
i×N
i的空间,由于图结构可以包括一个或多个采样子图,在图结构包括多个采样子图时,编码器对整个图数据的编码过程可以被分成多个批次。对于图结构而言,特定批次
上的采样编码可以写成:
其中,SubgraphSampling(.)可以是任何采样策略,SubgraphEncoder(.)可以是任何图神经网络(一般都是输出矩阵标识),
是G
i上的隐藏层输出子图的矩阵标识,h是隐藏层维度。Readout(.)用于将子图的矩阵表示信息转换为向量表示信息,从而有效地实现了图结构的采样操作。
本应用实施例提供的技术方案,能够从未标记的数据中提取无监督知识,从而改进节点潜在特征,并将学习到的模型推广到监督学习任务(如分类问题中),同时,通过一种子图采样策略来处理可扩展图,用于为小批量编码的双通道提供输入信息,这样可以有效地提高数据处理的质量和效率。另外,由于监督学习目标和无监督学习目标之间存在依赖关系,节点的类别与图的结构之间存在依赖关系,类别相同的节点之间的连接更加密切一些,因此,采用了一种基于元学习的方法来解决双层优化问题,从而进一步提高了整体模型的泛化能力,同时保证了对半监督学习模型进行训练的质量和效率。
图8为本发明实施例提供的一种图结构的节点特征提取装置的结构示意图;参考附图8所示,本实施例提供了一种图结构的节点特征提取装置,该节点特征提取装置用于执行上述图2所示的图结构的节点特征提取方法,具体的,该节点特征提取装置可以包括:
第一获取模块11,用于获取待处理图结构,其中,待处理图结构中包括多个节点,多个节点中的部分节点对应有标签信息;
第一处理模块12,用于对待处理图结构进行处理,确定与节点相对应的无监督节点特征和监督节点特征,监督节点特征与标签信息相关;
第一确定模块13,用于基于无监督节点特征和监督节点特征,确定与待处理图结构中节点相对应的半监督节点特征。
在一些实例中,待处理图结构还包括用于标识节点之间关联关系的节点拓扑信息;在第一处理模块12对待处理图结构进行处理,确定与节点相对应的无监督节点特征和监督节点特征时,该第一处理模块12用于执行:对待处理图结构中的节点拓扑信息和节点进行处理,确定与节点相对应的无监督节点特征;对待处理图结构中的节点拓扑信息、节点和标签信息进行处理,确定与节点相对应的监督节点特征。
在一些实例中,在第一确定模块13基于无监督节点特征和监督节点特征,确定与待处理图结构中节点相对应的半监督节点特征时,该第一确定模块13用于执行:对无监督节点特征和监督节点特征进行融合处理,获得与待处理图结构中节点相对应的半监督节点特征。
在一些实例中,在第一确定模块13对无监督节点特征和监督节点特征进行融合处理,获得与待处理图结构中节点相对应的半监督节点特征时,该第一确定模块13用于执行:以矩阵行为基准,将无监督节点特征和监督节点特征进行拼接处理,获得与待处理图结构中节点相对应的半监督节点特征。
在一些实例中,在确定与待处理图结构相对应的半监督节点特征之后,本实施例中的第一处理模块12还用于:基于半监督节点特征,确定与待处理图结构中未对应有标签信息的节点相对应的标签信息。
在一些实例中,在第一获取模块11获取待处理图结构时,该第一获取模块11用于执行:获取原始图结构;对原始图结构进行采样,获得与原始图结构相对应的至少一个待处理图结构,待处理图结构为原始图结构的至少一部分。
在一些实例中,在第一获取模块11对原始图结构进行采样,获得与原始图结构相对应的至少一个待处理图结构该第一获取模块11用于执行:获取原始图结构中的至少一个节点;对至少一个节点以及各个节点所对应的邻接节点进行采样,获得至少一个待处理图结构。
图8所示装置可以执行图1-图3、图7所示实施例的方法,本实施例未详细描述的部分,可参考对图1-图3、图7所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1-图3、图7所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图8所示图结构的节点特征提取装置的结构可实现为一电子设备,该电子设备可以是电子设备、服务器等各种设备。如图9所示,该电子设备可以包括:第一处理器21和第一存储器22。其中,第一存储器22用于存储相对应电子设备执行上述图1-图3、图7所示实施例中图结构的节点特征提取方法的程序,第一处理器21被配置为用于执行第一存储器22中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第一处理器21执行时能够实现如下步骤:
获取待处理图结构,其中,待处理图结构中包括多个节点,多个节点中的部分节点对应有标签信息;
对待处理图结构进行处理,确定与节点相对应的无监督节点特征和监督节点特征,监督节点特征与标签信息相关;
基于无监督节点特征和监督节点特征,确定与待处理图结构中节点相对应的半监督节点特征。
进一步的,第一处理器21还用于执行前述图1-图3、图7所示实施例中的全部或部分步骤。
其中,电子设备的结构中还可以包括第一通信接口23,用于电子设备与其他设备或通信网络通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图1-图3、图7所示方法实施例中图结构的节点特征提取方法所涉及的程序。
此外,本发明实施例提供了一种计算机程序产品,包括:计算机程序,当计算机程序被电子设备的处理器执行时,使处理器执行上述图1-图3、图7所示的图结构的节点特征提取方法中的步骤。
图10为本发明实施例提供的一种半监督学习模型的训练装置的结构示意图;参考附图10所示,本实施例提供了一种半监督学习模型的训练装置,该半监督学习模型的训练装置用于执行上述图3所示的半监督学习模型的训练方法,具体的,该半监督学习模型的训练装置可以包括:
第二获取模块31,用于获取样本图结构,样本图结构中包括多个节点,其中,多个节点中的部分节点对应有标签信息;
第二确定模块32,用于确定与节点相对应的无监督节点特征和监督节点特征;
第二处理模块33,用于基于样本图结构、无监督节点特征、监督节点特征以及与部分节点相对应的标签信息进行学习训练,获得半监督学习模型,半监督学习模型被训练为用于预测待处理图结构中节点所对应的标签信息。
在一些实例中,半监督学习模型包括第一子模型和第二子模型;在第二确定模块32确定与节点相对应的无监督节点特征和监督节点特征时,该第二确定模块32用于执行:利用第一子模型对样本图结构中的节点拓扑信息和节点进行处理,确定与节点相对应的无监督节点特征;利用第二子模型对样本图结构中的节点拓扑信息、节点和标签信息进行处理,确定与节点相对应的监督节点特征。
在一些实例中,在第二处理模块33基于样本图结构、无监督节点特征、监督节点特征以及与部分节点相对应的标签信息进行学习训练,获得半监督学习模型时,该第二处理模块33用于执行:基于无监督节点特征和监督节点特征,获得与样本图结构中节点相对应的半监督节点特征;基于样本图结构、半监督节点特征、监督节点特征以及与部分节点相对应的标签信息进行学习训练,获得半监督学习模型。
在一些实例中,在第二处理模块33基于无监督节点特征和监督节点特征,获得与样本图结构中节点对应的半监督节点特征时,该第二处理模块33用于执行:对无监督节点特征和监督节点特征进行融合处理,获得与样本图结构中节点相对应的半监督节点特征。
在一些实例中,在第二处理模块33基于样本图结构、无监督节点特征、监督节点特征以及与部分节点相对应的标签信息进行学习训练,获得半监督学习模型时,该第二处理模块33用于执行:获取与无监督节点特征相对应的第一损失函数、与监督节点特征相对应的第二损失函数以及与无监督节点特征和监督节点特征相对应的相关约束损失函数;基于第一损失函数、第二损失函数和相关约束损失函数对无监督节点特征、监督节点特征以及与部分节点相对应的标签信息进行学习训练,获得半监督学习模型。
在一些实例中,在第二处理模块33获取与无监督节点特征相对应的第一损失函数时,该第二处理模块33用于执行:获取未对应有标签信息的节点与相邻节点之间的第一互信息以及未对应有标签信息的节点与非相邻节点之间的第二互信息;基于第一互信息与第二互信息,获得与无监督节点特征相对应的第一损失函数。
在一些实例中,在第二处理模块33获取与无监督节点特征和监督节点特征相对应的相关约束损失函数时,该第二处理模块33用于执行:获取无监督节点特征与监督节点特征之间的相似度;确定与无监督节点特征相对应的第一分类概率和与监督节点特征相对应的第二分类概率;基于相似度、第一分类概率和第二分类概率,确定与无监督节点特征和监督节点特征相对应的相关约束损失函数。
在一些实例中,在获得半监督学习模型之后,本实施例中的第二处理模块33用于执行以下步骤:基于第一损失函数和相关损失函数,对第一子模型进行优化,获得优化后的第一子模型;和/或,基于第二损失函数和相关损失函数,对第二子模型进行优化,获得优化后的第二子模型;基于优化后的第一子模型和/或优化后的第二子模型,获得优化后的半监督学习模型。
图10所示装置可以执行图3-图7所示实施例的方法,本实施例未详细描述的部分,可参考对行图3-图7所示实施例的相关说明。该技术方案的执行过程和技术效果参见行图3-图7所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图10所示半监督学习模型的训练装置的结构可实现为一电子设备,该电子设备可以是手机、平板电脑、电子设备、服务器等各种设备。如图11所示,该电子设备可以包括:第二处理器41和第二存储器42。其中,第二存储器42用于存储相对应电子设备执行上述图3-图7所示实施例中提供的半监督学习模型的训练方法的程序,第二处理器41被配置为用于执行第二存储器42中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第二处理器41执行时能够实现如下步骤:
获取样本图结构,样本图结构中包括多个节点,其中,多个节点中的部分节点对应有标签信息;
确定与节点相对应的无监督节点特征和监督节点特征;
基于样本图结构、无监督节点特征、监督节点特征以及与部分节点相对应的标签信息进行学习训练,获得半监督学习模型,半监督学习模型被训练为用于预测待处理图结构中节点所对应的标签信息。
进一步的,第二处理器41还用于执行前述图3-图7所示实施例中的全部或部分步骤。
其中,电子设备的结构中还可以包括第二通信接口43,用于电子设备与其他设备或通信网络通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图3-图7所示方法实施例中半监督学习模型的训练方法所涉及的程序。
此外,本发明实施例提供了一种计算机程序产品,包括:计算机程序,当计算机程序被电子设备的处理器执行时,使处理器执行上述图3-图7所示的半监督学习模型的训练方法中的步骤。
图12为本发明实施例提供的一种交通流量的确定方法的流程示意图;参考附图12所示,本实施例提供了一种交通流量的确定方法,该方法的执行主体可以为交通流量的确定装置,该交通流量的确定装置可以实现为软件、或者软件和硬件的组合,具体的,该交通流量的确定方法可以包括以下步骤:
步骤S1201:获取待处理图结构,其中,待处理图结构中包括多个交通节点,多个交通节点中的部分交通节点对应有标签信息。
其中,待处理图结构与道路交通相对应,在一些实例中,待处理图结构可以用于表征城市轨道交通网络、某一区域的轨道交通网络等等;该待处理图结构中可以包括多个交通节点,该交通节点可以是指任意之一:地铁站、公交站、十字路口等等,该交通节点中的部分交通节点可以对应有标签信息,该标签信息可以是基于对历史交通数据和/或实时交通数据进行分析处理所获得的交通节点的流量特征,例如:标签信息可以通过道路中的摄像头进行图像采集操作所获得,该流量特征可以包括以下至少之一:车流量特征、人流量特征。
步骤S1202:对待处理图结构进行处理,确定与交通节点相对应的无监督节点特征和监督节点特征,监督节点特征与标签信息相关。
步骤S1203:基于无监督节点特征和监督节点特征,确定与待处理图结构中交通节点相对应的半监督节点特征。
其中,本实施例中上述步骤的具体实现方式和实现效果与上述实施例中步骤S202-步骤S203的具体实现方式和实现效果相类似,具体可参考上述陈述内容,在此不再赘述。
步骤S1204:基于半监督节点特征,确定与交通节点相对应的交通流量。
在获取到与交通节点相对应的半监督节点特征之后,可以对半监督节点特征进行分析处理,从而可以确定与交通节点所在道路的交通流量,该交通流量用于表征在当前时间段(或者未来的某一时间段)内该交通节点可能出现的车流量和人流量。
在确定与交通节点相对应的交通流量之后,本实施例中的方法还包括:在交通流量大于第一阈值时,则说明交通节点在当前时间段内可能会出现交通阻塞的情况,此时,则可以交通流量生成提示信息,并可以将提示信息显示在交通节点所对应的区域内的显示屏中进行显示,以实现流量调整操作;在另一些实例中,还可以基于交通流量来生成交通信号灯的控制信息,基于交通信号灯的控制信息在预设允许的范围内对交通节点所对应区域内的交通信号灯进行调整,需要注意的是,此时的调整为微调,且在预先配置的允许调整范围内,从而可以实现对道路交通的流量进行适应性的调整和控制操作,这样可以减少或者甚至避免交通节点出现交通阻塞情况。在交通流量小于或等于第一阈值时,则说明交通节点在当前时间段内不容易出现交通阻塞的情况,则可以继续保持现有的道路交通情况。
在又一些实例中,在交通流量大于第一阈值时,则可以将交通流量与预设阈值进行分析比较,预设阈值大于第一阈值,在交通流量大于预设阈值时,则说明该交通节点在当前时间段的交通流量出现异常,例如:该交通节点所对应的区域内存在交通事故、交通管制等情况,此时,为了能够使得交通管理人员及时了解到该交通节点所对应的交通情况,则可以基于交通流量生成与该交通节点所对应的交通异常提示信息,并可以将交通异常提示信息上报为交通管理中心,以使得交通管理人员基于所获得的交通异常提示信息对该交通节点所对应的交通情况进行查看,在必要时,可以进行交通报警操作,以可以尽量解除交通节点所对应的交通异常情况,保证道路交通的安全性。
需要注意的是,本实施例中还可以包括上述图1-图3、图7所示实施例的方法,本实施例未详细描述的部分,可参考对图1-图3、图7所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1-图3、图7所示实施例中的描述,在此不再赘述。
本实施例提供的交通流量的确定方法,通过获取待处理图结构,对待处理图结构进行处理,确定与交通节点相对应的无监督节点特征和监督节点特征,基于无监督节点特征和监督节点特征确定与待处理图结构中交通节点相对应的半监督节点特征,而后基于半监督节点特征确定与交通节点相对应的交通流量,从而有效地实现了对与交通节点相对应的交通流量进行准确地确定操作,此外,在获取到交通流量之后,则可以基于交通流量对交通节点所对应的交通情况进行确定,而后可以基于交通节点所对应的交通情况进行交通调节和控制操作,进一步提高了该方法的实用性,有利于市场的推广与应用。
图13为本发明实施例提供的一种交通流量的确定装置的结构示意图;参考附图13所示,本实施例提供了一种交通流量的确定装置,该交通流量的确定装置用于执行上述图12所示的交通流量的确定方法,具体的,该确定装置可以包括:
第三获取模块51,用于获取待处理图结构,其中,待处理图结构中包括多个交通节点,多个交通节点中的部分交通节点对应有标签信息;
第三处理模块52,用于对待处理图结构进行处理,确定与交通节点相对应的无监督节点特征和监督节点特征,监督节点特征与标签信息相关;
第三确定模块53,用于基于无监督节点特征和监督节点特征,确定与待处理图结构中交通节点相对应的半监督节点特征;
第三确定模块53,还用于基于半监督节点特征,确定与交通节点相对应的交通流量。
图13所示装置可以执行图12所示实施例的方法,本实施例未详细描述的部分,可参考对图12所示实施例的相关说明。该技术方案的执行过程和技术效果参见图12所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图13所示交通流量的确定装置的结构可实现为一电子设备,该电子设备可以是电子设备、服务器等各种设备。如图14所示,该电子设备可以包括:第三处理器61和第三存储器62。其中,第三存储器62用于存储相对应电子设备执行上述图12所示实施例中交通流量的确定方法的程序,第三处理器61被配置为用于执行第三存储器62中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第三处理器61执行时能够实现如下步骤:获取待处理图结构,其中,待处理图结构中包括多个交通节点,多个交通节点中的部分交通节点对应有标签信息;对待处理图结构进行处理,确定与交通节点相对应的无监督节点特征和监督节点特征,监督节点特征与标签信息相关;基于无监督节点特征和监督节点特征,确定与待处理图结构中交通节点相对应的半监督节点特征;基于半监督节点特征,确定与交通节点相对应的交通流量。
进一步的,第三处理器61还用于执行前述图12所示实施例中的全部或部分步骤。
其中,电子设备的结构中还可以包括第三通信接口63,用于电子设备与其他设备或通信网络通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图12所示方法实施例中交通流量的确定方法所涉及的程序。
此外,本发明实施例提供了一种计算机程序产品,包括:计算机程序,当计算机程序被电子设备的处理器执行时,使处理器执行上述图12所示的交通流量的确定方法中的步骤。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器,使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。