CN116386894A - 一种信息溯源方法、装置、存储介质及电子设备 - Google Patents

一种信息溯源方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN116386894A
CN116386894A CN202310246877.8A CN202310246877A CN116386894A CN 116386894 A CN116386894 A CN 116386894A CN 202310246877 A CN202310246877 A CN 202310246877A CN 116386894 A CN116386894 A CN 116386894A
Authority
CN
China
Prior art keywords
node
graph
network
information
propagation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310246877.8A
Other languages
English (en)
Inventor
洪星芸
张吉
许增辉
余婷
李明章
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202310246877.8A priority Critical patent/CN116386894A/zh
Publication of CN116386894A publication Critical patent/CN116386894A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书公开了一种信息溯源方法、装置、存储介质及电子设备,本说明书实施例对图网络进行信息模拟传播,以得到传播后的图网络中每个节点的状态信息。将状态信息和图网络的基础网络结构信息输入到待训练的图神经网络模型中,以通过图神经网络模型预测出传播后的图网络中信息传播的起始节点。以预测出的起始节点与真实起始节点之间的差异最小化为优化目标,对图神经网络模型进行训练。在此方法中,不依赖于信息传播的传播系数预测传播源,而是通过对图神经网络模型进行有监督训练,使图神经网络模型学习到传播后的图网络与传播源之间的对应关系,以基于训练后的图神经网络模型预测待溯源的图网络中的传播源,来提高预测传播源的准确性。

Description

一种信息溯源方法、装置、存储介质及电子设备
技术领域
本说明书涉及信息溯源技术领域,尤其涉及一种信息溯源方法、装置、存储介质及电子设备。
背景技术
目前,信息溯源在各种场景中均有应用,比如:社交网络上谣言溯源、传染病的传染源定位、网络病毒溯源等。在信息溯源时,可以基于图网络进行传播源预测。其中,图网络(Graph Network,GN)是在拓扑空间内按图结构组织以进行关系推理的函数集合。
现有技术中,可以多次从图网络中随机选择一个节点作为模拟传播源,通过传播动力学模型中预设的传播系数,从模拟传播源开始,在图网络中模拟信息传播,以确定出图网络中每个节点的状态最接近真实状态时所选取的节点,作为最终预测出的传播源。其中,传播系数可以包括:感染率、恢复率、传播时间等。节点的状态可以包括:感染状态、恢复状态、未感染状态等。
然而,现有技术预测传播源的方法依赖于传播动力学模型的传播系数的取值,而在实际信息传播过程中的传播系数是未知的,这样,在假设传播系数的情况下,可能导致预测出的传播源不准确。
发明内容
本说明书实施例提供一种信息溯源方法、装置、存储介质及电子设备,以部分解决上述现有技术存在的问题。
本说明书实施例采用下述技术方案:
本说明书提供的一种信息溯源方法,包括:
获取预先构建的图网络;
生成针对所述图网络的模拟指令,以通过所述模拟指令,执行针对所述图网络的信息模拟传播任务,得到传播后图网络以及所述传播后图网络中每个节点的状态信息;
将每个节点的状态信息以及所述图网络的基础网络结构信息输入到待训练的图神经网络模型中,以通过所述图神经网络模型基于每个节点的状态信息,确定出每个节点对应的初始特征,根据每个节点对应的初始特征,确定任意两个节点之间的相关度,基于任意两个节点之间的相关度,对所述基础网络结构信息进行更新,得到更新后信息,根据所述更新后信息,对每个节点对应的初始特征进行处理,得到每个节点对应的处理后特征,并基于每个节点对应的处理后特征,确定出所述传播后图网络的整体特征,根据所述整体特征以及每个节点对应的处理后特征,预测出所述传播后图网络中信息传播的起始节点;
最小化预测出的起始节点与真实起始节点之间的差异为优化目标,对所述图神经网络模型进行训练,得到训练后模型;
在得到所述训练后模型之后,接收信息溯源请求,根据所述信息溯源请求,将待溯源的目标图网络中每个目标节点的状态信息以及所述目标图网络的基础网络结构信息输入到所述训练后模型中,以通过所述训练后模型预测出所述目标图网络中信息传播的起始目标节点,并根据所述起始目标节点,执行任务。
可选地,在获取预先构建的图网络之前,所述方法还包括:
获取目标对象群,并确定所述目标对象群中各目标对象之间的直接关联关系;
以每个目标对象为节点,各目标对象之间的直接关联关系为边,构建图网络。
可选地,通过所述模拟指令,执行针对所述图网络的信息模拟传播任务,得到传播后图网络以及所述传播后图网络中每个节点的状态信息,具体包括:
根据所述模拟指令,从预先构建的图网络中随机选择一个节点确定为信息传播的起始节点;
将确定出的起始节点以及预先构建的图网络输入到传播动力学模型中,以通过所述传播动力学模型基于预设的传播系数,从确定出的起始节点开始,在所述图网络中进行信息传播,得到传播后图网络以及所述传播后图网络中每个节点的状态信息。
可选地,所述基础网络结构信息包括:邻接矩阵或拉普拉斯矩阵。
可选地,所述图神经网络模型包括:输入层、注意力层、图卷积层、图表征层、输出层;
将每个节点的状态信息以及所述图网络的基础网络结构信息输入到图神经网络模型中,以通过所述图神经网络模型基于每个节点的状态信息,确定出每个节点对应的初始特征,根据每个节点对应的初始特征,确定任意两个节点之间的相关度,基于任意两个节点之间的相关度,对所述基础网络结构信息进行更新,得到更新后信息,根据所述更新后信息,对每个节点对应的初始特征进行处理,得到每个节点对应的处理后特征,并基于每个节点对应的处理后特征,确定出所述传播后图网络的整体特征,根据所述整体特征以及每个节点对应的处理后特征,预测出所述传播后图网络中信息传播的起始节点,具体包括:
将每个节点的状态信息以及所述图网络的基础网络结构信息输入到待训练的图神经网络模型中,以通过所述输入层,对每个节点的状态信息进行编码,得到每个节点对应的初始特征;
将每个节点对应的初始特征输入到所述注意力层,以通过所述注意力层,根据每个节点对应的初始特征,确定任意两个节点之间的相关度;
将任意两个节点之间的相关度以及所述基础网络结构信息输入到所述图卷积层,以通过所述图卷积层,基于任意两个节点之间的相关度,对所述基础网络结构信息进行更新,得到更新后信息,根据所述更新后信息,对每个节点对应的初始特征进行处理,得到每个节点对应的处理后特征;
将所述图卷积层输出的每个节点对应的处理后特征输入到所述图表征层,以通过所述图表征层,基于每个节点对应的处理后特征,确定出所述传播后图网络的整体特征;
将所述整体特征以及每个节点对应的处理后特征输入到所述输出层,以通过所述输出层,根据所述整体特征以及每个节点对应的处理后特征,预测出所述传播后图网络中信息传播的起始节点。
可选地,基于任意两个节点之间的相关度,对所述基础网络结构信息进行更新,得到更新后信息,具体包括:
基于任意两个节点之间的相关度,确定包含任意两个节点之间的相关度的相关度矩阵;
将所述相关度矩阵与所述基础网络结构信息进行点积,得到点积结果,并将点积结果作为对所述基础网络结构信息进行更新后的更新后信息。
可选地,根据所述更新后信息,对每个节点对应的初始特征进行处理,得到每个节点对应的处理后特征,具体包括:
将每个节点对应的初始特征以及所述更新后信息输入到图卷积层中的图卷积网络中,以通过图卷积网络,根据所述更新后信息,对每个节点对应的初始特征进行图卷积,得到每个节点对应的图卷积后特征,将每个节点对应的图卷积后特征与每个节点对应的初始特征进行相加,得到每个节点对应的处理后特征。
可选地,所述图卷积层包含多个图卷积网络;
将每个节点对应的初始特征以及所述更新后信息输入到图卷积层中的图卷积网络中,以通过图卷积网络,根据所述更新后信息,对每个节点对应的初始特征进行图卷积,得到每个节点对应的图卷积后特征,将每个节点对应的图卷积后特征与每个节点对应的初始特征进行相加,得到每个节点对应的处理后特征,具体包括:
依次针对每个图卷积网络,将上一图卷积网络输出的每个节点对应的处理后特征重新确定为输入该图卷积网络的每个节点对应的初始特征;
将输入该图卷积网络的每个节点对应的初始特征以及所述更新后信息输入到该图卷积网络中,以通过该图卷积网络,根据所述更新后信息,对每个节点对应的初始特征进行图卷积,得到该图卷积网络中每个节点对应的图卷积后特征,将该图卷积网络中每个节点对应的图卷积后特征与输入该图卷积网络的每个节点对应的初始特征进行相加,得到该图卷积网络输出的每个节点对应的处理后特征。
可选地,基于每个节点对应的处理后特征,确定出所述传播后图网络的整体特征,具体包括:
基于每个节点对应的处理后特征,确定每个节点在所述传播后图网络中的重要程度;
针对每种状态,根据每个节点在所述传播后图网络中的重要程度,从处于该种状态的各节点中筛选出指定数量的节点,作为重要节点;
对所述重要节点对应的处理后特征进行池化操作,得到该种状态下的池化结果;
将每种状态下的池化结果进行加权求和,得到所述传播后图网络的整体特征。
可选地,根据所述整体特征以及每个节点对应的处理后特征,预测出所述传播后图网络中信息传播的起始节点,具体包括:
根据每个节点对应的处理后特征以及所述整体特征,确定每个节点与所述传播后图网络之间的相似度;
根据每个节点对应的处理后特征、所述整体特征以及每个节点与所述传播后图网络之间的相似度,预测出所述传播后图网络中信息传播的起始节点。
可选地,根据每个节点对应的处理后特征、所述整体特征以及每个节点与所述传播后图网络之间的相似度,预测出所述传播后图网络中信息传播的起始节点,具体包括:
针对每个节点,根据该节点对应的处理后特征、所述整体特征以及该节点与所述传播后图网络之间的相似度,预测出该节点为所述传播后图网络中信息传播的起始节点的预测概率,作为该节点对应的预测概率;
从每个节点对应的预测概率中选择出预测概率最大的节点,作为所述传播后图网络中信息传播的起始节点。
可选地,最小化预测出的起始节点与真实起始节点之间的差异为优化目标,对所述图神经网络模型进行训练,具体包括:
确定所述图神经网络模型输出的针对每个节点为起始节点的预测概率,作为每个节点对应的预测概率;
对每个节点对应的预测概率进行归一化,得到每个节点对应的归一化结果;
最小化预测出的起始节点与真实起始节点之间的差异为优化目标,以及最小化每个节点对应的归一化结果与每个节点各自对应的真实归一化结果之间的差异为优化目标,对所述图神经网络模型进行训练;其中,处于指定状态的节点对应的真实归一化结果大于处于非指定状态的节点对应的真实归一化结果。
可选地,根据所述信息溯源请求,将待溯源的目标图网络中每个目标节点的状态信息以及所述目标图网络的基础网络结构信息输入到所述训练后模型中,以通过所述训练后模型预测出所述目标图网络中信息传播的起始目标节点,具体包括:
根据所述信息溯源请求,确定待溯源的目标图网络,以及确定所述目标图网络中每个目标节点的状态信息;
将每个目标节点的状态信息以及所述目标图网络的基础网络结构信息输入到所述训练后模型中,以通过所述训练后模型根据每个目标节点的状态信息,确定出每个目标节点对应的初始特征,根据每个目标节点对应的初始特征,确定任意两个目标节点之间的相关度,基于任意两个目标节点之间的相关度,对所述基础网络结构信息进行更新,得到更新后信息,根据所述更新后信息,对每个目标节点对应的初始特征进行处理,得到每个目标节点对应的处理后特征,并基于每个目标节点对应的处理后特征,确定出所述目标图网络的整体特征,根据所述整体特征以及每个目标节点对应的处理后特征,预测出所述目标图网络中信息传播的起始目标节点。
本说明书提供的一种信息溯源装置,包括:
获取模块,用于获取预先构建的图网络;
信息模拟传播模块,用于生成针对所述图网络的模拟指令,以通过所述模拟指令,执行针对所述图网络的信息模拟传播任务,得到传播后图网络以及所述传播后图网络中每个节点的状态信息;
预测模块,用于将每个节点的状态信息以及所述图网络的基础网络结构信息输入到待训练的图神经网络模型中,以通过所述图神经网络模型基于每个节点的状态信息,确定出每个节点对应的初始特征,基于任意两个节点之间的相关度,对所述基础网络结构信息进行更新,得到更新后信息,根据所述更新后信息,对每个节点对应的初始特征进行处理,得到每个节点对应的处理后特征,并基于每个节点对应的处理后特征,确定出所述传播后图网络的整体特征,根据所述整体特征以及每个节点对应的处理后特征,预测出所述传播后图网络中信息传播的起始节点;
训练模块,用于最小化预测出的起始节点与真实起始节点之间的差异为优化目标,对所述图神经网络模型进行训练,得到训练后模型;
信息溯源模块,用于在得到所述训练后模型之后,接收信息溯源请求,根据所述信息溯源请求,将待溯源的目标图网络中每个目标节点的状态信息以及所述目标图网络的基础网络结构信息输入到所述训练后模型中,以通过所述训练后模型预测出所述目标图网络中信息传播的起始目标节点,并根据所述起始目标节点,执行任务。
本说明书提供的一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的信息溯源方法。
本说明书提供的一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的信息溯源方法。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:
本说明书实施例中先基于构建的图网络进行信息模拟传播,以得到传播后的图网络中每个节点的状态信息,作为训练样本。将训练样本和图网络的基础网络结构信息输入到待训练的图神经网络模型中,以通过图神经网络模型预测出传播后的图网络中信息传播的起始节点。以预测出的起始节点与真实起始节点之间的差异最小化为优化目标,对图神经网络模型进行训练。在此方法中,不依赖于信息传播的传播系数预测传播源,而是通过对图神经网络模型进行有监督训练,使图神经网络模型学习到传播后的图网络与信息传播的传播源之间的对应关系,以基于训练后的图神经网络模型对待溯源的图网络中的起始节点进行预测,来提高预测传播源的准确性。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书实施例提供的信息溯源方法的流程示意图;
图2为本说明书实施例提供的传播后图网络中每个节点的状态信息的示意图;
图3为本说明书实施例提供的图神经网络模型的模型结构示意图;
图4为本说明书实施例提供的信息溯源装置结构示意图;
图5为本说明书实施例提供的电子设备的结构示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书实施例提供的信息溯源方法的流程示意图,该信息溯源方法可以适用于服务器,包括:
S100:获取预先构建的图网络。
S102:生成针对所述图网络的模拟指令,以通过所述模拟指令,执行针对所述图网络的信息模拟传播任务,得到传播后图网络以及所述传播后图网络中每个节点的状态信息。
在本说明书实施例中,可以先获取构建的图网络,再对图网络进行信息模拟传播,以得到训练样本。然后,基于训练样本,对图神经网络模型进行有监督训练,使训练后的图神经网络能够准确预测出信息的传播源头。其中,图网络可以是由若干节点与若干边构成的图结构,图网络可以表示各目标对象之间的关联关系。
针对信息溯源的不同应用场景,构成图网络的目标对象可以是不同的。比如:在社交网络上谣言溯源的应用场景中,目标对象可以是指社交账号,各目标对象之间的关联关系可以是社交账号之间相互关注。在传染病的传染源定位的应用场景中,目标对象可以是用户个体,各目标对象之间的关联关系可以是各用户之间的直接联系,比如:亲子关系、夫妻关系。在网络病毒溯源的应用场景中,目标对象可以是网络地址,各目标对象之间的关联关系可以是各网络地址之间的通信联系。
在本说明书实施例中,在获取图网络之前,要先构建图网络。
具体的,获取目标对象群,并确定目标对象群中各目标对象之间的直接关联关系。然后,以每个目标对象为节点,各目标对象之间的直接关联关系为边,构建图网络。在构建图网络之后,可以确定出图网络对应的邻接矩阵或针对邻接矩阵的拉普拉斯矩阵。当任意两个目标对象之间存在直接关联关系时,这两个目标对象的节点之间的邻接值为1,当任意两个目标对象之间不存在直接关联关系时,这两个目标对象的节点之间的邻接值为0。
其中,图网络可以为G=(V,E)。V表示图网络中的节点,即,目标对象,E表示图网络中的边,若目标对象与目标对象之间存在直接关联关系,这两个目标对象的节点之间存在边。图网络的邻接矩阵可以表示为:A∈Rn×n,n表示n个节点,当且仅当节点i与节点j之间有直接关联时,邻接矩阵A中的aij=1。另外,针对邻接矩阵的拉普拉斯矩阵用S表示,
Figure BDA0004127697820000101
Figure BDA0004127697820000102
Figure BDA0004127697820000103
Figure BDA0004127697820000104
其中,A为图网络的邻接矩阵,I为单位矩阵,d()表示度的计算。
在构建图网络之后,可以获取构建的图网络,并生成针对图网络的模拟指令,以通过模拟指令,执行针对图网络的信息模拟传播任务,得到传播后图网络以及传播后图网络中每个节点的状态信息。其中,模拟指令中携带有用于信息模拟传播的传播动力学模型、信息模拟传播的次数、随机选择一个节点作为传播源的指示信息等。传播动力学模型可以包括:SI模型、SIR模型、SEIR模型、独立级联(Independent Cascade,IC)模型、线性阈值(Linear Threshold,LT)模型等。信息模拟传播的次数用于表示训练样本的数量,模拟一次信息传播所得到的传播后网络中的各节点的状态信息为一个训练样本。
其中,节点的状态信息可以用于表示节点是否被激活,对于不同的应用场景,节点是否被激活也将用于表示不同的情况。例如,在社交网络上谣言溯源的应用场景中,激活了用于表示传播了谣言,未激活用于表示未传播谣言,相应的状态信息可以包括:激活状态、未激活状态;在传染病的传染源定位的应用场景中,激活了用于表示被感染了,未激活用于表示未被感染,由激活变成未激活用于表示感染后恢复了,相应的状态信息可以包括:感染状态、未感染状态和恢复状态。在网络病毒溯源的应用场景中,激活了用于表示传播了网络病毒,未激活用于表示未传播网络病毒,相应的状态信息可以包括:激活状态、未激活状态。
具体的,可以通过模拟指令中携带的传播动力学模型,执行针对图网络的信息模拟传播任务,得到传播后图网络以及传播后图网络中每个节点的状态信息。
进一步,根据模拟指令,从构建的图网络中随机选择出一个节点,并将选择出的节点确定为信息传播的起始节点。这个确定出的起始节点实际上是训练图神经网络模型过程中的真实起始节点。然后,将确定出的起始节点以及图网络输入到传播动力学模型中,以通过传播动力学模型,基于预设的传播系数,从确定出的起始节点开始,在图网络中进行信息传播,直至达到传播时间为止,得到传播后图网络以及传播后图网络中每个节点的状态信息。其中,传播系数可以包括:感染率、恢复率、传播时间等。
传播动力学模型以SIR模型为例,节点的状态可以分为三种状态,分别是感染状态(I)、未感染状态(S)、恢复状态(R)。在使用传播动力学模型之前,可以设置传播动力学模型的感染率、恢复率、传播时间。在使用传播动力学模型时,可以以图网络中的起始节点为源头,按照传播系数,向图网络中的其他节点进行信息传播。
以一次信息传播模拟为例,图2为本说明书实施例提供的传播后图网络中每个节点的状态信息示意图,在图2中,处于感染状态的节点为黑色,处于恢复状态的节点斜线覆盖,处于未感状态的节点为白色。
另外,当训练样本需要多个时,可以通过传播动力学模型进行多次信息模拟传播,将多次信息模拟传播后的图网络中各节点的状态信息作为多个训练样本。
针对每次信息模拟传播,可以从图网络中随机选择一个节点作为信息传播的起始节点,然后,将随机选择的起始节点以及预先构建的图网络输入到传播动力学模型中,以通过传播动力学模型基于预设的传播系数,从随机选择的起始节点开始,在图网络中进行信息传播,得到传播后图网络以及传播后图网络中每个节点的状态信息,作为这次信息模拟传播后得到的训练样本。
S104:将每个节点的状态信息以及所述图网络的基础网络结构信息输入到待训练的图神经网络模型中,以通过所述图神经网络模型基于每个节点的状态信息,确定出每个节点对应的初始特征,根据每个节点对应的初始特征,确定任意两个节点之间的相关度,基于任意两个节点之间的相关度,对所述基础网络结构信息进行更新,得到更新后信息,根据所述更新后信息,对每个节点对应的初始特征进行处理,得到每个节点对应的处理后特征,并基于每个节点对应的处理后特征,确定出所述传播后图网络的整体特征,根据所述整体特征以及每个节点对应的处理后特征,预测出所述传播后图网络中信息传播的起始节点。
在本说明书实施例中,在得训练样本之后,可以基于训练样本以及标签,对图神经网络模型进行有监督训练,使图神经网络模型学习到信息的传播源与传播后图网络之间的对应关系。其中,图神经网络模型的模型结构包括有:输入层、注意力层、图卷积层、图表征层、输出层。
具体的,可以将传播后图网络中每个节点的状态信息以及图网络(或传播后图网络)的基础网络结构信息输入到待训练的图神经网络模型中,以通过图神经网络模型,基于每个节点的状态信息,确定出每个节点对应的初始特征,根据每个节点对应的初始特征,确定任意两个节点之间的相关度,再基于任意两个节点之间的相关度,对基础网络结构信息进行更新,得到更新后信息,根据更新后信息,对每个节点对应的初始特征进行处理,得到每个节点对应的处理后特征,然后,基于每个节点对应的处理后特征,确定出传播后图网络的整体特征,最后,根据传播后图网络的整体特征以及每个节点对应的处理后特征,预测出传播后图网络中信息传播的起始节点。其中,信息传播的起始节点可以是指信息传播的源头,基础网络结构信息可以是指表征图网络中各节点之间的连接关系的邻接矩阵或拉普拉斯矩阵。
进一步,可以将每个节点的状态信息以及图网络的基础网络结构信息输入到待训练的图神经网络模型中,以通过图神经网络模型中的输入层,对每个节点的状态信息进行编码,得到每个节点对应的特征,作为初始特征。
虽然,图网络的基础网络结构信息能够体现任意两个节点之间是否存在直接联系,但是,针对没有直接联系的任意两个节点,这两个节点可能会通过其他节点实现间接联系,因此,需要计算出任意两个节点之间的关联度,并基于计算出的关联度,对基础网络结构信息进行更新,以便通过更新后的网络结构信息进行图卷积。
所以,可以将每个节点对应的初始特征输入到图神经网络模型中的注意力层,以通过注意力层,根据每个节点对应的初始特征,确定任意两个节点之间的相关度。
其中,计算任意两个节点之间的相关度的公式为:ai,j=VTg(Wshi+Wthj+bs)+bv。VT、Ws、Wt、bs、bv为注意力系数矩阵,g()为激活函数,hi为节点i对应的初始特征,hj为节点j对应的初始特征,ai,j表示节点i和节点j之间的相关度。VT、Ws、Wt、bs、bv是图神经网络模型训练过程中需要学习的矩阵。
然后,可以将任意两个节点之间的相关度以及基础网络结构信息输入到图神经网络模型中的图卷积层,以通过图卷积层,基于任意两个节点之间的相关度,对基础网络结构信息进行更新,得到更新后的基础网络结构信息,作为更新后信息。然后,根据更新后信息,对每个节点对应的初始特征进行处理,得到每个节点对应的处理后特征。
在对基础网络结构信息进行更新时,可以根据任意两个节点之间的相关度,确定出包含任意两个节点之间的相关度的相关度矩阵。再将相关度矩阵与基础网络结构信息进行点积,得到点积结果,作为对基础网络结构信息进行更新后的更新后信息。其中,基础网络结构信息可以是指图网络的邻接矩阵或拉普拉斯矩阵。
其中,基础网络结构信息以拉普拉斯矩阵为例,更新基础网络结构信息的公式为:S=S·α。S可以指拉普拉斯矩阵,α可以是指相关度矩阵。
在根据更新后信息,对每个节点对应的初始特征进行处理时,可以将更新后信息以及每个节点对应的初始特征输入到图卷积网络中,以通过图卷积网络,根据更新后信息,对每个节点对应的初始特征进行图卷积,得到每个节点对应的图卷积后特征。然后,将每个节点对应的图卷积后特征与每个节点对应的初始特征进行相加,得到每个节点对应的处理后特征。
在图卷积层的图卷积网络中引入残差连接,可以保留之前的特征信息,以提高模型的训练效果。
在卷积层包含多个图卷积网络(Graph Convolutional Networks,GCN)的情况下,依次针对每个图卷积网络,将上一图卷积网络输出的每个节点对应的处理后特征重新确定为输入该图卷积网络的每个节点对应的初始特征。然后,将输入该图卷积网络的每个节点对应的初始特征以及更新后信息输入到该图卷积网络中,以通过该图卷积网络,根据更新后信息,对每个节点对应的初始特征进行图卷积,得到每个节点对应的图卷积后特征,将每个节点对应的图卷积后特征与输入到该图卷积网络中的每个节点对应的初始特征进行相加,得到每个节点对应的处理后特征。另外,可以该图卷积网络输出的每个节点对应的处理后特征作为输入下一图卷积网络的每个节点对应的初始特征。
其中,每个图卷积网络之间的特征传递为:Hl+1=σ(SHlWl)+Hl。其中,Hl为第l个图卷积网络输出的每个节点对应的处理后特征,Wl为第l个图卷积网络的权重矩阵。S为更新后信息。Hl+1为第l+1个图卷积网络输出的每个节点对应的处理后特征。其中,Wl是图神经网络模型训练过程中需要学习的矩阵。
在图卷积层只有一个图卷积网络的情况下,可以直接将图卷积网络输出的每个节点对应的处理后特征输入到图神经网络模型中的图表征层中;在图卷积层包含多个图卷积网络的情况下,可以将最后一个图卷积网络输出的每个节点对应的处理后特征输入到图神经网络模型中的图表征层中。
图神经网络模型的图表征层可以用于表征传播后图网络的整体特征。
将图卷积层输出的每个节点对应的处理后特征输入到图表征层,以通过图表征层,基于每个节点对应的处理后特征,确定出传播后图网络的整体特征。
在基于每个节点对应的处理后特征,确定出传播后图网络的整体特征时,可以先根据每个节点对应的处理后特征,确定每个节点在传播后图网络中的重要程度。其中,若节点为非指定状态的节点,这个节点在传播后图网络中的重要程度比较小,或者,若节点处于传播后图网络中的传播范围边缘,这个节点在传播后图网络中的重要程度比较小。
其中,计算各节点的重要程度的公式:Z=σ(HLQ),HL是包含有图卷积层最后一个图卷积网络输出的每个节点对应的处理后特征的矩阵,Q为表示每个节点重要程度的权重矩阵,σ()为激活函数。其中,Q是图神经网络模型训练过程中需要学习的矩阵。
然后,针对每种状态,根据每个节点在传播后图网络中的重要程度,从处于该种状态的各节点中筛选出指定数量的节点,作为重要节点,然后,将处于该种状态的各节点中除了重要节点之外的其他节点对应的处理后特征进行掩膜处理。对重要节点对应的处理后特征进行池化操作,得到该种状态下的池化结果。最后,将每种状态下的池化结果进行加权求和,得到传播后图网络的整体特征。
在筛选重要节点时,可以将处于该种状态的各节点按照重要程度从大到小排序,然后,将排序位置靠前的指定数量的节点作为重要节点。
在对重要节点对应的处理后特征进行池化操作时,可以对重要节点对应的处理后特征进行最大池化操作,得到第一池化结果,同时,对重要节点对应的处理后特征进行平均池化操作,得到第二池化结果。将第一池化结果与第二池化结果进行求和,得到该种状态下的池化结果。
其中,确定传播后图网络的整体特征的公式为:
Figure BDA0004127697820000151
Figure BDA0004127697820000152
state表示不同的状态,a表示a状态,Wa为针对a状态的权重矩阵,max()为最大池化操作,mean()为是平均池化操作,Ma为针对a状态的掩膜矩阵。readout为整体特征。
将传播后图网络的整体特征以及每个节点对应的处理后特征输入到图神经网络模型中的输出层,以通过输出层,根据整体特征以及每个节点对应的处理后特征,预测出传播后图网络中信息传播的起始节点。
在根据整体特征以及每个节点对应的处理后特征,预测出传播后图网络中信息传播的起始节点时,可以根据整体特征以及每个节点对应的处理后特征,确定每个节点与传播后图网络之间的相似度。然后,根据每个节点对应的处理后特征、整体特征以及每个节点与传播后图网络之间的相似度,预测出传播后图网络中信息传播的起始节点。
在根据每个节点对应的处理后特征、整体特征以及每个节点与传播后图网络之间的相似度,预测出传播后图网络中信息传播的起始节点时,针对每个节点,将该节点对应的处理后特征与传播后图网络的整体特征进行全连接处理,得到该节点对应的全连接特征。然后,根据该节点与传播后图网络之间的相似度以及该节点对应的全连接特征,预测出该节点为传播后图网络中信息传播的起始节点的预测概率,作为该节点对应的预测概率。然后,从每个节点对应的预测概率中选择出预测概率最大的节点,作为传播后图网络中信息传播的起始节点。
其中,计算预测概率的公式为:out=σ([HL,readout]*P+cos(HL,readout))。P为全连接层的权重矩阵,[HL,readout]*P为通过输出层包含的全连接层对每个节点对应的处理后特征与传播后图网络的整体特征进行全连接处理后得到每个节点对应的全连接特征,cos()用于计算节点的处理后特征与整体特征之间的相似性。Out可以是每个节点为起始节点的预测概率。
基于上述对图神经网络模型的描述,本说明书实施例提供一种图神经网络模型的模型结构示意图,如图3所示。在图3中,图神经网络模型的输入层接收每个节点的状态信息和图网络的基础网络结构信息,输出每个节点对应的初始特征。注意力层接收每个节点对应的初始特征,输出任意两个节点的相关度。图卷积层接收任意两个节点的相关度和图网络的基础网络结构信息,输出每个节点对应的处理后特征。图表征层接收每个节点对应的处理后特征,输出传播后图网络的整体特征。输出层接收传播后图网络的整体特征和每个节点对应的处理后特征,输出每个节点为起始节点的预测概率。整个图神经网络模型输出预测概率最大的节点,作为起始节点。
S106:最小化预测出的起始节点与真实起始节点之间的差异为优化目标,对所述图神经网络模型进行训练,得到训练后模型。
在本说明书实施例中,在通过图神经网络模型预测出起始节点之后,可以通过反向传播,对图神经网络模型进行模型参数更新,即,训练图神经网络模型。
在对图神经网络模型进行训练时,可以最小化预测出的起始节点与真实起始节点之间的差异为优化目标,对图神经网络模型进行训练,得到训练后的图神经网络模型,作为训练后模型。
具体的,可以确定图神经网络模型输出的针对每个节点为起始节点的预测概率,作为每个节点对应的预测概率。根据每个节点对应的预测概率与各自标签之间的差异,确定针对图神经网络模型的损失,作为第一损失。以第一损失最小为优化目标,对图神经网络模型进行训练。其中,第一损失可以是指交叉熵损失。其中,标签可以是0/1值。节点的预测概率越接近1,这个节点越可能是起始节点。
其中,计算第一损失的公式为:
Figure BDA0004127697820000171
Figure BDA0004127697820000172
yi为第i个节点的标签,/>
Figure BDA0004127697820000173
为第i个节点对应的预测概率。
另外,以SIR模型为例,处于感染状态的节点和处于恢复状态的节点比易感染状态的节点更有可能是信息传播的源头,因此,本说明书中额外为处于感染状态的节点和处于恢复状态的节点增加第一标签,为处于易感染状态的节点增加第二标签。其中,第一标签的值比第二标签的值大,表示处于感染状态的节点和处于恢复状态的节点比易感染状态的节点更有可能是信息传播的源头。
其中,第一标签的值可以是对第一预设数字进行归一化后的归一化结果,第二标签的值可以是对第二预设数字进行归一化后的归一化结果。第一预设数字可以是1,第二预设数字可以是0。
因此,在对图神经网络模型进行训练时,在确定出每个节点对应的预测概率之后,还可以对每个节点对应的预测概率进行归一化,得到每个节点对应的归一化结果。然后,最小化每个节点对应的归一化结果与每个节点各自对应的真实归一化结果之间的差异,以及最小化预测出的起始节点与真实起始节点之间的差异为优化目标,对图神经网络模型进行训练。其中,处于指定状态的节点对应的真实归一化结果大于处于非指定状态的节点对应的真实归一化结果。处于指定状态的节点可以是指处于感染状态的节点和处于恢复状态的节点,处于非指定状态的节点可以是指处于易感染状态的节点。
在最小化预测出的起始节点与真实起始节点之间的差异,以及最小化每个节点对应的归一化结果与每个节点各自对应的真实归一化结果之间的差异为优化目标,对图神经网络模型进行训练时,可以根据每个节点对应的归一化结果与每个节点各自对应的真实归一化结果之间的差异,确定针对图神经网络模型的第二损失。其中,第二损失可以是KL散度损失。然后,将第一损失和第二损失进行求和,得到总损失。以总损失最小为优化目标,对图神经网络模型进行训练。
其中,计算第二损失的公式为:
Figure BDA0004127697820000181
pi为第i节点的真实归一化结果。
除了上述第一损失和第二损失之外,为了降低模型过拟合风险,在图神经网络模型训练过程中的损失函数中引入模型参数的L2正则项。
具体的,确定图神经网络模型的各模型参数,对各模型参数进行L2正则化,得到第三损失。对第一损失、第二损失以及第三损失进行求和,得到综合损失。以综合损失最小为优化目标,对图神经网络模型进行训练。
其中,计算第三损失的公式为:l3=γ‖W‖2。γ为超参数,W为模型参数。综合损失为:l=l1+l2+l3
S108:在得到所述训练后模型之后,接收信息溯源请求,根据所述信息溯源请求,将待溯源的目标图网络中每个目标节点的状态信息以及所述目标图网络的基础网络结构信息输入到所述训练后模型中,以通过所述训练后模型预测出所述目标图网络中信息传播的起始目标节点,并根据所述起始目标节点,执行任务。
在本说明书实施例中,在对图神经网络模型进行训练,得到训练后模型之后,可以基于训练后模型,对待溯源的目标图网络中信息传播的传播源进行预测,基于预测出的传播源,执行任务。其中,目标图网络是经过信息传播后的图网络,目标图网络中的每个节点可以作为目标节点。
具体的,先接收信息溯源请求,其中,信息溯源请求中携带有待溯源的目标图网络。然后,根据信息溯源请求,将待溯源的目标图网络中每个目标节点的状态信息以及目标图网络的基础网络结构信息输入到训练后模型中,以通过训练后模型预测出目标图网络中信息传播的起始目标节点,并根据起始目标节点,执行任务。其中,起始目标节点可以是指目标图网络中信息传播的源头。
在根据信息溯源请求,将待溯源的目标图网络中每个目标节点的状态信息以及目标图网络的基础网络结构信息输入到训练后模型中,以通过训练后模型预测出目标图网络中信息传播的起始目标节点时,可以根据信息溯源请求,确定待溯源的目标图网络,以及确定目标图网络中每个目标节点的状态信息。然后,将每个目标节点的状态信息以及目标图网络的基础网络结构信息输入到训练后模型中,以通过训练后模型根据每个目标节点的状态信息,确定出每个目标节点对应的初始特征,根据每个目标节点对应的初始特征,确定任意两个目标节点之间的相关度,基于任意两个目标节点之间的相关度,对所述基础网络结构信息进行更新,得到更新后信息,根据所述更新后信息,对每个目标节点对应的初始特征进行处理,得到每个目标节点对应的处理后特征,并基于每个目标节点对应的处理后特征,确定出目标图网络的整体特征,根据整体特征以及每个目标节点对应的处理后特征,预测出目标图网络中信息传播的起始节点。
在根据整体特征以及每个目标节点对应的处理后特征,预测出目标图网络中信息传播的起始节点时,可以根据整体特征以及每个目标节点对应的处理后特征,确定每个目标节点与目标图网络之间的相似度,然后,针对每个目标节点,根据该目标节点对应的处理后特征、目标图网络的整体特征以及该目标节点与目标图网络之间的相似度,预测出该目标节点为目标图网络中信息传播的起始目标节点的预测概率,作为该目标节点对应的预测概率。最后,从每个目标节点对应的预测概率中选择出预测概率最大的目标节点,作为目标图网络中信息传播的起始目标节点。
在基于预测出的起始目标节点,执行任务时,针对不同的应用场景,执行的任务也不同。例如:在社交网络上谣言溯源的应用场景中,执行的任务可以是将起始目标节点对应的社交账号进行注销或屏蔽。在传染病的传染源定位的应用场景中,执行的任务可以是将预测出的起始目标节点对应的用户的信息展示给防疫工作者的终端设备上,或者,可以向起始目标节点对应的用户的终端设备发送告警信息,以警示该用户不得外出。在网络病毒溯源的应用场景中,执行的任务可以是将起始目标节点对应的网络地址增加到黑名单,以防止通过该网络地址继续散播网络病毒。
需要说明的是,本申请中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。
通过上述图1所示的方法可见,本说明书先基于构建的图网络进行信息模拟传播,以得到传播后的图网络中每个节点的状态信息,作为训练样本。将训练样本和图网络的基础网络结构信息输入到待训练的图神经网络模型中,以通过图神经网络模型预测出传播后的图网络中信息传播的起始节点。以预测出的起始节点与真实起始节点之间的差异最小化为优化目标,对图神经网络模型进行训练。在此方法中,不依赖于信息传播的传播系数预测传播源,而是通过对图神经网络模型进行有监督训练,使图神经网络模型学习到传播后的图网络与信息传播的传播源之间的对应关系,以基于训练后的图神经网络模型对待溯源的图网络中的起始节点进行预测,来提高预测传播源的准确性。
以上为本说明书实施例提供的信息溯源方法,基于同样的思路,本说明书还提供了相应的装置、存储介质和电子设备。
图4为本说明书实施例提供的一种信息溯源装置的结构示意图,所述装置包括:
获取模块401,用于获取预先构建的图网络;
信息模拟传播模块402,用于生成针对所述图网络的模拟指令,以通过所述模拟指令,执行针对所述图网络的信息模拟传播任务,得到传播后图网络以及所述传播后图网络中每个节点的状态信息;
预测模块403,用于将每个节点的状态信息以及所述图网络的基础网络结构信息输入到待训练的图神经网络模型中,以通过所述图神经网络模型基于每个节点的状态信息,确定出每个节点对应的初始特征,基于任意两个节点之间的相关度,对所述基础网络结构信息进行更新,得到更新后信息,根据所述更新后信息,对每个节点对应的初始特征进行处理,得到每个节点对应的处理后特征,并基于每个节点对应的处理后特征,确定出所述传播后图网络的整体特征,根据所述整体特征以及每个节点对应的处理后特征,预测出所述传播后图网络中信息传播的起始节点;
训练模块404,用于最小化预测出的起始节点与真实起始节点之间的差异为优化目标,对所述图神经网络模型进行训练,得到训练后模型;
信息溯源模块405,用于在得到所述训练后模型之后,接收信息溯源请求,根据所述信息溯源请求,将待溯源的目标图网络中每个目标节点的状态信息以及所述目标图网络的基础网络结构信息输入到所述训练后模型中,以通过所述训练后模型预测出所述目标图网络中信息传播的起始目标节点,并根据所述起始目标节点,执行任务。
可选地,在获取预先构建的图网络之前,所述获取模块401还用于,获取目标对象群,并确定所述目标对象群中各目标对象之间的直接关联关系;以每个目标对象为节点,各目标对象之间的直接关联关系为边,构建图网络。
可选地,所述信息模拟传播模块402具体用于,根据所述模拟指令,从预先构建的图网络中随机选择一个节点确定为信息传播的起始节点;将确定出的起始节点以及预先构建的图网络输入到传播动力学模型中,以通过所述传播动力学模型基于预设的传播系数,从确定出的起始节点开始,在所述图网络中进行信息传播,得到传播后图网络以及所述传播后图网络中每个节点的状态信息。
可选地,所述基础网络结构信息包括:邻接矩阵或拉普拉斯矩阵。
可选地,所述图神经网络模型包括:输入层、注意力层、图卷积层、图表征层、输出层;所述预测模块403具体用于,将每个节点的状态信息以及所述图网络的基础网络结构信息输入到待训练的图神经网络模型中,以通过所述输入层,对每个节点的状态信息进行编码,得到每个节点对应的初始特征;将每个节点对应的初始特征输入到所述注意力层,以通过所述注意力层,根据每个节点对应的初始特征,确定任意两个节点之间的相关度;将任意两个节点之间的相关度以及所述基础网络结构信息输入到所述图卷积层,以通过所述图卷积层,基于任意两个节点之间的相关度,对所述基础网络结构信息进行更新,得到更新后信息,根据所述更新后信息,对每个节点对应的初始特征进行处理,得到每个节点对应的处理后特征;将所述图卷积层输出的每个节点对应的处理后特征输入到所述图表征层,以通过所述图表征层,基于每个节点对应的处理后特征,确定出所述传播后图网络的整体特征;将所述整体特征以及每个节点对应的处理后特征输入到所述输出层,以通过所述输出层,根据所述整体特征以及每个节点对应的处理后特征,预测出所述传播后图网络中信息传播的起始节点。
可选地,所述预测模块403具体用于,基于任意两个节点之间的相关度,确定包含任意两个节点之间的相关度的相关度矩阵;将所述相关度矩阵与所述基础网络结构信息进行点积,得到点积结果,并将点积结果作为对所述基础网络结构信息进行更新后的更新后信息。
可选地,所述预测模块403具体用于,将每个节点对应的初始特征以及所述更新后信息输入到图卷积层中的图卷积网络中,以通过图卷积网络,根据所述更新后信息,对每个节点对应的初始特征进行图卷积,得到每个节点对应的图卷积后特征,将每个节点对应的图卷积后特征与每个节点对应的初始特征进行相加,得到每个节点对应的处理后特征。
可选地,所述预测模块403具体用于,所述图卷积层包含多个图卷积网络;依次针对每个图卷积网络,将上一图卷积网络输出的每个节点对应的处理后特征重新确定为输入该图卷积网络的每个节点对应的初始特征;将输入该图卷积网络的每个节点对应的初始特征以及所述更新后信息输入到该图卷积网络中,以通过该图卷积网络,根据所述更新后信息,对每个节点对应的初始特征进行图卷积,得到该图卷积网络中每个节点对应的图卷积后特征,将该图卷积网络中每个节点对应的图卷积后特征与输入该图卷积网络的每个节点对应的初始特征进行相加,得到该图卷积网络输出的每个节点对应的处理后特征。
可选地,所述预测模块403具体用于,基于每个节点对应的处理后特征,确定每个节点在所述传播后图网络中的重要程度;针对每种状态,根据每个节点在所述传播后图网络中的重要程度,从处于该种状态的各节点中筛选出指定数量的节点,作为重要节点;对所述重要节点对应的处理后特征进行池化操作,得到该种状态下的池化结果;将每种状态下的池化结果进行加权求和,得到所述传播后图网络的整体特征。
可选地,所述预测模块403具体用于,根据每个节点对应的处理后特征以及所述整体特征,确定每个节点与所述传播后图网络之间的相似度;根据每个节点对应的处理后特征、所述整体特征以及每个节点与所述传播后图网络之间的相似度,预测出所述传播后图网络中信息传播的起始节点。
可选地,所述预测模块403具体用于,针对每个节点,根据该节点对应的处理后特征、所述整体特征以及该节点与所述传播后图网络之间的相似度,预测出该节点为所述传播后图网络中信息传播的起始节点的预测概率,作为该节点对应的预测概率;从每个节点对应的预测概率中选择出预测概率最大的节点,作为所述传播后图网络中信息传播的起始节点。
可选地,所述训练模块404具体用于,确定所述图神经网络模型输出的针对每个节点为起始节点的预测概率,作为每个节点对应的预测概率;对每个节点对应的预测概率进行归一化,得到每个节点对应的归一化结果;最小化预测出的起始节点与真实起始节点之间的差异,以及最小化每个节点对应的归一化结果与每个节点各自对应的真实归一化结果之间的差异为优化目标,对所述图神经网络模型进行训练;其中,处于指定状态的节点对应的真实归一化结果大于处于非指定状态的节点对应的真实归一化结果。
可选地,所述信息溯源模块405具体用于,根据所述信息溯源请求,确定待溯源的目标图网络,以及确定所述目标图网络中每个目标节点的状态信息;将每个目标节点的状态信息以及所述目标图网络的基础网络结构信息输入到所述训练后模型中,以通过所述训练后模型根据每个目标节点的状态信息,确定出每个目标节点对应的初始特征,根据每个目标节点对应的初始特征,确定任意两个目标节点之间的相关度,基于任意两个目标节点之间的相关度,对所述基础网络结构信息进行更新,得到更新后信息,根据所述更新后信息,对每个目标节点对应的初始特征进行处理,得到每个目标节点对应的处理后特征,并基于每个目标节点对应的处理后特征,确定出所述目标图网络的整体特征,根据所述整体特征以及每个目标节点对应的处理后特征,预测出所述目标图网络中信息传播的起始目标节点。
本说明书还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可用于执行上述图1提供的信息溯源方法。
基于图1所示的信息溯源方法,本说明书实施例还提供了图5所示的电子设备的结构示意图。如图5,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图1所述的信息溯源方法。
当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (16)

1.一种信息溯源方法,其特征在于,包括:
获取预先构建的图网络;
生成针对所述图网络的模拟指令,以通过所述模拟指令,执行针对所述图网络的信息模拟传播任务,得到传播后图网络以及所述传播后图网络中每个节点的状态信息;
将每个节点的状态信息以及所述图网络的基础网络结构信息输入到待训练的图神经网络模型中,以通过所述图神经网络模型基于每个节点的状态信息,确定出每个节点对应的初始特征,根据每个节点对应的初始特征,确定任意两个节点之间的相关度,基于任意两个节点之间的相关度,对所述基础网络结构信息进行更新,得到更新后信息,根据所述更新后信息,对每个节点对应的初始特征进行处理,得到每个节点对应的处理后特征,并基于每个节点对应的处理后特征,确定出所述传播后图网络的整体特征,根据所述整体特征以及每个节点对应的处理后特征,预测出所述传播后图网络中信息传播的起始节点;
最小化预测出的起始节点与真实起始节点之间的差异为优化目标,对所述图神经网络模型进行训练,得到训练后模型;
在得到所述训练后模型之后,接收信息溯源请求,根据所述信息溯源请求,将待溯源的目标图网络中每个目标节点的状态信息以及所述目标图网络的基础网络结构信息输入到所述训练后模型中,以通过所述训练后模型预测出所述目标图网络中信息传播的起始目标节点,并根据所述起始目标节点,执行任务。
2.如权利要求1所述的方法,其特征在于,在获取预先构建的图网络之前,所述方法还包括:
获取目标对象群,并确定所述目标对象群中各目标对象之间的直接关联关系;
以每个目标对象为节点,各目标对象之间的直接关联关系为边,构建图网络。
3.如权利要求1所述的方法,其特征在于,通过所述模拟指令,执行针对所述图网络的信息模拟传播任务,得到传播后图网络以及所述传播后图网络中每个节点的状态信息,具体包括:
根据所述模拟指令,从预先构建的图网络中随机选择一个节点确定为信息传播的起始节点;
将确定出的起始节点以及预先构建的图网络输入到传播动力学模型中,以通过所述传播动力学模型基于预设的传播系数,从确定出的起始节点开始,在所述图网络中进行信息传播,得到传播后图网络以及所述传播后图网络中每个节点的状态信息。
4.如权利要求1所述的方法,其特征在于,所述基础网络结构信息包括:邻接矩阵或拉普拉斯矩阵。
5.如权利要求1所述的方法,其特征在于,所述图神经网络模型包括:输入层、注意力层、图卷积层、图表征层、输出层;
将每个节点的状态信息以及所述图网络的基础网络结构信息输入到图神经网络模型中,以通过所述图神经网络模型基于每个节点的状态信息,确定出每个节点对应的初始特征,根据每个节点对应的初始特征,确定任意两个节点之间的相关度,基于任意两个节点之间的相关度,对所述基础网络结构信息进行更新,得到更新后信息,根据所述更新后信息,对每个节点对应的初始特征进行处理,得到每个节点对应的处理后特征,并基于每个节点对应的处理后特征,确定出所述传播后图网络的整体特征,根据所述整体特征以及每个节点对应的处理后特征,预测出所述传播后图网络中信息传播的起始节点,具体包括:
将每个节点的状态信息以及所述图网络的基础网络结构信息输入到待训练的图神经网络模型中,以通过所述输入层,对每个节点的状态信息进行编码,得到每个节点对应的初始特征;
将每个节点对应的初始特征输入到所述注意力层,以通过所述注意力层,根据每个节点对应的初始特征,确定任意两个节点之间的相关度;
将任意两个节点之间的相关度以及所述基础网络结构信息输入到所述图卷积层,以通过所述图卷积层,基于任意两个节点之间的相关度,对所述基础网络结构信息进行更新,得到更新后信息,根据所述更新后信息,对每个节点对应的初始特征进行处理,得到每个节点对应的处理后特征;
将所述图卷积层输出的每个节点对应的处理后特征输入到所述图表征层,以通过所述图表征层,基于每个节点对应的处理后特征,确定出所述传播后图网络的整体特征;
将所述整体特征以及每个节点对应的处理后特征输入到所述输出层,以通过所述输出层,根据所述整体特征以及每个节点对应的处理后特征,预测出所述传播后图网络中信息传播的起始节点。
6.如权利要求1或5所述的方法,其特征在于,基于任意两个节点之间的相关度,对所述基础网络结构信息进行更新,得到更新后信息,具体包括:
基于任意两个节点之间的相关度,确定包含任意两个节点之间的相关度的相关度矩阵;
将所述相关度矩阵与所述基础网络结构信息进行点积,得到点积结果,并将点积结果作为对所述基础网络结构信息进行更新后的更新后信息。
7.如权利要求1或5所述的方法,其特征在于,根据所述更新后信息,对每个节点对应的初始特征进行处理,得到每个节点对应的处理后特征,具体包括:
将每个节点对应的初始特征以及所述更新后信息输入到图卷积层中的图卷积网络中,以通过图卷积网络,根据所述更新后信息,对每个节点对应的初始特征进行图卷积,得到每个节点对应的图卷积后特征,将每个节点对应的图卷积后特征与每个节点对应的初始特征进行相加,得到每个节点对应的处理后特征。
8.如权利要求7所述的方法,其特征在于,所述图卷积层包含多个图卷积网络;
将每个节点对应的初始特征以及所述更新后信息输入到图卷积层中的图卷积网络中,以通过图卷积网络,根据所述更新后信息,对每个节点对应的初始特征进行图卷积,得到每个节点对应的图卷积后特征,将每个节点对应的图卷积后特征与每个节点对应的初始特征进行相加,得到每个节点对应的处理后特征,具体包括:
依次针对每个图卷积网络,将上一图卷积网络输出的每个节点对应的处理后特征重新确定为输入该图卷积网络的每个节点对应的初始特征;
将输入该图卷积网络的每个节点对应的初始特征以及所述更新后信息输入到该图卷积网络中,以通过该图卷积网络,根据所述更新后信息,对每个节点对应的初始特征进行图卷积,得到该图卷积网络中每个节点对应的图卷积后特征,将该图卷积网络中每个节点对应的图卷积后特征与输入该图卷积网络的每个节点对应的初始特征进行相加,得到该图卷积网络输出的每个节点对应的处理后特征。
9.如权利要求1或5所述的方法,其特征在于,基于每个节点对应的处理后特征,确定出所述传播后图网络的整体特征,具体包括:
基于每个节点对应的处理后特征,确定每个节点在所述传播后图网络中的重要程度;
针对每种状态,根据每个节点在所述传播后图网络中的重要程度,从处于该种状态的各节点中筛选出指定数量的节点,作为重要节点;
对所述重要节点对应的处理后特征进行池化操作,得到该种状态下的池化结果;
将每种状态下的池化结果进行加权求和,得到所述传播后图网络的整体特征。
10.如权利要求1或5所述的方法,其特征在于,根据所述整体特征以及每个节点对应的处理后特征,预测出所述传播后图网络中信息传播的起始节点,具体包括:
根据每个节点对应的处理后特征以及所述整体特征,确定每个节点与所述传播后图网络之间的相似度;
根据每个节点对应的处理后特征、所述整体特征以及每个节点与所述传播后图网络之间的相似度,预测出所述传播后图网络中信息传播的起始节点。
11.如权利要求10所述的方法,其特征在于,根据每个节点对应的处理后特征、所述整体特征以及每个节点与所述传播后图网络之间的相似度,预测出所述传播后图网络中信息传播的起始节点,具体包括:
针对每个节点,根据该节点对应的处理后特征、所述整体特征以及该节点与所述传播后图网络之间的相似度,预测出该节点为所述传播后图网络中信息传播的起始节点的预测概率,作为该节点对应的预测概率;
从每个节点对应的预测概率中选择出预测概率最大的节点,作为所述传播后图网络中信息传播的起始节点。
12.如权利要求1所述的方法,其特征在于,最小化预测出的起始节点与真实起始节点之间的差异为优化目标,对所述图神经网络模型进行训练,具体包括:
确定所述图神经网络模型输出的针对每个节点为起始节点的预测概率,作为每个节点对应的预测概率;
对每个节点对应的预测概率进行归一化,得到每个节点对应的归一化结果;
最小化预测出的起始节点与真实起始节点之间的差异,以及最小化每个节点对应的归一化结果与每个节点各自对应的真实归一化结果之间的差异为优化目标,对所述图神经网络模型进行训练;其中,处于指定状态的节点对应的真实归一化结果大于处于非指定状态的节点对应的真实归一化结果。
13.如权利要求1所述的方法,其特征在于,根据所述信息溯源请求,将待溯源的目标图网络中每个目标节点的状态信息以及所述目标图网络的基础网络结构信息输入到所述训练后模型中,以通过所述训练后模型预测出所述目标图网络中信息传播的起始目标节点,具体包括:
根据所述信息溯源请求,确定待溯源的目标图网络,以及确定所述目标图网络中每个目标节点的状态信息;
将每个目标节点的状态信息以及所述目标图网络的基础网络结构信息输入到所述训练后模型中,以通过所述训练后模型根据每个目标节点的状态信息,确定出每个目标节点对应的初始特征,根据每个目标节点对应的初始特征,确定任意两个目标节点之间的相关度,基于任意两个目标节点之间的相关度,对所述基础网络结构信息进行更新,得到更新后信息,根据所述更新后信息,对每个目标节点对应的初始特征进行处理,得到每个目标节点对应的处理后特征,并基于每个目标节点对应的处理后特征,确定出所述目标图网络的整体特征,根据所述整体特征以及每个目标节点对应的处理后特征,预测出所述目标图网络中信息传播的起始目标节点。
14.一种信息溯源装置,其特征在于,包括:
获取模块,用于获取预先构建的图网络;
信息模拟传播模块,用于生成针对所述图网络的模拟指令,以通过所述模拟指令,执行针对所述图网络的信息模拟传播任务,得到传播后图网络以及所述传播后图网络中每个节点的状态信息;
预测模块,用于将每个节点的状态信息以及所述图网络的基础网络结构信息输入到待训练的图神经网络模型中,以通过所述图神经网络模型基于每个节点的状态信息,确定出每个节点对应的初始特征,基于任意两个节点之间的相关度,对所述基础网络结构信息进行更新,得到更新后信息,根据所述更新后信息,对每个节点对应的初始特征进行处理,得到每个节点对应的处理后特征,并基于每个节点对应的处理后特征,确定出所述传播后图网络的整体特征,根据所述整体特征以及每个节点对应的处理后特征,预测出所述传播后图网络中信息传播的起始节点;
训练模块,用于最小化预测出的起始节点与真实起始节点之间的差异为优化目标,对所述图神经网络模型进行训练,得到训练后模型;
信息溯源模块,用于在得到所述训练后模型之后,接收信息溯源请求,根据所述信息溯源请求,将待溯源的目标图网络中每个目标节点的状态信息以及所述目标图网络的基础网络结构信息输入到所述训练后模型中,以通过所述训练后模型预测出所述目标图网络中信息传播的起始目标节点,并根据所述起始目标节点,执行任务。
15.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1-13任一项所述的方法。
16.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1-13任一项所述的方法。
CN202310246877.8A 2023-03-09 2023-03-09 一种信息溯源方法、装置、存储介质及电子设备 Pending CN116386894A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310246877.8A CN116386894A (zh) 2023-03-09 2023-03-09 一种信息溯源方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310246877.8A CN116386894A (zh) 2023-03-09 2023-03-09 一种信息溯源方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN116386894A true CN116386894A (zh) 2023-07-04

Family

ID=86972261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310246877.8A Pending CN116386894A (zh) 2023-03-09 2023-03-09 一种信息溯源方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN116386894A (zh)

Similar Documents

Publication Publication Date Title
CN113297396B (zh) 基于联邦学习的模型参数更新方法、装置及设备
US20240095538A1 (en) Privacy-preserving graphical model training methods, apparatuses, and devices
CN112200132B (zh) 一种基于隐私保护的数据处理方法、装置及设备
CN111639687B (zh) 一种模型训练以及异常账号识别方法及装置
CN113011483B (zh) 一种模型训练和业务处理的方法及装置
CN116167461B (zh) 一种模型训练的方法、装置、存储介质及电子设备
CN115618748B (zh) 一种模型优化的方法、装置、设备及存储介质
CN116069933A (zh) 一种业务风控方法、装置、存储介质及电子设备
CN116049761A (zh) 数据处理方法、装置及设备
CN115618964A (zh) 一种模型训练的方法、装置、存储介质及电子设备
CN116684330A (zh) 基于人工智能的流量预测方法、装置、设备及存储介质
CN116308738B (zh) 一种模型训练的方法、业务风控的方法及装置
CN117093862A (zh) 一种模型训练的方法、装置、电子设备及存储介质
CN116402108A (zh) 一种模型训练及图数据的处理方法、装置、介质及设备
CN116386894A (zh) 一种信息溯源方法、装置、存储介质及电子设备
CN115204395A (zh) 数据的处理方法、装置及设备
CN115543945A (zh) 一种模型压缩的方法、装置、存储介质及电子设备
CN114900435A (zh) 一种连接关系预测方法及相关设备
CN113284027A (zh) 团伙识别模型的训练方法、异常团伙识别方法及装置
CN116340852B (zh) 一种模型训练、业务风控的方法及装置
CN114662706B (zh) 一种模型训练方法、装置及设备
CN117350351B (zh) 用户响应预测系统的训练方法、用户响应预测方法及装置
CN116996397B (zh) 一种网络丢包优化的方法、装置、存储介质及电子设备
CN115827880B (zh) 一种基于情感分类的业务执行方法及装置
CN115841335A (zh) 数据处理方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination