CN114925213A - 一种基于分层跨域知识协同推演的工业知识图谱补齐方法 - Google Patents
一种基于分层跨域知识协同推演的工业知识图谱补齐方法 Download PDFInfo
- Publication number
- CN114925213A CN114925213A CN202210526399.1A CN202210526399A CN114925213A CN 114925213 A CN114925213 A CN 114925213A CN 202210526399 A CN202210526399 A CN 202210526399A CN 114925213 A CN114925213 A CN 114925213A
- Authority
- CN
- China
- Prior art keywords
- discriminator
- privacy
- embedding
- knowledge
- generator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Bioethics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开一种基于分层跨域知识协同推演的工业知识图谱补齐方法,包括获取多个生产中涉及的原始知识图谱;将每个原始知识图谱输入对抗性翻译网络,从中配置相应的隐私差异化生成性对抗网络;利用差异隐私抗性生成结构来对原始知识图谱统一对齐实体和关系的嵌入,并生成对齐实体和关系的聚合嵌入;将获得的已对齐实体和关系的聚合嵌入,输入知识协同推演网络,获得优化后的生产知识图谱。本发明利用差分隐私对抗融合的分层跨域知识协同推演技术,能够对制造业知识图谱进行终身学习式的推演和对齐,在实现知识图谱补全的同时保护原始数据的隐私,克服了上述主流知识图谱嵌入模型的主要缺陷。
Description
技术领域
本发明属于知识图谱优化技术领域,特别是涉及一种基于分层跨域知识协同推演的工业知识图谱补齐方法。
背景技术
伴随着工业信息化的浪潮,私人化、个性化的订单需求成为常态,这为制造资源的智能优化调度带来了挑战。目前,制造业产生的数据呈现出爆炸式增长的态势,这些数据是多源异构、多尺度的。如何将数据转化为知识,从而实现个性化订单与制造资源之间的智能配置,是提供企业认知智能生产水平的有效策略。然而,制造过程中的数据类别是多样的,数据之间有许多规则和约束,使得数据间的关系错综复杂。如何充分整合车间资源的复杂数据,从海量制造数据中挖掘语义信息,形成可驱动下游任务的知识建模方法,是一项尚未解决的问题。
知识图谱是一种大规模语义网络知识库。作为一种典型的结构化数据表示形式,它本质上是一个由所链接的实体和实体之间的关系组成的语义网络。它采取符号化的知识表示方式,利用[头实体、关系、尾实体]三元组来描述具体的知识,并以有向图的形式对其进行表示和存储。由于其在表达人类先验知识时具有语义丰富、结构友好、易于理解等优良特性,知识图谱近年来在自然语言处理、智能问答、推荐系统、预测系统、信息提取系统等多个领域取得了广泛且成功的应用。
为了解决上述实体缺失、链接缺失和传统表示的局限性问题,知识图谱嵌入技术应运而生,在下游应用程序中发挥了重要作用。知识图谱嵌入技术通过将知识图谱中的实体和关系嵌入到低维连续向量空间中,同时获取它们的语义描述。对于需满足不同制造任务需求的知识图谱,当所选的嵌入空间被统一和对齐时,它们甚至可以共享资源和信息。然而,当向量表示法向他人开放时,隐私将极有可能泄露。
知识图谱嵌入模型的设计通常需要三步:1)定义实体和关系的表示形式;2)定义衡量三元组合理性的打分函数;3)训练学习实体和关系的嵌入表示。打分函数值越高,三元组的合理性越高,正确嵌入的可能性越大。在训练学习实体和关系的嵌入表示时,优化目标是使得知识图谱中已有三元组得分尽可能比未出现的三元组得分要高。
目前主流的知识图谱嵌入模型主要存在以下两方面问题:一方面,对于一些来需要满足不同产品生产需求的知识图谱,大多数现有的知识嵌入技术都无法做到充分利用来自不同工艺流程的制造信息,并在保护原始知识图的同时保护原始数据的隐私。这是由于现有方案直接对信息进行公开处理,未对来自不同工艺流程的制造信息进行综合性统一整合,导致一些在不同制造需求中高相似度的工艺环节没有实现成功匹配,从而未能成功写入统一的领域知识图谱中,并且这种公开处理的方式也将生产数据的隐私公之于众。另一方面,由于构建特定领域的知识图谱通常面临着复杂而繁琐的特定专家注释和专业领域架构匹配,对于大多数公司来说,构建能够匹配真实生产工序需求的制造业知识图谱是一项艰巨的任务。但很多时候,不同的作业车间必须通过交换生产信息来改善自己的数据和服务质量。然而,这些真实生产信息往往是严格保密的,因此在没有得到生产技术隐私保护的前提下,各子车间缺乏共同建设制造业知识图谱的意愿。
发明内容
为了解决上述问题,为了更好的进行知识图谱间的嵌入对齐工作,本发明提出了一种基于分层跨域知识协同推演的工业知识图谱补齐方法,利用差分隐私对抗融合的分层跨域知识协同推演技术,能够对制造业知识图谱进行终身学习式的推演和对齐,在实现知识图谱补全的同时保护原始数据的隐私,克服了上述主流知识图谱嵌入模型的主要缺陷。
为达到上述目的,本发明采用的技术方案是:一种基于分层跨域知识协同推演的生产知识图谱补齐方法,包括步骤:
S10,获取多个生产中涉及的原始知识图谱;
S20,将每个原始知识图谱输入对抗性翻译网络,从中配置相应的隐私差异化生成性对抗网络;利用差异隐私抗性生成结构来对原始知识图谱统一对齐实体和关系的嵌入,并生成对齐实体和关系的聚合嵌入;
S30,将获得的已对齐实体和关系的聚合嵌入,输入知识协同推演网络,获得补齐后的生产知识图谱。
进一步的是,在步骤S20中,利用对抗性训练来学习从源嵌入空间到目标嵌入空间的平移映射,将保护隐私的对抗性翻译网络构建为一个基于多种经典的生成性对抗网络的隐私差异化生成性对抗网络族。
进一步的是,所述隐私差异化生成性对抗网络族的构建过程包括步骤:
S201,对于给定的一对具有对齐实体和关系的知识图谱(gi,gj),保护隐私的对抗性翻译网络利用生成性对抗网络结构来统一对齐实体和关系的嵌入;其中,生成器置于gi,鉴别器置于gj;
S202,训练生成器学习从gi的嵌入空间到gj的嵌入空间的线性平移映射,将对齐实体的嵌入从gi转换到gj并生成高质量的虚拟样本,同时训练鉴别器将生成器通过映射合成的虚拟嵌入与gj中的真实嵌入进行正确地区分;经过这样对抗性的训练和学习,最终的合成嵌入结合来自gi和gj的特征和信息进行学习,并在gi和gj中更改对齐实体和关系的初始嵌入;
S203,当上述步骤中的训练过程稳定后,gi中的生成器将生成与对齐的实体和关系相邻的实体和链接关系的嵌入,并将它们作为虚拟实体和关系传输给gj;当此联合结束,下一个新的联合尚未开始时,生成的虚拟实体和链接关系将被删除。
进一步的是,所述保护隐私的对抗性翻译网络是隐私差异化与不同的生成性对抗网络的结合,包括三种隐私差异化生成性对抗网络作为保护隐私的对抗性翻译网络的内置模型,分别为:
差分隐私生成性对抗网络DP-GAN,通过在生成性对抗网络结构训练过程中,将设置随机噪声添加到梯度中,从而实现隐私差异化;
基于PATE机制的生成性对抗网PATE-GAN,通过在教师输出中添加随机噪声,保证了具有多个教师鉴别器和一个学生鉴别器的生成性对抗网络结构中的隐私差异化;将学生鉴别器的训练样本从公共数据和未标记数据转换为噪声聚合的教师标记数据;
差分隐私半监督式生成性对抗网络DP-ACGAN,通过在随机梯度下降过程中引入拉普拉斯噪声来实现隐私差异化;在添加噪声之前,进行梯度剪切;梯度裁剪通过从两侧切断l2范数来限制每个循环中梯度范数的上界。
进一步的是,所述差分隐私生成性对抗网络DP-GAN,结合随机噪声与权重剪裁;基于WGAN网络中的瓦瑟斯坦距离,得到了双人极大极小博弈值如下:
其中,W是平移映射关系矩阵,E[·]表示数学期望函数,函数fw为利普希茨连续,而fw的利普希茨连续性是通过权重剪切保证的;
在双人极大极小博弈中,生成器的目标是使生成的虚拟样本和真实样本之间的瓦瑟斯坦距离最小化,生成器的损失函数为:
在双人极大极小博弈中,鉴别器的目标是使生成的虚拟样本和真实样本之间的瓦瑟斯坦距离最大化,鉴别器的损失函数为:
对于给定的一对具有对齐实体和关系的知识图谱(gi,gj),参数为θ的生成器位于客户端gi,参数为β的鉴别器位于主机gj;客户端gi生成对齐实体Ei∩Ej和关系Ri∩Rj的集成嵌入,将其发送出去并使用接收到的梯度更新模型;主机gj区分真实样本和生成的虚拟样本,并计算生成器损失L(G)和鉴别器损失L(D);
内置差分隐私生成性对抗网络的保护隐私的对抗性翻译的训练过程如下:
X表示gi中对齐的实体和关系的嵌入,Y表示gj中对齐的实体和关系的嵌入;设Pi(x)表示X表示X在gi的嵌入空间上的分布,Pj(y)表示Y表示Y在gj的嵌入空间上的分布;然后对于每个鉴别器迭代,采样一批包括了客户端和主机的训练样本;添加噪声后对于主机数据点和客户端数据点之间的瓦瑟斯坦距离梯度进行权重剪切,使fw满足利普希茨连续性,然后更新生成器参数;当所有迭代结束时,得到了一个隐私差异化生成器和隐私差异化输出,用于细化gi和gj中对齐实体和关系的嵌入。
进一步的是,基于PATE机制的生成性对抗网PATE-GAN中:
对于一对知识图谱(gi,gj),X表示gi中对齐的实体和关系的嵌入,Y表示gj中对齐的实体和关系的嵌入;客户端gi包含一个具有平移映射关系矩阵W的生成器G;主机gj包含多个教师鉴别器T={T1,T2,...,T|T|}和一个学生鉴别器S;生成器G的参数为θG,教师鉴别器的参数分别为学生鉴别器的参数为θS;
生成器的损失函数定义为:
其中,G(xm)=Wxm(1≤m≤n)(1≤m≤n),xm表示嵌入向量;教师鉴别器将训练数据划分为与教师数量相同的|T|个不相交子集,每个教师鉴别器在各自的数据上训练自己的模型来区分G(X)和Y;
教师鉴别器的损失函数定义为:
其中,dh表示对齐实体和关系的嵌入空间的维;
然后将随机噪声添加到教师鉴别器的预测中,将噪声聚合结果视为学生训练数据G(X)的标签;训练学生鉴别器对有噪声聚合标记的生成样本进行分类,其损失由PATE机制定义为:
其中,Vj是独立同分布随机变量Lap(1/λ),为引入的噪音,λ反映了隐私保护水平;nj(x)表示有多少教师预测输入x属于类j;
学生鉴别器的损失函数定义为:
其中,γi=PATEλ(x),表示得到教师鉴别器更多票数的噪声聚合标签;然后,将鉴别器计算出的生成器损失传输给生成器,以帮助生成器更新参数;
内置PATE-GAN的保护隐私的对抗性翻译网络的训练过程如下:
D表示教师鉴别器的输入数据集,由X和Y组成,可分为k个不相交子集D1,D2,...,Dk;将X在gi的嵌入空间上的分布表示为PX(X);
对于每个生成器迭代,首先对教师鉴别器进行培训,然后对学生鉴别器进行培训;对于每个教师鉴别器迭代,所有教师鉴别器Ti都使用来自G(X)或Y的各自的数据进行训练,并使用随机梯度下降更新他们的参数对于每个学生鉴别器迭代,它通过PATE机制标记生成的样本G(X),即在教师鉴别器投票中引入拉普拉斯噪声,以获取噪声聚合的输出来标记G(X),利用随机梯度下降对学生鉴别器的参数θs和生成器的参数θG进行了更新;
最后,通过隐私差异化生成器G得到了具有差分隐私保证的嵌入。
进一步的是,差分隐私半监督式生成性对抗网络DP-ACGAN中:
对于一对知识图谱(gi,gj),将客户端gi中对齐的实体和关系的嵌入X输入到参数为θ的生成器G中;此外,类标签c作为额外的辅助特征,也要输入到生成器中,并与嵌入X结合形成联合对;生成器G同时使用嵌入X和类标签c来生成集成嵌入G(X,c);鉴别器D除了区分真实嵌入Y与生成的对抗性样本G(X,c)外,还需要输出所输入的样本的类标签,即通过位于D中的辅助解码器重构相应的辅助特征;因此,其损失函数包括两部分:区分的损失和分类的损失;
区分方面的损失揭示了源上的概率分布,其表示为:
L(S)=E[log P(S=real|Y)]+E[log P(S=fake|G(X,c))];
其中,S表示区分鉴别器,real表示数据为真,fake表示数据为假;C表示分类鉴别器,c表示C的类别;
分类方面的损失揭示了分类上的概率分布,其表示为:
L(C)=E[log P(C=c|Y)]+E[log P(C=c|G(X,c))]
在DP-ACGAN中,鉴别器D的目标是正确地区分和重构,即最大化L(S)+L(C);其目标损失函数为:
L(D)=max{L(S)+L(C)};
而生成器G的目标是正确分类和成功混淆鉴别器,即最大化L(C)-L(S),其损失函数为:
L(D)=max{L(C)-L(S)}。
进一步的是,在步骤S30中,所述知识协同推演网络包括:在任意两个知识图谱(gi,gj)之间构建一对保护隐私的对抗性翻译网络;在其中一个网络中,gi是客户端,gj是主机;在另一个网络中,gj是客户端,gi是主机;利用gi生成器生成虚拟样本,利用鉴别器gj鉴别虚拟样本,从而合成最终嵌入,在利用最终嵌入优化生成器和鉴别器。
进一步的是,所述知识协同推演网络处理过程中:一个独立的知识图谱所有者发送合作请求,另一个独立的知识图谱所有者接收并响应该请求,然后请求者再次发送确认信号,最后成功建立连接;在整个过程中,对于任何一个知识图谱所有者来说,有三种状态:就绪、忙碌或休眠;处于就绪状态的参与者愿意与其他合作者开始新的联合学习,且足够的培训资源使其能够开始新一轮的合作;处于忙碌状态的参与者正在与某个参与者进行联合学习,没有可用的资源与他人协作,因此它不会接受和响应来自其他参与者的合作请求,它的请求者们将有序地排队,等待其转变为就绪状态;处于休眠状态的参与者即使拥有足够的资源和能力,不接受和响应其他参与者的任何请求,但被其他合作伙伴的合作请求唤醒或在预定的时间后自动苏醒,进入就绪状态。
采用本技术方案的有益效果:
本发明提出了保护隐私的对抗性翻译,并引入联邦学习,在保证知识图谱中信息不泄露的前提下,高质量地提取其中蕴含的信息,充分综合利用已获取的信息完善制造业知识图谱,并将新获取的信息其返还于不同的工艺流程中。在保护隐私的对抗性翻译中选择了三种差异隐私生成性对抗网络作为内置模型,它们在效率、隐私安全性等方面具有不同的优势和特性,因此对于每对不同产品生产需求,本发明可以根据具体的应用程序场景、数据类型、任务要求等来选择更合适的模型,大大提升了本发明的适用范围,使我们的技术具有了很强的可拓展性与广泛的适用性。例如,当培训时间是最为关键、重要的因素,并且对与隐私的保护没有特别严格的要求时,采用差分隐私生成性对抗网络作为内置模型会取得更好的训练成果。
本发明在对抗性生成结构中引入差异隐私,将生成器输出中的任何单一嵌入私有化并保护原始数据免受重建攻击,从而保证了知识图谱中包含的信息的隐私性与安全性。
本发明搭建一个保密性强、可自主选择合作对象、不会出现信息价值衰减的联邦平台,促进不同产品需求的生产车间进行合作,打消出于生产技术机密、搭建成本等因素对分享真实数据、参与知识推演的种种顾虑,使他们愿意进入联邦系统,并能够使制造业知识图谱得到切实完善。在联邦学习协同推演中定义了知识图谱所有者的三种状态:就绪、忙碌和休眠。这使得参与者们能够按照自己的实际需求,主动选择合作对象,打消了他们出于商业机密、知识图谱搭建成本等因素对分享知识图谱、参与知识推演的种种顾虑。
附图说明
图1为本发明的一种基于分层跨域知识协同推演的工业知识图谱补齐方法流程示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步阐述。
在本实施例中,参见图1所示,本发明提出了一种基于分层跨域知识协同推演的工业知识图谱补齐方法,包括步骤:
S10,获取多个生产中涉及的原始知识图谱;
S20,将每个原始知识图谱输入对抗性翻译网络,从中配置相应的隐私差异化生成性对抗网络;利用差异隐私抗性生成结构来对原始知识图谱统一对齐实体和关系的嵌入,并生成对齐实体和关系的聚合嵌入;
S30,将获得的已对齐实体和关系的聚合嵌入,输入知识协同推演网络,获得补齐后的生产知识图谱。
作为上述实施例的优化方案1,在步骤S20中,利用对抗性训练来学习从源嵌入空间到目标嵌入空间的平移映射,将保护隐私的对抗性翻译网络构建为一个基于多种经典的生成性对抗网络的隐私差异化生成性对抗网络族。
隐私差异化生成性对抗网络族的构建过程包括步骤:
S201,对于给定的一对具有对齐实体和关系的知识图谱(gi,gj),保护隐私的对抗性翻译网络利用生成性对抗网络结构来统一对齐实体和关系的嵌入;其中,生成器置于gi,鉴别器置于gj;
S202,训练生成器学习从gi的嵌入空间到gj的嵌入空间的线性平移映射,将对齐实体的嵌入从gi转换到gj并生成高质量的虚拟样本,同时训练鉴别器将生成器通过映射合成的虚拟嵌入与gj中的真实嵌入进行正确地区分;经过这样对抗性的训练和学习,最终的合成嵌入结合来自gi和gj的特征和信息进行学习,并在gi和gj中更改对齐实体和关系的初始嵌入,以实现更加精细化、更优秀的嵌入;
S203,当上述步骤中的训练过程稳定后,gi中的生成器将生成与对齐的实体和关系相邻的实体和链接关系的嵌入,并将它们作为虚拟实体和关系传输给gj;当此联合结束,下一个新的联合尚未开始时,生成的虚拟实体和链接关系将被删除。
保护隐私的对抗性翻译网络是隐私差异化与不同的生成性对抗网络的结合,包括三种隐私差异化生成性对抗网络作为保护隐私的对抗性翻译网络的内置模型,分别为:
差分隐私生成性对抗网络DP-GAN,通过在生成性对抗网络结构训练过程中,将设置随机噪声添加到梯度中,从而实现隐私差异化;与训练后在最终参数中直接添加噪声相比,差分隐私生成性对抗网络在训练过程中添加噪声,更加强调隐私保护,在实际应用场景中具有较高的实用性。
基于PATE机制的生成性对抗网PATE-GAN,通过在教师输出中添加随机噪声,保证了具有多个教师鉴别器和一个学生鉴别器的生成性对抗网络结构中的隐私差异化;原始的PATE机制以黑盒的方式聚合多个在不相交的数据上训练的教师鉴别器,这些教师鉴别器可以访问内部参数,这与隐私差异化的理念不合,不利于保护隐私;本发明将学生鉴别器的训练样本从公共数据和未标记数据转换为噪声聚合的教师标记数据,改进了PATE机制。改进后的PATE机制通过对任一嵌入的影响施加更严格的限制,提供了比DP-GAN机制更严格的隐私差异化保证。这也意味着PATE-GAN会比DP-GAN消耗更长的时间。
差分隐私半监督式生成性对抗网络DP-ACGAN,通过在随机梯度下降过程中引入拉普拉斯噪声来实现隐私差异化;在添加噪声之前,进行梯度剪切;梯度裁剪通过从两侧切断l2范数来限制每个循环中梯度范数的上界。在ACGAN结构中,生成器的输入除了数据样本外,还包括额外的标签分类信息;除了输出一个样本是否真实的概率外,鉴别器还输出相应的分类概率。与上述两种内置模型相比,DP-ACGAN在计算效率和生成样本质量方面的总体性能相对突出。在相同的隐私保护水平上,该模型比PATE-GAN花费更少的时间,并且比DP-GAN生成更高质量的集成嵌入。
优选的,差分隐私生成性对抗网络DP-GAN,结合随机噪声与权重剪裁;基于WGAN网络中的瓦瑟斯坦距离,得到了双人极大极小博弈值如下:
其中,W是平移映射关系矩阵,E[·]表示数学期望函数,函数fw为利普希茨连续,而fw的利普希茨连续性是通过权重剪切保证的;由于具有利普希茨连续性的函数的梯度上界受到限制,因此该函数通常更平滑。依靠此属性,当使用梯度下降来更新模型时参数,参数不会变化太大而导致梯度爆炸,使模型的更新更加稳定。
在双人极大极小博弈中,生成器的目标是使生成的虚拟样本和真实样本之间的瓦瑟斯坦距离最小化,生成器的损失函数为:
在双人极大极小博弈中,鉴别器的目标是使生成的虚拟样本和真实样本之间的瓦瑟斯坦距离最大化,鉴别器的损失函数为:
对于给定的一对具有对齐实体和关系的知识图谱(gi,gj),参数为θ的生成器位于客户端gi,参数为β的鉴别器位于主机gj;客户端gi生成对齐实体Ei∩Ej和关系Ri∩Rj的集成嵌入,将其发送出去并使用接收到的梯度更新模型;主机gj区分真实样本和生成的虚拟样本,并计算生成器损失L(G)和鉴别器损失L(D);
内置差分隐私生成性对抗网络的保护隐私的对抗性翻译的训练过程如下:
X表示gi中对齐的实体和关系的嵌入,Y表示gj中对齐的实体和关系的嵌入;设Pi(x)表示X表示X在gi的嵌入空间上的分布,Pj(y)表示Y表示Y在gj的嵌入空间上的分布;然后对于每个鉴别器迭代,采样一批包括了客户端和主机的训练样本;添加噪声后对于主机数据点和客户端数据点之间的瓦瑟斯坦距离梯度进行权重剪切,使fw满足利普希茨连续性,然后更新生成器参数;当所有迭代结束时,得到了一个隐私差异化生成器和隐私差异化输出,用于细化gi和gj中对齐实体和关系的嵌入。
噪声使原始训练样本、鉴别器、生成器和生成的嵌入都是隐私差异化的,数据安全和知识隐私都得到了单独保证,因此对于整个联邦学习中的所有知识图谱所有者,原始数据的隐私获得了保护。另外,最终生成的隐私差异化的合成嵌入不仅学习了gi中嵌入的特征,而且还学习了gj中嵌入的特征,因此gi和gj都可以应用它们来改进自己的对齐实体和关系的嵌入。
优选的,基于PATE机制的生成性对抗网PATE-GAN中:
对于一对知识图谱(gi,gj),X表示gi中对齐的实体和关系的嵌入,Y表示gj中对齐的实体和关系的嵌入;客户端gi包含一个具有平移映射关系矩阵W的生成器G;主机gj包含多个教师鉴别器T={T1,T2,...,T|T|}和一个学生鉴别器S;生成器G的参数为θG,教师鉴别器的参数分别为学生鉴别器的参数为θS;
最初,生成器G利用平移映射将x翻译为G(X)来近似G(X)和Y,使得学生鉴别器S很难区分它们。因此,生成器的损失函数定义为:
其中,G(xm)=Wxm(1≤m≤n)(1≤m≤n),xm表示嵌入向量;教师鉴别器将训练数据划分为与教师数量相同的|T|个不相交子集,每个教师鉴别器在各自的数据上训练自己的模型来区分G(X)和Y;
教师鉴别器的损失函数定义为:
其中,dh表示对齐实体和关系的嵌入空间的维;
然后将随机噪声添加到教师鉴别器的预测中,将噪声聚合结果视为学生训练数据G(X)的标签;训练学生鉴别器对有噪声聚合标记的生成样本进行分类,其损失由PATE机制定义为:
其中,Vj是独立同分布随机变量Lap(1/λ),为引入的噪音,λ反映了隐私保护水平;nj(x)表示有多少教师预测输入x属于类j;
学生鉴别器的损失函数定义为:
其中,γi=PATEλ(x),表示得到教师鉴别器更多票数的噪声聚合标签;然后,将鉴别器计算出的生成器损失传输给生成器,以帮助生成器更新参数;
内置PATE-GAN的保护隐私的对抗性翻译网络的训练过程如下:
D表示教师鉴别器的输入数据集,由X和Y组成,可分为k个不相交子集D1,D2,...,Dk;将X在gi的嵌入空间上的分布表示为PX(X);
对于每个生成器迭代,首先对教师鉴别器进行培训,然后对学生鉴别器进行培训;对于每个教师鉴别器迭代,所有教师鉴别器Ti都使用来自G(X)或Y的各自的数据进行训练,并使用随机梯度下降更新他们的参数对于每个学生鉴别器迭代,它通过PATE机制标记生成的样本G(X),即在教师鉴别器投票中引入拉普拉斯噪声,以获取噪声聚合的输出来标记G(X),利用随机梯度下降对学生鉴别器的参数θs和生成器的参数θG进行了更新;
最后,通过隐私差异化生成器G得到了具有差分隐私保证的嵌入。
优选的,差分隐私半监督式生成性对抗网络DP-ACGAN中:
对于一对知识图谱(gi,gj),将客户端gi中对齐的实体和关系的嵌入X输入到参数为θ的生成器G中;此外,类标签c作为额外的辅助特征,也要输入到生成器中,并与嵌入X结合形成联合对;生成器G同时使用嵌入X和类标签c来生成集成嵌入G(X,c);鉴别器D除了区分真实嵌入Y与生成的对抗性样本G(X,c)外,还需要输出所输入的样本的类标签,即通过位于D中的辅助解码器重构相应的辅助特征;因此,其损失函数包括两部分:区分的损失和分类的损失;
区分方面的损失揭示了源上的概率分布,其表示为:
L(S)=E[log P(S=real|Y)]+E[log P(S=fake|G(X,c))];
其中,S表示区分鉴别器,real表示数据为真,fake表示数据为假;C表示分类鉴别器,c表示C的类别;
分类方面的损失揭示了分类上的概率分布,其表示为:
L(C)=E[log P(C=c|Y)]+E[log P(C=c|G(X,c))]
在DP-ACGAN中,鉴别器D的目标是正确地区分和重构,即最大化L(S)+L(C);其目标损失函数为:
L(D)=max{L(S)+L(C)};
而生成器G的目标是正确分类和成功混淆鉴别器,即最大化L(C)-L(S),其损失函数为:
L(D)=max{L(C)-L(S)}。
该模型结合了CGAN和SGAN的优势,通过在生成器训练过程中利用标签信息来生成对抗性样本,并在鉴别过程中重构标签信息,从而提高了嵌入的质量。此外,通过在随机梯度下降过程中加入噪声来保证隐私差异化,能够在不泄漏任一嵌入的情况下产生合理的样本。
作为上述实施例的优化方案,在步骤S30中,所述知识协同推演网络包括:在任意两个知识图谱(gi,gj)之间构建一对保护隐私的对抗性翻译网络;在其中一个网络中,gi是客户端,gj是主机;在另一个网络中,gj是客户端,gi是主机;利用gi生成器生成虚拟样本,利用鉴别器gj鉴别虚拟样本,从而合成最终嵌入,在利用最终嵌入优化生成器和鉴别器。
知识协同推演网络处理过程中:一个独立的知识图谱所有者发送合作请求,另一个独立的知识图谱所有者接收并响应该请求,然后请求者再次发送确认信号,最后成功建立连接;在整个过程中,对于任何一个知识图谱所有者来说,有三种状态:就绪、忙碌或休眠;处于就绪状态的参与者愿意与其他合作者开始新的联合学习,且足够的培训资源使其能够开始新一轮的合作;处于忙碌状态的参与者正在与某个参与者进行联合学习,没有可用的资源与他人协作,因此它不会接受和响应来自其他参与者的合作请求,它的请求者们将有序地排队,等待其转变为就绪状态;处于休眠状态的参与者即使拥有足够的资源和能力,也不会接受和响应其他参与者的任何请求,但它会被其他合作伙伴的合作请求唤醒,或在预定的时间后自动苏醒,进入就绪状态。
本发明利用一系列保护隐私的对抗性翻译网络来统一对齐实体和关系的嵌入,并生成对齐的实体和关系的高质量聚合嵌入方式。每个知识图谱都可以选择一种更合适、更优秀的嵌入方法来学习其原始嵌入,该步骤会在本地完成。然后,我们在知识图谱上构建一个异步、成对的联邦表示学习框架,将其终身学习式地进行对于来自不同特定领域的知识图谱的不断嵌入与协同推演。所有的知识图谱都将参加匹配和联合训练。对于任何一对知识图谱,保护隐私的对抗性翻译网络将提供三个不同的生成性对抗网络中来生成和学习两个知识图谱间对齐实体和关系的聚合嵌入,最终使每个知识图谱的实体与关系的嵌入分别得到改进。如果其中至少一个知识图谱的嵌入效果最终得到改善,它将传播到其他知识图谱,以进一步增强整体结果;如果没得到改善,它将回溯到进行联合学习之前的原始嵌入。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (9)
1.一种基于分层跨域知识协同推演的工业知识图谱补齐方法,其特征在于,包括步骤:
S10,获取多个生产中涉及的原始知识图谱;
S20,将每个原始知识图谱输入对抗性翻译网络,从中配置相应的隐私差异化生成性对抗网络;利用差异隐私抗性生成结构来对原始知识图谱统一对齐实体和关系的嵌入,并生成对齐实体和关系的聚合嵌入;
S30,将获得的已对齐实体和关系的聚合嵌入,输入知识协同推演网络,获得补齐后的生产知识图谱。
2.根据权利要求1所述的一种基于分层跨域知识协同推演的工业知识图谱补齐方法,其特征在于,在步骤S20中,利用对抗性训练来学习从源嵌入空间到目标嵌入空间的平移映射,将保护隐私的对抗性翻译网络构建为一个基于多种经典的生成性对抗网络的隐私差异化生成性对抗网络族。
3.根据权利要求2所述的一种基于分层跨域知识协同推演的工业知识图谱补齐方法,其特征在于,所述隐私差异化生成性对抗网络族的构建过程包括步骤:
S201,对于给定的一对具有对齐实体和关系的知识图谱(gi,gj),保护隐私的对抗性翻译网络利用生成性对抗网络结构来统一对齐实体和关系的嵌入;其中,生成器置于gi,鉴别器置于gj;
S202,训练生成器学习从gi的嵌入空间到gj的嵌入空间的线性平移映射,将对齐实体的嵌入从gi转换到gj并生成高质量的虚拟样本,同时训练鉴别器将生成器通过映射合成的虚拟嵌入与gj中的真实嵌入进行正确地区分;经过这样对抗性的训练和学习,最终的合成嵌入结合来自gi和gj的特征和信息进行学习,并在gi和gj中更改对齐实体和关系的初始嵌入;
S203,当上述步骤中的训练过程稳定后,gi中的生成器将生成与对齐的实体和关系相邻的实体和链接关系的嵌入,并将它们作为虚拟实体和关系传输给gj;当此联合结束,下一个新的联合尚未开始时,生成的虚拟实体和链接关系将被删除。
4.根据权利要求1所述的一种基于分层跨域知识协同推演的工业知识图谱补齐方法,其特征在于,所述保护隐私的对抗性翻译网络是隐私差异化与不同的生成性对抗网络的结合,包括三种隐私差异化生成性对抗网络作为保护隐私的对抗性翻译网络的内置模型,分别为:
差分隐私生成性对抗网络DP-GAN,通过在生成性对抗网络结构训练过程中,将设置随机噪声添加到梯度中,从而实现隐私差异化;
基于PATE机制的生成性对抗网PATE-GAN,通过在教师输出中添加随机噪声,保证了具有多个教师鉴别器和一个学生鉴别器的生成性对抗网络结构中的隐私差异化;将学生鉴别器的训练样本从公共数据和未标记数据转换为噪声聚合的教师标记数据;
差分隐私半监督式生成性对抗网络DP-ACGAN,通过在随机梯度下降过程中引入拉普拉斯噪声来实现隐私差异化;在添加噪声之前,进行梯度剪切;梯度裁剪通过从两侧切断l2范数来限制每个循环中梯度范数的上界。
5.根据权利要求4所述的一种基于分层跨域知识协同推演的工业知识图谱补齐方法,其特征在于,所述差分隐私生成性对抗网络DP-GAN,结合随机噪声与权重剪裁;基于WGAN网络中的瓦瑟斯坦距离,得到了双人极大极小博弈值如下:
其中,W是平移映射关系矩阵,E[·]表示数学期望函数,函数fw为利普希茨连续,而fw的利普希茨连续性是通过权重剪切保证的;
在双人极大极小博弈中,生成器的目标是使生成的虚拟样本和真实样本之间的瓦瑟斯坦距离最小化,生成器的损失函数为:
在双人极大极小博弈中,鉴别器的目标是使生成的虚拟样本和真实样本之间的瓦瑟斯坦距离最大化,鉴别器的损失函数为:
对于给定的一对具有对齐实体和关系的知识图谱(gi,gj),参数为θ的生成器位于客户端gi,参数为β的鉴别器位于主机gj;客户端gi生成对齐实体Ei∩Ej和关系Ri∩Rj的集成嵌入,将其发送出去并使用接收到的梯度更新模型;主机gj区分真实样本和生成的虚拟样本,并计算生成器损失L(G)和鉴别器损失L(D);
内置差分隐私生成性对抗网络的保护隐私的对抗性翻译的训练过程如下:
X表示gi中对齐的实体和关系的嵌入,Y表示gj中对齐的实体和关系的嵌入;设Pi(x)表示X表示X在gi的嵌入空间上的分布,Pj(y)表示Y表示Y在gj的嵌入空间上的分布;然后对于每个鉴别器迭代,采样一批包括了客户端和主机的训练样本;添加噪声后对于主机数据点和客户端数据点之间的瓦瑟斯坦距离梯度进行权重剪切,使fw满足利普希茨连续性,然后更新生成器参数;当所有迭代结束时,得到了一个隐私差异化生成器和隐私差异化输出,用于细化gi和gj中对齐实体和关系的嵌入。
6.根据权利要求4所述的一种基于分层跨域知识协同推演的工业知识图谱补齐方法,其特征在于,基于PATE机制的生成性对抗网PATE-GAN中:
对于一对知识图谱(gi,gj),X表示gi中对齐的实体和关系的嵌入,Y表示gj中对齐的实体和关系的嵌入;客户端gi包含一个具有平移映射关系矩阵W的生成器G;主机gj包含多个教师鉴别器T={T1,T2,...,T|T|}和一个学生鉴别器S;生成器G的参数为θG,教师鉴别器的参数分别为学生鉴别器的参数为θS;
生成器的损失函数定义为:
其中,G(xm)=Wxm(1≤m≤n)(1≤m≤n),xm表示嵌入向量;教师鉴别器将训练数据划分为与教师数量相同的|T|个不相交子集,每个教师鉴别器在各自的数据上训练自己的模型来区分G(X)和Y;
教师鉴别器的损失函数定义为:
其中,dh表示对齐实体和关系的嵌入空间的维;
然后将随机噪声添加到教师鉴别器的预测中,将噪声聚合结果视为学生训练数据G(X)的标签;训练学生鉴别器对有噪声聚合标记的生成样本进行分类,其损失由PATE机制定义为:
其中,Vj是独立同分布随机变量Lap(1/λ),为引入的噪音,λ反映了隐私保护水平;nj(x)表示有多少教师预测输入x属于类j;
学生鉴别器的损失函数定义为:
其中,γi=PATEλ(x),表示得到教师鉴别器更多票数的噪声聚合标签;然后,将鉴别器计算出的生成器损失传输给生成器,以帮助生成器更新参数;
内置PATE-GAN的保护隐私的对抗性翻译网络的训练过程如下:
D表示教师鉴别器的输入数据集,由X和Y组成,可分为k个不相交子集D1,D2,...,Dk;将X在gi的嵌入空间上的分布表示为PX(X);
对于每个生成器迭代,首先对教师鉴别器进行培训,然后对学生鉴别器进行培训;对于每个教师鉴别器迭代,所有教师鉴别器Ti都使用来自G(X)或Y的各自的数据进行训练,并使用随机梯度下降更新他们的参数对于每个学生鉴别器迭代,它通过PATE机制标记生成的样本G(X),即在教师鉴别器投票中引入拉普拉斯噪声,以获取噪声聚合的输出来标记G(X),利用随机梯度下降对学生鉴别器的参数θs和生成器的参数θG进行了更新;
最后,通过隐私差异化生成器G得到了具有差分隐私保证的嵌入。
7.根据权利要求4所述的一种基于分层跨域知识协同推演的工业知识图谱补齐方法,其特征在于,差分隐私半监督式生成性对抗网络DP-ACGAN中:
对于一对知识图谱(gi,gj),将客户端gi中对齐的实体和关系的嵌入X输入到参数为θ的生成器G中;此外,类标签c作为额外的辅助特征,也要输入到生成器中,并与嵌入X结合形成联合对;生成器G同时使用嵌入X和类标签c来生成集成嵌入G(X,c);鉴别器D除了区分真实嵌入Y与生成的对抗性样本G(X,c)外,还需要输出所输入的样本的类标签,即通过位于D中的辅助解码器重构相应的辅助特征;因此,其损失函数包括两部分:区分的损失和分类的损失;
区分方面的损失揭示了源上的概率分布,其表示为:
L(S)=E[logP(S=real|Y)]+E[logP(S=fake|G(X,c))];
其中,S表示区分鉴别器,real表示数据为真,fake表示数据为假;C表示分类鉴别器,c表示C的类别;
分类方面的损失揭示了分类上的概率分布,其表示为:
L(C)=E[logP(C=c|Y)]+E[logP(C=c|G(X,c))]
在DP-ACGAN中,鉴别器D的目标是正确地区分和重构,即最大化L(S)+L(C);其目标损失函数为:
L(D)=max{L(S)+L(C)};
而生成器G的目标是正确分类和成功混淆鉴别器,即最大化L(C)-L(S),其损失函数为:
L(D)=max{L(C)-L(S)}。
8.根据权利要求1所述的一种基于分层跨域知识协同推演的工业知识图谱补齐方法,其特征在于,在步骤S30中,所述知识协同推演网络包括:在任意两个知识图谱(gi,gj)之间构建一对保护隐私的对抗性翻译网络;在其中一个网络中,gi是客户端,gj是主机;在另一个网络中,gj是客户端,gi是主机;利用gi生成器生成虚拟样本,利用鉴别器gj鉴别虚拟样本,从而合成最终嵌入,在利用最终嵌入优化生成器和鉴别器。
9.根据权利要求8所述的一种基于分层跨域知识协同推演的工业知识图谱补齐方法,其特征在于,所述知识协同推演网络处理过程中:一个独立的知识图谱所有者发送合作请求,另一个独立的知识图谱所有者接收并响应该请求,然后请求者再次发送确认信号,最后成功建立连接;在整个过程中,对于任何一个知识图谱所有者来说,有三种状态:就绪、忙碌或休眠;处于就绪状态的参与者愿意与其他合作者开始新的联合学习,且足够的培训资源使其能够开始新一轮的合作;处于忙碌状态的参与者正在与某个参与者进行联合学习,没有可用的资源与他人协作,因此它不会接受和响应来自其他参与者的合作请求,它的请求者们将有序地排队,等待其转变为就绪状态;处于休眠状态的参与者即使拥有足够的资源和能力,不接受和响应其他参与者的任何请求,但被其他合作伙伴的合作请求唤醒或在预定的时间后自动苏醒,进入就绪状态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210526399.1A CN114925213A (zh) | 2022-05-16 | 2022-05-16 | 一种基于分层跨域知识协同推演的工业知识图谱补齐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210526399.1A CN114925213A (zh) | 2022-05-16 | 2022-05-16 | 一种基于分层跨域知识协同推演的工业知识图谱补齐方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114925213A true CN114925213A (zh) | 2022-08-19 |
Family
ID=82808883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210526399.1A Pending CN114925213A (zh) | 2022-05-16 | 2022-05-16 | 一种基于分层跨域知识协同推演的工业知识图谱补齐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114925213A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115426205A (zh) * | 2022-11-05 | 2022-12-02 | 北京淇瑀信息科技有限公司 | 一种基于差分隐私的加密数据生成方法及装置 |
CN117370583A (zh) * | 2023-12-08 | 2024-01-09 | 湘江实验室 | 一种基于生成对抗网络的知识图谱实体对齐方法及系统 |
-
2022
- 2022-05-16 CN CN202210526399.1A patent/CN114925213A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115426205A (zh) * | 2022-11-05 | 2022-12-02 | 北京淇瑀信息科技有限公司 | 一种基于差分隐私的加密数据生成方法及装置 |
CN117370583A (zh) * | 2023-12-08 | 2024-01-09 | 湘江实验室 | 一种基于生成对抗网络的知识图谱实体对齐方法及系统 |
CN117370583B (zh) * | 2023-12-08 | 2024-03-19 | 湘江实验室 | 一种基于生成对抗网络的知识图谱实体对齐方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hollander et al. | The current state of normative agent-based systems | |
CN114925213A (zh) | 一种基于分层跨域知识协同推演的工业知识图谱补齐方法 | |
Liu et al. | The knowledge structure and development trend in artificial intelligence based on latent feature topic model | |
Cook et al. | Social exchange theory: current status and future directions | |
CN106844934B (zh) | 智慧城市规划设计专家系统及智慧城市规划设计方法 | |
Li et al. | Identifying the development trends and technological competition situations for digital twin: A bibliometric overview and patent landscape analysis | |
Saepulloh et al. | Internal Conflict Management Of National Trade Union Organization With Interpersonal Approach In DPC SPN Serang Regency | |
Yu et al. | The music education and teaching innovation using blockchain technology supported by artificial intelligence | |
Wang et al. | Personalized individual semantics based approach to MAGDM with the linguistic preference information on alternatives | |
Sun et al. | Comparative study on the academic field of artificial intelligence in China and other countries | |
Shen et al. | A cyber-anima-based model of material conscious information network | |
Nie et al. | Building a taxonomy for understanding knowledge management | |
Abdullah et al. | Analyzing the deep learning techniques based on three way decision under double hierarchy linguistic information and application | |
Shu et al. | Knowledge acquisition approach based on incremental objects from data with missing values | |
Widayanti et al. | A bibliometrics study: Enhancing management education using blockchain technology | |
Danner et al. | Ethically aligned deep learning: unbiased facial aesthetic prediction | |
CN116361398B (zh) | 一种用户信用评估方法、联邦学习系统、装置和设备 | |
Sekiguchi et al. | BaleeGraph: Visualizing Co-Creation for Social Good | |
Mesjasz | Images of Organisation and Development of Information Society: Going into Metaphors | |
Xing et al. | Distributed Model Interpretation for Vertical Federated Learning with Feature Discrepancy | |
Diallo | Deep Metric Learning for Image Similarity: Exploring deep metric learning techniques for measuring similarity between images in embedding spaces learned by neural networks | |
Song | Exploring the development of Chinese digital resources under lightweight deep learning | |
Dai | The Subjective Status of Artificial Intelligence in Civil Law | |
Hannas et al. | Chinese Power and Artificial Intelligence | |
Zhang | Design of Visual Information Model of Blockchain Intelligent Interactive Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |