CN114510609A - 结构数据的生成方法、装置、设备、介质及程序产品 - Google Patents

结构数据的生成方法、装置、设备、介质及程序产品 Download PDF

Info

Publication number
CN114510609A
CN114510609A CN202210146218.2A CN202210146218A CN114510609A CN 114510609 A CN114510609 A CN 114510609A CN 202210146218 A CN202210146218 A CN 202210146218A CN 114510609 A CN114510609 A CN 114510609A
Authority
CN
China
Prior art keywords
data
target
feature representation
feature
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210146218.2A
Other languages
English (en)
Inventor
李蓝青
高子琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210146218.2A priority Critical patent/CN114510609A/zh
Publication of CN114510609A publication Critical patent/CN114510609A/zh
Priority to PCT/CN2022/136450 priority patent/WO2023155546A1/zh
Priority to US18/333,140 priority patent/US20230335229A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种结构数据的生成方法、装置、设备、介质及程序产品,涉及人工智能领域。该方法包括:获取样本结构数据的结构特征表示和节点特征表示;基于结构特征表示和节点特征表示,生成隐层特征表达,隐层特征表达用于指示在至少两个频带上样本结构数据中节点之间的结合情况;将隐层特征表达输入至待训练解码器中进行结构重建,得到预测结构数据,预测结构数据用于对待训练解码器进行训练,得到目标解码器,目标解码器用于对输入的采样数据进行结构重建得到目标结构数据,采样数据为对目标数据分布的候选数据进行采样得到的数据。通过隐层特征表达来完成结构重建,提升了结构数据的生成效率以及生成多样性。

Description

结构数据的生成方法、装置、设备、介质及程序产品
技术领域
本申请涉及人工智能领域,特别涉及一种结构数据的生成方法、装置、设备、介质及程序产品。
背景技术
随着人工智能(Artificial Intelligence,AI)的发展,AI应用于越来越多的领域中,其中,在智能医疗领域中,AI可驱动药物发现,协助专业人员研发新药。
在相关技术中,可以将化学分子结构映射生成对应的图结构的分子图,然后通过图卷积神经网络(Graph Convolutional Network,GCN),基于消息传播过程来学习这些分子图,再通过GCN生成新的特征表示,在决策过程中,根据新的特征表示对应的新结构以符合有机分子化学规则的形式,添加到现有图中,得到新分子对应的分子图。
然而,在上述新分子的结构生成过程中,由于GCN的低通特性将表征分子的图数据平滑化,以致解码时无法重建完备的原始信号,最终导致生成分子多样性和有效性不足,生成效率低。
发明内容
本申请实施例提供了一种结构数据的生成方法、装置、设备、介质及程序产品,可以提升指定结构的生成效率以及生成结构的多样性。所述技术方案如下:
一方面,提供了一种结构数据的生成方法,所述方法包括:
获取样本结构数据的结构特征表示和节点特征表示,所述结构特征表示用于指示组成所述样本结构数据的节点之间的连接情况,所述节点特征表示用于指示所述组成所述样本结构数据的节点对应的节点类型;
基于所述结构特征表示和所述节点特征表示,生成隐层特征表达,所述隐层特征表达用于指示在至少两个频带上所述样本结构数据中节点之间的结合情况;
将所述隐层特征表达输入至待训练解码器中进行结构重建,得到预测结构数据,所述预测结构数据用于对所述待训练解码器进行训练,得到目标解码器,所述目标解码器用于对输入的采样数据进行结构重建得到目标结构数据,所述采样数据为对目标数据分布的候选数据进行采样得到的数据。
另一方面,提供了一种结构数据的生成装置,所述装置包括:
获取模块,用于获取样本结构数据的结构特征表示和节点特征表示,所述结构特征表示用于指示组成所述样本结构数据的节点之间的连接情况,所述节点特征表示用于指示所述组成所述样本结构数据的节点对应的节点类型;
编码模块,用于基于所述结构特征表示和所述节点特征表示,生成隐层特征表达,所述隐层特征表达用于指示在至少两个频带上所述样本结构数据中节点之间的结合情况;
解码模块,用于将所述隐层特征表达输入至待训练解码器中进行结构重建,得到预测结构数据,所述预测结构数据用于对所述待训练解码器进行训练,得到目标解码器,所述目标解码器用于对输入的采样数据进行结构重建得到目标结构数据,所述采样数据为对目标数据分布的候选数据进行采样得到的数据。
另一方面,提供了一种计算机设备,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现本申请实施例中任一所述的结构数据的生成方法。
另一方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述程序代码由处理器加载并执行以实现本申请实施例中任一所述的结构数据的生成方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的结构数据的生成方法。
本申请的提供的技术方案至少包括以下有益效果:
通过样本结构数据对应的结构特征表示以及节点特征表示得到隐层特征表达,然后通过该隐层特征表达对待训练解码器进行迭代训练,训练得到目标解码器,该目标解码器即可通过输入的采样数据生成目标结构数据,即,可以根据需求通过训练得到的目标解码器快速生成多样的结构数据,从而提升结构数据的生成效率以及生成多样性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的实施环境示意图;
图2是本申请一个示例性实施例提供的结构数据的生成方法流程图;
图3是本申请一个示例性实施例提供的模型结构示意图;
图4是本申请一个示例性实施例提供的隐层特征表达的生成方法流程图;
图5是本申请一个示例性实施例提供的隐层特征表达获取示意图;
图6是本申请另一个示例性实施例提供的隐层特征表达获取示意图;
图7是本申请一个示例性实施例提供的解码器的训练方法流程图;
图8是本申请另一个示例性实施例提供的结构数据的生成方法流程图;
图9是本申请另一个示例性实施例提供的结构数据的生成方法流程图;
图10是本申请一个示例性实施例提供的结构数据的生成装置结构框图;
图11是本申请另一个示例性实施例提供的结构数据的生成装置结构框图;
图12是本申请一个示例性实施例提供的服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,对本申请实施例中涉及的名词进行简要介绍:
人工智能:是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
图卷积网络:卷积神经网络是采用局部感知区域、共享权值和空间域上的降采样,相对于位移、缩放和扭曲,具有稳定不变的特性,能够很好的提取图像的空间特征。图结构不具备图片的平移不变性,传统的卷积方式不适用于图结构。因此图卷积的重要难点在于图中每个节点的邻域节点数目不一致,无法用同样尺寸的卷积核进行提取特。GCN通过空间域或谱域的消息传递机制完成对邻域信息的整合,进行主要特征提取,而最常用的GCN为对图信号进行低通滤波处理。
小波变换(Wavelet Transform):是空间频率的局部化分析,它通过伸缩平移运算对信号逐步进行多尺度细化,最终达到频域细分,能自动适应时频信号分析的要求,从而可聚焦到信号的任意细节,解决了傅里叶(Fourier)变换的困难问题。
变分自编码器(Variational Auto-Encoder,VAE):是面向数据生成的深度学习模型,先将输入数据进行压缩编码,并计算生成隐藏变量,最终由解码器还原原始数据,在进行数据生成时,只需从隐藏变量中以特定分布进行采样,便可生成与原始数据分布相近的数据。在分子生成中应用VAE模型,旨在生成和参考分子性质一致的有效分子,进而用于高质量药物发现。
在本申请实施例中,将人工智能技术中的机器学习/深度学习应用于具有一定规律或满足一定规则的结构数据的生成中。
其次,对本申请实施例提供的结构数据的生成方法的应用场景进行举例说明:
第一,可以应用于智能医药场景下有机化学分子的生成场景中。在智能医药场景下,通过AI协助新药的发现和研制,例如,先导药物的生成、药物优化等,其中,上述先导药物是指通过一定途径和手段得到的具有某种活性和化学结构的化合药物,用于进一步的结构改造和修饰,是新药研究的出发点,而药物优化是指针对药物中的化学结构按照一定的规则对结构进行优化,以提升药物的理化性质。
在相关技术中,通过将化合物的化学分子映射为图结构的分子图,然后通过图卷积神经网络GCN进行特征提取,然后再通过GCN进行结构复原,即,特征提取到中间特征Z=GCN(X,A),X为分子图的节点特征,A为分子图的边特征,然后生成的
Figure BDA0003509079370000051
为对A进行指定变换后的特征。然而,在该方法实现过程中,由于对新的分子的生成过程所使用的解码方法可解释性较差,不存在和编码部分对偶的解耦原理,因此对图信号进行了二次平滑,所生成分子图的多样性较低,生成效率低。
示意性的,可以通过本申请实施例中提供的结构数据的生成方法,通过对已有药物的化学分子结构进行学习,得到目标解码器,其中,解码过程与编码过程对偶,从而在新药研发过程中通过目标解码器高效、有效地生成高质量临床候选分子,以协助新药的研发。或者,应用于已知靶点的有较强潜在活性的类药物分子的筛选过程,其中,类药物分子是指分子对应的化合物与已知药物具有一定相似性,类药物分子具有成为药物的可能,通过本申请实施例提供的结构数据的生成方法,针对难成药的靶点,生成高成功率的理想候选分子。
第二,可以应用于知识图谱的挖掘以及构建的场景中。其中,上述知识图谱是由一些相互连接的实体和他们的属性构成的,是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、前沿领域以及整体知识架构达到多学科融合目的的现代理论。具体的,例如,智慧医疗场景下的医学知识图谱,示意性的,通过已经构建得到的病症对应的知识图谱作为训练数据进行训练,得到目标解码器,通过目标解码器高效地生成多个具有一定有效性的知识图谱。
第三,可以应用于智慧旅游自动规划的场景中。示意性的,通过本申请实施例你提供的结构数据的生成方法,通过用于训练的旅游路线规划图进行训练,得到目标解码器,用户可以通过该目标解码器生成多样的旅游规划路线,即,可以在指定条件或随机条件下为用户提供多样化的旅游路线规划,丰富智慧出行,上述指定条件可以是指定旅游城市、指定景点类型等。
示意性的上述场景仅为对本申请实施例提供的结构数据的生成方法的应用场景的举例说明,该方法还可以应用于如基于用户间社交关系的推荐系统、文本语义分析、路况预测等能够将信息处理为图结构的数据的场景中,在此不对具体的应用场景进行限定。
结合上述名词解释和应用场景的说明,对本申请实施例的实施环境进行说明。如图1所示,该实施环境的计算机系统中包括:终端设备110、服务器120和通信网络130。
终端设备110包括手机、平板电脑、台式电脑、便携式笔记本电脑等多种形式的设备。示意性的,用户通过终端设备110指示服务器120对待训练解码器进行训练。
服务器120用于提供对待训练解码器的训练功能,即,服务器120可根据终端设备110的请求调用对应的运算模块对指定的待训练解码器进行训练。可选地,待训练解码器对应的模型架构可以是预先存储于服务器120中,也可以是终端设备110通过模型数据文件上传的;用于待训练解码器训练的训练数据集合可以是预先存储于服务器120中,也可以是终端设备110通过训练数据文件上传的。在一个示例中,用户通过终端设备110将样本结构数据对应的数据集合上传至服务器120,并发送针对待训练解码器的训练请求,该训练请求中携带有待训练解码器的模型标识(ID),服务器120根据训练请求中的模型ID从数据库中读取上述模型ID对应的待训练解码器的模型架构,并通过接收到的数据集合对待训练解码器进行训练。
其中,在训练过程中,服务器120通过样本结构数据的结构特征表示和节点特征表示得到隐层特征表达,基于隐层特征表达对待训练解码器进行训练,得到目标解码器。当服务器120训练得到目标解码器后,服务器120可以将该目标解码器发送给终端设备110,或者将该目标解码器设置于应用模块中,由终端设备110通过数据生成请求进行调用。
在一些实施例中,若终端设备110的计算能力满足上述待训练解码器的训练过程,上述目标解码器的整体训练过程也可由终端设备110单机实现。
值得注意的是,上述服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
其中,云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
在一些实施例中,上述服务器120还可以实现为区块链系统中的节点。
示意性的,终端设备110和服务器120之间通过通信网络130连接,其中,上述通信网络130可以是有线网络,也可以是无线网络,在此不进行限定。
请参考图2,其示出了本申请一个实施例示出的结构数据的生成方法,在本申请实施例中,以该方法应用于如图1所示的服务器中,该方法包括:
步骤201,获取样本结构数据的结构特征表示和节点特征表示。
其中,上述结构特征表示用于指示组成样本结构数据的节点之间的连接情况,节点特征表示用于指示组成所述样本结构数据的节点对应的节点类型。
示意性的,上述样本结构数据为用于训练待训练解码器的训练数据,该样本结构数据为数据结构为图结构的数据,即,样本结构数据是由至少两个节点以及至少一条边组成的数据。可选地,上述图结构可以是无向图、有向图、无向完全图、有向完全图等任意一种图结构,具体图结构可以根据样本结构数据对应的数据信息进行确定。例如,当需要通过图结构来表达化学分子时,即,该样本结构数据是与化学分子对应的,则分子中的原子即为图中节点,原子间的化学键即为图中的边,而由于边不需要指示方向,则对应可以使用无向图作为样本结构数据对应的数据结构。
其中,结构特征表示用于指示样本结构数据对应的图中节点之间的连接情况,该连接情况与样本结构数据对应的结构生成任务相关。例如,当结构生成任务为化学分子生成时,则上述节点之间的连接关系则为化学分子中各个原子之间的化学键;当结构生成任务为基于社交网络的推荐系统时,则节点之间的连接情况则是社交网络中用户与用户的互动关系(例如,陌生人关系、好友关系、黑名单关系等);当结构生成任务为旅游路线生成时,则节点之间的连接情况则是景点之间的路程情况。
节点特征表示用于指示样本结构数据对应的图中各个节点的节点类型,该节点类型与样本结构数据对应的结构生成任务相关。例如,当结构生成任务为化学分子生成时,则上述节点类型为化学分子中的原子类型;当结构生成任务为基于社交网络的推荐系统时,则节点类型为社交网络中的用户账号;当结构生成任务为旅游路线生成时,则节点类型为景点。
示意性的,样本结构数据的结构特征表示和节点特征表示由样本结构数据根据预设特征转化方式进行转化得到。可选地,上述结构特征表示可以是矩阵形式的特征表示,也可以是向量形式的特征表示,上述节点特征表示可以是矩阵形式的特征表示,也可以是向量形式的特征表示,在此不进行限定。
可选地,上述预设转化方式可以是网络转化方式,即,上述结构特征表示和节点特征表示可以是通过特征提取网络进行特征提取得到的,将样本结构数据输入至预先训练得到的特征提取网络,输出得到结构特征表示和节点特征表示。上述特征提取网络可以是卷积神经网络(Convolutional Neural Networks,CNN)、视觉几何组网络(Visual GeometryGroupNetwork,VGGNet)、亚历克斯网络(AlexNetwork,AlexNet)等能够完成特征提取的网络,在此不进行限定。
可选地,上述预设转化方式还可以是矩阵转化方式,即,上述结构特征表示和节点特征表示可以是由样本结构数据对应的图结构数据进行矩阵转化得到的。示意性的,上述图结构的样本结构数据的逻辑结构分为两部分,分别为由至少两个节点组成的节点集合以及节点之间的边构成的边集合。上述结构特征表示即为由边集合生成的用于存放边的二维数据,即邻接矩阵,该邻接矩阵用于记录上述至少两个节点之间的连接关系,上述节点特征表示即为由节点集合生成的一维矩阵(数组)用于存放图中的节点数据。
在一个示例中,以样本结构数据用于指示化学分子时为例,上述邻接矩阵记录的即为化学分子中原子之间的化学键类型,节点特征表示即为根据化学分子的组成原子生成的一维特征矩阵,用于记录化学分子中的原子类型。示意性的,获取目标化学分子,目标化学分子由至少两个原子组成,目标化学分子为满足原子结合标准的已知分子。将目标化学分子转化为数据结构为图结构的目标分子图,其中,目标分子图的节点用于表示目标化学分子中的至少两个原子,例如,碳原子、氢原子、氧原子等,目标分子图中的边用于表示目标化学分子中原子之间的化学键,上述化学键包括无边、单键、双键、三键等类型的化学键,其中,在计算机中可以通过指定的映射关系将原子类型、化学键类型映射为不同的字符或字符串,例如,无边对应为“0”,单键对应为“1”,双键对应为“2”,三键对应为“3”,上述映射关系可以是由预设的映射表记录的。将目标分子图对应的邻接矩阵确定为结构特征表示,将目标分子图对应的节点矩阵确定为节点特征表示。
在本申请实施例中,上述待训练解码器为训练模型中的一部分。示意性的,通过将样本结构数据对应的结构特征表示和节点特征表示输入至训练模型,输出预测结构数据,通过预测结构数据与样本结构数据之间的偏差对整体的训练模型进行训练,即,待训练解码器的训练是在对训练模型的整体训练过程中完成的。
步骤202,基于结构特征表示和节点特征表示,生成隐层特征表达。
上述隐层特征表达用于指示在至少两个频带上样本结构数据中节点之间的结合情况。
示意性的,上述训练模型还包括待训练编码器,该待训练编码器用于基于结构特征表示和节点特征表示,生成隐层特征表达。可选地,上述待训练编码器对应的编码器结构可以是自编码器(Autoencoder)、变分自编码器(Variational auto-encoder,VAE)、低通滤波器、带通滤波器等,具体使用的滤波器也可以是卷积神经网络、小波滤波器、巴特沃斯滤波器、贝塞尔滤波器等,在此不进行限定。
在本申请实施例中,当样本结构数据为图结构的数据时,上述待训练编码器为GCN,即,将结构特征表示和节点特征表示作为GCN的输入,输出得到上述隐层特征表达。
示意性的,由于上述隐层特征表达用于指示在至少两个频带上样本结构数据中节点之间的结合情况,因此,本申请实施例中的GCN包括第一滤波层和至少两个第二滤波层。
可选地,上述第一滤波层可以是用于完成低通滤波的,也可以是高通滤波,还可以是带通滤波,具体需要根据实际应用场景需求确定。在一个示例中,以应用于化学分子的生成场景中,则上述第一滤波层为低通GCN层。其中,上述第一滤波层仅为对功能一致的滤波层的指示,第一滤波层可以由单个滤波层组成,也可以是多个滤波层组成,例如,第一滤波层中包括两个低通GCN层,即由两层神经元组成,在此不进行限定。
上述第二滤波层是对应至少两个频带的带通滤波层,示意性的,第一滤波层输出的数据输入至上述至少两个第二滤波层中,输出得到每个频带对应的滤波结果。示意性的,第二滤波层的数量与频带划分的数量对应。其中,上述第二滤波层仅为对功能一致的滤波层的指示,至少两个第二滤波层为至少两个并联的第二滤波层,单个第二滤波层可以是由单个滤波层组成的,也可以是由多个滤波层组成的,在此不进行限定。
示意性的,基于结构特征表示和节点特征表示在至少两个频带上分别编码得到中间特征数据,中间特征数据用于指示样本结构数据在对应的频带上节点之间的结合情况,基于目标数据分布对至少两个频带分别对应的中间特征数据进行聚合,得到隐层特征表达。即,通过上述第一滤波层和第二滤波层得到至少两个频带上的中间特征数据,将中间特征数据进行聚合,得到隐层特征表达。
可选地,上述中间特征数据的聚合方式可以是根据至少两个频带之间的频带顺序进行拼接,在一个示例中,上述频带顺序可以是至少两个频带从低频到高频进行排列的顺序;或者,上述中间特征数据的聚合方式也可以是将至少两个频带分别对应的中间特征数据根据指定的数据分布进行拟合,例如,根据正态分布(高斯分布)进行拟合、通过切比雪夫多项式进行拟合、最小二乘拟合等。在一些实施例中,若样本结构数据中节点数量较少,即算力可满足结构矩阵和特征矩阵的计算要求,亦可用特征值分解代替多项式拟合的过程,即对拉普拉斯矩阵进行特征分解。
步骤203,将隐层特征表达输入至待训练解码器中进行结构重建,得到预测结构数据,上述预测结构数据用于对待训练解码器进行训练,得到目标解码器。
其中,目标解码器用于对输入的采样数据进行结构重建得到目标结构数据,采样数据为对目标数据分布的候选数据进行采样得到的数据。
示意性的,隐层特征表达通过解码器进行结构重构,从而得到预测结构数据。在一些实施例中,待训练解码器的输出为解码结构特征表示和解码节点特征表示,即,通过待训练解码器对隐层特征表达进行采样,获取解码结构特征表示和解码节点特征表示,基于解码结构特征表示和解码节点特征表示,生成预测结构数据。其中,上述解码结构特征表示即用于指示预测结构数据中节点之间的关系,解码节点特征表示即用于指示预测结构数据中的节点。
在一个示例中,如图3所示,其示出了本申请一个示例性实施例提供的模型结构示意图,样本结构数据的结构特征表示和节点特征表示输入至第一滤波层310,然后将第一滤波层310的输出结果输入至第二滤波层320,第二滤波层320的输出经过聚合后得到隐层特征表达,隐层特征表达通过解码器330得到解码结果,该解码结果即为上述解码结构特征表示和解码节点特征表示。
在本申请实施例中,通过待训练解码器输出的预测结构数据和输入的样本结构数据之间的差异情况对待训练解码器进行训练,直至待训练解码器收敛。在一些实施例中,待训练解码器是训练模型中的一部分,因此其训练过程是依附于训练模型的整体训练过程的,即,通过预测结构数据和输入的样本结构数据之间的差异情况对训练模型进行训练,得到收敛的目标模型,将目标模型中的解码器部分拆分作为上述目标解码器,用于结构数据的生成。
示意性的,基于样本结构数据和预测结构数据之间的差异情况,得到训练损失值,响应于训练损失值达到目标损失阈值,即确定模型已训练至收敛,确定待训练解码器训练完成,得到目标解码器;或者,响应于训练损失值与目标损失阈值匹配失败,对待训练解码器对应的模型参数进行迭代训练,即,通过调整训练模型的模型参数已进行迭代训练。其中,上述目标损失阈值可以是系统预设的,也可以是根据用户需求自定义设置的,例如,当需求的模型精度要求越高,则对应的目标损失阈值越小。
上述训练损失值由目标损失函数计算得到,该目标损失函数可以是用于回归、重建和分类的损失函数,可选地,该目标损失函数可以是平均绝对误差损失函数、负对数似然损失、指数损失、交叉熵损失函数及其变体等损失函数,在此不进行限制。
综上所述,本申请实施例提供的结构数据的生成方法,通过样本结构数据对应的结构特征表示以及节点特征表示得到隐层特征表达,然后通过该隐层特征表达对待训练解码器进行迭代训练,训练得到目标解码器,该目标解码器即可通过输入的采样数据生成目标结构数据,即,可以根据需求通过训练得到的目标解码器快速生成多样的结构数据,从而提升结构数据的生成效率以及生成多样性。
请参考图4,其示出了本申请一个实施例示出隐层特征表达的生成方法,在本申请实施例中,对通过编码器获取隐层特征表达的过程进行说明,该方法包括:
步骤401,获取样本结构数据的结构特征表示和节点特征表示。
在本申请实施例中,整体的训练模型包括用于进行推断的编码器部分以及用于生成的解码器部分,样本结构数据的结构特征表示以及节点特征表示即为整体的训练模型的输入。
其中,上述构特征表示用于指示组成样本结构数据的节点之间的连接情况,节点特征表示用于指示组成所述样本结构数据的节点对应的节点类型。上述样本结构数据为用于训练训练模型的训练数据,该样本结构数据为数据结构为图结构的数据。
步骤402,基于结构特征表示和节点特征表示在至少两个频带上分别编码得到中间特征数据。
在本申请实施例中,通过训练模型中的待训练编码器对结构特征表示和节点特征表示进行编码,得到中间特征数据。其中,该待训练编码器的结构包括第一滤波层和至少两个第二滤波层。
在一些实施例中,通过小波变换完成编码过程,即,上述待训练编码器的结构为GCN,其中,第一滤波层为低通GCN层,第二滤波层为带通小波层,其中,至少两个带通小波层中,每个带通小波层对应不同的小波基函数,即,通过小波基函数对信号进行滤波,即,参照小波变换中的多尺度原理,根据不同小波基函数的泰展开式表示作为卷积带通滤波的基础,小波变换过程即为输入特征与小波基函数的卷积过程。
示意性的,根据训练模型需要完成的结构生成任务获取尺度标准,根据该尺度标准计算出对应的至少两个基函数,该至少两个基函数形成基函数组,基函数组中每个基函数对应一个带通小波层,即对应一个频带。
步骤403,基于目标数据分布对至少两个频带分别对应的中间特征数据进行聚合,得到隐层特征表达。
在一些实施例中,直接对至少两个带通小波层的输出进行聚合,以得到隐层特征表达,即,在此情况下,中间特征数据为由待训练编码器编码得到的编码结果,示意性的,将结构特征表示和节点特征表示输入至待训练编码器中,根据结构特征表示和节点特征表示之间的概率分布情况,输出至少两个频带分别对应的中间特征数据,该中间特征数据用于聚合得到隐层特征表达。
其中,上述中间特征数据的聚合方式是根据至少两个频带之间的频带顺序进行拼接,在一个示例中,上述频带顺序可以是至少两个频带从低频到高频进行排列的顺序。
示意性的,如图5所示,其示出了本申请一个示例性实施例提供的隐层特征表达获取示意图,将结构特征表示和节点特征表示501输入至GCN0510,得到低通滤波数据502,低通滤波数据502被输入至GCNwavelet520(包括GCNwavelet1、GCNwavelet2、…、GCNwaveletn),每个GCNwavelet520输出一个中间特征数据503,将中间特征数据503进行聚合,得到隐层特征表达Z504。
在另一些实施例中,为提示训练得到的目标解码器生成的结构数据的多样性,该中间特征数据可以是通过待训练编码器编码得到的特征进行中间计算得到的数据。
在一个示例中,上述通过中间计算得到的数据为均值和方差。示意性的,至少两个频带包括目标频带,基于结构特征表示和节点特征表示获取样本结构数据的节点在至少两个频带上分别对应的特征空间中的节点特征向量,获取至少两个频带对应的节点特征向量之间的均值数据和方差数据,将均值数据和方差数据确定为中间特征数据。即,通过待训练编码器进行滤波后,将各个频带上对应的节点特征向量进行均值和方差的计算,得到均值数据和方差数据,上述均值数据和方差数据即为用于生成隐层特征表达的中间特征数据。
具体的,待训练的编码器是基于公式一所示的概率模型的编码器,其中,Z表示节点的隐层特征表达,X为节点特征表示对应的特征矩阵,X的维度为N*1,N为样本结构数据中节点的数量,N为正整数,A为结构特征表示对应的用于存储节点之间的边的邻接矩阵。
公式一:
Figure BDA0003509079370000141
其中,上述公式一中的q(zi|X,A)由公式二确定,μ表示节点向量表示的均值,σ表示节点向量表示的方差,diag()为生成对角矩阵,该公式二表示将节点zi对应的特征拟合为高斯分布。
公式二:
Figure BDA0003509079370000142
在上述概率模型下采用GCN即可编码获取均值数据和方差数据。以单层GCN为例,单层GCN的计算表示如公式三所示,其中,A为输入GCN的结构特征表示,X为输入GCN的节点特征表示,W0为GCN模型的模型参数,
Figure BDA0003509079370000143
其中,D为图结构的样本结构数据对应的度矩阵。可选地,均值数据和方差数据可以是通过单层的GCN得到的,也可以是通过多层的GCN得到的,在此不进行限定。
公式三:
Figure BDA0003509079370000144
当得到均值数据和方差数据之后,可以根据上述均值数据和方差数据根据目标数据分布进行拟合,以得到隐层特征表达。在一个示例中,上述目标数据分布为高斯分布。
示意性的,如图6所示,其示出了本申请另一个示例性实施例提供的隐层特征表达获取示意图,将结构特征表示和节点特征表示601输入至GCN0610,得到低通滤波数据602,低通滤波数据602被输入至GCNwavelet620(包括GCNwavelet1、GCNwavelet2、…、GCNwaveletn),每个GCNwavelet620输出对应的节点特征向量603,通过中间计算得到节点特征向量603对应的均值数据和方差数据604,将均值数据和方差数据604作为中间特征数据,根据中间特征数据拟合得到高斯分布的隐层特征表达Z605。
在本申请实施例中,针对图6中示出的GCN0,其对应的计算表示如公式三所示,即,
Figure BDA0003509079370000151
节点特征表示X和结构特征表示A输入至GCN0,通过激活函数变换后得到X0,GCNwavelet的输入为上述X0和A,以GCNwavelet包括GCNwavelet1、GCNwavelet2为例,则GCNwavelet1(X0,A)=Awavelet1X0W1,GCNwavelet2(X0,A)=Awavelet2X0W2,其中,W1为GCNwavelet1的模型参数,W2为GCNwavelet2的模型参数,Awavelet1为A在GCNwavelet1对应的小波基函数下的小波变换结果,Awavelet2为A在GCNwavelet2对应的小波基函数下的小波变换结果。其中,上述激活函数可以是sigmoid激活函数(S型生长曲线)、tanh非线性函数、ReLU激活函数或是其变形,在此不进行限定。
在一个示例中,在确定均值数据和方差数据之后,采用重参数技巧计算得到隐层特征表达,即如公式四所示,其中,μ为上述均值数据,σ为上述方差数据,ε为正态高斯分布,即,p(ε)=N(0,I)。
公式四:Z=μ+ε*σ
综上所述,本申请实施例提供的隐层特征表达的生成方法,通过GCN对样本结构数据对应的结构特征表示和节点特征表示进行滤波,得到多个频带对应的中间特征数据,通过中间特征数据聚合得到隐层特征表达,即,基于小波变换实现图压缩编码的过程,保证生成的结构数据的多样性。同时,采用图结构的数据来实现编码预测过程,保证了用于结构重建的数据的精度需求。
请参考图7,其示出了本申请一个实施例示出解码器的训练方法,在本申请实施例中,对训练网络中的解码器部分进行说明,其中,步骤701~步骤703(包括7031和7032)实现于步骤403之后,该方法包括:
步骤701,通过待训练解码器对隐层特征表达通过卷积进行结构重建,获取解码结构特征表示和解码节点特征表示。
在本申请实施例中,隐层特征表达Z即为待训练解码器的输入,待训练解码器在解码过程中依照节点之间存在边的概率来重构解码结构特征表示和解码节点特征表示,其中,解码器对应的概率模型如公式五所示,其中,N为节点的数量,zi和zj分别隐层特征表达中的节点。
公式五:
Figure BDA0003509079370000161
其中,上述公式五中的p(Ai,j|zi,zj)由公式六得到,其中,sigmoid()表示激活函数(S型生长曲线),
Figure BDA0003509079370000162
表示对zi进行转置操作。上述使用的sigmoid激活函数仅为举例说明,在实际应用中,也可以是其他激活函数,在此不进行限定。
公式六:
Figure BDA0003509079370000163
通过上述公式五以及公式六可以知晓,得到的
Figure BDA0003509079370000164
如公式七所示,其中,Z即为隐层特征表达,σ()与上述sigmoid()相同,均为激活函数。
公式七:
Figure BDA0003509079370000165
在本申请实施例中,待训练解码器遵循对小波基的逆变换理论对预测结构数据进行重构,得到解码结构特征表示和解码节点特征表示。其中,上述通过小波逆变换来完成结构重建的过程也可以推广至其他部分高频基函数,比如高通滤波函数,未带有母函数的任意小波基等。
在解码过程中,需要对小波变换过程中的尺度进行离散化,在一个示例中,定义核函数g的逆变换表达为g-1,并对应求取a=1下的逆函数
Figure BDA0003509079370000166
a=2下的逆函数
Figure BDA0003509079370000167
a=3下的逆函数
Figure BDA0003509079370000168
其中,上述a为小波基函数中的尺度。然后对三个逆函数做三阶泰勒展开,得到逆表示系数。其中,上述尺度的划分(即,a=1,2,3)为举例说明,在实际应用中,也可以以不同的方式进行尺度划分,在此不进行限定。通过上述逆表示系数对隐层特征表达进行卷积,得到解码结构特征表示和解码节点特征表示。
步骤702,基于解码结构特征表示和解码节点特征表示,生成预测结构数据。
示意性的,得到解码结构特征表示后即可知晓预测结构数据中节点之间的连接关系,得到解码节点特征表示之后即可知晓预测结构数据中的节点,根据节点以及节点之间的连接关系即可得到对应图结构的预测结构数据。该预测结构数据用于作为训练的输出结果参与至训练模型的训练过程中。
步骤7031,响应于样本结构数据和预测结构数据之间的训练损失值与目标损失阈值匹配失败,对训练模型的模型参数进行迭代训练。
示意性的,基于样本结构数据和预测结构数据之间的差异情况,得到训练损失值。在本申请实施例中,训练过程中根据生成的预测结构数据和原始输入的样本结构数据之间的距离度量以及节点分布和高斯分布之间的散度共同确定训练损失值,即,获取样本结构数据和预测结构数据在特征空间中的距离度量数据,获取预测结构数据对应的节点分布和目标数据分布之间的散度数据,节点分布用于指示预测结构数据在特征空间中节点特征向量的分布情况,基于距离度量数据和散度数据得到训练损失值。其中,训练损失值是通过目标损失函数计算得到的,可选地,该目标损失函数可以是平均绝对误差损失函数、负对数似然损失、指数损失、交叉熵损失函数及其变体等损失函数。
可选地,上述距离度量数据可以是样本结构数据和预测结构数据在特征空间中的欧式距离、汉明距离、余弦相似度、曼哈顿距离、切比雪夫距离等,在此不进行限定。
在一个示例中,确定训练损失值的目标损失函数如公式八所示,其中,Rq(Z|X,A)[logp(A|X)]为结构特征和节点特征之间的交叉熵损失函数,p(Z)如公式九所示,KL()为相对熵(Kullback-Leibler)散度函数。
公式八:L=Rq(Z|X,A)[logp(A|X)]-KL[q(Z|A)‖p(Z)]
公式九:p(Z)=∏iN(0,I)
示意性的,当计算得到的训练损失值与预设的目标损失阈值匹配失败,通过调整训练模型中的模型参数以对整体模型进行训练,从而使得待训练解码器随模型的收敛而收敛。其中,上述训练模型的参数包括编码器对应的模型参数以及解码器对应的模型参数。
步骤7032,响应于样本结构数据和预测结构数据之间的训练损失值达到目标损失阈值,得到目标模型。
当通过目标损失函数得到的训练损失值达到目标损失阈值时,确定整体的训练模型训练完成,即得到目标模型,其中,该目标模型中的解码器部分即对应为目标解码器。在一个示例中,由于在训练过程中需求输出的预测结构数据与输入的样本结构数据需要尽量地相近,故,响应于样本结构数据和预测结构数据之间的训练损失值小于目标损失值,确定训练模型训练完毕,得到目标模型。
可选地,训练得到的目标模型可以存储于服务器中,由终端通过生成请求进行调用,即,终端向服务器发送生成请求,服务器通过调用目标模型进行结构数据的生成,并将生成的结构数据返回至终端。或者,训练得到的目标模型也可以由服务器发送至终端,由终端使用该目标模型进行结构数据的生成。
可选地,在应用过程中,可以通过完整的目标模型进行结构数据的生成,示意性的,将候选结构数据输入至目标模型,由目标模型通过编码得到隐层特征表达,再通过解码进行结构重建,从而得到与候选结构数据具有结构相似关系的目标结构数据,该方法可以应用于需要生成与指定结构具有较强相似性的结构数据的场景中。或者,在应用过程中,也可以仅通过目标模型中的目标解码器来进行结构数据的生成,即,通过对目标数据分布的候选数据进行采样,得到采样数据,将采样数据作为目标解码器的输入,由目标解码器根据采样数据进行结构重建,得到对应的目标结构数据,该方法可以应用于需要生成未知性质的结构数据的应用场景,既能够保证生成结构的合理性,又能够提升生成结构的多样性。
综上所述,本申请实施例提供的解码器的训练方法,通过解码器对获取到的隐层特征表达进行结构重建,得到对应的预测结构数据,通过预测结构数据与样本结构数据之间的差距对整体训练模型进行训练,从而实现对解码器的训练过程。其中,解码器遵循小波变换的逆变换过程,复原了在隐藏层中被压缩和削减的高频特性,从而实现重建高频信号以及去噪的作用,由此解决了在采用GCN进行滤波后,若直接使用GCN进行重构而导致的数据被二次平滑,存在精度累积效应(最终精度和模型预测精度的N次方成正比),即,预测精度在编码过程中降低后在解码过程中进一步降低,从而产生生成的结构数据多样性较低、生成率较低的问题,提升了解码器在应用过程中重构结果的精度。
示意性的,将上述解码器的训练方法应用于化学分子的生成场景中,在通过原子类别的重建来得到新的化学分子时,复原了隐藏层中被压缩和削减的高频特性,相较于直接通过GCN来完成重建过程的方法,本申请提供的方法对应的重建均方根误差(Root MeanSquared Error,RMSE)可以降低约10%,原子类别和图结构的预测共同保证了重建精度,即,生成新的化学分子的性质稳定性能够得到极大提升,从而保证生成新的化学分子的有效性。
请参考图8,其示出了本申请一个实施例示结构数据的生成方法,对训练得到的目标模型的应用进行示意性说明,在本申请实施例中,通过训练得到的目标模型完成结构数据的生成,该方法包括:
步骤801,获取候选结构数据的候选结构特征表示和候选节点特征表示。
示意性的,上述候选结构数据为待进行相似结构数据生成的数据,该候选结构数据为数据结构为图结构的数据,即,候选结构数据是由至少两个节点以及至少一条边组成的数据。可选地,上述图结构可以是无向图、有向图、无向完全图、有向完全图等任意一种图结构,具体图结构可以根据候选结构数据对应的数据信息进行确定。
在一个示例中,以目标模型用于生成化学分子为例,上述候选结构数据与候选化学分子对应,其中,分子中的原子即为图中节点,原子间的化学键即为图中的边。示意性的,根据候选化学分子的化学结构生成对应的候选分子图,该候选分子图即作为候选结构数据,根据候选分子图即可得到候选结构特征表示和候选节点特征表示,其中,候选结构特征表示为记录候选化学分子中原子之间连接情况的邻接矩阵,候选节点特征表示为记录组成候选化学分子中各个原子的原子类型的矩阵。
步骤802,基于候选结构特征表示和候选节点特征表示,生成候选隐层特征表达。
示意性的,通过目标模型中的目标编码器对候选结构特征表示和候选节点特征表示进行编码,得到中间编码数据,通过中间编码数据进行聚合得到候选隐层特征表达。在本申请实施例中,该中间编码数据是通过目标编码器编码得到的特征进行中间计算得到的数据,即,通过中间计算得到的数据为均值和方差。
基于候选结构特征表示和候选节点特征表示获取候选结构数据的节点在至少两个频带上分别对应的特征空间中的节点特征向量,获取至少两个频带对应的节点特征向量之间的均值数据和方差数据,将均值数据和方差数据确定为中间编码数据。在确定均值数据和方差数据之后,采用重参数技巧计算得到隐层特征表达,具体确定过程如步骤402~403相同,在本实施例中为应用阶段的数据处理过程,在此不进行赘述。
步骤803,将候选隐层特征表达输入至目标解码器中进行预测,得到目标结构数据。
上述目标结构数据与候选结构数据之间存在结构性质相似关系。
示意性的,将候选隐层特征表达输入至目标解码器,由目标解码器根据候选隐层特征表达进行结构重建,即可得到目标结构特征表示以及目标节点特征表示,从而根据目标结构特征表示以及目标节点特征表示得到目标结构数据。具体的,以候选结构数据为候选化学分子对应的候选分子图为例,预测得到的目标结构数据即为目标分子结构,该目标分子结构与输入的候选化学分子之间化学性质相似,当对应应用于智慧医药场景时,目标分子结构和输入的候选化学分子之间即很有可能存在药性相似的情况,从而协助替代药物的研究或者药物优化的研究过程。
综上所述,本申请实施例提供的结构数据的生成方法,通过训练得到的完整的目标模型对输入的候选结构数据进行编码以及重建,从而生成具有结构性质相似关系的新结构数据,其中,目标模型为采用小波编码和解码的模型,从而起到了重建高频信号和去噪的作用,提升了重建得到的结构数据的精度,保证了输入与输出的结构数据之间的结构性质相似性,可以应用于相似结构数据的生成。
请参考图9,其示出了本申请一个实施例示结构数据的生成方法,对训练得到的目标解码器的应用进行示意性说明,在本申请实施例中,通过训练得到的目标解码器完成结构数据的生成,该方法包括:
步骤901,获取目标数据分布的候选数据。
在本申请实施例中,当目标模型训练完成后,将目标模型中的目标解码器分离出来,作为用于生成结构数据的模型进行应用。上述目标数据分布可以是高斯分布,候选数据可以是终端输入的自定义候选数据,也可以是目标模型在训练至收敛之后,结构生成任务对应的结构性质的曲线数据,其中,上述结构生成任务为目标模型对应的任务,即,上述曲线数据为对训练集中的样本结构数据进行学习得到的数据。在一些实施例中,上述候选数据还可以是由输入的候选结构数据进行编码,得到均值数据和方差数据之后生成的候选数据。
步骤902,从候选数据中采样得到目标数量的采样数据。
示意性的,对候选数据进行随机采样,得到目标数量的采样数据,其中,上述目标数量是由终端指示的需要通过目标解码器生成的结构数据的数量。上述采样得到的采样数据用于指示待生成的目标结构数据中节点以及边之间的隐层表达,其中,每个采样数据中对应的节点数量可以是随机生成的,也可以是指定的,目标数量的采样数据之间的节点数量可以是相同的,也可以是不同的。在一个示例中,通过公式十进行采样,得到输入目标解码器的采样数据Z,其中,N(0,I)表示服从正态分布的候选数据。
公式十:P(Z)=N(0,I)
步骤903,将目标数量的采样数据输入至目标解码器,得到目标数量的目标结构数据。
当采样得到的采样数据Z输入至目标解码器后,目标解码器会根据采样数据进行节点预测,并依照节点之间存在边的概率来重构目标结构数据对应的结构特征表示和节点特征表示,通过结构特征表示以及节点特征表示得到目标结构数据。
在一个示例中,以目标解码器用于生成化学分子为例,即,通过目标解码器生成目标结构分子,其中,目标结构分子由至少两个原子节点构成,示意性的,将目标数量的采样数据输入至目标解码器,由目标解码器根据在训练过程中学习到的分子结构中原子节点之间的连接关系和原子类型之间的结合关系,得到目标数量的目标分子结构。即,该目标解码器能够根据采样数据生成满足化学规则的目标分子结构。上述生成的目标数量的分子结构具备一定的有效性,即,在化学规则下其分子结构是有效的,进而协助先导化合物的生成。
综上所述,本申请实施例提供的结构数据的生成方法,从目标数据分布的候选数据中采样得到一定数量的采样数据,通过将采样数据输入至目标解码器中进行结构重建,从而得到具备一定有效性的结构数据,同时提升了生成的结构数据的多样性。
示意性的,将本申请实施例提供的结构数据的生成方法应用于公开数据集ZINC上进行测试,训练得到目标解码器,通过目标解码器进行新化学分子的生成,其中,在新化学分子生成过中,针对正态分布的数据N(0,I)进行104次随机采样,将采样结果输入至训练得到的目标解码器中,得到新生成的104个化学分子,将得到的新化学分子通过开源平台rdkit进行验证,能够确定新化学分子在有效性得到保证的前提下,还具备较高的独特性(Uniqueness)和新颖性(Novelty),其中,有效性达到98.0%,独特性达到99.1%,新颖性达到96.5%,而独特性和新颖性越高,则说明分子生成的多样性越高,从整体上可以看出,生成分子的多样性得到提升,因此能够增大生成空间。
值得注意的是,当本申请以上实施例运用到具体的产品或技术中时,涉及到用户数据(如方法应用于推荐系统中)时,其数据的获取需要获得用户许可或者同意,同时,涉及化合物的研究以及数据使用和处理,均需要遵守相关国家和地区的相关法律法规和标准。
请参考图10,其示出了本申请一个示例性的实施例提供的结构数据的生成装置结构框图,该装置包括如下模块:
获取模块1010,用于获取样本结构数据的结构特征表示和节点特征表示,所述结构特征表示用于指示组成所述样本结构数据的节点之间的连接情况,所述节点特征表示用于指示所述组成所述样本结构数据的节点对应的节点类型;
编码模块1020,用于基于所述结构特征表示和所述节点特征表示,生成隐层特征表达,所述隐层特征表达用于指示在至少两个频带上所述样本结构数据中节点之间的结合情况;
解码模块1030,用于将所述隐层特征表达输入至待训练解码器中进行结构重建,得到预测结构数据,所述预测结构数据用于对所述待训练解码器进行训练,得到目标解码器,所述目标解码器用于对输入的采样数据进行结构重建得到目标结构数据,所述采样数据为对目标数据分布的候选数据进行采样得到的数据。
在一些可选的实施例中,如图11所示,所述编码模块1020,还包括:
编码单元1021,用于基于所述结构特征表示和所述节点特征表示在所述至少两个频带上分别编码得到中间特征数据,所述中间特征数据用于指示所述样本结构数据在对应的频带上节点之间的结合情况;
聚合单元1022,用于基于所述目标数据分布对所述至少两个频带分别对应的所述中间特征数据进行聚合,得到所述隐层特征表达。
在一些可选的实施例中,所述编码单元1021,还用于将所述结构特征表示和所述节点特征表示输入至待训练编码器中,根据所述结构特征表示和所述节点特征表示之间的概率分布情况,输出所述至少两个频带分别对应的所述中间特征数据,所述中间特征数据为由所述待训练编码器编码得到的编码结果。
在一些可选的实施例中,所述至少两个频带包括目标频带;
所述编码单元1021,还用于基于所述结构特征表示和所述节点特征表示获取所述样本结构数据的节点在所述至少两个频带上分别对应的特征空间中的节点特征向量;获取所述至少两个频带对应的所述节点特征向量之间的均值数据和方差数据;将所述均值数据和所述方差数据确定为所述中间特征数据。
在一些可选的实施例中,所述解码模块1030,还包括:
重建单元1031,用于通过所述待训练解码器对所述隐层特征表达通过卷积进行结构重建,获取解码结构特征表示和解码节点特征表示;
生成单元1032,用于基于所述解码结构特征表示和所述解码节点特征表示,生成所述预测结构数据。
在一些可选的实施例中,所述装置还包括:
训练模块1040,用于基于所述样本结构数据和所述预测结构数据之间的差异情况,得到训练损失值;响应于所述训练损失值达到目标损失阈值,确定所述待训练解码器训练完成,得到所述目标解码器;或者,响应于所述训练损失值与所述目标损失阈值匹配失败,对所述待训练解码器对应的模型参数进行迭代训练。
在一些可选的实施例中,所述训练模块1040,还包括:
获取单元1041,用于获取所述样本结构数据和所述预测结构数据在特征空间中的距离度量数据;
所述获取单元1041,还用于获取所述预测结构数据对应的节点分布和所述目标数据分布之间的散度数据,所述节点分布用于指示所述预测结构数据在所述特征空间中节点特征向量的分布情况;
确定单元1042,用于基于所述距离度量数据和所述散度数据得到所述训练损失值。
在一些可选的实施例中,所述获取模块1010,还用于获取候选结构数据的候选结构特征表示和候选节点特征表示;
所述编码模块1020,还用于基于所述候选结构特征表示和所述候选节点特征表示,生成候选隐层特征表达;
所述解码模块1030,还用于将所述候选隐层特征表达输入至所述目标解码器中进行预测,得到所述目标结构数据,所述目标结构数据与所述候选结构数据之间存在结构性质相似关系。
在一些可选的实施例中,所述装置还包括:
采样模块1050,用于获取所述目标数据分布的候选数据;从所述候选数据中采样得到目标数量的采样数据;
所述解码模块1030,还用于将所述目标数量的采样数据输入至所述目标解码器,得到所述目标数量的所述目标结构数据。
在一些可选的实施例中,所述目标解码器用于生成目标分子结构,所述目标分子结构由至少两个原子节点构成;
所述解码模块1030,还用于将所述目标数量的采样数据输入至所述目标解码器,由所述目标解码器根据在训练过程中学习到的分子结构中原子节点之间的连接关系和原子类型之间的结合关系,得到所述目标数量的目标分子结构。
在一些可选的实施例中,当训练得到的所述目标解码器用于分子结构的生成时,所述获取模型1010,还用于获取目标化学分子,所述目标化学分子由至少两个原子组成,所述目标化学分子为满足原子结合标准的已知分子;将所述目标化学分子转化为数据结构为图结构的目标分子图,所述目标分子图的节点用于表示所述目标化学分子中的所述至少两个原子,所述目标分子图中的边用于表示所述目标化学分子中原子之间的化学键;将所述目标分子图对应的邻接矩阵确定为所述结构特征表示;将所述目标分子图对应的节点矩阵确定为所述节点特征表示。
综上所述,本申请实施例提供的结构数据的生成装置,通过样本结构数据对应的结构特征表示以及节点特征表示得到隐层特征表达,然后通过该隐层特征表达对待训练解码器进行迭代训练,训练得到目标解码器,该目标解码器即可通过输入的采样数据生成目标结构数据,即,可以根据需求通过训练得到的目标解码器快速生成多样的结构数据,从而提升结构数据的生成效率以及生成多样性。
需要说明的是:上述实施例提供的结构数据的生成装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的结构数据的生成装置与结构数据的生成方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图12示出了本申请一个示例性实施例提供的服务器的结构示意图。具体来讲包括如下结构。
服务器1200包括中央处理单元(Central Processing Unit,CPU)1201、包括随机存取存储器(Random Access Memory,RAM)1202和只读存储器(Read Only Memory,ROM)1203的系统存储器1204,以及连接系统存储器1204和中央处理单元1201的系统总线1205。服务器1200还包括用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1206。
大容量存储设备1206通过连接到系统总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。大容量存储设备1206及其相关联的计算机可读介质为服务器1200提供非易失性存储。也就是说,大容量存储设备1206可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory,EEPROM)、闪存或其他固态存储器技术,CD-ROM、数字通用光盘(Digital Versatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1204和大容量存储设备1206可以统称为存储器。
根据本申请的各种实施例,服务器1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1200可以通过连接在系统总线1205上的网络接口单元1211连接到网络1212,或者说,也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。
本申请的实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的结构数据的生成方法。可选地,该计算机设备可以是终端,也可以是服务器。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行,以实现上述各方法实施例提供的结构数据的生成方法。
本申请的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的结构数据的生成方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种结构数据的生成方法,其特征在于,所述方法包括:
获取样本结构数据的结构特征表示和节点特征表示,所述结构特征表示用于指示组成所述样本结构数据的节点之间的连接情况,所述节点特征表示用于指示所述组成所述样本结构数据的节点对应的节点类型;
基于所述结构特征表示和所述节点特征表示,生成隐层特征表达,所述隐层特征表达用于指示在至少两个频带上所述样本结构数据中节点之间的结合情况;
将所述隐层特征表达输入至待训练解码器中进行结构重建,得到预测结构数据,所述预测结构数据用于对所述待训练解码器进行训练,得到目标解码器,所述目标解码器用于对输入的采样数据进行结构重建得到目标结构数据,所述采样数据为对目标数据分布的候选数据进行采样得到的数据。
2.根据权利要求1所述的方法,其特征在于,所述基于所述结构特征表示和所述节点特征表示,生成隐层特征表达,包括:
基于所述结构特征表示和所述节点特征表示在所述至少两个频带上分别编码得到中间特征数据,所述中间特征数据用于指示所述样本结构数据在对应的频带上节点之间的结合情况;
基于所述目标数据分布对所述至少两个频带分别对应的所述中间特征数据进行聚合,得到所述隐层特征表达。
3.根据权利要求2所述的方法,其特征在于,所述基于所述结构特征表示和所述节点特征表示在所述至少两个频带上分别编码得到中间特征数据,包括:
将所述结构特征表示和所述节点特征表示输入至待训练编码器中,根据所述结构特征表示和所述节点特征表示之间的概率分布情况,输出所述至少两个频带分别对应的所述中间特征数据,所述中间特征数据为由所述待训练编码器编码得到的编码结果。
4.根据权利要求2所述的方法,其特征在于,所述至少两个频带包括目标频带;
所述基于所述结构特征表示和所述节点特征表示在所述至少两个频带上分别编码得到中间特征数据,包括:
基于所述结构特征表示和所述节点特征表示获取所述样本结构数据的节点在所述至少两个频带上分别对应的特征空间中的节点特征向量;
获取所述至少两个频带对应的所述节点特征向量之间的均值数据和方差数据;
将所述均值数据和所述方差数据确定为所述中间特征数据。
5.根据权利要求1至4任一所述的方法,其特征在于,所述将所述隐层特征表达输入至待训练解码器中进行结构重建,得到预测结构数据,包括:
通过所述待训练解码器对所述隐层特征表达通过卷积进行结构重建,获取解码结构特征表示和解码节点特征表示;
基于所述解码结构特征表示和所述解码节点特征表示,生成所述预测结构数据。
6.根据权利要求1至4任一所述的方法,其特征在于,所述方法还包括:
基于所述样本结构数据和所述预测结构数据之间的差异情况,得到训练损失值;
响应于所述训练损失值达到目标损失阈值,确定所述待训练解码器训练完成,得到所述目标解码器;或者,响应于所述训练损失值与所述目标损失阈值匹配失败,对所述待训练解码器对应的模型参数进行迭代训练。
7.根据权利要求6所述的方法,其特征在于,所述基于所述样本结构数据和所述预测结构数据之间的差异情况,得到训练损失值,包括:
获取所述样本结构数据和所述预测结构数据在特征空间中的距离度量数据;
获取所述预测结构数据对应的节点分布和所述目标数据分布之间的散度数据,所述节点分布用于指示所述预测结构数据在所述特征空间中节点特征向量的分布情况;
基于所述距离度量数据和所述散度数据得到所述训练损失值。
8.根据权利要求1至4任一所述的方法,其特征在于,所述方法还包括:
获取候选结构数据的候选结构特征表示和候选节点特征表示;
基于所述候选结构特征表示和所述候选节点特征表示,生成候选隐层特征表达;
将所述候选隐层特征表达输入至所述目标解码器中进行预测,得到所述目标结构数据,所述目标结构数据与所述候选结构数据之间存在结构性质相似关系。
9.根据权利要求1至4任一所述的方法,其特征在于,所述方法还包括:
获取所述目标数据分布的候选数据;
从所述候选数据中采样得到目标数量的采样数据;
将所述目标数量的采样数据输入至所述目标解码器,得到所述目标数量的所述目标结构数据。
10.根据权利要求9所述的方法,其特征在于,所述目标解码器用于生成目标分子结构,所述目标分子结构由至少两个原子节点构成;
所述将所述目标数量的采样数据输入至所述目标解码器,得到所述目标数量的所述目标结构数据,包括:
将所述目标数量的采样数据输入至所述目标解码器,由所述目标解码器根据在训练过程中学习到的分子结构中原子节点之间的连接关系和原子类型之间的结合关系,得到所述目标数量的目标分子结构。
11.根据权利要求1至4任一所述的方法,其特征在于,当训练得到的所述目标解码器用于分子结构的生成时,所述获取样本结构数据的结构特征表示和节点特征表示之前,还包括:
获取目标化学分子,所述目标化学分子由至少两个原子组成,所述目标化学分子为满足原子结合标准的已知分子;
将所述目标化学分子转化为数据结构为图结构的目标分子图,所述目标分子图的节点用于表示所述目标化学分子中的所述至少两个原子,所述目标分子图中的边用于表示所述目标化学分子中原子之间的化学键;
将所述目标分子图对应的邻接矩阵确定为所述结构特征表示;
将所述目标分子图对应的节点矩阵确定为所述节点特征表示。
12.一种结构数据的生成装置,其特征在于,所述装置包括:
获取模块,用于获取样本结构数据的结构特征表示和节点特征表示,所述结构特征表示用于指示组成所述样本结构数据的节点之间的连接情况,所述节点特征表示用于指示所述组成所述样本结构数据的节点对应的节点类型;
编码模块,用于基于所述结构特征表示和所述节点特征表示,生成隐层特征表达,所述隐层特征表达用于指示在至少两个频带上所述样本结构数据中节点之间的结合情况;
解码模块,用于将所述隐层特征表达输入至待训练解码器中进行结构重建,得到预测结构数据,所述预测结构数据用于对所述待训练解码器进行训练,得到目标解码器,所述目标解码器用于对输入的采样数据进行结构重建得到目标结构数据,所述采样数据为对目标数据分布的候选数据进行采样得到的数据。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至11任一所述的结构数据的生成方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述程序代码由处理器加载并执行以实现如权利要求1至11任一所述的结构数据的生成方法。
15.一种计算机程序产品,其特征在于,包括计算机程序或指令,所述计算机程序或指令被处理器执行时实现如权利要求1至11任一所述的结构数据的生成方法。
CN202210146218.2A 2022-02-17 2022-02-17 结构数据的生成方法、装置、设备、介质及程序产品 Pending CN114510609A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202210146218.2A CN114510609A (zh) 2022-02-17 2022-02-17 结构数据的生成方法、装置、设备、介质及程序产品
PCT/CN2022/136450 WO2023155546A1 (zh) 2022-02-17 2022-12-05 结构数据的生成方法、装置、设备、介质及程序产品
US18/333,140 US20230335229A1 (en) 2022-02-17 2023-06-12 Structured data generation method and apparatus, device, medium, and program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210146218.2A CN114510609A (zh) 2022-02-17 2022-02-17 结构数据的生成方法、装置、设备、介质及程序产品

Publications (1)

Publication Number Publication Date
CN114510609A true CN114510609A (zh) 2022-05-17

Family

ID=81551251

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210146218.2A Pending CN114510609A (zh) 2022-02-17 2022-02-17 结构数据的生成方法、装置、设备、介质及程序产品

Country Status (3)

Country Link
US (1) US20230335229A1 (zh)
CN (1) CN114510609A (zh)
WO (1) WO2023155546A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023155546A1 (zh) * 2022-02-17 2023-08-24 腾讯科技(深圳)有限公司 结构数据的生成方法、装置、设备、介质及程序产品

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263780B (zh) * 2018-10-30 2022-09-02 腾讯科技(深圳)有限公司 实现异构图、分子空间结构性质识别的方法、装置和设备
US11227190B1 (en) * 2021-06-29 2022-01-18 Alipay (Hangzhou) Information Technology Co., Ltd. Graph neural network training methods and systems
CN112819154B (zh) * 2021-01-20 2024-05-28 上海上湖信息技术有限公司 一种应用于图学习领域的预训练模型的生成方法及装置
CN113609337A (zh) * 2021-02-24 2021-11-05 腾讯科技(深圳)有限公司 图神经网络的预训练方法、训练方法、装置、设备及介质
CN114510609A (zh) * 2022-02-17 2022-05-17 腾讯科技(深圳)有限公司 结构数据的生成方法、装置、设备、介质及程序产品

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023155546A1 (zh) * 2022-02-17 2023-08-24 腾讯科技(深圳)有限公司 结构数据的生成方法、装置、设备、介质及程序产品

Also Published As

Publication number Publication date
US20230335229A1 (en) 2023-10-19
WO2023155546A1 (zh) 2023-08-24

Similar Documents

Publication Publication Date Title
Wang et al. Image anomaly detection using normal data only by latent space resampling
CN111782838B (zh) 图像问答方法、装置、计算机设备和介质
JP7119865B2 (ja) 情報処理方法及び装置、並びに情報検出方法及び装置
CN111079532A (zh) 一种基于文本自编码器的视频内容描述方法
CN110659723B (zh) 基于人工智能的数据处理方法、装置、介质及电子设备
CN111382555B (zh) 数据处理方法、介质、装置和计算设备
US11610124B2 (en) Learning compressible features
CN109389151B (zh) 一种基于半监督嵌入表示模型的知识图谱处理方法和装置
CN112084331A (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
CA3069365A1 (en) Generation of point of interest copy
CN110941964B (zh) 双语语料筛选方法、装置及存储介质
CN111651573B (zh) 一种智能客服对话回复生成方法、装置和电子设备
US20220253671A1 (en) Graph neural diffusion
CN113761250A (zh) 模型训练方法、商户分类方法及装置
US20230335229A1 (en) Structured data generation method and apparatus, device, medium, and program product
CN116310667A (zh) 联合对比损失和重建损失的自监督视觉表征学习方法
CN113688207B (zh) 基于网络的结构阅读理解的建模处理方法和装置
CN116975651A (zh) 相似度确定模型处理方法、目标对象搜索方法和装置
CN116595479A (zh) 基于图双重自编码器的社区发现方法、系统、设备及介质
CN115759482A (zh) 一种社交媒体内容传播预测方法和装置
CN113656589B (zh) 对象属性确定方法、装置、计算机设备及存储介质
JP7425755B2 (ja) 変換方法、訓練装置及び推論装置
CN112052680A (zh) 问题生成方法、装置、设备及存储介质
Yang et al. MAC-GAN: A Community Road Generation Model Combining Building Footprints and Pedestrian Trajectories
Sun et al. Lightweight image restoration network for strong noise removal in nuclear radiation scenes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40067080

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination