CN113517030B

CN113517030B - 基于病毒传播网络的基因序列表示学习方法

Info

Publication number: CN113517030B
Application number: CN202110812381.3A
Authority: CN
Inventors: 程光权; 马扬; 刘泽一; 阳方杰; 梁星星; 成清; 刘忠
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2022-09-20
Anticipated expiration: 2041-07-19
Also published as: CN113517030A

Abstract

本发明公开了基于病毒传播网络的基因序列表示学习方法，包括：对病毒基因序列进行编码，并将序列编码输入特定长度的隐藏层以得到降维嵌入；抽取病毒传播网络中与每个节点关联度高的邻居节点集合，从病毒传播网络中获取节点的拓扑信息；采用正向LSTM和反向LSTM分别对节点的图上下文节点信息进行聚合；使用注意力机制对其邻居节点的序列信息聚合，得到目标节点基因序列新的表示；采用图上下文损失作为损失函数，对基因序列表示模型进行模型训练和目标优化。通过在模拟病毒传播网络、真实的某国发生的新冠病毒传播网络和真实的艾滋病毒传播网络上进行的实验，验证了本发明的有效性和高效性。

Description

基于病毒传播网络的基因序列表示学习方法

技术领域

本发明属于生物信息技术领域，尤其涉及基于病毒传播网络的基因序列表示学习方法。

背景技术

基因组数据是目前最流行的生物信息数据类型之一，自人类基因组计划开始，生物基因序列数据开始呈指数级增长。如何将有效的生物信息特征从海量高维的生物序列数据中提取出来，是目前生物信息领域最重要的问题之一。

近年来，基于基因序列的深度学习模型研究激增,采用这种方法的主要原因之一是可以直接从原始数据进行表示学习或特征学习。深度学习可以自动提取特征，省去了大量手工选择特征的工作量。同时，深度学习模型也被证明可以有效识别局部基因序列在特定环境中的作用，并进一步可以用来推断基因的调控规则和表达模式。自编码器，多层感知机(MLP,Multilayer Perceptron)，玻尔兹曼机(RBMs,Restricted Boltzmann Machine)，深度信念网络(DBNs,Deep Belief Nets)，卷积神经网络，递归神经网络，长短记忆网络(LSTM，Long Short Term MemoryNetworks)等深度学习方法与基因组研究的结合促进了对基因组学的深刻理解，并为精密医学、药物设计等多个领域提供帮助。在非专利文献1和2中，DeepTarget和deepMirGene分别使用RNN和LSTM模型使用表达数据进行mRNA目标预测，所提出的方法一个主要优势即不需要手工制作的特征集。与此同时，生成模型也被使用来捕捉基因序列中高阶、隐藏的相关性，在非专利文献3和4中，Way和Greene在癌症基因组RNA序列数据上训练了一个变分自编码模型来捕获生物学相关特征。

然而，在实际应用中，如非专利文献5中指出的，由于基因组序列之间存在着复杂的相互依赖和长期的相互作用，直接从基因组序列中学习特征是非常耗时的，且如非专利文献6中指出的，成功的预测通常在很大程度上依赖于对生物学知识的正确利用。如何在更普遍的无监督环境下构建一个基因序列表示模型，使得模型学习到的基因表示可以更有效地表示基因特征是目前生物信息领域一个主要的研究问题。

参考文献

非专利文献

1.Lee B,Baek J,Park S,et al.deepTarget:end-to-end learning frameworkfor microRNA target prediction using deep recurrent neural networks[C]//Proceedings of the 7th ACM International Conference on Bioinformatics,Computa-tional Biology,and Health Informatics.2016:434-442.

2.Park S,Min S,Choi H,et al.deepMiRGene:Deep neural network basedprecursor microrna prediction[J].arXiv preprint arXiv:1605.00017,2016.

3.Way G P,Greene C S.Extracting a biologically relevant latent spacefrom cancer transcriptomes with variationalautoencoders[J].BioRxiv,2017.

4.Weinstein J N,Collisson E A,Mills G B,et al.The cancer genome atlaspan-cancer analysis project[J].Nature Genetics,2013,45(10):1113-1120.

5.Yue T,Wang H.Deep learning for genomics:A concise overview[J].arXivpreprint arXiv:802.0810,2018.

6.Beer MA,Tavazoie S.Predicting gene expression from sequence[J].Cell,2004,117(2):185-198.

7.Mikolov T,Sutskever I,Chen K,et al.Distributed representations ofwords and phrases and their compositionality[J].arXiv preprint arXiv:1310.4546,2013.

8.Inference of Transmission Tree from a Dated Phylogeny·TransPhylo,v1.0[OL].[2021-03-19]https://xavierdidelot.github.io/TransPhylo/index.html

9.Gehring J,Auli M,Grangier D,et al.A convolutional encoder model forneural machine translation[J].arXiv preprint arXiv:1611.02344,2016.

10.Tharwat A.Principal component analysis-a tutorial[J].InternationalJournal of Applied Pattern Recognition,2016,3(3):197-240.

11.Kipf T N,Welling M.Semi-supervised classification with graphconvolutional networks[J].arXiv preprint arXiv:1609.02907,2016.

12.Wang D,Cui P,ZhuW.Structural deep network embedding[C]//Proceedings of the 22nd ACM SIGKDD international conference on Knowledgediscovery and datamining.2016:1225-1234.

13.Japkowicz N,Shah M.Evaluating learning algorithms:a classificationperspective[M]//Cambridge UniversityPress,2011:193-214.

发明内容

有鉴于此，本发明提出了一种基于病毒传播网络的基因序列表示学习方法，针对病毒传播网络构建了一种基于传播网络的基因序列表示模型(Gene Representationbased on Transmission Network,GRTN)，将病毒的基因序列信息与传播网络的结构信息相结合，进而得到新的基因序列表示。模型首先把输入序列编码至特定长度的隐藏层以得到降维嵌入，根据网络传播的特点使用正向LSTM和反向LSTM分别对节点的图上下文节点信息进行聚合，然后使用注意力机制对其邻居节点的序列信息进行聚合，进而得到目标节点基因序列的新的表示。依据病毒传播网络中邻居节点的基因序列相似性高于非邻居节点这一特点，对基因序列表示模型进行训练和优化。该模型学习到的基因序列表示可以作为基因特征或先验信息用于与基因序列相关的任务。

本发明公开的基于病毒传播网络的基因序列表示学习方法，包括以下步骤：

对病毒基因序列进行编码，并将所述序列编码输入特定长度的隐藏层以得到降维嵌入；

抽取病毒传播网络中与每个节点关联度高的邻居节点集合，从病毒传播网络中获取节点的拓扑信息；

采用正向LSTM和反向LSTM分别对节点的图上下文节点信息进行聚合；

使用注意力机制对节点的邻居节点的序列信息进行聚合，得到目标节点基因序列的新的表示；

采用图上下文损失作为损失函数，并依据病毒传播网络中邻居节点的基因序列相似性高于非邻居节点的特点，对基因序列表示模型进行模型训练和目标优化。

进一步的，所述病毒基因序列编码采用独热编码方式；若病毒传播网络中所有节点的某一位基因值相同，将该位基因从输入数据中舍弃，实现对输入数据的维度嵌入。

进一步的，所述抽取病毒传播网络中与每个节点关联度高的邻居节点集合的步骤包括：

在抽取的子图中，目标节点v以外的节点划分为前向信息节点集合Γ_f(v)和后向信息节点集合Γ_b(v)：

Γ_f(v)＝F(v)∪F(i),i∈F(v),

Γ_b(v)＝S(v)∪S(i),i∈S(v),

其中，F(v)表示节点v的父节点，S(v)表示节点v的子节点；所述前向信息节点是位于病毒传播链中目标节点的祖先节点，即目标节点的父节点及其祖父节点；所述后向信息节点是位于病毒传播链中目标节点的子孙节点，即目标节点的子节点和孙子节点；

选取与目标节点距离小于3的节点，构成目标节点的邻居集合。

进一步的，所述采用正向LSTM和方向LSTM分别对节点的图上下文节点信息进行聚合的步骤表示包括：

对每个节点v，采用LSTM将前向信息聚合，并用LSTM最后的隐藏层输出为前向表示向量

E_f(v)＝LSTM_f(BN(FC_f(x_i))),i∈Γ_f(v)；

在每个分支上，用LSTM最后的隐藏层作为该分支的表示向量，并用所有分支向量的均值作为后向表示向量

通过多层全连接层将输入数据转换得到自身表示向量

E_m(v)＝BN(FC(x_v))，

其中BN表示批标准化操作，FC表示全连接层。

进一步的，所述使用注意力机制对节点的邻居节点的序列信息进行聚合的步骤包括：

采用注意力机制学习节点的前向向量、自身向量和后向向量E_k，k∈{f,m,b}的聚合权重，获得每个节点的信息聚合后的新基因向量E

E＝AGGREGATE(E_f,E_m,E_b),

其中

AGGREGATE(E_f,E_m,E_b)＝α_fE_f+α_mE_m+α_bE_b

α_k,k∈{f,m,b}为注意力权重系数，所述注意力权重系数α_k为：

其中σ为激活函数LeakyRelu，向量E_k对节点自身向量E_m的重要性，k∈{f,m,b}；

通过共享的注意力向量a∈R^2d×1来反映向量E_k对节点自身向量E_m的重要性e_mk，d是所述向量E_k的向量维度，e_mk表示如下：

其中

为拼接操作，a为可学习的注意力参数；

独立重复n_h次注意力机制，并将得到的n_h个表示向量拼接作为最终的新基因表示向量E′：

进一步的，所述图上下文损失函数为：

其中，〈v,i,j>是一个三元组，v∈V是目标节点，i∈C_v是其在图G上的上下文邻居，j∈V是负采样节点，θ是sigmoid激活函数，

表示L2正则化，β为权重参数。

本发明的有益效果：

设计一套在病毒传播网络中发现未采样感染者的任务流程，并通过在模拟的病毒传播网络、真实的某国(地区)发生的新冠病毒传播网络和真实的艾滋病毒传播网络上进行了发现未采样感染者的实验，验证了本发明提出的基因序列表示模型的有效性，并通过与各类基因表示方法的对比实验表明模型的高效性。

附图说明

图1本发明基于传播网络的基因序列表示模型；

图2本发明基于病毒传播网络的基因序列表示学习方法的流程图；

图3本发明使用的未采样感染者示意图；

图4本发明使用的某国(地区)发生的新冠病毒传播网络图；

图5本发明使用的HIV病毒传播网络图；

图6本发明的节点注意力分析图；

图7不同注意力机制下在某国(地区)发生的新冠病毒上表现图。

具体实施方式

下面结合附图对本发明作进一步的说明，但不以任何方式对本发明加以限制，基于本发明教导所作的任何变换或替换，均属于本发明的保护范围。

病毒传播网络是一种复杂网络，该网络可以表示为G＝(V,E,A)，其中V表示网络中节点集合，每个节点表示一个病毒感染者。E表示连边集合，每条边(v_i,v_j)∈E表示节点v_i将疾病传染给v_j，由于疾病传播是有方向的，故该网络为有向图；A表示节点属性集合，在G中，a_i∈A表示节点i的病毒基因序列。

给定一个网络G，基于网络的基因序列表示的核心任务是将网络的特征结合到基因序列中，从而为网络中每一个节点的基因序列学习一个统一的低维度(k维度)的表示向量，从而将网络中每个节点的属性维度由|A|维度映射到k维度(k＜＜|A|)，使其能够捕捉网络中的结构和聚合邻居节点的特征。

本发明使用基于病毒传播网络的基因序列表示模型，如图1所示，该模型包括病毒网络中节点病毒序列信息编码，基于网络传播的结构提取，基于图上下文信息的特征表示和基于注意力的节点信息聚合。

作为病毒传播网络的输入，节点的基因序列首先经过独热编码和维度规约转化为适合模型输入的数据；然后基于网络传播结构对每个节点抽取子图并获得子图中的前向节点信息、后向节点信息和自身表示信息；基于注意力机制，模型将前向表示信息、后向表示信息和节点自身表示信息进行聚合，得到节点的聚合表示；为了能对网络节点的病毒序列信息进行更好的表达，通过设置基于图上下文信息的损失函数，对整个模型经过优化与训练，最终得到节点的表示向量。

如图2所示，本发明使用基于病毒传播网络的基因序列表示方法步骤如下：

S10：病毒基因序列编码

不同病毒的基因序列长度迥异，但目前已知的大多数病毒序列中，存在着大量的无效基因序列，而且在对基因序列进行测序时，往往也会存在部分序列信息缺失。同时，病毒在传播中会不断发生变异，不同网络节点的病毒基因序列都存在一定差异。但同种病毒传播网络中，所有节点的基因序列大部分是相同的。针对病毒传播网络中基因序列的这种特征，本发明采用独热编码(One-Hot编码)，又称为一位有效编码，主要是采用位状态寄存器来对个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。该编码对于不同节点的相同基因片段可以保证其一致性，同时可以有效地表达病毒基因序列的不同。

病毒在特定的传播网络中，存在基因序列相同的片段，本发明通过对这些基因片段的删减，对输入数据维度进行了维度归约：若该网络中所有节点的某一位基因值相同，则将该位基因从输入数据中舍弃。通过本节操作，网络中任一节点v的病毒基因序列g_v在规约后被编码为相同长度的0/1编码序列x_v，作为网络中节点的属性向量。

S20：网络传播结构抽取

网络传播结构抽取旨在抽取病毒传播网络中与每个节点关联度高的邻居节点集合，从而在保证计算效率的同时，使模型从网络中获取节点的拓扑信息。在该抽取的子图中，目标节点v以外的节点可以划分为两类：前向信息节点集合Γ_f(v)；和后向信息节点集合Γ_b(v)：

Γ_f(v)＝F(v)∪F(i),i∈F(v) (1)

Γ_b(v)＝S(v)∪S(i),i∈S(v) (2)

其中F(v)表示节点v的父节点，S(v)表示节点v的子节点。前向信息节点是位于病毒传播链中目标节点的祖先节点，即目标节点的父节点及其祖父节点；后向信息节点是位于病毒传播链中目标节点的子孙节点，即目标节点的子节点和孙子节点。网络中距离超过3的节点对之间的互相作用非常小，在本发明模型中，选取与目标节点距离小于3的节点，构成目标节点的邻居集合。如图1所示，节点子图抽取得到的网络中，中心节点到所有节点的距离均小于3，由于每个节点只有一个感染源，所以前向信息节点集合的规模较小(0至2个)，后向信息节点集合的规模相对更多。通过本步骤的操作，模型中每个节点v的结构信息只和抽取子图中节点Γ_f(v)和Γ_b(v)相关。

S30：基于图上下文的信息表示

基于图上下文的信息表示旨在将每个子图中的信息聚合在一起，子图中的节点称为目标节点的上下文邻居：节点的上文邻居指沿着网络中连边经过一定长度随机游走能到达目标节点的节点集合，节点的下文邻居指从目标节点出发，经过指定长度的随机游走能到达的节点集合。由于节点之间存在传播关系，本发明采用LSTM将传播序列信息聚合在一起，对每个节点v，在计算前向表示向量时，直接采用LSTM将前向信息聚合在一起，并用LSTM最后的隐藏层输出为前向表示向量；在计算后向表示时，在每个分支上，采用和前向表示类似的LSTM模型，用LSTM最后的隐藏层作为该分支的表示向量，并用所有分支向量的均值作为后向表示向量。对于自身向量，通过多层全连接层将输入数据转换为需要的维度。通过充分利用子图中所有节点的信息，可以获得前向表示向量E_f、后向表示向量E_b和自身表示向量E_m三个表示向量：

E_f(v)＝LSTM_f(BN(FC_f(x_i))),i∈Γ_f(v) (3)

E_m(v)＝BN(FC(x_v)) (5)

其中，BN表示批标准化操作，FC表示全连接层，三个表示向量的维度为d_o，x_i是节点i的输入特征，x_j是节点j的驶入特征。通过该操作，模型获得了每个目标节点在网络子图中抽取的结构信息的表示。

S40：基于注意力的节点信息聚合

注意力机制可以为不同节点分配不同权重，训练时依赖于成对的相邻节点，而不依赖具体的网络结构。本发明采用注意力机制学习节点前向、自身和后向向量E_k，k∈{f,m,b}的聚合权重，进而获得每个节点的信息聚合后的新基因表示E。

E＝AGGREGATE(E_f,E_m,E_b) (6)

其中

AGGREGATE(E_f,E_m,E_b)＝α_fE_f+α_mE_m+α_bE_b (7)

α_k,k∈{f,m,b}为注意力权重系数，本发明通过一个共享的注意力向量a∈R^2d×1来反映向量E_k对节点自身向量E_m的重要性

其中

为拼接操作，a为可学习的注意力参数。相应的注意力系数α_k可以表示为：

其中σ为激活函数LeakyRelu。

为了减少数据的方差，提升表示结果的稳定性，将该模式推广到多头注意力形式：注意力机制被独立地重复n_h次(每个头的参数初始化不同)，并将得到的n_h个表示向量拼接作为最终向量，即新基因表示E′：

S50：目标优化与模型训练

为了客观衡量病毒传播网络的基因序列表示的效果，本发明采用图上下文损失作为损失函数。图上下文损失可以看作交叉熵的一种变形：对每个节点，网络中的所有其他节点，根据距离该节点的距离被划分为正邻居节点和负邻居节点，因此其核心是使目标节点的向量表示与采样正邻居的相似性更高，并与采样负邻居的差异性更大，基于此的优化目标被定义为以下形式：

其中C_v表示从节点v开始的随机游走能到达的节点集合，p(v_c|v；Θ)被定义为softmax形式的概率：

通过公式(12)，通过表示向量内积大小衡量节点对的相似性，通过非专利文献7中的负采样技术，将公式(12)中softmax函数进行对数近似为

其中S表示负采样数目，P(v_c)表示负采样的概率分布，在本模型中，S＝1从而将目标函数简约为交叉熵的形式

从而将损失函数转化定义为

表示L2正则化，β为权重参数。具体而言，首先在每个节点进行重启概率为p_r长度为L_w的随机游走，得到的节点集合即为节点在图中的上下文邻居集合C_v；然后，从图G中随机采样一个负采样节点

为提高计算效率，在每一代训练时，可以按比例选取一定的节点进行采样，从而降低采样和训练节点的数量。

算法1.基因序列表示算法.

输入：病毒传播网络G＝(V,E,A)，节点基因序列g

输出：网络中每个节点的基因表示E.

①通过病毒基因序列编码将g转化为x；

②for each v in V：

③分别表示按照公式(1)(2)抽取节点v的前向信息节点集合Γ_f(v)和后向信息节点集合Γ_b(v)；

④分别按照公式(3)(4)(5)计算前向表示E_f、后向表示E_b和自身表示E_m三个表示向量；

⑤按照公式(8)计算每个节点的注意力系数α_k,k∈{f,m,b}，并获得每个节点聚合后的新基因表示E；

⑥采样节点的上下文、非上下文邻居形成三元组<v,i,j>

⑦end for

⑧根据公式(14)进行模型训练和优化；

⑨循环步骤②-⑧直至到达结束条件。

为验证本发明的基于病毒传播网络的基因序列表示学习方法，本发明设计一种病毒传播网络中发现未采样感染者的实验流程，并通过在仿真病毒传播网络、真实的新冠病毒传播网络和艾滋病毒传播网络上发现未采样感染者来验证模型的有效性，并对实验结果进行分析。

未采样感染者发现流程

实际情况下，受限于医疗水平、检测条件、疾病症状的不同，检测到的病毒传播网络往往通常会存在缺失节点(未采样感染者)，其网络规模小于实际的传播网络。如图3所示，图中由于未采样节点存在，虚线连边为实际收集到的连边，虚线内节点为未采样感染者，由于这些病患节点在实际网络构建时未被发现，因此网络的实际连边关系存在异常，原本不应有传播关系的父节点和子节点被认为存在直接传播关系(存在连边)，如右图虚线所示。

基于本发明基因序列表示模型，我们设计如下未采样感染者发现流程：

1)通过基于病毒传播网络的基因表示模型，获取网络中每个节点的新基因表示E；

2)将发现传播网络中未采样节点任务转化为连边得分排序任务，即通过计算两节点的表示的相似度，评价这条连边的稳固性。对节点对i，j，其连边相似度为

sim_ij＝E_i·E_j (15)

在所有存在连边的排序中，得分最低的k条连边所对应的节点对被认为是存在未采样感染者的节点组合，进而在实际的医学调查诊断相应环节进行排查。

数据描述

本发明采用仿真和真实的病毒传播网络数据集进行实验。

仿真数据集是根据病毒传播和变异的规律，生成传播网络和网络中每个节点的基因序列，其中，每次仿真基因序列的变异是基于其父节点的基因序列，该网络的生成规则为：

①给定病毒基因序列长度L，每位基因取值数量为n，假定每位基因的变异是互相独立的，病毒基因在每一次传播时序列发生变异的概率为p；

②给定病毒传播能力值R，每一代传播人数在以R为中心服从泊松分布(为计算方便，模拟生成网络中传染人数在0-6之间对称分布)。假定网络中所有节点起始于“零号病人”，即有一个同一父节点，则根据R值，零号病人生成子节点，每个子节点的基因序列的变异是独立的；

③重复步骤②，直至传播网络节点数达到给定网络规模N。

基于上述规则，本发明生成病毒传播仿真网络，相关参数如表1所示。

表1仿真网络参数设置

Parameter	Value
		L	20000
n	4
		p	0.5％
R	3
		N	30000

真实数据集包括某国(地区)发生的新冠病毒数据集和HIV数据集。某国(地区)发生的新冠病毒数据集是某国(地区)部分新型冠状病毒患者地基因序列，病人信息已经匿名化处理，该数据集基因序列数据和标准参考序列比对出现多处缺失，序列质量不高。我们使用非专利文献8中的TransPhylo对该基因序列集进行分析，TransPhylo是一个可以通过基因数据构建病毒传播网络的工具。分析得到病毒传播网络见图4，该网络中共有1032个节点，且约有10％的未采样节点。网络的每个节点代表一名新冠病毒患者，节点的有向连边表示新冠病毒传播关系，每个节点的属性为其感染的新冠病毒的基因序列，基因长度为29915。基因的每个位置的取值范围为{A，T，C，G，-}，其中-表示该位基因缺失。如图4所示，其中节点颜色越深，表示该节点距离零号病人距离越近。

HIV数据集是加拿大阿尔伯塔省南部部分HIV患者的病毒序列信息，并且包含经TransPhylo分析且经医院验证的病毒传播网络信息。该网络节点数量是140，病毒基因序列长度是1522，该网络中未采样节点数约为41，即该传播网络包含较多未采样节点，网络见图5。病毒传播信息采集中，往往无法获取0号病人的信息，该HIV数据集中同样缺失0号病人基因序列信息。本发明参考LaurenMak等人研究推断与0号病人传播关系最接近的病毒序列，随机改变约30％的序列信息后作为0号病人的病毒序列。

验证集数据生成

为了验证基因表示模型的有效性，我们会在仿真和真实传播网络中删除一些节点，这些删除的节点即未采样感染者，然后生成一个存在缺失节点的传播网络，存在缺失节点的连边将作为验证集，然后使用模型在该网络上进行缺失节点预测。通过模型预测的结果和验证集的比较，进而计算模型在缺失节点还原结果的准确度。其中缺失网络的生成规则为：

①生成指定数目缺失节点，检查缺失节点合理性：若生成节点处于网络两端(没有父节点或没有子节点)，移除该节点；

②将缺失节点的父节点与子节点连接，生成新的连边；

③重复步骤①-②，直至缺失节点数目达到给定值。

参数设置

对于基因编码序列属性，模型形式采用独热编码；模型训练代数为1000，初始学习速率lr＝0.01，每进行100代训练，将学习率减半。表示向量维度为d_o＝128，隐藏层维度为d_h＝1024，L2正则化参数β＝0.001，注意力头数n_h＝4，随机数种子为1，随机游走长度L_w＝10，随机游走重启概率p_r＝20％。

对比算法

为了验证GRGC模型对基因序列表示的高效性，本发明采用以下算法作为基准对比算法。本发明采用了不对基因序列降维处理直接用于计算的Direct方法，和可以对高维基因序列进行降维及特征提取的PCA和Auto Encoder方法。此外，由于本发明的方法是基于病毒传播网络构建的，因此也选用了GCN和SDNE两种网络表示方法作为对比。

Direct：直接使用基因序列进行计算，每个节点的基因序列编码后，不对其进行压缩和特征提取，直接将其用于发现缺失节点任务。

AE：Auto Encoder，非专利文献9中的自编码器，由编码器和解码器两部分组成，其中编码器能将输入属性压缩成潜在的空间表征，解码器能从潜在空间表征重构数据的输入。自编码器常被用于降维或特征学习，本发明首先使用AE模型对基因序列进行训练，然后使用训练好的AE模型的中间层即降维后的序列表示，作为发现缺失节点任务的输入。

PCA：Principal Component Analysis，即非专利文献10中的主成分分析方法，是一种使用最广泛的数据降维算法。PCA的主要思想是通过正交变化将可能存在相关性的N维特征数据映射到线性不相关的k维上，在原有N维特征的基础上重新构造出来的k维特征，进而实现对原始数据的高效和精确的表示，转换后k维特征则被称为主成分。本发明使用基因序列的主成分作为发现缺失节点任务的输入。

GCN：Graph Convolutional Neural network，非专利文献11中的图卷积神经网络方法，通过低通滤波器产生节点嵌入，将每个节点的信息传递到图中的邻居节点上去，通过卷积运算使得图能够逐层传递信息。本发明构建了一个两层GCN模型(隐藏层维度为256，输出层维度为128)，并用上下文损失函数训练一个无监督GCN模型，通过输出层的基因表示，计算节点对相似度并发现缺失节点。

SDNE：Structural Deep Network Embedding，非专利文献12中的结构网络嵌入方法，使用深层神经网络对节点表示间的非线性进行建模，整个模型可以被分为两个部分：一个是由Laplace矩阵监督的建模第一级相似度的模块，另一个是由无监督的深层自编码器对第二级相似度关系进行建模。本发明采用三层神经网络结构(两层隐藏层维度分别为500和300，输出层维度为128)。

评价指标

对所有对比算法和本发明方法，本发明通过AUC、RS和k-RS三个指标评价其效果。

AUC：Area Under Curve，链路预测中常用非专利文献13中的AUC指标来衡量算法的效果：每次随机的从验证集中选取一条存在的边和一条不存在的边并比较这两条边的指标值，如果存在的边的分值大于不存在的边的分值，则记为1分；如果两个边的分数值相等，则记为0.5分；若存在边的分值小于不存在边的分值，则记为0分。独立重复的比较N次，如果有n'次验证集中的边的分数值大于不存在的边，有n”次验证集中边分数值等于不存在边的分数，则AUC指标计算结果为

AUC的指标值越接近1，说明获得的表示向量在连边预测上的能力越强。

RS：Ranking Score，即排序分，考虑了验证集中的边在模型预测结果中排序的位置。令H＝U-E^T为未知边的集合(相当于验证集中的边和不存在的边的集合)，r_e表示e∈E^P在排序中的排名。那么这条验证边的排序分为：

该数据集上的总的排序分为

根据目标，本发明希望存在未采样感染者的连边对的排名更靠后，因此，RS指标越大，表明该表示向量在预测任务中表现越好。

k-RS：统计RS得分前k条边中验证集边所占的比例。如果模型预测结果中有m条边在验证集中，k-RS定义为

k-RS指标侧重于评价验证集中特征最明显的那部分边，在实际应用时，我们只会关心排名特征最明显的部分(排名最靠前的部分)，从而在准确率和覆盖率中进行权衡，k-RS指标不再关注本身特征就不明显的边，从而更好地反应和评价算法在真实使用时的效用。

实验结果分析

本发明分别在仿真病毒传播网络和某国(地区)发生的新冠病毒传播网络、HIV病毒传播网络进行实验。为了使实验更符合真实场景，即现实中获取的病毒传播网络往往存在未采样感染者，因此我们首先在仿真或者真实数据集的基础上生成存在一定节点缺失的网络，然后在该存在缺失节点的网络上训练基因表示模型。

在仿真数据实验中，我们首先将模型在生成的病毒传播网络上进行训练，然后使用节点缺失比例为10％和20％的传播网络对模型进行测试。节点缺失网络按照3.3步骤生成，即选取未采样节点并将其在数据集中删除。然后通过分析模型成功找出缺失节点的正确率来评价算法的表现。在某国(地区)发生的新冠病毒数据上，测试网络的缺失节点比例分别为10％和20％。在HIV传播网络实验中，由于病毒传播网络规模较小，10％的节点缺失总数是14，较小的验证集会导致测试结果波动较大，因此在HIV实验中我们使用全网络进行模型训练，在30％节点缺失的网络上进行测试。

本发明实验提到的k-RS指标中，百分数值表示排名靠前相应比例的连边数(25％表示RS得分排名前25％的连边)，Top 20表示最可能包含缺失节点的20条连边。表中实验结果均是10次生成缺失节点实验的平均值，分值越高代表算法预测存在缺失节点的正确率越高。

从表2和表3可以看出，在仿真数据中，采用Direct方法的基因表示在进行缺失节点发现任务中的表现最好，这是因为仿真数据的基因序列生成及变异是严格按照规则生成，因此仿真基因序列中无效序列较少，对基因序列进行降维特征提取反而丢失了重要的特征。但由实验结果可见，GRTN方法在仿真数据集上的表现依然优于Direct以外的对比算法。

表2仿真数据中各指标表现(缺失10％节点)

表3仿真数据中各指标表现(缺失20％节点)

为探究本发明方法在实际应用中的价值，我们也在真实新冠病毒网络中进行了实验。分析表4和表5可得，在真实的新冠病毒病毒基因序列数据集中，采用Direct进行基因表示的实验结果要远低于本发明提出的GRTN方法。而GRTN方法通过聚合节点本身的基因序列信息和传播网络的特征信息，在多数验证指标上取得了最优的成绩，在Top-5和RS等指标上结果略差于GCN方法，但其综合表现在所有方法中最好。

为探究本发明模型的适用性，我们选取HIV病毒传播网络进行试验。因为HIV病毒基因网络节点数目相对较少，只关注排名靠前的节点的指标时(比如k-RS指标的前3％)，实验结果波动极大，由表6中结果可得，虽然HIV的病毒序列特征与COVID-19病毒的极为不同，即HIV的序列长度要远远小于COVID-19，且该网络本身即包含大量缺失节点，但从实验结果可以看出，基于病毒传播网络的基因表示模型(GRTN)在处理缺失节点发现的任务上，表现要远远好于其它对比算法。

表4某国(地区)发生的新冠病毒中各指标表现(缺失10％节点)

表5某国(地区)发生的新冠病毒中各指标表现(缺失20％节点)

表6HIV数据集中各指标表现(缺失30％节点)

模型分析

上述实验验证了GRTN模型的有效性，下面从表示聚合分模块能力和注意力使用等多个方面分析模型的表现效果。

表示聚合分析

在GRTN模型中，节点的基因表示由E_f、E_b和E_m经过注意力聚合得到，本发明用GRTN-f表示去掉目标节点上文节点信息聚合的模型，GRTN-b表示去掉下文节点信息聚合的模型，用GRTN-cut表示对输入基因序列不进行维度约减的操作。综合上述多个角度，对算法进行消融实验。

表7某国(地区)发生的新冠病毒中各模块消融实验(20％节点缺失)

从表7结果可知，本发明模型通过结合前向、后向和自身的表示信息表现效果最佳，缺失前向表示的信息对模型的效果影响更大，后向节点表示信息对模型表现也有较大影响，单纯使用节点自身表示的退化模型，效果较差。不对输入数据维度进行约减时，模型效果有明显的下降，这说明模型对基因序列降维后进行了有效特征提取，相比不降维的全序列数据，可以去掉基因序列数据中无用的干扰信息。而对比同样是对数据进行降维提取特征的PCA和AE，说明基于传播网络上下文的基因表示模型效果更优。

注意力权重分析

在某国(地区)发生的新冠病毒中，本发明提取节点的E_f、E_b和E_m向量的注意力权重，统计见表8。对于处于网络不同位置、属性信息不同的节点，其注意力系数有明显差异。从整体影响力来说，前向注意力的系数权重比较高，这和上述前向节点影响大的结论一致。图6展示了网络中节点7和节点621的局部结构，以节点7为例，该节点处于网络中的末端位置，没有后向节点，其属性结果很大程度上和其父节点相关，故α_f高，虽然模型给出了α_b的系数，但是该节点的E_b为0；节点621同时存在子节点和父节点，注意力系数和三者皆有关系。

表8前向、后向和自身注意力系数

Index	α<sub>m</sub>	α<sub>f</sub>	α<sub>b</sub>
				Average	0.2757	0.3852	0.3390
Max	0.3636	0.6281	0.4774
				Min	0.0132	0.2922	0.2130
Median	0.2842	0.3765	0.3373
				Node 7	0.0144	0.5621	0.4235
Node 621	0.3636	0.3434	0.2931

多头注意力分析

为了探讨不同注意力机制使用对模型效果的影响，列出采用不同注意力机制的模型在某国(地区)发生的新冠病毒中的表现结果(20％节点缺失)，见图7。本发明使用的不同注意力机制有：

average-4：采用4头注意力机制，每个注意力的表示维度为128，将4个注意力的表示向量输出在每个维度上取平均值。

concat-2：采用2头注意力机制，每个注意力的表示维度为128，将2个注意力的表示向量输出拼接在一起。

concat-4：采用4头注意力机制，每个注意力的表示维度为128，将4个注意力的表示向量输出拼接在一起。

single：单头注意力表示，输出的表示向量维度为128。

从图6分析可知，采用单头注意力的模型，表示结果的随机性较大，采用拼接操作和取均值操作均可以提高模型的效果，其中采用拼接操作的效果更，并且随着拼接的注意力模块的增加，模型表现有一定提高。

本发明的有益效果：

本发明基于病毒传播网络构建了一种新的基因序列表示方法，在对节点病毒序列进行编码后，使用注意力机制对节点及其邻居节点的序列信息进行聚合，进而得到目标节点病毒基因序列的表示。为了验证基因序列表示模型的有效性，本发明设计一套在病毒传播网络中发现未采样感染者的任务流程，可以在实际的医学调查诊断的相应环节进行辅助排查。本发明用网络缺失点发现任务对得到的基因序列表示进行评估，模型在模拟病毒传播网络，真实的某国发生的新冠病毒传播网络和艾滋病毒网络上的实验结果验证了本发明的有效性。

上述实施例为本发明的一种实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。