CN111291190B - 一种编码器的训练方法、信息检测的方法以及相关装置 - Google Patents
一种编码器的训练方法、信息检测的方法以及相关装置 Download PDFInfo
- Publication number
- CN111291190B CN111291190B CN202010207256.5A CN202010207256A CN111291190B CN 111291190 B CN111291190 B CN 111291190B CN 202010207256 A CN202010207256 A CN 202010207256A CN 111291190 B CN111291190 B CN 111291190B
- Authority
- CN
- China
- Prior art keywords
- node
- account
- target
- vectors
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 119
- 238000000034 method Methods 0.000 title claims abstract description 115
- 238000001514 detection method Methods 0.000 title claims abstract description 103
- 239000013598 vector Substances 0.000 claims abstract description 522
- 230000002776 aggregation Effects 0.000 claims abstract description 110
- 238000004220 aggregation Methods 0.000 claims abstract description 110
- 230000008569 process Effects 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 26
- 230000006870 function Effects 0.000 claims description 77
- 230000015654 memory Effects 0.000 claims description 21
- 230000011218 segmentation Effects 0.000 claims description 11
- 230000002159 abnormal effect Effects 0.000 claims description 10
- 238000013473 artificial intelligence Methods 0.000 abstract description 15
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 29
- 238000005516 engineering process Methods 0.000 description 17
- 230000000694 effects Effects 0.000 description 11
- 239000010410 layer Substances 0.000 description 11
- 238000013461 design Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 7
- 241000689227 Cora <basidiomycete fungus> Species 0.000 description 5
- 230000001965 increasing effect Effects 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000001939 inductive effect Effects 0.000 description 3
- 238000006116 polymerization reaction Methods 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 235000002020 sage Nutrition 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 230000005499 meniscus Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002146 bilateral effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010006 flight Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请公开了一种应用于人工智能领域的编码器训练方法,包括:根据第一图数据获取N个节点所对应的特征向量集合;根据特征向量集合,通过样本聚合图自编码器对每个节点所对应的特征向量进行编码处理,得到N个第一编码向量以及N个第二编码向量;根据N个第一编码向量、N个第二编码向量以及N个随机噪声,生成对应的N个隐藏向量;通过解码器对N个隐藏向量进行解码处理,得到第二图数据;根据第一图数据以及第二图数据,采用损失函数对样本聚合图自编码器的第一模型参数进行更新。本申请还公开了一种信息检测的方法以及相关装置。本申请不但能够对未知节点起到泛化作用,而且在训练过程中引入随机噪声,有利于提升网络的性能。
Description
技术领域
本申请涉及人工智能领域,尤其涉及一种编码器的训练方法、信息检测的方法以及相关装置。
背景技术
近年来,在图数据中进行数据挖掘,已成为自然语言处理领域的研究热点之一。和普通数据不同,图中的数据挖掘需要对节点之间的联系进行更复杂的建模,这不仅需要充分考虑节点自身的属性,同时也要考虑节点的各个邻居对节点的影响。
目前,基于图结构的广义人工神经网络,已提出一种图自编码器(graph auto-encoder,GAE),GAE中使用编码器(encoder)来提取节点的特征,再利用自编码器(auto-encoder,AE)的架构来进行无监督学习。
然而,GAE只能学习到已经训练过的节点特征,无法很好地处理未曾见过的节点特征,事实上,对于大量的图数据而言,要学习到每个节点的特征是非常困难的,导致编码器的学习效果较差。
发明内容
本申请实施例提供了一种编码器的训练方法、信息检测的方法以及相关装置,在变分自编码器的架构下,基于样本聚合图自编码器可以对节点进行归纳学习,不但能够对未知节点起到泛化作用,而且在训练过程中引入随机噪声,有利于提升网络的性能,使得编码的效果更好。
有鉴于此,本申请第一方面提供一种编码器的训练方法,包括:
根据第一图数据获取N个节点所对应的特征向量集合,其中,特征向量集合中包括N个特征向量,且每个特征向量对应于图中的一个节点,N为大于或等于2的整数;
根据特征向量集合,通过样本聚合图自编码器对每个节点所对应的特征向量进行编码处理,得到N个第一编码向量以及N个第二编码向量,其中,样本聚合图自编码器为通过图样本聚合网络进行编码的自编码器;
根据N个第一编码向量、N个第二编码向量以及N个随机噪声,生成对应的N个隐藏向量,其中,第一编码向量、第二编码向量、随机噪声与隐藏向量之间具有对应关系;
通过解码器对N个隐藏向量进行解码处理,得到第二图数据;
根据第一图数据以及第二图数据,采用损失函数对样本聚合图自编码器的第一模型参数进行更新。
本申请第二方面提供一种信息检测的方法,包括:
接收客户端发送的信息检测请求,其中,分类请求携带目标节点的标识以及客户端的标识;
根据信息检测请求获取目标节点所对应的特征向量;
基于目标节点所对应的特征向量,通过样本聚合图自编码器获取目标节点所对应的第一编码向量以及目标节点所对应的第二编码向量,其中,样本聚合图自编码器为采用第一方面提供的方法训练得到的;
根据目标节点所对应的第一编码向量、目标节点所对应的第二编码向量以及随机噪声,生成目标节点所对应的隐藏向量;
基于目标节点所对应的隐藏向量,通过分类网络模型获取目标节点的分类概率;
根据目标节点的分类概率确定目标节点的信息检测结果;
根据信息检测请求,向客户端推送目标节点的信息检测结果。
本申请第三方面提供一种编码器训练装置,包括:
获取模块,用于根据第一图数据获取N个节点所对应的特征向量集合,其中,特征向量集合中包括N个特征向量,且每个特征向量对应于图中的一个节点,N为大于或等于2的整数;
编码模块,用于根据特征向量集合,通过样本聚合图自编码器对每个节点所对应的特征向量进行编码处理,得到N个第一编码向量以及N个第二编码向量,其中,样本聚合图自编码器为通过图样本聚合网络进行编码的自编码器;
生成模块,用于根据N个第一编码向量、N个第二编码向量以及N个随机噪声,生成对应的N个隐藏向量,其中,第一编码向量、第二编码向量、随机噪声与隐藏向量之间具有对应关系;
解码模块,用于通过解码器对N个隐藏向量进行解码处理,得到第二图数据;
训练模块,用于根据第一图数据以及第二图数据,采用损失函数对样本聚合图自编码器的第一模型参数进行更新。
在一种可能的设计中,在本申请实施例的第三方面的第一种实现方式中,
获取模块,具体用于根据第一图数据获取N个节点中每个节点所对应的数据;
根据N个节点中每个节点所对应的数据,生成每个节点所对应的特征向量;
根据N个节点中每个节点所对应的特征向量,获取特征向量集合。
在一种可能的设计中,在本申请实施例的第三方面的第二种实现方式中,
编码模块,具体用于针对N个节点中任一节点,获取目标相邻节点集合,其中,目标相邻节点集合包括与任一节点相邻的P个节点,P为大于或等于1的整数;
从目标相邻节点集合中获取第一相邻节点集合,其中,第一相邻节点集合包括与任一节点相邻的Q个第一节点,Q为大于或等于1,且小于或等于P的整数;
获取第一相邻节点集合中每个第一节点所对应的特征向量;
基于每个第一节点所对应的特征向量,采用聚合函数计算得到任一节点的目标编码向量;
对任一节点的目标编码向量进行特征分割处理,得到任一节点的第一编码向量以及第二编码向量。
在一种可能的设计中,在本申请实施例的第三方面的第三种实现方式中,
编码模块,具体用于针对N个节点中任一节点,获取目标相邻节点集合,其中,目标相邻节点集合包括与任一节点相邻的P个节点,P为大于或等于1的整数;
从目标相邻节点集合中获取第一相邻节点集合,其中,第一相邻节点集合包括与任一节点相邻的Q个第一节点,Q为大于或等于1,且小于或等于P的整数;
根据第一相邻节点集合获取第二相邻节点集合,其中,第二相邻节点集合包括与Q个第一节点相邻的R个第二节点,R为大于或等于1的整数;
获取第一相邻节点集合中每个第一节点所对应的特征向量;
获取第二相邻节点集合中每个第二节点所对应的特征向量;
基于每个第二节点所对应的特征向量,采用聚合函数计算得到每个第一节点的待聚合编码向量;
基于每个第一节点所对应的特征向量以及每个第一节点的待聚合编码向量,采用聚合函数计算得到任一节点的目标编码向量;
对任一节点的目标编码向量进行特征分割处理,得到任一节点的第一编码向量以及第二编码向量。
在一种可能的设计中,在本申请实施例的第三方面的第四种实现方式中,
编码模块,具体用于针对N个节点中的任一节点,将目标编码向量平均划分为两组编码向量,其中,每组编码向量包括T个维度的特征,T为大于或等于1的整数;
将两组编码向量中的一组编码向量确定为任一节点的第一编码向量,并将两组编码向量中的另一组编码向量确定为任一节点的第二编码向量。
在一种可能的设计中,在本申请实施例的第三方面的第五种实现方式中,
生成模块,具体用于针对N个节点中任一节点,从标准正态分布中获取随机噪声,其中,每个随机噪声具有T个维度的特征,T为大于或等于1的整数;
从任一节点的第一编码向量中获取第i个维度所对应的第一特征,其中,第一编码向量包括T个维度的特征,i为大于或等于1,且小于或等于T的整数;
从任一节点的第二编码向量中获取第i个维度所对应的第二特征,其中,第二编码向量包括T个维度的特征;
从任一节点的随机噪声中获取第i个维度所对应的噪声值;
根据第i个维度所对应的第一特征、第i个维度所对应的第二特征以及第i个维度所对应的噪声值,生成隐藏向量中第i个维度所对应的第三特征。
在一种可能的设计中,在本申请实施例的第三方面的第六种实现方式中,
训练模块,具体用于根据第一图数据以及第二图数据,采用交叉熵损失函数确定第二模型参数;
将样本聚合图自编码器的第一模型参数更新为第二模型参数;
训练模块,还用于根据第一图数据以及第二图数据,采用损失函数对样本聚合图自编码器的第一模型参数进行更新之后,若满足模型训练条件,则停止对样本聚合图自编码器的模型参数进行更新。
在一种可能的设计中,在本申请实施例的第三方面的第七种实现方式中,
训练模块,具体用于若交叉熵损失函数的结果小于或等于损失阈值,则确定满足模型训练条件,并停止对样本聚合图自编码器的模型参数进行更新;
或者,
若迭代次数达到次数阈值,则确定满足模型训练条件,并停止对样本聚合图自编码器的模型参数进行更新。
本申请第四方面提供一种信息检测装置,包括:
接收模块,用于接收客户端发送的信息检测请求,其中,分类请求携带目标节点的标识以及客户端的标识;
获取模块,用于根据信息检测请求获取目标节点所对应的特征向量;
获取模块,还用于基于目标节点所对应的特征向量,通过样本聚合图自编码器获取目标节点所对应的第一编码向量以及目标节点所对应的第二编码向量,其中,样本聚合图自编码器为采用第一方面提供的方法训练得到的;
生成模块,用于根据目标节点所对应的第一编码向量、目标节点所对应的第二编码向量以及随机噪声,生成目标节点所对应的隐藏向量;
获取模块,还用于基于目标节点所对应的隐藏向量,通过分类网络模型获取目标节点的分类概率;
确定模块,用于根据目标节点的分类概率确定目标节点的信息检测结果;
推送模块,用于根据信息检测请求,向客户端推送目标节点的信息检测结果。
在一种可能的设计中,在本申请实施例的第四方面的第一种实现方式中,
获取模块,具体用于根据信息检测请求获取目标账号所对应的账号信息,其中,账号信息包括账号名、账号建立时间、关联用户数量、信息发布内容以及提示信息至少一项,目标账号与目标节点具有对应关系;
根据目标账号所对应的账号信息生成目标账号所对应的特征向量;
确定模块,具体用于若目标账号的分类概率大于或等于概率阈值,则确定目标账号为异常账号;
若目标账号的分类概率小于概率阈值,则确定目标账号为安全账号。
在一种可能的设计中,在本申请实施例的第四方面的第二种实现方式中,信息检测装置还包括训练模块;
获取模块,还用于基于目标节点所对应的隐藏向量,通过分类网络模型获取目标节点的分类概率之前,获取待训练账号集合,其中,待训练账号集合包括至少一个待训练账号,每个待训练账号对应于一个标签;
获取模块,还用于根据待训练账号集合获取待训练账号信息集合,其中,待训练账号信息集合包括至少一个待训练账号信息,待训练账号信息与待训练账号具有一一对应的关系,待训练账号信息包括账号名、账号建立时间、关联用户数量、信息发布内容以及提示信息至少一项;
生成模块,还用于根据待训练账号信息集合生成每个待训练账号信息所对应的特征向量;
获取模块,还用于基于每个待训练账号信息所对应的特征向量,通过样本聚合图自编码器获取每个待训练账号所对应的第一编码向量以及每个待训练账号所对应的第二编码向量;
生成模块,还用于根据每个待训练账号所对应的第一编码向量、每个待训练账号所对应的第二编码向量以及每个待训练账号所对应的随机噪声,生成每个待训练账号所对应的隐藏向量;
获取模块,还用于基于每个待训练账号所对应的隐藏向量,通过待训练分类网络模型获取每个待训练账号所对应的预测分类概率;
训练模块,用于根据每个待训练账号所对应的预测分类概率以及每个待训练账号所对应的标签,采用损失函数对待训练分类网络模型的模型参数进行更新;
训练模块,还用于当满足模型训练条件时,根据待训练分类网络模型更新后的模型参数,训练得到分类网络模型。
本申请的第五方面提供了一种计算机设备,包括:存储器、收发器、处理器以及总线系统;
其中,存储器用于存储程序;
处理器用于执行存储器中的程序,包括执行上述各方面所述的方法;
总线系统用于连接存储器以及处理器,以使存储器以及处理器进行通信。
本申请的第六方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例中,提供了一种编码器的训练方法,首先根据第一图数据获取N个节点所对应的特征向量集合,然后根据特征向量集合,通过样本聚合图自编码器对每个节点所对应的特征向量进行编码处理,得到N个第一编码向量以及N个第二编码向量,于是根据N个第一编码向量、N个第二编码向量以及N个随机噪声,生成对应的N个隐藏向量,采用解码器对N个隐藏向量进行解码处理,得到第二图数据,最后根据第一图数据以及第二图数据,采用损失函数对样本聚合图自编码器的第一模型参数进行更新。通过上述方式,在变分自编码器的架构下,基于样本聚合图自编码器可以对节点进行归纳学习,不但能够对未知节点起到泛化作用,而且在训练过程中引入随机噪声,有利于提升网络的性能,使得编码的效果更好。
附图说明
图1为本申请实施例中信息检测系统的一个环境示意图;
图2为本申请实施例中信息检测方法的一个流程示意图;
图3为本申请实施例中编码器的训练方法一个实施例示意图;
图4为本申请实施例中样本聚合图自编码器的一个编码框架示意图;
图5为本申请实施例中训练样本聚合图自编码器的一个流程示意图;
图6为本申请实施例中第一图数据的一个图结构示意图;
图7为本申请实施例中基于样本聚合图自编码器进行编码的一个示意图;
图8为本申请实施例中基于样本聚合图自编码器进行编码的另一个示意图;
图9为本申请实施例中基于样本聚合图自编码器生成隐藏向量的一个示意图;
图10为本申请实施例中信息检测的方法一个实施例示意图;
图11为本申请实施例中账号检测流程的一个实施例示意图;
图12为本申请实施例中基于账号检测场景的一个检测界面示意图;
图13为本申请实施例中编码器训练装置的一个实施例示意图;
图14为本申请实施例中信息检测装置的一个实施例示意图;
图15为本申请实施例中服务器的一个结构示意图;
图16为本申请实施例中终端设备的一个结构示意图。
具体实施方式
本申请实施例提供了一种编码器的训练方法、信息检测的方法以及相关装置,在变分自编码器的架构下,基于样本聚合图自编码器可以对节点进行归纳学习,不但能够对未知节点起到泛化作用,而且在训练过程中引入随机噪声,有利于提升网络的性能,使得编码的效果更好。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应理解,本申请提供了基于人工智能(Artificial Intelligence,AI)技术实现的编码器训练方法以及信息检测方法,其中,编码器训练方法以及信息检测方法具体应用于图网络(Graph Network),图网络是一种基于图结构的广义人工神经网络,图结构表示一些节点的集合,这些节点通过一系列边连接。基于图结构的应用非常广,例如,在航线交通中,节点表示机场,边表示两个机场之间的直接航班。又例如,在网络路由中,节点表示服务器,边表示路由数据,此外,还可以应用于社交网络、物流规划以及驾驶导航等场景,利用本申请提供的方法训练得到的图网络能够适用于上述各类场景,例如,在社交网络中,由于大多数现实中可获取的数据都是未标注的,为了充分利用这些数据,即可采用图网络中的无监督学习,在未标注的数据中进行学习并为后续任务提供一个良好的基础。
为了便于理解,本申请提出了一种信息检测的方法,该方法应用于图1所示的信息检测系统,请参阅图1,图1为本申请实施例中信息检测系统的一个架构示意图,如图所示,在服务器侧对样本聚合图自编码器(sample and aggregate graph auto-encoder,SAGEGAE)进行训练,并将训练好的SAGEGAE存储在服务器侧,具体地,将结合图2进行介绍,图2为本申请实施例中信息检测方法的一个流程示意图,在步骤S1中,服务器以图的形式获取各个节点的数据,在步骤S2中,服务器获取每个节点的第一编码向量和第二编码向量,根据每个节点的第一编码向量和第二编码向量,结合随机噪声生成隐藏向量,采用变分自编码器(variational auto-encoder,VAE)框架进行训练,从而训练得到SAGEGAE。
当客户端向服务器发起信息检测请求时,服务器根据该信息检测请求携带的账号标识确定目标账号,具体地,请继续参阅图2,在步骤S3中,服务器将目标账号的账号信息输入至训练好的SAGEGAE,由SAGEGAE输出第一编码向量以及第二编码向量,再结合随机噪声生成目标账号对应的隐藏向量,将目标账号的隐藏向量输入至分类网络模型,由此输出目标账号的分类概率。在步骤S4中,判断目标账号的分类概率是否高于概率阈值,如果高于概率阈值,则表示目标账号可能属于异常账号,如果低于概率阈值,则表示目标账号属于安全账号。为了防止对目标账号进行错误的封禁,在实际应用中,还可以加入人工审核的流程,即如果认为目标账号可能属于异常账号,需要进一步通过由相关人员进行审核。在步骤S5中,如果经过人工审核后确定该目标账号属于异常账号,则对该目标账号进行封禁,可选地,如果目标账号的分类概率远远高出概率阈值,则可以直接对该目标账号进行封禁,无需再进行人工审核。
需要说明的是,客户端部署于终端设备上,其中,终端设备包含但不仅限于平板电脑、笔记本电脑、掌上电脑、手机、语音交互设备及个人电脑(personal computer,PC),此处不做限定。
应理解,本申请提供的技术方案具体涉及到基于人工智能的机器学习(MachineLearning,ML)领域。其中,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的机器学习等技术,具体通过如下实施例进行说明,请参阅图3,本申请实施例中编码器的训练方法一个实施例包括:
101、根据第一图数据获取N个节点所对应的特征向量集合,其中,特征向量集合中包括N个特征向量,且每个特征向量对应于图中的一个节点,N为大于或等于2的整数;
本实施例中,编码器训练装置首先根据第一图数据获取N个节点所对应的特征向量集合,第一图数据为基于图结构得到的数据,图结构中至少包括两个节点以及一条边,即N为大于或等于2的整数。基于此,N个节点所对应的特征向量集合表示为:
需要说明的是,编码器训练装置可以部署于服务器,也可以部署于终端设备,本申请以部署于服务器为例进行说明,然而这不应理解为对本申请的限定。此外,提取特征向量集合的过程可以由SAGEGAE执行,也可以在数据预处理的过程中执行,此处不做限定。
102、根据特征向量集合,通过样本聚合图自编码器对每个节点所对应的特征向量进行编码处理,得到N个第一编码向量以及N个第二编码向量,其中,样本聚合图自编码器为通过图样本聚合网络进行编码的自编码器;
本实施例中,编码器训练装置将每个节点对应的特征向量输入至SAGEGAE,SAGEGAE采用图样本聚合(graph sample and aggregate,GraphSAGE)网络对特征向量进行编码,当N个节点所对应的特征向量均经过编码后得到N个目标编码向量,再基于目标编码向量生成N个第一编码向量以及N个第二编码向量,编码向量又可以称为图嵌入(graphembedding)。可以理解的是,GraphSAGE是一个归纳式框架,首先需要学习一个节点的信息是怎么通过其相邻节点的特征聚合而来的,在学习到这样的聚合函数之后,可以结合已知各个节点的特征和相邻关系,得到一个新节点的表示,从而高效地利用节点的属性信息对新节点生成编码向量。
103、根据N个第一编码向量、N个第二编码向量以及N个随机噪声,生成对应的N个隐藏向量,其中,第一编码向量、第二编码向量、随机噪声与隐藏向量之间具有对应关系;
本实施例中,编码器训练装置在获取到每个节点所对应的第一编码向量和第二编码向量后,从一个标准正态分布中随机取一个值作为随机噪声,再将每个节点的随机噪声、第一编码向量以及第二编码向量进行计算,从而得到每个节点分别对应的隐藏向量。
具体地,假设需要训练一个用于检测违规账号的SAGEGAE,那么所采用的N个节点具体可以是以往查办的N个违规账号,从而学习这类违规账号的共性与特性,同时利用VAE框架可以很好地对相似账号进行查封,尤其是针对同一个用户开设的多个账号。为了便于理解,请参阅图4,图4为本申请实施例中样本聚合图自编码器的一个编码框架示意图,如图所示,由于违规账号的信息难以刻画,因此,可以将两张月亮的图像类比为两个违规账号,假设满月图像对应于违规账号A,弦月图像对应于违规账号B,那么从满月图像到弦月图像期间空缺的部分就可以认为是,从违规账号A到违规账号B之间的相似的账号(比如违规账号A的其他小号以及违规账号B的其他小号等)。对满月图像的编码向量加上随机噪声,对弦月图像的编码向量也加上随机噪声,当调整随机噪声时,可以生成介于满月图像与弦月图像之间的月相图像。类似地,可以对违规账号A的第一编码向量和第二编码向量添加随机噪声,也对违规账号B的第一编码向量和第二编码向量添加随机噪声,当调整随机噪声时,可以生成介于违规账号A与违规账号B之间的相似账号,而这些相似账号原本是不存在的,即生成了新的账号。
需要说明的是,利用如图4所示的VAE框架能够更好地发现这类违规账号,在实际应用中,还可以利用VAE框架学习违规商品之间的特征,或者,好评率较高的影片之间的特征,还可以按照不同需求进行学习,此处不做赘述。
104、通过解码器对N个隐藏向量进行解码处理,得到第二图数据;
本实施例中,编码器训练装置将SAGEGAE输出的N个隐藏向量输入至解码器,由解码器采用如下方式计算得到第二图数据:
R=σ(H′H′T);
其中,R表示第二图数据,H′表示N个隐藏向量,H′T表示对H′的转置,σ()表示Sigmoid函数。
105、根据第一图数据以及第二图数据,采用损失函数对样本聚合图自编码器的第一模型参数进行更新。
本实施例中,编码器训练装置基于第一图数据以及第二图数据,采用损失函数对SAGEGAE当前的第一模型参数进行更新。在训练过程中,利用损失函数计算第一图数据中节点A数据与第二图数据中节点A数据之间的损失值,再使用损失值对SAGEGAE进行回溯,并且更新当前的模型参数。一种可行的训练方式为,当损失值收敛时,可以认为SAGEGAE训练完成。
为了便于介绍,请参阅图5,图5为本申请实施例中训练样本聚合图自编码器的一个流程示意图,如图所示,在步骤A1中,编码器训练装置获取图数据A,从图数据A中提取N个节点所对应的特征向量集合,将特征向量集合输入至SAGEGAE,或者,直接将图数据A输入至SAGEGAE,通过SAGEGAE提取N个节点所对应的特征向量集合。在步骤A2中,通过SAGEGAE对特征向量集合进行编码,从而输出N个目标编码向量,再根据每个目标编码向量生成第一编码向量和第二编码向量。在步骤A3中,对每个节点对应的第一编码向量和第二编码向量进行加扰处理,即对每个节点的第一编码向量和第二编码向量添加随机噪声,从而得到对应的N个隐藏向量。在步骤A4中,将这N个隐藏向量输入至解码器。在步骤A5中,解码器输出图数据B。在步骤A6中,利用损失函数计算图数据A以及图数据B之间的损失值。
本申请实施例中,提供了一种编码器的训练方法,通过上述方式,在变分自编码器的架构下,基于样本聚合图自编码器可以对节点进行归纳学习,不但能够对未知节点起到泛化作用,而且在训练过程中引入随机噪声,有利于提升网络的性能,使得编码的效果更好。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的编码器的训练方法第一个可选实施例中,根据第一图数据获取N个节点所对应的特征向量集合,可以包括:
根据第一图数据获取N个节点中每个节点所对应的数据;
根据N个节点中每个节点所对应的数据,生成每个节点所对应的特征向量;
根据N个节点中每个节点所对应的特征向量,获取特征向量集合。
本实施例中,介绍了一种生成特征向量集合的方式,编码器训练装置先获取第一图数据,其中,图数据是一种基于图结构的数据,图结构是一种数据结构,在图结构中的节点可以具有1个或多个相邻节点,两个节点之间的连接称为边。为了便于理解,下面将结合图6进行介绍,请参阅图6,图6为本申请实施例中第一图数据的一个图结构示意图,如图所示,图中有11个节点,即N为11,节点与节点之间具有连边,以节点1为例,该节点1的相邻节点为节点2、节点3、节点4和节点5。
具体地,以社交网络为例,第一图数据中包括每个节点的账号信息,比如有账号名、账号建立时间、关联用户数量、信息发布内容以及注册人性别等。在提取到节点的账号数据之后,需要对数据进行特征化处理,以注册人性别为例,假设注册人性别为“男”,则注册人性别的特征表示为“1”,假设注册人性别为“女”,则注册人性别的特征表示为“2”。又或者,假设注册人性别为“男”,则注册人性别的特征表示为(1,0),假设注册人性别为“女”,则注册人性别的特征表示为(0,1)。以关联用户数量为例,假设关联用户数量为1至100人的特征表示为“1”,关联用户数量为101至200人的特征表示为“2”,关联用户数量为201至300人的特征表示为“3”,关联用户数量为301至400人的特征表示为“4”,关联用户数量为401至500人的特征表示为“5”,又或者,关联用户数量为1至100人的特征表示为(1,0,0,0,0),关联用户数量为101至200人的特征表示为(0,1,0,0,0),关联用户数量为201至300人的特征表示为(0,0,1,0,0),关联用户数量为301至400人的特征表示为(0,0,0,1,0),关联用户数量为401至500人的特征表示为(0,0,0,0,1)。
其次,本申请实施例中,提供了一种生成特征向量集合的方式,通过上述方式,能够利用图数据生成每个节点对应的特征向量,并且用于后续的SAGEGAE训练,由此提升方案的可行性。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的编码器的训练方法第二个可选实施例中,根据特征向量集合,通过样本聚合图自编码器对每个节点所对应的特征向量进行编码处理,得到N个第一编码向量以及N个第二编码向量,可以包括:
针对N个节点中任一节点,获取目标相邻节点集合,其中,目标相邻节点集合包括与任一节点相邻的P个节点,P为大于或等于1的整数;
从目标相邻节点集合中获取第一相邻节点集合,其中,第一相邻节点集合包括与任一节点相邻的Q个第一节点,Q为大于或等于1,且小于或等于P的整数;
获取第一相邻节点集合中每个第一节点所对应的特征向量;
基于每个第一节点所对应的特征向量,采用聚合函数计算得到任一节点的目标编码向量;
对任一节点的目标编码向量进行特征分割处理,得到任一节点的第一编码向量以及第二编码向量。
本实施例中,介绍了一种基于单层相邻节点对中心节点进行特征聚合的方法,为了便于说明,下面将以N个节点的中的任意一个节点为例进行介绍,需要说明的是,其他节点也以类似的方式生成目标编码向量,此处不做赘述。
具体地,假设对N个节点中的任一节点聚合K层节点的特征,则需要K个聚合函数(aggregator),每一次聚合都是把上一层的各个节点的特征聚合一次,反复聚合K次即可得到最终的目标编码向量。为了便于介绍,请参阅图7,图7为本申请实施例中基于样本聚合图自编码器进行编码的一个示意图,如图7中的(a)图所示,假设K为1,且N个节点中的任一节点为节点1,那么节点1的目标相邻节点集合为节点2、节点3、节点4、节点5和节点6,即P为5。接下来,在第k-1层需要对目标相邻节点集合中的节点进行采样,采样数量可以设置为Q,假设Q为3,那么从目标相邻节点集合中采样出3个第一节点,即节点2、节点4和节点5,此时,节点2、节点4和节点5构成第一相邻节点集合。
请参阅图7中的(b)图,在得到第一相邻节点集合之后,可以获取每个第一节点所对应的特征向量,即分别获取节点2的特征向量、节点4的特征向量和节点5的特征向量,基于上述三个节点的特征向量以及节点1自身的特征向量,采用如下四种聚合函数的任意一种,可以计算得到节点1的目标编码向量。
第一种为平均聚合法,继续以图7为例,先对节点2的特征向量、节点4的特征向量和节点5的特征向量取平均,然后与节点1的特征向量拼接后进行非线性转换。平均聚合法的计算方式如下:
其中,表示在第k层中第一相邻节点集合的特征表示,k为大于或等于1,且小于或等于K的整数,mean()表示求均值计算,表示在第k-1层中节点u的特征向量,N(v)表示第一相邻节点集合,表示在第k层中节点v的目标编码向量,σ()表示非线性激活函数,Wk表示第k层的权重值,CONCAT()表示拼接计算,表示在第k-1层中节点v的特征向量。
第二种为归纳式聚合法,继续以图7为例,直接对节点1的特征向量、节点2的特征向量、节点4的特征向量和节点5的特征向量取平均,然后再进行非线性转换。归纳式聚合法的计算方式如下:
第三种为长短期记忆网络(Long Short-Term Memory,LSTM)法,该方法需要先对第一相邻节点集合中的第一节点随机排序,然后将随机排列后的第一节点的特征向量输入至LSTM中,从而得到对应的目标编码向量。
第四种为池化聚合法,该方法可以使第一相邻节点集合中的各个第一节点共享权重,经过一个非线性全连接层之后进行最大池化操作。池化聚合法的计算方式如下:
在得到任一节点的目标编码向量之后,可以对该目标编码向量进行特征分割处理,得到对应的第一编码向量以及第二编码向量。
其次,本申请实施例中,提供了一种基于单层相邻节点对中心节点进行特征聚合的方法,通过上述方式,能够为节点采样到相邻节点的特征,利用聚合函数将特征聚集到该节点,从而使得邻近的节点拥有更相似的表示,由此增加编码的信息量,有利于提升SAGEGAE的鲁棒性。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的编码器的训练方法第三个可选实施例中,通过样本聚合图自编码器对每个节点所对应的特征向量进行编码处理,得到N个第一编码向量以及N个第二编码向量,可以包括:
针对N个节点中任一节点,获取目标相邻节点集合,其中,目标相邻节点集合包括与任一节点相邻的P个节点,P为大于或等于1的整数;
从目标相邻节点集合中获取第一相邻节点集合,其中,第一相邻节点集合包括与任一节点相邻的Q个第一节点,Q为大于或等于1,且小于或等于P的整数;
根据第一相邻节点集合获取第二相邻节点集合,其中,第二相邻节点集合包括与Q个第一节点相邻的R个第二节点,R为大于或等于1的整数;
获取第一相邻节点集合中每个第一节点所对应的特征向量;
获取第二相邻节点集合中每个第二节点所对应的特征向量;
基于每个第二节点所对应的特征向量,采用聚合函数计算得到每个第一节点的待聚合编码向量;
基于每个第一节点所对应的特征向量以及每个第一节点的待聚合编码向量,采用聚合函数计算得到任一节点的目标编码向量;
对任一节点的目标编码向量进行特征分割处理,得到任一节点的第一编码向量以及第二编码向量。
本实施例中,介绍了一种基于多层相邻节点对中心节点进行特征聚合的方法,为了便于说明,下面将以N个节点的中的任意一个节点为例进行介绍,需要说明的是,其他节点也以类似的方式生成目标编码向量,此处不做赘述。
具体地,为了便于介绍,请参阅图8,图8为本申请实施例中基于样本聚合图自编码器进行编码的另一个示意图,如图所示,如图8中的(a)图所示,假设K为2,N个节点中的任一节点为节点1,那么节点1的目标相邻节点集合为节点2、节点3、节点4、节点5和节点6,即P为5。接下来,在第k-1层需要对目标相邻节点集合中的节点进行采样,采样数量可以设置为Q,假设Q为3,那么从目标相邻节点集合中采样出3个第一节点,即节点2、节点4和节点5,此时,节点2、节点4和节点5构成第一相邻节点集合。然后,在第k-2层对第一相邻节点集合中各个第一节点的相邻节点进行采样,采样数量堪忧设置为R,假设R为5,那么从这些节点中采用出5个第二节点,即节点7、节点8、节点11、节点13和节点14,此时,节点7、节点8、节点11、节点13和节点14构成第二相邻节点集合。
请参阅图8中的(b)图,在得到第一相邻节点集合和第二相邻节点集合之后,可以获取每个第一节点的特征向量以及每个第二节点的特征向量。例如,基于节点7、节点8和节点2,采用聚合函数对节点2进行编码,得到节点2的待聚合编码向量。基于节点14和节点5,采用聚合函数对节点5进行编码,得到节点5的待聚合编码向量。基于节点11、节点13和节点4,采用聚合函数对节点5进行编码,得到节点5的待聚合编码向量。由此得到第k-1层中各个第一节点的待聚合编码向量。基于此,再利用节点2的待聚合编码向量、节点4的待聚合编码向量、节点5的待聚合编码向量以及节点1的特征向量,采用聚合函数对节点1进行编码,从而得到节点1的目标编码向量。
需要说明的是,本实施例中所采用的聚合函数具体为上述实施例中介绍的聚合函数,故此处不做赘述。
其次,本申请实施例中,提供了一种基于多层相邻节点对中心节点进行特征聚合的方法,通过上述方式,不但能够为节点采样到相邻节点的特征,利用聚合函数将特征聚集到该节点,使得邻近的节点拥有更相似的表示,而且通过增加聚合层数能够增量式地从图中获取更远处的信息,由此增加编码的信息量,有利于提升SAGEGAE的鲁棒性。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的编码器的训练方法第四个可选实施例中,对任一节点的目标编码向量进行特征分割处理,得到任一节点的第一编码向量以及第二编码向量,可以包括:
针对N个节点中的任一节点,将目标编码向量平均划分为两组编码向量,其中,每组编码向量包括T个维度的特征,T为大于或等于1的整数;
将两组编码向量中的一组编码向量确定为任一节点的第一编码向量,并将两组编码向量中的另一组编码向量确定为任一节点的第二编码向量。
本实施例中,介绍了一种生成每个节点对应的第一编码向量以及第二编码向量的方法,为了便于说明,下面将以N个节点的中的任意一个节点为例进行介绍,需要说明的是,其他节点也以类似的方式生成第一编码向量和第二编码向量,此处不做赘述。
具体地,假设N个节点所对应的特征向量集合表示为:
基于此,经过编码后得到的N个目标编码向量表示为:
以第v个节点对应的目标编码向量为例,假设FK为200,即表示目标编码向量具有200维的特征,可以将这200为特征平均划分为两组编码向量,第一组编码向量由第1维的特征至第100维的特征组成,即得到第v个节点的第一编码向量。第二组编码向量由第101维的特征至第200维的特征组成,即得到第v个节点的第二编码向量。其中,第一编码向量可以表示为{m1,m2,...,mT},T表示第一编码向量的维度。第一编码向量可以表示为{σ1,σ2,...,σT},T表示第二编码向量的维度。
再次,本申请实施例中,提供了一种生成每个节点对应的第一编码向量以及第二编码向量的方法,通过上述方式,能够按照需求生成相应维度的目标编码向量,再从目标编码向量中拆分出不同的两个编码向量,无需对同一个节点的特征向量进行多次编码,而是利用一次编码后的结果即可生成两个编码结果,由此减少计算资源,从而提升SAGEGAE的训练效率。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的编码器的训练方法第五个可选实施例中,根据N个第一编码向量、N个第二编码向量以及N个随机噪声,生成对应的N个隐藏向量,可以包括:
针对N个节点中任一节点,从标准正态分布中获取随机噪声,其中,每个随机噪声具有T个维度的特征,T为大于或等于1的整数;
从任一节点的第一编码向量中获取第i个维度所对应的第一特征,其中,第一编码向量包括T个维度的特征,i为大于或等于1,且小于或等于T的整数;
从任一节点的第二编码向量中获取第i个维度所对应的第二特征,其中,第二编码向量包括T个维度的特征;
从任一节点的随机噪声中获取第i个维度所对应的噪声值;
根据第i个维度所对应的第一特征、第i个维度所对应的第二特征以及第i个维度所对应的噪声值,生成隐藏向量中第i个维度所对应的第三特征。
本实施例中,介绍了一种生成隐藏向量的方法,为了便于说明,下面将以N个节点的中的任意一个节点为例进行介绍,需要说明的是,其他节点也以类似的方式生成隐藏向量,此处不做赘述。
具体地,请参阅图9,图9为本申请实施例中基于样本聚合图自编码器生成隐藏向量的一个示意图,如图所示,先从第一图数据中获取第v个节点的节点数据A,然后对节点数据A进行特征提取,得到对应的特征向量,将第v个节点的特征向量输入至SAGEGAE,由SAGEGAE对该特征向量进行编码,从而得到第v个节点所对应的目标编码向量于是将目标编码向量进行拆分,假设目标编码向量包括6个维度的特征,于是将目标编码向量中前3个维度的特征提取出来作为第一编码向量{m1,m2,m3},即第一编码向量包括3个维度的特征,T为3。类似地,将目标编码向量中后3个维度的特征提取出来作为第二编码向量{σ1,σ2,σ3},即第二编码向量包括3个维度的特征,T为3。
此外,还需要从标准正态分布中获取具有T维特征的随机噪声,其中,标准正态分布正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,正态分布的概率密度函数表示为:
其中,x表示随机变量,σ表示标准差,σ2表示方差,μ表示数学期望,而标准正态分布是μ=0,σ=1时的正态分布,标准正态分布的概率密度函数表示为:
于是从标准正态分布中获取节点的随机噪声,假设第v个节点的随机噪声为{e1,e2,e3},根据第一编码向量{m1,m2,m3}、第二编码向量{σ1,σ2,σ3}和随机噪声{e1,e2,e3}可以计算得到隐藏向量即采用如下方式计算隐藏向量:
其中,表示第v个节点的隐藏向量中第i个维度所对应的第三特征,mi表示第v个节点的第一编码向量中第i个维度所对应的第一特征,σi表示第v个节点的第二编码向量中第i个维度所对应的第二特征。当获取到N个节点的隐藏向量时,得到N个隐藏向量H′。
再次,本申请实施例中,提供了一种生成节点对应的隐藏向量的方法,通过上述方式,SAGEGAE在训练的过程中加入了随机噪声,生成类似于已有节点的其他节点,从而得到特征的分布情况,而特征的分布相对于单个特征值而言,蕴含了更多的信息,有利于提升SAGEGAE的鲁棒性。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的编码器的训练方法第六个可选实施例中,根据第一图数据以及第二图数据,采用损失函数对样本聚合图自编码器的第一模型参数进行更新,可以包括:
根据第一图数据以及第二图数据,采用交叉熵损失函数确定第二模型参数;
将样本聚合图自编码器的第一模型参数更新为第二模型参数;
根据第一图数据以及第二图数据,采用损失函数对样本聚合图自编码器的第一模型参数进行更新之后,还可以包括:
若满足模型训练条件,则停止对样本聚合图自编码器的模型参数进行更新。
本实施例中,介绍了一种利用交叉熵损失函数对SAGEGAE进行训练的方法,在获取到第一图数据和第二图数据之后,可以通过最小化损失函数来更新SAGEGAE的模型参数,具体地,本申请以采用交叉熵损失函数更新SAGEGAE的模型参数,在得到第二模型参数后,将第一模型参数更新为第二模型参数,以此进行迭代训练,直至满足模型训练条件。
具体地,采用如下交叉熵损失函数:
其次,本申请实施例中,提供了一种利用交叉熵损失函数对SAGEGAE进行训练的方法,通过上述方式,交叉熵损失函数对于SAGEGAE最后一层权重的梯度不再跟激活函数的导数相关,只跟输出值和真实值的差值成正比,因此,收敛速度较快,且由于反向传播是连乘的,从而使得整个权重矩阵的更新都会加快,进而提升SAGEGAE的训练效率。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的编码器的训练方法第七个可选实施例中,若满足模型训练条件,则停止对样本聚合图自编码器的模型参数进行更新,可以包括:
若交叉熵损失函数的结果小于或等于损失阈值,则确定满足模型训练条件,并停止对样本聚合图自编码器的模型参数进行更新;
或者,若迭代次数达到次数阈值,则确定满足模型训练条件,并停止对样本聚合图自编码器的模型参数进行更新。
本实施例中,介绍了两种对SAGEGAE的模型参数进行更新的方法,在SAGEGAE训练过程中,编码器训练装置需要判断是否满足模型训练条件,如果满足该条件,则停止模型训练,并且将最后一次迭代后得到的模型参数作为SAGEGAE的模型参数。如果未满足该条件,则继续进行迭代训练。
第一种模型训练条件为判断交叉熵损失函数的结果是否小于或等于损失阈值,具体地,损失阈值可以设置为0.001、0.005、0.01、0.02或其它趋近于0的数值,假设损失阈值为0.001,则交叉熵损失函数的结果小于或者等于0.0001即满足模型训练条件。可以理解的是,本实施中的示例仅用于理解本方案,损失阈值应当结合实际情况灵活确定。
第二种模型训练条件为判断迭代次数是否达到次数阈值,具体地,次数阈值可以设置10000、50000、100000、200000或其它数值,假设次数阈值为10000,则迭代次数达到10000则满足模型训练条件。可以理解的是,本实施中的示例仅用于理解本方案,次数阈值应当结合实际情况灵活确定。
再次,本申请实施例中,提供了两种对SAGEGAE的模型参数进行更新的方法,通过上述方式,能够根据实际情况选择一种针对SAGEGAE的模型训练条件,从而提升的模型训练的灵活性和可行性。
为了进一步验证本申请提供的技术方案,对本申请提供的SAGEGAE进行了一系列的实验,在实验设置中,采用的数据集包括Cora数据集、CiteSeer数据集和Reddit数据集,其中,Cora数据集和CiteSeer数据集来源于引文网络,即由论文和论文之间的引用关系以及共同作者等构成的网络、Reddit数据集来源于社交网络,具体来源于论坛的帖子,如果两个帖子被同一个人评论,则在构图的时候认为两个帖子是相关联的。请参阅表1,表1为Cora数据集、CiteSeer数据集和Reddit数据集的具体构成情况。
表1
节点数量 | 边数量 | 特征数量 | |
Cora数据集 | 2708 | 10556 | 1433 |
CiteSeer数据集 | 3327 | 9104 | 3703 |
Reddit数据集 | 232965 | 1146158892 | 602 |
基于表1中各数据集的构成,在训练SAGEGAE时,可以使用随机梯度下降(Stochastic Gradient Descent,SGD)优化器,以学习速率为1e-3,L2损失为1e-3,轮次(Epoch)为10的指标进行训练。训练任务是采用连接预测,即使用模型输出的图嵌入(embedding)预测两个节点之间是否存在连接,将曲线下面积(Area Under Curve,AUC)作为评测指标。为了更直观地看出本申请提供的SAGEGAE在实际应用中的效果,在实验过程中引入了4类用于比对的模型,分别为频谱聚类(spectral clustering,SC)模型、深度游走(deep walk,DW)模型、图自编码器(graph auto encoders,GAE)以及变分图自编码器(variational graph auto encoders,VGAE),请参阅表2,表2为各类网络模型在不同数据集上进行验证的一个结果。
表2
模型 | Cora数据集 | CiteSeer数据集 | Reddit数据集 |
SC | 84.6±0.01 | 80.2±0.02 | 84.2±0.02 |
DW | 83.1±0.01 | 80.5±0.02 | 84.4±0.001 |
GAE | 83.91±0.49 | 78.7±0.01 | 82.2±0.02 |
VGAE | 84.28±0.15 | 78.9±0.03 | 82.7±0.02 |
SAGEGAE | 89.28±0.01 | 83.22±0.13 | 94.12±0.01 |
显然,基于表2可以看出本申请提供的SAGEGAE相比于其他类型的模型在各类数据集上都具有较高的性能,尤其对来源于社交网络的Reddit数据集更敏感,推荐效果更佳。
结合上述介绍,下面将对本申请实施例提供的信息检测方法进行介绍,请参阅图10,本申请实施例中信息检测的方法一个实施例包括:
201、接收客户端发送的信息检测请求,其中,分类请求携带目标节点的标识以及客户端的标识;
本实施例中,信息检测装置接收客户端发送的信息检测请求,该信息检测请求携带该客户端的标识以及目标节点的标识,目标节点在不同的场景中具有不同的含义,例如,在账号检测场景中,目标节点表示目标账号。又例如,在文本检测场景中,目标节点表示目标文本。又例如,在商品检测场景中,目标节点表示目标商品。
需要说明的是,信息检测请求可以部署于服务器,也可以部署于终端设备,本申请以信息检测请求部署于服务器为例进行说明,此处不做限定。
202、根据信息检测请求获取目标节点所对应的特征向量;
本实施例中,信息检测装置基于信息检测请求中携带的目标节点的标识确定对应的目标节点,再根据图数据获取目标节点的数据,于是,信息检测请求可以根据目标节点的数据获取对应的特征向量。
可以理解的是,在上述实施例中已经介绍了如何根据数据生成对应的特征向量,故此处不做赘述。此外,提取特征向量的过程可以由SAGEGAE执行,也可以在数据预处理的过程中执行,此处不做限定。
203、基于目标节点所对应的特征向量,通过样本聚合图自编码器获取目标节点所对应的第一编码向量以及目标节点所对应的第二编码向量,其中,样本聚合图自编码器为采用上述实施例中任意一项方法训练得到的;
本实施例中,信息检测装置将该目标节点的特征向量输入至SAGEGAE,由SAGEGAE对目标节点进行编码,从而得到目标编码向量,再将目标编码向量拆分为两个部分,分别得到第一编码向量和第二编码向量。需要说明的是,SAGEGAE为采用图3对应的实施例训练得到的,此处不做赘述。
204、根据目标节点所对应的第一编码向量、目标节点所对应的第二编码向量以及随机噪声,生成目标节点所对应的隐藏向量;
本实施例中,信息检测装置从标准正态分布中获取随机噪声,再将随机噪声添加至目标节点的第一编码向量和第二编码向量中,从而生成隐藏向量。可以理解的是,生成隐藏向量的方式可参阅上述实施例,此处不做赘述。
205、基于目标节点所对应的隐藏向量,通过分类网络模型获取目标节点的分类概率;
本实施例中,信息检测装置将目标节点所对应的隐藏向量输入至分类网络模型,由分类网络模型输出该目标节点的分类概率。具体地,以二分类的场景为例,输出的分类概率向量为(a,b),且a+b=1,假设a对应于类别A的概率,b对应于类别B的概率,若a大于b,表示目标节点属于类别A。反之,若b大于a,则表示目标节点属于类别B。可选地,还可以直接选择某个类别所对应的概率作为分类概率,例如,只需要了解目标节点属于类别A的概率,即无需比较a和b的大小,而是直接将a作为目标节点的分类概率。
206、根据目标节点的分类概率确定目标节点的信息检测结果;
本实施例中,信息检测装置基于目标节点的分类概率可以确定信息检测结果,具体地,继续以二分类的场景为例,假设目标节点的分类概率向量为(0.7,0.3),即属于类别A的概率为0.7,属于类别B的概率为0.3,如果需要获取的类别A的概率,则确定目标节点的分类概率为0.7。然后判断目标节点的分类概率是否大于或等于概率阈值,若是,则确定目标节点的信息检测结果为类别A,若否,则认为目标节点的信息检测结果为类别B,或认为目标节点不属于类别A。
207、根据信息检测请求,向客户端推送目标节点的信息检测结果。
本实施例中,信息检测装置根据信息检测请求中携带的客户端的标识确定对应的客户端,于是向该客户端推送目标节点的信息检测结果,使得客户端能够展示该信息检测结果。
本申请实施例中,提供了一种信息检测的方法,通过上述方式,利用SAGEGAE对图结构中目标节点进行编码,能够在SAGEGAE的归纳学习下充分考虑到相邻节点对目标节点重要性的影响,从而提升对目标节点的编码效果,进而提升信息检测的准确度。此外,SAGEGAE能够对未知节点进行编码,因此,对于未曾出现过的节点而言,可以采用SAGEGAE对该节点进行编码,从而增加信息检测的应用范围。
可选地,在上述图10对应的实施例的基础上,本申请实施例提供的信息推荐的方法第一个可选实施例中,根据信息检测请求获取目标节点所对应的特征向量,可以包括:
根据信息检测请求获取目标账号所对应的账号信息,其中,账号信息包括账号名、账号建立时间、关联用户数量、信息发布内容以及提示信息至少一项,目标账号与目标节点具有对应关系;
根据目标账号所对应的账号信息生成目标账号所对应的特征向量;
根据目标节点的分类概率确定目标节点的信息检测结果,可以包括:
若目标账号的分类概率大于或等于概率阈值,则确定目标账号为异常账号;
若目标账号的分类概率小于概率阈值,则确定目标账号为安全账号。
本实施例中,介绍了一种对账号安全性进行检测的方法,随着近年来各种网络技术和通信技术的发展与成熟,越来越多的人通过社交工具在社交网络上进行交流。社交网络的用户数量巨大,交流方式多样,其中,蕴含着许多有用的信息,本申请通过从社交网络数据中捕获账号信息,提取有价值的账号信息进行分析。
为了便于理解,请参阅图11,图11为本申请实施例中账号检测流程的一个实施例示意图,如图所示,具体地:
在步骤B1中,测试人员通过后台的账号检测工具选择待检测的账号,即选择一个目标账号,由此触发了信息检测请求。
在步骤B2中,账号检测工具将信息检测请求反馈至服务器,由服务器从图数据中获取该目标账号所对应的账号信息,请参阅图12,图12为本申请实施例中基于账号检测场景的一个检测界面示意图,如图所示,目标账号所对应的账号信息可以显示在账号检测工具的界面上供测试人员查看,其中,包括账号名(如IamTom123)、账号建立时间(如2019年12月15日18时36分08秒)、关联用户数量(如8名)、信息发布内容(如18篇原创文章、6张图片及31次转发)以及提示信息(提醒过593个账号查看文章)等。
需要说明的,每个账号具有多个维度的信息,即包括账号名、账号建立时间、关联用户数量、信息发布内容以及提示信息至少一项,其中,关联用户数量表示该账号拥有的好友数,信息发布内容表示通过该账号发布的文字、图片、视频以及音频等内容,提示信息表示通过该账号提醒其他账号查看信息的内容。
在步骤B3中,服务器可以根据目标账号所对应的账号信息生成目标账号所对应的特征向量,然后将该特征向量输入至训练好的SAGEGAE,通过SAGEGAE输出第一编码向量和第二编码向量,再结合随机噪声生成隐藏向量。
在步骤B4中,将目标账号的隐藏向量输入训练好的分类网络模型中,由该分类网络模型输出对应的分类概率,再基于分类概率确定最终的信息检测结果。若目标账号的分类概率大于或等于概率阈值,则确定目标账号为异常账号,反之,若目标账号的分类概率小于概率阈值,则确定目标账号为安全账号。
在步骤B5中,服务器向账号检测工具反馈目标账号的信息检测结果,如图12所示,假设目标账号的分类概率为0.8,大于概率阈值,于是在账号检测工具的界面上会提示该目标账号属于异常账号。此时,测试人员可以选择“人工审核”模块,从而进入人工审核该目标账号是否属于异常账号的流程。也可以直接选择“封禁账号”模块,从而将该目标账号进行封禁处理。
其次,本申请实施例中,提供了一种对账号安全性进行检测的方法,通过上述方式,能够很好地辅助网络安全检测,针对违规账号查找与发现问题,提升社交网络安全性。而且考虑到社交网络非常庞大,如果使用传统的手段往往难以从茫茫人海中找到这些违规账号,而使用本申请提供的SAGEGAE可以提升检测准确度,并且提升检测效率。
可选地,在上述图10对应的实施例的基础上,本申请实施例提供的信息推荐的方法第二个可选实施例中,基于目标节点所对应的隐藏向量,通过分类网络模型获取目标节点的分类概率之前,还可以包括:
获取待训练账号集合,其中,待训练账号集合包括至少一个待训练账号,每个待训练账号对应于一个标签;
根据待训练账号集合获取待训练账号信息集合,其中,待训练账号信息集合包括至少一个待训练账号信息,待训练账号信息与待训练账号具有一一对应的关系,待训练账号信息包括账号名、账号建立时间、关联用户数量、信息发布内容以及提示信息至少一项;
根据待训练账号信息集合生成每个待训练账号信息所对应的特征向量;
基于每个待训练账号信息所对应的特征向量,通过样本聚合图自编码器获取每个待训练账号所对应的第一编码向量以及每个待训练账号所对应的第二编码向量;
根据每个待训练账号所对应的第一编码向量、每个待训练账号所对应的第二编码向量以及每个待训练账号所对应的随机噪声,生成每个待训练账号所对应的隐藏向量;
基于每个待训练账号所对应的隐藏向量,通过待训练分类网络模型获取每个待训练账号所对应的预测分类概率;
根据每个待训练账号所对应的预测分类概率以及每个待训练账号所对应的标签,采用损失函数对待训练分类网络模型的模型参数进行更新;
当满足模型训练条件时,根据待训练分类网络模型更新后的模型参数,训练得到分类网络模型。
本实施例中,介绍了一种分类网络模型的训练方法,以训练一个用于区分账号类别的分类网络模型为例进行说明,可以理解的是,在实际应用中,可以根据不同的任务采用不同的训练集训练得到对应的分类网络模型。
具体地,以训练一个用于识别违规账号的分类网络模型为例,首先获取待训练账号集合,待训练账号集合包括至少一个待训练账号,每个待训练账号对应于一个标签,该标签可以分为两种类型,标签为1时表示待训练账号为违规账号,标签为0时表示待训练账号为安全账号。基于待训练账号获取对应的待训练账号信息,且每个待训练账号信息包括账号名、账号建立时间、关联用户数量、信息发布内容以及提示信息至少一项。于是根据每个待训练账号信息分别生成对应的特征向量,并且将各个待训练账号的特征向量输入至已经训练好的SAGEGAE,由SAGEGAE输出每个待训练账号的目标编码向量。
与上述实施例类似,基于每个待训练账号的目标编码向量,可以生成每个待训练账号所对应的第一编码向量和第二编码向量,于是结合每个待训练账号所对应的随机噪声,分别生成对应的隐藏向量。
将每个待训练账号的隐藏向量输入至待训练分类网络模型,由此输出每个待训练账号的预测分类概率,其中,预测分类概率的取值范围为0至1,预测分类概率越大,表示属于违规账号的可能性越大。于是采用损失函数计算各个待训练账号的预测分类概率与真实标签之间的差值,最后基于损失函数的计算结果对待训练分类网络模型的模型参数进行更新。当达到迭代次数或者损失结果小于阈值时,表示待训练分类网络模型已达到模型训练条件,即训练得到分类网络模型。
可以理解的是,分类网络模型还可以是XGBoost模型,或者其他类型的模型,此处不进行穷举。
再次,本申请实施例中,提供了一种分类网络模型的训练方法,通过上述方式,能够对应SAGEGAE输出的结果进行进一步的判定,从而达到对信息进行分类的目的,由此提升方案的可行性和可操作性。
下面对本申请中的编码器训练装置进行详细描述,请参阅图13,图13为本申请实施例中编码器训练装置一个实施例示意图,编码器训练装置30包括:
获取模块301,用于根据第一图数据获取N个节点所对应的特征向量集合,其中,特征向量集合中包括N个特征向量,且每个特征向量对应于图中的一个节点,N为大于或等于2的整数;
编码模块302,用于根据特征向量集合,通过样本聚合图自编码器对每个节点所对应的特征向量进行编码处理,得到N个第一编码向量以及N个第二编码向量,其中,样本聚合图自编码器为通过图样本聚合网络进行编码的自编码器;
生成模块303,用于根据N个第一编码向量、N个第二编码向量以及N个随机噪声,生成对应的N个隐藏向量,其中,第一编码向量、第二编码向量、随机噪声与隐藏向量之间具有对应关系;
解码模块304,用于通过解码器对N个隐藏向量进行解码处理,得到第二图数据;
训练模块305,用于根据第一图数据以及第二图数据,采用损失函数对样本聚合图自编码器的第一模型参数进行更新。
可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的编码器训练装置30的另一实施例中,
获取模块301,具体用于根据第一图数据获取N个节点中每个节点所对应的数据;
根据N个节点中每个节点所对应的数据,生成每个节点所对应的特征向量;
根据N个节点中每个节点所对应的特征向量,获取特征向量集合。
可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的编码器训练装置30的另一实施例中,
编码模块302,具体用于针对N个节点中任一节点,获取目标相邻节点集合,其中,目标相邻节点集合包括与任一节点相邻的P个节点,P为大于或等于1的整数;
从目标相邻节点集合中获取第一相邻节点集合,其中,第一相邻节点集合包括与任一节点相邻的Q个第一节点,Q为大于或等于1,且小于或等于P的整数;
获取第一相邻节点集合中每个第一节点所对应的特征向量;
基于每个第一节点所对应的特征向量,采用聚合函数计算得到任一节点的目标编码向量;
对任一节点的目标编码向量进行特征分割处理,得到任一节点的第一编码向量以及第二编码向量。
可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的编码器训练装置30的另一实施例中,
编码模块302,具体用于针对N个节点中任一节点,获取目标相邻节点集合,其中,目标相邻节点集合包括与任一节点相邻的P个节点,P为大于或等于1的整数;
从目标相邻节点集合中获取第一相邻节点集合,其中,第一相邻节点集合包括与任一节点相邻的Q个第一节点,Q为大于或等于1,且小于或等于P的整数;
根据第一相邻节点集合获取第二相邻节点集合,其中,第二相邻节点集合包括与Q个第一节点相邻的R个第二节点,R为大于或等于1的整数;
获取第一相邻节点集合中每个第一节点所对应的特征向量;
获取第二相邻节点集合中每个第二节点所对应的特征向量;
基于每个第二节点所对应的特征向量,采用聚合函数计算得到每个第一节点的待聚合编码向量;
基于每个第一节点所对应的特征向量以及每个第一节点的待聚合编码向量,采用聚合函数计算得到任一节点的目标编码向量;
对任一节点的目标编码向量进行特征分割处理,得到任一节点的第一编码向量以及第二编码向量。
可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的编码器训练装置30的另一实施例中,
编码模块302,具体用于针对N个节点中的任一节点,将目标编码向量平均划分为两组编码向量,其中,每组编码向量包括T个维度的特征,T为大于或等于1的整数;
将两组编码向量中的一组编码向量确定为任一节点的第一编码向量,并将两组编码向量中的另一组编码向量确定为任一节点的第二编码向量。
可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的编码器训练装置30的另一实施例中,
生成模块303,具体用于针对N个节点中任一节点,从标准正态分布中获取随机噪声,其中,每个随机噪声具有T个维度的特征,T为大于或等于1的整数;
从任一节点的第一编码向量中获取第i个维度所对应的第一特征,其中,第一编码向量包括T个维度的特征,i为大于或等于1,且小于或等于T的整数;
从任一节点的第二编码向量中获取第i个维度所对应的第二特征,其中,第二编码向量包括T个维度的特征;
从任一节点的随机噪声中获取第i个维度所对应的噪声值;
根据第i个维度所对应的第一特征、第i个维度所对应的第二特征以及第i个维度所对应的噪声值,生成隐藏向量中第i个维度所对应的第三特征。
可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的编码器训练装置30的另一实施例中,
训练模块305,具体用于根据第一图数据以及第二图数据,采用交叉熵损失函数确定第二模型参数;
将样本聚合图自编码器的第一模型参数更新为第二模型参数;
训练模块305,还用于根据第一图数据以及第二图数据,采用损失函数对样本聚合图自编码器的第一模型参数进行更新之后,若满足模型训练条件,则停止对样本聚合图自编码器的模型参数进行更新。
可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的编码器训练装置30的另一实施例中,
训练模块305,具体用于若交叉熵损失函数的结果小于或等于损失阈值,则确定满足模型训练条件,并停止对样本聚合图自编码器的模型参数进行更新;
或者,
若迭代次数达到次数阈值,则确定满足模型训练条件,并停止对样本聚合图自编码器的模型参数进行更新。
下面对本申请中的信息检测装置进行详细描述,请参阅图14,图14为本申请实施例中信息检测装置一个实施例示意图,信息检测装置40包括:
接收模块401,用于接收客户端发送的信息检测请求,其中,分类请求携带目标节点的标识以及客户端的标识;
获取模块402,用于根据信息检测请求获取目标节点所对应的特征向量;
获取模块402,还用于基于目标节点所对应的特征向量,通过样本聚合图自编码器获取目标节点所对应的第一编码向量以及目标节点所对应的第二编码向量,其中,样本聚合图自编码器为采用第一方面提供的方法训练得到的;
生成模块403,用于根据目标节点所对应的第一编码向量、目标节点所对应的第二编码向量以及随机噪声,生成目标节点所对应的隐藏向量;
获取模块402,还用于基于目标节点所对应的隐藏向量,通过分类网络模型获取目标节点的分类概率;
确定模块404,用于根据目标节点的分类概率确定目标节点的信息检测结果;
推送模块405,用于根据信息检测请求,向客户端推送目标节点的信息检测结果。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的信息检测装置40的另一实施例中,
获取模块402,具体用于根据信息检测请求获取目标账号所对应的账号信息,其中,账号信息包括账号名、账号建立时间、关联用户数量、信息发布内容以及提示信息至少一项,目标账号与目标节点具有对应关系;
根据目标账号所对应的账号信息生成目标账号所对应的特征向量;
确定模块404,具体用于若目标账号的分类概率大于或等于概率阈值,则确定目标账号为异常账号;
若目标账号的分类概率小于概率阈值,则确定目标账号为安全账号。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的信息检测装置40的另一实施例中,信息检测装置40还包括训练模块406;
获取模块402,还用于基于目标节点所对应的隐藏向量,通过分类网络模型获取目标节点的分类概率之前,获取待训练账号集合,其中,待训练账号集合包括至少一个待训练账号,每个待训练账号对应于一个标签;
获取模块402,还用于根据待训练账号集合获取待训练账号信息集合,其中,待训练账号信息集合包括至少一个待训练账号信息,待训练账号信息与待训练账号具有一一对应的关系,待训练账号信息包括账号名、账号建立时间、关联用户数量、信息发布内容以及提示信息至少一项;
生成模块403,还用于根据待训练账号信息集合生成每个待训练账号信息所对应的特征向量;
获取模块402,还用于基于每个待训练账号信息所对应的特征向量,通过样本聚合图自编码器获取每个待训练账号所对应的第一编码向量以及每个待训练账号所对应的第二编码向量;
生成模块403,还用于根据每个待训练账号所对应的第一编码向量、每个待训练账号所对应的第二编码向量以及每个待训练账号所对应的随机噪声,生成每个待训练账号所对应的隐藏向量;
获取模块402,还用于基于每个待训练账号所对应的隐藏向量,通过待训练分类网络模型获取每个待训练账号所对应的预测分类概率;
训练模块406,用于根据每个待训练账号所对应的预测分类概率以及每个待训练账号所对应的标签,采用损失函数对待训练分类网络模型的模型参数进行更新;
训练模块406,还用于当满足模型训练条件时,根据待训练分类网络模型更新后的模型参数,训练得到分类网络模型。
本申请实施例还提供了另一种编码器训练装置以及信息检测装置,图15是本申请实施例提供的一种服务器结构示意图,该服务器500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)522(例如,一个或一个以上处理器)和存储器532,一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器522可以设置为与存储介质530通信,在服务器500上执行存储介质530中的一系列指令操作。
服务器500还可以包括一个或一个以上电源526,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口558,和/或,一个或一个以上操作系统541,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图15所示的服务器结构。
本申请实施例中,CPU 522用于执行上述各个实施例所涉及的步骤。
本申请实施例还提供了另一种编码器训练装置以及信息检测装置,如图16所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(PersonalDigital Assistant,PDA)、销售终端设备(Point of Sales,POS)、车载电脑等任意终端设备,以终端设备为个人电脑为例:
图16示出的是与本申请实施例提供的终端设备相关的个人电脑的部分结构的框图。参考图16,个人电脑包括:射频(Radio Frequency,RF)电路610、存储器620、输入单元630、显示单元640、传感器650、音频电路660、无线保真(wireless fidelity,WiFi)模块670、处理器680、以及电源690等部件。本领域技术人员可以理解,图16中示出的个人电脑结构并不构成对个人电脑的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图16对个人电脑的各个构成部件进行具体的介绍:
RF电路610可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器680处理;另外,将设计上行的数据发送给基站。通常,RF电路610包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,LNA)、双工器等。此外,RF电路610还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication,GSM)、通用分组无线服务(General Packet RadioService,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器620可用于存储软件程序以及模块,处理器680通过运行存储在存储器620的软件程序以及模块,从而执行个人电脑的各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据个人电脑的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元630可用于接收输入的数字或字符信息,以及产生与个人电脑的用户设置以及功能控制有关的键信号输入。具体地,输入单元630可包括触控面板631以及其他输入设备632。触控面板631,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板631上或在触控面板631附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板631可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器680,并能接收处理器680发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板631。除了触控面板631,输入单元630还可以包括其他输入设备632。具体地,其他输入设备632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元640可用于显示由用户输入的信息或提供给用户的信息以及个人电脑的各种菜单。显示单元640可包括显示面板641,可选的,可以采用液晶显示器(LiquidCrystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板641。进一步的,触控面板631可覆盖显示面板641,当触控面板631检测到在其上或附近的触摸操作后,传送给处理器680以确定触摸事件的类型,随后处理器680根据触摸事件的类型在显示面板641上提供相应的视觉输出。虽然在图16中,触控面板631与显示面板641是作为两个独立的部件来实现个人电脑的输入和输入功能,但是在某些实施例中,可以将触控面板631与显示面板641集成而实现个人电脑的输入和输出功能。
个人电脑还可包括至少一种传感器650,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板641的亮度,接近传感器可在个人电脑移动到耳边时,关闭显示面板641和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别个人电脑姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于个人电脑还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路660、扬声器661,传声器662可提供用户与个人电脑之间的音频接口。音频电路660可将接收到的音频数据转换后的电信号,传输到扬声器661,由扬声器661转换为声音信号输出;另一方面,传声器662将收集的声音信号转换为电信号,由音频电路660接收后转换为音频数据,再将音频数据输出处理器680处理后,经RF电路610以发送给比如另一个人电脑,或者将音频数据输出至存储器620以便进一步处理。
WiFi属于短距离无线传输技术,个人电脑通过WiFi模块670可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图16示出了WiFi模块670,但是可以理解的是,其并不属于个人电脑的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器680是个人电脑的控制中心,利用各种接口和线路连接整个个人电脑的各个部分,通过运行或执行存储在存储器620内的软件程序和/或模块,以及调用存储在存储器620内的数据,执行个人电脑的各种功能和处理数据,从而对个人电脑进行整体监控。可选的,处理器680可包括一个或多个处理单元;可选的,处理器680可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器680中。
个人电脑还包括给各个部件供电的电源690(比如电池),可选的,电源可以通过电源管理系统与处理器680逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,个人电脑还可以包括摄像头、蓝牙模块等,在此不再赘述。
本申请实施例中,处理器680用于执行上述各个实施例所涉及的步骤。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如前述实施例描述的方法。
本申请实施例中还提供一种包括程序的计算机程序产品,当其在计算机上运行时,使得计算机执行如前述实施例描述的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (13)
1.一种信息检测的方法,其特征在于,包括:
接收客户端发送的信息检测请求,其中,分类请求携带目标节点的标识以及所述客户端的标识;
根据所述信息检测请求获取目标账号所对应的账号信息,其中,所述账号信息包括账号名、账号建立时间、关联用户数量、信息发布内容以及提示信息至少一项,所述目标账号与所述目标节点具有对应关系;
根据所述目标账号所对应的账号信息生成所述目标账号所对应的特征向量;
基于所述目标节点所对应的特征向量,通过样本聚合图自编码器获取所述目标节点所对应的第一编码向量以及所述目标节点所对应的第二编码向量;
根据所述目标节点所对应的第一编码向量、所述目标节点所对应的第二编码向量以及随机噪声,生成所述目标节点所对应的隐藏向量;
基于所述目标节点所对应的隐藏向量,通过分类网络模型获取所述目标节点的分类概率;
根据所述目标节点的分类概率确定所述目标节点的信息检测结果;
根据所述信息检测请求,向所述客户端推送所述目标节点的信息检测结果;
其中,所述样本聚合图自编码器的训练过程包括:
根据第一图数据获取N个节点所对应的特征向量集合,其中,所述特征向量集合中包括N个特征向量,且每个特征向量对应于图中的一个节点,所述N为大于或等于2的整数;
根据所述特征向量集合,通过样本聚合图自编码器对每个节点所对应的特征向量进行编码处理,得到N个第一编码向量以及N个第二编码向量,其中,所述样本聚合图自编码器为通过图样本聚合网络进行编码的自编码器,根据节点的第一编码向量和第二编码向量,结合随机噪声生成隐藏向量,采用变分自编码器框架进行训练从而训练得到所述样本聚合图自编码器;
根据所述N个第一编码向量、所述N个第二编码向量以及N个随机噪声,生成对应的N个隐藏向量,其中,所述第一编码向量、所述第二编码向量、所述随机噪声与所述隐藏向量之间具有对应关系;
通过解码器对所述N个隐藏向量进行解码处理,得到第二图数据;
根据所述第一图数据以及所述第二图数据,采用损失函数对所述样本聚合图自编码器的第一模型参数进行更新。
2.根据权利要求1所述的方法,其特征在于,所述根据第一图数据获取N个节点所对应的特征向量集合,包括:
根据所述第一图数据获取所述N个节点中每个节点所对应的数据;
根据所述N个节点中每个节点所对应的数据,生成所述每个节点所对应的特征向量;
根据所述N个节点中所述每个节点所对应的特征向量,获取所述特征向量集合。
3.根据权利要求1所述的方法,其特征在于,所述根据所述特征向量集合,通过样本聚合图自编码器对每个节点所对应的特征向量进行编码处理,得到N个第一编码向量以及N个第二编码向量,包括:
针对所述N个节点中任一节点,获取目标相邻节点集合,其中,所述目标相邻节点集合包括与所述任一节点相邻的P个节点,所述P为大于或等于1的整数;
从所述目标相邻节点集合中获取第一相邻节点集合,其中,所述第一相邻节点集合包括与所述任一节点相邻的Q个第一节点,所述Q为大于或等于1,且小于或等于所述P的整数;
获取所述第一相邻节点集合中每个第一节点所对应的特征向量;
基于所述每个第一节点所对应的特征向量,采用聚合函数计算得到所述任一节点的目标编码向量;
对所述任一节点的目标编码向量进行特征分割处理,得到所述任一节点的第一编码向量以及第二编码向量。
4.根据权利要求1所述的方法,其特征在于,所述根据所述特征向量集合,通过样本聚合图自编码器对每个节点所对应的特征向量进行编码处理,得到N个第一编码向量以及N个第二编码向量,包括:
针对所述N个节点中任一节点,获取目标相邻节点集合,其中,所述目标相邻节点集合包括与所述任一节点相邻的P个节点,所述P为大于或等于1的整数;
从所述目标相邻节点集合中获取第一相邻节点集合,其中,所述第一相邻节点集合包括与所述任一节点相邻的Q个第一节点,所述Q为大于或等于1,且小于或等于所述P的整数;
根据所述第一相邻节点集合获取第二相邻节点集合,其中,所述第二相邻节点集合包括与所述Q个第一节点相邻的R个第二节点,所述R为大于或等于1的整数;
获取所述第一相邻节点集合中每个第一节点所对应的特征向量;
获取所述第二相邻节点集合中每个第二节点所对应的特征向量;
基于所述每个第二节点所对应的特征向量,采用聚合函数计算得到所述每个第一节点的待聚合编码向量;
基于所述每个第一节点所对应的特征向量以及所述每个第一节点的待聚合编码向量,采用聚合函数计算得到所述任一节点的目标编码向量;
对所述任一节点的目标编码向量进行特征分割处理,得到所述任一节点的第一编码向量以及第二编码向量。
5.根据权利要求3或4所述的方法,其特征在于,所述对所述任一节点的目标编码向量进行特征分割处理,得到所述任一节点的第一编码向量以及第二编码向量,包括:
针对所述N个节点中的所述任一节点,将所述目标编码向量平均划分为两组编码向量,其中,每组编码向量包括T个维度的特征,所述T为大于或等于1的整数;
将所述两组编码向量中的一组编码向量确定为所述任一节点的第一编码向量,并将所述两组编码向量中的另一组编码向量确定为所述任一节点的第二编码向量。
6.根据权利要求1所述的方法,其特征在于,所述根据所述N个第一编码向量、所述N个第二编码向量以及N个随机噪声,生成对应的N个隐藏向量,包括:
针对所述N个节点中任一节点,从标准正态分布中获取随机噪声,其中,每个随机噪声具有T个维度的特征,所述T为大于或等于1的整数;
从所述任一节点的第一编码向量中获取第i个维度所对应的第一特征,其中,所述第一编码向量包括T个维度的特征,所述i为大于或等于1,且小于或等于所述T的整数;
从所述任一节点的第二编码向量中获取所述第i个维度所对应的第二特征,其中,所述第二编码向量包括T个维度的特征;
从所述任一节点的随机噪声中获取所述第i个维度所对应的噪声值;
根据所述第i个维度所对应的第一特征、所述第i个维度所对应的第二特征以及所述第i个维度所对应的噪声值,生成隐藏向量中所述第i个维度所对应的第三特征。
7.根据权利要求1所述的方法,其特征在于,所述根据所述第一图数据以及所述第二图数据,采用损失函数对所述样本聚合图自编码器的第一模型参数进行更新,包括:
根据所述第一图数据以及所述第二图数据,采用交叉熵损失函数确定第二模型参数;
将所述样本聚合图自编码器的所述第一模型参数更新为所述第二模型参数;
所述根据所述第一图数据以及所述第二图数据,采用损失函数对所述样本聚合图自编码器的第一模型参数进行更新之后,所述方法还包括:
若满足模型训练条件,则停止对所述样本聚合图自编码器的模型参数进行更新。
8.根据权利要求7所述的方法,其特征在于,所述若满足模型训练条件,则停止对所述样本聚合图自编码器的模型参数进行更新,包括:
若所述交叉熵损失函数的结果小于或等于损失阈值,则确定满足所述模型训练条件,并停止对所述样本聚合图自编码器的模型参数进行更新;
或者,
若迭代次数达到次数阈值,则确定满足所述模型训练条件,并停止对所述样本聚合图自编码器的模型参数进行更新。
9.根据权利要求1所述的方法,其特征在于,
所述根据所述目标节点的分类概率确定所述目标节点的信息检测结果,包括:
若所述目标账号的分类概率大于或等于概率阈值,则确定所述目标账号为异常账号;
若所述目标账号的分类概率小于所述概率阈值,则确定所述目标账号为安全账号。
10.根据权利要求9所述的方法,其特征在于,所述基于所述目标节点所对应的隐藏向量,通过分类网络模型获取所述目标节点的分类概率之前,所述方法还包括:
获取待训练账号集合,其中,所述待训练账号集合包括至少一个待训练账号,每个待训练账号对应于一个标签;
根据所述待训练账号集合获取待训练账号信息集合,其中,所述待训练账号信息集合包括至少一个待训练账号信息,所述待训练账号信息与所述待训练账号具有一一对应的关系,所述待训练账号信息包括账号名、账号建立时间、关联用户数量、信息发布内容以及提示信息至少一项;
根据所述待训练账号信息集合生成每个待训练账号信息所对应的特征向量;
基于所述每个待训练账号信息所对应的特征向量,通过所述样本聚合图自编码器获取所述每个待训练账号所对应的第一编码向量以及所述每个待训练账号所对应的第二编码向量;
根据所述每个待训练账号所对应的第一编码向量、所述每个待训练账号所对应的第二编码向量以及所述每个待训练账号所对应的随机噪声,生成所述每个待训练账号所对应的隐藏向量;
基于所述每个待训练账号所对应的隐藏向量,通过待训练分类网络模型获取所述每个待训练账号所对应的预测分类概率;
根据所述每个待训练账号所对应的预测分类概率以及所述每个待训练账号所对应的标签,采用损失函数对所述待训练分类网络模型的模型参数进行更新;
当满足模型训练条件时,根据所述待训练分类网络模型更新后的模型参数,训练得到所述分类网络模型。
11.一种信息检测装置,其特征在于,包括:
接收模块,用于接收客户端发送的信息检测请求,其中,分类请求携带目标节点的标识以及所述客户端的标识;
获取模块,用于根据所述信息检测请求获取目标账号所对应的账号信息,其中,所述账号信息包括账号名、账号建立时间、关联用户数量、信息发布内容以及提示信息至少一项,所述目标账号与所述目标节点具有对应关系;根据所述目标账号所对应的账号信息生成所述目标账号所对应的特征向量;
所述获取模块,还用于基于所述目标节点所对应的特征向量,通过样本聚合图自编码器获取所述目标节点所对应的第一编码向量以及所述目标节点所对应的第二编码向量;
生成模块,用于根据所述目标节点所对应的第一编码向量、所述目标节点所对应的第二编码向量以及随机噪声,生成所述目标节点所对应的隐藏向量;
所述获取模块,还用于基于所述目标节点所对应的隐藏向量,通过分类网络模型获取所述目标节点的分类概率;
确定模块,用于根据所述目标节点的分类概率确定所述目标节点的信息检测结果;
推送模块,用于根据所述信息检测请求,向所述客户端推送所述目标节点的信息检测结果;
获取模块,还用于根据第一图数据获取N个节点所对应的特征向量集合,其中,所述特征向量集合中包括N个特征向量,且每个特征向量对应于图中的一个节点,所述N为大于或等于2的整数;
编码模块,用于根据所述特征向量集合,通过样本聚合图自编码器对每个节点所对应的特征向量进行编码处理,得到N个第一编码向量以及N个第二编码向量,其中,所述样本聚合图自编码器为通过图样本聚合网络进行编码的自编码器,根据节点的第一编码向量和第二编码向量,结合随机噪声生成隐藏向量,采用变分自编码器框架进行训练从而训练得到所述样本聚合图自编码器;
所述生成模块,还用于根据所述N个第一编码向量、所述N个第二编码向量以及N个随机噪声,生成对应的N个隐藏向量,其中,所述第一编码向量、所述第二编码向量、所述随机噪声与所述隐藏向量之间具有对应关系;
解码模块,用于通过解码器对所述N个隐藏向量进行解码处理,得到第二图数据;
训练模块,用于根据所述第一图数据以及所述第二图数据,采用损失函数对所述样本聚合图自编码器的第一模型参数进行更新。
12.一种计算机设备,其特征在于,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括执行如上述权利要求1至10中任意一项所述的方法;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
13.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至10中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010207256.5A CN111291190B (zh) | 2020-03-23 | 2020-03-23 | 一种编码器的训练方法、信息检测的方法以及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010207256.5A CN111291190B (zh) | 2020-03-23 | 2020-03-23 | 一种编码器的训练方法、信息检测的方法以及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111291190A CN111291190A (zh) | 2020-06-16 |
CN111291190B true CN111291190B (zh) | 2023-04-07 |
Family
ID=71030288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010207256.5A Active CN111291190B (zh) | 2020-03-23 | 2020-03-23 | 一种编码器的训练方法、信息检测的方法以及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111291190B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111507320A (zh) * | 2020-07-01 | 2020-08-07 | 平安国际智慧城市科技股份有限公司 | 后厨违规行为检测方法、装置、设备和存储介质 |
CN111767472A (zh) * | 2020-07-08 | 2020-10-13 | 吉林大学 | 一种社交网络异常账号检测方法及系统 |
CN112084328A (zh) * | 2020-07-29 | 2020-12-15 | 浙江工业大学 | 一种基于变分图自编码器与K-Means的科技论文聚类分析方法 |
CN114091090A (zh) * | 2020-08-05 | 2022-02-25 | 新智数字科技有限公司 | 一种基于隐私保护的数据处理模型获取方法、装置、终端设备及存储介质 |
CN112379269B (zh) * | 2020-10-14 | 2024-03-05 | 武汉蔚来能源有限公司 | 电池异常检测模型训练及其检测方法、装置 |
CN112541530B (zh) * | 2020-12-06 | 2023-06-20 | 支付宝(杭州)信息技术有限公司 | 针对聚类模型的数据预处理方法及装置 |
CN113361658B (zh) * | 2021-07-15 | 2022-06-14 | 支付宝(杭州)信息技术有限公司 | 一种基于隐私保护的图模型训练方法、装置及设备 |
CN113487762B (zh) * | 2021-07-22 | 2023-07-04 | 东软睿驰汽车技术(沈阳)有限公司 | 一种编码模型生成方法、充电数据获取方法及装置 |
CN114925660B (zh) * | 2022-05-23 | 2023-07-28 | 马上消费金融股份有限公司 | 文本处理模型训练方法及装置、文本处理方法及装置 |
CN116049840B (zh) * | 2022-07-25 | 2023-10-20 | 荣耀终端有限公司 | 一种数据保护方法、装置、相关设备及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108345901A (zh) * | 2018-01-17 | 2018-07-31 | 同济大学 | 一种基于自编码神经网络的符号图节点分类方法 |
CN110009013A (zh) * | 2019-03-21 | 2019-07-12 | 腾讯科技(深圳)有限公司 | 编码器训练及表征信息提取方法和装置 |
CN110275936A (zh) * | 2019-05-09 | 2019-09-24 | 浙江工业大学 | 一种基于自编码神经网络的相似法律案例检索方法 |
CN110348299A (zh) * | 2019-06-04 | 2019-10-18 | 上海交通大学 | 三维物体的识别方法 |
CN110362818A (zh) * | 2019-06-06 | 2019-10-22 | 中国科学院信息工程研究所 | 基于用户关系结构特征的微博谣言检测方法和系统 |
CN110502627A (zh) * | 2019-08-28 | 2019-11-26 | 上海海事大学 | 一种基于多层Transformer聚合编码器的答案生成方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10298263B2 (en) * | 2014-02-18 | 2019-05-21 | Seagate Technology Llc | Refresh, run, aggregate decoder recovery |
-
2020
- 2020-03-23 CN CN202010207256.5A patent/CN111291190B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108345901A (zh) * | 2018-01-17 | 2018-07-31 | 同济大学 | 一种基于自编码神经网络的符号图节点分类方法 |
CN110009013A (zh) * | 2019-03-21 | 2019-07-12 | 腾讯科技(深圳)有限公司 | 编码器训练及表征信息提取方法和装置 |
CN110275936A (zh) * | 2019-05-09 | 2019-09-24 | 浙江工业大学 | 一种基于自编码神经网络的相似法律案例检索方法 |
CN110348299A (zh) * | 2019-06-04 | 2019-10-18 | 上海交通大学 | 三维物体的识别方法 |
CN110362818A (zh) * | 2019-06-06 | 2019-10-22 | 中国科学院信息工程研究所 | 基于用户关系结构特征的微博谣言检测方法和系统 |
CN110502627A (zh) * | 2019-08-28 | 2019-11-26 | 上海海事大学 | 一种基于多层Transformer聚合编码器的答案生成方法 |
Non-Patent Citations (2)
Title |
---|
William L等.Representation Learning on graphs Methods and application.《IEEE Data Engineering Bulletin》.2017,第1-24页. * |
王鸿伟.基于网络特征学习的个性化推荐系统.《中国博士学位论文全文数据库信息科技辑》.2020,(第01期),I138-157. * |
Also Published As
Publication number | Publication date |
---|---|
CN111291190A (zh) | 2020-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111291190B (zh) | 一种编码器的训练方法、信息检测的方法以及相关装置 | |
US11763599B2 (en) | Model training method and apparatus, face recognition method and apparatus, device, and storage medium | |
EP3940638B1 (en) | Image region positioning method, model training method, and related apparatus | |
CN111461089B (zh) | 一种人脸检测的方法、人脸检测模型的训练方法及装置 | |
CN110009052B (zh) | 一种图像识别的方法、图像识别模型训练的方法及装置 | |
CN111428091B (zh) | 一种编码器的训练方法、信息推荐的方法以及相关装置 | |
CN108280458B (zh) | 群体关系类型识别方法及装置 | |
CN109543195A (zh) | 一种文本翻译的方法、信息处理的方法以及装置 | |
CN113723378B (zh) | 一种模型训练的方法、装置、计算机设备和存储介质 | |
CN112990390B (zh) | 一种图像识别模型的训练方法、图像识别的方法及装置 | |
CN110516113B (zh) | 一种视频分类的方法、视频分类模型训练的方法及装置 | |
CN109697451A (zh) | 相似图像聚类方法及装置、存储介质、电子设备 | |
CN113515942A (zh) | 文本处理方法、装置、计算机设备及存储介质 | |
CN113516227B (zh) | 一种基于联邦学习的神经网络训练方法及设备 | |
CN113628059A (zh) | 一种基于多层图注意力网络的关联用户识别方法及装置 | |
CN116226785A (zh) | 目标对象识别方法、多模态识别模型的训练方法和装置 | |
CN114722937A (zh) | 一种异常数据检测方法、装置、电子设备和存储介质 | |
CN114092920A (zh) | 一种模型训练的方法、图像分类的方法、装置及存储介质 | |
CN113822427A (zh) | 一种模型训练的方法、图像匹配的方法、装置及存储介质 | |
CN116935188B (zh) | 模型训练方法、图像识别方法、装置、设备及介质 | |
CN114334036A (zh) | 一种模型训练的方法、相关装置、设备以及存储介质 | |
CN114462539A (zh) | 一种内容分类模型的训练方法、内容分类的方法及装置 | |
CN113761195A (zh) | 文本分类方法、装置、计算机设备及计算机可读存储介质 | |
CN117854156B (zh) | 一种特征提取模型的训练方法和相关装置 | |
CN117373093A (zh) | 基于人工智能的图像识别方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40024253 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |