CN114529191A - 用于风险识别的方法和装置 - Google Patents
用于风险识别的方法和装置 Download PDFInfo
- Publication number
- CN114529191A CN114529191A CN202210142895.7A CN202210142895A CN114529191A CN 114529191 A CN114529191 A CN 114529191A CN 202210142895 A CN202210142895 A CN 202210142895A CN 114529191 A CN114529191 A CN 114529191A
- Authority
- CN
- China
- Prior art keywords
- semantic
- feature vector
- training
- risk
- free
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012549 training Methods 0.000 claims abstract description 385
- 239000013598 vector Substances 0.000 claims abstract description 367
- 230000006870 function Effects 0.000 claims abstract description 152
- 238000000605 extraction Methods 0.000 claims abstract description 70
- 238000013507 mapping Methods 0.000 claims description 36
- 230000000052 comparative effect Effects 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 14
- 239000000284 extract Substances 0.000 description 7
- 238000003062 neural network model Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Development Economics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Educational Administration (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Game Theory and Decision Science (AREA)
- Probability & Statistics with Applications (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本公开提供了用于风险识别的方法和装置。一种用于风险识别的方法,包括:获取与风险实例相关的无语义训练数据样本和有语义训练数据样本;使用无语义训练数据样本和有语义训练数据样本来对第一风险识别模型和第二风险识别模型进行联合训练,包括:分别使用第一特征提取模块和第二特征提取模块对无语义训练数据样本和有语义训练数据样本进行特征提取以生成无语义训练特征向量和有语义训练特征向量;以及对无语义训练特征向量和有语义训练特征向量进行对比学习,以使得所述对比学习的损失函数收敛。
Description
技术领域
本公开涉及互联网领域,尤其涉及用于利用神经网络进行风险识别的方法和装置。
背景技术
随着互联网技术的发展,各种网络业务迅速发展,例如,网络购物、网络交易等。网络风险控制变得越来越重要。
当前用于风险识别的方案包括无监督方案和有监督方案。无监督方案使用用户特征、历史行为等无语义的信息作为输入,利用无监督聚类算法,直接对实例进行聚类。其不足在于,在聚类时仅仅考虑了特征之间内部的相似性,缺乏具有语义信息的标签的指导,由此聚类的结果不具有解释信息,结果难以被业务直接使用。有监督方案通过标注、自动或半自动方法从风险实例所涉及的有语义的信息中抽取出一系列的语义标签,使用风险业务的特征和对应标签作为输入,训练有监督的机器学习模型。其缺点在于,需要较多的人力进行辅助信息的分析以进行标签的标注,并且人工制定标签可能具有一定的局限性。
因此亟需高效准确地进行风险识别的方案。
发明内容
为解决上述技术问题,本发明提供了一种用于风险识别的方法,包括:
获取与风险实例相关的无语义训练数据样本和有语义训练数据样本;
使用所述无语义训练数据样本和所述有语义训练数据样本来对所述第一风险识别模型和所述第二风险识别模型进行联合训练;
其中,所述第一风险识别模型包括第一特征提取模块和第一聚类模块,所述第二风险识别模型包括第二特征提取模块和第二聚类模块,所述联合训练包括:
分别使用所述第一特征提取模块和所述第二特征提取模块对所述无语义训练数据样本和所述有语义训练数据样本进行特征提取以生成无语义训练特征向量和有语义训练特征向量;以及
对所述无语义训练特征向量和所述有语义训练特征向量进行对比学习,以使得所述对比学习的损失函数收敛。
可任选地,所述对比学习包括:
使用第一映射模块对所述无语义训练特征向量进行处理以生成经映射的无语义训练特征向量;
使用第二映射模块对所述有语义训练特征向量进行处理以生成经映射的有语义训练特征向量;以及
将所述无语义训练特征向量与所述经映射的有语义训练特征向量进行对比学习,以及将所述有语义训练特征向量与所述经映射的无语义训练特征向量进行对比学习。
可任选地,所述对比学习的目标包括:
缩小与相同风险实例相关的无语义训练特征向量和经映射的有语义训练特征向量之间的距离并且扩大与不同风险实例相关的无语义训练特征向量和经映射的有语义训练特征向量之间的距离,以及
缩小与相同风险实例相关的有语义训练特征向量和经映射的无语义训练特征向量之间的距离并且扩大与不同风险实例相关的有语义训练特征向量和经映射的无语义训练特征向量之间的距离。
可任选地,所述对比学习包括:
使所述有语义训练特征向量和所述经映射的无语义训练特征向量之间的对比学习损失函数收敛;以及
使所述无语义训练特征向量和所述经映射的有语义训练特征向量之间的对比学习损失函数收敛。
可任选地,所述对比学习损失函数包括infoNCE loss函数和triplet loss函数。
可任选地,该方法进一步包括:
将所述无语义训练特征向量输入所述第一聚类模块以生成第一聚类结果;以及将所述有语义训练特征向量输入所述第二聚类模块以生成第二聚类结果。
可任选地,该方法进一步包括:
使所述第一聚类结果和所述第二聚类结果之间的相似性损失函数收敛。
可任选地,该方法进一步包括:
使所述第一聚类结果的损失函数收敛;以及
使所述第二聚类结果的损失函数收敛。
可任选地,该方法进一步包括:
使所述第一风险识别模型和所述风险识别模型的总损失函数收敛,其中所述总损失函数是以下各项的加权求和的结果:
所述有语义训练特征向量和所述经映射的无语义训练特征向量之间的对比学习损失函数;
所述无语义训练特征向量和所述经映射的有语义训练特征向量之间的对比学习损失函数;
所述第一聚类结果和所述第二聚类结果之间的相似性损失函数;
所述第一聚类结果的损失函数;以及
所述第二聚类结果的损失函数。
可任选地,该方法进一步包括:
针对所述第二聚类结果确定风险类别标签向量;以及
将所述风险类别标签向量应用于所述第一聚类结果。
本公开的另一方面提供了一种用于风险识别的装置,包括:
第一风险识别模型,所述第一风险识别模型包括第一特征提取模块和第一聚类模块,所述第一特征提取模块接收与风险实例相关的无语义训练数据样本并且对所述无语义训练数据样本进行特征提取以生成无语义训练特征向量;
第二风险识别模型,所述第二风险识别模型包括第二特征提取模块和第二聚类模块,所述第二特征提取模块接收与风险实例相关的有语义训练数据样本并且对所述有语义训练数据样本进行特征提取以生成有语义训练特征向量;
对比学习模块,其用于使用所述无语义训练数据样本和所述有语义训练数据样本来对所述第一风险识别模型和所述第二风险识别模型进行联合训练,其中所述对比学习模块用于对所述无语义训练特征向量和所述有语义训练特征向量进行对比学习,以使得所述对比学习的损失函数收敛。
可任选地,所述对比学习模块进一步用于:
使用第一映射模块对所述无语义训练特征向量进行处理以生成经映射的无语义训练特征向量;
使用第二映射模块对所述有语义训练特征向量进行处理以生成经映射的有语义训练特征向量;以及
将所述无语义训练特征向量与所述经映射的有语义训练特征向量进行对比学习,以及将所述有语义训练特征向量与所述经映射的无语义训练特征向量进行对比学习。
可任选地,所述对比学习的目标包括:
缩小与相同风险实例相关的无语义训练特征向量和经映射的有语义训练特征向量之间的距离并且扩大与不同风险实例相关的无语义训练特征向量和经映射的有语义训练特征向量之间的距离,以及
缩小与相同风险实例相关的有语义训练特征向量和经映射的无语义训练特征向量之间的距离并且扩大与不同风险实例相关的有语义训练特征向量和经映射的无语义训练特征向量之间的距离。
可任选地,所述对比学习模块进一步用于:
使所述有语义训练特征向量和所述经映射的无语义训练特征向量之间的对比学习损失函数收敛;以及
使所述无语义训练特征向量和所述经映射的有语义训练特征向量之间的对比学习损失函数收敛。
可任选地,所述对比学习损失函数包括infoNCE loss函数和triplet loss函数。
可任选地,所述第一聚类模块对所述无语义训练特征向量进行聚类处理以生成第一聚类结果;并且
所述第二聚类模块对所述有语义训练特征向量进行聚类处理以生成第二聚类结果。
可任选地,该装置进一步包括相似性学习模块,其用于使所述第一聚类结果和所述第二聚类结果之间的相似性损失函数收敛。
可任选地,该装置进一步包括:
第一聚类学习模块,其用于使所述第一聚类结果的损失函数收敛;以及
第二聚类学习模块,其用于使所述第二聚类结果的损失函数收敛。
可任选地,该装置进一步包括:
总训练模块,其用于使所述第一风险识别模型和所述第二风险识别模型的总损失函数收敛,其中所述总损失函数是以下各项的加权求和的结果:
所述有语义训练特征向量和所述经映射的无语义训练特征向量之间的对比学习损失函数;
所述无语义训练特征向量和所述经映射的有语义训练特征向量之间的对比学习损失函数;
所述第一聚类结果和所述第二聚类结果之间的相似性损失函数;
所述第一聚类结果的损失函数;以及
所述第二聚类结果的损失函数。
可任选地,该装置进一步包括:
风险类别标签确定模块,其用于针对所述第二聚类结果确定风险类别标签向量;以及将所述风险类别标签向量应用于所述第一聚类结果。
本公开的有一方面提供了一种用于风险识别的装置,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取与风险实例相关的无语义训练数据样本和有语义训练数据样本;
使用所述无语义训练数据样本和所述有语义训练数据样本来对所述第一风险识别模型和所述第二风险识别模型进行联合训练;
其中,所述第一风险识别模型包括第一特征提取模块和第一聚类模块,所述第二风险识别模型包括第二特征提取模块和第二聚类模块,所述联合训练包括:
分别使用所述第一特征提取模块和所述第二特征提取模块对所述无语义训练数据样本和所述有语义训练数据样本进行特征提取以生成无语义训练特征向量和有语义训练特征向量;以及
对所述无语义训练特征向量和所述有语义训练特征向量进行对比学习,以使得所述对比学习的损失函数收敛。
本公开利用有语义数据样本中的丰富语义帮助神经网络模型对无语义数据样本进行更好的细粒度划分,以增强模型对风险类型划分的准确度。进一步,本公开利用有语义数据样本中的风险类别语义确定与聚类结果向量相对应的风险类别标签向量,由此在使用无语义数据样本进行预测时,能够向聚类结果赋予风险类别的解释。
附图说明
图1是根据本公开的各方面的用于风险识别的装置的示图。
图2是根据本公开的各方面的用于风险识别的训练示意图。
图3是根据本公开的各方面的用于风险识别的方法的流程图。
图4是根据本公开的各方面的用于联合训练的方法的流程图。
图5是根据本公开的各方面的用于对比学习的方法的流程图。
图6是根据本公开的各方面的用于风险识别的装置的示图。
图7是根据本申请的各方面的用于风险识别的电子设备的示图。
具体实施方式
为让本发明的上述目的、特征和优点能更明显易懂,以下结合附图对本发明的具体实施方式作详细说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其它不同于在此描述的其它方式来实施,因此本发明不受下面公开的具体实施例的限制。
本公开提出了一种用于风险识别的方案。本公开的方案能够确定风险实例的风险类别。在本文中,风险实例是指待分类的风险对象,例如,交易、事件、用户、团体等。
本公开利用无语义数据样本结合有语义数据样本来联合训练风险识别神经网络模型。
无语义数据样本是指不具有关于风险类别的语义的数据样本,例如,应用的内源数据样本,即,风险实例在应用内操作留下的数据。例如,用户的基本信息(例如,性别、年龄等)、账户信息、历史行为信息、用户之间的关系图等。
有语义数据样本是指具有关于风险类别的语义的数据样本,例如,应用的外源数据样本,即,从应用之外的途径获取的关于风险实例的具有语义属性的描述性信息。例如,用户向应用反馈(例如,投诉)的信息,可包括通过电话、网络等渠道获得的反馈信息等。这些信息中可包括关于风险类别的语义。例如,通过网络或电话获得的反馈信息中可包括关于风险类别的语义的文本、图片、语音等。
一方面,对风险实例的无语义数据样本进行聚类以识别该风险实例的风险类别通常使用无监督算法,直接对风险实例进行聚类。但该无监督算法缺乏有语义信息的标签的指导,聚类结果可能不符合风险类别识别的期望,结果也不具有类别描述标签的解释信息,难以被业务直接使用。
另一方面,对风险实例的有语义数据样本进行聚类以识别该风险实例的风险类别可以通过人工规则进行标签的抽取,通过人工标注、自动或半自动方式从反馈信息(例如,反馈文本、图像、表格等)中抽取出一系列语义标签,对这些标签进行合并和清洗,得到能够有效描述风险实例的风险类别的标签,由此将无监督方案转变为有监督方案。这种方法的优点是可控性强,可以通过人工进行标签制定来控制模型的输出。但其缺点是需要较多的人工进行辅助信息的分析以进行标签的确定。另外,人工确定标签可能具有一定的局限性,可能会忽视一些隐含风险语义,或额外增加一些对业务贡献不大的标签模式。此外,有语义数据样本一般较小,对于模型的训练不够。
针对以上问题,本公开提出了一种用于风险识别的半监督深度学习网络。其使用少量的有语义数据样本与无语义数据样本来对用于无语义数据样本的风险识别模型(在本文中也被称为第一风险类别模型)进行联合训练,提升该风险识别模型的预测风险类别的有效性,由此更好地精准聚类。进一步,本公开利用有语义数据样本为聚类结果提供语义信息,并将该语义信息应用于无语义数据源样本的聚类结果,使其具有可解释性。从通用的角度上来说,本公开提供了一种通过利用少量的有语义数据样本,帮助从大量的无语义数据样本挖掘出与之相对应的风险类别模式的半监督学习方案。
图1是根据本公开的用于风险识别的装置的示图。
如图1所示,用于风险识别的装置100包括两个分支:无语义分支和有语义分支。无语义分支可包括第一特征提取模块102、第一映射模块106和第一聚类模块110。有语义分支可包括第二特征提取模块104、第二映射模块108和第二聚类模块112。
无语义分支和有语义分支的输入分别为无语义训练数据样本和有语义训练数据样本。在训练过程中,有语义分支用于对无语义分支的联合训练,以使得无语义分支能够在预测过程中更准确地识别风险实例的类型。
可将无语义训练数据样本输入第一特征提取模块102以提取无语义训练特征向量e1。
无语义训练数据样本可以是多模态数据样本,例如,可包括数值型数据、序列类型数据和图类型数据等。
数值型数据可以包括风险实例本身的属性,例如,交易金额、交易场景(例如,应用内的交易场景A、B、C等)、用户统计数据(例如,过去一周发生的夜间交易次数等)等离散数值型数据。
序列类型数据可以包括风险实例所涉及的用户(例如,交易主动方和被动方)的历史行为数据。
图类型数据可以是表征多个用户之间关系的关系网的数据,例如,交易中资金流动的网络图。
可以针对不同模态的无语义训练数据,使用其适合的神经网络模型来提取特征向量。
例如,数值型数据可以使用Wide&Deep、DeepFM等模型来提取特征向量,序列类型数据可以使用循环神经网络(RNN)、Transformer/Informer、卷积神经网络(CNN)等模型来提取特征向量,图类型数据可以使用GNN,GCN等图网络模型来提取特征向量。
在第一特征提取模块中可设有多个分支,分别对不同类型的数据样本提取特征向量。
同样,可将有语义训练数据样本输入第二特征提取模块104以提取有语义训练特征向量e2。
有语义训练数据样本也可以是多模态数据样本,例如,可包括文本数据、图像数据和结构化数据等。
文本数据可以是反馈信息的文本,包括风险实例的描述性信息,其中可包括关于风险实例的风险类别描述(例如,文本描述)。
图像数据可以是图片形式的反馈信息,例如,用户上传的图片(例如,可以包括有风险的网站截图)。
结构化数据可以是例如表格形式的反馈信息,例如,用户报案时填报的信息、客服处理的客户反馈,其中也可包括关于风险实例的风险类别描述(例如,风险实例所涉及的风险类别选项)。
同样,可以针对不同模态的有语义训练数据,使用其适合的神经网络模型来提取特征向量。
例如,结构化数据可以使用Wide&Deep、DeepFM等模型来提取特征向量,文本数据可以使用Transformer、Bert、TextCNN、LSTM等常规NLP模型来提取特征向量,图像数据可以使用ResNet等模型来提取特征向量。
同样,在第二特征提取模块中可设有多个分支,分别对不同类型的数据样本提取特征向量。
无语义分支还可包括第一映射模块106。第一映射模块106用于将无语义训练特征向量e1映射到有语义训练特征向量空间域以生成相应的向量e1’,也称为经映射的无语义训练特征向量。
有语义分支还可包括第二映射模块108。第二映射模块108用于将有语义训练特征向量e2映射到无语义训练特征向量空间域以生成相应的向量e2’,也称为经映射的有语义训练特征向量。
第一映射模块106和第二映射模块108都可以是多层感知机(MLP)。
对比学习模块114将第一分支的特征向量与第二分支的特征向量进行对比学习。
与相同风险实例(例如,用户、交易等)相关联的无语义训练数据样本和有语义数据训练样本可构成正样本对。与不同风险实例相关联的无语义训练数据样本和有语义数据训练样本可构成负样本对。
对比学习的目标包括缩小与相同风险实例相关的无语义训练特征向量和经映射的有语义训练特征向量之间的距离并且扩大与不同风险实例相关的无语义训练特征向量和经映射的有语义训练特征向量之间的距离,以及缩小与相同风险实例相关的有语义训练特征向量和经映射的无语义训练特征向量之间的距离并且扩大与不同风险实例相关的有语义训练特征向量和经映射的无语义训练特征向量之间的距离。
在训练过程中,对比学习模块114可以确定无语义训练特征向量e1与经映射的有语义训练特征向量e2’之间的对比学习损失函数lossc1。对比学习模块114还可以确定有语义训练特征向量e2与经映射的无语义训练特征向量e1’之间的对比学习损失函数lossc2。
根据本公开的各方面,对比学习的目标在于使对比学习损失函数lossc1和lossc2收敛。
本公开利用对比学习,在训练过程中将有语义分支中特征向量的风险类别语义性引入到无语义分支中,提升无语义分支模型的风险类别学习的有效性,由此能够在预测过程中更精准地聚类。
第一聚类模块110可用于对无语义训练特征向量进行聚类。
第一聚类模块可以使用Kmeans等传统聚类算法,也可以使用一些新的深度模型聚类结构,例如,agglomerative clustering。
在一方面,第一聚类模块110的预测输出可以是聚类结果向量[pa1,pa2,…pan],其中向量的每个元素对应于一种风险类别,每个向量元素pai表示对应无语义数据样本属于类别i的概率。
同样,第二聚类模块可以使用Kmeans等传统聚类算法,也可以使用一些新的深度模型聚类结构。
在一方面,第二聚类模块112的预测输出可以是聚类结果向量[pb1,pb2,…pbn],其中向量的每个元素对应于一种风险类别,每个向量元素pbi表示对应有语义数据样本属于类别i的概率。
第一聚类模块和第二聚类模块的结构可以相同,由此其输出的聚类结果是相同维度的向量。
可任选地,可在第一特征提取模块102与第一聚类模块110、以及在第二特征提取模块104与第一聚类模块112之间分别插入一MLP。
相似性学习模块116用于保证无语义分支的聚类结果与有语义分支的聚类结构的一致性。
第一聚类学习模块116用于使无语义分支的聚类结果收敛。
第二聚类学习模块118用于使有语义分支的聚类结果收敛。
图2是根据本公开的用于风险识别的训练过程的示意图。
在用于风险识别的模型的训练过程中,可以将无语义训练数据样本输入无语义分支中的第一特征提取模块202,并且将有语义训练数据样本输入有语义分支中的第二特征提取模块204。第一特征提取模块202和第二特征提取模块204类似于如图1中所示的第一特征提取模块102和第二特征提取模块104。
第一特征提取模块202可对无语义训练数据样本提取特征并输出无语义训练特征向量e1,并且第二特征提取模块204可对有语义训练数据样本提取特征并输出无语义训练特征向量e2。
第一映射模块206可将无语义训练特征向量e1映射到有语义向量空间域以生成经映射的无语义训练特征向量e1’,并且第二映射模块208可将有语义训练特征向量e2映射到无语义向量空间域以生成经映射的有语义训练特征向量e2’。
对比学习模块214可接收无语义训练特征向量e1、经映射的无语义训练特征向量e1’、有语义训练特征向量e2、以及经映射的有语义训练特征向量e2’并且进行对比学习。
对比学习模块214可以计算无语义训练特征向量e1和经映射的有语义训练特征向量e2’之间的损失函数lc1、以及有语义训练特征向量e2和经映射的无语义训练特征向量e1’之间的损失函数lc2。
在训练过程中,与多个风险实例相关联的多个无语义数据训练样本和多个有语义数据训练样本可分别被输入无语义分支和有语义分支。
如上所述,可以将与相同风险实例(例如,用户、交易等)相关联的无语义数据训练样本和有语义数据训练样本组成正样本对,并且将与不同风险实例相关联的无语义数据训练样本和有语义数据训练样本组成负样本对来进行对比学习。
进一步,与正样本对中的无语义训练数据样本和有语义数据训练样本相对应的无语义训练特征向量e1和经映射的有语义训练特征向量e2’可构成第一正特征向量对;并且与负样本对中的无语义训练数据样本和有语义数据训练样本相对应的无语义训练特征向量e1和经映射的有语义训练特征向量e2’可构成第一负特征向量对。
类似地,与正样本对中的有语义训练数据样本和无语义数据训练样本相对应的有语义训练特征向量e2和经映射的无语义训练特征向量e1’可构成第二正特征向量对。与负样本对中的有语义训练数据样本和无语义数据训练样本相对应的有语义训练特征向量e2和经映射的无语义训练特征向量e1’可构成第二负特征向量对。
对比学习的目标可包括缩小第一正特征向量对的两个向量之间的距离并且扩大第一负特征向量对的两个向量之间的距离、以及缩小第二正特征向量对的两个向量之间的距离并且扩大第二负特征向量对的两个向量之间的距离。
作为一个示例,在对比学习模块中,可以使得与相同风险实例相关联的无语义训练特征向量e1和经映射的有语义训练特征向量e2’之间的距离(例如,欧式距离)远远大于与不同风险实例相关联的无语义训练特征向量e1和经映射的有语义训练特征向量e2’之间的距离。进一步,使得与相同风险实例相关联的有语义训练特征向量e2和经映射的无语义训练特征向量e1’之间的欧式距离远远大于与不同风险实例相关联的有语义训练特征向量e2和经映射的无语义训练特征向量e1’之间的距离。
损失函数lossc1和lossc2可以包括InfoNCE loss函数或者triplet loss函数。
在一方面,本公开还包括无语义分支的输出a与有语义分支的输出b之间的相似性学习。相似性学习是为了保证与相同风险实例相关联的无语义分支输出a和有语义分支输出b之间的一致性。
相似性学习模块216可以计算第一聚类模块210的输出与第二聚类模块212的输出之间的相似性损失函数ls。
相似性损失函数可包括MAE(平均绝对误差)、MSE(均方误差)、余弦距离等函数。
以欧式距离为例,相似性学习的目标可以包括使与相同风险实例相关联(即,与正样本对相对应)的无语义分支输出向量与有语义分支输出向量之间的欧式距离最小化,使与不同风险实例相关联(即,与负样本对相对应)的无语义分支输出向量与有语义分支输出向量之间的欧式距离最大化。
如图2所示,本公开的用于风险识别模型的训练还可以包括对无语义分支聚类结果的训练和对有语义分支聚类结果的训练。
具体而言,可以计算第一聚类模块210的输出a的聚类损失函数lossa和第一聚类模块212的输出b的聚类损失函数lossb。
聚类损失函数lossa和lossb可以包括k-means损失函数、聚类分配硬化(clusterassignment hardening)损失函数、balance assignments损失函数、group sparsity损失函数。
balance assignment损失函数是一种为了平衡不同聚类类别中样本数量的损失函数,具体公式为:Lba=KL(G||U),其中KL代表KL散度函数,U为均匀分布,G是模型预测出的聚类结果的概率分布。group sparsity损失函数是一种保证组稀疏性的损失函数,它被证明是一种有效的提升表征学习效果的损失函数。其具体公式为:Lgs=sum_N(sum_G(lambda_g||f_g(x_i))),其中N为样本数量,G为group数量,是一个超参数。
lossa和lossb可以是相同类型的损失函数。
根据本公开的各方面,聚类训练的目的是使lossa和lossb收敛。
在本公开的一方面,可以使对比学习、相似性学习和聚类结果学习的损失函数同时收敛。
例如,可以使对比学习损失函数lossc1、lossc2、相似性学习损失函数losss、和聚类结果学习损失函数lossa、lossb的加权结果收敛。
具体而言,可以定义用于风险识别的模型的总损失函数:
L=wc1lossc1+wc2lossc2+wslosss+walossa+wblossb。
其中wc1、wc2、ws、wa、和wb分别是lossc1、lossc2、losss、lossa、和lossb的权重,其取值可以根据具体实现或要求来设置。在一方面,wc1、wc2、ws、wa、和wb均为1。
模型的训练目的是使得总损失函数L收敛。
本公开的一方面包括对聚类结果的风险类别标签向量的确定。可以在无语义分支和有语义分支的联合训练完成之后且在使用无语义分支进行预测之前,进行模型输出的风险类别标签向量的确定。所确定的风险类别标签向量可以在后续利用无语义分支进行预测的过程中对聚类结果(即,第一聚类结果)进行风险类别的解释。
风险类别标签向量的确定可以包括利用有语义分支的聚类结果及其对应的风险类别语义来确定聚类结果向量中每一个元素(维度)的风险类别标签。在无语义分支的预测过程中,可将关于有语义分支确定的风险类别标签应用于无语义分支的聚类结果向量。
具体而言,可将与一风险实例相关的无语义数据样本输入经训练的无语义分支,经过经训练的第一特征提取模块102和经训练的聚类模块110处理,得到对该风险实例的风险类别的聚类结果向量a。该聚类结果向量a可以表示为n维向量[pa1,pa2,…pan],其中向量的每个元素对应于一种风险类别,pai表示该风险实例属于第i个风险类别的概率。
但由于无语义数据样本并不包括关于风险类别的语义信息,因此无法确定聚类结果向量中每个元素所代表的风险类别,即,聚类结果的具体风险类别解释(例如,无风险、风险类别1、……风险类别n)。
在本公开中,可以利用有语义分支进行聚类结果的标签确定。
例如,可以将与一风险实例相关的有语义数据样本输入有语义分支,经过经训练的第二特征提取模块104和经训练的第二聚类模块112的处理来输出聚类结果向量b=[pb1,pb2,…pbn]。同样,其中向量的每个元素对应于一种风险类别,pbi表示该风险实例属于第i个风险类别的概率。
可以根据作为有语义分支输入的有语义数据样本来确定其对应的风险类别。例如,对于文本形式的有语义数据样本,可以通过文本识别提取关键词来确定该数据样本所对应的风险类别;对于图像形式的有语义数据样本,可以通过图片元素提取来确定该数据样本所对应的风险类别,等等。
进一步,可以分析该有语义数据样本的聚类结果向量b=[pb1,pb2,…pbn],以确定相应的向量维度对应于所确定的风险类别。例如,可以确定聚类结果向量中值最大的元素pbi的维度i,并确定聚类结果向量的该维度i的标签为所确定的风险类别yi。
通过多个有语义数据样本的标签确定,可以获得聚类结果向量的全部n个维度的风险类别标签,由此获得与聚类结果向量相对应的风险类别标签向量[y1,y2,…yn]。
进一步,可将通过有语义分支的处理所确定的风险类别标签向量[y1,y2,…yn]应用于无语义分支的聚类结果向量[pa1,pa2,…pan],由此在使用无语义分支进行预测的过程中,其聚类结果可具有较为准确的风险类别标签。
图3是根据本公开的各方面的用于风险识别的方法的流程图。
在步骤302,可以获取与风险实例相关的无语义训练数据样本和有语义训练数据样本。
无语义训练数据样本是不具有关于风险类别的语义的数据样本,而有语义训练数据样本是具有关于风险类别的语义的数据样本,如上所述。
在步骤304,可以使用无语义训练数据样本和有语义训练数据样本来对第一风险识别模型和第二风险识别模型进行联合训练。
图4是根据本公开的各方面的用于联合训练的方法的流程图。
图4是对图3的步骤304的具体解说。
在步骤402,可以提取无语义训练特征向量和有语义训练特征向量。
第一风险识别模型可包括第一特征提取模块和第一聚类模块,并且第二风险识别模型可包括第二特征提取模块和第二聚类模块。可以分别使用第一特征提取模块和第二特征提取模块对无语义训练数据样本和有语义训练数据样本进行特征提取以生成无语义训练特征向量和有语义训练特征向量。
在步骤404,可以对无语义训练特征向量和有语义训练特征向量进行对比学习,以使得所述对比学习的损失函数收敛。
图5是根据本公开的各方面的用于对比学习的方法的流程图。
在步骤502,可以对无语义训练特征向量进行映射处理以生成经映射的无语义训练特征向量。
例如,可以使用第一映射模块106/206对无语义训练特征向量进行处理以生成经映射的无语义训练特征向量。
在步骤504,可以对有语义训练特征向量进行映射处理以生成经映射的有语义训练特征向量。
例如,可以使用第二映射模块108/208对有语义训练特征向量进行处理以生成经映射的有语义训练特征向量。
在步骤506,可以将无语义训练特征向量与经映射的有语义训练特征向量进行对比学习。
无语义训练特征向量与经映射的有语义训练特征向量的对比学习的目标可包括:缩小与相同风险实例相关的无语义训练特征向量和经映射的有语义训练特征向量之间的距离并且扩大与不同风险实例相关的无语义训练特征向量和经映射的有语义训练特征向量之间的距离。
无语义训练特征向量与经映射的有语义训练特征向量的对比学习的目标可包括使有语义训练特征向量和所述经映射的无语义训练特征向量之间的对比学习损失函数收敛。
在步骤508,可以将有语义训练特征向量与经映射的无语义训练特征向量进行对比学习。
有语义训练特征向量与经映射的无语义训练特征向量的对比学习的目标可包括:缩小与相同风险实例相关的有语义训练特征向量和经映射的无语义训练特征向量之间的距离并且扩大与不同风险实例相关的有语义训练特征向量和经映射的无语义训练特征向量之间的距离。
有语义训练特征向量与经映射的无语义训练特征向量的对比学习的目标可包括:使无语义训练特征向量和经映射的有语义训练特征向量之间的对比学习损失函数收敛。
对比学习损失函数可包括infoNCE loss函数和triplet loss函数。
进一步,用于风险识别的方法可包括将所述无语义训练特征向量和所述有语义训练特征向量分别输入第一聚类模块和第二聚类模块以生成第一聚类结果和第二聚类结果。
在一方面,该方法还可包括使所述第一聚类结果和所述第二聚类结果之间的相似性损失函数收敛。
在又一方面,该方法可包括使所述第一聚类结果的损失函数收敛,并且使所述第二聚类结果的损失函数收敛。
在另一方面,该方法还可以包括使第一风险识别模型和第二风险识别模型的总损失函数收敛,其中总损失函数是以下各项的加权求和的结果:有语义训练特征向量和所述经映射的无语义训练特征向量之间的对比学习损失函数;无语义训练特征向量和经映射的有语义训练特征向量之间的对比学习损失函数;第一聚类结果和第二聚类结果之间的相似性损失函数;第一聚类结果的损失函数;以及第二聚类结果的损失函数。
在本公开的另一方面,可以针对所述第二聚类结果确定风险类别标签向量,以及将该风险类别标签向量应用于第一聚类结果。
图6是根据本公开的各方面的用于风险识别的装置的示图。
如图6所示,用于风险识别的装置600可包括第一风险识别模型602、第二风险识别模型604、对比学习模块606、相似性学习模块608、第一聚类学习模块610和第二聚类学习模块612。
第一风险识别模型602可包括第一特征提取模块和第一聚类模块(未示出),第二风险识别模型604可包括第二特征提取模块和第二聚类模块(未示出)。
第一风险识别模型602接收与风险实例相关的无语义训练数据样本并且使用第一特征提取模块对无语义训练数据样本进行特征提取以生成无语义训练特征向量。
第二风险识别模型604接收与风险实例相关的有语义训练数据样本并且使用第二特征提取模块对有语义训练数据样本进行特征提取以生成有语义训练特征向量。
对比学习模块606使用所述无语义训练数据样本和所述有语义训练数据样本来对第一风险识别模型和第二风险识别模型进行联合训练。具体而言,对比学习模块用于对无语义训练特征向量和有语义训练特征向量进行对比学习,以使得对比学习的损失函数收敛。
图6中的对比学习模块606可包括第一映射模块和第二映射模块(例如,图1和2中所示的第一映射模块106/206和第二映射模块108/208)。
第一映射模块可以对无语义训练特征向量进行映射处理以生成经映射的无语义训练特征向量。
第二映射模块可以对有语义训练特征向量进行映射处理以生成经映射的有语义训练特征向量。
对比学习模块606可以将无语义训练特征向量与经映射的有语义训练特征向量进行对比学习,并且将有语义训练特征向量与经映射的无语义训练特征向量进行对比学习。
对比学习的目标包括:缩小与相同风险实例相关的无语义训练特征向量和经映射的有语义训练特征向量之间的距离并且扩大与不同风险实例相关的无语义训练特征向量和经映射的有语义训练特征向量之间的距离,以及缩小与相同风险实例相关的有语义训练特征向量和经映射的无语义训练特征向量之间的距离并且扩大与不同风险实例相关的有语义训练特征向量和经映射的无语义训练特征向量之间的距离。
对比学习模块还可用于使有语义训练特征向量和经映射的无语义训练特征向量之间的对比学习损失函数收敛;以及使无语义训练特征向量和经映射的有语义训练特征向量之间的对比学习损失函数收敛。
对比学习损失函数可包括infoNCE loss函数和triplet loss函数。
第一聚类模块可以对无语义训练特征向量进行聚类处理以生成第一聚类结果;并且第二聚类模块可以对有语义训练特征向量进行聚类处理以生成第二聚类结果。
相似性学习模块608可用于使第一聚类结果和第二聚类结果之间的相似性损失函数收敛。
第一聚类学习模块610可用于使第一聚类结果的损失函数收敛。
第二聚类学习模块612可用于使第二聚类结果的损失函数收敛。
装置600还可以包括总训练模块(未示出),其可用于使第一风险识别模型和第二风险识别模型的总损失函数收敛,其中总损失函数可以是以下各项的加权求和的结果:有语义训练特征向量和经映射的无语义训练特征向量之间的对比学习损失函数;无语义训练特征向量和经映射的有语义训练特征向量之间的对比学习损失函数;第一聚类结果和第二聚类结果之间的相似性损失函数;第一聚类结果的损失函数;以及第二聚类结果的损失函数。
可任选地,装置600还可以包括风险类别标签确定模块614,其可用于用于针对所述第二聚类结果确定风险类别标签向量;以及将所述风险类别标签向量应用于所述第一聚类结果。
图7是根据本申请的各方面的用于风险识别的电子设备的示图。
如图7所示,电子设备700可包括存储器702和处理器704。存储器702中存储有程序指令,处理器704可通过总线706与存储器702连接并通信。
处理器704可调用存储器702中的程序指令以执行以下步骤:获取与风险实例相关的无语义训练数据样本和有语义训练数据样本;使用无语义训练数据样本和有语义训练数据样本来对第一风险识别模型和第二风险识别模型进行联合训练;其中,第一风险识别模型包括第一特征提取模块和第一聚类模块,第二风险识别模型包括第二特征提取模块和第二聚类模块,联合训练包括:分别使用第一特征提取模块和第二特征提取模块对无语义训练数据样本和有语义训练数据样本进行特征提取以生成无语义训练特征向量和有语义训练特征向量;以及对无语义训练特征向量和有语义训练特征向量进行对比学习,以使得对比学习的损失函数收敛。
可任选地,处理器404还可以调用存储器402中的程序指令以执行以下步骤:使第一映射模块对无语义训练特征向量进行处理以生成经映射的无语义训练特征向量;使第二映射模块对有语义训练特征向量进行处理以生成经映射的有语义训练特征向量;以及将无语义训练特征向量与经映射的有语义训练特征向量进行对比学习,以及将有语义训练特征向量与经映射的无语义训练特征向量进行对比学习。其中对比学习的目标包括:缩小与相同风险实例相关的无语义训练特征向量和经映射的有语义训练特征向量之间的距离并且扩大与不同风险实例相关的无语义训练特征向量和经映射的有语义训练特征向量之间的距离,以及缩小与相同风险实例相关的有语义训练特征向量和经映射的无语义训练特征向量之间的距离并且扩大与不同风险实例相关的有语义训练特征向量和经映射的无语义训练特征向量之间的距离。
可任选地,处理器404还可以调用存储器402中的程序指令以执行以下步骤:使有语义训练特征向量和经映射的无语义训练特征向量之间的对比学习损失函数收敛;以及使无语义训练特征向量和经映射的有语义训练特征向量之间的对比学习损失函数收敛。对比学习损失函数可包括infoNCE loss函数和triplet loss函数。
可任选地,处理器404还可以调用存储器402中的程序指令以执行以下步骤:将无语义训练特征向量和有语义训练特征向量分别输入第一聚类模块和第二聚类模块以生成第一聚类结果和第二聚类结果。
可任选地,处理器404还可以调用存储器402中的程序指令以执行以下步骤:使第一聚类结果和第二聚类结果之间的相似性损失函数收敛;使第一聚类结果的损失函数收敛;以及使第二聚类结果的损失函数收敛。
可任选地,处理器404还可以调用存储器402中的程序指令以执行以下步骤:使第一风险识别模型和第二风险识别模型的总损失函数收敛,其中总损失函数是以下各项的加权求和的结果:有语义训练特征向量和经映射的无语义训练特征向量之间的对比学习损失函数;无语义训练特征向量和经映射的有语义训练特征向量之间的对比学习损失函数;第一聚类结果和第二聚类结果之间的相似性损失函数;第一聚类结果的损失函数;以及第二聚类结果的损失函数。
可任选地,处理器404还可以调用存储器402中的程序指令以执行以下步骤:针对第二聚类结果确定风险类别标签向量;以及将风险类别标签向量应用于第一聚类结果。
如上所述,本公开的用于风险识别的方案可包括模型准备阶段和模型预测阶段。
模型准备阶段可包括对无语义分支和有语义分支的联合训练,利用有语义数据样本中的丰富语义帮助神经网络模型对无语义数据样本进行更好的细粒度划分,以增强模型对风险类型划分的准确度。
可任选地,模型准备阶段可包括风险类别标签向量的确定。在无语义分支和有语义分支的联合训练之后,可以利用有语义分支来确定聚类模块的输出向量中每个维度的风险类别标签(如上所述),从而得到风险类别标签向量。
模型预测阶段使用将无语义数据样本输入无语义分支进行预测,以得到该无语义数据样本的聚类结果。可任选地,可以使用模型准备阶段所确定的风险类别标签向量来确定该无语义数据样本的聚类结果所对应的风险类别标签。
本公开的方案改进了无语义数据样本的预测准确度,并且能够向聚类的预测结果赋予具体的风险类别解释。
本文结合附图阐述的说明描述了示例配置而不代表可被实现或者落在权利要求的范围内的所有示例。本文所使用的术语“示例性”意指“用作示例、实例或解说”,而并不意指“优于”或“胜过其他示例”。本详细描述包括具体细节以提供对所描述的技术的理解。然而,可以在没有这些具体细节的情况下实践这些技术。在一些实例中,众所周知的结构和设备以框图形式示出以避免模糊所描述的示例的概念。
在附图中,类似组件或特征可具有相同的附图标记。此外,相同类型的各个组件可通过在附图标记后跟随短划线以及在类似组件之间进行区分的第二标记来加以区分。如果在说明书中仅使用第一附图标记,则该描述可应用于具有相同的第一附图标记的类似组件中的任何一个组件而不论第二附图标记如何。
结合本文中的公开描述的各种解说性框以及模块可以用设计成执行本文中描述的功能的通用处理器、DSP、ASIC、FPGA或其他可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可被实现为计算设备的组合(例如,DSP与微处理器的组合、多个微处理器、与DSP核心协同的一个或多个微处理器,或者任何其他此类配置)。
本文中所描述的功能可以在硬件、由处理器执行的软件、固件、或其任何组合中实现。如果在由处理器执行的软件中实现,则各功能可以作为一条或多条指令或代码存储在计算机可读介质上或藉其进行传送。其他示例和实现落在本公开及所附权利要求的范围内。例如,由于软件的本质,以上描述的功能可使用由处理器执行的软件、硬件、固件、硬连线或其任何组合来实现。实现功能的特征也可物理地位于各种位置,包括被分布以使得功能的各部分在不同的物理位置处实现。另外,如本文(包括权利要求中)所使用的,在项目列举(例如,以附有诸如“中的至少一个”或“中的一个或多个”之类的措辞的项目列举)中使用的“或”指示包含性列举,以使得例如A、B或C中的至少一个的列举意指A或B或C或AB或AC或BC或ABC(即,A和B和C)。同样,如本文所使用的,短语“基于”不应被解读为引述封闭条件集。例如,被描述为“基于条件A”的示例性步骤可基于条件A和条件B两者而不脱离本公开的范围。换言之,如本文所使用的,短语“基于”应当以与短语“至少部分地基于”相同的方式来解读。
计算机可读介质包括非瞬态计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。非瞬态存储介质可以是能被通用或专用计算机访问的任何可用介质。作为示例而非限定,非瞬态计算机可读介质可包括RAM、ROM、电可擦除可编程只读存储器(EEPROM)、压缩盘(CD)ROM或其他光盘存储、磁盘存储或其他磁存储设备、或能被用来携带或存储指令或数据结构形式的期望程序代码手段且能被通用或专用计算机、或者通用或专用处理器访问的任何其他非瞬态介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来的,则该同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文所使用的盘(disk)和碟(disc)包括CD、激光碟、光碟、数字通用碟(DVD)、软盘和蓝光碟,其中盘常常磁性地再现数据而碟用激光来光学地再现数据。以上介质的组合也被包括在计算机可读介质的范围内。
提供本文的描述是为了使得本领域技术人员能够制作或使用本公开。对本公开的各种修改对于本领域技术人员将是显而易见的,并且本文中定义的普适原理可被应用于其他变形而不会脱离本公开的范围。由此,本公开并非被限定于本文所描述的示例和设计,而是应被授予与本文所公开的原理和新颖特征相一致的最广范围。
Claims (21)
1.一种用于风险识别的方法,包括:
获取与风险实例相关的无语义训练数据样本和有语义训练数据样本;
使用所述无语义训练数据样本和所述有语义训练数据样本来对所述第一风险识别模型和所述第二风险识别模型进行联合训练;
其中,所述第一风险识别模型包括第一特征提取模块和第一聚类模块,所述第二风险识别模型包括第二特征提取模块和第二聚类模块,所述联合训练包括:
分别使用所述第一特征提取模块和所述第二特征提取模块对所述无语义训练数据样本和所述有语义训练数据样本进行特征提取以生成无语义训练特征向量和有语义训练特征向量;以及
对所述无语义训练特征向量和所述有语义训练特征向量进行对比学习,以使得所述对比学习的损失函数收敛。
2.如权利要求1所述的方法,所述对比学习包括:
使用第一映射模块对所述无语义训练特征向量进行处理以生成经映射的无语义训练特征向量;
使用第二映射模块对所述有语义训练特征向量进行处理以生成经映射的有语义训练特征向量;以及
将所述无语义训练特征向量与所述经映射的有语义训练特征向量进行对比学习,以及将所述有语义训练特征向量与所述经映射的无语义训练特征向量进行对比学习。
3.如权利要求2所述的方法,所述对比学习的目标包括:
缩小与相同风险实例相关的无语义训练特征向量和经映射的有语义训练特征向量之间的距离并且扩大与不同风险实例相关的无语义训练特征向量和经映射的有语义训练特征向量之间的距离,以及
缩小与相同风险实例相关的有语义训练特征向量和经映射的无语义训练特征向量之间的距离并且扩大与不同风险实例相关的有语义训练特征向量和经映射的无语义训练特征向量之间的距离。
4.如权利要求3所述的方法,所述对比学习包括:
使所述有语义训练特征向量和所述经映射的无语义训练特征向量之间的对比学习损失函数收敛;以及
使所述无语义训练特征向量和所述经映射的有语义训练特征向量之间的对比学习损失函数收敛。
5.如权利要求4所述的方法,所述对比学习损失函数包括infoNCE loss函数和tripletloss函数。
6.如权利要求1所述的方法,进一步包括:
将所述无语义训练特征向量输入所述第一聚类模块以生成第一聚类结果;以及
将所述有语义训练特征向量输入所述第二聚类模块以生成第二聚类结果。
7.如权利要求6所述的方法,进一步包括:
使所述第一聚类结果和所述第二聚类结果之间的相似性损失函数收敛。
8.如权利要求6所述的方法,进一步包括:
使所述第一聚类结果的损失函数收敛;以及
使所述第二聚类结果的损失函数收敛。
9.如权利要求6所述的方法,进一步包括:
使所述第一风险识别模型和所述风险识别模型的总损失函数收敛,其中所述总损失函数是以下各项的加权求和的结果:
所述有语义训练特征向量和所述经映射的无语义训练特征向量之间的对比学习损失函数;
所述无语义训练特征向量和所述经映射的有语义训练特征向量之间的对比学习损失函数;
所述第一聚类结果和所述第二聚类结果之间的相似性损失函数;
所述第一聚类结果的损失函数;以及
所述第二聚类结果的损失函数。
10.如权利要求6所述的方法,进一步包括:
针对所述第二聚类结果确定风险类别标签向量;以及
将所述风险类别标签向量应用于所述第一聚类结果。
11.一种用于风险识别的装置,包括:
第一风险识别模型,所述第一风险识别模型包括第一特征提取模块和第一聚类模块,所述第一特征提取模块接收与风险实例相关的无语义训练数据样本并且对所述无语义训练数据样本进行特征提取以生成无语义训练特征向量;
第二风险识别模型,所述第二风险识别模型包括第二特征提取模块和第二聚类模块,所述第二特征提取模块接收与风险实例相关的有语义训练数据样本并且对所述有语义训练数据样本进行特征提取以生成有语义训练特征向量;
对比学习模块,其用于使用所述无语义训练数据样本和所述有语义训练数据样本来对所述第一风险识别模型和所述第二风险识别模型进行联合训练,其中所述对比学习模块用于对所述无语义训练特征向量和所述有语义训练特征向量进行对比学习,以使得所述对比学习的损失函数收敛。
12.如权利要求11所述的装置,所述对比学习模块进一步用于:
使用第一映射模块对所述无语义训练特征向量进行处理以生成经映射的无语义训练特征向量;
使用第二映射模块对所述有语义训练特征向量进行处理以生成经映射的有语义训练特征向量;以及
将所述无语义训练特征向量与所述经映射的有语义训练特征向量进行对比学习,以及将所述有语义训练特征向量与所述经映射的无语义训练特征向量进行对比学习。
13.如权利要求12所述的装置,所述对比学习的目标包括:
缩小与相同风险实例相关的无语义训练特征向量和经映射的有语义训练特征向量之间的距离并且扩大与不同风险实例相关的无语义训练特征向量和经映射的有语义训练特征向量之间的距离,以及
缩小与相同风险实例相关的有语义训练特征向量和经映射的无语义训练特征向量之间的距离并且扩大与不同风险实例相关的有语义训练特征向量和经映射的无语义训练特征向量之间的距离。
14.如权利要求13所述的装置,所述对比学习模块进一步用于:
使所述有语义训练特征向量和所述经映射的无语义训练特征向量之间的对比学习损失函数收敛;以及
使所述无语义训练特征向量和所述经映射的有语义训练特征向量之间的对比学习损失函数收敛。
15.如权利要求14所述的装置,所述对比学习损失函数包括infoNCE loss函数和tripletloss函数。
16.如权利要求11所述的装置,其中:
所述第一聚类模块对所述无语义训练特征向量进行聚类处理以生成第一聚类结果;并且
所述第二聚类模块对所述有语义训练特征向量进行聚类处理以生成第二聚类结果。
17.如权利要求16所述的装置,进一步包括相似性学习模块,其用于使所述第一聚类结果和所述第二聚类结果之间的相似性损失函数收敛。
18.如权利要求16所述的装置,进一步包括:
第一聚类学习模块,其用于使所述第一聚类结果的损失函数收敛;以及
第二聚类学习模块,其用于使所述第二聚类结果的损失函数收敛。
19.如权利要求16所述的装置,进一步包括:
总训练模块,其用于使所述第一风险识别模型和所述第二风险识别模型的总损失函数收敛,其中所述总损失函数是以下各项的加权求和的结果:
所述有语义训练特征向量和所述经映射的无语义训练特征向量之间的对比学习损失函数;
所述无语义训练特征向量和所述经映射的有语义训练特征向量之间的对比学习损失函数;
所述第一聚类结果和所述第二聚类结果之间的相似性损失函数;
所述第一聚类结果的损失函数;以及
所述第二聚类结果的损失函数。
20.如权利要求16所述的装置,进一步包括:
风险类别标签确定模块,其用于针对所述第二聚类结果确定风险类别标签向量;以及将所述风险类别标签向量应用于所述第一聚类结果。
21.一种用于风险识别的装置,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取与风险实例相关的无语义训练数据样本和有语义训练数据样本;
使用所述无语义训练数据样本和所述有语义训练数据样本来对所述第一风险识别模型和所述第二风险识别模型进行联合训练;
其中,所述第一风险识别模型包括第一特征提取模块和第一聚类模块,所述第二风险识别模型包括第二特征提取模块和第二聚类模块,所述联合训练包括:
分别使用所述第一特征提取模块和所述第二特征提取模块对所述无语义训练数据样本和所述有语义训练数据样本进行特征提取以生成无语义训练特征向量和有语义训练特征向量;以及
对所述无语义训练特征向量和所述有语义训练特征向量进行对比学习,以使得所述对比学习的损失函数收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210142895.7A CN114529191B (zh) | 2022-02-16 | 用于风险识别的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210142895.7A CN114529191B (zh) | 2022-02-16 | 用于风险识别的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114529191A true CN114529191A (zh) | 2022-05-24 |
CN114529191B CN114529191B (zh) | 2024-10-22 |
Family
ID=
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117151111A (zh) * | 2023-08-15 | 2023-12-01 | 华南理工大学 | 基于感知和语义关联性的文本识别模型可靠性正则方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150310862A1 (en) * | 2014-04-24 | 2015-10-29 | Microsoft Corporation | Deep learning for semantic parsing including semantic utterance classification |
WO2019006091A2 (en) * | 2017-06-28 | 2019-01-03 | Google Llc | METHODS AND APPARATUS FOR MACHINE LEARNING FOR SEMANTIC ROBOTIC SEIZURE |
WO2019015785A1 (en) * | 2017-07-21 | 2019-01-24 | Toyota Motor Europe | METHOD AND SYSTEM FOR LEARNING A NEURAL NETWORK TO BE USED FOR SEMANTIC INSTANCE SEGMENTATION |
CN111046425A (zh) * | 2019-12-12 | 2020-04-21 | 支付宝(杭州)信息技术有限公司 | 多方联合进行风险识别的方法和装置 |
CN111712874A (zh) * | 2019-10-31 | 2020-09-25 | 支付宝(杭州)信息技术有限公司 | 用于确定声音特性的系统和方法 |
CN111723666A (zh) * | 2020-05-20 | 2020-09-29 | 同济大学 | 一种基于半监督学习的信号识别方法和装置 |
CN112651241A (zh) * | 2021-01-08 | 2021-04-13 | 昆明理工大学 | 一种基于半监督学习的汉语并列结构自动识别方法 |
CN112767922A (zh) * | 2021-01-21 | 2021-05-07 | 中国科学技术大学 | 一种对比预测编码自监督结构联合训练的语音识别方法 |
CN113723108A (zh) * | 2021-08-11 | 2021-11-30 | 北京工业大学 | 一种事件提取方法、装置、电子设备及存储介质 |
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150310862A1 (en) * | 2014-04-24 | 2015-10-29 | Microsoft Corporation | Deep learning for semantic parsing including semantic utterance classification |
WO2019006091A2 (en) * | 2017-06-28 | 2019-01-03 | Google Llc | METHODS AND APPARATUS FOR MACHINE LEARNING FOR SEMANTIC ROBOTIC SEIZURE |
WO2019015785A1 (en) * | 2017-07-21 | 2019-01-24 | Toyota Motor Europe | METHOD AND SYSTEM FOR LEARNING A NEURAL NETWORK TO BE USED FOR SEMANTIC INSTANCE SEGMENTATION |
CN111712874A (zh) * | 2019-10-31 | 2020-09-25 | 支付宝(杭州)信息技术有限公司 | 用于确定声音特性的系统和方法 |
CN111046425A (zh) * | 2019-12-12 | 2020-04-21 | 支付宝(杭州)信息技术有限公司 | 多方联合进行风险识别的方法和装置 |
CN111723666A (zh) * | 2020-05-20 | 2020-09-29 | 同济大学 | 一种基于半监督学习的信号识别方法和装置 |
CN112651241A (zh) * | 2021-01-08 | 2021-04-13 | 昆明理工大学 | 一种基于半监督学习的汉语并列结构自动识别方法 |
CN112767922A (zh) * | 2021-01-21 | 2021-05-07 | 中国科学技术大学 | 一种对比预测编码自监督结构联合训练的语音识别方法 |
CN113723108A (zh) * | 2021-08-11 | 2021-11-30 | 北京工业大学 | 一种事件提取方法、装置、电子设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117151111A (zh) * | 2023-08-15 | 2023-12-01 | 华南理工大学 | 基于感知和语义关联性的文本识别模型可靠性正则方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109101537B (zh) | 基于深度学习的多轮对话数据分类方法、装置和电子设备 | |
CN110069709B (zh) | 意图识别方法、装置、计算机可读介质及电子设备 | |
US9542477B2 (en) | Method of automated discovery of topics relatedness | |
CN107861951A (zh) | 智能客服中的会话主题识别方法 | |
CN109872162B (zh) | 一种处理用户投诉信息的风控分类识别方法及系统 | |
US20220100772A1 (en) | Context-sensitive linking of entities to private databases | |
CN110826639B (zh) | 一种利用全量数据训练零样本图像分类方法 | |
US20220100967A1 (en) | Lifecycle management for customized natural language processing | |
CN113742488B (zh) | 基于多任务学习的嵌入式知识图谱补全方法和装置 | |
CN112732871A (zh) | 一种机器人催收获取客户意向标签的多标签分类方法 | |
CN108550065A (zh) | 评论数据处理方法、装置及设备 | |
CN110377733A (zh) | 一种基于文本的情绪识别方法、终端设备及介质 | |
CN110458600A (zh) | 画像模型训练方法、装置、计算机设备及存储介质 | |
CN109271624A (zh) | 一种目标词确定方法、装置及存储介质 | |
CN110826315B (zh) | 使用神经网络系统识别短文本时效性的方法 | |
CN117011737A (zh) | 一种视频分类方法、装置、电子设备和存储介质 | |
CN118093839B (zh) | 基于深度学习的知识运营问答对话处理方法及系统 | |
CN113806501B (zh) | 意图识别模型的训练方法、意图识别方法和设备 | |
US11983207B2 (en) | Method, electronic device, and computer program product for information processing | |
CN114266252A (zh) | 命名实体识别方法、装置、设备及存储介质 | |
US20230351121A1 (en) | Method and system for generating conversation flows | |
CN113705159A (zh) | 商户名称的标注方法、装置、设备及存储介质 | |
CN113761184A (zh) | 文本数据的分类方法、设备及存储介质 | |
CN115510193B (zh) | 查询结果向量化方法、查询结果确定方法及相关装置 | |
CN114254622B (zh) | 一种意图识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |