CN110334130B - 一种交易数据的异常检测方法、介质、装置和计算设备 - Google Patents
一种交易数据的异常检测方法、介质、装置和计算设备 Download PDFInfo
- Publication number
- CN110334130B CN110334130B CN201910616942.5A CN201910616942A CN110334130B CN 110334130 B CN110334130 B CN 110334130B CN 201910616942 A CN201910616942 A CN 201910616942A CN 110334130 B CN110334130 B CN 110334130B
- Authority
- CN
- China
- Prior art keywords
- transaction data
- neural network
- network model
- data
- transaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Finance (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Accounting & Taxation (AREA)
- Fuzzy Systems (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明的实施方式提供了一种交易数据的异常检测方法、介质、装置和计算设备。该方法包括:基于预先获得的交易数据生成知识图谱;知识图谱的节点用于表示交易数据中的账户实体,两个节点之间的边用于表示两个节点分别对应的账户实体之间的交易关系;利用图神经网络对知识图谱进行图深度学习,得到知识图谱中每条边的特征表示,并将边的特征表示确定为边对应的交易数据的特征向量;将预先确定的待检测交易数据的特征向量输入利用交易数据的特征向量训练得到的神经网络模型,经过神经网络模型的处理后,输出待检测交易数据的检测结果。本发明能够自动化的完成交易数据的异常检测,与现有技术相比,避免了手动方式造成的不准确问题。
Description
技术领域
本发明的实施方式涉及互联网技术领域,更具体地,本发明的实施方式涉及一种交易数据的异常检测方法、介质、装置和计算设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
在银行等金融系统中,如果出现交易数据异常,则可能导致交易规则混乱、银行利益受损等。为了降低损失,金融系统对于交易数据的异常数据,需要及时发现并处理。
目前,对于交易数据的异常检测手段较多,但是都存在一些问题。例如,比较常用的基于异常模型的检测方法中,需要预先定义用于交易数据异常检测的异常模型,并且需要通过手动方式设置异常模型的参数。同时,由于参数是根据交易的特点动态变化的,所以配置人员需要根据动态变化的参数,频繁的对异常模型进行配置,可见对异常模型进行参数配置是一项繁杂的任务,同时通过手动方式进行参数配置可能会造成参数配置不准确的问题,从而导致异常模型对交易数据异常的检测不准确。
因此,亟需一种交易数据的异常检测方法,能够对交易数据中的异常数据进行准确检测。
发明内容
本申请提供了一种交易数据的异常检测方法、介质、装置和计算设备,能够自动化的完成交易数据的异常检测,与现有技术相比,避免了手动方式造成的不准确问题。
本发明实施例是通过以下技术方案实现的:
在本发明实施方式的第一方面中,提供了一种交易数据的异常检测方法,所述方法包括:
基于预先获得的交易数据生成知识图谱;其中,所述知识图谱的节点用于表示所述交易数据中的账户实体,两个节点之间的边用于表示所述两个节点分别对应的账户实体之间的交易关系;
利用图神经网络对所述知识图谱进行图深度学习,得到所述知识图谱中每条边的特征表示,并将所述边的特征表示确定为所述边对应的交易数据的特征向量;
将预先确定的待检测交易数据的特征向量输入利用所述交易数据的特征向量训练得到的神经网络模型,经过所述神经网络模型的处理后,输出所述待检测交易数据的检测结果;其中,所述检测结果用于表示所述待检测交易数据是否异常。
一种可选的实施方式中,在所述将所述边的特征表示确定为所述边对应的交易数据的特征向量之前,还包括:
获取所述交易数据中第一预设字段的取值;
将所述取值与所述交易数据对应的所述知识图谱中的边的特征表示进行特征融合,得到融合后的特征表示;
相应的,所述将所述边的特征表示确定为所述边对应的交易数据的特征向量,具体为:
将所述融合后的特征表示确定为所述交易数据的特征向量。
一种可选的实施方式中,所述将预先确定的待检测交易数据的特征向量输入利用所述交易数据的特征向量训练得到的神经网络模型,经过所述神经网络模型的处理后,输出所述待检测交易数据的检测结果之前,还包括:
按照时间先后顺序,对所述交易数据进行时序采样,得到第一样本数据;其中,所述第一样本数据包括经过所述时序采样后得到的交易数据对应的特征向量和标签,所述标签用于表示所述交易数据是否异常;
利用所述第一样本数据对预先建立的神经网络模型进行训练,得到经过训练的神经网络模型。
一种可选的实施方式中,所述利用所述第一样本数据对预先建立的神经网络模型进行训练,得到经过训练的神经网络模型之前,还包括:
按照时间先后顺序,分别对每个用户的交易数据进行时序采样,得到第二样本数据;其中,所述第二样本数据包括经过所述时序采样后得到的每个用户的交易数据对应的特征向量和标签,所述标签用于表示所述交易数据是否异常;
相应的,所述利用所述第一样本数据对预先建立的神经网络模型进行训练,得到经过训练的神经网络模型,具体为:
利用所述第一样本数据和所述第二样本数据对预先建立的神经网络模型进行训练,得到经过训练的神经网络模型。
一种可选的实施方式中,所述按照时间先后顺序,分别对每个用户的交易数据进行时序采样,得到第二样本数据,包括:
基于预先设置的时间窗口,分别对每个用户的交易数据进行滑动窗口采样,得到第二样本数据。
一种可选的实施方式中,所述神经网络模型为长短期记忆网络LSTM神经网络模型。
一种可选的实施方式中,所述将预先确定的待检测交易数据的特征向量输入利用所述交易数据的特征向量训练得到的神经网络模型,经过所述神经网络模型的处理后,输出所述待检测交易数据的检测结果之前,还包括:
将所述交易数据的特征向量和标签构成第三样本数据,并利用所述第三样本数据对预先建立的神经网络模型进行训练,得到经过训练的神经网络模型。
在本发明实施方式的第二方面中,提供了一种交易数据的异常检测装置,所述装置包括:
生成模块,用于基于预先获得的交易数据生成知识图谱;其中,所述知识图谱的节点用于表示所述交易数据中的账户实体,两个节点之间的边用于表示所述两个节点分别对应的账户实体之间的交易关系;
学习模块,用于利用图神经网络对所述知识图谱进行图深度学习,得到所述知识图谱中每条边的特征表示;
第一确定模块,用于将所述边的特征表示确定为所述边对应的交易数据的特征向量;
处理模块,用于将预先确定的待检测交易数据的特征向量输入利用所述交易数据的特征向量训练得到的神经网络模型,经过所述神经网络模型的处理后,输出所述待检测交易数据的检测结果;其中,所述检测结果用于表示所述待检测交易数据是否异常。
一种可选的实施方式中,所述装置还包括:
获取模块,用于获取所述交易数据中第一预设字段的取值;
融合模块,用于将所述取值与所述交易数据对应的所述知识图谱中的边的特征表示进行特征融合,得到融合后的特征表示;
相应的,所述第一确定模块,具体用于:
将所述融合后的特征表示确定为所述交易数据的特征向量。
一种可选的实施方式中,所述装置还包括:
第一采样模块,用于按照时间先后顺序,对所述交易数据进行时序采样,得到第一样本数据;其中,所述第一样本数据包括经过所述时序采样后得到的交易数据对应的特征向量和标签,所述标签用于表示所述交易数据是否异常;
第一训练模块,用于利用所述第一样本数据对预先建立的神经网络模型进行训练,得到经过训练的神经网络模型。
一种可选的实施方式中,所述装置还包括:
第二采样模块,用于按照时间先后顺序,分别对每个用户的交易数据进行时序采样,得到第二样本数据;其中,所述第二样本数据包括经过所述时序采样后得到的每个用户的交易数据对应的特征向量和标签,所述标签用于表示所述交易数据是否异常;
相应的,所述第一训练模块,具体用于:
利用所述第一样本数据和所述第二样本数据对预先建立的神经网络模型进行训练,得到经过训练的神经网络模型。
一种可选的实施方式中,所述第二采样模块,具体用于:
基于预先设置的时间窗口,分别对每个用户的交易数据进行滑动窗口采样,得到第二样本数据。
一种可选的实施方式中,所述装置还包括:
第二训练模块,用于将所述交易数据的特征向量和标签构成第三样本数据,并利用所述第三样本数据对预先建立的神经网络模型进行训练,得到经过训练的神经网络模型。
在本发明实施方式的第三方面中,提供了一种介质,所述介质存储有计算机可执行指令,所述计算机可执行指令用于使所述计算机执行上述任一项所述的方法。
在本发明实施方式的第四方面中,提供了一种计算设备,包括处理单元、存储器以及I/O接口;其中
所述存储器,用于存储所述处理单元执行的程序或指令;
所述处理单元,用于根据所述存储器存储的程序或指令,执行上述任一项所述的方法;
所述I/O接口,用于在所述处理单元的控制下接收或发送数据。
本发明的实施方式提供的技术方案,利用经过训练的神经网络模型,对待检测交易数据进行处理,能够自动化的完成交易数据的异常检测,与现有技术相比,避免了手动方式造成的不准确问题。
另外,本发明的实施方式利用知识图谱表示预先获得的交易数据,然后利用图神经网络对该知识图谱进行图深度学习,得到每条边的特征表示,并作为每条边对应的交易数据的特征向量。由于通过本申请的实施方式确定的特征向量能够体现每条交易数据在图结构中表现出来的特征,因此,基于上述方式确定出来的特征向量对交易数据进行异常检测,能够检测出在图结构中表现异常的交易数据。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示意性地示出了本发明实施方式提供的一种银行系统的架构示意图;
图2示意性地示出了本发明另一实施例提供的一种交易数据的异常检测方法流程图;
图3示意性地示出了本发明又一实施例提供的一种交易数据的异常检测装置的结构示意图;
图4示意性地示出了本发明涉及的一种介质的结构示意图;
图5示意性地示出了本发明涉及的一种计算设备的结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种交易数据的异常检测方法、介质、装置和计算设备。
在本文中,需要理解的是,所涉及的几个概念的含义如下:
知识图谱,旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。基于三元组是知识图谱的一种通用表示方式,三元组的基本形式主要包括(实体1-关系-实体2)和(实体-属性-属性值)等。每个实体(概念的外延)可用一个全局唯一确定的ID来标识,每个属性-属性值对(attribute-value pair,AVP)可用来刻画实体的内在特性,而关系可用来连接两个实体,刻画它们之间的关联。本发明的实施方式主要利用三元组的实体1-关系-实体2的基本形式,表现为账户实体1-交易关系-账户实体2。
目前,生成知识图谱的工具主要为开源的图数据库Neo4j,对于其他的图状数据库,如Twitter的FlockDB、sones的GraphDB等,也可以作为生成知识图谱的工具。本发明的实施方式中不限定用于生成知识图谱的工具。
图神经网络(Graph Neural Network,GNN),是直接在图数据结构上运行的神经网络,是一类基于深度学习的处理图域信息的方法。由于其较好的性能和可解释性,GNN最近已成为一种广泛应用的图分析方法。
以上概念均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
另外,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
发明概述
本发明人发现,现有技术中的基于异常模型的交易数据异常检测方法中,需要手动设置异常模型中随交易的特点动态变化的参数,使得交易数据的异常检测复杂且不准确。
为此,本发明的实施方式提供了一种交易数据的异常检测方法,利用经过训练的神经网络模型,自动化的对待检测交易数据进行处理,得到待检测交易数据的检测结果。与现有技术相比,本发明避免了手动方式造成的复杂且不准确的问题。
另外,本发明人还发现,交易数据以图结构的形式展现时能够表现出一些仅通过交易数据本身表现不出来的特征,例如,大量用户向同一账户转入资金的场景,仅通过分析交易数据本身很难发现这一特征,但是将交易数据用知识图谱的图结构形式展现时,这一特征就非常明显了。
因此,为了尽量挖掘出交易数据在各个方面存在的异常,本发明利用知识图谱展示交易数据,然后利用图神经网络对知识图谱进行图深度学习,得到每条边的特征表示,并分别作为每条边对应的交易数据的特征向量。最终,基于上述方式确定出的特征向量,对交易数据进行异常检测,能够检测出在图结构中表现为异常的交易数据。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
应用场景总览
本发明的实施方式可以应用于银行系统等金融系统中,对于银行系统中的交易数据,利用本发明提供的交易数据的异常检测方法能够检测出其中的异常数据,以便及时对其进行处理,避免更大的损失发生。
一种可选的应用场景中,本发明提供的交易数据的异常检测方法应用于银行系统中,参考图1,为银行系统的架构示意图,其中,银行系统100包括数据库101和计算机102;其中,交易数据存储于银行系统的数据库中,计算机预先安装有知识图谱的生成工具,如图数据库Neo4j。计算机从数据库中获得预先存储的交易数据,并基于获得的交易数据生成知识图谱。其中,数据库中存储的每条交易数据至少包括转入账户、转出账户两个账户实体,以及转入账户和转出账户之间的交易关系,如账户1向账户2转入资金。另外,每条交易数据中还可以记录有交易金额等。计算机利用图神经网络对知识图谱进行图深度学习,学习各条边的特征表示,从而确定每条交易数据的特征向量。另外,计算机中预先建立神经网络模型,可以为LSTM神经网络模型。然后利用银行系统中交易数据的特征向量对神经网络模型进行训练,得到经过训练的神经网络模型。最终,计算机利用神经网络模型对待检测交易数据进行检测,得到检测结果,以确定待检测交易数据是否异常。
示例性方法
下面结合上文所示的应用场景,参考图1来描述根据本发明示例性实施方式的用于对交易数据的异常进行检测的方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
参考图2,为本发明的实施例提供的一种交易数据的异常检测方法流程图,该方法包括:
S201:基于预先获得的交易数据生成知识图谱;其中,所述知识图谱的节点用于表示所述交易数据中的账户实体,两个节点之间的边用于表示所述两个节点分别对应的账户实体之间的交易关系。
本发明实施例中,交易数据包括转入账户、转出账户、交易金额等信息,例如,一条交易数据可以包括账户1、账户2、交易金额5万,以及交易关系为账户1向账户2转账。
实际应用中,预先从银行等金融系统的数据库中获得存储的交易数据,并确定每条交易数据是否为异常数据,作为该条交易数据的标签。然后利用预先安装的工具基于交易数据生成知识图谱,以利用图结构的形式展现交易数据。其中,知识图谱是利用三元组的实体1-关系-实体2的基本形式展现交易数据的,具体为,转入账户-交易关系-转出账户的形式。参考图3,为一种知识图谱的结构示意图。
S202:利用图神经网络对所述知识图谱进行图深度学习,得到所述知识图谱中每条边的特征表示,并将所述边的特征表示确定为所述边对应的交易数据的特征向量。
本发明实施例中,图神经网络是一种直接在图结构上运行的神经网络。常用的算法有DeepWalk,GraphSage或者GCN深度学习算法。
实际应用中,在生成知识图谱后,利用图神经网络对知识图谱进行图深度学习,得到知识图谱中每条边的特征表示,作为对应的交易数据的特征向量。值得注意的是,本发明基于知识图谱提取到的交易数据的特征向量,能够体现交易数据在图结构中的特征。
一种实施方式中,每条交易数据还包括交易金额等字段,由于交易金额等字段可能存在异常,为此,本发明实施例可以将交易金额等字段的取值也作为本条交易数据的特征。具体的,在获得每条交易数据后,获取该条交易数据中第一预设字段的取值,如第一预设字段为交易金额,然后将该取值与交易数据对应的知识图谱中的边的特征表示进行特征融合,得到融合后的特征表示,共同构成该条交易数据的特征向量。可以理解的是,特征融合是指把特征拼接在一起,得到特征向量。比如,利用图神经网络学习到的特征为100个,而交易数据还包括10个字段的取值可以作为特征,把这两部分特征拼接在一起,最终组成110维的特征向量,作为交易数据的特征向量。
S203:将预先确定的待检测交易数据的特征向量输入利用所述交易数据的特征向量训练得到的神经网络模型,经过所述神经网络模型的处理后,输出所述待检测交易数据的检测结果;其中,所述检测结果用于表示所述待检测交易数据是否异常。
本发明实施例中,利用S201和S202的方式获取到预先确定的待检测交易数据的特征向量,然后将待检测交易数据的特征向量作为神经网络模型的输入参数,经过神经网络模型的处理后,得到待检测交易数据的检测结果。
本发明实施例中,在利用神经网络模型对待检测交易数据进行异常检测之前,首先需要利用样本数据对神经网络模型进行训练。一种可选的实施方式中,对于预先获得的交易数据按照时间先后顺序进行时序采样,得到第一样本数据,然后利用第一样本数据对预先建立的神经网络模型进行训练,得到经过训练的神经网络模型。利用经过上述训练方式得到的神经网络模型对待检测交易数据进行异常检测,能够检测出交易数据在时序上表现的异常。
实际应用中,预先设置一个时间窗口Pwin,假设Pwin=60步,将交易数据按照时间顺序展开,并将Pwin在交易数据上滑动,每次滑动采样60条交易数据,组成一个样本,并确定该样本的标签,具体的,该样本的标签为其中包含的交易数据是否正常的标签。
由于不同的用户具有不同的特征,因此,为了准确检测到各个用户的异常数据,本发明实施例还可以从用户的角度对交易数据进行时序采样。具体的,对于预先获得的交易数据按照用户进行划分,然后按照时间先后顺序分别对每个用户的交易数据进行时序采样,得到第二样本数据。利用第一样本数据和第二样本数据对预先建立的神经网络模型进行训练,得到经过训练的神经网络模型。其中,神经网络模型可以为长短期记忆网络LSTM神经网络模型。利用经过上述训练方式得到的神经网络模型对待检测交易数据进行异常检测,还能够从不同用户角度检测出在时序上具有异常的交易数据。例如,对于镇级小银行在近期一段时间内的交易金额均处于小于10万的范围,则如果该镇级小银行出现交易金额为100万的交易数据即为异常数据。
实际应用中,基于预先设置的时间窗口,分别对每个用户的交易数据进行滑动窗口采样,得到第二样本数据。其中,第二样本数据包括经过时序采样后得到的每个用户的交易数据对应的特征向量和标签,标签用于表示交易数据是否异常。一种可选的实施方式中,假设预先设置的时间窗口Pwin=60步,对每个用户的交易数据上进行滑动窗口采样,假设用户1具有150条交易数据,则基于Pwin=60步可以采样得到3个样本,其中前两个样本为60条交易数据,第3个样本中只有30条交易数据,为了使第3个样本中包含完整的样本数据,可以在第3个样本中填充padding 30条交易数据。
另一种对神经网络模型进行训练的实施方式中,可以直接对预先获得的交易数据进行采样,不需要经过时序采样,得到第三样本数据,然后利用第三样本数据对预先建立的神经网络模型进行训练,得到经过训练的神经网络模型。由于直接利用交易数据的特征向量和标签训练得到的神经网络模型,能够检测出交易数据本身的异常。例如,某条交易数据中的交易金额特别大,则能够检测出该条交易数据异常。
本发明的实施方式提供的交易数据的异常检测方法中,利用经过训练的神经网络模型,对待检测交易数据进行处理,能够自动化的完成交易数据的异常检测,与现有技术相比,避免了手动方式造成的不准确问题。
另外,本发明的实施方式利用知识图谱表示预先获得的交易数据,然后利用图神经网络对该知识图谱进行图深度学习,得到每条边的特征表示,并作为每条边对应的交易数据的特征向量。由于通过本申请的实施方式确定的特征向量能够体现每条交易数据在图结构中表现出来的特征,因此,基于上述方式确定出来的特征向量对交易数据进行异常检测,能够检测出在图结构中表现异常的交易数据。
示例性装置
在介绍了本发明示例性实施方式的介质之后,接下来介绍本发明提供了示例性实施的装置。参考图3,为本发明实施例提供的一种交易数据的异常检测装置的结构示意图,所述装置包括:
生成模块301,用于基于预先获得的交易数据生成知识图谱;其中,所述知识图谱的节点用于表示所述交易数据中的账户实体,两个节点之间的边用于表示所述两个节点分别对应的账户实体之间的交易关系;
学习模块302,用于利用图神经网络对所述知识图谱进行图深度学习,得到所述知识图谱中每条边的特征表示;
第一确定模块303,用于将所述边的特征表示确定为所述边对应的交易数据的特征向量;
处理模块304,用于将预先确定的待检测交易数据的特征向量输入利用所述交易数据的特征向量训练得到的神经网络模型,经过所述神经网络模型的处理后,输出所述待检测交易数据的检测结果;其中,所述检测结果用于表示所述待检测交易数据是否异常。
一种可选的实施方式中,所述装置还包括:
获取模块,用于获取所述交易数据中第一预设字段的取值;
融合模块,用于将所述取值与所述交易数据对应的所述知识图谱中的边的特征表示进行特征融合,得到融合后的特征表示;
相应的,所述第一确定模块,具体用于:
将所述融合后的特征表示确定为所述交易数据的特征向量。
一种可选的实施方式中,所述装置还包括:
第一采样模块,用于按照时间先后顺序,对所述交易数据进行时序采样,得到第一样本数据;其中,所述第一样本数据包括经过所述时序采样后得到的交易数据对应的特征向量和标签,所述标签用于表示所述交易数据是否异常;
第一训练模块,用于利用所述第一样本数据对预先建立的神经网络模型进行训练,得到经过训练的神经网络模型。
另一种可选的实施方式中,所述装置还包括:
第二采样模块,用于按照时间先后顺序,分别对每个用户的交易数据进行时序采样,得到第二样本数据;其中,所述第二样本数据包括经过所述时序采样后得到的每个用户的交易数据对应的特征向量和标签,所述标签用于表示所述交易数据是否异常;
相应的,所述第一训练模块,具体用于:
利用所述第一样本数据和所述第二样本数据对预先建立的神经网络模型进行训练,得到经过训练的神经网络模型。
具体的,所述第二采样模块,具体用于:
基于预先设置的时间窗口,分别对每个用户的交易数据进行滑动窗口采样,得到第二样本数据。
另一种可选的实施方式中,所述装置还包括:
第二训练模块,用于将所述交易数据的特征向量和标签构成第三样本数据,并利用所述第三样本数据对预先建立的神经网络模型进行训练,得到经过训练的神经网络模型。
本发明的实施方式提供的交易数据的异常检测装置,利用经过训练的神经网络模型,对待检测交易数据进行处理,能够自动化的完成交易数据的异常检测,与现有技术相比,避免了手动方式造成的不准确问题。
另外,本发明的实施方式利用知识图谱表示预先获得的交易数据,然后利用图神经网络对该知识图谱进行图深度学习,得到每条边的特征表示,并作为每条边对应的交易数据的特征向量。由于通过本申请的实施方式确定的特征向量能够体现每条交易数据在图结构中表现出来的特征,因此,基于上述方式确定出来的特征向量对交易数据进行异常检测,能够检测出在图结构中表现异常的交易数据。
示例性介质
在介绍了本发明示例性实施方式的方法和装置之后,接下来,参考图4,本发明提供了一种示例性介质,该介质存储有计算机可执行指令,该计算机可执行指令可用于使所述计算机执行图2对应的本发明示例性实施方式中任一项所述的方法,或者该计算机可执行指令可用于使所述计算机执行图2对应的本发明示例性实施方式中任一项所述的方法。
示例性计算设备
在介绍了本发明示例性实施方式的方法、介质和装置之后,接下来,参考图5,介绍本发明提供的一种示例性计算设备5,该计算设备5包括处理单元501、存储器502、总线503、外部设备504、I/O接口505以及网络适配器506,该存储器502包括随机存取存储器(randomaccess memory,RAM)5021、高速缓存存储器5022、只读存储器(Read-Only Memory,ROM)5023以及至少一片存储单元5024构成的存储单元阵列5025。其中该存储器502,用于存储处理单元501执行的程序或指令;该处理单元501,用于根据该存储器502存储的程序或指令,执行图2对应的本发明示例性实施方式中任一项所述的方法,或者执行图2对应的本发明示例性实施方式中任一项所述的方法;该I/O接口505,用于在该处理单元501的控制下接收或发送数据。
应当注意,尽管在上文详细描述中提及了装置的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
Claims (13)
1.一种交易数据的异常检测方法,其特征在于,所述方法包括:
基于预先获得的交易数据生成知识图谱;其中,所述知识图谱的节点用于表示所述交易数据中的账户实体,两个节点之间的每条边用于表示所述两个节点分别对应的账户实体之间的一个交易关系以及对应的一条交易数据;
利用图神经网络对所述知识图谱进行图深度学习,得到所述知识图谱中每条边的特征表示,以体现所述交易数据在图结构中的特征;
获取所述交易数据中预设字段的取值;
将所述取值与所述交易数据对应的所述知识图谱中的边的特征表示进行特征融合,得到融合后的特征表示;
将所述融合后的特征表示确定为待检测的交易数据的特征向量;
将所述待检测交易数据的特征向量输入利用所述交易数据的特征向量训练得到的神经网络模型,经过所述神经网络模型的处理后,输出所述待检测交易数据的检测结果;其中,所述检测结果用于表示所述待检测交易数据是否异常。
2.根据权利要求1所述的方法,其特征在于,将预先确定的待检测交易数据的特征向量输入利用所述交易数据的特征向量训练得到的神经网络模型,经过所述神经网络模型的处理后,输出所述待检测交易数据的检测结果之前,还包括:
按照时间先后顺序,对所述交易数据进行时序采样,得到第一样本数据;其中,所述第一样本数据包括经过所述时序采样后得到的交易数据对应的特征向量和标签,所述标签用于表示所述交易数据是否异常;
利用所述第一样本数据对预先建立的神经网络模型进行训练,得到经过训练的神经网络模型。
3.根据权利要求2所述的方法,其特征在于,所述利用所述第一样本数据对预先建立的神经网络模型进行训练,得到经过训练的神经网络模型之前,还包括:
按照时间先后顺序,分别对每个用户的交易数据进行时序采样,得到第二样本数据;其中,所述第二样本数据包括经过所述时序采样后得到的每个用户的交易数据对应的特征向量和标签,所述标签用于表示所述交易数据是否异常;
相应的,所述利用所述第一样本数据对预先建立的神经网络模型进行训练,得到经过训练的神经网络模型,具体为:
利用所述第一样本数据和所述第二样本数据对预先建立的神经网络模型进行训练,得到经过训练的神经网络模型。
4.根据权利要求3所述的方法,其特征在于,所述按照时间先后顺序,分别对每个用户的交易数据进行时序采样,得到第二样本数据,包括:
基于预先设置的时间窗口,分别对每个用户的交易数据进行滑动窗口采样,得到第二样本数据。
5.根据权利要求3或4所述的方法,其特征在于,所述神经网络模型为长短期记忆网络LSTM神经网络模型。
6.根据权利要求1所述的方法,其特征在于,将预先确定的待检测交易数据的特征向量输入利用所述交易数据的特征向量训练得到的神经网络模型,经过所述神经网络模型的处理后,输出所述待检测交易数据的检测结果之前,还包括:
将所述交易数据的特征向量和标签构成第三样本数据,并利用所述第三样本数据对预先建立的神经网络模型进行训练,得到经过训练的神经网络模型。
7.一种交易数据的异常检测装置,其特征在于,所述装置包括:
生成模块,用于基于预先获得的交易数据生成知识图谱;其中,所述知识图谱的节点用于表示所述交易数据中的账户实体,两个节点之间的每条边用于表示所述两个节点分别对应的账户实体之间的一个交易关系以及对应的一条交易数据;
学习模块,用于利用图神经网络对所述知识图谱进行图深度学习,得到所述知识图谱中每条边的特征表示;
获取模块,用于获取所述交易数据中预设字段的取值;
融合模块,用于将所述取值与所述交易数据对应的所述知识图谱中的边的特征表示进行特征融合,得到融合后的特征表示;
第一确定模块,用于将所述融合后的特征表示确定为所述边对应的待检测交易数据的特征向量,以体现所述交易数据在图结构中的特征;
处理模块,用于将预先确定的待检测交易数据的特征向量输入利用所述交易数据的特征向量训练得到的神经网络模型,经过所述神经网络模型的处理后,输出所述待检测交易数据的检测结果;其中,所述检测结果用于表示所述待检测交易数据是否异常。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第一采样模块,用于按照时间先后顺序,对所述交易数据进行时序采样,得到第一样本数据;其中,所述第一样本数据包括经过所述时序采样后得到的交易数据对应的特征向量和标签,所述标签用于表示所述交易数据是否异常;
第一训练模块,用于利用所述第一样本数据对预先建立的神经网络模型进行训练,得到经过训练的神经网络模型。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第二采样模块,用于按照时间先后顺序,分别对每个用户的交易数据进行时序采样,得到第二样本数据;其中,所述第二样本数据包括经过所述时序采样后得到的每个用户的交易数据对应的特征向量和标签,所述标签用于表示所述交易数据是否异常;
相应的,所述第一训练模块,具体用于:
利用所述第一样本数据和所述第二样本数据对预先建立的神经网络模型进行训练,得到经过训练的神经网络模型。
10.根据权利要求9所述的装置,其特征在于,所述第二采样模块,具体用于:
基于预先设置的时间窗口,分别对每个用户的交易数据进行滑动窗口采样,得到第二样本数据。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二训练模块,用于将所述交易数据的特征向量和标签构成第三样本数据,并利用所述第三样本数据对预先建立的神经网络模型进行训练,得到经过训练的神经网络模型。
12.一种介质,其特征在于,所述介质存储有计算机可执行指令,所述计算机可执行指令用于使所述计算机执行权利要求1至6任一项所述的方法。
13.一种计算设备,其特征在于,包括处理单元、存储器以及I/O接口;其中
所述存储器,用于存储所述处理单元执行的程序或指令;
所述处理单元,用于根据所述存储器存储的程序或指令,执行权利要求1至6任一项所述的方法;
所述I/O接口,用于在所述处理单元的控制下接收或发送数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910616942.5A CN110334130B (zh) | 2019-07-09 | 2019-07-09 | 一种交易数据的异常检测方法、介质、装置和计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910616942.5A CN110334130B (zh) | 2019-07-09 | 2019-07-09 | 一种交易数据的异常检测方法、介质、装置和计算设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110334130A CN110334130A (zh) | 2019-10-15 |
CN110334130B true CN110334130B (zh) | 2021-11-23 |
Family
ID=68145000
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910616942.5A Active CN110334130B (zh) | 2019-07-09 | 2019-07-09 | 一种交易数据的异常检测方法、介质、装置和计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110334130B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110866190B (zh) * | 2019-11-18 | 2021-05-14 | 支付宝(杭州)信息技术有限公司 | 训练用于表征知识图谱的图神经网络模型的方法及装置 |
CN111080304B (zh) * | 2019-12-12 | 2022-06-03 | 支付宝(杭州)信息技术有限公司 | 一种可信关系识别方法、装置及设备 |
CN111458471B (zh) * | 2019-12-19 | 2023-04-07 | 中国科学院合肥物质科学研究院 | 一种基于图神经网络的水域检测预警方法 |
CN111179089B (zh) * | 2020-01-02 | 2024-04-19 | 中国银行股份有限公司 | 洗钱交易识别方法、装置和设备 |
CN111369258A (zh) * | 2020-03-10 | 2020-07-03 | 支付宝(杭州)信息技术有限公司 | 实体对象类型的预测方法、装置及设备 |
EP3916667A1 (en) * | 2020-05-29 | 2021-12-01 | Fortia Financial Solutions | Real-time time series prediction for anomaly detection |
CN112016601B (zh) * | 2020-08-17 | 2022-08-05 | 华东师范大学 | 基于知识图谱增强小样本视觉分类的网络模型构建方法 |
CN112085499A (zh) * | 2020-08-28 | 2020-12-15 | 银清科技有限公司 | 限额账户数据的处理方法及装置 |
CN112215616B (zh) * | 2020-11-30 | 2021-04-30 | 四川新网银行股份有限公司 | 一种基于网络的自动识别资金异常交易的方法和系统 |
CN112801492B (zh) * | 2021-01-22 | 2023-07-25 | 中国平安人寿保险股份有限公司 | 基于知识阶层的数据质检的方法、装置及计算机设备 |
CN112883197B (zh) * | 2021-02-08 | 2023-02-07 | 广东电网有限责任公司广州供电局 | 一种用于封闭开关设备的知识图谱构建方法与系统 |
CN112818257B (zh) * | 2021-02-19 | 2022-09-02 | 北京邮电大学 | 基于图神经网络的账户检测方法、装置和设备 |
CN113076975A (zh) * | 2021-03-17 | 2021-07-06 | 长江水利委员会长江科学院 | 一种基于无监督学习的大坝安全监测数据异常检测方法 |
CN113554099A (zh) * | 2021-07-27 | 2021-10-26 | 中国银联股份有限公司 | 一种识别异常商户的方法及装置 |
CN114445210A (zh) * | 2021-10-14 | 2022-05-06 | 中国工商银行股份有限公司 | 异常交易行为的检测方法及其检测装置、电子设备 |
CN114282011B (zh) * | 2022-03-01 | 2022-08-23 | 支付宝(杭州)信息技术有限公司 | 知识图谱的构建方法和装置、图计算方法及装置 |
CN117131445B (zh) * | 2023-07-28 | 2024-07-23 | 深圳市财富趋势科技股份有限公司 | 一种异常交易检测方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109003089A (zh) * | 2018-06-28 | 2018-12-14 | 中国工商银行股份有限公司 | 风险识别方法及装置 |
CN109242499A (zh) * | 2018-09-19 | 2019-01-18 | 中国银行股份有限公司 | 一种交易风险预测的处理方法、装置及系统 |
CN109410036A (zh) * | 2018-10-09 | 2019-03-01 | 北京芯盾时代科技有限公司 | 一种欺诈检测模型训练方法和装置及欺诈检测方法和装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE60022398T2 (de) * | 1999-11-12 | 2006-05-18 | British Telecommunications P.L.C. | Sequenzgenerator |
US11625569B2 (en) * | 2017-03-23 | 2023-04-11 | Chicago Mercantile Exchange Inc. | Deep learning for credit controls |
US10097663B1 (en) * | 2017-05-22 | 2018-10-09 | American Express Travel Related Services Company, Inc. | Using integrated code to extract device characteristics for online security |
CN109934706B (zh) * | 2017-12-15 | 2021-10-29 | 创新先进技术有限公司 | 一种基于图结构模型的交易风险控制方法、装置以及设备 |
-
2019
- 2019-07-09 CN CN201910616942.5A patent/CN110334130B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109003089A (zh) * | 2018-06-28 | 2018-12-14 | 中国工商银行股份有限公司 | 风险识别方法及装置 |
CN109242499A (zh) * | 2018-09-19 | 2019-01-18 | 中国银行股份有限公司 | 一种交易风险预测的处理方法、装置及系统 |
CN109410036A (zh) * | 2018-10-09 | 2019-03-01 | 北京芯盾时代科技有限公司 | 一种欺诈检测模型训练方法和装置及欺诈检测方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110334130A (zh) | 2019-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110334130B (zh) | 一种交易数据的异常检测方法、介质、装置和计算设备 | |
US20100049686A1 (en) | Methods and apparatus for visual recommendation based on user behavior | |
CN104182335A (zh) | 软件测试方法和装置 | |
CN110674260B (zh) | 语义相似模型的训练方法、装置、电子设备和存储介质 | |
US10885593B2 (en) | Hybrid classification system | |
CN110490304B (zh) | 一种数据处理方法及设备 | |
EP3701403B1 (en) | Accelerated simulation setup process using prior knowledge extraction for problem matching | |
CN115861462B (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
CN116778935A (zh) | 水印生成、信息处理、音频水印生成模型训练方法和装置 | |
US11593700B1 (en) | Network-accessible service for exploration of machine learning models and results | |
CN116560631B (zh) | 一种机器学习模型代码的生成方法及装置 | |
Pothukuchi et al. | A guide to design mimo controllers for architectures | |
CN114141236B (zh) | 语言模型更新方法、装置、电子设备及存储介质 | |
CN111309882A (zh) | 用于实现智能客服问答的方法和装置 | |
CN110955755A (zh) | 一种确定目标标准信息的方法和系统 | |
CN113010687B (zh) | 一种习题标签预测方法、装置、存储介质以及计算机设备 | |
US11693921B2 (en) | Data preparation for artificial intelligence models | |
EP3991047B1 (en) | Chat bot diagnostic visualization | |
CN113127635B (zh) | 数据处理方法、装置及系统,存储介质和电子设备 | |
CN105701118A (zh) | 用于归一化文件的非数值特征的方法和装置 | |
CN109669856A (zh) | 数据分析系统的测试结果会诊方法及装置 | |
Liu et al. | Outlier Detection for control process data based on improved ARHMM | |
CN117557425B (zh) | 基于智慧题库系统的题库数据优化方法及系统 | |
CN116880899B (zh) | 任务信息关联方法、装置、电子设备和计算机可读介质 | |
CN117931991A (zh) | 训练样本获取及大模型优化训练方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |