CN112819175B - 非法所得合法化账户识别方法、装置、设备及存储介质 - Google Patents

非法所得合法化账户识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112819175B
CN112819175B CN202110049264.6A CN202110049264A CN112819175B CN 112819175 B CN112819175 B CN 112819175B CN 202110049264 A CN202110049264 A CN 202110049264A CN 112819175 B CN112819175 B CN 112819175B
Authority
CN
China
Prior art keywords
account
transaction
features
accounts
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110049264.6A
Other languages
English (en)
Other versions
CN112819175A (zh
Inventor
陈佳瑞
周红伟
董纪伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongbo Credit Information Co ltd
Original Assignee
Zhongbo Credit Information Co ltd
Filing date
Publication date
Application filed by Zhongbo Credit Information Co ltd filed Critical Zhongbo Credit Information Co ltd
Priority to CN202110049264.6A priority Critical patent/CN112819175B/zh
Publication of CN112819175A publication Critical patent/CN112819175A/zh
Application granted granted Critical
Publication of CN112819175B publication Critical patent/CN112819175B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明涉及一种非法所得合法化账户识别方法、装置、设备和存储介质,其中,该非法所得合法化账户识别方法包括:根据交易数据构建交易图谱,基于图嵌入算法从交易图谱中提取账户间的账户关联特征;根据交易数据构建各账户的业务特征;将账户关联特征和各账户的业务特征进行融合,并利用融合后的特征训练有监督模型;根据训练好的有监督模型识别非法所得合法化账户。通过本申请,提取账户关联特征不依赖于业务经验,可以有效反映各账户与其他账户间的交易关系特性,弥补了业务特征在描述账户与其他账户间的交易关系维度上的不足,并结合业务特征共同训练有监督模型,以提高对非法所得合法化账户识别的准确率。

Description

非法所得合法化账户识别方法、装置、设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种非法所得合法化账户识别方法、装置、电子设备及计算机存储介质。
背景技术
非法所得合法化活动长期存在于金融犯罪领域,给国家的金融秩序和金融安全造成巨大威胁,金融机构也一直将反非法所得合法化作为一项重点风控任务。在相关技术中,基于机器学习模型的方法通过人工构建账户的业务特征来训练机器学习模型,然后利用训练好的机器学习模型识别非法所得合法化账户,但是业务特征的构建需要借助大量的业务经验,主观性很强,常常发生丢失重要特征或加入无效特征的情况,并且业务特征往往只从单个维度描述单个账户的属性和交易行为特性,无法深入刻画账户间的交易关系特性,导致训练好的机器学习模型对非法所得合法化账户识别的准确率较低。
针对相关技术中,基于机器学习模型识别非法所得合法化账户存在准确率低的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种非法所得合法化账户识别方法、装置、电子设备和计算机存储介质,以至少解决相关技术中基于机器学习模型识别非法所得合法化账户存在准确率低的问题。
第一方面,本申请实施例提供了一种非法所得合法化账户识别方法,所述方法包括:
根据交易数据构建交易图谱,基于图嵌入算法从所述交易图谱中提取账户间的账户关联特征;
根据所述交易数据构建各账户的业务特征;
将所述账户关联特征和所述业务特征进行融合,并利用融合后的特征训练有监督模型;
根据训练好的有监督模型识别非法所得合法化账户。
在其中一些实施例中,所述根据交易数据构建交易图谱之前,所述方法还包括:
获取交易流水日志,剔除所述交易流水日志中的公共账户数据,并对剔除处理后的交易流水日志进行标准化处理得到所述交易数据。
在其中一些实施例中,所述交易数据包括账户数据和账户间的转账交易数据,所述根据交易数据构建交易图谱包括:
从所述交易数据中抽取所述账户数据,将抽取的各所述账户分别作为节点,并针对抽取的多个所述账户生成节点表;
从所述交易数据中抽取各所述账户间的所述转账交易数据并生成各所述账户间的转账交易的关系表,其中,所述关系表包括各所述账户间的转账交易关系及转账交易关系的权重,所述权重是根据在各预设的时间段内账户间的交易频次、交易金额和各所述时间段包含的天数计算得到的;根据所述节点表和所述关系表构建所述交易图谱。
在其中一些实施例中,所述图嵌入算法为Node2Vec算法,所述基于图嵌入算法从所述交易图谱中提取账户间的账户关联特征包括:
采用随机游走算法对所述交易图谱中的每个节点进行有偏采样,生成账户节点序列,其中,所述账户节点序列中账户节点间的转移概率是根据所述转账交易关系的权重计算得到的;
采用SkipGram算法训练Node2Vec图嵌入模型,生成所述账户节点序列中每个账户节点的向量表示,并将每个账户节点的所述向量表示作为所述账户关联特征。
在其中一些实施例中,所述的根据所述交易数据构建各账户的业务特征包括:根据所述交易数据中单个账户的属性数据和交易行为数据构建各账户的业务特征。
在其中一些实施例中,所述将所述账户关联特征和所述业务特征进行融合,并利用融合后的特征训练有监督模型包括:
将所述账户关联特征和所述业务特征进行拼接,得到账户特征宽表T={N,D},其中N表示账户数量,D表示账户特征;
将标识账户在所述账户特征宽表中的账户特征作为样本数据,对所述有监督模型进行训练,其中,所述标识账户包括非法所得合法化标识账户和正常标识账户。
在其中一些实施例中,所述根据训练好的有监督模型识别非法所得合法化账户包括:
将无标识账户输入所述训练好的有监督模型识别得到所述非法所得合法化账户,并在所述交易图谱中对所述非法所得合法化账户进行标记。
第二方面,本申请实施例提供了一种非法所得合法化账户识别装置,所述装置包括图谱构建模块、图特征提取模块、业务特征构建模块、模型训练模块和识别模块;
其中,所述图谱构建模块,用于根据交易数据构建交易图谱;
所述图特征提取模块,用于基于图嵌入算法从所述交易图谱中提取账户关联特征;
所述业务特征构建模块,用于根据所述交易数据构建各账户的业务特征
所述模型训练模块,用于将所述账户关联特征和所述业务特征进行融合,并利用融合后的特征训练有监督模型;
所述识别模块,用于根据训练好的有监督模型识别非法所得合法化账户。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器上并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的非法所得合法化账户识别方法。
第四方面,本申请实施例提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的非法所得合法化账户识别方法。
相比相关技术,本申请实施例提供的非法所得合法化账户识别方法,采用图嵌入算法自动从交易图谱中提取账户关联特征,可以不依赖于业务经验,避免因人工构建造成丢失特征或加入无效特征的情况发生,并且相较于相关技术中的业务特征只能描述单个账户的交易行为特性,账户关联特征可以有效反映各账户与其他账户间的交易关系特性,弥补了业务特征在描述账户与其他账户间的交易关系维度上的不足;然后将账户关联特性和业务特征结合,共同训练有监督模型,相较于仅采用业务特征训练模型,可以有效提高训练好的有监督模型对非法所得合法化账户识别的准确率,提升反非法所得合法化工作的效果,解决了相关技术中基于机器学习模型识别非法所得合法化账户存在准确率低的问题。并且相较于仅根据交易金额单个维度构建交易图谱,本申请实施例进一步根据交易金额、交易频次和交易时间等多个交易关系维度计算得到交易图谱中各节点之间的边的权重,以构建交易图谱,使得从交易图谱中提取到的账户交易关联特征可以从多个维度表示账户间更深层次的交易关系特性,有利于提升模型质量以及模型识别非法所得合法化账户的效果。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的非法所得合法化账户识别方法的流程图;
图2是根据本申请实施例的提取账户关联特征的方法流程图;
图3是根据本申请实施例的训练有监督模型的方法流程图;
图4是根据本申请实施例的非法所得合法化账户识别装置的结构示意图;
图5是根据本申请实施例的电子设备的内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
账户通过转账进行非法所得合法化的行为,会在交易流水中留存数据记录。对非法所得合法化账户的识别最初是通过专家规则进行拦截预警,即当账户在交易流水中的数据记录触发了多条反非法所得合法化规则时,对这些账户进行重点核查。而反非法所得合法化规则的制定需要借助大量的业务经验,误判率和漏判率较高。随着大数据技术和机器学习技术的发展,银行等金融机构开始借助算法模型识别非法所得合法化账户。虽然相比基于专家规则的方法,基于模型识别非法所得合法化账户的效果已经有了较大的提升,但依然需要人工构建账户多维的业务特征,不仅常常发生丢失重要特征或加入很多无效特征的情况,并且业务特征往往只从单个维度描述单个账户的属性和交易行为特性,不能全面反映账户在整个交易中的特性,也就无法深入刻画账户间的交易关系特性,导致采用业务特征训练的模型对非法所得合法化账户识别的准确率较低。而随着非法所得合法化手法的日益更新,非法所得合法化账户会表现出“分散转入,集中转出”、“集中转入,分散转出”或者与其他账户间更加复杂的交易关系,很多手法高明、行为隐蔽的非法所得合法化账户通过传统的规则和模型已经很难识别出来。
本实施例提供了一种非法所得合法化账户识别方法。图1是根据本申请实施例的非法所得合法化账户识别方法的流程图,如图1所示,该流程包括如下步骤:
S110、根据交易数据构建交易图谱。
上述交易数据包括账户数据和账户间的转账交易数据,具体的,客户到银行等金融机构开户时会留存开户数据(即账户数据),包括开户时间、客户个人基本信息等。账户所有的交易行为都会形成数据(即转账交易数据)记录,保留在金融机构的交易系统中。交易数据来源于金融机构的交易流水日志,其特点是数据无法伪造、真实性高、数据量大且交易关系复杂。交易数据是交易流水日志经过处理后得到的信息字段完整的结构化数据,包括各个账户的交易日期、交易时间、交易类型、交易对方账户、交易结果等数据信息。根据交易数据中各个账户自身的交易行为数据以及账户间的交易行为数据,可以构建获得交易图谱。该交易图谱属于一种非结构化的数据,通过该交易图谱可以可视化地表示出各个账户及账户间的转账交易关系。
优选地,从交易数据中抽取账户数据,并将账户作为实体;从交易数据中抽取账户间的转账交易数据,并根据该转账交易数据计算账户间的转账交易关系以作为实体间关系。具体的,将各实体作为交易图谱的节点并生成节点表,该节点表包络多个账户,然后根据实体间关系生成各节点之间的边。作为一个示例,根据各账户间的交易金额、交易频次和交易时间(例如预设的时间段包含的天数)等转账交易关系,计算得到各账户间的转账交易关系的权重,即各节点之间的边的权重,以生成各账户间的转账交易的关系表,该关系表包括各账户间的转账交易关系及转账交易关系的权重。根据节点表中的各个节点和关系表中各节点之间的边以及边的权重,构建得到包含了所有账户自身的交易行为以及各个账户间交易行为的交易图谱。
S120、基于图嵌入算法从交易图谱中提取账户关联特征。
图嵌入算法包括但不限于Node2Vec、DeepWalk、LLE(Locally linear embedding)或HOPE算法。采用图嵌入算法可以将表示整个交易图谱的数据矩阵,映射为表示交易图谱中各个节点的图嵌入向量,即将高维稠密的数据矩阵映射成低维稠密的图嵌入向量,可以很好地解决图数据因维度较高而难以高效输入模型的问题。并且相较于传统的业务特征只描述了单个账户的交易行为特性,映射得到的各图嵌入向量表达了每个账户与其他账户之间的交易关系特性,而这种交易关系特性正是识别非法所得合法化账户需要重点关注的内容。将各节点的图嵌入向量对应作为各账户的关联特征。
优选地,采用Node2Vec图嵌入算法,从交易图谱中提取账户关联特征,图2是根据本申请实施例的提取账户关联特征的方法流程图,如图2所示,该流程包括以下流程:
S210、采用随机游走算法对交易图谱中的每个节点进行有偏采样,生成账户节点序列,其中,账户节点序列中账户节点间的转移概率是根据转账交易关系的权重计算得到的。针对交易图谱中任意两个相邻节点,将这两个相邻节点之间的边的权重(即这两个相邻节点上的账户之间的转账交易关系的权重)作为随机游走算法中这两个相邻节点之间的转移概率。两个相邻节点是指该交易图谱中与同一条边直接连接的两个节点。通过随机游走对交易图谱中的每个节点进行有偏采样,获得由节点构成的账户节点序列,并根据各相邻节点之间的转移概率进行计算,可以得到从账户节点序列中的起始节点到终止节点的转移概率。
S220、采用SkipGram算法训练Node2Vec图嵌入模型,生成账户节点序列中每个账户节点的向量表示,并将每个账户节点的向量表示作为账户关联特征。根据账户节点序列以及从账户节点序列中的起始节点到终止节点的转移概率,采用SkipGram算法训练Node2Vec图嵌入模型,以生成账户节点序列中的每个账户节点的向量表示,即每个账户与其他账户之间的账户关联特征。Node2Vec算法是一种综合考虑深度遍历邻域和广度遍历邻域的图嵌入算法,通过该算法可以准确地获得交易图谱中各节点(即各账户)的账户关联特征,并且将相邻节点间的边的权重作为相邻节点间的转移概率,以进行有偏置的随机游走,可以降低算法的空间复杂度。
S130、根据交易数据构建各账户的业务特征,例如,根据交易数据中单个账户的属性数据和交易行为数据(即账户交易流水和账户自身属性),通过人工构建各账户的业务特征。
S140、将账户关联特征和各账户的业务特征进行融合,并利用融合后的特征训练有监督模型;S150、根据训练好的有监督模型识别非法所得合法化账户。
每个账户的业务特征是根据交易数据中单个账户自身的属性数据和交易行为数据计算得到的向量表示,该业务特征具有一定的业务含义。针对每个账户,将关联特征和业务特征进行合并,可以得到每个账户的账户特征,每个账户的账户特征包括该账户与其他账户间的账户关联特征以及自身的业务特征,表达了该账户完整的交易特性。将所有账户中具有非法所得合法化标识的账户作为非法所得合法化标识账户,具有正常标识的账户作为正常标识账户。而有监督模型作为金融风控场景下最有效的机器学习模型,将非法所得合法化标识账户和正常标识账户的账户特征作为有监督模型的样本数据,对有监督模型进行训练,得到训练好的有监督模型。有监督模型可以XGBOOST、GBDT等决策树模型,在此不做限定。最后获取交易数据中不具有任何标识的无标识账户或者因新交易行为产生了新交易数据的标识账户,并将其账户特征输入训练好的有监督模型识别,即可输出该账户是否为非法所得合法化账户的识别结果。优选地,在无标识账户被识别为非法所得合法化账户的情况下,在交易图谱中将该非法所得合法化账户标记上非法所得合法化标识,便于用户直观查看到该非法所得合法化账户以及与该非法所得合法化账户有交易往来的其他账户。
优选地,在所有账户中的标识账户具有非法所得合法化风险分值的情况下,将标识账户的账户特征以及对应的非法所得合法化风险分值输入有监督模型进行训练,得到训练好的有监督模型。将所有账户中没有标识的无标识账户输入该训练好的有监督模型计算,输出该无标识账户的非法所得合法化风险分值,可以方便用户查看到所有账户的非法所得合法化风险分值,有利于反非法所得合法化工作的开展。并在该无标识账户的非法所得合法化风险分值大于预设的分值阈值时,将该无标识账户作为非法所得合法化账户。
通过步骤S110至步骤S120,采用图嵌入算法自动从交易图谱中提取账户关联特征,可以不依赖于业务经验,避免因人工构建造成丢失特征或加入无效特征的情况发生,并且相较于相关技术中的业务特征只能描述单个账户的交易行为特性,账户关联特征可以有效反映账户间的交易关系特性。通过步骤S140至步骤S150,弥补了业务特征在描述账户与其他账户间的交易关系维度上的不足,即,将账户关联特性和业务特征结合,共同训练有监督模型,相较于仅采用业务特征训练模型,可以有效提高训练好的有监督模型对非法所得合法化账户识别的准确率,提升反非法所得合法化工作的效果,解决了相关技术中基于机器学习模型识别非法所得合法化账户存在准确率低的问题。并且相较于仅根据交易金额单个维度构建交易图谱,本实施例进一步根据交易金额、交易频次和交易时间等多个交易关系维度计算得到交易图谱中各节点之间的边的权重,进而构建交易图谱,使得从交易图谱中提取到的账户交易关联特征可以从多个维度表示账户间更深层次的交易关系特性,有利于提升模型质量以及模型识别非法所得合法化账户的效果。
在一些实施例中,在根据交易数据构建交易图谱之前,从金融机构的数据库中获取交易流水日志,或者接收自大数据平台传来的交易流水日志。因为公共账户在业务上往往不存在非法所得合法化风险,并且公共账户关联着大量的其他账户,容易形成热点数据,不利于图谱构建,因此剔除交易流水日志中的公共账户数据。然后对剔除热点数据后的交易流水日志进行标准化处理,得到不含空值、缺失值和/或错误数据的结构化的交易数据,以保证交易数据具有较高的数据质量,有利于构建质量更高的交易图谱。
在一些实施例中,在构建交易图谱的过程中,考虑各个账户间的交易时间、交易金额和交易频次,确定账户间的转账交易关系的权重,相较于仅根据交易金额确定关系权重,可以从更多维度表达账户间交易的紧密度,提取出的关联特征也可以更加深入地刻画账户间的交易行为特性。具体地,将两个账户间在各预设的时间段内的交易频次、交易金额和各时间段包含的天数输入公式1计算,可以得到这两个账户间的转账交易关系的权重:
其中,Wab表示账户a和账户b之间的转账交易关系的权重,账户a和账户b表示所有账户中的任意两个账户。n表示预设的时间段个数,i=1,...,n,表示预设的第i个时间段。比如预设的时间段包括近3天、近7天和近30天,则n为3,i=1,2,3。Wab由n个时间段对应的子项相加得到,βi表示第i个子项的权重,各子项的权重之和等于1,即Ni表示第i个时间段内账户a和账户b间的交易频次,Mi表示第i个时间段内账户a和账户b间的交易金额,di表示第i个时间段包含的天数。
在一些实施例中,图3是根据本申请实施例的训练有监督模型的方法流程图,如图3所示,该流程包括以下流程:
S310、将账户关联特征和各账户的业务特征进行拼接,得到账户特征宽表。
每个账户的账户特征包括该账户与其他账户间的账户关联特征以及自身的业务特征。将每个账户与其他账户间的账户关联特征由一个d1维的向量表示。由各个d1维向量表示的账户关联特征构成关联特征表记为D1。将每个业务特征由一个d2维的向量表示。由各个账户d2维向量表示的业务特征构成业务特征表记为D2。将关联特征表D1和业务特征表D2进行拼接,形成账户特征宽表记为T,T={N,D},其中,N表示账户数量,D是账户特征,经上述拼接步骤得到,例如由上述关联特征表D1和上述业务特征表D2拼接得到账户特征表D={D1,D2},其具体表示拼接后的特征的维度。该账户特征宽表可以供给用户查看,可以方便用户将该账户特征宽表用来对账户进行其他数据分析和/或建立模型等数据挖掘工作,例如可用N个账户的拼接后的特征来训练模型。
S320、将标识账户在账户特征宽表中的账户特征作为样本数据,对有监督模型进行训练。标识账户包括交易数据中具有非法所得合法化标识的非法所得合法化标识账户和具有正常表示的正常标识账户。将非法所得合法化标识账户和正常标识账户在账户特征宽表中的账户特征,作为有监督模型的样本数据,来对有监督模型进行训练。
本申请实施例提供了一种非法所得合法化账户识别装置。图4是根据本申请实施例的非法所得合法化账户识别装置的结构示意图,如图4所示,该装置包括图谱构建模块410、图特征提取模块420、业务特征构建模块430、模型训练模块440和识别模块450:图谱构建模块410,用于根据交易数据构建交易图谱;图特征提取模块420,用于基于图嵌入算法从交易图谱中提取账户关联特征;业务特征构建模块430,用于根据交易数据构建各账户的业务特征;模型训练模块440,用于将账户关联特征和业务特征进行融合,并利用融合后的特征训练有监督模型;识别模块450,用于根据训练好的有监督模型识别非法所得合法化账户。
关于非法所得合法化账户识别装置的具体限定可以参见上文中对于非法所得合法化账户识别方法的限定,在此不再赘述。上述非法所得合法化账户识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
本申请实施例还提供了一种电子设备,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
另外,结合上述实施例中的非法所得合法化账户识别方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种非法所得合法化账户识别方法。
在一个实施例中,图5是根据本申请实施例的电子设备的内部结构示意图,如图5所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图5所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的数据库用于存储数据。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种非法所得合法化账户识别方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种非法所得合法化账户识别方法,其特征在于,所述方法包括:
根据交易数据构建交易图谱,基于图嵌入算法从所述交易图谱中提取账户间的账户关联特征;
其中,所述交易数据包括账户数据和账户间的转账交易数据,所述根据交易数据构建交易图谱包括:
从所述交易数据中抽取所述账户数据,将抽取的各所述账户分别作为节点,并针对抽取的多个所述账户生成节点表;
从所述交易数据中抽取各所述账户间的所述转账交易数据并生成各所述账户间的转账交易的关系表,其中,所述关系表包括各所述账户间的转账交易关系及转账交易关系的权重,所述权重是根据在各预设的时间段内账户间的交易频次、交易金额和各所述时间段包含的天数计算得到的;
根据所述节点表和所述关系表构建所述交易图谱;
根据所述交易数据构建各账户的业务特征;
将所述账户关联特征和所述业务特征进行融合,并利用融合后的特征训练有监督模型;
根据训练好的有监督模型识别非法所得合法化账户。
2.根据权利要求1所述的方法,其特征在于,所述根据交易数据构建交易图谱之前,所述方法还包括:
获取交易流水日志,剔除所述交易流水日志中的公共账户数据,并对剔除处理后的交易流水日志进行标准化处理得到所述交易数据。
3.根据权利要求1所述的方法,其特征在于,所述图嵌入算法为Node2Vec算法,所述基于图嵌入算法从所述交易图谱中提取账户间的账户关联特征包括:
采用随机游走算法对所述交易图谱中的每个节点进行有偏采样,生成账户节点序列,其中,所述账户节点序列中账户节点间的转移概率是根据所述转账交易关系的权重计算得到的;
采用SkipGram算法训练Node2Vec图嵌入模型,生成所述账户节点序列中每个账户节点的向量表示,并将每个账户节点的所述向量表示作为所述账户关联特征。
4.根据权利要求1所述的方法,其特征在于,所述的根据所述交易数据构建各账户的业务特征包括:
根据所述交易数据中单个账户的属性数据和交易行为数据构建各账户的业务特征。
5.根据权利要求1所述的方法,其特征在于,所述将所述账户关联特征和所述业务特征进行融合,并利用融合后的特征训练有监督模型包括:
将所述账户关联特征和所述业务特征进行拼接,得到账户特征宽表T={N,D},其中N表示账户数量,D表示账户特征;
将标识账户在所述账户特征宽表中的账户特征作为样本数据,对所述有监督模型进行训练,其中,所述标识账户包括非法所得合法化标识账户和正常标识账户。
6.根据权利要求1所述的方法,其特征在于,所述根据训练好的有监督模型识别非法所得合法化账户包括:
将无标识账户输入所述训练好的有监督模型识别得到所述非法所得合法化账户,并在所述交易图谱中对所述非法所得合法化账户进行标记。
7.一种实现权利要求1-6任一项所述的非法所得合法化账户识别方法的装置,其特征在于,所述装置包括图谱构建模块、图特征提取模块、业务特征构建模块、模型训练模块和识别模块;
其中,所述图谱构建模块,用于根据交易数据构建交易图谱;
所述图特征提取模块,用于基于图嵌入算法从所述交易图谱中提取账户关联特征;
所述业务特征构建模块,用于根据所述交易数据构建各账户的业务特征;
所述模型训练模块,用于将所述账户关联特征和所述业务特征进行融合,并利用融合后的特征训练有监督模型;
所述识别模块,用于根据训练好的有监督模型识别非法所得合法化账户。
8.一种电子设备,包括存储器、处理器以及存储在所述存储器上并在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的非法所得合法化账户识别方法。
9.一种计算机存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6中任一项所述的非法所得合法化账户识别方法。
CN202110049264.6A 2021-01-14 非法所得合法化账户识别方法、装置、设备及存储介质 Active CN112819175B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110049264.6A CN112819175B (zh) 2021-01-14 非法所得合法化账户识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110049264.6A CN112819175B (zh) 2021-01-14 非法所得合法化账户识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112819175A CN112819175A (zh) 2021-05-18
CN112819175B true CN112819175B (zh) 2024-07-05

Family

ID=

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046192A (zh) * 2019-12-25 2020-04-21 中国建设银行股份有限公司 银行涉案账户的识别方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046192A (zh) * 2019-12-25 2020-04-21 中国建设银行股份有限公司 银行涉案账户的识别方法及装置

Similar Documents

Publication Publication Date Title
Trivedi et al. An efficient credit card fraud detection model based on machine learning methods
CN109816397B (zh) 一种欺诈判别方法、装置及存储介质
WO2020037942A1 (zh) 风险预测处理方法、装置、计算机设备和介质
CN110489561A (zh) 知识图谱构建方法、装置、计算机设备和存储介质
WO2022121145A1 (zh) 一种基于图分类的以太坊网络钓鱼诈骗检测方法及装置
CN108763445A (zh) 专利知识库的构建方法、装置、计算机设备和存储介质
CN110163242B (zh) 风险识别方法、装置及服务器
CN110826316B (zh) 一种应用于裁判文书中敏感信息的识别方法
CN110287292B (zh) 一种裁判量刑偏离度预测方法及装置
CN113139876B (zh) 风险模型训练方法、装置、计算机设备及可读存储介质
CN113032001B (zh) 一种智能合约分类方法及装置
CN110609908A (zh) 案件串并方法及装置
CN115378629A (zh) 基于图神经网络的以太坊网络异常检测方法、系统和存储介质
CN114240659A (zh) 一种基于动态图卷积神经网络的区块链异常节点识别方法
CN113011884A (zh) 账户特征的提取方法、装置、设备及可读存储介质
Jagdish et al. Identification of End‐User Economical Relationship Graph Using Lightweight Blockchain‐Based BERT Model
CN116307671A (zh) 风险预警方法、装置、计算机设备、存储介质
CN115174165A (zh) 一种云边端架构下基于区块链的自适应安全态势认知系统
CN112819175B (zh) 非法所得合法化账户识别方法、装置、设备及存储介质
CN110097258B (zh) 一种用户关系网络建立方法、装置及计算机可读存储介质
CN116595486A (zh) 风险识别方法、训练风险识别模型的方法及对应装置
CN116662570A (zh) 一种用于银行风险评估的异构图知识图谱补全方法及系统
CN113259369B (zh) 一种基于机器学习成员推断攻击的数据集认证方法及系统
CN115034883A (zh) 金融业务的风险评估方法、装置、计算机设备和存储介质
CN114254617A (zh) 一种修订条款的方法、装置、计算设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant