CN115907954A - 账户的识别方法、装置、计算机设备和存储介质 - Google Patents
账户的识别方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN115907954A CN115907954A CN202211148590.3A CN202211148590A CN115907954A CN 115907954 A CN115907954 A CN 115907954A CN 202211148590 A CN202211148590 A CN 202211148590A CN 115907954 A CN115907954 A CN 115907954A
- Authority
- CN
- China
- Prior art keywords
- account
- data
- score
- model
- detection model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本公开涉及一种账户的识别方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取待识别账户的票据交互数据及账户数据;将所述票据交互数据及所述账户数据输入至账户检测模型,经所述账户检测模型输出第一评分;将所述票据交互数据及所述账户数据输入至分类模型,经所述分类模型输出第二评分;根据所述第一评分、所述第二评分确定所述待识别账户的账户评分;在所述账户评分高于预设阈值的情况下,确定所述待识别账户为第二账户类型。采用本方法能够提高账户类型的识别效率和准确率。
Description
技术领域
本公开涉及数据处理技术领域,特别是涉及一种账户的识别方法、装置、计算机设备和存储介质。
背景技术
现有技术中,通过创建黑名单的方式判断账户是否为票据中介的账户,然而这种方法识别未知的或再次伪装的票据中介效果较差;还可以通过票据交互数据进行规则分析或人工根据业务经验判断账户是否为票据中介的账户,但是这种方法依赖人工分析,准确率较低,且效率较差。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高识别效率和准确性的账户的识别方法、装置、计算机设备和存储介质。
第一方面,本公开实施例提供了一种账户的识别方法。所述方法包括:
获取待识别账户的票据交互数据及账户数据;
将所述票据交互数据及所述账户数据输入至账户检测模型,经所述账户检测模型输出第一评分,其中,所述账户检测模型为利用第一账户类型对应账户的样本数据训练得到;
将所述票据交互数据及所述账户数据输入至分类模型,经所述分类模型输出第二评分,所述分类模型为根据账户的样本数据与账户类型之间的关系训练得到;
根据所述第一评分、所述第二评分确定所述待识别账户的账户评分;
在所述账户评分高于预设阈值的情况下,确定所述待识别账户为第二账户类型。
在其中一个实施例中,所述根据所述第一评分、所述第二评分确定所述待识别账户的账户评分,包括:
获取所述账户检测模型对应的第一权重以及所述分类模型对应的第二权重;
根据所述第一评分、所述第二评分、所述第一权重以及所述第二权重确定所述待识别账户的账户评分。
在其中一个实施例中,所述第一权重和所述第二权重的确定方式,包括:
获取测试数据,其中,所述测试数据为标注有账户类型标签的票据交互数据及账户数据;
将所述测试数据输入至所述账户检测模型,并根据所述账户检测模型的输出评分与账户类型标签之间的差异得到第一识别准确率;
将所述测试数据输入至所述分类模型,并根据所述分类模型的输出评分与账户类型标签之间的差异得到第二识别准确率;
根据所述第一识别准确率和所述第二识别准确率确定第一权重和第二权重。
在其中一个实施例中,所述分类模型的获取方式,包括:
获取账户的样本数据,其中,所述样本数据包括标注有账户类型标签的账户的票据交互数据及账户数据;
构建初始分类模型,所述初始分类模型中设置有训练参数;
将所述样本数据输入至所述初始分类模型,得到输出结果;
基于所述输出结果与标注的账户类型标签的差异,对所述初始分类模型进行迭代调整,直至所述差异满足预设要求,得到分类模型。
在其中一个实施例中,所述获取账户的样本数据,包括:
获取初始样本数据,所述初始样本数据中包括标注有账户类型标签的账户的票据交互数据及账户数据;
对所述初始样本数据进行过采样处理得到账户的样本数据,其中,所述账户的样本数据对应的账户中,所述第一账户类型数量与所述第二账户类型的数量的比例满足预设要求。
在其中一个实施例中,所述账户检测模型的获取方式,包括:
获取第一账户类型对应账户的样本数据,其中,所述样本数据包括票据交互数据及账户数据;
构建初始账户检测模型,所述初始账户检测模型中设置有训练参数;
将所述样本数据输入至所述初始账户检测模型中,经所述初始账户检测模型输出结果;
基于所述输出结果与所述样本数据之间的差异对所述训练参数进行调整,直至所述初始账户检测模型达到收敛,得到账户检测模型。
在其中一个实施例中,所述将所述票据交互数据及所述账户数据输入至账户检测模型,经所述账户检测模型输出第一评分,包括:
将所述票据交互数据及所述账户数据输入至账户检测模型,经所述账户检测模型输出检测结果;
获取所述检测结果与所述票据交互数据、所述账户数据之间的距离;
对所述距离进行归一化处理,得到第一评分。
第二方面,本公开实施例还提供了一种账户的识别装置。所述装置包括:
获取模块,用于获取待识别账户的票据交互数据及账户数据;
第一输入模块,用于将所述票据交互数据及所述账户数据输入至账户检测模型,经所述账户检测模型输出第一评分,其中,所述账户检测模型为利用第一账户类型对应账户的样本数据训练得到;
第二输入模块,用于将所述票据交互数据及所述账户数据输入至分类模型,经所述分类模型输出第二评分,所述分类模型为根据账户的样本数据与账户类型之间的关系训练得到;
第一确定模块,用于根据所述第一评分、所述第二评分确定所述待识别账户的账户评分;
第二确定模块,用于在所述账户评分高于预设阈值的情况下,确定所述待识别账户为第二账户类型。
在其中一个实施例中,所述第一确定模块,包括:
获取子模块,用于获取所述账户检测模型对应的第一权重以及所述分类模型对应的第二权重;
确定子模块,用于根据所述第一评分、所述第二评分、所述第一权重以及所述第二权重确定所述待识别账户的账户评分。
在其中一个实施例中,所述第一权重和所述第二权重的确定模块,包括:
获取子模块,用于获取测试数据,其中,所述测试数据为标注有账户类型标签的票据交互数据及账户数据;
第一输入子模块,用于将所述测试数据输入至所述账户检测模型,并根据所述账户检测模型的输出评分与账户类型标签之间的差异得到第一识别准确率;
第二输入子模块,用于将所述测试数据输入至所述分类模型,并根据所述分类模型的输出评分与账户类型标签之间的差异得到第二识别准确率;
确定子模块,用于根据所述第一识别准确率和所述第二识别准确率确定第一权重和第二权重。
在其中一个实施例中,所述分类模型的获取模块,包括:
获取子模块,用于获取账户的样本数据,其中,所述样本数据包括标注有账户类型标签的账户的票据交互数据及账户数据;
构建模块,用于构建初始分类模型,所述初始分类模型中设置有训练参数;
输入子模块,用于将所述样本数据输入至所述初始分类模型,得到输出结果;
调整模块,用于基于所述输出结果与标注的账户类型标签的差异,对所述初始分类模型进行迭代调整,直至所述差异满足预设要求,得到分类模型。
在其中一个实施例中,所述获取子模块,包括:
获取单元,用于获取初始样本数据,所述初始样本数据中包括标注有账户类型标签的账户的票据交互数据及账户数据;
采样单元,用于对所述初始样本数据进行过采样处理得到账户的样本数据,其中,所述账户的样本数据对应的账户中,所述第一账户类型数量与所述第二账户类型的数量的比例满足预设要求。
在其中一个实施例中,所述账户检测模型的获取模块,包括:
获取子模块,用于获取第一账户类型对应账户的样本数据,其中,所述样本数据包括票据交互数据及账户数据;
构建模块,用于构建初始账户检测模型,所述初始账户检测模型中设置有训练参数;
输入子模块,用于将所述样本数据输入至所述初始账户检测模型中,经所述初始账户检测模型输出结果;
调整模块,用于基于所述输出结果与所述样本数据之间的差异对所述训练参数进行调整,直至所述初始账户检测模型达到收敛,得到账户检测模型。
在其中一个实施例中,所述第一输出模块,包括:
输出子模块,用于将所述票据交互数据及所述账户数据输入至账户检测模型,经所述账户检测模型输出检测结果;
获取子模块,用于获取所述检测结果与所述票据交互数据、所述账户数据之间的距离;
距离处理模块,用于对所述距离进行归一化处理,得到第一评分。
第三方面,本公开实施例还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本公开实施例中任一项所述的方法的步骤。
第四方面,本公开实施例还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本公开实施例中任一项所述的方法的步骤。
第五方面,本公开实施例还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本公开实施例中任一项所述的方法的步骤。
本公开实施例,首先获取待识别账户的票据交互数据和账户数据,并将获取到的数据输入到账户检测模型和分类模型中,根据账户检测模型输出的第一评分和分类模型输出的第二评分得到待识别账户的账户评分,然后根据账户评分是否大于预设阈值判断待识别账户是否为第二账户类型,从而实现了对账户类型的自动识别,能够快速识别出异常账户,如票据中介账户等,提高了账户识别的效率和准确率,提升了对异常账户的风险管控能力。
附图说明
图1为一个实施例中账户的识别方法的流程示意图;
图2为一个实施例中账户的识别方法的流程示意图;
图3为一个实施例中账户的识别方法的流程示意图;
图4为一个实施例中账户检测模型的获取方法的流程示意图;
图5为一个实施例中分类模型的获取方法的流程示意图;
图6为一个实施例中模型的测试方法的流程示意图;
图7为一个实施例中账户的识别装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本公开实施例的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本公开实施例进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本公开实施例,并不用于限定本公开实施例。
在一个实施例中,如图1所示,提供了一种账户的识别方法,所述方法包括:
步骤S110,获取待识别账户的票据交互数据及账户数据。
本公开实施例中,当需要对账户进行识别时,首先获取待识别账户的票据交互数据及账户数据,其中,票据交互数据包括账户在进行票据交互时的数据,账户数据包括账户的基础业务数据。在一个示例中,票据交互数据可以包括但不限于账户背书详情、票签约日期详情等,其中,账户背书详情可以包括但不限于账户背书总次数、预设时间内背书次数以及预设时间内跨区域背书次数,票签约日期详情可以包括但不限于电票使用日天数。在一个示例中,账户数据可以包括但不限于账户网银状态、账户对应的理财账户详情、账户对应的储蓄账户详情,其中,账户网银状态可以包括但不限于是否开通网银,理财账户详情可以包括但不限于当前理财余额、上月末理财余额、预设时间内平均理财额,储蓄账户详情可以包括但不限于预设时间内账户存款余额。在一个示例中,可以设置定时任务,定时获取数据并进行识别,可以周期性获取账户数据并进行识别,还可以直接获取账户的数据进行识别。本实施例中,在选取票据交互数据和账户数据时,通常为根据数据与账户类型之间的关系进行选择,选择与账户类型关联度高的数据,能够有效提升后续识别的准确性。在一个示例中,通常情况下,从生产环境中直接获取到的数据为未经任何统计处理的原始数据,数据不利于建模和识别,因此需要对数据进行量化统计生成衍生变量,其中,部分衍生思路可以如表1所示。
表1
步骤S120,将所述票据交互数据及所述账户数据输入至账户检测模型,经所述账户检测模型输出第一评分,其中,所述账户检测模型为利用第一账户类型对应账户的样本数据训练得到。
本公开实施例中,获取到数据之后,将票据交互数据和账户数据输入到账户检测模型中,经过账户检测模型后,得到第一评分,通常情况下,第一评分为直接或间接通过账户检测模型输出结果得到,账户检测模型为根据第一账户类型对应账户的样本数据训练得到,其中,样本数据包括样本票据交互数据和样本账户数据。在一个示例中,可以根据账户是否有异常操作划分账户的类型,第一账户类型可以为无异常操作的正常账户,第一评分可以体现账户是否异常,第一评分越高,账户为异常账户的概率越高。在一个示例中,账户检测模型为基于异常检测类算法构建,账户检测模型可以为自编码模型。
步骤S130,将所述票据交互数据及所述账户数据输入至分类模型,经所述分类模型输出第二评分,所述分类模型为根据账户的样本数据与账户类型之间的关系训练得到;
本公开实施例中,获取到数据之后,将票据交互数据和账户数据输入到分类模型中,经过分类模型,得到第二评分,通常情况下,第二评分为直接或间接通过分类模型输出结果得到,分类模型为根据账户的样本数据与账户类型之间的关系训练得到,其中,样本数据包括样本票据交互数据和样本账户数据。在一个示例中,可以根据账户是否有异常操作将账户划分为第一账户类型和第二账户类型两种账户,第一账户可以为无异常操作的正常用户,第二账户类型可以为有异常操作的异常用户。第二评分可以体现账户是否异常,第二评分越高,账户为异常账户的概率越高。在一个示例中,分类模型为基于机器学习算法构建,分类模型可以为Xgboost模型,Xgboost模型为一种基于决策树的模型,它是一个由多个弱分类器构成的强分类器。
步骤S140,根据所述第一评分、所述第二评分确定所述待识别账户的账户评分;
本公开实施例中,获取到第一评分和第二评分后,根据第一评分和第二评分综合得到待识别账户的账户评分,其中,账户评分为直接或间接通过第一评分和第二评分获得。在一个示例中,可以将第一评分和第二评分之和作为账户评分,还可以根据账户检测模型的权重和分类模型的权重,结合第一评分和第二评分得到账户评分。
步骤S150,在所述账户评分高于预设阈值的情况下,确定所述待识别账户为第二账户类型。
本实施例中,获取到账户评分之后,判断账户评分是否高于预设阈值,若高于预设阈值,则确定待识别账户为第二账户类型,其中,预设阈值为事先根据实际应用场景设置得到,账户评分高于该预设阈值的情况下,可以认为账户为第二账户类型。其中,第二账户类型可以为账户存在异常操作的异常账户,账户评分越高,所述账户存在异常操作的概率越高,所述账户为异常账户的可能性越高,当账户评分大于预设阈值时,可以认为账户为异常账户。在一个示例中,还可以根据实际应用场景设置评分范围,当账户评分在第一范围内时,认为账户为第一账户类型;当账户评分在第二范围内时,认为账户为第二账户类型;当账户评分既不在第一范围内也不在第二范围内时,认为账户为其他账户类型,需要进一步分析处理。
本公开实施例,首先获取待识别账户的票据交互数据和账户数据,并将获取到的数据输入到账户检测模型和分类模型中,根据账户检测模型输出的第一评分和分类模型输出的第二评分得到待识别账户的账户评分,然后根据账户评分是否大于预设阈值判断待识别账户是否为第二账户类型,从而实现了对账户类型的自动识别,能够快速识别出异常账户,如票据中介账户等,提高了账户识别的效率和准确率,提升了对异常账户的风险管控能力;同时,账户检测模型为通过第一账户类型的数据训练得到,避免了因第二账户类型数据较少造成的建模困难、模型识别准确率差等问题,提升了识别的准确率。
在一个实施例中,所述根据所述第一评分、所述第二评分确定所述待识别账户的账户评分,包括:
获取所述账户检测模型对应的第一权重以及所述分类模型对应的第二权重;
根据所述第一评分、所述第二评分、所述第一权重以及所述第二权重确定所述待识别账户的账户评分。
本公开实施例中,通过第一评分和第二评分确定账户评分时,获取账户检测模型对应的第一权重和分类模型对应的第二权重,然后结合第一权重和第二权重确定账户对应的账户评分。其中,第一权重和第二权重通常为事先根据账户检测模型和分类模型的性能及特点设置得到。在一个示例中,账户评分可以包括第一评分和第二评分的加权和。
本公开实施例,通过账户检测模型对应的权重和分类模型对应的权重,结合第一评分和第二评分得到待识别账户的账户评分,结合了两个模型,设置不同的权重,提高了最终得到的账户评分的准确性和可靠性,进而进一步提升了后续账户识别的准确率。
在一个实施例中,如图2所示,所述第一权重和所述第二权重的确定方式,包括:
步骤S210,获取测试数据,其中,所述测试数据为标注有账户类型标签的票据交互数据及账户数据;
步骤S220,将所述测试数据输入至所述账户检测模型,并根据所述账户检测模型的输出评分与账户类型标签之间的差异得到第一识别准确率;
步骤S230,将所述测试数据输入至所述分类模型,并根据所述分类模型的输出评分与账户类型标签之间的差异得到第二识别准确率;
步骤S240,根据所述第一识别准确率和所述第二识别准确率确定第一权重和第二权重。
本公开实施例中,通过模型的识别准确率来确定模型对应的权重。首先获取测试数据,测试数据为标注有账户类型标签的票据交互数据和账户数据,将测试数据输入到账户检测模型中,得到输出评分,其中,输出评分为根据账户检测模型的输出结果直接得到或间接得到,根据输出评分与标签之间的差异确定账户检测模型对应的第一识别准确率。将测试数据输入到分类模型中,得到输出评分,其中,输出评分为根据分类模型的输出结果直接或间接得到,根据输出评分与标签之间的差异确定分类模型对应的第二识别准确率。在一个示例中,账户类型标签可以将第一账户类型标签设置对应为0,第二账户类型标签设置对应为1,账户检测模型和分类模型输出的评分均压缩至[0,1]区间,通常情况下,账户检测模型和分类模型的输出评分表示模型判断账户数据对应的账户为第二账户类型的概率,例如,当输出评分为1,则模型判断账户数据对应的账户为第二账户类型,当输出评分为0,则模型判断账户数据对应的账户为第一账户类型,以便于更简单直观地获取账户检测模型和分类模型分别对应的识别准确率。根据第一识别准确率和第二识别准确率确定第一权重和第二权重,通常情况下,识别准确率较高的模型的权重较大。在一个示例中,获取第一识别准确率和第二识别准确率之和,记为准确率之和,将第一识别准确率与准确率之和的比值作为第一权重,将第二识别准确率与准确率之和的比值作为第二权重。
本公开实施例,通过测试数据获得账户检测模型和分类模型的准确率,根据获得的准确率设置账户检测模型和分类模型的权重,保证了权重设置的合理性,综合考虑到了账户检测模型和分类模型的输出评分,进一步提高了最终得到的账户评分的准确性和可靠性,保证了账户识别的准确率。
在一个实施例中,所述分类模型的获取方式,包括:
获取账户的样本数据,其中,所述样本数据包括标注有账户类型标签的账户的票据交互数据及账户数据;
构建初始分类模型,所述初始分类模型中设置有训练参数;
将所述样本数据输入至所述初始分类模型,得到输出结果;
基于所述输出结果与标注的账户类型标签的差异,对所述初始分类模型进行迭代调整,直至所述差异满足预设要求,得到分类模型。
本公开实施例中,获取账户的样本数据,其中,样本数据包括标注有账户类型标签的账户的票据交互数据及账户数据,构建初始分类模型,初始分类模型中设置有训练参数,将样本数据输入到初始分类模型中,经初始分类模型得到输出结果,根据输出结果与标注的标签之间的差异,对初始分类模型进行迭代调整,通常情况为对初始分类模型中的参数进行调整,直到输出结果与标签之间的差异满足预设的要求,得到分类模型。在一个示例中,分类模型为基于机器学习构建。
本公开实施例,根据样本数据训练初始分类模型得到分类模型,提高了评分和识别的效率,降低了工作量;同时保证了分类模型的准确率,进而进一步提高了最终的账户识别的准确率。
在一个实施例中,所述获取账户的样本数据,包括:
获取初始样本数据,所述初始样本数据中包括标注有账户类型标签的账户的票据交互数据及账户数据;
对所述初始样本数据进行过采样处理得到账户的样本数据,其中,所述账户的样本数据对应的账户中,所述第一账户类型数量与所述第二账户类型的数量的比例满足预设要求。
本公开实施例中,获取初始样本数据,对初始样本进行过采样处理得到训练分类模型所需的账户的样本数据。其中,初始样本数据为在实际应用场景中采样获取的数据,为真实数据,由于受实际场景的限制,通常初始样本数据中不同类型的数据比例分布不均衡,因此需要平衡不同类型的样本数量。假设第一类型样本的数量大于第二样本,过采样处理通常为对训练集中的第二类型样本进行过采样,即增加一些第二类型样本使得第二类型样本和第一类型样本的数目相当,如第一类型样本不做处理,复制第二类型样本,以提升第二类型样本比例。本实施例中,可以对第二账户类型的数据进行过采样,得到更多的类似第二账户类型的数据。在一个示例中,可以通过SMOTE算法进行过采样。过采样处理后的数据中第一账户类型的数量和第二账户类型的数量之间的比例要满足预设要求,其中,预设要求为事先根据实际应用场景设置得到,通常为尽可能保证比例接近1:1。
本公开实施例,通过对初始样本数据进行过采样,使得训练模型用的数据中不同类型的数据分布较为均衡,缩小了不同类型数据之间的数量差距,降低了建模难度,提高了训练得到的模型的准确率,进而保证了最终的账户识别的准确率。
在一个实施例中,所述账户检测模型的获取方式,包括:
获取第一账户类型对应账户的样本数据,其中,所述样本数据包括票据交互数据及账户数据;
构建初始账户检测模型,所述初始账户检测模型中设置有训练参数;
将所述样本数据输入至所述初始账户检测模型中,经所述初始账户检测模型输出结果;
基于所述输出结果与所述样本数据之间的差异对所述训练参数进行调整,直至所述初始账户检测模型达到收敛,得到账户检测模型。
本公开实施例中,获取第一账户类型对应账户的样本数据,样本数据中包括账户的票据交互数据和账户数据。构建初始账户检测模型,其中,模型中设置有训练参数。将样本数据输入到初始账户检测模型中,经所述初始账户检测模型输出结果。将样本数据本身作为训练目标,根据输出结果与样本数据本身之间的差异对训练参数进行调整,直到账户检测模型达到收敛,得到账户检测数据。在一个示例中,账户检测模型中可以包括自编码器,账户检测模型输出经自编码器编码后解码的数据。
本公开实施例,采取第一账户类型对应的账户的数据训练得到账户检测模型,使得账户检测模型能够识别非第一账户类型的数据,提高了评分和识别的效率,降低了工作量;同时保证了账户检测模型的准确率,进而进一步提高了最终的账户识别的准确率。
在一个实施例中,所述将所述票据交互数据及所述账户数据输入至账户检测模型,经所述账户检测模型输出第一评分,包括:
将所述票据交互数据及所述账户数据输入至账户检测模型,经所述账户检测模型输出检测结果;
获取所述检测结果与所述票据交互数据、所述账户数据之间的距离;
对所述距离进行归一化处理,得到第一评分。
本公开实施例中,将票据交互数据和账户数据输入到账户检测模型中,经账户检测模型输出检测结果。获取输出的检测结果和输入的票据数据、账户数据之间的距离,对获取到的距离进行归一化处理,即将距离压缩至[0,1]区间内,处理后的结果作为第一评分。在一个示例中,可以计算输出检测结果与输入数据之间的欧氏距离。
本公开实施例,通过获取账户检测模型输出的监测结果与输入数据之间的距离,并进行归一化,得到第一评分,使得第一评分能够准确直观地反映待识别账户的类型,有利于后续的账户的识别,提高了账户识别的准确性。
图3是根据一示例性实施例示出的一种账户的识别方法的示意图,本实施例中利用账户的识别方法识别账户是否为票据中介的账户。参考图3所示,首先获取数据,通过业务历史记录获取基础数据,数据包含采样时采样点所有票据转让背书签收信息、背书客户信息等,其中部分数据已由业务人员完成标记即标注是否为中介账户。由于在使用模型之前票据相关的业务人员通常采用人工分析的方法识别票据中介,因此业务方提供的数据是未经任何统计处理的原始数据,数据不利于建模,本实施例中对数据进行了量化统计、根据经验构造等手段生成了一系列衍生变量,具体可如表1所述。数据处理完成后,对数据集进行划分,其中一部分设置为训练集,用于训练模型,一部分设置为测试集,用于测试模型。根据数据分布的特点可以看出票据中介是一种较为少数的异常情况,因此可以采用异常检测类算法挖掘出异常数据也就是中介数据;因为本次衍生的变量较多且数据类型复杂,为了达到较好的识别效果,可以选用基于深度学习的自编码模型用于异常检测。其中,自编码模型的网络结构为两头大中间小的神经网络,该网络的作用是先将输入进行压缩然后再解码还原。在进行异常检测时,可以学习一个对正常数据也就是非中介数据的压缩再解码还原的过程的模式,不符合这个模式的数据可以被认为存在异常。
训练得到异常检测模型时,如图4所示,将数量较多的非中介数据样本作为正常数据,提取样本中的连续字段,并将数据本身作为训练目标训练自编密码器,直到模型达到收敛,得到一个自编码模型,此时模型输入一个非中介数据,其得到的输出与数据差距会非常小,但是当输入一个中介数据时得到的输出与输入差距会非常大。将未标记的样本输入到该模型中,计算输出的解码后的向量与输入变量之间的欧氏距离,并将距离值压缩到[0,1]范围内,最终压缩后的距离值即为该数据对应的账户的评分值。其中,可以按照距离值的大小降序排列,距离值越大,账户为中介数据的概率越大。
为了提高识别的准确率,本实施例中还选择了基于机器学习的模型用于识别。由于票据中介是二分类问题,可以用机器学习二分类算法进行训练,机器学习建模过程就是利用已有的一批数据获得一个模型,该模型可以准确的建立特征与标签之间的数据关系。如果模型足够准确,将新的数据特征输入模型,就可以准确知道是否是中介。本实施例中,采取Xgboost算法进行二分类模型训练,将结果与异常检测算法模型结果进行融合。Xgboost模型是机器学习算法模型中的一种,它是一种基于决策树的模型,它是由多个弱分类器构成,最终构建成一个强分类器。由于现有数据分布不均衡,模型难以训练,因此先用SMOTE算法进行过采样,也就是通过算法生成更多的类似中介的数据,从而缩小中介数据和非中介数据的数量差距。利用过采样后的数据训练得到Xgboost模型进行训练,训练过程如图5所示,首先对数据集进行划分,得到训练集和测试集,将数据集中的中介账户标记为1,非中介账户标记为0,利用训练集通过迭代调整训练得到预测模型,并利用测试集对预测模型进行测试,最终的准确率在预设范围以内。将账户数据输入至模型中,输出的结果为[0,1]之间。其中,可以按照输出值的大小降序排列,输出值越大,账户为中介数据的概率越大。
通过以上两种算法可以得到两种算法结果,分别是异常检测分值:ANOMALYSCORE和机器学习模型分值:MODELSCORE。对两种分值单独进行评估测试得到两种算法的准确率,分别为异常检测准确率:ANOMALYACC和机器学习模型准确率:MODELACC。其中,具体测试过程可以如图6所示,选取测试数据,对测试数据进行标记,将标记后的测试数据输入到模型中,根据模型的输出分值判断模型的准确率,在一个示例中,可以将输出分值降序排列,选取前K个数据判断对应账户是否为中介账户。根据ANOMALYACC和MODELACC可以得到两种模型的权重,权重计算方法如式(1)、式(2)所示。在识别过程中根据权重和输出评分得到账户对应的分值A,具体计算方式如式(3)所示。
A=ANOMALYSCORE×ANOMALYWEIGHT+MODELSCORE×MODELWEIGHT (3)
最终经过模型评估的模型作为识别模型部署至应用环境中,可以设置定时任务,定时获取账户数据进行识别,将输出结果降序排列,根据输出结果判断账户是否为中介账户,其中,可以对输出结果进行验证,优化识别模型。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,附图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本公开实施例还提供了一种用于实现上述所涉及的账户的识别方法的账户的识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个账户的识别装置实施例中的具体限定可以参见上文中对于账户的识别方法的限定,在此不再赘述。
在一个实施例中,如图7所示,提供了一种账户的识别装置800,包括:
获取模块710,用于获取待识别账户的票据交互数据及账户数据;
第一输入模块720,用于将所述票据交互数据及所述账户数据输入至账户检测模型,经所述账户检测模型输出第一评分,其中,所述账户检测模型为利用第一账户类型对应账户的样本数据训练得到;
第二输入模块730,用于将所述票据交互数据及所述账户数据输入至分类模型,经所述分类模型输出第二评分,所述分类模型为根据账户的样本数据与账户类型之间的关系训练得到;
第一确定模块740,用于根据所述第一评分、所述第二评分确定所述待识别账户的账户评分;
第二确定模块750,用于在所述账户评分高于预设阈值的情况下,确定所述待识别账户为第二账户类型。
在一个实施例中,所述第一确定模块,包括:
获取子模块,用于获取所述账户检测模型对应的第一权重以及所述分类模型对应的第二权重;
确定子模块,用于根据所述第一评分、所述第二评分、所述第一权重以及所述第二权重确定所述待识别账户的账户评分。
在一个实施例中,所述第一权重和所述第二权重的确定模块,包括:
获取子模块,用于获取测试数据,其中,所述测试数据为标注有账户类型标签的票据交互数据及账户数据;
第一输入子模块,用于将所述测试数据输入至所述账户检测模型,并根据所述账户检测模型的输出评分与账户类型标签之间的差异得到第一识别准确率;
第二输入子模块,用于将所述测试数据输入至所述分类模型,并根据所述分类模型的输出评分与账户类型标签之间的差异得到第二识别准确率;
确定子模块,用于根据所述第一识别准确率和所述第二识别准确率确定第一权重和第二权重。
在一个实施例中,所述分类模型的获取模块,包括:
获取子模块,用于获取账户的样本数据,其中,所述样本数据包括标注有账户类型标签的账户的票据交互数据及账户数据;
构建模块,用于构建初始分类模型,所述初始分类模型中设置有训练参数;
输入子模块,用于将所述样本数据输入至所述初始分类模型,得到输出结果;
调整模块,用于基于所述输出结果与标注的账户类型标签的差异,对所述初始分类模型进行迭代调整,直至所述差异满足预设要求,得到分类模型。
在一个实施例中,所述获取子模块,包括:
获取单元,用于获取初始样本数据,所述初始样本数据中包括标注有账户类型标签的账户的票据交互数据及账户数据;
采样单元,用于对所述初始样本数据进行过采样处理得到账户的样本数据,其中,所述账户的样本数据对应的账户中,所述第一账户类型数量与所述第二账户类型的数量的比例满足预设要求。
在一个实施例中,所述账户检测模型的获取模块,包括:
获取子模块,用于获取第一账户类型对应账户的样本数据,其中,所述样本数据包括票据交互数据及账户数据;
构建模块,用于构建初始账户检测模型,所述初始账户检测模型中设置有训练参数;
输入子模块,用于将所述样本数据输入至所述初始账户检测模型中,经所述初始账户检测模型输出结果;
调整模块,用于基于所述输出结果与所述样本数据之间的差异对所述训练参数进行调整,直至所述初始账户检测模型达到收敛,得到账户检测模型。
在一个实施例中,所述第一输出模块,包括:
输出子模块,用于将所述票据交互数据及所述账户数据输入至账户检测模型,经所述账户检测模型输出检测结果;
获取子模块,用于获取所述检测结果与所述票据交互数据、所述账户数据之间的距离;
距离处理模块,用于对所述距离进行归一化处理,得到第一评分。
上述账户的识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储账户数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种账户的识别方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本公开实施例方案相关的部分结构的框图,并不构成对本公开实施例方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本公开实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本公开实施例所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本公开实施例所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本公开实施例所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本公开实施例的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本公开实施例专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本公开实施例构思的前提下,还可以做出若干变形和改进,这些都属于本公开实施例的保护范围。因此,本公开实施例的保护范围应以所附权利要求为准。
Claims (11)
1.一种账户的识别方法,其特征在于,所述方法包括:
获取待识别账户的票据交互数据及账户数据;
将所述票据交互数据及所述账户数据输入至账户检测模型,经所述账户检测模型输出第一评分,其中,所述账户检测模型为利用第一账户类型对应账户的样本数据训练得到;
将所述票据交互数据及所述账户数据输入至分类模型,经所述分类模型输出第二评分,所述分类模型为根据账户的样本数据与账户类型之间的关系训练得到;
根据所述第一评分、所述第二评分确定所述待识别账户的账户评分;
在所述账户评分高于预设阈值的情况下,确定所述待识别账户为第二账户类型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一评分、所述第二评分确定所述待识别账户的账户评分,包括:
获取所述账户检测模型对应的第一权重以及所述分类模型对应的第二权重;
根据所述第一评分、所述第二评分、所述第一权重以及所述第二权重确定所述待识别账户的账户评分。
3.根据权利要求2所述的方法,其特征在于,所述第一权重和所述第二权重的确定方式,包括:
获取测试数据,其中,所述测试数据为标注有账户类型标签的票据交互数据及账户数据;
将所述测试数据输入至所述账户检测模型,并根据所述账户检测模型的输出评分与账户类型标签之间的差异得到第一识别准确率;
将所述测试数据输入至所述分类模型,并根据所述分类模型的输出评分与账户类型标签之间的差异得到第二识别准确率;
根据所述第一识别准确率和所述第二识别准确率确定第一权重和第二权重。
4.根据权利要求1所述的方法,其特征在于,所述分类模型的获取方式,包括:
获取账户的样本数据,其中,所述样本数据包括标注有账户类型标签的账户的票据交互数据及账户数据;
构建初始分类模型,所述初始分类模型中设置有训练参数;
将所述样本数据输入至所述初始分类模型,得到输出结果;
基于所述输出结果与标注的账户类型标签的差异,对所述初始分类模型进行迭代调整,直至所述差异满足预设要求,得到分类模型。
5.根据权利要求4所述的方法,其特征在于,所述获取账户的样本数据,包括:
获取初始样本数据,所述初始样本数据中包括标注有账户类型标签的账户的票据交互数据及账户数据;
对所述初始样本数据进行过采样处理得到账户的样本数据,其中,所述账户的样本数据对应的账户中,所述第一账户类型数量与所述第二账户类型的数量的比例满足预设要求。
6.根据权利要求1所述的方法,其特征在于,所述账户检测模型的获取方式,包括:
获取第一账户类型对应账户的样本数据,其中,所述样本数据包括票据交互数据及账户数据;
构建初始账户检测模型,所述初始账户检测模型中设置有训练参数;
将所述样本数据输入至所述初始账户检测模型中,经所述初始账户检测模型输出结果;
基于所述输出结果与所述样本数据之间的差异对所述训练参数进行调整,直至所述初始账户检测模型达到收敛,得到账户检测模型。
7.根据权利要求2所述的方法,其特征在于,所述将所述票据交互数据及所述账户数据输入至账户检测模型,经所述账户检测模型输出第一评分,包括:
将所述票据交互数据及所述账户数据输入至账户检测模型,经所述账户检测模型输出检测结果;
获取所述检测结果与所述票据交互数据、所述账户数据之间的距离;
对所述距离进行归一化处理,得到第一评分。
8.一种账户的识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别账户的票据交互数据及账户数据;
第一输入模块,用于将所述票据交互数据及所述账户数据输入至账户检测模型,经所述账户检测模型输出第一评分,其中,所述账户检测模型为利用第一账户类型对应账户的样本数据训练得到;
第二输入模块,用于将所述票据交互数据及所述账户数据输入至分类模型,经所述分类模型输出第二评分,所述分类模型为根据账户的样本数据与账户类型之间的关系训练得到;
第一确定模块,用于根据所述第一评分、所述第二评分确定所述待识别账户的账户评分;
第二确定模块,用于在所述账户评分高于预设阈值的情况下,确定所述待识别账户为第二账户类型。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的账户的识别方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的账户的识别方法的步骤。
11.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7中任一项所述的账户的识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211148590.3A CN115907954A (zh) | 2022-09-21 | 2022-09-21 | 账户的识别方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211148590.3A CN115907954A (zh) | 2022-09-21 | 2022-09-21 | 账户的识别方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115907954A true CN115907954A (zh) | 2023-04-04 |
Family
ID=86469827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211148590.3A Pending CN115907954A (zh) | 2022-09-21 | 2022-09-21 | 账户的识别方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115907954A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117291609A (zh) * | 2023-10-09 | 2023-12-26 | 石溪信息科技(上海)有限公司 | 用于账户风险监控系统的数据分析方法及系统 |
-
2022
- 2022-09-21 CN CN202211148590.3A patent/CN115907954A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117291609A (zh) * | 2023-10-09 | 2023-12-26 | 石溪信息科技(上海)有限公司 | 用于账户风险监控系统的数据分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11853854B2 (en) | Method of automating data science services | |
CN112070125A (zh) | 一种基于孤立森林学习的不平衡数据集的预测方法 | |
CN110930038A (zh) | 一种贷款需求识别方法、装置、终端及存储介质 | |
CN112700324A (zh) | 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法 | |
CN116307671A (zh) | 风险预警方法、装置、计算机设备、存储介质 | |
CN115907954A (zh) | 账户的识别方法、装置、计算机设备和存储介质 | |
CN112132589A (zh) | 一种基于多次融合构建欺诈识别模型的方法 | |
CN112926989B (zh) | 一种基于多视图集成学习的银行贷款风险评估方法及设备 | |
CN115204322A (zh) | 行为链路异常识别方法和装置 | |
CN115063143A (zh) | 账户数据处理方法、装置、计算机设备和存储介质 | |
CN114170000A (zh) | 信用卡用户风险类别识别方法、装置、计算机设备和介质 | |
CN114140246A (zh) | 模型训练方法、欺诈交易识别方法、装置和计算机设备 | |
CN112884028A (zh) | 一种系统资源调整方法、装置及设备 | |
CN112529319A (zh) | 基于多维特征的评分方法、装置、计算机设备及存储介质 | |
CN113554099A (zh) | 一种识别异常商户的方法及装置 | |
CN112116358A (zh) | 一种交易欺诈行为的预测方法、装置及电子设备 | |
Jose et al. | Detection of Credit Card Fraud Using Resampling and Boosting Technique | |
Kang | Fraud Detection in Mobile Money Transactions Using Machine Learning | |
CN117808441B (zh) | 一种投标信息核查方法及系统 | |
CN113627653B (zh) | 手机银行用户的活跃度预测策略的确定方法及装置 | |
Suleiman et al. | Predicting an applicant status using principal component, discriminant and logistic regression analysis | |
Grogoriou | Credit risk analysis via machine learning methods: client segmentation based on probability of default | |
CN117911166A (zh) | 团险理赔风险识别方法、装置、计算机设备和存储介质 | |
Polokhach et al. | Investigating a Different Approaches to Resolve Binary Classification Task with Unbalanced Dataset | |
Atli Thorsteinsson | Clustering and classification of prepaid mortgages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |