发明内容
基于此,有必要针对上述技术问题,提供一种能够提高信息安全性的违规账户识别方法、装置、计算机设备和存储介质。
一种违规账户的识别方法,所述方法包括:
从数据库获取资金账户在目标时段内产生的数据记录;
通过创建的第一线程利用所述数据记录,判断所述资金账户的资金余额是否符合余额条件,以及通过所述资金账户执行不同操作时对应的设备是否相同;
当所述资金余额符合余额条件、且执行不同操作时所对应的操作设备不同时,则获取第一达标权重;
通过创建的第二线程利用所述数据记录,判断在所述目标时段内每次暂停交易时是否修改所述资金账户的密码;
若每次暂停交易时修改所述资金账户的密码,则获取第二达标权重;
通过识别模型对所述第一达标权重和所述第二达标权重进行计算,得到第一识别分数;
当所述第一识别分数大于分数阈值时,确定所述资金账户为违规账户。
在一个实施例中,所述方法还包括:
当所述资金余额符合余额条件、且执行不同操作时所对应的操作设备不同时,从所述数据记录中提取所述资金余额符合余额条件时对应的资金转移时间;
当确定两个设备通过所述资金账户执行不同操作时,从所述数据记录中提取在后操作所对应的操作时间;
计算所述资金转移时间与所述操作时间之间的第一时间间隔;
当所述第一时间间隔小于第一预设时间间隔时,执行所述获取第一达标权重的步骤。
在一个实施例中,所述方法还包括:
若每次暂停交易时修改所述资金账户的密码,从所述数据记录中提取修改所述资金账户的密码时的密码修改时间;计算所述操作时间与所述密码修改时间之间的第二时间间隔;
当所述第二时间间隔小于第二预设时间间隔时,执行所述获取第二达标权重的步骤。
在一个实施例中,所述获取第二达标权重之后,所述方法还包括:
通过创建的第三线程利用所述数据记录,判断所述目标时段内是否存在用于管理各资金账户的账户管理设备操作所述资金账户;
当存在所述账户管理设备操作所述资金账户时,获取第三达标权重;
通过所述识别模型对所述第一达标权重、所述第二达标权重以及所述第三达标权重进行计算,得到第二识别分数;
当所述第二识别分数大于分数阈值时,确定所述资金账户为违规账户。
在一个实施例中,所述通过创建的第三线程利用所述数据记录,判断所述目标时段内是否存在用于管理各资金账户的账户管理设备操作所述资金账户包括:
从所述数据记录中提取对所述资金账户进行操作的所有设备的设备信息;
根据所述设备信息提取所述所有设备对应的操作数据;
在所述所有设备中,基于所述操作数据判断所述目标时段内是否存在用于管理各资金账户的账户管理设备。
在一个实施例中,所述基于所述操作数据判断所述目标时段内是否存在用于管理各资金账户的账户管理设备包括:
从所述操作数据中提取所述所有设备在所述目标时段内分别管理的各资金账户,查找所述所有设备中存在所管理的资金账户的数量大于数量阈值时所对应的目标设备;
当所述目标设备在所述目标时段内未发起产品买入操作,但发起产品卖出操作时,确定所述目标设备为用于管理各资金账户的账户管理设备;
当所述目标设备在所述目标时段内发起产品买入操作时,确定所述目标设备不是用于管理各资金账户的账户管理设备。
在一个实施例中,所述方法还包括:
从数据样本中选取多组样本集合;每组所述样本集合中均包括训练数据和测试数据;
分别通过每组所述样本集合中的训练数据对预训练的识别模型进行训练,得到多个候选识别模型;
通过所述测试数据对各所述候选识别模型进行测试,得到各所述候选识别模型对应的预测准确率;
根据所述预测准确率在所述候选识别模型中确定所述识别模型。
在一个实施例中,所述方法还包括:
获取所述识别模型的特征曲线;
根据所述特征曲线对所述识别模型的参数进行调整。
一种违规账户的识别装置,所述装置包括:
获取模块,用于从数据库获取资金账户在目标时段内产生的数据记录;
判断模块,用于通过创建的第一线程利用所述数据记录,判断所述资金账户的资金余额是否符合余额条件,以及通过所述资金账户执行不同操作时对应的设备是否相同;
所述获取模块,还用于当所述资金余额符合余额条件、且执行不同操作时所对应的操作设备不同时,则获取第一达标权重;
判断模块,用于通过创建的第二线程利用所述数据记录,判断在所述目标时段内每次暂停交易时是否修改所述资金账户的密码;
所述获取模块,若每次暂停交易时修改所述资金账户的密码,则还用于获取第二达标权重;
计算模块,用于通过识别模型对所述第一达标权重和所述第二达标权重进行计算,得到第一识别分数;
确定模块,用于当所述第一识别分数大于分数阈值时,确定所述资金账户为违规账户。
在一个实施例中,所述装置还包括:
提取模块,当所述资金余额符合余额条件、且执行不同操作时所对应的操作设备不同时,用于从所述数据记录中提取所述资金余额符合余额条件时对应的资金转移时间;
提取模块,当确定两个设备通过所述资金账户执行不同操作时,用于从所述数据记录中提取在后操作所对应的操作时间;
计算模块,用于计算所述资金转移时间与所述操作时间之间的第一时间间隔;
执行模块,当所述第一时间间隔小于第一预设时间间隔时,用于执行所述获取第一达标权重的步骤。
在一个实施例中,所述装置还包括:
提取模块,若每次暂停交易时修改所述资金账户的密码,用于从所述数据记录中提取修改所述资金账户的密码时的密码修改时间;
计算模块,用于计算所述操作时间与所述密码修改时间之间的第二时间间隔;
执行模块,当所述第二时间间隔小于第二预设时间间隔时,用于执行所述获取第二达标权重的步骤。
在一个实施例中,所述装置还包括:
判断模块,用于通过创建的第三线程利用所述数据记录,判断所述目标时段内是否存在用于管理各资金账户的账户管理设备操作所述资金账户;
达标权重获取模块,当存在所述账户管理设备操作所述资金账户时,用于获取第三达标权重;
所述计算模块,还用于通过所述识别模型对所述第一达标权重、所述第二达标权重以及所述第三达标权重进行计算,得到第二识别分数;
所述确定模块,还用于当所述第二识别分数大于分数阈值时,确定所述资金账户为违规账户。
在一个实施例中,所述判断模块,还用于:
从所述数据记录中提取对所述资金账户进行操作的所有设备的设备信息;
根据所述设备信息提取所述所有设备对应的操作数据;
在所述所有设备中,基于所述操作数据判断所述目标时段内是否存在用于管理各资金账户的账户管理设备。
在一个实施例中,所述判断模块,还用于:
从所述操作数据中提取所述所有设备在所述目标时段内分别管理的各资金账户,查找所述所有设备中存在所管理的资金账户的数量大于数量阈值时所对应的目标设备;
当所述目标设备在所述目标时段内未发起产品买入操作,但发起产品卖出操作时,确定所述目标设备为用于管理各资金账户的账户管理设备;
当所述目标设备在所述目标时段内发起产品买入操作时,确定所述目标设备不是用于管理各资金账户的账户管理设备。
在一个实施例中,所述装置还包括:
选取模块,用于从数据样本中选取多组样本集合;每组所述样本集合中均包括训练数据和测试数据;
训练模块,用于分别通过每组所述样本集合中的训练数据对预训练的识别模型进行训练,得到多个候选识别模型;
测试模块,用于通过所述测试数据对各所述候选识别模型进行测试,得到各所述候选识别模型对应的预测准确率;
所述确定模块,还用于根据所述预测准确率在所述候选识别模型中确定所述识别模型。
在一个实施例中,所述装置还包括:
所述获取模块,用于获取所述识别模型的特征曲线;
调整模块,用于根据所述特征曲线对所述识别模型的参数进行调整。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述违规账户的识别方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现所述违规账户的识别方法的步骤。
上述实施例中,计算机设备从数据库获取资金账户在目标时段内产生的数据记录。计算机设备通过创建的第一线程,利用数据记录对资金账户的资金余额是否满足余额条件、以及通过所述资金账户执行不同操作时对应的设备是否相同,并在资金账户满足上述条件时获取第一达标权重。然后计算机设备通过第二线程利用数据记录判断资金账户在目标时段内每次暂停交易时是否修改所述资金账户的密码,如果在每次暂停交易时修改资金账户的密码,则获取第二达标权重。计算机设备通过识别模型对第一达标权重和第二达标权重进行计算,得到第一识别分数,并在第一识别分数大于分数阈值时将资金账户确定为违规账户,不需要通过对交易机构的网络设备的端口进行扫描,即可识别出违规账户,不会造成交易机构的信息泄露,安全性高。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的违规账户的识别方法,可以应用于如图1所示的应用环境中。其中,计算机设备102从数据库104中获取资金账户在目标时段内产生的数据记录并通过创建的第一线程根据数据记录判断资金账户的资金余额是否符合余额条件以及通过资金账户执行不同操作时对应的设备是否相同,并根据判断结果获取第一达标权重。然后,计算机设备102通过创建的第二线程利用从数据库获取的数据记录,判断在目标时段内每次暂停交易时是否修改资金账户的密码,并根据判断结果获取第二达标权重。计算机设备通过识别模型对第一达标权重和第二达标权重进行计算,得到第一识别分数,并当第一识别分数大于分数阈值时,确定资金账户为违规账户。当资金账户是违规账户时,计算机设备102向监管终端106发送提示信息。
其中,计算机设备102可以是终端也可以是服务器,终端不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种违规账户的识别方法,以该方法应用于图1中的计算机设备102为例进行说明,包括以下步骤:
S202,计算机设备从数据库获取资金账户在目标时段内产生的数据记录。
其中,数据库是按照数据结构来组织、存储和管理数据的仓库,包括关系型数据库和非关系型数据库。
其中,资金账户是用于进行产品交易、资金清算的账户。
其中,数据记录是在目标时段内产生的和资金账户相关的数据,包括通过资金账户进行产品交易的交易数据、对资金账户进行操作的操作数据以及和对资金账户进行操作的操作设备相关的数据等。
资金账户的数据记录存储在数据库中。数据记录可以是以JSON(JavaScriptObject Notation,JS 对象简谱)格式、XML(Extensible Markup Language,可扩展标记语言)格式,或者其它文件格式存储的数据信息。
S204,计算机设备通过创建的第一线程利用数据记录,判断资金账户的资金余额是否符合余额条件,以及通过资金账户执行不同操作时对应的设备是否相同。
其中,第一线程是进程的一个执行流,是计算机设备的CPU调度和分派的基本单位。第一线程由堆栈、寄存器和线程控制表组成。
当第一线程创建后,获取CPU的使用权限,通过CPU对数据记录进行分析处理,以判断资金账户的资金余额是否符合余额条件,以及通过资金账户执行不同操作时对应的设备是否相同。
其中,余额条件是计算机设备设置的,通过资金账户的余额对资金账户是否是第一类型的违规账户进行判断的条件。例如,余额条件可以是资金账户在转出资金后余额为整数,或者余额条件可以是资金账户在转入资金后余额为整数。
其中,通过资金账户执行不同操作是通过资金账户执行对产品进行管理的操作,或者执行对资金账户进行管理的操作。例如,执行买入产品的操作,或者执行卖出产品的操作,或者执行平仓或者清仓操作,或者执行修改资金账户的密码的操作等。
其中,判断通过资金账户执行不同操作时对应的设备是否相同例如可以是判断通过资金账户执行买入产品的操作时对应的设备是否与通过资金账户执行平仓操作时对应的设备是否相同。或者可以是,判断通过资金账户执行买入产品的操作时对应的设备是否与通过资金账户执行修改资金账户的密码时对应的设备是否相同。
在一个实施例中,计算机设备从数据记录中提取通过资金账户执行不同操作时对应设备的设备标志,通过设备标志判断通过资金账户执行不同操作时对应的设备是否相同。设备标志具有唯一性,用于唯一的确定一台设备。设备标志例如可以是设备的MAC地址,IP地址;或者当设备是手机时,可以是手机号、IMEI(International Mobile EquipmentIdentity,国际移动设备识别码);或者可以是UUID(Universally Unique Identifier,通用唯一识别码)。
S206,当资金余额符合余额条件、且执行不同操作时所对应的操作设备不同时,则计算机设备获取第一达标权重。
其中,第一达标权重是计算机设备设置的、用于表示符合“资金账户的资金余额符合余额条件、且通过资金账户执行不同操作时所对应的操作设备不同”这两个条件对于判断资金账户是违规账户的重要程度的数值。例如,可以是30。
当资金账户的违规方式发生变化时,计算机设备可以对设置的第一达标权重进行调整,以使第一达标权重表示的重要程度能够适应资金账户的违规方式的变化。
S208,计算机设备通过创建的第二线程利用数据记录,判断在目标时段内每次暂停交易时是否修改资金账户的密码。
其中,第二线程是进程的一个执行流,是计算机设备的CPU调度和分派的基本单位。第二线程由堆栈、寄存器和线程控制表组成。
当第二线程创建后,获取CPU的使用权限,通过CPU对数据记录进行分析处理,以判断在目标时段内每次暂停交易时是否修改资金账户的密码。
其中,暂停交易时是指资金账户完成一个阶段的交易过程,并暂时停止交易。例如,可以是通过资金账户执行清仓操作后的暂停交易时。
计算机设备通过在数据记录中查找在暂停交易时是否有对资金账户的密码进行修改的记录来判断暂停交易时是否修改资金账户的密码。
S210,若每次暂停交易时修改资金账户的密码,则获取第二达标权重。
其中,第二达标权重是计算机设备设置的、用于表示符合“每次暂停交易时修改资金账户的密码”这个条件对于判断资金账户是违规账户的重要程度的数值。例如,可以是10。
当资金账户的违规方式发生变化时,计算机设备可以对设置的第二达标权重进行调整,以使第二达标权重表示的重要程度能够适应资金账户的违规方式的变化。
S212,计算机设备通过识别模型对第一达标权重和第二达标权重进行计算,得到第一识别分数。
其中,识别模型可以是各种机器学习模型,包括有监督机器学习模型或无监督机器学习模型,有监督机器学习模型可以是支持向量机模型、朴素贝叶斯模型、决策树模型、神经网络模型等,无监督机器学习模型可以是主成分分析模型、聚类模型等。
其中,第一识别分数是衡量待识别的资金账户是否是违规账户的参数,可以是数字、分数或百分数等。例如,第一识别分数可以是30,或者也可以是50%,或者也可以是2/3等。
在一个实施例中,识别模型中包括多个串连的卷积层和归一化层。S212具体包括:计算机设备将第一达标权重和第二达标权重输入卷积层进行卷积计算,将卷积计算的结果输入与该卷积层串连的归一化层进行归一化运算,然后再将归一化层输出的归一化结果输入与归一化层串连的卷积层再次进行卷积计算,依次类推,直至最后一个归一化层,得到第一识别分数。
S214,当第一识别分数大于分数阈值时,确定资金账户为违规账户。
其中,违规账户可以是企业或者个人从交易机构申请的、并违规借给客户进行交易的账户。例如,可以是企业或者个人从交易机构获取账户后,存入一定的资金,并连同资金一起借给客户使用的账户。例如,可以是企业或者个人将账户借给客户使用时,在一段时间内只借给同一客户使用的账户。
在一个实施例中,如果计算机设备判断资金账户是违规账户,则计算机设备向监管终端发送提示信息。提示信息中可以包含计算出的第一达标权重和第二达标权重、资金账户的账号、计算机设备做出判断的时间等。
上述实施例中,计算机设备从数据库获取资金账户在目标时段内产生的数据记录。计算机设备通过创建的第一线程,利用数据记录对资金账户的资金余额是否满足余额条件、以及通过所述资金账户执行不同操作时对应的设备是否相同,并在资金账户满足上述条件时获取第一达标权重。然后计算机设备通过第二线程利用数据记录判断资金账户在目标时段内每次暂停交易时是否修改所述资金账户的密码,如果在每次暂停交易时修改资金账户的密码,则获取第二达标权重。计算机设备通过识别模型对第一达标权重和第二达标权重进行计算,得到第一识别分数,并在第一识别分数大于分数阈值时将资金账户确定为违规账户,不需要通过对交易机构的网络设备的端口进行扫描,即可识别出违规账户,不会造成交易机构的信息泄露,安全性高。
在一个实施例中,当资金余额符合余额条件、且执行不同操作时所对应的操作设备不同时,计算机设备从数据记录中提取资金余额符合余额条件时对应的资金转移时间;当确定两个设备通过资金账户执行不同操作时,从数据记录中提取在后操作所对应的操作时间;计算资金转移时间与操作时间之间的第一时间间隔;当第一时间间隔小于第一预设时间间隔时,执行获取第一达标权重的步骤。
其中,资金转移时间可以是资金转入时间,也可以是资金转出时间。当通过资金账户执行了资金转移操作时,如果资金转移操作后资金账户的余额符合余额条件,则计算机设备从数据记录中提取进行资金转移操作的资金转移时间t1。
计算机设备通过数据记录中查询通过资金账户执行不同操作的设备,并判断执行不同操作的设备是否相同,如果查询到两个不同的设备对资金账户执行了不同的操作,则提取执行在后操作所对应的操作时间。例如,在时间t2时,设备A对资金账户执行了买入产品的操作,在时间t3时,设备B对资金账户执行了转账的操作。由于计算机设备查询到设备A和设备B不相同,所以计算机设备从数据记录中提取操作时间t3。第一时间间隔即为t3- t1。
如果第一时间间隔小于第一预设时间间隔,说明资金账户的余额符合余额条件时与确定两个设备通过资金账户执行不同操作时的时间间隔满足预先设置的第一预设时间间隔,计算机设备认为资金账户可能是违规账户,并获取第一达标权重。
在一个实施例中,若每次暂停交易时修改资金账户的密码,计算机设备从数据记录中提取修改资金账户的密码时的密码修改时间;计算操作时间与密码修改时间之间的第二时间间隔;当第二时间间隔小于第二预设时间间隔时,执行获取第二达标权重的步骤。
其中,修改资金账户的密码时的密码修改时间可以是任一次暂停交易时对资金账户的密码进行修改时对应的时间,假设该时间为t4。第二时间间隔即为t4-t3。
如果第二时间间隔小于第二预设时间间隔,计算机设备判断资金账户是违规账户的可能性较大,并获取第二达标权重,然后通过计算第一达标权重和第二达标权重的和值判断资金账户是否为违规账户。
计算机设备设置资金账户满足不同条件时的时间间隔,使资金账户满足的条件更加符合违规账户的特点,能够更加准确的识别违规账户。
在一个实施例中,计算机设备在获取第二达标权重之后,通过创建的第三线程利用数据记录,判断目标时段内是否存在用于管理各资金账户的账户管理设备操作资金账户;当存在账户管理设备操作资金账户时,获取第三达标权重;通过识别模型对第一达标权重、第二达标权重以及第三达标权重进行计算,得到第二识别分数;当第二识别分数大于分数阈值时,确定资金账户为违规账户。
其中,第三线程是进程的一个执行流,是计算机设备的CPU调度和分派的基本单位。第三线程由堆栈、寄存器和线程控制表组成。
当第三线程准备就绪后,获取CPU的使用权,通过CPU对数据记录进行分析处理,以判断目标时段内是否存在用于管理各资金账户的账户管理设备操作资金账户。
其中,账户管理设备是通过监控账户交易情况对账户进行管理的设备,例如,可以是对账户持有的目标产品所对应的资金数额进行监控,当资金数额达到预设的数额时,对资金账户进行操作,卖出资金账户中所持有的全部产品的设备。
因为,对于正常账户来说,并没有账户管理设备对其进行监控和操作,所以如果存在账户管理设备对该资金账户进行操作,则说明该资金账户可能是违规账户。
其中,第三达标权重是计算机设备设置的、用于表示符合“目标时段内存在用于管理各资金账户的账户管理设备操作资金账户”这个条件对于判断资金账户是违规账户的重要程度的数值。例如,可以是15。
计算机设备判断目标时段内是否存在账户管理设备操作资金账户,当存在账户管理设备操作资金账户时,获取第三达标权重并通过识别模型对第一达标权重、第二达标权重和第三达标权重进行计算得到第二识别分数,当第二识别分数大于分数阈值时,确定资金账户为违规账户,从而可以发现受账户管理设备操作的资金账户,提高违规账户识别的准确性。
在一个实施例中,计算机设备通过创建的第三线程利用数据记录,判断目标时段内是否存在用于管理各资金账户的账户管理设备操作资金账户包括:从数据记录中提取对资金账户进行操作的所有设备的设备信息;根据设备信息提取所有设备对应的操作数据;在所有设备中,基于操作数据判断目标时段内是否存在用于管理各资金账户的账户管理设备。
其中,设备信息是用于识别设备的设备身份信息,可以是设备的设备标志,也可以是设备在交易机构的编号。
由于,一台设备可能会对多个资金账户进行操作,每一台设备对应的操作数据包括该设备对所有资金账户进行操作(例如,产品买入或卖出操作、平仓操作、清仓操作等)的操作数据。操作数据中包括操作方式、操作时间、被执行操作的资金账户、被操作的标的物等。
在一个实施例中,计算机设备基于操作数据判断目标时段内是否存在用于管理各资金账户的账户管理设备包括:从操作数据中提取所有设备在目标时段内分别管理的各资金账户,查找所有设备中存在所管理的资金账户的数量大于数量阈值时所对应的目标设备;当目标设备在目标时段内未发起产品买入操作,但发起产品卖出操作时,确定目标设备为用于管理各资金账户的账户管理设备;当目标设备在目标时段内发起产品买入操作时,确定目标设备不是用于管理各资金账户的账户管理设备。
其中,数量阈值是计算机设备设置的,用于判断设备所管理的资金账户的数量是否高于正常值的判断标准。如果设备所管理的资金账户的数量大于数量阈值,则认为设备所管理的资金账户得到数量较多。由于正常设备不会对大量的资金账户进行管理,所以,如果一台设备所管理的资金账户的数量大于数量阈值,则该设备可能是用于管理各资金账户的账户管理设备,所以将该设备确定为目标设备。如果目标设备在目标时段内仅发起产品卖出操作,但没有发起产品买入操作,则确定该目标设备是用于管理各资金账户的账户管理设备。
在一个实施例中,如果计算机设备在数据记录中不能查询到指示目标设备发起操作的委托数据,则确定该目标设备是用于管理各资金账户的账户管理设备。
在一个实施例中,计算机设备从数据样本中选取多组样本集合;每组样本集合中均包括训练数据和测试数据;分别通过每组样本集合中的训练数据对预训练的识别模型进行训练,得到多个候选识别模型;通过测试数据对各候选识别模型进行测试,得到各候选识别模型对应的预测准确率;根据预测准确率在候选识别模型中确定识别模型。
其中,数据样本可以是在模拟通过资金账户进行交易的过程中所产生的数据记录,包括通过资金账户进行产品交易的交易数据、对资金账户进行操作的操作数据以及和对资金账户进行操作的操作设备相关的数据等。
其中,训练数据是用于对预训练的识别模型进行训练的数据。测试数据是用于对训练得到的候选识别模型的预测准确率进行测试的数据。每组样本集合中训练数据的数量和测试数据的数量可以具有一定的比例,例如样本集合中训练数据和测试数据的比例为4:1。
在一个实施例中,计算机设备从数据样本中选取多组样本集合包括:计算机设备将样本数据分成至少三份(例如K份),每次从至少三份样本数据中选取至少两份样本数据作为训练数据(例如K-1份),并将剩余的样本数据作为测试数据。计算机设备将每次选取的训练数据和测试数据组成一组样本集合。
在一个实施例中,计算机设备将样本数据分成K(K
)份,每次从数据样本中抽取K-1份训练数据,并通过该K-1份训练数据对预训练的识别模型进行训练,得到一个候选识别模型。然后计算机设备将剩余的一份样本数据作为测试数据,并通过测试数据对训练得到的候选识别模型进行测试,得到该候选识别模型的预测准确率。计算机设备在重复K次上述过程之后,得到K个候选识别模型以及候选识别模型对应的预测准确率。计算机设备将预测准确率最大的候选识别模型确定为识别模型。
上述实施例中,计算机设备从数据样本中选取多组样本集合,并分别通过每组样本集合中的训练数据对预训练的识别模型进行训练,得到多个候选识别模型,然后通过测试数据对各候选识别模型进行测试,并根据测试所得的预测准确率在候选识别模型中确定识别模型。从而可以通过识别模型预测得到的第一识别分数确定资金账户是否是违规账户,提高了资金账户的安全性。
在一个实施例中,根据预测准确率在候选识别模型中确定识别模型之后,还包括:计算机设备获取识别模型的特征曲线;根据特征曲线对识别模型的参数进行调整。
其中,特征曲线是用于反映识别模型的预测准确率的曲线。例如可以是ROC(Receiver Operating Characteristic curve,接受者操作特征)曲线,ROC曲线是以假阳性概率为横轴,真阳性概率为纵轴的曲线。
在一个实施例中,计算机设备通过识别模型计算训练数据对应的识别分数,当识别分数大于预设分数阈值时,确定训练数据对应的资金账户为违规账户。计算机设备选取不同的分数阈值,然后基于不同的分数阈值对资金账户是否为违规账户进行判断。计算机设备根据判断结果计算识别模型的敏感性(FPR)和精确性(TPR),并根据FPR和TPR确定识别模型的ROC曲线。
在一个实施例中,计算机设备根据特征曲线对识别模型的参数进行调整包括:计算机设备计算特征曲线的曲线下面积(Area Under the Curve,AUC),然后对识别模型的参数进行调整,使曲线下面积最大。
上述实施例中,计算机设备获取识别模型的特征曲线,并根据特征曲线对识别模型的参数进行调整,提高了识别模型的准确性,从而提高了通过识别模型对资金账户是否为违规账户进行识别的准确性。
在一个实施例中,如图3所示,提供了一种对股票交易市场中的场外配资违规账户进行识别的方法。场外配资违规账户是企业或者个人将存有资金的资金账户借给客户使用,以使客户通过该资金账户买卖股票的违规账户。场外配资违规账户包括单账户和分仓账户两种账户类型。单账户类型是配资公司提供一个资金账户给客户使用,并且一个资金账户在同一时期只给一个客户使用的账户类型。分仓账户类型是配资公司将一个资金母账户通过分仓软件分成多个虚拟子账户,将虚拟子账户分别给不同的客户使用的账户类型。使用虚拟子账户的客户通过资金母账户下达交易指令进行交易。计算机设备对资金账户是否是场外配资违规账户进行识别的过程包括如下步骤:
S302,计算机设备从数据库获取资金账户在目标时段内产生的数据记录。
S304,计算机设备通过创建的第一线程利用数据记录,判断资金账户的资金余额是否符合余额条件,以及通过资金账户执行不同操作时对应的设备是否相同。
S306,当资金余额符合余额条件、且执行不同操作时所对应的操作设备不同时,则计算机设备获取第一达标权重。
S308,计算机设备通过创建的第二线程利用数据记录,判断在目标时段内每次暂停交易时是否修改资金账户的密码。
S310,若每次暂停交易时修改资金账户的密码,则计算机设备获取第二达标权重。
S312,计算机设备通过识别模型对第一达标权重和第二达标权重进行计算,得到第一识别分数。
S314,当第一识别分数大于分数阈值时,计算机设备确定资金账户为违规账户。
S316,通过创建的第三线程利用数据记录,判断目标时段内是否存在用于管理各资金账户的账户管理设备操作资金账户。
S318,当存在账户管理设备操作资金账户时,获取第三达标权重;
S320,通过识别模型对第一达标权重、第二达标权重以及第三达标权重进行计算,得到第二识别分数;
S322,当第二识别分数大于分数阈值时,确定资金账户为违规账户。
上述S302至S322的具体内容可以参考上文所述的具体实现过程。S302至S322的实现方法不仅可以应用于场外配资违规账户的识别,也可以应用于其他违规账户的识别。例如,可以是企业或者个人违规借给客户使用的账户。
在一个实施例中,由于配资公司在向单账户类型的违规账户中转入或转出资金时,通常会使该账户在转入或转出资金后的余额为整数,并且配资公司对该违规账户进行平仓、转账和修改密码的控制设备和用户使用该账户进行交易的设备不一致,而且配资公司在更换该账户的用户时,会使该账户的持仓市值为0,此外,配资公司在更换该账户的用户时会对该账户进行密码修改操作。所以,计算机设备设置四个非循环指标和一个循环指标,并根据待识别的资金账户在目标时段内产生的数据记录,获取各指标的权重,然后将各指标的权重输入识别模型,通过识别模型对四个循环指标和一个非循环指标的权重进行计算,得到识别分数,并在识别分数大于分数阈值时,确定该资金账户为违规账户。其中,四个循环指标分别是资金规整指标、交易指标、持仓市值指标和密码修改指标。计算机设备根据在待识别的资金账户在目标时段内资金余额为整数的次数确定资金规整指标的指标值;根据登录该账户进行交易的设备与登录该账户进行密码修改的设备是否一致确定交易指标的指标值;根据该账户在目标时段内出现持仓市值为0的次数确定持仓市值指标的指标值;根据在账户在目标时段内密码发生改变的次数确定密码修改指标的指标值。其中,非循环指标为控制设备指标,计算机设备根据是否有控制设备控制该账户确定控制设备指标的指标值。
应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种违规账户的识别装置,包括:获取模块402、判断模块404、计算模块406和确定模块408,其中:
获取模块402,用于从数据库获取资金账户在目标时段内产生的数据记录;
判断模块404,用于通过创建的第一线程利用数据记录,判断资金账户的资金余额是否符合余额条件,以及通过资金账户执行不同操作时对应的设备是否相同;
获取模块402,用于当资金余额符合余额条件、且执行不同操作时所对应的操作设备不同时,则获取第一达标权重;
判断模块404,用于通过创建的第二线程利用数据记录,判断在目标时段内每次暂停交易时是否修改资金账户的密码;
获取模块402,若每次暂停交易时修改资金账户的密码,则用于获取第二达标权重;
计算模块406,用于通过识别模型对第一达标权重和第二达标权重进行计算,得到第一识别分数;
确定模块408,用于当第一识别分数大于分数阈值时,确定资金账户为违规账户。
上述实施例中,计算机设备从数据库获取资金账户在目标时段内产生的数据记录。计算机设备通过创建的第一线程,利用数据记录对资金账户的资金余额是否满足余额条件、以及通过所述资金账户执行不同操作时对应的设备是否相同,并在资金账户满足上述条件时获取第一达标权重。然后计算机设备通过第二线程利用数据记录判断资金账户在目标时段内每次暂停交易时是否修改所述资金账户的密码,如果在每次暂停交易时修改资金账户的密码,则获取第二达标权重。计算机设备通过识别模型对第一达标权重和第二达标权重进行计算,得到第一识别分数,并在第一识别分数大于分数阈值时将资金账户确定为违规账户,不需要通过对交易机构的网络设备的端口进行扫描,即可识别出违规账户,不会造成交易机构的信息泄露,安全性高。
在一个实施例中,如图5所示,装置还包括:
提取模块410,当资金余额符合余额条件、且执行不同操作时所对应的操作设备不同时,用于从数据记录中提取资金余额符合余额条件时对应的资金转移时间;
提取模块410,当确定两个设备通过资金账户执行不同操作时,用于从数据记录中提取在后操作所对应的操作时间;
计算模块406,用于计算资金转移时间与操作时间之间的第一时间间隔;
执行模块412,当第一时间间隔小于第一预设时间间隔时,用于执行获取第一达标权重的步骤。
在一个实施例中,装置还包括:
提取模块410,若每次暂停交易时修改资金账户的密码,用于从数据记录中提取修改资金账户的密码时的密码修改时间;
计算模块406,用于计算操作时间与密码修改时间之间的第二时间间隔;
执行模块412,当第二时间间隔小于第二预设时间间隔时,用于执行获取第二达标权重的步骤。
在一个实施例中,装置还包括:
判断模块404,用于通过创建的第三线程利用数据记录,判断目标时段内是否存在用于管理各资金账户的账户管理设备操作资金账户;
获取模块402,当存在账户管理设备操作资金账户时,用于获取第三达标权重;
计算模块406,还用于通过识别模型对第一达标权重、第二达标权重以及第三达标权重进行计算,得到第二识别分数;
确定模块408,还用于当第二识别分数大于分数阈值时,确定资金账户为违规账户。
在一个实施例中,判断模块404,还用于:
从数据记录中提取对资金账户进行操作的所有设备的设备信息;
根据设备信息提取所有设备对应的操作数据;
在所有设备中,基于操作数据判断目标时段内是否存在用于管理各资金账户的账户管理设备。
在一个实施例中,判断模块404,还用于:
从操作数据中提取所有设备在目标时段内分别管理的各资金账户,查找所有设备中存在所管理的资金账户的数量大于数量阈值时所对应的目标设备;
当目标设备在目标时段内未发起产品买入操作,但发起产品卖出操作时,确定目标设备为用于管理各资金账户的账户管理设备;
当目标设备在目标时段内发起产品买入操作时,确定目标设备不是用于管理各资金账户的账户管理设备。
在一个实施例中,装置还包括:
选取模块414,用于从数据样本中选取多组样本集合;每组样本集合中均包括训练数据和测试数据;
训练模块416,用于分别通过每组样本集合中的训练数据对预训练的识别模型进行训练,得到多个候选识别模型;
测试模块418,用于通过测试数据对各候选识别模型进行测试,得到各候选识别模型对应的预测准确率;
确定模块408,还用于根据预测准确率在候选识别模型中确定识别模型。
在一个实施例中,装置还包括:
获取模块402,用于获取识别模型的特征曲线;
调整模块420,用于根据特征曲线对识别模型的参数进行调整。
关于违规账户的识别装置的具体限定可以参见上文中对于违规账户的识别方法的限定,在此不再赘述。上述违规账户的识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储违规账户的识别数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种违规账户的识别方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种违规账户的识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6、7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:从数据库获取资金账户在目标时段内产生的数据记录;通过创建的第一线程利用数据记录,判断资金账户的资金余额是否符合余额条件,以及通过资金账户执行不同操作时对应的设备是否相同;当资金余额符合余额条件、且执行不同操作时所对应的操作设备不同时,则获取第一达标权重;通过创建的第二线程利用数据记录,判断在目标时段内每次暂停交易时是否修改资金账户的密码;若每次暂停交易时修改资金账户的密码,则获取第二达标权重;通过识别模型对第一达标权重和第二达标权重进行计算,得到第一识别分数;当第一识别分数大于分数阈值时,确定资金账户为违规账户。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当资金余额符合余额条件、且执行不同操作时所对应的操作设备不同时,从数据记录中提取资金余额符合余额条件时对应的资金转移时间;当确定两个设备通过资金账户执行不同操作时,从数据记录中提取在后操作所对应的操作时间;计算资金转移时间与操作时间之间的第一时间间隔;当第一时间间隔小于第一预设时间间隔时,执行获取第一达标权重的步骤。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:若每次暂停交易时修改资金账户的密码,从数据记录中提取修改资金账户的密码时的密码修改时间;计算操作时间与密码修改时间之间的第二时间间隔;当第二时间间隔小于第二预设时间间隔时,执行获取第二达标权重的步骤。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:通过创建的第三线程利用数据记录,判断目标时段内是否存在用于管理各资金账户的账户管理设备操作资金账户;当存在账户管理设备操作资金账户时,获取第三达标权重;通过识别模型对第一达标权重、第二达标权重以及第三达标权重进行计算,得到第二识别分数;当第二识别分数大于分数阈值时,确定资金账户为违规账户。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:从数据记录中提取对资金账户进行操作的所有设备的设备信息;根据设备信息提取所有设备对应的操作数据;在所有设备中,基于操作数据判断目标时段内是否存在用于管理各资金账户的账户管理设备。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:从操作数据中提取所有设备在目标时段内分别管理的各资金账户,查找所有设备中存在所管理的资金账户的数量大于数量阈值时所对应的目标设备;当目标设备在目标时段内未发起产品买入操作,但发起产品卖出操作时,确定目标设备为用于管理各资金账户的账户管理设备;当目标设备在目标时段内发起产品买入操作时,确定目标设备不是用于管理各资金账户的账户管理设备。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:从数据样本中选取多组样本集合;每组样本集合中均包括训练数据和测试数据;分别通过每组样本集合中的训练数据对预训练的识别模型进行训练,得到多个候选识别模型;通过测试数据对各候选识别模型进行测试,得到各候选识别模型对应的预测准确率;根据预测准确率在候选识别模型中确定识别模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取识别模型的特征曲线;根据特征曲线对识别模型的参数进行调整。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:从数据库获取资金账户在目标时段内产生的数据记录;通过创建的第一线程利用数据记录,判断资金账户的资金余额是否符合余额条件,以及通过资金账户执行不同操作时对应的设备是否相同;当资金余额符合余额条件、且执行不同操作时所对应的操作设备不同时,则获取第一达标权重;通过创建的第二线程利用数据记录,判断在目标时段内每次暂停交易时是否修改资金账户的密码;若每次暂停交易时修改资金账户的密码,则获取第二达标权重;通过识别模型对第一达标权重和第二达标权重进行计算,得到第一识别分数;当第一识别分数大于分数阈值时,确定资金账户为违规账户。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当资金余额符合余额条件、且执行不同操作时所对应的操作设备不同时,从数据记录中提取资金余额符合余额条件时对应的资金转移时间;当确定两个设备通过资金账户执行不同操作时,从数据记录中提取在后操作所对应的操作时间;计算资金转移时间与操作时间之间的第一时间间隔;当第一时间间隔小于第一预设时间间隔时,执行获取第一达标权重的步骤。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:若每次暂停交易时修改资金账户的密码,从数据记录中提取修改资金账户的密码时的密码修改时间;计算操作时间与密码修改时间之间的第二时间间隔;当第二时间间隔小于第二预设时间间隔时,执行获取第二达标权重的步骤。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:通过创建的第三线程利用数据记录,判断目标时段内是否存在用于管理各资金账户的账户管理设备操作资金账户;当存在账户管理设备操作资金账户时,获取第三达标权重;通过识别模型对第一达标权重、第二达标权重以及第三达标权重进行计算,得到第二识别分数;当第二识别分数大于分数阈值时,确定资金账户为违规账户。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:从数据记录中提取对资金账户进行操作的所有设备的设备信息;根据设备信息提取所有设备对应的操作数据;在所有设备中,基于操作数据判断目标时段内是否存在用于管理各资金账户的账户管理设备。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:从操作数据中提取所有设备在目标时段内分别管理的各资金账户,查找所有设备中存在所管理的资金账户的数量大于数量阈值时所对应的目标设备;当目标设备在目标时段内未发起产品买入操作,但发起产品卖出操作时,确定目标设备为用于管理各资金账户的账户管理设备;当目标设备在目标时段内发起产品买入操作时,确定目标设备不是用于管理各资金账户的账户管理设备。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:从数据样本中选取多组样本集合;每组样本集合中均包括训练数据和测试数据;分别通过每组样本集合中的训练数据对预训练的识别模型进行训练,得到多个候选识别模型;通过测试数据对各候选识别模型进行测试,得到各候选识别模型对应的预测准确率;根据预测准确率在候选识别模型中确定识别模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取识别模型的特征曲线;根据特征曲线对识别模型的参数进行调整。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。