CN112926699A - 异常对象识别方法、装置、设备及存储介质 - Google Patents

异常对象识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112926699A
CN112926699A CN202110446135.0A CN202110446135A CN112926699A CN 112926699 A CN112926699 A CN 112926699A CN 202110446135 A CN202110446135 A CN 202110446135A CN 112926699 A CN112926699 A CN 112926699A
Authority
CN
China
Prior art keywords
sample data
abnormal
feature information
target
characteristic information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110446135.0A
Other languages
English (en)
Inventor
李东宁
王帮勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hundsun Technologies Inc
Original Assignee
Hundsun Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hundsun Technologies Inc filed Critical Hundsun Technologies Inc
Priority to CN202110446135.0A priority Critical patent/CN112926699A/zh
Publication of CN112926699A publication Critical patent/CN112926699A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种异常对象识别方法、装置、设备及存储介质,涉及数据处理技术领域。该方法包括:获取待识别对象的特征信息,特征信息包括:操作行为信息,操作行为信息包括待识别对象在所属业务场景下执行操作行为所产生的行为数据;采用预先训练的异常数据识别模型,对待识别对象的特征信息进行识别,获取目标识别结果,目标识别结果包括第一识别结果,第一识别结果用于标识待识别对象是否为异常对象,异常数据识别模型采用历史对象的特征信息训练得到。本方案基于历史数据进行模型训练,得到的异常数据识别模型的可靠性较高,从而采用异常数据识别模型进行异常识别,有效的提高了异常对象识别的准确性,同时也提高了识别效率。

Description

异常对象识别方法、装置、设备及存储介质
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种异常对象识别方法、装置、设备及存储介质。
背景技术
随着互联网的迅速发展,网络安全愈发重要,各业务场景下异常对象的存在会对业务平台等造成严重损失,准确的识别异常对象可以有效的预防异常事件的发生。
现有技术中,在进行异常对象识别时,是采用指标监控方式进行识别,主要是通过提取待识别对象的特征信息,判断特征信息超过预设的监控指标时,确定为异常对象。
但是,上述预设的监控指标很多是工作人员在分析海量的数据之后根据经验主观设定的,指标的合理性较差,从而导致异常对象识别的准确性较差。
发明内容
本申请的目的在于,针对上述现有技术中的不足,提供一种异常对象识别方法、装置、设备及存储介质,以便于解决现有技术中存在的异常对象识别准确性较差的问题。
为实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供了一种异常对象识别方法,包括:
获取待识别对象的特征信息,所述特征信息包括:操作行为信息,所述操作行为信息包括所述待识别对象在所属业务场景下执行操作行为所产生的行为数据;
采用预先训练的异常数据识别模型,对所述待识别对象的特征信息进行识别,获取目标识别结果,所述目标识别结果包括第一识别结果,所述第一识别结果用于标识所述待识别对象是否为异常对象,所述异常数据识别模型采用历史对象的特征信息训练得到。
可选地,所述目标识别结果还包括:各所述特征信息的权重,所述特征信息的权重用于表征特征信息在识别所述待识别对象是否为异常对象的因素中所占的比重;
所述方法还包括:
根据各所述特征信息的权重、以及特征信息与异常场景的关联关系,确定所述待识别对象在各异常场景下的权重;
根据所述待识别对象在各异常场景下的权重,确定所述第一识别结果的疑似度评分。
可选地,所述采用预先训练的异常数据识别模型,对所述待识别对象的特征信息进行识别之前,所述方法还包括:
根据各可选特征信息在历史异常对象中的分布信息,确定各所述可选特征信息的等级划分指标,所述待识别对象的特征信息属于所述可选特征信息;
根据各所述特征信息、以及各所述可选特征信息的等级划分指标,确定各所述特征信息的目标等级。
可选地,所述根据各所述特征信息的权重、以及特征信息与异常场景的关联关系,确定所述待识别对象在各异常场景下的权重,包括:
根据各所述特征信息的权重、以及各所述特征信息的目标等级,确定各所述特征信息的目标权重;
根据各所述特征信息的目标权重、以及特征信息与异常场景的关联关系,确定所述待识别对象在各异常场景下的权重。
可选地,所述根据各所述特征信息的目标权重、以及特征信息与异常场景的关联关系,确定所述待识别对象在各异常场景下的权重,包括:
将与第一异常场景关联的各特征信息的目标权重相加,得到所述待识别对象在所述第一异常场景下的权重;
所述第一异常场景为所述各异常场景中的任意一个异常场景。
可选地,所述异常数据识别模型采用如下方式训练得到:
采集训练样本数据集,所述训练样本数据集包括:正样本数据和负样本数据,所述正样本数据包括:异常对象的特征信息,所述正样本数据标记有异常对象标签以及特征信息的目标权重标签,所述负样本数据包括:正常对象的特征信息,所述负样本数据标记有正常对象标签及特征信息的目标权重标签;所述特征信息包括:操作行为信息;
采用所述训练样本数据集,训练得到所述异常数据识别模型。
可选地,所述采集训练样本数据集,包括:
采集初始训练样本数据集,从所述初始训练样本数据集中确定初始正样本数据;
从各所述初始正样本数据的K近邻中确定各所述初始正样本数据对应的目标样本数据;
根据各所述初始正样本数据、以及各所述初始正样本数据对应的目标样本数据,确定各所述初始正样本数据对应的衍生正样本数据,所述衍生正样本数据与所述初始正样本数据的数量之和与负样本数据的数量相等;
根据各所述初始正样本数据以及各所述初始正样本数据对应的衍生正样本数据组合得到目标正样本数据;
根据所述目标正样本数据更新所述初始训练样本数据集,得到训练样本数据集。
可选地,所述方法还包括:
根据所述异常数据识别模型的识别结果,将识别后并被确认的对象作为样本数据添加至所述训练样本数据集中,以得到更新后的训练样本数据集;
采用所述更新后的训练样本数据集,更新所述异常数据识别模型。
第二方面,本申请实施例还提供了一种异常对象识别装置,包括:获取模块、识别模块;
所述获取模块,用于获取待识别对象的特征信息,所述特征信息包括:操作行为信息,所述操作行为信息包括所述待识别对象在所属业务场景下执行操作行为所产生的行为数据;
所述识别模块,用于采用预先训练的异常数据识别模型,对所述待识别对象的特征信息进行识别,获取目标识别结果,所述目标识别结果包括第一识别结果,所述第一识别结果用于标识所述待识别对象是否为异常对象,所述异常数据识别模型采用历史对象的特征信息训练得到。
可选地,所述目标识别结果还包括:各所述特征信息的权重,所述特征信息的权重用于表征特征信息在识别所述待识别对象是否为异常对象的因素中所占的比重;
所述装置还包括:确定模块;
所述确定模块,用于根据各所述特征信息的权重、以及特征信息与异常场景的关联关系,确定所述待识别对象在各异常场景下的权重;根据所述待识别对象在各异常场景下的权重,确定所述第一识别结果的疑似度评分。
可选地,所述确定模块,还用于根据各可选特征信息在历史异常对象中的分布信息,确定各所述可选特征信息的等级划分指标,所述待识别对象的特征信息属于所述可选特征信息;根据各所述特征信息、以及各所述可选特征信息的等级划分指标,确定各所述特征信息的目标等级。
可选地,所述确定模块,具体用于根据各所述特征信息的权重、以及各所述特征信息的目标等级,确定各所述特征信息的目标权重;根据各所述特征信息的目标权重、以及特征信息与异常场景的关联关系,确定所述待识别对象在各异常场景下的权重。
可选地,所述确定模块,具体用于将与第一异常场景关联的各特征信息的目标权重相加,得到所述待识别对象在所述第一异常场景下的权重;所述第一异常场景为所述各异常场景中的任意一个异常场景。
可选地,所述装置还包括:采集模块、训练模块;
所述采集模块,用于采集训练样本数据集,所述训练样本数据集包括:正样本数据和负样本数据,所述正样本数据包括:异常对象的特征信息,所述正样本数据标记有异常对象标签以及特征信息的目标权重标签,所述负样本数据包括:正常对象的特征信息,所述负样本数据标记有正常对象标签及特征信息的目标权重标签;所述特征信息包括:操作行为信息;
所述训练模块,用于采用所述训练样本数据集,训练得到所述异常数据识别模型。
可选地,所述采集模块,具体用于采集初始训练样本数据集,从所述初始训练样本数据集中确定初始正样本数据;从各所述初始正样本数据的K近邻中确定各所述初始正样本数据对应的目标样本数据;根据各所述初始正样本数据、以及各所述初始正样本数据对应的目标样本数据,确定各所述初始正样本数据对应的衍生正样本数据,所述衍生正样本数据与所述初始正样本数据的数量之和与负样本数据的数量相等;根据各所述初始正样本数据以及各所述初始正样本数据对应的衍生正样本数据组合得到目标正样本数据;根据所述目标正样本数据更新所述初始训练样本数据集,得到训练样本数据集。
可选地,所述装置还包括:更新模块;
所述更新模块,用于根据所述异常数据识别模型的识别结果,将识别后并被确认的对象作为样本数据添加至所述训练样本数据集中,以得到更新后的训练样本数据集;采用所述更新后的训练样本数据集,更新所述异常数据识别模型。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、存储介质和总线,存储介质存储有处理器可执行的机器可读指令,当电子设备运行时,处理器与存储介质之间通过总线通信,处理器执行机器可读指令,以执行时执行如第一方面中提供的方法的步骤。
第四方面,本申请实施例提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如第一方面提供的方法的步骤。
本申请的有益效果是:
本申请实施例提供一种异常对象识别方法、装置、设备及存储介质,该方法包括:获取待识别对象的特征信息,特征信息包括:操作行为信息,操作行为信息包括待识别对象在所属业务场景下执行操作行为所产生的行为数据;采用预先训练的异常数据识别模型,对待识别对象的特征信息进行识别,获取目标识别结果,目标识别结果包括第一识别结果,第一识别结果用于标识待识别对象是否为异常对象,异常数据识别模型采用历史对象的特征信息训练得到。本方案中,通过模型识别的方式,根据待识别对象的特征信息,对待识别对象进行识别,判断待识别对象是否为异常对象,其中,异常数据识别模型采用标识有判别结果的历史对象的特征信息训练得到,基于历史数据进行模型训练,得到的异常数据识别模型的可靠性较高,从而采用异常数据识别模型识别得到的识别结果的准确性较高,有效的提高了异常对象识别的准确性,同时也提高了识别效率。
另外,通过已识别的异常对象不断更新训练样本数据集,构建动态训练体系,可以实时优化异常数据识别模型,提高模型的识别准确性,同时避免过拟合问题。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种独立账户模式系统示意图;
图2为本申请实施例提供的一种分仓账户模式系统示意图;
图3为本申请实施例提供的异常对象识别方法的流程示意图一;
图4为本申请实施例提供的异常对象识别方法的流程示意图二;
图5本申请实施例提供的异常对象识别方法的流程示意图三;
图6本申请实施例提供的异常对象识别方法的流程示意图四;
图7本申请实施例提供的异常对象识别方法的流程示意图五;
图8为本申请实施例提供的一种各特征信息的权重示意图;
图9为本申请实施例提供的一种疑似度评分展示示意图;
图10本申请实施例提供的异常对象识别方法的流程示意图五;
图11本申请实施例提供的异常对象识别方法的流程示意图六;
图12本申请实施例提供的异常对象识别方法的流程示意图七;
图13本申请实施例提供的异常对象识别方法的完整流程示意图;
图14为本申请实施例提供的一种异常对象识别装置的示意图;
图15为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
首先,对本申请方法所应用的场景进行说明,本申请的方法可应用在例如金融配资场景中,实现对配资账户和普通账户的识别,当然并不仅限于应用在金融配资场景,还可应用在其他多种领域中。由于不同业务场景下均可能存在异常对象,异常对象的存在对业务平台可能造成干扰,采用本申请的方法可实现不同业务场景中异常对象的准确识别。
以下以异常对象为配资账户进行示例性说明:
首先,对配资进行简单说明:简单来说,配资基本等同于期货中的保证金杠杆机制,用户提供保证金,配资公司通过翻倍杠杆,为用户提供配资资金,用户的保证金和配资公司的配资资金共同放在配资公司为用户分配的配资账户中,作为交易资金。上面说的配资资金和用户的保证金都会在配资公司的配资账户里,这就代表着配资公司也可以操作分配给用户的配资账户,当配资公司识别到用户的保证金不够亏的时候,就会执行强制平仓策略,以保证配资资金的安全。
场外配资提供的高杠杆资金,不仅会扰乱市场秩序,加大股市波动,也可能对投资者个人财产造成损失。因此,有效识别配资账户,制止配资行为,尽早的发现风险防范于未然,对证券公司、监管机构、投资者、金融市场都具有重要的意义。
可选地,配资账户一般分为两种,一种为独立账户模式。如图1为本申请实施例提供的一种独立账户模式系统示意图,其中包括:配资公司、配资账户和券商客户端。独立账户模式下,配资公司将配资账户出借给投资者并按杠杆注入配资资金,投资者可以下载券商客户端进行证券交易。当配资账户剩余资产达到平仓线后,配资公司会修改交易密码对账户强制平仓。该类配资模式通过出借单个股票账户给投资者户开展场外配资业务,区别于普通投资者的主要行为特征是存在多个投资者在不同时间使用同一账户进行交易。
另一种为分仓账户模式,如图2为本申请实施例提供的一种分仓账户模式系统示意图。其中包括:配资公司、配资账户及券商通道,其中配资公司包括分仓系统。分仓账户模式下,配资公司使用内部分仓系统,将一个配资账户分成N个虚拟子账户。然后将这些虚拟子账户分配给不同的投资者开展配资业务,通过分仓系统对每个子账户进行风控管理。每个投资者使用子账户交易标的的指令将统一汇总到配资账户上,再与券商交易系统对接进行证券的实盘交易。但在券商的视角中只能看到一个账户在操作。该类配资模式通过分仓系统将N个虚拟子账户的报盘数据汇总到一个配资账户,向券商通道进行统一的报盘交易。区别于普通机构投资者的主要行为特征是存在多个投资者在同一时间使用同一配资账户进行交易。
由于配资账户和普通账户在特征信息上会存在较大差异,故,通过获取交易账户的历史交易行为数据,可训练本申请的异常数据识别模型,利用该模型可根据待识别的交易账户的特征信息对交易账户进行识别,确定是否为配资账户,其中,待识别的交易账户的特征信息可以是从券商平台的后台服务器中存储的历史交易数据中获取。
在应用异常数据识别模型进行识别的过程中,可通过配资识别监控系统的交互界面输入待识别的交易账户,分析账户的历史交易数据提取特征信息,再根据训练得到的异常数据识别模型,对待识别的交易账户进行识别,并将识别结果通过交互界面显示给业务人员,以对识别结果为配资账户的客户进行工作流处置。
图3为本申请实施例提供的异常对象识别方法的流程示意图一;该方法的执行主体可以是计算机或服务器等设备。如图3所示,该方法可包括:
S101、获取待识别对象的特征信息,特征信息包括:操作行为信息,操作行为信息包括待识别对象在所属业务场景下执行操作行为所产生的行为数据。
可选地,待识别对象在不同业务场景下所对应获取的特征信息是不同的,例如:在金融场景下,待识别对象可以是个人,也可以是交易账户等,相应的,获取的特征信息可以指个人或者是交易账户在执行交易过程中所产生的一些操作行为信息。
下述多个实施例均将以金融场景下的配资账户识别为示例进行说明:
交易账户指可以用来进行股票、基金等标的的账户,用户可通过券商平台进行开户。
在配资识别业务中,交易账户分为普通账户和配资账户两类,普通账户即用户实名开通并自用的账户,一个用户对应一个账户。配资账户是由配资公司出借给用户的账户,一个配资账户可同时被多个用户所使用。
交易账户的特征信息可以指交易账户在进行交易的过程中所产生的一些操作行为信息和交易信息。通常,配资账户和普通账户的特征信息会存在差异,通过每个交易账户的特征信息,可以识别交易账户的具体类型。
其中,待识别的交易账户的特征信息可以是从交易账户进行交易的交易平台的后台数据库中获取。
S102、采用预先训练的异常数据识别模型,对待识别对象的特征信息进行识别,获取目标识别结果,目标识别结果包括第一识别结果,第一识别结果用于标识待识别对象是否为异常对象,异常数据识别模型采用历史对象的特征信息训练得到。
继续以待识别对象为交易账户进行说明,本申请中,是采用预先训练的异常数据识别模型,将获取的待识别的交易账户的特征信息作为模型的输入,输出目标识别结果。其中,第一识别结果可以用来表示待识别的交易账户是否为配资账户,第一识别结果可以包括:是配资账户或不是配资账户。异常数据识别模型可以通过历史对象的特征信息训练得到,在配资账户识别场景下,历史对象可以指历史交易账户,其中,历史交易账户可包括:配资账户和非配资账户,可根据各历史对象的特征信息,训练获取该异常数据识别模型,也即根据各历史对象的特征信息和所标识的判别结果(为配资账户或非配资账户)实现异常数据识别模型的训练。配资账户可以是从行业内各家券商自查和监管下发的配资核查名单中获取的。通过历史对象的特征信息进行模型训练,可以提高训练得到的异常数据识别模型的可靠性。
在一些实施例中,对于识别结果为配资账户的交易账户,可以采取相应的处理方式,例如:注销配资交易使用的账号、给予配资账户对应的配资公司相应的处罚等。
综上,本实施例提供的异常对象识别方法,包括:获取待识别对象的特征信息,特征信息包括:操作行为信息,操作行为信息包括待识别对象在所属业务场景下执行操作行为所产生的行为数据;采用预先训练的异常数据识别模型,对待识别对象的特征信息进行识别,获取目标识别结果,目标识别结果包括第一识别结果,第一识别结果用于标识待识别对象是否为异常对象,异常数据识别模型采用历史对象的特征信息训练得到。本方案中,通过模型识别的方式,根据待识别对象的特征信息,对待识别对象进行识别,判断待识别对象是否为异常对象,其中,异常数据识别模型采用标识有判别结果的历史对象的特征信息训练得到,基于历史数据进行模型训练,得到的异常数据识别模型的可靠性较高,从而采用异常数据识别模型识别得到的识别结果的准确性较高,有效的提高了异常对象识别的准确性,同时也提高了识别效率。
图4为本申请实施例提供的异常对象识别方法的流程示意图二;可选地,上述步骤S102中,目标识别结果还可包括:各特征信息的权重,其中,特征信息的权重用于表征特征信息在识别待识别对象是否为异常对象的因素中所占的比重。
在传统的模型识别方法中,模型的输出结果通常仅包括:是与否,也即,待识别的交易账户是配资账户,或者待识别的交易账户不是配资账户。这样的识别结果不具有可解释性,业务置信度较低。
基于此,本申请提供的异常数据识别模型的识别结果还可包括:待识别对象的各特征信息的权重,通过加权计算各特征信息权重可以确定待识别对象的疑似度评分,帮助业务人员进一步的人工审核,提供具有可解释性的依据。
其中,各特征信息的权重一定程度上可以表示每个特征信息对于异常对象识别的贡献度,特征信息的权重越大,其与识别结果的相关度越高。
如图4所示,本申请的方法还可包括:
S201、根据各特征信息的权重、以及特征信息与异常场景的关联关系,确定待识别对象在各异常场景下的权重。
可选地,基于上述得到的各特征信息的权重,可确定待识别的交易账户在各配资场景下的权重。
在配资识别下,异常场景也即指配资场景,配资场景可以指配资交易所产生的一些业务场景,当待识别的交易账户在配资场景下占有比重时,一定程度上可说明待识别的交易账户可能存在配资交易的可能,当占的比重较大时,则可能被视为配资账户。
特征信息与配资场景的关联关系可以是通过大数据分析后所构建的,不同的配资场景对应至少一个特性信息,根据特征信息与配资场景的关联关系,可确定待识别的交易账户在各配资场景下的权重。
S202、根据待识别对象在各异常场景下的权重,确定第一识别结果的疑似度评分。
可选地,可根据待识别的交易账户在各配资场景下的权重,将各配资场景下的权重进行加权求和,得到第一识别结果的疑似度评分,当第一识别结果为是配资账户时,则得到待识别交易账户的配资账户疑似度评分。
图5本申请实施例提供的异常对象识别方法的流程示意图三;可选地,步骤S102中,采用预先训练的异常数据识别模型,对待识别对象的特征信息进行识别之前,本申请的方法还可包括:
S301、根据各可选特征信息在历史异常对象中的分布信息,确定各可选特征信息的等级划分指标,待标识对象的特征信息属于可选特征信息。
本实施例中,可分析各可选特征信息在历史配资账户中的分布情况,将各可选特性信息统一作数据标化,将各可选特性信息划分为相同尺度的多个级别。可以理解为,对各可选特征信息进行数据预处理,将特征信息进行数据标准化,转化为相同尺度的风险等级,作为后续模型训练的输入数据。
在一种可实现的方式中,可将各可选特征信息均划分为1-5级,作为各可选特征信息的风险等级。本方案采用min-max方法对各可选特征信息进行数据标准化处理,使其映射到相同的区间[0,5]中。
min-max数据标化的计算公式如下所示:x’ = 5 [x - min(x)] / [max(x) -min(x)] 其中x为输入的特征信息,x’为标化后的特征信息。
标化后的特性信息x’再通过四舍五入的方式转换为1-5级的整数。
S302、根据各特征信息、以及各可选特征信息的等级划分指标,确定各特征信息的目标等级。
假设特征信息为预设周期内修改密码的次数,通过上述分布情况分析得到预设周期内修改密码的次数为2次,标化后的结果为0.55,对应的风险等级为1级;修改密码的次数为6次,标化后的结果为1.66,对应的风险等级为2级,修改密码的次数为10次,标化后的结果为2.77,对应的风险等级为3级,依次确定各等级的划分指标。
可选地,根据各特征信息,可按照上述的具体划分指标,确定各特征信息的目标等级,目标等级也即各特征信息对应的实际等级。
图6本申请实施例提供的异常对象识别方法的流程示意图四;可选地,步骤S201中,根据各特征信息的权重、以及特征信息与异常场景的关联关系,确定待识别对象在各异常场景下的权重,可以包括:
S401、根据各特征信息的权重、以及各特征信息的目标等级,确定各特征信息的目标权重。
上述中提到,模型输出的各特征信息的权重,各特征信息在预设等级下的权重,其中,预设等级可以指上述的5级。
基于上述确定的各特征信息的目标等级,可按照预设的权重加权计算公式,将模型输出的各特征信息在5级下的权重换算到各特征信息对应的目标等级下,得到各特征信息的目标权重。
假设特征信息A的目标等级为3级,模型输出特征信息A的权重为0.25,则可以通过公式(0.25/5)*3*100,计算得到特征信息A的目标权重为15。
S402、根据各特征信息的目标权重、以及特征信息与异常场景的关联关系,确定待识别对象在各异常场景下的权重。
本方案归纳的配资场景用于帮助业务人员对配资账户进行排查和分析。基于各特征信息的目标权重,可以根据与各配资场景关联的至少一个特征信息的目标权重,确定待识别的交易账户在各配资场景下的权重。
图7本申请实施例提供的异常对象识别方法的流程示意图五;可选地,步骤S201中,根据各特征信息的目标权重、以及特征信息与异常场景的关联关系,确定待识别对象在各异常场景下的权重,可以包括:
S501、将与第一异常场景关联的各特征信息的目标权重相加,得到待识别对象在第一异常场景下的权重。
可选地,对于待识别的交易账户在任一配资场景下的权重的计算,均可以是根据该配资场景与各特征信息的关联关系,将该配资场景对应的多个特征信息的目标权重进行相加得到。
假设配资场景A关联的特征信息包括:特征信息a1和特征信息a2,则待识别的交易账户在配资场景A下的权重为特征信息a1的目标权重加特征信息a2的目标权重。
S502、第一异常场景为各异常场景中的任意一个异常场景。
可选地,上述的第一配资场景可以为待识别的交易账户对应的多个配资场景中的任一配资场景。对于在每个配资场景下的权重的计算均是采用步骤S502的方式计算。
图8为本申请实施例提供的一种各特征信息的权重示意图。仍以配资场景下配资账户对应的各特征信息的权重示意图为例。在一种可实现的方式中,模型输出的各特征信息的权重可以分布图的形式展示在上述所说的配资识别监测系统中的交互界面上,从而可以使得业务人员更加直观的掌握各特征信息的权重。其中,横轴表示的为权重值,纵轴表示的为特征信息。由图8可清晰的获知特征信息1的权重最大,对于配资识别的贡献最大,而特征信息13、特征信息14、特征信息15、特征信息16的权重均为0,其对于配资识别无贡献。
在另一种可实现的方式中,也可以直接以文本的形式输出各特征信息的权重。本申请对此不作具体限制。
图9为本申请实施例提供的一种疑似度评分展示示意图。其中,分别展示了待识别的交易账户在各配资场景下的权重,其中,配资场景A对应的权重为a,配资场景B对应的权重为b,配资场景C对应的权重为c,配资场景D对应的权重为d,得到的待识别的交易账户为配资账户的疑似度评分为a+b+c+d。
可选地,基于计算得到的疑似度评分,可以描述和量化待识别的交易账户为配资账户程度的高低,可设定预设的评判阈值,当疑似度评分超过评判阈值时,需要由券商的业务人员对该疑似账户进行工作流处置和客户回访,确认其是否具有配资嫌疑。
可选地,本申请上述所提到的交易账户的特征信息可包括:操作行为信息和交易信息。
本申请所说的特征信息可包括独立账户模式下和分仓账户模式下的所有特征信息,其中,特征信息均是通过大数据分析后确定的对于进行配资账户识别具有重要作用的特征信息,特征信息和配资场景的关联关系是预先设定的。
其中,操作行为信息可包括如下至少一项:预设交易周期内修改交易密码次数、预设交易周期内修改交易密码且前后预设交易日存在清仓及转账的次数、预设交易周期内交易与修改交易密码站点不一致的比率、预设交易周期内交易与转账站点不一致的比率、预设交易周期内修改交易密码后交易站点数、预设交易周期内修改交易密码的站点数、预设交易周期内存在修改交易密码站点关联账户数、预设交易周期内清仓标的次数、预设交易周期内回转交易发生次数、预设交易周期内同标的交易金额的离散度。
交易信息可包括如下至少一项:预设交易周期内转账金额及持仓标数及交易标的金额的离散度、预设交易周期内同时间交易笔数占总交易笔数比率、预设交易周期内银证转账笔数、预设交易周期内整数倍转账占总转账笔数比率、预设交易周期内小额交易占总交易比率、预设交易周期内小额持仓标的占总标的数比率、预设交易周期内持仓标的市值的离散度、预设交易周期内交易标的金额的离散度。
如表1所示为独立账户模式下,所包含的配资场景和特征信息。表2所示为分仓账户模式下,所包含的配资场景和特征信息。表1和表2中所列举的所有特征信息,即为本方案中所说的可选特征信息。
表1
Figure T_210415093726001
表2
Figure T_210415093726002
其中,周期T也即上述所说的预设周期,在本实施例中,预设周期默认设置为1年,实际应用中可适当进行调整。
图10本申请实施例提供的异常对象识别方法的流程示意图五,可选地,上述所采用的异常数据识别模型可采用如下方式训练得到:
S801、采集训练样本数据集,训练样本数据集包括:正样本数据和负样本数据。
其中,正样本数据包括:异常对象的特征信息(例如配资场景下的配资账户的特征信息),正样本数据标记有异常对象标签(也即上述的判别结果,表征该异常对象为配资账户)以及特征信息的目标权重标签,负样本数据包括:正常对象的特征信息,负样本数据标记有正常对象标签(同样为上述的判别结果,表征该正常对象为非配资账户)及特征信息的目标权重标签;特征信息包括:操作行为信息。可选地,特征信息如上述所说明的,此处不再赘述。
在配资场景下,正样本数据可以为从历史交易账户中获取的配资账户,具体包括配资账户的特征信息,并为正样本数据标记标签信息(表征该交易账户为配资账户)。
负样本数据可以为从历史交易账户中获取的普通账户,具体包括普通账户的特征信息,并为负样本数据标记标签信息(表征该交易账户为非配资账户)。
S802、采用训练样本数据集,训练得到异常数据识别模型。
本申请中,采用随机森林算法,根据采集的训练样本数据,训练得到异常数据识别模型。
算法的实现步骤如下:
a.输入训练样本数据集,采用抽样放回的方式随机抽取N条数据建立一个Bootstrap(自展法抽样)样本;
b.输入M个特征信息,各特征信息为(M1,M2,M3....Mn),从特征信息中随机抽取m个(m<<M)用于每颗树模型的构建。
c.让所有树都尽可能的生长,不进行剪枝。
d.重复a、b步骤500次。
e.在森林生长完成后,对整个森林进行分析,输出最优预测结果。
图11本申请实施例提供的异常对象识别方法的流程示意图六;可选地,上述步骤S801中,采集训练样本数据集,可以包括:
S901、采集初始训练样本数据集,从初始训练样本数据集中确定初始正样本数据。
以配资场景为例,其中,初始训练样本数据集包括正样本数据:配资账户数据,以及负样本数据:非配资账户数据。初始正样本数据也即指初始训练样本数据集中所包含的所有配资账户数据。
其中,初始正样本数据是从历史配资账户中抽取得到的,负样本数据可以是从历史非配资账户中随机抽取的。
S902、从各初始正样本数据的K近邻中确定各初始正样本数据对应的目标样本数据。
通常,在历史交易账户数据中,配资账户的数量是远远少于普通账户数量的,也即上述采集的初始训练样本数据集中,正样本数据和负样本数据存在数量级上的差异,将影响机器学习模型的识别准确率。基于此,本实施例应用SMOTE算法,解决正样本数据和负样本数据不平衡的问题。
SMOTE(Synthetic Minority Oversampling Technique,合成少数类过采样技术)算法通过加权采样的方式合成新的配资账户。合成的策略是对每个配资账户a,从它的K近邻中随机选一个样本b,然后在a、b之间的连线上随机选一点作为新合成的配资账户。以使得将初始训练样本数据集中的正样本数据和负样本数据的数量比例转换为1:1。
S903、根据各初始正样本数据、以及各初始正样本数据对应的目标样本数据,确定各初始正样本数据对应的衍生正样本数据,衍生正样本数据与初始正样本数据的数量之和与负样本数据的数量相等。
可选地,通过采用每个初始正样本数据所选出的目标样本b,可合成每个初始正样本数据对应的新的正样本数据,也即上述的衍生正样本数据。
S904、根据各初始正样本数据以及各初始正样本数据对应的衍生正样本数据组合得到目标正样本数据。
可选地,每个初始正样本数据均可以合成新的正样本数据,也即衍生正样本数据,可将所有的初始正样本数据和所有衍生得到的衍生正样本数据作为目标正样本数据,得到扩充后的正样本数据。以使得扩充后的正样本数据与负样本数据的数量比例相同。
S905、根据目标正样本数据更新初始训练样本数据集,得到训练样本数据集。
可选地,可将初始训练样本数据集中的初始正样本数据替换为目标正样本数据,从而得到训练样本数据集。其中,训练样本数据集中所包含的正样本数据和负样本数据的数量相同。可采用训练样本数据集训练获取异常数据识别模型。
在一些实施例中,还可以以预设比例对训练样本数据集进行拆分,例如:将70%的训练样本数据作为训练集,将30%的训练样本数据作为测试集,采用测试集对训练好的异常数据识别模型进行验证。
可选地,本申请的方法还包括:采用混淆矩阵和AUPRC(Precision-Recallcurve,准确率和召回率的点连成的线)曲线两种评估方法,得到模型的准确率、召回率和F1-score。当然,并不限于上述两种评估方式。对模型的评价结果进行分析,不断对模型输入特征进行调优,最终使模型的识别准确率达到商用的95%以上。
图12本申请实施例提供的异常对象识别方法的流程示意图七,可选地,本申请的方法还可包括:
S1001、根据异常数据识别模型的识别结果,将识别后并被确认的对象作为样本数据添加至训练样本数据集中,以得到更新后的训练样本数据集。
通常,依托于固定训练样本拟合的机器学习模型在业务使用中,非常容易出现过拟合的问题。因为有限样本数量不能涵盖所有的异常对象行为特征排列组合后的结果,碰到样本中没有出现过的特征信息可能会导致模型预测的失效。
本实施例中,可将模型预测后的异常对象通过工作流核查确认后,自动存入训练样本数据集中并不断积累,以构建动态训练体系。
例如:交易账户A的识别结果为配资账户,且被确认,则可将交易账户A作为正样本数据添加至训练样本数据集中。
S1002、采用更新后的训练样本数据集,更新异常数据识别模型。
当动态训练样本数据累计到足够数量后,模型将使用更新后的训练样本数据集进行模型训练,得到更新后的异常数据识别模型,自动优化模型基于真实数据的识别准确率,同时避免过拟合的问题。
图13本申请实施例提供的异常对象识别方法的完整流程示意图,如图13中各步骤的具体实现原理以及相应产生的效果以在上述实施例中进行详细说明,此处不再进行赘述。如图13所示,该异常对象识别方法可包括:
S1101、采集初始训练样本数据集,初始训练样本数据集包括:正样本数据和负样本数据。
S1102、根据正样本数据,采用SMOTE算法,得到衍生的正样本数据,以使得衍生正样本数据与正样本数据的数量之和与负样本数据的数量相等。
S1103、根据正样本数据以及衍生正样本数据更新初始训练样本数据集,得到目标训练样本数据集。
S1104、采用目标训练样本数据集,根据随机森林算法,训练得到异常数据识别模型。
S1105、采用预设算法对训练得到的异常数据识别模型进行优化。
S1106、获取待识别对象的特征信息,采用预先训练的异常数据识别模型,对待识别对象的特征信息进行识别,获取目标识别结果,目标识别结果包括第一识别结果,第一识别结果用于标识待识别对象是否为异常对象。
S1107、异常数据识别模型输出的目标识别结果还可包括:各特征信息的权重;根据各特征信息的权重、以及各特征信息的目标等级,确定各特征信息的目标权重。
S1108、根据各特征信息的目标权重、以及特征信息与异常场景的关联关系,确定待识别对象在各异常场景下的权重。
S1109、将与第一异常场景关联的各特征信息的目标权重相加,得到待识别对象在第一异常场景下的权重;其中,第一异常场景为各异常场景中的任意一个异常场景。
S1110、根据异常数据识别模型的识别结果,将识别后并被确认的对象作为样本数据添加至训练样本数据集中,以得到更新后的训练样本数据集。
S1111、采用更新后的训练样本数据集,更新异常数据识别模型。
上述方法的具体实现步骤及原理,此处不再赘述。
综上,本申请实施例提供的异常对象识别方法包括:获取待识别对象的特征信息,特征信息包括:操作行为信息,操作行为信息包括待识别对象在所属业务场景下执行操作行为所产生的行为数据;采用预先训练的异常数据识别模型,对待识别对象的特征信息进行识别,获取目标识别结果,目标识别结果包括第一识别结果,第一识别结果用于标识待识别对象是否为异常对象,异常数据识别模型采用历史对象的特征信息训练得到。本方案中,通过模型识别的方式,根据待识别对象的特征信息,对待识别对象进行识别,判断待识别对象是否为异常对象,其中,异常数据识别模型采用标识有判别结果的历史对象的特征信息训练得到,基于历史数据进行模型训练,得到的异常数据识别模型的可靠性较高,从而采用异常数据识别模型识别得到的识别结果的准确性较高,有效的提高了异常对象识别的准确性,同时也提高了识别效率。
另外,通过已识别的交易账户不断更新训练样本数据集,构建动态训练体系,可以实时优化异常数据识别模型,提高模型的识别准确性,同时避免过拟合问题。
下述对用以执行本申请所提供的异常对象识别方法的装置、设备及存储介质等进行说明,其具体的实现过程以及技术效果参见上述,下述不再赘述。
图14为本申请实施例提供的一种异常对象识别装置的示意图,该异常对象识别装置实现的功能对应上述方法执行的步骤。该装置可以理解为上述的计算机或服务器,或服务器的处理器,也可以理解为独立于上述服务器或处理器之外的在服务器控制下实现本申请功能的组件,该装置可包括:获取模块110、识别模块120;
获取模块110,用于获取待识别对象的特征信息,特征信息包括:操作行为信息,操作行为信息包括待识别对象在所属业务场景下执行操作行为所产生的行为数据;
识别模块120,用于采用预先训练的异常数据识别模型,对待识别对象的特征信息进行识别,获取目标识别结果,目标识别结果包括第一识别结果,第一识别结果用于标识待识别对象是否为异常对象,异常数据识别模型采用历史对象的特征信息训练得到。
可选地,目标识别结果还包括:各特征信息的权重,特征信息的权重用于表征特征信息在识别待识别对象是否为异常对象的因素中所占的比重;
该装置还包括:确定模块;
确定模块,用于根据各特征信息的权重、以及特征信息与异常场景的关联关系,确定待识别对象在各异常场景下的权重;根据待识别对象在各异常场景下的权重,确定第一识别结果的疑似度评分。
可选地,确定模块,还用于根据各可选特征信息在历史异常对象中的分布信息,确定各可选特征信息的等级划分指标,待识别对象的特征信息属于可选特征信息;根据各特征信息、以及各可选特征信息的等级划分指标,确定各特征信息的目标等级。
可选地,确定模块,具体用于根据各特征信息的权重、以及各特征信息的目标等级,确定各特征信息的目标权重;根据各特征信息的目标权重、以及特征信息与异常场景的关联关系,确定待识别对象在各异常场景下的权重。
可选地,确定模块,具体用于将与第一异常场景关联的各特征信息的目标权重相加,得到待识别对象在第一异常场景下的权重;第一异常场景为各异常场景中的任意一个异常场景。
可选地,该装置还包括:采集模块、训练模块;
采集模块,用于采集训练样本数据集,训练样本数据集包括:正样本数据和负样本数据,正样本数据包括:异常对象的特征信息,正样本数据标记有异常对象标签以及特征信息的目标权重标签,负样本数据包括:正常对象的特征信息,负样本数据标记有正常对象标签及特征信息的目标权重标签;特征信息包括:操作行为信息;
训练模块,用于采用训练样本数据集,训练得到异常数据识别模型。
可选地,采集模块,具体用于采集初始训练样本数据集,从初始训练样本数据集中确定初始正样本数据;从各初始正样本数据的K近邻中确定各初始正样本数据对应的目标样本数据;根据各初始正样本数据、以及各初始正样本数据对应的目标样本数据,确定各初始正样本数据对应的衍生正样本数据,衍生正样本数据与初始正样本数据的数量之和与负样本数据的数量相等;根据各初始正样本数据以及各初始正样本数据对应的衍生正样本数据组合得到目标正样本数据;根据目标正样本数据更新初始训练样本数据集,得到训练样本数据集。
可选地,该装置还包括:更新模块;
更新模块,用于根据异常数据识别模型的识别结果,将识别后并被确认的对象作为样本数据添加至训练样本数据集中,以得到更新后的训练样本数据集;采用更新后的训练样本数据集,更新异常数据识别模型。
上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital singnal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
上述模块可以经由有线连接或无线连接彼此连接或通信。有线连接可以包括金属线缆、光缆、混合线缆等,或其任意组合。无线连接可以包括通过LAN、WAN、蓝牙、ZigBee、或NFC等形式的连接,或其任意组合。 两个或更多个模块可以组合为单个模块,并且任何一个模块可以分成两个或更多个单元。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。
需要说明的是,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(Digital Singnal Processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(System-on-a-chip,简称SOC)的形式实现。
图15为本申请实施例提供的一种电子设备的结构示意图,该设备可包括:处理器801、存储器802。
存储器802用于存储程序,处理器801调用存储器802存储的程序,以执行上述方法实施例。具体实现方式和技术效果类似,这里不再赘述。
其中,存储器802存储有程序代码,当程序代码被处理器801执行时,使得处理器801执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的异常对象识别方法中的各种步骤。
处理器801可以是通用处理器,例如中央处理器(CPU)、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器802作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random Access Memory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器802还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
可选地,本申请还提供一种程序产品,例如计算机可读存储介质,包括程序,该程序在被处理器执行时用于执行上述方法实施例。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (18)

1.一种异常对象识别方法,其特征在于,包括:
获取待识别对象的特征信息,所述特征信息包括:操作行为信息,所述操作行为信息包括所述待识别对象在所属业务场景下执行操作行为所产生的行为数据;
采用预先训练的异常数据识别模型,对所述待识别对象的特征信息进行识别,获取目标识别结果,所述目标识别结果包括第一识别结果,所述第一识别结果用于标识所述待识别对象是否为异常对象,所述异常数据识别模型采用历史对象的特征信息训练得到。
2.根据权利要求1所述的方法,其特征在于,所述目标识别结果还包括:各所述特征信息的权重,所述特征信息的权重用于表征特征信息在识别所述待识别对象是否为异常对象的因素中所占的比重;
所述方法还包括:
根据各所述特征信息的权重、以及特征信息与异常场景的关联关系,
确定所述待识别对象在各异常场景下的权重;
根据所述待识别对象在各异常场景下的权重,确定所述第一识别结果的疑似度评分。
3.根据权利要求2所述的方法,其特征在于,所述采用预先训练的异常数据识别模型,对所述待识别对象的特征信息进行识别之前,所述方法还包括:
根据各可选特征信息在历史异常对象中的分布信息,确定各所述可选特征信息的等级划分指标,所述待识别对象的特征信息属于所述可选特征信息;
根据各所述特征信息、以及各所述可选特征信息的等级划分指标,确定各所述特征信息的目标等级。
4.根据权利要求3所述的方法,其特征在于,所述根据各所述特征信息的权重、以及特征信息与异常场景的关联关系,确定所述待识别对象在各异常场景下的权重,包括:
根据各所述特征信息的权重、以及各所述特征信息的目标等级,确定各所述特征信息的目标权重;
根据各所述特征信息的目标权重、以及特征信息与异常场景的关联关系,确定所述待识别对象在各异常场景下的权重。
5.根据权利要求4所述的方法,其特征在于,所述根据各所述特征信息的目标权重、以及特征信息与异常场景的关联关系,确定所述待识别对象在各异常场景下的权重,包括:
将与第一异常场景关联的各特征信息的目标权重相加,得到所述待识别对象在所述第一异常场景下的权重;
所述第一异常场景为所述各异常场景中的任意一个异常场景。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述异常数据识别模型采用如下方式训练得到:
采集训练样本数据集,所述训练样本数据集包括:正样本数据和负样本数据,所述正样本数据包括:异常对象的特征信息,所述正样本数据标记有异常对象标签以及特征信息的目标权重标签,所述负样本数据包括:正常对象的特征信息,所述负样本数据标记有正常对象标签及特征信息的目标权重标签;所述特征信息包括:操作行为信息;
采用所述训练样本数据集,训练得到所述异常数据识别模型。
7.根据权利要求6所述的方法,其特征在于,所述采集训练样本数据集,包括:
采集初始训练样本数据集,从所述初始训练样本数据集中确定初始正样本数据;
从各所述初始正样本数据的K近邻中确定各所述初始正样本数据对应的目标样本数据;
根据各所述初始正样本数据、以及各所述初始正样本数据对应的目标样本数据,确定各所述初始正样本数据对应的衍生正样本数据,所述衍生正样本数据与所述初始正样本数据的数量之和与负样本数据的数量相等;
根据各所述初始正样本数据以及各所述初始正样本数据对应的衍生正样本数据组合得到目标正样本数据;
根据所述目标正样本数据更新所述初始训练样本数据集,得到训练样本数据集。
8.根据权利要求6所述的方法,其特征在于,所述方法还包括:
根据所述异常数据识别模型的识别结果,将识别后并被确认的对象作为样本数据添加至所述训练样本数据集中,以得到更新后的训练样本数据集;
采用所述更新后的训练样本数据集,更新所述异常数据识别模型。
9.一种异常对象识别装置,其特征在于,包括:获取模块、识别模块;
所述获取模块,用于获取待识别对象的特征信息,所述特征信息包括:操作行为信息,所述操作行为信息包括所述待识别对象在所属业务场景下执行操作行为所产生的行为数据;
所述识别模块,用于采用预先训练的异常数据识别模型,对所述待识别对象的特征信息进行识别,获取目标识别结果,所述目标识别结果包括第一识别结果,所述第一识别结果用于标识所述待识别对象是否为异常对象,所述异常数据识别模型采用历史对象的特征信息训练得到。
10.根据权利要求9所述的装置,其特征在于,所述目标识别结果还包括:各所述特征信息的权重,所述特征信息的权重用于表征特征信息在识别所述待识别对象是否为异常对象的因素中所占的比重;所述装置还包括:确定模块;
所述确定模块,用于根据各所述特征信息的权重、以及特征信息与异常场景的关联关系,确定所述待识别对象在各异常场景下的权重;根据所述待识别对象在各异常场景下的权重,确定所述第一识别结果的疑似度评分。
11.根据权利要求10所述的装置,其特征在于,所述确定模块,还用于根据各可选特征信息在历史异常对象中的分布信息,确定各所述可选特征信息的等级划分指标,所述待识别对象的特征信息属于所述可选特征信息;根据各所述特征信息、以及各所述可选特征信息的等级划分指标,确定各所述特征信息的目标等级。
12.根据权利要求11所述的装置,其特征在于,所述确定模块,具体用于根据各所述特征信息的权重、以及各所述特征信息的目标等级,确定各所述特征信息的目标权重;根据各所述特征信息的目标权重、以及特征信息与异常场景的关联关系,确定所述待识别对象在各异常场景下的权重。
13.根据权利要求12所述的装置,其特征在于,所述确定模块,具体用于将与第一异常场景关联的各特征信息的目标权重相加,得到所述待识别对象在所述第一异常场景下的权重;所述第一异常场景为所述各异常场景中的任意一个异常场景。
14.根据权利要求9-13任一所述的装置,其特征在于,所述装置还包括:采集模块、训练模块;
所述采集模块,用于采集训练样本数据集,所述训练样本数据集包括:正样本数据和负样本数据,所述正样本数据包括:异常对象的特征信息,所述正样本数据标记有异常对象标签以及特征信息的目标权重标签,所述负样本数据包括:正常对象的特征信息,所述负样本数据标记有正常对象标签及特征信息的目标权重标签;所述特征信息包括:操作行为信息;
所述训练模块,用于采用所述训练样本数据集,训练得到所述异常数据识别模型。
15.根据权利要求14所述的装置,其特征在于,所述采集模块,具体用于采集初始训练样本数据集,从所述初始训练样本数据集中确定初始正样本数据;从各所述初始正样本数据的K近邻中确定各所述初始正样本数据对应的目标样本数据;根据各所述初始正样本数据、以及各所述初始正样本数据对应的目标样本数据,确定各所述初始正样本数据对应的衍生正样本数据,所述衍生正样本数据与所述初始正样本数据的数量之和与负样本数据的数量相等;根据各所述初始正样本数据以及各所述初始正样本数据对应的衍生正样本数据组合得到目标正样本数据;根据所述目标正样本数据更新所述初始训练样本数据集,得到训练样本数据集。
16.根据权利要求14所述的装置,其特征在于,所述装置还包括:更新模块;
所述更新模块,用于根据所述异常数据识别模型的识别结果,将识别后并被确认的对象作为样本数据添加至所述训练样本数据集中,以得到更新后的训练样本数据集;采用所述更新后的训练样本数据集,更新所述异常数据识别模型。
17.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的程序指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述程序指令,以执行时执行如权利要求1至8任一所述的方法的步骤。
18.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至8任一所述的方法的步骤。
CN202110446135.0A 2021-04-25 2021-04-25 异常对象识别方法、装置、设备及存储介质 Pending CN112926699A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110446135.0A CN112926699A (zh) 2021-04-25 2021-04-25 异常对象识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110446135.0A CN112926699A (zh) 2021-04-25 2021-04-25 异常对象识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112926699A true CN112926699A (zh) 2021-06-08

Family

ID=76174688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110446135.0A Pending CN112926699A (zh) 2021-04-25 2021-04-25 异常对象识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112926699A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113098912A (zh) * 2021-06-09 2021-07-09 北京达佳互联信息技术有限公司 用户账户异常的识别方法、装置、电子设备及存储介质
CN113256422A (zh) * 2021-06-09 2021-08-13 深圳华锐金融技术股份有限公司 分仓账户识别方法、装置、计算机设备和存储介质
CN113485993A (zh) * 2021-07-13 2021-10-08 浙江网商银行股份有限公司 数据识别方法以及装置
CN113743963A (zh) * 2021-09-28 2021-12-03 北京奇艺世纪科技有限公司 异常识别模型训练、异常对象识别方法、装置及电子设备
CN113822684A (zh) * 2021-09-28 2021-12-21 北京奇艺世纪科技有限公司 黑产用户识别模型训练方法、装置、电子设备及存储介质
CN114938285A (zh) * 2022-03-24 2022-08-23 阿里云计算有限公司 数据的安全识别方法及存储介质
CN116228431A (zh) * 2023-05-06 2023-06-06 天云融创数据科技(北京)有限公司 一种异常交易账户确定方法、装置及电子设备
CN116758591A (zh) * 2023-08-18 2023-09-15 厦门瑞为信息技术有限公司 基于图像语义识别的场站特殊旅客识别和交互系统及方法
CN117216748A (zh) * 2023-11-09 2023-12-12 新华三网络信息安全软件有限公司 数据访问控制方法、装置、设备及存储介质
WO2024031881A1 (zh) * 2022-08-12 2024-02-15 中国银联股份有限公司 一种操作行为识别方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932669A (zh) * 2018-06-27 2018-12-04 北京工业大学 一种基于监督式层次分析法的异常账户检测方法
KR20210003069A (ko) * 2018-10-05 2021-01-11 넷마블 주식회사 이상 케이스 탐지 방법 및 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932669A (zh) * 2018-06-27 2018-12-04 北京工业大学 一种基于监督式层次分析法的异常账户检测方法
KR20210003069A (ko) * 2018-10-05 2021-01-11 넷마블 주식회사 이상 케이스 탐지 방법 및 장치

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113098912B (zh) * 2021-06-09 2022-10-14 北京达佳互联信息技术有限公司 用户账户异常的识别方法、装置、电子设备及存储介质
CN113256422A (zh) * 2021-06-09 2021-08-13 深圳华锐金融技术股份有限公司 分仓账户识别方法、装置、计算机设备和存储介质
CN113256422B (zh) * 2021-06-09 2021-11-19 深圳华锐金融技术股份有限公司 分仓账户识别方法、装置、计算机设备和存储介质
CN113098912A (zh) * 2021-06-09 2021-07-09 北京达佳互联信息技术有限公司 用户账户异常的识别方法、装置、电子设备及存储介质
CN113485993A (zh) * 2021-07-13 2021-10-08 浙江网商银行股份有限公司 数据识别方法以及装置
CN113822684B (zh) * 2021-09-28 2023-06-06 北京奇艺世纪科技有限公司 黑产用户识别模型训练方法、装置、电子设备及存储介质
CN113822684A (zh) * 2021-09-28 2021-12-21 北京奇艺世纪科技有限公司 黑产用户识别模型训练方法、装置、电子设备及存储介质
CN113743963A (zh) * 2021-09-28 2021-12-03 北京奇艺世纪科技有限公司 异常识别模型训练、异常对象识别方法、装置及电子设备
CN114938285A (zh) * 2022-03-24 2022-08-23 阿里云计算有限公司 数据的安全识别方法及存储介质
WO2024031881A1 (zh) * 2022-08-12 2024-02-15 中国银联股份有限公司 一种操作行为识别方法及装置
CN116228431A (zh) * 2023-05-06 2023-06-06 天云融创数据科技(北京)有限公司 一种异常交易账户确定方法、装置及电子设备
CN116758591A (zh) * 2023-08-18 2023-09-15 厦门瑞为信息技术有限公司 基于图像语义识别的场站特殊旅客识别和交互系统及方法
CN116758591B (zh) * 2023-08-18 2023-11-21 厦门瑞为信息技术有限公司 基于图像语义识别的场站特殊旅客识别和交互系统及方法
CN117216748A (zh) * 2023-11-09 2023-12-12 新华三网络信息安全软件有限公司 数据访问控制方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN112926699A (zh) 异常对象识别方法、装置、设备及存储介质
Abdou et al. Predicting creditworthiness in retail banking with limited scoring data
CN109389494B (zh) 借贷欺诈检测模型训练方法、借贷欺诈检测方法及装置
CN113011973B (zh) 基于智能合约数据湖的金融交易监管模型的方法及设备
CN110796539A (zh) 一种征信评估方法及装置
CN113989019A (zh) 识别风险的方法、装置、设备及存储介质
CN113095927A (zh) 一种反洗钱可疑交易识别方法及设备
CN111882420A (zh) 响应率的生成方法、营销方法、模型训练方法及装置
Cao et al. Bond rating using support vector machine
CN113379530A (zh) 用户风险的确定方法、装置和服务器
US20140279704A1 (en) Mapping consumer ownership of financial assets to geographic localities and computer-implemented methods and computer systems thereof
CN115438821A (zh) 一种智能排队方法和相关装置
CN112950347B (zh) 资源数据处理的优化方法及装置、存储介质、终端
CN113420909A (zh) 一种用户响应信息预测模型建立方法及信息预测方法
CN113450158A (zh) 银行活动信息推送方法及装置
Rahimipoor A comparative study of bankruptcy prediction models of Fulmer and Toffler in firms accepted in Tehran Stock Exchange
CN112712270B (zh) 信息处理方法、装置、设备及存储介质
CN112634048B (zh) 一种反洗钱模型的训练方法及装置
CN114626940A (zh) 数据分析方法、装置及电子设备
CN110570301B (zh) 风险识别方法、装置、设备及介质
CN113487440A (zh) 模型生成、健康险理赔的确定方法、装置、设备及介质
CN111709841A (zh) 非法集资的识别方法和装置、存储介质、电子装置
CN111242763A (zh) 一种目标用户群的确定方法及装置
CN113052693A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN116703579A (zh) 一种客户的交易预测方法、装置、服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210608

RJ01 Rejection of invention patent application after publication