CN111767192A

CN111767192A - 基于人工智能的业务数据检测方法、装置、设备和介质

Info

Publication number: CN111767192A
Application number: CN202010612076.5A
Authority: CN
Inventors: 李倩枫
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Shenzhen Saiante Technology Service Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-13
Anticipated expiration: 2040-06-30
Also published as: CN111767192B

Abstract

本申请涉及一种基于人工智能的业务数据检测方法、装置、计算机设备和存储介质。方法包括：接收业务数据检测请求，检测请求中携带有用户标识；获取用户标识对应的业务系统，从业务系统中获取待检测业务数据；获取根据单个离散线程对待检测业务数据进行异常性检测所耗费的离散处理时间；获取根据单个模型线程对待检测业务数据进行异常性检测所耗费的目标处理时间；根据目标处理时间与离散处理时间的比值确定模型线程数量；利用一个离散线程以及模型线程数量对应的各模型线程并行对待检测业务数据进行处理得到异常数据。采用本方法能够提高业务数据异常性检测效率。其中，异常数据可存储于区块链中。

Description

基于人工智能的业务数据检测方法、装置、设备和介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种基于人工智能的业务数据检测方法、装置、设备和介质。

背景技术

随着大数据信息技术的发展，在业务进程中对业务数据进行监测以及时发现业务数据中存在的异常数据是及其重要的。

传统技术中利用预先训练好的异常数据识别模型对数据的风险性进行检测，由于模型是利用特定训练集进行训练的，使得模型的训练具有滞后性，一旦异常数据发生变化，就会导致利用预先训练的异常数据识别模型识别到的异常数据的准确率低下。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高业务数据检测效率的基于人工智能的业务数据检测方法、装置、计算机设备和存储介质。

一种基于人工智能的业务数据检测方法，方法包括：

接收业务数据检测请求，检测请求中携带有用户标识；

获取用户标识对应的业务系统，从业务系统中获取待检测业务数据；

获取根据单个离散线程对待检测业务数据进行异常性检测所耗费的离散处理时间；

获取根据单个模型线程对待检测业务数据进行异常性检测所耗费的目标处理时间；

根据目标处理时间与离散处理时间的比值确定模型线程数量；

利用一个离散线程以及模型线程数量对应的各模型线程并行对待检测业务数据进行处理得到异常数据。

在其中一个实施例中，利用一个离散线程以及模型线程数量对应的各模型线程并行对业务数据进行处理得到异常数据，包括：

利用一个离散线程以及模型线程数量对应的各模型线程并行对待检测业务数据进行处理得到待检验异常数据；

利用校验线程对待检验异常数据进行校验得到异常数据。

在其中一个实施例中，利用一个离散线程以及模型线程数量对应的各模型线程并行对待检测业务数据进行处理得到待检验异常数据，包括：

在离散线程中根据离散性检测算法计算业务数据的偏移指标，根据偏移指标得到第一待检验异常数据；

在与离散线程互为并行线程的模型线程中将各业务数据输入至预先训练的异常评估模型，以通过异常评估模型中的异常评估因子对业务数据的异常性进行评估得到异常指标，根据异常指标得到第二待检验异常数据；

利用校验线程对待检验异常数据进行校验得到异常数据，包括：

在与离散线程以及模型线程互为串行线程的校验线程中，根据第一待检验异常数据以及第二待检验异常数据得到业务数据对应的异常数据。

在其中一个实施例中，在与离散线程以及模型线程互为串行线程的校验线程中，根据第一待检验异常数据以及第二待检验异常数据得到业务数据对应的异常数据，包括：

在校验线程中将第一待检验异常数据与第二待检验异常数据进行比对，将比对成功的数据提取为异常数据并添加至异常数据集，将比对不成功的数据提取为待校验数据；

确定各待校验数据对应的综合离群值，将综合离群值大于预设阈值的待校验数据提取为异常数据并继续添加至异常数据集。

在其中一个实施例中，在离散线程中根据离散性检测算法计算业务数据的偏移指标，根据偏移指标得到第一异常数据，包括：

从业务数据中提取各维度空间对应的单维度数据；

对各单维度数据的数据单位进行标准化处理得到标准化的单维度数据；

计算标准化的单维度数据在对应维度空间的偏移数值，根据各偏移数值得到偏移指标；

将偏移指标大于预设阈值的单维度数据提取为第一异常数据。

在其中一个实施例中，将比对不成功的数据提取为待校验数据之后，还包括：

将待校验数据输入至异常评估模型中，以对异常评估模型中的评估因子进行更新；

利用更新后的异常评估模型继续对待检测业务数据进行异常性检测，直至异常检测精度符合预设条件时，得到更新后的异常评估模型。

在其中一个实施例中，从业务系统中获取待检测业务数据之后，还包括：

识别待检测业务数据中的错误数据；

将错误数据从待检测业务数据中删除；

从删除错误数据后的待检测业务数据中提取异常数据；

将异常数据、待校验数据、综合离群值以及偏移指标存储于区块链中。

一种基于人工智能的业务数据检测装置，装置包括：

请求接收模块，用于接收业务数据检测请求，检测请求中携带有用户标识；

待检测数据获取模块，用于获取用户标识对应的业务系统，从业务系统中获取待检测业务数据；

单位时间获取模块，用于获取根据单个离散线程对待检测业务数据进行异常性检测所耗费的离散处理时间；

目标时间获取模块，用于获取根据单个模型线程对待检测业务数据进行异常性检测所耗费的目标处理时间；

数量确定模块，用于根据目标处理时间与离散处理时间的比值确定模型线程数量；

异常数据获取模块，用于利用一个离散线程以及模型线程数量对应的各模型线程并行对待检测业务数据进行处理得到异常数据。

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法的步骤。

上述基于人工智能的业务数据检测方法、装置、计算机设备和存储介质，接收业务数据检测请求，检测请求中携带有用户标识；获取用户标识对应的业务系统，从业务系统中获取待检测业务数据；获取离散线程处理待检测业务数据所耗费的离散处理时间；获取模型线程处理待检测业务数据所耗费的目标处理时间；根据离散处理时间以及目标处理时间确定模型线程数量，利用离散线程以及各模型线程并行对待检测业务数据进行处理得到异常数据。对业务数据的异常性检测过程中，综合了离散性检测方法以及模型检测方法的检测优势，提高了数据异常性检测的准确率。并且还根据离散处理时间以及目标处理时间创建对应数量的模型线程数量，使得离散线程的检测时间和模型线程的检测时间能够保持一致性，即当离散线程完成异常数据检测任务时模型线程也能同步完成，提高了对业务数据异常性检测的效率。

附图说明

图1为一个实施例中基于人工智能的业务数据检测方法的应用环境图；

图2为一个实施例中基于人工智能的业务数据检测方法的流程示意图；

图3为一个实施例中提供的一种利用离散线程以及模型线程计算异常数据的流程示意图；

图4为一个实施例中基于人工智能的业务数据检测装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的基于人工智能的业务数据检测方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。服务器104接收终端102发送的业务数据检测请求，检测请求中携带有用户标识；获取用户标识对应的业务系统，从业务系统中获取待检测业务数据；获取根据单个离散线程对待检测业务数据进行异常性检测对应的离散处理时间；获取根据单个模型线程对待检测业务数据进行异常性检测对应的目标处理时间；根据目标处理时间与单位处理时间的比值确定模型线程数量；利用一个离散线程以及模型线程数量对应的各模型线程并行对待检测业务数据进行处理得到异常数据，进一步地，服务器104还可以将异常数据发送至终端102。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种基于人工智能的业务数据检测方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤210，接收业务数据检测请求，检测请求中携带有用户标识。

具体地，业务数据检测请求可以是用户发出的请求，如当用户具有数据检测需求时向服务器发送业务数据检测请求。在另外一个实施例中业务数据检测请求也可以是在服务器中自动生成的，如可以预先设定进行数据检测的时间或者周期，当到达预设时间或者周期时就可以自动发出业务数据检测请求，以使得服务器根据接收到的请求执行数据的检测。其中，用户标识用于唯一标识一个用户，如可以是用户的名称或者用户ID等，并且用户可以为企业用户也可以为个人用户，在此不作限制。

步骤220，获取用户标识对应的业务系统，从业务系统中获取待检测业务数据。

待检测的业务数据是需要进行进一步检测的数据，以从待检测的业务数据中检测并提取异常的数据，进而还可以根据异常数据确定异常用户。待检测的业务数据的类型可以包含生物信息数据、金融数据或者市场细分数据等，并且待检测的业务数据可为多维数据，每一维数据都可以对应一个参数，参数可用于表征商家一个方面的特征。举例来说，用户可以为商家，待检测的业务数据可以为商家进行商业运营活动中产生的订单数据、营业额数据、交易天数等，并且订单数据以及营业额数据可以组成该商家的多维的待检测的业务数据。

具体地，服务器获取待检测的业务数据的方法包括：服务器获取待检测的用户标识，然后定时或者实时从各用户标识对应的业务系统中爬取业务数据，并将业务数据提取为待检测的业务数据。进一步地，服务器从业务系统中爬取业务数据后，还可以将业务数据缓存至缓存中心，然后当需要对业务数据的风险性进行检测时再执行从缓存中获取对应的业务数据，其中缓存中心可用于缓存业务数据中的图片数据、表格数据以及其他文字数据等。并且当是图片数据时还包括：根据各图片数据生成对应的KEY-VALUE键值对数据，根据各KEY-VALUE键值对数据生成各图片对应的JSON数据；将各JSON数据以及图片信息存储至缓存中；当接收到图片加载请求时，获取图片加载请求携带的图片标识，并从缓存中查找与图片标识关联的图片信息以及JSON数据并进行图片展示。

在具体实施中，可以仅获得用户在预设时间段内对应的待检测业务数据，如预设时间段可以为一个月或者一周在此不作限制。通过这种方式获取到的业务数据更能体现出用户在这一段时间内的数据变化，并且对预设时间内的数据进行分析处理还能减少数据的计算量。

步骤230，获取根据单个离散线程对待检测业务数据进行异常性检测对应的离散处理时间。

离散线程可以是利用离散性算法对业务数据进行处理的线程，具体地离散性算法可对获取到的业务数据进行实时数据分析得到业务数据的分布规则，如可以计算业务数据中各数据点与中心数据点之间的距离，根据距离值得到各数据点偏离中心数据点的偏移程度，离散性处理算法还可以对业务数据进行可视化处理，得到业务数据对应的散点图、折线图等可视化图像数据，在此不作限制。

具体地，可以预先将各用户标识对应的离散处理时间与用户标识进行关联存储，当需要利用离散线程对业务数据进行处理时，只需要从预先存储的数据库中查找用户标识对应的离散处理时间即可。进一步地，离散处理时间可以是对历史业务数据进行建模分析得到的，如获取离散线程利用离散性处理算法对业务数据进行离散性处理对应的历史时间，根据各历史时间得到业务数据对应的离散处理时间。

步骤240，获取根据单个模型线程对待检测业务数据进行异常性检测对应的目标处理时间。

具体地，模型线程可以是利用预先训练的模型算法对业务数据进行处理的线程，具体地模型算法的获取方式可以是根据人工智能领域的机器学习得到的，具体地预先获取各用户对应的历史业务数据，其中历史业务数据中包含正样本数据以及负样本数据，正样本数据是无异常的业务数据，负样本数据是异常的业务数据。将历史业务数据输入机器学习模型中进行训练，得到可以预测待检测数据异常性的异常评估模型。

具体地，可以预先将各用户标识对应的目标处理时间与用户标识进行关联存储，当需要利用模型线程对业务数据进行处理时，只需要从预先存储的数据库中查找用户标识对应的目标处理时间即可。进一步地，目标处理时间可以是对历史业务数据进行建模分析得到的，如获取模型线程利用预先训练的异常评估模型对业务数据进行异常性检测对应的历史时间，根据各历史时间得到业务数据对应的目标处理时间。

步骤250，根据目标处理时间与单位处理时间的比值确定模型线程数量。

具体地，离散性处理算法是对业务数据进行数据分析以及处理，耗费较小的计算机资源，处理的效率很高，模型处理过程中用到的模型较为复杂，具有较复杂的模型参数，相比于离散性处理而言，模型处理的效率较低，但是精度更高。在一个实施例中，将目标处理时间与单位处理时间求比值得到模型线程的数量。

步骤260，利用一个离散线程以及模型线程数量对应的各模型线程并行对待检测业务数据进行处理得到异常数据。

具体地，在对业务数据进行异常性检测的过程中，可以利用离散线程中的离散性算法以及模型线程中的模型算法同时对业务数据进行处理，以提高对业务数据处理的效率。同时由于异常评估模型相比于离散性算法需要更多的处理时间，故而创建更多数量的模型线程同时进行数据处理，以使得离散线程和模型线程尽可能地在同一时间完成业务数据的异常性检测，提高对业务数据检测的效率。

具体地，利用一个离散线程对待检测业务数据进行处理得到第一异常数据，以及利用模型线程数量对应的各模型线程对待检测业务数据进行处理得到第二异常数据，根据第一异常数据以及第二异常数据得到待检测业务数据对应的异常数据。

在本实施例中，对业务数据的异常性检测过程中，不仅利用多种算法同时进行异常数据的处理，如利用大数据实时分析技术中的离散性检测方法以及模型检测方法相结合的方式对数据的异常性进行检测，不仅利用到了数据的实时分析技术可以实时对数据进行离散性分析得到异常数据的优势，同时也利用了模型算法中的数据挖掘优势，提高了数据异常性检测的准确率。将数据实时分析检测技术以及实时识别模型进行组合识别，解决了依赖单独模型导致的信息滞后，以及过于依赖单维度特征导致识别方法失效的异常，提高了对用户的待检测数据异常性检测的准确度以及检测的效率。

进一步地，对业务数据进行异常性检测的过程中，利用离散线程中的离散性算法以及模型线程中的模型算法同时对业务数据进行处理，以提高对业务数据处理的效率。同时由于异常评估模型相比于离散性算法需要更多的处理时间，故而创建更多数量的模型线程同时进行数据处理，以使得离散线程和模型线程尽可能地在同一时间完成业务数据的异常性检测，提高对业务数据检测的效率。具体地，根据离散处理时间以及目标处理时间创建对应数量的模型线程数量，使得离散线程的处理时间和模型线程的处理时间能够保持一致性，当离散线程完成异常数据检测任务时模型线程也能同步完成，以提高对业务数据的异常性的检测整体效率。

在其中一个实施例中，利用一个离散线程以及模型线程数量对应的各模型线程并行对业务数据进行处理得到异常数据，包括：利用一个离散线程以及模型线程数量对应的各模型线程并行对待检测业务数据进行处理得到待检验异常数据，利用校验线程对待检验异常数据进行校验得到异常数据。

具体地，待检验异常数据是还需要进一步对其异常性进行验证的数据。利用一个离散线程对待检测业务数据进行处理得到第一待检验异常数据，以及利用模型线程数量对应的各模型线程对待检测业务数据进行处理得到第二待检验异常数据。并且利用离散线程以及所模型线程并行对待检测业务数据进行处理得到待检验异常数据后，还包括在校验线程中对待检验异常数据进行校验得到异常数据。

在本实施例中，还包括在校验线程中对待检验异常数据进行检验，提高了异常数据的准确率。

在其中一个实施例中，如图3所示提供了一种利用离散线程以及模型线程计算异常数据的流程示意图，具体地，利用一个离散线程以及模型线程数量对应的各模型线程并行对业务数据进行处理得到异常数据，包括：

步骤310，在离散线程中根据离散性检测算法计算业务数据的偏移指标，根据偏移指标得到第一待检验异常数据。

具体地，偏移指标可用于表征业务数据中数据的偏移程度，偏移程度越大越表明业务数据为异常数据的可能性越大。具体地，计算偏移指标的方法可包括：对业务数据进行离散性处理，根据离散性结果得到偏移指标。其中离散性处理是获取待检测的业务数据中的各数据点与中心数据点的偏离程度，一般情况下，若数据点偏离中心数据点的程度越大说明该数据点存在异常性的风险越大。具体地，离散性分析的方法可包括：基于LOF算法计算待检测数据中各数据点的离群程度。其中，LOF算法(Local Outlier Factor，局部离群因子检测方法)是一种无监督的离散检测方法，该算法给数据集中的每个点计算一个局部异常因子LOF，通过判断LOF是否接近于1判断是否是异常点。这一相对密度的比值越大，表示该离散点的离群程度趣高。

步骤320，在与离散线程互为并行线程的模型线程中将各业务数据输入至预先训练的异常评估模型，以通过异常评估模型中的异常评估因子对业务数据的异常性进行评估得到异常指标，根据异常指标得到第二待检验异常数据。

其中，异常评估模型是预先训练好的，如预先获取各用户对应的历史业务数据，其中历史业务数据中包含正样本数据以及负样本数据，正样本数据是无异常业务数据，负样本数据是异常业务数据。将历史业务数据输入机器学习模型中进行训练，得到可以预测待检测数据异常性的异常评估模型。在具体实施中，可以将待检测的业务数据输入至训练好的异常评估模型中，以通过异常评估模型对业务数据的异常性进行评估，得到各业务数据的异常指标，将异常指标大于预设阈值对应的业务数据提取为第二待检验异常数据。

在本步骤中预先训练的异常评估模型是根据历史业务数据进行训练得到的，故而异常评估模型学习了历史业务数据的数据特征，使得异常评估模型可以根据学习到的数据特征进行待检测业务数据的数据评估。

步骤330，利用校验线程对待检验异常数据进行校验得到异常数据，包括：在与离散线程以及模型线程互为串行线程的校验线程中，根据第一待检验异常数据以及第二待检验异常数据得到业务数据对应的异常数据。

对待检测业务数据进行离散性分析是利用数据分析的手段及时识别出待检测业务数据中的异常数据，是一种实时检测、实时识别的技术手段。利用预先训练的异常评估模型对待检测业务数据进行异常性识别是一个利用数据挖掘的技术手段，利用数据内部的规律识别得到异常数据的方法，但是利用模型进行数据异常性识别的准确性受到模型精度的影响，特别是当待检测业务数据中的数据结构发生改变但是没有及时对模型进行更新的情况下，仍然使用模型进行数据异常性的识别就存在准确率较低的情况。

故而，可以将两种数据异常性识别算法的识别结果进行结合，当两种算法都将数据识别为异常数据时，表明此时的数据存在异常性的概率很大，此时直接将数据提取为异常数据。当两者比对不成功时，说明此时的数据具有被划为异常数据的可能性，但是这种可能性需要进一步地进行验证，故而将此时比对不成功的数据提取出来，并标识为待检验异常数据，以可以对待检验异常数据进行进一步的异常性验证。

进一步地，待校验数据是离散性实时检测算法或者异常评估模型其中之一对该数据的检测结果为异常结果的数据。可以包括：离散性实时检测算法对该数据的检测结果为第一待检验异常数据，但是异常评估模型对该数据的检测结果为非异常数据，或者异常检评估模型对该数据的检测结果为第二待检验异常数据但是离散性检测算法对该数据的检测结果为安全数据。为了对待检验异常数据的异常性进一步核实，还包括：计算各待检验异常数据中各维度数据对应的离群值，然后根据各维度离群值得到综合离群值，根据各综合离群值与预设阈值之间的关系对待校验数据的异常性进行检测。或者，在其他实施例中还可以对待检验异常数据的异常性进行人工审核，利用人的经验对数据的异常性进一步核对。

理想状态下，第一待检验异常数据与第二待检验异常数据是无差别的，但是由于第一待检验异常数据的检测过程中没考虑到数据之间的关联性，第二待检验异常数据检测的过程中虽然考虑到不同数据之间的关联性，但是可能由于数据结构发生变化但是异常检测模型未及时更新，可能会出现异常数据检测准确率低下的情况，故而可以将第一待检验异常数据以及第二待检验异常数据进行比对，将两个都判定为异常的数据提取为异常数据，将两者有出入的数据进行提取并在校验线程中进行二次校验。

在本实施例中，利用大数据实时分析技术中的离散性检测方法以及模型检测方法相结合的方式对数据的异常性进行检测，不仅利用到了数据的实时分析技术可以实时对数据进行离散性分析得到异常数据的优势，同时也利用了模型算法中的数据挖掘优势，提高了数据异常性检测的准确率。并且，只有当两种算法都检测到该数据为异常数据时，才将该数据定义为异常数据，当数据为待检验异常数据时，对数据还进行二次校验，提高了数据异常性检验的准确率。将数据实时分析检测技术以及实时识别模型进行组合识别，解决了依赖单独模型导致的信息滞后，以及过于依赖单维度特征导致识别方法失效的异常，提高了对用户的待检测数据异常性检测的准确度以及检测的效率。

在其中一个实施例中，在与离散线程以及模型线程互为串行线程的校验线程中，根据第一待检验异常数据以及第二待检验异常数据得到业务数据对应的异常数据，包括：在校验线程中将第一待检验异常数据与第二待检验异常数据进行比对，将比对成功的数据提取为异常数据并添加至异常数据集，将比对不成功的数据提取为待校验数据；确定各待校验数据对应的综合离群值，将综合离群值大于预设阈值的数据提取为异常数据并继续添加至异常数据集。

在其中一个实施例中，计算业务数据的偏移指标，根据偏移指标得到第一待检验异常数据，包括：从业务数据中提取各维度空间对应的单维度数据；对各单维度数据的数据单位进行标准化处理得到标准化的单维度数据；计算标准化的单维度数据在对应维度空间的偏移数值，根据各偏移数值得到偏移指标；将偏移指标大于预设阈值的单维度数据提取为第一待检验异常数据。

考虑到待检测数据中的各维度数据的单位可能不同，故而还需要对各维度数据进行标准化处理得到归一化后的多维度数据。如可将交易天数、订单数以及下单数等数据的单位进行归一化处理。然后在各维度空间中，计算归一化后数据点与各维度空间中的中心数据点之间的距离值。如可以计算各数据点与中心数据点之间的差值，根据该差值得到各数据点在各维度空间中的距离值，然后获取各个用户对应的各维度数据对应的差值，计算综合距离。在其他实施例子中也可利用局部异常值因子LOF值检测具有异常的异常值。

一般来讲数据点与中心数据点之间的距离越大，说明该数据点的离散度越大，故而还可以根据综合距离对应的数值大小，对各数据点进行排序，将排序靠前的数据点提取为异常数据点。进一步地，还可以对各维度空间设置权重因子，在计算偏移指标的过程中可以将各维度空间的偏移值与各维度空间对应的权重因子进行对应求和得到综合的偏移指标。并且，权重因子的设定可通过对历史业务数据进行分析得到。

在其中一个实施例中，服务器从业务系统中爬取业务数据后，还可以将业务数据缓存至缓存中心，然后当需要对业务数据的异常性进行检测时再执行从缓存中获取对应的业务数据。

具体地，缓存中心可以缓存业务数据中的图片数据、表格数据以及其他文字数据等。并且当业务数据是图片数据时还包括：根据各图片数据生成对应的KEY-VALUE键值对数据，根据各KEY-VALUE键值对数据生成各图片对应的JSON数据；将各JSON数据以及图片信息存储至缓存中心；接收图片加载请求，获取图片加载请求携带的图片标识，从缓存中查找与图片标识关联的图片信息以及JSON数据并进行图片展示。

在本实施例中，通过将业务数据缓存至缓存中心，使得可以直接从缓存中心爬取对应的额业务数据，提高了数据获取的效率，并且还可以将图片封装为JSON数据格式，可以直接根据图片标识就能从缓存中心中查找到对应的图片数据，提高了数据查询的效率。

在其中一个实施例中，将比对不成功的数据提取为待校验数据之后，还包括：将待校验数据输入至异常评估模型中，以对异常评估模型中的评估因子进行更新；利用更新后的异常评估模型继续对待检测业务数据进行异常性检测，直至异常检测精度符合预设条件时，得到更新后的异常评估模型。

传统的分类算法如异常检测模型由于需要特定训练集进行异常预测评估，一旦不法分子改变其之前的诈骗行为方式，就需要更换训练集来重新预测。重新更换训练集的时间和人力成本都是巨大的，并且很多时候用户根本不知道异常检测模型的预测能力何时无效，导致不能准确检测出异常数据。

然而在本实施例中，将数据分析技术与异常检测模型进行结合，利用数据分析技术实时检测异常评估模型的检测精度，当异常两者检测到的异常数据差距较大时，可以利用异常数据对异常评估模型进行实时更新，不仅能够实时保证异常评估模型的检测能力，并且两种算法的结合还能起到互相监督、互相补充的作用，更是提高了异常数据的检测能力。

在本实施例中，实时对异常检测模型进行更新，实现了对模型的动态更新，不仅能够实时检测到异常的数据，并且能够利用检测到的数据对模型进行更新。

在其中一个实施例中，方法还包括：对待检测的业务数据进行预处理，预处理包括：去除待检测业务数据中的非数值数据，错误数据以及损坏数据。为了保证获取到的数据的准确率，还可以对获取到的待检测的业务数据进行预处理，预处理方法包括：对数据进行去冗余处理。冗余数据可以包括以下多种数据中的一种或多种：非数值型数据、常量型数据、方差为零的数据、同一种维度数据中的最大值以及同一种维度数据中的最小值等。其中，非数值型数据常为一些不需要关注的数据，如用户名称等，常量型数据、方差为零的数据、最大值以及最小值数据对统计分析意义不大，可以去除。

在其中一个实施例中，从业务系统中获取待检测业务数据之后，还包括：识别待检测业务数据中的错误数据；将错误数据从待检测业务数据中删除；从删除错误数据后的待检测业务数据中提取异常数据；将异常数据、待校验数据、综合离群值以及偏移指标存储于区块链中。

错误数据可能是在统计数据的过程中误入的数据，即明显错误的数据，如其他数据都是0-1的范围，但是其中有一个数据为100，与0-1的范围相差两个数量级，这种数据一定是错误的数据，需要提前就去除的。损坏数据可以是不完整的数据，如月销售额数据应该是用户一个月对应的数据，但是获取的数据确实只有几天对应的营业额数据，故而，可以将该数据定义为缺失数据即损坏的数据，也是需要去除的数据。

需要强调的是，为进一步保证上述异常性检测过程中的数据的私密和安全性，上述异常数据、待校验数据、综合离群值以及偏移指标还可以存储于一区块链的节点中。

在其中一个实施例中，对待检测业务数据进行预处理还包括：从待检测业务数据中提取异常数据；对异常数据进行识别，当对异常数据的识别结果是错误数据时，删除异常数据，当对异常数据的识别结果是非错误数据时，保留异常数据。

具体地，服务器获取到的待检测业务数据中可能包含异常数据，异常数据可以包含错误数据也可以包含异常数据，其中错误数据是干扰数据需要删除，异常数据是本专利中需要重点关注的数据，适用于评估用户异常性的关键指标，故而应该保留。

为了保证服务器去除的异常数据都是错误数据，还包括对识别出来的异常数据进行校验，当校验结果为错误数据时，再将数据去除。其中校验方法可包含对异常数据进行KS检验(Kolmogorov-Smirnov)，KS检验是检测数据是否来源与同一个连续分布集的方法，p-value是根据KS检验计算的另一个Dstatistic值转换而来，Dstatistic是两个数据集的最大距离，主要用于标识两个数据来源于同一个连续分布的假设是否成立，超过设置的p-value的值则成立，否则不成立；通常情况下如果p-value小于0.05那么来源于同一分布的假设就不成立。故而，利用KS对异常数据进行检验，当异常数据的来源为同一个源数据时，判断该异常数据为异常数据，应该保留，当该异常数据的来源不是同一个数据时，判断该异常数据为错误数据，将该数据删除。

本申请中是根据离散处理时间以及目标处理时间创建对应数量的模型线程数量，使得离散线程的处理时间和模型线程的处理时间能够保持一致性，当离散线程完成异常数据检测任务时模型线程也能同步完成，以提高对业务数据的异常性的检测整体效率。

进一步地，本申请还利用离散性检测方法提取第一待检验异常数据以及利用模型检测方法提取第二待检验异常数据，将离散性检测技术与模型检测技术进行结合充分利用了两种算法的优势，具体地，利用了离散性检测算法的实时检测能力，无监督训练的优势，利用了模型检测方法的数据挖掘能力，监督训练的优势，两种算法相辅相成，互相配合共同完成数据异常性的检测，极大地提高了数据异常性检测的准确率。

应该理解的是，虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-3中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种基于人工智能的业务数据检测装置，包括：

请求接收模块410，用于接收业务数据检测请求，检测请求中携带有用户标识。

待检测数据获取模块420，用于获取用户标识对应的业务系统，从业务系统中获取待检测业务数据。

单位时间获取模块430，用于获取根据单个离散线程对待检测业务数据进行异常性检测所耗费的离散处理时间。

目标时间获取模块440，用于获取根据单个模型线程对待检测业务数据进行异常性检测所耗费的目标处理时间。

数量确定模块450，用于根据目标处理时间与离散处理时间的比值确定模型线程数量。

异常数据获取模块460，用于利用一个离散线程以及模型线程数量对应的各模型线程并行对待检测业务数据进行处理得到异常数据。

在其中一个实施例中，异常数据获取模块460，包括：

待检验数据获取子模块，用于利用一个离散线程以及模型线程数量对应的各模型线程并行对待检测业务数据进行处理得到待检验异常数据。

异常数据获取子模块，用于利用校验线程对待检验异常数据进行校验得到异常数据。

在其中一个实施例中，待检验数据获取子模块，包括：

第一异常数据获取单元，用于在离散线程中根据离散性检测算法计算业务数据的偏移指标，根据偏移指标得到第一待检验异常数据。

第二异常数据获取单元，用于在与离散线程互为并行线程的模型线程中将各业务数据输入至预先训练的异常评估模型，以通过异常评估模型中的异常评估因子对业务数据的异常性进行评估得到异常指标，根据异常指标得到第二待检验异常数据；

异常数据获取子模块，包括：

异常数据获取单元，用于在与离散线程以及模型线程互为串行线程的校验线程中，根据第一待检验异常数据以及第二待检验异常数据得到业务数据对应的异常数据。

在其中一个实施例中，异常数据获取单元，包括：

待校验数据获取子单元，用于在校验线程中将第一待检验异常数据与第二待检验异常数据进行比对，将比对成功的数据提取为异常数据并添加至异常数据集，将比对不成功的数据提取为待校验数据。

异常数据确定子单元，用于确定各待校验数据对应的综合离群值，将综合离群值大于预设阈值的数据提取为异常数据并继续添加至异常数据集。

在其中一个实施例中，第一异常数据获取单元，包括：

单维度数据提取子单元，用于从业务数据中提取各维度空间对应的单维度数据。

标准化子单元，用于对各单维度数据的数据单位进行标准化处理得到标准化的单维度数据。

偏移指标计算子单元，用于计算标准化的单维度数据在对应维度空间的偏移数值，根据各偏移数值得到偏移指标。

第一异常数据提取子单元，用于将偏移指标大于预设阈值的单维度数据提取为第一待检验异常数据。

在其中一个实施例中，基于人工智能的业务数据检测装置还包括：

更新模块，用于将待校验数据输入至异常评估模型中，以对异常评估模型中的评估因子进行更新。

模型更新模块，用于利用更新后的异常评估模型继续对待检测业务数据进行异常性检测，直至异常检测精度符合预设条件时，得到更新后的异常评估模型。

在其中一个实施例中，基于人工智能的业务数据检测装置还包括，还包括：

错误数据识别模块，用于识别待检测业务数据中的错误数据。

删除模块，用于将错误数据从待检测业务数据中删除。

提取模块，用于从删除错误数据后的待检测业务数据中提取异常数据；

存储模块，用于将异常数据、待校验数据、综合离群值以及偏移指标存储于区块链中。

关于基于人工智能的业务数据检测装置的具体限定可以参见上文中对于基于人工智能的业务数据检测方法的限定，在此不再赘述。上述基于人工智能的业务数据检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储业务数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于人工智能的业务数据检测方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：接收业务数据检测请求，检测请求中携带有用户标识；获取用户标识对应的业务系统，从业务系统中获取待检测业务数据；获取根据单个离散线程对待检测业务数据进行异常性检测所耗费的离散处理时间；获取根据单个模型线程对待检测业务数据进行异常性检测所耗费的目标处理时间；根据目标处理时间与离散处理时间的比值确定模型线程数量；利用一个离散线程以及模型线程数量对应的各模型线程并行对待检测业务数据进行处理得到异常数据。

在其中一个实施例中，处理器执行计算机程序时实现利用一个离散线程以及模型线程数量对应的各模型线程并行对业务数据进行处理得到异常数据的步骤时还用于：利用一个离散线程以及模型线程数量对应的各模型线程并行对待检测业务数据进行处理得到待检验异常数据；利用校验线程对待检验异常数据进行校验得到异常数据。

在其中一个实施例中，处理器执行计算机程序时实现利用一个离散线程以及模型线程数量对应的各模型线程并行对待检测业务数据进行处理得到待检验异常数据的步骤时还用于：在离散线程中根据离散性检测算法计算业务数据的偏移指标，根据偏移指标得到第一待检验异常数据；在与离散线程互为并行线程的模型线程中将各业务数据输入至预先训练的异常评估模型，以通过异常评估模型中的异常评估因子对业务数据的异常性进行评估得到异常指标，根据异常指标得到第二待检验异常数据。处理器执行计算机程序时实现利用校验线程对待检验异常数据进行校验得到异常数据的步骤时还用于：在与离散线程以及模型线程互为串行线程的校验线程中，根据第一待检验异常数据以及第二待检验异常数据得到业务数据对应的异常数据。

在其中一个实施例中，处理器执行计算机程序时实现在与离散线程以及模型线程互为串行线程的校验线程中，根据第一待检验异常数据以及第二待检验异常数据得到业务数据对应的异常数据的步骤时还用于：在校验线程中将第一待检验异常数据与第二待检验异常数据进行比对，将比对成功的数据提取为异常数据并添加至异常数据集，将比对不成功的数据提取为待校验数据；确定各待校验数据对应的综合离群值，将综合离群值大于预设阈值的待校验数据提取为异常数据并继续添加至异常数据集。

在其中一个实施例中，处理器执行计算机程序时实现在离散线程中根据离散性检测算法计算业务数据的偏移指标，根据偏移指标得到第一异常数据的步骤时还用于：从业务数据中提取各维度空间对应的单维度数据；对各单维度数据的数据单位进行标准化处理得到标准化的单维度数据；计算标准化的单维度数据在对应维度空间的偏移数值，根据各偏移数值得到偏移指标；将偏移指标大于预设阈值的单维度数据提取为第一异常数据。

在其中一个实施例中，处理器执行计算机程序时实现将比对不成功的数据提取为待校验数据之后的步骤时还用于：将待校验数据输入至异常评估模型中，以对异常评估模型中的评估因子进行更新；利用更新后的异常评估模型继续对待检测业务数据进行异常性检测，直至异常检测精度符合预设条件时，得到更新后的异常评估模型。

在其中一个实施例中，处理器执行计算机程序时实现从业务系统中获取待检测业务数据之后的步骤时还用于：识别待检测业务数据中的错误数据；将错误数据从待检测业务数据中删除；从删除错误数据后的待检测业务数据中提取异常数据；将异常数据、待校验数据、综合离群值以及偏移指标存储于区块链中。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：接收业务数据检测请求，检测请求中携带有用户标识；获取用户标识对应的业务系统，从业务系统中获取待检测业务数据；获取根据单个离散线程对待检测业务数据进行异常性检测所耗费的离散处理时间；获取根据单个模型线程对待检测业务数据进行异常性检测所耗费的目标处理时间；根据目标处理时间与离散处理时间的比值确定模型线程数量；利用一个离散线程以及模型线程数量对应的各模型线程并行对待检测业务数据进行处理得到异常数据。

在其中一个实施例中，计算机程序被处理器执行时实现利用一个离散线程以及模型线程数量对应的各模型线程并行对业务数据进行处理得到异常数据的步骤时还用于：利用一个离散线程以及模型线程数量对应的各模型线程并行对待检测业务数据进行处理得到待检验异常数据；利用校验线程对待检验异常数据进行校验得到异常数据。

在其中一个实施例中，计算机程序被处理器执行时实现利用一个离散线程以及模型线程数量对应的各模型线程并行对待检测业务数据进行处理得到待检验异常数据的步骤时还用于：在离散线程中根据离散性检测算法计算业务数据的偏移指标，根据偏移指标得到第一待检验异常数据；在与离散线程互为并行线程的模型线程中将各业务数据输入至预先训练的异常评估模型，以通过异常评估模型中的异常评估因子对业务数据的异常性进行评估得到异常指标，根据异常指标得到第二待检验异常数据。计算机程序被处理器执行时实现利用校验线程对待检验异常数据进行校验得到异常数据的步骤时还用于：在与离散线程以及模型线程互为串行线程的校验线程中，根据第一待检验异常数据以及第二待检验异常数据得到业务数据对应的异常数据。

在其中一个实施例中，计算机程序被处理器执行时实现在与离散线程以及模型线程互为串行线程的校验线程中，根据第一待检验异常数据以及第二待检验异常数据得到业务数据对应的异常数据的步骤时还用于：在校验线程中将第一待检验异常数据与第二待检验异常数据进行比对，将比对成功的数据提取为异常数据并添加至异常数据集，将比对不成功的数据提取为待校验数据；确定各待校验数据对应的综合离群值，将综合离群值大于预设阈值的待校验数据提取为异常数据并继续添加至异常数据集。

在其中一个实施例中，计算机程序被处理器执行时实现在离散线程中根据离散性检测算法计算业务数据的偏移指标，根据偏移指标得到第一异常数据的步骤时还用于：从业务数据中提取各维度空间对应的单维度数据；对各单维度数据的数据单位进行标准化处理得到标准化的单维度数据；计算标准化的单维度数据在对应维度空间的偏移数值，根据各偏移数值得到偏移指标；将偏移指标大于预设阈值的单维度数据提取为第一异常数据。

在其中一个实施例中，计算机程序被处理器执行时实现将比对不成功的数据提取为待校验数据之后的步骤时还用于：将待校验数据输入至异常评估模型中，以对异常评估模型中的评估因子进行更新；利用更新后的异常评估模型继续对待检测业务数据进行异常性检测，直至异常检测精度符合预设条件时，得到更新后的异常评估模型。

在其中一个实施例中，计算机程序被处理器执行时实现从业务系统中获取待检测业务数据之后的步骤时还用于：识别待检测业务数据中的错误数据；将错误数据从待检测业务数据中删除；从删除错误数据后的待检测业务数据中提取异常数据；将异常数据、待校验数据、综合离群值以及偏移指标存储于区块链中。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于人工智能的业务数据检测方法，其特征在于，所述方法包括：

接收业务数据检测请求，所述检测请求中携带有用户标识；

获取所述用户标识对应的业务系统，从所述业务系统中获取待检测业务数据；

获取根据单个离散线程对所述待检测业务数据进行异常性检测所耗费的离散处理时间；

获取根据单个模型线程对所述待检测业务数据进行异常性检测所耗费的目标处理时间；

根据所述目标处理时间与所述离散处理时间的比值确定模型线程数量；

利用一个所述离散线程以及所述模型线程数量对应的各所述模型线程并行对所述待检测业务数据进行处理得到异常数据。

2.根据权利要求1所述的方法，其特征在于，所述利用一个所述离散线程以及所述模型线程数量对应的各所述模型线程并行对所述业务数据进行处理得到异常数据，包括：

利用一个所述离散线程以及所述模型线程数量对应的各所述模型线程并行对所述待检测业务数据进行处理得到待检验异常数据；

利用校验线程对所述待检验异常数据进行校验得到异常数据。

3.根据权利要求1所述的方法，其特征在于，所述利用一个所述离散线程以及所述模型线程数量对应的各所述模型线程并行对所述待检测业务数据进行处理得到待检验异常数据，包括：

在离散线程中根据离散性检测算法计算所述业务数据的偏移指标，根据所述偏移指标得到第一待检验异常数据；

在与所述离散线程互为并行线程的模型线程中将各所述业务数据输入至预先训练的异常评估模型，以通过所述异常评估模型中的异常评估因子对所述业务数据的异常性进行评估得到异常指标，根据所述异常指标得到第二待检验异常数据；

所述利用校验线程对所述待检验异常数据进行校验得到异常数据，包括：

在与所述离散线程以及所述模型线程互为串行线程的校验线程中，根据所述第一待检验异常数据以及所述第二待检验异常数据得到所述业务数据对应的异常数据。

4.根据权利要求3所述的方法，其特征在于，所述在与所述离散线程以及所述模型线程互为串行线程的校验线程中，根据所述第一待检验异常数据以及所述第二待检验异常数据得到所述业务数据对应的异常数据，包括：

在校验线程中将所述第一待检验异常数据与所述第二待检验异常数据进行比对，将所述比对成功的数据提取为异常数据并添加至异常数据集，将所述比对不成功的数据提取为待校验数据；

确定各所述待校验数据对应的综合离群值，将所述综合离群值大于预设阈值的所述待校验数据提取为异常数据并继续添加至异常数据集。

5.根据权利要求3或4所述的方法，其特征在于，所述在离散线程中根据离散性检测算法计算所述业务数据的偏移指标，根据所述偏移指标得到第一待检验异常数据，包括：

从所述业务数据中提取各维度空间对应的单维度数据；

对各所述单维度数据的数据单位进行标准化处理得到标准化的单维度数据；

计算标准化的单维度数据在对应维度空间的偏移数值，根据各所述偏移数值得到偏移指标；

将所述偏移指标大于预设阈值的单维度数据提取为第一待检验异常数据。

6.根据权利要求4所述的方法，其特征在于，所述将所述比对不成功的数据提取为待校验数据之后，还包括：

将所述待校验数据输入至异常评估模型中，以对所述异常评估模型中的评估因子进行更新；

7.根据权利要求6所述的方法，其特征在于，所述从所述业务系统中获取待检测业务数据之后，还包括：

识别所述待检测业务数据中的错误数据；

将所述错误数据从所述待检测业务数据中删除；

从删除所述错误数据后的待检测业务数据中提取异常数据；

将所述异常数据、所述待校验数据、所述综合离群值以及所述偏移指标存储于区块链中。

8.一种基于人工智能的业务数据检测装置，其特征在于，所述装置包括：

请求接收模块，用于接收业务数据检测请求，所述检测请求中携带有用户标识；

待检测数据获取模块，用于获取所述用户标识对应的业务系统，从所述业务系统中获取待检测业务数据；

单位时间获取模块，用于获取根据单个离散线程对所述待检测业务数据进行异常性检测所耗费的离散处理时间；

目标时间获取模块，用于获取根据单个模型线程对所述待检测业务数据进行异常性检测所耗费的目标处理时间；

数量确定模块，用于根据所述目标处理时间与所述离散处理时间的比值确定所述模型线程数量；

异常数据获取模块，用于利用一个所述离散线程以及所述模型线程数量对应的各所述模型线程并行对所述待检测业务数据进行处理得到异常数据。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。