CN109801151A

CN109801151A - 财务造假风险监控方法、装置、计算机设备和存储介质

Info

Publication number: CN109801151A
Application number: CN201910012930.1A
Authority: CN
Inventors: 徐力; 彭琛; 汪伟
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-01-07
Filing date: 2019-01-07
Publication date: 2019-05-24
Anticipated expiration: 2039-01-07
Also published as: CN109801151B

Abstract

本申请涉及一种基于机器学习的财务造假风险监控方法、装置、计算机设备和存储介质。方法包括：在已有样本中筛选目标样本，提取目标样本的样本特征；对样本特征进行强化学习，得到更多的衍生样本；利用已有样本和衍生样本对基分类器进行半监督训练，得到财务造假监控模型；计算财务造假监控模型的准确度，比较准确度是否达到阈值；若否，基于衍生样本生成再生样本；将再生样本作为当前的衍生样本，返回利用已有样本和衍生样本对基分类器进行半监督训练的步骤，直至准确度达到阈值；基于准确度达到阈值的财务造假监控模型对监控对象是否存在财务造假行为进行监控。采用本方法能够提高财务造假监控效率和准确性。

Description

财务造假风险监控方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种财务造假风险监控方法、装置、计算机设备和存储介质。

背景技术

目前，对于企业财务造假的分析，主要基于财务专家多年的会计经验从企业的财务报表中判断出会计科目的异常，进而判断企业的财务报表中是否存在财务造假的嫌疑。在判断企业财务数据是否造假的过程中，往往需要对大量财务数据进行分析，且依赖于财务专家过往的经验对财务数据进行判断，难以做到早于市场发现企业的财务异常，使得财务监控效率降低。

发明内容

基于此，有必要针对上述技术问题，提供一种不仅能够提高财务造假监控效率，还能提高财务造假监控准确性的财务造假风险监控方法、装置、计算机设备和存储介质。

一种财务造假风险监控方法，所述方法包括：在已有样本中筛选目标样本，提取所述目标样本的样本特征；对所述样本特征进行强化学习，得到更多的衍生样本；利用所述已有样本和所述衍生样本对基分类器进行半监督训练，得到财务造假监控模型；计算所述财务造假监控模型的准确度，比较所述准确度是否达到阈值；若否，基于所述衍生样本生成再生样本；将所述再生样本作为当前的衍生样本，返回利用所述已有样本和所述衍生样本对基分类器进行半监督训练的步骤，直至所述准确度达到阈值；基于所述准确度达到阈值的财务造假监控模型对监控对象是否存在财务造假行为进行监控。

在其中一个实施例中，所述在已有样本中筛选目标样本，包括：获取已有样本；所述已有样本具有对应的分类标签；将所述已有样本输入基分类器，得到模型分类结果；比较所述模型分类结果与相应分类标签是否一致；若否，将所述已有样本标记为目标样本。

在其中一个实施例中，所述提取目标样本的样本特征，包括：获取所述目标样本对应的样本数据；对所述样本数据进行预处理，得到多个样本指标；确定每个样本指标的指标类型；所述指标类型包括正常指标和异常指标。

在其中一个实施例中，所述对样本特征进行强化学习，得到更多的衍生样本，包括：根据所述样本特征获取对应的强化学习规则；根据所述强化学习规则，对异常指标进行强化处理；对强化处理后的多个异常指标进行组合，得到多种指标组合；基于所述正常指标以及强化处理后的每种指标组合生成一种衍生样本。

在其中一个实施例中，所述强化学习规则包括多种样本指标分别对应的增大幅度或减小幅度；所述根据所述强化学习规则，对异常指标进行强化处理，包括：根据所述增大幅度对所述异常指标进行增大处理；或根据所述减小幅度对所述异常指标进行减小处理。

在其中一个实施例中，所述基于所述准确度达到阈值的财务造假监控模型对监控对象是否存在财务造假行为进行监控，包括：获取所述监控对象的监控数据；将所述监控数据输入所述财务造假监控模型，得到对应的风险评分；当所述风险评分超过阈值时，将所述目标资源标识标记为风险案例；根据所述监控数据确定所述风险案例对应的相似案例；基于所述相似案例识别所述风险案例的多个风险点；将所述多个风险点串联，生成所述风险案例对应的风险线索；基于所述风险评分、相似案例及风险线索，生成所述目标资源标识对应的风险分析报告，将所述风险分析报告发送至监控终端。

一种财务造假风险监控装置，所述装置包括：特征提取模块，用于在已有样本中筛选目标样本，提取所述目标样本的样本特征；特征学习模块，用于对所述样本特征进行强化学习，得到更多的衍生样本；模型训练模块，用于利用所述已有样本和所述衍生样本对基分类器进行半监督训练，得到财务造假监控模型；计算所述财务造假监控模型的准确度，比较所述准确度是否达到阈值；若否，基于所述衍生样本生成再生样本；将所述再生样本作为当前的衍生样本，利用所述已有样本和所述衍生样本对基分类器再次进行半监督训练，直至所述准确度达到阈值；造假监控模块，用于基于所述准确度达到阈值的财务造假监控模型对监控对象是否存在财务造假行为进行监控。

在其中一个实施例中，所述特征提取模块还用于获取已有样本；所述已有样本具有对应的分类标签；将所述已有样本输入基分类器，得到模型分类结果；比较所述模型分类结果与相应分类标签是否一致；若否，将所述已有样本标记为目标样本。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本申请任意一个实施例中提供的财务造假风险监控方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请任意一个实施例中提供的财务造假风险监控方法的步骤。

上述财务造假风险监控方法、装置、计算机设备和存储介质，基于已有样本可以筛选得到目标样本，并提取得到目标样本的样本特征；对所述样本特征进行强化学习，可以得到更多的衍生样本；利用所述已有样本和所述衍生样本对基分类器进行半监督训练，可以得到财务造假监控模型；通过计算所述财务造假监控模型的准确度，可以在准确度未达到阈值时，基于所述衍生样本生成再生样本；将所述再生样本作为当前的衍生样本，可以利用所述已有样本和所述衍生样本重新对基分类器进行半监督训练，直至所述准确度达到阈值；基于所述准确度达到阈值的财务造假监控模型，可以对监控对象是否存在财务造假行为进行监控。由于预先针对已有样本构建衍生样本，实现好坏样本的均衡，基于样本均衡处理后的样本数据训练得到准确度达到阈值的财务造假监控模型，利用该模型对监控对象进行监控，不仅可以提高监控效率，还可以提高监控结果准确性。

附图说明

图1为一个实施例中财务造假风险监控方法的应用场景图；

图2为一个实施例中财务造假风险监控方法的流程示意图；

图3为一个实施例中样本特征强化学习的步骤的流程示意图；

图4为一个实施例财务造假风险监控装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的财务造假风险监控方法，可以应用于如图1所示的应用环境中。其中，终端102与服务器104通过网络进行通信。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。当用户需要对监控对象进行财务监控时，可以通过终端102向服务器104发送风险监控请求。服务器104根据风险监控请求，获取监控对象的监控数据，调用财务造假监控模型对监控数据进行处理。其中，财务造假监控模型可以是服务器104基于已有样本和衍生样本训练得到的。具体的，服务器104在已有样本中筛选目标样本，提取目标样本的样本特征。服务器104对样本特征进行强化学习，得到更多的衍生样本。服务器104利用已有样本和衍生样本对基分类器进行半监督训练，得到财务造假监控模型。服务器104计算财务造假监控模型的准确度，比较准确度是否达到阈值。若准确度低于阈值，服务器104基于衍生样本生成再生样本，将再生样本作为当前的衍生样本，利用已有样本和当前的衍生样本重新对基分类器进行半监督训练的步骤，直至准确度达到阈值。服务器104基于准确度达到阈值的财务造假监控模型对监控对象是否存在财务造假行为进行监控。上述财务造假风险监控过程，预先针对已有样本构建衍生样本，实现好坏样本的均衡，基于样本均衡处理后的样本数据训练得到准确度达到阈值的财务造假监控模型，利用该模型对监控对象进行监控，不仅可以提高监控效率，还可以提高监控结果准确性。

在一个实施例中，如图2所示，提供了一种财务造假风险监控方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，在已有样本中筛选目标样本，提取目标样本的样本特征。

已有样本可以是处于某个监控时段的监控对象。监控对象可以是已经曝出具有财务造假风险的企业或个人，也可以是尚未被曝出具有财务造假风险的企业或个人。在收集已有样本时还可以对同一监控对象的不同监控时段进行区分。例如，“企业甲+2011～2015”可以是一个已有样本，“企业甲+2015～2017”可以是另一个已有样本。

已有样本包括黑色样本和白色样本。同一监控对象往往并非一直具有财务造假行为，有可能一段时间(记作白色时段)不具有财务造假行为，一段时间(记作黑色时段)具有财务造假行为。例如，企业A被曝出在2017.08～2017.11发生财务造假，在被监管部门要求整改后企业A对该段时间的财务数据进行修正，则2017.08～2017.11被曝出的财务数据可以作为黑色样本，对应修改后的监控数据可以作为白色样本。

已有样本还包括灰色样本。实际上，大部分企业处于白色时段和黑色时段之间的灰色时段。灰色时段是指有可能存在财务造假行为但未被曝出的时段。黑色样本与白色样本的数量有限，而灰色样本则比较多。

在一个实施例中，在已有样本中筛选目标样本，包括：获取已有样本；已有样本具有对应的分类标签；将已有样本输入基分类器，得到模型分类结果；比较模型分类结果与相应分类标签是否一致；若否，将已有样本标记为目标样本。

目标样本是指实际存在财务造假行为但未被财务造假监控模型识别出来的黑色样本。样本特征包括黑色样本的正常指标以及一种或多种异常指标。

步骤204，对样本特征进行强化学习，得到更多的衍生样本。

步骤206，利用已有样本和衍生样本对基分类器进行半监督训练，得到财务造假监控模型。

服务器对异常指标进行增大或减小等夸张化处理，得到更多的衍生样本。基分类器可以是梯度促进模型(Gradient Boosting Decison Tree，GBDT)。容易理解，基分类器也可以是其他模型，对此不做限制。黑色样本和白色样本具有明确的是否造假的标注(记作分类标签)，而灰色样本则没有明确的分类标签。换言之，有标注的样本数据稀少，而无标注的样本数据很多。基于有限的黑色样本、白色样本以及大量的灰色样本对基分类器进行半监督训练，使得训练得到的财务造假监控模型更加符合实际情况，从而可以提高模型监控精准度。

步骤208，计算财务造假监控模型的准确度，比较准确度是否达到阈值。

服务器通过生成财务造假监控模型的ROC曲线(receiver operatingcharacteristic curve，受试者工作特征曲线)或混淆矩阵等，得到能够表征财务造假监控模型准确度的参数值，如AUC(Area Under Curve，ROC曲线下的面积)值、精确率等。

步骤210，若否，基于衍生样本生成再生样本。

若财务造假监控模型的准确度尚且达不到阈值，则服务器按照上述方式对目标样本的样本特征进一步强化学习，得到每个衍生样本对应的再生样本。

步骤212，将再生样本作为当前的衍生样本，返回利用已有样本和衍生样本对基分类器进行半监督训练的步骤，直至准确度达到阈值。

财务造假监控模型的训练是一个循环迭代的过程，而非一蹴而就。在得到财务造假监控模型后，对模型准确度进行检测，若准确度达不到阈值，则不断对目标样本的样本特征进行强化学习，直至财务造假监控模型能够识别出来这些目标样本为黑色样本，即直至财务造假监控模型的准确度达到阈值。

步骤214，基于准确度达到阈值的财务造假监控模型对监控对象是否存在财务造假行为进行监控。

由于造假情形太多，初始的财务造假监控模型难以识别出在特定情况下的造假，通过强化学习使得财务造假监控模型能够捕捉到更多情况下造成造假的财务指标，进而逐步识别出越来越多情形下的造假，提高模型精度。此外，同时将大量的灰色时段的样本数据作为样本对模型进行半监督训练，可以使模型尽可能多的学习到大部分企业在常规状态下的财务行为特征，从而可以进一步提高模型精度，可以提早发现尚处于灰色时段但有财务造假征兆的风险企业。

本实施例中，基于已有样本可以筛选得到目标样本，并提取得到目标样本的样本特征；对样本特征进行强化学习，可以得到更多的衍生样本；利用已有样本和衍生样本对基分类器进行半监督训练，可以得到财务造假监控模型；通过计算财务造假监控模型的准确度，可以在准确度未达到阈值时，基于衍生样本生成再生样本；将再生样本作为当前的衍生样本，可以利用已有样本和衍生样本重新对基分类器进行半监督训练，直至准确度达到阈值；基于准确度达到阈值的财务造假监控模型，可以对监控对象是否存在财务造假行为进行监控。由于预先针对已有样本构建衍生样本，实现好坏样本的均衡，基于样本均衡处理后的样本数据训练得到准确度达到阈值的财务造假监控模型，利用该模型对监控对象进行监控，不仅可以提高监控效率，还可以提高监控结果准确性。

在一个实施例中，提取目标样本的样本特征，包括：获取目标样本对应的样本数据；对样本数据进行预处理，得到多个样本指标；确定每个样本指标的指标类型；指标类型包括正常指标和异常指标。

服务器获取目标样本对应的样本数据。样本数据可以是监控对象在不同监控时段的多维度监控数据。监控对象在财务、舆情、法律等不同维度进行财务造假的手段不同，如在舆情维度的造假手段主要表现为离职率高等。将监控维度从财务单一维度扩展至多个维度可以提高监控精度。不同维度的监控数据对应的监控时段可以不同，如财务数据对应的监控时段可以是“1季度”，舆情数据对应的监控时段可以超过1季度，因为舆情造假往往具有前置征兆，因而时间范围可以更大。

服务器对样本数据进行预处理，得到多种样本指标。在另一个实施例中，服务器还可以监控待测企业的关联企业是否具有财务造假行为，将这种监控结果作为一个样本指标。关联企业可以是与待测企业存在供应关系、投资关系、担保关系或其他关系的企业。

根据证监会等监管部门公布的处罚文件将其中一个或多个样本指标标记为异常指标，进而确定样本指标的指标类型。指标类型包括正常指标和异常指标。

本实施例中，识别目标样本中的异常指标，便于后续对这种异常情况进行强化学习得到更多的衍生样本，可以在解决黑色样本数量少问题的同时逐步提高模型精度。

在一个实施例中，如图3所示，对样本特征进行强化学习，得到更多的衍生样本，即样本特征强化学习的步骤，包括：

步骤302，根据样本特征获取对应的强化学习规则。

服务器预存储了多个样本指标对应的强化学习规则。强化学习规则包括多种样本指标分别对应的增大幅度或减小幅度。换言之，强化学习规则包括对该样本指标值进行增大或缩小的一级幅度、二级幅度等。其中，一级幅度是指第一次根据强化学习规则对样本指标进行强化学习时对样本指标值增大的幅度或者缩小的幅度；二级幅度是指第二次根据强化学习规则对同一样本指标进行强化学习时对样本指标值增大的幅度或者缩小的幅度，如此类推。

步骤304，根据强化学习规则，对异常指标进行强化处理。

在一个实施例中，根据强化学习规则，对异常指标进行强化处理，包括：根据增大幅度对异常指标进行增大处理；或根据减小幅度对异常指标进行减小处理。

服务器根据相应的强化学习规则对每个异常指标按照一级幅度进行增大或缩小。例如，企业甲对收益指标A进行了造假，由实际的200万虚报为180万，对存货周转指标B进行了造假，由实际的65％虚报为70％，但初始的模型并未识别出。为了实现样本均衡，可以增加收益指标值或减小指标值，以夸大这种造假情形下的造假程度。例如，将上述指标A＝180减小为A`＝150，将指标B＝65％增大为75％。

步骤306，对强化处理后的多个异常指标进行组合，得到多种指标组合。

步骤308，基于正常指标及强化处理后的每种指标组合生成一种衍生样本。

目标样本可能包括多种异常指标，如N个。利用其中的一种或多种异常指标进行随机组合，可以得到多种指标组合。指标组合中包含异常指标的数量k满足1≤k≤N。例如，在上述举例中，若企业甲对指标A、B、C和D分别进行了造假，指标组合可以是[A]、[A、B]等。容易理解，衍生样本依旧是黑色样本。

本实施例中，通过对异常指标进行夸张化处理，可以使黑色样本的样本特征更加明显，进而可以使财务造假监控模型学习到更多情形下的造假行为特征，提高模型识别精度。

在一个实施例中，基于准确度达到阈值的财务造假监控模型对监控对象是否存在财务造假行为进行监控，包括：获取监控对象的监控数据；将监控数据输入财务造假监控模型，得到对应的风险评分；当风险评分超过阈值时，将目标资源标识标记为风险案例；根据监控数据确定风险案例对应的相似案例；基于相似案例识别风险案例的多个风险点；将多个风险点串联，生成风险案例对应的风险线索；基于风险评分、相似案例及风险线索，生成目标资源标识对应的风险分析报告，将风险分析报告发送至监控终端。

监控数据包括财务、地区、行业、法律和舆情等多个维度的数据。数据类型包括但不限于图像、音频、文本和数字。服务器对不同数据类型的监控数据进行预处理。具体的，对于数字形式的数据，如企业的财务数据，作为评定企业风险定量指标的主要数据来源，可简单处理后直接应用于监控因子的生成。但文本、图像、音频等数据类型的数据，则需要经过提炼、量化处理，对数据中存在的码表进行统一和标准化的处理。

服务器调用财务造假监控模型对监控对象进行风险扫描，计算得到监控对象对应的风险评分。服务器比较风险评分是否超过阈值。若是，表示监控对象具有较高的违约风险，服务器将该目标资源标识标记为风险案例。

服务器预存储了多种历史案例以及每个历史案例的风险画像(记作坏样本画像)。坏样本画像包括多个风险标签。风险标签用于表征历史案例在哪些科目出现的问题。随着时间变化，风险手段也有可能变化。为了提高相似案例匹配准确度，可以对相应坏样本画像也进行动态更新。

服务器基于监控对象的多个监控指标，生成监控对象的多个风险标签，利用多个风险标签生成监控对象的风险画像(记作待匹配画像)。财务造假监控模型不仅用于预测监控对象是否存在财务造假行为，还通过相似案例匹配预测风险线索。服务器调用财务造假监控模型计算待匹配画像与坏样本画像的余弦相似性，得到相似度。若相似度超过阈值，服务器将相应历史案例标记为相似案例。

每个坏样本画像关联有多个时间节点的风险指标。服务器根据相匹配的坏样本画像关联的多个时间节点的风险指标对监控对象的风险线索进行预测。在不同时间节点可能与不同历史案例的风险模式相似。换言之，随着时间推移当前风险案例的相似案例可能发生变化。服务器从“与相似案例相同的风险标签”以及“相同风险标签的时间顺序”两个角度生成风险线索。具体可以判断风险案例是否存在与相似案例相同的风险指标及相同风险指标出现的时间顺序与相似案例是否一致。若存在与相似案例相同的风险指标且相同风险指标的出现时间顺序与相似案例一致，则服务器将最后一个时间节点的相同的风险指标(记作征兆指标)标记为一个风险点。比如，坏样本企业A具有6个异常指标，企业B已经出现了其中5种异常指标则预测有可能出现第6种异常指标，从而可以将第6中异常指标标记为企业B的一个风险点。

服务器确定风险案例的监控周期。监控周期可以根据风险评分或者监控对象的行业类型等动态确定的，也可以是预设的固定值，对此不做限制。服务器按照上述方式确定监控对象在每个监控周期的风险点，并按照时间顺序将多个风险点串联，得到监控对象对应的风险线索。

服务器通过对风险评分进行聚类，可以确定监控对象对应的风险类别。每个风险类别具有对应的类别描述。根据风险评分和所属风险类别对应的类别描述进行风险提示。相比简单的提供一个分数，基于自然语言进行风险提示可以提高业务解释性。服务器基于风险提示、相似案例及其关联的坏样本画像、风险线索生成风险分析报告。

本实施例中，财务造假监控模型可以综合考虑多种风险因素进行风险预测，提高风险分析效率；在得到风险评分后进一步确定风险案例的相似案例，并基于相似案例预测监控对象在未来多个时间节点可能出现的风险点，基于上述信息生成的风险分析报告可以方便用户全面快速的了解所选虚拟资源的风险情况，提高风险分析精准度。

应该理解的是，虽然图2和图3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2和图3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种财务造假风险监控装置，包括：特征提取模块402、特征学习模块404、模型训练模块406和造假监控模块408，其中：

特征提取模块402，用于在已有样本中筛选目标样本，提取目标样本的样本特征。

特征学习模块404，用于对样本特征进行强化学习，得到更多的衍生样本。

模型训练模块406，用于利用已有样本和衍生样本对基分类器进行半监督训练，得到财务造假监控模型；计算财务造假监控模型的准确度，比较准确度是否达到阈值；若否，基于衍生样本生成再生样本；将再生样本作为当前的衍生样本，利用已有样本和衍生样本对基分类器再次进行半监督训练，直至准确度达到阈值。

造假监控模块408，用于基于准确度达到阈值的财务造假监控模型对监控对象是否存在财务造假行为进行监控。

在一个实施例中，特征提取模块402还用于获取已有样本；已有样本具有对应的分类标签；将已有样本输入基分类器，得到模型分类结果；比较模型分类结果与相应分类标签是否一致；若否，将已有样本标记为目标样本。

在一个实施例中，特征提取模块402还用于获取目标样本对应的样本数据；对样本数据进行预处理，得到多个样本指标；确定每个样本指标的指标类型；指标类型包括正常指标和异常指标。

在一个实施例中，特征学习模块404还用于根据样本特征获取对应的强化学习规则；根据强化学习规则，对异常指标进行强化处理；对强化处理后的多个异常指标进行组合，得到多种指标组合；基于正常指标以及强化处理后的每种指标组合生成一种衍生样本。

在一个实施例中，强化学习规则包括多种样本指标分别对应的增大幅度或减小幅度；特征学习模块404还用于根据增大幅度对异常指标进行增大处理；或根据减小幅度对异常指标进行减小处理。

在一个实施例中，造假监控模块408还用于获取监控对象的监控数据；将监控数据输入财务造假监控模型，得到对应的风险评分；当风险评分超过阈值时，将目标资源标识标记为风险案例；根据监控数据确定风险案例对应的相似案例；基于相似案例识别风险案例的多个风险点；将多个风险点串联，生成风险案例对应的风险线索；基于风险评分、相似案例及风险线索，生成目标资源标识对应的风险分析报告，将风险分析报告发送至监控终端。

关于财务造假风险监控装置的具体限定可以参见上文中对于财务造假风险监控的限定，在此不再赘述。上述财务造假风险监控装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储已有样本和衍生样本的样本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种财务造假风险监控方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本申请任意一个实施例中提供的财务造假风险监控方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种财务造假风险监控方法，所述方法包括：

在已有样本中筛选目标样本，提取所述目标样本的样本特征；

对所述样本特征进行强化学习，得到更多的衍生样本；

利用所述已有样本和所述衍生样本对基分类器进行半监督训练，得到财务造假监控模型；

计算所述财务造假监控模型的准确度，比较所述准确度是否达到阈值；

若否，基于所述衍生样本生成再生样本；

将所述再生样本作为当前的衍生样本，返回利用所述已有样本和所述衍生样本对基分类器进行半监督训练的步骤，直至所述准确度达到阈值；

基于所述准确度达到阈值的财务造假监控模型对监控对象是否存在财务造假行为进行监控。

2.根据权利要求1所述的方法，其特征在于，所述在已有样本中筛选目标样本，包括：

获取已有样本；所述已有样本具有对应的分类标签；

将所述已有样本输入基分类器，得到模型分类结果；

比较所述模型分类结果与相应分类标签是否一致；

若否，将所述已有样本标记为目标样本。

3.根据权利要求1所述的方法，其特征在于，所述提取目标样本的样本特征，包括：

获取所述目标样本对应的样本数据；

对所述样本数据进行预处理，得到多个样本指标；

确定每个样本指标的指标类型；所述指标类型包括正常指标和异常指标。

4.根据权利要求3所述的方法，其特征在于，所述对样本特征进行强化学习，得到更多的衍生样本，包括：

根据所述样本特征获取对应的强化学习规则；

根据所述强化学习规则，对异常指标进行强化处理；

对强化处理后的多个异常指标进行组合，得到多种指标组合；

基于所述正常指标以及强化处理后的每种指标组合生成一种衍生样本。

5.根据权利要求4所述的方法，其特征在于，所述强化学习规则包括多种样本指标分别对应的增大幅度或减小幅度；所述根据所述强化学习规则，对异常指标进行强化处理，包括：

根据所述增大幅度对所述异常指标进行增大处理；或

根据所述减小幅度对所述异常指标进行减小处理。

6.根据权利要求1所述的方法，其特征在于，所述基于所述准确度达到阈值的财务造假监控模型对监控对象是否存在财务造假行为进行监控，包括：

获取所述监控对象的监控数据；

将所述监控数据输入所述财务造假监控模型，得到对应的风险评分；

当所述风险评分超过阈值时，将所述目标资源标识标记为风险案例；

根据所述监控数据确定所述风险案例对应的相似案例；

基于所述相似案例识别所述风险案例的多个风险点；

将所述多个风险点串联，生成所述风险案例对应的风险线索；

基于所述风险评分、相似案例及风险线索，生成所述目标资源标识对应的风险分析报告，将所述风险分析报告发送至监控终端。

7.一种财务造假风险监控装置，其特征在于，所述装置包括：

特征提取模块，用于在已有样本中筛选目标样本，提取所述目标样本的样本特征；

特征学习模块，用于对所述样本特征进行强化学习，得到更多的衍生样本；

模型训练模块，用于利用所述已有样本和所述衍生样本对基分类器进行半监督训练，得到财务造假监控模型；计算所述财务造假监控模型的准确度，比较所述准确度是否达到阈值；若否，基于所述衍生样本生成再生样本；将所述再生样本作为当前的衍生样本，利用所述已有样本和所述衍生样本对基分类器再次进行半监督训练，直至所述准确度达到阈值；

造假监控模块，用于基于所述准确度达到阈值的财务造假监控模型对监控对象是否存在财务造假行为进行监控。

8.根据权利要求7所述的装置，其特征在于，所述特征提取模块还用于获取已有样本；所述已有样本具有对应的分类标签；将所述已有样本输入基分类器，得到模型分类结果；比较所述模型分类结果与相应分类标签是否一致；若否，将所述已有样本标记为目标样本。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。