CN111046947A

CN111046947A - 分类器的训练系统及方法、异常样本的识别方法

Info

Publication number: CN111046947A
Application number: CN201911259207.XA
Authority: CN
Inventors: 康青杨; 刘世林; 曾途; 杨李伟; 吴桐
Original assignee: Chengdu Business Big Data Technology Co Ltd
Current assignee: Shansikaiwu Technology (Chengdu) Co.,Ltd.
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2020-04-21
Anticipated expiration: 2039-12-10
Also published as: CN111046947B

Abstract

本发明涉及一种分类器的训练方法及系统、异常样本的识别方法，该分类器的训练方法包括步骤：构造训练样本；基于样本中记录的字段，构造出占比型特征和增长率型特征；将构造的占比型特征和增长率型特征进行全组合，并使用聚类算法对所有样本进行聚类，得到每个样本的欧式距离；将构造的占比型特征和增长率型特征进行全组合，使用线性回归算法对所有样本进行回归计算，并得到每个样本的回归相对误差；将所述欧式距离和所述回归相对误差作为样本的特征，基于监督学习算法在训练集上进行训练，得到所述分类器。基于训练得到的分类器，可以识别出异常样本，例如识别出数据异常的财务报表，继而增强监管效率。

Description

分类器的训练系统及方法、异常样本的识别方法

技术领域

本发明涉及数据分析技术领域，特别涉及一种用于异常样本识别的分类器的训练系统及方法、异常样本的识别方法。

背景技术

近几年，由于数据在互联网领域的持续增长，基于大数据、数据挖掘的应用层出不穷。其中，应用主要分为分类、估计、关联性分析、异常检测等。对数据进行分析，比如，银行在发放贷款时，通过数据挖掘构建一个分类模型，将贷款申请者分为低、中、高风险，从而调整放款额度，降低违约风险。又例如，超市通过对用户购买的物品进行关联挖掘，发现某些物品经常被同时购买，表现出较强的关联性，然后将关联度高的物品放在一起卖，既增加销量又方便消费者选购。

上市公司每季度都会发布财务报表，证监会需要通过这些财务报表对这些公司进行监管，一些投资机构也需要分析这些报表选择出投资标的。然而，在这些财务报表中可能存在一些造假行为，造假会给广大股民带来巨大经济损失，严重影响股市正常秩序。如果通过数据挖掘发现这些财务报表中的异常，就可以增强监管效率，减轻造假事件造成的危害。因此，如何从财务报表数据中识别出异常信息是目前亟待解决的问题。

发明内容

本发明的目的在于提供一种用于异常样本识别的分类器的训练系统及方法，以及异常样本的识别方法，通过该分类器可以识别出存储异常数据的财务报表，加强监管效率。

为了实现上述发明目的，本发明实施例提供了以下技术方案：

一种用于异常样本识别的分类器的训练方法，包括以下步骤：

构造训练样本；

基于样本中记录的字段，构造出占比型特征和增长率型特征；

将构造的占比型特征和增长率型特征进行全组合，并使用聚类算法对所有样本进行聚类，得到每个样本的欧式距离；

将构造的占比型特征和增长率型特征进行全组合，使用线性回归算法对所有样本进行回归计算，并得到每个样本的回归相对误差；

将所述欧式距离和所述回归相对误差作为样本的特征，基于监督学习算法在训练集上进行训练，得到所述分类器。

在进一步完善的方案中，在构造出占比型特征和增长率型特征之前，还包括步骤：对样本中的数据进行预处理，剔除信息不完整的样本。

另一方面，本发明实施例还提供了一种用于异常样本识别的分类器的训练系统，包括：

样本构造模块，用于构造训练样本；

特征构造模块，用于基于样本中记录的字段，构造出占比型特征和增长率型特征；

聚类模块，用于将构造的占比型特征和增长率型特征进行全组合，并使用聚类算法对所有样本进行聚类，得到每个样本的欧式距离；

回归模块，用于将构造的占比型特征和增长率型特征进行全组合，使用线性回归算法对所有样本进行回归计算，并得到每个样本的回归相对误差；

训练模块，用于将所述欧式距离和所述回归相对误差作为样本的特征，基于监督学习算法在训练集上进行训练，得到所述分类器。

另一方面，本发明实施例还提供了一种异常样本的识别方法，包括以下步骤：

基于待识别样本中记录的字段，构造出占比型特征和增长率型特征；

将构造的占比型特征和增长率型特征进行全组合，并使用聚类算法对待识别样本进行聚类，得到待识别样本的欧式距离；

将构造的占比型特征和增长率型特征进行全组合，使用线性回归算法对待识别样本进行回归计算，并得到待识别样本的回归相对误差；

将所述欧式距离和所述回归相对误差作为样本的特征，输入预先训练的分类器，输出得到该待识别样本为异常样本的概率值。

再一方面，本发明实施例同时提供了一种包括计算机可读指令的计算机可读存储介质，所述计算机可读指令在被执行时使处理器执行本发明实施例中所述方法中的操作。

再一方面，本发明实施例同时提供了一种电子设备，包括：存储器，存储程序指令；处理器，与所述存储器相连接，执行存储器中的程序指令，实现本发明实施例中所述方法中的步骤。

与现有技术相比，本发明方法及系统，构造特征后，通过聚类发现特征之间的分布规律，通过回归发现特征之间的线性关系，既而再通过监督学习训练出分类器，可以较为准确地识别出异常样本，例如识别出财务报表中存在异常数据(如造假数据)的样本，继而有助于各监管部门对上市公式的财务进行监管，提高监管效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为实施例中用于异常样本识别的分类器的训练方法的流程图。

图2为实施例中用于异常样本识别的分类器的训练系统的组成框图。

图3为实施例中应用所述分类器识别异常样本的方法的流程图。

图4为实施例中所述的电子设备的组成框图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本实施例中提供的用于异常样本识别的分类器的训练方法，包括以下步骤：

步骤1，构造训练样本。

找到证监会披露了因为财务异常而被处罚的名单，将名单中的公司以及处罚时间对应的那一年的年报记录作为负样本，其余时间对应的年报作为正样本。

步骤2，对样本中的数据进行预处理，剔除信息不完整的样本。

上市公司的财务报告是每个季度一条记录，一条记录就是一个样本，为了数据统一以及简单化处理，可以只使用其中一个季度的记录，例如只使用每一年年底的记录，即年报记录。针对于在记录里存在一些空值的情况，如果某个字段的空置率超过20％，则去掉该字段，然后如果某条记录中存在空值则去掉该条记录。字段的空置率是所有的记录中该字段为空的记录数除以记录总数，某条记录中存在空值就是指这个记录中存在一个字段为空。通过这样的方式剔除信息不完整的数据，这样保证了样本数据的完整性。

步骤3，基于财报中记录的字段，构造出占比型特征和增长率型特征。

财报包括资产负债表、利润表和现金流量表，每一张表中记录有若干个字段，基于异常信息的提取，此处需要构造出占比型特征和增长率型特征。占比型特征是指体现所占比例的特征，增长率型特征是指体现增长率的特征。

例如，资产负债表中包含63个字段，这些字段可以分为三类，资产类、负债类、股东权益类。将资产类字段除以资产总计，例如货币资金/资产总计、应收账款/资产总计、存货/资产总计等；将负债类字段除以负债合计，例如短期借款/负债合计、应收账款/负债合计等；将股东权益类字段除以股东权益合计，例如实收资本/股东权益合计、资本公积/股东权益合计。利润表包含31个字段，将这些字段全部除以营业总收入，例如营业成本/营业收入、销售费用/营业收入等。现金流量表包含36个字段，这些字段可以分为三类，经营活动类、投资活动类、筹资活动类。将经营活动类字段除以经营活动产生的现金流入小计，将投资活动类字段除以投资活动现金流入小计，将筹资活动类字段除以筹资活动现金流入小计。得到的这些特征都是占比型特征。

财报中还记录有若干个比率型字段，例如总资产负债率、净资产收益率(ROE)、资产回报率(ROA)、流动比率、速动比率、存货周转率等。增长率型特征包括基于这些比率型字段而构造的，例如，使用今年和上一年的财务报表构造增长率型特征，例如根据今年的净资产收益率ROE1和去年的净资产收益率ROE2，得到ROE的增长率特征，为[(ROE2-ROE1)/ROE1]*100％。

另外，增长率型特征还可以包括不是基于比率型字段构造的，例如营业收入增长率、营业成本增长率、存货增长率、毛利率增长率等。

基于财报上的字段，可以构建若干个占比型特征和增长率型特征。当然，基于应用的不同，在使用时可以只选择其中部分特征，也可以全部特征都使用。

需要说明的是，本实施例中只构造了占比型特征和增长率型特征，占比型特征刻画的是公司结构，增长率型特征刻画的是动态变化，是从两个比较重要方面刻画了一个公司的财务情况。理论上，特征类型越多，越能识别出异常样本，因此，基于不同的实施方式，还可以构造出更多类型的特征，只是基于试验中的验证，只构造出占比型特征和增长率型特征，最终得到的分类器也具有很强的分类效果。

步骤4，将构造的上述特征进行全组合，并使用聚类算法对所有样本进行聚类，得到的欧式距离作为输出。

构造的这些特征中某些特征之间存在一定的分布规律，因此可以使用聚类算法来发现其中的规律，但是如果把全部的特征一起进行聚类的话，无法发现其中个别特征组合的分布规律，所以使用这些特征进行全组合，例如取C(250,2),C(250,3)种组合，即从250个特征(假设构造了250特征)中任意选取2个特征进行组合，从250个特征中任意选取3个特征进行组合。

使用kmeans算法对所有样本每种组合进行聚类，会得到相应的聚类模型，将样本离中心点的欧氏距离作为模型输出。例如，某个组合包含特征t1和特征t2，每一个样本只取这两个特征，然后进行聚类。针对于每种组合的聚类步骤是一样的，聚类模型不一样是因为使用的特征不同。

聚类的簇个数K的取值是使聚类的轮廓系数达到最大确定的。在试验中发现K＝2时，轮廓系数往往是最大的。将样本(x1,y1)离中心点(c1,c2)的距离sqrt((x1-c1)^2+(y1-c2)^2)作为该模型对该样本的输出，值越大说明该样本越是离群点，存在异常的可能性越大。x1和y1分别为样本中特征t1和特征t2的取值。

例如，有公司A，和特征组合(营业收入/总资产、营业成本/总资产)。公司A的这个特征组合的值是(0.34,0.22)，公司A所在的簇的中心的值是(0.2,0.15)，那么公司A在这个组合下的值就是0.156。

步骤5，将构造的上述特征进行全组合，使用线性回归算法对所有样本进行回归计算，并得到回归相对误差，回归相对误差即是指回归计算值与真实值之间的偏差。

针对于财务报表，记录的字段中可能部分字段之间还存在线性关系，例如，总资产等于负债加股东权益，因此可以挖掘样本中特征之间的线性关系。使用LinearRegression算法，对所有样本每种组合进行回归，得到对应的回归模型(公式)，将样本的回归相对误差作为模型输出。此处，使用拟合优度做阈值对回归公式进行筛选，拟合优度小于0.8的公式就删除。例如，某个组合包含特征(t1,t2,t3),取X＝(t1,t2)，y＝t3，使用所有样本进行回归得到回归模型y＝W*X+b，x是自变量，y是因变量，w和b是线性回归的得到的系数，通过这个公式即可以计算出样本的y值，这个y和样本原有的t3值有一个偏差(y-t3)/y，将这个偏差作为该公式对该样本的输出。针对于每种组合的回归步骤是一样的，回归模型不一样是因为使用的特征不同。将组合里的最后一个特征作为因变量，将其他特征作为自变量进行线性回归。例如，组合里面有三个特征，就取第三个作为因变量，前两个做自变量进行线性回归，如果组合里面有两个特征，就取第二个特征作为因变量，第一个特征作为自变量进行线性回归。

例如，有一个特征组合是(自由现金流占比、货币资金占比、经营活动产生现金流量净额占比)，取经营活动产生现金流量净额占比为因变量，自由现金流占比和货币资金占比为自变量。通过逻辑回归得到一个公式为：经营活动产生现金流量净额占比＝0.88*自由现金流占比+0.13*货币资金占比。公司A的经营活动产生现金流量净额占比、自由现金流占比、货币资金占比分别为(0.5，-0.1，0.1)，根据该公式计算出经营活动产生现金流量净额占比应为-0.75。财报中它本来的值是0.5，计算出偏差为1.67。偏差越大表明该财报的这几个特征越偏离大部分财报这几个特征的规律，即是说，设定一个偏差阈值，通过偏差值与偏差阈值进行比较，就可以发现该样本中的相应特征是否异常。

容易理解的是，虽然在图1中显示步骤5在步骤4之后，但是实际上步骤4和步骤5都是以步骤3中输出的特征进行处理，因此步骤4和步骤5的执行顺序没有先后之分，两个步骤可以并列执行。

步骤6，把聚类模型和回归模型的输出并列起来作为样本的特征，所有样本随机取70％作为训练样本，30％作为测试样本。使用XGBoost算法(当然也可以采用其他算法，只是经过试验这个算法效果比较好)在训练集上进行训练，决策树的个数设置为500，树的最大深度设置为4，学习率设置为0.1，训练结束后得到分类器。训练好后，在测试集上测试，对负样本的召回率为23％，准确率为76％。即利用该分类器即可较为准确地对样本进行分类，输出为输入样本为异常样本的概率值，确定测试样本是否为异常样本，继而提升对上市公司财务监管的效率。

所谓异常样本，是指样本中的部分数据异常的样本，所谓数据异常是指与其他样本的同类数据的偏差较大。容易理解的是，异常样本是一个相对概念，上述分类器的输出概率值大于设定阈值的样本即判定为异常样本。

请参阅图2，基于相同的发明构思，本实施例中同时提供了一种用于异常样本识别的分类器的训练系统，包括：

样本构造模块，用于构造训练样本。

预处理模块：用于对样本中的数据进行预处理，剔除信息不完整的样本。

特征构造模块，用于基于样本中记录的字段，构造出占比型特征和增长率型特征。

聚类模块，用于将构造的占比型特征和增长率型特征进行全组合，并使用聚类算法对所有样本进行聚类，得到每个样本的欧式距离。

回归模块，用于将构造的占比型特征和增长率型特征进行全组合，使用线性回归算法对所有样本进行回归计算，并得到每个样本的回归相对误差。

训练模块，用于将所述欧式距离和所述回归相对误差作为样本的特征，基于监督学习算法(例如XGBoost算法)在训练集上进行训练，得到所述分类器。

请参阅图3，基于相同的发明构思，本发明实施例同时提供了一种异常样本的识别方法，包括以下步骤：

将所述欧式距离和所述回归相对误差作为样本的特征，输入预先训练的分类器，输出得到该待识别样本为异常样本的概率值。所述预先训练的分类器即是采用图1所述方法训练得到的分类器。

如图4所示，本实施例同时提供了一种电子设备，该电子设备可以包括处理器51和存储器52，其中存储器52耦合至处理器51。值得注意的是，该图是示例性的，还可以使用其他类型的结构来补充或替代该结构，实现数据提取、报告生成、通信或其他功能。

如图4所示，该电子设备还可以包括：输入单元53、显示单元54和电源55。值得注意的是，该电子设备也并不是必须要包括图4中显示的所有部件。此外，电子设备还可以包括图4中没有示出的部件，可以参考现有技术。

处理器51有时也称控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该处理器51接收输入并控制电子设备的各个部件的操作。

其中，存储器52例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其他合适装置中的一种或多种，可存储上述处理器51的配置信息、处理器51执行的指令、记录的表格数据等信息。处理器51可以执行存储器52存储的程序，以实现信息存储或处理等。在一个实施例中，存储器52中还包括缓冲存储器，即缓冲器，以存储中间信息。

输入单元53例如用于向处理器51提供待标注的文本数据。显示单元54用于显示处理过程中的各种结果，例如输入的文本数据、调整模块的输出结果、CRF模块的输出结果等，该显示单元例如可以为LCD显示器，但本发明并不限于此。电源55用于为电子设备提供电力。

本发明实施例还提供一种计算机可读指令，其中当在电子设备中执行所述指令时，所述程序使得电子设备执行本发明方法所包含的操作步骤。

本发明实施例还提供一种存储有计算机可读指令的存储介质，其中所述计算机可读指令使得电子设备执行本发明方法所包含的操作步骤。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成模块及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种用于异常样本识别的分类器的训练方法，其特征在于，包括以下步骤：

构造训练样本；

2.根据权利要求1所述的方法，其特征在于，在构造出占比型特征和增长率型特征之前，还包括步骤：对样本中的数据进行预处理，剔除信息不完整的样本。

3.一种用于异常样本识别的分类器的训练系统，其特征在于，包括：

样本构造模块，用于构造训练样本；

4.根据权利要求3所述的系统，其特征在于，还包括预处理模块：用于对样本中的数据进行预处理，剔除信息不完整的样本。

5.一种异常样本的识别方法，其特征在于，包括以下步骤：

6.根据权利要求5所述的方法，其特征在于，所述分类器经过以下步骤训练得到：

构造训练样本；

7.一种包括计算机可读指令的计算机可读存储介质，其特征在于，所述计算机可读指令在被执行时使处理器执行权利要求1或2或5或6所述方法中的操作。

8.一种电子设备，其特征在于，所述的设备包括：

存储器，存储程序指令；

处理器，与所述存储器相连接，执行存储器中的程序指令，实现权利要求1或2或5或6所述方法中的步骤。