CN108230131A - 一种数据处理方法及装置 - Google Patents
一种数据处理方法及装置 Download PDFInfo
- Publication number
- CN108230131A CN108230131A CN201711484315.8A CN201711484315A CN108230131A CN 108230131 A CN108230131 A CN 108230131A CN 201711484315 A CN201711484315 A CN 201711484315A CN 108230131 A CN108230131 A CN 108230131A
- Authority
- CN
- China
- Prior art keywords
- enterprise
- model
- financial data
- feature
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/125—Finance or payroll
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Development Economics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Technology Law (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
通过本实施例提供的数据处理方法及装置,所述方法包括:基于企业财务数据特征,构建用于预测企业未来是否受罚的异常监测模型;获取预设企业的与企业财务数据特征对应的历史财务数据,以及是否受罚的历史监管信息;将所述历史财务数据作为自变量,所述历史监管数据作为因变量对所述异常监测模型进行训练;获取待预测企业的与企业财务数据特征对应的财务数据,输入完成训练的异常监测模型,对待预测企业未来受罚情况进行预测。
Description
技术领域
本申请涉及数据处理领域,具体而言,涉及一种数据处理方法及装置。
背景技术
在金融监管领域,监管者有监督上市公司或挂牌公司财务报表的职责,即根据公司的财务报表数据识别出异常的财务指标。现有技术中主要以人工审阅为主,其效率受限于投入的人力和审阅者的业务精通程度和身体状态等原因。人工审阅存在成本高、效率低,存在人为失误的可能性等不利影响。
申请内容
有鉴于此,本申请实施例提供了一种数据处理方法及装置。
一方面,本申请实施例提供了一种数据处理方法,所述方法包括:基于企业财务数据特征,构建用于预测企业未来是否受罚的异常监测模型;获取预设企业的与企业财务数据特征对应的历史财务数据,以及是否受罚的历史监管信息;将所述历史财务数据作为自变量,所述历史监管数据作为因变量对所述异常监测模型进行训练;获取待预测企业的与企业财务数据特征对应的财务数据,输入完成训练的异常监测模型,对待预测企业未来受罚情况进行预测。
本申请实施例提供的数据处理方法先构建预测企业未来是否受罚的异常监测模型,具体先用预设企业的历史财务数据以及是否受罚的历史监管信息对该异常监测模型进行训练,然后获取待预测企业的财务数据,将其输入到训练完成的异常监测模型中,从而判断待预测企业的受罚情况。本申请可以不断优化异常监测模型,并利用该模型来对待预测企业的财务数据是否异常进行判断,与现有的通过人工审阅的方式相比,能够提高对企业的判断效率,降低人力成本。
在一个可能的设计中,所述企业财务数据特征包括直接企业财务数据特征和间接企业财务数据特征;所述直接企业财务数据特征包括企业财务报表中的财务指标表征的特征;所述间接企业财务数据特征包括除所述财务指标之外,表征企业财务能力的特征,和/或将直接企业财务数据特征经过预设数学计算后得到的特征。
企业财务数据特征可以包括多方面的财务数据特征,例如上述的直接企业财务数据特征和间接企业财务数据特征,从而能够实现对待预测企业进行较为全面的评估。
在一个可能的设计中,在获取到预设企业的与企业财务数据特征对应的历史财务数据,以及是否受罚的历史监管信息的样本数据之后,还包括如下类别不平衡处理过程:判断获取到的样本数据中,正负样本数据之间的比例;当所述比例达到预设比例阈值时,采用预设方法对获取到的样本数据进行类别不平衡处理,得到类别平衡的样本数据。
若样本数据之间的比例过于悬殊,则使得即使预测结果不对,依然提示只有较低的误差,使得整个异常监测模型失去了应用的价值,因此,通过对样本数据进行类别不平衡处理,人为缓解样本数据之间的比例过于悬殊的问题,从而能够提高该异常监测模型的应用价值。
在一个可能的设计中,将所述历史财务数据作为自变量,所述历史监管数据作为因变量对所述异常监测模型进行训练,具体包括:将所述历史财务数据作为自变量,所述历史监管数据作为因变量输入所述异常监测模型,并采用预设算法进行训练;在一轮训练结束时,根据输出的AUC值,判断所述异常监测模型当前使用的企业财务数据特征是否合理;若不合理,采用预设特征选择方法对当前使用的企业财务数据特征进行调整,并基于调整后的特征对所述异常监测模型进行下一轮训练。
在对异常监测模型进行训练时,往往不能一次性的确定好待训练的自变量,即不能较好的确定企业财务数据特征是否合理,因此,在将历史财务数据作为自变量进行模型训练后,可以根据模型输出的AUC值来判断作为自变量的企业财务数据特征是否合理,不合理时,对企业财务数据特征进行调整,然后在基于调整后的企业财务数据特征对异常监测模型再进行训练,从而逐渐确定合适的自变量,进一步使得异常监测模型更加合理。
在一个可能的设计中,所述异常监测模型包括多个预设模型;将所述历史财务数据作为自变量,所述历史监管数据作为因变量对所述异常监测模型进行训练,具体包括:将所述历史财务数据作为自变量,所述历史监管数据作为因变量,分别对所述多个预设模型进行训练;基于所述多个预测模型对样本数据的预测结果,采用预设模型融合方法对所述多个预设模型进行融合处理,得到融合模型;获取待预测企业的与企业财务数据特征对应的财务数据,输入完成训练的异常监测模型,对待预测企业未来受罚情况进行预测,具体包括:获取待预测企业的与企业财务数据特征对应的财务数据,输入完成训练的融合模型,对待预测企业未来受罚情况进行预测。
异常监测模型可以由多个预设模型融合而来,多个预设模型融合获得的异常监测模型可以使得该异常监测模型的预测准确率更高,提高对待预测企业进行预测的准确率。
在一个可能的设计中,所述预设模型融合方法包括:模型集成方法;基于所述多个预测模型对样本数据的预测结果,采用预设模型融合方法对所述多个预设模型进行融合处理,得到融合模型,具体包括:将所述多个预测模型对样本数据的预测结果作为自变量,将所述预测结果对应的正确结果作为因变量,对融合模型进行训练,得到训练后的融合模型。
具体可以将多个预设模型对样本数据的输出结果作为自变量,将真实的正确结果作为因变量,对融合模型进行训练,从而获得融合模型,这样训练获得的融合模型可以吸收各预设模型的优点,规避各预设模型的不足。
另一方面,本申请实施例还提供了一种数据处理装置,所述装置包括:模型构建模块,用于基于企业财务数据特征,构建用于预测企业未来是否受罚的异常监测模型;数据获取模块,用于获取预设企业的与企业财务数据特征对应的历史财务数据,以及是否受罚的历史监管信息;模型训练模块,用于将所述历史财务数据作为自变量,所述历史监管数据作为因变量对所述异常监测模型进行训练;企业预测模块,用于获取待预测企业的与企业财务数据特征对应的财务数据,输入完成训练的异常监测模型,对待预测企业未来受罚情况进行预测。
本申请可以不断优化异常监测模型,并利用该模型来对待预测企业的财务数据是否异常进行判断,与现有的通过人工审阅的方式相比,能够提高对企业的判断效率,降低人力成本。
在一个可能的设计中,所述装置还包括:样本判断模块,用于判断获取到的样本数据中,正负样本数据之间的比例;类别平衡模块,用于当所述比例达到预设比例阈值时,采用预设方法对获取到的样本数据进行类别不平衡处理,得到类别平衡的样本数据。
若样本数据之间的比例过于悬殊,则使得即使预测结果不对,依然提示只有较低的误差,使得整个异常监测模型失去了应用的价值,因此,通过对样本数据进行类别不平衡处理,人为缓解样本数据之间的比例过于悬殊的问题,从而能够提高该异常监测模型的应用价值。
在一个可能的设计中,所述模型训练模块包括:一轮训练子模块,用于将所述历史财务数据作为自变量,所述历史监管数据作为因变量输入所述异常监测模型,并采用预设算法进行训练;特征合理子模块,用于根据输出的AUC值,判断所述异常监测模型当前使用的企业财务数据特征是否合理;特征调整子模块,用于若不合理时,采用预设特征选择方法对当前使用的企业财务数据特征进行调整,并基于调整后的特征对所述异常监测模型进行下一轮训练。
在对异常监测模型进行训练时,往往不能一次性的确定好待训练的自变量,即不能较好的确定企业财务数据特征是否合理,因此,在将历史财务数据作为自变量进行模型训练后,可以根据模型输出的AUC值来判断作为自变量的企业财务数据特征是否合理,不合理时,对企业财务数据特征进行调整,然后在基于调整后的企业财务数据特征对异常监测模型再进行训练,从而逐渐确定合适的自变量,进一步使得异常监测模型更加合理。
在一个可能的设计中,所述模型训练模块包括:预设模型子模块,用于将所述历史财务数据作为自变量,所述历史监管数据作为因变量,分别对所述多个预设模型进行训练;融合模型子模块,用于基于所述多个预测模型对样本数据的预测结果,采用预设模型融合方法对所述多个预设模型进行融合处理,得到融合模型;所述企业预测模块包括:融合模型预测子模块,用于获取待预测企业的与企业财务数据特征对应的财务数据,输入完成训练的融合模型,对待预测企业未来受罚情况进行预测。
异常监测模型可以由多个预设模型融合而来,多个预设模型融合获得的异常监测模型可以使得该异常监测模型的预测准确率更高,提高对待预测企业进行预测的准确率。
为使本申请实施例所要实现的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚的说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请第一实施例提供的数据处理方法的流程图;
图2是图1中步骤S120的具体步骤示意图;
图3是图1中步骤S130的具体步骤示意图;
图4是本申请第二实施例提供的数据处理装置的结构框图。
具体实施方式
在现有技术中,在对公司的财务报表数据等进行异常识别时,往往是以人工审阅为主,或结合仅限于简单规则的线性累加的辅助系统,以人工审阅财务报表为主的监管方式,其效率受限于投入的人力和审阅者的业务精通程度和身体状态等因素。存在成本高,效率低,易受人工失误影响等不利因素。
现有技术中存在的上述缺陷,本申请人认为均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本发明实施例针对上述问题所提出的解决方案,都应该是发明人在本发明过程中对本发明做出的贡献。
为解决上述技术问题,本申请实施例提供了如下的数据处理方法及装置,下面将结合附图,对本申请实施例中的数据处理方法及装置进行详细介绍。
第一实施例
请参见图1,图1示出了本申请第一实施例提供的数据处理方法的流程示意图,具体包括如下步骤:
步骤S110,基于企业财务数据特征,构建用于预测企业未来是否受罚的异常监测模型。
所述企业财务数据特征包括直接企业财务数据特征和间接企业财务数据特征。
所述直接企业财务数据特征包括企业财务报表中的财务指标表征的特征,具体地,可以包括相应企业的基本每股收益、每股收益(摊薄)、每股收益(加权)、每股净资产、每股现金流、每股经营性现金流、净资产增长率、净资产收益率、净资产收益率(摊薄)、净资产收益率(加权)、主营业务收入增长率、净利润增长率、总资产增长率、销售毛利率等。
所述间接企业财务数据特征可以包括除所述财务指标之外,表征企业财务能力的特征,例如,相应的企业成立年度的数据,综合该企业对应的行业的公司的平均年龄,用该企业成立年度与平均年龄进行比较,来得知公司当前年度属于年轻公司、中年公司或是老年公司。
所述间接企业财务数据特征还可以包括将直接企业财务数据特征经过预设数学计算后得到的特征,例如,通过比较当年与前一年固定资产的数值,计算当年的固定资产增长率这一间接企业财务数据特征。
异常监测模型是根据企业财务数据特征来判断对应的企业是否收到处罚的模型,该异常监测模型能够提高判断企业是否受罚的准确性和效率。
步骤S120,获取预设企业的与企业财务数据特征对应的历史财务数据,以及是否受罚的历史监管信息。
预设企业的历史财务数据具体可以从财务信息网站中获取,例如可以从雪球财经爬取挂牌中小企业的半年度、年度财务报表,生成企业的财务数据。
预设企业的历史监管信息可以从全国中小企业股份转让系统中“监管公告”中获取,可以获取上面公布的受罚企业的信息。具体地,可以通过在全国中小企业股份转让系统中爬取“代码”“标题”“日期”等数据从而获取受罚企业的信息。
请参见图2,在获取到预设企业的与企业财务数据特征对应的历史财务数据,以及是否受罚的历史监管信息的样本数据之后,还包括如下类别不平衡处理过程:
步骤S121,判断获取到的样本数据中,正负样本数据之间的比例是否达到预设比例阈值,若是,则执行步骤S122。
正样本指的是预设企业中,未受罚的企业所代表的样本。负样本指的是预设企业中,受罚的企业所代表的样本。若正样本与负样本之间的比例过于悬殊,会导致即使预测结果不正确,但模型的准确率依然较高的情况的出现。例如,若101家企业中,有100家企业没有受罚,只有1家企业受罚,以上述数据进行训练的话,即使异常监测模型将企业是否受罚的结果预测全部预测为不受罚,准确率依然高达99%以上,导致异常监测模型失去应用价值。因此,若正负样本数据之间的比例达到了预设比例阈值,则执行步骤S122,预设比例阈值可以为100,也可以为其他数值,例如正样本与负样本之间的比例为50,预设比例阈值的具体数值不应该理解为是对本申请的限制。
步骤S122,采用预设方法对获取到的样本数据进行类别不平衡处理,得到类别平衡的样本数据。
通过类别不平衡处理,获得类别平衡后的样本数据,从而提高异常监测模型的应用价值。具体可以通过以下方式来实现类别不平衡处理:
通过上采样(Oversampling)的方式,即对比例较低的样本重复抽样,以使这类样本能够被异常监测模型学习到。通过下采样(Undersampling)的方式,即对比例较高的样本减少抽样次数,以防止异常监测模型过多的学习这类样本。通过SMOTE(SyntheticMinority Over-sampling Technique)的方式,由于上采样和下采样可能会产生模型过拟合的问题,使得模型学习到的信息过于特别而不够泛化,使得该异常监测模型在应用到样本外数据时,预测能力急剧下降,因此,可以对少数类样本进行分析并根据少数类样本合成新样本添加到样本集中,从而避免过拟合问题的出现。
步骤S130,将所述历史财务数据作为自变量,所述历史监管数据作为因变量对所述异常监测模型进行训练。
将历史财务数据作为自变量,将历史监管数据作为因变量输入到异常监测模型中,以对该异常监测模型进行训练,从而尽可能提高该异常监测模型判断某企业是否受罚的准确率。
请参见图3,图3示出了步骤S130的一种具体实施方式的具体步骤:
步骤S131,将所述历史财务数据作为自变量,所述历史监管数据作为因变量输入所述异常监测模型,并采用预设算法进行训练。
步骤S132,在一轮训练结束时,根据输出的接收者操作特征曲线下方的面积(AUCof ROC,Area under the Curve of receiver operating characteristic curve)值,判断所述异常监测模型当前使用的企业财务数据特征是否合理,若否,则执行步骤S133。
历史财务数据可以为直接企业财务数据,即可以先采用直接企业财务数据作为自变量来对模型进行训练,并在训练结束后,获得异常监测模型输出的AUC值,根据AUC值来判断当前使用的企业财务数据特征是否合理,具体地,若AUC值接近1,则表明当前使用的企业财务数据特征合理,否则,则表明当前使用的企业财务数据特征不合理。
步骤S133,采用预设特征选择方法对当前使用的企业财务数据特征进行调整,并基于调整后的特征对所述异常监测模型进行下一轮训练。
若当前使用的企业财务数据特征不合理,往往是由于企业财务数据特征较少导致的,因此,可以增加间接企业财务数据特征,将增加的间接企业财务数据特征与原有的企业财务数据特征共同作为新的特征对异常监测模型进行下一轮的训练。
若候选的企业财务数据特征较多,有大量候选特征时,为了平衡异常监测模型的准确性与计算的可行性,降低部署模型数据需求负荷,可以通过如下方式进行企业财务数据特征的选择:
消除消除低方差特征(Removing features with low variance),即如果某企业财务数据特征的特征方差过低,如全部为1或者全部为0,则将该特征方差对应的企业财务数据特征舍弃;单变量特征选择(Univariate feature selection),即用一个单变量统计特征值来对候选特征进行筛选,例如可以用Chi-Squared值,即如果Chi-Squared值低于一个阀值,则将Chi-Squared值低于一个阀值的该企业财务数据特征舍弃;递归特征消除(Recursive feature elimination),即先运行一次全特征模型,然后度量每个企业财务数据特征的重要程度,消除其中最不重要的那个,重复这一过程;基于模型结果的特征消除(Feature selection using Select From Model),即运行全特征模型,度量每个企业财务数据特征的重要程度,然后设置一个阀值,将重要程度低于阀值的特征全部消除。
具体地,异常监测模型可以包括多个预设模型,在另一种具体实施方式中,步骤S130包括:将所述历史财务数据作为自变量,所述历史监管数据作为因变量,分别对所述多个预设模型进行训练;基于所述多个预测模型对样本数据的预测结果,采用预设模型融合方法对所述多个预设模型进行融合处理,得到融合模型。
多个预设模型具体可以包括逻辑斯蒂回归(Logistic Regression)模型、GBDT(Gradient Boosted Tree)模型、XGBoost(Extreme Gradient Boosted Tree)模型。可以将历史财务数据作为自变量,历史监管数据作为因变量,分别输入到多个预设模型来对多个预设模型进行训练,然后根据多个预测模型对样本数据的预测结果,来进行多个预设模型的融合处理,以获得融合模型。
多个预设模型进行融合处理,得到融合模型的方法如下:
将所述多个预测模型对样本数据的预测结果作为自变量,将所述预测结果对应的正确结果作为因变量,对融合模型进行训练,得到训练后的融合模型。
将多个预测模型的预测结果作为自变量,将预测结果对应的正确结果作为因变量来进行训练,从而获得训练后的融合模型。
可以通过上述方式获得融合模型,也可以通过其他方式获得融合模型,具体地,例如可以根据多个预测结果进行加权平均,将最终获得的结果作为融合模型的结果,权值与模型的预测优度成正比,与模型的不确定性成反比。
步骤S140,获取待预测企业的与企业财务数据特征对应的财务数据,输入完成训练的异常监测模型,对待预测企业未来受罚情况进行预测。
具体包括:获取待预测企业的与企业财务数据特征对应的财务数据,输入完成训练的融合模型,对待预测企业未来受罚情况进行预测。
在完成该异常监测模型的训练后,将待预测企业的与企业财务数据特征对应的财务数据输入,以通过该异常监测模型获得该待预测企业的未来受罚情况的预测。
具体可以通过本申请实施例提供的数据处理方法获得的异常监测输出一份高危企业名单,以对监管者做出提示,使得监管者可以重点关注名单中的企业。该高危企业名单上为未来有较大可能受罚的企业。
本申请实施例提供的数据处理方法使得监管者的监管聚焦能力得到了较大的提升,监管的反映速度从人工处理的几天到几个月提高到实时监控;监管的整体效率得到较大提升,并且同时还节约了人力物力资源。
在异常监测模型的具体应用中,依照9564家挂牌企业的47019份财务报表数据训练出了异常监测模型,该异常监测模型的预测结果显示,当系统自动产生100家高危企业名单时,其中55家企业的确会涉及到监管处罚。对比随机选择100家公司,只有约1.5家的确会涉及监管处罚相比,大大节约了筛选高危挂牌企业的时间,提高了筛选企业的准确度。
第二实施例
请参见图4,图4示出了本申请第二实施例提供的数据处理装置,该装置300包括:
模型构建模块310,用于基于企业财务数据特征,构建用于预测企业未来是否受罚的异常监测模型。
数据获取模块320,用于获取预设企业的与企业财务数据特征对应的历史财务数据,以及是否受罚的历史监管信息。
模型训练模块330,用于将所述历史财务数据作为自变量,所述历史监管数据作为因变量对所述异常监测模型进行训练。
在一种具体实施方式中,所述模型训练模块330包括:一轮训练子模块,用于将所述历史财务数据作为自变量,所述历史监管数据作为因变量输入所述异常监测模型,并采用预设算法进行训练;特征合理子模块,用于根据输出的AUC值,判断所述异常监测模型当前使用的企业财务数据特征是否合理;特征调整子模块,用于若不合理时,采用预设特征选择方法对当前使用的企业财务数据特征进行调整,并基于调整后的特征对所述异常监测模型进行下一轮训练。
在另一种具体实施方式中,所述模型训练模块330包括:预设模型子模块,用于将所述历史财务数据作为自变量,所述历史监管数据作为因变量,分别对所述多个预设模型进行训练;融合模型子模块,用于基于所述多个预测模型对样本数据的预测结果,采用预设模型融合方法对所述多个预设模型进行融合处理,得到融合模型。
企业预测模块340,用于获取待预测企业的与企业财务数据特征对应的财务数据,输入完成训练的异常监测模型,对待预测企业未来受罚情况进行预测。
所述企业预测模块340包括:融合模型预测子模块,用于获取待预测企业的与企业财务数据特征对应的财务数据,输入完成训练的融合模型,对待预测企业未来受罚情况进行预测。
所述装置还包括:样本判断模块,用于判断获取到的样本数据中,正负样本数据之间的比例;类别平衡模块,用于当所述比例达到预设比例阈值时,采用预设方法对获取到的样本数据进行类别不平衡处理,得到类别平衡的样本数据。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
本申请实施例提供的数据处理方法先构建预测企业未来是否受罚的异常监测模型,具体先用预设企业的历史财务数据以及是否受罚的历史监管信息对该异常监测模型进行训练,然后获取待预测企业的财务数据,将其输入到训练完成的异常监测模型中,从而判断待预测企业的受罚情况。本申请可以不断优化异常监测模型,并利用该模型来对待预测企业的财务数据是否异常进行判断,与现有的通过人工审阅的方式相比,能够提高对企业的判断效率,降低人力成本。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
基于企业财务数据特征,构建用于预测企业未来是否受罚的异常监测模型;
获取预设企业的与企业财务数据特征对应的历史财务数据,以及是否受罚的历史监管信息;
将所述历史财务数据作为自变量,所述历史监管数据作为因变量对所述异常监测模型进行训练;
获取待预测企业的与企业财务数据特征对应的财务数据,输入完成训练的异常监测模型,对待预测企业未来受罚情况进行预测。
2.根据权利要求1所述的方法,其特征在于,所述企业财务数据特征包括直接企业财务数据特征和间接企业财务数据特征;
所述直接企业财务数据特征包括企业财务报表中的财务指标表征的特征;
所述间接企业财务数据特征包括除所述财务指标之外,表征企业财务能力的特征,和/或将直接企业财务数据特征经过预设数学计算后得到的特征。
3.根据权利要求1所述的方法,其特征在于,在获取到预设企业的与企业财务数据特征对应的历史财务数据,以及是否受罚的历史监管信息的样本数据之后,还包括如下类别不平衡处理过程:
判断获取到的样本数据中,正负样本数据之间的比例是否达到预设比例阈值;
当所述比例达到预设比例阈值时,采用预设方法对获取到的样本数据进行类别不平衡处理,得到类别平衡的样本数据。
4.根据权利要求1所述的方法,其特征在于,将所述历史财务数据作为自变量,所述历史监管数据作为因变量对所述异常监测模型进行训练,具体包括:
将所述历史财务数据作为自变量,所述历史监管数据作为因变量输入所述异常监测模型,并采用预设算法进行训练;
在一轮训练结束时,根据输出的接收者操作特征曲线下方的面积AUC值,判断所述异常监测模型当前使用的企业财务数据特征是否合理;
若不合理,采用预设特征选择方法对当前使用的企业财务数据特征进行调整,并基于调整后的特征对所述异常监测模型进行下一轮训练。
5.根据权利要求1所述的方法,其特征在于,所述异常监测模型包括多个预设模型;
将所述历史财务数据作为自变量,所述历史监管数据作为因变量对所述异常监测模型进行训练,具体包括:
将所述历史财务数据作为自变量,所述历史监管数据作为因变量,分别对所述多个预设模型进行训练;
基于所述多个预测模型对样本数据的预测结果,采用预设模型融合方法对所述多个预设模型进行融合处理,得到融合模型;
获取待预测企业的与企业财务数据特征对应的财务数据,输入完成训练的异常监测模型,对待预测企业未来受罚情况进行预测,具体包括:
获取待预测企业的与企业财务数据特征对应的财务数据,输入完成训练的融合模型,对待预测企业未来受罚情况进行预测。
6.根据权利要求5所述的方法,其特征在于,所述预设模型融合方法包括:模型集成方法;
基于所述多个预测模型对样本数据的预测结果,采用预设模型融合方法对所述多个预设模型进行融合处理,得到融合模型,具体包括:
将所述多个预测模型对样本数据的预测结果作为自变量,将所述预测结果对应的正确结果作为因变量,对融合模型进行训练,得到训练后的融合模型。
7.一种数据处理装置,其特征在于,所述装置包括:
模型构建模块,用于基于企业财务数据特征,构建用于预测企业未来是否受罚的异常监测模型;
数据获取模块,用于获取预设企业的与企业财务数据特征对应的历史财务数据,以及是否受罚的历史监管信息;
模型训练模块,用于将所述历史财务数据作为自变量,所述历史监管数据作为因变量对所述异常监测模型进行训练;
企业预测模块,用于获取待预测企业的与企业财务数据特征对应的财务数据,输入完成训练的异常监测模型,对待预测企业未来受罚情况进行预测。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
样本判断模块,用于判断获取到的样本数据中,正负样本数据之间的比例;
类别平衡模块,用于当所述比例达到预设比例阈值时,采用预设方法对获取到的样本数据进行类别不平衡处理,得到类别平衡的样本数据。
9.根据权利要求7所述的装置,其特征在于,所述模型训练模块包括:
一轮训练子模块,用于将所述历史财务数据作为自变量,所述历史监管数据作为因变量输入所述异常监测模型,并采用预设算法进行训练;
特征合理子模块,用于根据输出的接收者操作特征曲线下方的面积AUC值,判断所述异常监测模型当前使用的企业财务数据特征是否合理;
特征调整子模块,用于若不合理时,采用预设特征选择方法对当前使用的企业财务数据特征进行调整,并基于调整后的特征对所述异常监测模型进行下一轮训练。
10.根据权利要求7所述的装置,其特征在于,所述模型训练模块包括:
预设模型子模块,用于将所述历史财务数据作为自变量,所述历史监管数据作为因变量,分别对所述多个预设模型进行训练;
融合模型子模块,用于基于所述多个预测模型对样本数据的预测结果,采用预设模型融合方法对所述多个预设模型进行融合处理,得到融合模型;
所述企业预测模块包括:
融合模型预测子模块,用于获取待预测企业的与企业财务数据特征对应的财务数据,输入完成训练的融合模型,对待预测企业未来受罚情况进行预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711484315.8A CN108230131A (zh) | 2017-12-29 | 2017-12-29 | 一种数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711484315.8A CN108230131A (zh) | 2017-12-29 | 2017-12-29 | 一种数据处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108230131A true CN108230131A (zh) | 2018-06-29 |
Family
ID=62646339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711484315.8A Pending CN108230131A (zh) | 2017-12-29 | 2017-12-29 | 一种数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108230131A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784555A (zh) * | 2019-01-04 | 2019-05-21 | 广州中国科学院软件应用技术研究所 | 一种企业异常监测方法、装置及介质 |
CN109948851A (zh) * | 2019-03-20 | 2019-06-28 | 北京百度网讯科技有限公司 | 用于预测事件发生概率的方法和装置 |
CN111783829A (zh) * | 2020-05-29 | 2020-10-16 | 广发证券股份有限公司 | 一种基于多标签学习的财务异常检测方法及装置 |
CN113191784A (zh) * | 2021-04-23 | 2021-07-30 | 北京金堤征信服务有限公司 | 异常企业识别方法、装置、电子设备及存储介质 |
CN116245666A (zh) * | 2023-01-16 | 2023-06-09 | 广州尼森网络科技有限公司 | 一种基于数据处理的费用核算方法及系统 |
-
2017
- 2017-12-29 CN CN201711484315.8A patent/CN108230131A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784555A (zh) * | 2019-01-04 | 2019-05-21 | 广州中国科学院软件应用技术研究所 | 一种企业异常监测方法、装置及介质 |
CN109784555B (zh) * | 2019-01-04 | 2023-11-28 | 广州软件应用技术研究院 | 一种企业异常监测方法、装置及介质 |
CN109948851A (zh) * | 2019-03-20 | 2019-06-28 | 北京百度网讯科技有限公司 | 用于预测事件发生概率的方法和装置 |
CN111783829A (zh) * | 2020-05-29 | 2020-10-16 | 广发证券股份有限公司 | 一种基于多标签学习的财务异常检测方法及装置 |
CN113191784A (zh) * | 2021-04-23 | 2021-07-30 | 北京金堤征信服务有限公司 | 异常企业识别方法、装置、电子设备及存储介质 |
CN116245666A (zh) * | 2023-01-16 | 2023-06-09 | 广州尼森网络科技有限公司 | 一种基于数据处理的费用核算方法及系统 |
CN116245666B (zh) * | 2023-01-16 | 2023-09-19 | 广州尼森网络科技有限公司 | 一种基于数据处理的费用核算方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108230131A (zh) | 一种数据处理方法及装置 | |
Chen et al. | Business strategy and auditor reporting | |
Aleksanyan et al. | Economic and financial determinants of firm bankruptcy: evidence from the French food industry | |
Ayllón et al. | Product innovation, process innovation and export propensity: Persistence, complementarities and feedback effects in Spanish firms | |
US20070271198A1 (en) | Semi-quantitative risk analysis | |
Höglund | Tax payment default prediction using genetic algorithm-based variable selection | |
CN107437227A (zh) | 股票投资分析装置与方法 | |
Mavropulo et al. | Value-based management control systems and the dynamics of working capital: Empirical evidence | |
Colak et al. | On modeling IPO failure risk | |
Zohra et al. | Using Financial Ratios to Predict Financial Distress of Jordanian Industrial Firms-''Empirical Study Using Logistic Regression'' | |
Zhai et al. | A financial ratio-based predicting model for hotel business failure | |
KR102499182B1 (ko) | 인공지능을 이용한 가계대출 사기/부실 상시감사지원시스템 | |
TWI248007B (en) | Method for evaluating market trade based on trend prediction | |
Van Calster et al. | Profit-oriented sales forecasting: a comparison of forecasting techniques from a business perspective | |
US20200051175A1 (en) | Method and System for Predicting and Indexing Probability of Financial Stress | |
CN110084273A (zh) | 一种上市公司投资价值量化计算方法与装置 | |
Dvořáček et al. | Forecasting companies' future economic development | |
Szenes et al. | Modelling Corporate Probability of Default: A Possible Supervisory Benchmark Model | |
WO2022208583A1 (ja) | 与信支援システム、与信支援方法およびプログラム記録媒体 | |
Zhou | Predicting CDS Spreads and Stock Returns with Weather Risk: A Study Utilizing Nlp/Llm and Ai Measures | |
KR102499183B1 (ko) | 인공지능을 이용한 기업대출 사기/사기의심 상시감사지원시스템 | |
Arrighetti et al. | Swimming upstream throughout the turmoil: Evidence on firm growth during the Great Recession | |
Айтим et al. | DEVELOPMENT OF SYSTEMS FOR EFFECTIVE ESTIMATION OF CREDIT SCORES | |
Formisano et al. | The role of intangibles in improving the predictive ability of Internal Rating System | |
Podestá et al. | Agricultural decision making in the Argentine Pampas: Modeling the interaction between uncertain and complex environments and heterogeneous and complex decision makers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100070, No. 101-8, building 1, 31, zone 188, South Fourth Ring Road, Beijing, Fengtai District Applicant after: Guoxin Youyi Data Co., Ltd Address before: 100070, No. 188, building 31, headquarters square, South Fourth Ring Road West, Fengtai District, Beijing Applicant before: SIC YOUE DATA Co.,Ltd. |
|
CB02 | Change of applicant information | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180629 |
|
RJ01 | Rejection of invention patent application after publication |