CN113506160A - 一种面向不平衡财务文本数据的风险预警方法及系统 - Google Patents

一种面向不平衡财务文本数据的风险预警方法及系统 Download PDF

Info

Publication number
CN113506160A
CN113506160A CN202110672882.6A CN202110672882A CN113506160A CN 113506160 A CN113506160 A CN 113506160A CN 202110672882 A CN202110672882 A CN 202110672882A CN 113506160 A CN113506160 A CN 113506160A
Authority
CN
China
Prior art keywords
data
financial
text data
unbalanced
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110672882.6A
Other languages
English (en)
Inventor
王红
熊淑贤
程恩浩
宋曙光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN202110672882.6A priority Critical patent/CN113506160A/zh
Publication of CN113506160A publication Critical patent/CN113506160A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/125Finance or payroll
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Technology Law (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Mathematical Physics (AREA)
  • Operations Research (AREA)
  • Human Resources & Organizations (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本公开提供了一种面向不平衡财务文本数据的风险预警方法及系统,获取待处理的财务文本数据;根据获取的财务文本数据和预设评估模型,财务文本数据真实性评估结果;根据真实性评估结果与预设阈值的对比,进行财务数据的风险预警;其中,预设预测模型的训练过程中,对不平衡财务文本数据进行插值处理以使得正负样本数据的差异在预设范围内;本公开直接对获取的财务文本数据进行处理,实现了高效和准确的财务造假风险预警。

Description

一种面向不平衡财务文本数据的风险预警方法及系统
技术领域
本公开涉及文本数据处理技术领域,特别涉及一种面向不平衡财务文本数据的风险预警方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术,并不必然构成现有技术。
不同行业、不同规模的上市公司数量不断增加,然而近年来屡屡出现上市公司的财务数据造假和暴雷,甚至还出现了流动性危机及信用债违约等问题。面对上市公司多年的财务数据报告,专业投资者的任务就是考虑诸多相关因素,对数据指标进行筛选跟踪分析研究,判断上市公司财务数据是否稳定,识别真实性,避免投资踩雷。
发明人发现,现今普遍流行的财务数据风险预警方法是聘用经验丰富的会计对财务文本数据进行人工分析,但这种方法需要耗费大量的人力、物力、财力,准确性较差,且有一定滞后性;而且,针对财务系统的文本数据除表述方式存在差异性,在进行相应的大数据分析和处理时存在较大的误差。
发明内容
为了解决现有技术的不足,本公开提供了一种面向不平衡财务文本数据的风险预警方法及系统,直接对获取的财务文本数据进行处理,实现了高效和准确的财务风险预警。
为了实现上述目的,本公开采用如下技术方案:
本公开第一方面提供了一种面向不平衡财务文本数据的风险预警方法。
一种面向不平衡财务文本数据的风险预警方法,包括以下过程:
获取待处理的财务文本数据;
根据获取的财务文本数据和预设评估模型,财务文本数据真实性评估结果;
根据真实性评估结果与预设阈值的对比,进行财务数据的风险预警;
其中,预设预测模型的训练过程中,对不平衡财务文本数据进行插值处理以使得正负样本数据的差异在预设范围内。
进一步的,预设预测模型的训练过程中,对不平衡财务文本数据进行筛选,包括以下过程:
根据获取的财务文本数据得到财务文本数据中的特征数据,当某个特征缺失的样本数量占比大于第一阈值时,将该特征舍弃;当某个特征缺失的样本数量占比在第二阈值与第一阈值之间时,将该特征对应的数据全部用均值填补;当某个特征数据缺失的样本数量占比小于第二阈值时,将该特征对应的数据用随机森林算法填补。
进一步的,用随机森林算法填补,包括以下过程:
选择数据的中位数或众数作为当前的估计值;
使用填补后的数据集训练随机森林模型,记录每一组数据在决策树中的分类路径;
建立一个相似度矩阵,根据分类路径计算数据之间的相似度,用相似度矩阵加权求均值作为新的估计值;
迭代预设次数后,得到最后的估计值。
进一步的,对不平衡财务文本数据进行插值处理,包括以下过程:
对于少数类中一个样本a,以欧氏距离为标准,计算它到少数类样本集中所有样本的距离,得到它的k个近邻;
对于少数类样本a,从其k近邻中随机选择一个样本b;
对于选出的近邻b,生成一个0到1之间的随机数ζ,合成一个新样本c;其中,合成公式为:c=a+ζ·|b-a|;
重复进行上述步骤,直到正负样本数量差异在预设范围内。
进一步的,预设预测模型,包括两层,第一层选择K近邻算法、随机森林、支持向量机、Easy Ensemble和Balanced Bagging Classifier这5个基本分类器作为基学习器,第二层采用简单模型决策树作为元学习器。
更进一步的,对每个基学习器进行五折交叉验证,每次交叉验证对训练集测试数据进行预测得到结果a,对测试集数据进行预测得到结果b,将a按行合并得到该基学习器对训练集的预测结果A,将b按列相加取平均得到该基学习器对测试集的预测结果B,按列合并所有的A作为第二层模型的训练集数据,按列合并所有的B作为第二层模型的测试集数据,并以原始集的标签作为新生成数据集的标签。
进一步的,预设预测模型的训练过程,包括:
将筛选后的文本数据按预设比例划分为训练集和测试集;
将训练集不重复抽样随机分为多份;
挑选其中一份作为测试数据,剩余作为训练数据用于训练第一层模型的基学习器;
对于第一层模型中的基学习器,K近邻算法和随机森林模型在训练前进行不平衡数据处理,支持向量机、Easy Ensemble和Balanced Bagging Classifier通过设置相应参数自适应样本不平衡;
重复上述步骤,使得每个子集都有一次循环作为测试数据,其余循环作为训练数据;
将每个循环中每个训练好的基学习器对测试数据的测试结果合并,得到该基学习器对整个训练集的预测值,再将各个基学习器得到的预测值按列合并,作为第二层模型的训练集,其真实值仍为原训练集的真实值;
将每个循环中每个训练好的基学习器对测试集的测试结果按列相加取均值,得到该基学习器对测试集的预测值,再将各个基学习器得到的预测值按列合并,作为第二层模型的测试集,其真实值仍为原测试集的真实值;
用得到的训练集对第二层模型进行训练,用得到的测试集进行测试。
本公开第二方面提供了一种面向不平衡财务文本数据的风险预警系统。
一种面向不平衡财务文本数据的风险预警系统,包括:
数据获取模块,被配置为:获取待处理的财务文本数据;
真实性评估模块,被配置为:根据获取的财务文本数据和预设评估模型,财务文本数据真实性评估结果;
风险预警模块,被配置为:根据真实性评估结果与预设阈值的对比,进行财务数据的风险预警;
其中,预设预测模型的训练过程中,对不平衡财务文本数据进行插值处理以使得正负样本数据的差异在预设范围内。
本公开第三方面提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本公开第一方面所述的面向不平衡财务文本数据的风险预警方法中的步骤。
本公开第四方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开第一方面所述的面向不平衡财务文本数据的风险预警方法中的步骤。
与现有技术相比,本公开的有益效果是:
本公开所述的方法、系统、介质或电子设备,采用大量企业财务文本数据,通过财务数据筛选、数据不平衡处理和预测模型融合,得到评估模型,再将待检测的财务文本数据输入到评估模型中,根据评估结果与预设阈值的对比,进行财务数据的风险预警,实现了财务数据造假高效、专业、自动化的分析判断。
本公开附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本公开实施例1提供的财务文本数据风险预警模型的ROC曲线。
图2为本公开实施例1提供的Stacking中五折交叉验证过程示意图。
图3为本公开实施例1提供的基于Stacking集成学习的财务文本数据风险预警模型构造过程示意图。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
实施例1:
如图1-3所示,本公开实施例1提供了一种面向不平衡财务文本数据的风险预警方法,包括以下过程:
获取待处理的财务文本数据;
根据获取的财务文本数据和预设评估模型,财务文本数据真实性评估结果;
根据真实性评估结果与预设阈值的对比,进行财务数据的风险预警。
预设评估模型的训练,包括以下过程:
S1:财务文本数据筛选;
S2:数据不平衡处理;
S3:预测模型融合。
S1中,对于获得的企业财务数据,进行特征提取,得到各项指标数据特征因子,当特征数据缺失的企业样本数量占比大于50%时,将该特征因子舍弃;当特征数据缺失的企业样本数量占比在25%至50%时,将该特征因子对应的企业数据全部用均值填补;当特征数据缺失的企业样本数量占比小于25%时,将该特征因子对应的企业数据用随机森林算法填补。
其中,随机森林算法(Random Forest)是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,对于分类问题来说,每棵决策树都是一个分类器,对一个输入样本,N棵树会有N个分类结果,而随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出,是一种简单的Bagging思想。
用随机森林算法填补缺失值的基本步骤为:
1)选择其余数据的中位数或众数作为当前的估计值;
2)使用填补后的数据集训练随机森林模型,记录每一组数据在决策树中的分类路径;
3)建立一个相似度矩阵,根据分类路径计算数据之间的相似度,用相似度矩阵加权求均值作为新的估计值;
4)迭代4~6次,得到稳定的估计值。
S2中,规定财务文本数据存在风险的样本为正样本,因财务文本数据存在风险的企业数量远远小于不存在风险的企业数量,故正样本为少数类,且正负样本比例悬殊,所以我们要对数据进行插值处理,使正负样本数据维持在合理的比例。
处理的具体步骤为:
1)对于少数类中一个样本a,以欧氏距离为标准,计算它到少数类样本集中所有样本的距离,得到它的k个近邻;其中,欧氏距离计算公式为:
Figure BDA0003119431710000071
2)对于少数类样本a,从其k近邻中随机选择一个样本b;
3)对于选出的近邻b,再生成一个0到1之间的随机数ζ,从而合成一个新样本c;其中,合成公式为:
c=a+ζ·|b-a|。
4)重复进行上述步骤,直到正负样本数量相近。
S3中,使用Stacking树行计算方法进行集成学习构造财务文本数据风险预警模型,模型分为两层,第一层选择K近邻算法(KNN)、随机森林(Random Forest)、支持向量机(SVM)、EasyEnsemble、BalancedBaggingClassifier作为基学习器,第二层采用简单模型决策树(Decision Tree)作为元学习器。通过融合多个预测模型,增强系统的泛化能力,提高预测的准确性。
具体步骤为:
1)将经过财务数据筛选处理的数据集按7:3划分为训练集和测试集;
2)将训练集不重复抽样随机分为5份;
3)挑选其中一份作为测试数据,剩余4分作为训练数据用于训练第一层模型的基学习器;
4)对于第一层模型中的基学习器,其中K近邻算法(KNN)、随机森林(RandomForest)模型在训练前要通过数据不平衡处理对训练数据进行处理,支持向量机(SVM)、EasyEnsemble、BalancedBaggingClassifier则通过设置相应参数自适应处理样本不平衡问题;
5)重复第3-4步5次,使得每个子集都有一次循环作为测试数据,其余循环作为训练数据;
6)将每个循环中每个训练好的基学习器对测试数据的测试结果a按行合并,得到该基学习器对整个训练集的预测值A,再将各个基学习器得到的预测值A按列合并,作为第二层模型的训练集,其真实值仍为原训练集的真实值;
7)将每个循环中每个训练好的基学习器对测试集的测试结果b按列相加取均值,得到该基学习器对测试集的预测值B,再将各个基学习器得到的预测值B按列合并,作为第二层模型的测试集,其真实值仍为原测试集的真实值;
8)用第6步得到的训练集对第二层模型进行训练,并测试第7步得到的测试集,对构造好的财务文本数据风险预警模型进行评估。
其中,K近邻算法(KNN)是通过测量不同特征值之间的距离进行分类,思路是:如果一个样本在特征空间中的k个最相似的样本中的大多数属于某一个类别,则该样本也属于这个类别,其中K通常是不大于20的整数。
随机森林算法(Random Forest)是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,对于分类问题来说,每棵决策树都是一个分类器,对一个输入样本,N棵树会有N个分类结果,而随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出,是一种简单的Bagging思想。
支持向量机(SVM)一种二分类模型,它的基本类型是定义在特征空间上的间隔最大的线性分类器,学习策略是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。
Easy Ensemble是一种有效的不均衡数据分类方法,将多数类样本随机分成多个子集,每个子集分别与少数类合并,得到多个新的训练子集,并利用每个训练子集训练一个AdaBoost基分类器,最后集成所有基分类器,得到最终的分类器。
Balanced Bagging Classifier允许在训练每个基学习器之前对每个子集进行重抽样,结合了Easy Ensemble采样器与分类器(Bagging Classifier)。
决策树(Decision Tree)是一种树形结构,常用于数据领域的分类和回归,在机器学习中,属于监督学习,是一种流行预测模型。对于复杂的预测问题,通过建立树模型产生分支节点,被划分成两个或多个较为简单的子集,从结构上划分为不同的子问题。
本实施例能通过统计分析处理去掉多数企业无法获得的数据特征指标,填补数值部分缺失指标特征,该方法使用边界上的少数财务文本数据风险样本合成多个新样本,平衡财务文本数据的正负样本比例,该方法使用Stacking树行计算方法进行集成学习,将待检测的企业财务数据输入财务文本数据的风险预警模型,实现财务数据高效、专业、自动化的分析判断。
下面采用具体案例进行分析:
本实施例采用网络爬取的2013-2018年制造业多个企业各项财务数据为原始数据集,通过对2019年这些企业财务文本数据的风险预警,对本系统的作业流程进行阐述,其中,数据集中有11310行数据,每条数据有363个特征,分别记录企业的股票代码、营业周期、会计区间、商誉、借贷、各项收支、各种资产等,其中最后一个特征代表该企业当年财务数据是否存在风险。
首先,使用财务数据筛选,统计分析处理得到的所有指标,发现共255个特征有50%以上的企业丢失对应特征数据,丢掉这些特征;继续分析,发现共19个特征丢失对应数据的企业数量占比25%~50%,用这些特征各自对应均值填充;继续分析,发现共74个特征丢失对应数据的企业数量占比0~25%,用随机森林算法填充。筛选后的数据集共11310个样本数据,89个特征。
随机森林算法填充步骤为:
1)选择其余该特征下数据的众数作为当前的估计值;
2)使用填补后的数据集训练随机森林模型,记录每一组数据在决策树中的分类路径;
3)建立一个相似度矩阵,根据分类路径计算数据之间的相似度,用相似度矩阵加权求均值作为新的估计值;
4)迭代4~6次,得到稳定的估计值;
5)重复上述步骤,直到74个特征全部填充完毕。
进一步的,数据不平衡处理,使用边界上的少数财务文本数据样本来合成多个新样本,从而改善样本的类别分布,平衡因财务文本数据风险的企业样本数量远远小于财务文本数据无风险的企业样本数量造成的正负样本比例悬殊问题;
进一步的,预测模型融合,通过Stacking树行计算方法进行集成学习,利用2013-2018年制造业多个企业各项财务数据训练财务文本数据风险预警模型,模型分为两层,第一层选择K近邻算法(KNN)、随机森林(Random Forest)、支持向量机(SVM)、Easy Ensemble、Balanced Bagging Classifier作为基学习器,第二层采用简单模型决策树(DecisionTree)作为元学习器。
具体步骤为:
1)将经过财务数据筛选处理的数据集按7:3划分为训练集和测试集;
2)将训练集不重复抽样随机分为5份;
3)挑选其中一份作为测试数据,剩余4分作为训练数据用于训练第一层模型的基学习器;
4)对于第一层模型中的基学习器,其中K近邻算法(KNN)、随机森林(RandomForest)模型在训练前要通过数据不平衡处理对训练数据进行处理,支持向量机(SVM)、Easy Ensemble、Balanced Bagging Classifier则通过设置相应参数自适应处理样本不平衡问题;
5)重复第3-4步5次,使得每个子集都有一次循环作为测试数据,其余循环作为训练数据;
6)将每个循环中每个训练好的基学习器对测试数据的测试结果合并,得到该基学习器对整个训练集的预测值,再将各个基学习器得到的预测值按列合并,作为第二层模型的训练集,其真实值仍为原训练集的真实值;
7)将每个循环中每个训练好的基学习器对测试集的测试结果按列相加取均值,得到该基学习器对测试集的预测值,再将各个基学习器得到的预测值按列合并,作为第二层模型的测试集,其真实值仍为原测试集的真实值;
8)用步骤6)得到的训练集对第二层模型进行训练,并测试步骤7)得到的测试集,对构造好的财务文本数据风险预警模型进行评估。
评估结果为:
Figure BDA0003119431710000121
实施例2:
本公开实施例2提供了一种面向不平衡财务文本数据的风险预警系统,包括:
数据获取模块,被配置为:获取待处理的财务文本数据;
真实性评估模块,被配置为:根据获取的财务文本数据和预设评估模型,财务文本数据真实性评估结果;
风险预警模块,被配置为:根据真实性评估结果与预设阈值的对比,进行财务数据的风险预警;
其中,预设预测模型的训练过程中,对不平衡财务文本数据进行插值处理以使得正负样本数据的差异在预设范围内。
实施例3:
本公开实施例3提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本公开实施例1所述的面向不平衡财务文本数据的风险预警方法中的步骤。
实施例4:
本公开实施例4提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开实施例1所述的面向不平衡财务文本数据的风险预警方法中的步骤。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种面向不平衡财务文本数据的风险预警方法,其特征在于:包括以下过程:
获取待处理的财务文本数据;
根据获取的财务文本数据和预设评估模型,财务文本数据真实性评估结果;
根据真实性评估结果与预设阈值的对比,进行财务数据的风险预警;
其中,预设预测模型的训练过程中,对不平衡财务文本数据进行插值处理以使得正负样本数据的差异在预设范围内。
2.如权利要求1所述的面向不平衡财务文本数据的风险预警方法,其特征在于:
预设预测模型的训练过程中,对不平衡财务文本数据进行筛选,包括以下过程:
根据获取的财务文本数据得到财务文本数据中的特征数据,当某个特征缺失的样本数量占比大于第一阈值时,将该特征舍弃;当某个特征缺失的样本数量占比在第二阈值与第一阈值之间时,将该特征对应的数据全部用均值填补;当某个特征数据缺失的样本数量占比小于第二阈值时,将该特征对应的数据用随机森林算法填补。
3.如权利要求1所述的面向不平衡财务文本数据的风险预警方法,其特征在于:
用随机森林算法填补,包括以下过程:
选择数据的中位数或众数作为当前的估计值;
使用填补后的数据集训练随机森林模型,记录每一组数据在决策树中的分类路径;
建立一个相似度矩阵,根据分类路径计算数据之间的相似度,用相似度矩阵加权求均值作为新的估计值;
迭代预设次数后,得到最后的估计值。
4.如权利要求1所述的面向不平衡财务文本数据的风险预警方法,其特征在于:
对不平衡财务文本数据进行插值处理,包括以下过程:
对于少数类中一个样本a,以欧氏距离为标准,计算它到少数类样本集中所有样本的距离,得到它的k个近邻;
对于少数类样本a,从其k近邻中随机选择一个样本b;
对于选出的近邻b,生成一个0到1之间的随机数ζ,合成一个新样本c;其中,合成公式为:c=a+ζ·|b-a|;
重复进行上述步骤,直到正负样本数量差异在预设范围内。
5.如权利要求1所述的面向不平衡财务文本数据的风险预警方法,其特征在于:
预设预测模型,包括两层,第一层选择K近邻算法、随机森林、支持向量机、EasyEnsemble、Balanced Bagging Classifier这5个基本分类器作为基学习器,第二层采用简单模型决策树作为元学习器。
6.如权利要求5所述的面向不平衡财务文本数据的风险预警方法,其特征在于:
对每个基学习器进行五折交叉验证,每次交叉验证对训练集测试数据进行预测得到结果a,对测试集数据进行预测得到结果b,将a按行合并得到该基学习器对训练集的预测结果A,将b按列相加取平均得到该基学习器对测试集的预测结果B,按列合并所有的A作为第二层模型的训练集数据,按列合并所有的B作为第二层模型的测试集数据,并以原始集的标签作为新生成数据集的标签。
7.如权利要求1所述的面向不平衡财务文本数据的风险预警方法,其特征在于:
预设预测模型的训练过程,包括:
将筛选后的文本数据按预设比例划分为训练集和测试集;
将训练集不重复抽样随机分为多份;
挑选其中一份作为测试数据,剩余作为训练数据用于训练第一层模型的基学习器;
对于第一层模型中的基学习器,K近邻算法和随机森林模型在训练前进行不平衡数据处理,支持向量机、Easy Ensemble和Balanced Bagging Classifier通过设置相应参数自适应样本不平衡;
重复上述步骤,使得每个子集都有一次循环作为测试数据,其余循环作为训练数据;
将每个循环中每个训练好的基学习器对测试数据的测试结果合并,得到该基学习器对整个训练集的预测值,再将各个基学习器得到的预测值按列合并,作为第二层模型的训练集,其真实值仍为原训练集的真实值;
将每个循环中每个训练好的基学习器对测试集的测试结果按列相加取均值,得到该基学习器对测试集的预测值,再将各个基学习器得到的预测值按列合并,作为第二层模型的测试集,其真实值仍为原测试集的真实值;
用得到的训练集对第二层模型进行训练,用得到的测试集进行测试。
8.一种面向不平衡财务文本数据的风险预警系统,其特征在于:包括:
数据获取模块,被配置为:获取待处理的财务文本数据;
真实性评估模块,被配置为:根据获取的财务文本数据和预设评估模型,财务文本数据真实性评估结果;
风险预警模块,被配置为:根据真实性评估结果与预设阈值的对比,进行财务数据的风险预警;
其中,预设预测模型的训练过程中,对不平衡财务文本数据进行插值处理以使得正负样本数据的差异在预设范围内。
9.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的面向不平衡财务文本数据的风险预警方法中的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的面向不平衡财务文本数据的风险预警方法中的步骤。
CN202110672882.6A 2021-06-17 2021-06-17 一种面向不平衡财务文本数据的风险预警方法及系统 Pending CN113506160A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110672882.6A CN113506160A (zh) 2021-06-17 2021-06-17 一种面向不平衡财务文本数据的风险预警方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110672882.6A CN113506160A (zh) 2021-06-17 2021-06-17 一种面向不平衡财务文本数据的风险预警方法及系统

Publications (1)

Publication Number Publication Date
CN113506160A true CN113506160A (zh) 2021-10-15

Family

ID=78010114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110672882.6A Pending CN113506160A (zh) 2021-06-17 2021-06-17 一种面向不平衡财务文本数据的风险预警方法及系统

Country Status (1)

Country Link
CN (1) CN113506160A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114358908A (zh) * 2022-01-07 2022-04-15 电子科技大学 Ai驱动的协作企业多维信用特征提取与评价方法
CN116503026A (zh) * 2023-06-26 2023-07-28 广东省科技基础条件平台中心 科技项目的运维风险评估方法、系统及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013080456A (ja) * 2011-09-21 2013-05-02 Norihide Noda 企業評価システム、企業評価方法及び企業評価プログラム
CN106611375A (zh) * 2015-10-22 2017-05-03 北京大学 一种基于文本分析的信用风险评估方法及装置
CN110689437A (zh) * 2019-10-08 2020-01-14 湖北电信工程有限公司 一种基于随机森林的通信施工项目财务风险预测方法
CN112419030A (zh) * 2020-11-30 2021-02-26 北京安九信息技术有限公司 财务舞弊风险评估的方法、系统及设备
CN112685396A (zh) * 2020-12-30 2021-04-20 平安普惠企业管理有限公司 财务数据违规检测方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013080456A (ja) * 2011-09-21 2013-05-02 Norihide Noda 企業評価システム、企業評価方法及び企業評価プログラム
CN106611375A (zh) * 2015-10-22 2017-05-03 北京大学 一种基于文本分析的信用风险评估方法及装置
CN110689437A (zh) * 2019-10-08 2020-01-14 湖北电信工程有限公司 一种基于随机森林的通信施工项目财务风险预测方法
CN112419030A (zh) * 2020-11-30 2021-02-26 北京安九信息技术有限公司 财务舞弊风险评估的方法、系统及设备
CN112685396A (zh) * 2020-12-30 2021-04-20 平安普惠企业管理有限公司 财务数据违规检测方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王泽珺: "基于集成学习的A股制造业公司财务困境预测", 中国优秀硕士学位论文全文数据库(电子期刊), no. 2020, 15 March 2020 (2020-03-15), pages 7 - 8 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114358908A (zh) * 2022-01-07 2022-04-15 电子科技大学 Ai驱动的协作企业多维信用特征提取与评价方法
CN114358908B (zh) * 2022-01-07 2023-04-07 电子科技大学 Ai驱动的协作企业多维信用特征提取与评价方法
CN116503026A (zh) * 2023-06-26 2023-07-28 广东省科技基础条件平台中心 科技项目的运维风险评估方法、系统及存储介质
CN116503026B (zh) * 2023-06-26 2024-02-09 广东省科技基础条件平台中心 科技项目的运维风险评估方法、系统及存储介质

Similar Documents

Publication Publication Date Title
TWI789345B (zh) 機器學習模型的建模方法及裝置
CN110852856B (zh) 一种基于动态网络表征的发票虚开识别方法
CN107273387A (zh) 面向高维和不平衡数据分类的集成
CN110991474A (zh) 一种机器学习建模平台
CN113506160A (zh) 一种面向不平衡财务文本数据的风险预警方法及系统
CN109886284B (zh) 基于层次化聚类的欺诈检测方法及系统
CN113256409A (zh) 基于机器学习的银行零售客户流失预测方法
CN112270596A (zh) 基于用户画像构建的风险控制系统及方法
Zhang et al. Improving prediction accuracy for logistic regression on imbalanced datasets
CN103780588A (zh) 数字家庭网络中用户异常行为检测方法
CN111340086A (zh) 无标签数据的处理方法、系统、介质及终端
CN111143685A (zh) 一种推荐系统的构建方法及装置
Kotanchek et al. Symbolic regression via genetic programming as a discovery engine: Insights on outliers and prototypes
CN111046947B (zh) 分类器的训练系统及方法、异常样本的识别方法
CN114723554B (zh) 异常账户识别方法及装置
Di Martino et al. A novel framework for nontechnical losses detection in electricity companies
CN113256304B (zh) 一种校园卡异常使用行为在线预警方法及系统
CN114066173A (zh) 资金流动行为分析方法及存储介质
Basha et al. Enhancing red wine quality prediction through Machine Learning approaches with Hyperparameters optimization technique
CN113222177A (zh) 模型迁移方法、装置及电子设备
Himani et al. A comparative study on machine learning based prediction of citations of articles
JP2017091083A (ja) 情報処理装置、情報処理方法、およびプログラム
Yao Feature selection based on SVM for credit scoring
Leonardi et al. Applying machine learning to high-quality wine identification
Pudil et al. Identification of Corporate Competitiveness Factors-Comparing Different Approaches

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination