CN111222769A - 一种年报数据质量评价方法、装置、电子设备及存储介质 - Google Patents
一种年报数据质量评价方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111222769A CN111222769A CN201911392798.8A CN201911392798A CN111222769A CN 111222769 A CN111222769 A CN 111222769A CN 201911392798 A CN201911392798 A CN 201911392798A CN 111222769 A CN111222769 A CN 111222769A
- Authority
- CN
- China
- Prior art keywords
- data
- abnormal
- machine learning
- annual report
- enterprise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 32
- 230000002159 abnormal effect Effects 0.000 claims abstract description 89
- 238000010801 machine learning Methods 0.000 claims abstract description 37
- 238000001514 detection method Methods 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000003064 k means clustering Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000006872 improvement Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000007847 structural defect Effects 0.000 description 1
- 230000029305 taxis Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/259—Fusion by voting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Entrepreneurship & Innovation (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Educational Administration (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Development Economics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- General Factory Administration (AREA)
Abstract
本发明涉及数据质量评价技术领域,具体涉及一种年报数据质量评价方法、装置、电子设备及存储介质,该方法包括以下步骤:对获取的企业年报数据进行标准化处理,得到标准化数据;将标准化数据输入由多种异常值检测算法构成的机器学习模型中识别相应的异常值;根据异常值对企业年报数据中相应的数据指标进行投票,若某一数据指标被两个及两个以上的异常值检测算法识别出异常而进行投票,则记录数据指标所关联的企业的异常得分,汇总企业所有数据指标的异常得分,得到企业的总异常得分,本发明实施例采用由多种异常值检测算法构成的机器学习模型集中投票的方式判定,不存在人的主观因素的影响,评价结果准确。
Description
技术领域
本发明涉及数据质量评价技术领域,具体涉及一种年报数据质量评价方法、装置、电子设备及存储介质。
背景技术
2014年10月1日我国正式实施企业年报公示制度,明确规定企业应当依法按时年报。企业年报内容涵盖了企业的资产、运营、税务、行政奖惩等大量数据信息,若能够将企业的年报数据加以科学合理的分析运用,既能为促进经济社会发展提供决策参考,也是政府部门监管能力的集中体现。但是,在年报工作推进过程中发现,尚有部分企业由于经营管理上不够规范、人员流动或交接不到位、财务管理混乱等原因导致年报信息往往随便填写,大大降低了企业年报数据的质量。因此,提供一种可靠的年报数据质量评价方法,对政府经济决策及政府精准监管无疑具有重要意义。
现行的数据质量评价方法主要包括AHP层次分析法、缺陷扣分法等。AHP层次分析法首先将复杂的问题分解成若干层次,建立阶梯层次结构,然后构成判断矩阵,进行单排序一致性检验,最后进行层次总排序和一致性检验,得出结果,该方法的核心是对评价对象进行优劣排序、评价和选择,从而为评价主体提供定量形式的评价依据,具有高度的简明性、有效性、可靠性和广泛的适用性。缺陷扣分法是通过把握评价对象的结构缺陷进行判断的方法,通过计算单位产品的得分值,然后由单位产品的得分值来评价信息质量,其特点是操作简便。
发明人在实践中,发现上述现有技术存在以下缺陷:
AHP层次分析法主要表现在其结果只是针对准则层中的要素,人的主观判断对结果的影响较大,同时,该方法运用具有一定的滞后性,不适用于频繁进行的数据质量评价活动。缺陷扣分法在实际操作中,缺陷扣分跨越太大,评价结果较粗糙,容易偏激。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种年报数据质量评价方法、装置、电子设备及存储介质,所采用的技术方案具体如下:
第一方面,本发明实施例提供了一种年报数据质量评价方法,该检测方法包括以下步骤:
对获取的企业年报数据进行标准化处理,得到标准化数据;
将所述标准化数据输入由多种异常值检测算法构成的机器学习模型中识别相应的异常值;
根据所述异常值对所述企业年报数据中相应的数据指标进行投票,若某一数据指标被两个及两个以上的异常值检测算法识别出异常而进行投票,则记录所述数据指标所关联的企业的异常得分,汇总所述企业所有数据指标的异常得分,得到所述企业的总异常得分。
第二方面,本发明实施例提供了一种年报数据质量评价装置,该装置包括:
预处理模块,用于对获取的企业年报数据进行标准化处理,得到标准化数据;
识别模块,用于将所述标准化数据输入由多种异常值检测算法构成的机器学习模型中识别相应的异常值;
评分模块,用于根据所述异常值对所述企业年报数据中相应的数据指标进行投票,若某一数据指标被两个及两个以上的异常值检测算法识别出异常而进行投票,则记录所述数据指标所关联的企业的异常得分,汇总所述企业所有数据指标的异常得分,得到所述企业的总异常得分。
第三方面,本发明实施例提供了一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:执行上述任意一项所述的方法。
第四方面,本发明实施例提供了一种存储介质,该存储介质中存储有计算机可读的程序指令,其特征在于,所述程序指令被处理器执行时实现上述任意一项所述的方法。
本发明具有如下有益效果:
由于本发明实施例所提供的技术方案采用由多种异常值检测算法构成的机器学习模型,并且通过集中投票的方式判定,不存在人的主观因素的影响,并且评价结果是综合多种异常值检测算法所得到的结果,评价结果准确,并且不容易偏激。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种年报数据质量评价方法流程图;
图2为双变量boxplot离群值模型的箱线图;
图3为Autoencoder自编码模型的结构示意图;
图4为本发明另一个实施例所提供的一种年报数据质量评价方法流程图;
图5为本发明另一个实施例所提供的一种年报数据质量评价装置的结构框图;
图6为关于反馈模块的结构框图;
图7是本发明实施例提供的一种终端设备的结构示意图;
图8是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种年报数据质量评价方法、装置、电子设备及存储介质,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的属于只是为了描述具体的实施例的目的,不是旨在于限制本发明。
下面结合附图具体的说明本发明所提供的一种年报数据质量评价方法、装置、电子设备及存储介质的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种年报数据质量评价方法流程图,为了解决现有分析方法中的不足,本发明实施例通过由多种异常值检测算法构成的机器学习模型同时对企业年报数据进行识别,然后通过集成投票的方式判定企业年报数据的异常得分,根据该异常得分来评价年报的数据质量。具体的,该年报数据质量评价方法包括以下步骤:
步骤S001,对获取的企业年报数据进行标准化处理,得到标准化数据。
企业年报数据包括企业基本信息、经营信息、社保信息和纳税信息等,其中企业基本信息包括企业名称、企业通信地址、出资时间、出资额等;经营信息包括资产总额、负债总额、所有者权益、营业收入;社保信息包括参保人数、单位缴费基数、单位累计欠缴金额等;纳税信息包括纳税总额等数据信息。
标准化处理是指对相应的财务数据进行归一化处理。样本不同属性具有不同量级的影响包括量级较大的属性占据主导地位、迭代收敛速度减慢和依赖于样本距离的算法对于数据的数量级非常敏感,因此需要通过标准化处理消除数量级的差异所造成的影响。
具体到本实施例中,其归一化处理的方式为:对于每个属性,假设属性A 的最小值和最大值分别用minA和maxA表示,将属性A的一个原始值x通过 min-max标准化映射成在区间[0,1]中的新数据x',其映射公式为:x'=(x-minA) /(maxA-minA)。
步骤S002,将步骤S001得到的标准化数据输入由多种异常值检测算法构成的机器学习模型中识别相应的异常值。
在机器学习中,异常值检测算法包括多种类型,具体到本实施例中,该异常值检测算法包括四种大数据算法:双变量boxplot离群值识别方法、Cook距离模型识别异常值、K均值聚类模型识别异常值和基于人工神经网络的Autoencoder 自编码模型识别异常值。具体的,该四种大数据算法模型的具体构建过程分别如下:
a.双变量boxplot离群值模型的构建
(1)计算中位数、下四分位数Q1和上四分位数Q3。箱线图的两端分别位于下和上四分位数上。
(2)在箱子中位数的位置画一条垂直线。
(3)四分位距(Inter Quartile Range,a.k.a IQR)是上四分位数和下四分位数的差,用四分位数全距IQR=Q3-Q1,确定限制线的位置。箱线图的上、下限制线分别在比Q1低1.5(IQR)和比Q3高1.5(IQR)的位置上。
请参阅图2,通过箱线图来检测离群点,给定一个连续变量后,离群值为超出1.5倍四分位距的观测点,也即位于上、下限制线以外的点。
b.Cook距离模型的构建
仅凭一个特征就判定一个观测值是离群点并不严谨,利用多个特征的信息来判断是否是离群值会更严谨。Cook距离能够衡量一个给定的回归模型是否只受单个变量的影响。
Cook距离的计算公式如下:
Cook距离会极端每一个数据点对预测结果的影响。对于每个观测值i,Cook 距离会衡量包含i与不包含i时,Y的拟合值的变化,进而获得i对拟合结果的影响。
在该模型中,离群点是指Cook距离大于1的点,则将该离群点所对应的观测值为异常值。
c.K均值聚类算法的构建
(1)首先将企业年报中的数值型变量进行标准化处理;
(2)接着对标准化后的数据进行K均值聚类算法,根据数据量大小以及经验将数据聚为2类。其中,K均值聚类算法的步骤包括:首先从n个数据对象中任意选择k个对象作为初始聚类中心;将除了初始聚类中心之外的数据对象称为剩余数据对象,根据剩余数据对象与这k个初始聚类中心的相似度,将剩余数据对象分别分配给与其最相似的初始聚类中心进行聚类;然后再计算每个所获新聚类的聚类中心;不断重复这一过程直到标准测度函数开始收敛为止。
(3)鉴于只有小部分数据是问题数据,可以得出,第1类数据为正常数据,第2类数据是异常数据。
d.Autoencoder自编码模型的构建
(1)给定无标签数据,用非监督学习学习特征。
如图3所示,图中input表示数据的输入、encoder表示编码器、code表示输入的一个表示、decoder表示解码器、reconstruction表示input的重建、Error表示重建数据和input的重构误差。
将input输入encoder得到code,通过调整encoder和decoder的参数,使得 Error最小,进而得到输入的第一个表达,也即code。
因为是无标签数据,所以重构误差的来源就是直接重构后与原输入相比得到。
(2)通过编码器产生特征,然后训练下一层,完成逐层训练。
由于重构误差最小,因此步骤(1)中所获得的code就是原输入信号的良好表达。然后将第一层输出的code当成第二层的输入信号,同样最小化重构误差,就会得到第二层的参数,并且得到第二层输入的code,也就是原输入的第二个表达。其他层就同样的方法炮制即可。
Autoencoder是一种无监督的学习算法,是神经网络的一种,经过训练后能尝试将输入复制到输出。自编码器内部有一个隐藏层h,可以产生编码code表示输入。该网络可以看作由两部分组成:一个由函数h=f(x)表示的编码器和一个生成重构的解码器r=g(h)。自编码器是一个3层或者大于3层的神经网络,将输入表达X编码为一个新的表达Y,然后再将Y解码回X。
由这四种异常值检测算法构建的机器学习模型,需要根据训练集中的样本进行训练,在训练的过程中优化机器学习模型参数。
步骤S003,根据异常值对企业年报数据中相应的数据指标进行投票,若某一数据指标被两个及两个以上的异常值检测算法识别出异常而进行投票,则记录数据指标所关联的企业的异常得分,汇总企业所有数据指标的异常得分,得到企业的总异常得分。
具体的,最后进行集成投票,若企业的某一个指标数据被两个及两个以上的异常值检测算法识别出异常,则认为该数据为异常值,对该企业记1分,根据企业的数据指标判别结果,就会得出企业的总异常分值,该企业所有年报数据中,被识别出异常的数据个数,就是该企业的异常得分。
综上所述,本发明实施例提供了一种年报数据质量评价方法,该评价方法利用由多种异常值检测算法构成的机器学习模型对企业年报数据汇总的异常值进行检测并投票,在两种以上的异常值检测算法识别出某一项数据指标存在异常时,则记录相应的总异常得分,根据该总异常得分判定年报数据的质量。由于本发明实施例所提供的技术方案采用由多种异常值检测算法构成的机器学习模型,并且通过集中投票的方式判定,不存在人的主观因素的影响,并且评价结果是综合多种异常值检测算法所得到的结果,评价结果准确,并且不容易偏激。
优选的,请参阅图4,在进行数据预处理以及模型构建之后还包括模型评估和模型改进的步骤,该模型评估包括根据同环比进行评估。此处所指的数据预处理包括对数据进行标准化处理的步骤。也就是说在步骤S002之后还包括同环比评估步骤:判断企业年报数据的某一数据指标的同环比是否在合理区间;具体到本实施例中,同环比判断的标准为以100倍以内为合理区间,100倍以外为异常。若利用同环比判别出的年报数据的异常企业数量大于机器学习模型识别出来的数量,则执行模型改进步骤,该模型改进是指通过适当调整机器学习模型参数和 /或增加训练集样本数量的方法,进一步优化机器学习模型,以达到提高模型识别准确性的目的。
优选的,请参阅图4,在其他实施例中,同理,在进行数据预处理以及模型构建之后还包括模型评估和模型改进的步骤,该模型评估包括根据逻辑判断评估。在步骤S002之后还包括逻辑判断评估步骤:利用业务逻辑来验证模型的准确性,具体的,业务逻辑包括所有者权益合计=资产总额-负债总额、负债总额>=0、主营业务收入=营业总收入-其他业务收入、净利润=利润总额-纳税总额等。如果利用业务逻辑判别出的年报数据的异常企业数量大于机器学习模型识别出来的数量,则执行模型改进步骤,该模型改进是指通过适当调整机器学习模型参数和/ 或增加训练集样本数量的方法,进一步优化机器学习模型,以达到提高模型识别准确性的目的。
优选的,在步骤S001之前还包括将企业的年报数据进行分类,在进行数据采集获得企业年报数据之后,对企业年报数据进行分类,分类规则为根据行业、资本规模的不同进行分类,进而形成各行业的企业年报数据子集及各资本规模的企业年报数据子集。其中资本规模是根据企业的基本信息中的出资额进行界定。
基于与上述方法实施例同样的发明构思,本发明实施例还提供了装置实施例。具体的,请参阅图5,其示出了本发明另一个实施例所提供的一种年报数据质量评价装置的结构框图,该评价装置包括预处理模块501、识别模块502和评分模块504。其中,预处理模块501用于对获取的企业年报数据进行标准化处理,得到标准化数据。识别模块502用于将标准化数据输入由多种异常值检测算法构成的机器学习模型中识别相应的异常值。评分模块504用于根据异常值对企业年报数据中相应的数据指标进行投票,若某一数据指标被两个及两个以上的异常值检测算法识别出异常而进行投票,则记录数据指标所关联的企业的异常得分,汇总企业所有数据指标的异常得分,得到企业的总异常得分。
优选的,识别模块502中包括双变量boxplot离群值模型、Cook距离模型、 K-means聚类模型和Autoencoder自编码模型中的两种或者多种机器学习模型。
优选的,该装置还包括反馈模块503,该反馈模块503包括同环比反馈模块 5041和/或逻辑判断反馈模块5042,其中,同环比反馈模块5041用于判断企业年报数据的某一数据指标的同环比是否在合理区间,在同环比不在合理区间时,调整标准化处理的方法。逻辑判断反馈模块5042用于利用业务逻辑验证模型的准确性,若年报数据的业务逻辑判断结果不符合要求,则调整标准化处理的方法。
本发明实施例提供了一种电子设备,该电子设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的一种年报数据质量评价方法。
存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据所述设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
所述电子设备可以为终端设备,请参阅图6,其所示为本发明实施例提供的一种终端设备的结构示意图,该终端设备用于实施上述实施例中提供的一种年报数据质量评价方法。具体来讲:
终端设备1100可以包括RF(RadioFrequency,射频)电路1110、包括有一个或一个以上计算机可读存储介质的存储器1120、输入单元1130、显示单元1140、 WiFi(wirelessfidelity,无线保真)模块1150、包括有一个或者一个以上处理核心的处理器1160、以及电源110等部件。本领域技术人员可以理解,图6中示出的终端设备结构并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路1110可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器处理;另外,将涉及上行的数据发送给基站。通常,RF电路1110包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、 LNA(LowNoiseAmplifier,低噪声放大器)、双工器等。此外,RF电路1110还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System of Mobile communication,全球移动通讯系统)、GPRS(General Packet Radio Service,通用分组无线服务)、CDMA(CodeDivision Multiple Access,码分多址)、WCDMA(Wide band Code Division MultipleAccess,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、 SMS(ShortMessaging Service,短消息服务)等。
存储器1120可用于存储软件程序以及模块,处理器1160通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。在存储器1120 中存储有一个或者一个以上程序,且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于执行上述方法实施例提供的一种年报数据质量评价方法的指令。
输入单元1130可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元1130可包括图像输入设备1131和/或其他输入设备1132。图像输入设备 1131可以是摄像头,也可以是光电扫描设备。具体地,其他输入设备1132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1140可用于显示由用户输入的信息或提供给用户的信息以及终端设备的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元1140可包括显示面板1141,可选的,可以采用 LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板。
WiFi属于短距离无线传输技术,终端设备通过WiFi模块1150可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图6示出了WiFi模块1150,但是可以理解的是,其并不属于终端设备的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1160是终端设备的控制中心,利用各种接口和线路连接整个终端设备的各个部分,通过运行或执行存储在存储器1120内的软件程序和/或模块,以及调用存储在存储器1120内的数据,执行终端设备的各种功能和处理数据,从而对终端设备进行整体监控。可选的,处理器1160可包括一个或多个处理核心;优选的,处理器1160可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器中。
终端设备还包括给各个部件供电的电源110(比如电池),优选的,电源110 可以通过电源管理系统与处理器逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源110还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端设备还可以包括蓝牙模块等,在此不再赘述。
所述电子设备可以为服务器,本发明实施例还提供了一种服务器的结构示意图,请参阅图7,该服务器1200用于实施上述实施例中提供的一种年报数据质量评价方法。该服务器1120可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器1210(Central Processing Units,CPU)和存储器1240,一个或一个以上存储应用程序1233或数据1232的存储介质1230。其中,存储器1240和存储介质1230可以是短暂存储或持久存储。存储在存储介质1230的程序可以包括一个或一个以上模块,每个模块可以包括对服务器1200中的一系列指令操作。更进一步地,中央处理器1210可以设置为与存储介质1230通信,在服务器1200上执行存储介质1230中的一系列指令操作。服务器1200还可以包括一个或一个以上电源1220,一个或一个以上有线或无线网络接口1250,一个或一个以上输入输出接口1260,和/或,一个或一个以上操作系统1231,例如 Windows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM等等。
本发明的实施例还提供了一种存储介质,所述存储介质可设置于服务器之中以保存用于实现方法实施例中一种年报数据质量评价方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的一种年报数据质量评价方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM, Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和服务器实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种年报数据质量评价方法,其特征在于,该检测方法包括以下步骤:
对获取的企业年报数据进行标准化处理,得到标准化数据;
将所述标准化数据输入由多种异常值检测算法构成的机器学习模型中识别相应的异常值;
根据所述异常值对所述企业年报数据中相应的数据指标进行投票,若某一数据指标被两个及两个以上的异常值检测算法识别出异常而进行投票,则记录所述数据指标所关联的企业的异常得分,汇总所述企业所有数据指标的异常得分,得到所述企业的总异常得分。
2.根据权利要求1所述的一种年报数据质量评价方法,其特征在于,所述多种由大数据算法构成的机器学习模型包括:双变量boxplot离群值模型、Cook距离模型、K均值聚类算法模型和Autoencoder自编码模型中的两种或者多种模型。
3.根据权利要求1所述的一种年报数据质量评价方法,其特征在于,在所述将所述标准化数据输入多种由大数据算法构成的机器学习模型中识别相应的异常值之后,还包括以下步骤:
判断所述企业年报数据的某一数据指标的同环比是否在合理区间;
若利用同环比判别出的年报数据的异常企业数量大于所述机器学习模型识别出来的数量,则通过适当调整所述机器学习模型参数和/或增加训练集样本数量的方法,进一步优化机器学习模型。
4.根据权利要求1所述的一种年报数据质量评价方法,其特征在于,所述将所述标准化数据输入多种由大数据算法构成的机器学习模型中识别相应的异常值之后,还包括以下步骤:
利用业务逻辑验证模型的准确性;
如果利用所述业务逻辑判别出的年报数据的异常企业数量大于所述机器学习模型识别出来的数量,则通过适当调整机器学习模型参数和/或增加训练集样本数量的方法,进一步优化机器学习模型。
5.一种年报数据质量评价装置,其特征在于,该装置包括:
预处理模块,用于对获取的企业年报数据进行标准化处理,得到标准化数据;
识别模块,用于将所述标准化数据输入由多种异常值检测算法构成的机器学习模型中识别相应的异常值;
评分模块,用于根据所述异常值对所述企业年报数据中相应的数据指标进行投票,若某一数据指标被两个及两个以上的异常值检测算法识别出异常而进行投票,则记录所述数据指标所关联的企业的异常得分,汇总所述企业所有数据指标的异常得分,得到所述企业的总异常得分。
6.根据权利要求5所述的一种年报数据质量评价装置,其特征在于,所述识别模块中包括双变量boxplot离群值模型、Cook距离模型、K均值聚类算法模型和Autoencoder自编码模型中的两种或者多种机器学习模型。
7.根据权利要求5所述的一种年报数据质量评价装置,其特征在于,该装置还包括反馈模块,该反馈模块包括同环比反馈模块,用于判断所述企业年报数据的某一数据指标的同环比是否在合理区间,若利用同环比判别出的年报数据的异常企业数量大于所述机器学习模型识别出来的数量,则通过适当调整所述机器学习模型参数和/或增加训练集样本数量的方法,进一步优化机器学习模型。
8.根据权利要求7所述的一种年报数据质量评价装置,其特征在于,该反馈模块包括逻辑判断反馈模块,用于利用业务逻辑验证模型的准确性,如果利用所述业务逻辑判别出的年报数据的异常企业数量大于所述机器学习模型识别出来的数量,则通过适当调整机器学习模型参数和/或增加训练集样本数量的方法,进一步优化机器学习模型。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:执行权利要求1至4中任意一项所述的方法。
10.一种存储介质,该存储介质中存储有计算机可读的程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1至4中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911392798.8A CN111222769A (zh) | 2019-12-30 | 2019-12-30 | 一种年报数据质量评价方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911392798.8A CN111222769A (zh) | 2019-12-30 | 2019-12-30 | 一种年报数据质量评价方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111222769A true CN111222769A (zh) | 2020-06-02 |
Family
ID=70830923
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911392798.8A Pending CN111222769A (zh) | 2019-12-30 | 2019-12-30 | 一种年报数据质量评价方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111222769A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111882415A (zh) * | 2020-07-24 | 2020-11-03 | 未鲲(上海)科技服务有限公司 | 一种质量检测模型的训练方法和相关装置 |
CN113837512A (zh) * | 2020-06-23 | 2021-12-24 | 中国移动通信集团辽宁有限公司 | 异常用户的识别方法及装置 |
WO2022135973A1 (en) * | 2020-12-22 | 2022-06-30 | Collibra Nv | Bespoke transformation and quality assessment for term definition |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106920014A (zh) * | 2017-03-16 | 2017-07-04 | 广东工业大学 | 一种短时负荷预测方法及装置 |
CN107844798A (zh) * | 2017-09-29 | 2018-03-27 | 上海元卓信息科技有限公司 | 一种基于机器学习的海量数据中检测异常值的方法 |
CN108564286A (zh) * | 2018-04-19 | 2018-09-21 | 天合泽泰(厦门)征信服务有限公司 | 一种基于大数据征信的人工智能金融风控授信评定方法和系统 |
CN109034140A (zh) * | 2018-09-13 | 2018-12-18 | 哈尔滨工业大学 | 基于深度学习结构的工业控制网络信号异常检测方法 |
CN109101632A (zh) * | 2018-08-15 | 2018-12-28 | 中国人民解放军海军航空大学 | 基于制造大数据的产品质量异常数据追溯分析方法 |
US20190007447A1 (en) * | 2017-06-29 | 2019-01-03 | Webroot Inc. | Peer Device Protection |
-
2019
- 2019-12-30 CN CN201911392798.8A patent/CN111222769A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106920014A (zh) * | 2017-03-16 | 2017-07-04 | 广东工业大学 | 一种短时负荷预测方法及装置 |
US20190007447A1 (en) * | 2017-06-29 | 2019-01-03 | Webroot Inc. | Peer Device Protection |
CN107844798A (zh) * | 2017-09-29 | 2018-03-27 | 上海元卓信息科技有限公司 | 一种基于机器学习的海量数据中检测异常值的方法 |
CN108564286A (zh) * | 2018-04-19 | 2018-09-21 | 天合泽泰(厦门)征信服务有限公司 | 一种基于大数据征信的人工智能金融风控授信评定方法和系统 |
CN109101632A (zh) * | 2018-08-15 | 2018-12-28 | 中国人民解放军海军航空大学 | 基于制造大数据的产品质量异常数据追溯分析方法 |
CN109034140A (zh) * | 2018-09-13 | 2018-12-18 | 哈尔滨工业大学 | 基于深度学习结构的工业控制网络信号异常检测方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113837512A (zh) * | 2020-06-23 | 2021-12-24 | 中国移动通信集团辽宁有限公司 | 异常用户的识别方法及装置 |
CN111882415A (zh) * | 2020-07-24 | 2020-11-03 | 未鲲(上海)科技服务有限公司 | 一种质量检测模型的训练方法和相关装置 |
WO2022135973A1 (en) * | 2020-12-22 | 2022-06-30 | Collibra Nv | Bespoke transformation and quality assessment for term definition |
US11669682B2 (en) | 2020-12-22 | 2023-06-06 | Collibra Belgium Bv | Bespoke transformation and quality assessment for term definition |
US11966696B2 (en) | 2020-12-22 | 2024-04-23 | Collibra Belgium Bv | Bespoke transformation and quality assessment for term definition |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230316076A1 (en) | Unsupervised Machine Learning System to Automate Functions On a Graph Structure | |
US20190378051A1 (en) | Machine learning system coupled to a graph structure detecting outlier patterns using graph scanning | |
US20190378049A1 (en) | Ensemble of machine learning engines coupled to a graph structure that spreads heat | |
US20190378050A1 (en) | Machine learning system to identify and optimize features based on historical data, known patterns, or emerging patterns | |
US20190377819A1 (en) | Machine learning system to detect, label, and spread heat in a graph structure | |
CN111340246A (zh) | 用于企业智能决策分析的处理方法、装置和计算机设备 | |
CN111222769A (zh) | 一种年报数据质量评价方法、装置、电子设备及存储介质 | |
CN112633962B (zh) | 业务推荐方法、装置、计算机设备和存储介质 | |
CN108021691A (zh) | 答案查找方法、客服机器人以及计算机可读存储介质 | |
CN111754241A (zh) | 一种用户行为感知方法、装置、设备及介质 | |
US20230412705A1 (en) | Methods and internet of things systems for information interaction management based on smart gas data centers | |
CN113822488A (zh) | 融资租赁的风险预测方法、装置、计算机设备及存储介质 | |
CN113111250A (zh) | 业务推荐方法、装置、相关设备及存储介质 | |
Ocampo | Fuzzy analytic network process (FANP) approach in formulating infrastructural decisions of sustainable manufacturing strategy | |
US20240037485A1 (en) | Big data modeling and analyzing method and system for shipping user | |
Hovorushchenko et al. | Method for forecasting the level of software quality based on quality attributes | |
CN115982646B (zh) | 一种基于云平台的多源测试数据的管理方法及系统 | |
CN111882113A (zh) | 一种企业手机银行用户的预测方法和装置 | |
Domashova et al. | Detection of non-typical users of the electronic marketplace" Freight transportation" to prevent the competitive intelligence | |
Xu et al. | Goal Orientation for Fair Machine Learning Algorithms | |
CN112015659A (zh) | 基于网络模型的预测方法及装置 | |
CN112818235A (zh) | 基于关联特征的违规用户识别方法、装置和计算机设备 | |
Shan et al. | Software enterprise risk detection model based on BP neural network | |
CN116777345A (zh) | 一种库存量预测方法、系统、装置及存储介质 | |
Wu et al. | The complex evolution of information quality improvement in competitive market |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200602 |