CN112464051A - 一种异常数据检测方法、装置及计算机可读存储介质 - Google Patents
一种异常数据检测方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112464051A CN112464051A CN202011423216.0A CN202011423216A CN112464051A CN 112464051 A CN112464051 A CN 112464051A CN 202011423216 A CN202011423216 A CN 202011423216A CN 112464051 A CN112464051 A CN 112464051A
- Authority
- CN
- China
- Prior art keywords
- abnormal data
- data set
- abnormal
- data
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 256
- 238000001514 detection method Methods 0.000 title claims abstract description 94
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 63
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000013450 outlier detection Methods 0.000 claims abstract description 19
- 238000000034 method Methods 0.000 claims description 45
- 238000004590 computer program Methods 0.000 claims description 21
- 238000007781 pre-processing Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 14
- 238000005516 engineering process Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000004140 cleaning Methods 0.000 description 6
- 230000004927 fusion Effects 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000007306 turnover Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- JBWKIWSBJXDJDT-UHFFFAOYSA-N triphenylmethyl chloride Chemical compound C=1C=CC=CC=1C(C=1C=CC=CC=1)(Cl)C1=CC=CC=C1 JBWKIWSBJXDJDT-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9035—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3409—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/125—Finance or payroll
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Computational Linguistics (AREA)
- Accounting & Taxation (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Debugging And Monitoring (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Computer Hardware Design (AREA)
Abstract
本申请适用于数据处理技术领域,提供了一种异常数据检测方法、装置及计算机可读存储介质,所述异常数据检测方法包括:将待检测宽表输入训练后的生成对抗网络进行处理,得到第一异常数据集合;其中,训练后的生成对抗网络是利用正向样本集合对初始生成对抗网络进行训练得到;根据预设策略对第一异常数据集合和第二异常数据集合进行处理,得到目标异常数据集合;其中,第二异常数据集合是通过预先构建的无监督离群点检测模型根据待检测宽表输出得到。上述异常数据检测方法在异常样本缺失或较少的情况下,提高了对异常数据的检测准确率。
Description
技术领域
本申请属于数据处理技术领域,尤其涉及一种异常数据检测方法、装置及计算机可读存储介质。
背景技术
通常在对企业的运营状况进行评估时,都需要对企业的财务数据进行检测,从而确定该企业的财务数据是否存在异常,例如:财务造假或严重财务风险等问题。现有的检测财务数据中是否存在异常数据的方法是,采用传统的深度学习方法对历史异常数据和历史正常数据训练判断模型,然后利用训练好的判断模型对待检测数据进行处理,当检测到待检测数据与某个历史数据很相似时,根据该历史数据是否异常确定该待检测数据是否异常。
然而,该检测方法需要大量的历史异常样本训练判断模型,当训练判断模型采集的异常样本缺失或较少时,不能对待检测数据进行准确的判断,从而不能准确检测出异常数据。由此可见,上述检测方法存在对异常数据的检测准确率较低的问题。
发明内容
本申请实施例提供了一种异常数据检测方法、装置及计算机可读存储介质,可以解决现有的检测方法在异常样本缺失或较少时,不能准确检测出异常数据,对异常数据的检测准确率较低的问题。
第一方面,本申请实施例提供了一种异常数据检测方法,包括:
将待检测宽表输入训练后的生成对抗网络进行处理,得到第一异常数据集合;其中,所述训练后的生成对抗网络是利用正向样本集合对初始生成对抗网络进行训练得到;
根据预设策略对所述第一异常数据集合和第二异常数据集合进行处理,得到目标异常数据集合;其中,所述第二异常数据集合是通过预先构建的无监督离群点检测模型根据所述待检测宽表输出得到。
进一步的,所述初始生成对抗网络包括生成模型和判别模型;
所述将待检测宽表输入训练后的生成对抗网络进行处理,得到第一异常数据集合之前,还包括:
利用所述生成模型将随机噪声处理为与所述正向样本集合中各数据相同格式的第二数据;
根据所述正向样本集合和所述第二数据对所述初始生成对抗网络进行训练,得到所述训练后的生成对抗网络。
进一步的,所述将待检测宽表输入训练后的生成对抗网络进行处理,得到第一异常数据集合,包括:
将所述待检测宽表输入所述训练后的生成对抗网络中,通过所述判别模型对所述待检测宽表进行处理,得到所述第一异常数据集合。
进一步的,所述根据预设策略对所述第一异常数据集合和第二异常数据集合进行处理,得到目标异常数据集合,包括:
根据所述预设策略对对所述第一异常数据集合和所述第二异常数据集合进行组合,得到所述目标异常数据集合。
进一步的,所述将待检测宽表输入训练后的生成对抗网络进行处理之前,还包括:
从预设数据库中获取第一原始数据;
根据数据仓库技术对所述第一原始数据进行数据预处理,得到所述待检测宽表。
进一步的,所述将待检测宽表输入训练后的生成对抗网络进行处理之前,还包括:
从预设数据库中获取第二原始数据;
根据数据仓库技术对所述第二原始数据进行数据预处理,得到第一宽表;
根据预设要求对所述第一宽表中的各个数据进行处理,得到所述正向样本集合。
第二方面,本申请实施例提供了一种异常数据检测装置,包括:
第一处理单元,用于将待检测宽表输入训练后的生成对抗网络进行处理,得到第一异常数据集合;其中,所述训练后的生成对抗网络是利用正向样本集合对初始生成对抗网络进行训练得到;
第二处理单元,用于根据预设策略对所述第一异常数据集合和第二异常数据集合进行处理,得到目标异常数据集合;其中,所述第二异常数据集合是通过预先构建的无监督离群点检测模型根据所述待检测宽表输出得到。
第三方面,本申请实施例提供了一种异常数据检测装置,包括:
存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,上述处理器执行所述计算机程序时实现如上述第一方面中任一项所述的异常数据检测方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面中任一项所述的异常数据检测方法的步骤。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在异常数据检测装置上运行时,使得异常数据检测装置可执行上述第一方面中任一项所述的异常数据检测方法。
本申请实施例与现有技术相比存在的有益效果是:
本申请实施例提供的一种异常数据检测方法,通过将待检测宽表输入训练后的生成对抗网络进行处理,得到第一异常数据集合;其中,训练后的生成对抗网络是利用正向样本集合对初始生成对抗网络进行训练得到;根据预设策略对第一异常数据集合和第二异常数据集合进行处理,得到目标异常数据集合;其中,第二异常数据集合是通过预先构建的无监督离群点检测模型根据待检测宽表输出得到。上述异常数据检测方法将待检测宽表输入训练后的生成对抗网络进行处理,得到第一异常数据集合,由于训练后的生成对抗网络是利用正向样本集合对初始生成对抗网络进行训练得到,该正向样本集合中的数据均为正常数据,因此,在异常样本缺失或较少的情况下,该异常检测方法可以得到第一异常数据集合,再根据预设策略对第一异常数据集合和第二异常数据集合进行处理,从而得到目标异常数据集合。由于第二异常数据集合是利用无监督离群点检测模型根据待检测宽表得到的,因此,该异常检测方法能够在异常样本缺失或较少的情况下,提高对异常数据的检测准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种异常数据检测方法的实现流程图;
图2是本申请另一实施例提供的一种异常数据检测方法的实现流程图;
图3是本申请再一实施例提供的一种异常数据检测方法的实现流程图;
图4是本申请又一实施例提供的一种异常数据检测方法的实现流程图;
图5是本申请实施例提供的异常数据检测装置的结构示意图;
图6是本申请另一实施例提供的异常数据检测装置的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
请参阅图1,图1是本申请实施例提供的一种异常数据检测方法的实现流程图。本申请实施例中,异常数据检测方法的执行主体为异常数据检测装置(Trusted PlatformControl Module,TPCM)。该异常数据检测装置可以包括终端或服务器,还可以是终端内的芯片或者服务器内的处理器。这里,终端与服务器可以是智能手机、平板电脑或台式电脑等。
如图1所示,异常数据检测方法可以包括S101~S102,详述如下:
在S101中,将待检测宽表输入训练后的生成对抗网络进行处理,得到第一异常数据集合;其中,所述训练后的生成对抗网络是利用正向样本集合对初始生成对抗网络进行训练得到。
本申请实施例中,当异常数据检测装置需要对待检测数据进行异常数据检测时,可以获取待检测宽表。其中,宽表指业务主题相关的指标、维度、属性关联在一起的一张数据库表。示例性的,待检测宽表可以是包括多个维度的财务指标的宽表。其中,维度包括但不限于公司名称、时间及财务附注等;财务指标包括但不限于偿债能力指标、营运能力指标及盈利能力指标等。偿债能力指标包括资产负债率、流动比率及速动比率等,营运能力指标包括应收账款周转率和存货周转率等,盈利能力指标包括资本金利润率、销售利润率(营业收入利税率)及成本费用利润率等。
需要说明的是,在本申请的一个实施例中,待检测宽表中的各个数据可以与该数据对应的公司标识进行关联。其中,公司标识可以是社会统一信用代码。
在本申请实施例的一种实现方式中,异常数据检测装置可以从其他终端设备中获取到待检测宽表。
在本申请实施例的另一种实现方式中,异常数据检测装置可以预先获取待检测宽表并进行存储,当异常数据检测装置需要进行异常数据检测时,直接从异常数据检测装置中获取到该待检测宽表。
基于此,在本申请的另一个实施例中,异常数据检测装置具体可以通过如图2所示的步骤S201~S202获取待检测宽表,详述如下:
在S201中,从预设数据库中获取第一原始数据。
本实施例中,异常数据检测装置在对待检测宽表进行异常数据检测之前,可以从预设数据库中获取第一原始数据。
在实际应用中,预设数据库可以是金融数据和分析工具服务商(如wind)提供的数据库。
第一原始数据包括但不限于各个公司在预设时间段内的的财务报表、财务附注以及服务商自身提供的财务分析衍生指标。其中,预设时间段可以根据实际需要设置,此处不作限制,示例性的,预设时间段可以是2010年至今。
在S202中,根据数据仓库技术对所述第一原始数据进行数据预处理,得到所述待检测宽表。
本实施例中,异常数据检测装置在获取到第一原始数据后,可以根据数据仓库技术(Extract-Transform-Load,ETL)对第一原始数据进行数据预处理,得到待检测宽表。
在本申请的一个实施例中,数据预处理包括但不限于数据清洗、数据融合、字段映射,缺失值填充,计算衍生指标及财务科目去规模化等操作。
其中,数据清洗指检查数据的一致性,并处理无效值和缺失值,例如,数据清洗可以剔除脏数据和异常值,剔除缺失值较多的行和列。
数据融合指对服务商提供的财务报表、财务附注及服务商自身提供的财务分析指标数据根据公司和不同时间段进行融合。需要说明的是不同时间段的时间间隔可以是一年。
字段映射指将服务商提供的各个数据字段名与各个数据的标准字段名的进行映射。
缺失值填充指对财务报表和财务指标中的缺失值,若能够从财务科目中计算得到,则用计算结果填充,否则以0填充。需要说明的是,由于财务数据间具有内在联系,因此不能用随机填充或均值填充的方法进行填充。其中,财务科目包括但不限于资产类科目、损益类科目及成本类科目等。
计算衍生指标指服务商不能提供,需要根据专家经验总结得到的财务指标。
财务科目去规模化指去除公司业务规模的影响,把资产负债类科目除以总资产,利润和现金流量表科目除以营业收入得到的去规模化后的比值类指标。
基于此,异常数据检测装置通过以上数据预处理的方式,可以得到包括多个维度的财务指标的待检测宽表。
需要说明的是,本申请实施例中,异常数据检测装置还预先设置了初始生成对抗网络(Generative Adversarial Networks,GAN),初始生成对抗网络包括两个网络模型:生成模型(Generative Model,GM)和判别模型(Discriminative Model,DM)。生成对抗网络的核心思想是对生成模型和判别模型进行训练,并通过这两个模型的相互博弈对抗和相互优化,最终收敛到一个纳什均衡,再用纳什平衡下的判别模型对输入的数据进行真假判别。其中,纳什平衡指非合作对策中所有对策人都根据各自的信息选择策略,力图使自己的目标函数达到最大的一种平衡解。
基于此,在本申请的再一个实施例中,异常数据检测装置具体可以通过如图3所示的步骤S301~S302对初始生成对抗网络进行训练,得到训练后的生成对抗网络,详述如下:
在S301中,利用所述生成模型将随机噪声处理为与所述正向样本集合中各数据相同格式的第二数据。
本实施例中,异常数据检测装置将随机噪声输入至生成模型中,并利用生成模型将随机噪声处理为与正向样本集合中各数据相同格式的第二数据,即异常数据检测装置利用生成模型将随机噪声生成一个伪造数据,且该伪造数据与正向样本集合中的各数据的格式相同。其中,正向样本集合中的各个数据均为正常数据。
在S302中,根据所述正向样本集合和所述第二数据对所述初始生成对抗网络进行训练,得到所述训练后的生成对抗网络。
本实施例中,异常数据检测装置得到第二数据后,根据正向样本集合和第二数据对初始生成对抗网络进行训练,得到训练后的生成对抗网络。具体地,异常数据检测装置将第二数据和正向样本集合输入判别模型,利用判别模型对第二数据和正向样本集合中的各个数据进行判别,并确定第二数据和正向样本集合中的各个数据分别是伪造数据和正常数据的概率,直至达到纳什平衡从而得到训练后的生成对抗网络。
基于此,本申请实施例中,异常检测装置在得到待检测宽表后,将待检测宽表输入训练后的生成对抗网络进行处理,得到第一异常数据集合。具体地,异常数据检测装置将待检测宽表输入训练后的生成对抗网络后,通过判别模型对待检测宽表进行处理,得到第一异常数据集合。
需要说明的是,在本申请的又一个实施例中,异常数据检测装置可以将判别模型中的预设异常占比设置为4%。由于在判别模型中,某个数据为正常数据的概率越低时,该数据的异常得分值越高,因此,判别模型可以将异常得分值按照从高到低的顺序排在前4%的数据确定为异常数据,并输出该异常数据。
基于此,异常数据检测装置通过判别模型对待检测宽表进行处理指通过判别模型对待检测宽表中的各个数据进行判别,确定各个数据的异常得分值,并输出异常得分值按照从高到低的顺序排在前4%的数据,即得到第一异常数据集合。
在S102中,根据预设策略对所述第一异常数据集合和第二异常数据集合进行处理,得到目标异常数据集合;其中,所述第二异常数据集合是通过预先构建的无监督离群点检测模型根据所述待检测宽表输出得到。
本申请实施例中,异常数据检测装置可以预先构建无监督离群点检测模型,因此,异常数据检测装置还可以将待检测宽表输入该预先构建的无监督离群点检测模型进行处理,得到第二异常数据集合。
需要说明的是,无监督离群点检测模型用于识别一个数据集中低概率区域中的对象,并把低概率区域中的对象确定为离群点,离群点即为异常数据。
其中,无监督离群点检测模型可以根据实际需要确定,此处不作限制,示例性的,无监督离群点检测模型可以是:基于线性模型算法的检测模型,如最小协方差估计(Minimum Covariance Determinant,MCD),也可以是基于相似性算法的检测模型,如局部异常因子算法(Local Outlier Factor,LOF)、和K最近邻分类算法(k-NearestNeighbor,KNN),也可以是基于概率算法的检测模型,如基于角度的异常检测(angle-based outlierdetection,ABOD),也可以是基于集群算法的检测模型,如孤立森林(Isolation Forest,iForest)。
考虑到计算的复杂度的问题,本申请实施例中的无监督离群点检测模型可以是孤立森林检测模型。
本申请实施例中,异常数据检测装置在得到第一异常数据集合和第二异常数据集合后,可以根据预设策略对第一异常数据集合和第二异常数据集合进行处理,得到目标异常数据集合。具体地,异常数据检测装置可以根据预设策略对第一异常数据集合和第二异常数据集合进行组合,得到目标异常数据集合。
在本申请的一个实施例中,预设策略可以是:取各个集合中相同的数据。基于此,异常数据检测装置可以将第一异常数据集合和第二异常数据集合中相同的数据组合在一起,从而得到目标异常数据集合。
在本申请的另一个实施例中,预设策略还可以是:取各个集合中的所有数据。基于此,异常数据检测装置可以将第一异常数据集合和第二异常数据集合中的所有数据组合在一起,从而得到目标异常数据集合。
在本申请的再一个实施例中,异常数据检测装置在得到目标异常数据集合后,可以输出该目标异常数据集合,使得相关人员可以根据该目标异常数据集合中的各个异常数据对与该异常数据相关联的公司的财务状况做进一步的分析。
以上可以看出,本实施例提供的一种异常数据检测方法,通过将待检测宽表输入训练后的生成对抗网络进行处理,得到第一异常数据集合;其中,训练后的生成对抗网络是利用正向样本集合对初始生成对抗网络进行训练得到;根据预设策略对第一异常数据集合和第二异常数据集合进行处理,得到目标异常数据集合;其中,第二异常数据集合是通过预先构建的无监督离群点检测模型根据待检测宽表输出得到。上述异常数据检测方法将待检测宽表输入训练后的生成对抗网络进行处理,得到第一异常数据集合,由于训练后的生成对抗网络是利用正向样本集合对初始生成对抗网络进行训练得到,正向样本集合中的数据均为正常数据,因此,在异常样本缺失或较少的情况下,该异常检测方法可以得到第一异常数据集合,再根据预设策略对第一异常数据集合和第二异常数据集合进行处理,从而得到目标异常数据集合。由于第二异常数据集合是利用无监督离群点检测模型根据待检测宽表得到的,因此,该异常检测方法能够在异常样本缺失或较少的情况下,提高对异常数据的检测准确率。
参阅图4,图4是本申请另一实施例提供的一种异常数据检测方法的实现流程图。本实施例中,相对于图1对应的实施例,本实施例提供的异常数据检测方法为了确定样本集合为正向样本,在S101之前还可以通过如图4所示的S401~S403实现,详述如下:
在S401中,从预设数据库中获取第二原始数据。
本实施例中,异常数据检测装置在对待检测宽表进行异常数据检测之前,可以从预设数据库中获取第二原始数据。
在实际应用中,预设数据库可以是金融数据和分析工具服务商(如wind)提供的数据库。
第二原始数据包括但不限于各个公司在预设时间段内的的财务报表、财务附注以及服务商自身提供的财务分析衍生指标。其中,预设时间段可以是2010年至今。
在S402中,根据数据仓库技术对所述第二原始数据进行数据预处理,得到第一宽表。
本实施例中,异常数据检测装置在获取到第二原始数据后,可以根据数据仓库技术(Extract-Transform-Load,ETL)对第二原始数据进行数据预处理,得到第一宽表。
在本申请的一个实施例中,数据预处理包括但不限于数据清洗、数据融合、字段映射,缺失值填充,计算衍生指标及财务科目去规模化等操作。
其中,数据清洗指检查数据的一致性,并处理无效值和缺失值,例如,数据清洗可以剔除脏数据和异常值,剔除缺失值较多的行和列。
数据融合指对服务商提供的财务报表、财务附注及服务商自身提供的财务分析指标数据根据公司和不同时间段进行融合。需要说明的是不同时间段的时间间隔可以是一年。
字段映射指将服务商提供的各个数据字段名与各个数据的标准字段名的进行映射。
缺失值填充指对财务报表和财务指标中的缺失值,若能够从财务科目中计算得到,则用计算结果填充,否则以0填充。需要说明的是,由于财务数据间具有内在联系,因此不能用随机填充或均值填充的方法进行填充。其中,财务科目包括但不限于资产类科目、损益类科目及成本类科目等。
计算衍生指标指服务商不能提供,需要根据专家经验总结得到的财务指标。
财务科目去规模化指去除公司业务规模的影响,把资产负债类科目除以总资产,利润和现金流量表科目除以营业收入得到的去规模化后的比值类指标。
基于此,异常数据检测装置通过以上数据预处理的方式,可以得到包括多个维度的财务指标的第一宽表。
在S403中,根据预设要求对所述第一宽表中的各个数据进行处理,得到所述正向样本集合。
在本申请的一个实施例中,异常数据检测装置预先设置了异常事件信息。其中异常事件信息包括但不限于:(1)某公司因信披违规被证监会、交易所立案调查;(2)审计机构出具“非标”意见;(3)某公司连续两年更换会计师事务所;(4)某公司有大量货币资金和计息负债,即存贷双高;(5)某公司收到年报问询函。
基于此,本实施例中,预设要求可以是:确定某个数据是否存在上述异常事件信息。
本实施例中,异常数据检测装置在得到第一宽表后,根据上述异常事件信息对第一宽表中的各个数据进行标记,并将第一宽表中没有任何标记的数据集合确定为正向样本集合。
以上可以看出,本实施例提供的一种异常数据检测方法,通过从预设数据库中获取第二原始数据;根据数据仓库技术对第二原始数据进行数据预处理,得到第一宽表;根据预设要求对第一宽表中的各个数据进行处理,得到正向样本集合,使得该正向样本集合中的各个数据均为正常数据,从而提高了通过该样本集合对初始生成对抗网络进行训练的精确率。
在本申请的再一个实施例中,异常数据检测装置可以将待检测宽表输入训练后的生成对抗网络,得到第一异常数据集合,并直接将该第一异常数据集合确定为目标异常数据集合,从而提高了异常数据检测方法的检测效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所述的一种异常数据检测方法,图5示出了本申请实施例提供的一种异常数据检测装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。参照图5,该异常数据检测装置500包括:第一处理单元51和第二处理单元52。其中:
第一处理单元51用于将待检测宽表输入训练后的生成对抗网络进行处理,得到第一异常数据集合;其中,所述训练后的生成对抗网络是利用正向样本集合对初始生成对抗网络进行训练得到。
第二处理单元52用于根据预设策略对所述第一异常数据集合和第二异常数据集合进行处理,得到目标异常数据集合;其中,所述第二异常数据集合是通过预先构建的无监督离群点检测模型根据所述待检测宽表输出得到。
在本申请的一个实施例中,所述初始生成对抗网络包括生成模型和判别模型;异常数据检测装置500还包括:第三处理单元和训练单元。其中:
第三处理单元用于利用所述生成模型将随机噪声处理为与所述正向样本集合中各数据相同格式的第二数据。
训练单元用于根据所述正向样本集合和所述第二数据对所述初始生成对抗网络进行训练,得到所述训练后的生成对抗网络。
在本申请的一个实施例中,第一处理单元51具体用于将所述待检测宽表输入所述训练后的生成对抗网络中,通过所述判别模型对所述待检测宽表进行处理,得到所述第一异常数据集合。
在本申请的一个实施例中,第二处理单元52具体根据所述预设策略对对所述第一异常数据集合和所述第二异常数据集合进行组合,得到所述目标异常数据集合。
在本申请的一个实施例中,异常数据检测装置500还包括:第一获取单元和第一预处理单元。其中:
第一获取单元用于从预设数据库中获取第一原始数据。
第一预处理单元用于根据数据仓库技术对所述第一原始数据进行数据预处理,得到所述待检测宽表。
在本申请的一个实施例中,异常数据检测装置还包括:第二获取单元、第二预处理单元及第四处理单元。其中:
第二获取单元用于从预设数据库中获取第二原始数据。
第二预处理单元用于根据数据仓库技术对所述第二原始数据进行数据预处理,得到第一宽表。
第四处理单元用于根据预设要求对所述第一宽表中的各个数据进行处理,得到所述正向样本集合。
以上可以看出,本申请实施例提供的一种,通过将待检测宽表输入训练后的生成对抗网络进行处理,得到第一异常数据集合;其中,训练后的生成对抗网络是利用正向样本集合对初始生成对抗网络进行训练得到;根据预设策略对第一异常数据集合和第二异常数据集合进行处理,得到目标异常数据集合;其中,第二异常数据集合是通过预先构建的无监督离群点检测模型根据待检测宽表输出得到。上述异常数据检测方法将待检测宽表输入训练后的生成对抗网络进行处理,得到第一异常数据集合,由于训练后的生成对抗网络是利用正向样本集合对初始生成对抗网络进行训练得到,该正向样本集合中的数据均为正常数据,因此,在异常样本缺失或较少的情况下,该异常检测方法可以得到第一异常数据集合,再根据预设策略对第一异常数据集合和第二异常数据集合进行处理,从而得到目标异常数据集合。由于第二异常数据集合是利用无监督离群点检测模型根据待检测宽表得到的,因此,该异常检测方法能够在异常样本缺失或较少的情况下,提高对异常数据的检测准确率。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
图6为本申请一实施例提供的异常数据检测装置的结构示意图。如图6所示,该实施例的异常数据检测装置6包括:至少一个处理器60(图6中仅示出一个)处理器、存储器61以及存储在所述存储器61中并可在所述至少一个处理器60上运行的计算机程序62,所述处理器60执行所述计算机程序62时实现上述任意各个异常数据检测方法实施例中的步骤。
所述异常数据检测装置6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该异常数据检测装置可包括,但不仅限于,处理器60、存储器61。本领域技术人员可以理解,图6仅仅是异常数据检测装置6的举例,并不构成对异常数据检测装置6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
所称处理器60可以是中央处理单元(Central Processing Unit,CPU),该处理器60还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器61在一些实施例中可以是所述异常数据检测装置6的内部存储单元,例如异常数据检测装置6的硬盘或内存。所述存储器61在另一些实施例中也可以是所述异常数据检测装置6的外部存储设备,例如所述异常数据检测装置6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。进一步地,所述存储器61还可以既包括所述异常数据检测装置6的内部存储单元也包括外部存储设备。所述存储器61用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在异常数据检测装置上运行时,使得异常数据检测装置执行时实现可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的异常数据检测装置和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种异常数据检测方法,其特征在于,包括:
将待检测宽表输入训练后的生成对抗网络进行处理,得到第一异常数据集合;其中,所述训练后的生成对抗网络是利用正向样本集合对初始生成对抗网络进行训练得到;
根据预设策略对所述第一异常数据集合和第二异常数据集合进行处理,得到目标异常数据集合;其中,所述第二异常数据集合是通过预先构建的无监督离群点检测模型根据所述待检测宽表输出得到。
2.如权利要求1所述的异常数据检测方法,其特征在于,所述初始生成对抗网络包括生成模型和判别模型;
所述将待检测宽表输入训练后的生成对抗网络进行处理,得到第一异常数据集合之前,还包括:
利用所述生成模型将随机噪声处理为与所述正向样本集合中各数据相同格式的第二数据;
根据所述正向样本集合和所述第二数据对所述初始生成对抗网络进行训练,得到所述训练后的生成对抗网络。
3.如权利要求2所述的异常数据检测方法,其特征在于,所述将待检测宽表输入训练后的生成对抗网络进行处理,得到第一异常数据集合,包括:
将所述待检测宽表输入所述训练后的生成对抗网络中,通过所述判别模型对所述待检测宽表进行处理,得到所述第一异常数据集合。
4.如权利要求1所述的异常数据检测方法,其特征在于,所述根据预设策略对所述第一异常数据集合和第二异常数据集合进行处理,得到目标异常数据集合,包括:
根据所述预设策略对对所述第一异常数据集合和所述第二异常数据集合进行组合,得到所述目标异常数据集合。
5.如权利要求1所述的异常数据检测方法,其特征在于,所述将待检测宽表输入训练后的生成对抗网络进行处理之前,还包括:
从预设数据库中获取第一原始数据;
根据数据仓库技术对所述第一原始数据进行数据预处理,得到所述待检测宽表。
6.如权利要求1所述的异常数据检测方法,其特征在于,所述将待检测宽表输入训练后的生成对抗网络进行处理之前,还包括:
从预设数据库中获取第二原始数据;
根据数据仓库技术对所述第二原始数据进行数据预处理,得到第一宽表;
根据预设要求对所述第一宽表中的各个数据进行处理,得到所述正向样本集合。
7.一种异常数据检测装置,其特征在于,包括:
第一处理单元,用于将待检测宽表输入训练后的生成对抗网络进行处理,得到第一异常数据集合;其中,所述训练后的生成对抗网络是利用正向样本集合对初始生成对抗网络进行训练得到;
第二处理单元,用于根据预设策略对所述第一异常数据集合和第二异常数据集合进行处理,得到目标异常数据集合;其中,所述第二异常数据集合是通过预先构建的无监督离群点检测模型根据所述待检测宽表输出得到。
8.如权利要求7所述的异常数据检测装置,其特征在于,所述初始生成对抗网络包括生成模型和判别模型;
所述异常数据检测装置还包括:
第三处理单元,用于利用所述生成模型将随机噪声处理为与所述正向样本集合中各数据相同格式的第二数据;
训练单元,用于根据所述正向样本集合和所述第二数据对所述初始生成对抗网络进行训练,得到所述训练后的生成对抗网络。
9.一种异常数据检测装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011423216.0A CN112464051A (zh) | 2020-12-08 | 2020-12-08 | 一种异常数据检测方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011423216.0A CN112464051A (zh) | 2020-12-08 | 2020-12-08 | 一种异常数据检测方法、装置及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112464051A true CN112464051A (zh) | 2021-03-09 |
Family
ID=74801052
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011423216.0A Pending CN112464051A (zh) | 2020-12-08 | 2020-12-08 | 一种异常数据检测方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112464051A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113298297A (zh) * | 2021-05-10 | 2021-08-24 | 内蒙古工业大学 | 一种基于孤立森林与wgan网络的风电输出功率预测方法 |
CN113792820A (zh) * | 2021-11-15 | 2021-12-14 | 航天宏康智能科技(北京)有限公司 | 用户行为日志异常检测模型的对抗训练方法和装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111178523A (zh) * | 2019-08-02 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 一种行为检测方法、装置、电子设备及存储介质 |
-
2020
- 2020-12-08 CN CN202011423216.0A patent/CN112464051A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111178523A (zh) * | 2019-08-02 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 一种行为检测方法、装置、电子设备及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113298297A (zh) * | 2021-05-10 | 2021-08-24 | 内蒙古工业大学 | 一种基于孤立森林与wgan网络的风电输出功率预测方法 |
CN113792820A (zh) * | 2021-11-15 | 2021-12-14 | 航天宏康智能科技(北京)有限公司 | 用户行为日志异常检测模型的对抗训练方法和装置 |
CN113792820B (zh) * | 2021-11-15 | 2022-02-08 | 航天宏康智能科技(北京)有限公司 | 用户行为日志异常检测模型的对抗训练方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110009174B (zh) | 风险识别模型训练方法、装置及服务器 | |
US10949852B1 (en) | Document-based fraud detection | |
CN111401777B (zh) | 企业风险的评估方法、装置、终端设备及存储介质 | |
Tang et al. | Incorporating textual and management factors into financial distress prediction: A comparative study of machine learning methods | |
US10614073B2 (en) | System and method for using data incident based modeling and prediction | |
WO2010037030A1 (en) | Evaluating loan access using online business transaction data | |
Johl et al. | Business group affiliation, board quality and audit pricing behavior: Evidence from Indian companies | |
CN107437227A (zh) | 股票投资分析装置与方法 | |
CN112464051A (zh) | 一种异常数据检测方法、装置及计算机可读存储介质 | |
CN110675078A (zh) | 上市公司风险诊断方法、系统、计算机终端及存储介质 | |
Liu et al. | Anticipating financial distress of high‐tech startups in the European Union: A machine learning approach for imbalanced samples | |
Glenski et al. | Improved forecasting of cryptocurrency price using social signals | |
CA3169417A1 (en) | Method of and system for appraising risk | |
Fieberg et al. | Machine learning in accounting research | |
US10719561B2 (en) | System and method for analyzing popularity of one or more user defined topics among the big data | |
CN114140221A (zh) | 一种欺诈风险预警方法、装置及设备 | |
Ndako | Financial liberalization, structural breaks and stock market volatility: Evidence from South Africa | |
Singarimbum et al. | How Commercial Banks in Emerging Economies Can Leverage Big Data Analytics: A perspective of Asian countries | |
Tang et al. | How can we learn from a borrower’s online behaviors? The signal effect of a borrower’s platform involvement on its credit risk | |
Dridi et al. | On monitoring financial stress index with extreme value theory | |
Li et al. | Restructuring performance prediction with a rebalanced and clustered support vector machine | |
RU2717903C1 (ru) | Автоматизированная система моделирования изменения содержания информационного пространства | |
Tutino et al. | Corporate governance and profitability. Value relevance of compliance to corporate governance best practice in Italian listed SMEs | |
CN114638504A (zh) | 企业风险评估方法、装置、设备、介质及产品 | |
Fernandez et al. | Motives for partial acquisitions between firms in the Spanish stock market |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |