CN112347085A - 一种指标式数值型金融时间序列数据校核方法 - Google Patents
一种指标式数值型金融时间序列数据校核方法 Download PDFInfo
- Publication number
- CN112347085A CN112347085A CN202010666028.4A CN202010666028A CN112347085A CN 112347085 A CN112347085 A CN 112347085A CN 202010666028 A CN202010666028 A CN 202010666028A CN 112347085 A CN112347085 A CN 112347085A
- Authority
- CN
- China
- Prior art keywords
- data
- index
- value
- detected
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Quality & Reliability (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
一种指标式数值型金融时间序列数据校核方法,所述指标式数值型金融时间序列数据校核方法首先读取并存储指标式数值型金融时间序列数据即待检验数据;然后判断所读取的待检验数据中的指标类型;针对待检验数据中的不同类型的指标,使用对应的数据检验规则进行检验计算;输出检验计算结果。本申请能够自动读取、调用待检验指标式数值型金融时间序列数据,并对数据进行多重异常预警检验,提高数据审核效率,扩大数据审核覆盖面,降低人力成本,保障数据质量。
Description
技术领域
本发明属于金融数据管理技术领域,涉及一种指标式数值型金融时间序列数据校核方法。
背景技术
指标式数值型金融时间序列指的是将某一个或某几个金融指标的数值按其发生的时间先后顺序排列而成的数列,是各个金融机构、金融管理部门最常用的数据形式之一。原始的数据质量管理主要依托人工审核,存在耗时费力、审核标准不统一、审核覆盖面小等缺陷。传统的数据质量管理借助Excel等工具,通过设置相关公式进行审核,但仍存在数据导入困难、审核内容局限、维护不易等缺点。目前,部分数据质量管理通过自主开发系统实现,但在校验规则灵活度、动态适应性、校验内容丰富度、输出结果可读性等方面存在不足。
发明内容
为解决现有技术中的不足,本申请提供一种指标式数值型金融时间序列数据校核方法。
为了实现上述目标,本发明采用如下技术方案:
一种指标式数值型金融时间序列数据校核方法,其特征在于,所述方法包括以下步骤:
步骤1:读取并存储指标式数值型金融时间序列数据即待检验数据;
步骤2:判断步骤1所读取的待检验数据中的指标类型;
步骤3:针对待检验数据中的不同类型的指标,使用对应的数据检验规则进行检验计算;
步骤4:输出检验计算结果。
本发明进一步包括以下优选方案。
步骤1包括以下步骤:
步骤1.1:预设需识别的待检验数据的指标信息;所述待检验数据的指标信息包括用户上传的待检验数据文件的文件格式规范、文件命名规范、文件内容规范;
步骤1.2:根据预设的指标信息导入并存储待检验数据。
步骤1.1所述文件格式规范为待检验数据文件的文件类型,包括txt文本文件、excel文档格式数据文件、csv格式数据文件、word文档格式数据文件;
所述文件命名规范指规定用户上传的待检验数据文件的命名规则为:机构代码+上报数据日期。
所述文件内容规范指上传待检验数据文件中应至少包含指标名称、指标代码、指标属性、指标数值、指标等级和线性相关字段,其中,所述指标属性指的是该指标上报的指标数值为当期余额、当期发生额、当年累计发生额、累计发生额中的某一类;其中,所述指标等级指的是某一指标数据的影响程度,分为核心指标、一级指标、二级指标、三级指标及以下;若一个指标与另一指标线性相关,则该指标的线性相关字段记录与其线性相关的另一个指标的指标代码。
步骤1.2具体包括以下步骤:
步骤1.2.1:以机构代码库中的机构代码作为前缀树索引,以数据报送时间作为后缀树索引,筛选、识别并读取指标式数值型金融时间序列数据文件;
步骤1.2.2:读取指标式数值型金融时间序列数据文件中包含的步骤1.1已设定的待检验数据的指标信息并匹配指标信息,识别、筛选出各项指标;
步骤1.2.3:针对筛选出的各项指标,运用设定的表达式读取对应的指标数据:
首先将指标数据字段类型标记为数值型的字段筛选出来,对剩下的标识为字符型的字段判断是否为数值,如果判断为数值则将其转换成数值型数据;如果判断不为数值则认为上报数据文件不符合规范,将要求重新报送数据文件直至能够顺利读取并存储。
所述待检验数据中的指标类型包括:当期余额、当期发生额、当年累计发生额、累计发生额。
步骤3中,检验计算数据日期所有已读取的待检验数据是否符合数据检验规则,若待检验数据的指标全部通过检验,则将该待检验数据的所有指标标记为检验无误指标;若待检验数据的某指标不符合数据检验规则,将该指标标记为待说明指标。
步骤3中,进一步包括以下内容:
步骤3.1当根据步骤2判断待检验数据的指标属性为当期余额,且指标等级为核心指标时,则进入步骤3.2;
当根据步骤2判断待检验数据的指标属性为当期余额,进入步骤3.3;
当根据步骤2判断某两个待检验数据的指标属性为当期余额、当期发生额、当年累计发生额、累计发生额中任意一种,且这两个待检验数据指标之间具有线性相关关系时,进入步骤3.4;
当根据步骤2判断待检验数据的指标属性为上述情况以外的当期余额、当期发生额、当年累计发生额、累计发生额中任意一种时,进入步骤3.5;
步骤3.2根据下式计算待检验数据当期余额指标x的概率密度f(x):
其中,u为往期数据的均值,σ为往期数据的方差;
当待检验数据当期余额指标x的概率密度f(x)低于第一预设概率值时,则该待检测数据指标异常,为待说明指标,否则该指标校核通过;
步骤3.3随机抽取k个当期余额指标作为一个检测组,每期检验h个检验组。按照下式计算由k个当期余额指标组成的检验组中所有指标取值的概率p(x):
其中,k为检测组中的当期余额指标数,wi表示第i个当期余额指标的权重,ui为第i个当期余额指标的往期数据均值,σi为第i个当期余额指标往期数据方差,当p(x)低于第二预设概率值时,则检测组中所有待检测数据指标异常,为待说明指标;否则,该待检验数据校核通过;
所述k与h均可根据用户需要自行调整。
步骤3.4将具有线性相关性的两个待检验数据指标记为x和y:以其中任一个待检验数据指标作为自变量,另一个待检验数据指标作为因变量,根据所述两个待检验数据指标的历史数据进行线性回归得到线性回归模型:
y′=ax′+b
使用最小二乘法得到参数a和b;其中,y′表示为线性回归模型中与当前待检验数据指标y同类的数据指标,x′表示为线性回归模型中与当前待检验数据指标x同类的数据指标;
将当前待检验数据指标x代入上述线性回归模型计算得到线性回归模型计算值y″=ax+b;
计算线性回归模型计算值y″与当前待检验数据指标y之间的待检验差值d,
d=y″-y;
计算待检验数据指标y历史数据中所有线性回归模型计算值与实际数据指标之间的历史差值d1、d2…di′…dm,以及历史差值的均值ud和方差σd;其中m为所有差值总数;
最后,按照下式计算待检验差值d的概率密度p(d):
当待检验差值d的概率密度p(d)低于第三预设概率值时,则待检验数据指标y与x异常,均为待说明指标,否则该待检验收据校核通过;
步骤3.5使用基于逻辑校验规则的异常检测规则、基于异常模式定义规则的异常检测规则对待检验数据进行检验计算,符合检验规则,则该待检验数据校核通过,否则该待检验数据异常,为待说明指标。
其中,第一预设概率值、第二预设概率值、第三预设概率值均取值为85%。
在步骤3.5中,首先,通过指标代码筛选适用于相应逻辑规则的待检验指标;然后再通过基于异常模式定义规则的异常检测规则对待检验数据的当期余额进行检验。
所述逻辑校验规则为由运算符号、逻辑关系函数、指标代码、数据日期、自然数组合而成的待检验指标应该满足的条件式,若待检验指标不满足条件式,则认为该指标为待说明指标;
所述运算符号包括=、!=、+、-、*、/、>、<、≥、≤;
所述逻辑关系函数包括if、round、abs;
所述逻辑校验规则类型包括整数校验规则、特殊数值校验规则、共存校验规则、互斥校验规则、倍数校验规则、正负数校验规则、总分校验规则和包含校验规则,分别用于待检验指标的整数校验、特殊数值校验、共存校验、互斥校验、倍数校验、正负数校验、总分校验和包含校验;
其中!=表示不等号;if函数是指如果函数,round函数是指求整函数,abs函数是指绝对值函数。
采用基于异常模式定义规则的异常检测规则对待检验数据的当期余额进行检验,具体包括:
计算待检验数据中的相应指标自上一年年初到上期时间段内各期历史数据的“比上期”数值;
其中,所述“比上期”数值指的是某一指标当期数据减上期数据得到的差值;
若“比上期”数值个数大于或等于m*2,则以“比上期”数值中前m个最大值的平均值乘以“上限范围控制值”作为上限,以“比上期”数值中前m个最小值的平均值乘以“下限范围控制值”作为下限;否则取“比上期”数值中最大数为上限,“比上期”数值中最小数为下限;其中,m为正整数;
若待检验数据的余额指标出现以下情况,则认为校验没有通过:
当期“比上期”数值大于上限或小于下限,且绝对值超过“校验允许误差值”;
当期“比上期”数值小于等于上限且大于等于下限但其绝对值超过“校验绝对值临界值”;
当期“比上期”数值小于等于上限且大于等于下限但其变动比例超过“校验环比临界值”;
上期上报数据当期未上报数据或上期未上报数据当期上报数据的情况。
m的优选取值范围如下:
时间跨度/数据频度/4≤m≤时间跨度/数据频度/2;
上限范围控制值取1.5;
校验允许误差值取5000(单位,元);
校验绝对值临界值取对应待检验数据同类指标在正常情况下比上期数值最大值与最小值之间的差值;
校验环比临界值取对应待检验数据同类指标在正常情况下比上期数值环比变动最大值的1.5倍。
步骤4具体为:
检验完成后,向用户推送当期数据检验计算结果为待说明指标的相关信息,由用户判断待说明指标是否确实报送错误,若确实报送错误则用户重新报送数据,若判断报送无误,则用户对该指标未通过校验的原因进行说明。
本申请所达到的有益效果:
本申请针对指标式数值型金融时间序列数据,提出指标式数值型金融时间序列数据校核方法实现对待检验数据的自动识别、调用以及与各项校验关系间的匹配,实现全自动化检验。本申请根据指标字段自动识别具有不同特征属性的数据,并通过与其特征属性相适应的数据检验方法对其进行检验,能够更精准地识别出异常数据。数据检验方法既有常规固定检验,也包含随机抽样检验,在兼顾效率与效果的同时,保证检验指标具有遍历性。数据检验方法中内置多项参数能够根据用户对待审核数据的波动接收程度进行调整,实现检验规则松紧适度,自由调节。本申请能够实现数据审核自动化,统一数据审核标准,提高数据审核效率,扩大数据审核覆盖面,降低人力成本,保障数据质量。
附图说明
图1为本发明指标式数值型金融时间序列数据校核方法的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明的技术方案进行清楚、完整地描述。本申请所描述的实施例仅仅是本发明一部分的实施例,而不是全部实施例。基于本发明精神,本领域普通技术人员在没有作出创造性劳动前提下所获得的有所其它实施例,都属于本发明的保护范围。
如附图1所示,本发明公开了一种指标式数值型金融时间序列数据校核方法,其特征在于,所述方法包括以下步骤:
步骤1:读取并存储指标式数值型金融时间序列数据即待检验数据;
所述待检验数据中的指标类型包括:当期余额、当期发生额、当年累计发生额、累计发生额。当期余额、当期发生额、当年累计发生额、累计发生额。所述当期余额指的是某金融指标当期账目上剩余的数额,如单位贷款余额、单位存款余额等。所述当期发生额指的是某金融指标在一定时期(如月,季度或年度)内账目上变化的数额合计,如单位贷款当月发放额、单位存款当月发放额。所述当年累计发生额指的是某金融指标的账户在本年年初到当期账目上变化的数额合计,该类指标年初(1月1日)将清零,如单位贷款当年累计核销额。所述累计发生额指的是某金融指标自某一时间点开始到当期账目上变化的数额合计,该类指标年初(1月1日)不清零,如联行往来。
在本申请的优选实施例中,步骤1包括以下步骤:
步骤1.1:预设需识别的待检验数据的指标信息;所述待检验数据的指标信息包括用户上传的待检验数据文件的文件格式规范、文件命名规范、文件内容规范;
所述文件格式规范为待检验数据文件的文件类型,包括txt文本文件、excel文档格式数据文件、csv格式数据文件、word文档格式数据文件;
所述文件命名规范指规定用户上传的待检验数据文件的命名规则为:机构代码+上报数据日期;机构代码指每个机构独一无二的代码,如,连江村镇银行的机构代码为70203503000。其中,前四位表示机构类型,后七位表示机构所在地区。
所述文件内容规范指上传待检验数据文件中应至少包含指标名称、指标代码、指标属性、指标数值、指标等级和线性相关字段,其中,所述指标属性指的是该指标上报的指标数值为当期余额、当期发生额、当年累计发生额、累计发生额中的某一类;其中,所述指标等级指的是某一指标数据的影响程度,分为核心指标、一级指标、二级指标、三级指标及以下;所述指标数据的影响程度指的是该指标包含其他指标的情况,例如在信贷收支报表中,各项存款作为核心指标、个人存款作为一级指标、个人活期存款作为二级指标、个人活期消费性存款作为三级指标及以下。若指标等级字段标为核心指标则该指标为核心指标,若指标等级字段标为一级指标则该指标为一级指标,若指标等级字段标为二级指标则该指标为二级指标,若指标等级字段未标识则该指标为三级指标及以下;所述线性相关字段指的是若一个指标与另一个指标线性相关,则该指标的线性相关字段记录与其线性相关的另一个指标的指标代码。
步骤1.2:根据预设的指标信息导入并存储待检验数据。
步骤1.2具体包括以下步骤:
步骤1.2.1:以机构代码库中的机构代码作为前缀树索引,以数据报送时间作为后缀树索引,筛选、识别并读取指标式数值型金融时间序列数据文件;
步骤1.2.2:读取指标式数值型金融时间序列数据文件中包含的步骤1.1已设定的待检验数据的指标信息并匹配指标信息,识别、筛选出各项指标;
步骤1.2.3:针对筛选出的各项指标,运用设定的表达式读取对应的指标数据:
首先将指标数据字段类型标记为数值型的字段筛选出来,对剩下的标识为字符型的字段判断是否为数值,如果判断为数值则将其转换成数值型数据;如果判断不为数值则认为上报数据文件不符合规范,将要求重新报送数据文件直至能够顺利读取并存储。
步骤2:根据步骤1所读取的待检验数据的指标类型、指标等级、线性相关信息对待检验指标进行分类;
步骤3:针对待检验数据中的不同类型的指标,使用对应的数据检验规则进行检验计算;
检验计算数据日期所有已读取的待检验数据是否符合数据检验规则,若待检验数据的指标全部通过校核,则将该待检验数据的所有指标标记为检验无误指标;若待检验数据的某指标不符合数据检验规则,将该指标标记为待说明指标。
在本申请的优选实施例中,步骤3中,进一步包括以下内容:
步骤3.1当根据步骤2判断待检验数据的指标属性为当期余额,且指标等级为核心指标时,则进入步骤3.2;
当根据步骤2判断待检验数据的指标属性为当期余额时,进入步骤3.3;
当根据步骤2判断某两个待检验数据的指标属性为当期余额、当期发生额、当年累计发生额、累计发生额中任意一种,且这两个待检验数据指标之间具有线性相关关系时,进入步骤3.4;
当根据步骤2判断待检验数据的指标属性为上述情况以外的当期余额、当期发生额、当年累计发生额、累计发生额中任意一种时,进入步骤3.5;
步骤3.2根据下式计算待检验数据当期余额指标x的概率密度f(x):
其中,u为往期数据的均值,σ为往期数据的方差;
当待检验数据当期余额指标x的概率密度f(x)低于第一预设概率值时,则该待检测数据指标异常,为待说明指标,否则该指标校核通过;
所述第一预设概率值可根据实际要求具体设定,在本申请中优选第一预设概率值为85%。
步骤3.3随机抽取k个当期余额指标作为一个检测组,每期检验h个检验组。按照下式计算由k个当期余额指标组成的检验组中所有指标取值的概率p(x):
其中,k为检测组中的当期余额指标数,wi表示第i个当期余额指标的权重,ui为第i个当期余额指标的往期数据均值,σi为第i个当期余额指标往期数据方差,当p(x)低于第二预设概率值时,则检测组中所有待检测数据指标异常,为待说明指标;否则,该待检验数据校核通过;
所述第二预设概率值可根据实际要求具体设定,在本申请中优选第二预设概率值为85%。
所述k与h可根据实际要求具体设定,在本申请中优选k=4,h=20。
在一个实施例中,若抽取指标个数为4,随机抽取的结果为1个核心指标,一个一级指标,两个二级指标,则权重分别为0.5,0.25,0.125,0.125。
步骤3.4将具有线性相关性的两个待检验数据指标记为x和y,以其中任一个待检验数据指标作为自变量,另一个待检验数据指标作为因变量,根据所述两个待检验数据指标的历史数据进行线性回归得到线性回归模型:
y′=ax′+b
使用最小二乘法得到参数a和b;其中,y′表示为线性回归模型中与当前待检验数据指标y同类的数据指标,x′表示为线性回归模型中与当前待检验数据指标x同类的数据指标;
将当前待检验数据指标x代入上述线性回归模型计算得到线性回归模型计算值y″=ax+b;
计算线性回归模型计算值y″与当前待检验数据指标y之间的待检验差值d,
d=y″-y;
计算待检验数据指标y历史数据中所有线性回归模型计算值与实际数据指标之间的历史差值d1、d2…di′…dm,以及历史差值的均值ud和方差σd;其中m为所有差值总数;
最后,按照下式计算待检验差值d的概率密度p(d):
当待检验差值d的概率密度p(d)低于第三预设概率值时,则待检验数据指标y与x异常,均为待说明指标,否则该待检验收据校核通过。
所述第三预设概率值可根据实际要求具体设定,在本申请中优选第三预设概率值为85%。
按照上述方式,将待检验数据指标x作为因变量,将待检验数据指标y作为自变量,实现对待检验数据指标x的审核校验。
步骤3.5使用基于逻辑校验规则的异常检测规则、基于异常模式定义规则的异常检测规则对待检验数据进行检验计算,符合检验规则,则该待检验数据校核通过,否则该待检验数据异常,为待说明指标。
(1)首先,通过指标代码筛选适用于相应逻辑规则的待检验指标;
所述逻辑校验规则为由运算符号、逻辑关系函数、指标代码、数据日期、自然数组合而成的待检验指标应该满足的条件式,若待检验指标不满足条件式,则认为该指标为待说明指标;
所述运算符号包括=、!=、+、-、*、/、>、<、≥、≤;
所述逻辑关系函数包括if、round、abs;
所述逻辑校验规则类型包括整数校验规则、特殊数值校验规则、共存校验规则、互斥校验规则、倍数校验规则、正负数校验规则、总分校验规则和包含校验规则,分别用于待检验指标的整数校验、特殊数值校验、共存校验、互斥校验、倍数校验、正负数校验、总分校验和包含校验;
其中!=表示不等号;if函数是指如果函数,round函数是指求整函数,abs函数是指绝对值函数。
整数校验的待检验指标包括统计笔数、个数、家数类信息,指标单位始终是“个”,其数值应为整数,其校验规则为:A=round(A),意为:A等于A求整后数值;
特殊数值校验的待检验指标为空值或特定值,其校验规则为:A=a或A=0,意为A等于a,或A等于0;
共存校验的待检验指标为应同时上报数据,或同时不上报数据;其校验规则为:A=if(B=0){0}或A!=if(B!=0){0},意为如果B等于0则A等于0,或如果B不等于0则A等于0;
互斥校验的待检验指标为不应同时上报数据,其校验规则为:A!=if(B=0){0}或A=if(B!=0){0},意为如果B等于0则A不等于0,或如果B不等于0则A等于0;
倍数校验的待检验指标必须为某个特定数的整数倍,其校验规则形如:A=T*round(A/T),意为A等于T乘以A除以T的商求整后的数值,即A必须为T的整数倍,其中,T为大于1的自然数。
正负数校验的待检验指标有的必须为正数,有的必须为负数,其校验规则为:A=abs(A),或A=-abs(A),意为A等于A的绝对值,或A等于A的绝对值的负数;
总分校验的待检验指标必须满足汇总项目等于所有其中项之和,其校验规则为A=B+C,意为A等于B加C;
包含校验的待检验指标必须满足其中项小于等于汇总项,其校验规则为:A≤B或A<C,意为A小于等于B,或A小于C。
(2)采用基于异常模式定义规则的异常检测规则对待检验数据的当期余额进行检验,具体为:
计算待检验数据中的相应指标自上一年年初到上期时间段内各期历史数据的“比上期”数值;
其中,历史数据指的是相应指标在当期之前已报送的数据。所述“比上期”数值指的是某一指标当期数据减上期数据得到的差值。所述当期指的是数据上报日期,当期数据即数据上报日期上报的即期数据。
若“比上期”数值个数大于或等于m*2,则以“比上期”数值中前m个最大值的平均值乘以“上限范围控制值”作为上限,以“比上期”数值中前m个最小值的平均值乘以“下限范围控制值”作为下限;否则取“比上期”数值中最大数为上限,“比上期”数值中最小数为下限;其中,m为正整数;
若待检验数据的余额指标出现以下情况,则认为校验没有通过:
当期“比上期”数值大于上限或小于下限,且绝对值超过“校验允许误差值”;
当期“比上期”数值小于等于上限且大于等于下限但其绝对值超过“校验绝对值临界值”;
当期“比上期”数值小于等于上限且大于等于下限但其变动比例超过“校验环比临界值”;
上期上报数据当期未上报数据或上期未上报数据当期上报数据的情况时,即上期有报数本期未报数或上期未报数本期有报数。
本领域技术人员可以根据具体情况来选取m值的取值。在本申请的优选实施例中,m的优选取值范围如下:
时间跨度/数据频度/4≤m≤时间跨度/数据频度/2。
例如,某一待检验的指标式数值型金融时间序列的数据频度为1个月,时间跨度为2年(24个月),则24/1/4=6≤m≤24/1/2=12。某一待检验的指标式数值型金融时间序列的数据频度为1季(3个月),时间跨度为3年(36个月),则36/3/4=3≤n≤36/3/2=6。
上限范围控制值与下限范围控制值取决于用户对数据质量的要求以及某类指标比上期数值的正常变动幅度。一般情况下上限范围控制值与下限范围控制值均取1.5,即将[往期“比上期”数值的前m个最大值的平均值,往期“比上期”数值的前m个最小值的平均值]这一区间扩大150%。
校验允许误差值取5000(单位,元);校验允许误差值是根据该指标往期的变动情况以及用户对可能发生的错误的容忍度来定的,取5000意为当某一指标当期余额超过5000且当期“比上期”数值大于上限或小于下限时,为待说明指标;
校验绝对值临界值取对应待检验数据同类指标在正常情况下比上期数值最大值与最小值之间的差值。若某类金融指标在正常情况下比上期数值为-2000到1000之间,则将校验绝对值临界值定为3000较合理。若某指标比上期数值绝对值超过3000,则该指标大概率报送错误。
校验环比临界值取决于对应待检验数据同类指标在正常情况下比上期数值环比变动。若环比变动不超过200%,则将校验绝对值临界值定为300%较合理。若某指标比上期数值环比超过300%,则该指标大概率报送错误。优选地,校验环比临界值取对应待检验数据同类指标在正常情况下比上期数值环比变动最大值的1.5倍。
所述上限范围控制值与下限范围控制值、校验允许误差值、校验绝对值临界值、校验环比临界值用户均可根据实际情况自行修改。
步骤4:输出检验计算结果:检验完成后,向用户推送当期数据检验计算结果为待说明指标的相关信息,由用户判断待说明指标是否确实报送错误。用户根据反馈结果核验待说明指标的数据是否有误,若数据确实有误则重新报送并检验计算,若数据无误但因不满足异常检测算法而被列为待说明指标,则对该异常情况进行说明。
本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。
Claims (14)
1.一种指标式数值型金融时间序列数据校核方法,其特征在于,所述方法包括以下步骤:
步骤1:读取并存储指标式数值型金融时间序列数据即待检验数据;
步骤2:判断步骤1所读取的待检验数据中的指标类型;
步骤3:针对待检验数据中的不同类型的指标,使用对应的数据检验规则进行检验计算;
步骤4:输出检验计算结果。
2.根据权利要求1所述的一种指标式数值型金融时间序列数据校核方法,其特征在于:
步骤1包括以下步骤:
步骤1.1:预设需识别的待检验数据的指标信息;所述待检验数据的指标信息包括用户上传的待检验数据文件的文件格式规范、文件命名规范、文件内容规范;
步骤1.2:根据预设的指标信息导入并存储待检验数据。
3.根据权利要求2所述的一种指标式数值型金融时间序列数据校核方法,其特征在于:
步骤1.1所述文件格式规范为待检验数据文件的文件类型,包括txt文本文件、excel文档格式数据文件、csv格式数据文件、word文档格式数据文件;
所述文件命名规范指规定用户上传的待检验数据文件的命名规则为:机构代码+上报数据日期;
所述文件内容规范指上传待检验数据文件中应至少包含指标名称、指标代码、指标属性、指标数值、指标等级和线性相关字段,其中,所述指标属性指的是该指标上报的指标数值为当期余额、当期发生额、当年累计发生额、累计发生额中的某一类;其中,所述指标等级指的是某一指标数据的影响程度,分为核心指标、一级指标、二级指标、三级指标及以下;所述线性相关字段指的是若一个指标与另一个指标线性相关,则该指标的线性相关字段记录与其线性相关的另一个指标的指标代码。
4.根据权利要求3所述的一种指标式数值型金融时间序列数据校核方法,其特征在于:
步骤1.2具体包括以下步骤:
步骤1.2.1:以机构代码库中的机构代码作为前缀树索引,以数据报送时间作为后缀树索引,筛选、识别并读取指标式数值型金融时间序列数据文件;
步骤1.2.2:读取指标式数值型金融时间序列数据文件中包含的步骤1.1已设定的待检验数据的指标信息并匹配指标信息,识别、筛选出各项指标;
步骤1.2.3:针对筛选出的各项指标,运用设定的表达式读取对应的指标数据:
首先将指标数据字段类型标记为数值型的字段筛选出来,对剩下的标识为字符型的字段判断是否为数值,如果判断为数值则将其转换成数值型数据;如果判断不为数值则认为上报数据文件不符合规范,将要求重新报送数据文件直至能够顺利读取并存储。
5.根据权利要求1所述的一种指标式数值型金融时间序列数据校核方法,其特征在于:
所述待检验数据中的指标类型包括:当期余额、当期发生额、当年累计发生额、累计发生额。
6.根据权利要求5所述的一种指标式数值型金融时间序列数据校核方法,其特征在于:
步骤3中,检验计算数据日期所有已读取的待检验数据是否符合数据检验规则,若待检验数据的指标全部通过检验,则将该待检验数据的所有指标标记为检验无误指标;若待检验数据的某指标不符合数据检验规则,将该指标标记为待说明指标。
7.根据权利要求1或6所述的一种指标式数值型金融时间序列数据校核方法,其特征在于:
步骤3中,进一步包括以下内容:
步骤3.1当根据步骤2判断待检验数据的指标属性为当期余额,且指标等级为核心指标时,则进入步骤3.2;
当根据步骤2判断待检验数据的指标属性为当期余额时,进入步骤3.3;
当根据步骤2判断某两个待检验数据的指标属性为当期余额、当期发生额、当年累计发生额、累计发生额中任意一种,且这两个待检验数据指标之间具有线性相关关系时,进入步骤3.4;
当根据步骤2判断待检验数据的指标属性为上述情况以外的当期余额、当期发生额、当年累计发生额、累计发生额中任意一种时,进入步骤3.5;
步骤3.2根据下式计算待检验数据当期余额指标x的概率密度f(x):
其中,u为往期数据的均值,σ为往期数据的方差;
当待检验数据当期余额指标x的概率密度f(x)低于第一预设概率值时,则该待检测数据指标异常,为待说明指标,否则该指标校核通过;
步骤3.3随机抽取k个当期余额指标作为一个检测组,k≥2,每期检验h个检验组,按照下式计算由k个当期余额指标组成的检验组中所有指标取值的概率p(x):
其中,k为检测组中的当期余额指标数,wi表示第i个当期余额指标的权重,ui为第i个当期余额指标的往期数据均值,σi为第i个当期余额指标往期数据方差,当p(x)低于第二预设概率值时,则检测组中所有待检测数据指标异常,为待说明指标;否则,该待检验数据校核通过;
步骤3.4将具有线性相关性的两个待检验数据指标记为x和y:以其中任一个待检验数据指标作为自变量,另一个待检验数据指标作为因变量,根据所述两个待检验数据指标的历史数据进行线性回归得到线性回归模型:
y′=ax′+b
使用最小二乘法得到参数a和b;其中,y′表示为线性回归模型中与当前待检验数据指标y同类的数据指标,x′表示为线性回归模型中与当前待检验数据指标x同类的数据指标;
将当前待检验数据指标x代入上述线性回归模型计算得到线性回归模型计算值y″=ax+b;
计算线性回归模型计算值y″与当前待检验数据指标y之间的待检验差值d,
d=y″-y;
计算待检验数据指标y历史数据中所有线性回归模型计算值与实际数据指标之间的历史差值d1、d2…di′…dm,以及历史差值的均值ud和方差σd;其中m为所有差值总数;
最后,按照下式计算待检验差值d的概率密度p(d):
当待检验差值d的概率密度p(d)低于第三预设概率值时,则待检验数据指标y与x异常,均为待说明指标,否则该待检验收据校核通过;
步骤3.5使用基于逻辑校验规则的异常检测规则、基于异常模式定义规则的异常检测规则对待检验数据进行检验计算,符合检验规则,则该待检验数据校核通过,否则该待检验数据异常,为待说明指标。
8.根据权利要求7所述的一种指标式数值型金融时间序列数据校核方法,其特征在于:
第一预设概率值、第二预设概率值、第三预设概率值均取值为85%。
10.根据权利要求7所述的一种指标式数值型金融时间序列数据校核方法,其特征在于:
在步骤3.5中,首先,通过指标代码筛选适用于相应逻辑规则的待检验指标;然后再通过基于异常模式定义规则的异常检测规则对待检验数据的当期余额进行检验。
11.根据权利要求10所述的一种指标式数值型金融时间序列数据校核方法,其特征在于:
所述逻辑校验规则为由运算符号、逻辑关系函数、指标代码、数据日期、自然数组合而成的待检验指标应该满足的条件式,若待检验指标不满足条件式,则认为该指标为待说明指标;
所述运算符号包括=、!=、+、-、*、/、>、<、≥、≤;
所述逻辑关系函数包括if、round、abs;
所述逻辑校验规则类型包括整数校验规则、特殊数值校验规则、共存校验规则、互斥校验规则、倍数校验规则、正负数校验规则、总分校验规则和包含校验规则,分别用于待检验指标的整数校验、特殊数值校验、共存校验、互斥校验、倍数校验、正负数校验、总分校验和包含校验;
其中!=表示不等号;if函数是指如果函数,round函数是指求整函数,abs函数是指绝对值函数。
12.根据权利要求7或10所述的一种指标式数值型金融时间序列数据校核方法,其特征在于:
采用基于异常模式定义规则的异常检测规则对待检验数据的当期余额进行检验,具体包括:
计算待检验数据中的相应指标自上一年年初到上期时间段内各期历史数据的“比上期”数值;
其中,所述“比上期”数值指的是某一指标当期数据减上期数据得到的差值;
若“比上期”数值个数大于或等于m*2,则以“比上期”数值中前m个最大值的平均值乘以“上限范围控制值”作为上限,以“比上期”数值中前m个最小值的平均值乘以“下限范围控制值”作为下限;否则取“比上期”数值中最大数为上限,“比上期”数值中最小数为下限;其中,m为正整数;
若待检验数据的余额指标出现以下情况,则认为校验没有通过:
当期“比上期”数值大于上限或小于下限,且绝对值超过“校验允许误差值”;
当期“比上期”数值小于等于上限且大于等于下限但其绝对值超过“校验绝对值临界值”;
当期“比上期”数值小于等于上限且大于等于下限但其变动比例超过“校验环比临界值”;
上期上报数据当期未上报数据或上期未上报数据当期上报数据的情况。
13.根据权利要求12所述的一种指标式数值型金融时间序列数据校核方法,其特征在于:
m的优选取值范围如下:
时间跨度/数据频度/4≤m≤时间跨度/数据频度/2;
上限范围控制值取1.5;
校验允许误差值取5000元;
校验绝对值临界值取对应待检验数据同类指标在正常情况下比上期数值最大值与最小值之间的差值;
校验环比临界值取对应待检验数据同类指标在正常情况下比上期数值环比变动最大值的1.5倍。
14.根据权利要求1所述的一种指标式数值型金融时间序列数据校核方法,其特征在于:
步骤4具体为:检验完成后,向用户推送当期数据检验计算结果为待说明指标的相关信息,由用户判断待说明指标是否确实报送错误,若确实报送错误则用户重新报送数据,若判断报送无误,则用户对该指标未通过校验的原因进行说明。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010666028.4A CN112347085B (zh) | 2020-07-12 | 2020-07-12 | 一种指标式数值型金融时间序列数据校核方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010666028.4A CN112347085B (zh) | 2020-07-12 | 2020-07-12 | 一种指标式数值型金融时间序列数据校核方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112347085A true CN112347085A (zh) | 2021-02-09 |
CN112347085B CN112347085B (zh) | 2021-11-09 |
Family
ID=74357522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010666028.4A Active CN112347085B (zh) | 2020-07-12 | 2020-07-12 | 一种指标式数值型金融时间序列数据校核方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112347085B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103268535A (zh) * | 2013-05-31 | 2013-08-28 | 重庆大学 | 一种多层级特征的信息管理方法 |
CN104616107A (zh) * | 2015-02-03 | 2015-05-13 | 北方信息控制集团有限公司 | 一种科研绩效kpi管理方法与管理系统 |
CN105761010A (zh) * | 2016-02-24 | 2016-07-13 | 国网山东省电力公司 | 基于实时数据采集的集团企业稽核实时监控方法及系统 |
GB2537873A (en) * | 2015-04-29 | 2016-11-02 | Fujitsu Ltd | Data constraints for polyglot data tiers |
CN106126722A (zh) * | 2016-06-30 | 2016-11-16 | 中国科学院计算技术研究所 | 一种基于验证的前缀混合树及设计方法 |
CN108228635A (zh) * | 2016-12-19 | 2018-06-29 | 北京奇虎科技有限公司 | 财务数据的导入方法、装置及财务系统 |
CN109240882A (zh) * | 2018-08-30 | 2019-01-18 | 广发证券股份有限公司 | 一种金融数据一致性检测系统及方法 |
CN110147365A (zh) * | 2019-04-15 | 2019-08-20 | 平安普惠企业管理有限公司 | 业务数据与财务数据的核对方法、装置、设备及介质 |
US20200026693A1 (en) * | 2013-11-01 | 2020-01-23 | Commvault Systems, Inc. | Differential health checking of an information management system |
CN111241083A (zh) * | 2020-01-13 | 2020-06-05 | 平安证券股份有限公司 | 票据清算方法、装置、电子设备及计算机可读存储介质 |
CN111258998A (zh) * | 2020-01-16 | 2020-06-09 | 北京字节跳动网络技术有限公司 | 一种数据校验的方法、装置、介质和电子设备 |
-
2020
- 2020-07-12 CN CN202010666028.4A patent/CN112347085B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103268535A (zh) * | 2013-05-31 | 2013-08-28 | 重庆大学 | 一种多层级特征的信息管理方法 |
US20200026693A1 (en) * | 2013-11-01 | 2020-01-23 | Commvault Systems, Inc. | Differential health checking of an information management system |
CN104616107A (zh) * | 2015-02-03 | 2015-05-13 | 北方信息控制集团有限公司 | 一种科研绩效kpi管理方法与管理系统 |
GB2537873A (en) * | 2015-04-29 | 2016-11-02 | Fujitsu Ltd | Data constraints for polyglot data tiers |
CN105761010A (zh) * | 2016-02-24 | 2016-07-13 | 国网山东省电力公司 | 基于实时数据采集的集团企业稽核实时监控方法及系统 |
CN106126722A (zh) * | 2016-06-30 | 2016-11-16 | 中国科学院计算技术研究所 | 一种基于验证的前缀混合树及设计方法 |
CN108228635A (zh) * | 2016-12-19 | 2018-06-29 | 北京奇虎科技有限公司 | 财务数据的导入方法、装置及财务系统 |
CN109240882A (zh) * | 2018-08-30 | 2019-01-18 | 广发证券股份有限公司 | 一种金融数据一致性检测系统及方法 |
CN110147365A (zh) * | 2019-04-15 | 2019-08-20 | 平安普惠企业管理有限公司 | 业务数据与财务数据的核对方法、装置、设备及介质 |
CN111241083A (zh) * | 2020-01-13 | 2020-06-05 | 平安证券股份有限公司 | 票据清算方法、装置、电子设备及计算机可读存储介质 |
CN111258998A (zh) * | 2020-01-16 | 2020-06-09 | 北京字节跳动网络技术有限公司 | 一种数据校验的方法、装置、介质和电子设备 |
Non-Patent Citations (2)
Title |
---|
XULIANG DUAN等: "Research on Parallel Data Currency Rule Algorithms", 《ICISS 2020: PROCEEDINGS OF THE 2020 THE 3RD INTERNATIONAL CONFERENCE ON INFORMATION SCIENCE AND SYSTEM》 * |
王玥: "金融机构应用金融信用信息基础数据库统计指标体系构建分析_王玥", 《金融经济》 * |
Also Published As
Publication number | Publication date |
---|---|
CN112347085B (zh) | 2021-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102591854B (zh) | 针对文本特征的广告过滤系统及其过滤方法 | |
CN111597348B (zh) | 用户画像方法、装置、计算机设备和存储介质 | |
CN106384282A (zh) | 构建决策模型的方法和装置 | |
CN109635010B (zh) | 一种用户特征及特征因子抽取、查询方法和系统 | |
CN111913941B (zh) | 一种指标式数值型金融时间序列数据智能审核系统 | |
CN117455417B (zh) | 一种智能风控审批策略自动迭代优化方法及系统 | |
CN112837175B (zh) | 基于信息抽取技术的电力频繁停电工单信息抽取方法及系统 | |
CN115222303B (zh) | 基于大数据的行业风险数据分析方法、系统及存储介质 | |
CN114912787A (zh) | 一种企业危险废物瞒报漏报风险的智能评估方法 | |
CN115470962A (zh) | 一种基于LightGBM的企业失信风险预测模型构建方法 | |
CN109685321A (zh) | 基于数据挖掘的事件风险预警方法、电子设备及介质 | |
CN116012131A (zh) | 一种用于评估用户信贷风险的方法、系统、装置以及介质 | |
CN110008337B (zh) | 基于响应度衡量的并行lstm结构海关商品分类方法 | |
CN110795607A (zh) | 一种基于多级相似度计算的装备保障数据匹配方法及系统 | |
CN112347085B (zh) | 一种指标式数值型金融时间序列数据校核方法 | |
CN107943785B (zh) | 一种基于大数据的pdf文档处理方法及装置 | |
CN116629258B (zh) | 基于复杂信息项数据的司法文书的结构化分析方法及系统 | |
CN113962565B (zh) | 一种基于大数据的项目评分方法、系统和可读存储介质 | |
CN109635008A (zh) | 一种基于机器学习的设备故障检测方法 | |
CN115587828A (zh) | 一种基于Shap值的电信欺诈场景的可解释方法 | |
CN114741515A (zh) | 基于图生成的社交网络用户属性预测方法及系统 | |
CN113222384A (zh) | 一种基于改进熵值法的城镇化水平分析方法 | |
KR102110350B1 (ko) | 비표준화 데이터베이스를 위한 도메인 판별 장치 및 방법 | |
CN113591485A (zh) | 一种基于数据科学的智能化数据质量稽核系统及方法 | |
CN106126690A (zh) | 一种基于文本内容的网页信息过滤方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |