CN113409025B - 一种业务数据提取方法、装置及存储介质 - Google Patents
一种业务数据提取方法、装置及存储介质 Download PDFInfo
- Publication number
- CN113409025B CN113409025B CN202110763091.4A CN202110763091A CN113409025B CN 113409025 B CN113409025 B CN 113409025B CN 202110763091 A CN202110763091 A CN 202110763091A CN 113409025 B CN113409025 B CN 113409025B
- Authority
- CN
- China
- Prior art keywords
- data
- service
- service data
- abnormal
- time interval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000013075 data extraction Methods 0.000 title claims abstract description 30
- 230000002159 abnormal effect Effects 0.000 claims abstract description 147
- 238000001514 detection method Methods 0.000 claims abstract description 136
- 230000007812 deficiency Effects 0.000 claims description 3
- RGCLLPNLLBQHPF-HJWRWDBZSA-N phosphamidon Chemical compound CCN(CC)C(=O)C(\Cl)=C(/C)OP(=O)(OC)OC RGCLLPNLLBQHPF-HJWRWDBZSA-N 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 6
- 238000012795 verification Methods 0.000 description 14
- 238000000605 extraction Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000015654 memory Effects 0.000 description 5
- 230000002547 anomalous effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 208000012260 Accidental injury Diseases 0.000 description 2
- 208000014674 injury Diseases 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 238000011895 specific detection Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000001047 Dixon's Q test Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Accounting & Taxation (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Operations Research (AREA)
- Development Economics (AREA)
- Technology Law (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本说明书实施例涉及大数据技术领域,具体公开了一种业务数据提取方法、装置及存储介质,所述方法包括:从业务系统中获取指定业务产品对应的业务数据,得到所述指定业务产品对应的业务数据集;其中,所述业务系统至少对应于一个数据源根据所述业务数据集所包含的数据源数量确定异常数据检测方式;利用确定的所述异常数据检测方式对所述业务数据集中的业务数据进行异常数据检测;基于所述业务数据集的异常数据检测结果,从所述业务数据集中提取所述指定业务产品对应的业务特征数据。利用本说明书各个实施例,可以提高业务产品的业务特征数据提取的准确性,进而提高相应业务产品的交易动态分析的准确性。
Description
技术领域
本说明书涉及大数据技术领域,特别地,涉及一种业务数据提取方法、装置及存储介质。
背景技术
随着全球金融市场的不断发展,外汇即期、外汇远期、利率掉期、利率远期、债券期货等业务产品的交易频率和交易总量不断增多,各业务产品的业务数据的数量、类型以及来源也越来越复杂,使得如何基于海量且来源复杂的业务数据对业务产品的交易动态进行准确分析,成为亟待解决的技术问题。
目前通常通过先从海量的业务数据中选取与交易动态分析关联性较强的业务数据,再基于该部分业务数据进一步优选可以表征产品交易动态的业务特征数据,进而基于该业务特征数据进行产品交易动态的分析。但上述过程,通常依赖人工经验执行,所提取的业务特征数据准确性较难保证,进而较难保证产品交易动态分析的准确性。
发明内容
本说明书实施例的目的在于提供一种业务数据提取方法、装置及存储介质,可以提高业务产品的业务特征数据提取的准确性,进而提高相应业务产品的交易动态分析的准确性。
本说明书提供一种业务数据提取方法、装置及存储介质是包括如下方式实现的:
一种业务数据提取方法,应用于服务器,所述方法包括:从业务系统中获取指定业务产品对应的业务数据,得到所述指定业务产品对应的业务数据集;其中,所述业务系统至少对应于一个数据源;根据所述业务数据集所包含的数据源数量确定异常数据检测方式;利用确定的所述异常数据检测方式对所述业务数据集中的业务数据进行异常数据检测;基于所述业务数据集的异常数据检测结果,从所述业务数据集中提取所述指定业务产品对应的业务特征数据。
另一方面,本说明书实施例提供一种业务数据提取装置,应用于服务器,所述装置包括:数据获取模块,用于从业务系统中获取指定业务产品对应的业务数据,得到所述指定业务产品对应的业务数据集;其中,所述业务系统至少对应于一个数据源;检测方式确定模块,用于根据所述业务数据集所包含的数据源数量确定异常数据检测方式;异常数据检测模块,用于利用确定的所述异常数据检测方式对所述业务数据集中的业务数据进行异常数据检测;特征数据提取模块,用于基于所述业务数据集的异常数据检测结果,从所述业务数据集中提取所述指定业务产品对应的业务特征数据。
另一方面,本说明书实施例提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现上述任意一个或者多个实施例所述方法的步骤。
本说明书一个或多个实施例提供的业务数据提取方法、装置及存储介质,通过提取至少一个数据源下的业务数据,再针对业务数据来源复杂多变的情况,根据所述业务数据集所包含的数据源数量确定异常数据检测方式,以基于相应的异常数据检测方式执行异常数据检测,提高异常数据检测的准确性,降低对正常业务数据的误伤。之后,可以基于所述业务数据集的异常数据检测结果,从所述业务数据集中提取所述指定业务产品对应的业务特征数据,以提高业务特征数据提取的准确性,进而可以提高相应业务产品的交易动态分析的准确性。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本说明书提供的服务器的模块结构示意图;
图2为本说明书提供的异常数据检测方式的确定流程示意图;
图3为本说明书提供的多数据源对应的异常数据检测流程示意图;
图4为本说明书提供的单一数据源对应的异常数据检测流程示意图;
图5为本说明书提供的业务数据提取方法的实施流程示意图;
图6为本说明书提供的业务数据提取装置的模块结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是说明书一部分实施例,而不是全部的实施例。基于说明书一个或多个实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书实施例方案保护的范围。
本说明书提供的一个场景示例中,所述业务数据提取方法可以应用于服务器,所述服务器可以是指单个服务器或者多个服务器组成的服务器集群。如图1所示,所述服务器中可以配置有业务数据获取单元1、异常数据检测单元2、业务特征数据提取单元3、提取结果验证单元4、缺失数据估计单元5。
业务数据获取单元1主要用于将原始业务数据基于时间排序从业务系统中提取出来,存储至业务数据快照表中。所述原始业务数据指的是从不同数据源处获得的业务数据。业务系统可以对应至少一个数据源。如,所述数据源可以是指不同的开源业务系统,也可以是指金融机构内部的业务系统。若某些业务数据不能从任何系统直接获得,也可通过手工导入的方式输入至业务数据快照表中。所述业务数据快照表的表结构举例如表1所示。
表1
特征值属性 | 属性值 |
交易时间 | 交易发生的实际时间 |
业务产品代码 | 业务产品的唯一标识符 |
ASK价格 | 产品卖方出价 |
BID价格 | 产品买方询价 |
MID价格 | 中间价 |
数据源 | 具体数据供应商名称 |
可以基于预设时间区间以及预设数据量要求,从业务系统中提取指定业务产品对应的业务数据。
一些实施方式中,所述预设时间区间如可以包括参考时间之前的第一子时间区间以及参考时间之后的第二子时间区间。所述参考时间可以是指所需提取业务数据的时间。如业务人员需要提取时间T下某业务产品的最优交易价格,则该时间T即可设置为参考时间。
例如,可以根据参考时间(T)、时间区间(ΔT1,ΔT2)来选取业务数据。其中,ΔT1定义了参考时间(T)之前的时间区间,可以描述为第一时间区间。ΔT2定义了参考时间(T)之后的时间区间,可以描述为第二时间区间。时间区间的长度如可以根据业务产品的流动性决定。所述业务产品的流动性取决于该业务产品交易量的大小,交易量越大,流动性越高。业务产品的流动性越高,同一时间区间内该业务产品可获得的业务数据就越多。在获取同样业务数据量的情况下,流动性越高的业务产品的时间区间设定的可以越小。当然,也可以基于其他因素来设定时间区间,或者也可以固定时间区间的长度。通过设置时间区间进行业务数据的选取,可以进一步选取有效的业务数据,提高业务特征数据提取的准确性及效率。
所述预设数据量要求可以包括第一子时间区间的第一基准数据总量、第一子时间区间中每个数据源的基准数据量、第二子时间区间的第一基准数据总量等。基准数据总量或基准数据量用于表征用于数据分析的业务数据量的理想要求。
例如,所述业务数据还可以根据预设数据量要求(N1,N2,N3)来决定。其中,N1定义了第一时间区间[T-ΔT1,T]的所需的数据量。N2定义了时间区间[T-ΔT1,T]中每个数据源所需的最理想数量,确保各类数据源都能有足够的数量提取到业务数据集中。当然,如果某条业务数据满足N2,但不包含在N1中,可额外纳入到业务数据集中。例如,N1=10,N2=2,可以根据N1、N2及上述时间区间来提取业务数据,得到初始的业务数据集。但可能存在某数据源A的业务数据较少,虽然业务数据集已经包含了10条业务数据,但只有1条是数据源A的,此时根据N2可知,数据源A的数据太少了,则可以再额外纳入1条数据源A的数据,以保证数据源A的数量。业务数据集的业务数据量可以稍微超出N1。N3定义了时间区间[T,T+ΔT2]所需的数据量。参考时间之后的业务数据对提取参考时间下的符合需求的业务数据提取通常影响较小,可以不设定各数据源的理想数据量。当然,如果有需要,也可以设定第二时间区间内各数据源的理由数据量,这里不做限定。
通过进一步设置数据量要求进行业务数据的选取,可以进一步使得业务数据总量以及各数据源的数据量满足理想要求,进而提高业务特征数据提取的准确性及效率。
假设业务产品FX-Spot-EUR的原始业务数据如表2所示,参考时间T=17:00,时间区间ΔT1=25且ΔT2=5,那么业务数据快照会在16:35(T-ΔT1)和17:05(T+ΔT2)之间获取,同时包括(T+ΔT2)和(T-ΔT1)。业务数据范围N1为10,N2为2,N3为6。根据所述参数提取的业务数据如表3所示。
表2
表3
交易时间 | 数据源 | 业务产品代码 | ASK价格 | BID价格 | MID价格 |
2021.4.1 16:36:00 | Contributor D | EURUSDSPOT | 1,4235 | 1,4235 | 1,4235 |
2021.4.1 16:42:00 | Contributor A | EURUSDSPOT | 1,4224 | 1,4224 | 1,4224 |
2021.4.1 16:44:00 | Contributor C | EURUSDSPOT | 1,4351 | 1,4351 | 1,4351 |
2021.4.1 16:45:00 | Contributor B | EURUSDSPOT | 1,425 | 1,425 | 1,425 |
2021.4.1 16:46:00 | Contributor B | EURUSDSPOT | 1,4298 | 1,4298 | 1,4298 |
2021.4.1 16:47:00 | Contributor C | EURUSDSPOT | 1,4302 | 1,4302 | 1,4302 |
2021.4.1 16:48:00 | Contributor B | EURUSDSPOT | 1,4323 | 1,4323 | 1,4323 |
2021.4.1 16:52:00 | Contributor B | EURUSDSPOT | 1,425 | 1,425 | 1,425 |
2021.4.1 16:54:00 | Contributor A | EURUSDSPOT | 1,4236 | 1,4236 | 1,4236 |
2021.4.1 16:57:00 | Contributor A | EURUSDSPOT | 1,4133 | 1,4133 | 1,4133 |
2021.4.1 16:59:00 | Contributor B | EURUSDSPOT | 1,4079 | 1,4079 | 1,4079 |
2021.4.1 17:03:00 | Contributor B | EURUSDSPOT | 1,4205 | 1,4205 | 1,4205 |
2021.4.1 17:04:00 | Contributor D | EURUSDSPOT | 1,4289 | 1,4289 | 1,4289 |
2021.4.1 17:05:00 | Contributor A | EURUSDSPOT | 1,4203 | 1,4203 | 1,4203 |
异常数据检测单元2用于对所述业务数据获取单元1的输出数据进行异常数据检测。通常,业务数据可能会存在异常波动,而这些异常波动的数据可能对最终的数据提取结果造成较大的干扰,影响最终数据提取的准确性。对异常数据的检测方式有很多种,但业务场景及数据源业通常复杂多变,如何更加准确高效地实现异常数据的检测,提取出有效地业务数据,降低异常数据对业务特征数据的提取,对业务特征数据提取的准确性是非常重要的。
所述业务特征数据可以是指预先设定的,可以较为直观表征业务产品的交易动态的数据。业务特征数据可以为业务数据中的某类数据,也可以为基于业务数据所提取的预设类型的数据。业务特征数据的类型可以根据需要配置。业务特征数据如可以为最优交易价格、交易量等等。
业务数据异常数据检测的具体检测对象可以根据待提取的业务特征数据类型确定。异常数据检测的业务数据对象为各条业务数据中的交易价格。例如,对于上述表2、表3所给的示例,可以先获取各条业务数据中的MID价格最为异常数据检测的业务数据对象;如果MID价格不可获得,则可以取BID价格;如果BID价格也不可获得,则可以取ASK价格。当然,业务数据异常数据检测的具体检测对象还可以为其他业务数据类型,这里不做限定。
异常数据检测单元在对业务数据进行异常数据检测过程中,可以对检测结果分别进行标识,以便于基于异常数据检测结果进行后续的处理,使得业务特征数据的提取更有针对性,进而提高业务特征数据提取的准确性。
一些实施方式中,异常数据检测结果标识可以包括数据量不足标识、异常数据标识、非异常数据标识、不在异常数据检测时间范围内的业务数据标识等等。例如,可以用-1标识不在异常数据检测时间范围内的业务数据;0标识由于数据量不足而无法进行异常数据检测的业务数据;1标识通过异常数据检测的业务数据(即非异常业务数据);2标识未通过异常数据检测的业务数据(即异常业务数据)。
一些实施方式中,可以根据所述业务数据集所包含的数据源数量确定异常数据检测方式。不同的数据源数量可以采用不同的异常数据检测方式。如数据源数量较少,则可以对各数据源分别执行异常数据检测。数据源数量较多,则可以通过从各数据源抽取数据的方式执行异常数据检测等等。
对于任一业务产品,可以将该业务产品作为指定业务产品,基于上述业务数据获取单元1的数据获取方式,从业务系统获取该指定业务产品对应的业务数据,得到所述指定业务产品对应的业务数据集。如图2所示,所述异常数据检测单元2可以对该指定业务产品对应的业务数据集执行下述步骤进行异常数据检测。
步骤21:检测所述指定业务产品的业务数据集,判断业务数据集所包含的业务数据条目是否少于第一指定值。所述第一指定值可以根据需要设定,例如,所述第一指定值可以为3、5。
步骤22:如果业务数据集所包含的业务数据条目少于第一指定值,则可以利用0来标识该指定业务产品的业务数据集中所有业务数据。
步骤23:如果业务数据集所包含的业务数据条目大于等于第一指定值,则可以检测所述业务数据集中参考时间之前的业务数据所对应的数据源数量,判断数据源数量是否大于第二指定值。所述第二指定值如可以为3。当然,第二指定值也可以为其他值,可以根据各业务产品的业务数据实际情况设定,这里不做限定。
步骤24:如果数据源数量大于第二指定值,执行多数据源的异常数据检测方式。
步骤25:如果数据源数量小于等于第二指定值,执行单一数据源的异常数据检测方式。
如图3所示,可以执行下述多数据源的异常数据检测方式对业务数据集进行异常数据检测。
步骤31:检测所述业务数据集中参考时间及其之前的业务数据所对应的数据源数量,作为目标数据源数量。并获取所述业务数据集中各数据源最靠近参考时间的一条业务数据,组成业务数据队列。
步骤32:如果目标数据源数量小于等于第三指定值,采用迪克逊检测方法(Dixon’s Q test)对所述业务数据队列中的各条业务数据进行检测。
步骤33:如果目标数据源数量大于第三指定值,则采用格鲁普斯检测方法(Grubbs’s test)对所述业务数据队列中的各条业务数据进行检测。
其中,第三指定值大于第二指定值。所述第三指定值如可以为7。当然,第三指定值也可以为其他值,可以根据各业务产品的业务数据实际情况设定,这里不做限定。
步骤34:判断所述步骤32或33的异常数据检测结果。
步骤35:如果检测结果不为异常数据,则利用1来标识业务数据集中各业务数据,并停止检测。
步骤36:如果检测结果为异常数据,则利用2来标识该条业务数据。
步骤37:移除该条标识为2的业务数据,转至步骤31。
从业务数据集中提取各数据源对应的业务数据,得到相应数据源对应的业务数据子集。对各业务数据子集利用单一数据源的异常数据检测方式进行检测,具体实施步骤见图4。
步骤41:检测所述业务数据子集的业务数据数量是否大于第四指定值;如果不是,转至42;如果是,转至43。所述第四指定值如可以为10。当然,第四指定值也可以为其他值,可以根据各业务产品的业务数据实际情况设定,这里不做限定。
步骤42:利用0标识所述业务数据子集的所有业务数据,并停止检测。
步骤43:采用Z值检测方法对所述业务数据子集中的业务数据进行检测。
步骤44:判断检测结果是有异常数据。如果检测结果有异常数据,转至45及46;如果检测结果不为异常数据,转至47。
步骤45:利用2标识该检测结果为异常数据的业务数据。
步骤46:移除标识为2的业务数据;并转至步骤41。
步骤47:利用1标识所述业务数据子集中的所有业务数据;并停止检测。
业务特征数据提取单元3用于基于所述异常数据检测结果所对应的业务数据提取规则,从所述业务数据集中提取所述指定业务产品对应的目标业务数据。例如,可以执行下述步骤51至步骤53选取指定业务产品在参考时间下的最优价格。
步骤51:从所述业务数据集中剔除标识为2的业务数据,得到更新后的业务数据集。
步骤52:选取更新后的业务数据集中在参考时间及参考时间之前的数据,得到目标业务数据集。
步骤53:根据预设选取规则从所述目标业务数据集中选取对应于该参考时间的最优价格。所述预设选取规则可以包括:
(1)选取所述目标业务数据集中在参考时间之前最靠近参考时间的业务数据的价格。
(2)获取所述目标业务数据集中指定数据源对应的业务数据,得到所示指定数据源对应的指定业务数据子集。从所述指定业务数据子集中选取参考时间之前最靠近参考时间的业务数据的价格。
(3)选取所述目标业务数据集中各业务数据的价格的平均值。
当所述目标业务数据集中各业务数据的标识全都为0时,选择规则(3)计算参考时间下的最优价格。当所述目标业务数据集中各业务数据的标识不全都为0时,判断是否存在指定数据源,如果不存在,则选择规则(1)计算参考时间下的最优价格。如果存在指定数据源,则选择规则(2)计算参考时间下的最优价格。
所述指定数据源可以为预先指定的对最优价格的计算影响较大的数据源。所述指定数据源可以是一个数据源,也可以包括多个数据源。或者,如果业务数据集中存在标识为0的业务数据时,也可以将业务数据集中标识为1的业务数据对应的数据源作为指定数据源。对于执行单一数据源的异常数据检测方式执行异常数据检测的业务数据集,可能存在部分数据源的业务数据量较少(该数据源对应的业务数据子集下的业务数据均被标识为0),则该数据源对最优价格的计算影响较小,且也未实际进行异常数据筛选,相应的,在最优价格计算时,可以不再考虑该数据源,而选取其他数据源的业务数据进行最优价格的计算,从而可以进一步提高最优价格计算的准确性,降低小数量数据源对价格计算的影响,
通过先基于时间选取要求以及数据量选取要求进行业务数据集的构建,再对业务数据集进行异常数据检测,将检测出的异常数据进行剔除,可以降低异常数据对业务特征数据提取的干扰,提高特征数据提取结果的准确性。进一步的,在异常数据检测的过程中,针对业务数据来源及数量复杂多变的情况,可以进一步基于不同的异常数据检测方式执行异常数据检测,进而提高异常数据检测的高效性及准确性,并降低对正常业务数据的误伤。同时,针对不同业务产品的数据量差异以及各数据源的数据量差异,还进一步提供了不同的业务特征数据提取规则,进一步保证了不同情况下的业务特征数据提取的准确性。
提取结果验证单元4用于对所述业务特征数据提取单元3选取的业务数据进行验证。例如,所述提取结果验证单元4包括且不限于以下三种验证规则:
(1)遗漏价格验证,验证业务产品当天是否有最优价格。
(2)过期价格验证,验证业务产品过往n天的历史最优价格是否与参考时间当天的最优价格相同。
(3)每日异常大额波动验证,获取业务产品当天以及历史价格,用Z值检测验证当天价格是否异常。
若存在一个验证规则的结论为否,则该业务产品的验证结果将会标识为Y,并记录具体未通过的验证规则名称。可将上述验证结果生成验证报告,供业务人员查看,便于及时了解各业务产品的数据情况。
缺失数据估计单元5用于填入遗漏数据。具体而言,指的是某些业务产品由于流动性差,在所述业务数据获取单元1中并没有这些业务产品的数据,从而导致这些业务产品的价格有遗漏。而出于风险评估等数据处理的需要,服务器依然需要获取这些业务产品的价格。
步骤61:从提取结果验证单元4的输出数据中选择出遗漏价格验证规则的验证结果为否的业务产品。
步骤62:根据遗漏数据估计方法估计该业务产品的遗漏价格数据。
步骤63:将遗漏价格数据更新到数据表中,并更新遗漏价格验证标识。
所述遗漏数据估计方法可以包括以先前数值代替遗漏数值,也包括用过去一段时间的业务数据的平均值来代替遗漏数值,也可包括用历史数据及业务产品特性来预测遗漏数据等等。
基于上述场景示例,本说明书还提供一种业务数据提取方法。图5是本说明书提供的所述业务数据提取方法实施例流程示意图。如图5所示,本说明书提供的业务数据提取方法的一个实施例中,所述方法可以应用于服务器。所述方法可以包括如下步骤。
S502:从业务系统中获取指定业务产品对应的业务数据,得到所述指定业务产品对应的业务数据集;其中,所述业务系统至少对应于一个数据源;
S504:根据所述业务数据集所包含的数据源数量确定异常数据检测方式;
S506:利用确定的所述异常数据检测方式对所述业务数据集中的业务数据进行异常数据检测。
S508:基于所述业务数据集的异常数据检测结果,从所述业务数据集中提取所述指定业务产品对应的业务特征数据。
上述实施例,通过从至少一个数据源获取某业务产品的业务数据,再根据所述业务数据集所包含的数据源数量确定异常数据检测方式,利用确定的所述异常数据检测方式对所述业务数据集中的业务数据进行异常数据检测,可以进一步提高复杂数据源场景下异常数据检测的准确性。之后,再基于异常数据检测结果,从所述业务数据集中提取所述指定业务产品对应的业务特征数据,可以大幅提高业务特征数据提取的准确性,进而提高基于该业务特征数据对相应业务产品的交易动态分析的准确性。
另一些实施例中,服务器可以基于预设时间区间从业务系统中获取指定业务产品对应的业务数据;其中,所述预设时间区间至少包括参考时间之前的第一子时间区间以及参考时间之后的第二子时间区间。
另一些实施例中,服务器可以进一步基于预设数据量要求从所述业务系统中获取指定业务产品对应的业务数据,所述预设数据量要求至少包括第一子时间区间的第一基准数据总量、第一子时间区间中每个数据源的基准数据量、第二子时间区间的第一基准数据总量。
另一些实施例中,服务器还可以在所述业务数据集中的业务数据数量大于等于第一指定值的情况下,根据所述第一子时间区间所包含的数据源数量确定异常数据检测方式。
另一些实施例中,服务器还可以在所述第一子时间区间所包含的数据源数量大于第二指定值的情况下,执行多数据源的异常数据检测方式;以及在所述第一子时间区间所包含的数据源数量小于等于第二指定值的情况下,执行单一数据源的异常数据检测方式。
另一些实施例中,执行多数据源的异常数据检测方式对所述业务数据集进行异常数据检测可以包括:
获取所述业务数据集在参考时间及第一子时间区间下的业务数据对应的数据源数量,作为目标数据源数量:并获取所述业务数据集中各数据源最靠近参考时间的一条业务数据,组成业务数据队列;
在所述目标数据源数量大于第三指定值的情况下,采用格鲁普斯检测方法对所述业务数据队列进行异常数据检测;
在所述目标数据源数量小于等于第三指定值的情况下,采用迪克逊检测方法对所述业务数据队列进行异常数据检测;
若基于格鲁普斯检测方法或迪克逊检测方法的检测结果存在异常数据的情况下,从所述业务数据集中移除该检测结果为异常数据的业务数据,并对移除业务数据后的业务数据集重复上述目标数据源数量至异常数据检测的步骤,直至检测结果不存在异常数据;
在检测结果不存在异常数据的情况下,停止异常数据检测。
另一些实施例中,在执行单一数据源的异常数据检测方式对业务数据集进行异常数据检测时,服务器可以先从所述业务数据集中提取各数据源对应的业务数据,得到各数据源对应的业务数据子集,再执行单一数据源的异常数据检测方式对任一所述业务数据子集进行异常数据检测。具体可以包括:
在所述业务数据子集中的业务数据量小于第四指定值的情况下,对所述业务数据子集中的各业务数据进行数据量不足标识;
在所述业务数据子集中的业务数据量大于等于第四指定值的情况下,利用Z值检测方法对所述业务数据子集中的业务数据进行异常数据检测;
如果检测结果存在异常数据,从所述业务数据子集中移除该检测结果为异常数据的业务数据,并对移除业务数据后的业务数据子集重复上述业务数据量是否小于第四指定值的判断至异常数据检测的步骤,直至检测结果不存在异常数据;
在检测结果不存在异常数据的情况下,停止对所述业务数据子集的异常数据检测。
另一些实施例中,在所述业务数据集中的业务数据数量小于第一指定值的情况下,对所述业务数据集中的各业务数据进行数据量不足标识。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。具体的可以参照前述相关处理相关实施例的描述,在此不做一一赘述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
如图6所示,基于上述实施例提供的方法,本说明书实施例还提供一种业务数据提取装置,应用于服务器,所述装置包括:数据获取模块602,用于从业务系统中获取指定业务产品对应的业务数据,得到所述指定业务产品对应的业务数据集;其中,所述业务系统至少对应于一个数据源;检测方式确定模块604,用于根据所述业务数据集所包含的数据源数量确定异常数据检测方式;异常数据检测模块606,用于利用确定的所述异常数据检测方式对所述业务数据集中的业务数据进行异常数据检测;特征数据提取模块608,用于基于所述业务数据集的异常数据检测结果,从所述业务数据集中提取所述指定业务产品对应的业务特征数据。
需要说明的,上述所述的装置根据上述实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
本说明书还提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现包括上述任意一个或者多个实施例所述方法的步骤。所述存储介质可以包括用于存储信息的物理装置,通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。所述存储介质有可以包括:利用电能方式存储信息的装置如,各式存储器,如RAM、ROM等;利用磁能方式存储信息的装置如,硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘;利用光学方式存储信息的装置如,CD或DVD。当然,还有其他方式的可读存储介质,例如量子存储器、石墨烯存储器等等。
需要说明的是,本说明书实施例并不局限于必须是符合标准数据模型/模板或本说明书实施例所描述的情况。某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、存储、判断、处理方式等获取的实施例,仍然可以属于本说明书的可选实施方案范围之内。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述并不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
Claims (7)
1.一种业务数据提取方法,其特征在于,应用于服务器,所述方法包括:
从业务系统中获取指定业务产品对应的业务数据,得到所述指定业务产品对应的业务数据集;其中,所述业务系统至少对应于一个数据源;其中,包括:基于预设时间区间从业务系统中获取指定业务产品对应的业务数据;其中,所述预设时间区间至少包括参考时间之前的第一子时间区间以及参考时间之后的第二子时间区间;
根据所述业务数据集所包含的数据源数量确定异常数据检测方式;所述根据所述业务数据集所包含的数据源数量确定异常数据检测方式,包括:在所述业务数据集中的业务数据数量大于等于第一指定值的情况下,根据所述第一子时间区间所包含的数据源数量确定异常数据检测方式;所述根据所述第一子时间区间所包含的数据源数量确定异常数据检测方式,包括:在所述第一子时间区间所包含的数据源数量大于第二指定值的情况下,执行多数据源的异常数据检测方式;在所述第一子时间区间所包含的数据源数量小于等于第二指定值的情况下,执行单一数据源的异常数据检测方式;
利用确定的所述异常数据检测方式对所述业务数据集中的业务数据进行异常数据检测;
基于所述业务数据集的异常数据检测结果,从所述业务数据集中提取所述指定业务产品对应的业务特征数据。
2.根据权利要求1所述的方法,其特征在于,基于预设数据量要求从所述业务系统中获取指定业务产品对应的业务数据,所述预设数据量要求至少包括第一子时间区间的第一基准数据总量、第一子时间区间中每个数据源的基准数据量、第二子时间区间的第一基准数据总量。
3.根据权利要求1所述的方法,其特征在于,执行多数据源的异常数据检测方式对所述业务数据集进行异常数据检测,包括:
获取所述业务数据集在参考时间及第一子时间区间下的业务数据对应的数据源数量,作为目标数据源数量:并获取所述业务数据集中各数据源最靠近参考时间的一条业务数据,组成业务数据队列;
在所述目标数据源数量大于第三指定值的情况下,采用格鲁普斯检测方法对所述业务数据队列进行异常数据检测;
在所述目标数据源数量小于等于第三指定值的情况下,采用迪克逊检测方法对所述业务数据队列进行异常数据检测;
若基于格鲁普斯检测方法或迪克逊检测方法的检测结果存在异常数据的情况下,从所述业务数据集中移除该检测结果为异常数据的业务数据,并对移除业务数据后的业务数据集重复上述目标数据源数量至异常数据检测的步骤,直至检测结果不存在异常数据;
在检测结果不存在异常数据的情况下,停止异常数据检测。
4.根据权利要求1所述的方法,其特征在于,从所述业务数据集中提取各数据源对应的业务数据,得到各数据源对应的业务数据子集;并执行单一数据源的异常数据检测方式对任一所述业务数据子集进行异常数据检测,包括:
在所述业务数据子集中的业务数据量小于第四指定值的情况下,对所述业务数据子集中的各业务数据进行数据量不足标识;
在所述业务数据子集中的业务数据量大于等于第四指定值的情况下,利用Z值检测方法对所述业务数据子集中的业务数据进行异常数据检测;
如果检测结果存在异常数据,从所述业务数据子集中移除该检测结果为异常数据的业务数据,并对移除业务数据后的业务数据子集重复上述业务数据量是否小于第四指定值的判断至异常数据检测的步骤,直至检测结果不存在异常数据;
在检测结果不存在异常数据的情况下,停止对所述业务数据子集的异常数据检测。
5.根据权利要求1所述的方法,其特征在于,在所述业务数据集中的业务数据数量小于第一指定值的情况下,对所述业务数据集中的各业务数据进行数据量不足标识。
6.一种业务数据提取装置,其特征在于,应用于服务器,所述装置包括:
数据获取模块,用于从业务系统中获取指定业务产品对应的业务数据,得到所述指定业务产品对应的业务数据集;其中,所述业务系统至少对应于一个数据源;其中,包括:基于预设时间区间从业务系统中获取指定业务产品对应的业务数据;其中,所述预设时间区间至少包括参考时间之前的第一子时间区间以及参考时间之后的第二子时间区间;
检测方式确定模块,用于根据所述业务数据集所包含的数据源数量确定异常数据检测方式;所述根据所述业务数据集所包含的数据源数量确定异常数据检测方式,包括:在所述业务数据集中的业务数据数量大于等于第一指定值的情况下,根据所述第一子时间区间所包含的数据源数量确定异常数据检测方式;所述根据所述第一子时间区间所包含的数据源数量确定异常数据检测方式,包括:在所述第一子时间区间所包含的数据源数量大于第二指定值的情况下,执行多数据源的异常数据检测方式;在所述第一子时间区间所包含的数据源数量小于等于第二指定值的情况下,执行单一数据源的异常数据检测方式;
异常数据检测模块,用于利用确定的所述异常数据检测方式对所述业务数据集中的业务数据进行异常数据检测;
特征数据提取模块,用于基于所述业务数据集的异常数据检测结果,从所述业务数据集中提取所述指定业务产品对应的业务特征数据。
7.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被计算机执行时实现权利要求1-5中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110763091.4A CN113409025B (zh) | 2021-07-06 | 2021-07-06 | 一种业务数据提取方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110763091.4A CN113409025B (zh) | 2021-07-06 | 2021-07-06 | 一种业务数据提取方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113409025A CN113409025A (zh) | 2021-09-17 |
CN113409025B true CN113409025B (zh) | 2024-03-26 |
Family
ID=77685341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110763091.4A Active CN113409025B (zh) | 2021-07-06 | 2021-07-06 | 一种业务数据提取方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113409025B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815255A (zh) * | 2015-11-27 | 2017-06-09 | 阿里巴巴集团控股有限公司 | 检测数据访问异常的方法及装置 |
CN110322349A (zh) * | 2019-06-25 | 2019-10-11 | 阿里巴巴集团控股有限公司 | 一种数据的处理方法、装置及设备 |
WO2020038353A1 (zh) * | 2018-08-21 | 2020-02-27 | 瀚思安信(北京)软件技术有限公司 | 异常行为检测方法及系统 |
CN111738831A (zh) * | 2020-06-19 | 2020-10-02 | 中国建设银行股份有限公司 | 一种业务处理方法、装置及系统 |
CN112906722A (zh) * | 2019-11-19 | 2021-06-04 | 中国移动通信集团湖南有限公司 | 数据异常检测方法、装置及设备 |
CN112994960A (zh) * | 2019-12-02 | 2021-06-18 | 中国移动通信集团浙江有限公司 | 业务数据异常检测方法、装置及计算设备 |
-
2021
- 2021-07-06 CN CN202110763091.4A patent/CN113409025B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815255A (zh) * | 2015-11-27 | 2017-06-09 | 阿里巴巴集团控股有限公司 | 检测数据访问异常的方法及装置 |
WO2020038353A1 (zh) * | 2018-08-21 | 2020-02-27 | 瀚思安信(北京)软件技术有限公司 | 异常行为检测方法及系统 |
CN110322349A (zh) * | 2019-06-25 | 2019-10-11 | 阿里巴巴集团控股有限公司 | 一种数据的处理方法、装置及设备 |
CN112906722A (zh) * | 2019-11-19 | 2021-06-04 | 中国移动通信集团湖南有限公司 | 数据异常检测方法、装置及设备 |
CN112994960A (zh) * | 2019-12-02 | 2021-06-18 | 中国移动通信集团浙江有限公司 | 业务数据异常检测方法、装置及计算设备 |
CN111738831A (zh) * | 2020-06-19 | 2020-10-02 | 中国建设银行股份有限公司 | 一种业务处理方法、装置及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113409025A (zh) | 2021-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20150032759A1 (en) | System and method for analyzing result of clustering massive data | |
CN106547798B (zh) | 信息推送方法及装置 | |
CN107133289B (zh) | 一种确定商圈的方法和装置 | |
CN107203467A (zh) | 一种分布式环境下监督学习算法的基准测试方法和装置 | |
CN111814910B (zh) | 异常检测方法、装置、电子设备及存储介质 | |
CN113688042A (zh) | 测试场景的确定方法、装置、电子设备及可读存储介质 | |
CN111242318B (zh) | 基于异构特征库的业务模型训练方法及装置 | |
CN112565422B (zh) | 一种对电力物联网故障数据的识别方法、系统和存储介质 | |
CN112785194B (zh) | 工作流程的推荐方法、装置、可读存储介质及电子设备 | |
CN114328490B (zh) | 一种直播电商分析展现的构建方法、设备及介质 | |
CN112561333B (zh) | 一种考核数据处理方法、装置、电子设备及存储介质 | |
CN108985755B (zh) | 一种账号状态识别方法、装置及服务器 | |
CN113409025B (zh) | 一种业务数据提取方法、装置及存储介质 | |
CN116137061B (zh) | 数量统计模型的训练方法、装置、电子设备及存储介质 | |
CN111160987A (zh) | 一种信息展示方法、装置及系统 | |
CN105488061A (zh) | 一种验证数据有效性的方法及装置 | |
CN110717653A (zh) | 风险识别方法及装置和电子设备 | |
CN106779843B (zh) | 一种基于客户群体特征的商户竞合关系分析的方法和装置 | |
WO2013173422A1 (en) | Method and system for collapsing functional similarities and consolidating functionally similar, interacting systems | |
CN112232960A (zh) | 交易应用系统监控方法及装置 | |
US20080005159A1 (en) | Method and computer program product for collection-based iterative refinement of semantic associations according to granularity | |
CN111694872A (zh) | 一种业务处置的数据化方案的提供方法及装置 | |
CN112419047A (zh) | 利用特征趋势分析预测银行个人贷款逾期的方法及系统 | |
CN112560952A (zh) | 供应商考核方法、装置、电子设备和存储介质 | |
CN113254787B (zh) | 事件分析方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |