CN105930630A - 一种数据分析方法及装置 - Google Patents

一种数据分析方法及装置 Download PDF

Info

Publication number
CN105930630A
CN105930630A CN201510586861.7A CN201510586861A CN105930630A CN 105930630 A CN105930630 A CN 105930630A CN 201510586861 A CN201510586861 A CN 201510586861A CN 105930630 A CN105930630 A CN 105930630A
Authority
CN
China
Prior art keywords
data
analyzed
data source
analysis
analysis condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510586861.7A
Other languages
English (en)
Inventor
吴文昊
吕伊蒙
冯哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN201510586861.7A priority Critical patent/CN105930630A/zh
Publication of CN105930630A publication Critical patent/CN105930630A/zh
Pending legal-status Critical Current

Links

Abstract

本发明实施例涉及数据处理领域,尤其涉及一种数据分析方法及装置,用以实现对数据源中的数据进行复杂的分析。本发明实施例中,获取配置信息;配置信息是根据预先定义的语义集合配置的;配置信息中包括分析条件,分析条件对应至少两个数据源标识,以及每个数据源中待分析数据的标识;根据分析条件对应的数据源标识,从每个数据源标识对应的数据源中获取该数据源中待分析数据的标识对应的待分析数据;根据分析条件,对获取的所有待分析数据进行分析,得到数据分析结果。如此,可根据预先定义的语义集合,设置复杂语义的配置信息,进而实现了分析条件较复杂时,也可依据该复杂的分析条件对数据进行分析的目的。

Description

一种数据分析方法及装置
技术领域
本发明实施例涉及数据处理领域,尤其涉及一种数据分析方法及装置。
背景技术
随着当前通讯业的不断发展,相关软件系统也越来越复杂,这些系统一般都包含许多的子系统和外围系统,实际使用中,通常需要对多个系统之间的数据进行综合分析。比如,为了保证这些系统数据的一致性,经常对各系统间的同类数据进行勾兑,以使不同系统间的同类数据保持一致,从而保证整个系统的正常运行。
当前的数据分析系统仅能实现简单的对两个数据源的数据进行勾兑的操作,当对数据源操作要求比较复杂时,比如,对第一数据源和第二数据源进行勾兑,当出现勾兑不上的数据时,将该勾兑不上的数据与第三数据源中的数据进行勾兑。该操作要求中存在条件判断的操作,现有技术无法实现。
发明内容
本发明实施例提供一种数据分析方法和装置,用以实现对数据源中的数据进行复杂的分析。
本发明实施例提供一种数据分析方法,包括以下步骤:
获取配置信息;配置信息是根据预先定义的语义集合配置的;配置信息中包括分析条件,分析条件对应至少两个数据源标识,以及每个数据源中待分析数据的标识;
根据分析条件对应的数据源标识,从每个数据源标识对应的数据源中获取该数据源中待分析数据的标识对应的待分析数据;
根据分析条件,对获取的所有待分析数据进行分析,得到数据分析结果。
可选地,分析条件包括N个子分析条件,其中,N为正整数;
N个子分析条件中包括至少一个第一子分析条件和一个第二子分析条件;其中,每个子分析条件至少对应一个数据源和该数据源中的待分析数据的标识;
根据分析条件,对获取的所有待分析数据进行分析,具体包括:
根据第一子分析条件,对从第一子分析条件对应的数据源中获取的待分析数据进行分析,得到第一子分析结果;
在确定第一子分析结果符合预设条件时,根据第二子分析条件,对从第二子分析条件对应的数据源中获取的待分析数据进行分析,得到第二子分析结果,将第二子分析结果为数据分析结果的一部分;或者
在确定第一子分析结果不符合预设条件时,将第一子分析结果作为数据分析结果的一部分。
可选地,数据源中的待分析数据的标识为以下内容中的任一项或任几项的组合:
用于标识出数据源中的所有数据的标识、待分析数据中的一个字段的值、待分析数据中的多个字段的值的组合、待分析数据中的一个字段的所有值中的部分值、待分析数据中的多个字段中每个字段的所有值中部分值的组合。
可选地,根据分析条件,对获取的所有待分析数据进行分析,具体包括:
根据分析条件,将每个数据源中的待分析数据按照哈希hash分为至少一个数据块;其中,每个数据块对应一个hash标识;
根据分析条件,并行的对每个数据源中hash标识相同的数据块进行数据分析。
可选地,配置信息中还包括数据分析结果输出条件;
根据分析条件,对获取的所有待分析数据进行分析,得到数据分析结果,具体包括:
根据分析条件,对获取的所有待分析数据进行分析;
根据数据分析结果输出条件,生成数据分析结果;
其中,数据分析结果输出条件具体为:
数据分析结果中的数据至少包括一个映射字段;映射字段的值为为任一待分析数据的全部值或部分值,或者为M个待分析数据的全部值或部分值的组合,M为大于等于2的整数。
可选地,得到数据分析结果之后,还包括:
将数据分析结果输入至线程池;
周期性并行的将线程池中的多个数据分析结果输出。
本发明实施例提供一种数据分析装置,包括:
第一获取单元,用于获取配置信息;配置信息是根据预先定义的语义集合配置的;配置信息中包括分析条件,分析条件对应至少两个数据源标识,以及每个数据源中待分析数据的标识;
第二获取单元,用于根据分析条件对应的数据源标识,从每个数据源标识对应的数据源中获取该数据源中待分析数据的标识对应的待分析数据;
分析单元,用于根据分析条件,对获取的所有待分析数据进行分析,得到数据分析结果。
可选地,分析条件包括N个子分析条件,其中,N为正整数;
N个子分析条件中包括至少一个第一子分析条件和一个第二子分析条件;其中,每个子分析条件至少对应一个数据源和该数据源中的待分析数据的标识;
分析单元,具体用于:
根据第一子分析条件,对从第一子分析条件对应的数据源中获取的待分析数据进行分析,得到第一子分析结果;
在确定第一子分析结果符合预设条件时,根据第二子分析条件,对从第二子分析条件对应的数据源中获取的待分析数据进行分析,得到第二子分析结果,将第二子分析结果为数据分析结果的一部分;或者
在确定第一子分析结果不符合预设条件时,将第一子分析结果作为数据分析结果的一部分。
可选地,数据源中的待分析数据的标识为以下内容中的任一项或任几项的组合:
用于标识出数据源中的所有数据的标识、待分析数据中的一个字段的值、待分析数据中的多个字段的值的组合、待分析数据中的一个字段的所有值中的部分值、待分析数据中的多个字段中每个字段的所有值中部分值的组合。
可选地,分析单元,具体用于:
根据分析条件,将每个数据源中的待分析数据按照哈希hash分为至少一个数据块;其中,每个数据块对应一个hash标识;
根据分析条件,并行的对每个数据源中hash标识相同的数据块进行数据分析。
可选地,配置信息中还包括数据分析结果输出条件;
分析单元,具体用于:
根据分析条件,对获取的所有待分析数据进行分析;
根据数据分析结果输出条件,生成数据分析结果;
其中,数据分析结果输出条件具体为:
数据分析结果中的数据至少包括一个映射字段;映射字段的值为为任一待分析数据的全部值或部分值,或者为M个待分析数据的全部值或部分值的组合,M为大于等于2的整数。
可选地,分析单元,还用于:
将数据分析结果输入至线程池;
周期性并行的将线程池中的多个数据分析结果输出。
本发明实施例中,获取配置信息;配置信息是根据预先定义的语义集合配置的;配置信息中包括分析条件,分析条件对应至少两个数据源标识,以及每个数据源中待分析数据的标识;根据分析条件对应的数据源标识,从每个数据源标识对应的数据源中获取该数据源中待分析数据的标识对应的待分析数据;根据分析条件,对获取的所有待分析数据进行分析,得到数据分析结果。由于预先定义语义集合,且配置信息是根据预先定义的语义集合配置的,因此,可根据预先定义的语义集合,设置复杂语义的配置信息,进一步由于可根据该配置信息中包括的分析条件,对获取的所有待分析数据进行分析,进而实现了分析条件较复杂时,也可依据该复杂的分析条件对数据进行分析的目的。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据分析方法适用的系统架构示意图;
图2为本发明实施例提供的一种数据分析方法流程示意图;
图3为本发明实施例提供的一种数据分析方法的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明实施例适用的系统架构示意图。该系统架构中包括一个或多个数据分析装置,比如数据分析装置101、数据分析装置105、数据分析装置106,其中,每个数据分析装置可实现与一个或多个数据源连接,比如数据分析装置101与数据源102、数据源103和数据源104连接,数据分析装置105与数据源102、数据源103和数据源104连接,数据分析装置106与数据源102、数据源103和数据源104连接。本发明实施例中的任一个数据分析装置均可读取一个或多个数据源中的数据。
本发明实施例中的任意多个数据分析装置均可并行的执行本发明实施例中的数据分析方法。举例来说,数据分析装置101、数据分析装置105和数据分析装置106均并行的分别执行一套数据分析方法,从第一时刻开始,数据分析装置101对数据源102和数据源103中的数据进行勾兑,从第一时刻开始,数据分析装置105对数据源103和数据源104中的数据进行勾兑,从第一时刻开始,数据分析装置106对数据源102和数据源104中的数据进行勾兑。可见,本发明实施例中,多个服务器可单独的并行的分别处理一个数据分析任务,提高了数据分析效率。
本发明实施例中的多个数据分析装置也可并行的执行一套本发明实施例中的数据分析方法。举例来说,数据分析装置101、数据分析装置105和数据分析装置106均并行的执行同一套数据分析方法,即数据分析装置101、数据分析装置105和数据分析装置106均并行的对数据源102和数据源103中的数据进行勾兑。此时,数据源102或数据源103将数据源102和数据源103中的数据分别为三块,分别为数据源102的第一块数据,数据源102的第二块数据,数据源102的第三块数据,数据源103的第一块数据,数据源103的第二块数据,数据源103的第三块数据。每个数据分析装置对数据源102和数据源103中的一个块的数据进行勾兑,即数据分析装置101对数据源102的第一块数据和数据源103的第一块数据进行勾兑,数据分析装置105对数据源102的第二块数据和数据源103的第二块数据进行勾兑,数据分析装置106对数据源102的第三块数据和数据源103的第三块数据进行勾兑。可选地,先对数据源102和数据源103中的数据进行哈希,数据源102的第一块数据进行哈希之后的标识与数据源103的第一块数据进行哈希之后的标识相同;数据源102的第二块数据进行哈希之后的标识与数据源103的第二块数据进行哈希之后的标识相同;数据源102的第三块数据进行哈希之后的标识与数据源103的第三块数据进行哈希之后的标识相同。可见,多个服务器同时并行的执行一个数据分析任务,提高了数据分析的效率。
可选地,数据分析装置连接线程池107,线程池107连接多个数据源。此时,多个数据分析装置中每个数据分析装置分别生成的数据分析结果可先放入线程池107中,线程池107起到一个缓冲的作用,之后通过周期性的任务调度系统,定期的将线程池中储存的数据分析结果导入至某一个或某几个数据源中。
本发明实施例中的数据分析装置101可为服务器等网络装置。数据分析装置101可读取所连接的数据源中的数据。
本发明实施例中的数据源可为数据库,或非数据库类型的数据源。本发明实施例中可对数据库中存储的大数据,比如几百G数据甚至是几百T的数据进行数据分析。
基于图1所示的系统架构,图2示出了本发明实施例提供的一种数据分析方法,包括以下步骤:
步骤201,获取配置信息;配置信息是根据预先定义的语义集合配置的;配置信息中包括分析条件,分析条件对应至少两个数据源标识,以及每个数据源中待分析数据的标识;
步骤202,根据分析条件对应的数据源标识,从每个数据源标识对应的数据源中获取该数据源中待分析数据的标识对应的待分析数据;
步骤203,根据分析条件,对获取的所有待分析数据进行分析,得到数据分析结果。
本发明实施例中的数据源可以为多个,比如,可同时对至少三个数据源中的数据进行数据分析,比如同时对三个或十个数据源中的数据进行分析。也就是说,本发明实施例中的数据源可以横向扩展。本发明实施例中的数据源还可以是跨系统的数据源,本发明实施例可实现对跨系统的数据源分别建立连接之后,直接从不同系统的数据源中读取各自对应的待分析数据。本发明实施例中可以对多个数据源中包括的所有数据进行分析,也可对数据源的全部数据中的部分数据进行分析。即一个数据源中的待分析数据可为该数据源中的所有数据,也可为该数据源中的部分数据。举个例子,对数据源A的所有数据和数据源B的所有数据进行数据分析。或者,对数据源A中数据用户名为张三的数据与数据源B中用户名为张三的数据进行数据分析。
可选地,本发明实施例中的待分析数据的标识为以下内容中的任一项或任几项的组合:
用于标识出数据源中的所有数据的标识、待分析数据中的一个字段的值、待分析数据中的多个字段的值的组合、待分析数据中的一个字段的所有值中的部分值、待分析数据中的多个字段中每个字段的所有值中部分值的组合。
举个例子,数据源中一个用户的银行卡消费记录数据包括多个字段,分别为该用户标识字段、银行卡标识字段、消费日期字段、消费金额字段、消费地点字段。每个字段对对应一个值,比如用户标识字段的值为张三,银行卡标识字段的值为987654321123456,消费日期字段的值为2015年9月11日,消费金额字段为500元,消费地点字段的值为上海。
此时,待分析数据的标识可为用于标识出数据源中的所有数据的标识,比如标识出数据源中所有数据的标识;
待分析数据的标识为待分析数据中的一个字段的值,比如,待分析数据的标识可为“上海”,即将数据源中消费地点为“上海”的数据进行分析;
待分析数据的标识为待分析数据中的多个字段的值的组合,比如待分析数据的标识还可为“张三+上海”,即将数据源中“张三”在“上海”消费所产生的数据进行分析;
待分析数据的标识为待分析数据中的一个字段的所有值中的部分值,比如,待分析数据的标识为银行卡标识字段的值为987654321123456中的最后四位“3456”;
待分析数据的标识为待分析数据中的多个字段中每个字段的所有值中部分值的组合,比如,待分析数据的标识为银行卡标识字段的值为987654321123456中的最后四位“3456”与消费日期字段的值为2015年9月11日中“2015年”的组合,即“3456+2015年”。
本发明实施例中预先定义的语义集合中包括多种语义。开发人员可根据预先定义的语义集合,使用该语义集合中定义的一种或多种定义了语义的符号,来配置复杂语义的配置信息。语义集合后期也可进行管理,比如向语义集合中增加语义,删除语义集合中无用的语义等等。
可选地,分析条件包括N个子分析条件,其中,N为正整数;N个子分析条件中包括至少一个第一子分析条件和一个第二子分析条件;其中,每个子分析条件至少对应一个数据源和该数据源中的待分析数据的标识;
数据分析装置根据分析条件,对获取的所有待分析数据进行分析,具体包括:
根据第一子分析条件,对从第一子分析条件对应的数据源中获取的待分析数据进行分析,得到第一子分析结果;
在确定第一子分析结果符合预设条件时,根据第二子分析条件,对从第二子分析条件对应的数据源中获取的待分析数据进行分析,得到第二子分析结果,将第二子分析结果为数据分析结果的一部分;或者
在确定第一子分析结果不符合预设条件时,将第一子分析结果作为数据分析结果的一部分。
举个例子,数据分析条件为:将数据源A的数据和数据源B的数据进行勾兑,将勾兑不成功的数据与数据源C中的数据进行勾兑。该数据分析条件对应包括的数据源为数据源A、数据源B、数据源C,该数据分析条件对应的数据源的待分析数据为数据源A的数据、数据源B的数据、数据源C的数据。
数据分析条件包括的第一子分析条件为:将数据源A的数据与数据源B的数据进行勾兑;第一子分析条件对应的数据源为数据源A和数据源B,第一子分析条件对应的待分析数据分别为数据源A的数据和数据源B的数据。数据分析条件包括的第二子分析条件为:将数据源A与数据源B中勾兑失败的数据与数据源C的数据进行勾兑;第而子分析条件对应的数据源为数据源A、数据源B,以及数据源C,第二子分析条件对应的待分析数据分别为数据源A和数据源B的勾兑失败的数据,以及数据源C中的数据。
数据分析装置根据分析条件,对获取的所有待分析数据进行分析,具体包括:
根据第一子分析条件“将数据源A的数据与数据源B的数据进行勾兑”,将数据源A的数据和数据源B的数据进行勾兑,并将勾兑结果作为第一子分析结果,第一子分析结果具体为数据源A和数据源B中的数据勾兑成功或勾兑失败;
在确定第一子分析结果符合预设条件时,具体来说,预设条件为在确定数据源A和数据源B中存在一条数据在第一子分析结果中是勾兑失败的状态,则根据第二子分析条件“将数据源A与数据源B中勾兑失败的数据与数据源C的数据进行勾兑”,将第一子分析结果中勾兑失败的数据源A中的数据或数据源B中的数据,与数据源C中的数据进行勾兑,得到第二子分析结果,具体来说,第二子分析结果具体为:数据源A与数据源B中的勾兑失败的数据与数据源C中的数据勾兑成功,数据源A与数据源B中的勾兑失败的数据与数据源C中的数据勾兑失败。第二子分析结果为数据分析结果的一部分。即,将第二子分析结果作为最终输出的数据分析结果的一部分输出,以便用户可看到第二子分析结果。
可选地,在确定第一子分析结果不符合预设条件时,即确定出数据源A和数据源B中存在一条数据在第一子分析结果中是勾兑成功的状态,则将在数据源A和数据源B中勾兑成功的数据作为最终输出的数据分析结果的一部分。
可选地,语义集合中包括条件语义。比如,条件(case)、如果…则(if…else)。成功解析配置信息之后,配置信息中包括每个数据源中待分析数据的标识和分析条件。举个例子,比如定义“<->”表示勾兑,定义“^”表示条件语义。配置信息中的数据分析条件为“数据源A<->数据源B^数据源C”,则该数据分析条件表示数据源A中数据与数据源B中数据进行勾兑,如果某条数据勾兑失败,则将该勾兑失败的数据与数据源C中的所有数据进行勾兑。具体来说,即有一条数据存在于数据源A中,数据源B中没有与该数据相同的数据,则该数据为勾兑失败的状态;如果一条数据存在于数据源A中,同时在数据源B中存在一条与该数据内容完全相同的数据,则该条数据即为勾兑成功的状态。
本发明实施例中,除了可对数据源中的所有数据进行分析之后,还可对数据源中的部分数据进行分析。举例来说,数据分析条件对应的数据源中待分析数据的标识可为“数据源A的字段a和字段b,数据源B的字段c和字段d,数据源C中的字段d”。该配置信息的数据分析条件可为:
若一条数据在数据源A中的字段a和字段b,与一条数据在数据源B的字段c和字段d一致,则确定数据源A的该条数据和数据源B的该条数据勾兑成功;
若一条数据在数据源A中的字段a和字段b,与一条数据在数据源B的字段c和字段d不一致,则将一条数据在数据源A中的字段a和字段b与数据源C中数据的字段d勾兑,若一条数据在数据源A中的字段a和字段b,与一条数据在数据源C的字段d一致,则确定数据源A的该条数据和数据源C的该条数据勾兑成功;
若一条数据在数据源A中的字段a和字段b,与一条数据在数据源B的字段c和字段d不一致,则将一条数据在数据源A中的字段a和字段b与数据源C中数据的字段d勾兑,若一条数据在数据源A中的字段a和字段b,与一条数据在数据源C的字段d也不一致,则确定数据源A的该条数据勾兑失败。
该例子的语句可写为:
step1:if A.a+A.b==B.c+B.d then ture,else step2|step2:if A.a+A.b==C.d,then true;else false。
其中,A.a表示数据源A中的字段a,A.b表示数据源A中的字段b,B.c表示数据源B中的字段c,B.d表示数据源B中的字段d,C.d表示数据源C中的字段d。
上述示例中的数据源A中的字段a即为数据源A中待分析数据的标识。可见,本发明实施例中可对跨系统的多个数据源中任意字段所标识出的数据进行数据分析。本发明实施例中可实现较为复杂的数据分析,且对于开发人员来说,本发明实施例中的语义集合为面向业务应用层的语义,开发人员可简单的根据该语义集合进行配置信息的配置,在实现对数据进行复杂的分析的同时,降低了开发人员的工作难度。
上述步骤203中,根据数据配置信息解析出数据源标识之后,即连接至该数据源标识所对应的数据源,之后获取每个数据源中的待分析数据的标识对应的待分析数据。
可选地,根据每个数据源中待分析数据的标识,以及分析条件,为每个数据源生成该数据源可执行的任务信息;将每个数据源对应的任务信息发送给任务信息对应的数据源;接收每个数据源执行任务信息后返回的待分析数据。
一种实施方式为,任务信息为对待分析数据进行排序,数据源将排序后的待分析数据输出;此时,可接收到每个数据源执行任务信息后返回的排序后的待分析数据。
举个例子,将数据源A中字段a为“2015年9月”的数据和数据源B中字段b为“2015年9月”的数据进行勾兑,此时,确定出数据源A的待分析数据的标识为该数据的字段a为“2015年9月”,数据源B的待分析数据的标识为该数据的字段b为“2015年9月”;之后根据每个数据源中待分析数据的标识,以及分析条件,确定出数据源A对应的任务信息A为输出数据源A中字段a为“2015年9月”的数据,数据源B对应的任务信息B为输出数据源B中字段b为“2015年9月”的数据,将任务信息A发送给数据源A,将任务信息B发送给数据源B。之后,数据源A执行任务信息A,并将数据源A中字段a为“2015年9月”的数据输出给数据分析装置。数据源B执行任务信息B,并将数据源B中字段b为“2015年9月”的数据输出给数据分析装置。
该示例中,根据每个数据源中待分析数据的标识,以及分析条件,确定出数据源A对应的任务信息A为输出根据时间先后进行排序后的数据源A中字段a为“2015年9月”的数据,数据源B对应的任务信息B为根据时间先后进行排序后的读取数据源B中字段b为“2015年9月”的数据,将任务信息A发送给数据源A,将任务信息B发送给数据源B。之后,数据源A执行任务信息A,并将数据源A中字段a为“2015年9月”的数据根据时间先后进行排序,并将排序后的数据源A中字段a为“2015年9月”的数据发送给数据分析装置。数据源B执行任务信息B,并将数据源B中字段b为“2015年9月”的数据根据时间先后进行排序,并将排序后的数据源B中字段b为“2015年9月”的数据发送给数据分析装置。
当待分析数据的数据量比较大时,为了提高数据分析效率,可选地,根据分析条件,将每个数据源中的待分析数据按照哈希hash分为至少一个数据块;其中,每个数据块对应一个hash标识;根据分析条件,并行的对每个数据源中hash标识相同的数据块进行数据分析。具体来说,本发明实施例中的hash可为全哈希hash或者布谷鸟hash。
举个例子,比如获取的数据源A中的待分析数据有100条,获取数据源B中的待分析数据有150条,对数据源A中的待分析数据进行全哈希hash或者布谷鸟hash,每一条经过全哈希hash或者布谷鸟hash之后的数据均对应一个hash标识。之后将数据源A中的100条数据分为5个数据块,每个数据块中数据的hash标识均一致,因此,每个数据库对应一个hash标识。数据源A中对应5个数据块,hash标识分别为hash001、hash002、hash003、hash004。同样的,数据源B中的150条数据进行全哈希hash或者布谷鸟hash,数据源B中的150条待分析数据对应5个数据块,hash标识分别为hash001、hash002、hash003、hash004。之后,根据分析条件,将数据源A中hash001的数据块与数据源B中hash001的数据块进行数据分析;将数据源A中hash002的数据块与数据源B中hash002的数据块进行数据分析;将数据源A中hash003的数据块与数据源B中hash003的数据块进行数据分析;将数据源A中hash004的数据块与数据源B中hash004的数据块进行数据分析;将数据源A中hash005的数据块与数据源B中hash005的数据块进行数据分析。
本发明实施例中经过对数据进行全哈希hash或者布谷鸟hash,从而对数据进行分块处理,之后对分块后的数据进行并行的数据分析,提高了数据分析效率。
本发明实施例中,可选地,配置信息中还包括数据分析结果输出条件;根据分析条件,对获取的所有待分析数据进行分析,得到数据分析结果,具体包括:
根据分析条件,对获取的所有待分析数据进行分析;
根据数据分析结果输出条件,生成数据分析结果;
其中,数据分析结果输出条件具体为:
数据分析结果中的数据至少包括一个映射字段;映射字段的值为为任一待分析数据的全部值或部分值,或者为M个待分析数据的全部值或部分值的组合,M为大于等于2的整数。
举个例子,分析条件为将数据源A与数据源B中的数据进行勾兑,数据分析结果输出条件为:勾兑结果中的字段c的值对应为数据源A的字段a的前十位的值和数据源B的字段b的后四位的值的组合。数据A在数据源A中的字段a的值为98765432123456789,数据B在数据源B中的字段b的值为562354789651222。根据数据分析结果输出条件,即将数据源A的字段a的前十位的值和数据源B的字段b的后四位的值的组合作为勾兑结果中的字段c的值,从而将数据源A的字段a的前十位“9876543212”和数据源B的字段b的后四位“1222”组合为“98765432121222”,得到待数据数据分析结果,即数据A和数据B在勾兑结果中的字段c的值为“98765432121222”。
数据分析结果输出条件还可为判断语句。比如,若数据A在数据源A中的字段a的值等于“5”,则将数据A的字段a的值对应输入至勾兑结果C的字段c1中,若数据A在数据源A中的字段a的值不等于“5”,则将数据A的字段a的值对应输入至勾兑结果C的字段c2中。
再举个例子,若数据A在数据源A中的字段d的值等于数据B在数据源B中的字段c的值,或者数据A在数据源A中的字段d的值等于数据C在数据源C中的字段d的值,则将数据A在数据源A中的字段d的值作为存储数据分析结果的数据源D中数据D的字段a的值。写为语句的形式,即为比如if(A.d==B.c||A.d==C.d)D.a=A.d。
分析条件为对数据源中的数据进行勾兑时,通过上述操作可看出,数据源中数据勾兑成功或勾兑失败时输出的勾兑结果,对于开发人员来说,看起来较为复杂,本发明实施例中数据分析结果为用户想要看到的,更易理解的,面向业务应用语义的结果显示。可见,本发明实施例中优化了数据分析结果的显示,提升了用户体验。
可选地,本发明实施例中对数据源中的数据进行操作包含并不限于mysql的相关操作。
可选地,得到数据分析结果之后,将数据分析结果输入至线程池;周期性并行的将线程池中的多个数据分析结果输出。
可见,本发明实施例中利用线程池(Thread-pool)作为数据分析结果的插入池,线程池会对数据分析结果进行缓冲,在缓冲区满后,会由多线程同时进行数据库的插入操作,保证数据操作的效率与完整性。
从上述内容可以看出:本发明实施例中,获取配置信息;配置信息是根据预先定义的语义集合配置的;配置信息中包括分析条件,分析条件对应至少两个数据源标识,以及每个数据源中待分析数据的标识;根据分析条件对应的数据源标识,从每个数据源标识对应的数据源中获取该数据源中待分析数据的标识对应的待分析数据;根据分析条件,对获取的所有待分析数据进行分析,得到数据分析结果。由于预先定义语义集合,且配置信息是根据预先定义的语义集合配置的,因此,可根据预先定义的语义集合,设置复杂语义的配置信息,进一步由于可根据该配置信息中包括的分析条件,对获取的所有待分析数据进行分析,进而实现了分析条件较复杂时,也可依据该复杂的分析条件对数据进行分析的目的。
图3示例性示出了本发明实施例提供的一种数据分析装置的结构示意图。
基于相同构思,本发明实施例提供一种数据分析装置的结构示意图,如图3所示,包括第一获取单元301、第二获取单元302和分析单元303:
第一获取单元,用于获取配置信息;配置信息是根据预先定义的语义集合配置的;配置信息中包括分析条件,分析条件对应至少两个数据源标识,以及每个数据源中待分析数据的标识;
第二获取单元,用于根据分析条件对应的数据源标识,从每个数据源标识对应的数据源中获取该数据源中待分析数据的标识对应的待分析数据;
分析单元,用于根据分析条件,对获取的所有待分析数据进行分析,得到数据分析结果。
可选地,分析条件包括N个子分析条件,其中,N为正整数;
N个子分析条件中包括至少一个第一子分析条件和一个第二子分析条件;其中,每个子分析条件至少对应一个数据源和该数据源中的待分析数据的标识;
分析单元,具体用于:
根据第一子分析条件,对从第一子分析条件对应的数据源中获取的待分析数据进行分析,得到第一子分析结果;
在确定第一子分析结果符合预设条件时,根据第二子分析条件,对从第二子分析条件对应的数据源中获取的待分析数据进行分析,得到第二子分析结果,将第二子分析结果为数据分析结果的一部分;或者
在确定第一子分析结果不符合预设条件时,将第一子分析结果作为数据分析结果的一部分。
可选地,数据源中的待分析数据的标识为以下内容中的任一项或任几项的组合:
用于标识出数据源中的所有数据的标识、待分析数据中的一个字段的值、待分析数据中的多个字段的值的组合、待分析数据中的一个字段的所有值中的部分值、待分析数据中的多个字段中每个字段的所有值中部分值的组合。
可选地,分析单元,具体用于:
根据分析条件,将每个数据源中的待分析数据按照哈希hash分为至少一个数据块;其中,每个数据块对应一个hash标识;
根据分析条件,并行的对每个数据源中hash标识相同的数据块进行数据分析。
可选地,配置信息中还包括数据分析结果输出条件;
分析单元,具体用于:
根据分析条件,对获取的所有待分析数据进行分析;
根据数据分析结果输出条件,生成数据分析结果;
其中,数据分析结果输出条件具体为:
数据分析结果中的数据至少包括一个映射字段;映射字段的值为为任一待分析数据的全部值或部分值,或者为M个待分析数据的全部值或部分值的组合,M为大于等于2的整数。
可选地,分析单元,还用于:
将数据分析结果输入至线程池;
周期性并行的将线程池中的多个数据分析结果输出。
从上述内容可以看出:本发明实施例中,获取配置信息;配置信息是根据预先定义的语义集合配置的;配置信息中包括分析条件,分析条件对应至少两个数据源标识,以及每个数据源中待分析数据的标识;根据分析条件对应的数据源标识,从每个数据源标识对应的数据源中获取该数据源中待分析数据的标识对应的待分析数据;根据分析条件,对获取的所有待分析数据进行分析,得到数据分析结果。由于预先定义语义集合,且配置信息是根据预先定义的语义集合配置的,因此,可根据预先定义的语义集合,设置复杂语义的配置信息,进一步由于可根据该配置信息中包括的分析条件,对获取的所有待分析数据进行分析,进而实现了分析条件较复杂时,也可依据该复杂的分析条件对数据进行分析的目的。
本领域内的技术人员应明白,本发明的实施例可提供为方法、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理装置的处理器以产生一个机器,使得通过计算机或其他可编程数据处理装置的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理装置以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理装置上,使得在计算机或其他可编程装置上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程装置上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (12)

1.一种数据分析方法,其特征在于,包括以下步骤:
获取配置信息;所述配置信息是根据预先定义的语义集合配置的;所述配置信息中包括分析条件,所述分析条件对应至少两个数据源标识,以及每个数据源中待分析数据的标识;
根据所述分析条件对应的数据源标识,从每个数据源标识对应的数据源中获取该数据源中待分析数据的标识对应的待分析数据;
根据所述分析条件,对获取的所有待分析数据进行分析,得到数据分析结果。
2.如权利要求1所述的方法,其特征在于,所述分析条件包括N个子分析条件,其中,N为正整数;
所述N个子分析条件中包括至少一个第一子分析条件和一个第二子分析条件;其中,每个子分析条件至少对应一个数据源和该数据源中的待分析数据的标识;
所述根据所述分析条件,对获取的所有待分析数据进行分析,具体包括:
根据所述第一子分析条件,对从所述第一子分析条件对应的数据源中获取的待分析数据进行分析,得到第一子分析结果;
在确定所述第一子分析结果符合预设条件时,根据所述第二子分析条件,对从所述第二子分析条件对应的数据源中获取的待分析数据进行分析,得到第二子分析结果,将所述第二子分析结果为所述数据分析结果的一部分;或者
在确定所述第一子分析结果不符合预设条件时,将所述第一子分析结果作为所述数据分析结果的一部分。
3.如权利要求1所述的方法,其特征在于,所述数据源中的所述待分析数据的标识为以下内容中的任一项或任几项的组合:
用于标识出所述数据源中的所有数据的标识、所述待分析数据中的一个字段的值、所述待分析数据中的多个字段的值的组合、所述待分析数据中的一个字段的所有值中的部分值、所述待分析数据中的多个字段中每个字段的所有值中部分值的组合。
4.如权利要求1所述的方法,其特征在于,所述根据所述分析条件,对获取的所有待分析数据进行分析,具体包括:
根据所述分析条件,将每个数据源中的待分析数据按照哈希hash分为至少一个数据块;其中,每个数据块对应一个hash标识;
根据所述分析条件,并行的对每个数据源中hash标识相同的数据块进行数据分析。
5.如权利要求1至4任一权利要求所述的方法,其特征在于,所述配置信息中还包括数据分析结果输出条件;
所述根据所述分析条件,对获取的所有待分析数据进行分析,得到数据分析结果,具体包括:
根据所述分析条件,对获取的所有待分析数据进行分析;
根据所述数据分析结果输出条件,生成数据分析结果;
其中,所述数据分析结果输出条件具体为:
所述数据分析结果中的数据至少包括一个映射字段;所述映射字段的值为为任一待分析数据的全部值或部分值,或者为M个待分析数据的全部值或部分值的组合,M为大于等于2的整数。
6.如权利要求5所述的方法,其特征在于,所述得到数据分析结果之后,还包括:
将所述数据分析结果输入至线程池;
周期性并行的将所述线程池中的多个数据分析结果输出。
7.一种数据分析装置,其特征在于,包括:
第一获取单元,用于获取配置信息;所述配置信息是根据预先定义的语义集合配置的;所述配置信息中包括分析条件,所述分析条件对应至少两个数据源标识,以及每个数据源中待分析数据的标识;
第二获取单元,用于根据所述分析条件对应的数据源标识,从每个数据源标识对应的数据源中获取该数据源中待分析数据的标识对应的待分析数据;
分析单元,用于根据所述分析条件,对获取的所有待分析数据进行分析,得到数据分析结果。
8.如权利要求7所述的装置,其特征在于,所述分析条件包括N个子分析条件,其中,N为正整数;
所述N个子分析条件中包括至少一个第一子分析条件和一个第二子分析条件;其中,每个子分析条件至少对应一个数据源和该数据源中的待分析数据的标识;
所述分析单元,具体用于:
根据所述第一子分析条件,对从所述第一子分析条件对应的数据源中获取的待分析数据进行分析,得到第一子分析结果;
在确定所述第一子分析结果符合预设条件时,根据所述第二子分析条件,对从所述第二子分析条件对应的数据源中获取的待分析数据进行分析,得到第二子分析结果,将所述第二子分析结果为所述数据分析结果的一部分;或者
在确定所述第一子分析结果不符合预设条件时,将所述第一子分析结果作为所述数据分析结果的一部分。
9.如权利要求7所述的装置,其特征在于,所述数据源中的所述待分析数据的标识为以下内容中的任一项或任几项的组合:
用于标识出所述数据源中的所有数据的标识、所述待分析数据中的一个字段的值、所述待分析数据中的多个字段的值的组合、所述待分析数据中的一个字段的所有值中的部分值、所述待分析数据中的多个字段中每个字段的所有值中部分值的组合。
10.如权利要求7所述的装置,其特征在于,所述分析单元,具体用于:
根据所述分析条件,将每个数据源中的待分析数据按照哈希hash分为至少一个数据块;其中,每个数据块对应一个hash标识;
根据所述分析条件,并行的对每个数据源中hash标识相同的数据块进行数据分析。
11.如权利要求7至10任一权利要求所述的装置,其特征在于,所述配置信息中还包括数据分析结果输出条件;
所述分析单元,具体用于:
根据所述分析条件,对获取的所有待分析数据进行分析;
根据所述数据分析结果输出条件,生成数据分析结果;
其中,所述数据分析结果输出条件具体为:
所述数据分析结果中的数据至少包括一个映射字段;所述映射字段的值为为任一待分析数据的全部值或部分值,或者为M个待分析数据的全部值或部分值的组合,M为大于等于2的整数。
12.如权利要求11所述的装置,其特征在于,所述分析单元,还用于:
将所述数据分析结果输入至线程池;
周期性并行的将所述线程池中的多个数据分析结果输出。
CN201510586861.7A 2015-09-15 2015-09-15 一种数据分析方法及装置 Pending CN105930630A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510586861.7A CN105930630A (zh) 2015-09-15 2015-09-15 一种数据分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510586861.7A CN105930630A (zh) 2015-09-15 2015-09-15 一种数据分析方法及装置

Publications (1)

Publication Number Publication Date
CN105930630A true CN105930630A (zh) 2016-09-07

Family

ID=56839946

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510586861.7A Pending CN105930630A (zh) 2015-09-15 2015-09-15 一种数据分析方法及装置

Country Status (1)

Country Link
CN (1) CN105930630A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325069A (zh) * 2018-09-07 2019-02-12 腾讯科技(深圳)有限公司 业务处理方法、装置及网络设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1387292A1 (en) * 2002-07-26 2004-02-04 LION Bioscience AG Method and apparatus for combining data of biological sequences into a non-redundant data source
CN101038654A (zh) * 2007-04-04 2007-09-19 天津三用信息技术有限公司 一种金融数据多重处理的方法和系统
CN101561809A (zh) * 2008-04-18 2009-10-21 北京瑞佳晨科技有限公司 一种管理数据条件和数据结果的方法
WO2011104237A2 (en) * 2010-02-26 2011-09-01 International Business Machines Corporation Optimizing a data cache when applying user-based security
CN102413154A (zh) * 2010-09-21 2012-04-11 北大方正集团有限公司 一种系统之间数据信息同步的方法及装置
CN103294754A (zh) * 2013-02-04 2013-09-11 税友软件集团股份有限公司 大数据量加载的拆分与合并方法及系统
CN103678314A (zh) * 2012-09-03 2014-03-26 中国银联股份有限公司 基于关联规则提取的海量数据处理系统、设备及方法
CN103679530A (zh) * 2012-09-07 2014-03-26 中国银联股份有限公司 智能业务数据库生成系统、方法以及业务处理系统和方法
CN104133888A (zh) * 2014-07-30 2014-11-05 宇龙计算机通信科技(深圳)有限公司 一种多系统数据处理方法、装置及终端
CN104750720A (zh) * 2013-12-30 2015-07-01 中国银联股份有限公司 多线程并发访问环境下高性能数据处理的实现
CN104750743A (zh) * 2013-12-31 2015-07-01 中国银联股份有限公司 一种交易文件勾对系统和方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1387292A1 (en) * 2002-07-26 2004-02-04 LION Bioscience AG Method and apparatus for combining data of biological sequences into a non-redundant data source
CN101038654A (zh) * 2007-04-04 2007-09-19 天津三用信息技术有限公司 一种金融数据多重处理的方法和系统
CN101561809A (zh) * 2008-04-18 2009-10-21 北京瑞佳晨科技有限公司 一种管理数据条件和数据结果的方法
WO2011104237A2 (en) * 2010-02-26 2011-09-01 International Business Machines Corporation Optimizing a data cache when applying user-based security
CN102413154A (zh) * 2010-09-21 2012-04-11 北大方正集团有限公司 一种系统之间数据信息同步的方法及装置
CN103678314A (zh) * 2012-09-03 2014-03-26 中国银联股份有限公司 基于关联规则提取的海量数据处理系统、设备及方法
CN103679530A (zh) * 2012-09-07 2014-03-26 中国银联股份有限公司 智能业务数据库生成系统、方法以及业务处理系统和方法
CN103294754A (zh) * 2013-02-04 2013-09-11 税友软件集团股份有限公司 大数据量加载的拆分与合并方法及系统
CN104750720A (zh) * 2013-12-30 2015-07-01 中国银联股份有限公司 多线程并发访问环境下高性能数据处理的实现
CN104750743A (zh) * 2013-12-31 2015-07-01 中国银联股份有限公司 一种交易文件勾对系统和方法
CN104133888A (zh) * 2014-07-30 2014-11-05 宇龙计算机通信科技(深圳)有限公司 一种多系统数据处理方法、装置及终端

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
余伟,等;: "Web大数据环境下的不一致跨源数据发现", 《计算机研究与发展》 *
孙爱玲,等;: "一种基于重复数据删除的网络文件备份系统设计与实现", 《计算机应用与软件》 *
翁世清,: "分布式处理架构在商业银行操作数据存储系统中的应用研究", 《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》 *
龚尚福,等;: "信息系统集成与数据集成策略", 《西安科技大学学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325069A (zh) * 2018-09-07 2019-02-12 腾讯科技(深圳)有限公司 业务处理方法、装置及网络设备

Similar Documents

Publication Publication Date Title
JP7200661B2 (ja) 並行脆弱性検出
US11915104B2 (en) Normalizing text attributes for machine learning models
CN107741903A (zh) 应用程序兼容性测试方法、装置、计算机设备和存储介质
CN109002474A (zh) 一种数据迁移方法及装置
US9910487B1 (en) Methods, systems and computer program products for guiding users through task flow paths
US10721152B2 (en) Automated analysis and recommendations for highly performant single page web applications
WO2015039793A1 (en) Derivation of generalized test cases
CN109542562A (zh) 界面图片的识别方法及装置
CN112306495A (zh) 图片校验方法、装置、计算机设备及计算机可读存储介质
CN114048816B (zh) 一种图神经网络数据采样方法、装置、设备及存储介质
CN112395182A (zh) 自动化测试方法、装置、设备及计算机可读存储介质
CN111966597B (zh) 测试数据生成方法及装置
CN116112746B (zh) 在线教育直播视频压缩方法及系统
CN105930630A (zh) 一种数据分析方法及装置
CN110795993A (zh) 一种构建模型的方法、装置、终端设备及介质
CN110544166A (zh) 样本生成方法、装置及存储介质
CN115828022A (zh) 一种数据识别方法、联邦训练模型、装置和设备
CN115473822A (zh) 一种5g智能网关数据传输方法、系统及云平台
CN113051173B (zh) 测试流程的编排执行方法、装置、计算机设备和存储介质
CN110046028A (zh) 数据处理方法、装置及服务器
CN111859985B (zh) Ai客服模型测试方法、装置、电子设备及存储介质
CN110955696B (zh) 数据读取方法、装置、设备和存储介质
CN110968690B (zh) 词语的聚类划分方法和装置、设备以及存储介质
CN113806231A (zh) 一种代码覆盖率分析方法、装置、设备和介质
CN110825461B (zh) 数据处理方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160907