CN102314460A - 数据分析方法、系统及服务器 - Google Patents

数据分析方法、系统及服务器 Download PDF

Info

Publication number
CN102314460A
CN102314460A CN2010102226023A CN201010222602A CN102314460A CN 102314460 A CN102314460 A CN 102314460A CN 2010102226023 A CN2010102226023 A CN 2010102226023A CN 201010222602 A CN201010222602 A CN 201010222602A CN 102314460 A CN102314460 A CN 102314460A
Authority
CN
China
Prior art keywords
data
raw data
server
analyzed
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010102226023A
Other languages
English (en)
Other versions
CN102314460B (zh
Inventor
岑文初
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201010222602.3A priority Critical patent/CN102314460B/zh
Priority to US13/135,407 priority patent/US9442979B2/en
Priority to JP2013518377A priority patent/JP5635691B2/ja
Priority to PCT/US2011/001186 priority patent/WO2012005765A1/en
Priority to EP11803939.5A priority patent/EP2591421A4/en
Publication of CN102314460A publication Critical patent/CN102314460A/zh
Priority to HK12102409.7A priority patent/HK1161923A1/zh
Application granted granted Critical
Publication of CN102314460B publication Critical patent/CN102314460B/zh
Priority to US15/236,022 priority patent/US20170039214A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24532Query optimisation of parallel queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries

Abstract

本申请实施例公开了一种数据分析方法、系统及服务器。其中,所述方法包括:从服务器接收主服务器发送的文件,其中,所述文件携带待分析的原始数据的数据标识和预置键值对,所述预置键定义了从服务器对待分析的原始数据进行归类的方式;从服务器根据所述数据标识,从数据源中获取待分析的原始数据;从服务器根据所述分割标识将获取的原始数据切割成数据元素;从服务器按照预置键中对数据元素的定义方式,对获取的原始数据进行归类;从服务器按照预置值的定义,对归类后的原始数据进行分析处理,并将分析处理结果反馈给主服务器。根据本申请实施例,可以实现对并行的数据处理架构中的海量数据进行分析。

Description

数据分析方法、系统及服务器
技术领域
本申请涉及通信和计算机技术领域,特别涉及一种数据分析方法、系统及服务器。
背景技术
随着web2.0技术的发展,互联网应用或者互联网平台中的业务数据,如用户行为数据和平台系统数据,都呈现出海量增长的趋势。为了便于海量业务数据的处理,挖掘其内在价值,通常采用一种并行的数据处理架构来支撑海量数据的处理工作,即利用多个分布式的计算机相互协作工作,共同完成对海量数据的处理。
当前,在大型的互联网网站平台中,应用最为广泛的一种并行的数据处理架构为Hadoop系统框架。在Hadoop的系统架构中包括有一个主服务器和多个从服务器组成的集群,主服务器将海量数据分割成多个数据块,再将分割后的数据块分配给多个并行的从服务器,由每个从服务器处理各自的数据块,并将处理的结果发送至主服务器,主服务器将处理的结果合并后输出。此外,当前阶段主服务器输出的合并结果又可以作为下一阶段主服务器进行数据处理的一个输入,得到下一阶段的合并结果。这种并行和串行相结合的处理方式可以使并行的数据处理系统高效地处理海量数据。
目前,对于数据的分析方法主要为基于关系型数据库的数据分析方法,然而,这种方法很难基于并行的数据处理架构对关系型数据库的数据进行分析,特别是在需要进行归类、报表生成等复杂的数据分析处理工作时,难以满足实际需要。因此,基于关系型数据库的数据分析方法并不适用于对并行的数据处理架构中的海量数据进行分析。
发明内容
为了解决上述技术问题,本申请实施例提供了一种数据分析方法、系统及服务器,以实现对并行的数据处理架构中的海量数据进行分析。
本申请实施例公开公开了如下技术方案:一种数据分析方法,包括:
从服务器接收主服务器发送的文件,其中,所述文件携带待分析的原始数据的数据标识和预置键值对,所述预置键定义了从服务器对待分析的原始数据进行归类的方式,所述预置值定义了从服务器对归类后的原始数据进行分析处理的方式;从服务器根据所述数据标识,从数据源中获取待分析的原始数据,其中,所述原始数据中数据元素之间以分割标识进行隔离;从服务器根据所述分割标识将获取的原始数据切割成数据元素;从服务器按照预置键中对数据元素的定义方式,对获取的原始数据进行归类;从服务器按照预置值的定义,对归类后的原始数据进行分析处理,并将分析处理结果反馈给主服务器。
本申请还提供另一种数据分析方法,包括:多线程中子线程接收主线程发送的文件,其中,所述文件携带待分析的原始数据的数据标识和预置键值对,所述预置键定义了子线程对待分析的原始数据进行归类的方式,所述预置值定义了子线程对归类后的原始数据进行分析处理的方式;子线程根据所述数据标识,从数据源中获取待分析的原始数据,其中,所述原始数据中数据元素之间以分割标识进行隔离;子线程根据所述分割标识将获取的原始数据切割成数据元素;子线程按照预置键中对数据元素的定义方式,对获取的原始数据进行归类;子线程按照预置值的定义,对归类后的原始数据进行分析处理,并将分析处理结果反馈给主线程。
本申请还提供一种数据分析系统,包括:一主服务器和至少两个从服务器,其中,所述主服务器,用于向从服务器发送文件,并对接收到的分析处理结果进行合并,其中,所述文件携带待分析的原始数据的数据标识和预置键值对,所述预置键定义了从服务器对待分析的原始数据进行归类的方式,所述预置值定义了从服务器对归类后的原始数据进行分析处理的方式;所述从服务器,用于接收主服务器发送的文件,根据所述数据标识,从数据源中获取待分析的原始数据,其中,所述原始数据中数据元素之间以分割标识进行隔离,根据所述分割标识将获取的原始数据切割成数据元素,按照预置键中对数据元素的定义方式,对获取的原始数据进行归类,按照预置值的定义,对归类后的原始数据进行分析处理,并将分析处理结果反馈给主服务器。
本申请还提供另一数据分析系统,包括:一主线程模块和至少两个子线程模块,其中,所述主线程模块,用于向子线程模块发送文件,并对接收到的分析处理结果进行合并,其中,所述文件携带待分析的原始数据的数据标识和预置键值对,所述预置键定义了子线程模块对待分析的原始数据进行归类的方式,所述预置值定义了子线程模块对归类后的原始数据进行分析处理的方式;所述子线程模块,用于接收主线程模块发送的文件,根据所述数据标识,从数据源中获取待分析的原始数据,其中,所述原始数据中数据元素之间以分割标识进行隔离,根据所述分割标识将获取的原始数据切割成数据元素,按照预置键中对数据元素的定义方式,对获取的原始数据进行归类,按照预置值的定义,对归类后的原始数据进行分析处理,并将分析处理结果反馈给主线程模块。
本申请还提供一种从服务器,包括:第一文件接收模块,用于接收主服务器发送的文件,其中,所述文件携带待分析的原始数据的数据标识和预置键值对,所述预置键定义了从服务器对待分析的原始数据进行归类的方式,所述预置值定义了从服务器对归类后的原始数据进行分析处理的方式;第一数据获取模块,用于根据所述数据标识,从数据源中获取待分析的原始数据,其中,所述原始数据中数据元素之间以分割标识进行隔离;第一数据切割模块,用于根据所述分割标识将获取的原始数据切割成数据元素;第一数据归类模块,用于按照预置键中对数据元素的定义方式,对获取的原始数据进行归类;第一数据计算模块,用于按照预置值的定义,对归类后的原始数据进行分析处理,并将分析处理结果反馈给主服务器。
本申请还提供另一种服务器,包括:第二文件接收模块,用于接收主线程发送的文件,其中,所述文件携带待分析的原始数据的数据标识和预置键值对,所述预置键定义了子线程对待分析的原始数据进行归类的方式,所述预置值定义了子线程对归类后的原始数据进行分析处理的方式;第二数据获取模块,用于根据所述数据标识,从数据源中获取待分析的原始数据,其中,所述原始数据中数据元素之间以分割标识进行隔离;第二数据切割模块,用于根据所述分割标识将获取的原始数据切割成数据元素;第二数据归类模块,用于按照预置键中对数据元素的定义方式,对获取的原始数据进行归类;第二数据计算模块,用于按照预置值的定义,对归类后的原始数据进行分析处理,并将分析处理结果反馈给主线程。
由上述实施例可以看出,首先从数据源中获取待分析的原始数据,然后按照分割标识将原始数据切割成数据元素,并将切割得到的数据元素作为键值对中的键,再从切割得到的数据元素中,提取出符合预置键值对中的键定义的数据元素,最后按照预置键值对中的值定义,对提取出的数据元素进行分析处理,并将分析处理结果反馈给主服务器,以便主服务器对接收到的分析处理结果进行合并。因此,为并行的数据处理架构中的海量数据进行分析提供了具体的实现方案。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一种数据分析方法的一个实施例的流程图;
图2为本申请一种数据分析方法的另一个实施例的流程图;
图3为本申请一种从服务器的一个实施例的结构图;
图4为本申请一种从服务器的另一个实施例的结构图;
图5为本申请一种从服务器的另一个实施例的结构图;
图6为本申请一种服务器的一个实施例的结构图;
图7为本申请一种数据分析系统的一个实施例的结构图;
图8为本申请一种数据分析系统的另一个实施例的结构图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请实施例进行详细描述。
本申请实施例中的数据分析方法可以对任何并行的数据处理架构中的海量数据进行分析,例如,Hadoop系统框架中的海量数据。本申请实施例对并行的数据处理架构并不进行限定。
实施例一
请参阅图1,其为本申请一种数据分析方法的一个实施例的流程图,其应用于包括一个主服务器和多个从服务器组成的集群系统中,该方法包括以下步骤:
步骤101:从服务器接收主服务器发送的文件,其中,所述文件中携带从服务器待分析的原始数据的数据标识和预置键值对,所述预置键定义了从服务器对待分析的原始数据进行归类的方式,所述预置值定义了从服务器对归类后的原始数据进行分析处理的方式;
例如,在一个并行的数据处理架构中,主服务器向各个从服务器发送一个文件,在文件中携带有数据标识和预置键值对,其中的预置键值对可以有多个。其中,所述数据标识指示了对应的从服务器需要获取的待分析的原始数据,例如,数据的地址信息等可以作为数据标识,指示对应的从服务器待分析的原始数据。所述预置键值对包括预置键和预置值,预置键定义了从服务器对待分析的原始数据进行归类的方式;预置值定义了从服务器对归类后的原始数据进行分析处理的方式。例如,假设一预置键值对中,预置键为:key=“1,2,3”,预置值为:value=max($a$+$b$+$c$)。则该预置键值对具体定义了从服务器需要对待分析的原始数据按照第1至3列数据元素进行归类,并按照预置值的定义,对归类后的原始数据中第a列、第b列和第c列的数据元素的分析处理方法为求和后再取最大值。
需要说明的是,预置值定义的分析处理方法可以包括但不限于:统计最小值(min)、统计最大值(max)、计算平均值(average)、计数(count)、求和(sum)及直接显示(plain)等,直接显示(plain)一般用于主键列的显示。当然,分析处理过程也可以包括其他的计算方法,本申请实施例对分析处理的方式并不进行限定。
步骤102:从服务器根据所述数据标识,从数据源中获取待分析的原始数据,其中,所述原始数据中数据元素之间以分割标识进行隔离;
例如,各个从服务器根据自身接收的数据标识,从数据源处获取数据标识所指示的待分析的原始数据,如,数据源可以是FTP服务器、数据库(DB)或文件系统,具体数据的格式可以是数据表、记录、日志等。并且,在本申请的原始数据中,各个数据元素之间以分割标识进行隔离。该分割标识可以是逗号、分号、空格、冒号等。本申请实施例中以逗号作为数据元素之间的分割标识进行举例说明。
例如,以下为一段从数据源处获取原始数据,该原始数据为日志片段。在这个日志片段中,每个数据元素之间以逗号隔离。并且,在这个日志片段中,共有两段记录,每个记录以回车换行符作为记录的结束。
0,203.171.227.117,null,xml,12005554,taobao.user.get,0,0,0,172.24.14.65,小郭cc,1.0,null,3,null,0,1274803197776,0,0,0,1,0,0,0,0,8,0,0,0,9
0,97.74.215.111,null,xml,12028711,taobao.taobaoke.items.detail.get,0,0,null,172.24.14.65,null,2.0,md5,4,null,221000,1274803197765,0,2,-1,1,0,0,0,0,23,0,0,0,26
步骤103:从服务器根据所述分割标识将获取的原始数据切割成数据元素;
例如,如果各个数据元素之间以逗号隔离,则可以按照逗号将第一条记录切割成以下共30个数据元素:第一个数据元素为0,第二数据元素为203.171.227.117,第三个数据元素为null,第四个数据元素为xml,第五个数据元素为12005554,第六个数据元素为taobao.user.get,......,第30个数据元素为9。
同样,可以按照上述方式将第二条记录切割成30个数据元素。
步骤104:从服务器按照预置键中对数据元素的定义方式,对获取的原始数据进行归类;
仍以上述第一条记录为例,如果在预置键值对中定义的预置键为:key=“1,2,3”,则从切割得到的数据元素中提取出的符合预置键值对中预置对应的数据元素,即原始数据中的第1至3列数据元素0、203.171.227.117和null。
例如,仍旧以预置键为:key=“1,2,3”,预置值为:value=max($a$+$b$+$c$)例来说明上述预置键值对的作用。如,对于一个从服务器上的10个待分析的原始数据而言,当通过预置键的归类后,发现在10个待分析的原始数据中,有7个原始数据中的第1至3列数据元素相同,另外3个原始数据中的第1至3列的数据元素相同,则分别对7个原始数据中第a列、第b列和第c列的数据元素求和,再取最大值,并且分别对另外3个原始数据中第a列、第b列和第c列的数据元素求和,再取最大值。
但是,当记录中的数据元素较多时,或者数据元素在原始数据中的顺序发生变化时,容易发生数据元素操作错误的现象。例如,当数据元素在原始数据中的顺序发生变化,相应地,该数据元素对应的预置键的定义也会发生变化。如,假设数据元素0对应的预置键的定义为:key=“1”,当其在原始数据中的顺序向右移动一位后,其对应的预置键的定义变为key=“2”。此时,如果要提取数据元素0,必须修改其在预置键值对中的预置键的定义,即由key=1修改为key=2,否则就会提取错误的数据元素。为了保证当数据元素移位时,不必重新修改其在预置键值对中的预置键的定义,优选地,为每个数据元素设定一个别名,如下所示,每个数据元素都对应一个别名。
<aliases>
       <alias name=″appStatus″key=″1″/>
       <alias name=″remoteIp″key=″2″/>
       <alias name=″partnerId″key=″3″/>
       <alias name=″format″key=″4″/>
       <alias name=″appKey″key=″5″/>
       <alias name=″apiName″key=″6″/>
       <alias name=″readBytes″key=″7″/>
       <alias name=″errorCode″key=″8″/>
       <alias name=″subErrorCode″key=″9″/>
       <alias name=″localIp″key=″10″/>
       <alias name=″nick″key=″11″/>
       <alias name=″version″key=″12″/>
      <alias name=″signMethod″key=″13″/>
      <alias name=″tag″key=″14″/>
      <alias name=″id″key=″15″/>
      <alias name=″responseMappingTime″key=″16″/>
      <alias name=″timestamp0″key=″17″/>
      <alias name=″timestamp1″key=″18″/>
      <alias name=″timestamp2″key=″19″/>
      <alias name=″timestamp3″key=″20″/>
      <alias name=″timestamp4″key=″21″/>
      <alias name=″timestamp5″key=″22″/>
      <alias name=″timestamp6″key=″23″/>
      <alias name=″timestamp7″key=″24″/>
      <alias name=″timestamp8″key=″25″/>
      <alias name=″timestamp9″key=″26″/>
      <alias name=″timestamp10″key=″27″/>
      <alias name=″timestamp11″key=″28″/>
      <alias name=″timestamp12″key=″29″/>
      <alias name=″timestamp13″key=″30″/>
</aliases>
由上述内容可知,在一个记录中,第一个数据元素的别名为″appStatus″,第二个数据元素的别名为″remoteIp″,......,依此类推。此时,上述预置键值对中定义的预置键相应地被别名替换为:key=“appStatus,remoteIp,partnerId”。可见,即使第一个数据元素0在记录中向右移动一位后,其在记录中的顺序发生变化,但是其别名仍为“appStatus”,因此,不必修改预置键值对中的预置键的定义。
步骤105:从服务器按照预置值的定义,对归类后的原始数据进行分析处理,并将分析处理结果反馈给主服务器,主服务器对接收到的分析处理结果进行汇总。并且还可以进一步执行对应的分析处理工作,例如采用与从服务器相同的处理方式,对收到的分析结果进行分析、合并等工作。
例如,如果在预置键值对中定义的预置键为:key=″version,apiName,format″,定义的预置值为:value=″average($responseMappingTime$)″,当从服务器按照预置键的定义从获取的原始数据中提取出数据元素version、apiName和format相同的原始数据
(记录)后,即,对原始数据进行归类后,按照预置值的定义,从服务器对提取出的原始数据中的数据元素responseMappingTime进行求平均计算。
以下为一个文件中的预置键值对中对预置键和预置值的定义。
<entryList>
<entry name=″服务名称″key=″version,apiName,format″value=″plain($apiName$)″/>
<entry name=″版本号″key=″version,apiName,format″value=″plain($version$)″/>
<entry name=″返回格式″key=″version,apiName,format″value=″plain($format$)″/>
<entry name=″Mapping  时间″key=″version,apiName,format″value=″average($responseMappingTime$)″/>
<entry name=″Mapping时间最大″key=″version,apiName,format″value=″max($responseMappingTime$)″/>
<entry name=″业务平均消耗时间(ms)″key=″version,apiName,format″value=″average($timestamp9$)″/>
<entry name=″处理总数″key=″version,apiName,format″value=″count()″/>
</entryList>
其中,在第一条预置键值对中,预置键定义了从服务器对数据元素version、apiName和format相同的原始数据进行归类,预置值定义了从服务器对归类后的原始数据中的数据元素apiName进行显示;
在第二条预置键值对中,预置键定义了从服务器对数据元素version、apiName和format相同的原始数据进行归类,预置值定义了从服务器对归类后的原始数据中的数据元素version进行显示;
在第三条键值对中,预置键定义了从服务器对数据元素version、apiName和format相同的原始数据进行归类,预置值定义了从服务器对归类后的原始数据中的数据元素format进行显示;
在第四条键值对中,预置键定义了从服务器对数据元素version、apiName和format相同的原始数据进行归类,预置值定义了从服务器对归类后的原始数据中的数据元素responseMappingTime进行求平均计算;
在第五条键值对中,预置键定义了从服务器对数据元素version、apiName和format相同的原始数据进行归类,预置值定义了对归类后的原始数据中的数据元素responseMappingTime求最大值;
在第六条键值对中,预置键定义了从服务器对数据元素version、apiName和format相同的原始数据进行归类,预置值定义了从服务器对归类后的原始数据中的数据元素timestamp9进行求平均计算;
在第七条键值对中,预置键定义了从服务器对数据元素version、apiName和format相同的原始数据进行归类,预置值定义了从服务器统计(count)归类后预置键相同的的原始数据(记录)的数量。
另外,上述七条键值对中还指定了预置值结果的显示名称,如,“服务名称”、“版本号”、“返回格式”、“Mapping时间”、“Mapping时间最大”、“业务平均消耗时间(ms)”和“处理总数”等。
经过上述数据分析处理后,下面为数据分析处理结果的一个数据片段。
服务名称   版本号   返回格式  Mapping时间   Mapping时间最大   业务平均消耗时间(ms)   处理总数
  taobao.areas.get   1   xml   0   0   88.73333   15
  taobao.delivery.send   1   json   0   0   417.2395   3561
  taobao.delivery.send   1   xml   0   0   423.9512   1210
  taobao.fenxiao.alipay.user.get   1   json   0   0   128.5   10
  taobao.fenxiao.delivery.send   1   json   0   0   306.25   16
  taobao.fenxiao.distributor.add   1   json   0   0   158.2   5
  taobao.fenxiao.supplier.punish   1   json   0   0   13.5   4
  taobao.fenxiao.supplier.update   1   json   0   0   7   1
上述数据片段中,第一行数据表示,按照预置键对应的数据元素“version”、“apiName”和“format”进行归类,即按照“服务名称”、“版本号”、“返回格式”分别为“taobao.areas.get”、“1”和“xml”对数据记录进行归类,相同的数据记录的处理总数为15条,其Mapping时间和Mapping时间最大均为0,15条记录统计的业务平均消耗时间为88.73333ms。
从上述实例中可以看出,本申请实施例通过文件中的预置键值对中对预置键和预置值的定义,可实现数据的归类、统计分析、报表生成(例如可根据设定的预置键值对的顺序生成报表)等复杂功能,例如适合于各种不同类型数据的海量分析、处理,为并行的数据处理架构中的海量数据的分析、处理以及报表的生成提供了一种方便、灵活、直观、具体的实现方案。
当各个从服务器对原始数据进行分析处理后,将各自的分析处理结果反馈给主服务器,由主服务器对接收到的分析处理结果进行合并。其中,主服务器也可按照预置键值对中预置键的定义对从多个从服务器处得到分析处理结果进行归类,并按照预置键值对中预置值的定义对归类的分析处理结果进行合并处理。例如,在主服务器中,预置键定义了主服务器对分析处理结果进行归类的方式,预置值定义主服务器对归类后的分析处理结果进行合并处理的方法。例如,假设主服务器接收到了来自5个从服务器上报的分析处理结果共10个,按照预置键的定义,其中的7个分析处理结果可以进行归类,另外的3个分析处理结果可以进行归类,则主服务器分别可以对归类后的7个分析处理结果按照预置值的定义进行合并处理,以及,对归类后的另外3个分析处理结果按照预置值的定义进行合并处理。由于前面已经详细说明了预置键的归类方法和预置值的处理方法,故此处不再赘述。
需要说明的是,上述实施例一除了应用于由一个主服务器和多个从服务器所组成的集群系统中外,还可以应用于由一个主线程和多个子线程所组成的一个数据分析服务器中。此时,主线程用于实现主服务器的功能,子线程用于实现从服务器的功能。
由上述实施例可以看出,首先从数据源中获取待分析的原始数据,然后按照分割标识将原始数据切割成数据元素,并将切割得到的数据元素作为键值对中的键,再从切割得到的数据元素中,提取出符合预置键值对中的键定义的数据元素,最后按照预置键值对中的值定义,对提取出的数据元素进行分析处理,并将分析处理结果反馈给主服务器,以便主服务器对接收到的分析处理结果进行合并。因此,为并行的数据处理架构中的海量数据进行分析提供了具体的实现方案。
实施例二
当从服务器按照预置键中对数据元素的定义方式对获取的原始数据进行归类之后,根据用户的实际使用需求,还可对归类后的原始数据进行进一步的过滤,以过滤掉用户不需要的一部分原始数据,保留用户需要的原始数据。因此,本实施例与实施例一的区别在于:为了筛除掉归类后的原始数据中不需要处理的原始数据,在执行完步骤104后,还包括:从归类后的原始数据中筛选出符合第一预置过滤条件的原始数据。请参阅图2,其为本申请一种数据分析方法的另一个实施例的流程图,该方法包括以下步骤:
步骤201:从服务器接收主服务器发送的文件,其中,所述文件中包括待分析的原始数据的数据标识和预置键值对,所述预置键定义了从服务器对待分析的原始数据进行归类的方式,所述预置值定义了从服务器对归类后的原始数据进行分析处理的方式;
步骤202:从服务器根据所述数据标识,从数据源中获取待分析的原始数据,其中,所述原始数据中数据元素之间以分割标识进行隔离;
步骤203:从服务器根据所述分割标识将获取的原始数据切割成数据元素;
步骤204:从服务器按照预置键中对数据元素的定义方式对获取的原始数据进行归类;
需要说明的是,上述步骤201至步骤204的执行过程可以参见实施例一中步骤101至步骤104,此处不再赘述。
步骤205:从服务器从归类后的原始数据中筛选出符合第一预置过滤条件的原始数据;
例如,当从服务器初始时从数据源处获取的10个原始数据,并经过预置值的归类后,将其中的7个原始数据进行了归类,将另外的3个原始数据进行了归类。而根据用户的实际使用需求,7个归类后的原始数据经过第一预置过滤条件的过滤后,从中筛选出5个符合第一预置过滤条件的原始数据,从服务器将按照预置值的定义对这5个筛选出的原始数据进行分析处理。
其中,第一预置过滤条件包括大于、小于、不等于、大于或者等于和小于或者等于等条件表达式。当然,第一预置过滤条件为用户根据实际使用需求而设置的条件,本申请实施例对其不进行限定。
步骤206:从服务器按照预置键值对中预置值的定义,对筛选出的原始数据进行分析处理,并将分析处理结果反馈给主服务器。
另外,当按照预置键值对中的预置值定义,对筛选出的原始数据进行分析处理之后,根据用户的实际使用需求,有些分析处理结果是不符合使用条件的分析处理结果。优选地,为了筛除掉不符合使用条件的分析处理结果,在按照预置键值对中的预置值的定义,对筛选出的数据元素进行分析处理之后,且将分析处理结果反馈给主服务器之前,还包括:从分析处理得到的分析处理结果中筛选出符合第二预置过滤条件的分析处理结果。
其中,第二预置过滤条件为用于根据实际使用需求而设置的条件,支持大于、小于、不等于、大于或者等于、小于或者等于和是否是数字等表达式。
另外,对于一个报表数据的分析来说,除了对数据本身作分析以外,还可能需要能够对数据与其他数据作对比分析,产生一些预警,避免出现的问题或者关注的内容被埋没在海量的数据之中。优选地,本申请实施例中,当主服务器对接收到的分析处理结果进行合并处理后,将得到的合并处理结果与同一时间下的历史合并结果进行对比分析,根据对比分析的结果产生预警信号。例如,用户可以根据各自的使用需求设定各种预警条件,当主服务器对接收到的分析处理结果进行合并处理后,将合并处理结果与同一时间下的历史合并结果进行对比分析,判断对比分析的结果是否满足预警条件,如果是,生产预警信号。其中,
具体地,可以包括四种对比分析方式:
将今天(day)合并处理后的数据与昨天合并处理后的数据进行对比。例如,将今天合并处理后的数据与昨天合并处理后的数据进行比对,预警条件是前者小于后者时,产生预警信号。
预警条件为将将今天的数据和上周(week)同一时间的数据进行对比。
预警条件为将将今天的数据与上月(month)的同一时间数据进行对比分析。
将今天合并处理后的数据与定义的时间同期合并处理后的数据进行对比。
当然,根据具体的应用需求,还可以包括其他的对比分析方式,本申请对对比分析方式及预警条件的设立并不进行限定。
需要说明的是,上述实施例二除了应用于由一个主服务器和多个从服务器所组成的集群系统中外,同样可以应用于由一个主线程和多个子线程所组成的一个数据分析服务器中。此时,主线程用于实现主服务器的功能,子线程用于实现从服务器的功能。其中,优选地,子线程按照预置键中对数据元素的定义方式,对获取的原始数据进行归类之后,还包括:子线程从归类后的原始数据中筛选出符合第一预置过滤条件的原始数据;则按照预置值的定义,对归类后的原始数据键进行分析处理为:按照预置值的定义,对筛选出的原始数据进行分析处理。
优选的,子线程按照预置值的定义,对归类后的原始数据进行分析处理之后,还包括:子线程从分析处理得到的分析处理结果中筛选出符合第二预置过滤条件的分析处理结果;则所述将分析处理结果反馈给主线程为:将筛选出的分析处理结果反馈给主线程。
优选的,当主线程对接收到的分析处理结果进行合并处理后,将得到的合并处理结果与同一时间下的历史合并结果进行对比分析,根据对比分析的结果产生预警信号。
由上述实施例可以看出,首先从数据源中获取待分析的原始数据,然后按照分割标识将原始数据切割成数据元素,并将切割得到的数据元素作为键值对中的键,再从切割得到的数据元素中,提取出符合预置键值对中的键定义的数据元素,最后按照预置键值对中的值定义,对提取出的数据元素进行分析处理,并将分析处理结果反馈给主服务器,以便主服务器对接收到的分析处理结果进行合并。因此,为并行的数据处理架构中的海量数据进行分析提供了具体的实现方案。并且通过过滤条件可以过滤掉原始数据中不符合条件的数据,使分析处理后的数据更加准确有效。此外还通过设定的预警条件,避免出现的问题或者关注的内容被埋没在海量的数据之中。
实施例三
与上述一种数据分析方法相对应,本申请实施例还提供了一种数据分析装置。请参阅图3,其为本申请一种从服务器的一个实施例的结构图,该从服务器包括第一文件接收模块301、第一数据获取模块302、第一数据切割模块303、第一数据归类模块304和第一数据计算模块305。下面结合该装置的工作原理进一步介绍其内部结构以及连接关系。
第一文件接收模块301,用于接收主服务器发送的文件,其中,所述文件携带待分析的原始数据的数据标识和预置键值对,所述预置键定义了从服务器对待分析的原始数据进行归类的方式,所述预置值定义了从服务器对归类后的原始数据进行分析处理的方式;
第一数据获取模块302,用于根据所述数据标识,从数据源中获取待分析的原始数据,其中,所述原始数据中数据元素之间以分割标识进行隔离;
第一数据切割模块303,用于根据所述分割标识将获取的原始数据切割成数据元素;
第一数据归类模块304,用于按照预置键中对数据元素的定义方式,对获取的原始数据进行归类;
第一数据计算模块305,用于按照预置值的定义,对归类后的原始数据进行分析处理,并将分析处理结果反馈给主服务器。
优选的,请参阅图4,其为本申请一种从服务器的另一个实施例的结构图,所述从服务器还包括第一过滤模块306,用于从归类后的原始数据中筛选出符合第一预置过滤条件的原始数据;则第一数据计算模块305按照预置值的定义,对筛选出的原始数据进行分析处理。
优选的,请参阅图5,其为本申请一种从服务器的另一个实施例的结构图,所述从服务器还包括:第二过滤模块307,用于从分析处理得到的分析处理结果中筛选出符合第二预置过滤条件的分析处理结果;则第一数据计算模块305将筛选出的分析处理结果反馈给主服务器。
由上述实施例可以看出,首先从数据源中获取待分析的原始数据,然后按照分割标识将原始数据切割成数据元素,并将切割得到的数据元素作为键值对中的键,再从切割得到的数据元素中,提取出符合预置键值对中的键定义的数据元素,最后按照预置键值对中的值定义,对提取出的数据元素进行计算,并将计算结果反馈给主服务器,以便主服务器对接收到的计算结果进行合并。因此,为并行的数据处理架构中的海量数据进行分析提供了具体的实现方案。
实施例四
与上述一种数据分析方法相对应,本申请实施例还提供了一种数据分析装置。请参阅图6,其为本申请一种服务器的一个实施例的结构示意图。所述服务器包括:第二文件接收模块601、第一数据获取模块602、第一数据切割模块603、第一数据归类模块604和第一数据计算模块605。下面结合该装置的工作原理进一步介绍其内部结构以及连接关系。
第二文件接收模块601,用于接收主线程发送的文件,其中,所述文件携带待分析的原始数据的数据标识和预置键值对,所述预置键定义了子线程对待分析的原始数据进行归类的方式,所述预置值定义了子线程对归类后的原始数据进行分析处理的方式;
第二数据获取模块602,用于根据所述数据标识,从数据源中获取待分析的原始数据,其中,所述原始数据中数据元素之间以分割标识进行隔离;
第二数据切割模块603,用于根据所述分割标识将获取的原始数据切割成数据元素;
第二数据归类模块604,用于按照预置键中对数据元素的定义方式,对获取的原始数据进行归类;
第二数据计算模块605,用于按照预置值的定义,对归类后的原始数据进行分析处理,并将分析处理结果反馈给主线程。
优选的,子线程按照预置键中对数据元素的定义方式,对获取的原始数据进行归类之后,所述服务器还包括:第三过滤模块,用于从归类后的原始数据中筛选出符合第一预置过滤条件的原始数据;则第二数据计算模块605按照预置值的定义,对归类后的原始数据键进行分析处理为:按照预置值的定义,对筛选出的原始数据进行分析处理。
优选的,子线程按照预置值的定义,对归类后的原始数据进行分析处理之后,所述服务器还包括:第四过滤模块,用于从分析处理得到的分析处理结果中筛选出符合第二预置过滤条件的分析处理结果;则第二数据计算模块605将分析处理结果反馈给主线程为:将筛选出的分析处理结果反馈给主线程。
由上述实施例可以看出,首先从数据源中获取待分析的原始数据,然后按照分割标识将原始数据切割成数据元素,并将切割得到的数据元素作为键值对中的键,再从切割得到的数据元素中,提取出符合预置键值对中的键定义的数据元素,最后按照预置键值对中的值定义,对提取出的数据元素进行计算,并将计算结果反馈给主服务器,以便主服务器对接收到的计算结果进行合并。因此,为并行的数据处理架构中的海量数据进行分析提供了具体的实现方案。
实施例五
本申请还提供了一种数据分析系统,请参阅图7,其为本申请一种数据分析系统的一个实施例的结构图。所述系统包括:一主服务器701和至少两个从服务器702,其中,
主服务器701,用于向从服务器702发送文件,并对接收到的分析处理结果进行合并,其中,所述文件携带待分析的原始数据的数据标识和预置键值对,所述预置键定义了从服务器702对待分析的原始数据进行归类的方式,所述预置值定义了从服务器702对归类后的原始数据进行分析处理的方式;
从服务器702,用于接收主服务器701发送的文件,根据所述数据标识,从数据源中获取待分析的原始数据,其中,所述原始数据中数据元素之间以分割标识进行隔离,根据所述分割标识将获取的原始数据切割成数据元素,按照预置键中对数据元素的定义方式,对获取的原始数据进行归类,按照预置值的定义,对归类后的原始数据进行分析处理,并将分析处理结果反馈给主服务器701。
优选的,当主服务器701对接收到的分析处理结果进行合并后,主服务器701还用于将得到的分析处理结果与同一时间下的历史合并结果进行对比分析,并根据对比分析的结果产生预警信号。
由上述实施例可以看出,首先从数据源中获取待分析的原始数据,然后按照分割标识将原始数据切割成数据元素,并将切割得到的数据元素作为键值对中的键,再从切割得到的数据元素中,提取出符合预置键值对中的键定义的数据元素,最后按照预置键值对中的值定义,对提取出的数据元素进行计算,并将计算结果反馈给主服务器,以便主服务器对接收到的计算结果进行合并。因此,为并行的数据处理架构中的海量数据进行分析提供了具体的实现方案。
实施例六
本申请还提供了一种数据分析系统,请参阅图8,其为本申请一种数据分析系统的另一个实施例的结构图。所述数据分析系统包括:一主线程模块801和至少两个子线程模块802,其中,
主线程模块801,用于向子线程模块802发送文件,并对接收到的分析处理结果进行合并,其中,所述文件携带待分析的原始数据的数据标识和预置键值对,所述预置键定义了子线程模块802对待分析的原始数据进行归类的方式,所述预置值定义了子线程模块802对归类后的原始数据进行分析处理的方式;
子线程模块802,用于接收主线程模块801发送的文件,根据所述数据标识,从数据源中获取待分析的原始数据,其中,所述原始数据中数据元素之间以分割标识进行隔离,根据所述分割标识将获取的原始数据切割成数据元素,按照预置键中对数据元素的定义方式,对获取的原始数据进行归类,按照预置值的定义,对归类后的原始数据进行分析处理,并将分析处理结果反馈给主线程模块801。
由上述实施例可以看出,首先从数据源中获取待分析的原始数据,然后按照分割标识将原始数据切割成数据元素,并将切割得到的数据元素作为键值对中的键,再从切割得到的数据元素中,提取出符合预置键值对中的键定义的数据元素,最后按照预置键值对中的值定义,对提取出的数据元素进行计算,并将计算结果反馈给主服务器,以便主服务器对接收到的计算结果进行合并。因此,为并行的数据处理架构中的海量数据进行分析提供了具体的实现方案。
需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上对本申请所提供的一种数据分析方法、系统及服务器进行了详细介绍,本文中应用了具体实施例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (12)

1.一种数据分析方法,其特征在于,包括:
从服务器接收主服务器发送的文件,其中,所述文件携带待分析的原始数据的数据标识和预置键值对,所述预置键定义了从服务器对待分析的原始数据进行归类的方式,所述预置值定义了从服务器对归类后的原始数据进行分析处理的方式;
从服务器根据所述数据标识,从数据源中获取待分析的原始数据,其中,所述原始数据中数据元素之间以分割标识进行隔离;
从服务器根据所述分割标识将获取的原始数据切割成数据元素;
从服务器按照预置键中对数据元素的定义方式,对获取的原始数据进行归类;
从服务器按照预置值的定义,对归类后的原始数据进行分析处理,并将分析处理结果反馈给主服务器。
2.根据权利要求1所述的数据分析方法,其特征在于,所述从服务器按照预置键中对数据元素的定义方式,对获取的原始数据进行归类之后,还包括:
从服务器从归类后的原始数据中筛选出符合第一预置过滤条件的原始数据;
则按照预置值的定义,对归类后的原始数据键进行分析处理为:按照预置值的定义,对筛选出的原始数据进行分析处理。
3.根据权利要求1所述的数据分析方法,其特征在于,所述从服务器按照预置值的定义,对归类后的原始数据进行分析处理之后,还包括:
从服务器从分析处理得到的分析处理结果中筛选出符合第二预置过滤条件的分析处理结果;
则所述将分析处理结果反馈给主服务器为:将筛选出的分析处理结果反馈给主服务器。
4.根据权利要求1-3中任意一项所述的数据分析方法,其特征在于,所述方法还包括:
当主服务器对接收到的分析处理结果进行合并处理后,将得到的合并处理结果与同一时间下的历史合并结果进行对比分析,根据对比分析的结果产生预警信号。
5.一种数据分析方法,其特征在于,包括:
多线程中子线程接收主线程发送的文件,其中,所述文件携带待分析的原始数据的数据标识和预置键值对,所述预置键定义了子线程对待分析的原始数据进行归类的方式,所述预置值定义了子线程对归类后的原始数据进行分析处理的方式;
子线程根据所述数据标识,从数据源中获取待分析的原始数据,其中,所述原始数据中数据元素之间以分割标识进行隔离;
子线程根据所述分割标识将获取的原始数据切割成数据元素;
子线程按照预置键中对数据元素的定义方式,对获取的原始数据进行归类;
子线程按照预置值的定义,对归类后的原始数据进行分析处理,并将分析处理结果反馈给主线程。
6.一种数据分析系统,其特征在于,包括:一主服务器和至少两个从服务器,其中,
所述主服务器,用于向从服务器发送文件,并对接收到的分析处理结果进行合并,其中,所述文件携带待分析的原始数据的数据标识和预置键值对,所述预置键定义了从服务器对待分析的原始数据进行归类的方式,所述预置值定义了从服务器对归类后的原始数据进行分析处理的方式;
所述从服务器,用于接收主服务器发送的文件,根据所述数据标识,从数据源中获取待分析的原始数据,其中,所述原始数据中数据元素之间以分割标识进行隔离,根据所述分割标识将获取的原始数据切割成数据元素,按照预置键中对数据元素的定义方式,对获取的原始数据进行归类,按照预置值的定义,对归类后的原始数据进行分析处理,并将分析处理结果反馈给主服务器。
7.根据权利要求6所述的数据分析系统,其特征在于,当所述主服务器对接收到的分析处理结果进行合并后,所述主服务器还用于将得到的分析处理结果与同一时间下的历史合并结果进行对比分析,根据对比分析的结果产生预警信号。
8.一种数据分析系统,其特征在于,包括:一主线程模块和至少两个子线程模块,其中,
所述主线程模块,用于向子线程模块发送文件,并对接收到的分析处理结果进行合并,其中,所述文件携带待分析的原始数据的数据标识和预置键值对,所述预置键定义了子线程模块对待分析的原始数据进行归类的方式,所述预置值定义了子线程模块对归类后的原始数据进行分析处理的方式;
所述子线程模块,用于接收主线程模块发送的文件,根据所述数据标识,从数据源中获取待分析的原始数据,其中,所述原始数据中数据元素之间以分割标识进行隔离,根据所述分割标识将获取的原始数据切割成数据元素,按照预置键中对数据元素的定义方式,对获取的原始数据进行归类,按照预置值的定义,对归类后的原始数据进行分析处理,并将分析处理结果反馈给主线程模块。
9.一种从服务器,其特征在于,包括:
第一文件接收模块,用于接收主服务器发送的文件,其中,所述文件携带待分析的原始数据的数据标识和预置键值对,所述预置键定义了从服务器对待分析的原始数据进行归类的方式,所述预置值定义了从服务器对归类后的原始数据进行分析处理的方式;
第一数据获取模块,用于根据所述数据标识,从数据源中获取待分析的原始数据,其中,所述原始数据中数据元素之间以分割标识进行隔离;
第一数据切割模块,用于根据所述分割标识将获取的原始数据切割成数据元素;
第一数据归类模块,用于按照预置键中对数据元素的定义方式,对获取的原始数据进行归类;
第一数据计算模块,用于按照预置值的定义,对归类后的原始数据进行分析处理,并将分析处理结果反馈给主服务器。
10.根据权利要求9所述的从服务器,其特征在于,还包括:
第一过滤模块,用于从归类后的原始数据中筛选出符合第一预置过滤条件的原始数据;
则所述第一数据计算模块按照预置值的定义,对筛选出的原始数据进行分析处理。
11.根据权利要求9所述的从服务器,其特征在于,还包括:
第二过滤模块,用于从分析处理得到的分析处理结果中筛选出符合第二预置过滤条件的分析处理结果;则所述第一数据计算模块将筛选出的分析处理结果反馈给主服务器。
12.一种服务器,其特征在于,包括:
第二文件接收模块,用于接收主线程发送的文件,其中,所述文件携带待分析的原始数据的数据标识和预置键值对,所述预置键定义了子线程对待分析的原始数据进行归类的方式,所述预置值定义了子线程对归类后的原始数据进行分析处理的方式;
第二数据获取模块,用于根据所述数据标识,从数据源中获取待分析的原始数据,其中,所述原始数据中数据元素之间以分割标识进行隔离;
第二数据切割模块,用于根据所述分割标识将获取的原始数据切割成数据元素;
第二数据归类模块,用于按照预置键中对数据元素的定义方式,对获取的原始数据进行归类;
第二数据计算模块,用于按照预置值的定义,对归类后的原始数据进行分析处理,并将分析处理结果反馈给主线程。
CN201010222602.3A 2010-07-07 2010-07-07 数据分析方法、系统及服务器 Active CN102314460B (zh)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN201010222602.3A CN102314460B (zh) 2010-07-07 2010-07-07 数据分析方法、系统及服务器
US13/135,407 US9442979B2 (en) 2010-07-07 2011-07-05 Data analysis using multiple systems
PCT/US2011/001186 WO2012005765A1 (en) 2010-07-07 2011-07-06 Data analysis using multiple systems
EP11803939.5A EP2591421A4 (en) 2010-07-07 2011-07-06 Data analysis using multiple systems
JP2013518377A JP5635691B2 (ja) 2010-07-07 2011-07-06 複数のシステムを用いたデータ解析
HK12102409.7A HK1161923A1 (zh) 2010-07-07 2012-03-09 數據分析方法、系統及服務器
US15/236,022 US20170039214A1 (en) 2010-07-07 2016-08-12 Data analysis using multiple systems

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010222602.3A CN102314460B (zh) 2010-07-07 2010-07-07 数据分析方法、系统及服务器

Publications (2)

Publication Number Publication Date
CN102314460A true CN102314460A (zh) 2012-01-11
CN102314460B CN102314460B (zh) 2014-05-14

Family

ID=45427638

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010222602.3A Active CN102314460B (zh) 2010-07-07 2010-07-07 数据分析方法、系统及服务器

Country Status (6)

Country Link
US (2) US9442979B2 (zh)
EP (1) EP2591421A4 (zh)
JP (1) JP5635691B2 (zh)
CN (1) CN102314460B (zh)
HK (1) HK1161923A1 (zh)
WO (1) WO2012005765A1 (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102638456A (zh) * 2012-03-19 2012-08-15 杭州海康威视系统技术有限公司 基于云计算的海量实时视频码流智能分析方法及其系统
CN103793513A (zh) * 2014-02-10 2014-05-14 济南大学 基于邻近海量数据快速分析的电信套餐优化系统与方法
CN103823846A (zh) * 2014-01-28 2014-05-28 浙江大学 一种基于图论的大数据存储及查询方法
CN103970738A (zh) * 2013-01-24 2014-08-06 华为技术有限公司 一种产生数据的方法和装置
CN104462287A (zh) * 2014-11-27 2015-03-25 华为技术服务有限公司 一种数据处理的方法、装置及系统
CN104679884A (zh) * 2015-03-16 2015-06-03 北京奇虎科技有限公司 数据库的数据分析方法、装置以及系统
CN105760492A (zh) * 2016-02-18 2016-07-13 广东睿江云计算股份有限公司 数据分析方法及装置
CN105843803A (zh) * 2015-01-12 2016-08-10 上海悦程信息技术有限公司 大数据安全可视化交互分析系统及方法
CN107203960A (zh) * 2016-06-30 2017-09-26 北京新媒传信科技有限公司 图像渲染方法及装置
CN107526926A (zh) * 2017-08-09 2017-12-29 沈阳东软医疗系统有限公司 一种图像体数据分割标识处理方法、装置及设备
CN107959703A (zh) * 2016-10-18 2018-04-24 网宿科技股份有限公司 数据处理方法、客户端及分布式计算系统
CN109408214A (zh) * 2018-11-06 2019-03-01 北京字节跳动网络技术有限公司 一种数据的并行处理方法、装置、电子设备及可读介质
CN109726581A (zh) * 2017-10-31 2019-05-07 阿里巴巴集团控股有限公司 一种数据统计方法和装置

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942210B (zh) * 2013-01-21 2018-05-04 中国移动通信集团上海有限公司 海量日志信息的处理方法、装置与系统
US10817544B2 (en) * 2015-04-20 2020-10-27 Splunk Inc. Scaling available storage based on counting generated events
US10282455B2 (en) 2015-04-20 2019-05-07 Splunk Inc. Display of data ingestion information based on counting generated events
CN106250405A (zh) * 2016-07-21 2016-12-21 柳州龙辉科技有限公司 一种海量信息处理系统
CN106227644A (zh) * 2016-07-21 2016-12-14 柳州龙辉科技有限公司 一种海量信息处理装置
CN106227797A (zh) * 2016-07-21 2016-12-14 柳州龙辉科技有限公司 一种海量日志信息的处理方法
CN106250287A (zh) * 2016-07-21 2016-12-21 柳州龙辉科技有限公司 一种日志信息处理装置
CN106250406A (zh) * 2016-07-21 2016-12-21 柳州龙辉科技有限公司 一种日志处理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1207186A (zh) * 1995-12-30 1999-02-03 时代线路股份有限公司 具有多个源容量的数据检索方法和装置
US20070118491A1 (en) * 2005-07-25 2007-05-24 Splunk Inc. Machine Data Web
US20080059392A1 (en) * 1998-05-01 2008-03-06 Stephen Barnhill System for providing data analysis services using a support vector machine for processing data received from a remote source

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH052610A (ja) 1991-06-25 1993-01-08 Mitsubishi Electric Corp リレーシヨナルデータベースにおける集約演算処理方式
JP3457405B2 (ja) 1994-03-09 2003-10-20 日本電信電話株式会社 情報検索装置、情報検索方法及び知識獲得システム
US5802511A (en) 1996-01-02 1998-09-01 Timeline, Inc. Data retrieval method and apparatus with multiple source capability
CA2199108C (en) 1996-03-05 2002-04-23 Hirotoshi Maegawa Parallel distributed processing system and method of same
US6714979B1 (en) * 1997-09-26 2004-03-30 Worldcom, Inc. Data warehousing infrastructure for web based reporting tool
US7805388B2 (en) 1998-05-01 2010-09-28 Health Discovery Corporation Method for feature selection in a support vector machine using feature ranking
US7047232B1 (en) 1999-01-13 2006-05-16 Ab Initio Software Corporation Parallelizing applications of script-driven tools
US6385604B1 (en) * 1999-08-04 2002-05-07 Hyperroll, Israel Limited Relational database management system having integrated non-relational multi-dimensional data store of aggregated data elements
US6408292B1 (en) 1999-08-04 2002-06-18 Hyperroll, Israel, Ltd. Method of and system for managing multi-dimensional databases using modular-arithmetic based address data mapping processes on integer-encoded business dimensions
JP2001109718A (ja) 1999-10-06 2001-04-20 Yamatake Building Systems Co Ltd 情報閲覧システム
NZ507121A (en) * 2000-09-22 2003-08-29 Compudigm Int Ltd Data visualization parameters specified in query for data from database
US6704733B2 (en) * 2000-10-25 2004-03-09 Lightning Source, Inc. Distributing electronic books over a computer network
US7076482B2 (en) * 2001-10-25 2006-07-11 Bea Systems, Inc. Multi-part looked-up table fields and its use in data processing operations involving multiple tables of a relational database
PL374305A1 (en) * 2001-12-28 2005-10-03 Jeffrey James Jonas Real time data warehousing
US8577795B2 (en) * 2002-10-10 2013-11-05 Convergys Information Management Group, Inc. System and method for revenue and authorization management
US8121978B2 (en) * 2002-11-15 2012-02-21 Sybase, Inc. Database system providing improved methods for data replication
US8620937B2 (en) * 2002-12-27 2013-12-31 International Business Machines Corporation Real time data warehousing
US7610306B2 (en) * 2003-06-30 2009-10-27 International Business Machines Corporation Multi-modal fusion in content-based retrieval
US7143112B2 (en) * 2003-09-10 2006-11-28 Hitachi, Ltd. Method and apparatus for data integration
US7047252B2 (en) * 2003-12-02 2006-05-16 Oracle International Corporation Complex computation across heterogenous computer systems
US7797333B1 (en) * 2004-06-11 2010-09-14 Seisint, Inc. System and method for returning results of a query from one or more slave nodes to one or more master nodes of a database system
US7650331B1 (en) * 2004-06-18 2010-01-19 Google Inc. System and method for efficient large-scale data processing
US7571151B1 (en) 2005-12-15 2009-08-04 Gneiss Software, Inc. Data analysis tool for analyzing data stored in multiple text files
US7624118B2 (en) 2006-07-26 2009-11-24 Microsoft Corporation Data processing over very large databases
US8190610B2 (en) * 2006-10-05 2012-05-29 Yahoo! Inc. MapReduce for distributed database processing
US7627551B2 (en) * 2007-01-23 2009-12-01 Gm Global Technology Operations, Inc. Retrieving case-based reasoning information from archive records
US7970872B2 (en) 2007-10-01 2011-06-28 Accenture Global Services Limited Infrastructure for parallel programming of clusters of machines
EP2063364A1 (en) * 2007-11-19 2009-05-27 Siemens Aktiengesellschaft Module for building database queries
JP5408442B2 (ja) 2010-01-21 2014-02-05 株式会社日立製作所 並列分散処理方法、及び、計算機システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1207186A (zh) * 1995-12-30 1999-02-03 时代线路股份有限公司 具有多个源容量的数据检索方法和装置
US20080059392A1 (en) * 1998-05-01 2008-03-06 Stephen Barnhill System for providing data analysis services using a support vector machine for processing data received from a remote source
US20070118491A1 (en) * 2005-07-25 2007-05-24 Splunk Inc. Machine Data Web

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102638456A (zh) * 2012-03-19 2012-08-15 杭州海康威视系统技术有限公司 基于云计算的海量实时视频码流智能分析方法及其系统
CN102638456B (zh) * 2012-03-19 2015-09-23 杭州海康威视数字技术股份有限公司 基于云计算的海量实时视频码流智能分析方法及其系统
CN103970738A (zh) * 2013-01-24 2014-08-06 华为技术有限公司 一种产生数据的方法和装置
CN103970738B (zh) * 2013-01-24 2017-08-29 华为技术有限公司 一种产生数据的方法和装置
CN103823846A (zh) * 2014-01-28 2014-05-28 浙江大学 一种基于图论的大数据存储及查询方法
CN103793513B (zh) * 2014-02-10 2017-04-05 济南大学 基于邻近海量数据快速分析的电信套餐优化系统与方法
CN103793513A (zh) * 2014-02-10 2014-05-14 济南大学 基于邻近海量数据快速分析的电信套餐优化系统与方法
CN104462287B (zh) * 2014-11-27 2018-10-12 华为技术服务有限公司 一种数据处理的方法、装置及系统
CN104462287A (zh) * 2014-11-27 2015-03-25 华为技术服务有限公司 一种数据处理的方法、装置及系统
CN105843803A (zh) * 2015-01-12 2016-08-10 上海悦程信息技术有限公司 大数据安全可视化交互分析系统及方法
CN105843803B (zh) * 2015-01-12 2019-04-12 上海悦程信息技术有限公司 大数据安全可视化交互分析系统及方法
CN104679884A (zh) * 2015-03-16 2015-06-03 北京奇虎科技有限公司 数据库的数据分析方法、装置以及系统
CN104679884B (zh) * 2015-03-16 2018-04-10 北京奇虎科技有限公司 数据库的数据分析方法、装置以及系统
CN105760492A (zh) * 2016-02-18 2016-07-13 广东睿江云计算股份有限公司 数据分析方法及装置
CN105760492B (zh) * 2016-02-18 2019-10-15 广东睿江云计算股份有限公司 数据分析方法及装置
CN107203960A (zh) * 2016-06-30 2017-09-26 北京新媒传信科技有限公司 图像渲染方法及装置
CN107959703A (zh) * 2016-10-18 2018-04-24 网宿科技股份有限公司 数据处理方法、客户端及分布式计算系统
CN107959703B (zh) * 2016-10-18 2021-04-16 网宿科技股份有限公司 数据处理方法、客户端及分布式计算系统
CN107526926A (zh) * 2017-08-09 2017-12-29 沈阳东软医疗系统有限公司 一种图像体数据分割标识处理方法、装置及设备
CN109726581A (zh) * 2017-10-31 2019-05-07 阿里巴巴集团控股有限公司 一种数据统计方法和装置
WO2019085665A1 (zh) * 2017-10-31 2019-05-09 阿里巴巴集团控股有限公司 一种数据统计方法和装置
CN109726581B (zh) * 2017-10-31 2020-04-14 阿里巴巴集团控股有限公司 一种数据统计方法和装置
CN109408214A (zh) * 2018-11-06 2019-03-01 北京字节跳动网络技术有限公司 一种数据的并行处理方法、装置、电子设备及可读介质

Also Published As

Publication number Publication date
JP2013536492A (ja) 2013-09-19
WO2012005765A1 (en) 2012-01-12
US9442979B2 (en) 2016-09-13
US20170039214A1 (en) 2017-02-09
HK1161923A1 (zh) 2012-08-10
JP5635691B2 (ja) 2014-12-03
EP2591421A4 (en) 2017-12-06
US20120011121A1 (en) 2012-01-12
CN102314460B (zh) 2014-05-14
EP2591421A1 (en) 2013-05-15

Similar Documents

Publication Publication Date Title
CN102314460A (zh) 数据分析方法、系统及服务器
CN107515878B (zh) 一种数据索引的管理方法及装置
CN101504672B (zh) 一种动态配置实体数据表的方法和系统
CN105488223B (zh) 业务数据事件的分析订阅方法及系统
CN103748579A (zh) 在映射化简框架中处理数据
US20130006996A1 (en) Clustering E-Mails Using Collaborative Information
CN103617047A (zh) 一种业务流程开发方法、装置及处理器
CN106528511B (zh) 表单的分析方法和装置
CN108647235A (zh) 一种基于数据仓库的数据分析方法、设备以及介质
CN111831755B (zh) 一种跨数据库数据同步方法、系统、介质及设备
CN112732763A (zh) 数据的聚合方法、装置、电子设备及介质
CN112307318B (zh) 一种内容发布方法、系统及装置
CN107729330B (zh) 获取数据集的方法和装置
CN109033157B (zh) 一种基于自定义搜索条件树的复杂数据检索方法和系统
CN113885860A (zh) 一种自动配置管理页面生成接口服务的方法及设备
CN112596851A (zh) 仿真平台的多源异构数据批量抽取方法和分析方法
CN110019182A (zh) 一种数据追溯方法及装置
CN111523764A (zh) 业务架构检测方法、装置、工具、电子设备和介质
CN114048252A (zh) 生产数据的分析方法、装置、存储介质及处理器
CN110781211B (zh) 一种数据的解析方法及装置
CN116931768A (zh) 用于物料清单变更管理的方法和装置及存储介质
CN114443742A (zh) 一种k线图的展示方法、装置和设备
CN111209284A (zh) 基于元数据的分表方法及装置
CN106209466A (zh) 一种系统日志处理方法
TWI524191B (zh) Data analysis methods, systems and servers

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1161923

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1161923

Country of ref document: HK