CN107122125B - 一种数据处理方法和系统 - Google Patents

一种数据处理方法和系统 Download PDF

Info

Publication number
CN107122125B
CN107122125B CN201610105565.5A CN201610105565A CN107122125B CN 107122125 B CN107122125 B CN 107122125B CN 201610105565 A CN201610105565 A CN 201610105565A CN 107122125 B CN107122125 B CN 107122125B
Authority
CN
China
Prior art keywords
data
feature
subsystem
storage subsystem
importance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610105565.5A
Other languages
English (en)
Other versions
CN107122125A (zh
Inventor
毛仁歆
王凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610105565.5A priority Critical patent/CN107122125B/zh
Publication of CN107122125A publication Critical patent/CN107122125A/zh
Application granted granted Critical
Publication of CN107122125B publication Critical patent/CN107122125B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • G06F3/0611Improving I/O performance in relation to response time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0643Management of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0673Single storage device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0203Market surveys; Market polls

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Human Computer Interaction (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种数据处理方法和系统,其中系统包括:前端子系统,用于接收待分析的多个数据集的数据集标识、以及待分析的至少一个特征的特征标识,所述特征位于所述数据集中;应用服务子系统,用于根据所述数据集标识生成用于获取所述数据集的数据查询逻辑,并将所述数据查询逻辑和特征标识传输至分析型存储子系统;还用于根据所述分析型存储子系统得到的特征的统计值,计算特征的重要性;基于内存的分析型存储子系统,用于根据所述应用服务子系统生成的数据查询逻辑,获取所述多个数据集的数据,并分别在所述多个数据集中,并行进行所述特征标识对应的特征的统计,得到所述特征的统计值。本申请提高了对海量数据集的特征重要性的计算效率。

Description

一种数据处理方法和系统
技术领域
本申请涉及网络技术,特别涉及一种数据处理方法和系统。
背景技术
随着大数据技术的发展,可以应用海量数据分析技术,为企业的经营活动挖掘更有价值的参考信息。例如,可以根据某次营销活动得到的海量营销数据,通过数据分析确定某个目标群体的特征参数,从而可以根据该特征参数制定更有针对性的营销方案。对海量数据集的特征重要性的计算,是海量数据分析中的其中一种,通过计算特征重要性的度量值,确定重要性更高的特征作为能够区分不同用户群体的显著性特征,使得可以据此了解不同用户群体的特点。相关技术中,在海量数据中计算特征重要性时,通常采用HIVE(HIVE是基于Hadoop的一个数据仓库工具)进行计算,由于HIVE底层采用MapReduce的计算框架,导致在千万级别数据量上,至少需要数十分钟才能得到特征重要性结果。
发明内容
有鉴于此,本申请提供一种数据处理方法和系统,以提高对海量数据集的特征重要性的计算效率。
具体地,本申请是通过如下技术方案实现的:
第一方面,提供一种数据处理系统,所述数据处理系统包括:
前端子系统,用于接收待分析的多个数据集的数据集标识、以及待分析的至少一个特征的特征标识,所述特征位于所述数据集中;
应用服务子系统,用于根据所述数据集标识生成用于获取所述数据集的数据查询逻辑,并将所述数据查询逻辑和特征标识传输至分析型存储子系统;还用于根据所述分析型存储子系统得到的特征的统计值,计算特征的重要性;
基于内存的分析型存储子系统,用于根据所述应用服务子系统生成的数据查询逻辑,获取所述多个数据集的数据,并分别在所述多个数据集中,并行进行所述特征标识对应的特征的统计,得到所述特征的统计值。
第二方面,提供一种数据处理方法,包括:
接收待分析的多个数据集的数据集标识、以及待分析的至少一个特征的特征标识,所述特征位于所述数据集中;
根据所述数据集标识生成用于获取所述数据集的数据查询逻辑;
通过基于内存的分析型存储子系统根据所述数据查询逻辑获取所述多个数据集的数据,并分别在所述多个数据集中,并行进行所述特征标识对应的特征的统计,得到所述特征的统计值;
根据所述特征的统计值,计算特征的重要性。
本申请提供的数据处理方法和系统,通过分析型存储子系统例如ADS,并行对多个用户群的多个特征进行查询和统计,这种方式相对于传统的HIVE计算方式来看,由于分析型存储子系统是基于内存的存储分析系统,数据的存储以及处理都在内存中进行,相比于HIVE的MapReduce处理方式来看,MapReduce架构的数据存储在磁盘,并且在各个计算节点之间配合处理数据时,需要从磁盘读取数据和在节点之间传输数据,而本申请的系统中,基于内存的存储分析系统相比HIVE节省了节点之间的数据读取I/O及传输时间,从而提高了对海量数据集的特征重要性的计算效率。
附图说明
图1是本申请一示例性实施例示出的一种数据处理系统的系统架构;
图2是本申请一示例性实施例示出的一种特征重要性的计算架构;
图3是本申请一示例性实施例示出的对多个特征的IV值进行可视化展示的示意图;
图4是本申请一示例性实施例示出的特征的饼图显示示意图;
图5是本申请一示例性实施例示出的特征的柱状图显示示意图;
图6是本申请一示例性实施例示出的一种数据处理方法的流程图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
本申请实施例提供了一种数据处理系统,该系统可以应用于海量数据分析,该海量数据可以是千万级别甚至更高级别的数据量。图1示例了该数据处理系统的系统架构,如图1所示,该系统中可以包括:前端子系统11、应用服务子系统12和基于内存的分析型存储子系统13。
其中,待分析的海量数据可以存储于分析型存储子系统13,例如,该海量数据可以是一次营销活动中收集到的营销数据,并且,该海量数据是存储在分析型存储子系统13的内存中。分析型存储子系统13不仅具有存储数据的功能,并且还可以执行对数据的统计功能,例如,在本次营销活动收集的海量营销数据中,统计北京用户的数量。该分析型存储子系统13可以是ADS(Analysis Database Service,分析数据库服务)存储引擎。
分析型存储子系统13可以做简单的数据统计工作,但是对于特征重要性的具体计算,仍然需要通过应用服务子系统12来执行。例如,在计算海量数据集的特征重要性时,如果用信息熵作为特征重要性的度量值,可以是由应用服务子系统12根据分析型存储子系统13所做的统计数据基础上计算得到。
而前端子系统11可以作为面向该数据处理系统的用户的门户,例如,可以运行在PC上,向用户展示人机交互界面,比如,WEB页面,以供用户可以通过该交互界面选择待分析的海量数据集、或者数据集中待计算的特征等。
前端子系统11与应用服务子系统12之间,应用服务子系统12和分析型存储子系统13之间都可以进行通信,执行信息传输。例如,应用服务子系统12可以运行于服务器集群,作为前端子系统11的设备可以通过网络将获取到的用户选择的数据集或特征的标识等信息,传输至应用服务子系统12。又例如,分析型存储子系统13还可以将统计得到的基础数据通过网络传输至应用服务子系统12,以使得应用服务子系统12根据该数据做进一步计算。
图1所示的数据处理系统,在本申请实施例中,可以用于计算海量数据集的特征重要性。通过一个例子来说明“特征重要性的计算”:假设在一次营销活动中,向一万个用户发布了某条营销广告信息,其中,四千人对该广告信息给予了回应,比如,点击了广告中的链接或者购买了广告商品;另外六千人未给予任何回应,可能是这些人对该广告信息没有兴趣。并且,在本次营销活动中,假设可以获得的营销数据包括:给予回应的用户的所在地(如,北京、上海)、性别、年龄;以及未给予回应的用户的所在地、性别、年龄。
在本例子中,假设数据分析师期望根据获得的营销数据进行数据分析,以了解具备哪些特征的用户更容易对本次营销广告感兴趣,而哪些特征的用户对本营销不感兴趣,并据此使得后续的营销更有针对性。为了实现该目的,可以将给予回应的用户称为用户群A,将未给予回应的用户称为用户群B,并分析哪些特征可以用于显著区分这两个用户群。
例如,假设“性别”是可以用于区分这两个用户群的特征,因为用户群A中的用户全部是男性,用户群B中的用户全部是女性,那么,“性别”这个特征就是重要性最高的特征。又例如,假设计算“所在地”、“年龄”这两个特征的重要性,并且“所在地”的重要性更高,那也就是说,用户群A和用户群B可以依据“所在地”进行显著区分,比如,用户群A的用户大多是北京用户,而用户群B的用户多是上海用户。
特征重要性的量化度量,可以有多种方式,例如,可以计算特征的信息熵作为特征重要性的度量,或者,还可以计算特征的IV值,等。可以比较多个特征的信息熵或IV值的大小,并将这些数值进行排序,来确定对应的特征在区分不同用户群方面的重要性。例如,如果一个特征F1的IV值是0.659,另一个特征F2的IV值是0.523,那么特征F1更能显著区分不同用户群。
如下结合图2,说明如何利用图1所示的数据处理系统,来进行特征重要性的计算。其中,图2中还示例了在计算特征重要性时,各个子系统中可以包括的不同功能模块,以及这些功能模块之间的关联。
前端子系统11可以包括:用户群选择模块111和特征选择模块112。其中,在分析型存储子系统13中可以存储有很多个用户群的数据,本次海量数据分析的用户(例如,数据分析师)可以通过前端子系统11的人机交互页面,选择待区分的多个数据集的数据集标识,例如,用户群选择模块111可以显示多个供用户选择的用户群,每个用户群对应的用户数据即可称为一个数据集,用于表示该数据集中的数据的标识即数据集标识。比如,“营销活动Y1在时间段T1内的响应用户”是一个用户群,“营销活动Y1在时间段T1内未响应的用户”是另一个用户群,用户可以选择想要区分哪些用户群,比如,这些用户群的用户具有什么特点。
在对数据集进行分析时,本例子中,可以是计算数据集中包括的一些特征的重要性。特征选择模块112可以提供用户选择待分析的至少一个特征的接口,例如,数据集中包括的特征可以为“城市”、“性别”、“年龄”等,用户同样可以通过特征选择模块112选择对哪些特征进行特征重要性计算。比如,对于用户在用户群选择模块111选择的两个用户群,可以分析“城市”、“性别”这两个特征的重要性,判断哪个特征更能够显著区分该两个用户群。
用户在前端子系统11选择的多个用户群和至少一个特征,可以传输至应用服务子系统12,该应用服务子系统12可以包括查询数据逻辑模块121和特征传递模块122。其中,查询数据逻辑模块121可以根据前端子系统11获取的数据集标识生成用于获取对应数据集的数据查询逻辑,比如,用户在前端子系统11选择了用户群A,那么查询数据逻辑模块121可以生成从分析型存储子系统13中查询获取用户群A的数据的逻辑,例如,select user_idfrom<table 1>where key=value,在该例子中,table 1可以是存储了包括多个城市的用户的数据表,在该表中查询用户群A,比如,如果用户群A是位于上海这个城市的用户,那么可以在查询时,将上述逻辑语句中的key=value,设置为key=城市,value=上海。
查询数据逻辑模块121可以将数据查询逻辑传输至分析型存储子系统13,以使得分析型存储子系统13据此获取对应的数据集,特征传递模块122可以将特征标识传输至分析型存储子系统13,以使得分析型存储子系统13据此分析数据集中的特定特征。请继续参见图2,用户在前端子系统11选择的待分析特征可以为多个,图2以其中一个特征X为例进行说明。假设用户选择了三个用户群A、B和C,应用服务子系统12的查询数据逻辑模块121生成了用于查询这三个用户群的查询数据逻辑,分析型存储子系统13根据该逻辑可以获取到用户群A的数据、用户群B的数据和用户群C的数据。
在获取到用户群的数据之后,可以进行特征X的分析,分析型存储子系统13可以分别在每个用户群中进行特征X的枚举值统计。举例如下:对于“城市”这个特征,可以包括“北京”、“无锡”、“南京”、“哈尔滨”等多个枚举值,在某个用户群中,假设该用户群中有四千个用户,可以统计这些用户中,分别对应上述各个枚举值(例如,“无锡”)的用户的数量。比如,经过统计可以得到,“无锡”的用户有593名,“南京”的用户有2314名。分析型存储子系统13可以并行计算各个用户群的特征。
在另一个例子中,当用户选择的特征有多个时,分析型存储子系统13可以并行计算多个特征的统计值。例如,假设用户选择了两个特征,包括特征X和特征Y,那么,分析型存储子系统13可以并行进行特征X和特征Y的计算,对于每个特征,都可以按照上述的方式分别统计该特征在各个用户群中的枚举值数量。
应用服务子系统12中的重要性计算模块123,可以根据分析型存储子系统13计算得到的对于特征X的统计值,计算该特征X的重要性。本例子中,还可以根据所分析的数据集的数量,选择不同的重要性计算方法。例如,当所分析的数据集的数量为两个时,可以根据分析型存储子系统得到的特征的统计值,计算特征的IV值,作为特征重要性的度量;当数据集的数量多于两个时,可以根据分析型存储子系统得到的特征的统计值,计算特征的信息熵,作为特征重要性的度量。
例如,如下的表1示例了其中一个特征“城市”的统计值。
表1特征统计
城市 用户群A 用户群B
北京 32901 120931
上海 12934 98201
无锡 5937 12831
南京 6501 12945
杭州 2314 98311
哈尔滨 9360 37281
福建 1123 3921
汇总 71070 384421
根据如上的表1,示例对于该特征“城市”的重要性计算方式:在表1中,用户群的数量是两个,可以认为是二分类问题,本实施例可以采用IV值作为特征重要性的度量,即计算特征“城市”的IV值。公式如下:
Figure BDA0000929766120000071
Figure BDA0000929766120000072
在如上的公式中,IVi中表示特征“城市”中的每一个枚举值的IV值,例如,对于“北京”计算一个对应的IVi,对于“福建”计算一个对应的IVi,等。IV即将各个枚举值的IV值汇总加和,得到特征“城市”的IV值。#Bi表示用户群A中的其中一个枚举值的统计值,例如,“北京”对应的统计值32901;#BT表示用户群A对应的汇总值,例如,表1中的汇总值71070。#Gi表示用户群B中的其中一个枚举值的统计值,例如,“北京”对应的统计值120931;#GT表示用户群B对应的汇总值,例如,表1中的汇总值384421。
示例部分计算过程:
对于“北京”:
#Bi=32901,#BT=71070,#Gi=120931,#GT=384421,根据该参数,进行IVi的计算,得到“北京”对应的IVi=0.057。
对于“福建”:
#Bi=1123,#BT=71070,#Gi=3921,#GT=384421,根据该参数,进行IVi的计算,得到“福建”对应的IVi=0.002。
同样的方式,可以计算其他枚举值对应的IVi,最终汇总加和得到特征“城市”的IV=0.659。
在另一个例子中,如果用户群的数量多于两个(例如,包括用户群A、用户群B和用户群C),可以认为是多分类问题,本实施例可以采用信息熵作为特征重要性的度量。公式如下:
Figure BDA0000929766120000081
Figure BDA0000929766120000082
在如上的信息熵计算公式中,Hi是每一个枚举值对应的信息熵,例如,“北京”对应的信息熵,H是对所有枚举值信息熵汇总加和,例如,特征“城市”对应的信息熵,并且,共有k个枚举值,比如,在表1中,“城市”特征下共有“北京”、“无锡”等七个枚举值,k=7。而
Figure BDA0000929766120000083
是某一个用户群中的某个枚举值的统计数据,i表示某个枚举值,t表示某个用户群,例如,当t=1时,表示用户群A,
Figure BDA0000929766120000084
表示用户群A中的各个枚举值统计数据,“北京”对应的32901,“无锡”对应的5937等。当t=2时,表示用户群B,不再详举,公式中的T表示用户群的数目,当有三个用户群时,T=3。具体的计算将不再举例,按照公式计算信息熵即可。
应用服务子系统12的重要性计算模块123,可以按照上述计算方式计算出各个特征的重要性,例如,该重要性可以用IV值或信息熵度量。并且,在特征的数量为多个时,可以并行计算该多个特征的重要性。在得到各个特征的重要性度量数值后,可以根据重要性度量值(IV或信息熵)对这些特征进行排序,以找到对区分不同用户群起到较为显著作用的特征,从而实现对数据集分析的目的。
为了更方便数据分析师查看数据分析的结果,本实施例还可以通过前端子系统11,将计算特征的重要性的结果数据或者过程数据,进行可视化图形展示。如图2所示,前端子系统11的可视化展示模块113,可以进行上述的结果展示。图3示例了一种对多个特征的IV值进行可视化展示的示意图,该图中示出了四个特征a、b、c和d的IV值,并且根据IV值进行了排序,可以看到,特征a的IV值最大,是用于区分不同用户群的最重要的特征。
此外,本申请中还可以对计算特征重要性时的过程数据进行展示,比如,参见表1的特征统计的数据,其中的各个枚举值对应的统计值,例如,“北京”在用户群A的统计值32901,其实是后续的IV值计算的基础数据,将根据该统计值计算IV值。本实施例中,还可以根据这些统计值,将各个用户群中,不同枚举值所占的比例分布用图表的形式表示出来。
例如,参见图4的示例,该图4以饼图的形式示例了对于“城市”特征,不同枚举值所占的分布比例。其中,该图是以两个用户群为例,并且,仅示例了其中两个特征值的分布,这两个特征值包括“城市”和“性别”。
以特征“城市”为例,该饼图可以包括内圈41和外圈42,可以用内圈41来显示特征中的各个枚举值在某个用户群中的分布比例,比如,在用户群A中,“北京”的用户占比46%,“上海”的用户占比18%。外圈42可以用于表示该特征中的各个枚举值的全局分布,即在两个用户群的所有数据中所占的比例,比如,由用户群A和用户群B的数据总和来看,“北京”的用户占比50%,“上海”的用户占比30%。其他饼图例子不再详述,图4仅示例了一部分,实际应用中可以有更多用户群或者更多特征。通过这种饼图的展示方式,数据分析师可以更清楚的了解海量数据中的分布情况。
在又一个例子中,特征值也可能是连续值,例如,“年龄”这个特征值,1岁至40岁是一个连续的区间,本例子可以将连续值进行离散化,分别统计各个离散化区间对应的统计值。比如,可以将1岁至40岁划分为五个区间:(1,10]、(10,20]、(20,30]、(30,40],并可以分别统计各个年龄区间的人数。
在进行可视化展示时,还可以通过柱状图进行显示。例如,图5示例了一种柱状图的显示方式,在某个用户群中,白色的柱状表示各个枚举值(即某个年龄区间的用户)在本用户群中的占比,灰色的柱状可以表示各枚举值的全局分布,比如在全部用户群中的占比。如图5所示,例如,以某一个用户群为例,该用户群中的(1,10]这个区间内的用户,在本用户群中占比18%,在全局占比为52%。
本申请提供的数据处理系统,在进行海量数据集的特征重要性计算时,可以通过分析型存储子系统例如ADS,并行对多个用户群的多个特征进行查询和统计,这种方式相对于传统的HIVE计算方式来看,由于分析型存储子系统是基于内存的存储分析系统,数据的存储以及处理都在内存中进行,相比于HIVE的MapReduce处理方式来看,MapReduce架构的数据存储在磁盘,并且在各个计算节点之间配合处理数据时,需要从磁盘读取数据和在节点之间传输数据,而本申请的系统中,基于内存的存储分析系统相比HIVE节省了节点之间的数据读取I/O及传输时间,从而提高了数据处理效率;并且,本申请的数据处理系统,可以并行计算多个特征,相对于HIVE方式中的单次计算单个特征,也显著提高了特征重要性的计算速度。
图6示例了一种数据处理方法,该方法可以由上述例子提供的数据处理系统执行,可以应用于海量数据集的特征重要性的计算。该方法的详细步骤可以参见上面的各个实施例,不再详述。
601、接收待分析的多个数据集的数据集标识、以及待分析的至少一个特征的特征标识,所述特征位于数据集中。
602、根据数据集标识生成用于获取数据集的数据查询逻辑。
603、通过分析型存储子系统根据数据查询逻辑获取多个数据集的数据,并分别在多个数据集中,并行进行特征标识对应的特征的统计,得到特征的统计值;
604、根据特征的统计值,计算特征的重要性。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (10)

1.一种数据处理系统,其特征在于,所述数据处理系统包括:
前端子系统,用于接收待分析的多个数据集的数据集标识、以及待分析的至少一个特征的特征标识,所述特征位于所述数据集中;
应用服务子系统,用于根据所述数据集标识生成用于获取所述数据集的数据查询逻辑,并将所述数据查询逻辑和特征标识传输至分析型存储子系统;还用于根据所述分析型存储子系统得到的特征的统计值,计算特征的重要性;
基于内存的分析型存储子系统,用于根据所述应用服务子系统生成的数据查询逻辑,获取所述多个数据集的数据,并分别在所述多个数据集中,并行进行所述特征标识对应的特征的统计,得到所述特征的统计值。
2.根据权利要求1所述的系统,其特征在于,当所述前端子系统接收的特征为多个时,所述分析型存储子系统并行计算所述多个特征的统计值。
3.根据权利要求1所述的系统,其特征在于,所述分析型存储子系统为分析数据库服务ADS存储引擎。
4.根据权利要求1所述的系统,其特征在于,所述应用服务子系统,在根据所述分析型存储子系统得到的特征的统计值计算特征的重要性时,用于:
当所述数据集的数量为两个时,根据所述分析型存储子系统得到的特征的统计值,计算所述特征的IV值;当所述数据集的数量多于两个时,计算所述特征的信息熵。
5.根据权利要求1~4任一所述的系统,其特征在于,所述前端子系统,还用于将计算特征的重要性的结果数据或者过程数据,进行可视化图形展示。
6.一种数据处理方法,其特征在于,包括:
接收待分析的多个数据集的数据集标识、以及待分析的至少一个特征的特征标识,所述特征位于所述数据集中;
根据所述数据集标识生成用于获取所述数据集的数据查询逻辑;
通过基于内存的分析型存储子系统根据所述数据查询逻辑获取所述多个数据集的数据,并分别在所述多个数据集中,并行进行所述特征标识对应的特征的统计,得到所述特征的统计值;
根据所述特征的统计值,计算特征的重要性。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
当前端子系统接收的特征为多个时,所述分析型存储子系统并行计算所述多个特征的统计值。
8.根据权利要求6所述的方法,其特征在于,所述分析型存储子系统为分析数据库服务ADS存储引擎。
9.根据权利要求6所述的方法,其特征在于,根据所述特征的统计值,计算特征的重要性,包括:
当所述数据集的数量为两个时,根据所述分析型存储子系统得到的特征的统计值,计算所述特征的IV值;
当所述数据集的数量多于两个时,计算所述特征的信息熵。
10.根据权利要求6~9任一所述的方法,其特征在于,所述方法还包括:
将计算特征的重要性的结果数据或者过程数据,进行可视化图形展示。
CN201610105565.5A 2016-02-25 2016-02-25 一种数据处理方法和系统 Active CN107122125B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610105565.5A CN107122125B (zh) 2016-02-25 2016-02-25 一种数据处理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610105565.5A CN107122125B (zh) 2016-02-25 2016-02-25 一种数据处理方法和系统

Publications (2)

Publication Number Publication Date
CN107122125A CN107122125A (zh) 2017-09-01
CN107122125B true CN107122125B (zh) 2020-06-23

Family

ID=59717911

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610105565.5A Active CN107122125B (zh) 2016-02-25 2016-02-25 一种数据处理方法和系统

Country Status (1)

Country Link
CN (1) CN107122125B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101706926A (zh) * 2009-11-25 2010-05-12 河南省烟草公司鹤壁市公司 一种卷烟消费信息调查及处理方法
CN102955840A (zh) * 2011-08-11 2013-03-06 吉菲斯股份有限公司 共享在线社交网络中的信息的系统和方法
CN103309990A (zh) * 2013-06-18 2013-09-18 上海晶樵网络信息技术有限公司 基于互联网用户公开信息的用户多维度分析与监测方法
CN103366020A (zh) * 2013-08-06 2013-10-23 刘临 用户行为分析系统及方法
CN103714139A (zh) * 2013-12-20 2014-04-09 华南理工大学 一种移动海量客户群识别的并行数据挖掘方法
CN104573619A (zh) * 2014-07-25 2015-04-29 北京智膜科技有限公司 基于人脸识别的智能广告大数据分析方法及系统
CN104574127A (zh) * 2013-10-21 2015-04-29 北京中海纪元数字技术发展股份有限公司 创新营销平台
CN104732413A (zh) * 2013-12-20 2015-06-24 中国科学院声学研究所 一种智能个性化视频广告推送方法及系统
CN104778605A (zh) * 2015-04-09 2015-07-15 北京京东尚科信息技术有限公司 电商客户的分类方法及装置
CN105069641A (zh) * 2015-07-13 2015-11-18 重庆伊美儿科技有限公司 群联接线上线下的网络营销数据管理系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9858551B2 (en) * 2011-09-02 2018-01-02 Bbs Technologies, Inc. Ranking analysis results based on user perceived problems in a database system

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101706926A (zh) * 2009-11-25 2010-05-12 河南省烟草公司鹤壁市公司 一种卷烟消费信息调查及处理方法
CN102955840A (zh) * 2011-08-11 2013-03-06 吉菲斯股份有限公司 共享在线社交网络中的信息的系统和方法
CN103309990A (zh) * 2013-06-18 2013-09-18 上海晶樵网络信息技术有限公司 基于互联网用户公开信息的用户多维度分析与监测方法
CN103366020A (zh) * 2013-08-06 2013-10-23 刘临 用户行为分析系统及方法
CN104574127A (zh) * 2013-10-21 2015-04-29 北京中海纪元数字技术发展股份有限公司 创新营销平台
CN103714139A (zh) * 2013-12-20 2014-04-09 华南理工大学 一种移动海量客户群识别的并行数据挖掘方法
CN104732413A (zh) * 2013-12-20 2015-06-24 中国科学院声学研究所 一种智能个性化视频广告推送方法及系统
CN104573619A (zh) * 2014-07-25 2015-04-29 北京智膜科技有限公司 基于人脸识别的智能广告大数据分析方法及系统
CN104778605A (zh) * 2015-04-09 2015-07-15 北京京东尚科信息技术有限公司 电商客户的分类方法及装置
CN105069641A (zh) * 2015-07-13 2015-11-18 重庆伊美儿科技有限公司 群联接线上线下的网络营销数据管理系统

Also Published As

Publication number Publication date
CN107122125A (zh) 2017-09-01

Similar Documents

Publication Publication Date Title
US8346782B2 (en) Method and system of information matching in electronic commerce website
CN110147821B (zh) 目标用户群体确定方法、装置、计算机设备及存储介质
CN105893406A (zh) 群体用户画像方法及系统
US20110166926A1 (en) Evaluating Online Marketing Efficiency
US10839318B2 (en) Machine learning models for evaluating differences between groups and methods thereof
CN107729519B (zh) 基于多源多维数据的评估方法及装置、终端
CN103793484A (zh) 分类信息网站中的基于机器学习的欺诈行为识别系统
CN109191191B (zh) 基于代价敏感卷积神经网络的广告点击欺诈检测方法
CN112269805A (zh) 数据处理方法、装置、设备及介质
US10552996B2 (en) Systems and techniques for determining associations between multiple types of data in large data sets
WO2023123934A1 (zh) 一种信息管理方法、设备及存储介质
JP2014006757A (ja) コンテンツ配信装置
WO2019205410A1 (zh) Nps短信调研方法、系统、计算机设备和存储介质
CN108428138B (zh) 一种基于客户分群的客户生存率分析装置及分析方法
CN105389714B (zh) 一种从行为数据识别用户特性的方法
CN106339892A (zh) 一种基于大数据的实时监测和准确评估方法及系统
CN117974278A (zh) 一种基于知识图谱的招投标数据分析方法、系统及介质
CN105447117A (zh) 一种用户聚类的方法和装置
US20160342699A1 (en) Systems, methods, and devices for profiling audience populations of websites
CN115204881A (zh) 一种数据处理方法、装置、设备及存储介质
WO2015159357A1 (ja) コミュニティ内におけるユーザの行動分析装置および行動分析用プログラム
CN112100177A (zh) 数据存储方法、装置、计算机设备及存储介质
CN107122125B (zh) 一种数据处理方法和系统
CN108460630B (zh) 基于用户数据进行分类分析的方法和装置
EP3493082A1 (en) A method of exploring databases of time-stamped data in order to discover dependencies between the data and predict future trends

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200921

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200921

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: Alibaba Group Holding Ltd.