CN110020166B - 一种数据分析方法及相关设备 - Google Patents
一种数据分析方法及相关设备 Download PDFInfo
- Publication number
- CN110020166B CN110020166B CN201711401293.4A CN201711401293A CN110020166B CN 110020166 B CN110020166 B CN 110020166B CN 201711401293 A CN201711401293 A CN 201711401293A CN 110020166 B CN110020166 B CN 110020166B
- Authority
- CN
- China
- Prior art keywords
- attribute
- attributes
- information
- data
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明实施例公开了一种数据分析方法及相关设备,包括:获取每个用户每次使用应用时所记录的数据信息,并从所述数据信息中提取多项属性;统计所述多个属性中与第一属性相关联的第二属性的数值;根据所述第二属性的所述数值,确定所述第一属性与所述第二属性的关联信息。采用本发明实施例,通过对用户终端的各种属性和计算指标进行了抽象,使得各种属性可以进行交叉分析,从而实现全面完整准确的确定用户画像信息。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种数据分析方法及相关设备。
背景技术
在移动互联网时代,设备与用户的关系越来越复杂,设备属性和用户之间的关联需要从多个纬度进行数据分析。通过数据分析确定用户长时间的移动画像信息,然后根据移动画像信息进行行业现状分析、移动设备变迁分析或精准推荐等。
移动腾讯分析(Mobile Tencent Analytics,MTA)通过设备标识对腾讯公司内部多个应用的即时通信软件(如,QQ)帐号进行聚合,通过迭代统计每个设备最相关的即时通信软件帐号,并将即时通信软件的用户画像关联得到设备的用户画像信息。其中,设备标识包括国际移动设备身份码(International Mobile Equipment Identity,IMEI)、移动设备识别码(Mobile Equipment Identifier,MEID)、苹果手机为广告商标识设备(Apple'sIdentifier for Advertisers,IFA)、苹果手机为移动开发者标识设备(Apple'sIdentifier for Vendors,IFV)等。
如图1所示,图1是现有技术方案提供的一种数据分析方法的流程示意图。包括:在用户使用多个应用(如手机QQ、手机Qzone或者应用宝)时,提取每个设备的设备标识和登录多个应用所使用的QQ号,由于同一个设备可能使用不同的QQ号登录手机QQ、手机Qzone或者应用宝,因此分别统计同一设备标识对应的多个QQ号的权重,QQ号的使用频率越高,QQ好的权重越高。最后,从多个QQ中选取权重最高的至少一个QQ进行入库,从而得到设备标识与QQ号的关联信息。但是,由于现有技术方案只对设备标识与QQ号进行关联分析,计算指标单一,不能全面完整准确的确定用户画像信息。
发明内容
本发明实施例提供一种数据分析方法及相关设备,实现全面完整准确的确定用户画像信息。
第一方面,本发明实施例提供了一种数据分析,包括:
获取每个用户每次使用应用时所记录的数据信息,并从所述数据信息中提取多项属性;
统计所述多个属性中与第一属性相关联的第二属性的数值;
根据所述第二属性的所述数值,确定所述第一属性与所述第二属性的关联信息。
其中,所述多项属性包括设备标识、设备型号、应用名称、连接类型、登录方式以及无线接入控制地址中的至少一种。
其中,所述数值包括同一应用的针对所述第二属性的第一次使用时间、使用天数、当天使用次数、最近一段时间内的使用天数以及权重中的至少一项。
其中,所述数值包括多个应用的针对所述第二属性的第一次使用时间、使用天数之和、当天使用次数之和、最近一段时间内使用天数之和、以及权重之和中的至少一项。
其中,所述从所述数据信息中提取多项属性包括:
根据配置文件中的字段信息,从所述数据信息中提取所述多项属性。
其中,所述配置文件还包括维度标识和指标标识;
所述统计所述多个属性中与第一属性相关联的第二属性的数值之前,还包括:
根据所述维度标识和所述指标标识,确定所述多个属性之间的关联关系。
其中,所述根据所述第二属性的所述数值,确定所述第一属性与所述第二属性的关联信息之后,还包括:
根据所述关联信息,确定推荐的服务信息。
第二方面,本发明实施例提供了一种数据分析装置,包括:
获取模块,用于获取每个用户每次使用应用时所记录的数据信息,并从所述数据信息中提取多项属性;
统计模块,用于统计所述多个属性中与第一属性相关联的第二属性的数值;
确定模块,用于根据所述第二属性的所述数值,确定所述第一属性与所述第二属性的关联信息。
其中,所述多项属性包括设备标识、设备型号、应用名称、连接类型、登录方式以及无线接入控制地址中的至少一种。
其中,所述数值包括同一应用的针对所述第二属性的第一次使用时间、使用天数、当天使用次数、最近一段时间内的使用天数以及权重中的至少一项。
其中,所述数值包括多个应用的针对所述第二属性的第一次使用时间、使用天数之和、当天使用次数之和、最近一段时间内使用天数之和、以及权重之和中的至少一项。
其中,所述获取模块具体用于:
根据配置文件中的字段信息,从所述数据信息中提取所述多项属性。
其中,所述配置文件还包括维度标识和指标标识;
所述确定模块,还用于根据所述维度标识和所述指标标识,确定所述多个属性之间的关联关系。
其中,所述确定模块,还用于根据所述关联信息,确定推荐的服务信息。
第三方面,本发明提供了一种数据分析设备,包括:处理器、存储器和通信总线,其中,通信总线用于实现处理器和存储器之间连接通信,处理器执行存储器中存储的程序用于实现上述第一方面提供的一种数据分析方法中的步骤。
在一个可能的设计中,本发明提供的数据分析设备可以包含用于执行上述方法中行为相对应的模块。模块可以是软件和/或是硬件。
本发明的又一方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有多条指令,所述指令适于由处理器加载并执行上述各方面所述的方法。
本发明的又一方面提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
通过实施本发明实施例,首先获取每个用户每次使用应用时所记录的数据信息,并从所述数据信息中提取多项属性;然后统计所述多个属性中与第一属性相关联的第二属性的数值;最后根据所述第二属性的所述数值,确定所述第一属性与所述第二属性的关联信息。通过对用户终端的各种属性和计算指标进行了抽象,使得各种属性可以进行交叉分析,从而实现全面完整准确的确定用户画像信息。
附图说明
为了更清楚地说明本发明实施例或背景技术中的技术方案,下面将对本发明实施例或背景技术中所需要使用的附图进行说明。
图1是现有技术方案提供的一种数据分析方法的流程示意图;
图2是本发明实施例提供的一种数据分析系统的结构示意图;
图3是本发明实施例提供的一种数据分析方法的流程示意图;
图4是本发明实施例提供的一种提取的属性的示意图;
图5是本发明实施例提供的一种属性的关联关系的示意图;
图6是本发明实施例提供的一种数据汇总的示意图;
图7是本发明实施例提供的另一种数据分析方法的流程示意图;
图8是本发明实施例提供的一种数据分析装置的结构示意图;
图9是本发明实施例提供的一种数据分析设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图2,图2是本发明实施例提供的一种数据分析系统的结构示意图,该数据分析系统包括数据源单元、Hadoop离线计算单元、数据结构存储单元以及数据服务单元等四个部分。其中,数据源单元用于获取用户使用多个应用(如,手机QQ、应用宝、手机Qzone、手机管家、旧手机QQ、MTA、QQ音乐)时所记录的数据信息,并从数据信息中提取多个属性,所述多个属性可以包括设备标识、MAC地址、QQ号、包名(package)、设备型号(devicemodel)、连接类型(connecttype)等等。Hadoop离线计算单元用于根据各个属性的关联关系,统计各个属性的数值,并对各个属性的关联信息进行汇总。数据结构存储单元用于存储汇总的各个属性的关联信息。数据服务单元用于根据关联信息输出行业分析报告、提供查询或信息推荐等服务。
请参见图3,图3是本发明实施例提供的一种数据分析方法的流程示意图,该方法包括但不限于如下步骤:
S301,获取每个用户每次使用应用时所记录的数据信息,并从所述数据信息中提取多项属性。
具体实现中,在用户终端使用每个应用时,可以记录该用户终端的设备标识、应用登录方式、MAC地址、使用时间点、使用时长、设备型号、连接类型、系统类型等等数据信息,并将该数据信息上报给数据源。每个数据源可以收集多个用户终端每次使用该应用时所记录的数据信息。然后数据分析系统从多个数据源中获取全部的数据信息。
另外,可以根据配置文件中的字段信息,从所述数据信息中提取所述多项属性。其中,所述多项属性包括设备标识、设备型号、应用名称、连接类型、登录方式以及MAC地址中的至少一种。配置文件如下所示:
<property idx="1"name="imei"handler="robot.attr.deviceid.AttrIMEI"default="imei_null"type="key"value_idx="2,3,4,5,6">
<property idx="2"name="mac"handler="robot.attr.deviceid.AttrMAC"default="mac_null"type="key"value_idx="1,3,5,6">
……
其中,配置文件中的property代表一个属性,该配置文件给出了两种属性,分别通过“name”字段信息进行标识,包括"imei"和"mac",表示需要从数据信息中提取设备标识和MAC地址。idx代表在一行日志中的位置,即第几个属性。handler表示属性的解析方法,通过java反射机制动态加载。
如图4所示,图4是本发明实施例提供的一种提取的属性的示意图。该图中的信息包括从两个数据源的数据信息中提取的属性,第二行至第五行的数据表示从数据源1的数据信息中提取的属性,包括使用应用1的用户终端的设备标识、该设备的MAC地址、登录应用1所使用的QQ号,应用的包名、设备型号以及连接类型。第六行至第九行的数据表示从数据源2的数据信息中提取的属性,包括使用应用2的设备标识、该设备的MAC地址、登录应用1所使用的QQ号,应用的包名、设备型号以及连接类型。
可选的,配置文件中还包括维度标识和指标标识。在从所述数据信息中提取多项属性之后,可以根据所述维度标识和所述指标标识,确定所述多个属性之间的关联关系。如上述配置文件所示,配置文件中还包括维度标识“type”和指标标识“value_idx”。例如,type="key",value_idx="2,3,4,5,6",表示属性1相关联的属性包括属性2、属性3、属性4、属性5以及属性6,可以从属性2、属性3、属性4、属性5以及属性6等多个指标属性来分析属性1。如果type=“key”,则可以查找与该属性相关联的其他属性进行输出,如果type=“value”,表示该属性只作为其他属性的指标属性。
如图5所示,图5是本发明实施例提供的一种属性的关联关系的示意图。箭头起始端的属性为维度属性,箭头末端的属性为指标属性。如图中加粗的线条所示,线条的起始端是package,箭头的末端都指向QQ,表示该package包名的应用使用该QQ号登陆。
可选的,可以通过修改配置文件中的字段信息来增加或减少从数据信息中提取的属性。或者,通过修改配置文件中的维度标识和指标标识所指示的属性来重新建立属性之间的关联关系。
S302,统计所述多个属性中与第一属性相关联的第二属性的数值。包括如下两种可选的方式:
第一种可选的方式,所述数值包括同一应用的针对所述第二属性的第一次使用时间、使用天数、当天使用次数、最近一段时间内的使用天数以及权重中的至少一项。对于同一数据源,可以对历史数据与当天新增的数据进行运算,来统计第二属性的数值,如下所示:
first_day=nv.getFirst_day()>ov.getFirst_day()?ov.getFirst_day():nv.getFirst_day();
days=ov.getDays()+1;
count=nv.getCount();
active=ov.getActive()|nv.getActive();
weight=ov.getWeight()+nv.getWeight();
其中,first_day表示第一次使用时间,days表示使用天数,count表示使用次数,active表示最近一段时间内的使用天数,weight表示权重,可以在配置文件中分配各个属性的权重,使用次数越多,权重越大。nv表示当天新增的数据,ov表示历史数据。
如图4所示,第二行至第五行的数据表示从数据源1的数据信息中提取的属性。对于数据源1,“IMEI”属性与“QQ”属性相关联,对“QQ”属性进行统计,UE1使用的QQ号有“123”和“456”,其中,“123”使用了两次,“456”使用了一次。另外,还可以分别统计UE1第一次使用QQ号“123”的时间或使用天数等等、以及第一次使用QQ号“456”的时间或使用天数等等。UE2使用的QQ号只有“123”,且使用了一次,还可以统计UE2第一次使用QQ号“123”的时间以及使用天数等等。
第二种可选的方式,所述数值包括多个应用的针对所述第二属性的第一次使用时间、使用天数之和、当天使用次数之和、最近一段时间内使用天数之和、以及权重之和中的至少一项。对于多个数据源,可以对多个数据源的数据进行运算,来统计第二属性的数值,如下所示:
first_day=s1.getFirst_day()>s2.getFirst_day()?s1.getFirst_day():s2.getFirst_day();
days=s1.getDays()>s2.getDays()?s1.getDays():s2.getDays();
count=s1.getCount()+s2.getCount();
active=s1.getActive()|s2.getActive();
weight=s1.getWeight()+s2.getWeight();
其中,first_day表示数据源1和数据源2中第一次使用时间,days表示使用天数之和,count表示使用次数之和,active表示最近一段时间内的使用天数之和,weight表示权重之和,可以在配置文件分配各个数据源的权重。s1表示数据源1,s2表示数据源2。
如图4所示,第二行至第五行的数据表示从数据源1的数据信息中提取的属性,第六行至第九行的数据表示从数据源2的数据信息中提取的属性。针对于两个数据源,“Devicemodel”属性与“IMEI”属性相关联,对“IMEI”属性进行统计,设备型号1被5个UE1和1个UE2使用,设备型号2被2个UE1使用。另外,还可以统计设备型号1被UE1和UE2中某个用户终端第一次使用的时间、UE1和UE2使用次数之和等等。
需要说明的是,在计算第二属性的数值时,需要统计当天数值,将当天的数据存入到数据库以便数据服务接口调用;在计算第二属性的数值之后,需要在当天的数值上打上ov标记,表示将当天的数值作为历史数据参与到以后每天的计算。
S303,根据所述第二属性的所述数值,确定所述第一属性与所述第二属性的关联信息。
具体实现中,可以对第一属性相关联的第二属性的数值进行汇总,并将汇总后的结果存入到数据库,数据库中包括设备标识对应的登录方式的数值、设备标识对应的设备型号的数值、设备信号对应的设备标识的数值,设备标识对应的连接类型的数值、设备标识对应的应用包名的数值等等。如图6所示,分别从手机QQ和手机Qzone中提取多个属性(如,QQ属性、设备类型属性),然后分别通过其他属性分别对QQ属性和设备类型属性进行计算,最后将QQ属性和设备类型属性的计算结果存入到数据库。进而在将所有属性的计算存入到数据库中之后,可以根据第二属性的数值,确定第一属性与第二属性的关联信息。
例如,同一个设备标识可能对应多个QQ号,表示在同一个用户终端上使用了多个QQ号。可以首先获取每个QQ号在该用户终端上的最近一段时间内的使用天数,然后对每个QQ号在该用户终端上的最近一段时间内的使用天数进行排序,如果某个QQ号在该用户终端上的最近一段时间内的使用天数最多,则确定该用户设备与该QQ号关联性最强。或者,同一个QQ号对应多个设备型号,表示该QQ号在多个设备型号的用户终端上登录使用。可以首先获取该QQ号在每种设备型号的用户终端上登录使用的次数,然后对该QQ号在每种设备型号的用户终端上登录使用的次数进行排序,如果该QQ号在某种设备型号的用户终端上登录使用次数最多,则可以确定该QQ号与该设备型号的用户终端关联性最强。
在本发明实施例中,首先获取每个用户每次使用应用时所记录的数据信息,并从所述数据信息中提取多项属性;然后统计所述多个属性中与第一属性相关联的第二属性的数值;最后根据所述第二属性的所述数值,确定所述第一属性与所述第二属性的关联信息。通过对用户终端的各种属性和计算指标进行了抽象,使得各种属性可以进行交叉分析,从而实现全面完整准确的确定用户画像信息。
请参见图7,图7是本发明实施例提供的另一种数据分析方法的流程示意图,该方法包括但不限于如下步骤:
S701,获取每个用户每次使用应用时所记录的数据信息,并从所述数据信息中提取多项属性。本步骤与上一实施例中S301相同,本步骤不再赘述。
S702,统计所述多个属性中与第一属性相关联的第二属性的数值。本步骤与上一实施例中S302相同,本步骤不再赘述。
S703,根据所述第二属性的所述数值,确定所述第一属性与所述第二属性的关联信息。本步骤与上一实施例中S303相同,本步骤不再赘述。
S704,根据所述关联信息,确定推荐的服务信息。
例如,如果确定某个设备标识与某个QQ号关联性最强,则可以通过该QQ号向该用户设备推荐服务信息,以便该用户更加便捷的获取到服务信息。如果某个设备标识与某个设备型号(如,苹果)的关联性最强,则可以确定该用户喜欢用户苹果手机,以便确定用户的用户画像信息。
可选的,在将所有属性的数值存入到数据库中之后,可以获取用户输入的查询信息,可以根据该查询信息查询与用户输入的信息关联的其他信息。也可以根据数据库中多个属性之间的关联关系,确定行业发展形势,生成行业分析报告。
上述详细阐述了本发明实施例的方法,下面提供了本发明实施例的装置。
请参见图8,图8是本发明实施例提供的一种数据分析装置的结构示意图,该数据分析装置可以包括:
获取模块801,用于获取每个用户每次使用应用时所记录的数据信息,并从所述数据信息中提取多项属性。
具体实现中,在用户终端使用每个应用时,可以记录该用户终端的设备标识、应用登录方式、MAC地址、使用时间点、使用时长、设备型号、连接类型、系统类型等等数据信息,并将该数据信息上报给数据源。每个数据源可以收集多个用户终端每次使用该应用时所记录的数据信息。然后数据分析系统从多个数据源中获取全部的数据信息。
另外,可以根据配置文件中的字段信息,从所述数据信息中提取所述多项属性。其中,所述多项属性包括设备标识、设备型号、应用名称、连接类型、登录方式以及MAC地址中的至少一种。配置文件如下所示:
<property idx="1"name="imei"handler="robot.attr.deviceid.AttrIMEI"default="imei_null"type="key"value_idx="2,3,4,5,6">
<property idx="2"name="mac"handler="robot.attr.deviceid.AttrMAC"default="mac_null"type="key"value_idx="1,3,5,6">
……
其中,配置文件中的property代表一个属性,该配置文件给出了两种属性,分别通过“name”字段信息进行标识,包括"imei"和"mac",表示需要从数据信息中提取设备标识和MAC地址。idx代表在一行日志中的位置,即第几个属性。handler表示属性的解析方法,通过java反射机制动态加载。
如图4所示,图4是本发明实施例提供的一种提取的属性的示意图。该图中的信息包括从两个数据源的数据信息中提取的属性,第二行至第五行的数据表示从数据源1的数据信息中提取的属性,包括使用应用1的用户终端的设备标识、该设备的MAC地址、登录应用1所使用的QQ号,应用的包名、设备型号以及连接类型。第六行至第九行的数据表示从数据源2的数据信息中提取的属性,包括使用应用2的设备标识、该设备的MAC地址、登录应用1所使用的QQ号,应用的包名、设备型号以及连接类型。
可选的,配置文件中还包括维度标识和指标标识。在从所述数据信息中提取多项属性之后,可以根据所述维度标识和所述指标标识,确定所述多个属性之间的关联关系。如上述配置文件所示,配置文件中还包括维度标识“type”和指标标识“value_idx”。例如,type="key",value_idx="2,3,4,5,6",表示属性1相关联的属性包括属性2、属性3、属性4、属性5以及属性6,可以从属性2、属性3、属性4、属性5以及属性6等多个指标属性来分析属性1。如果type=“key”,则可以查找与该属性相关联的其他属性进行输出,如果type=“value”,表示该属性只作为其他属性的指标属性。
如图5所示,图5是本发明实施例提供的一种属性关联关系的示意图。箭头起始端的属性为维度属性,箭头末端的属性为指标属性。如图中加粗的线条所示,线条的起始端是package,箭头的末端都指向QQ,表示该package包名的应用使用该QQ号登陆。
可选的,可以通过修改配置文件中的字段信息来增加或减少从数据信息中提取的属性。或者,通过修改配置文件中的维度标识和指标标识所指示的属性来重新建立属性之间的关联关系。
统计模块802,用于统计所述多个属性中与第一属性相关联的第二属性的数值。
S302,统计所述多个属性中与第一属性相关联的第二属性的数值。包括如下两种可选的方式:
第一种可选的方式,所述数值包括同一应用的针对所述第二属性的第一次使用时间、使用天数、当天使用次数、最近一段时间内的使用天数以及权重中的至少一项。对于同一数据源,可以对历史数据与当天新增的数据进行运算,来统计第二属性的数值,如下所示:
first_day=nv.getFirst_day()>ov.getFirst_day()?ov.getFirst_day():nv.getFirst_day();
days=ov.getDays()+1;
count=nv.getCount();
active=ov.getActive()|nv.getActive();
weight=ov.getWeight()+nv.getWeight();
其中,first_day表示第一次使用时间,days表示使用天数,count表示使用次数,active表示最近一段时间内的使用天数,weight表示权重,可以在配置文件中分配各个属性的权重,使用次数越多,权重越大。nv表示当天新增的数据,ov表示历史数据。
如图4所示,第二行至第五行的数据表示从数据源1的数据信息中提取的属性。对于数据源1,“IMEI”属性与“QQ”属性相关联,对“QQ”属性进行统计,UE1使用的QQ号有“123”和“456”,其中,“123”使用了两次,“456”使用了一次。另外,还可以分别统计UE1第一次使用QQ号“123”的时间或使用天数等等、以及第一次使用QQ号“456”的时间或使用天数等等。UE2使用的QQ号只有“123”,且使用了一次,还可以统计UE2第一次使用QQ号“123”的时间以及使用天数等等。
第二种可选的方式,所述数值包括多个应用的针对所述第二属性的第一次使用时间、使用天数之和、当天使用次数之和、最近一段时间内使用天数之和、以及权重之和中的至少一项。对于多个数据源,可以对多个数据源的数据进行运算,来统计第二属性的数值,如下所示:
first_day=s1.getFirst_day()>s2.getFirst_day()?s1.getFirst_day():s2.getFirst_day();
days=s1.getDays()>s2.getDays()?s1.getDays():s2.getDays();
count=s1.getCount()+s2.getCount();
active=s1.getActive()|s2.getActive();
weight=s1.getWeight()+s2.getWeight();
其中,first_day表示数据源1和数据源2中第一次使用时间,days表示使用天数之和,count表示使用次数之和,active表示最近一段时间内的使用天数之和,weight表示权重之和,可以在配置文件分配各个数据源的权重。s1表示数据源1,s2表示数据源2。
如图4所示,第二行至第五行的数据表示从数据源1的数据信息中提取的属性,第六行至第九行的数据表示从数据源2的数据信息中提取的属性。针对于两个数据源,“Devicemodel”属性与“IMEI”属性相关联,对“IMEI”属性进行统计,设备型号1被5个UE1和1个UE2使用,设备型号2被2个UE1使用。另外,还可以统计设备型号1被UE1和UE2中某个用户终端第一次使用的时间、UE1和UE2使用次数之和等等。
需要说明的是,在计算第二属性的数值时,需要统计当天数值,将当天的数据存入到数据库以便数据服务接口调用;在计算第二属性的数值之后,需要在当天的数值上打上ov标记,表示将当天的数值作为历史数据参与到以后每天的计算。
确定模块803,用于根据所述第二属性的所述数值,确定所述第一属性与所述第二属性的关联信息。
具体实现中,可以对第一属性相关联的第二属性的数值进行汇总,并将汇总后的结果存入到数据库,数据库中包括设备标识对应的登录方式的数值、设备标识对应的设备型号的数值、设备信号对应的设备标识的数值,设备标识对应的连接类型的数值、设备标识对应的应用包名的数值等等。如图6所示,分别从手机QQ和手机Qzone中提取多个属性(如,QQ属性、设备类型属性),然后分别通过其他属性分别对QQ属性和设备类型属性进行计算,最后将QQ属性和设备类型属性的计算结果存入到数据库。进而在将所有属性的计算存入到数据库中之后,可以根据第二属性的数值,确定第一属性与第二属性的关联信息。
例如,同一个设备标识可能对应多个QQ号,表示在同一个用户终端上使用了多个QQ号。可以首先获取每个QQ号在该用户终端上的最近一段时间内的使用天数,然后对每个QQ号在该用户终端上的最近一段时间内的使用天数进行排序,如果某个QQ号在该用户终端上的最近一段时间内的使用天数最多,则确定该用户设备与该QQ号关联性最强。或者,同一个QQ号对应多个设备型号,表示该QQ号在多个设备型号的用户终端上登录使用。可以首先获取该QQ号在每种设备型号的用户终端上登录使用的次数,然后对该QQ号在每种设备型号的用户终端上登录使用的次数进行排序,如果该QQ号在某种设备型号的用户终端上登录使用次数最多,则可以确定该QQ号与该设备型号的用户终端关联性最强。
可选的,在确定所述第一属性与所述第二属性的关联信息之后,可以根据所述关联信息,确定推荐的服务信息。
例如,如果确定某个设备标识与某个QQ号关联性最强,则可以通过该QQ号向该用户设备推荐服务信息,以便该用户更加便捷的获取到服务信息。如果某个设备标识与某个设备型号(如,苹果)的关联性最强,则可以确定该用户喜欢用户苹果手机,以便确定用户的用户画像信息。
可选的,在将所有属性的数值存入到数据库中之后,可以获取用户输入的查询信息,可以根据该查询信息查询与用户输入的信息关联的其他信息。也可以根据数据库中多个属性之间的关联关系,确定行业发展形势,生成行业分析报告。
在本发明实施例中,首先获取每个用户每次使用应用时所记录的数据信息,并从所述数据信息中提取多项属性;然后统计所述多个属性中与第一属性相关联的第二属性的数值;最后根据所述第二属性的所述数值,确定所述第一属性与所述第二属性的关联信息。通过对用户终端的各种属性和计算指标进行了抽象,使得各种属性可以进行交叉分析,从而实现全面完整准确的确定用户画像信息。
请继续参考图9,图9是本发明实施例提出的一种数据分析设备的结构示意图。如图所示,该数据分析设备可以包括:至少一个处理器901,至少一个通信接口902,至少一个存储器903和至少一个通信总线904。
其中,处理器901可以是中央处理器单元,通用处理器,数字信号处理器,专用集成电路,现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。所述处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,数字信号处理器和微处理器的组合等等。通信总线904可以是外设部件互连标准PCI总线或扩展工业标准结构EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信总线904用于实现这些组件之间的连接通信。其中,本发明实施例中设备的通信接口902用于与其他节点设备进行信令或数据的通信。存储器903可以包括易失性存储器,例如非挥发性动态随机存取内存(Nonvolatile Random Access Memory,NVRAM)、相变化随机存取内存(PhaseChange RAM,PRAM)、磁阻式随机存取内存(Magetoresistive RAM,MRAM)等,还可以包括非易失性存储器,例如至少一个磁盘存储器件、电子可擦除可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory,EEPROM)、闪存器件,例如反或闪存(NORflash memory)或是反及闪存(NAND flash memory)、半导体器件,例如固态硬盘(SolidState Disk,SSD)等。存储器903可选的还可以是至少一个位于远离前述处理器901的存储装置。存储器903中存储一组程序代码,且处理器901执行存储器903中的程序。
获取每个用户每次使用应用时所记录的数据信息,并从所述数据信息中提取多项属性;
统计所述多个属性中与第一属性相关联的第二属性的数值;
根据所述第二属性的所述数值,确定所述第一属性与所述第二属性的关联信息。
其中,所述多项属性包括设备标识、设备型号、应用名称、连接类型、登录方式以及无线接入控制地址中的至少一种
其中,所述数值包括同一应用的针对所述第二属性的第一次使用时间、使用天数、当天使用次数、最近一段时间内的使用天数以及权重中的至少一项。
其中,所述数值包括多个应用的针对所述第二属性的第一次使用时间、使用天数之和、当天使用次数之和、最近一段时间内使用天数之和、以及权重之和中的至少一项。
可选的,处理器901还用于执行如下操作步骤:
根据配置文件中的字段信息,从所述数据信息中提取所述多项属性。
可选的,处理器901还用于执行如下操作步骤:
根据所述维度标识和所述指标标识,确定所述多个属性之间的关联关系。
可选的,处理器901还用于执行如下操作步骤:
根据所述关联信息,确定推荐的服务信息。
进一步的,处理器还可以与存储器和通信接口相配合,执行上述发明实施例中数据分析装置的操作。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,上述各实施例中所涉及的所述数据信息、所述配置文件等用户相关数据均是在用户授权的情况下获取的,并且对这些数据的相关操作也是在用户授权的情况下执行的。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (11)
1.一种数据分析方法,其特征在于,所述方法包括:
获取每个用户每次使用应用时所记录的数据信息,并根据配置文件中的字段信息,从所述数据信息中提取多项属性,所述配置文件包括维度标识和指标标识,所述维度标识用于指示所述多项属性中存在与目标属性相关联的指标属性或用于指示所述目标属性仅作为其他属性的指标属性,所述指标标识用于指示所述多项属性中与所述目标属性相关联的指标属性,所述目标属性为所述多项属性中的任意一项属性;
根据所述维度标识和所述指标标识,确定所述多项属性之间的关联关系;
统计所述多项属性中与第一属性相关联的第二属性的数值;
根据所述第二属性的所述数值,确定所述第一属性与所述第二属性的关联信息。
2.如权利要求1所述的方法,其特征在于,所述多项属性包括设备标识、设备型号、应用名称、连接类型、登录方式以及无线接入控制地址中的至少一种。
3.如权利要求1所述的方法,其特征在于,所述数值包括同一应用的针对所述第二属性的第一次使用时间、使用天数、当天使用次数、最近一段时间内的使用天数以及权重中的至少一项。
4.如权利要求1所述的方法,其特征在于,所述数值包括多个应用的针对所述第二属性的第一次使用时间、使用天数之和、当天使用次数之和、最近一段时间内使用天数之和、以及权重之和中的至少一项。
5.如权利要求1所述的方法,其特征在于,所述根据所述第二属性的所述数值,确定所述第一属性与所述第二属性的关联信息之后,还包括:
根据所述关联信息,确定推荐的服务信息。
6.一种数据分析装置,其特征在于,所述装置包括:
获取模块,用于获取每个用户每次使用应用时所记录的数据信息,并根据配置文件中的字段信息,从所述数据信息中提取多项属性,所述配置文件包括维度标识和指标标识,所述维度标识用于指示所述多项属性中存在与目标属性相关联的指标属性或用于指示所述目标属性仅作为其他属性的指标属性,所述指标标识用于指示所述多项属性中与所述目标属性相关联的指标属性,所述目标属性为所述多项属性中的任意一项属性;
统计模块,用于统计所述多项属性中与第一属性相关联的第二属性的数值;
确定模块,用于在所述统计模块统计所述多项属性中与第一属性相关联的第二属性的数值之前,根据所述维度标识和所述指标标识,确定所述多项属性之间的关联关系;以及用于根据所述第二属性的所述数值,确定所述第一属性与所述第二属性的关联信息。
7.如权利要求6所述的装置,其特征在于,所述多项属性包括设备标识、设备型号、应用名称、连接类型、登录方式以及无线接入控制地址中的至少一种。
8.如权利要求6所述的装置,其特征在于,所述数值包括同一应用的针对所述第二属性的第一次使用时间、使用天数、当天使用次数、最近一段时间内的使用天数以及权重中的至少一项。
9.如权利要求6所述的装置,其特征在于,所述数值包括多个应用的针对所述第二属性的第一次使用时间、使用天数之和、当天使用次数之和、最近一段时间内使用天数之和、以及权重之和中的至少一项。
10.如权利要求6所述的装置,其特征在于,
所述确定模块,还用于根据所述关联信息,确定推荐的服务信息。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1-5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711401293.4A CN110020166B (zh) | 2017-12-21 | 2017-12-21 | 一种数据分析方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711401293.4A CN110020166B (zh) | 2017-12-21 | 2017-12-21 | 一种数据分析方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110020166A CN110020166A (zh) | 2019-07-16 |
CN110020166B true CN110020166B (zh) | 2023-02-10 |
Family
ID=67187009
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711401293.4A Active CN110020166B (zh) | 2017-12-21 | 2017-12-21 | 一种数据分析方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110020166B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740861A (zh) * | 2018-12-12 | 2019-05-10 | 中国联合网络通信集团有限公司 | 一种学习数据分析方法及装置 |
CN112417281A (zh) * | 2020-11-20 | 2021-02-26 | 京东方科技集团股份有限公司 | 数据分析方法、装置及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011145742A (ja) * | 2010-01-12 | 2011-07-28 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
KR20160100621A (ko) * | 2015-02-16 | 2016-08-24 | (주)어바웃타임 | 단말내 정보 분석에 기반하여 사용자 맞춤형 메시지를 전달하는 단말,서버, 시스템 및 방법과 그에 대한 컴퓨터 프로그램 |
CN106202117A (zh) * | 2015-05-07 | 2016-12-07 | 深圳市腾讯计算机系统有限公司 | 数据处理方法、装置和服务器 |
CN106504099A (zh) * | 2015-09-07 | 2017-03-15 | 国家计算机网络与信息安全管理中心 | 一种构建用户画像的系统 |
CN106998262A (zh) * | 2016-10-10 | 2017-08-01 | 深圳汇网天下科技有限公司 | 一种识别上网用户的系统与方法 |
-
2017
- 2017-12-21 CN CN201711401293.4A patent/CN110020166B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011145742A (ja) * | 2010-01-12 | 2011-07-28 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
KR20160100621A (ko) * | 2015-02-16 | 2016-08-24 | (주)어바웃타임 | 단말내 정보 분석에 기반하여 사용자 맞춤형 메시지를 전달하는 단말,서버, 시스템 및 방법과 그에 대한 컴퓨터 프로그램 |
CN106202117A (zh) * | 2015-05-07 | 2016-12-07 | 深圳市腾讯计算机系统有限公司 | 数据处理方法、装置和服务器 |
CN106504099A (zh) * | 2015-09-07 | 2017-03-15 | 国家计算机网络与信息安全管理中心 | 一种构建用户画像的系统 |
CN106998262A (zh) * | 2016-10-10 | 2017-08-01 | 深圳汇网天下科技有限公司 | 一种识别上网用户的系统与方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110020166A (zh) | 2019-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108984388B (zh) | 一种生成自动化测试用例的方法及终端设备 | |
US20150134591A1 (en) | Method, apparatus, and computer program product for data quality analysis | |
US20170063913A1 (en) | Method, apparatus and system for detecting fraudulant software promotion | |
CN108959279B (zh) | 数据处理方法、数据处理装置、可读介质及电子设备 | |
CN109284321B (zh) | 数据加载方法、装置、计算设备和计算机可读存储介质 | |
US20170185454A1 (en) | Method and Electronic Device for Determining Resource Consumption of Task | |
CN109213604B (zh) | 一种数据源的管理方法和装置 | |
CN114422267B (zh) | 流量检测方法、装置、设备及介质 | |
CN108366012B (zh) | 一种社交关系建立方法、装置及电子设备 | |
CN109543891B (zh) | 容量预测模型的建立方法、设备及计算机可读存储介质 | |
CN109614327B (zh) | 用于输出信息的方法和装置 | |
CN108702334B (zh) | 用于针对零费率的网络配置的分布式测试的方法和系统 | |
CN105553770B (zh) | 一种数据采集控制方法和装置 | |
CN110020166B (zh) | 一种数据分析方法及相关设备 | |
CN112181430A (zh) | 代码变更统计方法、装置、电子设备及存储介质 | |
CN112631879A (zh) | 数据采集方法、装置、计算机可读介质及电子设备 | |
CN108154024A (zh) | 一种数据检索方法、装置及电子设备 | |
US11557005B2 (en) | Addressing propagation of inaccurate information in a social networking environment | |
CN114281648A (zh) | 一种数据采集方法、装置、电子设备及存储介质 | |
CN113886336A (zh) | 流量检测方法、装置、设备及介质 | |
CN111046393B (zh) | 漏洞信息上传方法、装置、终端设备及存储介质 | |
CN109542743B (zh) | 日志校验方法、装置、电子设备及计算机可读存储介质 | |
CN109284833B (zh) | 为机器学习模型获取特征数据的方法、设备和存储介质 | |
CN111488386A (zh) | 数据查询方法和装置 | |
CN114116480A (zh) | 应用程序测试覆盖率的确定方法、装置、介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |