CN109522333A - 数据分析方法、装置、设备和介质 - Google Patents
数据分析方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN109522333A CN109522333A CN201811408944.7A CN201811408944A CN109522333A CN 109522333 A CN109522333 A CN 109522333A CN 201811408944 A CN201811408944 A CN 201811408944A CN 109522333 A CN109522333 A CN 109522333A
- Authority
- CN
- China
- Prior art keywords
- data
- label
- target object
- dimension
- business datum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种数据分析方法、装置、设备和介质。获取目标对象设定时间周期的业务数据,其中,所述业务数据包括至少两个维度的数据,各维度对应不同数据来源;根据各维度的数据来源,确定各所述维度的数据标签;基于设定的分析策略结合各所述数据标签,获得所述目标对象的属性标签。本发明实施例提供了一种数据分析方法,通过对多维异源数据进行分析,确定目标对象的属性标签,避免了使用单一结果数据对目标对象分析,导致分析结果精准度较低的问题。
Description
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种数据分析方法、装置、设备和介质。
背景技术
当前现实社会与网络快速融合,数据已经渗透到各行各业和每个人的日常生活中,大数据的分析和处理得到了前所未有的关注。据统计,2017年我国网民规模达7.72亿,全年共计新增网民4074万人;互联网普及率为55.8%,较2016年底提升2.6个百分点。由此产生的各类海量数据,是物理世界在网络世界的映射,更是一场人类空前的对象特征属性分析运动。
对象特征属性分析,其目标是在多维度数据的基础上建立针对对象的构建性属性,具体就是从海量结构化数据、半结构化数据和非结构化数据中分析、描绘处一个多维立体化、标签化、实体化的真实对象特征。
传统的对象特征分析,更多的是使用结果数据作为真实对象特征的描述数据,例如,是否买过某商品,消费了多少金额等。传统对象特征分析方法,适用于单一系统、单一业务的场景,当在多系统、多业务等复杂应用场景,使用传统的对象特征分析方法,会造成对象特征分析结果精准度较低的问题。
发明内容
本发明提供一种数据分析方法、装置、设备和介质,以实现对目标对象的属性进行精准分析。
第一方面,本发明实施例提供了一种数据分析方法,该方法包括:
获取目标对象设定时间周期的业务数据,其中,所述业务数据包括至少两个维度的数据,各维度对应不同数据来源;
根据各维度的数据来源,确定各所述维度的数据标签;
基于设定的分析策略结合各所述数据标签,获得所述目标对象的属性标签。
第二方面,本发明实施例还提供了一种数据分析装置,该装置包括:
业务数据获取模块,用于获取目标对象设定时间周期的业务数据,其中,所述业务数据包括至少两个维度的数据,各维度对应不同数据来源;
数据标签获取模块,用于根据各维度的数据来源,确定各所述维度的数据标签;
结果生成模块,用于基于设定的分析策略结合各所述数据标签,获得所述目标对象的属性标签。
第三方面,本发明实施例还提供了一种设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,当所述一个或者多个程序被所述一个或者多个处理器执行,使得所述一个或多个处理器实现如本发明实施例中任一所述的数据分析方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,该程序被处理器执行时实现如本发明实施例任一所述的数据分析方法。
本发明实施例通过获取目标对象一定时间内包含多种维度和来源的数据,依据该数据的来源生成对应各维度数据的数据标签,根据分析策略结合数据标签获得目标对象的属性标签,使用多维异源数据对目标对象进行数据分析,提高了属性分析结果的精准度。
附图说明
图1是本发明实施例一提供的一种数据分析方法的流程图;
图2是本发明实施例二提供的一种数据分析方法的流程图;
图3是本发明实施例三提供的一种数据分析装置的结构示意图;
图4是本发明实施例四提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一提供的一种数据分析方法的流程图,本实施例可适用于对象属性分析的情况,该方法可以由数据分析装置来执行,该装置可以由软件和/或硬件的方式实现,参见图1,本实施例提供的数据分析方法具体包括如下步骤:
步骤101、获取目标对象设定时间周期的业务数据,其中,所述业务数据包括至少两个维度的数据,各维度对应不同数据来源。
其中,时间周期可以是目标对象生成业务数据的一段时间,可以包括天、周、月或年等;业务数据可以是目标对象在网站或者应用软件的使用过程中产生的数据,可以包括消费数据、浏览记录、登录数据、视频观看记录和留言等,业务数据可以是批式数据或流式数据;维度可以是业务数据按照时间、数据结构和数据来源进行数据分析的角度。
具体的,可以获取目标对象设定时间周期内由于使用网站或者应用软件生成的消费数据、浏览记录、登录数据、视频观看记录和留言等业务数据。示例性的,使用网络爬虫直接爬取各网站中关于目标对象的数据;还可以使用Flume或者kafka获取各网站中目标对象实时产生的业务数据,然后将实时产生的业务数据进行存储,当存储的业务数据满足时间周期的要求后,获取存储的目标对象的业务数据,进一步的,在存储业务数据之前可以对获取到的数据进行预处理,例如数据清洗、数据集成、数据变换和数据规约等。
步骤102、根据各维度的数据来源,确定各所述维度的数据标签。
其中,数据标签可以是代表数据来源的文字、字母或者字符串,可以是网站或者应用软件的分类类别,可以包括通讯社交、网络购物、旅行出行、资讯阅读、生活服务、娱乐游戏、金融理财、学习办公和系统工具等。
具体的,根据各维度业务数据对应的数据来源,确定分别对应维度的数据标签。示例性的,可以根据业务数据的来源网站或者应用软件所属的分类类别作为对应维度数据的数据标签,如果业务数据来源是淘宝网,则该维度数据对应的数据标签可以是网络购物,如果业务数据的来源是携程网,则该维度数据对应的数据标签可以是旅行出行。
步骤103、基于设定的分析策略结合各所述数据标签,获得所述目标对象的属性标签。
其中,分析策略可以是为了分析目标对象属性而设置的分析方法,例如为了分析目标对象的兴趣爱好设定的兴趣属性分析策略和为了分析目标对象的活动情况而设定的活动属性分析策略;属性标签可以反应目标对象行为特征的标签集合。
具体的,可以使用分析策略和业务数据的数据标签对业务数据进行分析,获取能够反应目标对象行为特征的属性标签,获取到的目标对象的属性标签可以是一个数据标签也可以是多个数据标签的集合。示例性的,获取某个时间段内目标对象的出现次数最多的业务数据对应的数据标签,该标签可以作为目标对象的行为特征,也就是目标对象的属性标签,可选的,获取目标对象的属性标签后可以对目标对象的分析结果进行可视化展示,包括字云图、极坐标图和气泡图等。
本发明实施例的技术方案,通过获取目标对象设定时间周期内的业务数据,业务数据是具有不同维度和数据来源,根据业务数据的数据来源,确定各维度数据的数据标签,然后根据数据标签和预设的分析策略对目标对象的业务数据进行分析获取其对应的属性标签,避免了传统目标对象属性分析中使用单一结果数据导致的分析精准度低的问题,提高了属性分析的准确度。
在上述技术方案的基础上,基于设定的分析策略结合各所述数据标签,获得所述目标对象的属性标签,包括:
根据设定的时间关联分析策略结合各所述数据标签,获得所述目标对象的活动属性标签;
根据设定的成分关联分析策略结合各所述数据标签,获得所述目标对象的兴趣属性标签。
其中,时间关联分析策略可以是目标对象业务数据根据时间进行分析的策略,例如获取某段时间内出现频次最多的业务数据或一段时间内持续出现的业务数据,根据业务数据的具体内容确定目标对象的活动属性标签;成分关联分析策略可以是目标对象业务数据根据业务数据的内容进行分析的策略,例如获取出现频次最多的业务数据,根据业务数据的具体内容确定目标对象的兴趣属性标签。
具体的,可以根据时间关联分析策略和数据标签,对目标对象的业务数据进行分析,获取目标对象与时间相关的活动属性标签,示例性的,如果目标对象的业务数据中,晚上八点的业务数据出现最多的是新闻网站的浏览记录,那么目标对象的活动属性标签可以是资讯阅读;还可以根据成分关联分析策略和数据标签,对目标对象的业务数据进行分析,获取目标对象与业务数据内容相关的兴趣属性标签,示例性的,可以获取目标对象的业务数据的具体内容,比如目标对象的淘宝消费记录占据所有业务数据总数的50%,那么可以认为目标对象的兴趣属性标签可以是淘宝消费记录对应的网络购物。
上述技术方案这样设置的好处在于通过对目标对象多维异源业务数据的分析,可以全方位的准确获取描述目标对象特征的属性标签,提高了目标对象属性分析的全面程度,使得分析结果具有更高的利用价值。
实施例二
图2是本发明实施例二提供的一种数据分析方法的流程图;本实施例是在上述实施例的基础上,提供的一种可选方案,参见图2,本实施例提供的数据分析方法包括:
步骤201、获取目标对象设定时间周期的业务数据,其中,所述业务数据包括至少两个维度的数据,各维度对应不同数据来源。
步骤202、根据各维度的数据来源,确定各所述维度的数据标签。
步骤203、提取所述业务数据中各维度包括的全部数据报文,获取各所述数据报文的生成时间。
其中,数据报文可以是业务数据的构成部分,当获取到一条目标对象的业务数据时,对应生成一条数据报文,数据报文可以包括数据内容、数据来源和数据报文的生成时间等。
具体的,获取业存储于数据库的或实时生成的业务数据的所有数据报文,获取数据报文中的生成时间。示例性的,从kafka队列中直接获取所有目标对象的业务数据,按条获取各数据报文对应的生成时间。
步骤2031、将各所述数据报文所属维度的数据标签作为各所述数据报文的标识标签。
其中,标识标签可以是对应于数据报文的标签,体现数据报文的数据来源,例如,数据报文的数据来源是新闻网站,那么数据报文的标识标签可以是资讯阅读。
具体的,获取数据报文所属的维度,例如数据来源、数据结构和数据内容等维度,根据数据报文所属的维度对应的数据标签作为标识标签,例如一条消费数据的数据来源是淘宝网,那么该条消费数据对应的标识标签则可以是网络购物。
步骤2032、根据各所述数据报文的生成时间及标识标签,确定所述目标对象的活动属性标签。
具体的,根据获取到的所有数据报文的生成时间和对应的标识标签,对目标对象进行分析,例如获取某时间段内出现频次最多的标识标签,将该标识标签作为获取到的目标对象的活动属性标签。
示例性的,可以利用正则表达式匹配一定时间内生成的数据报文,依据设定条件对获取的数据报文进行处理以生成与时间相关的目标对象的活动属性标签,其中,预设条件可以是条件=(数据类型+目标对象特征+数据内容+数据报文生成时间)*频次,数据类型、目标对象特征、数据内容和数据报文生成时间等参数可以设置不同的阈值,对目标对象生成对应的活动属性标签。
步骤204、确定所述业务数据各维度对应的特征向量,获得所述目标对象的特征向量矩阵。
其中,特征向量可以是代表各维度业务数据特征值的集合,特征提取方式可以包括基于递归特征消除法、互信息选择法和卡方检验法等,特征向量矩阵可以是各维度特征向量的集合,特征矩阵中的特征向量具有相同的行或列。
具体的,可以分别提取各维度数据的特征值向量,将获取的各维度的特征向量存储在同一个矩阵中生成目标对象的特征向量矩阵。
步骤2041、确定各所述维度的数据标签相对所述目标对象的影响度,获得包含所述影响度的影响因子矩阵。
其中,影响度可以是数据标签之间的相互影响程度,可以根据经验进行设置,影响度的表示方式可以包括数字、字母和字符等,示例性的,金融理财与咨询阅读的影响度可以设置为0.3,影响度的范围可以设置成0到1。
具体的,根据经验可以分别生成对应各维度业务数据的数据标签的影响度,将生成的影响度以矩阵的形式进行存储,以生成影响度因子矩阵。
步骤2042、根据所述特征向量矩阵及影响因子矩阵,确定所述目标对象的兴趣属性标签。
具体的,可以将特征向量矩阵和影响因子矩阵进行运算,然后根据运算的结果确定目标对象的兴趣属性标签,例如可以将特征向量矩阵和影响因子矩阵进行乘法计算,提取结果矩阵的特征向量,将特征向量中的数值从大到小排列,依次获取其对应的数据标签,将排名前一定阈值内的数据标签作为目标对象的兴趣属性标签。
可以理解的是,本实施例步骤203和步骤204执行的顺序,不做任何限制,步骤204可以先于步骤203执行或步骤204和步骤203同时进行。进一步的,步骤203和步骤204可单独在一个实施例中出现,即一个可选的实施例中可只执行步骤203或只执行步骤204。
本实施例的技术方案,通过获取目标对象设定时间周期内的业务收据,根据业务数据的数据来源确定各维度数据的数据标签,提取业务数据中数据报文的生成时间,根据生成时间和数据标签,确定目标对象的活动属性标签,对提取各位数据的特征值生成目标对象的特征向量矩阵,确定对应各维业务数据对应数据标签的影响因子矩阵,根据特征向量矩阵和影响因子矩阵确定目标对象的兴趣属性标签;通过将时间因素和业务数据给维度之间的影响关系添加进目标对象分析,提升了目标对象属性维度的多样性,使得目标对象数据分析时效性更强,准确度更高。
进一步的,在上述实施例的基础上根据各所述数据报文的生成时间及标识标签,确定所述目标对象的活动属性标签,包括:
将所述设定时间周期划分为至少一个时间段,根据各所述数据报文的生成时间,确定各所述数据报文所属的时间段;
根据各所述时间段内数据报文的标识标签,确定各时间段中对应报文数量最大值的目标标识标签;
将各所述目标标识标签确定为所述目标对象活动属性标签。
其中,目标标识标签可以是各时间段内出现频次最高的数据报文对应的数据标签。
具体的,可以将获取业务数据的时间周期确定以为多个固定时间段,将获取到的业务数据按照数据的生成时间确定其对应的时间段,每当数据报文被确定所属时间段时,将其对应的标识标签出现频次对应加1,当获取到的业务数据全部确定所属时间段后,获取各时间段出现频次最多的标识标签作为目标标识标签,各时间段对应的目标标识标签共同组成目标对象的活动属性标签。
进一步的,在上述实施例的基础上确定各所述维度的数据标签相对所述目标对象的影响度,包括:
采用给定的专家评价标准,确定各所述数据标签相对所述目标对象的评分值;
将各所述评分值确定为相应数据标签对所述目标对象的影响度。
其中,专家评价标准可以是根据业务相关领域内的专家评价数据标签对目标对象的影响程度的标准。
具体的,可以使用业务相关领域内的专家对数据标签对目标对象的影响程度打分,打分范围可以是从1到10,根据专家对应数据标签打出的分值,确定数据标签对应目标对象的影响度,例如,专家对数据标签通讯社交打分为2,那么目标对象的影响度可设为0.2。
进一步的,在上述实施例的基础上根据所述特征向量矩阵及影响因子矩阵,确定所述目标对象的兴趣属性标签,包括:
基于所述特征向量矩阵与所述影响因子矩阵,获得所述目标对象的综合因子矩阵;
根据设定规则处理所述综合因子矩阵,获得各所述数据标签的贡献值;
从基于各所述贡献值由大到小排序后的数据标签中选取设定数量的目标数据标签作为所述目标对象的兴趣属性标签。
其中,综合因子矩阵可以是特征向量矩阵和影响因子矩阵按照一定运算生成的矩阵,例如矩阵乘法和矩阵加法。
具体的,可以将特征向量矩阵和影响因子矩阵进行乘法运算,然后对生成的矩阵求协方差矩阵生成业务协方差矩阵,然后将业务协方差矩阵中的特征向量按照从大到小进行排列,获取其对应的矩阵特征值λi和正交化单位特征向量ai=(ai1,ai2,…,aim),最后使用公式计算数据标签对应的贡献值,其中m是特征向量矩阵的列数,选择其中大于阈值的贡献值,将获取的贡献值从大到小排列,选其中设定数量的贡献值对应的数据标签作为目标对象的兴趣属性标签。
示例性的,设特征向量矩阵有m个特征X1,X2,…,Xm,为寻找能概括这些指标主要信息的综合指标Z1,Z2,…,Zm,就是寻找一组影响因子ai1,ai2,…,aim(i=1,2,…,m)组成影响因子矩阵,使这m个特征的线性组合Zi=ai1X1+ai2X2+…+aimXm(i=1,2,…,m)能概括m个特征X1,X2,…,Xm,的主要信息。即有
Z=AX
其中
如果Zi=aiX满足以下二个条件:
á1ai=1,当i>1时,á1ai=0(j=1,2,…,i-1)
Var(Zi)=Max{Var(áX)}(á1ai=1,á1ai=0,j=1,2,…,i-1)
则称Zi是原始指标X1,X2,…,Xm的第一主成份。
对任意两个主成份Zi和Zj,根据主成份的定义,有
Cov(Zi,Zj)=0,i≠j
且各主成份的方差满足
Var(Z1)≥Var(Z2)≥…≥Var(Zm)
向量Z的协方差矩阵为
注意到方阵A是正交矩阵,将式上式左乘A,可得
由上式可以看出,求原始指标X1,X2,…,Xm的主成份,实际上就是要求出X的协方差矩阵Cov(X)的特征值和特征向量。原始数据标准化后仍用X表示,其协方差矩阵就是相关矩阵,即有
由R的特征方程可求得其特征值λi(i=1,2,…,m),再由
求得与每一特征值λi对应的单位特征向量ai=(ai1,ai2,…,aim),则各主成分为
Zi=aiX=ai1X1+ai2X2+…+aimXm
通过对主成份模型进行正旋交叉抽取公因子的计算,获取单个指标的主成份贡献值、因子载荷等,依据要求贡献值指标大于0.8的9个数据指标作为目标对象的兴趣属性标签。
优选的实施方式中,在获得到目标对象的活动属性标签和兴趣属性标签后,可以对目标对象分析结果进行可视化展示,例如极坐标柱形图。坐标系对应为一天的12个时间段,每2个小时划分为一个时间段,比如00:00-01:59、12:00—13:59等。其中,极坐标系对应为一天的12个时间段,每2个小时划分为一个时间段,柱状图的数值为各时间段对应的活动属性标签。兴趣属性标签可视化展现的方式主要可以采用气泡图样式进行展示,兴趣属性标签中排名前三名以不同颜色突出显示。其中,按照兴趣属性标签的分类可以有多个不同类型的项目,X、Y值用于使不同的项目按固定的间距分布在X、Y轴上。气泡大小的数值为兴趣属性标签对应的贡献值。
实施例三
图3是本发明实施例三提供的一种数据分析装置的结构示意图,本发明实施例所提供的数据分析装置可执行本发明任意实施例所提供的数据分析方法,具备执行方法相应的功能模块和有益效果。参见图3,本实施例提供的数据分析装置包括:业务数据获取模块301、数据标签获取模块302和结果生成模块303。
业务数据获取模块301,用于获取目标对象设定时间周期的业务数据,其中,所述业务数据包括至少两个维度的数据,各维度对应不同数据来源;
数据标签获取模块302,用于根据各维度的数据来源,确定各所述维度的数据标签;
结果生成模块303,用于基于设定的分析策略结合各所述数据标签,获得所述目标对象的属性标签。
本发明实施例的技术方案,通过业务获取模块获取目标对象设定时间周期内的业务数据,业务数据是具有不同维度和数据来源,数据标签模块根据业务数据的数据来源,确定各维度数据的数据标签,结果生成模块根据数据标签和预设的分析策略对目标对象的业务数据进行分析获取其对应的属性标签,避免了传统目标对象属性分析中使用单一结果数据导致的分析精准度低的问题,提高了属性分析的准确度。
进一步的,所述结果生成模块包括:活动标签子模块和兴趣标签子模块。
活动标签生成子模块,用于根据设定的时间关联分析策略结合各所述数据标签,获得所述目标对象的活动属性标签。
兴趣标签生成子模块,用于根据设定的成分关联分析策略结合各所述数据标签,获得所述目标对象的兴趣属性标签。
进一步的,所述活动标签子模块包括:生成时间获取单元、标识标签获取单元和活动标签生成单元。
生成时间获取单元,用于提取所述业务数据中各维度包括的全部数据报文,获取各所述数据报文的生成时间。
标识标签获取单元,用于将各所述数据报文所属维度的数据标签作为各所述数据报文的标识标签。
活动标签生成单元,用于根据各所述数据报文的生成时间及标识标签,确定所述目标对象的活动属性标签。
进一步的,活动标签生成单元包括:时间段确定子单元、目标确定子单元和活动标签生成子单元。
时间段确定子单元,用于将所述设定时间周期划分为至少一个时间段,根据各所述数据报文的生成时间,确定各所述数据报文所属的时间段。
目标确定子单元,用于根据各所述时间段内数据报文的标识标签,确定各时间段中对应报文数量最大值的目标标识标签。
活动标签生成子单元,用于将各所述目标标识标签确定为所述目标对象活动属性标签。
进一步的,兴趣标签子模块包括:特征矩阵生成单元、影响矩阵生成单元和兴趣标签生成单元。
特征矩阵生成单元,用于确定所述业务数据各维度对应的特征向量,获得所述目标对象的特征向量矩阵。
影响矩阵生成单元,用于确定各所述维度的数据标签相对所述目标对象的影响度,获得包含所述影响度的影响因子矩阵。
兴趣标签生成单元,用于根据所述特征向量矩阵及影响因子矩阵,确定所述目标对象的兴趣属性标签。
进一步的,影响矩阵生成单元包括:评分子单元和影响度确定子单元。
评分子单元,用于采用给定的专家评价标准,确定各所述数据标签相对所述目标对象的评分值;
影响度确定子单元,用于将各所述评分值确定为相应数据标签对所述目标对象的影响度。
进一步的,兴趣标签生成单元包括:综合矩阵子单元、贡献值确定子单元和兴趣标签生成子单元。
综合矩阵子单元,用于基于所述特征向量矩阵与所述影响因子矩阵,获得所述目标对象的综合因子矩阵。
贡献值确定子单元,用于根据设定规则处理所述综合因子矩阵,获得各所述数据标签的贡献值。
兴趣标签生成子单元,用于从基于各所述贡献值由大到小排序后的数据标签中选取设定数量的目标数据标签作为所述目标对象的兴趣属性标签。
需要说明的是,基于上述实施例的技术教导,本领域技术人员有动机将上述实施方式进行组合,以提高目标对象数据分析的准确度。
实施例四
图4是本发明实施例四提供的一种设备的结构示意图。如图4所示,该设包括处理器70、存储器71、输入装置72和输出装置73;设备中处理器70的数量可以是一个或多个,图4中以一个处理器70为例;设备中的处理器70、存储器71、输入装置72和输出装置73可以通过总线或其他方式连接,图4中以通过总线连接为例。
存储器71作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的数据分析方法对应的程序模块(例如,数据分析装置中的业务数据获取模块301、数据标签获取模块302和结果生成模块303)。处理器70通过运行存储在存储器71中的软件程序模块,从而执行设备的各种功能应用以及数据处理,即实现上述的数据分析方法。
存储器71可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器71可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器71可进一步包括相对于处理器70远程设置的存储器,这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置72可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置73可包括显示屏等显示设备。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种数据分析方法,该方法包括:
获取目标对象设定时间周期的业务数据,其中,所述业务数据包括至少两个维度的数据,各维度对应不同数据来源;
根据各维度的数据来源,确定各所述维度的数据标签;
基于设定的分析策略结合各所述数据标签,获得所述目标对象的属性标签。当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的数据分析方法中的相关操作.
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述搜索装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种数据分析方法,其特征在于,包括:
获取目标对象设定时间周期的业务数据,其中,所述业务数据包括至少两个维度的数据,各维度对应不同数据来源;
根据各维度的数据来源,确定各所述维度的数据标签;
基于设定的分析策略结合各所述数据标签,获得所述目标对象的属性标签。
2.根据权利要求1所述的方法,其特征在于,所述基于设定的分析策略结合各所述数据标签,获得所述目标对象的属性标签,包括:
根据设定的时间关联分析策略结合各所述数据标签,获得所述目标对象的活动属性标签;
根据设定的成分关联分析策略结合各所述数据标签,获得所述目标对象的兴趣属性标签。
3.根据权利要求2所述的方法,其特征在于,所述根据设定的时间关联分析策略结合各所述数据标签,获得所述目标对象的活动属性标签,包括:
提取所述业务数据中各维度包括的全部数据报文,获取各所述数据报文的生成时间;
将各所述数据报文所属维度的数据标签作为各所述数据报文的标识标签;
根据各所述数据报文的生成时间及标识标签,确定所述目标对象的活动属性标签。
4.根据权利要求3所述的方法,其特征在于,所述根据各所述数据报文的生成时间及标识标签,确定所述目标对象的活动属性标签,包括:
将所述设定时间周期划分为至少一个时间段,根据各所述数据报文的生成时间,确定各所述数据报文所属的时间段;
根据各所述时间段内数据报文的标识标签,确定各时间段中对应报文数量最大值的目标标识标签;
将各所述目标标识标签确定为所述目标对象活动属性标签。
5.根据权利要求2所述的方法,其特征在于,所述根据设定的成分关联分析策略结合各所述数据标签,获得所述目标对象的兴趣属性标签,包括:
确定所述业务数据各维度对应的特征向量,获得所述目标对象的特征向量矩阵;
确定各所述维度的数据标签相对所述目标对象的影响度,获得包含所述影响度的影响因子矩阵;
根据所述特征向量矩阵及影响因子矩阵,确定所述目标对象的兴趣属性标签。
6.根据权利要求5所述的方法,其特征在于,所述确定各所述维度的数据标签相对所述目标对象的影响度,包括:
采用给定的专家评价标准,确定各所述数据标签相对所述目标对象的评分值;
将各所述评分值确定为相应数据标签对所述目标对象的影响度。
7.根据权利要求5所述的方法,其特征在于,所述根据所述特征向量矩阵及影响因子矩阵,确定所述目标对象的兴趣属性标签,包括:
基于所述特征向量矩阵与所述影响因子矩阵,获得所述目标对象的综合因子矩阵;
根据设定规则处理所述综合因子矩阵,获得各所述数据标签的贡献值;
从基于各所述贡献值由大到小排序后的数据标签中选取设定数量的目标数据标签作为所述目标对象的兴趣属性标签。
8.一种数据分析装置,其特征在于,包括:
业务数据获取模块,用于获取目标对象设定时间周期的业务数据,其中,所述业务数据包括至少两个维度的数据,各维度对应不同数据来源;
数据标签获取模块,用于根据各维度的数据来源,确定各所述维度的数据标签;
结果生成模块,用于基于设定的分析策略结合各所述数据标签,获得所述目标对象的属性标签。
9.一种设备,其特征在于,所述设备包括:
一个或者多个处理器;
存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的数据分析方法。
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的数据分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811408944.7A CN109522333A (zh) | 2018-11-23 | 2018-11-23 | 数据分析方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811408944.7A CN109522333A (zh) | 2018-11-23 | 2018-11-23 | 数据分析方法、装置、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109522333A true CN109522333A (zh) | 2019-03-26 |
Family
ID=65778878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811408944.7A Pending CN109522333A (zh) | 2018-11-23 | 2018-11-23 | 数据分析方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109522333A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110224A (zh) * | 2019-04-16 | 2019-08-09 | 中科金联(北京)科技有限公司 | 一种基于数据多重标签的数据迁移方法和系统 |
CN110633293A (zh) * | 2019-09-02 | 2019-12-31 | 深圳数位传媒科技有限公司 | 离线计算的方法与装置、存储介质及计算机设备 |
CN111191125A (zh) * | 2019-12-24 | 2020-05-22 | 长威信息科技发展股份有限公司 | 一种基于标签化的数据分析方法 |
WO2022105402A1 (zh) * | 2020-11-19 | 2022-05-27 | 海信视像科技股份有限公司 | 信息处理装置、显示装置以及收看量分析系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106383904A (zh) * | 2016-09-29 | 2017-02-08 | 中国联合网络通信集团有限公司 | 视频推荐方法及装置 |
CN106484777A (zh) * | 2016-09-12 | 2017-03-08 | 腾讯科技(深圳)有限公司 | 一种多媒体数据处理方法以及装置 |
CN106897960A (zh) * | 2015-12-18 | 2017-06-27 | 中国移动通信集团公司 | 一种分类信息获取方法和装置 |
CN107908606A (zh) * | 2017-10-31 | 2018-04-13 | 上海壹账通金融科技有限公司 | 基于不同信息源自动生成报表的方法和系统 |
CN107944828A (zh) * | 2017-11-27 | 2018-04-20 | 成都西加云杉科技有限公司 | 数据分析方法、装置及可读存储介质 |
-
2018
- 2018-11-23 CN CN201811408944.7A patent/CN109522333A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897960A (zh) * | 2015-12-18 | 2017-06-27 | 中国移动通信集团公司 | 一种分类信息获取方法和装置 |
CN106484777A (zh) * | 2016-09-12 | 2017-03-08 | 腾讯科技(深圳)有限公司 | 一种多媒体数据处理方法以及装置 |
CN106383904A (zh) * | 2016-09-29 | 2017-02-08 | 中国联合网络通信集团有限公司 | 视频推荐方法及装置 |
CN107908606A (zh) * | 2017-10-31 | 2018-04-13 | 上海壹账通金融科技有限公司 | 基于不同信息源自动生成报表的方法和系统 |
CN107944828A (zh) * | 2017-11-27 | 2018-04-20 | 成都西加云杉科技有限公司 | 数据分析方法、装置及可读存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110224A (zh) * | 2019-04-16 | 2019-08-09 | 中科金联(北京)科技有限公司 | 一种基于数据多重标签的数据迁移方法和系统 |
CN110633293A (zh) * | 2019-09-02 | 2019-12-31 | 深圳数位传媒科技有限公司 | 离线计算的方法与装置、存储介质及计算机设备 |
CN111191125A (zh) * | 2019-12-24 | 2020-05-22 | 长威信息科技发展股份有限公司 | 一种基于标签化的数据分析方法 |
WO2022105402A1 (zh) * | 2020-11-19 | 2022-05-27 | 海信视像科技股份有限公司 | 信息处理装置、显示装置以及收看量分析系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109522333A (zh) | 数据分析方法、装置、设备和介质 | |
Harris et al. | Geographically weighted principal components analysis | |
CN104899229A (zh) | 基于群体智能的行为聚类系统 | |
US11354345B2 (en) | Clustering topics for data visualization | |
Skupin et al. | Spatialization | |
CN105320764A (zh) | 一种基于增量慢特征的3d模型检索方法及其检索装置 | |
CN105975547A (zh) | 基于内容与位置特征的近似web文档检测方法 | |
Araújo et al. | The geometry of crashes. A measure of the dynamics of stock market crises | |
Nagaria | Utilizing exploratory data analysis for the prediction of campus placement for educational institutions | |
CN114722169A (zh) | 一种企业智能问答系统、控制方法、介质、设备及终端 | |
Stausberg | Free-listing | |
CN103544299A (zh) | 一种商业智能云计算系统的构建方法 | |
Dias et al. | Neighborhood dynamics with unharmonized longitudinal data | |
CN117763360A (zh) | 基于深度神经网络的训练集快速分析方法及电子设备 | |
Fischer et al. | REPPlab: An R package for detecting clusters and outliers using exploratory projection pursuit | |
CN116777692A (zh) | 基于数据分析的在线学习方法、装置、设备及存储介质 | |
CN116611889A (zh) | 基于用户画像标签的产品个性化推荐方法及系统 | |
CN105117385B (zh) | 一种以矩阵计算为基础进行舆论信息抽取的方法及系统 | |
CN113722443A (zh) | 一种融合文本相似度和协同过滤的标签推荐方法和系统 | |
Vishwakarma et al. | A survey on web log mining pattern discovery | |
Zhang et al. | Using Web clustering for Web communities mining and analysis | |
CN111724221A (zh) | 确定商品匹配信息的方法、系统、电子设备及存储介质 | |
Sargent et al. | Economic networks: Theory and computation | |
CN114579860B (zh) | 用户行为画像生成方法、装置、电子设备及存储介质 | |
CN114331789B (zh) | 一种廉洁知识智能推荐方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190326 |
|
RJ01 | Rejection of invention patent application after publication |