CN113420096B - 指标体系的构建方法、装置、设备及存储介质 - Google Patents
指标体系的构建方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113420096B CN113420096B CN202110691266.5A CN202110691266A CN113420096B CN 113420096 B CN113420096 B CN 113420096B CN 202110691266 A CN202110691266 A CN 202110691266A CN 113420096 B CN113420096 B CN 113420096B
- Authority
- CN
- China
- Prior art keywords
- index
- user
- indexes
- data
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims abstract description 24
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 64
- 238000000034 method Methods 0.000 claims abstract description 64
- 238000001914 filtration Methods 0.000 claims abstract description 44
- 238000004364 calculation method Methods 0.000 claims abstract description 35
- 238000012163 sequencing technique Methods 0.000 claims abstract description 34
- 230000006399 behavior Effects 0.000 claims description 140
- 238000013507 mapping Methods 0.000 claims description 32
- 239000013598 vector Substances 0.000 claims description 24
- 238000010219 correlation analysis Methods 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims 2
- 239000010410 layer Substances 0.000 description 16
- 230000006870 function Effects 0.000 description 15
- 230000001419 dependent effect Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 239000013604 expression vector Substances 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000007621 cluster analysis Methods 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 238000012353 t test Methods 0.000 description 3
- 238000000692 Student's t-test Methods 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013079 data visualisation Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000001134 F-test Methods 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000009960 carding Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013277 forecasting method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及大数据领域,公开了一种指标体系的构建方法、装置、设备及存储介质。本方法包括:获取历史用户行为数据,根据历史用户行为数据计算每两个用户之间的行为相似度,得到用户集合;根据协同过滤算法计算目标用户对各个指标的关注度;根据关注度,将各个指标按照预设排序规则进行排序,并将排在设定数量之前的指标标注为目标指标;同时根据确定的目标指标的指标类型,通过预设的指标类型与存储计算引擎之间的对应关系表,以及指标类型与指标的维度建模方式之间的对应关系表,构建指标体系。解决了现有技术中的指标体系的构建准确率低的技术问题。本发明中的用户行为数据可以存储于区块链中。
Description
技术领域
本发明涉及大数据领域,尤其涉及一种指标体系的构建方法、装置、设备及存储介质。
背景技术
指标数据是公司在经营分析过程中衡量某一个目标或事物的数据,一般由指标名称、时间和数值等组成。另外有一种通俗的定义,也叫报表数据,企业中的报表由各类事务型数据所组成。针对某个业务主题,汇集多维维度,多指标的数据,由各类业务数据所组成,如BI报告、销售排名分析、资产负债表、损益表、销售报表、库存报表等。
指标体系框架设计需从公司发展战略与目标出发,满足各职能部门业务管理需求,构建“横向协同、纵向贯通”的指标体系。实现指标规范定义的核心元素及目标:定义统一、口径统一、名称统一、来源统一、参照统一。因此,无法通过指标体系对业务对应指标进行监控和管理成为了本领域技术人员需要面临的技术问题。
发明内容
本发明主要是解决现有技术中的指标体系的构建准确率低的技术问题。
本发明第一方面提供了一种指标体系的构建方法,包括:获取历史用户行为数据,根据所述历史用户行为数据计算每两个用户之间的行为相似度,得到用户集合,其中,所述用户集合中包括至少两个用户行为相似的目标用户;根据协同过滤算法计算所述目标用户对各个指标的关注度;根据所述关注度,将所述各个指标按照预设排序规则进行排序,并将排在设定数量之前的指标标注为目标指标;确定所述目标指标的指标类型,并根据预设的指标类型与存储计算引擎之间的对应关系表,以及指标类型与指标的维度建模方式之间的对应关系表,构建指标体系。
可选地,在本发明第一方面的第一种实现方式中,所述获取历史用户行为数据,根据所述历史用户行为数据计算每两个用户之间的行为相似度包括:获取历史用户行为数据,其中,所述用户行为数据包括对与用户有过正反馈的各个指标的关注数据;通过预置相似度算法,计算所述用户两两之间的行为相似度;基于所述行为相似度对所述用户进行聚类,得到用户行为相似的用户集合。
可选地,在本发明第一方面的第二种实现方式中,所述根据协同过滤算法计算所述目标用户对各个指标的关注度包括:根据所述历史用户行为数据获取所述目标用户关注的各个指标,其中,所述各个指标携带不同维度属性信息;从预设数据库获取所述各个指标的历史表现数据,并从所述历史表现数据中提取出历史表现特征向量;基于所述历史特征表现向量,根据协同过滤算法计算所述目标用户对所述各个指标的关注度。
可选地,在本发明第一方面的第三种实现方式中,在所述基于所述历史特征表现向量,根据协同过滤算法计算所述目标用户对所述各个指标的关注度之前,还包括:获取包含所述指标的历史数据,其中,所述历史数据包括特定时期内的指标、所述指标在特定时期内的访问次数,以及影响所述指标在特定时期内访问次数的指标因子;将所述历史数据作为样本数据,并对所述样本数据进行偏相关分析,提取指标,并分别建立所述指标与对应指标因子的映射关系方程式;分别对所述映射关系方程式进行T检验,确定影响所述指标关注度的主要指标因子。
可选地,在本发明第一方面的第四种实现方式中,所述基于所述历史特征表现向量,根据协同过滤算法计算所述目标用户对所述各个指标的关注度包括:基于协同过滤算法,确定影响所述指标关注度的主要指标因子;建立所述指标与所述主要指标因子的映射关系方程式,并采用弹性系数法预测所述主要指标因子的参数值;将所述指标因子的参数值代入所述映射关系方程式中,计算所述目标用户对所述各个指标的关注度。
可选地,在本发明第一方面的第五种实现方式中,所述确定所述目标指标的指标类型,并根据预设的指标类型与存储计算引擎之间的对应关系表,以及指标类型与指标的维度建模方式之间的对应关系表,构建指标体系包括:确定所述目标指标的指标类型,将所述目标指标定义为与预设业务场景对应的业务指标;对所述业务指标进行分析,建立所述业务指标之间的依赖关系;为所述业务指标赋予特性标签生成携带有特性标签的业务指标;根据携带有特性标签的所述业务指标以及所述业务指标之间的依赖关系,构建指标体系。
可选地,在本发明第一方面的第六种实现方式中,所述基于所述行为相似度对所述用户进行聚类,得到用户行为相似的用户集合包括:设定所述用户的聚类个数为k,并随机选取k个用户作为初始聚类中心;基于所述行为相似度,分别将所述用户归类至各初始聚类中心对应用户集合,直到将所述用户归类完毕;确定所述各用户集合的真实聚类中心,得到与所述用户相似的用户集合,其中,所述用户集合中至少包括一个目标用户。
本发明第二方面提供了一种指标体系的构建装置,包括:第一获取模块,用于获取历史用户行为数据,根据所述历史用户行为数据计算每两个用户之间的行为相似度,得到用户集合,其中,所述用户集合中包括至少两个用户行为相似的目标用户;计算模块,用于根据协同过滤算法计算所述目标用户对所述各个指标的关注度;排序模块,用于根据所述关注度,将所述各个指标按照预设排序规则进行排序,并将排在设定数量之前的指标标注为目标指标;构建模块,用于确定所述目标指标的指标类型,并根据预设的指标类型与存储计算引擎之间的对应关系表,以及指标类型与指标的维度建模方式之间的对应关系表,构建指标体系。
本发明第三方面提供了一种指标体系的构建设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述指标体系的构建设备执行上述的指标体系的构建方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的指标体系的构建方法。
本发明提供的技术方案中,通过获取历史用户行为数据,根据历史用户行为数据计算每两个用户之间的行为相似度,得到用户集合;根据协同过滤算法计算目标用户对各个指标的关注度;根据关注度,将各个指标按照预设排序规则进行排序,并将排在设定数量之前的指标标注为目标指标;同时根据确定的目标指标的指标类型,通过预设的指标类型与存储计算引擎之间的对应关系表,以及指标类型与指标的维度建模方式之间的对应关系表,构建指标体系。解决了现有技术中的指标体系的构建准确率低的技术问题,提升了业务价值。
附图说明
图1为本发明指标体系的构建方法的第一个实施例示意图;
图2为本发明指标体系的构建方法的第二个实施例示意图;
图3为本发明指标体系的构建方法的第三个实施例示意图;
图4为本发明指标体系的构建方法的第四个实施例示意图;
图5为本发明指标体系的构建方法的第五个实施例示意图;
图6为本发明指标体系的构建装置的第一个实施例示意图;
图7为本发明指标体系的构建装置的第二个实施例示意图;
图8为本发明指标体系的构建设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种指标体系的构建方法、装置、设备及存储介质,本发明的技术方案中,首先获取历史用户行为数据,根据历史用户行为数据计算每两个用户之间的行为相似度,得到用户集合;根据协同过滤算法计算目标用户对各个指标的关注度;根据关注度,将各个指标按照预设排序规则进行排序,并将排在设定数量之前的指标标注为目标指标;同时根据确定的目标指标的指标类型,通过预设的指标类型与存储计算引擎之间的对应关系表,以及指标类型与指标的维度建模方式之间的对应关系表,构建指标体系。解决了现有技术中的指标体系的构建准确率低的技术问题,提升了业务价值。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中指标体系的构建方法的第一个实施例包括:
101、获取历史用户行为数据,根据历史用户行为数据计算每两个用户之间的行为相似度,得到用户集合;
本实施例中,获取历史用户行为数据,根据所述历史用户行为数据计算所述用户两两之间的相似度,得到用户集合。本实施例中,通过增强型OLAP引擎(Online AnalyticalProcessing),利用机器学习技术从SQL历史、查询模式和分析师行为对历史用户行为数据进行智能识别和推荐,确定用户之间的相似度,得到兴趣相似的目标用户的用户集合。同时,通过数据加速模型,即基于用户、分析师使用行为的协同过滤算法,找到公司管理层、业务策略层、执行层三类人群相似的用户集合,得到相似的目标用户。
其中,用户行为数据在网站上最简单的存在形式就是日志,比如用户在电子商务网站中的网页浏览、购买、点击、评分和评论等活动。比如用户在电子商务网站中的网页浏览、购买、点击、评分和评论等活动。显性反馈行为包括用户明确表示对物品喜好的行为。网站中收集显性反馈的主要方式就是评分和喜欢/不喜欢。隐性反馈行为指的是那些不能明确反应用户喜好的行为。最具代表性的隐性反馈行为就是页面浏览行为。按照反馈的明确性分,用户行为数据可以分为显性反馈和隐性反馈,但按照反馈的方向分类又可以分为正反馈和负反馈。正反馈指用户的行为倾向于指用户喜欢该物品,而反馈指用户的行为倾向于指用户不喜欢该物品。
102、根据协同过滤算法计算目标用户对各个指标的关注度;
本实施例中,利用用户行为数据进行推荐,又叫协同过滤,仅仅基于用户行为数据设计的推荐算法一般称为协同过滤算法。其中,基于用户的协同过滤算法:这种算法给用户推荐和他兴趣相似的其他用户喜欢的物品。
本实施例中,UserCF算法又叫基于用户的协同过滤算法。该算法的基本思想是:在一个在线个性化推荐系统中,当一个用户A需要个性化推荐时,可以先找到和他有相似兴趣的其他用户,然后把那些用户喜欢的、而用户A没有听说过的物品推荐给A。
其中,基于用户的协同过滤算法主要包括两个步骤:步骤1:找到和目标用户兴趣相似的用户集合;步骤2:找到这个集合中的用户喜欢的,且目标用户没有听说过的物品推荐给目标用户。步骤1的关键是计算两个用户的兴趣相似度,协同过滤算法主要利用行为的相似度计算兴趣的相似度。比如,给定用户u和用户v,令N(u)表示用户u曾经有过正反馈的物品集合,令N(v)为用户v曾经有过正反馈的物品集合。那么我们可以通过Jaccard公式简单地计算u和v的关注相似度或者通过余弦公式计算用户的相似度。
得到用户之间的指标关注相似度后,通过协同过滤算法会给用户推荐和他最相似的K个用户关注的指标,其中,计算用户u对指标的关注程度的公式如下:
其中,p(u,i)是指用户u对指标i的关注程度,其中,S(u,K)包含和用户u最接近的K个用户,N(i)是对指标i有过行为的用户集合,Wuv是用户u和用户v的相似度,Rvi代表用户v对指标i的关注,因为使用的是单一行为的隐反馈数据,所以所有的Rvi=1。
103、根据关注度,将各个指标按照预设排序规则进行排序,并将排在设定数量之前的指标标注为目标指标;
本实施例中,根据关注度,将各个指标按照预设排序规则进行排序,并将排在设定数量之前的指标标注为目标指标。得到用户u对指标的关注程度之后,将所述指标按照关注度的大小进行排序,当所述关注度大于预设阈值,则将所述关注度大于预设阈值的指标作为重点关注指标,也即目标指标;或者,将排序的指标中关注度比较大的设定数量个指标作为重点关注指标,也即目标指标,此处不加限定。
本实施例中,目标指标携带不同维度的属性信息。
本实施例中,基本维度即是添加了公司基本属性下的维度指标计算值,增加公共属性即是增加公司共有的属性。
本实施例中,根据所述关注度,将所述各个指标按照预设排序进行排列,并将排在设定数量之前的指标标注为目标指标。比如说,目标用户感兴趣并且经常访问的指标有500个,根据历史用户行为数据,分别计算用户对这些指标的关注度(关注度),并根据计算出来的关注度(关注度),对这些目标进行排序,可以从大到小,也可以从小到大排序,此处不限。并将排在设定数量之前的指标(或者是将关注度大于预设阈值的指标)筛选出,作为最后需要的目标指标。
104、确定目标指标的指标类型,并根据预设的指标类型与存储计算引擎之间的对应关系表,以及指标类型与指标的维度建模方式之间的对应关系表,构建指标体系。
本实施例中,确定目标指标的指标类型,并根据预设的指标类型与存储计算引擎之间的对应关系表,以及指标类型与指标的维度建模方式之间的对应关系表,构建指标体系。根据指标的关注度和该指标计算时是否需要关联其他维度表,确定指标的类型,进一步地,确定指标的类型。比如说,有一些指标在计算的时候需要与多个维度表进行关联才能计算,而另一些指标在计算时不需要与其他维度表关联即可计算指标的值。
本实施例中,指标包括两种类型,需要多维度聚合的指标类型,也就是说计算时需要关联其他维度表进行关联计算的指标,固定维度的指标类型,也就是说计算时不需要关联其他维度表中的数据,仅通过其所属宽表中的数据,即可计算出指标值的指标。
本实施例中,根据指标的类型,从预设的指标类型与存储计算引擎之间的对应关系表中,查询与所述指标对应的存储计算引擎,和计算该指标所需要关联的预置维度表的信息。
本实施例中,不同类型的指标存储的存储计算引擎的位置不同,比如说,一部分存储在随机报表或半聚合报表,在计算时需要关联其他维度表的指标,在查询这些指标时,需要将指标所在的表与其他维度表关联之后,才能计算指标的值,而固定维度的指标,他们在计算时不需要关联其他维度表,那么就可以把这些指标构建的聚合报表存储至聚合引擎,提前进行计算,在用户查询该指标时,可以快速查询对应指标值,提高了数据处理效率。
本实施例中,指标体系的构建主要包括:明确部门具体业务场景,确定一级指标;了解对应业务的运营情况,找到二级指标;对各个业务场景的业务流程进行梳理,确定三级指标,分别从指标含义,指标定义和数据来源三个方面统一指标口径;最后,通过各个指标之间的依赖关系和维度信息,对指标进行监控和管理,同时,根据业务部门会不断更新的业务需求,同步更新指标体系。
本发明实施例中,通过获取历史用户行为数据,根据历史用户行为数据计算每两个用户之间的行为相似度,得到用户集合;根据协同过滤算法计算目标用户对各个指标的关注度;根据关注度,将各个指标按照预设排序规则进行排序,并将排在设定数量之前的指标标注为目标指标;同时根据确定的目标指标的指标类型,通过预设的指标类型与存储计算引擎之间的对应关系表,以及指标类型与指标的维度建模方式之间的对应关系表,构建指标体系。解决了现有技术中的指标体系的构建准确率低的技术问题,提升了业务价值。
请参阅图2,本发明实施例中指标体系的构建方法的第二个实施例包括:
201、获取历史用户行为数据;
本实施例中,从预设数据库中获取用户的历史行为数据,其中,所述用户行为数据中包括用户关注那些指标,关注程度等,比如,可以从预设数据库中获取用户曾经有过正反馈的指标集合。
202、通过预置相似度算法,计算用户两两之间的行为相似度;
本实施例中,通过预置相似度算法,计算用户两两之间的行为相似度。
本步骤的关键就是计算两个用户的“关注指标”这一行为的相似度,也即用户行为相似度。这里,协同过滤算法主要利用两个用户之间所关注指标的相似度,计算用户行为的相似度。给定用户u和用户v,N(u)表示用户u曾经有过正反馈的指标集合,N(v)为用户v曾经有过正反馈的指标集合。
本实施例中,预置相似度算法可以是Jaccard距离公式,也可以是者余弦相似度算法,本发明在此处不做具体限定。通过Jaccard距离公式或者余弦相似度算法计算用户u和用户v之间的行为相似度Wuv。
其中,Jaccard公式具体如下
其中,N(i)是对指标i有过行为的用户集合,Wuv是用户u和用户v的行为相似度。
其中,余弦相似度算法,又称为余弦相似性算法,是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值,绘制到向量空间中,如最常见的二维空间。余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;两个向量指向完全相反的方向时,余弦相似度的值为-1。这结果是与向量的长度无关的,仅仅与向量的指向方向相关。余弦相似度通常用于正空间,因此给出的值为-1到1之间。
注意这上下界对任何维度的向量空间中都适用,而且余弦相似性最常用于高维正空间。例如在信息检索中,每个词项被赋予不同的维度,而一个维度由一个向量表示,其各个维度上的值对应于该词项在文档中出现的频率。余弦相似度因此可以给出两篇文档在其主题方面的相似度。
203、基于行为相似度对用户进行聚类,得到用户行为相似的用户集合;
本实施例中,聚类是指将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。
本实施例中,基于所述行为相似度,分别将所述用户归类至各初始聚类中心对应用户集合,直到将所述用户归类完毕。其中,用户行为相似度是指,用户对指标关注的重合程度。比如,用户(公司管理层、业务策略层、执行层三类人群)关注对应的指标a-z,在这些用户中,有一部分的用户关注的指标非常相似,可以由此计算用户行为的相似度,得到用户行为相似的目标用户,这些目标用户组成的集合就是用户行为相似的用户集合。
204、根据协同过滤算法计算目标用户对各个指标的关注度;
205、根据关注度,将各个指标按照预设排序规则进行排序,并将排在设定数量之前的指标标注为目标指标;
206、确定目标指标的指标类型,并根据预设的指标类型与存储计算引擎之间的对应关系表,以及指标类型与指标的维度建模方式之间的对应关系表,构建指标体系。
本实施例中步骤204-206与第一实施例中的步骤102-104类似,此处不再赘述。
本发明实施例中,通过获取历史用户行为数据,根据历史用户行为数据计算每两个用户之间的行为相似度,得到用户集合;根据协同过滤算法计算目标用户对各个指标的关注度;根据关注度,将各个指标按照预设排序规则进行排序,并将排在设定数量之前的指标标注为目标指标;同时根据确定的目标指标的指标类型,通过预设的指标类型与存储计算引擎之间的对应关系表,以及指标类型与指标的维度建模方式之间的对应关系表,构建指标体系。解决了现有技术中的指标体系的构建准确率低的技术问题,提升了业务价值。
请参阅图3,本发明实施例中指标体系的构建方法的第三个实施例包括:
301、获取历史用户行为数据,根据历史用户行为数据计算每两个用户之间的行为相似度,得到用户集合;
302、根据历史用户行为数据获取目标用户关注的各个指标;
本实施例中,根据所述历史用户行为数据获取所述目标用户关注的各个指标,其中,所述各个指标携带不同维度属性信息。
303、从预设数据库获取各个指标的历史表现数据,并从历史表现数据中提取出历史表现特征向量;
本实施例中,所述指标数据用于指导对金融产品的金融操作,指标数据可直接反映股市所处的状态,为金融操作行为提供指导方向。例如,相对强弱指标(RSI)、随机指标(KD)、趋向指标(DMI)、平滑异同平均线(MACD)、能量潮(OBV)、心理线、乖离率等。
所述历史表现数据是根据金融产品的历史行情时序数据按照预设规则计算出的;例如,根据时间点t的日行情数据,以及所述时间点t之后的设定时间段T内的历史行情时序数据,按照预设规则分别计算出各个指标数据在所述设定时间段内的历史表现数据,并将所述历史表现数据存储到所述数据库中。在所述数据库中包括:距离当前时间点三个月的各个指标数据的历史表现数据、距离当前时间点六个月的各个指标数据的历史表现数据、以及距离当前时间点十二个月的各个指标数据的历史表现数据。
具体的,一个指标数据的历史表现数据包括:滚动累积收益率crt(CumulativeReturn)、最大回撤mdt(Max Drawback)、夏普率srt(Sharpe Ratio);
进一步的,其中,ri为第i个指标数据的日收益率;进一步的,所述从所述历史表现数据中提取出历史表现特征向量,包括:将一个指标数据的历史表现数据Pit∈RM输入到预设的多层神经网络模型中,以得到所述指标数据的历史表现特征数据其中,M为用于评价指标数据的历史表现的评价指标的个数,i∈n,n为预设指标数据的总个数。将所有指标数据的历史表现特征数据构成历史表现特征向量pfmt。
其中,为每个全连接层的输出,σ为神经网络的激活函数sigmoid函数,将上面的单层神经网络堆叠多次就构成了MLP网络,其中每层的参数bp都是不同的需要单独训练。对每个指标数据的历史表现运用同一个MLP提取特征即可得到历史表现特征向量pfmt。
304、获取包含指标的历史数据,其中,历史数据包括特定时期内的指标、指标在特定时期内的访问次数,以及影响指标在特定时期内访问次数的指标因子;
本实施例中,获取包含待预测指标的历史数据,比如说,我们要大概了解指标“2019年双11活动下车险保费”的基本规律,需要获取包含指标“2018年双11活动下车险保费”的数据信息,对该数据信息进行分析,以此对指标“2019年双11活动下车险保费”进行预测,所以,本实施例中的历史数据中报货特定时期内的指标、该指标在特定时期内的访问次数(关注度),以及可能影响该指标在特定时期内访问次数的指标因子。指标因子对指标的在特定时期内的访问次数有关,因此建立指标因子与指标关注度之间的映射关系,根据历史数据计算(或者说是“预测”)指标的关注度。
305、将历史数据作为样本数据,并对样本数据进行偏相关分析,提取指标,并分别建立指标与对应指标因子的映射关系方程式;
本实施例中,将历史数据作为样本数据,比如将“2018年双11活动下车险保费”的数据信息,作为样本数据。
本实施例中,从样本数据中提取出来的指标可以被称之为因变量,在有多个因变量的多元线性回归方程中,多个相关变量(任意两个因变量之间存在一定的相关关系,因此在偏相关分析中,将因变量称为相关变量)间的关系是较为复杂的,任何两个相关变量间常常存在不同程度的简单相关关系,但是这种相关关系又包含有其他相关变量的影响。因此简单相关分析(即直线相关分析)没有考虑其他相关变量对这两个相关变量的影响,实际上并不能真实反映两个相关变量间的相关关系。而只有消除了其他相关变量的影响之后,研究两个相关变量间的相关性,才能真实地反映这两个相关变量间相关的性质与密切程度。偏相关分析就是固定其他相关变量不变而研究某两个相关变量间相关性的统计分析方法。
本实施例中,在指标与对应指标因子的映射关系方程式中,指标因子为自变量,指标为因变量。
本实施例中,采用逐步回归法,建立指标与该指标对应指标因子的映射关系方程式,输入收集的样本数据(历史数据)中各指标对应的指标因子数值,采用SPSS建模工具即可完成映射关系方程式的建立。由于建立指标与气指标因子的映射关系方程式时,只需要输入收集的历史数据中指标因子参数值,对样本数据的要求较低,克服了利用灰色预测模型中的拓扑模型预测方法中对样本数据要求较高的缺陷。同时,根据各(指标对应)险种不同的指标因子参数值可得到各(指标对应)险种相应的映射关系方程式系数,适应于不同险种不同时期指标因子的多变性,适应性强。
306、分别对映射关系方程式进行T检验,确定影响指标关注度的主要指标因子;
本实施例中,t检验是多元线性回归算法中显著性检验的一种,在普通二乘法下F检验可以和t检验等效。
本实施例中,用偏相关分析方法进一步分析各个指标和指标因子的映射关系方程式,确定各个指标与指标因子的映射关系中的主要自变量(也就是,主要指标因子,会有很多指标因子影响指标在特定时期内的被访问次数,而主要指标因子是对主要影响因素),然后将主要指标因子全部保留于指标与指标因子的映射关系方程式中。偏相关系数取值在预置取值区间之内且映射关系方程式中回归系数大于F检验参数或t检验参数的指标因子为主要指标因子。
307、基于历史特征表现向量,根据协同过滤算法计算目标用户对各个指标的关注度;
本实施例中,本实施例中,UserCF算法又叫基于用户的协同过滤算法。该算法的基本思想是:在一个在线个性化推荐系统中,当一个用户A需要个性化推荐时,可以先找到和他有相似兴趣的其他用户,然后把那些用户喜欢的、而用户A没有听说过的物品推荐给A。
其中,基于用户的协同过滤算法主要包括两个步骤:步骤1:找到和目标用户兴趣相似的用户集合;步骤2:找到这个集合中的用户喜欢的,且目标用户没有听说过的物品推荐给目标用户。步骤1的关键是计算两个用户的兴趣相似度,协同过滤算法主要利用行为的相似度计算兴趣的相似度。比如,给定用户u和用户v,令N(u)表示用户u曾经有过正反馈的物品集合,令N(v)为用户v曾经有过正反馈的物品集合。那么我们可以通过Jaccard公式简单地计算u和v的关注相似度或者通过余弦公式计算用户的相似度。
得到用户之间的指标关注相似度后,UserCF算法会给用户推荐和他最相似的K个用户关注的指标,其中,计算用户u对指标的关注程度的公式如下:
其中,公式度量了UserCF算法中:p(u,i)是指用户u对指标i的关注程度,其中,S(u,K)包含和用户u最接近的K个用户,N(i)是对指标i有过行为的用户集合,Wuv是用户u和用户v的相似度,Rvi代表用户v对指标i的关注,因为使用的是单一行为的隐反馈数据,所以所有的Rvi=1。
308、根据关注度,将各个指标按照预设排序规则进行排序,并将排在设定数量之前的指标标注为目标指标;
309、确定目标指标的指标类型,并根据预设的指标类型与存储计算引擎之间的对应关系表,以及指标类型与指标的维度建模方式之间的对应关系表,构建指标体系。
本实施例中步骤301、308-309与第一实施例中的步骤101、103-104类似,此处不再赘述。
本发明实施例中,通过获取历史用户行为数据,根据历史用户行为数据计算每两个用户之间的行为相似度,得到用户集合;根据协同过滤算法计算目标用户对各个指标的关注度;根据关注度,将各个指标按照预设排序规则进行排序,并将排在设定数量之前的指标标注为目标指标;同时根据确定的目标指标的指标类型,通过预设的指标类型与存储计算引擎之间的对应关系表,以及指标类型与指标的维度建模方式之间的对应关系表,构建指标体系。解决了现有技术中的指标体系的构建准确率低的技术问题,提升了业务价值。
请参阅图4,本发明实施例中指标体系的构建方法的第四个实施例包括:
401、获取历史用户行为数据,其中,用户行为数据包括对与用户有过正反馈的各个指标的关注数据;
402、通过预置相似度算法,计算用户两两之间的行为相似度;
403、设定用户的聚类个数为k,并随机选取k个用户作为初始聚类中心;
本实施例中,聚类中心是指在神经网络中把输入的样本数据根据特征分成不同的几个部分,就是聚类,聚类中心就是聚类的中心。
本实施例中,聚类是指将物理或抽象对象的集合分成由类似的对象组成的多个类的过程,是一种研究(样本或指标)分类问题的统计分析方法。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。
404、基于行为相似度,分别将用户归类至各初始聚类中心对应用户集合,直到将用户归类完毕;
本实施例中,基于行为相似度,分别将用户归类至各初始聚类中心对应用户集合,直到将用户归类完毕。其中,行为相似度是指,用户对指标关注的重合程度。比如,用户(公司管理层、业务策略层、执行层三类人群)关注对应的指标a-z,在这些用户中,有一部分的用户关注的指标非常相似,可以由此计算用户行为的相似度,得到用户行为相似的目标用户,这些目标用户组成的集合就是用户行为相似的用户集合。
405、确定各用户集合的真实聚类中心,得到与用户相似的用户集合,其中,用户集合中至少包括一个目标用户;
本实施例中,确定所述各用户集合的真实聚类中心,得到与所述用户相似的用户集合,其中,所述用户集合中至少包括一个目标用户。比如,根据用户行为相似度和预设的初始聚类中心,简单的对用户进行聚类,得到第一分类集合。在进行初步的分类之后,确定每一个组群(用户集合)的真实聚类中心,再分别通过用户行为相似度,计算每个用户与真是聚类中心(对应的中心用户)之间的余弦相似度。根据所述余弦相似度的值,得到与所述中心用户的用户指标关注相似度最高的目标用户,得到相似用户的集合。
406、根据历史用户行为数据获取目标用户关注的各个指标;
407、从预设数据库获取各个指标的历史表现数据,并从历史表现数据中提取出历史表现特征向量;
408、基于协同过滤算法,确定影响指标关注度的主要指标因子;
本实施例中,基于协同过滤算法,确定影响指标关注度的主要指标因子。根据协同过滤算法,确定待预测数据中的不同维度属性的指标,同时确定影响指标关注度的指标因子。
409、建立指标与主要指标因子的映射关系方程式,并采用弹性系数法预测主要指标因子的参数值;
本实施例中,建立指标与主要指标因子的映射关系方程式,并采用弹性系数法预测主要指标因子的参数值。其中,建立待预测数据中获取的指标与该指标对应的指标因子的映射关系方程式。
本实施例中,采用弹性系数法预测待预测数据在某一特定活动下各指标因子参数值。例如预测2019年双11活动中月份购买车险的人数。采用(收集的历史数据中)最近年份和最远年份的数据计算弹性系数ET,即可计算出待预测数据在某一特定活动下对应指标的关注度。
本实施例中的关注度也可以说是一个概率值。
410、将指标因子的参数值代入映射关系方程式中,计算目标用户对各个指标的关注度;
本实施例中,建立待预测数据中获取的指标与该指标对应的指标因子的映射关系方程式,将指标因子的参数值代入该映射关系方程式中,即可计算(预测)出指标的关注度(概率值)。
411、根据关注度,将各个指标按照预设排序规则进行排序,并将排在设定数量之前的指标标注为目标指标;
412、确定目标指标的指标类型,并根据预设的指标类型与存储计算引擎之间的对应关系表,以及指标类型与指标的维度建模方式之间的对应关系表,构建指标体系。
本实施例中步骤411-412与第一实施例中的步骤103-104类似,此处不再赘述。
本发明实施例中,通过获取历史用户行为数据,根据历史用户行为数据计算每两个用户之间的行为相似度,得到用户集合;根据协同过滤算法计算目标用户对各个指标的关注度;根据关注度,将各个指标按照预设排序规则进行排序,并将排在设定数量之前的指标标注为目标指标;同时根据确定的目标指标的指标类型,通过预设的指标类型与存储计算引擎之间的对应关系表,以及指标类型与指标的维度建模方式之间的对应关系表,构建指标体系。解决了现有技术中的指标体系的构建准确率低的技术问题,提升了业务价值。
请参阅图5,本发明实施例中指标体系的构建方法的第五个实施例包括:
501、获取历史用户行为数据,根据历史用户行为数据计算每两个用户之间的行为相似度,得到用户集合;
502、根据协同过滤算法计算目标用户对各个指标的关注度;
503、根据关注度,将各个指标按照预设排序规则进行排序,并将排在设定数量之前的指标标注为目标指标;
504、确定目标指标的指标类型,将目标指标定义为与预设业务场景对应的业务指标;
本实施例中,确定所述目标指标的指标类型,将所述目标指标定义为与预设业务场景对应的业务指标。确定每一个目标指标对应的指标类型,并根据预设的业务场景的实际需求,将所述目标指标一一分配至对应的业务场景,将所述目标指标定义为与预设业务场景对应的业务指标。
本实施例中,指标包括两种类型,需要多维度聚合的指标类型,也就是说计算时需要关联其他维度表进行关联计算的指标,固定维度的指标类型,也就是说计算时不需要关联其他维度表中的数据,仅通过其所属宽表中的数据,即可计算出指标值的指标。
根据指标的类型,从预设的指标类型与存储计算引擎之间的对应关系表中,查询与所述指标对应的存储计算引擎,和计算该指标所需要关联的预置维度表的信息。
本实施例中,不同类型的指标存储的存储计算引擎的位置不同,比如说,一部分存储在随机报表或半聚合报表,在计算时需要关联其他维度表的指标,在查询这些指标时,需要将指标所在的表与其他维度表关联之后,才能计算指标的值,而固定维度的指标,他们在计算时不需要关联其他维度表,那么就可以把这些指标构建的聚合报表存储至聚合引擎,提前进行计算,在用户查询该指标时,可以快速查询对应指标值,不用再等待计算的时间,提高了数据处理效率。
本实施例中,根据指标的类型,确定查询该指标(值)时,是否需要多个维度表关联(来)计算,若需要,查询对应的维度表。
505、对业务指标进行分析,建立业务指标之间的依赖关系;
本实施例中,业务指标之间的依赖是预设好的。例如,多个业务指标包括函数A和函数B,分析多个业务指标,得到调用函数A,需要调用函数B,可以理解为是函数A和函数B之间存在依赖。调用函数C,需要同时调用函数D和函数E,即函数C和函数D、函数E之间存在依赖。分析所述业务指标,生成业务指标边以及业务指标边的方向以建立所述业务指标之间的依赖关系,所述业务指标边用于表示所述业务指标之间的关联。
本实施例中,业务指标之间的依赖关系,又叫依赖关系。为了能够描述出核心业务与预置指标体系中各层级的指标集合中的数据指标之间的联系,通过各层级的指标集合中的数据指标来真实的反映核心业务的具体状况,还可以进一步建立数据仓库中的核心指标体系,与各层级的指标集合中的数据指标之间;以及,各层级的指标集合中的数据指标之间的依赖关系。例如,以与支付业务平台对接的数据仓库为例,支付业务为该数据仓库的运营方的核心业务,而上述核心指标体系,通常可以包括与支付业务相关的交易表、事件表、以及会员表,等等。在构建核心指标体系中,可以从上述数据仓库的中间层以及基础层中,读取与支付业务相关的数据表,然后基于读取到的数据表来构建上述核心业务对应的指标体系。
当完成核心业务指标体系构建完成后,上述服务端可以进一步开启构建核心指标体系集合中的元素,与各层级的指标集合中的数据指标之间的依赖关系;以及,各层级的指标集合中的数据指标之间的依赖关系的流程。
其中,核心指标体系与各层级的指标集合中的数据指标之间的依赖关系,通常表达的是计算该数据指标所采用的基础数据来源;即该数据指标是基于哪些核心指标体系中的业务数据进行进一步的计算得到的。
506、为业务指标赋予特性标签生成携带有特性标签的业务指标;
本实施例中,为所述业务指标赋予特性标签生成携带有特性标签的业务指标。其中,特性标签包括但不限于并行、缓存、排序、依赖等。为业务指标打上特性标签,相当于解耦业务指标对应的函数的依赖,使业务指标成为独立的业务指标。
507、根据携带有特性标签的业务指标以及业务指标之间的依赖关系,构建指标体系。
本实施例中,根据携带有特性标签的所述业务指标以及所述业务指标之间的依赖关系,构建指标体系。当指标选取之后,根据指标之间的依赖关系,就可以开始搭建指标体系了,指标体系是通过场景流程来综合进行分析,而这里最重要的就是分析维度的选择。一个好的指标是可以多维度去拆解划分,当好的指标搭上完整的维度,很多问题就可以迎刃而解。如果没有合适的维度,你建立起来的依然只是多个指标,只是指标合理,做不到前后场景化的分析。简单理解,维度是将点串联成场景的那根线。指标体系搭建的逻辑是:选指标-针对每个指标做出可能要的维度-将指标和维度重新组合。比如,通常我们在选取某个指标的时候,想到的维度都比较简单,如:用户进入商品详情页,我可能只想要知道用户进了哪个类目的商品详情页;商品成交的时候,可能关注的是类目和金额;同样地,在商品列表页的时候,我们监测用户搜索,会关心用户搜索了哪些词,搜索频次等。那么如果我将用户进入商品详情页内,搜索的关键词和成交的指标组合会是什么样的场景呢?用户搜索了哪个关键词,并且进入了商品详情页,之后这个商品被购买了。
这时候我们分析搜索关键词的时候,效率会非常高。如搜索某个关键词的用户转化率非常高,但是搜索的次数比较少,那么我们就可以将这个关键词置为热搜以可以提升整体的转化率。对指标进行维度拆解后,再进行重组,比如,在同一个流程,用户动作存在关联的,尽可能多地在多个指标覆盖相同可用的维度。以电商为例,用户的动作是:搜索品类-搜索列表页-点击筛选-商品列表页-提交订单-购买。那么在整个流程中最好可以保留搜索品类的关键词、筛选的条件、商品的信息等内容。最后,当我们指标和维度都确定之后,接下来就是去做数据埋点,最后,就剩下数据可视化的内容了。数据可视化通常根据自己的业务场景去结合,使用自己合适的数据,通常会包含用户数据、渠道数据、业务流程数据等。
本实施例中,指标体系是指由若干个反映社会经济现象总体数量特征的相对独立又相互联系的统计指标所组成的有机整体。
在统计研究中,如果要说明总体全貌,那么只使用一个指标往往是不够的,因为它只能反映总体某一方面的数量特征。这个时候就需要同时使用多个相关指标了,而这多个相关的又相互独立的指标所构成的统一整体,即为指标体系。
本实施例中步骤501-503与第一实施例中的101-103类似,此处不再赘述。
在本发明实施例中,通过获取历史用户行为数据,根据历史用户行为数据计算每两个用户之间的行为相似度,得到用户集合;根据协同过滤算法计算目标用户对各个指标的关注度;根据关注度,将各个指标按照预设排序规则进行排序,并将排在设定数量之前的指标标注为目标指标;同时根据确定的目标指标的指标类型,通过预设的指标类型与存储计算引擎之间的对应关系表,以及指标类型与指标的维度建模方式之间的对应关系表,构建指标体系。解决了现有技术中的指标体系的构建准确率低的技术问题,提升了业务价值。
上面对本发明实施例中指标体系的构建方法进行了描述,下面对本发明实施例中指标体系的构建装置进行描述,请参阅图6,本发明实施例中指标体系的构建装置的第一个实施例包括:
第一获取模块601,用于获取历史用户行为数据,根据所述历史用户行为数据计算每两个用户之间的行为相似度,得到用户集合,其中,所述用户集合中包括至少两个用户行为相似的目标用户;
计算模块602,用于根据协同过滤算法计算所述目标用户对所述各个指标的关注度;
排序模块603,用于根据所述关注度,将所述各个指标按照预设排序规则进行排序,并将排在设定数量之前的指标标注为目标指标;
构建模块604,用于确定所述目标指标的指标类型,并根据预设的指标类型与存储计算引擎之间的对应关系表,以及指标类型与指标的维度建模方式之间的对应关系表,构建指标体系。
本发明实施例中,通过获取历史用户行为数据,根据历史用户行为数据计算每两个用户之间的行为相似度,得到用户集合;根据协同过滤算法计算目标用户对各个指标的关注度;根据关注度,将各个指标按照预设排序规则进行排序,并将排在设定数量之前的指标标注为目标指标;同时根据确定的目标指标的指标类型,通过预设的指标类型与存储计算引擎之间的对应关系表,以及指标类型与指标的维度建模方式之间的对应关系表,构建指标体系。解决了现有技术中的指标体系的构建准确率低的技术问题,提升了业务价值。
请参阅图7,本发明实施例中指标体系的构建装置的第二个实施例,该指标体系的构建装置具体包括:
第一获取模块601,用于获取历史用户行为数据,根据所述历史用户行为数据计算每两个用户之间的行为相似度,得到用户集合,其中,所述用户集合中包括至少两个用户行为相似的目标用户;
计算模块602,用于根据协同过滤算法计算所述目标用户对所述各个指标的关注度;
排序模块603,用于根据所述关注度,将所述各个指标按照预设排序规则进行排序,并将排在设定数量之前的指标标注为目标指标;
构建模块604,用于确定所述目标指标的指标类型,并根据预设的指标类型与存储计算引擎之间的对应关系表,以及指标类型与指标的维度建模方式之间的对应关系表,构建指标体系。
本实施例中,所述第一获取模块601包括:
第一获取单元6011,用于获取历史用户行为数据,其中,所述用户行为数据包括对与用户有过正反馈的各个指标的关注数据;
第一计算单元6012,用于通过预置相似度算法,计算所述用户两两之间的行为相似度;
聚类单元6013,用于基于所述行为相似度对所述用户进行聚类,得到用户行为相似的用户集合。
本实施例中,所述计算模块602包括:
第二获取单元6021,用于根据所述历史用户行为数据获取所述目标用户关注的各个指标,其中,所述各个指标携带不同维度属性信息;
提取单元6022,用于从预设数据库获取所述各个指标的历史表现数据,并从所述历史表现数据中提取出历史表现特征向量;
第二计算单元6023,用于基于所述历史特征表现向量,根据协同过滤算法计算所述目标用户对所述各个指标的关注度。
本实施例中,所述指标体系的构建装置还包括:
第二获取模块605,用于获取包含所述指标的历史数据,其中,所述历史数据包括特定时期内的指标、所述指标在特定时期内的访问次数,以及影响所述指标在特定时期内访问次数的指标因子;
偏相关分析模块606,用于将所述历史数据作为样本数据,并对所述样本数据进行偏相关分析,提取指标,并分别建立所述指标与对应指标因子的映射关系方程式;
检验模块607,用于分别对所述映射关系方程式进行T检验,确定影响所述指标关注度的主要指标因子。
本实施例中,所述第二计算单元6023具体用于:
基于协同过滤算法,确定影响所述指标关注度的主要指标因子;
建立所述指标与所述主要指标因子的映射关系方程式,并采用弹性系数法预测所述主要指标因子的参数值;
将所述指标因子的参数值代入所述映射关系方程式中,计算所述目标用户对所述各个指标的关注度。
本实施例中,所述构建模块603具体用于:
确定所述目标指标的指标类型,将所述目标指标定义为与预设业务场景对应的业务指标;
对所述业务指标进行分析,建立所述业务指标之间的依赖关系;
为所述业务指标赋予特性标签生成携带有特性标签的业务指标;
根据携带有特性标签的所述业务指标以及所述业务指标之间的依赖关系,构建指标体系。
本实施例中,所述聚类单元6013具体用于:
设定所述用户的聚类个数为k,并随机选取k个用户作为初始聚类中心;
基于所述行为相似度,分别将所述用户归类至各初始聚类中心对应用户集合,直到将所述用户归类完毕;
确定所述各用户集合的真实聚类中心,得到与所述用户相似的用户集合,其中,所述用户集合中至少包括一个目标用户。
本发明实施例中,通过获取历史用户行为数据,根据历史用户行为数据计算每两个用户之间的行为相似度,得到用户集合;根据协同过滤算法计算目标用户对各个指标的关注度;根据关注度,将各个指标按照预设排序规则进行排序,并将排在设定数量之前的指标标注为目标指标;同时根据确定的目标指标的指标类型,通过预设的指标类型与存储计算引擎之间的对应关系表,以及指标类型与指标的维度建模方式之间的对应关系表,构建指标体系。解决了现有技术中的指标体系的构建准确率低的技术问题,提升了业务价值。
上面图6和图7从模块化功能实体的角度对本发明实施例中的指标体系的构建装置进行详细描述,下面从硬件处理的角度对本发明实施例中指标体系的构建设备进行详细描述。
图8是本发明实施例提供的一种指标体系的构建设备的结构示意图,该指标体系的构建设备800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)810(例如,一个或一个以上处理器)和存储器820,一个或一个以上存储应用程序833或数据832的存储介质830(例如一个或一个以上海量存储设备)。其中,存储器820和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对指标体系的构建设备800中的一系列指令操作。更进一步地,处理器810可以设置为与存储介质830通信,在指标体系的构建设备800上执行存储介质830中的一系列指令操作,以实现上述各方法实施例提供的指标体系的构建方法的步骤。
指标体系的构建设备800还可以包括一个或一个以上电源840,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口860,和/或,一个或一个以上操作系统831,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图8示出的指标体系的构建设备结构并不构成对本申请提供的指标体系的构建设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行上述指标体系的构建方法的步骤。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所述领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种指标体系的构建方法,其特征在于,所述指标体系的构建方法包括:
获取历史用户行为数据,根据所述历史用户行为数据计算每两个用户之间的行为相似度,得到用户集合,其中,所述用户集合中包括至少两个用户行为相似的目标用户;
根据所述历史用户行为数据获取所述目标用户关注的各个指标,其中,所述各个指标携带不同维度属性信息;
从预设数据库获取所述各个指标的历史表现数据,并从所述历史表现数据中提取出历史表现特征向量;
基于协同过滤算法,确定影响指标关注度的主要指标因子;
建立所述指标与所述主要指标因子的映射关系方程式,并采用弹性系数法预测所述主要指标因子的参数值;
将所述主要指标因子的参数值代入所述映射关系方程式中,计算所述目标用户对所述各个指标的关注度;
根据所述关注度,将所述各个指标按照预设排序规则进行排序,并将排在设定数量之前的指标标注为目标指标;
确定所述目标指标的指标类型,并根据预设的指标类型与存储计算引擎之间的对应关系表,以及指标类型与指标的维度建模方式之间的对应关系表,构建指标体系。
2.根据权利要求1所述的指标体系的构建方法,其特征在于,所述获取历史用户行为数据,根据所述历史用户行为数据计算每两个用户之间的行为相似度包括:
获取历史用户行为数据,其中,所述用户行为数据包括对与用户有过正反馈的各个指标的关注数据;
通过预置相似度算法,计算所述用户两两之间的行为相似度;
基于所述行为相似度对所述用户进行聚类,得到用户行为相似的用户集合。
3.根据权利要求1所述的指标体系的构建方法,其特征在于,在所述基于所述历史表现特征向量,根据协同过滤算法计算所述目标用户对所述各个指标的关注度之前,还包括:
获取包含所述指标的历史数据,其中,所述历史数据包括特定时期内的指标、所述指标在特定时期内的访问次数,以及影响所述指标在特定时期内访问次数的指标因子;
将所述历史数据作为样本数据,并对所述样本数据进行偏相关分析,提取指标,并分别建立所述指标与对应指标因子的映射关系方程式;
分别对所述映射关系方程式进行T检验,确定影响指标关注度的主要指标因子。
4.根据权利要求1所述的指标体系的构建方法,其特征在于,所述确定所述目标指标的指标类型,并根据预设的指标类型与存储计算引擎之间的对应关系表,以及指标类型与指标的维度建模方式之间的对应关系表,构建指标体系包括:
确定所述目标指标的指标类型,将所述目标指标定义为与预设业务场景对应的业务指标;
对所述业务指标进行分析,建立所述业务指标之间的依赖关系;
为所述业务指标赋予特性标签生成携带有特性标签的业务指标;
根据携带有特性标签的所述业务指标以及所述业务指标之间的依赖关系,构建指标体系。
5.根据权利要求2所述的指标体系的构建方法,其特征在于,所述基于所述行为相似度对所述用户进行聚类,得到用户行为相似的用户集合包括:
设定所述用户的聚类个数为k,并随机选取k个用户作为初始聚类中心;
基于所述行为相似度,分别将所述用户归类至各初始聚类中心对应用户集合,直到将所述用户归类完毕;
确定各所述用户集合的真实聚类中心,得到与所述用户相似的用户集合,其中,所述用户集合中至少包括一个目标用户。
6.一种指标体系的构建装置,其特征在于,所述指标体系的构建装置包括:
第一获取模块,用于获取历史用户行为数据,根据所述历史用户行为数据计算每两个用户之间的行为相似度,得到用户集合,其中,所述用户集合中包括至少两个用户行为相似的目标用户;
第一计算模块,用于根据协同过滤算法计算所述目标用户对各个指标的关注度;
第二获取模块,用于根据所述历史用户行为数据获取所述目标用户关注的各个指标,其中,所述各个指标携带不同维度属性信息;
提取模块,用于从预设数据库获取所述各个指标的历史表现数据,并从所述历史表现数据中提取出历史表现特征向量;
确定模块,用于基于协同过滤算法,确定影响指标关注度的主要指标因子;
预测模块,用于建立所述指标与所述主要指标因子的映射关系方程式,并采用弹性系数法预测所述主要指标因子的参数值;
第二计算模块,用于将所述主要指标因子的参数值代入所述映射关系方程式中,计算所述目标用户对所述各个指标的关注度;
排序模块,用于根据所述关注度,将所述各个指标按照预设排序规则进行排序,并将排在设定数量之前的指标标注为目标指标;
构建模块,用于确定所述目标指标的指标类型,并根据预设的指标类型与存储计算引擎之间的对应关系表,以及指标类型与指标的维度建模方式之间的对应关系表,构建指标体系。
7.一种指标体系的构建设备,其特征在于,所述指标体系的构建设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述指标体系的构建设备执行如权利要求1-5中任一项所述的指标体系的构建方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的指标体系的构建方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110691266.5A CN113420096B (zh) | 2021-06-22 | 2021-06-22 | 指标体系的构建方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110691266.5A CN113420096B (zh) | 2021-06-22 | 2021-06-22 | 指标体系的构建方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113420096A CN113420096A (zh) | 2021-09-21 |
CN113420096B true CN113420096B (zh) | 2024-05-10 |
Family
ID=77789733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110691266.5A Active CN113420096B (zh) | 2021-06-22 | 2021-06-22 | 指标体系的构建方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113420096B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220365A (zh) * | 2017-06-07 | 2017-09-29 | 四川大学 | 基于协同过滤与关联规则并行处理的精准推荐系统及方法 |
CN111859299A (zh) * | 2020-07-23 | 2020-10-30 | 平安科技(深圳)有限公司 | 大数据指标构建方法、装置、设备及存储介质 |
CN112016840A (zh) * | 2020-09-01 | 2020-12-01 | 中国平安人寿保险股份有限公司 | 一种选择指标数据的方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107103057B (zh) * | 2017-04-13 | 2018-09-18 | 腾讯科技(深圳)有限公司 | 一种资源推送方法及装置 |
-
2021
- 2021-06-22 CN CN202110691266.5A patent/CN113420096B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220365A (zh) * | 2017-06-07 | 2017-09-29 | 四川大学 | 基于协同过滤与关联规则并行处理的精准推荐系统及方法 |
CN111859299A (zh) * | 2020-07-23 | 2020-10-30 | 平安科技(深圳)有限公司 | 大数据指标构建方法、装置、设备及存储介质 |
CN112016840A (zh) * | 2020-09-01 | 2020-12-01 | 中国平安人寿保险股份有限公司 | 一种选择指标数据的方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113420096A (zh) | 2021-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kim et al. | A scientometric review of emerging trends and new developments in recommendation systems | |
US10019442B2 (en) | Method and system for peer detection | |
Nasraoui et al. | A web usage mining framework for mining evolving user profiles in dynamic web sites | |
US9489627B2 (en) | Hybrid clustering for data analytics | |
Ghazal et al. | Application of knowledge discovery in database (KDD) techniques in cost overrun of construction projects | |
Zheng et al. | An effective contrast sequential pattern mining approach to taxpayer behavior analysis | |
US11194812B2 (en) | Efficient aggregation of sliding time window features | |
Çavdar et al. | Airline customer lifetime value estimation using data analytics supported by social network information | |
Sheikh et al. | A preliminary study of fintech industry: A two-stage clustering analysis for customer segmentation in the B2B setting | |
Zhu et al. | Evaluating and selecting web sources as external information resources of a data warehouse | |
Gao et al. | Personalized service system based on hybrid filtering for digital library | |
Tian et al. | A fuzzy TOPSIS model via chi-square test for information source selection | |
US20220188286A1 (en) | Data Catalog Providing Method and System for Providing Recommendation Information Using Artificial Intelligence Recommendation Model | |
Ayaz et al. | Identification of conversion factor for completing-h index for the field of mathematics | |
Zhang et al. | Analysis and research on library user behavior based on apriori algorithm | |
Wang et al. | A reliable location design of unmanned vending machines based on customer satisfaction | |
Lewaaelhamd | Customer segmentation using machine learning model: an application of RFM analysis | |
US20120109980A1 (en) | Method for retrieving, organizing and delivering information and content based on community consumption of information and content. | |
Gao et al. | pRankAggreg: A fast clustering based partial rank aggregation | |
Fornacciari et al. | Knowledge Discovery on Scopus. | |
CN116561134A (zh) | 业务规则处理方法、装置、设备及存储介质 | |
CN113420096B (zh) | 指标体系的构建方法、装置、设备及存储介质 | |
Nawaz et al. | Rising stars prediction in reviewer network | |
Chen et al. | Improved spectral clustering collaborative filtering with Node2vec technology | |
Seeliger et al. | Process explorer: an interactive visual recommendation system for process mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |