CN111159429B - 基于知识图谱的数据分析方法及装置、设备、存储介质 - Google Patents

基于知识图谱的数据分析方法及装置、设备、存储介质 Download PDF

Info

Publication number
CN111159429B
CN111159429B CN201911404639.5A CN201911404639A CN111159429B CN 111159429 B CN111159429 B CN 111159429B CN 201911404639 A CN201911404639 A CN 201911404639A CN 111159429 B CN111159429 B CN 111159429B
Authority
CN
China
Prior art keywords
index
service
business
interpretation model
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911404639.5A
Other languages
English (en)
Other versions
CN111159429A (zh
Inventor
张翔
张挚庸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CITIC Aibank Corp Ltd
Original Assignee
CITIC Aibank Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CITIC Aibank Corp Ltd filed Critical CITIC Aibank Corp Ltd
Priority to CN201911404639.5A priority Critical patent/CN111159429B/zh
Publication of CN111159429A publication Critical patent/CN111159429A/zh
Application granted granted Critical
Publication of CN111159429B publication Critical patent/CN111159429B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Abstract

本发明涉及一种基于知识图谱的数据分析方法及装置、设备、存储介质,数据分析方法,包括:S1.梳理业务口径,构建包含与所述业务口径相关的业务指标的指标库,其中,每个所述业务指标具有相对应的SQL口径;S2.构建所述业务指标的知识图谱,其中,所述知识图谱中的业务指标拆分逻辑是MECE完备;S3.根据所述知识图谱中所述业务指标之间的拆分逻辑,从所述指标库抽取相对应的SQL口径并进行组装构成初始解释模型;S4.筛选所述初始解释模型,获取用于对下级所述业务指标进行归因分析的输出解释模型;S5.基于所述输出解释模型输出与所述输出解释模型相关的业务指标以及对所述业务指标变化的解释。

Description

基于知识图谱的数据分析方法及装置、设备、存储介质
技术领域
本发明涉及大数据数据分析领域,尤其涉及一种基于知识图谱的数据分析方法及装置、设备、存储介质。
背景技术
目前很多数据智能分析系统主要集中在数据标签的标准化,分析预测的过程是基于硬件采集的数据进行分析,确鲜有数据智能分析系统能够从互联网数据分析人员痛点出发,降低技术门槛和沟通成本,为组织赋能。进而在分析预测的过程主要存在如下问题:
1、在数据沟通方式上,基于SQL或者Tableau的分析方式,不直观,阅读交流成本高;
2、在数据展示形式上,常用的报表对于一个复杂的业务部门来说经常有大量的指标,数据分析师难免抓不住重点,不知道指标之间是否存在关联关系和因果关系;
3、在数据生产方式上,并不是所有产品和运营人员能够熟练使用SQL,即使会使用SQL他们也需要一个快速定位问题,帮助业务迭代的工具。
发明内容
本发明的目的在于提供一种基于基于知识图谱的数据分析方法及装置、设备、存储介质,解决数据分析效率低的问题。
为实现上述发明目的,本发明提供一种基于知识图谱的数据智能分析方法,包括:
S1.梳理业务口径,构建包含与所述业务口径相关的业务指标的指标库,其中,每个所述业务指标具有相对应的SQL口径;
S2.构建所述业务指标的知识图谱,其中,所述知识图谱中的业务指标拆分逻辑是MECE完备;
S3.根据所述知识图谱中所述业务指标之间的拆分逻辑,从所述指标库抽取相对应的SQL口径并进行组装构成初始解释模型;
S4.筛选所述初始解释模型,获取用于对下级所述业务指标进行归因分析的输出解释模型;
S5.基于所述输出解释模型输出与所述输出解释模型相关的业务指标以及对所述业务指标变化的解释。
根据本发明,步骤S4中包括:
S41.基于所述初始解释模型获取上级所述业务指标对下级业务指标的解释率;
S42.将所述解释率与预设阈值相比较,若所述解释率大于或等于所述预设阈值,则将与所述解释率相对应的所述初始解释模型作为所述输出解释模型。
根据本发明,以预设时间间隔对所述业务指标进行跑批,更新所述指标库。
根据本发明,步骤S3中,从所述指标库抽取相对应的SQL口径并进行组装构成初始解释模型的步骤中,采用AI算法,基于训练模型对所述SQL口径进行组装。
根据本发明,步骤S5中,基于所述输出解释模型输出与所述输出解释模型相关的业务指标以及对所述业务指标变化的解释的步骤中,采用图片、文字、语音中的至少一种方式进行输出。
根据本发明的另一方案是一种基于知识图谱的数据智能分析装置,所述数据智能分析装置包括:
指标库模块,用于梳理业务口径,储存并更新业务指标;
知识图谱模块,用于构建所述业务指标的知识图谱;
调度系统模块,根据所述知识图谱中所述业务指标之间的拆分逻辑,从所述指标库抽取相对应的SQL口径并进行组装构成初始解释模型,以及用于筛选所述初始解释模型,获取用于对下级所述业务指标进行归因分析的输出解释模型,并基于所述输出解释模型输出与所述输出解释模型相关的业务指标以及对所述业务指标变化的解释。
根据本发明的再一方案是一种分析设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当所述分析设备运行时,所述处理器与所述存储介质之间通过所述总线通信,所述处理器执行所述机器可读指令,以执行前述的数据智能分析方法的步骤。
根据本发明的再一方案是一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行前述的数据智能分析方法的步骤。
根据上述方案,本发明的方案有效降低了沟通成本。本发明的方法中由业务人员维护自己业务的知识图谱,由数据人员维护数据口径库(即指标库),减少了业务人员需要沟通自己不擅长的数据,以及减少了数据人员要沟通自己不擅长的业务,进而有效提高了本发明的分析效率。
根据上述方案,通过采用MECE知识图谱,这种MECE金字塔结构方式,确保每次对数据解释都是完备的,避免了遗漏,进一步对提高沟通效率有利。
根据上述方案,数据根据知识图谱层层分拆,通过解释率阈值控制分析粒度,保证了数据的正确归因和抓到数据变化的重点。
根据上述方案,能够一步到位给出数据解读,减少了数据分析人员需要写出查询SQL和数据阅读的工作,有效降低了数据分析人员的工作量,并提高了数据分析人员的工作效率。
根据上述方案,由业务人员维护知识图谱,而数据人员维护口径库的模式减少了公司内部多个口径、多重解读的矛盾,有效确保了分析过程的标准统一。
根据上述方案,高效准确地让业务人员一步到位获得业务数据解读,即使对于不具有SQL能力的人员,本方法仍能实现这部分人员获得准确数据和对数据变化原因的准确分析;
附图说明
图1是用于本发明的数据智能分析方法的步骤框图。
图2是用于本发明的数据智能分析方法的流程图。
图3是用于本发明的数据智能分析方法的指标库的结构图。
图4是示意性表示用于本发明的数据智能分析方法的知识图谱图。
图5、图6、图7是示意性表示用于本发明的数据智能分析方法的指标变化的图片解释。
具体实施方式
下面结合附图和具体实施方式对本发明作详细地描述,实施方式不能在此一一赘述,但本发明的实施方式并不因此限定于以下实施方式。
图1是用于本发明的数据智能分析方法的步骤框图。如图1所示,本发明的一种基于知识图谱的数据智能分析方法,包括:
S1.梳理业务口径,构建包含与业务口径相关的业务指标的指标库,其中,每个业务指标具有相对应的SQL口径;
S2.构建业务指标的知识图谱,其中,知识图谱中的业务指标拆分逻辑是MECE完备;
S3.根据知识图谱中业务指标之间的拆分逻辑,从指标库抽取相对应的SQL口径并进行组装构成初始解释模型;
S4.筛选初始解释模型,获取用于对下级业务指标进行归因分析的输出解释模型;
S5.基于输出解释模型输出与输出解释模型相关的业务指标以及对业务指标变化的解释。
图2是用于本发明的数据智能分析方法的流程图。如图2所示,根据本发明的方案,在步骤S1中,以预设时间间隔对业务指标进行跑批,更新指标库。在本实施方式中,由数据中台实现指标库数据口径的及时更新。在本实施方式中,预设时间间隔可设置为一天。
图3是用于本发明的数据智能分析方法的指标库的结构图。本发明的方案中,与业务指标相对应的SQL口径是由AI算法自动生成。以对用户活跃度拆分到新用户活跃或是留存活跃为例,由AI算法生成SQL口径的流程代码如下:
Figure BDA0002348311880000041
Figure BDA0002348311880000051
Figure BDA0002348311880000061
与上述流程代码相类似的,其它业务指标相对应的SQL口径也可由AI算法自动生成。在此不再赘述。
图4是示意性表示用于本发明的数据智能分析方法的知识图谱图。根据本发明的方案,步骤S2中,构建公司业务指标知识图谱的过程中,注意关注拆分逻辑是MECE(Mutually Exclusive Collectively Exhaustive)完备;如某个指标增长了,相关拆分元素组合在逻辑上是完备的,且互相不干涉,确保了每个指标变化可以通过这种拆分得到完备解释。确保数据变化能否从完备集中得到解释。
根据本发明的方案,步骤S3中,在调度系统中更新每日指标数据,并根据知识图谱拆分逻辑从指标库抽取SQL口径进行组装构成初始解释模型,根据知识图谱向下拆分指标。在本实施方式中,组装SQL采用AI算法,训练模型能够正确组装按照知识图谱拆分的SQL。如针对AUM可按照产品和渠道拆分的拆分,在口径库中AUM计算逻辑为:
Figure BDA0002348311880000062
而口径库中存储产品变量名为product_name,chn_name,
则通过算法组装sql为
Figure BDA0002348311880000063
Figure BDA0002348311880000071
根据本发明的方案,在步骤S4中,根据生成的逻辑拆分SQL再次跑批,实现初始解释模型的筛选。其中包括:
S41.基于初始解释模型获取上级业务指标对下级业务指标的解释率;
S42.将解释率与预设阈值相比较,若解释率大于或等于所述预设阈值,则将与解释率相对应的初始解释模型作为输出解释模型。在本实施方式中,每次拆分只关注解释率达到阈值的下级指标,如财富AUM变化拆分到渠道可能有很多渠道,只关注能解释每天变化80%(预设阈值)的渠道。此后再对下级指标拆分到更下级指标,如拆分到渠道上投放的产品
根据本发明的方案,步骤S5中,通过自然语言输出每天重点关注指标以及这些指标变化的解释,如财富AUM昨日上升3000万,这主要是由于渠道1上升5000万,而渠道2下降1800万这解释了变化的93%,同时输出对应于归因分析的解释。在本实施方式中,通过采用图片、文字、语音中的至少一种方式进行输出。在本实施方式中,以对用户活跃度拆分到新用户活跃或是留存活跃为例,通过自然语言输出每天重点关注指标以及这些指标变化的解释的过程中,自然语言生成数据解读和图文展示。如下所示:
[自营规模]昨日新增用户8635相比过去30日日均减少-931.406668517;这是因为:APP新增用户相比过去30日日均减少-428.129032258;yqyl4_xrhb_yqyl新增用户相比过去30日日均减少-304.0;H5_WangPan新增用户相比过去30日日均减少-132.193548387;解释了变化的92.7975512588%,参见图5。
[自营活跃]昨日日活用户数:13672相比过去30日日均增加5072.58064516;这是因为:新用户活跃相比过去30日日均增加3499.96774194而留存活跃相比过去30日日均增加1583.03225806,参见图6。
[自营转化]昨日自营财富购入用户987,相比过去30日日均增加409.733333333,自营权益购入用户0,相比过去30日日均减少-0.833333333333,自营信贷用信17,相比过去30日日均减少-2.4,参见图7。
本发明的数据智能分析方法中,业务知识图谱完全开放,可由业务自由配置知识图谱按照业务逻辑拆分指标;同时大数据部管理全行口径库,每日口径库指标跑批;每日指标变化根据业务梳理的知识图谱内容通过AI算法生成拆分SQL逻辑,这部分SQL再次跑批后根据重要度算法对每一级指标的下级指标进行达到一定解释率的指标拆分;并最终通过自然语言生成指标归因分析并用图文的方式展示;这样就形成了覆盖全行业务的指标层层归因,重要渠道产品展示的分析结果,确保每个指标都能得到解释并指导业务迭代。
根据本发明的另一方案是一种基于知识图谱的数据智能分析装置,数据智能分析装置包括:
指标库模块,用于梳理业务口径,储存并更新业务指标;
知识图谱模块,用于构建所述业务指标的知识图谱;
调度系统模块,根据知识图谱中业务指标之间的拆分逻辑,从指标库抽取相对应的SQL口径并进行组装构成初始解释模型,以及用于筛选初始解释模型,获取用于对下级业务指标进行归因分析的输出解释模型,并基于输出解释模型输出与输出解释模型相关的业务指标以及对业务指标变化的解释。
根据本发明的再一方案是一种分析设备,包括:处理器、存储介质和总线,存储介质存储有处理器可执行的机器可读指令,当分析设备运行时,处理器与存储介质之间通过总线通信,处理器执行机器可读指令,以执行前述的数据智能分析方法的步骤。
根据本发明的再一方案是一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行前述的数据智能分析方法的步骤。
上述内容仅为本发明的具体方案的例子,对于其中未详尽描述的设备和结构,应当理解为采取本领域已有的通用设备及通用方法来予以实施。
以上所述仅为本发明的一个方案而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于知识图谱的数据分析方法,包括:
S1.梳理业务口径,构建包含与所述业务口径相关的业务指标的指标库,其中,每个所述业务指标具有相对应的SQL口径;
S2.构建所述业务指标的知识图谱,其中,所述知识图谱中的业务指标拆分逻辑是MECE完备;
S3.根据所述知识图谱中所述业务指标之间的拆分逻辑,从所述指标库抽取相对应的SQL口径并进行组装构成初始解释模型;
S4.筛选所述初始解释模型,获取用于对下级所述业务指标进行归因分析的输出解释模型;
S5.基于所述输出解释模型输出与所述输出解释模型相关的业务指标以及对所述业务指标变化的解释。
2.根据权利要求1所述的基于知识图谱的数据分析方法,其特征在于,步骤S4中包括:
S41.基于所述初始解释模型获取上级所述业务指标对下级业务指标的解释率;
S42.将所述解释率与预设阈值相比较,若所述解释率大于或等于所述预设阈值,则将与所述解释率相对应的所述初始解释模型作为所述输出解释模型。
3.根据权利要求2所述的基于知识图谱的数据分析方法,其特征在于,以预设时间间隔对所述业务指标进行跑批,更新所述指标库。
4.根据权利要求3所述的基于知识图谱的数据分析方法,其特征在于,步骤S3中,从所述指标库抽取相对应的SQL口径并进行组装构成初始解释模型的步骤中,采用AI算法,基于训练模型对所述SQL口径进行组装。
5.根据权利要求4所述的基于知识图谱的数据分析方法,其特征在于,步骤S5中,基于所述输出解释模型输出与所述输出解释模型相关的业务指标以及对所述业务指标变化的解释的步骤中,采用图片、文字、语音中的至少一种方式进行输出。
6.一种基于知识图谱的数据分析装置,其特征在于,所述数据智能分析装置包括:
指标库模块,用于梳理业务口径,储存并更新业务指标;
知识图谱模块,用于构建所述业务指标的知识图谱;
调度系统模块,根据所述知识图谱中所述业务指标之间的拆分逻辑,从所述指标库抽取相对应的SQL口径并进行组装构成初始解释模型,以及用于筛选所述初始解释模型,获取用于对下级所述业务指标进行归因分析的输出解释模型,并基于所述输出解释模型输出与所述输出解释模型相关的业务指标以及对所述业务指标变化的解释。
7.一种分析设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当所述分析设备运行时,所述处理器与所述存储介质之间通过所述总线通信,所述处理器执行所述机器可读指令,以执行权利要求1至5任一项所述的数据智能分析方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行权利要求1至5任一项所述的数据智能分析方法的步骤。
CN201911404639.5A 2019-12-30 2019-12-30 基于知识图谱的数据分析方法及装置、设备、存储介质 Active CN111159429B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911404639.5A CN111159429B (zh) 2019-12-30 2019-12-30 基于知识图谱的数据分析方法及装置、设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911404639.5A CN111159429B (zh) 2019-12-30 2019-12-30 基于知识图谱的数据分析方法及装置、设备、存储介质

Publications (2)

Publication Number Publication Date
CN111159429A CN111159429A (zh) 2020-05-15
CN111159429B true CN111159429B (zh) 2023-05-05

Family

ID=70559662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911404639.5A Active CN111159429B (zh) 2019-12-30 2019-12-30 基于知识图谱的数据分析方法及装置、设备、存储介质

Country Status (1)

Country Link
CN (1) CN111159429B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434200A (zh) * 2020-11-30 2021-03-02 北京思特奇信息技术股份有限公司 一种数据展示方法、系统及电子设备
CN112465364B (zh) * 2020-12-03 2024-03-19 合肥天源迪科信息技术有限公司 一种用于指标库的管理系统
CN113779274B (zh) * 2021-09-18 2024-04-05 深圳平安医疗健康科技服务有限公司 指标模拟仿真方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776834A (zh) * 2016-11-28 2017-05-31 中通服公众信息产业股份有限公司 一种基于指标的数据分析自取数方法及系统
WO2018205739A1 (zh) * 2017-05-10 2018-11-15 京东方科技集团股份有限公司 中医药知识图谱及其建立方法以及计算机系统
CN108829638A (zh) * 2018-06-01 2018-11-16 阿里巴巴集团控股有限公司 一种业务数据波动处理方法及装置
CN109002516A (zh) * 2018-07-06 2018-12-14 国网电子商务有限公司 一种搜索方法及装置
CN110225095A (zh) * 2019-05-20 2019-09-10 中国银行股份有限公司 一种数据处理方法、装置及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776834A (zh) * 2016-11-28 2017-05-31 中通服公众信息产业股份有限公司 一种基于指标的数据分析自取数方法及系统
WO2018205739A1 (zh) * 2017-05-10 2018-11-15 京东方科技集团股份有限公司 中医药知识图谱及其建立方法以及计算机系统
CN108829638A (zh) * 2018-06-01 2018-11-16 阿里巴巴集团控股有限公司 一种业务数据波动处理方法及装置
CN109002516A (zh) * 2018-07-06 2018-12-14 国网电子商务有限公司 一种搜索方法及装置
CN110225095A (zh) * 2019-05-20 2019-09-10 中国银行股份有限公司 一种数据处理方法、装置及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Vincent Lully ; Philippe Laublet ; Milan Stankovic ; Filip Radulovic.Enhancing explanations in recommender systems with knowledge graphs. Procedia Computer Science.2018,第137卷 211-222. *
张桐胜 ; 赵蕾霞 ; 韩曾丽.基于知识图谱的国内外普惠金融研究热点和内容对比分析.智库时代.2018,276-280. *

Also Published As

Publication number Publication date
CN111159429A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN111159429B (zh) 基于知识图谱的数据分析方法及装置、设备、存储介质
CN111240662A (zh) 一种基于任务可视化拖拽的spark机器学习系统及学习方法
CN111506723B (zh) 问答响应方法、装置、设备及存储介质
Chen et al. A patent time series processing component for technology intelligence by trend identification functionality
US20180096055A1 (en) System to determine a credibility weighting for electronic records
CN109831488A (zh) 信息推荐方法及系统、可读存储介质
Ereshko et al. Digital platforms clustering model
CN104834730A (zh) 数据分析系统和方法
CN113506023A (zh) 工作行为数据分析方法、装置、设备及存储介质
CN113190795A (zh) 统计实际管理人口数据的方法、装置、介质及设备
Ally et al. Data warehouse and BI to catalize information use in health sector for decision making: A case study
US9141686B2 (en) Risk analysis using unstructured data
CN112529082A (zh) 一种系统画像构建方法、装置和设备
CN111443615A (zh) 一种用电设备控制系统、方法以及设备
CN114841165B (zh) 用户数据分析及展示方法、装置、电子设备及存储介质
CN110046150A (zh) 一种人力资源监控分析方法及系统
CN105630997A (zh) 一种数据并行处理方法、装置及设备
US9239867B2 (en) System and method for fast identification of variable roles during initial data exploration
US20140156339A1 (en) Operational risk and control analysis of an organization
CN114077976A (zh) 排班处理方法、装置、设备及存储介质
CN115617790A (zh) 数据仓库创建方法、电子设备及存储介质
CN109063073B (zh) 一种因果关系问题的分析系统和分析方法
CN113159528A (zh) 一种岗位匹配评估方法及装置
US11455274B2 (en) Method and system for analyzing data in a database
CN111753992A (zh) 筛选方法和筛选系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant