CN114547133B - 基于多维数据集的对话式归因分析方法、装置及设备 - Google Patents

基于多维数据集的对话式归因分析方法、装置及设备 Download PDF

Info

Publication number
CN114547133B
CN114547133B CN202210049059.4A CN202210049059A CN114547133B CN 114547133 B CN114547133 B CN 114547133B CN 202210049059 A CN202210049059 A CN 202210049059A CN 114547133 B CN114547133 B CN 114547133B
Authority
CN
China
Prior art keywords
dimension
dimensions
index
value
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210049059.4A
Other languages
English (en)
Other versions
CN114547133A (zh
Inventor
程鑫
张亚东
周成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yuannian Technology Co ltd
Original Assignee
Beijing Yuannian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yuannian Technology Co ltd filed Critical Beijing Yuannian Technology Co ltd
Priority to CN202210049059.4A priority Critical patent/CN114547133B/zh
Publication of CN114547133A publication Critical patent/CN114547133A/zh
Application granted granted Critical
Publication of CN114547133B publication Critical patent/CN114547133B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种基于多维数据集的对话式归因分析方法、装置、设备及计算机可读存储介质。该基于多维数据集的对话式归因分析方法,包括:解析原始问句,确定原始问句中的关键信息;基于关键信息,确定原始问句为归因分析类问句;基于关键信息,从底层数仓中筛选相关数据,得到数据表;获取数据表中其他维度的信息,得到数据集;遍历数据集的所有其他维度,分别计算每个维度的惊奇值;将惊奇值最高的维度,确定为原因存在维度。根据本申请实施例,能够提高数据归因分析的效率。

Description

基于多维数据集的对话式归因分析方法、装置及设备
技术领域
本申请属于数据归因分析领域,尤其涉及一种基于多维数据集的对话式归因分析方法、装置、设备及计算机可读存储介质。
背景技术
在多维数据分析的场景中,当分析对比不同时间下,数据的变化时(例如,5月相较于4月,手机收入下降的原因),需要从不同维度拆解数据定位造成该差异的原因。一般情况下,针对多维度数据的分析一般是依赖于人的固有经验、通过固定的数据处理工具(excel等)方式从数据集中推测出现问题的原因,通过对比不同维度数据在前后的变化得到结论,这种数据归因分析方式效率低下。
因此,如何提高数据归因分析的效率是本领域技术人员亟需解决的技术问题。
发明内容
本申请实施例提供一种基于多维数据集的对话式归因分析方法、装置、设备及计算机可读存储介质,能够提高数据归因分析的效率。
第一方面,本申请实施例提供一种基于多维数据集的对话式归因分析方法,包括:
解析原始问句,确定原始问句中的关键信息;
基于关键信息,确定原始问句为归因分析类问句;
基于关键信息,从底层数仓中筛选相关数据,得到数据表;
获取数据表中其他维度的信息,得到数据集;
遍历数据集的所有其他维度,分别计算每个维度的惊奇值;
将惊奇值最高的维度,确定为原因存在维度。
可选的,在将惊奇值最高的维度,确定为原因存在维度之后,方法还包括:
计算原因存在维度中每个维度成员的差异贡献度;
将差异贡献度低于阈值的维度成员剔除。
可选的,在遍历数据集的所有其他维度,分别计算每个维度的惊奇值之后,方法还包括:
根据各个惊奇值的高低,按照从高到低的顺序对所有维度进行排序,筛选出排名前三的维度;
计算排名前三的维度中每个维度成员的差异贡献度;
根据各个差异贡献度的大小,分别筛选出排名前三的维度中排名前三的差异贡献度。
可选的,方法还包括:
基于关键信息,确定当前分析视角下的当前指标;
根据预制的指标关系图谱,查询当前指标对应的关联指标。
可选的,方法还包括:
判断当前指标和关联指标是否出现相同方向的变化;
若当前指标和关联指标出现相同方向的变化,则确定当前指标和关联指标之间存在驱动关系。
可选的,方法还包括:
通过可视化卡片形式显示当前指标和关联指标之间存在驱动关系。
可选的,方法还包括:
对数据集中任意维度进行下钻,得到下钻后的数据集;
针对下钻后的数据集,返回循环执行流程。
第二方面,本申请实施例提供了一种基于多维数据集的对话式归因分析装置,包括:
问句解析模块,用于解析原始问句,确定原始问句中的关键信息;
问句归类模块,用于基于关键信息,确定原始问句为归因分析类问句;
数据筛选模块,用于基于关键信息,从底层数仓中筛选相关数据,得到数据表;
信息获取模块,用于获取数据表中其他维度的信息,得到数据集;
惊奇值计算模块,用于遍历数据集的所有其他维度,分别计算每个维度的惊奇值;
原因存在维度确定模块,用于将惊奇值最高的维度,确定为原因存在维度。
可选的,装置还包括:
差异贡献度计算模块,用于在将惊奇值最高的维度,确定为原因存在维度之后,计算原因存在维度中每个维度成员的差异贡献度;
维度成员剔除模块,用于将差异贡献度低于阈值的维度成员剔除。
可选的,装置还包括:
维度排序模块,用于在遍历数据集的所有其他维度,分别计算每个维度的惊奇值之后,根据各个惊奇值的高低,按照从高到低的顺序对所有维度进行排序,筛选出排名前三的维度;
差异贡献度计算模块,用于计算排名前三的维度中每个维度成员的差异贡献度;
差异贡献度筛选模块,用于根据各个差异贡献度的大小,分别筛选出排名前三的维度中排名前三的差异贡献度。
可选的,装置还包括:
当前指标确定模块,用于基于关键信息,确定当前分析视角下的当前指标;
关联指标查询模块,用于根据预制的指标关系图谱,查询当前指标对应的关联指标。
可选的,装置还包括:
相同方向变化判断模块,用于判断当前指标和关联指标是否出现相同方向的变化;
驱动关系确定模块,用于若当前指标和关联指标出现相同方向的变化,则确定当前指标和关联指标之间存在驱动关系。
可选的,装置还包括:
可视化显示模块,用于通过可视化卡片形式显示当前指标和关联指标之间存在驱动关系。
可选的,装置还包括:
维度下钻模块,用于对数据集中任意维度进行下钻,得到下钻后的数据集;
循环执行模块,用于针对下钻后的数据集,返回循环执行流程。
第三方面,本申请实施例提供了一种电子设备,电子设备包括:处理器以及存储有计算机程序指令的存储器;
处理器执行计算机程序指令时实现如第一方面所示的对话式归因分析方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如第一方面所示的基于多维数据集的对话式归因分析方法。
本申请实施例的基于多维数据集的对话式归因分析方法、装置、设备及计算机可读存储介质,能够提高数据归因分析的效率。
该基于多维数据集的对话式归因分析方法,包括:解析原始问句,确定原始问句中的关键信息;基于关键信息,确定原始问句为归因分析类问句;基于关键信息,从底层数仓中筛选相关数据,得到数据表;获取数据表中其他维度的信息,得到数据集;遍历数据集的所有其他维度,分别计算每个维度的惊奇值;将惊奇值最高的维度,确定为原因存在维度,能够提高数据归因分析的效率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的基于多维数据集的对话式归因分析方法的流程示意图;
图2是本申请一个实施例提供的对话式归因分析界面显示图;
图3是本申请一个实施例提供的指标之间的关联关系展示示意图;
图4是本申请一个实施例提供的基于多维数据集的对话式归因分析方法的流程示意图;
图5是本申请一个实施例提供的基于多维数据集的对话式归因分析装置的结构示意图;
图6是本申请一个实施例提供的电子设备的结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
在多维数据分析的场景中,当分析对比不同时间下,数据的变化时(例如,5月相较于4月,手机收入下降的原因),需要从不同维度拆解数据定位造成该差异的原因。一般情况下,针对多维度数据的分析一般是依赖于人的固有经验、通过固定的数据处理工具(excel等)方式从数据集中推测出现问题的原因,通过对比不同维度数据在前后的变化得到结论,这种数据归因分析方式效率低下。
为了解决现有技术问题,本申请实施例提供了一种基于多维数据集的对话式归因分析方法、装置、设备及计算机可读存储介质。下面首先对本申请实施例所提供的基于多维数据集的对话式归因分析方法进行介绍。
图1示出了本申请一个实施例提供的基于多维数据集的对话式归因分析方法的流程示意图。如图1所示,该基于多维数据集的对话式归因分析方法包括:
S101、解析原始问句,确定原始问句中的关键信息。
解析原始问句,可以通过自然语言(NLP)技术解析问句,确定问句中的关键信息。
例如,原始问句为:5月相较4月欧洲区运费上涨的原因。下文中的例子均基于该原始问句。
关键信息包括:基期:4月;当期:5月;指标:运费;维度:区域=欧洲区;方向:上涨;意图:归因分析。
S102、基于关键信息,确定原始问句为归因分析类问句。
S103、基于关键信息,从底层数仓中筛选相关数据,得到数据表。
根据S101中得到的关键信息,识别该问题为归因分析类问题。同时,依据S101中的关键信息,从底层数仓中筛选相关数据。
本例:期间「4-5月」,区域=欧洲的所有相关数据。
获取数据表中其他维度的信息。
本例中,其他维度包括:产品、区域、运输方式。
指标:运费。
下面表1为示例数据表。
表1
Figure BDA0003473119980000071
S104、获取数据表中其他维度的信息,得到数据集。
S105、遍历数据集的所有其他维度,分别计算每个维度的惊奇值。
S106、将惊奇值最高的维度,确定为原因存在维度。
在得到了要进行分析的数据集后,一般认为原因存在于维度之中。因此:
对于遍历数据的所有其他维度,一般认为异常存在维度成员占比发生变化的维度。
因此需要通过算法量化每个成员占比发生变化的维度。本方案使用熵算法计算每个维度的成员的惊奇值S。
Figure BDA0003473119980000081
pi=Fi/F,qi=Ai/A
i代表维度下的某个成员。F代表基期聚合值,A代表当期聚合值。本例中A=500万(欧洲区5月的运费),F=400万(欧洲区4月的运费)。
计算每个维度的惊奇值:
S=∑si
一般认为,原因存在于S值大的维度。
在一个实施例中,在将惊奇值最高的维度,确定为原因存在维度之后,方法还包括:
计算原因存在维度中每个维度成员的差异贡献度;
将差异贡献度低于阈值的维度成员剔除。
在一个实施例中,在遍历数据集的所有其他维度,分别计算每个维度的惊奇值之后,方法还包括:
根据各个惊奇值的高低,按照从高到低的顺序对所有维度进行排序,筛选出排名前三的维度;
计算排名前三的维度中每个维度成员的差异贡献度;
根据各个差异贡献度的大小,分别筛选出排名前三的维度中排名前三的差异贡献度。
具体地,计算每个维度成员的贡献度。
贡献度意为对差异做出贡献的程度,计算公式为:
Countri=(Ai-Fi)/(A-F)
本例中Ai=100万(5月欧洲区,空运方式的运费);
Fi=200万(4月欧洲区,空运方式的运费)。
当确定原因存在于哪个维度之后,需要定位不同成员对差异的贡献程度,一般认为,对差异贡献度高的是需要关注的原因。
在计算得到所有维度成员的countri(贡献度)后,将其和阈值(本系统中取1%)进行比较,剔除低于阈值(影响较小)的成员。
计算所有维度的countri(贡献度),对所有维度进行排序,取S最大的前三,在每个维度中取countri的前三。
图2是本申请一个实施例提供的对话式归因分析界面显示图,图2是针对1—5月运费归因分析,维度贡献前三的分别是区域维度、运输方式维度和产品维度,其中,各产品贡献度前三的分别是产品A、产品B和产品C。
在一个实施例中,方法还包括:
基于关键信息,确定当前分析视角下的当前指标;
根据预制的指标关系图谱,查询当前指标对应的关联指标。
在一个实施例中,方法还包括:
判断当前指标和关联指标是否出现相同方向的变化;
若当前指标和关联指标出现相同方向的变化,则确定当前指标和关联指标之间存在驱动关系。
具体地,对当前指标进行关联分析(例如,分析和运费相关的指标,找出指标的关联关系)。
查询在当前分析视角下的关联指标。
本例中,分析视角为:欧洲区运费。
在分析欧洲区运费时,需要同时分析和运费相关的其他关联指标。
运费=运输量*运输费率。
根据指标关系图谱查询关联指标。通过构建指标关系图谱的方式,可以确定在分析视角后找到关联指标的关系。本方案中,指标图谱的构建是预制的。
根据指标之间的关联关系,计算是否存在驱动关系。
当核心指标上涨时,核心指标和关联指标同时出现了相同方向的变化(同涨同跌),认为驱动关系成立。
本例中:如果运费和运输量在4-5月发生了上升。
同时由关系图谱可知,运输量和运费存在正相关关系,则可判断,运输量上升导致了运输费用的提高。
图3是本申请一个实施例提供的指标之间的关联关系展示示意图,图3显示了运费和运输量之间的关联关系。
在一个实施例中,方法还包括:通过可视化卡片形式显示当前指标和关联指标之间存在驱动关系。此外,还可以上文所有步骤中得到的结果均通过可视化卡片形式显示。
在一个实施例中,方法还包括:对数据集中任意维度进行下钻,得到下钻后的数据集;针对下钻后的数据集,返回循环执行流程。
下面通过图4对上述所举例子进行系统说明,如图4所示,针对欧洲区运费同比上升的原因,依次进行以下步骤:
S01:自然语言解析;S02:数据组装;S03:读取metadata信息;S04:维度分析;S05:指标分析;S06:分析结果可视化。
此外,还可以对数据集中任意维度进行下钻的情况下,针对欧洲区、空运、运费同比上升的原因,返回循环执行S02。
图5示出了本申请实施例提供的基于多维数据集的对话式归因分析装置的结构示意图。如图5所示,该基于多维数据集的对话式归因分析装置,包括:
问句解析模块501,用于解析原始问句,确定原始问句中的关键信息;
问句归类模块502,用于基于关键信息,确定原始问句为归因分析类问句;
数据筛选模块503,用于基于关键信息,从底层数仓中筛选相关数据,得到数据表;
信息获取模块504,用于获取数据表中其他维度的信息,得到数据集;
惊奇值计算模块505,用于遍历数据集的所有其他维度,分别计算每个维度的惊奇值;
原因存在维度确定模块506,用于将惊奇值最高的维度,确定为原因存在维度。
在一个实施例中,装置还包括:
差异贡献度计算模块,用于在将惊奇值最高的维度,确定为原因存在维度之后,计算原因存在维度中每个维度成员的差异贡献度;
维度成员剔除模块,用于将差异贡献度低于阈值的维度成员剔除。
在一个实施例中,装置还包括:
维度排序模块,用于在遍历数据集的所有其他维度,分别计算每个维度的惊奇值之后,根据各个惊奇值的高低,按照从高到低的顺序对所有维度进行排序,筛选出排名前三的维度;
差异贡献度计算模块,用于计算排名前三的维度中每个维度成员的差异贡献度;
差异贡献度筛选模块,用于根据各个差异贡献度的大小,分别筛选出排名前三的维度中排名前三的差异贡献度。
在一个实施例中,装置还包括:
当前指标确定模块,用于基于关键信息,确定当前分析视角下的当前指标;
关联指标查询模块,用于根据预制的指标关系图谱,查询当前指标对应的关联指标。
在一个实施例中,装置还包括:
相同方向变化判断模块,用于判断当前指标和关联指标是否出现相同方向的变化;
驱动关系确定模块,用于若当前指标和关联指标出现相同方向的变化,则确定当前指标和关联指标之间存在驱动关系。
在一个实施例中,装置还包括:
可视化显示模块,用于通过可视化卡片形式显示当前指标和关联指标之间存在驱动关系。
在一个实施例中,装置还包括:
维度下钻模块,用于对数据集中任意维度进行下钻,得到下钻后的数据集;
循环执行模块,用于针对下钻后的数据集,返回循环执行流程。
图5所示装置中的各个模块/单元具有实现图1中各个步骤的功能,并能达到其相应的技术效果,为简洁描述,在此不再赘述。
图6示出了本申请实施例提供的电子设备的结构示意图。
电子设备可以包括处理器601以及存储有计算机程序指令的存储器602。
具体地,上述处理器601可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器602可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器602可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器602可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器602可在电子设备的内部或外部。在特定实施例中,存储器602可以是非易失性固态存储器。
在一个实施例中,存储器602可以是只读存储器(Read Only Memory,ROM)。在一个实施例中,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器601通过读取并执行存储器602中存储的计算机程序指令,以实现上述实施例中的任意一种基于多维数据集的对话式归因分析方法。
在一个示例中,电子设备还可包括通信接口603和总线610。其中,如图6所示,处理器601、存储器602、通信接口603通过总线610连接并完成相互间的通信。
通信接口603,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线610包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线610可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
另外,结合上述实施例中的基于多维数据集的对话式归因分析方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种基于多维数据集的对话式归因分析方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能模块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本申请的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。

Claims (4)

1.一种基于多维数据集的对话式归因分析方法,其特征在于,包括:
解析原始问句,确定所述原始问句中的关键信息;
基于所述关键信息,确定所述原始问句为归因分析类问句;
基于所述关键信息,从底层数仓中筛选相关数据,得到数据表;
获取所述数据表中其他维度的信息,得到数据集;
遍历所述数据集的所有其他维度,分别计算每个维度的惊奇值;
将所述惊奇值最高的维度,确定为原因存在维度;
在所述将所述惊奇值最高的维度,确定为原因存在维度之后,所述方法还包括:
计算所述原因存在维度中每个维度成员的差异贡献度;
将所述差异贡献度低于阈值的维度成员剔除;
在所述遍历所述数据集的所有其他维度,分别计算每个维度的惊奇值之后,所述方法还包括:
根据各个所述惊奇值的高低,按照从高到低的顺序对所有维度进行排序,筛选出排名前三的维度;
计算排名前三的维度中每个维度成员的差异贡献度;
根据各个所述差异贡献度的大小,分别筛选出排名前三的维度中排名前三的差异贡献度;
所述方法还包括:
基于所述关键信息,确定当前分析视角下的当前指标;
根据预制的指标关系图谱,查询所述当前指标对应的关联指标;
解析原始问句,通过自然语言(NLP)技术解析问句,确定问句中的关键信息;
对于遍历数据的所有其他维度,异常存在维度成员占比发生变化的维度;因此需要通过算法量化每个成员占比发生变化的维度;本方案使用熵算法计算每个维度的成员的惊奇值S:
Figure FDA0004003453230000021
pi=Fi/F,qi=Ai/A
i代表维度下的某个成员;F代表基期聚合值,A代表当期聚合值;
计算每个维度的惊奇值:
S=∑si
原因存在于S值大的维度;
所述方法还包括:
判断所述当前指标和所述关联指标是否出现相同方向的变化;
若所述当前指标和所述关联指标出现相同方向的变化,则确定所述当前指标和所述关联指标之间存在驱动关系;
所述方法还包括:
通过可视化卡片形式显示所述当前指标和所述关联指标之间存在驱动关系;
所述方法还包括:
对所述数据集中任意维度进行下钻,得到下钻后的数据集;
针对所述下钻后的数据集,返回循环执行流程。
2.一种基于多维数据集的对话式归因分析装置,其特征在于,包括:
问句解析模块,用于解析原始问句,确定所述原始问句中的关键信息;
问句归类模块,用于基于所述关键信息,确定所述原始问句为归因分析类问句;
数据筛选模块,用于基于所述关键信息,从底层数仓中筛选相关数据,得到数据表;
信息获取模块,用于获取所述数据表中其他维度的信息,得到数据集;
惊奇值计算模块,用于遍历所述数据集的所有其他维度,分别计算每个维度的惊奇值;
原因存在维度确定模块,用于将所述惊奇值最高的维度,确定为原因存在维度;
差异贡献度计算模块,用于在将惊奇值最高的维度,确定为原因存在维度之后,计算原因存在维度中每个维度成员的差异贡献度;
维度成员剔除模块,用于将差异贡献度低于阈值的维度成员剔除;
维度排序模块,用于在遍历数据集的所有其他维度,分别计算每个维度的惊奇值之后,根据各个惊奇值的高低,按照从高到低的顺序对所有维度进行排序,筛选出排名前三的维度;
差异贡献度计算模块,用于计算排名前三的维度中每个维度成员的差异贡献度;
差异贡献度筛选模块,用于根据各个差异贡献度的大小,分别筛选出排名前三的维度中排名前三的差异贡献度;
当前指标确定模块,用于基于关键信息,确定当前分析视角下的当前指标;
关联指标查询模块,用于根据预制的指标关系图谱,查询当前指标对应的关联指标;
解析原始问句,通过自然语言(NLP)技术解析问句,确定问句中的关键信息;
对于遍历数据的所有其他维度,异常存在维度成员占比发生变化的维度;因此需要通过算法量化每个成员占比发生变化的维度;本方案使用熵算法计算每个维度的成员的惊奇值S:
Figure FDA0004003453230000041
pi=Fi/F,qi=Ai/A
i代表维度下的某个成员;F代表基期聚合值,A代表当期聚合值;
计算每个维度的惊奇值:
S=∑si
原因存在于S值大的维度;
所述装置还用于:
判断所述当前指标和所述关联指标是否出现相同方向的变化;
若所述当前指标和所述关联指标出现相同方向的变化,则确定所述当前指标和所述关联指标之间存在驱动关系;
所述装置还用于:
通过可视化卡片形式显示所述当前指标和所述关联指标之间存在驱动关系;
所述装置还用于:
对所述数据集中任意维度进行下钻,得到下钻后的数据集;
针对所述下钻后的数据集,返回循环执行流程。
3.一种电子设备,其特征在于,所述电子设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1所述的基于多维数据集的对话式归因分析方法。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1所述的基于多维数据集的对话式归因分析方法。
CN202210049059.4A 2022-01-17 2022-01-17 基于多维数据集的对话式归因分析方法、装置及设备 Active CN114547133B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210049059.4A CN114547133B (zh) 2022-01-17 2022-01-17 基于多维数据集的对话式归因分析方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210049059.4A CN114547133B (zh) 2022-01-17 2022-01-17 基于多维数据集的对话式归因分析方法、装置及设备

Publications (2)

Publication Number Publication Date
CN114547133A CN114547133A (zh) 2022-05-27
CN114547133B true CN114547133B (zh) 2023-03-28

Family

ID=81671572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210049059.4A Active CN114547133B (zh) 2022-01-17 2022-01-17 基于多维数据集的对话式归因分析方法、装置及设备

Country Status (1)

Country Link
CN (1) CN114547133B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111901171A (zh) * 2020-07-29 2020-11-06 腾讯科技(深圳)有限公司 异常检测和归因方法、装置、设备及计算机可读存储介质
CN112733897A (zh) * 2020-12-30 2021-04-30 胜斗士(上海)科技技术发展有限公司 确定多维样本数据的异常原因的方法和设备
CN113312578A (zh) * 2021-06-11 2021-08-27 北京百度网讯科技有限公司 一种数据指标的波动归因方法、装置、设备、及介质
CN113327136A (zh) * 2021-06-23 2021-08-31 中国平安财产保险股份有限公司 归因分析方法、装置、电子设备及存储介质
CN113434575A (zh) * 2021-06-30 2021-09-24 平安普惠企业管理有限公司 基于数据仓库的数据归因处理方法、装置及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026570B (zh) * 2019-11-01 2022-05-31 支付宝(杭州)信息技术有限公司 用于确定业务系统异常原因的方法和装置
CN111078521A (zh) * 2019-12-18 2020-04-28 北京三快在线科技有限公司 异常事件的分析方法、装置、设备、系统及存储介质
CN117827593A (zh) * 2020-06-08 2024-04-05 支付宝(杭州)信息技术有限公司 一种基于异常识别结果确定异常原因的方法和系统
CN113537685B (zh) * 2020-10-10 2024-08-06 腾讯科技(深圳)有限公司 一种数据处理方法和装置
CN112702198B (zh) * 2020-12-18 2023-03-14 北京达佳互联信息技术有限公司 异常根因定位方法、装置、电子设备及存储介质
CN113361954A (zh) * 2021-06-29 2021-09-07 平安普惠企业管理有限公司 归因分析方法、装置、设备及存储介质
CN113569944B (zh) * 2021-07-26 2024-06-04 北京奇艺世纪科技有限公司 一种异常用户识别方法、装置、电子设备及存储介质
CN113687972B (zh) * 2021-08-30 2023-07-25 中国平安人寿保险股份有限公司 业务系统异常数据的处理方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111901171A (zh) * 2020-07-29 2020-11-06 腾讯科技(深圳)有限公司 异常检测和归因方法、装置、设备及计算机可读存储介质
CN112733897A (zh) * 2020-12-30 2021-04-30 胜斗士(上海)科技技术发展有限公司 确定多维样本数据的异常原因的方法和设备
CN113312578A (zh) * 2021-06-11 2021-08-27 北京百度网讯科技有限公司 一种数据指标的波动归因方法、装置、设备、及介质
CN113327136A (zh) * 2021-06-23 2021-08-31 中国平安财产保险股份有限公司 归因分析方法、装置、电子设备及存储介质
CN113434575A (zh) * 2021-06-30 2021-09-24 平安普惠企业管理有限公司 基于数据仓库的数据归因处理方法、装置及存储介质

Also Published As

Publication number Publication date
CN114547133A (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN110928992B (zh) 文本搜索方法、装置、服务器及存储介质
CN113626812B (zh) 基于结构特征筛选及负载扩展的机器学习木马检测方法
CN111061842A (zh) 一种相似文本确定方法及装置
CN111753516B (zh) 文本查重处理方法、装置、计算机设备及计算机存储介质
CN111291824A (zh) 时间序列的处理方法、装置、电子设备和计算机可读介质
CN103559330B (zh) 数据一致性检测方法及系统
CN110766160A (zh) 一种数据校验方法、装置、存储介质及电子设备
CN116150125A (zh) 结构化数据生成模型的训练方法、装置、设备及存储介质
CN114547133B (zh) 基于多维数据集的对话式归因分析方法、装置及设备
CN108377508B (zh) 基于测量报告数据的用户感知分类方法和装置
CN115082135B (zh) 一种在网时长差异识别方法、装置、设备及介质
CN114547380B (zh) 数据遍历查询方法、装置、电子设备及可读存储介质
CN114066619B (zh) 担保圈风险确定方法、装置、电子设备和存储介质
CN114417830A (zh) 风险评价方法、装置、设备及计算机可读存储介质
CN115238094A (zh) 基于知识图谱的指标数据分析方法、装置、设备及介质
CN116932537A (zh) 车辆信息的查询方法、装置、设备、存储介质及车辆
CN111461118B (zh) 兴趣特征确定方法、装置、设备及存储介质
CN114092219A (zh) 模型验证方法、装置、电子设备和存储介质
CN114418629A (zh) 一种用户流失预测方法、装置、电子设备及可读存储介质
JP5757295B2 (ja) データベース自動作成装置、無線局識別装置、電波監視装置、データベース自動作成方法及びデータベース自動作成プログラム
CN112115720A (zh) 一种实体间关联关系的确定方法、装置、终端设备及介质
CN115359330A (zh) 一种数据处理方法、装置、设备及存储介质
CN116910340A (zh) 数据处理方法、装置、设备、介质及产品
CN115828174A (zh) 模型构建方法、装置、设备、介质和产品
CN117220915A (zh) 流量分析方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant