CN112860784B - 血缘分析方法、装置、电子设备及计算机可读存储介质 - Google Patents

血缘分析方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN112860784B
CN112860784B CN202110336649.0A CN202110336649A CN112860784B CN 112860784 B CN112860784 B CN 112860784B CN 202110336649 A CN202110336649 A CN 202110336649A CN 112860784 B CN112860784 B CN 112860784B
Authority
CN
China
Prior art keywords
dimension
indexes
analysis
blood
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110336649.0A
Other languages
English (en)
Other versions
CN112860784A (zh
Inventor
张兴思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Citic Bank Corp Ltd
Original Assignee
China Citic Bank Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Citic Bank Corp Ltd filed Critical China Citic Bank Corp Ltd
Priority to CN202110336649.0A priority Critical patent/CN112860784B/zh
Publication of CN112860784A publication Critical patent/CN112860784A/zh
Application granted granted Critical
Publication of CN112860784B publication Critical patent/CN112860784B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本申请涉及网上交易技术领域,尤其涉及一种血缘分析方法、装置、电子设备及计算机可读存储介质。该血缘分析方法包括:对多个指标的名称进行语义相似度分析,确定多个指标的名称相似度;对多个指标进行维度分析,确定多个指标的维度相似度;基于所述多个指标的名称、名称相似度、维度、维度相似度以及确定的度量相关性构建所述多个指标的血缘分析视图,以使得根据构建的所述血缘分析视图进行针对所述多个指标中任一指标的血缘分析。本申请中,通过对指标数据的多维解读分析,实现了对指标的血缘分析,克服了现有技术中进行血缘分析的缺陷,提高了分析的精准度,提升异常分析的及时性。

Description

血缘分析方法、装置、电子设备及计算机可读存储介质
技术领域
本申请涉及网上交易技术领域,尤其涉及一种血缘分析方法、装置、电子设备及计算机可读存储介质。
背景技术
现有技术中,在进行血缘分析时,有几种常规分析方式,如直接读取元数据库及通过SQL解析提取加工规则和表间映射关系等方式,对于上述两种方式,原理上全部依赖于技术元数据,如此处理应用范围窄、开发成本高,具有如下几个缺陷:
开发复杂度极高:传统的分析模式依赖于底层元数据的完善度和脚本的标准度。现实中指标的加工经过复杂的数据链条,且数据源基本都是异构的。异构数据库的SQL语句会有差别,故SQL解析引擎开发的工作量极高,需要针对不同的计算引擎单独开发。
精细度不足:血缘关系分析时只能分析到表级和字段级影响,无法做到记录集的血缘分析。譬如APP端交易量和PC端交易量两个指标,两个指标都是通过同表同字段加工而成,传统的字段级分析方法无法再做精细化分析。
应用面固化:传统的血缘分析方案因为是基于技术元数据的分析,所以使用人员和表现形式通常仅对于技术人员使用,应用领域也局限于数据管控领域,无法上升到业务层,与业务分析出现严重断层。
影响分析滞后:通常是上游系统告知数据问题,下游系统再通过血缘分析判断指标的影响范围,反向分析无法支持。因为传统方法无法通过反向分析完成问题定位,固无法在第一时间评估被影响范围。
因此,基于上述阐述,亟需一种血缘分析方法来克服现有血缘分析方法所带来的缺陷问题。
发明内容
本申请提供了一种血缘分析方法、装置、电子设备及计算机可读存储介质,以克服现有技术中进行血缘分析方法的应用范围窄、开发成本高的缺陷。
第一方面,提供了一种血缘分析方法,包括:
对多个指标的名称进行语义相似度分析,确定所述多个指标的名称相似度;
对所述多个指标进行维度分析,确定所述多个指标的维度相似度;
基于所述多个指标的名称、名称相似度、维度、维度相似度以及度量相关性构建所述多个指标的血缘分析视图,以使得根据构建的所述血缘分析视图进行针对所述多个指标中任一指标的血缘分析。
在一个可能地实现方式中,所述对多个指标的名称进行语义分析,确定所述多个指标的名称相似度,包括:
根据所述多个指标中任一指标的名称进行语义分析,得到所述任一指标的语义特征向量;
根据任意两个语义特征向量计算其对应夹角的余弦值;
根据所述余弦值确定所述任一指标的名称相似度。
在一个可能地实现方式中,所述对所述多个指标进行维度分析,确定所述多个指标的维度相似度,包括:
基于所述多个指标中任一指标的名称及维度构建维度宽表;
对所述维度宽表中的数据进行维度拼接,得到维度拼接文档;
基于预设的开发词袋模型对所述维度拼接文档进行处理,得到分词向量;
根据所述分词向量进行相似度计算,得到任一指标对应的维度相似度。
在一个可能地实现方式中,所述对所述多个指标进行维度分析,确定所述多个指标的维度相似度,包括:
基于所述多个指标中任一指标的名称及维度构建维度宽表;
根据预设的默认值对所述维度宽表中的空值进行填充处理;
对所述维度宽表中填充于空值位置的默认值及非空值进行编码,生成对应的文本向量;
基于欧氏距离计算方法对所述文本向量以及维度数量进行计算,得到任一指标对应的维度相似度。
在一个可能地实现方式中,所述基于所述多个指标的名称、名称相似度、维度、维度相似度以及度量相关性构建所述多个指标的血缘分析视图,根据构建的所述血缘分析视图进行针对所述多个指标中任一指标的血缘分析,还包括:
根据所述名称相似度、维度相似度以及度量相关性确定所述维度相似度的权重占比;
根据所述维度相似度的权重占比以及维度相似度确定边的权重;
在所述多个指标中任选一个指标和一个维度,根据确定的边的权重,构建所述血缘分析视图中的边;
根据所述血缘分析视图中的任意两个点与构建的边进行连接,得到所述多个指标对应的血缘分析视图。
第二方面,提供了一种血缘分析装置,包括:
分析模块,用于对多个指标的名称进行语义相似度分析,确定所述多个指标的名称相似度;用于对所述多个指标进行维度分析,确定所述多个指标的维度相似度;
处理模块,用于基于所述多个指标的名称、名称相似度、维度、维度相似度以及度量相关性构建所述多个指标的血缘分析视图,以使得根据构建的所述血缘分析视图进行针对所述多个指标中任一指标的血缘分析。
在一个可能地实现方式中,所述分析模块,用于根据所述多个指标中任一指标的名称进行语义分析,得到所述任一指标的语义特征向量;根据任意两个语义特征向量计算其对应夹角的余弦值;根据所述余弦值确定所述任一指标的名称相似度。
在一个可能地实现方式中,所述分析模块,用于基于所述多个指标中任一指标的名称及维度构建维度宽表;对所述维度宽表中的数据进行维度拼接,得到维度拼接文档;基于预设的开发词袋模型对所述维度拼接文档进行处理,得到分词向量;根据所述分词向量进行相似度计算,得到任一指标对应的维度相似度。
在一个可能地实现方式中,所述分析模块,还用于基于所述多个指标中任一指标的名称及维度构建维度宽表;根据预设的默认值对所述维度宽表中的空值进行填充处理;对所述维度宽表中填充于空值位置的默认值及非空值进行编码,生成对应的文本向量;基于欧氏距离计算方法对所述文本向量以及维度数量进行计算,得到任一指标对应的维度相似度。
在一个可能地实现方式中,所述处理模块,用于选择所述多个指标的各维度以及各指标的名称作为所述血缘分析视图中的各点;根据所述多个指标的名称、维度以及度量相关性计算所述多个指标的相关性系数;在所述多个指标中任选两个指标,根据选择的两个指标对应的相关性系数作为边的权重,构建所述血缘分析视图中的边;根据所述血缘分析视图中的任意两个点与构建的边进行连接,得到所述多个指标对应的血缘分析视图。
在一个可能地实现方式中,所述处理模块,还用于根据所述名称相似度、维度相似度以及度量相关性确定所述维度相似度的权重占比;根据所述维度相似度的权重占比以及维度相似度确定边的权重;在所述多个指标中任选一个指标和一个维度,根据确定的边的权重,构建所述血缘分析视图中的边;根据所述血缘分析视图中的任意两个点与构建的边进行连接,得到所述多个指标对应的血缘分析视图。
第三方面,提供了一种电子设备,包括:处理器和存储器;
所述存储器,用于存储计算机程序;
所述处理器,用于通过调用所述计算机程序,执行上述的血缘分析方法。
第四方面,提供了一种计算机可读存储介质,所述计算机存储介质用于存储计算机程序,当其在计算机上运行时,使得计算机可以执行上述的血缘分析方法。
借由上述技术方案,本申请提供的技术方案至少具有下列优点:
本申请中,通过对指标数据的多维解读分析,实现了对指标的血缘分析,克服了现有技术中进行血缘分析的缺陷,提高了分析的精准度,提升异常分析的及时性。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请提供的血缘分析方法的流程示意图;
图2为本申请提供的血缘分析方法的一种可能实现方式的具体处理流程示意图;
图3为本申请提供的血缘分析装置的结构示意图;
图4为本申请提供的血缘分析方法的电子设备的结构示意图。
具体实施方式
本申请提出一种血缘分析方法、装置、电子设备及计算机可读存储介质,下面结合附图,对本申请具体实施方式进行详细说明。
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件框架,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件框架和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
如图1所示,为本申请提供的血缘分析方法的流程示意图,该方法包括如下步骤:
步骤S101,对多个指标的名称进行语义相似度分析,确定所述多个指标的名称相似度;
步骤S102,对所述多个指标进行维度分析,确定所述多个指标的维度相似度;
步骤S103,基于所述多个指标的名称、名称相似度、维度、维度相似度以及度量相关性构建所述多个指标的血缘分析视图,以使得根据构建的所述血缘分析视图进行针对所述多个指标中任一指标的血缘分析。
本申请中,通过对指标数据的多维解读分析,实现了对指标的血缘分析,克服了现有技术中进行血缘分析的缺陷,提高了分析的精准度,提升异常分析的及时性。
基于上述本申请所提供的技术方案,下面对该技术方案进行详尽阐释,如图2所示,为本申请提供的血缘分析方法的一个可能地实现方式的具体处理流程图。
对于本申请,在一个可能地实现方式中,前述步骤S101的处理具体包括下述步骤S201~步骤S202的处理。
步骤S201,对指标的指标名称进行语义分析。
在一个可能地实现方式中,对于待处理的多个指标而言,选取任一指标,通过对该指标进行解析,得到指标的名称,对该名称进行语义分析,得到其对应的语义特征向量,根据语义特征向量构建对应的矩阵。
步骤S202,根据语义分析结果得到名称相似度。
在一个可能地实现方式中,对于得到的矩阵,基于向量空间计算,采用如余弦系数法、Jaccard系数法或Dice系数法等衡量相似度,即从矩阵中任取两个语义特征向量,计算对应夹角的余弦值,根据得到的余弦值最后得到指标名称相似度;基于上述处理,可以得到所有指标的名称相似度。
对于本申请,在一个可能地实现方式中,前述步骤S102的处理具体包括下述步骤S203的处理。
步骤S203,确定指标的维度相似度。
在一个可能地实现方式中,对于所有指标而言,首先构建对应的维度宽表,在维度宽表中包括有所有指标的各维度及对应的数据;其中,维度可以包括很多,在一具体实施例中,如指标的名称、核心产品、科目、客户标示、期限、业务条线、阶段划分标示、账户状态、账户类型和渠道标示。
在构建维度宽表后,对维度宽表中的数据进行维度拼接,得到维度拼接文档;其中,在进行维度拼接时,仅是对各指标中对应的维度数据的拼接,如指标1对应的维度数据包括核心产品401,科目24801,业务条线1及渠道标示1,其他维度均为空值,则进行维度数据的拼接后,得到的维度拼接文档为指标1:核心产品=401,科目=24801,,,业务条线=1,,,,渠道标示=1,如指标2对应的维度数据包括科目27310,其他维度均为空值,则进行维度数据的拼接后,得到的维度拼接文档为指标2:,科目=27310,,,,,,,,。
对于得到的维度拼接文档,基于预设的开发词袋模型进行处理,得到对应的分词向量,该开发词袋模型可以才用如Bag-of-word模型;之后采用相似度计算方法对分词向量进行计算,得到指标对应的维度相似度,该相似度计算方法可以为Jaccard方法。对于上述的任一指标,均采用上述方式进行维度相似度计算处理。
在一个可能地实现方式中,上述的维度相似度计算方式仅是为了说明本申请实施例所提供的一种方式,还可以采用其他的相似度计算方式进行维度相似度计算,具体包括:
在一个可能地实现方式中,对于所有指标而言,首先,依然是构建对应的维度宽表,在维度宽表中包括有所有指标的各维度及对应的数据;其中,维度可以包括很多,在一具体实施例中,如指标的名称、核心产品、科目、客户标示、期限、业务条线、阶段划分标示、账户状态、账户类型和渠道标示。
对于构建好的维度宽表,利用预设的默认值(如999)对其中的空值进行填充,使得维度宽表中的每个维度中均匀对应的数据;之后对所有数据进行预处理,因为变量全部为离散变量,枚举范围可控,故可以采取ONE-HOT进行编码处理,得到对应的文本向量;之后基于欧氏距离计算方法对所述文本向量以及维度数量进行计算,得到任一指标对应的维度相似度。该欧氏距离计算方法为:
欧式距离2=2*n*(1-R)
其中,R代表相关性,n代表维度数量,得到:
由于对MISSING(空值)数据做过特殊处理,会导致相关性系数变高,故需要调整相关性系数,或者调整维度相似度在整体指标相似度中的权重比;为增加图的可解读性和易读性,还可以删除维度值=999的点。
对于本申请,在一个可能地实现方式中,还包括:
步骤S204,确定指标的度量相关性。
在一个可能地实现方式中,对于前述的多个指标,获取他们各自对应的样本数据,可以取近半年的样本数据为例,根据样本数据调用相关系数(corr())方法进行相关性度量,得到多个指标的相关性矩阵,之后通过一段期间指标的数值表现,挖掘指标间的密切程度,从而确定所述多个指标的度量相关性。
对于本申请,在一个可能地实现方式中,前述步骤S103的处理具体包括下述步骤S205的处理。
步骤S205,构建血缘分析视图。
在一个可能地实现方式中,在得到上述的度量相关性及其对应的各指标的权重后,进行血缘分析视图的构建。对于该视图的构建,可以包括两种方式,二者共同构建出血缘分析视图,下面分别进行阐述。
第一种血缘分析视图的构建方式为:选择所述多个指标的各维度以及各指标的名称作为所述血缘分析视图中的各点;根据所述多个指标的名称、维度以及度量相关性计算所述多个指标的相关性系数;在所述多个指标中任选两个指标,根据选择的两个指标对应的相关性系数作为边的权重,构建所述血缘分析视图中的边;根据所述血缘分析视图中的任意两个点与构建的边进行连接,得到所述多个指标对应的血缘分析视图。
在一个具体实施方式中,假设有10个指标,各指标对应的维度有10个,任意选取一个维度如核心产品,则将这10个指标的核心产品维度均作为血缘分析视图的点;之后在这10个指标中任选两个指标,指标1和指标2,根据指标1和指标2对应的相关性系数构建血缘分析视图的边;之后将指标1和指标2对应的边与对应的两个点进行连接;基于上述相同的处理,将上述10个指标均采用上述方式进行处理,从而得到针对核心产品维度的血缘分析视图;之后,对于指标中的其他维度,采用上述相同的方式,得到针对各维度的血缘分析视图。
第二种血缘分析视图的构建方式为:根据所述名称相似度、维度相似度以及度量相关性确定所述维度相似度的权重占比;根据所述维度相似度的权重占比以及维度相似度确定边的权重;在所述多个指标中任选一个指标和一个维度,根据确定的边的权重,构建所述血缘分析视图中的边;根据所述血缘分析视图中的任意两个点与构建的边进行连接,得到所述多个指标对应的血缘分析视图。
在一个具体实施方式中,假设有10个指标,各指标对应的维度有10个,每个维度均均作为血缘分析视图的一个点;找到表示指标名称维度的点,将该表示指标名称维度的点与所有指标中对应其他各维度的点均进行两点连接;即将指标1的指标1点分别与指标2对应的核心产品点等共9个点连接(不与指标2的指标2点连接),与指标3到指标10采用同样的连接方式;对于指标2到指标10,也采用指标1与指标2到指标10相同的连接方式,进行点的连接。最终得到上述10个指标对应的血缘分析视图。对于上述视图,在做业务深度分析时,可勾选不同的边类型,当边类型为2时,可以看到两指标关联的条件,从而增强可解释性。
本申请中,通过对指标数据的多维解读分析,实现了对指标的血缘分析,克服了现有技术中进行血缘分析的缺陷,提高了分析的精准度,提升异常分析的及时性。
基于上述本申请所提供的血缘分析方法的技术方案,本申请对应提供了一种血缘分析装置的结构示意图,如图3所示,该装置30可以包括:
分析模块31,用于对多个指标的名称进行语义相似度分析,确定所述多个指标的名称相似度;用于对所述多个指标进行维度分析,确定所述多个指标的维度相似度;
处理模块32,用于基于所述多个指标的名称、名称相似度、维度、维度相似度以及度量相关性构建所述多个指标的血缘分析视图,以使得根据构建的所述血缘分析视图进行针对所述多个指标中任一指标的血缘分析。
在一个可能地实现方式中,所述分析模块31,用于根据所述多个指标中任一指标的名称进行语义分析,得到所述任一指标的语义特征向量;根据任意两个语义特征向量计算其对应夹角的余弦值;根据所述余弦值确定所述任一指标的名称相似度。
在一个可能地实现方式中,所述分析模块31,用于基于所述多个指标中任一指标的名称及维度构建维度宽表;对所述维度宽表中的数据进行维度拼接,得到维度拼接文档;基于预设的开发词袋模型对所述维度拼接文档进行处理,得到分词向量;根据所述分词向量进行相似度计算,得到任一指标对应的维度相似度。
在一个可能地实现方式中,所述分析模块31,还用于基于所述多个指标中任一指标的名称及维度构建维度宽表;根据预设的默认值对所述维度宽表中的空值进行填充处理;对所述维度宽表中填充于空值位置的默认值及非空值进行编码,生成对应的文本向量;基于欧氏距离计算方法对所述文本向量以及维度数量进行计算,得到任一指标对应的维度相似度。
在一个可能地实现方式中,所述处理模块32,用于选择所述多个指标的各维度以及各指标的名称作为所述血缘分析视图中的各点;根据所述多个指标的名称、维度以及度量相关性计算所述多个指标的相关性系数;在所述多个指标中任选两个指标,根据选择的两个指标对应的相关性系数作为边的权重,构建所述血缘分析视图中的边;根据所述血缘分析视图中的任意两个点与构建的边进行连接,得到所述多个指标对应的血缘分析视图。
在一个可能地实现方式中,所述处理模块32,还用于根据所述名称相似度、维度相似度以及度量相关性确定所述维度相似度的权重占比;根据所述维度相似度的权重占比以及维度相似度确定边的权重;在所述多个指标中任选一个指标和一个维度,根据确定的边的权重,构建所述血缘分析视图中的边;根据所述血缘分析视图中的任意两个点与构建的边进行连接,得到所述多个指标对应的血缘分析视图。
本申请中,通过对指标数据的多维解读分析,实现了对指标的血缘分析,克服了现有技术中进行血缘分析的缺陷,提高了分析的精准度,提升异常分析的及时性。
下面参考图4,其示出了适于用来实现本申请实施例的电子设备(例如图1中的终端设备)400的结构示意图。本申请实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图4示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图4所示,电子设备400可以包括处理装置(例如中央处理器、图形处理器等)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储装置408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有电子设备400操作所需的各种程序和数据。处理装置401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
通常,以下装置可以连接至I/O接口405:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置406;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置407;包括例如磁带、硬盘等的存储装置408;以及通信装置409。通信装置409可以允许电子设备400与其他设备进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的电子设备400,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置409从网络上被下载和安装,或者从存储装置408被安装,或者从ROM402被安装。在该计算机程序被处理装置401执行时,执行本申请实施例的方法中限定的上述功能。
需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取至少两个网际协议地址;向节点评价设备发送包括所述至少两个网际协议地址的节点评价请求,其中,所述节点评价设备从所述至少两个网际协议地址中,选取网际协议地址并返回;接收所述节点评价设备返回的网际协议地址;其中,所获取的网际协议地址指示内容分发网络中的边缘节点。
或者,上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:接收包括至少两个网际协议地址的节点评价请求;从所述至少两个网际协议地址中,选取网际协议地址;返回选取出的网际协议地址;其中,接收到的网际协议地址指示内容分发网络中的边缘节点。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或后端服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
本申请提供的电子设备,适用于上述的血缘分析方法的任一实施例,在此不再赘述。
本申请中,通过对指标数据的多维解读分析,实现了对指标的血缘分析,克服了现有技术中进行血缘分析的缺陷,提高了分析的精准度,提升异常分析的及时性。
本申请提供了一种计算机可读存储介质,该计算机可读存储介质存储计算机程序,计算机程序使计算机执行上述实施例所示的血缘分析方法。
本申请提供的计算机可读存储介质,适用于上述的血缘分析方法的任一实施例,在此不再赘述。
本申请中,通过对指标数据的多维解读分析,实现了对指标的血缘分析,克服了现有技术中进行血缘分析的缺陷,提高了分析的精准度,提升异常分析的及时性。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本申请公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
其中,本申请装置的各个模块可以集成于一体,也可以分离部署。上述模块可以合并为一个模块,也可以进一步拆分成多个子模块。
本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本申请所必须的。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施例的优劣。
以上公开的仅为本申请的几个具体实施例,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (7)

1.一种血缘分析方法,其特征在于,包括:
对多个指标的名称进行语义相似度分析,确定所述多个指标的名称相似度;
对所述多个指标进行维度分析,确定所述多个指标的维度相似度,包括:
基于所述多个指标中任一指标的名称及维度构建维度宽表;
对所述维度宽表中的数据进行维度拼接,得到维度拼接文档;
基于预设的开发词袋模型对所述维度拼接文档进行处理,得到分词向量;
根据所述分词向量进行相似度计算,得到任一指标对应的维度相似度;
基于所述多个指标的名称、名称相似度、维度、维度相似度以及度量相关性构建所述多个指标的血缘分析视图,以使得根据构建的所述血缘分析视图进行针对所述多个指标中任一指标的血缘分析,包括:
选择所述多个指标的各维度以及各指标的名称作为所述血缘分析视图中的各点;
根据所述多个指标的名称、维度以及度量相关性计算所述多个指标的相关性系数;
在所述多个指标中任选两个指标,根据选择的两个指标对应的相关性系数作为边的权重,构建所述血缘分析视图中的边;
根据所述血缘分析视图中的任意两个点与构建的边进行连接,得到所述多个指标对应的血缘分析视图。
2.如权利要求1所述的方法,其特征在于,所述对多个指标的名称进行语义分析,确定所述多个指标的名称相似度,包括:
根据所述多个指标中任一指标的名称进行语义分析,得到所述任一指标的语义特征向量;
根据任意两个语义特征向量计算其对应夹角的余弦值;
根据所述余弦值确定所述任一指标的名称相似度。
3.如权利要求1所述的方法,其特征在于,所述对所述多个指标进行维度分析,确定所述多个指标的维度相似度,包括:
基于所述多个指标中任一指标的名称及维度构建维度宽表;
根据预设的默认值对所述维度宽表中的空值进行填充处理;
对所述维度宽表中填充于空值位置的默认值及非空值进行编码,生成对应的文本向量;
基于欧氏距离计算方法对所述文本向量以及维度数量进行计算,得到任一指标对应的维度相似度。
4.如权利要求1所述的方法,其特征在于,所述基于所述多个指标的名称、名称相似度、维度、维度相似度以及度量相关性构建所述多个指标的血缘分析视图,根据构建的所述血缘分析视图进行针对所述多个指标中任一指标的血缘分析,还包括:
根据所述名称相似度、维度相似度以及度量相关性确定所述维度相似度的权重占比;
根据所述维度相似度的权重占比以及维度相似度确定边的权重;
在所述多个指标中任选一个指标和一个维度,根据确定的边的权重,构建所述血缘分析视图中的边;
根据所述血缘分析视图中的任意两个点与构建的边进行连接,得到所述多个指标对应的血缘分析视图。
5.一种血缘分析装置,其特征在于,包括:
分析模块,用于对多个指标的名称进行语义相似度分析,确定所述多个指标的名称相似度;用于对所述多个指标进行维度分析,确定所述多个指标的维度相似度,包括:基于所述多个指标中任一指标的名称及维度构建维度宽表;对所述维度宽表中的数据进行维度拼接,得到维度拼接文档;基于预设的开发词袋模型对所述维度拼接文档进行处理,得到分词向量;根据所述分词向量进行相似度计算,得到任一指标对应的维度相似度;
处理模块,用于基于所述多个指标的名称、名称相似度、维度、维度相似度以及度量相关性构建所述多个指标的血缘分析视图,以使得根据构建的所述血缘分析视图进行针对所述多个指标中任一指标的血缘分析,包括:选择所述多个指标的各维度以及各指标的名称作为所述血缘分析视图中的各点;根据所述多个指标的名称、维度以及度量相关性计算所述多个指标的相关性系数;在所述多个指标中任选两个指标,根据选择的两个指标对应的相关性系数作为边的权重,构建所述血缘分析视图中的边;根据所述血缘分析视图中的任意两个点与构建的边进行连接,得到所述多个指标对应的血缘分析视图。
6.一种电子设备,其特征在于,包括:处理器和存储器;
所述存储器,用于存储计算机程序;
所述处理器,用于通过调用所述计算机程序,执行上述权利要求1至权利要求4中任一项所述的血缘分析方法。
7.一种计算机可读存储介质,其特征在于,所述计算机存储介质用于存储计算机程序,当其在计算机上运行时,使得计算机执行上述权利要求1至权利要求4中任一项所述的血缘分析方法。
CN202110336649.0A 2021-03-29 2021-03-29 血缘分析方法、装置、电子设备及计算机可读存储介质 Active CN112860784B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110336649.0A CN112860784B (zh) 2021-03-29 2021-03-29 血缘分析方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110336649.0A CN112860784B (zh) 2021-03-29 2021-03-29 血缘分析方法、装置、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112860784A CN112860784A (zh) 2021-05-28
CN112860784B true CN112860784B (zh) 2024-05-17

Family

ID=75993153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110336649.0A Active CN112860784B (zh) 2021-03-29 2021-03-29 血缘分析方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112860784B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488363A (zh) * 2020-06-28 2020-08-04 平安国际智慧城市科技股份有限公司 数据处理方法、装置、电子设备及介质
CN112231569A (zh) * 2020-10-23 2021-01-15 中国平安人寿保险股份有限公司 新闻推荐方法、装置、计算机设备及存储介质
CN112241421A (zh) * 2019-07-18 2021-01-19 天云融创数据科技(北京)有限公司 一种数据血缘确定方法和装置
CN112527796A (zh) * 2020-12-10 2021-03-19 中移(杭州)信息技术有限公司 数据表处理方法、装置及计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160170982A1 (en) * 2014-12-16 2016-06-16 Yahoo! Inc. Method and System for Joint Representations of Related Concepts

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112241421A (zh) * 2019-07-18 2021-01-19 天云融创数据科技(北京)有限公司 一种数据血缘确定方法和装置
CN111488363A (zh) * 2020-06-28 2020-08-04 平安国际智慧城市科技股份有限公司 数据处理方法、装置、电子设备及介质
CN112231569A (zh) * 2020-10-23 2021-01-15 中国平安人寿保险股份有限公司 新闻推荐方法、装置、计算机设备及存储介质
CN112527796A (zh) * 2020-12-10 2021-03-19 中移(杭州)信息技术有限公司 数据表处理方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN112860784A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN110704751B (zh) 数据处理方法、装置、电子设备及存储介质
CN111813465B (zh) 一种信息获取方法、装置、介质和设备
US10216802B2 (en) Presenting answers from concept-based representation of a topic oriented pipeline
CN111258998A (zh) 一种数据校验的方法、装置、介质和电子设备
CN111198861A (zh) 逻辑日志的处理方法、装置及电子设备
CN113448869B (zh) 测试用例生成的方法、装置、电子设备及计算机可读介质
CN113626558B (zh) 一种基于智能推荐的字段标准化的方法和系统
US20200175032A1 (en) Dynamic data visualization from factual statements in text
CN112860784B (zh) 血缘分析方法、装置、电子设备及计算机可读存储介质
US11243742B2 (en) Data merge processing based on differences between source and merged data
CN112035092A (zh) 一种表单的处理方法、装置、设备和可读介质
US9286349B2 (en) Dynamic search system
CN112379967B (zh) 模拟器检测方法、装置、设备及介质
CN113094286B (zh) 页面测试方法和装置、存储介质和电子设备
CN112286808B (zh) 应用程序的测试方法、装置、电子设备及介质
CN112069797B (zh) 一种基于语义的语音质检方法和装置
CN111309988B (zh) 基于编码的字符串检索方法、装置及电子设备
CN114443802A (zh) 一种接口文档处理方法、装置、电子设备和存储介质
CN109697141B (zh) 用于可视化测试的方法及装置
KR20210084641A (ko) 정보를 송신하는 방법 및 장치
CN110750569A (zh) 数据提取方法、装置、设备及存储介质
CN116467178B (zh) 数据库检测方法、装置、电子设备和计算机可读介质
US20220188103A1 (en) Subject matter expert identification and code analysis based on a probabilistic filter
CN113032808B (zh) 数据处理方法、装置、可读介质及电子设备
CN111104626B (zh) 信息存储方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant