CN112860784A - 血缘分析方法、装置、电子设备及计算机可读存储介质 - Google Patents
血缘分析方法、装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112860784A CN112860784A CN202110336649.0A CN202110336649A CN112860784A CN 112860784 A CN112860784 A CN 112860784A CN 202110336649 A CN202110336649 A CN 202110336649A CN 112860784 A CN112860784 A CN 112860784A
- Authority
- CN
- China
- Prior art keywords
- analysis
- dimension
- indexes
- similarity
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 183
- 239000008280 blood Substances 0.000 title claims abstract description 91
- 210000004369 blood Anatomy 0.000 title claims abstract description 91
- 238000012545 processing Methods 0.000 claims description 35
- 239000013598 vector Substances 0.000 claims description 32
- 238000000034 method Methods 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 16
- 238000005259 measurement Methods 0.000 claims description 11
- 238000011161 development Methods 0.000 claims description 10
- 230000018109 developmental process Effects 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000004141 dimensional analysis Methods 0.000 claims description 4
- 230000007547 defect Effects 0.000 abstract description 9
- 230000002159 abnormal effect Effects 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000000740 bleeding effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012252 genetic analysis Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本申请涉及网上交易技术领域,尤其涉及一种血缘分析方法、装置、电子设备及计算机可读存储介质。该血缘分析方法包括:对多个指标的名称进行语义相似度分析,确定多个指标的名称相似度;对多个指标进行维度分析,确定多个指标的维度相似度;基于所述多个指标的名称、名称相似度、维度、维度相似度以及确定的度量相关性构建所述多个指标的血缘分析视图,以使得根据构建的所述血缘分析视图进行针对所述多个指标中任一指标的血缘分析。本申请中,通过对指标数据的多维解读分析,实现了对指标的血缘分析,克服了现有技术中进行血缘分析的缺陷,提高了分析的精准度,提升异常分析的及时性。
Description
技术领域
本申请涉及网上交易技术领域,尤其涉及一种血缘分析方法、装置、电子设备及计算机可读存储介质。
背景技术
现有技术中,在进行血缘分析时,有几种常规分析方式,如直接读取元数据库及通过SQL解析提取加工规则和表间映射关系等方式,对于上述两种方式,原理上全部依赖于技术元数据,如此处理应用范围窄、开发成本高,具有如下几个缺陷:
开发复杂度极高:传统的分析模式依赖于底层元数据的完善度和脚本的标准度。现实中指标的加工经过复杂的数据链条,且数据源基本都是异构的。异构数据库的SQL语句会有差别,故SQL解析引擎开发的工作量极高,需要针对不同的计算引擎单独开发。
精细度不足:血缘关系分析时只能分析到表级和字段级影响,无法做到记录集的血缘分析。譬如APP端交易量和PC端交易量两个指标,两个指标都是通过同表同字段加工而成,传统的字段级分析方法无法再做精细化分析。
应用面固化:传统的血缘分析方案因为是基于技术元数据的分析,所以使用人员和表现形式通常仅对于技术人员使用,应用领域也局限于数据管控领域,无法上升到业务层,与业务分析出现严重断层。
影响分析滞后:通常是上游系统告知数据问题,下游系统再通过血缘分析判断指标的影响范围,反向分析无法支持。因为传统方法无法通过反向分析完成问题定位,固无法在第一时间评估被影响范围。
因此,基于上述阐述,亟需一种血缘分析方法来克服现有血缘分析方法所带来的缺陷问题。
发明内容
本申请提供了一种血缘分析方法、装置、电子设备及计算机可读存储介质,以克服现有技术中进行血缘分析方法的应用范围窄、开发成本高的缺陷。
第一方面,提供了一种血缘分析方法,包括:
对多个指标的名称进行语义相似度分析,确定所述多个指标的名称相似度;
对所述多个指标进行维度分析,确定所述多个指标的维度相似度;
基于所述多个指标的名称、名称相似度、维度、维度相似度以及度量相关性构建所述多个指标的血缘分析视图,以使得根据构建的所述血缘分析视图进行针对所述多个指标中任一指标的血缘分析。
在一个可能地实现方式中,所述对多个指标的名称进行语义分析,确定所述多个指标的名称相似度,包括:
根据所述多个指标中任一指标的名称进行语义分析,得到所述任一指标的语义特征向量;
根据任意两个语义特征向量计算其对应夹角的余弦值;
根据所述余弦值确定所述任一指标的名称相似度。
在一个可能地实现方式中,所述对所述多个指标进行维度分析,确定所述多个指标的维度相似度,包括:
基于所述多个指标中任一指标的名称及维度构建维度宽表;
对所述维度宽表中的数据进行维度拼接,得到维度拼接文档;
基于预设的开发词袋模型对所述维度拼接文档进行处理,得到分词向量;
根据所述分词向量进行相似度计算,得到任一指标对应的维度相似度。
在一个可能地实现方式中,所述对所述多个指标进行维度分析,确定所述多个指标的维度相似度,包括:
基于所述多个指标中任一指标的名称及维度构建维度宽表;
根据预设的默认值对所述维度宽表中的空值进行填充处理;
对所述维度宽表中填充于空值位置的默认值及非空值进行编码,生成对应的文本向量;
基于欧氏距离计算方法对所述文本向量以及维度数量进行计算,得到任一指标对应的维度相似度。
在一个可能地实现方式中,所述基于所述多个指标的名称、名称相似度、维度、维度相似度以及度量相关性构建所述多个指标的血缘分析视图,根据构建的所述血缘分析视图进行针对所述多个指标中任一指标的血缘分析,还包括:
根据所述名称相似度、维度相似度以及度量相关性确定所述维度相似度的权重占比;
根据所述维度相似度的权重占比以及维度相似度确定边的权重;
在所述多个指标中任选一个指标和一个维度,根据确定的边的权重,构建所述血缘分析视图中的边;
根据所述血缘分析视图中的任意两个点与构建的边进行连接,得到所述多个指标对应的血缘分析视图。
第二方面,提供了一种血缘分析装置,包括:
分析模块,用于对多个指标的名称进行语义相似度分析,确定所述多个指标的名称相似度;用于对所述多个指标进行维度分析,确定所述多个指标的维度相似度;
处理模块,用于基于所述多个指标的名称、名称相似度、维度、维度相似度以及度量相关性构建所述多个指标的血缘分析视图,以使得根据构建的所述血缘分析视图进行针对所述多个指标中任一指标的血缘分析。
在一个可能地实现方式中,所述分析模块,用于根据所述多个指标中任一指标的名称进行语义分析,得到所述任一指标的语义特征向量;根据任意两个语义特征向量计算其对应夹角的余弦值;根据所述余弦值确定所述任一指标的名称相似度。
在一个可能地实现方式中,所述分析模块,用于基于所述多个指标中任一指标的名称及维度构建维度宽表;对所述维度宽表中的数据进行维度拼接,得到维度拼接文档;基于预设的开发词袋模型对所述维度拼接文档进行处理,得到分词向量;根据所述分词向量进行相似度计算,得到任一指标对应的维度相似度。
在一个可能地实现方式中,所述分析模块,还用于基于所述多个指标中任一指标的名称及维度构建维度宽表;根据预设的默认值对所述维度宽表中的空值进行填充处理;对所述维度宽表中填充于空值位置的默认值及非空值进行编码,生成对应的文本向量;基于欧氏距离计算方法对所述文本向量以及维度数量进行计算,得到任一指标对应的维度相似度。
在一个可能地实现方式中,所述处理模块,用于选择所述多个指标的各维度以及各指标的名称作为所述血缘分析视图中的各点;根据所述多个指标的名称、维度以及度量相关性计算所述多个指标的相关性系数;在所述多个指标中任选两个指标,根据选择的两个指标对应的相关性系数作为边的权重,构建所述血缘分析视图中的边;根据所述血缘分析视图中的任意两个点与构建的边进行连接,得到所述多个指标对应的血缘分析视图。
在一个可能地实现方式中,所述处理模块,还用于根据所述名称相似度、维度相似度以及度量相关性确定所述维度相似度的权重占比;根据所述维度相似度的权重占比以及维度相似度确定边的权重;在所述多个指标中任选一个指标和一个维度,根据确定的边的权重,构建所述血缘分析视图中的边;根据所述血缘分析视图中的任意两个点与构建的边进行连接,得到所述多个指标对应的血缘分析视图。
第三方面,提供了一种电子设备,包括:处理器和存储器;
所述存储器,用于存储计算机程序;
所述处理器,用于通过调用所述计算机程序,执行上述的血缘分析方法。
第四方面,提供了一种计算机可读存储介质,所述计算机存储介质用于存储计算机程序,当其在计算机上运行时,使得计算机可以执行上述的血缘分析方法。
借由上述技术方案,本申请提供的技术方案至少具有下列优点:
本申请中,通过对指标数据的多维解读分析,实现了对指标的血缘分析,克服了现有技术中进行血缘分析的缺陷,提高了分析的精准度,提升异常分析的及时性。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请提供的血缘分析方法的流程示意图;
图2为本申请提供的血缘分析方法的一种可能实现方式的具体处理流程示意图;
图3为本申请提供的血缘分析装置的结构示意图;
图4为本申请提供的血缘分析方法的电子设备的结构示意图。
具体实施方式
本申请提出一种血缘分析方法、装置、电子设备及计算机可读存储介质,下面结合附图,对本申请具体实施方式进行详细说明。
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件框架,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件框架和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
如图1所示,为本申请提供的血缘分析方法的流程示意图,该方法包括如下步骤:
步骤S101,对多个指标的名称进行语义相似度分析,确定所述多个指标的名称相似度;
步骤S102,对所述多个指标进行维度分析,确定所述多个指标的维度相似度;
步骤S103,基于所述多个指标的名称、名称相似度、维度、维度相似度以及度量相关性构建所述多个指标的血缘分析视图,以使得根据构建的所述血缘分析视图进行针对所述多个指标中任一指标的血缘分析。
本申请中,通过对指标数据的多维解读分析,实现了对指标的血缘分析,克服了现有技术中进行血缘分析的缺陷,提高了分析的精准度,提升异常分析的及时性。
基于上述本申请所提供的技术方案,下面对该技术方案进行详尽阐释,如图2所示,为本申请提供的血缘分析方法的一个可能地实现方式的具体处理流程图。
对于本申请,在一个可能地实现方式中,前述步骤S101的处理具体包括下述步骤S201~步骤S202的处理。
步骤S201,对指标的指标名称进行语义分析。
在一个可能地实现方式中,对于待处理的多个指标而言,选取任一指标,通过对该指标进行解析,得到指标的名称,对该名称进行语义分析,得到其对应的语义特征向量,根据语义特征向量构建对应的矩阵。
步骤S202,根据语义分析结果得到名称相似度。
在一个可能地实现方式中,对于得到的矩阵,基于向量空间计算,采用如余弦系数法、Jaccard系数法或Dice系数法等衡量相似度,即从矩阵中任取两个语义特征向量,计算对应夹角的余弦值,根据得到的余弦值最后得到指标名称相似度;基于上述处理,可以得到所有指标的名称相似度。
对于本申请,在一个可能地实现方式中,前述步骤S102的处理具体包括下述步骤S203的处理。
步骤S203,确定指标的维度相似度。
在一个可能地实现方式中,对于所有指标而言,首先构建对应的维度宽表,在维度宽表中包括有所有指标的各维度及对应的数据;其中,维度可以包括很多,在一具体实施例中,如指标的名称、核心产品、科目、客户标示、期限、业务条线、阶段划分标示、账户状态、账户类型和渠道标示。
在构建维度宽表后,对维度宽表中的数据进行维度拼接,得到维度拼接文档;其中,在进行维度拼接时,仅是对各指标中对应的维度数据的拼接,如指标1对应的维度数据包括核心产品401,科目24801,业务条线1及渠道标示1,其他维度均为空值,则进行维度数据的拼接后,得到的维度拼接文档为指标1:核心产品=401,科目=24801,,,业务条线=1,,,,渠道标示=1,如指标2对应的维度数据包括科目27310,其他维度均为空值,则进行维度数据的拼接后,得到的维度拼接文档为指标2:,科目=27310,,,,,,,,。
对于得到的维度拼接文档,基于预设的开发词袋模型进行处理,得到对应的分词向量,该开发词袋模型可以才用如Bag-of-word模型;之后采用相似度计算方法对分词向量进行计算,得到指标对应的维度相似度,该相似度计算方法可以为Jaccard方法。对于上述的任一指标,均采用上述方式进行维度相似度计算处理。
在一个可能地实现方式中,上述的维度相似度计算方式仅是为了说明本申请实施例所提供的一种方式,还可以采用其他的相似度计算方式进行维度相似度计算,具体包括:
在一个可能地实现方式中,对于所有指标而言,首先,依然是构建对应的维度宽表,在维度宽表中包括有所有指标的各维度及对应的数据;其中,维度可以包括很多,在一具体实施例中,如指标的名称、核心产品、科目、客户标示、期限、业务条线、阶段划分标示、账户状态、账户类型和渠道标示。
对于构建好的维度宽表,利用预设的默认值(如999)对其中的空值进行填充,使得维度宽表中的每个维度中均匀对应的数据;之后对所有数据进行预处理,因为变量全部为离散变量,枚举范围可控,故可以采取ONE-HOT进行编码处理,得到对应的文本向量;之后基于欧氏距离计算方法对所述文本向量以及维度数量进行计算,得到任一指标对应的维度相似度。该欧氏距离计算方法为:
欧式距离2=2*n*(1-R)
其中,R代表相关性,n代表维度数量,得到:
由于对MISSING(空值)数据做过特殊处理,会导致相关性系数变高,故需要调整相关性系数,或者调整维度相似度在整体指标相似度中的权重比;为增加图的可解读性和易读性,还可以删除维度值=999的点。
对于本申请,在一个可能地实现方式中,还包括:
步骤S204,确定指标的度量相关性。
在一个可能地实现方式中,对于前述的多个指标,获取他们各自对应的样本数据,可以取近半年的样本数据为例,根据样本数据调用相关系数(corr())方法进行相关性度量,得到多个指标的相关性矩阵,之后通过一段期间指标的数值表现,挖掘指标间的密切程度,从而确定所述多个指标的度量相关性。
对于本申请,在一个可能地实现方式中,前述步骤S103的处理具体包括下述步骤S205的处理。
步骤S205,构建血缘分析视图。
在一个可能地实现方式中,在得到上述的度量相关性及其对应的各指标的权重后,进行血缘分析视图的构建。对于该视图的构建,可以包括两种方式,二者共同构建出血缘分析视图,下面分别进行阐述。
第一种血缘分析视图的构建方式为:选择所述多个指标的各维度以及各指标的名称作为所述血缘分析视图中的各点;根据所述多个指标的名称、维度以及度量相关性计算所述多个指标的相关性系数;在所述多个指标中任选两个指标,根据选择的两个指标对应的相关性系数作为边的权重,构建所述血缘分析视图中的边;根据所述血缘分析视图中的任意两个点与构建的边进行连接,得到所述多个指标对应的血缘分析视图。
在一个具体实施方式中,假设有10个指标,各指标对应的维度有10个,任意选取一个维度如核心产品,则将这10个指标的核心产品维度均作为血缘分析视图的点;之后在这10个指标中任选两个指标,指标1和指标2,根据指标1和指标2对应的相关性系数构建血缘分析视图的边;之后将指标1和指标2对应的边与对应的两个点进行连接;基于上述相同的处理,将上述10个指标均采用上述方式进行处理,从而得到针对核心产品维度的血缘分析视图;之后,对于指标中的其他维度,采用上述相同的方式,得到针对各维度的血缘分析视图。
第二种血缘分析视图的构建方式为:根据所述名称相似度、维度相似度以及度量相关性确定所述维度相似度的权重占比;根据所述维度相似度的权重占比以及维度相似度确定边的权重;在所述多个指标中任选一个指标和一个维度,根据确定的边的权重,构建所述血缘分析视图中的边;根据所述血缘分析视图中的任意两个点与构建的边进行连接,得到所述多个指标对应的血缘分析视图。
在一个具体实施方式中,假设有10个指标,各指标对应的维度有10个,每个维度均均作为血缘分析视图的一个点;找到表示指标名称维度的点,将该表示指标名称维度的点与所有指标中对应其他各维度的点均进行两点连接;即将指标1的指标1点分别与指标2对应的核心产品点等共9个点连接(不与指标2的指标2点连接),与指标3到指标10采用同样的连接方式;对于指标2到指标10,也采用指标1与指标2到指标10相同的连接方式,进行点的连接。最终得到上述10个指标对应的血缘分析视图。对于上述视图,在做业务深度分析时,可勾选不同的边类型,当边类型为2时,可以看到两指标关联的条件,从而增强可解释性。
本申请中,通过对指标数据的多维解读分析,实现了对指标的血缘分析,克服了现有技术中进行血缘分析的缺陷,提高了分析的精准度,提升异常分析的及时性。
基于上述本申请所提供的血缘分析方法的技术方案,本申请对应提供了一种血缘分析装置的结构示意图,如图3所示,该装置30可以包括:
分析模块31,用于对多个指标的名称进行语义相似度分析,确定所述多个指标的名称相似度;用于对所述多个指标进行维度分析,确定所述多个指标的维度相似度;
处理模块32,用于基于所述多个指标的名称、名称相似度、维度、维度相似度以及度量相关性构建所述多个指标的血缘分析视图,以使得根据构建的所述血缘分析视图进行针对所述多个指标中任一指标的血缘分析。
在一个可能地实现方式中,所述分析模块31,用于根据所述多个指标中任一指标的名称进行语义分析,得到所述任一指标的语义特征向量;根据任意两个语义特征向量计算其对应夹角的余弦值;根据所述余弦值确定所述任一指标的名称相似度。
在一个可能地实现方式中,所述分析模块31,用于基于所述多个指标中任一指标的名称及维度构建维度宽表;对所述维度宽表中的数据进行维度拼接,得到维度拼接文档;基于预设的开发词袋模型对所述维度拼接文档进行处理,得到分词向量;根据所述分词向量进行相似度计算,得到任一指标对应的维度相似度。
在一个可能地实现方式中,所述分析模块31,还用于基于所述多个指标中任一指标的名称及维度构建维度宽表;根据预设的默认值对所述维度宽表中的空值进行填充处理;对所述维度宽表中填充于空值位置的默认值及非空值进行编码,生成对应的文本向量;基于欧氏距离计算方法对所述文本向量以及维度数量进行计算,得到任一指标对应的维度相似度。
在一个可能地实现方式中,所述处理模块32,用于选择所述多个指标的各维度以及各指标的名称作为所述血缘分析视图中的各点;根据所述多个指标的名称、维度以及度量相关性计算所述多个指标的相关性系数;在所述多个指标中任选两个指标,根据选择的两个指标对应的相关性系数作为边的权重,构建所述血缘分析视图中的边;根据所述血缘分析视图中的任意两个点与构建的边进行连接,得到所述多个指标对应的血缘分析视图。
在一个可能地实现方式中,所述处理模块32,还用于根据所述名称相似度、维度相似度以及度量相关性确定所述维度相似度的权重占比;根据所述维度相似度的权重占比以及维度相似度确定边的权重;在所述多个指标中任选一个指标和一个维度,根据确定的边的权重,构建所述血缘分析视图中的边;根据所述血缘分析视图中的任意两个点与构建的边进行连接,得到所述多个指标对应的血缘分析视图。
本申请中,通过对指标数据的多维解读分析,实现了对指标的血缘分析,克服了现有技术中进行血缘分析的缺陷,提高了分析的精准度,提升异常分析的及时性。
下面参考图4,其示出了适于用来实现本申请实施例的电子设备(例如图1中的终端设备)400的结构示意图。本申请实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图4示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图4所示,电子设备400可以包括处理装置(例如中央处理器、图形处理器等)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储装置408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有电子设备400操作所需的各种程序和数据。处理装置401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
通常,以下装置可以连接至I/O接口405:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置406;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置407;包括例如磁带、硬盘等的存储装置408;以及通信装置409。通信装置409可以允许电子设备400与其他设备进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的电子设备400,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置409从网络上被下载和安装,或者从存储装置408被安装,或者从ROM402被安装。在该计算机程序被处理装置401执行时,执行本申请实施例的方法中限定的上述功能。
需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取至少两个网际协议地址;向节点评价设备发送包括所述至少两个网际协议地址的节点评价请求,其中,所述节点评价设备从所述至少两个网际协议地址中,选取网际协议地址并返回;接收所述节点评价设备返回的网际协议地址;其中,所获取的网际协议地址指示内容分发网络中的边缘节点。
或者,上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:接收包括至少两个网际协议地址的节点评价请求;从所述至少两个网际协议地址中,选取网际协议地址;返回选取出的网际协议地址;其中,接收到的网际协议地址指示内容分发网络中的边缘节点。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或后端服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
本申请提供的电子设备,适用于上述的血缘分析方法的任一实施例,在此不再赘述。
本申请中,通过对指标数据的多维解读分析,实现了对指标的血缘分析,克服了现有技术中进行血缘分析的缺陷,提高了分析的精准度,提升异常分析的及时性。
本申请提供了一种计算机可读存储介质,该计算机可读存储介质存储计算机程序,计算机程序使计算机执行上述实施例所示的血缘分析方法。
本申请提供的计算机可读存储介质,适用于上述的血缘分析方法的任一实施例,在此不再赘述。
本申请中,通过对指标数据的多维解读分析,实现了对指标的血缘分析,克服了现有技术中进行血缘分析的缺陷,提高了分析的精准度,提升异常分析的及时性。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本申请公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
其中,本申请装置的各个模块可以集成于一体,也可以分离部署。上述模块可以合并为一个模块,也可以进一步拆分成多个子模块。
本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本申请所必须的。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施例的优劣。
以上公开的仅为本申请的几个具体实施例,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (9)
1.一种血缘分析方法,其特征在于,包括:
对多个指标的名称进行语义相似度分析,确定所述多个指标的名称相似度;
对所述多个指标进行维度分析,确定所述多个指标的维度相似度;
基于所述多个指标的名称、名称相似度、维度、维度相似度以及度量相关性构建所述多个指标的血缘分析视图,以使得根据构建的所述血缘分析视图进行针对所述多个指标中任一指标的血缘分析。
2.如权利要求1所述的方法,其特征在于,所述对多个指标的名称进行语义分析,确定所述多个指标的名称相似度,包括:
根据所述多个指标中任一指标的名称进行语义分析,得到所述任一指标的语义特征向量;
根据任意两个语义特征向量计算其对应夹角的余弦值;
根据所述余弦值确定所述任一指标的名称相似度。
3.如权利要求1所述的方法,其特征在于,所述对所述多个指标进行维度分析,确定所述多个指标的维度相似度,包括:
基于所述多个指标中任一指标的名称及维度构建维度宽表;
对所述维度宽表中的数据进行维度拼接,得到维度拼接文档;
基于预设的开发词袋模型对所述维度拼接文档进行处理,得到分词向量;
根据所述分词向量进行相似度计算,得到任一指标对应的维度相似度。
4.如权利要求1所述的方法,其特征在于,所述对所述多个指标进行维度分析,确定所述多个指标的维度相似度,包括:
基于所述多个指标中任一指标的名称及维度构建维度宽表;
根据预设的默认值对所述维度宽表中的空值进行填充处理;
对所述维度宽表中填充于空值位置的默认值及非空值进行编码,生成对应的文本向量;
基于欧氏距离计算方法对所述文本向量以及维度数量进行计算,得到任一指标对应的维度相似度。
5.如权利要求1所述的方法,其特征在于,所述基于所述多个指标的名称、名称相似度、维度、维度相似度以及度量相关性构建所述多个指标的血缘分析视图,根据构建的所述血缘分析视图进行针对所述多个指标中任一指标的血缘分析,包括:
选择所述多个指标的各维度以及各指标的名称作为所述血缘分析视图中的各点;
根据所述多个指标的名称、维度以及度量相关性计算所述多个指标的相关性系数;
在所述多个指标中任选两个指标,根据选择的两个指标对应的相关性系数作为边的权重,构建所述血缘分析视图中的边;
根据所述血缘分析视图中的任意两个点与构建的边进行连接,得到所述多个指标对应的血缘分析视图。
6.如权利要求5所述的方法,其特征在于,所述基于所述多个指标的名称、名称相似度、维度、维度相似度以及度量相关性构建所述多个指标的血缘分析视图,根据构建的所述血缘分析视图进行针对所述多个指标中任一指标的血缘分析,还包括:
根据所述名称相似度、维度相似度以及度量相关性确定所述维度相似度的权重占比;
根据所述维度相似度的权重占比以及维度相似度确定边的权重;
在所述多个指标中任选一个指标和一个维度,根据确定的边的权重,构建所述血缘分析视图中的边;
根据所述血缘分析视图中的任意两个点与构建的边进行连接,得到所述多个指标对应的血缘分析视图。
7.一种血缘分析装置,其特征在于,包括:
分析模块,用于对多个指标的名称进行语义相似度分析,确定所述多个指标的名称相似度;用于对所述多个指标进行维度分析,确定所述多个指标的维度相似度;
处理模块,用于基于所述多个指标的名称、名称相似度、维度、维度相似度以及度量相关性构建所述多个指标的血缘分析视图,以使得根据构建的所述血缘分析视图进行针对所述多个指标中任一指标的血缘分析。
8.一种电子设备,其特征在于,包括:处理器和存储器;
所述存储器,用于存储计算机程序;
所述处理器,用于通过调用所述计算机程序,执行上述权利要求1至权利要求6中任一项所述的血缘分析方法。
9.一种计算机可读存储介质,其特征在于,所述计算机存储介质用于存储计算机程序,当其在计算机上运行时,使得计算机执行上述权利要求1至权利要求6中任一项所述的血缘分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110336649.0A CN112860784B (zh) | 2021-03-29 | 2021-03-29 | 血缘分析方法、装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110336649.0A CN112860784B (zh) | 2021-03-29 | 2021-03-29 | 血缘分析方法、装置、电子设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112860784A true CN112860784A (zh) | 2021-05-28 |
CN112860784B CN112860784B (zh) | 2024-05-17 |
Family
ID=75993153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110336649.0A Active CN112860784B (zh) | 2021-03-29 | 2021-03-29 | 血缘分析方法、装置、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112860784B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160170982A1 (en) * | 2014-12-16 | 2016-06-16 | Yahoo! Inc. | Method and System for Joint Representations of Related Concepts |
CN111488363A (zh) * | 2020-06-28 | 2020-08-04 | 平安国际智慧城市科技股份有限公司 | 数据处理方法、装置、电子设备及介质 |
CN112231569A (zh) * | 2020-10-23 | 2021-01-15 | 中国平安人寿保险股份有限公司 | 新闻推荐方法、装置、计算机设备及存储介质 |
CN112241421A (zh) * | 2019-07-18 | 2021-01-19 | 天云融创数据科技(北京)有限公司 | 一种数据血缘确定方法和装置 |
CN112527796A (zh) * | 2020-12-10 | 2021-03-19 | 中移(杭州)信息技术有限公司 | 数据表处理方法、装置及计算机可读存储介质 |
-
2021
- 2021-03-29 CN CN202110336649.0A patent/CN112860784B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160170982A1 (en) * | 2014-12-16 | 2016-06-16 | Yahoo! Inc. | Method and System for Joint Representations of Related Concepts |
CN112241421A (zh) * | 2019-07-18 | 2021-01-19 | 天云融创数据科技(北京)有限公司 | 一种数据血缘确定方法和装置 |
CN111488363A (zh) * | 2020-06-28 | 2020-08-04 | 平安国际智慧城市科技股份有限公司 | 数据处理方法、装置、电子设备及介质 |
CN112231569A (zh) * | 2020-10-23 | 2021-01-15 | 中国平安人寿保险股份有限公司 | 新闻推荐方法、装置、计算机设备及存储介质 |
CN112527796A (zh) * | 2020-12-10 | 2021-03-19 | 中移(杭州)信息技术有限公司 | 数据表处理方法、装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112860784B (zh) | 2024-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109766497B (zh) | 排行榜生成方法及装置、存储介质、电子设备 | |
CN110704751B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
US10387568B1 (en) | Extracting keywords from a document | |
US10956470B2 (en) | Facet-based query refinement based on multiple query interpretations | |
US11487801B2 (en) | Dynamic data visualization from factual statements in text | |
CN110688111A (zh) | 业务流程的配置方法、装置、服务器和存储介质 | |
CN113177154A (zh) | 搜索词推荐方法、装置、电子设备及存储介质 | |
CN115061874A (zh) | 日志信息验证方法、装置、设备及介质 | |
CN110795464B (zh) | 对象标记数据的字段校验方法、装置、终端及存储介质 | |
CN113971400B (zh) | 一种文本检测方法、装置、电子设备及存储介质 | |
US11243742B2 (en) | Data merge processing based on differences between source and merged data | |
CN109857816B (zh) | 测试样本的选取方法及装置、存储介质、电子设备 | |
US9286349B2 (en) | Dynamic search system | |
CN112860784B (zh) | 血缘分析方法、装置、电子设备及计算机可读存储介质 | |
CN112256566B (zh) | 一种测试案例的保鲜方法和装置 | |
CN111881382B (zh) | 由计算机系统实现的信息显示方法和装置、系统和介质 | |
CN109857838B (zh) | 用于生成信息的方法和装置 | |
KR20210084641A (ko) | 정보를 송신하는 방법 및 장치 | |
CN110750569A (zh) | 数据提取方法、装置、设备及存储介质 | |
US11853750B2 (en) | Subject matter expert identification and code analysis based on a probabilistic filter | |
CN113778501B (zh) | 一种代码任务处理方法和装置 | |
CN111104626B (zh) | 信息存储方法和装置 | |
US20240152933A1 (en) | Automatic mapping of a question or compliance controls associated with a compliance standard to compliance controls associated with another compliance standard | |
CN116795866A (zh) | 文件处理方法、装置、设备及存储介质 | |
CN116822475A (zh) | 表格数据的处理方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |