CN114049016A - 指标相似性判断方法、系统、终端设备及计算机存储介质 - Google Patents

指标相似性判断方法、系统、终端设备及计算机存储介质 Download PDF

Info

Publication number
CN114049016A
CN114049016A CN202111354644.7A CN202111354644A CN114049016A CN 114049016 A CN114049016 A CN 114049016A CN 202111354644 A CN202111354644 A CN 202111354644A CN 114049016 A CN114049016 A CN 114049016A
Authority
CN
China
Prior art keywords
index
indexes
stock
newly added
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111354644.7A
Other languages
English (en)
Inventor
刘颖慧
刘楠
蔡一欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202111354644.7A priority Critical patent/CN114049016A/zh
Publication of CN114049016A publication Critical patent/CN114049016A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供一种指标相似性判断方法、系统、终端设备及计算机可读存储介质,以至少解决目前对于指标体系的新增指标缺少相似性判断阶段以及人工核查导致的人工成本高、判断结果不够准确等问题,其中,所述方法包括:判断是否接收到新增指标;若接收到新增指标,则计算新增指标与指标体系中的各第一存量指标之间的相似性,得到第一相似性计算结果;基于相似性计算结果判断新增指标与各第一存量指标之间的相似性是否均小于预设阈值;若均小于预设阈值,则将新增指标加入至所述指标体系。本公开在前置申请阶段接收到新增指标时,自动识别新增指标与存量指标之间的相似性,来避免指标重复建设的情况,降低人工成本,同时提高相似性判断准确度。

Description

指标相似性判断方法、系统、终端设备及计算机存储介质
技术领域
本公开涉及指标分析技术领域,尤其涉及一种指标相似性判断方法、一种指标相似性判断系统、一种终端设备以及一种计算机可读存储介质。
背景技术
指标的相似性判断对于指标体系(IndicationSystem-IS)的构建尤为重要。目前指标相似性判断,主要依靠人工根据业务口径、技术口径来直接判断,且通常是针对已经完成基础指标体系建设的情况下进行人工核查,对于指标体系的新增指标缺少相似性判断阶段,上述过程中人工审核耗费的工作量是巨大的,且基于人工核查获得的指标相似性判断结果不能排除主观因素,导致指标相似性判断结果不够准确。
发明内容
本公开提供了一种指标相似性判断方法、系统、终端设备及计算机可读存储介质,以至少解决目前对于指标体系的新增指标缺少相似性判断阶段以及人工核查导致的人工成本高、判断结果不够准确等问题。
为实现上述目的,本公开提供一种指标相似性判断方法,包括:
判断是否接收到新增指标;
若接收到新增指标,则计算所述新增指标与指标体系中的各第一存量指标之间的相似性,得到第一相似性计算结果;
基于所述相似性计算结果判断所述新增指标与各第一存量指标之间的相似性是否均小于预设阈值;
若均小于预设阈值,则将所述新增指标加入至所述指标体系。
在一种实施方式中,计算所述新增指标与指标体系中的各第一存量指标之间的相似性,包括:
分别拆解所述新增指标以及各第一存量指标,得到所述新增指标的拆解结果以及各第一存量指标的拆解结果;
基于所述新增指标的拆解结果以及各第一存量指标的拆解结果计算所述新增指标与指标体系中的各第一存量指标之间的相似性。
在一种实施方式中,所述方法还包括:
建立指标字典,所述指标字典划分基础指标和组合指标,其中所述组合指标包括基础指标以及修饰基础指标的维度和属性;
分别拆解所述新增指标以及各第一存量指标,包括:
基于所述指标字典分别拆解所述新增指标以及各第一存量指标。
在一种实施方式中,基于所述新增指标的拆解结果以及各第一存量指标的拆解结果计算所述新增指标与指标体系中的各第一存量指标之间的相似性,包括:
基于所述新增指标的拆解结果判断所述新增指标是否为基础指标;
若不是基础指标,则从所述新增指标中的拆解结果中获取所述新增指标的基础指标、维度和属性,以及从各第一存量指标的拆解结果中获取各第一存量指标中不是基础指标的各第二存量指标的基础指标、维度和属性;
从各第二存量指标中筛选出与所述新增指标的基础指标相同的各第三存量指标,并获取各第三存量指标的维度和属性;
分别计算所述基础指标的维度和属性与各第三存量指标的维度和属性之间的相似性,得到第二相似性计算结果;以及,
基于所述第二相似性计算结果得到第一相似性计算结果。
在一种实施方式中,在基于所述新增指标的拆解结果判断所述新增指标是否为基础指标之后,还包括:
若是基础指标,则判定所述新增指标时重复指标,并跳出基于所述相似性计算结果判断所述新增指标与各第一存量指标之间的相似性是否均小于预设阈值的步骤。
在一种实施方式中,在判断是否接收到新增指标之后,还包括:
若未接收到新增指标,则判断指标体系中的各第一存量指标中是否存在重复指标,若是,则剔除所述重复指标。
在一种实施方式中,所述判断指标体系中的各第一存量指标中是否存在重复指标,包括:
获取各第一存量指标的底层结构化查询语言SQL语言;
对各第一存量指标的SQL语言进行拆分,得到各第一存量指标的拆分结果;以及,
基于各第一存量指标的拆分结果判断各第一存量指标中是否存在重复指标。
为实现上述目的,本公开还提供一种指标相似性判断系统,包括:
第一判断模块,其设置为判断是否接收到新增指标;
计算模块,其设置为在判断模块判断为接收到新增指标时,计算所述新增指标与指标体系中的各第一存量指标之间的相似性,得到第一相似性计算结果;
第二判断模块,其设置为基于所述相似性计算结果判断所述新增指标与各第一存量指标之间的相似性是否均小于预设阈值;
加入模块,其设置为在第二判断模块判断为均小于预设阈值时,将所述新增指标加入至所述指标体系。
为实现上述目的,本公开还提供一种终端设备,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行所述的指标相似性判断方法。
为实现上述目的,本公开还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,所述处理器执行所述的指标相似性判断方法。
根据本公开提供的指标相似性判断方法、系统、终端设备及计算机可读存储介质,通过判断是否接收到新增指标;若接收到新增指标,则计算所述新增指标与指标体系中的各第一存量指标之间的相似性,得到第一相似性计算结果;基于所述相似性计算结果判断所述新增指标与各第一存量指标之间的相似性是否均小于预设阈值;若均小于预设阈值,则将所述新增指标加入至所述指标体系。本公开在前置申请阶段接收到新增指标时,自动识别新增指标与存量指标之间的相似性,来避免指标重复建设的情况,降低人工成本,同时提高相似性判断准确度。
本公开的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本公开而了解。本公开的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本公开技术方案的进一步理解,并且构成说明书的一部分,与本公开的实施例一起用于解释本公开的技术方案,并不构成对本公开技术方案的限制。
图1为本公开实施例提供的一种指标相似性判断方法的流程示意图;
图2为图1中步骤S12的流程示意图;
图3为本公开另一实施例提供的一种指标相似性判断方法的流程示意图;
图4为本公开又一实施例提供的一种指标相似性判断方法的流程示意图;
图5为本公开实施例提供的一种指标相似性判断系统的结构示意图;
图6为本公开实施例提供的一种终端设备的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序;并且,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互任意组合。
其中,在本公开实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本公开的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
指标体系指的是若干个相互联系的统计指标所组成的有机体。指标体系的建立是进行预测或评价研究的前提和基础,它是将抽象的研究对象按照其本质属性和特征的某一方面的标识分解成为具有行为化、可操作化的结构,并对指标体系中每一构成元素(即指标)赋予相应权重的过程。目前指标体系中以及指标体系新增指标时可能存在指标相似、指标重复等情况,导致指标体系结构混乱。为此,本实施例提出一种指标相似性判断方法,针对指标的相似性检测,一是在前置申请阶段,增加系统自动判别,来避免指标重复建设的情况;二是针对指标体系中存量的指标,根据实际的技术口技,即加工逻辑,对指标的重复性进行判定,以筛选出重复指标,以最终实现企业级统一数据指标体系的建立过程中的规范化管理。
请参照图1,图1为本公开实施例提供的一种指标相似性判断方法的流程示意图,所述方法包括步骤S11-S14。
在步骤S11中,判断是否接收到新增指标,若接收到新增指标,则执行步骤S12,否则,结束流程。
在一些实施例中,若未接收到新增指标,则对指标体系的存量指标进行查重,以筛除指标体系中的重复指标,具体可详见后述实施例,此处不再赘述。
在步骤S12中,计算所述新增指标与指标体系中的各第一存量指标之间的相似性,得到第一相似性计算结果。
需要说明的是,本实施例中存量指标指的是指标体系中当前存在的指标。其中,第一存量指标、第二存量指标以及第三存量指标仅用于区分类似对象,并无其它含义,在一些实施例中,第一存量指标、第二存量指标以及第三存量指标可以为相同的指标也可以为不同的指标,此根据实际情况而定。
在一种实施方式中,通过对所有指标进行拆解,进而基于拆解结果进行指标的相似性计算,一方面提高相似性计算效率,另一方面提高相似性准确性,如图2所示,步骤S12包括以下步骤:
S121、分别拆解所述新增指标以及各第一存量指标,得到所述新增指标的拆解结果以及各第一存量指标的拆解结果;
S122、基于所述新增指标的拆解结果以及各第一存量指标的拆解结果计算所述新增指标与指标体系中的各第一存量指标之间的相似性。
在步骤S13中,基于所述相似性计算结果判断所述新增指标与各第一存量指标之间的相似性是否均小于预设阈值,若均小于预设阈值,则执行步骤S14,否则结束流程,将该新增指标暂时判定为重复指标并不再将该新增指标加入至指标体系中,以避免重复指标的加入,或者在一些实施方式中,输出该指标,采用其它方式或者由工作人员进一步判定该指标是否为重复指标。
在步骤S14中,将所述新增指标加入至所述指标体系。
本实施例新增指标加入指标体系之前,首先计算该新增指标与指标体系中各第一存量指标之间的相似性,并基于相似性计算结果决定该新增指标是否加入指标体系,替代人工核查方式,智能筛除新增指标是否为重复指标或者相似指标,降低人工成本的基础上,避免了主观因素所造成的判断不准确问题,进而有效维护指标体系的结构秩序,以最终实现企业级统一数据指标体系的建立过程中的规范化管理。
请参照图3,图3为本公开另一实施例提供的一种指标相似性判断方法的流程示意图,在上一实施例的基础上,本实施例通过建立指标字典,提供指标拆解的依据,并设定维度、属性等拆分方法,解决复杂指标难以确认是否存在的过程,提高指标拆解效率,进而提高指标相似性判断效率,且在相似性判断过程中,考虑维度相似和维值相似的加权判定方式,有利于后续指标体系的血缘关系的建立。具体地,与上一实施例相比,所述方法还包括步骤S31,并将步骤S121进一步划分为步骤S1211。
在步骤S31中,建立指标字典,所述指标字典划分基础指标和组合指标,其中所述组合指标包括基础指标以及修饰基础指标的维度和属性。
在一些实施方式中,指标字典除了基础指标、组合指标之外还可以包括其它指标,例如还可以包括综合管理指标,其中,指标通常为统计级数据,如“5G套餐用户数”,而非一个个用户,或若干条数据。本实施例中,
基础指标:指标的无法再拆分的原子单位,如“用户数”;
属性:修饰基础指标的词汇,如“活跃用户”中的“活跃”,为属性,因为活跃是需要进一步定义的,不像是5G套餐,宽带这类主体,可直接获取、又对应主体的为维度-维值;
维度:修饰基础指标,可缩小基础指标统计的范围,如“用户数”为基础指标,“5G活跃用户”为组合指标,“5G”为维度“网络制式”对应的维值,维值将统计用户的范围限制在了5G业务这个范围内。维度中,还有几个基础的维度,时间维度和地域维度,包括年、月、周、日、时,省、市、区、县、镇等等,可以理解的是,维度是通过某种途径,修饰基础指标的分类,实际修饰指标的是维值。
组合指标:多个维度修饰基础指标,不断限制范围而形成的,或是基础指标、组合指标通过加减乘除等操作计算而来的指标。
综合管理指标:组合指标或基础指标,通过逻辑运算“且”和“或”和“异或”计算而来的指标。
在一种实施方式中,上述指标字典不仅可用于进行指标拆解,也可以用于建立指标体系,具体而言,根据以上指标字典中定义,整理现有的基础指标、维度维值、组合指标和综合管理指标,建立基础的指标体系,指标体系中各指标可以包括指标名称、指标含义、指标底层加工SQL代码等内容。
在步骤S1211中,基于所述指标字典分别拆解所述新增指标以及各第一存量指标。
本实施例中,根据指标字典进行指标拆解,其中指标拆解可依托现有的分词工具包,如“结巴”分词工具,把维度-维值、基础指标作为分词的字典(字典内的部分,不再进行细化切词)。例如:
指标“近一年北京市活跃融合套餐出账用户数”,通过分词变成:
时间维度空间维度属性其他维度属性基础指标
近一年北京市活跃融合套餐出账用户数
上述分词内容中,融合套餐为维度“套餐”的维值,为便于查找及分析,在一种实施方式中,每个指标以{key:value}的嵌套格式存储,并可将属性按照拼音字母排序,维值也按照其归属的维度、本身名字的拼音字母进行排序。例如:指标名称:{时间维度:{近一年};空间维度:{北京市};属性:{活跃,出账},其他维度:{融合套餐},基础指标:{用户数}}。
此处需要说明的是,指标判重时,可以不考虑时间维度和空间维度,两维度不对指标核心业务含义有影响。
进一步地,基于所述新增指标的拆解结果以及各第一存量指标的拆解结果计算所述新增指标与指标体系中的各第一存量指标之间的相似性(步骤S122),包括以下步骤:
基于所述新增指标的拆解结果判断所述新增指标是否为基础指标;
若不是基础指标,则从所述新增指标中的拆解结果中获取所述新增指标的基础指标、维度和属性,以及从各第一存量指标的拆解结果中获取各第一存量指标中不是基础指标的各第二存量指标的基础指标、维度和属性;
从各第二存量指标中筛选出与所述新增指标的基础指标相同的各第三存量指标,并获取各第三存量指标的维度和属性;
分别计算所述基础指标的维度和属性与各第三存量指标的维度和属性之间的相似性,得到第二相似性计算结果;以及,
基于所述第二相似性计算结果得到第一相似性计算结果。
具体地,用户需要新增指标时,判断该新增指标是否已经存在类似指标。以下为本实施例的其中一种实施方式:
首先将新增指标I_new的切词结果,去除掉时间维度和空间维度,并转化为向量:指标名称:{属性:{属性1,属性2},其他维度:{维值1,维值2},基础指标:{指标1}},为便于计算,可以转换为公式记作:I_new={property:{property_i},dim:{dim_i},base:{ind_i}};i为大于等于1的自然数。
A.如新增指标为基础指标,判定为重复指标,不能增加。
B.非A情况下:
按照维度的结构,根据维值,查找该维值对应的维度;公式记作:key指维度,val指维值
I_new={property:{property_i},dim:{dim_i_key:dim_i_val},base:{ind_i}};i为大于等于1的自然数。如,维值:融合套餐,对应的维度是“套餐类型”
C.按照该指标涉及的基础指标、维度和属性,遍历指标体系中所有非基础指标(第二存量指标),提取具备基础指标的存量指标(第三存量指标),该第三存量指标集合记作Ic,集合内总计c个指标;针对Ic中每个指标,基座Ii,i=1,2,3,…,c,
根据以下公式计算属性相似值:
Sim1=count(I_new.property∩Ii.property)/count(I_new.property+Ii.property)
根据以下公式计算维度相似:
Sim2=count(I_new.dim_i_val∩Ii.dim_i_val)/count(I_new.dim_i_val+Ii.dim_i_val)
如果该值Sim2!=0,
相似度SIM=(Sim1+Sim2)/2
如果Sim2=0,计算Sim3,
Sim3=count(I_new.dim_i_key∩Ii.dim_i_key)/count(I_new.dim_i_key+Ii.dim_i_key)。
相似度Sim=Sim1*0.5+Sim3*0.25
最后,将最终计算获得的Sim输出给用户,并展示Sim值大于0.7(阈值可调)的指标,以便需求人员查看是否有完全相似指标,或高度相似指标。
可以理解的是,上述Sim1、Sim2、Sim3即为第二相似性计算结果,SIM、Sim为两种不同情况下所计算出的第一相似度计算结果。
进一步地,当判断该新增指标为基础指标时,直接判定该指标为重复指标,无需再进行指标相似性计算,提高指标相似性判断效率,具体地,在基于所述新增指标的拆解结果判断所述新增指标是否为基础指标之后,还包括以下步骤:
若是基础指标,则判定所述新增指标时重复指标,并跳出基于所述相似性计算结果判断所述新增指标与各第一存量指标之间的相似性是否均小于预设阈值的步骤。
请参照图4,图4为本公开又一实施例提供的一种指标相似性判断方法的流程示意图,本实施例在上述实施例的基础上,在未接收到新增指标时,对指标体系中的存量指标进行重复性自查,以在已有指标库中自动获取加工逻辑一致、但名称不一致的指标,以规范化企业级数据指标体系,具体地,在判断是否接收到新增指标(S11)之后,还包括:
在步骤S41中,若未接收到新增指标,则判断指标体系中的各第一存量指标中是否存在重复指标,若是,则执行步骤S42,否则结束流程。
在步骤S42中,剔除所述重复指标。
进一步地,本实施例通过根据存量指标的底层SQL代码,进行字表实现过程的拆解,以获取指标的加工逻辑,筛选出看似不同、实质相同的重复指标,具体地,所述判断指标体系中的各第一存量指标中是否存在重复指标(S41),包括以下步骤:
获取各第一存量指标的底层结构化查询语言SQL语言;
对各第一存量指标的SQL语言进行拆分,得到各第一存量指标的拆分结果;以及,
基于各第一存量指标的拆分结果判断各第一存量指标中是否存在重复指标。
本实施例中,主要处理指标都已经建立,但是对于部分指标,指标名称不一样,但是本质的处理逻辑是一样的,通过筛选出此类指标以规范指标体系。
在现有的指标体系中,每个指标都存储相应的SQL(Structured Query Language,结构化查询)语言,根据该SQL语言可以获得指标的加工逻辑:
(1)在数据库中,获取SQL的执行计划,可以通过EXPLAIN关键字实现。计算过程,一般为:
select[count|ave|sum](数据字段)from表/视图
join(左、右、全)表/视图on表/视图A.字段=表/视图表B.字段
where筛选条件
group by分组依据
having count筛选条件
比如说,某个指标,有很多筛选条件,数据库引擎会根据其最优的模式,调整实际执行的顺序,他的执行计划,就是实际执行的顺序。
(2)根据执行计划,对指标SQL语言进行拆分,获取指标的主体和限制:
1.基础指标:数据字段和前面的度量,即基础指标----“[count|ave|sum](数据字段)”
2.属性和维度的提取:
属性和维度的提取较为复杂,在实际应用中,不在于一一对应,只在于提取主要的处理逻辑即可。包括:
(1)关联表/视图:{名1,名2};
(2)基础限制(where语句中):{主体:取值范围;主体:取值范围};里面的主题条件,默认为and的关系。如A>3,主体就是A,取值范围就是(3,+inf),
(3)是否存在or,如果存在将or的语句,根据or的处理位置,分成多组取值内容。例如select A.name from A join B on A.id=B.id where A.col1>3and(B.col1>6orB.col1<3)那么就会有两组限制条件,一组是{A.col1:(3,+inf);B.col1:(6,+inf)},另外一组是{A.col1:(3,+inf);B.col1:(-inf,3)}
(4)分组限制:{主体}group by对应语句
(5)having count限制:{主体:取值范围}
根据上述方式,就可以把一个指标加工的逻辑,拆解为一系列数据项存储,进而根据拆解结果进行分析识别,具体而言,所有第一存量指标按照上述方式,将SQL语言拆解成主体(基础指标)和限制,然后按照存储的主体(表和列),将表和列相同的划分成多个基础指标相同的子集,形成子集C,C={C1,C2,……,Cn},每个Ci表示具有相同基础指标的指标集;然后针对每个Ci,进行操作,对比Ci所有指标,首先按照group by、having count进行分组;最后,提取出每个分组内限制内容,包括限制字段、取值范围等内容都完全相同的指标,这些指标就是重复指标,输出这些指标。
相较于相关技术,本实施例首先是避免由于SQL语句差异,导致无法提取相同的指标,把SQL语句拆分成实际的主体(基础指标)、限制条件和取值范围,屏蔽细节,提取关键内容进行判定,实现指标的高效查重。
基于相同的技术构思,本公开实施例相应还提供一种指标相似性判断系统,如图5所示,所述系统包括:
第一判断模块51,其设置为判断是否接收到新增指标;
计算模块52,其设置为在判断模块判断为接收到新增指标时,计算所述新增指标与指标体系中的各第一存量指标之间的相似性,得到第一相似性计算结果;
第二判断模块53,其设置为基于所述相似性计算结果判断所述新增指标与各第一存量指标之间的相似性是否均小于预设阈值;
加入模块54,其设置为在第二判断模块判断为均小于预设阈值时,将所述新增指标加入至所述指标体系。
在一种实施方式中,所述计算模块52,包括:
拆解单元,其设置为分别拆解所述新增指标以及各第一存量指标,得到所述新增指标的拆解结果以及各第一存量指标的拆解结果;
计算单元,其设置为基于所述新增指标的拆解结果以及各第一存量指标的拆解结果计算所述新增指标与指标体系中的各第一存量指标之间的相似性。
在一种实施方式中,所述系统还包括:
建立指标字典,所述指标字典划分基础指标和组合指标,其中所述组合指标包括基础指标以及修饰基础指标的维度和属性;
分别拆解单元具体设置为,基于所述指标字典分别拆解所述新增指标以及各第一存量指标。
在一种实施方式中,所述计算单元包括:
判断元件,其设置为基于所述新增指标的拆解结果判断所述新增指标是否为基础指标;
获取元件,其设置为在判断元件判断为不是基础指标时,从所述新增指标中的拆解结果中获取所述新增指标的基础指标、维度和属性,以及从各第一存量指标的拆解结果中获取各第一存量指标中不是基础指标的各第二存量指标的基础指标、维度和属性;
筛选元件,其设置为从各第二存量指标中筛选出与所述新增指标的基础指标相同的各第三存量指标,并获取各第三存量指标的维度和属性;
计算元件,其设置为分别计算所述基础指标的维度和属性与各第三存量指标的维度和属性之间的相似性,得到第二相似性计算结果;以及,
所述计算元件还设置为,基于所述第二相似性计算结果得到第一相似性计算结果。
在一种实施方式中,所述系统还包括:
判定跳出模块,其设置为在判断元件判断为是基础指标时,判定所述新增指标时重复指标,并跳出第二判断模块53基于所述相似性计算结果判断所述新增指标与各第一存量指标之间的相似性是否均小于预设阈值。
在一种实施方式中,所述系统还包括:
判断剔除模块,其设置为在第一判断模块51判断为未接收到新增指标时,判断指标体系中的各第一存量指标中是否存在重复指标,若是,则剔除所述重复指标。
在一种实施方式中,所述判断剔除模块,包括:
获取单元,其设置为获取各第一存量指标的底层结构化查询语言SQL语言;
拆分单元,其设置为对各第一存量指标的SQL语言进行拆分,得到各第一存量指标的拆分结果;以及,
重复判断单元,其设置为基于各第一存量指标的拆分结果判断各第一存量指标中是否存在重复指标。
基于相同的技术构思,本公开实施例相应还提供一种终端设备,如图6所示,所述终端设备包括存储器61和处理器62,所述存储器61中存储有计算机程序,当所述处理器62运行所述存储器61存储的计算机程序时,所述处理器执行所述的指标相似性判断方法。
基于相同的技术构思,本公开实施例相应还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,所述处理器执行所述的指标相似性判断方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
最后应说明的是:以上各实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述各实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

Claims (10)

1.一种指标相似性判断方法,其特征在于,包括:
判断是否接收到新增指标;
若接收到新增指标,则计算所述新增指标与指标体系中的各第一存量指标之间的相似性,得到第一相似性计算结果;
基于所述相似性计算结果判断所述新增指标与各第一存量指标之间的相似性是否均小于预设阈值;
若均小于预设阈值,则将所述新增指标加入至所述指标体系。
2.根据权利要求1所述的方法,其特征在于,计算所述新增指标与指标体系中的各第一存量指标之间的相似性,包括:
分别拆解所述新增指标以及各第一存量指标,得到所述新增指标的拆解结果以及各第一存量指标的拆解结果;
基于所述新增指标的拆解结果以及各第一存量指标的拆解结果计算所述新增指标与指标体系中的各第一存量指标之间的相似性。
3.根据权利要求2所述的方法,其特征在于,还包括:
建立指标字典,所述指标字典划分基础指标和组合指标,其中所述组合指标包括基础指标以及修饰基础指标的维度和属性;
分别拆解所述新增指标以及各第一存量指标,包括:
基于所述指标字典分别拆解所述新增指标以及各第一存量指标。
4.根据权利要求3所述的方法,其特征在于,基于所述新增指标的拆解结果以及各第一存量指标的拆解结果计算所述新增指标与指标体系中的各第一存量指标之间的相似性,包括:
基于所述新增指标的拆解结果判断所述新增指标是否为基础指标;
若不是基础指标,则从所述新增指标中的拆解结果中获取所述新增指标的基础指标、维度和属性,以及从各第一存量指标的拆解结果中获取各第一存量指标中不是基础指标的各第二存量指标的基础指标、维度和属性;
从各第二存量指标中筛选出与所述新增指标的基础指标相同的各第三存量指标,并获取各第三存量指标的维度和属性;
分别计算所述基础指标的维度和属性与各第三存量指标的维度和属性之间的相似性,得到第二相似性计算结果;以及,
基于所述第二相似性计算结果得到第一相似性计算结果。
5.根据权利要求4所述的方法,其特征在于,在基于所述新增指标的拆解结果判断所述新增指标是否为基础指标之后,还包括:
若是基础指标,则判定所述新增指标时重复指标,并跳出基于所述相似性计算结果判断所述新增指标与各第一存量指标之间的相似性是否均小于预设阈值的步骤。
6.根据权利要求1所述的方法,其特征在于,在判断是否接收到新增指标之后,还包括:
若未接收到新增指标,则判断指标体系中的各第一存量指标中是否存在重复指标,若是,则剔除所述重复指标。
7.根据权利要求6所述的方法,其特征在于,所述判断指标体系中的各第一存量指标中是否存在重复指标,包括:
获取各第一存量指标的底层结构化查询语言SQL语言;
对各第一存量指标的SQL语言进行拆分,得到各第一存量指标的拆分结果;以及,
基于各第一存量指标的拆分结果判断各第一存量指标中是否存在重复指标。
8.一种指标相似性判断系统,其特征在于,包括:
第一判断模块,其设置为判断是否接收到新增指标;
计算模块,其设置为在判断模块判断为接收到新增指标时,计算所述新增指标与指标体系中的各第一存量指标之间的相似性,得到第一相似性计算结果;
第二判断模块,其设置为基于所述相似性计算结果判断所述新增指标与各第一存量指标之间的相似性是否均小于预设阈值;
加入模块,其设置为在第二判断模块判断为均小于预设阈值时,将所述新增指标加入至所述指标体系。
9.一种终端设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行权利要求1至7中任一项所述的指标相似性判断方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时,所述处理器执行权利要求1至7中任一项所述的指标相似性判断方法。
CN202111354644.7A 2021-11-16 2021-11-16 指标相似性判断方法、系统、终端设备及计算机存储介质 Pending CN114049016A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111354644.7A CN114049016A (zh) 2021-11-16 2021-11-16 指标相似性判断方法、系统、终端设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111354644.7A CN114049016A (zh) 2021-11-16 2021-11-16 指标相似性判断方法、系统、终端设备及计算机存储介质

Publications (1)

Publication Number Publication Date
CN114049016A true CN114049016A (zh) 2022-02-15

Family

ID=80209292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111354644.7A Pending CN114049016A (zh) 2021-11-16 2021-11-16 指标相似性判断方法、系统、终端设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN114049016A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115438036A (zh) * 2022-11-10 2022-12-06 广州信安数据有限公司 电网统一指标库数据冗余处理系统及方法
WO2023206875A1 (zh) * 2022-04-29 2023-11-02 上海跬智信息技术有限公司 基于指标距离的指标去重方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023206875A1 (zh) * 2022-04-29 2023-11-02 上海跬智信息技术有限公司 基于指标距离的指标去重方法及装置
CN115438036A (zh) * 2022-11-10 2022-12-06 广州信安数据有限公司 电网统一指标库数据冗余处理系统及方法

Similar Documents

Publication Publication Date Title
US20140207786A1 (en) System and methods for computerized information governance of electronic documents
KR20150080533A (ko) 데이터 저장 시스템에서 데이터 소스 특성화
CN110659282B (zh) 数据路由的构建方法、装置、计算机设备和存储介质
CN114049016A (zh) 指标相似性判断方法、系统、终端设备及计算机存储介质
CN105912594B (zh) Sql语句处理方法和系统
CN112463774B (zh) 文本数据的去重方法、设备及存储介质
CN104756113A (zh) 用于检测数据源中的偏差的方法、设备和计算机程序
CN114297140A (zh) 一种基于人工智能的档案管理系统
CN113920366A (zh) 一种基于机器学习的综合加权主数据识别方法
CN112214609B (zh) 一种基于知识图谱的审计方法和系统
CN110765100B (zh) 标签的生成方法、装置、计算机可读存储介质及服务器
CN112363996A (zh) 用于建立电网知识图谱的物理模型的方法及系统和介质
CN113535966A (zh) 知识图谱的创建方法、信息获取的方法、装置和设备
CN113094424B (zh) 通过构建多级指标体系进行图表模式识别的方法和系统
CN113722421B (zh) 一种合同审计方法和系统,及计算机可读存储介质
CN114328937A (zh) 一种科研机构信息处理方法及装置
KR20110099319A (ko) 자동적인 데이터 저장소 아키텍처 검출
CN113138936B (zh) 数据处理方法、装置、存储介质及处理器
CN114610791B (zh) 数据血缘关系的分析方法、装置、计算机设备及存储介质
Solodovnikova et al. Architecture Enabling Adaptation of Data Integration Processes for a Research Information System
CN117763059B (zh) 一种数据仓库和数据集市的模型构建方法及系统
CN116401177B (zh) 一种ddl正确性检测方法、设备及介质
CN114647615A (zh) 一种文档的归集方法、装置及计算机存储介质
WO2022164387A1 (en) Method and system for deduplicating point of interest databases
CN117931997A (zh) 新闻事件的梳理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination