CN106776861A - 一种指标一致性分析方法及分析系统 - Google Patents

一种指标一致性分析方法及分析系统 Download PDF

Info

Publication number
CN106776861A
CN106776861A CN201611070283.2A CN201611070283A CN106776861A CN 106776861 A CN106776861 A CN 106776861A CN 201611070283 A CN201611070283 A CN 201611070283A CN 106776861 A CN106776861 A CN 106776861A
Authority
CN
China
Prior art keywords
index
variable
dimension
relation
sql sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611070283.2A
Other languages
English (en)
Inventor
王全胜
梅科夫
冯文
汪超
高伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Yaxin Anhui Technology Co Ltd
Original Assignee
Data Co Ltd Of Beijing Asiainfo
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Data Co Ltd Of Beijing Asiainfo filed Critical Data Co Ltd Of Beijing Asiainfo
Priority to CN201611070283.2A priority Critical patent/CN106776861A/zh
Publication of CN106776861A publication Critical patent/CN106776861A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Quality & Reliability (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种指标一致性分析方法及分析系统,其中,所述指标一致性分析方法通过对所述第一指标和第二指标分别进行名称一致性分析和定义一致性分析,分别判断所述第一指标和第二指标的名称一致性关系和定义一致性关系,最后根据所述第一指标和第二指标的名称一致性关系和定义一致性关系判断所述第一指标和第二指标的一致性关系,避免根据所述第一指标和第二指标的名称和业务定义描述来判断所述第一指标和第二指标的一致性关系,造成的准确性低的问题。这是因为所述第一指标和第二指标的定义(统计口径或计算方法)具有唯一且确定的特性,不会出现由于人为描述的不清楚或不准确而造成根据一致性判断不准确的情况出现。

Description

一种指标一致性分析方法及分析系统
技术领域
本申请涉及指标分析技术领域,更具体地说,涉及一种指标一致性分析方法及分析系统。
背景技术
指标是说明总体数量特征的概念,例如在工业普查中,所有工业企业构成总体,工业企业总数、工业职工总数、利润总额等都是所述指标,它们都从不同的方面反映总体的数量特征。对于一个企业来讲,在长期的经营过程中,会产生大量的指标来描述企业的业务和经营状态,指标的名称都是人为命名的,然后赋予指标相应的编码、单位、类别、业务定义描述和指标定义(指标统计口径或计算方法)就生成了一个完整的指标进而参与到对企业的业务和经营状态的描述中去。由于指标的制定都是人为的,这样就不可避免的造成很多具有一致性关系的指标出现。所述一致性关系包括一致、同名不同义、同义不同名和指标名称与指标定义关系异常。
现有技术中对于大量指标的管理主要通过人为分析每个指标的名称和业务定义描述来判断两个指标是否存在所述一致性关系。但是由于每个指标的业务定义描述也是该指标创建时人为对该指标的性质的描述,存在不规范或描述不准确的情况,这就使得指标管理人员很难通过指标的名称和业务定义描述来准确判断两个指标的一致性关系。
发明内容
为解决上述技术问题,本发明提供了一种指标一致性分析方法及分析系统,以解决通过指标的名称和业务定义描述很难准确判断两个指标的一致性关系的问题。
为解决上述技术问题,本发明实施例提供了如下技术方案:
一种指标一致性分析方法,包括:
对输入的第一指标和第二指标进行名称一致性分析,判断所述第一指标和第二指标的名称一致性关系,所述名称一致性关系包括名称一致、名称不一致和名称包含;
对所述第一指标和第二指标进行定义一致性分析,判断所述第一指标和第二指标的定义一致性关系,所述定义一致性关系包括定义一致、定义不一致和定义包含;
根据所述第一指标和第二指标的名称一致性关系和定义一致性关系判断所述第一指标和第二指标的一致性关系,所述一致性关系包括一致关系、无关关系、同名不同义关系、同义不同名关系和异常关系。
可选的,所述对输入的第一指标和第二指标进行名称一致性分析,判断所述第一指标和第二指标的名称一致性关系包括:
根据通用词库对输入的第一指标和第二指标进行分词处理,获得多个第一指标词段和多个第二指标词段;
根据维度词库和度量词库将所述多个第一指标词段划分为一个所述第一指标的度量变量和至少一个所述第一指标的维度变量;
根据所述维度词库和度量词库将所述多个第二指标词段划分为一个所述第二指标的度量变量和至少一个所述第二指标的维度变量;
根据所述第一指标的度量变量、至少一个所述第一指标的维度变量、所述第二指标的度量变化、至少一个所述第二指标的维度变量和同义词词库判断所述第一指标和第二指标的名称一致性关系。
可选的,所述根据所述第一指标的度量变量、至少一个所述第一指标的维度变量、所述第二指标的度量变化、至少一个所述第二指标的维度变量和同义词词库判断所述第一指标和第二指标的名称一致性关系包括:
判断所述第一指标的度量变量与所述第二指标的度量变量是否相同,如果是,则判定所述第一指标的度量变量与所述第二指标的度量变量一致;如果否,则根据同义词词库判断所述第一指标的度量变量是否为所述第二指标的度量变量的同义词,若是,则判定所述第一指标的度量变量与所述第二指标的度量变量一致,若否,则判定所述第一指标的度量变量与所述第二指标的度量变量不一致;
将所述至少一个第一指标的维度变量作为维度变量集合,抽取所述维度变量集合中的一个所述第一指标的维度变量作为目标变量,抽取的所述第一指标的维度变量不再作为所述维度变量集合的元素;
判断所述至少一个第二指标的维度变量中是否存在与所述目标变量相同的第二指标的维度变量,如果是,则判定与所述目标变量相同的第二指标的维度变量与所述目标变量一致,如果否,则根据同义词词库判断所述至少一个第二指标的维度变量的同义词中是否存在与所述目标变量相同的维度变量,若是,则判定同义词与所述目标变量相同的第二指标的维度变量与所述目标变量为一致,若否,则判定所述目标变量与所述至少一个第二指标的维度变量不一致;
判断所述目标变量是否为空,如果否,则返回抽取所述维度变量集合中的一个所述第一指标的维度变量作为目标变量的步骤;如果是,则统计所述至少一个第一指标的维度变量数量、所述至少一个第二指标的维度变量的数量、所述至少一个第一指标的维度变量数量与所述至少一个第二指标的维度变量的一致数量;
根据所述第一指标的度量变量与所述第二指标的度量变量的一致与否,以及所述至少一个第一指标的维度变量数量、所述至少一个第二指标的维度变量的数量、所述至少一个第一指标的维度变量与所述至少一个第二指标的维度变量的一致数量判定所述第一指标和第二指标的名称一致性关系。
可选的,所述根据所述第一指标的度量变量与所述第二指标的度量变量的一致与否,以及所述至少一个第一指标的维度变量数量、所述至少一个第二指标的维度变量的数量、所述至少一个第一指标的维度变量与所述至少一个第二指标的维度变量的一致数量判定所述第一指标和第二指标的名称一致性关系包括:
当所述第一指标的度量变量与所述第二指标的度量变量不一致时,所述第一指标和第二指标的名称一致性关系为名称不一致;
当所述第一指标的度量变量与所述第二指标的度量变量一致、所述至少一个第一指标的维度变量数量等于所述至少一个第二指标的维度变量的数量,且所述至少一个第一指标的维度变量与所述至少一个第二指标的维度变量的一致数量等于所述第一指标的维度变量或所述第二指标的维度变量数量时,所述第一指标和第二指标的名称一致性关系为名称一致;
当所述第一指标的度量变量与所述第二指标的度量变量一致、所述至少一个第一指标的维度变量数量小于或大于所述至少一个第二指标的维度变量的数量,且所述至少一个第一指标的维度变量与所述至少一个第二指标的维度变量的一致数量等于所述至少一个第一指标的维度变量时或所述至少一个第二指标的维度变量的数量时,所述第一指标和第二指标的名称一致性关系为名称包含。
可选的,所述对所述第一指标和第二指标进行定义一致性分析,判断所述第一指标和第二指标的定义一致性关系包括:
对输入的第一指标的第一结构化查询语言sql语句和第二指标的第二sql语句进行解析,获得所述第一sql语句的第一数据表和第二sql语句的第二数据表;
判断所述第一数据表和第二数据表是否相同,如果是,则根据所述第一sql语句和第二sql语句判断所述第一指标和第二指标的定义一致性关系;如果否,则根据数据表血缘关系数据库查询所述第一数据表的所有源表和所述第二数据表的所有源表,判断所述第一数据库的所有源表与所述第二数据表的所有源表是否存在相同的数据表,若否,则判定所述第一sql语句与所述第二sql语句之间的定义一致性关系为不一致;若是,则将该数据表作为目标数据表,将所述第一sql语句转换为关于目标数据表的第三sql语句,将所述第二sql语句转换为关于目标数据表的第四sql语句,并将所述第三sqp语句作为新的第一sql语句,将所述第四sql语句作为新的第二sql语句,返回根据所述第一sql语句和第二sql语句判断所述第一指标和第二指标的定义一致性关系的步骤;
所述数据表血缘关系数据库中存储有数据表之间的血缘关系。
可选的,所述根据所述第一sql语句和第二sql语句判断所述第一指标和第二指标的定义一致性关系包括:
对所述第一sql语句和第二sql语句进行解析处理,获得所述第一sql语句的TWhere对象以及所述第二sql语句的TWhere对象;
从所述第一sql语句的TWhere对象和所述第二sql语句的TWhere对象的节点中获取多个第一子条件和多个第二子条件,所述第一子条件为从所述第一sql语句的TWhere对象中获取的子条件,所述第二子条件为从所述第二sql语句的TWhere对象中获取的子条件;
根据所述多个第一子条件和多个第二子条件判断所述第一sql语句和第二sql语句之间的定义一致性关系。
可选的,所述根据所述第一指标和第二指标的名称一致性关系和定义一致性关系判断所述第一指标和第二指标的一致性关系之后还包括:
根据所述第一指标和第二指标的一致性关系给出关于所述第一指标和第二指标的优化策略,所述优化策略包括合并、修改指标名称、修改统计口径和下线指标。
可选的,所述根据所述第一指标和第二指标的名称一致性关系和定义一致性关系判断所述第一指标和第二指标的一致性关系之后还包括:
对具有一致关系的所述第一指标和第二指标,判断所述第一指标和第二指标的数据是否一致,如果是,则对所述第一指标或所述第二指标进行下线指标处理;
对名称一致性关系为包含关系的所述第一指标和第二指标,判断所述第一指标和第二指标的数据关系是否与所述第一指标和第二指标名称一致性关系相违背,如果是,则确定所述第一指标和第二指标为异常关系。
一种指标一致性分析系统,包括:
名称分析模块,用于对输入的第一指标和第二指标进行名称一致性分析,判断所述第一指标和第二指标的名称一致性关系,所述名称一致性关系包括名称一致、名称不一致和名称包含;
定义分析模块,用于对所述第一指标和第二指标进行定义一致性分析,判断所述第一指标和第二指标的定义一致性关系,所述定义一致性关系包括定义一致、定义不一致和定义包含;
判断模块,用于根据所述第一指标和第二指标的名称一致性关系和定义一致性关系判断所述第一指标和第二指标的一致性关系,所述一致性关系包括一致关系、无关关系、同名不同义关系、同义不同名关系和异常关系。
可选的,所述名称分析模块包括:
分词单元,用于根据通用词库对输入的第一指标和第二指标进行分词处理,获得多个第一指标词段和多个第二指标词段;
第一匹配单元,用于根据维度词库和度量词库将所述多个第一指标词段划分为一个所述第一指标的度量变量和至少一个所述第一指标的维度变量;
第二匹配单元,用于根据所述维度词库和度量词库将所述多个第二指标词段划分为一个所述第二指标的度量变量和至少一个所述第二指标的维度变量;
第一判断单元,用于根据所述第一指标的度量变量、至少一个所述第一指标的维度变量、所述第二指标的度量变化、至少一个所述第二指标的维度变量和同义词词库判断所述第一指标和第二指标的名称一致性关系。
可选的,所述第一判断单元包括:
度量变量判断单元,用于判断所述第一指标的度量变量与所述第二指标的度量变量是否相同,如果是,则判定所述第一指标的度量变量与所述第二指标的度量变量一致;如果否,则根据同义词词库判断所述第一指标的度量变量是否为所述第二指标的度量变量的同义词,若是,则判定所述第一指标的度量变量与所述第二指标的度量变量一致,若否,则判定所述第一指标的度量变量与所述第二指标的度量变量不一致;
维度变量抽取单元,用于将所述至少一个第一指标的维度变量作为维度变量集合,抽取所述维度变量集合中的一个所述第一指标的维度变量作为目标变量,抽取的所述第一指标的维度变量不再作为所述维度变量集合的元素;
第二判断单元,用于判断所述至少一个第二指标的维度变量中是否存在与所述目标变量相同的第二指标的维度变量,如果是,则判定与所述目标变量相同的第二指标的维度变量与所述目标变量一致,如果否,则根据同义词词库判断所述至少一个第二指标的维度变量的同义词中是否存在与所述目标变量相同的维度变量,若是,则判定同义词与所述目标变量相同的第二指标的维度变量与所述目标变量为一致,若否,则判定所述目标变量与所述至少一个第二指标的维度变量不一致;
第三判断单元,用于判断所述目标变量是否为空,如果否,则返回所述维度变量抽取单元;如果是,则统计所述至少一个第一指标的维度变量数量、所述至少一个第二指标的维度变量的数量、所述至少一个第一指标的维度变量数量与所述至少一个第二指标的维度变量的一致数量;
第四判断单元,用于根据所述第一指标的度量变量与所述第二指标的度量变量的一致与否,以及所述至少一个第一指标的维度变量数量、所述至少一个第二指标的维度变量的数量、所述至少一个第一指标的维度变量与所述至少一个第二指标的维度变量的一致数量判定所述第一指标和第二指标的名称一致性关系。
可选的,所述第四判断单元具体用于,当所述第一指标的度量变量与所述第二指标的度量变量不一致时,所述第一指标和第二指标的名称一致性关系为名称不一致;
当所述第一指标的度量变量与所述第二指标的度量变量一致、所述至少一个第一指标的维度变量数量等于所述至少一个第二指标的维度变量的数量,且所述至少一个第一指标的维度变量与所述至少一个第二指标的维度变量的一致数量等于所述第一指标的维度变量或所述第二指标的维度变量数量时,所述第一指标和第二指标的名称一致性关系为名称一致;
当所述第一指标的度量变量与所述第二指标的度量变量一致、所述至少一个第一指标的维度变量数量小于或大于所述至少一个第二指标的维度变量的数量,且所述至少一个第一指标的维度变量与所述至少一个第二指标的维度变量的一致数量等于所述至少一个第一指标的维度变量时或所述至少一个第二指标的维度变量的数量时,所述第一指标和第二指标的名称一致性关系为名称包含。
可选的,所述定义分析模块包括:
sql解析单元,用于对输入的第一指标的第一结构化查询语言sql语句和第二指标的第二sql语句进行解析,获得所述第一sql语句的第一数据表和第二sql语句的第二数据表;
第五判断单元,用于判断所述第一数据表和第二数据表是否相同,如果是,则根据所述第一sql语句和第二sql语句判断所述第一指标和第二指标的定义一致性关系;如果否,则根据数据表血缘关系数据库查询所述第一数据表的所有源表和所述第二数据表的所有源表,判断所述第一数据库的所有源表与所述第二数据表的所有源表是否存在相同的数据表,若否,则判定所述第一sql语句与所述第二sql语句之间的定义一致性关系为不一致;若是,则将该数据表作为目标数据表,将所述第一sql语句转换为关于目标数据表的第三sql语句,将所述第二sql语句转换为关于目标数据表的第四sql语句,并将所述第三sqp语句作为新的第一sql语句,将所述第四sql语句作为新的第二sql语句,返回根据所述第一sql语句和第二sql语句判断所述第一指标和第二指标的定义一致性关系的步骤;
所述数据表血缘关系数据库中存储有数据表之间的血缘关系。
可选的,所述第五判断单元具体用于,判断所述第一数据表和第二数据表是否相同,如果是,则对所述第一sql语句和第二sql语句进行解析处理,获得所述第一sql语句的TWhere对象以及所述第二sql语句的TWhere对象;
从所述第一sql语句的TWhere对象和所述第二sql语句的TWhere对象的节点中获取多个第一子条件和多个第二子条件,所述第一子条件为从所述第一sql语句的TWhere对象中获取的子条件,所述第二子条件为从所述第二sql语句的TWhere对象中获取的子条件;
根据所述多个第一子条件和多个第二子条件判断所述第一sql语句和第二sql语句之间的定义一致性关系;
如果否,则根据数据表血缘关系数据库查询所述第一数据表的所有源表和所述第二数据表的所有源表,判断所述第一数据库的所有源表与所述第二数据表的所有源表是否存在相同的数据表,若否,则判定所述第一sql语句与所述第二sql语句之间的定义一致性关系为不一致;若是,则将该数据表作为目标数据表,将所述第一sql语句转换为关于目标数据表的第三sql语句,将所述第二sql语句转换为关于目标数据表的第四sql语句,并将所述第三sqp语句作为新的第一sql语句,将所述第四sql语句作为新的第二sql语句,返回对所述第一sql语句和第二sql语句进行解析处理的步骤。
可选的,还包括:
优化策略模块,用于根据所述第一指标和第二指标的一致性关系给出关于所述第一指标和第二指标的优化策略,所述优化策略包括合并、修改指标名称、修改统计口径和下线指标。
可选的,还包括:
处理模块,用于对具有一致关系的所述第一指标和第二指标,判断所述第一指标和第二指标的数据是否一致,如果是,则对所述第一指标或所述第二指标进行下线指标处理;和用于对名称一致性关系为包含关系的所述第一指标和第二指标,判断所述第一指标和第二指标的数据关系是否与所述第一指标和第二指标名称一致性关系相违背,如果是,则确定所述第一指标和第二指标为异常关系。
从上述技术方案可以看出,本发明实施例提供了一种指标一致性分析方法及分析系统,其中,所述指标一致性分析方法通过对所述第一指标和第二指标分别进行名称一致性分析和定义一致性分析,分别判断所述第一指标和第二指标的名称一致性关系和定义一致性关系,最后根据所述第一指标和第二指标的名称一致性关系和定义一致性关系判断所述第一指标和第二指标的一致性关系,避免根据所述第一指标和第二指标的名称和业务定义描述来判断所述第一指标和第二指标的一致性关系,造成的准确性低的问题。这是因为所述第一指标和第二指标的定义(统计口径或计算方法)具有唯一且确定的特性,不会出现由于人为描述的不清楚或不准确而造成根据一致性判断不准确的情况出现。
并且,所述指标一致性分析方法可以依托所述指标一致性分析系统实现自动对所述第一指标和第二指标的一致性分析,减少了指标管理人员的工作量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1-图9为本申请的实施例提供的指标一致性分析方法的流程示意图;
图10为本申请的一个实施例提供的一种指标一致性分析系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例提供了一种指标一致性分析方法,如图1所示,包括:
S101:对输入的第一指标和第二指标进行名称一致性分析,判断所述第一指标和第二指标的名称一致性关系,所述名称一致性关系包括名称一致、名称不一致和名称包含。
需要说明的是,所述名称一致是指所述第一指标和第二指标的名称一致,比如“月有效通话客户数”和“月通话有效客户数”;所述名称不一致是指所述第一指标和第二指标的名称不相关,比如“月有效通话客户数”和“月有效短信客户数”;所述名称包含是指所述第一指标和第二指标的名称为包含关系,比如“月通话客户数”包含“月有效通话客户数”。
S102:对所述第一指标和第二指标进行定义一致性分析,判断所述第一指标和第二指标的定义一致性关系,所述定义一致性关系包括定义一致、定义不一致和定义包含。
需要说明的是,一般而言,一个指标一般包括编码、名称、单位、类别、业务定义描述和指标定义这些参数;其中,编码是一个指标的唯一标识,名称是指指标的短名称,例如活跃客户数等,单位是指标的计量单位,如户、万元等,类别是一个指标的分类,如收入类,市场竞争类等;业务定义描述是一个指标在创建时人为对目标属性或性质的文字描述;而指标定义是指一个指标的统计口径或计算公式,是该指标最终的数值来源的渠道或方式。那么通过对所述第一指标和第二指标进行定义一致性分析可以准确的获悉所述第一指标和第二指标的数值来源的渠道或方式的一致性关系,那么结合所述第一指标和第二指标的名称一致性关系就可以准确的判断出所述第一指标和第二指标的一致性关系,避免根据所述第一指标和第二指标的名称和业务定义描述来判断所述第一指标和第二指标的一致性关系,造成的准确性低的问题。
S103:根据所述第一指标和第二指标的名称一致性关系和定义一致性关系判断所述第一指标和第二指标的一致性关系,所述一致性关系包括一致关系、无关关系、同名不同义关系、同义不同名关系和异常关系。
在上述实施例的基础上,在本申请的一个实施例中,如图2所示,所述对输入的第一指标和第二指标进行名称一致性分析,判断所述第一指标和第二指标的名称一致性关系包括:
S1011:根据通用词库对输入的第一指标和第二指标进行分词处理,获得多个第一指标词段和多个第二指标词段。
例如,对于指标“月有效通话客户数”根据所述通用词库对其进行分词,获得“月”“有效”“通话”“客户数”这四个指标词段。
S1012:根据维度词库和度量词库将所述多个第一指标词段划分为一个所述第一指标的度量变量和至少一个所述第一指标的维度变量。
仍然以“月有效通话客户数”分成的“月”“有效”“通话”“客户数”这四个指标词段为例,将这四个指标词段在所述维度词库和度量词库中进行匹配发现,“月”“有效”“通话”属于维度变量,“客户数”属于度量变量。则“月有效通话客户数”这一指标有三个维度变量,分别是“月”“有效”和“通话”;有一个度量变量,为“客户数”。
S1013:根据所述维度词库和度量词库将所述多个第二指标词段划分为一个所述第二指标的度量变量和至少一个所述第二指标的维度变量。
S1014:根据所述第一指标的度量变量、至少一个所述第一指标的维度变量、所述第二指标的度量变化、至少一个所述第二指标的维度变量和同义词词库判断所述第一指标和第二指标的名称一致性关系。
需要说明的是,步骤S1011、S1012、S1013和S1014可以通过开源项目Luence,结合中文分词组件,采用正向迭代最细粒度切分算法完成。但本申请并不对其具体完成方式作出限定,具体视实际情况而定。
所述通用词库中存储有汉语词典词库,所述汉语词典包括但不限于辞海、中华大辞典和汉语大词典。所述维度词库中存储有用于指标中的所有维度变量;所述度量词库中存储有用于指标中的所有度量变量;所述同义词词库中存储有汉语词语之间的同义词关系。
在上述实施例的基础上,在本申请的另一个实施例中,如图3所示,所述根据所述第一指标的度量变量、至少一个所述第一指标的维度变量、所述第二指标的度量变化、至少一个所述第二指标的维度变量和同义词词库判断所述第一指标和第二指标的名称一致性关系包括:
S10141:判断所述第一指标的度量变量与所述第二指标的度量变量是否相同,如果是,则判定所述第一指标的度量变量与所述第二指标的度量变量一致;如果否,则根据同义词词库判断所述第一指标的度量变量是否为所述第二指标的度量变量的同义词,若是,则判定所述第一指标的度量变量与所述第二指标的度量变量一致,若否,则判定所述第一指标的度量变量与所述第二指标的度量变量不一致;
S10142:将所述至少一个第一指标的维度变量作为维度变量集合,抽取所述维度变量集合中的一个所述第一指标的维度变量作为目标变量,抽取的所述第一指标的维度变量不再作为所述维度变量集合的元素;
S10143:判断所述至少一个第二指标的维度变量中是否存在与所述目标变量相同的第二指标的维度变量,如果是,则判定与所述目标变量相同的第二指标的维度变量与所述目标变量一致,如果否,则根据同义词词库判断所述至少一个第二指标的维度变量的同义词中是否存在与所述目标变量相同的维度变量,若是,则判定同义词与所述目标变量相同的第二指标的维度变量与所述目标变量为一致,若否,则判定所述目标变量与所述至少一个第二指标的维度变量不一致;
S10144:判断所述目标变量是否为空,如果否,则返回抽取所述维度变量集合中的一个所述第一指标的维度变量作为目标变量的步骤;如果是,则统计所述至少一个第一指标的维度变量数量、所述至少一个第二指标的维度变量的数量、所述至少一个第一指标的维度变量数量与所述至少一个第二指标的维度变量的一致数量;
S10145:根据所述第一指标的度量变量与所述第二指标的度量变量的一致与否,以及所述至少一个第一指标的维度变量数量、所述至少一个第二指标的维度变量的数量、所述至少一个第一指标的维度变量与所述至少一个第二指标的维度变量的一致数量判定所述第一指标和第二指标的名称一致性关系。
本申请实施例仅提供了一种可行的步骤S1014的具体实施方式,在本申请的其他实施例中,还可以通过其他的比对方式完成,本申请对此并不做限定,具体视实际情况而定。
在上述实施例的基础上,在本申请的又一个实施例中,如图4所示,所述根据所述第一指标的度量变量与所述第二指标的度量变量的一致与否,以及所述至少一个第一指标的维度变量数量、所述至少一个第二指标的维度变量的数量、所述至少一个第一指标的维度变量与所述至少一个第二指标的维度变量的一致数量判定所述第一指标和第二指标的名称一致性关系包括:
S101451:当所述第一指标的度量变量与所述第二指标的度量变量不一致时,所述第一指标和第二指标的名称一致性关系为名称不一致。
比如对于指标“月有效通话客户数”的度量变量为“客户数”,“月有效通话次数”的度量变量为“通话次数”,且“客户数”和“通话次数”也不是同义词,则可以认为这两个指标的名称一致性关系为名称不一致。
S101452:当所述第一指标的度量变量与所述第二指标的度量变量一致、所述至少一个第一指标的维度变量数量等于所述至少一个第二指标的维度变量的数量,且所述至少一个第一指标的维度变量与所述至少一个第二指标的维度变量的一致数量等于所述第一指标的维度变量或所述第二指标的维度变量数量时,所述第一指标和第二指标的名称一致性关系为名称一致。
比如对于指标“月有效通话客户数”和“月通话有效客户数”这两个指标而言,它们的度量变量一致,维度变量数量相同,且两个指标一致的维度变量的数量等于这两个指标的维度变量的数量,这时我们认为“月有效通话客户数”和“有通话有效客户数”这两个指标的名称一致性关系为一致。
S101453:当所述第一指标的度量变量与所述第二指标的度量变量一致、所述至少一个第一指标的维度变量数量小于或大于所述至少一个第二指标的维度变量的数量,且所述至少一个第一指标的维度变量与所述至少一个第二指标的维度变量的一致数量等于所述至少一个第一指标的维度变量时或所述至少一个第二指标的维度变量的数量时,所述第一指标和第二指标的名称一致性关系为名称包含。
比如对于指标“月有效通话客户数”和“月通话客户数”这两个指标而言,它们的度量变量一致,“月通话客户数”的维度变量数量小于“月有效通话客户数”,且“月通话客户数”与“月有效通话客户数”一致的维度变量数量为2,等于“月通话客户数”的维度变量数量,则认为“月通话客户数”这一指标与“月有效通话客户数”这一指标的名称一致性关系为名称包含,具体地,“月通话客户数”包含“月有效通话客户数”。
在上述实施例的基础上,在本申请的再一个实施例中,如图5所示,所述对所述第一指标和第二指标进行定义一致性分析,判断所述第一指标和第二指标的定义一致性关系包括:
S2011:对输入的第一指标的第一结构化查询语言sql语句和第二指标的第二sql语句进行解析,获得所述第一sql语句的第一数据表和第二sql语句的第二数据表。
S2022:判断所述第一数据表和第二数据表是否相同,如果是,则根据所述第一sql语句和第二sql语句判断所述第一指标和第二指标的定义一致性关系;如果否,则根据数据表血缘关系数据库查询所述第一数据表的所有源表和所述第二数据表的所有源表,判断所述第一数据库的所有源表与所述第二数据表的所有源表是否存在相同的数据表,若否,则判定所述第一sql语句与所述第二sql语句之间的定义一致性关系为不一致;若是,则将该数据表作为目标数据表,将所述第一sql语句转换为关于目标数据表的第三sql语句,将所述第二sql语句转换为关于目标数据表的第四sql语句,并将所述第三sqp语句作为新的第一sql语句,将所述第四sql语句作为新的第二sql语句,返回根据所述第一sql语句和第二sql语句判断所述第一指标和第二指标的定义一致性关系的步骤;
所述数据表血缘关系数据库中存储有数据表之间的血缘关系。
本申请的一个优选实施例提供了一种根据所述第一sql语句和第二sql语句判断所述第一指标和第二指标的定义一致性关系的方法,如图6所示,包括:
S20221:对所述第一sql语句和第二sql语句进行解析处理,获得所述第一sql语句的TWhere对象以及所述第二sql语句的TWhere对象;
S20222:从所述第一sql语句的TWhere对象和所述第二sql语句的TWhere对象的节点中获取多个第一子条件和多个第二子条件,所述第一子条件为从所述第一sql语句的TWhere对象中获取的子条件,所述第二子条件为从所述第二sql语句的TWhere对象中获取的子条件;
S20223:根据所述多个第一子条件和多个第二子条件判断所述第一sql语句和第二sql语句之间的定义一致性关系。
具体地,图7示出了一种根据所述多个第一子条件和多个第二子条件判断所述第一sql语句和第二sql语句之间的定义一致性关系的例子。在图7中,所述第一sql语句的三个第一子条件和第二sql语句的三个第二子条件之间分别为“包含”“一致”和“一致”关系,那么第一sql语句和第二sql语句之间的定义一致性关系为定义包含。
在上述实施例的基础上,在本申请的另一个优选实施例中,如图8所示,所述根据所述第一指标和第二指标的名称一致性关系和定义一致性关系判断所述第一指标和第二指标的一致性关系之后还包括:
S104:根据所述第一指标和第二指标的一致性关系给出关于所述第一指标和第二指标的优化策略,所述优化策略包括合并、修改指标名称、修改统计口径和下线指标。
在上述实施例的基础上,在本申请的又一个优选实施例中,如图9所示,所述根据所述第一指标和第二指标的名称一致性关系和定义一致性关系判断所述第一指标和第二指标的一致性关系之后还包括:
S105:对具有一致关系的所述第一指标和第二指标,判断所述第一指标和第二指标的数据是否一致,如果是,则对所述第一指标或所述第二指标进行下线指标处理;
S106:对名称一致性关系为包含关系的所述第一指标和第二指标,判断所述第一指标和第二指标的数据关系是否与所述第一指标和第二指标名称一致性关系相违背,如果是,则确定所述第一指标和第二指标为异常关系。
具体地,针对名称一致性关系为包含关系的所述第一指标和第二指标,所述第一指标和第二指标的数据关系是否与所述第一指标和第二指标名称一致性关系相违背的情况进行说明,比如当所述第一指标与第二指标的名称一致性关系为第一指标包含第二指标,而所述第一指标和第二指标的定义一致性关系为第二指标包含第一指标时,则认为所述第一指标和第二指标的名称一致性关系和定义一致性关系相违背,此时需要核查所述第一指标和第二指标的数据关系是否与所述第一指标和第二指标名称一致性关系相违背,如果是,则确定所述第一指标和第二指标为异常关系。
相应的,本申请实施例还提供了一种指标一致性分析系统,如图10所示,包括:
名称分析模块100,用于对输入的第一指标和第二指标进行名称一致性分析,判断所述第一指标和第二指标的名称一致性关系,所述名称一致性关系包括名称一致、名称不一致和名称包含;
定义分析模块200,用于对所述第一指标和第二指标进行定义一致性分析,判断所述第一指标和第二指标的定义一致性关系,所述定义一致性关系包括定义一致、定义不一致和定义包含;
判断模块300,用于根据所述第一指标和第二指标的名称一致性关系和定义一致性关系判断所述第一指标和第二指标的一致性关系,所述一致性关系包括一致关系、无关关系、同名不同义关系、同义不同名关系和异常关系。
需要说明的是,所述名称一致是指所述第一指标和第二指标的名称一致,比如“月有效通话客户数”和“月通话有效客户数”;所述名称不一致是指所述第一指标和第二指标的名称不相关,比如“月有效通话客户数”和“月有效短信客户数”;所述名称包含是指所述第一指标和第二指标的名称为包含关系,比如“月通话客户数”包含“月有效通话客户数”。
一般而言,一个指标一般包括编码、名称、单位、类别、业务定义描述和指标定义这些参数;其中,编码是一个指标的唯一标识,名称是指指标的短名称,例如活跃客户数等,单位是指标的计量单位,如户、万元等,类别是一个指标的分类,如收入类,市场竞争类等;业务定义描述是一个指标在创建时人为对目标属性或性质的文字描述;而指标定义是指一个指标的统计口径或计算公式,是该指标最终的数值来源的渠道或方式。那么通过对所述第一指标和第二指标进行定义一致性分析可以准确的获悉所述第一指标和第二指标的数值来源的渠道或方式的一致性关系,那么结合所述第一指标和第二指标的名称一致性关系就可以准确的判断出所述第一指标和第二指标的一致性关系,避免根据所述第一指标和第二指标的名称和业务定义描述来判断所述第一指标和第二指标的一致性关系,造成的准确性低的问题。
在上述实施例的基础上,在本申请的一个实施例中,所述名称分析模块100包括:
分词单元,用于根据通用词库对输入的第一指标和第二指标进行分词处理,获得多个第一指标词段和多个第二指标词段;
例如,对于指标“月有效通话客户数”根据所述通用词库对其进行分词,获得“月”“有效”“通话”“客户数”这四个指标词段。
第一匹配单元,用于根据维度词库和度量词库将所述多个第一指标词段划分为一个所述第一指标的度量变量和至少一个所述第一指标的维度变量;
仍然以“月有效通话客户数”分成的“月”“有效”“通话”“客户数”这四个指标词段为例,将这四个指标词段在所述维度词库和度量词库中进行匹配发现,“月”“有效”“通话”属于维度变量,“客户数”属于度量变量。则“月有效通话客户数”这一指标有三个维度变量,分别是“月”“有效”和“通话”;有一个度量变量,为“客户数”。
第二匹配单元,用于根据所述维度词库和度量词库将所述多个第二指标词段划分为一个所述第二指标的度量变量和至少一个所述第二指标的维度变量;
第一判断单元,用于根据所述第一指标的度量变量、至少一个所述第一指标的维度变量、所述第二指标的度量变化、至少一个所述第二指标的维度变量和同义词词库判断所述第一指标和第二指标的名称一致性关系。
需要说明的是,所述通用词库中存储有汉语词典词库,所述汉语词典包括但不限于辞海、中华大辞典和汉语大词典。所述维度词库中存储有用于指标中的所有维度变量;所述度量词库中存储有用于指标中的所有度量变量;所述同义词词库中存储有汉语词语之间的同义词关系。
在上述实施例的基础上,在本申请的另一个实施例中,所述第一判断单元包括:
度量变量判断单元,用于判断所述第一指标的度量变量与所述第二指标的度量变量是否相同,如果是,则判定所述第一指标的度量变量与所述第二指标的度量变量一致;如果否,则根据同义词词库判断所述第一指标的度量变量是否为所述第二指标的度量变量的同义词,若是,则判定所述第一指标的度量变量与所述第二指标的度量变量一致,若否,则判定所述第一指标的度量变量与所述第二指标的度量变量不一致;
维度变量抽取单元,用于将所述至少一个第一指标的维度变量作为维度变量集合,抽取所述维度变量集合中的一个所述第一指标的维度变量作为目标变量,抽取的所述第一指标的维度变量不再作为所述维度变量集合的元素;
第二判断单元,用于判断所述至少一个第二指标的维度变量中是否存在与所述目标变量相同的第二指标的维度变量,如果是,则判定与所述目标变量相同的第二指标的维度变量与所述目标变量一致,如果否,则根据同义词词库判断所述至少一个第二指标的维度变量的同义词中是否存在与所述目标变量相同的维度变量,若是,则判定同义词与所述目标变量相同的第二指标的维度变量与所述目标变量为一致,若否,则判定所述目标变量与所述至少一个第二指标的维度变量不一致;
第三判断单元,用于判断所述目标变量是否为空,如果否,则返回所述维度变量抽取单元;如果是,则统计所述至少一个第一指标的维度变量数量、所述至少一个第二指标的维度变量的数量、所述至少一个第一指标的维度变量数量与所述至少一个第二指标的维度变量的一致数量;
第四判断单元,用于根据所述第一指标的度量变量与所述第二指标的度量变量的一致与否,以及所述至少一个第一指标的维度变量数量、所述至少一个第二指标的维度变量的数量、所述至少一个第一指标的维度变量与所述至少一个第二指标的维度变量的一致数量判定所述第一指标和第二指标的名称一致性关系。
在上述实施例的基础上,在本申请的又一个实施例中,所述第四判断单元具体用于,当所述第一指标的度量变量与所述第二指标的度量变量不一致时,所述第一指标和第二指标的名称一致性关系为名称不一致;
当所述第一指标的度量变量与所述第二指标的度量变量一致、所述至少一个第一指标的维度变量数量等于所述至少一个第二指标的维度变量的数量,且所述至少一个第一指标的维度变量与所述至少一个第二指标的维度变量的一致数量等于所述第一指标的维度变量或所述第二指标的维度变量数量时,所述第一指标和第二指标的名称一致性关系为名称一致;
当所述第一指标的度量变量与所述第二指标的度量变量一致、所述至少一个第一指标的维度变量数量小于或大于所述至少一个第二指标的维度变量的数量,且所述至少一个第一指标的维度变量与所述至少一个第二指标的维度变量的一致数量等于所述至少一个第一指标的维度变量时或所述至少一个第二指标的维度变量的数量时,所述第一指标和第二指标的名称一致性关系为名称包含。
比如对于指标“月有效通话客户数”的度量变量为“客户数”,“月有效通话次数”的度量变量为“通话次数”,且“客户数”和“通话次数”也不是同义词,则可以认为这两个指标的名称一致性关系为名称不一致。对于指标“月有效通话客户数”和“月通话有效客户数”这两个指标而言,它们的度量变量一致,维度变量数量相同,且两个指标一致的维度变量的数量等于这两个指标的维度变量的数量,这时我们认为“月有效通话客户数”和“有通话有效客户数”这两个指标的名称一致性关系为一致。对于指标“月有效通话客户数”和“月通话客户数”这两个指标而言,它们的度量变量一致,“月通话客户数”的维度变量数量小于“月有效通话客户数”,且“月通话客户数”与“月有效通话客户数”一致的维度变量数量为2,等于“月通话客户数”的维度变量数量,则认为“月通话客户数”这一指标与“月有效通话客户数”这一指标的名称一致性关系为名称包含,具体地,“月通话客户数”包含“月有效通话客户数”。
在上述实施例的基础上,在本申请的再一个实施例中,所述定义分析模块200包括:
sql解析单元,用于对输入的第一指标的第一结构化查询语言sql语句和第二指标的第二sql语句进行解析,获得所述第一sql语句的第一数据表和第二sql语句的第二数据表;
第五判断单元,用于判断所述第一数据表和第二数据表是否相同,如果是,则根据所述第一sql语句和第二sql语句判断所述第一指标和第二指标的定义一致性关系;如果否,则根据数据表血缘关系数据库查询所述第一数据表的所有源表和所述第二数据表的所有源表,判断所述第一数据库的所有源表与所述第二数据表的所有源表是否存在相同的数据表,若否,则判定所述第一sql语句与所述第二sql语句之间的定义一致性关系为不一致;若是,则将该数据表作为目标数据表,将所述第一sql语句转换为关于目标数据表的第三sql语句,将所述第二sql语句转换为关于目标数据表的第四sql语句,并将所述第三sqp语句作为新的第一sql语句,将所述第四sql语句作为新的第二sql语句,返回根据所述第一sql语句和第二sql语句判断所述第一指标和第二指标的定义一致性关系的步骤;
所述数据表血缘关系数据库中存储有数据表之间的血缘关系。
在上述实施例的基础上,在本申请的一个优选实施例中,所述第五判断单元具体用于,判断所述第一数据表和第二数据表是否相同,如果是,则对所述第一sql语句和第二sql语句进行解析处理,获得所述第一sql语句的TWhere对象以及所述第二sql语句的TWhere对象;
从所述第一sql语句的TWhere对象和所述第二sql语句的TWhere对象的节点中获取多个第一子条件和多个第二子条件,所述第一子条件为从所述第一sql语句的TWhere对象中获取的子条件,所述第二子条件为从所述第二sql语句的TWhere对象中获取的子条件;
根据所述多个第一子条件和多个第二子条件判断所述第一sql语句和第二sql语句之间的定义一致性关系;
如果否,则根据数据表血缘关系数据库查询所述第一数据表的所有源表和所述第二数据表的所有源表,判断所述第一数据库的所有源表与所述第二数据表的所有源表是否存在相同的数据表,若否,则判定所述第一sql语句与所述第二sql语句之间的定义一致性关系为不一致;若是,则将该数据表作为目标数据表,将所述第一sql语句转换为关于目标数据表的第三sql语句,将所述第二sql语句转换为关于目标数据表的第四sql语句,并将所述第三sqp语句作为新的第一sql语句,将所述第四sql语句作为新的第二sql语句,返回对所述第一sql语句和第二sql语句进行解析处理的步骤。
具体地,图7示出了一种根据所述多个第一子条件和多个第二子条件判断所述第一sql语句和第二sql语句之间的定义一致性关系的例子。在图7中,所述第一sql语句的三个第一子条件和第二sql语句的三个第二子条件之间分别为“包含”“一致”和“一致”关系,那么第一sql语句和第二sql语句之间的定义一致性关系为定义包含。
在上述实施例的基础上,在本申请的另一个优选实施例中,所述指标一致性分析系统还包括:
优化策略模块,用于根据所述第一指标和第二指标的一致性关系给出关于所述第一指标和第二指标的优化策略,所述优化策略包括合并、修改指标名称、修改统计口径和下线指标。
在上述实施例的基础上,在本申请的又一个优选实施例中,所述指标一致性分析系统还包括:
处理模块,用于对具有一致关系的所述第一指标和第二指标,判断所述第一指标和第二指标的数据是否一致,如果是,则对所述第一指标或所述第二指标进行下线指标处理;和用于对名称一致性关系为包含关系的所述第一指标和第二指标,判断所述第一指标和第二指标的数据关系是否与所述第一指标和第二指标名称一致性关系相违背,如果是,则确定所述第一指标和第二指标为异常关系。
具体地,针对名称一致性关系为包含关系的所述第一指标和第二指标,所述第一指标和第二指标的数据关系是否与所述第一指标和第二指标名称一致性关系相违背的情况进行说明,比如当所述第一指标与第二指标的名称一致性关系为第一指标包含第二指标,而所述第一指标和第二指标的定义一致性关系为第二指标包含第一指标时,则认为所述第一指标和第二指标的名称一致性关系和定义一致性关系相违背,此时需要核查所述第一指标和第二指标的数据关系是否与所述第一指标和第二指标名称一致性关系相违背,如果是,则确定所述第一指标和第二指标为异常关系。
综上所述,本申请实施例提供了一种指标一致性分析方法及分析系统,其中,所述指标一致性分析方法通过对所述第一指标和第二指标分别进行名称一致性分析和定义一致性分析,分别判断所述第一指标和第二指标的名称一致性关系和定义一致性关系,最后根据所述第一指标和第二指标的名称一致性关系和定义一致性关系判断所述第一指标和第二指标的一致性关系,避免根据所述第一指标和第二指标的名称和业务定义描述来判断所述第一指标和第二指标的一致性关系,造成的准确性低的问题。这是因为所述第一指标和第二指标的定义(统计口径或计算方法)具有唯一且确定的特性,不会出现由于人为描述的不清楚或不准确而造成根据一致性判断不准确的情况出现。
并且,所述指标一致性分析方法可以依托所述指标一致性分析系统实现自动对所述第一指标和第二指标的一致性分析,减少了指标管理人员的工作量。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (16)

1.一种指标一致性分析方法,其特征在于,包括:
对输入的第一指标和第二指标进行名称一致性分析,判断所述第一指标和第二指标的名称一致性关系,所述名称一致性关系包括名称一致、名称不一致和名称包含;
对所述第一指标和第二指标进行定义一致性分析,判断所述第一指标和第二指标的定义一致性关系,所述定义一致性关系包括定义一致、定义不一致和定义包含;
根据所述第一指标和第二指标的名称一致性关系和定义一致性关系判断所述第一指标和第二指标的一致性关系,所述一致性关系包括一致关系、无关关系、同名不同义关系、同义不同名关系和异常关系。
2.根据权利要求1所述的指标一致性分析方法,其特征在于,所述对输入的第一指标和第二指标进行名称一致性分析,判断所述第一指标和第二指标的名称一致性关系包括:
根据通用词库对输入的第一指标和第二指标进行分词处理,获得多个第一指标词段和多个第二指标词段;
根据维度词库和度量词库将所述多个第一指标词段划分为一个所述第一指标的度量变量和至少一个所述第一指标的维度变量;
根据所述维度词库和度量词库将所述多个第二指标词段划分为一个所述第二指标的度量变量和至少一个所述第二指标的维度变量;
根据所述第一指标的度量变量、至少一个所述第一指标的维度变量、所述第二指标的度量变化、至少一个所述第二指标的维度变量和同义词词库判断所述第一指标和第二指标的名称一致性关系。
3.根据权利要求2所述的指标一致性分析方法,其特征在于,所述根据所述第一指标的度量变量、至少一个所述第一指标的维度变量、所述第二指标的度量变化、至少一个所述第二指标的维度变量和同义词词库判断所述第一指标和第二指标的名称一致性关系包括:
判断所述第一指标的度量变量与所述第二指标的度量变量是否相同,如果是,则判定所述第一指标的度量变量与所述第二指标的度量变量一致;如果否,则根据同义词词库判断所述第一指标的度量变量是否为所述第二指标的度量变量的同义词,若是,则判定所述第一指标的度量变量与所述第二指标的度量变量一致,若否,则判定所述第一指标的度量变量与所述第二指标的度量变量不一致;
将所述至少一个第一指标的维度变量作为维度变量集合,抽取所述维度变量集合中的一个所述第一指标的维度变量作为目标变量,抽取的所述第一指标的维度变量不再作为所述维度变量集合的元素;
判断所述至少一个第二指标的维度变量中是否存在与所述目标变量相同的第二指标的维度变量,如果是,则判定与所述目标变量相同的第二指标的维度变量与所述目标变量一致,如果否,则根据同义词词库判断所述至少一个第二指标的维度变量的同义词中是否存在与所述目标变量相同的维度变量,若是,则判定同义词与所述目标变量相同的第二指标的维度变量与所述目标变量为一致,若否,则判定所述目标变量与所述至少一个第二指标的维度变量不一致;
判断所述目标变量是否为空,如果否,则返回抽取所述维度变量集合中的一个所述第一指标的维度变量作为目标变量的步骤;如果是,则统计所述至少一个第一指标的维度变量数量、所述至少一个第二指标的维度变量的数量、所述至少一个第一指标的维度变量数量与所述至少一个第二指标的维度变量的一致数量;
根据所述第一指标的度量变量与所述第二指标的度量变量的一致与否,以及所述至少一个第一指标的维度变量数量、所述至少一个第二指标的维度变量的数量、所述至少一个第一指标的维度变量与所述至少一个第二指标的维度变量的一致数量判定所述第一指标和第二指标的名称一致性关系。
4.根据权利要求3所述的指标一致性分析方法,其特征在于,所述根据所述第一指标的度量变量与所述第二指标的度量变量的一致与否,以及所述至少一个第一指标的维度变量数量、所述至少一个第二指标的维度变量的数量、所述至少一个第一指标的维度变量与所述至少一个第二指标的维度变量的一致数量判定所述第一指标和第二指标的名称一致性关系包括:
当所述第一指标的度量变量与所述第二指标的度量变量不一致时,所述第一指标和第二指标的名称一致性关系为名称不一致;
当所述第一指标的度量变量与所述第二指标的度量变量一致、所述至少一个第一指标的维度变量数量等于所述至少一个第二指标的维度变量的数量,且所述至少一个第一指标的维度变量与所述至少一个第二指标的维度变量的一致数量等于所述第一指标的维度变量或所述第二指标的维度变量数量时,所述第一指标和第二指标的名称一致性关系为名称一致;
当所述第一指标的度量变量与所述第二指标的度量变量一致、所述至少一个第一指标的维度变量数量小于或大于所述至少一个第二指标的维度变量的数量,且所述至少一个第一指标的维度变量与所述至少一个第二指标的维度变量的一致数量等于所述至少一个第一指标的维度变量时或所述至少一个第二指标的维度变量的数量时,所述第一指标和第二指标的名称一致性关系为名称包含。
5.根据权利要求1所述的指标一致性分析方法,其特征在于,所述对所述第一指标和第二指标进行定义一致性分析,判断所述第一指标和第二指标的定义一致性关系包括:
对输入的第一指标的第一结构化查询语言sql语句和第二指标的第二sql语句进行解析,获得所述第一sql语句的第一数据表和第二sql语句的第二数据表;
判断所述第一数据表和第二数据表是否相同,如果是,则根据所述第一sql语句和第二sql语句判断所述第一指标和第二指标的定义一致性关系;如果否,则根据数据表血缘关系数据库查询所述第一数据表的所有源表和所述第二数据表的所有源表,判断所述第一数据库的所有源表与所述第二数据表的所有源表是否存在相同的数据表,若否,则判定所述第一sql语句与所述第二sql语句之间的定义一致性关系为不一致;若是,则将该数据表作为目标数据表,将所述第一sql语句转换为关于目标数据表的第三sql语句,将所述第二sql语句转换为关于目标数据表的第四sql语句,并将所述第三sqp语句作为新的第一sql语句,将所述第四sql语句作为新的第二sql语句,返回根据所述第一sql语句和第二sql语句判断所述第一指标和第二指标的定义一致性关系的步骤;
所述数据表血缘关系数据库中存储有数据表之间的血缘关系。
6.根据权利要求5所述的指标一致性分析方法,其特征在于,所述根据所述第一sql语句和第二sql语句判断所述第一指标和第二指标的定义一致性关系包括:
对所述第一sql语句和第二sql语句进行解析处理,获得所述第一sql语句的TWhere对象以及所述第二sql语句的TWhere对象;
从所述第一sql语句的TWhere对象和所述第二sql语句的TWhere对象的节点中获取多个第一子条件和多个第二子条件,所述第一子条件为从所述第一sql语句的TWhere对象中获取的子条件,所述第二子条件为从所述第二sql语句的TWhere对象中获取的子条件;
根据所述多个第一子条件和多个第二子条件判断所述第一sql语句和第二sql语句之间的定义一致性关系。
7.根据权利要求1-6任一项所述的指标一致性分析方法,其特征在于,所述根据所述第一指标和第二指标的名称一致性关系和定义一致性关系判断所述第一指标和第二指标的一致性关系之后还包括:
根据所述第一指标和第二指标的一致性关系给出关于所述第一指标和第二指标的优化策略,所述优化策略包括合并、修改指标名称、修改统计口径和下线指标。
8.根据权利要求1-6任一项所述的指标一致性分析方法,其特征在于,所述根据所述第一指标和第二指标的名称一致性关系和定义一致性关系判断所述第一指标和第二指标的一致性关系之后还包括:
对具有一致关系的所述第一指标和第二指标,判断所述第一指标和第二指标的数据是否一致,如果是,则对所述第一指标或所述第二指标进行下线指标处理;
对名称一致性关系为包含关系的所述第一指标和第二指标,判断所述第一指标和第二指标的数据关系是否与所述第一指标和第二指标名称一致性关系相违背,如果是,则确定所述第一指标和第二指标为异常关系。
9.一种指标一致性分析系统,其特征在于,包括:
名称分析模块,用于对输入的第一指标和第二指标进行名称一致性分析,判断所述第一指标和第二指标的名称一致性关系,所述名称一致性关系包括名称一致、名称不一致和名称包含;
定义分析模块,用于对所述第一指标和第二指标进行定义一致性分析,判断所述第一指标和第二指标的定义一致性关系,所述定义一致性关系包括定义一致、定义不一致和定义包含;
判断模块,用于根据所述第一指标和第二指标的名称一致性关系和定义一致性关系判断所述第一指标和第二指标的一致性关系,所述一致性关系包括一致关系、无关关系、同名不同义关系、同义不同名关系和异常关系。
10.根据权利要求9所述的指标一致性分析系统,其特征在于,所述名称分析模块包括:
分词单元,用于根据通用词库对输入的第一指标和第二指标进行分词处理,获得多个第一指标词段和多个第二指标词段;
第一匹配单元,用于根据维度词库和度量词库将所述多个第一指标词段划分为一个所述第一指标的度量变量和至少一个所述第一指标的维度变量;
第二匹配单元,用于根据所述维度词库和度量词库将所述多个第二指标词段划分为一个所述第二指标的度量变量和至少一个所述第二指标的维度变量;
第一判断单元,用于根据所述第一指标的度量变量、至少一个所述第一指标的维度变量、所述第二指标的度量变化、至少一个所述第二指标的维度变量和同义词词库判断所述第一指标和第二指标的名称一致性关系。
11.根据权利要求10所述的指标一致性分析系统,其特征在于,所述第一判断单元包括:
度量变量判断单元,用于判断所述第一指标的度量变量与所述第二指标的度量变量是否相同,如果是,则判定所述第一指标的度量变量与所述第二指标的度量变量一致;如果否,则根据同义词词库判断所述第一指标的度量变量是否为所述第二指标的度量变量的同义词,若是,则判定所述第一指标的度量变量与所述第二指标的度量变量一致,若否,则判定所述第一指标的度量变量与所述第二指标的度量变量不一致;
维度变量抽取单元,用于将所述至少一个第一指标的维度变量作为维度变量集合,抽取所述维度变量集合中的一个所述第一指标的维度变量作为目标变量,抽取的所述第一指标的维度变量不再作为所述维度变量集合的元素;
第二判断单元,用于判断所述至少一个第二指标的维度变量中是否存在与所述目标变量相同的第二指标的维度变量,如果是,则判定与所述目标变量相同的第二指标的维度变量与所述目标变量一致,如果否,则根据同义词词库判断所述至少一个第二指标的维度变量的同义词中是否存在与所述目标变量相同的维度变量,若是,则判定同义词与所述目标变量相同的第二指标的维度变量与所述目标变量为一致,若否,则判定所述目标变量与所述至少一个第二指标的维度变量不一致;
第三判断单元,用于判断所述目标变量是否为空,如果否,则返回所述维度变量抽取单元;如果是,则统计所述至少一个第一指标的维度变量数量、所述至少一个第二指标的维度变量的数量、所述至少一个第一指标的维度变量数量与所述至少一个第二指标的维度变量的一致数量;
第四判断单元,用于根据所述第一指标的度量变量与所述第二指标的度量变量的一致与否,以及所述至少一个第一指标的维度变量数量、所述至少一个第二指标的维度变量的数量、所述至少一个第一指标的维度变量与所述至少一个第二指标的维度变量的一致数量判定所述第一指标和第二指标的名称一致性关系。
12.根据权利要求11所述的指标一致性分析系统,其特征在于,所述第四判断单元具体用于,当所述第一指标的度量变量与所述第二指标的度量变量不一致时,所述第一指标和第二指标的名称一致性关系为名称不一致;
当所述第一指标的度量变量与所述第二指标的度量变量一致、所述至少一个第一指标的维度变量数量等于所述至少一个第二指标的维度变量的数量,且所述至少一个第一指标的维度变量与所述至少一个第二指标的维度变量的一致数量等于所述第一指标的维度变量或所述第二指标的维度变量数量时,所述第一指标和第二指标的名称一致性关系为名称一致;
当所述第一指标的度量变量与所述第二指标的度量变量一致、所述至少一个第一指标的维度变量数量小于或大于所述至少一个第二指标的维度变量的数量,且所述至少一个第一指标的维度变量与所述至少一个第二指标的维度变量的一致数量等于所述至少一个第一指标的维度变量时或所述至少一个第二指标的维度变量的数量时,所述第一指标和第二指标的名称一致性关系为名称包含。
13.根据权利要求9所述的指标一致性分析系统,其特征在于,所述定义分析模块包括:
sql解析单元,用于对输入的第一指标的第一结构化查询语言sql语句和第二指标的第二sql语句进行解析,获得所述第一sql语句的第一数据表和第二sql语句的第二数据表;
第五判断单元,用于判断所述第一数据表和第二数据表是否相同,如果是,则根据所述第一sql语句和第二sql语句判断所述第一指标和第二指标的定义一致性关系;如果否,则根据数据表血缘关系数据库查询所述第一数据表的所有源表和所述第二数据表的所有源表,判断所述第一数据库的所有源表与所述第二数据表的所有源表是否存在相同的数据表,若否,则判定所述第一sql语句与所述第二sql语句之间的定义一致性关系为不一致;若是,则将该数据表作为目标数据表,将所述第一sql语句转换为关于目标数据表的第三sql语句,将所述第二sql语句转换为关于目标数据表的第四sql语句,并将所述第三sqp语句作为新的第一sql语句,将所述第四sql语句作为新的第二sql语句,返回根据所述第一sql语句和第二sql语句判断所述第一指标和第二指标的定义一致性关系的步骤;
所述数据表血缘关系数据库中存储有数据表之间的血缘关系。
14.根据权利要求13所述的指标一致性分析系统,其特征在于,所述第五判断单元具体用于,判断所述第一数据表和第二数据表是否相同,如果是,则对所述第一sql语句和第二sql语句进行解析处理,获得所述第一sql语句的TWhere对象以及所述第二sql语句的TWhere对象;
从所述第一sql语句的TWhere对象和所述第二sql语句的TWhere对象的节点中获取多个第一子条件和多个第二子条件,所述第一子条件为从所述第一sql语句的TWhere对象中获取的子条件,所述第二子条件为从所述第二sql语句的TWhere对象中获取的子条件;
根据所述多个第一子条件和多个第二子条件判断所述第一sql语句和第二sql语句之间的定义一致性关系;
如果否,则根据数据表血缘关系数据库查询所述第一数据表的所有源表和所述第二数据表的所有源表,判断所述第一数据库的所有源表与所述第二数据表的所有源表是否存在相同的数据表,若否,则判定所述第一sql语句与所述第二sql语句之间的定义一致性关系为不一致;若是,则将该数据表作为目标数据表,将所述第一sql语句转换为关于目标数据表的第三sql语句,将所述第二sql语句转换为关于目标数据表的第四sql语句,并将所述第三sqp语句作为新的第一sql语句,将所述第四sql语句作为新的第二sql语句,返回对所述第一sql语句和第二sql语句进行解析处理的步骤。
15.根据权利要求9-14任一项所述的指标一致性分析系统,其特征在于,还包括:
优化策略模块,用于根据所述第一指标和第二指标的一致性关系给出关于所述第一指标和第二指标的优化策略,所述优化策略包括合并、修改指标名称、修改统计口径和下线指标。
16.根据权利要求9-14任一项所述的指标一致性分析系统,其特征在于,还包括:
处理模块,用于对具有一致关系的所述第一指标和第二指标,判断所述第一指标和第二指标的数据是否一致,如果是,则对所述第一指标或所述第二指标进行下线指标处理;和用于对名称一致性关系为包含关系的所述第一指标和第二指标,判断所述第一指标和第二指标的数据关系是否与所述第一指标和第二指标名称一致性关系相违背,如果是,则确定所述第一指标和第二指标为异常关系。
CN201611070283.2A 2016-11-28 2016-11-28 一种指标一致性分析方法及分析系统 Pending CN106776861A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611070283.2A CN106776861A (zh) 2016-11-28 2016-11-28 一种指标一致性分析方法及分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611070283.2A CN106776861A (zh) 2016-11-28 2016-11-28 一种指标一致性分析方法及分析系统

Publications (1)

Publication Number Publication Date
CN106776861A true CN106776861A (zh) 2017-05-31

Family

ID=58905198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611070283.2A Pending CN106776861A (zh) 2016-11-28 2016-11-28 一种指标一致性分析方法及分析系统

Country Status (1)

Country Link
CN (1) CN106776861A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806356A (zh) * 2020-06-16 2021-12-17 中国移动通信集团重庆有限公司 数据识别方法、装置及计算设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080040406A1 (en) * 2001-09-19 2008-02-14 Bmc Software, Inc. System and method for controlling free space distribution by key range within a database
CN104462227A (zh) * 2014-11-13 2015-03-25 中国测绘科学研究院 一种图形化知识谱系自动构建方法
CN104750681A (zh) * 2013-12-25 2015-07-01 中国移动通信集团辽宁有限公司 一种海量数据的处理方法及装置
CN105373893A (zh) * 2015-11-23 2016-03-02 江苏省电力公司南通供电公司 调度自动化系统模型定义辅助决策与风险评估方法
CN105653830A (zh) * 2014-10-21 2016-06-08 北京京航计算通讯研究所 一种基于模型驱动的数据分析方法
CN105930905A (zh) * 2016-04-15 2016-09-07 广州慧睿思通信息科技有限公司 一种基于指标指向的逻辑推演方法及系统
CN107730021A (zh) * 2016-08-10 2018-02-23 中国移动通信集团湖北有限公司 一种业务指标优化方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080040406A1 (en) * 2001-09-19 2008-02-14 Bmc Software, Inc. System and method for controlling free space distribution by key range within a database
CN104750681A (zh) * 2013-12-25 2015-07-01 中国移动通信集团辽宁有限公司 一种海量数据的处理方法及装置
CN105653830A (zh) * 2014-10-21 2016-06-08 北京京航计算通讯研究所 一种基于模型驱动的数据分析方法
CN104462227A (zh) * 2014-11-13 2015-03-25 中国测绘科学研究院 一种图形化知识谱系自动构建方法
CN105373893A (zh) * 2015-11-23 2016-03-02 江苏省电力公司南通供电公司 调度自动化系统模型定义辅助决策与风险评估方法
CN105930905A (zh) * 2016-04-15 2016-09-07 广州慧睿思通信息科技有限公司 一种基于指标指向的逻辑推演方法及系统
CN107730021A (zh) * 2016-08-10 2018-02-23 中国移动通信集团湖北有限公司 一种业务指标优化方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806356A (zh) * 2020-06-16 2021-12-17 中国移动通信集团重庆有限公司 数据识别方法、装置及计算设备
CN113806356B (zh) * 2020-06-16 2024-03-19 中国移动通信集团重庆有限公司 数据识别方法、装置及计算设备

Similar Documents

Publication Publication Date Title
CN107103100B (zh) 一种容错的基于图谱架构的智能语义搜索方法
CN107330125A (zh) 基于知识图谱技术的海量非结构化配网数据集成方法
CN111460787A (zh) 一种话题提取方法、装置、终端设备及存储介质
Elbendak et al. Parsed use case descriptions as a basis for object-oriented class model generation
Zhou et al. New model of semantic similarity measuring in wordnet
CN106844331A (zh) 一种句子相似度计算方法和系统
CN104978314B (zh) 媒体内容推荐方法及装置
CN104881402A (zh) 中文网络话题评论文本语义倾向分析的方法及装置
CN103106189B (zh) 一种挖掘同义属性词的方法和装置
CN104484380A (zh) 个性化搜索方法及装置
CN105573977A (zh) 一种中文事件时序关系识别方法及系统
Roth et al. Aligning predicate argument structures in monolingual comparable texts: A new corpus for a new task
CN113157860B (zh) 一种基于小规模数据的电力设备检修知识图谱构建方法
CN108665141B (zh) 一种从突发事件预案中自动抽取应急响应流程模型的方法
CN105631018A (zh) 基于主题模型的文章特征抽取方法
CN108108477B (zh) 一种联动的kpi系统及权限管理系统
CN106777048A (zh) 企业质量信用数据获取方法和系统
Popping Online tools for content analysis
CN102779119B (zh) 一种抽取关键词的方法及装置
US6505151B1 (en) Method for dividing sentences into phrases using entropy calculations of word combinations based on adjacent words
CN106202036B (zh) 一种基于依存约束和知识的动词词义消歧方法和装置
CN103793371A (zh) 一种新闻文本情绪倾向分析方法
CN107480270A (zh) 一种基于用户反馈数据流的实时个性化推荐方法及系统
CN107862037A (zh) 一种基于实体连通图的事件模版构造方法
Wueest et al. Electoral campaigns and relation mining: Extracting semantic network data from newspaper articles

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20171016

Address after: 100193 floor 19, building 1, No. 10 East Hospital, 101 East Road, Haidian District, Beijing

Applicant after: AsiaInfo Science & Technology (China) Co., Ltd.

Address before: 100193 B3 District, block B, 2 R & D center building, East Asia AsiaInfo headquarters, No. 10, East West Road, Haidian District, Beijing

Applicant before: Data company limited of Beijing AsiaINFO

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20191030

Address after: 410000 102, building 7, phase I, CEC Software Park, No. 39, Jianshan Road, high tech Development Zone, Changsha City, Hunan Province

Applicant after: Hunan Yaxin Anhui Technology Co., Ltd

Address before: 100193 floor 19, building 1, No. 10 East Hospital, 101 East Road, Haidian District, Beijing

Applicant before: AsiaInfo Science & Technology (China) Co., Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170531