CN111061687A - 一种异常数据的定位方法、装置及系统 - Google Patents

一种异常数据的定位方法、装置及系统 Download PDF

Info

Publication number
CN111061687A
CN111061687A CN201911143879.4A CN201911143879A CN111061687A CN 111061687 A CN111061687 A CN 111061687A CN 201911143879 A CN201911143879 A CN 201911143879A CN 111061687 A CN111061687 A CN 111061687A
Authority
CN
China
Prior art keywords
data flow
constraint
balance index
data
flow log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911143879.4A
Other languages
English (en)
Other versions
CN111061687B (zh
Inventor
肖华飚
刘长禹
朱翔淼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Timeondata Tech Beijing Co ltd
Original Assignee
Timeondata Tech Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Timeondata Tech Beijing Co ltd filed Critical Timeondata Tech Beijing Co ltd
Priority to CN201911143879.4A priority Critical patent/CN111061687B/zh
Publication of CN111061687A publication Critical patent/CN111061687A/zh
Application granted granted Critical
Publication of CN111061687B publication Critical patent/CN111061687B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/162Delete operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种异常数据的定位方法、装置及系统,其中包括:接收到由用户操作产生的数据流水日志,根据所述约束标识在预设的约束规则库中匹配相应的约束规则,计算所述数据流水日志的平衡指数;根据所述平衡指数确定产生异常的数据流水日志。通过实施本发明,解决了无法在海量用户产生的海量数据流水日志中定位异常数据的问题。

Description

一种异常数据的定位方法、装置及系统
技术领域
本发明涉及大数据治理领域,尤其涉及大数据质量修复领域,具体涉及一种异常数据的定位方法、装置及系统。
背景技术
随着科学技术的飞速发展,在实际生活应用中,用户的需求需通过复杂的应用系统来完成,而应用系统又需要较为复杂的业务流程作为支撑,复杂的业务流程必然会涉及到多个不同的业务场景,不同的交互用户,在不同的场景下不同的用户也会完成不同的业务操作,这也必然导致会在后台产生大量数据流水日志,不同数据流水日志之间的存储方式也是不同的,在这种大环境下,由于个别场景中的个别操作出现异常或者失败,会导致后端数据流水日志的不完整或者不一致,而在海量用户产生的海量数据流水日志的情况下,我们很难发现和定位出现异常或者失败操作所产生的不完整或者不一致的异常数据。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中的无法对海量用户产生的海量数据流水日志中定位异常数据的缺陷,从而提供一种异常数据的定位方法、装置及系统。
有鉴于此,本发明提供一种异常数据的定位方法,包括:接收到由用户操作产生的数据流水日志,所述数据流水日志中包括约束标识,在预设的约束规则库中匹配相应的约束规则,根据所述约束规则和预设平衡指数定义规则计算所述数据流水日志的平衡指数,根据所述平衡指数确定产生异常的数据流水日志。
可选地,在一实施例中,所述的预设平衡指数定义规则包括:定义所述平衡指数为与约束配数的差值,根据所述约束规则和所述约束标识得到所述约束配数,根据所述约束配数计算平衡指数。
可选地,在一实施例中,所述根据所述约束配数计算平衡指数包括:判断所述平衡指数是否大于预设阈值,所述预设阈值为零,如果所述平衡指数大于所述预设阈值,说明所述由用户操作产生的数据流水日志产生重复,根据所述约束标识定位产生重复数据流水日志的位置。
可选地,在一实施例中,如果所述平衡指数等于所述预设阈值,说明所述由用户操作产生的数据流水日志正确。
可选地,在一实施例中,如果所述平衡指数小于所述预设阈值,说明所述由用户操作产生数据流水日志产生缺失,根据所述约束标识定位产生缺失的数据流水日志的位置,重新执行用户操作,重复生成当前操作流水,并标记此数据流水日志记录为后期再生,便于再次检索和统计。
可选地,在一实施例中,所述根据所述约束标识定位产生重复数据流水日志的位置包括:判断所述重复数据流水日志的全字段是否完全相同,如果所述重复数据流水日志的全字段完全相同,删除所述重复数据流水日志。
可选地,在一实施例中,如果所述重复数据流水日志的全字段不完全相同,标记数据流水日志有重复嫌疑,将所述数据流水日志复制到指定的“数据盘点”记录表或将其移动到指定的“数据盘点”记录表。
可选地,在一实施例中,该方法还包括:将根据用户每一次操作产生的数据流水日志计算出的平衡指数存入平衡指数表,所述平衡指数表包括每一个约束的流水号、约束标识以及产生流水时间,根据日期计算不同时段的统计平衡指数值,所述日期包括:每日指数、月度指数、季度指数、年度指数或上午指数、下午指数、夜间指数,计算正数个数与所有正数方差的乘积,作为所述平衡指数的第一分量,计算负数个数与所有负数方差的乘积,作为所述平衡指数的第二分量,计算第一分量与第二分量的和与数据总值的比值,作为所述平衡指数的第三分量,根据所述的平衡指数统计值衡量不同时期、不同时段的数据质量问题的严重程度和具体特征。
本发明还提供一种异常数据的定位装置,包括:接收模块,用于接收由用户操作产生的数据流水日志;匹配模块,用于根据约束标识在预设的约束规则库中匹配相应的约束规则;计算模块,用于计算所述数据流水日志的平衡指数;判断模块,用于判断所述平衡指数和预设阈值的关系,所述预设阈值是零;定位模块,用于根据判断结果对产生异常的数据流水日志进行定位。
本发明还提供一种异常数据的定位系统,包括:至少一个控制设备及计算机终端,所述控制设备用于执行如上述任意一种实施例所述的提升信息系统数据质量的方法,对执行某种操作所产生的具体异常数据流水日志进行定位。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一种实施例所述的异常数据的定位方法的步骤。
本发明所提供的异常数据的定位方法、装置及系统,通过控制设备接收由用户操作产生的数据流水日志,上述数据流水日志中包括约束标识,根据约束标识,控制设备在预设的约束规则库中匹配相应的约束规则,根据约束规则和预设平衡指数定义规则,计算数据流水日志的平衡指数,控制设备根据平衡指数确定产生异常的数据流水日志,解决了现有技术下无法对海量用户执行的海量操作进而触发的海量数据流水日志中的产生异常的数据流水日志进行定位的问题,实现了控制设备自动定位异常数据和批量定位异常数据,高效率的改善和提升了数据流水日志的质量。
同时,控制设备判断平衡指数与预设阈值的关系,如果平衡指数大于预设阈值,说明由用户操作产生的数据流水日志产生重复,根据约束标识定位产生重复数据流水日志的位置,如果平衡指数小于预设阈值时,说明由用户操作产生数据流水日志产生缺失,根据约束标识定位产生缺失数据流水日志的位置,解决了确定产生异常的数据流水日志具体属于重复或者是缺失的问题,可实现自动修复海量用户产生的海量数据。
相应地,当控制设备计算出用户每一次操作产生的数据流水日志的平衡指数,对用户每一次操作产生的数据流水日志中的异常数据进行定位之后,控制设备会将用户每一次操作产生的数据流水日志的平衡指数存入平衡指数表,根据日期计算不同时段的统计平衡指数值,日期包括:每日指数、月度指数、季度指数、年度指数或上午指数、下午指数、夜间指数,计算正数个数与所有正数方差的乘积,作为平衡指数的第一分量,计算负数个数与所有负数方差的乘积,作为平衡指数的第二分量,计算第一分量与第二分量的和与数据总值的比值,作为平衡指数的第三分量,根据的平衡指数统计值衡量不同时期、不同时段的数据质量问题的严重程度和具体特征,解决了在一段时间内,用户执行较为复杂的操作时,无法对产生的海量数据流水日志中的异常数据进行整体上的衡量与统计的问题,提高了定位异常数据的效率,提高了数据质量。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1中一种异常数据的定位方法中的一个具体示例的流程图;
图2为本发明实施例1中一种异常数据的定位方法中计算平衡指数过程的一个具体示例的流程图;
图3为本发明实施例1中一种异常数据的定位方法中判断平衡指数与预设阈值过程的一个具体示例的流程图;
图4为本发明实施例1中一种异常数据的定位方法中计算平衡指数的另一个具体示例的流程图;
图5为本发明实施例1中一种异常数据的定位方法中计算平衡指数的一个具体示例的流程图;
图6为本发明实施例2中一种异常数据的定位装置中的一个具体示例的流程图;
图7为本发明实施例3中一种异常数据的定位系统中控制设备的结构示意图
图8为本发明实施例3中一种异常数据的定位系统中控制设备的第一控制器的结构示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性,在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
本发明实施例提供一种异常数据的定位方法,应用于满足用户不同需求的应用系统和/或终端中的控制设备,用户通过较为复杂的应用系统输入执行指令,应用系统开始执行用户输入的指令,为了满足用户的需求,应用系统需经过一个完整的执行流程,执行流程会涉及到不同的业务场景、不同的交互用户、完成不同的业务操作,也会产生数据流水日志来记录用户指令,上述数据流水日志中不可避免会因为个别场景的个别操作的异常与失败产生异常数据,控制设备接收到用户执行指令产生的所有数据流水日志,数据流水日志中包括约束标识,约束是用户当前的业务操作以及当前会触发的一系列其他业务操作,控制器将此一系列的业务操作定义为一个约束,用相同的约束标识标记;控制设备根据约束标识在系统预设的约束规则库中匹配约束对应的约束规则,继而获取到约束配数,判断约束配数与预设阈值的关系,异常数据流水日志问题的分类,继而定位产生异常的数据流水日志。在本实施例中,控制设备与应用系统的传输是无线传输,比如可以分别在控制设备与应用系统的安装无线通讯模块,例如,蓝牙模块,Wi-Fi模块,通过设定的无线通讯协议,继而通信。
如图1所示,该异常数据的定位方法主要包括:
步骤S11:接收由用户操作产生的数据流水日志,在具体的实施例中,用户通过较为复杂的应用系统输入执行指令,应用系统开始执行用户输入的指令,为了满足用户的需求,应用系统需经过一个完整的执行流程,执行流程会涉及到不同的业务场景、不同的交互用户、完成不同的业务操作,也会产生数据流水日志来记录用户指令,数据流水日志中不可避免会因为个别场景的个别操作的异常与失败产生异常数据,控制设备接收到用户执行指令产生的所有数据流水日志,数据流水日志中包括约束标识,约束是用户当前的业务操作以及当前会触发的一系列其他业务操作,控制器将此一系列的业务操作定义为一个约束,用相同的约束标识标记;在本实施例中,用户在多团队企业项目实时协作流程管理应用系统中输入执行采购流程指令,应用系统开始执行用户的采购指令,采购指令的完成还需要其他的业务操作,上述其他的业务操作包括采购环境准备、采购订单以及发票报销,将采购环境准备、采购订单以及发票报销业务操作定义为一个约束,控制设备会用同一个流水号记录业务操作所产生的采购环境准备数据流水日志、采购订单数据流水日志以及发票报销数据流水日志,同时控制设备会接收到采购环境准备数据流水日志、采购订单数据流水日志以及发票报销数据流水日志,数据流水日志中包括约束标识。
步骤S12:匹配约束规则,在具体的实施例中,控制设备根据约束标识在预设的约束规则库中匹配相应的约束规则;在本实施例中,系统的预设约束中包括判识规则、校验规则及其他任何可对约束进行限定的规则,根据控制设备接收到的数据流水日志中的约束标识,与预设约束规则库中相应地约束规则匹配。
步骤S13:计算平衡指数,在本实施例中,控制设备根据约束规则和预设平衡指数定义规则计算数据流水日志的平衡指数,预设平衡指数定义规则包括将平衡指数定义为与约束配数的差值,也可以将平衡指数定义为控制设备输出的数据流水日志的时间,以及其他任意可以计量海量数据流水日志数据质量问题的规则。
步骤S14:确定产生异常的数据流水日志,在本实施例中,根据预设平衡指数定义规则得到平衡指数的计算规则,根据平衡指数定义规则及其计算规则可得到平衡指数,通过平衡指数定位产生异常的数据流水日志。
本发明实施例的异常数据定位方法,通过接收到由用户操作产生的包括约束标识的海量数据流水日志,根据约束标识在应用系统预设的约束规则库中匹配相应的约束规则,根据匹配到的约束规则与预设的平衡指数定义规则,得到约束的平衡指数,根据平衡指数定位产生异常问题的数据流水日志,解决了在现有技术中无法对海量用户产生的海量数据流水日志进行定位的问题,本发明提供的异常数据定位方法定位产生异常的数据后,就可相应地定位产生异常数据流水日志的操作,并对定位到的产生异常的数据流水日志进行删除、复制或者再生,从而可以排除海量数据流水日志中的数据缺损点,从而提高了数据质量。在实际应用中,在控制设备计算平衡指数时,根据预设的平衡指数定义与约束规则计算平衡指数,如图2所示,在执行上述步骤S13时,该异常数据定位方法还包括:
步骤S21:控制设备将预设平衡指数规则定义为与约束配数的差值,在本实施例中,根据系统中预设的平衡指数定义规则定义平衡指数,预设平衡指数的定义规则包括:将平衡指数定义为与约束配数的差值或将平衡指数定义为控制设备输出的数据流水日志的时间,在具体的一个实施例中,平衡指数是实际操作中检测到的数据流水日志记录与配约束数的差值。
步骤S22:根据约束规则及约束标识得到约束配数,在本实施例中,用户在多团队企业项目实时协作流程管理应用系统中输入执行采购流程指令,应用系统开始执行用户的采购指令,采购指令的完成中还需要其他的业务操作,其他的业务操作包括采购环境准备、采购订单以及发票报销,将采购环境准备、采购订单以及发票报销业务操作的数据流水日志定义为约束,根据约束规则和约束标识得到配数,配数为3。
步骤S23:计算平衡指数,在本实施例中,平衡指数为与约束配数的差值,计算在实际应用中检测到的数据流水日志数量与配数的差值。
本发明实施例的异常数据定位方法,执行步骤S21、S22之后,在执行步骤S23时,还包括,如图3所示:
步骤S301:获取计算出的平衡指数;
步骤S302:判断平衡指数与预设阈值的关系,在本实施例中,当控制设备获取到平衡指数后,将判断平衡指数与预设阈值的关系,根据平衡指数与预设阈值的关系确定异常数据流水日志的问题种类以及产生异常的数据流水日志的位置。如果平衡指数大于预设阈值,执行步骤S303,如果平衡指数等于预设阈值,执行步骤S304,如果平衡指数小于预设阈值,执行步骤S305。
步骤S303:由用户操作指令产生的数据流水日志产生重复,根据约束标识定位产生重复的数据流水日志的位置,在本实施例中,如果平衡指数大于预设阈值,上述阈值为零,说明系统实际检测到的数据流水日志数值大于约束配数,约束配数是根据约束标识得到的,是应用系统检测到的为了执行用户输入指令而触发的一系列的业务操作数量,当平衡指数大于预设阈值时,说明产生了记录用户业务操作之外重复的数据流水日志,由此判定由用户产生的数据流水日志产生重复,根据数据流水日志中的流水号就可定位重复的数据流水日志。
步骤S304:由用户操作产生的数据流水日志正确,在本实施例中,如果平衡指数等于预设阈值,说明系统实际检测到的数据流水日志数值等于约束配数,没有产生记录用户业务操作之外异常的数据流水日志,由此判定由用户产生的数据流水日志正确。
步骤S305:由用户操作产生数据流水日志产生缺失,在本实施例中,如果平衡指数小于预设阈值,说明系统实际检测到的数据流水日志数值小于约束配数,没有完整记录用户的业务操作产生的数据流水日志,由此判定由用户产生的数据流水日志发生缺失问题,根据数据流水日志中的流水号就可定位缺失的数据流水日志。
在实际应用中,如果平衡指数大于预设阈值,由用户操作指令产生的数据流水日志产生重复,根据约束标识定位产生重复数据流水日志的位置,该异常数据定位方法还包括:
步骤S308:判断重复数据流水日志的全字段是否完全相同,在本实施例中,判断由用户执行指令产生的重复数据流水日志中的字段数据是否相同,如果重复数据流水日志的全字段完全相同,执行步骤S309;如果重复数据流水日志的全字段不完全相同,执行步骤S310。
步骤S309:删除重复数据流水日志;
步骤S310:标记数据流水日志有重复嫌疑,将数据流水日志复制到指定的“数据盘点”记录表或将其移动到指定的“数据盘点”记录表。
在实际应用中,如果平衡指数小于预设阈值,由用户操作指令产生的数据流水日志产生缺失,该异常数据定位方法还包括:
步骤S306:根据约束标识定位产生缺失数据流水日志的位置;
步骤S307:重新执行用户操作,重复生成当前操作的数据流水日志,并标记此数据流水日志记录为后期再生,便于再次检索和统计。
在实际应用中,如图4所示,预设的平衡指数定义规则还包括:
步骤S41:定义平衡指数为控制设备输出的数据流水日志的时间。在本实施例中,上述时间包括年、月、日。
步骤S42:计算平衡指数。在本实施例中,计算平衡指数的过程可以是,确认该数据流水日志输出的时间,具体地,当该数据流水日志输出的年份信息有问题时,此时平衡指数为1;当该数据流水日志输出的月份信息有问题时,此时平衡指数为2,当该数据流水日志输出的日期信息有问题时,此时平衡指数为3;此时,说明此数据流水日志就是发生异常的数据流水日志。
本发明实施例的异常数据定位方法,通过判断计算的平衡指数与预设阈值的关系,得到判断结果,控制设备会根据判断结果执行对应操作,定位产生异常的数据流水日志,这种方法实现了对于海量用户产生的海量数据流水日志中由于个别场景中的个别操作的异常与失败产生的异常数据的定位效果,自动修复数据,提高了数据质量。在实际应用中,当控制设备得到每一个用户操作对应约束的平衡指数,会把每一个平衡指数存入系统预设的平衡指数表,来计算统计平衡指数值,衡量预设时间段内的数据质量,如图5所示,该异常数据定位方法。还包括:
步骤S51:将根据用户每一次操作产生的数据流水日志计算出的平衡指数存入平衡指数表,具体地平衡指数表包括每一个约束的流水号、约束标识以及产生流水时间;
步骤S52:根据每日指数、月度指数、季度指数、年度指数或上午指数、下午指数、夜间指数,计算不同时段的统计平衡指数值;
步骤S53:计算正数个数与所有正数方差的乘积,作为统计平衡指数值的第一分量;
步骤S54:计算负数个数与所有负数方差的乘积,作为统计平衡指数值的第二分量;
步骤S55:计算第一分量与第二分量的和与数据总值的比值,作为统计平衡指数值的第三分量;
步骤S56:根据统计平衡指数值衡量不同日期、不同时段的数据质量问题;具体地,根据上述指数可以衡量不同时期、不同时段数据质量问题的特征,例如,如果夜间指数较高的话,此时因为是下班时间,没有职工操作应用系统,由此可得出数据流水日志发生异常的原因是应用系统本身发生问题,与员工操作无关。
本发明实施例的异常数据定位方法,根据不同时段的日期特征以及计算出的每一次用户操作指令产生的平衡指数,通过计算正数个数与所有方差的乘积、所有负数个数与所有负数方差的乘积以及正数个数与所有方差的乘积与所有负数个数与所有负数方差的乘积的和与用户操作指令所产生的所有数据流水日志的比值,得到统计平衡指数值,解决了衡量数据质量不精确的问题,简化了分析数据质量问题和具体特征的过程。
实施例2
本发明实施例提供一种异常数据定位装置,如图6所示,包括:
接收模块61,用于接收根据用户操作产生的数据流水日志,详细实施内容可参见上述方法实施例的步骤S11的相关描述。
匹配模块62,用于根据约束标识在预设的约束规则库中匹配相应的约束规则,详细实施内容可参见上述方法实施例的步骤S12的相关描述。
计算模块63,用于计算数据流水日志的平衡指数,详细实施内容可参见上述方法实施例的步骤S13的相关描述。
判断模块64,用于判断平衡指数和预设阈值的关系,详细实施内容可参见上述方法实施例步骤S301-S310的相关描述。
定位模块65,用于根据判断结果对产生异常的数据流水日志进行定位详细实施内容可参见上述方法实施例的步骤S14的相关描述。
本发明实施例所提供一种异常数据定位装置,解决了相关技术中无法对海量用户产生的海量数据流水日志中定位异常数据的问题,提高了定位异常数据流水日志的效率,提高了数据质量。
实施例3
本实施例提供一种定位异常数据系统,包括至少一个控制设备71,如图7所示,包括:
第一通讯模块711,用于传输数据,接收用户操作指令产生的数据流水日志信息;
第一控制器712,与第一通讯模块711连接,如图8所示,包括:至少一个处理器81;以及与至少一个处理器81通信连接的存储器82;其中,存储器82存储有可被至少一个处理器81执行的指令,当接收到由用户操作指令产生的数据流水日志信息时,以使至少一个处理器81执行图1所示的异常数据定位方法,图8中以一个处理器为例,处理器81,存储器82通过总线80连接,在本实施例中,第一通讯模块可以为无线通讯模块,例如,蓝牙模块,Wi-Fi模块等,也可以为有线通讯模块。
存储器82作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请实施例中的异常数据定位方法对应的程序指令/模块。处理器81通过运行存储在存储器82中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的异常数据定位方法。
存储器82可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据服务器操作的处理装置的使用所创建的数据等。此外,存储器82可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器82可选包括相对于处理器81远程设置的存储器,这些远程存储器可以通过网络连接至网络连接装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器82中,当被一个或者多个处理器81执行时,执行上述实施例任意一项描述的方法。
本发明实施例提供的控制设备,通过第一通讯模块711接收用户操作指令产生的数据流水日志信息,当接收到用户操作指令产生的数据流水日志信息时,通过第一控制器712根据约束标识在预设约束规则库中匹配相应的约束规则,根据约束规则和预设平衡指数定义规则计算数据流水日志的平衡指数,根据平衡指数确定产生异常的数据流水日志,解决了现有技术下无法对海量用户产生的海量数据流水日志中定位异常数据的问题,提高了定位异常数据流水日志的效率,修复了数据,提高了数据质量。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
显然,上述实施例是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (11)

1.一种异常数据的定位方法,其特征在于,包括如下步骤:
接收到由用户操作产生的数据流水日志,所述数据流水日志中包括约束标识;
根据所述约束标识在预设的约束规则库中匹配相应的约束规则;
根据所述约束规则和预设平衡指数定义规则计算所述数据流水日志的平衡指数;
根据所述平衡指数确定产生异常的数据流水日志。
2.根据权利要求1所述的异常数据的定位方法,其特征在于,所述的预设平衡指数定义规则包括:
定义所述平衡指数为与约束配数的差值;
根据所述约束规则和所述约束标识得到所述约束配数;
根据所述约束配数计算平衡指数。
3.根据权利要求2所述的异常数据的定位方法,其特征在于,所述根据所述约束配数计算平衡指数包括:
判断所述平衡指数与预设阈值的关系,所述预设阈值为零;
当所述平衡指数大于所述预设阈值时,说明所述由用户操作产生的数据流水日志产生重复,根据所述约束标识定位产生重复数据流水日志的位置。
4.根据权利要求3所述的异常数据的定位方法,其特征在于,还包括:
当所述平衡指数等于预设阈值时,说明所述由用户操作产生的数据流水日志正确。
5.根据权利要求3所述的异常数据的定位方法,其特征在于,还包括:
当所述平衡指数小于预设阈值时,说明所述由用户操作产生的数据流水日志产生缺失;
根据所述约束标识定位产生缺失数据流水日志的位置;
重新执行用户操作,重复生成当前操作的数据流水日志,并标记此数据流水日志记录为后期再生,便于再次检索和统计。
6.根据权利要求3所述的异常数据的定位方法,其特征在于,所述根据所述约束标识定位产生重复数据流水日志的位置,还包括:
判断所述重复数据流水日志的全字段是否完全相同;
当所述重复数据流水日志的全字段完全相同时,删除所述重复数据流水日志。
7.根据权利要求6所述的异常数据的定位方法,其特征在于,还包括:
当所述重复数据流水日志的全字段不完全相同时,标记数据流水日志有重复嫌疑,将所述数据流水日志复制到指定的“数据盘点”记录表或将其移动到指定的“数据盘点”记录表。
8.根据权利要求1所述的异常数据的定位方法,其特征在于,包括:
将根据用户每一次操作产生的数据流水日志计算出的平衡指数存入平衡指数表;
所述平衡指数表包括每一个约束的流水号、约束标识以及产生流水时间;
根据日期计算不同时段的统计平衡指数值,所述日期包括:每日指数、月度指数、季度指数、年度指数或上午指数、下午指数、夜间指数;
计算正数个数与所有正数方差的乘积,作为所述统计平衡指数值的第一分量;
计算负数个数与所有负数方差的乘积,作为所述统计平衡指数值的第二分量;
计算第一分量与第二分量的和与数据总值的比值,作为所述统计平衡指数值的第三分量;
根据所述的统计平衡指数值衡量不同时期、不同时段的数据质量问题的严重程度和具体特征。
9.一种异常数据的定位装置,其特征在于,包括:
接收模块,用于接收根据用户操作产生的数据流水日志;
匹配模块,用于根据约束标识在预设的约束规则库中匹配相应的约束规则;
计算模块,用于计算所述数据流水日志的平衡指数;
判断模块,用于判断所述平衡指数和预设阈值的关系;
定位模块,用于根据判断结果对产生异常的数据流水日志进行定位。
10.一种异常数据的定位系统,其特征在于,包括:
至少一个控制设备及计算机终端,所述控制设备用于执行如权利要求1-8中任一项所述的异常数据的定位方法,对执行某种操作所产生的具体异常数据流水日志进行定位。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的异常数据的定位方法的步骤。
CN201911143879.4A 2019-11-20 2019-11-20 一种异常数据的定位方法、装置及系统 Active CN111061687B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911143879.4A CN111061687B (zh) 2019-11-20 2019-11-20 一种异常数据的定位方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911143879.4A CN111061687B (zh) 2019-11-20 2019-11-20 一种异常数据的定位方法、装置及系统

Publications (2)

Publication Number Publication Date
CN111061687A true CN111061687A (zh) 2020-04-24
CN111061687B CN111061687B (zh) 2024-06-14

Family

ID=70298296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911143879.4A Active CN111061687B (zh) 2019-11-20 2019-11-20 一种异常数据的定位方法、装置及系统

Country Status (1)

Country Link
CN (1) CN111061687B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160378781A1 (en) * 2015-06-24 2016-12-29 International Business Machines Corporation Log File Analysis to Locate Anomalies
CN107844400A (zh) * 2017-10-16 2018-03-27 阿里巴巴集团控股有限公司 一种日志数据的校验方法及装置
CN109634818A (zh) * 2018-10-24 2019-04-16 中国平安人寿保险股份有限公司 日志分析方法、系统、终端及计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160378781A1 (en) * 2015-06-24 2016-12-29 International Business Machines Corporation Log File Analysis to Locate Anomalies
CN107844400A (zh) * 2017-10-16 2018-03-27 阿里巴巴集团控股有限公司 一种日志数据的校验方法及装置
CN109634818A (zh) * 2018-10-24 2019-04-16 中国平安人寿保险股份有限公司 日志分析方法、系统、终端及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈海宇;曾德胜;: "基于日志的异常软件使用模式检测", 淮海工学院学报(自然科学版) *

Also Published As

Publication number Publication date
CN111061687B (zh) 2024-06-14

Similar Documents

Publication Publication Date Title
US10310968B2 (en) Developing software project plans based on developer sensitivity ratings detected from monitoring developer error patterns
CN111506489B (zh) 测试方法、系统、设备、服务器及存储介质
CN108536521B (zh) 基于仿真平台离线环境核对方法及装置
CN111108481B (zh) 故障分析方法及相关设备
CN103678124B (zh) 基于持续集成环境的视频监控平台自动测试方法及装置
CN109002391A (zh) 自动检测嵌入式软件接口测试数据的方法
CN111813788A (zh) 信息的查询方法和装置、信息的同步方法和装置
CN103440460A (zh) 一种应用系统变更验证方法及验证系统
CN112087320B (zh) 一种异常定位方法、装置、电子设备和可读存储介质
WO2023125706A1 (zh) 换电车辆的里程订单生成的测试方法及系统、设备及介质
CN112579699A (zh) 业务数据处理链路的质量监控方法、系统及存储介质
JP2014035595A (ja) 通信システムの試験装置、通信システムの試験用プログラム及び通信システムの試験方法
CN112579352A (zh) 业务数据处理链路的质量监控结果生成方法、存储介质及质量监控系统
CN116506340A (zh) 流量链路的测试方法、装置、电子设备及存储介质
CN111061687B (zh) 一种异常数据的定位方法、装置及系统
CN111427959A (zh) 一种数据存储方法及装置
CN103634158B (zh) 一种snmp管理进程的压力测试方法和装置
CN111694752B (zh) 应用测试方法、电子设备及存储介质
CN113761854A (zh) 一种实现列控数据处理的方法和装置
CN113825162B (zh) 电信网络故障原因定位方法及装置
CN110765006A (zh) 流程测试方法和装置、计算机可读存储介质、电子设备
KR101571510B1 (ko) 선박 및 해양구조물의 자산 데이터 관리 시스템 및 그 방법
CN117421255B (zh) 一种接口的自动巡检方法、装置、设备和存储介质
CN105868091A (zh) 管理方法和管理装置
CN114240329A (zh) 一种数据处理的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant