CN104112056B - 数据处理的故障检测方法和系统 - Google Patents

数据处理的故障检测方法和系统 Download PDF

Info

Publication number
CN104112056B
CN104112056B CN201310136207.7A CN201310136207A CN104112056B CN 104112056 B CN104112056 B CN 104112056B CN 201310136207 A CN201310136207 A CN 201310136207A CN 104112056 B CN104112056 B CN 104112056B
Authority
CN
China
Prior art keywords
time threshold
current time
logic
failure
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310136207.7A
Other languages
English (en)
Other versions
CN104112056A (zh
Inventor
廖龙
秦晓强
答治茜
罗建国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310136207.7A priority Critical patent/CN104112056B/zh
Publication of CN104112056A publication Critical patent/CN104112056A/zh
Application granted granted Critical
Publication of CN104112056B publication Critical patent/CN104112056B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明涉及一种数据处理的故障检测方法和系统。所述方法包括:对数据执行运算逻辑;依次判断是否逻辑失败,是否系统错误,是否超过当前的时间阈值;当满足逻辑失败、系统错误、超过当前时间阈值中任一项时,均发送告警信息,并重新对数据执行运算逻辑。上述数据处理的故障检测方法和系统,通过逐步检测运算失败的可能情况,准确的区分逻辑失败、系统错误和超过时间阈值导致的失败情况,细化了运算失败的原因,提高了检测的准确性,且在失败后发送告警信息,起到了有效的警示作用,并在失败后进行重试,保证了数据处理的稳定。

Description

数据处理的故障检测方法和系统
技术领域
本发明涉及数据处理领域,特别是涉及一种数据处理的故障检测方法和系统。
背景技术
随着信息技术的发展,各种各样的数据产生了,如安装在工业设备、汽车、电表上的数码传感器测量和传递的有关位置、运动、震动、温度、湿度以及空气中化学物质的变化等数据,如此形成了大数据,即海量数据。
目前对大数据处理的方案有很多,如MapReduce方案,其使用Map(映射)和Reduce(化简)为主要操作对大数据进行并行运算。MapReduce方案把数据切分为小块,每块数据处理设置一个超时时间,如果运算超时则认为该次运算失败,需重新执行一次运算。然而对数据块处理过程中出现故障的原因有多种,目前仅能检测超时导致的运算失败,检测不准确。
发明内容
基于此,有必要针对数据处理的故障检测不准确问题,提供一种数据处理的故障检测方法,能提高检测的准确性。
此外,还有必要针对数据处理的故障检测不准确问题,提供一种数据处理的故障检测系统,能提高检测的准确性。
一种数据处理的故障检测方法,包括:
对数据执行运算逻辑;
依次判断是否逻辑失败,是否系统错误,是否超过当前的时间阈值;
当满足逻辑失败、系统错误、超过当前时间阈值中任一项时,均发送告警信息,并重新对数据执行运算逻辑。
在其中一个实施例中,所述方法还包括步骤:
当运算逻辑成功、未出现系统错误且未超过当前的时间阈值时,更新时间阈值。
在其中一个实施例中,所述当运算逻辑成功、未出现系统错误且未超过当前的时间阈值时,更新时间阈值的步骤包括:
获取一次完整的逻辑处理过程所耗费的时间,所述逻辑处理过程包括判断是否逻辑失败,是否系统错误,是否超过当前的时间阈值;
根据所述耗费的时间及当前的时间阈值更新时间阈值。
在其中一个实施例中,所述根据所述耗费的时间及当前的时间阈值更新时间阈值的步骤包括:
根据所述耗费时间和当前的时间阈值分别对应的权值加权求和得到更新的时间阈值。
在其中一个实施例中,所述发送告警信息的步骤包括:
以短信方式或即时通讯方式发送告警信息。
一种数据处理的故障检测系统,包括:
执行模块,用于对数据执行运算逻辑;
判断模块,用于依次判断是否逻辑失败,是否系统错误,是否超过当前的时间阈值;
告警模块,用于当满足逻辑失败、系统错误、超过当前的时间阈值中任一项时,均发送告警信息,并重新由执行模块对数据执行运算逻辑。
在其中一个实施例中,所述系统还包括:
更新模块,用于当运算逻辑成功、未出现系统错误且未超过当前的时间阈值时,更新时间阈值。
在其中一个实施例中,所述更新模块还用于获取一次完整的逻辑处理过程所耗费的时间,所述逻辑处理过程包括判断是否逻辑失败,是否系统错误,是否超过当前的时间阈值,以及根据所述耗费的时间及当前的时间阈值更新时间阈值。
在其中一个实施例中,所述更新模块还用于根据所述耗费时间和当前的时间阈值分别对应的权值加权求和得到更新的时间阈值。
在其中一个实施例中,所述告警模块还用于以短信方式或即时通讯方式发送告警信息。
上述数据处理的故障检测方法和系统,通过逐步检测运算失败的可能情况,准确的区分逻辑失败、系统错误和超过时间阈值导致的失败情况,细化了运算失败的原因,提高了检测的准确性,且在失败后发送告警信息,起到了有效的警示作用,并在失败后进行重试,保证了数据处理的稳定。
附图说明
图1为一个实施例中数据处理的故障检测方法的流程图;
图2为一个实施例中更新时间阈值的流程图;
图3为一个实施例中数据处理的故障检测系统的结构框图;
图4为另一个实施例中数据处理的故障检测系统的结构框图。
具体实施方式
下面结合具体的实施例及附图对数据处理的故障检测方法和系统的技术方案进行详细的描述,以使其更加清楚。
如图1所示,为一个实施例中数据处理的故障检测方法的流程图。该数据处理的故障检测方法运行于终端上。该终端可为膝上便携式计算机、台式计算机、平板电脑、智能手机等。该数据处理的故障检测方法,包括:
步骤S102,对数据执行运算逻辑。
具体的,将大数据分成多个小块数据,开启子进程对每个小块数据执行运算逻辑。
步骤S104,判断是否逻辑失败,若是,执行步骤S120,若否,执行步骤S106。
具体的,判断是否逻辑失败是根据各个运算逻辑来确定的,根据不同的计算任务采用不同的运算逻辑,例如计算用户的状态、计算辅助工具的有效时限等。运算逻辑调用了函数,每个函数处理完数据后,必须有一个返回码表示处理的结果,如非0表示逻辑失败,0表示逻辑成功,即可判断返回码来确定是否逻辑失败。
步骤S106,进一步判断是否系统错误,若是,执行步骤S120,若否,执行步骤S108。
具体的,系统错误包括指针越界等,指针越界是指超过了指针变量的作用范围。出现系统错误时,会导致子进程结束,并且有对应的状态,查询该对应的状态可得到系统错误的原因。
步骤S108,进一步判断是否超过当前的时间阈值,若是,执行步骤S120,若否,执行步骤S110。
具体的,每一次对数据执行运算逻辑处理均设定了时间阈值,当前的时间阈值是指该次运算逻辑处理的时间阈值,当超过当前的时间阈值时,需重新执行运算逻辑。设置时间阈值是为了防止长时间无处理结果,降低了运算效率。
步骤S110,更新时间阈值。
具体的,当运算逻辑成功、未出现系统错误且未超过当前的时间阈值时,更新时间阈值。
如图2所示,为一个实施例中更新时间阈值的流程图。该更新时间阈值,包括:
步骤S202,获取一次完整的逻辑处理过程所耗费的时间,该逻辑处理过程包括判断是否逻辑失败,是否系统错误,是否超过当前的时间阈值。
具体的,该逻辑处理过程所耗费的时间是指完成一次完整的判断是否逻辑失败、是否系统错误、是否超过当前的时间阈值所耗费的时间。
步骤S204,根据该耗费的时间及当前的时间阈值更新当前时间阈值。
具体的,可采用加权法求取更新的时间阈值。根据该耗费时间和当前的时间阈值分别对应的权值加权求和得到更新的时间阈值。如耗费时间Th,对应的权值为a,当前的时间阈值T,对应的权值为b,更新的时间阈值T',则T'=Th*a+T*b,a与b之和为1。
在其他实施例中,可采用平均值法求取更新的时间阈值。如T'=(Th+T)/2。
在其他实施例中,也可采用前n次的时间阈值和耗费的时间加权求和的方式得到更新的时间阈值,如前n次的时间阈值分别为T1、T2、…、Tn,对应的权值分别为a1、a2、…、an,更新的时间阈值T'=T1*a1+T2*a2+,…,+Tn*an+Th*a,其中,a+a1+a2+…+an=1。
在其他实施例中,也可采用当前n次的时间阈值和耗费的时间平均值作为更新的时间阈值。
通过动态更新时间阈值,灵活性较好,不易引起反复处理某块数据,提高了数据处理的稳定性。
步骤S120,发送告警信息,并返回步骤S102。
具体的,当满足逻辑失败、系统错误、超过当前的时间阈值中任一项时,均发送告警信息,并重新对数据执行运算逻辑。可以以短信方式或即时通讯方式发送告警信息,即以短信方式发送给移动终端,或以即时通讯方式发送给即时通讯客户端,如微信客户端。该告警信息可为文本信息、图片信息、图文组合信息、语音信息或视频信息等。文本信息可为“处理错误”文字提醒等。图片信息可为悲伤表情或“X”图片符号等。图文组合信息可为悲伤表情加文字说明等。语音信息可为一段错误提示语音。视频信息可为一段表示错误的动画提醒等。
此外,逻辑失败、系统错误及超过时间阈值所发送的告警信息可相同,也可不同,根据需要选定。
上述数据处理的故障检测系统,通过逐步检测运算失败的可能情况,准确的区分逻辑失败、系统错误和超过时间阈值导致的失败情况,细化了运算失败的原因,提高了检测的准确性,且在失败后发送告警信息,起到了有效的警示作用,并在失败后进行重试,保证了数据处理的稳定。
如图3所示,为一个实施例中数据处理的故障检测系统的结构框图。该数据处理的故障检测系统运行于终端上。该数据处理的故障检测系统,包括执行模块320、判断模块340和告警模块360。其中:
执行模块320用于对数据执行运算逻辑。
具体的,将大数据分成多个小块数据,开启子进程对每个小块数据执行运算逻辑。
判断模块340用于依次判断是否逻辑失败,是否系统错误,是否超过当前的时间阈值。
具体的,判断是否逻辑失败是根据各个运算逻辑来确定的,根据不同的计算任务采用不同的运算逻辑,例如计算用户的状态、计算辅助工具的有效时限等。运算逻辑调用了函数,每个函数处理完数据后,必须有一个返回码表示处理的结果,如非0表示逻辑失败,0表示逻辑成功,即可判断返回码来确定是否逻辑失败。
系统错误包括指针越界等,指针越界是指超过了指针变量的作用范围。出现系统错误时,会导致子进程结束,并且有对应的状态,查询该对应的状态可得到系统错误的原因。
每一次对数据执行运算逻辑处理均设定了时间阈值,当前的时间阈值是指该次运算逻辑处理的时间阈值,当超过当前的时间阈值时,需重新执行运算逻辑。设置时间阈值是为了防止长时间无处理结果,降低了运算效率。
告警模块360用于当满足逻辑失败、系统错误、超过当前时间阈值中任一项时,均发送告警信息,并重新由执行模块320对数据执行运算逻辑。
具体的,当满足逻辑失败、系统错误、超过当前的时间阈值中任一项时,均发送告警信息,并重新对数据执行运算逻辑。告警模块360可以以短信方式或即时通讯方式发送告警信息,即以短信方式发送给移动终端,或以即时通讯方式发送给即时通讯客户端,如微信客户端。该告警信息可为文本信息、图片信息、图文组合信息、语音信息或视频信息等。文本信息可为“处理错误”文字提醒等。图片信息可为悲伤表情或“X”图片符号等。图文组合信息可为悲伤表情加文字说明等。语音信息可为一段错误提示语音。视频信息可为一段表示错误的动画提醒等。
此外,逻辑失败、系统错误及超过时间阈值所发送的告警信息可相同,也可不同,根据需要选定。
上述数据处理的故障检测系统,通过逐步检测运算失败的可能情况,准确的区分逻辑失败、系统错误和超过时间阈值导致的失败情况,细化了运算失败的原因,提高了检测的准确性,且在失败后发送告警信息,起到了有效的警示作用,并在失败后进行重试,保证了数据处理的稳定。
如图4所示,为一个实施例中数据处理的故障检测系统的结构框体。该数据处理的故障检测系统除了包括执行模块320、判断模块340和告警模块360,还包括更新模块380。其中:
更新模块380用于当运算逻辑成功、未出现系统错误且未超过当前的时间阈值时,更新时间阈值。
更新模块380还用于获取一次完整的逻辑处理过程所耗费的时间,该逻辑处理过程包括判断是否逻辑失败,是否系统错误,是否超过当前时间阈值,以及根据所述耗费的时间及当前的时间阈值更新时间阈值。
具体的,可采用加权法求取更新的时间阈值。更新模块380还用于根据该耗费时间和当前的时间阈值分别对应的权值加权求和得到更新的时间阈值。如耗费时间Th,对应的权值为a,当前的时间阈值T,对应的权值为b,更新的时间阈值T',则T'=Th*a+T*b,a与b之和为1。
在其他实施例中,更新模块380可采用平均值法求取更新的时间阈值。如T'=(Th+T)/2。
在其他实施例中,更新模块380也可采用前n次的时间阈值和耗费的时间加权求和的方式得到更新的时间阈值,如前n次的时间阈值分别为T1、T2、…、Tn,对应的权值分别为a1、a2、…、an,更新的时间阈值T'=T1*a1+T2*a2+,…,+Tn*an+Th*a,其中,a+a1+a2+…+an=1。
在其他实施例中,更新模块380也可采用当前n次的时间阈值和耗费的时间平均值作为更新的时间阈值。
通过动态更新时间阈值,灵活性较好,不易引起反复处理某块数据,提高了数据处理的稳定性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种数据处理的故障检测方法,包括:
将大数据分成多个小块数据,开启子进程对每个小块数据执行运算逻辑;
依次判断是否逻辑失败,是否系统错误,是否超过当前的时间阈值;
当满足逻辑失败、系统错误、超过当前时间阈值中任一项时,均发送告警信息,并重新对数据执行运算逻辑。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括步骤:
当运算逻辑成功、未出现系统错误且未超过当前的时间阈值时,更新时间阈值。
3.根据权利要求1所述的方法,其特征在于,所述当运算逻辑成功、未出现系统错误且未超过当前的时间阈值时,更新时间阈值的步骤包括:
获取一次完整的逻辑处理过程所耗费的时间,所述逻辑处理过程包括判断是否逻辑失败,是否系统错误,是否超过当前的时间阈值;
根据所述耗费的时间及当前的时间阈值更新时间阈值。
4.根据权利要求3所述的方法,其特征在于,所述根据所述耗费的时间及当前的时间阈值更新时间阈值的步骤包括:
根据所述耗费时间和当前的时间阈值分别对应的权值加权求和得到更新的时间阈值。
5.根据权利要求1所述的方法,其特征在于,所述发送告警信息的步骤包括:
以短信方式或即时通讯方式发送告警信息。
6.一种数据处理的故障检测系统,其特征在于,包括:
执行模块,用于将大数据分成多个小块数据,开启子进程对每个小块数据执行运算逻辑;
判断模块,用于依次判断是否逻辑失败,是否系统错误,是否超过当前的时间阈值;
告警模块,用于当满足逻辑失败、系统错误、超过当前的时间阈值中任一项时,均发送告警信息,并重新由执行模块对数据执行运算逻辑。
7.根据权利要求6所述的系统,其特征在于,所述系统还包括:
更新模块,用于当运算逻辑成功、未出现系统错误且未超过当前的时间阈值时,更新时间阈值。
8.根据权利要求6所述的系统,其特征在于,所述更新模块还用于获取一次完整的逻辑处理过程所耗费的时间,所述逻辑处理过程包括判断是否逻辑失败,是否系统错误,是否超过当前的时间阈值,以及根据所述耗费的时间及当前的时间阈值更新时间阈值。
9.根据权利要求8所述的系统,其特征在于,所述更新模块还用于根据所述耗费时间和当前的时间阈值分别对应的权值加权求和得到更新的时间阈值。
10.根据权利要求6所述的系统,其特征在于,所述告警模块还用于以短信方式或即时通讯方式发送告警信息。
CN201310136207.7A 2013-04-18 2013-04-18 数据处理的故障检测方法和系统 Active CN104112056B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310136207.7A CN104112056B (zh) 2013-04-18 2013-04-18 数据处理的故障检测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310136207.7A CN104112056B (zh) 2013-04-18 2013-04-18 数据处理的故障检测方法和系统

Publications (2)

Publication Number Publication Date
CN104112056A CN104112056A (zh) 2014-10-22
CN104112056B true CN104112056B (zh) 2017-11-21

Family

ID=51708844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310136207.7A Active CN104112056B (zh) 2013-04-18 2013-04-18 数据处理的故障检测方法和系统

Country Status (1)

Country Link
CN (1) CN104112056B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110289976A (zh) * 2018-03-19 2019-09-27 上海秦苍信息科技有限公司 一种调度任务告警系统及方法
CN109117115A (zh) * 2018-07-16 2019-01-01 精硕科技(北京)股份有限公司 数据运算调度处理方法及装置、存储介质、处理器
CN110502404B (zh) * 2019-07-22 2022-05-31 平安科技(深圳)有限公司 一种基于数据治理平台的预警处理方法及相关设备
CN115277366A (zh) * 2022-07-28 2022-11-01 上海镁信健康科技有限公司 一种基于接口的sla告警系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1794124A (zh) * 2005-11-04 2006-06-28 刘宗明 无人维护系统
CN101650688A (zh) * 2009-08-31 2010-02-17 中兴通讯股份有限公司 一种访问vm_io地址空间的方法和用户态调试器
CN101694580A (zh) * 2009-09-29 2010-04-14 北京北方微电子基地设备工艺研究中心有限责任公司 一种生产线设备的监控方法及系统
CN102232825A (zh) * 2010-05-05 2011-11-09 陈澎 基于紫蜂的多功能睡眠护理和监测装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI434233B (zh) * 2011-05-17 2014-04-11 Ind Tech Res Inst 睡意預警方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1794124A (zh) * 2005-11-04 2006-06-28 刘宗明 无人维护系统
CN101650688A (zh) * 2009-08-31 2010-02-17 中兴通讯股份有限公司 一种访问vm_io地址空间的方法和用户态调试器
CN101694580A (zh) * 2009-09-29 2010-04-14 北京北方微电子基地设备工艺研究中心有限责任公司 一种生产线设备的监控方法及系统
CN102232825A (zh) * 2010-05-05 2011-11-09 陈澎 基于紫蜂的多功能睡眠护理和监测装置

Also Published As

Publication number Publication date
CN104112056A (zh) 2014-10-22

Similar Documents

Publication Publication Date Title
US20200327238A1 (en) Techniques to detect perturbation attacks with an actor-critic framework
CN104112056B (zh) 数据处理的故障检测方法和系统
CN110363094A (zh) 一种船只异常行为识别方法、装置及终端设备
JPWO2013088565A1 (ja) 検知装置、検知プログラムおよび検知方法
CN112100619B (zh) 一种恶意文件检测方法、系统、设备及计算机存储介质
CN104580096B (zh) 一种多媒体处理方法、装置及终端设备
CN107612737B (zh) 一种告警方法及其装置
CN110909804B (zh) 基站异常数据的检测方法、装置、服务器和存储介质
CN116797973A (zh) 应用于环卫智慧管理平台的数据挖掘方法及系统
CN111597336A (zh) 训练文本的处理方法、装置、电子设备及可读存储介质
CN115687026A (zh) 多节点服务器故障预警方法、装置、设备及介质
CN111106954B (zh) 一种基于地图的拓扑节点显示方法和装置
CN114244681A (zh) 设备连接故障预警方法、装置、存储介质及电子设备
CN113304482A (zh) 应用于云计算的云游戏玩家画像处理方法、服务器及介质
CN111428886A (zh) 一种故障诊断的深度学习模型自适应更新的方法及装置
CN111428016A (zh) 一种检测谣言的方法与设备
CN112199781A (zh) 船舶主机控制系统偶发性故障检测方法及系统
CN112543195A (zh) 面向智能网联汽车的信息安全评估方法、装置及电子设备
CN112906727A (zh) 用于实时在线检测虚拟机状态的方法和系统
CN111275135A (zh) 一种故障诊断方法、装置、设备、介质
CN109409427A (zh) 一种按键检测方法及装置
CN113285817B (zh) 报警方法、系统、设备及存储介质
CN115683631B (zh) 轴承故障检测方法及装置
CN115905598B (zh) 一种社会事件摘要生成的方法、装置、终端设备及介质
CN116684306B (zh) 一种故障预测方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20190807

Address after: 518000 Nanshan District science and technology zone, Guangdong, Zhejiang Province, science and technology in the Tencent Building on the 1st floor of the 35 layer

Co-patentee after: Tencent cloud computing (Beijing) limited liability company

Patentee after: Tencent Technology (Shenzhen) Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Patentee before: Tencent Technology (Shenzhen) Co., Ltd.

TR01 Transfer of patent right