CN105488061A - 一种验证数据有效性的方法及装置 - Google Patents

一种验证数据有效性的方法及装置 Download PDF

Info

Publication number
CN105488061A
CN105488061A CN201410479041.3A CN201410479041A CN105488061A CN 105488061 A CN105488061 A CN 105488061A CN 201410479041 A CN201410479041 A CN 201410479041A CN 105488061 A CN105488061 A CN 105488061A
Authority
CN
China
Prior art keywords
verified
chart
displaying
statistical data
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410479041.3A
Other languages
English (en)
Other versions
CN105488061B (zh
Inventor
陆微微
辛莎莎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Network Technology Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201410479041.3A priority Critical patent/CN105488061B/zh
Publication of CN105488061A publication Critical patent/CN105488061A/zh
Application granted granted Critical
Publication of CN105488061B publication Critical patent/CN105488061B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种验证数据有效性的方法,所述方法包括:获取待验证的展示图表;所述待验证的展示图表基于待验证的网络统计数据生成;计算所述待验证的展示图表与已验证为有效的展示图表的相似度;判断计算出的所述相似度是否大于预设阈值,如果是,则判定所述网络统计数据有效。较之现有技术的方式,显然本申请实施例这种图表相似度比较的方式计算量更加小,从而提高了验证速度。本申请还提供了一种验证数据有效性的装置。

Description

一种验证数据有效性的方法及装置
技术领域
本申请涉及网络技术领域,尤其是涉及一种验证数据有效性的方法及装置。
背景技术
网络统计数据是对网络上的同类数据的统计结果,这些网络统计数据通常会通过图表的方式展示给用户,以起到一定的指导作用。
然而由于软硬件故障、恶意篡改数据等行为的发生,很容易导致网络统计数据无效,即网络统计数据出现异常。因此如何能够对网络统计数据进行有效性的验证,是人们普遍关心的问题。
现有技术中一种常用的有效性验证方式是:根据待验证的网络统计数据的类型总结出验证规则,进一步判断这些数据是否符合总结出的验证规则,如果是,则说明这些数据有效。然而由于网络统计数据的数据量通常较大,而验证规则也一般较为复杂,因此这种验证方式计算量通常很大,从而降低了验证速度。
发明内容
本申请解决的技术问题在于提供一种验证数据有效性的方法及装置,以实现在验证网络统计数据有效性时降低计算量,从而提高验证速度。
为此,本申请解决技术问题的技术方案是:
本申请提供了一种验证数据有效性的方法,所述方法包括:
获取待验证的展示图表;所述待验证的展示图表基于待验证的网络统计数据生成;
计算所述待验证的展示图表与已验证为有效的展示图表的相似度;
判断计算出的所述相似度是否大于预设阈值,如果是,则判定所述网络统计数据有效。
优选地,所述待验证的展示图表与所述已验证为有效的展示图表按照相同排布方式展示了相同类目的网络统计数据。
优选地,所述方法还包括:
对所述已验证为有效的展示图表进行边缘提取,以获取第一边缘;
对所述待验证的展示图表进行边缘提取,以获取第二边缘;
所述计算所述待验证的展示图表与已验证为有效的展示图表的相似度包括:
计算所述第一边缘和所述第二边缘的相似度。
优选地,所述方法还包括:
提取所述已验证为有效的展示图表的缩略图作为第一缩略图;
提取所述待验证的展示图表的缩略图作为第二缩略图;
所述计算所述待验证的展示图表与已验证为有效的展示图表的相似度包括:
计算所述第一缩略图和所述第二缩略图的相似度。
优选地,所述方法还包括:
若判断所述相似度是否大于预设阈值的判断结果为否,则生成报警信号以提示对所述网络统计数据进行进一步有效性验证。
优选地,所述已验证为有效的展示图表和所述待验证的展示图表包括以下图表类型中的至少一种:
柱状图、线状图和面积图。
优选地,所述获取待验证的展示图表包括:
循环获取更新后的待验证的展示图表;所述更新后的待验证的展示图表基于更新后的网络统计数据生成。
本申请还提供了一种验证数据有效性的装置,所述装置包括:
获取单元,用于获取待验证的展示图表;所述待验证的展示图表基于待验证的网络统计数据生成;
计算单元,用于计算所述待验证的展示图表与已验证为有效的展示图表的相似度;
判断单元,用于判断计算出的所述相似度是否大于预设阈值,如果是,则判定所述网络统计数据有效。
优选地,所述待验证的展示图表与所述已验证为有效的展示图表按照相同排布方式展示了相同类目的网络统计数据。
优选地,所述装置还包括:
第一边缘提取单元,用于对所述已验证为有效的展示图表进行边缘提取,以获取第一边缘;
第二边缘提取单元,用于对所述待验证的展示图表进行边缘提取,以获取第二边缘;
所述计算单元用于计算所述待验证的展示图表与已验证为有效的展示图表的相似度包括:
所述计算单元用于计算所述第一边缘和所述第二边缘的相似度。
优选地,所述装置还包括:
第一缩略图提取单元,用于提取所述已验证为有效的展示图表的缩略图作为第一缩略图;
第二缩略图提取单元,用于提取所述待验证的展示图表的缩略图作为第二缩略图;
所述计算单元用于计算所述待验证的展示图表与已验证为有效的展示图表的相似度包括:
所述计算单元用于计算所述第一缩略图和所述第二缩略图的相似度。
优选地,所述装置还包括报警单元;
所述判断单元还用于若判断所述相似度是否大于预设阈值的判断结果为否,则通知所述报警单元生成报警信号以提示对所述网络统计数据进行进一步有效性验证。
优选地,所述已验证为有效的展示图表和所述待验证的展示图表包括以下图表类型中的至少一种:
柱状图、线状图和面积图。
优选地,所述获取单元用于获取待验证的展示图表包括:
所述获取单元用于循环获取更新后的待验证的展示图表;所述更新后的待验证的展示图表基于更新后的网络统计数据生成。
通过上述技术方案可知,本申请实施例中将基于待验证的网络统计数据生成的待验证的展示图表,与已验证为有效的展示图表进行相似度计算,如果计算出的相似度大于预设阈值,则说明这两个展示图表匹配,因此待验证的展示图表同样具有有效性,进而说明构成该展示图表的待验证的网络统计数据有效。较之现有技术的方式,显然本申请实施例这种图表相似度比较的方式计算量更加小,从而提高了验证速度。
附图说明
图1为本申请提供的方法的一种实施例的流程示意图;
图2为本申请提供的方法的另一种实施例的流程示意图;
图3为本申请提供的装置的一种实施例的结构示意图。
具体实施方式
网络统计数据是对网络上的同类数据的统计结果,比如将网络上各个类目的数据分别进行统计,得到各个类目的统计数据作为网络统计数据。这些网络统计数据通常会通过图表的方式展示给用户,以起到一定的指导作用。例如对于某一产品来说,网络统计数据可以包括:该产品的曝光量、浏览量、浏览量占比、转化量等统计数据。曝光量指的是该产品被曝光在网站上的次数,浏览量指的是该产品被用户浏览的次数,浏览量占比是浏览量与曝光量之比,转化量指的是该产品在用户浏览后被执行转化操作的次数。
然而由于软硬件故障、恶意篡改数据等行为的发生,很容易导致网络统计数据无效,即网络统计数据出现异常。因此如何能够对网络统计数据进行有效性的验证,是人们普遍关心的问题。
现有技术中一种常用的有效性验证方式是:根据待验证的网络统计数据的类型(比如包括的类目)总结出验证规则,进一步判断这些数据是否符合总结出的验证规则,如果是,则说明这些数据有效。然而由于网络统计数据的数据量通常较大,而验证规则也一般较为复杂,因此这种验证方式计算量通常很大,从而降低了验证速度。此外,对于不同类型的数据,很难总结出准确全面的验证规则,而且如果验证规则不准确全面,将会影响最终的验证结果的准确性。而且,这种方式只能实现对数据本身的验证,而不能对通过图表展示的数据进行验证。比如数据库中存的曝光量和浏览量都是正确的,而在展示浏览量的时候取了曝光量的数据,显然此时必然导致数据无效,而现有技术的这种验证方式并不能验证出这种无效数据。
实际上网络统计数据会通过图表的方式展示给用户,而且对网络统计数据的有效性验证,大部分情况都是为了实时监测展示给用户的数据是否是正常情况下的数据。但是由于网络统计数据的数据量非常大,比如对于某一类产品可能包括上万个子产品,如果要对上万个子产品的网络统计数据进行有效性分析,计算量是难以想象的。因此如何能够通过一种简便、快速的方式实现数据有效性的验证,是现有技术亟待解决的问题。
在本申请实施例中,提供一种验证数据有效性的方法及装置,以实现在验证网络统计数据有效性时降低计算量,从而提高验证速度。
在本申请实施例中,网络统计数据的有效性至少满足以下条件:网络统计数据是在软硬件都处于正常工作状态时,并且没有恶意篡改数据等行为发生时收集到的网络统计数据。具体通过至少验证以下内容进行判断:验证网络统计数据是否符合逻辑客观规律,例如对于产品来说,由于只有在被浏览之后才有可能被执行转化操作,因此浏览量必然大于或等于转化量。其中转化操作具体包括:购买、收藏等用户操作。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,本申请实施例提供了验证数据有效性的方法的一种实施例。本实施例包括:
S101:获取待验证的展示图表;所述待验证的展示图表基于待验证的网络统计数据生成。
待验证的网络统计数据中包括至少一个类目的网络统计数据。例如对于某一产品来说,待验证的网络统计数据可以包括:该产品的曝光量、浏览量、浏览量占比、转化量等多个类目的网络统计数据。并且基于该网络统计数据生成的展示图表中,分别展示出每个类目的网络统计数据,例如若该生成的展示图表为柱状图,通过四个柱形分别表示出某一产品的曝光量、浏览量、浏览量占比及转化量。
该生成的展示图表一般会在网页上展示给用户,以起到一定的指导作用。比如用户可以根据该生成的展示图表获取到相应信息,并且对网络统计数据进行进一步后期分析。
S102:计算所述待验证的展示图表与已验证为有效的展示图表的相似度。
在本申请实施例中,在对网络统计数据进行有效性验证时需要确定出用于对比的展示图表的模板,即已验证为有效的展示图表。其中对该已验证为有效的展示图表的有效性的验证方式不受限定,比如通过判断该已验证为有效的展示图表所展示的数据是否符合验证规则以对其有效性进行验证。由于该已验证为有效的展示图表是作为用于对比的模板,其有效性关系到最终对网络统计数据验证的准确性,因此对该已验证为有效的展示图表验证时通常采用可靠性比较高的方式,比如优选人工验证的方式。
其中,该已验证为有效的展示图表所展示的网络统计数据,可以包括根据历史数据或者当天数据分析出的数据,比如根据历史数据预测的未来一段时间的数据。这种分析出的数据更加接近于用户的实际行为产生的数据,而不是由于软硬件故障或者恶意篡改数据所产生的数据,因此具有有效性。
并且,该已验证为有效的展示图表所展示的网络统计数据,通常为一类业务对象的网络统计数据,而待验证的网络统计数据指的是该类业务对象下的子对象的网络统计数据。因此在步骤S102之前还可以包括,根据待验证的网络统计数据确定所表示的子对象,根据该子对象所属的业务对象类别,确定出展示该类别的网络统计数据的已验证为有效的展示图表。例如,根据待验证的网络统计数据表示的某一型号的电容元件,确定出展示所有电容元件的网络统计数据的已验证为有效的展示图表。
在本申请实施例中,为了提高本实施例的数据有效性验证的准确性,可以保证待验证的展示图表、与已验证为有效的展示图表按照相同排布方式展示了相同类目的网络统计数据。下面进一步解释说明相同类目和相同排布方式。
相同类目指的是:已验证为有效的展示图表中展示的网络统计数据所属的类目,与待验证的展示图表应当展示的网络统计数据所属的类目,无论在数量上还是种类均相同。例如已验证为有效的展示图表展示了四个类目的网络统计数据:曝光量、浏览量、浏览量占比和转化量,则待验证的展示图表也同样应当展示上述四个类目的网络统计数据。
相同排布方式指的是:已验证为有效的展示图表中展示的网络统计数据所属的类目,与待验证的展示图表应当展示的网络统计数据所属的类目,无论在排布次序还是排布位置上均相同。例如,已验证为有效的展示图表中从左至右依次展示曝光量、浏览量、浏览量占比和转化量,则待验证的展示图表中,也应当从左至右依次展示上述四个类目的网络统计数据,并且上述四个类目的网络统计数据分别位于各自的展示图中的排布位置相同。
在本申请实施例中,已验证为有效的展示图表和基于待验证的网络统计数据生成的待验证的展示图表可以包括以下图表类型中的至少一种:柱状图、线状图和面积图。可以理解的是,已验证为有效的展示图表和待验证的展示图表的图表类型保持一致,比如两者同时为柱状图。
S103:判断步骤S102中计算出的相似度是否大于预设阈值,如果是,则执行步骤S104。
这里设置的预设阈值用于判定已判定为有效的展示图表与待验证的展示图表是否匹配,如果匹配则说明待验证的展示图表与已验证为有效的展示图表相似度比较高,也就是说这两个展示图表中各个类目的数据之间的关系(比如数值大小关系)类似。例如步骤S102中计算出的这两个图表的相似度大于预设阈值,并且已验证为有效的展示图表中浏览量大于转化量,则待验证的展示图表也满足浏览量大于转化量。该预设阈值可以基于经验设定。
S104:判定待验证的网络统计数据有效。
基于待验证的网络统计数据生成的待验证的展示图表与已验证为有效的展示图表的相似度大于预设阈值时,说明这两个展示图表中各个类目的数据之间的关系(比如数值大小关系)类似。实际上由于网络统计数据的有效性一般主要体现在各个类目的统计数据之间的关系,因此由于已验证为有效的展示图表一定具有有效性,所以与其匹配的待验证的展示图表也为有效的图表,构成该待验证的展示图表的待验证的网络统计数据为有效数据。
通过上述技术方案可知,本实施例中将基于待验证的网络统计数据生成的待验证的展示图表,与已验证为有效的展示图表进行相似度计算,如果计算出的相似度大于预设阈值,则说明这两个展示图表匹配,因此待验证的展示图表同样具有有效性,进而说明构成该展示图表的待验证的网络统计数据有效。较之现有技术的方式,显然本申请实施例这种图表相似度比较的方式计算量更加小,从而提高了验证速度。
此外,本申请实施例还具有以下优点:
1、由于本申请实施例无需总结验证规则,从而避免了由于验证规则不准确全面导致的准确性降低的问题。
2、本申请实施例实际上是直接对展示后的网络统计数据进行验证,因此不仅仅局限于对数据本身的验证。比如能够验证出数据库中存的曝光量和浏览量都是正确的,而在展示浏览量的时候取了曝光量的数据而导致的无效数据。
3、现有技术由于是直接验证数据,不够直观,很难直观地发现究竟是哪些数据不具有有效性,而本申请实施例的这种通过展示图表的相似度对比的验证方式则非常直观,利于方便快速地定位到无效数据。
需要说明的是,本申请实施例重点在于通过展示图表的相似度匹配,提供一种简便、快速地方式实现数据有效性的验证。尤其是快速地验证出网络统计数据出现明显异常的情况,比如待验证的展示图表中有多个类目的数据出现明显偏差或者没有正常展示。
在本申请实施例的步骤S103中,若判断步骤S102计算出的相似度大于预设阈值的判断结果为否,则说明该待验证的展示图表与已验证有效的展示图表不匹配,此时网络统计数据可能无效,因此生成报警信号以提示对网络统计数据进行进一步有效性验证。比如通过人工排查方式或者通过验证规则进行验证。例如在已验证为有效的展示图表中,浏览量远大于转化量,如果待验证的展示图表出现异常情况,比如浏览量小于转化量,或者这两个类目的网络统计数据均为0,则将会使得这两个展示图表不匹配,此时通过生成报警信号进行报警。
在本申请实施例中,由于待验证的网络统计数据会随着时间进行更新,因此步骤S101可以包括循环获取更新后的待验证的展示图表,其中更新后的待验证的展示图表基于更新后的网络统计数据生成,从而实现持续执行本实施例。例如,通过启动定时任务实现在每天的固定时刻执行本实施例的流程,并且执行本实施例时在步骤S101中获取每天更新后的待验证的展示图表,从而保证了有效性验证的实时性。
本申请实施例在对待验证的展示图表和已验证为有效的展示图表进行相似度计算之前,还可以进一步提取这两个展示图表的边缘,并根据提取的边缘进行相似度计算,从而进一步提高验证的准确性和验证速度。具体地,本实施例还可以包括:对已验证为有效的展示图表进行边缘提取,以获取第一边缘;对待验证的展示图表进行边缘提取,以获取第二边缘。本实施例步骤S102中的计算所述待验证的展示图表与已验证为有效的展示图表的相似度可以包括:计算所述第一边缘和所述第二边缘的相似度。其中本申请实施例中,对边缘提取的方式不加限定,可以采用现有技术中任一种边缘提取算法。
图像信息的边缘通常所反映的是图像信息中所表示的各个图形的边界信息,由于图像上灰度变化剧烈的区域能够反映边界信息,因此很多情况下都利用这一关系进行图像信息的边缘提取。而在本申请实施例中,展示图表实际上是图像信息的一种,因此展示图表的边缘所反映的是展示图表所展示的各个图形的边界信息。例如已验证为有效的展示图表为柱状图,其中展示了多个柱状的图形以分别对应多个类目的网络统计数据,通过对已验证为有效的展示图表进行边缘提取所获取的第一边缘,则反映的是该已验证为有效的展示图表中,各个柱状图形的边界信息。
可见,展示图表的边缘能够反映出展示图表中各个类目的网络统计数据的数值大小,实际上也就能够反映出各个类目的网络统计数据之间的关系(比如数值大小关系),因此在上述步骤中,对待验证的展示图表的边缘与已验证为有效的展示图表的边缘计算相似度,从而判断这两个展示图表所展示的网络统计数据之间的关系是否类似。这种边缘计算的方式,由于去除了图表中多余无用的信息,不仅准确性更高,而且进一步减少了计算量从而提高了验证速度。
由于步骤S101中获取的待验证的展示图表通常会在网页上展示给用户,因此本实施例中也可以是对该展示给用户的网页进行边缘提取以获取第二边缘。具体实现时可以是将该展示给用户的网页的地址发送至边缘提取模块,由边缘提取模块对其进行边缘提取。此时对第一边缘的获取方式也是对已验证为有效的展示图表所位于的网页进行边缘提取。
本申请实施例在对待验证的展示图表和已验证为有效的展示图表进行相似度计算之前,还可以进一步提取这两个展示图表的缩略图,并根据提取的缩略图进行相似度计算,从而进一步提高验证的验证速度。具体地,本实施例还可以包括:提取所述已验证为有效的展示图表的缩略图作为第一缩略图;提取所述待验证的展示图表的缩略图作为第二缩略图。步骤S102中的计算所述待验证的展示图表与已验证为有效的展示图表的相似度包括:计算所述第一缩略图和所述第二缩略图的相似度。,缩略图指的是将图表经压缩等方式处理后的小图。
实际上,本申请实施例中更为优选的方式是将上述提取边缘和缩略图的方式结合起来,即先提取缩略图,再对缩略图提取边缘,最终计算边缘的相似度,此时无论是准确性还是验证速度都有了进一步的提高。下面通过一个实施例加以详细说明。
请参阅图2,本申请实施例提供了验证数据有效性的方法的另一种实施例,在本实施例中,重点说明如何将提取边缘和缩略图的方式相结合以进行有效性验证。
本实施例包括:
S201:提取已验证为有效的展示图表的缩略图作为第一缩略图。
在本申请实施例中可以对已验证为有效的展示图表位于的网页提取缩略图。
S202:对第一缩略图进行边缘提取,以获取第一边缘。
S203:获取待验证的展示图表;所述待验证的展示图表基于待验证的网络统计数据生成。其中待验证的展示图表与已验证为有效的展示图表按照相同排布方式展示了相同类目的网络统计数据。
本申请实施例中的待验证的网络统计数据实际上是一种线上数据,具体可以包括至少一个类目的网络统计数据。
该步骤可以包括循环获取更新后的待验证的展示图表。
S204:提取步骤S203获取的待验证的展示图表的缩略图,作为第二缩略图。
若第一缩略图具体为网页的缩略图,该网页中包括已验证为有效的展示图表,则这里第二缩略图也具体为展示给用户的网页的缩略图,该展示给用户的网页中包括待验证的展示图表。
S205:对第二缩略图进行边缘提取,以获取第二边缘。
需要说明的是,步骤S201-202,与步骤S203-205的执行顺序不受限定,既可以以先后顺序执行,也可以同时执行。并且,步骤S201-S202可以只执行一次,当待验证的展示图表发生更新时,只需循环执行步骤S203-S205即可。
S206:计算第一边缘与第二边缘的相似度。
S207判断步骤S206中计算出的相似度是否大于预设阈值,如果是,执行S208,如果否,则执行S209。
S208:判定待验证的网络统计数据有效。
S209:生成报警信号以提示对所述网络统计数据进行进一步有效性验证。
通过上述技术方案可知,本申请实施例不再直接对展示图表进行匹配,而是从展示图表中提取出缩略图,从而通过缩略图的边缘匹配实现对数据的有效性验证。由于缩略图仍然保留了展示图表的边缘信息,并且边缘信息能够反映图表中各个类目的网络统计数据的数值大小,因此减少了相似度计算时的工作量,从而提高了验证速度。
如图3所示,对应图1所示的方法实施例,本申请还提供了排序装置具体实施例。本实施例的排序装置包括:获取单元301、计算单元302和判断单元303。
获取单元301用于获取待验证的展示图表;所述待验证的展示图表基于待验证的网络统计数据生成。
待验证的网络统计数据中包括至少一个类目的网络统计数据。例如对于某一产品来说,待验证的网络统计数据可以包括:该产品的曝光量、浏览量、浏览量占比、转化量等多个类目的网络统计数据。并且基于该网络统计数据生成的展示图表中,分别展示出每个类目的网络统计数据,例如若该生成的展示图表为柱状图,通过四个柱形分别表示出某一产品的曝光量、浏览量、浏览量占比及转化量。
该生成的展示图表一般会在网页上展示给用户,以起到一定的指导作用。比如用户可以根据该生成的展示图表获取到相应信息,并且对网络统计数据进行进一步后期分析。
计算单元302用于计算所述待验证的展示图表与已验证为有效的展示图表的相似度。
在本申请实施例中,在对网络统计数据进行有效性验证时需要确定出用于对比的展示图表的模板,即已验证为有效的展示图表。其中对该已验证为有效的展示图表的有效性的验证方式不受限定,比如通过判断该已验证为有效的展示图表所展示的数据是否符合验证规则以对其有效性进行验证。由于该已验证为有效的展示图表是作为用于对比的模板,其有效性关系到最终对网络统计数据验证的准确性,因此对该已验证为有效的展示图表验证时通常采用可靠性比较高的方式,比如优选人工验证的方式。
其中,该已验证为有效的展示图表所展示的网络统计数据,可以包括根据历史数据或者当天数据分析出的数据,比如根据历史数据预测的未来一段时间的数据。这种分析出的数据更加接近于用户的实际行为产生的数据,而不是由于软硬件故障或者恶意篡改数据所产生的数据,因此具有有效性。
并且,该已验证为有效的展示图表所展示的网络统计数据,通常为一类业务对象的网络统计数据,而待验证的网络统计数据指的是该类业务对象下的子对象的网络统计数据。因此本实施例还可以包括确定单元,确定单元用于根据待验证的网络统计数据确定所表示的子对象,根据该子对象所属的业务对象类别,确定出展示该类别的网络统计数据的已验证为有效的展示图表。例如,根据待验证的网络统计数据表示的某一型号的电容元件,确定出展示所有电容元件的网络统计数据的已验证为有效的展示图表。
在本申请实施例中,为了提高本实施例的数据有效性验证的准确性,可以保证待验证的展示图表、与已验证为有效的展示图表按照相同排布方式展示了相同类目的网络统计数据。
在本申请实施例中,已验证为有效的展示图表和基于待验证的网络统计数据生成的待验证的展示图表可以包括以下图表类型中的至少一种:柱状图、线状图和面积图。可以理解的是,已验证为有效的展示图表和待验证的展示图表的图表类型保持一致,比如两者同时为柱状图。
判断单元303用于判断计算单元302计算出的相似度是否大于预设阈值,如果是,则判定待验证的网络统计数据有效。
这里设置的预设阈值用于判定已判定为有效的展示图表与待验证的展示图表是否匹配,如果匹配则说明待验证的展示图表与已验证为有效的展示图表相似度比较高,也就是说这两个展示图表中各个类目的数据之间的关系(比如数值大小关系)类似。例如计算单元302计算出的这两个图表的相似度大于预设阈值,并且已验证为有效的展示图表中浏览量大于转化量,则待验证的展示图表也满足浏览量大于转化量。该预设阈值可以基于经验设定。
基于待验证的网络统计数据生成的待验证的展示图表与已验证为有效的展示图表的相似度大于预设阈值时,说明这两个展示图表中各个类目的数据之间的关系(比如数值大小关系)类似。实际上由于网络统计数据的有效性一般主要体现在各个类目的网络统计数据之间的关系,因此由于已验证为有效的展示图表一定具有有效性,所以与其匹配的待验证的展示图表也为有效的图表,构成该待验证的展示图表的待验证的网络统计数据为有效数据。
通过上述技术方案可知,本实施例中将基于待验证的网络统计数据生成的待验证的展示图表,与已验证为有效的展示图表进行相似度计算,如果计算出的相似度大于预设阈值,则说明这两个展示图表匹配,因此待验证的展示图表同样具有有效性,进而说明构成该展示图表的待验证的网络统计数据有效。较之现有技术的方式,显然本申请实施例这种图表相似度比较的方式计算量更加小,从而提高了验证速度。
此外,本申请实施例还具有以下优点:
1、由于本申请实施例无需总结验证规则,从而避免了由于验证规则不准确全面导致的准确性降低的问题。
2、本申请实施例实际上是直接对展示后的网络统计数据进行验证,因此不仅仅局限于对数据本身的验证。比如能够验证出数据库中存的曝光量和浏览量都是正确的,而在展示浏览量的时候取了曝光量的数据而导致的无效数据。
3、现有技术由于是直接验证数据,不够直观,很难直观地发现究竟是哪些数据不具有有效性,而本申请实施例的这种通过展示图表的相似度对比的验证方式则非常直观,利于方便快速地定位到无效数据。
若本申请实施例的判断单元303判断计算出的相似度大于预设阈值的判断结果为否,则说明该待验证的展示图表与已验证有效的展示图表不匹配,此时网络统计数据可能无效,本实施例还可以包括报警单元,报警单元用于在此时生成报警信号以提示对网络统计数据进行进一步有效性验证。比如通过人工排查方式或者通过验证规则进行验证。例如在已验证为有效的展示图表中,浏览量远大于转化量,如果待验证的展示图表出现异常情况,比如浏览量小于转化量,或者这两个类目的网络统计数据均为0,则将会使得这两个展示图表不匹配,此时通过报警单元生成报警信号进行报警。
在本申请实施例中,由于待验证的网络统计数据会随着时间进行更新,因此获取单元可以用于循环获取更新后的待验证的展示图表,其中更新后的待验证的展示图表基于更新后的网络统计数据生成,从而实现持续执行本实施例。例如,通过启动定时任务实现在每天的固定时刻执行本实施例的流程,并且执行本实施例时获取单元获取每天更新后的待验证的展示图表,从而保证了有效性验证的实时性。
本申请实施例在对待验证的展示图表和已验证为有效的展示图表进行相似度计算之前,还可以进一步提取这两个展示图表的边缘,并根据提取的边缘进行相似度计算,从而进一步提高验证的准确性和验证速度。具体地,本实施例还可以包括:第一边缘提取单元,用于对所述已验证为有效的展示图表进行边缘提取,以获取第一边缘;第二边缘提取单元,用于对所述待验证的展示图表进行边缘提取,以获取第二边缘;计算单元用于计算所述待验证的展示图表与已验证为有效的展示图表的相似度包括:计算单元用于计算所述第一边缘和所述第二边缘的相似度。其中本申请实施例中,对边缘提取的方式不加限定,可以采用现有技术中任一种边缘提取算法。
由于图表的边缘信息能够反映出图表中各个类目的网络统计数据的数值大小,实际上也就能够反映出各个类目的网络统计数据之间的关系(比如数值大小关系),因此通过计算单元对待验证的展示图表的边缘与已验证为有效的展示图表的边缘计算相似度,从而判断这两个展示图表所展示的网络统计数据之间的关系是否类似。这种边缘计算的方式,由于去除了图表中多余无用的信息,不仅准确性更高,而且进一步减少了计算量从而提高了验证速度。
由于获取单元301获取的待验证的展示图表通常会在网页上展示给用户,因此本实施例中也可以是对该展示给用户的网页进行边缘提取以获取第二边缘。具体实现时可以是将该展示给用户的网页的地址发送至第二边缘提取模块,由第二边缘提取模块对其进行边缘提取。此时对第一边缘的获取方式也是对已验证为有效的展示图表所位于的网页进行边缘提取。
本申请实施例在对待验证的展示图表和已验证为有效的展示图表进行相似度计算之前,还可以进一步提取这两个展示图表的缩略图,并根据提取的缩略图进行相似度计算,从而进一步提高验证的验证速度。具体地,本实施例还可以包括:第一缩略图提取单元,用于提取所述已验证为有效的展示图表的缩略图作为第一缩略图;第二缩略图提取单元,用于提取所述待验证的展示图表的缩略图作为第二缩略图;计算单元用于计算所述待验证的展示图表与已验证为有效的展示图表的相似度包括:计算单元用于计算所述第一缩略图和所述第二缩略图的相似度。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (14)

1.一种验证数据有效性的方法,其特征在于,所述方法包括:
获取待验证的展示图表;所述待验证的展示图表基于待验证的网络统计数据生成;
计算所述待验证的展示图表与已验证为有效的展示图表的相似度;
判断计算出的所述相似度是否大于预设阈值,如果是,则判定所述网络统计数据有效。
2.根据权利要求1所述的方法,其特征在于,所述待验证的展示图表与所述已验证为有效的展示图表按照相同排布方式展示了相同类目的网络统计数据。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述已验证为有效的展示图表进行边缘提取,以获取第一边缘;
对所述待验证的展示图表进行边缘提取,以获取第二边缘;
所述计算所述待验证的展示图表与已验证为有效的展示图表的相似度包括:
计算所述第一边缘和所述第二边缘的相似度。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
提取所述已验证为有效的展示图表的缩略图作为第一缩略图;
提取所述待验证的展示图表的缩略图作为第二缩略图;
所述计算所述待验证的展示图表与已验证为有效的展示图表的相似度包括:
计算所述第一缩略图和所述第二缩略图的相似度。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若判断所述相似度是否大于预设阈值的判断结果为否,则生成报警信号以提示对所述网络统计数据进行进一步有效性验证。
6.根据权利要求1所述的方法,其特征在于,所述已验证为有效的展示图表和所述待验证的展示图表包括以下图表类型中的至少一种:
柱状图、线状图和面积图。
7.根据权利要求1所述的方法,其特征在于,所述获取待验证的展示图表包括:
循环获取更新后的待验证的展示图表;所述更新后的待验证的展示图表基于更新后的网络统计数据生成。
8.一种验证数据有效性的装置,其特征在于,所述装置包括:
获取单元,用于获取待验证的展示图表;所述待验证的展示图表基于待验证的网络统计数据生成;
计算单元,用于计算所述待验证的展示图表与已验证为有效的展示图表的相似度;
判断单元,用于判断计算出的所述相似度是否大于预设阈值,如果是,则判定所述网络统计数据有效。
9.根据权利要求8所述的装置,其特征在于,所述待验证的展示图表与所述已验证为有效的展示图表按照相同排布方式展示了相同类目的网络统计数据。
10.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第一边缘提取单元,用于对所述已验证为有效的展示图表进行边缘提取,以获取第一边缘;
第二边缘提取单元,用于对所述待验证的展示图表进行边缘提取,以获取第二边缘;
所述计算单元用于计算所述待验证的展示图表与已验证为有效的展示图表的相似度包括:
所述计算单元用于计算所述第一边缘和所述第二边缘的相似度。
11.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第一缩略图提取单元,用于提取所述已验证为有效的展示图表的缩略图作为第一缩略图;
第二缩略图提取单元,用于提取所述待验证的展示图表的缩略图作为第二缩略图;
所述计算单元用于计算所述待验证的展示图表与已验证为有效的展示图表的相似度包括:
所述计算单元用于计算所述第一缩略图和所述第二缩略图的相似度。
12.根据权利要求8所述的装置,其特征在于,所述装置还包括报警单元;
所述判断单元还用于若判断所述相似度是否大于预设阈值的判断结果为否,则通知所述报警单元生成报警信号以提示对所述网络统计数据进行进一步有效性验证。
13.根据权利要求8所述的装置,其特征在于,所述已验证为有效的展示图表和所述待验证的展示图表包括以下图表类型中的至少一种:
柱状图、线状图和面积图。
14.根据权利要求8所述的装置,其特征在于,所述获取单元用于获取待验证的展示图表包括:
所述获取单元用于循环获取更新后的待验证的展示图表;所述更新后的待验证的展示图表基于更新后的网络统计数据生成。
CN201410479041.3A 2014-09-18 2014-09-18 一种验证数据有效性的方法及装置 Active CN105488061B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410479041.3A CN105488061B (zh) 2014-09-18 2014-09-18 一种验证数据有效性的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410479041.3A CN105488061B (zh) 2014-09-18 2014-09-18 一种验证数据有效性的方法及装置

Publications (2)

Publication Number Publication Date
CN105488061A true CN105488061A (zh) 2016-04-13
CN105488061B CN105488061B (zh) 2019-08-09

Family

ID=55675041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410479041.3A Active CN105488061B (zh) 2014-09-18 2014-09-18 一种验证数据有效性的方法及装置

Country Status (1)

Country Link
CN (1) CN105488061B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019189A (zh) * 2017-09-18 2019-07-16 飞狐信息技术(天津)有限公司 一种图表的生成方法及生成系统
CN110188159A (zh) * 2019-05-27 2019-08-30 深圳前海微众银行股份有限公司 征信数据接入方法、装置、设备及计算机可读存储介质
CN117494111A (zh) * 2023-09-11 2024-02-02 德浦勒仪表(广州)有限公司 用于工业流量计的数据处理及传输的边缘计算系统和方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080262794A1 (en) * 2007-04-19 2008-10-23 Fujitsu Limited Computer program product, method, and apparatus for reliability evaluation
CN101482864A (zh) * 2008-01-08 2009-07-15 国际商业机器公司 用于检验gis数据的正确性的方法和装置
CN103020269A (zh) * 2012-12-26 2013-04-03 广州市西美信息科技有限公司 一种数据验证的方法以及装置
WO2014104622A1 (ko) * 2012-12-24 2014-07-03 한국과학기술정보연구원 이용통계데이터의 이상 자동 탐지 시스템 및 그 방법 그리고 이에 적용되는 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080262794A1 (en) * 2007-04-19 2008-10-23 Fujitsu Limited Computer program product, method, and apparatus for reliability evaluation
CN101482864A (zh) * 2008-01-08 2009-07-15 国际商业机器公司 用于检验gis数据的正确性的方法和装置
WO2014104622A1 (ko) * 2012-12-24 2014-07-03 한국과학기술정보연구원 이용통계데이터의 이상 자동 탐지 시스템 및 그 방법 그리고 이에 적용되는 장치
CN103020269A (zh) * 2012-12-26 2013-04-03 广州市西美信息科技有限公司 一种数据验证的方法以及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019189A (zh) * 2017-09-18 2019-07-16 飞狐信息技术(天津)有限公司 一种图表的生成方法及生成系统
CN110188159A (zh) * 2019-05-27 2019-08-30 深圳前海微众银行股份有限公司 征信数据接入方法、装置、设备及计算机可读存储介质
CN117494111A (zh) * 2023-09-11 2024-02-02 德浦勒仪表(广州)有限公司 用于工业流量计的数据处理及传输的边缘计算系统和方法

Also Published As

Publication number Publication date
CN105488061B (zh) 2019-08-09

Similar Documents

Publication Publication Date Title
US11301525B2 (en) Method and apparatus for processing information
US20140006044A1 (en) System and method for preparing healthcare service bundles
CN111026570A (zh) 用于确定业务系统异常原因的方法和装置
CN111814910B (zh) 异常检测方法、装置、电子设备及存储介质
CN105574098A (zh) 知识图谱的生成方法及装置、实体对比方法及装置
Chen et al. Community recovery in graphs with locality
CN108269122B (zh) 广告的相似度处理方法和装置
CN109726764A (zh) 一种模型选择方法、装置、设备和介质
WO2019179030A1 (zh) 产品购买预测方法、服务器及存储介质
CN105069036A (zh) 一种信息推荐方法及装置
US20230004979A1 (en) Abnormal behavior detection method and apparatus, electronic device, and computer-readable storage medium
CN113032403A (zh) 数据洞察方法、装置、电子设备及存储介质
CN114493255A (zh) 基于知识图谱的企业异常监控方法及其相关设备
US20230401468A1 (en) Methods and systems for generating forecasts using an ensemble online demand generation forecaster
CN113268403A (zh) 时间序列的分析预测方法、装置、设备及存储介质
CN105488061A (zh) 一种验证数据有效性的方法及装置
CN105590026A (zh) 基于主成分分析的卫星遥测回归方法
CN111476446A (zh) 业务状态的监控处理方法、装置、设备及存储介质
JP6930195B2 (ja) モデル同定装置、予測装置、監視システム、モデル同定方法および予測方法
CN111460293B (zh) 信息推送方法、装置及计算机可读存储介质
GB2576663A (en) Validation of search query in data analysis system
CN111046786A (zh) 年龄估计神经网络的生成方法、装置以及电子设备
CN108880835B (zh) 数据分析方法及装置、计算机存储介质
CN114022284A (zh) 异常交易的检测方法及其装置、电子设备、存储介质
CN112200602A (zh) 用于广告推荐的神经网络模型训练方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211109

Address after: No. 699, Wangshang Road, Binjiang District, Hangzhou, Zhejiang

Patentee after: Alibaba (China) Network Technology Co.,Ltd.

Address before: Cayman Islands Grand Cayman capital building, a four storey No. 847 mailbox

Patentee before: ALIBABA GROUP HOLDING Ltd.