CN113515486B - 用于对事件进行查重的方法、系统和计算机可读介质 - Google Patents
用于对事件进行查重的方法、系统和计算机可读介质 Download PDFInfo
- Publication number
- CN113515486B CN113515486B CN202010277487.3A CN202010277487A CN113515486B CN 113515486 B CN113515486 B CN 113515486B CN 202010277487 A CN202010277487 A CN 202010277487A CN 113515486 B CN113515486 B CN 113515486B
- Authority
- CN
- China
- Prior art keywords
- event
- file
- belong
- transaction
- hash value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000008439 repair process Effects 0.000 claims description 9
- 230000015654 memory Effects 0.000 claims description 6
- 238000013473 artificial intelligence Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 5
- 238000012423 maintenance Methods 0.000 description 5
- 239000000725 suspension Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000003936 working memory Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005242 forging Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
- G06F16/137—Hash-based
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/148—File search processing
- G06F16/152—File search processing using file content signatures, e.g. hash values
Abstract
本公开提供了一种用于对事件进行查重的方法,每个事件包括一个或多个文件,并且一个或多个事件构成一项事务,该方法包括以下步骤:接收一个事件;对该事件中的每个文件进行散列运算,以获得每个文件的散列值;将所获得的每个文件的散列值与预先存储的另一事件的文件的散列值分别比较;根据所述比较的结果,判断该文件的散列值是否与所述另一事件的文件的散列值相同;当该文件的散列值与所述另一事件的文件的散列值相同时,判断该事件与所述另一事件是否属于同一项事务;当该事件与所述另一事件不属于同一项事务时,则确定该事件与所述另一事件的是彼此重复的事件。本公开还提供了对应的系统和计算机存储介质。
Description
技术领域
本公开涉及用于对事件进行查重的方法、系统和计算机可读介质。
背景技术
在当今社会中,经常需要对各种各样的事件进行处理,包括各种交易事件、合同事件、保险事件、保修事件等。这些事件可能会涉及到资金的转移,因此对于事件处理的安全性和可靠性提出了较高的要求。在某些情况下,可能会出现事件重复的情况。这种重复的事件可能是由于人为疏忽而重复提交的事件或者基于之前的事件而故意伪造的事件。因此,有必要找到并剔除这些重复的事件,所以存在对于事件进行查重的需求。
发明内容
本公开的目的是提供一种对事件进行查重的方法、系统和计算机可读介质。
根据本公开的一个示例性实施例,提供了一种用于对事件进行查重的方法,每个事件包括一个或多个文件,并且一个或多个事件构成一项事务,该方法包括以下步骤:接收一个事件;对该事件中的每个文件进行散列运算,以获得每个文件的散列值;将所获得的每个文件的散列值与预先存储的另一事件的文件的散列值分别比较;根据所述比较的结果,判断该文件的散列值是否与所述另一事件的文件的散列值相同;当该文件的散列值与所述另一事件的文件的散列值相同时,判断该事件与所述另一事件是否属于同一项事务;当该事件与所述另一事件不属于同一项事务时,则确定该事件与所述另一事件的是彼此重复的事件。
根据本公开的另一个示例性实施例,提供了一种用于对事件进行查重的系统,包括:存储器,被配置为存储一系列计算机可执行指令;和处理器,被配置为执行一系列计算机可执行指令,其中,一系列计算机可执行指令在由处理器执行时使处理器执行根据本公开的实施例的方法的步骤。
根据本公开的在一个示例性实施例,提供了一种具有存储在其上的指令的非暂时性计算机可读介质,该指令在由处理器执行时使处理器执行根据本公开的实施例的方法的步骤。
根据下文给出的详细描述,本公开的进一步的适用范围将变得显而易见。然而,应当理解,详细说明和具体示例虽然指示了本公开的优选实施例,但是仅以说明的方式给出,因为在本公开的精神和范围内的各种改变和修改对于本领域技术人员而言将是显而易见的。
附图说明
通过以下结合附图对示例性实施例的详细描述,本发明的上述和其他方面以及优点将变得显而易见,所述附图以示例的方式示出了本发明的原理。注意,附图不一定按比例绘制。
图1示出了根据本公开的示例性实施例的事件的示意图。
图2示出了根据本公开的示例性实施例的对事件进行查重的方法200的流程图。
图3示出了根据本公开的示例性实施例的、本公开可适用的一般硬件环境300的示意图。
具体实施方式
在以下详细描述中,阐述了许多具体细节以提供对所描述的示例性实施例的透彻理解。然而,对于本领域的技术人员将显而易见的是,可以在没有一些或所有这些具体细节的情况下实施所描述的实施例。在其他示例性实施例中,未详细描述众所周知的结构或处理步骤,以避免不必要地使本公开的概念模糊。
当前,为了对事件进行查重,通常通过操作者来手动地对事件进行抽查,并通过操作者个人的记忆和观察来研究事件的文件,并在抽查的事件中发现重复的事件。很明显,这样的查重方式效率很低并且很可能遗漏重复的事件。很明显,对于事件数量很大的情况,人工查重是不实际的。此外,多个事件可能属于同一项事务,即,多个事件可能是一整项事务中同时、交替或相继进行的事件,并且因此这些事件中可能会具有相同的文件。在这种情况下,人工查重可能会错误地将属于同一项事务的不同事件认为是重复事件,并且产生误判。
以下以车辆的保修事件为例进行说明。车辆制造商每年可能接收到几万个保修事件,每个事件涉及对于一辆汽车的一个或多个车辆部件的一次修理。每个事件包括多个文件,这些文件可以包括各种照片,例如,车辆的整体外观的照片、车辆部件在修理前的照片、车辆部件在修理后的照片、车辆的牌照的照片、车辆的车架号的照片、车辆的行驶证的照片等。除了照片之外,每个事件中还可以包括其他文件,例如,车辆保修证明、购买情况证明、维修情况说明、车主信息说明等文本文件。
在某些情况下,车辆制造商可能会接收到重复递交的保修事件或者用其他保修事件的文件拼凑虚构的保修事件。如果不能将这些重复的保修事件剔除,会对于车辆制造商产生较大损失。然而,很明显,在这种情况下,通过人工查重来找到这些重复的保修事件是极度耗时的,并且还会产生大量遗漏。
此外,在车辆的一次保修的过程中,可能会修理多个车辆部件。例如,当发生悬架结构断裂的事故时,车辆可能会同时发生悬架结构断裂、轮胎破裂、轮毂变形、车门变形等多个故障。通常,对于这些车辆部件的维修分别作为一个维修事件来记录并提供给车辆制造商。在这种情况下,可以认为这几个维修事件构成了一项维修事务。本领域技术人员可以理解,属于同一项事务的事件可以具有相同的文件,例如,车辆的牌照的照片、车辆的车架号的照片、车辆的行驶证的照片、车辆保修证明、购买情况证明、维修情况说明、车主信息说明等可以对于一项事务中的多个事件是共用的。因此,如果仅仅根据两个事件具有相同的文件就认为这两个事件是彼此重复的事件,会产生误判的情况,并且不利于保修工作的进行。
鉴于以上内容,本公开的实施例提供了一种对事件进行查重的方法,可以非常迅速且可靠地查找到重复的事件并且可以节省人力成本。
首先参考图1,示出了根据本公开的示例性实施例的事件的示意图。图1中示出了事件1、事件2、事件3和事件4,其中事件1和事件2属于同一项事务,而事件3和事件4分别属于另外的两项事务。在本公开的实施例中,提供了一项事务仅包括一个事件的示例,但是本领域技术人员可以理解,在这种情况下,该事件本身就是一项事务,二者可以是等价的。在本公开的实施例中,每个事件可以包括一个或多个文件。如图1所示,事件1包括文件1、文件2和文件3,事件2包括文件4和文件5,事件3包括文件6和文件7,而事件4包括文件8和文件9。在本公开的实施例中,以事件为单位进行提交。
如上文以车辆的保修事务为例进行说明的,事件1、事件2、事件3和事件4都是车辆的保修事件,分别是车辆的一个或多个部件的维修事件。事件1和事件2属于同一辆车的一次维修事务中的两个事件,属于同一项事务。事件3和事件4分别属于同一辆车或另一辆车的另一次维修事务中的事件。此外,图1中示出的各个文件是与车辆和保修有关的照片或文本文件。在本公开的实施例中,向车辆制造商提交的是单独的事件。
在本公开的实施例中,作为示例,假设事件1和事件2都属于车辆1的一项保修事务。在对于车辆1的这一项保修事务1中,分别修理了车辆1的两个部件,并且因此形成了事件1和事件2。事件1和事件2中可能有一个或多个文件是相同的。例如,事件1和事件2中所包括的车辆1的车牌照片和车辆的车架照片可能是相同的。在图1所示的示例中,假设事件1的文件1和事件2的文件4都是车辆1的车牌的照片,并且是相同的文件。另外,假设事件3为与事件1重复的事件,其可以是事件1的副本或者是根据事件1伪造的事件。因此,事件3中的文件6和文件7中的至少一个与事件1的文件1、文件2和文件3中的相应文件是相同的。在这里假设事件3的文件6与事件1的文件2相同,都是车辆1的悬架结构的照片。另外,假设事件4是属于车辆2的一项保修事务3,修理了车辆2的一个部件,从而形成了一个事件4。因此,事件4中的文件8和文件9与文件1-7中的任一个都不相同。
本领域技术人员可以明白,图1中示出的事务、事件和文件的编号和数目都是示例性的,并且可以其他任何数目的事务、事件和文件。此外,事务、事件和文件的编号仅仅是为了描述的方便,并不意味着具有不同编号的事务、事件和文件的实际内容是不同的。也就是说,即使编号不同,事务、事件和文件仍然可能是相同的。
接下来,说明根据本公开的实施例的用于对事务进行查重的方法。如图2所示,示出了根据本公开的示例性实施例的用于对事务进行查重的方法200的流程图。
在步骤S201中,接收一个事件。所接收的事件可以是图1中所示的事件1、事件2、事件3和事件4中的任何一个。但是为了表述的方便,在下面的描述中,将对事件1、事件2、事件3和事件4的处理交叉在一起进行描述。本领域技术人员可以明白如何根据接收到事件的顺序来进行接下来的步骤。
之后,在步骤S202中,对该事件中的每个文件进行散列(hash)运算,以获得每个文件的散列值。散列运算对于本领域技术人员是已知的,在这里仅简单对其进行描述。简单的说,散列运算就是一种将任意长度的消息压缩到某一固定长度的消息摘要(特征值)的运算,该特征值就是散列值。用于进行散列运算的函数就是散列函数。
常用的散列运算包括MD4运算、MD5运算、SHA-1运算、SHA-2运算、SHA-3运算等。根据本公开的实施例可以采用其中的一个或多个散列运算。本领域技术人员也可以想到其他的散列运算,它们也都可以被包括在本公开的实施例中,在这里不再详细描述。根据所采用的散列运算,所获得的散列值也具有不同的形式。例如,对于MD5运算来说,对于任何输入,都可以产生一个16字节的散列值,通常被表示为32位十六进制数字。例如,对于SHA-1运算来说,对于任何输入,都可以产生一个20字节的散列值,通常被表示为40位十六进制数字。
参照图1所示,可以接收到事件1,并且对于事件1中的文件1、文件2和文件3进行散列运算,以获得每个文件的散列值。另外,可以对于事件2、事件3、事件4中的文件都进行散列运算,获得每个文件的散列值。
所得到的散列值可以被存储在数据库中,而不用在数据库中存储所接收到的文件,从而可以显著减小数据库的体积,节省存储空间。
接下来,在步骤S203中,将所获得的每个文件的散列值与预先存储的另一事件的文件的散列值分别比较,以判断该文件的散列值是否与另一事件的文件的散列值相同。将两个文件的散列值相互比较指的是比较两个散列值(通常为十六进制数字)是否完全相同。一般来说,不同文件经过散列运算后得到的散列值是彼此不同的。换句话说,如果两个文件经过散列运算制后得到相同的散列值,那么就可以认为这两个文件是相同的文件。因此,通过比较一个文件的散列值是否与另一个文件的散列值相同,可以确定这两个文件是否相同。即,当一个文件的散列值与另一个文件的散列值相同时,可以确定这两个文件是相同的文件。在该示例中,事件1的文件1的散列值被与事件2的文件4和文件5的散列值分别进行比较,从而判断文件1的散列值是否与文件4、文件5的散列值相同。另外,事件1的文件2和文件3的散列值也被与事件2的文件4和文件5的散列值进行比较,从而判断文件2的散列值是否与文件4、文件5的散列值相同。类似地,事件1的文件1、文件2和文件3的散列值也分别被与事件3和事件4的文件的散列值进行比较,从而判断文件1、文件2和文件3的散列值是否与文件6-文件9的散列值相同,在此不再详细说明。
另外,本领域技术人员可以明白,根据事件1-4被接收到的顺序,可以将后接收到的事件的文件的散列值与之前接收到的事件的文件的散列值进行比较。以上的描述为了表述的方便,将对事件1、事件2、事件3和事件4的处理交叉在一起进行了描述。另外,本领域技术人员可以明白也可以是将事件1、事件2、事件3或事件4的文件的散列值与图1中未示出的其他事件的散列值相比较,在此不再详细说明。
根据上述关于事件1-4的假设,事件1的文件1和事件2的文件4都是车辆1的车牌的照片,并且是相同的文件。因此,可以确定文件1和文件4的散列值相同。另外,在上述假设中,事件3的文件6与事件1的文件2都是车辆1的悬架结构的照片,并且是相同的文件。因此,可以确定文件2和文件6的散列值相同。另外,在上述假设中,事件4中的文件8和文件9与文件1-7中的任一个都不相同。因此,对于事件4中的文件,不能在其他事件中找到与其散列值相同的文件。
当该文件的散列与另一事件的文件的散列相同时,处理进入步骤S204。
在步骤S204中,当该文件的散列与另一事件的文件的散列相同时,判断该事件与另一事件是否属于同一项事务。举例来说,根据以上假设,事件1的文件1的散列值和事件2的文件4的散列值相同。在这种情况下,需要判断事件1和事件2是否属于同一项事务。如图1所示,可以确定事件1和事件2属于同一项事务。另外,根据以上假设,事件1的文件2的散列值和事件3的文件6的散列值相同。在这种情况下,需要判断事件1和事件3是否属于同一项事务。如图1所示,可以确定事件1和事件3不属于同一项事务。对于判断两个事件是否属于同一项事务的具体方式,在下文中更详细地描述。
在这种情况下,当该事件另一事件不属于同一项事务时,处理进入步骤205。
在步骤S205中,当该事件与另一事件不属于同一项事务时,则确定该事件与另一事件的是彼此重复的事件。在以上示例中,由于在步骤S203中确定事件1的文件2的散列值和事件3的文件6的散列值相同,并且在步骤S204中确定事件1和事件3不属于同一项事务,因此,可以在步骤S205中确定事件1和事件3是彼此重复的事件。
通过以上操作,发现事件3是与事件1重复的事务,并且因此可以将该事件3驳回。即,在该示例中,发现了事件3使用了与事件1相同的车辆1的悬架照片,但是事件3却与事件1不属于同一次保修事务,并且因此事件3是重复的事件,驳回事件3所涉及的保修申请。通过以上方法的技术方案,可以非常迅速且可靠地查找到重复的事件并且可以节省人力成本。
另外,当在步骤S203中确定该文件的散列与另一事件的文件的散列不同时,处理返回并再次执行步骤S203,即,将所获得的每个文件的散列值与再一事件的文件的散列值分别比较,以判断该文件的散列值是否与再一事件的文件的散列值相同。例如,当在步骤S203中确定对于事件4中的文件8,不能在一个事件(例如,事件1)中找到与其散列值相同的文件,处理返回重复执行步骤S203,将所获得的每个文件的散列值与再一事件(例如,事件2)的文件的散列值分别比较。
另外,当在步骤S204中确定该事件与另一事件属于同一项事务时,处理返回并再次执行步骤S203,即,将所获得的每个文件的散列值与再一事件的文件的散列值分别比较,以判断该文件的散列值是否与再一事件的文件的散列值相同。例如,当在步骤S204中确定事件1和事件2属于同一项事务时,处理返回到步骤S203,将所获得的每个文件的散列值与再一事件(例如,事件3)的文件的散列值分别比较。
通过使得操作重复返回步骤203,可以将所接收的文件的散列值与之前接收到的各个事件的文件的散列值进行比较,从而确定所接收到的事件是否与之前接收到的事件重复。
通过以上方法的技术方案,可以非常迅速且可靠地查找到重复的事件并且可以节省人力成本。
在根据本公开的一个实施例中,在步骤204中,判断该事件与所述另一事件是否属于同一项事务包括识别该文件的内容,并且在识别出该文件的内容包括按照预定规则编排的编号时,确定该事件与另一事件属于同一项事务;否则,确定该事件与另一事件不属于同一项事务。
如上文讨论的,由于事件1和事件2属于同一项事务,二者可以具有一个或多个相同的文件,特别是具有按照预定规则编排的编号的文件。其原因在于,由于按照预定规则编排的编号对于同一项事务可以是相同的,并且在同一项事务的事件中,往往会重复使用具有该编号的文件,从而导致不同的事件包括相同的文件。另外,由于这样的按照预定规则编排的编号在事务处理的其他阶段中容易被核查,所以在复制事件或伪造事件时,具有该编号的文件往往不会被选择用来复制或伪造事件。因此,在两个事件之间相同的文件的内容包括按照预定规则编排的编号时,通常可以确定该事件与另一事件属于同一项事务,并且两个事件不是彼此重复的。
在本公开的一个实施例中,预定规则编排的编号包括车辆牌照、车架号、车主驾驶证或车辆行驶证等,并且该文件的内容包括预定规则编排的编号相应地指的是该文件为车辆牌照、车架号、车主驾驶证或车辆行驶证的照片等。本领域技术人员可以明白,这些编号都是按照预定规则编排的,并且可以通过例如正则表达式来表示和识别。例如,在事件1的文件1和事件2的文件4的散列值相同时,当事件1的文件1和/或事件2的文件4中识别出包括按照预定规则编排的编号(车牌号)时,就可以确定该事件1与事件2属于同一项事务,并且事件1和事件2是彼此不重复的事件。
相反,不具有按照预定规则编排的编号的文件对于每一项事务往往都是彼此不同的,并且因此当在两个事件之间相同的文件的内容不包括按照预定规则编排的编号时,通常可以确定该事件是与另一个事件重复的事件。例如,在事件1的文件2和事件3的文件6的散列值相同时,由于事件1的文件2和事件3的文件6为车辆的同一张悬架照片,所以在二者中都没有识别出包括按照预定规则编排的编号。因此,可以确定该事件1与事件3不属于同一项事务,并且事件1和事件3是彼此重复的事件。
通过以上技术方案,当两个事件之间相同的文件的内容包括按照预定规则编排的编号时,就可以确定两个事件是彼此不重复的事件,从而降低了处理负担,提高了处理速度。
在本公开的实施例中,通过人工智能和大数据技术来对文件进行处理,识别该文件的内容,从该文件的内容中提取字符串以及检测该字符串是否是按照预定规则编排的。这些技术对于本领域技术人员来说是已知的,并且为了本申请文件的清楚和简洁,省略对于这部分内容的具体描述。
进一步地,在以上实施例中,仍然存在用具有按照预定规则编排的编号的文件来复制或伪造事件的可能性。因此,在本公开的另一个实施例中,为了进一步减少该可能性并提高查重的完备性,在步骤S204中,可以识别该文件的内容,并且在识别出该文件的内容包括预定规则编排的编号时,判断该编号是否是与该事件相关联的编号。对于正常的事件来说,事件的文件中的编号与事件是相互关联的。例如,事件1的文件1中的车牌号是与事件1相关联的编号。然而,当用其他事件的文件来复制或伪造事件时,该文件中的编号往往不会具有与被复制或伪造的事件相关联。例如,在以上示例中,事件3中的文件4具有与事件1关联的编号,但是该编号与事件3并不相关联。因此,可以判断文件中所识别的该编号是否是与该事件相关联的编号,并且在该编号是与该事件相关联的编号时,确定该事件与所述另一事件属于同一项事务,并且两个事件是不重复的。与事件相关联的编号可以是根据需要预先确定的,并且可以随着事件一同接收。
通过以上技术方案,例如可以排除用具有按照预定规则编排的编号的文件来复制或伪造事件的情况,从而进一步提高查重的完备性。
在本公开的一个实施例中,可以为每一个事务设置一个对应的标识。例如,可以对某一项保修事务规定一组编号作为标识,并且这一项保修事务中的每个事件都存储有该标识。在该实施例中,在步骤S204中,判断该事件与另一事件是否属于同一项事务包括将与该事件对应的事务的标识和与另一事件对应的事务的标识相比较,并且在与该事件对应的事务的标识和与另一事件对应的事务的标识相同时,则确定该事件与所述另一事件属于同一项事务,否则,确定该事件与所述另一事件不属于同一项事务。
通过该技术方案,可以简单迅速地确定两个事件是否属于同一项事务。
在根据本公开的一个实施例中,可以例如根据事件的创建时间和事件中的文件的创建时间来判断两个事件是否属于同一项事务。一般来说,一个事件是由之前的预定时间段内创建的文件所构成的。换句话说,当一个事件中包括预定时间段之前创建的文件,那么可以认为该事件是用其他的事件的文件复制或伪造的。
因此,在步骤S204中,判断该事件与所述另一事件是否属于同一项事务包括判断该文件的创建时间是否和与该事件的创建时间相差在预定阈值内,并且如果该文件的创建时间和与该事件的创建时间相差在预定阈值内,确定该事件与所述另一事件属于同一项事务,否则,确定该事件与所述另一事件不属于同一项事务。
通过该实施例,可以利用文件和事件本身的特征简单迅速地确定两个事件是否属于同一项事务,而不需要对文件和事件进行改变。
本领域技术人员可以明白,以上关于判断两个事件是否属于同一项事务的方式可以单独使用,也可以彼此组合使用,并且它们的组合也在本公开的范围内。
现在参考图3,示出了根据本公开的示例性实施例的、本公开可适用的一般硬件环境300的示意图。
参考图3,现在将描述计算设备300,该计算设备300是可以应用于本公开的各方面的硬件设备的示例。计算设备300可以是被配置为执行处理和/或计算的任何机器,可以是但不限于工作站、服务器、台式计算机、膝上型计算机、平板计算机、个人数据助理、智能电话、车载计算机或其任何组合。前述用于日值得归档系统的方法中的步骤可以全部或至少部分地由计算设备300或类似设备或系统来实施。
计算设备300可以包括可能经由一个或多个接口与总线302连接或通信的元件。例如,计算设备300可以包括总线302、一个或多个处理器304、一个或多个输入设备306和一个或多个输出设备308。一个或多个处理器304可以是任何种类的处理器,并且可以包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(例如特殊处理芯片)。输入设备306可以是可以向计算设备输入信息的任何种类的设备,并且可以包括但不限于鼠标、键盘、触摸屏、麦克风和/或遥控器。输出设备308可以是可以呈现信息的任何种类的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出端子、振动器和/或打印机。计算设备300还可以包括非暂时性存储设备310或与非暂时性存储设备310连接,该非暂时性存储设备310可以是非暂时性的并且可以实施数据存储的任何存储设备,并且可以包括但不限于磁盘驱动器、光学存储设备、固态存储器、软盘、软盘、硬盘、磁带或任何其他磁性介质、光盘或任何其他光学介质、ROM(只读存储器)、RAM(随机存取存储器)、高速缓存和/或任何其他存储芯片或盒带和/或计算机可以从中读取数据、指令和/或代码的任何其他介质。非暂时性存储设备310可以是与接口可分离的。非暂时性存储设备310可以具有用于实施上述方法和步骤的数据/指令/代码。计算设备300还可以包括通信设备312。通信设备312可以是能够与外部设备和/或与网络进行通信的任何类型的设备或系统,并且可以包括但不限于调制解调器、网络卡、红外通信设备、无线通信设备和/或芯片组(例如蓝牙设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设施等)。
计算设备300还可以包括工作存储器314,该工作存储器可以是可以存储对处理器304的工作有用的指令和/或数据的任何种类的工作存储器,并且可以包括但不限于随机存取存储器和/或只读存储设备。
软件元素可以位于工作存储器314中,包括但不限于操作系统316、一个或多个应用程序318、驱动器和/或其他数据和代码。可以在一个或多个应用程序318中包括用于执行上述方法和步骤的指令,并且可以通过处理器304读取并执行一个或多个应用的指令来实施方法的步骤。可以将软件元素的指令的可执行代码或源代码存储在非暂时性计算机可读存储介质(例如上述存储设备310)中,并且可以通过编译和/或安装将其读取到工作存储器314中。也可以从远程位置下载软件元素的指令的可执行代码或源代码。
还应当理解,可以根据具体要求进行改变。例如,也可以使用定制的硬件,以及/或者特定元件可以以硬件、软件、固件、中间件、微代码、硬件描述语言或其任意组合来实施。此外,可以采用到诸如网络输入/输出设备的其他计算设备的连接。例如,所公开的方法和设备中的一些或全部可以通过使用汇编语言或硬件编程语言(诸如VERILOG、VHDL、C++)通过使用根据本公开的逻辑和算法对硬件(例如,包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)编程来实现。
本领域技术人员从上面的实施例中可以清楚地知道本公开可以由软件通过必要硬件来实施,或者由硬件、固件等来实施。基于这样的理解,本公开的实施例可以部分地以软件形式体现。可以将计算机软件存储在诸如计算机的软盘、硬盘、光盘或闪存的可读存储介质中。该计算机软件包括一系列指令,以使计算机(例如,个人计算机、服务站或网络终端)执行根据本公开的各个实施例的方法或其一部分。
上面的图2中呈现的方法的步骤旨在进行示意性说明。在一些实施例中,可以利用未描述的一个或多个附加步骤和/或在没有所讨论的一个或多个步骤的状态下来实施该方法。另外,在图2中图示并在上面描述的方法步骤的顺序并非旨在进行限制。在一些实施例中,该方法可以在一个或多个处理设备(例如,数字处理器、模拟处理器、设计为处理信息的数字电路、设计为处理信息的模拟电路、状态机和/或用于电子处理信息的其他机制)中实施。一个或多个处理设备可以包括一个或多个模块,以响应于电子存储在电子存储介质上的指令来执行方法的一些或全部步骤。一个或多个处理模块可以包括通过被专门设计用于执行方法的一个或多个步骤的硬件、固件和/或软件配置的一个或多个设备。
尽管到目前为止已经参考附图描述了本公开的各方面,但是上述方法、系统和设备仅是示例性示例,并且本发明的范围不限于这些方面,而仅由以下所附权利要求及其等同物来限定。各种元件可以被省略或可以被等效元件代替。另外,可以以与本公开中描述的顺序不同的顺序执行步骤。此外,可以以各种方式组合各种元件。同样重要的是,随着技术的发展,所描述的许多元件可以由在本公开之后出现的等效元件代替。
Claims (11)
1.一种用于对事件进行查重的方法,每个事件包括一个或多个文件,并且一个或多个事件构成一项事务,该方法包括以下步骤:
接收一个事件;
对该事件中的每个文件进行散列运算,以获得每个文件的散列值;
将所获得的每个文件的散列值与预先存储的另一事件的文件的散列值分别比较;
根据所述比较的结果,判断该文件的散列值是否与所述另一事件的文件的散列值相同;
当该文件的散列值与所述另一事件的文件的散列值相同时,判断该事件与所述另一事件是否属于同一项事务;
当该事件与所述另一事件不属于同一项事务时,则确定该事件与所述另一事件的是彼此重复的事件,
其中,每项事务为车辆的一次维修,每个事件包括对该车辆的一个或多个部位的一次维修,文件包括与车辆有关的照片或文本文件。
2.根据权利要求1所述的方法,其中,散列运算包括MD4运算、MD5运算、SHA-1运算、SHA-2运算、SHA-3运算中的一个或多个。
3.根据权利要求1所述的方法,其中,判断该事件与所述另一事件是否属于同一项事务包括识别该文件的内容,并且
在识别出该文件的内容包括按照预定规则编排的编号时,确定该事件与所述另一事件属于同一项事务,否则,确定该事件与所述另一事件不属于同一项事务。
4.根据权利要求1所述的方法,其中,判断该事件与所述另一事件是否属于同一项事务包括识别该文件的内容,并且
在识别出该文件的内容包括预定规则编排的编号时,判断该编号是否是与该事件相关联的编号,以及
在该编号是与该事件相关联的编号时,确定该事件与所述另一事件属于同一项事务,否则,确定该事件与所述另一事件不属于同一项事务。
5.根据权利要求3或4所述的方法,其中,
预定规则编排的编号包括车辆牌照、车架号、车主驾驶证或车辆行驶证,并且该文件的内容包括预定规则编排的编号指的是该文件为车辆牌照、车架号、车主驾驶证或车辆行驶证的照片。
6.根据权利要求3或4所述的方法,其中,通过人工智能识别文件的内容。
7.根据权利要求1所述的方法,其中,判断该事件与所述另一事件是否属于同一项事务包括将与该事件对应的事务的标识和与所述另一事件对应的事务的标识相比较,并且
在与该事件对应的事务的标识和与所述另一事件对应的事务的标识相同时,则确定该事件与所述另一事件属于同一项事务,否则,确定该事件与所述另一事件不属于同一项事务。
8.根据权利要求1所述的方法,其中,判断该事件与所述另一事件是否属于同一项事务包括判断该文件的创建时间是否和与该事件的创建时间相差在预定阈值内,并且
如果该文件的创建时间和与该事件的创建时间相差在预定阈值内,确定该事件与所述另一事件属于同一项事务,否则,确定该事件与所述另一事件不属于同一项事务。
9.根据权利要求1-4和7-8中任一项所述的方法,还包括:
在数据库中存储所获得的每个文件的散列值,而不存储所接收的文件。
10.一种用于对事件进行查重的系统,包括:
存储器,被配置为存储一系列计算机可执行指令;和
处理器,被配置为执行一系列计算机可执行指令,其中,一系列计算机可执行指令在由处理器执行时使处理器执行根据权利要求1-9中任意一项所述的方法的步骤。
11.一种具有存储在其上的指令的非暂时性计算机可读介质,该指令在由处理器执行时使处理器执行根据权利要求1-9中任意一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010277487.3A CN113515486B (zh) | 2020-04-10 | 2020-04-10 | 用于对事件进行查重的方法、系统和计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010277487.3A CN113515486B (zh) | 2020-04-10 | 2020-04-10 | 用于对事件进行查重的方法、系统和计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113515486A CN113515486A (zh) | 2021-10-19 |
CN113515486B true CN113515486B (zh) | 2024-03-08 |
Family
ID=78060450
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010277487.3A Active CN113515486B (zh) | 2020-04-10 | 2020-04-10 | 用于对事件进行查重的方法、系统和计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113515486B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103399743A (zh) * | 2013-07-29 | 2013-11-20 | 北京网秦天下科技有限公司 | 用于识别安装文件的设备和方法 |
CN107679997A (zh) * | 2017-10-30 | 2018-02-09 | 平安科技(深圳)有限公司 | 医疗理赔拒付方法、装置、终端设备及存储介质 |
CN108109384A (zh) * | 2017-12-19 | 2018-06-01 | 江苏本能科技有限公司 | 分布式车辆违法行为抓拍管理方法及系统 |
CN108846491A (zh) * | 2018-08-08 | 2018-11-20 | 中链科技有限公司 | 基于区块链的车辆事故处理方法及装置 |
CN108846298A (zh) * | 2018-05-23 | 2018-11-20 | 马佳明 | 一种文件内容的篡改检测方法及相关设备 |
CN109658260A (zh) * | 2018-12-10 | 2019-04-19 | 泰康保险集团股份有限公司 | 基于区块链的欺诈行为确定方法及装置、介质和电子设备 |
CN110050296A (zh) * | 2016-12-07 | 2019-07-23 | 杰森·贝利 | 用于保存和处理车辆碰撞数据证据的方法和系统 |
CN110136010A (zh) * | 2019-04-18 | 2019-08-16 | 中国平安财产保险股份有限公司 | 基于神经网络判断风险事件的方法、装置和计算机设备 |
CN110674499A (zh) * | 2019-08-27 | 2020-01-10 | 成都网思科平科技有限公司 | 一种识别计算机威胁的方法、装置及存储介质 |
CN110688514A (zh) * | 2019-08-30 | 2020-01-14 | 中国人民财产保险股份有限公司 | 一种保险理赔图像数据的查重方法及装置 |
-
2020
- 2020-04-10 CN CN202010277487.3A patent/CN113515486B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103399743A (zh) * | 2013-07-29 | 2013-11-20 | 北京网秦天下科技有限公司 | 用于识别安装文件的设备和方法 |
CN110050296A (zh) * | 2016-12-07 | 2019-07-23 | 杰森·贝利 | 用于保存和处理车辆碰撞数据证据的方法和系统 |
CN107679997A (zh) * | 2017-10-30 | 2018-02-09 | 平安科技(深圳)有限公司 | 医疗理赔拒付方法、装置、终端设备及存储介质 |
CN108109384A (zh) * | 2017-12-19 | 2018-06-01 | 江苏本能科技有限公司 | 分布式车辆违法行为抓拍管理方法及系统 |
CN108846298A (zh) * | 2018-05-23 | 2018-11-20 | 马佳明 | 一种文件内容的篡改检测方法及相关设备 |
CN108846491A (zh) * | 2018-08-08 | 2018-11-20 | 中链科技有限公司 | 基于区块链的车辆事故处理方法及装置 |
CN109658260A (zh) * | 2018-12-10 | 2019-04-19 | 泰康保险集团股份有限公司 | 基于区块链的欺诈行为确定方法及装置、介质和电子设备 |
CN110136010A (zh) * | 2019-04-18 | 2019-08-16 | 中国平安财产保险股份有限公司 | 基于神经网络判断风险事件的方法、装置和计算机设备 |
CN110674499A (zh) * | 2019-08-27 | 2020-01-10 | 成都网思科平科技有限公司 | 一种识别计算机威胁的方法、装置及存储介质 |
CN110688514A (zh) * | 2019-08-30 | 2020-01-14 | 中国人民财产保险股份有限公司 | 一种保险理赔图像数据的查重方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113515486A (zh) | 2021-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10459903B2 (en) | Comparing data stores using hash sums on disparate parallel systems | |
CN112861648B (zh) | 文字识别方法、装置、电子设备及存储介质 | |
CN107678936B (zh) | 业务系统预先稽查方法、服务器及计算机可读存储介质 | |
CN113515486B (zh) | 用于对事件进行查重的方法、系统和计算机可读介质 | |
CN110633074A (zh) | 一种软件开发工具包的使用控制方法及装置 | |
CN112085611A (zh) | 数据异步核验方法、装置、电子设备及存储介质 | |
CN113221888B (zh) | 车牌号管理系统测试方法、装置、电子设备及存储介质 | |
CN113505026B (zh) | 验证备份数据的方法、装置、设备及存储介质 | |
US10438011B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
CN115203339A (zh) | 多数据源整合方法、装置、计算机设备及存储介质 | |
CN102272766B (zh) | 可扩展激活漏洞扫描仪 | |
CN114120347A (zh) | 表单校验方法、装置、电子设备及存储介质 | |
CN114064574A (zh) | 结合rpa和ai的商标监察方法、装置、电子设备和存储介质 | |
CN114064361A (zh) | 备份相关操作中执行的写数据方法和备份网关系统 | |
CN113033832B (zh) | 一种汽修数据录入方法、装置、终端设备及可读存储介质 | |
CN115314382B (zh) | 配置信息处理方法 | |
CN110826078A (zh) | 数据存储方法、设备及系统 | |
KR102655219B1 (ko) | 정션 블록의 라벨 이미지 검사 장치 및 방법 | |
JP6915183B1 (ja) | セキュリティ検査システムおよび、セキュリティ検査方法 | |
CN113064752B (zh) | 用于将日志归档的方法、系统和计算机可读介质 | |
CN113792326B (zh) | 一种文件内容限制复制的方法及装置 | |
CN109446166B (zh) | 文件目录的检测方法、计算机可读存储介质及终端设备 | |
CN114926831A (zh) | 基于文本识别方法、装置、电子设备及可读存储介质 | |
CN112905570A (zh) | 数据库页面容错方法、装置、电子设备及存储介质 | |
CN114036110A (zh) | 一种数据查重的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |