CN111767422A - 一种数据审核方法、装置、终端及存储介质 - Google Patents
一种数据审核方法、装置、终端及存储介质 Download PDFInfo
- Publication number
- CN111767422A CN111767422A CN202010616972.9A CN202010616972A CN111767422A CN 111767422 A CN111767422 A CN 111767422A CN 202010616972 A CN202010616972 A CN 202010616972A CN 111767422 A CN111767422 A CN 111767422A
- Authority
- CN
- China
- Prior art keywords
- picture
- similarity
- audited
- qualification
- enterprise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 238000003860 storage Methods 0.000 title claims abstract description 16
- 238000012550 audit Methods 0.000 claims abstract description 117
- 238000003062 neural network model Methods 0.000 claims abstract description 68
- 238000012797 qualification Methods 0.000 claims description 266
- 239000013598 vector Substances 0.000 claims description 54
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 24
- 230000008569 process Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 238000005070 sampling Methods 0.000 description 7
- 230000004913 activation Effects 0.000 description 6
- 239000000463 material Substances 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 239000003814 drug Substances 0.000 description 4
- 229940079593 drug Drugs 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000002085 persistent effect Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 240000004282 Grewia occidentalis Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请适用于人工智能技术领域,提供了一种数据审核方法、装置、终端及存储介质。该数据审核方法,基于神经网络模型确定获取待审核文件中的待审核图片与目标图片之间的相似度,实现对待审核图片的初步审核,再基于计算的文字相似度对文字信息进行二次审核,这种双重审核的方式使审核结果更准确,提高了审核的准确率。且基于图片相似度以及文字相似度确定审核结果,无需人工参与审核,提高了审核效率,降低了审核成本。同时,本申请还涉及区块链技术,适用于金融科技领域。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种数据审核方法、装置、终端及存储介质。
背景技术
资质审核可以包括企业资质审核以及产品资质审核。在各种项目的招标过程中,对投标企业的资质审核非常重要。例如,在药品招标过程中,企业需要提交待审核的资质材料,其提交的资质材料经常会出现错交、漏交、企业资质数据不符或者产品资质数据不符的问题。因此,必须对其进行资质数据审核。
现有的资质审核利用直方图特征、哈希算法等确定用户上传的企业资质图片(或产品资质图片)与国家数据库中存储的与其对应的企业资质图片(或产品资质图片)之间的相似度,以此判断该企业资质图片(或产品资质图片)是否审核通过。这种仅通过比较图片是否相似判断资质审核是否通过的方法,经常由于图片的相似度计算不准确,进而导致资质审核结果不准确。
发明内容
有鉴于此,本申请实施例提供了一种数据审核方法、装置、终端及存储介质,以解决现有的仅通过比较图片是否相似判断资质审核是否通过的方法,经常由于图片的相似度计算不准确,进而导致资质审核结果不准确的问题。
第一方面,提供了一种数据审核方法,该数据审核方法的执行主体为终端,终端包括但不限于智能手机、平板电脑、计算机、个人数字助理(Personal Digital Assistant,PDA)等移动终端,还可以包括台式电脑等终端。该方法包括:获取待审核文件;该待审核文件包括待审核图片和该待审核图片对应的文字信息;基于神经网络模型确定该待审核图片与目标图片之间的图片相似度;该目标图片为预设数据库中与该待审核图片对应的图片;该目标图片对应的实体与该待审核图片对应的实体相同;当该图片相似度大于第一预设阈值时,获取该文字信息对应的文字相似度;该文字相似度用于表示该文字信息与该文字信息对应的审核参考信息之间的相似程度;当该文字相似度大于第二预设阈值时,确定该待审核文件审核通过。
其中,待审核图片可以包括企业资质图片,或者包括产品资质图片。相对应的,待审核图片包括企业资质图片时,目标图片包括目标企业资质图片;待审核图片包括产品资质图片时,目标图片包括目标产品资质图片。
基于神经网络模型确定该待审核图片与目标图片之间的图片相似度后,计算该图片相似度与第一预设阈值之间的大小。当该图片相似度小于或等于第一预设阈值时,说明待审核图片与目标图片之间相差较大,该待审核文件审核未通过。此时没有必要继续计算该待审核图片对应的文字信息所对应的文字相似度了。此时可生成并显示提示信息,该提示信息用于提示用户上传的待审核文件不符合审核标准。
第一方面提供的数据审核方法,通过神经网络模型确定待审核文件中包括的待审核图片与目标图片之间的图片相似度,基于图片相似度与第一预设阈值的比较结果初步判断待审核文件是否审核通过。当图片相似度大于第一预设阈值时,获取待审核文件中包括的文字信息对应的文字相似度,基于文字相似度与第二预设阈值的比较结果,进一步判断待审核文件是否审核通过。上述方式,终端先基于神经网络模型确定的图片相似度对待审核文件中的待审核图片进行初步审核,再基于计算的文字相似度对待审核文件中的文字信息进行二次审核,这种双重审核的方式使审核结果更准确,进而提高了审核的准确率。且基于图片相似度以及文字相似度确定审核结果,无需人工参与审核,提高了审核效率,降低了审核成本。
在第一方面一种可能的实现方式中,基于神经网络模型确定待审核图片与目标图片之间的图片相似度,包括:
采用该神经网络模型提取该待审核图片对应的第一特征向量;
采用该神经网络模型提取该目标图片对应的第二特征向量;
计算该第一特征向量与该第二特征向量之间的相似度,得到该图片相似度。
在该实现方式中,待审核图片和目标图片各自对应的特征向量是基于预先训练好的神经网络模型提取的,该训练好的神经网络模型提取的特征向量丰富、准确,进而在基于其提取的特征向量计算图片相似度时,计算结果更准确。
在第一方面一种可能的实现方式中,当该图片相似度大于第一预设阈值时,获取该文字信息对应的文字相似度,包括:
对该文字信息进行音形码编码得到第一编码信息;
获取该审核参考信息,并对该审核参考信息进行音形码编码得到第二编码信息;
计算该第一编码信息与该第二编码信息之间的相似度,得到该文字相似度。
在该实现方式中,计算待审核图片对应的文字信息所对应的文字相似度时,采用音形码编码对各个信息编码后,再计算编码后信息之间的相似度,比通常采用的编辑距离算法或者N元模型(N-Gram)算法计算得到的文字相似度更准确,进而使得基于该文字相似度确定的审核结果更准确,进一步提升了审核的准确率。
在第一方面一种可能的实现方式中,基于神经网络模型确定待审核图片与目标图片之间的图片相似度,包括:
若所述待审核图片包括企业资质图片,则基于神经网络模型确定该企业资质图片与该目标企业资质图片之间的图片相似度。
其中,当待审核图片包括企业资质图片时,目标图片包括目标企业资质图片。目标企业资质图片为预设数据库中与企业资质图片对应的图片;目标企业资质图片对应的实体与企业资质图片对应的实体相同。可以理解为,目标企业资质图片对应的企业与企业资质图片对应的企业是同一个。
在第一方面一种可能的实现方式中,基于神经网络模型确定待审核图片与目标图片之间的图片相似度,包括:
若所述待审核图片包括产品资质图片,则基于神经网络模型确定该产品资质图片与该目标产品资质图片之间的图片相似度。
其中,当待审核图片包括产品资质图片时,目标图片包括目标产品资质图片,目标产品资质图片为预设数据库中与产品资质图片对应的图片;目标产品资质图片对应的实体与产品资质图片对应的实体相同。可以理解为,目标产品资质图片对应的企业与产品资质图片对应的企业是同一个。
在第一方面一种可能的实现方式中,当检测到同一用户上传的多个待审核文件时,获取多个待审核文件各自对应的资质主体;
当检测到多个待审核文件满足预设条件时,确定同一用户上传的多个待审核文件审核通过;该预设条件为多个待审核文件各自包括的待审核图片对应的图片相似度大于第一预设阈值,且多个待审核文件各自包括的文字信息对应的文字相似度大于第二预设阈值,且多个待审核文件对应的资质主体相同。
可以理解为,当检测到同一用户上传的多个待审核文件时,不仅每个待审核文件都要通过图片相似度以及文字相似度的审核,而且这些待审核文件对应的资质主体要相同,才可判断该同一用户上传的多个待审核文件均通过审核。
在第一方面一种可能的实现方式中,在获取待审核文件之前,该数据审核方法还包括:
获取所有待处理文件;
基于预设知识图谱从所有待处理文件中筛选出待审核文件。
在该实现方式中,所有待处理文件为所有等待审核的文件。终端可获取每个待处理文件对应的企业名称,基于该企业名称在预设知识图谱中查找该企业的信息,例如企业是否经营异常、企业经营范围是否超标等信息,并对这些信息进行初步审核。当这些信息通过审核时,将对应的待处理文件标记为待审核文件;当这些信息未通过审核时,生成对应的提示信息进行提示。这样相当于对所有待处理文件进行了初次资格审查,过滤掉明显资格不符合的待处理文件,筛选出待审核文件。终端只需对待审核文件进行审核,提升了审核效率。
第二方面,提供了一种数据审核装置,该装置包括用于执行第一方面或第一方面的任意可能的实现方式中的方法的各个步骤的单元。
第三方面,提供了一种终端,该终端包括:上述第二方面提供的数据审核装置。可选地,该终端包括但不限于智能手机、平板电脑、计算机、PDA等移动终端,还可以包括台式电脑等终端。
第四方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序在被处理器执行时,用于执行第一方面或第一方面的任意可能的实现方式中的方法。
第五方面,提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当该计算机程序被执行时,用于执行第一方面或第一方面的任意可能的实现方式中的方法。
第六方面,提供了一种芯片或者集成电路,该芯片或者集成电路包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有该芯片或者集成电路的设备执行第一方面或第一方面的任意可能的实现方式中的方法。
本申请实施例提供的数据审核方法,通过神经网络模型确定待审核文件中包括的待审核图片与目标图片之间的图片相似度,基于图片相似度与第一预设阈值的比较结果初步判断待审核文件是否审核通过。当图片相似度大于第一预设阈值时,获取待审核文件中包括的文字信息对应的文字相似度,基于文字相似度与第二预设阈值的比较结果,进一步判断待审核文件是否审核通过。上述方式,终端先基于神经网络模型确定的图片相似度对待审核文件中的待审核图片进行初步审核,再基于计算的文字相似度对待审核文件中的文字信息进行二次审核,这种双重审核的方式使审核结果更准确,进而提高了审核的准确率。且基于图片相似度以及文字相似度确定审核结果,无需人工参与审核,提高了审核效率,降低了审核成本。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的数据审核方法的示意性流程图;
图2是本申请提供的对图1所对应的实施例中S102的具体细化过程的示意图;
图3是本申请提供的对图1所对应的实施例中S103的具体细化过程的示意图;
图4是本申请提供的字母数字序列示意图;
图5是本申请又一实施例提供的数据审核方法的示意性流程图;
图6是本申请一实施例提供的一种数据审核装置的示意图;
图7是本申请另一实施例提供的一种终端的示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,在本申请实施例的描述中,“多个”是指两个或多于两个。
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
资质审核可以包括企业资质审核以及产品资质审核。在各种项目的招标过程中,对投标企业的资质审核非常重要。例如,在药品招标过程中,企业需要提交待审核的资质材料,其提交的资质材料经常会出现错交、漏交、企业资质不符或者产品资质不符的问题。因此,必须对其进行资质审核。
现有的资质审核大多通过人工审核的方式对用户提交的资质材料进行审核,这种人工审核的方式不仅浪费人力,增加了审核成本,且人工审核效率低、审核出错率高,不利于资质审核。
也有资质审核方法是利用直方图特征、哈希算法等确定用户上传的企业资质图片(或产品资质图片)与国家数据库中存储的与其对应的企业资质图片(或产品资质图片)之间的相似度,以此判断该企业资质图片(或产品资质图片)是否审核通过。这种仅通过比较图片是否相似判断资质审核是否通过的方法,经常由于图片的相似度计算不准确,进而导致资质审核结果不准确。
有鉴于此,本申请提供一种数据审核方法,通过神经网络模型确定待审核文件中包括的待审核图片与目标图片之间的图片相似度,基于图片相似度与第一预设阈值的比较结果初步判断待审核文件是否审核通过。当图片相似度大于第一预设阈值时,获取待审核文件中包括的文字信息对应的文字相似度,基于文字相似度与第二预设阈值的比较结果,进一步判断待审核文件是否审核通过。上述方式,终端先基于神经网络模型确定的图片相似度对待审核文件中的待审核图片进行初步审核,再基于计算的文字相似度对待审核文件中的文字信息进行二次审核,这种双重审核的方式使审核结果更准确,进而提高了审核的准确率。且基于图片相似度以及文字相似度确定审核结果,无需人工参与审核,提高了审核效率,降低了审核成本。
请参阅图1,图1是本申请一实施例提供的数据审核方法的示意性流程图。应理解,本申请提供的数据审核方法的执行主体为终端,终端包括但不限于智能手机、平板电脑、计算机、PDA等移动终端,还可以包括台式电脑等终端。如图1所示的数据审核方法100可包括:S101和S104,下面将具体进行说明。
S101:获取待审核文件;该待审核文件包括待审核图片和该待审核图片对应的文字信息。
终端获取待审核文件。待审核文件可以是用户上传的文件,也可以是预先存储在终端中的文件。示例性地,在招标过程中,用户在预设的系统入口上传待审核文件,终端获取该待审核文件;或者,预先将待审核文件存储在终端中,当终端检测到文件获取指令时,根据文件获取指令中包含的文件名称以及文件地址,查找到对应的待审核文件,并提取出该待审核文件。
其中,待审核图片可以为企业资质图片,也可以为产品资质图片;企业资质图片用于企业资质审核,产品资质图片用于产品资质审核。相应地,当待审核图片为企业资质图片时,该待审核图片对应的文字信息即为企业资质图片对应的文字信息;当待审核图片为产品资质图片时,该待审核图片对应的文字信息即为产品资质图片对应的文字信息。值得说明的是,该文字信息就是待审核图片中所包含的文字信息,其可以由用户输入,也可以由终端通过光学字符识别(Optical Character Recognition,,OCR)技术提取待审核图片中的文字信息,对此不做限定。
示例性地,以药品招标中的企业资质审核为例。在进行药品招标的过程中,用户在预设的系统入口上传企业资质图片,并输入企业资质图片对应的文字信息。例如,输入的文字信息可以是该企业名称、企业法人、企业注册时间、企业有效期限、企业经营范围、企业注册时间、企业注册资金、企业存续信息、证书编号等。也可以是终端检测到文件获取指令时,根据文件获取指令中包含的文件名称以及文件地址,查找到该企业资质图片以及该企业资质图片对应的文字信息。还可以是终端获取到企业资质图片后,扫描并识别该企业资质图片中的文字,得到该企业资质图片对应的文字信息。产品资质审核与企业资质审核类似,此处不再赘述。
S102:基于神经网络模型确定该待审核图片与目标图片之间的图片相似度;该目标图片为预设数据库中与该待审核图片对应的图片;该目标图片对应的实体与该待审核图片对应的实体相同。
在本实施例中,终端中预先存储有预先训练好的神经网络模型。该神经网络模型是使用机器学习算法,对样本图片进行训练得到的。可以理解的是,该神经网络模型可以由终端预先训练好,也可以由其他设备预先训练好后将该神经网络模型对应的文件移植至本终端中。也就是说,训练该神经网络模型的执行主体与使用该神经网络模型的执行主体可以是相同的,也可以是不同的。
在训练过程中,初始神经网络模型中可以包括编码(encode)结构网络与解码(decode)结构网络,encode网络中的各个网络层用于提取样本图片的特征向量,并对其进行降维,decode网络中的各个网络层用于对降维后的特征向量进行升维和图片还原,即根据提取到的特征向量还原样本图片。示例性地,将样本图片输入初始神经网络模型中进行处理,得到该样本图片对应的还原图片;计算输入的样本图片与还原图片之间的损失值,当该损失值大于或等于预设损失阈值时,调整初始神经网络模型中的网络参数,并返回执行将样本图片输入初始神经网络模型中进行处理,得到该样本图片对应的还原图片的步骤;当该损失值小于预设损失阈值时,表示初始神经网络模型训练完成,得到训练好的神经网络模型。可以通俗理解为,损失值越小表示该神经网络模型提取到的特征向量越准确,这样才能根据提取到的特征向量还原到最接近样本图片的图片。值得说明的是,训练过程中需要提高神经网络模型提取图片特征向量的准确性,所以采用了decode网络,在实际使用过程中,我们只需采用训练好的神经网络模型中的encode网络提取图片的特征向量即可。
目标图片为预设数据库中与该待审核图片对应的图片。其中,预设数据库可以是企业资质数据库、全国企业信用信息数据库、全国工商企业数据库、产品资质数据库等,这些数据库中收录有各个企业、各个产品对应的资质证书图片。
目标图片对应的实体与该待审核图片对应的实体相同。其中,实体可以理解为企业实体,即目标图片与待审核图片对应的企业实体是同一个。也可以理解为目标图片对应的企业名称与待审核图片对应的企业名称相同。
示例性地,当待审核图片为企业资质图片时,目标图片就是从预设数据库中查找到的这个企业的目标企业资质图片。该企业资质图片对应的企业名称与目标企业资质图片对应的企业名称相同,即该企业资质图片对应的企业实体与目标企业资质图片对应的企业实体为同一个。例如,终端获取企业资质图片对应的企业名称,根据该企业名称在企业资质数据库中查询到该企业名称对应的目标企业资质图片,并下载该目标企业资质图片。
产品资质图片对应的实体即为制造该产品的企业。当待审核图片为产品资质图片时,目标图片就是从预设数据库中查找到的制造该产品的企业对应的目标产品资质图片。该产品资质图片对应的企业名称与目标产品资质图片对应的企业名称相同,即该产品资质图片对应的企业实体与目标产品资质图片对应的企业实体为同一个。例如,终端获取产品资质图片对应的企业名称以及产品名称,根据该企业名称以及产品名称在产品资质数据库中查询到目标产品资质图片,并下载该目标产品资质图片。
终端通过预先训练好的神经网络模型对待审核图片以及目标图片分别进行特征提取处理,得到待审核图片对应的特征向量以及目标图片对应的特征向量,通过余弦距离公式计算两个特征向量之间的相似度,得到的该相似度即为该待审核图片与目标图片之间的图片相似度。也可以基于待审核图片对应的特征向量、目标图片对应的特征向量以及皮尔逊相关系数,计算待审核图片与目标图片之间的图片相似度。
S103:当该图片相似度大于第一预设阈值时,获取该文字信息对应的文字相似度;该文字相似度用于表示该文字信息与该文字信息对应的审核参考信息之间的相似程度。
第一预设阈值作为判断待审核图片与目标图片是否相似的依据,第一预设阈值可预先设置,对此不做限定。终端在获取到待审核图片与目标图片之间的图片相似度后,比较该图片相似度与第一预设阈值的大小,并根据比较结果执行不同的操作。
当图片相似度大于第一预设阈值时,判定待审核图片与目标图片相似,即待审核图片与预设数据库中收录的与其对应的目标图片相似,表明该待审核图片通过初步审核。此时,获取该待审核图片对应的文字信息所对应的文字相似度,该文字相似度用于表示该文字信息与该文字信息对应的审核参考信息之间的相似程度。其中,审核参考信息是用于判定该文字信息是否可以通过审核的依据。例如,当待审核图片为企业资质图片时,审核参考信息就是企业资质图片对应企业在工商局中记录的信息,如企业名称、企业法人、企业注册时间、企业有效期限、企业经营范围、企业注册时间、企业注册资金、企业存续信息、证书编号等。
当图片相似度小于或等于第一预设阈值时,判定待审核图片与目标图片不相似,表明该待审核图片未通过初步审核,无需再获取该文字信息对应的文字相似度。此时可生成相应的提示信息提示用户,如提示信息可以为“请仔细检查您的待审核图片”、“待审核图片与目标图片不相似”、“待审核图片未通过初步审核”等。
示例性地,当待审核图片为企业资质图片时,目标图片为目标企业资质图片,终端获取企业资质图片与目标企业资质图片之间的图片相似度,比较该图片相似度与第一预设阈值的大小。当该图片相似度大于第一预设阈值时,判定企业资质图片与目标企业资质图片相似,即企业资质图片与预设数据库中收录的与其对应的目标企业资质图片相似,表明该企业资质图片通过初步审核。此时,获取该企业资质图片对应的文字信息所对应的文字相似度,即确定该企业资质图片对应的文字信息与审核参考信息之间的相似度。可通俗理解为判断该企业资质图片中对应的这些文字信息,与工商局中存储的该企业对应的信息是否相同。
当该图片相似度小于或等于第一预设阈值时,判定企业资质图片与目标企业资质图片不相似,表明该企业资质图片未通过初步审核,无需再获取该企业资质图片对应的文字信息所对应的文字相似度。可以理解为,该企业资质图片与企业资质数据库中收录的目标企业资质图片都不相同,就无需再进一步比较该企业资质图片对应的文字信息与工商局中存储的该企业对应的信息是否相同了。此时可生成相应的提示信息提示用户,如提示信息可以为“请仔细检查您的企业资质图片”、“企业资质图片与目标企业资质图片不相似”、“企业资质图片未通过初步审核”等。
示例性地,当待审核图片为产品资质图片时,目标图片为目标产品资质图片,终端获取产品资质图片与目标产品资质图片之间的图片相似度,比较该图片相似度与第一预设阈值的大小。当该图片相似度大于第一预设阈值时,判定产品资质图片与目标产品资质图片相似,即产品资质图片与预设数据库中收录的与其对应的目标产品资质图片相似,表明该产品资质图片通过初步审核。此时,获取该产品资质图片对应的文字信息所对应的文字相似度,即确定该产品资质图片对应的文字信息与审核参考信息之间的相似度。可通俗理解为判断该产品资质图片中对应的这些文字信息,与工商局中存储的与其对应的信息是否相同。
当该图片相似度小于或等于第一预设阈值时,判定产品资质图片与目标产品资质图片不相似,表明该产品资质图片未通过初步审核,无需再获取该产品资质图片对应的文字信息所对应的文字相似度。可以理解为,该产品资质图片与产品资质数据库中收录的目标产品资质图片都不相同,就无需再进一步比较该产品资质图片对应的文字信息与工商局中存储的与其对应的信息是否相同了。此时可生成相应的提示信息提示用户,如提示信息可以为“请仔细检查您的产品资质图片”、“产品资质图片与目标产品资质图片不相似”、“产品资质图片未通过初步审核”等。
S104:当该文字相似度大于第二预设阈值时,确定该待审核文件审核通过。
第二预设阈值作为判断待审核图片对应的文字信息与审核参考信息是否相似的依据,第二预设阈值可预先设置,对此不做限定。终端在获取到待审核图片对应的文字信息所对应的文字相似度后,比较该文字相似度与第二预设阈值的大小,并根据比较结果执行不同的操作。
当文字相似度大于第二预设阈值时,判定待审核图片对应的文字信息与审核参考信息相似,表明该文字信息通过审核,此时,也就表明待审核文件通过了审核。当文字相似度小于或等于第二预设阈值时,判定待审核图片对应的文字信息与审核参考信息不相似,表明该文字信息未通过审核,相应地,也就表明待审核文件未通过审核。此时,可生成相应的信息提示用户,例如生成“请仔细检查您的待审核文件”、“文字信息与审核参考信息不相似”、“文字信息未通过审核”、“待审核文件未通过审核”等信息提示用户。
示例性地,当待审核图片为企业资质图片时,获取该企业资质图片对应的文字信息所对应的文字相似度,比较该文字相似度与第二预设阈值的大小。当该文字相似度大于第二预设阈值时,判定该企业资质图片对应的文字信息与审核参考信息相似,表明该文字信息通过审核,此时也就表明待审核文件通过了审核,也可以理解为该企业资质图片对应企业通过了资质审核。当该文字相似度小于或等于第二预设阈值时,判定该企业资质图片对应的文字信息与审核参考信息不相似,表明该文字信息未通过审核,相应地,也就表明待审核文件未通过审核。此时,可生成相应的信息提示用户,例如生成“请仔细检查您的待审核文件”、“文字信息与审核参考信息不相似”、“企业资质图片未通过审核”等信息提示用户。
示例性地,当待审核图片为产品资质图片时,获取该产品资质图片对应的文字信息所对应的文字相似度,比较该文字相似度与第二预设阈值的大小。当该文字相似度大于第二预设阈值时,判定该产品资质图片对应的文字信息与审核参考信息相似,表明该文字信息通过审核,此时也就表明待审核文件通过了审核,也可以理解为该产品资质图片对应的产品以及企业通过了资质审核。当该文字相似度小于或等于第二预设阈值时,判定该产品资质图片对应的文字信息与审核参考信息不相似,表明该文字信息未通过审核,相应地,也就表明待审核文件未通过审核。此时,可生成相应的信息提示用户,例如生成“请仔细检查您的待审核文件”、“文字信息与审核参考信息不相似”、“产品资质图片未通过审核”等信息提示用户。
本申请实施例中,通过神经网络模型确定待审核文件中包括的待审核图片与目标图片之间的图片相似度,基于图片相似度与第一预设阈值的比较结果初步判断待审核文件是否审核通过。当图片相似度大于第一预设阈值时,获取待审核文件中包括的文字信息对应的文字相似度,基于文字相似度与第二预设阈值的比较结果,进一步判断待审核文件是否审核通过。上述方式,终端先基于神经网络模型确定的图片相似度对待审核文件中的待审核图片进行初步审核,再基于计算的文字相似度对待审核文件中的文字信息进行二次审核,这种双重审核的方式使审核结果更准确,进而提高了审核的准确率。且基于图片相似度以及文字相似度确定审核结果,无需人工参与审核,提高了审核效率,降低了审核成本。
请参阅图2,图2是本申请提供的对图1所对应的实施例中S102的具体细化过程的示意图;在本申请一些可能的实现方式中,上述S102可包括S1021~S1023,下面将具体对步骤S1021~S1023进行说明。
S1021:采用该神经网络模型提取该待审核图片对应的第一特征向量。
为了便于比较待审核图片与目标图片之间的相似度,可预先统一待审核图片与目标图片的大小,这样便于神经网络模型准确提取它们的特征向量。例如,预设一个尺寸大小,根据预设的尺寸大小对待审核图片与目标图片进行裁剪;或者,以待审核图片和目标图片中任一图片为基准,对另一图片进行裁剪,得到两个尺寸相同的图片。
已训练好的神经网络模型中可包括输入层、多个卷积层、多个激活层、多个采样层、输出层。示例性地,将裁剪好的待审核图片输入神经网络模型中进行处理,神经网络模型中的输入层对该待审核图片进行数据归一化处理。具体地,获取该待审核图片中每个像素点对应的像素值,用每个像素点对应的像素值除以255,使各个像素点对应的像素值落入[0,1]中,对该待审核图片中的每个像素点都这样处理后,得到数据归一化处理后的图片。将经过数据归一化处理后的图片传递至第一个卷积层,第一个卷积层对该图片进行卷积处理,提取该图片对应的特征。其中,该特征可以包括该图像的颜色特征、线条特征、轮廓特征、图片中文字的位置特征、印章特征等。第一卷积层将提取的特征输入至第一个激活层,该激活层对该特征进行激活,可以理解为该激活层通过一个函数对该特征进行映射,将映射后得到的特征传递至第一个采样层。第一个采样层对特征进行特征选择,去除多余特征,并构成特征图,将特征图传递至第二个卷积层。第二个卷积层对该特征图进行二次特征提取,并基于提取的特征再次输出特征,第二个卷积层将再次输出的特征传递至第二个激活层,第二个激活层对特征进行激活后输入第二个采样层,第二个采样层进行二次特征选择,重构特征图。以此类推,直至神经网络模型中的最后一个采样层对图片处理完成后,传递至输出层,输出层输出待审核图片对应的特征。由于在神经网络模型中各个特征均以向量的形式表现,也可理解为输出层输出待审核图片对应的第一特征向量。
S1022:采用该神经网络模型提取该目标图片对应的第二特征向量。
采用该神经网络模型提取目标图片对应的第二特征向量的过程,与采用该神经网络模型提取待审核图片对应的第一特征向量的过程类似,请参考S1021中的描述,此处不再赘述。
S1023:计算该第一特征向量与该第二特征向量之间的相似度,得到该图片相似度。
将第一特征向量与第二特征向量输入余弦距离公式进行计算,得到待审核图片与目标图片之间的图片相似度。余弦距离公式如下:
上述公式(1)中,cosθ表示图片相似度,cosθ的值越接近1,表明第一特征向量与第二特征向量越相似,即待审核图片与目标图片越相似;A表示第一特征向量,B表示第二特征向量;i表示第一特征向量与第二特征向量各自对应的维度,即Ai中的i表示第一特征向量对应的维度,Bi中的i表示第二特征向量对应的维度。
可选地,也可用皮尔逊相关系数确定待审核图片与目标图片之间的图片相似度。将第一特征向量与第二特征向量输入预设公式(2)进行计算,得到待审核图片与目标图片之间的图片相似度。预设公式(2)如下:
上述公式(2)中,X表示第一特征向量,Y表示第二特征向量,ρx,y表示第一特征向量与第二特征向量之间的皮尔逊相关系数,也可理解为待审核图片与目标图片之间的图片相似度;cov(X,Y)表示X、Y的协方差,σX表示X的标准差,σY表示Y的标准差。
请参阅图3,图3是本申请提供的对图1所对应的实施例中S103的具体细化过程的示意图;在本申请一些可能的实现方式中,上述S103可包括S1031~S1033,下面将具体对步骤S1031~S1033进行说明。
S1031:对该文字信息进行音形码编码得到第一编码信息。
请参阅图4,图4是本申请提供的字母数字序列示意图。示例性地,将该文字信息中的每个汉字转换为各自对应的十位字母数字序列;十位字母数字序列如图4所示,前四位“1、2、3、4”分别表示字音的编码,1表示韵母,2表示声母,3表示补码,4表示声调,5表示结构,6~9表示四角编码,10表示笔画数。可以理解为按照十位字母数字序列分别表示的不同含义,对文字信息中的汉字进行拆分,并对拆分结果进行标记。终端按照该音形码编码方式对文字信息中的汉字进行编码,得到第一编码信息。
S1032:获取该审核参考信息,并对该审核参考信息进行音形码编码得到第二编码信息。
终端获取审核参考信息。示例性地,当待审核图片为企业资质图片时,终端可根据该企业资质图片对应的企业名称在企业知识图谱、或者工商局查询该企业的相关信息,如企业名称、企业法人、企业注册时间、企业有效期限、企业经营范围、企业注册时间、企业注册资金、企业存续信息、证书编号等。
终端对该审核参考信息进行音形码编码的过程,与对文字信息进行音形码编码的过程类似,可参考S1031中的描述,此处不再赘述。
S1033:计算该第一编码信息与该第二编码信息之间的相似度,得到该文字相似度。
示例性地,为“1、2、3、4”表示的字音的编码(字音的编码可简称为音码)分别设置权重,四个位置的权重和为1;为“5、6、7、8、9、10”表示的字形的编码(字形的编码可简称为形码)也分别设置权重,六个位置的权重和为1,具体值均不做限定。示例性地,获取第一编码信息中中企业法人名称的第一个汉字对应的十位字母数字序列,获取第二编码信息中企业法人名称的第一个汉字对应的十位字母数字序列。顺序比较十位字母数字序列是否相同,当相同时将该位置标记为“1”,不同时标记为“0”。例如,比较“1”位置对应的韵母是否相同,当相同时将该位置标记为“1”,不同时标记为“0”,同样的方式得到每个位置对应的标记值,用“1、2、3、4”位置各自对应的权重值与各自对应的标记值相乘,再将得到的各个乘积相加,得到第一编码信息中企业法人名称的第一个汉字对应的音码的相似度,同样的方式计算得到第二编码信息中企业法人名称的第一个汉字对应的形码的相似度。将该汉字对应的音码的相似度以及形码的相似度代入下述公式(3)计算得到该汉字对应的单个文字相似度,公式(3)如下:
d=w1P+w2S, (3),
上述公式(3)中,d表示单个文字相似度,w1表示预设的音码权重值,w2表示预设的形码权重值,P表示单个汉字对应的音码的相似度,S表示单个汉字对应的形码的相似度,其中,w1与w2的和为1。
用同样的方式计算文字信息中每个汉字对应的单个文字相似度,取这些单个文字相似度的均值作为整体的相似度,即得到文字信息对应的文字相似度。
通常计算文字相似度采用编辑距离算法和N元模型(N-Gram)算法,这种算法计算的文字相似度并不准确,例如,容易将“资格”、“资恪”识别为相同的文字。本实施例中,先对汉字进行音形码编码后再计算相似度,避免了上述情况发生,使计算到的文字相似度更准确,进而使得文字信息与审核参考信息的对比结果更准确,进一步提升了资质审核的准确率。
可选地,在一些可能实现的方式中,基于神经网络模型确定待审核图片与目标图片之间的图片相似度,包括:
若所述待审核图片包括企业资质图片,则基于神经网络模型确定该企业资质图片与该目标企业资质图片之间的图片相似度。
其中,当待审核图片包括企业资质图片时,目标图片包括目标企业资质图片,目标企业资质图片为预设数据库中与企业资质图片对应的图片;目标企业资质图片对应的实体与企业资质图片对应的实体相同。可以理解为,目标企业资质图片对应的企业与企业资质图片对应的企业是同一个。
基于神经网络模型确定该企业资质图片与该目标企业资质图片之间的图片相似度具体过程,可参考S1021~S1023中的描述,此处不再赘述。
示例性地,比较该图片相似度与第一预设阈值的大小。当该图片相似度大于第一预设阈值时,判定企业资质图片与目标企业资质图片相似,表明该企业资质图片通过初步审核。此时,获取该企业资质图片对应的文字信息所对应的文字相似度。比较该文字相似度与第二预设阈值的大小,当文字相似度大于第二预设阈值时,判定企业资质图片对应的文字信息与审核参考信息相似,表明该文字信息通过审核,此时,也就表明待审核文件通过了审核。
当该图片相似度小于或等于第一预设阈值时,判定企业资质图片与目标企业资质图片不相似,表明该企业资质图片未通过初步审核,无需再获取该企业资质图片对应的文字信息所对应的文字相似度。
或者,该企业资质图片通过初步审核,但该文字相似度小于或等于第二预设阈值时,判定该企业资质图片对应的文字信息与审核参考信息不相似,表明该文字信息未通过审核,相应地,也就表明待审核文件未通过审核。
可选地,在一些可能实现的方式中,基于神经网络模型确定待审核图片与目标图片之间的图片相似度,包括:
若所述待审核图片包括产品资质图片,则基于神经网络模型确定该产品资质图片与该目标产品资质图片之间的图片相似度。
其中,当待审核图片包括产品资质图片时,目标图片包括目标产品资质图片,目标产品资质图片为预设数据库中与产品资质图片对应的图片;目标产品资质图片对应的实体与产品资质图片对应的实体相同。可以理解为,目标产品资质图片对应的企业与产品资质图片对应的企业是同一个。
示例性地,比较该图片相似度与第一预设阈值的大小。当该图片相似度大于第一预设阈值时,判定产品资质图片与目标产品资质图片相似,表明该产品资质图片通过初步审核。此时,获取该产品资质图片对应的文字信息所对应的文字相似度。比较该文字相似度与第二预设阈值的大小,当文字相似度大于第二预设阈值时,判定产品资质图片对应的文字信息与审核参考信息相似,表明该文字信息通过审核,此时,也就表明待审核文件通过了审核。
当该图片相似度小于或等于第一预设阈值时,判定产品资质图片与目标产品资质图片不相似,表明该产品资质图片未通过初步审核,无需再获取该产品资质图片对应的文字信息所对应的文字相似度。
或者,该产品资质图片通过初步审核,但该文字相似度小于或等于第二预设阈值时,判定该产品资质图片对应的文字信息与审核参考信息不相似,表明该文字信息未通过审核,相应地,也就表明待审核文件未通过审核。
可选地,在一些可能实现的方式中,当检测到同一用户上传的多个待审核文件时,获取多个待审核文件各自对应的资质主体;当检测到多个待审核文件满足预设条件时,确定同一用户上传的多个待审核文件审核通过;该预设条件为多个待审核文件各自包括的待审核图片对应的图片相似度大于第一预设阈值,且多个待审核文件各自包括的文字信息对应的文字相似度大于第二预设阈值,且多个待审核文件对应的资质主体相同。
可以理解为,当检测到同一用户上传的多个待审核文件时,不仅每个待审核文件都要通过图片相似度以及文字相似度的审核,而且这些待审核文件对应的资质主体要相同,才可判断该同一用户上传的多个待审核文件均通过审核。可通俗理解为,该用户可能上传了多个子公司对应的待审核文件,这些待审核文件可能均可单独通过图片相似度以及文字相似度的审核,但这些待审核文件对应的母公司不一定相同,需判断这些待审核文件对应的母公司是否相同后,才可确定该用户上传的这些待审核文件作为一个整体是否可以通过审核。
示例性地,当检测到同一用户上传的多个待审核文件时,获取每个待审核文件对应的企业名称,根据各自对应的企业名称在企业知识图谱中查找到该企业对应的资质主体。可以理解为,当待审核文件对应的企业为子公司时,查找到的资质主体即为该子公司对应的母公司;当待审核文件对应的企业为母公司时,查找到的资质主体即为该母公司。
终端可根据S102~S104中方法判断该用户上传的每个单独的待审核文件是否通过图片相似度以及文字相似度的审核,当都通过图片相似度以及文字相似度的审核时,比较每个待审核文件对应的资质主体是否相同。相同时,即可判定该同一用户上传的多个待审核文件均通过审核。不同时,判定该同一用户上传的多个待审核文件未通过审核。此时,可生成相应的信息提示用户,如“请使用同一资质主体的图片”、“请仔细检查您上传的多个文件”等信息。
当根据S102~S104中方法判断该用户上传的多个待审核文件中,有未通过图片相似度审核和/或文字相似度审核的,无需再比较每个待审核文件对应的资质主体是否相同,可直接判定该同一用户上传的多个待审核文件未通过审核。
在本实现方式中,不仅可判断每个单独的待审核文件是否可通过审核,还可根据这些待审核文件对应的资质主体是否相同,进而确定用户上传的这些待审核文件作为一个整体是否可以通过审核。进一步提升了资质审核的准确性。
请参阅图5,图5是本申请又一实施例提供的数据审核方法的示意性流程图。如图5所示的方法200,当待审核文件为预先存储在终端中的文件时,在图1所示的方法100之前,还可以包括:S201~S202。其中,图5所示的步骤S203~S206可以参考上述对S101~S104的相关描述,为了简洁,这里不再赘述。下面将具体对步骤S201~S202进行说明。
S201:获取所有待处理文件。
终端可预先获取所有待处理文件,并获取每个待处理文件对应的企业名称。其中,所有待处理文件为所有等待资质审核的文件。
S202:基于预设知识图谱从所有待处理文件中筛选出待审核文件。
预设知识图谱中收录有每个企业的信息,如存续信息、经营信息、经营范围等。终端根据获取到的每个待处理文件对应的企业名称,在预设知识图谱中查找该企业被收录的信息,并审核这些信息是否合格。例如,终端根据查询到的信息判断该企业是否存续、经营是否存在异常、经营范围范围是否超标等。当检测到这些信息都合格时,判定该企业通过资格预审,并将该企业对应的待处理文件标记为待审核文件。用同样的方式在所有待处理文件中筛选出待审核文件。
可选地,也可获取单独的待处理文件,基于预设知识图谱确定是否将该待处理文件标记为待审核文件。
可选地,在步骤S206之后,还包括:将审核通过的文件上传至区块链中,以防止所述审核通过的文件被篡改。
在本实施例中,将审核通过的文件上传至区块链可保证其安全性和对用户的公正透明性。且将审核通过的文件上传至区块链中,借助区块链上文件无法随意篡改的特性,能够避免该审核通过的文件被恶意篡改,保证了审核通过的文件的稳定性和完整性。
本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请实施例中,通过神经网络模型确定待审核文件中包括的待审核图片与目标图片之间的图片相似度,基于图片相似度与第一预设阈值的比较结果初步判断待审核文件是否审核通过。当图片相似度大于第一预设阈值时,获取待审核文件中包括的文字信息对应的文字相似度,基于文字相似度与第二预设阈值的比较结果,进一步判断待审核文件是否审核通过。上述方式,终端先基于神经网络模型确定的图片相似度对待审核文件中的待审核图片进行初步审核,再基于计算的文字相似度对待审核文件中的文字信息进行二次审核,这种双重审核的方式使审核结果更准确,进而提高了审核的准确率。且基于图片相似度以及文字相似度确定审核结果,无需人工参与审核,提高了审核效率,降低了审核成本。且上述实现方式中,终端通过预设知识图谱实现资格预审,可过滤掉一部分明显资格不符合的文件,减小了后续终端计算图片相似度以及文字相似度的工作量,加快了资格审核的速度,同时也提高了资格审核的准确度。
可选地,在一些可能实现的方式中,终端对待审核文件进行审核,得到对应的审核结果后,还可进行人工抽检与标记。从审核通过的待审核文件以及审核未通过的待审核文件中随机抽取多个样本,对抽取的样本进行人工审核,并标记人工审核结果。比较终端审核结果与人工审核结果是否相同,如果合适是终端审核出错,进一步检测图片相似度检测有误,还是文字相似度检测有误。若是图片相似度检测有误,则终端继续训练神经网络模型、调整第一预设阈值,若是文字相似度检测有误,则终端调整第二预设阈值。
上述实现方式中,基于人工抽查和复核后得到的标记结果对神经网络模型、第一预设阈值以及第二预设阈值等进行调整和修正,可持续提高资质审核的准确率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
请参见图6,图6是本申请一实施例提供的一种数据审核装置的示意图。图6示出了本申请实施例的数据审核装置300的示意性框图,该装置300可以包括处理单元310,可选的,该装置可以包括存储单元320。存储单元320用于执行存储单元存储的指令。
示例性地,该装置包括处理单元(模块)310,该处理单元310用于:
获取待审核文件;该待审核文件包括待审核图片和该待审核图片对应的文字信息;
基于神经网络模型确定该待审核图片与目标图片之间的图片相似度;该目标图片为预设数据库中与该待审核图片对应的图片;该目标图片对应的实体与该待审核图片对应的实体相同;
当该图片相似度大于第一预设阈值时,获取该文字信息对应的文字相似度;该文字相似度用于表示该文字信息与该文字信息对应的审核参考信息之间的相似程度;
当该文字相似度大于第二预设阈值时,确定该待审核文件审核通过。
可选地,该处理单元310还用于:
采用该神经网络模型提取该待审核图片对应的第一特征向量;
采用该神经网络模型提取该目标图片对应的第二特征向量;
计算该第一特征向量与该第二特征向量之间的相似度,得到该图片相似度。
可选地,该处理单元310还用于:
对该文字信息进行音形码编码得到第一编码信息;
获取该审核参考信息,并对该审核参考信息进行音形码编码得到第二编码信息;
计算该第一编码信息与该第二编码信息之间的相似度,得到该文字相似度。
可选地,当待审核图片包括企业资质图片,目标图片包括目标企业资质图片时,该处理单元310还用于:
基于神经网络模型确定该企业资质图片与该目标企业资质图片之间的图片相似度。
可选地,当待审核图片包括产品资质图片,目标图片包括目标产品资质图片时,该处理单元还用于:
基于神经网络模型确定该产品资质图片与该目标产品资质图片之间的图片相似度。
可选地,该处理单元310还用于:
当检测到同一用户上传的多个待审核文件时,获取多个待审核文件各自对应的资质主体;
当检测到多个待审核文件满足预设条件时,确定同一用户上传的多个待审核文件审核通过;该预设条件为多个待审核文件各自包括的待审核图片对应的图片相似度大于第一预设阈值,且多个待审核文件各自包括的文字信息对应的文字相似度大于第二预设阈值,且多个待审核文件对应的资质主体相同。
可选地,该处理单元310还用于:
获取所有待处理文件;
基于预设知识图谱从所有待处理文件中筛选出待审核文件。
可选的,该装置还可以包括收发单元330,收发单元330用于在处理单元310的驱动下执行具体的信号收发。收发单元330可以是收发器、输入/输出接口或接口电路。收发单元330、处理单元310和存储单元320相互耦合,存储单元存储指令,处理单元310用于执行存储单元存储的指令,收发单元330用于在处理单元310的驱动下执行具体的信号收发。
可选的,收发单元330可以包括接收单元(模块)和发送单元(模块),用于执行前述方法100以及方法200的各个实施例接收信息和发送信息的步骤。
请参见图7,图7是本申请另一实施例提供的一种终端的示意图。如图7所示,该终端400包括:处理器410、可选的,还可以包括存储器420,存储器420用于存储计算机可读指令,处理器410执行计算机可读指令时实现上述各个数据审核方法实施例中的步骤,例如图1所示的S101至S104。可选的,该终端还可以包括收发器430,用于执行前述方法100以及方法200的各个实施例接收信息和发送信息的步骤。
终端400可包括但不仅限于,处理器410、存储器420。本领域技术人员可以理解,图7仅仅是终端400的示例,并不构成对终端400的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如终端400还可以包括输入输出终端、网络接入终端、总线等。
所称处理器410可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field~Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器420可以是数据审核装置400的内部存储单元,例如终端400的硬盘或内存。该存储器420也可以是终端400的外部存储终端,例如终端400上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。进一步地,该存储器420还可以既包括终端400的内部存储单元也包括外部存储终端。该存储器420用于存储计算机可读指令以及终端400所需的其他程序和数据。该存储器420还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机可读介质,用于存储计算机程序代码,该计算机程序包括用于执行上述方法100以及方法200中数据审核方法的指令。该可读介质可以是只读存储器(read-only memory,ROM)或随机存取存储器(random access memory,RAM),本申请实施例对此不做限制。
本申请还提供了一种计算机程序产品,该计算机程序产品包括指令,当该指令被执行时,以使得终端设备执行对应于上述方法的终端设备的操作。
本申请实施例还提供了一种芯片或者集成电路,该芯片或者集成电路包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有该芯片或者集成电路的设备执行上述数据审核方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种数据审核方法,其特征在于,包括:
获取待审核文件;所述待审核文件包括待审核图片和所述待审核图片对应的文字信息;
基于神经网络模型确定所述待审核图片与目标图片之间的图片相似度;所述目标图片为预设数据库中与所述待审核图片对应的图片;所述目标图片对应的实体与所述待审核图片对应的实体相同;
当所述图片相似度大于第一预设阈值时,获取所述文字信息对应的文字相似度;所述文字相似度用于表示所述文字信息与所述文字信息对应的审核参考信息之间的相似程度;
当所述文字相似度大于第二预设阈值时,确定所述待审核文件审核通过。
2.如权利要求1所述的数据审核方法,其特征在于,所述基于神经网络模型确定所述待审核图片与目标图片之间的图片相似度,包括:
采用所述神经网络模型提取所述待审核图片对应的第一特征向量;
采用所述神经网络模型提取所述目标图片对应的第二特征向量;
计算所述第一特征向量与所述第二特征向量之间的相似度,得到所述图片相似度。
3.如权利要求1所述的数据审核方法,其特征在于,所述当所述图片相似度大于第一预设阈值时,获取所述文字信息对应的文字相似度,包括:
对所述文字信息进行音形码编码得到第一编码信息;
获取所述审核参考信息,并对所述审核参考信息进行音形码编码得到第二编码信息;
计算所述第一编码信息与所述第二编码信息之间的相似度,得到所述文字相似度。
4.如权利要求1所述的数据审核方法,其特征在于,所述目标图片包括目标企业资质图片,所述基于神经网络模型确定所述待审核图片与目标图片之间的图片相似度,包括:
若所述待审核图片包括企业资质图片,则基于神经网络模型确定所述企业资质图片与所述目标企业资质图片之间的图片相似度;
若所述待审核图片包括产品资质图片,则基于神经网络模型确定所述产品资质图片与所述目标产品资质图片之间的图片相似度。
5.如权利要求1至4任一项所述的数据审核方法,其特征在于,所述当所述文字相似度大于第二预设阈值时,确定所述待审核文件审核通过之后,包括:
将审核通过的文件上传至区块链中,以防止所述审核通过的文件被篡改。
6.如权利要求1所述的数据审核方法,其特征在于,当检测到同一用户上传的多个待审核文件时,获取所述多个待审核文件各自对应的资质主体;
当检测到所述多个待审核文件满足预设条件时,确定所述同一用户上传的多个待审核文件审核通过;所述预设条件为所述多个待审核文件各自包括的待审核图片对应的图片相似度大于所述第一预设阈值,且所述多个待审核文件各自包括的文字信息对应的文字相似度大于所述第二预设阈值,且所述多个待审核文件对应的资质主体相同。
7.如权利要求1所述的数据审核方法,其特征在于,所述获取待审核文件之前,所述方法还包括:
获取所有待处理文件;
基于预设知识图谱从所述所有待处理文件中筛选出所述待审核文件。
8.一种数据审核装置,其特征在于,包括用于执行如权利要求1至7中任一项所述方法的各个步骤的单元。
9.一种终端,其特征在于,包括如权利要求8所述的数据审核装置。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的数据审核方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010616972.9A CN111767422A (zh) | 2020-06-30 | 2020-06-30 | 一种数据审核方法、装置、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010616972.9A CN111767422A (zh) | 2020-06-30 | 2020-06-30 | 一种数据审核方法、装置、终端及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111767422A true CN111767422A (zh) | 2020-10-13 |
Family
ID=72724331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010616972.9A Pending CN111767422A (zh) | 2020-06-30 | 2020-06-30 | 一种数据审核方法、装置、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111767422A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112257768A (zh) * | 2020-10-19 | 2021-01-22 | 广州金融科技股份有限公司 | 一种非法金融图片的识别方法、装置、计算机存储介质 |
CN112418813A (zh) * | 2020-12-02 | 2021-02-26 | 上海三稻智能科技有限公司 | 基于智能解析识别的aeo资质智能评级管理系统、方法及存储介质 |
CN112434970A (zh) * | 2020-12-12 | 2021-03-02 | 广东电力信息科技有限公司 | 一种基于智能数据采集的资质数据验证方法、装置 |
CN112784835A (zh) * | 2021-01-21 | 2021-05-11 | 恒安嘉新(北京)科技股份公司 | 圆形印章的真实性识别方法、装置、电子设备及存储介质 |
CN112863184A (zh) * | 2021-01-12 | 2021-05-28 | 深圳市金桥软件有限公司 | 一种交通信息管理系统 |
CN112990182A (zh) * | 2021-05-10 | 2021-06-18 | 北京轻松筹信息技术有限公司 | 筹款信息审核方法、系统及电子设备 |
CN113283880A (zh) * | 2021-06-22 | 2021-08-20 | 新奥数能科技有限公司 | 一种子企业获取代运维商的方法和装置 |
CN113342762A (zh) * | 2021-08-06 | 2021-09-03 | 深圳市思特克电子技术开发有限公司 | 针对商户好友的共享消息的智能处理方法及相关装置 |
CN114598699A (zh) * | 2020-12-07 | 2022-06-07 | 国家广播电视总局广播电视科学研究院 | 文件内容审核方法、装置及电子设备 |
CN114627319A (zh) * | 2022-05-16 | 2022-06-14 | 杭州闪马智擎科技有限公司 | 目标数据的上报方法、装置、存储介质及电子装置 |
CN114707958A (zh) * | 2022-04-02 | 2022-07-05 | 永道工程咨询有限公司 | 一种基于云端网络的计价清单审核方法及装置 |
CN115114469A (zh) * | 2021-03-17 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 一种图片识别方法、装置、设备及存储介质 |
CN115759734A (zh) * | 2022-10-19 | 2023-03-07 | 国网物资有限公司 | 基于指标的电力业务供应链监控方法、装置、设备和介质 |
CN117275030A (zh) * | 2023-09-27 | 2023-12-22 | 自然资源部地图技术审查中心 | 审核地图的方法和装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103116752A (zh) * | 2013-02-25 | 2013-05-22 | 新浪网技术(中国)有限公司 | 图片审核方法和系统 |
CN107133221A (zh) * | 2017-06-09 | 2017-09-05 | 北京京东尚科信息技术有限公司 | 信息审核方法、装置、计算机可读介质和电子设备 |
CN110032738A (zh) * | 2019-04-16 | 2019-07-19 | 中森云链(成都)科技有限责任公司 | 基于上下文图随机游走及音形码的微博文本规范化方法 |
CN110083733A (zh) * | 2019-03-16 | 2019-08-02 | 平安城市建设科技(深圳)有限公司 | 图片审核方法、装置、设备及计算机可读存储介质 |
CN110135265A (zh) * | 2019-04-16 | 2019-08-16 | 深圳壹账通智能科技有限公司 | 案件自动审核方法、装置、计算机设备及存储介质 |
CN110362777A (zh) * | 2019-07-25 | 2019-10-22 | 焦点科技股份有限公司 | 一种多信息融合的图片审核方法和系统 |
CN110929764A (zh) * | 2019-10-31 | 2020-03-27 | 北京三快在线科技有限公司 | 图片审核方法和装置,电子设备及存储介质 |
CN111209447A (zh) * | 2019-02-27 | 2020-05-29 | 山东大学 | 一种基于音形码的中文字符串相似度计算方法及装置 |
-
2020
- 2020-06-30 CN CN202010616972.9A patent/CN111767422A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103116752A (zh) * | 2013-02-25 | 2013-05-22 | 新浪网技术(中国)有限公司 | 图片审核方法和系统 |
CN107133221A (zh) * | 2017-06-09 | 2017-09-05 | 北京京东尚科信息技术有限公司 | 信息审核方法、装置、计算机可读介质和电子设备 |
CN111209447A (zh) * | 2019-02-27 | 2020-05-29 | 山东大学 | 一种基于音形码的中文字符串相似度计算方法及装置 |
CN110083733A (zh) * | 2019-03-16 | 2019-08-02 | 平安城市建设科技(深圳)有限公司 | 图片审核方法、装置、设备及计算机可读存储介质 |
CN110032738A (zh) * | 2019-04-16 | 2019-07-19 | 中森云链(成都)科技有限责任公司 | 基于上下文图随机游走及音形码的微博文本规范化方法 |
CN110135265A (zh) * | 2019-04-16 | 2019-08-16 | 深圳壹账通智能科技有限公司 | 案件自动审核方法、装置、计算机设备及存储介质 |
CN110362777A (zh) * | 2019-07-25 | 2019-10-22 | 焦点科技股份有限公司 | 一种多信息融合的图片审核方法和系统 |
CN110929764A (zh) * | 2019-10-31 | 2020-03-27 | 北京三快在线科技有限公司 | 图片审核方法和装置,电子设备及存储介质 |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112257768B (zh) * | 2020-10-19 | 2023-01-31 | 广州金融科技股份有限公司 | 一种非法金融图片的识别方法、装置、计算机存储介质 |
CN112257768A (zh) * | 2020-10-19 | 2021-01-22 | 广州金融科技股份有限公司 | 一种非法金融图片的识别方法、装置、计算机存储介质 |
CN112418813B (zh) * | 2020-12-02 | 2024-04-05 | 上海三稻智能科技有限公司 | 基于智能解析识别的aeo资质智能评级管理系统、方法及存储介质 |
CN112418813A (zh) * | 2020-12-02 | 2021-02-26 | 上海三稻智能科技有限公司 | 基于智能解析识别的aeo资质智能评级管理系统、方法及存储介质 |
CN114598699B (zh) * | 2020-12-07 | 2023-07-28 | 国家广播电视总局广播电视科学研究院 | 文件内容审核方法、装置及电子设备 |
CN114598699A (zh) * | 2020-12-07 | 2022-06-07 | 国家广播电视总局广播电视科学研究院 | 文件内容审核方法、装置及电子设备 |
CN112434970A (zh) * | 2020-12-12 | 2021-03-02 | 广东电力信息科技有限公司 | 一种基于智能数据采集的资质数据验证方法、装置 |
CN112863184A (zh) * | 2021-01-12 | 2021-05-28 | 深圳市金桥软件有限公司 | 一种交通信息管理系统 |
CN112863184B (zh) * | 2021-01-12 | 2022-11-11 | 山西省交通运输运行监测与应急处置中心 | 一种交通信息管理系统 |
CN112784835A (zh) * | 2021-01-21 | 2021-05-11 | 恒安嘉新(北京)科技股份公司 | 圆形印章的真实性识别方法、装置、电子设备及存储介质 |
CN112784835B (zh) * | 2021-01-21 | 2024-04-12 | 恒安嘉新(北京)科技股份公司 | 圆形印章的真实性识别方法、装置、电子设备及存储介质 |
CN115114469A (zh) * | 2021-03-17 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 一种图片识别方法、装置、设备及存储介质 |
CN112990182B (zh) * | 2021-05-10 | 2021-09-21 | 北京轻松筹信息技术有限公司 | 筹款信息审核方法、系统及电子设备 |
CN112990182A (zh) * | 2021-05-10 | 2021-06-18 | 北京轻松筹信息技术有限公司 | 筹款信息审核方法、系统及电子设备 |
CN113283880A (zh) * | 2021-06-22 | 2021-08-20 | 新奥数能科技有限公司 | 一种子企业获取代运维商的方法和装置 |
CN113342762A (zh) * | 2021-08-06 | 2021-09-03 | 深圳市思特克电子技术开发有限公司 | 针对商户好友的共享消息的智能处理方法及相关装置 |
CN114707958A (zh) * | 2022-04-02 | 2022-07-05 | 永道工程咨询有限公司 | 一种基于云端网络的计价清单审核方法及装置 |
CN114627319A (zh) * | 2022-05-16 | 2022-06-14 | 杭州闪马智擎科技有限公司 | 目标数据的上报方法、装置、存储介质及电子装置 |
CN115759734B (zh) * | 2022-10-19 | 2024-01-12 | 国网物资有限公司 | 基于指标的电力业务供应链监控方法、装置、设备和介质 |
CN115759734A (zh) * | 2022-10-19 | 2023-03-07 | 国网物资有限公司 | 基于指标的电力业务供应链监控方法、装置、设备和介质 |
CN117275030A (zh) * | 2023-09-27 | 2023-12-22 | 自然资源部地图技术审查中心 | 审核地图的方法和装置 |
CN117275030B (zh) * | 2023-09-27 | 2024-05-14 | 自然资源部地图技术审查中心 | 审核地图的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111767422A (zh) | 一种数据审核方法、装置、终端及存储介质 | |
WO2020077895A1 (zh) | 签约意向判断方法、装置、计算机设备和存储介质 | |
CN110163478B (zh) | 一种合同条款的风险审查方法及装置 | |
US10810218B2 (en) | System and method for matching of database records based on similarities to search queries | |
CN110555372A (zh) | 数据录入方法、装置、设备及存储介质 | |
CN110362799B (zh) | 基于在线仲裁的裁决书生成处理方法、装置和计算机设备 | |
CN108053545B (zh) | 证件验真方法和装置、服务器、存储介质 | |
CN110502694B (zh) | 基于大数据分析的律师推荐方法及相关设备 | |
CN110929125A (zh) | 搜索召回方法、装置、设备及其存储介质 | |
CN110222695B (zh) | 一种证件图片处理方法及装置、介质、电子设备 | |
CN112307820B (zh) | 文本识别方法、装置、设备和计算机可读介质 | |
CN111046879A (zh) | 证件图像分类方法、装置、计算机设备及可读存储介质 | |
CN110362798B (zh) | 裁决信息检索分析方法、装置、计算机设备和存储介质 | |
CN113806548A (zh) | 基于深度学习模型的信访要素抽取方法及抽取系统 | |
CN113935710A (zh) | 一种合同审核的方法、装置、电子设备及存储介质 | |
CN112785149A (zh) | 车辆自动理赔定损方法、系统、计算机设备及存储介质 | |
CN113094478A (zh) | 表情回复方法、装置、设备及存储介质 | |
US11620842B2 (en) | Automated data extraction and document generation | |
CN110955796B (zh) | 一种基于笔录信息的案件特征信息提取方法及装置 | |
CN112949653A (zh) | 文本识别方法以及电子设备、存储装置 | |
CN112990868A (zh) | 车辆保险自动赔付方法、系统、设备及存储介质 | |
CN113420699A (zh) | 一种人脸匹配方法、装置及电子设备 | |
CN114565044B (zh) | 印章识别方法及系统 | |
CN112069496B (zh) | 保护信息的作品查新系统、方法、设备及存储介质 | |
CN115293915A (zh) | 一种业务数据的校验方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210201 Address after: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.) Applicant after: Shenzhen saiante Technology Service Co.,Ltd. Address before: 1-34 / F, Qianhai free trade building, 3048 Xinghai Avenue, Mawan, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong 518000 Applicant before: Ping An International Smart City Technology Co.,Ltd. |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |