CN117195319A - 保函文件电子件的验真方法、装置、电子设备和介质 - Google Patents
保函文件电子件的验真方法、装置、电子设备和介质 Download PDFInfo
- Publication number
- CN117195319A CN117195319A CN202311157042.1A CN202311157042A CN117195319A CN 117195319 A CN117195319 A CN 117195319A CN 202311157042 A CN202311157042 A CN 202311157042A CN 117195319 A CN117195319 A CN 117195319A
- Authority
- CN
- China
- Prior art keywords
- key element
- file
- information
- text
- warranty
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012795 verification Methods 0.000 title claims abstract description 168
- 238000000034 method Methods 0.000 title claims abstract description 103
- 238000012549 training Methods 0.000 claims description 27
- 238000012015 optical character recognition Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 20
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000013136 deep learning model Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000012545 processing Methods 0.000 description 31
- 230000008569 process Effects 0.000 description 17
- 230000002829 reductive effect Effects 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 230000015654 memory Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000013496 data integrity verification Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Abstract
提供了一种保函文件电子件的验真方法、装置、电子设备和介质,可以应用于大数据技术领域和人工智能技术领域。所述方法包括:获取待处理的保函文件电子件,提取所述待处理的保函文件电子件的初始要素信息;将所述文本信息输入预先训练的关键要素判别模型,获得关键要素信息;将获得的所述关键要素信息作为查询信息,在预先构建的保函文本数据库中进行查询,以获得与所述关键要素信息匹配的目标匹配模板;将所述关键要素信息与所述目标匹配模板进行组合,获取目标验证文件;以及比较所述目标验证文件与所述待处理的保函文件电子件,以进行真实性验证,获取验证结果。
Description
技术领域
本发明涉及大数据技术领域和人工智能技术领域,更具体地涉及一种保函文件电子件的验真方法、装置、电子设备和介质。
背景技术
随着现代金融科技的不断进步,电子化交易方式逐渐取代了传统的交易模式,其中电子保函业务作为近年来的新兴业务模式,日益受到市场的关注与青睐。但与此同时,如何确保电子交易的真实性和安全性成为了业内急需解决的问题。
在国内的电子保函业务中,担保交易的真实性核验环节至关重要。传统上,受益人需要对客户提供的电子保函原本或纸质保函副本进行真实性验证,以确保后续交易的真实可靠。但在现实操作中,这种方式可能存在多种潜在风险,例如受益人可能因为不熟悉关键业务要素或者对部分条款信息进行修改,导致对伪造或变更的电子保函误认为是真实的情况。
为了应对上述问题,各大金融或担保机构提供了专门的验真功能网页,要求相关人员录入业务关键要素,并通过数据库匹配确保信息的完整一致。然而,这种方法过于依赖客户录入的准确度,往往因为一些小的录入错误(如全角与半角输入不统一)而导致错误的验真提示,增加了业务操作的复杂度和风险。
发明内容
鉴于上述问题,根据本发明的第一方面,提供了一种保函文件电子件的验真方法,其特征在于,所述方法包括:获取待处理的保函文件电子件,提取所述待处理的保函文件电子件的初始要素信息,其中,所述初始要素信息包括待处理的保函文件电子件中的文本信息和位置信息;将所述文本信息输入预先训练的关键要素判别模型,获得关键要素信息,其中,所述关键要素信息为用于表征保函要素的信息;将获得的所述关键要素信息作为查询信息,在预先构建的保函文本数据库中进行查询,以获得与所述关键要素信息匹配的目标匹配模板;将所述关键要素信息与所述目标匹配模板进行组合,获取目标验证文件;以及比较所述目标验证文件与所述待处理的保函文件电子件,以进行真实性验证,获取验证结果。
根据一些示例性实施例,基于深度学习模型预先训练所述关键要素判别模型,其中,所述关键要素判别模型的训练数据包括将所述保函文本数据库中的文本随机拆分获得的短语,所述保函文本数据库基于数据源的保函文本模板构建。
根据一些示例性实施例,所述关键要素判别模型输出文本信息类别和文本置信度,在所述获得关键要素信息之前,所述方法还包括:基于所述文本信息类别和所述文本置信度,对所述初始要素信息进行筛选,获得所述关键要素信息。
根据一些示例性实施例,所述将获得的所述关键要素信息作为查询信息,在预先构建的保函文本数据库中进行查询,以获得与所述关键要素信息匹配的目标匹配模板,具体包括:构建查询语句,所述查询语句指定所述关键要素信息的匹配条件;将所述查询语句在所述保函文本数据库中运行,获得包括多个匹配模板的查询结果;基于所述查询结果,将匹配模板进行排序;以及基于排序的结果,获取目标匹配模板。
根据一些示例性实施例,所述基于所述查询结果,将匹配模板排序,具体包括:基于所述关键要素信息的出现频率计算匹配度;以及基于所述匹配度将所述匹配模板按照从高到低的顺序进行排序。
根据一些示例性实施例,所述获取待处理的保函文件电子件,提取所述待处理的保函文件电子件的初始要素信息,具体包括:对所述待处理的保函文件电子件进行预处理,获取预处理图像;基于Tesseract引擎,识别所述预处理图像,获取包括所述文本信息和位置信息的层次化光学字符识别文件;以及解析所述层次化光学字符识别文件,获取所述文本信息和位置信息。
根据一些示例性实施例,所述比较所述目标验证文件与所述待处理的保函文件电子件,以进行真实性验证,获取验证结果,具体包括:利用哈希算法,计算所述目标验证文件的目标哈希值;计算所述待处理的保函文件电子件的原始哈希值;以及比较所述目标哈希值和所述原始哈希值,获取验证结果。
根据一些示例性实施例,若所述验证结果为不通过,则重新获取所述关键要素信息、目标匹配模板、目标验证文件和验证结果,直到所述验证结果为通过或达到预设的迭代次数。
根据一些示例性实施例,所述方法还包括利用预先训练的文本模板匹配模型获取目标匹配模板,具体包括:将获得的所述关键要素信息进行特征提取,获取关键要素特征;将所述关键要素特征输入文本模板匹配模型,输出类别预测概率,其中,所述文本模板匹配模型的训练数据集包括文本模板的文本数据、位置数据以及对应匹配模板的标注,所述文本模板是从保函文本数据库中获取的;以及基于所述类别预测概率的分布,确定具有最高概率的文本模板作为所述关键要素信息对应的目标匹配模板。
根据本发明的第二方面,提出了一种保函文件电子件的验真装置,所述装置包括:初始要素信息提取模块,用于:获取待处理的保函文件电子件,提取所述待处理的保函文件电子件的初始要素信息,其中,所述初始要素信息包括待处理的保函文件电子件中的文本信息和位置信息;关键要素信息获取模块,用于:将所述文本信息输入预先训练的关键要素判别模型,获得关键要素信息,其中,所述关键要素信息为用于表征保函要素的信息;目标匹配模板获取模块,用于:将获得的所述关键要素信息作为查询信息,在预先构建的保函文本数据库中进行查询,以获得与所述关键要素信息匹配的目标匹配模板;目标验证文件获取模块,用于:将所述关键要素信息与所述目标匹配模板进行组合,获取目标验证文件;以及验证结果获取模块,用于:比较所述目标验证文件与所述待处理的保函文件电子件,以进行真实性验证,获取验证结果。
根据一些示例性实施例,所述初始要素信息提取模块可以包括预处理单元、层次化光学字符识别文件获取单元和解析单元。
根据一些示例性实施例,所述预处理单元可以用于对所述待处理的保函文件电子件进行预处理,获取预处理图像。
根据一些示例性实施例,所述层次化光学字符识别文件获取单元可以用于基于Tesseract引擎,识别所述预处理图像,获取包括所述文本信息和位置信息的层次化光学字符识别文件。
根据一些示例性实施例,所述解析单元可以用于解析所述层次化光学字符识别文件,获取所述文本信息和位置信息。
根据一些示例性实施例,所述关键要素信息获取模块可以包括训练模块和关键要素信息获取模块。
根据一些示例性实施例,所述训练模块可以用于基于深度学习模型预先训练所述关键要素判别模型,其中,所述关键要素判别模型的训练数据包括将所述保函文本数据库中的文本随机拆分获得的短语,所述保函文本数据库基于各个数据源的保函文本模板构建。
根据一些示例性实施例,所述关键要素信息获取模块可以包括输出单元和关键要素信息获得单元。
根据一些示例性实施例,所述输出单元可以用于所述关键要素判别模型输出文本信息类别和文本置信度。
根据一些示例性实施例,所述关键要素信息获得单元可以用于基于所述文本信息类别和文本置信度,对所述初始要素信息进行筛选,获得所述关键要素信息。
根据一些示例性实施例,所述目标匹配模板获取模块可以包括匹配条件指定单元、查询结果获取单元、排序模块和目标匹配模板获取单元。
根据一些示例性实施例,所述匹配条件指定单元可以用于构建查询语句,所述查询语句指定所述关键要素信息的匹配条件。
根据一些示例性实施例,所述查询结果获取单元可以用于将所述查询语句在所述保函文本数据库中运行,获得包括多个匹配模板的查询结果。
根据一些示例性实施例,所述排序模块可以用于基于所述查询结果,将匹配模板进行排序。
根据一些示例性实施例,所述目标匹配模板获取单元可以用于基于排序的结果,获取目标匹配模板。
根据一些示例性实施例,所述排序模块可以包括匹配度计算单元和排序单元。
根据一些示例性实施例,所述匹配度计算单元可以用于基于所述关键要素信息的出现频率计算匹配度。
根据一些示例性实施例,所述排序单元可以用于基于所述匹配度将所述匹配模板按照从高到低的顺序进行排序。
根据一些示例性实施例,所述保函文件电子件的验真装置还可以包括目标匹配模板获取模块,所述目标匹配模板获取模块可以用于利用预先训练的文本模板匹配模型获取目标匹配模板。
根据一些示例性实施例,所述目标匹配模板获取模块可以包括特征提取单元、类别预测概率输出单元和模板获取单元。
根据一些示例性实施例,所述特征提取单元可以用于将获得的所述关键要素信息进行特征提取,获取关键要素特征。
根据一些示例性实施例,所述类别预测概率输出单元可以用于将所述关键要素特征输入文本模板匹配模型,输出类别预测概率,其中,所述文本模板匹配模型的训练数据集包括文本模板的文本数据、位置数据以及对应的标注,所述文本模板是从保函文本数据库中获取的。
根据一些示例性实施例,所述模板获取单元可以用于基于所述类别预测概率的分布,确定具有最高概率的文本模板作为所述关键要素信息对应的目标匹配模板。
根据一些示例性实施例,所述验证结果获取模块可以包括目标哈希值计算单元、原始哈希值计算单元和验证结果获取单元。
根据一些示例性实施例,所述目标哈希值计算单元可以用于利用哈希算法计算所述目标验证文件的目标哈希值。
根据一些示例性实施例,所述原始哈希值计算单元可以用于获取待处理的保函文件电子件对应的原始文件,计算所述原始文件的原始哈希值。
根据一些示例性实施例,所述验证结果获取单元可以用于比较所述目标哈希值和所述原始哈希值,获取验证结果。
根据一些示例性实施例,所述保函文件电子件的验真装置还可以包括验证结果处理模块。
根据一些示例性实施例,所述验证结果处理模块可以用于若所述验证结果为不通过,则重新获取所述关键要素信息、目标匹配模板、目标验证文件和验证结果,直到所述验证结果为通过或达到预设的迭代次数。
根据本发明的第三方面,提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上所述的方法。
根据本发明的第四方面,提供一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行如上所述的方法。
根据本发明的第五方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上所述的方法。
上述一个或多个实施例具有如下优点或有益效果:根据本发明提供的保函文件电子件的验真方法,结合了计算机视觉、自然语言处理和哈希算法等技术,能够自动提取、比对、验证关键信息,减少了人工干预的需要,提高了处理效率,该自动化的方法可以减轻人工处理的负担,提升了计算效率,加速了文件验证的过程;同时,人工处理容易出现疏忽和错误,而自动化方法通过严格的算法和比对,可以降低因人为因素引起的错误,从而可以减轻人工处理的负担,提高了用户体验。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本发明实施例的保函文件电子件的验真方法、装置、设备、介质的应用场景图。
图2示意性示出了根据本发明实施例的保函文件电子件的验真方法的流程图。
图3示意性示出了提取待处理的保函文件电子件的初始要素信息的方法的流程图。
图4示意性示出了根据本发明实施例的预先训练关键要素判别模型的方法的流程图。
图5示意性示出了根据本发明实施例的获得关键要素信息的方法的流程图。
图6示意性示出了根据本发明实施例的利用查询语言获得目标匹配模板的方法的流程图。
图7示意性示出了根据本发明实施例的利用匹配度将匹配模板排序的方法的流程图。
图8示意性示出了根据本发明实施例的通过文本模板匹配模型获取目标匹配模板的方法的流程图。
图9示意性示出了根据本发明实施例的真实性验证的方法的流程图。
图10示意性示出了根据本发明实施例的验证结果为不通过处理的方法的流程图。
图11示意性示出了根据本发明实施例的保函文件电子件的验真装置的结构框图。
图12示意性示出了根据本发明实施例的适于保函文件电子件的验真方法的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本发明的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本发明的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本发明实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本发明。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
在本发明的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
首先,对本文中记载的技术术语作如下解释和说明。
光学字符识别(OCR,Optical Character Recognition):一种将图片、手写文档或印刷文档转换为机器可读文本的技术。这使得文档的数字化和进一步处理(例如,文本搜索、编辑或存档)变得可能。OCR技术在多个领域中都有广泛的应用,包括但不限于扫描文档、处理发票、识别车牌、自动化数据输入等。OCR技术首先对输入的图像进行预处理,如去噪、二值化和倾斜校正。接着,它会分割文本区域和行,然后进一步将行分割为单个字符。最后,通过与预先定义的字符模板进行匹配或使用机器学习模型,它会识别每个字符。
Tesseract是一个开源的光学字符识别(OCR)引擎,最初由HP公司在1980年代中期至1990年代初开发,后由Google进行维护和更新。它能够识别多种格式的图像文件并将其转换为各种语言的文本。
哈希算法:一种将任意长度的输入数据(通常称为“消息”)转化为固定长度字符串的方法,这个输出通常称为“哈希值”或“摘要”。哈希值通常用于快速数据检索、数据完整性检验、密码学应用等。
随着现代金融业务的日益复杂化,如何确保交易的真实性和安全性已经成为业界亟待解决的问题。电子保函作为国内金融交易中的一个重要环节,其真实性和可靠性直接关系到整个担保交易的稳定性和公信力。但在实际的业务流程中,验证电子保函的真实性依然面临诸多挑战。
国内电子保函业务中,担保交易中受益人需要对客户提供的电子保函原本,或者纸质保函副本进行验真以确保后续交易的真实可靠,为了提升业务处理流程,可通过OCR等技术提取保函影像内容,并通过一些签名技术实现业务真实性和防篡改的验证。
在传统的验证流程中,受益人通常需要对客户提供的电子保函原本或纸质保函副本进行人工验真。此过程既费时费力,又可能因为人为失误导致验证结果的不准确。此外,当前的电子保函验证主要依赖于金融或担保机构提供的专门验真功能网页。在这一过程中,相关人员需要手工录入保函文件中的关键要素,如全角半角、特定条款等,然后与数据库中的信息进行完全匹配以验证真实性。这种方法存在两大问题:首先,其验证效果高度依赖于客户录入的准确性,任何微小的录入错误,例如全角半角之间的差异,都可能导致误判。其次,对于那些只修改了部分条款信息的保函,这种验证方法可能会误认为其是真实的,从而带来潜在的风险。
基于此,本发明的实施例提供一种保函文件电子件的验真方法,其特征在于,所述方法包括:获取待处理的保函文件电子件,提取所述待处理的保函文件电子件的初始要素信息,其中,所述初始要素信息包括待处理的保函文件电子件中的文本信息和位置信息;将所述文本信息输入预先训练的关键要素判别模型,获得关键要素信息,其中,所述关键要素信息为用于表征保函要素的信息;将获得的所述关键要素信息作为查询信息,在预先构建的保函文本数据库中进行查询,以获得与所述关键要素信息匹配的目标匹配模板;将所述关键要素信息与所述目标匹配模板进行组合,获取目标验证文件;以及比较所述目标验证文件与所述待处理的保函文件电子件,以进行真实性验证,获取验证结果。根据本发明提供的保函文件电子件的验真方法,结合了计算机视觉、自然语言处理等技术,能够自动提取、比对、验证关键信息,减少了人工干预的需要,提高了处理效率,该自动化的方法可以减轻人工处理的负担,提升了计算效率,加速了文件验证的过程;同时,人工处理容易出现疏忽和错误,而自动化方法通过严格的算法和比对,可以降低因人为因素引起的错误,从而可以减轻人工处理的负担,提高了用户体验。
需要说明的是,本发明确定的保函文件电子件的验真方法、装置、设备和介质可用于大数据技术领域和人工智能技术领域,也可用于金融领域,还可以用于除大数据技术领域和人工智能技术领域以及金融领域之外的多种领域。本发明的实施例提供的保函文件电子件的验真方法、装置、设备和介质的应用领域不做限定。
在本发明的技术方案中,所涉及的用户信息(包括但不限于用户个人信息、用户图像信息、用户设备信息,例如位置信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、存储、使用、加工、传输、提供、公开和应用等处理,均遵守相关国家和地区的相关法律法规和标准,采取了必要保密措施,不违背公序良俗,并提供有相应的操作入口,供用户选择授权或者拒绝。
图1示意性示出了根据本发明实施例的保函文件电子件的验真方法、装置、设备、介质的应用场景图。
如图1所示,根据该实施例的应用场景100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本发明实施例所提供的保函文件电子件的验真方法一般可以由服务器105执行。相应地,本发明实施例所提供的保函文件电子件的验真装置一般可以设置于服务器105中。本发明实施例所提供的保函文件电子件的验真方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本发明实施例所提供的保函文件电子件的验真装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2示意性示出了根据本发明实施例的保函文件电子件的验真方法的流程图。
如图2所示,该实施例的保函文件电子件的验真方法200可以包括操作S210~操作S250。
在操作S210,获取待处理的保函文件电子件,提取所述待处理的保函文件电子件的初始要素信息,其中,所述初始要素信息包括待处理的保函文件电子件中的文本信息和位置信息。
在本发明的实施例中,待处理的保函文件电子件可以为电子保函文件,也可以是纸质保函文件的扫描件。
根据本发明的实施例,为了有助于后续的处理、生成验证文件和真实性验证,需要提取待处理的保函文件电子件的初始要素信息。
图3示意性示出了提取待处理的保函文件电子件的初始要素信息的方法的流程图。
如图3所示,该实施例的提取待处理的保函文件电子件的初始要素信息的方法可以包括操作S310~S330,该操作S310~S330至少能够部分执行上述操作S210。
在操作S310,对所述待处理的保函文件电子件进行预处理,获取预处理图像。
在本发明的实施例中,可以将待处理的保函文件电子件先转化为图像并进行预处理,具体地,可以包括:图像去噪,去除图像中的噪声,以提高字符识别的准确性;图像增强,调整图像的亮度、对比度等,以提高字符的可见性;图像裁剪,根据需要,可以裁剪图像以保留感兴趣的区域;图像旋转矫正,将图像中的文字区域矫正为水平或垂直方向,以确保字符识别的正确性。
在操作S320,基于Tesseract引擎,识别所述预处理图像,获取包括所述文本信息和位置信息的层次化光学字符识别文件。
在本发明的实施例中,可以将预处理后的图像作为输入提供给Tesseract引擎,Tesseract引擎会对图像中的字符进行识别,尝试将字符转换为文本。
在本发明的实施例中,层次化光学字符识别(hOCR,可识别的HTML)文件是一种用于存储OCR结果的格式,其中包括了识别出的文本信息以及字符在图像中的位置信息,这个文件格式通常是基于HTML的,其中包含了文本内容以及与文本关联的位置信息。其中,它使用HTML标签和结构来组织文本和位置信息,因此,文件可以在浏览器中渲染,同时也可以从中提取数据。hOCR文件中的主要部分是识别出的文本信息,每个识别出的文本片段通常被放置在一个`<span>`标签内,并包含识别的文本内容;同时,hOCR文件中的`title`属性通常包含有关识别文本位置的信息,如`bbox`(边界框)值。具体地,`bbox`值表示字符或单词的边界框坐标,格式为左上角X、左上角Y、右下角X和右下角Y。
在操作S330,解析所述层次化光学字符识别文件,获取所述文本信息和位置信息。
在本发明的实施例中,可以通过将hOCR文件加载到适当的文本编辑器或程序中解析文本信息和位置信息。具体地,在hOCR文件中,识别出的文本信息通常位于<span>标签内,并具有特定的类别或标识符,如class=′ocrx_word′。通过解析这些标签,可以提取出识别的文本内容;每个识别出的文本片段通常在title属性中包含位置信息,如上述字符或单词的边界框坐标(bbox)。这些信息可以通过解析属性值来提取,例如title=′bbox 1020 100 30′中的坐标值。
在本发明的实施例中,提取后的文本信息和位置信息需要进行适当的处理和组织,以便后续使用。其中,可以将文本和位置信息配对,以构建一个数据结构,将文本内容与其在图像中的位置相关联。
返回参照图2,在操作S220,将所述文本信息输入预先训练的关键要素判别模型,获得关键要素信息,其中,所述关键要素信息为用于表征保函要素的信息。
在本发明的实施例中,关键要素信息是从保函文件中提取出的独特性信息,用于表征保函中的核心,也即保函要素。保函要素是保函的关键特征,可以用来识别、验证和比较不同保函,可以包括以下方面:要素类型,保函要素通常包括保函中的不同类型的要素,如题目、受益人、发出方、有效期等,每个要素类型都有其特定的意义和重要性;每个要素类型的具体内容,例如,题目要素可能包括保函的担保类型,受益人要素可能包括受益人的名称等。因此,每个保函要素都有其独特的语义含义,它们对于理解保函的内容和属性非常重要,这些信息可以用于验证保函的真实性,以及在后续步骤中进行匹配和比较。
图4示意性示出了根据本发明实施例的预先训练关键要素判别模型的方法的流程图。
如图4所示,该实施例的预先训练关键要素判别模型的方法可以包括操作S410,该操作S410至少能够部分执行上述操作S220。
在操作S410,基于深度学习模型预先训练所述关键要素判别模型,其中,所述关键要素判别模型的训练数据包括将所述保函文本数据库中的文本随机拆分获得的短语,所述保函文本数据库基于各个数据源的保函文本模板构建。
在本发明的实施例中,保函文本数据库由来自不同数据源的保函文本模板组成,涵盖了各种可能的保函样式和格式。数据源是构建保函文本数据库的基础,它可以来自多个渠道,如银行内部生成的保函、公共文档、合同数据库等。每个数据源可能具有不同的文本样式、格式和特点,因此从多个数据源收集样本可以增加模型的泛化能力。
在本发明的实施例中,训练数据是通过将保函文本数据库中的文本随机拆分成短语来生成的。这些短语可能是单词、短句或者更长的文本片段。从这些生成的短语中,需要人工或自动标注出关键要素。这意味着将短语中与保函要素相关的部分标记出来,如题目、受益人等。标注关键要素后,将标注的短语与其对应的要素类型一起组合,形成一个训练集。每个训练样本包含一段文本和其标注的关键要素。
在本发明的实施例中,在深度学习领域,常用的模型如循环神经网络(RNN)、卷积神经网络(CNN)或者Transformer等。选择适当的模型结构,然后使用训练集对模型进行训练。训练过程中,模型通过学习输入文本与标注的关键要素之间的关联关系来优化模型参数。训练过程中,可以使用验证集对模型进行验证,以避免过拟合。如果模型在验证集上表现不佳,可以调整超参数或模型结构,然后重新训练。训练完成后,使用测试集对模型进行评估,以了解模型在未见过的数据上的表现。评估指标可以包括准确率、召回率等。进一步地,还可以根据业务量的增长不断扩展训练集,以提升关键要素识别准确度。
图5示意性示出了根据本发明实施例的获得关键要素信息的方法的流程图。
如图5所示,该实施例的获得所述关键要素信息的方法可以包括操作S510~S520,该操作S510~S520至少可以部分执行上述操作S220。
在操作S510,获取所述关键要素判别模型输出文本信息类别和文本置信度。
在本发明的实施例中,关键要素判别模型的输出是针对输入的文本信息进行的预测。模型会对文本中的不同部分进行分类,以确定它们是否属于关键要素,每个文本部分都会被分配到某个类别,代表了它可能是某种关键要素的候选。
在本发明的实施例中,模型输出的文本信息类别表示每个文本部分被预测为属于哪个关键要素类别。例如,一个文本部分可能被预测为“题目”类别,另一个可能被预测为“受益人”类别;同时,每个预测还伴随着一个文本置信度,表示模型对于该预测的置信程度,如果置信度高于预设的阈值则为是,如果为否则废弃该关键要素。例如对于原始文本“XXXXXXX(受益人):”,Tesseract引擎的识别的结果为“XXXXXXX(受益人):”,坐标信息为文本左上侧且有关键字受益人/招标人/甲方等,置信度高于阈值,那么大概率关键要素为“受益人:XXXXXXX”;原始文本“履约保函”及坐标信息为顶层居中位置,大概率关键要素为“担保类型:履约保函”等等。
在操作S520,基于所述文本信息类别和文本置信度,对所述初始要素信息进行筛选,获得所述关键要素信息。
在本发明的实施例中,基于文本信息类别和文本置信度,可以对初始要素信息进行筛选,以获得关键要素信息。这个筛选过程可以具体涉及以下步骤:
1.分类筛选:首先,将模型输出中预测为关键要素类别的文本部分筛选出来。例如,只选择被预测为“题目”、“受益人”等关键要素类别的文本部分;
2.置信度筛选:接下来,可以基于文本置信度进行筛选。其中,只保留那些置信度高于阈值的文本部分,这有助于排除模型认为不太可靠的预测;
3.整合关键要素信息:最后,从经过分类和置信度筛选的文本部分中提取出关键要素信息。这些信息可以被整合成一个结构化的格式,以表示从输入文本中识别出的关键要素。
返回参照图2,在操作S230,将获得的所述关键要素信息作为查询信息,在预先构建的保函文本数据库中进行查询,以获得与所述关键要素信息匹配的目标匹配模板。
图6示意性示出了根据本发明实施例的利用查询语言获得目标匹配模板的方法的流程图。
如图6所示,该实施例的利用查询语言获得目标匹配模板的方法可以包括操作S610~操作S640,该操作S610~操作S640至少可以部分执行上述操作S230。
在操作S610,构建查询语句,所述查询语句指定所述关键要素信息的匹配条件。
在本发明的实施例中,可以根据所获得的关键要素信息,构建一个查询语句。查询语句的目的是指定匹配条件,使数据库能够根据这些条件找到与关键要素信息匹配的模板。查询语句可以包括以下内容:关键要素类型,将关键要素信息的类型作为查询条件;关键要素值,将关键要素信息的具体值作为查询条件,以确保模板中的相应部分与之匹配。
在操作S620,将所述查询语句在所述保函文本数据库中运行,获得包括多个匹配模板的查询结果。
在本发明的实施例中,可以将构建好的查询语句输入到保函文本数据库中,执行查询操作。保函文本数据库中可以包括关键要素信息与模板的映射关系或关键字索引,数据库将根据查询语句中的匹配条件搜索匹配的模板。查询结果可能包括多个匹配模板,这些模板在不同程度上与查询语句中的关键要素信息匹配。
在操作S630,基于所述查询结果,将匹配模板进行排序。
在本发明的实施例中,基于查询结果,可以对匹配模板进行排序。排序的目的是确定哪些匹配模板更适合作为目标匹配模板。排序可以涉及匹配程度或置信度,即可以根据查询语句中的关键要素信息与模板的匹配程度,对模板进行排序,匹配程度更高的模板可能更适合作为目标匹配模板;以及,如果查询结果包含文本置信度等信息,可以使用这些信息来帮助排序,置信度较高的模板可能更可靠。
图7示意性示出了根据本发明实施例的利用匹配度将匹配模板排序的方法的流程图。
如图7所示,该实施例的利用匹配度将匹配模板排序的方法可以包括操作S710~S720,该操作S710~S720至少可以部分执行上述操作S530。
在操作S710,基于所述关键要素信息的出现频率计算匹配度。
在本发明的实施例中,可以使用关键要素信息的出现频率来计算匹配度,即多个不同的关键要素信息出现在同一模板的频率。关键要素信息的出现频率可以反映模板中与之匹配的文本部分在整个模板中的重要程度。通常情况下,关键要素在模板中出现的频率越高,则与该模板的匹配度就越高。
在操作S720,基于所述匹配度将所述匹配模板按照从高到低的顺序进行排序。
返回参照图6,在操作S640,基于排序的结果,获取目标匹配模板。
在本发明的实施例中,根据排序的结果,从排序好的模板列表中选择最适合的目标匹配模板。如果模板按照匹配度从高到低排序,则可以选择排在第一位的模板作为目标匹配模板,该模板将用于后续的信息组合和生成验证文件的过程。
此外,可替换地,操作S230还可以通过预先训练的文本模板匹配模型来实现。具体地,基于历史业务数据或人工采集的方式收集足够多所处领域里合法的文本,使用统计学习或深度学习等技术,训练模型,训练过程的数据样本应该包括文本以及相应的标注或标签,用于指示文本属于哪个模板。文本模板匹配模型的输入是关键要素信息中的短语及相对坐标,输出一个预测的分类结果。
图8示意性示出了根据本发明实施例的通过文本模板匹配模型获取目标匹配模板的方法的流程图。
如图8所示,该实施例的通过文本模板匹配模型获取目标匹配模板的方法可以包括操作S810~S830。
在操作S810,将获得的所述关键要素信息进行特征提取,获取关键要素特征。
在操作S820,将所述关键要素特征输入预先训练的文本模板匹配模型,输出类别预测概率,其中,所述文本模板匹配模型的训练数据集包括文本模板的文本数据、位置数据以及对应匹配模板的标注,所述文本模板是从保函文本数据库中获取的。
在操作S830,基于所述类别预测概率的分布,确定具有最高概率的文本模板作为所述关键要素信息对应的目标匹配模板。
返回参照图2,在操作S240,将所述关键要素信息与所述目标匹配模板进行组合,获取目标验证文件。
在本发明的实施例中,需要将之前从保函文件中提取的关键要素信息与选定的目标匹配模板进行结合。具体地,在目标匹配模板中,定位到相应的位置,将关键要素信息插入或替换到合适的文本位置。例如,将日期信息插入到模板中的日期字段,将受益人信息插入到受益人字段,依此类推;将关键要素信息插入或替换到目标匹配模板后,生成一个新的文本文件,这个文件就是目标验证文件。这个文件将包含了保函的完整文本内容,其中的关键要素信息已经根据模板被正确地填入。
在操作S250,比较所述目标验证文件与所述待处理的保函文件电子件,以进行真实性验证,获取验证结果。
在本发明的实施例中,将生成的目标验证文件与原始的待处理的保函文件电子件进行对比,以进行真实性验证。具体地,可以基于比较的结果,如果目标验证文件与原始文件在内容、格式、关键要素上高度一致,那么可以认为这个文件是真实的。如果存在明显的差异,可能需要进一步的验证步骤来确认文件的真实性。
图9示意性示出了根据本发明实施例的真实性验证的方法的流程图。
如图9所示,该实施例的获取验证结果的方法可以包括操作S910~S930。
在操作S910,利用哈希算法计算所述目标验证文件的目标哈希值。
在本发明的实施例中,可以将目标验证文件作为输入,使用哈希算法(如SHA-256)对文件的内容进行计算,生成目标哈希值。哈希值是一个固定长度的字符串,它是根据文件内容计算得出的独特标识,即使文件内容有微小的改变,哈希值也会发生显著变化。
在操作S920,获取待处理的保函文件电子件对应的原始文件,计算所述原始文件的原始哈希值。
在本发明的实施例中,使用相同的哈希算法,对待处理的保函文件电子件对应的原始文件的内容进行计算,生成原始哈希值,这个哈希值表示原始文件的内容状态。
在操作S930,比较所述目标哈希值和所述原始哈希值,获取验证结果。
在本发明的实施例中,将目标哈希值和原始哈希值进行比较。如果两者相等,意味着目标验证文件的内容与原始文件的内容一致,没有被篡改。如果两者不相等,说明文件内容发生了改变,可能存在篡改或其他问题。
在本发明的实施例中,上述比较操作的结果可以生成一个验证标志或验证报告,指示验证是否通过。如果目标哈希值和原始哈希值相等,说明文件内容没有发生改变,验证通过,文件的完整性得到保证;如果不相等,验证可能失败,文件的完整性可能受到威胁。
此外,为了进一步避免遗漏、优化处理步骤,以提高验证的准确性和可信度,本发明的实施例还包括当验证结果为不通过处理的方法。
图10示意性示出了根据本发明实施例的验证结果为不通过处理的方法的流程图。
如图10所示,该实施例的验证结果为不通过处理的方法可以包括操作S1010。
在操作S1010,若所述验证结果为不通过,则重新获取所述关键要素信息、目标匹配模板、目标验证文件和验证结果,直到所述验证结果为通过或达到预设的迭代次数。
在本发明的实施例中,如果目标哈希值与原始哈希值不相等,即验证结果不通过,意味着目标验证文件的内容与原始文件的内容不匹配,可能存在篡改或其他问题。为了进一步避免遗漏,需要在验证结果不通过的情况下,采取反复迭代的方法,以尝试重新获取准确的关键要素信息、目标匹配模板、目标验证文件,直到验证结果通过或达到预设的迭代次数。
在本发明的实施例中,如果在预设的迭代次数内,成功获得了验证通过的结果,即目标哈希值与原始哈希值匹配,那么可以确认文件的完整性和真实性。如果达到了预设的迭代次数但仍未通过验证,可能需要进一步审查和决策。
根据本发明提供的保函文件电子件的验真方法,结合了计算机视觉、自然语言处理和哈希算法等技术,能够自动提取、比对、验证关键信息,减少了人工干预的需要,提高了处理效率,该自动化的方法可以减轻人工处理的负担,提升了计算效率,加速了文件验证的过程;同时,人工处理容易出现疏忽和错误,而自动化方法通过严格的算法和比对,可以降低因人为因素引起的错误,从而可以减轻人工处理的负担,提高了用户体验。具体地,带来以下有益效果:
1.自动化验证:利用计算机处理和分析,实现了对保函文件电子件的自动化验证,这大大减少了人工操作的需求,减少客户手工录入的工作量,降低使用成本,并提高了验证的效率和准确性;
2.完整性验证:通过哈希算法,能够验证文件的完整性,确保目标验证文件是否与原始文件内容保持一致,避免了文件篡改或损坏可能带来的问题;
3.高准确性:在关键要素信息提取、匹配模板生成等步骤中,通过深度学习模型和数据库查询等方式提高了信息提取和匹配的准确性,避免人工处理出现的疏忽和错误;
4.快速验证:自动化的流程以及深度学习模型的应用,使得整个验证过程能够在较短的时间内完成,快速给出验证结果;同时,哈希算法能够迅速计算出固定长度的哈希值,无论文件大小如何,这使得能够在短时间内验证文件的完整性,尤其是大型文件;
5.自动修正和迭代:在验证不通过时,能够自动尝试重新获取关键要素信息和生成匹配模板,通过迭代的方式不断尝试,减少了出现遗漏的可能性;
6.用户体验改进:用户无需手动检查和验证文件的真实性,减少了繁琐的操作步骤,提升了用户体验。同时,自动化和迭代的特性也降低了用户的操作负担;
7.灵活性:可以适应不同种类和样式的保函文件电子件,只需要适配相应的关键要素判别模型和匹配模板库。
基于上述保函文件电子件的验真方法,本发明还提供了一种保函文件电子件的验真装置。以下将结合图11对该装置进行详细描述。
图11示意性示出了根据本发明实施例的保函文件影像的验真装置的结构框图。
如图11所示,根据该实施例的保函文件影像的验真装置1100包括初始要素信息提取模块1110、关键要素信息获取模块1120、目标匹配模板获取模块1130、目标验证文件获取模块1140和验证结果获取模块1150。
所述初始要素信息提取模块1110可以用于获取待处理的保函文件电子件,提取所述待处理的保函文件电子件的初始要素信息,其中,所述初始要素信息包括待处理的保函文件电子件中的文本信息和位置信息。在一实施例中,所述初始要素信息提取模块1110可以用于执行前文描述的操作S210,在此不再赘述。
所述关键要素信息获取模块1120可以用于将所述文本信息输入预先训练的关键要素判别模型,获得关键要素信息,其中,所述关键要素信息为用于表征保函要素的信息。在一实施例中,所述关键要素信息获取模块1120可以用于执行前文描述的操作S220,在此不再赘述。
所述目标匹配模板获取模块1130可以用于将获得的所述关键要素信息作为查询信息,在预先构建的保函文本数据库中进行查询,以获得与所述关键要素信息匹配的目标匹配模板。在一实施例中,所述目标匹配模板获取模块1130可以用于执行前文描述的操作S230,在此不再赘述。
所述目标验证文件获取模块1140可以用于将所述关键要素信息与所述目标匹配模板进行组合,获取目标验证文件。在一实施例中,所述目标验证文件获取模块1140可以用于执行前文描述的操作S240,在此不再赘述。
所述验证结果获取模块1150可以用于比较所述目标验证文件与所述待处理的保函文件电子件,以进行真实性验证,获取验证结果。在一实施例中,所述验证结果获取模块1150可以用于执行前文描述的操作S250,在此不再赘述。
根据本发明的实施例,所述初始要素信息提取模块1110可以包括预处理单元、层次化光学字符识别文件获取单元和解析单元。
所述预处理单元可以用于对所述待处理的保函文件电子件进行预处理,获取预处理图像。在一实施例中,所述预处理单元可以用于执行前文描述的操作S310,在此不再赘述。
所述层次化光学字符识别文件获取单元可以用于基于Tesseract引擎,识别所述预处理图像,获取包括所述文本信息和位置信息的层次化光学字符识别文件。在一实施例中,所述层次化光学字符识别文件获取单元可以用于执行前文描述的操作S320,在此不再赘述。
所述解析单元可以用于解析所述层次化光学字符识别文件,获取所述文本信息和位置信息。在一实施例中,所述解析单元可以用于执行前文描述的操作S330,在此不再赘述。
根据本发明的实施例,所述关键要素信息获取模块1120可以包括训练模块和关键要素信息获取模块。
所述训练模块可以用于基于深度学习模型预先训练所述关键要素判别模型,其中,所述关键要素判别模型的训练数据包括将所述保函文本数据库中的文本随机拆分获得的短语,所述保函文本数据库基于各个数据源的保函文本模板构建。在一实施例中,所述训练模块可以用于执行前文描述的操作S410,在此不再赘述。
根据本发明的实施例,所述关键要素信息获取模块可以包括输出单元和关键要素信息获得单元。
所述输出单元可以用于所述关键要素判别模型输出文本信息类别和文本置信度。在一实施例中,所述输出单元可以用于执行前文描述的操作S510,在此不再赘述。
所述关键要素信息获得单元可以用于基于所述文本信息类别和文本置信度,对所述初始要素信息进行筛选,获得所述关键要素信息。在一实施例中,所述关键要素信息获得单元可以用于执行前文描述的操作S520,在此不再赘述。
根据本发明的实施例,所述目标匹配模板获取模块1130可以包括匹配条件指定单元、查询结果获取单元、排序模块和目标匹配模板获取单元。
所述匹配条件指定单元可以用于构建查询语句,所述查询语句指定所述关键要素信息的匹配条件。在一实施例中,所述匹配条件指定单元可以用于执行前文描述的操作S610,在此不再赘述。
所述查询结果获取单元可以用于将所述查询语句在所述保函文本数据库中运行,获得包括多个匹配模板的查询结果。在一实施例中,所述查询结果获取单元可以用于执行前文描述的操作S620,在此不再赘述。
所述排序模块可以用于基于所述查询结果,将匹配模板进行排序。在一实施例中,所述排序模块可以用于执行前文描述的操作S630,在此不再赘述。
所述目标匹配模板获取单元可以用于基于排序的结果,获取目标匹配模板。在一实施例中,所述目标匹配模板获取单元可以用于执行前文描述的操作S640,在此不再赘述。
根据本发明实施例,所述排序模块可以包括匹配度计算单元和排序单元。
所述匹配度计算单元可以用于基于所述关键要素信息的出现频率计算匹配度。在一实施例中,所述匹配度计算单元可以用于执行前文描述的操作S710,在此不再赘述。
所述排序单元可以用于基于所述匹配度将所述匹配模板按照从高到低的顺序进行排序。在一实施例中,所述排序单元可以用于执行前文描述的操作S720,在此不再赘述。
根据本发明的实施例,所述保函文件电子件的验真装置1100还可以包括目标匹配模板获取模块1131,所述目标匹配模板获取模块1131可以用于利用预先训练的文本模板匹配模型获取目标匹配模板。在一实施例中,所述目标匹配模板获取模块1131也可以用于执行前文描述的操作S230,在此不再赘述。
根据本发明的实施例,所述目标匹配模板获取模块1131可以包括特征提取单元、类别预测概率输出单元和模板获取单元。
所述特征提取单元可以用于将获得的所述关键要素信息进行特征提取,获取关键要素特征。在一实施例中,所述特征提取单元可以用于执行前文描述的操作S810,在此不再赘述。
所述类别预测概率输出单元可以用于将所述关键要素特征输入文本模板匹配模型,输出类别预测概率,其中,所述文本模板匹配模型的训练数据集包括文本模板的文本数据、位置数据以及对应的标注,所述文本模板是从保函文本数据库中获取的。在一实施例中,所述类别预测概率输出单元可以用于执行前文描述的操作S820,在此不再赘述。
所述模板获取单元可以用于基于所述类别预测概率的分布,确定具有最高概率的文本模板作为所述关键要素信息对应的目标匹配模板。在一实施例中,所述模板获取单元可以用于执行前文描述的操作S830,在此不再赘述。
根据本发明的实施例,所述验证结果获取模块1150可以包括目标哈希值计算单元、原始哈希值计算单元和验证结果获取单元。
所述目标哈希值计算单元可以用于利用哈希算法计算所述目标验证文件的目标哈希值。在一实施例中,所述目标哈希值计算单元可以用于执行前文描述的操作S910,在此不再赘述。
所述原始哈希值计算单元可以用于获取待处理的保函文件电子件对应的原始文件,计算所述原始文件的原始哈希值。在一实施例中,所述原始哈希值计算单元可以用于执行前文描述的操作S920,在此不再赘述。
所述验证结果获取单元可以用于比较所述目标哈希值和所述原始哈希值,获取验证结果。在一实施例中,所述验证结果获取单元可以用于执行前文描述的操作S930,在此不再赘述。
根据本发明的实施例,所述保函文件电子件的验真装置1100还可以包括验证结果处理模块。
所述验证结果处理模块可以用于若所述验证结果为不通过,则重新获取所述关键要素信息、目标匹配模板、目标验证文件和验证结果,直到所述验证结果为通过或达到预设的迭代次数。在一实施例中,所述验证结果处理模块可以用于执行前文描述的操作S1010,在此不再赘述。
根据本发明的实施例,初始要素信息提取模块1110、关键要素信息获取模块1120、目标匹配模板获取模块1130、目标验证文件获取模块1140和验证结果获取模块1150中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,初始要素信息提取模块1110、关键要素信息获取模块1120、目标匹配模板获取模块1130、目标验证文件获取模块1140和验证结果获取模块1150中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,初始要素信息提取模块1110、关键要素信息获取模块1120、目标匹配模板获取模块1130、目标验证文件获取模块1140和验证结果获取模块1150中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图12示意性示出了根据本发明实施例的适于保函文件电子件的验真方法的电子设备的方框图。
如图12所示,根据本发明实施例的电子设备1200包括处理器1201,其可以根据存储在只读存储器(ROM)1202中的程序或者从存储部分1208加载到随机访问存储器(RAM)1203中的程序而执行各种适当的动作和处理。处理器1201例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器1201还可以包括用于缓存用途的板载存储器。处理器1201可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 1203中,存储有电子设备1200操作所需的各种程序和数据。处理器1201、ROM 1202以及RAM 1203通过总线1204彼此相连。处理器1201通过执行ROM 1202和/或RAM1203中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 1202和RAM 1203以外的一个或多个存储器中。处理器1201也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。
根据本发明的实施例,电子设备1200还可以包括输入/输出(I/O)接口1205,输入/输出(I/O)接口1205也连接至总线1204。电子设备1 200还可以包括连接至I/O接口1205的以下部件中的一项或多项:包括键盘、鼠标等的输入部分1206;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1207;包括硬盘等的存储部分1208;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1210上,以便于从其上读出的计算机程序根据需要被安装入存储部分1208。
本发明还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本发明实施例的方法。
根据本发明的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本发明的实施例,计算机可读存储介质可以包括上文描述的ROM 1202和/或RAM 1203和/或ROM 1202和RAM 1203以外的一个或多个存储器。
本发明的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本发明实施例所提供的方法。
在该计算机程序被处理器1201执行时执行本发明实施例的系统/装置中限定的上述功能。根据本发明的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分1209被下载和安装,和/或从可拆卸介质1211被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
在这样的实施例中,该计算机程序可以通过通信部分1209从网络上被下载和安装,和/或从可拆卸介质1211被安装。在该计算机程序被处理器1201执行时,执行本发明实施例的系统中限定的上述功能。根据本发明的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
根据本发明的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上对本发明的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本发明的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。不脱离本发明的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本发明的范围之内。
Claims (13)
1.一种保函文件电子件的验真方法,其特征在于,所述方法包括:
获取待处理的保函文件电子件,提取所述待处理的保函文件电子件的初始要素信息,其中,所述初始要素信息包括待处理的保函文件电子件中的文本信息和位置信息;
将所述文本信息输入预先训练的关键要素判别模型,获得关键要素信息,其中,所述关键要素信息为用于表征保函要素的信息;
将获得的所述关键要素信息作为查询信息,在预先构建的保函文本数据库中进行查询,以获得与所述关键要素信息匹配的目标匹配模板;
将所述关键要素信息与所述目标匹配模板进行组合,获取目标验证文件;以及
比较所述目标验证文件与所述待处理的保函文件电子件,以进行真实性验证,获取验证结果。
2.根据权利要求1所述的方法,其特征在于,基于深度学习模型预先训练所述关键要素判别模型,其中,所述关键要素判别模型的训练数据包括将所述保函文本数据库中的文本随机拆分获得的短语,所述保函文本数据库基于数据源的保函文本模板构建。
3.根据权利要求1或2所述的方法,其特征在于,所述关键要素判别模型输出文本信息类别和文本置信度,在所述获得关键要素信息之前,所述方法还包括:
基于所述文本信息类别和所述文本置信度,对所述初始要素信息进行筛选,获得所述关键要素信息。
4.根据权利要求1所述的方法,其特征在于,所述将获得的所述关键要素信息作为查询信息,在预先构建的保函文本数据库中进行查询,以获得与所述关键要素信息匹配的目标匹配模板,具体包括:
构建查询语句,所述查询语句指定所述关键要素信息的匹配条件;
将所述查询语句在所述保函文本数据库中运行,获得包括多个匹配模板的查询结果;
基于所述查询结果,将匹配模板进行排序;以及
基于排序的结果,获取目标匹配模板。
5.根据权利要求4所述的方法,其特征在于,所述基于所述查询结果,将匹配模板排序,具体包括:
基于所述关键要素信息的出现频率计算匹配度;以及
基于所述匹配度将所述匹配模板按照从高到低的顺序进行排序。
6.根据权利要求1、2、4、5任一项所述的方法,其特征在于,所述获取待处理的保函文件电子件,提取所述待处理的保函文件电子件的初始要素信息,具体包括:
对所述待处理的保函文件电子件进行预处理,获取预处理图像;
基于Tesseract引擎,识别所述预处理图像,获取包括所述文本信息和位置信息的层次化光学字符识别文件;以及
解析所述层次化光学字符识别文件,获取所述文本信息和位置信息。
7.根据权利要求1、2、4、5任一项所述的方法,其特征在于,所述比较所述目标验证文件与所述待处理的保函文件电子件,以进行真实性验证,获取验证结果,具体包括:
利用哈希算法,计算所述目标验证文件的目标哈希值;
计算所述待处理的保函文件电子件的原始哈希值;以及
比较所述目标哈希值和所述原始哈希值,获取验证结果。
8.根据权利要求7所述的方法,其特征在于,若所述验证结果为不通过,则重新获取所述关键要素信息、目标匹配模板、目标验证文件和验证结果,直到所述验证结果为通过或达到预设的迭代次数。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括利用预先训练的文本模板匹配模型获取目标匹配模板,具体包括:
将获得的所述关键要素信息进行特征提取,获取关键要素特征;
将所述关键要素特征输入文本模板匹配模型,输出类别预测概率,其中,所述文本模板匹配模型的训练数据集包括文本模板的文本数据、位置数据以及对应匹配模板的标注,所述文本模板是从保函文本数据库中获取的;以及
基于所述类别预测概率的分布,确定具有最高概率的文本模板作为所述关键要素信息对应的目标匹配模板。
10.一种保函文件影像的验真装置,其特征在于,所述装置包括:
初始要素信息提取模块,用于:获取待处理的保函文件电子件,提取所述待处理的保函文件电子件的初始要素信息,其中,所述初始要素信息包括待处理的保函文件电子件中的文本信息和位置信息;
关键要素信息获取模块,用于:将所述文本信息输入预先训练的关键要素判别模型,获得关键要素信息,其中,所述关键要素信息为用于表征保函要素的信息;
目标匹配模板获取模块,用于:将获得的所述关键要素信息作为查询信息,在预先构建的保函文本数据库中进行查询,以获得与所述关键要素信息匹配的目标匹配模板;
目标验证文件获取模块,用于:将所述关键要素信息与所述目标匹配模板进行组合,获取目标验证文件;以及
验证结果获取模块,用于:比较所述目标验证文件与所述待处理的保函文件电子件,以进行真实性验证,获取验证结果。
11.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~9中任一项所述的方法。
12.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~9中任一项所述的方法。
13.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1~9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311157042.1A CN117195319A (zh) | 2023-09-08 | 2023-09-08 | 保函文件电子件的验真方法、装置、电子设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311157042.1A CN117195319A (zh) | 2023-09-08 | 2023-09-08 | 保函文件电子件的验真方法、装置、电子设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117195319A true CN117195319A (zh) | 2023-12-08 |
Family
ID=88999255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311157042.1A Pending CN117195319A (zh) | 2023-09-08 | 2023-09-08 | 保函文件电子件的验真方法、装置、电子设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117195319A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117574184A (zh) * | 2024-01-16 | 2024-02-20 | 支付宝(杭州)信息技术有限公司 | 证据合并处理方法及装置 |
-
2023
- 2023-09-08 CN CN202311157042.1A patent/CN117195319A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117574184A (zh) * | 2024-01-16 | 2024-02-20 | 支付宝(杭州)信息技术有限公司 | 证据合并处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230222366A1 (en) | Systems and methods for semantic analysis based on knowledge graph | |
US20230334254A1 (en) | Fact checking | |
US8468167B2 (en) | Automatic data validation and correction | |
CN110069623B (zh) | 摘要文本生成方法、装置、存储介质和计算机设备 | |
US11170179B2 (en) | Systems and methods for natural language processing of structured documents | |
US11810070B2 (en) | Classifying digital documents in multi-document transactions based on embedded dates | |
US8064703B2 (en) | Property record document data validation systems and methods | |
US20160170981A1 (en) | Document analysis system, document analysis method, and document analysis program | |
US11860950B2 (en) | Document matching and data extraction | |
US20220050838A1 (en) | System and method for processing data for electronic searching | |
CN113986864A (zh) | 日志数据处理方法、装置、电子设备及存储介质 | |
CN111753496B (zh) | 行业类别识别方法、装置、计算机设备及可读存储介质 | |
CN113656805A (zh) | 一种面向多源漏洞信息的事件图谱自动构建方法及系统 | |
CN117195319A (zh) | 保函文件电子件的验真方法、装置、电子设备和介质 | |
CN115687647A (zh) | 公证文书生成方法、装置、电子设备及存储介质 | |
CN114372532A (zh) | 标签标注质量的确定方法、装置、设备、介质及产品 | |
CN113450147A (zh) | 基于决策树的产品匹配方法、装置、设备及存储介质 | |
US20230138491A1 (en) | Continuous learning for document processing and analysis | |
US20230134218A1 (en) | Continuous learning for document processing and analysis | |
CN115186240A (zh) | 基于关联性信息的社交网络用户对齐方法、装置、介质 | |
EP4165564A1 (en) | Methods and systems for matching and optimizing technology solutions to requested enterprise products | |
CN112133308A (zh) | 一种用于语音识别文本多标签分类的方法和装置 | |
US20230236802A1 (en) | Intelligent industry compliance reviewer | |
US20220319216A1 (en) | Image reading systems, methods and storage medium for performing geometric extraction | |
CN112329468A (zh) | 异质关系网络的构建方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |