CN115017272B - 基于登记数据的智能核验方法及装置 - Google Patents

基于登记数据的智能核验方法及装置 Download PDF

Info

Publication number
CN115017272B
CN115017272B CN202210947546.2A CN202210947546A CN115017272B CN 115017272 B CN115017272 B CN 115017272B CN 202210947546 A CN202210947546 A CN 202210947546A CN 115017272 B CN115017272 B CN 115017272B
Authority
CN
China
Prior art keywords
invoice
registration
data
real
secondary field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210947546.2A
Other languages
English (en)
Other versions
CN115017272A (zh
Inventor
杨健
李项京
刘徽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shengye Information Technology Service Shenzhen Co ltd
Original Assignee
Shengye Information Technology Service Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shengye Information Technology Service Shenzhen Co ltd filed Critical Shengye Information Technology Service Shenzhen Co ltd
Priority to CN202210947546.2A priority Critical patent/CN115017272B/zh
Publication of CN115017272A publication Critical patent/CN115017272A/zh
Application granted granted Critical
Publication of CN115017272B publication Critical patent/CN115017272B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Abstract

本发明公开了一种基于登记数据的智能核验方法及装置,利用NLP(自然语言处理技术)中的NER(命名实体识别)模型从中自动抽取出财产描述部分重要的信息(即实体词),便于后续利用财产描述部分的重要信息与输入的查重信息进行文本相似度的比较。同时,在存在重复登记情况下,在进行首次查重时,只需要对目标待识别文件中的登记证明文件中的财产描述部分(根据登记类型不同又称为质押、抵押、租赁、转让财产描述)的进行PDF处理,即可发现重复交易的存在,无需对与每份登记证明文件关联的附件全部进行OCR处理,加快了查重速度并且降低了查重处理时对计算机占用的占用率。

Description

基于登记数据的智能核验方法及装置
技术领域
本发明涉及数据处理技术领域,特别涉及一种基于登记数据的智能核验方法及装置。
背景技术
中登网是人民银行征信中心于2007年建立的动产融资统一登记公示系统,在《民法典》未实施前,中登网应收账款转让登记仅起到公示的作用,《民法典》实施后,从立法层面认可了应收账款转让登记享有“优先受偿权”,因此保理公司在受让应收账款之前,应该严格审查客户在中登网的登记信息,对已经转让或质押的交易,应该拒绝受理或要求置换。
在传统的供应链业务操作中,当需要对客户资产的真实性进行验证时,需要由公司专门的预警人员在中登网中查询对应客户的登记信息进行人工查看,以便核验所维护的客户与从中登网中获取到的信息是否一致,实现交易前的手工预警,但手工核验的效率非常低,为了实现自动核验,中国专利公开了基于NLP技术的应收账款质押转让登记财产的方法(公布号为CN112598519A)、智能核验方法(CN113420657A)等方案实现自动核验。
上述现有技术中实现自动核验的方案流程概括如下:先从中登网接口获取与交易方相关的所有目标待识别文件(包括登记证明文件(PDF)以及与每份登记证明文件关联的附件,如发票、合同等,一般是图片格式),然后同时从所有目标待识别文件中提取出文本,最后对文本进行加工并从文本中查询某一笔交易(交易信息包括发票、合同等,例如查询到某笔交易的发票或合同已经被登记过时,认为该笔交易被重复登记)是否已经存在转让或质押的登记从而实现对交易的自动查重。
经过研究发现,上述现有技术存在以下的不足:举例说明,若A为供应商,B为购买方,A向B与进行了一笔金额为200万的交易,A向B交付了货物,由此A拥有一笔对B的应收账款,A需要资金周转时将该笔应收账款转让或质押给C平台,C平台的工作人员查询该笔交易是否被重复登记,即该笔交易应收账款对应的合同、发票等是否在中登网上被登记过,经过查询在中登网上A公司作为出让人的登记数量为100笔,假设每笔登记包括一份登记证明文件和三份附件。按照上述现有技术则都需要处理完400份文件后才能够输出查重结果,即现有技术中的核验交易是否重复的方法存在的处理速度慢、每次计算都占用计算机资源过多的技术问题。
发明内容
本发明的目的在于至少解决现有技术中存在的技术问题之一,提供一种基于登记数据的智能核验方法及装置,能够在存在重复登记时,加快查重速度并且降低查重处理时对计算机占用的占用率。
第一方面,本发明提供一种基于登记数据的智能核验方法,包括:
从中登网接口获取目标待识别文件;所述目标待识别文件包括多份登记证明文件以及与每份登记证明文件关联的附件;
对目标待识别文件中的所有登记证明文件进行PDF解析得到一级字段,所述一级字段包括财产描述;
利用命名实体识别模型从财产描述对应的一级字段中抽取出实体得到二级字段;其中二级字段中与财产描述对应的实体包括融资申请人、买方名称、交易信息、发票号码、合同编号;
在不对二级字段中各实体进行标准化处理的情况下,检测到二级字段中与财产描述对应的实体与输入的查重信息之间的文本相似度符合预警触发条件时,发出预警。
第二方面,本发明实施例提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明第一方面实施例中任一项所述的基于登记数据的智能核验方法。
第三方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如本发明第一方面实施例中任一项所述的基于登记数据的智能核验方法。
有益效果:
1.由于财产描述部分填写的内容没有明确的规则和格式限制,本发明中利用NLP(自然语言处理技术)中的NER(命名实体识别)模型从中自动抽取出财产描述部分重要的信息(即实体词),便于后续利用财产描述部分的重要信息与输入的查重信息进行文本相似度的比较。
2.相较于现有技术中需要同时利用PDF解析技术提取出与融资申请人相关的所有登记证明文件中的文本以及利用OCR技术提取出与每份登记证明文件关联的附件的文本,然后再判断是否存在重复交易的方案。本发明提供的一种基于登记数据的智能核验方法及装置,在存在重复登记情况下,在进行首次查重时,只需要对目标待识别文件中的登记证明文件中的财产描述部分(根据登记类型不同又称为质押、抵押、租赁、转让财产描述)的进行PDF处理,即可发现重复交易的存在,无需对与每份登记证明文件关联的附件全部进行OCR处理,加快了查重速度并且降低了查重处理时对计算机占用的占用率。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
下面结合附图和实施例对本发明进一步地说明;
图1为现有技术中通过手工查询的流程示意图。
图2为一个实施例中基于登记数据的智能核验方法的流程示意图。
图3为一个实施例中基于登记数据的智能核验方法的流程示意图。
图4为一个实施例中基于登记数据的智能核验方法的流程示意图。
图5为一个实施例中基于登记数据的智能核验方法的流程示意图。
图6为一个实施例中基于登记数据的智能核验方法的流程示意图。
图7为一个实施例中基于登记数据的智能核验方法的流程示意图。
图8为一个实施例中登记证明文件的示意图。
图9为对应实施例中发票清单的示意图。
图10为一个实施例中计算机设备的结构框图。
具体实施方式
本部分将详细描述本发明的具体实施例,本发明之较佳实施例在附图中示出,附图的作用在于用图形补充说明书文字部分的描述,使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案,但其不能理解为对本发明保护范围的限制。
为了便于理解本申请的技术贡献,有必要对现有技术的发展脉络进行简要说明。在传统的供应链业务操作中,当需要对客户资产的真实性进行验证时,如图1所示,需要由公司专门的预警人员在中登网中查询对应客户的登记信息进行人工查看,以便核验所维护的客户与从中登网中获取到的信息是否一致,实现交易前的手工预警,但手工核验的效率非常低,所以现亟需一种智能核验方法,实现自动核验。
随着技术的发展,为了实现自动核验,中国专利公开了基于NLP技术的应收账款质押转让登记财产的方法(公布号为CN112598519A)、智能核验方法(CN113420657A)等方案实现自动核验。然而现有技术中的自动核验方案存在的处理速度慢、每次计算都占用计算机资源过多的技术问题。
由此,本申请人提出了能够在存在重复登记时,加快查重速度并且降低查重处理时对计算机占用的占用率的一种基于登记数据的智能核验方法及装置。
下面,将通过几个具体的实施例对本发明实施例提供的基于登记数据的智能核验方法进行详细介绍和说明。
可以理解的是,本申请所声称的登记数据是指从中登网上下载的目标待识别文件,包括即如图8所示的登记证明文件以及与每份登记证明文件对应的附件。
如图2所示,在一个实施例中,提供了一种基于登记数据的智能核验方法。本实施例主要以该方法应用于计算机设备来举例说明。
参照图2,该基于登记数据的智能核验方法具体包括如下步骤:
步骤S202,从中登网接口获取目标待识别文件;所述目标待识别文件包括多份登记证明文件以及与每份登记证明文件关联的附件。
在具体的实施过程中,工作人员会根据中登网提供的接口获取融资申请人相关的所有目标待识别文件,登记证明文件的格式为PDF,附件格式一般为PDF或图片。
步骤S204,对目标待识别文件中的所有登记证明文件进行PDF解析得到一级字段,所述一级字段包括财产描述。
如图8所示,登记证明文件有很多个字段,其中有个字段为转让财产描述,根据登记类型不同又称为质押、抵押、租赁财产描述。可以理解的是,一级字段还包括图8中表格左边一列所示的诸多字段名称以及在该字段名称右侧一列对应的字段内容,例如融资合同号码为某个一级字段的字段名称,ZCX20211003017为对应的字段值,对于其他的一级字段此处不再一一赘述。
需要说明的是,本实施例中采用的PDF解析算法为PDF开源解析器pdfbox来实现。具体的,对于登记证明文件而言,字段名称是固定的,字段值是变动的,并且登记证明文件表格中的各字段名称和字段值的位置也是固定的,例如对于出让人信息而言,其第一行为标题信息(即出让人信息),第二行从左至右包括四列,依次为字段名称“名称”,字段值“惠州市XXXX有限公司”,字段名称“类型”,字段值“企业”;以此类推,可知通过PDF开源解析器pdfbox提取得到的文本实际上是存在固定格式的。因此,本实施例中对于每个标题都制作一个解析器,在PDF开源解析器pdfbox提取出登记证明文件的文本之后,每个对应的解析器会从每个登记证明文件的文本中提取出该标题对应的自动名称以及字段值。具体而言,可以通过正则表达式来匹配指定的字段名称,在相邻两个字段名称之间的内容则为前一个字段名称对应的字段值。
步骤S206,利用命名实体识别模型从财产描述对应的一级字段中抽取出实体得到二级字段;其中二级字段中与财产描述对应的实体包括融资申请人、买方名称、交易信息、发票号码、合同编号。
如图8所示,本实施例中的财产描述为转让财产描述,其标题为转让财产信息,字段名称为转让财产描述,字段值为“惠州市XXXX有限公司在编号为XPP666的<<XPP采购合同>>项下,基于XXXX项目在2022年x月x日至2022年x月x日期间因履行合同义务而对甲公司八局有限公司产生的应收账款,金额为人民币xxx元,其他信息可详见附件”。由于转让财产描述的内容在工作人员填写时并未有严格的格式或内容约束,所以需要通过NLP(自然语言处理技术)中的NER(命名实体识别)来提取出其中的实体。一般可以从该字段自动抽取出债权人、债务人、合同名称、合同号码、项目名称、商品/货物名称、仓单号、发票等实体,或者按业务需求识别出不同行业关于资产定义的实体(例如产值区间、型号、价格等)。实体这个概念可以很广,只要是业务需要的特殊文本片段都可以作为实体。此处用到的抽取任务主要是NER(Named Entity Recognition,命名实体识别)模型,该模型先由工程师标定特征,通过对训练数据进行特征统计和挖掘,形成抽取模型,使用深度学习的优点是不需要工程师告诉算法要提取哪些特征,而是由算法从标注数据中自动学习并寻找到关键特征,再进行预测,由于NER属于现有技术此处不做赘述。最后将抽取好的实体内容入库存储。
步骤S208,在不对二级字段中各实体进行标准化处理的情况下,检测到二级字段中与财产描述对应的实体与输入的查重信息之间的文本相似度符合预警触发条件时,发出预警。
可以理解的是,发出预警的方式可以是将二级字段中与财产描述对应的实体与输入的查重信息之间的文本相似度符合预警触发条件的登记证明文件通过邮件发送给指定邮箱实现,也可以通过其他方式提醒工作人员。
由于财产描述部分填写的内容没有明确的规则和格式限制,本实施例中利用NLP(自然语言处理技术)中的NER(命名实体识别)模型从中自动抽取出财产描述部分重要的信息(即实体词),便于后续利用财产描述部分的重要信息与输入的查重信息进行文本相似度的比较。
相较于现有技术中需要同时利用PDF解析技术提取出与融资申请人相关的所有登记证明文件中的文本以及利用OCR技术提取出与每份登记证明文件关联的附件的文本,然后再判断是否存在重复交易的方案。本实施例提供的一种基于登记数据的智能核验方法,在存在重复登记情况下,在进行首次查重时,只需要对目标待识别文件中的登记证明文件中的财产描述部分(根据登记类型不同又称为质押、抵押、租赁、转让财产描述)的进行PDF处理,即可发现重复交易的存在,无需对与每份登记证明文件关联的附件全部进行OCR处理,加快了查重速度并且降低了查重处理时对计算机占用的占用率。
步骤S210,在对二级字段中各实体进行标准化处理的情况下,检测到二级字段中与财产描述对应的实体与输入的查重信息之间的文本相似度符合预警触发条件时,发出预警。
其中,所述对二级字段中各实体进行标准化处理包括:
识别到实体为发票号且发票号中含有连号符号时,将所述连号的发票号处理为对应数量的单独发票号;
识别到实体为买方名称且买方名称中含有阿拉伯数字时,将所述阿拉伯数字转化为中文。
本实施例中,需要先将二级字段中各实体进行标准化处理,其目的是为了将财产描述中的不规范表述转化为规范表述,进而提高查重准确率。例如,判断抽取出来的发票号是否是连号发票(例如38212752-54),如果是连号发票需要处理为38212752、38212753、38212754三张发票号;判断买方名称是否存在阿拉伯数字(例如:甲公司8局有限公司),如果是则将阿拉伯数字转换为中文数字(即甲公司八局有限公司)。由于规定用户输入的查重信息是按照规范表述输入的,因此在将财产描述中的不规范表述转化为规范表述之后,使得同一个含义使用相同的文字表达,进行文字相似度比较时更准确。
具体而言,所述预警触发条件具体包括:
二级字段中的买方名称与输入的买方名称之间的文本相似度达到第一阈值且二级字段中的发票号码与输入的发票号码之间的文本相似度达到第二阈值;或
二级字段中的发票号码与输入的发票号码之间的文本相似度等于1;或
二级字段中的合同编号与输入的合同编号之间的文本相似度等于1。
此处所称的文本相似度为1是指文本完全相同。
当某张发票号码或者合同编号已经被登记过的情况下,一般需要发出预警通知用户注意仔细核对该笔登记的内容,是否存在交易重复登记的情况。同时,在不对二级字段中各实体进行标准化处理的情况下,考虑到财产描述部分存在的不规范描述,如买方名称中存在阿拉伯数字以及发票写成连号形式而导致二级字段中的买方名称和发票号码与输入的查重信息不一致的问题,本实施例中还设置了第一阈值和第二阈值作为触发条件,以减少对不规范描述的漏判。例如,用户输入的买家名称为‘甲公司八局有限公司’、发票号码为‘38212753’,而财产描述部分出现的买方名称为‘甲公司8局有限公司’、发票号码为连号‘38212752-54’,显然发票号为‘38212753’是被登记过的,因此虽然二者在表述上不完全一致(即文本相似度不为1),但是也应该进行预警,本实施例中选择第一阈值为95%、第二阈值均为80%,从而可以提升查重的准确率。
可以理解的是,查重是根据融资申请人、买方名称、交易信息、发票号码这几要素进行查询,通过中登网直连接口获取对应融资申请人所有的登记证明,然后通过算法过滤掉已变更的、过期的、注销的登记文件,然后根据输入的买方名称、交易信息、发票号码和第四部抽取出来的实体内容进行相似度比对,将每个字段的比对结果和核验规则进行比较,从而得出核验结果。核验结果可灵活配置,例如单张发票相似度95%,且买方名称相似度95%以上,则认为该笔交易是同一笔。
如图3所示,在一个实施例中,所述方法还包括:
步骤S302,当检测到目标待识别文件中的所有登记证明文件的二级字段中与财产描述对应的实体与输入的查重信息之间的文本相似度均不符合预警触发条件时,利用OCR算法识别目标待识别文件中的所有登记证明文件对应的附件中的文本并进行分词得到三级字段。
步骤S304,检测输入的发票号是否与三级字段中的文本相匹配,若是,则发出预警。
本实施例中,提供了查重全面性更高的方案。由于登记证明文件中登记的内容是概述性的,并且由于财产描述部分的信息不存在规范和格式,会导致登记证明文件的财产描述部分遗漏较多登记信息。当仅通过解析登记证明文件而无法匹配到疑似重复的交易时,为了避免遗漏就会对数量更多的附件进行OCR识别,将识别到的所有文本与输入的查重信息进行匹配。可以理解的是,本实施例中为了保证自动查重的全面性,采用的OCR文字识别算法速度低于PDF解析,并且由于在OCR识别的过程中,所需要识别的附件数量远大于登记证明文件数量以及会使用相应的识别模板(例如不同的发票需要使用不同的识别模板来提取对应的字段),这些导致对附件进行识别时需要占用计算机更多资源。因此,本申请中,为了提高查重速度并且降低资源占用率,采用的策略是对下载的所有待识别文件进行分级,将登记证明文件分为第一级,将相应的附件分为第二级,由于登记证明文件中的财产描述记录了登记中的重要信息,因此先对文字识别难度低、文件数量少的登记证明文件进行识别并查重,能够在存在重复登记时,加快查重速度并且降低查重处理时对计算机占用的占用率。举例说明,若A为供应商,B为购买方,A向B与进行了一笔金额为200万的交易,A向B交付了货物,由此A拥有一笔对B的应收账款,A需要资金周转时将该笔应收账款转让或质押给C平台,C平台的工作人员查询该笔交易是否被重复登记,即该笔交易应收账款对应的合同、发票等是否在中登网上被登记过,经过查询在中登网上A公司作为出让人的登记数量为100笔,假设每笔登记包括一份登记证明文件和三份附件。按照上述现有技术则都需要处理完400份文件后才能够输出查重结果,而按照本申请提供的方案则仅需要处理100份文件即可输出查重结果(即发出预警)。退一步的,若是在处理完100份登记证明文件还并未发出预警时,本申请也会继续处理剩下的300份附件,确保查重的全面性。
在智能核验搜索界面中,工作人员可以在该界面输入查重信息(包括发票号码、交易信息、融资申请人等各个字段),当工作人员输入的查重信息为“惠州市XXXX有限公司”时,该智能核验搜索界面会从中登网获取目标待识别文件并执行步骤S202至S210、步骤302至S304的流程,得到登记证明文件以及附件上各字段对应的信息并显示在该界面上。具体的,可以在界面中显示融资申请人(即出让人)为“惠州市XXXX有限公司”的查重情况,在基本信息这一标题下列出来买方名称、交易信息和发票号码,以发票号码为例,“118664xx”的发票在中登网上登记过两次,以交易信息为例,“XXXX项目”项目在中登网上登记过9次等。
如图4所示,在一个实施例中,所述方法还包括:
步骤S402,获取通过OCR算法对附件中各张发票识别得到的各项发票数据;所述发票数据包括发票代码、发票号、发票金额、发票日期、销售方;
步骤S404,获取实时表格参数并根据实时表格参数将每张发票对应的各项发票数据实时填入表格中对应行的对应字段,形成发票清单。
在发出预警时,工作人员会通过人工方式仔细核对某一笔登记中各发票的数据,例如工作人员需要核对每张发票的发票日期、销售方、发票金额等数据。如图9所示,其分别示出了发票数量为3的发票清单所在的A页面和发票数量为6的发票清单所在的B页面。可以理解的是,在形成发票清单之后,还可以自动将这个发票清单与对应的登记证明文件管理并存储在智能核验平台上作为该登记证明文件的附件,便于后续工作人员再次核对该登记证明文件时可以在智能核验平台的界面直接打开该发票清单进行核对。可以理解的是,在工作人员进行核对时,发票清单是最方便工作人员核对的形式,然而并非所有登记证明文件的附件对包含了发票清单,在没有包含发票清单的情况下,为了核对图片格式的多张发票上的各项具体数据,工作人员的数据核对存在不便。因此,本申请提供了一种能够自动生成发票清单的方法,能够方便工作人员进行发票数据的全局核对。可以理解的是,此处的实时填入表格中对应行的对应字段是指在确定实时表格参数之后,通过OCR算法识别到发票数据后便同步将这些发票数据写入到表格中,实时写入表格目的是为了减少占用内存资源。需要说明的是,本实施例中,采用的识别发票各项发票数据的OCR算法属于现有技术,如公布号为CN113657377A的中国专利公开的一种机打票据图像结构化识别方法、公布号为CN112801041A的中国专利公开的财务数据的报销方法、装置、设备及存储介质等文献均提供了识别发票各项发票数据的具体方案,此处不再赘述。
如图5所示,在一个实施例中,所述实时表格参数包括表格行数、行高、字体大小,所述获取实时表格参数,具体包括:
步骤S502,根据对二级字段中发票连号的进行标准化处理的结果,获取与发票连号对应的发票数量;
步骤S504,根据所述发票数量确定表格行数;
步骤S506,根据表格所在页面的高度以及表格行数确定表格每行的行高;
步骤S508,根据所述行高确定表格中字体大小。
考虑到便于核对数据,工作人员需要在发票清单的一个页面能够看到所有的发票数据,例如表格清单所在页面的高度为100个单位,一般首行用于显示字段名称(如发票代码、发票号码等),为了在一个页面显示所有的发票数据,则表格的行数至少为发票数量加一,可以计算出若是有9张发票,则表格行数至少为10行,每行的行高为10个单位,对于不同发票数量以此类推。本实施例的优势在于,在进行OCR算法识别所有发票之前就能够知道发票的数量,从而能够在通过OCR识别完一张发票便立即填写对应的发票数据,生成发票清单的速度快,并且由于每通过OCR识别完一张发票便能够立即将发票数据写入到表格中,所以不需要过多占用内存来临时存储发票数据,更加节省计算机资源。
如图6所示,在一个实施例中,所述实时表格参数包括表格行数、行高、字体大小,所述获取实时表格参数,具体包括:
步骤S602,根据OCR算法调用预设的识别模板的次数,确定对应的发票数量;
步骤S604,根据所述发票数量确定表格行数;
步骤S606,根据表格所在页面的高度以及表格行数确定表格每行的行高;
步骤S608,根据所述行高确定表格中字体大小。
考虑到便于核对数据,工作人员需要在发票清单的一个页面能够看到所有的发票数据,例如表格清单所在页面的高度为100个单位,一般首行用于显示字段名称(如发票代码、发票号码等),为了在一个页面显示所有的发票数据,则表格的行数至少为发票数量加一,可以计算出若是有9张发票,则表格行数至少为10行,每行的行高为10个单位,对于不同发票数量以此类推。本实施例由于无法提前获取发票数量,因此需要将所以的发票都通过OCR识别完之后,才能够将发票数据写入到发票清单的表格中,所以需要分配相应的内存临时存储发票数据。但是本实施例由于是根据实际的OCR调用发票识别模板的次数来统计发票数量,统计的发票数量能够确保百分百准确,并且在财产描述部分没有描述发票信息的情况下,也能够生成所有发票数据在一个页面显示的发票清单。
根据上述实施例可知,根据对二级字段中发票连号的进行标准化处理的结果所获取的发票数量来生成发票清单的优势是实时性强,占用内存资源少,但若是财产描述部分描述的发票数量不全则可能导致发票清单漏掉一些发票的信息。而虽然根据OCR算法调用预设的识别模板的次数所确定的发票数量是准确的,不会产生遗漏,但是其实时性差,占用内存资源多。容易想到,上述两个方案形成一对矛盾,即为了保证在一个页面上显示所以的发票数据时,想要实时性强就得牺牲准确性与内存资源。而本实施例中,提供了一种解决上述矛盾的方案,既可以实现实时性,又可以保证准确性和减少占用内存资源。如下所述:
在一个实施例中,如图7所示,所述方法还包括:
步骤S702,在根据对二级字段中发票连号的进行标准化处理的结果所获取的发票数量生成发票清单的过程中,检测到OCR算法识别出的发票号与对二级字段中发票连号的进行标准化处理得到发票号不同时,将发票数量加一并更新实时表格参数;
步骤S704,根据更新后的实时表格参数将每张发票对应的各项发票数据实时填入表格中对应行的对应字段,形成发票清单。
本实施例中,以根据对二级字段中发票连号的进行标准化处理的结果所获取的发票数量作为初步的实时表格参数,并利用OCR算法在识别发票文件过程中对于新发票号的识别来更新发票数量,从而实现实时全面地更新实时表格数据并且将新增的发票数据实时写入到表格清单中,不会占用过多内容,一旦所有的发票识别完毕发票清单也能够立即生成,保证生成表格清单的实时性。例如表格清单所在页面的高度为100个单位,一般首行用于显示字段名称(如发票代码、发票号码等),为了在一个页面显示所有的发票数据,则表格的行数至少为发票数量加一,若财产描述部分的发票连号为38212751-59,可以计算出若是根据对二级字段中发票连号的进行标准化处理的结果所获取的发票数量为9张,则初步的实时表格参数中表格行数为10行,每行的行高为10个单位。当利用OCR算法在识别发票文件过程中发现了新的发票号码38212733,则将发票数量增加为10张,并重新计算实时表格参数,即调整表格清单中的行数、行高、字体大小等,同时将发票号38212733对应的发票数据填入到表格中。
图10示出了一个实施例中计算机设备的内部结构图。如图10所示,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现基于登记数据的智能核验方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行基于登记数据的智能核验方法。本领域技术人员可以理解,图8中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时执行上述基于登记数据的智能核验方法的步骤。此处基于登记数据的智能核验方法的步骤可以是上述各个实施例的基于登记数据的智能核验方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行上述基于登记数据的智能核验方法的步骤。此处基于登记数据的智能核验方法的步骤可以是上述各个实施例的基于登记数据的智能核验方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRA)、存储器总线(Rambus)直接RAM(RDRA)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

Claims (6)

1.一种基于登记数据的智能核验方法,其特征在于,包括:
从中登网接口获取目标待识别文件;所述目标待识别文件包括多份登记证明文件以及与每份登记证明文件关联的附件;
对目标待识别文件中的所有登记证明文件进行PDF解析得到一级字段,所述一级字段包括财产描述;
利用命名实体识别模型从财产描述对应的一级字段中抽取出实体得到二级字段;其中二级字段中与财产描述对应的实体包括融资申请人、买方名称、交易信息、发票号码、合同编号;
在不对二级字段中各实体进行标准化处理的情况下,检测到二级字段中与财产描述对应的实体与输入的查重信息之间的文本相似度符合预警触发条件时,发出预警;
所述方法还包括:
在对二级字段中各实体进行标准化处理的情况下,检测到二级字段中与财产描述对应的实体与输入的查重信息之间的文本相似度符合预警触发条件时,发出预警;
其中,所述对二级字段中各实体进行标准化处理包括:
识别到实体为发票号且发票号中含有连号符号时,将所述连号的发票号处理为对应数量的单独发票号;
识别到实体为买方名称且买方名称中含有阿拉伯数字时,将所述阿拉伯数字转化为中文;
当检测到目标待识别文件中的所有登记证明文件的二级字段中与财产描述对应的实体与输入的查重信息之间的文本相似度均不符合预警触发条件时,利用OCR算法识别目标待识别文件中的所有登记证明文件对应的附件中的文本并进行分词得到三级字段;
检测输入的发票号是否与三级字段中的文本相匹配,若是,则发出预警;
获取通过OCR算法对附件中各张发票识别得到的各项发票数据;所述发票数据包括发票代码、发票号、发票金额、发票日期、销售方;
获取实时表格参数并根据实时表格参数将每张发票对应的各项发票数据实时填入表格中对应行的对应字段,形成发票清单,包括:所述实时表格参数包括表格行数、行高、字体大小,所述获取实时表格参数,具体包括:根据对二级字段中发票连号的进行标准化处理的结果,获取与发票连号对应的发票数量;根据所述发票数量确定表格行数;根据表格所在页面的高度以及表格行数确定表格每行的行高;根据所述行高确定表格中字体大小。
2.根据权利要求1所述的一种基于登记数据的智能核验方法,其特征在于,所述预警触发条件具体包括:
二级字段中的买方名称与输入的买方名称之间的文本相似度达到第一阈值且二级字段中的发票号码与输入的发票号码之间的文本相似度达到第二阈值;或
二级字段中的发票号码与输入的发票号码之间的文本相似度等于1;或
二级字段中的合同编号与输入的合同编号之间的文本相似度等于1。
3.根据权利要求1所述的一种基于登记数据的智能核验方法,其特征在于,所述实时表格参数包括表格行数、行高、字体大小,所述获取实时表格参数,具体包括:
根据OCR算法调用预设的识别模板的次数,确定对应的发票数量;
根据所述发票数量确定表格行数;
根据表格所在页面的高度以及表格行数确定表格每行的行高;
根据所述行高确定表格中字体大小。
4.根据权利要求1所述的一种基于登记数据的智能核验方法,其特征在于,所述方法还包括:
在根据对二级字段中发票连号的进行标准化处理的结果所获取的发票数量生成发票清单的过程中,检测到OCR算法识别出的发票号与对二级字段中发票连号的进行标准化处理得到发票号不同时,将发票数量加一并更新实时表格参数;
根据更新后的实时表格参数将每张发票对应的各项发票数据实时填入表格中对应行的对应字段,形成发票清单。
5.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,其特征在于,所述计算机可执行指令用于使计算机执行如权利要求1至4中任一项所述的基于登记数据的智能核验方法。
6.一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4中任一项所述的基于登记数据的智能核验方法。
CN202210947546.2A 2022-08-09 2022-08-09 基于登记数据的智能核验方法及装置 Active CN115017272B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210947546.2A CN115017272B (zh) 2022-08-09 2022-08-09 基于登记数据的智能核验方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210947546.2A CN115017272B (zh) 2022-08-09 2022-08-09 基于登记数据的智能核验方法及装置

Publications (2)

Publication Number Publication Date
CN115017272A CN115017272A (zh) 2022-09-06
CN115017272B true CN115017272B (zh) 2022-11-04

Family

ID=83065844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210947546.2A Active CN115017272B (zh) 2022-08-09 2022-08-09 基于登记数据的智能核验方法及装置

Country Status (1)

Country Link
CN (1) CN115017272B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115935042B (zh) * 2023-01-19 2023-09-26 蔷薇大树科技有限公司 一种基于融合模型的质押资产智能查重方法及系统
CN116029279B (zh) * 2023-03-28 2023-07-07 深圳前海环融联易信息科技服务有限公司 基于多模态模型的中登附件解析方法、装置、设备及介质
CN116959018B (zh) * 2023-06-05 2024-02-23 简单汇信息科技(广州)有限公司 一种基于ocr的智能查验方法、系统及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005018691A (ja) * 2003-06-30 2005-01-20 Relo Holdings Inc 敷金代替役務支援装置、及び敷金代替役務支援プログラム
CN109886076A (zh) * 2018-12-28 2019-06-14 航天信息股份有限公司 发票存储方法
CN111080425A (zh) * 2019-12-11 2020-04-28 深圳盈佳信联科技有限公司 应收账款资产权益核查系统及方法
CN112561484A (zh) * 2020-12-21 2021-03-26 深圳市链融科技股份有限公司 中登登记审单方法、装置、计算机设备及存储介质
CN113420657A (zh) * 2021-06-23 2021-09-21 平安科技(深圳)有限公司 智能核验方法、装置、计算机设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7529729B2 (en) * 2004-10-21 2009-05-05 International Business Machines Corporation System and method for handling improper database table access
EP2553654A4 (en) * 2010-04-02 2015-01-21 Artbanc International Ltd Inc METHOD AND SYSTEM FOR REGISTERING, AUTHENTICATING, CLEARANCE SIGNATURE, EVALUATION AND WORKFLOW MANAGEMENT OF HIGH QUALITY EQUIPMENT AND TRADING THEREFOR AND FOR YOUR LIEN RECORD
CN110362795A (zh) * 2018-06-19 2019-10-22 杨玉海 智能管理系统生成系统Hxcel可变票据格式技术方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005018691A (ja) * 2003-06-30 2005-01-20 Relo Holdings Inc 敷金代替役務支援装置、及び敷金代替役務支援プログラム
CN109886076A (zh) * 2018-12-28 2019-06-14 航天信息股份有限公司 发票存储方法
CN111080425A (zh) * 2019-12-11 2020-04-28 深圳盈佳信联科技有限公司 应收账款资产权益核查系统及方法
CN112561484A (zh) * 2020-12-21 2021-03-26 深圳市链融科技股份有限公司 中登登记审单方法、装置、计算机设备及存储介质
CN113420657A (zh) * 2021-06-23 2021-09-21 平安科技(深圳)有限公司 智能核验方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN115017272A (zh) 2022-09-06

Similar Documents

Publication Publication Date Title
CN109887153B (zh) 一种财税处理方法和处理系统
CN115017272B (zh) 基于登记数据的智能核验方法及装置
US9916606B2 (en) System and method for processing a transaction document including one or more financial transaction entries
US20190279170A1 (en) Dynamic resource management associated with payment instrument exceptions processing
CN111428599B (zh) 票据识别方法、装置和设备
US20150286860A1 (en) Method and Device for Generating Data from a Printed Document
US10354234B2 (en) System and method for single point of entry deposit
US10229395B2 (en) Predictive determination and resolution of a value of indicia located in a negotiable instrument electronic image
US20150120563A1 (en) Check data lift for ach transactions
US20130325706A1 (en) System, method, apparatus, and computer program product for improved payment processing
CN112418812A (zh) 分布式全链路自动化智能通关系统、方法及存储介质
CN109685477A (zh) 账务处理系统及处理方法
WO2019019777A1 (zh) 保单退费处理方法、装置、计算机设备和存储介质
CN111931780A (zh) 一种会计凭证智能管理方法及设备
BE1026870B1 (nl) Systeem en werkwijze voor automatische verificatie van onkostennota
CN114493552B (zh) 基于双时间轴的rpa对公付款自动审批方法及系统
KR102416998B1 (ko) 세무 문서 수집 및 분류 자동화 장치 및 방법
CN114219507A (zh) 中药供应商的资质审核方法、装置、电子设备及存储介质
KR102562186B1 (ko) 건물임대관리 기반 공문발송 서비스 제공 시스템
CN115358751A (zh) 一种交易单据的自动审核方法、装置及电子设备
DE202018000271U1 (de) Server-Vorrichtung zur Verarbeitung von Transaktionsdaten
TWM568448U (zh) 智能查帳系統
CN117813601A (zh) 用于能够使得相关数据从多个文档中被提取的系统和方法
CN111223230A (zh) 一种基于crnn算法的发票文件真伪识别方法
US20180025438A1 (en) System and method for generating analytics based on electronic documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant