CN116029279B

CN116029279B - 基于多模态模型的中登附件解析方法、装置、设备及介质

Info

Publication number: CN116029279B
Application number: CN202310309568.0A
Authority: CN
Inventors: 谢翀; 彭勇; 王震
Original assignee: Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Current assignee: Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Priority date: 2023-03-28
Filing date: 2023-03-28
Publication date: 2023-07-07
Anticipated expiration: 2043-03-28
Also published as: CN116029279A

Abstract

本申请公开一种基于多模态模型的中登附件的解析方法、装置、计算机设备及存储介质，包括：接收中登附件；响应于针对所述中登附件的目标核心要素的解析指令，生成所述目标核心要素对应的抽取任务；获取预训练的多模态模型；在所述多模态模型中对所述中登附件执行所述抽取任务，其中，执行所述抽取任务包括：对所述中登附件进行文本编码、视觉编码以及布局编码，获取所述目标核心要素对应的编码信息；根据预配置的特征解码规则对所述编码信息进行解码，获取所述目标核心要素对应的内容信息。通过配置对中登附件的核心要素的灵活抽取，提高对中登附件的解析效率。

Description

基于多模态模型的中登附件解析方法、装置、设备及介质

技术领域

本发明涉及信息解析识别领域，特别涉及一种基于多模态模型的中登附件的解析方法、装置及计算机设备、计算机存储介质。

背景技术

中登查询是人民银行征信中心于2007年建立的动产融资统一登记公示系统所提供的核心业务。其主要目的是为了将已经进行抵押的不动产进行公示，避免重复抵押引起金融风险。但随着上传的中登文件增多，查重难度越来越高，需要业务人员花费大量的精力进行不动产查重，目前市面上存在智能中登产品主要集中在财产描述上，但这种并不能真正提升查重效率，主要因为绝大部分抵押信息都在上传的中登附件中，目前针对财产线索的检索后仍然需要业务人员一个一个查看附件，另外，其他部分产品仅仅基于OCR识别进行解析与查询，对于更为复杂的查重需求无能为力，导致中登附件的解析准确率，查询效率低等问题。

发明内容

本发明的目的在于提供一种基于多模态模型的中登附件的解析方法、装置及计算机设备、计算机存储介质，以至少解决目前针对中登附件的解析准确率低、查询效率低的问题。

为解决上述技术问题，本发明提供一种基于多模态模型的中登附件的解析方法，包括：

接收中登附件；

响应于针对所述中登附件的目标核心要素的解析指令，生成所述目标核心要素对应的抽取任务；

获取预训练的多模态模型；

在所述多模态模型中对所述中登附件执行所述抽取任务，其中，执行所述抽取任务包括：对所述中登附件进行文本编码、视觉编码以及布局编码，获取所述目标核心要素对应的编码信息；

根据预配置的特征解码规则对所述编码信息进行解码，获取所述目标核心要素对应的内容信息。

可选的，所述目标核心要素包括第一核心要素和第二核心要素；所述响应于针对所述中登附件的目标核心要素的解析指令，生成所述目标核心要素对应的抽取任务，包括：

响应于针对所述中登附件的目标核心要素的解析指令，获取预配置的核心要素阅读顺序；

根据所述核心要素阅读顺序配置所述第一核心要素与所述第二核心要素的排序；

当所述第一核心要素在所述第二核心要素的排序之前，生成所述第一核心要素的抽取任务；

根据所述第一核心要素的抽取任务，生成所述第二核心要素的抽取任务，以使在执行所述第一核心要素的抽取任务之后再执行所述第二核心要素的抽取任务，其中，所述第二核心要素的抽取任务依赖于所述第一抽取任务的结果，所述核心要素阅读顺序用于强化所述第一核心要素和第二核心要素之间的语义关联和位置关联。

可选的，所述根据预配置的特征解码规则对所述编码信息进行解码，获取所述目标核心要素对应的内容信息，包括：

获取所述第一核心要素的第一编码信息；

获取所述第二核心要素的第二编码信息；

根据所述排序对所述第一编码信息与所述第二编码信息进行拼接，得到目标编码信息；

根据预配置的特征解码规则对所述目标编码信息进行解码，获取所述目标核心要素对应的内容信息。

可选的，所述响应于针对所述中登附件的目标核心要素的解析指令，生成所述目标核心要素对应的抽取任务，包括：

根据所述核心要素阅读顺序获取目标核心要素的前一核心要素；

生成所述前一核心要素的抽取任务，以基于所述抽取任务获得所述前一核心要素的内容信息；

根据所述前一核心要素的内容信息生成所述目标核心要素的抽取任务。

可选的，所述对所述中登附件进行文本编码、视觉编码以及布局编码，获取所述目标核心要素对应的编码信息，包括：

针对所述中登附件进行文本提取，得到若干个文本，按照预设的输出顺序将若干个所述文本输出并标记，并为每一个文本分配预设的编码，得到文本编码信息；

针对所述中登附件进行整体图像编码，得到整体图像信息，将所述整体图像信息重组成预设形状的数据结构，得到视觉编码信息，所述预设形状的数据结构为与所述文本编码信息对齐的数据结构；

针对中登附件的文字以及内容图像的位置信息进行编码，得到布局编码信息；

将所述文本编码信息、所述视觉编码信息、所述布局编码信息以注意力加权的方式进行融合，得到中登附件的编码信息，其中，所述中登附件的编码信息包含所述目标核心要素对应的编码信息。

可选的，所述接收中登附件之后，还包括：

对所述中登附件进行OCR识别，提取所述中登附件包含的特征；

对所述特征进行标注；

将提取到的特征、所述特征的标注与所述中登附件进行关联缓存。

可选地，所述根据预配置的特征解码规则对所述编码信息进行解码，获取所述目标核心要素对应的内容信息之后，还包括：

根据所述目标核心要素的内容信息对所述中登附件进行去重筛查，得到去重筛查结果；

根据所述去重筛查结果标记所述中登附件的可登记状态。

为解决上述技术问题，本发明实施例还提供一种基于多模态模型的中登附件的解析装置，包括：

附件接收模块，用于接收中登附件；

任务生成模块，用于响应于针对所述中登附件的目标核心要素的解析指令，生成所述目标核心要素对应的抽取任务；

模型获取模块，用于获取预训练的多模态模型；

模型调用模块，用于在所述多模态模型中对所述中登附件执行所述抽取任务，其中，执行所述抽取任务包括：对所述中登附件进行文本编码、视觉编码以及布局编码，获取所述目标核心要素对应的编码信息；

信息解码模块，用于根据预配置的特征解码规则对所述编码信息进行解码，获取所述目标核心要素对应的内容信息。

可选地，所述任务生成模块还用于：

可选地，所述信息解码模块还用于：

获取所述第一核心要素的第一编码信息；

获取所述第二核心要素的第二编码信息；

可选地，所述任务生成模块还用于：

可选地，所述模型调用模块还用于；

可选地，所述附件接收模块还用于；

对所述特征进行标注；

可选地，还包括去重筛查模块，用于：

根据所述去重筛查结果标记所述中登附件的可登记状态。

为解决上述技术问题本发明实施例还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述所述基于多模态模型的中登附件的解析方法的步骤。

为解决上述技术问题本发明实施例还提供一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述所述基于多模态模型的中登附件的解析方法的步骤。

本发明创造实施例的有益效果是：通过接收中登附件；响应于针对所述中登附件的目标核心要素的解析指令，生成所述目标核心要素对应的抽取任务；获取预训练的多模态模型；在所述多模态模型中对所述中登附件执行所述抽取任务，其中，执行所述抽取任务包括：对所述中登附件进行文本编码、视觉编码以及布局编码，获取所述目标核心要素对应的编码信息；根据预配置的特征解码规则对所述编码信息进行解码，获取所述目标核心要素对应的内容信息，基于对核心要素生成对应的抽取任务，灵活地对中登附件的核心要素进行内容抽取，并且基于预训练的多模态模型，可以针对中登附件中的核心要素的语义、核心要素间的关联以及核心要素的布局等模态对中登附件的核心要素进行内容解析，在特定阅读顺序下对中登附件进行解析，保证了对中登附件的核心要素的内容解析的准确率，提高了对中登附件的解析及查询效率，可以有效地提高中登附件查重的效率及准确性。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请一个具体实施例的基于多模态模型的中登附件的解析方法的基本流程示意图；

图2为本申请一个具体实施例的基于多模态模型的中登附件的解析装置的基本结构示意图；

图3为本申请一个具体实施例的计算机设备的基本结构框图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语（包括技术术语和科学术语），具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“终端”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，执行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS（Personal Communications Service，个人通信系统），其可以组合语音、数据处理、传真和/或数据通信能力；PDA（Personal Digital Assistant，个人数字助理），其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS（Global Positioning System，全球定位系统）接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”可以是便携式、可运输、安装在交通工具（航空、海运和/或陆地）中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID（Mobile Internet Device，移动互联网设备）和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件，本质上是具备个人计算机等效能力的电子设备，为具有中央处理器（包括运算器和控制器）、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置，计算机程序存储于其存储器中，中央处理器将存储在外存中的程序调入内存中运行，执行程序中的指令，与输入输出设备交互，借此完成特定的功能。

需要指出的是，本申请所称的“服务器”这一概念，同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理，所述各服务器应是逻辑上的划分，在物理空间上，这些服务器既可以是互相独立但可通过接口调用的，也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通，而不应以此约束本申请的网络部署方式的实施方式。

本申请的一个或数个技术特征，除非明文指定，既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问，也可直接部署并运行于客户端来实施访问。

本申请中所引用或可能引用到的神经网络模型，除非明文指定，既可部署于远程服务器且在客户端实施远程调用，也可部署于设备能力胜任的客户端直接调用，某些实施例中，当其运行于客户端时，其相应的智能可通过迁移学习来获得，以便降低对客户端硬件运行资源的要求，避免过度占用客户端硬件运行资源。

本申请所涉及的各种数据，除非明文指定，既可远程存储于服务器，也可存储于本地终端设备，只要其适于被本申请的技术方案所调用即可。

本领域技术人员对此应当知晓：本申请的各种方法，虽然基于相同的概念而进行描述而使其彼此间呈现共通性，但是，除非特别说明，否则这些方法都是可以独立执行的。同理，对于本申请所揭示的各个实施例而言，均基于同一发明构思而提出，因此，对于相同表述的概念，以及尽管概念表述不同但仅是为了方便而适当变换的概念，应被等同理解。

本申请即将揭示的各个实施例，除非明文指出彼此之间的相互排斥关系，否则，各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例，只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通，本领域技术人员应当知晓。

请参阅图1，图1为本实施例基于多模态模型的中登附件的解析方法的基本流程示意图。

如图1所示，包括：

S1100、接收中登附件；

本实施例应用于中登附件的解析、查询、查重的场景，中登查询是人民银行征信中心于2007年建立的动产融资统一登记公式系统所提供的核心业务。其主要目的是为了将已经进行抵押的不动产进行公示，避免重复抵押引起金融风险，中登查询包括财产描述查询与中登附件查询，在本实施例中，针对越来越多的中登附件进行解析、查询、查重，首先，当一个中登附件需要进行查重时，首先接收该中登附件，可以通过提供一个数据接口，接收用户在指定接口上传的中登附件，从而通过该数据接口接收到中登附件，再对该中登附件进行解析、查重。

需要指出的是，本实施例的中登附件包括大量不同的文件类型，在可能的实施例中，所述中登附件的文件类型包括pdf，excel，图片等类型，当接收到中登附件后针对不同文件类型的中登附件进行解析后查重。

需要指出的是，在接收到不同文件类型的中登附件后，可以将所述中登附件统一转化为指定的目标文件类型，然后对转化为目标文件类型的中登附件及逆行解析后查重，可以有效地统一对中登附件的解析及查询规则。

S1200、响应于针对所述中登附件的目标核心要素的解析指令，生成所述目标核心要素对应的抽取任务；

在接收中登附件之后，中登附件中包含复杂且多样的信息，即中登附件可以看作是多个不同信息的组合，本实施例中将中登附件中存在的每一项信息定义为核心要素，如果需要针对中登附件进行解析、查重，可以针对中登附件进行解析，获取中登附件中的指定的核心要素，将其定义为目标核心要素，即如果要得到中登附件中的某一项核心要素的内容信息，首先针对所述中登附件的目标核心要素进行抽取，响应于针对所述中登附件的目标核心要素的解析指令，生成所述目标核心要素对应的抽取任务，所述抽取任务能够从中登附件中灵活地抽取任意一个想要的中登附件的核心要素的内容信息。

需要指出的是，当接收到中登附件后，可以由用户指定中登附件中的某一个或多个核心要素作为目标核心要素，然后响应于针对所述中登附件的目标核心要素的解析指令，生成所述目标核心要素对应的抽取任务；另外，也可以配置默认的核心要素作为目标核心要素，然后响应于针对所述中登附件的目标核心要素的解析指令，生成所述目标核心要素对应的抽取任务。

需要指出的是，当接收到中登附件后，可以基于默认的核心要素作为目标核心要素生成相应的抽取任务，也可以生成对中登附件中的所有核心要素的抽取任务；也可以在接收到用户的选择目标核心要素及确认操作后，才生成目标核心要素对应的抽取任务。

S1300、获取预训练的多模态模型；

在响应于针对所述中登附件的目标核心要素的解析指令，生成所述目标核心要素对应的抽取任务之后，需要对所述抽取任务进行执行，才能解析得到中登附件中所述目标核心要素对应的信息，本实施例中，通过一预训练的多模态模型来执行所述抽取任务，首先，获取预训练的多模态模型。

需要指出的是，所述多模态模型经过如下步骤训练，一是预处理，预处理首先获取大量的中登附件样本，然后对中登附件设定若干个核心要素，如中等附件设定九个核心要素，分别为发票号，发票金额，债务人，债权人，合同名称，合同编号，合同金额，合同转让金额，发票转让金额，然后设计核心要素的阅读顺序，例如，上述九个核心要素有很强的语义关联，为中登附件九个核心要素设计阅读顺序，具体如下(发票号 - 发票金额 - 发票转让金额)、(债务人 - 债权人)、(合同名称 - 合同编号 - 合同金额 - 合同转让金额)，然后对中登附件的原始文档进行标注，标注包括对文本所在区域框，图像返回的实际文本，文本的要素类型和要素值，文本的阅读顺序索引，例如将中登附件内的信息“十万元”标注为发票金额，阅读顺序索引为2。二是训练阶段，训练阶段将中登附件经过三种编码器进行编码，分别是文本编码器，视觉编码器，布局编码器，然后将三种编码器输出的特征进行融合，得到三种编码器的加权输出，同时针对多种核心要素，设置首要阅读核心要素和后续阅读核心要素，即在特定的顺序下对核心要素进行编码、解析，解析所述输出得到预测结果，然后通过设计损失函数对训练过程进行损失优化，使得模型的准确率不断提高，得到一个训练好的多模态模型。

需要指出的是，在多模态模型训练之后，后续针对增多的训练数据，不断地进行训练、迭代，使得模型能够更加准确、快速地对中登附件进行解析。

S1400、在所述多模态模型中对所述中登附件执行所述抽取任务，其中，执行所述抽取任务包括：对所述中登附件进行文本编码、视觉编码以及布局编码，获取所述目标核心要素对应的编码信息；

在获取预训练的多模态模型之后，在所述多模态模型中对所述中登附件执行所述抽取任务，其中，执行所述抽取任务包括：对所述中登附件进行文本编码、视觉编码以及布局编码，获取所述目标核心要素对应的编码信息，所述文本编码即对中登附件中存在的文本进行识别、标注、分词，然后为识别得到的每一个文本分配id，使得每一个文本为独立且与其他文本存在关联；所述视觉编码即对中登附件中存在的文本、图片等不同形式的信息进行标注，确定每一项信息的视觉信息，所述布局编码即对中登附件中各个存在的信息的布局进行识别、标注，确定每一个信息在中登附件中的布局。通过获取文本编码、视觉编码以及布局编码的结果，从而获取目标核心要素对应的编码信息。

需要指出的是，所述编码信息为计算机能够识别的信息。

需要指出的是，在对所述中登附件进行文本编码、视觉编码以及布局编码之后，从所述文本编码、视觉编码以及布局编码的结果中筛选出核心目标要素对应的编码。

S1500、根据预配置的特征解码规则对所述编码信息进行解码，获取所述目标核心要素对应的内容信息。

在获取所述目标核心要素对应的编码信息之后，由于得到的编码信息是计算机能够识别的信息，需要将编码信息转化为用户能够阅读的信息，首先获取编码信息的解码规则，该解码规则为预配置的解码规则，可以将所述编码信息映射为能够阅读的信息，即根据预配置的特征解码规则对所述编码信息进行解码，获取所述目标核心要素对应的内容信息，从而灵活地对中登附件存在的信息进行抽取，获取中登附件中指定核心要素对应的内容信息。

上述实施方式中，通过接收中登附件；响应于针对所述中登附件的目标核心要素的解析指令，生成所述目标核心要素对应的抽取任务；获取预训练的多模态模型；在所述多模态模型中对所述中登附件执行所述抽取任务，其中，执行所述抽取任务包括：对所述中登附件进行文本编码、视觉编码以及布局编码，获取所述目标核心要素对应的编码信息；根据预配置的特征解码规则对所述编码信息进行解码，获取所述目标核心要素对应的内容信息，基于对核心要素生成对应的抽取任务，灵活地对中登附件的核心要素进行内容抽取，并且基于预训练的多模态模型，可以针对中登附件中的核心要素的语义、核心要素间的关联以及核心要素的布局等模态对中登附件的核心要素进行内容解析，在特定阅读顺序下对中登附件进行解析，保证了对中登附件的核心要素的内容解析的准确率，提高了对中登附件的解析及查询效率，可以有效地提高中登附件查重的效率及准确性。

在一些实施方式中，所述目标核心要素包括第一核心要素和第二核心要素；S1200响应于针对所述中登附件的目标核心要素的解析指令，生成所述目标核心要素对应的抽取任务，包括：

S1211、响应于针对所述中登附件的目标核心要素的解析指令，获取预配置的核心要素阅读顺序；

在一种实施方式中，当一次确定的目标核心要素为多个时，将多个核心要素以第一核心要素和第二核心要素进行表征，在对多个核心要素的内容信息进行解析及抽取时，需要在特定的顺序下依次对核心要素进行抽取，具体的，响应于针对所述中登附件的目标核心要素的解析指令，获取预配置的核心要素阅读顺序，核心要素阅读顺序为模型训练时设计的阅读顺序，所述阅读顺序保留在数据库中，可以通过调用接口获取所述核心要素阅读顺序。

S1212、根据所述核心要素阅读顺序配置所述第一核心要素与所述第二核心要素的排序；

在获取预配置的核心要素阅读顺序之后，根据所述核心要素阅读顺序配置所述第一核心要素与所述第二核心要素的排序，即对第一核心要素及第二核心要素进行排序，可以知道，第一核心要素与所述第二核心要素并非是指代两个核心要素，可以是三个、四个甚至更多的核心要素，第一核心要素与所述第二核心要素仅仅是用于区分不同的核心要素。

S1213、当所述第一核心要素在所述第二核心要素的排序之前，生成所述第一核心要素的抽取任务；

在根据所述核心要素阅读顺序配置所述第一核心要素与所述第二核心要素的排序之后，其中一个核心要素排在前，另一个核心要素排在后，如果所述第一核心要素在所述第二核心要素的排序之前，则优先生成所述第一核心要素的抽取任务。

S1214、根据所述第一核心要素的抽取任务，生成所述第二核心要素的抽取任务，以使在执行所述第一核心要素的抽取任务之后再执行所述第二核心要素的抽取任务。

当所述第一核心要素在所述第二核心要素的排序之前，生成所述第一核心要素的抽取任务之后，由于第一核心要素在所述第二核心要素的排序之前，所述第二核心要素的抽取任务依赖于第一核心要素的抽取任务的执行结果，因此根据所述第一核心要素的抽取任务，生成所述第二核心要素的抽取任务，以使在执行所述第一核心要素的抽取任务之后再执行所述第二核心要素的抽取任务，即需要在第一核心要素的抽取任务执行完成之后，才能执行所述第二核心要素的抽取任务。

需要指出的是，如果所述第二核心要素在所述第一核心要素的排序之前，则先生成所述第二核心要素的抽取任务，再基于第二核心要素的抽取任务生成第一核心要素的抽取任务。

本实施方式通过获取中登附件中不同核心要素的阅读顺序，基于所述阅读顺序生成对应核心要素的抽取任务，一个核心要素的抽取任务依赖于另一个核心要素的抽取任务的结果，强化核心要素之间的语义关联及位置关联，有效地提高对中登附件中核心要素抽取的准确性，提高核心要素内容识别解析的准确率。

在一些实施方式中，S1500中根据预配置的特征解码规则对所述编码信息进行解码，获取所述目标核心要素对应的内容信息，包括：

S1511、获取所述第一核心要素的第一编码信息；

在根据预配置的特征解码规则对所述编码信息进行解码，获取所述目标核心要素对应的内容信息的过程中，由于当一次选定的目标核心要素为多个时，在上述实施例中，对每一个核心要素生成对应的抽取任务，及生成第一核心要素的抽取任务以及第二核心要素的抽取任务，此时，首先将第一核心要素的抽取任务在预训练的多模态模型中执行，从而获取所述第一核心要素的第一编码信息。

S1512、获取所述第二核心要素的第二编码信息；

在将第一核心要素的抽取任务在预训练的多模态模型中执行，从而获取所述第一核心要素的第一编码信息之后，依次对所述第一核心要素、第二核心要素的抽取任务进行执行，即将所述第二核心要素的抽取任务在预训练的多模态模型中执行，从而获取所述第二核心要素的第二编码信息。

需要指出的是，如果包含由第三核心要素，则根据顺序将第三核心要素的抽取任务在预训练的多模态模型中执行，从而获取所述第三核心要素的第二编码信息。

S1513、根据所述排序对所述第一编码信息与所述第二编码信息进行拼接，得到目标编码信息；

在获取所述第一核心要素的第一编码信息以及获取所述第二核心要素的第二编码信息，由于第一核心要素与第二核心要素存在语义关联以及位置关联，此时根据所述排序对所述第一编码信息与所述第二编码信息进行拼接，得到目标编码信息，即得到目标核心要素的编码信息。

S1514、根据预配置的特征解码规则对所述目标编码信息进行解码，获取所述目标核心要素对应的内容信息。

在得到已经拼接的目标核心要素的编码信息之后，根据预配置的特征解码规则对所述目标编码信息进行解码，获取所述目标核心要素对应的内容信息，从而在预设定的核心要素的阅读顺序下，依次对核心要素的抽取任务执行，然后根据核心要素的抽取任务执行后得到的编码信息进行拼接，完成且准且地呈现包含多个核心要素的目标核心要素对应的编码信息，再通过解析，从而获得目标核心要素的内容信息。

本实施方式通过在预设定的核心要素的阅读顺序下，依次对核心要素的抽取任务执行，然后根据核心要素的抽取任务执行后得到的编码信息进行拼接，完成且准且地呈现包含多个核心要素的目标核心要素对应的编码信息，再通过解析，从而获得目标核心要素的内容信息，提高中登附件中核心要素内容解析的完整性与准确性。

在一些实施方式中，S1211响应于针对所述中登附件的目标核心要素的解析指令，生成所述目标核心要素对应的抽取任务，包括：

S1221、响应于针对所述中登附件的目标核心要素的解析指令，获取预配置的核心要素阅读顺序；

在响应于针对所述中登附件的目标核心要素的解析指令，生成所述目标核心要素对应的抽取任务的过程中，存在一种实际场景下，仅仅对中登附件中的一个目标核心要素进行解析，而该目标核心要素的解析需要优先解析与其相关联的核心要素，因此，针对该场景，首先获取预配置的核心要素阅读顺序。

S1222、根据所述核心要素阅读顺序获取目标核心要素的前一核心要素；

在响应于针对所述中登附件的目标核心要素的解析指令，获取预配置的核心要素阅读顺序之后，根据所述核心要素阅读顺序获取目标核心要素的前一核心要素，例如核心要素“发票号”与“发票金额”为前后顺序的核心要素，当对目标核心要素“发票金额”进行解析时，获取目标核心要素“发票金额”的前一核心要素“发票号”。

S1223、生成所述前一核心要素的抽取任务，以基于所述抽取任务获得所述前一核心要素的内容信息；

在根据所述核心要素阅读顺序获取目标核心要素的前一核心要素之后，首先生成所述前一核心要素的抽取任务，然后基于所述抽取任务获得所述前一核心要素的编码信息以及解析所述编码信息，得到所述前一核心要素的内容信息，优先对前一核心要素进行解析。

S1224、根据所述前一核心要素的内容信息生成所述目标核心要素的抽取任务。

在生成所述前一核心要素的抽取任务，以基于所述抽取任务获得所述前一核心要素的内容信息之后，根据所述前一核心要素的内容信息生成所述目标核心要素的抽取任务，从而再执行所述目标核心要素的抽取任务，以获得目标核心要素的内容信息。优先解析前一核心要素，前一核心要素为首要阅读核心要素，后一核心要素为继续阅读核心要素，在前一核心要素的解析结果下，对后一核心要素进行解析，能够基于核心要素之间的关联性提高核心要素内容信息解析的准确率。

本实施方式通过核心要素之间的阅读顺序，优先解析前一核心要素，在前一核心要素的解析结果下，生成后一核心要素的抽取任务，再执行后一核心要素的抽取任务对后一核心要素进行解析，基于核心要素之间的关联性提高核心要素内容信息解析的准确率。

在一些实施方式中，所述S1400中对所述中登附件进行文本编码、视觉编码以及布局编码，获取所述目标核心要素对应的编码信息，包括：

S1411、针对所述中登附件进行文本提取，得到若干个文本，按照预设的输出顺序将若干个所述文本输出并标记，并为每一个文本分配预设的编码，得到文本编码信息；

在对所述中登附件进行文本编码的过程中，针对所述中登附件进行文本提取，得到若干个文本，按照预设的输出顺序将若干个所述文本输出并标记，并为每一个文本分配预设的编码，得到文本编码信息。例如，使用ocr工具或者文字提取工具，将中登附件原始数据中的可能存在的文本信息按照提取顺序进行输出，具体输出顺序为从左到右，从上到下，输出的信息中不仅包括文字信息，还需要包括文字坐标信息，然后使用分词工具得到每个单独文本的分词id，即token_id，然后根据token_id获得三类不同的信息，分别是由预训练模型得到的token表示信息、表示阅读顺序的index信息，是否是一句话终止位的cls信息，将这三种信息进行累加，得到最终的文本编码信息。

S1412、针对所述中登附件进行整体图像编码，得到整体图像信息，将所述整体图像信息重组成预设形状的数据结构，得到视觉编码信息，所述预设形状的数据结构为与所述文本编码信息对齐的数据结构；

在对所述中登附件进行视觉编码的过程中，针对所述中登附件进行整体图像编码，得到整体图像信息，将所述整体图像信息重组成预设形状的数据结构，得到视觉编码信息，所述预设形状的数据结构为与所述文本编码信息对齐的数据结构。例如，使用ResNet-FPN得到整个中登附件表示的图片的编码信息，将这种编码信息重组成固定形状的数据结构，以保证能够和文本编码器输出的编码信息对齐。

S1413、针对中登附件的文字以及内容图像的位置信息进行编码，得到布局编码信息；

在对所述中登附件进行布局编码的过程中，针对中登附件的文字以及内容图像的位置信息进行编码，得到布局编码信息。该编码器主要为了获得文字、图像等在中登附件表示的图片中的位置信息，位置信息包括文字框或者图像框左上点及右下点，相对于整个图片左上角的相对位置偏移坐标，拿到位置信息之后经过拼接，使用一层简单的全连接神经网络进行编码，获得最终的布局编码信息。

S1414、将所述文本编码信息、所述视觉编码信息、所述布局编码信息以注意力加权的方式进行融合，得到中登附件的编码信息，其中，所述中登附件的编码信息包含所述目标核心要素对应的编码信息。

在对所述中登附件进行文本编码、视觉编码以及布局编码之后，将所述文本编码信息、所述视觉编码信息、所述布局编码信息以注意力加权的方式进行融合，得到中登附件的编码信息，其中，所述中登附件的编码信息包含所述目标核心要素对应的编码信息。

需要指出的是，将所述文本编码信息、所述视觉编码信息、所述布局编码信息以注意力加权的方式进行融合包括：

计算文本编码信息、视觉编码信息以及布局编码信息的相似度矩阵；

对所述相似度矩阵进行归一化，得到注意力权值；

根据所述注意力权值将所述文本编码信息、所述视觉编码信息、所述布局编码信息以注意力加权的方式进行融合，得到中登附件的编码信息。

例如，将三种编码器输出的特征进行融合，其具体融合方式是三种特征以注意力加权的方式进行叠加，注意力加权的计算依据主要是transformer的qkv机制，通过计算文本编码信息、视觉编码信息的相似度矩阵，再经过softmax归一化得到注意力权值，再对三种输出特征进行加权求和得到最终的编码输出。

本实施方式对文本编码信息、所述视觉编码信息、所述布局编码信息以注意力加权的方式进行融合，能够平衡各种编码信息之间的数据，使得到的最终的编码信息更加准确，提高中登附件解析识别的准确率。

在一些实施方式中，S1100接收中登附件之后，还包括：

S1111、对所述中登附件进行OCR识别，提取所述中登附件包含的特征；

在接收中登附件之后，并非实时地对中登附件进行解析，可以对所述中登附件进行OCR识别，提取所述中登附件包含的特征，所述特征包括文本、图像、文本及图像的位置、文本及图像的相对位置等特征。

S1112、对所述特征进行标注；

当提取所述中登附件包含的特征之后，对所述特征进行标注，标注内容包括文本所在区域框，图像返写的实际文本，文本的要素类型和要素值，文本的阅读顺序索引。

S1113、将提取到的特征、所述特征的标注与所述中登附件进行关联缓存。

在提取所述中登附件包含的特征以及对所述特征进行标注之后，将提取到的特征、所述特征的标注与所述中登附件进行关联缓存，在下一次的中登附件的目标核心要素的抽取时，由于已经提前预先缓存了中登附件的特征，后续可以直接使用已缓存的中登附件的特征。

本实施方式通过提取所述中登附件包含的特征，对所述特征进行标注，对所述特征进行标注，在下一次的中登附件的目标核心要素的抽取时，由于已经提前预先缓存了中登附件的特征，可以直接使用已缓存的中登附件的特征，提高了对中登附件的目标核心要素的抽取效率以及内容解析的效率。

在一些实施方式中，所述S1500根据预配置的特征解码规则对所述编码信息进行解码，获取所述目标核心要素对应的内容信息之后，还包括：

S1611、根据所述目标核心要素的内容信息对所述中登附件进行去重筛查，得到去重筛查结果；

在根据预配置的特征解码规则对所述编码信息进行解码，获取所述目标核心要素对应的内容信息之后，根据所述目标核心要素的内容信息对所述中登附件进行去重筛查，得到去重筛查结果，即查询是否存在目标核心要素的内容相同的其他中登附件，从而对已上传的中登附件进行查重，避免中登附件存在相同而造成重复抵押的风险。

S1612、根据所述去重筛查结果标记所述中登附件的可登记状态。

在根据所述目标核心要素的内容信息对所述中登附件进行去重筛查，得到去重筛查结果之后，根据所述去重筛查结果标记所述中登附件的可登记状态，如果去重筛查的结果为无相同的中登附件，则该中登附件的可登记状态则标记为是，如果去重筛查的结果为存在相同的中登附件，则该中登附件的可登记状态则标记为否，从而直接输出查重结果，对已上传的中登附件进行查重，避免中登附件存在相同而造成重复抵押的风险。

本实施方式通过根据所述目标核心要素的内容信息对所述中登附件进行去重筛查，得到去重筛查结果，根据所述去重筛查结果标记所述中登附件的可登记状态，对已上传的中登附件进行查重，直接输出查重结果并进行标记，避免中登附件存在相同而造成重复抵押的风险。

具体请参阅图2，图2为本实施例基于多模态模型的中登附件的解析装置基本结构示意图。

如图2所示，一种基于多模态模型的中登附件的解析装置，包括：附件接收模块1100、任务生成模块1200、模型获取模块1300、模型调用模块1400和信息解码模块1500。其中，附件接收模块1100，用于接收中登附件；任务生成模块1200，用于响应于针对所述中登附件的目标核心要素的解析指令，生成所述目标核心要素对应的抽取任务；模型获取模块1300，用于获取预训练的多模态模型；模型调用模块1400，用于在所述多模态模型中对所述中登附件执行所述抽取任务，其中，执行所述抽取任务包括：对所述中登附件进行文本编码、视觉编码以及布局编码，获取所述目标核心要素对应的编码信息；信息解码模块1500，用于根据预配置的特征解码规则对所述编码信息进行解码，获取所述目标核心要素对应的内容信息；

上述的基于多模态模型的中登附件的解析装置通过接收中登附件；响应于针对所述中登附件的目标核心要素的解析指令，生成所述目标核心要素对应的抽取任务；获取预训练的多模态模型；在所述多模态模型中对所述中登附件执行所述抽取任务，其中，执行所述抽取任务包括：对所述中登附件进行文本编码、视觉编码以及布局编码，获取所述目标核心要素对应的编码信息；根据预配置的特征解码规则对所述编码信息进行解码，获取所述目标核心要素对应的内容信息，基于对核心要素生成对应的抽取任务，灵活地对中登附件的核心要素进行内容抽取，并且基于预训练的多模态模型，可以针对中登附件中的核心要素的语义、核心要素间的关联以及核心要素的布局等模态对中登附件的核心要素进行内容解析，在特定阅读顺序下对中登附件进行解析，保证了对中登附件的核心要素的内容解析的准确率，提高了对中登附件的解析及查询效率，可以有效地提高中登附件查重的效率及准确性。

可选地，所述任务生成模块1200还用于：

根据所述第一核心要素的抽取任务，生成所述第二核心要素的抽取任务，以使在执行所述第一核心要素的抽取任务之后再执行所述第二核心要素的抽取任务。

可选地，所述信息解码模块1500还用于：

获取所述第一核心要素的第一编码信息；

获取所述第二核心要素的第二编码信息；

可选地，所述任务生成模块1200还用于：

可选地，所述模型调用模块1400还用于；

可选地，所述附件接收模块1100还用于；

对所述特征进行标注；

可选地，还包括去重筛查模块1600，用于：

根据所述去重筛查结果标记所述中登附件的可登记状态。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图3，图3为本实施例计算机设备基本结构框图。

如图3所示，计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中，该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种交易凭证上链法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种基于多模态模型的中登附件的解析方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图2中附件接收模块1100、任务生成模块1200、模型获取模块1300、模型调用模块1400和信息解码模块1500的具体功能，存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有基于多模态模型的中登附件的解析装置中执行所有子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

计算机设备通过接收中登附件；响应于针对所述中登附件的目标核心要素的解析指令，生成所述目标核心要素对应的抽取任务；获取预训练的多模态模型；在所述多模态模型中对所述中登附件执行所述抽取任务，其中，执行所述抽取任务包括：对所述中登附件进行文本编码、视觉编码以及布局编码，获取所述目标核心要素对应的编码信息；根据预配置的特征解码规则对所述编码信息进行解码，获取所述目标核心要素对应的内容信息，基于对核心要素生成对应的抽取任务，灵活地对中登附件的核心要素进行内容抽取，并且基于预训练的多模态模型，可以针对中登附件中的核心要素的语义、核心要素间的关联以及核心要素的布局等模态对中登附件的核心要素进行内容解析，在特定阅读顺序下对中登附件进行解析，保证了对中登附件的核心要素的内容解析的准确率，提高了对中登附件的解析及查询效率，可以有效地提高中登附件查重的效率及准确性。

本申请还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任一实施例基于多模态模型的中登附件的解析方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）等非易失性存储介质，或随机存储记忆体（Random Access Memory，RAM）等。

本技术领域技术人员可以理解，本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种基于多模态模型的中登附件的解析方法，其特征在于，包括：

接收中登附件；

获取预训练的多模态模型；

根据预配置的特征解码规则对所述编码信息进行解码，获取所述目标核心要素对应的内容信息；

根据所述去重筛查结果标记所述中登附件的可登记状态；

所述目标核心要素包括第一核心要素和第二核心要素；所述响应于针对所述中登附件的目标核心要素的解析指令，生成所述目标核心要素对应的抽取任务，包括：

根据所述第一核心要素的抽取任务，生成所述第二核心要素的抽取任务，以使在执行所述第一核心要素的抽取任务之后再执行所述第二核心要素的抽取任务，其中，所述第二核心要素的抽取任务依赖于所述第一核心要素的抽取任务的结果，所述核心要素阅读顺序用于强化所述第一核心要素和第二核心要素之间的语义关联和位置关联。

2.根据权利要求1所述的基于多模态模型的中登附件的解析方法，其特征在于，所述根据预配置的特征解码规则对所述编码信息进行解码，获取所述目标核心要素对应的内容信息，包括：

获取所述第一核心要素的第一编码信息；

获取所述第二核心要素的第二编码信息；

3.根据权利要求1所述的基于多模态模型的中登附件的解析方法，其特征在于，所述响应于针对所述中登附件的目标核心要素的解析指令，生成所述目标核心要素对应的抽取任务，包括：

4.根据权利要求1所述的基于多模态模型的中登附件的解析方法，其特征在于，所述对所述中登附件进行文本编码、视觉编码以及布局编码，获取所述目标核心要素对应的编码信息，包括：

5.根据权利要求1所述的基于多模态模型的中登附件的解析方法，其特征在于，所述接收中登附件之后，还包括：

对所述特征进行标注；

6.一种基于多模态模型的中登附件的解析装置，其特征在于，包括：

附件接收模块，用于接收中登附件；

模型获取模块，用于获取预训练的多模态模型；

信息解码模块，用于根据预配置的特征解码规则对所述编码信息进行解码，获取所述目标核心要素对应的内容信息；

重筛查模块，用于根据所述目标核心要素的内容信息对所述中登附件进行去重筛查，得到去重筛查结果；

根据所述去重筛查结果标记所述中登附件的可登记状态；

所述任务生成模块还用于：

7.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至5中任一项权利要求所述基于多模态模型的中登附件的解析方法的步骤。

8.一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至5中任一项权利要求所述基于多模态模型的中登附件的解析方法的步骤。