CN116503877A

CN116503877A - 文本信息提取方法及装置、存储介质、计算机设备

Info

Publication number: CN116503877A
Application number: CN202310466847.8A
Authority: CN
Inventors: 周恩国
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2023-04-19
Filing date: 2023-04-19
Publication date: 2023-07-28

Abstract

本发明公开了一种文本信息提取方法及装置、存储介质、计算机设备，涉及人工智能领域，主要目的在于解决文本信息提取准确度较低的问题。主要包括获取待识别文本图像的多模态特征向量，所述多模态特征向量包括文本特征向量、视觉特征向量、位置特征向量；利用已完成训练的多模态文本信息提取模型的编码层对所述多模态特征向量进行多模态特征融合处理，得到所述待识别文本图像中每个字符的序列化表征向量；利用所述已完成训练的多模态文本信息提取模型的解码层对所述序列化表征向量进行预测处理，生成所述待识别文本图像的目标文本序列。主要用于提取图像中的文本信息。

Description

文本信息提取方法及装置、存储介质、计算机设备

技术领域

本发明涉及一种人工智能领域，特别是涉及一种文本信息提取方法及装置、存储介质、计算机设备。

背景技术

随着计算机、互联网技术的发展以及拍照设备的普及，越来越多的信息传递已经从纸质文件的传输转变为图片形式的传输，例如，保险投保用户可以通过对纸质病历进行拍照，并将病历照片上传至保险理赔系统，便可以完成保险理赔凭证的上传。作为图片的接收方，则可以基于图像识别技术对图片凭证中的文本信息进行提取，从而完成对文本信息的审核、归纳等工作。

现有对图片中文本信息进行提取的方法，主要基于光学字符识别技术对图片中的文本信息进行提取。但当图片的拍摄质量较低，如，图片的拍摄角度出现歪斜、图片中部分内容存在阴影等时，提取到的文本信息会出现文字顺序错乱、语音错乱等问题，导致提取到的文本信息准确度较低的问题。

发明内容

有鉴于此，本发明提供一种文本信息提取方法及装置、存储介质、计算机设备，主要目的在于现有的问题。

依据本发明一个方面，提供了一种文本信息提取方法，包括：

获取待识别文本图像的多模态特征向量，所述多模态特征向量包括文本特征向量、视觉特征向量、位置特征向量；

利用已完成训练的多模态文本信息提取模型的编码层对所述多模态特征向量进行多模态特征融合处理，得到所述待识别文本图像中每个字符的序列化表征向量；

利用所述已完成训练的多模态文本信息提取模型的解码层对所述序列化表征向量进行预测处理，生成所述待识别文本图像的目标文本序列。

进一步地，所述位置特征向量包括检测框位置向量、分割图像位置向量，所述获取待识别文本图像的多模态特征向量之前，所述方法还包括：

获取所述待识别文本图像，所述待识别文本图像至少包括医疗诊治文本图像、交易文本图像中的一个；

从所述待识别文本图像中识别出包含文本信息的检测框及检测框位置向量，并对所述检测框的内容进行识别，得到文本特征向量；

对所述待识别文本图像进行图像视觉特征提取，得到所述待识别文本图像的视觉特征向量及分割图像位置向量。

进一步地，所述获取所述待识别文本图像之前，所述方法还包括：

响应于待审核项的审核请求，获取所述待审核项的审核凭证、属性信息；

基于所述审核凭证确定至少一个待识别文本图像，并基于所述属性信息确定目标审核实体类别、目标审核条件，以基于所述目标审核实体类别、所述目标审核条件审核所述审核凭证。

进一步地，所述利用所述已完成训练的多模态文本信息提取模型的解码层对所述序列化表征向量进行预测处理，生成所述待识别文本图像的目标文本序列之后，所述方法还包括：

从所述目标文本序列中提取出与所述目标审核实体类别匹配的待审核信息；

基于所述目标审核条件对所述待审核信息进行匹配校验，并根据匹配校验结果确定所述待审核项的审核结果；

将所述审核结果发送至审核请求终端。

进一步地，所述位置特征向量包括一维位置特征向量、二维位置特征向量，所述利用已完成训练的多模态文本信息提取模型的编码层对所述多模态特征向量进行多模态特征融合处理，得到所述待识别文本图像中每个字符的序列化表征向量包括：

将所述视觉特征向量与所述文本特征向量进行拼接处理，得到视觉文本特征拼接向量；

利用所述编码层对所述视觉文本特征拼接向量、所述一维位置特征向量、所述二维位置特征向量进行多模态特征融合处理，得到所述待识别文本图像中每个字符的序列化表征向量。

进一步地，所述利用已完成训练的多模态文本信息提取模型的编码层对所述多模态特征向量进行多模态特征融合处理，得到所述待识别文本图像中每个字符的序列化表征向量之前，所述方法还包括：

获取训练样本集合，并构建初始多模态文本信息提取模型，所述初始多模态文本信息提取模型包括编码层、解码层；

基于所述训练样本集合对初始多模态文本信息提取模型进行训练，得到已完成训练的多模态文本信息提取模型。

进一步地，所述待识别图像为病历图像，所述获取训练样本集合之前，所述方法还包括：

获取至少一个关联对象的全局科室的历史病历图像；

针对每个所述历史病历图像进行图像视觉特征提取、及光学字符识别，得到所述历史病历图像的多模态特征向量样本；

将每个所述历史病历图像的多模态特征向量样本作为一个训练样本，并基于所述训练样本构建得到训练样本集合。

依据本发明另一个方面，提供了一种文本信息提取装置，包括：

获取模块，用于获取待识别文本图像的多模态特征向量，所述多模态特征向量包括文本特征向量、视觉特征向量、位置特征向量；

融合模型，用于利用已完成训练的多模态文本信息提取模型的编码层对所述多模态特征向量进行多模态特征融合处理，得到所述待识别文本图像中每个字符的序列化表征向量；

预测模块，用于利用所述已完成训练的多模态文本信息提取模型的解码层对所述序列化表征向量进行预测处理，生成所述待识别文本图像的目标文本序列。

进一步地，所述装置还包括：

所述获取模块，还用于获取所述待识别文本图像，所述待识别文本图像至少包括医疗诊治文本图像、交易文本图像中的一个；

第一识别模块，用于从所述待识别文本图像中识别出包含文本信息的检测框及检测框位置向量，并对所述检测框的内容进行识别，得到文本特征向量；

第一提取模块，用于对所述待识别文本图像进行图像视觉特征提取，得到所述待识别文本图像的视觉特征向量及分割图像位置向量。

进一步地，所述装置还包括：

所述获取模块，还用于响应于待审核项的审核请求，获取所述待审核项的审核凭证、属性信息；

确定模块，用于基于所述审核凭证确定至少一个待识别文本图像，并基于所述属性信息确定目标审核实体类别、目标审核条件，以基于所述目标审核实体类别、所述目标审核条件审核所述审核凭证。

进一步地，所述装置还包括：

第二提取模块，用于从所述目标文本序列中提取出与所述目标审核实体类别匹配的待审核信息；

校验模块，用于基于所述目标审核条件对所述待审核信息进行匹配校验，并根据匹配校验结果确定所述待审核项的审核结果；

发送模块，用于将所述审核结果发送至审核请求终端。

进一步地，融合模块包括：

拼接单元，用于将所述视觉特征向量与所述文本特征向量进行拼接处理，得到视觉文本特征拼接向量；

处理单元，用于利用所述编码层对所述视觉文本特征拼接向量、所述一维位置特征向量、所述二维位置特征向量进行多模态特征融合处理，得到所述待识别文本图像中每个字符的序列化表征向量。

进一步地，所述装置还包括：

第一构建模块，用于获取训练样本集合，并构建初始多模态文本信息提取模型，所述初始多模态文本信息提取模型包括编码层、解码层；

训练模块，用于基于所述训练样本集合对初始多模态文本信息提取模型进行训练，得到已完成训练的多模态文本信息提取模型。

进一步地，所述装置还包括：

所述获取模块，还用于获取至少一个关联对象的全局科室的历史病历图像；

第二识别模块，用于针对每个所述历史病历图像进行图像视觉特征提取、及光学字符识别，得到所述历史病历图像的多模态特征向量样本；

第二构建模块，用于将每个所述历史病历图像的多模态特征向量样本作为一个训练样本，并基于所述训练样本构建得到训练样本集合。

根据本发明的又一方面，提供了一种存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如上述文本信息提取方法对应的操作。

根据本发明的再一方面，提供了一种计算机设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述文本信息提取方法对应的操作。

借由上述技术方案，本发明实施例提供的技术方案至少具有下列优点：

本发明提供了一种文本信息提取方法及装置、存储介质、计算机设备，首先获取待识别文本图像的多模态特征向量，所述多模态特征向量包括文本特征向量、视觉特征向量、位置特征向量；利用已完成训练的多模态文本信息提取模型的编码层对所述多模态特征向量进行多模态特征融合处理，得到所述待识别文本图像中每个字符的序列化表征向量；利用所述已完成训练的多模态文本信息提取模型的解码层对所述序列化表征向量进行预测处理，生成所述待识别文本图像的目标文本序列。与现有技术相比，本发明实施例通过提取文本图像中的图像视觉特征、文本特征、位置特征多模态特征信息，并对多模态特征向量进行融合处理，得到融合有丰富特征的文本序列，进而基于文本序列进行文本顺序的预测，能够避免由于图像采集偏差造成的字符顺序错乱的问题，从而有效提升文本信息提取的准确性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种文本信息提取方法流程图；

图2示出了本发明实施例提供的另一种文本信息提取方法流程图；

图3示出了本发明实施例提供的一种文本信息提取装置组成框图；

图4示出了本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(AI：Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

针对现有对图片中文本信息进行提取的方法，主要基于光学字符识别技术对图片中的文本信息进行提取。但当图片的拍摄质量较低，如，图片的拍摄角度出现歪斜、图片中部分内容存在阴影等时，提取到的文本信息会出现文字顺序错乱、语音错乱等问题，导致提取到的文本信息准确度较低的问题。本发明实施例提供了一种文本信息提取方法，如图1所示，以该方法应用于服务器等计算机设备为例进行说明，其中，服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN：Content Delivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器，如智能医疗系统、数字医疗平台等。该方法包括：

获取待识别文本图像的多模态特征向量。

本发明实施例中，待识别文本图像为需要进行文本信息提取的目标对象文本的图像，例如，病历归档、患者建档过程中采集的患者病历文本图像、出院小结文本图像，保险自动理赔环节中报案用户通过手机拍摄的病历文本的图片、住院收费明细的图片，也可以为除医疗服务领域以外的其他领域的文本的图像，特别是包含复杂表格的文本的图像，本发明实施例不做具体限定。图像的采集方式可以通过数码拍照设备采集，也可以通过扫描设备采集，本发明实施例不做具体限定。为了对待识别文本图像中的文本信息进行准确的识别，获取能够表征待识别文本图像视觉信息及图像中文本的文本信息及文本位置信息的多模态特征向量，其中，多模态特征向量包括文本特征向量、视觉特征向量、位置特征向量。多模态特征向量的提取方式可以使用现行的图像文本提取方式，例如，光学字符识别(OCR：Optical Character Recognition)、PDF解析器(PDF parser)等，本发明实施例不做具体限定。同时，利用视觉编码器提取待识别文本图像的视觉特征向量。

利用已完成训练的多模态文本信息提取模型的编码层对所述多模态特征向量进行多模态特征融合处理，得到所述待识别文本图像中每个字符的序列化表征向量。

本发明实施例中，多模态文本信息提取模型为基于Sequence2Sequenced框架构建的包括编码层(Encoder)、解码层(Decoder)的神经网络模型。其中，编码层的基础模型为多模态预训练模型，例如，LayoutXLM、LayoutMv2等，本发明实施例不做具体限定。多模态预训练模型是由多层具备空间感知注意力学习机制的Transformer构成的，将文本特征向量、视觉特征向量、位置特征向量作为编码层的输入，通过多层的空间感知学习，实现对文本信息与文本空间位置信息、图像视觉信息的有效融合，使待识别文本图像中的每个字符的文本特征与位置特征、视觉特征相融合，得到每个字符的序列化表征向量。

需要说明的是，通过获取所述待识别文本图像的视觉特征向量，及图像中文本的文本特征向量、位置特征向量，并对文本、图像两个模态的特征进行融合，能够使得后续文本顺序预测任务的输入特征更为丰富，避免由于图像采集过程中的文本歪斜等问题造成提取到的文本顺序偏差，从而提升文本信息的提取准确性。

103、利用所述已完成训练的多模态文本信息提取模型的解码层对所述序列化表征向量进行预测处理，生成所述待识别文本图像的目标文本序列。

本发明实施例中，编码层为基于线性递归神经网络构建并训练得到的模型，例如，循环神经网络(RNN：Recurrent Neural Networks)、长短记忆模型(LSTM：Long Short TermMemory)、门循环单元GTU(Gate Recurrent Unit)等，本发明实施例不做具体限定。编码层以生成式的方式，基于文本中每个字符的序列化表征向量、上一时刻的输出结果，预测剩余的字符中下一时刻出现的概率，并将概率最大的字符生成为当前时刻的字符。例如，编码层的输入为“左脚踝骨折周三余”，上一时刻的输出为“左脚踝骨折”，则预测剩余字符中“三”为当前时刻出现概率最大的字符，则当前时刻的输出结果为“左脚踝骨折三”。基于生成式的解码方式，相较于传统的分类任务，能够有效降低模型的推理难度，实现对更为复杂的表格问题的解决，从而更自然地拟合阅读顺序生成任务。

在一个本发明实施例中，为了进一步说明及限定，如图2所示，步骤所述获取待识别文本图像的多模态特征向量之前，所述方法还包括：

201、获取所述待识别文本图像。

202、从所述待识别文本图像中识别出包含文本信息的检测框及检测框位置向量，并对所述检测框的内容进行识别，得到文本特征向量。

203、对所述待识别文本图像进行图像视觉特征提取，得到所述待识别文本图像的视觉特征向量及分割图像位置向量。

本发明实施例中，应用场景为保险理赔自动审核或病历信息智能归档场景，因此，需要进行文本提取的待识别文本图像至少包括医疗诊治文本图像、交易文本图像中的一项。位置特征向量包括检测框位置向量、分割图像位置向量，为了提取待识别文本图像中的文本信息，从存储有病历资料的服务器或接收客户端上传保险理赔凭证的终端获取所述待识别文本图像，进而基于OCR方法检测待识别文本图像中包含文本信息的检测框，并获取每个检测框的位置信息，例如，获取检测框左上角点的坐标信息及检测框长、宽信息作为检测框的位置信息，也可以基于检测框的x、y的最大值作为检测框的位置信息，本发明实施例不做具体限定。进而对每个检测框中的文本信息进行识别，得到待识别文本图像中每个字符的文本特征向量。同时，基于视觉编码器对待识别文本图像进行分割，并针对分割后的每一部分图像分别提取视觉特征向量及图像的位置特征向量。例如，将待识别文本图像的横向、纵向1/2位置作为分割线对图像进行分割，得到左上、右上、左下、右下四块图像，并对四块图像分别进行特征提取，得到四块图像视觉特征向量，如V1、V2、V3、V4分别依次代表左上、右上、左下、右下四块图像的视觉向量。

在一个本发明实施例中，为了进一步说明及限定，所述获取所述待识别文本图像之前，所述方法还包括：

本发明实施例中，待审核项为当前需要对相关文本图像形式的凭证进行审核的项目。例如，需要审核的保险理赔案件、保险核保案件等。现以保险理赔案件为例，对审核过程进行具体说明。待审核项为当前需要进行保险理赔审核的案件，当该待审核项所对应的被保人将审核凭证传输到保险理赔自动审核系统之后，由系统自动或由相关负责人发出保险理赔审核请求。根据该请求所对应的待审核项获取审核凭证、属性信息。其中，审核凭证可以为医疗诊治文本图像、交易文本图像中的一项或两项，其中，医疗诊治文本图像可以为病历文本图像、出院小结图像、化验单图像等，交易文本图像可以为门诊收费明细图像、住院收费明细图像、医院收费发票图像等，本发明实施例不做具体限定。属性信息可以包括承保保险的保险合同、承保类型、报案事由等。将审核凭证中的每一张文本图像确定为一个待识别文本图像，得到至少一个待识别文本图像。并根据属性信息确定目标审核实体类别、目标审核条件。其中，目标审核实体类别可以基于属性信息中的承保类别确定，例如，承保类别为意外险，则目标审核实体类别为受伤部位、主诉、病因等，承保类别为大病险，则目标审核实体类别为疾病、治疗操作、病程等。也可以根据报案事由，或结合报案事由及承保类别共同确定目标审核实体类别，本发明实施例不做具体限定。目标审核条件可以基于保险合同中的保险范围确定例如，针对疾病类，提取对应保险合同中的保险范围所列的疾病作为目标审核条件，针对交易收费明细、发票等，则提取对应保险合同中的报销范围、免赔额、赔付上限等作为目标审核条件，也可以基于健康告知内容作为目标审核条件。当然也可以基于承保类别、保险产品直接从系统中调取预先配置的目标审核条件，本发明实施例不做具体限定。

在一个本发明实施例中，为了进一步说明及限定，所述利用所述已完成训练的多模态文本信息提取模型的解码层对所述序列化表征向量进行预测处理，生成所述待识别文本图像的目标文本序列之后，所述方法还包括：

将所述审核结果发送至审核请求终端。

本发明实施例中，基于命名实体识别方法从目标文本序列识别出符合目标审核实体类别的命名实体，例如，目标审核实体类别为疾病，则从目标文本序列中提取出全部疾病类别的命名实体，将这些命名实体作为待审核信息。需要说明的是，目标审核实体类别可以为一个类别，也可以为多个类别，可以根据具体应用需求自定义，本发明实施例不做具体限定。得到待审核信息之后，基于将待审核信息与目标审核条件进行匹配，以确定目标审核条件中是否包括待审核信息中的命名实体，具体可以通过计算待审核信息中的命名实体与目标审核条件中命名实体相似度的方式确定，本发明实施例不做具体限定。当目标审核条件为基于保险合同确定的时，若匹配结果为待审核信息与目标审核条件匹配，则确定审核结果为通过，反之，为审核结果为未通过。当目标审核条件为基于健康告知书确定的时，若匹配结果为待审核信息与目标审核条件匹配，则确定审核结果为未通过，反之，为审核结果为通过。例如，待审核项为保险理赔案件，确定出目标审核实体类别为疾病，目标审核条件为保险产品合同，则基于实体识别方法从审核凭证中提取疾病信息，将疾病信息与保险产品合同进行匹配，若保险产品合同的赔付范围不包含当前提取到的疾病信息，则确定审核结果为不通过，拒绝赔付，若疾病信息在保险产品合同的赔付范围内，则确定审核结果为通过。

在一个本发明实施例中，为了进一步说明及限定，所述所述位置特征向量包括一维位置特征向量、二维位置特征向量，所述利用已完成训练的多模态文本信息提取模型的编码层对所述多模态特征向量进行多模态特征融合处理，得到所述待识别文本图像中每个字符的序列化表征向量包括：

本发明实施例中，为了便于编码层对多模态特征进行融合，在将多模态特征向量输入到编码层之前，将视觉特征向量与文本特征向量进行拼接处理。例如，视觉特征向量为V1 V2 V3 V4，文本特征向量为T1 T2 T3……T8，则视觉文本特征拼接向量为V1 V2 V3 V4[CLS]T1 T2 T3……T8[SEP]。相应地，一维位置特征向量包括V1 V2 V3 V4所对应图像的一维位置特征向量与T1 T2T3……T8所对应文本的一维位置特征向量的拼接结果，二维位置特征向量包括V1 V2 V3 V4所对应图像的二维位置特征向量与T1 T2 T3……T8所对应文本的二维位置特征向量的拼接结果。其中，一维位置特征向量用于表征文本所在检测框在所有检测框中的顺序，二维位置特征向量用于表征不同文本在不同检测框中的二维位置特征。进而基于多模态预训练模型对每个字符的视觉文本特征拼接向量、一维位置特征向量、二维位置特征向量进行深度学习及特征融合，得到每个字符的序列化表征向量。

在一个本发明实施例中，为了进一步说明及限定，所述利用已完成训练的多模态文本信息提取模型的编码层对所述多模态特征向量进行多模态特征融合处理，得到所述待识别文本图像中每个字符的序列化表征向量之前，所述方法还包括：

获取训练样本集合，并构建初始多模态文本信息提取模型；

本发明实施例中，为了实现对待识别文本图像的文本信息提取，构建初始多模态文本信息提取模型，该模型包括编码层、解码层。其中的编码层为多模态预训练语音模型，可以是基于大量医学病历语料或其他文本语料完成预训练过程的模型。初始多模态文本信息提取模型的训练过程，为对编码层，多模态预训练语音模型的微调训练过程，以及对解码层的训练过程。模型训练的损失函数可以为交叉熵函数，本发明实施例不做具体限定。

在一个本发明实施例中，为了进一步说明及限定，所述所述待识别图像为病历图像，所述获取训练样本集合之前，所述方法还包括：

获取至少一个关联对象的全局科室的历史病历图像；

本发明实施例中，关联对象为与病历提取方存在关联关系的医院，例如，某保险公司仅承认三甲及以上医院的诊断结果，则该保险公司业务覆盖城市所有的三甲及以上医院为关联对象。全局科室即为每个医院全部的科室。通过获取关联医院及全局科室的病历文本图像，能够使初始模型得到更好的训练，能够更好的学习到不同医院不同科室病历文本的特征，从而提高模型的训练效果。在得到历史病历图像之后，为了保证训练过程与实际应用过程的一致性，使模型的效果得到最大化的发挥，分别提取每个历史病历图像的多模态特征向量，并将每个多模态特征向量作为一个训练样本，构建训练样本集。

本发明提供了一种文本信息提取方法，首先获取待识别文本图像的多模态特征向量，所述多模态特征向量包括文本特征向量、视觉特征向量、位置特征向量；利用已完成训练的多模态文本信息提取模型的编码层对所述多模态特征向量进行多模态特征融合处理，得到所述待识别文本图像中每个字符的序列化表征向量；利用所述已完成训练的多模态文本信息提取模型的解码层对所述序列化表征向量进行预测处理，生成所述待识别文本图像的目标文本序列。与现有技术相比，本发明实施例通过提取文本图像中的图像视觉特征、文本特征、位置特征多模态特征信息，并对多模态特征向量进行融合处理，得到融合有丰富特征的文本序列，进而基于文本序列进行文本顺序的预测，能够避免由于图像采集偏差造成的字符顺序错乱的问题，从而有效提升文本信息提取的准确性。

进一步的，作为对上述图1所示方法的实现，本发明实施例提供了一种文本信息提取装置，如图3所示，该装置包括：

获取模块31，用于获取待识别文本图像的多模态特征向量，所述多模态特征向量包括文本特征向量、视觉特征向量、位置特征向量；

融合模块32，用于利用已完成训练的多模态文本信息提取模型的编码层对所述多模态特征向量进行多模态特征融合处理，得到所述待识别文本图像中每个字符的序列化表征向量；

预测模块33，用于利用所述已完成训练的多模态文本信息提取模型的解码层对所述序列化表征向量进行预测处理，生成所述待识别文本图像的目标文本序列。

进一步地，所述装置还包括：

所述获取模块31，还用于获取所述待识别文本图像，所述待识别文本图像至少包括医疗诊治文本图像、交易文本图像中的一个；

进一步地，所述装置还包括：

所述获取模块31，还用于响应于待审核项的审核请求，获取所述待审核项的审核凭证、属性信息；

进一步地，所述装置还包括：

发送模块，用于将所述审核结果发送至审核请求终端。

进一步地，融合模块包括：

进一步地，所述装置还包括：

所述获取模块31，还用于获取至少一个关联对象的全局科室的历史病历图像；

本发明提供了一种文本信息提取装置，首先获取待识别文本图像的多模态特征向量，所述多模态特征向量包括文本特征向量、视觉特征向量、位置特征向量；利用已完成训练的多模态文本信息提取模型的编码层对所述多模态特征向量进行多模态特征融合处理，得到所述待识别文本图像中每个字符的序列化表征向量；利用所述已完成训练的多模态文本信息提取模型的解码层对所述序列化表征向量进行预测处理，生成所述待识别文本图像的目标文本序列。与现有技术相比，本发明实施例通过提取文本图像中的图像视觉特征、文本特征、位置特征多模态特征信息，并对多模态特征向量进行融合处理，得到融合有丰富特征的文本序列，进而基于文本序列进行文本顺序的预测，能够避免由于图像采集偏差造成的字符顺序错乱的问题，从而有效提升文本信息提取的准确性。

根据本发明一个实施例提供了一种存储介质，所述存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的文本信息提取方法。

图4示出了根据本发明一个实施例提供的一种计算机设备的结构示意图，本发明具体实施例并不对计算机设备的具体实现做限定。

如图4所示，该计算机设备可以包括：处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。

其中：处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。

通信接口404，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器402，用于执行程序410，具体可以执行上述文本信息提取方法实施例中的相关步骤。

具体地，程序410可以包括程序码，该程序码包括计算机操作指令。

处理器402可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。计算机设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器406，用于存放程序410。存储器406可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序410具体可以用于使得处理器402执行以下操作：

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种文本信息提取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述位置特征向量包括检测框位置向量、分割图像位置向量，所述获取待识别文本图像的多模态特征向量之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述获取所述待识别文本图像之前，所述方法还包括：

响应于待审核项的校验请求，获取所述待审核项的审核凭证、属性信息；

4.根据权利要求3所述的方法，其特征在于，所述利用所述已完成训练的多模态文本信息提取模型的解码层对所述序列化表征向量进行预测处理，生成所述待识别文本图像的目标文本序列之后，所述方法还包括：

将所述审核结果发送至审核请求终端。

5.根据权利要求1所述的方法，其特征在于，所述位置特征向量包括一维位置特征向量、二维位置特征向量，所述利用已完成训练的多模态文本信息提取模型的编码层对所述多模态特征向量进行多模态特征融合处理，得到所述待识别文本图像中每个字符的序列化表征向量包括：

6.根据权利要求1所述的方法，其特征在于，所述利用已完成训练的多模态文本信息提取模型的编码层对所述多模态特征向量进行多模态特征融合处理，得到所述待识别文本图像中每个字符的序列化表征向量之前，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述待识别图像为病历图像，所述获取训练样本集合之前，所述方法还包括：

获取至少一个关联对象的全局科室的历史病历图像；

8.一种文本信息提取装置，其特征在于，包括：

9.一种存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-7中任一项所述的文本信息提取方法对应的操作。

10.一种计算机设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的文本信息提取方法对应的操作。