CN113221869A

CN113221869A - 医疗发票结构化信息提取方法、装置设备及存储介质

Info

Publication number: CN113221869A
Application number: CN202110571579.7A
Authority: CN
Inventors: 熊军
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2021-08-06
Anticipated expiration: 2041-05-25
Also published as: CN113221869B

Abstract

本发明公开了医疗发票结构化信息提取方法、装置、计算机设备及存储介质，涉及人工智能技术，先将初始的医疗发票图片进行图片仿射变化，以及图片区域扩大后，然后采用分流策略针对不同发票模板进行关键信息文字检测及文字识别提高模型准确率，最后采用NLP及图像相结合的LayoutLM方法得出结构化信息，实现辅助医疗发票的人工录入，节省人力。

Description

医疗发票结构化信息提取方法、装置设备及存储介质

技术领域

本发明涉及人工智能的图像处理技术领域，尤其涉及一种医疗发票结构化信息提取方法、装置、计算机设备及存储介质。

背景技术

目前OCR技术(即光学字符识别技术)在对各种文档(医疗报告单，发票，清单)进行结构化信息提取时得到了广泛的应用。但是目前的OCR技术对发票等图片进行结构化信息提取时，直接对原始图片进行文字检测和文本识别，若原始图片拍摄存在一定倾斜角度，导致识别准确率较低。

发明内容

本发明实施例提供了一种医疗发票结构化信息提取方法、装置、计算机设备及存储介质，旨在解决现有技术中OCR技术对发票等图片进行结构化信息提取时，直接对原始图片进行文字检测和文本识别，若原始图片拍摄存在一定倾斜角度，导致识别准确率较低的问题。

第一方面，本发明实施例提供了一种医疗发票结构化信息提取方法，其包括：

若检测到用户端上传的医疗发票图片，将所述医疗发票图片输入至预先训练的语义分割模型中，得到与所述医疗发票图片对应的掩码图片；

获取与所述掩码图片中掩码区域对应的最大区域轮廓参数，以及与所述掩码区域对应的四个顶点坐标集；

根据预先存储的轮廓区域放大比例以及所述最大区域轮廓参数和四个顶点坐标集，将所述掩码区域进行放大得到第一调整后掩码区域；

根据所述第一调整后掩码区域进行透视变换，得到矫正后医疗发票图片；

将所述矫正后医疗发票图片输入至第一分类模型中，得到与所述矫正后医疗发票图片对应的发票模板分类结果；其中，所述第一分类模型用于根据输入的发票图片进行模板分类得到发票模板分类结果；

获取本地存储的与所述发票模板分类结果对应的目标光学字符识别模型，将所述矫正后医疗发票图片输入至所述目标光学字符识别模型进行文本检测和文本识别，得到与所述矫正后医疗发票图片对应的文本识别结果；以及

将所述文本识别结果及所述矫正后医疗发票图片输入至预先训练的LayoutLM模型中，得到包括若干个结构化信息对的结构化信息提取结果。

第二方面，本发明实施例提供了一种医疗发票结构化信息提取装置，其包括：

掩码图片获取单元，用于若检测到用户端上传的医疗发票图片，将所述医疗发票图片输入至预先训练的语义分割模型中，得到与所述医疗发票图片对应的掩码图片；

区域轮廓参数获取单元，用于获取与所述掩码图片中掩码区域对应的最大区域轮廓参数，以及与所述掩码区域对应的四个顶点坐标集；

轮廓区域放大单元，用于根据预先存储的轮廓区域放大比例以及所述最大区域轮廓参数和四个顶点坐标集，将所述掩码区域进行放大得到第一调整后掩码区域；

透视变换单元，用于根据所述第一调整后掩码区域进行透视变换，得到矫正后医疗发票图片；

发票模板分类单元，用于将所述矫正后医疗发票图片输入至第一分类模型中，得到与所述矫正后医疗发票图片对应的发票模板分类结果；其中，所述第一分类模型用于根据输入的发票图片进行模板分类得到发票模板分类结果；

文本识别单元，用于获取本地存储的与所述发票模板分类结果对应的目标光学字符识别模型，将所述矫正后医疗发票图片输入至所述目标光学字符识别模型进行文本检测和文本识别，得到与所述矫正后医疗发票图片对应的文本识别结果；以及

结构化信息提取单元，用于将所述文本识别结果及所述矫正后医疗发票图片输入至预先训练的LayoutLM模型中，得到包括若干个结构化信息对的结构化信息提取结果。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的医疗发票结构化信息提取方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的医疗发票结构化信息提取方法。

本发明实施例提供了一种医疗发票结构化信息提取方法、装置、计算机设备及存储介质，先将初始的医疗发票图片进行图片仿射变化，以及图片区域扩大后，然后采用分流策略针对不同发票模板进行关键信息文字检测及文字识别提高模型准确率，最后采用NLP及图像相结合的LayoutLM方法得出结构化信息，实现辅助医疗发票的人工录入，节省人力。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的医疗发票结构化信息提取方法的应用场景示意图；

图2为本发明实施例提供的医疗发票结构化信息提取方法的流程示意图；

图3为本发明实施例提供的医疗发票结构化信息提取装置的示意性框图；

图4为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本发明实施例提供的医疗发票结构化信息提取方法的应用场景示意图；图2为本发明实施例提供的医疗发票结构化信息提取方法的流程示意图，该医疗发票结构化信息提取方法应用于服务器中，该方法通过安装于服务器中的应用软件进行执行。

如图2所示，该方法包括步骤S101～S107。

S101、若检测到用户端上传的医疗发票图片，将所述医疗发票图片输入至预先训练的语义分割模型中，得到与所述医疗发票图片对应的掩码图片。

在本实施例中，是在以服务器为执行主体的角度描述技术方案。当服务器接收了用户端上传的医疗发票图片后，为了更加快速的对其进行矫正并提取其中目标区域，可以直接先获取所述医疗发票图片输入至服务器中已完成训练的语义分割模型。例如，上传的医疗发票图片是JPG格式且图片分辨率是600*400的图片，那么将R、G、B三个通道分别对应的600*400的像素矩阵均输入至预先训练的语义分割模型中进行运算，即可得到与所述医疗发票图片对应的掩码图片。

在一实施例中，所述语义分割模型包括编码器和解码器，所述编码器用于通过空洞卷积对图片进行卷积处理得到编码结果，所述解码器用于对编码结果进行采样和全连接得到解码结果；

所述将所述医疗发票图片输入至预先训练的语义分割模型中，得到与所述医疗发票图片对应的掩码图片，包括：

将所述医疗发票图片输入至语义分割模型中的编码器进行编码，得到当前编码结果；

将所述当前编码结果输入至语义分割模型中的解码器进行解码，得到与所述医疗发票图片对应的掩码图片。

其中，本申请中在具体实施时所采用的语义分割模型可为DeepLab模型，其包括一个编码器和一个解码器。

编码器中采用空洞卷积对原始图片(例如上述举例的600*400的医疗发票图片)进行卷积处理，即所述将所述医疗发票图片输入至语义分割模型中的编码器进行编码，得到当前编码结果具体包括：

通过1*1*3的第一过滤器对医疗发票图片进行第一次卷积处理，得到第一卷积结果；

通过3*3*3且步长为6个像素单元的第二过滤器对医疗发票图片进行第二次卷积处理，得到第二卷积结果；

通过3*3*3且步长为12像素单元的第三过滤器对医疗发票图片进行第三次卷积处理，得到第三卷积结果；

通过3*3*3且步长为18像素单元的第四过滤器对医疗发票图片进行第四次卷积处理，得到第四卷积结果；

通过最大值池化法对医疗发票图片进行池化处理，得到直接池化结果；

依序将第一卷积结果、第二卷积结果、第三卷积结果、第四卷积结果及直接池化结果进行合并，得到合并结果；

将所述合并结果通过1*1*3的第五过滤器进行第五次卷积处理，得到当前编码结果。

通过编码器对医疗发票图片进行上述编码处理，得到了包含图片重要特征的编码结果。之后再对当前编码结果进行解码，即可得到掩码图片。

其中，所述将所述当前编码结果输入至语义分割模型中的解码器进行解码，得到与所述医疗发票图片对应的掩码图片，包括：

通过1*1*3的第六过滤器对医疗发票图片进行第六次卷积处理，得到第六卷积结果；

对所述当前编码结果进行4个像素单元的上采样，得到第一采样结果；

将所述第一采样结果与所述第六卷积结果进行数组连接，得到连接结果；

通过3*3*3的第七过滤器对连接结果进行第七次卷积处理，得到第七卷积结果；

将所述第七卷积结果进行4个像素单元的上采样，得到解码结果作为掩码图片。

在本实施例中，通过解码器对当前编码结果进行多尺度特征融合，得到了能用于进一步准确识别医疗发票图片外最大外轮廓的掩码图片。

S102、获取与所述掩码图片中掩码区域对应的最大区域轮廓参数，以及与所述掩码区域对应的四个顶点坐标集。

在本实施例中，当获取了所述医疗发票图片对应的掩码图片后，有效的提取出了所关注目标区域的轮廓，此时可以基于掩码图片获取掩码区域对应的最大区域轮廓参数，以及与所述掩码区域对应的四个顶点坐标集。

在一实施例中，步骤S102之后还包括：

获取所述掩码图片中掩码区域对应的当前最大轮廓图；

获取与所述当前最大轮廓图对应的当前边界框。

在本实施例中，为了更快速的确定医疗发票图片外最大外轮廓，可以通过获取的掩码图片来先获取当前最大轮廓图，然后根据最大轮廓图获取对应的boundingbox(可以理解为当前边界框，通过这一当前边界框可以将包括医疗发票信息的区域框选出来)。所得到的当前边界框作用如下：通过boundingbox对应的图片区域将所述医疗发票图片进行目标区域截取，得到当前目标区域图片。通过这一图片截取操作，能有效降低医疗发票图片的识别区域大小，提高后续的识别效率。

S103、根据预先存储的轮廓区域放大比例以及所述最大区域轮廓参数和四个顶点坐标集，将所述掩码区域进行放大得到第一调整后掩码区域。

在本实施例中，当获取了医疗发票图片的最大区域轮廓参数和四个顶点坐标集后，可以参照预先存储的轮廓区域放大比例(例如将轮廓区域放大比例设置为1.1)，将最大区域轮廓参数中的图片高度值和图片宽度值分别乘以轮廓区域放大比例，从而得到第一调整后掩码区域，以及4个调整后顶点坐标集。

S104、根据所述第一调整后掩码区域进行透视变换，得到矫正后医疗发票图片。

在本实施例中，由于已经获取了所述第一调整后掩码区域，此时直接获取第一调整后掩码区域内对应的目标区域图片，在该目标区域图片内则包括了完整的发票明细信息。此时为了后续能更加准确的提取医疗发票图片中的文本，此时可对所述第一调整后掩码区域进行透视变换，得到矫正后医疗发票图片。

在一实施例中，步骤S104包括：

获取所述第一调整后掩码区域中每一像素点的像素坐标；

获取透视变换矩阵，将每一像素点的像素坐标对应的行向量与所述透视变换矩阵相乘，得到与每一像素点对应的变换像素坐标，及矫正后医疗发票图片。

可见，通过对所述第一调整后掩码区域进行透视变换后，能将消除之前因摄像头采集医疗发票图片因拍照角度导致的倾斜得到矫正，便于后续更加准确的提取文本和数据信息。

S105、将所述矫正后医疗发票图片输入至第一分类模型中，得到与所述矫正后医疗发票图片对应的发票模板分类结果；其中，所述第一分类模型用于根据输入的发票图片进行模板分类得到发票模板分类结果。

在本实施例中，例如我国国内各地(省市)都具有不同的医疗发票模板。此时为了提高结构化信息提取的准确率，此时可以将所述矫正后医疗发票图片输入至第一分类模型中，得到与所述矫正后医疗发票图片对应的发票模板分类结果。

其中，所述第一分类模型采用MobileNet网络模型，其可以理解为一种采用分流策略进行分类的模型，对其进行模型训练师时，例如每个省的医疗发票图片寻去500张，大约16000张左右即可对MobileNet网络模型进行训练，从而得到快速对矫正后医疗发票图片进行分类的第一分类模型。其中，MobileNet网络模型的网络结构中，包括3*3的标准卷积层、深度可分卷积层(depthwise separable convolution)、归一化处理层、Relu激活、1*1的标准卷积层、归一化处理层、Relu激活，依序通过这些层进行处理后，即可快速的判定该矫正后医疗发票图片对应的发票模板分类结果。

S106、获取本地存储的与所述发票模板分类结果对应的目标光学字符识别模型，将所述矫正后医疗发票图片输入至所述目标光学字符识别模型进行文本检测和文本识别，得到与所述矫正后医疗发票图片对应的文本识别结果。

在本实施例中，当完成了对医疗发票图片中所属发票模板的分类确定后，由于之前可以对每一种发票模板分类结果对应训练一个光学字符识别模型，例如医疗发票图片中所属发票模板对应A省份的发票模板，此时可以调用与A省份的发票模板相对应的目标光学字符识别模型。其中，与每一发票模板分类结果对应的光学字符识别模型都用于对发票中的关键字段(如姓名，住院号，总金额等)进行检测和识别。

具体实施时，所述目标光学字符识别模型中的文本识别模型采用DBnet模型(即可微分二值化网络模型)，能有效对所述矫正后医疗发票图片中的核心字段的字符进行定位。所述目标光学字符识别模型中的文本识别模型采用CTPN+RCNN模型，也即场景文字检测模型结合局部卷积神经网络模型，能有效的对复杂场景中的横向分布的文字进行准确检测，通过将所述矫正后医疗发票图片输入至所述目标光学字符识别模型进行文本检测和文本识别，得到与所述矫正后医疗发票图片对应的文本识别结果，从而得到了医疗发票图片中的重要字段名称。

S107、将所述文本识别结果及所述矫正后医疗发票图片输入至预先训练的LayoutLM模型中，得到包括若干个结构化信息对的结构化信息提取结果。

在本实施例中，当完成了对医疗发票图片的核心字段名称的检测后，为了获取各字段之后的结构化信息，此时可以将其作为预训练的LayoutLM模型(即文档理解预训练模型)的输入进行运算，即可得到包括若干个结构化信息对的结构化信息提取结果。

在一实施例中，步骤S107包括：

获取所述文本识别结果对应的文本向量；

获取所述矫正后医疗发票图片对应的图像向量和布局向量；

将所述文本向量、图像向量和布局向量输入至所述LayoutLM模型中进行运算，得到包括若干个结构化信息对的结构化信息提取结果。

在本实施例中，LayoutLM模型是一个带有空间感知自注意力机制的多模态Transformer编码器模型，在输入阶段同时接收文本、图像、布局这三种模态的信息，利用深层网络的建模能力实现多模态深度融合。

其中，采用WordPiece切分文本识别结果，之后添加[CLS]和[ESP]标记，并用[PAD]补齐长度得到文本向量。采用ResNeXt-FPN网络(ResNeXt-FPN由ResNeXt网络和FPN网络组成，ResNeXt网络是残差网络的升级版，FPN网络是特征金字塔中间网络)作为图像编码器抽取图像的图像向量。通过获取第一调整后掩码区域对应的边界框来表示布局向量。通过上述处理后，即可快速提取出结构化的发票信息。

该方法是先将初始的医疗发票图片进行图片仿射变化，以及图片区域扩大后，然后采用分流策略针对不同发票模板进行关键信息文字检测及文字识别提高模型准确率，最后采用NLP及图像相结合的LayoutLM方法得出结构化信息，实现辅助医疗发票的人工录入，节省人力。

本发明实施例还提供一种医疗发票结构化信息提取装置，该医疗发票结构化信息提取装置用于执行前述医疗发票结构化信息提取方法的任一实施例。具体地，请参阅图3，图3是本发明实施例提供的医疗发票结构化信息提取装置的示意性框图。该医疗发票结构化信息提取装置100可以配置于服务器中。

如图3所示，医疗发票结构化信息提取装置100包括：掩码图片获取单元101、区域轮廓参数获取单元102、轮廓区域放大单元103、透视变换单元104、发票模板分类单元105、文本识别单元106、结构化信息提取单元107。

掩码图片获取单元101，用于若检测到用户端上传的医疗发票图片，将所述医疗发票图片输入至预先训练的语义分割模型中，得到与所述医疗发票图片对应的掩码图片。

所述掩码图片获取单元101，包括：

编码单元，用于将所述医疗发票图片输入至语义分割模型中的编码器进行编码，得到当前编码结果；

解码单元，用于将所述当前编码结果输入至语义分割模型中的解码器进行解码，得到与所述医疗发票图片对应的掩码图片。

编码器中采用空洞卷积对原始图片(例如上述举例的600*400的医疗发票图片)进行卷积处理，即编码单元具体包括：

第一卷积单元，用于通过1*1*3的第一过滤器对医疗发票图片进行第一次卷积处理，得到第一卷积结果；

第二卷积单元，用于通过3*3*3且步长为6个像素单元的第二过滤器对医疗发票图片进行第二次卷积处理，得到第二卷积结果；

第三卷积单元，用于通过3*3*3且步长为12像素单元的第三过滤器对医疗发票图片进行第三次卷积处理，得到第三卷积结果；

第四卷积单元，用于通过3*3*3且步长为18像素单元的第四过滤器对医疗发票图片进行第四次卷积处理，得到第四卷积结果；

直接池化单元，用于通过最大值池化法对医疗发票图片进行池化处理，得到直接池化结果；

合并单元，用于依序将第一卷积结果、第二卷积结果、第三卷积结果、第四卷积结果及直接池化结果进行合并，得到合并结果；

第五卷积单元，用于将所述合并结果通过1*1*3的第五过滤器进行第五次卷积处理，得到当前编码结果。

其中，所述解码单元，包括：

第六卷积单元，用于通过1*1*3的第六过滤器对医疗发票图片进行第六次卷积处理，得到第六卷积结果；

第一上采样单元，用于对所述当前编码结果进行4个像素单元的上采样，得到第一采样结果；

数组连接单元，用于将所述第一采样结果与所述第六卷积结果进行数组连接，得到连接结果；

第七卷积单元，用于通过3*3*3的第七过滤器对连接结果进行第七次卷积处理，得到第七卷积结果；

第二上采样单元，用于将所述第七卷积结果进行4个像素单元的上采样，得到解码结果作为掩码图片。

区域轮廓参数获取单元102，用于获取与所述掩码图片中掩码区域对应的最大区域轮廓参数，以及与所述掩码区域对应的四个顶点坐标集。

在一实施例中，医疗发票结构化信息提取装置100还包括：

当前最大轮廓图获取单元，用于获取所述掩码图片中掩码区域对应的当前最大轮廓图；

当前边界框获取单元，用于获取与所述当前最大轮廓图对应的当前边界框。

轮廓区域放大单元103，用于根据预先存储的轮廓区域放大比例以及所述最大区域轮廓参数和四个顶点坐标集，将所述掩码区域进行放大得到第一调整后掩码区域。

透视变换单元104，用于根据所述第一调整后掩码区域进行透视变换，得到矫正后医疗发票图片。

在一实施例中，透视变换单元104包括：

像素坐标获取单元，用于获取所述第一调整后掩码区域中每一像素点的像素坐标；

透视变换矫正单元，用于获取透视变换矩阵，将每一像素点的像素坐标对应的行向量与所述透视变换矩阵相乘，得到与每一像素点对应的变换像素坐标，及矫正后医疗发票图片。

发票模板分类单元105，用于将所述矫正后医疗发票图片输入至第一分类模型中，得到与所述矫正后医疗发票图片对应的发票模板分类结果；其中，所述第一分类模型用于根据输入的发票图片进行模板分类得到发票模板分类结果。

文本识别单元106，用于获取本地存储的与所述发票模板分类结果对应的目标光学字符识别模型，将所述矫正后医疗发票图片输入至所述目标光学字符识别模型进行文本检测和文本识别，得到与所述矫正后医疗发票图片对应的文本识别结果。

结构化信息提取单元107，用于将所述文本识别结果及所述矫正后医疗发票图片输入至预先训练的LayoutLM模型中，得到包括若干个结构化信息对的结构化信息提取结果。

在一实施例中，结构化信息提取单元107包括：

第一向量获取单元，用于获取所述文本识别结果对应的文本向量；

第二向量获取单元，用于获取所述矫正后医疗发票图片对应的图像向量和布局向量；

向量运算单元，用于将所述文本向量、图像向量和布局向量输入至所述LayoutLM模型中进行运算，得到包括若干个结构化信息对的结构化信息提取结果。

该装置是先将初始的医疗发票图片进行图片仿射变化，以及图片区域扩大后，然后采用分流策略针对不同发票模板进行关键信息文字检测及文字识别提高模型准确率，最后采用NLP及图像相结合的LayoutLM方法得出结构化信息，实现辅助医疗发票的人工录入，节省人力。

上述医疗发票结构化信息提取装置可以实现为计算机程序的形式，该计算机程序可以在如图4所示的计算机设备上运行。

请参阅图4，图4是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图4，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括存储介质503和内存储器504。

该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行医疗发票结构化信息提取方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行医疗发票结构化信息提取方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图4中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现本发明实施例公开的医疗发票结构化信息提取方法。

本领域技术人员可以理解，图4中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图4所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质，也可以为易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本发明实施例公开的医疗发票结构化信息提取方法。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种医疗发票结构化信息提取方法，其特征在于，包括：

2.根据权利要求1所述的医疗发票结构化信息提取方法，其特征在于，所述语义分割模型包括编码器和解码器，所述编码器用于通过空洞卷积对图片进行卷积处理得到编码结果，所述解码器用于对编码结果进行采样和全连接得到解码结果；

3.根据权利要求2所述的医疗发票结构化信息提取方法，其特征在于，所述将所述医疗发票图片输入至语义分割模型中的编码器进行编码，得到当前编码结果，包括：

4.根据权利要求3所述的医疗发票结构化信息提取方法，其特征在于，所述将所述当前编码结果输入至语义分割模型中的解码器进行解码，得到与所述医疗发票图片对应的掩码图片，包括：

5.根据权利要求1所述的医疗发票结构化信息提取方法，其特征在于，所述获取与所述掩码图片中掩码区域对应的最大区域轮廓参数，以及与所述掩码区域对应的四个顶点坐标集之后，还包括：

获取所述掩码图片中掩码区域对应的当前最大轮廓图；

获取与所述当前最大轮廓图对应的当前边界框。

6.根据权利要求1所述的医疗发票结构化信息提取方法，其特征在于，所述根据所述第一调整后掩码区域进行透视变换，得到矫正后医疗发票图片，包括：

获取所述第一调整后掩码区域中每一像素点的像素坐标；

7.根据权利要求1所述的医疗发票结构化信息提取方法，其特征在于，所述将所述文本识别结果及所述矫正后医疗发票图片输入至预先训练的LayoutLM模型中，得到包括若干个结构化信息对的结构化信息提取结果，包括：

获取所述文本识别结果对应的文本向量；

获取所述矫正后医疗发票图片对应的图像向量和布局向量；

8.一种医疗发票结构化信息提取装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的医疗发票结构化信息提取方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的医疗发票结构化信息提取方法。