CN112396055A

CN112396055A - 文本提取方法、装置、电子设备及存储介质

Info

Publication number: CN112396055A
Application number: CN202011372852.5A
Authority: CN
Inventors: 丁笑天; 刘岩; 朱兴杰; 张秋晖
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-02-23
Anticipated expiration: 2040-11-30
Also published as: CN112396055B

Abstract

本申请提供的一种文本提取方法、装置、电子设备及存储介质，应用于计算机技术领域，方法包括：识别目标文本图像中的指定关键词，获得指定关键词的第一位置信息；生成标注有第一位置信息的目标掩膜图像；将目标文本图像和目标掩膜图像进行拼接，得到目标特征图像；将目标特征图像输入至目标文本识别模型，获得指定关键词相对应的目标文本在目标文本图像中的第二位置信息，目标文本识别模型是基于深度卷积神经网络构建；根据第一位置信息和第二位置信息从目标文本图像中提取指定关键词和其相对应的目标文本。本方案可从不具有固定板式的文本图像中准确获取到指定关键词相对应目标文本的位置信息，进而提高了所提取关键词相对应目标文本的准确性。

Description

文本提取方法、装置、电子设备及存储介质

技术领域

本申请属于计算机技术领域，特别是涉及一种文本提取方法、装置、电子设备及存储介质。

背景技术

在银行和保险行业中OCR(Optical Character Recognition，光学字符识别)技术的应用十分广泛，例如在票据、证件以及报告文件等文档的文本信息提取过程中，均可借助于OCR技术来自动从对文档拍摄或扫描得到的图像中提取出文本信息。然而现有的OCR技术所提取的只是整行的文本信息，并不支持对于文本信息的结构化解析。

关于如何对基于OCR技术对文本图像进行结构化解析，也就是提取键值形式的文本，现有技术通常是采用如下三种方案：

第一种是人工设置一些规则，利用OCR输出的坐标和文本信息提取例如姓名、性别等关键词，然后将位于这些关键词之后的文本作为关键词相对应的文本，显然这种方式在图像中包含有大量无关信息时将会将这些无关信息作为所需文本，准确性较低；第二种是制作划定有文本位置区域的模板来对固定板式的图像进行提取，但这种方式依赖于模板的质量以及图像必须是固定格式，无法适用于没有固定板式的图像；第三种是通过自然语言处理，对OCR技术提取出来的文本信息进行语义识别来实现文本信息的结构化解析，但是这种方式仅适用于简单板式图像，对于复杂板式图像的准确性较低。

可见，上述提到三种结构化解析方式对于不具有固定板式的复杂文本图像所提取到的文本信息的准确性较低。

发明内容

本申请实施例提供一种文本提取方法、装置、电子设备及存储介质，以解决在先技术中对于不具有固定版面的复杂文本图像提取键值形式的文本的准确性较低的问题。

有鉴于此，本申请第一方面提供一种文本提取方法，所述方法包括：

识别目标文本图像中的指定关键词，获得所述指定关键词的第一位置信息；

生成标注有所述第一位置信息的目标掩膜图像；

将所述目标文本图像和所述目标掩膜图像进行拼接，得到目标特征图像；

将所述目标特征图像输入至目标文本识别模型，获得所述指定关键词相对应的目标文本在所述目标文本图像中的第二位置信息，所述目标文本识别模型是基于深度卷积神经网络构建；

根据所述第一位置信息和第二位置信息从所述目标文本图像中提取所述指定关键词和其相对应的目标文本。

依据本申请第二方面，提供一种文本提取装置，所述装置包括：

第一识别模块，被配置为识别目标文本图像中的指定关键词，获得所述指定关键词的第一位置信息；

生成模块，被配置为生成标注有所述第一位置信息的目标掩膜图像；

拼接模块，被配置为将所述目标文本图像和所述目标掩膜图像进行拼接，得到目标特征图像；

第二识别模块，被配置为将所述目标特征图像输入至目标文本识别模型，获得所述指定关键词相对应的目标文本在所述目标文本图像中的第二位置信息，所述目标文本识别模型是基于深度卷积神经网络构建；

提取模块，被配置为根据所述第一位置信息和第二位置信息从所述目标文本图像中提取所述指定关键词和其相对应的目标文本。

依据本申请第三方面，提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的文本提取方法。

依据本申请第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的文本提取方法。

针对现有技术，本申请具备如下优点：

本申请提供的一种文本提取方法、装置、电子设备及存储介质，本方案通过识别文本图像中的指定关键词的位置信息来生成掩膜图像，然后将掩膜图像和文本图像拼接得到的特征图像输入至基于深度卷积神经网络构建的文本识别模型来获取指定关键词相对应的目标文本在文本图像中所处的位置信息，最后根据该目标文本的位置信息从文本图像中提取文本信息，从而需要获取指定关键词即可从不具有固定板式的文本图像中准确获取到指定关键词相对应目标文本的位置信息，进而提高了所提取关键词相对应目标文本的准确性。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本申请实施例提供的一种文本提取方法的步骤流程图；

图2是本申请实施例提供的另一种文本提取方法的步骤流程图；

图3是本申请实施例提供的再一种文本提取方法的步骤流程图；

图4是本申请实施例提供的一种文本提取方法的效果示意图；

图5是本申请实施例提供的一种文本提取模型的训练方法的步骤流程图；

图6是本申请实施例提供的一种样本标注方法的效果示意图；

图7是本申请实施例提供的另一种文本提取模型的训练方法的步骤流程图；

图8是本申请实施例提供的一种文本提取模型的数据传输示意图；

图9是本申请实施例提供的一种文本提取装置的结构框图；

图10是本申请实施例提供的一种电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

图1是本申请实施例提供的一种文本提取方法，所述方法包括：

步骤101，识别目标文本图像中的指定关键词，获得所述指定关键词的第一位置信息。

在本申请实施例中，目标文本图像可以是对于例如：保单、票据、病历单等文档进行拍摄得到的图像，也可以是整体或部分包含文本信息的图像，只要目标文本图像中存在文本信息即可，具体可以根据实际需求确定，此处不做限定。指定关键词是指所需提取文本相对应的键，例如姓名、性别、年龄等键类文本，其在目标文本图像中一般存在相对应的值，例如姓名相对应的值可以是张三、李四，性别相对应的值可以是男、女等等。该指定关键词可以是根据用户输入设置的，也可以是系统默认设置的，具体可根据实际需求确定，此处不做限定。第一位置信息是指定关键词在目标文本图像中所处位置的坐标值。

可通过OCR技术对目标文本图像中的指定关键词进行识别，从而即可获取指定关键词在目标文本图像中的第一位置信息，当然还可以通过其他文本识别技术，例如自然语言模型等对文本具有识别功能的技术来进行识别，只要可以获取目标文本图像中指定关键词所在的第一位置信息即可，具体以本申请实施例的可实现性为准，此处不做限定。

步骤102，生成标注有所述第一位置信息的目标掩膜图像。

在本申请实施例中，目标掩膜图像是有0和1组成的一个二进制图像，其中1值所处区域为被处理区域，0值所处区域为被屏蔽区域，并且可通过指定数据值、数据范围、有限或无限值、感兴趣区和注释文件来进行定义。而在本申请实施例中目标掩膜图像可以通过将第一位置信息所在区域的取值设置为1，从而在目标掩膜图像中标注指定关键词所在的第一位置信息。

步骤103，将所述目标文本图像和所述目标掩膜图像进行拼接，得到目标特征图像。

在本申请实施例中，可通过矩阵拼接的方式将目标文本图像和目标掩膜图像的像素值矩阵进行拼接，从而得到一张目标特征图像，以为后续模型输入。

步骤104，将所述目标特征图像输入至目标文本识别模型，获得所述指定关键词相对应的目标文本在所述目标文本图像中的第二位置信息，所述目标文本识别模型是基于深度卷积神经网络构建。

在本申请实施例中，目标文本识别模型为已预先通过训练学习到，包括制定关键词在内的众多关键词在文本图像中相对相的文本所在第二位置信息的模型，因此通过该文本识别模型依据目标掩膜图像中的指定关键词的第一位置信息，即可识别出该指定关键词所对应的目标文本在目标文本图像中所在的第二位置信息。具体的，目标文本识别模型可以是基于深度卷积神经网络构建，深度卷积神经网络作为一种仿造生物的视知觉的神经网络，对于图像特征的识别效果较好，不仅可以兼顾现有技术中的采用自然语言模型来对关键词对应的文本信息进行识别的方式所适用的具有简单版式，还可以适用于具有复杂版式的情况。

步骤105，根据所述第一位置信息和第二位置信息从所述目标文本图像中提取所述指定关键词和其相对应的目标文本。

在本申请实施例中，在已通过目标文本识别模型确定目标文本的第二位置信息后，即可通过OCR等文本提取技术从目标文本图像中第二位置信息所指示的位置提取目标文本。

本申请提供的一种文本提取方法，通过识别文本图像中的指定关键词的位置信息来生成掩膜图像，然后将掩膜图像和文本图像拼接得到的特征图像输入至基于深度卷积神经网络构建的文本识别模型来获取指定关键词相对应的目标文本在文本图像中所处的位置信息，最后根据该目标文本的位置信息从文本图像中提取文本信息，从而需要获取指定关键词即可从不具有固定板式的文本图像中准确获取到指定关键词相对应目标文本的位置信息，进而提高了所提取关键词相对应目标文本的准确性。

可选地，参照图2，在所述步骤101之前，还包括：

步骤106，接收对于预设界面的目标输入。

在本申请实施例中，预设界面可以是文本提取客户端中的程序界面，该文本提取客户端可以是设置在具有数据处理、图像显示、数据传输等功能的笔记本、手机、平板电脑、个人电脑等电子设备中。目标输入可以是用于上传或选取文本信息的点击、长按、滑动、语音和手势等类型的输入，具体可以根据实际需求确定，此处不做限定。

进一步的，若用户所要提取文本图像是已经预先上传到该文本提取客户端对应的本地数据库或异地数据库中，那么用户可通过预设界面查看文本信息的文本标识，则目标输入是对所需文本信息的文本标识进行选取操作；若用户所需提取文本图像是用户当前所持有的文本图像，则目标输入是对于所持有文本图像的上传操作；若用户所需提取文本图像是其他用户所持有的文本图像，则预设界面中将包含有其他用户所对应的客户端标识，则目标输入是用户对客户端标识进行选取操作。

步骤107，将所述目标输入所指定的文本图像作为目标文本图像，其中，所述候选文本图像包括：理赔业务图像、核保业务图像、医保业务图像、诊断辅助图像中的至少一种。

在本申请实施例中，若目标输入是对所需文本信息的文本标识进行选取操作，则从本地数据库或异地数据库中提取该文本标识所对应的目标文本图像；若目标输入是对于所持有文本图像的上传操作，则根据该上传操作读取目标文本图像；若目标输入是用户对客户端标识进行选取操作，则向客户端标识所对应的其他客户端发送获取请求，以使得使用该其他客户端的用户提供目标文本图像。

理赔业务图像是指在保险理赔业务中所需使用到的保单图像、用户证件图像、理赔表单图像、事项凭据图像等。在保险理赔的应用场景中，用户可通过用户客户端来上传该理赔业务图像，而业务人员可通过审核客户端对用户所上传的理赔业务图像中指定关键词对应的文本信息进行提取，从而使得业务人员根据理赔业务图像中的带有类别的文本信息来为该用户提供理赔业务服务。

核保业务图像是在对投保风险进行评估和判别的过程中所需使用到的保单图像、用户证件图像、用户资质凭据图像等。在保险核保的应用场景中，保险代理人可以通过代理人客户端上传某投保业务所实际到的核保业务图像，从而使得核保业务人员在核保客户端对核保业务图像中的指定关键词对应的文本信息，以对保单风险进行审核。

医保业务图像是在医疗保险的理赔过程中所需使用到的病例单图像、医疗保保单图像等。在医疗保险的理赔过程中，用户可以通过用户客户端上传医保业务图像或者是医保审核人员通过审核客户端从医院数据库中调取用户的医保业务图像，从而使得医保审核人员可以通过医保审核客户端获取医保业务图像中指定关键词对应的文本信息，以对为用户提供医保理赔服务。

诊断辅助图像是在远程医疗或互联网医疗过程中，患者向远程接诊或会诊的医生提供的辅助诊断的医疗影像、诊断证明图像、处方图像等用户可以通过用户客户端上传诊断辅助图像，或者是医生通过诊疗客户端从医院数据库或保险数据库中调取用户的诊断相关图像，

本申请实施例通过依据用户的目标输入确定所需进行文本提取的目标文本图像，可以适用于保险理赔、保险核保、医保报销等多种保险行业应用场景，提高了保险行业中对于文本图像进行信息提取的准确性。

图3是本申请实施例提供的再一种文本提取方法的步骤流程图，所述方法包括：

步骤201，识别目标文本图像中的指定关键词，获得所述指定关键词的第一位置信息。

该步骤可参照步骤101的详细描述，此处不再赘述。

步骤202，生成标注有所述第一位置信息的目标掩膜图像。

该步骤可参照步骤102的详细描述，此处不再赘述。

步骤203，沿着指定输出通道对所述目标文本图像和所述目标掩膜图像的像素值进行矩阵拼接，得到目标特征图像。

在本申请实施例中，输出通道是指图像的像素值中各数值维度，例如像素值为x*y*z，则x、y、z各为一个输出通道。指定输出通道可以是根据用户输入设置的，也可以是系统默认设置的，此处不做限定。沿着预设输出通道对两个图像进行矩阵拼接就是将两个图像指定输出通道上的值进行结合，例如：目标文本图像的大小为W*H*3，目标掩膜图像的大小为W*H*1，那么拼接后得到的目标特征图像的大小为W*H*4，此处只是示例性说明，当然还可以在拼接前对图像大小进行调整等，具体矩阵拼接的方式可以根据实际需求确定，此处不做限定。

本申请实施例通过依据指定输出通道对目标文本图像和目标掩膜图像进行矩阵拼接来获得输入模型的目标特征图像，保证了输入模型的图像尺寸的一致性。

步骤204，将所述目标特征图像输入至目标文本识别模型，获取所述指定关键词相对应的目标文本的概率分布图，所述概率分布图包括：目标文本在所述目标文本图像中候选位置信息的概率值，所述目标文本识别模型是基于深度卷积神经网络构建。

在本申请实施例宏，目标文本识别模型的输出可以是预设尺寸或者缩放比例的概率分布图，该概率分布图上每个位置的像素值是与目标掩膜图像中上指定关键词的第一位置信息对应的目标文本处于候选位置的概率值。

步骤205，将所述概率值大于概率值阈值的候选位置信息作为第二位置信息。

在本申请实施例中，概率值阈值是第二位置信息不允许低于的概率值，也就是说目标文本处于某位置的概率小于概率值阈值，即可忽略，从而从候选位置信息中过滤出更为准确的第二位置信息。

本申请实施例通过概率值阈值来对目标文本识别模型所识别出概率值过低的文本的位置信息进行过滤，保证了所得到文本的位置信息的准确性。

步骤206，根据所述第一位置信息对所述目标文本图像中的指定关键词进行标记，以及根据所述第二位置信息对所述目标文本图像中的目标文本进行标记，得到预测结果图像，所述预测结果图像中还标记有所述指定关键词和目标文本之间的对应关系。

在本申请实施例中，通过依据第一位置信息定位目标文本图像中指定关键词所在的位置，将该指定关键词进行标记，以及通过依据第二位置信息定位目标文本图像中目标文本所在的位置，将该目标文本进行标记的方式来得到预测结果图像，可以使得用户直观地辨别图像中的指定关键词和目标文本，并且通过标记指定关键词和目标文本之间的对应关系，可以进一步是的用户直观地识别指定关键词所对应的目标文本是哪个。

示例性的，参照图4，其中的目标文本图像为病例单，可通过方框形式的蒙版来标记指定关键词，通过半透明覆盖形式的蒙版来标记目标文本，并且方框形式的蒙版和半透明覆盖形式的蒙版还可以设置不同的颜色来进行区分，而对于具有对应关系的指定关键词和目标文本，方框形式和半透明覆盖形式的蒙版可以采用相同的颜色。需要说明的是，其中空白方块区域为数据脱敏的擦除区域，并不代表指定关键词或目标文本。

步骤207，显示所述预测结果图像。

在本申请实施例中，可通过界面显示、浮窗显示等显示方式来对预测结果图像进行显示，以供用户查看，具体显示方式可以根据实际需求确定，此处不做限定。

步骤208，根据接收到的对于所述预测结果图像中指定关键词或目标文本的选取输入，从所述预测结果图像中提取所述指定关键词以及相对应的目标文本。

在本申请实施例中，选取输入可以是用户对于预测结果图像的中任一指定关键词或目标文本的点击、长按、滑动、语音和手势等类型的输入，具体可以根据实际需求确定，此处不做限定。

用户在查看预测结果图像后，可通过选取输入指定所需的指定关键词或目标文本，从而触发系统从目标文本中提取指定关键词以及其相对应的目标文本。若用户的选取输入指定目标文本将相应也会提取相对应的指定关键词，若指定的是指定关键词，也将相应提取相对应的目标文本。

本申请实施例通过展示标记指定关键词和目标文本之间的对应关系的预测结果图像供用户选取目标文本图像中所需的文本内容，使得用户可以直观且便捷地对文本图像中的文本进行提取。

步骤209，根据所述目标文本和指定关键词之间的对应关系，得到所述指定关键词和目标文本的键值组合，所述键值组合中指定关键词为键，目标文本为值。

在本申请实施例中，在提取出目标文本和指定关键词后，由于目标文本和指定关键词是成对提取的，因此可以依据目标文本和指定关键词之间的对应关系将指定关键词和目标文本进行键值组合，键值组合可以是例如：姓名-张三、性别-男、年龄-18的形式。

步骤210，将所述键值组合按照预设结构化架构整合后进行显示。

在本申请实施例中，预设结构化架构是指对文本信息进行结构化存储的架构，例如列表形式进行存储、或者是模拟目标文本图像的格式等，可以根据用户输入设置的，也可以是系统默认设置的，具体可以根据实际需求确定，此处不做限定。

本申请实施例通过将所提取出的指定关键词和目标文本进行键值组合后按照预设结构化架构进行整合来显示给用户，使得本申请实施例的文本提取方式可以便捷地与各种结构化架构进行融合，提高了方案的适用性。

可选地，参照图5，所述目标文本识别模型是通过以下步骤得到的：

步骤301，获取样本文本图像，所述样本文本图像中标注有样本关键字和样本文本之间的对应关系。

在本申请实施例中，参照图6，样本文本图像中可通过四边形框对每个样本关键字和样本文本所的位置进行标注，具体可以通过设置四边形框的颜色来所包含内容的属性进行标记，例如颜色1表示样本关键词、颜色2表示样本文本、颜色3表示表头、颜色4表示表格内容，以及可在四边形框的外侧标记四边形框中所包含的内容具体是什么、进一步的，还可以通过带有箭头的连接线将四边形框进行连接，以表示四边形框中所包含内容之间的关系，可以是从样本关键词的四边形框出发的连接线的箭头指向其相对应的样本文本所在四边形框，以标识样本关键词和样本文本之间的对应关系，并且可通过对连接线设置不同的颜色来区分样本关键词与样本文本之间的位置关系，例如颜色5的连接线表示同行的位置关系，颜色6的连接线表示同列的位置关系等等，这些四边形框和连接线的设置方式均是为了让模型可以更好地学习样本关键词所在位置与样本文本所在位置之间的关系。

步骤302，根据所述样本关键词的第一样本位置信息生成样本掩膜图像，以及，提取根据所述样本文本的第二样本位置信息。

在本申请实施例中，该样本掩膜图像与步骤102中目标掩膜图像的生成方式类似，为避免重复，此处不再赘述。

步骤303，将所述样本文本图像和所述样本掩膜图像进行拼接，得到样本特征图像。

在本申请实施例中，该样本掩膜图像与样本文本图像的拼接方式与步骤103中目标掩膜图像与目标文本图像的拼接方式类似，为避免重复，此处不再赘述。

步骤304，根据所述样本特征图像和第二样本位置信息对初始文本识别模型进行训练，得到目标文本识别模型。

在本申请实施例中，通过将样本特征图像输入至初始文本识别模型进行训练，依据第二样本位置信息对训练后的初始样本识别模型进行测试，从而得到目标文本识别模型。

可选地，参照图7，所述步骤304，可以包括：

子步骤3041，将所述样本特征图像输入至初始文本识别模型。

在本申请实施例中，初始文本识别模型可以是深度卷积神经网络，主要由特征提取骨干网络和预测网络构成。

示例性的，参照图8，本申请实施例中初始文本模型的结构是通过将文本图像和掩膜图像拼接得到的特征图像首先输入至特征提取骨干网络后，再将特征提取骨干网络的输出数据输入至预测网络，最后得到模型输出。

子步骤3042，从所述样本特征图像中提取多层特征向量。

在本申请实施例中，特征提取骨干网络可以是多层卷积网络，用于提取所输入样本特征图像的多层特征向量。具体的，提取多层卷积网络中的一层或多层输出，作为特征提取骨干网络的输出，特征提取骨干网络中的较低层级的卷积层能够提取出样本特征图像中较为简单的特征向量，而高层及的卷积层能够提取出样本特征图像中更多复杂的特征向量以及这些特征向量的组合，从而得到多层特征向量。

子步骤3043，在存在至少两个不同尺寸的多层特征向量，将所述至少两个不同尺寸的多层特征向量进行合并。

在本申请实施例中，模型的预测网络可以是ROI(region of interest，感兴趣区域)预测网络，能够融合多层特征向量，并通过多层卷积和激活函数的处理后得到预测机构。对于固定输入大小的样本特征图片，例如W*H大小，从特征提取骨干网络的不同卷积层处理输入图片后会得到不同尺寸输出，以特征提取骨干网络使用ResNet(ResidualNetwork，残差网络)为例，Conv2_x卷积模块得到的输出为W/4*H/4大小；Conv3_x卷积模块得到的输出为W/8*H/8大小；Conv4_x卷积模块得到的输出为W/16*H/16大小；Conv5_x卷积模块得到的输出为W/32*H/32大小。在ROI预测网络中，使用缩放(Resize)或反卷积(De-Convolution)操作，将特征提取骨干网络的不同输出进行合并操作。合并操作可以使用逐矩阵值加和的形式，也可以使用简单矩阵衔接的形式。然后，合并的特征经过一个多层卷积后，再通过激活函数变换，给出模型输出。

子步骤3044，通过激活函数对所述多层特征向量进行变换得到，得到预测样本位置信息。

在本申请实施例中，激活函数可以使用Leaky-ReLU函数或者Sigmoid函数，其中Leaky-ReLU函数具体可以参照下述公式(1)：

其中，a_i是(1,+∞)区间内的固定参数，y_i表示第i个预测样本位置信息，x_i表示第i个多层特征向量。

Sigmoid函数具体可以参照下述公式(2)：

y_i表示第i个预测样本位置信息，x_i表示第i个多层特征向量，e为自然常数。

子步骤3045，根据所述预测样本位置信息和所述第二样本位置信息获取损失值。

在本申请实施例中，训练后的初始文本提取模型所输出的预测样本位置信息。将该预测样本信息和第二样本位置信息进行比较，该第二样本位置信息实际就是样本文本图像中样本文本所在的实际位置，从而得到预测样本信息的损失值。具体可通过下述公式(3)中的L1损失函数进行计算得到损失值：

其中，L表示损失值，y_i表示第i个第二样本位置信息，

表示第i个预测样本位置信息。

还可以通过如下述公式(4)使用惩罚递减的逐像素的逻辑回归损失来计算获得损失值：

其中，其中，L表示损失值，y_i表示第i个第二样本位置信息，

表示第i个预测样本位置信息。

子步骤3046，在所述损失值小于损失值阈值时，将训练后的初始文本识别模型作为目标文本识别模型。

子步骤3047，在所述损失值大于或等于损失值阈值时，根据反向传播算法对所述初始文本识别模型的参数进行调整，以利用调整后的初始文本识别模型继续进行模型训练。

在本申请实施例中，若计算得到损失值小于损失值阈值，也就是训练后的初始文本识别模型的预测结果和真实值之间的差异较小，则可以确定训练结束，将训练后的初始文本识别模型作为目标文本识别模型。

反之，若损失值大于或等于损失值阈值，也就是训练后的初始文本识别模型预测结果和真实值之间的差异较大，未达预期，则可以通过反向传播算法(BP，Backpropagation)来依据损失值对初始文本识别模型的模型参数进行调整，并利用调整参数后的初始文本识别模型继续进行训练，使得模型输出的预测样本位置信息逐渐向第二样本位置信息逼近，直至损失值达到预期。

本申请提供的再一种文本提取方法，通过识别文本图像中的指定关键词的位置信息来生成掩膜图像，然后将掩膜图像和文本图像拼接得到的特征图像输入至基于深度卷积神经网络构建的文本识别模型来获取指定关键词相对应的目标文本在文本图像中所处的位置信息，最后根据该目标文本的位置信息从文本图像中提取文本信息，从而需要获取指定关键词即可从不具有固定板式的文本图像中准确获取到指定关键词相对应目标文本的位置信息，进而提高了所提取关键词相对应目标文本的准确性。

图9是本申请实施例提供的一种文本提取装置40的结构框图，所述装置包括：

第一识别模块401，被配置为识别目标文本图像中的指定关键词，获得所述指定关键词的第一位置信息；

生成模块402，被配置为生成标注有所述第一位置信息的目标掩膜图像；

拼接模块403，被配置为将所述目标文本图像和所述目标掩膜图像进行拼接，得到目标特征图像；

第二识别模块404，被配置为将所述目标特征图像输入至目标文本识别模型，获得所述指定关键词相对应的目标文本在所述目标文本图像中的第二位置信息，所述目标文本识别模型是基于深度卷积神经网络构建；

提取模块405，被配置为根据所述第一位置信息和第二位置信息从所述目标文本图像中提取所述指定关键词和其相对应的目标文本。

可选地，所述提取模块405，被配置为：

根据所述第一位置信息对所述目标文本图像中的指定关键词进行标记，以及根据所述第二位置信息对所述目标文本图像中的目标文本进行标记，得到预测结果图像，所述预测结果图像中还标记有所述指定关键词和目标文本之间的对应关系；

显示所述预测结果图像；

根据接收到的对于所述预测结果图像中指定关键词或目标文本的选取输入，从所述预测结果图像中提取所述指定关键词以及相对应的目标文本。

可选地，所述装置还包括：

过滤模块，被配置为：

根据所述目标文本和指定关键词之间的对应关系，得到所述指定关键词和目标文本的键值组合，所述键值组合中指定关键词为键，目标文本为值；

将所述键值组合按照预设结构化架构整合后进行显示。

可选地，第二识别模块404，还被配置为：

将所述目标特征图像输入至目标文本识别模型，获取所述指定关键词相对应的目标文本的概率分布图，所述概率分布图包括：目标文本在所述目标文本图像中候选位置信息的概率值；

将所述概率值大于概率值阈值的候选位置信息作为第二位置信息。

可选地，所述拼接模块403，还被配置为：

沿着指定输出通道对所述目标文本图像和所述目标掩膜图像的像素值进行矩阵拼接，得到目标特征图像。

可选地，所述装置还包括：

模型训练模块，被配置为：

获取样本文本图像，所述样本文本图像中标注有样本关键字和样本文本之间的对应关系；

根据所述样本关键词的第一样本位置信息生成样本掩膜图像，以及，提取根据所述样本文本的第二样本位置信息；

将所述样本文本图像和所述样本掩膜图像进行拼接，得到样本特征图像；

根据所述样本特征图像和第二样本位置信息对初始文本识别模型进行训练，得到目标文本识别模型。

可选地，所述模型训练模块，还被配置为：

将所述样本特征图像输入至初始文本识别模型；

从所述样本特征图像中提取多层特征向量；

通过激活函数对所述多层特征向量进行变换得到，得到预测样本位置信息；

根据所述预测样本位置信息和所述第二样本位置信息获取损失值；

在所述损失值小于损失值阈值时，将训练后的初始文本识别模型作为目标文本识别模型。

在所述损失值大于或等于损失值阈值时，根据反向传播算法对所述初始文本识别模型的参数进行调整，以利用调整后的初始文本识别模型继续进行模型训练。

可选地，在存在至少两个不同尺寸的多层特征向量，所述模型训练模块，还被配置为：

将所述至少两个不同尺寸的多层特征向量进行合并。

本申请提供的一种文本提取装置，通过识别文本图像中的指定关键词的位置信息来生成掩膜图像，然后将掩膜图像和文本图像拼接得到的特征图像输入至基于深度卷积神经网络构建的文本识别模型来获取指定关键词相对应的目标文本在文本图像中所处的位置信息，最后根据该目标文本的位置信息从文本图像中提取文本信息，从而需要获取指定关键词即可从不具有固定板式的文本图像中准确获取到指定关键词相对应目标文本的位置信息，进而提高了所提取关键词相对应目标文本的准确性。

对于上述服务器的实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例还提供了一种电子设备，如图10所示，包括处理器501、通信接口502、存储器503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信，

存储器503，用于存放计算机程序；

处理器501，用于执行存储器503上所存放的程序时，用于实现上述任一实施例所处的文本提取方法中的步骤。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的文本提取方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的文本提取方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种文本提取方法，其特征在于，所述方法包括：

生成标注有所述第一位置信息的目标掩膜图像；

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一位置信息和第二位置信息从所述目标文本图像中提取所述指定关键词和其相对应的目标文本，包括：

显示所述预测结果图像；

3.根据权利要求1所述的方法，其特征在于，在所述根据所述第一位置信息和第二位置信息从所述目标文本图像中提取所述指定关键词和其相对应的目标文本之后，所述方法还包括：

将所述键值组合按照预设结构化架构整合后进行显示。

4.根据权利要求1所述的方法，其特征在于，所述将所述目标特征图像输入至目标文本识别模型，获得所述指定关键词相对应的目标文本在所述目标文本图像中的第二位置信息，包括：

5.根据权利要求1所述的方法，其特征在于，所述目标文本识别模型是通过以下步骤得到的：

6.根据权利要求5所述的方法，其特征在于，所述根据所述样本特征图像和第二样本位置信息对初始文本识别模型进行训练，得到目标文本识别模型，包括：

将所述样本特征图像输入至初始文本识别模型；

从所述样本特征图像中提取多层特征向量；

在所述损失值小于损失值阈值时，将训练后的初始文本识别模型作为目标文本识别模型；

7.根据权利要求1至6中任一所述的方法，其特征在于，在所述识别目标文本图像中的指定关键词，获得所述指定关键词的第一位置信息之前，所述方法还包括：

接收对于预设界面的目标输入；

将所述目标输入所指定的文本图像作为目标文本图像；

其中，所述候选文本图像包括：理赔业务图像、核保业务图像、医保业务图像或诊断辅助图像中的至少一种。

8.一种文本提取装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7中任一所述的文本提取方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现权利要求1至7中任一所述的文本提取方法。