CN112396054A

CN112396054A - 文本提取方法、装置、电子设备及存储介质

Info

Publication number: CN112396054A
Application number: CN202011372159.8A
Authority: CN
Inventors: 丁笑天; 刘岩; 朱兴杰; 张秋晖
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-02-23

Abstract

本申请提供的一种文本提取方法、装置、电子设备及存储介质，应用于计算机技术领域，所述方法包括：将待处理的目标文本图像输入至目标文本识别模型，得到目标文本图像中各类别属性的候选文本信息的位置信息；给目标文本图像中的候选文本信息添加相对应的提示标记，得到预测结果图像并显示预测结果图像，提示标记用于表示候选文本信息相对应的位置信息和类别属性；接收对于预测结果图像的提示标记中目标提示标记的选取输入；响应于选取输入，从预测结果图像中提取目标提示标记相对应的目标文本信息和目标类别属性。本方案使得用户可以根据提示标记所指示的位置信息和类别属性，准确地选取所需的目标文本信息，从而提高了文本提取的准确性。

Description

文本提取方法、装置、电子设备及存储介质

技术领域

本申请属于计算机技术领域，特别是涉及一种文本提取方法、装置、电子设备及存储介质。

背景技术

在保险或银行行业中OCR(Optical Character Recognition，光学字符识别)技术的应用十分广泛，特别是在医疗保险报销的场景中，也可借助于OCR技术来自动从对文档拍摄或扫描得到的图像中提取出文本信息。

而目前的OCR技术中，虽然文本识别较为成熟，但是只能输出整行的一堆文本，若想要将文本进行结构化处理，则需要针对各种板式的文本设置专用的识别模板或者识别规则，或者是依赖于自然语言识别模型对OCR技术提取出的文本进行分类来实现结构化处理，这些方式均依赖于文本图像的质量，若文本图像中存在重叠的文本信息，则会导致所识别出文本信息的类别不准确性，从而导致所提取出的文本信息不符合用户的实际需求。

发明内容

有鉴于此，本申请提供一种文本提取方法、装置、电子设备及存储介质，用于解决现有技术中对文本图像进行结构化提取的方案依赖于文本图像的质量，若文本图像中存在重叠的文本信息，则会导致所识别出文本信息的类别不准确，从而导致所提取出的文本信息不符合用户的实际需求的问题。

本申请第一方面提供一种文本提取方法，所述方法包括：

将待处理的目标文本图像输入至目标文本识别模型，得到所述目标文本图像中各类别属性的候选文本信息的位置信息，其中，所述目标文本识别模型至少包括两个输出通道，各所述输出通道用于输出一种类别属性相对应的候选文本信息的位置信息；

给所述目标文本图像中的候选文本信息添加相对应的提示标记，得到预测结果图像并显示所述预测结果图像，所述提示标记用于表示所述候选文本信息相对应的位置信息和类别属性；

接收对于所述预测结果图像的提示标记中目标提示标记的选取输入；

响应于所述选取输入，从所述预测结果图像中提取所述目标提示标记相对应的目标文本信息和目标类别属性。

可选地，所述目标文本识别模型是通过以下步骤得到：

获取样本文本图像，所述样本文本图像标注有各样本文本信息相对应的标准类别属性和标准位置信息；

将所述样本文本图像输入至初始文本识别模型，得到预测类别属性和预测位置信息；

在所述预测类别属性、所述预测位置信息、标准类别属性和标准位置信息符合预设训练要求，将训练后的初始文本识别模型作为目标文本识别模型。

可选地，所述将所述样本文本图像输入至初始文本识别模型，得到预测类别属性和预测位置信息，包括：

将所述样本文本图像输入至初始文本识别模型，得到所述样本文本图像中各样本文本信息的至少两种候选类别属性以及所述候选类别属性相对应的候选位置信息和置信度；

将所述置信度最大的所述候选类别属性以及所述候选类别属性相对应的候选位置信信息作为预测类别属性和预测位置信息。

可选地，所述将所述样本文本图像输入至初始文本识别模型，得到所述样本文本图像中各样本文本信息的至少两种候选类别属性以及所述候选类别属性相对应的候选位置信息和置信度，包括：

将所述样本文本图像输入至初始文本识别模型；

提取所述样本文本图像中至少两个不同尺寸的多层特征向量；

将所述至少两个不同尺寸的多层特征向量进行特征融合，得到融合特征向量；

将所述融合特征向量映射到包含有至少两个输出通道的输出层，得到至少两种候选类别属性以及所述候选类别属性相对应的候选位置信息和置信度，各所述输出通道用于输出一种候选类别属性相对应的候选位置信息和置信度。

可选地，所述在所述预测类别属性、所述预测位置信息、标准类别属性和标准位置信息符合预设训练要求，将训练后的初始文本识别模型作为目标文本识别模型，包括：

在所述预测类别属性和标准类别属性相同时，根据所述预测位置信息和标准位置信息获取损失值；

在所述损失值小于损失值阈值时，将训练后的初始文本识别模型作为目标文本识别模型；

在所述预测类别属性和标准类别属性不同，或所述损失值大于或等于损失值阈值时，根据反向传播算法对所述初始文本识别模型进行参数调整，并利用调整参数后的初始提取模型继续执行模型训练过程。

可选地，所述根据所述预测位置信息和标准位置信息获取损失值，包括：

将所述预测位置信息和标准位置信息输入至逻辑回归损失函数进行计算，得到损失值。

可选地，在所述将待处理的目标文本图像输入至目标文本识别模型之前，所述方法还包括：

接收对于预设界面的目标输入；

将所述目标输入所指定的文本图像作为目标文本图像；

其中，所述候选文本图像包括：理赔业务图像、核保业务图像、医保业务图像或诊断辅助图像中的至少一种。

依据本申请第二方面，提供一种文本提取装置，所述装置包括：

模型识别模块，被配置为将待处理的目标文本图像输入至目标文本识别模型，得到所述目标文本图像中各类别属性的候选文本信息的位置信息，其中，所述目标文本识别模型至少包括两个输出通道，各所述输出通道用于输出一种类别属性相对应的候选文本信息的位置信息；

显示模块，被配置为给所述目标文本图像中的候选文本信息添加相对应的提示标记，得到预测结果图像并显示所述预测结果图像，所述提示标记用于表示所述候选文本信息相对应的位置信息和类别属性；

接收模块，被配置为接收对于所述预测结果图像的提示标记中目标提示标记的选取输入；

提取模块，被配置为响应于所述选取输入，从所述预测结果图像中提取所述目标提示标记相对应的目标文本信息和目标类别属性。

可选地，所述装置还包括：

模型训练模块，被配置为：

可选地，所述模型训练模块，还被配置为：

将所述样本文本图像输入至初始文本识别模型；

可选地，所述模型训练模块，还被配置为：

可选地，所述装置还包括：接收模块，被配置为：

接收对于预设界面的目标输入；

将所述目标输入所指定的文本图像作为目标文本图像；

其中，所述候选文本图像包括：理赔业务图像、核保业务图像、医保业务图像或诊断辅助图像中的至少一种

依据本申请第三方面，提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一方面所述的文本提取方法。

依据本申请第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述任一方面所述的文本提取方法。

针对现有技术，本申请具备如下优点：

本申请提供的一种文本提取方法、装置、电子设备及存储介质，通过利用设置有至少两个输出通道的目标文本识别模型对文本图像进行处理，每个通道输出一种类别属性的文本信息的位置信息，并通过显示添加有提示标记的预测结果图像供用户查看，使得用户可以根据提示标记所指示的位置信息和类别属性，准确地选取所需的目标文本信息，从而提高了文本提取的准确性。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本申请实施例提供的一种文本提取方法的步骤流程图；

图2是本申请实施例提供的一种文本提取方法的效果示意图；

图3是本申请实施例提供的另一种文本提取方法的步骤流程图；

图4是本申请实施例提供的一种文本提取模型的训练方法的步骤流程图；

图5是本申请实施例提供的一种样本标注方法的效果示意图；

图6是本申请实施例提供的另一种样本标注方法的效果示意图；

图7是本申请实施例提供的一种预测结果的获取方法的步骤流程图；

图8是本申请实施例提供的另一种预测结果的获取方法的步骤流程图；

图9是本申请实施例提供的一种文本识别模型的架构示意图；

图10是本申请实施例提供的一种模型测试方法的步骤流程图；

图11是本申请实施例提供的一种文本提取装置的结构框图；

图12是本申请实施例提供的一种电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

图1是本申请实施例提供的一种文本提取方法，所述方法，包括：

步骤101，将待处理的目标文本图像输入至目标文本识别模型，得到所述目标文本图像中各类别属性的候选文本信息的位置信息，其中，所述目标文本识别模型至少包括两个输出通道，各所述输出通道用于输出一种类别属性相对应的候选文本信息的位置信息。

在本申请实施例中，目标文本图像是通过对卡证、票据、保单、表单等具有特定板式的文档进行拍摄、扫描等图像获取方式得到的图像，该目标文本图像中可以全局或部分包含有文本信息，可以是根据用户设置确定的，也可以是系统默认确定的，具体可以根据实际需求确定，此处不做限定。目标文本识别模型是可以对文本图像中的文本所在位置信息和所属类别属性进行识别的深度网络模型。候选文本信息是目标文本图像中所包含的文本信息。类别属性可以是例如姓名、性别、表头、金额、车次等类别，具体类别属性可以根据实际需求进行设置，需要说明的是，为了实现对于文本图像中文本信息的结构化识别，因此每个候选文本信息均存在一个相对应的类别属性。候选文本信息的位置信息是指候选文本信息在目标文本图像中所处位置的坐标值。

在实际应用中，对文本图像进行结构化识别的基础是可以对文本图像中的文本信息进行归类，但是现有通过NLP(Natural Language Processing，自然语言处理)对OCR技术提取出的文本进行归类的方式虽然可以对字段进行归类，但是若文字重叠的现象会导致OCR技术提取出的文本本身就不准确，直接导致后续通过NLP模型归类得到的分类结果不准确。因此本申请实施例通过目标文本识别模型在对目标文本图像中的候选文本信息的位置信息进行识别的同时也对该候选文本信息的类别属性进行识别，从而可以克服OCR技术在文本识别的过程中无法考虑文本类别的缺陷，提高了所识别出候选文本信息所在位置信息的准确性。

在本申请实施例中，相较于现有技术中的文本识别模型只在输出层设置一个输出通道来输出文本在文本图像中所处位置信息的方式，本申请实施例中的目标文本识别模型通过增加输出层中文本检测卷积层的输出维度，从而增加了输出层的输出通道，将原有的单一输出变更为多输出方式，具体是每个输出通道对应输出一种类别属性相对应的位置信息，从而实现同时对文本信息的类别属性和位置信息进行识别，提高了文本识别的准确性。

步骤102，给所述目标文本图像中的候选文本信息添加相对应的提示标记，得到预测结果图像并显示所述预测结果图像，所述提示标记用于表示所述候选文本信息相对应的位置信息和类别属性。

在本申请实施例中，提示标记可以通过设置不同颜色的蒙版、边框或者其他突出显示方式来对目标文本图像中的候选文本信息进行标记来得到预测结果图像进行显示，提示标记不仅可以使得用户在预测结果图像中查看到各候选文本信息所在的位置，还可以使得用户查看到该候选文本信息所属的类别属性，该类别属性可以是直接以文字信息标注在提示标记上，也可以是通过针对不同样式的提示标记与类别属性之间设置对应关系，从而依据提示标记的样式来使得用户辨别提示标记相对应的类别属性。需要说明的是，由于针对每个候选文本信息均添加了提示标记，因此即使候选文本信息在目标文本图像中存在重叠，用户也可以通过查看预测结果图像清楚的区分重叠部分中文本信息所归属的候选文本信息。

步骤103，接收对于所述预测结果图像的提示标记中目标提示标记的选取输入。

在本申请实施例中，选取输入可以是用户对于目标提示标记的点击、滑动、长按、语音和手势等类型的输入，具体可以根据实际需求确定，此处不做限定。

在实际应用中，用户在通过预测结果图像的显示界面查看预测结果图像后，可以根据自身需求对至少一个提示标记进行选取输入，从而将该至少一个提示标记作为目标提示标记。

示例性的，参照图2，其中为病历单的预测结果图像，其中实线框标记的文本信息的类别属性是键，而虚线框标记的文本信息的类别属性的值。

步骤104，响应于所述选取输入，从所述预测结果图像中提取所述目标提示标记相对应的目标文本信息和目标类别属性。

在本申请实施例中，在确定目标提示标记后，可通过OCR技术或其他具有文本提取功能技术，根据该目标提示标记相对应的位置信息从预测结果图像中提取目标文本信息以及目标类别属性，所提取出的目标文本信息由于携带有目标类别属性，可以进一步根据所需的结构化整合结构进行处理，以实现对于文本图像中文本信息的结构化识别和存储。

本申请提供的一种文本提取方法，通过利用设置有至少两个输出通道的目标文本识别模型对文本图像进行处理，每个通道输出一种类别属性的文本信息的位置信息，并通过显示添加有提示标记的预测结果图像供用户查看，使得用户可以根据提示标记所指示的位置信息和类别属性，准确地选取所需的目标文本信息，从而提高了文本提取的准确性。

可选地，参照图3，在所述步骤101之前，还包括：

步骤105，接收对于预设界面的目标输入。

在本申请实施例中，预设界面可以是文本提取客户端中的程序界面，该文本提取客户端可以是设置在具有数据处理、图像显示、数据传输等功能的笔记本、手机、平板电脑、个人电脑等电子设备中。目标输入可以是用于上传或选取文本信息的点击、长按、滑动、语音和手势等类型的输入，具体可以根据实际需求确定，此处不做限定。

进一步的，若用户所要提取文本图像是已经预先上传到该文本提取客户端对应的本地数据库或异地数据库中，那么用户可通过预设界面查看文本信息的文本标识，则目标输入是对所需文本信息的文本标识进行选取操作；若用户所需提取文本图像是用户当前所持有的文本图像，则目标输入是对于所持有文本图像的上传操作；若用户所需提取文本图像是其他用户所持有的文本图像，则预设界面中将包含有其他用户所对应的客户端标识，则目标输入是用户对客户端标识进行选取操作。

步骤106，将所述目标输入所指定的文本图像作为目标文本图像，其中，所述候选文本图像包括：理赔业务图像、核保业务图像、医保业务图像或诊断辅助图像中的至少一种。

在本申请实施例中，若目标输入是对所需文本信息的文本标识进行选取操作，则从本地数据库或异地数据库中提取该文本标识所对应的目标文本图像；若目标输入是对于所持有文本图像的上传操作，则根据该上传操作读取目标文本图像；若目标输入是用户对客户端标识进行选取操作，则向客户端标识所对应的其他客户端发送获取请求，以使得使用该其他客户端的用户提供目标文本图像。

理赔业务图像是指在保险理赔业务中所需使用到的保单图像、用户证件图像、理赔表单图像、事项凭据图像等。在保险理赔的应用场景中，用户可通过用户客户端来上传该理赔业务图像，而业务人员可通过审核客户端对用户所上传的理赔业务图像中的文本信息进行提取，从而使得业务人员根据理赔业务图像中的带有类别的文本信息来为该用户提供理赔业务服务。

核保业务图像是在对投保风险进行评估和判别的过程中所需使用到的保单图像、用户证件图像、用户资质凭据图像等。在保险核保的应用场景中，保险代理人可以通过代理人客户端上传某投保业务所实际到的核保业务图像，从而使得核保业务人员在核保客户端对核保业务图像中的带有类别的文本信息进行提取后，使用该文本信息对保单风险进行审核。

医保业务图像是在医疗保险的理赔过程中所需使用到的病例单图像、医疗保保单图像等。在医疗保险的理赔过程中，用户可以通过用户客户端上传医保业务图像或者是医保审核人员通过审核客户端从医院数据库中调取用户的医保业务图像，从而使得医保审核人员可以通过医保审核客户端获取医保业务图像中的文本信息，依据带有类别的文本信息对为用户提供医保理赔服务。

诊断辅助图像是在远程医疗或互联网医疗过程中，患者向远程接诊或会诊的医生提供的辅助诊断的医疗影像、诊断证明图像、处方图像等用户可以通过用户客户端上传诊断辅助图像，或者是医生通过诊疗客户端从医院数据库或保险数据库中调取用户的诊断相关图像，

在本申请实施例中，通过利用设置有至少两个输出通道的目标文本识别模型对文本图像进行处理，每个通道输出一种类别属性的文本信息的位置信息，并通过显示添加有提示标记的预测结果图像供用户查看，使得用户可以根据提示标记所指示的位置信息和类别属性，准确地选取所需的目标文本信息，从而提高了文本提取的准确性。并且依据用户指定的理赔业务图像、核保业务图像、医保业务图像来提取文本信息和类别属性，可以适用于保险理赔、保险核保、医保报销、远程医疗等多种保险行业或医疗健康行业应用场景，提高了保险行业或医疗健康行业中对于文本图像进行信息提取的准确性。

图4本申请实施例提供的一种文本提取模型的训练方法的步骤流程图，所述方法包括：

步骤201，获取样本文本图像，所述样本文本图像标注有各样本文本信息相对应的标准类别属性和标准位置信息。

在本申请实施例中，样本文本图像是首先通过从内部数据源或外部数据源中进行采集获取的原始样本图像，然后通过人工标注或模型标注的方式对初始样本图像中的所需的样本文本信息进行标注。标准类别属性可以是预先根据实际需求进行设置的，然后对初始样本图像中各标准类别属性相对应的样本文本信息所在标准位置进行标注。

示例性的，参照图5为现有技术中的标注方式，其中通常是采用整行标准的方式，而参照图6，为本申请实施例的标注方式，其中为病历单的样本文本图像，不仅对属于同一行的候选文本信息进行区分标注，并且还标注有该候选文本信息所属的标注类别属性，具体是通过带有箭头的连接线的形式，将连接线箭头起始端的标注框中的候选文本信息的类别属性为键，而连接线箭头结束端的标注框中的候选文本信息的类别属性为值，当然还可以通过不同样式或样色的标注框对候选文本信息的其他类别属性进行标注，例如：红色标注框表示键，蓝色标注框表示值，绿色标注框表示表头，蓝绿色标注框表示表值等等，具体可以根据实际需求设置，此处不做限定。还可以在标注框上添加所在图像区域中所包含的文本信息的实际值。

步骤202，将所述样本文本图像输入至初始文本识别模型，得到预测类别属性和预测位置信息。

在本申请实施例中，通过部分用于训练的样本文本图像输入至初始文本识别模型进行训练后，在部分用于测试的样本文本图像输入至训练后的初始文本识别模型进行测试，来得到预测类别属性和预测位置信息。

步骤203，在所述预测类别属性、所述预测位置信息、标准类别属性和标准位置信息符合预设训练要求，将训练后的初始文本识别模型作为目标文本识别模型。

在本申请实施例中，在预测得到的预测类别属性、预测位置信息与样本文本图像中标准类别属性、标准位置信息之间的差异符合预设训练要求时即可确定训练结束。该预设训练要求可以是根据预期模型效果确定，可以是根据预测准确性、鲁棒性等模型指标确定的，具体可以根据实际需求确定，此处不做限定。

可选的，参照图7，所述步骤202，可以包括：

子步骤2021，将所述样本文本图像输入至初始文本识别模型，得到所述样本文本图像中各样本文本信息的至少两种候选类别属性以及所述候选类别属性相对应的候选位置信息和置信度。

子步骤2022，将所述置信度最大的所述候选类别属性以及所述候选类别属性相对应的候选位置信信息作为预测类别属性和预测位置信息。

在本申请实施例中，由于初始文本识别模型中的输出层存在至少两个输出通道，而每个输出通道均会输出一种候选类别属性相对应的样本文本信息在样本文本图像中所处的候选位置信息以及置信度，而置信度最高的候选位置信息可以确定是该样本文本信息的最优位置信息，从而将该置信度最大的候选位置信息作为预测位置信息进行输出，并且该预测位置信息相对应的候选类别属性作为预测类别属性。如果候选类别属性存在9个，那么输出通道也将相应设置9个，从而保证每个输出通道可以输出一种候选类别属性相对应的候选位置信息和置信度。

可选地，参照图8，所述子步骤2021，可以包括：

子步骤20211，将所述样本文本图像输入至初始文本识别模型。

子步骤20212，提取所述样本文本图像中至少两个不同尺寸的多层特征向量。

子步骤20213，将所述至少两个不同尺寸的多层特征向量进行特征融合，得到融合特征向量。

子步骤20214，将所述融合特征向量映射到包含有至少两个输出通道的输出层，得到至少两种候选类别属性以及所述候选类别属性相对应的候选位置信息和置信度，各所述输出通道用于输出一种候选类别属性相对应的候选位置信息和置信度。

在本申请实施例中，参照图9，样本文本图像首先被输入至初始文本识别模型的骨干网络进行特征提取，得到多层特征向量，该多层特征向量是通过多个不同尺寸的卷积模块进行训练得到的，例如Conv2_x卷积模块得到的输出为W/4*H/4大小；Conv3_x卷积模块得到的输出为W/8*H/8大小；Conv4_x卷积模块得到的输出为W/16*H/16大小；Conv5_x卷积模块得到的输出为W/32*H/32大小。然后将多个尺寸的特征向量输入至在特征融合网络中，可以使用图像缩放或反卷积方式，将不同尺寸的特征向量输出进行特征融合。特征融合可以使用逐矩阵值加和的形式，也可以使用简单矩阵衔接的形式，具体方式可根据实际需求确定，此处不做限定。由于上述提到的图像缩放方式、反卷积方式、逐矩阵值加和的形式、简单矩阵衔接的形式均属于本领域的常规技术手段，此处不再详细描述。

本申请实施例通过将特征融合得到的融合特征向量映射到输出层的至少两个输出通道上进行输出，从而可以得到属于至少两种候选类别属性相对应的候选位置信息和置信度，提高了文本识别的准确性。

可选地，参照图10，所述步骤203，可以包括：

子步骤2031，在所述预测类别属性和标准类别属性相同时，根据所述预测位置信息和标准位置信息获取损失值。

子步骤2032，在所述损失值小于损失值阈值时，将训练后的初始文本识别模型作为目标文本识别模型。

子步骤2033，在所述预测类别属性和标准类别属性不同，或所述损失值大于或等于损失值阈值时，根据反向传播算法对所述初始文本识别模型进行参数调整，并利用调整参数后的初始提取模型继续执行模型训练过程。

在本申请实施例中，若预测类别属性和标准类别属性不同，则无需计算损失值，直接利用反向传播算法调整初始文本识别模型的参数后继续进行训练，如果预测类别属性和标准类别属性相同即可通过计算预测类别属性和标准类别属性之间的损失值来确定该损失值是否小于损失值阈值，如果小于，则确定结束训练，将训练后的初始文本识别模型作为目标文本识别模型，如果损失值大于或等于损失值阈值，则可以利用反向传播算法调整初始文本识别模型的参数后继续进行训练，直至所得到的损失值小于损失值阈值。

可选地，所述子步骤2031，可以包括：将所述预测位置信息和标准位置信息输入至逻辑回归损失函数进行计算，得到损失值。

在本申请实施例中，由于文本识别模型的输出维度增加会使得模型的训练难以收敛，此处特提出使用惩罚削减的逐像素的逻辑回归损失函数计算损失值，从而可以有效提高模型训练的收敛效率。

具体该逻辑回归损失函数可以是下述公式(1)：

其中y为标准位置信息，

为预测位置信息，L为损失值。

当然还可以采用其他损失函数来计算损失值，具体可以根据实际需求确定，此处不做限定。

本申请提供的另一种文本提取方法，通过利用设置有至少两个输出通道的目标文本识别模型对文本图像进行处理，每个通道输出一种类别属性的文本信息的位置信息，并通过显示添加有提示标记的预测结果图像供用户查看，使得用户可以根据提示标记所指示的位置信息和类别属性，准确地选取所需的目标文本信息，从而提高了文本提取的准确性。

图11是本申请实施例提供的一种文本提取装置30的结构框图，所述装置包括：

模型识别模块301，被配置为将待处理的目标文本图像输入至目标文本识别模型，得到所述目标文本图像中各类别属性的候选文本信息的位置信息，其中，所述目标文本识别模型至少包括两个输出通道，各所述输出通道用于输出一种类别属性相对应的候选文本信息的位置信息；

显示模块302，被配置为给所述目标文本图像中的候选文本信息添加相对应的提示标记，得到预测结果图像并显示所述预测结果图像，所述提示标记用于表示所述候选文本信息相对应的位置信息和类别属性；

接收模块303，被配置为接收对于所述预测结果图像的提示标记中目标提示标记的选取输入；

提取模块304，被配置为响应于所述选取输入，从所述预测结果图像中提取所述目标提示标记相对应的目标文本信息和目标类别属性。

可选地，所述装置还包括：

接收模块，被配置为：

接收对于预设界面的目标输入；

将所述目标输入所指定的文本图像作为目标文本图像；

其中，所述候选文本图像包括：理赔业务图像、核保业务图像、医保业务图像中的至少一种。

可选地，所述装置还包括：

模型训练模块，被配置为：

可选地，所述模型训练模块，还被配置为：

将所述样本文本图像输入至初始文本识别模型；

可选地，所述模型训练模块，还被配置为：

本申请提供的一种文本提取装置，通过利用设置有至少两个输出通道的目标文本识别模型对文本图像进行处理，每个通道输出一种类别属性的文本信息的位置信息，并通过显示添加有提示标记的预测结果图像供用户查看，使得用户可以根据提示标记所指示的位置信息和类别属性，准确地选取所需的目标文本信息，从而提高了文本提取的准确性。

对于上述服务器的实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例还提供了一种电子设备，如图12所示，包括处理器401、通信接口402、存储器403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信，

存储器403，用于存放计算机程序；

处理器401，用于执行存储器403上所存放的程序时，用于上述实现上述任一所述的文本提取方法的步骤。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的文本提取方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的文本提取方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种文本提取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述目标文本识别模型是通过以下步骤得到：

3.根据权利要求2所述的方法，其特征在于，所述将所述样本文本图像输入至初始文本识别模型，得到预测类别属性和预测位置信息，包括：

4.根据权利要求34所述的方法，其特征在于，所述将所述样本文本图像输入至初始文本识别模型，得到所述样本文本图像中各样本文本信息的至少两种候选类别属性以及所述候选类别属性相对应的候选位置信息和置信度，包括：

将所述样本文本图像输入至初始文本识别模型；

5.根据权利要求3所述的方法，其特征在于，所述在所述预测类别属性、所述预测位置信息、标准类别属性和标准位置信息符合预设训练要求，将训练后的初始文本识别模型作为目标文本识别模型，包括：

6.根据权利要求3所述的方法，其特征在于，所述根据所述预测位置信息和标准位置信息获取损失值，包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，在所述将待处理的目标文本图像输入至目标文本识别模型之前，所述方法还包括：

接收对于预设界面的目标输入；

将所述目标输入所指定的文本图像作为目标文本图像；

8.一种文本提取装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7中任一所述的文本提取方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现权利要求1至7中任一所述的文本提取方法。