CN116563868A

CN116563868A - 文本图像的识别方法、装置、计算机设备及存储介质

Info

Publication number: CN116563868A
Application number: CN202310648791.8A
Authority: CN
Inventors: 苏沁宁; 蔡妙
Original assignee: Ping An Bank Co Ltd
Current assignee: Ping An Bank Co Ltd
Priority date: 2023-06-02
Filing date: 2023-06-02
Publication date: 2023-08-08

Abstract

本申请公开了一种文本图像的识别方法、装置、计算机设备及存储介质，该方法包括：对获取到的待识别图像进行文本区域检测；对得到的目标文本区域进行文本内容识别；将识别到的目标文本分别与不同类别模板中的特征文本进行匹配，得到各个类别模板对应的匹配结果；根据匹配结果和类别模板所对应的图像类别，确定待识别图像所属图像类别。本申请根据图像文本之间的匹配性，对图像类别进行准确识别，弥补了现有技术中对多文本图像无法准确识别或识别不准的空缺。

Description

文本图像的识别方法、装置、计算机设备及存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种文本图像的识别方法、装置、计算机设备及存储介质。

背景技术

在金融科技应用场景中常常会使用大量的文本影像或文本影像。使用这些文本图像时其中一个环节是对文本图像进行分类识别。通用的文本图像识别方法只能支持营业执照、身份证等有图像特征的图片的识别，对于有较多文本的图像，则识别效果不佳，或无法识别。

发明内容

本申请的主要目的在于提供一种文本图像的识别方法、装置、计算机设备及存储介质，可以解决现有技术中的无法对文本较多的图像进行准确识别的技术问题。

为实现上述目的，本申请第一方面提供一种文本图像的识别方法，该方法包括：

对获取到的待识别图像进行文本区域检测；

对得到的目标文本区域进行文本内容识别；

将识别到的目标文本分别与不同类别模板中的特征文本进行匹配，得到各个类别模板对应的匹配结果；

根据匹配结果和类别模板所对应的图像类别，确定待识别图像所属图像类别。

为实现上述目的，本申请第二方面提供一种文本图像的识别装置，该装置包括：

文本检测模块，用于对获取到的待识别图像进行文本区域检测；

文本识别模块，用于对得到的目标文本区域进行文本内容识别；

匹配模块，用于将识别到的目标文本分别与不同类别模板中的特征文本进行匹配，得到各个类别模板对应的匹配结果；

类别确定模块，用于根据匹配结果和类别模板所对应的图像类别，确定待识别图像所属图像类别。

为实现上述目的，本申请第三方面提供一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：

对获取到的待识别图像进行文本区域检测；

对得到的目标文本区域进行文本内容识别；

为实现上述目的，本申请第四方面提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：

对获取到的待识别图像进行文本区域检测；

对得到的目标文本区域进行文本内容识别；

采用本申请实施例，具有如下有益效果：

本申请通过对文本图像进行文本检测和文本识别，提取出文本图像中的目标文本，再将目标文本与类别模板中的特征文本进行匹配，根据匹配结果确定图像文本之间的匹配性，进而对文本图像的图像类别进行准确识别，弥补了现有技术中对多文本图像无法准确识别或识别不准的空缺。另外，通过模板匹配机制，可以快速实现高准确率的文本图像识别。

另外，本申请可以对各种不同的文本图像进行识别，打破了现有技术对图像识别的局限性，特别适用于多文本图像的图像类别的识别。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为本申请实施例中文本图像的识别方法的流程图；

图2为本申请实施例中文本图像的识别装置的结构框图；

图3为本申请实施例中计算机设备的结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的文本图像的识别方法既可以应用于终端，也可以应用于服务器。终端具体可以是台式终端或移动终端，移动终端具体可以是手机、平板电脑、笔记本电脑等中的至少一种。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

如图1所示，在一个实施例中，提供了一种文本图像的识别方法。该文本图像的识别方法具体包括如下步骤：

S100：对获取到的待识别图像进行文本区域检测。

具体地，本申请的文本图像的识别方法可以应用于各种领域，例如金融科技领域、银行、保险等领域。待识别图像可以是上传的身份证、营业执照、驾驶证、各类申请书(例如，开户申请书、收付委托申请书等)、各类委托书(例如，法定代表人授权委托书、收付委托书等)、各类协议书(账户管理协议、保密协议、支票业务服务协议等)、开户核查清单、加强型尽调报告、开户许可证、开户风险告知书、企业异常开户情形审查表、控制信息表、印鉴卡、金融系统查询信息表等以图片形式展示的数据。待识别图像可以是任意格式的图片，例如.jpg格式、.png格式、.gif格式等不局限于此。

本实施例可以使用任意一种目标检测方法对待识别图像的文本区域进行检测。例如，基于分割的文本检测方法(例如，DBNet、DBNet++、Pixel-Link、PSENet、PMTD、LOMO等)、基于回归的文本检测方法(Textboxes++、R2CNN、FEN等)、基于YOLO的目标检测方法等，本申请对此不作限制。

文本区域即包含文字在内的文本检测框。

S200：对得到的目标文本区域进行文本内容识别。

具体地，对目标文本区域中的文字内容进行识别，得到待识别图像所包含的目标文本。通过文本识别可以识别图像中的字符等文字的形状，并将其翻译成计算机文字。

本实施例将图像中一片区域连续的文字作为一个目标文本，例如，将一行连续的文字作为一个目标文本。待识别图像可能包含多个目标文本，每个目标文本包含若干字符。

本实施例可以使用任意一种文本识别方法对文本区域的文字进行文本识别。例如，基于CNN的文本识别、基于CRNN的文本识别、基于attention注意力机制的文本识别、基于seq2seq机制的文字识别技术等不局限于此。

S300：将识别到的目标文本分别与不同类别模板中的特征文本进行匹配，得到各个类别模板对应的匹配结果。

具体地，每个类别模板存储有一种图像类别的特征文本，不同的类别模板代表不同的图像类别。特征文本是一种类别的文本图像中具有代表性的文本。例如，身份证中的特征文本可以包括身份证号码、家庭住址、签发单位、有效期限、“居民身份证”字眼等其中的一个或多个。营业执照中的特征文本可以包括“营业执照”字眼、统一社会信用代码、证照编号、法定代表人、经营范围、注册资本、成立日期、营业期限、住所等其中的一个或多个。

待识别图像中的所有目标文本都需要与不同类别模板中的特征文本进行匹配。所有目标文本与同一个类别模板中的特征文本进行匹配后，得到该类别模板对应的匹配结果。

S400：根据匹配结果和类别模板所对应的图像类别，确定待识别图像所属图像类别。

具体地，待识别图像的目标文本与类别模板中的特征文本越匹配，则待识别图像的图像类别越可能与最匹配的类别模板的图像类别相同。

基于此，可以根据匹配结果，确定待识别图片所属的图像类别。

文本图像识别可以作为辅助手段应用在银行业等金融领域内的影像识别。但是现有技术中影像的版式多样，常常需要面临开源世界的求解，仅仅通过固定的类别样式已然无法满足快节奏的需求。本实施例结合文本检测和文本识别，可以解决文本影像识别的拓展性问题，通过构建匹配模板库和匹配评分机制，快速高效实现高准确率的文本影像识别。

本实施例通过对文本图像进行文本检测和文本识别，提取出文本图像中的目标文本，再将目标文本与类别模板中的特征文本进行匹配，根据匹配结果确定图像文本之间的匹配性，进而对文本图像的图像类别进行准确识别，弥补了现有技术中对多文本图像无法准确识别或识别不准的空缺。另外，通过模板匹配机制，可以快速实现高准确率的文本图像识别。

在一个实施例中，每个类别模板存储有至少一个特征文本；

步骤S300具体包括：

将目标文本分别与不同类别模板中的不同特征文本进行匹配，得到每个目标文本与不同特征文本对应的匹配得分；

根据所有目标文本与同一个类别模板匹配得到的所有匹配得分，得到类别模板相应的匹配结果。

具体地，不同类别模板存储的特征文本可以均不同，也可以存在部分相同特征文本。例如，“姓名”、“年龄”在申请书、尽调报告等数据中都存在。同一个类别模板中存储的特征文本不重复。

每个类别模板中存储的特征文本的数量可以相同，也可以不同。如果存储的特征文本的数量相同，则例如可以约定每个类别模板存储5个或10个等最具代表性的特征文本。如果存储的特征文本的数量不同，则可以约束每个类别模板可存储的特征文本的最大数量。

每个目标文本分别与不同类别模板中的不同特征文本进行匹配，得到每个目标文本与不同特征文本对应的匹配得分。匹配得分可以是两个文本之间的相似度。匹配得分还可以是如果两个文本匹配，则分配一个得分A；如果两个文本不匹配，则分配另外一个得分B；其中，文本匹配可以通过正则匹配或者通过相似匹配或通过相似语义匹配等不局限于此。

根据所有目标文本与同一个类别模板中的所有特征文本匹配得到的所有匹配得分，可以得到该类别模板相应的匹配结果。即，根据所有匹配得分得到匹配结果。

本实施例通过待识别图像中的目标文本与类别模板中的特征文本之间的匹配得分，得到匹配结果。实现了图像之间通过文本匹配来确定图像类别。

在一个实施例中，根据所有目标文本与同一个类别模板匹配得到的所有匹配得分，得到类别模板相应的匹配结果，包括：

对所有目标文本与同一个类别模板匹配得到的所有匹配得分求和或进行加权求和或求均值，得到总匹配得分，将总匹配得分作为类别模板相应的匹配结果；

或，

根据所有目标文本与同一个类别模板匹配得到的所有匹配得分，计算出目标文本与类别模板中的特征文本相匹配的匹配比。

具体地，如果每个类别模板存储的特征文本的数量相同，则可以对每个类别模板对应的所有匹配得分执行求和或求加权和或求均值中的一种，得到类别模板对应的总匹配得分。即，总匹配得分为所有匹配得分之和、所有匹配得分的加权和、所有匹配得分的均值中的一种。

如果每个类别模板存储的特征文本的数量不一定都相同，则可以对每个类别模板对应的所有匹配得分执行求加权和或求均值中的一种，得到类别模板对应的总匹配得分。即，总匹配得分为所有匹配得分的加权和、所有匹配得分的均值中的一种。

求加权和的时候根据类别模板存储的特征文本的数量选择对应的权重分配规则，得到的权重数量与特征文本的数量相同。将匹配得分分别与对应的权重相乘后求和，得到加权和。另外，不论哪种权重分配规则，权重之和均相同。

另外，类别模板中存储的特征文本可以按照重要程度或相关程度先后排列，重要程度或相关程度越高的特征文本分配的权重越高。

在另外一个具体实施例中，根据目标文本与特征文本的匹配得分，可以确定任意一个目标文本与某个特征文本是否匹配。根据所有目标文本与同一个类别模板中的特征文本相匹配的数量，计算出匹配比。匹配比为与特征文本相匹配的目标文本的数量与目标文本的总数量的比值，或者，匹配比为与特征文本相匹配的目标文本的数量与一个类别模板中所包含的特征文本的总数量的比值。其中，可以通过文本相同或相似判定目标文本与特征文本相匹配。

本实施例通过求和、加权求和、求均值、求匹配比等方式得到了待识别图像的目标文本与类别模板中的特征文本之间的匹配结果。

在一个实施例中，步骤S400具体包括：

将总匹配得分最高或匹配比最高的类别模板所对应的图像类别确定为待识别图像的图像类别；

或，

步骤S400具体包括：

若匹配结果为总匹配得分，则

若最高总匹配得分超过分数阈值，则将总匹配得分最高的类别模板所对应的图像类别确定为待识别图像的图像类别；

若最高总匹配得分不超过分数阈值，则确定待识别图像为其他待定图像类别；

若匹配结果为匹配比，则

若最高匹配比超过比例阈值，则将匹配比最高的类别模板所对应的图像类别确定为待识别图像的图像类别；

若最高匹配比不超过比例阈值，则确定待识别图像为其他待定图像类别。

具体地，如果匹配结果为总匹配得分，则将所有总匹配得分中总匹配得分最高的类别模板所对应的图像类别确定为该待识别图像的图像类别。

如果匹配结果为匹配比，则将所有匹配比中匹配比最高的类别模板所对应的图像类别确定为该待识别图像的图像类别。

或者，

如果匹配结果为总匹配得分，则如果最高总匹配得分超过分数阈值，则将最高总匹配得分的类别模板所对应的图像类别确定为待识别图像的图像类别；

如果最高总匹配得分不超过分数阈值，则确定待识别图像为其他待定图像类别。其他待定图像类别是指暂未录入系统的未知图像类别。

如果最高匹配比超过比例阈值，则将匹配比最高的类别模板所对应的图像类别确定为待识别图像的图像类别；

如果最高匹配比不超过比例阈值，则确定待识别图像为其他待定图像类别。

其中，分数阈值和比例阈值根据实际应用场景配置，本申请对此不作限制。

分数阈值和比例阈值是两个图像属于同类图像的最低文本匹配阈值，本实施例设置分数阈值和比例阈值可以提高文本匹配的门槛，进一步排除不匹配的类别模板，进一步保证图像类别判断的准确性。

另外，在待识别图像被判定为其他待定图像类别后，还可以通过提示预警的方式指示相关人员对待识别图像进行人工图像类别判定，并创建相应的新的类别模板，以充实和完善类别模板，为后续图像类别识别打下坚实基础。

在一个实施例中，在步骤S300之前，该方法还包括：

对同类文本图像中的文本进行统计；

将同类文本图像中、出现频次最高的预设数量或预设比例的文本作为特征文本录入至同一个类别模板中；

将类别模板标识为与同类文本图像相同的图像类别。

具体地，收集具体业务场景中常见业务流程中的业务图像，将业务图像中的文本图像筛选出来。提取每个文本图像中的文本，具体可以使用OCR文本识别技术或其他文本检测识别模型进行文本内容提取。

对同类文本图像中相同或相似的文本进行聚类整合，并统计相同或相似文本的出现频次。

对同类文本图像中的文本按照出现频次进行降序排序，筛选出排序结果中排序值不高于预设数量的文本作为特征文本；或者，筛选出排序结果中出现频次最高的预设比例的文本作为特征文本；例如筛选出前5％或10％的文本等等不局限于此。

其中，预设数量和预设比例具体根据实际应用场景设置，本申请对此不做限制。

另外，相同或相似文本所对应的文本不一定完全相同，可能是语义相同也可能有些许字或词的差别。对于相同或相似文本，可以从多条相同或相似文本中选择一条出现频率最高的文本作为这些相同或相似文本的代表性文本，这些代表性文本进行文本之间的排序，最终筛选出预设数量或预设比例的代表性文本作为特征文本录入到同一个类别模板。

另外，该类别模板所对应的图像类别与这些特征文本所来源的文本图像的图像类别相同。即，根据同类文本图像的图像类别，设置标识类别模板的图像类别。

在一个实施例中，在将同类文本图像中、出现频次最高的预设数量或预设比例的特征文本录入至同一个类别模板中之前，方法还包括：

剔除同时出现在至少两个不同类文本图像中的重复文本。

具体地，有的文本在不同类型的文本图像中都有出现，这说明这个文本不属于某类文本图像的专属文本，不足以表明文本图像的类别。因此，在适当的应用场景中(例如可选文本较多)可以剔除这类在多个不同类文本图像中均出现过的文本。这样可以使得类别模板中保留的文本更具有独特性和代表性，以更好的区分不同类别模板。进一步的增加通过文本匹配确定图像类别的可靠性。

在一个实施例中，该方法还包括：

根据新增文本创建新的类别模板；

或，

根据新增文本的出现频次更新已有类别模板中的特征文本。

具体地，本实施例支持类别模板的新增和更新。

业务人员将收集的新增文本上传至文本图像的识别系统，该系统对新增文本进行统计，如果该新增文本所对应的图像类别已知，且存在对应的已有类别模板，则根据已有类别模板中的特征文本的出现频次和新增文本的出现频次的大小，确定是否对特征文本进行替换或将新增文本添加至已有的类别模板中。

如果该新增文本没有对应的已有类别模板，则根据新增文本创建新的类别模板，并将新增文本添加至新增的类别模板中。

本实施例实现了类别模板的更新和新建。

在一个实施例中，该方法还包括：对类别模板中的特征文本进行校验，以检验特征文本中是否有错别字以及特征文本的完整性。校验通过的特征文本才能录入至类别模板中，校验不通过的特征文本，则纠正后才能录入至类别模板。

在一个实施例中，步骤S100具体包括：

基于深度学习模型训练获得文本检测模型；

将待识别图像输入至已训练的文本检测模型，通过已训练的文本检测模型对待识别图像的文本区域进行检测定位，得到待识别图像的目标文本区域。

具体地，文本检测模型用于对文本图像中的文本区域或文本检测框进行检测定位。文本检测模块可以基于DBNet、DBNet++、Pixel-Link、PSENet、PMTD、LOMO、Textboxes++、R2CNN、FEN、YOLO等算法中的其中一种或多种构建。

在一个实施例中，文本检测模型基于DBnet模型构建；

基于深度学习模型训练获得文本检测模型，包括：

获取第一数据集，其中，第一数据集包含多个第一样本图像以及第一样本图像中真实文本区域的概率图标签和阈值图标签；

利用文本检测模型所包含的特征提取层对输入的第一样本图像进行特征提取，得到多个不同大小的第一特征图；

利用文本检测模型所包含的特征融合层，对第一特征图进行采样和特征融合，得到融合特征图；

将融合特征图输入至文本检测模型所包含的预测层，得到概率图和自适应阈值图；

将自适应阈值图和概率图输入至文本检测模型所包含的二值化处理层，得到近似二值图；

利用文本检测模型所包含的轮廓提取层对近似二值图进行轮廓识别，得到输入的第一样本图像的预测文本区域；

根据概率图、自适应阈值图、近似二值图和对应的真实文本区域的概率图标签和阈值图标签，计算损失函数，根据损失函数通过反向传播对文本检测模型进行参数优化更新，重复上述步骤对文本检测模型进行迭代训练，直到模型收敛，得到已训练的文本检测模型。

具体地，文本检测模型包括特征提取层即主干网络层、特征融合层即瓶颈层、预测层、二值化处理层和轮廓提取层。

每个第一样本图像使用真实文本区域标注过。

输入的第一样本图像经过特征提取层的FPN网络结构，得到多个不同大小的第一特征图。

将这些第一特征图输入至特征融合层进行卷积或卷积加上采样后再进行特征融合，得到融合特征图。

将融合特征图输入至预测层，得到概率图probability map(P)和自适应阈值图threshold map(T)。具体地，预测层加入了反卷积层实现上采样，且具有两个通道分别对应生成自适应阈值图T和概率图P。

对概率图P、自适应阈值图T通过可微分二值化DB(DifferentiableBinarization)得到近似二值图approximate binary map(B)。利用轮廓提取层对近似二值图进行轮廓识别，得到输入的第一样本图像的预测文本区域。

其中，通过来实现可微分二值化将概率图P转换为二值图B，其中，k为放大倍数，为可训练参数。

概率图P和近似二值图B使用相同的概率图标签，自适应阈值图T使用阈值图标签。

将概率图P、近似二值图B与标签的损失函数设置为BCELoss二元交叉熵损失(L_p，L_b)，自适应阈值图T与标签的损失函数设置为L1Loss(L_t)，按照梯度下降算法对模型进行训练，最终得到文本检测模型。文本检测模型的总损失函数为：

L＝L_b+α×L_p+β×L_t

其中，α和β为权重，具体取值根据实际应用场景设置。

在另一个具体实施例中，总损失函数还包括真实文本区域与预测文本区域的交并比损失。

另外，概率图标签和阈值图标签可以通过使用Vatti clipping算法对标注图生成P、B的有监督概率图标签，通过扩展和收缩，并以原文字边界为基准计算由其出发到扩展和收缩边界的归一化距离作为T的阈值图标签。

通过重复上述步骤对文本检测模型进行迭代训练，直到模型收敛，得到已训练的文本检测模型。

另外，训练的评估参数以各像素点平均准确率来评估，直到总损失函数收敛时结束。

在一个实施例中，将待识别图像输入至已训练的文本检测模型，通过已训练的文本检测模型对待识别图像的文本区域进行检测定位，得到待识别图像的目标文本区域，包括：

将待识别图像输入至已训练的文本检测模型，利用已训练的文本检测模型的特征提取层对待识别图像进行特征提取，得到多个不同大小的目标特征图；

利用已训练的文本检测模型的特征融合层，对目标特征图进行采样和特征融合，得到目标融合特征图；

将目标融合特征图输入至已训练的文本检测模型所包含的预测层，得到目标概率图，或，得到目标自适应阈值图和目标概率图；

若得到目标概率图，则将目标概率图输入至已训练的文本检测模型所包含的二值化处理层，使用固定阈值对目标概率图进行二值化，得到目标二值图，其中，固定阈值是模型训练完成时得到的，已训练的文本检测模型是在模型训练完成后通过对模型进行剪枝得到的；

利用剪枝后得到的已训练的文本检测模型所包含的轮廓提取层对目标二值图进行轮廓识别，得到待识别图像的目标文本区域；

若得到目标自适应阈值图和目标概率图，则将目标自适应阈值图和目标概率图输入至已训练的文本检测模型所包含的二值化处理层，得到目标近似二值图；

利用已训练的文本检测模型所包含的轮廓提取层对目标近似二值图进行轮廓识别，得到待识别图像的目标文本区域。

具体地，文本检测模型训练完成后，在推理阶段，可以使用概率图或近似二值图计算出文本框(文本区域)。

如果使用概率图计算文本区域，则模型训练完成后对已训练的文本检测模型进行剪枝，去掉模型中生成自适应阈值图的分支，通过剪枝后已训练的文本检测模型的特征提取层对待识别图像进行特征提取得到多个不同大小的目标特征图；利用特征融合层对输入的目标特征图进行采样和特征融合，得到目标融合特征图；将目标特征融合图输入至预测层，得到目标概率图；利用二值化处理层的固定阈值对目标概率图进行二值化，得到目标二值图；利用轮廓提取层对目标二值图进行轮廓提取，得到待识别图像的目标文本区域。

其中，固定阈值是在文本检测模型训练完成后、根据训练时得到的自适应阈值图定义的。

如果使用似二值图计算文本区域，则不需要对已训练的文本检测模型进行剪枝，通过已训练的文本检测模型的特征提取层对待识别图像进行特征提取得到多个不同大小的目标特征图；利用特征融合层对输入的目标特征图进行采样和特征融合，得到目标融合特征图；将目标特征融合图输入至预测层，得到目标概率图和目标自适应阈值图；利用二值化处理层基于目标自适应阈值图对目标概率图进行二值化，得到目标近似二值图；利用轮廓提取层对目标近似二值图进行轮廓提取，得到待识别图像的目标文本区域。

另外，轮廓提取具体是从目标近似二值图或目标二值图中得到连通区域(收缩文字区域)，将收缩文字区域按Vatti clipping算法的偏移系数进行扩张得到的。

使用概率图计算文本区域，阈值是固定的，可以减少自适应阈值图的计算，节省计算开销。

使用近似二值图计算文本区域，需要计算自适应阈值图，因此阈值是自适应变化而非固定的，因此得到的近似二值图更贴切原图，预测的文字区域更准确。

在一个实施例中，步骤S200具体包括：

将待识别图像的目标文本区域输入至文本识别模型，得到待识别图像的目标文本，文本识别模型基于CNN+LSTM模型构建。

具体地，LSTM即长短期记忆模型，当然，文本识别模型还可以基于CNN+Bi-LSTM模型构建。更具体地，由卷积层、BN层、激活层、输入门、遗忘门和输出门构建基于CNN+LSTM的文本识别模型。

CNN网络提取输入图像的特征，将图像特征转换为时间序列特征输入至LSTM网络或Bi-LSTM网络，LSTM网络或Bi-LSTM网络对每个时刻的时间序列特征结合上下时刻状态，输出Ht，然后进行全连接，再用argmax得到文本识别结果。

利用文本检测模型对第一样本图像中的文本区域进行识别后，对得到的文本区域进行真实文本打标。打标后的文本区域组成第二数据集。

利用第二数据集中的文本区域对预训练的文本识别模型进行训练，得到已训练的文本识别模型。

在训练文本识别模型的过程中，可以设置学习率为1e-5，图像分辨率为32x640。

另外，还可以在使用第二数据集训练文本识别模型之前，先使用ImageNet中的数据集对文本识别模型进行预训练，预训练完成后，再使用第二数据集对预训练的文本识别模型进行继续训练。

在训练文本识别模型过程中，可以使用CTCloss作为损失函数。CTCloss(Connectionist Temporal Classification Loss)是根据动态规划算法，使得多种联合概率按真实标签组成的预测值的似然概率最大来求解。CTCloss不需要预测值与标签对齐，可以大幅减轻数据对齐标注的工作量，极大提高效率。当模型训练Loss趋于稳定，至此完成文字识别模型形成。

在一个实施例中，文本检测模型和文本识别模型分别单独训练后组成文本检测识别模型，进行联合训练。

具体地，文本检测模型和文本识别模型可以单独训练后再组合成文本检测识别模型，组合成文本检测识别模型后联合训练，以进行微调。

文本检测模型和文本识别模型也可以联合训练，组成文本检测识别模型，使用一套数据集进行联合训练。

本申请针对文本影像或文本图像类别多、新增速度快问题，通过构建或更新匹配库中的类别模板来高效解决模型拓展能力的问题。其次本申请通过文本匹配对图像类别进行识别，有利于提高文本图像的识别准确率。本申请在类别模板更新时增加了技术和业务人员的配合，有利于技术人员扎根于业务，进而发现业务流程相关问题，更好实现行业内多环节的数字化和智能化进程，提升业务价值。

参考图2，本申请还提供了一种文本图像的识别装置，该装置包括：

文本检测模块100，用于对获取到的待识别图像进行文本区域检测；

文本识别模块200，用于对得到的目标文本区域进行文本内容识别；

匹配模块300，用于将识别到的目标文本分别与不同类别模板中的特征文本进行匹配，得到各个类别模板对应的匹配结果；

类别确定模块400，用于根据匹配结果和类别模板所对应的图像类别，确定待识别图像所属图像类别。

在一个实施例中，每个类别模板存储有至少一个特征文本；

匹配模块300具体包括：

文本匹配模块，用于将目标文本分别与不同类别模板中的不同特征文本进行匹配，得到每个目标文本与不同特征文本对应的匹配得分；

匹配结果获取模块，用于根据所有目标文本与同一个类别模板匹配得到的所有匹配得分，得到类别模板相应的匹配结果。

在一个实施例中，匹配结果获取模块，具体用于对所有目标文本与同一个类别模板匹配得到的所有匹配得分求和或进行加权求和或求均值，得到总匹配得分，将总匹配得分作为类别模板相应的匹配结果；

或，

匹配结果获取模块，具体用于根据所有目标文本与同一个类别模板匹配得到的所有匹配得分，计算出目标文本与类别模板中的特征文本相匹配的匹配比。

在一个实施例中，类别确定模块400，具体用于将总匹配得分最高或匹配比最高的类别模板所对应的图像类别确定为待识别图像的图像类别；

或，

若匹配结果为总匹配得分，则类别确定模块400，具体用于若最高总匹配得分超过分数阈值，则将总匹配得分最高的类别模板所对应的图像类别确定为待识别图像的图像类别；若最高总匹配得分不超过分数阈值，则确定待识别图像为其他待定图像类别；

若匹配结果为匹配比，则类别确定模块400，具体用于若最高匹配比超过比例阈值，则将匹配比最高的类别模板所对应的图像类别确定为待识别图像的图像类别；若最高匹配比不超过比例阈值，则确定待识别图像为其他待定图像类别。

在一个实施例中，该装置还包括：

统计模块，用于对同类文本图像中的文本进行统计；

模板创建模块，用于将同类文本图像中、出现频次最高的预设数量或预设比例的文本作为特征文本录入至同一个类别模板中；

模板类别标识模块，用于将类别模板标识为与同类文本图像相同的图像类别。

在一个实施例中，该装置还包括：

重复文本剔除模块，用于剔除同时出现在至少两个不同类文本图像中的重复文本。

在一个实施例中，该装置还包括：

模板新增模块，用于根据新增文本创建新的类别模板；

模板更新模块，用于根据新增文本的出现频次更新已有类别模板中的特征文本。

在一个实施例中，文本检测模块100具体包括：

第一模型训练模块，用于基于深度学习模型训练获得文本检测模型；

文本区域检测模块，用于将待识别图像输入至已训练的文本检测模型，通过已训练的文本检测模型对待识别图像的文本区域进行检测定位，得到待识别图像的目标文本区域。

在一个实施例中，文本检测模型基于DBnet模型构建；

第一模型训练模块具体包括：

第一数据集获取模块，用于获取第一数据集，其中，第一数据集包含多个第一样本图像以及第一样本图像中真实文本区域的概率图标签和阈值图标签；

特征提取模块，用于利用文本检测模型所包含的特征提取层对输入的第一样本图像进行特征提取，得到多个不同大小的第一特征图；

特征融合模块，用于利用文本检测模型所包含的特征融合层，对第一特征图进行采样和特征融合，得到融合特征图；

预测模块，用于将融合特征图输入至文本检测模型所包含的预测层，得到概率图和自适应阈值图；

二值化模块，用于将自适应阈值图和概率图输入至文本检测模型所包含的二值化处理层，得到近似二值图；

轮廓提取模块，用于利用文本检测模型所包含的轮廓提取层对近似二值图进行轮廓识别，得到输入的第一样本图像的预测文本区域；

迭代模块，用于根据概率图、自适应阈值图、近似二值图和对应的真实文本区域的概率图标签和阈值图标签，计算损失函数，根据损失函数通过反向传播对文本检测模型进行参数优化更新，重复上述步骤对文本检测模型进行迭代训练，直到模型收敛，得到已训练的文本检测模型。

在一个实施例中，文本区域检测模块包括：

特征提取模块，用于将待识别图像输入至已训练的文本检测模型，利用已训练的文本检测模型的特征提取层对待识别图像进行特征提取，得到多个不同大小的目标特征图；

特征融合模块，用于利用已训练的文本检测模型的特征融合层，对目标特征图进行采样和特征融合，得到目标融合特征图；

预测模块，用于将目标融合特征图输入至已训练的文本检测模型所包含的预测层，得到目标概率图，或，得到目标自适应阈值图和目标概率图；

第一二值化模块，用于若得到目标概率图，则将目标概率图输入至已训练的文本检测模型所包含的二值化处理层，使用固定阈值对目标概率图进行二值化，得到目标二值图，其中，固定阈值是模型训练完成时得到的；若得到目标自适应阈值图和目标概率图，则将目标自适应阈值图和目标概率图输入至已训练的文本检测模型所包含的二值化处理层，得到目标近似二值图；

轮廓提取模块，用于利用剪枝后得到的已训练的文本检测模型所包含的轮廓提取层对目标二值图进行轮廓识别，得到待识别图像的目标文本区域，或，利用已训练的文本检测模型所包含的轮廓提取层对目标近似二值图进行轮廓识别，得到待识别图像的目标文本区域。

在一个实施例中，文本识别模块200，具体用于将待识别图像的目标文本区域输入至文本识别模型，得到待识别图像的目标文本，文本识别模型基于CNN+LSTM模型构建。

图3示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端，也可以是服务器。如图3所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现上述方法实施例中的各个步骤。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行上述方法实施例中的各个步骤。本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提出了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：

对获取到的待识别图像进行文本区域检测；

对得到的目标文本区域进行文本内容识别；

在一个实施例中，提出了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：

对获取到的待识别图像进行文本区域检测；

对得到的目标文本区域进行文本内容识别；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文本图像的识别方法，其特征在于，所述方法包括：

对获取到的待识别图像进行文本区域检测；

对得到的目标文本区域进行文本内容识别；

根据所述匹配结果和所述类别模板所对应的图像类别，确定所述待识别图像所属图像类别。

2.根据权利要求1所述的方法，其特征在于，每个所述类别模板存储有至少一个特征文本；

所述将识别到的目标文本分别与不同类别模板中的特征文本进行匹配，得到各个类别模板对应的匹配结果，包括：

根据所有目标文本与同一个类别模板匹配得到的所有匹配得分，得到所述类别模板相应的匹配结果。

3.根据权利要求2所述的方法，其特征在于，所述根据所有目标文本与同一个类别模板匹配得到的所有匹配得分，得到所述类别模板相应的匹配结果，包括：

对所有目标文本与同一个类别模板匹配得到的所有匹配得分求和或进行加权求和或求均值，得到总匹配得分，将所述总匹配得分作为所述类别模板相应的匹配结果；

或，

根据所有目标文本与同一个类别模板匹配得到的所有匹配得分，计算出所述目标文本与所述类别模板中的特征文本相匹配的匹配比。

4.根据权利要求3所述的方法，其特征在于，所述根据所述匹配结果和所述类别模板所对应的图像类别，确定所述待识别图像所属图像类别，包括：

将总匹配得分最高或匹配比最高的类别模板所对应的图像类别确定为所述待识别图像的图像类别；

或，

所述根据所述匹配结果和所述类别模板所对应的图像类别，确定所述待识别图像所属图像类别，包括：

若所述匹配结果为总匹配得分，则

若最高总匹配得分超过分数阈值，则将总匹配得分最高的类别模板所对应的图像类别确定为所述待识别图像的图像类别；

若最高总匹配得分不超过分数阈值，则确定所述待识别图像为其他待定图像类别；

若所述匹配结果为匹配比，则

若最高匹配比超过比例阈值，则将匹配比最高的类别模板所对应的图像类别确定为所述待识别图像的图像类别；

若最高匹配比不超过比例阈值，则确定所述待识别图像为其他待定图像类别。

5.根据权利要求2所述的方法，其特征在于，在所述将识别到的目标文本分别与不同类别模板中的特征文本进行匹配之前，所述方法还包括：

对同类文本图像中的文本进行统计；

将所述类别模板标识为与所述同类文本图像相同的图像类别。

6.根据权利要求5所述的方法，其特征在于，在将同类文本图像中、出现频次最高的预设数量或预设比例的文本作为特征文本录入至同一个类别模板中之前，所述方法还包括：

剔除同时出现在至少两个不同类文本图像中的重复文本。

7.根据权利要求5所述的方法，其特征在于，所述方法还包括：

根据新增文本创建新的类别模板；

或，

根据新增文本的出现频次更新已有类别模板中的特征文本。

8.根据权利要求1所述的方法，其特征在于，所述对获取到的待识别图像进行文本区域检测，包括：

基于深度学习模型训练获得文本检测模型；

将待识别图像输入至已训练的文本检测模型，通过所述已训练的文本检测模型对所述待识别图像的文本区域进行检测定位，得到所述待识别图像的目标文本区域。

9.根据权利要求8所述的方法，其特征在于，所述文本检测模型基于DBnet模型构建；

所述基于深度学习模型训练获得文本检测模型，包括：

获取第一数据集，其中，所述第一数据集包含多个第一样本图像以及第一样本图像中真实文本区域的概率图标签和阈值图标签；

利用所述文本检测模型所包含的特征提取层对输入的第一样本图像进行特征提取，得到多个不同大小的第一特征图；

利用所述文本检测模型所包含的特征融合层，对所述第一特征图进行采样和特征融合，得到融合特征图；

将所述融合特征图输入至所述文本检测模型所包含的预测层，得到概率图和自适应阈值图；

将所述自适应阈值图和概率图输入至所述文本检测模型所包含的二值化处理层，得到近似二值图；

利用所述文本检测模型所包含的轮廓提取层对所述近似二值图进行轮廓识别，得到所述输入的第一样本图像的预测文本区域；

根据所述概率图、自适应阈值图、近似二值图和对应的真实文本区域的概率图标签和阈值图标签，计算损失函数，根据所述损失函数通过反向传播对文本检测模型进行参数优化更新，重复上述步骤对文本检测模型进行迭代训练，直到模型收敛，得到已训练的文本检测模型。

10.根据权利要求9所述的方法，其特征在于，所述将待识别图像输入至已训练的文本检测模型，通过所述已训练的文本检测模型对所述待识别图像的文本区域进行检测定位，得到所述待识别图像的目标文本区域，包括：

将待识别图像输入至已训练的文本检测模型，利用已训练的文本检测模型的特征提取层对所述待识别图像进行特征提取，得到多个不同大小的目标特征图；

利用已训练的文本检测模型的特征融合层，对所述目标特征图进行采样和特征融合，得到目标融合特征图；

将所述目标融合特征图输入至所述已训练的文本检测模型所包含的预测层，得到目标概率图，或，得到目标自适应阈值图和目标概率图；

若得到目标概率图，则将所述目标概率图输入至所述已训练的文本检测模型所包含的二值化处理层，使用固定阈值对所述目标概率图进行二值化，得到目标二值图，其中，所述固定阈值是模型训练完成时得到的；

利用剪枝后得到的所述已训练的文本检测模型所包含的轮廓提取层对所述目标二值图进行轮廓识别，得到所述待识别图像的目标文本区域；

若得到目标自适应阈值图和目标概率图，则将所述目标自适应阈值图和目标概率图输入至所述已训练的文本检测模型所包含的二值化处理层，得到目标近似二值图；

利用所述已训练的文本检测模型所包含的轮廓提取层对所述目标近似二值图进行轮廓识别，得到所述待识别图像的目标文本区域。

11.根据权利要求8所述的方法，其特征在于，所述对得到的目标文本区域进行文本内容识别，包括：

将所述待识别图像的目标文本区域输入至文本识别模型，得到所述待识别图像的目标文本，所述文本识别模型基于CNN+LSTM模型构建。

12.根据权利要求11所述的方法，其特征在于，所述文本检测模型和文本识别模型分别单独训练后组成文本检测识别模型，进行联合训练。

13.一种文本图像的识别装置，其特征在于，所述装置包括：

类别确定模块，用于根据所述匹配结果和所述类别模板所对应的图像类别，确定所述待识别图像所属图像类别。

14.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。

15.一种计算机设备，包括存储器和处理器，其特征在于，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。