CN110276347B

CN110276347B - 文本类信息检测识别方法及设备

Info

Publication number: CN110276347B
Application number: CN201910502511.6A
Authority: CN
Inventors: 周康明
Original assignee: Shanghai Eye Control Technology Co Ltd
Current assignee: Shanghai Eye Control Technology Co Ltd
Priority date: 2019-06-11
Filing date: 2019-06-11
Publication date: 2020-08-25
Anticipated expiration: 2039-06-11
Also published as: CN110276347A

Abstract

本发明的目的是提供一种文本类信息检测识别方法及设备，本发明通过获取待检测的文本类图像，以及文本类图像中的关键文本信息的标准答案；对待检测的文本类图像进行二值化和去噪处理，得到二值化和去噪处理后的文本类图像；从二值化处理和去噪处理后的文本类图像中获取文本字段信息；对所述文本字段信息进行识别，得到关键文本信息；将所述关键文本信息与对应的标准答案进行是否一致的比对判断，本发明实现了车辆年检文本类的自动校验，既节省人力成本，又提高了车辆年检的工作效率、准确率。

Description

文本类信息检测识别方法及设备

技术领域

本发明涉及计算机领域，尤其涉及一种文本类信息检测识别方法及设备。

背景技术

随着社会经济的不断发展和人民生活水平的持续提高，城市机动车保有量迅猛增长。机动车车辆年检的工作量也随之迅速增大。传统的车辆年检中的多种不同文本的审查主要是通过人工校验，如机动车牌证申请表、完税证明、行驶证、保险单等。该方法人工成本较高，效率较低，且长时间重复性校验操作容易产生疲劳，疏忽等不良状态，影响校验准确率。

如何准确、快速地对安全技术检验报告进行校验，同时避免人工校验成本高、易疲劳、易疏忽等弊端，是急需解决的技术问题。

发明内容

本发明的一个目的是提供一种文本类信息检测识别方法及设备。

根据本发明的一个方面，提供了一种文本类信息检测识别方法，该方法包括：

获取待检测的文本类图像，以及所述文本类图像中的关键文本信息的标准答案；

对所述待检测的文本类图像进行二值化和去噪处理，得到二值化和去噪处理后的文本类图像；

从二值化处理和去噪处理后的文本类图像中获取文本字段信息；

对所述文本字段信息进行识别，得到关键文本信息；

将所述关键文本信息与对应的标准答案进行是否一致的比对判断。

进一步的，上述方法中，从二值化和去噪处理后的文本类图像中获取文本字段信息，包括：

使用弯曲文本目标检测模型，从二值化和去噪处理后的文本类图像中获取文本字段信息。

进一步的，上述方法中，使用弯曲文本目标检测模型，从二值化和去噪处理后的文本类图像中获取文本字段信息之前，还包括：

获取图像预处理后的不同种类的模版文本图像；

采用曲线定位点标记所有文字字段在所述模版文本图像中的所在位置；

基于标记后的所有文字字段在所述模版文本图像中的所在位置，训练目标检测深度神经网络模型，以获得所述弯曲文本目标检测模型。

进一步的，上述方法中，对所述文本字段信息进行识别，得到关键文本信息，包括：

使用文本识别模型对所述文本字段信息进行识别，得到关键文本信息。

进一步的，上述方法中，使用文本识别模型对所述文本字段信息进行识别，得到关键文本信息之前，还包括：

获取不同种类、不同颜色、不同字符内容的文本字段图像；

采用预设图像处理方法对获取到的所述文本字段图像进行数据扩充，并记录相应类别标签，以得到扩充字段数据集；

使用所述扩充字段数据集训练文本识别深度神经网络模型，获得所述文本识别模型。

进一步的，上述方法中，对所述待检测的文本类图像进行二值化处理，包括：

基于opencv的自适应adaptiveThreshold的二值化方法，对所述待检测的文本类图像进行二值化处理。

根据本发明的另一面，还提供一种文本类信息检测识别设备，该设备包括：

目标检测模块，用于获取待检测的文本类图像，以及所述文本类图像中的关键文本信息的标准答案，对所述待检测的文本类图像进行二值化和去噪处理，得到二值化和去噪处理后的文本类图像，从二值化处理和去噪处理后的文本类图像中获取文本字段信息；

文本识别模块，用于对所述文本字段信息进行识别，得到关键文本信息，将所述关键文本信息与对应的标准答案进行是否一致的比对判断。

进一步的，上述设备中，所述目标检测模块，用于使用弯曲文本目标检测模型，从二值化和去噪处理后的文本类图像中获取文本字段信息。

进一步的，上述设备中，所述目标检测模块，用于还用于获取图像预处理后的不同种类的模版文本图像；采用曲线定位点标记所有文字字段在所述模版文本图像中的所在位置；基于标记后的所有文字字段在所述模版文本图像中的所在位置，训练目标检测深度神经网络模型，以获得所述弯曲文本目标检测模型。

进一步的，上述设备中，所述文本识别模块，用于使用文本识别模型对所述文本字段信息进行识别，得到关键文本信息。

进一步的，上述设备中，所述文本识别模块，还用于获取不同种类、不同颜色、不同字符内容的文本字段图像；采用预设图像处理方法对获取到的所述文本字段图像进行数据扩充，并记录相应类别标签，以得到扩充字段数据集；使用所述扩充字段数据集训练文本识别深度神经网络模型，获得所述文本识别模型。

进一步的，上述设备中，所述目标检测模块，用于基于opencv的自适应adaptiveThreshold的二值化方法，对所述待检测的文本类图像进行二值化处理。

根据本发明的另一面，还提供一种基于计算的设备，其中，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器：

对所述文本字段信息进行识别，得到关键文本信息；

根据本发明的另一面，还提供一种计算机可读存储介质，其上存储有计算机可执行指令，其中，该计算机可执行指令被处理器执行时使得该处理器：

对所述文本字段信息进行识别，得到关键文本信息；

与现有技术相比，本发明通过获取待检测的文本类图像，以及所述文本类图像中的关键文本信息的标准答案；对所述待检测的文本类图像进行二值化和去噪处理，得到二值化和去噪处理后的文本类图像；从二值化处理和去噪处理后的文本类图像中获取文本字段信息；对所述文本字段信息进行识别，得到关键文本信息；将所述关键文本信息与对应的标准答案进行是否一致的比对判断，本发明实现了车辆年检文本类的自动校验，既节省人力成本，又提高了车辆年检的工作效率、准确率。而且本发明不依赖于表格线，因此对于表格格式的变动不敏感，本发明可以应用于自动检测车辆年检中的机动车牌证申请表、完税证明、行驶证、保险单等多种不同的文本中的文本信息，并且进行识别判断，以满足如今对车辆年检的工作效率、准确率的需求。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出本发明一实施例的文本类信息检测识别方法的流程图；

图2示出本发明中的一实施例的文本类信息检测识别设备的模块图；

图3示出本发明一实施例的文本检测的原理图；

图4示出本发明一实施例的文本识别的原理图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本发明提供一种文本类信息检测识别方法，所述方法包括：

步骤S1，获取待检测的文本类图像，以及所述文本类图像中的关键文本信息的标准答案；

在此，可以从服务器下载车辆年检中的待检测的文本类图像，以及所述文本类图像中的关键文本信息的标准答案；

步骤S2，对所述待检测的文本类图像进行二值化和去噪处理，得到二值化和去噪处理后的文本类图像；

步骤S3，从二值化处理和去噪处理后的文本类图像中获取文本字段信息；

步骤S4，对所述文本字段信息进行识别，得到关键文本信息；

步骤S5，将所述关键文本信息与对应的标准答案进行是否一致的比对判断。

在此，本发明实现了车辆年检文本类的自动校验，既节省人力成本，又提高了车辆年检的工作效率、准确率。而且本发明不依赖于表格线，因此对于表格格式的变动不敏感，本发明可以应用于自动检测车辆年检中的机动车牌证申请表、完税证明、行驶证、保险单等多种不同的文本中的文本信息，并且进行识别判断，以满足如今对车辆年检的工作效率、准确率的需求。

本发明的文本类信息检测识别方法一实施例中，步骤S3，从二值化和去噪处理后的文本类图像中获取文本字段信息，包括：

在此，通过弯曲文本目标检测模型，可以更高效、准确地获取文本字段信息。

本发明的文本类信息检测识别方法一实施例中，使用弯曲文本目标检测模型，从二值化和去噪处理后的文本类图像中获取文本字段信息之前，还包括：

步骤S31，获取图像预处理后的不同种类的模版文本图像；

步骤S32，采用曲线定位点标记所有文字字段在所述模版文本图像中的所在位置；

在此，采用曲线定位点标记的方式中，可以在多边形区域内需包含完整文本字段；

步骤S33，基于标记后的所有文字字段在所述模版文本图像中的所在位置，训练目标检测深度神经网络模型，以获得所述弯曲文本目标检测模型。

在此，如图3所示，采用弯曲文本检测，避免了文本检测对于表格线及表格格式的依赖，并且在一定程度上可以避免文本的倾斜、褶皱、弯曲等现象带来的影响。弯曲文本目标检测模型具有较强的泛化能力。

具体可以为:设计训练网络，采用基于CTD的深度神经网络模型，加载预训练模型，调整超参数，进行fine-tuning，学习率设置为0.0001，学习率策略设置为“step”，gamma设置为1.0，momentum设置为0.9，weight_decay设置为0.1。

通过训练目标检测深度神经网络模型，可以获得更可靠的弯曲文本目标检测模型。

本发明的文本类信息检测识别方法一实施例中，步骤S4，对所述文本字段信息进行识别，得到关键文本信息，包括：

在此，如图4所示，通过文本识别模型，可以更高效、可靠的得到关键文本信息。

本发明的文本类信息检测识别方法一实施例中，使用文本识别模型对所述文本字段信息进行识别，得到关键文本信息之前，还包括：

步骤S41，获取不同种类、不同颜色、不同字符内容的文本字段图像；

步骤S42，采用预设图像处理方法对获取到的所述文本字段图像进行数据扩充，并记录相应类别标签，以得到扩充字段数据集；

步骤S43，使用所述扩充字段数据集训练文本识别深度神经网络模型，获得所述文本识别模型。

在此，本发明使用基于深度学习的方法得到文本识别模型，可以准确检测文本类信息，并进行识别判断。

本发明的文本类信息检测识别方法一实施例中，步骤S2中，对所述待检测的文本类图像进行二值化处理，包括：

在此，可以对比分析各种二值化的方法，确定适合检验报告二值化去噪的方法，基于opencv的自适应adaptiveThreshold的二值化效果较好，并调取合适的参数可以获得较好二值化效果。

本发明还提供一种文本类信息检测识别设备，所述设备包括：

具体的，如图2所示，目标检测模块包括图像预处理单元和弯曲文本目标检测单元。文本识别模块包括图像预处理单元和文本识别单元。

首先，在获取的文本图像上使用图像预处理单元，对其进行自适应二值化和去噪处理，获取预处理后的文本图像。然后，将预处理后的文本图像传入弯曲文本目标检测单元，获取所有的文字字段区域图像，确定每一个文字字段区域的位置。

将文字字段区域图像传入文本识别模块，图像预处理单元对图像进行标准化处理后送入文本识别单元，识别每一个字段。

最后，文本识别单元将识别出的结果与获取的标准答案进行对比判断。

本发明的文本类信息检测识别设备一实施例中，所述目标检测模块，用于使用弯曲文本目标检测模型，从二值化和去噪处理后的文本类图像中获取文本字段信息。

本发明的文本类信息检测识别设备一实施例中，所述目标检测模块，用于还用于获取图像预处理后的不同种类的模版文本图像；采用曲线定位点标记所有文字字段在所述模版文本图像中的所在位置；基于标记后的所有文字字段在所述模版文本图像中的所在位置，训练目标检测深度神经网络模型，以获得所述弯曲文本目标检测模型。

本发明的文本类信息检测识别设备一实施例中，所述文本识别模块，用于使用文本识别模型对所述文本字段信息进行识别，得到关键文本信息。

在此，通过文本识别模型，可以更高效、可靠的得到关键文本信息。

本发明的文本类信息检测识别设备一实施例中，所述文本识别模块，还用于获取不同种类、不同颜色、不同字符内容的文本字段图像；采用预设图像处理方法对获取到的所述文本字段图像进行数据扩充，并记录相应类别标签，以得到扩充字段数据集；使用所述扩充字段数据集训练文本识别深度神经网络模型，获得所述文本识别模型。

在此，如图4所示，本发明使用基于深度学习的方法得到文本识别模型，可以准确检测文本类信息，并进行识别判断。

具体可以为:设计训练网络，基于lstm深度学习网络进行修改，由于文字模型的num_output较大，对于loss的计算，采用CTC-loss加Center-loss共同计算，提高模型的训练效率和精度。

然后，调整超参数，学习率设置为0.001，学习率策略设置为“step”，gamma设置为0.0001，momentum设置为0.9，weight_decay设置为0.0005。在训练过程中，未加载预训练模型，模型仍能够快速收敛。

最后，根据模型测试效果，调整超参数，进行fine-tuning。

本发明的文本类信息检测识别设备一实施例中，所述目标检测模块，用于基于opencv的自适应adaptiveThreshold的二值化方法，对所述待检测的文本类图像进行二值化处理。

处理器；以及

对所述文本字段信息进行识别，得到关键文本信息；

本发明的各设备和存储介质实施例的详细内容，具体可参见各方法实施例的对应部分，在此，不再赘述。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

需要注意的是，本发明可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本发明的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本发明的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种文本类信息检测识别方法，其中，该方法包括：

使用弯曲文本目标检测模型，从二值化处理和去噪处理后的文本类图像中获取文本字段信息，所述文本字段信息是指文本类图像中文字字段区域及对应的位置，所述弯曲文本目标检测模型是通过获取图像预处理后的不同种类的模版文本图像，采用曲线定位点标记所有文字字段在所述模版文本图像中的所在位置，基于标记后的所有文字字段在所述模版文本图像中的所在位置，训练目标检测深度神经网络模型后得到的；

对所述文本字段信息进行文本识别，得到关键文本信息；

2.根据权利要求1所述的方法，其中，对所述文本字段信息进行识别，得到关键文本信息，包括：

使用文本识别模型对所述文本字段信息进行文本识别，得到关键文本信息。

3.根据权利要求2所述的方法，其中，使用文本识别模型对所述文本字段信息进行识别，得到关键文本信息之前，还包括：

获取不同种类、不同颜色、不同字符内容的文本字段图像；

4.根据权利要求1所述的方法，其中，对所述待检测的文本类图像进行二值化处理，包括：

5.一种文本类信息检测识别设备，其中，该设备包括：

目标检测模块，用于获取待检测的文本类图像，以及所述文本类图像中的关键文本信息的标准答案，对所述待检测的文本类图像进行二值化和去噪处理，得到二值化和去噪处理后的文本类图像，使用弯曲文本目标检测模型，从二值化处理和去噪处理后的文本类图像中获取文本字段信息，所述文本字段信息是指文本类图像中文字字段区域及对应的位置，所述弯曲文本目标检测模型是通过获取图像预处理后的不同种类的模版文本图像，采用曲线定位点标记所有文字字段在所述模版文本图像中的所在位置，基于标记后的所有文字字段在所述模版文本图像中的所在位置，训练目标检测深度神经网络模型后得到的；

文本识别模块，用于对所述文本字段信息进行文本识别，得到关键文本信息，将所述关键文本信息与对应的标准答案进行是否一致的比对判断。

6.根据权利要求5所述的设备，其中，所述文本识别模块具体用于：

7.根据权利要求6所述的设备，其中，所述文本识别模块还用于：

获取不同种类、不同颜色、不同字符内容的文本字段图像；

8.根据权利要求5所述的设备，其中，所述目标检测模块还用于：

9.一种基于计算的设备，其中，包括：

处理器；以及

对所述文本字段信息进行文本识别，得到关键文本信息；

10.一种计算机可读存储介质，其上存储有计算机可执行指令，其中，该计算机可执行指令被处理器执行时使得该处理器：

对所述文本字段信息进行文本识别，得到关键文本信息；