CN111797922A

CN111797922A - 文本图像分类方法及装置

Info

Publication number: CN111797922A
Application number: CN202010629999.1A
Authority: CN
Inventors: 朱兴杰; 刘岩
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2020-10-20
Anticipated expiration: 2040-07-03
Also published as: CN111797922B

Abstract

本发明提供了一种文本图像分类方法及装置，该方法包括：对文本图像进行文本行检测，获得多个文本行的内容；根据文本行的宽度信息，从多个文本行中，抽取满足设定长度和数量要求的文本行的内容；基于满足设定长度和数量要求的文本行的内容，提取满足设定长度和数量要求的文本行的特征向量；基于所述特征向量，对多个文本行进行分类，得到文本图像的类别向量及类别向量中每个类别对应的概率；确定概率最大的类别为文本图像的类别。本发明可以对文本图像进行分类，准确率高。

Description

文本图像分类方法及装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种文本图像分类方法及装置。

背景技术

随着人工智能技术的高速发展，平板电脑、智能手机等配备数字摄像头的手持终端设备的推广普及，基于数字图像资料的业务办理数量急剧增加。在保险领域，这些数字图像覆盖了住院医疗票据，身份证银行卡等大量有用的信息。然而，对于收集到的数字图像通常需要工作人员人工审核查看资料是否齐全，对于客户的误传和漏传现象不能及时的反馈。而这个过程需要浪费大量的人力物力进行沟通协调，既影响工作人员的工作效率，也拉长了客户办理业务的时长，对客户体验非常差。为解决上述问题，其中一种有效的方法是先对客户上次的图像进行分类，现有的图像分类技术多用于类间差异明显，类内差异不大的场景，例如：身份证、银行卡等卡证类的分类，同一个类型一般情况下差距不大，而不同类别间的差距就非常明显，现有的深度学习技术，能够很好的解决这类问题，并且检测准确率和时效性都能满足业务场景的需求。但是对于医疗影像等文本类图像，由于类内差异小，很多类型的判断通常都需要根据图像的内容进行分析，例如：费用清单，结算单等。对于这类文本图像，现有的图像分类方法不能精准的解决其分类问题。

发明内容

本发明实施例提出一种文本图像分类方法，用以对文本图像进行分类，准确率高，该方法包括：

对文本图像进行文本行检测，获得多个文本行的内容；

根据文本行的宽度信息，从多个文本行中，抽取满足设定长度和数量要求的文本行的内容；

基于满足设定长度和数量要求的文本行的内容，提取满足设定长度和数量要求的文本行的特征向量；

基于所述特征向量，对多个文本行进行分类，得到文本图像的类别向量及类别向量中每个类别对应的概率；

确定概率最大的类别为文本图像的类别。

本发明实施例提出一种文本图像分类装置，用以对文本图像进行分类，准确率高，该装置包括：

文本行检测模块，用于对文本图像进行文本行检测，获得多个文本行的内容；

内容抽取模块，用于根据文本行的宽度信息，从多个文本行中，抽取满足设定长度和数量要求的文本行的内容；

特征向量提取模块，用于基于满足设定长度和数量要求的文本行的内容，提取满足设定长度和数量要求的文本行的特征向量；

分类模块，用于基于所述特征向量，对多个文本行进行分类，得到文本图像的类别向量及类别向量中每个类别对应的概率；

类别确定模块，用于确定概率最大的类别为文本图像的类别。

本发明实施例还提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述文本图像分类方法。

本发明实施例还提出了一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述文本图像分类方法的计算机程序。

在本发明实施例中，对文本图像进行文本行检测，获得多个文本行的内容；根据文本行的宽度信息，从多个文本行中，抽取满足设定长度和数量要求的文本行的内容；基于满足设定长度和数量要求的文本行的内容，提取满足设定长度和数量要求的文本行的特征向量；基于所述特征向量，对多个文本行进行分类，得到文本图像的类别向量及类别向量中每个类别对应的概率；确定概率最大的类别为文本图像的类别。在上述过程中，将文本图像分为了多个文本行，基于每个文本行的内容，提取每个文本行的特征向量，这样，对于差异很小的文本图像，可提取出明显不同的文本行的特征向量，使得基于所述特征向量，对多个文本行进行分类时，得到准确的文本图像的类别向量及类别向量中每个类别对应的概率，使得最后确定的文本图像的类别准确度高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中文本图像分类方法的流程图；

图2为本发明实施例文本图像分类方法的详细流程图；

图3为本发明实施例中文本图像分类装置的示意图；

图4为本发明实施例中计算机设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

在本说明书的描述中，所使用的“包含”、“包括”、“具有”、“含有”等，均为开放性的用语，即意指包含但不限于。参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”等的描述意指结合该实施例或示例描述的具体特征、结构或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本申请的实施，其中的步骤顺序不作限定，可根据需要作适当调整。

图1为本发明实施例中文本图像分类方法的流程图，如图1所示，该方法包括：

步骤101，对文本图像进行文本行检测，获得多个文本行的内容；

步骤102，根据文本行的宽度信息，从多个文本行中，抽取满足设定长度和数量要求的文本行的内容；

步骤103，基于满足设定长度和数量要求的文本行的内容，提取满足设定长度和数量要求的文本行的特征向量；

步骤104，基于所述特征向量，对多个文本行进行分类，得到文本图像的类别向量及类别向量中每个类别对应的概率；

步骤105，确定概率最大的类别为文本图像的类别。

在本发明实施例提出的方法中，将文本图像分为了多个文本行，基于每个文本行的内容，提取每个文本行的特征向量，这样，对于差异很小的文本图像，可提取出明显不同的文本行的特征向量，使得基于所述特征向量，对多个文本行进行分类时，得到准确的文本图像的类别向量及类别向量中每个类别对应的概率，使得最后确定的文本图像的类别准确度高。

具体实施时，文本图像可以是任何包含较多文本内容的图像，例如在保险报销领域，可以是各类医疗票据的图像，在保险理赔领域，可以是客户提交的理赔资料影像，

在一实施例中，在对文本图像进行文本行检测，获得多个文本行之前，还包括：

在文本图像不是采用YCbCr颜色空间表示时，对文本图像进行颜色转换，获得采用YCbCr颜色空间表示的文本图像。

在文本图像不满足预设降噪要求时，对文本图像进行降噪处理，获得满足预设降噪要求的文本图像。

在上述实施例中，一般输入的文本图像以RGB颜色空间表示的图像居多，为了后续能够准确地提取文本行的特征向量，需要先对非用YCbCr颜色空间表示的文本图像进行颜色转换，转换公式如下：

其中，R、G、B分别表示RGB颜色空间上不通颜色通道的值；

Y、Cb、Cr分别表示YCbCr颜色空间上不通颜色通道的值。

为了得到质量更高的文本图像，在文本图像不满足预设降噪要求时，对文本图像进行降噪处理，具体可以采用滑动均值滤波的方法对文本图像进行降噪处理，公式如下：

其中，YCbCr(x,y)为YCbCr颜色空间表示的文本图像，F(x,y)为降噪处理后得到的文本图像，S_xy为中心点在(x,y)处，大小为m×n的均值滤波器窗口，均值滤波器就是计算窗口区域的像素均值，然后将均值赋值给窗口中心点处的像素。

具体实施时，对文本图像进行文本行检测的方法有多种，下面给出其中一个实施例。

在一实施例中，对文本图像进行文本行检测，获得多个文本行，包括：

检测获得多个文本行序列；

确定每个文本行序列的位置坐标信息；

根据多个文本行序列的位置坐标信息，对同一行的文本行的内容进行合并，获得多个文本行的内容。

在上述实施例中，对文本图像进行文本行检测的原理是EAST网络，对检测到的文本行序列P_i，(i∈(1,n)，n表示检测到的文本行数量)，确定每个文本行序列的位置坐标信息，在进行合并时，可以首先进行从上到下，从左到右的排序，并根据位置坐标信息进行同一行的文本行的内容的合并，这样就可以获得每个文本行的内容M_i，上述实现文本行检测的方法简单易实现，且检测的准确率较高。

为了进一步提高获得的文本行的内容的质量，在一实施例中，在获得多个文本行的内容之后，还包括：

对每个文本行的内容进行噪声过滤处理；

根据文本行的宽度信息，从多个文本行中，抽取满足设定长度和数量要求的文本行的内容，包括：

根据文本行的宽度信息，从多个噪声过滤处理后的文本行中，抽取满足设定长度和数量要求的文本行的内容。

在上述实施例中，对每个文本行的内容进行噪声过滤处理，提高了每个文本行的内容的质量，从而提高了后续文本图像分类的准确度。进行噪声过滤处理可以采用以下公式：

其中，P_i ^t为噪声过滤处理后的第i个文本行的内容，M_i为第i个文本行的内容，T₁和T₂为设定的阈值，width为文本行的宽，height为文本行的高。

在步骤102和步骤103中，抽取满足设定长度和数量要求的文本行的内容的目的是减少计算的复杂度，设定长度和数量可以根据实际情况而定，例如，可以是10个最长的文本行，此时，若文本行的数量不足10个，通过随机重复选取的方式进行补充，从而满足后续特征的生成和计算。

在一实施例中，基于满足设定长度和数量要求的文本行的内容，提取满足设定长度和数量要求的文本行的特征向量，包括：

基于满足设定长度和数量要求的文本行的内容，采用LBP特征谱的统计直方图表示满足设定长度和数量要求的文本行的特征向量。

在上述实施例中，采用LBP算子提取图像特征，经过LBP算子的计算后，图像上对应于每个像素都会有一个LBP特征值，如果LBP特征计算时采样点是8个的话，那么LBP特征值的范围也是0～255。也可以表示成一张图像，称之为LBP图谱，这里，并不使用LBP图谱做特征，对于八采样点的LBP算子来说，特征值范围为0～255，对每个特征值进行统计，比如得到特征值为1的LBP值有多少个、特征值为245的LBP值有多少个等等。这样就形成了一个统计直方图，该统计直方图有256个bin，即256个分量，也可以把该统计直方图当做一个长度为256的向量，形成了采用LBP特征谱的统计直方图表示满足设定长度和数量要求的文本行的特征向量。上述获得特征向量的方法准确度高，易实现。当然，可以理解的是，还可以采用其他方法获得文本行的特征向量，相关变化例均应落入本发明的保护范围。

在一实施例中，基于所述特征向量，对多个文本行进行分类，得到文本图像的类别向量及类别向量中每个类别对应的概率，包括：

基于所述特征向量，采用SVM的方式对满足设定长度和数量要求的文本行进行分类，得到文本图像的类别向量及类别向量中每个类别对应的概率。

在上述实施例中，采用SVM的方式的准确度高，SVM(Support Vector Machine)指的是支持向量机，在机器学习领域，是一个有监督的学习模型，基于所述特征向量，获得文本图像的类别向量可以采用如下公式：

其中，f(x,i)为第x个类别的值；L_i为第i个文本图像的类别向量，x为第x个类别向量，i为第i个类别；

采用如下公式，确定类别向量中每个类别对应的概率：

其中，P(x)为第x个类别对应的概率，n为类别总数。

在得到文本图像的类别向量及类别向量中每个类别对应的概率后，课通过设置一个阈值T，从而输出满足阈值的类别及其对应的概率，用于展示，之后可确定概率最大的类别为文本图像的类别。

基于上述实施例，本发明提出如下一个实施例来说明文本图像分类方法的详细流程，图2为本发明实施例文本图像分类方法的详细流程图，如图2所示，包括：

步骤201，获得文本图像；

步骤202，在文本图像不是采用YCbCr颜色空间表示时，对文本图像进行颜色转换，获得采用YCbCr颜色空间表示的文本图像；

步骤203，在采用YCbCr颜色空间表示的文本图像不满足预设降噪要求时，对采用YCbCr颜色空间表示的文本图像进行降噪处理，获得满足预设降噪要求的文本图像；

步骤204，检测满足预设降噪要求的文本图像，获得多个文本行序列；

步骤205，确定每个文本行序列的位置坐标信息；

步骤206，根据多个文本行序列的位置坐标信息，对同一行的文本行的内容进行合并，获得多个文本行的内容；

步骤207，对每个文本行的内容进行噪声过滤处理；

步骤208，根据文本行的宽度信息，从多个噪声过滤处理后的文本行中，抽取满足设定长度和数量要求的文本行的内容；

步骤209，基于满足设定长度和数量要求的文本行的内容，采用LBP特征谱的统计直方图表示满足设定长度和数量要求的文本行的特征向量；

步骤210，基于所述特征向量，采用SVM的方式对满足设定长度和数量要求的文本行进行分类，得到文本图像的类别向量及类别向量中每个类别对应的概率；

步骤211，确定概率最大的类别为文本图像的类别。

当然，可以理解的是，上述详细流程还可以有其他变化例，相关变化例均应落入本发明的保护范围。

在一个具体的实施例中，例如，在保险赔付领域，客户通常需要提交所用的理赔资料，理赔资料一般为文本图像，而这些文本图像需要工作人员进行审核后才能进行理赔。理赔资料的审核通常都要晚于数据的上传，一旦出现理赔资料缺失无法进行理赔的情况，往往需要通过电话等方式通知客户进行二次上传数据的情况。这时，可采用本发明实施例提出的方法，对上传的理赔资料进行实时的分类，在无需工作人员参与的情况下，对于客户缺失的理赔资料能够及时发现并提醒客户补充上传。

综上所述，在本发明实施例提出的方法中，对文本图像进行文本行检测，获得多个文本行的内容；根据文本行的宽度信息，从多个文本行中，抽取满足设定长度和数量要求的文本行的内容；基于满足设定长度和数量要求的文本行的内容，提取满足设定长度和数量要求的文本行的特征向量；基于所述特征向量，对多个文本行进行分类，得到文本图像的类别向量及类别向量中每个类别对应的概率；确定概率最大的类别为文本图像的类别。在上述过程中，将文本图像分为了多个文本行，基于每个文本行的内容，提取每个文本行的特征向量，这样，对于差异很小的文本图像，可提取出明显不同的文本行的特征向量，使得基于所述特征向量，对多个文本行进行分类时，得到准确的文本图像的类别向量及类别向量中每个类别对应的概率，使得最后确定的文本图像的类别准确度高。尤其对于图像类内和类间差距较小的文本图像有极高的分类准确率，能够高效的解决文本图像的分类问题。

本发明实施例还提出一种文本图像分类装置，其原理与文本图像分类方法类似，这里不再赘述，图3为本发明实施例中文本图像分类装置的示意图，如图3所示，该装置包括：

文本行检测模块301，用于对文本图像进行文本行检测，获得多个文本行的内容；

内容抽取模块302，用于根据文本行的宽度信息，从多个文本行中，抽取满足设定长度和数量要求的文本行的内容；

特征向量提取模块303，用于基于每个文本行的内容，提取每个文本行的特征向量；

分类模块304，用于基于所述特征向量，对多个文本行进行分类，得到文本图像的类别向量及类别向量中每个类别对应的概率；

类别确定模块305，用于确定概率最大的类别为文本图像的类别。

在一实施例中，所述装置还包括第一预处理模块306，用于：

在一实施例中，所述装置还包括第二预处理模块307，用于：

在一实施例中，文本行检测模块301具体用于：

检测获得多个文本行序列；

确定每个文本行序列的位置坐标信息；

在一实施例中，所述装置还包括噪声过滤处理模块308，用于：

对每个文本行的内容进行噪声过滤处理；

内容抽取模块302具体用于：

基于噪声过滤处理后的每个文本行的内容，提取每个文本行的特征向量。

在一实施例中，特征向量提取模块302具体用于：

在一实施例中，特征向量提取模块303具体用于：

在一实施例中，分类模块304具体用于：

综上所述，在本发明实施例提出的装置中，对文本图像进行文本行检测，获得多个文本行的内容根据文本行的宽度信息，从多个文本行中，抽取满足设定长度和数量要求的文本行的内容；基于满足设定长度和数量要求的文本行的内容，提取满足设定长度和数量要求的文本行的特征向量；基于所述特征向量，对多个文本行进行分类，得到文本图像的类别向量及类别向量中每个类别对应的概率；确定概率最大的类别为文本图像的类别。在上述过程中，将文本图像分为了多个文本行，基于每个文本行的内容，提取每个文本行的特征向量，这样，对于差异很小的文本图像，可提取出明显不同的文本行的特征向量，使得基于所述特征向量，对多个文本行进行分类时，得到准确的文本图像的类别向量及类别向量中每个类别对应的概率，使得最后确定的文本图像的类别准确度高。尤其对于图像类内和类间差距较小的文本图像有极高的分类准确率，能够高效的解决文本图像的分类问题。

本申请的实施例还提供一种计算机设备，图4为本发明实施例中计算机设备的示意图，该计算机设备能够实现上述实施例中的文本图像分类方法中全部步骤，所述电子设备具体包括如下内容：

处理器(processor)401、存储器(memory)402、通信接口(CommunicationsInterface)403和总线404；

其中，所述处理器401、存储器402、通信接口403通过所述总线404完成相互间的通信；所述通信接口403用于实现服务器端设备、检测设备以及用户端设备等相关设备之间的信息传输；

所述处理器401用于调用所述存储器402中的计算机程序，所述处理器执行所述计算机程序时实现上述实施例中的文本图像分类方法中的全部步骤。

本申请的实施例还提供一种计算机可读存储介质，能够实现上述实施例中的文本图像分类方法中全部步骤，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的文本图像分类方法的全部步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本图像分类方法，其特征在于，包括：

对文本图像进行文本行检测，获得多个文本行的内容；

确定概率最大的类别为文本图像的类别。

2.如权利要求1所述的文本图像分类方法，其特征在于，在对文本图像进行文本行检测，获得多个文本行之前，还包括：

3.如权利要求1所述的文本图像分类方法，其特征在于，在对文本图像进行文本行检测，获得多个文本行之前，还包括：

4.如权利要求1所述的文本图像分类方法，其特征在于，对文本图像进行文本行检测，获得多个文本行，包括：

检测获得多个文本行序列；

确定每个文本行序列的位置坐标信息；

5.如权利要求4所述的文本图像分类方法，其特征在于，在获得多个文本行的内容之后，还包括：

对每个文本行的内容进行噪声过滤处理；

6.如权利要求1所述的文本图像分类方法，其特征在于，基于满足设定长度和数量要求的文本行的内容，提取满足设定长度和数量要求的文本行的特征向量，包括：

7.如权利要求6所述的文本图像分类方法，其特征在于，基于所述特征向量，对多个文本行进行分类，得到文本图像的类别向量及类别向量中每个类别对应的概率，包括：

8.一种文本图像分类装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至7任一项所述方法的计算机程序。