CN112836510A

CN112836510A - 一种产品图片文字识别方法和系统

Info

Publication number: CN112836510A
Application number: CN202110327053.4A
Authority: CN
Inventors: 刘征; 王鑫; 邵明; 于之希
Original assignee: China Academy of Art
Current assignee: China Academy of Art
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2021-05-25

Abstract

本发明公开了一种产品图片文字识别方法和系统，所述方法包括如下步骤：获取产品的原始图片据，采用CTPN算法检测原始图片文本区域；采用CRNN算法对所述原始图片的文本区域进行文字识别，获取文本数据；对所述文本数据进行分词，提取文本数据的关键词；计算关键词和原始图片的相关度，根据相关度选择原始图片对应的关键词。所述产品图片文字识别方法和系统采用CTPN算法与CRNN算法对图片中的文字进行识别，在获取具有文字的图片区域后，进一步对包含文字的图片区域进行文字识别，从而可以准确获取图片中的文字。

Description

一种产品图片文字识别方法和系统

技术领域

本发明涉及文字识别领域，特别涉及一种产品图片文字识别方法和系统

背景技术

随着科技的快速发展，网络上的信息资源急剧膨胀。从最初的文字符号传播，演变为图片、视频、音乐等多模式的信息交流，信息的载体变得多样化、复杂化。对于设计师而言，在进行产品设计工作时，需要搜索大量的参考资料。但目前许多产品信息的存在形式较为分散，或直接用文本表示，或隐藏在图片和视频中。以文本表示的文字信息可被直接获取，但被以图像形式保存的文字信息则需要经过一定的处理才可以被使用。

对于一张产品图片而言，除了其本身包含颜色、形状、风格等基础信息外，时常蕴含大量的文字信息。设计师在参考其他产品时，除了获取直观的文本信息，也要获取融合在图片中的文字介绍。因此如何使用计算机从每张图片中自动精确提取融合在其中的文字信息成为亟待解决的问题。

发明内容

本发明其中一个发明目的在于提供一种产品图片文字识别方法和系统，所述方法和系统采用CTPN算法对图片中包含文字部分的区域进行检测，获取具有文字的图片区域，进一步对包含文字的图片区域进行文字识别，从而可以准确获取图片中的文字。

本发明其中一个发明目的在于提供一种产品图片文字识别方法和系统，所述方法和系统采用现有的分词库对识别的文字进行关键词提取，用于获取相关性高的关键词。

本发明其中一个发明目的在于提供一种产品图片文字识别方法和系统，所述方法和系统采用TF-IDF算法对识别的文字进行关键词提取，可以获取和图片的相关性高关键词文本。

本发明其中一个发明目的在于提供一种产品图片文字识别方法和系统，所述方法和系统采用CTC算法对文字序列进行对齐输出，将输出的文字序列输出到图像中对应的文字位置。

为了实现至少一个上述发明目的，本发明进一步提供一种产品图片文字识别方法，所述方法包括如下步骤：

获取产品的原始图片据，采用CTPN算法检测原始图片文本区域；

采用CRNN算法对所述原始图片的文本区域进行文字识别，获取文本数据；

对所述文本数据进行分词，提取文本数据的关键词；

计算关键词和原始图片的相关度，根据相关度选择原始图片对应的关键词。

根据本发明其中一个较佳实施例，检测图片文本区域方法包括：

设置图片长宽比固定值；

将原始图片的长宽比调整为长宽比固定值的整数倍的新图片；

对数据集中的真值框进行处理，将数据集中原始包围盒的标注划分成所述长宽比固定值的小包围盒；

将调整后的新图片输入到VGG16网络，获取VGG16网络中第五卷积block的第三卷积层的映射，获取大小为W×H×C特征，其中W为图片宽度，H为图片高度，C为图片通道数；

对所述第五卷积block的第三卷积层采用滑动窗口进行特征向量提取；

将提取的特征向量输入到BLSTM网络进行处理，获取原始图片的文本提议框。

根据本发明另一个较佳实施例，采用3*3的滑动窗口第五卷积block的第三卷积层进行特征向量提取，获取W×3×3×C个特征向量，提取后的特征向量输入BLSTM网络后输出W×256维的向量，将W×256维的向量映射到512维的全连接层FC上；输出2k个垂直坐标，2k个文本与非文本的分数，k个边缘细化值，采用损失函数计算CTPN算法的损失值。

根据本发明另一个较佳实施例，获取所述2K个文本与非文本分数，并采用极大值抑制算法计算2K个文本与非文本分数，剔除多余的文本提议框，将文本提议框根据图的文本线构造方法进行连接组合，以获取文本行。

根据本发明另一个较佳实施例，所述文字识别方法包括如下步骤：

将调整后的新图片输入到VGG16网络中，生成32×W×3大小的图片特征，将32×W×3大小的图片特征转换为1×(W/4)×512的卷积特征矩阵，生成卷积特征矩阵，每一卷积特征矩阵对应一块矩形区域，将所述卷积特征矩阵输入到BLSTM层中，设置BLSTM层最大时间长度T＝(W/4)，将BLSTM输出的结果采用softmax函数进行分类，获取文字识别结果。

根据本发明另一个较佳实施例，采用CTC算法将所述BLSTM层输出的文本识别结果的每一个字符向量转换为字符，并将转换后的字符输出到原始图像的对应位置。

根据本发明另一个较佳实施例，所述关键词提取的方法包括如下步骤：

对原始图像对应的文本数据进行分词，获取文本数据中的关键词；

计算关键词和所述原始图像的相关度，设置相关度阈值；

将大于所述相关度阈值的关键词作为所述原始图像的关键词保存。

根据本发明另一个较佳实施例，所述关键词相关度采用TF-IDF算法，相关度计算方法包括：

计算关键词词频TF，所述关键词词频

计算逆文档频率IDF,所述逆文档频率

计算关键词相关度TF-IDF＝TF(词频)×IDF(逆文档频率)。

为了实现至少一个上述发明目的，本发明进一步提供一种产品图片文字识别系统，所述系统采用上述一种产品图片文字识别方法。

为了实现至少一个上述发明目的，本发明进一步提供一种计算机可读存储介质，所述计算机可读存储介质存储存储并运行上述一种产品图片文字识别系统。

附图说明

图1显示的是本发明一种产品图片文字识别方法流程示意图；

图2显示的是本发明一种产品图片文字识别系统的模块和算法示意图；

图3显示的是本发明中VGG16网络处理显示的结构示意图；

图4显示的是本发明中CTC算法实现文本对齐示意图。

具体实施方式

以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例，本领域技术人员可以想到其他显而易见的变型。在以下描述中界定的本发明的基本原理可以应用于其他实施方案、变形方案、改进方案、等同方案以及没有背离本发明的精神和范围的其他技术方案。

本领域技术人员应理解的是，在本发明的揭露中，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系是基于附图所示的方位或位置关系，其仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此上述术语不能理解为对本发明的限制。

请参考图1-4，本发明公开了一种产品图片文字识别方法和系统，所述方法主要采用CTPN算法与CRNN算法对产品图片中存在的文字进行识别，具体包括如下步骤：

获取产品原始图片数据，对所述原始图片数据采用所述CPTN算法进行文本区域检测，以获取原始图片数据中的文本区域；

对识别的文本区域采用CRNN算法进行文字识别，用于获取所述文本区域中的文本数据；

对所述文本数据采用现有的分词模型进行分词，以获取所述文本数据中的关键词；

对获取的所述关键词进行分析，分析关键词和产品原始图片之间的关联性，根据所述关联性对每个产品原始图片分配关键词。

具体的，在上述文本区域检测步骤中，采用CPTN算法对原始图片进行数据预处理，所述数据预处理过程包括：调整原始图片的大小，将原始图片调整为宽度不大于600像素，长度不大于1200像素，且长宽比为16的整数倍的新图像。以及处理数据集中的真值框，所述数据集中的真值框处理操作具体为将数据集中的原始包围盒分割成宽度为16像素的小包围盒。

进一步对所述的CPTN算法中的网络部分进行处理，所述CPTN算法的的网络模型包括三个部分：卷积层，双向LSTM网络(BLSTM)和全连接层，其中网络部分的处理过程包括：将原始图片输入到前馈网络，在前馈网络中采用VGG16网络得到第五卷积核(conv5)第三卷积层映射，获取大小为W×H×C的特征，其中W为图片宽度，H为图片高度，C为图片的通道数，所述图片的通道数为第五卷积核的通道数；进一步采用3*3像素大小的窗口在所述第五卷积核第三卷积层(conv5-3)上进行滑动，获取W×3×3×C个特征向量A，将所述特征向量A输入到所述双向LSTM网络中获取W*256维的输出向量B，将所述输出向量B映射到512维的所述全连接层FC上，最终输出2k个垂直坐标，2k个文本与非文本的分数，k个边缘细化值。其中所述垂直坐标为文本提议框所对应的小包围盒和在图像中心上的坐标值，所述边缘细化值为文本提议框(text proposal)的水平偏移值。进一步采用损失函数计算所述CPTN算法预测值和真实值之间的不一致程度。

需要说明的是，所述CPTN算法引入了垂直锚点机制，可识别垂直方向上的文本位置，也就是文本的高度，在水平方向上采用小尺寸候选框选择可能出现文字的区域，所述锚点为所述滑动窗口的中心点，进一步可以采用不同颜色的候选框区分出具有具有文字的区域，所述文本提议框为滑动窗口在进一步滑动输出的文本区域。

所述损失函数的损失值LOSS＝分类时的损失+锚点竖直方向的回归损失+锚点水平方向的偏移回归损失,在反馈网络下选择优化器进行优化，进一步获取LOSS值最小化的网络模型。

在本发明其中一个较佳实施例中，对文本提议框进行合并连接处理，并删除多余的文本文本提议。具体的，采用非极大抑制算法删除多余的文本提议框，由于所述CPTN算法输出存在多个和目标文字区域相交文本提议框，本发明根据上述CPTN算法输出的2k文本与非文本的分数计算出在区间内文本分数极大值对应的文本提议框，该极大值为非端点值，即存在i-1≤i≤i+1的极大值，将区间内极大值分数对应的文本提议框作为目标文本提议框。遍历区间分数内所有文本提议框，并计算所有文本提议框和所述目标文本提议框的交并比IOU，设置交并比阈值S，若检测到的文本提议框和目标文本提议框的交并比大于所述交并比阈值S，则删除该文本提议框。从而获取每一文字区域对应的单独文本提议框。

进一步的，删除多余的文本提议框后，采用基于图的文本线构造方法将相邻的文本进行拼接，用于获取文本行。具体而言，获取文本提议框锚点(antor)的横坐标x,在水平方向上从左到右筛选出不同文本提议框锚点距离小于固定值像素P的锚点对应的文本提议框，并计算筛选出的文本提议框竖直方向上的重叠率，设置重叠率阈值Q，筛选出重叠率大于所述重叠率阈值Q的文本提议框，并进一步采用softmax函数获取最大分数scoer1。进一步采用上述方法在相同锚点序列中计算水平方向从右到左的的最大分数score2，若scoer1≥score2则该锚点序列对应的文本提议框组是最长文本链，若否，则不是最长链，进一步将最长文本链的文本提议框合并为一个文本行。上述文本行是基于咸鱼技术的获取，本发明不再赘述。

在获取文本区域对应的文本行后，采用CRNN算法对文本行中的文字进行检测识别，具体包括：将上述CPTN算法处理好的文本行输入到CRNN算法对应的模型中，本发明一个较佳实施例中，采用调整好的VGG16网络将输入的图片进行特征提取，生成大小为32×W×3的图片特征，其中W为任意宽度；32为长度，代表32个像素；3为卷积通道，将上述图片特征进行转换生成大小为1×(W/4)×512的卷积特征矩阵，由于每个卷积特征矩阵对应一个文本区域，将所述卷积特征矩阵输入到RNN层中进行序列提取。

具体的，针对LSTM网络设置RNN层最大时间长度T＝(W/4)后，将所述卷积特征矩阵输入到LSTM网络中，并经过BLSTM网络输出长度为(W/4)×类别数的向量，从而可以提取出卷积特征矩阵的序列。将所述RNN层输出的结果采用softmax函数进行分类，获取文本识别结果。softmax函数可以将多个神经元映射到(0,1)分值区间内，选取分值最大的结点作为识别结果。其中采用softmax函数进行分类为现有技术，本发明对此不再赘述。

进一步的，由于采用上述CPTN算法识别的文本长度不一，且提取的文本序列可能存在信息冗余的问题，本发明进一步采用CTC算法将输入的文本序列和输出的文本序列对齐。需要说明的是，CTC算法将输入的重复字符序列或空白序列插入对应的空白占位符，并在最终输出的时候进行去重操作以删除所述空白占位符，从而可以使得最终输出的结果和输入的一一对应。

所述产品图片文字识别系统还包括关键词提取模块，所述关键词提取模块用于关键词的提取，其中可以采用现有的分词模型对获取的文本数据进行关键词提取，需要说明的是，分词模型为现有技术，本发明不再对分词模型的实现方式进行说明。现有的分词模型比如jieba分词库可以计算汉字之间的联系，将联系性强的汉字进行组合形成词组，将不同的词组提取作为文本数据的关键词数据库。

进一步的，本发明根据所述关键词数据库进行相关度计算，用于确定产品图片的关键词，采用TF-IDF算法进行关键词确定，具体方法为：

获取文本数据的关键词词频TF，关键词词频TF表示该词条在本文本数据中出现的次数，计算方法为：

其中某类可以是一个文本数据或一类文本数据，本发明优选一个文本数据。

获取逆文档频率IDF，其中所述逆文档频率IDF的计算方法包括如下步骤：

一个词条的IDF值越小，说明其在每个文档中的出现频率都很高，不应作为类的关键词，借此排除助动词、语气词等无实义词语的干扰。

最终TF-IDF值计算方法为：

TF-IDF＝TF(词频)×IDF(逆文档频率)；

词条的TF-IDF值与其在文档中出现的频率成正比，与词在整个语言中出现的次数成反比，即词条对文档的重要性越高，它的TF-IDF值越大，本发明计算所有所有关键词的TF-IDF值后，将关键词根据TF-IDF值从小到大依次排序，设置TF-IDF阈值，若TF-IDF值大于所述TF-IDF阈值，则将对应的关键词作为所述文本数据的关键词进行标识。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线段、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线段的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线段、电线段、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

可以理解的是，术语“一”应理解为“至少一”或“一个或多个”，即在一个实施例中，一个元件的数量可以为一个，而在另外的实施例中，该元件的数量可以为多个，术语“一”不能理解为对数量的限制。

本领域的技术人员应理解，上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明，本发明的目的已经完整并有效地实现，本发明的功能及结构原理已在实施例中展示和说明，在没有背离所述原理下，本发明的实施方式可以有任何变形或修改。

Claims

1.一种产品图片文字识别方法，其特征在于，所述方法包括如下步骤：

对所述文本数据进行分词，提取文本数据的关键词；

2.根据权利要求1所述的一种产品图片文字识别方法，其特征在于，检测图片文本区域方法包括：

设置图片长宽比固定值；

将调整后的新图片输入到VGG16网络，获取VGG16网络中第五卷积block的第三卷积层的映射，获取大小为W×H×C的特征，其中W为图片宽度，H为图片高度，C为图片通道数；

3.根据权利要求2所述的一种产品图片文字识别方法，其特征在于，采用3*3的滑动窗口第五卷积block的第三卷积层进行特征向量提取，获取W×3×3×C个特征向量，提取后的特征向量输入BLSTM网络后输出W×256维的向量，将W×256维的向量映射到512维的全连接层FC上；输出2k个垂直坐标，2k个文本与非文本的分数，k个边缘细化值，采用损失函数计算CTPN算法的损失值。

4.根据权利要求3所述的一种产品图片文字识别方法，其特征在于，获取所述2K个文本与非文本分数，并采用极大值抑制算法计算2K个文本与非文本分数，剔除多余的文本提议框，将文本提议框根据图的文本线构造方法进行连接组合，以获取文本行。

5.根据权利要求2所述的一种产品图片文字识别方法，其特征在于，所述文字识别方法包括如下步骤：

6.根据权利要求1所述的一种产品图片文字识别方法，其特征在于，采用CTC算法将所述BLSTM层输出的文本识别结果的每一个字符向量转换为字符，并将转换后的字符输出到原始图像的对应位置。

7.根据权利要求1所述的一种产品图片文字识别方法，其特征在于，所述关键词提取的方法包括如下步骤：

计算关键词和所述原始图像的相关度，设置相关度阈值；

8.根据权利要求1所述的一种产品图片文字识别方法，其特征在于，所述关键词相关度采用TF-IDF算法，相关度计算方法包括：

计算关键词词频TF，所述

计算逆文档频率IDF,所述

计算关键词相关度TF-IDF＝TF(词频)×IDF(逆文档频率)。

9.一种产品图片文字识别系统，其特征在于，所述系统采用上述权利要求1-8中任意一项所述的一种产品图片文字识别方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储存储并运行上述权利要求9所述的一种产品图片文字识别系统。