CN110188762B

CN110188762B - 中英文混合商户门店名称识别方法、系统、设备及介质

Info

Publication number: CN110188762B
Application number: CN201910329768.6A
Authority: CN
Inventors: 刘卫国; 张�浩; 殷泽坤; 张雯; 宋红磊
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2021-02-05
Anticipated expiration: 2039-04-23
Also published as: CN110188762A

Abstract

本公开公开了中英文混合商户门店名称识别方法、系统、设备及介质，利用中文商户门店名称分割PixelLink模型对待识别的中英文混合商户门店名称图片的文字区域进行分割，分割出M个分割的文字区域；利用英文商户门店名称分割PixelLink模型对待识别的中英文混合商户门店名称图片的文字区域进行分割，分割出N个分割的文字区域；从M个和N个分割的文字区域中分别选出面积最大的文字区域；将筛选的两个面积最大的文字区域进行拼接，得到最终分割的文字区域；使用STN空间变换网络对最终分割的文字区域进行偏移度校正；利用中英文混合识别CRNN模型对校正后的文字区域进行字符识别，得到中文识别结果和英文识别结果。

Description

中英文混合商户门店名称识别方法、系统、设备及介质

技术领域

本公开涉及中英文混合商户门店名称识别方法、系统、设备及介质。

背景技术

本部分的陈述仅仅是提到了与本公开相关的背景技术，并不必然构成现有技术。

目前，一些商家在与美团、银联等公司合作入网时，商户会提供门头正面照片信息供合作方审核，合作方需要人工审核照片中的字体信息与商家提供的文字信息是否一致；由于人工识别照片中的字体信息具有效率低下，工作量大，且错误率高的缺点，因此极其需要结合人工智能技术进行辅助。

在实现本公开的过程中，发明人发现现有技术中存在以下技术问题：

传统光学字符识别主要面向高质量的文档图像，此类技术假设输入图像背景干净、字体简单且文字排布整齐，在符合要求的情况下能够达到很高的识别水平。

与文档文字识别不同，自然场景中的文字识别具有图像背景复杂、分辨率低下、字体多样、分布随意等不良条件，传统光学字符识别在此类情况下无法应用。作为大量相关技术的基础工作,自然场景文字识别的不断发展和突破具有深远的研究意义和实际价值。近年来由于深度学习的快速崛起和计算机计算能力的提升，人们开始尝试构建各种机器学习模型来解决这一难题。

当前学术科研领域针对自然场景商户门店名称的的文本识别有如下几个问题：

1.用户上传的照片中存在角度倾斜等干扰项，使得文字边缘清晰度下降，这会让模型识别正确率有所下降；

2.由于大多数商户门店中会同时含有中文、英文字符，由于中文字符均为方块字而英文字符较为瘦长的特点，因此难以使用同一个模型对中文英文进行精准识别。

发明内容

为了解决现有技术的不足，本公开提供了中英文混合商户门店名称识别方法、系统、设备及介质；

第一方面，本公开提供了中英文混合商户门店名称识别方法；

中英文混合商户门店名称识别方法，包括：

利用中文商户门店名称分割PixelLink模型对待识别的中英文混合商户门店名称图片的文字区域进行分割，分割出M个分割的文字区域；M为正整数；

利用英文商户门店名称分割PixelLink模型对待识别的中英文混合商户门店名称图片的文字区域进行分割，分割出N个分割的文字区域；N为正整数；

从M个分割的文字区域中选出面积最大的文字区域；同样的，从N个分割的文字区域中选出面积最大的文字区域；删除剩余的文字区域；

将筛选的两个面积最大的文字区域进行拼接，得到最终分割的文字区域；

使用STN空间变换网络对最终分割的文字区域进行偏移度校正；

利用中英文混合识别CRNN模型对校正后的文字区域进行字符识别，得到中文识别结果和英文识别结果。

第二方面，本公开还提供了中英文混合商户门店名称识别系统；

中英文混合商户门店名称识别系统，包括：

第一分割模块：利用中文商户门店名称分割PixelLink模型对待识别的中英文混合商户门店名称图片的文字区域进行分割，分割出M个分割的文字区域；M为正整数；

第二分割模块：利用英文商户门店名称分割PixelLink模型对待识别的中英文混合商户门店名称图片的文字区域进行分割，分割出N个分割的文字区域；N为正整数；

筛选模块：从M个分割的文字区域中选出面积最大的文字区域；同样的，从N个分割的文字区域中选出面积最大的文字区域；删除剩余的文字区域；

拼接模块：将筛选的两个面积最大的文字区域进行拼接，得到最终分割的文字区域；

校正模块：使用STN空间变换网络对最终分割的文字区域进行偏移度校正；

识别模块：利用中英文混合识别CRNN模型对校正后的文字区域进行字符识别，得到中文识别结果和英文识别结果。

第三方面，本公开还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面中的方法。

第四方面，本公开还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面中方法的步骤。

与现有技术相比，本公开的有益效果是：

1、本公开使用STN空间变换网络对最终分割的文字区域进行偏移度校正，可以实现待识别文字区域的倾斜角度校正，有效提高识别的准确度；

2、从M个分割的文字区域中选出面积最大的文字区域；同样的，从N个分割的文字区域中选出面积最大的文字区域；删除剩余的文字区域；可以有效剔除除了本商户门店的中文和英文标识符以外的其他商户门店的小字符宣传广告语，或者本商户门店的小字符广告语。

3、本公开利用中英文混合识别CRNN模型对校正后的文字区域进行字符识别，得到中文识别结果和英文识别结果，可以实现含有中英文混合商户门店名称的精确识别。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本公开实施例一的方法流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

英文全称和中文解释：

STN，Spatial TransformerNetworks，空间变换网络，它显式地允许在网络中对数据进行空间变换操作。

CRNN，Convolutional RecurrentNeural Network，循环卷积神经网络，是一种端到端的文字识别神经网络，可以直接从序列标签学习，不用给每个字符打标签，只需要给一个图片打一个序列标签，例如：图片中是“abc123”，标签即是“abc123”，不用给每个字符单独打标签。

实施例一：本实施例提供了中英文混合商户门店名称识别方法；

如图1所示，中英文混合商户门店名称识别方法，包括：

上述技术方案的有益效果是，用中文商户门店名称分割PixelLink模型对待识别的中英文混合商户门店名称图片的文字区域进行分割，分割出M个分割的文字区域；所述M个分割的文字区域是更偏向于中文的文字区域，也可能包含英文的文字区域。

上述技术方案的有益效果是，利用英文商户门店名称分割PixelLink模型对待识别的中英文混合商户门店名称图片的文字区域进行分割，分割出N个分割的文字区域；所述分割出N个分割的文字区域是更偏向于英文的文字区域，也可能包含中文的文字区域。

上述技术方案的有益效果是，从M个分割的文字区域中选出面积最大的文字区域；同样的，从N个分割的文字区域中选出面积最大的文字区域；删除剩余的文字区域；可以有效剔除除了本商户门店的中文和英文标识符以外的其他商户门店的小字符宣传广告语，或者本商户门店的小字符广告语。本领域技术人员应理解的，一张商户门店的照片中，通常本商户门店的广告牌字体是最大的，本商户门店的邻接商户门店的广告牌字体相对于本商户门店而言是较小的；本商户门店的其他文字描述相对于本商户门店的广告牌字体也是相对较小的。

上述技术方案的有益效果是，使用STN空间变换网络对最终分割的文字区域进行偏移度校正，可以将倾斜的英文和中文，变换成非倾斜的英文和中文。

作为一种实施例，中英文混合商户门店名称识别方法，还包括：

对英文识别结果进行英文字母数量统计，

如果英文字母数量小于等于设定阈值，则将中文识别结果和英文识别结果输出；

如果英文字母数量超过设定阈值；则利用英文识别CRNN模型对校正后的文字区域再次进行字符识别，得到最终的英文识别结果；最后，将中文识别结果和最终的英文识别结果输出。

作为一种实施例，中文商户门店名称分割PixelLink模型的获取步骤，包括：

构建PixelLink模型；

中文文字区域分割步骤：利用中文商户门店名称图片输入到PixelLink模型中，得到中文文字区域分割结果；

更换中文商户门店名称图片，重复中文文字区域分割步骤，直至中文文字区域分割精确度超过设定阈值，所得到的PixelLink模型即为中文商户门店名称分割PixelLink模型。

作为一种实施例，英文商户门店名称分割PixelLink模型的获取步骤，包括：

构建PixelLink模型；

英文文字区域分割步骤：利用英文商户门店名称图片输入到PixelLink模型中，得到英文文字区域分割结果；

更换英文商户门店名称图片，重复英文文字区域分割步骤，直至英文文字区域分割精确度超过设定阈值，所得到的PixelLink模型即为英文商户门店名称分割PixelLink模型。

作为一种实施例，所述将筛选的两个面积最大的文字区域进行拼接，得到最终分割的文字区域的拼接是指第一文字区域放置在第二文字区域正上方。

作为一种实施例，中英文混合识别CRNN模型的获取步骤，包括：

构建CRNN模型；

从中文自然文本数据集CTW中随机抽取若干张单字图片和若干张词组图片；

先将单字图片输入到CRNN模型中进行若干轮训练，待CRNN模型的损失函数值loss处于设定范围内，再输入词组图片进行若干轮训练，待CRNN模型的损失函数值loss再次处于设定范围内，就得到中文识别CRNN模型；

从ICDAR2015的数据集中随机抽取若干张单字母图片和若干张单词图片；

先将单字母图片输入到中文识别CRNN模型中进行若干轮训练，待中文识别CRNN模型的损失函数值loss处于设定范围内，再输入若干张单词图片进行若干轮训练，待中文识别CRNN模型的损失函数值loss再次处于设定范围内，就得到中英文混合识别CRNN模型。

作为一种实施例，英文识别CRNN模型的获取步骤，包括：

构建CRNN模型；

先将若干张单字母图片输入到CRNN模型对CRNN模型进行训练，待CRNN模型的损失函数值loss处于设定范围内，再输入若干张单词图片进行训练，待CRNN模型的损失函数值loss再次处于设定范围内，然后得到训练好的英文识别CRNN模型。

进一步地，所述方法还包括：

对中文识别结果或英文识别结果，利用预收集的本地商户门店名称数据库进行校正，得到最终的识别结果。

进一步地，对中文识别结果或英文识别结果，利用预收集的本地商户门店名称数据库进行校正，得到最终的识别结果的具体步骤为：

使用Python脚本从高德地图上爬取全国商户门店名并储存在本地商户门店名称数据库，其中数据库包括英文商户门店名称数据库，中文商户门店数据库以及中英文混合商户门店名称；

将中文识别结果或英文识别结果与本地商户门店名称数据库内的商户门店名称数据进行相似度匹配；

将相似度最高值对应的本地商户门店名称数据库内的商户门店名称作为中文识别结果或英文识别结果。

进一步地，将中文识别结果或英文识别结果与本地商户门店名称数据库内的商户门店名称数据进行相似度匹配，具体步骤包括：

将中文识别结果或英文识别结果与本地商户门店名称数据库内的商户门店名称数据进行相似度匹配，具体步骤包括：

对于中文字符串，先转换为形码，然后进行字符串相似度计算；

对于英文字符串，使用编辑距离算法进行字符串的相似度计算；

然后根据设定的中文相似度和英文相似度的权重，对中文相似度和英文相似度进行加权求和，得到中英文混合名称与本地数据库内商户门店名称的相似度。

形码，包括：四角号码编码、结构码或笔画数；

四角号码编码：汉语词典常用检字方法之一，把笔划分为十类，用数字0到9表示汉字四角的十种笔形，依序取汉字的左上、右上、左下、右下角的笔划，取得四位数字，有时在最后增加一位补码，称为“附角”，故最多为五码。四角号码只取汉字的四角，完全摆脱了字义，重点在于字形的表示

中英混合相似度计算具体公式为：f(i,j)＝α*S_英+β*S_中

其中，α、β为系数参数，可以根据具体输入情况进行自动调整。

S_英计算方法为依据编辑距离算法，依次计算两个字符串相应子串两两之间的编辑距离，并写入编辑距离矩阵。

其中，所述依据编辑距离算法，依次计算两个字符串相应子串两两之间的编辑距离：

1)ifi＝＝0&&j＝＝0,edit_char(i,j)＝0；

2)ifi＝＝0&&j>0,edit_char(i,j)＝j；

3)ifi>0&&j＝＝0,edit_char(i,j)＝I；

4)if0<i<＝m&&0<j<＝n,edit_char(i,j)＝＝min{edit_char(i-l,j)+1,edit_char(i,j-1)+1,edit_char(i-l,j-l)+f(i,j)},

当第一个字符串的第i个字符不等于第二个字符串的第j个字符时，f(i,j)＝l；否则，f(i,j)＝0。

其中，采用edit_char(i,j)函数表示第一个字符串A的长度为i的子串到B的长度为j的子串的编辑距离。

取编辑距离矩阵中右下角的值作为最短编辑矩阵distance，计算两个字符串A和B的相似度Similarity：

Similarity＝1-distance/max(length(A)，length(B))

其中，length(A)和length(B)分别表示字符串A和B的长度，max(·)表示取最大值函数。

其中，θ1、θ2、θ3为每个比较部分的系数值(可以根据比较需求调整)；其中四角编码和结构码以及笔画数均有相应的文档可以查询；

所述四角编码编辑距离，是指，中文识别结果的四角编码与数据库中某个商户门店名称的四角编码的编辑距离。

所述结构码比值，是指，中文识别结果的结构码与数据库中某个商户门店名称结构码的比值；

所述中文笔画数差值，是指中文识别结果的笔画总数与数据库中某个商户门店名称中文笔画总数的差值。

所述中文笔画数最大值，是指中文识别结果的笔画总数与数据库中某个商户门店名称中文笔画总数的最大值。

上述技术方案的有益效果是：对于CRNN识别出来的结果，由于原图片会存在遮挡、模糊等情况，可能会存在个别字识别错误的情况，通过纠正可以解决个别字识别错误的问题。

在进行验证时，每个商户门店包含对应的多张不同角度拍摄的图片。我们将每个商户门店的测试图片分别输入到中文和英文PixelLink模型中，获取中文定位结果和英文定位结果，我们认为用户上传的照片中商户门店名称会是图片的主体，会占据最大的面积，因此我们将两种模型切分出的文字区域进行面积比较，选取较大的一块送入CRNN中英文混合模型，将识别结果使用投票算法进行投票，如果出现了英文字符的个数超过设定阈值，那么我们将定位结果再次使用CRNN英文模型进行再次识别，最后将结果进行字符后处理，与本地数据库进行比对、纠错，获得最终输出。

实施例二：本实施例提供了中英文混合商户门店名称识别系统；

中英文混合商户门店名称识别系统，包括：

实施例三：本实施例提供了一种电子设备；

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成方法中的各个操作，为了简洁，在此不再赘述。

所述电子设备可以是移动终端以及非移动终端，非移动终端包括台式计算机，移动终端包括智能手机(Smart Phone，如Android手机、IOS手机等)、智能眼镜、智能手表、智能手环、平板电脑、笔记本电脑、个人数字助理等可以进行无线通信的移动互联网设备。

应理解，在本公开中，该处理器可以是中央处理单元CPU，该处理器还算可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本公开所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能的划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外一点，所显示或讨论的相互之间的耦合或者直接耦合或者通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.中英文混合商户门店名称识别方法，其特征是，包括：

2.如权利要求1所述的方法，其特征是，中英文混合商户门店名称识别方法，还包括：

对英文识别结果进行英文字母数量统计，

3.如权利要求1所述的方法，其特征是，中文商户门店名称分割PixelLink模型的获取步骤，包括：

构建PixelLink模型；

更换中文商户门店名称图片，重复中文文字区域分割步骤，直至中文文字区域分割精确度超过设定阈值，所得到的PixelLink模型即为中文商户门店名称分割PixelLink模型；

或者，

英文商户门店名称分割PixelLink模型的获取步骤，包括：

构建PixelLink模型；

4.如权利要求2所述的方法，其特征是，中英文混合识别CRNN模型的获取步骤，包括：

构建CRNN模型；

先将单字母图片输入到中文识别CRNN模型中进行若干轮训练，待中文识别CRNN模型的损失函数值loss处于设定范围内，再输入若干张单词图片进行若干轮训练，待中文识别CRNN模型的损失函数值loss再次处于设定范围内，就得到中英文混合识别CRNN模型；

或者，

英文识别CRNN模型的获取步骤，包括：

构建CRNN模型；

5.如权利要求1所述的方法，其特征是，所述方法还包括：

6.如权利要求5所述的方法，其特征是，对中文识别结果或英文识别结果，利用预收集的本地商户门店名称数据库进行校正，得到最终的识别结果的具体步骤为：

7.如权利要求6所述的方法，其特征是，将中文识别结果或英文识别结果与本地商户门店名称数据库内的商户门店名称数据进行相似度匹配，具体步骤包括：

8.中英文混合商户门店名称识别系统，其特征是，包括：

9.一种电子设备，其特征是，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项方法所述的步骤。

10.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项方法所述的步骤。