CN112052723A

CN112052723A - 识字卡片、基于图像识别的桌面场景的str方法及装置

Info

Publication number: CN112052723A
Application number: CN202010719515.2A
Authority: CN
Inventors: 陈杰宇; 朱松; 寇婷婷; 武庆三; 潘鑫
Original assignee: Shenzhen Wantong Technology Co ltd
Current assignee: Shenzhen Wantong Technology Co ltd
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2020-12-08

Abstract

一种识字卡片、基于图像识别的桌面场景的STR方法及装置，该STR方法包括：视频获取步骤、静态帧掩码检测步骤、直线检测步骤、矩形检测步骤、方向矫正步骤和识别步骤，对识别需要的矩形区域Rects’进行分类识别，提取每个识别需要的矩形区域Rects’的HOG特征，输入预先训练的SVM分类，对应映射到最后的字卡信息，得到识别结果。该STR方法对设备性能要求相对低，并在桌面场景下出现的识字卡可以快速、实时地识别。

Description

识字卡片、基于图像识别的桌面场景的STR方法及装置

技术领域

本发明涉及儿童教育辅助装置技术领域，具体涉及一种识字卡片、基于图像识别的桌面场景的STR方法及装置。

背景技术

在过去几十年以来，人们一直在研究在自然场景中出现的字符符号。识字卡产生的字符属于其中一个种类，根据其特点，用户在使用的过程随机角度、随机位置摆放。在考虑这类问题的解决方案时，除了实时需求外，需要算法对字符角度有一定支持。

在幼儿教育当中，掌握一定数量的文字对后续学习至关重要，而识字卡则是幼儿识字常见的辅助工具，在桌面场景(利用机器学习方法识别桌面图像，通过语音或视频的方式教育儿童)进行儿童识字教育是一种较好的教育方式。传统的机器学习方法分为检测和识别两步，检测则有MSER连通区域分析定位出字符位置，对文字区域进行矫正，然后通过分类器类似SVM这种进行分类识别。基于深度学习的检测方法无法直接实时运行在普通的智能设备上，一种常见的部署方法是云端部署深度学习模型识别，前端传输视频流回去识别，这种方法需要一定的网络环境要求，而部署成本也比较高；基于传统的识别方法能运行在普通设备，MSER连通域分析结合分类的方法比较适合多个文字成行排列文字的识别，但对于识字卡更有可能是离散、单个出现的情况不太适用。

目前基于使用智能设备设计的幼教课程得到大力发展，配合幼儿字卡识别STR算法(Scene Text Recognition)得到广泛应用。主流的STR识别方法有CTPN、TextBoxes、SegLinesink等深度学习算法，这类算法有正确率高、鲁棒性强等优点，通过在卷积层提取的丰富的特征完成分类识别。这类方法通常需要在以下条件运行：需要简桌面单环境、需要对每一种类识字卡上设置复杂纹理和对运行的智能设备有一定要求，然而，复杂纹理提高了识字卡产品和智能设备性能要求提高了整体成本，不利于市场推广，而桌面环境不作限制会增加了算法难度。

发明内容

本申请提供一种识字卡片、基于图像识别的桌面场景的STR方法及装置，该STR方法对设备性能要求相对低，并在桌面场景下出现的识字卡可以快速、实时地识别。

根据第一方面，一种实施例中提供一种基于图像识别的桌面场景的STR方法，包括：

视频获取步骤：对输入视频流进行透视变换，转换为正向俯视视角；

静态帧掩码检测步骤：对每一帧图像检测进行差分检测，获取变化区域；

直线检测步骤：对所述变化区域使用LSD方法进行检测直线，获取最终候选矩形区域Rects，包括：由外框线段组成的矩形和由内框线段组成的矩形；

矩形检测步骤：对最终候选矩形区域Rects进行内框检测，得到识别需要的矩形区域Rects’；

方向矫正步骤：根据LOGO位置,矫正每个识别需要的矩形区域Rects’的方向；

识别步骤:对识别需要的矩形区域Rects’进行分类识别，提取每个识别需要的矩形区域Rects’的HOG特征，输入预先训练的SVM分类，对应映射到最后的字卡信息，得到识别结果。

在一些实施例，所述的方法还包括：在识别步骤后，对每个识别结果进行对应的文字灰度图多尺度模版检测，抛弃结果超过阈值的结果。

在一些实施例，所述直线检测步骤包括：

获取直线集Lines；

遍历所有直线，删去所有过短直线，在直线距离低于一个阈值并截距差值在一定范围内情况下合并为新的直线；

计算剩余直线Lines’之间角度和距离，以Line-pairs记录所有直线对之间的距离、夹角等信息；

遍历Line-pairs内所有平衡关系的直线对，过滤距离低于阈值的直线、并平衡直线投影重叠指标低于阈值的直线对；

对上述满足条件的Line-pairs’按照直线投影重叠指标排序；

对Line-pairs’两个平衡直线对存在垂直关系计算组成矩形的面积、交点，按照识字卡在图像的成像大小范围过滤，获取候选矩形，对当中重叠面积比例大于阈值的进行合并候选矩形，得到最终候选矩形区域Rects。

在一些实施例，所述矩形检测步骤包括：

对最终候选矩形区域Rects进行内框检测，通过扩大每个矩形区域，获取小块灰度图像进行边沿轮廓检测；

再对边沿计算轮廓多边形拟合，只计算当中面积大于一定阈值的最小矩形作为识别需要的识别需要的矩形区域Rects’。

在一些实施例，所述方向矫正步骤包括：

把最后识别需要的矩形区域Rects’区域缩放处理，

利用OSTU方法计算每个Rects’区域的二值图，在垂直方向、水平方向统计二值投影，

计算最靠近边沿的16pixceLines范围内的直方统计，接着上往下、从下往上遍历水平投影，从左往右、从右往左遍历垂直投影，找到连8个统计区域大于0的区块；

选取其中占空比接近0.15的一块作为最后认为存在LOGO的边沿旋转图像，使得识别需要的矩形区域Rects’的LOGO始终处于底部。

在一些实施例，提取每个识别需要的矩形区域Rects’的HOG特征时，参数采用输入图像大小48x48,每个小窗口和小区块均和16x16，窗口滑动步长为8x8。

根据第二方面，一种实施例中提供一种桌面场景的STR装置，包括：

视频获取模块：用于对输入视频流进行透视变换，转换为正向俯视视角；

静态帧掩码检测模块：用于对每一帧图像检测进行差分检测，获取变化区域；

直线检测模块：用于对所述变化区域使用LSD方法进行检测直线，获取最终候选矩形区域Rects，包括：由外框线段组成的矩形和由内框线段组成的矩形；

矩形检测模块：用于对最终候选矩形区域Rects进行内框检测，得到识别需要的矩形区域Rects’；

方向矫正模块：用于根据LOGO位置,矫正每个识别需要的矩形区域Rects’的方向；

识别模块：用于对识别需要的矩形区域Rects’进行分类识别，提取每个识别需要的矩形区域Rects’的HOG特征，输入预先训练的SVM识别模型，对应映射到最后的字卡信息，得到识别结果。

根据第三方面，一种实施例中提供一种电子产品，包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现如第一方面所述的方法。

根据第四方面，一种实施例中提供一种计算机可读存储介质，包括程序，所述程序能够被处理器执行以实现如第一方面所述的方法。

根据第五方面，一种实施例中提供一种识字卡片，采用一种基本形状为矩形的设计，深色外框浅色背景，文字内容在中心，底部设置一个凸起的梯形展示卡片的LOGO内容；其特征在于，用于以实现如第一方面所述的方法。

依据上述实施例，通过静态帧掩码检测、直线检测和矩形检测，本申请的实现桌面场景识别不需要云端支持，可以简单部署使用，支持在桌面场景下任意角度摆放，均可快速识别出卡内容，满足了实时性，并且成本低；而且由于巧妙地设计的这个识字卡片具有凸起区域展示logo，不仅具有一个明显标示，也起到指示方向的作用；更关键的是，在本申请的桌面场景的STR算法中，通过LOGO位置矫正每个Rect’的方向，减少后续分类器的计算量，使得计算量被极大降低。

附图说明

图1为本申请提供一种识字卡片示意图；

图2为一种实施例的基于图像识别的桌面场景的STR方法流程图；

图3为一种实施例的直线检测(获得直线集Lines)示意图；

图4为一种实施例的直线检测获得最终候选矩形区域Rects示意图；

图5为一种实施例的矩形检测流程图；

图6为一种实施例的方向矫正示意图；

图7为一种实施例的识别结果示例的后续验证示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

参考图1，本申请提供一种识字卡片，采用一种基本形状为矩形的设计，深色外框浅色背景，文字内容在中心，底部设置一个凸起的梯形展示卡片的LOGO内容。该识字卡片用于以实现本申请的方法。考虑到识别任意方向的需求，我们需要一个明显标示，我们设计了这个凸起区域展示logo，同时也起到指示方向的作用。

前期准备：

1.对目标设备相机进行标定，获取相机参数计算出的俯视视图的透视矩阵；

2.利用相机对所需全部识字卡片覆盖识别区域大部分位置采样，计算HOG特征，并训练SVM识别模型；

3.对所需要识字卡片保存正常光照下正拍的灰度图，存储作为校验模版。

请参考图2-7，一种基于图像识别的桌面场景的STR方法，包括：

在识别步骤后，还包括：对每个识别结果进行对应的文字灰度图多尺度模版检测，抛弃结果超过阈值的结果，得到最终识别结果。如图7所示的示例，识别结果A的后续验证证明了，本申请的方法正确过滤了错误结果，识别结果与最上部的卡片关联度最高：0.944；与中部的卡片关联度：0.739；最底部的卡片为错误结果，关联度仅0.252。

在一些实施例，所述直线检测步骤包括：

获取如图3所示的任意直线Lines；

对上述满足条件的Line-pairs’按照直线投影重叠指标排序；

对Line-pairs’两个平衡直线对存在垂直关系计算组成矩形的面积、交点，按照识字卡在图像的成像大小范围过滤，获取候选矩形，对当中重叠面积比例大于阈值的进行合并候选矩形，得到最终候选矩形区域Rects，如图4所示。

在得到最终候选矩形区过程中，会得到两种设想中的矩形区域：

1、由外框线段组成的矩形，常见在单调简答的桌面背景下产生；

2、由内框线段组成的矩形，一半在深色或复杂的桌面环境。

为了进一步优化矩形Rects的精度，我们在矩形识别的基础上再做了一次内框检测。在一些实施例，所述矩形检测步骤包括：

为了减少后续分类器的计算量，下一步要确定LOGO位置矫正每个Rect’的方向。在一些实施例，所述方向矫正步骤包括：

把最后识别需要的矩形区域Rects’区域缩放处理，例如：64x64大小；

我们只需要计算LOGO可能存在的区域统计值即可，可计算最靠近边沿的16pixceLines范围内的直方统计，接着上往下、从下往上遍历水平投影，从左往右、从右往左遍历垂直投影，找到连8个统计区域大于0的区块；

如图6所示，左上角小图为OSTU二值图，右上为垂直方向的垂直投影展示左下为水平投影展示图，右下小图为最终识别到的LOGO位置。

相应的，本申请提供一种桌面场景的STR装置，包括：

识别模块：用于对识别需要的矩形区域Rects’进行分类识别，提取每个识别需要的矩形区域Rects’的HOG特征，输入预先训练的SVM分类，对应映射到最后的字卡信息，得到识别结果。

相应的，本申请提供一种电子产品，包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现上述的方法。

相应的，本申请提供一种计算机可读存储介质，包括程序，所述程序能够被处理器执行以实现上述的方法。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种基于图像识别的桌面场景的STR方法,其特征在于包括：

2.如权利要求1所述的方法，其特征在于，还包括：在识别步骤后，对每个识别结果进行对应的文字灰度图多尺度模版检测，抛弃结果超过阈值的结果。

3.如权利要求1所述的方法，其特征在于，所述直线检测步骤包括：

获取直线集Lines；

对上述满足条件的Line-pairs’按照直线投影重叠指标排序；

4.如权利要求1所述的方法，其特征在于，所述矩形检测步骤包括：

5.如权利要求1所述的方法，其特征在于，所述方向矫正步骤包括：

把最后识别需要的矩形区域Rects’区域缩放处理，

6.如权利要求1所述的方法，其特征在于，提取每个识别需要的矩形区域Rects’的HOG特征时，参数采用输入图像大小48x48,每个小窗口和小区块均和16x16，窗口滑动步长为8x8。

7.一种桌面场景的STR装置，其特征在于包括：

8.一种电子产品，其特征在于包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现如权利要求1-6中任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，包括程序，所述程序能够被处理器执行以实现如权利要求1-6中任一项所述的方法。

10.一种识字卡片，采用一种基本形状为矩形的设计，深色外框浅色背景，文字内容在中心，底部设置一个凸起的梯形展示卡片的LOGO内容；其特征在于，用于以实现如权利要求1-6中任一项所述的方法。