CN109409370B

CN109409370B - 一种远程桌面字符识别方法和装置

Info

Publication number: CN109409370B
Application number: CN201710710402.4A
Authority: CN
Inventors: 李斌
Original assignee: Shenzhen Skybility Software Co ltd
Current assignee: Shenzhen Skybility Software Co ltd
Priority date: 2017-08-18
Filing date: 2017-08-18
Publication date: 2022-02-18
Anticipated expiration: 2037-08-18
Also published as: CN109409370A

Abstract

本发明公开了一种远程桌面字符识别方法和装置。所述方法包括：从基于远程桌面协议传输的位图数据中，获取远程桌面图像；将获取到的远程桌面图像，按行划分为多个识别区域；对每个识别区域进行像素点扫描，得到每个待识别字符对应的扫描码，并将每个待识别字符的扫描码与预设字形数据库进行字形匹配；根据匹配得到的字形识别出相应的字符。本发明通过提供的远程桌面字符识别方法，能够克服现有字符识别软件对位图中字符识别率低的问题，能适用于新Windows远程桌面传输协议传输的字符识别，并且对中英文字符识别率高，通用性强。

Description

一种远程桌面字符识别方法和装置

技术领域

本发明涉及字符识别技术领域，特别涉及一种远程桌面字符识别方法和装置。

背景技术

Windows 2008及之前的操作系统在远程桌面中会发送字形(glyph)数据，还包含了字形对应的Unicode字符，根据这些字形和字符信息，可以计算出某个区域显示的文本信息。Windows 2012之后的远程桌面协议发生变化，不再发送字形(glyph)数据，而是发送位图(Bitmap)，这使得之前通过字形和字符计算的方法不再适用。

传统光学字符识别(Optical Character Recognition，简称“OCR”)软件对Windows桌面上的文字识别率低(不到20％，识别结果准确率不到50％)，识别结果很多乱码文字，无法直接提供给用户阅读。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种远程桌面字符识别方法和装置。所述技术方案如下：

一方面，本发明实施例提供了一种远程桌面字符识别方法，所述方法包括：

从基于远程桌面协议传输的位图数据中，获取远程桌面图像，所述远程桌面图像包括：多行待识别的字符；

将获取到的远程桌面图像，按行划分为多个识别区域；

对每个所述识别区域进行像素点扫描，得到每个待识别字符对应的扫描码，并将每个待识别字符的扫描码与预设字形数据库进行字形匹配；

根据匹配得到的字形识别出相应的字符。

在本发明实施例提供的方法中，所述将获取到的远程桌面图像，按行划分为多个识别区域，包括：

关闭字体平滑处理，将获取到的远程桌面图像沿竖直方向，进行逐行水平扫描，将具有预设种类颜色中一种或多种的线段合并到同一识别区域中。

在本发明实施例提供的方法中，所述对每个所述识别区域进行像素点扫描，得到每个待识别字符对应的扫描码，并将每个待识别字符的扫描码与预设字形数据库进行字形匹配，包括：

对每个所述识别区域沿水平方向，进行逐列竖直像素点扫描，计算得到每个待识别字符相应的扫描码；

从预设字形数据库中查找出包含所述扫描码的字形集合，所述预设字形数据库包括：与每个字形对应的至少一个扫描码数据；

将每个待识别字符的扫描码与查找出的所述字形集合进行字形匹配，筛选出与所述扫描码完全匹配的字形。

在本发明实施例提供的方法中，如果没有筛选出匹配的字形，则所述对每个所述识别区域进行像素点扫描，得到每个待识别字符对应的扫描码，并将每个待识别字符的扫描码与预设字形数据库进行字形匹配，还包括：

缩小待识别字符的扫描范围，重新计算待识别字符的扫描码；

根据重新计算出的扫描码，筛选出相应的匹配字形。

在本发明实施例提供的方法中，所述方法还包括：

对已识别出的字符进行预设的笔画连通检查，排除非法字符。

另一方面，本发明实施例提供了一种远程桌面字符识别装置，所述装置包括：

获取模块，用于从基于远程桌面协议传输的位图数据中，获取远程桌面图像，所述远程桌面图像包括：多行待识别的字符；

划分模块，用于将获取到的远程桌面图像，按行划分为多个识别区域；

处理模块，用于对每个所述识别区域进行像素点扫描，得到每个待识别字符对应的扫描码，并将每个待识别字符的扫描码与预设字形数据库进行字形匹配；

识别模块，用于根据匹配得到的字形识别出相应的字符。

在本发明实施例提供的装置中，所述划分模块，还用于关闭字体平滑处理，将获取到的远程桌面图像沿竖直方向，进行逐行水平扫描，将具有预设种类颜色中一种或多种的线段合并到同一识别区域中。

在本发明实施例提供的装置中，所述处理模块，包括：

扫描计算单元，用于对每个所述识别区域沿水平方向，进行逐列竖直像素点扫描，计算得到每个待识别字符相应的扫描码；

查找单元，用于从预设字形数据库中查找出包含所述扫描码的字形集合，所述预设字形数据库包括：与每个字形对应的至少一个扫描码数据；

筛选单元，用于将每个待识别字符的扫描码与查找出的所述字形集合进行字形匹配，筛选出与所述扫描码完全匹配的字形。

在本发明实施例提供的装置中，所述扫描计算单元，还用于但没有筛选出匹配的字形时，缩小待识别字符的扫描范围，重新计算待识别字符的扫描码；

所述筛选单元，还用于根据重新计算出的扫描码，筛选出相应的匹配字形。

在本发明实施例提供的装置中，还包括：

检查模块，用于对已识别出的字符进行预设的笔画连通检查，排除非法字符。

本发明实施例提供的技术方案带来的有益效果是：

通过从基于远程桌面协议传输的位图数据中，获取远程桌面图像；将获取到的远程桌面图像，按行划分为多个识别区域；对每个识别区域进行像素点扫描，得到每个待识别字符对应的扫描码，并将每个待识别字符的扫描码与预设字形数据库进行字形匹配；根据匹配得到的字形识别出相应的字符。该远程桌面字符识别方法，能克服现有字符识别软件对位图中字符识别率低的问题，能适用于新Windows远程桌面传输协议传输的字符识别，而且对中英文字符识别率高，通用性强。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种远程桌面字符识别方法的流程图；

图2是本发明实施例一提供的又一种远程桌面字符识别方法流程图；

图3是本发明实施例二提供的一种远程桌面字符识别装置的结构示意图；

图4是本发明实施例二提供的一种处理模块的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一

本发明实施例提供了一种远程桌面字符识别方法，参见图1，该方法包括：

步骤S11，从基于远程桌面协议传输的位图数据中，获取远程桌面图像，该远程桌面图像包括：多行待识别的字符。

在本实施例中，Windows 2012远程桌面中关闭字体平滑选项后，大部分文字都是以原始字体点阵方式渲染，本远程桌面字符识别方法是以点阵字符为基础识别特征的。

步骤S12，将获取到的远程桌面图像，按行划分为多个识别区域。

具体地，上述步骤S12可以通过如下方式实现：

关闭字体平滑处理，将获取到的远程桌面图像沿竖直方向，进行逐行水平扫描，将具有预设种类颜色中一种或多种的线段合并到同一识别区域中，超过预设颜色的线段则作为另一个识别区域。

在实际应用中，可以选择2种颜色为限定(即每个识别区域最多包含相同的2种颜色)，具体识别区域划分过程举例如下：以Y轴方向(即竖直方向)自顶部到底部的方式进行水平扫描，将相同的两颜色的线段合并为矩形区域。

1)从上至下扫描，y位置+1(为水平扫描线)；

2)如果扫描的y位置超过区域底部，则结束处理；

3)从左至右扫描x像素，x位置+1；

4)如果扫描的x位置超过区域右侧，则跳转到1)；

5)将当前像素点加入待处理线段；

6)判断待处理线段颜色数是否超过2，如果是超过则跳转到7)，如果否则跳转到3)；

7)将待处理线段分割，第一段合并到之前的区域中，最后一个像素作为一个新的待处理线段，跳转到3)。

步骤S13，对每个识别区域进行像素点扫描，得到每个待识别字符对应的扫描码，并将每个待识别字符的扫描码与预设字形数据库进行字形匹配。

在本实施例中，字形匹配是指，对比待识别图像目标区域内前景色的点集合是否与指定字形的前景色点集合完全匹配，在扫描码匹配成功后，会对待识别图像的目标区域进行字形匹配，只有字形匹配成功才能作为识别成功的字符。其中，扫描码是按照一定规则进行像素点扫描，前景色匹配点的集合通过计算得到的，一个字形可以计算出多个扫描码，匹配时通过扫描码映射表可以快速求出可能匹配的字形集合。

需要说明的是，该预设字形数据库中储存的字形扫描码，可以通过字体训练，根据字体的点阵生成字形对应的多个扫描码，并储存，在实际应用中，还可以通过使用工具自动训练指定字体，方便增加新字体，适应性好。

具体地，上述步骤S13可以通过如下方式实现：

1)，对每个识别区域沿水平方向，进行逐列竖直像素点扫描，计算得到每个待识别字符相应的扫描码。

2)，从预设字形数据库中查找出包含扫描码的字形集合，该预设字形数据库包括：与每个字形对应的至少一个扫描码数据。

3)，将每个待识别字符的扫描码与查找出的字形集合进行字形匹配，筛选出与扫描码完全匹配的字形。

进一步地，如果没有筛选出匹配的字形，则上述步骤S13还可以通过如下方式实现：

4)，缩小待识别字符的扫描范围，重新计算待识别字符的扫描码。

5)，根据重新计算出的扫描码，筛选出相应的匹配字形。

在实际应用中，上述步骤S13的实现方式举例如下：

1)从左至右扫描(扫描线为竖线)，x位置+1；

2)判断扫描的x位置是否超过最右侧，如果是则结束，如果否则继续；

3)读取竖线上颜色等于前景色的点集合P1，坐标参考点为本次扫描码遇到的第一个点；

4)已扫描线数量+1；

5)判断是否为空白线或者扫描线数量等于4，如果否则返回1)，如果是则继续；

6)根据点集合P1生成扫描码S；

7)查找包含扫描码S的字形集合G1；

8)判断字形集合G1是否为空，如果是跳转到18)，如果否则继续；

9)判断候选字形集合GC是否为空，如果是则继续11)，否则跳转到10)；

10)候选字形集合GC＝GC与G1的交集，跳转到12)；

11)候选字形集合GC＝G1；

12)去除候选字形集合GC中扫描码列表不匹配的字形(每个字形包含多个扫描码，按顺序检查本次扫描码S及之前的扫描码是否完全匹配)；

13)判断候选字形集合GC数量是否大于1，如果是则跳转到1)，否则跳转到14)；

14)判断候选字形集合GC数量是否等于1，如果否则跳转到18)，如果是则继续；

15)判断唯一的候选字形的点阵是否匹配，如果否则跳转到17)，如果是则继续；

16)将候选字形加入匹配结果；

17)将候选字形集合、已扫描线数量及竖线点集合清零，跳转到1)；

18)进入字形回退匹配流程，然后跳转到17)。

字形回退匹配发生在顺序匹配失败后，可能是扫描码计算范围超过字形的宽度，导致找到该扫描码的字形或者几个扫描码交集为空，其中，字形回退匹配流程包括：字形回退扫描码匹配流程和字形回退扫描线匹配流程，具体如下：字形回退扫描码匹配流程：

1)判断候选字形数量是否大于0，如果否则跳转到6)，如果是则继续；

2)遍历候选字形；

3)如果读取下一个候选字形成功则继续，如果失败则结束；

4)检查字形点阵是否匹配，如果是则继续，如果否则返回3)；

5)添加匹配的字形到结果集，跳转到3)；

6)进入回退扫描线匹配流程，然后结束。

字形回退扫描线匹配流程：

1)扫描区域宽度减少1；

2)判断扫描区域宽度是否大于0，如果否则结束，如果是则继续；

3)查找当前扫描区域的点集，去掉区域外的点；

4)重新计算扫描码S；

5)查找包含扫描码S的字形集合G；

6)判断字形集合G数量是否大于0，如果否则跳转到1)，如果是则继续；

7)遍历候选字形；

8)是否成功读取下一个候选字形，如果否则结束，如果是则继续；

9)检查字形点阵是否匹配，如果是则继续，如果否则返回8)；

10)添加匹配的字形到结果集，跳转到8)。

在本实施例中，正常情况下扫描区域(ScanRect)宽度为4像素，回退扫描线时不断减小扫描区域的宽度，重新计算扫描码，查找包含新扫描码的字形集合，尝试做字形匹配。典型的场景是一些宽度较小的字符，不足4像素，如t、l、I等字符。

步骤S14，根据匹配得到的字形识别出相应的字符。

在本实施例中，可以根据匹配得到的字形来识别出相应的字符，进而识别出每个识别区域，之后识别出远程桌面图像中的字符。

需要说明的是，为了增加字符识别的准确性，参见图2，该方法还可以包括：

步骤S15，对已识别出的字符进行预设的笔画连通检查，排除非法字符。

在本实施例中，某些字符左侧或者右侧肯定是不能连接到其他字符的，如“l”、“|”。当相连的两个字符区域有空隙时不可能再出现笔画连通，可能是因为字库中没有某些字形的数据，导致这个字形的一部分被解析为另一个字符，如“H”可能被错误识别为“ll”。笔画连通检查可以保证识别的字形是一个完整的而不是一部分，去除这些错误识别的字符。此外，在排除掉非法字符后，将一整行的识别区域的字符拼接成字符串，根据字符区域的间距添加空格字符，形成供用户查看的识别结果。

该远程桌面字符识别方法，比传统OCR方法更加准确和高效，识别率可以达到80％以上，准确率超90％，1024x768分辨率识别时间在100ms左右。对于同一个windows 2012截屏图片，传统OCR，如金山OCR识别率不足20％，准确率不到50％。此外，该方法可以识别笔画相连、笔画重叠的字符。Windows远程桌面在关闭字体平滑选项后，YaHeiUI字体很多相邻的中文字符的笔画会连接在一起，如“查找”、“服务”、“外观”等。使用传统OCR是难以识别笔画连接的字符，而本识别方法可以准确识别笔画连接的字符，还可以识别大部分笔画重叠的字符。

本发明实施例通过从基于远程桌面协议传输的位图数据中，获取远程桌面图像；将获取到的远程桌面图像，按行划分为多个识别区域；对每个识别区域进行像素点扫描，得到每个待识别字符对应的扫描码，并将每个待识别字符的扫描码与预设字形数据库进行字形匹配；根据匹配得到的字形识别出相应的字符。该远程桌面字符识别方法，能克服现有字符识别软件对位图中字符识别率低的问题，能适用于新Windows远程桌面传输协议传输的字符识别，而且对中英文字符识别率高，通用性强。此外，该方法还可以识别笔画相连或重叠的字符，识别结果更加准确可靠。

实施例二

本发明实施例提供了一种远程桌面字符识别装置，参见图3，该装置可以包括：

获取模块100，用于从基于远程桌面协议传输的位图数据中，获取远程桌面图像，远程桌面图像包括：多行待识别的字符。

划分模块200，用于将获取到的远程桌面图像，按行划分为多个识别区域。

处理模块300，用于对每个识别区域进行像素点扫描，得到每个待识别字符对应的扫描码，并将每个待识别字符的扫描码与预设字形数据库进行字形匹配。

识别模块400，用于根据匹配得到的字形识别出相应的字符。

需要说明的是，为了增加字符识别的准确性，可选地，参见图3，该装置还可以包括：

检查模块500，用于对已识别出的字符进行预设的笔画连通检查，排除非法字符。

具体地，划分模块200，还用于关闭字体平滑处理，将获取到的远程桌面图像沿竖直方向，进行逐行水平扫描，将具有预设种类颜色中一种或多种的线段合并到同一识别区域中。

进一步地，参见图4，处理模块300可以包括：

扫描计算单元301，用于对每个识别区域沿水平方向，进行逐列竖直像素点扫描，计算得到每个待识别字符相应的扫描码。

查找单元302，用于从预设字形数据库中查找出包含扫描码的字形集合，预设字形数据库包括：与每个字形对应的至少一个扫描码数据。

筛选单元303，用于将每个待识别字符的扫描码与查找出的字形集合进行字形匹配，筛选出与扫描码完全匹配的字形。

进一步地，扫描计算单元301，还用于但没有筛选出匹配的字形时，缩小待识别字符的扫描范围，重新计算待识别字符的扫描码。

筛选单元303，还用于根据重新计算出的扫描码，筛选出相应的匹配字形。

在本实施例中，上述字形匹配的具体过程在实施例一中已做详细说明，这里不再赘述。

本发明实施例通过从基于远程桌面协议传输的位图数据中，获取远程桌面图像；将获取到的远程桌面图像，按行划分为多个识别区域；对每个识别区域进行像素点扫描，得到每个待识别字符对应的扫描码，并将每个待识别字符的扫描码与预设字形数据库进行字形匹配；根据匹配得到的字形识别出相应的字符。该远程桌面字符识别装置，能克服现有字符识别软件对位图中字符识别率低的问题，能适用于新Windows远程桌面传输协议传输的字符识别，而且对中英文字符识别率高，通用性强。此外，该装置还可以识别笔画相连或重叠的字符，识别结果更加准确可靠。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是：上述实施例提供的远程桌面字符识别装置在实现远程桌面字符识别方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的远程桌面字符识别装置与远程桌面字符识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种远程桌面字符识别方法，其特征在于，包括：

将获取到的远程桌面图像，按行划分为多个识别区域；包括：关闭字体平滑处理，将获取的远程桌面图像沿竖直方向，进行逐行水平扫描，将具有预设种类颜色中一种或多种的线段合并到同一识别区域中，超过预设颜色的线段则作为另一个识别区域；

当每个识别区域最多包含相同的2种颜色时，以Y轴方向即竖直方向自顶部到底部的方式进行水平扫描，将相同的两颜色的线段合并为矩形区域；

1)从上至下扫描，y位置+1，即水平扫描线；

2)如果扫描的y位置超过区域底部，则结束处理；

3)从左至右扫描x像素，x位置+1；

4)如果扫描的x位置超过区域右侧，则跳转到1)；

5)将当前像素点加入待处理线段；

7)将待处理线段分割，第一段合并到之前的区域中，最后一个像素作为一个新的待处理线段，跳转到3)；

根据匹配得到的字形识别出相应的字符。

2.根据权利要求1所述的方法，其特征在于，所述对每个所述识别区域进行像素点扫描，得到每个待识别字符对应的扫描码，并将每个待识别字符的扫描码与预设字形数据库进行字形匹配，包括：

对每个所述识别区域沿水平方向，进行逐列竖直像素点扫描，从左至右扫描，扫描线为竖线，x位置+1；判断扫描的x位置是否超过最右侧，如果是则结束，如果否则继续；计算得到每个待识别字符相应的扫描码；

3.根据权利要求1-2任一项所述的方法，其特征在于，所述方法还包括：

4.一种远程桌面字符识别装置，其特征在于，包括：

划分模块，用于将获取到的远程桌面图像，按行划分为多个识别区域；还用于关闭字体平滑处理，将获取到的远程桌面图像沿竖直方向，进行逐行水平扫描，将具有预设种类颜色中一种或多种的线段合并到同一识别区域中；

1)从上至下扫描，y位置+1，即水平扫描线；

2)如果扫描的y位置超过区域底部，则结束处理；

3)从左至右扫描x像素，x位置+1；

4)如果扫描的x位置超过区域右侧，则跳转到1)；

5)将当前像素点加入待处理线段；

识别模块，用于根据匹配得到的字形识别出相应的字符。

5.根据权利要求4所述的装置，其特征在于，所述处理模块，包括：

扫描计算单元，用于对每个所述识别区域沿水平方向，进行逐列竖直像素点扫描，从左至右扫描，扫描线为竖线，x位置+1；判断扫描的x位置是否超过最右侧，如果是则结束，如果否则继续；计算得到每个待识别字符相应的扫描码；

6.根据权利要求4-5任一项所述的装置，其特征在于，还包括：