CN116229973A

CN116229973A - 一种基于ocr的可见即可说功能的实现方法

Info

Publication number: CN116229973A
Application number: CN202310253559.4A
Authority: CN
Inventors: 冯南阳; 袁灵芝; 罗慧娜
Original assignee: Rivotek Technology Jiangsu Co Ltd
Current assignee: Rivotek Technology Jiangsu Co Ltd
Priority date: 2023-03-16
Filing date: 2023-03-16
Publication date: 2023-06-06
Anticipated expiration: 2043-03-16
Also published as: CN116229973B

Abstract

本发明涉及语音交互技术领域，具体涉及一种基于OCR的可见即可说功能的实现方法，包括：S1：用户说出唤醒词，CAE组件获取唤醒词词库并判断用户说出的唤醒词是否存在于唤醒词词库中，若存在，则打开语音助手进入语音识别状态，执行S2；若不存在，则进入待机状态；S2：用户说出界面关键词，语音转译组件将用户说出的界面关键词转译成文字信息；S3：语意转译组件对所述文字信息进行语意转译，将所述文字信息转译为标准字符数据；S4：通过OCR识别组件对屏幕文字进行处理；S5：屏幕点击组件获取处理后屏幕文字的坐标参数进行触点交互。基于本发明的方法，完美兼容第三方应用的介入，提高了用户操作的便利性，通过系统的各个组件提高相关用户词条的命中率。

Description

一种基于OCR的可见即可说功能的实现方法

技术领域

本发明涉及语音交互技术领域，具体涉及一种基于OCR的可见即可说功能的实现方法。

背景技术

目前大部分智能终端都搭载一个基本的语音系统，便于用户利用语音操作一些基本的功能或者进行一些设置，但目前市面上语音系统的技能并非覆盖所有的技能，例如你打开了一个第三方的视频app，想通过语音系统说出相关的关键词条来响应点击当前页面的“热门”视频分类的页面，是无法做到的，目前第三方应用想兼备可见即可说的功能，一般都会提供相关功能接口供语音系统响应相关的词条，才能达到该场景功能，并且覆盖的场景不大。且实际应用中很多“可见即可说”场景都会依赖于系统的运算能力，会出现不能及时响应、无法命中、响应缓慢、卡顿、死机、操作系统异常等问题。

为了解决这个痛点，本发明可以做到无需第三方应用配合语音系统做相关的功能开发，亦无需云端服务器做相关数据的处理，即可打通以上说到的场景，还有其他第三方应用亦可以，只要你在界面看得到任何一个词条，利用语音系统说出该词即可响应对应界面词条的点击事件，做到可见即可说的效果。

发明内容

针对现有可见即可说功能不能完全支持第三方应用和运行时出现不能及时响应、卡顿、死机等问题，提出了一种基于OCR的可见即可说功能的实现方法，无需第三方应用配合语音系统做相关的功能开发，亦无需云端服务器做相关数据的处理，无论设备屏幕处于哪个界面，唤醒语音系统说出界面所对应的关键词，即可响应点击到关键词的坐标位置，做到可见即可说的效果。

为了实现上述目的，本发明通过如下的技术方案来实现：

一种基于OCR的可见即可说功能的实现方法，所述方法包括如下步骤：

S1：用户说出唤醒词，CAE组件获取唤醒词词库并判断用户说出的唤醒词是否存在于唤醒词词库中，若存在，则打开语音助手，进入语音识别状态，执行S2；若不存在，则进入待机状态；

S2：用户说出界面关键词，语音转译组件将用户说出的界面关键词转译成文字信息；

S3：语意转译组件对所述文字信息进行语意转译，将所述文字信息转译为标准字符数据；

S4：通过OCR识别组件对屏幕文字进行处理；

S5：屏幕点击组件获取处理后屏幕文字的坐标参数并进行触点交互。

作为本发明的一种优选方案，所述CAE组件还包括降噪算法、差分阵列算法，用于对声源进行降噪处理。

作为本发明的一种优选方案，所述步骤S4中，通过OCR识别组件对屏幕文字进行处理，具体包括：

S41：对当前屏幕内容进行截图，并对截取图片的文字进行预处理；

S42：对预处理后的文字进行字符切割处理，并标记每个字符在屏幕中的坐标参数；

S43：OCR组件对切割后的所有字符进行识别，并提取到系统缓存中；

S44：将识别后的字符有序排列，并存放到字符数据集合中；

S45：将所有字符数据进行特殊符号处理，排除特殊符号的识别阻碍，以便识别用户说出的词条。

作为本发明的一种优选方案，所述步骤S41中，对截取图片的文字进行预处理具体包括：

对截取的图片进行灰度化、二值化和降噪处理；

对图片中的文字进行阴影处理和倾斜处理。

作为本发明的一种优选方案，所述阴影处理具体为：对有阴影的文字去除字体阴影，调整整体背景为白色，字体为黑色；所述倾斜处理具体为：识别文字最小面积矩形并进行旋转，实现角度矫正。

作为本发明的一种优选方案，所述倾斜处理还包括：若识别文字最小面积矩形并进行旋转后，矩形已摆正但矩形内的文字还是处于倾斜状态，则采用霍夫线变换，把每一段文字都用一条线连起，然后通过处理将线置于水平状态，即可把倾斜的文字矫正。

作为本发明的一种优选方案，所述S42中，字符切割处理包括切行处理和切列处理，所述切行处理为把所有字符黑色像素都压缩到从左至右穿过的一条线上，从而得知每一行的字符；所述切列处理为把字符黑色像素都压缩到从上至下穿过的一条线上，从而得知有多少列文字。

作为本发明的一种优选方案，所述步骤S5中屏幕点击组件获取处理后屏幕文字的坐标参数并进行触点交互，具体包括：屏幕点击组件根据OCR识别组件得出的字符数据集合与语意转译组件得出的标准字符数据进行匹配，若匹配成功，则获取所述标准字符数据对应的坐标参数，根据所述坐标参数进行屏幕坐标匹配点击，并在该坐标位置响应点击效果。

作为本发明的一种优选方案，所述步骤S5还包括：用户再次说出当前界面关键词时，优先匹配第一次的字符数据集合，同时系统以异步线程的方式通过OCR识别组件对当前屏幕文字进行处理，供系统二次匹配。若匹配失败，则重复步骤S4，重新进行对屏幕文字进行OCR识别。

一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述的方法。

与现有技术相比，本发明具有的有益效果是：

针对智能终端中的语音系统，无需第三方应用配合做相关功能的开发，亦无需云端服务器做相关数据的处理，无论设备屏幕处于哪个界面，只要唤醒语音系统说出界面所对应的关键词，即可响应对应界面词条的点击事件，做到可见即可说的效果，完美兼容第三方应用的介入，提高了用户操作的便利性。基于本发明提出的方法，解决了设备运行压力大的问题，通过系统的各个组件提高相关用户词条的命中率，优化运算能力、识别能力、响应速度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。其中：

图1为本发明实施例中的方法流程图；

图2为本发明实施例中步骤S4的操作流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

术语解释：

CAE：即Computer Aided Engineering，指工程设计中的计算机辅助工程，指用计算机辅助求解分析复杂工程和产品的结构力学性能，以及优化结构性能等；

OCR：Optical Character Recognition，即光学字符识别，是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。

实施例1：如图1、图2所示，为本发明的一个实施例，该实施例提供了一种基于OCR的可见即可说功能的实现方法，可见即可说是一种语音交互方式，指不需要手动触控，只要是智能终端上可以显示出来的功能选项，均可通过语音交互实现控制，实现了“只动口，不动手”。例如，一个多媒体应用，界面上有一个播放按钮，操作意图为播放音乐，只需要说出“播放音乐”，即可完成音乐的自动播放，实现可见即可说的功能。相较于现有技术中的可见即可说，本申请引入了OCR的能力，可以适用于市面上所有基于安卓系统开发的设备，并且能兼容第三方应用的所有场景。

该方法包括如下步骤：

CAE组件是辅助语音系统监听相关唤醒语音助手的辅助组件，包括语音唤醒、降噪算法、差分阵列算法等；

优选地，降噪算法可选用普减法或LMS自适应滤波器、陷波器降噪，例如可采用数字信号处理器(DigitalSignal Processing，DSP)硬消噪方式、百度软消噪或是第三方硬消噪方式来进行消噪处理，从而消除语音信号中的噪声，提升语音识别的准确性。

S2：用户说出界面关键词，语音转译组件将用户说出的界面关键词转译成文字信息，以便后续相关行为操作的匹配；

S3：语意转译组件对文字信息进行语意转译，将文字信息转译为标准字符数据；单纯的文字并不能高效匹配用户看见的屏幕上可操作的位置，还需通过对文字进一步进行语意二次转译，无论中文、数字、英文都以一个规范的标准字符进行匹配；

S4：通过OCR识别组件对屏幕文字进行处理，具体包括：

S41：对当前屏幕内容进行截图，并对截取图片的文字进行预处理；预处理包括对截取的图片进行灰度化、二值化和降噪处理；对图片中的文字进行阴影处理和倾斜处理。

二值化处理可选用包括全局阈值方法、局部阈值方法、基于深度学习方法或其他方法；对图片进行降噪处理的方法包括空间滤波、小波阈值滤波、非局部方法或基于神经网络的方法；阴影处理具体为：对有阴影的文字去除字体阴影，调整整体背景为白色，字体为黑色；倾斜处理具体为：识别文字最小面积矩形并进行旋转，实现角度矫正。若识别文字最小面积矩形并进行旋转后，矩形已摆正但矩形内的文字还是处于倾斜状态，则采用霍夫线变换，把每一段文字都用一条线连起，然后通过处理将线置于水平状态，即可把倾斜的文字矫正。

S42：对预处理后的文字进行字符切割处理，并标记每个字符在屏幕中的坐标参数；字符切割处理包括切行处理和切列处理，切行处理为把所有字符黑色像素都压缩到从左至右穿过的一条线上，从而得知每一行的字符；切列处理为把字符黑色像素都压缩到从上至下穿过的一条线上，从而得知有多少列文字。为了让OCR能够高效对单个字符进行识别，我们还需要将每个字符做标记好在屏幕中的坐标参数，以便后期还原语意。

S44：将识别后的字符有序排列，并存放到字符数据集合中；字符已经识别拆开，并且拆开之前已经标记好对应的坐标参数，按着标记将字符数据有序地排列好，存放到字符数据集合中。

目前所有文字排版经过上述处理后，整体已经水平摆正，并且背景为白色，字体为黑色。如OCR组件识别了一堆字符：“好”“你”“啊”“什么”“吗？”，还原语意“你好吗？”。

S45：将所有字符数据进行特殊符号处理；如“The&Moon_Light”处理成“THEMOONLIGHT”，排除相关特殊符号的识别阻碍，以便识别用户说出的词条。

S5：屏幕点击组件获取处理后屏幕文字的坐标参数并进行触点交互；屏幕点击组件根据OCR识别组件得出的字符数据集合与语意转译组件得出的标准字符数据进行匹配，若匹配成功，则获取标准字符数据对应的坐标参数，根据坐标参数进行屏幕坐标匹配点击，并在该坐标位置响应点击效果。若匹配失败，则重复步骤S4，重新进行对屏幕文字进行OCR识别。

当用户再次说出当前界面关键词时，可以优先匹配第一次的字符数据集合，同时系统以异步线程的方式通过OCR识别组件对当前屏幕文字进行处理，供系统二次匹配。

由于上一次处理后的字符数据集合已经缓存到系统中，所以当用户再次说出界面关键词时，用户的意图会很快地跳过相关语音、OCR等处理，先执行缓存的字符数据匹配，达到快速命中意图；若未能命中，当前界面的OCR识别亦在同时处理，供系统二次匹配。达到高效且高命中的“可见即可说”，并且能有效地降低计算机的负载度，降低计算机处理的功耗问题。

实施例2：该实施例提供了一种基于OCR的可见即可说功能的实现方法的应用场景，如用户打开了某视频软件，以该视频软件的初始页为当前界面。

S1：用户说出正确的唤醒词，CAE组件获取唤醒词词库并判断用户说出的唤醒词存在于唤醒词词库中，则打开语音助手进入语音识别状态；

S2：用户说出界面关键词“动态”，想通过语音助手意图点击底部导航栏的“动态”；语音转译组件将用户说出的界面关键词“动态”转译成文字信息；

S3：语意转译组件对文字信息进行语意转译，将文字信息转译为标准字符数据；

S4：OCR组件识别过程：对当前屏幕进行截图，并对截取的图片进行灰度化、二值化和降噪处理等，对当前图片中有阴影的文字去除字体阴影，调整整体背景为白色，字体为黑色；识别文字最小面积矩形并进行旋转，实现角度矫正。若识别文字最小面积矩形并进行旋转后，矩形已摆正但矩形内的文字还是处于倾斜状态，则采用霍夫线变换，把每一段文字都用一条线连起，然后通过处理将线置于水平状态，即可把倾斜的文字矫正。

对文字进行字符切割处理，把所有字符黑色像素都压缩到从左至右穿过的一条线上，从而得知每一行的字符；把字符黑色像素都压缩到从上至下穿过的一条线上，从而得知有多少列文字；并标记每个字符在屏幕中的坐标参数，以便后期还原语意。

OCR组件对切割后的所有字符进行识别，并提取到系统缓存中；将识别后的字符有序排列，存放到字符数据集合中；将所有字符数据进行特殊符号处理，排除相关特殊符号的识别阻碍，以便识别用户说出的词条。

S5：根据OCR识别组件得出的字符数据集合与语意转译组件得出的标准字符数据进行匹配，匹配成功后获取标准字符数据对应的坐标参数，透过屏幕点击组件把该坐标参数传递到android系统的input系统，响应点击该坐标位置，进入底部导航栏“动态”所对应的页面，并在该位置响应相关点击效果，让用户有一个清晰的交互表现。

在此操作后，用户再次下达意图想回到“首页”；当用户再次说出界面关键词“首页”时，优先匹配第一次的字符数据集合，由于上一次处理后的字符数据集合已经缓存到系统中，所以当用户再次说出界面关键词时，用户的意图会很快地跳过相关语音、OCR等处理，先执行缓存的字符数据匹配，达到快速命中意图；

同时系统以异步线程的方式通过OCR识别组件对“动态”页的屏幕文字进行处理，若未能命中，当前界面的OCR识别亦在同时处理，供系统二次匹配，达到高效且高命中的“可见即可说”，并且能有效地降低计算机的负载度，降低计算机处理的功耗问题。

本发明还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现如上所述的方法。

综上所述，针对智能终端中的语音系统，无需第三方应用配合做相关功能的开发，亦无需云端服务器做相关数据的处理，无论设备屏幕处于哪个界面，只要唤醒语音系统说出界面所对应的关键词，即可响应对应界面词条的点击事件，做到可见即可说的效果，完美兼容第三方应用的介入，提高了用户操作的便利性。基于本发明提出的方法，解决了设备运行压力大的问题，通过系统的各个组件提高相关用户词条的命中率，优化运算能力、识别能力、响应速度。

应理解的是，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器、磁盘或光盘等。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于OCR的可见即可说功能的实现方法，其特征在于，所述方法包括如下步骤：

S4：通过OCR识别组件对屏幕文字进行处理；

2.根据权利要求1所述的一种基于OCR的可见即可说功能的实现方法，其特征在于，所述CAE组件还包括降噪算法、差分阵列算法，用于对声源进行降噪处理。

3.根据权利要求1所述的一种基于OCR的可见即可说功能的实现方法，其特征在于，所述步骤S4中，通过OCR识别组件对屏幕文字进行处理，具体包括：

S44：将识别后的字符有序排列，并存放到字符数据集合中；

4.根据权利要求3所述的一种基于OCR的可见即可说功能的实现方法，其特征在于，所述步骤S41中，对截取图片的文字进行预处理具体包括：

对截取的图片进行灰度化、二值化和降噪处理；

对图片中的文字进行阴影处理和倾斜处理。

5.根据权利要求4所述的一种基于OCR的可见即可说功能的实现方法，其特征在于，所述阴影处理具体为：对有阴影的文字去除字体阴影，调整整体背景为白色，字体为黑色；所述倾斜处理具体为：识别文字最小面积矩形并进行旋转，实现角度矫正。

6.根据权利要求5所述的一种基于OCR的可见即可说功能的实现方法，其特征在于，所述倾斜处理还包括：若识别文字最小面积矩形并进行旋转后，矩形已摆正但矩形内的文字还是处于倾斜状态，则采用霍夫线变换，把每一段文字都用一条线连起，然后通过处理将线置于水平状态，即可把倾斜的文字矫正。

7.根据权利要求3所述的一种基于OCR的可见即可说功能的实现方法，其特征在于，所述S42中，字符切割处理包括切行处理和切列处理，所述切行处理为把所有字符黑色像素都压缩到从左至右穿过的一条线上，从而得知每一行的字符；所述切列处理为把字符黑色像素都压缩到从上至下穿过的一条线上，从而得知有多少列文字。

8.根据权利要求3所述的一种基于OCR的可见即可说功能的实现方法，其特征在于，所述步骤S5中屏幕点击组件获取处理后屏幕文字的坐标参数并进行触点交互，具体包括：屏幕点击组件根据OCR识别组件得出的字符数据集合与语意转译组件得出的标准字符数据进行匹配，若匹配成功，则获取所述标准字符数据对应的坐标参数，根据所述坐标参数进行屏幕坐标匹配点击，并在该坐标位置响应点击效果；若匹配失败，则重复步骤S4，重新进行对屏幕文字进行OCR识别。

9.根据权利要求8所述的一种基于OCR的可见即可说功能的实现方法，其特征在于，所述步骤S5还包括：用户再次说出当前界面关键词时，优先匹配第一次的字符数据集合，同时系统以异步线程的方式通过OCR识别组件对当前屏幕文字进行处理，供系统二次匹配。

10.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1～9中任一项所述的方法。