CN116088992B

CN116088992B - 一种基于图像识别和语音识别的点击控制方法及系统

Info

Publication number: CN116088992B
Application number: CN202310106660.7A
Authority: CN
Inventors: 章笑春
Original assignee: Rivotek Technology Jiangsu Co Ltd
Current assignee: Rivotek Technology Jiangsu Co Ltd
Priority date: 2023-02-13
Filing date: 2023-02-13
Publication date: 2024-02-02
Anticipated expiration: 2043-02-13
Also published as: CN116088992A

Abstract

本发明涉及人工智能技术领域，具体涉及一种基于图像识别和语音识别的点击控制方法及系统，该方法包括：唤醒系统语音助手；延时截取屏幕图像并进行图像识别；接收用户语音指令并进行语音识别；将语音识别出的文字和图像识别出的文字进行匹配，并获取图像识别出文字的坐标位置；使用UIAutomator获取文字对应的控件；判断是否成功获取控件，若是，则使用UIAutomator点击；若否，则使用坐标位置通过系统input接口进行点击。本发明通过图像识别技术转化为找到文字及坐标，并使用两种不同的方案进行点击，无需第三方应用适配，无需云端服务器，无需手动点击操作，可以直接应用到中控系统，覆盖范围广，技术更加简洁，所见即所得，所说即所得。

Description

一种基于图像识别和语音识别的点击控制方法及系统

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于图像识别和语音识别的点击控制方法及系统。

背景技术

目前大部分智能终端都搭载一个基本的辅助服务功能，便于用户在不方便触控屏幕时操作一些基本的功能或者进行一些设置，但是目前市面上智能终端的辅助服务功能只能对Android的原生控件进行点击控制，对于一些非Android原生的控件，系统的辅助服务功能无法点击，如：一些使用图片实现的按钮或文字链接，以及一些网页，比如webview界面，给用户带来很多困扰。

申请号为201811320296 X的专利文件公开了一种基于图像识别的语音中控方法及装置，截取当前显示界面以得到待识别图像，并识别出所述待识别图像中所包含的多个控件的信息；接收服务器基于对用户语音指令进行分析所生成的中控指令；根据所述多个控件的信息确定对应于所述中控指令的控件为目标控件；调用系统的辅助服务功能实现对所述目标控件的模拟点击。然而，该专利的技术方案需要使用服务器对用户的语音指令进行分析处理以得出相应的中控指令，且构建的控件内容信息集无法保证识别出所有的控件，对于没有识别出的控件，用户采用语音控制时，在说出语音指令之后可能存在没有得到响应的情况(可能进行了多次尝试都失败了)，此时用户还需选择进行手动点击操作。

因此，提出一种基于图像识别和语音识别的点击控制方法及系统，完善已有的中控点击方案，满足用户的日常所用，无需云端服务器，无需手动点击操作，所见即所得，所说即所得。

发明内容

针对现有智能终端的辅助服务功能只能对Android的原生控件进行点击控制，无法适配所有使用场景的问题，提出一种基于图像识别和语音识别的点击控制方法及系统。

为了实现上述目的，本发明通过如下的技术方案来实现：

一种基于图像识别和语音识别的点击控制方法，包括：

唤醒系统语音助手；

延时截取屏幕图像并进行图像识别；

接收用户语音指令并进行语音识别；

将语音识别出的文字和图像识别出的文字进行匹配，并获取图像识别出文字的坐标位置；

使用UIAutomator获取文字对应的控件；

判断是否成功获取控件，若是，则使用UIAutomator点击；若否，则使用坐标位置通过系统input接口进行点击。

作为本发明的一种优选方案，所述唤醒系统语音助手，具体包括：

用户说出语音唤醒词，所述唤醒词包括“nico，nico”、“妮可，妮可”或其他同音词；

系统通过语音识别算法识别到唤醒指令；

系统响应唤醒指令，在屏幕上弹出响应气泡，并语音回应“嗨，我在”；

完成唤醒语音助手。

作为本发明的一种优选方案，所述开启延时截取屏幕图像的时间点为唤醒语音助手后、语音指令输入开始时或语音指令输入结束时。

作为本发明的一种优选方案，所述延时截取屏幕图像并进行图像识别具体包括：

创建线程；

后台不断延时截取屏幕图像；

判断是否有语音指令，若有，则采用图像识别算法识别出图中元素对应的文字，并标记所述文字的坐标位置；若未接收到语音指令，则舍弃截取的屏幕图像。

作为本发明的一种优选方案，所述图像识别算法具体包括：

对屏幕图像进行灰度化、二值化和降噪处理；

对屏幕图像中的文字进行OCR识别，并标记识别后文字的坐标位置；

对屏幕图像中的非文字元素通过机器学习进行判断识别，并标记识别后文字的坐标位置。

作为本发明的一种优选方案，所述接收用户语音指令并进行语音识别具体包括：

唤醒语音助手后，若无输入3秒，则在屏幕显示气泡内容“该场景支持可见即可说”并进行语音提示；

用户输入语音指令，并通过语音识别算法将所述语音指令转换为文字。

作为本发明的一种优选方案，所述图像识别算法和语音识别算法为双线程并发执行。

一种基于图像识别和语音识别的点击控制系统，包括触发模块、分析模块、决策模块和响应模块；

所述触发模块包括唤醒单元和屏幕截取单元，所述唤醒单元用于唤醒系统语音助手，所述屏幕截取单元用于后台不断延时截取屏幕图像，并将所述屏幕图像传输给分析模块；

所述分析模块包括语音单元、第一判断单元和图像单元；

所述语音单元用于接收用户语音指令并通过语音识别算法进行语音识别；

所述第一判断单元用于判断是否有语音指令，若有，则发送图像识别指令到图像单元，若否，则舍弃截取的屏幕图像；

所述图像单元用于接收图像识别指令，通过图像识别算法对所述屏幕图像进行识别，并标记识别出的图中元素对应文字的坐标位置；

所述决策模块包括匹配单元、第二判断单元和响应指令传输单元；

所述匹配单元用于将语音识别出的文字和图像识别出的文字进行匹配，并获取图像识别出文字的坐标位置，使用UIAutomator获取文字对应的控件；

所述第二判断单元用于判断UIAutomator是否成功获取控件，若是，则发送UIAutomator点击指令，若否，则发送坐标点击指令；

所述响应指令传输单元用于传输UIAutomator点击指令或坐标点击指令到响应模块；

所述响应模块包括UIAutomator点击单元和坐标点击单元；

所述UIAutomator点击单元用于接收UIAutomator点击指令，使用UIAutomator选定点击对象并进行点击；所述坐标点击单元用于坐标点击指令，使用坐标位置选定点击对象，通过系统input接口进行点击。

一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述方法的步骤。

一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述方法的步骤。

与现有技术相比，本发明具有的有益效果是：

本发明完善已有的中控点击方案，通过图像识别技术转化为找到文字及坐标，获取控件，判断控件，并使用两种不同的方案进行点击，用户无论何时都可很快的得到中控的反馈，能够使其满足更多的使用场景，满足用户的日常所用，无需第三方应用适配，无需云端服务器，无需手动点击操作，可以直接应用到中控系统，覆盖范围广，技术更加简洁，所见即所得，所说即所得。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。其中：

图1为本发明实施例中的方法流程图；

图2为本发明实施例中唤醒语音助手的方法流程图；

图3为本发明实施例中响应气泡的示意图之一；

图4为本发明实施例中响应气泡的示意图之二；

图5为本发明实施例中的系统框架图。

实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

术语注释：

UIAutomator：一种自动化Android控件点击技术。

input接口：系统源码中有对input事件的监听，本发明利用源码的优势，将其封装成一个接口，此接口只需接收坐标位置参数即可。内部实现逻辑是通过坐标位置参数，模拟用户点击事件，点击对应的屏幕位置。

实施例1：如图1所示，为本发明的一个实施例，该实施例提供了一种基于图像识别和语音识别的点击控制方法，可应用于各种智能设备，包括但不限于汽车、手机、电视、AR眼镜、智能音箱，该方法具体包括如下步骤：

S1：唤醒系统语音助手，如图2所示，该步骤具体包括：

S11：用户说出语音唤醒词，所述唤醒词包括“nico，nico”、“妮可，妮可”或其他同音词；

S12：系统通过语音识别算法识别到唤醒指令；

S13：系统响应唤醒指令，在屏幕上弹出响应气泡，并语音回应“嗨，我在”，如图3所示；

S14：完成唤醒语音助手。

S2：延时截取屏幕图像并进行图像识别，开启延时截取屏幕图像的时间点为唤醒语音助手后、语音指令输入开始时或语音指令输入结束时，该步骤具体包括：

S21：创建线程；

S22：后台不断延时截取屏幕图像；

S23：判断是否有语音指令，若有，则采用图像识别算法识别出图中元素对应的文字，并标记所述文字的坐标位置；若未接收到语音指令，则舍弃截取的屏幕图像；

图像识别算法具体包括：

对屏幕图像进行灰度化、二值化和降噪处理；

S3：接收用户语音指令并进行语音识别，具体包括：

唤醒语音助手后，若无输入3秒，则在屏幕显示气泡内容“该场景支持可见即可说”并进行语音提示，如图4所示；

图像识别算法和语音识别算法为双线程并发执行。

S4：将语音识别出的文字和图像识别出的文字进行匹配，并获取图像识别出文字的坐标位置；

S5：使用UIAutomator获取文字对应的控件；

S6：判断是否成功获取控件，若是，则使用UIAutomator点击；若否，则使用坐标位置通过系统input接口进行点击。

实施例2：如图1-4所示，该实施例提供一种基于图像识别和语音识别的点击控制方法，应用于H5页面，具体包括以下步骤：

用户说出“nico，nico”的语音唤醒词；系统通过语音识别算法识别到唤醒指令，系统响应唤醒指令，在屏幕上弹出响应气泡，并语音回应“嗨，我在”；完成唤醒语音助手；

唤醒语音助手后，无输入3秒，则在屏幕显示气泡内容“该场景支持可见即可说”并进行语音提示，用户在提示后输入语音指令“新闻”，通过语音识别算法将该语音指令转换为文字；

同时新建线程，后台不断延时截取屏幕图像；在判断有语音指令后，采用图像识别算法识别出图中元素对应的文字，并标记文字的坐标位置；图像识别算法和语音识别算法为双线程并发执行。

使用UIAutomator获取文字对应的控件；判断成功获取“新闻”控件后，使用UIAutomator进行点击响应。

实施例3：如图5所示，该实施例提供了一种基于图像识别和语音识别的点击控制系统，包括触发模块、分析模块、决策模块和响应模块；

触发模块包括唤醒单元和屏幕截取单元；唤醒单元用于唤醒系统语音助手，屏幕截取单元用于后台不断延时截取屏幕图像，并将屏幕图像传输给分析模块；

分析模块包括语音单元、第一判断单元和图像单元；语音单元用于接收用户语音指令并通过语音识别算法进行语音识别；第一判断单元用于判断是否有语音指令，若有，则发送图像识别指令到图像单元，若否，则舍弃截取的屏幕图像；图像单元用于接收图像识别指令，通过图像识别算法对屏幕图像进行识别，并标记识别出的图中元素对应文字的坐标位置；

决策模块包括匹配单元、第二判断单元和响应指令传输单元；匹配单元用于将语音识别出的文字和图像识别出的文字进行匹配，并获取图像识别出文字的坐标位置，使用UIAutomator获取文字对应的控件；第二判断单元用于判断UIAutomator是否成功获取控件，若是，则发送UIAutomator点击指令，若否，则发送坐标点击指令；响应指令传输单元用于传输UIAutomator点击指令或坐标点击指令到响应模块；

响应模块包括UIAutomator点击单元和坐标点击单元；UIAutomator点击单元用于接收UIAutomator点击指令，使用UIAutomator选定点击对象并进行点击；坐标点击单元用于坐标点击指令，使用坐标位置选定点击对象，通过系统input接口进行点击。

本实施例中的一种基于图像识别和语音识别的点击控制系统不需要一一适配每一个第三方程序，对于所有安装在系统上能启动能展示出来的应用界面都能控制；不需要第三方程序提供接口，只要是在系统界面上显示出来有文字或图像可识别的控件即可实现中控控制；也不需要对第三方应用程序进行对接调试即可实现语音控制。

实施例4：一种电子设备，包括：至少一个处理器，以及与至少一个处理器通信连接的存储器，其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上所述方法的步骤。

实施例5：一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述方法的步骤。

综上所述，本发明完善已有的中控点击方案，通过图像识别技术转化为找到文字及坐标，获取控件，判断控件，并使用两种不同的方案进行点击，用户无论何时都可很快的得到中控的反馈，能够使其满足更多的使用场景，满足用户的日常所用，无需第三方应用适配，无需云端服务器，无需手动点击操作，可以直接应用到中控系统，覆盖范围广，技术更加简洁，所见即所得，所说即所得。

应理解的是，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器、磁盘或光盘等。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于图像识别和语音识别的点击控制方法，其特征在于，所述方法包括：

唤醒系统语音助手，具体包括：

系统通过语音识别算法识别到唤醒指令；

完成唤醒语音助手；

延时截取屏幕图像并进行图像识别，开启延时截取屏幕图像的时间点为唤醒语音助手后、语音指令输入开始时或语音指令输入结束时，具体包括：

创建线程；

后台不断延时截取屏幕图像；

判断是否有语音指令，若有，则采用图像识别算法识别出图中元素对应的文字，并标记所述文字的坐标位置；若未接收到语音指令，则舍弃截取的屏幕图像；

所述图像识别算法具体包括：

对屏幕图像进行灰度化、二值化和降噪处理；

对屏幕图像中的非文字元素通过机器学习进行判断识别，并标记识别后文字的坐标位置；接收用户语音指令并进行语音识别，具体包括：

用户输入语音指令，并通过语音识别算法将所述语音指令转换为文字；

所述图像识别算法和语音识别算法为双线程并发执行；

使用UIAutomator获取文字对应的控件；

2.基于权利要求1所述的一种基于图像识别和语音识别的点击控制方法的点击控制系统，其特征在于，所述系统包括触发模块、分析模块、决策模块和响应模块；

所述分析模块包括语音单元、第一判断单元和图像单元；

所述响应模块包括UIAutomator点击单元和坐标点击单元；

3.一种电子设备，其特征在于，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1所述方法的步骤。

4.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1所述方法的步骤。