CN116578264A

CN116578264A - 一种投屏内使用语音控制的方法、系统、设备及存储介质

Info

Publication number: CN116578264A
Application number: CN202310548295.5A
Authority: CN
Inventors: 彭猛; 袁灵芝; 罗慧娜
Original assignee: Rivotek Technology Jiangsu Co Ltd
Current assignee: Rivotek Technology Jiangsu Co Ltd
Priority date: 2023-05-16
Filing date: 2023-05-16
Publication date: 2023-08-11

Abstract

本发明涉及投屏控制技术领域，具体涉及一种投屏内使用语音控制的方法、系统、设备及存储介质，以解决用户在手机投屏时无法使用车机端语音助手打开投屏手机上的应用或程序的问题。所述方法包括：手机端与车机端建立投屏，服务端通过OCR图像识别技术将已投屏界面进行截图识屏，将识屏出的文字信息进行抽取并存储至服务端；用户在车机端输入语音指令上传至服务端，服务端将车机端语音指令进行解析存储；服务端将车机端语音指令与识屏出的文字信息进行校验处理；经过服务端校验处理后，将处理结果下发手机端执行。通过本发明，在车机内进行投屏使用时，无需重新唤醒手机端语音助手，直接使用车机端语音助手即可完成对投屏页面的语音控制。

Description

一种投屏内使用语音控制的方法、系统、设备及存储介质

技术领域

本发明涉及投屏控制技术领域，具体涉及一种投屏内使用语音控制的方法、系统、设备及存储介质。

背景技术

目前，随着车联网技术的发展，汽车智能座舱内的屏幕变得越来越多，汽车的智能化已经成为发展的一个主要方向。手机投屏技术是一种低成本的车联网应用方案，其中以手机投屏映射到车机的方案应用最为广泛。手机投屏技术是将手机的屏幕内容投射到车机上，市面上的投屏功能实现主要是依靠用户在手机上手动操作投屏。在车辆行驶中，仅局限于手动操作投屏，带来了投屏使用的不便。除此之外，汽车智能座舱内的车机端语音控制助手，在投屏过程中也无法实现对手机的手机，存在语音控制投屏的局限性。

发明内容

本发明的目的在于提供一种投屏内使用语音控制的方法、系统、设备及存储介质，以解决用户无法使用车机端语音助手控制投屏页面操作的问题。

为实现上述目的，本发明提供如下技术方案：

一种投屏内使用语音控制的方法，所述方法具体包括：

手机端与车机端建立投屏，服务端通过OCR图像识别技术将已投屏界面进行截图识屏，将识屏出的文字信息进行抽取并存储至服务端；

用户在车机端输入语音指令上传至服务端，服务端将车机端语音指令进行解析存储；

服务端将车机端语音指令与识屏出的文字信息进行校验处理；

经过服务端校验处理后，将处理结果下发手机端执行。

优选的，所述服务端包括OCR图像识别接口、手机端语音调起权限和语音识别能力。

优选的，所述将识屏出的文字信息抽取并存储至服务端，具体包括：

用户打开手机端进行投屏操作，并判断是否成功投屏，若否，则提示重试；若投屏成功，则服务端调用OCR图像识别接口，将已投屏页面进行截图识屏；

判断识屏是否成功，若识屏成功，则将识屏出的文字信息抽取存储，等待进入校验流程；若否，则进行服务端自检。

优选的，所述服务端将车机端语音指令进行解析存储具体包括：用户在车机端输入语音指令并上传至服务端，判断上传是否成功，若上传失败，则完成策略toast提示重新说；若上传成功，则服务端通过语音识别能力将所述语音指令转换为语音文字，具体分为信号预处理、特征提取和模式匹配三个步骤，所述信号预处理为对采集到的语音信号进行预处理，包括去除噪声、增强语音信号；所述特征提取为将预处理后的语音信号转换成特征向量；所述模式匹配为通过计算机算法对所述特征向量进行分析和处理，将车机端语音指令转换为语音文字。

优选的，所述服务端将车机端语音指令与识屏出的文字信息进行校验处理的具体流程为：判断所述语音文字中是否存在“手机”一词和识屏出的文字信息的关键词，若所述语音文字中同时存在“手机”和所述关键词，则服务端与语音识别进行一次校验；若所述语音文字中仅存在“手机”不存在所述关键词，则语音反馈提示并引导用户说出已投屏页面的词语；若所述语音文字中仅存在所述关键词，则服务端主动检索车机端是否有相关的信息，如有则执行，如无则兜底回复；若所述语音文字中不存在“手机”一词和所述关键词，则toast提醒用户确认后再进行语音输入。

优选的，当所述语音文字中存在识屏出的文字信息的关键词，则OCR图像识别把所述关键词打上标签，若所述语音文字中同时存在“手机”和所述关键词，则服务端与语音识别进行一次校验，并判断校验是否成功，若成功，则将信息下发手机端执行，若校验失败，则toast提醒用户确认后再进行语音输入；若所述语音文字中仅存在所述关键词不包括“手机”，则优先执行车机端的操作。

优选的，校验成功后，服务端将信息下发手机端执行，具体为通过服务端调用手机端的语音助手，完成车机端语音助手控制手机端上的应用或程序。

一种投屏内使用语音控制系统，所述系统包括：

数据上传模块，用于车机端、手机端数据上传至服务端，包括第一上传单元和第二上传单元；所述第一上传单元用于将手机端已投屏页面截图上传至服务端；所述第二上传单元用于将车机端语音指令上传至服务端；

服务端处理模块，包括截图信息处理单元和车机端语音指令处理单元，所述截图信息处理单元用于服务端通过OCR图像识别技术对已投屏页面进行截图识屏，将识屏出的文字信息抽取并存储，所述车机端语音指令处理单元用于服务端通过语音识别能力将车机端语音指令转换为语音文字并存储；

数据校验处理模块，用于将所述语音文字与所述文字信息进行校验；

执行模块，用于执行数据校验处理模块的校验结果。

一种投屏设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的一种投屏方法。

一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的一种投屏内使用语音控制的方法。

与现有技术相比，本发明具有的有益效果是：手机和车机端在同屏幕情况下，手机和车机端的唤醒词是不一样的，手机端的语音只能控制投屏界面，车机端的语音仅能控制车机本地页面。用户在使用语音助手的过程中存在语音助手时空的割裂感。通过本发明，在车机内进行投屏使用时，无需重新唤醒手机端语音助手，直接使用车机端语音助手即可完成对投屏页面的语音控制，降低了手机端与车机端语音唤醒词不一致导致的场景隔离感，提升了用户的投屏使用体验。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本发明的方法流程图；

图2是本发明的系统模块图；

图3是本发明实施例中的数据上传的原理示意图。

具体实施方法

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方法做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方法来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方法中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

术语解释：

投屏：投屏是一种实现小屏画面显示在大屏设备上的技术。

服务端：是一款采用应用程序虚拟化技术“Application Virtualization”的软件平台，集软件搜索、下载、使用、管理、备份等多种功能为一体，能够使应用程序不必直接安装在最终用户计算机上便可供这些计算机使用。

OCR图像识别：可以从图片或者PDF中识别和提取其中的文字内容，输出文本文档，方便验证用户信息，或者直接进行内容编辑。

实施例1：如图1、图3所示，该实施例提供了一种投屏内使用语音控制的方法，具体包括如下步骤：

S1：手机端与车机端建立投屏，服务端通过OCR图像识别技术将已投屏界面进行截图识屏，将识屏出的文字信息进行抽取并存储至服务端；

服务端包括OCR图像识别接口、手机端语音调起权限和语音识别能力。

在一个具体的实施例中，用户打开手机端进行投屏操作，并判断是否成功投屏，若否，则提示重试；若投屏成功，则服务端调用OCR图像识别接口，将已投屏页面进行截图识屏；

S2：用户在车机端输入语音指令上传至服务端，服务端将车机端语音指令进行解析存储；

在一个具体的实施例中，用户在车机端输入语音指令并上传至服务端，判断上传是否成功，若上传失败，则完成策略toast提示重新说；若上传成功，则服务端通过语音识别能力将语音指令转换为语音文字，具体分为信号预处理、特征提取和模式匹配三个步骤，信号预处理为对采集到的语音信号进行预处理，包括去除噪声、增强语音信号；特征提取为将预处理后的语音信号转换成特征向量；模式匹配为通过计算机算法对特征向量进行分析和处理，将车机端语音指令转换为语音文字。

S3：服务端将车机端语音指令与识屏出的文字信息进行校验处理；

在一个具体的实施例中，判断语音文字中是否存在“手机”一词和识屏出的文字信息的关键词，若语音文字中同时存在“手机”和关键词，则服务端与语音识别进行一次校验；若语音文字中仅存在“手机”不存在关键词，则语音反馈提示并引导用户说出已投屏页面的词语；若语音文字中仅存在关键词，则服务端主动检索车机端是否有相关的信息，如有则执行，如无则兜底回复；若语音文字中不存在“手机”一词和关键词，则toast提醒用户确认后再进行语音输入。

S4：经过服务端校验处理后，将处理结果下发手机端执行。

在一个具体的实施例中，当语音文字中存在识屏出的文字信息的关键词，则OCR图像识别把关键词打上标签，若语音文字中同时存在“手机”和关键词，则服务端与语音识别进行一次校验，并判断校验是否成功，若成功，则将信息下发手机端执行，若校验失败，则toast提醒用户确认后再进行语音输入；若语音文字中仅存在关键词不包括“手机”，则优先执行车机端的操作。

S5：校验成功后，服务端下发命令到手机，调用手机的语音助手，完成车机端语音助手控制投屏手机上的应用或程序。

实施例2：与上述实施例1相对应的，如图2、图3所示，本实施例提供了一种投屏内使用语音控制的系统，包括：

数据上传模块，用于车机端、手机端数据上传至服务端，包括第一上传单元和第二上传单元；第一上传单元用于将手机端已投屏页面截图上传至服务端；第二上传单元用于将车机端语音指令上传至服务端；

服务端处理模块，包括截图信息处理单元和车机端语音指令处理单元，截图信息处理单元用于服务端通过OCR图像识别技术对已投屏页面进行截图识屏，将识屏出的文字信息抽取并存储，车机端语音指令处理单元用于服务端通过语音识别能力将车机端语音指令转换为语音文字并存储；

数据校验处理模块，用于将语音文字与文字信息进行校验；

执行模块，用于执行数据校验处理模块的校验结果。

实施例3：与上述实施例相对应的，本实施例提供一种投屏设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的一种投屏方法。

实施例4：与上述实施例相对应的，本实施例另提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现一种投屏内使用语音控制的方法。

综上所述，手机和车机端在同屏幕情况下，手机和车机端的唤醒词是不一样的，手机端的语音只能控制投屏界面，车机端的语音仅能控制车机本地页面。用户在使用语音助手的过程中存在语音助手时空的割裂感。通过本发明，在车机内进行投屏使用时，无需重新唤醒手机端语音助手，直接使用车机端语音助手即可完成对投屏页面的语音控制，降低了手机端与车机端语音唤醒词不一致导致的场景隔离感，提升了用户的投屏使用体验。

应理解的是，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方法中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中。该程序在执行时，包括方法实施例的步骤之一或其组合。此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

应当说明的是，以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种投屏内使用语音控制的方法，其特征在于，所述方法具体包括：

经过服务端校验处理后，将处理结果下发手机端执行。

2.根据权利要求1所述的一种投屏内使用语音控制的方法，其特征在于，所述服务端包括OCR图像识别接口、手机端语音调起权限和语音识别能力。

3.根据权利要求2所述的一种投屏内使用语音控制的方法，其特征在于，所述将识屏出的文字信息抽取并存储至服务端，具体包括：

4.根据权利要求3所述的一种投屏内使用语音控制的方法，其特征在于，所述服务端将车机端语音指令进行解析存储具体包括：用户在车机端输入语音指令并上传至服务端，判断上传是否成功，若上传失败，则完成策略toast提示重新说；若上传成功，则服务端通过语音识别能力将所述语音指令转换为语音文字，具体分为信号预处理、特征提取和模式匹配三个步骤，所述信号预处理为对采集到的语音信号进行预处理，包括去除噪声、增强语音信号；所述特征提取为将预处理后的语音信号转换成特征向量；所述模式匹配为通过计算机算法对所述特征向量进行分析和处理，将车机端语音指令转换为语音文字。

5.根据权利要求4所述的一种投屏内使用语音控制的方法，其特征在于，所述服务端将车机端语音指令与识屏出的文字信息进行校验处理的具体流程为：判断所述语音文字中是否存在“手机”一词和识屏出的文字信息的关键词，若所述语音文字中同时存在“手机”和所述关键词，则服务端与语音识别进行一次校验；若所述语音文字中仅存在“手机”不存在所述关键词，则语音反馈提示并引导用户说出已投屏页面的词语；若所述语音文字中仅存在所述关键词，则服务端主动检索车机端是否有相关的信息，如有则执行，如无则兜底回复；若所述语音文字中不存在“手机”一词和所述关键词，则toast提醒用户确认后再进行语音输入。

6.根据权利要求5述的一种投屏内使用语音控制的方法，其特征在于，当所述语音文字中存在识屏出的文字信息的关键词，则OCR图像识别把所述关键词打上标签，若所述语音文字中同时存在“手机”和所述关键词，则服务端与语音识别进行一次校验，并判断校验是否成功，若成功，则将信息下发手机端执行，若校验失败，则toast提醒用户确认后再进行语音输入；若所述语音文字中仅存在所述关键词不包括“手机”，则优先执行车机端的操作。

7.根据权利要求6述的一种投屏内使用语音控制的方法，其特征在于，校验成功后，服务端将信息下发手机端执行，具体为通过服务端调用手机端的语音助手，完成车机端语音助手控制手机端上的应用或程序。

8.一种投屏内使用语音控制的系统，其特征在于，所述系统包括：

执行模块，用于执行数据校验处理模块的校验结果。

9.一种投屏设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-7任一项所述的一种投屏内使用语音控制的方法。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的一种投屏内使用语音控制的方法。