CN113380242A

CN113380242A - 一种语音控制多媒体播放内容的方法及系统

Info

Publication number: CN113380242A
Application number: CN202110577950.0A
Authority: CN
Inventors: 邓嘉俊; 罗益峰; 詹明学
Original assignee: Guangzhou Lango Electronic Science and Technology Co Ltd
Current assignee: Guangzhou Lango Electronic Science and Technology Co Ltd
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2021-09-10

Abstract

本发明公开了一种语音控制多媒体播放内容的方法及系统，所述方法包括采集用户的语音数据，对所述语音数据进行预处理；响应于语音控制的激活步骤，将预处理的语音数据上传至多媒体语音控制系统进行语音识别；通过调用多媒体语音控制系统的语音识别引擎，根据所述预处理的语音数据与语法规则识别出对应的词条名，根据所述词条名查找语音控制条目保存介质中对应的语音控制条目；将语音控制条目对应的控制功能信息通过识别结果触发接口发送给多媒体功能模块，所述多媒体功能模块执行所述控制功能信息对应的操作，向用户提供相应的多媒体功能。本发明实现了通过语音控制多媒体播放内容，提高了用户体验。

Description

一种语音控制多媒体播放内容的方法及系统

技术领域

本发明涉及多媒体技术领域，具体涉及一种语音控制多媒体播放内容的方法及系统。

背景技术

传统的多媒体播放装置往往是通过手动操控，例如使用遥控器或鼠标来进行切换、音量加减等操作来调整到自己喜欢的和舒适的状态，但是遥控器也有很多不方便的地方。例如，有时候遥控器的电池突然没电了，或者是一不小心忘了放在什么地方了，需要去找到才能切换，从而影响心情。尤其当我们用一种比较舒服的姿势(比如躺着的时候)看视频的时候，此时想切换视频或者调音量时，再去找遥控器或鼠标，用户体验不是很好，这些都极大的降低了用户的体验度。

发明内容

鉴于以上技术问题，本发明的目的在于提供一种语音控制多媒体播放内容的方法、系统及存储介质，解决了传统的多媒体播放装置需要手动操控导致用户体验不好的问题。

本发明采用以下技术方案：

一种语音控制多媒体播放内容的方法，包括：

采集用户的语音数据，对所述语音数据进行预处理；

响应于语音控制的激活步骤，将预处理的语音数据上传至多媒体语音控制系统进行语音识别；通过调用多媒体语音控制系统的语音识别引擎，根据所述预处理的语音数据与语法规则识别出对应的词条名，根据所述词条名查找语音控制条目保存介质中对应的语音控制条目；

将语音控制条目对应的控制功能信息通过识别结果触发接口发送给多媒体功能模块，所述多媒体功能模块执行所述控制功能信息对应的操作，向用户提供相应的多媒体功能。

进一步的，所述对所述语音数据进行预处理的步骤包括：

通过音色识别模块识别所述语音数据中多媒体功能模块的视频音色和用户的音色，并将视频音色过滤，得到用户的音色的语音数据。

进一步的，所述激活步骤包括：向多媒体语音控制系统输入包含激活指令的文本或语音或识别到采集的语音数据包含激活指令。

进一步的，所述控制功能信息的控制种类包括播放、暂停、快进、快退、音量调节和切换视频。

进一步的，还包括：对多媒体功能模块进行监听；当监听到使用第三方应用时，对所述第三方应用解析以获取所述第三方应用的界面；

判断解析得到的所述第三方应用的界面是否存在播放界面；若存在播放界面，则在所述播放界面增加监听播放控制的回调函数；

当多媒体功能模块接收到控制功能信息时，通过所述回调函数计算播放控制的时间点，并调用预先设定的回调接口控制多媒体功能模块执行所述控制功能信息对应的操作。

进一步的，所述对所述语音数据进行预处理的步骤还包括：

获取所述用户的音色的语音数据中的有效语音数据；具体的包括：对获取得到的语音数据进行分帧；对每一帧语音信号进行加汉明窗处理；计算每一帧语音信号的短时能量；计算每一帧语音信号的过零率；

若某一帧语音信号往前连续三帧语音信号的短时能量和过零率分别大于预设的短时能量判决门限上限值和预设的过零率判决门限上限值，则判定当前帧语音信号为开始帧；若某一帧语音信号往前连续三帧语音信号的短时能量和过零率分别小于预设的短时能量判决门限下限值和预设的过零率判决门限下限值，则判定当前帧语音信号为结束帧；根据开始帧和结束帧提取有效语音数据。

进一步的，所述将预处理的语音数据上传至多媒体语音控制系统进行语音识别的步骤之前还包括：响应于用户发出的语音信号，获取用户的位置作为目标音源位置；将目标音源所在位置与预设多媒体控制位置进行对比，若目标音源所在位置与预设多媒体控制位置的差值大于预设距离差，则发出提醒语音或不响应于语音控制的激活步骤。

一种语音控制多媒体播放内容的系统，包括多媒体语音控制系统和多媒体功能模块，所述多媒体语音控制系统包括语音获取单元、语音处理单元和语音识别单元；

所述语音获取单元，用于采集用户的语音数据；

所述语音处理单元，用于对所述语音数据进行预处理；

语音识别单元，用于响应于语音控制的激活步骤，对预处理的语音数据进行语音识别；调用多媒体语音控制系统的语音识别引擎，根据所述预处理的语音数据与语法规则识别出对应的词条名，根据所述词条名查找语音控制条目存储介质中对应的语音控制条目；所述语音控制条目存储介质存储有一个或多个语音控制条目；并将对应的控制功能信息通过识别结果触发接口发送给多媒体功能模块；

所述多媒体功能模块，用于接收语音识别单元发送的所述控制功能信息，并执行所述控制功能信息对应的操作，向用户提供相应的多媒体功能。

进一步的，所述对所述语音数据进行预处理的步骤包括：通过音色识别模块识别所述语音数据中多媒体设备的视频音色和用户的音色，并将视频音色过滤，得到用户的音色的语音数据；

所述控制功能信息的控制种类包括播放、暂停、快进、快退、音量调节和切换视频。

一种计算机存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时，实现所述的语音控制多媒体播放内容的方法。

相比现有技术，本发明的有益效果在于：

本发明通过将预处理的语音数据与语法规则识别出对应的词条名，根据所述词条名查找语音控制条目保存介质中对应的语音控制条目，使所述多媒体功能模块执行所述控制功能信息对应的操作，向用户提供相应的多媒体功能，实现通过语音控制多媒体播放内容的目的，从而实现替代键盘功能的文本输入功能和替代遥控或鼠标等功能的控制命令功能。

附图说明

图1为本发明一实施例提供的一种语音控制多媒体播放内容的方法的流程示意图；

图2为本发明另一实施例提供的一种语音控制多媒体播放内容的系统的结构示意图；

图3为本发明另一实施例提供的一种电子设备的结构示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例：

实施例一：

请参照图1所示，一种语音控制多媒体播放内容的方法，包括：

步骤S1:采集用户的语音数据，对所述语音数据进行预处理；

具体的，所述对所述语音数据进行预处理的步骤包括：

通过音色识别模块识别所述语音数据中多媒体功能模块2的视频音色和用户的音色，并将视频音色过滤，得到用户的音色的语音数据。

其中，音色识别模块在用户不发出指令时也一直工作，并将识别到的是多媒体功能模块2的视频音色全部过滤掉，得到用户的音色的语音数据。

步骤S2: 响应于语音控制的激活步骤，将预处理的语音数据上传至多媒体语音控制系统1进行语音识别；通过调用多媒体语音控制系统1的语音识别引擎，根据所述预处理的语音数据与语法规则识别出对应的词条名，根据所述词条名查找语音控制条目保存介质中对应的语音控制条目；

其中，语法规则可是预先存储于多媒体语音控制系统1中，也可是从网络中获取，这样，可实现支持多种语言的语音控制。

可选的，所述激活步骤包括：向多媒体语音控制系统1输入包含激活指令的文本或语音或识别到采集的语音数据包含激活指令。

例如，所述激活指令可以是“开启语音”，当向多媒体语音控制系统1输入包含激活指令的文本，或语音，或采集的语音数据包含“开启语音”，都可以视为激活语音控制。

步骤S3:将语音控制条目对应的控制功能信息通过识别结果触发接口发送给多媒体功能模块2，所述多媒体功能模块2执行所述控制功能信息对应的操作，向用户提供相应的多媒体功能。

具体的，所述控制功能信息的控制种类可包括播放、暂停、快进、快退、音量调节和切换视频等。

应理解，以上控制功能信息的控制种类不是对控制功能信息进行限制，仅为示例，可以根据用户的需求进行添加或减少。

例如，当某一类控制操作比较通用时，比如“打开演示文稿”，可将“打开演示文稿”存储于语音控制条目保存介质中，当用户说出“打开演示文稿”可作为语音控制条目，所述控制功能信息即为打开演示文稿，实现通过语音控制所述多媒体功能模块2执行对应的操作。

在上述实现过程中，通过将预处理的语音数据与语法规则识别出对应的词条名，根据所述词条名查找语音控制条目保存介质中对应的语音控制条目，使所述多媒体功能模块2执行所述控制功能信息对应的操作，向用户提供相应的多媒体功能，实现通过语音控制多媒体播放内容的目的，从而实现替代键盘功能的文本输入功能和替代遥控或鼠标等功能的控制命令功能。

可选的，还包括：对多媒体功能模块2进行监听；

当监听到使用第三方应用时，对所述第三方应用解析以获取所述第三方应用的界面；

判断解析得到的所述第三方应用的界面是否存在播放界面；

若存在播放界面，则在所述播放界面增加监听播放控制的回调函数；

当接收到控制功能信息时，通过所述回调函数计算播放控制的时间点，并调用预先设定的多媒体功能模块2的回调接口控制多媒体功能模块2执行所述控制功能信息对应的操作。

在上述实现过程中，通过所述回调函数计算第三方应用播放控制的时间点，并调用预先设定的多媒体功能模块2的回调接口控制多媒体功能模块2执行所述控制功能信息对应的操作，从而使得第三方应用能够有效的响应语音控制指令，有利于提高用户体验。

可选的，所述对所述语音数据进行预处理的步骤具体还包括：

在上述实现过程中，通过与预设的短时能量判决门限上限值和预设的过零率判决门限上限值，以及与预设的短时能量判决门限下限值和预设的过零率判决门限下限值进行比较，确定开始帧和结束帧，根据开始帧和结束帧提取有效语音数据，可过滤掉语音数据中的干扰音或不符合预设要求的语音数据。

可选的，所述将预处理的语音数据上传至多媒体语音控制系统1进行语音识别的步骤之前还包括：响应于用户发出的语音信号，获取用户的位置作为目标音源位置；将目标音源所在位置与预设多媒体控制位置进行对比，若目标音源所在位置与预设多媒体控制位置的差值大于预设距离差，则发出提醒语音或不响应于语音控制的激活步骤。

在上述实现过程中，通过获取用户的位置作为目标音源位置，将目标音源所在位置与预设多媒体控制位置进行对比，若目标音源所在位置与预设多媒体控制位置的差值大于预设距离差，则发出提醒语音或不响应于语音控制的激活步骤，可以实现在公众培训使用多媒体设备时，设定语音控制位置，实现只支持主持人或演讲者等的语音控制，不受其他地方的语音控制。

实施例二：

请参照图2所示，示出了本实施例的一种语音控制多媒体播放内容的系统，包括多媒体语音控制系统1和多媒体功能模块2，所述多媒体语音控制系统1包括语音获取单元10、语音处理单元11和语音识别单元12；

所述语音获取单元10，用于采集用户的语音数据；

所述语音处理单元11，用于对所述语音数据进行预处理；

所述语音识别单元12，用于响应于语音控制的激活步骤，对预处理的语音数据进行语音识别；调用多媒体语音控制系统1的语音识别引擎，根据所述预处理的语音数据与语法规则识别出对应的词条名，根据所述词条名查找语音控制条目存储介质中对应的语音控制条目；所述语音控制条目存储介质存储有一个或多个语音控制条目；并将对应的控制功能信息通过识别结果触发接口发送给多媒体功能模块2；

所述多媒体功能模块2，用于接收语音识别单元12发送的所述控制功能信息，并执行所述控制功能信息对应的操作，向用户提供相应的多媒体功能。

具体的，所述对所述语音数据进行预处理的步骤包括：

通过音色识别模块识别所述语音数据中多媒体设备的视频音色和用户的音色，并将视频音色过滤，得到用户的音色的语音数据。

可选的，本实施例的一种语音控制多媒体播放内容的系统还包括多媒体监听模块；

所述多媒体监听模块，用于对多媒体功能模块2进行监听；当监听到多媒体功能模块2在安装第三方应用时，对所述第三方应用解析以获取所述第三方应用的界面；判断解析得到的所述第三方应用的界面是否存在播放界面；若存在播放界面，则在所述播放界面增加监听播放控制的回调函数；当接收到控制功能信息时，通过所述回调函数计算播放控制的时间点，并调用预先设定的多媒体功能模块2的回调接口控制多媒体功能模块2执行所述控制功能信息对应的操作。

其中，所述控制功能信息的控制种类包括播放、暂停、快进、快退、音量调节和切换视频。

实施例三：

图3为本申请实施例提供的一种电子设备的结构示意图，在本申请中可以通过图3所示的示意图来描述用于实现本申请实施例的本发明的一种语音控制多媒体播放内容的方法的电子设备100。

所述电子设备100包括一个或多个处理器102、一个或多个存储装置104，这些组件通过总线系统和/或其它形式的连接机构(未示出)互连。应当注意，图3所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备可以具有图3示出的部分组件，也可以具有图3未示出的其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本申请实施例中(由处理器实现)的功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

本发明还提供一种计算机存储介质，其上存储有计算机程序，本发明的方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在该计算机存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，RandomAccessMemory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机存储介质不包括电载波信号和电信信号。

对本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.一种语音控制多媒体播放内容的方法，其特征在于，包括：

采集用户的语音数据，对所述语音数据进行预处理；

2.根据权利要求1所述的语音控制多媒体播放内容的方法，其特征在于，所述对所述语音数据进行预处理的步骤包括：

3.根据权利要求1所述的语音控制多媒体播放内容的方法，其特征在于，所述激活步骤包括：向多媒体语音控制系统输入包含激活指令的文本或语音或识别到采集的语音数据包含激活指令。

4.根据权利要求1所述的语音控制多媒体播放内容的方法，其特征在于，所述控制功能信息的控制种类包括播放、暂停、快进、快退、音量调节和切换视频。

5.根据权利要求1所述的语音控制多媒体播放内容的方法，其特征在于，还包括：对多媒体功能模块进行监听；当监听到使用第三方应用时，对所述第三方应用解析以获取所述第三方应用的界面；

6.根据权利要求2所述的语音控制多媒体播放内容的方法，其特征在于，所述对所述语音数据进行预处理的步骤还包括：

7.根据权利要求1所述的语音控制多媒体播放内容的方法，其特征在于，所述将预处理的语音数据上传至多媒体语音控制系统进行语音识别的步骤之前还包括：响应于用户发出的语音信号，获取用户的位置作为目标音源位置；将目标音源所在位置与预设多媒体控制位置进行对比，若目标音源所在位置与预设多媒体控制位置的差值大于预设距离差，则发出提醒语音或不响应于语音控制的激活步骤。

8.一种语音控制多媒体播放内容的系统，其特征在于，包括多媒体语音控制系统和多媒体功能模块，所述多媒体语音控制系统包括语音获取单元、语音处理单元和语音识别单元；

所述语音获取单元，用于采集用户的语音数据；

所述语音处理单元，用于对所述语音数据进行预处理；

所述语音识别单元，用于响应于语音控制的激活步骤，对预处理的语音数据进行语音识别；调用多媒体语音控制系统的语音识别引擎，根据所述预处理的语音数据与语法规则识别出对应的词条名，根据所述词条名查找语音控制条目存储介质中对应的语音控制条目；所述语音控制条目存储介质存储有一个或多个语音控制条目；并将对应的控制功能信息通过识别结果触发接口发送给多媒体功能模块；

9.根据权利要求8所述的语音控制多媒体播放内容的系统，其特征在于，所述对所述语音数据进行预处理的步骤包括：通过音色识别模块识别所述语音数据中多媒体设备的视频音色和用户的音色，并将视频音色过滤，得到用户的音色的语音数据；

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序在被处理器执行时，实现如权利要求1至7任一项所述的语音控制多媒体播放内容的方法。