CN110035301A

CN110035301A - 一种基于语音控制的播放进度调节方法

Info

Publication number: CN110035301A
Application number: CN201910301262.4A
Authority: CN
Inventors: 钟俊强; 钟旻均
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2019-07-19

Abstract

本发明属于多媒体播放技术领域，公开了一种基于语音控制的播放进度调节方法。本发明包括：S1.实时接收来自用户端的调节操作，并判断当前调节操作是否为有效操作指令；S2.如是，则继续判断当前调节操作的时长是否超过阈值，如否，则忽略当前调节操作然后重复步骤S1；S3.如是，则接收来自用户端的语音信息，如否，则忽略当前调节操作然后重复步骤S1；S4.根据当前语音信息中的时间因素信息，控制当前文件播放进度。本发明通过接收来自用户的调节操作及语音信息，可以实现语音调节音视频播放进度的目的，语音控制可以避免手动拖动进度条造成的进度调节不准确，节约了用户在调节进度时耗费的时间，且避免重复播放造成的时间浪费，用户体验度更高。

Description

一种基于语音控制的播放进度调节方法

技术领域

本发明属于多媒体播放技术领域，具体涉及一种基于语音控制的播放进度调节方法。

背景技术

目前，随着科技的进步，通讯软件已逐渐成为普遍使用的通讯工具，用户在使用QQ、微信、MNS等通讯软件时，为了节省打字时间，经常采用发送语音消息的方式进行沟通；但用户在播放接收到的某条语音消息时，误触屏幕或退出界面后再次播放语音消息时，需要从头开始再次重新播放该条语音消息，如此反复播放不仅耗时长还增加通讯软件的播放负荷。

同时，随着数码产品的普及，触屏式的视频播放终端也逐渐取代了传统的遥控电视，用户在观看视频时，经常会有从视频当前播放位置跳转到某个位置的视频播放进度调节需求，用户一般使用触屏式的视频播放终端拖动进度条来实现视频播放进度的调节。

上述的现有音视频播放进度调节均存在调节不便及调节不准确的问题，给用户日常使用造成极大的不便，且不准确调节后的调试及重复播放会浪费用户的时间，造成用户体验度不佳。

发明内容

为了解决现有技术存在的上述问题，本发明目的在于提供一种便于调节、调节进度准确、提高了用户体验度的基于语音控制的播放进度调节方法。

本发明所采用的技术方案为：

一种基于语音控制的播放进度调节方法，包括以下步骤：

S1.实时接收来自用户端的调节操作，并判断当前调节操作是否为有效操作指令；

S2.如步骤S1中的判断结果为是，则继续判断当前调节操作的时长是否超过阈值，如步骤S1中的判断结果为否，则忽略当前调节操作然后重复步骤S1；

S3.如步骤S2中的判断结果为是，则接收来自用户端的语音信息，如步骤S2中的判断结果为否，则忽略当前调节操作然后重复步骤S1；

S4.根据当前语音信息中的时间因素信息，控制当前文件播放进度。

作为优选，所述的步骤S1中，调节操作包括触碰操作和/或语音操作。

作为优选，当调节操作为触碰操作时，判断当前触碰操作是否为有效操作指令时，判断当前触碰操作是否位于人机界面的有效触碰区域；当调节操作为语音操作时，判断当前语音操作是否为有效操作指令时，判断当前语音操作是否包括指令要素。

作为优选，每个有效碰触区域有唯一对应的文件；所述的指令要素包括激活码及待调节目标。

作为优选，所述的文件为音频和/或视频。

作为优选，所述的步骤S2中，判断当前调节操作的时长是否超过阈值时，判断当前触碰操作的按压时长或当前语音操作的语音时长。

作为优选，所述的步骤S3中，步骤S2中的判断结果为否时，如当前用户端待调节进度的文件为音频，则播放当前音频。

作为优选，所述的步骤S4中，根据当前语音信息获取时间因素信息时，步骤如下：

S401.获取当前用户端的位置信息，确定对应的区域信息，并调用与当前区域信息对应的语音数据库及语法数据库；

S402.将当前语音信息与语音数据库进行比对，将与当前语音信息比对相似度最高的语音数据库中的语音文件作为第一语音识别结果；

S403.将当前语音信息与语法数据库进行比对，将与当前语音信息比对相似度最高的语法数据库中的语音文件作为第二语音识别结果；

S404.将第一语音识别结果与所述第二语音识别结果整合，得到最终语音识别结果，然后从当前最终语音识别结果对应的语音文件中提取时间因素信息。

作为优选，所述的步骤S402中，当前语音信息与语音数据库进行比对时，首先将当前语音信息拆分为多个音节，然后将每个音节分别与语音数据库的音节文件进行比对，最后将由多个与当前语音信息的音节比对相似度最高的音节文件构成的语音文件作为第一语音识别结果。

作为优选，所述的步骤S403中，当前语音信息与语法数据库进行比对时，首先将当前语音信息拆分为多个词，然后将每个词分别与语法数据库的词文件进行比对，最后将由多个与当前语音信息的词比对相似度最高的词文件构成的语音文件作为第二语音识别结果。

本发明的有益效果为：

1)通过接收来自用户的调节操作及语音信息，可以实现语音调节音视频播放进度的目的，语音控制可以避免手动拖动进度条造成的进度调节不准确，节约了用户在调节进度时耗费的时间，且避免重复播放造成的时间浪费，用户体验度更高；

2)通过对调节操作进行有效性及时长的判断，能够在接收调节进度的语音信息之前得知当前调节操作是否为误触，并及时对各种类型的调节操作进行不同的响应，使得进度调节准确性更高，进一步提高用户体验度；

3)根据用户端所在的位置信息确定对应的区域信息，根据用户的区域信息分别对用户的声音信息进行语音及语法的双重识别，最后对两个识别结果进行整合得到最终的语音识别结果并输出，有效的提高语音识别的准确性，实用性更高，适于推广使用。

附图说明

图1是本发明的流程框图。

具体实施方式

下面结合附图及具体实施例对本发明做进一步阐释。

实施例1：

如图1所示，本实施例提供一种基于语音控制的播放进度调节方法，包括以下步骤：

S1.实时接收来自用户端的调节操作，并判断当前调节操作是否为有效操作指令；由此可以得知当前操作指令是否为误操作，由此避免任何操作均对进度进行影响，进而避免对用户正常使用造成影响；其中，调节操作包括触碰操作和/或语音操作，用户可以采用触碰人机界面的方式发送触碰操作，也可以采用向用户端发出声音的方式发送语音操作。

本实施例中，当调节操作为触碰操作时，判断当前触碰操作是否为有效操作指令时，判断当前触碰操作是否位于人机界面的有效触碰区域；如：音频的有效碰触区域为语音消息的图标范围，视频的有效碰触区域为各个APP预设的能够调节播放进度的区域；每个有效碰触区域有唯一对应的文件，即每次调节的目标是唯一确定的；文件为音频和/或视频。

本实施例中，当调节操作为语音操作时，判断当前语音操作是否为有效操作指令时，判断当前语音操作是否包括指令要素；指令要素包括激活码及待调节目标，激活码即为预设的语音唤醒口令，如苹果手机的语音助手的唤醒口令为hi，Siri，待调节目标为当前需要调节进度的音频或视频，适用于当前人机界面有多个音频或视频时，避免出现误操作。

S2.如步骤S1中的判断结果为是，则继续判断当前调节操作的时长是否超过阈值，如步骤S1中的判断结果为否，则忽略当前调节操作然后重复步骤S1；调节操作的时长可以用于进一步判断其是否为误操作，如语音消息的快速按压可能用于从头播放该条语音消息，还有一些疑似语音操作的语音被采集时，可以通过时长来进行进一步筛选，使得每次进度调节的精准度更高；其中，判断当前调节操作的时长是否超过阈值时，判断当前触碰操作的按压时长或当前语音操作的语音时长。

S3.如步骤S2中的判断结果为是，则接收来自用户端的语音信息，如步骤S2中的判断结果为否，则忽略当前调节操作然后重复步骤S1；语音信息为触碰操作或语音操作之后用户再次发出的指令；其中，步骤S2中的判断结果为否时，如当前用户端待调节进度的文件为音频，则播放当前音频，即上述的语音消息的快速按压可能用于从头播放该条语音消息。

本实施例中，根据当前语音信息获取时间因素信息时，步骤如下：

S402.将当前语音信息与语音数据库进行比对，将与当前语音信息比对相似度最高的语音数据库中的语音文件作为第一语音识别结果；其中，当前语音信息与语音数据库进行比对时，首先将当前语音信息拆分为多个音节，然后将每个音节分别与语音数据库的音节文件进行比对，最后将由多个与当前语音信息的音节比对相似度最高的音节文件构成的语音文件作为第一语音识别结果。

S403.将当前语音信息与语法数据库进行比对，将与当前语音信息比对相似度最高的语法数据库中的语音文件作为第二语音识别结果；其中，当前语音信息与语法数据库进行比对时，首先将当前语音信息拆分为多个词，然后将每个词分别与语法数据库的词文件进行比对，最后将由多个与当前语音信息的词比对相似度最高的词文件构成的语音文件作为第二语音识别结果。

由此可以根据用户端所在的位置信息确定对应的区域信息，根据用户的区域信息分别对用户的声音信息进行语音及语法的双重识别，最后对两个识别结果进行整合得到最终的语音识别结果并输出，有效的提高语音识别的准确性，避免方言识别不准确造成的进度调节精度低。

本发明不局限于上述可选的实施方式，任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制，本发明的保护范围应当以权利要求书中界定的为准，并且说明书可以用于解释权利要求书。

Claims

1.一种基于语音控制的播放进度调节方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于语音控制的播放进度调节方法，其特征在于：所述的步骤S1中，调节操作包括触碰操作和/或语音操作。

3.根据权利要求2所述的基于语音控制的播放进度调节方法，其特征在于：当调节操作为触碰操作时，判断当前触碰操作是否为有效操作指令时，判断当前触碰操作是否位于人机界面的有效触碰区域；当调节操作为语音操作时，判断当前语音操作是否为有效操作指令时，判断当前语音操作是否包括指令要素。

4.根据权利要求3所述的基于语音控制的播放进度调节方法，其特征在于：每个有效碰触区域有唯一对应的文件；所述的指令要素包括激活码及待调节目标。

5.根据权利要求4所述的基于语音控制的播放进度调节方法，其特征在于：所述的文件为音频和/或视频。

6.根据权利要求2所述的基于语音控制的播放进度调节方法，其特征在于：所述的步骤S2中，判断当前调节操作的时长是否超过阈值时，判断当前触碰操作的按压时长或当前语音操作的语音时长。

7.根据权利要求6所述的基于语音控制的播放进度调节方法，其特征在于：所述的步骤S3中，步骤S2中的判断结果为否时，如当前用户端待调节进度的文件为音频，则播放当前音频。

8.根据权利要求1至7任一所述的基于语音控制的播放进度调节方法，其特征在于：所述的步骤S4中，根据当前语音信息获取时间因素信息时，步骤如下：

9.根据权利要求8所述的基于语音控制的播放进度调节方法，其特征在于：所述的步骤S402中，当前语音信息与语音数据库进行比对时，首先将当前语音信息拆分为多个音节，然后将每个音节分别与语音数据库的音节文件进行比对，最后将由多个与当前语音信息的音节比对相似度最高的音节文件构成的语音文件作为第一语音识别结果。

10.根据权利要求8所述的基于语音控制的播放进度调节方法，其特征在于：所述的步骤S403中，当前语音信息与语法数据库进行比对时，首先将当前语音信息拆分为多个词，然后将每个词分别与语法数据库的词文件进行比对，最后将由多个与当前语音信息的词比对相似度最高的词文件构成的语音文件作为第二语音识别结果。