CN110035301A - 一种基于语音控制的播放进度调节方法 - Google Patents

一种基于语音控制的播放进度调节方法 Download PDF

Info

Publication number
CN110035301A
CN110035301A CN201910301262.4A CN201910301262A CN110035301A CN 110035301 A CN110035301 A CN 110035301A CN 201910301262 A CN201910301262 A CN 201910301262A CN 110035301 A CN110035301 A CN 110035301A
Authority
CN
China
Prior art keywords
current
voice
speech
information
playback progress
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910301262.4A
Other languages
English (en)
Inventor
钟俊强
钟旻均
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201910301262.4A priority Critical patent/CN110035301A/zh
Publication of CN110035301A publication Critical patent/CN110035301A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/238Interfacing the downstream path of the transmission network, e.g. adapting the transmission rate of a video stream to network bandwidth; Processing of multiplex streams
    • H04N21/2387Stream processing in response to a playback request from an end-user, e.g. for trick-play

Abstract

本发明属于多媒体播放技术领域,公开了一种基于语音控制的播放进度调节方法。本发明包括:S1.实时接收来自用户端的调节操作,并判断当前调节操作是否为有效操作指令;S2.如是,则继续判断当前调节操作的时长是否超过阈值,如否,则忽略当前调节操作然后重复步骤S1;S3.如是,则接收来自用户端的语音信息,如否,则忽略当前调节操作然后重复步骤S1;S4.根据当前语音信息中的时间因素信息,控制当前文件播放进度。本发明通过接收来自用户的调节操作及语音信息,可以实现语音调节音视频播放进度的目的,语音控制可以避免手动拖动进度条造成的进度调节不准确,节约了用户在调节进度时耗费的时间,且避免重复播放造成的时间浪费,用户体验度更高。

Description

一种基于语音控制的播放进度调节方法
技术领域
本发明属于多媒体播放技术领域,具体涉及一种基于语音控制的播放进度调节方法。
背景技术
目前,随着科技的进步,通讯软件已逐渐成为普遍使用的通讯工具,用户在使用QQ、微信、MNS等通讯软件时,为了节省打字时间,经常采用发送语音消息的方式进行沟通;但用户在播放接收到的某条语音消息时,误触屏幕或退出界面后再次播放语音消息时,需要从头开始再次重新播放该条语音消息,如此反复播放不仅耗时长还增加通讯软件的播放负荷。
同时,随着数码产品的普及,触屏式的视频播放终端也逐渐取代了传统的遥控电视,用户在观看视频时,经常会有从视频当前播放位置跳转到某个位置的视频播放进度调节需求,用户一般使用触屏式的视频播放终端拖动进度条来实现视频播放进度的调节。
上述的现有音视频播放进度调节均存在调节不便及调节不准确的问题,给用户日常使用造成极大的不便,且不准确调节后的调试及重复播放会浪费用户的时间,造成用户体验度不佳。
发明内容
为了解决现有技术存在的上述问题,本发明目的在于提供一种便于调节、调节进度准确、提高了用户体验度的基于语音控制的播放进度调节方法。
本发明所采用的技术方案为:
一种基于语音控制的播放进度调节方法,包括以下步骤:
S1.实时接收来自用户端的调节操作,并判断当前调节操作是否为有效操作指令;
S2.如步骤S1中的判断结果为是,则继续判断当前调节操作的时长是否超过阈值,如步骤S1中的判断结果为否,则忽略当前调节操作然后重复步骤S1;
S3.如步骤S2中的判断结果为是,则接收来自用户端的语音信息,如步骤S2中的判断结果为否,则忽略当前调节操作然后重复步骤S1;
S4.根据当前语音信息中的时间因素信息,控制当前文件播放进度。
作为优选,所述的步骤S1中,调节操作包括触碰操作和/或语音操作。
作为优选,当调节操作为触碰操作时,判断当前触碰操作是否为有效操作指令时,判断当前触碰操作是否位于人机界面的有效触碰区域;当调节操作为语音操作时,判断当前语音操作是否为有效操作指令时,判断当前语音操作是否包括指令要素。
作为优选,每个有效碰触区域有唯一对应的文件;所述的指令要素包括激活码及待调节目标。
作为优选,所述的文件为音频和/或视频。
作为优选,所述的步骤S2中,判断当前调节操作的时长是否超过阈值时,判断当前触碰操作的按压时长或当前语音操作的语音时长。
作为优选,所述的步骤S3中,步骤S2中的判断结果为否时,如当前用户端待调节进度的文件为音频,则播放当前音频。
作为优选,所述的步骤S4中,根据当前语音信息获取时间因素信息时,步骤如下:
S401.获取当前用户端的位置信息,确定对应的区域信息,并调用与当前区域信息对应的语音数据库及语法数据库;
S402.将当前语音信息与语音数据库进行比对,将与当前语音信息比对相似度最高的语音数据库中的语音文件作为第一语音识别结果;
S403.将当前语音信息与语法数据库进行比对,将与当前语音信息比对相似度最高的语法数据库中的语音文件作为第二语音识别结果;
S404.将第一语音识别结果与所述第二语音识别结果整合,得到最终语音识别结果,然后从当前最终语音识别结果对应的语音文件中提取时间因素信息。
作为优选,所述的步骤S402中,当前语音信息与语音数据库进行比对时,首先将当前语音信息拆分为多个音节,然后将每个音节分别与语音数据库的音节文件进行比对,最后将由多个与当前语音信息的音节比对相似度最高的音节文件构成的语音文件作为第一语音识别结果。
作为优选,所述的步骤S403中,当前语音信息与语法数据库进行比对时,首先将当前语音信息拆分为多个词,然后将每个词分别与语法数据库的词文件进行比对,最后将由多个与当前语音信息的词比对相似度最高的词文件构成的语音文件作为第二语音识别结果。
本发明的有益效果为:
1)通过接收来自用户的调节操作及语音信息,可以实现语音调节音视频播放进度的目的,语音控制可以避免手动拖动进度条造成的进度调节不准确,节约了用户在调节进度时耗费的时间,且避免重复播放造成的时间浪费,用户体验度更高;
2)通过对调节操作进行有效性及时长的判断,能够在接收调节进度的语音信息之前得知当前调节操作是否为误触,并及时对各种类型的调节操作进行不同的响应,使得进度调节准确性更高,进一步提高用户体验度;
3)根据用户端所在的位置信息确定对应的区域信息,根据用户的区域信息分别对用户的声音信息进行语音及语法的双重识别,最后对两个识别结果进行整合得到最终的语音识别结果并输出,有效的提高语音识别的准确性,实用性更高,适于推广使用。
附图说明
图1是本发明的流程框图。
具体实施方式
下面结合附图及具体实施例对本发明做进一步阐释。
实施例1:
如图1所示,本实施例提供一种基于语音控制的播放进度调节方法,包括以下步骤:
S1.实时接收来自用户端的调节操作,并判断当前调节操作是否为有效操作指令;由此可以得知当前操作指令是否为误操作,由此避免任何操作均对进度进行影响,进而避免对用户正常使用造成影响;其中,调节操作包括触碰操作和/或语音操作,用户可以采用触碰人机界面的方式发送触碰操作,也可以采用向用户端发出声音的方式发送语音操作。
本实施例中,当调节操作为触碰操作时,判断当前触碰操作是否为有效操作指令时,判断当前触碰操作是否位于人机界面的有效触碰区域;如:音频的有效碰触区域为语音消息的图标范围,视频的有效碰触区域为各个APP预设的能够调节播放进度的区域;每个有效碰触区域有唯一对应的文件,即每次调节的目标是唯一确定的;文件为音频和/或视频。
本实施例中,当调节操作为语音操作时,判断当前语音操作是否为有效操作指令时,判断当前语音操作是否包括指令要素;指令要素包括激活码及待调节目标,激活码即为预设的语音唤醒口令,如苹果手机的语音助手的唤醒口令为hi,Siri,待调节目标为当前需要调节进度的音频或视频,适用于当前人机界面有多个音频或视频时,避免出现误操作。
S2.如步骤S1中的判断结果为是,则继续判断当前调节操作的时长是否超过阈值,如步骤S1中的判断结果为否,则忽略当前调节操作然后重复步骤S1;调节操作的时长可以用于进一步判断其是否为误操作,如语音消息的快速按压可能用于从头播放该条语音消息,还有一些疑似语音操作的语音被采集时,可以通过时长来进行进一步筛选,使得每次进度调节的精准度更高;其中,判断当前调节操作的时长是否超过阈值时,判断当前触碰操作的按压时长或当前语音操作的语音时长。
S3.如步骤S2中的判断结果为是,则接收来自用户端的语音信息,如步骤S2中的判断结果为否,则忽略当前调节操作然后重复步骤S1;语音信息为触碰操作或语音操作之后用户再次发出的指令;其中,步骤S2中的判断结果为否时,如当前用户端待调节进度的文件为音频,则播放当前音频,即上述的语音消息的快速按压可能用于从头播放该条语音消息。
S4.根据当前语音信息中的时间因素信息,控制当前文件播放进度。
本实施例中,根据当前语音信息获取时间因素信息时,步骤如下:
S401.获取当前用户端的位置信息,确定对应的区域信息,并调用与当前区域信息对应的语音数据库及语法数据库;
S402.将当前语音信息与语音数据库进行比对,将与当前语音信息比对相似度最高的语音数据库中的语音文件作为第一语音识别结果;其中,当前语音信息与语音数据库进行比对时,首先将当前语音信息拆分为多个音节,然后将每个音节分别与语音数据库的音节文件进行比对,最后将由多个与当前语音信息的音节比对相似度最高的音节文件构成的语音文件作为第一语音识别结果。
S403.将当前语音信息与语法数据库进行比对,将与当前语音信息比对相似度最高的语法数据库中的语音文件作为第二语音识别结果;其中,当前语音信息与语法数据库进行比对时,首先将当前语音信息拆分为多个词,然后将每个词分别与语法数据库的词文件进行比对,最后将由多个与当前语音信息的词比对相似度最高的词文件构成的语音文件作为第二语音识别结果。
S404.将第一语音识别结果与所述第二语音识别结果整合,得到最终语音识别结果,然后从当前最终语音识别结果对应的语音文件中提取时间因素信息。
由此可以根据用户端所在的位置信息确定对应的区域信息,根据用户的区域信息分别对用户的声音信息进行语音及语法的双重识别,最后对两个识别结果进行整合得到最终的语音识别结果并输出,有效的提高语音识别的准确性,避免方言识别不准确造成的进度调节精度低。
本发明不局限于上述可选的实施方式,任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制,本发明的保护范围应当以权利要求书中界定的为准,并且说明书可以用于解释权利要求书。

Claims (10)

1.一种基于语音控制的播放进度调节方法,其特征在于:包括以下步骤:
S1.实时接收来自用户端的调节操作,并判断当前调节操作是否为有效操作指令;
S2.如步骤S1中的判断结果为是,则继续判断当前调节操作的时长是否超过阈值,如步骤S1中的判断结果为否,则忽略当前调节操作然后重复步骤S1;
S3.如步骤S2中的判断结果为是,则接收来自用户端的语音信息,如步骤S2中的判断结果为否,则忽略当前调节操作然后重复步骤S1;
S4.根据当前语音信息中的时间因素信息,控制当前文件播放进度。
2.根据权利要求1所述的基于语音控制的播放进度调节方法,其特征在于:所述的步骤S1中,调节操作包括触碰操作和/或语音操作。
3.根据权利要求2所述的基于语音控制的播放进度调节方法,其特征在于:当调节操作为触碰操作时,判断当前触碰操作是否为有效操作指令时,判断当前触碰操作是否位于人机界面的有效触碰区域;当调节操作为语音操作时,判断当前语音操作是否为有效操作指令时,判断当前语音操作是否包括指令要素。
4.根据权利要求3所述的基于语音控制的播放进度调节方法,其特征在于:每个有效碰触区域有唯一对应的文件;所述的指令要素包括激活码及待调节目标。
5.根据权利要求4所述的基于语音控制的播放进度调节方法,其特征在于:所述的文件为音频和/或视频。
6.根据权利要求2所述的基于语音控制的播放进度调节方法,其特征在于:所述的步骤S2中,判断当前调节操作的时长是否超过阈值时,判断当前触碰操作的按压时长或当前语音操作的语音时长。
7.根据权利要求6所述的基于语音控制的播放进度调节方法,其特征在于:所述的步骤S3中,步骤S2中的判断结果为否时,如当前用户端待调节进度的文件为音频,则播放当前音频。
8.根据权利要求1至7任一所述的基于语音控制的播放进度调节方法,其特征在于:所述的步骤S4中,根据当前语音信息获取时间因素信息时,步骤如下:
S401.获取当前用户端的位置信息,确定对应的区域信息,并调用与当前区域信息对应的语音数据库及语法数据库;
S402.将当前语音信息与语音数据库进行比对,将与当前语音信息比对相似度最高的语音数据库中的语音文件作为第一语音识别结果;
S403.将当前语音信息与语法数据库进行比对,将与当前语音信息比对相似度最高的语法数据库中的语音文件作为第二语音识别结果;
S404.将第一语音识别结果与所述第二语音识别结果整合,得到最终语音识别结果,然后从当前最终语音识别结果对应的语音文件中提取时间因素信息。
9.根据权利要求8所述的基于语音控制的播放进度调节方法,其特征在于:所述的步骤S402中,当前语音信息与语音数据库进行比对时,首先将当前语音信息拆分为多个音节,然后将每个音节分别与语音数据库的音节文件进行比对,最后将由多个与当前语音信息的音节比对相似度最高的音节文件构成的语音文件作为第一语音识别结果。
10.根据权利要求8所述的基于语音控制的播放进度调节方法,其特征在于:所述的步骤S403中,当前语音信息与语法数据库进行比对时,首先将当前语音信息拆分为多个词,然后将每个词分别与语法数据库的词文件进行比对,最后将由多个与当前语音信息的词比对相似度最高的词文件构成的语音文件作为第二语音识别结果。
CN201910301262.4A 2019-04-15 2019-04-15 一种基于语音控制的播放进度调节方法 Pending CN110035301A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910301262.4A CN110035301A (zh) 2019-04-15 2019-04-15 一种基于语音控制的播放进度调节方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910301262.4A CN110035301A (zh) 2019-04-15 2019-04-15 一种基于语音控制的播放进度调节方法

Publications (1)

Publication Number Publication Date
CN110035301A true CN110035301A (zh) 2019-07-19

Family

ID=67238484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910301262.4A Pending CN110035301A (zh) 2019-04-15 2019-04-15 一种基于语音控制的播放进度调节方法

Country Status (1)

Country Link
CN (1) CN110035301A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112614516A (zh) * 2020-12-10 2021-04-06 广州酷狗计算机科技有限公司 进度条的调节方法、装置、终端及存储介质
CN113010074A (zh) * 2021-04-22 2021-06-22 海信电子科技(深圳)有限公司 一种网页视频Video控制栏显示方法及显示设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105225665A (zh) * 2015-10-15 2016-01-06 桂林电子科技大学 一种语音识别方法及语音识别装置
WO2016003510A1 (en) * 2014-06-30 2016-01-07 Apple Inc. Real-time digital assistant knowledge updates
CN106162358A (zh) * 2016-06-30 2016-11-23 乐视控股(北京)有限公司 一种vr播放视频进度的调节方法及设备
CN106569701A (zh) * 2016-10-31 2017-04-19 努比亚技术有限公司 显示终端控制装置及方法
CN106648394A (zh) * 2016-12-31 2017-05-10 珠海市魅族科技有限公司 一种语音操控的方法及系统
CN107506385A (zh) * 2017-07-25 2017-12-22 努比亚技术有限公司 一种视频文件检索方法、设备及计算机可读存储介质
CN109618204A (zh) * 2018-12-12 2019-04-12 百度在线网络技术(北京)有限公司 多媒体资源播放方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016003510A1 (en) * 2014-06-30 2016-01-07 Apple Inc. Real-time digital assistant knowledge updates
CN105225665A (zh) * 2015-10-15 2016-01-06 桂林电子科技大学 一种语音识别方法及语音识别装置
CN106162358A (zh) * 2016-06-30 2016-11-23 乐视控股(北京)有限公司 一种vr播放视频进度的调节方法及设备
CN106569701A (zh) * 2016-10-31 2017-04-19 努比亚技术有限公司 显示终端控制装置及方法
CN106648394A (zh) * 2016-12-31 2017-05-10 珠海市魅族科技有限公司 一种语音操控的方法及系统
CN107506385A (zh) * 2017-07-25 2017-12-22 努比亚技术有限公司 一种视频文件检索方法、设备及计算机可读存储介质
CN109618204A (zh) * 2018-12-12 2019-04-12 百度在线网络技术(北京)有限公司 多媒体资源播放方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112614516A (zh) * 2020-12-10 2021-04-06 广州酷狗计算机科技有限公司 进度条的调节方法、装置、终端及存储介质
CN112614516B (zh) * 2020-12-10 2023-12-08 广州酷狗计算机科技有限公司 进度条的调节方法、装置、终端及存储介质
CN113010074A (zh) * 2021-04-22 2021-06-22 海信电子科技(深圳)有限公司 一种网页视频Video控制栏显示方法及显示设备

Similar Documents

Publication Publication Date Title
CN103517119B (zh) 显示设备、控制显示设备的方法、服务器以及控制服务器的方法
US9886952B2 (en) Interactive system, display apparatus, and controlling method thereof
CN106356059A (zh) 语音控制方法、装置及投影仪设备
US9418662B2 (en) Method, apparatus and computer program product for providing compound models for speech recognition adaptation
KR101213835B1 (ko) 음성 인식에 있어서 동사 에러 복원
CN102930866A (zh) 一种用于口语练习的学生朗读作业的评判方法
CN105654949A (zh) 一种语音唤醒方法及装置
CN1920945B (zh) 语音的声调轮廓的转换
CN108766441A (zh) 一种基于离线声纹识别和语音识别的语音控制方法及装置
CN105702253A (zh) 一种语音唤醒方法及装置
JP2004213016A (ja) 音声認識方法及び装置
US20150098018A1 (en) Techniques for live-writing and editing closed captions
CN104616653B (zh) 唤醒词匹配方法、装置以及语音唤醒方法、装置
CN107580237A (zh) 电视的操作方法、装置、系统和存储介质
CN102543071A (zh) 用于移动设备的语音识别系统和方法
US20080109220A1 (en) Input method and device
CN104123938A (zh) 语音控制系统、电子装置及语音控制方法
CN110035301A (zh) 一种基于语音控制的播放进度调节方法
KR20160025301A (ko) 음성 인식이 가능한 디스플레이 장치 및 방법
CN105225665A (zh) 一种语音识别方法及语音识别装置
CN107609034A (zh) 一种智能音箱的音频播放方法、音频播放装置及存储介质
JP2006505002A5 (zh)
US20100131275A1 (en) Facilitating multimodal interaction with grammar-based speech applications
CN101359900A (zh) 一种音量调节方法、装置及其移动终端
CN105719672A (zh) 一种录音情景模式切换方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190719