CN107093424A - 语音控制方法及装置 - Google Patents
语音控制方法及装置 Download PDFInfo
- Publication number
- CN107093424A CN107093424A CN201610089414.5A CN201610089414A CN107093424A CN 107093424 A CN107093424 A CN 107093424A CN 201610089414 A CN201610089414 A CN 201610089414A CN 107093424 A CN107093424 A CN 107093424A
- Authority
- CN
- China
- Prior art keywords
- phonetic order
- uibc
- default
- audio controls
- receiving device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000005540 biological transmission Effects 0.000 claims abstract description 45
- 238000013507 mapping Methods 0.000 claims description 16
- 230000008859 change Effects 0.000 claims description 2
- 230000002093 peripheral effect Effects 0.000 abstract description 11
- 230000006870 function Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 241000208340 Araliaceae Species 0.000 description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 description 3
- 235000008434 ginseng Nutrition 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000007306 turnover Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种语音控制方法,所述语音控制方法包括以下步骤:接收端设备获取用于控制传送端设备的语音控制信号;接收端设备将获取的所述语音控制信号与预设语音指令进行匹配;若匹配成功,则接收端设备根据UIBC协议基于匹配成功的所述预设语音指令生成UIBC报文,并将所述UIBC报文传送至传送端设备,以供传送端设备根据接收到的所述UIBC报文控制自身的行为。本发明还公开了一种语音控制装置。本发明解决了当不方便直接操作接收端设备或外设时,而无法实现对传送端设备的控制的问题。
Description
技术领域
本发明涉及智能控制技术领域,尤其涉及一种语音控制方法及装置。
背景技术
随着技术的发展,利用Miracast技术,使用者不再需要寻找各种规格的线材与转换器,亦毋须确认用于连接设备的正确接头,就能将传送端设备(智能手机、平板电脑、笔记本电脑、台式机等)的画面内容分享给其他接收端设备(电视机、投影仪等)。在将传送端设备的画面内容分享给接收端设备时,通过Miracast协议的UIBC(User Input Back Channel,用户输入反向信道)功能,接收端设备可以实现对传送端设备分享的画面内容进行控制,其中,UIBC定义如何将接收端设备的控制信号回送到传送端设备,且UIBC定义的接收端设备信号的控制信号有两种,一种是通用鼠标、键盘信号,另一种是外设信号,外设信号由USB、Wifi、蓝牙等传入。当接收端设备对传送端设备分享的画面内容进行控制时,接收端设备首先需要生成这些控制信号,然后将它们传送给传送端设备,才能实现对传送端设备的控制。然而上述控制信号都需要直接操作接收端设备或外设来生成,当不方便直接操作接收端设备或外设时,接收端设备就无法生成控制信号,也就无法将控制信号传送到传送端设备并实现对传送端设备的控制。
发明内容
本发明的主要目的在于提供一种语音控制方法及装置,旨在解决当不方便直接操作接收端设备或外设时,而无法实现对传送端设备的控制的问题。
为实现上述目的,本发明提供的一种语音控制方法,所述语音控制方法包括以下步骤:
接收端设备获取用于控制传送端设备的语音控制信号;
接收端设备将获取的所述语音控制信号与预设语音指令进行匹配;
若匹配成功,则接收端设备根据UIBC协议基于匹配成功的所述预设语音指令生成UIBC报文,并将所述UIBC报文传送至传送端设备,以供传送端设备根据接收到的所述UIBC报文控制自身的行为。
可选地,所述预设语音指令的存储形式为语音波形,所述接收端设备将获取的所述语音控制信号与预设语音指令进行匹配的步骤包括:
接收端设备将获取的所述语音控制信号及所述预设语音指令进行相应变换,以得到所述语音控制信号及所述预设语音指令的声谱图或特征向量;
接收端设备将所述语音控制信号的声谱图或特征向量与所述预设语音指令的声谱图或特征向量进行匹配。
可选地,所述预设语音指令的存储形式为声谱图或特征向量,所述接收端设备将获取的所述语音控制信号与预设语音指令进行匹配的步骤包括:
接收端设备将获取的所述语音控制信号进行相应变换,以得到所述语音控制信号的声谱图或特征向量;
接收端设备将所述语音控制信号的声谱图或特征向量与所述预设语音指令进行匹配。
可选地,所述接收端设备根据UIBC协议基于匹配成功的所述预设语音指令生成UIBC报文的步骤包括:
接收端设备获取所述预设语音指令与所述UIBC报文中控制信号段的映射关系;
接收端设备根据所述映射关系确定匹配成功的所述预设语音指令对应的控制信号段;
接收端设备根据UIBC协议将所述预设语音指令对应的控制信号段生成UIBC报文。
可选地,所述接收端设备将获取的所述语音控制信号与预设语音指令进行匹配的步骤之后,所述语音控制方法还包括:
若匹配失败,则接收端设备提示用户重新发出语音控制信号。
此外,为实现上述目的,本发明还提供一种语音控制装置,所述语音控制装置包括:
获取模块,用于获取用于控制传送端设备的语音控制信号;
匹配模块,用于将获取的所述语音控制信号与预设语音指令进行匹配;
生成模块,用于若匹配成功,则根据UIBC协议基于匹配成功的所述预设语音指令生成UIBC报文,并将所述UIBC报文传送至传送端设备,以供传送端设备根据接收到的所述UIBC报文控制自身的行为。
可选地,所述预设语音指令的存储形式为语音波形,所述匹配模块包括:
处理单元,用于将获取的所述语音控制信号及所述预设语音指令进行相应变换,以得到所述语音控制信号及所述预设语音指令的声谱图或特征向量;
匹配单元,用于将所述语音控制信号的声谱图或特征向量与所述预设语音指令的声谱图或特征向量进行匹配。
可选地,所述预设语音指令的存储形式为声谱图或特征向量,所述处理单元,还用于将获取的所述语音控制信号进行相应变换,以得到所述语音控制信号的声谱图或特征向量;
所述匹配单元,还用于将所述语音控制信号的声谱图或特征向量与所述预设语音指令进行匹配。
可选地,所述生成模块包括:
获取单元,用于获取所述预设语音指令与所述UIBC报文中控制信号段的映射关系;
确定单元,用于根据所述映射关系确定匹配成功的所述预设语音指令对应的控制信号段;
生成单元,用于根据UIBC协议将所述预设语音指令对应的控制信号段生成UIBC报文。
可选地,所述语音控制装置还包括:
提示模块,用于若匹配失败,则提示重新发出语音控制信号。
本发明例通过在用户不方便操作接收端设备或与接收端设备连接的外设设备时,发出语音控制信号,接收端设备在接收到用户发出的语音控制信号后,将该语音控制信号与预设语音指令进行匹配,从而确定该语音控制信号对应的预设语音指令,接收端设备在确定语音控制信号对应的预设语音指令后,将所述预设语音指令生成UIBC报文,并将所述UIBC报文传送至传送端设备,从而实现对传送端设备的控制,解决了当不方便直接操作接收端设备或外设时,而无法实现对传送端设备的控制的问题,使得接收端设备对传送端设备的控制更加方便。
附图说明
图1为本发明语音控制方法的第一实施例的流程示意图;
图2为图1中将获取的语音控制信号与预设语音指令进行匹配的步骤细化流程示意图;
图3为图1中将获取的语音控制信号与预设语音指令进行匹配的另一实施例的步骤流程示意图;
图4为图1中根据UIBC协议将匹配成功的预设语音指令生成UIBC报文的步骤细化流程示意图;
图5为本发明语音控制装置的第一实施例的功能模块示意图;
图6为图5中匹配模块的细化功能模块示意图;
图7为图5中生成模块的细化功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
基于上述问题,本发明提供一种语音控制方法。
本发明的应用场景为用户能把通过Miracast认证的手机、平板电脑或笔记本等接收端设备的显示屏的内容以无线方式投射到支持Miracast技术的接收端设备上,用户在接收端设备上看到的内容与传送端设备上的内容将会是一模一样的。本发明中接收端设备及传送端设备都具有UIBC功能。所述UIBC功能指的是用户可以通过接收端设备实现对传送端设备的控制。该功能包括两种类型,一种是硬件无关型,如鼠标点击、按键点击、touch点击、放大缩小等,另一种是HIDC人机接口设备控制:包括红外线、USB、蓝牙、WIFI、游戏杆、遥控器等。
参照图1,图1为本发明语音控制方法的第一实施例的流程示意图。
在本实施例中,所述语音控制方法包括:
步骤S10,接收端设备获取用于控制传送端设备的语音控制信号;
本实施例中的接收端设备以支持Miracast技术且具有UIBC功能的无线投影系统为例进行说明,所述无线投影系统同现有的无线投影系统相比增设了语音输入模块。具体实施中也可以根据本发明核心思想将本发明应用到其他的支持Miracast技术且具有UIBC功能的接收端设备中。
无线投影系统在播放接收端设备的屏幕内容时,所述接收端设备以通过Miracast认证且具有UIBC功能的笔记本为例,比如,笔记本当前屏幕显示的内容为一个PPT文档,则所述无线投影系统的屏幕显示的内容也为该PPT文档,若用户需要观看下一页PPT文档,需要进行翻页操作,则用户可以对着所述无线投影系统发出翻页的语音控制信号。又如,笔记本当前屏幕显示的内容为一个电影,则所述无线投影系统的屏幕显示的内容也为该电影,此时,用户需要对当前播放的电影内容进行暂停,需要进行暂停操作,则用户可以对着所述无线投影系统发出暂停的语音控制信号。所述无线投影系统在获取用于控制笔记本的语音控制信号时,具体的,可以通过麦克风或者其他语音接收装置接收用户或其他语音播放设备发出的语音控制信号,然后将接收到的语音控制信号输入至所述无线投影系统的语音输入模块,或者直接通过所述语音输入模块接收用户或其他语音播放设备发出的语音控制信号,以供所述语音输入模块对所述语音控制信号进行相应的处理,例如,滤波处理,匹配处理等。
步骤S20,接收端设备将获取的所述语音控制信号与预设语音指令进行匹配;
在本实施例中,所述无线投影系统预先存有所述预设语音指令,所述预设语音指令包括诸如“上滑”、“翻页”、“暂停”等语音指令,在获取到用户发出的语音控制信号后,将获取的所述语音控制信号与所述预设语音指令一一进行匹配,直到所述语音控制信号与所述预设语音指令中的某个指令匹配成功为止,或者直到所述语音控制信号与所述预设语音指令中的所有指令进行匹配失败为止。具体的,所述语音控制信号在与所述预设语音指令进行匹配时,按照各个预设语音指令的存储顺序依次与所述语音控制信号进行匹配。例如,用户发出的语音控制信号为“翻页”信号,无线投影系统中存储的预设语音指令有“上滑”、“翻页”、“暂停”语音指令,且各个所述预设语音指令的存储顺序依次为“上滑”、“翻页”、“暂停”语音指令,则在将所述“翻页”信号与所述预设语音指令进行匹配时,首先将所述“翻页”信号与“上滑”语音指令进行匹配,若匹配失败,则继续将所述“翻页”信号与“翻页”语音指令进行匹配,若匹配成功,则确定所述语音控制信号为所述“翻页”语音指令,若匹配失败,则继续与所述预设语音指令的其他语音指令进行匹配,直到匹配成功为止或者直到所述预设语音指令都匹配失败为止。
步骤S30,若匹配成功,则接收端设备根据UIBC协议基于匹配成功的所述预设语音指令生成UIBC报文,并将所述UIBC报文传送至传送端设备,以供传送端设备根据接收到的所述UIBC报文控制自身的行为。
在将所述语音控制信号与预设的语音指令匹配成功时,根据UIBC协议将匹配成功的所述预设语音指令生成UIBC报文。所述UIBC协议又也称为Wifi-display协议,该协议定义了各种控制指令对应的UIBC报文的格式。由于所述UIBC协议只定义了通用输入的信息和人机接口设备类(HIDC)的信息对应的UIBC报文的格式,而所述通用输入的信息和人机接口设备类(HIDC)的信息都不包括语音信号输入的信息,故在将所述预设语音指令生成UIBC报文时,首先应将所述预设语音指令转换为通用输入的信息或者人机接口设备类的信息,然后根据所述通用输入的信息或人机接口设备类(HIDC)的信息对应的参数生成UIBC报文,并将所述UIBC报文传送至传送端设备,传送端设备在接收到所述UIBC报文后,根据所述UIBC报文中的内容控制自身的行为,例如所述报文中的内容为对所述传送端设备当前播放的视频进行暂停处理,则所述传送端设备在接收到该报文后立即对当前播放的视频进行暂停播放。在将所述语音控制信号与预设的语音指令匹配失败时,则提示重新发出语音控制信号,用户在收到该提示后,可知道发出的语音控制信号控制发送端的行为失败,然后可以重新发出语音控制信号,或重新使用语音播放设备发出语音控制信号,所述语音播放设备中预先录有所述语音控制信号。
本实施例通过在用户不方便操作接收端设备或与接收端设备连接的外设设备时,发出语音控制信号,接收端设备在接收到用户发出的语音控制信号后,将该语音控制信号与预设语音指令进行匹配,从而确定该语音控制信号对应的预设语音指令,接收端设备在确定语音控制信号对应的预设语音指令后,将所述预设语音指令生成UIBC报文,并将所述UIBC报文传送至传送端设备,从而实现对传送端设备的控制,解决了当不方便直接操作接收端设备或外设时,而无法实现对传送端设备的控制的问题,使得接收端设备对传送端设备的控制更加方便。
进一步地,基于第一实施例提出本发明语音控制方法的第二实施例,参照图2,在所述预设语音指令的存储形式为语音波形时,所述步骤S20包括:
步骤S21,接收端设备将获取的所述语音控制信号及所述预设语音指令进行相应变换,以得到所述语音控制信号及所述预设语音指令的声谱图或特征向量;
步骤S22,接收端设备将所述语音控制信号的声谱图或特征向量与所述预设语音指令的声谱图或特征向量进行匹配。
当所述预设语音指令的存储形式为语音波形时,由于不同的语音波形对应的语音指令可能相同,而不同的用户发出的相同的语音指令所对应的语音波形的差别可能很大,故直接通过将用户发出的语音控制信号所对应的语音波形与预设语音指令对应的语音波形进行匹配时,很难匹配成功,需要对所述预设语音指令及所述语音控制信号进行相应的处理。具体的,可以对获取的所述语音控制信号及所述预设语音指令进行相应变换,以得到所述语音控制信号及所述预设语音指令的声谱图或特征向量。当需要得到所述语音控制信号及所述预设语音指令的声谱图时,所述相应变换主要包括预加重处理、分帧处理、加窗处理、快速傅里叶变换处理及灰度级映射处理,经过上述处理过程后,得到所述语音控制信号及所述预设语音指令的声谱图。当需要得到所述语音控制信号及所述预设语音指令的特征向量时,所述特征向量以所述语音控制信号及所述预设语音指令的MFCC(Mel Frequency CepstrumCoefficient,梅尔频率倒谱系数)为例,所述相应变换主要包括预加重处理、分帧处理、加窗处理、快速傅里叶变换处理、三角带通滤波器进行滤波处理、计算每个滤波器组输出的对数能量、经离散余弦变换(DCT)得到MFCC系数、谱加权处理、CMS(Cepstrum Mean Subtraction,倒谱均值减)处理及动态差分参数的提取(包括一阶差分和二阶差分)。在获得所述语音控制信号及所述预设语音指令的声谱图或者特征向量后,将所述语音控制信号的声谱图或者特征向量依次与所述预设语音指令的声谱图或者特征向量进行匹配,直到匹配成功为止或者与所有的预设语音指令都匹配失败为止。
本实施例通过将语音控制信号及所述预设语音指令变换为相应的声谱图或者特征向量,然后将得到的声谱图或者特征向量进行匹配,从而提高了语音识别的准确性。
进一步地,基于第一实施例提出本发明语音控制方法的第三实施例,参照图3,在所述预设语音指令的存储形式为声谱图或特征向量时,所述步骤S20包括:
步骤S23,接收端设备将获取的所述语音控制信号进行相应变换,以得到所述语音控制信号的声谱图或特征向量;
步骤S24,接收端设备将所述语音控制信号的声谱图或特征向量与所述预设语音指令进行匹配。
当所述预设语音指令的存储形式为声谱图或特征向量时,由于语音信号的声谱图或者特征向量能够直接表征语音指令的特性,故在将获取的所述语音控制信号与预设语音指令进行匹配时,只需要将获取的所述语音控制信号进行相应的变换,从而得到所述语音控制信号的声谱图或特征向量,具体的变换过程在上述实施例中已描述,此处不再赘述。当获取到所述语音控制信号的声谱图或者特征向量时,将所述声谱图或者特征向量与各个所述语音指令依次进行匹配,直到匹配成功为止或者与所有的预设语音指令都匹配失败为止。
本实施例通过将语音控制信号及所述预设语音指令变换为相应的声谱图或者特征向量,然后将得到的声谱图或者特征向量进行匹配,从而提高了语音识别的准确性。
进一步地,基于上述任一实施例提出本发明语音控制方法的第四实施例,参照图4,所述根据UIBC协议将匹配成功的所述预设语音指令生成UIBC报文的步骤包括:
步骤S31,接收端设备获取所述预设语音指令与所述UIBC报文中控制信号段的映射关系;
步骤S32,接收端设备根据所述映射关系确定匹配成功的所述预设语音指令对应的控制信号段;
步骤S33,接收端设备根据UIBC协议将所述预设语音指令对应的控制信号段生成UIBC报文。
在本实施例中,所述预设语音指令与所述UIBC报文中控制信号段存在一个映射表,即不同的预设语音指令对应不同的控制信号段。所述控制信号段为控制传送端设备行为对应的数据段。所述映射关系可以为所述预设语音指令与通用输入的信息的映射关系,或者所述预设语音指令与人机接口设备类(HIDC)的信息的对应关系,即将所述语音控制指令转换为相应的通用输入控制信号或者人机接口设备类(HIDC)控制信号,然后根据UIBC协议将所述通用输入的信息或者人机接口设备类(HIDC)的信息生成UIBC报文,进一步地,可以在所述UIBC协议中定义所述预设控制指令的控制信号段内容,在将所述预设语音指令生成UIBC报文时,则在将预设的语音指令生成UIBC报文时即可直接根据所述UIBC协议生成对应的UIBC报文。
本实施例通过将所述预设语音指令转换为UIBC协议中定义的指令,从而使得所述预设语音指令能控制所述传送端设备的行为,增加了UIBC功能的反馈形式。
本发明进一步提供一种装置语音控制装置。
参照图5,图5为本发明语音控制装置的第一实施例的功能模块示意图。
在本实施例中,所述语音控制装置包括:获取模块10、匹配模块20、生成模块30及提示模块40。
所述获取模块10,用于获取用于控制传送端设备的语音控制信号;
本实施例中的接收端设备以支持Miracast技术且具有UIBC功能的无线投影系统为例进行说明,所述无线投影系统同现有的无线投影系统相比增设了语音输入模块。具体实施中也可以根据本发明核心思想将本发明应用到其他的支持Miracast技术且具有UIBC功能的接收端设备中。
无线投影系统在播放接收端设备的屏幕内容时,所述接收端设备以通过Miracast认证且具有UIBC功能的笔记本为例,比如,笔记本当前屏幕显示的内容为一个PPT文档,则所述无线投影系统的屏幕显示的内容也为该PPT文档,此时,用户需要观看下一页PPT文档,需要进行翻页操作,则用户可以对着所述无线投影系统发出翻页的语音控制信号。又如,笔记本当前屏幕显示的内容为一个电影,则所述无线投影系统的屏幕显示的内容也为该电影,此时,用户需要对当前播放的电影内容进行暂停,需要进行暂停操作,则用户可以对着所述无线投影系统发出暂停的语音控制信号。所述无线投影系统在获取用于控制笔记本语音控制信号时,具体的,可以通过麦克风或者其他语音接收装置接收用户或其他语音播放设备发出的语音控制信号,然后将接收到的语音控制信号输入至所述无线投影系统的语音输入模块,或者直接通过所述语音输入模块接收用户或其他语音播放设备发出的语音控制信号,以供所述语音输入模块对所述语音控制信号进行相应的处理,例如,滤波处理,匹配处理等。
所述匹配模块20,用于将获取的所述语音控制信号与预设语音指令进行匹配;
在本实施例中,所述无线投影系统预先存有所述预设语音指令,所述预设语音指令包括诸如“上滑”、“翻页”、“暂停”等语音指令,在获取到用户发出的语音控制信号后,将获取的所述语音控制信号与所述预设语音指令一一进行匹配,直到所述语音控制信号与所述预设语音指令中的某个指令匹配成功为止,或者直到所述语音控制信号与所述预设语音指令中的所有指令进行匹配失败为止。具体的,所述语音控制信号在与所述预设语音指令进行匹配时,按照各个预设语音指令的存储顺序依次与所述语音控制信号进行匹配。例如,用户发出的语音控制信号为“翻页”信号,无线投影系统中存储的预设语音指令有“上滑”、“翻页”、“暂停”语音指令,且各个所述预设语音指令的存储顺序依次为“上滑”、“翻页”、“暂停”语音指令,则在将所述“翻页”信号与所述预设语音指令进行匹配时,首先将所述“翻页”信号与“上滑”语音指令进行匹配,若匹配失败,则继续将所述“翻页”信号与“翻页”语音指令进行匹配,若匹配成功,则确定所述语音控制信号为所述“翻页”语音指令,若匹配失败,则继续与所述预设语音指令的其他语音指令进行匹配,直到匹配成功为止或者直到所述预设语音指令都匹配失败为止。
所述生成模块30,用于若匹配成功,则根据UIBC协议基于匹配成功的所述预设语音指令生成UIBC报文,并将所述UIBC报文传送至传送端设备,以供传送端设备根据接收到的所述UIBC报文控制自身的行为。
在将所述语音控制信号与预设的语音指令匹配成功时,根据UIBC协议将匹配成功的所述预设语音指令生成UIBC报文。所述UIBC协议协议又也称为Wifi-display协议,该协议定义了各个控制指令对应的UIBC报文的格式。由于所述UIBC协议只定义了通用输入的信息和人机接口设备类(HIDC)的信息对应的UIBC报文的格式,而所述通用输入的信息和人机接口设备类(HIDC)的信息都不包括语音信号输入的信息,故在将所述预设语音指令生成UIBC报文时,首先应将所述预设语音指令转换为通用输入的信息或者人机接口设备类的信息,然后根据所述通用输入的信息或人机接口设备类(HIDC)的信息对应的参数生成UIBC报文,并将所述UIBC报文传送至传送端设备,传送端设备在接收到所述UIBC报文后,根据所述UIBC报文中的内容控制自身的行为,例如所述报文中的内容为对所述传送端设备当前播放的视频进行暂停处理,则所述传送端设备在接收到该报文后立即对当前播放的视频进行暂停播放。
所述提示模块,用于若匹配失败,则提示用户重新发出语音控制信号。
在将所述语音控制信号与预设的语音指令匹配失败时,则提示用户重新发出语音控制信号,用户在收到该提示后,即可知道发出的语音控制信号控制发送端的行为失败,然后可以重新发出语音控制信号,或重新使用语音播放设备发出语音控制信号,所述语音播放设备中预先录有所述语音控制信号。
本实施例通过在用户不方便操作接收端设备或与接收端设备连接的外设设备时,发出语音控制信号,接收端设备在接收到用户发出的语音控制信号后,将该语音控制信号与预设语音指令进行匹配,从而确定该语音控制信号对应的预设语音指令,接收端设备在确定语音控制信号对应的预设语音指令后,将所述预设语音指令生成UIBC报文,并将所述UIBC报文传送至传送端设备,从而实现对传送端设备的控制,解决了当不方便直接操作接收端设备或外设时,而无法实现对传送端设备的控制的问题,使得接收端设备对传送端设备的控制更加方便。
进一步地,基于第一实施例提出本发明语音控制装置的第二实施例,参照图6,所述匹配模块20包括处理单元21及匹配单元22。
所述处理单元21,用于将获取的所述语音控制信号及所述预设语音指令进行相应变换,以得到所述语音控制信号及所述预设语音指令的声谱图或特征向量;
所述匹配单元22,用于将所述语音控制信号的声谱图或特征向量与所述预设语音指令的声谱图或特征向量进行匹配。
当所述预设语音指令的存储形式为语音波形时,由于不同的语音波形对应的语音指令可能相同,而不同的用户发出的相同的语音指令所对应的语音波形的差别可能很大,故直接通过将用户发出的语音控制信号所对应的语音波形与预设语音指令对应的语音波形进行匹配时,很难匹配成功,需要对所述预设语音指令及所述语音控制信号进行相应的处理。具体的,可以对获取的所述语音控制信号及所述预设语音指令进行相应变换,以得到所述语音控制信号及所述预设语音指令的声谱图或特征向量。当需要得到所述语音控制信号及所述预设语音指令的声谱图时,所述相应变换主要包括预加重处理、分帧处理、加窗处理、快速傅里叶变换处理及灰度级映射处理,经过上述处理过程后,得到所述语音控制信号及所述预设语音指令的声谱图。当需要得到所述语音控制信号及所述预设语音指令的特征向量时,所述特征向量以所述语音控制信号及所述预设语音指令的MFCC(Mel Frequency CepstrumCoefficient,梅尔频率倒谱系数)为例,所述相应变换主要包括预加重处理、分帧处理、加窗处理、快速傅里叶变换处理、三角带通滤波器进行滤波处理、计算每个滤波器组输出的对数能量、经离散余弦变换(DCT)得到MFCC系数、谱加权处理、CMS(Cepstrum Mean Subtraction,倒谱均值减)处理及动态差分参数的提取(包括一阶差分和二阶差分)。在获得所述语音控制信号及所述预设语音指令的声谱图或者特征向量后,将所述语音控制信号的声谱图或者特征向量依次与所述预设语音指令的声谱图或者特征向量进行匹配,直到匹配成功为止或者与所有的预设语音指令都匹配失败为止。
进一步地,所述处理单元21,还用于将获取的所述语音控制信号进行相应变换,以得到所述语音控制信号的声谱图或特征向量;
所述匹配单元22,还用于将所述语音控制信号的声谱图或特征向量与所述预设语音指令进行匹配。
当所述预设语音指令的存储形式为声谱图或特征向量时,由于语音信号的声谱图或者特征向量能够直接表征语音指令的特性,故在将获取的所述语音控制信号与预设语音指令进行匹配时,只需要将获取的所述语音控制信号进行相应的变换,从而得到所述语音控制信号的声谱图或特征向量,具体的变换过程在上述实施例中已描述,此处不再赘述。当获取到所述语音控制信号的声谱图或者特征向量时,将所述声谱图或者特征向量与各个所述语音指令依次进行匹配,直到匹配成功为止或者与所有的预设语音指令都匹配失败为止。
本实施例通过将语音控制信号及所述预设语音指令变换为相应的声谱图或者特征向量,然后将得到的声谱图或者特征向量进行匹配,从而提高了语音识别的准确性。
进一步地,基于上述任一实施例提出本发明语音控制装置的第三实施例,参照图7,所述生成模块30包括:获取单元31、确定单元32及生成单元33。
所述获取单元31,用于获取所述预设语音指令与所述UIBC报文中控制信号段的映射关系;
所述确定单元32,用于根据所述映射关系确定匹配成功的所述预设语音指令对应的控制信号段;
所述生成单元33,用于根据UIBC协议将所述预设语音指令对应的控制信号段生成UIBC报文。
在本实施例中,所述预设语音指令与所述UIBC报文中控制信号段存在一个映射表,即不同的预设语音指令对应不同的控制信号段。所述控制信号段为控制传送端设备行为对应的数据段。所述映射关系可以为所述预设语音指令与通用输入的信息的映射关系,或者所述预设语音指令与人机接口设备类(HIDC)的信息的对应关系,即将所述语音控制指令转换为相应的通用输入控制信号或者人机接口设备类(HIDC)控制信号,然后根据UIBC协议将所述通用输入的信息或者人机接口设备类(HIDC)的信息生成UIBC报文,进一步地,可以在所述UIBC协议中定义所述预设控制指令的控制信号段内容,在将所述预设语音指令生成UIBC报文时,则在将预设的语音指令生成UIBC报文时即可直接根据所述UIBC协议生成对应的UIBC报文。
本实施例通过将所述预设语音指令转换为UIBC协议中定义的指令,从而使得所述预设语音指令能控制所述传送端设备的行为,增加了UIBC功能的反馈形式。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种语音控制方法,其特征在于,所述语音控制方法包括以下步骤:
接收端设备获取用于控制传送端设备的语音控制信号;
接收端设备将获取的所述语音控制信号与预设语音指令进行匹配;
若匹配成功,则接收端设备根据UIBC协议基于匹配成功的所述预设语音指令生成UIBC报文,并将所述UIBC报文传送至传送端设备,以供传送端设备根据接收到的所述UIBC报文控制自身的行为。
2.如权利要求1所述的语音控制方法,其特征在于,所述预设语音指令的存储形式为语音波形,所述接收端设备将获取的所述语音控制信号与预设语音指令进行匹配的步骤包括:
接收端设备将获取的所述语音控制信号及所述预设语音指令进行相应变换,以得到所述语音控制信号及所述预设语音指令的声谱图或特征向量;
接收端设备将所述语音控制信号的声谱图或特征向量与所述预设语音指令的声谱图或特征向量进行匹配。
3.如权利要求1所述的语音控制方法,其特征在于,所述预设语音指令的存储形式为声谱图或特征向量,所述接收端设备将获取的所述语音控制信号与预设语音指令进行匹配的步骤包括:
接收端设备将获取的所述语音控制信号进行相应变换,以得到所述语音控制信号的声谱图或特征向量;
接收端设备将所述语音控制信号的声谱图或特征向量与所述预设语音指令进行匹配。
4.如权利要求1所述的语音控制方法,其特征在于,所述接收端设备根据UIBC协议基于匹配成功的所述预设语音指令生成UIBC报文的步骤包括:
接收端设备获取所述预设语音指令与所述UIBC报文中控制信号段的映射关系;
接收端设备根据所述映射关系确定匹配成功的所述预设语音指令对应的控制信号段;
接收端设备根据UIBC协议将所述预设语音指令对应的控制信号段生成UIBC报文。
5.如权利要求1至4任一项所述的语音控制方法,其特征在于,所述接收端设备将获取的所述语音控制信号与预设语音指令进行匹配的步骤之后,所述语音控制方法还包括:
若匹配失败,则接收端设备提示用户重新发出语音控制信号。
6.一种语音控制装置,其特征在于,所述语音控制装置包括:
获取模块,用于获取用于控制传送端设备的语音控制信号;
匹配模块,用于将获取的所述语音控制信号与预设语音指令进行匹配;
生成模块,用于若匹配成功,则根据UIBC协议基于匹配成功的所述预设语音指令生成UIBC报文,并将所述UIBC报文传送至传送端设备,以供传送端设备根据接收到的所述UIBC报文控制自身的行为。
7.如权利要求6所述的语音控制装置,其特征在于,所述预设语音指令的存储形式为语音波形,所述匹配模块包括:
处理单元,用于将获取的所述语音控制信号及所述预设语音指令进行相应变换,以得到所述语音控制信号及所述预设语音指令的声谱图或特征向量;
匹配单元,用于将所述语音控制信号的声谱图或特征向量与所述预设语音指令的声谱图或特征向量进行匹配。
8.如权利要求7所述的语音控制装置,其特征在于,所述预设语音指令的存储形式为声谱图或特征向量,所述处理单元,还用于将获取的所述语音控制信号进行相应变换,以得到所述语音控制信号的声谱图或特征向量;
所述匹配单元,还用于将所述语音控制信号的声谱图或特征向量与所述预设语音指令进行匹配。
9.如权利要求6所述的语音控制装置,其特征在于,所述生成模块包括:
获取单元,用于获取所述预设语音指令与所述UIBC报文中控制信号段的映射关系;
确定单元,用于根据所述映射关系确定匹配成功的所述预设语音指令对应的控制信号段;
生成单元,用于根据UIBC协议将所述预设语音指令对应的控制信号段生成UIBC报文。
10.如权利要求6至9任一项所述的语音控制装置,其特征在于,所述语音控制装置还包括:
提示模块,用于若匹配失败,则提示重新发出语音控制信号。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610089414.5A CN107093424A (zh) | 2016-02-17 | 2016-02-17 | 语音控制方法及装置 |
PCT/CN2016/107321 WO2017140153A1 (zh) | 2016-02-17 | 2016-11-25 | 语音控制方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610089414.5A CN107093424A (zh) | 2016-02-17 | 2016-02-17 | 语音控制方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107093424A true CN107093424A (zh) | 2017-08-25 |
Family
ID=59624726
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610089414.5A Withdrawn CN107093424A (zh) | 2016-02-17 | 2016-02-17 | 语音控制方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107093424A (zh) |
WO (1) | WO2017140153A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107871507A (zh) * | 2017-12-26 | 2018-04-03 | 安徽声讯信息技术有限公司 | 一种语音控制ppt翻页方法及系统 |
CN112721933A (zh) * | 2020-07-28 | 2021-04-30 | 盐城工业职业技术学院 | 一种基于语音识别的农用拖拉机的控制终端 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111949188A (zh) * | 2020-08-12 | 2020-11-17 | 上海众链科技有限公司 | 用于智能终端的操作控制映射系统、方法及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104115500A (zh) * | 2012-01-06 | 2014-10-22 | 高通股份有限公司 | 经由用户输入返回信道的双向隧穿用于无线显示 |
CN104202461A (zh) * | 2014-08-11 | 2014-12-10 | 苏州易动智能科技有限公司 | 一种连接智能手机功能同步化的汽车音响系统 |
CN204362241U (zh) * | 2015-01-31 | 2015-05-27 | 深圳市芯晶彩科技有限公司 | 屏幕共享装置及系统 |
CN105161106A (zh) * | 2015-08-20 | 2015-12-16 | 深圳Tcl数字技术有限公司 | 智能终端的语音控制方法、装置及电视机系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101719369A (zh) * | 2009-12-02 | 2010-06-02 | 中兴通讯股份有限公司 | 投影仪的控制方法、装置以及终端 |
CN102339193A (zh) * | 2010-07-21 | 2012-02-01 | Tcl集团股份有限公司 | 一种声控会议演讲的方法及系统 |
CN103209246A (zh) * | 2012-01-16 | 2013-07-17 | 三星电子(中国)研发中心 | 一种通过蓝牙耳机控制手持设备的方法及手持设备 |
US9632648B2 (en) * | 2012-07-06 | 2017-04-25 | Lg Electronics Inc. | Mobile terminal, image display device and user interface provision method using the same |
CN104284246B (zh) * | 2013-07-08 | 2018-11-06 | 华为终端(东莞)有限公司 | 一种传输数据的方法及终端 |
KR102060661B1 (ko) * | 2013-07-19 | 2020-02-11 | 삼성전자주식회사 | 통신 방법 및 이를 위한 디바이스 |
CN104135540A (zh) * | 2014-08-15 | 2014-11-05 | 南京奇幻通信科技有限公司 | 基于智能终端的远程语音控制技术的方法、智能终端和pc |
CN104882141A (zh) * | 2015-03-03 | 2015-09-02 | 盐城工学院 | 一种基于时延神经网络和隐马尔可夫模型的串口语音控制投影系统 |
-
2016
- 2016-02-17 CN CN201610089414.5A patent/CN107093424A/zh not_active Withdrawn
- 2016-11-25 WO PCT/CN2016/107321 patent/WO2017140153A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104115500A (zh) * | 2012-01-06 | 2014-10-22 | 高通股份有限公司 | 经由用户输入返回信道的双向隧穿用于无线显示 |
CN104202461A (zh) * | 2014-08-11 | 2014-12-10 | 苏州易动智能科技有限公司 | 一种连接智能手机功能同步化的汽车音响系统 |
CN204362241U (zh) * | 2015-01-31 | 2015-05-27 | 深圳市芯晶彩科技有限公司 | 屏幕共享装置及系统 |
CN105161106A (zh) * | 2015-08-20 | 2015-12-16 | 深圳Tcl数字技术有限公司 | 智能终端的语音控制方法、装置及电视机系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107871507A (zh) * | 2017-12-26 | 2018-04-03 | 安徽声讯信息技术有限公司 | 一种语音控制ppt翻页方法及系统 |
CN112721933A (zh) * | 2020-07-28 | 2021-04-30 | 盐城工业职业技术学院 | 一种基于语音识别的农用拖拉机的控制终端 |
CN112721933B (zh) * | 2020-07-28 | 2022-01-04 | 盐城工业职业技术学院 | 一种基于语音识别的农用拖拉机的控制终端 |
Also Published As
Publication number | Publication date |
---|---|
WO2017140153A1 (zh) | 2017-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11527243B1 (en) | Signal processing based on audio context | |
EP3190512B1 (en) | Display device and operating method therefor | |
US10055190B2 (en) | Attribute-based audio channel arbitration | |
US9576591B2 (en) | Electronic apparatus and control method of the same | |
US9923535B2 (en) | Noise control method and device | |
US11074914B2 (en) | Automated query detection in interactive content | |
KR20180020368A (ko) | 통역 장치 및 방법 | |
CN106982286B (zh) | 一种录音方法、设备和计算机可读存储介质 | |
CN110047497B (zh) | 背景音频信号滤除方法、装置及存储介质 | |
CN107093424A (zh) | 语音控制方法及装置 | |
US20230005487A1 (en) | Autocorrection of pronunciations of keywords in audio/videoconferences | |
US11664024B2 (en) | Artificial intelligence device | |
WO2018133656A1 (zh) | 将语音输入转换成文本输入的方法、装置和语音输入设备 | |
US11140484B2 (en) | Terminal, audio cooperative reproduction system, and content display apparatus | |
CN105991825A (zh) | 一种语音控制方法、装置及系统 | |
KR20190034494A (ko) | 번역 장치 및 번역 시스템 | |
CN113766385B (zh) | 耳机降噪方法及装置 | |
US20190069062A1 (en) | Microphone cooperation device | |
CN111145741B (zh) | 多媒体内容的提供方法、装置、电子设备以及存储介质 | |
CN108942926B (zh) | 一种人机交互的方法、装置和系统 | |
JP2015011651A (ja) | 情報処理装置、情報処理方法およびプログラム | |
CN104166654A (zh) | 音频资讯相关信息查询系统及方法 | |
WO2021144964A1 (ja) | ヒアリングデバイス、ヒアリングデバイスの調整方法 | |
CN116193179A (zh) | 会议记录方法、终端设备和会议记录系统 | |
US20080107277A1 (en) | Classroom sound amplification system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20170825 |