CN109286832A - 实现语音操控的方法、装置及机顶盒和计算机可读存储介质 - Google Patents
实现语音操控的方法、装置及机顶盒和计算机可读存储介质 Download PDFInfo
- Publication number
- CN109286832A CN109286832A CN201710597704.5A CN201710597704A CN109286832A CN 109286832 A CN109286832 A CN 109286832A CN 201710597704 A CN201710597704 A CN 201710597704A CN 109286832 A CN109286832 A CN 109286832A
- Authority
- CN
- China
- Prior art keywords
- configuration information
- voice
- capture device
- speech control
- voice capture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000011946 reduction process Methods 0.000 claims abstract description 11
- 230000009467 reduction Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 11
- 230000006870 function Effects 0.000 description 5
- 241001503991 Consolida Species 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42203—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种实现语音操控的方法、装置及机顶盒和计算机可读存储介质,所述方法包括以下步骤:获取语音采集设备的配置信息;根据预设的配置信息与语音算法的对应关系,匹配出与语音采集设备的配置信息相对应的语音算法;利用匹配出的语音算法对语音采集设备发送的语音信息进行降噪处理;将处理后的语音信息解析为操控指令。从而无需在机顶盒中内置麦克风,普通的机顶盒就能实现远程语音操控,极大的扩大了应用范围,大大降低了实现成本,并且一个机顶盒能够支持多种语音采集设备,实现方式更加灵活,并能保证较佳的远程语音操控效果,极大的提升了用户体验。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种实现语音操控的方法、装置及机顶盒和计算机可读存储介质。
背景技术
随着数字电视的迅猛发展,机顶盒得到了快速推广和普及,通过与传媒的合作和对第三方软件的支持,机顶盒的应用越来越丰富,功能也越来越多。传统的机顶盒操控方式,是通过遥控器或按键来操作,这种操控方式费时费力,降低了用户体验。随着语音识别技术的发展,语音操控的逐渐兴起。
目前实现语音操控的方式主要有两种。一种是将麦克风内置于遥控器中,用户对着遥控器发出语音信息来操控机顶盒。然而遥控器只能近距离拾音,同时需要按键开关来接收,必须需要人手直接操控,这样就需要用户拿着遥控器才能使用,操作麻烦,给用户带来很大的不便。
另一种是将麦克风内置于机顶盒内,用户只需远远的对着机顶盒发出语音信息就能操控机顶盒,彻底解放了用户的双手,提高了操控的便利性。然而,这种方式需要在硬件上对机顶盒进行改造,无法在存量的普通机顶盒上实现,也就是说用户必须购买新的机顶盒,因此实现成本高,不利于推广和普及。并且,机顶盒的外形大小限制了麦克风的配置,从而限制了语音操控效果。
发明内容
有鉴于此,本发明的目的在于提供一种实现语音操控的方法、装置及机顶盒和计算机可读存储介质,以解决语音操控机顶盒的实现成本较高的技术问题。
本发明解决上述技术问题所采用的技术方案如下:
根据本发明实施例的一个方面,提供的一种实现语音操控的方法,所述方法包括以下步骤:
获取语音采集设备的配置信息;
根据预设的配置信息与语音算法的对应关系,匹配出与所述语音采集设备的配置信息相对应的语音算法;
利用匹配出的语音算法对所述语音采集设备发送的语音信息进行降噪处理;
将处理后的语音信息解析为操控指令。
可选地,所述获取所述语音采集设备的配置信息包括:
获取当前接入的语音采集设备的设备型号;
根据预设的设备型号与配置信息的对应关系,匹配出与所述语音采集设备的设备型号相对应的配置信息。
可选地,所述获取当前接入的语音采集设备的设备型号包括:
获取当前接入的语音采集设备的声卡卡号;
利用所述声卡卡号搜索出所述语音采集设备的设备型号。
可选地,当当前接入的语音采集设备至少有两个时,所述匹配出与所述语音采集设备的设备型号相对应的配置信息的步骤之后还包括:
根据配置信息的优先级信息,从匹配出的配置信息中选取优先级最高的配置信息。
可选地,所述配置信息包括麦克风数量、拓扑结构和尺寸信息。
根据本发明实施例的另一个方面,提供的一种实现语音操控的装置,所述装置包括:
获取模块,用于获取语音采集设备的配置信息;
匹配模块,用于根据预设的配置信息与语音算法的对应关系,匹配出与所述语音采集设备的配置信息相对应的语音算法;
处理模块,用于利用匹配出的语音算法对所述语音采集设备发送的语音信息进行降噪处理;
解析模块,用于将处理后的语音信息解析为操控指令。
可选地,所述获取模块包括:
获取单元,用于获取当前接入的语音采集设备的设备型号;
匹配单元,用于根据预设的设备型号与配置信息的对应关系,匹配出与所述语音采集设备的设备型号相对应的配置信息。
可选地,所述获取单元包括:
第一读取子单元,用于读取第一系统文件,获取当前接入的语音采集设备的声卡卡号;
第二读取子单元,用于读取第二系统文件,利用所述声卡卡号搜索出所述语音采集设备的设备型号。
根据本发明实施例的又一个方面,提供的一种机顶盒,所述机顶盒包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序,所述应用程序被配置为用于执行前述实现语音操控的方法。
根据本发明实施例的再一个方面,提供的一种计算机可读存储介质,所述计算机可读存储介质上存储有实现语音操控的程序,所述实现语音操控的程序被处理器执行时,实现前述实现语音操控的方法的步骤。
本发明实施例所提供的一种实现语音操控的方法,通过针对不同的语音采集设备匹配对应的语音算法,利用对应的语音算法对该语音采集设备发送的语音信息进行降噪处理,最终实现语音操控。从而无需在机顶盒中内置麦克风,普通的机顶盒就能实现远程语音操控,极大的扩大了应用范围,大大降低了实现成本,并且一个机顶盒能够支持多种语音采集设备,实现方式更加灵活,并能保证较佳的远程语音操控效果,极大的提升了用户体验。
附图说明
图1为本发明实施例的实现语音操控的方法的流程图;
图2为本发明实施例中设备型号与配置信息的对应关系的示意图;
图3为本发明实施例的实现语音操控的装置的模块示意图;
图4为图3中获取模块的模块示意图;
图5为图4中的获取单元的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的实现语音操控的方法和装置主要应用于机顶盒,当然,也可以应用于其它任何需要语音操控的电子设备,如智能电视、智能冰箱、智能空调、智能烹饪设备等。以下以应用于机顶盒为例进行详细说明。
参见图1,提出本发明实施例的实现语音操控的方法,所述方法包括以下步骤:
S11、获取语音采集设备的配置信息。
本发明实施例所述的语音采集设备,可以是任何具有语音采集功能的设备,如现有的手机、平板等移动终端,现有的带麦克风的摄像头,现有的麦克风,专门的麦克风阵列设备,等等。这些语音采集设备还能实现远场拾音,即远程获取用户发出的语音信息。语音采集设备与机顶盒是两个相互独立的设备,二者可以通过有线或无线方式连接。
机顶盒可以在检测到有语音采集设备接入时,立即获取该语音采集设备的配置信息,也可以在接收到语音采集设备发送的语音信息时才获取该语音采集设备的语音信息。
本步骤S11中,机顶盒首先获取当前接入的语音采集设备的设备型号,然后根据预设的设备型号与配置信息的对应关系,匹配出与语音采集设备的设备型号相对应的配置信息。
本发明实施例中,当语音采集设备接入机顶盒时,机顶盒会自动安装该语音采集设备的声卡信息,并将声卡信息存储于系统文件中。机顶盒首先读取第一系统文件,如读取路径为"/proc/asound/devices"的系统文件,获取当前接入的语音采集设备的声卡卡号;然后读取第二系统文件,如读取路径为"/proc/asound/cards"的系统文件,利用获取的声卡卡号搜索出语音采集设备的设备型号。
例如,机顶盒读取系统文件"/proc/asound/devices",找到当前系统所有安装好的声卡信息,如果有多个设备(包括非语音采集设备)同时接入机顶盒,则声卡信息按接入机顶盒的先后顺序分别包括0号声卡、1号声卡、……,对每个声卡下面的信息搜索关键字“capture”,如搜索到关键字“capture”,则说明这个声卡对应的接入设备包含麦克风,是语音采集设备,则记录这个声卡的卡号。最后读取系统文件"/proc/asound/cards",用之前记录的声卡卡号进行搜索,搜索到的声卡卡号后面的信息就是接入的语音采集设备的设备型号,随即获取该设备型号。
本发明实施例中,预先设置了设备型号与配置信息的对应关系,如图2所示,配置信息与语音算法的对应关系为一张以设备型号为索引的配置信息表。其中,设备型号包括type1-type9共9种类型,每一种设备型号对应一组配置信息,配置信息包括麦克风数量、拓扑结构和尺寸信息。麦克风数量可以为一个,也可以至少两个,如1个、2个、4个、6个、7个、8个等;拓扑结构为麦克风的排布方式,如环形结构(circular)、线型结构(linear)等,只有一个麦克风时,则为单一结构(single)等;尺寸信息是指相邻两个麦克风之间的距离,如2厘米、2.6厘米、3.5厘米、3.6厘米、3.8厘米、8厘米等,当只有一个麦克风时,则为0厘米。
当获取当前接入的语音采集设备的设备型号后,机顶盒则以该设备型号为索引在图2中的配置信息表中搜索出对应的配置信息。例如,当设备型号为type1,则匹配出的对应的配置信息为:麦克风数量为8个、拓扑结构为环形结构、尺寸信息为3.6厘米。
进一步地,还可以按语音采集设备的使用效果对其对应的配置信息进行优先级排序,将使用效果好的语音采集设备对应的配置信息设置高优先级,如图2所示,type1-type9对应的配置信息的优先级逐渐降低。当同时接入了至少两个语音采集设备时,则可能会获取至少两个设备型号,并根据至少两个设备型号匹配出至少两组配置信息,机顶盒则根据配置信息的优先级信息,从匹配出的至少两组配置信息中选取优先级最高的配置信息。
例如,机顶盒当前接入了type2和type5两种设备型号的语音采集设备,进而匹配出两组配置信息,由于type2对应的配置信息的优先级更高,因此选取type2对应的配置信息,并选择设备型号为type2的语音采集设备来采集语音信息。
本发明实施例中,设备型号与配置信息的对应关系,可以存储于机顶盒本地,也可以存储于云端的服务器。当存储于云端服务器时,机顶盒则将设备型号发送给服务器,由服务器匹配出对应的配置信息后返回给机顶盒,机顶盒接收服务器返回的配置信息。
S12、根据预设的配置信息与语音算法的对应关系,匹配出与语音采集设备的配置信息相对应的语音算法。
本发明实施例中,预先设置了配置信息与语音算法的对应关系,语音算法又可称为麦克风阵列算法,配置信息与语音算法可以是一一对应关系,也可以一对多或多对一的关系。
本步骤S12中,机顶盒利用语音采集设备的配置信息,在配置信息与语音算法的对应关系搜索出对应的语音算法。
本发明实施例中,配置信息与语音算法的对应关系,可以存储于机顶盒本地,也可以存储于云端的服务器。当存储于云端服务器时,机顶盒则将配置信息发送给服务器,由服务器匹配出对应的语音算法后返回给机顶盒,机顶盒接收服务器返回的语音算法。
S13、利用匹配出的语音算法对语音采集设备发送的语音信息进行降噪处理。
本发明实施例中,语音采集设备实时采集用户的语音信息,并发送给机顶盒。机顶盒接收语音采集设备发送的语音信息,并利用匹配出的语音算法对该语音信息进行降噪处理,以提升主声源方向的声音的信噪比,抑制干扰和噪声,去除回响,从而可以提高后续语音识别的识别效果。
利用语音算法对语音信息进行降噪处理的具体过程与现有技术相同,在此不赘述。
S14、将处理后的语音信息解析为操控指令。
本步骤S14中,机顶盒首先对处理后的语音信息进行语音识别处理,获得文字信息,然后解析该文字信息,获取对应的操控指令。
机顶盒在对语音信息进行语音识别处理时,可以在本地对语音信息进行语音识别,也可以将该语音信息发送给云端的服务器,由服务器对该语音信息进行语音识别后返回文字信息给机顶盒,机顶盒接收服务器返回的文字信息。
进一步地,当设备型号与配置信息的对应关系中,没有当前接入的语音采集设备的设备型号时,则配置信息匹配失败,此时,机顶盒可以向用户反馈提示信息,提醒用户更换语音采集设备。同时,还可以向服务器发送提醒信息,提醒开发人员及时更新某个设备型号的配置信息以及该配置信息对应的语音算法。当更新成功后,则提醒用户该设备型号的语音采集设备可以使用。
本发明实施例的实现语音操控的方法,在具体实施时,可以在机顶盒上安装特定的应用(APP),利用该应用实现上述方法步骤。并可以通过升级该应用的方式来更新配置信息和语音算法。
本发明实施例的实现语音操控的方法,通过针对不同的语音采集设备匹配对应的语音算法,利用对应的语音算法对该语音采集设备发送的语音信息进行降噪处理,最终实现语音操控。从而无需在机顶盒中内置麦克风,普通的机顶盒就能实现远程语音操控,极大的扩大了应用范围,大大降低了实现成本,并且一个机顶盒能够支持多种语音采集设备,实现方式更加灵活,并能保证较佳的远程语音操控效果,极大的提升了用户体验。
参见图3,提出本发明实施例的实现语音操控的装置,所述装置包括获取模块10、匹配模块20、处理模块30和解析模块40,其中:
获取模块10:用于获取语音采集设备的配置信息。
本发明实施例所述的语音采集设备,可以是任何具有语音采集功能的设备,如现有的手机、平板等移动终端,现有的带麦克风的摄像头,现有的麦克风,专门的麦克风阵列设备,等等。语音采集设备可以通过有线或无线方式与机顶盒连接。
获取模块10可以在检测到有语音采集设备接入时,立即获取该语音采集设备的配置信息,也可以在接收到语音采集设备发送的语音信息时才获取该语音采集设备的语音信息。
获取模块10如图4所示,包括获取单元11和匹配单元12,其中,获取单元11用于获取当前接入的语音采集设备的设备型号,匹配单元12用于根据预设的设备型号与配置信息的对应关系,匹配出与语音采集设备的设备型号相对应的配置信息。
本发明实施例中,当语音采集设备接入机顶盒时,机顶盒会自动安装该语音采集设备的声卡信息,并将声卡信息存储于系统文件中。
获取单元11如图5所示,包括第一读取子单元111和第二读取子单元112。第一读取子单元111,用于取第一系统文件,如读取路径为"/proc/asound/devices"的系统文件,获取当前接入的语音采集设备的声卡卡号;第二读取子单元112,用于读取第二系统文件,如读取路径为"/proc/asound/cards"的系统文件,利用获取的声卡卡号搜索出语音采集设备的设备型号。
例如,第一读取子单元111读取系统文件"/proc/asound/devices",找到当前系统所有安装好的声卡信息,如果有多个设备(包括非语音采集设备)同时接入机顶盒,则声卡信息按接入机顶盒的先后顺序分别包括0号声卡、1号声卡、……,对每个声卡下面的信息搜索关键字“capture”,如搜索到关键字“capture”,则说明这个声卡对应的接入设备包含麦克风,是语音采集设备,第一读取子单元111则记录这个声卡的卡号。接着,第二读取子单元112读取系统文件"/proc/asound/cards",用之前第一读取子单元111记录的声卡卡号进行搜索,搜索到的声卡卡号后面的信息就是接入的语音采集设备的设备型号,随即获取该设备型号。
本发明实施例中,预先设置了设备型号与配置信息的对应关系,如图2所示,配置信息与语音算法的对应关系为一张以设备型号为索引的配置信息表。其中,设备型号包括type1-type9共9种类型,每一种设备型号对应一组配置信息,配置信息包括麦克风数量、拓扑结构和尺寸信息。麦克风数量可以为一个,也可以至少两个,如1个、2个、4个、6个、7个、8个等;拓扑结构为麦克风的排布方式,如环形结构(circular)、线型结构(linear)等,只有一个麦克风时,则为单一结构(single)等;尺寸信息是指相邻两个麦克风之间的距离,如2厘米、2.6厘米、3.5厘米、3.6厘米、3.8厘米、8厘米等,当只有一个麦克风时,则为0厘米。
当获取当前接入的语音采集设备的设备型号后,匹配单元12则以该设备型号为索引在图2中的配置信息表中搜索出对应的配置信息。例如,当设备型号为type1,则匹配出的对应的配置信息为:麦克风数量为8个、拓扑结构为环形结构、尺寸信息为3.6厘米。
进一步地,还可以按语音采集设备的使用效果对其对应的配置信息进行优先级排序,将使用效果好的语音采集设备对应的配置信息设置高优先级,如图2所示,type1-type9对应的配置信息的优先级逐渐降低。当同时接入了至少两个语音采集设备时,获取单元11则可能会获取至少两个设备型号,匹配单元12根据至少两个设备型号则可能匹配出至少两组配置信息,并根据配置信息的优先级信息,从匹配出的至少两组配置信息中选取优先级最高的配置信息。
例如,机顶盒当前接入了type2和type5两种设备型号的语音采集设备,进而匹配单元12匹配出两组配置信息,由于type2对应的配置信息的优先级更高,因此匹配单元12选取type2对应的配置信息,并选择设备型号为type2的语音采集设备来采集语音信息。
本发明实施例中,设备型号与配置信息的对应关系,可以存储于机顶盒本地,也可以存储于云端的服务器。当存储于云端服务器时,获取模块10则将设备型号发送给服务器,由服务器匹配出对应的配置信息后返回给机顶盒,获取模块10接收服务器返回的配置信息。
匹配模块20:用于根据预设的配置信息与语音算法的对应关系,匹配出与语音采集设备的配置信息相对应的语音算法。
本发明实施例中,预先设置了配置信息与语音算法的对应关系,语音算法又可称为麦克风阵列算法,配置信息与语音算法可以是一一对应关系,也可以一对多或多对一的关系。
匹配模块20利用语音采集设备的配置信息,在配置信息与语音算法的对应关系搜索出对应的语音算法。
本发明实施例中,配置信息与语音算法的对应关系,可以存储于机顶盒本地,也可以存储于云端的服务器。当存储于云端服务器时,匹配模块20则将配置信息发送给服务器,由服务器匹配出对应的语音算法后返回给机顶盒,匹配模块20接收服务器返回的语音算法。
处理模块30:用于利用匹配出的语音算法对语音采集设备发送的语音信息进行降噪处理。
本发明实施例中,语音采集设备实时采集用户的语音信息,并发送给机顶盒。处理模块30接收语音采集设备发送的语音信息,并利用匹配出的语音算法对该语音信息进行降噪处理,以提升主声源方向的声音的信噪比,抑制干扰和噪声,去除回响,从而可以提高后续语音识别的识别效果。
利用语音算法对语音信息进行降噪处理的具体过程与现有技术相同,在此不赘述。
解析模块40:用于将处理后的语音信息解析为操控指令。
解析模块40首先对处理后的语音信息进行语音识别处理,获得文字信息,然后解析该文字信息,获取对应的操控指令。
解析模块40在对语音信息进行语音识别处理时,可以在本地对语音信息进行语音识别,也可以将该语音信息发送给云端的服务器,由服务器对该语音信息进行语音识别后返回文字信息给机顶盒,解析模块40接收服务器返回的文字信息。
进一步地,该装置还包括提示模块,当设备型号与配置信息的对应关系中,没有当前接入的语音采集设备的设备型号时,则配置信息匹配失败。此时,提示模块可以向用户反馈提示信息,提醒用户更换语音采集设备;同时,还可以向服务器发送提醒信息,提醒开发人员及时更新某个设备型号的配置信息以及该配置信息对应的语音算法;当更新成功后,则提醒用户该设备型号的语音采集设备可以使用。
本发明实施例的实现语音操控的装置,通过针对不同的语音采集设备匹配对应的语音算法,利用对应的语音算法对该语音采集设备发送的语音信息进行降噪处理,最终实现语音操控。从而无需在机顶盒中内置麦克风,普通的机顶盒就能实现远程语音操控,极大的扩大了应用范围,大大降低了实现成本,并且一个机顶盒能够支持多种语音采集设备,实现方式更加灵活,并能保证较佳的远程语音操控效果,极大的提升了用户体验。
前述实施例以应用于机顶盒为例进行了详细说明,实际上本发明实施例的实现语音操控的方法和装置还可以应用于其它任何需要语音操控的智能设备,如各种智能家居设备等。在具体实施时,只需在该智能设备中安装对应的应用软件,并配合现有的语音采集设备或者以较低的成本购买一个专业的语音采集设备,就能实现本发明实施例的语音操控功能,无需更换新的智能设备,因此大大降低了实现成本,有利于推广和普及。
本发明实施例同时提出一种机顶盒,所述机顶盒包括存储器、处理器和至少一个被存储在存储器中并被配置为由处理器执行的应用程序,所述应用程序被配置为用于执行实现语音操控的方法。所述实现语音操控的方法包括以下步骤:获取语音采集设备的配置信息;根据预设的配置信息与语音算法的对应关系,匹配出与语音采集设备的配置信息相对应的语音算法;利用匹配出的语音算法对语音采集设备发送的语音信息进行降噪处理;将处理后的语音信息解析为操控指令。本实施例中所描述的实现语音操控的方法为本发明中上述实施例所涉及的实现语音操控的方法,在此不再赘述。
本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有实现语音操控的程序,所述实现语音操控的程序被处理器执行时,实现该实现语音操控的方法的步骤。所述实现语音操控的方法包括以下步骤:获取语音采集设备的配置信息;根据预设的配置信息与语音算法的对应关系,匹配出与语音采集设备的配置信息相对应的语音算法;利用匹配出的语音算法对语音采集设备发送的语音信息进行降噪处理;将处理后的语音信息解析为操控指令。本实施例中所描述的实现语音操控的方法为本发明中上述实施例所涉及的实现语音操控的方法,在此不再赘述。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
应当理解的是,以上仅为本发明的优选实施例,不能因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种实现语音操控的方法,其特征在于,包括以下步骤:
获取语音采集设备的配置信息;
根据预设的配置信息与语音算法的对应关系,匹配出与所述语音采集设备的配置信息相对应的语音算法;
利用匹配出的语音算法对所述语音采集设备发送的语音信息进行降噪处理;
将处理后的语音信息解析为操控指令。
2.根据权利要求1所述的实现语音操控的方法,其特征在于,所述获取所述语音采集设备的配置信息包括:
获取当前接入的语音采集设备的设备型号;
根据预设的设备型号与配置信息的对应关系,匹配出与所述语音采集设备的设备型号相对应的配置信息。
3.根据权利要求2所述的实现语音操控的方法,其特征在于,所述获取当前接入的语音采集设备的设备型号包括:
获取当前接入的语音采集设备的声卡卡号;
利用所述声卡卡号搜索出所述语音采集设备的设备型号。
4.根据权利要求2所述的实现语音操控的方法,其特征在于,当当前接入的语音采集设备至少有两个时,所述匹配出与所述语音采集设备的设备型号相对应的配置信息的步骤之后还包括:
根据配置信息的优先级信息,从匹配出的配置信息中选取优先级最高的配置信息。
5.根据权利要求1-4任一项所述的实现语音操控的方法,其特征在于,所述配置信息包括麦克风数量、拓扑结构和尺寸信息。
6.一种实现语音操控的装置,其特征在于,包括:
获取模块,用于获取语音采集设备的配置信息;
匹配模块,用于根据预设的配置信息与语音算法的对应关系,匹配出与所述语音采集设备的配置信息相对应的语音算法;
处理模块,用于利用匹配出的语音算法对所述语音采集设备发送的语音信息进行降噪处理;
解析模块,用于将处理后的语音信息解析为操控指令。
7.根据权利要求6所述的实现语音操控的装置,其特征在于,所述获取模块包括:
获取单元,用于获取当前接入的语音采集设备的设备型号;
匹配单元,用于根据预设的设备型号与配置信息的对应关系,匹配出与所述语音采集设备的设备型号相对应的配置信息。
8.根据权利要求6所述的实现语音操控的装置,其特征在于,所述获取单元包括:
第一读取子单元,用于读取第一系统文件,获取当前接入的语音采集设备的声卡卡号;
第二读取子单元,用于读取第二系统文件,利用所述声卡卡号搜索出所述语音采集设备的设备型号。
9.一种机顶盒,包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序,其特征在于,所述应用程序被配置为用于执行权利要求1至5任一项所述的实现语音操控的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有实现语音操控的程序,所述实现语音操控的程序被处理器执行时,实现如权利要求1至5中任一项所述的实现语音操控的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710597704.5A CN109286832A (zh) | 2017-07-20 | 2017-07-20 | 实现语音操控的方法、装置及机顶盒和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710597704.5A CN109286832A (zh) | 2017-07-20 | 2017-07-20 | 实现语音操控的方法、装置及机顶盒和计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109286832A true CN109286832A (zh) | 2019-01-29 |
Family
ID=65185394
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710597704.5A Withdrawn CN109286832A (zh) | 2017-07-20 | 2017-07-20 | 实现语音操控的方法、装置及机顶盒和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109286832A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111768768A (zh) * | 2020-06-17 | 2020-10-13 | 北京百度网讯科技有限公司 | 语音处理方法、装置、外设操控设备及电子设备 |
WO2021033088A1 (en) * | 2019-08-20 | 2021-02-25 | International Business Machines Corporation | Distinguishing voice commands |
US11150869B2 (en) | 2018-02-14 | 2021-10-19 | International Business Machines Corporation | Voice command filtering |
US11200890B2 (en) | 2018-05-01 | 2021-12-14 | International Business Machines Corporation | Distinguishing voice commands |
US11238856B2 (en) | 2018-05-01 | 2022-02-01 | International Business Machines Corporation | Ignoring trigger words in streamed media content |
CN115474000A (zh) * | 2022-08-16 | 2022-12-13 | 支付宝(杭州)信息技术有限公司 | 数据处理方法及装置 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001343996A (ja) * | 2000-06-01 | 2001-12-14 | Mitsubishi Electric Corp | 音声入力制御システム |
CN101192411A (zh) * | 2007-12-27 | 2008-06-04 | 北京中星微电子有限公司 | 大距离麦克风阵列噪声消除的方法和噪声消除系统 |
CN101794120A (zh) * | 2010-02-09 | 2010-08-04 | 张文中 | 用于家庭电器模糊控制的语音控制系统 |
CN102693722A (zh) * | 2012-05-23 | 2012-09-26 | Tcl集团股份有限公司 | 一种语音识别的方法、装置及数字电视 |
CN202721771U (zh) * | 2012-04-24 | 2013-02-06 | 青岛海尔电子有限公司 | 具有音频识别功能的电视机系统 |
CN103959374A (zh) * | 2011-11-17 | 2014-07-30 | 环球电子有限公司 | 用于控制装置的声控配置的系统和方法 |
CN104575504A (zh) * | 2014-12-24 | 2015-04-29 | 上海师范大学 | 采用声纹和语音识别进行个性化电视语音唤醒的方法 |
CN105163177A (zh) * | 2015-09-02 | 2015-12-16 | 深圳Tcl数字技术有限公司 | 基于智能电视的音频数据播放方法、智能电视及系统 |
US20160019893A1 (en) * | 2014-07-16 | 2016-01-21 | Panasonic Intellectual Property Corporation Of America | Method for controlling speech-recognition text-generation system and method for controlling mobile terminal |
CN105609108A (zh) * | 2015-12-30 | 2016-05-25 | 生迪智慧科技有限公司 | 分布式语音控制方法、系统及无线语音中控器 |
CN105931643A (zh) * | 2016-06-30 | 2016-09-07 | 北京海尔广科数字技术有限公司 | 语音识别方法及装置 |
CN106328137A (zh) * | 2016-08-19 | 2017-01-11 | 镇江惠通电子有限公司 | 语音控制方法、装置及系统 |
CN106782540A (zh) * | 2017-01-17 | 2017-05-31 | 联想(北京)有限公司 | 语音设备及包括所述语音设备的语音交互系统 |
-
2017
- 2017-07-20 CN CN201710597704.5A patent/CN109286832A/zh not_active Withdrawn
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001343996A (ja) * | 2000-06-01 | 2001-12-14 | Mitsubishi Electric Corp | 音声入力制御システム |
CN101192411A (zh) * | 2007-12-27 | 2008-06-04 | 北京中星微电子有限公司 | 大距离麦克风阵列噪声消除的方法和噪声消除系统 |
CN101794120A (zh) * | 2010-02-09 | 2010-08-04 | 张文中 | 用于家庭电器模糊控制的语音控制系统 |
CN103959374A (zh) * | 2011-11-17 | 2014-07-30 | 环球电子有限公司 | 用于控制装置的声控配置的系统和方法 |
CN202721771U (zh) * | 2012-04-24 | 2013-02-06 | 青岛海尔电子有限公司 | 具有音频识别功能的电视机系统 |
CN102693722A (zh) * | 2012-05-23 | 2012-09-26 | Tcl集团股份有限公司 | 一种语音识别的方法、装置及数字电视 |
US20160019893A1 (en) * | 2014-07-16 | 2016-01-21 | Panasonic Intellectual Property Corporation Of America | Method for controlling speech-recognition text-generation system and method for controlling mobile terminal |
CN104575504A (zh) * | 2014-12-24 | 2015-04-29 | 上海师范大学 | 采用声纹和语音识别进行个性化电视语音唤醒的方法 |
CN105163177A (zh) * | 2015-09-02 | 2015-12-16 | 深圳Tcl数字技术有限公司 | 基于智能电视的音频数据播放方法、智能电视及系统 |
CN105609108A (zh) * | 2015-12-30 | 2016-05-25 | 生迪智慧科技有限公司 | 分布式语音控制方法、系统及无线语音中控器 |
CN105931643A (zh) * | 2016-06-30 | 2016-09-07 | 北京海尔广科数字技术有限公司 | 语音识别方法及装置 |
CN106328137A (zh) * | 2016-08-19 | 2017-01-11 | 镇江惠通电子有限公司 | 语音控制方法、装置及系统 |
CN106782540A (zh) * | 2017-01-17 | 2017-05-31 | 联想(北京)有限公司 | 语音设备及包括所述语音设备的语音交互系统 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11150869B2 (en) | 2018-02-14 | 2021-10-19 | International Business Machines Corporation | Voice command filtering |
US11200890B2 (en) | 2018-05-01 | 2021-12-14 | International Business Machines Corporation | Distinguishing voice commands |
US11238856B2 (en) | 2018-05-01 | 2022-02-01 | International Business Machines Corporation | Ignoring trigger words in streamed media content |
WO2021033088A1 (en) * | 2019-08-20 | 2021-02-25 | International Business Machines Corporation | Distinguishing voice commands |
US11355108B2 (en) | 2019-08-20 | 2022-06-07 | International Business Machines Corporation | Distinguishing voice commands |
GB2601971A (en) * | 2019-08-20 | 2022-06-15 | Ibm | Distinguishing voice commands |
CN111768768A (zh) * | 2020-06-17 | 2020-10-13 | 北京百度网讯科技有限公司 | 语音处理方法、装置、外设操控设备及电子设备 |
CN111768768B (zh) * | 2020-06-17 | 2023-08-29 | 北京百度网讯科技有限公司 | 语音处理方法、装置、外设操控设备及电子设备 |
CN115474000A (zh) * | 2022-08-16 | 2022-12-13 | 支付宝(杭州)信息技术有限公司 | 数据处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109286832A (zh) | 实现语音操控的方法、装置及机顶盒和计算机可读存储介质 | |
CN110235087B (zh) | 一种实现语音控制的方法和终端 | |
CN108550367A (zh) | 一种便携式智能语音交互控制设备、方法及系统 | |
CN109309751B (zh) | 语音记录方法、电子设备及存储介质 | |
CN102196207A (zh) | 语音控制电视机的方法、装置和系统 | |
CN103914971A (zh) | 家电设备控制系统及其红外学习方法 | |
US11244686B2 (en) | Method and apparatus for processing speech | |
CN109377992A (zh) | 基于无线通信的全空间语音交互物联网控制系统及方法 | |
CN106647311A (zh) | 智能中控系统、设备、服务器及智能设备控制方法 | |
CN111915870A (zh) | 语音添加遥控器码值的方法、装置、电视和存储介质 | |
CN102346643A (zh) | 可学习型遥控器实现方法及装置 | |
WO2014176894A1 (zh) | 一种语音处理的方法和终端 | |
CN105359464B (zh) | 用于操作通信功能的方法以及支持该方法的电子设备 | |
US11030994B2 (en) | Selective activation of smaller resource footprint automatic speech recognition engines by predicting a domain topic based on a time since a previous communication | |
CN109509472A (zh) | 基于语音平台识别背景音乐的方法、装置及系统 | |
CN110164436A (zh) | 便携式多点智能语音控制家居的系统及方法 | |
CN108040111A (zh) | 一种支持自然语言交互的装置和方法 | |
CN107318042A (zh) | 一种基于语音识别的频道选取方法及智能电视 | |
CN104484151A (zh) | 声控系统、设备及方法 | |
CN109243453A (zh) | 语音信息的处理方法及装置、存储介质、电子装置 | |
CN110531632A (zh) | 控制方法及系统 | |
CN110364155A (zh) | 语音控制报错方法、电器及计算机可读存储介质 | |
CN112579031A (zh) | 一种语音交互的方法、系统和电子设备 | |
CN113990324A (zh) | 一种语音智能家居控制系统 | |
CN106385498B (zh) | 信息归类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190129 |