CN103474068A - 实现语音命令控制的方法、设备及系统 - Google Patents
实现语音命令控制的方法、设备及系统 Download PDFInfo
- Publication number
- CN103474068A CN103474068A CN2013103628380A CN201310362838A CN103474068A CN 103474068 A CN103474068 A CN 103474068A CN 2013103628380 A CN2013103628380 A CN 2013103628380A CN 201310362838 A CN201310362838 A CN 201310362838A CN 103474068 A CN103474068 A CN 103474068A
- Authority
- CN
- China
- Prior art keywords
- command
- voice signal
- server
- user voice
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
本发明涉及语音信号处理技术领域,公开了一种实现语音命令控制的方法、设备及系统。该方法包括:客户端接收用户语音信号;将所述用户语音信号发送给服务器,以使所述服务器对所述用户语音信号进行解码得到对应所述用户语音信号的文本内容,并根据所述文本内容确定命令指令;接收所述服务器返回的命令指令;根据所述命令指令执行操作。利用本发明,可以提高客户端应用程序对语音命令的响应效率。
Description
技术领域
本发明涉及语音信号处理技术领域,具体涉及一种实现语音命令控制的方法、设备及系统。
背景技术
实现人机之间人性化、智能化的有效交互,构建高效自然的人机交流环境,已经成为当前信息技术应用和发展的迫切需求。作为一种自然人性而又高效的交互方式,语音命令控制改变了传统基于图形界面交互的应用,特别是近年来随着移动终端设备的飞速发展,语音控制在小屏幕设备上得以发挥更为重要的作用。语音命令控制进一步解放了用户的使用限制,使得用户在不方便手动操作比如开车时,依然可以实现对应用程序的有效控制。
云计算时代的语音服务器,由于具有超大规模的存储空间及超强的运算能力,支持了用户任意说的语音识别,进一步提高了语音交互的便利性。然而目前语音服务器主要用于实现对用户语音信号的转换,即将语音信号转换成文字字串,然后将转换后的文本内容传输给客户端应用程序,再由客户端应用程序实现从文本到指令的转换。显然这样的运行方式对客户端应用程序使用语音命令控制的开发要求较高,需要独立开发命令解析功能,不利于资源共享。特别是当前由于语音识别技术识别水平尚不足以向用户提供100%正确的连续语音信号转换功能,传回的文本内容可能存在各种错误,更增加了应用程序对文本指令解析的难度,影响了语音命令控制效率。
发明内容
本发明实施例提供一种实现语音命令控制的方法、设备及系统,以提高客户端应用程序对语音命令的响应效率。
为此,本发明提供如下技术方案:
一种实现语音命令控制的方法,包括:
客户端接收用户语音信号;
将所述用户语音信号发送给服务器,以使所述服务器对所述用户语音信号进行解码得到对应所述用户语音信号的文本内容,并根据所述文本内容确定命令指令;
接收所述服务器返回的命令指令;
根据所述命令指令执行操作。
优选地,所述方法还包括:
所述客户端在接收用户语音信号后,生成语音命令解析请求,并将所述语音命令解析请求发送给服务器,以使所述服务器根据所述语音命令解析请求和所述文本内容确定命令指令;所述语音命令解析请求包括:对应当前活动页面的命令列表或命令网络,所述命令列表或命令网络用于描述当前活动页面的所有命令内容以及所述命令内容对应的命令指令。
优选地,所述方法还包括:
在将所述用户语音信号发送给服务器之前,对所述用户语音信号进行降噪处理;
所述将所述用户语音信号发送给服务器包括:将降噪处理后的用户语音信号发送给服务器。
优选地,所述方法还包括:
在将所述用户语音信号发送给服务器之前,提取所述用户语音信号中的声学特征;
所述将所述用户语音信号发送给服务器包括:将提取的所述用户语音信号中的声学特征发送给服务器。
一种实现语音命令控制的方法,包括:
服务器接收客户端发送的用户语音信号;
对所述用户语音信号进行解码,得到所述语音信号对应的文本内容;
确定所述文本内容对应的命令指令;
将所述命令指令发送给所述客户端,以使所述客户端根据所述命令指令执行操作。
优选地,所述方法还包括:
所述服务器接收所述客户端发送的语音命令解析请求,所述语音命令解析请求包括:对应当前活动页面的命令列表或命令网络,所述命令列表或命令网络用于描述当前活动页面的所有命令内容以及所述命令内容对应的命令指令;
根据所述语音命令解析请求构建解码网络;
所述对所述用户语音信号进行解码,得到所述语音信号对应的文本内容包括:
利用所述解码网络对所述用户语音信号进行解码,得到所述语音信号对应的文本内容;
所述确定所述文本内容对应的命令指令包括:
根据所述文本内容查询所述命令列表或命令网络,得到所述文本内容对应的命令指令。
优选地,所述根据所述语音命令解析请求构建解码网络包括:
根据所述命令列表或命令网络生成语义网络;
利用预置的声学模型对所述语义网络进行扩展,得到解码网络。
一种客户端设备,包括:
语音接收模块,用于接收用户语音信号;
信号发送模块,用于将所述语音接收模块接收的用户语音信号发送给服务器,以使所述服务器对所述用户语音信号进行解码得到对应所述用户语音信号的文本内容,并根据所述文本内容确定命令指令;
信号接收模块,用于接收所述服务器返回的命令指令;
执行模块,用于根据所述命令指令执行操作。
优选地,所述客户端设备还包括:
解析请求生成模块,用于在所述语音接收模块接收用户语音信号后,生成语音命令解析请求;
所述信号发送模块,还用于将所述语音命令解析请求发送给服务器,以使所述服务器根据所述语音命令解析请求和所述文本内容确定命令指令;所述语音命令解析请求包括:对应当前活动页面的命令列表或命令网络,所述命令列表或命令网络用于描述当前活动页面的所有命令内容以及所述命令内容对应的命令指令。
优选地,所述客户端设备还包括:
降噪处理模块,用于对所述语音接收模块接收的用户语音信号进行降噪处理;
所述信号发送模块具体用于将降噪处理后的用户语音信号发送给服务器。
优选地,所述客户端设备还包括:
声学特征提取模块,用于提取所述语音接收模块接收的用户语音信号中的声学特征;
所述信号发送模块具体用于将提取的所述用户语音信号中的声学特征发送给服务器。
一种服务器,包括:
接收模块,用于接收客户端发送的用户语音信号;
解码模块,用于对所述用户语音信号进行解码,得到所述语音信号对应的文本内容;
文本转换模块,用于确定所述文本内容对应的命令指令;
发送模块,用于将所述命令指令发送给所述客户端,以使所述客户端根据所述命令指令执行操作。
优选地,所述接收模块,还用于接收所述客户端发送的语音命令解析请求,所述语音命令解析请求包括:对应当前活动页面的命令列表或命令网络,所述命令列表或命令网络用于描述当前活动页面的所有命令内容以及所述命令内容对应的命令指令;
所述服务器还包括:解码网络构建模块,用于根据所述语音命令解析请求构建解码网络;
所述解码模块,具体用于利用所述解码网络构建模块构建的解码网络对所述用户语音信号进行解码,得到所述语音信号对应的文本内容;
所述文本转换模块,具体用于根据所述文本内容查询所述命令列表或命令网络,得到所述文本内容对应的命令指令。
优选地,所述解码网络构建模块包括:
语义网络生成单元,用于根据所述命令列表或命令网络生成语义网络;
网络扩展单元,用于利用预置的声学模型对所述语义网络进行扩展,得到解码网络。
一种实现语音命令控制的系统,其特征在于,包括:客户端设备和服务器,其中所述客户端设备为前面所述的客户端设备,所述服务器为前面所述的服务器。
本发明实施例提供的实现语音命令控制的方法、设备及系统,在客户端接收用户语音信号后,将所述用户语音信号发送给服务器,由服务器对用户语音信号进行解码得到对应所述用户语音信号的文本内容,并根据所述文本内容确定命令指令,从而使客户端可以直接从服务器得到相应的命令指令,根据所述命令指令执行相应操作,而无需再由客户端应用程序进行从文本到指令的转换,不仅提高了客户端对语音命令的响应效率,而且使得控制更方便。
另外,由于来自不同客户端的语音信号统一由服务器进行从文本到指令的转换,因此不仅可以实现资源共享,而且降低了客户端应用程序的开发难度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例实现语音命令控制的方法在客户端的一种应用流程图;
图2是本发明实施例实现语音命令控制的方法在客户端的另一种应用流程图;
图3是本发明实施例实现语音命令控制的方法在服务器上的一种应用流程图;
图4是本发明实施例实现语音命令控制的方法在服务器上的另一种应用流程图;
图5是本发明实施例客户端设备的一种结构示意图;
图6是本发明实施例客户端设备的另一种结构示意图;
图7是本发明实施例服务器的一种结构示意图;
图8是本发明实施例服务器的另一种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
针对现有技术中通过语音服务器实现语音命令控制存在的问题,本发明实施例提供一种实现语音命令控制的方法、设备及系统,由服务器对不同客户端发送的用户语音信号进行解析得到对应所述用户语音信号的文本内容,并根据所述文本内容确定命令指令,从而使客户端可以直接从服务器得到相应的命令指令,根据所述命令指令执行相应操作。
如图1所示,是本发明实施例实现语音命令控制的方法在客户端的一种应用流程图,包括以下步骤:
步骤101,客户端接收用户语音信号。
步骤102,将所述用户语音信号发送给服务器,以使所述服务器对所述用户语音信号进行解码得到对应所述用户语音信号的文本内容,并根据所述文本内容确定命令指令。
服务器对用户语音信号的解码过程可以采用现有技术中的基本语音识别方法,也可以采用在基本语音识别方法上进一步改进的一些优化的语音识别方法,对此本发明实施例不做限定。
在解码得到相应的文本内容后,可以根据预设的文本内容与命令指令的对应关系,比如针对一些服务商自己提供的一些应用,可以在服务器和客户端之间约定每个文本内容对应的命令指令,从而使服务器在解码得到相应的文本内容后,根据该文本内容即可得到相应的命令指令。
当然,服务器还可以采用其他方式确定文本内容对应的命令指令,对此本发明实施例不做限定。
步骤103,接收所述服务器返回的命令指令。
步骤104,根据所述命令指令执行操作。
可见,本发明实施例提供的实现语音命令控制的方法,在客户端接收用户语音信号后,将所述用户语音信号发送给服务器,客户端直接从服务器得到相应的命令指令,并根据所述命令指令执行相应操作,而无需再由客户端应用程序进行从文本到指令的转换,不仅提高了客户端对语音命令的响应效率,而且降低了客户端应用程序的开发难度,使得控制更方便。
如图2所示,是本发明实施例实现语音命令控制的方法在客户端的另一种应用流程图,包括以下步骤:
步骤201,客户端接收用户语音信号。
步骤202,生成语音命令解析请求,所述语音命令解析请求包括:对应当前活动页面的命令列表或命令网络,所述命令列表或命令网络用于描述当前活动页面的所有命令内容以及所述命令内容对应的命令指令。
也就是说,所述语音命令解析请求包含的内容是与当前活动页面相关的,而所述命令列表和所述命令网络都是用来描述当前活动页面可能的命令内容和命令指令,只是表现形式不同。其中,命令列表是将当前活动页面的所有可能的命令内容一一单独列出,以列表形式展现。而考虑到命令内容可能有重复部分,如”王菲红豆”,“张艾嘉红豆”中的“红豆”命令,则可以用更为简洁的命令网络(网格)形式展示,网络中的每条路径反映了一条单独的命令内容。
每个命令内容都有与其相对应的一个命令指令。所述命令内容可以是当前活动页面的菜单选项内容,即菜单选项的关键词,比如在门户网站下的“淘宝”链接选项;所述命令内容也可以是由应用程序根据历史用户的输入扩展的命令内容,比如“我想去淘宝”,“去淘宝看看”等。对此本发明实施例不做限定。
步骤203,将所述用户语音信号和所述语音命令解析请求发送给服务器,以使所述服务器对所述用户语音信号进行解码得到对应所述用户语音信号的文本内容,并根据所述语音命令解析请求和所述文本内容确定命令指令。
需要说明的是,客户端可以将所述用户语音信号和所述语音命令解析请求同步发送给服务器,也可以先发送所述语音命令解析请求,在确认成功发送后,再发送所述用户语音信号。
由于语音命令解析请求包括对应当前活动页面的命令列表或命令网络,从而可以使服务器在对用户语音信号解码得到文本内容后,根据该文本内容查询所述命令列表或命令网络,得到所述文本内容对应的命令指令。
步骤204,接收所述服务器返回的命令指令。
步骤205,根据所述命令指令执行操作。
由以上流程可知,该实施例与图1所示实施例不同的是,在该实施例中,客户端不仅将用户语音信号发送给服务器,还将包括对应当前活动页面的命令列表或命令网络的语音命令解析请求发送给服务器,从而限制了语音解码范围,进一步提高了语音命令解析的准确率和效率。
需要说明的是,不论是上述图1所示实施例还是图2所示实施例中,客户端可以直接将接收到的用户语音信号发送给服务器;也可以先对所述语音信号进行降噪处理,将降噪处理后的用户语音信号发送给服务器;还可以提取所述用户语音信号中的声学特征,将提取的声学特征发送给服务器。
如图3所示,是本发明实施例实现语音命令控制的方法在服务器上的一种应用流程图,包括以下步骤:
步骤301,服务器接收客户端发送的用户语音信号。
步骤302,对所述用户语音信号进行解码,得到所述语音信号对应的文本内容。
服务器对用户语音信号的解码过程可以采用现有技术中的基本语音识别方法,也可以采用在基本语音识别方法上进一步改进的一些优化的语音识别方法,对此本发明实施例不做限定。
在解码得到相应的文本内容后,可以根据预设的文本内容与命令指令的对应关系,比如针对一些服务商自己提供的一些应用,可以在服务器和客户端之间约定每个文本内容对应的命令指令,从而使服务器在解码得到相应的文本内容后,根据该文本内容即可得到相应的命令指令。
当然,服务器还可以采用其他方式确定文本内容对应的命令指令,对此本发明实施例不做限定。
步骤303,确定所述文本内容对应的命令指令。
步骤304,将所述命令指令发送给所述客户端,以使所述客户端根据所述命令指令执行操作。
可见,本发明实施例提供的实现语音命令控制的方法,由服务器对客户端接收的用户语音信号进行解码得到相应的文本内容,并且完成从文本到指令的转换过程,不仅可以提高语音命令解析的准确率和效率,而且,由于来自不同客户端的语音信号统一交由服务器进行从文本到指令的转换,因此可以实现资源共享,降低客户端应用程序的开发难度。
如图4所示,是本发明实施例实现语音命令控制的方法在服务器上的另一种应用流程图,包括以下步骤:
步骤401,服务器接收客户端发送的语音命令解析请求和用户语音信号,所述语音命令解析请求包括:对应当前活动页面的命令列表或命令网络,所述命令列表或命令网络用于描述当前活动页面的所有命令内容以及所述命令内容对应的命令指令。
步骤402,根据所述语音命令解析请求构建解码网络。
具体地,服务器可以首先根据所述命令列表或命令网络生成语义网络,然后利用预置的声学模型对所述语义网络进行扩展,得到解码网络。
步骤403,利用所述解码网络对所述用户语音信号进行解码,得到所述语音信号对应的文本内容。
具体的解码方法可以采用现有技术中的一些解码方法,在此不再赘述。
步骤404,根据所述文本内容查询所述命令列表或命令网络,得到所述文本内容对应的命令指令。
步骤405,将所述命令指令发送给所述客户端,以使所述客户端根据所述命令指令执行操作。
可见,利用本发明实施例实现语音命令控制的方法,不仅可进一步提高语音命令解析的准确率和效率,而且,由于来自不同客户端的语音信号统一交由服务器进行从文本到指令的转换,因此可以实现资源共享,降低客户端应用程序的开发难度。
本发明实施例实现语音命令控制的方法可广泛地为手机、电视遥控器、车载电脑、智能玩具等终端提供语音菜单识别服务。语音菜单的识别是上下文无关的,方便部署。
相应地,本发明实施例还提供了一种客户端设备,如图5所示,是该客户端设备的一种结构示意图。
在该实施例中,所述客户端设备500包括:
语音接收模块501,用于接收用户语音信号;
信号发送模块502,用于将所述语音接收模块501接收的用户语音信号发送给服务器,以使所述服务器对所述用户语音信号进行解码得到对应所述用户语音信号的文本内容,并根据所述文本内容确定命令指令;
信号接收模块503,用于接收所述服务器返回的命令指令;
执行模块504,用于根据所述命令指令执行操作。
本发明实施例提供的客户端设备,在接收到用户语音信号后,将所述用户语音信号发送给服务器,然后直接从服务器得到相应的命令指令,并根据所述命令指令执行相应操作,而无需再由客户端设备应用程序进行从文本到指令的转换,不仅提高了客户端设备对语音命令的响应效率,而且降低了客户端设备应用程序的开发难度,使得控制更方便。
如图6所示,是本发明实施例客户端设备的另一种结构示意图。
与图5所示实施例不同的是,在该实施例中,所述客户端设备600还进一步包括:
解析请求生成模块601,用于在语音接收模块501接收用户语音信号后,生成语音命令解析请求。
而且,在该实施例中,信号发送模块602不仅用于将语音接收模块501接收的用户语音信号发送给服务器,而且还用于将解析请求生成模块601生成的语音命令解析请求发送给服务器,以使所述服务器根据所述语音命令解析请求和所述文本内容确定命令指令。
所述语音命令解析请求包括:对应当前活动页面的命令列表或命令网络,所述命令列表或命令网络用于描述当前活动页面的所有命令内容以及所述命令内容对应的命令指令。
在该实施例中,客户端设备不仅将用户语音信号发送给服务器,还将包括对应当前活动页面的命令列表或命令网络的语音命令解析请求发送给服务器,从而限制了语音解码范围,进一步提高了语音命令解析的准确率和效率。
需要说明的是,在实际应用中,上述客户端设备可以是手机、电视遥控器、车载电脑、智能玩具等终端。而且,上述语音接收模块可以是麦克风等,上述信号发送模块和信号接收模块具体可以通过无线或有线等方式发送、接收相应的信号。
另外,在实际应用中,所述客户端设备还可进一步包括:降噪处理模块(未图示),用于对所述语音接收模块501接收的用户语音信号进行降噪处理。相应地,信号发送模块502和信号发送模块602将降噪处理后的用户语音信号发送给服务器。
另外,在实际应用中,所述客户端设备还可进一步包括:声学特征提取模块(未图示),用于提取所述语音接收模块501接收的用户语音信号中的声学特征。相应地,信号发送模块502和信号发送模块602具体用于将提取的所述用户语音信号中的声学特征发送给服务器,而不是直接将语音接收模块501接收的用户语音信号发送给服务器。
相应地,本发明实施例还提供了一种服务器,如图7所示,是该服务器的一种结构示意图。
在该实施例中,所述服务器700包括:
接收模块701,用于接收客户端发送的用户语音信号;
解码模块702,用于对所述用户语音信号进行解码,得到所述语音信号对应的文本内容;
文本转换模块703,用于确定所述文本内容对应的命令指令;
发送模块704,用于将所述命令指令发送给所述客户端,以使所述客户端根据所述命令指令执行操作。
可见,本发明实施例提供的服务器,不仅对客户端接收的用户语音信号进行解码得到相应的文本内容,并且完成从文本到指令的转换过程,可以有效地提高语音命令解析的效率,而且,由于来自不同客户端的语音信号统一交由服务器进行从文本到指令的转换,因此可以实现资源共享,降低客户端应用程序的开发难度。
如图8所示,是本发明实施例服务器的另一种结构示意图。
与图7所示实施例不同的是,在该实施例中,服务器800还进一步包括:解码网络构建模块802。
而且,该实施例中的接收模块801不仅接收客户端发送的用户语音信号,而且还用于接收所述客户端发送的语音命令解析请求,所述语音命令解析请求包括:对应当前活动页面的命令列表或命令网络,所述命令列表或命令网络用于描述当前活动页面的所有命令内容以及所述命令内容对应的命令指令。
解码网络构建模块802用于根据所述语音命令解析请求构建解码网络。具体地,所述解码网络构建模块可以包括:语义网络生成单元和网络扩展单元(未图示)。其中:
所述语义网络生成单元用于根据所述命令列表或命令网络生成语义网络;
所述网络扩展单元,用于利用预置的声学模型对所述语义网络进行扩展,得到解码网络。
相应地,在该实施例中,解码模块702利用所述解码网络构建模块构建的解码网络对所述用户语音信号进行解码,得到所述语音信号对应的文本内容。文本转换模块703根据所述文本内容查询所述命令列表或命令网络,得到所述文本内容对应的命令指令。
可见,利用本发明实施例的服务器,不仅可进一步提高语音命令解析的准确率和效率,而且,由于来自不同客户端的语音信号统一交由服务器进行从文本到指令的转换,因此可以实现资源共享,降低客户端应用程序的开发难度。
相应地,本发明实施例还提供一种实现语音命令控制的系统,该系统包括:上述任一实施例的客户端设备和服务器。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中所述作为分离部件说明的模块和单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
另外,本领域的技术人员可以理解,可以对实施例中的系统中的模块或单元进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以将它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样实现的本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及设备;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (15)
1.一种实现语音命令控制的方法,其特征在于,包括:
客户端接收用户语音信号;
将所述用户语音信号发送给服务器,以使所述服务器对所述用户语音信号进行解码得到对应所述用户语音信号的文本内容,并根据所述文本内容确定命令指令;
接收所述服务器返回的命令指令;
根据所述命令指令执行操作。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
所述客户端在接收用户语音信号后,生成语音命令解析请求,并将所述语音命令解析请求发送给服务器,以使所述服务器根据所述语音命令解析请求和所述文本内容确定命令指令;所述语音命令解析请求包括:对应当前活动页面的命令列表或命令网络,所述命令列表或命令网络用于描述当前活动页面的所有命令内容以及所述命令内容对应的命令指令。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
在将所述用户语音信号发送给服务器之前,对所述用户语音信号进行降噪处理;
所述将所述用户语音信号发送给服务器包括:将降噪处理后的用户语音信号发送给服务器。
4.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
在将所述用户语音信号发送给服务器之前,提取所述用户语音信号中的声学特征;
所述将所述用户语音信号发送给服务器包括:将提取的所述用户语音信号中的声学特征发送给服务器。
5.一种实现语音命令控制的方法,其特征在于,包括:
服务器接收客户端发送的用户语音信号;
对所述用户语音信号进行解码,得到所述语音信号对应的文本内容;
确定所述文本内容对应的命令指令;
将所述命令指令发送给所述客户端,以使所述客户端根据所述命令指令执行操作。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
所述服务器接收所述客户端发送的语音命令解析请求,所述语音命令解析请求包括:对应当前活动页面的命令列表或命令网络,所述命令列表或命令网络用于描述当前活动页面的所有命令内容以及所述命令内容对应的命令指令;
根据所述语音命令解析请求构建解码网络;
所述对所述用户语音信号进行解码,得到所述语音信号对应的文本内容包括:
利用所述解码网络对所述用户语音信号进行解码,得到所述语音信号对应的文本内容;
所述确定所述文本内容对应的命令指令包括:
根据所述文本内容查询所述命令列表或命令网络,得到所述文本内容对应的命令指令。
7.根据权利要求6所述的方法,其特征在于,所述根据所述语音命令解析请求构建解码网络包括:
根据所述命令列表或命令网络生成语义网络;
利用预置的声学模型对所述语义网络进行扩展,得到解码网络。
8.一种客户端设备,其特征在于,包括:
语音接收模块,用于接收用户语音信号;
信号发送模块,用于将所述语音接收模块接收的用户语音信号发送给服务器,以使所述服务器对所述用户语音信号进行解码得到对应所述用户语音信号的文本内容,并根据所述文本内容确定命令指令;
信号接收模块,用于接收所述服务器返回的命令指令;
执行模块,用于根据所述命令指令执行操作。
9.根据权利要求8所述的客户端设备,其特征在于,所述客户端设备还包括:
解析请求生成模块,用于在所述语音接收模块接收用户语音信号后,生成语音命令解析请求;
所述信号发送模块,还用于将所述语音命令解析请求发送给服务器,以使所述服务器根据所述语音命令解析请求和所述文本内容确定命令指令;所述语音命令解析请求包括:对应当前活动页面的命令列表或命令网络,所述命令列表或命令网络用于描述当前活动页面的所有命令内容以及所述命令内容对应的命令指令。
10.根据权利要求8或9所述的客户端设备,其特征在于,所述客户端设备还包括:
降噪处理模块,用于对所述语音接收模块接收的用户语音信号进行降噪处理;
所述信号发送模块具体用于将降噪处理后的用户语音信号发送给服务器。
11.根据权利要求8或9所述的客户端设备,其特征在于,所述客户端设备还包括:
声学特征提取模块,用于提取所述语音接收模块接收的用户语音信号中的声学特征;
所述信号发送模块具体用于将提取的所述用户语音信号中的声学特征发送给服务器。
12.一种服务器,其特征在于,包括:
接收模块,用于接收客户端发送的用户语音信号;
解码模块,用于对所述用户语音信号进行解码,得到所述语音信号对应的文本内容;
文本转换模块,用于确定所述文本内容对应的命令指令;
发送模块,用于将所述命令指令发送给所述客户端,以使所述客户端根据所述命令指令执行操作。
13.根据权利要求12所述的服务器,其特征在于,
所述接收模块,还用于接收所述客户端发送的语音命令解析请求,所述语音命令解析请求包括:对应当前活动页面的命令列表或命令网络,所述命令列表或命令网络用于描述当前活动页面的所有命令内容以及所述命令内容对应的命令指令;
所述服务器还包括:解码网络构建模块,用于根据所述语音命令解析请求构建解码网络;
所述解码模块,具体用于利用所述解码网络构建模块构建的解码网络对所述用户语音信号进行解码,得到所述语音信号对应的文本内容;
所述文本转换模块,具体用于根据所述文本内容查询所述命令列表或命令网络,得到所述文本内容对应的命令指令。
14.根据权利要求13所述的服务器,其特征在于,所述解码网络构建模块包括:
语义网络生成单元,用于根据所述命令列表或命令网络生成语义网络;
网络扩展单元,用于利用预置的声学模型对所述语义网络进行扩展,得到解码网络。
15.一种实现语音命令控制的系统,其特征在于,包括:客户端设备和服务器,其中所述客户端设备为权利要求8至11任一项所述的客户端设备,所述服务器为权利要求12至14任一项所述的服务器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310362838.0A CN103474068B (zh) | 2013-08-19 | 2013-08-19 | 实现语音命令控制的方法、设备及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310362838.0A CN103474068B (zh) | 2013-08-19 | 2013-08-19 | 实现语音命令控制的方法、设备及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103474068A true CN103474068A (zh) | 2013-12-25 |
CN103474068B CN103474068B (zh) | 2016-08-10 |
Family
ID=49798889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310362838.0A Active CN103474068B (zh) | 2013-08-19 | 2013-08-19 | 实现语音命令控制的方法、设备及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103474068B (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106982318A (zh) * | 2016-01-16 | 2017-07-25 | 平安科技(深圳)有限公司 | 拍照方法及终端 |
CN107146618A (zh) * | 2017-06-16 | 2017-09-08 | 北京云知声信息技术有限公司 | 语音处理方法及装置 |
CN107919129A (zh) * | 2017-11-15 | 2018-04-17 | 百度在线网络技术(北京)有限公司 | 用于控制页面的方法和装置 |
CN107945796A (zh) * | 2017-11-13 | 2018-04-20 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及计算机可读介质 |
WO2018099000A1 (zh) * | 2016-12-01 | 2018-06-07 | 中兴通讯股份有限公司 | 语音输入的处理方法、终端和网络服务器 |
CN108538291A (zh) * | 2018-04-11 | 2018-09-14 | 百度在线网络技术(北京)有限公司 | 语音控制方法、终端设备、云端服务器及系统 |
CN108604179A (zh) * | 2016-05-10 | 2018-09-28 | 谷歌有限责任公司 | 设备上语音助理的实现 |
CN108986821A (zh) * | 2018-08-23 | 2018-12-11 | 珠海格力电器股份有限公司 | 一种设置房间与设备关系的方法和设备 |
CN109120774A (zh) * | 2018-06-29 | 2019-01-01 | 深圳市九洲电器有限公司 | 终端应用语音操控方法及系统 |
CN109243427A (zh) * | 2018-09-29 | 2019-01-18 | 深圳市智驾实业有限公司 | 一种车辆故障诊断方法及装置 |
JP2019102063A (ja) * | 2017-11-30 | 2019-06-24 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | ページ制御方法および装置 |
CN110837396A (zh) * | 2018-08-17 | 2020-02-25 | 青岛海尔多媒体有限公司 | 语音唤醒的方法、装置及计算机存储介质 |
CN110865760A (zh) * | 2019-11-18 | 2020-03-06 | 北京小米移动软件有限公司 | 电子设备操作方法、装置、电子设备及存储介质 |
CN110891120A (zh) * | 2019-11-18 | 2020-03-17 | 北京小米移动软件有限公司 | 界面内容展示方法、装置及存储介质 |
CN112885354A (zh) * | 2021-01-25 | 2021-06-01 | 海信视像科技股份有限公司 | 一种显示设备、服务器及基于语音的显示控制方法 |
CN112905149A (zh) * | 2021-04-06 | 2021-06-04 | Vidaa美国公司 | 显示设备上语音指令的处理方法、显示设备及服务器 |
CN113192490A (zh) * | 2021-04-14 | 2021-07-30 | 维沃移动通信有限公司 | 语音处理方法、装置和电子设备 |
US11860933B2 (en) | 2016-05-13 | 2024-01-02 | Google Llc | Personalized and contextualized audio briefing |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0197648A2 (en) * | 1985-03-11 | 1986-10-15 | AT&T Corp. | Method and apparatus for generating computer-controlled interactive voice services |
CN1764945A (zh) * | 2003-03-25 | 2006-04-26 | 法国电信 | 分布式语音识别系统 |
CN101971250A (zh) * | 2008-03-13 | 2011-02-09 | 索尼爱立信移动通讯有限公司 | 具有活动语音识别的移动电子设备 |
CN102566961A (zh) * | 2010-12-31 | 2012-07-11 | 上海博泰悦臻电子设备制造有限公司 | 基于车载设备的应用程序的语音执行方法及装置 |
JP2013064777A (ja) * | 2011-09-15 | 2013-04-11 | Ntt Docomo Inc | 端末装置、音声認識プログラム、音声認識方法および音声認識システム |
-
2013
- 2013-08-19 CN CN201310362838.0A patent/CN103474068B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0197648A2 (en) * | 1985-03-11 | 1986-10-15 | AT&T Corp. | Method and apparatus for generating computer-controlled interactive voice services |
CN1764945A (zh) * | 2003-03-25 | 2006-04-26 | 法国电信 | 分布式语音识别系统 |
CN101971250A (zh) * | 2008-03-13 | 2011-02-09 | 索尼爱立信移动通讯有限公司 | 具有活动语音识别的移动电子设备 |
CN102566961A (zh) * | 2010-12-31 | 2012-07-11 | 上海博泰悦臻电子设备制造有限公司 | 基于车载设备的应用程序的语音执行方法及装置 |
JP2013064777A (ja) * | 2011-09-15 | 2013-04-11 | Ntt Docomo Inc | 端末装置、音声認識プログラム、音声認識方法および音声認識システム |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106982318A (zh) * | 2016-01-16 | 2017-07-25 | 平安科技(深圳)有限公司 | 拍照方法及终端 |
US11355116B2 (en) | 2016-05-10 | 2022-06-07 | Google Llc | Implementations for voice assistant on devices |
CN108604179A (zh) * | 2016-05-10 | 2018-09-28 | 谷歌有限责任公司 | 设备上语音助理的实现 |
US11341964B2 (en) | 2016-05-10 | 2022-05-24 | Google Llc | Voice-controlled media play in smart media environment |
US11935535B2 (en) | 2016-05-10 | 2024-03-19 | Google Llc | Implementations for voice assistant on devices |
US11922941B2 (en) | 2016-05-10 | 2024-03-05 | Google Llc | Implementations for voice assistant on devices |
US11990126B2 (en) | 2016-05-10 | 2024-05-21 | Google Llc | Voice-controlled media play in smart media environment |
US11860933B2 (en) | 2016-05-13 | 2024-01-02 | Google Llc | Personalized and contextualized audio briefing |
WO2018099000A1 (zh) * | 2016-12-01 | 2018-06-07 | 中兴通讯股份有限公司 | 语音输入的处理方法、终端和网络服务器 |
CN108132768A (zh) * | 2016-12-01 | 2018-06-08 | 中兴通讯股份有限公司 | 语音输入的处理方法,终端和网络服务器 |
CN107146618A (zh) * | 2017-06-16 | 2017-09-08 | 北京云知声信息技术有限公司 | 语音处理方法及装置 |
CN107945796B (zh) * | 2017-11-13 | 2021-05-25 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及计算机可读介质 |
CN107945796A (zh) * | 2017-11-13 | 2018-04-20 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及计算机可读介质 |
CN107919129A (zh) * | 2017-11-15 | 2018-04-17 | 百度在线网络技术(北京)有限公司 | 用于控制页面的方法和装置 |
US11221822B2 (en) | 2017-11-15 | 2022-01-11 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for controlling page |
JP2019102063A (ja) * | 2017-11-30 | 2019-06-24 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | ページ制御方法および装置 |
US11164573B2 (en) | 2017-11-30 | 2021-11-02 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for controlling page |
US11127398B2 (en) | 2018-04-11 | 2021-09-21 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method for voice controlling, terminal device, cloud server and system |
JP2021073567A (ja) * | 2018-04-11 | 2021-05-13 | 百度在線網絡技術(北京)有限公司 | 音声制御方法、端末機器、クラウドサーバ及びシステム |
JP2019185733A (ja) * | 2018-04-11 | 2019-10-24 | 百度在線網絡技術(北京)有限公司 | 音声制御方法、端末機器、クラウドサーバ及びシステム |
CN108538291A (zh) * | 2018-04-11 | 2018-09-14 | 百度在线网络技术(北京)有限公司 | 语音控制方法、终端设备、云端服务器及系统 |
CN109120774A (zh) * | 2018-06-29 | 2019-01-01 | 深圳市九洲电器有限公司 | 终端应用语音操控方法及系统 |
CN110837396A (zh) * | 2018-08-17 | 2020-02-25 | 青岛海尔多媒体有限公司 | 语音唤醒的方法、装置及计算机存储介质 |
CN108986821A (zh) * | 2018-08-23 | 2018-12-11 | 珠海格力电器股份有限公司 | 一种设置房间与设备关系的方法和设备 |
CN109243427A (zh) * | 2018-09-29 | 2019-01-18 | 深圳市智驾实业有限公司 | 一种车辆故障诊断方法及装置 |
CN110891120A (zh) * | 2019-11-18 | 2020-03-17 | 北京小米移动软件有限公司 | 界面内容展示方法、装置及存储介质 |
CN110865760A (zh) * | 2019-11-18 | 2020-03-06 | 北京小米移动软件有限公司 | 电子设备操作方法、装置、电子设备及存储介质 |
CN112885354A (zh) * | 2021-01-25 | 2021-06-01 | 海信视像科技股份有限公司 | 一种显示设备、服务器及基于语音的显示控制方法 |
CN112905149A (zh) * | 2021-04-06 | 2021-06-04 | Vidaa美国公司 | 显示设备上语音指令的处理方法、显示设备及服务器 |
CN113192490A (zh) * | 2021-04-14 | 2021-07-30 | 维沃移动通信有限公司 | 语音处理方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN103474068B (zh) | 2016-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103474068A (zh) | 实现语音命令控制的方法、设备及系统 | |
US11922925B1 (en) | Managing dialogs on a speech recognition platform | |
US10115396B2 (en) | Content streaming system | |
US10055190B2 (en) | Attribute-based audio channel arbitration | |
KR101786533B1 (ko) | 멀티 레벨 음성 인식 | |
US7478171B2 (en) | Systems and methods for providing dialog localization in a distributed environment and enabling conversational communication using generalized user gestures | |
CN104618780B (zh) | 电器设备控制方法及系统 | |
JP2019091418A (ja) | ページを制御する方法および装置 | |
US20190355354A1 (en) | Method, apparatus and system for speech interaction | |
US10930288B2 (en) | Mobile device for speech input and text delivery | |
KR20160085853A (ko) | 클라우드 서버를 통한 디바이스 페어링 | |
CN102740014A (zh) | 语音控制电视机、电视系统及通过语音控制电视机的方法 | |
US20160353173A1 (en) | Voice processing method and system for smart tvs | |
CN104754536A (zh) | 一种不同语言间实现通信的方法和系统 | |
CN104093077A (zh) | 多终端互联的方法、装置及系统 | |
CN108027725B (zh) | 指导终端设备操作的方法、装置和设备 | |
CN111107156A (zh) | 用于主动发起对话的服务端处理方法及服务器、能够主动发起对话的语音交互系统 | |
CN110619878B (zh) | 用于办公系统的语音交互方法和装置 | |
CN103077191B (zh) | 自适应Web平台音频播放方法和装置 | |
CN105551493A (zh) | 儿童语音机器人数据处理方法、装置及儿童语音机器人 | |
CN103701994A (zh) | 一种自动应答的方法及装置 | |
WO2018000623A1 (zh) | 一种网页的操控方法及装置 | |
US10062386B1 (en) | Signaling voice-controlled devices | |
CN114035973A (zh) | 一种应用程序的投屏方法、装置、电子设备及存储介质 | |
CN110473524B (zh) | 语音识别系统的构建方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666 Applicant after: Iflytek Co., Ltd. Address before: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 Building No. 666 Xunfei Applicant before: Anhui USTC iFLYTEK Co., Ltd. |
|
COR | Change of bibliographic data | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |