CN103646646B

CN103646646B - 一种语音控制方法及电子设备

Info

Publication number: CN103646646B
Application number: CN201310618085.5A
Authority: CN
Inventors: 戴海生; 王茜莺
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2013-11-27
Filing date: 2013-11-27
Publication date: 2018-08-31
Anticipated expiration: 2033-11-27
Also published as: CN103646646A

Abstract

本申请公开了一种语音控制方法及电子设备；所述方法应用于包括语音输入模块的电子设备；所述方法包括：所述语音输入模块接收语音信号；将所述语音信号与预设指令进行匹配，所述预设指令包括自定义的语音数据；当所述语音信号与至少一个所述预设指令匹配时，执行所匹配的所述预设指令对应的操作。本申请能够更加灵活地对电子设备进行语音控制，满足用户个性化需求。

Description

一种语音控制方法及电子设备

技术领域

本申请涉及语音识别及控制技术领域，尤其涉及一种语音控制方法及电子设备。

背景技术

随着电子设备的快速发展与普及，对电子设备的智能化应用程度也有了更高的要求。目前，语音识别技术为用户提供了人机语音交互模式来控制电子设备的快捷途径。用户可以通过特定的语音唤醒应用程序，说出设定的语音唤醒短语即可唤醒电子设备，并可根据语音提示的指令方便地进行拨号、浏览网页等进一步操作。

但是，本申请的发明人在实现本申请的过程中，发现现有技术至少存在如下技术缺陷：

目前的语音唤醒应用程序的唤醒短语大多是固定的，无法满足用户个性化需求；

此外，即使可以使用用户自定义的唤醒短语，但由于用户对于唤醒技术的认知不够，往往会造成使用自定义唤醒短语无法实现唤醒功能，或者使用非唤醒短语时也能实现唤醒功能，从而导致唤醒性能下降，用户体验度不高。

发明内容

本申请所要解决的技术问题是如何更加灵活地对电子设备进行语音控制，满足用户个性化需求。

为了解决上述技术问题，本申请提供了一种语音控制方法，应用于包括语音输入模块的电子设备；所述方法包括：

所述语音输入模块接收语音信号；

将所述语音信号与预设指令进行匹配，所述预设指令包括自定义的语音数据；

当所述语音信号与至少一个所述预设指令匹配时，执行所匹配的所述预设指令对应的操作。

可选地，所述的方法还包括：

对输入的所述自定义的语音数据进行验证；将通过验证的所述自定义的语音数据作为与第一操作对应的所述预设指令保存到第一存储模块中；

所述第一存储模块接收到所述预设指令后，将所述预设指令发送给预定设备；查询所述预定设备上是否存储有该预设指令对应的模型，如果有则获取该预设指令对应的模型并存储，如果没有则判断本电子设备中是否存储有该预设指令对应的模型，如果本电子设备中没有，则建立该预设指令对应的模型并存储。

可选地，所述的方法还包括：

当所述语音信号与至少一个所述预设指令匹配时，根据包含所述语音信号的音频数据和所匹配的所述预设指令，对所匹配的所述预设指令对应的模型进行性能验证。

可选地，当所述语音信号与至少一个所述预设指令匹配时，执行所匹配的所述预设指令对应的操作前还包括：

依据所述语音信号进行第一模式语音识别；

依据所述第一模式语音识别的结果，执行或拒绝执行所匹配的所述预设指令对应的操作。

可选地，所述第一模式语音识别包括：

依据所述语音信号进行预设命令相关的声纹确认；

所述依据所述第一模式语音识别的结果，执行或者拒绝执行所匹配的所述预设指令对应的操作包括：

如果所述预设命令相关的声纹确认的结果为通过，则执行所匹配的所述预设指令对应的操作；如果所述预设命令相关的声纹确认的结果为未通过，则拒绝执行所匹配的所述预设指令对应的操作。

可选地，当所述语音信号中还包含所述预设指令以外的语音识别信息时，执行所匹配的所述预设指令对应的操作前还包括：

依据所述语音识别信息进行第二模式语音识别；

依据所述第二模式语音识别的结果，执行或者拒绝执行所匹配的所述预设指令对应的操作及所述语音识别信息对应的操作。

可选地，所述第二模式语音识别包括：

预设命令无关的声纹确认；

所述依据所述第二模式语音识别的结果，执行或者拒绝执行所匹配的所述预设指令对应的操作及所述语音识别信息对应的操作包括：

如果所述预设命令无关的声纹确认的结果为通过，则执行所匹配的所述预设指令对应的操作及所述语音识别信息对应的操作；如果所述预设命令无关的声纹确认的结果为未通过，则拒绝执行所匹配的所述预设指令对应的操作及所述语音识别信息对应的操作。

可选地，所述的方法还包括：

依据特定场景的语音信号，对进行所述预设命令无关的声纹确认所采用的模型进行优化训练。

可选地，所述的方法还包括：

根据第一指令设置或修改所述预设指令的集合，或者根据所述第一指令设置或修改所述预设指令与操作之间的对应关系。

可选地，所述预设指令还包括自定义的文本数据；

将所述语音信号与所述预设指令进行匹配包括：

将包含所述语音信号的音频数据与第一预设指令中的所述自定义的语音数据进行比较，如果相似度超过第一预定阈值，则第一判断结果为匹配；

将由所述语音信号转换得到的文本数据与所述第一预设指令中的所述自定义的文本数据进行比较，如果相似度超过第二预定阈值，则第二判断结果为匹配；

当所述第一判断结果和所述第二判断结果均为匹配时，判断所述语音信号与所述第一预设指令匹配。

本申请还提供了一种电子设备，包括：

语音输入模块，用于接收语音信号；

第一模块，用于将所述语音信号与预设指令进行匹配，所述预设指令包括自定义的语音数据；

第二模块，用于当所述语音信号与至少一个所述预设指令匹配时，执行所匹配的所述预设指令对应的操作。

可选地，所述的电子设备还包括：

第一存储模块；

第三模块，用于对输入的所述自定义的语音数据进行验证；将通过验证的所述自定义的语音数据作为与第一操作对应的所述预设指令保存到第一存储模块；

所述第一存储模块用于当接收到所述预设指令后，将所述预设指令发送给预定设备；查询所述预定设备上是否存储有该预设指令对应的模型，如果有则获取该预设指令对应的模型并存储，如果没有则判断本电子设备中是否存储有该预设指令对应的模型，如果本电子设备中没有，则建立该预设指令对应的模型并存储。

可选地，所述的电子设备还包括：

第四模块，用于当所述语音信号与至少一个所述预设指令匹配时，根据包含所述语音信号的音频数据和所匹配的所述预设指令对所匹配的所述预设指令对应的模型进行性能验证。

可选地，所述第二模块还用于当所述语音信号与至少一个所述预设指令匹配时，执行所匹配的所述预设指令对应的操作前依据所述语音信号进行第一模式语音识别；依据所述第一模式语音识别的结果，执行或拒绝执行所匹配的所述预设指令对应的操作。

可选地，所述第二模块进行的所述第一模式语音识别包括：

依据所述语音信号进行预设命令相关的声纹确认；

所述第二模块依据所述第一模式语音识别的结果，执行或者拒绝执行所匹配的所述预设指令对应的操作是指：

所述第二模块当所述预设命令相关的声纹确认的结果为通过时，执行所匹配的所述预设指令对应的操作；当所述预设命令相关的声纹确认的结果为未通过时，拒绝执行所匹配的所述预设指令对应的操作。

可选地，所述第二模块还用于当所述语音信号中还包含所述预设指令以外的语音识别信息时，执行所匹配的所述预设指令对应的操作前依据所述语音识别信息进行第二模式语音识别；依据所述第二模式语音识别的结果，执行或者拒绝执行所匹配的所述预设指令对应的操作及所述语音识别信息对应的操作。

可选地，所述第二模块进行的所述第二模式语音识别包括：

预设命令无关的声纹确认；

所述第二模块依据所述第二模式语音识别的结果，执行或者拒绝执行所匹配的所述预设指令对应的操作及所述语音识别信息对应的操作是指：

所述第二模块当所述预设命令无关的声纹确认的结果为通过时，执行所匹配的所述预设指令对应的操作及所述语音识别信息对应的操作；当所述预设命令无关的声纹确认的结果为未通过时，拒绝执行所匹配的所述预设指令对应的操作及所述语音识别信息对应的操作。

可选地，所述的电子设备还包括：

第五模块，用于依据特定场景的语音信号，对进行所述预设命令无关的声纹确认所采用的模型进行优化训练。

可选地，所述第一存储模块还用于根据第一指令设置或修改所述预设指令的集合，或者根据所述第一指令设置或修改所述预设指令与操作之间的对应关系。

可选地，所述预设指令还包括自定义的文本数据；

所述第一模块将所述语音信号与预设指令进行匹配是指：

所述第一模块将包含所述语音信号的音频数据与第一预设指令中的所述自定义的语音数据进行比较，如果相似度超过第一预定阈值，则第一判断结果为匹配；将由所述语音信号转换得到的文本数据与所述第一预设指令中的所述自定义的文本数据进行比较，如果相似度超过第二预定阈值，则第二判断结果为匹配；当所述第一判断结果和所述第二判断结果均为匹配时，判断所述语音信号与所述第一预设指令匹配。

与现有技术相比，本申请至少具有如下有益效果：

本申请的至少一个实施例让用户可以自行定义进行特定操作的语音信号，可以对电子设备进行更为灵活的语音控制，满足用户个性化需求。本申请的又一个实施例通过模型的存储可以提高语音识别的响应速度，避免重复训练。本申请的又一个实施例通过对模型的性能验证可以提高语音控制的性能，并可进一步实现自定义的语音数据的优化及推荐等功能。本申请的又一个实施例在输入的语音信号匹配预设指令时继续对该语音信号进行语音识别，可以提高操作效率，简化交互过程。本申请的又一个实施例中，对匹配预设指令的语音信号进行声纹识别，以保障只有授权用户可以进行语音控制。本申请的又一个实施例中，对所匹配的预设指令和另外的语音识别信息均进行识别，以提高识别的可靠性。本申请的又一个实施例中，利用语音引擎的使用场景对常用的语句对预设命令无关的声纹识别所采用的模型进行优化训练，提高声纹识别匹配度，从而提高预设命令无关的声纹识别的性能。本申请的又一个实施例中，利用自定义的语音数据和文本数据共同对输入的语音信号进行识别，提高了识别的可靠度。

当然，本领域技术人员可以理解的是对于本申请中的一个实施例并不一定具有上述所有特点。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本申请实施例一的语音控制方法的流程示意图；

图2为本申请实施例二中一个例子的语音控制方法的流程示意图；

图3为本申请实施例三中一个例子的语音控制方法的流程示意图；

图4为本申请实施例三中另一例子的语音控制方法的流程示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下文中将结合附图对本申请的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例一

本实施例涉及一种语音控制方法，应用于包括语音输入模块的电子设备，如图1所示，该方法具体包括如下主要步骤：

S101、所述语音输入模块接收语音信号；

S102、将所述语音信号与预设指令进行匹配，所述预设指令包括自定义的语音数据；

S103、当所述语音信号与至少一个所述预设指令匹配时，执行所匹配的所述预设指令对应的操作。

本实施例中，所述电子设备包括手机、平板电脑、电子书、笔记本电脑、电子辞典等。所述电子设备包括用于接收语音信号的所述语音输入模块，可以接收用户发出的所述语音信号。

本实施例中，当电子设备所接收的所述语音信号与用户预先在该电子设备中保存为所述预设指令中的所述自定义的语音数据匹配时，该电子设备将执行相应的操作。比如所述自定义的语音数据为“我想聊天”，对应的操作为启动第一即时通讯工具并登陆第一账号；当电子设备收到的所述语音信号与“我想聊天”匹配时，就启动所述第一即时通讯工具并登陆所述第一账号。再比如所述自定义的语音数据为“开始工作”时对应的操作为唤醒所述电子设备，则当所述电子设备收到的所述语音信号与“开始工作”匹配时，就中止休眠，恢复成正常工作状态。

本实施例可以使用户对电子设备的语音控制不仅仅局限于电子设备厂商预定义的有限的指令和操作，而是可以根据需要将各式各样的所述自定义的语音数据作为进行特定操作的预设指令，提高了语音控制的灵活性，能满足用户个性化需要。比如不同用户可以定义不同的唤醒自己电子设备的语音数据，这样在具有多个用户的电子设备的场合，各用户也能准确唤醒自己的电子设备，而不会影响到其它人的电子设备。再比如用户拥有多个电子设备时，可以为各电子设备设置不同的自定义的语音数据，通过输入不同的语音信号就能控制不同的电子设备，不会造成混淆。比如“开始工作”在第一电子设备中对应的操作是唤醒该第一电子设备，而在其它电子设备中并未保存为所述预设指令，那么当用户输入“开始工作”的语音信号时，只有第一电子设备会被唤醒，不影响其它电子设备。

实施例二

本实施例包括实施例一中的全部内容；在本实施例中，所述方法还可以包括：

所述第一存储模块接收到所述预设指令后，将所述预设指令发送给预定设备；查询所述预定设备上是否存储有该预设指令对应的模型，如果有则获取该预设指令对应的模型并存储，如果没有则判断本电子设备中(可以在所述第一存储模块中，也可以位于本电子设备的其它存储介质中)是否存储有该预设指令对应的模型，如果本电子设备中没有，则建立该预设指令对应的模型并存储。

本实施例中的上述步骤与上述步骤S101～103不分前后且可以并行；包括所述自定义的语音数据的所述预设指令不一定都要通过本实施例中的上述步骤获得，比如可以不进行验证，再比如可以从第一电子设备中导出并导入到第二电子设备中。

本实施例中，为了将所述自定义的语音数据与输入的所述语音信号相区分，可以但不限于设置为当满足第一预设条件时(比如在所述电子设备上打开一特定应用时、或按下特定按键或按键组合时、或输入特定的手势时等)将输入的语音信号作为所述自定义的语音数据，进行验证并保存为与第一操作对应的所述预设指令，第一操作可以在输入该自定义的语音数据之前或之后或同时在所述电子设备上指定；而不满足第一预设条件时输入的语音信号则直接与所述预设指令进行匹配，以判断是否要进行相应的操作。

本实施例的一种实施方式中，所述对输入的所述自定义的语音数据进行验证可以但不限于包括：判断所述自定义的语音数据是否不少于4个汉字或者不少于4个非中文单词等，如果是，则验证通过。本实施例中，通过特定原则对所述自定义的语音数据进行验证，可以避免将一些会影响语音识别效率或正确率，或影响语音控制的语音数据作为预设指令，从而保证基本的语音控制性能。比如假设用户意图将“的”、“啊”等常用单音节字作为自定义的语音数据时，将无法通过验证，以免用户的日常对话会误触发语音控制。

本实施例中，所述预设设备可以但不限于是云端的服务器，所述电子设备可以通过网络将用户自定义的语音数据传到服务器，如果服务器中已存在该自定义的语音数据对应的模型，则可以直接保存该模型到本电子设备中；否则，查询本电子设备中是否存储有该自定义的语音数据对应的模型，如果也没有则建立对应的模型后存储在本电子设备中，还可以也存储到服务器端；这样可以避免模型的重复训练和验证，提高了响应速度；当用户更换电子设备时也无需重新建立模型。

在其它实施例中，也可以先判断本电子设备中是否有对应的模型，没有则到所述预定设备上进行查询；或设计成只在本电子设备中或所述预定设备上查找该模型。

下面用一个具体的例子说明本实施例，假设所述预设指令对应的操作为唤醒电子设备；该预设指令所包括的所述自定义的语音数据为用户输入的自定义的唤醒短语；本例子中只在本电子设备中进行模型的查找。该例子如图2所示，包括以下步骤：

步骤201，用户通过电子设备中的用于通过自定义的语音数据设置所述预设指令的应用程序输入所述自定义的唤醒短语，

具体包括：用户输入自定义的唤醒短语；利用预定的校验原则(如不少于4个汉字或不少于4个非中文单词)对用户输入的自定义的唤醒短语进行验证，通过验证后保存该自定义的唤醒短语及对应的操作(即唤醒本电子设备)，然后转入下一步骤202；

步骤202，判断存储在本电子设备中的本地模型库中是否存在所述自定义的唤醒短语对应的模型，如果存在，则执行下一步骤203，如果不存在，执行步骤204；

步骤203，用户对本地模型库中存在的所述自定义的唤醒短语进行确认；转入步骤205；

步骤204，建立用户输入的所述自定义的唤醒短语对应的模型，还可以对新建立的模型进行训练后，存储到本地模型库中；

步骤205，用户需要启用语音唤醒时，根据用户输入的语音信号，可以先与电子设备中预设的唤醒短语(这是预置在电子设备中的默认的语音指令)，如“语音小助手”、“联想语音”或者“语音小秘书”等进行匹配，如果判断出输入的语音信号与预设的唤醒短语相匹配，则执行唤醒功能；如果不匹配，再将输入的语音信号与本电子设备中存储的自定义的唤醒短语进行匹配，如果判断出输入的语音信号与某一自定义的唤醒短语相匹配，则执行唤醒功能；如果输入的语音信号与预设的唤醒短语或者自定义唤醒短语均未匹配到，则拒绝执行唤醒功能。

该例子中是先将输入的语音信号与默认的语音指令匹配，匹配不成功时才继续和所述自定义的语音数据匹配；在其它例子中，也可以设计成先同所述自定义的语音数据匹配，匹配不成功再和默认的语音指令匹配，还可以同时和所述自定义的语音数据及默认的语音指令匹配。

实施例三

本实施例包括实施例二中的全部内容；在本实施例中，所述方法还可以包括：

本实施例中，可以是由电子设备本身对模型进行性能验证，也可以由服务器端进行该性能验证；这样可以提高语音唤醒性能，并可进一步实现所述自定义的语音数据的优化及推荐等功能。

本实施例的一个例子如图3所示，包括和实施例二中例子的步骤201～205相同的301～305，还包括：

步骤306、将包含输入的语音信号的音频数据和所匹配的唤醒短语传送至数据管理模块；

步骤307，所述数据管理模块将收集所述音频数据和所匹配的唤醒短语，以及基础测试数据发送至唤醒短语性能验证模块，所述唤醒短语性能验证模块用于对所述自定义的唤醒短语对应的模型的性能进行验证；

此外，在其它例子中，还可以对所述自定义的唤醒短语进行检验或者标注，对所述自定义的唤醒短语进行修改、删除等操作。

本实施例的另一个例子与前一个例子类似，不同点在于该例子仅在云端进行模型的查找。该例子如图4所示，包括以下步骤：

步骤401，用户通过电子设备中的用于通过自定义的语音数据设置所述预设指令的应用程序输入所述自定义的唤醒短语，

具体包括：用户输入所述自定义的唤醒短语；利用预定的校验原则(如不少于4个汉字或不少于4个非中文单词)对用户输入的所述自定义的唤醒短语进行验证，通过验证后保存该自定义的唤醒短语及对应的操作(即唤醒本电子设备)，然后转入下一步骤302；

步骤402，将通过验证后的所述自定义的唤醒短语上传至服务器端；

步骤403，服务器端判断云端模型库中是否存在所述自定义的唤醒短语对应的模型，如果存在，则执行下一步骤404，如果不存在，执行步骤405；

步骤404，将该已存在的所述自定义的唤醒短语对应的模型返回给所述电子设备中存储的本地模型库；转入步骤406；

本步骤中，云端模型库也可以根据优化模型训练结果，主动为用户推荐性能更好的唤醒短语发送给电子设备的本地模型库供用户选择；

步骤405，如果云端模型库中不存在所述自定义的唤醒短语对应的模型，则新建立所述自定义的唤醒短语对应的模型，还可以对新建立的所述自定义的唤醒短语对应的模型进行训练后，存储到云端模型库中；转入步骤406；

此处，可选地，将新建立的训练后的所述自定义的唤醒短语对应的模型存储至云端模型库的同时，还将其发送给电子设备的本地模型库。

步骤406，用户对本地模型库提供或推荐的自定义的唤醒短语进行选择或者确认；

步骤407，用户需要启用语音唤醒时，根据用户输入的语音信号，可以先与本电子设备中预设的唤醒短语(这是预置在电子设备中的默认的语音指令)，如“语音小助手”、“联想语音”或者“语音小秘书”等进行匹配，如果判断出输入的语音信号与预设的唤醒短语相匹配，则执行唤醒功能；如果不匹配，再将输入的语音信号与本电子设备中存储的所述自定义的唤醒短语进行匹配，如果判断出输入的语音信号与某一所述自定义的唤醒短语相匹配，则执行唤醒功能；如果输入的语音信号与预设的唤醒短语或者所述自定义的唤醒短语均未匹配到，则拒绝执行唤醒功能；

步骤408，将包含输入的所述语音信号的音频数据和所匹配的唤醒短语上传至服务器端的数据管理模块；

步骤409，服务器端的数据管理模块将收集所述音频数据和所匹配的唤醒短语，以及基础测试数据发送至唤醒短语性能验证模块，所述唤醒短语性能验证模块用于对所述自定义的唤醒短语对应的模型的性能进行验证；

此外，可选地，还可以对所述自定义的唤醒短语进行检验或者标注，对自定义的唤醒短语进行修改、删除等操作。其它例子中，所述数据管理模块、所述唤醒短语性能验证模块可以全部或部分位于服务器端，也可以全部或部分位于所述电子设备上。

实施例四

本实施例包括实施例一～三中任一个实施例的全部内容；在本实施例中，当所述语音信号与至少一个所述预设指令匹配时，执行所匹配的所述预设指令对应的操作前还包括：

依据所述语音信号进行第一模式语音识别；

本实施例中，所述第一模式语音识别可以根据需要自行设计，可以是判断所述语音信号的特征是否匹配预设条件，比如进行声纹识别；也可以是识别所述语音信号中是否包含了预定语音信息，比如所述语音信号中是否包含了内容及顺序与预定密码匹配的语音输入。当所述第一模式语音识别的结果多于两个时，可分别限定每个结果对应的是“执行”还是“拒绝执行”所匹配的所述预设指令对应的操作。

本实施例中，当所述语音信号与至少一个所述预设指令匹配时，通过本次语音信号的输入就可以继续完成对该语音信号的识别，根据识别结果就能自动进行或拒绝进行所述预设指令对应的操作，整个过程无需用户进行冗余的操作，只要进行一次性的语音输入即可，简化了语音识别的过程。

实施例五

本实施例包括实施例四的全部内容；在本实施例中，所述第一模式语音识别包括：

依据所述语音信号进行预设命令相关的声纹确认；

本实施例中，所述预设命令相关的声纹确认可以是指：进行该确认所用的声纹模型是基于预设的语音数据集合进行训练的；所述预设指令中的自定义的语音数据包含在所述预设的语音数据集合之中。通过所述预设命令相关的声纹确认可以准确判断所述自定义的语音数据的声纹是否和预设的有操作权限的用户的声纹匹配。这里所述有操作权限的用户可以是一个，也可以是多个，可以自由设置和更改。

本实施例中，通过声纹确认并根据确认结果判断是否执行所匹配的预设指令对应的操作，可保证所述语音信号来源的合法性，避免让授权用户以外的人通过语音输入控制所述电子设备执行所匹配的预设指令对应的操作。

本实施例中，假设所述预设指令对应的操作为唤醒，那么当用户的声纹与电子设备中预设的声纹不匹配时，电子设备将直接拒绝进行唤醒，而不是唤醒后再等待用户进行声纹确认，进一步提升了电子设备的安全。

实施例六

本实施例包括实施例五的全部内容；在本实施例中，当所述语音信号中还包含所述预设指令以外的语音识别信息时，执行所匹配的所述预设指令对应的操作前还包括：

依据所述语音识别信息进行第二模式语音识别；

本实施例中，如果所述语音数据中包括所述预设指令之外的语音识别信息，将会在执行所匹配的所述预设指令对应的操作之前，先对所述语音识别信息进行第二模式语音识别，确认能否执行所匹配的所述预设指令对应的操作，并据此判断能否执行所述语音识别信息对应的操作。

进行第二模式语音识别与进行第一模式语音识别的步骤可以不分洗后；依据两个模式识别的结果都是执行时才执行所匹配的预设指令对应的操作。

通过对所述预设指令及所述预设指令之外的语音识别信息综合进行识别，可以提高识别的准确度和可靠性。假设所述预设指令为“唤醒设备”，由于信息较短，还是有几率造成误判；当用户在“唤醒设备”之外附加其他语音输入时，可以同时利用前段的“唤醒设备”和后段的语音输入进行综合识别：由于组合后的语音信号的长度加长，因此识别的性能也会得到提升。

在其它实施例中，也可以设置为：只要判断所述语音信息中包含所述预设指令之外的语音识别信息，就直接进行第二模式语音识别，并根据该识别结果判断是否执行所匹配的所述预设指令及所述语音识别信息对应的操作，而不再进行预设命令有关的声纹确认。

实施例七

本实施例包括实施例六的全部内容；在本实施例中，所述第二模式语音识别包括：

预设命令无关的声纹确认；

本实施例中，所述预设命令无关的声纹确认可以是指：进行该确认所用的声纹模型是基于所述预设指令之外的语音输入进行训练的；实际应用时，也不排除对输入的语音信号都采用相同的声纹模型进行确认；本实施例中分别采用预设命令相关和无关的声纹确认，可提高识别的可靠度。

本实施例中，只有当所述第一、第二模式语音识别的结果都为通过时，才执行所匹配的所述预设指令对应的操作，其中任一个声纹确认未通过时，都会拒绝执行所匹配的所述预设指令对应的操作。如果所述语音识别信息也存在对应的操作，则当所述语音识别信息的声纹确认通过时，将会执行所述语音识别信息对应的操作；如果所述语音识别信息是所述电子设备中未定义操作的语音数据，即电子设备无法识别所述语音识别信息对应的操作时，则无论所述预设命令无关的声纹确认的结果是什么，将只对所匹配的所述预设指令对应的操作执行与否产生影响。

本实施例的一种实施方式中，还可以依据特定场景的语音数据，对进行所述预设命令无关的声纹确认所采用的模型进行优化训练。

所述特定场景的语音数据可以是语音引擎的使用场景中的常用语句，该训练可以提高预所述设命令无关的声纹确认的匹配度，从而提高所述预设命令无关的声纹确认的性能。

实施例八

本实施例包括实施例一～七中任一个实施例的全部内容；在本实施例中还包括：

本实施例中可以自由设置或更改所述预设指令及其对应的操作，增加了灵活性和可控性。比如用户在电子设备上有两个QQ号，可以将所述第一语音识别信息设置为包括“启动第一QQ”和“启动第二QQ”；无论语音输入为这两个句子中的哪一个，电子设备都会判断语音输入中包含第一语音输入信息，但两个句子所对应的操作不相同；当经过预设命令相关的声纹确认后，对于前者是进行启动第一QQ的操作，对于后者是进行启动第二QQ的操作。

在需要时，还可以对所述语音识别信息所对应的操作进行设置和修改。

实施例九

本实施例包括实施例一～八中任一个实施例的全部内容；在本实施例中，所述预设指令还可以包括自定义的文本数据；

将所述语音信号与所述预设指令进行匹配包括：

本实施例相当于对输入的语音信号进行了双重匹配，增加了匹配结果的可靠性；输入的语音信号不仅特征值要与所述预设指令中所述自定义的语音数据相似度足够高，还需要转换成的文本信息也与同一个所述预设指令中所述自定义的文本数据的内容相似度足够高，减少了误判断的几率。

实施例十

本实施例涉及一种电子设备，包括语音输入模块，用于接收语音信号；

还包括：

本实施例中，所述电子设备包括手机、平板电脑、电子书、笔记本电脑、电子辞典等。所述电子设备包括用于接收语音信号的语音输入模块，可以接收用户发出的语音信号。

本实施例中，当电子设备所接收的语音信号与用户预先在该电子设备中保存为所述预设指令的所述自定义的语音数据匹配时，该电子设备将执行相应的操作。

本实施例可以使用户对电子设备的语音控制不仅仅局限于电子设备厂商预定义的有限的指令和操作，而是可以根据需要将各式各样的所述自定义的语音数据作为进行特定操作的预设指令，提高了语音控制的灵活性，能满足用户个性化需要。

实施例十一

本实施例包括实施例十的全部内容；在本实施例中，还可以包括：

本实施例中的第三模块的操作与上述第一、第二模块的操作不分前后且可以并行；包括所述自定义的语音数据的预设指令不一定都要通过本实施例中的上述步骤获得，比如可以不进行验证，再比如可以从第一电子设备中导出并导入到第二电子设备中。

本实施例中，为了将所述自定义的语音数据与输入的所述语音信号相区分，可以但不限于设置为当满足第一预设条件时所述第三模块将输入的语音信号作为自定义的语音数据，进行验证并保存为与第一操作对应的所述预设指令，第一操作可以在输入该自定义的语音数据之前或之后或同时在所述电子设备上指定；而不满足第一预设条件时输入的语音信号则由所述第一模块直接与所述预设指令进行匹配，以判断是否要进行相应的操作。

本实施例的一种实施方式中，所述第三模块对输入的所述自定义的语音数据进行验证可以但不限于包括：所述第三模块判断所述自定义的语音数据是否不少于4个汉字或者不少于4个非中文单词等，如果是，则验证通过。本实施例中，通过特定原则对所述自定义的语音数据进行验证，可以避免将一些会影响语音识别效率或正确率，或影响语音控制的语音数据作为预设指令，从而保证基本的语音控制性能。

实施例十二

本实施例包括实施例十的全部内容；在本实施例中还可以包括：

本实施例中，可以是由电子设备对模型进行性能验证，也可以由服务器端进行该性能验证；这样可以提高语音唤醒性能，并可进一步实现自定义的语音数据的优化及推荐等功能。

实施例十三

本实施例包括实施例十～十二的全部内容；在本实施例中，所述第二模块还用于当所述语音信号与至少一个所述预设指令匹配时，执行所匹配的所述预设指令对应的操作前依据所述语音信号进行第一模式语音识别；依据所述第一模式语音识别的结果，执行或拒绝执行所匹配的所述预设指令对应的操作。

本实施例中，所述第一模式语音识别可以根据需要自行设计，可以是判断所述语音信号的特征是否匹配预设条件，比如进行声纹识别；也可以是识别所述语音信号中是否包含了预定语音信息，比如所述语音信号中是否包含了内容及顺序与预定密码匹配的语音输入。当所述第一模式语音识别的结果多于两个时，可分别限定每个结果对应的是“执行”还是“拒绝执行”所匹配的预设指令对应的操作。

实施例十四

本实施例包括实施例十三的全部内容；在本实施例中，所述第二模块进行的所述第一模式语音识别包括：

依据所述语音信号进行预设命令相关的声纹确认；

本实施例中，所述预设命令相关的声纹确认可以是指：进行该确认所用的声纹模型是基于预设的语音数据集合进行训练的；所述预设指令中的所述自定义的语音数据包含在所述预设的语音数据集合之中。通过所述预设命令相关的声纹确认可以准确判断所述自定义的语音数据的声纹是否和预设的有操作权限的用户的声纹匹配。这里有操作权限的用户可以是一个，也可以是多个，可以自由设置和更改。

实施例十五

本实施例包括实施例十四的全部内容；在本实施例中，所述第二模块还用于当所述语音信号中还包含所述预设指令以外的语音识别信息时，执行所匹配的所述预设指令对应的操作前依据所述语音识别信息进行第二模式语音识别；依据所述第二模式语音识别的结果，执行或者拒绝执行所匹配的所述预设指令对应的操作及所述语音识别信息对应的操作。

所述第二模块进行所述第二模式语音识别与进行所述第一模式语音识别可以不分洗后；依据两个模式识别的结果都是执行时所述第二模块才执行所匹配的所述预设指令对应的操作。

通过对所述预设指令及所述预设指令之外的语音识别信息综合进行识别，可以提高识别的准确度和可靠性；由于组合后的语音信号的长度加长，因此识别的性能也会得到提升。

在其它实施例中，也可以设置为：所述第二模块只要判断所述语音信息中包含所述预设指令之外的语音识别信息，就直接进行第二模式语音识别，并根据该识别结果判断是否执行所匹配的所述预设指令及所述语音识别信息对应的操作，而不再进行所述预设命令有关的声纹确认。

实施例十六

本实施例包括实施例十五的全部内容；在本实施例中，所述第二模块进行的所述第二模式语音识别包括：

预设命令无关的声纹确认；

本实施例中，所述预设命令无关的声纹确认可以是指：进行该确认所用的声纹模型是基于预设指令之外的语音输入进行训练的；实际应用时，也不排除对输入的语音信号都采用相同的声纹模型进行确认；本实施例中分别采用预设命令相关和无关的声纹确认，可提高识别的可靠度。

本实施例中，只有当所述第一、第二模式语音识别的结果都通过时，才执行所匹配的所述预设指令对应的操作，其中任一个声纹确认未通过时，都会拒绝执行所匹配的所述预设指令对应的操作。如果所述语音识别信息也存在对应的操作，则当所述语音识别信息的声纹确认通过时，将会执行所述语音识别信息对应的操作；如果所述语音识别信息是所述电子设备中未定义操作的语音数据，即电子设备无法识别所述语音识别信息对应的操作时，则无论所述预设命令无关的声纹确认的结果是什么，将只对所匹配的所述预设指令对应的操作执行与否产生影响。

实施例十七

本实施例包括实施例十六的全部内容；在本实施例中所述电子设备还可以包括：

所述特定场景的语音数据可以是语音引擎的使用场景中的常用语句，该训练可以提高所述预设命令无关的声纹确认的匹配度，从而提高所述预设命令无关的声纹确认的性能。

实施例十八

本实施例包括实施例十～十七中任一个实施例的全部内容；在本实施例中，所述第一存储模块还用于根据第一指令设置或修改所述预设指令的集合，或者根据所述第一指令设置或修改所述预设指令与操作之间的对应关系。

本实施例中可以自由设置或更改所述预设指令及其对应的操作，增加了灵活性和可控性。在需要时，还可以对所述语音识别信息所对应的操作进行设置和修改。

实施例十九

本实施例包括实施例十～十八中任一个实施例的全部内容，在本实施例中，所述预设指令还包括自定义的文本数据；

所述第一模块将所述语音信号与预设指令进行匹配是指：

所述第一模块将包含所述语音信号的音频数据与所述预设指令中的所述自定义的语音数据进行比较，如果相似度超过第一预定阈值，则第一判断结果为匹配；将由所述语音信号转换得到的文本数据与所述预设指令中的所述自定义的文本数据进行比较，如果相似度超过第二预定阈值，则第二判断结果为匹配；当所述第一判断结果和所述第二判断结果均为匹配时，判断所述语音信号与所述预设指令匹配。

本领域的技术人员应该明白，上述的本申请实施例所提供的装置和/或系统的各组成部分，以及方法中的各步骤，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上。可选地，它们可以用计算装置可执行的程序代码来实现。从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

虽然本申请所揭露的实施方式如上，但所述的内容仅为便于理解本申请而采用的实施方式，并非用以限定本申请。任何本申请所属领域内的技术人员，在不脱离本申请所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本申请的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种语音控制方法，应用于包括语音输入模块的电子设备；所述方法包括：

所述语音输入模块接收语音信号；

当所述语音信号与至少一个所述预设指令匹配时，执行所匹配的所述预设指令对应的操作；

对输入的所述自定义的语音数据进行验证，将通过验证后的所述自定义的唤醒短语上传至服务器端，服务器端判断云端模型库中是否存在所述自定义的唤醒短语对应的模型，如果存在，将该已存在的所述自定义的唤醒短语对应的模型返回给所述电子设备中存储的本地模型库；如果不存在，则新建立所述自定义的唤醒短语对应的模型，还对新建立的所述自定义的唤醒短语对应的模型进行训练后，存储到云端模型库中；

其中，对输入的所述自定义的语音数据进行验证，具体包括：利用预定的校验原则对用户输入的自定义的唤醒短语进行验证；

所述预设指令还包括自定义的文本数据；

将所述语音信号与所述预设指令进行匹配包括：

2.如权利要求1所述的方法，其特征在于，还包括：

将通过验证的所述自定义的语音数据作为与第一操作对应的所述预设指令保存到第一存储模块中；

3.如权利要求2所述的方法，其特征在于，还包括：

当所述语音信号与至少一个所述预设指令匹配时，根据包含所述语音信号的音频数据和所匹配的所述预设指令，对所匹配的所述预设指令对应的所述模型进行性能验证。

4.如权利要求1～3中任一项所述的方法，其特征在于，当所述语音信号与至少一个所述预设指令匹配时，执行所匹配的所述预设指令对应的操作前还包括：

依据所述语音信号进行第一模式语音识别；

5.如权利要求4所述的方法，其特征在于：

所述第一模式语音识别包括：

依据所述语音信号进行预设命令相关的声纹确认；

如果所述预设命令相关的声纹确认的结果为通过，则执行所匹配的所述预设指令对应的操作；如果所述预设命令相关的声纹确认的结果为未通过，则拒绝执行所述所匹配的预设指令对应的操作。

6.如权利要求5所述的方法，其特征在于：

当所述语音信号中还包含所述预设指令以外的语音识别信息时，执行所匹配的所述预设指令对应的操作前还包括：

依据所述语音识别信息进行第二模式语音识别；

7.如权利要求6所述的方法，其特征在于：

所述第二模式语音识别包括：

预设命令无关的声纹确认；

8.如权利要求7所述的方法，其特征在于，还包括：

9.如权利要求1～3中任一项所述的方法，其特征在于，还包括：

10.一种电子设备，包括：

语音输入模块，用于接收语音信号；

其特征在于，还包括：

第二模块，用于当所述语音信号与至少一个所述预设指令匹配时，执行所匹配的所述预设指令对应的操作；

第三模块，用于对输入的所述自定义的语音数据进行验证，将通过验证后的所述自定义的唤醒短语上传至服务器端，以使服务器端判断云端模型库中是否存在所述自定义的唤醒短语对应的模型，如果存在，将该已存在的所述自定义的唤醒短语对应的模型返回给所述电子设备中存储的本地模型库；如果不存在，则新建立所述自定义的唤醒短语对应的模型，还对新建立的所述自定义的唤醒短语对应的模型进行训练后，存储到云端模型库中；

所述预设指令还包括自定义的文本数据；

所述第一模块将所述语音信号与所述预设指令进行匹配是指：

11.如权利要求10所述的电子设备，其特征在于，还包括：

第一存储模块；

第三模块，用于将通过验证的所述自定义的语音数据作为与第一操作对应的所述预设指令保存到第一存储模块；

12.如权利要求11所述的电子设备，其特征在于，还包括：

第四模块，用于当所述语音信号与至少一个所述预设指令匹配时，根据包含所述语音信号的音频数据和所匹配的所述预设指令，对所匹配的所述预设指令对应的模型进行性能验证。

13.如权利要求10～12中任一项所述的电子设备，其特征在于：

所述第二模块还用于当所述语音信号与至少一个所述预设指令匹配时，执行所匹配的所述预设指令对应的操作前依据所述语音信号进行第一模式语音识别；依据所述第一模式语音识别的结果，执行或拒绝执行所匹配的所述预设指令对应的操作。

14.如权利要求13所述的电子设备，其特征在于：

所述第二模块进行的所述第一模式语音识别包括：

依据所述语音信号进行预设命令相关的声纹确认；

15.如权利要求14所述的电子设备，其特征在于：

所述第二模块还用于当所述语音信号中还包含所述预设指令以外的语音识别信息时，执行所匹配的所述预设指令对应的操作前依据所述语音识别信息进行第二模式语音识别；依据所述第二模式语音识别的结果，执行或者拒绝执行所匹配的所述预设指令对应的操作及所述语音识别信息对应的操作。

16.如权利要求15所述的电子设备，其特征在于：

所述第二模块进行的所述第二模式语音识别包括：

预设命令无关的声纹确认；

17.如权利要求16所述的电子设备，其特征在于，还包括：

18.如权利要求11～12中任一项所述的电子设备，其特征在于：

所述第一存储模块还用于根据第一指令设置或修改所述预设指令的集合，或者根据所述第一指令设置或修改所述预设指令与操作之间的对应关系。