CN111477225A

CN111477225A - 语音控制方法、装置、电子设备及存储介质

Info

Publication number: CN111477225A
Application number: CN202010225073.6A
Authority: CN
Inventors: 冯大航; 陈孝良; 靳源
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2020-07-31
Anticipated expiration: 2040-03-26
Also published as: CN111477225B

Abstract

本公开提供了一种语音控制方法、装置、电子设备及存储介质，属于互联网技术领域。方法包括：接收被输入的语音信号，对语音信号进行离线意图识别，得到语音信号对应的第一意图信息；执行第一意图信息对应的第一操作，以及，向服务器发送语音信号，服务器用于对语音信号进行在线意图识别，得到语音信号对应的第二意图信息；接收服务器返回的第二意图信息，响应于第二意图信息与第一意图信息不一致，取消第一操作，执行第二意图信息对应的第二操作，可以在确保语音控制的准确性的前提下，提高语音控制的效率。将该方法应用于语音控制电梯的场景下，则可以大大提高电梯启动和运行的效率，提高用户粘性。

Description

语音控制方法、装置、电子设备及存储介质

技术领域

本公开涉及互联网技术领域，特别涉及一种语音控制方法、装置、电子设备及存储介质。

背景技术

在很多写字楼或者商场中，由于人员密度很高，电梯内常常是满员状态，从而只有电梯口处的乘客才能顺利按到电梯按钮，其它乘客需要请求电梯口处的乘客帮忙按下需要到达的楼层对应的电梯按钮，这样会产生很多不必要的麻烦。另外，残疾人、盲人等特殊人士乘坐电梯时，也不能方便地按到电梯按钮。然而，通过语音控制电梯则可以解决上述难题。

相关技术中，一般通过在线语音识别控制电梯，即乘客想要去几楼，乘客可以在电梯内通过语音发出控制指令，例如“去5楼”。电梯内的电子设备接收乘客发出的该控制指令对应的语音信号，向服务器发送该语音信号。服务器对该语音信号进行在线语音识别，得到该控制指令，向电子设备返回该控制指令，电子设备根据该控制指令达到对应的楼层。

相关技术存在的问题是，在线语音识别需要经过网络传输，响应速度慢，并且，在线语音识别易受网络质量的影响，在网络质量差的情况下，响应的延迟较大，从而导致语音控制的效率低。

发明内容

本公开实施例提供了一种语音控制方法，可以提高语音控制的响应速度。

所述技术方案如下：

第一方面，提供了一种语音控制方法，所述方法包括：

接收被输入的语音信号，对所述语音信号进行离线意图识别，得到所述语音信号对应的第一意图信息；

执行所述第一意图信息对应的第一操作，以及，向服务器发送所述语音信号，所述服务器用于对所述语音信号进行在线意图识别，得到所述语音信号对应的第二意图信息；

接收所述服务器返回的所述第二意图信息，响应于所述第二意图信息与所述第一意图信息不一致，取消所述第一操作，执行所述第二意图信息对应的第二操作。

在一种可能的实现方式中，所述响应于所述第二意图信息与所述第一意图信息不一致，取消所述第一操作，包括：

获取所述服务器的响应时长，所述响应时长为发送所述语音信号的第一时间戳与接收所述第二意图信息的第二时间戳之间的差值；

响应于所述响应时长小于第一预设阈值，且所述第二意图信息与所述第一意图信息不一致，取消所述第一操作。

在另一种可能的实现方式中，所述语音信号用于对电梯进行控制，所述第一意图信息包括控制所述电梯前往的第一楼层，所述第二意图信息包括控制所述电梯前往的第二楼层；所述响应于所述第二意图信息与所述第一意图信息不一致，取消所述第一操作，包括：

响应于所述第一楼层高于所述第二楼层，确定当前的第三时间戳与所述电梯预计到达所述第一楼层的第四时间戳之间的时间差；

响应于所述时间差不小于第二预设阈值，且所述第二意图信息与所述第一意图信息不一致，取消所述第一操作。

在另一种可能的实现方式中，所述方法还包括：

响应于所述第一楼层低于所述第二楼层，继续执行所述第一操作，以及执行所述第二操作；或者，

响应于所述第一楼层高于所述第二楼层，且所述时间差小于所述第二预设阈值，继续执行所述第一操作，以及执行所述第二操作。

在另一种可能的实现方式中，所述向服务器发送所述语音信号之前，所述方法还包括：

获取所述第一意图信息的置信度；

响应于所述置信度小于第三预设阈值，执行所述向所述服务器发送所述语音信号的步骤。

在另一种可能的实现方式中，所述语音信号用于对电梯进行控制，所述向服务器发送所述语音信号之前，所述方法还包括：

获取所述电梯内用户的数量；

响应于所述用户的数量大于第四预设阈值，执行所述向所述服务器发送所述语音信号的步骤。

确定所述语音信号的信噪比；

响应于所述信噪比小于第五预设阈值，执行所述向所述服务器发送所述语音信号的步骤。

在另一种可能的实现方式中，所述对所述语音信号进行离线意图识别之前，所述方法还包括：

提取所述语音信号的第一声纹信息；

根据预存储的第一声纹库对所述第一声纹信息进行权限认证，所述第一声纹库用于存储具有语音控制权限的声纹信息；

响应于所述权限认证通过，执行所述对所述语音信号进行离线意图识别的步骤。

在另一种可能的实现方式中，所述语音信号用于对电梯进行控制，且所述第一意图信息包括控制所述电梯前往的第一楼层；所述执行所述第一意图信息对应的第一操作之前，所述方法还包括：

提取所述语音信号的第一声纹信息；

根据所述第一楼层，确定第二声纹库，所述第二声纹库用于存储具有前往所述第一楼层权限的声纹信息；

根据所述第二声纹库对所述第一声纹信息进行权限认证；

响应于所述权限认证通过，执行所述执行所述第一意图信息对应的第一操作的步骤。

在另一种可能的实现方式中，所述方法还包括：

响应于所述第二意图信息与所述第一意图信息一致，忽略所述第二意图信息，继续执行所述第一操作。

在另一种可能的实现方式中，所述第一意图信息包括对电梯控制的控制指令和所述控制指令对应的第三楼层；

所述执行所述第一意图信息对应的第一操作，包括：

响应于所述控制指令为确认指令，则控制所述电梯前往所述第三楼层；

响应于所述控制指令为取消指令，则取消所述电梯前往所述第三楼层的操作。

第二方面，提供了一种语音控制装置，所述装置包括：

语音接收模块，被配置为接收被输入的语音信号；

意图信息获取模块，被配置为对所述语音信号进行离线意图识别，得到所述语音信号对应的第一意图信息；

操作执行模块，被配置为执行所述第一意图信息对应的第一操作；

语音发送模块，被配置为向服务器发送所述语音信号，所述服务器用于对所述语音信号进行在线意图识别，得到所述语音信号对应的第二意图信息；

意图信息接收模块，被配置为接收所述服务器返回的所述第二意图信息；

所述操作执行模块，还被配置为响应于所述第二意图信息与所述第一意图信息不一致，取消所述第一操作，执行所述第二意图信息对应的第二操作。

在一种可能的实现方式中，所述操作执行模块，还被配置为获取所述服务器的响应时长，所述响应时长为发送所述语音信号的第一时间戳与接收所述第二意图信息的第二时间戳之间的差值；响应于所述响应时长小于第一预设阈值，且所述第二意图信息与所述第一意图信息不一致，取消所述第一操作。

在另一种可能的实现方式中，所述语音信号用于对电梯进行控制，所述第一意图信息包括控制所述电梯前往的第一楼层，所述第二意图信息包括控制所述电梯前往的第二楼层；

所述操作执行模块，还被配置为响应于所述第一楼层高于所述第二楼层，确定当前的第三时间戳与所述电梯预计到达所述第一楼层的第四时间戳之间的时间差；响应于所述时间差不小于第二预设阈值，且所述第二意图信息与所述第一意图信息不一致，取消所述第一操作。

在另一种可能的实现方式中，所述操作执行模块，还被配置为响应于所述第一楼层低于所述第二楼层，继续执行所述第一操作，以及执行所述第二操作；或者，响应于所述第一楼层高于所述第二楼层，且所述时间差小于所述第二预设阈值，继续执行所述第一操作，以及执行所述第二操作。

在另一种可能的实现方式中，所述语音发送模块，还被配置为获取所述第一意图信息的置信度；响应于所述置信度小于第三预设阈值，向所述服务器发送所述语音信号。

在另一种可能的实现方式中，所述语音发送模块，还被配置为获取所述电梯内用户的数量；响应于所述用户的数量大于第四预设阈值，向所述服务器发送所述语音信号。

在另一种可能的实现方式中，所述语音发送模块，还被配置为确定所述语音信号的信噪比；响应于所述信噪比小于第五预设阈值，向所述服务器发送所述语音信号。

在另一种可能的实现方式中，所述意图信息获取模块，还被配置为提取所述语音信号的第一声纹信息；根据预存储的第一声纹库对所述第一声纹信息进行权限认证，所述第一声纹库用于存储具有语音控制权限的声纹信息；响应于所述权限认证通过，对所述语音信号进行离线意图识别。

在另一种可能的实现方式中，所述语音信号用于对电梯进行控制，且所述第一意图信息包括控制所述电梯前往的第一楼层；所述操作执行模块，还被配置为根据所述第一楼层，确定第二声纹库，所述第二声纹库用于存储具有前往所述第一楼层权限的声纹信息；根据所述第二声纹库对所述第一声纹信息进行权限认证；响应于所述权限认证通过，执行所述第一意图信息对应的第一操作。

在另一种可能的实现方式中，所述操作执行模块，还被配置为响应于所述第二意图信息与所述第一意图信息一致，忽略所述第二意图信息，继续执行所述第一操作。

在另一种可能的实现方式中，所述第一意图信息包括对电梯控制的控制指令和所述控制指令对应的第三楼层；所述操作执行模块，还被配置为响应于所述控制指令为确认指令，则控制所述电梯前往所述第三楼层；响应于所述控制指令为取消指令，则取消所述电梯前往所述第三楼层的操作。

第三方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现上述任一种可能实现方式中的语音控制方法中所执行的操作。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现上述任一种可能实现方式中的语音控制方法中电子设备执行的操作。

本公开实施例提供的技术方案带来的有益效果是：

在本公开实施例中，接收被输入的语音信号，对语音信号进行离线意图识别，得到语音信号对应的第一意图信息；执行第一意图信息对应的第一操作，以及，向服务器发送语音信号，服务器用于对语音信号进行在线意图识别，得到语音信号对应的第二意图信息；接收服务器返回的第二意图信息，响应于第二意图信息与第一意图信息不一致，取消第一操作，执行第二意图信息对应的第二操作。由于离线识别一般比在线识别的响应速度快，通过对语音信号进行离线意图识别，得到语音信号对应的第一意图信息，执行第一意图信息对应的第一操作，保证了语音控制的响应速度，从而可提高语音控制的效率。由于在线识别的准确率一般比离线识别的准确率高，通过响应于第二意图信息与第一意图信息不一致，取消第一操作，执行第二意图信息对应的第二操作，保证了语音控制的准确性。将该方法应用于语音控制电梯的场景下，则可以大大提高电梯启动和运行的效率，提高用户粘性。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本公开实施例提供的一种实施环境的示意图；

图2是本公开实施例提供的一种语音控制方法流程图；

图3是本公开实施例提供的一种语音控制方法流程图；

图4是本公开实施例提供的一种语音控制装置的框图；

图5是本公开实施例提供的一种电子设备的结构示意图；

图6是本公开实施例提供的一种服务器的结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开实施方式作进一步地详细描述。

对方案中的专业术语做出解释：

离线意图识别：通过电子设备中的离线识别系统对语音信号进行离线识别，并得到离线识别出的语音信号的控制命令的过程。其中，离线意图可以理解为离线识别系统中的离线命令词。

图1是本公开实施例提供的一种实施环境的示意图。参见图1，该实施环境包括电子设备101和服务器102。电子设备101和服务器102之间通过无线或者有线网络连接。并且，电子设备101上可以安装由服务器102提供服务的目标应用，电子设备101对应的用户可以通过该目标应用实现例如数据传输、消息交互等功能。

电子设备101可以为电脑、手机、平板电脑、智能音箱、小机器人、智能家居、汽车、电梯或者其他设备中的电子设备。目标应用可以为电子设备101上安装的任一应用；并且，目标应用可以为电子设备101操作系统中的目标应用，还可以为第三方提供的目标应用。例如，目标应用可以为语音交互应用，语音控制应用、游戏应用、购物应用、金融应用、社交应用或者短视频应用等。服务器102可以为该目标应用对应的后台服务器。相应的，服务器102可以为语音交互应用服务器、语音控制应用服务器、游戏应用服务器、购物服务器、金融服务器、社交应用服务器或者短视频应用服务器等。服务器102还可以为云端服务器。

本公开提供的语音控制方法可以应用在多种场景下，例如，可以应用在语音控制电梯的场景下。相应的，电子设备101可以为电梯中的语音控制设备，用于控制电梯前往某个楼层或者取消前往某个楼层，又或者控制电梯开门或者关门，电子设备101还可以控制电梯进行其他操作，本公开对此不做限制。

又如，本公开提供的语音控制方法可以应用在语音控制汽车的场景下，相应的，电子设备101可以为汽车中的车载终端，用于控制汽车上锁、解锁、转弯、鸣笛，刹车等，或者控制汽车进行其他操作，本公开对此不做限制。

再如，本公开提供的语音控制方法可以应用在语音控制小机器人的场景下，相应的，电子设备101可以为小机器人身上的语音控制装置，用于控制小机器人播放音乐，查询天气、跳舞或者执行其他操作，本公开对此不做限制。上述应用场景只是示例性说明，本公开中的语音控制方法还可以应用在其他场景下，例如，语音控制智能家居的场景，本公开对此不做限制。

图2是本公开实施例提供的一种语音控制方法的流程图。参见图2，该实施例包括：

步骤201：接收被输入的语音信号，对语音信号进行离线意图识别，得到语音信号对应的第一意图信息。

步骤202：执行第一意图信息对应的第一操作。

步骤203：向服务器发送语音信号，服务器用于对语音信号进行在线意图识别，得到语音信号对应的第二意图信息。

步骤204：接收服务器返回的第二意图信息，响应于第二意图信息与第一意图信息不一致，取消第一操作，执行第二意图信息对应的第二操作。

在一种可能的实现方式中，响应于第二意图信息与第一意图信息不一致，取消第一操作，包括：

获取服务器的响应时长，响应时长为发送语音信号的第一时间戳与接收第二意图信息的第二时间戳之间的差值；

响应于响应时长小于第一预设阈值，且第二意图信息与第一意图信息不一致，取消第一操作。

在另一种可能的实现方式中，语音信号用于对电梯进行控制，第一意图信息包括控制电梯前往的第一楼层，第二意图信息包括控制电梯前往的第二楼层；响应于第二意图信息与第一意图信息不一致，取消第一操作，包括：

响应于第一楼层高于第二楼层，确定当前的第三时间戳与电梯预计到达第一楼层的第四时间戳之间的时间差；

响应于时间差不小于第二预设阈值，且第二意图信息与第一意图信息不一致，取消第一操作。

在另一种可能的实现方式中，方法还包括：

响应于第一楼层低于第二楼层，继续执行第一操作，以及执行第二操作；或者，

响应于第一楼层高于第二楼层，且时间差小于第二预设阈值，继续执行第一操作，以及执行第二操作。

在另一种可能的实现方式中，向服务器发送语音信号之前，方法还包括：

获取第一意图信息的置信度；

响应于置信度小于第三预设阈值，执行向服务器发送语音信号的步骤。

在另一种可能的实现方式中，语音信号用于对电梯进行控制，向服务器发送语音信号之前，方法还包括：

获取电梯内用户的数量；

响应于用户的数量大于第四预设阈值，执行向服务器发送语音信号的步骤。

确定语音信号的信噪比；

响应于信噪比小于第五预设阈值，执行向服务器发送语音信号的步骤。

在另一种可能的实现方式中，对语音信号进行离线意图识别之前，方法还包括：

提取语音信号的第一声纹信息；

根据预存储的第一声纹库对第一声纹信息进行权限认证，第一声纹库用于存储具有语音控制权限的声纹信息；

响应于权限认证通过，执行对语音信号进行离线意图识别的步骤。

在另一种可能的实现方式中，语音信号用于对电梯进行控制，且第一意图信息包括控制电梯前往的第一楼层；执行第一意图信息对应的第一操作之前，方法还包括：

提取语音信号的第一声纹信息；

根据第一楼层，确定第二声纹库，第二声纹库用于存储具有前往第一楼层权限的声纹信息；

根据第二声纹库对第一声纹信息进行权限认证；

响应于权限认证通过，执行该执行第一意图信息对应的第一操作的步骤。

在另一种可能的实现方式中，方法还包括：

响应于第二意图信息与第一意图信息一致，忽略第二意图信息，继续执行第一操作。

在另一种可能的实现方式中，第一意图信息包括对电梯控制的控制指令和控制指令对应的第三楼层；

执行第一意图信息对应的第一操作，包括：

响应于控制指令为确认指令，则控制电梯前往第三楼层；

响应于控制指令为取消指令，则取消电梯前往第三楼层的操作。

需要说明的一点是，上述第一楼层、第二楼楼层以及第三楼层只是楼层的标识，并不代表实际楼层。例如，第一楼层可以1楼、2楼或者其他楼层，第二楼层和第三楼层同理。

图3是本公开实施例提供的一种语音控制方法的流程图。参见图3，该实施例包括：

步骤301：电子设备接收被输入的语音信号，提取语音信号的第一声纹信息，根据预存储的第一声纹库对第一声纹信息进行权限认证，第一声纹库用于存储具有语音控制权限的声纹信息。

其中，电子设备可以为电梯、汽车、智能家居、智能信箱、小机器人、手机、电脑或者其他设备中的电子设备，本公开对此不做限制。语音信号中携带有控制命令，电子设备用于根据该控制命令控制电梯、汽车、智能家居、智能信箱、小机器人、手机、电脑或者其他设备执行相应的操作。例如，第一语音信号为“去3楼”，则电子设备控制电梯前往3楼。

声纹(Voice Print)如同指纹一样，人人都有，且各不相同，且声纹与口音无关，与语言无关，可以用于进行身份识别。声纹信息为用户的声纹特征，第一声纹信息则是语音信号中的用户的声纹特征。

第一声纹库可以是预先存储在电子设备中的，并且，第一声纹库中可以存储电子设备事先采集的具有语音控制权限的多个声纹信息。例如，第一声纹库中可以用于存储可以语音控制某个电梯的多个用户的声纹信息。或者，第一声纹库可以用于存储可以语音控制某个汽车的多个用户的声纹信息。第一声纹库还可以用于存储其他声纹信息，本公开对此不做限制。

电子设备接收被输入的语音信号的实现方式可以为：电子设备响应于接收到用户输入的唤醒词后，接收被输入的语音信号。其中，唤醒词可以根据需要设定，例如，唤醒词可以为“你好，电梯”，本公开对此不做限制。或者，电子设备也可以直接接收被输入的语音信号，被公开对此不做限制。

在本公开实施例中，电子设备通过响应于接收到用户输入的唤醒词后，接收被输入的语音信号，方法简单，易于实现。电子设备通过直接接收被输入的语音信号，则用户不用说唤醒词即可实现语音控制，方便快捷，语音控制的效率高。

在一种可能的实现方式中，电子设备根据预存储的第一声纹库对第一声纹信息进行权限认证的实现方式可以为：电子设备获取第一声纹信息与第一声纹库中每个声纹信息的相似度，响应于存在大于预设阈值的相似度，确定第一声纹信息权限认证通过，否则，确定第一声纹信息权限认证失败。

电子设备响应于权限认证通过，执行步骤302，响应于权限认证失败，执行默认的操作，或者不执行任何操作。其中，默认的操作可以为提示用户不具备语音控制权限，当然，默认的操作也可以为其他操作，本公开对此不做限制。电子设备通过在权限认证失败时，执行默认的步骤，可以在用户不具备语音控制的权限，但输入了语音信号的情况下，对用户做出响应，从而提高用户粘性。并且，通过执行提示用户不具备语音控制权限的默认操作，可以提示用户去获取语音控制的权限，并且可以防止用户认为电子设备故障。

在本公开实施例中，电子设备通过根据预存储的第一声纹库对第一声纹信息进行权限认证，可以提高语音控制的安全性。例如，在实际应用场景中，当电子设备为电梯内的语音控制设备，在用户试图用语音控制电梯前往某个楼层时，电子设备先根据用户的声纹信息对用户进行权限验证，确定用户是否具有语音控制权限，在权限验证通过时，再去确定用户输入的语音的意图，从而可以防止不具有使用该电梯权限的人士语音控制该电梯，从而可以提高安全性。

需要说明的一点是，步骤301中电子设备提取语音信号的第一声纹信息，根据预存储的第一声纹库对第一声纹信息进行权限认证的步骤不是必须的，电子设备可以在接收被输入的语音信号后，直接执行步骤302。

步骤302：电子设备对语音信号进行离线意图识别，得到语音信号对应的第一意图信息。

第一意图信息与本公开的应用场景相关，例如，在对汽车进行语音控制的场景下，第一意图信息可以包括汽车中的执行部件和执行的动作内容。例如，执行部件为车窗，执行的动作内容为打开，又如，执行部件为音箱，执行的动作为提高音量。

在其他场景，例如在对电梯进行语音控制的场景下，第一意图信息可以包括对电梯控制的控制指令和该控制指令对应的第三楼层，其中，控制指令可以包括确认指令，用于控制电梯前往第三楼层，还可以包括取消指令，用于取消电梯前往第三楼层的操作。需要说明的一点是，上述应用场景只是示例性说明，本公开还可以应用在其他场景下。并且，上述第一意图信息也是示例性说明，第一意图信息可以根据应用场景改变，本公开对此不做限制。

电子设备对语音信号进行离线意图识别，得到语音信号对应的第一意图信息的实现方式有两种，第一种是电子设备直接根据语音信号获取第一意图信息，第二种是电子设备将语音信号转换为文本，根据该文本获取第一意图信息。

在第一种方式中，电子设备可以预先存储语音命令词库，该语音命令词库用于存储多个语音命令词，且一个语音命令词对应一个意图信息，相应的，电子设备对语音信号进行离线意图识别，得到语音信号对应的第一意图信息的实现方式可以为：电子设备从语音命令词库中选择与语音信号相似度最高的语音命令词，将该语音命令词对应的意图信息作为第一意图信息。

以语音命令词库用于控制电梯为例，该语音命令词库中存储的多个语音命令词可以包括“去3楼”、“取消去3楼”、“开门”、“关门”等，其中，“去3楼”对应的意图信息可以为“确认指令-3楼”，“取消去3楼”对应的意图信息可以为“取消指令-3楼”，“开门”对应的意图信息可以为“确认指令-开门”，“关门”对应的意图信息可以为“确认指令-关门”，需要说明的一点是，上述语音命令词以及对应的意图信息只是示例性说明，本公开对此不做限制。

以语音信号为“去3楼”为例进行说明，则电子设备从上述语音命令词库中选择与语音信号相似度最高的语音命令词“去3楼”。

在本公开实施例中，通过直接根据语音信号获取第一意图信息，则可以省略将语音信号转换为文本的过程，方法简单，效率高。

需要说明的一点是，语音命令词库中可以包括多种语种的语音命令库；相应的，电子设备对语音信号进行离线意图识别，得到语音信号对应的第一意图信息的步骤可以为：服务器根据语音信号，确定语音信号的目标语种，根据该目标语种，获取该目标语种对应的目标语音命令库，从目标语音命令词库中选择与语音信号相似度最高的语音命令词，将该语音命令词对应的意图信息作为第一意图信息。

例如，多种语种的语音命令库包括中文的语音命令库、英语的语音命令库、法语的语音命令库或者其他语种的语音命令库等。在本公开实施例中，通过在语音命令词库中存储多种语种以及方言的命令词，可以提高方案的实用性，扩展方案的应用场景，并且可以提高语音控制的准确性。

在第二种方式中，电子设备可以存储文本命令词库，该文本命令词库用于存储多个文本命令词，且一个文本命令词对应一个意图信息，相应的，电子设备对语音信号进行离线意图识别，得到语音信号对应的第一意图信息的实现方式可以为：电子设备获取语音信号对应的第一文本，从文本命令词库中选择与第一文本相似度最高的文本命令词，将该文本命令词对应的意图信息作为第一意图信息。

以文本命令词库用于控制电梯为例，该文本命令词库中存储的多个文本命令词可以包括“去3楼”、“取消去3楼”、“开门”、“关门”等，其中，“去3楼”对应的意图信息可以为“确认指令-3楼”，“取消去3楼”对应的意图信息可以为“取消指令-3楼”，“开门”对应的意图信息可以为“确认指令-开门”，“关门”对应的意图信息可以为“确认指令-关门”，需要说明的一点是，上述文本命令词以及对应的意图信息只是示例性说明，本公开对此不做限制。

以语音信号为“去3楼”为例进行说明，则电子设备将该语音信号转换为文本“去3楼”，从上述文本命令词库中选择与该文本相似度最高的文本命令词为“去3楼”。

在本公开实施例中，通过将语音信号转换为文本，通过该文本获取第一意图信息，则不用提前采集大量语音命令词，来生成语音命令词库，可以降低前期的任务量。

需要说明的一点是，电子设备对语音信号进行离线意图识别，响应于获取不到语音信号对应的第一意图信息，则不执行步骤303，直接执行步骤304。

步骤303：电子设备执行第一意图信息对应的第一操作。

以电子设备为电梯内的语音控制设备、第一意图信息包括对电梯控制的控制指令和控制指令对应的第三楼层为例，电子设备执行第一意图信息对应的第一操作的实现方式为：电子设备响应于控制指令为确认指令，则控制电梯前往第三楼层，响应于控制指令为取消指令，则取消电梯前往第三楼层的操作。例如，第一意图信息为“确认指令-3楼”，则电子设备控制电梯前往3楼，又如，第一意图信息为“取消指令-5楼”，则电子设备取消电梯前往5楼的操作。

在一种可能的实现方式中，电子设备在执行第一意图信息对应的第一操作之前，需要先进行权限认证，实现方式为：电子设备提取语音信号的第一声纹信息，根据第三楼层，确定第二声纹库，第二声纹库用于存储具有前往第一楼层权限的声纹信息，电子设备根据第二声纹库对第一声纹信息进行权限认证，响应于权限认证通过，执行第一意图信息对应的第一操作。

例如，第一意图信息为“确认指令-3楼”，则上述第二指纹库存储了具有前往3楼的权限的声纹信息，电子设备响应于权限认证通过，控制电梯前往3楼。

其中，电梯根据第二声纹库对第一声纹信息进行权限认证的实现方式和上述电子设备根据第一声纹库，对第一声纹信息进行权限认证的实现方式同理，此处不再赘述。在本公开实施例中，电梯通过在执行前往楼层的操作之前，先进行权限认证，响应于权限认证通过，执行前往楼层的操作，可以防止不具有某个楼层权限的用户语音控制电梯前往该楼层，进一步提高了语音控制的安全性。

步骤304：电子设备向服务器发送语音信号。

在一种可能的实现方式中，电子设备向服务器发送语音信号前，先要获取第一意图信息的置信度，响应于置信度小于第三预设阈值，向服务器发送语音信号。

其中，置信度也称为可靠度，或置信水平、置信系数，用于表明第一意图信息可靠的程度，值越高代表越可信。电子设备可以在对语音信号进行离线意图识别时，获取第一意图信息的置信度。

在本公开实施例中，当置信度不小于第三预设阈值，即置信度较高时，电子设备则不向服务器发送语音信号。由于置信度较小时，第一意图信息的可信度较低，电子设备通过获取第一意图信息的置信度，响应于置信度小于第三预设阈值，向服务器发送语音信号，后续结合服务器返回的结果执行语音控制的操作，可以保证语音控制的准确率。在置信度较高时，则不向服务器发送语音信号，可以节省网络资源，较低电子设备功率消耗。

在另一种可能的实现方式中，电子设备向服务器发送语音信号前，还要确定语音信号的信噪比，响应于信噪比小于第五预设阈值，向服务器发送语音信号。

其中，信噪比(signal-to-noise ratio)是语音信号中有效成分的功率与噪声成分功率之比。信噪比的值越大，语音识别越容易，语音识别结果的准确率越高。

在本公开实施例中，电子设备确定语音信号的信噪比的实现方式可以为：电子设备对语音信号进行采样，得到语音信号的多个帧，对于每一帧，电子设备通过对该帧对应的时间段的能量求积分，得到该帧的能量，电子设备将上述多个帧中能量最高的帧的能量与能量最低的帧的能量的比值作为语音信号的信噪比。

在本公开实施例中，在信噪比小于第五预设阈值，即信噪比较小时，语音识别较难，电子设备通过向服务器发送语音信号，后续结合服务器返回的在线意图识别结果执行语音控制操作，可以保证语音控制的准确率。在信噪比较大时，则不向服务器发送语音信号，可以节省网络资源，较低电子设备功率消耗。

在另一种可能的实现方式中，电子设备向服务器发送语音信号前，还要获取电梯内用户的数量，响应于用户的数量大于第四预设阈值，向服务器发送语音信号。

其中，电子设备获取电梯内用户数量的实现方式可以为：电子设备确定当前电梯所承载的重量，根据该重量以及重量与用户数量的对应关系，确定电梯内的用户数量。

在本公开实施例中，在电梯内用户数量较多的情况下，语音信号中包含的信息量可能较大，电子设备通过向服务器发送语音信号，后续结合服务器返回的在线意图识别结果执行语音控制操作，可以保证语音控制的准确率。在电梯内用户数量较少时，则不向服务器发送语音信号，可以节省网络资源，较低电子设备功率消耗。

需要说明的一点是，上述三种向服务器发送语音信号的条件，可以以任意方式组合使用，例如，电子设备可以响应于置信度小于第三预设阈值，且信噪比小于第五预设阈值，向服务器发送语音信号。又如，电子设备可以响应于置信度小于第三预设阈值，且电梯内用户的数量大于第四预设阈值，向服务器发送语音信号。本公开对此不做限制。

需要说明的另一点是，电子设备在向服务器发送语音信号前，可以先确定是否联网，如果没有联网，则不执行该步骤以及之后的步骤。

步骤305：服务器接收电子设备发送的语音信号，对语音信号进行在线意图识别，得到语音信号对应的第二意图信息。

第二意图信息与第一意图信息同理，此处不做赘述。

服务器对语音信号进行在线意图识别，得到语音信号对应的第二意图信息的实现方式有三种，其中第一种方式和第二种方式与电子设备对语音信号进行离线意图识别，得到语音信号对应的第一意图信息的实现方式同理，此处不再赘述。需要说明的一点是，由于在线意图识别的语音命令词库和文本命令词库存储在云端，其中的样本数据更加丰富，语音识别的成功率和准确率很高。以语音命令词库用于控制电梯为例，在线意图识别的语音命令词库可以包括语音命令词“去餐厅”，“去餐厅”对应的意图信息为“确认指令-3楼”，从而语音控制更加智能。

服务器对语音信号进行在线意图识别，得到语音信号对应的第二意图信息的第三种实现方式可以为：服务器从语音信号中提取关键词，将该关键词映射为目标知识图谱中的实体，根据该实体生成第二意图信息。

其中，关键词可以根据需要设置，例如关键词可以为语音信号中的名词、专有名词、数量词或者其他词，本公开对此不做限制。目标知识图谱是与语音信号的应用场景对应的知识图谱，目标知识图谱可以包括关键词与实体的对应关系。以语音信号用于控制电梯为例，目标知识图谱可以存储多个实体，例如“1楼”、“2楼”、“3楼”等，每个实体对应多个关键词，例如，“3楼”对应关键词的包括“3层”、“餐厅”、“海底捞”、“饭”、“全聚德”等，“2楼”对应的关键词包括“2层”、“衣服”、“包”、“海澜之家”等，“1楼”对应的关键词包括“1层”、“化妆品”、“首饰”、“超市”等。上述目标知识图谱中的实体和关键词只是示例性说明，本公开对此不做限制。

例如，语音信号为“去餐厅”，则服务器从该语音信号中提取关键词“餐厅”，根据上述目标知识图谱，将“餐厅”映射为“3楼”，然后生成第二意图信息“确认指令-3楼”。

在本公开实施例中，服务器通过从语音信号中提取关键词，将该关键词映射为目标知识图谱中的实体，根据该实体生成第二意图信息，使得语音控制更加智能。

步骤306：服务器向电子设备发送第二意图信息。

步骤307：电子设备接收服务器返回的第二意图信息，响应于第二意图信息与第一意图信息不一致，取消第一操作，执行第二意图信息对应的第二操作。

电子设备响应于第二意图信息与第一意图信息一致，忽略第二意图信息，继续执行第一操作。

电子设备可以响应于第二意图信息与第一意图信息不一致，直接取消第一操作，执行第二意图信息对应的第二操作，方法简单，效率高。

以电子设备为电梯，第一意图信息为“确认指令-3楼”，对应的第一操作为前往3楼，第二意图信息为“确认指令-5楼”，对应的第二操作为前往5楼，则电梯直接取消前往3楼的操作，前往5楼。

在一种可能的实现方式中，电子设备可以结合服务器的响应时长，确定是否取消第一操作，相应的，电子设备响应于第二意图信息与第一意图信息不一致，取消第一操作的实现方式为：电子设备获取服务器的响应时长，响应时长为发送语音信号的第一时间戳与接收第二意图信息的第二时间戳之间的差值，电子设备响应于响应时长小于第一预设阈值，且第二意图信息与第一意图信息不一致，取消第一操作。

电子设备响应于响应时长不小于第一预设阈值，且第二意图信息与第一意图信息不一致，继续执行第一操作，以及执行第二操作。

在本公开实施例中，在网络质量不好时，服务器的响应时长可能不小于第一预设阈值，即服务器返回的第二意图信息可能出现较大延迟，此时，第一操作可能已经执行完毕或者将要执行完毕，可以理解的是，虽然第一操作是离线意图识别得到的结果，其对应的准确率没有在线意图识别的准确率高，但离线意图识别的结果有可能是正确的，此种情况下，电子设备继续执行第一操作，以及执行第二操作可以进一步提高语音控制的成功率。

在一种可能的实现方式中，语音信号用于对电梯进行控制，第一意图信息包括控制电梯前往的第一楼层，第二意图信息包括控制电梯前往的第二楼层；电子设备响应于第二意图信息与第一意图信息不一致，取消第一操作的实现方式为：电梯响应于第一楼层高于第二楼层，确定当前的第三时间戳与电梯预计到达第一楼层的第四时间戳之间的时间差，电子设备响应于时间差不小于第二预设阈值，且第二意图信息与第一意图信息不一致，取消第一操作。

在本公开实施例中，第一楼层对应离线意图识别，第二楼层对应在线意图识别，第二楼层的正确率比第一楼层的正确率高，电子设备通过响应于第一楼层高于第二楼层，确定当前的第三时间戳与电梯预计到达第一楼层的第四时间戳之间的时间差，响应于时间差不小于第二预设阈值，且第二意图信息与第一意图信息不一致，取消第一操作，即在距离到达第一楼层还有较久的时间时，取消第一操作，执行第二操作，可以提高第二操作的响应速度，从而提高语音控制的效率。

需要说明的一点是，在第一楼层高于第二楼层，但时间差小于第二预设阈值的情况下，电子设备可以响应于第一楼层高于第二楼层，且时间差小于第二预设阈值，继续执行第一操作，以及执行第二操作。可以理解的是，虽然第二楼层的正确率比第一楼层的正确率高，但第一楼层有可能是正确的，在时间差小于第二预设阈值，即第一楼层快要到达的情况下，继续前往第一楼层，然后前往第二楼层，在保证响应速度影响不大的情况下，可以提高语音控制的成功率。

在第一楼层低于第二楼层的情况下，电梯可以响应于第一楼层低于第二楼层，继续执行第一操作，以及执行第二操作。可以理解的是，虽然第二楼层的正确率比第一楼层的正确率高，但第一楼层有可能是正确的，在第一楼层低于第二楼层的情况下，继续前往第一楼层，然后前往第二楼层，在保证响应速度影响不大的情况下，可以提高语音控制的成功率。

图4是本公开实施例提供的一种语音控制装置的框图。参见图4，该实施例包括：

语音接收模块401，被配置为接收被输入的语音信号。

意图信息获取模块402，被配置为对语音信号进行离线意图识别，得到语音信号对应的第一意图信息。

操作执行模块403，被配置为执行第一意图信息对应的第一操作。

语音发送模块404，被配置为向服务器发送语音信号，服务器用于对语音信号进行在线意图识别，得到语音信号对应的第二意图信息。

意图信息接收模块405，被配置为接收服务器返回的第二意图信息。

操作执行模块403，还被配置为响应于第二意图信息与第一意图信息不一致，取消第一操作，执行第二意图信息对应的第二操作。

在一种可能的实现方式中，操作执行模块403，还被配置为获取服务器的响应时长，响应时长为发送语音信号的第一时间戳与接收第二意图信息的第二时间戳之间的差值；响应于响应时长小于第一预设阈值，且第二意图信息与第一意图信息不一致，取消第一操作。

在另一种可能的实现方式中，语音信号用于对电梯进行控制，第一意图信息包括控制电梯前往的第一楼层，第二意图信息包括控制电梯前往的第二楼层；

操作执行模块403，还被配置为响应于第一楼层高于第二楼层，确定当前的第三时间戳与电梯预计到达第一楼层的第四时间戳之间的时间差；响应于时间差不小于第二预设阈值，且第二意图信息与第一意图信息不一致，取消第一操作。

在另一种可能的实现方式中，操作执行模块403，还被配置为响应于第一楼层低于第二楼层，继续执行第一操作，以及执行第二操作；或者，响应于第一楼层高于第二楼层，且时间差小于第二预设阈值，继续执行第一操作，以及执行第二操作。

在另一种可能的实现方式中，语音发送模块404，还被配置为获取第一意图信息的置信度；响应于置信度小于第三预设阈值，向服务器发送语音信号。

在另一种可能的实现方式中，语音发送模块404，还被配置为获取电梯内用户的数量；响应于用户的数量大于第四预设阈值，向服务器发送语音信号。

在另一种可能的实现方式中，语音发送模块404，还被配置为确定语音信号的信噪比；响应于信噪比小于第五预设阈值，向服务器发送语音信号。

在另一种可能的实现方式中，意图信息获取模块402，还被配置为提取语音信号的第一声纹信息；根据预存储的第一声纹库对第一声纹信息进行权限认证，第一声纹库用于存储具有语音控制权限的声纹信息；响应于权限认证通过，对语音信号进行离线意图识别。

在另一种可能的实现方式中，语音信号用于对电梯进行控制，且第一意图信息包括控制电梯前往的第一楼层；操作执行模块403，还被配置为根据第一楼层，确定第二声纹库，第二声纹库用于存储具有前往第一楼层权限的声纹信息；根据第二声纹库对第一声纹信息进行权限认证；响应于权限认证通过，执行第一意图信息对应的第一操作。

在另一种可能的实现方式中，操作执行模块403，还被配置为响应于第二意图信息与第一意图信息一致，忽略第二意图信息，继续执行第一操作。

在另一种可能的实现方式中，第一意图信息包括对电梯控制的控制指令和控制指令对应的第三楼层；操作执行模块403，还被配置为响应于控制指令为确认指令，则控制电梯前往第三楼层；响应于控制指令为取消指令，则取消电梯前往第三楼层的操作。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的语音控制装置在进行语音控制时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音控制装置与语音控制方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图5示出了本公开一个示例性实施例提供的电子设备500的结构框图。该电子设备500可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group AudioLayer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备500还可能被称为用户设备、便携式电子设备、膝上型电子设备、台式电子设备等其他名称。

通常，电子设备500包括有：处理器501和存储器502。

处理器501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器501可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器502中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器501所执行以实现本申请中方法实施例提供的语音控制方法。

在一些实施例中，电子设备500还可选包括有：外围设备接口503和至少一个外围设备。处理器501、存储器502和外围设备接口503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口503相连。具体地，外围设备包括：射频电路504、触摸显示屏505、摄像头组件506、音频电路507、定位组件508和电源509中的至少一种。

外围设备接口503可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器501和存储器502。在一些实施例中，处理器501、存储器502和外围设备接口503被集成在同一芯片或电路板上；在一些其他实施例中，处理器501、存储器502和外围设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路504用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路504将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路504包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路504可以通过至少一种无线通信协议来与其它电子设备进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路504还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏505用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏505是触摸显示屏时，显示屏505还具有采集在显示屏505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器501进行处理。此时，显示屏505还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏505可以为一个，设置电子设备500的前面板；在另一些实施例中，显示屏505可以为至少两个，分别设置在电子设备500的不同表面或呈折叠设计；在再一些实施例中，显示屏505可以是柔性显示屏，设置在电子设备500的弯曲表面上或折叠面上。甚至，显示屏505还可以设置成非矩形的不规则图形，也即异形屏。显示屏505可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件506用于采集图像或视频。可选地，摄像头组件506包括前置摄像头和后置摄像头。通常，前置摄像头设置在电子设备的前面板，后置摄像头设置在电子设备的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件506还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器501进行处理，或者输入至射频电路504以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器501或射频电路504的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路507还可以包括耳机插孔。

定位组件508用于定位电子设备500的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件508可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源509用于为电子设备500中的各个组件进行供电。电源509可以是交流电、直流电、一次性电池或可充电电池。当电源509包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，电子设备500还包括有一个或多个传感器510。该一个或多个传感器510包括但不限于：加速度传感器511、陀螺仪传感器512、压力传感器513、指纹传感器514、光学传感器515以及接近传感器516。

加速度传感器511可以检测以电子设备500建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器511可以用于检测重力加速度在三个坐标轴上的分量。处理器501可以根据加速度传感器511采集的重力加速度信号，控制触摸显示屏505以横向视图或纵向视图进行用户界面的显示。加速度传感器511还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器512可以检测电子设备500的机体方向及转动角度，陀螺仪传感器512可以与加速度传感器511协同采集用户对电子设备500的3D动作。处理器501根据陀螺仪传感器512采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器513可以设置在电子设备500的侧边框和/或触摸显示屏505的下层。当压力传感器513设置在电子设备500的侧边框时，可以检测用户对电子设备500的握持信号，由处理器501根据压力传感器513采集的握持信号进行左右手识别或快捷操作。当压力传感器513设置在触摸显示屏505的下层时，由处理器501根据用户对触摸显示屏505的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器514用于采集用户的指纹，由处理器501根据指纹传感器514采集到的指纹识别用户的身份，或者，由指纹传感器514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器501授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器514可以被设置电子设备500的正面、背面或侧面。当电子设备500上设置有物理按键或厂商Logo时，指纹传感器514可以与物理按键或厂商Logo集成在一起。

光学传感器515用于采集环境光强度。在一个实施例中，处理器501可以根据光学传感器515采集的环境光强度，控制触摸显示屏505的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏505的显示亮度；当环境光强度较低时，调低触摸显示屏505的显示亮度。在另一个实施例中，处理器501还可以根据光学传感器515采集的环境光强度，动态调整摄像头组件506的拍摄参数。

接近传感器516，也称距离传感器，通常设置在电子设备500的前面板。接近传感器516用于采集用户与电子设备500的正面之间的距离。在一个实施例中，当接近传感器516检测到用户与电子设备500的正面之间的距离逐渐变小时，由处理器501控制触摸显示屏505从亮屏状态切换为息屏状态；当接近传感器515检测到用户与电子设备500的正面之间的距离逐渐变大时，由处理器501控制触摸显示屏505从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图5中示出的结构并不构成对电子设备500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图6是本公开实施例提供的一种服务器的结构示意图，该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)601和一个或一个以上的存储器602，其中，所述存储器602中存储有至少一条指令，所述至少一条指令由所述处理器601加载并执行以实现上述各个方法实施例提供的语音控制方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由电子设备中的处理器执行以完成下述实施例中语音控制方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本公开的可选实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种语音控制方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述响应于所述第二意图信息与所述第一意图信息不一致，取消所述第一操作，包括：

3.根据权利要求1所述的方法，其特征在于，所述语音信号用于对电梯进行控制，所述第一意图信息包括控制所述电梯前往的第一楼层，所述第二意图信息包括控制所述电梯前往的第二楼层；所述响应于所述第二意图信息与所述第一意图信息不一致，取消所述第一操作，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述向服务器发送所述语音信号之前，所述方法还包括：

获取所述第一意图信息的置信度；

6.根据权利要求1所述的方法，其特征在于，所述语音信号用于对电梯进行控制，所述向服务器发送所述语音信号之前，所述方法还包括：

获取所述电梯内用户的数量；

7.根据权利要求1所述的方法，其特征在于，所述向服务器发送所述语音信号之前，所述方法还包括：

确定所述语音信号的信噪比；

8.根据权利要求1所述的方法，其特征在于，所述对所述语音信号进行离线意图识别之前，所述方法还包括：

提取所述语音信号的第一声纹信息；

9.根据权利要求1所述的方法，其特征在于，所述语音信号用于对电梯进行控制，且所述第一意图信息包括控制所述电梯前往的第一楼层；所述执行所述第一意图信息对应的第一操作之前，所述方法还包括：

提取所述语音信号的第一声纹信息；

根据所述第二声纹库对所述第一声纹信息进行权限认证；

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

11.根据权利要求1所述的方法，其特征在于，所述第一意图信息包括对电梯控制的控制指令和所述控制指令对应的第三楼层；

所述执行所述第一意图信息对应的第一操作，包括：

12.一种语音控制装置，其特征在于，所述装置包括：

语音接收模块，被配置为接收被输入的语音信号；

13.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至权利要求11任一项所述的语音控制方法所执行的操作。

14.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至权利要求11任一项所述的语音控制方法所执行的操作。