CN111833872B

CN111833872B - 对电梯的语音控制方法、装置、设备、系统及介质

Info

Publication number: CN111833872B
Application number: CN202010653981.5A
Authority: CN
Inventors: 冯大航; 陈孝良; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-07-08
Filing date: 2020-07-08
Publication date: 2021-04-30
Anticipated expiration: 2040-07-08
Also published as: CN111833872A

Abstract

本申请公开了一种对电梯的语音控制方法、装置、设备、系统及介质，属于人机交互领域。本申请实施例通过对音频信号语音识别得到的语句先进行意图识别，识别出意图以及意图类型后，针对意图类型，采用相应的槽位提取方式提取槽位信息，以确定电梯所需执行的功能，为意图设置了意图类型，可以针对电梯进行控制的多种复杂的应用场景来进行划分以区别处理，能够更好地适用更复杂的对电梯进行控制的应用场景，且意图识别过程和槽位提取过程分离，该槽位提取过程还考虑到了意图类型这一因素，能够更好的基于意图类型提取到更准确的槽位信息，进而提高对电梯控制的准确性，因而，上述方法提高了准确性和适用性，控制效果更好。

Description

对电梯的语音控制方法、装置、设备、系统及介质

技术领域

本申请涉及人机交互领域，特别涉及一种对电梯的语音控制方法、装置、设备、系统及介质。

背景技术

人机交互是指通过人与计算机之间使用某种对话语言，以一定的交互方式，完成确定任务的人与计算机之间的信息交换过程。在使用电梯的场景中，通过人机交互的方式来控制电梯执行相应功能，相较于人为点击电梯按钮来控制电梯，减少了人为操作，更加便利，同时也避免了因接触电梯按钮而被病毒感染的风险，因而具有卫生、安全且高效等优势。

相关技术中，对电梯的语音控制方法中，只会设定一些基础的指令，例如，“我要去X楼”、“请帮忙我开门”，该方法执行时通常会从电梯中采集音频信号，对音频信号进行语音识别，得到语句，对语句与特定的指令语句进行匹配，确定电梯所需执行的指令。

上述方法的功能单一，仅支持识别系统设定的基础指令，无法识别更为复杂的应用场景，扩展性较差，且，当指令较为复杂或噪声较多时采用相关技术中意图识别方式的准确性较差，无法清晰识别出用户意图，因而导致对电梯的控制效果不好。

发明内容

本申请实施例提供了一种对电梯的语音控制方法、装置、设备、系统及介质，能够提高控制电梯的准确性、适用性和控制效果。所述技术方案如下：

一方面，提供了一种对电梯的语音控制方法，所述方法包括：

对音频信号进行语音识别，得到所述音频信号对应的语句；

对所述语句进行意图识别，得到所述语句的意图以及意图类型；

基于所述意图类型，对所述语句进行槽位提取，得到所述意图的槽位信息；

根据所述意图以及所述槽位信息，控制电梯执行相应的功能。

可选地，所述对所述语句进行意图识别，得到所述语句的意图以及意图类型，包括：

采用句式匹配的方式，对所述语句进行意图识别，得到所述语句的意图以及意图类型。

可选地，所述采用句式匹配的方式，对所述语句进行意图识别，得到所述语句的意图以及意图类型，包括：

将所述语句与数据库中候选句式的候选语句进行句式匹配；

响应于所述语句与所述数据库中任一候选句式的候选语句匹配，将所述候选句式对应的候选意图以及候选意图类型确定为所述语句的意图以及意图类型；

响应于所述语句与所述句式数据库中至少一个候选句式的候选语句均不匹配，将所述语句输入意图识别模型中，由所述意图识别模型对所述语句进行语义分析，输出所述语句的意图和意图类型。

通过意图识别模型对所述语句进行意图识别，得到所述语句的意图以及意图类型。

可选地，所述通过意图识别模型对所述语句进行意图识别，得到所述语句的意图以及意图类型，包括：

将所述语句输入意图识别模型中，由所述意图识别模型对所述语句进行语义分析，输出所述语句的意图和意图类型。

采用与候选意图的种子语句进行语句匹配的方式，对所述语句进行意图识别，得到所述语句的意图以及意图类型。

可选地，所述采用与候选意图的种子语句进行语句匹配的方式，对所述语句进行意图识别，得到所述语句的意图以及意图类型，包括：

将所述语句与至少一个候选意图的种子语句进行语句匹配，确定所述语句与所述至少一个候选意图的种子语句的匹配度；

将匹配度最大的候选意图确定为所述语句的意图，将所述意图对应的意图类型确定为所述语句的意图类型。

可选地，所述将所述语句与至少一个候选意图的种子语句进行语句匹配，确定所述语句与所述至少一个候选意图的种子语句的匹配度之后，所述方法还包括下述任一项：

响应于所述语句与所述至少一个候选意图中至少一个候选意图的种子语句的匹配度大于匹配度阈值，将所述至少一个候选意图中匹配度最大的候选意图作为所述语句的意图，将所述意图对应的意图类型确定为所述语句的意图类型；

响应于所述语句与所述至少一个候选意图的种子语句的匹配度均小于匹配度阈值，将所述语句的意图类型确定为目标意图类型，所述目标意图类型用于指示所述语句为用户间的对话信息。

可选地，所述意图类型包括第一意图类型、第二意图类型和目标意图类型，所述第一意图类型用于指示所述语句为对所述电梯所需执行功能的直接指令，所述第二意图类型用于指示所述语句需分析以确定所述电梯所需执行功能，所述目标意图类型用于指示所述语句为用户间的对话信息。

可选地，所述意图类型不同时，对所述语句进行槽位提取的槽位提取方式不同。

可选地，所述基于所述意图类型，对所述语句进行槽位提取，得到所述意图的槽位信息，包括：

响应于所述意图类型为第一意图类型，基于递归转移网络，对所述语句进行槽位提取，得到所述意图的槽位信息，所述第一意图类型用于指示所述语句为对所述电梯所需执行功能的直接指令；

响应于所述意图类型为第二意图类型，基于长短期记忆网络(Long Short-TermMemory，LSTM)和条件随机场(Conditional Random Field，CRF)，对所述语句进行槽位提取，得到所述意图的槽位信息，所述第二意图类型用于指示所述语句需分析以确定所述电梯所需执行功能。

可选地，所述基于递归转移网络，对所述语句进行槽位提取，得到所述意图的槽位信息，包括：

根据所述意图对应的状态图，提取所述语句中的槽位对应的关键信息，得到所述意图的槽位信息。

可选地，所述基于长短期记忆网络和条件随机场，对所述语句进行槽位提取，得到所述意图的槽位信息，包括：

将所述语句输入槽位提取模型中，由所述槽位提取模型对所述语句按照自然语言序列的规则进行实体识别，确定出所述语句中的实体，将所述实体作为所述意图的槽位信息。

可选地，所述将所述实体作为所述意图的槽位信息之后，所述方法还包括：

对所述槽位信息中实体的实体指称与候选实体指称进行匹配，确定所述实体指称匹配的目标实体指称，将所述槽位信息中所述实体的实体指称更新为所述目标实体指称；

所述根据所述意图以及所述槽位信息，控制电梯执行相应的功能，包括：

根据候选实体指称与楼层的对应关系，确定所述槽位信息中所述目标实体指称对应的目标楼层；

根据所述意图和所述目标楼层，控制所述电梯执行与所述目标楼层相关的功能。

可选地，所述对所述语句进行意图识别，得到所述语句的意图以及意图类型之后，所述方法还包括：

响应于所述意图类型为目标意图类型，忽略所述语句，所述目标意图类型用于指示所述语句为用户间的对话信息。

可选地，所述根据所述意图以及所述槽位信息，控制电梯执行相应的功能，包括下述任一项：

响应于所述意图用于指示选择所述电梯停靠的楼层，控制所述电梯停靠在所述槽位信息所指示的楼层；

响应于所述意图用于指示取消所述电梯停靠的楼层，取消所述电梯的停靠楼层中所述槽位信息所指示的楼层；

响应于所述意图用于指示所述电梯开门或关门，控制所述电梯开门或关门；

响应于所述意图用于指示所述电梯回答目标问题，控制所述电梯播放所述目标问题对应的目标答案。

可选地，对所述语句进行意图识别时的召回率为90％-100％，准确率为90％-100％。

可选地，基于所述意图类型对所述语句进行槽位提取时的召回率为90％-100％，准确率为90％-100％。

可选地，采用任一种可选方式对音频信号进行处理时，控制所述电梯的交互成功率为85％-95％。

另一方面，提供了一种对电梯的语音控制装置，所述装置包括：

语音识别模块，用于对音频信号进行语音识别，得到所述音频信号对应的语句；

意图识别模块，用于对所述语句进行意图识别，得到所述语句的意图以及意图类型；

槽位提取模块，用于基于所述意图类型，对所述语句进行槽位提取，得到所述意图的槽位信息；

功能控制模块，用于根据所述意图以及所述槽位信息，控制电梯执行相应的功能。

可选地，所述意图识别模块包括第一意图识别单元，所述第一意图识别单元用于采用句式匹配的方式，对所述语句进行意图识别，得到所述语句的意图以及意图类型。

可选地，所述第一意图识别单元用于：

将所述语句与数据库中候选句式的候选语句进行句式匹配；

可选地，所述意图识别模块包括第二意图识别单元，所述第二意图识别单元用于通过意图识别模型对所述语句进行意图识别，得到所述语句的意图以及意图类型。

可选地，所述第二意图识别单元用于将所述语句输入意图识别模型中，由所述意图识别模型对所述语句进行语义分析，输出所述语句的意图和意图类型。

可选地，所述意图识别模块包括第三意图识别单元，所述第三意图识别单元，所述第三意图识别单元用于采用与候选意图的种子语句进行语句匹配的方式，对所述语句进行意图识别，得到所述语句的意图以及意图类型。

可选地，所述第三意图识别单元用于：

可选地，所述意图识别模块用于执行下述任一项：

可选地，所述槽位提取模块包括：

第一槽位提取单元，用于响应于所述意图类型为第一意图类型，基于递归转移网络，对所述语句进行槽位提取，得到所述意图的槽位信息，所述第一意图类型用于指示所述语句为对所述电梯所需执行功能的直接指令；

第二槽位提取单元，用于响应于所述意图类型为第二意图类型，基于长短期记忆网络和条件随机场，对所述语句进行槽位提取，得到所述意图的槽位信息，所述第二意图类型用于指示所述语句需分析以确定所述电梯所需执行功能。

可选地，所述第一槽位提取单元用于根据所述意图对应的状态图，提取所述语句中的槽位对应的关键信息，得到所述意图的槽位信息。

可选地，所述第二槽位提取单元用于将所述语句输入槽位提取模型中，由所述槽位提取模型对所述语句按照自然语言序列的规则进行实体识别，确定出所述语句中的实体，将所述实体作为所述意图的槽位信息。

可选地，所述装置还包括：

更新模块，用于对所述槽位信息中实体的实体指称与候选实体指称进行匹配，确定所述实体指称匹配的目标实体指称，将所述槽位信息中所述实体的实体指称更新为所述目标实体指称；

所述功能控制模块用于：

可选地，所述装置还包括：

忽略模块，用于响应于所述意图类型为目标意图类型，忽略所述语句，所述目标意图类型用于指示所述语句为用户间的对话信息。

可选地，所述功能控制模块用于执行下述任一项：

另一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述对电梯的语音控制方法的各种可选实现方式。

另一方面，提供了一种控制系统，所述控制系统包括电梯和电子设备，所述电梯用于采集音频信号，所述电子设备用于根据所述音频信号执行上述对电梯的语音控制方法的各种可选实现方式。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现上述对电梯的语音控制方法的各种可选实现方式。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述对电梯的语音控制方法的各种可选实现方式。

本申请实施例提供了一种对电梯的语音控制方法，该方法通过对音频信号语音识别得到的语句先进行意图识别，识别出意图以及意图类型后，针对意图类型，采用相应的槽位提取方式提取槽位信息，以确定电梯所需执行的功能，该方法中为意图设置了意图类型，这样可以针对电梯进行控制的多种复杂的应用场景来进行划分以区别处理，因而能够更好地适用更复杂的对电梯进行控制的应用场景，且意图识别过程和槽位提取过程分离，该槽位提取过程还考虑到了意图识别的结果中意图类型这一因素，能够更好的基于意图类型提取到更准确的槽位信息，进而提高对电梯控制的准确性，因而，上述方法能够有效提高对电梯控制的准确性，提高控制方法的适用性，控制效果更好。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种控制系统的架构图；

图2是本申请实施例提供的一种对电梯的语音控制方法的流程图；

图3是本申请实施例提供的一种状态图的示意图；

图4是本申请实施例提供的一种对电梯的语音控制方法的流程图；

图5是本申请实施例提供的一种对电梯的语音控制方法的流程图；

图6是本申请实施例提供的一种对电梯的语音控制装置的结构示意图；

图7是本申请实施例提供的一种终端的结构框图；

图8是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。还应理解，尽管以下描述使用术语第一、第二等来描述各种元素，但这些元素不应受术语的限制。这些术语只是用于将一元素与另一元素区别分开。例如，在不脱离各种所述示例的范围的情况下，第一图像可以被称为第二图像，并且类似地，第二图像可以被称为第一图像。第一图像和第二图像都可以是图像，并且在某些情况下，可以是单独且不同的图像。

本申请中术语“至少一个”的含义是指一个或多个，本申请中术语“多个”的含义是指两个或两个以上，例如，多个数据包是指两个或两个以上的数据包。

应理解，在本文中对各种所述示例的描述中所使用的术语只是为了描述特定示例，而并非旨在进行限制。如在对各种所述示例的描述和所附权利要求书中所使用的那样，单数形式“一个(“a”“an”)”和“该”旨在也包括复数形式，除非上下文另外明确地指示。

还应理解，在本申请的各个实施例中，各个过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。

还应理解，术语“包括”(也称“inCludes”、“inCluding”、“Comprises”和/或“Comprising”)当在本说明书中使用时指定存在所陈述的特征、整数、步骤、操作、元素、和/或部件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元素、部件、和/或其分组。

还应理解，术语“如果”可被解释为意指“当...时”(“when”或“upon”)或“响应于确定”或“响应于检测到”。类似地，根据上下文，短语“如果确定...”或“如果检测到[所陈述的条件或事件]”可被解释为意指“在确定...时”或“响应于确定...”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。

下面针对本申请涉及到的名词进行介绍。

语音识别，是一种将人的语音转换为语句的技术。语音识别用于将人发出的音频信号转换为文字形式的语句。

意图，用于描述用户和机器进行语音交互的目的。在本申请实施例中，意图用于描述用户和语音电梯进行语音交互的目的，即用户期望语音电梯执行的指令。例如，意图包括选定楼层、取消楼层、开门、关门等。

意图识别，是指识别用户发出语音属于哪一种意图。

槽位，可以理解为属性，关键信息是可以理解为属性对应的属性值。在本申请实施例中，可以理解为是将初步用户意图转化为明确用户指令所需要补全的信息。在本申请实施例中，该用户在乘坐电梯时发出的语音中涉及到的槽位，可以用于指示该用户想要选择或者取消的楼层，或者该用户想要去的地点，又或者用户询问的目标问题的主体，例如5楼，又例如“XX公司”，又例如，“今天”。

槽位提取，是指从语句中获得槽位对应的关键信息的过程，也可以称之为填槽。该过程的目的在于为了让用户意图转化为用户明确的指令而补全信息的过程。例如，如果用户的语句是“去5楼”，槽位提取的目标是把“5楼”提取出来。

图1是本申请实施例提供的一种控制系统的架构图。参见附图1，该控制系统100包括电梯101和至少一个电子设备102。其中，电梯101通过无线网络或有线网络与该至少一个电子设备102连接，该至少一个电子设备102之间通过无线网络或有限网络连接。

其中，电梯101能够用于承载用户，根据用户的控制将用户送递到相应楼层。该电梯101具有人机交互功能，能够基于人发出的指令，执行相应的功能。

具体的，该电梯101具有声音采集功能，该电梯101能够采集音频信号，将音频信号通过网络发送给至少一个电子设备102。该电梯101也能够通过网络接收至少一个电子设备102的指令，并执行该指令实现相应的功能。

可选地，该电梯101还具有信号处理功能，该电梯101能够采集音频信号，对音频信号进行初步处理后，通过网络发送给至少一个电子设备102，该电梯101也能够采集到音频信号后，对音频信号进行处理，确定所需执行的功能，进而执行该功能。

该至少一个电子设备102用于对音频信号进行处理，确定电梯101所需执行的功能内容，以指令的形式发送给电梯101以执行。

该至少一个电子设备102是终端、一台或多台服务器、云计算平台和虚拟化中心中的至少一种。至少一个电子设备102的数量可以为一个，也可以为多个。

如果该至少一个电子设备102是终端，该终端是智能手机、平板电脑、MP3(MovingPictureExperts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑中的任一种。该终端还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

该至少一个电子设备102可以通过安装的客户端或者门户网站，来与电梯101进行数据交互，对接收到的音频信号进行处理。

如果该至少一个电子设备102是服务器，该服务器能够为电梯101提供后台数据处理服务。服务器的数量可以为一个，也可以为多个。

可选地，上述控制系统中还包括数据库，该数据库与至少一个电子设备102通过有线网络或无线网络进行连接，该数据库用于存储模型训练所需的样本数据或模型，还可以用于存储其他数据，例如，电梯101采集到的音频信号等。

在本申请实施例中，提供了一种对电梯的语音控制方法，该方法可以应用于复杂的应用场景中，例如，有些用户通过系统设定的指令控制电梯去往某个楼层，或者有些用户表达自己的需求(比如去往有食品店)但并未明确表达去往的楼层，又或者有些用户提出目标问题，想要电梯为其解答等。下面通过图2和图4所示实施例对电梯的语音控制方法流程进行说明，该图2所示实施例中，介绍了电子设备和电梯之间进行数据交互来实现该对电梯的语音控制方法的过程。在图4所示实施例中，该方法由电梯执行，该电梯能够自行采集音频信号并对音频信号进行处理。本申请实施例对具体采用哪种方式不作限定。

图2是本申请实施例提供的一种对电梯的语音控制方法的流程图。参见图2，该方法可以包括以下步骤。

201、电梯采集音频信号。

该电梯具有声音采集功能，用户在乘坐电梯时或者在电梯外时发出语音，电梯能够采集到音频信号，以此来判断用户发出语音是否想要对电梯进行控制，如果是，想要电梯执行哪样的指令。例如，用户乘坐电梯，在电梯中说“我要去5楼”，电梯即可采集该音频信号。

在一种可能实现方式中，在该电梯中可以设置有声音采集装置，该声音采集装置能够对周围环境中的声音进行采集，得到音频信号。在另一种可能实现方式中，在该电梯外也可以设置有声音采集装置，以此来采集电梯外的声音，以便于用户在乘坐电梯前对电梯发出指令。其中，该声音采集装置可以为麦克风阵列，还可以为其他装置，例如传声器阵列，本申请实施例对此不作限定。

202、电梯向电子设备发送音频信号。

203、电子设备接收音频信号。

通过该步骤202和步骤203，该电子设备接收到电梯采集到的音频信号后，可以对音频信号进行处理，来确定该音频信号是否想要对电梯进行控制以及想要电梯执行哪样的指令，例如，选择停靠楼层，取消停靠楼层，开门或关门，询问天气，报警等。

204、电子设备对音频信号进行语音识别，得到该音频信号对应的语句。

该语音识别用于将信号形式的音频信号转换为文字形式的语句，该语句也可以称之为query，从而能够对语句进行语义分析，来确定用户是否想要对电梯进行控制以及进行哪样的控制。

在一种可能实现方式中，该语音识别过程可以通过模型实现，例如，电子设备可以将音频信号输入语音识别模型中，由语音识别模型对音频信号进行处理，输出语句。该语音识别模型可以由大量音频信号训练得到。

具体的，该语音识别过程包括语音活动检测(Voice Activity Detection，VAD)、分帧、特征提取、特征匹配等步骤。其中，分帧是指把声音分割为片段，该分帧过程由窗函数来实现，例如，汉明窗、汉宁窗等。特征提取步骤可以通过多种算法实现，例如，梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)，通过特征提取得到梅尔频谱特征。该特征通常会采用向量形式表达，该特征提取过程可以提取得到语句的特征向量。特征匹配步骤用于将特征匹配到对应的音素，进而将音素匹配到文字。该过程可以通过声学模型、字典来实现。例如，通过声学模型将特征转换为音素，根据音素与文字的对应关系，确定该音频信号的音素对应的文字，也即得到该语句。

205、电子设备对该语句进行意图识别，得到该语句的意图以及意图类型。

电子设备在语音识别得到语句后，能够对语句进行意图识别，来识别用户发出声音的意图以及意图类型。

在本申请实施例中，为意图进行了分类，该意图设置有意图类型，针对不同的意图类型，电子设备可以采用不同的槽位提取方式进行槽位提取，以针对意图类型实现更精确地槽位提取步骤，提高对音频信号的处理准确性，进而提高基于语音控制电梯的准确性。

在一种可能实现方式中，该意图类型包括第一意图类型、第二意图类型和目标意图类型。其中，该第一意图类型用于指示该语句为对该电梯所需执行功能的直接指令，该第一意图类型还可以称之为系统意图，用户需要发出准确的语音指令，例如，该语句为“我要去5楼”，通过该语句能够清晰获知用户意图为选择楼层，且楼层为5楼，又例如，该语句为“开门”，“取消5楼”等。又例如，该语句为“今天天气怎么样”，通过该语句能够获知用户意图为询问天气，且日期为今天。该第二意图类型用于指示该语句需分析以确定该电梯所需执行功能。该第二意图类型还可以称之为扩展意图，用户无需发出准确的语音指令，电子设备能够根据语句分析出用户意图。例如，该语句为“我要去XX公司”。通过该语句能够获知用户意图为选择楼层，楼层为XX公司所在楼层。电子设备需要进一步确定该XX公司所在楼层为5楼，来确定出用户最终的意图为选择楼层，且楼层为5楼，又例如，“去大楼正门”等。该目标意图类型用于指示该语句为用户间的对话信息。例如，该语句为“今天天气不错”、“今天吃饭了”。

上述过程为意图设置了意图类型，这样可以针对电梯进行控制的多种复杂的应用场景来进行划分以区别处理，因而能够更好地适用更复杂的对电梯进行控制的应用场景，因而有效提高了本申请实施例提供的方法的适用性和准确性，控制效果更好。

该意图识别过程可以通过多种方式来实现，下面提供三种方式作为示例性说明，除了该三种方式，电子设备也可以通过其他方式来进行意图识别，本申请实施例对此不作具体限定。

方式一、基于句式的数据库对比方式。

在方式一中，电子设备可以采用句式匹配的方式，对该语句进行意图识别，得到该语句的意图以及意图类型。在该方式中，可以收集用户平时的对话内容，根据这些对话内容整理句式，将整理好的句式以及该句式的候选语句存储在数据库中，句式与意图、意图类型也对应存储于该数据库中。电子设备通过将语句与数据库进行匹配即可确定该语句中的意图和意图类型是过去的哪种意图和意图类型。

具体的，电子设备将该语句与数据库中候选句式的候选语句进行句式匹配，匹配结果可能包括两种：匹配成功和匹配失败。对于匹配成功的情况，也即是该语句与该数据库中任一候选句式的候选语句匹配，电子设备响应于该语句与该数据库中任一候选句式的候选语句匹配，将该候选句式对应的候选意图以及候选意图类型确定为该语句的意图以及意图类型。通过数据库匹配的方式，根据历史信息来确定本次用户意图，提高了意图识别的准确率，防止误招，且如果数据库匹配成功，则无需使用意图识别模型进行识别，也能够提高意图识别的效率。

对于匹配失败的情况，如果通过数据库匹配失败，电子设备通过意图识别模型进行进一步识别。具体的，电子设备响应于该语句与该句式数据库中至少一个候选句式的候选语句均不匹配，将该语句输入意图识别模型中，由该意图识别模型对该语句进行语义分析，输出该语句的意图和意图类型。

在一种可能实现方式中，上述匹配过程可以为获取语句与候选语句的相似度的过程，将相似度超过相似度阈值或相似度最大的候选语句确定为该语句匹配的候选语句。

该意图识别模型的具体识别过程为：该意图识别模型根据自然语言序列的规则，对该语句进行语义分析，对该语句的意图以及意图类型与每个候选意图和候选意图类型进行匹配，得到每个候选意图和候选意图类型对应的指示数值，将该指示数值最大的候选意图和候选意图类型作为该语句的意图和意图类型。

其中，该指示数值用于指示该语句的意图和意图类型为候选意图和候选意图类型的可能性或概率。该指示数值与该语句的意图和意图类型为候选意图和候选意图类型的可能性或概率正相关。

该意图识别模型可以基于大量语料进行训练得到，当数据少时，可以通过句式扩充训练集。该意图识别模型可以为一种分类模型，通过意图识别模型，对语句的意图和意图类型进行分类，确定该语句更可能是哪种意图或哪种意图类型。

例如，该意图识别模型可以为朴素贝叶斯模型，可以用训练集训练朴素贝叶斯模型，训练好的朴素贝叶斯模型的输入为该语句，输出每个意图的分数，取分数高的意图作为该语句(query)的意图，也可以输出每个意图类型的分数，取分数高的意图类型作为该语句的意图类型。当然，该意图识别模型还可以采用其他模型，本申请实施例对此不作限定。

通过该意图识别模型，为数据库匹配失败的语句提供了另一种识别方式，这样为语句的意图识别提供了保障，能够提高意图识别的成功率和准确性。

方式二、通过意图识别模型识别的方式。

在方式二中，该意图识别过程直接通过意图识别模型实现，而不针对数据库内进行匹配。也即是，电子设备通过意图识别模型对该语句进行意图识别，得到该语句的意图以及意图类型。

具体的，该意图识别模型对语句进行意图识别时为语义分析过程，上述步骤可以为：电子设备将该语句输入意图识别模型中，由该意图识别模型对该语句进行语义分析，输出该语句的意图和意图类型。

该意图识别模型的具体识别过程可以参见上述方式一的内容，需要说明的是，该意图识别模型可以为贝叶斯、xgboost、bert(Bidirectional Encoder Representationfrom Transformers，来自变压器的双向编码器表示)等分类器，能够基于字袋(ungram)、词袋、二元组(bigram)等进行统计训练概率分析来对意图进行分类，也可以为其他种类的模型，在此不再过多赘述。xgboost是一套提升树可扩展的机器学习系统，为一种分类器，通过直接使用意图识别模型进行意图识别，节省了数据库对比步骤，能够一步得到意图和意图类型，简化了意图识别的过程，提高意图识别的效率，进而能够提高基于语音控制电梯的整体流程的效率。

例如，语句是“我要去5层”，通过上述意图识别过程，识别得到该语句的意图为选择楼层，意图类型为第一意图类型。当然，该意图识别过程还可以通过其他方式或算法实现，本申请实施例对此不作限定。

方式三、与候选意图的种子语句的匹配方式。

在该方式中，电子设备采用与候选意图的种子语句进行语句匹配的方式，对该语句进行意图识别，得到该语句的意图以及意图类型。

具体地，该匹配过程可以为确定语句与种子语句的匹配度的过程，上述步骤可以为：电子设备将该语句与至少一个候选意图的种子语句进行语句匹配，确定该语句与该至少一个候选意图的种子语句的匹配度，将匹配度最大的候选意图确定为该语句的意图，将该意图对应的意图类型确定为该语句的意图类型。

具体的，该匹配过程也可以为相似度计算过程，例如，相似度计算为基于albert(艾伯特)的句向量相似度计算、基于albert的词向量相似度计算、Jaccard(杰卡德)相似度计算中的至少一种，也可以为其他相似度计算，本申请实施例对此不作限定。

通过预置候选意图的种子语句，来通过将语句与种子语句进行匹配，将最贴合、最匹配的候选意图作为该语句的意图。通过经验数据进行匹配，能够快速匹配出该语句的意图，更贴合用户的真实情况，能够有效提高意图识别的准确性和效率。

在一种可能实现方式中，还可以为匹配度设置匹配度阈值，通过该匹配度阈值来划分是否匹配，在匹配的一个或多个候选意图中选择最匹配的候选意图。具体的，电子设备响应于该语句与该至少一个候选意图中至少一个候选意图的种子语句的匹配度大于匹配度阈值，将该至少一个候选意图中匹配度最大的候选意图作为该语句的意图，将该意图对应的意图类型确定为该语句的意图类型。

如果该语句与至少一个候选意图的种子语句均不匹配时，可能该语句并不包括用户的意图。因而，电子设备响应于该语句与该至少一个候选意图的种子语句的匹配度均小于匹配度阈值，将该语句的意图类型确定为目标意图类型，该目标意图类型用于指示该语句为用户间的对话信息。

206、电子设备基于该意图类型，对该语句进行槽位提取，得到该意图的槽位信息。

该槽位提取步骤可以理解为关键信息提取步骤，用于从语句中提取关键信息补全意图，来确定电梯所需执行的指令。

例如，槽位提取即可以从用户的指令(语句)中提取关键词槽，通常词槽都是有一定规则性或可枚举的词，例如楼层，也可以为一些不可枚举的词，例如目的地(比如XX公司)。不同于意图识别，词槽通常包含关键信息，槽位提取则可以在最大精准度的情况下获取关键信息，以便系统可以正确响应用户指令。例如用户指令是“我要去3楼”，意图识别可以识别出用户的基础意图为乘电梯上下楼(也即是选择楼层)，具体去几楼则是槽位提取所需提取的信息，槽位提取会从语句中提取“3楼”作为要送达用户的楼层。

意图识别过程和槽位提取过程分离，该槽位提取过程还考虑到了意图识别的结果中意图类型这一因素，能够更好的基于意图类型提取到更准确的槽位信息，进而提高对电梯控制的准确性，能够有效提高对电梯控制的准确性，控制效果更好。

可选地，该意图类型不同时，对该语句进行槽位提取的槽位提取方式不同。电子设备基于上述步骤205中得到的意图类型，来确定需要采用哪种槽位提取方式来执行步骤206。具体可以包括以下两种情况。

情况一、电子设备响应于该意图类型为第一意图类型，基于递归转移网络，对该语句进行槽位提取，得到该意图的槽位信息，该第一意图类型用于指示该语句为对该电梯所需执行功能的直接指令。

在情况一中，转移网络也称扩充转移网络(Augmented Transition Network，简称ATN)，就是用上下文无关文法的扩充来实现上下文相关文法，转移网路用一组寄存器存放语法分析信息。转移网络中每走一步都要测试一下当前情况，并根据测试结果决定做什么动作。最后把寄存器中的信息综合起来，即得到被分析句子的语法结构。

该递归转移网络(Recursive Transition Network，RTN)是ATN的前身，RTN利用有限状态机原理，把句子划分成由若干种状态和弧组成的状态图，每种状态之间用弧来连接。其中有一个状态需要被设定为初始状态，在弧上不仅可以标以终结符号(即具体的词，如“的”)和词类符号(如名词、动词、形容词等)，而且可以指定一个RTN名称的非终结符，状态中的一个子集叫做结束状态。RTN能够很好地解决上下文无关文法的辨别问题。

具体地，电子设备基于递归转移网络进行意图识别的具体过程可以为：电子设备根据该意图对应的状态图，提取该语句中的槽位对应的关键信息，得到该意图的槽位信息。

该语句为直接指令，其中包括有该电梯所需执行功能的全部内容，针对电梯功能与意图进行划分，即可将功能划分为几种状态，通过状态图即可提取到相应的关键信息。例如，状态图可以如图3所示，若用户的指令(语句)是“我不想去5楼了”，则提取：[取消]＝不想|[楼层]＝5。

情况二、电子设备响应于该意图类型为第二意图类型，基于长短期记忆网络(LSTM)和条件随机场(CRF)，对该语句进行槽位提取，得到该意图的槽位信息，该第二意图类型用于指示该语句需分析以确定该电梯所需执行功能。

具体地，基于长短期记忆网络和条件随机场对该语句进行槽位提取的过程为实体识别过程，长短期记忆网络和条件随机场共同组成槽位提取模型，也可以称之实体识别模型，该槽位提取模型可以用于对自然语言序列进行处理，基于自然语言序列能够对语句进行分词，对分词与实体进行匹配，确定每个分词是否具有对应的实体，来实现实体识别过程，也即确定出该语句中的关键信息。具体地，电子设备将该语句输入槽位提取模型中，由该槽位提取模型对该语句按照自然语言序列的规则进行实体识别，确定出该语句中的实体，将该实体作为该意图的槽位信息。

当然，该槽位提取过程还可以基于其他基于规则的算法实现。例如，深度置信网络(DeepBelief Networks，DBN)、支持向量机(Support Vector Machine，SVM)或双向循环神经网络(Recurrent Neural Network，RNN)等。

当然，除了上述槽位提取模型的方式，该槽位提取还可以通过其他方式实现，例如，槽位提取还可以使用词表匹配、正则匹配表达式等方式，本申请实施例对此不作限定。

需要说明的是，上述针对语句确定用于指令电梯的情况进行了说明，还有一种可能情况，该语句为用户闲聊的对话内容，在这种情况下，电子设备响应于该意图类型为目标意图类型，忽略该语句，该目标意图类型用于指示该语句为用户间的对话信息。也即是，通过该设置，能够将用户大量的闲聊杂音过滤，以避免误识别和误控制，提高控制的准确性。

上述过程通过采用意图识别和槽位提取分离的方式，分别提升了意图识别、槽位提取的召回率和准确率，自然地，基于上述方法控制电梯的电梯交互成功率也得到了有效提升。

可选地，通过上述方式，对该语句进行意图识别时的召回率为90％-100％，准确率为90％-100％。例如，在多次实验中，采用上述方式进行意图识别的最低召回率90％，最低准确率90％，最高可以达到100％，召回率和准确率更普遍地集中在93％。

可选地，通过上述方式，基于该意图类型对该语句进行槽位提取时的召回率为90％-100％，准确率为90％-100％。例如，在多次实验中，采用上述方式进行槽位提取的最低召回率90％，最低准确率90％，最高可以达到100％，召回率更普遍地集中在93％，准确率更普遍地集中在95％。

可选地，通过上述任一种方式，对音频信号进行处理时，控制该电梯的交互成功率为85％-95％。例如，在多次实验中，采用上述方式进行电梯控制的最低交互成功率为85％，交互成功率可以高达95％，更普遍地集中在90％。

207、电子设备根据该意图以及该槽位信息，向电梯发送相应的指令。

208、电梯接收并执行该指令，实现相应的功能。

上述步骤207和步骤208为根据该意图以及该槽位信息，控制电梯执行相应的功能的过程，该意图可能包括多种情况，具体如下。

情况一、响应于该意图用于指示选择该电梯停靠的楼层，控制该电梯停靠在该槽位信息所指示的楼层。该停靠功能可以为对用户在电梯内发出的音频信号分析后执行，也可以为对用户在电梯外发出的音频信号分析后执行。

情况二、响应于该意图用于指示取消该电梯停靠的楼层，取消该电梯的停靠楼层中该槽位信息所指示的楼层。

情况三、响应于该意图用于指示该电梯开门或关门，控制该电梯开门或关门。

情况四、响应于该意图用于指示该电梯回答目标问题，控制该电梯播放该目标问题对应的目标答案。

上述仅以四种可能情况为例对电梯功能进行了示例性说明，该电梯还可以具有其他功能，例如，报警功能，上述意图用于指示报警，则可以控制电梯输出报警信号。又例如，对话功能，上述意图用于指示询问目标问题，则可以控制电梯播放该目标问题对应的目标答案。本申请实施例对该电梯的功能不作具体限定。

需要说明的是，上述图2所示实施例以电子设备与电梯之间进行数据交互的方式来说明，上述步骤中的电子设备的数量可以为一个，也可以为多个，如果为多个，该多个电子设备可以协作，共同完成上述识别过程。当然，上述过程还可以由电梯自行完成，具体可以参见下述图4所示实施例。

本实施例提供了一种对电梯的语音控制方法，该方法通过对音频信号语音识别得到的语句先进行意图识别，识别出意图以及意图类型后，针对意图类型，采用相应的槽位提取方式提取槽位信息，以确定电梯所需执行的功能，该方法中为意图设置了意图类型，这样可以针对电梯进行控制的多种复杂的应用场景来进行划分以区别处理，因而能够更好地适用更复杂的对电梯进行控制的应用场景，且意图识别过程和槽位提取过程分离，该槽位提取过程还考虑到了意图识别的结果中意图类型这一因素，能够更好的基于意图类型提取到更准确的槽位信息，进而提高对电梯控制的准确性，因而，上述方法能够有效提高对电梯控制的准确性，提高控制方法的适用性，控制效果更好。

上述图2所示实施例介绍了电子设备与电梯交互实现语音控制电梯的方法流程，下面通过图4所示实施例，对电梯自行实现控制的方法流程进行说明。图4是本申请实施例提供的一种对电梯的语音控制方法的流程图。参照图4，该方法可以包括以下步骤。

401、电梯采集音频信号。

402、电梯对音频信号进行语音识别，得到该音频信号对应的语句。

403、电梯对该语句进行意图识别，得到该语句的意图以及意图类型。

404、电梯基于该意图类型，对该语句进行槽位提取，得到该意图的槽位信息。

405、电梯根据该意图以及该槽位信息，执行相应的功能。

该电梯所执行的步骤与上述电子设备所执行的步骤同理，在此不做过多赘述。

可选地，该对该语句进行意图识别，得到该语句的意图以及意图类型，包括：

将该语句与数据库进行匹配；

响应于该语句与该数据库中任一候选句式的候选语句匹配，将该候选句式对应的候选意图以及候选意图类型确定为该语句的意图以及意图类型。

响应于该语句与该句式数据库中至少一个候选句式的候选语句均不匹配，将该语句输入意图识别模型中，由该意图识别模型对该语句进行语义分析，输出该语句的意图和意图类型。

将该语句输入意图识别模型中，由该意图识别模型对该语句进行语义分析，输出该语句的意图和意图类型。

将该语句与至少一个候选意图的种子语句进行匹配，确定该语句与该至少一个候选意图的种子语句的匹配度；

将匹配度最大的候选意图确定为该语句的意图，将该意图对应的意图类型确定为该语句的意图类型。

可选地，该将该语句与至少一个候选意图的种子语句进行匹配，确定该语句与该至少一个候选意图的种子语句的匹配度之后，该方法还包括下述任一项：

响应于该语句与该至少一个候选意图中至少一个候选意图的种子语句的匹配度大于匹配度阈值，将该至少一个候选意图中匹配度最大的候选意图作为该语句的意图，将该意图对应的意图类型确定为该语句的意图类型；

响应于该语句与该至少一个候选意图的种子语句的匹配度均小于匹配度阈值，将该语句的意图类型确定为目标意图类型，该目标意图类型用于指示该语句为用户间的对话信息。

可选地，该基于该意图类型，对该语句进行槽位提取，得到该意图的槽位信息，包括下述任一项：

响应于该意图类型为第一意图类型，根据该意图对应的状态图，提取该语句中的槽位对应的关键信息，得到该意图的槽位信息，该第一意图类型用于指示该语句为对该电梯所需执行功能的直接指令；

响应于该意图类型为第二意图类型，将该语句输入槽位提取模型中，由该槽位提取模型对该语句按照自然语言序列的规则进行实体识别，确定出该语句中的实体，将该实体作为该意图的槽位信息，该第二意图类型用于指示该语句需分析以确定该电梯所需执行功能。

可选地，该将该实体作为该意图的槽位信息之后，该方法还包括：

对该槽位信息中实体的实体指称与候选实体指称进行匹配，确定该实体指称匹配的目标实体指称，将该槽位信息中该实体的实体指称更新为该目标实体指称；

该根据该意图以及该槽位信息，控制电梯执行相应的功能，包括：

根据候选实体指称与楼层的对应关系，确定该槽位信息中该目标实体指称对应的目标楼层；

根据该意图和该目标楼层，控制该电梯执行与该目标楼层相关的功能。

可选地，该根据该意图以及该槽位信息，控制电梯执行相应的功能，包括下述任一项：

响应于该意图用于指示选择该电梯停靠的楼层，控制该电梯停靠在该槽位信息所指示的楼层；

响应于该意图用于指示取消该电梯停靠的楼层，取消该电梯的停靠楼层中该槽位信息所指示的楼层；

响应于该意图用于指示该电梯开门或关门，控制该电梯开门或关门；

响应于该意图用于指示该电梯回答目标问题，控制该电梯播放该目标问题对应的目标答案。

可选地，该对该语句进行意图识别，得到该语句的意图以及意图类型之后，该方法还包括：

响应于该意图类型为目标意图类型，忽略该语句，该目标意图类型用于指示该语句为用户间的对话信息。

下面提供一个具体示例，电梯采集到音频信号后，可以处理得到语句(query)，将其作为输入，针对该输入query，可以对其进行意图识别，确定出意图类型，如果意图类型为系统意图，则可以采用递归转移网络提取槽位，如果意图类型为扩展意图，则可以通过LSTM+CRF提取槽位，提取槽位后，还可以将槽位与公司名(也即是实体指称)映射，该两种情况得到意图和槽位后，即可控制电梯执行相应的功能(skill)。当然，如果意图类型为闲聊杂音，则可以忽略本次输入，针对下一次输入query进行处理。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图6是本申请实施例提供的一种对电梯的语音控制装置的结构示意图。参见图6，该装置包括：

语音识别模块601，用于对音频信号进行语音识别，得到该音频信号对应的语句；

意图识别模块602，用于根据该语句的句式，对该语句进行意图识别，得到该语句的意图以及意图类型；

槽位提取模块603，用于基于该意图类型，对该语句进行槽位提取，得到该意图的槽位信息；

功能控制模块604，用于根据该意图以及该槽位信息，控制电梯执行相应的功能。

可选地，该意图识别模块602包括第一意图识别单元，该第一意图识别单元用于采用句式匹配的方式，对该语句进行意图识别，得到该语句的意图以及意图类型。

可选地，该第一意图识别单元用于：

将该语句与数据库中候选句式的候选语句进行句式匹配；

响应于该语句与该数据库中任一候选句式的候选语句匹配，将该候选句式对应的候选意图以及候选意图类型确定为该语句的意图以及意图类型；

可选地，该意图识别模块602包括第二意图识别单元，该第二意图识别单元用于通过意图识别模型对该语句进行意图识别，得到该语句的意图以及意图类型。

可选地，该第二意图识别单元用于将该语句输入意图识别模型中，由该意图识别模型对该语句进行语义分析，输出该语句的意图和意图类型。

可选地，该意图识别模块602包括第三意图识别单元，该第三意图识别单元，该第三意图识别单元用于采用与候选意图的种子语句进行语句匹配的方式，对该语句进行意图识别，得到该语句的意图以及意图类型。

可选地，该第三意图识别单元用于：

将该语句与至少一个候选意图的种子语句进行语句匹配，确定该语句与该至少一个候选意图的种子语句的匹配度；

可选地，该意图识别模块602用于执行下述任一项：

可选地，该意图类型包括第一意图类型、第二意图类型和目标意图类型，该第一意图类型用于指示该语句为对该电梯所需执行功能的直接指令，该第二意图类型用于指示该语句需分析以确定该电梯所需执行功能，该目标意图类型用于指示该语句为用户间的对话信息。

可选地，该意图类型不同时，对该语句进行槽位提取的槽位提取方式不同。

可选地，该槽位提取模块603包括：

第一槽位提取单元，用于响应于该意图类型为第一意图类型，基于递归转移网络，对该语句进行槽位提取，得到该意图的槽位信息，该第一意图类型用于指示该语句为对该电梯所需执行功能的直接指令；

第二槽位提取单元，用于响应于该意图类型为第二意图类型，基于长短期记忆网络LSTM和条件随机场CRF，对该语句进行槽位提取，得到该意图的槽位信息，该第二意图类型用于指示该语句需分析以确定该电梯所需执行功能。

可选地，该第一槽位提取单元用于根据该意图对应的状态图，提取该语句中的槽位对应的关键信息，得到该意图的槽位信息。

可选地，该第二槽位提取单元用于将该语句输入槽位提取模型中，由该槽位提取模型对该语句按照自然语言序列的规则进行实体识别，确定出该语句中的实体，将该实体作为该意图的槽位信息。

可选地，该装置还包括：

更新模块，用于对该槽位信息中实体的实体指称与候选实体指称进行匹配，确定该实体指称匹配的目标实体指称，将该槽位信息中该实体的实体指称更新为该目标实体指称；

该功能控制模块604用于：

可选地，该装置还包括：

忽略模块，用于响应于该意图类型为目标意图类型，忽略该语句，该目标意图类型用于指示该语句为用户间的对话信息。

可选地，该功能控制模块604用于执行下述任一项：

可选地，对该语句进行意图识别时的召回率为90％-100％，准确率为90％-100％。

可选地，基于该意图类型对该语句进行槽位提取时的召回率为90％-100％，准确率为90％-100％。

可选地，采用任一种可选方式对音频信号进行处理时，控制该电梯的交互成功率为85％-95％。

本申请实施例提供的装置，通过对音频信号语音识别得到的语句先进行意图识别，识别出意图以及意图类型后，针对意图类型，采用相应的槽位提取方式提取槽位信息，以确定电梯所需执行的功能，该方法中为意图设置了意图类型，这样可以针对电梯进行控制的多种复杂的应用场景来进行划分以区别处理，因而能够更好地适用更复杂的对电梯进行控制的应用场景，且意图识别过程和槽位提取过程分离，该槽位提取过程还考虑到了意图识别的结果中意图类型这一因素，能够更好的基于意图类型提取到更准确的槽位信息，进而提高对电梯控制的准确性，因而，上述方法能够有效提高对电梯控制的准确性，提高控制方法的适用性，控制效果更好。

需要说明的是：上述实施例提供的对电梯的语音控制装置在基于语音对电梯进行控制时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的对电梯的语音控制装置与对电梯的语音控制方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述电子设备为下述图7所示的终端，也可以为下述图8所示的服务器。如果上述方法由电梯自行执行，也即是上述电子设备为电梯，该电梯可以为下述图7所示的终端。

图7是本申请实施例提供的一种终端的结构框图。该终端700可以是：智能手机、平板电脑、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端700还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。在上述方法由电梯自行执行的方式中，终端700还可以为电梯，该电梯可以为基于语音控制的电梯。

通常，终端700包括有：一个或多个处理器701和一个或多个存储器702。

处理器701可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－ProgrammableGate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器701可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器701还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器702可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器702中的非暂态的计算机可读存储介质用于存储至少一条指令，该至少一条指令用于被处理器701所执行以实现本申请中方法实施例提供的对电梯的语音控制方法。

在一些实施例中，终端700还可选包括有：外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地，外围设备包括：射频电路704、显示屏705、摄像头组件706、音频电路707、定位组件708和电源709中的至少一种。

外围设备接口703可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中，处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上；在一些其他实施例中，处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路704用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路704包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路704还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏705用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时，显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时，显示屏705还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏705可以为一个，设置终端700的前面板；在另一些实施例中，显示屏705可以为至少两个，分别设置在终端700的不同表面或呈折叠设计；在另一些实施例中，显示屏705可以是柔性显示屏，设置在终端700的弯曲表面上或折叠面上。甚至，显示屏705还可以设置成非矩形的不规则图形，也即异形屏。显示屏705可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件706用于采集图像或视频。可选地，摄像头组件706包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器701进行处理，或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路707还可以包括耳机插孔。

定位组件708用于定位终端700的当前地理位置，以实现导航或LBS(LocationBasedService，基于位置的服务)。定位组件708可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源709用于为终端700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端700还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于：加速度传感器711、陀螺仪传感器712、压力传感器713、指纹传感器714、光学传感器715以及接近传感器716。

加速度传感器711可以检测以终端700建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号，控制显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器712可以检测终端700的机体方向及转动角度，陀螺仪传感器712可以与加速度传感器711协同采集用户对终端700的3D动作。处理器701根据陀螺仪传感器712采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器713可以设置在终端700的侧边框和/或显示屏705的下层。当压力传感器713设置在终端700的侧边框时，可以检测用户对终端700的握持信号，由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在显示屏705的下层时，由处理器701根据用户对显示屏705的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器714用于采集用户的指纹，由处理器701根据指纹传感器714采集到的指纹识别用户的身份，或者，由指纹传感器714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器701授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器714可以被设置终端700的正面、背面或侧面。当终端700上设置有物理按键或厂商Logo时，指纹传感器714可以与物理按键或厂商Logo集成在一起。

光学传感器715用于采集环境光强度。在一个实施例中，处理器701可以根据光学传感器715采集的环境光强度，控制显示屏705的显示亮度。具体地，当环境光强度较高时，调高显示屏705的显示亮度；当环境光强度较低时，调低显示屏705的显示亮度。在另一个实施例中，处理器701还可以根据光学传感器715采集的环境光强度，动态调整摄像头组件706的拍摄参数。

接近传感器716，也称距离传感器，通常设置在终端700的前面板。接近传感器716用于采集用户与终端700的正面之间的距离。在一个实施例中，当接近传感器716检测到用户与终端700的正面之间的距离逐渐变小时，由处理器701控制显示屏705从亮屏状态切换为息屏状态；当接近传感器716检测到用户与终端700的正面之间的距离逐渐变大时，由处理器701控制显示屏705从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图7中示出的结构并不构成对终端700的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图8是本申请实施例提供的一种服务器的结构示意图，该服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central ProcessingUnits，CPU)801和一个或一个以上的存储器802，其中，该存储器802中存储有至少一条指令，该至少一条指令由该处理器801加载并执行以实现上述各个方法实施例提供的对电梯的语音控制方法。当然，该服务器还可以具有有线或无线网络接口以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括至少一条指令的存储器，上述至少一条指令由可由处理器执行以完成上述实施例中的对电梯的语音控制方法。例如，计算机可读存储介质可以是只读存储器(Read-Only Memory，简称：ROM)、随机存取存储器(Random Access Memory，简称：RAM)、只读光盘(Compact Disc Read-OnlyMemory，简称：CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述对电梯的语音控制方法或者对电梯的语音控制方法的各种可选实现方式。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上描述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种对电梯的语音控制方法，其特征在于，所述方法包括：

对音频信号进行语音识别，得到所述音频信号对应的语句；

对所述语句进行意图识别，得到所述语句的意图以及意图类型，所述意图类型包括第一意图类型、第二意图类型和目标意图类型，所述第一意图类型用于指示所述语句为对所述电梯所需执行功能的直接指令，所述第二意图类型用于指示所述语句需分析以确定所述电梯所需执行功能，所述目标意图类型用于指示所述语句为用户间的对话信息；

基于所述意图类型，对所述语句进行槽位提取，得到所述意图的槽位信息，所述意图类型不同时，对所述语句进行槽位提取的槽位提取方式不同；

2.根据权利要求1所述的方法，其特征在于，所述对所述语句进行意图识别，得到所述语句的意图以及意图类型，包括：

3.根据权利要求2所述的方法，其特征在于，所述采用句式匹配的方式，对所述语句进行意图识别，得到所述语句的意图以及意图类型，包括：

将所述语句与数据库中候选句式的候选语句进行句式匹配；

4.根据权利要求1所述的方法，其特征在于，所述对所述语句进行意图识别，得到所述语句的意图以及意图类型，包括：

5.根据权利要求4所述的方法，其特征在于，所述通过意图识别模型对所述语句进行意图识别，得到所述语句的意图以及意图类型，包括：

6.根据权利要求1所述的方法，其特征在于，所述对所述语句进行意图识别，得到所述语句的意图以及意图类型，包括：

7.根据权利要求6所述的方法，其特征在于，所述采用与候选意图的种子语句进行语句匹配的方式，对所述语句进行意图识别，得到所述语句的意图以及意图类型，包括：

8.根据权利要求7所述的方法，其特征在于，所述将所述语句与至少一个候选意图的种子语句进行语句匹配，确定所述语句与所述至少一个候选意图的种子语句的匹配度之后，所述方法还包括下述任一项：

响应于所述语句与所述至少一个候选意图的种子语句的匹配度均小于匹配度阈值，将所述语句的意图类型确定为目标意图类型。

9.根据权利要求1所述的方法，其特征在于，所述基于所述意图类型，对所述语句进行槽位提取，得到所述意图的槽位信息，包括：

响应于所述意图类型为第一意图类型，基于递归转移网络，对所述语句进行槽位提取，得到所述意图的槽位信息；

响应于所述意图类型为第二意图类型，基于长短期记忆网络LSTM和条件随机场CRF，对所述语句进行槽位提取，得到所述意图的槽位信息。

10.根据权利要求9所述的方法，其特征在于，所述基于递归转移网络，对所述语句进行槽位提取，得到所述意图的槽位信息，包括：

11.根据权利要求9所述的方法，其特征在于，所述基于长短期记忆网络LSTM和条件随机场CRF，对所述语句进行槽位提取，得到所述意图的槽位信息，包括：

12.根据权利要求11所述的方法，其特征在于，所述将所述实体作为所述意图的槽位信息之后，所述方法还包括：

13.根据权利要求1所述的方法，其特征在于，所述对所述语句进行意图识别，得到所述语句的意图以及意图类型之后，所述方法还包括：

响应于所述意图类型为目标意图类型，忽略所述语句。

14.根据权利要求1所述的方法，其特征在于，所述根据所述意图以及所述槽位信息，控制电梯执行相应的功能，包括下述任一项：

15.根据权利要求1至14任一项所述的方法，其特征在于，对所述语句进行意图识别时的召回率为90％-100％，准确率为90％-100％。

16.根据权利要求1至14任一项所述的方法，其特征在于，基于所述意图类型对所述语句进行槽位提取时的召回率为90％-100％，准确率为90％-100％。

17.根据权利要求1至14任一项所述的方法，其特征在于，采用所述权利要求1至权利要求14任一项所述的方法，对音频信号进行处理时，控制所述电梯的交互成功率为85％-95％。

18.一种对电梯的语音控制装置，其特征在于，所述装置包括：

意图识别模块，用于对所述语句进行意图识别，得到所述语句的意图以及意图类型，所述意图类型包括第一意图类型、第二意图类型和目标意图类型，所述第一意图类型用于指示所述语句为对所述电梯所需执行功能的直接指令，所述第二意图类型用于指示所述语句需分析以确定所述电梯所需执行功能，所述目标意图类型用于指示所述语句为用户间的对话信息；

槽位提取模块，用于基于所述意图类型，对所述语句进行槽位提取，得到所述意图的槽位信息，所述意图类型不同时，对所述语句进行槽位提取的槽位提取方式不同；

19.根据权利要求18所述的装置，其特征在于，所述对所述语句进行意图识别，得到所述语句的意图以及意图类型，包括：

20.根据权利要求19所述的装置，其特征在于，所述采用句式匹配的方式，对所述语句进行意图识别，得到所述语句的意图以及意图类型，包括：

将所述语句与数据库中候选句式的候选语句进行句式匹配；

21.根据权利要求18所述的装置，其特征在于，所述对所述语句进行意图识别，得到所述语句的意图以及意图类型，包括：

22.根据权利要求21所述的装置，其特征在于，所述通过意图识别模型对所述语句进行意图识别，得到所述语句的意图以及意图类型，包括：

23.根据权利要求18所述的装置，其特征在于，所述对所述语句进行意图识别，得到所述语句的意图以及意图类型，包括：

24.根据权利要求23所述的装置，其特征在于，所述采用与候选意图的种子语句进行语句匹配的方式，对所述语句进行意图识别，得到所述语句的意图以及意图类型，包括：

25.根据权利要求24所述的装置，其特征在于，所述将所述语句与至少一个候选意图的种子语句进行语句匹配，确定所述语句与所述至少一个候选意图的种子语句的匹配度之后，所述装置还包括下述任一项：

26.根据权利要求18所述的装置，其特征在于，所述基于所述意图类型，对所述语句进行槽位提取，得到所述意图的槽位信息，包括：

27.根据权利要求26所述的装置，其特征在于，所述基于递归转移网络，对所述语句进行槽位提取，得到所述意图的槽位信息，包括：

28.根据权利要求26所述的装置，其特征在于，所述基于长短期记忆网络LSTM和条件随机场CRF，对所述语句进行槽位提取，得到所述意图的槽位信息，包括：

29.根据权利要求28所述的装置，其特征在于，所述将所述实体作为所述意图的槽位信息之后，所述装置还包括：

30.根据权利要求18所述的装置，其特征在于，所述对所述语句进行意图识别，得到所述语句的意图以及意图类型之后，所述装置还包括：

响应于所述意图类型为目标意图类型，忽略所述语句。

31.根据权利要求18所述的装置，其特征在于，所述根据所述意图以及所述槽位信息，控制电梯执行相应的功能，包括下述任一项：

32.根据权利要求18至31任一项所述的装置，其特征在于，对所述语句进行意图识别时的召回率为90％-100％，准确率为90％-100％。

33.根据权利要求18至31任一项所述的装置，其特征在于，基于所述意图类型对所述语句进行槽位提取时的召回率为90％-100％，准确率为90％-100％。

34.根据权利要求18至31任一项所述的装置，其特征在于，采用所述权利要求18至权利要求31任一项所述的装置，对音频信号进行处理时，控制所述电梯的交互成功率为85％-95％。

35.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至权利要求17任一项所述的对电梯的语音控制方法。

36.一种控制系统，其特征在于，所述控制系统包括电梯和电子设备，所述电梯用于采集音频信号，所述电子设备用于根据所述音频信号执行如权利要求1至权利要求17任一项所述的对电梯的语音控制方法。

37.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求17任一项所述的对电梯的语音控制方法。