CN111816180A

CN111816180A - 基于语音控制电梯的方法、装置、设备、系统及介质

Info

Publication number: CN111816180A
Application number: CN202010659654.0A
Authority: CN
Inventors: 陈孝良; 李良斌; 李智勇
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-07-08
Filing date: 2020-07-08
Publication date: 2020-10-23
Anticipated expiration: 2040-07-08
Also published as: CN111816180B

Abstract

本申请公开了一种基于语音控制电梯的方法、装置、设备、系统及介质，属于人机交互领域。本申请一些实施例能够应用在多人共同乘坐语音电梯的场景。本申请实施例通过从混合了不同用户语音的音频流中，分离出每个用户对应的一个语音信号，对分离出的n个语音信号分别进行语音识别和意图识别，从而识别出多个用户的意图，根据这些意图中的目标意图控制电梯，从而支持多人同时语音控制电梯，避免不同用户的语音指令相互干扰的情况，解决了由于多个用户的语音相互重叠导致语音识别率低下的问题，提高了语音电梯的语音识别率，显著提高了控制语音电梯的成功率。

Description

基于语音控制电梯的方法、装置、设备、系统及介质

技术领域

本申请涉及人机交互领域，特别涉及一种基于语音控制电梯的方法、装置、设备、系统及介质。

背景技术

在电梯这种使用频率极高、使用人群复杂且人口密度较高的场景，通过语音交互的方式来控制电梯，相比于传统的点击电梯按钮来控制电梯的方式而言，避免了接触电梯按钮而被病毒感染的风险，具有卫生、安全且高效等优势。因此，如何基于语音控制电梯已经成为本领域的研究热点。

相关技术中，会从电梯中采集音频流；对音频流进行语音识别，得到语句；对语句进行意图识别，得到语句表示的意图；根据意图控制电梯执行相应的指令。

在电梯这种特殊的人机交互环境下，往往会有很多人共同乘坐电梯，使得多人同时语音控制电梯成为一个普遍的场景。但是在多人同时语音控制电梯的场景下采用上述方法时，会出现语音识别率不高的问题，进而影响了控制电梯的成功率。

发明内容

本申请实施例提供了一种基于语音控制电梯的方法、装置、设备、系统及介质，能够提高语音识别率，进而提高控制电梯的成功率。所述技术方案如下：

一方面，提供了一种基于语音控制电梯的方法，所述方法包括：

对音频流进行分离，得到n个语音信号，所述音频流的声源包括共同乘坐电梯的多个用户，所述n个语音信号中每一个语音信号的声源为所述多个用户中的一个用户，所述n为大于1的正整数；

对所述n个语音信号分别进行语音识别，得到多个语句；

对所述多个语句分别进行意图识别，得到多个意图；

根据所述多个意图中的至少一个目标意图控制所述电梯。

可选地，所述对所述n个语音信号分别进行语音识别，包括：

根据所述n个语音信号中每个语音信号的语音活性检测VAD结束时间，对所述n个语音信号分别进行语音识别。

可选地，所述音频流的时间长度小于或等于150毫秒。

可选地，所述对所述多个语句分别进行意图识别，得到多个意图之后，所述方法还包括：

根据目标意图策略，对所述多个意图进行处理，得到所述至少一个目标意图。

可选地，所述多个意图包括第一意图和第二意图，所述第一意图和所述第二意图指示同一类型的指令，所述至少一个目标意图包括第一目标意图，所述根据目标意图策略，对所述多个意图进行处理，得到所述至少一个目标意图，包括：

对所述第一意图和所述第二意图进行合并，得到所述第一目标意图；

对所述第一意图对应的槽位信息和所述第二意图对应的槽位信息进行合并，得到所述第一目标意图对应的槽位信息；

所述根据所述多个意图中的至少一个目标意图控制所述电梯，包括：

根据所述第一目标意图以及所述第一目标意图对应的槽位信息控制所述电梯。

可选地，所述多个意图包括第三意图和第四意图，所述第三意图和所述第四意图指示不同类型的指令，所述至少一个目标意图包括第二目标意图，所述根据目标意图策略，对所述多个意图进行处理，得到所述至少一个目标意图，包括：

确定所述第三意图对应的语音信号在时间窗口中的第一语音结束点；

确定所述第四意图对应的语音信号在所述时间窗口中的第二语音结束点；

根据所述第一语音结束点和所述第二语音结束点，从所述第三意图和所述第四意图中选择所述第二目标意图，所述第二目标意图在所述第三意图和所述第四意图中对应的语音结束点最晚。

可选地，所述根据所述多个意图中的至少一个目标意图控制所述电梯，包括：

根据第一目标意图和第二目标意图控制所述电梯，所述第一目标意图是根据所述多个意图中指示同一类型指令的不同意图处理得到的，所述第二目标意图是根据所述多个意图中指示不同类型指令的不同意图处理得到的。

可选地，所述对所述n个语音信号分别进行语音识别，得到多个语句之后，所述方法还包括：

识别所述多个语句中的噪声语句，所述噪声语句是指与控制电梯无关的语句；

过滤掉所述多个语句中的噪声语句。

可选地，所述多个语句包括第一语句，所述识别所述多个语句中的噪声语句，包括：

对所述第一语句进行命名实体识别，得到所述第一语句中的槽位信息；

采用标签替换所述第一语句中的槽位信息，得到第二语句；

根据所述第二语句在种子语句库中搜索，得到第一种子语句，所述第一种子语句包括所述标签；

使用所述第一语句中的槽位信息填充所述第一种子语句，得到第二种子语句；

若所述第二种子语句与所述第一语句之间的语义相似度低于阈值，确定所述第一语句为所述噪声语句。

可选地，所述对所述n个语音信号分别进行语音识别，包括：并行地对所述n个语音信号分别进行语音识别；

所述对所述多个语句分别进行意图识别，包括：并行地对所述多个语句分别进行意图识别。

另一方面，提供了一种基于语音控制电梯的装置，所述装置包括：

分离模块，用于对音频流进行分离，得到n个语音信号，所述音频流的声源包括共同乘坐电梯的多个用户，所述n个语音信号中每一个语音信号的声源为所述多个用户中的一个用户，所述n为大于1的正整数；

语音识别模块，用于对所述n个语音信号分别进行语音识别，得到多个语句；

意图识别模块，用于对所述多个语句分别进行意图识别，得到多个意图；

控制模块，用于根据所述多个意图中的至少一个目标意图控制所述电梯。

可选地，所述语音识别模块，用于根据所述n个语音信号中每个语音信号的语音活性检测VAD结束时间，对所述n个语音信号分别进行语音识别。

可选地，所述音频流的时间长度小于或等于150毫秒。

可选地，所述装置还包括：处理模块，用于根据目标意图策略，对所述多个意图进行处理，得到所述至少一个目标意图。

可选地，所述多个意图包括第一意图和第二意图，所述第一意图和所述第二意图指示同一类型的指令，所述至少一个目标意图包括第一目标意图，所述处理模块，用于对所述第一意图和所述第二意图进行合并，得到所述第一目标意图；对所述第一意图对应的槽位信息和所述第二意图对应的槽位信息进行合并，得到所述第一目标意图对应的槽位信息；所述控制模块，用于根据所述第一目标意图以及所述第一目标意图对应的槽位信息控制所述电梯。

可选地，所述多个意图包括第三意图和第四意图，所述第三意图和所述第四意图指示不同类型的指令，所述至少一个目标意图包括第二目标意图，所述处理模块，用于确定所述第三意图对应的语音信号在时间窗口中的第一语音结束点；确定所述第四意图对应的语音信号在所述时间窗口中的第二语音结束点；根据所述第一语音结束点和所述第二语音结束点，从所述第三意图和所述第四意图中选择所述第二目标意图，所述第二目标意图在所述第三意图和所述第四意图中对应的语音结束点最晚。

可选地，所述控制模块，用于根据第一目标意图和第二目标意图控制所述电梯，所述第一目标意图是根据所述多个意图中指示同一类型指令的不同意图处理得到的，所述第二目标意图是根据所述多个意图中指示不同类型指令的不同意图处理得到的。

可选地，所述意图识别模块，还用于识别所述多个语句中的噪声语句，所述噪声语句是指与控制电梯无关的语句；过滤掉所述多个语句中的噪声语句。

可选地，所述多个语句包括第一语句，所述意图识别模块，用于对所述第一语句进行命名实体识别，得到所述第一语句中的槽位信息；采用标签替换所述第一语句中的槽位信息，得到第二语句；根据所述第二语句在种子语句库中搜索，得到第一种子语句，所述第一种子语句包括所述标签；使用所述第一语句中的槽位信息填充所述第一种子语句，得到第二种子语句；若所述第二种子语句与所述第一语句之间的语义相似度低于阈值，确定所述第一语句为所述噪声语句。

可选地，所述语音识别模块，用于并行地对所述n个语音信号分别进行语音识别；所述意图识别模块，用于并行地对所述多个语句分别进行意图识别。

另一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述基于语音控制电梯的方法或者基于语音控制电梯的方法的各种可选实现方式。

在一些实施例中，所述电子设备为服务器或终端，所述电子设备与所述电梯通过网络相连。

在另一些实施例中，所述电子设备为电梯。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现上述基于语音控制电梯的方法或者基于语音控制电梯的方法的各种可选实现方式。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述基于语音控制电梯的方法或者基于语音控制电梯的方法的各种可选实现方式。

另一方面，提供了一种基于语音控制电梯的方法，所述方法包括：

采集装置采集音频流，向服务器发送所述音频流，所述音频流的声源包括共同乘坐电梯的多个用户；

所述服务器对所述音频流进行分离，得到n个语音信号，所述n个语音信号中每一个语音信号的声源为所述多个用户中的一个用户，所述n为大于1的正整数；

所述服务器对所述n个语音信号分别进行语音识别，得到多个语句；

所述服务器对所述多个语句分别进行意图识别，得到多个意图；

所述服务器根据所述多个意图中的至少一个目标意图控制所述电梯。

本申请实施例提供的技术方案带来的有益效果至少包括：

本实施例提供了一种支持多人同时语音控制电梯的方法，该方法能够应用在多人共同乘坐语音电梯的场景。通过对混合了不同用户语音的音频流进行声源分离，从而分离出每个用户对应的一个语音信号，通过对分离出的n个语音信号分别进行语音识别和意图识别，从而识别出多个用户的意图，根据这些意图中的目标意图控制电梯。在实现语音控制电梯的功能的基础上，一方面，由于进行了语音信号分离，避免不同用户的语音指令相互干扰的情况，解决了由于多个用户的语音相互重叠导致语音识别准确率低下的问题，提高了语音电梯的语音识别的准确率。另一方面，由于对多个用户的意图分别进行了意图识别，过滤部分用户的闲聊内容对自然语言理解造成的干扰，并且能够从多个用户的意图中得出更有效的目标意图，从而提高意图识别的准确率。结合这两方面的改进，显著提高了控制语音电梯的成功率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种控制系统的架构图；

图2是本申请实施例提供的一种基于语音控制电梯的方法200的流程图；

图3是本申请实施例提供的一种意图识别和意图合并的示意图；

图4是本申请实施例提供的一种基于语音控制电梯的方法300的流程图；

图5是本申请实施例提供的一种基于语音控制电梯的装置的结构示意图；

图6是本申请实施例提供的一种电子设备500的结构框图；

图7是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”、“第二”、“第三”、“第四”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第三”、“第四”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。还应理解，尽管以下描述使用术语第一、第二等来描述各种元素，但这些元素不应受术语的限制。这些术语只是用于将一元素与另一元素区别分开。例如，“第一楼层”、“第二楼层”、“第三楼层”等描述楼层的术语中“第一”、“第二”、“第三”等字样，并不限定指代的楼层具体是一栋楼中的第几层，也不限定指代的楼层仅是一个楼层。例如，“第一楼层”中的“第一”并非限定“第一楼层”指代的楼层是1层。可选地，“第一楼层”是1层；可选地，“第一楼层”是2层、3层或者其他楼层；可选地，“第一楼层”是1层、2层、3层等多个楼层的集合。又如，“第一语音结束点”、“第二语音结束点”等描述语音结束点的术语中“第一”、“第二”等字样，并不限定指代的语音结束点的时间的早晚顺序。例如，“第一语音结束点”中的“第一”并非限定“第一语音结束点”指代的语音结束点是语音第一个结束的语音结束点。

术语“至少一个”的含义是指一个或多个，本申请中术语“多个”的含义是指两个或两个以上。

术语“响应于”可被解释为意指“如果”、“当...时”(“when”或“upon”)或“响应于确定”或“响应于检测到”。类似地，根据上下文，短语“如果确定...”或“如果检测到[所陈述的条件或事件]”可被解释为意指“在确定...时”或“响应于确定...”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。

以下示例性介绍本申请的应用场景。

本申请实施例提供的基于语音控制电梯的方法能够应用在多人共同乘坐语音电梯的场景，支持多人同时通过语音控制语音电梯的功能，下面对语音电梯进行简单的介绍。

语音电梯是指能够通过语音控制的电梯，比如用户说句话，就能实现控制电梯上楼、下楼、电梯开关门等乘梯操作功能。在很多场景下，语音电梯都发挥了显著的优势。

例如，从公共卫生安全的角度而言，相比于传统的点击按钮、触摸屏等人与电梯的交互方式，语音电梯实现了非接触式电梯控制，避免了人与电梯按键接触，具有卫生、安全且高效等优势。尤其是，在疫情期间，避免了用手触控电梯按钮而被病毒感染的风险，可有效减少疫情传播。特别地，应用在医院中，语音电梯为医护人员和患者提供了语音控制的功能，从而避免医护人员被感染，也能防止患者被病毒侵入，这对于医院防疫可发挥积极作用。又如，在乘坐电梯人员较多的场景、残障人士乘坐电梯的场景、用户手提重物乘坐电梯等各种不便接触电梯按钮的场景下，通过语音电梯，为用户提供了更便捷的控制电梯的方式。

以上对语音电梯进行了简介，下面对语音电梯具体应用在多人乘梯场景下的一些情况进行介绍。

在电梯场景下，往往是多个人同时进入电梯。在多人共同乘坐电梯的过程中，多人同时语音操控电梯是一个普遍的场景。然而，电梯中不同人说的话可能会互相交错，导致语音相互重叠。此外，电梯内还可能有人闲聊或发出无关噪声，从而干扰正常的语音指令识别。

在一些相关技术中，会对包含多人语音的音频流直接进行自动语音识别(AutoSpeech Recognition，ASR)，转换成文本；再对文本进行自然语言处理(Natural LanguageProcessing，NLP)，识别意图并提取出槽位；根据意图及槽位请求电梯技能；由电梯技能控制电梯，完成相应指令。

然而，在采用这种方式时，由于仅针对单路音频流进行语音活性检测(VoiceActivity Detection，VAD)截断、语义理解、指令下发等操作，音频流未经过分离处理ASR识别受到很大影响，识别率不高。此外，NLP不具备多通道并行处理能力，会导致在多人同时操控电梯的情况下，频繁请求电梯技能，依次控制电梯楼层，耗时极长。

有鉴于此，如何提供一种更有效地语音电梯控制方案，让多人能够同时通过语音控制语音电梯而不会相互干扰，已成为语音电梯行业亟需满足的需求。

而本申请的一些实施例中，提供了一种多通道输入并行处理的架构，在进行声源分离后，行多路语音识别和意图识别，避免不同用户的语音指令相互干扰的情况，从而支持多人同时向语音电梯下发指令，并且过滤部分用户的闲聊内容对自然语言理解造成的干扰，能够同时识别多个用户的有效意图，显著提高了控制语音电梯的成功率。

由于本申请实施例涉及声学技术以及NLP技术的应用，为了便于理解，下面先对本申请实施例涉及的声学技术以及NLP技术中的术语相关概念进行介绍。

(1)声源

声源是指发声的任意物体。例如，声源包括正在振动的声带、正在振动的音叉、敲响的鼓等等。

(2)声源分离

声源分离是指分离来自多个声源的声音。在声源的声音为用户发出的语音信号的情况下，声源分离也称语音信号分离。语音信号分离是指将一路音频流分离为n个语音信号。利用语音信号分离技术，能够将混合在一起的多路语音分离开来。

声源分离(语音信号分离)的实现方式包括而不限于以下三种方式：

方式一、波束成形的方式。波束形成(Beam Forming)是指对期望语音信号进行增强，抑制干扰声源和噪声。例如，已知传声器阵列的拓扑结构，采用声源定位算法估计出多个声源中各个声源相对于麦克风阵列的方位角、俯仰角、距离等，然后，再用波束形成算法为每个声源分别形成一个波束，以输出n个语音信号。其中，声源定位算法包括：基于波达时延差(Time Difference of Arrival，TDOA)的方法，其实现原理为：利用广义互相关等时延估计算法求出语音信号到麦克风阵列中不同麦克风阵元的时延信息，并利用该时延信息与麦克风阵列的空间分布关系估计声源的空间信息。

方式二、由于不同的声源是由不同的物理过程产生，因此，可以假设不同的声源信号之间是统计独立的。其中原始语音信号就是多个源信号的混合，传声器阵列各通道采集到的信号就变得不再独立。可以定义一个目标函数，在迭代过程中最大化各个输出通道之间的独立性，从而达到语音分离的目的。

方式三、由于语音信号在频域上是稀疏的，因此可以假设同一个时频点上只有一个声源占主导地位。为此，可以定义一种时频掩蔽(Mask)方法，将属于同一声源的时频点分离出来并归类到一起，在从各个声源的音频信号的时频掩蔽中计算出各个声源的能量变化和协方差矩阵，从而实现语音分离。

(3)语音识别

语音识别即ASR，是一种将人的语音转换为语句的技术。ASR的目标是让计算机能够“听写”出不同人所说出的连续语音。语音识别的实现过程包括训练和识别这两大阶段。训练通常是离线完成的，对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘，获取语音识别系统所需要的“声学模型”和“语言模型”；而识别过程通常是在线完成的，对用户实时的语音进行自动识别。语音识别包括VAD、声音分帧，特征提取、通过声学模型、字典和语言模型解码等步骤，最终输出语句。其中，通过VAD，能够将首尾端的静音切除，降低干扰。声音分帧是指把声音切开成一小段一小段，每小段称为一帧，通常使用移动窗函数来实现。特征提取的主要算法有线性预测倒谱系数(Linear Prediction CepstrumCoefficient，LPCC)和梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)，特征提取的目的是把每一帧波形变成一个包含声音信息的多维向量；声学模型是通过对语音数据进行训练获得，输入是特征向量，输出为音素信息；字典包括字或者词与音素的对应关系，例如中文就是拼音和汉字的对应，英文就是音标与单词的对应；语言模型是指通过对大量语句信息进行训练得到的模型，用于得到单个字或者词相互关联的概率；解码是指通过声学模型，字典，语言模型对提取特征后的音频数据进行文字输出的过程。

(4)口语理解(spoken language understanding，SLU)。

SLU的任务包括对于给定用户的语句(query)，输出相应的语义结构化表示，这种结构化的表示包括三个部分：领域(domain)、意图(intent)和槽位(slot)。

(5)意图

意图用于描述用户和机器进行语音交互的目的。例如订机票，问天气。在本申请实施例涉及的语音电梯场景下，意图用于描述用户和语音电梯进行语音交互的目的，即用户期望语音电梯执行的指令。例如，意图包括选定楼层、取消楼层、开门、关门等。

(6)意图识别

意图识别是指识别用户的输入属于哪一种意图。意图识别的实现方式包括很多种，以下通过识别方式I和识别方式II举例说明。

识别方式I、基于深度学习的方式。

例如，将意图识别作为深度学习领域的分类任务，将每一种意图作为一种类型。具体地，预先通过样本语料进行模型训练，得到意图识别模型。对于用户输入的语句(query)，根据意图识别模型计算出每个意图的概率，根据每个意图的概率最终给出query表示的意图。例如，意图识别模型是神经网络模型。例如，意图识别模型是卷积神经网络、注意力网络模型等。

识别方式II、基于命令词查表匹配的方式。

例如，预先建立和存储命令词库。命令词库用于保存命令词与意图之间的对应关系。在意图识别过程中，根据用户的输入查询命令词库，从命令词库中获得与用户的输入对应的意图，作为识别出的意图。可选地，命令词库保存的命令词是文本的形式。在查询命令词库之前，将用户输入的语音信号转换为文本形式的命令词。在查询命令词库时，根据文本形式的命令词查询命令词库中匹配的命令词；或者，命令词库保存的命令词是语音信号的形式，根据用户输入的语音信号查询命令词库中匹配的语音信号。

(7)槽位和槽位信息

槽位是将初步用户意图转化为明确用户指令所需要补全的信息。槽位可以理解为属性，槽位信息是可以理解为属性对应的属性值。例如，在订火车票的场景下，槽位包括时间槽位、出发地槽位、目的地槽位。例如，如果用户的语句是“订一张八点出发，从北京到深圳的火车票”，则时间槽位的槽位信息是八点，出发地槽位的槽位信息是是北京，目的地槽位的槽位信息是深圳。在本申请实施例涉及的语音电梯场景下，槽位包括楼层槽位，槽位信息包括楼层标识。例如，如果用户的语句是“去5楼”，则楼层槽位的槽位信息是5。

(8)槽位提取

槽位提取是指从语句中获得槽位对应的槽位信息的过程。例如，如果用户的语句是“去5楼”，槽位提取的目标是把“5”提取出来。槽位提取是一种序列标记的任务。可选地，槽位提取通过基于规则的算法实现。可选地，槽位提取通过传统的机器学习算法实现，例如通过深度置信网络(Deep Belief Networks，DBN)、支持向量机(Support Vector Machine，SVM)实现。可选地，槽位提取通过基于深度学习算法实现，例如通过长短期记忆网络(LongShort-Term Memory，LSTM)、双向循环神经网络(Recurrent Neural Network，RNN)实现。

下面介绍本申请实施例提供的系统架构。

参见附图1，本申请实施例提供了一种控制系统100。控制系统100是对语音电梯控制系统的举例说明。控制系统100包括：语音电梯101和控制平台110。语音电梯101通过无线网络或有线网络120与控制平台110相连。

语音电梯101能够乘坐至少一个用户。在用户乘坐语音电梯101期间，语音电梯101能够采集音频流130，将音频流130通过网络发送至控制平台110。

控制平台110用于根据音频流130，获取对语音电梯101的控制指令，向语音电梯101发送控制指令。可选地，在电梯控制的过程中，控制平台110和语音电梯101协同工作。比如说，语音电梯101对音频流进行负责利用声学算法过滤噪声、混响等干扰。控制平台110对预处理后的音频流进行其他处理过程。

控制平台110包括至少一个电子设备。控制平台110例如是终端、一台或多台服务器、云计算平台和虚拟化中心中的至少一种。

在控制平台110通过终端实现的情况下，终端例如是智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器或MP4(Moving Picture Experts Group AudioLayer IV，动态影像专家压缩标准音频层面4)播放器和膝上型便携计算机中的至少一种。终端安装和运行有支持电梯服务的应用程序。该应用程序可以是客户端应用，也可以是浏览器应用。

在控制平台110通过服务器实现的情况下，可选地，控制平台110包括：服务器1101和数据库1102。服务器1101用于提供语音控制电梯有关的后台服务。数据库1102用于存储语音控制电梯所需的数据，例如模型训练所需的样本语料、意图识别模型等。

以上介绍了系统架构，以下通过方法200和方法300，示例性介绍基于上文提供的系统架构控制电梯的方法流程。

其中，方法200从双侧交互的角度描述。方法200关于云端服务器、电梯应用客户端等电子设备如何与电梯交互控制电梯。方法200能提供为在线控制语音电梯的方案。

方法300从单侧的角度描述。方法300关于电梯如何在本地执行语音控制的流程。方法300能提供为离线控制语音电梯的方案。

参见附图2，附图2是本申请实施例提供的一种基于语音控制电梯的方法200的流程图。

方法200的执行主体包括电梯和电子设备。例如，方法200由附图1所示系统架构中的语音电梯101和控制平台110交互执行。

可选的，方法200由通用中央处理器(central processing unit，CPU)执行。可选的，方法200由CPU与适于音频处理或人工智能(artificial intelligence，AI)处理的处理器共同执行。适于音频处理的处理器例如为专用的音频处理器(如声学阵列芯片、麦克风阵列板等)。适于AI处理的处理器例如为神经网络处理器(neural-network processingunits，NPU)、图形处理器(Graphics Processing Unit，GPU)等。例如，适于音频处理的处理器承担方法200中音频处理相关的步骤。比如说，适于音频处理的处理器负责执行方法200中声源分离、语音识别等步骤。例如，适于AI处理的处理器承担方法200中AI处理相关的步骤。比如说，适于AI处理的处理器负责执行方法200中意图识别、槽位提取、模型训练等步骤。CPU用于承担控制电梯的任务以及调度适于音频处理或AI处理的处理器的任务。通过这种方式，适于音频处理的处理器能够通过算法硬件化的手段加速声源分离、语音识别等步骤的完成，适于AI处理的处理器能够通过算法硬件化的手段加速意图识别、槽位提取等步骤的完成，从而发挥不同处理器的性能优势，加速方法200整体的完成。

示例性地，方法200包括S210至S270。

S210、电梯采集音频流。

音频流的声源包括共同乘坐电梯的多个用户。具体而言，在多个用户共同乘坐电梯的场景下，每个用户都发出语音，每个用户充当一个声源，多个用户的语音交织在一起，使得音频流的声源来自多个用户。

例如，用户A、用户B和用户C共同乘坐电梯。用户A在电梯中说“我要去5层”；同时，用户B在电梯中说“开门”；同时，用户C在电梯中和用户B闲聊说“今天天气好”。在这个场景下，采集的音频流的声源包括用户A、用户B和用户B。音频流包括用户A的“我要去5层”、用户B的“开门”、用户C的“今天天气好”这三路语音。

如何采集音频流包括多种实现方式。在一些实施例中，在电梯中设置麦克风阵列，麦克风阵列中的每个麦克风进行音频采集，得到音频流。在一些实施例中，麦克风阵列中的不同麦克风设置在电梯的不同方位，每个麦克风采集一个方位的音频，以便从不同的角度拾取用户的声音。

S220、电梯向电子设备发送音频流。

S230、电子设备接收音频流，对音频流进行分离，得到n个语音信号。

在一些实施例中，音频流的时间长度小于或等于150毫秒。

将音频流分离为n个语音信号的过程也称声源分离或语音信号分离。其中，分离出的n个语音信号中每一个语音信号的声源为多个用户中的一个用户。在一些实施例中，音频流的声源包括n个用户的情况下，对音频流进行分离后，得到n路语音信号。其中，n为大于1的正整数。例如，n为2、3或4。

声源分离例如通过语音信号分离技术实现。语音信号分离的方式例如利用声学的波束形成技术实现。波束成形以及其他声源分离的实现细节请参考上文术语介绍部分，在此不做赘述。

电子设备进行声源分离，得到n个语音信号后，对n个语音信号进行多路NLP。每路NLP是指对一个语音信号进行NLP处理的过程。每路NLP均包括语音识别和意图识别的过程，以下通过S240和S250举例说明。在一些实施例中，多路NLP是并行执行的。

S240、电子设备对n个语音信号分别进行语音识别，得到多个语句。

语句即query。语句例如是文本的形式。在一些实施例中，多个语句和n个语音信号是一一对应的关系。每个语句对应一个语音信号，每个语句是对应的语音信号的语音识别结果。

在一些实施例中，步骤S240也称多路语音识别。每路语音识别是指对一个语音信号进行语音识别的过程。具体地，对于n个语音信号中的每路语音信号，电子设备对该路语音信号进行语音识别，得到该路语音信号对应的语句。参见附图3，附图3是对N路NLP的分离意图识别的举例说明。例如，电子设备对混合了N个用户语音的音频流进行声源分离后，得到N路语音信号；对N路语音信号分别进行语音识别，得到query₁、query₂……query_N。附图3中的query表示语音识别得到的语句。query₁表示对语音信号1语音识别得到的语句。query₂表示对语音信号2语音识别得到的语句。query_N表示对语音信号N语音识别得到的语句。……表示对其他语音信号识别得到的、附图3未示出的语句。

在一些实施例中，电子设备并行地对n个语音信号分别进行语音识别。可选地，电子设备同时对n个语音信号进行语音识别。通过并行进行语音识别，从而节省对多个语句语音识别的时间，提高对多个语句语音识别的效率。

在一些实施例中，多路语音识别包括多路VAD。每路VAD是指对一个语音信号进行VAD的过程。具体地，电子设备根据n个语音信号中每个语音信号的VAD结束时间，对n个语音信号分别进行语音识别。例如，电子设备对n个语音信号分别进行语音活性检测，得到每路语音信号的语音结束点；电子设备根据每路语音信号的语音结束点，分别确定每路语音信号对应的语句。其中，根据语音结束点确定语句的过程例如包括：截取语音信号在语音起始点至语音结束点之间的部分，得到语音片段。确定语音片段对应的语音识别结果，作为语音信号对应的语句。通过对n个语音信号分别进行VAD，避免VAD时由于不同用户的语音信号相互重叠、相互干扰而影响VAD准确性的问题，因此显著提高了VAD的准确性，从而提高了语音识别的准确率。

在一些实施例中，电子设备分别检测n个语音信号的语音结束点后，对n个语音信号的语音结束点按照时间的先后顺序进行排序，标记每路语音信号的排序。例如，对n个语音信号的语音结束点按照时间从晚到早的顺序进行排序；又如，对n个语音信号的语音结束点按照时间从早到晚的顺序进行排序。其中，语音信号的语音结束点对应的时间例如通过语音信号的VAD结束时间戳表示。在一些实施例中，电子设备得到每路语音信号的语音结束点的排列顺序之后，还建立并保存语句与语音结束点的排列顺序之间的对应关系。

例如，电子设备分离得到语音信号1、语音信号2至语音信号n这n路语音信号后，对n路语音信号分别进行语音活性检测；当经过时间窗口1后，电子设备确定时间窗口1内语音信号1的语音起始点1和语音结束点1，确定时间窗口1内语音信号2的语音起始点2和语音结束点2，依次类推，电子设备确定时间窗口1内语音信号n的语音起始点n和语音结束点n。电子设备截取语音信号1在语音起始点1和语音结束点1之间的部分，得到语音片段1，确定语音片段1对应的语音识别结果1，作为语音信号1对应的语句1。电子设备截取语音信号2在语音起始点2和语音结束点2之间的部分，得到语音片段2，确定语音片段2对应的语音识别结果2，作为语音信号2对应的语句2。依次类推，电子设备截取语音信号n在语音起始点n和语音结束点n之间的部分，得到语音片段n，确定语音片段n对应的语音识别结果n，作为语音信号n对应的语句n。此外，电子设备对语音结束点1、语音结束点2和语音结束点n按照时间从晚到早的顺序进行排序，保存n个语句与n个语音结束点的排序结果之间的对应关系。

在一些实施例中，电子设备分离得到n个语音信号后，采用多路信道将n个语音信号分别送入ASR引擎，并分别检测VAD结束事件。例如，在由语音信号激活的场景下，按照150毫秒将时间分为时间窗口，每个时间窗口的结尾处，将该时间窗口内识别到VAD结束的ASR结果，作为一个查询组(query group，也称语句组，是指一组query)总体送入NLP对话引擎，同时标记VAD结束的先后顺序。

在一些实施例中，电子设备还进行降噪。具体地，在多人乘梯场景下，电梯内可能存在闲聊以及噪声。有鉴于此。电子设备识别多个语句中的噪声语句，过滤掉多个语句中的噪声语句，保留多个语句中的有效语句，根据有效语句进行意图识别，从而过滤与电梯无关的噪声，提高意图识别的准确率。其中，噪声语句是指与控制电梯无关的语句，有效语句是指与控制电梯有关的语句。

如何识别噪声语句包括多种实现方式。例如，多个语句包括第一语句，在识别噪声语句的过程中，电子设备对第一语句进行命名实体识别(Named Entity Recognition,NER)，得到第一语句中的槽位信息；电子设备采用标签(label)替换第一语句中的槽位信息，得到第二语句；电子设备根据第二语句在种子语句库中搜索，得到第一种子语句，第一种子语句包括标签；电子设备使用第一语句中的槽位信息填充第一种子语句，得到第二种子语句；若第二种子语句与第一语句之间的语义相似度低于阈值，电子设备确定第一语句为噪声语句。若第二种子语句与第一语句之间的语义相似度高于阈值，电子设备确定第一语句为有效语句。其中，表示楼层号的标签例如为<floor_number>。种子语句例如为我要去<floor_number>。

在一些实施例中，采用基于神经网络的文本分类技术识别噪声语句。例如，一种实现方式包括以下步骤A至步骤D。

步骤A、电子设备采用NER技术，对用户的query(即语句)进行处理，识别电梯控制指令所需要的槽位。

步骤B、电子设备将识别出的槽位上的槽位信息采用label进行替换。

步骤C、电子设备用替换过label的query作为搜索条件进行搜索，搜索预置的种子语句，其中预置的种子语句同样含有label。

步骤D、电子设备将搜索到的种子语句，采用在步骤A中NER识别的槽位进行回填，然后采用深度神经网络与原始query进行语义相似度计算。电子设备获得语义相似度最高的种子，若语义相似度超过给定阈值，则电子设备判定为与种子相同的意图。若是语义相似度未超过给定阈值，则该种子对应的意图会被忽略，电子设备会继续匹配其余种子，判断其余种子的语义相似度是否高于阈值。若是所有种子都低于阈值，说明用户的语句与电梯无关，则电子设备取消处理。

S250、电子设备对多个语句分别进行意图识别，得到多个意图。

在一些实施例中，步骤S250也称意图识别。每路意图识别是指对一个语音信号对应的语句进行意图识别的过程。

在一些实施例中，电子设备得到多个语句后，还对多个语句分别进行槽位提取，得到每个语句中每个槽位中的槽位信息。其中，槽位信息是指语句在槽位中的内容。例如，语句包括楼层标识，意图是选定楼层或取消楼层，电子设备从语句的楼层槽位中提取楼层标识。例如，语句是“去5层”，语句中的楼层标识是“5”，意图是选定楼层，电子设备从“去5层”的楼层槽位中提取“5”。

在一些实施例中，电子设备并行地对多个语句分别进行意图识别。可选地，电子设备同时对多个语句分别进行意图识别。例如，参见附图3，电子设备得到了一个querygroup，query group包括query₁、query₂……query_N这n个query，对n个query进行并行的SLU。其中，SLU包括意图识别和槽位提取的过程。通过并行进行意图识别，从而节省对多个语句意图识别的时间，提高对多个语句意图识别的效率。

S260、电子设备根据多个意图中的至少一个目标意图，向电梯发送控制指令。

至少一个目标意图是指多个意图中最终用来控制电梯的意图，即电梯会响应的意图。至少一个目标意图也称多个意图中的有效意图。例如，至少一个目标意图为一个意图；或者，至少一个目标意图为多个意图组成的集合。

例如，电子设备从多个意图中，确定至少一个目标意图；电子设备根据意图与控制命令之间的对应关系，获取至少一个目标意图对应的控制指令；电子设备将至少一个目标意图对应的控制指令发送至电梯。电子设备通过向电梯下发控制指令，由电梯执行控制指令，实现控制电梯的功能。

在一些实施例中，电子设备根据目标意图策略，对多个意图进行处理，得到至少一个目标意图。如何根据目标意图策略处理意图包括多种实现方式，以下通过目标意图策略一和目标意图策略二举例说明。

目标意图策略一、对相同的意图进行槽位合并。

目标意图策略一适于不同用户的意图相同的情况。

槽位合并是指对多个意图在同一个槽位上的槽位信息进行组合。例如，意图在槽位上的槽位信息通过对语句槽位提取得到。下面以对第一意图和第二意图槽位合并的过程为例，对如何槽位合并举例说明。

具体地，电子设备对第一意图和第二意图进行合并，得到第一目标意图；对第一意图对应的槽位信息和第二意图对应的槽位信息进行合并，得到第一目标意图对应的槽位信息。电子设备根据第一目标意图以及第一目标意图对应的槽位信息控制电梯。

第一意图和第二意图是意图识别得到的多个意图中的两个意图。可选地，第一意图和第二意图是共同乘坐电梯的不同用户的意图。第一意图和第二意图是通过n个语音信号中不同语音信号识别得到的。例如，声源分离后的n个语音信号包括用户A的语音信号A和用户B的语音信号B。第一意图是用户A的意图。第一意图是语音信号A经过语音识别和意图识别得到的。第二意图是用户B的意图。第二意图是语音信号B经过语音识别和意图识别得到的。

第一意图和第二意图指示同一类型的指令。例如，第一意图和第二意图都指示选定楼层；例如，第一意图和第二意图都指示取消楼层。

其中，第一意图对应的槽位信息的获取方式包括：对第一意图对应的第一语句进行槽位提取，得到第一语句在槽位中的第一槽位信息。第二意图对应的槽位信息的获取方式包括：电子设备对第二意图对应的第二语句进行槽位提取，得到第二语句在槽位中的第二槽位信息。

第一语句和第二语句是语音识别得到的多个语句中的两个语句。第一语句是指识别出第一意图的语句。第二语句是指识别出第二意图的语句。

第一槽位信息是指从第一语句中槽位提取出的槽位信息。第二槽位信息是指从第二语句的槽位中槽位提取出的槽位信息。第一槽位信息和第二槽位信息对应的槽位相同。例如，第一槽位信息和第二槽位信息都对应于楼层槽位，第一槽位信息和第二槽位信息是两个不同的楼层号。

在目标意图策略一的情况下，至少一个目标意图的槽位包括合并前的每个意图在槽位上的槽位信息。例如，在对第一意图和第二意图合并时，至少一个目标意图的槽位包括第一意图在槽位的槽位信息和第二意图在槽位的槽位信息，即，至少一个目标意图的槽位包括第一槽位信息和第二槽位信息。

在多人语音控制电梯的场景下，经常出现不同用户表达的意图相同或类似的情况，通过目标意图策略一，由于将多个用户的意图合并为同一个意图，使得合并后的意图同时表示多个用户的意图，并保留了每个用户的意图对应的槽位信息，根据合并后的意图控制电梯执行对应的指令，在保证多个用户的指令都能得到响应的基础上，减少控制语音电梯的时延，因而提高了控制语音电梯的效率。尤其是，在通过云端服务器控制语音电梯的情况下，能够减少云端服务器和语音电梯之间的通信次数，避免云端服务器频繁请求语音电梯的问题，节约云端服务器和语音电梯之间的通信开销，加速语音电梯完成语音指令。

下面通过场景A和场景B，对语音电梯具体如何应用目标意图策略一举例说明。

场景A、语音电梯中多人选定多个楼层的场景。

应用在场景A中，第一意图和第二意图均用于指示选择电梯停靠的楼层。第一意图和第二意图对应于不同的楼层。合并后的第一目标意图用于指示电梯停靠在第一意图对应的楼层和第二意图对应的楼层。

例如，第一意图用于指示选择电梯停靠在第一楼层。第二意图用于指示选择电梯停靠在第二楼层。合并后的第一目标意图用于指示选择电梯停靠在第一楼层和第二楼层。第一意图在楼层槽位包括第一楼层的标识。第二意图在楼层槽位包括第二楼层的标识。第一目标意图在楼层槽位包括第一楼层的标识和第二楼层的标识。

具体地，电子设备对第一意图对应的第一语句中的楼层槽位进行槽位提取，得到第一语句在楼层槽位中的第一楼层的标识。电子设备对第二意图对应的第二语句中的楼层槽位进行槽位提取，得到第二语句在楼层槽位中的第二楼层的标识。电子设备根据第一楼层的标识和第二楼层的标识，生成楼层停靠指令，向电梯发送楼层停靠指令。楼层停靠指令包括第一楼层的标识和第二楼层的标识。电梯接收楼层停靠指令，从楼层停靠指令中获取第一楼层的标识和第二楼层的标识，根据第一楼层的标识和第二楼层的标识，依次停靠在第一楼层和第二楼层。在这个例子中，第一楼层的标识是对第一槽位信息的举例，第二楼层的标识是对第二槽位信息的举例。电子设备通过向电梯下发楼层停靠指令，从而控制电梯依次停靠在第一楼层和第二楼层。

例如，用户A和用户B共同乘坐电梯。用户A说的语句A是“去5层”；用户B说的语句B是“去7层”。在这个例子中，用户A的意图和用户B的意图均用于指示楼层停靠指令。电子设备对语句A的楼层槽位进行槽位提取，得到楼层标识“5”；对语句B的楼层槽位进行槽位提取，得到楼层标识“7”。电子设备根据楼层标识“5”和楼层标识“7”，向电梯发送携带楼层标识“5”和楼层标识“7”的楼层停靠指令。电梯接收楼层停靠指令，从楼层停靠指令中获取楼层标识“5”和楼层标识“7”，依次停靠在5层和7层。

在多人语音控制电梯的场景下，经常出现多人分别呼叫电梯到达不同楼层的场景。比如说，有人说要电梯去5层，有人说要电梯去7层，有人说要电梯去9层。在不进行意图合并的情况下，云端服务器先请求电梯去5层，再请求电梯去7层，再请求电梯去9层，则要向电梯先后请求三次，才能保证三个人到达不同楼层的需求都得到满足。由于云端服务器要频繁地请求电梯执行操作，一方面造成云端服务器和电梯之间的通信开销大，另一方面造成电梯响应多用户的语音指令的耗时很长，影响了电梯为多人提供上下楼服务的效率。而通过进行意图合并，云端服务器得到合并后的意图为去5层、7层和9层，发送一次控制指令，请求电梯去5层、7层和9层，这样云端服务器请求电梯一次，能保证三个人到达不同楼层的需求都得到满足，显然减少了云端服务器和语音电梯之间的通信次数和控制电梯的时延，提高电梯为多人提供上下楼服务的效率。

场景B、语音电梯中多人取消多个楼层的场景。

应用在场景B中，第一意图和第二意图均用于指示电梯取消停靠的楼层。第一意图和第二意图对应于不同的楼层。合并后的第一目标意图用于指示电梯取消停靠在第一意图对应的楼层和第二意图对应的楼层。

例如，第一意图用于指示电梯取消停靠在第一楼层。第二意图用于指示电梯取消停靠在第二楼层。合并后的第一目标意图用于指示电梯取消停靠在第一楼层和第二楼层。第一意图在楼层槽位包括第一楼层的标识。第二意图在楼层槽位包括第二楼层的标识。第一目标意图在楼层槽位包括第一楼层的标识和第二楼层的标识。其中，楼层的标识是指用于标识楼层的信息。例如，楼层标识是楼层号。

具体地，电子设备对第一意图对应的第一语句中的楼层槽位进行槽位提取，得到第一语句在楼层槽位中的第一楼层的标识。电子设备对第二意图对应的第二语句中的楼层槽位进行槽位提取，得到第二语句在楼层槽位中的第二楼层的标识。电子设备根据第一楼层的标识和第二楼层的标识，生成楼层取消指令，向电梯发送楼层取消指令。楼层取消指令包括第一楼层的标识和第二楼层的标识。电梯接收楼层取消指令，从楼层取消指令中获取第一楼层的标识和第二楼层的标识，根据第一楼层的标识和第二楼层的标识，取消停靠在第一楼层和第二楼层。在这个例子中，第一楼层的标识是对第一槽位信息的举例，第二楼层的标识是对第二槽位信息的举例。电子设备通过向电梯下发楼层取消指令，从而控制电梯取消停靠在第一楼层和第二楼层。

例如，用户A和用户B共同乘坐电梯。用户A说的语句A是“去5层”；用户B说的语句B是“去7层”。在这个例子中，用户A的意图和用户B的意图均用于指示楼层取消指令。电子设备对语句A的楼层槽位进行槽位提取，得到楼层标识“5”；对语句B的楼层槽位进行槽位提取，得到楼层标识“7”。电子设备根据楼层标识“5”和楼层标识“7”，向电梯发送携带楼层标识“5”和楼层标识“7”的楼层取消指令。电梯接收楼层取消指令，从楼层取消指令中获取楼层标识“5”和楼层标识“7”，取消停靠在5层和7层。

在多人语音控制电梯的场景下，经常出现多人分别呼叫电梯取消到达不同楼层的场景。比如说，有人说要电梯取消去5层，有人说要电梯取消去7层，有人说要电梯取消去9层。在不进行意图合并的情况下，云端服务器先请求电梯取消去5层，再请求电梯取消去7层，再请求电梯取消去9层，则要向电梯先后请求三次，才能保证三个人取消到达不同楼层的需求都得到满足。由于云端服务器要频繁地请求电梯执行操作，一方面造成云端服务器和电梯之间的通信开销大，另一方面造成电梯响应多用户的语音指令的耗时很长，影响了电梯为多人提供上下楼服务的效率。而通过进行意图合并，云端服务器得到合并后的意图为取消去5层、取消去7层和取消去9层，发送一次控制指令，请求电梯取消去5层、取消去7层和取消去9层，这样云端服务器请求电梯一次，能保证三个人取消到达不同楼层的需求都得到满足，显然减少了云端服务器和语音电梯之间的通信次数和控制电梯的时延，提高电梯为多人提供上下楼服务的效率。

目标意图策略二、选择执行语音结束点最晚的指令。

目标意图策略二适于不同用户的意图不同的情况。例如，在一个用户的语音指令表示取消另一个用户的语音指令的情况下，执行目标意图策略二。

下面以对第三意图和第四意图执行目标意图策略二的过程为例，对如何执行目标意图策略二举例说明。

具体地，电子设备确定第三意图对应的语音信号中的第一语音结束点；确定第四意图对应的语音信号中的第二语音结束点；根据第一语音结束点和第二语音结束点，从第三意图和第四意图中选择第二目标意图；根据第二目标意图控制电梯。

第三意图和第四意图是意图识别得到的多个意图中的两个意图。可选地，第三意图和第四意图是共同乘坐电梯的不同用户的意图。第三意图和第四意图是通过n个语音信号中不同语音信号识别得到的。例如，声源分离后的n个语音信号包括用户A的语音信号A和用户B的语音信号B。第三意图是用户A的意图。第三意图是语音信号A经过语音识别和意图识别得到的。第四意图是用户B的意图。第四意图是语音信号B经过语音识别和意图识别得到的。

第三意图和第四意图指示不同类型的指令。例如，第三意图指示选定楼层1，第四意图指示取消楼层1；例如，第三意图指示电梯开门，第四意图指示电梯关门。

第三意图对应的语音信号是指识别出第三意图的语句对应的语音信号。即，之前通过哪路语音信号语音识别和意图识别得到了第三意图，哪路语音信号是第三意图对应的语音信号。例如，如果对语音信号1语音识别得到语句1，对语句1意图识别得到意图1和意图2，则意图1和意图2对应的语音信号都是语音信号1。第四意图对应的语音信号与第三意图对应的语音信号含义类似。

第一语音结束点是指第三意图对应的语音信号中的语音结束点。第二语音结束点是指第四意图对应的语音信号中的语音结束点。

第二目标意图是第三意图和第四意图中的一个意图。第二目标意图在第三意图和第四意图中对应的语音结束点最晚。例如，如果第一语音结束点晚于第二语音结束点，则第二目标意图是第三意图；如果第一语音结束点晚于第二语音结束点，则第二目标意图是第四意图。

在多人语音控制电梯的场景下，经常出现不同用户相互取消彼此的语音指令的情况。通过目标意图策略一，由于按照语音结束点从多个用户的意图中选定意图，能够将最新的有效意图选择出来，过滤掉指令已被取消的失效意图，因此避免根据失效意图控制电梯造成的处理开销，因而提高了控制语音电梯的效率。尤其是，在通过云端服务器控制语音电梯的情况下，能够避免云端服务器为失效意图请求语音电梯造成的通信资源浪费，减少控制语音电梯的时延，避免云端服务器频繁请求语音电梯的问题，节约云端服务器和语音电梯之间的通信开销，加速语音电梯完成语音指令。

下面通过场景a和场景b，对语音电梯如何应用目标意图策略二举例说明。

场景a、语音电梯中多人对同一楼层同时存在选定意图和取消意图的场景。

应用在场景a中，第三意图和第四意图对应同一个楼层。以第三意图和第四意图对应的楼层记为第三意图为例，第三意图用于指示选择电梯停靠在第三楼层，第四意图用于表示取消电梯停靠在第三楼层。第二目标意图用于指示电梯停靠在第三楼层或者取消停靠在第三楼层。

例如，在第三意图对应的语音结束点时间更晚的情况下，电子设备会响应于第一语音结束点晚于第二语音结束点，控制电梯停靠在第三楼层；在第四意图对应的语音结束点时间更晚的情况下，电子设备会响应于第二语音结束点晚于第一语音结束点，控制电梯取消停靠在第三楼层。

在一些实施例中，语音结束点之间的早晚顺序通过VAD结束时间戳之间的早晚顺序确定。例如，第三意图对应的语音信号的VAD结束时间戳为时间戳1，第四意图对应的语音信号的VAD结束时间戳为时间戳2；电子设备对时间戳1和时间戳2进行比较；若时间戳1晚于时间戳2，则确定第一语音结束点晚于第二语音结束点；若时间戳2晚于时间戳1，则确定第二语音结束点晚于第一语音结束点。

例如，用户A和用户B共同乘坐电梯。用户A先说了一句“去5层”；之后，用户B说了一句“取消去5层”。在这个例子中，用户A的意图是选定楼层，用户B的意图是取消楼层。电子设备对用户A的语音信号和用户B的语音信号分别进行VAD后，确定用户B的语音信号的VAD结束时间戳晚于用户A的语音信号的VAD结束时间戳，将用户B的意图作为有效的意图，控制电梯取消停靠在5层。

多人语音控制电梯的场景经常出现一个用户取消另一个用户之前选定的楼层的情况，在不意图合并的情况下，云端服务器先请求电梯到达楼层，再请求电梯取消到达楼层，这样要向电梯先后发送两次上下楼请求。此外，多人语音控制电梯的场景还经常出现一个用户选定另一个用户之前已经取消的楼层的情况。在不意图合并的情况下，云端服务器先请求电梯取消到达楼层，再请求电梯到达楼层，这样要向电梯先后发送两次上下楼请求。然而，由于后呼叫用户实际上取消了先呼叫用户在先的上下楼请求，使得云端服务器为先呼叫用户多执行了一次请求电梯上下楼的动作，浪费了云端服务器请求电梯、电梯响应请求占用的通信资源和处理资源。而通过进行意图合并，云端服务器找到最新的上下楼意图，为最新的上下楼意图请求电梯，免去了为失效的上下楼意图请求电梯的动作，从而省去了为失效的上下楼意图请求电梯所需占用的通信资源和处理资源，显然提高了电梯为多人提供上下楼服务的效率。

场景b、语音电梯中多人对电梯同时存在开门意图和关门意图的场景。

应用在场景b中，第三意图用于指示电梯开门，第四意图用于指示电梯关门，第二目标意图用于指示电梯开门或者关门。

例如，在第三意图对应的语音结束点时间更晚的情况下，电子设备会响应于第一语音结束点晚于第二语音结束点，控制电梯开门；在第四意图对应的语音结束点时间更晚的情况下，电子设备会响应于第二语音结束点晚于第一语音结束点，控制电梯关门。

例如，用户A和用户B共同乘坐电梯。用户A先说了一句“电梯关门”；之后，用户B说了一句“电梯开门”。在这个例子中，用户A的意图是关门，用户B的意图是开门。电子设备对用户A的语音信号和用户B的语音信号分别进行VAD后，确定用户B的语音信号的VAD结束时间戳晚于用户A的语音信号的VAD结束时间戳，则将用户B的意图作为有效的意图，控制电梯开门。

多人语音控制电梯的场景经常出现一个用户取消另一个用户的开门/关门请求的情况。比如说，如果有人先呼叫电梯关门，另一个人后呼叫电梯开门，在不意图合并的情况下，云端服务器先请求电梯关门，再请求电梯开门，这样要向电梯先后发送两次开门/关门请求。然而，由于后呼叫用户实际上取消了先呼叫用户在先的关门请求，使得云端服务器为先呼叫用户多执行了一次请求电梯关门的动作，浪费了云端服务器请求电梯、电梯响应请求占用的通信资源和处理资源。而通过进行意图合并，云端服务器找到最新的意图为开门意图，为最新的开门意图请求电梯，免去了为失效的开门意图请求电梯的动作，从而省去了为失效的关门意图请求电梯所需占用的通信资源和处理资源，显然提高了电梯为多人提供开门和关门服务的效率。

应理解，上述目标意图策略一至目标意图策略二以及不同场景下目标意图策略的实施方式可以采用任意方式结合。

例如，多个用户的意图中一些用户的意图表示同一类型的指令，另一些用户的意图表示不同类型的指令，在这种情况下，目标意图策略一至目标意图策略二这两种目标意图策略均执行。例如，电子设备采用目标意图策略一，根据多个意图中指示同一类型指令的不同意图进行处理，得到第一目标意图。电子设备采用目标意图策略二，根据多个意图中指示不同类型指令的不同意图，得到第二目标意图。电子设备根据第一目标意图和第二目标意图控制电梯。其中，在意图存在对应的槽位信息的情况下，电子设备根据第一目标意图、第二目标意图、第一目标意图对应的槽位信息以及第二目标意图对应的槽位信息控制电梯。通过这种方式，使得表示同一类型的指令的意图以及表示不同类型的意图均能得到响应。例如，在同一个时间窗口内，用户1的意图1是选择楼层，意图1对应的槽位信息是3层，用户2的意图2是选择楼层，意图2对应的槽位信息是5层，用户3的意图3是开门，用户4的意图4是关门。电子设备对意图1和意图2进行合并，得到目标意图1是选择楼层，目标意图1对应的槽位信息是3层和5层。电子设备从意图3和意图4中选择VAD时间最晚的意图4，将意图4作为目标意图2。电子设备按照目标意图1和目标意图2，执行选择3层、选择5层、关门对应的指令，使得用户1的意图1、用户2的意图2以及用户4的意图4都得到执行。

S270、电梯接收控制指令，执行控制指令。

应理解，本实施例仅是一台电子设备执行上述S230至S260为例进行说明，在一些实施例中，上述S230至S260由多台电子设备协作执行。例如，上述S230至S260由控制平台110中的不同服务器协作执行。例如，上述S230至S260中与电梯交互的步骤由接入服务器执行。上述S230至S260中意图识别与意图合并的步骤由业务服务器执行。

本实施例提供了一种支持多人同时语音控制电梯的方法，该方法能够应用在多人共同乘坐语音电梯的场景。通过对混合了不同用户语音的音频流进行声源分离，从而分离出每个用户对应的一个语音信号，通过对分离出的n个语音信号分别进行语音识别和意图识别，从而识别出多个用户的意图，根据这些意图中的至少一个目标意图控制电梯。在实现语音控制电梯的功能的基础上，一方面，由于进行了语音信号分离，避免不同用户的语音指令相互干扰的情况，解决了由于多个用户的语音相互重叠导致语音识别率低下的问题，提高了语音电梯的语音识别率。另一方面，由于进行了意图识别，过滤部分用户的闲聊内容对自然语言理解造成的干扰，并且能够从多个用户的意图中得出更有效的至少一个目标意图，从而提高根据意图控制电梯的准确性。结合这两方面的改进，显著提高了控制语音电梯的成功率。

参见下表1，表1示出了语音电梯应用本实施例提供的方法后的实验数据。评价指标是操作成功率。表1的横向表示同时语音控制电梯的人数，例如横向的1、2、3、4分别表示1人语音控制电梯、2人同时语音控制电梯、3人同时语音控制电梯、4人同时语音控制电梯。表1的纵向表示噪音分贝大小。表1中的dbA也写为dB(A)，是采用等效声级A(也称A声级，是一种加权声级)测量的实际噪声值。从表1可以直观的看出，语音电梯应用本实施例提供的方法后操作成功率得到显著提升。例如，请参见表1中45dBA对应的一行，在噪音分贝大小为45dBA的情况下，1人语音控制电梯时操作成功率为98％；在噪音分贝大小为45dBA的情况下，2人同时语音控制电梯时操作成功率为93％；在噪音分贝大小为45dBA的情况下，3人同时语音控制电梯时操作成功率为88％；在噪音分贝大小为45dBA的情况下，4人同时语音控制电梯时操作成功率为83％。请参见表1中55dBA对应的一行，在噪音分贝大小为55dBA的情况下，1人语音控制电梯时操作成功率为97％；在噪音分贝大小为55dBA的情况下，2人同时语音控制电梯时操作成功率为92％；在噪音分贝大小为55dBA的情况下，3人同时语音控制电梯时操作成功率为87％；在噪音分贝大小为55dBA的情况下，4人同时语音控制电梯时操作成功率为82％。请参见表1中65dBA对应的一行，在噪音分贝大小为65dBA的情况下，1人语音控制电梯时操作成功率为96％；在噪音分贝大小为65dBA的情况下，2人同时语音控制电梯时操作成功率为91％；在噪音分贝大小为65dBA的情况下，3人同时语音控制电梯时操作成功率为86％；在噪音分贝大小为65dBA的情况下，4人同时语音控制电梯时操作成功率为81％。请参见表1中75dBA对应的一行，在噪音分贝大小为75dBA的情况下，1人语音控制电梯时操作成功率为95％；在噪音分贝大小为75dBA的情况下，2人同时语音控制电梯时操作成功率为90％；在噪音分贝大小为75dBA的情况下，3人同时语音控制电梯时操作成功率为85％；在噪音分贝大小为75dBA的情况下，4人同时语音控制电梯时操作成功率为80％。

表1

	1	2	3	4
					45dBA	98	93	88	83
55dBA	97	92	87	82
					65dBA	96	91	86	81
75dBA	95	90	85	80

以上介绍了电子设备与电梯交互实现语音控制电梯的方法流程，以下介绍如何在电梯本地实现语音控制电梯的方法流程。应理解，方法300侧重描述与方法200的区别之处，方法300与方法200同理的步骤还请参见方法200，在方法300中不做赘述。

参见附图4，附图4是本申请实施例提供的一种基于语音控制电梯的方法300的流程图。

方法300的执行主体包括电梯。例如，方法300由如附图1所示系统架构中的语音电梯101执行。例如，附图3所示的数据处理流程都由电梯执行。

示例性地，方法300包括S310至S360。

S310、电梯采集音频流。

S320、电梯对音频流进行分离，得到n个语音信号。

S330、电梯对n个语音信号分别进行语音识别，得到多个语句。

S340、电梯对多个语句分别进行意图识别，得到多个意图。

S350、电梯根据多个意图中的目标意图，获取控制指令。

S360、电梯执行控制指令。

本实施例提供了一种支持多人同时语音控制电梯的方法，该方法能够应用在多人共同乘坐语音电梯的场景。通过对混合了不同用户语音的音频流进行声源分离，从而分离出每个用户对应的一个语音信号，通过对分离出的n个语音信号分别进行语音识别和意图识别，从而识别出多个用户的意图，根据这些意图中的目标意图控制电梯。在实现语音控制电梯的功能的基础上，一方面，由于进行了语音信号分离，避免不同用户的语音指令相互干扰的情况，解决了由于多个用户的语音相互重叠导致语音识别率低下的问题，提高了语音电梯的语音识别率。另一方面，由于进行了意图识别，过滤部分用户的闲聊内容对自然语言理解造成的干扰，并且能够从多个用户的意图中得出更有效的目标意图，从而提高根据意图控制电梯的准确性。结合这两方面的改进，显著提高了控制语音电梯的成功率。

在一些实施例中，电梯通过方法200描述的目标意图策略，将多个意图合并为目标意图，电梯根据意图与控制命令之间的对应关系，获取目标意图对应的控制指令，执行控制指令，以实现语音控制的功能。

在一些实施例中，多个意图包括第一意图和第二意图，第一意图和第二意图指示同一类型的指令，电梯对第一意图和第二意图进行合并，得到目标意图，目标意图的槽位包括第一意图在槽位的槽位信息和第二意图在槽位的槽位信息；电梯根据目标意图，控制电梯执行指令。

在一些实施例中，第一意图和第二意图均用于指示选择电梯停靠的楼层，第一意图在楼层槽位包括第一楼层的标识，第二意图在楼层槽位包括第二楼层的标识，目标意图在楼层槽位包括第一楼层的标识和第二楼层的标识；电梯控制电梯依次停靠在第一楼层和第二楼层。

在一些实施例中，第一意图和第二意图均用于表示取消电梯停靠的楼层，第一意图在楼层槽位包括第一楼层的标识，第二意图在楼层槽位包括第二楼层的标识，目标意图在楼层槽位包括第一楼层的标识和第二楼层的标识；电梯控制电梯取消停靠在第一楼层和第二楼层。

在一些实施例中，多个意图包括第三意图和第四意图，第三意图和第四意图指示不同类型的指令，电梯确定第三意图对应的语音信号中的第一语音结束点；电梯确定第四意图对应的语音信号中的第二语音结束点；电梯根据第一语音结束点和第二语音结束点，从第三意图和第四意图中选择目标意图，目标意图在第三意图和第四意图中对应的语音结束点最晚；电梯根据目标意图控制电梯。

在一些实施例中，第三意图用于指示选择电梯停靠在第三楼层，第四意图用于表示取消电梯停靠在第三楼层，电梯响应于第一语音结束点晚于第二语音结束点，控制电梯停靠在第三楼层；或者，电梯响应于第二语音结束点晚于第一语音结束点，控制电梯取消停靠在第三楼层。

在一些实施例中，第三意图用于指示电梯开门，第四意图用于指示电梯关门，电梯响应于第一语音结束点晚于第二语音结束点，控制电梯开门；或者，电梯响应于第二语音结束点晚于第一语音结束点，控制电梯关门。

在一些实施例中，电梯并行地对n个语音信号分别进行语音识别；

在一些实施例中，电梯并行地对多个语句分别进行意图识别。

在一些实施例中，电梯对n个语音信号分别进行语音活性检测，得到每路语音信号的语音结束点；电梯根据每路语音信号的语音结束点，分别确定每路语音信号对应的语句。

图5是本申请实施例提供的一种基于语音控制电梯的装置的结构示意图。参见图5，该装置包括：分离模块401、语音识别模块402、意图识别模块403、控制模块404。

分离模块401，用于对音频流进行分离，得到n个语音信号，音频流的声源包括共同乘坐电梯的多个用户，n个语音信号中每一个语音信号的声源为多个用户中的一个用户，n为大于1的正整数；

语音识别模块402，用于对n个语音信号分别进行语音识别，得到多个语句；

意图识别模块403，用于对多个语句分别进行意图识别，得到多个意图；

控制模块404，用于根据多个意图中的至少一个目标意图控制电梯。

本实施例提供了一种支持多人同时语音控制电梯的装置，该装置能够应用在多人共同乘坐语音电梯的场景。通过对混合了不同用户语音的音频流进行声源分离，从而分离出每个用户对应的一个语音信号，通过对分离出的n个语音信号分别进行语音识别和意图识别，从而识别出多个用户的意图，根据这些意图中的目标意图控制电梯。在实现语音控制电梯的功能的基础上，一方面，由于进行了语音信号分离，避免不同用户的语音指令相互干扰的情况，解决了由于多个用户的语音相互重叠导致语音识别率低下的问题，提高了语音电梯的语音识别率。另一方面，由于进行了意图识别，过滤部分用户的闲聊内容对自然语言理解造成的干扰，并且能够从多个用户的意图中得出更有效的目标意图，从而提高根据意图控制电梯的准确性。结合这两方面的改进，显著提高了控制语音电梯的成功率。

可选地，语音识别模块402，用于根据n个语音信号中每个语音信号的语音活性检测VAD结束时间，对n个语音信号分别进行语音识别。

可选地，音频流的时间长度小于或等于150毫秒。

可选地，装置还包括：处理模块，用于根据目标意图策略，对多个意图进行处理，得到至少一个目标意图。

可选地，多个意图包括第一意图和第二意图，第一意图和第二意图指示同一类型的指令，至少一个目标意图包括第一目标意图，处理模块，用于对第一意图和第二意图进行合并，得到第一目标意图；对第一意图对应的槽位信息和第二意图对应的槽位信息进行合并，得到第一目标意图对应的槽位信息；控制模块404，用于根据第一目标意图以及第一目标意图对应的槽位信息控制电梯。

可选地，多个意图包括第三意图和第四意图，第三意图和第四意图指示不同类型的指令，至少一个目标意图包括第二目标意图，处理模块，用于确定第三意图对应的语音信号在时间窗口中的第一语音结束点；确定第四意图对应的语音信号在时间窗口中的第二语音结束点；根据第一语音结束点和第二语音结束点，从第三意图和第四意图中选择第二目标意图，第二目标意图在第三意图和第四意图中对应的语音结束点最晚。

可选地，控制模块404，用于根据第一目标意图和第二目标意图控制电梯，第一目标意图是根据多个意图中指示同一类型指令的不同意图处理得到的，第二目标意图是根据多个意图中指示不同类型指令的不同意图处理得到的。

可选地，意图识别模块403，还用于识别多个语句中的噪声语句，噪声语句是指与控制电梯无关的语句；过滤掉多个语句中的噪声语句。

可选地，多个语句包括第一语句，意图识别模块403，用于对第一语句进行命名实体识别，得到第一语句中的槽位信息；采用标签替换第一语句中的槽位信息，得到第二语句；根据第二语句在种子语句库中搜索，得到第一种子语句，第一种子语句包括标签；使用第一语句中的槽位信息填充第一种子语句，得到第二种子语句；若第二种子语句与第一语句之间的语义相似度低于阈值，确定第一语句为噪声语句。

可选地，语音识别模块402，用于并行地对n个语音信号分别进行语音识别；意图识别模块403，用于并行地对多个语句分别进行意图识别。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的基于语音控制电梯的装置在基于语音控制电梯时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将基于语音控制电梯的装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于语音控制电梯的装置与基于语音控制电梯的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图6示出了本申请一个示例性实施例提供的电子设备500的结构框图。

在一些实施例中，电子设备500为上述实施例中的终端。在另一些实施例中，电子设备500为上述实施例中的电梯。

其中，在电子设备500为终端的情况下，电子设备500例如是：智能手机、平板电脑、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备500还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

其中，在电子设备500为电梯的情况下，电子设备500例如是语音电梯或AI电梯。

电子设备500包括有：一个或多个处理器501和一个或多个存储器502。

处理器501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器501可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作，例如上述方法实施例中的意图识别操作。

存储器502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器502中的非暂态的计算机可读存储介质用于存储至少一条指令，该至少一条指令用于被处理器501所执行以实现本申请中方法实施例提供的基于语音控制电梯的方法。

在一些实施例中，电子设备500还可选包括有：外围设备接口503和至少一个外围设备。处理器501、存储器502和外围设备接口503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口503相连。具体地，外围设备包括：射频电路504、显示屏505、摄像头组件506、音频电路507、定位组件508和电源509中的至少一种。

外围设备接口503可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器501和存储器502。在一些实施例中，处理器501、存储器502和外围设备接口503被集成在同一芯片或电路板上；在一些其他实施例中，处理器501、存储器502和外围设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路504用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路504将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路504包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路504可以通过至少一种无线通信协议来与其它电子设备进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路504还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏505用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏505是触摸显示屏时，显示屏505还具有采集在显示屏505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器501进行处理。此时，显示屏505还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏505可以为一个，设置电子设备500的前面板；在另一些实施例中，显示屏505可以为至少两个，分别设置在电子设备500的不同表面或呈折叠设计；在另一些实施例中，显示屏505可以是柔性显示屏，设置在电子设备500的弯曲表面上或折叠面上。甚至，显示屏505还可以设置成非矩形的不规则图形，也即异形屏。显示屏505可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件506用于采集图像或视频。可选地，摄像头组件506包括前置摄像头和后置摄像头。通常，前置摄像头设置在电子设备的前面板，后置摄像头设置在电子设备的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件506还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器501进行处理，或者输入至射频电路504以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备500的不同部位。麦克风还可以是麦克风阵列或全向采集型麦克风。例如，在上述方法实施例中，音频流是通过麦克风采集的。扬声器则用于将来自处理器501或射频电路504的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路507还可以包括耳机插孔。

定位组件508用于定位电子设备500的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件508可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源509用于为电子设备500中的各个组件进行供电。电源509可以是交流电、直流电、一次性电池或可充电电池。当电源509包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，电子设备500还包括有一个或多个传感器510。该一个或多个传感器510包括但不限于：加速度传感器511、陀螺仪传感器512、压力传感器513、指纹传感器514、光学传感器515以及接近传感器516。

加速度传感器511可以检测以电子设备500建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器511可以用于检测重力加速度在三个坐标轴上的分量。处理器501可以根据加速度传感器511采集的重力加速度信号，控制显示屏505以横向视图或纵向视图进行用户界面的显示。加速度传感器511还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器512可以检测电子设备500的机体方向及转动角度，陀螺仪传感器512可以与加速度传感器511协同采集用户对电子设备500的3D动作。处理器501根据陀螺仪传感器512采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器513可以设置在电子设备500的侧边框和/或显示屏505的下层。当压力传感器513设置在电子设备500的侧边框时，可以检测用户对电子设备500的握持信号，由处理器501根据压力传感器513采集的握持信号进行左右手识别或快捷操作。当压力传感器513设置在显示屏505的下层时，由处理器501根据用户对显示屏505的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器514用于采集用户的指纹，由处理器501根据指纹传感器514采集到的指纹识别用户的身份，或者，由指纹传感器514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器501授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器514可以被设置电子设备500的正面、背面或侧面。当电子设备500上设置有物理按键或厂商Logo时，指纹传感器514可以与物理按键或厂商Logo集成在一起。

光学传感器515用于采集环境光强度。在一个实施例中，处理器501可以根据光学传感器515采集的环境光强度，控制显示屏505的显示亮度。具体地，当环境光强度较高时，调高显示屏505的显示亮度；当环境光强度较低时，调低显示屏505的显示亮度。在另一个实施例中，处理器501还可以根据光学传感器515采集的环境光强度，动态调整摄像头组件506的拍摄参数。

接近传感器516，也称距离传感器，通常设置在电子设备500的前面板。接近传感器516用于采集用户与电子设备500的正面之间的距离。在一个实施例中，当接近传感器516检测到用户与电子设备500的正面之间的距离逐渐变小时，由处理器501控制显示屏505从亮屏状态切换为息屏状态；当接近传感器516检测到用户与电子设备500的正面之间的距离逐渐变大时，由处理器501控制显示屏505从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图5中示出的结构并不构成对电子设备500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

上述方法实施例中的电子设备可以实现为服务器。例如，图7是本申请实施例提供的一种服务器的结构示意图，该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)601和一个或一个以上的存储器602，其中，存储器602中存储有至少一条指令，至少一条指令由处理器601加载并执行以实现上述各个方法实施例提供的基于语音控制电梯的方法。当然，服务器600还可以具有有线或无线网络接口以及输入输出接口等部件，以便进行输入输出。服务器600还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括至少一条指令的存储器，上述至少一条指令由可由处理器执行以完成上述实施例中的基于语音控制电梯的方法。例如，计算机可读存储介质可以是只读存储器(Read-Only Memory，简称：ROM)、随机存取存储器(Random Access Memory，简称：RAM)、只读光盘(Compact Disc Read-OnlyMemory，简称：CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述基于语音控制电梯的方法。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上描述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于语音控制电梯的方法，其特征在于，所述方法包括：

对所述n个语音信号分别进行语音识别，得到多个语句；

对所述多个语句分别进行意图识别，得到多个意图；

根据所述多个意图中的至少一个目标意图控制所述电梯。

2.根据权利要求1所述的方法，其特征在于，所述对所述n个语音信号分别进行语音识别，包括：

3.根据权利要求2所述的方法，其特征在于，所述音频流的时间长度小于或等于150毫秒。

4.根据权利要求1所述的方法，其特征在于，所述对所述多个语句分别进行意图识别，得到多个意图之后，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述多个意图包括第一意图和第二意图，所述第一意图和所述第二意图指示同一类型的指令，所述至少一个目标意图包括第一目标意图，所述根据目标意图策略，对所述多个意图进行处理，得到所述至少一个目标意图，包括：

6.根据权利要求4所述的方法，其特征在于，所述多个意图包括第三意图和第四意图，所述第三意图和所述第四意图指示不同类型的指令，所述至少一个目标意图包括第二目标意图，所述根据目标意图策略，对所述多个意图进行处理，得到所述至少一个目标意图，包括：

7.根据权利要求1或4所述的方法，其特征在于，所述根据所述多个意图中的至少一个目标意图控制所述电梯，包括：

8.根据权利要求1所述的方法，其特征在于，所述对所述n个语音信号分别进行语音识别，得到多个语句之后，所述方法还包括：

过滤掉所述多个语句中的噪声语句。

9.根据权利要求8所述的方法，其特征在于，所述多个语句包括第一语句，所述识别所述多个语句中的噪声语句，包括：

采用标签替换所述第一语句中的槽位信息，得到第二语句；

10.根据权利要求1所述的方法，其特征在于，所述对所述n个语音信号分别进行语音识别，包括：并行地对所述n个语音信号分别进行语音识别；

11.一种基于语音控制电梯的装置，其特征在于，所述装置包括：

12.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至权利要求10任一项所述的方法。

13.一种控制系统，其特征在于，所述控制系统包括电梯和电子设备，所述电梯用于采集音频流，所述电子设备用于根据所述音频流执行如权利要求1至权利要求10任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求10任一项所述的方法。

15.一种基于语音控制电梯的方法，其特征在于，所述方法包括：