CN111816177A

CN111816177A - 电梯的语音打断控制方法、装置及电梯

Info

Publication number: CN111816177A
Application number: CN202010636256.7A
Authority: CN
Inventors: 陈孝良; 冯大航; 李智勇; 奚少亨
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2020-10-23
Anticipated expiration: 2040-07-03
Also published as: CN111816177B

Abstract

本公开提供一种电梯的语音打断控制方法、装置及电梯，所述方法包括：获取待处理语音信号，所述待处理语音信号中包括用户对电梯的语音控制信号以及所述电梯播放第一语音信号的回声信号；基于所述第一语音信号对所述待处理语音信号进行自适应滤波处理，得到第二语音信号；对所述待处理语音信号、所述第一语音信号及所述第二语音信号进行非线性处理，得到输出结果；基于所述输出结果对所述电梯进行语音打断。本公开实施例能够提高电梯的语音打断成功率。

Description

电梯的语音打断控制方法、装置及电梯

技术领域

本发明涉及语音处理技术领域，尤其涉及一种电梯的语音打断控制方法、装置及电梯。

背景技术

随着生活水平的提高，电梯的使用越来越频繁，使人们生活越来越便利。对于具备语音交互功能的电梯，用户在通过语音控制电梯时，可以通过电梯的麦克风采集语音信号，并基于采集的语音信号控制电梯。

目前，在电梯播放音视频或者新闻等情况下，电梯的麦克风采集的语音信号中可能会包含电梯的扬声器播放的声音，扬声器播放的声音可能会淹没用户对电梯的语音控制信号，导致电梯的语音打断成功率较低。

发明内容

本公开实施例提供一种电梯的语音打断控制方法、装置及电梯，以解决现有技术中扬声器播放的声音可能会淹没用户对电梯的语音控制信号，导致电梯的语音打断成功率较低的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本公开实施例提供了一种电梯的语音打断控制方法，所述方法包括：

获取待处理语音信号，所述待处理语音信号中包括用户对电梯的语音控制信号以及所述电梯播放第一语音信号的回声信号；

基于所述第一语音信号对所述待处理语音信号进行自适应滤波处理，得到第二语音信号；

对所述待处理语音信号、所述第一语音信号及所述第二语音信号进行非线性处理，得到输出结果；

基于所述输出结果对所述电梯进行语音打断。

第二方面，本公开实施例提供了一种电梯的语音打断控制装置，所述装置包括：

获取模块，用于获取待处理语音信号，所述待处理语音信号中包括用户对电梯的语音控制信号以及所述电梯播放第一语音信号的回声信号；

第一处理模块，用于基于所述第一语音信号对所述待处理语音信号进行自适应滤波处理，得到第二语音信号；

第二处理模块，用于对所述待处理语音信号、所述第一语音信号及所述第二语音信号进行非线性处理，得到输出结果；

打断模块，用于基于所述输出结果对所述电梯进行语音打断。

第三方面，本公开实施例提供了一种电梯，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如第一方面所述的电梯的语音打断控制方法中的步骤。

第四方面，本公开实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的电梯的语音打断控制方法中的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：

本实施例中，通过对待处理语音信号进行自适应滤波处理，能够消除待处理语音信号中回声的线性部分；通过对所述待处理语音信号、所述第一语音信号及所述第二语音信号进行非线性处理，能够对回声的非线性部分进行处理，从而能够较好地对待处理语音信号中的回声信号进行消除；将消除回声后的待处理语音信号对电梯进行语音打断，能够提高电梯的语音打断成功率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对本公开实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本公开实施例提供的一种电梯的语音打断控制方法的流程图之一；

图2是本公开实施例提供的一种电梯的语音打断控制方法的流程图之二；

图3是本公开实施例提供的一种电梯的语音打断控制装置的结构示意图之一；

图4是本公开实施例提供的一种电梯的语音打断控制装置的结构示意图之二；

图5是本公开实施例提供的一种电梯的语音打断控制装置的结构示意图之三；

图6是本公开实施例提供的一种电梯的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本公开实施例中，电梯可以为智能电梯，智能电梯可以是配置有语音交互系统的电梯。

参见图1，图1是本公开实施例提供的一种电梯的语音打断控制方法的流程图，如图1所示，包括以下步骤：

步骤101、获取待处理语音信号，所述待处理语音信号中包括用户对电梯的语音控制信号以及所述电梯播放第一语音信号的回声信号。

其中，所述语音唤醒方法可以应用于所述电梯，所述电梯可以是智能电梯。所述语音控制信号可以为包含唤醒词和/或命令词的语音信号。在电梯为免唤醒的电梯时，所述语音控制信号可以为包含命令词的语音信号；在电梯为通过唤醒词唤醒的电梯时，所述语音控制信号可以为包含唤醒词的语音信号。例如，唤醒词可以为“小明”，命令词可以为“去x楼”。所述回声信号可以由所述电梯的扬声器播放第一语音信号扩散产生的回声信号。所述待处理语音信号可以为电梯的麦克风或者其他声音采集模块采集到的语音信号。在用户说话时，待处理语音信号中可以包括人声信号以及回声信号，在用户语音控制电梯时，人声信号中可以包括用户对电梯的语音控制信号。

例如，在用户乘坐智能电梯时，智能电梯的麦克风能够采集到用户说话时的人声信号，还能采集到智能电梯的扬声器播放第一语音信号产生的回声信号。在用户对智能电梯进行语音唤醒时，为避免回声信号淹没用户对电梯的语音唤醒信号，可以消除回声信号，保留人声信号，通过人声信号对智能电梯进行语音唤醒。

另外，可以实时获取待处理语音信号。所述第一语音信号可以为电梯中语音交互系统实时播放的用于给电梯乘员反馈的语音信号。

步骤102、基于所述第一语音信号对所述待处理语音信号进行自适应滤波处理，得到第二语音信号。

其中，可以采用自适应滤波算法对待处理语音信号进行自适应滤波处理。所述获取待处理语音信号，可以是获取待处理语音信号的声学特征。可以提取待处理语音信号的声学特征，待处理语音信号的声学特征可以用于表征待处理语音信号的数据特征，可以对待处理语音信号采用短时傅里叶变换提取声学特征，也可以对待处理语音信号采用小波变换提取声学特征，还可以采用其他形式从待处理语音信号中提取声学特征。所述对所述待处理语音信号进行自适应滤波处理，可以是，对当前时刻的待处理语音信号的声学特征进行自适应滤波处理。

另外，所述待处理语音信号中的回声信号可以包括估计回声信号和残留回声信号，所述估计回声信号可以是回声信号的线性部分，所述残留回声信号可以是回声信号中消除估计回声信号后残留的回声信号。基于所述第一语音信号对所述待处理语音信号进行自适应滤波处理后，可以消除待处理语音信号中的估计回声信号，自适应滤波处理得到的第二语音信号中可以包括残留回声信号。

步骤103、对所述待处理语音信号、所述第一语音信号及所述第二语音信号进行非线性处理，得到输出结果。

其中，可以将所述待处理语音信号、所述第一语音信号及所述第二语音信号输入用于回声消除的神经网络模型、维纳滤波器或者其他模块，以实现非线性处理，得到输出结果。本实施例对此不进行限定。可以通过自适应滤波结合神经网络模型对回声信号的线性和非线性部分进行处理；或者，可以通过自适应滤波结合维纳滤波器对回声信号的线性和非线性部分进行处理(即线性处理由自适应滤波器进行，非线性处理由维纳滤波器进行)。所述非线性处理可以是用于进行回声消除的非线性处理。

步骤104、基于所述输出结果对所述电梯进行语音打断。

其中，可以通过用于回声消除的神经网络模型进行非线性处理，所述神经网络模型可以为长短期记忆神经网络模型，所述输出结果可以为掩膜值，所述基于所述输出结果对所述电梯进行语音打断，可以包括：依据所述掩膜值和所述第二语音信号进行掩膜处理，以得到目标语音信号，基于所述目标语音信号对所述电梯进行语音打断；或者，所述输出结果可以为目标语音信号，所述基于所述输出结果对所述电梯进行语音打断，可以包括：基于所述目标语音信号对所述电梯进行语音打断。本实施例对此不进行限定。

可选的，所述对所述待处理语音信号、所述第一语音信号及所述第二语音信号进行非线性处理，得到输出结果，包括：

将所述待处理语音信号、所述第一语音信号及所述第二语音信号输入用于回声消除的神经网络模型进行处理，得到输出结果。

其中，所述神经网络模型可以为长短期记忆(LSTM)神经网络模型，例如，可以为具有长短期记忆的递归神经网络模型(RNN)，或者还可以为其他类型的可用于回声消除的神经网络模型，本实施例对此不进行限定。

另外，所述将所述待处理语音信号、所述第一语音信号及所述第二语音信号输入用于回声消除的神经网络模型进行处理，可以是将待处理语音信号的声学特征、所述第一语音信号的声学特征及所述第二语音信号的声学特征输入用于回声消除的神经网络模型进行处理。

例如，可以将待处理语音信号的声学特征、所述第一语音信号的声学特征及所述第二语音信号的声学特征作为神经网络模型的三个输入分别输入神经网络模型；或者，还可以是将待处理语音信号的声学特征、所述第一语音信号的声学特征及所述第二语音信号的声学特征合并为一个矩阵，作为神经网络模型的一个输入输入神经网络模型。本实施例对此不进行限定。

该实施方式中，通过用于回声消除的神经网络模型对自适应滤波后的回声信号进行处理，能够较好地消除回声信号中的非线性部分，从而能够较好地消除待处理语音信号中的回声信号。

可选的，所述神经网络模型为长短期记忆神经网络模型，所述输出结果为掩膜值，所述基于所述输出结果对所述电梯进行语音打断，包括：

依据所述掩膜值和所述第二语音信号进行掩膜处理，以得到目标语音信号；

基于所述目标语音信号对所述电梯进行语音打断。

其中，所述掩膜值(Mask)可以用于表征第二语音信号与待处理语音信号中的人声信号之间的关系，可以用于抑制第二语音信号中的残留回声信号以及保留第二语音信号中的人声信号。在理想情况下，通过掩膜值对第二语音信号进行掩膜处理后，可以消除第二语音信号中的残留回声信号，还原出人声信号。所述目标语音信号可以为所述掩膜值和所述第二语音信号的乘积。

另外，可以预先训练长短期记忆神经网络模型。以长短期记忆神经网络模型为具有LSTM的RNN模型为例，可以预先训练具有LSTM的RNN。在训练具有LSTM的RNN过程中可以建立语音训练集，可以随机选择语音语料库中的语音，第二语音信号可以由选择的语音作为人声信号和残留回声信号混合形成，作为训练样本进行训练，例如，可以选择TIMIT数据集中的语音，TIMIT数据集为声学-音素连续语音语料库数据集，包括大量的语音样本。在采用语音训练集进行训练时，可以使用理想掩膜值作为训练目标，对具有LSTM的RNN进行训练。理想掩膜值可以基于样本中的人声信号和第二语音信号确定，例如，理想掩膜值可以是样本中的人声信号和第二语音信号的比值。

该实施方式中，长短期记忆神经网络模型能够对待处理语音信号中回声的非线性部分进行处理，且长短期记忆神经网络模型具备长期记忆功能，在处理具备时间序列特点的待处理语音信号时，处理效果较好，能够较好地消除回声。

可选的，所述获取待处理语音信号之前，所述方法还包括：

播放所述第一语音信号；

所述基于所述目标语音信号对所述电梯进行语音打断，包括：

若所述目标语音信号中包括预设唤醒词，则停止播放所述第一语音信号，并将所述电梯从待机状态唤醒，切换到工作状态。

其中，所述预设唤醒词可以用于唤醒电梯，电梯被唤醒后，可以从待机状态切换到工作状态，与用户进行语音交互。

在实际应用中，电梯的麦克风和扬声器的位置较近，麦克风采集的人声信号容易被扬声器播放声音产生的回声淹没，导致电梯被唤醒的成功率较低。本实施例中，电梯在播放第一语音信号的过程中，实时获取待处理语音信号，通过自适应滤波和神经网络模型对待处理语音信号进行回声消除，得到消除回声后的目标语音信号。电梯识别目标语音信号中是否包括预设唤醒词，若识别到预设唤醒词，则停止播放第一语音信号，将电梯从待机状态唤醒，切换到工作状态，从而能够还原出待处理语音信号中的人声信号，避免人声信号被淹没，从而提高电梯被唤醒的成功率。

作为一种使用场景，电梯可以为智能电梯，所述预设唤醒词可以为“小明”，所述第一语音信号的内容可以为新闻。智能电梯在播放新闻的过程中，若识别到目标语音信号中包括“小明”，则智能电梯被唤醒，停止播放新闻，接收并执行用户的语音指令。

该实施方式中，从待机状态唤醒后，停止播放第一语音信号，避免播放第一语音信号干扰到电梯与用户的语音交互，能够给用户提供较好的语音交互环境。

可选的，所述将所述电梯从待机状态唤醒，切换到工作状态之后，所述方法还包括：

若检测到所述电梯由工作状态切换到待机状态，则继续播放所述第一语音信号。

其中，电梯由工作状态切换到待机状态，则可以重新进入等待用户唤醒的状态。电梯可以是在预设时长内未接收到用户的语音指令后，由工作状态切换到待机状态，预设时长可以为1min，或者3min，或者5min等等；或者，电梯还可以是在接收到用户的切换状态的指令后，由工作状态切换到待机状态，本实施例对此不进行限定。

该实施方式中，在电梯从工作状态进入待机状态，重新进入等待用户唤醒的状态时，自动继续播放第一语音信号，能够给用户带来良好的听觉享受，从而电梯的智能化程度较高。

可选的，所述基于所述第一语音信号对所述待处理语音信号进行自适应滤波处理，得到第二语音信号，包括：

基于所述第一语音信号与自适应滤波算法的滤波系数获取第三语音信号；

计算所述待处理语音信号与所述第三语音信号的差值，得到所述第二语音信号；

其中，所述自适应滤波算法的滤波系数基于步长因子确定，所述步长因子基于所述第一语音信号及所述第二语音信号确定。

另外，所述第三语音信号可以为第一语音信号与滤波系数的乘积。自适应滤波算法的滤波系数w可以为：w(k)＝[w₀(k)，...，w_N-1(k)]^T，N为滤波器长度，可以采用滤波系数对第一语音信号r进行处理，得到的第三语音信号g为：g(k)＝w^H(k)*r(k)。第二语音信号为待处理语音信号x与所述第三语音信号g的差值，第二语音信号e为：e(k)＝x(k)-g(k)，k为正整数。

进一步的，在待处理语音信号中仅包括电梯播放第一语音信号的回声信号时，步长因子可以较大，例如，步长因子的取值范围可以为0.4至0.8；在待处理语音信号中包括回声信号以及人声信号时，步长因子可以较小，能够达到较好地滤波效果。

作为一种实施方式，步长因子u可以按照如下方式获得：

其中，r(k)为第一语音信号，e(k)为第二语音信号，

为包括第k帧第一语音信号在内的多帧连续的第一语音信号的平方的均值，

为包括第k帧第二语音信号在内的多帧连续的第二语音信号的平方的均值，N为滤波器长度。

另外，

esnr可以取常数0.0001。

进一步的，自适应滤波算法的滤波系数可以与步长因子正相关，自适应滤波算法可以采用块更新算法，累积多个采样点后更新一次滤波系数，例如，可以一帧语音信号更新一次滤波系数，若一帧语音信号包括m个采样点，则块更新算法中滤波系数按如下更新：

其中，k为块更新的索引，u(k)为自适应滤波算法的步长因子，r(km+i)为第一语音信号，e(km+i)为第二语音信号。

在实际应用中，如图2所示，可以采用线性滤波器对待处理语音信号x和第一语音信号r进行处理，得到第二语音信号e。可以将待处理语音信号x、第一语音信号r及第二语音信号e作为LSTM神经网络模型的输入。LSTM神经网络模型输出得到掩膜值，可以基于第一语音信号r及第二语音信号e对步长因子u进行调整，从而实现线性滤波器的步长调节，步长因子u可以作为反馈因子对线性滤波器的滤波系数进行自适应调整，加快自适应滤波的收敛速度。通过掩膜值对第二语音信号进行掩膜处理，可以得到目标语音信号。所述目标语音信号可以用于唤醒检测，通过判断目标语音信号中是否包括预设唤醒词，来决定是否唤醒电梯。

该实施方式中，根据自适应滤波处理后的语音信号以及第一语音信号共同对自适应滤波算法的步长因子进行调整，能够加快自适应滤波算法的收敛速度，从而提高回声消除的效果。

作为一种具体的实施方式，电梯在播放第一语音信号的过程中，实时获取待处理语音信号，通过自适应滤波和神经网络模型对待处理语音信号进行回声消除，得到消除回声后的目标语音信号，电梯识别目标语音信号中是否包括预设唤醒词或预设命令词决定是否进行语音打断。以电梯识别目标语音信号中是否包括预设唤醒词为例，在电梯播放第一语音信号过程中进行唤醒，以实现打断唤醒。

采用本实施例的电梯的语音打断控制方法进行语音打断，可以测得在不同信回比条件下的ERLE(Echo Return Loss Enhancement，回波反射损耗增强)值如表1所示。在相同信回比条件下，ERLE值越高表示回声消除效果越好，语音打断成功率就会越高。其中，信回比表示为人声信号和回声信号的能量比，再变换到对数域，即：

∑z²(n)表示人声信号，∑x²(n)表示回声信号。

表1

信回比	-30dB	-20dB	-10dB	0dB	10dB
						ERLE	25-45	25-45	25-45	25-45	25-45

采用本实施例的电梯的语音打断控制方法进行语音打断，可以测得语音打断成功率如表2所示。

表2

由表1和表2可知，采用本实施例的语音打断控制方法，回声消除效果较好，且语音打断成功率较高。

语音打断成功率的计算方法见公式可以为：

式中：

ρ_SIR——语音打断成功率；

n_SIR——成功打断次数；

N_IR——打断总次数。

采用本实施例的语音打断控制方法进行语音打断操作，针对单人乘梯的情况，语音打断成功率可达到92％以上；针对多人乘梯的情况，语音打断成功率可达到80％以上。

参见图3，图3是本公开实施例提供的一种电梯的语音打断控制装置的结构示意图之一，如图3所示，电梯的语音打断控制装置200包括：

获取模块201，用于获取待处理语音信号，所述待处理语音信号中包括用户对电梯的语音控制信号以及所述电梯播放第一语音信号的回声信号；

第一处理模块202，用于基于所述第一语音信号对所述待处理语音信号进行自适应滤波处理，得到第二语音信号；

第二处理模块203，用于对所述待处理语音信号、所述第一语音信号及所述第二语音信号进行非线性处理，得到输出结果；

打断模块204，用于基于所述输出结果对所述电梯进行语音打断。

可选的，所述第二处理模块203具体用于：

可选的，所述神经网络模型为长短期记忆神经网络模型，所述输出结果为掩膜值，所述打断模块204具体用于：

基于所述目标语音信号对所述电梯进行语音打断。

可选的，如图4所示，所述装置200还包括：

播放模块205，用于播放所述第一语音信号；

所述打断模块204包括：

切换单元2041，用于若所述目标语音信号中包括预设唤醒词，则停止播放所述第一语音信号，并将所述电梯从待机状态唤醒，切换到工作状态。

可选的，如图5所示，所述打断模块204还包括：

播放单元2042，用于若检测到所述电梯由工作状态切换到待机状态，则继续播放所述第一语音信号。

可选的，所述第一处理模块202具体用于：

电梯的语音打断控制装置能够实现图1的方法实施例中实现的各个过程，为避免重复，这里不再赘述。

请参见图6，图6是本公开实施例提供的一种电梯的结构示意图，如图6所示，电梯300包括：存储器302、处理器301及存储在所述存储器302上并可在所述处理器301上运行的程序，其中：

所述处理器301读取存储器302中的程序，用于执行：

基于所述输出结果对所述电梯进行语音打断。

可选的，所述处理器301执行的所述对所述待处理语音信号、所述第一语音信号及所述第二语音信号进行非线性处理，得到输出结果，包括：

可选的，所述神经网络模型为长短期记忆神经网络模型，所述输出结果为掩膜值，所述处理器301执行的所述基于所述输出结果对所述电梯进行语音打断，包括：

基于所述目标语音信号对所述电梯进行语音打断。

可选的，所述处理器301还用于执行：

播放所述第一语音信号；

所述处理器301执行的所述基于所述目标语音信号对所述电梯进行语音打断，包括：

可选的，所述处理器301还用于执行：

可选的，所述处理器301执行的所述基于所述第一语音信号对所述待处理语音信号进行自适应滤波处理，得到第二语音信号，包括：

在图6中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器301代表的一个或多个处理器和存储器302代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。

处理器301负责管理总线架构和通常的处理，存储器302可以存储处理器301在执行操作时所使用的数据。

需要说明的是，本公开实施例方法实施例中的任意实施方式都可以被本实施例中的上述电梯所实现，以及达到相同的有益效果，此处不再赘述。

本公开实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述电梯的语音打断控制方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random AccessMemory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本公开各个实施例所述的方法。

上面结合附图对本公开的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种电梯的语音打断控制方法，其特征在于，所述方法包括：

基于所述输出结果对所述电梯进行语音打断。

2.根据权利要求1所述的方法，其特征在于，所述对所述待处理语音信号、所述第一语音信号及所述第二语音信号进行非线性处理，得到输出结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述神经网络模型为长短期记忆神经网络模型，所述输出结果为掩膜值，所述基于所述输出结果对所述电梯进行语音打断，包括：

基于所述目标语音信号对所述电梯进行语音打断。

4.根据权利要求3所述的方法，其特征在于，所述获取待处理语音信号之前，所述方法还包括：

播放所述第一语音信号；

5.根据权利要求4所述的方法，其特征在于，所述将所述电梯从待机状态唤醒，切换到工作状态之后，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述第一语音信号对所述待处理语音信号进行自适应滤波处理，得到第二语音信号，包括：

7.一种电梯的语音打断控制装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述第二处理模块具体用于：

9.根据权利要求8所述的装置，其特征在于，所述神经网络模型为长短期记忆神经网络模型，所述输出结果为掩膜值，所述打断模块具体用于：

基于所述目标语音信号对所述电梯进行语音打断。

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

播放模块，用于播放所述第一语音信号；

所述打断模块包括：

切换单元，用于若所述目标语音信号中包括预设唤醒词，则停止播放所述第一语音信号，并将所述电梯从待机状态唤醒，切换到工作状态。

11.根据权利要求10所述的装置，其特征在于，所述打断模块还包括：

播放单元，用于若检测到所述电梯由工作状态切换到待机状态，则继续播放所述第一语音信号。

12.根据权利要求7所述的装置，其特征在于，所述第一处理模块具体用于：

13.一种电梯，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如权利要求1至6中任一项所述的电梯的语音打断控制方法中的步骤。