CN111583936A

CN111583936A - 一种智能语音电梯控制方法及装置

Info

Publication number: CN111583936A
Application number: CN202010376292.4A
Authority: CN
Inventors: 徐波
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-05-07
Filing date: 2020-05-07
Publication date: 2020-08-25

Abstract

本发明公开了一种智能语音电梯控制方法及装置，用于楼层用户身份认证及权限控制，并提供良好的智能语音交互体验。包括采集待乘梯用户的语音，将采集的语音进行预处理并经过声纹匹配验证用户身份；身份验证通过后用户通过语音与电梯交互确定目标楼层信息，在后台数据库验证确定用户具有到达目标楼层权限后，用户信息和楼层权限信息将一并发送给中央控制平台，最后中央控制平台智能调度将用户送至目标楼层。本发明不仅能根据用户语音智能验证身份和确定权限，通过语音与用户温情交互，同时由于手指无需触碰按键可切断微生物病原体利用电梯按键传播的途径，大大减少病原体利用触摸电梯传播的风险。

Description

一种智能语音电梯控制方法及装置

技术领域

本发明涉及智能电梯控制领域，特别是指一种智能语音电梯控制方法及装置。

背景技术

电梯作为一种楼层间的自动传输设备已广泛应用于各类生活建筑中，为人们的出行提供了极高的便利性。然而在具有严重传染性病菌的疫情期间，电梯由于其密闭性，加上乘梯人员复杂性，导致在电梯内乘梯人员之间十分容易出现交叉感染的现象，从而使得乘梯人员的安全得不到保障。

现有技术中，通过IC卡来限制乘梯人身份和防按钮接触来降低交叉感染的现象，从而保证乘梯人的安全。然而IC卡存在不便利性，一旦用户丢失IC卡则无法乘坐电梯，便利性差；除此之外，需要为每个用户配备一张IC卡，成本高。

发明内容

本发明提出一种智能语音电梯控制方法及装置，利用人工智能算法实现语音智能验证身份和确定权限，直接采用语音验证限制乘梯人身份，增加了电梯使用的安全性和便捷性，通过语音与用户温情交互，同时由于手指无需触碰按键可切断微生物病原体利用电梯按键传播的途径，大大减少病原体利用触摸电梯传播的风险。

本发明的技术方案是这样实现的：

一种智能语音电梯控制方法，包括以下步骤：

利用麦克风设备采集待乘梯用户语音数据；

对采集的待乘梯用户的语音数据进行预处理并通过声纹匹配验证用户身份；

在用户身份验证后，用户通过语音与电梯智能交互确定目标楼层信息；

在确定用户目标楼层信息后，由后台数据库验证确定用户是否具有到达目标楼层的权限；

确定用户具有到达目标楼层权限后，将用户信息和楼层权限传递给中央控制平台，中央控制平台根据当前电梯使用情况和用户权限优先级智能调度将用户送至目标楼层。

作为本发明的一个优选实施例，对采集的待乘梯用户的语音数据进行预处理具体包括：

对语音数据进行语音活动检测、语音增强、语音分离操作，通过语音活动检测模型确定语音片段为噪声数据或人声，通过语音增强模型抑制语音数据中的噪声并增强人声，通过语音分离模型分离出目标用户的语音数据。

作为本发明的一个优选实施例，在对采集的待乘梯用户的语音数据进行预处理之前，对语音数据进行分帧处理得到音频帧序列，通过对音频帧序列时频变换得到音频声学特征向量。

作为本发明的一个优选实施例，在得到音频声学特征向量后，对采集的待乘梯用户的语音数据进行预处理之前，根据预先准备的语音数据集及噪声数据集混合加噪生成不同信噪比的带噪语音数据集和对应的噪声、语音标签集，利用带噪语音数据集和标签集训练得到语音活动检测模型。

作为本发明的一个优选实施例，在得到音频声学特征向量后，对采集的待乘梯用户的语音数据进行预处理之前，根据预先准备的干净语音数据和噪声数据集混合加噪生成不同信噪比的带噪语音数据集，利用干净语音数据集和带噪语音数据集训练语音增强模型。

作为本发明的一个优选实施例，在得到音频声学特征向量后，对采集的待乘梯用户的语音数据进行预处理之前，根据预先准备的多种用户的干净语音数据及对应用户标识信息训练语音分离模型。

作为本发明的一个优选实施例，在通过声纹匹配验证用户身份之前，根据预先收集的多用户的语音数据训练声纹生成模型，并预先采集、登记用户的语音数据，通过声纹生成模型生成参考声纹。

作为本发明的一个优选实施例，用户通过语音与电梯智能交互确定目标楼层信息具体包括：

根据预先准备的语音数据和文字标签数据训练语音识别模型，根据预先准备的文字标签数据和语音数据训练语音合成模型；

通过语音识别模型将用户语音转换成文字与电梯进行交互，通过语音合成模型合成语音与用户进行交互。

作为本发明的一个优选实施例，中央控制平台确定调度结果后，通过语音交互预先告知用户电梯目前使用情况和仍需等待的时间。

一种智能语音装置，包括：

语音采集和播放模块，用于采集用户语音数据和播放合成的语音数据；

语音预处理模块，用于对采集的语音数据进行语音活动检测、语音增强、语音分离操作；

声纹认证模块，用于对经过预处理后的语音数据做声纹匹配，验证用户身份；

语音识别模块，用于对经过预处理后的语音数据做语音识别，将语音数据转换为文本；

语音合成模块，用于对后台数据库返回的权限信息和中央调度平台返回的信息做转换，将文本信息转换为语音数据；

中央控制模块，用于根据用户身份信息确定目标用户是否具有到达目标楼层的权限以及根据电梯内使用情况智能调度电梯的运转。

本发明的有益效果在于：通过采集待乘梯用户语音，将采集的语音经过预处理并经过声纹匹配验证用户身份；身份验证通过后用户可通过语音与电梯交互确定目标楼层信息，在后台数据库验证确定用户具有到达目标楼层权限后，用户信息和楼层权限信息将一并发送给智能电梯调度系统，最后电梯智能调度将用户送至目标楼层。本公开不仅能根据用户语音智能验证身份和确定权限，通过语音与用户温情交互，同时由于手指无需触碰按键可切断微生物病原体利用电梯按键传播的途径，大大减少病原体利用触摸电梯传播的风险。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种智能语音电梯方法一个实施例的流程图；

图2为本发明提供的语音预处理方法实施例的流程图；

图3为本发明一种智能语音电梯装置一个实施例的原理框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本实施例提供的智能语音电梯方法可以包括：

步骤101，利用麦克风设备采集待乘梯用户的语音数据；

语音信号的质量对后续声纹匹配、语音识别至关重要，在采集用户语音数据时需要考虑用户与电梯门的距离，最好采用多个麦克风阵列采集音频，尽可能满足长短距离下语音的高质量采集。

步骤102，对采集的语音数据进行预处理，包含语音活动检测、语音增强、语音分离等预处理操作；

实际麦克风采集的语音数据可能包含多种环境噪声或干扰人声，为使后续声纹匹配和语音识别实现更好的效果，需对采集的语音数据进行语音活动检测、语音增强、语音分离等预处理操作。通过语音活动检测预处理可滤除噪声片段，仅保留语音片段，利用语音增强预处理可抑制噪声并增强人声，而通过语音分离预处理可去除非目标用户语音而只保留目标用户语音数据，通过这些语音前端预处理操作可获得较干净的目标用户语音。

本发明采用的语音相关人工智能算法和语音预处理操作，在嘈杂环境下也能保证语音验证的准确性和语音识别的准确率，给用户提供良好的体验。

本实施例中语音预处理详细介绍见图2。

步骤103，将经过预处理后的语音数据用于声纹匹配验证用户身份；

声纹(Voiceprint)是一种携带言语信息的声波频谱，具有特定性和相对稳定性的特点，人在成年之后声音可保持长期相对稳定性，因此它同指纹一样，是一种独特的生物学特征，可用于身份识别。

在本实施例中通过对预处理后的较干净的目标语音数据提取声学特征，将提取的声学特征输入声纹模型生成待验证声纹，计算生成的待验证声纹与预先存储的参考声纹之间的相似度分值，若相似度分值达到预设的相似度分值，则验证用户身份合法，否则用户身份不合法。

可选的，确定待验证声纹与预先存储的参考声纹之间的相似度分值是否达到预设的相似度分值之前，还包括：

获取参考声纹，计算待验证声纹与参考声纹之间的相似度分值。

可选地，获取参考声纹之前，还包括：

获取合法用户的信息及预设次数的注册语料，确定预设次数个注册声音数据之间的相似度分值达到声纹注册相似度分值，将预设次数个注册声音数据通过声纹模型生成生成注册声纹，将注册声纹作为参考声纹。

可选的，在获得声纹模型之前，还包括：

根据预先准备的用户语音数据和身份信息，先提取声学特征向量，根据提取的声学特征向量和用户身份信息训练声纹模型。可通过对音频帧序列进行傅里叶变换、离散傅里叶变换，通过一些滤波器组、加窗平滑、倒谱分析等时频变换操作提取声学特征向量。在一种可能的实现方式中，可对分帧处理的音频序列进行时频变换提取梅尔频谱倒谱系数(MFCC)特征。

声纹匹配模型可以是传统的高斯混合模型-通用背景模型、高斯混合模型-支持向量机模型等。也可以是采用全局差异因子的i-verctor和联合因子分析技术或基于深度神经网络的模型。本实施例中，采用深度全连接网络作为声纹模型，采用Adam方法训练优化模型。

步骤104，身份验证通过后，用户可通过语音与电梯交互确定目标楼层信息；

在用户声纹验证通过后，用户可通过语音与电梯交互确定目标楼层信息，通过已训练好的语音识别模型将用户语音转换成文字，通过已训练好的语音合成模型合成语音与用户进行交互。

可选地，在利用语音识别模型将用户语音转换成文字之前，还包括：

根据预先准备的语音数据和文本数据训练语音识别模型；

语音识别模型可采用传统的高斯混合模型-隐马尔可夫模型。语音识别模型也可采用基于深度神经网络的模型，如基于深度长短记忆网络、基于编码器和解码器架构或基于自注意力的transformer网络等。

本实施例中，选用aishell、thchs30、datatang等公开数据集和内部数据集作为训练集，选用基于自注意力的transformer网络，利用Adam方法作为训练优化方法。

可选地，在利用语音合成模型将文字合成语音之前，还包括：

根据预先准备的语音数据和文本数据训练语音合成模型；

语音合成模型可采用传统的参数拼接模型。语音合成模型也可以采用基于深度神经网络的模型，如基于深度长短记忆网络、基于深度卷积网络、基于编码器和解码器架构或基于自注意力的transformer网络等。

本实施例中，选用高质量的内部数据集作为训练集，选用基于自注意力的transformer网络，利用Adam方法作为训练优化方法。

步骤105，将用户身份和想去的目标楼层信息发送给中央控制平台，判断用户是否有权限去目标楼层；

将用户身份信息和想去的目标楼层信息发送给中央控制平台，查询后端数据库可确定用户是否有权限去目标楼层。

可选地，在判断目标是否有权限去目标楼层前，还包括：

预先登记用户身份信息与对应楼层权限信息，构建后端数据库。

步骤106，中央控制平台确定用户想去目标楼层权限后，根据当前时刻电梯使用情况智能调度，通过语音交互告知用户需等待时间；

在中央控制平台确定用户想去的目标楼层权限后，根据当前时刻电梯的使用情况确定调度方法，预估用户所需等待的时间，并通过语音合成音频告知用户需等待的时间。

在上述实施例的基础上，本实施例针对上述实施例中语音预处理过程进行详细说明。

如图2所示，本实施例提供的语音预处理方法可以包括：

步骤201，采集待乘梯用户的语音数据；

采用多麦克风阵列采集用户语音数据。

步骤202，音频分帧并提取声学特征向量；

语音信号从整体来看其特性及表征其本质特征的参数均是随时间而变化的，具有时变特性，是一个非平稳态过程，不能直接用处理平稳信号的数字信号处理技术进行分析处理，但是语音信号具有短时平稳性，即在短时间范围内(一般认为在10ms～30ms)，其特性基本保持不变，故任何语音信号的分析和处理必须建立在“短时”基础上，需要将语音信号分成一帧一帧来分析其特征参数。语音是由声门激励通过声道产生的，声门激励属于低频，所以语音的能量主要集中在低频，相对于低频来说，高频的能量较低，提升高频分量有助于提高信噪比，一般可采用预加重的方法提高高频分量，预加重后就可以选用窗函数加窗得到音频帧序列了，一般可选用汉明窗(Hamming)或者汉宁窗(Hanning)，为使帧与帧之间平滑过渡，保持其连续性，分帧一般采用交叠分段的方法，将待检测音频分成两种不同帧长的音频帧序列。

人类听觉感知的实验表明，人类听觉的感知并不是对所有频率范围内信号都敏感，而是只聚焦于某些特定的区域，人耳就像一个滤波器组一样，对频率是有选择性的，它只让某些频率的信号通过，而直接无视它不想感知的某些频率信号，在对语音特征的提取上，人类听觉系统不仅能提取语义信息，而且能提取出说话人的个人特征，故若能模拟人类听觉感知处理特点，提取表达力更强的声学特征向量，对后续语音活动检测的准确率、语音增强降噪的性能及语音分离提取目标音频的准确率有很大的帮助。

在本实施例中将提取梅尔频谱倒谱系数(MFCC)特征。

可选的，可对音频提取PLP、Pitch、Fbank等特征，将多种特征加权融合成新的特征向量。

步骤203，利用语音活动检测模型滤除噪音片段；

根据提取的MFCC特征向量序列输入到已训练好的语音活动检测模型中，语音活动检测模型预测得到各音频帧的概率值，若音频帧前后连续几帧平均概率值大于预设概率值，则确定该帧信号为语音信号，若音频帧前后连续几帧平均概率值小于等于预设概率值，则确定该帧信号属于噪声信号。利用语音活动检测模型可以滤除检测音频中无效的噪声片段，仅保留有效的语音信号片段。

可选地，利用已训练好的语音活动检测模型预测得到各音频帧地概率值之前，还包括：

根据预先准备语音数据及噪声数据集混合加噪生成不同信噪比的带噪语音数据集和对应的噪声、语音标签集，利用带噪语音数据集和标签集训练语音活动检测模型。

本实施例中，语音数据可采用开源的aishell数据集，噪声数据集可采用Hu-Nonspeech、Noisex-92数据集，语音数据与噪声数据集混合加噪生成[-5,0,5,10,15,20]信噪比的带噪数据。语音活动检测模型可以是基于传统信号与信息处理的方法如过零率分析、时频能量检测，或者是基于统计学的高斯混合模型。在一种可能的实现方式中，语音活动检测模型也可以是基于深度神经网络的模型，如深度全连接网络、深度卷积网络、深度循环网络、深度长短时记忆网络等。在本实施例中，语音活动检测模型选择深度全连接神经网络模型，采用Adam优化方式训练。

步骤204，利用语音增强模型抑制噪声，增强人声；语音增强模型可以是基于传统信号信息处理的谱减法、维纳滤波、基于最小均方误差准则的对数幅度谱最优估计、基于非负矩阵分解等。语音增强模型也可以是基于深度神经网络的模型，如深度全连接网络、深度卷积网络、深度循环网络、深度长短时记忆网络等。

在利用语音活动检测模型滤除噪声片段后，可将语音片段对应的MFCC特征向量输入到已训练好的语音增强模型中，预测输出增强后的MFCC特征向量。利用语音增强模型可以抑制音频中的噪声，并增强人声。

可选地，利用已训练好地语音增强模型预测输出增强后地MFCC特征向量之前，还包括：

根据预先准备的干净语音数据和噪声数据集混合加噪生成不同信噪比的带噪语音数据集，根据干净语音数据集和带噪语音数据集训练语音增强模型。

本实施例中，语音数据可采用开源的aishell数据集，噪声数据集可采用Hu-Nonspeech、Noisex-92数据集，语音数据与噪声数据集混合加噪生成[-5,0,5,10,15,20]信噪比的带噪数据。语音增强模型选择深度全连接神经网络模型，采用Adam优化方式训练。

步骤205，利用语音分离模型分离出目标人的语音；语音分离模型可以是基于传统计算听觉场景分析的语音分离模型、基于隐马尔可夫或基于高斯混合的语音分离模型。语音分离模型也可以是基于深度神经网络的模型，如深度全连接网络、深度卷积网络、深度循环网络、深度长短时记忆网络等。

在利用语音增强模型预测得到增强后地MFCC特征向量后，可将增强后地MFCC特征向量输入到已训练好地语音分离模型中，去除非目标用户的语音，仅保留目标用户的语音。

可选地，利用已训练好地语音分离模型预测输出目标用户语音特征向量MFCC之前，还包括：

根据预先准备的多用户干净语音数据及对应用户标识信息训练语音分离模型。

本实施例中，语音数据可采用内部数据集作为目标用户数据，开源的aishell数据集作为干扰人声数据，语音分离模型选择深度长短记忆神经网络模型，采用Adam优化方式训练。

步骤206，获得干净的目标人语音特征向量；

在通过语音活动检测模型滤除噪声片段，通过语音增强抑制噪声及语音分离去除非目标人语音后，可得到干净的目标人语音特征向量。

本发明实施例还提供一种语音活动检测装置，请参见图3所示，本发明实施例仅以图3为例进行说明，并不表示本发明仅限于此。图3为本发明提供的语音活动检测装置实施例的结构示意图；如图3所示，本发明实施例提供的语音活动检测装置包括：

语音采集和播放模块301，用于采集用户音频及播放语音合成的音频；

语音预处理模块302，用于对采集的音频做语音活动检测、语音增强和语音分离等预处理操作；

声纹认证模块303，用于对预处理后的音频进行身份认证；

语音识别模块304，用于识别用户语音，将语音转换成文字；

语音合成模块305，用于合成音频，将中央处理器返回的信息合成相应的音频；

中央调度模块306，用于验证用户想去目标楼层权限及根据电梯使用情况智能调度电梯运转。

本实施例提供的装置，可以用于执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种智能语音电梯控制方法，其特征在于，包括以下步骤：

利用麦克风设备采集待乘梯用户语音数据；

2.根据权利要求1所述的一种智能语音电梯控制方法，其特征在于，对采集的待乘梯用户的语音数据进行预处理具体包括：

3.根据权利要求2所述的一种智能语音电梯控制方法，其特征在于，在对采集的待乘梯用户的语音数据进行预处理之前，对语音数据进行分帧处理得到音频帧序列，通过对音频帧序列时频变换得到音频声学特征向量。

4.根据权利要求3所述的一种智能语音电梯控制方法，其特征在于，在得到音频声学特征向量后，对采集的待乘梯用户的语音数据进行预处理之前，根据预先准备的语音数据集及噪声数据集混合加噪生成不同信噪比的带噪语音数据集和对应的噪声、语音标签集，利用带噪语音数据集和标签集训练得到语音活动检测模型。

5.根据权利要求3所述的一种智能语音电梯控制方法，其特征在于，在得到音频声学特征向量后，对采集的待乘梯用户的语音数据进行预处理之前，根据预先准备的干净语音数据和噪声数据集混合加噪生成不同信噪比的带噪语音数据集，利用干净语音数据集和带噪语音数据集训练语音增强模型。

6.根据权利要求3所述的一种智能语音电梯控制方法，其特征在于，在得到音频声学特征向量后，对采集的待乘梯用户的语音数据进行预处理之前，根据预先准备的多种用户的干净语音数据及对应用户标识信息训练语音分离模型。

7.根据权利要求1所述的一种智能语音电梯控制方法，其特征在于，在通过声纹匹配验证用户身份之前，根据预先收集的多用户的语音数据训练声纹生成模型，并预先采集、登记用户的语音数据，通过声纹生成模型生成参考声纹。

8.根据权利要求1所述的一种智能语音电梯控制方法，其特征在于，用户通过语音与电梯智能交互确定目标楼层信息具体包括：

9.根据权利要求1所述的一种智能语音电梯控制方法，其特征在于，中央控制平台确定调度结果后，通过语音交互预先告知用户电梯目前使用情况和仍需等待的时间。

10.一种智能语音装置，其特征在于，包括：