CN116534700A

CN116534700A - 爬楼机的控制系统及其方法

Info

Publication number: CN116534700A
Application number: CN202310625882.XA
Authority: CN
Inventors: 刘以凭
Original assignee: Hangzhou Anbida Electric Co ltd
Current assignee: Hangzhou Anbida Electric Co ltd
Priority date: 2023-05-30
Filing date: 2023-05-30
Publication date: 2023-08-04

Abstract

一种爬楼机的控制系统及其方法，其获取用户提供的爬楼机交互语音数据；采用基于深度学习的人工智能技术，对用户提供的交互语音数据进行精准地语义识别和理解，让爬楼机能够准确理解用户的指令，并将指令转换为相应的控制信号。这样，可以基于用户的交互语义信息智能化地进行爬楼机的控制，从而优化用户与爬楼机的交互体验感。

Description

爬楼机的控制系统及其方法

技术领域

本申请涉及智能化控制技术领域，并且更具体地，涉及一种爬楼机的控制系统及其方法。

背景技术

在现代城市生活中，爬楼机（或称楼梯扶手电梯）已经成为人们常用的交通工具之一。随着科技的不断发展，人们对于机器智能化的需求也越来越高。爬楼机作为一种常见的垂直运输设备，其控制系统的智能化程度也逐渐成为了人们关注的焦点。然而，由于现有爬楼机控制系统的限制，它的智能化水平相对较低，用户操作不够便捷、精准，且容易受到外界环境音频干扰等因素的影响。具体来说，目前的爬楼机控制系统只能通过简单的语音指令进行控制，缺乏对于用户意图的深度理解，导致用户的指令不能被准确识别和执行，使得用户与爬楼机的交互体验不佳。

因此，期望一种优化的爬楼机的控制系统。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种爬楼机的控制系统及其方法，其获取用户提供的爬楼机交互语音数据；采用基于深度学习的人工智能技术，对用户提供的交互语音数据进行精准地语义识别和理解，让爬楼机能够准确理解用户的指令，并将指令转换为相应的控制信号。这样，可以基于用户的交互语义信息智能化地进行爬楼机的控制，从而优化用户与爬楼机的交互体验感。

第一方面，提供了一种爬楼机的控制系统，其包括：交互语音数据采集模块，用于获取用户提供的爬楼机交互语音数据；采样模块，用于对所述爬楼机交互语音数据进行基于采样窗的滑窗式采样以得到多个语音信号采样窗；降噪模块，用于分别对所述多个语音信号采样窗进行降噪处理以得到多个降噪后语音采样窗；声音波形特征提取模块，用于将所述多个降噪后语音采样窗分别通过基于卷积神经网络模型的声音波形特征提取器以得到多个声音采样窗波形特征向量；声音全局语义关联模块，用于将所述多个声音采样窗波形特征向量通过基于转换器的上下文编码器以得到语音编码特征向量；交互语音解码模块，用于将所述语音编码特征向量通过解码器以得到交互语音解码结果；以及爬楼机控制模块，用于基于所述交互语音解码结果，生成爬楼机控制指令。

在上述爬楼机的控制系统中，所述声音波形特征提取模块，用于：使用所述基于卷积神经网络模型的声音波形特征提取器的各层在层的正向传递中对输入数据分别进行卷积处理、池化处理和非线性激活处理以由所述基于卷积神经网络模型的声音波形特征提取器的最后一层的输出为所述多个声音采样窗波形特征向量，其中，所述基于卷积神经网络模型的声音波形特征提取器的第一层的输入为所述多个降噪后语音采样窗。

在上述爬楼机的控制系统中，所述声音全局语义关联模块，包括：上下文编码单元，用于将所述多个声音采样窗波形特征向量通过基于转换器的上下文编码器以得到多个上下文声音采样窗波形特征向量；特征优化单元，用于融合所述多个声音采样窗波形特征向量和所述多个上下文声音采样窗波形特征向量以得到多个优化上下文声音采样窗波形特征向量；以及，级联单元，用于将所述多个优化上下文声音采样窗波形特征向量进行级联以得到所述语音编码特征向量。

在上述爬楼机的控制系统中，所述上下文编码单元，包括：向量构造子单元，用于将所述多个声音采样窗波形特征向量进行一维排列以得到声音采样窗全局特征向量；自注意子单元，用于计算所述声音采样窗全局特征向量与所述多个声音采样窗波形特征向量中各个声音采样窗波形特征向量的转置向量之间的乘积以得到多个自注意力关联矩阵；标准化子单元，用于分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵；关注度计算子单元，用于将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值；以及，注意力施加子单元，用于分别以所述多个概率值中各个概率值作为权重对所述多个声音采样窗波形特征向量中各个声音采样窗波形特征向量进行加权以得到所述多个上下文声音采样窗波形特征向量。

在上述爬楼机的控制系统中，所述特征优化单元，用于：以如下优化公式对所述声音采样窗波形特征向量和所述上下文声音采样窗波形特征向量进行局部序列语义的片段式富化融合以得到所述优化上下文声音采样窗波形特征向量；其中，所述优化公式为：其中，/>是所述声音采样窗波形特征向量，是所述上下文声音采样窗波形特征向量，/>是所述上下文声音采样窗波形特征向量的转置向量 />为所述声音采样窗波形特征向量和所述上下文声音采样窗波形特征向量之间的距离矩阵，/>和/> 均为列向量，且/>是权重超参数，/>表示向量乘法，/>表示向量加法，/>是所述优化上下文声音采样窗波形特征向量。

在上述爬楼机的控制系统中，所述交互语音解码模块，用于：使用所述解码器以如下解码公式对所述语音编码特征向量进行解码回归以得到所述交互语音解码结果；其中，所述解码公式为：，其中，/>表示所述语音编码特征向量，/>表示所述交互语音解码结果，/>表示权重矩阵，/>表示偏置向量，/>表示矩阵乘。

第二方面，提供了一种爬楼机的控制方法，其包括：获取用户提供的爬楼机交互语音数据；对所述爬楼机交互语音数据进行基于采样窗的滑窗式采样以得到多个语音信号采样窗；分别对所述多个语音信号采样窗进行降噪处理以得到多个降噪后语音采样窗；将所述多个降噪后语音采样窗分别通过基于卷积神经网络模型的声音波形特征提取器以得到多个声音采样窗波形特征向量；将所述多个声音采样窗波形特征向量通过基于转换器的上下文编码器以得到语音编码特征向量；将所述语音编码特征向量通过解码器以得到交互语音解码结果；以及基于所述交互语音解码结果，生成爬楼机控制指令。

在上述爬楼机的控制方法中，将所述多个降噪后语音采样窗分别通过基于卷积神经网络模型的声音波形特征提取器以得到多个声音采样窗波形特征向量，包括：使用所述基于卷积神经网络模型的声音波形特征提取器的各层在层的正向传递中对输入数据分别进行卷积处理、池化处理和非线性激活处理以由所述基于卷积神经网络模型的声音波形特征提取器的最后一层的输出为所述多个声音采样窗波形特征向量，其中，所述基于卷积神经网络模型的声音波形特征提取器的第一层的输入为所述多个降噪后语音采样窗。

在上述爬楼机的控制方法中，将所述多个声音采样窗波形特征向量通过基于转换器的上下文编码器以得到语音编码特征向量，包括：将所述多个声音采样窗波形特征向量通过基于转换器的上下文编码器以得到多个上下文声音采样窗波形特征向量；融合所述多个声音采样窗波形特征向量和所述多个上下文声音采样窗波形特征向量以得到多个优化上下文声音采样窗波形特征向量；以及，将所述多个优化上下文声音采样窗波形特征向量进行级联以得到所述语音编码特征向量。

在上述爬楼机的控制方法中，将所述多个声音采样窗波形特征向量通过基于转换器的上下文编码器以得到多个上下文声音采样窗波形特征向量，包括：将所述多个声音采样窗波形特征向量进行一维排列以得到声音采样窗全局特征向量；计算所述声音采样窗全局特征向量与所述多个声音采样窗波形特征向量中各个声音采样窗波形特征向量的转置向量之间的乘积以得到多个自注意力关联矩阵；分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵；将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值；以及，分别以所述多个概率值中各个概率值作为权重对所述多个声音采样窗波形特征向量中各个声音采样窗波形特征向量进行加权以得到所述多个上下文声音采样窗波形特征向量。

与现有技术相比，本申请提供的爬楼机的控制系统及其方法，其获取用户提供的爬楼机交互语音数据；采用基于深度学习的人工智能技术，对用户提供的交互语音数据进行精准地语义识别和理解，让爬楼机能够准确理解用户的指令，并将指令转换为相应的控制信号。这样，可以基于用户的交互语义信息智能化地进行爬楼机的控制，从而优化用户与爬楼机的交互体验感。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本申请实施例的爬楼机的控制系统的应用场景图。

图2为根据本申请实施例的爬楼机的控制系统的框图。

图3为根据本申请实施例的爬楼机的控制系统中所述声音全局语义关联模块的框图。

图4为根据本申请实施例的爬楼机的控制系统中所述上下文编码单元的框图。

图5为根据本申请实施例的爬楼机的控制方法的流程图。

图6为根据本申请实施例的爬楼机的控制方法的系统架构的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

除非另有说明，本申请实施例所使用的所有技术和科学术语与本申请的技术领域的技术人员通常理解的含义相同。本申请中所使用的术语只是为了描述具体的实施例的目的，不是旨在限制本申请的范围。

在本申请实施例记载中，需要说明的是，除非另有说明和限定，术语“连接”应做广义理解，例如，可以是电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

需要说明的是，本申请实施例所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换，以使这里描述的本申请的实施例可以除了在这里图示或描述的那些以外的顺序实施。

如上所述，由于现有爬楼机控制系统的限制，它的智能化水平相对较低，用户操作不够便捷、精准，且容易受到外界环境音频干扰等因素的影响。具体来说，目前的爬楼机控制系统只能通过简单的语音指令进行控制，缺乏对于用户意图的深度理解，导致用户的指令不能被准确识别和执行，使得用户与爬楼机的交互体验不佳。因此，期望一种优化的爬楼机的控制系统。

相应地，考虑到在实际进行爬楼机的控制过程中，为了提高用户与爬楼机的交互体验感，关键在于对用户提供的交互语音数据进行精准地语义识别和理解。因此，在本申请的技术方案中，期望通过自然语言处理技术，让爬楼机能够准确理解用户的指令，并将指令转换为相应的控制信号，提高爬楼机的智能化水平。但是，由于用户提供的爬楼机交互语音数据中容易受到外界环境噪声的干扰而导致语义理解的精度较低，并且由于所述交互语音数据中存在有大量的语义信息，如何能够提高所述交互语音数据中关于用户的语义理解特征表达的充分性尤为关键。

近年来，深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、文本信号处理等领域。深度学习以及神经网络的发展为挖掘所述交互语音数据中关于用户的语义理解特征信息提供了新的解决思路和方案。

具体地，在本申请的技术方案中，首先，获取用户提供的爬楼机交互语音数据。接着，对所述爬楼机交互语音数据进行基于采样窗的滑窗式采样以得到多个语音信号采样窗，以此来将语音数据进行分段处理，使得每个采样窗内的语音信号具有一定长度，并且相邻采样窗之间存在一定重叠，从而更好地捕捉语音中的时间序列信息。应可以理解，通过这种方式分割语音信号可以避免因用户的语速、发音等多种因素而导致的采样误差，使得语音信号的特征更加明显，提高采样精度和可靠性。此外，由于在实际爬楼机的应用场景中，用户语音指令可能长度不一，采用基于采样窗的滑窗式采样能够有效满足不同长度指令的响应需求，提高系统的智能化水平。

然后，考虑到由于所述用户提供的爬楼机交互语音数据在传输和采集过程中，常常会受到环境噪声、电磁干扰等因素的影响，导致信号质量下降，从而使得后续对于用户提供的交互语音数据的语义理解精准度较低。因此，在本申请的技术方案中，进一步分别对所述多个语音信号采样窗进行降噪处理以得到多个降噪后语音采样窗，以此来去除用户的语音信号中的干扰噪声，从而提高用户提供的语音信号质量，使得后续的特征提取和解码等步骤更加准确可靠。也就是说，对用户的语音信号进行降噪处理可以提高语音信号的信噪比，减少误差和失真，从而提高爬楼机控制系统的准确性和可靠性。

接着，由于所述各个降噪后语音采样窗在时域中的表现形式为波形图，而卷积神经网络模型在图像的局部隐含特征提取方面具有优异的表现性能。因此，在本申请的技术方案中，进一步将所述多个降噪后语音采样窗分别通过基于卷积神经网络模型的声音波形特征提取器中进行特征挖掘，以提取出所述各个降噪后语音采样窗中关于所述交互语音数据的声音波形隐含特征分布信息，从而得到多个声音采样窗波形特征向量。

进一步地，考虑到所述各个降噪后语音采样窗中的声音波形特征之间具有着关于用户交互语音的语义理解关联关系，但是由于卷积运算的固有局限性，纯CNN的方法很难学习明确的全局和远程语义信息交互。因此，在本申请的技术方案中，进一步将所述多个声音采样窗波形特征向量通过基于转换器的上下文编码器中进行编码，以提取出所述各个降噪后语音采样窗中关于用户提供的交互语音数据的声音波形特征之间基于全局的上下文语义关联特征信息，即所述用户提供的爬楼机交互语音数据的全局语义理解特征信息，从而得到语音编码特征向量。

然后，将所述语音编码特征向量作为解码特征向量通过解码器中进行解码回归，以得到交互语音解码结果，也就是说，以所述用户提供的爬楼机交互语音数据的全局语义理解特征信息来进行解码，从而对于用户的交互语音进行语义理解，以此来生成爬楼机控制指令，以进行爬楼机的准确控制。

特别地，在本申请的技术方案中，每个所述声音采样窗波形特征向量表达单个降噪后语音采样窗的声音波形图像特征语义，这样，将所述多个声音采样窗波形特征向量通过基于转换器的上下文编码器，可以对所述声音波形图像特征语义进行基于采样窗的上下文关联特征编码。并且，为了充分利用所述声音波形图像特征语义及其上下文关联编码特征，优选地通过融合所述声音采样窗波形特征向量及其对应的上下文声音采样窗波形特征向量来优化所述上下文声音采样窗波形特征向量，从而提升所述上下文声音采样窗波形特征向量的表达效果。

进一步地，考虑到所述上下文声音采样窗波形特征向量对于所述声音采样窗波形特征向量的特征上下文关联表达效果，而所述声音采样窗波形特征向量表达特征值粒度的声音波形图像特征语义，因此期望提升所述声音采样窗波形特征向量及其对应的上下文声音采样窗波形特征向量之间的基于特征值的小粒度序列分布下的融合效果。

基于此，本申请的申请人对所述声音采样窗波形特征向量，例如记为及其对应的上下文声音采样窗波形特征向量，例如记为/>进行局部序列语义的片段式富化融合，以获得优化的上下文声音采样窗波形特征向量，例如记为/>，具体表示为：为特征向量/>和特征向量/>之间的距离矩阵，即/>，/>和/>均为列向量，且/>是权重超参数。

这里，所述局部序列语义的片段式富化融合基于序列的片段特征分布对序列的预定分布方向上的方向性语义的编码效果，来以序列片段之间的相似性嵌入作为用于序列间关联的重加权因数，从而对序列之间在各个片段级别（patch-level）的基于特征表象（feature appearance）的相似性进行捕获，实现了所述声音采样窗波形特征向量及其对应的上下文声音采样窗波形特征向量的局部片段级语义的富化式融合，从而提升了所述上下文声音采样窗波形特征向量的表达效果，也就提升了所述上下文声音采样窗波形特征向量级联得到的所述语音编码特征向量的表达效果。这样，能够基于用户的交互语义信息智能化地进行爬楼机的控制，从而优化用户与爬楼机的交互体验感。

图1为根据本申请实施例的爬楼机的控制系统的应用场景图。如图1所示，在该应用场景中，首先，获取用户提供的爬楼机交互语音数据（例如，如图1中所示意的C）；然后，将获取的爬楼机交互语音数据输入至部署有爬楼机的控制算法的服务器（例如，如图1中所示意的S）中，其中所述服务器能够基于爬楼机的控制算法对所述爬楼机交互语音数据进行处理，以基于所述交互语音解码结果，生成爬楼机控制指令。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

在本申请的一个实施例中，图2为根据本申请实施例的爬楼机的控制系统的框图。如图2所示，根据本申请实施例的爬楼机的控制系统100，包括：交互语音数据采集模块110，用于获取用户提供的爬楼机交互语音数据；采样模块120，用于对所述爬楼机交互语音数据进行基于采样窗的滑窗式采样以得到多个语音信号采样窗；降噪模块130，用于分别对所述多个语音信号采样窗进行降噪处理以得到多个降噪后语音采样窗；声音波形特征提取模块140，用于将所述多个降噪后语音采样窗分别通过基于卷积神经网络模型的声音波形特征提取器以得到多个声音采样窗波形特征向量；声音全局语义关联模块150，用于将所述多个声音采样窗波形特征向量通过基于转换器的上下文编码器以得到语音编码特征向量；交互语音解码模块160，用于将所述语音编码特征向量通过解码器以得到交互语音解码结果；以及,爬楼机控制模块170，用于基于所述交互语音解码结果，生成爬楼机控制指令。

具体地，在本申请实施例中，所述交互语音数据采集模块110，用于获取用户提供的爬楼机交互语音数据。如上所述，由于现有爬楼机控制系统的限制，它的智能化水平相对较低，用户操作不够便捷、精准，且容易受到外界环境音频干扰等因素的影响。具体来说，目前的爬楼机控制系统只能通过简单的语音指令进行控制，缺乏对于用户意图的深度理解，导致用户的指令不能被准确识别和执行，使得用户与爬楼机的交互体验不佳。因此，期望一种优化的爬楼机的控制系统。

具体地，在本申请的技术方案中，首先，获取用户提供的爬楼机交互语音数据。

具体地，在本申请实施例中，所述采样模块120，用于对所述爬楼机交互语音数据进行基于采样窗的滑窗式采样以得到多个语音信号采样窗。接着，对所述爬楼机交互语音数据进行基于采样窗的滑窗式采样以得到多个语音信号采样窗，以此来将语音数据进行分段处理，使得每个采样窗内的语音信号具有一定长度，并且相邻采样窗之间存在一定重叠，从而更好地捕捉语音中的时间序列信息。应可以理解，通过这种方式分割语音信号可以避免因用户的语速、发音等多种因素而导致的采样误差，使得语音信号的特征更加明显，提高采样精度和可靠性。此外，由于在实际爬楼机的应用场景中，用户语音指令可能长度不一，采用基于采样窗的滑窗式采样能够有效满足不同长度指令的响应需求，提高系统的智能化水平。

具体地，在本申请实施例中，所述降噪模块130，用于分别对所述多个语音信号采样窗进行降噪处理以得到多个降噪后语音采样窗。然后，考虑到由于所述用户提供的爬楼机交互语音数据在传输和采集过程中，常常会受到环境噪声、电磁干扰等因素的影响，导致信号质量下降，从而使得后续对于用户提供的交互语音数据的语义理解精准度较低。因此，在本申请的技术方案中，进一步分别对所述多个语音信号采样窗进行降噪处理以得到多个降噪后语音采样窗，以此来去除用户的语音信号中的干扰噪声，从而提高用户提供的语音信号质量，使得后续的特征提取和解码等步骤更加准确可靠。也就是说，对用户的语音信号进行降噪处理可以提高语音信号的信噪比，减少误差和失真，从而提高爬楼机控制系统的准确性和可靠性。

具体地，在本申请实施例中，所述声音波形特征提取模块140，用于将所述多个降噪后语音采样窗分别通过基于卷积神经网络模型的声音波形特征提取器以得到多个声音采样窗波形特征向量。接着，由于所述各个降噪后语音采样窗在时域中的表现形式为波形图，而卷积神经网络模型在图像的局部隐含特征提取方面具有优异的表现性能。因此，在本申请的技术方案中，进一步将所述多个降噪后语音采样窗分别通过基于卷积神经网络模型的声音波形特征提取器中进行特征挖掘，以提取出所述各个降噪后语音采样窗中关于所述交互语音数据的声音波形隐含特征分布信息，从而得到多个声音采样窗波形特征向量。

其中，所述声音波形特征提取模块140，用于：使用所述基于卷积神经网络模型的声音波形特征提取器的各层在层的正向传递中对输入数据分别进行卷积处理、池化处理和非线性激活处理以由所述基于卷积神经网络模型的声音波形特征提取器的最后一层的输出为所述多个声音采样窗波形特征向量，其中，所述基于卷积神经网络模型的声音波形特征提取器的第一层的输入为所述多个降噪后语音采样窗。

卷积神经网络(Convolutional Neural Network，CNN)是一种人工神经网络，在图像识别等领域有着广泛的应用。卷积神经网络可以包括输入层、隐藏层和输出层，其中，隐藏层可以包括卷积层、池化(pooling)层、激活层和全连接层等，上一层根据输入的数据进行相应的运算，将运算结果输出给下一层，输入的初始数据经过多层的运算之后得到一个最终的结果。

卷积神经网络模型利用卷积核作为特征过滤因子在图像局部特征提取方面具有非常优异的性能表现，且相较于传统的基于统计或者基于特征工程的图像特征提取算法，所述卷积神经网络模型具有更强的特征提取泛化能力和拟合能力。

具体地，在本申请实施例中，所述声音全局语义关联模块150，用于将所述多个声音采样窗波形特征向量通过基于转换器的上下文编码器以得到语音编码特征向量。进一步地，考虑到所述各个降噪后语音采样窗中的声音波形特征之间具有着关于用户交互语音的语义理解关联关系，但是由于卷积运算的固有局限性，纯CNN的方法很难学习明确的全局和远程语义信息交互。因此，在本申请的技术方案中，进一步将所述多个声音采样窗波形特征向量通过基于转换器的上下文编码器中进行编码，以提取出所述各个降噪后语音采样窗中关于用户提供的交互语音数据的声音波形特征之间基于全局的上下文语义关联特征信息，即所述用户提供的爬楼机交互语音数据的全局语义理解特征信息，从而得到语音编码特征向量。

图3为根据本申请实施例的爬楼机的控制系统中所述声音全局语义关联模块的框图，如图3所示，所述声音全局语义关联模块150，包括：上下文编码单元151，用于将所述多个声音采样窗波形特征向量通过基于转换器的上下文编码器以得到多个上下文声音采样窗波形特征向量；特征优化单元152，用于融合所述多个声音采样窗波形特征向量和所述多个上下文声音采样窗波形特征向量以得到多个优化上下文声音采样窗波形特征向量；以及，级联单元153，用于将所述多个优化上下文声音采样窗波形特征向量进行级联以得到所述语音编码特征向量。

图4为根据本申请实施例的爬楼机的控制系统中所述上下文编码单元的框图，如图4所示，所述上下文编码单元151，包括：向量构造子单元1511，用于将所述多个声音采样窗波形特征向量进行一维排列以得到声音采样窗全局特征向量；自注意子单元1512，用于计算所述声音采样窗全局特征向量与所述多个声音采样窗波形特征向量中各个声音采样窗波形特征向量的转置向量之间的乘积以得到多个自注意力关联矩阵；标准化子单元1513，用于分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵；关注度计算子单元1514，用于将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值；以及，注意力施加子单元1515，用于分别以所述多个概率值中各个概率值作为权重对所述多个声音采样窗波形特征向量中各个声音采样窗波形特征向量进行加权以得到所述多个上下文声音采样窗波形特征向量。

上下文编码器旨在挖掘得到词序列中上下文之间的隐藏模式，可选地，编码器包括：CNN(Convolutional Neural Network，卷积神经网络)、Recursive NN(RecursiveNeural Network，递归神经网络)、语言模型(Language Model)等。基于CNN的方法对于局部特征有比较好的提取效果，但其对于句子中的长程依赖(Long-termDependency)问题效果欠佳，因此基于Bi-LSTM(Long Short- Term Memory，长短期记忆网络)的编码器被广泛使用。Recursive NN把句子当作树状结构而非序列进行处理，从理论上而言具有更强的表示能力，但其存在样本标注难度大、深层易梯度消失、难以并行计算等弱点，因此在实际应用中使用较少。Transformer是应用广泛的网络结构了，同时具有CNN和RNN的特性，对于全局特征有较好的提取效果，同时相较于RNN(RecurrentNeural Network，循环神经网络)在并行计算上具有一定优势。

基于此，本申请的申请人对所述声音采样窗波形特征向量，例如记为及其对应的上下文声音采样窗波形特征向量，例如记为/>进行局部序列语义的片段式富化融合，以获得优化的上下文声音采样窗波形特征向量，例如记为/>，具体表示为：以如下优化公式对所述声音采样窗波形特征向量和所述上下文声音采样窗波形特征向量进行局部序列语义的片段式富化融合以得到所述优化上下文声音采样窗波形特征向量；其中，所述优化公式为：/>其中，/>是所述声音采样窗波形特征向量，/>是所述上下文声音采样窗波形特征向量，/>是所述上下文声音采样窗波形特征向量的转置向量 />为所述声音采样窗波形特征向量和所述上下文声音采样窗波形特征向量之间的距离矩阵，/>和/> 均为列向量，且/>是权重超参数，表示向量乘法，/>表示向量加法，/>是所述优化上下文声音采样窗波形特征向量。

具体地，在本申请实施例中，所述交互语音解码模块160和所述爬楼机控制模块170，用于将所述语音编码特征向量通过解码器以得到交互语音解码结果；以及，用于基于所述交互语音解码结果，生成爬楼机控制指令。然后，将所述语音编码特征向量作为解码特征向量通过解码器中进行解码回归，以得到交互语音解码结果，也就是说，以所述用户提供的爬楼机交互语音数据的全局语义理解特征信息来进行解码，从而对于用户的交互语音进行语义理解，以此来生成爬楼机控制指令，以进行爬楼机的准确控制。

其中，所述交互语音解码模块160，用于：使用所述解码器以如下解码公式对所述语音编码特征向量进行解码回归以得到所述交互语音解码结果；其中，所述解码公式为：，其中，/>表示所述语音编码特征向量，/>表示所述交互语音解码结果，/>表示权重矩阵，/>表示偏置向量，/>表示矩阵乘。

综上，基于本申请实施例的爬楼机的控制系统100被阐明，其获取用户提供的爬楼机交互语音数据；采用基于深度学习的人工智能技术，对用户提供的交互语音数据进行精准地语义识别和理解，让爬楼机能够准确理解用户的指令，并将指令转换为相应的控制信号。这样，可以基于用户的交互语义信息智能化地进行爬楼机的控制，从而优化用户与爬楼机的交互体验感。

如上所述，根据本申请实施例的爬楼机的控制系统100可以实现在各种终端设备中，例如用于爬楼机的控制的服务器等。在一个示例中，根据本申请实施例的爬楼机的控制系统100可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该爬楼机的控制系统100可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该爬楼机的控制系统100同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该爬楼机的控制系统100与该终端设备也可以是分立的设备，并且该爬楼机的控制系统100可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

在本申请的一个实施例中，图5为根据本申请实施例的爬楼机的控制方法的流程图。如图5所示，根据本申请实施例的爬楼机的控制方法，其包括：210，获取用户提供的爬楼机交互语音数据；220，对所述爬楼机交互语音数据进行基于采样窗的滑窗式采样以得到多个语音信号采样窗；230，分别对所述多个语音信号采样窗进行降噪处理以得到多个降噪后语音采样窗；240，将所述多个降噪后语音采样窗分别通过基于卷积神经网络模型的声音波形特征提取器以得到多个声音采样窗波形特征向量；250，将所述多个声音采样窗波形特征向量通过基于转换器的上下文编码器以得到语音编码特征向量；260，将所述语音编码特征向量通过解码器以得到交互语音解码结果；以及，270，基于所述交互语音解码结果，生成爬楼机控制指令。

图6为根据本申请实施例的爬楼机的控制方法的系统架构的示意图。如图6所示，在所述爬楼机的控制方法的系统架构中，首先，获取用户提供的爬楼机交互语音数据；然后，对所述爬楼机交互语音数据进行基于采样窗的滑窗式采样以得到多个语音信号采样窗；接着，分别对所述多个语音信号采样窗进行降噪处理以得到多个降噪后语音采样窗；然后，将所述多个降噪后语音采样窗分别通过基于卷积神经网络模型的声音波形特征提取器以得到多个声音采样窗波形特征向量；接着，将所述多个声音采样窗波形特征向量通过基于转换器的上下文编码器以得到语音编码特征向量；然后，将所述语音编码特征向量通过解码器以得到交互语音解码结果；以及，最后，基于所述交互语音解码结果，生成爬楼机控制指令。

在一个具体示例中，在上述爬楼机的控制方法中，将所述多个降噪后语音采样窗分别通过基于卷积神经网络模型的声音波形特征提取器以得到多个声音采样窗波形特征向量，包括：使用所述基于卷积神经网络模型的声音波形特征提取器的各层在层的正向传递中对输入数据分别进行卷积处理、池化处理和非线性激活处理以由所述基于卷积神经网络模型的声音波形特征提取器的最后一层的输出为所述多个声音采样窗波形特征向量，其中，所述基于卷积神经网络模型的声音波形特征提取器的第一层的输入为所述多个降噪后语音采样窗。

在一个具体示例中，在上述爬楼机的控制方法中，将所述多个声音采样窗波形特征向量通过基于转换器的上下文编码器以得到语音编码特征向量，包括：将所述多个声音采样窗波形特征向量通过基于转换器的上下文编码器以得到多个上下文声音采样窗波形特征向量；融合所述多个声音采样窗波形特征向量和所述多个上下文声音采样窗波形特征向量以得到多个优化上下文声音采样窗波形特征向量；以及，将所述多个优化上下文声音采样窗波形特征向量进行级联以得到所述语音编码特征向量。

在一个具体示例中，在上述爬楼机的控制方法中，将所述多个声音采样窗波形特征向量通过基于转换器的上下文编码器以得到多个上下文声音采样窗波形特征向量，包括：将所述多个声音采样窗波形特征向量进行一维排列以得到声音采样窗全局特征向量；计算所述声音采样窗全局特征向量与所述多个声音采样窗波形特征向量中各个声音采样窗波形特征向量的转置向量之间的乘积以得到多个自注意力关联矩阵；分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵；将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值；以及，分别以所述多个概率值中各个概率值作为权重对所述多个声音采样窗波形特征向量中各个声音采样窗波形特征向量进行加权以得到所述多个上下文声音采样窗波形特征向量。

在一个具体示例中，在上述爬楼机的控制方法中，融合所述多个声音采样窗波形特征向量和所述多个上下文声音采样窗波形特征向量以得到多个优化上下文声音采样窗波形特征向量，包括：以如下优化公式对所述声音采样窗波形特征向量和所述上下文声音采样窗波形特征向量进行局部序列语义的片段式富化融合以得到所述优化上下文声音采样窗波形特征向量；其中，所述优化公式为：其中，/>是所述声音采样窗波形特征向量，/>是所述上下文声音采样窗波形特征向量，是所述上下文声音采样窗波形特征向量的转置向量 />为所述声音采样窗波形特征向量和所述上下文声音采样窗波形特征向量之间的距离矩阵，/>和/> 均为列向量，且/>是权重超参数，/>表示向量乘法，/>表示向量加法，/>是所述优化上下文声音采样窗波形特征向量。

在一个具体示例中，在上述爬楼机的控制方法中，将所述语音编码特征向量通过解码器以得到交互语音解码结果，包括：使用所述解码器以如下解码公式对所述语音编码特征向量进行解码回归以得到所述交互语音解码结果；其中，所述解码公式为：，其中，/>表示所述语音编码特征向量，/>表示所述交互语音解码结果，/>表示权重矩阵，/>表示偏置向量，/>表示矩阵乘。

本领域技术人员可以理解，上述爬楼机的控制方法中的各个步骤的具体操作已经在上面参考图1到图4的爬楼机的控制系统的描述中得到了详细介绍，并因此，将省略其重复描述。

本申请还提供了一种计算机程序产品，所述计算机程序产品包括指令，当所述指令被执行时，以使得装置执行对应于上述方法中的操作。

在本申请的一个实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述所述方法的计算机程序。

应可以理解，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等) 上实施的计算机程序产品的形式。

本申请实施例的方法、系统、和计算机程序产品的流程图和/或框图来描述的。应理解可由计算机程序指令实现流程图和/或框图中的每一流程和/或方框、以及流程图和/或框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或框图一个方框或多个方框中指定的功能的步骤。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种爬楼机的控制系统，其特征在于，包括：交互语音数据采集模块，用于获取用户提供的爬楼机交互语音数据；采样模块，用于对所述爬楼机交互语音数据进行基于采样窗的滑窗式采样以得到多个语音信号采样窗；降噪模块，用于分别对所述多个语音信号采样窗进行降噪处理以得到多个降噪后语音采样窗；声音波形特征提取模块，用于将所述多个降噪后语音采样窗分别通过基于卷积神经网络模型的声音波形特征提取器以得到多个声音采样窗波形特征向量；声音全局语义关联模块，用于将所述多个声音采样窗波形特征向量通过基于转换器的上下文编码器以得到语音编码特征向量；交互语音解码模块，用于将所述语音编码特征向量通过解码器以得到交互语音解码结果；以及爬楼机控制模块，用于基于所述交互语音解码结果，生成爬楼机控制指令。

2.根据权利要求1所述的爬楼机的控制系统，其特征在于，所述声音波形特征提取模块，用于：使用所述基于卷积神经网络模型的声音波形特征提取器的各层在层的正向传递中对输入数据分别进行卷积处理、池化处理和非线性激活处理以由所述基于卷积神经网络模型的声音波形特征提取器的最后一层的输出为所述多个声音采样窗波形特征向量，其中，所述基于卷积神经网络模型的声音波形特征提取器的第一层的输入为所述多个降噪后语音采样窗。

3.根据权利要求2所述的爬楼机的控制系统，其特征在于，所述声音全局语义关联模块，包括：上下文编码单元，用于将所述多个声音采样窗波形特征向量通过基于转换器的上下文编码器以得到多个上下文声音采样窗波形特征向量；特征优化单元，用于融合所述多个声音采样窗波形特征向量和所述多个上下文声音采样窗波形特征向量以得到多个优化上下文声音采样窗波形特征向量；以及级联单元，用于将所述多个优化上下文声音采样窗波形特征向量进行级联以得到所述语音编码特征向量。

4.根据权利要求3所述的爬楼机的控制系统，其特征在于，所述上下文编码单元，包括：向量构造子单元，用于将所述多个声音采样窗波形特征向量进行一维排列以得到声音采样窗全局特征向量；自注意子单元，用于计算所述声音采样窗全局特征向量与所述多个声音采样窗波形特征向量中各个声音采样窗波形特征向量的转置向量之间的乘积以得到多个自注意力关联矩阵；标准化子单元，用于分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵；关注度计算子单元，用于将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值；以及注意力施加子单元，用于分别以所述多个概率值中各个概率值作为权重对所述多个声音采样窗波形特征向量中各个声音采样窗波形特征向量进行加权以得到所述多个上下文声音采样窗波形特征向量。

5.根据权利要求4所述的爬楼机的控制系统，其特征在于，所述特征优化单元，用于：以如下优化公式对所述声音采样窗波形特征向量和所述上下文声音采样窗波形特征向量进行局部序列语义的片段式富化融合以得到所述优化上下文声音采样窗波形特征向量；其中，所述优化公式为：其中，/>是所述声音采样窗波形特征向量，/>是所述上下文声音采样窗波形特征向量，/>是所述上下文声音采样窗波形特征向量的转置向量 />为所述声音采样窗波形特征向量和所述上下文声音采样窗波形特征向量之间的距离矩阵，/>和/> 均为列向量，且/>是权重超参数，/>表示向量乘法，/>表示向量加法，/>是所述优化上下文声音采样窗波形特征向量。

6.根据权利要求5所述的爬楼机的控制系统，其特征在于，所述交互语音解码模块，用于：使用所述解码器以如下解码公式对所述语音编码特征向量进行解码回归以得到所述交互语音解码结果；其中，所述解码公式为：，其中，/>表示所述语音编码特征向量，/>表示所述交互语音解码结果，/>表示权重矩阵，/>表示偏置向量，表示矩阵乘。

7.一种爬楼机的控制方法，其特征在于，包括：获取用户提供的爬楼机交互语音数据；对所述爬楼机交互语音数据进行基于采样窗的滑窗式采样以得到多个语音信号采样窗；分别对所述多个语音信号采样窗进行降噪处理以得到多个降噪后语音采样窗；将所述多个降噪后语音采样窗分别通过基于卷积神经网络模型的声音波形特征提取器以得到多个声音采样窗波形特征向量；将所述多个声音采样窗波形特征向量通过基于转换器的上下文编码器以得到语音编码特征向量；将所述语音编码特征向量通过解码器以得到交互语音解码结果；以及基于所述交互语音解码结果，生成爬楼机控制指令。

8.根据权利要求7所述的爬楼机的控制方法，其特征在于，将所述多个降噪后语音采样窗分别通过基于卷积神经网络模型的声音波形特征提取器以得到多个声音采样窗波形特征向量，包括：使用所述基于卷积神经网络模型的声音波形特征提取器的各层在层的正向传递中对输入数据分别进行卷积处理、池化处理和非线性激活处理以由所述基于卷积神经网络模型的声音波形特征提取器的最后一层的输出为所述多个声音采样窗波形特征向量，其中，所述基于卷积神经网络模型的声音波形特征提取器的第一层的输入为所述多个降噪后语音采样窗。

9.根据权利要求8所述的爬楼机的控制方法，其特征在于，将所述多个声音采样窗波形特征向量通过基于转换器的上下文编码器以得到语音编码特征向量，包括：将所述多个声音采样窗波形特征向量通过基于转换器的上下文编码器以得到多个上下文声音采样窗波形特征向量；融合所述多个声音采样窗波形特征向量和所述多个上下文声音采样窗波形特征向量以得到多个优化上下文声音采样窗波形特征向量；以及将所述多个优化上下文声音采样窗波形特征向量进行级联以得到所述语音编码特征向量。

10.根据权利要求9所述的爬楼机的控制方法，其特征在于，将所述多个声音采样窗波形特征向量通过基于转换器的上下文编码器以得到多个上下文声音采样窗波形特征向量，包括：将所述多个声音采样窗波形特征向量进行一维排列以得到声音采样窗全局特征向量；计算所述声音采样窗全局特征向量与所述多个声音采样窗波形特征向量中各个声音采样窗波形特征向量的转置向量之间的乘积以得到多个自注意力关联矩阵；分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵；将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值；以及分别以所述多个概率值中各个概率值作为权重对所述多个声音采样窗波形特征向量中各个声音采样窗波形特征向量进行加权以得到所述多个上下文声音采样窗波形特征向量。