CN111807173A

CN111807173A - 基于深度学习的电梯控制方法、电子设备及存储介质

Info

Publication number: CN111807173A
Application number: CN202010561476.8A
Authority: CN
Inventors: 李建超
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2020-10-23

Abstract

本申请公开了一种基于深度学习的电梯控制方法、电子设备及存储介质。该方法包括：获取乘客通过语音输入的控制指令；将语音转换为时频图像；将时频图像输入语音识别网络，以得到时频图像的识别结果；根据时频图像的识别结果来控制电梯运行。通过上述方式，本申请能够自动控制电梯运行。

Description

基于深度学习的电梯控制方法、电子设备及存储介质

技术领域

本申请涉及数据处理领域，特别是涉及一种基于深度学习的电梯控制方法、电子设备及存储介质。

背景技术

日常生活中，当想要乘坐电梯时，往往需要手动触发电梯按钮来控制电梯运行，这会为乘客带来很多困扰。例如，乘客手没空、当前乘客较多时、乘客为儿童或残疾人时不方便用手触发电梯按钮，或者病毒肆虐传播，如果用手按电梯按钮会无意间使得细菌病毒传播，出现交叉感染的情况。因此，现有技术中控制电梯运行的方式不够完善。

发明内容

本申请提供一种基于深度学习的电梯控制方法、电子设备及存储介质，能够解决现有技术中控制电梯运行的方式不够完善的问题。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种基于深度学习的电梯控制方法，该方法包括：获取乘客通过语音输入的控制指令；将语音转换为时频图像；将时频图像输入语音识别网络，以得到时频图像的识别结果；根据所述时频图像的识别结果来控制电梯运行。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种电子设备，该电子设备设备包括处理器、与处理器连接的存储器，其中，存储器存储有程序指令，处理器用于执行存储器存储的程序指令以实现前述的方法。

为解决上述技术问题，本申请采用的再一个技术方案是：提供一种存储介质，存储有程序指令，程序指令被执行时可以实现前述的方法。

本申请的有益效果是：在接收到乘客通过语音输入的控制指令后，可以先将该语音转换成时频图像，用语音识别网络对该时频图像进行识别，识别结果为成功时代表该乘客通过了语音验证，具有乘坐当前电梯的权限，因此执行该控制指令，以控制电梯运行，从而能够在乘客无需手动接触电梯按钮的情况下满足其乘坐电梯的需求。

附图说明

图1是本申请基于深度学习的电梯控制方法方法第一实施例的流程示意图；

图2是本申请语音识别网络训练方法一实施例的流程示意图；

图3是本申请语音识别网络一实施例的结构示意图；

图4是本申请基于深度学习的电梯控制方法方法第二实施例的流程示意图；

图5是本申请人脸识别模块一实施例的结构示意图；

图6是本申请人脸识别模块训练方法的流程示意图；

图7是本申请人脸识别网络一实施例的结构示意图；

图8是本申请基于深度学习的电梯控制方法方法第三实施例的流程示意图；

图9是本申请电子设备一实施例的结构示意图；

图10是本申请存储介质一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，在不冲突的情况下，本文所描述的实施例可以与其它实施例相结合。

当乘客想要乘坐电梯时，往往需要通过手指触发电梯按钮来控制电梯运行，或者在通过手指触发电梯按钮之前，需要乘客用刷卡的方式进行身份验证，在乘客身份验证通过之后，才能成功触发电梯按钮。例如，乘客在电梯厢外时，通过手指触发电梯口墙上的乘坐方向按钮控制电梯厢门打开，在进入电梯厢内后，通过刷卡的方式进行身份验证，在乘客身份验证成功后，可通过手指触发电梯厢内的楼层号按钮，以使电梯运行至想要去的楼层。

但是，当乘客想要乘坐电梯，但是又不方便用手触发电梯按钮，或者忘记带卡、卡丢失、盗刷卡等无法进行有效的身份验证时，无法成功乘坐电梯。为了解决上述问题，本申请提供了一种基于深度学习的电梯控制方法，具体如下：

图1是本申请基于深度学习的电梯控制方法方法第一实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图1所示的流程顺序为限。如图1所示，本实施例可以包括：

S110：获取乘客通过语音输入的控制指令。

可利用语音采集装置采集乘客通过语音输入的控制指令。其中，该语音采集装置可以设置在电梯等候口墙上、电梯厢内等位置，该控制指令可以为控制电梯运行的指令，收到该控制指令后可以给出反馈，例如控制电梯按钮(楼层号按钮、方向按钮等)亮起。当乘客有乘坐电梯的需求时，可通过语音输入该控制指令。

其中，设置在电梯等候口墙上的语音采集装置采集到的控制指令可以为乘客在电梯厢外输入的控制指令。在一些具体实施方式中，乘客在电梯厢外输入的控制指令可以为带有运行方向(上、下)的指令，例如“上行、上楼、上”、“下行、下楼、下”等。当然，也可以为带有楼层号的指令，例如“8、8层”等。

设置在电梯厢内的语音采集装置采集到的控制指令可以为乘客在电梯厢内输入的控制指令，其中带有楼层号等信息，收到该控制指令后可以给出反馈，例如控制电梯厢内楼层号按钮亮起，以控制电梯运行至指定楼层，该指定楼层可以为乘客想要去的楼层。

S120：将语音转换为时频图像。

可将接收到的语音转换时频图像，具体可通过傅里叶变换等时频分析方式将该语音转换为时频图像。

S130：将时频图像输入语音识别网络，以得到时频图像的识别结果。

语音识别网络可以为训练好的深度学习网络，其可以对输入的时频图像进行识别，并将该时频图像的识别结果输出。其中，时频图像的识别结果可以为该时频图像的类别概率。该类别概率可以为时频图像属于多类预设时频图像中某一类的概率。其中，每类预设时频图像中可以为包括同一个有权限乘坐电梯的乘客语音对应的时频图像，每一类预设时频图像中至少包括一帧时频图像。

S140：根据时频图像的识别结果来控制电梯运行。

当时频图像的类别概率大于预设阈值，则认为时频图像的识别结果为成功，即认为该乘客通过了语音验证，具有乘坐电梯的权限，因此执行乘客通过语音输入的控制指令，以控制电梯运行。此外，在识别结果为成功时还可以发出提醒消息，以提醒乘客身份验证成功。

在一具体实施方式中，当在电梯厢外输入的控制指令带有运行方向时，收到该控制指令后可以给出反馈，例如控制电梯等候口墙上的方向按钮亮起，以使电梯在当前楼层停靠，使乘客能够进入电梯。此外，系统还可以记录乘客的常去楼层号，或者保存预先为每个乘客设定的楼层号，在乘客进入电梯后，收到该控制指令后可以给出反馈，例如控制厢内乘客对应楼层号按钮亮起，进而控制电梯运行至对应楼层。当乘客常去的或者预先设置的楼层号有多个时，需要乘客进行下一步指示来控制电梯运行至乘客想要去的楼层。

在另一具体实施方式中，当在电梯厢外输入的控制指令带有楼层号时，收到该控制指令后可以给出反馈，例如控制电梯等候口墙上对应该楼层号的方向按钮亮起，以使电梯在当前楼层停靠，使乘客能够进入电梯，并且在乘客进入厢内后控制楼层号按钮亮起，控制电梯运行至对应楼层。例如，乘客输入的控制指令为“8”，而乘客当前所在楼层为2，可控制上行方向按钮亮起，待乘客进入厢内后，控制厢内楼层号按钮“8”亮起，以承载乘客至8楼。

上述实施例的实施，本申请在接收到乘客通过语音输入的控制指令后，可以先将该语音转换成时频图像，用语音识别网络对该时频图像进行识别，识别结果为成功时代表该乘客通过了语音验证，具有乘坐当前电梯的权限，因此执行该控制指令，以控制电梯运行，从而能够在乘客无需手动接触电梯按钮的情况下满足其乘坐电梯的需求。

上述第一实施例中，可以进一步包括步骤：训练语音识别网络。

参阅图2，训练语音识别网络可以包括以下子步骤：

S210：获取语音训练集。

可选地，语音训练集中包括多帧语音对应的时频图像。

S220：将语音训练集输入语音识别网络，以得到第二损失值。

参阅图3，在本申请一具体实施例中，语音识别网络可以包括卷积层，池化层，全连接层，第二损失层。其中，一个卷积层和一个池化层可以构成一个语音识别子结构，语音识别网络可以包含多个(例如12个)串联的语音识别子结构，并且，语音识别网络的最后两层分别可以为语音分类层和第二损失层，语音分类层可以输出语音对应时频图像的类别以及属于该类别的概率，维度对应最终的识别类别数，损失函数层使用的损失函数可以为softmax损失函数，其可以输出语音对应时频图像的分类损失，即第二损失值。

S230：根据第二损失值调整语音识别网络的参数。

通过第二损失层输出的第二损失值来调整语音识别网络的参数，可以不断优化语音识别网络的参数，使得语音识别网络的识别结果更加准确。当第二损失值收敛或者小于预设阈值时，可停止对该语音识别网络的训练。

其中，训练语音识别网络可以在S110-S130中任一步骤之前执行，在此不作具体限定。

图4是本申请基于深度学习的电梯控制方法方法第二实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图4所示的流程顺序为限。如图4所示，为了进一步提高乘客身份验证的准确性，在上述S110之前，本实施例还可以包括：

S310：获取乘客图像。

电梯厢内可以设置有图像采集装置，该图像采集装置可以为具有图像采集功能的装置，例如摄像头等，其可以采集电梯厢内的乘客图像。其中，图像采集装置在电梯厢内的位置可以根据实际情况设定，比如设置在便于采集乘客头像的位置，从而能够在乘客进入电梯厢内后直接对其进行图像采集。当然，也可以在乘客进入电梯厢内后提示其对准图像采集装置，以使图像采集装置能够对乘客图像进行有效采集。

S320：将乘客图像输入人脸识别模块，以得到乘客图像的人脸特征。

参阅图5，本申请中，人脸识别模块可以包括识别单元。其中，识别单元可以用于提取乘客图像的人脸特征。

S330：将人脸特征与预存的多个人脸特征进行匹配。

继续参阅图5，人脸识别模块还可以包括分类单元。其中，分类单元可以用于对乘客图像的人脸特征进行分类。具体而言，分类单元可以计算人脸特征与预存的多个人脸特征之间的相似度以得到目标特征，其中，该目标特征可以为与乘客图像的人脸特征之间的相似度最高的预存的人脸特征。另外，分类单元还可以用于判断目标特征与人脸特征之间的相似度是否大于相似度阈值，以得到人脸特征的匹配结果。其中，相似度可以为余弦相似度。

S340：判断是否匹配成功。

当目标特征与人脸特征之间的相似度大于相似度阈值，则可以认为人脸特征与预设的人脸特征匹配，即人脸特征与预存的多个人脸特征的匹配结果为匹配成功，乘客通过了人脸图像验证。例如，设定的相似度阈值为0.7，若目标特征与人脸特征之间的相似度大于0.7，则判定人脸特征与目标特征匹配，该人脸特征对应乘客通过了人脸图像验证。

若匹配成功，则执行S350，否则不执行S350。

S350：获取乘客通过语音输入的控制指令。

在乘客通过人脸图像验证后，再进一步获取乘客通过语音输入的控制指令，并通过语音识别网络对该语音进行验证，在通过语音验证后才执行控制指令，以控制电梯运行。其中，语音识别的详细描述请参见上述实施例，在此不再重复。

在一具体实施方式中，上述人脸识别模块的识别单元可以为人脸识别网络，该人脸识别网络可以为训练好的、可进行人脸识别的深度学习网络。在使用该人脸识别网络之前，可以对其进行训练。参阅图6，训练人脸识别网络可以包括：

S410：获取图像训练集。

其中，图像训练集中包括多张人脸图像。并且每张人脸图像带有类别标签。

S420：将图像训练集输入人脸识别网络，以得到第一损失值。

参阅图7，在本申请一具体实施方式中，人脸识别网络可以包括卷积层，全局逐深度卷积层，采样层，全连接层，第一损失层。

其中，一个卷积层、一个全局逐深度卷积层和一个卷积层可以构成一个人脸识别子结构，人脸识别网络可以包含多个(例如14个)串联的人脸识别子结构。并且人脸识别网络的最后三层分别可以为人脸特征层、人脸分类层和第一损失层。人脸特征层可以用于提取人脸图像的人脸特征，并以提取到的人脸特征作为输出。人脸分类层可以用于对人脸特征进行分类，并以人脸特征的类别作为输出。第一损失层可以用于计算人脸识别网络的分类损失，即第一损失值，并以第一损失值作为输出。其中，人脸识别网络的分类损失可以为图像训练集中人脸图像带有的类别标签与分类结果之间的综合损失。

其中，第一损失层输出的第一损失值的计算公式如下：

其中，L_i表示第i张所述人脸图像的第一损失值，x_i∈R^d表示第i张所述人脸图像的人脸特征，y_i表示第i张所述人脸图像的类别标签，W_j表示所述人脸特征层与所述人脸分类层之间的权重的第j列，b_i表示偏置项，n表示所述图像训练集中所述人脸图像的类别数，m表示决策边缘。

S430：根据第一损失值调整人脸识别网络的参数。

通过第一损失值调整人脸识别网络的参数可以不断优化人脸识别网络，使其在使用过程中提取到的人脸特征更加有效。

通过本实施例的实施，本申请先采集乘客图像，用人脸识别模块对乘客图像进行验证，当图像验证通过后才进一步接收到乘客通过语音输入的控制指令，并且用人脸识别模块对该语音进行验证，语音验证通过后才执行该控制指令，以控制电梯运行，从而能够在乘客无需手动接触电梯按钮的情况下满足其乘坐电梯的需求的同时，提高乘客身份验证的准确性。

图8是本申请基于深度学习的电梯控制方法方法第三实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图8所示的流程顺序为限。如图8所示，在上述S140之前，本实施例还可以包括：

S510：获取乘客图像。

S520：将乘客图像输入人脸识别模块，以得到乘客图像的人脸特征。将人脸特征与预存的多个人脸特征进行匹配。

S530：判断是否匹配成功。

若匹配成功，则执行S540，否则不执行S540。

S540：根据时频图像的识别结果来控制电梯运行。

本实施例中S510-S540详细描述请参见前面的实施例，在此不再重复。另外，本实施例中对乘客进行图像验证和语音验证的顺序不作限定。

在一具体应用场景中，先对电梯厢内的乘客进行语音验证，在其语音验证通过后，再对其进行图像验证，并在图像验证也通过时执行该语音控制指令。

在另一具体应用场景中，同时对乘客进行图像、语音验证，在图像、语音验证均通过后执行语音控制指令。其中，当控制指令中并未带有楼层号信息时，可根据预存信息或者历史乘坐记录亮起电梯内的楼层号按钮，以控制电梯运行至对应楼层。当预存信息或者历史乘坐记录中带有多个楼层号信息时，需乘客通过语音或手势等方式作出下一步指示。

在又一具体应用场景中，可先对乘客进行图像验证，在图像验证成功后，可根据预存信息或者历史乘坐记录直接亮起电梯内该乘客对应的楼层号按钮，以将乘客承载至对应楼层。当该乘客对应的楼层号按钮有多个时，需等待乘客进一步输入语音控制指令，并在该语音验证通过后执行该指令，将乘客承载至对应楼层。

当然，本申请实施例应用并不限于以上场景，也可以应用于其他场景。

通过本实施例的实施，本申请通过在控制电梯运行前，利用语音识别网络和人脸识别模块分别对乘客身份进行验证，在乘客身份通过语音识别网络和人脸识别模块的验证后，再执行乘客通过语音输入的控制指令，以控制电梯运行，从而能够在乘客无需手动接触电梯按钮的情况下满足其乘坐电梯的需求的同时，提高乘客身份验证的准确性。

图9是本申请电子设备一实施例的结构示意图。如图9所示，该电子设备包括处理器610、与处理器耦接的存储器620。

其中，存储器620存储有用于实现上述任一实施例的方法的程序指令；处理器610用于执行存储器620存储的程序指令以实现上述方法实施例的步骤。其中，处理器610还可以称为CPU(Central Processing Unit，中央处理单元)。处理器610可能是一种集成电路芯片，具有信号的处理能力。处理器610还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

图10是本申请存储介质一实施例的结构示意图。本申请实施例的存储介质700存储有程序指令710，该程序指令710被执行时实现本申请上述实施例提供的方法。其中，该程序指令710可以形成程序文件以软件产品的形式存储在上述存储介质700中，以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质700包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于深度学习的电梯控制方法，其特征在于，包括：

获取乘客通过语音输入的控制指令；

将所述语音转换为时频图像；

将所述时频图像输入语音识别网络，以得到所述时频图像的识别结果；

根据所述时频图像的识别结果来控制电梯运行。

2.根据权利要求1所述的方法，其特征在于，获取乘客通过语音输入的控制指令之前，所述方法包括：

获取乘客图像；

将所述乘客图像输入人脸识别模块，以得到所述乘客图像的人脸特征；

将所述人脸特征与预存的多个人脸特征进行匹配；

若匹配成功，则执行所述获取乘客通过语音输入的控制指令的步骤；

若未匹配成功，则不执行所述获取乘客通过语音输入的控制指令的步骤。

3.根据权利要求1所述的方法，其特征在于，所述根据所述时频图像的识别结果来控制电梯运行之前，所述方法包括：

获取乘客图像；

将所述人脸特征与预存的多个人脸特征进行匹配；

若匹配成功，则执行所述根据所述时频图像的识别结果来控制电梯运行的步骤；

若未匹配成功，则不执行所述根据所述时频图像的识别结果来控制电梯运行的步骤。

4.根据权利要求2或3所述的方法，其特征在于，所述人脸识别模块包括：

识别单元，用于提取所述乘客图像的人脸特征；

分类单元，用于计算所述人脸特征与预存的多个人脸特征之间的相似度以得到目标特征，还用于判断所述目标特征与所述人脸特征之间的所述相似度是否大于相似度阈值，以得到所述人脸特征的匹配结果，其中所述目标特征为与所述人脸特征之间的所述相似度最高的所述预设的人脸特征。

5.根据权利要求4所述的方法，其特征在于，所述识别单元为人脸识别网络，所述方法进一步包括：

训练所述人脸识别网络。

6.根据权利要求5所述的方法，其特征在于，所述训练所述人脸识别网络包括：

获取所述图像训练集，所述图像训练集中包括多张人脸图像；

将所述图像训练集输入所述人脸识别网络，以得到第一损失值；

根据所述第一损失值调整所述人脸识别网络的参数。

7.根据权利要求6所述的方法，其特征在于，所述人脸识别网络包括人脸特征层、人脸分类层和第一损失层，

人脸特征层用于提取所述人脸图像的人脸特征，人脸分类层用于对所述人脸特征进行分类，所述第一损失层用于计算所述第一损失值，其中，所述第一损失值的计算公式如下：

8.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：

训练所述语音识别网络。

9.根据权利要求8所述的方法，其特征在于，所述训练所述语音识别网络包括：

获取语音训练集，所述语音训练集中包括多帧所述语音对应的时频图像；

将所述语音训练集输入所述语音识别网络，以得到第二损失值；

根据所述第二损失值调整所述语音识别网络的参数。

10.一种电子设备，其特征在于，包括处理器、与所述处理器连接的存储器，其中，

所述存储器存储有程序指令；

所述处理器用于执行所述存储器存储的所述程序指令以实现权利要求1-9中任一项所述的方法。

11.一种存储介质，其特征在于，所述存储介质存储程序指令，所述程序指令被执行时实现如权利要求1-9中任一项所述的方法。