CN114333821A

CN114333821A - 电梯控制方法、装置、电子设备、存储介质及产品

Info

Publication number: CN114333821A
Application number: CN202111657516.XA
Authority: CN
Inventors: 郭震; 陈孝良
Original assignee: Shandong Shengzhi Wulian Technology Co ltd
Current assignee: Shandong Shengzhi Wulian Technology Co ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-12

Abstract

本申请提供了一种电梯控制方法、装置、电子设备、存储介质及产品，属于语音识别技术领域。方法包括：获取语音信号，语音信号用于控制电梯；确定语音信号对应的第一控制参数，第一控制参数用于表示语音信号是命令词的概率；确定语音信号对应的第二控制参数，第二控制参数用于表示语音信号对应的文本信息与命令词对应的文本信息匹配的概率；基于第一控制参数和第二控制参数，对电梯进行控制。该方法基于第一控制参数和第二控制参数来控制电梯，实现了基于对语音信号的两种识别结果来控制电梯，从而提高了基于语音控制电梯的准确性。

Description

电梯控制方法、装置、电子设备、存储介质及产品

技术领域

本申请涉及语音识别技术领域，特别涉及一种电梯控制方法、装置、电子设备、存储介质及产品。

背景技术

在电梯这种使用频率极高、使用人群复杂且人口密度较高的场景，通过语音交互的方式来控制电梯，相比于传统的点击电梯按钮来控制电梯的方式而言，避免了接触电梯按钮而被病毒感染的风险，具有卫生、安全且高效等优势。因此，如何基于语音控制电梯已经成为本领域的研究热点。

相关技术中，一般通过声学模型来实现对电梯的语音控制，该声学模型是基于唤醒电梯的命令词训练得到的；例如，命令词包括“去一楼”、“七楼”等。在通过语音控制电梯时，通过声学模型识别该语音信号与命令词匹配的概率，在该概率超过命令词的预设阈值的情况下，基于该命令词控制电梯。

由于目前声学模型受存储设备的存储能力的限制，语料存储不是很丰富，对于相近的发音，如“气流”和“七楼”就容易产生误识别，从而使得电梯的误控制率较高。

发明内容

本申请实施例提供了一种电梯控制方法、装置、电子设备、存储介质及产品，能够提高基于语音控制电梯的准确性。所述技术方案如下：

一方面，提供了一种电梯控制方法，所述方法包括：

获取语音信号，所述语音信号用于控制电梯；

确定所述语音信号对应的第一控制参数，所述第一控制参数用于表示所述语音信号是命令词的概率；

确定所述语音信号对应的第二控制参数，所述第二控制参数用于表示所述语音信号对应的文本信息与所述命令词对应的文本信息匹配的概率；

基于所述第一控制参数和所述第二控制参数，对所述电梯进行控制。

在一种实现方式中，所述第一控制参数包括所述语音信号对应的多组音素序列的第一控制子参数，所述第二控制参数包括所述多组音素序列对应的多个文本信息的第二控制子参数，每组音素序列对应一个文本信息；

所述基于所述第一控制参数和所述第二控制参数，对所述电梯进行控制，包括：

基于所述多组音素序列分别对应的第一控制子参数和第二控制子参数，从所述多组音素序列中确定目标音素序列；

若所述目标音素序列对应的第一控制子参数满足目标条件，控制所述电梯做出目标文本信息对应的乘梯响应，所述目标文本信息为所述目标音素序列对应的文本信息。

在一种实现方式中，所述语音信号包括多组音频帧，每组音频帧对应一个音素的最高概率，每组音素序列的第一控制子参数为所述音素序列包括的每个音素的概率的累加值；

确定所述目标音素序列对应的第一控制子参数是否满足所述目标条件的过程包括：

确定所述第一控制子参数与目标和的比值，得到所述目标音素序列的第一置信度，所述目标和为所述多组音频帧分别对应的多个最高概率之和；

若所述第一置信度大于所述目标音素序列对应的第一阈值，确定所述目标音素序列对应的第一控制子参数满足所述目标条件。

对于所述目标音素序列中的每个音素，确定所述音素的概率与目标概率的比值，得到所述音素的第二置信度，所述目标概率为所述音素对应的音频帧的最高概率；

若所述每个音素的第二置信度均大于其对应的第二阈值，确定所述目标音素序列对应的第一控制子参数满足所述目标条件。

在一种实现方式中，所述基于所述多组音素序列分别对应的第一控制子参数和第二控制子参数，从所述多组音素序列中确定目标音素序列，包括：

对于每组音素序列，基于所述音素序列对应的第一控制子参数和第二控制子参数，确定所述音素序列的总参数；

从所述多组音素序列中，确定总参数最大的音素序列；

若选择的音素序列对应的文本信息匹配预设命令词，确定所述选择的音素序列为所述目标音素序列。

在一种实现方式中，所述基于所述音素序列对应的第一控制子参数和第二控制子参数，确定所述音素序列的总参数，包括：

对所述第一控制子参数和所述第二控制子参数加权求和，得到所述音素序列的总参数。

在一种实现方式中，所述确定所述语音信号对应的第一控制参数，包括：

将所述语音信号输入声学模型，输出所述语音信号对应的第一控制参数，所述声学模型用于确定语音信号的第一控制参数。

在一种实现方式中，所述确定所述语音信号对应的第二控制参数，包括：

将所述语音信号输入语言模型，输出所述语音信号对应的第二控制参数，所述语言模型用于确定语音信号的第二控制参数。

在一种实现方式中，所述语言模型的训练过程包括：

获取多个第一样本信息和多个第二样本信息，所述第一样本信息为包含命令词的文本信息，所述第二样本信息为不包含所述命令词的文本信息，所述命令词用于控制所述电梯；

基于所述多个第一样本信息和所述多个第二样本信息，进行模型训练得到所述语言模型。

另一方面，提供了一种电梯控制装置，所述装置包括：

第一获取模块，用于获取语音信号，所述语音信号用于控制电梯；

第一确定模块，用于确定所述语音信号对应的第一控制参数，所述第一控制参数用于表示所述语音信号是命令词的概率；

第二确定模块，用于确定所述语音信号对应的第二控制参数，所述第二控制参数用于表示所述语音信号对应的文本信息与所述命令词对应的文本信息匹配的概率；

控制模块，用于基于所述第一控制参数和所述第二控制参数，对所述电梯进行控制。

所述控制模块，包括：

确定单元，用于基于所述多组音素序列分别对应的第一控制子参数和第二控制子参数，从所述多组音素序列中确定目标音素序列；

控制单元，用于若所述目标音素序列对应的第一控制子参数满足目标条件，控制所述电梯做出目标文本信息对应的乘梯响应，所述目标文本信息为所述目标音素序列对应的文本信息。

所述装置还包括：

第三确定模块，用于确定所述第一控制子参数与目标和的比值，得到所述目标音素序列的第一置信度，所述目标和为所述多组音频帧分别对应的多个最高概率之和；

第四确定模块，用于若所述第一置信度大于所述目标音素序列对应的第一阈值，确定所述目标音素序列对应的第一控制子参数满足所述目标条件。

在一种实现方式中，所述语音信号包括多组音频帧，每组音频帧对应一个音素的最高概率，每组音素序列的第一控制子参数为所述音素序列包括的每个音素的概率的累加值；所述装置还包括：

第五确定模块，用于对于所述目标音素序列中的每个音素，确定所述音素的概率与目标概率的比值，得到所述音素的第二置信度，所述目标概率为所述音素对应的音频帧的最高概率；

第六确定模块，用于若所述每个音素的第二置信度均大于其对应的第二阈值，确定所述目标音素序列对应的第一控制子参数满足所述目标条件。

在一种实现方式中，所述确定单元，包括：

第一确定子单元，用于对于每组音素序列，基于所述音素序列对应的第一控制子参数和第二控制子参数，确定所述音素序列的总参数；

第二确定子单元，用于从所述多组音素序列中，确定总参数最大的音素序列；

第三确定子单元，用于若选择的音素序列对应的文本信息匹配预设命令词，确定所述选择的音素序列为所述目标音素序列。

在一种实现方式中，所述第一确定子单元，用于：

在一种实现方式中，所述第一确定模块，用于将所述语音信号输入声学模型，输出所述语音信号对应的第一控制参数，所述声学模型用于确定语音信号的第一控制参数。

在一种实现方式中，所述第二确定模块，用于将所述语音信号输入语言模型，输出所述语音信号对应的第二控制参数，所述语言模型用于确定语音信号的第二控制参数。

在一种实现方式中，所述装置还包括：

第二获取模块，用于获取多个第一样本信息和多个第二样本信息，所述第一样本信息为包含命令词的文本信息，所述第二样本信息为不包含所述命令词的文本信息，所述命令词用于控制所述电梯；

训练模块，用于基于所述多个第一样本信息和所述多个第二样本信息，进行模型训练得到所述语言模型。

另一方面，提供了一种电子设备，所述电子设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述至少一条程序代码由所述一个或多个处理器加载并执行，以实现上述任一实现方式所述的电梯控制方法。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现上述任一实现方式所述的电梯控制方法。

另一方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序代码，所述计算机程序代码存储在计算机可读存储介质中，电子设备的处理器从所述计算机可读存储介质读取所述计算机程序代码，所述处理器执行所述计算机程序代码，使得所述电子设备执行上述任一实现方式所述的电梯控制方法。

本申请实施例提供的技术方案的有益效果至少包括：

本申请实施例提供了一种电梯控制方法，由于该方法基于第一控制参数和第二控制参数来控制电梯，而由于第一控制参数用于表示语音信号是命名词的概率，第二控制参数用于表示语音信号对应的文本信息与命令词对应的文本信息匹配的概率，这样基于第一控制参数和第二控制参数来控制电梯，实现了基于对语音信号的两种识别结果来控制电梯，从而提高了基于语音控制电梯的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种电梯控制方法的流程图；

图3是本申请实施例提供的一种电梯控制方法的流程图；

图4是本申请实施例提供的一种电梯控制装置的框图；

图5是本申请实施例提供的一种电子设备的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们的任意变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

图1是本申请实施例提供一种电梯控制方法的实施环境，该实施环境包括电梯10、电子设备20和拾音设备30。在一些实施例中，电子设备20和拾音设备30安装在电梯10的内部。拾音设备30用于获取乘梯对象的语音信号，且向电子设备20发送该语音信号，电子设备20用于识别该语音信号中的命令词，并基于该命令词控制电梯10；进而实现了该方法在基于语音控制电梯的情况下的应用。

图2是本申请实施例提供的一种电梯控制方法，方法包括：

201、获取语音信号，语音信号用于控制电梯。

202、确定语音信号对应的第一控制参数，第一控制参数用于表示语音信号是命令词的概率。

203、确定语音信号对应的第二控制参数，第二控制参数用于表示语音信号对应的文本信息与命令词对应的文本信息匹配的概率。

204、基于第一控制参数和第二控制参数，对电梯进行控制。

在一种实现方式中，第一控制参数包括语音信号对应的多组音素序列的第一控制子参数，第二控制参数包括多组音素序列对应的多个文本信息的第二控制子参数，每组音素序列对应一个文本信息；

基于第一控制参数和第二控制参数，对电梯进行控制，包括：

基于多组音素序列分别对应的第一控制子参数和第二控制子参数，从多组音素序列中确定目标音素序列；

若目标音素序列对应的第一控制子参数满足目标条件，控制电梯做出目标文本信息对应的乘梯响应，目标文本信息为目标音素序列对应的文本信息。

在一种实现方式中，语音信号包括多组音频帧，每组音频帧对应一个音素的最高概率，每组音素序列的第一控制子参数为音素序列包括的每个音素的概率的累加值；

确定目标音素序列对应的第一控制子参数是否满足目标条件的过程包括：

确定第一控制子参数与目标和的比值，得到目标音素序列的第一置信度，目标和为多组音频帧分别对应的多个最高概率之和；

若第一置信度大于目标音素序列对应的第一阈值，确定目标音素序列对应的第一控制子参数满足目标条件。

对于目标音素序列中的每个音素，确定音素的概率与目标概率的比值，得到音素的第二置信度，目标概率为音素对应的音频帧的最高概率；

若每个音素的第二置信度均大于其对应的第二阈值，确定目标音素序列对应的第一控制子参数满足目标条件。

在一种实现方式中，基于多组音素序列分别对应的第一控制子参数和第二控制子参数，从多组音素序列中确定目标音素序列，包括：

对于每组音素序列，基于音素序列对应的第一控制子参数和第二控制子参数，确定音素序列的总参数；

从多组音素序列中，确定总参数最大的音素序列；

若选择的音素序列对应的文本信息匹配预设命令词，确定选择的音素序列为目标音素序列。

在一种实现方式中，基于音素序列对应的第一控制子参数和第二控制子参数，确定音素序列的总参数，包括：

对第一控制子参数和第二控制子参数加权求和，得到音素序列的总参数。

在一种实现方式中，确定语音信号对应的第一控制参数，包括：

将语音信号输入声学模型，输出语音信号对应的第一控制参数，声学模型用于确定语音信号的第一控制参数。

在一种实现方式中，确定语音信号对应的第二控制参数，包括：

将语音信号输入语言模型，输出语音信号对应的第二控制参数，语言模型用于确定语音信号的第二控制参数。

在一种实现方式中，语言模型的训练过程包括：

获取多个第一样本信息和多个第二样本信息，第一样本信息为包含命令词的文本信息，第二样本信息为不包含命令词的文本信息，命令词用于控制电梯；

基于多个第一样本信息和多个第二样本信息，进行模型训练得到语言模型。

图3是本申请实施例提供的一种电梯控制方法，方法包括：

301、电子设备获取语音信号，语音信号用于控制电梯。

在一种实现方式中，电子设备通过拾音设备获取语音信号，该语音信号为乘梯对象发出的语音信号。可选的，电子设备不仅用于识别乘梯对象进入电梯后的语音信号，还用于识别乘梯对象在候梯时的语音信号，如“上楼”和“下楼”等。

在一种实现方式中，电子设备通过红外检测设备检测候梯区域或电梯内的乘梯对象，在检测到乘梯对象时，才通过拾音设备获取语音信号，这样避免了时刻获取语音信号造成的资源浪费。

302、电子设备确定语音信号对应的第一控制参数，第一控制参数用于表示语音信号是命令词的概率。

其中，第一控制参数包括语音信号对应的多组音素序列的第一控制子参数；每组音素序列的第一控制子参数用于表示该音素序列是命令词的音素序列的概率。每组音素序列的第一控制子参数为音素序列包括的每个音素的概率的累加值。其中，音素是根据语音的自然属性划分出来的最小语音单位，是构成语音的最小单位或最小的语音片段。

在一种实现方式中，电子设备将语音信号输入声学模型，输出语音信号对应的第一控制参数，声学模型用于确定语音信号的第一控制参数。其中，电子设备将语音信号输入声学模型，输出该语音信号对应的多组音素序列和每组音素序列的第一控制子参数。

需要说明的是，由于输入声学模型的语音信号会由于各种原因造成误差，使得声学模型输出的音素序列为多组。例如，对于输入的语音信号“七楼”，声学模型输出的音素序列可以包括“qi lou”、“qi liu”和“qi you”等。因此，基于声学模型能够确定语音信号对应的至少一组音素序列以及每组音素序列的第一控制子参数。

在一些实施例中，声学模型的训练过程包括：对于每个音素，获取该音素的多个第三样本信息和多个第四样本信息。第三样本信息中包括与该音素对应的音频帧，为正样本。第四样本信息中包括不与该音素对应的音频帧，为负样本。对于每个命令词，获取该命令词的多个第五样本信息和多个第六样本信息。第五样本信息包括该命令词对应的音素序列，为正样本；第六样本信息包括不与该命令词对应的音素序列，为负样本。电子设备基于多个第三样本信息、多个第四样本信息、多个第五样本信息和多个第六样本信息，进行模型训练得到声学模型。

在本申请实施例中，由于声学模型能够识别音素，通过声学模型能够得到语音信号对应的多组音素序列是命令词的音素序列的概率；且由于音素为最小的发音单元，这样通过声学模型识别音素，实现了对语音信号的底层识别，进而在后续确定音素序列对应的文本信息的第二控制子参数时，能够提高确定出的第二控制子参数的准确性。

303、电子设备确定语音信号对应的第二控制参数，第二控制参数用于表示语音信号对应的文本信息与命令词对应的文本信息匹配的概率。

其中，第二控制参数包括多组音素序列对应的多个文本信息的第二控制子参数，每组音素序列对应一个文本信息。

在一些实施例中，电子设备将语音信号输入语言模型，输出语音信号对应的第二控制参数，语言模型用于确定语音信号的第二控制参数。

在一种实现方式中，电子设备将语音信号对应的多组音素序列输入语言模型，输出多个文本信息和每个文本信息对应的第二控制子参数。可选的，电子设备将声学模型输出的多种音素序列输入语言模型，输出多个文本信息和每个文本信息对应的第二控制子参数。

在另一种实现方式中，电子设备通过语言模型也能够得到音素序列。电子设备将语音信号输入语言模型后，得到语音信号对应的多组音素序列，再得到每组音素序列分别对应的文本信息和每个文本信息对应的第二控制子参数。

其中，每组音素序列还可以对应多个文本信息。例如，音素序列“qi lou”可以对应输出“七楼”和“气楼”等；语言模型赋予符合语义且与命令词匹配的文本信息较高的概率，赋予不符合语义或与命令词不匹配的文本信息较低的概率。

在本申请实施例中，由于语言模型为字级别的识别模型，语言模型能够判断一句话是不是符合人类的语言习惯，即是不是符合人类说话的语义逻辑，且还能够判断一句话是不是通用文本所表达的语句，使得语言模型能够基于文本信息的语义赋予概率；这样再通过语言模型确定语音信号的第二控制参数，能够有效提高确定的文本信息匹配命令词的文本信息的概率的准确性。

在一些实施例中，语言模型的训练过程包括步骤(1)-(2)：

(1)电子设备获取多个第一样本信息和多个第二样本信息，第一样本信息为包含命令词的文本信息，第二样本信息为不包含命令词的文本信息，命令词用于控制电梯。

可选地，第一样本信息为“去一楼”、“我要去十楼”、“七楼”等文本信息。第二样本信息为“新闻”、“聊天”、“故事”等通用文本信息。

(2)电子设备基于多个第一样本信息和多个第二样本信息，进行模型训练得到语言模型。

在本申请实施例中，通过包含命令词的文本信息和不包含命令词的文本信息进行模型训练来得到语言模型，使得语言模型的语料丰富，进而能够提高确定的语音信号的第二控制参数的准确性。

304、电子设备基于多组音素序列分别对应的第一控制子参数和第二控制子参数，从多组音素序列中确定目标音素序列。

在一种实现方式中，该步骤包括以下步骤(1)-(3)

(1)电子设备对于每组音素序列，基于音素序列对应的第一控制子参数和第二控制子参数，确定音素序列的总参数。

在一种实现方式中，电子设备对第一控制子参数和第二控制子参数加权求和，得到音素序列的总参数。

其中，电子设备分别确定第一控制子参数和第一权重和第二控制子参数的第二权重，基于第一权重和第二权重，对第一控制子参数和第二控制子参数加权求和，得到该音素序列的总参数。

需要说明的是，第一权重和第二权重的大小可以根据需要进行设定并更改，在本申请实施例中，对此不作具体限定。可选的，第一权重为1，则电子设备通过以下公式一确定该音素序列的总参数。

公式一：总参数＝第一控制子参数+第二权重*第二控制子参数

在一种实现方式中，第二权重基于语言模型的类型确定；可选地，语言模型包括通用语言模型和电梯语言模型，电梯语言模型为用于针对性识别电梯语句的语言模型。其中，若本申请实施例中的语言模型为通用语言模型，可选地，第二权重为0.5或0.6；若本申请实施例中的语言模型为电梯语言模型，可选地，第二权重为0.8或0.9。

在本申请实施例中，通过对第一控制参数和第二控制参数加权求和确定总参数，充分考虑了每个控制子参数对总参数的重要程度；且基于对第一控制子参数和第二控制子参数加权求和确定总参数，使得总参数结合了对语音信号的两种识别结果，进而基于两种识别结果确定的总参数更加全面和准确。

(2)电子设备从多组音素序列中，确定总参数最大的音素序列。

需要说明的是，电子设备通过确定总参数最大的音素序列，实现了维特比算法在本申请实施例中的应用，维特比算法为从多个路径中选择最优路径的算法，使得本申请实施例中确定出的总参数最大的音素序列即为最优的识别结果，进而提高了确定出的音素序列的准确性。

(3)若选择的音素序列对应的文本信息匹配预设命令词，电子设备确定选择的音素序列为目标音素序列。

在一种实现方式中，若选择的音素序列的第一控制子参数大于预设的子参数阈值，电子设备确定该音素序列对应的文本信息匹配预设命令词。在另一种实现方式中，对该选择的音素序列对应的文本信息与预设命令词进行相似度运算，若该文本信息与预设命令词之前的相似度大于预设的相似度阈值，电子设备确定该音素序列对应的文本信息匹配预设命令词。

在本申请实施例中，通过维特比算法，确定了多组音素序列中最优的识别结果；且还将选择出的音素序列去匹配预设命令词，且仅在选择的音素序列对应的文本信息匹配预设命令词的情况下确定目标音素序列，从而提高了确定出的目标音素序列的准确性。

305、电子设备确定目标音素序列对应的第一控制子参数是否满足目标条件。

需要说明的是，语音信号包括多组音频帧，每组音频帧对应一个音素的最高概率。通常，语音信号包括多个字，每个字包括多个音素，每个音素对应多个音频帧，该多个音频帧对应一组音频帧，从而多组音频帧构成一段完整的语音信号。

在一些实施例中，声学模型通过解码图确定第一控制参数，解码图中包括多个解码路径，每个解码路径对应一组音素序列。电子设备将语音信号输入声学模型后，通过解码得到多种音素序列和每组音素序列的第一控制子参数。

在一种实现方式中，电子设备在声学模型的解码图中，定义多个令牌结构，该令牌结构用于记录每个解码路径的历史路径信息，该历史路径信息包括该解码路径中的每个节点对应的每个音素的概率。对于每个解码路径，该解码路径中的每个节点的音素的概率分别由一个令牌记录。在一些实施例中，任一解码路径的最后一个节点的令牌还用于存储该解码路径的概率的累加值，得到第一控制子参数。

在另一种实现方式中，每个解码路径对应一个令牌，该令牌用于记录该解码路径中的全部节点的音素的概率。这样，通过一个令牌就能够给读出或回溯出该解码路径的全部历史路径信息，并存储该解码路径的概率的累加值，得到该解码路径的第一控制子参数。需要说明的是，通过多个令牌还能够记录每组音频帧分别对应的多个最高概率；这样通过令牌回溯历史解码路径时，不仅能够得到最优路径的第一控制子参数，还能够得到每组音频帧对应的解码路径中的最高概率。

电子设备确定目标音素序列对应的第一控制子参数是否满足目标条件包括以下两种实现方式：

在一种实现方式中，电子设备确定第一控制子参数与目标和的比值，得到目标音素序列的第一置信度，目标和为多组音频帧分别对应的多个最高概率之和；若第一置信度大于目标音素序列对应的第一阈值，电子设备确定目标音素序列对应的第一控制子参数满足目标条件。

其中，第一阈值为事先设定的，第一阈值的大小可以根据需要进行设置并更改，在本申请实施例中，对此不作具体限定；可选的，第一阈值为0.8或0.9。

在本申请实施例中，通过基于第一阈值对目标音素序列的第一控制子参数进一步比对，进一步提高了确定出的目标音素序列的准确率。例如，对于语音信号4楼和10楼，乘梯对象发出的语音信号为4楼，但由于口音或其它误差，导致声学模型和语言模型综合识别出来的结果为10楼，若没有通过第一阈值进行进一步的比对，就可能误识别，进而对电梯产生误控制。而在本申请实施例中，通过第一阈值对目标音素序列的第一控制子参数进行进一步的比对，进一步提高了识别的准确率。

例如，第一阈值为0.9，仅当目标音素序列的第一置信度大于0.9时，才确定识别出的目标音素序列是准确的，控制电梯做出乘梯响应；而当目标音素序列的第一置信度不大于0.9时，说明该语音信号在4楼和10楼之间的被识别的比较模糊，不能准确判断该识别出的目标音素序列是否是准确的，从而不会控制电梯做出乘梯响应；乘梯对象发觉后，就会发出第二次更加清晰的语音信号以控制电梯，可知，通过本申请实施例提供的方法能够有效提高识别的准确率，从而能够降低对电梯的误控制率。

可选的，电子设备基于第一控制子参数和目标和，通过以下公式二，得到目标音素序列的第一置信度。

公式二：第一置信度＝第一控制子参数/目标和

其中，目标和指多组音频帧分别对应的多个最高概率之和。

在该实现方式中，通过第一控制子参数和多组音频帧分别对应的多个最高概率之和来确定目标音素序列的第一置信度，使得第一置信度的取值更加符合当前的语音信号的概率取值，使得第一置信度更加有针对性，进而基于第一置信度与目标阈值的对比结果来确定是否满足目标条件，能够提高确定第一控制子参数是否满足目标条件的准确性。

在另一种实现方式中，电子设备对于目标音素序列中的每个音素，确定该音素的概率与目标概率的比值，得到该音素的第二置信度，目标概率为该音素对应的音频帧的最高概率；若每个音素的第二置信度均大于其对应的第二阈值，电子设备确定目标音素序列对应的第一控制子参数满足目标条件。

需要说明的是，多个音素的第一阈值并不是相同的，每个音素的第二阈值分别可以根据需要进行设置并更改，在本申请实施例中对此不作具体限定。例如，对于容易误识别的语音信号中的“si”和“shi”、“lou”和“liu”、以及“n”和“l”等对应的音素设置较高的第二阈值，以降低误识别率。

在本申请实施例中，通过使目标音素序列的每个音素的第二置信度均大于其对应的第二阈值，使得确定目标音素序列对应的第一控制子参数满足目标条件时，目标音素序列中的每个音素均是满足条件的、准确度高的，从而提高了确定满足目标条件的目标音素序列的准确性，进而在后续控制电梯做出目标音素序列对应的目标文本信息对应的乘梯响应时，能够提高做出的乘梯响应的准确性。

306、若目标音素序列对应的第一控制子参数满足目标条件，电子设备控制电梯做出目标文本信息对应的乘梯响应，目标文本信息为目标音素序列对应的文本信息。

需要说明的是，若目标音素序列对应的文本信息为多个，则目标文本信息为目标音素序列对应的第二控制子参数最大的文本信息，即确定出最大总参数第二控制子参数。

在一种实现方式中，电子设备向电梯的控制面板发出控制指令，该控制指令携带目标文本信息匹配的命令词，控制面板基于该命令词做出目标文本信息对应的乘梯响应。

在一些实施例中，若目标音素序列对应的第一控制子参数不满足目标条件，则认为确定出的目标音素序列是不准确的，为误识别，不会执行向电梯的控制面板发出控制指令的步骤。

在本申请实施例中，电子设备通过在目标音素序列对应的第一控制子参数满足目标条件时，才控制电梯做出对应的乘梯响应，避免了直接基于目标音素序列对应的文本信息控制电梯造成的误控制，从而提高了控制电梯做出的乘梯响应的准确性。需要说明的是，与现有技术相比，本申请实施例提供了一种可靠的目标阈值的参考标准，减少了基于语音控制电梯的误控制。在一些实施例中，通过本申请提供的电梯控制方法能够降低电梯30％的误控制率。

本申请实施例还提供了一种电梯控制装置，参见图4，装置包括：

第一获取模块401，用于获取语音信号，语音信号用于控制电梯；

第一确定模块402，用于确定语音信号对应的第一控制参数，第一控制参数用于表示语音信号是命令词的概率；

第二确定模块403，用于确定语音信号对应的第二控制参数，第二控制参数用于表示语音信号对应的文本信息与命令词对应的文本信息匹配的概率；

控制模块404，用于基于第一控制参数和第二控制参数，对电梯进行控制。

控制模块404，包括：

确定单元，用于基于多组音素序列分别对应的第一控制子参数和第二控制子参数，从多组音素序列中确定目标音素序列；

控制单元，用于若目标音素序列对应的第一控制子参数满足目标条件，控制电梯做出目标文本信息对应的乘梯响应，目标文本信息为目标音素序列对应的文本信息。

在一种实现方式中，语音信号包括多组音频帧，每组音频帧对应一个音素的最高概率，每组音素序列的第一控制子参数为音素序列包括的每个音素的概率的累加值；装置还包括：

第三确定模块，用于确定第一控制子参数与目标和的比值，得到目标音素序列的第一置信度，目标和为多组音频帧分别对应的多个最高概率之和；

第四确定模块，用于若第一置信度大于目标音素序列对应的第一阈值，确定目标音素序列对应的第一控制子参数满足目标条件。

第五确定模块，用于对于目标音素序列中的每个音素，确定音素的概率与目标概率的比值，得到音素的第二置信度，目标概率为音素对应的音频帧的最高概率；

第六确定模块，用于若每个音素的第二置信度均大于其对应的第二阈值，确定目标音素序列对应的第一控制子参数满足目标条件。

在一种实现方式中，确定单元，包括：

第一确定子单元，用于对于每组音素序列，基于音素序列对应的第一控制子参数和第二控制子参数，确定音素序列的总参数；

第二确定子单元，用于从多组音素序列中，确定总参数最大的音素序列；

第三确定子单元，用于若选择的音素序列对应的文本信息匹配预设命令词，确定选择的音素序列为目标音素序列。

在一种实现方式中，第一确定子单元，用于：

在一种实现方式中，第一确定模块402，用于将语音信号输入声学模型，输出语音信号对应的第一控制参数，声学模型用于确定语音信号的第一控制参数。

在一种实现方式中，第二确定模块403，用于将语音信号输入语言模型，输出语音信号对应的第二控制参数，语言模型用于确定语音信号的第二控制参数。

在一种实现方式中，装置还包括：

第二获取模块，用于获取多个第一样本信息和多个第二样本信息，第一样本信息为包含命令词的文本信息，第二样本信息为不包含命令词的文本信息，命令词用于控制电梯；

训练模块，用于基于多个第一样本信息和多个第二样本信息，进行模型训练得到语言模型。

图5示出了本申请一个示例性实施例提供的电子设备500的结构框图。该电子设备500可以是便携式移动电子设备，比如：智能手机、平板电脑、MP3播放器(Moving PictureExperts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备500还可能被称为用户设备、便携式电子设备、膝上型电子设备、台式电子设备等其他名称。

通常，电子设备500包括有：处理器501和存储器502。

处理器501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器501可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器502中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器501所执行以实现本申请中方法实施例提供的电梯控制方法。

在一些实施例中，电子设备500还可选包括有：外围设备接口503和至少一个外围设备。处理器501、存储器502和外围设备接口503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口503相连。具体地，外围设备包括：射频电路504、显示屏505、摄像头组件506、音频电路507、定位组件508和电源509中的至少一种。

外围设备接口503可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器501和存储器502。在一些实施例中，处理器501、存储器502和外围设备接口503被集成在同一芯片或电路板上；在一些其他实施例中，处理器501、存储器502和外围设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路504用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路504将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路504包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路504可以通过至少一种无线通信协议来与其它电子设备进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路504还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏505用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏505是触摸显示屏时，显示屏505还具有采集在显示屏505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器501进行处理。此时，显示屏505还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏505可以为一个，设置在电子设备500的前面板；在另一些实施例中，显示屏505可以为至少两个，分别设置在电子设备500的不同表面或呈折叠设计；在另一些实施例中，显示屏505可以是柔性显示屏，设置在电子设备500的弯曲表面上或折叠面上。甚至，显示屏505还可以设置成非矩形的不规则图形，也即异形屏。显示屏505可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件506用于采集图像或视频。可选地，摄像头组件506包括前置摄像头和后置摄像头。通常，前置摄像头设置在电子设备的前面板，后置摄像头设置在电子设备的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件506还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器501进行处理，或者输入至射频电路504以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器501或射频电路504的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路507还可以包括耳机插孔。

定位组件508用于定位电子设备500的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件508可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源509用于为电子设备500中的各个组件进行供电。电源509可以是交流电、直流电、一次性电池或可充电电池。当电源509包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，电子设备500还包括有一个或多个传感器510。该一个或多个传感器510包括但不限于：加速度传感器511、陀螺仪传感器512、压力传感器513、指纹传感器514、光学传感器515以及接近传感器516。

加速度传感器511可以检测以电子设备500建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器511可以用于检测重力加速度在三个坐标轴上的分量。处理器501可以根据加速度传感器511采集的重力加速度信号，控制显示屏505以横向视图或纵向视图进行用户界面的显示。加速度传感器511还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器512可以检测电子设备500的机体方向及转动角度，陀螺仪传感器512可以与加速度传感器511协同采集用户对电子设备500的3D动作。处理器501根据陀螺仪传感器512采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器513可以设置在电子设备500的侧边框和/或显示屏505的下层。当压力传感器513设置在电子设备500的侧边框时，可以检测用户对电子设备500的握持信号，由处理器501根据压力传感器513采集的握持信号进行左右手识别或快捷操作。当压力传感器513设置在显示屏505的下层时，由处理器501根据用户对显示屏505的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器514用于采集用户的指纹，由处理器501根据指纹传感器514采集到的指纹识别用户的身份，或者，由指纹传感器514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器501授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器514可以被设置在电子设备500的正面、背面或侧面。当电子设备500上设置有物理按键或厂商Logo时，指纹传感器514可以与物理按键或厂商Logo集成在一起。

光学传感器515用于采集环境光强度。在一个实施例中，处理器501可以根据光学传感器515采集的环境光强度，控制显示屏505的显示亮度。具体地，当环境光强度较高时，调高显示屏505的显示亮度；当环境光强度较低时，调低显示屏505的显示亮度。在另一个实施例中，处理器501还可以根据光学传感器515采集的环境光强度，动态调整摄像头组件506的拍摄参数。

接近传感器516，也称距离传感器，通常设置在电子设备500的前面板。接近传感器516用于采集用户与电子设备500的正面之间的距离。在一个实施例中，当接近传感器516检测到用户与电子设备500的正面之间的距离逐渐变小时，由处理器501控制显示屏505从亮屏状态切换为息屏状态；当接近传感器516检测到用户与电子设备500的正面之间的距离逐渐变大时，由处理器501控制显示屏505从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图5中示出的结构并不构成对电子设备500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质中存储有至少一条程序代码，至少一条程序代码由处理器加载并执行，以实现上述任一实现方式的电梯控制方法。

本申请实施例还提供了一种计算机程序产品，计算机程序产品包括计算机程序代码，计算机程序代码存储在计算机可读存储介质中，电子设备的处理器从计算机可读存储介质读取计算机程序代码，处理器执行计算机程序代码，使得电子设备执行上述任一实现方式的电梯控制方法。

在一些实施例中，本申请实施例所涉及的计算机程序产品可被部署在一个电子设备上执行，或者在位于一个地点的多个电子设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个电子设备上执行，分布在多个地点且通过通信网络互连的多个电子设备可以组成区块链系统。

以上仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种电梯控制方法，其特征在于，所述方法包括：

获取语音信号，所述语音信号用于控制电梯；

2.根据权利要求1所述的方法，其特征在于，所述第一控制参数包括所述语音信号对应的多组音素序列的第一控制子参数，所述第二控制参数包括所述多组音素序列对应的多个文本信息的第二控制子参数，每组音素序列对应一个文本信息；

3.根据权利要求2所述的方法，其特征在于，所述语音信号包括多组音频帧，每组音频帧对应一个音素的最高概率，每组音素序列的第一控制子参数为所述音素序列包括的每个音素的概率的累加值；

4.根据权利要求2所述的方法，其特征在于，所述语音信号包括多组音频帧，每组音频帧对应一个音素的最高概率，每组音素序列的第一控制子参数为所述音素序列包括的每个音素的概率的累加值；

5.根据权利要求2所述的方法，其特征在于，所述基于所述多组音素序列分别对应的第一控制子参数和第二控制子参数，从所述多组音素序列中确定目标音素序列，包括：

从所述多组音素序列中，确定总参数最大的音素序列；

6.根据权利要求5所述的方法，其特征在于，所述基于所述音素序列对应的第一控制子参数和第二控制子参数，确定所述音素序列的总参数，包括：

7.根据权利要求1所述的方法，其特征在于，所述确定所述语音信号对应的第一控制参数，包括：

8.根据权利要求1所述的方法，其特征在于，所述确定所述语音信号对应的第二控制参数，包括：

9.根据权利要求8所述的方法，其特征在于，所述语言模型的训练过程包括：

10.一种电梯控制装置，其特征在于，所述装置包括：

11.一种电子设备，其特征在于，所述电子设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述至少一条程序代码由所述一个或多个处理器加载并执行，以实现如权利要求1至权利要求9任一项所述的电梯控制方法。

12.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1至权利要求9任一项所述的电梯控制方法。

13.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序代码，所述计算机程序代码存储在计算机可读存储介质中，电子设备的处理器从所述计算机可读存储介质读取所述计算机程序代码，所述处理器执行所述计算机程序代码，使得所述电子设备执行如权利要求1至权利要求9任一项所述的电梯控制方法。