CN111477226B

CN111477226B - 控制方法、智能设备和存储介质

Info

Publication number: CN111477226B
Application number: CN202010265284.2A
Authority: CN
Inventors: 胡新辉
Original assignee: Zhejiang Tonghuashun Intelligent Technology Co Ltd
Current assignee: Zhejiang Tonghuashun Intelligent Technology Co Ltd
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2024-03-08
Anticipated expiration: 2040-04-07
Also published as: CN111477226A

Abstract

本申请涉及控制方法、智能设备和存储介质。该方法包括：从智能设备所处环境中采集得到第一音频数据，所述第一音频数据至少包含第一用户输入的携带有针对所述智能设备的控制指令的音频数据；将所述第一音频数据进行文本转换后，得到携带有所述控制指令的第一文本数据；获取所述第一音频数据的声纹特征信息，并与数据库中历史音频数据进行跟踪匹配，得到跟踪匹配结果；基于跟踪匹配结果确定是否运行所述第一文本数据所携带的控制指令。如此，为丰富使用场景，提高用户体验奠定了基础。

Description

控制方法、智能设备和存储介质

技术领域

本申请涉及智能控制领域，特别是涉及一种控制方法、智能设备和存储介质。

背景技术

现有语音控制智能设备的场景中，通常采用如下方式：先利用包含有指令头的语音来唤醒智能设备，然后，再利用包含有指令内容的语音来控制智能设备进行相应操作；显然，现有控制方式用户每次都需要输入指令头来唤醒智能设备，唤醒过程重复繁琐，而且，智能设备只要接收到包含有指令头的语音均会唤醒进而完成后续操作，对语音的用户来源不作区分和识别，因此，现有方式在某些场景下不适用，降低了用户体验。

发明内容

为解决上述问题，本发明提出了一种控制方法、智能设备和存储介质，能够利用声纹特征信息来实现音频来源的匹配和识别，进而为丰富应用场景，提高用户体验奠定了基础；同时，由于能够识别音频来源，所以解决了现有仅能利用指令头来唤醒智能设备后才能控制智能设备进行相应操作的问题，新增了一种智能设备的控制方式，进一步为丰富使用场景，提高用户体验奠定了基础。

第一方面，本申请实施例提供一种控制方法，包括：

从智能设备所处环境中采集得到第一音频数据，所述第一音频数据至少包含第一用户输入的携带有针对所述智能设备的控制指令的音频数据；

将所述第一音频数据进行文本转换后，得到携带有所述控制指令的第一文本数据；

获取所述第一音频数据的声纹特征信息，并与数据库中历史音频数据进行跟踪匹配，得到跟踪匹配结果，其中，所述跟踪匹配结果表征所述第一音频数据的声纹特征信息所对应的第一用户与历史音频数据所对应目标用户的匹配程度；所述数据库中历史音频数据至少包括目标用户基于携带有指令头的音频数据唤醒所述智能设备后，所述智能设备所采集到的携带有针对所述智能设备的控制指令的历史音频数据；

基于跟踪匹配结果确定是否运行所述第一文本数据所携带的控制指令。

本发明实施例中，所述获取所述第一音频数据的声纹特征信息，并与数据库中历史音频数据进行跟踪匹配，得到跟踪匹配结果，包括：

对所述第一音频数据进行分割处理，得到至少两个子数据；

基于子数据的声纹特征信息，对至少两个子数据进行聚类处理，得到第一用户对应的目标音频数据；所述目标音频数据为第一音频数据中的至少部分数据；

将目标音频数据的声纹特征信息与数据库中历史音频数据进行跟踪匹配，得到跟踪匹配结果。

本发明实施例中，所述方法还包括：

确定所述第一音频数据的声纹特征信息所对应的第一用户与历史音频数据所对应目标用户相匹配后，基于第一音频数据中第一用户的声纹特征信息，对所述智能设备所处环境的音频数据进行跟踪监测，以确定是否存在针对第一用户的其他音频数据。

本发明实施例中，所述方法还包括：

采集得到针对目标用户的第二音频数据，所述第二音频数据为目标用户输入的携带有针对所述智能设备的控制指令的音频数据；

获取所述第二音频数据的音频特征信息；

确定所述第二音频数据的音频特征信息满足预设音频规则后，将所述第二音频数据作为数据库中针对目标用户的历史音频数据。

本发明实施例中，所述方法还包括：

采集到携带有指令头的音频数据，并基于指令头唤醒所述智能设备；

在唤醒状态中，所述智能设备采集得到第二音频数据，所述第二音频数据为目标用户输入的携带有针对所述智能设备的控制指令的音频数据；

获取所述第二音频数据的音频特征信息；

确定所述第二音频数据的音频特征信息满足预设音频规则后，将所述第二音频数据作为数据库针对目标用户的历史音频数据。

本发明实施例中，所述方法还包括：

检测所述智能设备所处环境的环境特征信息；

选取与智能设备对应的环境特征信息相匹配的音频处理策略；

基于选取出的音频处理策略对所处环境的音频数据进行采集。

本发明实施例中，所述方法还包括：

选取出与所述智能设备对应的环境特征信息相匹配的第一音频处理策略，其中，所述第一音频数据为智能设备基于第一音频处理策略而采集得到的；

确定第一音频数据的声纹特征信息与所述数据库中历史音频数据的声纹相匹配后，将第一音频数据作为数据库中针对目标用户的历史音频数据。

本发明实施例中，所述方法还包括：

确定第一音频数据的声纹特征信息与所述数据库中历史音频数据的声纹相匹配后，判断所述第一音频数据的音频特征信息是否满足预设音频规则，若满足，将第一音频数据作为数据库中针对目标用户的历史音频数据。

本发明实施例中，所述方法还包括：

选取出与所述智能设备对应的环境特征信息相匹配的第二音频处理策略；

基于第二音频处理策略对采集得到的音频数据进行降噪处理后，得到第一音频数据。

第二方面，本申请实施例提供一种智能设备，包括：

采集单元，用于从智能设备所处环境中采集得到第一音频数据，所述第一音频数据至少包含第一用户输入的携带有针对所述智能设备的控制指令的音频数据；

文本转换单元，用于将所述第一音频数据进行文本转换后，得到携带有所述控制指令的第一文本数据；

处理单元，用于获取所述第一音频数据的声纹特征信息，并与数据库中历史音频数据进行跟踪匹配，得到跟踪匹配结果，其中，所述跟踪匹配结果表征所述第一音频数据的声纹特征信息所对应的第一用户与历史音频数据所对应目标用户的匹配程度；所述数据库中历史音频数据至少包括目标用户基于携带有指令头的音频数据唤醒所述智能设备后，所述智能设备所采集到的携带有针对所述智能设备的控制指令的历史音频数据；基于跟踪匹配结果确定是否运行所述第一文本数据所携带的控制指令。

本发明实施例中，所述处理单元，还用于：

对所述第一音频数据进行分割处理，得到至少两个子数据；

本发明实施例中，所述处理单元，还用于：

本发明实施例中，所述采集单元，用于采集得到针对目标用户的第二音频数据，所述第二音频数据为目标用户输入的携带有针对所述智能设备的控制指令的音频数据；

所述处理单元，还用于获取所述第二音频数据的音频特征信息；确定所述第二音频数据的音频特征信息满足预设音频规则后，将所述第二音频数据作为数据库中针对目标用户的历史音频数据。

本发明实施例中，所述采集单元，用于采集到携带有指令头的音频数据，并基于指令头唤醒所述智能设备；在唤醒状态中，所述智能设备采集得到第二音频数据，所述第二音频数据为目标用户输入的携带有针对所述智能设备的控制指令的音频数据；

所述处理单元，还用于获取所述第二音频数据的音频特征信息；确定所述第二音频数据的音频特征信息满足预设音频规则后，将所述第二音频数据作为数据库针对目标用户的历史音频数据。

本发明实施例中，所述处理单元，还用于检测所述智能设备所处环境的环境特征信息；选取与智能设备对应的环境特征信息相匹配的音频处理策略；

所述采集单元，还用于基于选取出的音频处理策略对所处环境的音频数据进行采集。

本发明实施例中，所述处理单元，还用于：

第三方面，本申请实施例提供一种智能设备，包括：

一个或多个处理器；

与所述一个或多个处理器通信连接的存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序被配置为执行以上所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现以上所述的方法。

这样，本发明实施例能够基于第一音频数据的声纹特征信息与数据库中历史音频数据进行跟踪匹配，并基于跟踪匹配结果识别出第一音频数据所对应的第一用户与历史音频数据所对应的目标用户之间的匹配程度，进而来确定是否控制智能设备运行第一音频数据所携带的控制指令，如此，在实现了识别音频来源的基础上，提供了一种对智能设备进行控制的新方式，解决了现有仅能利用指令头来唤醒智能设备后才能控制智能设备进行相应操作的问题，为丰富使用场景，提高用户体验奠定了基础。

附图说明

图1为本发明实施例控制方法的实现流程示意图；

图2为本申请实施例控制方法在一具体示例中音频数据的示意图；

图3为本申请实施例控制方法在一具体应用场景的示意图；

图4为本发明实施例智能设备的逻辑单元结构示意图；

图5本发明实施例智能设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本申请的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。

基于此，本申请实施例提供了一种控制方法、智能设备和存储介质；具体地，图1为本发明实施例控制方法的实现流程示意图，所述方法应用于智能设备，如图1所示，所述方法包括：

步骤101：从智能设备所处环境中采集得到第一音频数据，所述第一音频数据至少包含第一用户输入的携带有针对所述智能设备的控制指令的音频数据。

本申请实施例中，所述智能设备设置或连接有音频采集组件，如麦克风、麦克风阵列等，如此，利用音频采集组件对自身所处环境进行音频采集。

在一具体示例中，由于智能设备所处环境的环境特征信息，比如环境嘈杂程度的不同等，可以设置不同的音频处理策略，这样，一方面能够提高音频采集效率及准确率，为后续精准识别奠定基础，另一方面还能够为后续精准控制智能设备执行控制指令奠定基础。具体地，智能设备检测自身所处环境的环境特征信息，比如噪声特征，声源数量，和/或识别自身预设范围内或特定场景内的目标体(如人)的数量等来确定出环境特征信息，并选取出与智能设备对应的环境特征信息相匹配的音频处理策略，进而基于选取出的音频处理策略对所处环境的音频数据进行采集。

这里，当确定环境特征信息后，可以采用如下两种方式进行音频数据的采集，具体地，

方式一：选取出与所述智能设备对应的环境特征信息相匹配的第一音频处理策略，其中，所述第一音频数据为智能设备基于第一音频处理策略而采集得到的；举例来说，当得到智能设备所处环境特征信息后，基于环境特征信息得出所述智能设备处于第一环境下，比如简单环境下，此时，选取出第一音频处理策略在第一环境下进行音频采集，得到第一音频数据。

进一步地，当第一环境为简单环境时，在确定第一音频数据满足规则后，可以将简单环境下采集到的音频数据作为数据库中的历史音频数据；也就是说，本方式中，将与目标用户的声纹相匹配的第一音频数据作为数据库中针对目标用户的音频数据，如此，来丰富完善数据库。具体地，确定第一音频数据的声纹特征信息与所述数据库中历史音频数据的声纹相匹配后，将第一音频数据作为数据库中针对目标用户的历史音频数据。

方式二：选取出与所述智能设备对应的环境特征信息相匹配的第一音频处理策略，其中，所述第一音频数据为智能设备基于第一音频处理策略而采集得到的；举例来说，当得到智能设备所处环境特征信息后，基于环境特征信息得出所述智能设备处于第一环境下，比如简单环境下，此时，选取出第一音频处理策略在第一环境下进行音频采集，得到第一音频数据。

进一步地，当第一环境为简单环境时，在确定第一音频数据满足规则后，可以将简单环境下采集到的音频数据作为数据库中的历史音频数据，如此，来丰富完善数据库。具体地，确定第一音频数据的声纹特征信息与所述数据库中历史音频数据的声纹相匹配后，判断所述第一音频数据的音频特征信息是否满足预设音频规则，若满足，将第一音频数据作为数据库中针对目标用户的历史音频数据。

这里，实际应用中，预设音频规则可以根据衡量音频质量的技术参数来设置，本申请对此不作限制。实际场景中，当确定出预设音频规则后，满足预设音频规则的音频数据，认定为高质量音频数据，可作为数据库中的历史音频数据，不满足预设音频规则的数据为低质量音频数据，不可作为数据库中的历史音频数据，也就是说，本方式中，将与目标用户的声纹相匹配的，且满足预设音频规则的第一音频数据作为数据库中针对目标用户的音频数据，如此，来为后续准确识别音频，以及对智能设备的精准控制奠定基础。

方式三：选取出与所述智能设备对应的环境特征信息相匹配的第二音频处理策略；基于第二音频处理策略对采集得到的音频数据进行降噪处理后，得到第一音频数据。举例来说，当得到智能设备所处环境特征信息后，基于环境特征信息得出所述智能设备处于第二环境下，比如复杂环境下，此时，选取出第二音频处理策略在第二环境下进行音频采集，并基于第二音频处理策略对采集得到的音频数据进行降噪处理后，得到第一音频数据。

这里，需要说明的是，简单环境和复杂环境可以根据实际场景需求而设置，比如，通过设置技术参数，以及判断技术参数与阈值之间的大小来分辨简单环境和复杂环境；举例来说，简单环境下，噪声小，声源数量少，且预设范围内目标体(如人)的数量少；复杂环境下，噪声大，声源数量多，且预设范围内目标体(如人)的数量多等。

另外，值得注意的是，本申请实施例第一音频处理策略和第二音频处理策略不相同，比如两者的音频采集频率不相同，噪声处理强度不相同等，如此，来满足不同场景(如简单环境和复杂环境)下的音频采集和/或处理需求。

实际应用中，上述三种方式可以择一而执行，本申请实施例对此不作限制。

步骤102：将所述第一音频数据进行文本转换后，得到携带有所述控制指令的第一文本数据。

在一具体示例中，可以将第一音频数据与预设文本模型进行相似度匹配，比如，进行音素和/或字词的匹配，得到第一文本数据。

步骤103：获取所述第一音频数据的声纹特征信息，并与数据库中历史音频数据进行跟踪匹配，得到跟踪匹配结果。

本申请实施例中，所述跟踪匹配结果表征所述第一音频数据的声纹特征信息所对应的第一用户与历史音频数据所对应目标用户的匹配程度；所述数据库中历史音频数据至少包括目标用户基于携带有指令头的音频数据唤醒所述智能设备后，所述智能设备所采集到的携带有针对所述智能设备的控制指令的历史音频数据。

本申请实施例中，利用跟踪匹配结果即可确定出第一用户与目标用户的匹配程度，换言之，利用跟踪匹配结果即可确定出第一音频数据是否为目标用户所输出的，如此，实现了音频数据的有效识别。

实际应用中，为确保能够精准识别出第一音频数据是否为目标用户所输出的音频数据，需要预先建立数据库，该数据库中存储有针对目标用户的历史音频数据，这里，该历史音频数据至少包含有目标用户基于携带有指令头的音频数据唤醒所述智能设备后，所述智能设备在自身处于唤醒状态中所采集到的目标用户继续输入的携带有控制指令的音频数据。如此，为后续精准跟踪匹配，以及提供本申请方案新的控制方式奠定了基础。

举例来说，智能设备所接收到的音频数据包括下述三类，如图2所示，

第一类，用户输出携带有指令头的音频数据，此时，智能设备能够获取到携带有指令头的音频数据的开始时间Tb和结束时间Td。

第二类，用户输入携带有指令头的音频数据后，继续输入携带有指令内容(也即本申请所述的控制指令)的音频数据，此时，智能设备能够得到用户输入的全部音频数据(包含指令头和指令内容)开始时间Tb和结束时间Tf。当然，也能够携带有指令头的音频数据的开始时间Tb和结束时间Td，以及携带有指令内容的音频数据的开始时间Te和结束时间Tf。该类中包含的三种音频数据均可独立作为数据库中的历史音频数据。

第三类，用户仅输入携带有指令内容的音频数据，此时，智能设备能够得到携带有指令内容的音频数据的开始时间Te和结束时间Tf。

需要说明的是，上述三类用户输入的音频数据中，当输入用户为目标用户时，上述三类音频数据均可单独作为数据库中针对目标用户的历史音频数据；或者，在满足预设音频规则的基础上，均可单独作为数据库中针对目标用户的历史音频数据，本申请实施例对此不作限制。

步骤104：基于跟踪匹配结果确定是否运行所述第一文本数据所携带的控制指令。

本申请实施例中，当基于跟踪匹配结果确定出第一音频数据对应的第一用户与历史音频数据对应的目标用户相匹配时，也即第一音频数据为目标用户所输出的，此时，所述智能设备运行所述第一文本数据所携带的控制指令，否则，屏蔽所述第一文本数据所携带的控制指令，如此，实现了直接利用与目标用户的声纹相匹配的第一音频数据来控制智能设备的目的，这里，该第一音频数据不包含指令头仅包含指令内容(也即本申请所述的控制指令)，因此，解决了现有技术必须利用指令头来唤醒智能设备才能对智能设备进行控制的控制方式单一，以及无法识别用户来进行有针对性控制的技术问题，丰富了使用场景，同时也提升了用户体验。

进一步地，实际应用中，为实现本申请方案所述方法，需要预先建立数据库，具体地可采用如下方式建立数据库：

方式一：预先选中目标用户，采集得到针对目标用户的第二音频数据，所述第二音频数据为目标用户输入的携带有针对所述智能设备的控制指令的音频数据；获取所述第二音频数据的音频特征信息；确定所述第二音频数据的音频特征信息满足预设音频规则后，将所述第二音频数据作为数据库中针对目标用户的历史音频数据。这里，第二音频数据不携带有指令头，仅携带有指令内容，也即控制指令。

方式二：预先选中目标用户，采集到携带有指令头的音频数据，并基于指令头唤醒所述智能设备；在唤醒状态中，所述智能设备采集得到第二音频数据，所述第二音频数据为目标用户输入的携带有针对所述智能设备的控制指令的音频数据；获取所述第二音频数据的音频特征信息；确定所述第二音频数据的音频特征信息满足预设音频规则后，将所述第二音频数据作为数据库针对目标用户的历史音频数据。也就是说，本方式中第二音频数据为利用指令头唤醒智能设备后，且智能设备在唤醒状态下所采集得到的，本方式中，第二音频数据不携带有指令头，仅携带有指令内容，也即控制指令。

实际应用中，上述两种方式可以择一而执行，本申请实施例对此不作限制。

考虑到实际场景中，智能设备从所处环境中采集到的第一音频数据并非仅有第一用户的语音，可能还包括其他用户的语音，此时，可以对所述第一音频数据进行分割处理，得到至少两个子数据；基于子数据的声纹特征信息，对至少两个子数据进行聚类处理，得到第一用户对应的目标音频数据；所述目标音频数据为第一音频数据中的至少部分数据；将目标音频数据的声纹特征信息与数据库中历史音频数据进行跟踪匹配，得到跟踪匹配结果。也就是说，采用分割和聚合技术从第一音频数据中得到第一用户对应的目标音频数据，如此，将目标音频数据的声纹特征信息与数据库中历史音频数据进行跟踪匹配，避免由于环境用户音频种类过多导致无法匹配的问题。进一步地在确定出目标音频数据后，可以将目标音频数据来代替第一音频数据进行后续处理。由于目标音频数据为第一用户所输入的数据，所以目标音频数据至少携带有针对所述智能设备的控制指令的音频数据，进而将目标音频数据进行文本转换处理，得到携带有所述控制指令的第一文本数据；

这里需要说明的是，分割和聚类的过程中，可以先对音频数据进行分割，分割全部完成后，再基于所有子数据的声纹特征信息，对所有子数据进行聚类处理，将具有相似特征的音频数据(也即同一用户的音频数据)聚类到一起；当然，分割和聚类步骤也可以同步进行，比如，采用隐马尔科夫技术，如此，为后续的精准识别奠定基础。

在一具体示例中，本申请方案还可以在确定出所述第一音频数据的声纹特征信息所对应的第一用户与历史音频数据所对应目标用户相匹配后，基于第一音频数据中第一用户的声纹特征信息，对所述智能设备所处环境的音频数据进行跟踪监测，以确定是否存在针对第一用户的其他音频数据，如此，实现对智能设备所处环境的音频数据进行跟踪的目的，为丰富应用场景，提升用户体验奠定了基础。

而且，由于数据库中的历史音频数据为预先设置的目标用户的音频数据，而且，该历史音频数据至少包括目标用户基于携带有指令头的音频数据唤醒所述智能设备后，所述智能设备处于唤醒状态中所采集到的携带有控制指令的历史音频数据，如此，为后续进行跟踪匹配及用户识别奠定了基础，同时，为利用不含有指令头但满足其他声纹要求(也即本方案跟踪匹配要求)的音频数据直接控制智能设备进行相应操作奠定了实现基础。

以下结合一具体场景对本申请实施例方案进行详细说明，值得注意的是，以下场景仅用于解释本申请方案，并非用于限制本申请，实际应用中，本申请方案还能够应用于其他场景，本申请实施例对此不作限制。

具体地，电梯乘坐场景中，使用语音控制电梯能给乘客带来实质性的方便，特别是如下场景：急救医生推救护床进入电梯准备去其他楼层做手术；或者，送货人员双手推着送货车进入电梯；或者，乘客双手拿着物品进入电梯。

现有语音操控智能电梯的操控指令包括：指令头和指令内容；其中，指令头用于唤醒智能电梯，指令内容用户控制智能电梯进行相应操作；比如，指令头为包含有“小花小花”的音频数据，此时，智能电梯被唤醒，然后接收指令内容为包含有“到4楼”的音频数据，随后，智能电梯基于指令内容点亮4楼的按钮，并移动至4楼。这里，指令头是预先指定的关键词，用于定位用户操作语音的开始，也即唤醒智能电梯；然后，在智能电梯唤醒的状态下，接收指令内容用于操控电梯。需要注意的是，以下为便于描述，用指令头来表示包含有指令头的音频数据，用指令内容来表示包含有指令内容的音频数据。

显然，现有智能电梯语音操控技术存在以下缺点：

第一，乘客每次都需要输入指令头，如“小花小花”，唤醒过程重复繁琐。

第二，有些智能电梯仅需要供部分人使用，但现有智能电梯不支持这种功能。比如，如医院中手术电梯是只供医生或护士使用，但遇到乘客很多的时候，但现有操作技术，所有乘客均可通过语音来控制智能电梯。

基于此，本示例提供了一种跟踪系统，应用于智能电梯，使得智能电梯能够跟踪目标用户的声音，这样，当检测到针对目标用户的指令内容后，即可直接控制智能电梯执行指令内容，而实际应用中，即便存在其他非目标用户的指令内容，由于为非目标用户，所以智能电梯也不会执行非目标用户所控制的相应操作，因此，简化了现有指令头和指令内容的控制流程，极大的满足了用户的需求，提升了用户体验。

具体地，智能电梯检测自身所处的状态来判断当前处于简单环境或复杂环境，基于当前所处环境选取出相匹配的音频处理策略。

这里，状态包括但不限于：门正在打开状态，门已打开状态，门正在关闭状态，门已关闭状态，门关闭且静止，门关闭且移动状态，异常状态，扬声器播放语音状态，扬声器未播放语音状态，乘坐智能电梯的人数(如无人，1个人或多人等)，载重(如<30kg，30kg-100kg，或>100kg)等。

这里，需要说明的是，简单环境和复杂环境可以根据实际场景需求而设置，比如，通过设置技术参数，以及判断技术参数与阈值之间的大小来分辨简单环境和复杂环境；距离来说，简单环境下，噪声小，声源数量少，且预设范围内目标体(如人)的数量少；复杂环境下，噪声大，声源数量多，且预设范围内目标体(如人)的数量多等。

另外，值得注意的是，简单环境和复杂环境下的音频处理策略不相同，比如两者的音频采集频率不相同，噪声处理强度不相同等，如此，来满足不同场景(如简单环境和复杂环境)下的音频采集和/或处理需求。

具体地，当确定处于简单环境时，对应流程一，这里，简单状态下，可以将目标用户的指令内容的语音存入数据库，以丰富和完善数据库数据。当处于复杂环境时，对应流程二。

这里，实际应用中，在进行简单环境和复杂环境的判断之前，需要建立数据库，比如，可以采用下述方式建立数据库，具体地，跟踪系统采集到针对目标用户的第一语音，并对第一语音进行识别和自然语言处理等，以进行文本转换，得到包含有音素特征等的文本数据，智能电梯基于第一语音对应文本数据所携带的指令内容进行相应操作；同时，对第一语音进行特征识别，得到声纹特征，进一步地，确定第一语音的音频特征满足预设音频规则后，即认为第一语音为高质量语音后，将第一语音作为针对目标用户的历史音频数据存入数据库中，当然，实际应用中，可以具体将第一语音的声纹特征存入数据库，或者将声纹特征以及第一语音共同存入数据库，作为针对目标用户的历史音频数据。

进一步地，流程一和流程二具体步骤如下：

流程一：跟踪系统基于第一音频处理策略采集到用户语音，将用户语音输入到两个组件中进行特征处理，即指令词组件和跟踪组件，其中，指令词组件将用户语音输入到内置模型中，得到音素/字词特征(也即以上所述的文本数据)；跟踪组件基于用户语音得到声纹特征，并与数据库中历史音频数据进行跟踪匹配，判断是否为目标用户的语音，若是，将用户语音输入到跟踪系统的识别组件，通过识别组件来进行指令识别(比如基于指令词组件得到的音素/字词特征来进行识别)，进而控制智能电梯执行用户语音所携带的控制指令；这里，为丰富数据库中的数据，还可以继续判断用户语音是否满足预设音频规则，若是，即认为用户语音为高质量语音，将用户语音作为针对目标用户的历史音频数据存入数据库中。

流程二：跟踪系统基于第二音频处理策略采集到用户语音，将用户语音输入到两个组件中进行特征处理，即指令词组件和跟踪组件，其中，指令词组件将用户语音输入到内置模型中，得到音素/字词特征(也即以上所述的文本数据)；跟踪组件基于用户语音得到声纹特征，并与数据库中历史音频数据进行跟踪匹配，判断是否为目标用户的语音，若是，将用户语音输入到跟踪系统的识别组件，通过识别组件来进行指令识别(比如基于指令词组件得到的音素/字词特征来进行识别)，进而控制智能电梯执行用户语音所携带的控制指令。

以下给出智能电梯场景中的具体应用流程，如下：

跟踪系统将获取到的目标用户的语音输入到向量模型提取得到若干个特征向量，该若个特征向量能够表征出目标用户的声纹特征。然后，再将提取到的若干个特征向量及目标用户的相关信息加入数据库。

正常情况下，跟踪系统在电梯应用场景中检测到用户语音，并持续对语音逐段提取特征向量，然后将提取到的用户语音的特征向量和数据库中的特征向量进行相似度匹配，当相似度超过预设阈值时，认为当前用户语音是数据库中存入的目标用户的语音。此时，将检测到的用户语音，或者，还可将包含在数据库中该目标用户的语音(开始时间，结束时间，分离出来的语音)都提取出来，供其他组件使用。

当智能电梯“异常状态”时，跟踪系统停止运行。

当智能电梯内“无人”或者载重<30kg时，跟踪系统不输出跟踪结果。

当智能电梯正在播放语音时，跟踪系统不输出跟踪结果。

当智能电梯的运行状态为“门已关闭状态”，“门关闭且静止”，或“门关闭且移动状态”等且智能电梯内人较少时，跟踪系统认定为简单环境，以第一音频处理策略进行音频采集和处理，并输出跟踪结果。

当智能电梯的运行状态为“门正在打开状态”，“门已打开状态”，“门正在关闭状态”等且智能电梯内有多人或者载重大于100kg时，跟踪系统认定为复杂环境，以第二音频处理策略进行音频采集和处理，并输出跟踪结果。比如，启动去除环境噪声功能，以去除开门声音、关门声音、脚步声等。又比如，启用多人语音分离功能，将单通道多人语音分离为多路语音，对每路语音提取语音特征，如提取梅尔谱(MFCC)特征，进而再将梅尔谱(MFCC)特征输入到神经网络模型中提取语音的其他特征，比如，声纹特征等，最后，将属于同一用户的语音段拼接到一起，形成最终的说话人的语音数据。这里，跟踪系统默认可同时跟踪两人，但是，实际应用中，通过设置“同时跟踪人数”可同时跟踪多人。

当“单人最长跟踪时间”设置为负数时，表示一直持续跟踪。该设置表征该用户为目标用户，且数据库中存储有该目标用户的历史音频数据，只要该目标用户直接输入指令内容，无需输入指令头，智能电梯即可识别出并进行相应操作。

当设置“单人最长跟踪时间”为有限时间，比如5分钟，表征系统会自动从数据库中挑选5分钟内的特征向量进行相似度对比，如此，来提升匹配效率。

这样，本申请实施例利用高质量指令内容作为背景信息即数据库中的历史音频数据，进而实现跟踪目标用户的语音输入和识别的目的，大幅提升了复杂环境下利用语音操控电梯的识别效率，同时，降低了误判。而且，提升了多数场景下语音操作的便利性，增加了智能设备的智能化程度，进而提升了用户体验，也丰富了用户体验。

本申请实施例还提供了一种智能设备，如图4所示，所述装置包括：

采集单元41，用于从智能设备所处环境中采集得到第一音频数据，所述第一音频数据至少包含第一用户输入的携带有针对所述智能设备的控制指令的音频数据；

文本转换单元42，用于将所述第一音频数据进行文本转换后，得到携带有所述控制指令的第一文本数据；

处理单元43，用于获取所述第一音频数据的声纹特征信息，并与数据库中历史音频数据进行跟踪匹配，得到跟踪匹配结果，其中，所述跟踪匹配结果表征所述第一音频数据的声纹特征信息所对应的第一用户与历史音频数据所对应目标用户的匹配程度；所述数据库中历史音频数据至少包括目标用户基于携带有指令头的音频数据唤醒所述智能设备后，所述智能设备所采集到的携带有针对所述智能设备的控制指令的历史音频数据；基于跟踪匹配结果确定是否运行所述第一文本数据所携带的控制指令。

在一具体实施例中，所述处理单元43，还用于：

对所述第一音频数据进行分割处理，得到至少两个子数据；

在一具体实施例中，所述处理单元43，还用于：

在一具体实施例中，所述采集单元41，用于采集得到针对目标用户的第二音频数据，所述第二音频数据为目标用户输入的携带有针对所述智能设备的控制指令的音频数据；

所述处理单元43，还用于获取所述第二音频数据的音频特征信息；确定所述第二音频数据的音频特征信息满足预设音频规则后，将所述第二音频数据作为数据库中针对目标用户的历史音频数据。

在另一具体实施例中，所述采集单元41，用于采集到携带有指令头的音频数据，并基于指令头唤醒所述智能设备；在唤醒状态中，所述智能设备采集得到第二音频数据，所述第二音频数据为目标用户输入的携带有针对所述智能设备的控制指令的音频数据；

所述处理单元43，还用于获取所述第二音频数据的音频特征信息；确定所述第二音频数据的音频特征信息满足预设音频规则后，将所述第二音频数据作为数据库针对目标用户的历史音频数据。

在另一具体实施例中，所述处理单元43，还用于检测所述智能设备所处环境的环境特征信息；选取与智能设备对应的环境特征信息相匹配的音频处理策略；

所述采集单元41，还用于基于选取出的音频处理策略对所处环境的音频数据进行采集。

在另一具体实施例中，所述处理单元43，还用于：

这里需要指出的是：以上设备实施例项的描述，与上述方法描述是类似的，具有同方法实施例相同的有益效果，因此不做赘述。对于本发明装置实施例中未披露的技术细节，本领域的技术人员请参照本发明方法实施例的描述而理解，为节约篇幅，这里不再赘述。

本申请实施例还提供了一种智能设备，包括：一个或多个处理器；与所述一个或多个处理器通信连接的存储器；一个或多个应用程序；其中，所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序被配置为执行以上所述的方法。

在一具体示例中，本申请实施例所述的智能设备可具体为如图5所示的结构，所述智能设备至少包括处理器51、存储介质52以及至少一个外部通信接口53；所述处理器51、存储介质52以及外部通信接口53均通过总线54连接。所述处理器51可为微处理器、中央处理器、数字信号处理器或可编程逻辑阵列等具有处理功能的电子元器件。所述存储介质中存储有计算机可执行代码，所述计算机可执行代码能够执行以上任一实施例所述的方法。在实际应用中，所述采集单元41、文本转换单元42以及处理单元43均可以通过所述处理器51实现。

这里需要指出的是：以上智能设备实施例项的描述，与上述方法描述是类似的，具有同方法实施例相同的有益效果，因此不做赘述。对于本发明智能设备实施例中未披露的技术细节，本领域的技术人员请参照本发明方法实施例的描述而理解，为节约篇幅，这里不再赘述。

本申请实施例还提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现以上所述的方法。

这里，计算机可读存储介质可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

上述所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

Claims

1.一种智能电梯的控制方法，其特征在于，所述方法包括：

从智能电梯所处环境中采集得到第一音频数据，所述第一音频数据至少包含第一用户输入的携带有针对所述智能电梯的控制指令的音频数据；所述第一音频数据未包含有用于唤醒所述智能电梯的指令头的相关数据；

将所述第一音频数据进行文本转换后，得到携带有所述智能电梯的第一文本数据；

获取所述第一音频数据的声纹特征信息，并与数据库中历史音频数据进行跟踪匹配，得到跟踪匹配结果，其中，所述跟踪匹配结果表征所述第一音频数据的声纹特征信息所对应的第一用户与历史音频数据所对应目标用户的匹配程度；所述数据库中历史音频数据至少包括目标用户基于携带有指令头的音频数据唤醒所述智能电梯后，所述智能电梯所采集到的携带有针对所述智能电梯的控制指令的历史音频数据；

在跟踪匹配结果表示确定出的第一音频数据对应的第一用户与历史音频数据对应的目标用户相匹配时，运行所述第一文本数据所携带的控制指令，以使智能电梯跟踪目标用户的声音，执行目标用户的控制指令。

2.根据权利要求1所述的方法，其特征在于，获取所述第一音频数据的声纹特征信息，并与数据库中历史音频数据进行跟踪匹配，得到跟踪匹配结果，包括：

对所述第一音频数据进行分割处理，得到至少两个子数据；

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定所述第一音频数据的声纹特征信息所对应的第一用户与历史音频数据所对应目标用户相匹配后，基于第一音频数据中第一用户的声纹特征信息，对所述智能电梯所处环境的音频数据进行跟踪监测，以确定是否存在针对第一用户的其他音频数据。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

采集得到针对目标用户的第二音频数据，所述第二音频数据为目标用户输入的携带有针对所述智能电梯的控制指令的音频数据；

获取所述第二音频数据的音频特征信息；

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

采集到携带有指令头的音频数据，并基于指令头唤醒所述智能电梯；

在唤醒状态中，所述智能电梯采集得到第二音频数据，所述第二音频数据为目标用户输入的携带有针对所述智能电梯的控制指令的音频数据；

获取所述第二音频数据的音频特征信息；

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

选取出与所述智能电梯对应的环境特征信息相匹配的第一音频处理策略，其中，所述第一音频数据为智能电梯基于第一音频处理策略而采集得到的；

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

选取出与所述智能电梯对应的环境特征信息相匹配的第二音频处理策略；

8.一种智能电梯，其特征在于，包括：

采集单元，用于所处环境中采集得到第一音频数据，所述第一音频数据至少包含第一用户输入的携带有针对所述智能电梯的控制指令的音频数据；所述第一音频数据未包含有用于唤醒所述智能电梯的指令头的相关数据；

处理单元，用于获取所述第一音频数据的声纹特征信息，并与数据库中历史音频数据进行跟踪匹配，得到跟踪匹配结果，其中，所述跟踪匹配结果表征所述第一音频数据的声纹特征信息所对应的第一用户与历史音频数据所对应目标用户的匹配程度；所述数据库中历史音频数据至少包括目标用户基于携带有指令头的音频数据唤醒所述智能电梯后，所述智能电梯所采集到的携带有针对所述智能电梯的控制指令的历史音频数据；在跟踪匹配结果表示确定出的第一音频数据对应的第一用户与历史音频数据对应的目标用户相匹配时，运行所述第一文本数据所携带的控制指令，以使智能电梯跟踪目标用户的声音，执行目标用户的控制指令。

9.一种智能设备，其特征在于，包括：

一个或多个处理器；

与所述一个或多个处理器通信连接的存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序被配置为执行权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7中任一项所述的方法。