CN111292729A

CN111292729A - 音频数据流的处理方法和装置

Info

Publication number: CN111292729A
Application number: CN202010081154.3A
Authority: CN
Inventors: 朱城锐; 冯大航; 陈孝良; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-02-06
Filing date: 2020-02-06
Publication date: 2020-06-16
Anticipated expiration: 2040-02-06
Also published as: CN111292729B

Abstract

本申请公开音频数据流的处理方法和装置，属于音频处理技术领域，该方法包括：对获取的音频数据流进行语音活动检测处理，当确定音频数据流中的第一语音数据时，将第一语音数据的边界信息和第一音频数据发送给服务器，接收服务器发送的用于表示第一语音数据的边界信息是否正确的消息，根据该消息确定用于对第一语音数据的边界信息进行更新的音频数据的时长，根据该时长对第一语音数据的边界信息进行更新，其中，边界信息正确时确定的音频数据的时长小于边界信息不正确时确定的音频数据的时长，这样，根据服务器反馈的信息灵活设置对第一语音数据的边界信息进行更新的音频数据的时长，不必每次均等待相同时长，因此，可提升语音活动检测的效率。

Description

音频数据流的处理方法和装置

技术领域

本申请涉及音频处理技术领域，尤其涉及音频数据流的处理方法和装置。

背景技术

目前，智能设备如智能音箱是将获取的音频数据流发送给服务器，由服务器对音频数据流进行业务处理，将业务处理结果反馈给智能设备，然后，再由智能设备根据业务处理结果与用户进行交互。然而，由于用户说话时会存在停顿，所以智能设备获取的音频数据流中即包含语音数据也包含非语音数据，如噪声数据、静音数据等，非语音数据其实是不需要服务器进行处理的，因此，可以由智能设备对获取的音频数据流进行语音活动检测(Voice Active Detection，VAD)处理，以确定音频数据流中的语音数据，后续，服务器可仅对音频数据流中的语音数据进行业务处理。

现有技术中，智能设备是依照信号强弱来区分音频数据流中的语音数据和非语音数据，并且，每次在判定语音数据结束后均需等待一段时间，如果这段时间内的音频数据流中没有新的语音数据，再判定语音数据真正结束。一般地，为了提高语音活动检测的准确率，等待时长往往设置的都比较长，这样，会拖慢语音活动检测效率，降低智能设备与服务器之间的交互速度，容易影响用户体验。

发明内容

本申请实施例提供一种音频数据流的处理方法和装置，用以解决现有技术中存在的语音活动检测效率低，易影响用户体验的问题。

第一方面，本申请实施例提供的一种音频数据流的处理方法，包括：

对获取的音频数据流进行语音活动检测处理，以确定所述音频数据流中的语音数据；

当确定所述音频数据流中存在第一语音数据时，将所述第一语音数据的边界信息和所述音频数据流中的第一音频数据发送给服务器，所述边界信息包括所述第一语音数据在所述音频数据流中的起始时刻和结束时刻，所述第一音频数据中包括所述第一语音数据；

接收所述服务器发送的用于表示所述第一语音数据的边界信息是否正确的消息；

根据所述消息，确定用于对所述第一语音数据的边界信息进行更新的音频数据的时长，其中，边界信息正确时确定的音频数据的时长小于边界信息不正确时确定的音频数据的时长；

根据确定的音频数据的时长对所述第一语音数据的边界信息进行更新。

在一种可能的实施方式下，根据所述消息，确定用于对所述第一语音数据的边界信息进行更新的音频数据的时长，包括：

若所述消息表示所述边界信息正确，则确定用于对所述第一语音数据的边界信息进行更新的音频数据的时长为零或者为第一预设值；

若所述消息表示所述边界信息不正确，则确定用于对所述第一语音数据的边界信息进行更新的音频数据的时长为第二预设值。

在一种可能的实施方式下，根据确定的音频数据的时长对所述第一语音数据的边界信息进行更新，包括：

对所述音频数据流中以所述第一语音数据的结束时刻为起始时刻、且时长等于确定的音频数据的时长的目标音频数据，若确定所述目标音频数据中存在第二语音数据，则将所述第一语音数据的结束时刻更新为所述第二语音数据的结束时刻；以及

若确定所述目标音频数据中不存在第二语音数据，则将所述第一语音数据的边界信息确定为更新后的所述第一语音数据的边界信息。

在一种可能的实施方式下，根据确定的音频数据的时长对所述第一语音数据的边界信息进行更新之后，还包括：

若确定更新后的所述第一语音数据的边界信息与更新前的所述第一语音数据的边界信息不同，则将更新后的所述第一语音数据的边界信息和第二音频数据发送给所述服务器，所述第二音频数据中包括所述第二语音数据；

若接收到所述服务器发送的用于表示更新后的所述第一语音数据的边界信息不正确的消息，则根据所述第一语音数据的边界更新次数和预设的边界更新次数的上限确定是否继续进行边界更新。

在一种可能的实施方式下，还包括：

接收所述服务器发送的业务处理结果，所述业务处理结果是所述服务器在确定接收到的所述第一语音数据的边界信息正确后、对所述第一语音数据的语音识别结果进行业务处理得到的；

根据所述业务处理结果与当前用户进行交互。

第二方面，本申请实施例提供的一种音频数据流的处理方法，包括：

接收智能设备发送的第一语音数据的边界信息和音频数据流中的第一音频数据，所述边界信息包括所述第一语音数据在所述音频数据流中的起始时刻和结束时刻，所述第一音频数据中包括所述第一语音数据；

根据所述第一语音数据的边界信息，对所述第一音频数据中的语音数据进行语音识别；

将语音识别结果输入到训练的语义判断模型中，以判断所述第一语音数据的语义是否完整；

根据所述语义判断模型的输出结果，向所述智能设备发送用于表示所述第一语音数据的边界信息是否正确的消息。

在一种可能的实施方式下，还包括：

接收所述智能设备发送的更新后的所述第一语音数据的边界信息和第二音频数据，所述第二音频数据中包括第二语音数据；

对所述第一音频数据和所述第二音频数据进行组合处理；

根据更新后的所述第一语音数据的边界信息，对组合处理后的音频数据中的语音数据进行语音识别；

执行将语音识别结果输入到训练的语义判断模型中，以判断所述第一语音数据的语义是否完整的步骤。

在一种可能的实施方式下，根据所述语义判断模型的输出结果，向所述智能设备发送用于表示所述第一语音数据的边界信息是否正确的消息，包括：

若所述输出结果表示所述第一语音数据的语义完整，则向所述智能设备发送用于表示所述第一语音数据的边界信息正确的消息；

若所述输出结果表示所述第一语音数据的语义不完整，则向所述智能设备发送用于表示所述第一语音数据的边界信息不正确的消息。

在一种可能的实施方式下，若确定接收到的所述第一语音数据的边界信息正确，则还包括：

对所述边界信息对应的语音识别结果进行业务处理；

向所述智能设备发送业务处理结果。

在一种可能的实施方式下，根据以下步骤训练所述语义判断模型：

获取多个语句样本；

对每个语句样本进行分词处理，将分词处理后得到的词语序列输入到深度学习网络模型中，以判断所述语句样本的语义是否完整；

根据每个语句样本原有的用于表示该语句样本的语义是否完整的语义标识和所述深度学习网络模型输出的该语句样本的语义标识，调整所述深度学习网络模型的参数，建立所述语义判断模型。

第三方面，本申请实施例提供的一种音频数据流的处理装置，包括：

检测模块，用于对获取的音频数据流进行语音活动检测处理，以确定所述音频数据流中的语音数据；

发送模块，用于当确定所述音频数据流中存在第一语音数据时，将所述第一语音数据的边界信息和所述音频数据流中的第一音频数据发送给服务器，所述边界信息包括所述第一语音数据在所述音频数据流中的起始时刻和结束时刻，所述第一音频数据中包括所述第一语音数据；

接收模块，用于接收所述服务器发送的用于表示所述第一语音数据的边界信息是否正确的消息；

确定模块，用于根据所述消息，确定用于对所述第一语音数据的边界信息进行更新的音频数据的时长，其中，边界信息正确时确定的音频数据的时长小于边界信息不正确时确定的音频数据的时长；

更新模块，用于根据确定的音频数据的时长对所述第一语音数据的边界信息进行更新。

在一种可能的实施方式下，所述确定模块具体用于：

在一种可能的实施方式下，所述更新模块具体用于：

在一种可能的实施方式下，还包括控制模块：

所述发送模块，还用于在根据确定的音频数据的时长对所述第一语音数据的边界信息进行更新之后，若确定更新后的所述第一语音数据的边界信息与更新前的所述第一语音数据的边界信息不同，则将更新后的所述第一语音数据的边界信息和第二音频数据发送给所述服务器，所述第二音频数据中包括所述第二语音数据；

所述控制模块，用于若接收到所述服务器发送的用于表示更新后的所述第一语音数据的边界信息不正确的消息，则根据所述第一语音数据的边界更新次数和预设的边界更新次数的上限确定是否继续进行边界更新。

在一种可能的实施方式下，还包括交互模块：

所述接收模块，还用于接收所述服务器发送的业务处理结果，所述业务处理结果是所述服务器在确定接收到的所述第一语音数据的边界信息正确后、对所述第一语音数据的边界信息对应的语音识别结果进行业务处理得到的；

所述交互模块，用于根据所述业务处理结果与当前用户进行交互。

第四方面，本申请实施例提供的一种音频数据流的处理装置，包括：

接收模块，用于接收智能设备发送的第一语音数据的边界信息和音频数据流中的第一音频数据，所述边界信息包括所述第一语音数据在所述音频数据流中的起始时刻和结束时刻，所述第一音频数据中包括所述第一语音数据；

识别模块，用于根据所述第一语音数据的边界信息，对所述第一音频数据中的语音数据进行语音识别；

判断模块，用于将语音识别结果输入到训练的语义判断模型中，以判断所述第一语音数据的语义是否完整；

发送模块，用于根据所述语义判断模型的输出结果，向所述智能设备发送用于表示所述第一语音数据的边界信息是否正确的消息。

在一种可能的实施方式下，还包括组合模块：

所述接收模块，还用于接收所述智能设备发送的更新后的所述第一语音数据的边界信息和第二音频数据，所述第二音频数据中包括第二语音数据；

所述组合模块，用于对所述第一音频数据和所述第二音频数据进行组合处理；

所述识别模块，还用于根据更新后的所述第一语音数据的边界信息，对组合处理后的音频数据中的语音数据进行语音识别，执行将语音识别结果输入到训练的语义判断模型中，以判断所述第一语音数据的语义是否完整的步骤。

在一种可能的实施方式下，所述发送模块具体用于：

在一种可能的实施方式下，还包括业务处理模块：

所述业务处理模块，用于若确定接收到的所述第一语音数据的边界信息正确，则对所述边界信息对应的语音识别结果进行业务处理；

所述发送模块，还用于向所述智能设备发送业务处理结果。

获取多个语句样本；

第五方面，本申请实施例提供的一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中：

存储器存储有可被至少一个处理器执行的指令，该指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述任一音频数据流的处理方法。

第六方面，本申请实施例提供的一种计算机可读介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述任一音频数据流的处理方法。

本申请实施例中，对获取的音频数据流进行语音活动检测处理，以确定音频数据流中的语音数据，当确定音频数据流中存在第一语音数据时，将第一语音数据的边界信息和音频数据流中的第一音频数据发送给服务器，其中，边界信息包括第一语音数据在音频数据流中的起始时刻和结束时刻，第一音频数据中包括第一语音数据，接收服务器发送的用于表示第一语音数据的边界信息是否正确的消息，根据该消息确定用于对第一语音数据的边界信息进行更新的音频数据的时长，进而根据确定的音频数据的时长对第一语音数据的边界信息进行更新，其中，边界信息正确时确定的音频数据的时长小于边界信息不正确时确定的音频数据的时长，这样，在确定出音频数据流中第一语音数据的边界信息后，将第一语音数据的边界信息和音频数据流中包含第一语音数据的第一音频数据发送给服务器，根据服务器反馈的第一语音数据的边界信息是否正确的信息，灵活设置用于对第一语音数据的边界信息进行更新的音频数据的时长，不必每次均等待相同时长，因此，可提升语音活动检测的效率，提升智能设备与服务器之间的交互速度，用户体验也较好。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种音频数据流的处理方法的应用场景图；

图2是本申请实施例提供的一种音频数据流的处理过程的示意图；

图3为本申请实施例提供的一种音频数据流的处理方法的流程图；

图4为本申请实施例提供的又一种音频数据流的处理方法的流程图；

图5为本申请实施例提供的一种训练语义判断模型的流程图；

图6是本申请实施例提供的一种深度学习网络模型的示意图；

图7为本申请实施例提供的一种音频数据流的处理装置的结构示意图；

图8为本申请实施例提供的又一种音频数据流的处理装置的结构示意图；

图9为本申请实施例提供的一种用于实现任一种音频数据流的处理方法的电子设备的硬件结构示意图。

具体实施方式

为了解决现有技术中在进行语音活动检测时存在的语音活动检测效率低，易影响用户体验的问题，本申请实施例提供了音频数据流的处理方法和装置。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

参见图1，图1示出了本申请实施例提供的一种音频数据流的处理方法的应用场景图，包括，智能设备11和与智能设备11通过通信网络连接的服务器12，其中：

智能设备11，如智能音箱，用于对获取的音频数据流进行语音活动检测处理，以确定音频数据流中的语音数据，当确定音频数据流中存在第一语音数据时，将第一语音数据的边界信息和音频数据流中的第一音频数据发送给服务器，其中，边界信息包括第一语音数据在音频数据流中的起始时刻和结束时刻，第一音频数据中包括第一语音数据。

具体实施时，若第一语音数据为音频数据流中的首段语音数据，则第一音频数据的起始时刻可以为音频数据流的起始时刻，若第一语音数据不为音频数据流中的首段语音数据，则第一音频数据的起始时刻可以为音频数据流中上一段语音数据的结束时刻，第一音频数据的结束时刻可以为第一语音数据(当前段语音数据)的结束时刻。

服务器12，用于接收智能设备发送的第一语音数据的边界信息和音频数据流中的第一音频数据，根据第一语音数据的边界信息，对第一音频数据中的语音数据进行语音识别，将语音识别结果输入到训练的语义判断模型中，以判断第一语音数据的语义是否完整，根据语义判断模型的输出结果，向智能设备发送用于表示第一语音数据的边界信息是否正确的消息。

智能设备11，用于接收服务器发送的用于表示第一语音数据的边界信息是否正确的消息，根据该消息，确定用于对第一语音数据的边界信息进行更新的音频数据的时长，根据确定的音频数据的时长对第一语音数据的边界信息进行更新，其中，边界信息正确时确定的音频数据的时长小于边界信息不正确时确定的音频数据的时长。

具体实施时，对音频数据流中以第一语音数据的结束时刻为起始时刻、且时长等于确定的音频数据的时长的目标音频数据，智能设备若确定目标音频数据中存在第二语音数据，则将第一语音数据的边界信息中的结束时刻更新为第二语音数据的结束时刻；若确定目标音频数据中不存在第二语音数据，则将第一语音数据的边界信息确定为更新后的第一语音数据的边界信息。

智能设备11，还用于若确定更新后的第一语音数据的边界信息与更新前的第一语音数据的边界信息不同，则将更新后的第一语音数据的边界信息和第二音频数据发送给服务器，其中，第二音频数据中包括第二语音数据。

具体实施时，第二音频数据的起始时刻可以为第一音频数据的结束时刻，第二音频数据的结束时刻可以为第二语音数据的结束时刻，这样，可以避免给服务器发送重叠的音频数据，提升轻服务器的音频数据处理速度，进一步提语音活动检测的效率。

服务器12，还用于接收智能设备发送的更新后的第一语音数据的边界信息和第二音频数据，对第一音频数据和第二音频数据进行组合处理，根据更新后第一语音数据的边界信息，对组合处理后的音频数据中的语音数据进行语音识别，将语音识别结果输入到训练的语义判断模型中，以判断第一语音数据的语义是否完整，根据语义判断模型的输出结果，向智能设备发送用于表示更新后的第一语音数据的边界信息是否正确的消息。

智能设备11，还用于若接收到服务器发送的用于表示更新后的第一语音数据边界信息不正确的消息，则根据第一语音数据的边界已更新次数和预设的边界更新次数的上限确定是否继续进行边界更新。

另外，服务器12，还用于若确定接收到的第一语音数据的边界信息正确，则可对边界信息对应的语音识别结果进行业务处理，并向智能设备发送业务处理结果。

相应地，智能设备11，还用于根据服务器发送的业务处理结果与当前用户进行交互。

本申请实施例中，智能设备在确定出音频数据流中第一语音数据的边界信息后，将第一语音数据的边界信息和音频数据流中包含第一语音数据的第一音频数据发送给服务器，进而根据服务器反馈的第一语音数据的边界信息是否正确的信息，灵活设置用于对第一语音数据的边界信息进行更新的音频数据的时长，由于服务器的运算速度很快，所以反馈第一语音数据的边界信息是否正确的信息的时间会比现有技术中的等待时间短很多，并且，灵活设置对第一语音数据的边界信息进行更新的音频数据的时长，也不必每次均等待相同时长，因此，可提升语音活动检测的效率，提升智能设备与服务器之间的交互速度，用户体验也较好。

下面结合具体的实施例对本申请的技术方案进行介绍。

参见图2，图2是本申请实施例提供的一种音频数据流的处理过程的示意图。假设智能设备获取到的音频数据流为“□□□aaa□□□bbb□□□”，其中，“□”代表音频数据中的非语音数据如静音数据等，“aaa”和“bbb”代表音频数据流中的语音数据，此时，智能设备可对“□□□aaa□□□bbb□□□”进行语音活动检测处理，以确定“□□□aaa□□□bbb□□□”中的语音数据，在确定出“□□□aaa□□□bbb□□□”中包含语音数据“aaa”后，可将“aaa”的边界信息和“□□□aaa”发送给服务器。

服务器在接收到“aaa”的边界信息和“□□□aaa”后，可根据“aaa”的边界信息对“□□□aaa”中的语音数据进行语音识别，进而将语音识别结果输入到预先训练的语义判断模型中，以判断“aaa”的语义是否完整。

一种情况，语义判断模型的输出结果表示“aaa”的语义不完整，则服务器可向智能设备发送用于表示“aaa”的边界信息不正确的消息。

智能设备在接收到服务器发送的用于表示“aaa”的边界信息不正确的消息后，可根据该消息，确定用于对“aaa”的边界信息进行更新的音频数据的时长，其中，边界信息正确时确定的音频数据的时长小于边界信息不正确时确定的音频数据的时长。

假设边界信息不正确时确定的音频数据的时长为100ms，则对音频数据流中从“aaa”的结束时刻之后100ms内的目标音频数据，智能设备若确定目标音频数据中存在语音数据“bbb”，则说明“aaa”和“bbb”之间的停顿时间小于100ms，可判定“aaa”和“bbb”是一句话，进而将“aaa”的结束时刻更新为“bbb”的结束时刻；若确定目标音频数据中不存在语音数据，则判定“aaa”是一句话，进而将“aaa”的边界信息确定为更新后“aaa”的边界信息。

另一种情况，语义判断模型的输出结果表示“aaa”的语义完整，则服务器可向智能设备发送用于表示“aaa”的边界信息正确的消息。

智能设备在接收到服务器发送的用于表示“aaa”的边界信息正确的消息后，可根据该消息，确定用于对“aaa”的边界信息进行更新的音频数据的时长，其中，边界信息正确时确定的音频数据的时长小于边界信息不正确时确定的音频数据的时长。

假设边界信息正确时确定的音频数据的时长为0ms，则智能设备可将“aaa”的边界信息确定为更新后“aaa”的边界信息，即判定“aaa”是一句话。

假设边界信息正确时确定的音频数据的时长为20ms，则对音频数据流中从“aaa”的结束时刻之后20ms内的目标音频数据，若确定目标音频数据中存在新的语音数据“bbb”，则说明“aaa”和“bbb”之间的停顿时间小于20ms，可判定“aaa”和“bbb”是一句话，进而将“aaa”的结束时刻更新为“bbb”的结束时刻；若确定目标音频数据中不存在语音数据，则判定“aaa”是一句话，进而将“aaa”的边界信息确定为更新后的“aaa”的边界信息。

具体实施时，将“aaa”的边界信息正确时对下一段语音数据的等待时长设置为零(即边界信息正确时确定的音频数据的时长为零)，可进一步提升语音活动检测的效率，而将“aaa”的边界信息正确时对下一段语音数据的等待时长设置为大于零的预设值(即边界信息正确时确定的音频数据的时长不为零)，可在服务器对语音数据的语义完整情况出现误判时，对语音活动检测效果起到一定程度的补救作用。具体选择哪种设置由技术人员根据实际需求确定，在此不再赘述。

具体实施时，无论上述哪种情况，智能设备若确定更新后的“aaa□□□bbb”的边界信息与更新前的“aaa”的边界信息不同，还可将更新后的“aaa□□□bbb”的边界信息和“□□□bbb”发送给服务器。

服务器在接收到更新后的“aaa□□□bbb”的边界信息和“□□□bbb”之后，可将“□□□bbb”拼接在“□□□aaa”的后面，得到“□□□aaa□□□bbb”，再根据更新后的“aaa□□□bbb”的边界信息，对“□□□aaa□□□bbb”中的语音数据进行语音识别，将识别结果输入到语义判断模型中以判断“aaa□□□bbb”的语义是否完整。

需要说明的是，为了避免智能设备对音频数据流的语音活动检测陷入停滞不前的情况，还可对每段语音数据设置边界更新次数的上限。假设设置的上限为1次，那么，上述过程中，若智能设备再次接收到服务器发送的用于表示更新后的“aaa□□□bbb”的边界信息不正确的信息，则可结束对“aaa□□□bbb”的边界信息的更新，接着进入对音频数据流中下一段语音数据“bbb”的处理。另外，服务器在确定接收到的边界信息正确时，可对相应的语音识别结果进行业务处理，并将业务处理结果发送给智能设备，智能设备在接收到服务器发送的业务处理结果后，可根据业务处理结果与当前用户进行交互。

比如上述“aaa”和“bbb”表示“我想听XX歌曲”那么，服务器可根据“我想听XX歌曲”的语音识别结果获取相应的歌曲内容，进而将歌曲内容发送给智能设备，智能设备在接收到歌曲内容后，则可播放歌曲内容。

需要说明的是，此处仅为举例，并不构成对本申请实施例中智能设备与当前用户之间交互内容的限定，实际应用中，智能设备与当前用户之间的交互内容可以是点播歌曲，可以是调节音量，也可以是问答等。

如图3所示，为本申请实施例提供的一种音频数据流的处理方法的流程图，该方法应用于图1中的智能设备，该方法的流程包括以下步骤：

S301：对获取的音频数据流进行语音活动检测处理，以确定音频数据流中的语音数据。

具体实施时，智能设备获取的音频数据流中既会有语音数据也会有非语音数据，如静音数据、噪声数据等。

S302：当确定音频数据流中存在第一语音数据时，将第一语音数据的边界信息和音频数据流中的第一音频数据发送给服务器。

其中，边界信息包括第一语音数据在音频数据流中的起始时刻和结束时刻，第一音频数据中包括第一语音数据。

比如，当第一语音数据是音频数据流中的首段语音数据时，第一音频数据的起始时刻为音频数据流的起始时刻，当第一语音数据不是音频数据流中的首段语音数据时，第一音频数据的起始时刻为音频数据流中上一段语音数据的结束时刻，第一音频数据的结束时刻为第一语音数据的结束时刻。

这样，智能设备发送给服务器的音频数据之间没有重叠，服务器直接按照接收到音频数据的顺序对音频数据进行组合即可，可降低服务器的组合难度，进一步提升语音活动检测的效率。

S303：接收服务器发送的用于表示第一语音数据的边界信息是否正确的消息。

S304：根据该消息确定用于对第一语音数据的边界信息进行更新的音频数据的时长，其中，边界信息正确时确定的音频数据的时长小于边界信息不正确时确定的音频数据的时长。

具体实施时，若该消息表示边界信息正确，则可确定用于对第一语音数据的边界信息进行更新的音频数据的时长为零或者为第一预设值；若该消息表示边界信息不正确，则确定用于对第一语音数据的边界信息进行更新的音频数据的时长为第二预设值，其中，第一预设值和第二预设值均不为零，且第一预设值小于第二预设值。

也就是说，在本申请实施例中，当第一语音数据的边界信息正确时，智能设备可以不等或者少等一段时间，当第一语音数据的边界信息不正确时，智能设备可多等一段时间，这样，可灵活设置语音活动检测处理中的等待时间，有效提高对音频数据的语音活动检测效率。

S305：根据确定的音频数据的时长对第一语音数据的边界信息进行更新。

具体实施时，对音频数据流中以第一语音数据的结束时刻为起始时刻、且时长等于确定的音频数据的时长的目标音频数据，若确定目标音频数据中存在第二语音数据，则可将第一语音数据的边界信息中的结束时刻更新为第二语音数据的结束时刻；若确定目标音频数据中不存在第二语音数据，则可将第一语音数据的边界信息确定为更新后第一语音数据的边界信息。

S306：若确定更新后的第一语音数据的边界信息与更新前的第一语音数据的边界信息不同，则将更新后的第一语音数据的边界信息和第二音频数据发送给服务器。

其中，第二音频数据中包括第二语音数据，比如，第二音频数据的起始时刻为第一音频数据的结束时刻(即第一语音数据的结束时刻)，第二音频数据的结束时刻为第二语音数据的结束时刻。

S307：若接收到服务器发送的用于表示更新后的第一语音数据的边界信息不正确的消息，则根据第一语音数据的边界更新次数和预设的边界更新次数的上限确定是否继续进行边界更新。

这样，设定边界信息更新次数的上限，可有效避免会语音活动检测处理停滞不前的情况，提升语音活动检测的准确率，从而提升用户体验。

另外，当智能设备接收到服务器发送的业务处理结果时，还可根据业务处理结果与当前用户进行交互。

如图4所示，为本申请实施例提供的再一种音频数据流的处理方法的流程图，该方法应用于图1中的服务器，该方法的流程包括以下步骤：

S401：接收智能设备发送的第一语音数据的边界信息和音频数据流中的第一音频数据。

其中，边界信息包括语音数据在音频数据流中的起始时刻和结束时刻，第一音频数据中包括第一语音数据。

S402：根据第一语音数据的边界信息，对第一音频数据中的语音数据进行语音识别。

具体实施时，服务器从第一语音数据的边界信息中的起始时刻开始对第一音频数据进行语音识别，直至到第一语音数据的边界信息中的结束时刻时，结束对第一音频数据进行语音识别，这样，就得到了第一音频数据中语音数据的语音识别结果。

S403：将语音识别结果输入到训练的语义判断模型中，以判断第一语音数据的语义是否完整。

其中，第一语音数据的语义是否完整是指第一语音数据是否能够表达完整的意思，是否是一个句子。

S404：根据语义判断模型的输出结果，向智能设备发送用于表示第一语音数据的边界信息是否正确的消息。

在一种可能的实施方式下，服务器还会接收到智能设备发送的更新后的第一语音数据的边界信息和第二音频数据，其中，第二音频数据中包括第二语音数据，此时，服务器可对第一音频数据和第二音频数据进行组合处理，然后，根据更新后的第一语音数据的边界信息，对组合处理后的音频数据中的语音数据进行语音识别，将语音识别结果输入到训练的语义判断模型中，以判断第一语音数据的语义是否完整，根据语义判断模型的输出结果，向智能设备发送用于表示更新后的第一语音数据的边界信息是否正确的消息。

具体实施时，对第一语音数据的任一边界信息，若语义判断模型的输出结果表示第一语音数据的语义完整，则向智能设备发送用于表示第一语音数据的边界信息正确的消息；若语义判断模型的输出结果表示第一语音数据的语义不完整，则向智能设备发送用于表示第一语音数据的边界信息不正确的消息。

S405：若确定接收到的第一语音数据的边界信息正确，则根据边界信息对应的语音识别结果进行业务处理。

S406：向智能设备发送业务处理结果。

需要说明的是，上述S404与S405-S406之间没有严格的先后顺序关系。

本申请实施例中，接收智能设备发送的第一语音数据的边界信息和音频数据流中的第一音频数据，其中，边界信息包括第一语音数据在所述音频数据流中的起始时刻和结束时刻，第一音频数据中包括第一语音数据，根据第一语音数据的边界信息，对第一音频数据中的语音数据进行语音识别，将语音识别结果输入到训练的语义判断模型中，以判断第一语音数据的语义是否完整，根据语义判断模型的输出结果，向智能设备发送用于表示第一语音数据的边界信息是否正确的消息，这样，借助于服务器来判定智能设备确定的音频数据流中第一语音数据的边界信息是否正确，由于服务器的运算速度很快，所以服务器向智能设备反馈第一语音数据的边界信息是否正确的消息的速度会远远小于现有技术中的等待时间，并且，智能设备在根据该消息确定用于对第一语音数据的边界信息进行更新的音频数据的时长时，当边界信息正确时确定的音频数据的时长小于边界信息不正确时确定的音频数据的时长，这样，灵活设置用于对第一语音数据的边界信息进行更新的音频数据的时长，不必每次均等待相同时长，因此，可提升语音活动检测的效率，提升智能设备与服务器之间的交互速度，用户体验也较好。

具体实施时，可以按照图5所示的流程训练语义判断模型，包括以下步骤：

S501：获取多个语句样本。

具体实施时，获取的这多个语句样本中即包括语义完整的句子，又包括语义不完整的句子。

S502：对每个语句样本进行分词处理，将分词处理后得到的词语序列输入到深度学习网络模型中，以判断该语句样本的语义是否完整。

参见图6，图6是本申请实施例提供的一种深度学习网络模型的示意图，该深度学习网络模型为一个64单元的长短期记忆(Long Short-Term Memory，LSTM)网络。

具体实施时，每个语句样本为一个词语序列，每个词语序列里的元素是每句话里的词语(可以是单个字)，这些词语根据事先统计好的字典编成对应的数字，将这些词语对应的数字输入到LSTM网络中，在LSTM网络中这些数字会首先变成one-hot向量，通过embedding变换之后再送入循环神经网络(Recurrent Neural Network，RNN)，通过RNN之后在最后一个字的地方得到该语句样本的输出结果。

实际应用中，深度学习网络模型也可以采用其他机器学习算法，如贝叶斯分类。

S503：根据每个语句样本原有的用于表示该语句样本的语义是否完整的语义标识和深度学习网络模型输出的该语句样本的语义标识，调整深度学习网络模型的参数，建立语义判断模型。

具体实施时，针对每个语句样本，可以对比该语句样本原有的语义标识和深度学习模型输出的该语句样本的语义标识是否相同，若不相同，则可调整深度学习模型的参数以使调整后的深度学习模型输出的该语句样本的语义标识与该语句样本原有的语义标识相同。

当本申请实施例中提供的方法以软件或硬件或软硬件结合实现的时候，电子设备中可以包括多个功能模块，每个功能模块可以包括软件、硬件或其结合。

图7为本申请实施例提供的一种音频数据流的处理装置的结构示意图，包括检测模块701、发送模块702、接收模块703、确定模块704、更新模块705。

检测模块701，用于对获取的音频数据流进行语音活动检测处理，以确定所述音频数据流中的语音数据；

发送模块702，用于当确定所述音频数据流中存在第一语音数据时，将所述第一语音数据的边界信息和所述音频数据流中的第一音频数据发送给服务器，所述边界信息包括所述第一语音数据在所述音频数据流中的起始时刻和结束时刻，所述第一音频数据中包括所述第一语音数据；

接收模块703，用于接收所述服务器发送的用于表示所述第一语音数据的边界信息是否正确的消息；

确定模块704，用于根据所述消息，确定用于对所述第一语音数据的边界信息进行更新的音频数据的时长，其中，边界信息正确时确定的音频数据的时长小于边界信息不正确时确定的音频数据的时长；

更新模块705，用于根据确定的音频数据的时长对所述第一语音数据的边界信息进行更新。

在一种可能的实施方式下，所述确定模块704具体用于：

在一种可能的实施方式下，所述更新模块705具体用于：

在一种可能的实施方式下，还包括控制模块706：

所述发送模块702，还用于在根据确定的音频数据的时长对所述第一语音数据的边界信息进行更新之后，若确定更新后的所述第一语音数据的边界信息与更新前的所述第一语音数据的边界信息不同，则将更新后的所述第一语音数据的边界信息和第二音频数据发送给所述服务器，所述第二音频数据中包括所述第二语音数据；

所述控制模块706，用于若接收到所述服务器发送的用于表示更新后的所述第一语音数据的边界信息不正确的消息，则根据所述第一语音数据的边界更新次数和预设的边界更新次数的上限确定是否继续进行边界更新。

在一种可能的实施方式下，还包括交互模块707：

所述接收模块703，还用于接收所述服务器发送的业务处理结果，所述业务处理结果是所述服务器在确定接收到的所述第一语音数据的边界信息正确后、对所述第一语音数据的边界信息对应的语音识别结果进行业务处理得到的；

所述交互模块707，用于根据所述业务处理结果与当前用户进行交互。

图8为本申请实施例提供的又一种音频数据流的处理装置的结构示意图，包括接收模块801、识别模块802、判断模块803、发送模块804。

接收模块801，用于接收智能设备发送的第一语音数据的边界信息和音频数据流中的第一音频数据，所述边界信息包括所述第一语音数据在所述音频数据流中的起始时刻和结束时刻，所述第一音频数据中包括所述第一语音数据；

识别模块802，用于根据所述第一语音数据的边界信息，对所述第一音频数据中的语音数据进行语音识别；

判断模块803，用于将语音识别结果输入到训练的语义判断模型中，以判断所述第一语音数据的语义是否完整；

发送模块804，用于根据所述语义判断模型的输出结果，向所述智能设备发送用于表示所述边界信息是否正确的消息。

在一种可能的实施方式下，还包括组合模块805：

所述接收模块801，还用于接收所述智能设备发送的更新后的所述第一语音数据的边界信息和第二音频数据，所述第二音频数据中包括第二语音数据；

所述组合模块805，用于对所述音频数据流和所述第三音频数据进行组合处理；

所述识别模块802，还用于根据更新后的所述第一语音数据的边界信息，对组合处理后的音频数据中的语音数据进行语音识别，执行将语音识别结果输入到训练的语义判断模型中，以判断所述第一语音数据的语义是否完整的步骤。

在一种可能的实施方式下，所述发送模块804具体用于：

在一种可能的实施方式下，还包括业务处理模块806：

所述业务处理模块806，用于若确定接收到的所述第一语音数据的边界信息正确，则对所述边界信息对应的语音识别结果进行业务处理；

所述发送模块804，还用于向所述智能设备发送业务处理结果。

获取多个语句样本；

本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，另外，在本申请各个实施例中的各功能模块可以集成在一个处理器中，也可以是单独物理存在，也可以两个或两个以上模块集成在一个模块中。各个模块相互之间的耦合可以是通过一些接口实现，这些接口通常是电性通信接口，但是也不排除可能是机械接口或其它的形式接口。因此，作为分离部件说明的模块可以是或者也可以不是物理上分开的，既可以位于一个地方，也可以分布到同一个或不同设备的不同位置上。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

参见图9所示，为本申请实施例提供的一种电子设备的结构示意图，该电子设备包括收发器901以及处理器902等物理器件，其中，处理器902可以是一个中央处理单元(central processing unit，CPU)、微处理器、专用集成电路、可编程逻辑电路、大规模集成电路、或者为数字处理单元等等。收发器901用于电子设备和其他设备进行数据收发。

该电子设备还可以包括存储器903用于存储处理器902执行的软件指令，当然还可以存储电子设备需要的一些其他数据，如电子设备的标识信息、电子设备的加密信息、用户数据等。存储器903可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器903也可以是非易失性存储器(non-volatilememory)，例如只读存储器(read-only memory，ROM)，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器903是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器903可以是上述存储器的组合。

本申请实施例中不限定上述处理器902、存储器903以及收发器901之间的具体连接介质。本申请实施例在图9中仅以存储器903、处理器902以及收发器901之间通过总线904连接为例进行说明，总线在图9中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

处理器902可以是专用硬件或运行软件的处理器，当处理器902可以运行软件时，处理器902读取存储器903存储的软件指令，并在所述软件指令的驱动下，执行前述实施例中涉及的任一音频数据流的处理方法。

本申请实施例还提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行前述实施例中涉及的任一音频数据流的处理方法。

在一些可能的实施方式中，本申请提供的任一音频数据流的处理方法的各个方面还可以实现为一种程序产品的形式，所述程序产品中包括有程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使所述电子设备执行前述实施例中涉及的任一音频数据流的处理方法。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请实施例提供的用于音频数据处理的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算设备上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，所述程序设计语言包括面向对象的程序设计语言诸如Java、C++等，还包括常规的过程式程序设计语言诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种音频数据流的处理方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，根据所述消息，确定用于对所述第一语音数据的边界信息进行更新的音频数据的时长，包括：

3.如权利要求1或2所述的方法，其特征在于，根据确定的音频数据的时长对所述第一语音数据的边界信息进行更新，包括：

4.如权利要求3所述的方法，其特征在于，根据确定的音频数据的时长对所述第一语音数据的边界信息进行更新之后，还包括：

5.如权利要求1所述的方法，其特征在于，还包括：

根据所述业务处理结果与当前用户进行交互。

6.一种音频数据流的处理方法，其特征在于，包括：

7.如权利要求6所述的方法，其特征在于，还包括：

对所述第一音频数据和所述第二音频数据进行组合处理；

8.如权利要求6或7所述的方法，其特征在于，根据所述语义判断模型的输出结果，向所述智能设备发送用于表示所述第一语音数据的边界信息是否正确的消息，包括：

9.如权利要求6或7所述的方法，其特征在于，若确定接收到的所述第一语音数据的边界信息正确，则还包括：

对所述边界信息对应的语音识别结果进行业务处理；

向所述智能设备发送业务处理结果。

10.如权利要求6所述的方法，其特征在于，根据以下步骤训练所述语义判断模型：

获取多个语句样本；

11.一种音频数据流的处理装置，其特征在于，包括：

12.如权利要求11所述的装置，其特征在于，所述确定模块具体用于：

13.如权利要求11或12所述的装置，其特征在于，所述更新模块具体用于：

14.如权利要求13所述的装置，其特征在于，还包括控制模块：

15.如权利要求11所述的装置，其特征在于，还包括交互模块：

16.一种音频数据流的处理装置，其特征在于，包括：

17.如权利要求16所述的装置，其特征在于，还包括组合模块：

18.如权利要求16或17所述的装置，其特征在于，所述发送模块具体用于：

19.如权利要求16或17所述的装置，其特征在于，还包括业务处理模块：

所述发送模块，还用于向所述智能设备发送业务处理结果。

20.如权利要求16所述的装置，其特征在于，根据以下步骤训练所述语义判断模型：

获取多个语句样本；

21.一种电子设备，其特征在于，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中：

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-10任一所述的方法。

22.一种计算机可读介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令用于执行如权利要求1-10任一所述的方法。