CN113129902B

CN113129902B - 一种语音处理方法、装置、电子设备及存储介质

Info

Publication number: CN113129902B
Application number: CN201911398330.XA
Authority: CN
Inventors: 刘浩; 任海海
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Beijing Orion Star Technology Co Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2023-10-24
Anticipated expiration: 2039-12-30
Also published as: CN113129902A; WO2021136298A1

Abstract

本发明实施例提供了一种语音处理方法、装置、电子设备及存储介质。该方法包括：获取智能设备采集的待识别语音信息以及所述待识别语音信息包含的各个语音片段对应的播报状态信息；其中，每个语音片段对应的播报状态信息表征在采集该语音片段时所述智能设备是否在进行语音播报；基于所获取的播报状态信息，确定所述待识别语音信息的声音类型。与现有技术相比，应用本发明实施例提供的方案，能够提高对语音信息的声音类型的识别准确率。

Description

一种语音处理方法、装置、电子设备及存储介质

技术领域

本发明涉及智能机器人技术领域，特别是涉及一种语音处理方法、装置、电子设备及存储介质。

背景技术

商场等区域内通常会设置有可以与用户进行持续对话的智能设备，例如智能机器人、智能音响等。而在唤醒该智能设备后，用户可以与该智能机器人进行多次语音交互，并且在每次交互之间不需要再次唤醒该智能设备。

例如，通过触摸唤醒智能设备后，用户可以发出语音信息“今天天气怎么样”，接着，该智能设备向用户播报所查询到的天气状态。然后，用户可以再次发出语音信息“星巴克在什么地方”，从而，该智能设备可以继续向用户播报所查询到的星巴克的位置。其中，在用户发出“今天天气怎么样”和“星巴克在什么地方”两个语音信息之间，该智能设备处于唤醒状态，从而不需要用户再次唤醒。

然而，在上述过程中，智能设备人处于唤醒状态时，可以接收到自身所播报的语音信息，并将该语音信息作为用户发出的语音信息进行响应，即智能设备可以将自身的机器声误认为用户的人声，从而，出现“自问自答”的错误行为，影响用户体验。

基于此，如何提高对语音信息的声音类型的识别准确率，是一个亟待解决的问题。

发明内容

本发明实施例的目的在于提供一种语音处理方法、装置、电子设备及存储介质，以提高对语音信息的声音类型的识别准确率。具体技术方案如下：

第一方面，本发明实施例提供了一种语音处理方法，所述方法包括：

获取智能设备采集的待识别语音信息以及所述待识别语音信息包含的各个语音片段对应的播报状态信息；其中，每个语音片段对应的播报状态信息表征在采集该语音片段时所述智能设备是否在进行语音播报；

基于所获取的播报状态信息，确定所述待识别语音信息的声音类型。

可选的，一种具体实现方式中，所述基于所获取的播报状态信息，确定所述待识别语音信息的声音类型的步骤，包括：

判断所述各个语音片段中，首个语音片段对应的播报状态信息是否表征采集该语音片段时所述智能设备未进行语音播报；

如果是，确定所述待识别语音信息的声音类型为人声。

从所获取的播报状态信息中，确定第一类信息的第一数量；其中，所述第一类信息表征在采集所对应语音片段时所述智能设备未进行语音播报；

基于所述第一类信息的第一数量，确定所述第一类信息的占比信息；

根据所述占比信息与设定阈值的大小关系，确定所述待识别语音信息的声音类型。

可选的，一种具体实现方式中，所述基于所述第一类信息的第一数量，确定所述第一类信息的占比信息的步骤，包括：

计算所述第一数量与所获取的播报状态信息的总数量的第一比值，将所述第一比值作为所述第一类信息的占比信息；或者，

从所获取的播报状态信息中，确定第二类信息的第二数量，计算所述第一数量与所述第二数量的第二比值，将所述第二比值作为所述第一类信息的占比信息；

其中，所述第二类信息表征在采集所对应语音片段时所述智能设备正在进行语音播报。

可选的，一种具体实现方式中，所述根据所述占比信息与设定阈值的大小关系，确定所述待识别语音信息的声音类型的步骤，包括：

若所述占比信息大于设定阈值，确定所述待识别语音信息为人声；或者，

若所述占比信息不大于设定阈值，且基于声纹模型对所述待识别语音信息的检测结果确定所述待识别语音信息为人声，确定所述待识别语音信息为人声；或者，

若所述占比信息不大于设定阈值，且基于声纹模型对所述待识别语音信息的检测结果确定所述待识别语音信息为机器声，确定所述待识别语音信息为机器声。

可选的，一种具体实现方式中，所述方法还包括：

若确定所述待识别语音信息为机器声，向所述智能设备反馈用于提示所述待识别语音信息为机器声的提示信息。

可选的，一种具体实现方式中，所述方法还包括：

获取所述待识别语音信息对应的文本识别结果；

若确定所述待识别语音信息为人声，基于所述文本识别结果进行语义识别，确定所述待识别语音信息的响应信息。

第二方面，本发明实施例提供了一种语音处理装置，所述装置包括：

信息获取模块，用于获取智能设备采集的待识别语音信息以及所述待识别语音信息包含的各个语音片段对应的播报状态信息；其中，每个语音片段对应的播报状态信息表征在采集该语音片段时所述智能设备是否在进行语音播报；

类型确定模块，用于基于所获取的播报状态信息，确定所述待识别语音信息的声音类型。

可选的，一种具体实现方式中，所述类型确定模块具体用于：

判断所述各个语音片段中，首个语音片段对应的播报状态信息是否表征采集该语音片段时所述智能设备未进行语音播报；如果是，确定所述待识别语音信息的声音类型为人声。

从所获取的播报状态信息中，确定第一类信息的第一数量；其中，所述第一类信息表征在采集所对应语音片段时所述智能设备未进行语音播报；基于所述第一类信息的第一数量，确定所述第一类信息的占比信息；根据所述占比信息与设定阈值的大小关系，确定所述待识别语音信息的声音类型。

从所获取的播报状态信息中，确定第一类信息的第一数量；计算所述第一数量与所获取的播报状态信息的总数量的第一比值，将所述第一比值作为所述第一类信息的占比信息；根据所述占比信息与设定阈值的大小关系，确定所述待识别语音信息的声音类型；或者，

根据所述占比信息与设定阈值的大小关系，确定所述待识别语音信息的声音类型；从所获取的播报状态信息中，确定第二类信息的第二数量，计算所述第一数量与所述第二数量的第二比值，将所述第二比值作为所述第一类信息的占比信息；根据所述占比信息与设定阈值的大小关系，确定所述待识别语音信息的声音类型；其中，所述第二类信息表征在采集所对应语音片段时所述智能设备正在进行语音播报。

可选的，一种具体实现方式中，所述装置还包括：

信息反馈模块，用于若确定所述待识别语音信息为机器声，向所述智能设备反馈用于提示所述待识别语音信息为机器声的提示信息。

可选的，一种具体实现方式中，所述装置还包括：

结果获取模块，用于获取所述待识别语音信息对应的文本识别结果；

信息确定模块，用于若确定所述待识别语音信息为人声，基于所述文本识别结果进行语义识别，确定所述待识别语音信息的响应信息。

第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面提供的任一种语音处理方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面提供的任一种语音处理方法的步骤。

第五方面，本发明实施例提供了一种计算机程序，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时实现上述第一方面提供的任一种语音处理方法的步骤。

以上可见，应用本发明实施例提供的方案，智能设备采集的待识别语音信息中包含至少一个语音片段，并且，可以通过检测在采集每个语音片段时，智能设备是否进行语音播报确定每个语音片段对应的播报状态信息。这样，在对该待识别语音信息的声音类型进行识别时，便可以基于每个语音片段对应的播报状态信息，确定该待识别语音信息的声音类型。也就是说，在本发明实施例提供的方案中，可以利用待识别语音信息中，各个语音片段的语音播报状态信息识别待识别语音的声音类型。其中，由于语音播报状态信息可以反映所接收到的待识别语音信息中是否存在智能设备语音播报发出的机器声，因此，可以提高对语音信息的声音类型的识别准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种语音处理方法的流程示意图；

图2为图1中S101的一种具体实现方式的流程示意图；

图3为图1中S101的另一种具体实现方式的流程示意图；

图4为图1中S102的一种具体实现方式的流程示意图；

图5为图1中S102的另一种具体实现方式的流程示意图；

图6为图1中S102的另一种具体实现方式的流程示意图；

图7为本发明实施例提供的另一种语音处理方法的流程示意图；

图8为本发明实施例提供的一种语音处理装置的结构示意图；

图9为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了减少智能设备“自问自答”行为的发生，智能设备在采集到语音信息后，利用预设的声纹模型对该语音信息进行检测，以确定该语音信息的声音类型，即该语音信息是人声还是机器声。由于声纹模型是基于智能设备的机器声训练得到的，而训练声纹模型所采用的声纹与部分用户的人声的语谱相似，因此，声纹模型会将该部分用户的人声误判为机器声，从而导致该部分人声无法得到智能设备的响应，仍然会影响用户体验。基于此，如何提高对语音信息的声音类型的识别准确率，是一个亟待解决的问题。

为了解决上述技术问题，本发明实施例提供了一种语音处理方法。其中，该方法包括：

以上可见，应用本发明实施例提供的方案，智能设备采集的待识别语音信息中包含至少一个语音片段，并且，可以通过检测在采集每个语音片段时，智能设备是否进行语音播报确定每个语音片段对应的播报状态信息。这样，在对该待识别语音信息的声音类型进行识别时，便可以基于每个语音片段对应的播报状态信息，确定该待识别语音信息的声音类型。也就是说，在本发明实施例提供的方案中，可以利用待识别语音信息中，各个语音片段的语音播报状态信息识别待识别语音的声音类型。其中，由于语音播报状态信息可以反映所接收到的待识别语音信息中是否可能存在智能设备语音播报发出的机器声，因此，可以提高对语音信息的声音类型的识别准确率。

下面，对本发明实施例提供的一种语音处理方法进行具体说明。

其中，本发明实施例提供的一种语音处理方法的执行主体可以是采集待识别语音信息的智能设备，从而，该识别方法可以是离线完成的。具体的，该智能设备可以为任一需要进行语音处理的智能电子设备，例如，智能机器人、智能音箱、智能手机、平板电脑等。对此，本发明实施例不做具体限定。

相应的，该执行主体也可以是为采集待识别语音信息的智能设备提供语音处理的服务器，从而，该识别方法可以是在线完成的。具体的，当该执行主体是服务器时，智能设备在采集到所处环境中的各个声音信号时，便可以在本地对该声音信号进行处理，从而得到待识别语音信息以及待识别语音信息包含的各个语音片段对应的播报状态信息，进而，便可以将该待识别语音信息和各个语音片段上传至服务器，以使得服务器可以执行本发明实施例提供的一种语音处理方法。

基于此，为了描述方便，以下将本发明实施例提供的一种语音处理方法的执行主体统称为电子设备。

图1为本发明实施例提供的一种语音处理方法的流程示意图。如图1所示，该方法可以包括如下步骤：

S101：获取智能设备采集的待识别语音信息以及待识别语音信息包含的各个语音片段对应的播报状态信息；

其中，每个语音片段对应的播报状态信息表征在采集该语音片段时智能设备是否在进行语音播报；

在本发明实施例时，电子设备所确定的是：所接收到的待识别语音信息的声音类型，因此，电子设备需要首先获取该待识别语音信息。其中，当电子设备的类型不同时，电子设备获取待识别语音信息的方式可以是不同的。

进一步的，在本发明实施例中，电子设备是利用待识别语音信息包含的各个语音片段对应的播报状态信息确定待识别语音信息的声音类型的，因此，电子设备还需要获取待识别语音信息包含的各个语音片段对应的播报状态信息。其中，类似的，当电子设备的类型不同时，电子设备获取待识别语音信息包含的各个语音片段对应的播报状态信息的方式也可以是不同的。

例如，当电子设备为智能设备时，电子设备可以在采集到所处环境中的各个声音信号时，对该声音信号进行处理，从而，得到待识别语音信息和待识别语音信息包含的各个语音片段对应的播报状态信息；当电子设备为服务器时，电子设备可以接收所对应的智能设备上传的待识别语音信息和待识别语音信息包含的各个语音片段对应的播报状态信息。

其中，为了行文清晰，后续将会对步骤S101的具体实现方式进行详细说明。

S102：基于所获取的播报状态信息，确定待识别语音信息的声音类型。

这样，在获取到上述待识别语音信息和该待识别语音信息包含的各个语音片段对应的播报状态信息后，电子设备便可以基于所获取的播报状态信息，确定待识别语音信息的声音类型。

其中，电子设备可以通过多种方式执行上述步骤S102，对此，本发明实施例不做具体限定。为了行文清晰，后续将会对上述步骤S102的具体实现方式进行举例说明。

以上可见，在本发明实施例提供的方案中，可以利用待识别语音信息包含的各个语音片段的语音播报状态信息识别待识别语音的声音类型。其中，由于语音播报状态信息可以反映所接收到的待识别语音信息中是否存在智能设备语音播报发出的机器声，因此，可以提高对语音信息的声音类型的识别准确率。

可选的，一种具体实现方式中，如图2所示，当电子设备为智能设备时，上述步骤S101可以包括如下步骤：

S201：对采集到的声音信号进行语音活动检测；

S202：当检测到语音起始信号时，按照预设划分规则，对从目标时刻开始所采集到的声音信号进行划分，得到多个语音片段，直至检测到语音终止信号；

其中，目标时刻为：采集语音起始信号的时刻；

S203：在采集每个语音片段时，检测智能设备是否正在进行语音播报，并根据检测结果，确定该语音片段的播报状态信息；

S204：基于所划分得到的多个语音片段，确定待识别语音信息。

在本具体实现方式中，每个语音片段对应的播报状态信息为：在采集该语音片段时，所读取到的智能设备的播报状态信息。

智能设备在启动后，可以实时采集所处环境中的声音信号。其中，该声音信号中可以包括用户发出的语音信息，也可以包括智能设备自身发出的语音信息，还可以包括作为该环境的背景声音的各类噪音的声音信号。

这样，在采集到声音信号后，智能设备便可以对所采集到的声音信号进行语音活动检测，以检测得到所采集到的声音信号中的可以作为待识别语音信息的声音信号。

具体的，在每接收到一声音信号时，智能设备便可以检测该声音信号是否可以作为语音起始信号。进而，当检测到一声音信号为语音起始信号时，智能设备便可以确定该语音起始信号，以及在采集到该语音起始信号的时刻之后所采集到的声音信号可以作为待识别语音信息中所包括的语音信息。并且，该语音起始信号可以作为待识别语音信息的起始信息。

进一步的，智能设备还可以对采集到语音起始信号的时刻之后所采集到的声音信号进行逐一检测，以确定该声音信号是否可以作为语音终止信号。进而，在检测到一声音信号为语音终止信号时，便可以确定该语音终止信号为待识别语音信息中的终止信息。

这样，上述所检测到的语音起始信号、语音终止信号，以及位于语音起始信号和语音终止信号之间的声音信号构成了待识别语音信息。并且，该语音起始信号可以作为待识别语音信息的起始信息，该语音终止信号为待识别语音信息中的终止信息。

此外，由于声音信号是流式传输的，因此，智能设备可以持续采集所处环境中的声音，并依次生成对应的声音信号的。

基于此，在检测到语音起始信号后，智能设备便可以按照预设划分规则，对从采集语音起始信号的目标时刻开始，所采集到的声音信号进行片段划分，依次得到多个语音片段，直至检测到语音终止信号。

其中，语音片段的划分是在待识别语音信息的采集过程中进行的。具体的，在检测到语音起始信号后，智能设备继续采集声音信号。当采集到的某第一时刻时，智能设备确定从目标时刻开始至该时刻之间所采集到的声音信号满足预设划分规则，则可以将从目标时刻开始至该时刻之间所采集到的声音信号划分为一个语音片段。接着，继续采集声音信号，当采集到另一第二时刻时，智能设备确定从上述第一时刻开始至上述第二时刻之间所采集到的声信号再次满足预设划分规则，则可以将从上述第一时刻开始至上述第二时刻之间所采集到的声信号划分为下一个语音片段。依次类推，直至检测到语音终止信号。

显然，所检测到的语音终止信号包括在所确定的最后一个声音片段中，并且，最后一个声音片段所包括的声音信号可以不满足预设划分规则。

其中，该预设划分规则可以为：采集声音信号的时间满足一定的预设数值；也可以为：采集的声音信号对应一音节，对此，本发明实施例不做具体介绍。

可选的，该语音活动检测可以为VAD(Voice Activity Detection，语音端点检测)。具体的：在采集到所处环境的声音信号后，智能设备可以利用VAD检测该声音信号中的语音起始端点和语音终止端点。其中，语音起始端点即为待识别语音信息的语音起始信号，语音终止端点即为待识别语音信息的语音终止信号。其中，在检测到语音起始端点后，智能设备便可以按照预设划分规则，将从检测到语音起始端点开始所采集到的声音信号划分为各个语音片段，直至在检测到语音终止端点时，将该语音终止端点划分入待识别语音信息所包含的最后一个语音片段中。

这样，在得到各个语音片段之后，智能设备便可以基于所划分得到的多个语音片段，确定待识别语音信息。

其中，由于所划分得到的第一个语音片段中的第一语音信号为待识别语音信息的起始信息，所划分得到的最后一个语音片段中的最后一个语音信号为待识别语音信息的终止信息，则可以按照划分顺序，将各个语音片段中的各个声音信号依次排列，进而，所排列形成的声音信号组合即为待识别语音信息。

例如，假设：预设划分规则为：采集声音信号的时长达到0.1秒，在所采集到的第1秒时，检测到语音起始端点，确定当前所采集到的信号为语音起始信号。则在采集到第1.1秒时，便可以将该第1秒-第1.1秒之间所采集到的声音信号划分为第一个语音片段；接着，在采集到第1.2秒时，便可以将该第1.1秒-第1.2秒之间所采集到的声音信号划分为第二个语音片段；依次类推，直至第1.75秒所采集到的声音信号被检测为语音终止端点时，则确定该第1.75时所裁剪掉的声音信号为语音终止端点，从而将第1.7秒-1.75秒之间所采集到的声音信号划分为最后一个语音片段。这样，便可以得到8个语音片段，且第8个，也就是最后一个语音片段的采集时长为0.05秒，其可以不符合预设划分规则。

这样，上述第1秒-第1.75秒所采集到的声音信号所构成的声音信号组合即为待识别语音信息。

并且，在本具体实现方式中，在采集一语音片段时，智能设备便随之检测在采集该语音片段中的各个声音信号的过程中，自身是否正在进行语音播报，从而，便可以根据检测结果，确定该语音片段对应的播报状态信息。

其中，当智能设备在采集某一语音片段时，未进行语音播报，则该语音片段对应的播报状态信息可以称为第一类信息；相应的，当电子设备在采集某一语音片段时，正在进行语音播报，则该语音片段对应的播报状态信息可以称为第二类信息。

可选的，智能设备中可以通过状态文件记录各个时刻，智能设备是否进行语音播报，即记录各个时刻对应的智能设备的播报状态信息。这样，在划分得到的每个语音片段时，智能设备便可以确定采集该语音片段的时刻，从而，直接从状态文件中读取该时刻智能设备的播报状态信息，则读取到的播报状态信息即为该语音片段的播报状态信息。

可选的，该播报状态信息可以为TTS(Text To Speech，从文本到语音)状态信息。具体的，一种情况下，在智能设备中，当智能设备进行播报时，智能设备通过离线模型将待播报的文本信息转换为语音信息，进而，播报该语音信息；另一种情况下，服务器通过云端模型将待播报的文本信息转换为语音信息，再将转换得到的语音信息反馈给智能设备。这样，智能设备便可以播报所接收到的语音信息。其中，将待播报的文本信息转换为语音信息即为TTS，显然，该过程可以通过智能设备中的离线模型进行处理，也可以通过云端模型在服务器端在线进行处理。

其中，当智能设备在采集某一语音片段时，未进行语音播报，则该语音片段对应的TTS状态信息可以记做：TTS空闲状态，且该TTS空闲状态可以定义为1，即第一类信息定义为1；相应的，当智能设备在采集某一语音片段时，正在进行语音播报，则该语音片段对应的TTS状态信息可以记做：TTS播报状态，且该TTS播报状态可以定义为0，即第二类信息定义为0。

进一步的，在上述图2所示具体实现方式中，智能设备在实时采集所处环境中的各个声音信号时，为了避免所采集到的该环境背景声音中的噪音影响智能设备对所采集到的声音信号中的待识别语音信息的检测，可以在采集到声音信号后，首先对所采集到的声音信号进行信号预处理，减弱所采集到的噪声，增强可以作为待检测语音信息的声音信号。

基于此，可选的，另一种具体实现方式中，如图3所示，上述步骤S101，还可以包括如下步骤：

S200：按照采集到的声音信号的声波形状，对声音信号进行信号预处理；

相应的，上述步骤S201，便可以包括如下步骤：

S201A：对信号预处理后的声音信号进行语音活动检测。

在采集到声音信号时，智能设备可以获取到该声音信号的声波形状，从而，智能设备可以按照该声音信号的声波形状，对声音信号进行信号预处理。

具体的，对声波形状与噪声的声波形状相匹配的声音信号进行减弱，对声波形状与可以作为待识别语音信息的声音信号的声波形状相匹配的声音信号进行增强。

相应的，在本具体实现方式中，上述步骤S201，对采集到的声音信号进行语音活动检测，即为对信号预处理后的声音信号进行语音活动检测。

可选的，智能设备可以预先采集到各类噪声的声波形状，以及各类可以作为待检测语音信息的声音信号的声波形状，从而，利用这些声波形状，和每个声波形状所对应的标签，进行模型训练，得到声波检测模型。其中，每个声波形状所对应的标签为：用于表征该声波形状为噪声的声波形状或者可以作为待检测语音信息的声音信号的声波形状的标签。并且，可以作为待检测语音信息的声音信号可以为用户发出的语音信号，也可以为智能设备播报的语音信号，即可以作为待检测语音信息的声音信号的声音类型可以为人声，也可以机器声。

这样，通过学习大量的声波形状的图像特点，该声波检测模型可以建立声波形状的图像特点和标签之间的对应关系。从而，在采集到声音信号时，可以利用该声波检测模型对所采集到的声音信号进行检测，以确定该声音信号的标签，从而，减弱标签为噪声的声音信号，增强标签为可以作为待检测语音信息的声音信号。

相应于上述电子设备为智能设备的情况，可选的，另一种具体实现方式中，当电子设备为服务器时，上述步骤S101，可以包括如下步骤：

接收智能设备发送的待识别语音信息和待识别语音信息包含的各个语音片段对应的播报状态信息。

显然，在本具体实现方式中，声音类型确定是在线完成的。智能设备采集所处环境中的各个声音信号，从所采集到的声音信号中获取待识别语音信息，并确定待识别语音信息包含的各个语音片段对应的播报状态信息，从而，将该待识别语音信息和各个播报状态信息发送给服务器，以使该服务器执行本发明实施例提供的一种语音处理方法，确定待识别语音信息的声音类型。

其中，可选的，在本具体实现方式中，智能设备可以通过上述图2或图3所示实施例提供的方案，确定待识别语音信息和待识别语音信息包含的各个语音片段对应的播报状态信息，并将所确定的待识别语音信息和待识别语音信息包含的各个语音片段对应的播报状态信息发送给服务器。

基于此，智能设备在向服务器发送待识别语音信息时，所发送的具体信息内容可以为：所划分得到的各个语音片段和所得到的每个语音片段对应的播报状态信息，以使服务器可以同时接收到待识别语音信息的包含各个语音片段和所得到的每个语音片段对应的播报状态信息。

进而，由于按照划分顺序，将各个语音片段中的各个声音信号依次排列所形成的声音信号组合即为待识别语音信息，因此，服务器在依次得到待识别语音信息包含的各个语音片段后，便可以得到待识别语音信息。也就是说，服务器所接收到的各个语音片段的整体，即为待识别语音信息。

基于上述任一实施例，可选的，一种具体实现方式中，上述步骤S102可以包括如下步骤：

判断各个语音片段中，首个语音片段对应的播报状态信息是否表征采集该语音片段时智能设备未进行语音播报；如果是，确定待识别语音信息的声音类型为人声。

在本具体实现方式中，电子设备可以获取到待识别语音信息包含的各个语音片段对应的播报状态信息，从而，电子设备便可以获取到各个语音片段中，首个语音片段对应的播报状态信息，进而，电子设备便可以判断该播报状态信息是否表征采集该语音片段时智能设备未进行语音播报。

其中，如果判断结果为是，即在采集到该待识别语音信息包含的首个语音片段时，智能设备未进行语音播报，从而，可以说明该待识别语音信息是由用户发出的，因此，电子设备可以确定待识别语音信息的声音类型为人声。

可选的，另一种具体实现方式中，如图4所示，步骤S102可包括如下步骤：

S401：从所获取的播报状态信息中，确定第一类信息的第一数量；

其中，第一类信息表征在采集所对应语音片段时智能设备未进行语音播报；

得到待识别语音信息和待识别语音信息包含的各个语音片段对应的播报状态信息后，电子设备便可以从各个播报状态信息中，确定第一类信息的第一数量。

其中，由于第一类信息表征在采集所对应语音片段时智能设备未进行语音播报，因此，所确定的第一数量可以表征待识别语音信息包含的各个语音片段中，声音信息的类型为人声的语音片段的数量。

S402：基于第一类信息的第一数量，确定第一类信息的占比信息；

在确定第一类信息的第一数量后，电子设备便可以基于第一类信息的第一数量，确定第一类信息的占比信息。

可选的，一种具体实现方式中，如图5所示，步骤S402可以包括如下步骤：

S402A：计算第一数量与所获取的播报状态信息的总数量的第一比值，将第一比值作为第一类信息的占比信息。

当一语音片段的播报状态信息为上述第一类信息时，则智能设备在采集该语音片段时，未进行语音播报，并且，由于该语音片段可以作为待识别语音信息的片段，因此，可以确定该语音片段为用户发出的语音信息，即可以确定该语音片段的声音类型为人声。

相应的，当一语音片段的播报状态信息为表征智能设备在采集该语音片段时，进行语音播报的第二类信息时，则智能设备在采集该语音片段时，正在进行语音播报，并且，由于该语音片段可以作为待识别语音信息的片段，因此，可以确定该语音片段的语音信息中存在智能设备所播报的语音信息，即可以确定该语音片段为智能设备所播报的语音信息，或者，同时包括用户发出的语音信息和智能设备所播报的语音信息。而上述两种情况，均可能导致智能设备出现“自问自答”的错误行为。

基于此，便可以计算第一数量与所获取的播报状态信息的总数量的第一比值，并将该第一比值作为第一类信息的占比信息。其中，在本具体实现方式中，上述所计算得到的第一类信息的占比信息可以理解为：待识别语音信息包含的各个语音片段中，声音类型为人声的语音片段所占的比值，显然，该比值越高，可以说明该待识别语音信息的声音类型为人声的可能性越大。

进而，当所获取的播报状态信息中，第一类信息的数量为0时，则上述第一比值为0，则说明该待识别语音信息的声音类型为机器声的可能性较大；

相应的，当所获取的播报状态信息中，第二类信息的数量为0时，则上述第一比值为1，则说明该待识别语音信息的声音类型为人声的可能性较大。

可选的，当播报状态信息为TTS状态信息，且TTS播放状态定义为0，TTS空闲状态定义为1时，则上述所计算得到第一比值，即为所获取到的TTS状态信息中，数值为1的个数与所获取到的TTS状态信息的总数量的比值。

例如，所获取到的TTS状态信息的总数量为10，其中，TTS状态信息为1的个数为9，则可以计算得到上述第一比值为：0.9。

可选的，另一种具体实现方式中，如图6所示，步骤S402可包括如下步骤：

S402B：从所获取的播报状态信息中，确定第二类信息的第二数量，计算第一数量与第二数量的第二比值，将第二比值作为第一类信息的占比信息；

其中，第二类信息表征在采集对应语音片段时智能设备正在进行语音播报。

在确定第一类信息的第一数量后，电子设备可以进一步从各个播报状态信息中，确定第二类信息的第二数量。从而，电子设备便可以计算所确定的第一数量与第二数量的第二比值，并将第二比值作为第一类信息的占比信息。

相应的，当一语音片段的播报状态信息为表征智能设备在采集该语音片段时，进行语音播报的第二类信息时，则智能设备在采集该语音片段时，正在进行语音播报，并且，由于该语音片段可以作为待识别语音信息的片段，因此，可以确定该语音片段的语音信息中存在智能设备所播报的语音信息，即可以确定该语音片段为智能设备所播报的语音信息，或者，同时包括用户发出的语音信息和智能设备所播报的语音信息。而上述两种情况，均可能导致智能设备出现“自问自答”的错误行为。这样，可以确定该语音片段的声音类型为机器声。

基于此，便可以计算第一数量与第二数量的第二比值，并将该第二比值作为第一类信息的占比信息。其中，在本具体实现方式中，上述所计算得到的第一类信息的占比信息可以理解为：待识别语音信息包含的各个语音片段中，声音类型为人声的语音片段与声音类型为机器声的语音片段的比值，显然，该比值越高，可以说明该待识别语音信息的声音类型为人声的可能性越大。

进而，当所获取的播报状态信息中，第一类信息的数量为0时，则上述第二比值为0，则说明该待识别语音信息的声音类型为机器声的可能性较大；

相应的，当所获取的播报状态信息中，第二类信息的数量为0时，可以直接表明该待识别语音信息的声音类型为人声的可能性较大。

可选的，当播报状态信息为TTS状态信息，且TTS播放状态定义为0，TTS空闲状态定义为1时，则上述所计算得到第二比值，即为所获取到的TTS状态信息中，数值为1的个数与0的个数的比值。

例如，所获取到的TTS状态信息的总数量为10，其中，TTS状态信息为1的个数为7，0的个数为3，则可以计算得到上述第二比值为：7/3。

S403：根据占比信息与设定阈值的大小关系，确定待识别语音信息的声音类型。

在确定第一类信息的占比信息后，电子设备便可以根据该占比信息与设定阈值的大小关系，确定该待识别语音信息的声音类型。

可选的，一种具体实现方式中，上述步骤S403，可以包括如下步骤：

若占比信息大于设定阈值，确定待识别语音信息为人声；或者，

若占比信息不大于设定阈值，且基于声纹模型对待识别语音信息的检测结果确定待识别语音信息为人声，确定待识别语音信息为人声；或者，

若占比信息不大于设定阈值，且基于声纹模型对待识别语音信息的检测结果确定待识别语音信息为机器声，确定待识别语音信息为机器声。

根据上述对图5和图6所示具体实现方式的介绍，所确定的第一类信息的占比信息越大，则可以说明该待识别语音信息的声音类型为人声的可能性越大。

基于此，在本具体实现方式中，若占比信息大于设定阈值，则可以确定待识别语音信息为人声。

相应的，当占比信息不大于设定阈值时，则说明该待识别语音信息可能为机器声，为了能够进一步准确地确定该待识别语音信息的声音类型，电子设备便可以确定声纹模型对待识别语音信息进行检测的检测结果，从而，当该检测结果为人声时，可以确定待识别语音信息为人声。

进一步的，当占比信息不大于设定阈值，且声纹模型对待识别语音信息进行检测的检测结果为机器声时，便可以确定待识别语音信息为机器声。

其中，需要说明的是，针对上述对图5和图6所示具体实现方式中，步骤S402A和S402B所提供的两种占比信息计算方式，所设定的上述预定阈值可以相同，也可以不同。

其中，电子设备可以在执行完步骤S101接收到待识别语音信息时，即利用预设的声纹模型对待识别语音信息进行检测，以得到检测结果，从而，在本具体实现方式中，便可以直接使用该已经得到的检测结果；也可以在执行上述步骤S403时，当确定出占比信息不大于设定阈值时，再利用预设的声纹模型对待识别语音信息进行检测，得到检测结果，从而，使用该检测结果。

可选的，一种实施例中，可以首先判断占比信息是否大于设定阈值，进而，当判断出占比信息大于设定阈值时，便可以确定该待识别语音信息为人声。

进而，当判断出占比信息不大于设定阈值，可以获取声纹模型对待识别语音信息进行检测的检测结果，其中，当检测结果为人声时，便可以确定待识别语音信息为人声，相应的，当检测结果为机器声时，便可以确定待识别语音信息为机器声。

可选的，另一种实施例中，可以首先获取声纹模型对待识别语音信息进行检测的检测结果，当检测结果为人声时，可以确定待识别语音信息为人声。

相应的，当检测结果为机器声时，可以判断所计算得到的占比信息是否大于设定阈值，其中，如果大于，便可以确定待识别语音信息为人声；如果不大于，便可以确定待识别语音信息为机器声。

可选的，一种具体实现方式中，本发明实施例还可以包括如下步骤：

若确定待识别语音信息为机器声，向智能设备反馈用于提示待识别语音信息为机器声的提示信息。

在本具体实现方式中，当确定出待识别语音信息为机器声时，电子设备便可以向采集该待识别语音信息的智能设备反馈用于提示待识别语音信息为机器声的提示信息。这样，智能设备将不会进行响应该待识别语音信息，从而，避免出现“自问自答”行为。其中，该提示信息可以为预设的“错误码”。

并且，当确定待识别语音信息为机器声时，电子设备可以不对待识别语音信息的文本识别结果进行语义识别。

进一步的，可选的，电子设备还可以不对所获取到的待识别语音信息进行语音识别，即电子设备可以不得到待识别语音信息对应的文本识别结果。

可选的，一种具体实现方式中，如图7所示，本发明实施例还可以包括如下步骤：

S103：获取待识别语音信息对应的文本识别结果；

S104：若确定待识别语音信息为人声，基于文本识别结果进行语义识别，确定待识别语音信息的响应信息。

在获取到待识别语音信息后，电子设备可以随之获取待识别语音信息对应的文本识别结果。

进一步的，在确定出待识别语音信息为人声后，电子设备便可以确定该待识别语音信息是用户发出的语音信息，从而，电子设备需要响应该用户发出的语音信息。

基于此，在确定出待识别语音信息为人声后，电子设备便可以对所获取到的文本识别结果进行语义识别，从而，确定待识别语音信息的响应信息。

其中，可选的，电子设备可以将该文本识别结果输入给语义模型，从而，使语义模型可以分析出该文本识别结果的语义，然后，确定该语义所对应的响应结果，作为待识别语音信息的响应信息。

其中，语义模型用于对该文本识别信息的语义进行识别，得到待识别语音信息所对应的用户需求，并根据该用户需求做出与该用户需求相对应的动作，从而，得到该语义所对应的响应结果，作为待识别语音信息的响应信息。例如，从指定的网址或者存储空间中获取该用户需求所对应的结果，或者，执行该用户需求所对应的动作等。

示例性的，文本识别信息为：今天天气怎么样。进而，语义模型便可以识别得到该文本识别信息中关键词“今天”和“天气”，进而，通过定位系统获知当前所处的地理位置，从而，语义模型可以确定用户需求为：当前所处地理位置在今天的天气状况，进而，语义模型便可以自动连接用于查询天气的网站，并在该网站中获取到当前所处地理位置在今天的天气状况，例如，北京天气晴温度23摄氏度，进而，便可以将所获取到的天气状况确定为该语义所对应的响应结果，作为待识别语音信息的响应信息。

示例性的，文本识别信息为：星巴克在哪里。进而，语义模型便可以识别得到该文本识别信息中关键词“星巴克”和“哪里”，进而，语义模型可以确定用户需求为：星巴克的位置，进而，语义模型便可以从预设存储空间中预先存储的信息中，读取星巴克的位置信息，例如，本商厦三楼东北角，进而，便可以将所获取到的位置信息确定为该语义所对应的响应结果，作为待识别语音信息的响应信息。

示例性的，文本识别信息为：前行两米。进而，语义模型便可以识别得到该文本识别信息中关键词“前行”和“两米”，进而，语义模型可以确定用户需求为：希望自己向前移动两米，进而，语义模型便可以生成相应的控制指令，从而，控制自身向前移动两米的距离。显然，智能设备向前移动的动作即为该语义所对应的响应结果。

进一步的，可选的，电子设备所获取到的待识别语音信息包括多个语音片段，因此，为了保证所得到的文本识别结果的准确性，获取待识别语音信息对应的文本识别结果的方式，可以包括如下步骤：

在接收到第一个语音片段时，对该第一个语音片段进行语音识别，得到临时文本结果；在接收到非第一个语音片段时，基于已经得到的临时文本结果，对已接收到的全部语音片段进行语音识别，得到新的临时文本结果，直至接收到最后一个语音片段时，得到待识别语音信息对应的文本识别结果。

具体的，在接收到第一个语音片段时，对该第一个语音片段进行语音识别，得到第一个语音片段的临时文本结果；进而，在接收到第二个语音片段时，便可以基于第一个语音片段的临时文本结果，对第一个和第二个语音片段构成的语音信息进行识别，得到前两个语音片段的临时文本结果；接着，在接收到第三个语音片段时，便可以基于前两个语音片段的临时文本结果，对第一至第三个语音片段构成的语音信息进行识别，得到前三个语音片段的临时文本结果；依次类推，直至在接收到最后一个语音片段时，便可以基于第一个语音片段至倒数第二个语音片段的临时文本结果，对第一至最后一个语音片段构成的语音信息进行识别，得到第一至最后一个语音片段的临时文本结果，显然，此时得到的结果即为待识别语音信息对应的文本识别结果。

在本具体实现方式中，在对待识别语音信息的语音识别过程中，充分考虑了待识别语音信息中上下文之间的关系对文本识别结果的影响，从而，可以提高所得到的文本识别结果的准确率。

可选的，可以利用电子设备中的语音识别模型对待识别语音信息进行语音识别。利用语音样本对语音识别模型进行训练，每个语音样本中包括语音信息和该语音信息所对应的文本信息，进而，通过大量语音样本的学习，语音识别模型便可以建立语音信息和文本信息的对应关系。这样，训练完成的语音识别模型在接收到待识别语音信息后，便可以根据所建立的对应关系，确定与该待识别语音信息对应的文本识别结果。其中，该语音识别模型可以称为解码器。

进一步的，可选的，在每次得到上述至少一个语音片段的临时识别结果时，电子设备可以向用户输出该临时识别结果。

其中，当电子设备为服务器时，电子设备向发送该待识别语音信息的智能设备发送该临时识别结果，以使该智能设备通过显示屏输出该临时识别结果；

当电子设备为智能设备时，电子设备便可以直接通过显示屏输出该临时识别结果。

相应的，可选的，在得到待识别语音信息的文本识别结果时，电子设备也可以向用户输出该文本识别结果。

其中，当电子设备为服务器时，电子设备向发送该待识别语音信息的智能设备发送该文本识别结果，以使该智能设备通过显示屏输出该文本识别结果；

当电子设备为智能设备时，电子设备便可以直接通过显示屏输出该文本识别结果。

进一步的，可选的，电子设备在得到待识别语音信息的响应信息后，便可以向用户播报该响应信息。

当电子设备为服务器时，电子设备向发送该待识别语音信息的智能设备发送该响应信息，以使该智能设备向用户播报该响应信息；

当电子设备为智能设备时，电子设备便可以直接播报该响应信息。

为了更好地理解本发明实施例提供的一种语音处理方法，下面通过一个具体实施例对该语音处理方法进行说明。

其中，在本具体实施例中，上述电子设备为服务器。具体的：

智能设备实时采集所处环境中的各个声音信号，并按照采集到的声音信号的声波形状，对声音信号进行信号预处理。

进而，智能设备对信号预处理后的声音信号进行语音活动检测。具体的：可以利用VAD检测信号预处理后的声音信号中的语音起始端点和语音终止端点，并在检测到语音起始端点后，按照预设划分规则，依次将所采集到的声音信号划分为语音片段，直至检测到语音终止端点。

并且，在上述过程中，每划分得到一语音片段时，读取到的智能设备的TTS状态信息，并将每一语音片段和该语音片段对应的TTS状态信息发送给服务器。

服务器接收智能设备发送的每一语音片段和该语音片段对应的TTS状态信息，将每一语音片段发送给解码器和声纹模型。

其中，解码器对当前所接收到的全部语音片段进行语音识别，得到临时识别结果，并将该临时识别结果发送给智能设备，以使该智能设备通过显示屏输出该临时识别结果。

相应的，在得到待识别语音信息的文本识别结果时，将该文本识别结果发送给智能设备，以使该智能设备通过显示屏输出该文本识别结果。

这样，在接收到完整的待识别语音信息时，便可以获取待识别语音信息对应的文本识别结果，并使该智能设备通过显示屏输出该待识别语音信息对应的文本识别结果。

并且，声纹模型对当前所接收到的全部语音片段进行声纹检测，并记录检测结果，相应的，在接收到构成待识别语音信息的全部语音片段时，对该待识别语音信息进行声纹检测，并记录检测结果。

服务器在接收到构成待识别语音信息的全部语音片段中，各个语音片段对应的TTS状态信息后，计算所接收到的TTS状态信息中，1的数量，进而，计算1的数量与所接收到的TTS状态信息的数量的比值，并判断该比值与设定阈值的大小关系。

进而，当判断出该比值大于设定阈值时，便可以确定该待识别语音信息为人声。当判断出该比值不大于设定阈值时，基于声纹模型对待识别语音信息的检测结果确定待识别语音信息为人声时，确定待识别语音信息为人声，当占比信息不大于设定阈值，且基于声纹模型对待识别语音信息的检测结果确定待识别语音信息为机器声时，确定待识别语音信息为机器声。

进一步的，服务器在确定出待识别语音信息为人声后，便可以通过语义模型确定待识别语音信息的响应信息，并将该响应信息发送给智能设备。

智能设备在接收到响应信息后，便可以输出该响应信息。

相应于上述本发明实施例提供的一种语音处理方法，本发明实施例还提供了一种语音处理装置。

图8为本发明实施例提供的一种语音处理装置的结构示意图。如图8所示，该语音处理装置包括如下模块：

信息获取模块810，用于获取智能设备采集的待识别语音信息以及所述待识别语音信息包含的各个语音片段对应的播报状态信息；其中，每个语音片段对应的播报状态信息表征在采集该语音片段时所述智能设备是否在进行语音播报；

类型确定模块820，用于基于所获取的播报状态信息，确定所述待识别语音信息的声音类型。

以上可以，在本发明实施例提供的方案中，可以利用待识别语音信息中，各个语音片段的语音播报状态信息识别待识别语音的声音类型。其中，由于语音播报状态信息可以反映所接收到的待识别语音信息中是否存在智能设备语音播报发出的机器声，因此，可以提高对语音信息的声音类型的识别准确率。

可选的，一种具体实现方式中，所述类型确定模块820具体用于：

若所述占比信息大于设定阈值，确定所述待识别语音信息为人声；或者，若所述占比信息不大于设定阈值，且基于声纹模型对所述待识别语音信息的检测结果确定所述待识别语音信息为人声，确定所述待识别语音信息为人声；或者，

可选的，一种具体实现方式中，所述装置还包括：

相应于本发明实施例提供的一种语音处理方法，本发明实施例还提供了一种电子设备，如图9所示，包括处理器901、通信接口902、存储器903和通信总线904，其中，处理器901，通信接口902，存储器903通过通信总线904完成相互间的通信，

存储器903，用于存放计算机程序；

处理器901，用于执行存储器903上所存放的程序时，实现上述本发明实施例提供的一种语音处理方法。

具体的，上述语音处理方法，包括：

需要说明的是，上述处理器901执行存储器903上存放的程序而实现的一种语音处理方法的其他实现方式，与前述方法实施例部分提供的一种语音处理方法实施例相同，这里不再赘述。

以上可见，在本发明实施例提供的方案中，可以利用待识别语音信息中，各个语音片段的语音播报状态信息识别待识别语音的声音类型。其中，由于语音播报状态信息可以反映所接收到的待识别语音信息中是否存在智能设备语音播报发出的机器声，因此，可以提高对语音信息的声音类型的识别准确率。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

相应于上述本发明实施例提供的一种语音处理方法，本发明实施例还提供了一种计算机可读存储介质，该计算机程序被处理器执行时实现上述本发明实施例提供的任一种语音处理方法。

相应于上述本发明实施例提供的一种语音处理方法，本发明实施例还提供了一种计算机程序，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时实现上述本发明实施例提供的任一种语音处理方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例、电子设备实施例、计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种语音处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所获取的播报状态信息，确定所述待识别语音信息的声音类型的步骤，包括：

如果是，确定所述待识别语音信息的声音类型为人声。

3.根据权利要求1所述的方法，其特征在于，所述基于所获取的播报状态信息，确定所述待识别语音信息的声音类型的步骤，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述第一类信息的第一数量，确定所述第一类信息的占比信息的步骤，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述占比信息与设定阈值的大小关系，确定所述待识别语音信息的声音类型的步骤，包括：

若所述占比信息大于所述设定阈值，确定所述待识别语音信息为人声；或者，

若所述占比信息不大于所述设定阈值，且基于声纹模型对所述待识别语音信息的检测结果确定所述待识别语音信息为人声，确定所述待识别语音信息为人声；或者，

若所述占比信息不大于所述设定阈值，且基于声纹模型对所述待识别语音信息的检测结果确定所述待识别语音信息为机器声，确定所述待识别语音信息为机器声。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

获取所述待识别语音信息对应的文本识别结果；

8.一种语音处理装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。