CN109741761B

CN109741761B - 声音处理方法和装置

Info

Publication number: CN109741761B
Application number: CN201910189312.4A
Authority: CN
Inventors: 王洋; 刘焱; 郝新; 吴月升
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-03-13
Filing date: 2019-03-13
Publication date: 2020-09-25
Anticipated expiration: 2039-03-13
Also published as: CN109741761A

Abstract

本申请提出一种声音处理方法和装置，其中，方法包括：获取用户输入的语音信息，提取语音信息的第一声学特征，并对第一声学特征进行逆变换处理生成第二声学特征，根据第二声学特征生成目标语音信息，并判断目标语音信息是否满足预设播放条件，若目标语音信息满足预设播放条件，则将目标语音信息进行播放。由此，通过提取原始语音信息的声学特征，并对声学特征进行逆变换处理后快速生成语音信息进行播放，在保证识别准确性的同时提高声音处理的效率。

Description

声音处理方法和装置

技术领域

本申请涉及人工智能安全技术领域，尤其涉及一种声音处理方法和装置。

背景技术

随着人工智能技术的快速发展，越来越多的场景需要与智能设备进行对话以满足用户需求，比如通过手机与家里的智能早教机器人对话以实现与孩子的互动，再比如通过手机与智能音箱对话以满足用户娱乐需求等，同时人工智能语音交互的安全性问题也越来越引起重视。

相关技术中，通过将语音信息混淆等方式发送给相关设备，生成效率低，且后续识别的准确性不能够保证。

申请内容

本申请旨在至少在一定程度上解决上述相关技术中的技术问题之一。

为此，本申请的第一个目的在于提出一种声音处理方法，解决了现有技术中声音处理的方式速度比较慢，且后续识别准确性比较低的问题，通过提取原始语音信息的声学特征，并对声学特征进行逆变换处理后快速生成语音信息进行播放，在保证识别准确性的同时提高声音处理的效率。

本申请的第二个目的在于提出一种声音处理装置。

本申请的第三个目的在于提出一种计算机设备。

本申请的第四个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本申请第一方面实施例提出了一种声音处理方法，包括：获取用户输入的语音信息；提取所述语音信息的第一声学特征，并对所述第一声学特征进行逆变换处理生成第二声学特征；根据所述第二声学特征生成目标语音信息，并判断所述目标语音信息是否满足预设播放条件；若所述目标语音信息满足预设播放条件，则将所述目标语音信息进行播放。

另外，本申请实施例的声音处理方法，还具有如下附加的技术特征：

可选地，若所述目标语音信息不满足预设播放条件，则获取所述第一声学特征的各个参数；对所述各个参数中的一个或者多个进行调整生成第三声学特征；根据所述第三声学特征生成所述目标语音信息。

可选地，所述各个参数包括：时间窗口长度、连续窗口的时间间隔、返回的倒谱系数数量、使用扭曲谱带的数量、梅尔滤波器的最低限值和梅尔滤波器的最高限值。

可选地，所述提取所述语音信息的声学特征，包括：对所述语音信息进行去噪处理，并将去噪处理后的语音信息分为多个语音信息帧；对所述多个语音信息帧进行傅立叶变换，获取每一个语音信息帧对应的频谱；将所述每一个语音信息帧对应的频谱输入梅尔滤波器，映射到梅尔刻度并取对数；对取对数后的结果进行离散余弦变换到倒频谱域，并获取倒频谱的幅度作为所述语音信息的声学特征。

可选地，所述判断所述目标语音信息是否满足预设播放条件，包括：将所述目标语音信息输入到第一测试设备中，并输出第一测试文本信息；将所述目标语音信息输入到第二测试设备中，并输出第二测试文本信息；若所述第一测试文本信息与正确文本信息一致且所述第二测试文本信息与所述正确文本信息不一致，则确定所述目标语音信息满足预设播放条件。

为达上述目的，本申请第二方面实施例提出了一种声音处理装置，包括：第一获取模块，用于获取用户输入的语音信息；提取模块，用于提取所述语音信息的第一声学特征；逆变换模块，用于对所述第一声学特征进行逆变换处理生成第二声学特征；生成模块，用于根据所述第二声学特征生成目标语音信息；判断模块，用于判断所述目标语音信息是否满足预设播放条件；播放模块，用于若所述目标语音信息满足预设播放条件，则将所述目标语音信息进行播放。

另外，本申请实施例的声音处理装置，还具有如下附加的技术特征：

可选地，所述的装置，还包括：第二获取模块，用于若所述目标语音信息不满足预设播放条件，则获取所述第一声学特征的各个参数；调整模块，用于对所述各个参数中的一个或者多个进行调整生成第三声学特征；所述生成模块，还用于根据所述第三声学特征生成所述目标语音信息。

可选地，所述提取模块，具体用于：对所述语音信息进行去噪处理，并将去噪处理后的语音信息分为多个语音信息帧；对所述多个语音信息帧进行傅立叶变换，获取每一个语音信息帧对应的频谱；将所述每一个语音信息帧对应的频谱输入梅尔滤波器，映射到梅尔刻度并取对数；对取对数后的结果进行离散余弦变换到倒频谱域，并获取倒频谱的幅度作为所述语音信息的声学特征。

可选地，所述判断模块，具体用于：将所述目标语音信息输入到第一测试设备中，并输出第一测试文本信息；将所述目标语音信息输入到第二测试设备中，并输出第二测试文本信息；若所述第一测试文本信息与正确文本信息一致且所述第二测试文本信息与所述正确文本信息不一致，则确定所述目标语音信息满足预设播放条件。

为达上述目的，本申请第三方面实施例提出了一种计算机设备，包括：处理器和存储器；其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如第一方面实施例所述的声音处理方法。

为达上述目的，本申请第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面实施例所述的声音处理方法。

为达上述目的，本申请第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，实现如第一方面实施例所述的声音处理方法。

本申请实施例提供的技术方案可以包含如下的有益效果：

获取用户输入的语音信息，提取语音信息的第一声学特征，并对第一声学特征进行逆变换处理生成第二声学特征，根据第二声学特征生成目标语音信息，并判断目标语音信息是否满足预设播放条件，若目标语音信息满足预设播放条件，则将目标语音信息进行播放。由此，通过提取原始语音信息的声学特征，并对声学特征进行逆变换处理后快速生成语音信息进行播放，在保证识别准确性的同时提高声音处理的效率。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本申请一个实施例的声音处理方法的流程图；

图2是根据本申请另一个实施例的声音处理方法的流程图；

图3是根据本申请又一个实施例的声音处理方法的流程图；

图4是根据本申请一个实施例的声音处理装置的结构示意图；

图5是根据本申请另一个实施例的声音处理装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的声音处理方法和装置。

针对背景技术中提到的，现有技术中声音处理的方式速度比较慢，且后续识别准确性比较低的技术问题，本申请提出了一种声音处理的方法，通过提取原始语音信息的声学特征，并对声学特征进行逆变换处理后快速生成语音信息进行播放，在保证识别准确性的同时提高声音处理的效率。

具体而言，图1是根据本申请一个实施例的声音处理方法的流程图，如图1所示，该方法包括：

步骤101，获取用户输入的语音信息。

步骤102，提取语音信息的第一声学特征，并对第一声学特征进行逆变换处理生成第二声学特征。

在实际应用中，用户与智能设备(比如智能音箱、智能早教机器人和智能前台机器人等)之间可以进行语音交互，通常，这些智能设备具有麦克风、扬声器、拾音器等设备接收和播放语音信息，本申请提出的声音处理方法针对的是用户说出的语音信息能够被目标智能设备识别且其他用户不能够听懂的场景。

具体地，获取用户输入的语音信息，该语音信息可以是一个词语音或者一段文本语音等，可以理解的是，语音识别系统主要从输入的语音信息中提取的声学特征来生成文本预测，只要输入的语音信息包含足够的声学特征(需要超过某一阈值)，就能以较高的准确率正确识别出相应的文本。

还可以理解的是，声学特征有很多种，比如LPC(linear predictive coding，线性预测编码)、MFCC(Mel-scale FrequencyCepstral Coefficients)，梅尔频率倒谱系数)等。

作为一种示例，提取语音信息的第一声学特征比如为梅尔频率倒谱系数，并对梅尔频率倒谱系数进行逆变换处理生成第二声学特征。

举例而言，提取语音信息的第一声学特征比如为梅尔频率倒谱系数，包括：对语音信息进行去噪处理，并将去噪处理后的语音信息分为多个语音信息帧，对多个语音信息帧进行傅立叶变换，获取每一个语音信息帧对应的频谱，将每一个语音信息帧对应的频谱输入梅尔滤波器，映射到梅尔刻度并取对数，对取对数后的结果进行离散余弦变换到倒频谱域，并获取倒频谱的幅度作为语音信息的声学特征。

具体地，将语音信息预处理，消除噪声，并分解为多个语音帧后进行傅立叶变换，将信号变换至频域，接着将每个语音帧获得的频谱通过梅尔滤波器，映射到梅尔刻度并取对数，对上述获得的结果进行离散余弦变换，变换到倒频谱域，MFCC就是这个倒频谱的幅度。

其中，对第一声学特征进行逆变换处理生成第二声学特征就是将第一声学特征的各个特征向量进行提升维度，引入噪声，使得根据第二声学特征生成目标语音信息在正常播放的情况下用户无法识别。

举例而言，梅尔频率倒谱系数提取过程会将高维数据降维，同时丢失原语音很多细节，对梅尔频率倒谱系数进行逆变换处理也就是会将特征向量升维，此时会引入噪声。

步骤103，根据第二声学特征生成目标语音信息，并判断目标语音信息是否满足预设播放条件。

步骤104，若目标语音信息满足预设播放条件，则将目标语音信息进行播放。

具体地，本申请实施例中，声音处理的目的是生成的目标语音信息在正常播放的情况下用户无法识别，因此可以通过很多种方式来判断目标语音信息是否满足预设播放条件，作为一种可能实现方式，如图2所示，包括：

步骤201，将目标语音信息输入到第一测试设备中，并输出第一测试文本信息。

步骤202，将目标语音信息输入到第二测试设备中，并输出第二测试文本信息。

步骤203，若第一测试文本信息与正确文本信息一致且第二测试文本信息与正确文本信息不一致，则确定目标语音信息满足预设播放条件。

具体地，预先设置好两个测试设备，第一测试设备为智能设备，第二测试设备为仿人类设备，分别将目标语音信息输入到第一测试设备中和第二测试设备中，得到第一测试文本信息和第二测试文本信息，从而将第一测试文本信息和第二测试文本信息与正确文本信息进行一一比对，在第一测试文本信息与正确文本信息一致且第二测试文本信息与正确文本信息不一致表示智能设备能够正确识别该目标语音信息且用户无法识别，从而可以确定目标语音信息满足预设播放条件，保证语音识别准确性的同时提高了语音交互的安全性。

还可以理解的是，根据第二声学特征生成目标语音信息不满足预设播放条件，这时候可以通过调整声学特征中的各个参数来生成第三声学特征，最后根据第三声学特征生成目标语音信息。具体如图3所示，在步骤103之后，包括：

步骤301，若目标语音信息不满足预设播放条件，则获取第一声学特征的各个参数。

步骤302，对各个参数中的一个或者多个进行调整生成第三声学特征。

步骤303，根据第三声学特征生成目标语音信息。

具体地，在根据第二声学特征生成目标语音信息不满足预设播放条件表示第二声学特征中的参数需要进行调整，可以理解的是，不同的声学特征对应的参数不同，比如梅尔频率倒谱系数的各个参数可以包括时间窗口长度、连续窗口的时间间隔、返回的倒谱系数数量、使用扭曲谱带的数量、梅尔滤波器的最低限值和梅尔滤波器的最高限值等。

其中，需要先确定上述各个参数的大概范围，超出这个范围，生成的目标语音信息完全失去了语音识别特性。

具体地，对调整上述参数来计算梅尔频率倒谱系数，然后从梅尔频率倒谱系数重构修改后的目标语音信息，使输出的失真目标语音信息保留了足够的语音识别特性，保证了由梅尔频率倒谱系数参数重建的失真语音信号能够被目标智能设备正确识别，同时用户难以听懂即无法正确识别。

可以理解的是，根据第三声学特征生成目标语音信息继续判断是否满足预设播放条件，如果满足可以直接播放，如果不满足还可以继续调整第三声学特征的各个参数，直到满足预设播放条件才进行播放。

需要说明说明，各个参数的调整可以根据实际应用需要选择一个或者多个，在确定满足预设播放条件后，保存该声学特征对应的各个参数的参数值，后续可以直接根据该参数值设置声学特征对应的各个参数后直接生成目标语音信息，从而提高声音处理效率。

综上，本申请实施例的声音处理方法，获取用户输入的语音信息，提取语音信息的第一声学特征，并对第一声学特征进行逆变换处理生成第二声学特征，根据第二声学特征生成目标语音信息，并判断目标语音信息是否满足预设播放条件，若目标语音信息满足预设播放条件，则将目标语音信息进行播放。由此，通过提取原始语音信息的声学特征，并对声学特征进行逆变换处理后快速生成语音信息进行播放，在保证识别准确性的同时提高声音处理的效率。

为了实现上述实施例，本申请还提出了一种声音处理装置。图4是根据本申请一个实施例的声音处理装置的结构示意图，如图4所示，该声音处理装置包括：第一获取模块41、提取模块42、逆变换模块43、生成模块44、判断模块45和播放模块46，其中，

第一获取模块41，用于获取用户输入的语音信息。

提取模块42，用于提取语音信息的第一声学特征。

逆变换模块43，用于对第一声学特征进行逆变换处理生成第二声学特征。

生成模块44，用于根据第二声学特征生成目标语音信息。

判断模块45，用于判断目标语音信息是否满足预设播放条件。

播放模块46，用于若目标语音信息满足预设播放条件，则将目标语音信息进行播放。

在本申请的一个实施例中，如图5所示，在如图4所示的基础上，还包括：第二获取模块47、调整模块48。

其中，第二获取模块47，用于若目标语音信息不满足预设播放条件，则获取第一声学特征的各个参数。

调整模块48，用于对各个参数中的一个或者多个进行调整生成第三声学特征。

生成模块44，还用于根据第三声学特征生成目标语音信息。

在本申请的一个实施例中，各个参数包括：时间窗口长度、连续窗口的时间间隔、返回的倒谱系数数量、使用扭曲谱带的数量、梅尔滤波器的最低限值和梅尔滤波器的最高限值。

在本申请的一个实施例中，提取模块42，具体用于：对语音信息进行去噪处理，并将去噪处理后的语音信息分为多个语音信息帧；对多个语音信息帧进行傅立叶变换，获取每一个语音信息帧对应的频谱；将每一个语音信息帧对应的频谱输入梅尔滤波器，映射到梅尔刻度并取对数；对取对数后的结果进行离散余弦变换到倒频谱域，并获取倒频谱的幅度作为语音信息的声学特征。

在本申请的一个实施例中，判断模块45，具体用于：将目标语音信息输入到第一测试设备中，并输出第一测试文本信息；将目标语音信息输入到第二测试设备中，并输出第二测试文本信息；若第一测试文本信息与正确文本信息一致且第二测试文本信息与正确文本信息不一致，则确定目标语音信息满足预设播放条件。

需要说明的是，前述对声音处理方法实施例的解释说明也适用于该实施例的声音处理装置，此处不再赘述。

综上，本申请实施例的声音处理装置，获取用户输入的语音信息，提取语音信息的第一声学特征，并对第一声学特征进行逆变换处理生成第二声学特征，根据第二声学特征生成目标语音信息，并判断目标语音信息是否满足预设播放条件，若目标语音信息满足预设播放条件，则将目标语音信息进行播放。由此，通过提取原始语音信息的声学特征，并对声学特征进行逆变换处理后快速生成语音信息进行播放，在保证识别准确性的同时提高声音处理的效率。

为了实现上述实施例，本申请还提出一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时，实现如前述实施例所描述的声音处理方法。

为了实现上述实施例，本申请还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述方法实施例所描述的声音处理方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种声音处理方法，其特征在于，包括以下步骤：

获取用户输入的语音信息；

提取所述语音信息的第一声学特征，并对所述第一声学特征进行逆变换处理生成第二声学特征；

根据所述第二声学特征生成目标语音信息，并判断所述目标语音信息是否满足预设播放条件；

若所述目标语音信息满足预设播放条件，则将所述目标语音信息进行播放。

2.如权利要求1所述的方法，其特征在于，还包括：

若所述目标语音信息不满足预设播放条件，则获取所述第一声学特征的各个参数；

对所述各个参数中的一个或者多个进行调整生成第三声学特征；

根据所述第三声学特征生成所述目标语音信息。

3.如权利要求2所述的方法，其特征在于，所述各个参数包括：

时间窗口长度、连续窗口的时间间隔、返回的倒谱系数数量、使用扭曲谱带的数量、梅尔滤波器的最低限值和梅尔滤波器的最高限值。

4.如权利要求1所述的方法，其特征在于，所述提取所述语音信息的声学特征，包括：

对所述语音信息进行去噪处理，并将去噪处理后的语音信息分为多个语音信息帧；

对所述多个语音信息帧进行傅立叶变换，获取每一个语音信息帧对应的频谱；

将所述每一个语音信息帧对应的频谱输入梅尔滤波器，映射到梅尔刻度并取对数；

对取对数后的结果进行离散余弦变换到倒频谱域，并获取倒频谱的幅度作为所述语音信息的声学特征。

5.如权利要求1所述的方法，其特征在于，所述判断所述目标语音信息是否满足预设播放条件，包括：

将所述目标语音信息输入到第一测试设备中，并输出第一测试文本信息；

将所述目标语音信息输入到第二测试设备中，并输出第二测试文本信息；

若所述第一测试文本信息与正确文本信息一致且所述第二测试文本信息与所述正确文本信息不一致，则确定所述目标语音信息满足预设播放条件。

6.一种声音处理装置，其特征在于，包括：

第一获取模块，用于获取用户输入的语音信息；

提取模块，用于提取所述语音信息的第一声学特征；

逆变换模块，用于对所述第一声学特征进行逆变换处理生成第二声学特征；

生成模块，用于根据所述第二声学特征生成目标语音信息；

判断模块，用于判断所述目标语音信息是否满足预设播放条件；

播放模块，用于若所述目标语音信息满足预设播放条件，则将所述目标语音信息进行播放。

7.如权利要求6所述的装置，其特征在于，还包括：

第二获取模块，用于若所述目标语音信息不满足预设播放条件，则获取所述第一声学特征的各个参数；

调整模块，用于对所述各个参数中的一个或者多个进行调整生成第三声学特征；

所述生成模块，还用于根据所述第三声学特征生成所述目标语音信息。

8.如权利要求7所述的装置，其特征在于，所述各个参数包括：

9.如权利要求6所述的装置，其特征在于，所述提取模块，具体用于：

10.如权利要求6所述的装置，其特征在于，所述判断模块，具体用于：

11.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-5任一所述的声音处理方法。

12.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5任一所述的声音处理方法。