CN105448301B

CN105448301B - 一种基于声纹识别的音频处理方法及系统

Info

Publication number: CN105448301B
Application number: CN201510851006.4A
Authority: CN
Inventors: 冯剑明; 黄慧琳
Original assignee: Huizhou TCL Mobile Communication Co Ltd
Current assignee: Thunderbird innovation technology (Shenzhen) Co.,Ltd.
Priority date: 2015-11-30
Filing date: 2015-11-30
Publication date: 2019-09-24
Anticipated expiration: 2035-11-30
Also published as: CN105448301A

Abstract

本发明公开了一种基于声纹识别的音频处理方法及系统，所述方法包括：当检测到有原始音频输入时，接收用户指令判断是否进行原始音频处理；若进行原始音频处理，则获取用户输入的原始音频的声纹数据并识别，根据声纹数据对原始音频进行处理。本发明可根据声纹识别，可有针对性的对用户进行美化，美化处理后的声音识别性强，而且保证每次美化后的声音具有一致性，实现了针对个人的声音的美化。

Description

一种基于声纹识别的音频处理方法及系统

技术领域

本发明涉及音频处理技术领域，尤其涉及一种基于声纹识别的音频处理方法及系统。

背景技术

随着社交类软件越来越普及，语音输入也越来越多，成为人们最有效最方便的输入方式。而且现有技术中，在语音输入的同时，却缺少个性化，也无法根据个人的声纹数据进行识别，从而针对不同的声音进行不同的处理。尤其是一些唱K类软件，有些人唱歌时五音不全，因此在获取最终的录音效果时，需要对声音根据个人声音特色进行处理。但现有的音频处理是无法根据个人声音特色进行处理，从而在所有的音频输出文件中的输出的音频都不具有一致性。

因此，现有技术还有待于改进和发展。

发明内容

鉴于现有技术的不足，本发明目的在于提供一种基于声纹识别的音频处理方法及系统，旨在解决现有技术中在语音输入的同时，却缺少个性化，也无法根据个人的声纹数据进行识别，从而针对不同的声音进行不同的处理的缺陷。

本发明的技术方案如下：

一种基于声纹识别的音频处理方法，其中，方法包括：

A、当检测到有原始音频输入时，接收用户指令判断是否进行原始音频处理；

B、若进行原始音频处理，则获取用户输入的原始音频的声纹数据并识别，根据声纹数据对原始音频进行处理。

所述的基于声纹识别的音频处理方法，其中，所述步骤B具体包括：

B1、当进行原始音频处理时，获取用户的输入的原始音频的声纹数据并判断数据库中是否存在与原始音频匹配的调整参数；

B2、若存在，则根据数据库中的调整参数对用户的输入的音频进行处理，合成处理后的目标音频；

B3、若不存在，对原始音频进行处理，并将用户输入的原始音频的声纹数据及处理的参数存储在数据库中，合成处理后的目标音频。

所述的基于声纹识别的音频处理方法，其中，所述步骤B3具体包括：

B31、当检测到数据库中不存在与原始音频匹配的调整参数，根据预设的模板或者接收用户输入自行调整音频参数对原始音频进行处理；

B32、将预设的模板或接收用户输入自行调整音频参数作为对应的原始音频的调整参数与用户输入的原始音频的声纹数据进行绑定；

B33、存储用户输入的原始音频的声纹数据及对应的原始音频调整参数。

所述的基于声纹识别的音频处理方法，其中，所述方法还包括：

C、若不进行原始音频处理，则直接进行原始音频录入。

上述任一项所述的基于声纹识别的音频处理方法，其特征在于，所述步骤B中获取用户的输入的原始音频的声纹数据具体包括：

B10、采集用户输入的原始音频，对原始音频进行采样、量化、预加重、加窗处理；

B20、对处理后的原始音频提取语音特征参数，获取到原始音频的声纹数据。

一种基于声纹识别的音频处理系统，其中，所述系统包括：

检测与判断模块，用于当检测到有原始音频输入时，接收用户指令判断是否进行原始音频处理；

识别与处理模块，用于若进行原始音频处理，则获取用户输入的原始音频的声纹数据并识别，根据声纹数据对原始音频进行处理。

所述的基于声纹识别的音频处理系统，其中，所述识别与处理模块具体包括：

判断单元，用于当进行原始音频处理时，获取用户的输入的原始音频的声纹数据并判断数据库中是否存在与原始音频匹配的调整参数；

第一音频处理单元，用于若存在，则根据数据库中的调整参数对用户的输入的音频进行处理，合成处理后的目标音频；

第二音频处理单元，用于若不存在，对原始音频进行处理，并将用户输入的原始音频的声纹数据及处理的参数存储在数据库中，合成处理后的目标音频。

所述的基于声纹识别的音频处理系统，其中，所述第二音频处理单元具体包括：

检测与处理单元，用于当检测到数据库中不存在与原始音频匹配的调整参数，根据预设的模板或者接收用户输入自行调整音频参数对原始音频进行处理；

绑定单元，用于将预设的模板或接收用户输入自行调整音频参数作为对应的原始音频的调整参数与用户输入的原始音频的声纹数据进行绑定；

存储单元，用于存储用户输入的原始音频的声纹数据及对应的原始音频调整参数。

所述的基于声纹识别的音频处理系统，其中，所述系统还包括：

录入单元，用于若不进行原始音频处理，则直接进行原始音频录入。

上述任一项所述的基于声纹识别的音频处理系统，其中，所述识别与处理模块还包括：

音频预处理单元，用于采集用户输入的原始音频，对原始音频进行采样、量化、预加重、加窗处理；

提取与获取单元，用于对处理后的原始音频提取语音特征参数，获取到原始音频的声纹数据。

本发明提供了一种基于声纹识别的音频处理方法及系统，本发明可根据声纹识别，可有针对性的对用户进行美化，美化处理后的声音识别性强，而且保证每次美化后的声音具有一致性，实现了针对个人的声音的美化。

附图说明

图1为本发明的一种基于声纹识别的音频处理方法的较佳实施例的流程图。

图2是本发明的一种基于声纹识别的音频处理方法的具体应用实施例的流程图。

图3为本发明的一种基于声纹识别的音频处理系统的较佳实施例的功能原理框图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确，以下对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供了一种基于声纹识别的音频处理方法的较佳实施例的流程图，如图1所示，所述方法包括：

步骤S100、当检测到有原始音频输入时，接收用户指令判断是否进行原始音频处理。

具体实施时，用户可通过语音输入的方式，输入自己的原始声音，记为原始音频。用户一般通过移动终端进行输入，移动终端包括但不限于手机、平板电脑等智能终端。用户可自由选择是否进行对原始音频进行处理。

步骤S200、若进行原始音频处理，则获取用户输入的原始音频的声纹数据并识别，根据声纹数据对原始音频进行处理。

具体实施时，当用户选择对原始音频处理，移动终端例如手机获取用户的输入的原始音频，对原始音频提取声纹数据，利用声纹数据原始音频进行处理，获取合成后的声音。

进一步的实施例中，所述步骤S200之后还包括：

步骤S300、若不进行原始音频处理，则直接进行原始音频录入。

具体实施时，若用户选择不处理音频，则直接获取原始录音并存储。

具体实施时，获取用户的输入的原始音频的声纹数据具体包括：

步骤S210、采集用户输入的原始音频，对原始音频进行采样、量化、预加重、加窗处理；

步骤S220、对处理后的原始音频提取语音特征参数，获取到原始音频的声纹数据。

具体实施时，声纹采集，即采集待测声音文件；利用外接话筒进行录音，得到待测声音文件，实现声纹的采集；对待测声音文件进行语音预处理；对通过外接话筒录音所获得的待测声音文件进行预处理，实现对声纹的预处理；预处理包括采样、量化、预加重、加窗等处理过程，以实现语音特征的提取功能；对待测声音文件进行特征参数的提取；对待测声音文件进行分析处理，提取声音文件的语音特征参数；建立声纹数据库；待测声音文件按照其语音特征参数进行分类，并将待测声音文件根据其不同类别保存于数据库中，形成声纹数据库。

进一步的实施例中，步骤S200具体包括：

步骤S201、当进行原始音频处理时，获取用户的输入的原始音频的声纹数据并判断数据库中是否存在与原始音频匹配的调整参数；

步骤S202、若存在，则根据数据库中的调整参数对用户的输入的音频进行处理，合成处理后的目标音频；

步骤S203、若不存在，对原始音频进行处理，并将用户输入的原始音频的声纹数据及处理的参数存储在数据库中，合成处理后的目标音频。

具体实施时，用户在开启原始音频处理后，开始声纹识别打开，若检测到匹配的声纹特征，则将该声纹的声音进行声音美化的处理，如果没有检测到匹配的声纹，则存储该声纹，选择相应的声音模板进行美化，或者调整相关的音色，频域的参数作为该声纹的美化模板。

进一步的实施例中，所述步骤S203具体包括：

步骤S231、当检测到数据库中不存在与原始音频匹配的调整参数，根据预设的模板或者接收用户输入自行调整音频参数对原始音频进行处理；

步骤S232、将预设的模板或接收用户输入自行调整音频参数作为对应的原始音频的调整参数与用户输入的原始音频的声纹数据进行绑定；

步骤S233、存储用户输入的原始音频的声纹数据及对应的原始音频调整参数。

具体实施时，当检测到数据库中不存在与原始音频匹配的调整参数，说明用户第一次使用，选择预设的模板或自行调整音频参数对原始音频进行处理；将预设的模板或接收用户输入自行调整音频参数作为对应的原始音频的调整参数与声纹特征进行绑定；存储用户输入的原始音频的声纹数据及对应的原始音频调整参数。

本发明提供了一种基于声纹识别的音频处理方法的具体应用实施例的流程图，如图2所示，其中，方法包括，

步骤S10、语音输入；

步骤S20、开启原始音频处理；

步骤S30、判断声纹识别是否与库里预存参数匹配，如果是，则执行步骤S80，如果否，则执行步骤S40；

步骤S40、存储该声纹特征；

步骤S50、选择预设的模板，或自行调整音频参数，进行音频处理；

步骤S60、将该音频参数与声纹特征进行绑定；

步骤S70、合成目标音频；

步骤S80、根据绑定的模板参数进行处理；

步骤S90、合成目标音频。

市面上带有语音输入的设备越来越多，也有语音美化的应用存在，但只能针对单人录音进行美化，或者对整段录音无论什么声音都进行处理。而该发明基于声纹识别技术，可以针对声音中的某一个/若干个用户的声音进行美化处理，使得声音更具识别性和趣味性，甚至在使用K歌类软件时，可以有针对性的对可识别的声纹语音进行美化处理，为用户对输入音频进行处理提供了方便。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random AccessMemory，RAM）等。

在上述方法实施例的基础上，本发明还提供了一种基于声纹识别的音频处理系统的较佳实施例的功能原理框图，如图3所示，所述系统包括：

检测与判断模块100，用于当检测到有原始音频输入时，接收用户指令判断是否进行原始音频处理；具体如上所述。

识别与处理模块200，用于若进行原始音频处理，则获取用户输入的原始音频的声纹数据并识别，根据声纹数据对原始音频进行处理；具体如上所述。

判断单元，用于当进行原始音频处理时，获取用户的输入的原始音频的声纹数据并判断数据库中是否存在与原始音频匹配的调整参数；具体如上所述。

第一音频处理单元，用于若存在，则根据数据库中的调整参数对用户的输入的音频进行处理，合成处理后的目标音频；具体如上所述。

第二音频处理单元，用于若不存在，对原始音频进行处理，并将用户输入的原始音频的声纹数据及处理的参数存储在数据库中，合成处理后的目标音频；具体如上所述。

检测与处理单元，用于当检测到数据库中不存在与原始音频匹配的调整参数，根据预设的模板或者接收用户输入自行调整音频参数对原始音频进行处理；具体如上所述。

绑定单元，用于将预设的模板或接收用户输入自行调整音频参数作为对应的原始音频的调整参数与用户输入的原始音频的声纹数据进行绑定；具体如上所述。

存储单元，用于存储用户输入的原始音频的声纹数据及对应的原始音频调整参数；具体如上所述。

录入单元，用于若不进行原始音频处理，则直接进行原始音频录入；具体如上所述。

音频预处理单元，用于采集用户输入的原始音频，对原始音频进行采样、量化、预加重、加窗处理；具体如上所述。

提取与获取单元，用于对处理后的原始音频提取语音特征参数，获取到原始音频的声纹数据；具体如上所述。

综上所述，本发明提供了一种基于声纹识别的音频处理方法及系统，所述方法包括：当检测到有原始音频输入时，接收用户指令判断是否进行原始音频处理；若进行原始音频处理，则获取用户输入的原始音频的声纹数据并识别，根据声纹数据对原始音频进行处理。本发明可根据声纹识别，可有针对性的对用户进行美化，美化处理后的声音识别性强，而且保证每次美化后的声音具有一致性，实现了针对个人的声音的美化。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于声纹识别的音频处理方法，其特征在于，方法包括：

B、若进行原始音频处理，则获取原始音频的声纹数据并识别，根据声纹数据对原始音频进行处理；

所述步骤B具体包括：

B1、当进行原始音频处理时，获取原始音频的声纹数据并判断数据库中是否存在与原始音频匹配的调整参数；

B2、若存在，则根据数据库中的调整参数对原始音频进行处理，合成处理后的目标音频；

B3、若不存在，选择预设的模板或自行调整音频参数对原始音频进行处理，并将原始音频的声纹数据及处理的参数存储在数据库中，合成处理后的目标音频。

2.根据权利要求1所述的基于声纹识别的音频处理方法，其特征在于，所述步骤B3具体包括：

B32、将预设的模板或接收用户输入自行调整音频参数作为对应的原始音频的调整参数与原始音频的声纹数据进行绑定；

B33、存储原始音频的声纹数据及对应的原始音频调整参数。

3.根据权利要求1所述的基于声纹识别的音频处理方法，其特征在于，所述方法还包括：

C、若不进行原始音频处理，则直接进行原始音频录入。

4.根据权利要求1-3任一项所述的基于声纹识别的音频处理方法，其特征在于，所述步骤B中获取原始音频的声纹数据具体包括：

B10、采集原始音频，对原始音频进行采样、量化、预加重、加窗处理；

5.一种基于声纹识别的音频处理系统，其特征在于，所述系统包括：

识别与处理模块，用于若进行原始音频处理，则获取原始音频的声纹数据并识别，根据声纹数据对原始音频进行处理；

所述识别与处理模块具体包括：

判断单元，用于当进行原始音频处理时，获取原始音频的声纹数据并判断数据库中是否存在与原始音频匹配的调整参数；

第一音频处理单元，用于若存在，则根据数据库中的调整参数对原始音频进行处理，合成处理后的目标音频；

第二音频处理单元，用于若不存在，选择预设的模板或自行调整音频参数对原始音频进行处理，并将原始音频的声纹数据及处理的参数存储在数据库中，合成处理后的目标音频。

6.根据权利要求5所述的基于声纹识别的音频处理系统，其特征在于，所述第二音频处理单元具体包括：

绑定单元，用于将预设的模板或接收用户输入自行调整音频参数作为对应的原始音频的调整参数与原始音频的声纹数据进行绑定；

存储单元，用于存储原始音频的声纹数据及对应的原始音频调整参数。

7.根据权利要求5所述的基于声纹识别的音频处理系统，其特征在于，所述系统还包括：

8.根据权利要求5-7任一项所述的基于声纹识别的音频处理系统，其特征在于，所述识别与处理模块还包括：

音频预处理单元，用于采集原始音频，对原始音频进行采样、量化、预加重、加窗处理；