CN111835522A

CN111835522A - 一种音频处理方法及装置

Info

Publication number: CN111835522A
Application number: CN202010427488.1A
Authority: CN
Inventors: 杨剑宇; 李健; 武卫东
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2020-10-27

Abstract

本发明实施例提供一种音频处理方法及装置，属于音频处理技术领域。本发明通过先获取用户的待注册音频，并确定待注册音频对应的文本信息，再根据文本信息及待注册音频，获取至少两种验证模式下的注册音频，其中，至少两种验证模式为文本相关模式、文本半相关模式及文本无关模式中的至少两种模式，最后，根据至少两种验证模式下的注册音频，获取至少两种验证模式下的音频验证信息。这样，只需获取一次注册音频，就可以得到多个验证模式下的音频验证信息，节省了用户时间，使得操作更为简便，从而提高了音频处理效率。

Description

一种音频处理方法及装置

技术领域

本发明涉及音频处理技术领域，尤其涉及一种音频处理方法及装置。

背景技术

目前，声纹验证在很多领域中得到了广泛应用。比如，在银行办理业务时，会通过声纹验证来确认用户身份。为了进行声纹验证，往往需要预先获取用于声纹验证的音频验证信息。

因此，亟需一种音频处理方法，来获取音频验证信息。

发明内容

本发明实施例提供一种音频处理方法及装置，以解决在获取音频验证信息时，会耗费用户较多时间，且操作较为繁琐，效率较低的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供一种音频处理方法，所述方法包括：

获取用户的待注册音频；

确定所述待注册音频对应的文本信息；

根据所述文本信息及所述待注册音频，获取至少两种验证模式下的注册音频；其中，所述至少两种验证模式为文本相关模式、文本半相关模式及文本无关模式中的至少两种模式；

根据所述至少两种验证模式下的注册音频，获取所述至少两种验证模式下的音频验证信息。

第二方面，本发明实施例还提供了一种音频处理装置，所述装置包括：

第一获取模块，用于获取用户的待注册音频；

确定模块，用于确定所述待注册音频对应的文本信息；

第二获取模块，用于根据所述文本信息及所述待注册音频，获取至少两种验证模式下的注册音频；其中，所述至少两种验证模式为文本相关模式、文本半相关模式及文本无关模式中的至少两种模式；

第三获取模块，用于根据所述至少两种验证模式下的注册音频，获取所述至少两种验证模式下的音频验证信息。

第三方面，本发明实施例提供了一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的音频处理程序，所述音频处理程序被所述处理器执行时实现如第一方面所述的音频处理方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储音频处理程序，所述音频处理程序被处理器执行时实现如第一方面所述的音频处理方法的步骤。

综上所述，本发明实施例提供的音频处理方法，会先获取用户的待注册音频，并确定待注册音频对应的文本信息，再根据文本信息及待注册音频，获取至少两种验证模式下的注册音频，其中，至少两种验证模式为文本相关模式、文本半相关模式及文本无关模式中的至少两种模式，最后，根据至少两种验证模式下的注册音频，获取至少两种验证模式下的音频验证信息。这样，只需获取一次注册音频，就可以得到多个验证模式下的音频验证信息，节省了用户时间，使得操作更为简便，从而提高了音频处理效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1表示本发明实施例提供的一种音频处理方法的步骤流程图；

图2表示本发明实施例提供的另一种音频处理方法的步骤流程图；

图3表示本发明实施例提供的一种音频处理装置的结构框图；

图4表示本发明实施例的一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例提供的一种音频处理方法的步骤流程图，该方法可以应用于电子设备，如图1所示，该方法可以包括：

步骤101，获取用户的待注册音频。

本发明实施例中，待注册音频可以是用户利用电子设备录制的音频，也可以是电子设备上存储的音频。具体的，待注册音频可以是包含用户声音的音频，可以用于注册该用户在声纹识别时的验证信息，该验证信息可以是通过音频处理得到的用户声音的特征信息，当某一音频的特征信息与验证信息相匹配时，则可以认为该音频中包含的人声是验证信息对应的用户的声音。示例的，可以将用户与银行客服沟通的电话录音作为待注册音频。

声纹识别(Voiceprint Recognition，VPR)可以是确定音频中包含的人声是否为特定用户的声音的方法。具体的，声音识别可以包括两个部分，第一部分是从需要识别的音频中提取特征信息，第二部分是根据声纹验证模式下用户的验证信息，确定需要验证的特征信息所匹配的用户。可见，在声纹识别时，需要用户根据声纹验证模式注册该用户的验证信息。

本发明还可以对待注册音频进行预先处理，比如去除杂音、加强人声等，具体的，可以是通过压缩声音信号和提升高频的音频处理操作，使得待注册音频中的人声更加清晰，以便后续对待注册音频进行处理。

步骤102，确定所述待注册音频对应的文本信息。

本发明实施例中，确定待注册音频对应的文本信息，可以是通过预设的语音转换文本方法，获取待注册音频对应的文本信息。该预设的语音转换文本方法可以是语音识别(Automatic Speech Recognition，ASR)方法，具体的，可以先对待注册音频进行预处理，提取待注册音频中对应的语音特征，再将提取到的语音特征与预先存储的语音模板进行比较，确定每个语音特征对应的语音模板，最后，将语音模板对应的文本内容作为待注册音频对应的文本内容。而文本信息可以是每个语音特征对应的文本内容，以及该语音特征在待注册音频中的播放时间。

步骤103，根据所述文本信息及所述待注册音频，获取至少两种验证模式下的注册音频；其中，所述至少两种验证模式为文本相关模式、文本半相关模式及文本无关模式中的至少两种模式。

本发明实施例中，在不同的声纹验证模式下，所需的注册音频并不相同。文本相关模式可以是在文本信息相同的情况下，根据声音特征信息是否匹配来确定匹配的用户，则注册文本相关模式的验证信息时，需要注册音频与对应的文本信息。文本半相关模式可以在文本信息中包含指定字符时，根据声音特征信息是否匹配来确定匹配的用户，则注册文本半相关模式的验证信息时，需要文本信息中包含指定字符的注册音频。例如，文本半相关模式的注册音频需要5至10秒的时长。文本无关模式可以在文本信息不相同的情况下，根据声音特征信息是否匹配来确定匹配的用户，由于文本无关模式中仅通过声音特征信息进行验证，因此注册文本无关模式的验证信息时，需要超过预设时长的注册音频。例如，文本无关模式的注册音频需要至少30秒的时长。相应的，本步骤中，可以根据每种模式的需求，从待注册音频中获取注册音频。获取待注册音频时，可以是获取时长超过预设时长且对应的文本内容中包含指定字符的音频。

步骤104，根据所述至少两种验证模式下的注册音频，获取所述至少两种验证模式下的音频验证信息。

本发明实施例中，音频验证信息可以是用于确定是否为该用户声音的特征信息。同一用户在不同的验证模式下，获取的音频验证信息可以是不同的。需要说明的是，可以利用声纹识别模型获取注册音频的音频验证信息。声纹识别模型可以是预训练的分类模型，比如卷积神经网络(Convolutional Neural Network,CNN)，也可以是混合高斯模型(Gaussian Mixture Model，GMM) 等，本发明对分类模型不作限定。该分类模型可以是基于样本训练得到的，具体的，对初始分类模型进行迭代训练得到的。该样本可以是不同人声音信息的音频，通过不断的迭代训练，使得分类模型可以学习到从音频中正确提取说话人声音特征信息的能力。将提取到的声音特征信息作为该用户的声纹特征，可以用于在声纹识别中作为该用户的音频验证信息。

图2是本发明实施例提供的另一种音频处理方法的步骤流程图，该方法可以应用于电子设备，如图2所示，该方法可以包括：

步骤201、获取用户的待注册音频。

具体的，本步骤的实现方式可以参照前述步骤101，本发明实施例对此不作限定。

步骤202、确定所述待注册音频对应的文本信息。

具体的，在执行步骤202之前还可以通过下述步骤2021～步骤2022对待注册音频进行预先处理。

步骤2021、检测所述待注册音频中包含的声音来源的数量；所述声音来源至少包括所述用户。

本发明实施例中，由于每个人的声纹特征并不相同，可以检测待注册音频中是否包含不同的声纹特征，将同一声纹特征作为同一声音来源，确定待注册音频中声音来源的数量。具体的，可以将待注册音频划分为多个音频段进行检测，确定每个音频段中的声音来源。

需要说明的是，由于用户为录制待注册音频的主要声音来源，可以将待注册音频中同一声音来源出现时间最长的用户作为录制该待注册音频的用户，并将该声音来源的声纹特征作为该用户的声纹特征。

步骤2022、若所述声音来源的数量大于1，则对所述待注册音频中目标声音来源对应的音频进行分离；所述目标声音来源为除所述用户之外的声音来源。

本发明实施例中，对待注册音频中目标声音来源对应的音频进行分离，可以是根据用户的声纹特征，将与用户声纹特征不同的音频从待注册音频中分离出来，使得分离后的待注册音频中仅包含用户的声纹特征。示例的，用户A在录制待注册音频的过程中，收录到用户A周围人的一段话，通过检测发现待注册音频中，有一个音频段中声音来源为两个，可以根据用户的声纹特征，将该音频段中不属于用户的声音来源分离出去，得到待注册音频中只包含用户A的声纹特征。通过分离不属于用户的声纹特征，保证待注册音频中只包含用户的声纹特征，可以提高利用待注册音频获取用户音频验证信息的准确率，从而可以提高声纹识别的有效性。

步骤203、根据所述文本信息及所述待注册音频，获取至少两种验证模式下的注册音频。

具体的，文本信息可以包括注册文本和注册文本中各个字符对应的时间戳信息。该时间戳信息可以是在语音转换文字方法中确定的。

在至少两种验证模式为文本无关模式和文本相关模式，或者文本无关模式和文本半相关模式两种情况时，可以通过下述子步骤(1)—子步骤(3) 获取注册音频。

子步骤(1)、获取所述注册文本中的第一指定字符或第二指定字符。

本发明实施例中，第一指定字符可以是文本相关模式下的预先指定的文本内容，例如，预先指定的文本内容为“我叫李四，我来自中国”，则获取注册文本中的“我叫李四，我来自中国”作为第一指定字符，或者是，从所述注册文本中选择安全等级较高的字符，作为第一指定字符，相应地，可以将所选第一指定字符告知用户，以方便用户后续进行验证。第二指定字符可以是在文本半相关模式下的预先指定的文本范围中的至少一个字符，例如，预先指定的文本范围为数字范围，即可以是包含“1234567890”中的至少一个数字，注册文本中出现“我的电话是87654321”，其中，“87654321”属于数字范围，则获取注册文本中的“87654321”作为第二指定字符，或者是，从所述注册文本中选择安全等级较高的字符，作为第二指定字符，相应地，可以将所选第二指定字符告知用户，以方便用户后续进行验证。

相应地，获取待注册音频时，可以先输出内容提示信息；该提示信息可以用于提示用户录制包含第一指定字符和/或第二指定字符且时长大于预设时长的内容。例如，提示信息可以为包含第一指定字符和/或第二指定字符的文本，输出时，可以显示该文本。或者，提示信息可以为引导用户说出包含第一指定字符和/或第二指定字符的引导语音，输出时，可以播放该文本，例如在客服通话过程中，客服说出引导语音，相应的，用户使用的终端可以播放该语音。接着，可以获取用户根据该提示信息输入的语音，作为待注册语音。

子步骤(2)、根据所述第一指定字符对应的时间戳信息，从所述待注册音频中获取所述第一指定字符对应的第一注册音频；或者，根据所述第二指定字符对应的时间戳信息，从所述待注册音频中获取所述第二指定字符对应的第二注册音频。

本步骤中，可以提取第一指定字符对应的时间戳信息处的音频，作为第一注册音频；提取第二指定字符对应的时间戳信息处的音频，作为第二注册音频。

本发明实施例中，第一注册音频可以是文本相关模式下的注册音频，第二注册音频可以是文本半相关模式下的注册音频。利用注册文本分别获取文本相关模式的注册音频与文本半相关模式的注册音频，可以提高获取注册音频的效率，简化操作步骤。

子步骤(3)、将所述待注册音频确定为第三注册音频。

本发明实施例中，第三注册音频可以是文本无关模式下的注册音频，由于文本无关验证模式只需根据声纹特征确定匹配的用户，则可以直接将待注册音频作为文本无关模式的注册音频。

步骤204、根据所述至少两种验证模式下的注册音频，获取所述至少两种验证模式下的音频验证信息。

具体的，在获取的验证模式为文本无关模式与文本相关模式的情况下，根据预设的声纹注册模型，分别获取第一注册音频及第三注册音频对应的声纹信息，将第一注册音频对应的声纹信息及第一指定字符，作为文本相关模式下的音频验证信息，将第三注册音频对应的声纹信息，作为文本无关模式下的音频验证信息。或者，在获取的验证模式为文本无关模式与文本半相关模式的情况下，根据预设的声纹注册模型，分别获取第二注册音频及第三注册音频对应的声纹信息，将第二注册音频对应的声纹信息及第二指定字符，作为文本半相关模式下的音频验证信息，将第三注册音频对应的声纹信息，作为文本无关模式下的音频验证信息。

本步骤中，预设的声纹注册模型可以是用于获取声纹信息的声纹识别模型，该声纹识别模式如步骤104中所述，在此不再赘述。如果控制用户分别针对不同的声纹验证模式，录制不同的注册音频，则用户需要录制多份音频，会导致操作较为繁琐，效率较低。本发明通过获取第一指定字符与第一注册音频对应的声纹信息作为文本相关模式下的音频验证信息，或者，通过获取第二指定字符与第二注册音频对应的声纹信息作为文本半相关模式下的音频验证信息，可以减少用户的配合即可得到文本相关模式下的注册音频，或者文本半相关模式下的音频验证信息，提高了获取验证信息的效率。由于在文本无关模式下，只需声纹信息来确定匹配的用户，因此，将第三注册音频对应的声纹信息作为文本无关模式下的音频验证信息，可以实现在文本无关模式下进行声纹验证的操作。根据不同验证模式所需的验证信息，获取不同验证模式下的音频验证信息，可以提高获取验证信息的效率，同时，相较于获取一种验证模式下的注册音频，后续采用单一验证模式进行声纹验证，本发明通过获取多种模式下的注册音频进行注册，使得后续可以根据安全需求选择合适的验证模式进行验证，可以简化用户操作的方式，进而一定程度提高了验证效果。

步骤205、将所述音频验证信息与所述用户的用户信息相关联，存储至预设数据库中。

本发明实施例中，用户信息可以是用于识别用户的相关信息，比如，名字、性别、年龄等。音频验证信息与用户的用户信息相关联，可以是将音频验证信息的名称用对应的用户信息命名，以便于根据音频验证信息可以准确确定该音频验证信息对应的用户信息。这样，预设数据库可以包含多个用户对应的音频验证信息，可以在预设数据库中根据音频验证信息查找到对应的用户信息。通过建立预设数据库，并将音频验证信息与用户信息相关联，可以方便根据音频验证信息快速确定对应的用户信息，从而可以提高处理速率。

本发明实施例中还可以通过下述步骤S1-S2对待验证音频进行验证。

步骤S1、获取待验证用户输入的待验证音频，以及获取所述待验证音频对应的目标验证模式；所述目标验证模式属于所述至少两种验证模式中的一种。

本发明实施例中，待验证音频可以是利用电子设备录制的音频，也可以是从网上下载的音频，在需要确定待验证用户的用户信息时，可以输入待验证音频。目标验证模式可以是在输入待验证音频时，在验证模式选择界面上选取的，该验证模式选择界面可以根据实际情况预先设定，将选中的验证模式作为目标验证模式。目标验证模式也可以是终端根据待验证音频确定的，比如，当待验证音频的时长超过30秒时，终端自动选择目标验证模式为文本无关模式。目标验证模式还可以是将预设验证模式作为目标验证模式，预设验证模式可以是根据验证需求预先设定的。比如，银行办理业务的场景中，预设验证模式可以是稳定性较高同时准确率也较高的文本半相关模式，则目标验证模式是文本半相关模式。

需要说明的是，用户可以在想要修改验证模式时，进入验证模式选择界面，将目标验证模式替换为重新选择的验证模式。

步骤S2、根据所述目标验证模式下的音频验证信息，对所述待验证音频进行验证。

具体的，通过下述方法根据目标验证模式下的音频验证信息，对待验证音频进行验证。

首先，获取待验证音频对应的声纹信息。

本步骤中，可以利用声纹识别模型获取待验证音频的声纹信息，该声纹信息可以是待验证音频中人声的声纹信息。该人声可以为待验证用户对应的声音。

其次，从预设数据库中获取目标验证模式下待验证用户对应的音频验证信息，得到目标音频验证信息。

示例的，若目标验证模式为文本无关模式，则从预设数据库中获取文本无关模式的音频验证信息，将文本无关模式的音频验证信息作为目标音频验证信息。

最后，若目标验证模式为文本无关模式，判断待验证音频对应的声纹信息与目标音频验证信息中包含的声纹信息是否匹配；若匹配，则确定待验证用户通过验证。或者，若目标验证模式为文本相关模式，判断待验证音频对应的文本内容与目标音频验证信息中包含的第一指定字符是否匹配，以及待验证音频对应的声纹信息与目标音频验证信息中包含的声纹信息是否匹配；若两者均匹配，则确定待验证用户通过验证。或者，若目标验证模式为文本半相关模式，判断待验证音频对应的文本内容是否属于目标音频验证信息中包含的第二指定字符，以及，待验证音频对应的声纹信息与目标音频验证信息中包含的声纹信息是否匹配；若属于且匹配，则确定待验证用户通过验证。

示例的，以用户使用手机拨打客服电话的场景为例，将用户通话的声音作为待注册音频，先利用语音识别的方法获取待注册音频对应的文本信息，再根据文本信息提取包含数字串的音频段，比如，用户说身份证号码或电话号码时的音频段，将包含数字串的音频段作为文本半相关模型的注册音频，获取该用户在文本半相关模式下的音频验证信息，还可以将超过30秒的待注册音频作为文本无关模式下的注册音频，获取该用户在文本无关模式下的音频验证信息。

在验证声纹时，可采用文本半相关的验证模式。通过将待验证音频的声纹信息与文本半相关模式下的音频验证信息相匹配，得到匹配结果，当匹配结果大于预设阈值时，比如90％，则确定待验证音频的用户为目标用户。也可采用文本无关的验证模式。通过将待验证音频的声纹信息与文本无关模式下的音频验证信息相匹配，得到匹配结果，可以根据匹配结果确定待验证音频对应的用户。

综上所述，本发明实施例提供的音频处理方法，会先获取用户的待注册音频，并确定待注册音频对应的文本信息，再根据文本信息及待注册音频，获取至少两种验证模式下的注册音频，其中，至少两种验证模式为文本相关模式、文本半相关模式及文本无关模式中的至少两种模式，最后，根据至少两种验证模式下的注册音频，获取至少两种验证模式下的音频验证信息，并将音频验证信息与用户的用户信息相关联，存储至预设数据库中。这样，无需用户分别根据不同验证模式录制不同的注册音频，只需提供一次注册音频，就可以得到多个验证模式下的音频验证信息，节省了用户的时间，并且，将音频验证信息与用户信息关联，可以方便查找，使得操作更为简便，从而提高了音频处理效率。

以上介绍了本发明实施例提供的音频处理方法，下面将结合附图介绍本发明实施例提供的装置。

参见图3，本发明实施例还提供了一种音频处理装置的结构框图，如图 3所示，该音频处理装置30可以包括：

第一获取模块301，用于获取用户的待注册音频；

确定模块302，用于确定所述待注册音频对应的文本信息；

第二获取模块303，用于根据所述文本信息及所述待注册音频，获取至少两种验证模式下的注册音频；其中，所述至少两种验证模式为文本相关模式、文本半相关模式及文本无关模式中的至少两种模式；

第三获取模块304，用于根据所述至少两种验证模式下的注册音频，获取所述至少两种验证模式下的音频验证信息。

综上所述，本发明实施例提供的音频处理装置，会先获取用户的待注册音频，并确定待注册音频对应的文本信息，再根据文本信息及待注册音频，获取至少两种验证模式下的注册音频，其中，至少两种验证模式为文本相关模式、文本半相关模式及文本无关模式中的至少两种模式，最后，根据至少两种验证模式下的注册音频，获取至少两种验证模式下的音频验证信息。这样，只需获取一次注册音频，就可以得到多个验证模式下的音频验证信息，节省了用户时间，使得操作更为简便，从而提高了音频处理效率。

可选的，所述文本信息包括注册文本和所述注册文本中各个字符对应的时间戳信息；所述至少两种验证模式为所述文本无关模式和所述文本相关模式，或者所述至少两种验证模式为所述文本无关模式和所述文本半相关模式；

所述第二获取模块303，还具体用于：

获取所述注册文本中的第一指定字符或第二指定字符；根据所述第一指定字符对应的时间戳信息，从所述待注册音频中获取所述第一指定字符对应的第一注册音频；或者，根据所述第二指定字符对应的时间戳信息，从所述待注册音频中获取所述第二指定字符对应的第二注册音频；

将所述待注册音频确定为第三注册音频；

其中，所述第一注册音频为所述文本相关模式下的注册音频，所述第二注册音频为所述文本半相关模式下的注册音频，所述第三注册音频为所述文本无关模式下的注册音频。

可选的，所述第三获取模块304，还具体用于：

根据预设的声纹注册模型，分别获取所述第一注册音频及所述第三注册音频对应的声纹信息；将所述第一注册音频对应的声纹信息及所述第一指定字符，作为所述文本相关模式下的音频验证信息；将所述第三注册音频对应的声纹信息，作为所述文本无关模式下的音频验证信息；

或者，

根据预设的声纹注册模型，分别获取所述第二注册音频及所述第三注册音频对应的声纹信息；将所述第二注册音频对应的声纹信息及所述第二指定字符，作为所述文本半相关模式下的音频验证信息；将所述第三注册音频对应的声纹信息，作为所述文本无关模式下的音频验证信息。

可选的，所述装置30还包括：

存储模块，用于将所述音频验证信息与所述用户的用户信息相关联，存储至预设数据库中。

可选的，所述装置30还包括：

第四获取模块，用于获取待验证用户输入的待验证音频，以及获取所述待验证音频对应的目标验证模式；所述目标验证模式属于所述至少两种验证模式中的一种；

验证模块，用于根据所述目标验证模式下的音频验证信息，对所述待验证音频进行验证。

可选的，所述验证模块，还具体用于：

获取所述待验证音频对应的声纹信息；

从所述预设数据库中获取所述目标验证模式下所述待验证用户对应的音频验证信息，得到目标音频验证信息；

若所述目标验证模式为所述文本无关模式，判断所述待验证音频对应的声纹信息与所述目标音频验证信息中包含的声纹信息是否匹配；若匹配，则确定所述待验证用户通过验证；或者，若所述目标验证模式为所述文本相关模式，判断所述待验证音频对应的文本内容与目标音频验证信息中包含的第一指定字符是否匹配，以及所述待验证音频对应的声纹信息与所述目标音频验证信息中包含的声纹信息是否匹配；若两者均匹配，则确定所述待验证用户通过验证；或者，若所述目标验证模式为所述文本半相关模式，判断所述待验证音频对应的文本内容是否属于目标音频验证信息中包含的所述第二指定字符，以及，所述待验证音频对应的声纹信息与所述目标音频验证信息中包含的声纹信息是否匹配；若属于且匹配，则确定所述待验证用户通过验证。

可选的，所述装置30还包括：

检测模块，用于检测所述待注册音频中包含的声音来源的数量；所述声音来源至少包括所述用户；

分离模块，用于若所述声音来源的数量大于1，则对所述待注册音频中目标声音来源对应的音频进行分离；所述目标声音来源为除所述用户之外的声音来源。

综上所述，本发明实施例提供的音频处理装置，会先获取用户的待注册音频，并确定待注册音频对应的文本信息，再根据文本信息及待注册音频，获取至少两种验证模式下的注册音频，其中，至少两种验证模式为文本相关模式、文本半相关模式及文本无关模式中的至少两种模式，最后，根据至少两种验证模式下的注册音频，获取至少两种验证模式下的音频验证信息，并将音频验证信息与用户的用户信息相关联，存储至预设数据库中。这样，无需用户分别根据不同验证模式录制不同的注册音频，只需提供一次注册音频，就可以得到多个验证模式下的音频验证信息，节省了用户时间，并且，将音频验证信息与用户信息关联，可以方便查找，使得操作更为简便，从而提高了音频处理效率。

图4为实现本发明各个实施例的一种电子设备的硬件结构示意图；

该电子设备400包括但不限于：射频单元401、网络模块402、音频输出单元403、输入单元404、传感器405、显示单元406、用户输入单元407、接口单元408、存储器409、处理器410、以及电源411等部件。本领域技术人员可以理解，图4中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，处理器410，用于获取用户的待注册音频；

处理器410，用于确定所述待注册音频对应的文本信息；

处理器410，用于根据所述文本信息及所述待注册音频，获取至少两种验证模式下的注册音频；其中，所述至少两种验证模式为文本相关模式、文本半相关模式及文本无关模式中的至少两种模式；

处理器410，用于根据所述至少两种验证模式下的注册音频，获取所述至少两种验证模式下的音频验证信息。

应理解的是，本发明实施例中，射频单元401可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器410处理；另外，将上行的数据发送给基站。通常，射频单元401包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元401还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块402为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元403可以将射频单元401或网络模块402接收的或者在存储器409中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元403还可以提供与电子设备400执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元403包括扬声器、蜂鸣器以及受话器等。

输入单元404用于接收音频或视频信号。输入单元404可以包括图形处理器(Graphics Processing Unit，GPU)4041和麦克风4042，图形处理器4041 对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元 406上。经图形处理器4041处理后的图像帧可以存储在存储器409(或其它存储介质)中或者经由射频单元401或网络模块402进行发送。麦克风4042 可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元401发送到移动通信基站的格式输出。

电子设备400还包括至少一种传感器405，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板4061的亮度，接近传感器可在电子设备400移动到耳边时，关闭显示面板4061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器405还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元406用于显示由用户输入的信息或提供给用户的信息。显示单元606可包括显示面板4061，可以采用液晶显示器(Liquid Crystal Display， LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板4061。

用户输入单元407可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元407 包括触控面板4071以及其他输入设备4072。触控面板4071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板4071上或在触控面板4071附近的操作)。触控面板4071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器410，接收处理器410发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板4071。除了触控面板4071，用户输入单元407还可以包括其他输入设备4072。具体地，其他输入设备4072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板4071可覆盖在显示面板4061上，当触控面板4071 检测到在其上或附近的触摸操作后，传送给处理器410以确定触摸事件的类型，随后处理器410根据触摸事件的类型在显示面板4061上提供相应的视觉输出。虽然在图4中，触控面板4071与显示面板4061是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板4071与显示面板4061集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元408为外部装置与电子设备400连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元408可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备400内的一个或多个元件或者可以用于在电子设备 400和外部装置之间传输数据。

存储器409可用于存储软件程序以及各种数据。存储器409可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器409可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器410是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器409内的软件程序和/或模块，以及调用存储在存储器409内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器410可包括一个或多个处理单元；优选的，处理器410可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器410 中。

电子设备400还可以包括给各个部件供电的电源411(比如电池)，优选的，电源411可以通过电源管理系统与处理器410逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，电子设备400包括一些未示出的功能模块，在此不再赘述。

优选的，本发明实施例还提供一种电子设备，包括处理器410，存储器 409，存储在存储器409上并可在所述处理器410上运行的计算机程序，该计算机程序被处理器410执行时实现上述音频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述音频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

获取用户的待注册音频；

确定所述待注册音频对应的文本信息；

2.根据权利要求1所述的方法，其特征在于，所述文本信息包括注册文本和所述注册文本中各个字符对应的时间戳信息；所述至少两种验证模式为所述文本无关模式和所述文本相关模式，或者所述至少两种验证模式为所述文本无关模式和所述文本半相关模式；

所述根据所述文本信息及所述待注册音频，获取至少两种验证模式下的注册音频，包括：

将所述待注册音频确定为第三注册音频；

3.根据权利要求2所述的方法，其特征在于，所述根据所述至少两种验证模式下的注册音频，获取所述至少两种验证模式下的音频验证信息，包括：

或者，

4.根据权利要求1所述的方法，其特征在于，所述根据所述至少两种验证模式下的注册音频，获取所述至少两种验证模式下的音频验证信息之后，还包括：

将所述音频验证信息与所述用户的用户信息相关联，存储至预设数据库中。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

获取待验证用户输入的待验证音频，以及获取所述待验证音频对应的目标验证模式；所述目标验证模式属于所述至少两种验证模式中的一种；

根据所述目标验证模式下的音频验证信息，对所述待验证音频进行验证。

6.根据权利要求5所述的方法，其特征在于，所述根据所述目标验证模式下的音频验证信息，对所述待验证音频进行验证，包括：

获取所述待验证音频对应的声纹信息；

7.根据权利要求1所述的方法，其特征在于，所述确定所述待注册音频对应的文本信息之前，还包括：

检测所述待注册音频中包含的声音来源的数量；所述声音来源至少包括所述用户；

若所述声音来源的数量大于1，则对所述待注册音频中目标声音来源对应的音频进行分离；所述目标声音来源为除所述用户之外的声音来源。

8.一种音频处理装置，其特征在于，所述装置包括：

第一获取模块，用于获取用户的待注册音频；

确定模块，用于确定所述待注册音频对应的文本信息；

9.根据权利要求8所述的装置，其特征在于，所述文本信息包括注册文本和所述注册文本中各个字符对应的时间戳信息；所述至少两种验证模式为所述文本无关模式和所述文本相关模式，或者所述至少两种验证模式为所述文本无关模式和所述文本半相关模式；

所述第二获取模块，还具体用于：

将所述待注册音频确定为第三注册音频；

10.根据权利要求9所述的装置，其特征在于，所述第三获取模块，还具体用于：

或者，