CN111028845A

CN111028845A - 多音频识别方法、装置、设备及可读存储介质

Info

Publication number: CN111028845A
Application number: CN201911248127.4A
Authority: CN
Inventors: 彭辉; 黎智勇; 许敏强
Original assignee: Guangzhou Speakin Intelligent Technology Co ltd
Current assignee: Guangzhou Speakin Intelligent Technology Co ltd
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2020-04-17

Abstract

本发明公开了一种多音频识别方法，装置、设备及可读存储介质，所述多音频识别方法根据第一音频信号的预测用户特征确定目标用户声纹信息，实现了对匹配声纹的预分类，缩小了匹配过程中对照声纹信息的范围，减少了匹配过程所需的时间；通过输出与目标用户声纹信息的匹配结果，使得无需等待其他音频的匹配结果，减少了等待结果的时间；通过将第二声纹信息输入预设声纹识别模型进行匹配，进一步对剩余的未知音频进行识别，最终完成对所有未知音频的识别。本发明通过缩小范围分次对多个未知音频进行识别并分别获取识别结果，提高了发声者未知的多音频的识别效率。

Description

多音频识别方法、装置、设备及可读存储介质

技术领域

本发明涉及声纹识别技术领域，尤其涉及一种多音频识别方法、装置、设备及可读存储介质。

背景技术

随着科学技术的发展，声纹识别在各领域应用越来越广泛。声纹类似于指纹，是一个人特有的信息，一个人说的不同的话，其声纹应该是一致的。声纹识别是一种利用声纹特征信息对未知用户进行身份确认的技术。在公安刑侦领域，采用声纹识别技术来对音频的发声者的身份进行确认。一般情况下往往针对单个的未知音频进行识别，可将音频直接输入经大量训练数据训练后的声纹识别模型进行匹配。但在证据收集过程中，若采集到了多个发声者未知的音频，依然将这多个音频直接输入大型的声纹识别模型，多个办案人员需等待较长时间才可一并得到多个音频的识别结果，从而导致了识别多个未知音频的效率低下的问题。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种多音频识别方法，旨在解决识别多个未知音频的效率低下的技术问题。

为实现上述目的，本发明提供一种多音频识别方法，所述多音频识别方法应用于多音频识别设备，所述多音频识别方法包括以下步骤：

在接收到多音频识别指令时，获取基于所述多音频识别指令确定的多个第一语音信号；

提取预处理后的各第一语音信号的第一声纹信息，并基于所述第一声纹信息确定各所述第一语音信号的预测身份特征；

将所述第一声纹信息与基于所述预测身份特征确定的目标用户声纹信息进行匹配，获取第一匹配结果；

在所述第一匹配结果中存在与所述目标用户声纹信息不匹配的第二声纹信息时，将所述第二声纹信息输入预设声纹识别模型，获取第二匹配结果。

可选地，所述将所述第一声纹信息与基于所述预测身份特征确定的目标用户声纹信息进行匹配，获取第一匹配结果的步骤包括：

基于所述预测身份特征，在预存的已知声纹中进行筛选，确定多组目标用户声纹信息；

将所述第一声纹信息与对应的各组目标用户声纹信息同时进行匹配，获取并输出所述第一声纹信息的第一匹配结果。

可选地，所述提取预处理后各第一语音信号的第一声纹信息的步骤包括：

根据倒谱法提取各所述第一语音信号的基音周期参数；

基于梅尔滤波器获取各所述第一语音信号的梅尔倒谱系数；

将所述基音周期参数与梅尔倒谱系数结合作为所述第一声纹信息。

可选地，所述提取预处理后各第一语音信号的第一声纹信息的步骤之前，还包括：

对各所述第一语音信号进行加窗分帧处理，生成第一加窗语音信号；

基于快速傅里叶变换对所述第一加窗语音信号进行时频分解，生成第一时频二维信号；

获取所述第一时频二维信号的特征参数，并基于所述特征参数与预设语音端点检测方式将所述第一时频二维信号中的空语音段进行过滤，以完成各所述第一语音信号的预处理。

可选地，所述对各所述第一语音信号进行加窗分帧处理，生成第一加窗语音信号的步骤之前，还包括：

对各所述第一语音信号进行预加重处理，以增强各所述第一语音信号的高频部分。

可选地，所述在所述第一匹配结果中存在与所述目标用户声纹信息不匹配的第二声纹信息时，将所述第二声纹信息输入预设声纹识别模型，获取第二匹配结果的步骤之前，还包括：

判断所述第一声纹信息与所述目标用户声纹信息的相似度是否大于预设阈值：

若所述第一声纹信息与所述目标用户声纹信息的相似度大于所述预设阈值，则判定所述第一声纹信息与所述目标用户声纹信息匹配；

若所述第一声纹信息与所述目标用户声纹信息的相似度不大于所述预设阈值，则判定所述第一声纹信息与所述目标用户声纹信息不匹配。

可选地，所述在所述第一匹配结果中存在与所述目标用户声纹信息不匹配的第二声纹信息时，将所述第二声纹信息输入预设声纹识别模型，获取第二匹配结果的步骤之后，还包括：

在接收到用户发送的识别结果确认指令时，基于所述第二匹配结果生成并显示所述第二声纹信息的识别标签，并将所述第二声纹信息对应的第一音频信号与识别标签导入预设音频库。

此外，为实现上述目的，本发明还提供一种多音频识别装置，所述多音频识别装置包括：

音频信号获取模块，用于在接收到多音频识别指令时，获取基于所述多音频识别指令确定的多个第一语音信号；

声纹信息匹配模块，用于提取预处理后的各第一语音信号的第一声纹信息，并基于所述第一声纹信息确定各所述第一语音信号的预测身份特征；

声纹模型识别模块，用于将所述第一声纹信息与基于所述预测身份特征确定的目标用户声纹信息进行匹配，获取第一匹配结果；

识别结果获取模块，用于在所述第一匹配结果中存在与所述目标用户声纹信息不匹配的第二声纹信息时，将所述第二声纹信息输入预设声纹识别模型，获取第二匹配结果。

此外，为实现上述目的，本发明还提供一种多音频识别设备，所述多音频识别装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多音频识别程序，所述多音频识别程序被所述处理器执行时实现如上述的视频会议切换的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有多音频识别程序，所述多音频识别程序被处理器执行时实现如上述的多音频识别方法的步骤。

本发明提供一种多音频识别方法、装置、设备及计算机可读存储介质。所述多音频识别方法通过在接收到多音频识别指令时，获取基于所述多音频识别指令确定的多个第一语音信号；提取预处理后的各第一语音信号的第一声纹信息，并基于所述第一声纹信息确定各所述第一语音信号的预测身份特征；将所述第一声纹信息与基于所述预测身份特征确定的目标用户声纹信息进行匹配，获取第一匹配结果；在所述第一匹配结果中存在与所述目标用户声纹信息不匹配的第二声纹信息时，将所述第二声纹信息输入预设声纹识别模型，获取第二匹配结果。通过上述方式，本发明根据第一音频信号的预测用户特征确定目标用户声纹信息，缩小了匹配过程中对照声纹信息的范围，减少了匹配过程所需的时间；通过输出与目标用户声纹信息的匹配结果，使得无需等待其他音频的匹配结果，减少了等待结果的时间；通过将第二声纹信息输入预设声纹识别模型进行匹配，进一步对剩余的未知音频进行识别，最终完成对所有未知音频的识别。本发明通过缩小范围分次对多个未知音频进行识别并分别输出识别结果，解决了识别多个音频的效率低下的技术问题。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图；

图2为本发明多音频识别方法第一实施例的流程示意图；

图3为本发明多音频识别方法第二实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明实施例终端可以是PC，也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面3)播放器、便携计算机等具有显示功能的可移动式终端设备。

如图1所示，该终端可以包括：处理器1001，例如CPU，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选的用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。

可选地，终端还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在移动终端移动到耳边时，关闭显示屏和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；当然，移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及多音频识别程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的多音频识别程序，并执行以下操作：

进一步地，处理器1001可以调用存储器1005中存储的多音频识别程序，还执行以下操作：

根据倒谱法提取各所述第一语音信号的基音周期参数；

基于梅尔滤波器获取各所述第一语音信号的梅尔倒谱系数；

基于上述硬件结构，提出本发明多音频识别方法的各个实施例。

参照图2，图2为多音频识别方法第一实施例的流程示意图。

本发明第一实施例提供一种多音频识别方法，所述多音频识别方法包括以下步骤：

随着科学技术的发展，声纹识别在各领域应用越来越广泛。声纹类似于指纹，是用电声学仪器显示的携带言语信息的声波频谱，是由波长、频率以及强度等百余种特征维度组成的生物特征，具有稳定性、可测量性、唯一性等特点。声纹识别是一种利用声纹特征信息对未知用户进行身份确认的技术。在公安刑侦领域，采用声纹识别技术来对音频的发声者的身份进行确认。一般情况下往往针对单个的未知音频进行识别，可将音频直接输入经大量训练数据训练后的声纹识别模型进行匹配。但在证据收集过程中，若采集到了多个发声者未知的音频，依然将这多个音频直接输入大型的声纹识别模型，多个办案人员需等待较长时间才可一并得到多个音频的识别结果，从而导致了识别多个未知音频的效率低下的问题。例如，公安部门在进行音频材料整理过程中，需要将多个未知音频进行发声人身份标注并导入声纹库。但公安系统通常采用的声纹识别模型为导入全国各地区各年龄段的训练数据进行训练后的模型，逐条匹配的过程较为缓慢，尤其是在当前有多个音频需要识别的情况下，需要等待所有音频都识别结束才能获得最终识别结果，往往需要得等较长时间。

为解决上述问题，本发明提供一种多音频识别方法，即根据第一音频信号的预测用户特征确定目标用户声纹信息，缩小了匹配过程中对照声纹信息的范围，减少了匹配过程所需的时间；通过输出与目标用户声纹信息的匹配结果，使得无需等待其他音频的匹配结果，减少了等待结果的时间；通过将第二声纹信息输入预设声纹识别模型进行匹配，进一步对剩余的未知音频进行识别，最终完成对所有未知音频的识别。本发明通过缩小范围分次对多个未知音频进行识别并分别输出识别结果，解决了识别多个音频的效率低下的技术问题。所述多音频识别方法应用于装有多音频识别程序的终端。

步骤S10，在接收到多音频识别指令时，获取基于所述多音频识别指令确定的多个第一语音信号；

其中，多音频识别指令相当于在终端上建立了一个多音频识别任务，其发起方式可为用户鼠标点击或触屏发起，也可为终端根据预设程序自行发起。第一音频信号为在本次多音频识别任务所要进行识别的音频，可在多音频识别指令中直接获取，也可根据多音频识别指令的指引间接获取。本实施例对第一音频信号的个数不做限定。

在本实施例中，用户向终端发送一包含有多个未知音频的识别指令，终端接收到用户发送的这一指令，获取这一指令中的多个未知音频，将这些多个未知音频作为第一音频信号。具体地，公安部门的音频整理人员当前需要将九个发声者未知的音频归档到声纹库中，就要识别出这九个音频分别对应的发声者的身份信息。音频整理人员将这九个音频导入装有多音频识别程序的计算机中，计算机接收到音频整理人员当前发起的这一多音频识别指令，获取这一多音频识别指令中的九个待识别的音频信号。可以理解的是，上述的第一音频信号为排除经变音等处理后的音频信号，以防止对后续操作的干扰。

步骤S20，提取预处理后的各第一语音信号的第一声纹信息，并基于所述第一声纹信息确定各所述第一语音信号的预测身份特征；

其中，预处理可为预加重、分帧加窗、短时傅立叶变换与语音活动检测等。第一声纹信息为各第一语音信号所对应的声纹信息，包括基音周期、短时过零率、线性预测倒谱系数、梅尔频率倒谱系数、声道的冲击响应、自相关系数、声道面积函数与去噪倒谱系数等。预测用户特征包括但不限于预测用户年龄范围、预测用户性别、预测用户语言类型。目标用户声纹信息为根据预测用户特征从本地系统中的已知用户声纹库中筛选出的理想情况下最有可能与待识别的第一声纹信息相匹配的已知声纹信息。

需要说明的是，预加重操作一般通过传递函数为一阶FIR高通数字滤波器来实现，目的是为了对语音的高频部分进行加重，去除口唇辐射的影响，增加语音的高频分辨率；对语音信号进行分帧加窗处理是因为语音信号具有短时平稳性(10--30ms内可以认为语音信号近似不变)，故可以把语音信号分为一些短段来来进行处理。语音信号的分帧是采用可移动的有限长度的窗口进行加权的方法来实现的。一般每秒的帧数约为33～100帧，本实施例对次不做限定。一般的分帧方法为交叠分段的方法，前一帧和后一帧的交叠部分称为帧移，帧移与帧长的比值一般为0～0.5。按上述方法加窗后，每一帧的起始段和末尾端会出现不连续的地方，所以分帧越多与原始信号的误差也就越大。加窗操作可使分帧后的信号变得连续，每一帧就会表现出周期函数的特征。在语音信号处理中一般加汉明窗。对分帧后的语音信号做短时傅里叶变换的作用是将每一帧的语音信号的时域信号转为频域信号，把每一帧快速傅立叶变换后的频域信号在时间上堆叠起来就可以得到语音信号对应的声谱图，也即是声纹信息。语音活动检测为从连续的语音流中检测出有效的语音段。包括检测出有效语音的起始点即前端点与检测出有效语音的结束点即后端点。对语音信号使用端点检测可以降低存储或传输的数据量。端点检测主要有三种实现方式：一、基于阈值的语音活动检测。通过提取时域或频域特征，通过合理的设置门限，达到区分语音和非语音的目的。二、作为分类器的语音活动检测。可以将语音检测视作语音/非语音的二分类问题，进而用机器学习的方法训练分类器，达到检测语音的目的。三、模型语音活动检测。可以利用一个完整的声学模型，在解码的基础，通过全局信息，判别语音段和非语音段。

在本实施例中，终端将多个待识别的音频进行预加重、分帧加窗、短时傅里叶变换、语音活动检测等预处理，生成了各第一音频对应的声谱图。终端根据生成的多个声谱图，获取每一声谱图所对应的梅尔频率倒谱系数(MFCC，Mel-scale Frequency CepstralCoefficients)和线性预测倒谱系数(LPCC，LinearPredictiveCepstralCoefficient)。终端将MFCC与LPCC作为说话人性别识别和年龄估计的主要特征，并将MFCC与LPCC输入高斯混合模型(GMM，Gaussian Mixture Model)进行模式识别，得出各第一音频信号对应发声者的预测身份信息，如第一个音频对应发声者应为年龄20-35岁的南方女性等。

步骤S30，将所述第一声纹信息与基于所述预测身份特征确定的目标用户声纹信息进行匹配，获取第一匹配结果；

在本实施例中，终端获取到对多个未知音频的发声者身份的预估结果，也即是上述的预测身份特征，并根据这些预测身份特征，对预存的已知用户声纹库中的声纹进行筛选，以缩小待匹配声纹的范围。具体地，在公安系统中，预存的已知用户声纹库可以是从经过全国各地区各年龄段的音频数据训练后的声纹识别模型中筛选出的，也可从公安部门建立的大型声纹库中筛选得出。以公安部门为例，终端会根据性别、年龄等的限制信息在公安部门预存的大型声纹库中的本地犯罪嫌疑人的声纹库中进行筛选，将筛选后的已知声纹信息作为目标用户声纹信息，并将这五个第一声纹信息与目标用户声纹信息进行匹配，若与第一声纹信息与目标声纹信息的相似度达到预设阈值，则可判定第一声纹信息与目标声纹信息相匹配，目标声纹信息对应的发声者也即为第一声纹信息的发声者。终端获取第一匹配结果中第一声纹信息与目标声纹信息相匹配的部分，将相匹配的第一声纹信息对应的音频添加上对应的包含有发声者身份信息的识别标签，导入预设音频库中。

步骤S40，在所述第一匹配结果中存在与所述目标用户声纹信息不匹配的第二声纹信息时，将所述第二声纹信息输入预设声纹识别模型，获取第二匹配结果。

可以理解的是，步骤S30之后，第一匹配结果中可能会出现三种情况：第一种，全部第一声纹信息均与目标声纹信息相匹配；第二种，部分第一声纹信息与目标声纹信息相匹配；第三种，全部第一声纹信息均与目标声纹信息不相匹配。

在本实施例中，针对的是上述的后两种情况。在存在与目标用户声纹信息不匹配的第一声纹信息时，即包括了全部不匹配与部分不匹配的情况。终端将不匹配的第一声纹信息输入预设的更大范围的声纹识别模型，得到第二匹配结果。需要说明的是，本实施例中设定上述第一声纹信息一定能与目标用户声纹信息或是目标用户声纹信息与预设声纹识别模型联合识别出，即第一声纹信息对应的发声者一定在目标用户声纹信息或预设声纹识别信息所对应的已知用户中。

本发明提供一种多音频识别方法。所述多音频识别方法通过在接收到多音频识别指令时，获取基于所述多音频识别指令确定的多个第一语音信号；提取预处理后的各第一语音信号的第一声纹信息，并基于所述第一声纹信息确定各所述第一语音信号的预测身份特征；将所述第一声纹信息与基于所述预测身份特征确定的目标用户声纹信息进行匹配，获取第一匹配结果；在所述第一匹配结果中存在与所述目标用户声纹信息不匹配的第二声纹信息时，将所述第二声纹信息输入预设声纹识别模型，获取第二匹配结果。通过上述方式，本发明根据第一音频信号的预测用户特征确定目标用户声纹信息，缩小了匹配过程中对照声纹信息的范围，减少了匹配过程所需的时间；通过输出与目标用户声纹信息的匹配结果，使得无需等待其他音频的匹配结果，减少了等待结果的时间；通过将第二声纹信息输入预设声纹识别模型进行匹配，进一步对剩余的未知音频进行识别，最终完成对所有未知音频的识别。本发明通过缩小范围分次对多个未知音频进行识别并分别输出识别结果，解决了识别多个音频的效率低下的技术问题。

参照图3，图3为本发明多音频识别方法第二实施例的流程示意图。

基于上述图2所示的第一实施例，在本实施例中，步骤S30包括：

步骤S31，基于所述预测身份特征，在预存的已知声纹中进行筛选，确定多组目标用户声纹信息；

在本实施例中，终端根据获取到的预测身份特征，在预存的已知声纹库中进行筛选。预存的已知用户声纹库可以是从经过全国各地区各年龄段的音频数据训练后的声纹识别模型中筛选出的，也可从公安部门建立的大型声纹库中筛选得出。终端在已知声纹中分别筛选出与各第一声纹信息对应的目标用户声纹信息。具体地，若本次多音频识别任务中需要对五个第一音频信号进行识别，即对应有五个第一声纹信息。终端获取到这五个声纹信息所对应的预测身份特征包括性别信息与年龄信息，前四个声纹信息的预测性别均为男性，预测年龄分别为15-25岁、20-28岁、26-35岁、45-55岁。第五个声纹信息的音频的预测性别为女性，预测年龄为20-28岁。终端会根据每一声纹信息所对应的预测性别与预测年龄分别筛选出五组目标声纹信息，以分别与对应的第一声纹信息进行匹配。

步骤S32，将所述第一声纹信息与对应的目标用户声纹信息同时进行匹配，获取并输出所述第一声纹信息的第一匹配结果。

在本实施例中，沿用上述的具体实施例，终端将五个第一声纹信息分别同时与五组目标用户声纹信息相匹配。具体地，终端利用倒谱法计算出各第一音频信号的基音周期参数，再通过梅尔滤波器获取各第一音频信号的梅尔倒谱系数，然后利用改进特征提取算法将各第一音频信号的基音周期参数与梅尔倒谱系数组成各第一音频信号分别对应的第一声纹信息。

进一步地，图中未示的，步骤S20包括：

步骤a，根据倒谱算法获取各所述第一语音信号的基音周期参数；

在本实施例中，由于语音信号为卷积信号而非加性信号，终端将各第一语音信号所对应的卷积序列进行离散傅里叶变换，取其对数，再对得到的对数进行离散傅里叶逆变换，最后再进行峰值检测，得到各第一语音信号所对应的基音周期参数。

步骤b，基于梅尔滤波器获取所述第一语音信号的梅尔倒谱系数；

在本实施例中，终端将各第一语音信号所对应的卷积系序列输入一包含有多个带通滤波器的三角滤波器组，并对三角滤波器组的输出结果进行对数能量处理，最后再用差分特征参数提取算法提取出各第一语音信号所对应的梅尔倒谱系数。

步骤c，将所述基音周期参数与梅尔倒谱系数结合作为所述第一声纹信息。

在本实施例中，终端将各第一语音信号的基音周期参数与梅尔倒谱系数线性结合成混合特征矢量，并利用高斯混合模型进行对这些混合特征矢量进行训练，最后再对这些混合特征矢量的训练结果进行归一化，得到的结果即作为各第一语音信号的第一声纹信息。

进一步地，图中未示的，步骤S20之前，还包括：

步骤d，对各所述第一语音信号进行加窗分帧处理，生成第一加窗语音信号；

在本实施例中，可以理解的是，语音信号在宏观上是不平稳的，在微观上是平稳的，具有短时平稳性，也即是10—30ms内可以认为语音信号近似不变，在后期的语音处理中需要输入的是平稳信号，所以要对整段语音信号分帧，也就是切分成很多段。一般以不少于20ms为一帧，1/2左右时长为帧移分帧。其中，帧移是相邻两帧间的重叠区域，是为了避免相邻两帧的变化过大。而对语音信号进行分帧处理后，每一帧的起始段和末尾端会出现不连续的地方，所以分帧越多与原始信号的误差也就越大。为解决这一问题，可对每一帧语音信号中进行加窗处理，使分帧后的语音信号变得连续，每一帧会表现出周期函数的特征。在语音信号处理中一般加汉明窗。终端可根据预设时长对各第一语音信号进行分帧，其中，预设时长可为10—30ms之间的任一数值，本实施例对此不作具体限定。在分帧结束后，终端再对各第一语音信号的分帧结果加汉明窗处理，其结果即为上述的第一加窗语音信号。

步骤e，基于快速傅里叶变换对所述第一加窗语音信号进行时频分解，生成第一时频二维信号；

在本实施例中，终端基于短时傅里叶变换公式对获取到的各第一语音信号所对应的第一加窗语音信号进行短时傅里叶变换。计算完成后，终端将计算结果作为上述的第一视频二维信号。

步骤f，获取所述第一时频二维信号的特征参数，并基于所述特征参数与预设语音端点检测方式将所述第一时频二维信号中的空语音段进行过滤，以完成各所述第一语音信号的预处理。

其中，特征参数可为短时对数能量、联合过零率等。预设语音端点检测方法可为双门限检测法或基于自相关极大值的语音端点检测方法等。

在本实施例中，以双门限检测法为例。需要说明的是，语音信号一般可分为无声段、清音段和浊音段。无声段是背景噪声段，平均能量最低；浊音段为声带振动发出对应的语音信号段，平均能量最高；清音段是空气在口腔中的摩擦、冲击或爆破而发出的语音信号段，平均能量居于前两者之间。清音段和无声段的波形特点有明显的不同，无声段信号变化较为缓慢，而清音段信号在幅度上变化剧烈，穿越零电平次数也多。经验表明，通常清音段过零率最大。端点检测就是首先判断有声还是无声。如果有声，则还要判断是清音还是浊音。终端根据第一时频二维信号的短时对数能量与联合过零率设置三个阈值：高能量阈值、低能量阈值与过零率阈值，当某帧信号大于低能量阈值或者大于过零率阈值时，将其作为信号的开始、起点，当大于高能量阈值时，则作为正式的语音信号，如果保持一段时间，则确认这信号即为所需信号。基于上述原理，终端将第一时频二维信号中的空语音段进行过滤，至此，即完成了对各个第一语音信号的预处理。

进一步地，图中未示的，在本实施例中，步骤d之前，还包括：

步骤g，对各所述第一语音信号进行预加重处理，以增强各所述第一语音信号的高频部分。

在本实施例中，为了对语音的高频部分进行加重，去除口唇辐射的影响，增加语音的高频分辨率，终端先对第一语音信号进行预加重处理，所使用的传递函数为H(z)＝1-az^-1。其中，参数z为语音信号对应的卷积序列的Z变换，a为常数，根据具体情况灵活选取。

本发明提供一种多音频识别方法。所述多音频识别方法进一步通过将各个声纹信息与各组经预测身份特征筛选后的目标用户声纹信息同时进行匹配，缩短了多个音频的识别时间，提高了识别效率；通过将基音周期参数与梅尔倒谱系数作为第一声纹信息，使得能够快速准确地将第一声纹信息与目标用户声纹信息进行匹配；通过对第一语音信号进行加窗分帧等预处理，便于终端后续对第一语音信号的进一步识别；通过对第一语音信号进行预加重处理，得以去除第一语音信号中口唇辐射的影响，增加第一语音信号的高频分辨率。

进一步地，图中未示的，基于上述图2所示的第一实施例，提出本发明多音频识别方法的第三实施例。在本实施例中，步骤S40之前，还包括：

步骤h，判断所述第一声纹信息与所述目标用户声纹信息的相似度是否大于预设阈值：

其中，预设阈值可根据具体情况灵活设定，本实施例对此不做限定。

本实施例中，终端判断多个第一语音信号的声纹信息与目标用户声纹信息的相似程度，验证这些第一声纹信息与目标用户声纹信息的相似度是否大于预设阈值。

步骤i，若所述第一声纹信息与所述目标用户声纹信息的相似度大于所述预设阈值，则判定所述第一声纹信息与所述目标用户声纹信息匹配；

在本实施例中，若终端获取到的判断结果为所有或一部分第一声纹信息与目标用户声纹信息的相似度大于预设阈值，则可判定这些第一声纹信息与对应的目标用户声纹信息相匹配，也即是相匹配的第一声纹信息与目标用户声纹信息的发声者相同。

步骤j，若所述第一声纹信息与所述目标用户声纹信息的相似度不大于所述预设阈值，则判定所述第一声纹信息与所述目标用户声纹信息不匹配。

在本实施例中，若终端获取到的判断结果为所有或一部分第一声纹信息与目标用户声纹信息的相似度不大于预设阈值，则可判定这些第一声纹信息与对应的目标用户声纹信息不匹配，也即是相匹配的第一声纹信息与目标用户声纹信息的发声者不同。

进一步地，在本实施例中，步骤S40之后，还包括：

步骤k，在接收到用户发送的识别结果确认指令时，基于所述第二匹配结果生成并显示所述第二声纹信息的识别标签，并将所述第二声纹信息对应的第一音频信号与识别标签导入预设音频库。

在本实施例中，用户接收到匹配结果后，人为验证匹配结果无误后，向终端发送识别结果确认指令。终端接收到用户发送的这一识别结果确认指令，根据匹配结果，获取第二声纹信息对应的发声者的身份信息并作为识别标签。其中，识别标签内容可为发声者的姓名、性别、籍贯、年龄等。将各第二声纹信息所对应的识别标签与其所对应的音频导入预设音频库中以完成音频归档。可以理解的是，在步骤S40之前，终端已将与目标用户声纹信息相匹配的第一声纹信息所对应的音频经用户确认后完成归档。

本发明提供一种多音频识别方法。所述多音频识别方法进一步通过将相似度与预设阈值做比较，简便快捷地得出第一声纹信息与目标用户声纹信息的匹配结果；通过将匹配成功的声纹信息添加识别标识导入预设音频库使得多音频能快速归档，提升了发声者未知的多音频的归档效率，减轻了相关人员的工作量。

本发明还提供一种多音频识别装置，所述多音频识别装置包括：

本发明还提供一种多音频识别设备。

所述多音频识别设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的多音频识别程序，其中所述多音频识别程序被所述处理器执行时，实现如上所述的多音频识别方法的步骤。

其中，所述多音频识别程序被执行时所实现的方法可参照本发明多音频识别方法的各个实施例，此处不再赘述。

本发明还提供一种计算机可读存储介质。

本发明计算机可读存储介质上存储有多音频识别程序，所述多音频识别程序被处理器执行时实现如上所述的多音频识别方法的步骤。

其中，所述多音频识别程序被执行时所实现的方法可参照本发明多音频识别方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种多音频识别方法，其特征在于，所述多音频识别方法包括：

2.如权利要求1所述的多音频识别方法，其特征在于，所述将所述第一声纹信息与基于所述预测身份特征确定的目标用户声纹信息进行匹配，获取第一匹配结果的步骤包括：

3.如权利要求1所述的多音频识别方法，其特征在于，所述提取预处理后各第一语音信号的第一声纹信息的步骤包括：

根据倒谱法提取各所述第一语音信号的基音周期参数；

基于梅尔滤波器获取各所述第一语音信号的梅尔倒谱系数；

4.如权利要求1所述的多音频识别方法，其特征在于，所述提取预处理后各第一语音信号的第一声纹信息的步骤之前，还包括：

5.如权利要求4所述的多音频识别方法，其特征在于，所述对各所述第一语音信号进行加窗分帧处理，生成第一加窗语音信号的步骤之前，还包括：

对各所述第一语音信号进行预加重处理,，以增强各所述第一语音信号的高频部分。

6.如权利要求1所述的多音频识别方法，其特征在于，所述在所述第一匹配结果中存在与所述目标用户声纹信息不匹配的第二声纹信息时，将所述第二声纹信息输入预设声纹识别模型，获取第二匹配结果的步骤之前，还包括：

7.如权利要求1所述的多音频识别方法，其特征在于，所述在所述第一匹配结果中存在与所述目标用户声纹信息不匹配的第二声纹信息时，将所述第二声纹信息输入预设声纹识别模型，获取第二匹配结果的步骤之后，还包括：

8.一种多音频识别装置，其特征在于，所述多音频识别装置包括：

9.一种多音频识别设备，其特征在于，所述多音频识别装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多音频识别程序，所述多音频识别程序被所述处理器执行时实现如权利要求1至7中任一项所述的多音频识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有多音频识别程序，所述多音频识别程序被处理器执行时实现如权利要求1至7中任一项所述的多音频识别方法的步骤。