CN107274892A

CN107274892A - 说话人识别方法及装置

Info

Publication number: CN107274892A
Application number: CN201710271506.XA
Authority: CN
Inventors: 王永庆
Original assignee: Leshi Zhixin Electronic Technology Tianjin Co Ltd; LeTV Holding Beijing Co Ltd
Current assignee: Le Holdings Beijing Co Ltd; Leshi Zhixin Electronic Technology Tianjin Co Ltd; LeTV Holding Beijing Co Ltd
Priority date: 2017-04-24
Filing date: 2017-04-24
Publication date: 2017-10-20

Abstract

本发明实施例提供一种说话人识别方法及装置，该方法包括：接收说话人的语音信号；获取所述语音信号的基频值；基于所述语音信号获取所述说话人的声道长度；至少根据所述基频值和所述声道长度识别所述说话人的类别。实现了对说话人类别的准确识别。

Description

说话人识别方法及装置

技术领域

本发明实施例涉及语音识别技术领域，尤其涉及一种说话人识别方法及装置。

背景技术

说话人分类在语音识别和说话人识别中有着重要的作用，事先知道说话人的类别(比如性别等)可以很大的提高正确识别率；其中性别识别是一种特殊的说话人分类(将说话人分为男、女两类)；在一些常见的场景下，除了对性别的识别，对于说话人年龄段的识别也是非常重要的。比如，在电视语音识别场景，如果能识别出说话人是男性、女性还是儿童，可以更好的为其推送与之相关的一些信息和服务；该发明主要是对说话人进行男性、女性和儿童三类的分类，其中涉及到数字信号处理，性别识别，说话人识别和语音识别等领域。

目前的说话人分类方法有很多根据是否使用模型可以分为两大类：第一类是采用数字信号处理的方法，此类方法运算量小，速度快，但正确率低；第二类是采用模型训练的方法，此类方法虽然正确率高，但依赖于语料库的大小，而且较数字信号处理的方法相对复杂。

一种常见的数字信号处理方法是利用基频信息，进行男、女和儿童识别。一般而言，男性的基频分布范围为60～200Hz，女性基频分布范围为200～350Hz，儿童基频分布范围为300～500；因此通过对说话人的基频估计，然后进行聚类，可以简单的识别出说话人是男性，女性，还是儿童。发明人在实施本申请的过程中发现，该方法对男性和女性的识别分类正确率较高，但是对女性和小孩的识别分类正确率很低，因为女性和儿童的基频分布范围的界线很模糊，只依靠基频信息区分女性和儿童很困难，另外，该方法基频估计的准确性，是识别分类正确的关键。

发明内容

本发明实施例提出一种联合基频(pitch)和声道长度(Vocal Tract Length,vtl)估计的改进方法。该方法不仅利用了基频信息，同时考虑声道长度信息，增加女性和儿童的分类正确率，具有高效率，低成本的优势；同时本申请实施例中采用自相关函数法加动态跟踪的方式，使得获取的基频更加准确，进一步提高了说话人分类的正确率。

第一方面，本发明实施例提供一种说话人识别方法，其特征在于，包括：

接收说话人的语音信号；

获取所述语音信号的基频值；

基于所述语音信号获取所述说话人的声道长度；

至少根据所述基频值和所述声道长度识别所述说话人的类别。

第二方面，本发明实施例提供一种说话人识别装置，其特征在于，包括：

接收模块，接收说话人的语音信号；

第一获取模块，获取所述语音信号的基频值；

第二获取模块，基于所述语音信号获取所述说话人的声道长度；

识别模块，根据所述基频值和所述声道长度识别所述说话人的类别。

第三方面，本发明实施例还提供了一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明实施例上述任一项说话人识别方法。

第四方面，本发明实施例提供了一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行本发明实施例上述任一项说话人识别方法。

第五方面，本发明实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项说话人识别方法。

本发明实施例提供的说话人识别方法、装置和电子设备，基于语音产生机制，综合考虑基频和声道信息，通过聚类和决策有效的提升男性、女性和儿童的分类正确率和降低计算复杂度。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本申请实施例提供的说话人识别方法的流程图；

图2是本申请实施例提供的说话人识别方法的流程图；

图3是本申请实施例提供的说话人识别装置的流程图；

图4是本申请实施例提供的说话人识别装置的流程图；

图5是本申请实施例提供的执行说话人识别方法的电子设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面将结合附图对本发明技术方案进行详细描述。

图1是本发明实施例提供的一种说话人识别方法的流程图，该方法可以包括以下几个步骤：

步骤101：接收说话人的语音信号。

具体的，可以通过语音信号采集设备来接收说话人的语音信号，如麦克风等拾音设备，也可以是预先存储的待识别说话人的语音信号，直接进行读取。该拾音设备可以是该说话人识别方法所应用的电子设备上自带的拾音部件，如手机自带的麦克风，电视遥控器自带麦克风或电视本体自带麦克风，也可以是所述电子设备的外接拾音部件，如手机外接的耳机所带的麦克风，或者电视外接的有线或者无线话筒等。一些常规的信号前端采集处理在此步骤中可以根据实际需求优选执行，包括对语音信号进行降噪，如采用麦克风阵列降噪，谱减法降噪等；还包括对语音信号的模/数转换，采样，量化等处理。

步骤102：获取所述语音信号的基频值。

在浊音的发音过程中，气流通过声门使得声带产生张弛振荡式的振动，产生一股准周期脉冲气流，这一气流激励声道就产生浊音，它携带了语音中的大部分能量，其中声带的振动频率就称为基频。

首先对测试语音进行分帧处理，因为语音信号只有在短时间内是平稳的，所以需要将语音信号分段处理，即按帧处理；假设语音信号被分为N帧；

第二步，然后对每一帧进行预处理，包括预加重、加窗等处理。

第三步，分别对每一帧信号进行基频估计。

可选的，分帧：将frame_length个采样点集合成一个观测单位，称为帧。通常情况下frame_length的值为256或512，涵盖的时间约为20～30ms左右。为了避免相邻两帧的变化过大，因此会让两相邻帧之间有一段重叠区域，此重叠区域包含了frame_shift个取样点，称为帧移，通常frame_shift的值约为frame_length的1/2或1/3，帧数N如下式(1)计算：

N＝1+(n_samp-frame_length)/frame_shift (1)

其中n_samp为语音信号采样总长度。

预加重处理其实是将语音信号通过一个高通滤波器，目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。同时，也是为了消除发生过程中声带和嘴唇的效应，来补偿语音信号受到发音系统所抑制的高频部分，也为了突出高频的共振峰。

可选的，在时域，预加重差分方程为：

y(n)＝x(n)-μ*x(n-1) (2)

其中x(n)为输入，y(n)为预加重之后的输出，μ的值介于0.9-1.0之间，可以取0.97，一般程序都采用时域差分方程来实现预加重。

可选的，加窗：将每一帧乘以窗函数，以增加帧左端和右端的连续性，并且防止频谱泄露。常见的窗函数有“矩形窗(Rectangle)”、“汉宁窗(hanning)”、“汉明窗(hamming)”、“三角窗(Fejer)”等。汉明窗比汉宁窗及矩形窗的旁瓣更小，可以更好的减小频谱泄露(但hanmming的旁瓣衰减速度要小于hanning窗)，其应用最为广泛。

可选的，利用动态规划的思想，采用联合自相关和基频动态跟踪的方法提取基频，具体包括：

首先，基于所述语音信号的自相关函数获取每帧语音信号的基频初始值。自相关函数法是利用了浊音信号的准周期性，通过对比原始信号和它的位移后信号之间的类似性来进行基频的检测，其原理是浊音信号的自相关函数在时延等于基音周期整数倍的地方产生一个峰值，而清音信号的自相关函数无明显的峰值。因此通过检测语音信号的自相关函数的峰值位置，就可以估计语音的基频作为基频初始值。

然后，对所述基频初始值进行动态跟踪，根据代价函数值选择对应路径的基频初始值序列，作为所述语音信号的基频值。利用自相关法直接估计的基频不一定可信，因此我们采用动态规划的思想，对相关法求出的基频初始值进行跟踪。主要思想是：语音信号是连续的，基频变化也应该是连续的，且是相对稳定的。具体步骤：

第一步：对信号的每一帧自相关函数做峰值检测，一般选取k个峰值作为基频候选，k经验值取5；

第二步，计算路径连接器，一般的j条路径和k个候选可以形成k*j新路径；

第三步，按照每条路径的代价大小升序排列，只选取前j条路径，删除其他无用路径；

第四步，更新路径，添加新的候选基频到路径；

第五步，直到所有帧计算完输出最小代价的路径，可得到所有帧对应的基频。

注：代价函数的构造可参考如下公式(3)(4)：

Cost_n(i，k)＝transmitCost(F_(n-1)i，F_nk)-PS_nk1≤i≤10 (3)

Cost_n(i,k)表示n时刻，第k个候选在第i条路径上的代价，F_nk是n时刻第k个候选基频，PS_nk是其对应的幅值大小，F_(n-1)i是第i条路径下n-1时刻的基频估计值，transmitCost(F₁,F₂)表示F₁和F₂的转移代价。

步骤103：基于所述语音信号获取所述说话人的声道长度。

对于语音信号进行上述分帧和预处理之后，进行声道长度的估计。

可选的，基于所述语音信号的共振峰频率确定所述声道长度。如，声道长度L可以用共振峰频率F_k通过下式(5)(6)来估计：

L_k＝c₀(2k-1)/4F_k (6)

其中，N代表共振峰个数，一般N小于等于5，经验值N＝3；c₀是声音在空气中的传播速度；因此，我们可以用N个共振峰频率来估计N个声道长度，最后求均值，得到声道长度L。

共振峰频率的求法：对于每帧语音信号，将其变换到频域，求其频谱的包络，检测包络的峰值，峰值对应的频率即为共振峰频率，多个峰值对应多个共振峰频率。第一个峰值处即为第一共振峰频率，以此类推。

步骤104：至少根据所述基频值和所述声道长度识别所述说话人的类别。

语音信号的产生机制是肺部气流通过激励源声带振动，经过信道的反射传输等，最后通过嘴唇辐射出来。激励和信道是语音信号产生的关键因素。激励和上文所阐述的基频值相关(单位时间内激励源声带的振动次数即为基频)；信道就是声道，因此综合考虑基频值和声道信息，对说话人进行分类是十分有帮助的。

随着年龄和性别等因素的变化，声道长度也会变化，对于成年男性，其声道长度约为18cm，而成年女性的声道长度只有13cm，同事儿童的声道长度比成年人要短，比如8岁以下的小孩声道程度都小于10cm。因此通过估计说话人的声道长度也可以对男性、女性和儿童进行分类。

可选的，至少根据所述基频值和所述声道长度判定所述说话人的类别，可以是分别对基频和声道长度进行聚类，例如采用阈值判断的方式、或者模型训练的方法进行聚类，然后对二者聚类结果进行融合；也可以直接将基频和声道长度这两个参数作为一个多维的特征参数，进行模型训练的方法进行识别。

可选的，其中说话人类别包括男性、女性、儿童和无效四个类别。

本实施例基于语音产生机制，综合考虑激励源和信道，估计说话人的基频和声道长度，基于基频和声道长度判断该说话人属于哪一类(男性、女性或儿童)，提高了对说话人分类的正确率；同时，采用联合自相关和基频动态跟踪的方法提取基频，使得提取的基频更加准确，进一步提高了对说话人分类的正确率。

图2为是本发明实施例提供的一种说话人识别方法的流程图，该方法可以包括以下几个步骤：

步骤201：接收说话人的语音信号。

步骤202：获取所述语音信号的基频值。

第三步，分别对每一帧信号进行基频估计。

步骤203：基于所述语音信号获取所述说话人的声道长度。

可选的，声道长度L可以用共振峰频率Fk来估计。

可选的，利用动态规划的思想，采用联合自相关和基频动态跟踪的方法提取基频，具体如上文所述。

步骤204：至少根据所述基频值和所述声道长度识别所述说话人的类别，包括：

步骤2041：基于所述基频值和不同说话人类别对应的基频值的范围，确定所述说话人的第一分类结果。

步骤2042：基于所述声道长度和不同说话人类别对应的声道长度的范围，确定所述说话人的第二分类结果。

步骤2043：基于所述第一分类结果和所述第二分类结果，判定所述说话人的类别。

可选的，步骤2041和步骤2042中，分别对N帧基频参数和N帧声道长度参数进行聚类。

可选的，采用阈值判定法分别对N帧基频估计值和N帧声道长度估计值进行聚类：N帧语音信号可以计算出N帧基频估计值，但不是所有的信号帧都可以得到有效的基频估计值，若该信号帧为清音或者噪声，则计算出的基频为0，此时为无效基频，所以，根据基频分布范围(男性的基频分布范围为60～200Hz，女性基频分布范围为200～300Hz，儿童基频分布范围为300～500)，可以将这N帧基频估计值通过阈值判断分为四类：男性基频类，女性基频类，儿童基频类和无效基频类；计算每一类的帧数占所有帧数的比重，我们可以获得四类对应的四个权重系数w_p[4]＝(w1_p,w2_p,w3_p,w4_p)，待决策时使用；权重越大代表该说话人属于该对应类的可能性越大；同理，根据声道长度的分布范围(男性：大于15cm；女性：10-15cm；小孩：小于10cm，无效声道长度：0)；可以将N帧的声道长度估计值分为四类：男性声道类，女性声道类，儿童声道类和无效声道类；同样，通过计算每一类的帧数所占所有帧的比重，我们可以获得四类声道对应的四个权重系数w_vtl[4]＝(w1_vtl,w2_vtl,w3_vtl,w4_vtl)，待决策时使用。

可选的，步骤2043包括：

将第一权重分配给所述第一分类结果；

将第二权重分配给所述第二分类结果；

基于所述第一和第二分类结果、所述第一和第二权重，判定所述说话人的类别；

其中，所述第一和第二分类结果为所述语音信号中属于各个类别的语音帧的比例。

可选的，基于所述第一和第二分类结果、所述第一和第二权重，判定所述说话人的类别，具体包括按照公式(7)判定所述说话人的类别：

其中sc表示最后判定的说话人的类别，i取值0到3，代表四个说话人类别，a为第一权重，b为第二权重，且a+b＝1，w_p[i]为第一分类结果中、所述语音信号中属于第i类说话人类别的语音帧的比例，w_vtl[i]为第二分类结果中、所述语音信号中属于第i类说话人类别的语音帧的比例，其中说话人类别包括男性、女性、儿童和无效。

图3为本发明实施例提供的一种说话人识别装置的结构示意图，该装置可以包括：

接收模块301，接收说话人的语音信号。

具体的，接收模块301可以通过语音信号采集设备来接收说话人的语音信号，如麦克风等拾音设备，也可以是接收预先存储的待识别说话人的语音信号。该拾音设备可以是该说话人识别方法所应用的电子设备上自带的拾音部件，如手机自带的麦克风，电视遥控器自带麦克风或电视本体自带麦克风，也可以是所述电子设备的外接拾音部件，如手机外接的耳机所带的麦克风，或者电视外接的有线或者无线话筒等。一些常规的信号前端采集处理可以由接收模块301根据实际需求优选执行，包括对语音信号进行降噪，如采用麦克风阵列降噪，谱减法降噪等；还包括对语音信号的模/数转换，采样，量化等处理。

第一获取模块302，获取所述语音信号的基频值。优选地，包括分帧模块，对测试语音进行分帧处理，语音信号被分为N帧；预处理模块，对每一帧进行预处理，包括预加重、加窗等处理；估计模块，分别对每一帧信号进行基频估计。

可选的，利用动态规划的思想，采用联合自相关和基频动态跟踪的方法提取基频，具体包括：基频初始值获取单元，基于所述语音信号的自相关函数获取每帧语音信号的基频初始值。自相关函数法是利用了浊音信号的准周期性，通过对比原始信号和它的位移后信号之间的类似性来进行基频的检测，其原理是浊音信号的自相关函数在时延等于基音周期整数倍的地方产生一个峰值，而清音信号的自相关函数无明显的峰值。因此通过检测语音信号的自相关函数的峰值位置，就可以估计语音的基频作为基频初始值。

动态跟踪单元，对所述基频初始值进行动态跟踪，根据代价函数值选择对应路径的基频初始值序列，作为所述语音信号的基频值。利用自相关法直接估计的基频不一定可信，因此我们采用动态规划的思想，对相关法求出的基频初始值进行跟踪。主要思想是：语音信号是连续的，基频变化也应该是连续的，且是相对稳定的。具体方式如实施例一所述。

第二获取模块303，基于所述语音信号获取所述说话人的声道长度。

对语音信号进行上述分帧和预处理之后，进行声道长度的估计。

可选的，基于所述语音信号的共振峰频率确定所述声道长度。具体方式如实施例一所述。

识别模块304，至少根据所述基频和所述声道长度识别所述说话人的类别。

可选的，根据所述基频和所述声道长度识别所述说话人的类别，可以分别对基频和声道长度进行聚类，例如采用阈值判断的方式、或者模型训练的方法进行聚类，然后对二者聚类结果进行融合；也可以直接将基频和声道长度这两个参数作为一个多维的特征参数，进行模型训练的方法进行识别。

图4为本发明实施例提供的一种说话人识别装置的结构示意图，该装置可以包括：

接收模块401，接收说话人的语音信号。

具体的，接收模块401可以通过语音信号采集设备来接收说话人的语音信号，如麦克风等拾音设备，也可以是接收预先存储的待识别说话人的语音信号。该拾音设备可以是该说话人识别方法所应用的电子设备上自带的拾音部件，如手机自带的麦克风，电视遥控器自带麦克风或电视本体自带麦克风，也可以是所述电子设备的外接拾音部件，如手机外接的耳机所带的麦克风，或者电视外接的有线或者无线话筒等。一些常规的信号前端采集处理可以由接收模块401根据实际需求优选执行，包括对语音信号进行降噪，如采用麦克风阵列降噪，谱减法降噪等；还包括对语音信号的模/数转换，采样，量化等处理。

第一获取模块402：获取所述语音信号的基频值。优选地，包括分帧模块，对测试语音进行分帧处理，语音信号被分为N帧；预处理模块，对每一帧进行预处理，包括预加重、加窗等处理；估计模块，分别对每一帧信号进行基频估计。

第二获取模块403：基于所述语音信号获取所述说话人的声道长度。

可选的，声道长度L可以用共振峰频率Fk来估计。

识别模块404：至少根据所述基频和所述声道长度识别所述说话人的类别，包括：

第一聚类单元4041：基于所述基频值和不同说话人类别对应的基频值的范围，确定所述说话人的第一分类结果。

第二聚类单元4042：基于所述声道长度和不同说话人类别对应的声道长度的范围，确定所述说话人的第二分类结果。

判定单元4043：基于所述第一分类结果和所述第二分类结果，判定所述说话人的类别。

可选的，所述判定单元4043包括：

第一权重分配子单元，将第一权重分配给所述第一分类结果；

第二权重分配子单元，将第二权重分配给所述第二分类结果；

判定模块，基于所述第一和第二分类结果、所述第一和第二权重，判定所述说话人的类别；

可选的，基于所述第一和第二分类结果、所述第一和第二权重，判定所述说话人的类别，可如实施例二公式(7)所述的方式。

本申请实施例还提供了一种非易失性计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的说话人识别方法。

本发明实施例还提供了一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任意方法实施例中的说话人识别方法。

图5是本申请实施例提供的执行说话人识别方法的电子设备的硬件结构示意图，该设备包括：

一个或多个处理器510以及存储器520，图5中以一个处理器510为例。

执行说话人识别方法的设备还可以包括：输入装置530和输出装置540。

处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接，图5中以通过总线连接为例。

存储器520作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的说话人识别方法对应的程序指令/模块(例如，附图4所示的接收模块401、第一获取模块402、第二获取模块403和识别模块404)。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例说话人识别方法。

存储器520可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据说话人识别装置的使用所创建的数据等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器520可选包括相对于处理器510远程设置的存储器，这些远程存储器可以通过网络连接至列表项操作的处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置530可接收输入的数字或字符信息，以及产生与说话人识别装置的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器520中，当被所述一个或者多个处理器510执行时，执行上述任意方法实施例中的说话人识别方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本发明实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种说话人识别方法，其特征在于，包括：

接收说话人的语音信号；

获取所述语音信号的基频值；

基于所述语音信号获取所述说话人的声道长度；

2.根据权利要求1所述的方法，其特征在于，所述基于所述基频值和所述声道长度识别所述说话人的类别包括：

基于所述基频值和不同说话人类别对应的预设基频值的范围，确定所述说话人的第一分类结果；

基于所述声道长度和不同说话人类别对应的声道长度的范围，确定所述说话人的第二分类结果；

基于所述第一分类结果和所述第二分类结果，判定所述说话人的类别。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一分类结果和所述第二分类结果，判定所述说话人的类别，包括：

将第一权重分配给所述第一分类结果；

将第二权重分配给所述第二分类结果；

4.根据权利要求3所述的方法，其特征在于，基于所述第一和第二分类结果、所述第一和第二权重，判定所述说话人的类别，具体包括：

按照判定所述说话人的类别；

其中sc表示最后判定的说话人的类别，i取值0到3，代表四个说话人类别，a为第一权重，b为第二权重，且a+b＝1，w_p[i]为第一分类结果中、所述语音信号中属于第i类说话人类别的语音帧的比例，w_vtl[i]为第二分类结果中、所述语音信号中属于第i类说话人类别的语音帧的比例；其中说话人类别包括男性、女性、儿童和无效。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述获取所述语音信号的基频值包括：

基于所述语音信号的自相关函数获取每帧语音信号的基频初始值；

对所述基频初始值进行动态跟踪，根据代价函数值选择对应路径的基频初始值序列，作为所述语音信号的基频值。

6.根据权利要求1-4任一项所述的方法，其特征在于，所述获取说话人的声道长度包括：

基于所述语音信号的共振峰频率确定所述声道长度。

7.一种说话人识别装置，其特征在于，包括：

接收模块，接收说话人的语音信号；

第一获取模块，获取所述语音信号的基频值；

识别模块，至少根据所述基频值和所述声道长度识别所述说话人的类别。

8.根据权利要求7所述的装置，其特征在于，所述识别模块包括：

第一聚类单元，基于所述基频值和不同说话人类别对应的预设基频值的范围，确定所述说话人的第一分类结果；

第二聚类单元，基于所述声道长度和不同说话人类别对应的声道长度的范围，确定所述说话人的第二分类结果；

判定单元，基于所述第一分类结果和所述第二分类结果，判定所述说话人的类别。

9.根据权利要求8所述的装置，其特征在于，所述判定单元包括：

10.根据权利要求9所述的装置，其特征在于，基于所述第一和第二分类结果、所述第一和第二权重，判定所述说话人的类别，具体包括：

按照判定所述说话人的类别；

11.根据权利要求7-10任一项所述的装置，其特征在于，所述第一获取模块包括：

基频初始值获取单元，基于所述语音信号的自相关函数获取每帧语音信号的基频初始值；

动态跟踪单元，对所述基频初始值进行动态跟踪，根据代价函数值选择对应路径的基频初始值序列，作为所述语音信号的基频值。

12.根据权利要求7-10任一项所述的装置，其特征在于，所述第二获取模块具体用于：

基于所述语音信号的共振峰频率确定所述声道长度。

13.一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6任一项所述的说话人识别方法。

14.一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1-6任一项所述的说话人识别方法。

15.一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行权利要求1-6任一项所述的说话人识别方法。