CN108900725A

CN108900725A - 一种声纹识别方法、装置、终端设备及存储介质

Info

Publication number: CN108900725A
Application number: CN201810528518.0A
Authority: CN
Inventors: 黄锦伦
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-05-29
Filing date: 2018-05-29
Publication date: 2018-11-27
Anticipated expiration: 2038-05-29
Also published as: JP6792089B2; US10878823B2; SG11201912620YA; US20200118571A1; CN108900725B; JP2020525817A; WO2019227583A1

Abstract

本发明公开了一种声纹识别方法、装置、终端设备及存储介质，所述方法包括：通过将每个坐席员按照呼叫权限分配到对应的分组中，对分组中的每个坐席员进行声纹特征采集并处理，得到分组的综合声纹特征，基于分组、呼叫权限和综合声纹特征来构建动态声纹识别模型，当检测到有坐席员的呼叫操作时，获取该坐席员的语音数据，并进行纹特征提取，同时基于动态声纹识别模型，确定该坐席员的呼叫权限，若所述待识别坐席员的呼叫权限不满足所述客户级别的要求，则执行预设的预警处理措施，进而进行监控，通过声纹识别的方式来判断坐席员所在的分组，并根据分组与权限的对应关系来实现实时监控，有效提高监控的实时性和坐席呼叫的呼叫质量。

Description

一种声纹识别方法、装置、终端设备及存储介质

技术领域

本发明涉及计算机通讯技术领域，尤其涉及一种声纹识别方法、装置、终端设备及存储介质。

背景技术

呼叫中心由交互式语音应答系统和人工话务系统构成。人工话务系统由签入系统，话务平台，接口机组成，客户代表也就是坐席员为了进行客户服务，需在签入系统进行签入操作，成功签入话务平台后，根据话务平台分配的人工服务请求和客户建立通话，也就是坐席员外呼，来进行客户服务，通常会根据业务需求将客户分为不同业务的不同等级，每个坐席员按照其职责来安排接待不同业务不同等级的客户。

虽然每个坐席员在外呼前已被告知相应的外呼权限，但现实生活中经常存在一些业务不熟练的坐席员对高等级客户进行外呼的情况。

现有技术一般是通过事后听取录音并对录音进行分析，从而获取不符合权限的外呼信息并进行相应处理，做不到及时的预警，导致客服语音呼叫的监控不及时，监控效率低。

发明内容

本发明实施例提供一种声纹识别方法、装置、终端设备及存储介质，以解决客服语音呼叫的监控不及时，监控效率低的问题。

第一方面，本发明实施例提供一种声纹识别方法，包括：

获取数据库中每个坐席员的呼叫权限，并根据预设的权限分组方式，将每个所述坐席员分配到所述呼叫权限对应的分组中；

针对每个所述分组，对该分组中的每个所述坐席员进行声纹特征采集，得到该分组的基础声纹特征集；

对每个所述基础声纹特征集中的声纹特征进行训练，得到每个所述基础声纹特征集的综合声纹特征，并基于所述分组、所述呼叫权限和所述综合声纹特征之间的对应关系，构建动态声纹识别模型；

若检测到待识别坐席员的呼叫操作，则获取被呼叫客户的客户级别和所述待识别坐席员的语音数据，并对所述语音数据进行声纹特征提取，得到目标声纹特征；

基于所述动态声纹识别模型，对所述目标声纹特征进行识别，确定所述待识别坐席员的呼叫权限；

若所述待识别坐席员的呼叫权限不满足所述客户级别的要求，则执行预设的预警处理措施。

第二方面，本发明实施例提供一种声纹识别装置，包括：

坐席权限分组模块，用于获取数据库中每个坐席员的呼叫权限，并根据预设的权限分组方式，将每个所述坐席员分配到所述呼叫权限对应的分组中；

声纹特征采集模块，用于针对每个所述分组，对该分组中的每个所述坐席员进行声纹特征采集，得到该分组的基础声纹特征集；

识别模型构建模块，用于对每个所述基础声纹特征集中的声纹特征进行训练，得到每个所述基础声纹特征集的综合声纹特征，并基于所述分组、所述呼叫权限和所述综合声纹特征之间的对应关系，构建动态声纹识别模型；

目标特征获取模块，用于若检测到待识别坐席员的呼叫操作，则获取被呼叫客户的客户级别和所述待识别坐席员的语音数据，并对所述语音数据进行声纹特征提取，得到目标声纹特征；

呼叫权限确定模块，用于基于所述动态声纹识别模型，对所述目标声纹特征进行识别，确定所述待识别坐席员的呼叫权限；

实时语音预警模块，用于若所述待识别坐席员的呼叫权限不满足所述客户级别的要求，则执行预设的预警处理措施。

第三方面，本发明实施例提供一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述声纹识别方法的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述声纹识别方法的步骤。

本发明实施例提供的声纹识别方法、装置、终端设备及存储介质，一方面，通过获取数据库中每个坐席员的呼叫权限，并根据预设的权限分组方式，将每个坐席员分配到呼叫权限对应的分组中，针对每个分组，对该分组中的每个坐席员进行声纹特征采集，得到该分组的基础声纹特征集，并对每个基础声纹特征集中的声纹特征进行训练，得到每个基础声纹特征集的综合声纹特征，并基于分组、呼叫权限和综合声纹特征之间的对应关系，构建动态声纹识别模型，这种通过分组的方式，提取每个分组的综合声纹特征，能够在检测到呼叫操作时，快速判断当前语音数据所属分组，提升识别效率，进而实现及时监控，提升监控效率；另一方面，当检测到待识别坐席员的呼叫操作时，获取被呼叫客户的客户级别和待识别坐席员的语音数据，并对该语音数据进行声纹特征提取，得到目标声纹特征，同时基于动态声纹识别模型，对该目标声纹特征进行识别，确定待识别坐席员的呼叫权限，若待识别坐席员的呼叫权限不满足该客户级别的要求，则执行预设的预警处理措施，通过采用声纹识别的方式，判断坐席员的呼叫权限，进而确定坐席员当前的呼叫是否合法，并在非法时能够及时采取预警措施，实现实时监控，有效提高监控的实时性和坐席呼叫的呼叫质量。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1提供的声纹识别方法的实现流程图；

图2是本发明实施例1提供的声纹识别方法中步骤S2的实现流程图；

图3是本发明实施例1提供的声纹识别方法中语音信号交叠分帧的示例图；

图4是本发明实施例1提供的声纹识别方法中步骤S25的实现流程图；

图5是本发明实施例1提供的声纹识别方法中步骤S3的实现流程图；

图6是本发明实施例1提供的声纹识别方法中步骤S5的实现流程图；

图7是本发明实施例2中提供的声纹识别装置的示意图；

图8是本发明实施例4中提供的终端设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

请参阅图1，图1示出本实施例提供的声纹识别方法的实现流程。该声纹识别方法应用在呼叫中心的坐席员外呼场景中，该呼叫中心包括服务端和客户端，其中，服务端和客户端之间通过网络进行连接，坐席员通过客户端进行外呼呼叫，客户端具体可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务端具体可以用独立的服务器或者多个服务器组成的服务器集群实现。本发明实施例提供的声纹识别方法应用于服务端，详述如下：

S1：获取数据库中每个坐席员的呼叫权限，并根据预设的权限分组方式，将每个坐席员分配到呼叫权限对应的分组中。

具体地，在数据库中存储有每个坐席员外呼的呼叫权限，按照呼叫权限的不同，将每个坐席员分配到其呼叫权限对应的分组之中。

例如，在一具体实施方式中，数据库存储的呼叫权限有6个等级分别为R₁、R₂、R₃、R₄、R₅和R₆，坐席员一共有3000人，将这些坐席员按照其对应权限分配到6个不同权限等级的分组中，得到权限按高到底的如下分组情况：分组一共10人，对应的权限为R₁；分组二共80人，对应的权限为R₂；分组三共200人，对应的权限为R₃；分组四共600人，对应的权限为R₄；分组五共1800人，对应的权限为R₅；分组六共310人，对应的权限为R₆。

值得说明的是，高等级的权限包含低等级的权限，例如，属于分组一的坐席员具有所有呼叫权限，属于分组六的坐席员具有的权限最少,即

S2：针对每个分组，对该分组中的每个坐席员进行声纹特征采集，得到该分组的基础声纹特征集。

具体地，分别对同一分组的坐席员进行声纹特征采集，将同一分组的所有坐席员的声纹特征作为该分组的基础声纹特征集。

其中，声纹特征包括但不限于：声学特征、词法特征、韵律特征、语种方言口音信息和通道信息等。

优选地，本发明采用的声纹特征为声学特征。

S3：对每个基础声纹特征集中的声纹特征进行训练，得到每个基础声纹特征集的综合声纹特征，并基于分组、呼叫权限和综合声纹特征之间的对应关系，构建动态声纹识别模型。

具体地，对每个基础声纹特征集中的声纹特征进行训练，得到每个基础声纹特征集的综合声纹特征，即该分组的综合声纹特征，并根据步骤S1和步骤S2中提供的分组和呼叫权限的对应关系、分组与声纹特征的对应关系，来建立动态声纹识别模型。

其中，对每个基础声纹特征集中的声纹特征进行训练，得到每个基础声纹特征集的综合声纹特征，所采用的训练方式包括但不限于：模板匹配方法、最近邻方法、神经网络方法、隐式马尔可夫模型(Hidden Markov Model，HMM)、矢量量化(Vector Quantization，VQ)方法、多项式分类器(Polynomial Classifiers)方法等。

优选地，本发明实施例采用的训练方式为基于神经网络方法的遗传算法(GeneticAlgorithm)的改进算法，通过将每个分组作为一个群体，分组中的每个坐席员的声纹特征作为一条染色体，通过使用遗传算法来进行初始化编码、个体评价、选择、交叉和变异，进而得到该分组的最优解或近似解，即该分组的综合声纹特征。

S4：若检测到待识别坐席员的呼叫操作，则获取被呼叫客户的客户级别和待识别坐席员的语音数据，并对语音数据进行声纹特征提取，得到目标声纹特征。

具体地，在检测到有待识别坐席员的呼叫操作时，根据被呼叫的客户的客户标识信息，再在根据客户数据库里面查找该标识信息，获取被呼叫的客户的客户级别。

其中，客户级别为预先设置并存储在客户数据库中，客户级别与权限级别存在映射关系。

以步骤S1中存储的6个权限级别为例，客户数据库中的客户级别分为1至10级，依照权限分组的6个分组对应的权限分别为：分组一的坐席员可呼叫客户级别为1级至10级，分组二的坐席员可呼叫客户级别为3级至10级，分组三的坐席员可呼叫客户级别为4级至10级，分组四的坐席员可呼叫客户级别为5级至10级，分组五的坐席员可呼叫客户级别为7级至10级，分组六的坐席员可呼叫客户级别为9级至10级。

进一步地，获取待识别坐席员的语音数据，并对该语音数据进行声纹特征提取，得到该坐席员的目标声纹特征，提取方法请参照下文中步骤S22至步骤S25的描述，为避免重复，此处不再赘述。

S5：基于动态声纹识别模型，对目标声纹特征进行识别，确定待识别坐席员的呼叫权限。

具体地，通过将目标声纹特征输入到动态声纹识别模型中进行识别，来判断该目标声纹特征对应的分组，进而找到该分组对应的呼叫权限，即为待识别坐席的呼叫权限。

S6：若待识别坐席员的呼叫权限不满足被呼叫客户的客户级别的要求，则执行预设的预警处理措施。

具体地，根据待识别坐席员的呼叫权限对应的客户级别R与被呼叫客户的客户级别r之间的关系，来确定当前的呼叫是否符合规范，若则认为待识别坐席员的呼叫权限不满足被呼叫客户的客户级别的要求，将执行预设的处理措施，并发送本次呼叫的信息给监控人员，记录此次违规的呼叫记录。

以步骤S4中的6个权限分组对应的10个客户级别为例，获取到的待识别坐席员所属分组为分组五，对应的呼叫权限为R₅，即可外呼的客户级别为7级至10级，若当前的被呼叫的客户的客户级别为7级至10级中的任一等级，则当前外呼是满足要求的，若当前的被呼叫客户的客户级别为1级至6级中的任一级，则认为待识别坐席员的呼叫权限不满足被呼叫客户的客户级别的要求，将采取相应预警措施来阻止该呼叫继续进行。

其中，预设的处理措施包括但不限于：向待识别坐席员发送提醒信息、向监控中心推送警告信息、强制呼叫转移和强制挂断等，具体依据实际情况而定，在此不作限制。

在图1对应的实施例中，一方面，通过获取数据库中每个坐席员的呼叫权限，并根据预设的权限分组方式，将每个坐席员分配到呼叫权限对应的分组中，针对每个分组，对该分组中的每个坐席员进行声纹特征采集，得到该分组的基础声纹特征集，并对每个基础声纹特征集中的声纹特征进行训练，得到每个基础声纹特征集的综合声纹特征，并基于分组、呼叫权限和综合声纹特征之间的对应关系，构建动态声纹识别模型，这种通过分组的方式，提取每个分组的综合声纹特征，能够在检测到呼叫操作时，快速判断当前语音数据所属分组，提升识别效率，进而实现及时监控，提升监控效率；另一方面，当检测到待识别坐席员的呼叫操作时，获取被呼叫客户的客户级别和待识别坐席员的语音数据，并对该语音数据进行声纹特征提取，得到目标声纹特征，同时基于动态声纹识别模型，对该目标声纹特征进行识别，确定待识别坐席员的呼叫权限，若待识别坐席员的呼叫权限不满足该客户级别的要求，则执行预设的预警处理措施，通过采用声纹识别的方式，判断坐席员的呼叫权限，进而确定坐席员当前的呼叫是否合法，并在非法时能够及时采取预警措施，实现实时监控，有效提高监控的实时和坐席呼叫的呼叫质量。

接下来，在图1对应的实施例的基础之上，下面通过一个具体的实施例来对步骤S2中所提及的针对每个分组，对该分组中的每个坐席员进行声纹特征采集，得到该分组的基础声纹特征集的具体实现方法进行详细说明。

请参阅图2，图2示出了本发明实施例提供的步骤S2的具体实现流程，详述如下：

S21：针对每个分组中的每个坐席员，获取该坐席员对预设的多个不同语料进行朗读的录音样本，并对该录音样本进行声纹解析，得到该坐席员的初始声纹样本。

具体地，针对每个坐席员，提供预设的不同内容的语料，在坐席员朗读该语料时进行录音，得到录音样本，对该录音文本进行语音信号提取，进而获取该坐席员的初始声纹样本。

例如，在一具体实施方式中，提供给某一坐席员的预料有三个，分别是语料一、语料二和语料三，该坐席员对这三个语料每个重复读5遍，、进而获取到了15个录音文本，对这15个录音文本进行语音信号提取，得到15段语音信号，将这15段语音信号作为该坐席员的初始声纹样本。

其中，语料是指在统计自然语言处理中实际上不可能观测到大规模的语言实例。

优选地，每个录音样本的录音时长为30秒钟。

S22：对初始声纹样本进行预加重处理，生成具有平坦频谱的加重处理声纹样本。

具体地，由于声门激励和口鼻辐射会对语音信号的平均功率谱产生影响，导致高频在超过800Hz时会按6dB/倍频跌落，所以在计算语音信号频谱时，频率越高相应的成分越小，为此要在预处理中进行预加重(Pre-emphasis)处理，预加重的目的是提高高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，以便于频谱分析或者声道参数分析。预加重可在语音信号数字化时在反混叠滤波器之前进行，这样不仅可以进行预加重，而且可以压缩信号的动态范围，有效地提高信噪比。预加重可使用一阶的数字滤波器来实现，例如：有限脉冲响应(Finite Impulse Response，FIR)滤波器。

值得说明的是，利用设备获取的语音信号都是模拟信号，在对这些模拟信号进行预加重处理之前，需要经过采样和量化将模拟信息转化为数字信号，根据语音的频谱范围200-3400Hz，采样率可设置为8KHz，量化精度为16bit。

应理解，此处采样率和量化精度的数值范围，为本发明优选范围，但可以根据实际应用的需要进行设置，此处不做限制。

语音信号在经过预加重后，频谱的高频部分得到提升，信号也变得平坦，生成具有平坦频谱的加重处理声纹样本，有利于后续的声纹特征提取。

S23：采用分帧和加窗的方式，对加重处理声纹样本进行分帧处理，得到初始语音帧。

具体地，语音信号具有短时平稳的性质，语音信号在经过预加重处理后，需要对其进行分帧和加窗处理，来保持信号的短时平稳性，通常情况下，每秒钟包含的帧数在33～100帧之间。为了保持帧与帧之间的连续性，使得相邻两帧都能平滑过渡，采用交叠分帧的方式，如图3所示，图3示出了交叠分帧的样例，图3中第k帧和第k+1帧之间的交叠部分即为帧移。

优选地，帧移与帧长的比值的取值范围为(0，0.5)。

例如，在一具体实施方式中，预加重后的语音信号为s'(n)，帧长为N个采样点，帧移为M个采样点。当第l帧对应的采样点为第n个时，原始语音信号x_l(n)与各参数之间的对应关系为：

x_l(n)＝x[(l-1)M+n]

其中，n＝0,1,...,N-1,N＝256。

进一步地，声纹样本经过分帧之后，使用相应的窗函数w(n)与预加重后的语音信号s'(n)相乘，即得到加窗后的语音信号S_w，将该语音信号作为初始语音帧信号。

其中，窗函数包括但不限于：矩形窗(Rectangular)、汉明窗(Hamming)和汉宁窗(Hanning)等。

矩形窗表达式为：

汉明窗表达式为：

汉宁窗表达式为：

对经过预加重处理的声纹样本进行分帧和加窗处理，使得声纹样本保持帧与帧之间的连续性，并剔除掉一些异常的信号点，提高了声纹样本的鲁棒性。

S24：对初始语音帧信号进行静默音分离，得到目标语音帧。

具体地，在通话持续期间，语音信号可分为激活期和静默期两个状态，静默期不传送任何语音信号，上、下行链路的激活期和静默期相互独立。在步骤S21中，用户录音过程中在每次发音前后，均会有停顿的状态，这个状态会带来语音信号的停顿，即静默期，在进行声纹特征提取的时候，需要检测出静默期状态，进而将静默期与激活期进行分离，以得到持续的激活期，将保留下来的持续的激活期的语音信号作为目标语音帧。

其中，检测静默音状态的方式包括但不限于：语音端点检测、FFMPEG探测音频静音算法和语音活动检测(Voice Activity Detection，VAD)算法等。

S25：基于目标语音帧，提取声纹特征。

具体地，在经过预加重处理、分帧和加窗和静默音分离之后，获取了稳定性强的声纹样本，使用该样本进行声纹特征的提取。

其中，声纹特征提取是提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征。

优选地，本发明选择提取的声纹特征为声学特征中的线性倒谱特征。

S26：在每个分组中，将该分组中每个坐席员的声纹特征组成该分组的基础声纹特征集。

具体地，在步骤S25中获取到每个坐席的声纹特征之后，将每个分组的坐席的声纹特征组成一个声纹特征集，用于后续的动态声纹识别模型的构建。

在图2对应的实施例中，针对每个分组中的每个坐席员，获取该坐席员对预设的多个不同语料进行朗读的录音样本，并对该录音样本进行声纹解析，得到该坐席员的初始声纹样本，并对初始声纹样本进行预加重处理，生成具有平坦频谱的加重处理声纹样本，采用分帧和加窗的方式，对加重处理声纹样本进行分帧处理，得到具有鲁棒性的初始语音帧，然后对初始语音帧信号进行静默音分离，过滤掉有干扰的静默音，得到目标语音帧，使得声纹样本具有连续性和鲁棒性，进而从该声纹样本中提取坐席员的声纹特征，在每个分组中，将该分组中每个坐席员的声纹特征组成该分组的基础声纹特征集，提升了基础声纹特征集中声纹特征的准确度和鲁棒性。

在图2对应的实施例的基础之上，下面通过一个具体的实施例来对步骤S25中所提及的基于目标语音帧，提取声纹特征的具体实现方法进行详细说明：

请参阅图4，图4示出了本发明实施例提供的步骤S25的具体实现流程，详述如下：

S251：使用莱文森-德宾算法对目标语音帧的预测误差计算公式(F1)中的线性预测系数进行预测，并根据预测结果确定目标线性预测系数a′₁，a′₂，...，a′_p：

其中，e(n)为预测误差，为目标语音帧序列的预测值，n为目标语音帧序列包含的总点数，s(n-i)为目标语音帧序列在前n-i个点的取值总和，a_i为目标语音帧序列中第i点的线性预测系数，p为预设的线性预测的阶数，i∈[1,p]，n为正整数。

具体地，由于语音相邻样点间具有相关性，可以利用线性预测，根据过去的样点值来预测现在或者未来的样点值，即利用过去若干个语音抽样或者他们的线性组合，来逼近该条语音的现在的抽样值。预测的目的就是找出一组合适的系数，使得预测误差e(n)的均方值最小。实际预测过程一般是先把抽样序列按一定的数目组成帧，然后逐帧进行预测，每帧都找出该帧的P个最佳预测系数。预测的精确度不是以某一个样值的预测结果来衡量，而是要看帧内各样值预测的总效果。

在本发明实施例中，通过采用信号过去的P个样点值，来对信号现在或者未来的样点值进行预测，得到预测值，假定语音信号的序列为s(n)，n为[1,n]的任意正整数，s(n)为当前时刻n点的取值，其预测值为进而将预测值与真实值之差作为该点的预测误差。

进一步地，要使得预测精准，就需要降低预测误差，在本发明中采取的是对预测误差进行均方误差求导，得到尤尔一沃克方程(Yule-Walker Equation)，并使用莱文森-德宾算法对尤尔一沃克方程进行求解，得到的一组线性预测系数即为使得预测误差值最小的线性预测系数，将该组线性预测系数作为目标预测系数。

S252：根据目标线性预测系数，按照公式(F2)计算目标语音帧的线性预测倒谱系数，并将该线性预测倒谱系数作为声纹特征：

其中，为线性预测倒谱系数。

具体地，依据n的取值范围来使用公式(F2)计算出对应的线性预测倒谱系数，并将得到的线性预测倒谱系数作为语音信号序列s(n)的声纹特征。

在图4对应的实施例中，通过对目标语音帧的预测误差的表达式进行求极值，并找出使得预测误差最小的一组线性预测系数作为目标线性预测系数，使用该目标线性预测系数通过公式(F3)计算得线性预测倒谱系数，将该线性倒谱系数作为声纹特征，使得采集的声纹特征精准度较高，有利于提高动态声纹识别模型的预测准确率。

在图1对应的实施例的基础之上，下面通过一个具体的实施例来对步骤S3中所提及的对每个基础声纹特征集中的声纹特征进行训练，得到每个基础声纹特征集的综合声纹特征的具体实现方法进行详细说明。

请参阅图5，图5示出了本发明实施例提供的步骤S3的具体实现流程，详述如下：

S31：针对每个基础声纹特征集，采用遗传算法对该基础声纹特征集中的声纹特征进行优化，得到该基础声纹特征集对应的码本集。

具体地，采用遗传算法对该基础声纹特征集中的声纹特征进行优化的具体过程请参照步骤S3中的描述，为避免重复，此处不在赘述。

S32：针对第x个基础声纹特征集，获取该基础声纹特征集对应的码本集内的码本总数q，在该码本集中任意选取k个码本作为训练样本，将训练样本的码本矩阵按对应位取算术平均值得到类别码本D_x，将该类别码本D_x作为第x个分组的基础声纹特征集的综合声纹特征，其中k∈[1,q]，x和q为正整数。

可以理解地，针对每个分组的基础声纹集，均得到该分组的综合声纹特征，在本发明实施例中采用按对应位取算术平均值的方式得到类别码本，在其他实施例中，也可以根据实际情况，选择加权平均值、几何平均值，平方平均值和调和平均值等方式得到类别码本，此处不作具体限制。

值得说明的是，在生成类别码本后，使用下述步骤S52中的公式(F3)来计算该分组内每个声纹特征到该类别码本的距离，并将这些距离与预设距离进行比较，若大于预设距离的声纹特征个数超过预设个数阈值，则判定该类别码本不符合要求，随机选取k个码本进行重新训练，直到生成的类别码本到该分组内各声纹的欧式距离，大于预设距离的个数不超过预设的个数阈值为止，将此时的类别码本作为该分组的类别码本。

在图5对应的实施例中，针对每个基础声纹特征集，采用遗传算法对该基础声纹特征集中的声纹特征进行优化，得到该基础声纹特征集对应的码本集，在每个基础声纹特征集中，获取该基础声纹特征集对应的码本集内的码本总数，在该码本集中任意选取预设个数码本作为训练样本，将训练样本的码本矩阵按对应位取算术平均值得到类别码本，按次方法得到所有分组的类别码本，通过提取每个分组的综合声纹特征，能够在检测到呼叫操作时，快速判断当前语音数据所属分组，提升识别效率。

在图5对应的实施例的基础之上，下面通过一个具体的实施例来对步骤S5中所提及的基于动态声纹识别模型，对目标声纹特征进行识别，确定待识别坐席员的呼叫权限的具体实现方法进行详细说明。

请参阅图6，图6示出了本发明实施例提供的步骤S5的具体实现流程，详述如下：

S51：将目标声纹特征进行预处理，得到目标声纹特征的目标优化码本。

具体地，对步骤S4中获取到的目标声纹特征进行预处理，预处理过程可参照步骤S22至步骤S25的描述，进而采用遗传算法对该基础声纹特征集中的声纹特征进行优化，具体优化过程请参照步骤S3中的描述，为避免重复，此处不再赘述，得到目标声纹特征的目标优化码本。

S52：按照公式(F3)计算目标优化码本到每个类别码本的欧式距离：

其中，ρ_j(A,D_j)为目标优化码本A到第j个类别码本D_j的欧式距离，a_t为目标优化码本A中第t个编码序列特征，b_t为类别码本D_j中第t个编码序列特征，j∈[1,J]，J为基础声纹特征集的个数。

其中，编码序列特征是指每个目标优化码本中用来表示声纹特征的系数，例如步骤S252中的线性倒谱系数。

S53：从J个欧式距离中选取数值最小的欧氏距离，作为目标欧氏距离。

具体地，由步骤S52可知，目标优化码本到每个类别码本均得到一个欧式距离，容易理解地，最后获取的欧式距离总数与分组的总数一致，将这些欧式距离进行比较，获取数值最小的欧式距离，作为目标欧氏距离。

例如，在一具体实施方式中，共分了10个组，即10个基础声纹特征集，每个基础声纹特征集对应存在1个类别码本，分别计算目标优化码本到每个类别码本的欧式距离，得到10个欧式距离，从这些欧式距离中选出数值最小的欧氏距离作为目标欧式距离。

S54：获取目标欧式距离对应的类别码本所在的分组，将该分组作为当前外呼组别。

具体地，由步骤S42可知，每个类别码本对应一个分组，获取目标欧式距离对应的分组，将该分组作为当前的外呼组别。

S55：根据对应关系，确定当前外呼组别对应的当前呼叫权限，作为待识别坐席员的呼叫权限。

具体地，根据步骤S3中确定的外呼组别与呼叫权限之间的对应关系，获取当前外呼组别对应的呼叫权限，将该权限作为待识别的坐席员的呼叫权限。

在图6对应的实施例中，通过将目标声纹特征进行预处理，得到目标声纹特征的目标优化码本，进而计算目标优化码本到每个类别码本的欧式距离，并从所有欧式距离中选取数值最小的欧氏距离，作为目标欧氏距离，再获取目标欧式距离对应的类别码本所在的分组，将该分组作为当前外呼组别，根据分组与呼叫权限的对应关系，确定当前外呼组别对应的当前呼叫权限，作为待识别坐席员的呼叫权限。从而实现了实时快速的对当前外呼进行权限的认定，有利于实现实时监控，有效提高监控的实时性和坐席呼叫的呼叫质量。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

实施例2

对应于实施例1中的声纹识别方法，图7示出了与实施例1提供的声纹识别方法一一对应的声纹识别装置，为了便于说明，仅示出了与本发明实施例相关的部分。

如图7所示，该声纹识别装置包括：坐席权限分组模块10、声纹特征采集模块20、识别模型构建模块30、目标特征获取模块40、呼叫权限确定模块50和实时语音预警模块60。各功能模块详细说明如下：

坐席权限分组模块10，用于获取数据库中每个坐席员的呼叫权限，并根据预设的权限分组方式，将每个坐席员分配到呼叫权限对应的分组中；

声纹特征采集模块20，用于针对每个分组，对该分组中的每个坐席员进行声纹特征采集，得到该分组的基础声纹特征集；

识别模型构建模块30，用于对每个基础声纹特征集中的声纹特征进行训练，得到每个基础声纹特征集的综合声纹特征，并基于分组、呼叫权限和综合声纹特征之间的对应关系，构建动态声纹识别模型；

目标特征获取模块40，用于若检测到待识别坐席员的呼叫操作，则获取被呼叫客户的客户级别和待识别坐席员的语音数据，并对该语音数据进行声纹特征提取，得到目标声纹特征；

呼叫权限确定模块50，用于基于动态声纹识别模型，对目标声纹特征进行识别，确定待识别坐席员的呼叫权限；

实时语音预警模块60，用于若待识别坐席员的呼叫权限不满足客户级别的要求，则执行预设的预警处理措施。

进一步地，声纹特征采集模块20包括：

初始声纹获取单元21，用于针对每个分组中的每个坐席员，获取该坐席员对预设的多个不同语料进行朗读的录音样本，并对该录音样本进行声纹解析，得到该坐席员的初始声纹样本；

声纹加重处理单元22，用于对初始声纹样本进行预加重处理，生成具有平坦频谱的加重处理声纹样本；

初始语音帧生成单元23，用于采用分帧和加窗的方式，对加重处理声纹样本进行分帧处理，得到初始语音帧；

目标语音帧获取单元24，用于对初始语音帧信号进行静默音分离，得到目标语音帧；

声纹特征提取单元25，用于基于目标语音帧，提取声纹特征；

声纹特征集整合单元26，用于在每个分组中，将该分组中每个坐席员的声纹特征组成该分组的基础声纹特征集。

优选地，声纹特征提取单元25包括：

目标线性预测系数递推子单元251，用于使用莱文森-德宾算法目标语音帧的预测误差计算公式(F1)中的线性预测系数进行预测，并根据预测结果确定目标线性预测系数a′₁，a′₂，...，a′_p：

其中，e(n)为预测误差，为目标语音帧序列的预测值，n为目标语音帧序列包含的总点数，s(n-i)为目标语音帧序列在前n-i个点的取值总和，a_i为目标语音帧序列中第i点的线性预测系数，p为预设的线性预测的阶数，i∈[1,p]，n为正整数；

线性预测倒谱系数计算子单元252，用于根据目标线性预测系数，按照公式(F2)计算目标语音帧的线性预测倒谱系数，并将线性预测倒谱系数作为声纹特征：

其中，为线性预测倒谱系数。

进一步地，识别模型构建模块30包括：

特征码本优化单元31，用于针对每个基础声纹特征集，采用遗传算法对该基础声纹特征集中的声纹特征进行优化，得到该基础声纹特征集对应的码本集；

类别码本训练单元32，用于针对第x个基础声纹特征集，获取该基础声纹特征集对应的码本集内的码本总数q，在该码本集中任意选取k个码本作为训练样本，将该训练样本的码本矩阵按对应位取算术平均值得到类别码本D_x，将该类别码本D_x作为第x个分组的基础声纹特征集的综合声纹特征，其中k∈[1,q]，x和q为正整数。

进一步地，呼叫权限确定模块50包括：

目标优化码本获取单元51，用于将目标声纹特征进行预处理，得到目标声纹特征的目标优化码本；

欧氏距离计算单元52，用于按照公式(F3)计算目标优化码本到每个类别码本的欧式距离：

其中，ρ_j(A,D_j)为目标优化码本A到第j个类别码本D_j的欧式距离，a_t为目标优化码本A中第t个编码序列特征，b_t为类别码本D_j中第t个编码序列特征，j∈[1,J]，J为基础声纹特征集的个数；

目标欧式距离选取单元53，用于从n个欧式距离中选取数值最小的欧氏距离，作为目标欧氏距离；

当前外呼组别确定单元54，用于获取目标欧式距离对应的类别码本所在的分组，将该分组作为当前外呼组别；

当前呼叫权限获取单元55，用于根据对应关系，确定当前外呼组别对应的当前呼叫权限，作为待识别坐席员的呼叫权限。

本实施例提供的一种声纹识别装置中各模块实现各自功能的过程，具体可参考前述实施例1的描述，此处不再赘述。

实施例3

本实施例提供一计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现实施例1中声纹识别方法，或者，该计算机程序被处理器执行时实现实施例2中声纹识别装置中各模块/单元的功能。为避免重复，这里不再赘述。

可以理解地，所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号和电信信号等。

实施例4

图8是本发明一实施例提供的终端设备的示意图。如图8所示，该实施例的终端设备80包括：处理器81、存储器82以及存储在存储器82中并可在处理器81上运行的计算机程序83，例如声纹识别程序。处理器81执行计算机程序83时实现上述各个声纹识别方法实施例中的步骤，例如图1所示的步骤S1至步骤S6。或者，处理器81执行计算机程序83时实现上述各装置实施例中各模块/单元的功能，例如图7所示模块10至模块60的功能。

示例性的，计算机程序83可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器82中，并由处理器81执行，以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序83在终端设备80中的执行过程。例如，计算机程序83可以被分割成坐席权限分组模块、声纹特征采集模块、识别模型构建模块、目标特征获取模块、呼叫权限确定模块和实时语音预警模块，各模块的具体功能如实施例2所示，为避免重复，此处不一一赘述。

终端设备80可以是计算机、服务器等计算设备。终端设备80可包括，但不仅限于，处理器81、存储器82。本领域技术人员可以理解，图8仅仅是终端设备80的示例，并不构成对终端设备80的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如终端设备80还可以包括输入输出设备、网络接入设备、总线等。

所称处理器81可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器82可以是终端设备80的内部存储单元，例如终端设备80的硬盘或内存。存储器82也可以是终端设备80的外部存储设备，例如终端设备80上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器82还可以既包括终端设备80的内部存储单元也包括外部存储设备。存储器82用于存储计算机程序以及终端设备80所需的其他程序和数据。存储器82还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种声纹识别方法，其特征在于，所述声纹识别方法包括：

对每个所述基础声纹特征集中的声纹特征进行训练，得到每个所述基础声纹特征集的综合声纹特征，并基于所述分组、所述呼叫权限和所述综合声纹特征之间的声纹对应关系，构建动态声纹识别模型；

2.如权利要求1所述的声纹识别方法，其特征在于，所述针对每个所述分组，对该分组中的每个所述坐席员进行声纹特征采集，得到该分组的基础声纹特征集，包括：

针对每个所述分组中的每个所述坐席员，获取该坐席员对预设的多个不同语料进行朗读的录音样本，并对所述录音样本进行声纹解析，得到该坐席员的初始声纹样本；

对所述初始声纹样本进行预加重处理，生成具有平坦频谱的加重处理声纹样本；

采用分帧和加窗的方式，对所述加重处理声纹样本进行分帧处理，得到初始语音帧；

对所述初始语音帧信号进行静默音分离，得到目标语音帧；

基于所述目标语音帧，提取声纹特征；

在每个所述分组中，将该分组中每个所述坐席员的所述声纹特征组成该分组的所述基础声纹特征集。

3.如权利要求2所述的声纹识别方法，其特征在于，所述基于所述目标语音帧，提取声纹特征，包括：

使用莱文森-德宾算法对所述目标语音帧的预测误差的计算公式(F1)中的线性预测系数进行预测，并根据预测结果确定目标线性预测系数a′₁，a′₂，...，a′_p：

其中，e(n)为所述预测误差，为所述目标语音帧序列的预测值，n为所述目标语音帧序列包含的总点数，s(n-i)为所述目标语音帧序列在前n-i个点的取值总和，a_i为所述目标语音帧序列中第i点的线性预测系数，p为预设的线性预测的阶数，i∈[1,p]，n为正整数；

根据所述目标线性预测系数，按照公式(F2)计算所述目标语音帧的线性预测倒谱系数，并将所述线性预测倒谱系数作为所述声纹特征：

其中，为所述线性预测倒谱系数。

4.如权利要求1所述的声纹识别方法，其特征在于，所述对每个所述基础声纹特征集中的声纹特征进行训练，得到每个所述基础声纹特征集的综合声纹特征，包括：

针对每个所述基础声纹特征集，采用遗传算法对该基础声纹特征集中的声纹特征进行优化，得到该基础声纹特征集对应的码本集；

针对第x个所述基础声纹特征集，获取该基础声纹特征集对应的所述码本集内的码本总数q，在该码本集中任意选取k个码本作为训练样本，将所述训练样本的码本矩阵按对应位取算术平均值得到类别码本D_x，将该类别码本D_x作为第x个分组的基础声纹特征集的综合声纹特征，其中k∈[1,q]，x和q为正整数。

5.如权利要求4所述的声纹识别方法，其特征在于，所述基于所述动态声纹识别模型，对所述目标声纹特征进行识别，确定所述待识别坐席员的呼叫权限，包括：

将所述目标声纹特征进行预处理，得到所述目标声纹特征的目标优化码本；

按照公式(F3)计算所述目标优化码本到每个所述类别码本的欧式距离：

其中，ρ_j(A,D_j)为目标优化码本A到第j个所述类别码本D_j的欧式距离，a_t为目标优化码本A中第t个编码序列特征，b_t为所述类别码本D_j中第t个编码序列特征，j∈[1,J]，J为所述基础声纹特征集的个数；

从J个所述欧式距离中选取数值最小的欧氏距离，作为目标欧氏距离；

获取所述目标欧式距离对应的类别码本所在的分组，将该分组作为当前外呼组别；

根据所述对应关系，确定所述当前外呼组别对应的当前呼叫权限，作为所述待识别坐席员的呼叫权限。

6.一种声纹识别装置，其特征在于，所述声纹识别装置包括：

识别模型构建模块，用于对每个所述基础声纹特征集中的声纹特征进行训练，得到每个所述基础声纹特征集的综合声纹特征，并基于所述分组、所述呼叫权限和所述综合声纹特征之间的声纹对应关系，构建动态声纹识别模型；

7.如权利要求6所述的声纹识别装置，其特征在于，声纹特征采集模块，包括：

初始声纹获取单元，用于针对每个所述分组中的每个所述坐席员，获取该坐席员对预设的多个不同语料进行朗读的录音样本，并对所述录音样本进行声纹解析，得到该坐席员的初始声纹样本；

声纹加重处理单元，用于对所述初始声纹样本进行预加重处理，生成具有平坦频谱的加重处理声纹样本；

初始语音帧生成单元，用于采用分帧和加窗的方式，对所述加重处理声纹样本进行分帧处理，得到初始语音帧；

目标语音帧获取单元，用于对所述初始语音帧信号进行静默音分离，得到目标语音帧；

声纹特征提取单元，用于基于所述目标语音帧，提取声纹特征；

声纹特征集整合单元，用于在每个所述分组中，将该分组中每个所述坐席员的所述声纹特征组成该分组的所述基础声纹特征集。

8.如权利要求6所述的声纹识别装置，其特征在于，所述声纹特征提取单元，包括：

目标线性预测系数递推子单元，用于使用莱文森-德宾算法对所述目标语音帧的预测误差的计算公式(F1)中的线性预测系数进行预测，并根据预测结果确定目标线性预测系数a′₁，a′₂，...，a′_p：

线性预测倒谱系数计算子单元，用于根据所述目标线性预测系数，按照公式(F2)计算所述目标语音帧的线性预测倒谱系数，并将所述线性预测倒谱系数作为所述声纹特征：

其中，为所述线性预测倒谱系数。

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述声纹识别方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述声纹识别方法的步骤。