CN108900725A - 一种声纹识别方法、装置、终端设备及存储介质 - Google Patents

一种声纹识别方法、装置、终端设备及存储介质 Download PDF

Info

Publication number
CN108900725A
CN108900725A CN201810528518.0A CN201810528518A CN108900725A CN 108900725 A CN108900725 A CN 108900725A CN 201810528518 A CN201810528518 A CN 201810528518A CN 108900725 A CN108900725 A CN 108900725A
Authority
CN
China
Prior art keywords
vocal print
print feature
banquet
attending
grouping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810528518.0A
Other languages
English (en)
Other versions
CN108900725B (zh
Inventor
黄锦伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201810528518.0A priority Critical patent/CN108900725B/zh
Priority to US16/626,320 priority patent/US10878823B2/en
Priority to PCT/CN2018/094374 priority patent/WO2019227583A1/zh
Priority to JP2019563563A priority patent/JP6792089B2/ja
Priority to SG11201912620YA priority patent/SG11201912620YA/en
Publication of CN108900725A publication Critical patent/CN108900725A/zh
Application granted granted Critical
Publication of CN108900725B publication Critical patent/CN108900725B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/5175Call or contact centers supervision arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/523Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing with call distribution or queueing
    • H04M3/5232Call distribution algorithms
    • H04M3/5233Operator skill based call distribution
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/41Electronic components, circuits, software, systems or apparatus used in telephone systems using speaker recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/60Aspects of automatic or semi-automatic exchanges related to security aspects in telephonic communication systems
    • H04M2203/6054Biometric subscriber identification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Abstract

本发明公开了一种声纹识别方法、装置、终端设备及存储介质,所述方法包括:通过将每个坐席员按照呼叫权限分配到对应的分组中,对分组中的每个坐席员进行声纹特征采集并处理,得到分组的综合声纹特征,基于分组、呼叫权限和综合声纹特征来构建动态声纹识别模型,当检测到有坐席员的呼叫操作时,获取该坐席员的语音数据,并进行纹特征提取,同时基于动态声纹识别模型,确定该坐席员的呼叫权限,若所述待识别坐席员的呼叫权限不满足所述客户级别的要求,则执行预设的预警处理措施,进而进行监控,通过声纹识别的方式来判断坐席员所在的分组,并根据分组与权限的对应关系来实现实时监控,有效提高监控的实时性和坐席呼叫的呼叫质量。

Description

一种声纹识别方法、装置、终端设备及存储介质
技术领域
本发明涉及计算机通讯技术领域,尤其涉及一种声纹识别方法、装置、终端设备及存储介质。
背景技术
呼叫中心由交互式语音应答系统和人工话务系统构成。人工话务系统由签入系统,话务平台,接口机组成,客户代表也就是坐席员为了进行客户服务,需在签入系统进行签入操作,成功签入话务平台后,根据话务平台分配的人工服务请求和客户建立通话,也就是坐席员外呼,来进行客户服务,通常会根据业务需求将客户分为不同业务的不同等级,每个坐席员按照其职责来安排接待不同业务不同等级的客户。
虽然每个坐席员在外呼前已被告知相应的外呼权限,但现实生活中经常存在一些业务不熟练的坐席员对高等级客户进行外呼的情况。
现有技术一般是通过事后听取录音并对录音进行分析,从而获取不符合权限的外呼信息并进行相应处理,做不到及时的预警,导致客服语音呼叫的监控不及时,监控效率低。
发明内容
本发明实施例提供一种声纹识别方法、装置、终端设备及存储介质,以解决客服语音呼叫的监控不及时,监控效率低的问题。
第一方面,本发明实施例提供一种声纹识别方法,包括:
获取数据库中每个坐席员的呼叫权限,并根据预设的权限分组方式,将每个所述坐席员分配到所述呼叫权限对应的分组中;
针对每个所述分组,对该分组中的每个所述坐席员进行声纹特征采集,得到该分组的基础声纹特征集;
对每个所述基础声纹特征集中的声纹特征进行训练,得到每个所述基础声纹特征集的综合声纹特征,并基于所述分组、所述呼叫权限和所述综合声纹特征之间的对应关系,构建动态声纹识别模型;
若检测到待识别坐席员的呼叫操作,则获取被呼叫客户的客户级别和所述待识别坐席员的语音数据,并对所述语音数据进行声纹特征提取,得到目标声纹特征;
基于所述动态声纹识别模型,对所述目标声纹特征进行识别,确定所述待识别坐席员的呼叫权限;
若所述待识别坐席员的呼叫权限不满足所述客户级别的要求,则执行预设的预警处理措施。
第二方面,本发明实施例提供一种声纹识别装置,包括:
坐席权限分组模块,用于获取数据库中每个坐席员的呼叫权限,并根据预设的权限分组方式,将每个所述坐席员分配到所述呼叫权限对应的分组中;
声纹特征采集模块,用于针对每个所述分组,对该分组中的每个所述坐席员进行声纹特征采集,得到该分组的基础声纹特征集;
识别模型构建模块,用于对每个所述基础声纹特征集中的声纹特征进行训练,得到每个所述基础声纹特征集的综合声纹特征,并基于所述分组、所述呼叫权限和所述综合声纹特征之间的对应关系,构建动态声纹识别模型;
目标特征获取模块,用于若检测到待识别坐席员的呼叫操作,则获取被呼叫客户的客户级别和所述待识别坐席员的语音数据,并对所述语音数据进行声纹特征提取,得到目标声纹特征;
呼叫权限确定模块,用于基于所述动态声纹识别模型,对所述目标声纹特征进行识别,确定所述待识别坐席员的呼叫权限;
实时语音预警模块,用于若所述待识别坐席员的呼叫权限不满足所述客户级别的要求,则执行预设的预警处理措施。
第三方面,本发明实施例提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述声纹识别方法的步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述声纹识别方法的步骤。
本发明实施例提供的声纹识别方法、装置、终端设备及存储介质,一方面,通过获取数据库中每个坐席员的呼叫权限,并根据预设的权限分组方式,将每个坐席员分配到呼叫权限对应的分组中,针对每个分组,对该分组中的每个坐席员进行声纹特征采集,得到该分组的基础声纹特征集,并对每个基础声纹特征集中的声纹特征进行训练,得到每个基础声纹特征集的综合声纹特征,并基于分组、呼叫权限和综合声纹特征之间的对应关系,构建动态声纹识别模型,这种通过分组的方式,提取每个分组的综合声纹特征,能够在检测到呼叫操作时,快速判断当前语音数据所属分组,提升识别效率,进而实现及时监控,提升监控效率;另一方面,当检测到待识别坐席员的呼叫操作时,获取被呼叫客户的客户级别和待识别坐席员的语音数据,并对该语音数据进行声纹特征提取,得到目标声纹特征,同时基于动态声纹识别模型,对该目标声纹特征进行识别,确定待识别坐席员的呼叫权限,若待识别坐席员的呼叫权限不满足该客户级别的要求,则执行预设的预警处理措施,通过采用声纹识别的方式,判断坐席员的呼叫权限,进而确定坐席员当前的呼叫是否合法,并在非法时能够及时采取预警措施,实现实时监控,有效提高监控的实时性和坐席呼叫的呼叫质量。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1提供的声纹识别方法的实现流程图;
图2是本发明实施例1提供的声纹识别方法中步骤S2的实现流程图;
图3是本发明实施例1提供的声纹识别方法中语音信号交叠分帧的示例图;
图4是本发明实施例1提供的声纹识别方法中步骤S25的实现流程图;
图5是本发明实施例1提供的声纹识别方法中步骤S3的实现流程图;
图6是本发明实施例1提供的声纹识别方法中步骤S5的实现流程图;
图7是本发明实施例2中提供的声纹识别装置的示意图;
图8是本发明实施例4中提供的终端设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅图1,图1示出本实施例提供的声纹识别方法的实现流程。该声纹识别方法应用在呼叫中心的坐席员外呼场景中,该呼叫中心包括服务端和客户端,其中,服务端和客户端之间通过网络进行连接,坐席员通过客户端进行外呼呼叫,客户端具体可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务端具体可以用独立的服务器或者多个服务器组成的服务器集群实现。本发明实施例提供的声纹识别方法应用于服务端,详述如下:
S1:获取数据库中每个坐席员的呼叫权限,并根据预设的权限分组方式,将每个坐席员分配到呼叫权限对应的分组中。
具体地,在数据库中存储有每个坐席员外呼的呼叫权限,按照呼叫权限的不同,将每个坐席员分配到其呼叫权限对应的分组之中。
例如,在一具体实施方式中,数据库存储的呼叫权限有6个等级分别为R1、R2、R3、R4、R5和R6,坐席员一共有3000人,将这些坐席员按照其对应权限分配到6个不同权限等级的分组中,得到权限按高到底的如下分组情况:分组一共10人,对应的权限为R1;分组二共80人,对应的权限为R2;分组三共200人,对应的权限为R3;分组四共600人,对应的权限为R4;分组五共1800人,对应的权限为R5;分组六共310人,对应的权限为R6
值得说明的是,高等级的权限包含低等级的权限,例如,属于分组一的坐席员具有所有呼叫权限,属于分组六的坐席员具有的权限最少,即
S2:针对每个分组,对该分组中的每个坐席员进行声纹特征采集,得到该分组的基础声纹特征集。
具体地,分别对同一分组的坐席员进行声纹特征采集,将同一分组的所有坐席员的声纹特征作为该分组的基础声纹特征集。
其中,声纹特征包括但不限于:声学特征、词法特征、韵律特征、语种方言口音信息和通道信息等。
优选地,本发明采用的声纹特征为声学特征。
S3:对每个基础声纹特征集中的声纹特征进行训练,得到每个基础声纹特征集的综合声纹特征,并基于分组、呼叫权限和综合声纹特征之间的对应关系,构建动态声纹识别模型。
具体地,对每个基础声纹特征集中的声纹特征进行训练,得到每个基础声纹特征集的综合声纹特征,即该分组的综合声纹特征,并根据步骤S1和步骤S2中提供的分组和呼叫权限的对应关系、分组与声纹特征的对应关系,来建立动态声纹识别模型。
其中,对每个基础声纹特征集中的声纹特征进行训练,得到每个基础声纹特征集的综合声纹特征,所采用的训练方式包括但不限于:模板匹配方法、最近邻方法、神经网络方法、隐式马尔可夫模型(Hidden Markov Model,HMM)、矢量量化(Vector Quantization,VQ)方法、多项式分类器(Polynomial Classifiers)方法等。
优选地,本发明实施例采用的训练方式为基于神经网络方法的遗传算法(GeneticAlgorithm)的改进算法,通过将每个分组作为一个群体,分组中的每个坐席员的声纹特征作为一条染色体,通过使用遗传算法来进行初始化编码、个体评价、选择、交叉和变异,进而得到该分组的最优解或近似解,即该分组的综合声纹特征。
S4:若检测到待识别坐席员的呼叫操作,则获取被呼叫客户的客户级别和待识别坐席员的语音数据,并对语音数据进行声纹特征提取,得到目标声纹特征。
具体地,在检测到有待识别坐席员的呼叫操作时,根据被呼叫的客户的客户标识信息,再在根据客户数据库里面查找该标识信息,获取被呼叫的客户的客户级别。
其中,客户级别为预先设置并存储在客户数据库中,客户级别与权限级别存在映射关系。
以步骤S1中存储的6个权限级别为例,客户数据库中的客户级别分为1至10级,依照权限分组的6个分组对应的权限分别为:分组一的坐席员可呼叫客户级别为1级至10级,分组二的坐席员可呼叫客户级别为3级至10级,分组三的坐席员可呼叫客户级别为4级至10级,分组四的坐席员可呼叫客户级别为5级至10级,分组五的坐席员可呼叫客户级别为7级至10级,分组六的坐席员可呼叫客户级别为9级至10级。
进一步地,获取待识别坐席员的语音数据,并对该语音数据进行声纹特征提取,得到该坐席员的目标声纹特征,提取方法请参照下文中步骤S22至步骤S25的描述,为避免重复,此处不再赘述。
S5:基于动态声纹识别模型,对目标声纹特征进行识别,确定待识别坐席员的呼叫权限。
具体地,通过将目标声纹特征输入到动态声纹识别模型中进行识别,来判断该目标声纹特征对应的分组,进而找到该分组对应的呼叫权限,即为待识别坐席的呼叫权限。
S6:若待识别坐席员的呼叫权限不满足被呼叫客户的客户级别的要求,则执行预设的预警处理措施。
具体地,根据待识别坐席员的呼叫权限对应的客户级别R与被呼叫客户的客户级别r之间的关系,来确定当前的呼叫是否符合规范,若则认为待识别坐席员的呼叫权限不满足被呼叫客户的客户级别的要求,将执行预设的处理措施,并发送本次呼叫的信息给监控人员,记录此次违规的呼叫记录。
以步骤S4中的6个权限分组对应的10个客户级别为例,获取到的待识别坐席员所属分组为分组五,对应的呼叫权限为R5,即可外呼的客户级别为7级至10级,若当前的被呼叫的客户的客户级别为7级至10级中的任一等级,则当前外呼是满足要求的,若当前的被呼叫客户的客户级别为1级至6级中的任一级,则认为待识别坐席员的呼叫权限不满足被呼叫客户的客户级别的要求,将采取相应预警措施来阻止该呼叫继续进行。
其中,预设的处理措施包括但不限于:向待识别坐席员发送提醒信息、向监控中心推送警告信息、强制呼叫转移和强制挂断等,具体依据实际情况而定,在此不作限制。
在图1对应的实施例中,一方面,通过获取数据库中每个坐席员的呼叫权限,并根据预设的权限分组方式,将每个坐席员分配到呼叫权限对应的分组中,针对每个分组,对该分组中的每个坐席员进行声纹特征采集,得到该分组的基础声纹特征集,并对每个基础声纹特征集中的声纹特征进行训练,得到每个基础声纹特征集的综合声纹特征,并基于分组、呼叫权限和综合声纹特征之间的对应关系,构建动态声纹识别模型,这种通过分组的方式,提取每个分组的综合声纹特征,能够在检测到呼叫操作时,快速判断当前语音数据所属分组,提升识别效率,进而实现及时监控,提升监控效率;另一方面,当检测到待识别坐席员的呼叫操作时,获取被呼叫客户的客户级别和待识别坐席员的语音数据,并对该语音数据进行声纹特征提取,得到目标声纹特征,同时基于动态声纹识别模型,对该目标声纹特征进行识别,确定待识别坐席员的呼叫权限,若待识别坐席员的呼叫权限不满足该客户级别的要求,则执行预设的预警处理措施,通过采用声纹识别的方式,判断坐席员的呼叫权限,进而确定坐席员当前的呼叫是否合法,并在非法时能够及时采取预警措施,实现实时监控,有效提高监控的实时和坐席呼叫的呼叫质量。
接下来,在图1对应的实施例的基础之上,下面通过一个具体的实施例来对步骤S2中所提及的针对每个分组,对该分组中的每个坐席员进行声纹特征采集,得到该分组的基础声纹特征集的具体实现方法进行详细说明。
请参阅图2,图2示出了本发明实施例提供的步骤S2的具体实现流程,详述如下:
S21:针对每个分组中的每个坐席员,获取该坐席员对预设的多个不同语料进行朗读的录音样本,并对该录音样本进行声纹解析,得到该坐席员的初始声纹样本。
具体地,针对每个坐席员,提供预设的不同内容的语料,在坐席员朗读该语料时进行录音,得到录音样本,对该录音文本进行语音信号提取,进而获取该坐席员的初始声纹样本。
例如,在一具体实施方式中,提供给某一坐席员的预料有三个,分别是语料一、语料二和语料三,该坐席员对这三个语料每个重复读5遍,、进而获取到了15个录音文本,对这15个录音文本进行语音信号提取,得到15段语音信号,将这15段语音信号作为该坐席员的初始声纹样本。
其中,语料是指在统计自然语言处理中实际上不可能观测到大规模的语言实例。
优选地,每个录音样本的录音时长为30秒钟。
S22:对初始声纹样本进行预加重处理,生成具有平坦频谱的加重处理声纹样本。
具体地,由于声门激励和口鼻辐射会对语音信号的平均功率谱产生影响,导致高频在超过800Hz时会按6dB/倍频跌落,所以在计算语音信号频谱时,频率越高相应的成分越小,为此要在预处理中进行预加重(Pre-emphasis)处理,预加重的目的是提高高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或者声道参数分析。预加重可在语音信号数字化时在反混叠滤波器之前进行,这样不仅可以进行预加重,而且可以压缩信号的动态范围,有效地提高信噪比。预加重可使用一阶的数字滤波器来实现,例如:有限脉冲响应(Finite Impulse Response,FIR)滤波器。
值得说明的是,利用设备获取的语音信号都是模拟信号,在对这些模拟信号进行预加重处理之前,需要经过采样和量化将模拟信息转化为数字信号,根据语音的频谱范围200-3400Hz,采样率可设置为8KHz,量化精度为16bit。
应理解,此处采样率和量化精度的数值范围,为本发明优选范围,但可以根据实际应用的需要进行设置,此处不做限制。
语音信号在经过预加重后,频谱的高频部分得到提升,信号也变得平坦,生成具有平坦频谱的加重处理声纹样本,有利于后续的声纹特征提取。
S23:采用分帧和加窗的方式,对加重处理声纹样本进行分帧处理,得到初始语音帧。
具体地,语音信号具有短时平稳的性质,语音信号在经过预加重处理后,需要对其进行分帧和加窗处理,来保持信号的短时平稳性,通常情况下,每秒钟包含的帧数在33~100帧之间。为了保持帧与帧之间的连续性,使得相邻两帧都能平滑过渡,采用交叠分帧的方式,如图3所示,图3示出了交叠分帧的样例,图3中第k帧和第k+1帧之间的交叠部分即为帧移。
优选地,帧移与帧长的比值的取值范围为(0,0.5)。
例如,在一具体实施方式中,预加重后的语音信号为s'(n),帧长为N个采样点,帧移为M个采样点。当第l帧对应的采样点为第n个时,原始语音信号xl(n)与各参数之间的对应关系为:
xl(n)=x[(l-1)M+n]
其中,n=0,1,...,N-1,N=256。
进一步地,声纹样本经过分帧之后,使用相应的窗函数w(n)与预加重后的语音信号s'(n)相乘,即得到加窗后的语音信号Sw,将该语音信号作为初始语音帧信号。
其中,窗函数包括但不限于:矩形窗(Rectangular)、汉明窗(Hamming)和汉宁窗(Hanning)等。
矩形窗表达式为:
汉明窗表达式为:
汉宁窗表达式为:
对经过预加重处理的声纹样本进行分帧和加窗处理,使得声纹样本保持帧与帧之间的连续性,并剔除掉一些异常的信号点,提高了声纹样本的鲁棒性。
S24:对初始语音帧信号进行静默音分离,得到目标语音帧。
具体地,在通话持续期间,语音信号可分为激活期和静默期两个状态,静默期不传送任何语音信号,上、下行链路的激活期和静默期相互独立。在步骤S21中,用户录音过程中在每次发音前后,均会有停顿的状态,这个状态会带来语音信号的停顿,即静默期,在进行声纹特征提取的时候,需要检测出静默期状态,进而将静默期与激活期进行分离,以得到持续的激活期,将保留下来的持续的激活期的语音信号作为目标语音帧。
其中,检测静默音状态的方式包括但不限于:语音端点检测、FFMPEG探测音频静音算法和语音活动检测(Voice Activity Detection,VAD)算法等。
S25:基于目标语音帧,提取声纹特征。
具体地,在经过预加重处理、分帧和加窗和静默音分离之后,获取了稳定性强的声纹样本,使用该样本进行声纹特征的提取。
其中,声纹特征提取是提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征。
优选地,本发明选择提取的声纹特征为声学特征中的线性倒谱特征。
S26:在每个分组中,将该分组中每个坐席员的声纹特征组成该分组的基础声纹特征集。
具体地,在步骤S25中获取到每个坐席的声纹特征之后,将每个分组的坐席的声纹特征组成一个声纹特征集,用于后续的动态声纹识别模型的构建。
在图2对应的实施例中,针对每个分组中的每个坐席员,获取该坐席员对预设的多个不同语料进行朗读的录音样本,并对该录音样本进行声纹解析,得到该坐席员的初始声纹样本,并对初始声纹样本进行预加重处理,生成具有平坦频谱的加重处理声纹样本,采用分帧和加窗的方式,对加重处理声纹样本进行分帧处理,得到具有鲁棒性的初始语音帧,然后对初始语音帧信号进行静默音分离,过滤掉有干扰的静默音,得到目标语音帧,使得声纹样本具有连续性和鲁棒性,进而从该声纹样本中提取坐席员的声纹特征,在每个分组中,将该分组中每个坐席员的声纹特征组成该分组的基础声纹特征集,提升了基础声纹特征集中声纹特征的准确度和鲁棒性。
在图2对应的实施例的基础之上,下面通过一个具体的实施例来对步骤S25中所提及的基于目标语音帧,提取声纹特征的具体实现方法进行详细说明:
请参阅图4,图4示出了本发明实施例提供的步骤S25的具体实现流程,详述如下:
S251:使用莱文森-德宾算法对目标语音帧的预测误差计算公式(F1)中的线性预测系数进行预测,并根据预测结果确定目标线性预测系数a′1,a′2,...,a′p
其中,e(n)为预测误差,为目标语音帧序列的预测值,n为目标语音帧序列包含的总点数,s(n-i)为目标语音帧序列在前n-i个点的取值总和,ai为目标语音帧序列中第i点的线性预测系数,p为预设的线性预测的阶数,i∈[1,p],n为正整数。
具体地,由于语音相邻样点间具有相关性,可以利用线性预测,根据过去的样点值来预测现在或者未来的样点值,即利用过去若干个语音抽样或者他们的线性组合,来逼近该条语音的现在的抽样值。预测的目的就是找出一组合适的系数,使得预测误差e(n)的均方值最小。实际预测过程一般是先把抽样序列按一定的数目组成帧,然后逐帧进行预测,每帧都找出该帧的P个最佳预测系数。预测的精确度不是以某一个样值的预测结果来衡量,而是要看帧内各样值预测的总效果。
在本发明实施例中,通过采用信号过去的P个样点值,来对信号现在或者未来的样点值进行预测,得到预测值,假定语音信号的序列为s(n),n为[1,n]的任意正整数,s(n)为当前时刻n点的取值,其预测值为进而将预测值与真实值之差作为该点的预测误差。
进一步地,要使得预测精准,就需要降低预测误差,在本发明中采取的是对预测误差进行均方误差求导,得到尤尔一沃克方程(Yule-Walker Equation),并使用莱文森-德宾算法对尤尔一沃克方程进行求解,得到的一组线性预测系数即为使得预测误差值最小的线性预测系数,将该组线性预测系数作为目标预测系数。
S252:根据目标线性预测系数,按照公式(F2)计算目标语音帧的线性预测倒谱系数,并将该线性预测倒谱系数作为声纹特征:
其中,为线性预测倒谱系数。
具体地,依据n的取值范围来使用公式(F2)计算出对应的线性预测倒谱系数,并将得到的线性预测倒谱系数作为语音信号序列s(n)的声纹特征。
在图4对应的实施例中,通过对目标语音帧的预测误差的表达式进行求极值,并找出使得预测误差最小的一组线性预测系数作为目标线性预测系数,使用该目标线性预测系数通过公式(F3)计算得线性预测倒谱系数,将该线性倒谱系数作为声纹特征,使得采集的声纹特征精准度较高,有利于提高动态声纹识别模型的预测准确率。
在图1对应的实施例的基础之上,下面通过一个具体的实施例来对步骤S3中所提及的对每个基础声纹特征集中的声纹特征进行训练,得到每个基础声纹特征集的综合声纹特征的具体实现方法进行详细说明。
请参阅图5,图5示出了本发明实施例提供的步骤S3的具体实现流程,详述如下:
S31:针对每个基础声纹特征集,采用遗传算法对该基础声纹特征集中的声纹特征进行优化,得到该基础声纹特征集对应的码本集。
具体地,采用遗传算法对该基础声纹特征集中的声纹特征进行优化的具体过程请参照步骤S3中的描述,为避免重复,此处不在赘述。
S32:针对第x个基础声纹特征集,获取该基础声纹特征集对应的码本集内的码本总数q,在该码本集中任意选取k个码本作为训练样本,将训练样本的码本矩阵按对应位取算术平均值得到类别码本Dx,将该类别码本Dx作为第x个分组的基础声纹特征集的综合声纹特征,其中k∈[1,q],x和q为正整数。
可以理解地,针对每个分组的基础声纹集,均得到该分组的综合声纹特征,在本发明实施例中采用按对应位取算术平均值的方式得到类别码本,在其他实施例中,也可以根据实际情况,选择加权平均值、几何平均值,平方平均值和调和平均值等方式得到类别码本,此处不作具体限制。
值得说明的是,在生成类别码本后,使用下述步骤S52中的公式(F3)来计算该分组内每个声纹特征到该类别码本的距离,并将这些距离与预设距离进行比较,若大于预设距离的声纹特征个数超过预设个数阈值,则判定该类别码本不符合要求,随机选取k个码本进行重新训练,直到生成的类别码本到该分组内各声纹的欧式距离,大于预设距离的个数不超过预设的个数阈值为止,将此时的类别码本作为该分组的类别码本。
在图5对应的实施例中,针对每个基础声纹特征集,采用遗传算法对该基础声纹特征集中的声纹特征进行优化,得到该基础声纹特征集对应的码本集,在每个基础声纹特征集中,获取该基础声纹特征集对应的码本集内的码本总数,在该码本集中任意选取预设个数码本作为训练样本,将训练样本的码本矩阵按对应位取算术平均值得到类别码本,按次方法得到所有分组的类别码本,通过提取每个分组的综合声纹特征,能够在检测到呼叫操作时,快速判断当前语音数据所属分组,提升识别效率。
在图5对应的实施例的基础之上,下面通过一个具体的实施例来对步骤S5中所提及的基于动态声纹识别模型,对目标声纹特征进行识别,确定待识别坐席员的呼叫权限的具体实现方法进行详细说明。
请参阅图6,图6示出了本发明实施例提供的步骤S5的具体实现流程,详述如下:
S51:将目标声纹特征进行预处理,得到目标声纹特征的目标优化码本。
具体地,对步骤S4中获取到的目标声纹特征进行预处理,预处理过程可参照步骤S22至步骤S25的描述,进而采用遗传算法对该基础声纹特征集中的声纹特征进行优化,具体优化过程请参照步骤S3中的描述,为避免重复,此处不再赘述,得到目标声纹特征的目标优化码本。
S52:按照公式(F3)计算目标优化码本到每个类别码本的欧式距离:
其中,ρj(A,Dj)为目标优化码本A到第j个类别码本Dj的欧式距离,at为目标优化码本A中第t个编码序列特征,bt为类别码本Dj中第t个编码序列特征,j∈[1,J],J为基础声纹特征集的个数。
其中,编码序列特征是指每个目标优化码本中用来表示声纹特征的系数,例如步骤S252中的线性倒谱系数。
S53:从J个欧式距离中选取数值最小的欧氏距离,作为目标欧氏距离。
具体地,由步骤S52可知,目标优化码本到每个类别码本均得到一个欧式距离,容易理解地,最后获取的欧式距离总数与分组的总数一致,将这些欧式距离进行比较,获取数值最小的欧式距离,作为目标欧氏距离。
例如,在一具体实施方式中,共分了10个组,即10个基础声纹特征集,每个基础声纹特征集对应存在1个类别码本,分别计算目标优化码本到每个类别码本的欧式距离,得到10个欧式距离,从这些欧式距离中选出数值最小的欧氏距离作为目标欧式距离。
S54:获取目标欧式距离对应的类别码本所在的分组,将该分组作为当前外呼组别。
具体地,由步骤S42可知,每个类别码本对应一个分组,获取目标欧式距离对应的分组,将该分组作为当前的外呼组别。
S55:根据对应关系,确定当前外呼组别对应的当前呼叫权限,作为待识别坐席员的呼叫权限。
具体地,根据步骤S3中确定的外呼组别与呼叫权限之间的对应关系,获取当前外呼组别对应的呼叫权限,将该权限作为待识别的坐席员的呼叫权限。
在图6对应的实施例中,通过将目标声纹特征进行预处理,得到目标声纹特征的目标优化码本,进而计算目标优化码本到每个类别码本的欧式距离,并从所有欧式距离中选取数值最小的欧氏距离,作为目标欧氏距离,再获取目标欧式距离对应的类别码本所在的分组,将该分组作为当前外呼组别,根据分组与呼叫权限的对应关系,确定当前外呼组别对应的当前呼叫权限,作为待识别坐席员的呼叫权限。从而实现了实时快速的对当前外呼进行权限的认定,有利于实现实时监控,有效提高监控的实时性和坐席呼叫的呼叫质量。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
实施例2
对应于实施例1中的声纹识别方法,图7示出了与实施例1提供的声纹识别方法一一对应的声纹识别装置,为了便于说明,仅示出了与本发明实施例相关的部分。
如图7所示,该声纹识别装置包括:坐席权限分组模块10、声纹特征采集模块20、识别模型构建模块30、目标特征获取模块40、呼叫权限确定模块50和实时语音预警模块60。各功能模块详细说明如下:
坐席权限分组模块10,用于获取数据库中每个坐席员的呼叫权限,并根据预设的权限分组方式,将每个坐席员分配到呼叫权限对应的分组中;
声纹特征采集模块20,用于针对每个分组,对该分组中的每个坐席员进行声纹特征采集,得到该分组的基础声纹特征集;
识别模型构建模块30,用于对每个基础声纹特征集中的声纹特征进行训练,得到每个基础声纹特征集的综合声纹特征,并基于分组、呼叫权限和综合声纹特征之间的对应关系,构建动态声纹识别模型;
目标特征获取模块40,用于若检测到待识别坐席员的呼叫操作,则获取被呼叫客户的客户级别和待识别坐席员的语音数据,并对该语音数据进行声纹特征提取,得到目标声纹特征;
呼叫权限确定模块50,用于基于动态声纹识别模型,对目标声纹特征进行识别,确定待识别坐席员的呼叫权限;
实时语音预警模块60,用于若待识别坐席员的呼叫权限不满足客户级别的要求,则执行预设的预警处理措施。
进一步地,声纹特征采集模块20包括:
初始声纹获取单元21,用于针对每个分组中的每个坐席员,获取该坐席员对预设的多个不同语料进行朗读的录音样本,并对该录音样本进行声纹解析,得到该坐席员的初始声纹样本;
声纹加重处理单元22,用于对初始声纹样本进行预加重处理,生成具有平坦频谱的加重处理声纹样本;
初始语音帧生成单元23,用于采用分帧和加窗的方式,对加重处理声纹样本进行分帧处理,得到初始语音帧;
目标语音帧获取单元24,用于对初始语音帧信号进行静默音分离,得到目标语音帧;
声纹特征提取单元25,用于基于目标语音帧,提取声纹特征;
声纹特征集整合单元26,用于在每个分组中,将该分组中每个坐席员的声纹特征组成该分组的基础声纹特征集。
优选地,声纹特征提取单元25包括:
目标线性预测系数递推子单元251,用于使用莱文森-德宾算法目标语音帧的预测误差计算公式(F1)中的线性预测系数进行预测,并根据预测结果确定目标线性预测系数a′1,a′2,...,a′p
其中,e(n)为预测误差,为目标语音帧序列的预测值,n为目标语音帧序列包含的总点数,s(n-i)为目标语音帧序列在前n-i个点的取值总和,ai为目标语音帧序列中第i点的线性预测系数,p为预设的线性预测的阶数,i∈[1,p],n为正整数;
线性预测倒谱系数计算子单元252,用于根据目标线性预测系数,按照公式(F2)计算目标语音帧的线性预测倒谱系数,并将线性预测倒谱系数作为声纹特征:
其中,为线性预测倒谱系数。
进一步地,识别模型构建模块30包括:
特征码本优化单元31,用于针对每个基础声纹特征集,采用遗传算法对该基础声纹特征集中的声纹特征进行优化,得到该基础声纹特征集对应的码本集;
类别码本训练单元32,用于针对第x个基础声纹特征集,获取该基础声纹特征集对应的码本集内的码本总数q,在该码本集中任意选取k个码本作为训练样本,将该训练样本的码本矩阵按对应位取算术平均值得到类别码本Dx,将该类别码本Dx作为第x个分组的基础声纹特征集的综合声纹特征,其中k∈[1,q],x和q为正整数。
进一步地,呼叫权限确定模块50包括:
目标优化码本获取单元51,用于将目标声纹特征进行预处理,得到目标声纹特征的目标优化码本;
欧氏距离计算单元52,用于按照公式(F3)计算目标优化码本到每个类别码本的欧式距离:
其中,ρj(A,Dj)为目标优化码本A到第j个类别码本Dj的欧式距离,at为目标优化码本A中第t个编码序列特征,bt为类别码本Dj中第t个编码序列特征,j∈[1,J],J为基础声纹特征集的个数;
目标欧式距离选取单元53,用于从n个欧式距离中选取数值最小的欧氏距离,作为目标欧氏距离;
当前外呼组别确定单元54,用于获取目标欧式距离对应的类别码本所在的分组,将该分组作为当前外呼组别;
当前呼叫权限获取单元55,用于根据对应关系,确定当前外呼组别对应的当前呼叫权限,作为待识别坐席员的呼叫权限。
本实施例提供的一种声纹识别装置中各模块实现各自功能的过程,具体可参考前述实施例1的描述,此处不再赘述。
实施例3
本实施例提供一计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现实施例1中声纹识别方法,或者,该计算机程序被处理器执行时实现实施例2中声纹识别装置中各模块/单元的功能。为避免重复,这里不再赘述。
可以理解地,所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号和电信信号等。
实施例4
图8是本发明一实施例提供的终端设备的示意图。如图8所示,该实施例的终端设备80包括:处理器81、存储器82以及存储在存储器82中并可在处理器81上运行的计算机程序83,例如声纹识别程序。处理器81执行计算机程序83时实现上述各个声纹识别方法实施例中的步骤,例如图1所示的步骤S1至步骤S6。或者,处理器81执行计算机程序83时实现上述各装置实施例中各模块/单元的功能,例如图7所示模块10至模块60的功能。
示例性的,计算机程序83可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器82中,并由处理器81执行,以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序83在终端设备80中的执行过程。例如,计算机程序83可以被分割成坐席权限分组模块、声纹特征采集模块、识别模型构建模块、目标特征获取模块、呼叫权限确定模块和实时语音预警模块,各模块的具体功能如实施例2所示,为避免重复,此处不一一赘述。
终端设备80可以是计算机、服务器等计算设备。终端设备80可包括,但不仅限于,处理器81、存储器82。本领域技术人员可以理解,图8仅仅是终端设备80的示例,并不构成对终端设备80的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如终端设备80还可以包括输入输出设备、网络接入设备、总线等。
所称处理器81可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器82可以是终端设备80的内部存储单元,例如终端设备80的硬盘或内存。存储器82也可以是终端设备80的外部存储设备,例如终端设备80上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器82还可以既包括终端设备80的内部存储单元也包括外部存储设备。存储器82用于存储计算机程序以及终端设备80所需的其他程序和数据。存储器82还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种声纹识别方法,其特征在于,所述声纹识别方法包括:
获取数据库中每个坐席员的呼叫权限,并根据预设的权限分组方式,将每个所述坐席员分配到所述呼叫权限对应的分组中;
针对每个所述分组,对该分组中的每个所述坐席员进行声纹特征采集,得到该分组的基础声纹特征集;
对每个所述基础声纹特征集中的声纹特征进行训练,得到每个所述基础声纹特征集的综合声纹特征,并基于所述分组、所述呼叫权限和所述综合声纹特征之间的声纹对应关系,构建动态声纹识别模型;
若检测到待识别坐席员的呼叫操作,则获取被呼叫客户的客户级别和所述待识别坐席员的语音数据,并对所述语音数据进行声纹特征提取,得到目标声纹特征;
基于所述动态声纹识别模型,对所述目标声纹特征进行识别,确定所述待识别坐席员的呼叫权限;
若所述待识别坐席员的呼叫权限不满足所述客户级别的要求,则执行预设的预警处理措施。
2.如权利要求1所述的声纹识别方法,其特征在于,所述针对每个所述分组,对该分组中的每个所述坐席员进行声纹特征采集,得到该分组的基础声纹特征集,包括:
针对每个所述分组中的每个所述坐席员,获取该坐席员对预设的多个不同语料进行朗读的录音样本,并对所述录音样本进行声纹解析,得到该坐席员的初始声纹样本;
对所述初始声纹样本进行预加重处理,生成具有平坦频谱的加重处理声纹样本;
采用分帧和加窗的方式,对所述加重处理声纹样本进行分帧处理,得到初始语音帧;
对所述初始语音帧信号进行静默音分离,得到目标语音帧;
基于所述目标语音帧,提取声纹特征;
在每个所述分组中,将该分组中每个所述坐席员的所述声纹特征组成该分组的所述基础声纹特征集。
3.如权利要求2所述的声纹识别方法,其特征在于,所述基于所述目标语音帧,提取声纹特征,包括:
使用莱文森-德宾算法对所述目标语音帧的预测误差的计算公式(F1)中的线性预测系数进行预测,并根据预测结果确定目标线性预测系数a′1,a′2,...,a′p
其中,e(n)为所述预测误差,为所述目标语音帧序列的预测值,n为所述目标语音帧序列包含的总点数,s(n-i)为所述目标语音帧序列在前n-i个点的取值总和,ai为所述目标语音帧序列中第i点的线性预测系数,p为预设的线性预测的阶数,i∈[1,p],n为正整数;
根据所述目标线性预测系数,按照公式(F2)计算所述目标语音帧的线性预测倒谱系数,并将所述线性预测倒谱系数作为所述声纹特征:
其中,为所述线性预测倒谱系数。
4.如权利要求1所述的声纹识别方法,其特征在于,所述对每个所述基础声纹特征集中的声纹特征进行训练,得到每个所述基础声纹特征集的综合声纹特征,包括:
针对每个所述基础声纹特征集,采用遗传算法对该基础声纹特征集中的声纹特征进行优化,得到该基础声纹特征集对应的码本集;
针对第x个所述基础声纹特征集,获取该基础声纹特征集对应的所述码本集内的码本总数q,在该码本集中任意选取k个码本作为训练样本,将所述训练样本的码本矩阵按对应位取算术平均值得到类别码本Dx,将该类别码本Dx作为第x个分组的基础声纹特征集的综合声纹特征,其中k∈[1,q],x和q为正整数。
5.如权利要求4所述的声纹识别方法,其特征在于,所述基于所述动态声纹识别模型,对所述目标声纹特征进行识别,确定所述待识别坐席员的呼叫权限,包括:
将所述目标声纹特征进行预处理,得到所述目标声纹特征的目标优化码本;
按照公式(F3)计算所述目标优化码本到每个所述类别码本的欧式距离:
其中,ρj(A,Dj)为目标优化码本A到第j个所述类别码本Dj的欧式距离,at为目标优化码本A中第t个编码序列特征,bt为所述类别码本Dj中第t个编码序列特征,j∈[1,J],J为所述基础声纹特征集的个数;
从J个所述欧式距离中选取数值最小的欧氏距离,作为目标欧氏距离;
获取所述目标欧式距离对应的类别码本所在的分组,将该分组作为当前外呼组别;
根据所述对应关系,确定所述当前外呼组别对应的当前呼叫权限,作为所述待识别坐席员的呼叫权限。
6.一种声纹识别装置,其特征在于,所述声纹识别装置包括:
坐席权限分组模块,用于获取数据库中每个坐席员的呼叫权限,并根据预设的权限分组方式,将每个所述坐席员分配到所述呼叫权限对应的分组中;
声纹特征采集模块,用于针对每个所述分组,对该分组中的每个所述坐席员进行声纹特征采集,得到该分组的基础声纹特征集;
识别模型构建模块,用于对每个所述基础声纹特征集中的声纹特征进行训练,得到每个所述基础声纹特征集的综合声纹特征,并基于所述分组、所述呼叫权限和所述综合声纹特征之间的声纹对应关系,构建动态声纹识别模型;
目标特征获取模块,用于若检测到待识别坐席员的呼叫操作,则获取被呼叫客户的客户级别和所述待识别坐席员的语音数据,并对所述语音数据进行声纹特征提取,得到目标声纹特征;
呼叫权限确定模块,用于基于所述动态声纹识别模型,对所述目标声纹特征进行识别,确定所述待识别坐席员的呼叫权限;
实时语音预警模块,用于若所述待识别坐席员的呼叫权限不满足所述客户级别的要求,则执行预设的预警处理措施。
7.如权利要求6所述的声纹识别装置,其特征在于,声纹特征采集模块,包括:
初始声纹获取单元,用于针对每个所述分组中的每个所述坐席员,获取该坐席员对预设的多个不同语料进行朗读的录音样本,并对所述录音样本进行声纹解析,得到该坐席员的初始声纹样本;
声纹加重处理单元,用于对所述初始声纹样本进行预加重处理,生成具有平坦频谱的加重处理声纹样本;
初始语音帧生成单元,用于采用分帧和加窗的方式,对所述加重处理声纹样本进行分帧处理,得到初始语音帧;
目标语音帧获取单元,用于对所述初始语音帧信号进行静默音分离,得到目标语音帧;
声纹特征提取单元,用于基于所述目标语音帧,提取声纹特征;
声纹特征集整合单元,用于在每个所述分组中,将该分组中每个所述坐席员的所述声纹特征组成该分组的所述基础声纹特征集。
8.如权利要求6所述的声纹识别装置,其特征在于,所述声纹特征提取单元,包括:
目标线性预测系数递推子单元,用于使用莱文森-德宾算法对所述目标语音帧的预测误差的计算公式(F1)中的线性预测系数进行预测,并根据预测结果确定目标线性预测系数a′1,a′2,...,a′p
其中,e(n)为所述预测误差,为所述目标语音帧序列的预测值,n为所述目标语音帧序列包含的总点数,s(n-i)为所述目标语音帧序列在前n-i个点的取值总和,ai为所述目标语音帧序列中第i点的线性预测系数,p为预设的线性预测的阶数,i∈[1,p],n为正整数;
线性预测倒谱系数计算子单元,用于根据所述目标线性预测系数,按照公式(F2)计算所述目标语音帧的线性预测倒谱系数,并将所述线性预测倒谱系数作为所述声纹特征:
其中,为所述线性预测倒谱系数。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述声纹识别方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述声纹识别方法的步骤。
CN201810528518.0A 2018-05-29 2018-05-29 一种声纹识别方法、装置、终端设备及存储介质 Active CN108900725B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201810528518.0A CN108900725B (zh) 2018-05-29 2018-05-29 一种声纹识别方法、装置、终端设备及存储介质
US16/626,320 US10878823B2 (en) 2018-05-29 2018-07-03 Voiceprint recognition method, device, terminal apparatus and storage medium
PCT/CN2018/094374 WO2019227583A1 (zh) 2018-05-29 2018-07-03 一种声纹识别方法、装置、终端设备及存储介质
JP2019563563A JP6792089B2 (ja) 2018-05-29 2018-07-03 声紋認識方法、装置、端末機器および記憶媒体
SG11201912620YA SG11201912620YA (en) 2018-05-29 2018-07-03 Voiceprint recognition method, device, terminal apparatus and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810528518.0A CN108900725B (zh) 2018-05-29 2018-05-29 一种声纹识别方法、装置、终端设备及存储介质

Publications (2)

Publication Number Publication Date
CN108900725A true CN108900725A (zh) 2018-11-27
CN108900725B CN108900725B (zh) 2020-05-29

Family

ID=64343304

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810528518.0A Active CN108900725B (zh) 2018-05-29 2018-05-29 一种声纹识别方法、装置、终端设备及存储介质

Country Status (5)

Country Link
US (1) US10878823B2 (zh)
JP (1) JP6792089B2 (zh)
CN (1) CN108900725B (zh)
SG (1) SG11201912620YA (zh)
WO (1) WO2019227583A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109817224A (zh) * 2019-02-22 2019-05-28 深圳云游四海信息科技有限公司 一种语音敏感词监督系统和方法
CN110246502A (zh) * 2019-06-26 2019-09-17 广东小天才科技有限公司 语音降噪方法、装置及终端设备
CN110472097A (zh) * 2019-07-03 2019-11-19 平安科技(深圳)有限公司 乐曲自动分类方法、装置、计算机设备和存储介质
CN110738998A (zh) * 2019-09-11 2020-01-31 深圳壹账通智能科技有限公司 基于语音的个人信用评估方法、装置、终端及存储介质
CN110931022A (zh) * 2019-11-19 2020-03-27 天津大学 基于高低频动静特征的声纹识别方法
CN111105783A (zh) * 2019-12-06 2020-05-05 中国人民解放军61623部队 一种基于人工智能的综合客服系统
CN111131635A (zh) * 2019-12-20 2020-05-08 中国银行股份有限公司 一种数据请求的语音确认方法及装置
CN112099628A (zh) * 2020-09-08 2020-12-18 平安科技(深圳)有限公司 基于人工智能的vr互动方法、装置、计算机设备及介质
CN113064983A (zh) * 2021-04-23 2021-07-02 深圳壹账通智能科技有限公司 语义检测方法、装置、计算机设备及存储介质
CN113436634A (zh) * 2021-07-30 2021-09-24 中国平安人寿保险股份有限公司 基于声纹识别的语音分类方法、装置及相关设备

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021058988A1 (en) * 2019-09-26 2021-04-01 KOVÁCS, Kinga Combat drone with coordinated transmitter and receiver
CN111310836B (zh) * 2020-02-20 2023-08-18 浙江工业大学 一种基于声谱图的声纹识别集成模型的防御方法及防御装置
CN111933147B (zh) * 2020-06-22 2023-02-14 厦门快商通科技股份有限公司 声纹识别方法、系统、移动终端及存储介质
CN112802498B (zh) * 2020-12-29 2023-11-24 深圳追一科技有限公司 语音检测方法、装置、计算机设备和存储介质
CN112967718B (zh) * 2021-04-02 2024-04-12 深圳吉祥星科技股份有限公司 基于声音的投影仪控制方法、装置、设备及存储介质
WO2024026375A1 (en) * 2022-07-26 2024-02-01 Johnson Controls Tyco IP Holdings LLP Access control to secured locations using relaxed biometrics
CN115831152B (zh) * 2022-11-28 2023-07-04 国网山东省电力公司应急管理中心 一种用于实时监测应急装备发电机运行状态的声音监测装置及方法
CN115687334B (zh) * 2023-01-05 2023-05-16 粤港澳大湾区数字经济研究院(福田) 数据质检方法、装置、设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030228007A1 (en) * 2002-06-10 2003-12-11 Fujitsu Limited Caller identifying method, program, and apparatus and recording medium
CN1798197A (zh) * 2004-12-20 2006-07-05 北京佳讯飞鸿电气有限责任公司 限制VoIP业务异地出局的实现方法
US20080312925A1 (en) * 2007-06-13 2008-12-18 Peeyush Jaiswal System and Method for Implementing Voice Print-Based Priority Call Routing
CN103024217A (zh) * 2011-09-23 2013-04-03 中兴通讯股份有限公司 一种实现客服业务的方法及客服系统
CN103825931A (zh) * 2013-11-29 2014-05-28 中邮科通信技术股份有限公司 一种基于云呼叫中心的客户关系管理系统
CN106169121A (zh) * 2016-07-06 2016-11-30 上海携程商务有限公司 呼叫中心的座席分层方法及系统
CN107104803A (zh) * 2017-03-31 2017-08-29 清华大学 一种基于数字口令与声纹联合确认的用户身份验证方法
CN107181880A (zh) * 2017-05-31 2017-09-19 商客通尚景科技江苏有限公司 一种差异化的呼叫中心人工服务系统
CN107181851A (zh) * 2017-04-25 2017-09-19 上海与德科技有限公司 通话控制方法及装置
CN107659739A (zh) * 2016-08-23 2018-02-02 平安科技(深圳)有限公司 名单分配方法和装置
US20180090148A1 (en) * 2008-10-06 2018-03-29 International Business Machines Corporation Method and system for using conversational biometrics and speaker identification/verification to filter voice streams

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002514318A (ja) * 1997-01-31 2002-05-14 ティ―ネティックス,インコーポレイテッド 録音された音声を検出するシステムおよび方法
JPH11175599A (ja) * 1997-12-11 1999-07-02 Hitachi Ltd 作業引継支援システム
US7269580B2 (en) * 2000-10-03 2007-09-11 Celcorp, Inc. Application integration system and method using intelligent agents for integrating information access over extended networks
JP2009071403A (ja) * 2007-09-11 2009-04-02 Fujitsu Fsas Inc オペレータ受付監視・切替システム
JP5066642B2 (ja) * 2007-09-26 2012-11-07 株式会社野村総合研究所 顧客対応支援装置
EP2622832B1 (en) * 2010-09-30 2019-03-13 British Telecommunications public limited company Speech comparison
CN102625005A (zh) * 2012-03-05 2012-08-01 广东天波信息技术股份有限公司 具有服务质量实时监督功能的呼叫中心系统及其实现方法
CN103701999B (zh) * 2012-09-27 2017-03-01 中国电信股份有限公司 呼叫中心语音通话的监控方法与系统
US10134401B2 (en) * 2012-11-21 2018-11-20 Verint Systems Ltd. Diarization using linguistic labeling
US9237232B1 (en) * 2013-03-14 2016-01-12 Verint Americas Inc. Recording infrastructure having biometrics engine and analytics service
US9236052B2 (en) * 2013-06-20 2016-01-12 Bank Of America Corporation Utilizing voice biometrics
US9728191B2 (en) * 2015-08-27 2017-08-08 Nuance Communications, Inc. Speaker verification methods and apparatus
CN105244031A (zh) * 2015-10-26 2016-01-13 北京锐安科技有限公司 说话人识别方法和装置
CN106453979A (zh) * 2016-10-17 2017-02-22 上海携程商务有限公司 呼叫中心的外呼控制方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030228007A1 (en) * 2002-06-10 2003-12-11 Fujitsu Limited Caller identifying method, program, and apparatus and recording medium
CN1798197A (zh) * 2004-12-20 2006-07-05 北京佳讯飞鸿电气有限责任公司 限制VoIP业务异地出局的实现方法
US20080312925A1 (en) * 2007-06-13 2008-12-18 Peeyush Jaiswal System and Method for Implementing Voice Print-Based Priority Call Routing
US20180090148A1 (en) * 2008-10-06 2018-03-29 International Business Machines Corporation Method and system for using conversational biometrics and speaker identification/verification to filter voice streams
CN103024217A (zh) * 2011-09-23 2013-04-03 中兴通讯股份有限公司 一种实现客服业务的方法及客服系统
CN103825931A (zh) * 2013-11-29 2014-05-28 中邮科通信技术股份有限公司 一种基于云呼叫中心的客户关系管理系统
CN106169121A (zh) * 2016-07-06 2016-11-30 上海携程商务有限公司 呼叫中心的座席分层方法及系统
CN107659739A (zh) * 2016-08-23 2018-02-02 平安科技(深圳)有限公司 名单分配方法和装置
CN107104803A (zh) * 2017-03-31 2017-08-29 清华大学 一种基于数字口令与声纹联合确认的用户身份验证方法
CN107181851A (zh) * 2017-04-25 2017-09-19 上海与德科技有限公司 通话控制方法及装置
CN107181880A (zh) * 2017-05-31 2017-09-19 商客通尚景科技江苏有限公司 一种差异化的呼叫中心人工服务系统

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109817224A (zh) * 2019-02-22 2019-05-28 深圳云游四海信息科技有限公司 一种语音敏感词监督系统和方法
CN110246502A (zh) * 2019-06-26 2019-09-17 广东小天才科技有限公司 语音降噪方法、装置及终端设备
CN110472097A (zh) * 2019-07-03 2019-11-19 平安科技(深圳)有限公司 乐曲自动分类方法、装置、计算机设备和存储介质
CN110738998A (zh) * 2019-09-11 2020-01-31 深圳壹账通智能科技有限公司 基于语音的个人信用评估方法、装置、终端及存储介质
CN110931022B (zh) * 2019-11-19 2023-09-15 天津大学 基于高低频动静特征的声纹识别方法
CN110931022A (zh) * 2019-11-19 2020-03-27 天津大学 基于高低频动静特征的声纹识别方法
CN111105783A (zh) * 2019-12-06 2020-05-05 中国人民解放军61623部队 一种基于人工智能的综合客服系统
CN111131635A (zh) * 2019-12-20 2020-05-08 中国银行股份有限公司 一种数据请求的语音确认方法及装置
CN111131635B (zh) * 2019-12-20 2020-11-10 中国银行股份有限公司 一种数据请求的语音确认方法及装置
CN112099628A (zh) * 2020-09-08 2020-12-18 平安科技(深圳)有限公司 基于人工智能的vr互动方法、装置、计算机设备及介质
CN113064983A (zh) * 2021-04-23 2021-07-02 深圳壹账通智能科技有限公司 语义检测方法、装置、计算机设备及存储介质
CN113064983B (zh) * 2021-04-23 2024-04-26 深圳壹账通智能科技有限公司 语义检测方法、装置、计算机设备及存储介质
CN113436634A (zh) * 2021-07-30 2021-09-24 中国平安人寿保险股份有限公司 基于声纹识别的语音分类方法、装置及相关设备
CN113436634B (zh) * 2021-07-30 2023-06-20 中国平安人寿保险股份有限公司 基于声纹识别的语音分类方法、装置及相关设备

Also Published As

Publication number Publication date
JP6792089B2 (ja) 2020-11-25
US10878823B2 (en) 2020-12-29
SG11201912620YA (en) 2020-01-30
US20200118571A1 (en) 2020-04-16
CN108900725B (zh) 2020-05-29
JP2020525817A (ja) 2020-08-27
WO2019227583A1 (zh) 2019-12-05

Similar Documents

Publication Publication Date Title
CN108900725A (zh) 一种声纹识别方法、装置、终端设备及存储介质
CN102509547B (zh) 基于矢量量化的声纹识别方法及系统
US10176811B2 (en) Neural network-based voiceprint information extraction method and apparatus
Muda et al. Voice recognition algorithms using mel frequency cepstral coefficient (MFCC) and dynamic time warping (DTW) techniques
US8731936B2 (en) Energy-efficient unobtrusive identification of a speaker
CN109767752A (zh) 一种基于注意力机制的语音合成方法及装置
CN110265040A (zh) 声纹模型的训练方法、装置、存储介质及电子设备
CN102324232A (zh) 基于高斯混合模型的声纹识别方法及系统
Aggarwal et al. Performance evaluation of sequentially combined heterogeneous feature streams for Hindi speech recognition system
EP1280137B1 (en) Method for speaker identification
Chakroborty et al. Fusion of a complementary feature set with MFCC for improved closed set text-independent speaker identification
JPH08123484A (ja) 信号合成方法および信号合成装置
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
CN110246518A (zh) 基于多粒度动静态融合特征的语音情感识别方法、装置、系统及存储介质
Sarangi et al. A novel approach in feature level for robust text-independent speaker identification system
Fraile et al. Mfcc-based remote pathology detection on speech transmitted through the telephone channel-impact of linear distortions: Band limitation, frequency response and noise
Kabir et al. Vector quantization in text dependent automatic speaker recognition using mel-frequency cepstrum coefficient
Singh et al. Features and techniques for speaker recognition
Khan et al. Performance evaluation of PBDP based real-time speaker identification system with normal MFCC vs MFCC of LP residual features
Tsai et al. Bird Species Identification Based on Timbre and Pitch Features of Their Vocalization.
CN113990288B (zh) 一种语音客服自动生成部署语音合成模型的方法
Mittal et al. Age approximation from speech using Gaussian mixture models
Upadhyay et al. Analysis of different classifier using feature extraction in speaker identification and verification under adverse acoustic condition for different scenario
US20210166722A1 (en) A system for determining an emotional state of a subject
CN106971725A (zh) 一种具有优先级的声纹识方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant