CN114023334A - 说话人识别方法、装置、计算机设备和存储介质 - Google Patents
说话人识别方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN114023334A CN114023334A CN202111308545.5A CN202111308545A CN114023334A CN 114023334 A CN114023334 A CN 114023334A CN 202111308545 A CN202111308545 A CN 202111308545A CN 114023334 A CN114023334 A CN 114023334A
- Authority
- CN
- China
- Prior art keywords
- feature
- voice
- target
- features
- target voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000000605 extraction Methods 0.000 claims abstract description 99
- 230000033764 rhythmic process Effects 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 159
- 230000006378 damage Effects 0.000 claims description 136
- 238000012549 training Methods 0.000 claims description 106
- 238000011084 recovery Methods 0.000 claims description 62
- 238000013145 classification model Methods 0.000 claims description 39
- 238000012360 testing method Methods 0.000 claims description 26
- 238000009826 distribution Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 11
- 208000027418 Wounds and injury Diseases 0.000 claims description 3
- 208000014674 injury Diseases 0.000 claims description 3
- 230000001755 vocal effect Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 230000035772 mutation Effects 0.000 description 6
- 230000006735 deficit Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000007477 logistic regression Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 210000001260 vocal cord Anatomy 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013475 authorization Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 210000003477 cochlea Anatomy 0.000 description 2
- 238000001035 drying Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010429 evolutionary process Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 239000003471 mutagenic agent Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种说话人识别方法、装置、计算机设备和存储介质。所述方法包括:获取待进行说话人识别的目标语音;对所述目标语音进行质量特征提取,得到所述目标语音对应的目标嗓音质量特征,以及对所述目标语音进行韵律特征提取,得到所述目标语音对应的目标语音韵律特征;基于所述目标嗓音质量特征以及所述目标语音韵律特征进行声纹特征提取,提取得到目标声纹特征;基于所述目标声纹特征识别得到所述目标语音对应的说话人身份。采用本方法能够提高说话人识别准确度。
Description
技术领域
本申请涉及语音识别技术领域,特别是涉及一种说话人识别方法、装置、计算机设备和存储介质。
背景技术
随着语音技术的飞速发展和广泛应用,存在很多需要进行说话人确认的场景。例如可以进行声纹识别,确定说话人的身份,当身份验证成功,则允许用户进行登录。
目前,可以采用声纹识别模型对语音进行说话人识别,然而,经常存在利用声纹识别模型识别得到的结果与正确的识别结果相差比较大的情况,导致说话人识别效果差。
发明内容
基于此,有必要针对上述技术问题,提供一种说话人识别方法、装置、计算机设备和存储介质。
一种说话人识别方法,所述方法包括:获取待进行说话人识别的目标语音;对所述目标语音进行质量特征提取,得到所述目标语音对应的目标嗓音质量特征,以及对所述目标语音进行韵律特征提取,得到所述目标语音对应的目标语音韵律特征;基于所述目标嗓音质量特征以及所述目标语音韵律特征进行声纹特征提取,提取得到目标声纹特征;基于所述目标声纹特征识别得到所述目标语音对应的说话人身份。
一种说话人识别装置,所述装置包括:目标语音获取模块,用于获取待进行说话人识别的目标语音;第一特征提取模块,用于对所述目标语音进行质量特征提取,得到所述目标语音对应的目标嗓音质量特征,以及对所述目标语音进行韵律特征提取,得到所述目标语音对应的目标语音韵律特征;目标声纹特征提取模块,用于基于所述目标嗓音质量特征以及所述目标语音韵律特征进行声纹特征提取,提取得到目标声纹特征;说话人识别模块,用于基于所述目标声纹特征识别得到所述目标语音对应的说话人身份。
在一个实施例中,所述第一特征提取模块,用于:确定已训练的嗓音损伤分类模型,所述嗓音损伤分类模型包括已训练的损伤特征提取层以及已训练的损伤程度分类层;将所述目标语音输入到所述嗓音损伤分类模型中,利用所述损伤特征提取层进行特征提取,并跳过所述损伤程度分类层,将提取得到的语音损伤特征作为所述目标语音对应的目标嗓音质量特征。
在一个实施例中,训练得到所述嗓音损伤分类模型的模块用于:获取训练语音以及所述训练语音对应的损伤程度标签;将所述训练语音输入到待训练的损伤特征提取层对所述训练语音进行特征提取,得到训练提取特征;将所述训练提取特征输入到待训练的损伤程度分类层进行损伤程度预测,得到候选损伤程度对应的概率分布;基于候选损伤程度对应的概率分布以及所述损伤程度标签对应的概率分布的差异得到模型损失值,所述模型损失值与所述差异成正相关关系;基于所述模型损失值对待训练的损伤特征提取层以及待训练的损伤程度分类层进行参数调整,得到已训练的损伤特征提取层以及已训练的损伤程度分类层。
在一个实施例中,所述第一特征提取模块,用于:确定已训练的嗓音恢复分类模型,所述嗓音恢复分类模型包括已训练的恢复特征提取层以及已训练的恢复程度分类层;将所述目标语音输入到所述嗓音恢复分类模型中进行处理,利用所述恢复特征提取层进行特征提取,并跳过所述恢复程度分类层,将提取得到的语音恢复特征作为所述目标语音对应的目标嗓音质量特征。
在一个实施例中,所述目标声纹特征是通过目标声纹识别模型提取得到的,通过目标特征类型集合中各个目标特征类型对应的特征对所述声纹识别模型进行训练;得到所述目标特征类型集合的模块包括:候选特征类型集合获取模块,用于获取候选特征类型集合;所述候选特征类型集合包括多个嗓音质量类型分别对应的特征类型以及多个语音韵律类型分别对应的特征类型;当前特征类型选取向量生成模块,用于获取所述候选特征类型集合对应的特征类型数量,生成特征维度为所述特征类型数量的多个当前特征类型选取向量,所述多个当前特征类型选取向量组成当前轮次的当前特征类型选取向量集合;所述当前特征类型选取向量中的特征数值表示所在位置对应的候选特征类型的被选取度;不同当前特征类型选取向量中,相同位置对应的候选特征类型一致;进化模块,用于对所述当前特征类型选取向量集合中的当前特征类型选取向量分别进行进化处理,得到进化后的进化特征类型选取向量;选取模块,用于基于所述进化特征类型选取向量对应的第一声纹识别准确度以及所述当前特征类型选取向量对应的第二声纹识别准确度,从所述进化特征类型选取向量以及所述当前特征类型选取向量中选取得到下一轮次的选取向量,直至得到满足声纹识别准确度条件的目标特征类型选取向量;目标特征类型集合得到模块,用于基于所述目标特征类型选取向量从所述候选特征类型集合中选取得到目标特征类型,组成所述目标特征类型集合。
在一个实施例中,得到所述进化特征类型选取向量对应的第一声纹识别准确度以及所述当前特征类型选取向量对应的第二声纹识别准确度的步骤包括:将基于所述当前特征类型选取向量从所述候选特征类型集合中选取得到的特征集合,作为第一特征类型集合;将基于所述进化特征类型选取向量从所述候选特征类型集合中选取得到的特征类型集合,作为第二特征类型集合;
获取所述第一特征类型集合的各个第一特征类型,获取所述训练用户在所述第一特征类型所对应的特征,各个所述第一特征类型所对应的特征组成所述训练用户对应的第一特征集合;获取所述第二特征类型集合的各个第二特征类型,获取所述训练用户在所述第二特征类型所对应的特征,各个所述第二特征类型所对应的特征组成所述训练用户对应的第二特征集合;获取所述第一特征集合对应的所述第一声纹识别准确度以及所述第二特征集合对应的所述第二声纹识别准确度。
在一个实施例中,所述获取所述第一特征集合对应的所述第一声纹识别准确度以及所述第二特征集合对应的所述第二声纹识别准确度包括:基于所述第一特征集合训练得到的第一声纹识别模型,以及基于所述第二特征集合训练得到的第二声纹识别模型;将测试用户对应的测试语音输入到所述第一声纹识别模型中进行声纹识别,基于识别结果得到所述第一声纹识别准确度;将所述测试用户对应的测试语音输入到所述第二声纹识别模型中进行声纹识别,基于识别结果得到所述第二声纹识别准确度。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取待进行说话人识别的目标语音;对所述目标语音进行质量特征提取,得到所述目标语音对应的目标嗓音质量特征,以及对所述目标语音进行韵律特征提取,得到所述目标语音对应的目标语音韵律特征;基于所述目标嗓音质量特征以及所述目标语音韵律特征进行声纹特征提取,提取得到目标声纹特征;基于所述目标声纹特征识别得到所述目标语音对应的说话人身份。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取待进行说话人识别的目标语音;对所述目标语音进行质量特征提取,得到所述目标语音对应的目标嗓音质量特征,以及对所述目标语音进行韵律特征提取,得到所述目标语音对应的目标语音韵律特征;基于所述目标嗓音质量特征以及所述目标语音韵律特征进行声纹特征提取,提取得到目标声纹特征;基于所述目标声纹特征识别得到所述目标语音对应的说话人身份。
上述说话人识别方法、装置、计算机设备和存储介质,获取待进行说话人识别的目标语音;对目标语音进行质量特征提取,得到目标语音对应的目标嗓音质量特征,以及对目标语音进行韵律特征提取,得到目标语音对应的目标语音韵律特征;基于目标嗓音质量特征以及目标语音韵律特征进行声纹特征提取,提取得到目标声纹特征;基于目标声纹特征识别得到目标语音对应的说话人身份。由于嗓音质量特征是反应用户的嗓音质量的特征,是具有识别力的特征,而韵律特征能够反应用户说话的韵律,故结合嗓音质量特征以及韵律特征进行声纹识别,能够提高声纹识别特征的适用性和鲁棒性,提高了说话人识别的准确度。
附图说明
图1为一个实施例中说话人识别方法的应用环境图;
图2为一个实施例中说话人识别方法的流程示意图;
图3为一个实施例中得到GFCC提特征的流程示意图;
图4为一个实施例中训练得到嗓音损伤分类模型步骤的流程示意图;
图5为一个实施例中得到目标特征类型集合步骤的流程示意图;
图6为一个实施例中得到进化特征类型选取向量对应的第一声纹识别准确度以及当前特征类型选取向量对应的第二声纹识别准确度步骤的流程示意图;
图7为一个实施例中说话人识别装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据以及分析的数据等,例如语音数据),均为经用户授权或者经过各方充分授权的信息和数据;对应的,本公开还提供有相应的用户授权入口,供用户选择授权或者选择拒绝。
本申请提供的说话人识别方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。终端可以录制用户发出的目标语音,并向服务器发送身份验证请求,身份验证请求携带用户标识以及目标语音。服务器可以基于目标语音执行本申请实施例提供的说话人识别方法,以确认该目标语音是否是用户标识对应的用户发出的,如果是,则可以向终端发送身份验证通过的消息。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本申请实施例提高的说话人识别方法,可以应用在金融交易领域,例如在移动支付中,用于辅助验证用户的身份,以提高身份验证的安全性。
在一个实施例中,如图2所示,提供了一种说话人识别方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S202,获取待进行说话人识别的目标语音。
其中,说话人识别是指识别说话人的身份,例如识别该语音是不是特定用户发出的。目标语音可以是终端实时采集得到的,也可以是服务器预先存储的。
具体地,终端可以向服务器发送待进行说话人识别的目标语音,服务器接收到该目标语音。例如当终端需要辅助身份验证时,则可以向服务器发送待进行说话人识别的目标语音。
在一个实施例中,当需要采用生物识别技术进行身份验证时,终端可以是当确认人脸识别和指纹识别验证失败时,确定采用声音辅助身份验证的方式进行验证,并实时采集用户的语音,向服务器发送实时采集的语音。
步骤S204,对目标语音进行质量特征提取,得到目标语音对应的目标嗓音质量特征;以及对目标语音进行韵律特征提取,得到目标语音对应的目标语音韵律特征。
嗓音质量特征是反应用户的嗓音质量的特征,例如可以包括语音损伤特征或者语音恢复特征的至少一个。语音损伤特征是用于确定语音损伤程度的特征,语音恢复特征是用于确定语音恢复程度的特征。语音损伤特征例如可以是用基频微扰(Jitter)值或者振幅微扰值来表示。基频微扰表示嗓音信号相邻周期之间基频的微小变化。例如声带干燥会对基频微扰值以及振幅微扰值造成影响,因此基频微扰值以及振幅微扰值可以反映声带干燥的特性,即声带损伤的特性。
韵律特征主要反映语音信号时域分布、语调和重音的特点,由于不同人的发音器官和相关肌肉的机能不同,会使得声音强度和音调各不相同。其中共振峰对音质具有决定作用,并且反映了声道的物理特性,前两个共振峰经常被认为与声道打开/关闭和前/后维度相对应;基音频率则决定整个音的音高,该频率与单个声带的长度、厚度、韧度、强度和发音习惯有关,韵律特征可以反映个体的声音特征。韵律特征例如可以是利用已训练得到的韵律特征提取模型提取得到的。
具体地,服务器可以先对目标语音进行预处理,再分别进行质量特征提取以及韵律特征提取,以提高特征提取的准确度。预处理可以包括去噪和分帧加窗。例如使用谱减法对语音信号进行降噪处理,目的是去除语音背景中的稳定噪声成分;随后对语音信号进行预加重,进行预加重的目的是为了去除口唇辐射的影响,增加语音的高频分辨率;之后再对处理后的语音信号进行分帧加窗,由于语音信号整体上可能是不稳定的,但局部上可以看做是稳定,因此对语音信号进行帧处理,将其分割成多个10-30ms(毫秒)的子片段,可以近似认为信号是稳定的;同时为了避免相邻两帧之间的间隔,在截取时需要使用一定的帧位移进行重叠截取;而通过加窗能够解决对语音进行切割后的不连贯性问题,使整体更连续,
步骤S206,基于目标嗓音质量特征以及目标语音韵律特征进行声纹特征提取,提取得到目标声纹特征。
具体地,得到目标嗓音质量特征以及目标语音韵律特征后,将这些特征作为一个组合,输入到目标声纹识别模型的特征提取层继续进行特征提取,以结合这些特征提取得到一个可以表示用户的声纹特性的特征。
在一个实施例中,还可以结合人耳听觉特征进行声纹特征提取,以得到目标声纹特征,例如将人耳听觉特征、目标嗓音质量特征以及目标语音韵律特征作为一个组合特征进行声纹特征提取。人耳听觉特征也可以是对目标语音进行预处理后提取的,其中人耳听觉特征是基于人耳耳蜗特性的特征。可以包括基于Mel倒普系数(梅尔频率倒谱)的MFCC(Mel-Frequency Cepstral Coefficients)特征和基于Gammatone滤波器的GFCC(Gammatone Frequency Cepstral Coefficient)特征的至少一个。其中,Gammatone滤波器是一组用来模拟耳蜗频率分解特点的滤波器模型,可以用于音频信号的分解。
在一个实施例中,GFCC特征的提取流程可以如图3所示,在目标语音经过预处理后,可以对每一帧信号进行快速傅里叶变换(FFF),将语音信号由时域变为频域,再通过Gammatone滤波器组进行滤波处理,随后对滤波器的输出进行离散余弦变换(DCT),最终得到GFCC特征参数,从而提高了GFCC特征的鲁棒性。
步骤S208,基于目标声纹特征识别得到目标语音对应的说话人身份。
具体地,得到声纹特性的特征后,将这些特征输入到目标声纹识别模型的说话人识别层进行说话人确认,以确定该目标语音是否是终端对应的用户发出的。声纹识别模型例如可以是逻辑回归模型,输出的是二分类结果,例如输出该目标语音是终端对应的用户发出的概率以及不是用户发出的概率,当是终端对应的用户发出的概率大于预设概率阈值时,则确定目标语音是终端对应的用户发出的。
上述说话人识别方法中,获取待进行说话人识别的目标语音;对目标语音进行质量特征提取,得到目标语音对应的目标嗓音质量特征,以及对目标语音进行韵律特征提取,得到目标语音对应的目标语音韵律特征;基于目标嗓音质量特征以及目标语音韵律特征进行声纹特征提取,提取得到目标声纹特征;基于目标声纹特征识别得到目标语音对应的说话人身份。由于嗓音质量特征是反应用户的嗓音质量的特征,是具有识别力的特征,而韵律特征能够反应用户说话的韵律,故结合嗓音质量特征以及韵律特征进行声纹识别,能够提高声纹识别特征的适用性和鲁棒性,故提高了说话人识别的准确度。
在一个实施例中,对目标语音进行质量特征提取,得到目标语音对应的目标嗓音质量特征包括:确定已训练的嗓音损伤分类模型,嗓音损伤分类模型包括已训练的损伤特征提取层以及已训练的损伤程度分类层;将目标语音输入到嗓音损伤分类模型中,利用损伤特征提取层进行特征提取,并跳过损伤程度分类层,将提取得到的语音损伤特征作为目标语音对应的目标嗓音质量特征。
其中,嗓音损伤分类模型是预先训练得到的人工智能模型,例如可以是基于深度学习的语音识别模型,用于识别损伤程度。损伤特征提取层用于对语音进行特征提取,以提取得到表示嗓音损伤的特征。损伤程度分类层用于对损伤程度进行识别,确定该用户嗓音所对应的损伤程度,候选损伤程度可以包括多个等级,例如可以包括未损伤、损伤一级以及损伤二级等,损伤程度分类层可以输出候选损伤程度对应的概率,可以从中选取得到概率最大的损伤程度,作为识别得到的损伤程度。在训练得到嗓音损伤分类模型后,可以使用嗓音损伤分类模型中的损伤特征提取层进行特征的提取,且不进行分类,从而保证得到的特征是可以用于识别损伤程度的提取特征,即是特征向量,例如是基于深度学习得到的特征,而不是分类的结果,即不是损伤程度。
在一个实施例中,嗓音损伤分类模型是基于训练语音以及训练语音对应的损伤程度标签训练得到的,如图4所示,训练得到嗓音损伤分类模型的步骤包括:
步骤S402,获取训练语音以及训练语音对应的损伤程度标签。
训练语音是指用于进行训练的语音,训练语音对应的损伤程度标签可以是人工标注的,代表的是该训练语音对应的正确的损伤程度,例如损伤程度标签可以是未损伤、损伤一级或者损伤二级中的一个。训练语音可以有多个,每个训练语音对应有损伤程度标签。
步骤S404,将训练语音输入到待训练的损伤特征提取层对训练语音进行特征提取,得到训练提取特征。
待训练的损伤特征提取层是指需要进行参数调整的损伤特征提取层,例如损伤特征提取层可以对训练语音进行卷积处理,得到训练提取特征。
步骤S406,将训练提取特征输入到待训练的损伤程度分类层进行损伤程度预测,得到候选损伤程度对应的概率分布。
其中,待训练的损伤程度分类层是需要进行参数调整的损伤程度分类层。损伤程度分类层基于训练提取特征可以输出多个候选损伤程度对应的概率,即候选损伤程度对应的概率分布,例如可以输出损伤程度为未损伤的概率、损伤一级的概率以及损伤二级的概率。
步骤S408,基于候选损伤程度对应的概率分布以及损伤程度标签对应的概率分布的差异得到模型损失值,模型损失值与差异成正相关关系。
具体地,损伤程度标签对应的概率分布为:该损伤程度标签对应的候选损伤程度的概率为1,非损伤程度标签对应的候选损伤程度的概率为0。例如,假设损伤程度标签为未损伤对应的标签,则未损伤对应的概率为1,损伤一级的概率为0以及损伤二级的概率为0。
得到基于候选损伤程度对应的概率分布以及损伤程度标签对应的概率分布后,可以基于交叉熵等损失计算公式计算得到模型损失值,两个概率分布之间的差异越大,则计算得到的模型损失值越大。
步骤S410,基于模型损失值对待训练的损伤特征提取层以及待训练的损伤程度分类层进行参数调整,得到已训练的损伤特征提取层以及已训练的损伤程度分类层。
可以朝着使损失值变小的方向依次对待训练的损伤程度分类层以及待训练的损伤特征提取层进行模型参数的反向梯度调整,可以理解,上述步骤S402~S410可以执行多次,直至已训练的损伤特征提取层以及已训练的损伤程度分类层收敛,收敛的条件可以是训练次数达到次数阈值或者模型损失值小于损失值阈值的至少一个。
本申请实施例中,通过训练语音以及训练语音对应的损伤程度标签进行模型的训练,可以使得训练得到的损伤程度分类层提取得到的特征是能够表示特征损伤程度的特征,提高了损伤程度特征的提取准确度。
在一个实施例中,对目标语音进行质量特征提取,得到目标语音对应的目标嗓音质量特征包括:确定已训练的嗓音恢复分类模型,嗓音恢复分类模型包括已训练的恢复特征提取层以及已训练的恢复程度分类层;将目标语音输入到嗓音恢复分类模型中进行处理,利用恢复特征提取层进行特征提取,并跳过恢复程度分类层,将提取得到的语音恢复特征作为目标语音对应的目标嗓音质量特征。
其中,嗓音恢复分类模型是预先训练得到的人工智能模型,例如可以是基于深度学习的语音识别模型。恢复特征提取层用于对语音进行特征提取,以提取得到表示语音恢复的特征。恢复程度分类层用于对恢复程度进行识别,确定该用户所对应的恢复程度,候选恢复程度可以包括多个等级,例如可以包括未恢复、恢复程度一般以及恢复程度好,恢复程度分类层可以输出候选恢复程度对应的概率,可以从中选取概率最大的恢复程度,作为识别得到的恢复程度。在训练得到嗓音恢复分类模型后,可以使用嗓音恢复分类模型中的恢复特征提取层进行特征的提取,从而保证得到的特征是可以用于识别恢复程度的特征。
在一个实施例中,训练得到嗓音恢复分类模型的步骤包括:获取训练语音以及训练语音对应的恢复程度标签;将训练语音输入到待训练的恢复特征提取层对训练语音进行特征提取,得到训练提取特征;将训练提取特征输入到待训练的恢复程度分类层进行恢复程度预测,得到候选恢复程度对应的概率分布;基于候选恢复程度对应的概率分布以及恢复程度标签对应的概率分布的差异得到模型损失值,模型损失值与差异成正相关关系;基于模型损失值对待训练的恢复特征提取层以及待训练的恢复程度分类层进行参数调整,得到已训练的恢复特征提取层以及已训练的恢复程度分类层。
其中,对如何训练得到嗓音恢复分类模型的原理与如何训练得到嗓音损伤分类模型的原理一致,可以参考步骤S402~S410的描述,在此不再赘述。
在一个实施例中,目标声纹特征是通过目标声纹识别模型提取得到的,通过目标特征类型集合中各个目标特征类型对应的特征对声纹识别模型进行训练。即用于对目标声纹识别模型进行训练的特征是目标特征类型对应的特征。
如图5所示,得到目标特征类型集合的步骤包括:
步骤S502,获取候选特征类型集合;候选特征类型集合包括多个嗓音质量类型分别对应的特征类型以及多个语音韵律类型分别对应的特征类型。
特征类型是指特征的类型,采用不同的方式提取得到的特征属于不同的类型,例如嗓音质量特征,可以分为振幅微扰类型以及基频微扰类型。又或者是,损伤特征提取层可以提取得到多个特征,一个特征对应一个类型。语音韵律特征也可以分为音调特征类型以及重音特征类型,又或者,音调特征类型也可以有多种类型,如音调特征提取层可以提取得到多个特征,一个特征对应一个类型。候选特征类型集合包括多个候选特征类型。例如,可以预先确定几百种候选特征类型,然后从中进行特征类型选择,选取得到一组训练效果好的目标特征类型,组成目标特征类型集合。举个例子,嗓音质量特征、韵律特征以及听觉特征有很多,需要从中选取使得训练得到的声纹识别模型效果好的特征类型组合,组合这些特征类型对应的特征来对声纹识别模型进行训练,从而提高训练效果。
步骤S504,获取候选特征类型集合对应的特征类型数量,生成特征维度为特征类型数量的多个当前特征类型选取向量,多个当前特征类型选取向量组成当前轮次的当前特征类型选取向量集合。
其中,当前特征类型选取向量中的特征数值表示所在位置对应的候选特征类型的被选取度;不同当前特征类型选取向量中,相同位置对应的候选特征类型一致。
其中,特征类型数量是指候选特征类型集合中的特征类型的数量。例如,假设候选特征类型集合中有100个特征类型,则特征类型数量为100个。向量的维度是指向量中向量值的个数。特征类型选取向量代表的是特征选取策略。特征类型选取向量中的值代表的是该值对应的候选特征类型被选取的可能度,例如可以是1或者0,如果是1,代表该候选特征类型被选中,如果是0,则代表不选取该候选特征类型。举个例子,假设特征类型数量为5个,则可以生成一个包括5个向量值的选取特征向量(1,0,1,1,0),该向量表示对应的特征选取策略为:第1个、第3以及第4个候选特征类型将会被选取,第2以及第5个候选特征类型将不会被选取。
不同当前特征类型选取向量中,相同位置对应的候选特征类型一致是指:每个候选特征类型,在不同的选取向量中其所对应的向量值的位置是一致的。例如,假设有两个特征选取向量,则向量中第二个位置对应的向量值均是第二个候选特征类型所对应的向量值。
在进行特征选择时,可以采用遗传进化算法例如差分演化算法进行进化,一轮一轮的进化特征选取策略,即一轮一轮的进化特征选取向量,因此当前特征类型选取向量集合是指当前进化轮次的选取向量集合。其中,对于初始的特征选取向量集合,则可以是随机生成的。一个轮次的特征选取向量集合代表当前代的种群。
例如,对于声纹识别模型的分类准确率待优化的问题,进化是为了寻找以下公式的极大值,其中,h(f1,f2,......,fd)是指声纹识别模型的分类准确度,(f1,f2,......,fd)是。Max是指求极大值。D是特征类型选取向量的维数。
maxh(f1,f2,……,fD)
步骤S506,对当前特征类型选取向量集合中的当前特征类型选取向量分别进行进化处理,得到进化后的进化特征类型选取向量。
其中,进化处理可以包括变异操作以及交叉操作。变异操作可以是将至少两个选取特征向量之间的值进行相减,相减后得到的向量还可以与另外的选取特征向量进行相加,得到变异向量。交叉操作是指将两个选取特征向量之间相同位置的向量值进行交换,得到交换后的特征向量。
例如,可以采用二进制编码方式初始化种群,二进制编码方式得到的二进制向量是指:特征类型选取向量中的向量值为二进制数值,即为0或者1,可以以N个D维的二进制向量组成每一代种群,其中每一个特征类型选取向量表示如下,N的大小为根据需要设置,例如可以时候10个,Fi,g是指第g代(即第g个轮次)的第i个特征类型选取向量,fi,D,g为0表示这个位置对应的特征类型不被选中,1表示这个位置对应的特征类型被选中,g表示种群代数。D为候选特征类型集合对应的特征类型数量。
在进行变异操作时,因为使用二进制种群,所以问题转换为在{0,1}n离散域上的搜索,因此使用一种无参数二进制变异算子进行变异操作。变异操作如下所示:
fv,i,g=|fr1,j,g-fr2,j,g|
其中fv,j,g是两个来自不同个体向量中的元素差的绝对值形成的变异参数。vi,j,g为变异后向量个体中的向元素,元素是指向量值。r0,r1和r2为{1,2,…N}中不等于i的三个不同的随机整数。
在在变异之后,可以再进行交叉操作,交叉后选取向量未进化特征类型选取向量,其中还可以根据交叉概率CR决定个体是否发生交叉,交叉操作对应的公式如下,
其中vi,j,g为交叉后向量个体中的元素,rand是[0,1]之间的随机数,jr是[1,D]之间的随机整数。CR是预设的阈值。
步骤S508,基于进化特征类型选取向量对应的第一声纹识别准确度以及当前特征类型选取向量对应的第二声纹识别准确度,从进化特征类型选取向量以及当前特征类型选取向量中选取得到下一轮次的选取向量,直至得到满足声纹识别准确度条件的目标特征类型选取向量。
进化特征类型选取向量对应的第一声纹识别准确度是指:采用该进化特征类型选取向量所对应的特征选取策略选取得到特征集合,基于该特征集合训练得到的声纹识别模型的识别准确度。当前特征类型选取向量对应的第二声纹识别准确度是指:采用该当前特征类型选取向量所对应的特征选取策略选取得到特征集合,基于该特征集合训练得到的声纹识别模型的识别准确度。即可以比较进化前的特征选取向量以及进化后的特征选取向量的模型训练效果,选取得到下一代种群,可以理解,可以是进行多个轮次的种群进化,直至得到满足准确度条件的目标特征类型选取向量或者进化次数达到阈值,进化结束后,可以将准确度确度大于预设准确度阈值或者准确度最大的特征类型选取向量作为目标特征类型选取向量,从而搜索出优化的特征选择策略。
其中选取得到下一轮次的选取向量的过程可以称为选择操作,选择操作的公式可以表示如下:
其中,h(Ui,g)是指进化特征类型选取向量Ui,g对应的第一声纹识别准确度,h(Fi,g)指当前特征类型选取向量Fi,g对应的第一声纹识别准确度,Fi,g+1指下一代种群的特征类型选取向量。即如果第一声纹识别准确度大于等于第二声纹识别准确度,则选取进化特征类型选取向量Ui,g作为下一轮次的选取向量,否则,选取当前特征类型选取向量Fi,g作为下一轮次的选取向量。其中,声纹识别模型可以是逻辑回归模型,例如可以使用逻辑回归的分类精度作为准确度值,根据准确度值的大小决定子代个体和变异后的目标个体是否可以进入下一代。
步骤S510,基于目标特征类型选取向量从候选特征类型集合中选取得到目标特征类型,组成目标特征类型集合。
目标特征类型选取向量中的向量值为0或者1,如果是1,则该向量值所在位置的候选特征类型将会选中为目标特征类型,目标特征类型集合中可以包括多个目标特征类型。例如,假设目标特征类型选取向量为(1,1,1,0,0),表示第1个、第2以及第3个候选特征类型将会被选取为目标特征类型。
本申请实施例中,通过对特征类型选取向量表征特征选择策略进行进化,并在进化后基于对应的声纹识别准确度选取得到更好的特征类型选取向量,从而在特征类型选取向量进化完成后,能够得到优化后的特征选择策略进行特征选择,提高了特征选择的效率以及准确度。
在一个实施例中,如图6所示,得到进化特征类型选取向量对应的第一声纹识别准确度以及当前特征类型选取向量对应的第二声纹识别准确度的步骤包括:
步骤S602,将基于当前特征类型选取向量从候选特征类型集合中选取得到的特征集合,作为第一特征类型集合。
可以基于当前特征类型选取向量中的向量值,确定该向量值所在位置对应的候选特征类型是否被选取,如果是,则加入到第一特征类型集合中。
步骤S604,将基于进化特征类型选取向量从候选特征类型集合中选取得到的特征类型集合,作为第二特征类型集合。
可以基于进化特征类型选取向量中的向量值,确定该向量值所在位置对应的候选特征类型是否被选取,如果是,则加入到第二特征类型集合中。
步骤S606,获取第一特征类型集合的各个第一特征类型,获取训练用户在第一特征类型所对应的特征,各个第一特征类型所对应的特征组成训练用户对应的第一特征集合。
训练用户是指要其语音用于训练第一声纹识别模型以及第二声纹识别模型的用户。得到第一特征类型集合后,可以获取该第一特征类型集合中的特征类型,选取训练用户在该特征类型上的特征,组成该用户对应的第一特征集合。举个例子,假设得到的第一特征类型集合包括特征类型A、C以及D,则可以获取该训练用户的语音在特征类型A上的特征,在特征类型C上的特征以及特征类型D上的特征,组成第一特征集合。
步骤S608,获取第二特征类型集合的各个第二特征类型,获取训练用户在第二特征类型所对应的特征,各个第二特征类型所对应的特征组成训练用户对应的第二特征集合。
得到第二特征类型集合后,可以获取该第二特征类型集合中的特征类型,选取训练用户在该特征类型上的特征,组成该用户对应的第二特征集合。举个例子,假设得到的第一特征类型集合包括特征类型A、B以及E,则可以获取该训练用户的语音在特征类型A上的特征,在特征类型B上的特征以及特征类型B上的特征,组成第二特征集合。
步骤S610,获取第一特征集合对应的第一声纹识别准确度以及第二特征集合对应的第二声纹识别准确度。
具体地,可以利用第一特征集合进行模型训练,训练得到第一声纹识别模型。可以利用第二特征集合进行模型训练,训练得到第二声纹识别模型。然后获取第一声纹识别模型的识别精度,作为第一声纹识别准确度。获取第一二声纹识别模型的识别精度,作为第二声纹识别准确度。
在一个实施例中,获取第一特征集合对应的第一声纹识别准确度以及第二特征集合对应的第二声纹识别准确度包括:基于第一特征集合训练得到的第一声纹识别模型,以及基于第二特征集合训练得到的第二声纹识别模型;将测试用户对应的测试语音输入到第一声纹识别模型中进行声纹识别,基于识别结果得到第一声纹识别准确度;将测试用户对应的测试语音输入到第二声纹识别模型中进行声纹识别,基于识别结果得到第二声纹识别准确度。
测试用户与训练用户可以为同一用户,第一声纹识别模型以及第二声纹识别模型可以是进行多次训练得到的,第一声纹识别模型以及第二声纹识别模型的训练策略是一致的,例如训练次数以及模型的结构均是一致的,不同的是特征集合的不同,第一声纹识别模型采用的是第一特征集合,第二声纹识别模型采用的是第二特征集合,以保证识别准确度只受于所选取的特征集合的影响。
在得到第一声纹识别模型以及第二声纹识别模型之后,可以将同一个训练用户的测试语音分别输入到第一声纹识别模型以及第二声纹识别模型,第一声纹识别模型输出该测试语音为测试用户的语音的概率,将该概率作为第一声纹识别准确度,第二声纹识别模型输出该测试语音为测试用户的语音的概率,将该概率作为第二声纹识别准确度。也可以是统计身份识别准确的用户的数量,以及测试用户的总数量,将身份识别准确的用户的数量除以测试用户的总数量,将得到的比值作为声纹识别准确度。
本申请实施例中,通过采用相同训练用户,不同特征类型集合对应的特征集合分别训练得到声纹模型模型,采用声纹模型的声纹识别准确度选取特征选择策略,能够使得选取得到的特征类型选取向量是适用于训练得到目标声纹识别模型的,且可以基于测试语音的测试结果确定准确度,提高了特征选取的准确度。
以下对特征选择的步骤进行总体举例:在训练前,可以对训练用户的语音进行采集,根据获取的语音信号,进行批量的信号降噪、特征提取以及归一化,得到一组包含语音样本信息的特征向量,然后生成特征类型选取向量,对特征类型选取向量进行进化,如进行交叉、变异和选择,并可以使用基于逻辑回归的声纹识别模型的分类精度选取进入下一代种群的特征类型选取向量,最后经过多轮进化,选取得到目标特征类型选取向量,基于该目标特征类型选取向量所选取的特征类型对应的特征向量训练声纹识别模型,得到目标声纹识别模型。
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图7所示,提供了一种说话人识别装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:
目标语音获取模块702,用于获取待进行说话人识别的目标语音;
第一特征提取模块704,用于对目标语音进行质量特征提取,得到目标语音对应的目标嗓音质量特征,以及对目标语音进行韵律特征提取,得到目标语音对应的目标语音韵律特征;
目标声纹特征提取模块706,用于基于目标嗓音质量特征以及目标语音韵律特征进行声纹特征提取,提取得到目标声纹特征;
说话人识别模块708,用于基于目标声纹特征识别得到目标语音对应的说话人身份。
在一个实施例中,第一特征提取模块,用于:确定已训练的嗓音损伤分类模型,嗓音损伤分类模型包括已训练的损伤特征提取层以及已训练的损伤程度分类层;将目标语音输入到嗓音损伤分类模型中,利用损伤特征提取层进行特征提取,并跳过损伤程度分类层,将提取得到的语音损伤特征作为目标语音对应的目标嗓音质量特征。
在一个实施例中,训练得到嗓音损伤分类模型的模块用于:获取训练语音以及训练语音对应的损伤程度标签;将训练语音输入到待训练的损伤特征提取层对训练语音进行特征提取,得到训练提取特征;将训练提取特征输入到待训练的损伤程度分类层进行损伤程度预测,得到候选损伤程度对应的概率分布;基于候选损伤程度对应的概率分布以及损伤程度标签对应的概率分布的差异得到模型损失值,模型损失值与差异成正相关关系;基于模型损失值对待训练的损伤特征提取层以及待训练的损伤程度分类层进行参数调整,得到已训练的损伤特征提取层以及已训练的损伤程度分类层。
在一个实施例中,第一特征提取模块,用于:确定已训练的嗓音恢复分类模型,嗓音恢复分类模型包括已训练的恢复特征提取层以及已训练的恢复程度分类层;将目标语音输入到嗓音恢复分类模型中进行处理,利用恢复特征提取层进行特征提取,并跳过恢复程度分类层,将提取得到的语音恢复特征作为目标语音对应的目标嗓音质量特征。
在一个实施例中,目标声纹特征是通过目标声纹识别模型提取得到的,通过目标特征类型集合中各个目标特征类型对应的特征对声纹识别模型进行训练;得到目标特征类型集合的模块包括:候选特征类型集合获取模块,用于获取候选特征类型集合;候选特征类型集合包括多个嗓音质量类型分别对应的特征类型以及多个语音韵律类型分别对应的特征类型;当前特征类型选取向量生成模块,用于获取候选特征类型集合对应的特征类型数量,生成特征维度为特征类型数量的多个当前特征类型选取向量,多个当前特征类型选取向量组成当前轮次的当前特征类型选取向量集合;当前特征类型选取向量中的特征数值表示所在位置对应的候选特征类型的被选取度;不同当前特征类型选取向量中,相同位置对应的候选特征类型一致;进化模块,用于对当前特征类型选取向量集合中的当前特征类型选取向量分别进行进化处理,得到进化后的进化特征类型选取向量;选取模块,用于基于进化特征类型选取向量对应的第一声纹识别准确度以及当前特征类型选取向量对应的第二声纹识别准确度,从进化特征类型选取向量以及当前特征类型选取向量中选取得到下一轮次的选取向量,直至得到满足声纹识别准确度条件的目标特征类型选取向量;目标特征类型集合得到模块,用于基于目标特征类型选取向量从候选特征类型集合中选取得到目标特征类型,组成目标特征类型集合。
在一个实施例中,得到进化特征类型选取向量对应的第一声纹识别准确度以及当前特征类型选取向量对应的第二声纹识别准确度的步骤包括:将基于当前特征类型选取向量从候选特征类型集合中选取得到的特征集合,作为第一特征类型集合;将基于进化特征类型选取向量从候选特征类型集合中选取得到的特征类型集合,作为第二特征类型集合;
获取第一特征类型集合的各个第一特征类型,获取训练用户在第一特征类型所对应的特征,各个第一特征类型所对应的特征组成训练用户对应的第一特征集合;获取第二特征类型集合的各个第二特征类型,获取训练用户在第二特征类型所对应的特征,各个第二特征类型所对应的特征组成训练用户对应的第二特征集合;获取第一特征集合对应的第一声纹识别准确度以及第二特征集合对应的第二声纹识别准确度。
在一个实施例中,获取第一特征集合对应的第一声纹识别准确度以及第二特征集合对应的第二声纹识别准确度包括:基于第一特征集合训练得到的第一声纹识别模型,以及基于第二特征集合训练得到的第二声纹识别模型;将测试用户对应的测试语音输入到第一声纹识别模型中进行声纹识别,基于识别结果得到第一声纹识别准确度;将测试用户对应的测试语音输入到第二声纹识别模型中进行声纹识别,基于识别结果得到第二声纹识别准确度。
关于说话人识别装置的具体限定可以参见上文中对于说话人识别方法的限定,在此不再赘述。上述说话人识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储说话人识别数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种说话人识别方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种说话人识别方法,其特征在于,所述方法包括:
获取待进行说话人识别的目标语音;
对所述目标语音进行质量特征提取,得到所述目标语音对应的目标嗓音质量特征,以及对所述目标语音进行韵律特征提取,得到所述目标语音对应的目标语音韵律特征;
基于所述目标嗓音质量特征以及所述目标语音韵律特征进行声纹特征提取,提取得到目标声纹特征;
基于所述目标声纹特征识别得到所述目标语音对应的说话人身份。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标语音进行质量特征提取,得到所述目标语音对应的目标嗓音质量特征包括:
确定已训练的嗓音损伤分类模型,所述嗓音损伤分类模型包括已训练的损伤特征提取层以及已训练的损伤程度分类层;
将所述目标语音输入到所述嗓音损伤分类模型中,利用所述损伤特征提取层进行特征提取,并跳过所述损伤程度分类层,将提取得到的语音损伤特征作为所述目标语音对应的目标嗓音质量特征。
3.根据权利要求2所述的方法,其特征在于,训练得到所述嗓音损伤分类模型的步骤包括:
获取训练语音以及所述训练语音对应的损伤程度标签;
将所述训练语音输入到待训练的损伤特征提取层对所述训练语音进行特征提取,得到训练提取特征;
将所述训练提取特征输入到待训练的损伤程度分类层进行损伤程度预测,得到候选损伤程度对应的概率分布;
基于候选损伤程度对应的概率分布以及所述损伤程度标签对应的概率分布的差异得到模型损失值,所述模型损失值与所述差异成正相关关系;
基于所述模型损失值对待训练的损伤特征提取层以及待训练的损伤程度分类层进行参数调整,得到已训练的损伤特征提取层以及已训练的损伤程度分类层。
4.根据权利要求1所述的方法,其特征在于,所述对所述目标语音进行质量特征提取,得到所述目标语音对应的目标嗓音质量特征包括:
确定已训练的嗓音恢复分类模型,所述嗓音恢复分类模型包括已训练的恢复特征提取层以及已训练的恢复程度分类层;
将所述目标语音输入到所述嗓音恢复分类模型中进行处理,利用所述恢复特征提取层进行特征提取,并跳过所述恢复程度分类层,将提取得到的语音恢复特征作为所述目标语音对应的目标嗓音质量特征。
5.根据权利要求1所述的方法,其特征在于,所述目标声纹特征是通过目标声纹识别模型提取得到的,通过目标特征类型集合中各个目标特征类型对应的特征对所述声纹识别模型进行训练;
得到所述目标特征类型集合的步骤包括:
获取候选特征类型集合;所述候选特征类型集合包括多个嗓音质量类型分别对应的特征类型以及多个语音韵律类型分别对应的特征类型;
获取所述候选特征类型集合对应的特征类型数量,生成特征维度为所述特征类型数量的多个当前特征类型选取向量,所述多个当前特征类型选取向量组成当前轮次的当前特征类型选取向量集合;所述当前特征类型选取向量中的特征数值表示所在位置对应的候选特征类型的被选取度;不同当前特征类型选取向量中,相同位置对应的候选特征类型一致;
对所述当前特征类型选取向量集合中的当前特征类型选取向量分别进行进化处理,得到进化后的进化特征类型选取向量;
基于所述进化特征类型选取向量对应的第一声纹识别准确度以及所述当前特征类型选取向量对应的第二声纹识别准确度,从所述进化特征类型选取向量以及所述当前特征类型选取向量中选取得到下一轮次的选取向量,直至得到满足声纹识别准确度条件的目标特征类型选取向量;
基于所述目标特征类型选取向量从所述候选特征类型集合中选取得到目标特征类型,组成所述目标特征类型集合。
6.根据权利要求5所述的方法,其特征在于,得到所述进化特征类型选取向量对应的第一声纹识别准确度以及所述当前特征类型选取向量对应的第二声纹识别准确度的步骤包括:
将基于所述当前特征类型选取向量从所述候选特征类型集合中选取得到的特征集合,作为第一特征类型集合;
将基于所述进化特征类型选取向量从所述候选特征类型集合中选取得到的特征类型集合,作为第二特征类型集合;
获取所述第一特征类型集合的各个第一特征类型,获取所述训练用户在所述第一特征类型所对应的特征,各个所述第一特征类型所对应的特征组成所述训练用户对应的第一特征集合;
获取所述第二特征类型集合的各个第二特征类型,获取所述训练用户在所述第二特征类型所对应的特征,各个所述第二特征类型所对应的特征组成所述训练用户对应的第二特征集合;
获取所述第一特征集合对应的所述第一声纹识别准确度以及所述第二特征集合对应的所述第二声纹识别准确度。
7.根据权利要求6所述的方法,其特征在于,所述获取所述第一特征集合对应的所述第一声纹识别准确度以及所述第二特征集合对应的所述第二声纹识别准确度包括:
基于所述第一特征集合训练得到的第一声纹识别模型,以及基于所述第二特征集合训练得到的第二声纹识别模型;
将测试用户对应的测试语音输入到所述第一声纹识别模型中进行声纹识别,基于识别结果得到所述第一声纹识别准确度;
将所述测试用户对应的测试语音输入到所述第二声纹识别模型中进行声纹识别,基于识别结果得到所述第二声纹识别准确度。
8.一种说话人识别装置,其特征在于,所述装置包括:
目标语音获取模块,用于获取待进行说话人识别的目标语音;
第一特征提取模块,用于对所述目标语音进行质量特征提取,得到所述目标语音对应的目标嗓音质量特征,以及对所述目标语音进行韵律特征提取,得到所述目标语音对应的目标语音韵律特征;
目标声纹特征提取模块,用于基于所述目标嗓音质量特征以及所述目标语音韵律特征进行声纹特征提取,提取得到目标声纹特征;
说话人识别模块,用于基于所述目标声纹特征识别得到所述目标语音对应的说话人身份。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111308545.5A CN114023334A (zh) | 2021-11-05 | 2021-11-05 | 说话人识别方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111308545.5A CN114023334A (zh) | 2021-11-05 | 2021-11-05 | 说话人识别方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114023334A true CN114023334A (zh) | 2022-02-08 |
Family
ID=80061604
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111308545.5A Pending CN114023334A (zh) | 2021-11-05 | 2021-11-05 | 说话人识别方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114023334A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1299126A (zh) * | 2001-01-16 | 2001-06-13 | 北京大学 | 采用基频成分相位差和发声时参量的声纹鉴定方法 |
CN104835498A (zh) * | 2015-05-25 | 2015-08-12 | 重庆大学 | 基于多类型组合特征参数的声纹识别方法 |
CN104900235A (zh) * | 2015-05-25 | 2015-09-09 | 重庆大学 | 基于基音周期混合特征参数的声纹识别方法 |
CN109036436A (zh) * | 2018-09-18 | 2018-12-18 | 广州势必可赢网络科技有限公司 | 一种声纹数据库建立方法、声纹识别方法、装置及系统 |
CN111684444A (zh) * | 2019-07-18 | 2020-09-18 | 深圳海付移通科技有限公司 | 一种身份验证方法、终端设备、存储介质 |
-
2021
- 2021-11-05 CN CN202111308545.5A patent/CN114023334A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1299126A (zh) * | 2001-01-16 | 2001-06-13 | 北京大学 | 采用基频成分相位差和发声时参量的声纹鉴定方法 |
CN104835498A (zh) * | 2015-05-25 | 2015-08-12 | 重庆大学 | 基于多类型组合特征参数的声纹识别方法 |
CN104900235A (zh) * | 2015-05-25 | 2015-09-09 | 重庆大学 | 基于基音周期混合特征参数的声纹识别方法 |
CN109036436A (zh) * | 2018-09-18 | 2018-12-18 | 广州势必可赢网络科技有限公司 | 一种声纹数据库建立方法、声纹识别方法、装置及系统 |
CN111684444A (zh) * | 2019-07-18 | 2020-09-18 | 深圳海付移通科技有限公司 | 一种身份验证方法、终端设备、存储介质 |
WO2021007856A1 (zh) * | 2019-07-18 | 2021-01-21 | 深圳海付移通科技有限公司 | 一种身份验证方法、终端设备、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Balamurali et al. | Toward robust audio spoofing detection: A detailed comparison of traditional and learned features | |
JP7173974B2 (ja) | ディープニューラルネットワークを使用する端末間話者認識 | |
CN110310647B (zh) | 一种语音身份特征提取器、分类器训练方法及相关设备 | |
CN109065028A (zh) | 说话人聚类方法、装置、计算机设备及存储介质 | |
CN112992126B (zh) | 语音真伪的验证方法、装置、电子设备及可读存储介质 | |
US10706856B1 (en) | Speaker recognition using deep learning neural network | |
CN108922543B (zh) | 模型库建立方法、语音识别方法、装置、设备及介质 | |
Agrawal et al. | Prosodic feature based text dependent speaker recognition using machine learning algorithms | |
CN111613230A (zh) | 声纹验证方法、装置、设备及存储介质 | |
Dimaunahan et al. | MFCC and VQ voice recognition based ATM security for the visually disabled | |
KR102026226B1 (ko) | 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템 | |
Karthikeyan | Adaptive boosted random forest-support vector machine based classification scheme for speaker identification | |
CN117275129B (zh) | 一种基于物联网的语音结合人脸识别的门禁系统 | |
Al-Karawi et al. | Using combined features to improve speaker verification in the face of limited reverberant data | |
CN111968650B (zh) | 语音匹配方法、装置、电子设备及存储介质 | |
Revathi et al. | Person authentication using speech as a biometric against play back attacks | |
Panda et al. | Study of speaker recognition systems | |
CN114023334A (zh) | 说话人识别方法、装置、计算机设备和存储介质 | |
Hassan et al. | Enhancing speaker identification through reverberation modeling and cancelable techniques using ANNs | |
Nguyen et al. | Vietnamese speaker authentication using deep models | |
CN113327618A (zh) | 声纹判别方法、装置、计算机设备和存储介质 | |
KR100917419B1 (ko) | 화자 인식 시스템 | |
Büker et al. | Deep convolutional neural networks for double compressed AMR audio detection | |
Pani et al. | Voice Morphing: Two Identities in One Voice | |
Ahmad et al. | Client-wise cohort set selection by combining speaker-and phoneme-specific I-vectors for speaker verification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |