CN113035202B - 一种身份识别方法和装置 - Google Patents

一种身份识别方法和装置 Download PDF

Info

Publication number
CN113035202B
CN113035202B CN202110122528.6A CN202110122528A CN113035202B CN 113035202 B CN113035202 B CN 113035202B CN 202110122528 A CN202110122528 A CN 202110122528A CN 113035202 B CN113035202 B CN 113035202B
Authority
CN
China
Prior art keywords
voiceprint
information
feature
audio
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110122528.6A
Other languages
English (en)
Other versions
CN113035202A (zh
Inventor
张大威
王俊
王欣
王晓瑞
王仲远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202110122528.6A priority Critical patent/CN113035202B/zh
Publication of CN113035202A publication Critical patent/CN113035202A/zh
Application granted granted Critical
Publication of CN113035202B publication Critical patent/CN113035202B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开关于一种身份识别方法和装置,该方法包括:在对可疑音视频信息检测时,可以从可疑音视频信息中获取待识别音频信息,将待识别音频信息输入到声纹特征确定模型中进行声纹特征提取,得到待视频音频信息中发声对象的声纹特征。将待视频音频信息中发声对象的声纹特征和预存储的注册声纹特征输入到声纹特征匹配模型中进行声纹特征匹配,将获取到的注册声纹特征对应的发声对象的身份信息作为待识别音频信息中发声对象的身份识别结果。该方法可以基于声纹特征确定模型和声纹特征匹配模型确定待识别音频信息中发声对象的身份信息,提高身份识别的效率和准确性,从而减少人力成本。

Description

一种身份识别方法和装置
技术领域
本公开涉及人工智能技术领域,尤其涉及一种身份识别方法和装置。
背景技术
随着移动互联网的发展,用户获取信息的方式更加的碎片化和快速化。各种各样的新技术,多样化平台的涌现,都不同程度上分散着用户的注意力。视频发布平台则是其中的风口,用户会在视频发布平台上大量上传自己所拍的短视频,视频发布平台方需要对用户发布的视频和音频进行识别。而相关技术中,在对每天上传的数以亿计的音视频进行识别时,只能通过人工识别音视频中的说话人身份,在对人工识别不通过的音视频再进一步的限制,检测效率较低,且难以保证说话人身份识别的准确性。
发明内容
本公开提供一种身份识别方法和装置,以至少解决相关技术中检测音视频中说话人身份的检测效率低且准确性低的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种身份识别方法,所述方法包括;
获取待识别音频信息;
将所述待识别音频信息输入到声纹特征确定模型中进行声纹特征提取,得到待识别声纹特征;
将所述待识别声纹特征和预存储的注册声纹特征输入到声纹特征匹配模型中进行声纹特征匹配,得到所述待识别音频信息中发声对象的身份识别结果。
作为一个可选的实施例,所述声纹特征匹配模型包括降维层、归一化处理层、特征匹配层、目标声纹确定层和识别结果获取层,所述将所述待识别声纹特征和预存储的注册声纹特征输入到声纹特征匹配模型中进行声纹特征匹配,得到所述待识别音频信息中发声对象的身份识别结果包括:
在所述降维层中,对所述待识别声纹特征进行降维,得到降维特征数据;
在所述归一化处理层中,对所述降维特征数据进行归一化处理,得到归一化特征数据;
在所述特征匹配层中,对所述归一化特征数据和所述注册声纹特征进行匹配,得到声纹匹配值,所述声纹匹配值表征所述归一化特征数据和所述注册声纹特征间的匹配程度;
在所述目标声纹确定层中,根据所述声纹匹配值,确定与所述归一化特征数据对应的目标注册声纹特征;
在所述识别结果获取层中,根据所述目标注册声纹特征对应的身份信息,确定所述待识别音频信息中发声对象的身份识别结果。
作为一个可选的实施例,所述方法还包括:
获取注册音频信息;
将所述注册音频信息输入到声纹特征确定模型中进行声纹特征提取,得到注册声纹特征;
存储所述注册声纹特征。
作为一个可选的实施例,所述声纹特征确定模型包括音频特征提取网络、语音活动检测网络和声纹特征提取网络,所述将所述待识别音频信息输入到声纹特征确定模型中进行声纹特征提取,得到待识别声纹特征包括:
将所述待识别音频信息输入到所述音频特征提取网络中,对所述待识别音频信息进行特征提取,得到目标音频特征信息;
将所述目标音频特征信息输入到所述语音活动检测网络中进行语音活动检测,得到语音特征信息,所述语音特征信息表征所述目标音频特征信息中语音活动时段的特征信息;
将所述语音特征信息输入到所述声纹特征提取网络中,对所述语音特征信息进行声纹特征提取,得到所述待识别声纹特征。
作为一个可选的实施例,所述音频特征提取网络包括预处理层、频域特征提取层、滤波层和目标音频获取层,所述将所述待识别音频信息输入到所述音频特征提取网络中,对所述待识别音频信息进行特征提取,得到目标音频特征信息包括:
在所述预处理层中,对所述待识别音频信息进行预处理,得到音频帧信息;
在所述频域特征提取层中,对所述音频帧信息进行短时傅里叶变换,得到频域特征信息;
在所述滤波层中,对所述频域特征信息进行梅尔滤波,得到初始音频特征信息;
在所述目标音频获取层中,对所述初始音频特征信息进行离散余弦变换,得到所述目标音频特征信息。
作为一个可选的实施例,所述目标音频特征信息有多个,所述将所述目标音频特征信息输入到所述语音活动检测网络中进行语音活动检测,得到语音特征信息包括:
在所述语音活动检测网络中,确定每个目标音频特征信息中的语音活动起点和语音活动终点。
将每个目标音频特征信息中相邻的一组语音活动起点和语音活动终点间的音频特征数据作为所述语音特征信息。
作为一个可选的实施例,所述语音特征信息有多个,所述声纹特征提取网络包括多个声纹特征提取层,所述将所述语音特征信息输入到所述声纹特征提取网络中,对所述语音特征信息进行声纹特征提取,得到待识别声纹特征包括:
根据所述多个声纹特征提取层中每个声纹特征提取层的预设参数和所述语音特征信息,确定每个声纹特征提取层的输入特征信息;
在所述多个声纹特征提取层中,对所述输入特征信息进行线性整流,得到初始声纹特征;
在所述多个声纹特征提取层中,对所述初始声纹特征进行归一化处理,得到待识别声纹特征。
作为一个可选的实施例,所述方法还包括:
获取样本音频信息和所述样本音频信息对应的身份标注信息;
将所述样本音频信息输入到待训练声纹特征确定模型,对所述样本音频信息进行声纹特征提取,得到预测声纹特征;
将所述预测声纹特征输入到回归分类网络中,对所述预测声纹特征进行分类,得到所述预测声纹特征的预测身份标识信息;
根据所述预测身份标识信息和所述身份标注信息,确定声纹识别误差;
基于所述声纹识别误差,对所述待训练声纹特征确定模型进行训练,得到所述声纹特征确定模型。
作为一个可选的实施例,所述方法还包括:
获取多个注册音频信息和多个样本音频信息;
将所述多个注册音频信息输入所述声纹特征确定模型,得到多个参考声纹特征;
将所述多个样本音频信息输入所述声纹特征确定模型,得到多个样本声纹特征;
基于所述多个参考声纹特征和所述多个样本声纹特征,生成多组声纹训练数据和每组声纹训练数据的匹配标注信息;
将所述多组声纹训练数据输入到待训练声纹特征匹配模型中,对每组声纹训练数据中的参考声纹特征信息和样本声纹特征进行匹配,得到预测声纹匹配值;
根据所述预测声纹匹配值和所述匹配标注信息,确定匹配误差数据;
基于所述匹配误差数据,对所述待训练声纹特征匹配模型进行训练,得到所述声纹特征匹配模型。
根据本公开实施例的第二方面,提供一种身份识别装置,所述装置包括;
音频信息获取模块,被配置为执行获取待识别音频信息;
声纹特征确定模块,被配置为执行将所述待识别音频信息输入到声纹特征确定模型中进行声纹特征提取,得到待识别声纹特征;
声纹特征匹配模块,被配置为执行将所述待识别声纹特征和预存储的注册声纹特征输入到声纹特征匹配模型中进行声纹特征匹配,得到所述待识别音频信息中发声对象的身份识别结果。
作为一个可选的实施例,所述声纹特征匹配模型包括降维层、归一化处理层、特征匹配层、目标声纹确定层和识别结果获取层,所述声纹特征匹配模块包括:
降维单元,被配置为执行在所述降维层中,对所述待识别声纹特征进行降维,得到降维特征数据;
归一化处理单元,被配置为执行在所述归一化处理层中,对所述降维特征数据进行归一化处理,得到归一化特征数据;
特征匹配单元,被配置为执行在所述特征匹配层中,对所述归一化特征数据和所述注册声纹特征进行匹配,得到声纹匹配值,所述声纹匹配值表征所述归一化特征数据和所述注册声纹特征间的匹配程度;
目标声纹确定单元,被配置为执行在所述目标声纹确定层中,根据所述声纹匹配值,确定与所述归一化特征数据对应的目标注册声纹特征;
识别结果获取单元,被配置为执行在所述识别结果获取层中,根据所述目标注册声纹特征对应的身份信息,确定所述待识别音频信息中发声对象的身份识别结果。
作为一个可选的实施例,所述装置还包括:
注册音频获取模块,被配置为执行获取注册音频信息;
注册音频特征提取模块,被配置为执行将所述注册音频信息输入到声纹特征确定模型中进行声纹特征提取,得到注册声纹特征;
注册声纹特征存储模块,被配置为执行存储所述注册声纹特征。
作为一个可选的实施例,所述声纹特征确定模型包括音频特征提取网络、语音活动检测网络和声纹特征提取网络,所述声纹特征确定模块包括:
音频特征提取单元,被配置为执行将所述待识别音频信息输入到所述音频特征提取网络中,对所述待识别音频信息进行特征提取,得到目标音频特征信息;
语音活动检测单元,被配置为执行将所述目标音频特征信息输入到所述语音活动检测网络中进行语音活动检测,得到语音特征信息,所述语音特征信息表征所述目标音频特征信息中语音活动时段的特征信息;
声纹特征提取单元,被配置为执行将所述语音特征信息输入到所述声纹特征提取网络中,对所述语音特征信息进行声纹特征提取,得到所述待识别声纹特征。
作为一个可选的实施例,所述音频特征提取网络包括预处理层、频域特征提取层、滤波层和目标音频获取层,所述音频特征提取单元包括:
预处理单元,被配置为执行在所述预处理层中,对所述待识别音频信息进行预处理,得到音频帧信息;
频域特征提取单元,被配置为执行在所述频域特征提取层中,对所述音频帧信息进行短时傅里叶变换,得到频域特征信息;
滤波单元,被配置为执行在所述滤波层中,对所述频域特征信息进行梅尔滤波,得到初始音频特征信息;
目标音频获取单元,被配置为执行在所述目标音频获取层中,对所述初始音频特征信息进行离散余弦变换,得到所述目标音频特征信息。
作为一个可选的实施例,所述目标音频特征信息有多个,所述语音活动检测单元包括:
语音活动端点确定单元,被配置为执行在所述语音活动检测网络中,确定每个目标音频特征信息中的语音活动起点和语音活动终点;
语音特征信息确定单元,被配置为执行将每个目标音频特征信息中相邻的一组语音活动起点和语音活动终点间的音频特征数据作为所述语音特征信息。
作为一个可选的实施例,所述语音特征信息有多个,所述声纹特征提取网络包括多个声纹特征提取层,所述声纹特征提取单元包括:
输入特征确定单元,被配置为执行根据所述多个声纹特征提取层中每个声纹特征提取层的预设参数和所述语音特征信息,确定每个声纹特征提取层的输入特征信息;
线性整流单元,被配置为执行在在所述多个声纹特征提取层中,对所述输入特征信息进行线性整流,得到初始声纹特征;
特征归一化单元,被配置为执行在所述多个声纹特征提取层中,对所述初始声纹特征进行归一化处理,得到待识别声纹特征。
作为一个可选的实施例,所述装置还包括:
第一标注信息获取模块,被配置为执行获取样本音频信息和所述样本音频信息对应的身份标注信息;
预测声纹特征获取模块,被配置为执行将所述样本音频信息输入到待训练声纹特征确定模型,对所述样本音频信息进行声纹特征提取,得到预测声纹特征;
预测身份标识获取模块,被配置为执行将所述预测声纹特征输入到回归分类网络中,对所述预测声纹特征进行分类,得到所述预测声纹特征的预测身份标识信息;
声纹识别误差确定模块,被配置为执行根据所述预测身份标识信息和所述身份标注信息,确定声纹识别误差;
第一模型训练模块,被配置为执行基于所述声纹识别误差,对所述待训练声纹特征确定模型进行训练,得到所述声纹特征确定模型。
作为一个可选的实施例,所述装置还包括:
信息获取模块,被配置为执行获取多个注册音频信息和多个样本音频信息;
参考声纹特征获取模块,被配置为执行将所述多个注册音频信息输入所述声纹特征确定模型,得到多个参考声纹特征;
样本声纹特征获取模块,被配置为执行将所述多个样本音频信息输入所述声纹特征确定模型,得到多个样本声纹特征;
第二标注信息获取模块,被配置为执行基于所述多个参考声纹特征和所述多个样本声纹特征,生成多组声纹训练数据和每组声纹训练数据的匹配标注信息;
预测声纹匹配值获取模块,被配置为执行将所述多组声纹训练数据输入到待训练声纹特征匹配模型中,对每组声纹训练数据中的参考声纹特征信息和样本声纹特征进行匹配,得到预测声纹匹配值;
匹配误差数据获取模块,被配置为执行根据所述预测声纹匹配值和所述匹配标注信息,确定匹配误差数据;
第二模型训练模块,被配置为执行基于所述匹配误差数据,对所述待训练声纹特征匹配模型进行训练,得到所述声纹特征匹配模型。
根据本公开实施例的第三方面,提供一种电子设备,所述设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如上述所述的身份识别方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如上述所述的身份识别方法。
根据本公开实施例的第四方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述所述的身份识别方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
在对可疑音视频信息检测时,可以从可疑音视频信息中获取待识别音频信息,将待识别音频信息输入到声纹特征确定模型中进行声纹特征提取,得到待视频音频信息中发声对象的声纹特征。将待视频音频信息中发声对象的声纹特征和预存储的注册声纹特征输入到声纹特征匹配模型中进行声纹特征匹配,将获取到的注册声纹特征对应的发声对象的身份信息作为待识别音频信息中发声对象的身份识别结果。该方法可以基于声纹特征确定模型和声纹特征匹配模型确定待识别音频信息中发声对象的身份信息,提高身份识别的效率和准确性,并减少人力成本。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种身份识别方法的应用场景示意图。
图2是根据一示例性实施例示出的一种身份识别方法的流程图。
图3是根据一示例性实施例示出的一种身份识别方法在声纹特征确定模型中进行声纹特征提取的流程图。
图4是根据一示例性实施例示出的一种身份识别方法在音频特征提取网络中进行音频特征提取的的流程图。
图5是根据一示例性实施例示出的一种身份识别方法中提取待识别声纹特征的流程图。
图6是根据一示例性实施例示出的一种身份识别方法中声纹特征提取网络的结构示意图。
图7是根据一示例性实施例示出的一种身份识别方法注册声纹特征的获取方法。
图8是根据一示例性实施例示出的一种身份识别方法在声纹特征匹配模型中对待识别声纹特征和注册声纹特征进行匹配的流程图。
图9是根据一示例性实施例示出的一种身份识别方法中训练声纹特征确定模型的流程图。
图10是根据一示例性实施例示出的一种身份识别方法中训练声纹特征匹配模型的流程图。
图11是根据一示例性实施例示出的一种身份识别装置的框图。
图12是根据一示例性实施例示出的一种服务器侧电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种身份识别方法的应用场景示意图,应用场景包括服务器110和用户端120。服务器110预先将注册音频信息输入到声纹特征确定模型中进行声纹特征提取,得到注册声纹特征。用户端120发布音频信息或者视频信息,服务器110获取音频信息或者从视频信息中提取音频信息,作为待识别音频信息。服务器110将待识别音频信息输入到声纹特征确定模型中进行声纹特征提取,得到待识别声纹特征。服务器110待识别声纹特征和注册声纹特征输入到声纹特征匹配模型中进行声纹特征匹配,得到待识别音频信息中发声对象的身份识别结果。
在本公开实施例中,服务器110可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群。服务器110可以包括有网络通信单元、处理器和存储器等等。具体的,服务器110可以基于声纹特征确定模型和声纹特征匹配模型,确定待识别音频信息中发声对象的身份信息。
在本公开实施例中,用户端120包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备等类型的实体设备,也可以包括运行于实体设备中的软体,例如应用程序等。本申请实施例中实体设备上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、Unix、windows等。用户端120基于API(Application Programming Interface,应用程序接口)将音频信息或视频信息发送给服务器110。
图2是根据一示例性实施例示出的一种身份识别方法的流程图,如图2所示,该方法用于服务器中,包括以下步骤。
S210.获取待识别音频信息;
作为一个可选的实施例,待识别音频信息可以为用户端发布的音频信息或服务器从用户端发布的视频信息中提取的音频信息。
S220.将待识别音频信息输入到声纹特征确定模型中进行声纹特征提取,得到待识别声纹特征;
作为一个可选的实施例,请参见图3,声纹特征确定模型包括音频特征提取网络、语音活动检测网络和声纹特征提取网络,将待识别音频信息输入到声纹特征确定模型中进行声纹特征提取,得到待识别声纹特征包括:
S310.将待识别音频信息输入到音频特征提取网络中,对待识别音频信息进行特征提取,得到目标音频特征信息;
S320.将目标音频特征信息输入到语音活动检测网络中进行语音活动检测,得到语音特征信息,语音特征信息表征目标音频特征信息中语音活动时段的特征信息;
S330.将语音特征信息输入到声纹特征提取网络中,对语音特征信息进行声纹特征提取,得到待识别声纹特征。
作为一个可选的实施例,音频特征提取网络用于将时域中的待识别音频信息转换成为频域中的目标音频特征信息。目标音频特征信息可以为梅尔频率倒谱系数((MelFrequency Cepstrum Coefficient,MFCC)特征信息。梅尔频率倒谱系数为在梅尔标度频率域提取出来的倒谱参数,梅尔标度频域描述了人耳频率的非线性特性。
语音活动检测网络(Voice Activity Detection,VAD)用于将目标音频特征信息中发声对象未出声时的静音时段的特征信息去除,保留发声对象出声时语音活动时段的特征信息。VAD可以检测语音活动的端点,从而区分语音活动时段的特征信息和静音时段的特征信息。
声纹特征提取网络用于对语音特征信息进行声纹特征提取,输出待识别声纹特征。声纹特征提取网络可以为扩展的时延神经网络(Extend Time Delay Neural Network,E-TDNN)。在E-TDNN中输入多帧语音帧特征信息。
基于声纹特征确定模型,对待识别音频信息进行特征提取,得到待识别声纹特征,可以提高特征提取的处理速度并减少特征提取的错误率。
作为一个可选的实施例,请参见图4,音频特征提取网络包括预处理层、频域特征提取层、滤波层和目标音频获取层,将待识别音频信息输入到音频特征提取网络中,对待识别音频信息进行特征提取,得到目标音频特征信息包括:
S410.在预处理层中,对待识别音频信息进行预处理,得到音频帧信息;
S420.在频域特征提取层中,对音频帧信息进行短时傅里叶变换,得到频域特征信息;
S430.在滤波层中,对频域特征信息进行梅尔滤波,得到初始音频特征信息;
S440.在目标音频获取层中,对初始音频特征信息进行离散余弦变换,得到目标音频特征信息。
作为一个可选的实施例,在预处理层中,对待识别音频信息进行预加重和分帧加窗处理,得到预处理后音频信息。对待识别音频信息进行预加重处理可以是将待识别音频信息通过一个高通滤波器,提升待识别音频信息中的高频部分。在对待识别音频信息进行预加重处理后,对预加重处理后的待识别音频信息进行分帧加窗处理,得到音频帧信息。作为一个可选的实施例,可以选择汉明窗来进行加窗处理。
在特征提取层中,对音频帧信息进行短时傅里叶变换(short-time Fouriertransform,STFT),得到音频帧信息的频域特征信息,并取频域特征信息绝对值的平方。将频域特征信息绝对值的平方作为初始音频特征信息输入到滤波层中。
在滤波层可以用梅尔滤波器组进行滤波。梅尔滤波器组可以是梅尔尺度的三角带通滤波器组,梅尔尺度的三角带通滤波器组是预设个数的三角滤波器,设预设个数为M,每个三角滤波器的中心频率为f(m),m=1、2、……、m。各中心频率之间的间隔随着m值的减小而缩小,随着m值的增大而增宽。根据梅尔尺度的三角带通滤波器组,对初始音频特征信息进行滤波,得到滤波后音频特征信息。
在目标音频获取层中,滤波后音频特征信息为声带响应的频谱信息和输入激励的频谱信息的卷积,计算滤波后音频特征信息的对数能量,可以将声带响应的频谱信息和输入激励的频谱信息变换为声带响应的频谱信息和输入激励的频谱信息的和值。将对数能量进行离散余弦变换(discrete cosine transform,DCT)后,得到目标音频特征信息,使得目标音频特征信息中低频部分的包络为声带响应的特征信息,高频部分为输入激励的特征信息。
基于音频特征提取网络,得到MFCC特征信息,可以更好地显示待识别语音信息中的声音信号。
作为一个可选的实施例,目标音频特征信息有多个,将目标音频特征信息输入到所述语音活动检测网络中进行语音活动检测,得到语音特征信息包括:
在语音活动检测网络中,确定每个目标音频特征信息中的语音活动起点和语音活动终点。
将每个目标音频特征信息中相邻的一组语音活动起点和语音活动终点间的音频特征数据作为语音特征信息。
作为一个可选的实施例,在获取目标音频特征信息时,对待识别音频信息进行了分帧,例如分为10ms一帧的音频帧信息,则得到的目标音频特征信息与音频帧信息对应,因此目标音频特征信息有多个。计算每个目标音频特征信息中各个时刻的音频特征数据对应的语音能量,根据设置的语音能量阈值,确定当前时刻是否为语音活动起点或语音活动终点。若当前时刻的前一时刻的音频特征数据对应的语音能量小于语音能量阈值,且当前时刻的音频特征数据对应的语音能量大于语音能量阈值,则确定当前时刻以前为静音时段,当前时刻以后为语音活动时段,则当前时刻为语音活动起点。若当前时刻的前一时刻的音频特征数据对应的语音能量大于语音能量阈值,且当前时刻的音频特征数据对应的语音能量小于语音能量阈值,则确定当前时刻以后为静音时段,当前时刻以前为语音活动时段,则当前时刻为语音活动终点。
根据语音活动起点和语音活动终点,得到每个目标音频特征信息中相邻的一组语音活动起点和语音活动终点间的音频特征数据,将该音频特征数据作为语音特征信息。例如一个10ms的音频帧信息对应的目标音频特征信息中,前4ms的音频特征数据对应的语音能量小于语音能量阈值,后6ms的音频特征数据对应的语音能量大于语音能量阈值,则语音活动起点为第4ms,语音活动终点为第10ms,后6ms的音频特征数据为语音特征信息。
在设置语音能量阈值时,可以先计算目标音频特征信息中的噪音能量,基于噪音能量设置语音能量阈值。
基于语音活动检测,可以删除静音时段的特征信息,仅保留语音特征信息进行后续的计算,可以减少输入到后续网络中的特征,减少计算的复杂度。
作为一个可选的实施例,请参见图5,语音特征信息有多个,声纹特征提取网络包括多个按序排列的声纹特征提取层,将语音特征信息输入到声纹特征提取网络中,对语音特征信息进行声纹特征提取,得到待识别声纹特征包括:
S510.根据多个声纹特征提取层中每个声纹特征提取层的预设参数和语音特征信息,确定每个声纹特征提取层的输入特征信息;
S520.在多个声纹特征提取层中,对输入特征信息进行线性整流,得到初始声纹特征;
S530.在多个声纹特征提取层中,对初始声纹特征进行归一化处理,得到待识别声纹特征。
作为一个可选的实施例,声纹特征提取网络可以为具有多个声纹特征提取层的E-TDNN网络。多个声纹特征提取层中的第一个声纹特征提取层的输入特征信息可以从语音特征信息中确定,其他声纹特征提取层的输入特征信息可以从每个声纹特征提取层的上一声纹特征提取层输出的信息中确定。在每个声纹特征提取层中,将线性整流单元(RectifiedLinear Unit,ReLU)作为激活函数,对输入特征信息进行线性整流,得到初始声纹特征,并对线性整流后的语音特征信息进行批量归一化(BatchNorm)处理,得到每层对应的声纹特征,将最后一层的声纹特征作为待识别声纹特征。声纹特征提取层可以为七个。声纹特征提取层的预设参数为输入到声纹特征提取层的特征的时延参数。如图6所示,第一层声纹特征提取层的预设参数为(t-2,t-1,t,t+1,t+2),映射到输出端的激活函数的权值个数为512。第二层声纹特征提取层的预设参数为(t-4,t-2,t,t+2,t+4),映射到输出端的激活函数的权值个数为512。第三层声纹特征提取层的预设参数为(t-3,t,t+3),第四层声纹特征提取层的预设参数为(t-4,t,t+4),映射到输出端的激活函数的权值个数为512。第五层声纹特征提取层到第七层声纹特征提取层的预设参数均为(t),第五层声纹特征提取层映射到输出端的激活函数的权值个数为512,第六层声纹特征提取层映射到输出端的激活函数的权值个数为1500,第七层声纹特征提取层映射到输出端的激活函数的权值个数为512。例如,第一层声纹特征提取层的预设参数为(t-2,t-1,t,t+1,t+2),t表示当前输入的语音特征信息,t-2表示该语音特征信息左移两帧的语音特征信息,t+2表示该语音特征信息右移两帧的语音特征信息,t-1表示该语音特征信息左移一帧的语音特征信息,t+1表示该语音特征信息右移一帧的语音特征信息,将这五个语音特征信息作为第一声纹特征提取层中的输入特征信息。
基于E-TDNN网络对语音特征信息进行声纹特征提取,可以提高处理速度并减少错误率。
S230.将待识别声纹特征和预存储的注册声纹特征输入到声纹特征匹配模型中进行声纹特征匹配,得到待识别音频信息中发声对象的身份识别结果。
作为一个可选的实施例,请参见图7,该方法还包括:
S710.获取注册音频信息;
S720.将注册音频信息输入到声纹特征确定模型中进行声纹特征提取,得到注册声纹特征;
S730.存储注册声纹特征。
作为一个可选的实施例,注册音频信息中的发声对象身份信息已知。将注册音频信息输入到声纹特征确定模型中进行声纹特征提取,得到注册声纹特征,该注册声纹特征为已知的发声对象身份信息的声纹特征。例如将说话人甲的音频信息作为注册音频信息,输入到声纹特征确定模型中进行声纹特征提取,得到甲的注册声纹特征。某一待识别音频信息输入到声纹特征确定模型中进行声纹特征提取,得到的待识别声纹特征,在声纹特征匹配模型中,若该待识别声纹特征和甲的注册声纹特征匹配,则可以确定该待识别音频信息中的说话人的身份是甲。
基于声纹特征确定模型,对注册音频信息进行声纹特征提取,可以通过预存储注册声纹特征的方式增加已知发声对象,从而提高身份识别的覆盖率。
作为一个可选的实施例,请参见图8,声纹特征匹配模型包括降维层、归一化处理层、特征匹配层、目标声纹确定层和识别结果获取层,将待识别声纹特征和预存储的注册声纹特征输入到声纹特征匹配模型中进行声纹特征匹配,得到待识别音频信息中发声对象的身份识别结果包括:
S810.在降维层中,对待识别声纹特征进行降维,得到降维特征数据;
S820.在归一化处理层中,对降维特征数据进行归一化处理,得到归一化特征数据;
S830.在特征匹配层中,对归一化特征数据和注册声纹特征进行匹配,得到声纹匹配值,所述声纹匹配值表征归一化特征数据和注册声纹特征间的匹配程度;
S840.在目标声纹确定层中,根据声纹匹配值,确定与归一化特征数据对应的目标注册声纹特征;
S850.在识别结果获取层中,根据目标注册声纹特征对应的身份信息,确定待识别音频信息中发声对象的身份识别结果。
作为一个可选的实施例,在降维层中可以利用线性判别分析(LinearDiscriminant Analysis,LDA)的方法对待识别声纹特征进行降维,得到降维特征数据。在归一化处理层中,对降维特征数据先进行均值归一化(Mean norm),再进行长度归一化(Length norm),将长度不同的降维特征数据统一为同一长度,得到归一化特征数据。特征匹配层可以利用概率线性判别分析(Probabilistic Linear Discriminant Analysis,PLDA)对归一化特征数据和注册声纹特征间的相似度进行评分,得到声纹匹配值,声纹匹配值表征归一化特征数据和注册声纹特征间的匹配程度。根据声纹匹配值,确定与归一化特征数据最相似的注册声纹特征,将与归一化特征数据最相似的注册声纹特征作为目标注册声纹特征。将目标注册声纹特征对应的身份信息确定为待识别音频信息中发声对象的身份信息。
作为一个可选的实施例,将待识别音频信息A输入到声纹特征确定模型中进行声纹特征提取,得到的待识别声纹特征A1,在声纹特征匹配模型中,若该待识别声纹特征A和注册声纹特征B1的相似度评分最高,则将注册声纹特征B1作为目标注册声纹特征。若注册声纹特征B1对应的身份信息为说话人b,则待识别音频信息A中发声对象的身份信息为说话人b。
基于声纹特征匹配模型,对待识别声纹特征和注册声纹特征进行匹配,确定待识别音频信息中发声对象的身份信息,可以提高身份识别的准确率。
作为一个可选的实施例,请参见图9,如图9所示为对声纹特征确定模型进行训练的方法,该方法包括:
S910.获取样本音频信息和样本音频信息对应的身份标注信息;
S920.将样本音频信息输入到待训练声纹特征确定模型,对样本音频信息进行声纹特征提取,得到预测声纹特征;
S930.将预测声纹特征输入到回归分类网络中,对预测声纹特征进行分类,得到预测声纹特征的预测身份标识信息;
S940.根据预测身份标识信息和身份标注信息,确定声纹识别误差;
S950.基于声纹识别误差,对待训练声纹特征确定模型进行训练,得到声纹特征确定模型。
作为一个可选的实施例,声纹特征确定模型的训练方式为有监督的训练方式,获取样本音频信息和样本音频信息对应的身份标注信息,将样本音频信息输入到待训练声纹特征确定模型,对样本音频信息进行声纹特征提取,得到预测声纹特征。将预测声纹特征输入到回归分类网络(softmax)中,将预测声纹特征映射到[0,1]的区间上,确定预测身份标识信息,预测身份标识信息为0到1间的一个实数。身份标注信息可以表示为1,则可以根据预测身份标识信息和身份标注信息间的差值,计算声纹识别误差,声纹识别误差可以为交叉熵损失函数。基于交叉熵损失函数,对待训练声纹特征确定模型进行训练,使得预测身份标识信息逼近身份标注信息,当交叉熵损失函数达到预期训练效果时,得到声纹特征确定模型。
在训练声纹特征确定模型时,增加回归分类网络,以确定预测声纹特征的预测身份标识信息,可以根据预测身份标识信息和身份标注信息,确定声纹识别误差,从而对声纹特征确定模型进行训练,提高了对声纹特征确定模型进行训练的准确性和效率。
作为一个可选的实施例,如图10所示为对声纹特征匹配模型进行训练的方法,该方法包括:
S1010.获取多个注册音频信息和多个样本音频信息;
S1020.将多个注册音频信息输入声纹特征确定模型,得到多个参考声纹特征;
S1030.将多个样本音频信息输入声纹特征确定模型,得到多个样本声纹特征;
S1040.基于多个参考声纹特征和多个样本声纹特征,生成多组声纹训练数据和每组声纹训练数据的匹配标注信息;
S1050.将多组声纹训练数据输入到待训练声纹特征匹配模型中,对每组声纹训练数据中的参考声纹特征信息和样本声纹特征进行匹配,得到预测声纹匹配值;
S1060.根据预测声纹匹配值和匹配标注信息,确定匹配误差数据;
S1070.基于匹配误差数据,对待训练声纹特征匹配模型进行训练,得到声纹特征匹配模型。
作为一个可选的实施例,获取多个注册音频信息和多个样本音频信息,将多个注册音频信息输入到已经训练好的声纹特征确定模型中,得到多个参考声纹特征,并将多个样本音频信息输入到已经训练好的声纹特征确定模型中,得到多个样本声纹特征。根据注册音频信息和样本音频信息中已知的发声对象的身份信息,确定与参考声纹特征对应的样本声纹特征,将参考声纹特征和对应的样本声纹特征作为一组声纹训练数据,并确定该组声纹训练数据的匹配标注信息,匹配标注信息为表示参考声纹特征和样本声纹特征完全匹配的标注信息。
将多组声纹训练数据输入到待训练声纹特征匹配模型中,对每组声纹训练数据中的参考声纹特征信息和样本声纹特征进行相似度分值的计算,得到预测声纹匹配值。根据预测声纹匹配值和匹配标注信息间的差值,确定匹配误差数据。基于匹配误差数据,对待训练声纹特征匹配模型进行训练,使得预测声纹匹配值逼近匹配标注信息,当匹配误差数据达到预期训练效果时,得到声纹特征匹配模型。
在训练声纹特征匹配模型时,利用已训练好的声纹特征确定模型获取匹配标注信息,从而根据待训练声纹特征匹配模型输出的预测声纹匹配值和匹配标注信息,确定匹配误差数据,从而对声纹特征匹配模型进行训练,提高了对声纹特征匹配模型进行训练的准确性和效率。
作为一个可选的实施例,该方法可以应用在对可疑音视频信息进行检测上。服务器获取多个已知发声对象的注册音频信息,服务器将注册音频信息输入到声纹特征确定模型中,得到注册声纹特征,服务器存储注册声纹特征,每个注册声纹特征与一个发声对象的身份信息匹配。用户端向视频平台或短视频平台上传用户发布信息后,在平台审核阶段,服务器可以获取用户发布信息中的待识别音频信息,用户发布信息可以为视频信息或音频信息,当为视频信息时,服务器需要从视频信息中提取待识别音频信息,当为音频信息时,服务器可以直接将用户发布信息作为待识别音频信息。
服务器将待识别音频信息输入到声纹特征确定模型中,经过声纹特征确定模型中的音频特征提取网络、语音活动检测网络和声纹特征提取网络,从声纹特征提取网络中输出待识别声纹特征。服务器将待识别声纹特征和预存储的注册声纹特征输入到声纹特征匹配模型中,对待识别声纹特征和注册声纹特征间的相似度进行评分,输出声纹匹配值。获取声纹匹配值中的最大值,将最大值对应的注册声纹特征作为目标注册声纹特征。将与目标注册声纹特征匹配的发声对象的身份信息作为待识别音频信息中发声对象的身份识别结果。
服务器根据身份识别结果,确定待识别音频信息中发声对象是否为合法对象,若该发声对象不为合法对象,则该用户发布信息不能通过平台审核。
服务器也可以主动在视频平台或短视频平台上对可疑音视频信息进行寻找,当服务器基于声纹特征确定模型和声纹特征匹配模型,确定某个视频信息或音频信息中的发声对象不为合法对象时,删除该视频信息或音频信息。
本公开实施例提供了一种身份识别方法,该方法包括:在对可疑音视频信息检测时,可以从可疑音视频信息中获取待识别音频信息,将待识别音频信息输入到声纹特征确定模型中进行声纹特征提取,得到待视频音频信息中发声对象的声纹特征。将待视频音频信息中发声对象的声纹特征和预存储的注册声纹特征输入到声纹特征匹配模型中进行声纹特征匹配,将获取到的注册声纹特征对应的发声对象的身份信息作为待识别音频信息中发声对象的身份识别结果。该方法可以基于声纹特征确定模型和声纹特征匹配模型确定待识别音频信息中发声对象的身份信息,提高身份识别的效率和准确性,并减少人力成本。
图11是根据一示例性实施例示出的一种身份识别装置框图。该装置包括:
音频信息获取模块1110,被配置为执行获取待识别音频信息;
声纹特征确定模块1120,被配置为执行将待识别音频信息输入到声纹特征确定模型中进行声纹特征提取,得到待识别声纹特征;
声纹特征匹配模块1130,被配置为执行将待识别声纹特征和预存储的注册声纹特征输入到声纹特征匹配模型中进行声纹特征匹配,得到待识别音频信息中发声对象的身份识别结果。
作为一个可选的实施例,声纹特征匹配模型1130包括降维层、归一化处理层、特征匹配层、目标声纹确定层和识别结果获取层,声纹特征匹配模块包括:
降维单元,被配置为执行在降维层中,对待识别声纹特征进行降维,得到降维特征数据;
归一化处理单元,被配置为执行在归一化处理层中,对降维特征数据进行归一化处理,得到归一化特征数据;
特征匹配单元,被配置为执行在特征匹配层中,对归一化特征数据和注册声纹特征进行匹配,得到声纹匹配值,声纹匹配值表征归一化特征数据和注册声纹特征间的匹配程度;
目标声纹确定单元,被配置为执行在目标声纹确定层中,根据声纹匹配值,确定与归一化特征数据对应的目标注册声纹特征;
识别结果获取单元,被配置为执行在识别结果获取层中,根据目标注册声纹特征对应的身份信息,确定待识别音频信息中发声对象的身份识别结果。
作为一个可选的实施例,该装置还包括:
注册音频获取模块,被配置为执行获取注册音频信息;
注册音频特征提取模块,被配置为执行将注册音频信息输入到声纹特征确定模型中进行声纹特征提取,得到注册声纹特征;
注册声纹特征存储模块,被配置为执行存储注册声纹特征。
作为一个可选的实施例,声纹特征确定模型1120包括音频特征提取网络、语音活动检测网络和声纹特征提取网络,声纹特征确定模块包括:
音频特征提取单元,被配置为执行将待识别音频信息输入到音频特征提取网络中,对待识别音频信息进行特征提取,得到目标音频特征信息;
语音活动检测单元,被配置为执行将目标音频特征信息输入到语音活动检测网络中进行语音活动检测,得到语音特征信息,语音特征信息表征目标音频特征信息中语音活动时段的特征信息;
声纹特征提取单元,被配置为执行将语音特征信息输入到声纹特征提取网络中,对语音特征信息进行声纹特征提取,得到待识别声纹特征。
作为一个可选的实施例,音频特征提取网络包括预处理层、频域特征提取层、滤波层和目标音频获取层,音频特征提取单元包括:
预处理单元,被配置为执行在预处理层中,对待识别音频信息进行预处理,得到音频帧信息;
频域特征提取单元,被配置为执行在频域特征提取层中,对音频帧信息进行短时傅里叶变换,得到频域特征信息;
滤波单元,被配置为执行在滤波层中,对频域特征信息进行梅尔滤波,得到初始音频特征信息;
目标音频获取单元,被配置为执行在目标音频获取层中,对初始音频特征信息进行离散余弦变换,得到目标音频特征信息。
作为一个可选的实施例,目标音频特征信息有多个,语音活动检测单元包括:
语音活动端点确定单元,被配置为执行在语音活动检测网络中,确定每个目标音频特征信息中的语音活动起点和语音活动终点;
语音特征信息确定单元,被配置为执行将每个目标音频特征信息中相邻的一组语音活动起点和语音活动终点间的音频特征数据作为语音特征信息。
作为一个可选的实施例,语音特征信息有多个,声纹特征提取网络包括多个声纹特征提取层,声纹特征提取单元包括:
输入特征确定单元,被配置为执行根据多个声纹特征提取层中每个声纹特征提取层的预设参数和语音特征信息,确定每个声纹特征提取层的输入特征信息;
线性整流单元,被配置为执行在在多个声纹特征提取层中,对输入特征信息进行线性整流,得到初始声纹特征;
特征归一化单元,被配置为执行在多个声纹特征提取层中,对初始声纹特征进行归一化处理,得到待识别声纹特征。
作为一个可选的实施例,装置还包括:
第一标注信息获取模块,被配置为执行获取样本音频信息和样本音频信息对应的身份标注信息;
预测声纹特征获取模块,被配置为执行将样本音频信息输入到待训练声纹特征确定模型,对样本音频信息进行声纹特征提取,得到预测声纹特征;
预测身份标识获取模块,被配置为执行将预测声纹特征输入到回归分类网络中,对预测声纹特征进行分类,得到预测声纹特征的预测身份标识信息;
声纹识别误差确定模块,被配置为执行根据预测身份标识信息和身份标注信息,确定声纹识别误差;
第一模型训练模块,被配置为执行基于声纹识别误差,对待训练声纹特征确定模型进行训练,得到声纹特征确定模型。
作为一个可选的实施例,装置还包括:
信息获取模块,被配置为执行获取多个注册音频信息和多个样本音频信息;
参考声纹特征获取模块,被配置为执行将多个注册音频信息输入声纹特征确定模型,得到多个参考声纹特征;
样本声纹特征获取模块,被配置为执行将多个样本音频信息输入声纹特征确定模型,得到多个样本声纹特征;
第二标注信息获取模块,被配置为执行基于多个参考声纹特征和多个样本声纹特征,生成多组声纹训练数据和每组声纹训练数据的匹配标注信息;
预测声纹匹配值获取模块,被配置为执行将多组声纹训练数据输入到待训练声纹特征匹配模型中,对每组声纹训练数据中的参考声纹特征信息和样本声纹特征进行匹配,得到预测声纹匹配值;
匹配误差数据获取模块,被配置为执行根据预测声纹匹配值和匹配标注信息,确定匹配误差数据;
第二模型训练模块,被配置为执行基于匹配误差数据,对待训练声纹特征匹配模型进行训练,得到声纹特征匹配模型。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图12是根据一示例性实施例示出的一种用于服务器的电子设备的框图,该电子设备可以是服务器,其内部结构图可以如图12所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种身份识别方法。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在示例性实施例中,还提供了一种电子设备,包括:处理器;用于存储该处理器可执行指令的存储器;其中,该处理器被配置为执行该指令,以实现如本公开实施例中一种身份识别方法。
在示例性实施例中,还提供了一种计算机可读存储介质,当该存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行本公开实施例中一种身份识别方法。
在示例性实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行本公开实施例中的一种身份识别方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (17)

1.一种身份识别方法,其特征在于,所述方法包括:
获取待识别音频信息;
将所述待识别音频信息输入到声纹特征确定模型中进行声纹特征提取,得到待识别声纹特征;所述声纹特征确定模型包括音频特征提取网络、语音活动检测网络和声纹特征提取网络,所述声纹特征提取网络包括多个声纹特征提取层,所述将所述待识别音频信息输入到声纹特征确定模型中进行声纹特征提取,得到待识别声纹特征包括:
将所述待识别音频信息输入到所述音频特征提取网络中,对所述待识别音频信息进行特征提取,得到目标音频特征信息;
将所述目标音频特征信息输入到所述语音活动检测网络中进行语音活动检测,得到语音特征信息,所述语音特征信息表征所述目标音频特征信息中语音活动时段的特征信息,所述语音特征信息有多个;
根据所述多个声纹特征提取层中每个声纹特征提取层的预设参数和所述语音特征信息,确定每个声纹特征提取层的输入特征信息;所述输入特征信息包括语音特征信息和每个声纹特征提取层的上一声纹特征提取层输出的信息;
在所述多个声纹特征提取层中,对所述输入特征信息进行线性整流,得到初始声纹特征;
在所述多个声纹特征提取层中,对所述初始声纹特征进行归一化处理,得到所述待识别声纹特征;
将所述待识别声纹特征和预存储的注册声纹特征输入到声纹特征匹配模型中进行声纹特征匹配,得到所述待识别音频信息中发声对象的身份识别结果。
2.根据权利要求1所述的身份识别方法,其特征在于,所述声纹特征匹配模型包括降维层、归一化处理层、特征匹配层、目标声纹确定层和识别结果获取层,所述将所述待识别声纹特征和预存储的注册声纹特征输入到声纹特征匹配模型中进行声纹特征匹配,得到所述待识别音频信息中发声对象的身份识别结果包括:
在所述降维层中,对所述待识别声纹特征进行降维,得到降维特征数据;
在所述归一化处理层中,对所述降维特征数据进行归一化处理,得到归一化特征数据;
在所述特征匹配层中,对所述归一化特征数据和所述注册声纹特征进行匹配,得到声纹匹配值,所述声纹匹配值表征所述归一化特征数据和所述注册声纹特征间的匹配程度;
在所述目标声纹确定层中,根据所述声纹匹配值,确定与所述归一化特征数据对应的目标注册声纹特征;
在所述识别结果获取层中,根据所述目标注册声纹特征对应的身份信息,确定所述待识别音频信息中发声对象的身份识别结果。
3.根据权利要求1所述的身份识别方法,其特征在于,所述方法还包括:
获取注册音频信息;
将所述注册音频信息输入到声纹特征确定模型中进行声纹特征提取,得到注册声纹特征;
存储所述注册声纹特征。
4.根据权利要求1所述的身份识别方法,其特征在于,所述音频特征提取网络包括预处理层、频域特征提取层、滤波层和目标音频获取层,所述将所述待识别音频信息输入到所述音频特征提取网络中,对所述待识别音频信息进行特征提取,得到目标音频特征信息包括:
在所述预处理层中,对所述待识别音频信息进行预处理,得到音频帧信息;
在所述频域特征提取层中,对所述音频帧信息进行短时傅里叶变换,得到频域特征信息;
在所述滤波层中,对所述频域特征信息进行梅尔滤波,得到初始音频特征信息;
在所述目标音频获取层中,对所述初始音频特征信息进行离散余弦变换,得到所述目标音频特征信息。
5.根据权利要求1所述的身份识别方法,其特征在于,所述目标音频特征信息有多个,所述将所述目标音频特征信息输入到所述语音活动检测网络中进行语音活动检测,得到语音特征信息包括:
在所述语音活动检测网络中,确定每个目标音频特征信息中的语音活动起点和语音活动终点;
将每个目标音频特征信息中相邻的一组语音活动起点和语音活动终点间的音频特征数据作为所述语音特征信息。
6.根据权利要求1到5中任一项所述的身份识别方法,其特征在于,所述方法还包括:
获取样本音频信息和所述样本音频信息对应的身份标注信息;
将所述样本音频信息输入到待训练声纹特征确定模型,对所述样本音频信息进行声纹特征提取,得到预测声纹特征;
将所述预测声纹特征输入到回归分类网络中,对所述预测声纹特征进行分类,得到所述预测声纹特征的预测身份标识信息;
根据所述预测身份标识信息和所述身份标注信息,确定声纹识别误差;
基于所述声纹识别误差,对所述待训练声纹特征确定模型进行训练,得到所述声纹特征确定模型。
7.根据权利要求1到5中任一项所述的身份识别方法,其特征在于,所述方法还包括:
获取多个注册音频信息和多个样本音频信息;
将所述多个注册音频信息输入所述声纹特征确定模型,得到多个参考声纹特征;
将所述多个样本音频信息输入所述声纹特征确定模型,得到多个样本声纹特征;
基于所述多个参考声纹特征和所述多个样本声纹特征,生成多组声纹训练数据和每组声纹训练数据的匹配标注信息;
将所述多组声纹训练数据输入到待训练声纹特征匹配模型中,对每组声纹训练数据中的参考声纹特征信息和样本声纹特征进行匹配,得到预测声纹匹配值;
根据所述预测声纹匹配值和所述匹配标注信息,确定匹配误差数据;
基于所述匹配误差数据,对所述待训练声纹特征匹配模型进行训练,得到所述声纹特征匹配模型。
8.一种身份识别装置,其特征在于,所述装置包括:
音频信息获取模块,被配置为执行获取待识别音频信息;
声纹特征确定模块,被配置为执行将所述待识别音频信息输入到声纹特征确定模型中进行声纹特征提取,得到待识别声纹特征;所述声纹特征确定模型包括音频特征提取网络、语音活动检测网络和声纹特征提取网络,所述声纹特征提取网络包括多个声纹特征提取层,所述声纹特征确定模块包括:
音频特征提取单元,被配置为执行将所述待识别音频信息输入到所述音频特征提取网络中,对所述待识别音频信息进行特征提取,得到多个目标音频特征信息;
语音活动检测单元,被配置为执行将所述目标音频特征信息输入到所述语音活动检测网络中进行语音活动检测,得到语音特征信息,所述语音特征信息表征所述目标音频特征信息中语音活动时段的特征信息,所述语音特征信息有多个;
输入特征确定单元,被配置为执行根据所述多个声纹特征提取层中每个声纹特征提取层的预设参数和所述语音特征信息,确定每个声纹特征提取层的输入特征信息;所述输入特征信息包括语音特征信息和每个声纹特征提取层的上一声纹特征提取层输出的信息;
线性整流单元,被配置为执行在所述多个声纹特征提取层中,对所述输入特征信息进行线性整流,得到初始声纹特征;
特征归一化单元,被配置为执行在所述多个声纹特征提取层中,对所述初始声纹特征进行归一化处理,得到所述待识别声纹特征;
声纹特征匹配模块,被配置为执行将所述待识别声纹特征和预存储的注册声纹特征输入到声纹特征匹配模型中进行声纹特征匹配,得到所述待识别音频信息中发声对象的身份识别结果。
9.根据权利要求8所述的身份识别装置,其特征在于,所述声纹特征匹配模型包括降维层、归一化处理层、特征匹配层、目标声纹确定层和识别结果获取层,所述声纹特征匹配模块包括:
降维单元,被配置为执行在所述降维层中,对所述待识别声纹特征进行降维,得到降维特征数据;
归一化处理单元,被配置为执行在所述归一化处理层中,对所述降维特征数据进行归一化处理,得到归一化特征数据;
特征匹配单元,被配置为执行在所述特征匹配层中,对所述归一化特征数据和所述注册声纹特征进行匹配,得到声纹匹配值,所述声纹匹配值表征所述归一化特征数据和所述注册声纹特征间的匹配程度;
目标声纹确定单元,被配置为执行在所述目标声纹确定层中,根据所述声纹匹配值,确定与所述归一化特征数据对应的目标注册声纹特征;
识别结果获取单元,被配置为执行在所述识别结果获取层中,根据所述目标注册声纹特征对应的身份信息,确定所述待识别音频信息中发声对象的身份识别结果。
10.根据权利要求8所述的身份识别装置,其特征在于,所述装置还包括:
注册音频获取模块,被配置为执行获取注册音频信息;
注册音频特征提取模块,被配置为执行将所述注册音频信息输入到声纹特征确定模型中进行声纹特征提取,得到注册声纹特征;
注册声纹特征存储模块,被配置为执行存储所述注册声纹特征。
11.根据权利要求8所述的身份识别装置,其特征在于,所述音频特征提取网络包括预处理层、频域特征提取层、滤波层和目标音频获取层,所述音频特征提取单元包括:
预处理单元,被配置为执行在所述预处理层中,对所述待识别音频信息进行预处理,得到音频帧信息;
频域特征提取单元,被配置为执行在所述频域特征提取层中,对所述音频帧信息进行短时傅里叶变换,得到频域特征信息;
滤波单元,被配置为执行在所述滤波层中,对所述频域特征信息进行梅尔滤波,得到初始音频特征信息;
目标音频获取单元,被配置为执行在所述目标音频获取层中,对所述初始音频特征信息进行离散余弦变换,得到所述目标音频特征信息。
12.根据权利要求8所述的身份识别装置,其特征在于,所述目标音频特征信息有多个,所述语音活动检测单元包括:
语音活动端点确定单元,被配置为执行在所述语音活动检测网络中,确定每个目标音频特征信息中的语音活动起点和语音活动终点;
语音特征信息确定单元,被配置为执行将每个目标音频特征信息中相邻的一组语音活动起点和语音活动终点间的音频特征数据作为所述语音特征信息。
13.根据权利要求8到12中任一项所述的身份识别装置,其特征在于,所述装置还包括:
第一标注信息获取模块,被配置为执行获取样本音频信息和所述样本音频信息对应的身份标注信息;
预测声纹特征获取模块,被配置为执行将所述样本音频信息输入到待训练声纹特征确定模型,对所述样本音频信息进行声纹特征提取,得到预测声纹特征;
预测身份标识获取模块,被配置为执行将所述预测声纹特征输入到回归分类网络中,对所述预测声纹特征进行分类,得到所述预测声纹特征的预测身份标识信息;
声纹识别误差确定模块,被配置为执行根据所述预测身份标识信息和所述身份标注信息,确定声纹识别误差;
第一模型训练模块,被配置为执行基于所述声纹识别误差,对所述待训练声纹特征确定模型进行训练,得到所述声纹特征确定模型。
14.根据权利要求8到12中任一项所述的身份识别装置,其特征在于,所述装置还包括:
信息获取模块,被配置为执行获取多个注册音频信息和多个样本音频信息;
参考声纹特征获取模块,被配置为执行将所述多个注册音频信息输入所述声纹特征确定模型,得到多个参考声纹特征;
样本声纹特征获取模块,被配置为执行将所述多个样本音频信息输入所述声纹特征确定模型,得到多个样本声纹特征;
第二标注信息获取模块,被配置为执行基于所述多个参考声纹特征和所述多个样本声纹特征,生成多组声纹训练数据和每组声纹训练数据的匹配标注信息;
预测声纹匹配值获取模块,被配置为执行将所述多组声纹训练数据输入到待训练声纹特征匹配模型中,对每组声纹训练数据中的参考声纹特征信息和样本声纹特征进行匹配,得到预测声纹匹配值;
匹配误差数据获取模块,被配置为执行根据所述预测声纹匹配值和所述匹配标注信息,确定匹配误差数据;
第二模型训练模块,被配置为执行基于所述匹配误差数据,对所述待训练声纹特征匹配模型进行训练,得到所述声纹特征匹配模型。
15.一种电子设备,其特征在于,所述设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7中任一项所述的身份识别方法。
16.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至7中任一项所述的身份识别方法。
17.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的身份识别方法。
CN202110122528.6A 2021-01-28 2021-01-28 一种身份识别方法和装置 Active CN113035202B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110122528.6A CN113035202B (zh) 2021-01-28 2021-01-28 一种身份识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110122528.6A CN113035202B (zh) 2021-01-28 2021-01-28 一种身份识别方法和装置

Publications (2)

Publication Number Publication Date
CN113035202A CN113035202A (zh) 2021-06-25
CN113035202B true CN113035202B (zh) 2023-02-28

Family

ID=76459869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110122528.6A Active CN113035202B (zh) 2021-01-28 2021-01-28 一种身份识别方法和装置

Country Status (1)

Country Link
CN (1) CN113035202B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113488059A (zh) * 2021-08-13 2021-10-08 广州市迪声音响有限公司 一种声纹识别方法及系统
CN113838469A (zh) * 2021-09-09 2021-12-24 竹间智能科技(上海)有限公司 一种身份识别方法、系统及存储介质
CN113697321A (zh) * 2021-09-16 2021-11-26 安徽世绿环保科技有限公司 一种垃圾分类站用垃圾袋赋码系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109346088A (zh) * 2018-12-06 2019-02-15 泰康保险集团股份有限公司 身份识别方法、装置、介质及电子设备
WO2019085575A1 (zh) * 2017-11-02 2019-05-09 阿里巴巴集团控股有限公司 一种声纹认证方法、账号注册方法及装置
CN111028845A (zh) * 2019-12-06 2020-04-17 广州国音智能科技有限公司 多音频识别方法、装置、设备及可读存储介质
CN111243603A (zh) * 2020-01-09 2020-06-05 厦门快商通科技股份有限公司 声纹识别方法、系统、移动终端及存储介质
CN112053695A (zh) * 2020-09-11 2020-12-08 北京三快在线科技有限公司 声纹识别方法、装置、电子设备及存储介质
CN112259106A (zh) * 2020-10-20 2021-01-22 网易(杭州)网络有限公司 声纹识别方法、装置、存储介质及计算机设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288470B (zh) * 2017-01-10 2021-12-21 富士通株式会社 基于声纹的身份验证方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019085575A1 (zh) * 2017-11-02 2019-05-09 阿里巴巴集团控股有限公司 一种声纹认证方法、账号注册方法及装置
CN109346088A (zh) * 2018-12-06 2019-02-15 泰康保险集团股份有限公司 身份识别方法、装置、介质及电子设备
CN111028845A (zh) * 2019-12-06 2020-04-17 广州国音智能科技有限公司 多音频识别方法、装置、设备及可读存储介质
CN111243603A (zh) * 2020-01-09 2020-06-05 厦门快商通科技股份有限公司 声纹识别方法、系统、移动终端及存储介质
CN112053695A (zh) * 2020-09-11 2020-12-08 北京三快在线科技有限公司 声纹识别方法、装置、电子设备及存储介质
CN112259106A (zh) * 2020-10-20 2021-01-22 网易(杭州)网络有限公司 声纹识别方法、装置、存储介质及计算机设备

Also Published As

Publication number Publication date
CN113035202A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN113035202B (zh) 一种身份识别方法和装置
CN107928673B (zh) 音频信号处理方法、装置、存储介质和计算机设备
CN107527620B (zh) 电子装置、身份验证的方法及计算机可读存储介质
WO2021139425A1 (zh) 语音端点检测方法、装置、设备及存储介质
CN112435684B (zh) 语音分离方法、装置、计算机设备和存储介质
CN109785859B (zh) 基于语音分析的管理音乐的方法、装置和计算机设备
CN111145786A (zh) 语音情感识别方法和装置、服务器、计算机可读存储介质
CN110033756B (zh) 语种识别方法、装置、电子设备及存储介质
CN108922543B (zh) 模型库建立方法、语音识别方法、装置、设备及介质
WO2019086118A1 (en) Segmentation-based feature extraction for acoustic scene classification
WO2021042537A1 (zh) 语音识别认证方法及系统
WO2019232826A1 (zh) i-vector向量提取方法、说话人识别方法、装置、设备及介质
CN109584904B (zh) 应用于基础音乐视唱教育的视唱音频唱名识别建模方法
CN110556126A (zh) 语音识别方法、装置以及计算机设备
CN110570870A (zh) 一种文本无关的声纹识别方法、装置及设备
CN115050372A (zh) 一种音频片段的聚类方法、装置、电子设备和介质
CN111737515B (zh) 音频指纹提取方法、装置、计算机设备和可读存储介质
CN112259114A (zh) 语音处理方法及装置、计算机存储介质、电子设备
CN111932056A (zh) 客服质量评分方法、装置、计算机设备和存储介质
CN109031202B (zh) 基于听觉场景分析的室内环境区域定位系统及方法
CN111785262A (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
Akinrinmade et al. Creation of a Nigerian voice corpus for indigenous speaker recognition
CN110767238B (zh) 基于地址信息的黑名单识别方法、装置、设备及存储介质
Zhipeng et al. Voiceprint recognition based on BP Neural Network and CNN
CN114512133A (zh) 发声对象识别方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant