CN117457008A - 基于电话信道的多人声纹识别方法及装置 - Google Patents
基于电话信道的多人声纹识别方法及装置 Download PDFInfo
- Publication number
- CN117457008A CN117457008A CN202311297036.6A CN202311297036A CN117457008A CN 117457008 A CN117457008 A CN 117457008A CN 202311297036 A CN202311297036 A CN 202311297036A CN 117457008 A CN117457008 A CN 117457008A
- Authority
- CN
- China
- Prior art keywords
- voice
- voiceprint
- audio
- data set
- person
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 239000012634 fragment Substances 0.000 claims abstract description 105
- 238000005070 sampling Methods 0.000 claims abstract description 71
- 238000000926 separation method Methods 0.000 claims abstract description 32
- 238000012952 Resampling Methods 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims description 49
- 239000013598 vector Substances 0.000 claims description 37
- 238000001228 spectrum Methods 0.000 claims description 31
- 238000004422 calculation algorithm Methods 0.000 claims description 30
- 238000012545 processing Methods 0.000 claims description 23
- 230000007613 environmental effect Effects 0.000 claims description 20
- 238000007781 pre-processing Methods 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 8
- 238000009432 framing Methods 0.000 claims description 7
- 230000008030 elimination Effects 0.000 claims description 6
- 238000003379 elimination reaction Methods 0.000 claims description 6
- 238000009499 grossing Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000006835 compression Effects 0.000 claims description 5
- 238000007906 compression Methods 0.000 claims description 5
- 230000005284 excitation Effects 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000003595 spectral effect Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于电话信道的多人声纹识别方法及装置,该方法包括:对预先处理后的语音音频进行人声分离,得到语音音频中人员的语音片段数据集合,并对语音片段数据集合进行重采样,得到采样频率与预设的语音数据集合相匹配的目标语音片段数据集合,将目标语音片段数据集合输入至预先训练好的声纹识别模型进行识别,得到对应的声纹识别结果,计算声纹识别结果与声纹识别样本库中每一个人员对应的声纹样本的声纹匹配度,并将声纹匹配度高于预设匹配度阈值且声纹匹配度的排名为预设排名的声纹识别结果,确定为语音音频中对应人员的最终声纹识别结果。可见,实施本发明能够在通话语音采样率不高的情况下提高对通话人员的声纹识别效率与准确率。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种基于电话信道的多人声纹识别方法及装置。
背景技术
声纹是对语音中所蕴含的、能唯一表征和标识说话人身份的语音特征参数及基于这些特征参数所建立的语音模型的总称。声纹是人的生物个性特征,很难找到两个声纹完全一样的人。
然而目前,移动金融发布了有关声纹识别的安全应用技术规范,但是该规范却并不涉及固定电话方面的语音,这是由于固定电话的语音信号采样率不高,一般为8KHZ的采样率,同时电话语音中不仅存在着环境噪声的干扰,还经常存在着双方同时说话的情况,这给声纹识别在固定电话上的应用带来了极大的困难。
如果想要准确识别固定电话中通话人的身份信息,需要在8KHZ采样率的情况下,实现对这种语音质量不高、语音特征不明显的通话语音的声纹识别。为了解决这些难点,现时本发明提供了一种基于电话信道的多人声纹识别方法及装置,以解决在多人通话的语音质量不高的情况下,对通话人员声纹识别的难度高、以及效率与准确率不高的技术问题。
发明内容
本发明所要解决的技术问题在于,提供一种基于电话信道的多人声纹识别的方法及装置,能够有利于降低对人员声纹识别的难度、以及提高对通话人员声纹识别效率与准确率。
为了解决上述技术问题,本发明第一方面公开了一种基于电话信道的多人声纹识别方法,所述方法包括:
对预先处理后的语音音频进行人声分离,得到所述语音音频中人员的语音片段数据集合,所述语音音频中包括多个人员的语音音频;
对所述语音片段数据集合进行重采样,得到采样频率与预设的语音数据集合的采样频率相匹配的目标语音片段数据集合,并根据所述语音数据集合进行模型预训练,得到对应的声纹识别模型;
将所述目标语音片段数据集合输入至所述声纹识别模型进行识别,得到每一个目标语音片段对应的声纹识别结果;
计算所述声纹识别结果与声纹识别样本库中每一个人员对应的声纹样本的声纹匹配度,并将所述声纹匹配度高于预设匹配度阈值且所述声纹匹配度的排名为预设排名的声纹识别结果,确定为所述语音音频中对应人员的最终声纹识别结果。
作为一种可选的实施方式,在本发明第一方面中,在所述对预先处理后的语音音频进行人声分离之前,所述方法还包括:
采集通话语音信号,并将所述通话语音信号转化为预设格式的语音文件;
对所述语音文件进行预处理操作,得到处理后的语音音频;
所述预设格式为无损音频格式,所述预设格式包括:WAV格式、FLAC格式、APE格式、ALAC格式中的其中一种;
其中,所述对所述语音文件进行预处理操作,得到处理后的语音音频,包括:
采集预设的通话语音中的环境噪声信号,并根据预设的算法计算出所述环境噪声信号的平均信号值;
根据所述环境噪声信号的平均信号值并通过谱减算法对所述语音文件进行去噪计算,得到去噪后的语音音频;
其中,所述预设的算法的公式表示为:
所述表示为所述环境噪声信号n的平均信号值,所述nM(t)表示为第M个环境噪声时域信号,所述t表示为环境噪声信号n所经过的时间;
所述谱减算法的公式表示为:
其中,所述X(ω)表示为所述去噪后的语音音频经过傅里叶变换的频域表达,N(ω)是所述经过傅里叶变换后的频域表达,所述Y(ω)是输入待预处理的所述语音文件的频域表达,所述/>表示所述语音文件的频域相位;
所述去噪后的语音音频表示为:
其中,所述X(ω)的绝对值表示为所述去噪后的语音音频。
作为一种可选的实施方式,在本发明第一方面中,所述对预先处理后的语音音频进行人声分离,得到所述语音音频中人员的语音片段数据集合,包括:
按照预设的时间间隔对所述语音音频进行分帧,得到多个音频帧;
遍历每一个音频帧并计算每一个音频帧的能量,并判断是否存在至少一个音频帧的能量少于预设的能量阈值;
当判断到存在至少一个音频帧的能量少于所述能量阈值时,确定所述至少一个音频帧为静默时间帧,并对所有静默时间帧中连续的静默时间帧合并为静默时间片段,根据所述静默时间片段对所述语音音频进行切分,得到所述语音音频中人员的语音片段数据集合;
当判断到未存在至少一个音频帧的能量少于所述能量阈值时,按照固定时间切分的方式对所述语音音频进行切分,得到所述语音音频中固定时间间隔内人员的语音片段数据集合。
作为一种可选的实施方式,在本发明第一方面中,所述对所述语音片段数据集合进行重采样,得到采样频率与预设的语音数据集合的采样频率相匹配的目标语音片段数据集合,包括:
根据线性插值算法对所述语音片段数据集合进行重采样,得到采样频率与预设的语音数据集合的采样频率相匹配的目标语音片段数据集合。
作为一种可选的实施方式,在本发明第一方面中,所述根据所述语音数据集合进行模型预训练,得到对应的声纹识别模型,包括:
根据VoxCeleb中的语音数据集合进行模型预训练,得到所述语音数据集合对应的预训练模型;
根据预先采集的通话语音信号对所述预训练模型进行调试,得到对应的声纹识别模型;
其中,所述根据预先采集的通话语音信号对所述预训练模型进行调试,得到对应的声纹识别模型,包括:
对预先采集的通话语音信号进行重采样,得到重采样后的通话语音信号集合;
通过FIR高通数字滤波器对所述重采样后的通话语音信号集合进行预加重,得到预加重后的通话语音信号集合;
对所述预加重后的通话语音信号集合进行分帧处理,得到多个通话语音信号帧,并对每一个通话语音信号帧进行加窗处理与离散傅里叶变换处理,得到每一个通话语音信号帧的频域表达;
根据所述每一个通话语音信号帧的频域表达生成所述通话语音信号集合对应的频谱;
通过梅尔滤波器组对所述通话语音信号集合的频谱进行除冗余处理与平滑处理,得到所述频谱中对应的频域信号;
对每一个频域信号进行倒谱分析,得到所述频谱中每一个频域信号的梅尔倒谱系数,所述梅尔倒谱系数用于表示为所述通话语音信号中人员语音的声纹特征;
通过ECAPA-TDNN模型对所述通话语音信号中人员语音的声纹特征转换为声纹特征向量,并根据所述声纹特征向量作为调试参数调试所述预训练模型,得到所述通话语音信号对应的声纹识别模型;
其中,所述声纹特征向量用于对所述语音音频中人员的语音片段数据集合进行声纹相似度的匹配识别,所述ECAPA-TDNN模型包括:至少两个时延神经网络层、至少两个Res2Net残差神经网络层、至少两个压缩激励网络层,以及一个注意力层。
作为一种可选的实施方式,在本发明第一方面中,所述将所述目标语音片段数据集合输入至所述声纹识别模型进行识别,得到每一个目标语音片段对应的声纹识别结果,计算所述声纹识别结果与声纹识别样本库中每一个人员对应的声纹样本的声纹匹配度,包括:
将所述目标语音片段数据集合输入至所述声纹识别模型进行识别,得到每一个目标语音片段对应的声纹特征向量,所述声纹特征向量包括所述目标语音片段中对应人员的声纹特征;
通过每一个目标语音片段对应的声纹特征向量计算所述目标语音片段与声纹识别样本库中每一个人员对应的声纹样本的声纹匹配度;
所述将所述声纹匹配度高于预设匹配度阈值且所述声纹匹配度的排名为预设排名的声纹识别结果,确定为所述语音音频中对应人员的最终声纹识别结果,包括:
判断每一个声纹匹配度是否高于预设的匹配度阈值;
当判断到某一个声纹匹配度高于所述匹配度阈值时,确定所述声纹匹配度为目标声纹匹配度;
将所有目标声纹匹配度按照降序排列,将排列次序为前2的声纹识别结果,确定为所述语音音频中对应人员的最终声纹识别结果。
作为一种可选的实施方式,在本发明第一方面中,所述方法还包括:
当确定出的目标声纹匹配度的数量大于等于3时,计算每一个目标声纹匹配度对应的音频时长与所有目标语音片段的总时长的时长占比值;
判断每一个目标声纹匹配度对应的时长占比值是否小于预设的时长占比阈值;
当判断到某一个目标声纹匹配度对应的时长占比值小于所述时长占比阈值时,将与所述目标声纹匹配度对应的人员识别结果剔除。
本发明第二方面公开了一种基于电话信道的多人声纹识别装置,所述装置包括:
分离模块,用于对预先处理后的语音音频进行人声分离,得到所述语音音频中人员的语音片段数据集合,所述语音音频中包括多个人员的语音音频;
采样模块,用于对分离模块分离出的语音片段数据集合进行重采样,得到采样频率与预设的语音数据集合的采样频率相匹配的目标语音片段数据集合;
训练模块,用于根据所述语音数据集合进行模型预训练,得到对应的声纹识别模型;
识别模块,用于将所述采样模块采样得到的所述目标语音片段数据集合输入至所述训练模块训练得到的所述声纹识别模型进行识别,得到每一个目标语音片段对应的声纹识别结果;
计算模块,用于计算所述识别模块识别出的所述声纹识别结果与声纹识别样本库中每一个人员对应的声纹样本的声纹匹配度;
确定模块,用于将所述计算模块计算出的所述声纹匹配度高于预设匹配度阈值且所述声纹匹配度的排名为预设排名的声纹识别结果,确定为所述语音音频中对应人员的最终声纹识别结果。
作为一种可选的实施方式,在本发明第二方面中,在所述分离模块对预先处理后的语音音频进行人声分离之前,所述装置还包括:
采集模块,用于采集通话语音信号,并将所述通话语音信号转化为预设格式的语音文件;
预处理模块,用于对所述采集模块采集到的所述语音文件进行预处理操作,得到处理后的语音音频;
所述预设格式为无损音频格式,所述预设格式包括:WAV格式、FLAC格式、APE格式、ALAC格式中的其中一种;
其中,所述预处理模块对所述语音文件进行预处理操作,得到处理后的语音音频的具体方式为:
采集预设的通话语音中的环境噪声信号,并根据预设的算法计算出所述环境噪声信号的平均信号值;
根据所述环境噪声信号的平均信号值并通过谱减算法对所述语音文件进行去噪计算,得到去噪后的语音音频;
其中,所述预设的算法的公式表示为:
所述表示为所述环境噪声信号n的平均信号值,所述nM(t)表示为第M个环境噪声时域信号,所述t表示为环境噪声信号n所经过的时间;
所述谱减算法的公式表示为:
其中,所述X(ω)表示为所述去噪后的语音音频经过傅里叶变换的频域表达,N(ω)是所述经过傅里叶变换后的频域表达,所述Y(ω)是输入待预处理的所述语音文件的频域表达,所述/>表示所述语音文件的频域相位;
所述去噪后的语音音频表示为:
其中,所述X(ω)的绝对值表示为所述去噪后的语音音频。
作为一种可选的实施方式,在本发明第二方面中,所述预处理模块对预先处理后的语音音频进行人声分离,得到所述语音音频中人员的语音片段数据集合的具体方式为:
按照预设的时间间隔对所述语音音频进行分帧,得到多个音频帧;
遍历每一个音频帧并计算每一个音频帧的能量,并判断是否存在至少一个音频帧的能量少于预设的能量阈值;
当判断到存在至少一个音频帧的能量少于所述能量阈值时,确定所述至少一个音频帧为静默时间帧,并对所有静默时间帧中连续的静默时间帧合并为静默时间片段,根据所述静默时间片段对所述语音音频进行切分,得到所述语音音频中人员的语音片段数据集合;
当判断到未存在至少一个音频帧的能量少于所述能量阈值时,按照固定时间切分的方式对所述语音音频进行切分,得到所述语音音频中固定时间间隔内人员的语音片段数据集合。
作为一种可选的实施方式,在本发明第二方面中,所述采样模块对所述语音片段数据集合进行重采样,得到采样频率与预设的语音数据集合的采样频率相匹配的目标语音片段数据集合的具体方式为:
根据线性插值算法对所述语音片段数据集合进行重采样,得到采样频率与预设的语音数据集合的采样频率相匹配的目标语音片段数据集合。
作为一种可选的实施方式,在本发明第二方面中,所述训练模块根据所述语音数据集合进行模型预训练,得到对应的声纹识别模型的具体方式为:
根据VoxCeleb中的语音数据集合进行模型预训练,得到所述语音数据集合对应的预训练模型;
根据预先采集的通话语音信号对所述预训练模型进行调试,得到对应的声纹识别模型;
其中,所述根据预先采集的通话语音信号对所述预训练模型进行调试,得到对应的声纹识别模型,包括:
对预先采集的通话语音信号进行重采样,得到重采样后的通话语音信号集合;
通过FIR高通数字滤波器对所述重采样后的通话语音信号集合进行预加重,得到预加重后的通话语音信号集合;
对所述预加重后的通话语音信号集合进行分帧处理,得到多个通话语音信号帧,并对每一个通话语音信号帧进行加窗处理与离散傅里叶变换处理,得到每一个通话语音信号帧的频域表达;
根据所述每一个通话语音信号帧的频域表达生成所述通话语音信号集合对应的频谱;
通过梅尔滤波器组对所述通话语音信号集合的频谱进行除冗余处理与平滑处理,得到所述频谱中对应的频域信号;
对每一个频域信号进行倒谱分析,得到所述频谱中每一个频域信号的梅尔倒谱系数,所述梅尔倒谱系数用于表示为所述通话语音信号中人员语音的声纹特征;
通过ECAPA-TDNN模型对所述通话语音信号中人员语音的声纹特征转换为声纹特征向量,并根据所述声纹特征向量作为调试参数调试所述预训练模型,得到所述通话语音信号对应的声纹识别模型;
其中,所述声纹特征向量用于对所述语音音频中人员的语音片段数据集合进行声纹相似度的匹配识别,所述ECAPA-TDNN模型包括:至少两个时延神经网络层、至少两个Res2Net残差神经网络层、至少两个压缩激励网络层,以及一个注意力层。
作为一种可选的实施方式,在本发明第二方面中,所述识别模块将所述目标语音片段数据集合输入至所述声纹识别模型进行识别,得到每一个目标语音片段对应的声纹识别结果的具体方式为:
将所述目标语音片段数据集合输入至所述声纹识别模型进行识别,得到每一个目标语音片段对应的声纹特征向量,所述声纹特征向量包括所述目标语音片段中对应人员的声纹特征;
所述计算模块计算所述声纹识别结果与声纹识别样本库中每一个人员对应的声纹样本的声纹匹配度的具体方式为:
通过每一个目标语音片段对应的声纹特征向量计算所述目标语音片段与声纹识别样本库中每一个人员对应的声纹样本的声纹匹配度;
所述确定模块将所述声纹匹配度高于预设匹配度阈值且所述声纹匹配度的排名为预设排名的声纹识别结果,确定为所述语音音频中对应人员的最终声纹识别结果的具体方式为:
判断每一个声纹匹配度是否高于预设的匹配度阈值;
当判断到某一个声纹匹配度高于所述匹配度阈值时,确定所述声纹匹配度为目标声纹匹配度;
将所有目标声纹匹配度按照降序排列,将排列次序为前2的声纹识别结果,确定为所述语音音频中对应人员的最终声纹识别结果。
作为一种可选的实施方式,在本发明第二方面中,所述装置还包括:
所述计算模块,还用于当所述确定模块确定出的目标声纹匹配度的数量大于等于3时,计算每一个目标声纹匹配度对应的音频时长与所有目标语音片段的总时长的时长占比值;
判断模块,用于判断所述计算模块计算出的每一个目标声纹匹配度对应的时长占比值是否小于预设的时长占比阈值;
剔除模块,用于当所述判断模块判断到某一个目标声纹匹配度对应的时长占比值小于所述时长占比阈值时,将与所述目标声纹匹配度对应的人员识别结果剔除。
本发明第三方面公开了另一种基于电话信道的多人声纹识别装置,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的基于电话信道的多人声纹识别方法。
本发明第四方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明第一方面公开的基于电话信道的多人声纹识别方法。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中,提供了一种基于电话信道的多人声纹识别方法及装置,该方法包括:对预先处理后的语音音频进行人声分离,得到语音音频中人员的语音片段数据集合,并对语音片段数据集合进行重采样,得到采样频率与预设的语音数据集合的采样频率相匹配的目标语音片段数据集合,将目标语音片段数据集合输入至预先训练好的声纹识别模型进行识别,得到对应的声纹识别结果,计算声纹识别结果与声纹识别样本库中每一个人员对应的声纹样本的声纹匹配度,并将声纹匹配度高于预设匹配度阈值且声纹匹配度的排名为预设排名的声纹识别结果,确定为语音音频中对应人员的最终声纹识别结果。可见,实施本发明能够对预先处理后的语音音频进行人声分离,减少了语音音频中不必要的语音段落,从而提高了对固话通话人员的声纹识别的效率与准确率;对语音片段数据集合进行重采样,以便得到采样频率与预设的语音数据集合的采样频率相匹配的目标语音片段数据集合,避免了采样频率不一致对模型识别准确度造成的影响,有利于提高对固话通话人员的声纹识别准确率;根据声纹识别模型识别出的声纹识别结果计算与声纹识别样本库中每一个人员对应的声纹样本的声纹匹配度,可以准确有效地识别对应通话人员的声纹结果,从而有利于提高对固话通话人员的声纹识别准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1-a是本发明实施例公开的一种基于电话信道的多人声纹识别方法的流程示意图;
图1-b是本发明实施例公开的一种ECAPA-TDNN模型识别的流程示意图;
图1-c是本发明实施例公开的一种通话语音信号的采集设备的连接方式示意图;
图2是本发明实施例公开的另一种基于电话信道的多人声纹识别方法的流程示意图;
图3是本发明实施例公开的一种基于电话信道的多人声纹识别装置的结构示意图;
图4是本发明实施例公开的另一种基于电话信道的多人声纹识别装置的结构示意图;
图5是本发明实施例公开的又一种基于电话信道的多人声纹识别装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明公开了一种基于电话信道的多人声纹识别方法及装置,能够对预先处理后的语音音频进行人声分离,减少了语音音频中不必要的语音段落,从而提高了对固话通话人员的声纹识别的效率与准确率;对语音片段数据集合进行重采样,以便得到采样频率与预设的语音数据集合的采样频率相匹配的目标语音片段数据集合,避免了采样频率不一致对模型识别准确度造成的影响,有利于提高对固话通话人员的声纹识别准确率;根据声纹识别模型识别出的声纹识别结果计算与声纹识别样本库中每一个人员对应的声纹样本的声纹匹配度,可以准确有效地识别对应通话人员的声纹结果,从而有利于提高对固话通话人员的声纹识别准确率。以下分别进行详细说明。
实施例一
请参阅图1-a,图1-a是本发明实施例公开的一种基于电话信道的多人声纹识别方法的流程示意图。其中,图1-a所描述的基于电话信道的多人声纹识别方法可以应用于基于电话信道的多人声纹识别装置中,其中,该装置可以应用于基于电话信道的有线通信管理系统,本发明实施例不做限定。可选的,该装置可以应用于本地终端设备(例如:PC终端、本地服务器等)或移动终端设备(例如:智能手机、平板电脑、掌上电脑、移动互联网设备等),本发明实施例不做限定。
如图1-a所示,该基于电话信道的多人声纹识别方法可以包括以下操作:
101、对预先处理后的语音音频进行人声分离,得到语音音频中人员的语音片段数据集合。
在本发明实施例中,可选的,语音音频中可以包括多个人员的语音音频;
在本发明实施例中,对预先处理后的语音音频进行人声分离,得到语音音频中人员的语音片段数据集合,可以包括:
按照预设的时间间隔对语音音频进行分帧,得到多个音频帧;
遍历每一个音频帧并计算每一个音频帧的能量,并判断是否存在至少一个音频帧的能量少于预设的能量阈值。
当判断到存在至少一个音频帧的能量少于能量阈值时,确定该音频帧为静默时间帧,并对所有静默时间帧中连续的静默时间帧合并为静默时间片段,根据静默时间片段对语音音频进行切分,得到语音音频中人员的语音片段数据集合。
当判断到未存在至少一个音频帧的能量少于能量阈值时,按照固定时间切分的方式对语音音频进行切分,得到语音音频中固定时间间隔内人员的语音片段数据集合。
在本发明实施例中,可选的,可以按照25毫秒每一段对语音音频进行分帧。
在本发明实施例中,进一步可选的,假设一段电话语音的时长为tn,已经检测到了静默时间段落为(t1,t2),则根据静默时间将电话语音切分成两段语音,语音的持续时间分别(0,t1)和(t2,tn),为了避免语音时长过短,声纹特征不明显的问题,可以对语音音频中人员的语音片段的时长进行检测,过滤掉时长少于3秒的语音。
这样根据语音中的静默时间对预先处理后的语音音频进行人声分离,能够减少了语音音频中不必要的语音段落,从而提高了对固话通话人员的声纹识别的效率与准确率。
102、对语音片段数据集合进行重采样,得到采样频率与预设的语音数据集合的采样频率相匹配的目标语音片段数据集合,并根据语音数据集合进行模型预训练,得到对应的声纹识别模型。
在本发明实施例中,对语音片段数据集合进行重采样,得到采样频率与预设的语音数据集合的采样频率相匹配的目标语音片段数据集合,可以包括:
根据线性插值算法对语音片段数据集合进行重采样,得到采样频率与预设的语音数据集合的采样频率相匹配的目标语音片段数据集合。
其中,线性插值算法的公式可以表示为:
w1=nk-n
w2=1-w1
sk=w1·xn-1+w2·xn
其中,nk的范围为n≤nk≤(n+1),sk表示重新采样后的目标语音片段数据,xn-1表示的语音音频信号x的第n-1个点,w1和w2分别表示在重采样的时候xn-1与xn的权重。
在本发明实施例中,根据语音数据集合进行模型预训练,得到对应的声纹识别模型,可以包括:
根据VoxCeleb中的语音数据集合进行模型预训练,得到语音数据集合对应的预训练模型。
根据预先采集的通话语音信号对预训练模型进行调试,得到对应的声纹识别模型。
其中,VoxCeleb中的语音数据集合可以包括来自YouTube视频网站的1,251位名人的超过10万段语音,可以让声纹识别模型学习到更多声纹识别的知识,具备一定的泛化能力。
在本发明实施例中,根据预先采集的通话语音信号对预训练模型进行调试,得到对应的声纹识别模型,可以包括:
对预先采集的通话语音信号进行重采样,得到重采样后的通话语音信号集合。
通过FIR高通数字滤波器对重采样后的通话语音信号集合进行预加重,得到预加重后的通话语音信号集合,这样对高频信号进行补偿,可以提高语音信号的信噪比。FIR(Finite Impulse Response,有限脉冲响应滤波器)高通数字滤波器为一种数字滤波器,可以用于对数字信号进行滤波处理。FIR高通数字滤波器的特点是具有线性相位和稳定性,适用于高通滤波器设计。
其中,FIR高通数字滤波器的算法公式可以表示为:
yn=xn-axn-1
其中,xn表示通话语音信号n时刻的采样值,其中a取0.98。
对预加重后的通话语音信号集合进行分帧处理,得到多个通话语音信号帧,并对每一个通话语音信号帧进行加窗处理与离散傅里叶变换处理,得到每一个通话语音信号帧的频域表达。
其中,加窗处理的算法公式可以表示为:
离散傅里叶变换处理的算法公式可以表示为:
y′n(i)表示通话语音信号帧第i帧加窗后的第n个采样点值,Yk(i)表示通通话语音信号帧第i帧频谱的第k个值,N表示通话语音信号的采样点总数,Pk(i)表示通话语音信号帧第i帧的功率谱的第k个值。
根据每一个通话语音信号帧的频域表达生成通话语音信号集合对应的频谱,该频谱为通话语音信号集合对应的功率谱。
通过梅尔滤波器组对通话语音信号集合的频谱进行除冗余处理与平滑处理,得到频谱中对应的频域信号。这样通过预加重处理与加窗处理,可以消除通话语音信号中的口唇辐射影响。
其中,梅尔滤波器组可以采用非线性方式取代线性方式,模拟人耳对声音的感知,将频谱中对应频域信号的频率转换为人类可感知的Mel频率值,对语音频谱进行除冗余处理与平滑处理。梅尔滤波器组可以包括:梅尔(Mel)刻度定义转换函数与多个三角滤波器。
对每一个频域信号进行倒谱分析(离散余弦变换),得到频谱中每一个频域信号的梅尔倒谱系数,梅尔倒谱系数用于表示为通话语音信号中人员语音的声纹特征。
通过ECAPA-TDNN模型对通话语音信号中人员语音的声纹特征转换为声纹特征向量,并根据声纹特征向量作为调试参数调试预训练模型,得到通话语音信号对应的声纹识别模型。
其中,声纹特征向量可以用于对语音音频中人员的语音片段数据集合进行声纹相似度的匹配识别。如图1-b所示,ECAPA-TDNN模型可以包括:至少两个时延神经网络层、至少两个Res2Net残差神经网络层、至少两个压缩激励网络层,以及一个注意力层。
本发明实施例中,进一步可选的,采用AAM softmax损失函数对ECAPA-TDNN模型参数进行优化,其中,损失函数的算法公式为:
这样对语音片段数据集合进行重采样,以便得到采样频率与预设的语音数据集合的采样频率相匹配的目标语音片段数据集合,避免了采样频率不一致对模型识别准确度造成的影响,有利于提高对固话通话人员的声纹识别准确率;以及根据预设的语音数据集合进行模型预训练,以及对语音片段数据集合重采样、预加重、加窗、离散傅里叶变换、梅尔变换以及离散余弦变换后得到声纹特征向量,利用声纹特征向量对模型进行调试与优化,得到对应的声纹识别模型,进一步地提高对固话通话人员的声纹识别准确率。
103、将目标语音片段数据集合输入至声纹识别模型进行识别,得到每一个目标语音片段对应的声纹识别结果,并计算声纹识别结果与声纹识别样本库中每一个人员对应的声纹样本的声纹匹配度。
在本发明实施例中,将目标语音片段数据集合输入至声纹识别模型进行识别,得到每一个目标语音片段对应的声纹识别结果,可以包括:
将目标语音片段数据集合输入至声纹识别模型进行识别,得到每一个目标语音片段对应的声纹特征向量。
其中,声纹特征向量可以包括目标语音片段中对应人员的声纹特征。
通过每一个目标语音片段对应的声纹特征向量计算目标语音片段与声纹识别样本库中每一个人员对应的声纹样本的声纹匹配度。
这样根据声纹识别模型识别出的声纹识别结果计算与声纹识别样本库中每一个人员对应的声纹样本的声纹匹配度,可以准确有效地识别对应通话人员的声纹结果,从而有利于提高对固话通话人员的声纹识别准确率。
104、将声纹匹配度高于预设匹配度阈值且声纹匹配度的排名为预设排名的声纹识别结果,确定为语音音频中对应人员的最终声纹识别结果。
本发明实施例中,将声纹匹配度高于预设匹配度阈值且声纹匹配度的排名为预设排名的声纹识别结果,确定为语音音频中对应人员的最终声纹识别结果,可以包括:
判断每一个声纹匹配度是否高于预设的匹配度阈值。
当判断到某一个声纹匹配度高于所述匹配度阈值时,确定声纹匹配度为目标声纹匹配度。
将所有目标声纹匹配度按照降序排列,将排列次序为前2的声纹识别结果,确定为语音音频中对应人员的最终声纹识别结果。
本发明实施例中,假设本发明设置阈值为0.6,如果匹配度低于0.6的声纹结果将会被排除。电话语音经分离后,形成了三段语音为声纹识别样本库语音有5条分别表示说话人A、B、C、D、E,这三段语音经声纹识别模型后,计算声纹特征向量的相似度的结果为[0.12,0.23,0.31,0.83,0.02],[0.89,0.23,0.29,0.35,0.12],[0.22,0.19,0.42,0.26,0.32],如果仅仅采用匹配度最高的结果作为声纹识别的最终结果的话,识别结果为D、A、C,其中C的声纹匹配度明显不高。由于电话语音通话中一般至多存在两人通话,声纹识别输出的说话人结果为D和A。
这样当仅存在两人进行电话通话时,将声纹匹配度高于预设匹配度阈值且声纹匹配度的排名为预设排名的声纹识别结果,确定为对应通话人员的声纹结果,可以准确有效地识别对应通话人员的声纹结果,有利于提高对固话通话人员的声纹识别准确率。
在一个可选的实施例中,在执行步骤101之前,该方法还可以包括以下操作:
采集通话语音信号,并将通话语音信号转化为预设格式的语音文件。
在该可选的实施例中,可选的,通话语音信号的采集设备可以包括:采集模块、服务器、电话等,其连接方式见图1-c所示,采集模块通过电话线分别与机房电话路由器和固定电话进行连接,实现通话过程中通话语音信号的采集,采集到的通话语音信号则通过网线传输到录音文件服务器。
对语音文件进行预处理操作,得到处理后的语音音频。
预设格式为无损音频格式,预设格式可以包括:WAV格式、FLAC格式、APE格式、ALAC格式中的其中一种。
其中,对语音文件进行预处理操作,得到处理后的语音音频,可以包括:
采集预设的通话语音中的环境噪声信号,并根据预设的算法计算出环境噪声信号的平均信号值。
根据环境噪声信号的平均信号值并通过谱减算法对语音文件进行去噪计算,得到去噪后的语音音频。
在该可选的实施例中,可选的,预设的算法的公式表示为:
表示为环境噪声信号n的平均信号值,nM(t)表示为第M个环境噪声时域信号,t表示为环境噪声信号n所经过的时间;
在该可选的实施例,可选的,其中谱减算法的公式表示为:
其中,X(ω)表示为去噪后的语音音频经过傅里叶变换的频域表达,N(ω)是经过傅里叶变换后的频域表达,Y(ω)是输入待预处理的语音文件的频域表达,/>表示语音文件的频域相位。
去噪后的语音音频表示为:
其中,X(ω)的绝对值表示为去噪后的语音音频。
可见,该可选的实施例能够采用了大量无说话人场景下的电话语音作为电话通话过程中的环境噪声,对语音音频进行深度去噪,提高了语音音频的清晰度,避免了环境噪声对模型识别准确度造成的影响,从而有利于提高对固话通话人员的声纹识别准确率。
实施例二
请参阅图2,图2是本发明实施例公开的一种基于电话信道的多人声纹识别方法的流程示意图。其中,图2所描述的基于电话信道的多人声纹识别方法可以应用于基于电话信道的多人声纹识别装置中,其中,该装置可以应用于基于电话信道的有线通信管理系统,本发明实施例不做限定。可选的,该装置可以应用于本地终端设备(例如:PC终端、本地服务器等)或移动终端设备(例如:智能手机、平板电脑、掌上电脑、移动互联网设备等),本发明实施例不做限定。如图2所示,该基于电话信道的多人声纹识别方法可以包括以下操作:
201、对预先处理后的语音音频进行人声分离,得到语音音频中人员的语音片段数据集合。
202、对语音片段数据集合进行重采样,得到采样频率与预设的语音数据集合的采样频率相匹配的目标语音片段数据集合,并根据语音数据集合进行模型预训练,得到对应的声纹识别模型。
203、将目标语音片段数据集合输入至声纹识别模型进行识别,得到每一个目标语音片段对应的声纹特征向量,并通过每一个目标语音片段对应的声纹特征向量计算目标语音片段与声纹识别样本库中每一个人员对应的声纹样本的声纹匹配度。
204、判断每一个声纹匹配度是否高于预设的匹配度阈值,当判断到某一个声纹匹配度高于匹配度阈值时,可以执行步骤205的操作。
本发明实施例中,当判断到未存在一个声纹匹配度高于匹配度阈值时,结束流程。
205、确定该声纹匹配度为目标声纹匹配度。
206、当确定出的目标声纹匹配度的数量大于等于3时,计算每一个目标声纹匹配度对应的音频时长与所有目标语音片段的总时长的时长占比值;
207、判断每一个目标声纹匹配度对应的时长占比值是否小于预设的时长占比阈值,当判断到某一个目标声纹匹配度时长占比值小于时长占比阈值时,可以执行步骤208的操作。
本发明实施例中,当判断到目标声纹匹配度时长占比值大于等于时长占比阈值时,确定该目标声纹匹配度对应人员的声纹识别结果为语音音频中对应人员的最终声纹识别结果。
208、将该目标声纹匹配度对应的人员识别结果剔除。
在本发明实施例中,针对步骤201-步骤205的其它描述,请参照实施例一中针对步骤101-步骤104的详细描述,本发明实施例不再赘述。
可见,实施本发明实施例能够当识别到通话语音中存在多个人员声音时,通过每一个目标声纹匹配度对应的音频时长与所有目标语音片段的总时长的时长占比值确定对应人员的声纹是否为通话人员,可以进一步准确有效地识别对应通话人员的声纹结果,有利于提高对固话通话人员的声纹识别准确率。
可见,实施图2所描述的基于电话信道的多人声纹识别方法能够对预先处理后的语音音频进行人声分离,减少了语音音频中不必要的语音段落,从而提高了对固话通话人员的声纹识别的效率与准确率;对语音片段数据集合进行重采样,以便得到采样频率与预设的语音数据集合的采样频率相匹配的目标语音片段数据集合,避免了采样频率不一致对模型识别准确度造成的影响,有利于提高对固话通话人员的声纹识别准确率;根据声纹识别模型识别出的声纹识别结果计算与声纹识别样本库中每一个人员对应的声纹样本的声纹匹配度,可以准确有效地识别对应通话人员的声纹结果;以及还能够当识别到通话语音中存在多个人员声音时,通过每一个目标声纹匹配度对应的音频时长与所有目标语音片段的总时长的时长占比值确定对应人员的声纹是否为通话人员,可以进一步准确有效地识别对应通话人员的声纹结果,有利于提高对固话通话人员的声纹识别准确率。
实施例三
请参阅图3,图3是本发明实施例公开的一种基于电话信道的多人声纹识别方法的结构示意图。其中,图3所描述的基于电话信道的多人声纹识别装置可以应执行上述基于电话信道的多人声纹识别方法,其中,该装置可以应用于基于电话信道的有线通信管理系统,本发明实施例不做限定。可选的,该装置可以应用于本地终端设备(例如:PC终端、本地服务器等)或移动终端设备(例如:智能手机、平板电脑、掌上电脑、移动互联网设备等),本发明实施例不做限定。如图3所示,该基于电话信道的多人声纹识别装置可以包括分离模块301、采样模块302、训练模块303、识别模块304、计算模块305、确定模块306,其中:
分离模块301,用于对预先处理后的语音音频进行人声分离,得到语音音频中人员的语音片段数据集合,语音音频中包括多个人员的语音音频;
采样模块302,用于对分离模块301分离出的语音片段数据集合进行重采样,得到采样频率与预设的语音数据集合的采样频率相匹配的目标语音片段数据集合。
训练模块303,用于根据语音数据集合进行模型预训练,得到对应的声纹识别模型。
识别模块304,用于将采样模块302采样得到的目标语音片段数据集合输入至训练模块303训练得到的声纹识别模型进行识别,得到每一个目标语音片段对应的声纹识别结果。
计算模块305,用于计算识别模块304识别出的声纹识别结果与声纹识别样本库中每一个人员对应的声纹样本的声纹匹配度。
确定模块306,用于将计算模块305计算出的声纹匹配度高于预设匹配度阈值且声纹匹配度的排名为预设排名的声纹识别结果,确定为语音音频中对应人员的最终声纹识别结果。
可见,实施图3所描述的基于电话信道的多人声纹识别装置能够对预先处理后的语音音频进行人声分离,减少了语音音频中不必要的语音段落,从而提高了对固话通话人员的声纹识别的效率与准确率;对语音片段数据集合进行重采样,以便得到采样频率与预设的语音数据集合的采样频率相匹配的目标语音片段数据集合,避免了采样频率不一致对模型识别准确度造成的影响,有利于提高对固话通话人员的声纹识别准确率;根据声纹识别模型识别出的声纹识别结果计算与声纹识别样本库中每一个人员对应的声纹样本的声纹匹配度,可以准确有效地识别对应通话人员的声纹结果,从而有利于提高对固话通话人员的声纹识别准确率。
在一个可选的实施例中,如图4所示,在分离模块301对预先处理后的语音音频进行人声分离之前,该装置还包括:
采集模块307,用于采集通话语音信号,并将通话语音信号转化为预设格式的语音文件。
预处理模块308,用于对采集模块307采集到的语音文件进行预处理操作,得到处理后的语音音频。
预设格式为无损音频格式,预设格式包括:WAV格式、FLAC格式、APE格式、ALAC格式中的其中一种。
其中,预处理模块308对语音文件进行预处理操作,得到处理后的语音音频的具体方式为:
采集预设的通话语音中的环境噪声信号,并根据预设的算法计算出环境噪声信号的平均信号值。
根据环境噪声信号的平均信号值并通过谱减算法对语音文件进行去噪计算,得到去噪后的语音音频。
其中,预设的算法的公式表示为:
表示为环境噪声信号n的平均信号值,nM(t)表示为第M个环境噪声时域信号,t表示为环境噪声信号n所经过的时间。
谱减算法的公式表示为:
其中,X(ω)表示为去噪后的语音音频经过傅里叶变换的频域表达,N(ω)是经过傅里叶变换后的频域表达,Y(ω)是输入待预处理的语音文件的频域表达,/>表示语音文件的频域相位。
去噪后的语音音频表示为:
/>
其中,X(ω)的绝对值表示为去噪后的语音音频。
可见,实施图4所描述的基于电话信道的多人声纹识别装置能够通过大量无说话人场景下的电话语音作为电话通话过程中的环境噪声,对语音音频进行深度去噪,提高了语音音频的清晰度,避免了环境噪声对模型识别准确度造成的影响,从而有利于提高对固话通话人员的声纹识别准确率。
在另一个可选的实施例中,如图4所示,预处理模块308对预先处理后的语音音频进行人声分离,得到语音音频中人员的语音片段数据集合的具体方式为:
按照预设的时间间隔对语音音频进行分帧,得到多个音频帧。
遍历每一个音频帧并计算每一个音频帧的能量,并判断是否存在至少一个音频帧的能量少于预设的能量阈值。
当判断到存在至少一个音频帧的能量少于能量阈值时,确定至少一个音频帧为静默时间帧,并对所有静默时间帧中连续的静默时间帧合并为静默时间片段,根据静默时间片段对语音音频进行切分,得到语音音频中人员的语音片段数据集合。
当判断到未存在至少一个音频帧的能量少于能量阈值时,按照固定时间切分的方式对语音音频进行切分,得到语音音频中固定时间间隔内人员的语音片段数据集合。
可见,实施图4所描述的基于电话信道的多人声纹识别装置能够根据语音中的静默时间对预先处理后的语音音频进行人声分离,能够减少了语音音频中不必要的语音段落,从而提高了对固话通话人员的声纹识别的效率与准确率。
在又一个可选的实施例中,如图4所示,采样模块302对语音片段数据集合进行重采样,得到采样频率与预设的语音数据集合的采样频率相匹配的目标语音片段数据集合的具体方式为:
根据线性插值算法对语音片段数据集合进行重采样,得到采样频率与预设的语音数据集合的采样频率相匹配的目标语音片段数据集合。
可见,实施图4所描述的基于电话信道的多人声纹识别装置能够对语音片段数据集合进行重采样,以便得到采样频率与预设的语音数据集合的采样频率相匹配的目标语音片段数据集合,避免了采样频率不一致对模型识别准确度造成的影响,有利于提高对固话通话人员的声纹识别准确率。
在又一个可选的实施例中,如图4所示,训练模块303根据语音数据集合进行模型预训练,得到对应的声纹识别模型的具体方式为:
根据VoxCeleb中的语音数据集合进行模型预训练,得到语音数据集合对应的预训练模型。
根据预先采集的通话语音信号对预训练模型进行调试,得到对应的声纹识别模型。
其中,根据预先采集的通话语音信号对预训练模型进行调试,得到对应的声纹识别模型,包括:
对预先采集的通话语音信号进行重采样,得到重采样后的通话语音信号集合。
通过FIR高通数字滤波器对重采样后的通话语音信号集合进行预加重,得到预加重后的通话语音信号集合。
对预加重后的通话语音信号集合进行分帧处理,得到多个通话语音信号帧,并对每一个通话语音信号帧进行加窗处理与离散傅里叶变换处理,得到每一个通话语音信号帧的频域表达。
根据每一个通话语音信号帧的频域表达生成通话语音信号集合对应的频谱。
通过梅尔滤波器组对通话语音信号集合的频谱进行除冗余处理与平滑处理,得到频谱中对应的频域信号。
对每一个频域信号进行倒谱分析,得到频谱中每一个频域信号的梅尔倒谱系数,梅尔倒谱系数用于表示为通话语音信号中人员语音的声纹特征。
通过ECAPA-TDNN模型对通话语音信号中人员语音的声纹特征转换为声纹特征向量,并根据声纹特征向量作为调试参数调试预训练模型,得到通话语音信号对应的声纹识别模型。
其中,声纹特征向量用于对语音音频中人员的语音片段数据集合进行声纹相似度的匹配识别,ECAPA-TDNN模型包括:至少两个时延神经网络层、至少两个Res2Net残差神经网络层、至少两个压缩激励网络层,以及一个注意力层。
可见,实施图4所描述的基于电话信道的多人声纹识别装置能够根据预设的语音数据集合进行模型预训练,以及对语音片段数据集合重采样、预加重、加窗、离散傅里叶变换、梅尔变换以及离散余弦变换后得到声纹特征向量,利用声纹特征向量对模型进行调试与优化,得到对应的声纹识别模型,进一步地提高对固话通话人员的声纹识别准确率。
在又一个可选的实施例中,如图4所示,识别模块304将目标语音片段数据集合输入至声纹识别模型进行识别,得到每一个目标语音片段对应的声纹识别结果的具体方式为:
将目标语音片段数据集合输入至声纹识别模型进行识别,得到每一个目标语音片段对应的声纹特征向量,声纹特征向量包括目标语音片段中对应人员的声纹特征。
计算模块305计算声纹识别结果与声纹识别样本库中每一个人员对应的声纹样本的声纹匹配度的具体方式为:
通过每一个目标语音片段对应的声纹特征向量计算目标语音片段与声纹识别样本库中每一个人员对应的声纹样本的声纹匹配度。
确定模块306将声纹匹配度高于预设匹配度阈值且声纹匹配度的排名为预设排名的声纹识别结果,确定为语音音频中对应人员的最终声纹识别结果的具体方式为:
判断每一个声纹匹配度是否高于预设的匹配度阈值。
当判断到某一个声纹匹配度高于匹配度阈值时,确定声纹匹配度为目标声纹匹配度。
将所有目标声纹匹配度按照降序排列,将排列次序为前2的声纹识别结果,确定为语音音频中对应人员的最终声纹识别结果。
可见,实施图4所描述的基于电话信道的多人声纹识别装置能够根据声纹识别模型识别出的声纹识别结果计算与声纹识别样本库中每一个人员对应的声纹样本的声纹匹配度,可以准确有效地识别对应通话人员的声纹结果,从而有利于提高对固话通话人员的声纹识别准确率。
在又一个可选的实施例中,如图4所示,该装置还包括:
计算模块305,还用于当确定模块306确定出的目标声纹匹配度的数量大于等于3时,计算每一个目标声纹匹配度对应的音频时长与所有目标语音片段的总时长的时长占比值。
判断模块309,用于判断计算模块305计算出的每一个目标声纹匹配度对应的时长占比值是否小于预设的时长占比阈值。
剔除模块310,用于当判断模块309判断到某一个目标声纹匹配度对应的时长占比值小于时长占比阈值时,将与目标声纹匹配度对应的人员识别结果剔除。
可见,实施图4所描述的基于电话信道的多人声纹识别装置能够当识别到通话语音中存在多个人员声音时,通过每一个目标声纹匹配度对应的音频时长与所有目标语音片段的总时长的时长占比值确定对应人员的声纹是否为通话人员,可以进一步准确有效地识别对应通话人员的声纹结果,有利于提高对固话通话人员的声纹识别准确率。
实施例四
请参阅图5,图5是本发明实施例公开的一种基于电话信道的多人声纹识别方法的结构示意图。其中,图5所描述的基于电话信道的多人声纹识别装置可以应执行上述基于电话信道的多人声纹识别方法,其中,该装置可以应用于基于电话信道的有线通信管理系统,本发明实施例不做限定。可选的,该装置可以应用于本地终端设备(例如:PC终端、本地服务器等)或移动终端设备(例如:智能手机、平板电脑、掌上电脑、移动互联网设备等),本发明实施例不做限定。
如图5所示,该基于电话信道的多人声纹识别装置可以包括:
存储有可执行程序代码的存储器401;
与存储器401耦合的处理器402;
处理器402调用存储器401中存储的可执行程序代码,执行本发明实施例一或本发明实施例二所描述的基于电话信道的多人声纹识别方法中的步骤。
实施例五
本发明实施例公开了一种计算机存储介质,该计算机存储介质存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例一或本发明实施例二所描述的基于电话信道的多人声纹识别方法中的步骤。
实施例六
本发明实施例公开了一种计算机程序产品,该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,且该计算机程序可操作来使计算机执行实施例一或实施例二中所描述的基于电话信道的多人声纹识别方法中的步骤。
以上所描述的装置实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
最后应说明的是:本发明实施例公开的一种基于电话信道的多人声纹识别方法及装置所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。
Claims (10)
1.一种基于电话信道的多人声纹识别方法,其特征在于,所述方法包括:
对预先处理后的语音音频进行人声分离,得到所述语音音频中人员的语音片段数据集合,所述语音音频中包括多个人员的语音音频;
对所述语音片段数据集合进行重采样,得到采样频率与预设的语音数据集合的采样频率相匹配的目标语音片段数据集合,并根据所述语音数据集合进行模型预训练,得到对应的声纹识别模型;
将所述目标语音片段数据集合输入至所述声纹识别模型进行识别,得到每一个目标语音片段对应的声纹识别结果;
计算所述声纹识别结果与声纹识别样本库中每一个人员对应的声纹样本的声纹匹配度,并将所述声纹匹配度高于预设匹配度阈值且所述声纹匹配度的排名为预设排名的声纹识别结果,确定为所述语音音频中对应人员的最终声纹识别结果。
2.根据权利要求1所述的基于电话信道的多人声纹识别方法,其特征在于,在所述对预先处理后的语音音频进行人声分离之前,所述方法还包括:
采集通话语音信号,并将所述通话语音信号转化为预设格式的语音文件;
对所述语音文件进行预处理操作,得到处理后的语音音频;
所述预设格式为无损音频格式,所述预设格式包括:WAV格式、FLAC格式、APE格式、ALAC格式中的其中一种;
其中,所述对所述语音文件进行预处理操作,得到处理后的语音音频,包括:
采集预设的通话语音中的环境噪声信号,并根据预设的算法计算出所述环境噪声信号的平均信号值;
根据所述环境噪声信号的平均信号值并通过谱减算法对所述语音文件进行去噪计算,得到去噪后的语音音频;
其中,所述预设的算法的公式表示为:
所述表示为所述环境噪声信号n的平均信号值,所述nM(t)表示为第M个环境噪声时域信号,所述t表示为环境噪声信号n所经过的时间;
所述谱减算法的公式表示为:
其中,所述X(ω)表示为所述去噪后的语音音频经过傅里叶变换的频域表达,N(ω)是所述经过傅里叶变换后的频域表达,所述Y(ω)是输入待预处理的所述语音文件的频域表达,所述/>表示所述语音文件的频域相位;
所述去噪后的语音音频表示为:
其中,所述X(ω)的绝对值表示为所述去噪后的语音音频。
3.根据权利要求2所述的基于电话信道的多人声纹识别方法,其特征在于,所述对预先处理后的语音音频进行人声分离,得到所述语音音频中人员的语音片段数据集合,包括:
按照预设的时间间隔对所述语音音频进行分帧,得到多个音频帧;
遍历每一个音频帧并计算每一个音频帧的能量,并判断是否存在至少一个音频帧的能量少于预设的能量阈值;
当判断到存在至少一个音频帧的能量少于所述能量阈值时,确定所述至少一个音频帧为静默时间帧,并对所有静默时间帧中连续的静默时间帧合并为静默时间片段,根据所述静默时间片段对所述语音音频进行切分,得到所述语音音频中人员的语音片段数据集合;
当判断到未存在至少一个音频帧的能量少于所述能量阈值时,按照固定时间切分的方式对所述语音音频进行切分,得到所述语音音频中固定时间间隔内人员的语音片段数据集合。
4.根据权利要求3所述的基于电话信道的多人声纹识别方法,其特征在于,所述对所述语音片段数据集合进行重采样,得到采样频率与预设的语音数据集合的采样频率相匹配的目标语音片段数据集合,包括:
根据线性插值算法对所述语音片段数据集合进行重采样,得到采样频率与预设的语音数据集合的采样频率相匹配的目标语音片段数据集合。
5.根据权利要求2-4任一项所述的基于电话信道的多人声纹识别方法,其特征在于,所述根据所述语音数据集合进行模型预训练,得到对应的声纹识别模型,包括:
根据VoxCeleb中的语音数据集合进行模型预训练,得到所述语音数据集合对应的预训练模型;
根据预先采集的通话语音信号对所述预训练模型进行调试,得到对应的声纹识别模型;
其中,所述根据预先采集的通话语音信号对所述预训练模型进行调试,得到对应的声纹识别模型,包括:
对预先采集的通话语音信号进行重采样,得到重采样后的通话语音信号集合;
通过FIR高通数字滤波器对所述重采样后的通话语音信号集合进行预加重,得到预加重后的通话语音信号集合;
对所述预加重后的通话语音信号集合进行分帧处理,得到多个通话语音信号帧,并对每一个通话语音信号帧进行加窗处理与离散傅里叶变换处理,得到每一个通话语音信号帧的频域表达;
根据所述每一个通话语音信号帧的频域表达生成所述通话语音信号集合对应的频谱;
通过梅尔滤波器组对所述通话语音信号集合的频谱进行除冗余处理与平滑处理,得到所述频谱中对应的频域信号;
对每一个频域信号进行倒谱分析,得到所述频谱中每一个频域信号的梅尔倒谱系数,所述梅尔倒谱系数用于表示为所述通话语音信号中人员语音的声纹特征;
通过ECAPA-TDNN模型对所述通话语音信号中人员语音的声纹特征转换为声纹特征向量,并根据所述声纹特征向量作为调试参数调试所述预训练模型,得到所述通话语音信号对应的声纹识别模型;
其中,所述声纹特征向量用于对所述语音音频中人员的语音片段数据集合进行声纹相似度的匹配识别,所述ECAPA-TDNN模型包括:至少两个时延神经网络层、至少两个Res2Net残差神经网络层、至少两个压缩激励网络层,以及一个注意力层。
6.根据权利要求5所述的基于电话信道的多人声纹识别方法,其特征在于,所述将所述目标语音片段数据集合输入至所述声纹识别模型进行识别,得到每一个目标语音片段对应的声纹识别结果,计算所述声纹识别结果与声纹识别样本库中每一个人员对应的声纹样本的声纹匹配度,包括:
将所述目标语音片段数据集合输入至所述声纹识别模型进行识别,得到每一个目标语音片段对应的声纹特征向量,所述声纹特征向量包括所述目标语音片段中对应人员的声纹特征;
通过每一个目标语音片段对应的声纹特征向量计算所述目标语音片段与声纹识别样本库中每一个人员对应的声纹样本的声纹匹配度;
所述将所述声纹匹配度高于预设匹配度阈值且所述声纹匹配度的排名为预设排名的声纹识别结果,确定为所述语音音频中对应人员的最终声纹识别结果,包括:
判断每一个声纹匹配度是否高于预设的匹配度阈值;
当判断到某一个声纹匹配度高于所述匹配度阈值时,确定所述声纹匹配度为目标声纹匹配度;
将所有目标声纹匹配度按照降序排列,将排列次序为前2的声纹识别结果,确定为所述语音音频中对应人员的最终声纹识别结果。
7.根据权利要求6所述的基于电话信道的多人声纹识别方法,其特征在于,所述方法还包括:
当确定出的目标声纹匹配度的数量大于等于3时,计算每一个目标声纹匹配度对应的音频时长与所有目标语音片段的总时长的时长占比值;
判断每一个目标声纹匹配度对应的时长占比值是否小于预设的时长占比阈值;
当判断到某一个目标声纹匹配度对应的时长占比值小于所述时长占比阈值时,将与所述目标声纹匹配度对应的人员识别结果剔除。
8.一种基于电话信道的多人声纹识别装置,其特征在于,所述装置包括:
分离模块,用于对预先处理后的语音音频进行人声分离,得到所述语音音频中人员的语音片段数据集合,所述语音音频中包括多个人员的语音音频;
采样模块,用于对所述语音片段数据集合进行重采样,得到采样频率与预设的语音数据集合的采样频率相匹配的目标语音片段数据集合;
训练模块,用于根据所述语音数据集合进行模型预训练,得到对应的声纹识别模型;
识别模块,用于将所述目标语音片段数据集合输入至所述声纹识别模型进行识别,得到每一个目标语音片段对应的声纹识别结果;
计算模块,用于计算所述声纹识别结果与声纹识别样本库中每一个人员对应的声纹样本的声纹匹配度;
确定模块,用于将所述声纹匹配度高于预设匹配度阈值且所述声纹匹配度的排名为预设排名的声纹识别结果,确定为所述语音音频中对应人员的最终声纹识别结果。
9.一种基于电话信道的多人声纹识别装置,其特征在于,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-7任一项所述的基于电话信道的多人声纹识别方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行如权利要求1-7任一项所述的基于电话信道的多人声纹识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311297036.6A CN117457008A (zh) | 2023-10-08 | 2023-10-08 | 基于电话信道的多人声纹识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311297036.6A CN117457008A (zh) | 2023-10-08 | 2023-10-08 | 基于电话信道的多人声纹识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117457008A true CN117457008A (zh) | 2024-01-26 |
Family
ID=89592008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311297036.6A Pending CN117457008A (zh) | 2023-10-08 | 2023-10-08 | 基于电话信道的多人声纹识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117457008A (zh) |
-
2023
- 2023-10-08 CN CN202311297036.6A patent/CN117457008A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108766440B (zh) | 说话人分离模型训练方法、两说话人分离方法及相关设备 | |
CN108108357B (zh) | 口音转换方法及装置、电子设备 | |
JP2006079079A (ja) | 分散音声認識システム及びその方法 | |
US5806022A (en) | Method and system for performing speech recognition | |
CN110136726A (zh) | 一种语音性别的估计方法、装置、系统及存储介质 | |
CN111429935A (zh) | 一种语音话者分离方法和装置 | |
CN110176243B (zh) | 语音增强方法、模型训练方法、装置和计算机设备 | |
Bonet et al. | Speech enhancement for wake-up-word detection in voice assistants | |
CN113516987B (zh) | 一种说话人识别方法、装置、存储介质及设备 | |
CN116312559A (zh) | 跨信道声纹识别模型的训练方法、声纹识别方法及装置 | |
CN117457008A (zh) | 基于电话信道的多人声纹识别方法及装置 | |
CN110767238B (zh) | 基于地址信息的黑名单识别方法、装置、设备及存储介质 | |
CN110782901B (zh) | 一种识别网络电话语音的方法、存储介质及装置 | |
Maged et al. | Improving speaker identification system using discrete wavelet transform and AWGN | |
Malewadi et al. | Development of Speech recognition technique for Marathi numerals using MFCC & LFZI algorithm | |
Malik et al. | Wavelet transform based automatic speaker recognition | |
CN114550741A (zh) | 一种语义识别的方法和系统 | |
Bera et al. | Emotion recognition using combination of mfcc and lpcc with supply vector machine | |
CN115171716B (zh) | 一种基于空间特征聚类的连续语音分离方法、系统及电子设备 | |
US20230267936A1 (en) | Frequency mapping in the voiceprint domain | |
CN111833897B (zh) | 一种用于交互式教育的语音增强方法 | |
Weychan et al. | Real time speaker recognition from internet radio | |
CN116682416A (zh) | 一种振铃音类型识别方法及装置 | |
CN112151070B (zh) | 一种语音检测的方法、装置及电子设备 | |
Hmich et al. | Discriminating coding applied to the Automatic Speaker Identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |