CN110875043B - 声纹识别方法、装置、移动终端及计算机可读存储介质 - Google Patents

声纹识别方法、装置、移动终端及计算机可读存储介质 Download PDF

Info

Publication number
CN110875043B
CN110875043B CN201911099176.6A CN201911099176A CN110875043B CN 110875043 B CN110875043 B CN 110875043B CN 201911099176 A CN201911099176 A CN 201911099176A CN 110875043 B CN110875043 B CN 110875043B
Authority
CN
China
Prior art keywords
voiceprint
voiceprint information
information
effective
recognition model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911099176.6A
Other languages
English (en)
Other versions
CN110875043A (zh
Inventor
陈昊亮
许敏强
杨世清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Speakin Intelligent Technology Co ltd
Original Assignee
Guangzhou Speakin Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Speakin Intelligent Technology Co ltd filed Critical Guangzhou Speakin Intelligent Technology Co ltd
Priority to CN201911099176.6A priority Critical patent/CN110875043B/zh
Publication of CN110875043A publication Critical patent/CN110875043A/zh
Application granted granted Critical
Publication of CN110875043B publication Critical patent/CN110875043B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种声纹识别方法、装置、移动终端及计算机可读存储介质,所述声纹识别方法包括:获取声纹信息,并获取所述声纹信息的信噪比,将所述信噪比大于预设信噪比的声纹信息作为第一声纹信息,并基于所述第一声纹信息生成初始声纹识别模型,将所述信噪比小于或等于预设信噪比的声纹信息作为第二声纹信息,并基于所述第二声纹信息训练所述初始声纹识别模型,以生成目标声纹识别模型,提高了声纹识别模型的鲁棒性,进而提高了声纹识别模型识别的准确率。

Description

声纹识别方法、装置、移动终端及计算机可读存储介质
技术领域
本发明涉及声纹识别领域,尤其涉及一种声纹识别方法、装置、移动终端及计算机可读存储介质。
背景技术
现有声纹识别技术中,在仿真实验条件下,将声纹信息进行预处理,并进一步进行特征提取,对深度神经网络训练测试以得到声纹识别模型,然而实际应用场景中,背景条件的复杂不定以及各种噪声影响造成声纹识别模型识别准确率不高。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种声纹识别方法,旨在解决因采集的声纹信息中背景条件的复杂不定以及各种噪声影响造成声纹识别模型识别准确率不高的技术问题。
为实现上述目的,本发明提供一种声纹识别方法,所述声纹识别方法包括以下步骤:
获取声纹信息,并获取所述声纹信息的信噪比;
将所述信噪比大于预设信噪比的声纹信息作为第一声纹信息,并基于所述第一声纹信息生成初始声纹识别模型;
将所述信噪比小于或等于预设信噪比的声纹信息作为第二声纹信息,并基于所述第二声纹信息训练所述初始声纹识别模型,以生成目标声纹识别模型。
优选地,将所述第一声纹信息依次经过预滤波、预加重、分帧加窗,以获得第一平稳声纹信息的多帧声纹;
基于双门限端点检测法检测所述第一平稳声纹信息的多帧声纹,以获得第一有效声纹信息;
提取所述第一有效声纹信息的第一声纹特征,并标识所述第一有效声纹信息;
将所述第一声纹特征作为输入,所述第一有效声纹信息的标识作为输出,训练深度神经网络,以生成初始声纹识别模型。
优选地,分别计算所述第一平稳声纹信息的多帧声纹的每一帧声纹的短时平均能量与短时平均过零率;
获取所述短时平均能量小于预设能量,且所述短时平均过零率大于预设过零率的有效帧声纹,并生成第一有效声纹信息。
优选地,将所述第二声纹信息依次经过预滤波、预加重、分帧加窗,以获得第二平稳声纹信息的多帧声纹;
基于谱熵端点检测法检测所述第二平稳声纹信息的多帧声纹,以获得第二有效声纹信息;
提取所述第二有效声纹信息的第二声纹特征;
将所述第二声纹特征输入所述初始声纹识别模型,训练所述初始声纹识别模型,以生成目标声纹识别模型。
优选地,对所述第二平稳声纹信息的多帧声纹分别进行快速傅里叶变换,以获得第二平稳声纹信息的每一帧声纹的功率谱;
计算功率谱概率密度,并基于所述功率谱概率密度获取所述第二平稳声纹信息的每一帧声纹的谱熵值;
获取所述谱熵值小于预设谱熵值的有效帧声纹,并生成第二有效声纹信息。
优选地,对所述第二有效声纹信息进行快速傅里叶变换,以获得第二有效声纹信息的频谱,并根据所述频谱获取第二有效声纹信息的功率谱;
采用梅尔刻度滤波器组处理所述第二有效声纹信息的功率谱,获取所述第二有效声纹信息的梅尔功率谱;
在所述梅尔功率谱上进行倒谱分析,获取第二有效声纹信息的梅尔频率倒谱系数,并将所述梅尔频率倒谱系数确定为所述第二有效声纹信息的第二声纹特征。
优选地,将所述第二声纹特征输入所述初始声纹识别模型,以获得第二声纹预测结果;
获取所述第二声纹预测结果的偏差值,并基于所述偏差值修改所述初始声纹识别模型的模型参数,以获得目标声纹识别模型。
本发明还提供一种声纹识别装置,所述声纹识别装置包括:
获取模块,用于获取声纹信息,并获取所述声纹信息的信噪比;
第一生成模块,用于将所述信噪比大于预设信噪比的声纹信息作为第一声纹信息,并基于所述第一声纹信息生成初始声纹识别模型;
第二生成模块,用于将所述信噪比小于或等于预设信噪比的声纹信息作为第二声纹信息,并基于所述第二声纹信息训练所述初始声纹识别模型,以生成目标声纹识别模型。
优选地,所述第一生成模块还用于:
将所述第一声纹信息依次经过预滤波、预加重、分帧加窗,以获得第一平稳声纹信息的多帧声纹;
基于双门限端点检测法检测所述第一平稳声纹信息的多帧声纹,以获得第一有效声纹信息;
提取所述第一有效声纹信息的第一声纹特征,并标识所述第一有效声纹信息;
将所述第一声纹特征作为输入,所述第一有效声纹信息的标识作为输出,训练深度神经网络,以生成初始声纹识别模型。
优选地,所述第一生成模块还用于:
分别计算所述第一平稳声纹信息的多帧声纹的每一帧声纹的短时平均能量与短时平均过零率;
获取所述短时平均能量小于预设能量,且所述短时平均过零率大于预设过零率的有效帧声纹,并生成第一有效声纹信息。
优选地,所述第二生成模块还用于:
将所述第二声纹信息依次经过预滤波、预加重、分帧加窗,以获得第二平稳声纹信息的多帧声纹;
基于谱熵端点检测法检测所述第二平稳声纹信息的多帧声纹,以获得第二有效声纹信息;
提取所述第二有效声纹信息的第二声纹特征;
将所述第二声纹特征输入所述初始声纹识别模型,训练所述初始声纹识别模型,以生成目标声纹识别模型。
优选地,所述第二生成模块还用于:
对所述第二平稳声纹信息的多帧声纹分别进行快速傅里叶变换,以获得第二平稳声纹信息的每一帧声纹的功率谱;
计算功率谱概率密度,并基于所述功率谱概率密度获取所述第二平稳声纹信息的每一帧声纹的谱熵值;
获取所述谱熵值小于预设谱熵值的有效帧声纹,并生成第二有效声纹信息。
优选地,所述第二生成模块还用于:
对所述第二有效声纹信息进行快速傅里叶变换,以获得第二有效声纹信息的频谱,并根据所述频谱获取第二有效声纹信息的功率谱;
采用梅尔刻度滤波器组处理所述第二有效声纹信息的功率谱,获取所述第二有效声纹信息的梅尔功率谱;
在所述梅尔功率谱上进行倒谱分析,获取第二有效声纹信息的梅尔频率倒谱系数,并将所述梅尔频率倒谱系数确定为所述第二有效声纹信息的第二声纹特征。
优选地,所述第二生成模块还用于:
将所述第二声纹特征输入所述初始声纹识别模型,以获得第二声纹预测结果;
获取所述第二声纹预测结果的偏差值,并基于所述偏差值修改所述初始声纹识别模型的模型参数,以获得目标声纹识别模型。
本发明还提供一种移动终端,所述移动终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的声纹识别程序,所述声纹识别程序被所述处理器执行时实现以上所述的声纹识别方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有声纹识别程序,所述声纹识别程序被处理器执行时实现以上所述的声纹识别方法的步骤。
本发明通过获取声纹信息,并获取声纹信息的信噪比,将信噪比大于预设信噪比的声纹信息作为第一声纹信息,并基于第一声纹信息生成初始声纹识别模型,将信噪比小于或等于预设信噪比的声纹信息作为第二声纹信息,并基于第二声纹信息训练初始声纹识别模型,以生成目标声纹识别模型,提高了声纹识别模型的鲁棒性,进而提高了声纹识别模型识别的准确率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的移动终端结构示意图;
图2为本发明声纹识别方法第一实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的移动终端结构示意图。
本发明实施例移动终端可以是PC,也可以是智能手机、平板电脑、电子书阅读器等具有声纹识别功能的可移动式终端设备。
如图1所示,该移动终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,移动终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的移动终端结构并不构成对移动终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及声纹识别程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的声纹识别程序。
在本实施例中,声纹识别装置包括:存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的声纹识别程序,其中,处理器1001调用存储器1005中存储的声纹识别程序时,并执行以下操作:
获取声纹信息,并获取所述声纹信息的信噪比;
将所述信噪比大于预设信噪比的声纹信息作为第一声纹信息,并基于所述第一声纹信息生成初始声纹识别模型;
将所述信噪比小于或等于预设信噪比的声纹信息作为第二声纹信息,并基于所述第二声纹信息训练所述初始声纹识别模型,以生成目标声纹识别模型。
进一步地,处理器1001可以调用存储器1005中存储的声纹识别程序,还执行以下操作:
将所述第一声纹信息依次经过预滤波、预加重、分帧加窗,以获得第一平稳声纹信息的多帧声纹;
基于双门限端点检测法检测所述第一平稳声纹信息的多帧声纹,以获得第一有效声纹信息;
提取所述第一有效声纹信息的第一声纹特征,并标识所述第一有效声纹信息;
将所述第一声纹特征作为输入,所述第一有效声纹信息的标识作为输出,训练深度神经网络,以生成初始声纹识别模型。
进一步地,处理器1001可以调用存储器1005中存储的声纹识别程序,还执行以下操作:
分别计算所述第一平稳声纹信息的多帧声纹的每一帧声纹的短时平均能量与短时平均过零率;
获取所述短时平均能量小于预设能量,且所述短时平均过零率大于预设过零率的有效帧声纹,并生成第一有效声纹信息。
进一步地,处理器1001可以调用存储器1005中存储的声纹识别程序,还执行以下操作:
将所述第二声纹信息依次经过预滤波、预加重、分帧加窗,以获得第二平稳声纹信息的多帧声纹;
基于谱熵端点检测法检测所述第二平稳声纹信息的多帧声纹,以获得第二有效声纹信息;
提取所述第二有效声纹信息的第二声纹特征;
将所述第二声纹特征输入所述初始声纹识别模型,训练所述初始声纹识别模型,以生成目标声纹识别模型。
进一步地,处理器1001可以调用存储器1005中存储的声纹识别程序,还执行以下操作:
对所述第二平稳声纹信息的多帧声纹分别进行快速傅里叶变换,以获得第二平稳声纹信息的每一帧声纹的功率谱;
计算功率谱概率密度,并基于所述功率谱概率密度获取所述第二平稳声纹信息的每一帧声纹的谱熵值;
获取所述谱熵值小于预设谱熵值的有效帧声纹,并生成第二有效声纹信息。
进一步地,处理器1001可以调用存储器1005中存储的声纹识别程序,还执行以下操作:
对所述第二有效声纹信息进行快速傅里叶变换,以获得第二有效声纹信息的频谱,并根据所述频谱获取第二有效声纹信息的功率谱;
采用梅尔刻度滤波器组处理所述第二有效声纹信息的功率谱,获取所述第二有效声纹信息的梅尔功率谱;
在所述梅尔功率谱上进行倒谱分析,获取第二有效声纹信息的梅尔频率倒谱系数,并将所述梅尔频率倒谱系数确定为所述第二有效声纹信息的第二声纹特征。
进一步地,处理器1001可以调用存储器1005中存储的声纹识别程序,还执行以下操作:
将所述第二声纹特征输入所述初始声纹识别模型,以获得第二声纹预测结果;
获取所述第二声纹预测结果的偏差值,并基于所述偏差值修改所述初始声纹识别模型的模型参数,以获得目标声纹识别模型。
本发明还提供一种声纹识别方法,参照图2,图2为本发明声纹识别方法第一实施例的流程示意图。
步骤S100,获取声纹信息,并获取所述声纹信息的信噪比;
在本实施例中,可以理解地,现实环境下采集的声纹信息通常附带一定程度的背景噪音,因此再对声纹信息进行特征提取之前,需先对获取的声纹信息进行预滤波、预加重、分帧加窗、端点检测等操作,然而由于声纹信息的信噪比不同,不同信噪比声纹信息的最佳端点检测方法也不同,且端点检测对声纹信息识别准确率的影响最为重要,因此在获取声纹信息之后,需先获取声纹信息的信噪比,再基于声纹信息的信噪比对该声纹信息进行相应的处理。
步骤S200,将所述信噪比大于预设信噪比的声纹信息作为第一声纹信息,并基于所述第一声纹信息生成初始声纹识别模型;
在本实施例中,可以理解地,在声纹信息的信噪比较高时,基于双门限端点检测法对信噪比较高的声纹信息进行端点检测之后的能够提取出更准确的声纹特征,且双门限端点检测法的逻辑运算简单,系统处理速度更快,因此将信噪比大于预设信噪比的声纹信息作为第一声纹信息,并基于第一声纹信息生成初始声纹识别模型,其中,预设信噪比可基于双门限端点检测法与谱熵端点检测法的门限值进行设置,可以理解地,基于双门限端点检测法的最佳信噪比范围为SNR≥50db,基于谱熵端点检测法最佳信噪比范围为0<SNR≤40db,则预设信噪比可在40db至50db之间进行灵活设置,具体不作限制。
在获取信噪比大于预设信噪比的声纹信息之后,将信噪比大于预设信噪比的声纹信息作为第一声纹信息,并对第一声纹信息经过预滤波、预加重、分帧加窗、双门限端点检测之后,接着进行特征提取,提取第一声纹特征,并将提取的第一声纹特征作为深度网络模型输入层中的输入值,将第一声纹特征对应的声纹信息标识作为输出层的输出值,训练深度网络模型,以获得声纹识别参数,即基于第一声纹信息生成初始声纹识别模型。
步骤S300,将所述信噪比小于或等于预设信噪比的声纹信息作为第二声纹信息,并基于所述第二声纹信息训练所述初始声纹识别模型,以生成目标声纹识别模型。
在本实施例中,在基于信噪比大于预设信噪比的第一声纹信息训练深度网络模型,以获取初始声纹识别模型之后,再将信噪比小于或等于预设信噪比的声纹信息作为第二声纹信息,其中,可以理解地,当声纹信息的信噪比小于或等于预设信噪比时,基于谱熵端点检测法检测该声纹信息之后,可以提取更加准确的声纹特征。
在获取信噪比小于或等于预设信噪比的声纹信息之后,将信噪比小于或等于预设信噪比的声纹信息作为第二声纹信息,并对第二声纹信息经过预滤波、预加重、分帧加窗、谱熵端点检测之后,接着进行特征提取,提取第二声纹特征,并将提取的第二声纹特征作为初始声纹识别模型输入层中的输入值,将第二声纹特征对应的声纹信息标识作为输出层的输出值,训练初始声纹识别模型,即基于第二声纹信息训练初始声纹识别模型,以生成目标声纹识别模型。
在本实施例中,通过获取声纹信息,并获取声纹信息的信噪比,接着将信噪比大于预设信噪比的声纹信息作为第一声纹信息,并基于第一声纹信息生成初始声纹识别模型,最后将信噪比小于或等于预设信噪比的声纹信息作为第二声纹信息,并基于第二声纹信息训练初始声纹识别模型,以生成目标声纹识别模型,提高了声纹信息的鲁棒性,进而提高了声纹识别的准确率。
基于第一实施例,提出本发明声纹识别方法的第二实施例,在本实施例中,步骤S200包括:
步骤S210,将所述第一声纹信息依次经过预滤波、预加重、分帧加窗,以获得第一平稳声纹信息的多帧声纹;
步骤S220,基于双门限端点检测法检测所述第一平稳声纹信息的多帧声纹,以获得第一有效声纹信息;
步骤S230,提取所述第一有效声纹信息的第一声纹特征,并标识所述第一有效声纹信息;
步骤S240,将所述第一声纹特征作为输入,所述第一有效声纹信息的标识作为输出,训练深度神经网络,以生成初始声纹识别模型。
在本实施例中,在获取信噪比大于预设信噪比的第一声纹信息之后,对第一声纹信息进行预处理,具体地,将第一声纹信息依次经过预滤波、预加重、分帧加窗,以获得第一平稳声纹信息的多帧声纹,具体地,在获取第一声纹信息之后,将第一声纹信息转化为数字型第一声纹信息,接着将数字型第一声纹信息经过一个预滤波器进行预滤波,以防止声纹信息中的混迭干扰,接着将经过预滤波的数字型第一声纹信息经过预加重,提高第一声纹信息的高频频谱部分,其中,预加重过程可基于具有6dB/倍频程的提升高频特性的预加重数字滤波器实现。
数字型第一声纹信息在经过预滤波、预加重之后,由于声音信号具有很强的时变特性,所以声音信号只有在短时间内才具有时域上的准、平稳特性,因此,在经过预加重之后,接着将数字型第一声纹信息经过分帧加窗,具体地,采用交叠分帧的方法,分帧时长可取20ms,帧与帧之间的交叠偏移可取帧长的1/2或1/3,即时隔1/2或1/3进行分帧,接着通过矩形窗进行每一帧的加窗,以获得第一平稳声纹信息的多帧声纹。
在获得第一平稳声纹信息的多帧声纹之后,基于双门限端点检测法检测第一平稳声纹信息的多帧声纹,以获得第一有效声纹信息。
具体地,步骤S220包括:
步骤S221,分别计算所述第一平稳声纹信息的多帧声纹的每一帧声纹的短时平均能量与短时平均过零率;
步骤S222,获取所述短时平均能量小于预设能量,且所述短时平均过零率大于预设过零率的有效帧声纹,并生成第一有效声纹信息。
在该步骤中,可以理解地,语音和噪音最大区别在于能量,声纹信息中语音段的平均能量要大于噪声信号能量,因此仅在高信噪比的情况下,基于短时平均能量可将语音和噪音区分开,并且,语音能量主要集中在高频,即语音的短时平均过零率高,而噪音能量主要集中在低频,即噪音的短时平均过零率低。
具体地,在获取第一平稳声纹信息的多帧声纹之后,分别计算每一帧声纹的短时平均能量与短时平均过零率,获取第一平稳声纹信息的多帧声纹中短时平均能量小于预设能量,且短时平均过零率大于预设过零率的有效帧声纹,接着将有效帧声纹依照每一帧声纹的时序,合并有效帧声纹,即生成第一有效声纹信息。
在获取第一有效声纹信息之后,提取第一有效声纹信息的第一声纹特征,并标识第一有效声纹信息,接着将第一声纹特征作为输入,第一有效声纹信息的标识作为输出,训练深度神经网络,以生成初始声纹识别模型。
在本实施例中,通过将第一声纹信息依次经过预滤波、预加重、分帧加窗,以获得第一平稳声纹信息的多帧声纹,接着基于双门限端点检测法检测第一平稳声纹信息的多帧声纹,以获得第一有效声纹信息,最后提取第一有效声纹信息的第一声纹特征,并标识第一有效声纹信息,将第一声纹特征作为输入,第一有效声纹信息的标识作为输出,训练深度神经网络,以生成初始声纹识别模型,提高了声纹识别模型的鲁棒性,进而提高了声纹识别模型的准确率。
基于第一实施例,提出本发明声纹识别方法的第三实施例,在本实施例中,步骤S300包括:
步骤S310,将所述第二声纹信息依次经过预滤波、预加重、分帧加窗,以获得第二平稳声纹信息的多帧声纹;
步骤S320,基于谱熵端点检测法检测所述第二平稳声纹信息的多帧声纹,以获得第二有效声纹信息;
步骤S330,提取所述第二有效声纹信息的第二声纹特征;
步骤S340,将所述第二声纹特征输入所述初始声纹识别模型,训练所述初始声纹识别模型,以生成目标声纹识别模型。
在本实施例中,在获取信噪比小于或等于预设信噪比的第二声纹信息之后,对第二声纹信息进行预处理,具体地,将第二声纹信息依次经过预滤波、预加重、分帧加窗,以获得第二平稳声纹信息的多帧声纹,具体地,在获取第二声纹信息之后,将第二声纹信息转化为数字型第二声纹信息,接着将数字型第二声纹信息经过一个预滤波器进行预滤波,数字型第二声纹信息在经过预滤波、预加重之后,接着将数字型第二声纹信息经过分帧加窗,具体地,采用交叠分帧的方法,分帧时长可取20ms,帧与帧之间的交叠偏移可取帧长的1/2或1/3,即时隔1/2或1/3进行分帧,接着通过矩形窗进行每一帧的加窗,以获得第二平稳声纹信息的多帧声纹。
在获得第二平稳声纹信息的多帧声纹之后,基于谱熵端点检测法检测第二平稳声纹信息的多帧声纹,以获得第二有效声纹信息。具体地,该步骤包括:
步骤S321,对所述第二平稳声纹信息的多帧声纹分别进行快速傅里叶变换,以获得第二平稳声纹信息的每一帧声纹的功率谱;
步骤S322,计算功率谱概率密度,并基于所述功率谱概率密度获取所述第二平稳声纹信息的每一帧声纹的谱熵值;
步骤S323,获取所述谱熵值小于预设谱熵值的有效帧声纹,并生成第二有效声纹信息。
该步骤中,在获得第二平稳声纹信息的多帧声纹之后,对第二平稳声纹信息的多帧声纹分别进行快速傅里叶变换,以获得第二平稳声纹信息的每一帧声纹的功率谱,接着基于第二平稳声纹信息的多帧声纹的功率谱集,计算功率谱概率密度,并基于功率谱概率密度获取第二平稳声纹信息的每一帧声纹的谱熵值,最后获取谱熵值小于预设谱熵值的有效帧声纹,并生成第二有效声纹信息。
在获得第二有效声纹信息之后,提取第二有效声纹信息的第二声纹特征,将第二声纹特征输入初始声纹识别模型,训练初始声纹识别模型,以生成目标声纹识别模型。
在本实施例中,通过将第二声纹信息依次经过预滤波、预加重、分帧加窗,以获得第二平稳声纹信息的多帧声纹,接着基于谱熵端点检测法检测第二平稳声纹信息的多帧声纹,以获得第二有效声纹信息,最后提取第二有效声纹信息的第二声纹特征,将第二声纹特征输入初始声纹识别模型,训练初始声纹识别模型,以生成目标声纹识别模型,提高声纹识别模型的鲁棒性,进而提高了声纹识别的准确率。
基于第三实施例,提出本发明声纹识别方法的第四实施例,在本实施例中,步骤S330包括:
步骤S331,对所述第二有效声纹信息进行快速傅里叶变换,以获得第二有效声纹信息的频谱,并根据所述频谱获取第二有效声纹信息的功率谱;
步骤S332,采用梅尔刻度滤波器组处理所述第二有效声纹信息的功率谱,获取所述第二有效声纹信息的梅尔功率谱;
步骤S333,在所述梅尔功率谱上进行倒谱分析,获取第二有效声纹信息的梅尔频率倒谱系数,并将所述梅尔频率倒谱系数确定为所述第二有效声纹信息的第二声纹特征。
在本实施例中,在获取第二有效声纹信息之后,对第二有效声纹信息进行快速傅里叶变换,以获得第二有效声纹信息的频谱,并根据频谱获取第二有效声纹信息的功率谱,接着采用梅尔刻度滤波器组处理第二有效声纹信息的功率谱,获取第二有效声纹信息的梅尔功率谱,最后在梅尔功率谱上进行倒谱分析,获取第二有效声纹信息的梅尔频率倒谱系数,并将梅尔频率倒谱系数确定为第二有效声纹信息的第二声纹特征。
在获取第二有效声纹信息的第二声纹特征之后,将第二声纹特征输入初始声纹识别模型,训练初始声纹识别模型,以获得目标声纹识别模型,具体地,该步骤包括:
步骤S341,将所述第二声纹特征输入所述初始声纹识别模型,以获得第二声纹预测结果;
步骤S342,获取所述第二声纹预测结果的偏差值,并基于所述偏差值修改所述初始声纹识别模型的模型参数,以获得目标声纹识别模型。
在该步骤中,将第二声纹特征输入所述初始声纹识别模型,以获得第二声纹预测结果,接着获取第二声纹预测结果的偏差值,即获取第二声纹特征输入所述初始声纹识别模型之后输出的预测第二声纹特征向量,获取预测第二声纹特征向量与真实第二声纹特征向量的偏差向量,并基于偏差向量修改初始声纹识别模型的模型参数,可选地,按照从小到大的修改规则,逐渐修改初始声纹识别模型的模型参数,直至偏差向量在预设偏差范围内,停止修改模型参数,即基于偏差值修改初始声纹识别模型的模型参数,以获得目标声纹识别模型。
在本实施例中,通过对第二有效声纹信息进行快速傅里叶变换,以获得第二有效声纹信息的频谱,并根据频谱获取第二有效声纹信息的功率谱,接着采用梅尔刻度滤波器组处理第二有效声纹信息的功率谱,并获取第二有效声纹信息的梅尔功率谱,最后在梅尔功率谱上进行倒谱分析,获取第二有效声纹信息的梅尔频率倒谱系数,并将梅尔频率倒谱系数确定为第二有效声纹信息的第二声纹特征,提高了声纹识别模型的准确率。
此外,本发明实施例还提出一种声纹识别装置,所述声纹识别装置包括:
获取模块,用于获取声纹信息,并获取所述声纹信息的信噪比;
第一生成模块,用于将所述信噪比大于预设信噪比的声纹信息作为第一声纹信息,并基于所述第一声纹信息生成初始声纹识别模型;
第二生成模块,用于将所述信噪比小于或等于预设信噪比的声纹信息作为第二声纹信息,并基于所述第二声纹信息训练所述初始声纹识别模型,以生成目标声纹识别模型。
进一步地,所述第一生成模块还用于:
将所述第一声纹信息依次经过预滤波、预加重、分帧加窗,以获得第一平稳声纹信息的多帧声纹;
基于双门限端点检测法检测所述第一平稳声纹信息的多帧声纹,以获得第一有效声纹信息;
提取所述第一有效声纹信息的第一声纹特征,并标识所述第一有效声纹信息;
将所述第一声纹特征作为输入,所述第一有效声纹信息的标识作为输出,训练深度神经网络,以生成初始声纹识别模型。
进一步地,所述第一生成模块还用于:
分别计算所述第一平稳声纹信息的多帧声纹的每一帧声纹的短时平均能量与短时平均过零率;
获取所述短时平均能量小于预设能量,且所述短时平均过零率大于预设过零率的有效帧声纹,并生成第一有效声纹信息。
进一步地,所述第二生成模块还用于:
将所述第二声纹信息依次经过预滤波、预加重、分帧加窗,以获得第二平稳声纹信息的多帧声纹;
基于谱熵端点检测法检测所述第二平稳声纹信息的多帧声纹,以获得第二有效声纹信息;
提取所述第二有效声纹信息的第二声纹特征;
将所述第二声纹特征输入所述初始声纹识别模型,训练所述初始声纹识别模型,以生成目标声纹识别模型。
进一步地,所述第二生成模块还用于:
对所述第二平稳声纹信息的多帧声纹分别进行快速傅里叶变换,以获得第二平稳声纹信息的每一帧声纹的功率谱;
计算功率谱概率密度,并基于所述功率谱概率密度获取所述第二平稳声纹信息的每一帧声纹的谱熵值;
获取所述谱熵值小于预设谱熵值的有效帧声纹,并生成第二有效声纹信息。
进一步地,所述第二生成模块还用于:
对所述第二有效声纹信息进行快速傅里叶变换,以获得第二有效声纹信息的频谱,并根据所述频谱获取第二有效声纹信息的功率谱;
采用梅尔刻度滤波器组处理所述第二有效声纹信息的功率谱,获取所述第二有效声纹信息的梅尔功率谱;
在所述梅尔功率谱上进行倒谱分析,获取第二有效声纹信息的梅尔频率倒谱系数,并将所述梅尔频率倒谱系数确定为所述第二有效声纹信息的第二声纹特征。
进一步地,所述第二生成模块还用于:
将所述第二声纹特征输入所述初始声纹识别模型,以获得第二声纹预测结果;
获取所述第二声纹预测结果的偏差值,并基于所述偏差值修改所述初始声纹识别模型的模型参数,以获得目标声纹识别模型。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有声纹识别程序,所述声纹识别程序被处理器执行时实现以上所述的声纹识别方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种声纹识别方法,其特征在于,所述声纹识别方法包括以下步骤:
获取声纹信息,并获取所述声纹信息的信噪比;
将所述信噪比大于预设信噪比的声纹信息作为第一声纹信息,并基于所述第一声纹信息生成初始声纹识别模型;
将所述信噪比小于或等于预设信噪比的声纹信息作为第二声纹信息,并基于所述第二声纹信息训练所述初始声纹识别模型,以生成目标声纹识别模型;
所述将所述信噪比大于预设信噪比的声纹信息作为第一声纹信息,并基于所述第一声纹信息生成初始声纹识别模型的步骤包括:
将所述第一声纹信息依次经过预滤波、预加重、分帧加窗,以获得第一平稳声纹信息的多帧声纹;
基于双门限端点检测法检测所述第一平稳声纹信息的多帧声纹,以获得第一有效声纹信息;
提取所述第一有效声纹信息的第一声纹特征,并标识所述第一有效声纹信息;
将所述第一声纹特征作为输入,所述第一有效声纹信息的标识作为输出,训练深度神经网络,以生成初始声纹识别模型。
2.如权利要求1所述的声纹识别方法,其特征在于,所述基于双门限端点检测法检测所述第一平稳声纹信息的多帧声纹,以获得第一有效声纹信息的步骤包括:
分别计算所述第一平稳声纹信息的多帧声纹的每一帧声纹的短时平均能量与短时平均过零率;
获取所述短时平均能量小于预设能量,且所述短时平均过零率大于预设过零率的有效帧声纹,并生成第一有效声纹信息。
3.如权利要求1所述的声纹识别方法,其特征在于,所述将所述信噪比小于或等于预设信噪比的声纹信息作为第二声纹信息,并基于所述第二声纹信息训练所述初始声纹识别模型,以生成目标声纹识别模型的步骤包括:
将所述第二声纹信息依次经过预滤波、预加重、分帧加窗,以获得第二平稳声纹信息的多帧声纹;
基于谱熵端点检测法检测所述第二平稳声纹信息的多帧声纹,以获得第二有效声纹信息;
提取所述第二有效声纹信息的第二声纹特征;
将所述第二声纹特征输入所述初始声纹识别模型,训练所述初始声纹识别模型,以生成目标声纹识别模型。
4.如权利要求3所述的声纹识别方法,其特征在于,所述基于谱熵端点检测法检测所述第二平稳声纹信息的多帧声纹,以获得第二有效声纹信息的步骤包括:
对所述第二平稳声纹信息的多帧声纹分别进行快速傅里叶变换,以获得第二平稳声纹信息的每一帧声纹的功率谱;
计算功率谱概率密度,并基于所述功率谱概率密度获取所述第二平稳声纹信息的每一帧声纹的谱熵值;
获取所述谱熵值小于预设谱熵值的有效帧声纹,并生成第二有效声纹信息。
5.如权利要求3所述的声纹识别方法,其特征在于,所述提取所述第二有效声纹信息的第二声纹特征的步骤包括:
对所述第二有效声纹信息进行快速傅里叶变换,以获得第二有效声纹信息的频谱,并根据所述频谱获取第二有效声纹信息的功率谱;
采用梅尔刻度滤波器组处理所述第二有效声纹信息的功率谱,获取所述第二有效声纹信息的梅尔功率谱;
在所述梅尔功率谱上进行倒谱分析,获取第二有效声纹信息的梅尔频率倒谱系数,并将所述梅尔频率倒谱系数确定为所述第二有效声纹信息的第二声纹特征。
6.如权利要求3所述的声纹识别方法,其特征在于,所述将所述第二声纹特征输入所述初始声纹识别模型,训练所述初始声纹识别模型,以获得目标声纹识别模型的步骤包括:
将所述第二声纹特征输入所述初始声纹识别模型,以获得第二声纹预测结果;
获取所述第二声纹预测结果的偏差值,并基于所述偏差值修改所述初始声纹识别模型的模型参数,以获得目标声纹识别模型。
7.一种声纹识别装置,其特征在于,所述声纹识别装置包括:
获取模块,用于获取声纹信息,并获取所述声纹信息的信噪比;
第一生成模块,用于将所述信噪比大于预设信噪比的声纹信息作为第一声纹信息,并基于所述第一声纹信息生成初始声纹识别模型;
第二生成模块,用于将所述信噪比小于或等于预设信噪比的声纹信息作为第二声纹信息,并基于所述第二声纹信息训练所述初始声纹识别模型,以生成目标声纹识别模型;
所述第一生成模块,还用于将所述第一声纹信息依次经过预滤波、预加重、分帧加窗,以获得第一平稳声纹信息的多帧声纹;基于双门限端点检测法检测所述第一平稳声纹信息的多帧声纹,以获得第一有效声纹信息;提取所述第一有效声纹信息的第一声纹特征,并标识所述第一有效声纹信息;将所述第一声纹特征作为输入,所述第一有效声纹信息的标识作为输出,训练深度神经网络,以生成初始声纹识别模型。
8.一种移动终端,其特征在于,所述移动终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的声纹识别程序,所述声纹识别程序被所述处理器执行时实现如权利要求1至6中任一项所述的声纹识别方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有声纹识别程序,所述声纹识别程序被处理器执行时实现如权利要求1至6中任一项所述的声纹识别方法的步骤。
CN201911099176.6A 2019-11-11 2019-11-11 声纹识别方法、装置、移动终端及计算机可读存储介质 Active CN110875043B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911099176.6A CN110875043B (zh) 2019-11-11 2019-11-11 声纹识别方法、装置、移动终端及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911099176.6A CN110875043B (zh) 2019-11-11 2019-11-11 声纹识别方法、装置、移动终端及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110875043A CN110875043A (zh) 2020-03-10
CN110875043B true CN110875043B (zh) 2022-06-17

Family

ID=69717918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911099176.6A Active CN110875043B (zh) 2019-11-11 2019-11-11 声纹识别方法、装置、移动终端及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110875043B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105118502A (zh) * 2015-07-14 2015-12-02 百度在线网络技术(北京)有限公司 语音识别系统的端点检测方法及系统
CN107610707A (zh) * 2016-12-15 2018-01-19 平安科技(深圳)有限公司 一种声纹识别方法及装置
CN108242240A (zh) * 2016-12-23 2018-07-03 张学阳 复杂噪音下的声纹识别系统
CN108460081A (zh) * 2018-01-12 2018-08-28 平安科技(深圳)有限公司 语音数据库创建方法、声纹注册方法、装置、设备及介质
CN108831440A (zh) * 2018-04-24 2018-11-16 中国地质大学(武汉) 一种基于机器学习及深度学习的声纹降噪方法及系统
CN110010133A (zh) * 2019-03-06 2019-07-12 平安科技(深圳)有限公司 基于短文本的声纹检测方法、装置、设备及存储介质
CN110164453A (zh) * 2019-05-24 2019-08-23 厦门快商通信息咨询有限公司 一种多模型融合的声纹识别方法、终端、服务器及存储介质
CN110335611A (zh) * 2019-07-15 2019-10-15 易诚高科(大连)科技有限公司 一种基于质量维度的声纹识别算法评估方法
CN110364169A (zh) * 2019-08-21 2019-10-22 广州国音智能科技有限公司 声纹识别方法、装置、设备及计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201802309D0 (en) * 2017-11-14 2018-03-28 Cirrus Logic Int Semiconductor Ltd Enrolment in speaker recognition system

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105118502A (zh) * 2015-07-14 2015-12-02 百度在线网络技术(北京)有限公司 语音识别系统的端点检测方法及系统
CN107610707A (zh) * 2016-12-15 2018-01-19 平安科技(深圳)有限公司 一种声纹识别方法及装置
CN108242240A (zh) * 2016-12-23 2018-07-03 张学阳 复杂噪音下的声纹识别系统
CN108460081A (zh) * 2018-01-12 2018-08-28 平安科技(深圳)有限公司 语音数据库创建方法、声纹注册方法、装置、设备及介质
CN108831440A (zh) * 2018-04-24 2018-11-16 中国地质大学(武汉) 一种基于机器学习及深度学习的声纹降噪方法及系统
CN110010133A (zh) * 2019-03-06 2019-07-12 平安科技(深圳)有限公司 基于短文本的声纹检测方法、装置、设备及存储介质
CN110164453A (zh) * 2019-05-24 2019-08-23 厦门快商通信息咨询有限公司 一种多模型融合的声纹识别方法、终端、服务器及存储介质
CN110335611A (zh) * 2019-07-15 2019-10-15 易诚高科(大连)科技有限公司 一种基于质量维度的声纹识别算法评估方法
CN110364169A (zh) * 2019-08-21 2019-10-22 广州国音智能科技有限公司 声纹识别方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN110875043A (zh) 2020-03-10

Similar Documents

Publication Publication Date Title
CN109389971B (zh) 基于语音识别的保险录音质检方法、装置、设备和介质
KR102450993B1 (ko) 분류기 모델과 컨텍스트 파라미터를 사용한 원격 미디어 분류 쿼리에 대한 응답
CN109558512B (zh) 一种基于音频的个性化推荐方法、装置和移动终端
CN110310623B (zh) 样本生成方法、模型训练方法、装置、介质及电子设备
CN108899037B (zh) 动物声纹特征提取方法、装置及电子设备
CN111028845A (zh) 多音频识别方法、装置、设备及可读存储介质
CN112863547A (zh) 虚拟资源转移处理方法、装置、存储介质及计算机设备
CN110992989B (zh) 语音采集方法、装置及计算机可读存储介质
CN110972112B (zh) 地铁运行方向的确定方法、装置、终端及存储介质
CN110097895B (zh) 一种纯音乐检测方法、装置及存储介质
CN111415653B (zh) 用于识别语音的方法和装置
CN111722696B (zh) 用于低功耗设备的语音数据处理方法和装置
CN110970051A (zh) 语音数据采集方法、终端及可读存储介质
CN113327620A (zh) 声纹识别的方法和装置
CN111369968B (zh) 语音合成方法、装置、可读介质及电子设备
CN108322770A (zh) 视频节目识别方法、相关装置、设备和系统
CN116913258B (zh) 语音信号识别方法、装置、电子设备和计算机可读介质
CN112992190B (zh) 音频信号的处理方法、装置、电子设备和存储介质
CN110660399A (zh) 声纹识别的训练方法、装置、终端及计算机存储介质
KR102220964B1 (ko) 오디오 인식을 위한 방법 및 디바이스
CN113225624A (zh) 一种语音识别耗时确定方法和装置
CN110808061B (zh) 语音分离方法、装置、移动终端及计算机可读存储介质
CN110827834B (zh) 声纹注册方法、系统及计算机可读存储介质
CN110875043B (zh) 声纹识别方法、装置、移动终端及计算机可读存储介质
CN107894837A (zh) 动态情感分析模型样本处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant