CN112767950A - 一种声纹识别方法、装置及计算机可读存储介质 - Google Patents

一种声纹识别方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN112767950A
CN112767950A CN202110208563.XA CN202110208563A CN112767950A CN 112767950 A CN112767950 A CN 112767950A CN 202110208563 A CN202110208563 A CN 202110208563A CN 112767950 A CN112767950 A CN 112767950A
Authority
CN
China
Prior art keywords
voiceprint
feature
preset
code
preset voiceprint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110208563.XA
Other languages
English (en)
Inventor
高威特
张楠赓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canaan Bright Sight Co Ltd
Original Assignee
Canaan Bright Sight Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canaan Bright Sight Co Ltd filed Critical Canaan Bright Sight Co Ltd
Priority to CN202110208563.XA priority Critical patent/CN112767950A/zh
Publication of CN112767950A publication Critical patent/CN112767950A/zh
Priority to PCT/CN2022/073042 priority patent/WO2022179360A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种声纹识别方法、装置及计算机可读存储介质,其中该方法包括:获取待识别语音信号,提取所述待识别语音信号的第一特征图;对所述第一特征图的特征值进行量化编码处理,得到第二特征图;将所述第二特征图输入经训练的神经网络模型中,提取出待识别特征编码;根据待识别特征编码和预设声纹特征确定目标声纹。利用上述方法,能够降低运算量、降低功耗、提高识别速度。

Description

一种声纹识别方法、装置及计算机可读存储介质
技术领域
本申请属于语音识别领域,具体涉及一种声纹识别方法、装置及计算机可读存储介质。
背景技术
本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
声纹识别(也可称说话人识别)即根据采集到的语音信号判断声纹身份。声纹识别有两个关键问题,一是特征提取,二是模式匹配(模式识别)。其中,特征提取的任务是提取并选择声纹具有可分性强、稳定性高等特性的声学或语言特征。模式匹配的任务是依据提取出的特征匹配到预设声纹。
为保证识别准确度,上述特征提取和模式匹配都需要进行大量计算工作,如何在保证识别性能的前提下减小运算量、提高运算速度、降低功耗,成为本领域技术人员持续推动的技术问题。
发明内容
针对上述现有技术的问题。本申请实施例提出了一种声纹识别方法、装置及计算机可读存储介质。利用这种方法及装置,能够解决声纹识别中运算量大导致的运算速度较慢的问题。
本申请的实施例中提供了以下方案。
第一方面,提供一种声纹识别方法,包括:获取待识别语音信号,提取待识别语音信号的第一特征图;对第一特征图中的特征值进行量化编码处理,得到第二特征图;将第二特征图输入经训练的神经网络模型中,提取出待识别特征编码;根据所述待识别特征编码和预设声纹特征,确定目标声纹。
在一些实施方式中,提取待识别语音信号的第一特征图,包括:对待识别语音信号执行短时傅里叶变换,得到第一频谱图;在预设频率范围对第一频谱图加滑动时间窗,得到第一特征图。
在一些实施方式中,提取待识别语音信号的第一特征图,还包括:将第一频谱图中对应于同一时间点的相邻频点合并,其中相邻频点之间的频率距离小于预设值。
在一些实施方式中,第一特征图中的特征值为声音强度值,以及,对待识别语音信号的第一特征图的特征值进行量化编码处理,包括:采用线性函数将第一特征图中的声音强度值转换为声音强度编码,得到第二特征图。
在一些实施方式中,第一特征图的特征值为浮点数格式,第二特征图的声音强度编码的位数小于浮点数中尾数的位数。
在一些实施方式中,基于所述待识别特征编码和预设声纹特征确定目标声纹,包括:根据所述待识别特征编码和预设声纹特征进行相似度匹配,从所述预设声纹中匹配出目标声纹。
在一些实施方式中,预设声纹特征包括特征编码;以及,将待识别编码与预设声纹特征进行相似度匹配,包括:分别计算待识别编码与预设声纹的特征编码的编码差;通过比较计算得到的编码差,从预设声纹中匹配出目标声纹。
在一些实施方式中,方法还包括确定预设声纹的特征编码的步骤,包括:预先采集预设声纹的语音信号,提取预设声纹的语音信号的语音特征图;对预设声纹的语音特征图进行量化编码处理,得到预设声纹的量化特征图;将预设声纹的量化特征图输入经训练的神经网络模型中,提取出预设声纹的特征编码。
在一些实施方式中,预设声纹特征包括特征向量;将待识别编码与预设声纹特征进行相似度匹配,包括:将待识别编码转换成待识别向量,其中,待识别特征向量的每个分量对应待识别编码的一个编码段;分别计算待识别向量与预设声纹的特征向量之间的夹角余弦值;根据夹角余弦值从预设声纹匹配出目标声纹。
在一些实施方式中,方法还包括确定预设声纹的特征向量的步骤,包括:预先采集预设声纹的语音信号,提取预设声纹的语音信号的语音特征图;对预设声纹的语音特征图进行量化编码处理,得到预设声纹的量化特征图;将预设声纹的量化特征图输入经训练的神经网络模型中,提取出预设声纹的特征编码;将预设声纹的特征编码转换成预设声纹的特征向量。
第二方面,提供一种声纹识别装置,包括:提取模块,用于获取待识别语音信号,提取待识别语音信号的第一特征图;量化编码模块,用于对第一特征图的特征值进行量化编码处理,得到第二特征图;神经网络模块,用于将第二特征图输入经训练的神经网络模型中,提取出待识别特征编码;确定模块,用于将待识别特征编码与预设声纹特征进行相似度匹配,从预设声纹中匹配出目标声纹。
在一些实施方式中,提取模块具体用于:对待识别语音信号执行短时傅里叶变换,得到第一频谱图;在预设频率范围对第一频谱图加滑动时间窗,得到第一特征图。
在一些实施方式中,提取模块还具体用于:将第一频谱图中对应于同一时间点的相邻频点合并,其中相邻频点之间的频率距离小于预设值。
在一些实施方式中,第一特征图中的特征值为声音强度值,以及,量化编码模块具体用于:采用线性函数将第一特征图中的声音强度值转换为声音强度编码,得到第二特征图。
在一些实施方式中,第一特征图的特征值为浮点数格式,第二特征图的声音强度编码的位数小于浮点数中尾数的位数。
在一些实施方式中,所述确定模块具体用于:根据所述待识别特征编码和预设声纹特征进行相似度匹配,从所述预设声纹中匹配出目标声纹。
在一些实施方式中,预设声纹特征包括特征编码;确定模块具体用于:分别计算待识别编码与预设声纹的特征编码的编码差;通过比较计算得到的编码差,从预设声纹中匹配出目标声纹。
在一些实施方式中,提取模块还用于:预先采集预设声纹的语音信号,提取预设声纹的语音信号的语音特征图;对预设声纹的语音特征图进行量化编码处理,得到预设声纹的量化特征图;将预设声纹的量化特征图输入经训练的神经网络模型中,提取出预设声纹的特征编码。
在一些实施方式中,预设声纹特征包括特征向量;确定模块具体用于:将待识别编码转换成待识别向量,其中,待识别特征向量的每个分量对应待识别编码的一个编码段;分别计算待识别向量与预设声纹的特征向量之间的夹角余弦值;根据夹角余弦值从预设声纹匹配出目标声纹。
在一些实施方式中,提取模块还用于:预先采集预设声纹的语音信号,提取预设声纹的语音信号的语音特征图;对预设声纹的语音特征图进行量化编码处理,得到预设声纹的量化特征图;将预设声纹的量化特征图输入经训练的神经网络模型中,提取出预设声纹的特征编码;将预设声纹的特征编码转换成预设声纹的特征向量。
在一些实施方式中,神经网络模块由专用集成电路实现,量化编码模块和确定模块为软件模块。
第三方面,提供一种声纹识别装置,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行第一方面的声纹识别方法。
第四方面,提供一种计算机可读存储介质,计算机可读存储介质存储有程序,当程序被处理器执行时,使得处理器执行如第一方面的声纹识别方法。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:本实施例将待识别的语音信号转换为多维的特征图数据,并利用神经网络模型对特征图数据进行特征提取,能够获得更好的特征提取效果,并且采用量化编码处理缩小了特征图数据的特征值的动态范围,且保留了其中的有用信息,神经网络的计算的规模更小,运算速度更快,耗电量更低。
应当理解,上述说明仅是本申请技术方案的概述,以便能够更清楚地了解本申请的技术手段,从而可依照说明书的内容予以实施。为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举例说明本申请的具体实施方式。
附图说明
通过阅读下文的示例性实施例的详细描述,本领域普通技术人员将明白本文所述的优点和益处以及其他优点和益处。附图仅用于示出示例性实施例的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的标号表示相同的部件。在附图中:
图1为根据本申请一实施例的声纹识别方法的流程示意图;
图2为根据本申请一实施例的第一特征图的示意图;
图3为根据本申请又一实施例的声纹识别方法的流程示意图;
图4为根据本申请一实施例的声纹识别装置的结构示意图;
图5为根据本申请另一实施例的声纹识别装置的结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
在本申请中,应理解,诸如“包括”或“具有”等术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不旨在排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在的可能性。
另外还需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1为根据本申请一实施例的声纹识别方法100的流程示意图,该方法100用于识别声纹,在该流程中,从设备角度而言,执行主体可以是一个或者多个电子设备;从程序角度而言,执行主体相应地可以是搭载于这些电子设备上的程序。
图1中的流程可以包括以下步骤101~步骤104。
步骤101、获取待识别语音信号,提取待识别语音信号的第一特征图;
其中,待识别语音信号可以为时域信号。特征图(feature map)为声音强度对时间和频率的函数,可以将其理解为不同的时间点的音频频谱的组合。在本实施例中,第一特征图中的特征维度可以包括时间维度和频率维度,第一特征图的特征值可以为声音强度值。图2示出一种示例性的第一特征图,其中,t1~tn示出时间维度,f1~fm示出频率维度,其中的i11表示待识别语音信号的对应于时间点t1的频谱信号中频率为f1的声音强度值,并以此类推。
例如,可以通过麦克风等声音采集装置拾取获得待识别声纹的语音信号作为该待识别语音信号。具体可以包括:通过麦克风接收原始音频信号,对接收到的原始音频信号进行预处理以得到时域音频信号;之后,对时域音频信号进行语音信号检测,当检测到语音信号时执行上述步骤101,从而仅在有人说话时识别声纹,从而减少设备功耗。可选地,该预处理可以包括:对初始音频信号进行自动增益控制、回声消除、去混响中至少一项操作,目的在于提高音频信号的信噪比。可选地,上述麦克风可以是阵列型麦克风,基于此,该预处理还可以包括波束成型操作,以提升原始音频信号的清晰度。
步骤102:对第一特征图的特征值进行量化编码处理,得到第二特征图;
其中,对第一特征图中的特征值(即声音强度值)进行量化编码处理,是指采用编码代替声音强度的真实数值。例如,声音强度值在一个小的数值范围内时会统一转换成一个编码,声音强度值在另一个小的范围内会统一转换成另一个编码。
在本实施例中,第二特征图中的特征维度同样包括时间维度和频率维度,第二特征图的特征值为对声音强度值量化编码而获得的声音强度编码。例如,在上文中,已经说明了在第一频谱图中每个数据点可表示为[f,t,i],即在t时刻进行的短时傅里叶变换得到的频谱中频点为f的声音强度值i,与此相对的第二频谱图中每个数据点可表示为[f,t,编码值u],即在t时刻进行的短时傅里叶变换得到的频谱中频点为f的编码值u。
需要说明的是,为了不损失第一特征图中所包含的信息,第二特征图中的编码值与第一特征图中的声音强度值二者可以是单调递增或单调递减的关系,从而保证了声纹识别结果的准确性。
步骤103、将第二特征图输入经训练的神经网络模型中,提取出待识别特征编码;
其中,神经网络模型可以是基于多个声纹对象(也即说话人)的大量语音样本预先训练得到的。其中,为了训练得到该神经网络模型,可以预先采集多个声纹对象的大量语音片段,将待识别语音信号替换为该语音片段并执行上述步骤101和步骤102,以获得由编码组成的训练样本库,基于该训练样本库训练得到该神经网络模型。
具体地,可采用卷积神经网络(CNN)训练获得该神经网络模型,当然也可以采用循环神经网络(RNN)等其他类型的神经网络。本申请对神经网络如何提取声音的特征不做限定。本领域技术人员可以按照现有的识别声纹特征的神经网络算法实现。
步骤104、根据所述待识别特征编码和预设声纹特征,确定目标声纹。
其中,如果从待识别语音信号中提取的待识别编码与某一个已知的声纹(本文中称为预设声纹)的特征信息的相似度较高,那么可以判定待识别语音信号的声纹就是这个已知的声纹。
本实施例中,由于提供给神经网络模型的是编码而不是实际的声音强度值,神经网络模块的计算量显著降低,运算速度显著提升,即使在运算能力较弱的设备上也能运行声纹识别程序。
图3示出了提取待识别语音信号的第一特征图的详细流程。
在一些实施方式中,参考图3,步骤101中的提取待识别语音信号的第一特征图具体可以包括:
步骤301、对待识别语音信号执行短时傅里叶变换,得到第一频谱图;
其中,短时傅立叶变换基本思想是将信号加滑动时间窗,再乘以一个窗函数(例如是汉明窗),并对窗内信号做傅立叶变换以得到信号的时变频谱,即第一频谱图可以指按时间顺序排列的多段信号的频谱。如需图形化展示第一频谱图,例如可以用x轴表示频率,用y轴表示时间,z轴表示声音强度值,将上述短时傅里叶变换得到信号的时变频谱按顺序排列以构成第一频谱图,在第一频谱图中每个数据点可表示为[f,t,i],即在t时刻进行的短时傅里叶变换得到的频谱中频点为f的声音强度值i。
可选地,在对时域的待识别语音信号进行短时傅里叶变换时,相邻两个窗口优选应当在时间上具有一定的交叠,如此可以保证不会将关键信息截断在两个窗口。当然,在精度允许的情况下,相邻两个窗口在时间上也可以没有交叠。
步骤302、在预设频率范围对第一频谱图加滑动时间窗,从而得到第一特征图。
其中,在步骤302中的滑动时间窗截取的频率范围通常是人声的频率范围,例如是100Hz(男低音)到10000Hz(女高音)的频率范围。可以依据经验值或历史数据获知预设滑动时间窗每次截取的时间长度,该时间长度不能过小或过长,以保证能识别出一个声纹,且能避免在一个窗口截取到包含两个声纹的信息,导致二者互相干扰强烈。
可选地,在对第一频谱图加滑动时间窗时,相邻的两个窗口可以存在时间上的交叠,这样可以保证一个声纹信息不会被分割到两个窗口截取到的第一特征图中。当然,如对声纹识别的精度要求不高,相邻的两个窗口之间在时间上也可以没有交叠。
可选地,为了保证短时傅里叶变换的计算精度,可以采用浮点型数据表示每个频点对应的声音强度值。例如,在本实施例中,第一特征图中的特征值(即声音强度值)可以是32位浮点型数据。
在一些实施方式中,在上述步骤301之后,还可以执行:将第一频谱图中对应于同一时间点的相邻频点合并。
其中,相邻频点是指频率距离小于预设值的至少两个频点。在上文中,已经说明了在第一频谱图中每个数据点可表示为[f,t,i],即在t时刻进行的短时傅里叶变换得到的频谱中频点为f的声音强度值i。因此,假设将相邻频点定义为频率距离不大于1Hz的至少两个频点,可以将同一时间t下,频点f分别对应于501Hz和502Hz的两个频点的声音强度值i(501Hz)和i(502Hz)取平均作为一个数据点以参与后续的计算,由此可以显著降低了第一频谱图的数据量。
可选地,在上述步骤301之后,还可以执行:对第一频谱图中的声音强度值取对数,从而进一步降低数据的动态范围。
在一些实施方式中,第一特征图中的特征值为声音强度值,步骤102中的对待识别语音信号的第一特征图的特征值进行量化编码处理,具体可以包括:采用线性函数将所述第一特征图中的声音强度值转换为声音强度编码,得到所述第二特征图。
例如,可以采用u=a*i+b的线性函数公式对第一特征图中声音强度值进行量化编码。其中,u表示第二特征图中声音强度值的声音强度编码,i表示第一特征图中声音强度值,a和b为常数(即量化参数)。其中,a不能为0,b可以是0也可以不等于0。
为达到量化编码的目的,a、i和b可以采用精度比较高的数据格式,而u采用精度比较低的数据格式。鉴于u和a*i+b可以存在精度差异,因此u与a*i+b在数值上可以是近似等同关系,可以理解,例如,如果将一个数值8.01赋值给一个整数型的参数,那么这个参数赋值后的结果实际为8。
在一些实施方式中,所述第一特征图的特征值为浮点数格式,所述第二特征图的声音强度编码的位数小于所述浮点数中尾数的位数。
可以理解,数据格式通常可以分为定点数格式和浮点数格式。所谓定点数和浮点数,是指在计算机中一个数的小数点的位置是固定的还是浮动的。一般来说,定点数格式可表示的数值的范围有限,但要求的处理硬件比较简单。而浮点数格式可表示的数值的范围很大,但要求的处理硬件比较复杂。
一个浮点数a在计算机中通常由两个数m和e来表示:a=m×b^e。其中,m(即尾数)是形如±d.ddd...ddd的p位数(每一位是一个介于0到b-1之间的整数,包括0和b-1)。如果m的第一位是非0整数,m称作规格化的。有一些描述使用一个单独的符号位来表示正负,这样m必须是正的。e是指数。定点数的小数点的位置固定不变。对于二进制数而言,b=2。
第一特征图中,声音强度值均为正数。第一特征图中声音强度值的动态范围即最大声音强度值与最小声音强度值的比值。第二特征图中的声音强度编码(即声音强度值的编码)可看作是一个定点数。由于对第一特征图的声音强度值进行量化编码处理(相当于压缩编码),使得第二特征图中声音强度编码的动态范围更小,进一步使得采用更少位数的编码位数表示声音强度值时能够满足足够的精度。在进行神经网络计算时,通常会涉及到加法运算和乘法运算。在数据的位数相同的情况下,进行加法运算时,定点数比浮点数更具有优势,而进行乘法运算时,定点数不如浮点数效率高。为了减少神经网络的计算量,就需要减少定点数的位数。在保证声纹识别结果准确性的前提下,神经网络的计算量显著降低,由此导致运算速度提升,功耗降低。
在一些实施方式中,上述步骤104可以具体包括:根据待识别特征编码和预设声纹特征进行相似度匹配,从所述预设声纹中匹配出目标声纹。
在一些实施方式中,所述预设声纹特征包括特征编码;以及,上述根据待识别特征编码和预设声纹特征进行相似度匹配可以具体包括:分别计算待识别编码与预设声纹的特征编码的编码差;通过比较计算得到的所述编码差,从所述预设声纹中匹配出目标声纹。
具体地,可以选择其中编码差的模最小的那一个作为匹配出的声纹。或者选择其中编码差的模小于设定值的那一个作为匹配出的声纹。编码差的模即编码的每一位代表的数值的方均根。
在一些实施方式中,若预设声纹特征为特征编码,该方法还可以包括确定预设声纹的特征编码的步骤,具体可包括:首先,预先采集预设声纹的语音信号,提取预设声纹的语音信号的语音特征图;然后,对预设声纹的语音特征图进行量化编码处理,得到预设声纹的量化特征图;最后,将预设声纹的量化特征图输入经训练的神经网络模型中,提取出预设声纹的特征编码。
换言之,可以将步骤101-103中待识别语音信号替换为一预设声纹的语音信号,并执行该步骤101-103,将步骤103中得到的待识别编码作为该预设声纹对应的特征编码。具体而言,特征编码可以是电子设备中预存的或从服务器下载的,也可以是电子设备首先采集每一个声纹单独说的一段话,再从每一个声纹单独说的话中提取的。
在一些实施方式中,预设声纹特征可以包括特征向量,基于此,步骤104可以包括:将所述待识别编码转换成待识别向量,其中,所述待识别特征向量的每个分量对应所述待识别编码的一个编码段;分别计算所述待识别向量与所述预设声纹的特征向量之间的夹角余弦值;根据所述夹角余弦值从所述预设声纹匹配出目标声纹。
其中,特征向量之间的夹角余弦值也称余弦距离或余弦相似度。可以理解,该余弦值越接近1,两个特征向量就越接近,两个特征向量的声纹越有可能是同一人。其中,将特征编码转换成特征向量的方法可以包括如下步骤:将特征编码分隔成多段(每段包含一个特征信息),将每一段编码看作是一个定点数,经线性变换转换成另一个定点数或另一个浮点数。该线性变换的参数可以按照如下方法确定:将测试数据集得到的第一特征图输入神经网络模型,得到多个待识别编码;将测试数据集得到的第二特征图输入神经网络模型,得到多个待识别编码;确定一个线性变换的参数,使得第二组待识别编码对应的特征向量进行该线性变换后,得到的各分量的平均值与方差近似等于第一组待识别编码对应的特征向量的各分量的平均值和方差。
在一些实施方式中,若预设声纹特征为特征向量,该方法还可以包括确定预设声纹的特征向量的步骤,具体包括:预先采集预设声纹的语音信号,提取预设声纹的语音信号的语音特征图;对预设声纹的语音特征图进行量化编码处理,得到预设声纹的量化特征图;将预设声纹的量化特征图输入经训练的神经网络模型中,提取出预设声纹的特征编码;将预设声纹的特征编码转换成预设声纹的特征向量。
换言之,可以将步骤101-103中待识别语音信号替换为一预设声纹的语音信号,执行步骤101-103,得到该预设声纹的特征编码,利用上文中的方法将该预设声纹的特征编码转换成特征向量。
本实施例中,由于提供给神经网络模型的是编码而不是实际的声音强度值,神经网络模块的计算量显著降低,运算速度显著提升,即使在运算能力较弱的设备上也能运行声纹识别程序。
需要说明的是,计算机中不同数据格式所能产生的动态范围通常是差多个数量级的,因此第二特征图中声音强度的动态范围也应当是比第一特征图中声音强度的动态范围小多个数量级。
在本申请的一个示例中,将32位浮点数表示的声音强度值进行量化编码处理,量化编码后的声音强度值采用8位或16位编码。32位浮点数中通常用24位定点数表示尾数,8位或16位的编码的乘法运算的计算量小于24位定点数的乘法运算的计算量。从而不论是加法运算还是乘法运算,神经网络的运算量都得到极大降低。
当然,在一些情况下,第一特征图的声音强度值采用32位定点数表示,相应地,量化编码处理后的第二特征图的编码可采用8位或16位编码。以上将编码作为定点数参与运算。定点数的小数点位置可以是位于最后一位之后,也可以是位于中间某位之后,只需事先约定好即可。
基于相同的技术构思,本申请实施例还提供一种声纹识别装置,用于执行上述任一实施例所提供的声纹识别方法。图4为本申请实施例提供的一种声纹识别装置的结构示意图。
如图4所示,声纹识别装置40包括:提供一种声纹识别装置,包括:
提取模块41,用于获取待识别语音信号,提取待识别语音信号的第一特征图;
量化编码模块42,用于对第一特征图的特征值进行量化编码处理,得到第二特征图;
神经网络模块43,用于将第二特征图输入经训练的神经网络模型中,提取出待识别特征编码;
确定模块44,用于基于所述待识别特征编码与预设声纹特征确定目标声纹。
在一些实施方式中,提取模块41具体用于:对待识别语音信号执行短时傅里叶变换,得到第一频谱图;在预设频率范围对第一频谱图加滑动时间窗,得到第一特征图。
在一些实施方式中,提取模块41还具体用于:将第一频谱图中对应于同一时间点的相邻频点合并,其中相邻频点之间的频率距离小于预设值。
在一些实施方式中,第一特征图中的特征值为声音强度值,以及,量化编码模块42具体用于:采用线性函数将第一特征图中的声音强度值转换为声音强度编码,得到第二特征图。
在一些实施方式中,第一特征图的特征值为浮点数格式,第二特征图的声音强度编码的位数小于浮点数中尾数的位数。
在一些实施方式中,确定模块44具体用于:根据所述待识别特征编码和预设声纹特征进行相似度匹配,从所述预设声纹中匹配出目标声纹。
在一些实施方式中,预设声纹特征包括特征编码;确定模块44具体用于:分别计算待识别编码与预设声纹的特征编码的编码差;通过比较计算得到的编码差,从预设声纹中匹配出目标声纹。
在一些实施方式中,提取模块41还用于:预先采集预设声纹的语音信号,提取预设声纹的语音信号的语音特征图;对预设声纹的语音特征图进行量化编码处理,得到预设声纹的量化特征图;将预设声纹的量化特征图输入经训练的神经网络模型中,提取出预设声纹的特征编码。
在一些实施方式中,预设声纹特征包括特征向量;确定模块44具体用于:将待识别编码转换成待识别向量,其中,待识别特征向量的每个分量对应待识别编码的一个编码段;分别计算待识别向量与预设声纹的特征向量之间的夹角余弦值;根据夹角余弦值从预设声纹匹配出目标声纹。
在一些实施方式中,提取模块41还用于:预先采集预设声纹的语音信号,提取预设声纹的语音信号的语音特征图;对预设声纹的语音特征图进行量化编码处理,得到预设声纹的量化特征图;将预设声纹的量化特征图输入经训练的神经网络模型中,提取出预设声纹的特征编码;将预设声纹的特征编码转换成预设声纹的特征向量。
在一些实施方式中,神经网络模块43由专用集成电路实现,量化编码模块和确定模块为软件模块。
采用专用集成电路进行神经网络计算的效率比采用程序在内存和CPU中运行的方式效率更高,通常要高出一个数量级以上。并且神经网络的结构相对固定,更适于由专用集成电路实现。而其他模块消耗的计算量相对较少,采用程序在内存中运行而实现的方式可以控制成本。
需要说明的是,本申请实施例中的声纹识别装置可以实现前述方法的实施例的各个过程,并达到相同的效果和功能,这里不再赘述。
图5为根据本申请一实施例的声纹识别装置,用于执行图1所示出的方法,该装置包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行图1所示出的声纹识别方法。
根据本申请的一些实施例,提供了图1所示出的声纹识别方法的非易失性计算机存储介质,其上存储有计算机可执行指令,该计算机可执行指令设置为在由处理器运行时执行图1所示出的声纹识别方法。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备和计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以其描述进行了简化,相关之处可参见方法实施例的部分说明即可。
本申请实施例提供的装置、设备和计算机可读存储介质与方法是一一对应的,因此,装置、设备和计算机可读存储介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述装置、设备和计算机可读存储介质的有益技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (23)

1.一种声纹识别方法,其特征在于,包括:
获取待识别语音信号,提取所述待识别语音信号的第一特征图;
对所述第一特征图中的特征值进行量化编码处理,得到第二特征图;
将所述第二特征图输入经训练的神经网络模型中,提取出待识别特征编码;
根据所述待识别特征编码和预设声纹特征,确定目标声纹。
2.根据权利要求1所述的声纹识别方法,其特征在于,提取所述待识别语音信号的第一特征图,包括:
对所述待识别语音信号执行短时傅里叶变换,得到第一频谱图;
在预设频率范围对所述第一频谱图加滑动时间窗,得到所述第一特征图。
3.根据权利要求2所述的声纹识别方法,其特征在于,提取所述待识别语音信号的第一特征图,还包括:
将所述第一频谱图中对应于同一时间点的相邻频点合并,其中所述相邻频点之间的频率距离小于预设值。
4.根据权利要求1所述的声纹识别方法,其特征在于,所述第一特征图中的特征值为声音强度值,以及,对待识别语音信号的第一特征图的特征值进行量化编码处理,包括:
采用线性函数将所述第一特征图中的声音强度值转换为声音强度编码,得到所述第二特征图。
5.根据权利要求1或4所述的声纹识别方法,其特征在于,所述第一特征图的特征值为浮点数格式,所述第二特征图的声音强度编码的位数小于所述浮点数中尾数的位数。
6.根据权利要求1所述的声纹识别方法,其特征在于,基于所述待识别特征编码和预设声纹特征确定目标声纹,包括:
根据所述待识别特征编码和预设声纹特征进行相似度匹配,从所述预设声纹中匹配出目标声纹。
7.根据权利要求6所述的声纹识别方法,其特征在于,所述预设声纹特征包括特征编码;以及,所述将所述待识别编码与预设声纹特征进行相似度匹配,包括:
分别计算所述待识别编码与所述预设声纹的所述特征编码之间的编码差;
比较计算得到的所述编码差,从所述预设声纹中匹配出目标声纹。
8.根据权利要求7所述的声纹识别方法,其特征在于,所述方法还包括确定所述预设声纹的特征编码的步骤,包括:
预先采集所述预设声纹的语音信号,提取所述预设声纹的语音信号的语音特征图;
对所述预设声纹的语音特征图进行所述量化编码处理,得到所述预设声纹的量化特征图;
将所述预设声纹的量化特征图输入所述经训练的神经网络模型中,提取出所述预设声纹的所述特征编码。
9.根据权利要求6所述的声纹识别方法,其特征在于,所述预设声纹特征包括特征向量;所述将所述待识别编码与预设声纹特征进行相似度匹配,包括:
将所述待识别编码转换成待识别向量,其中,所述待识别特征向量的每个分量对应所述待识别编码的一个编码段;
分别计算所述待识别向量与所述预设声纹的特征向量之间的夹角余弦值;
根据所述夹角余弦值从所述预设声纹匹配出目标声纹。
10.根据权利要求9所述的声纹识别方法,其特征在于,所述方法还包括确定所述预设声纹的特征向量的步骤,包括:
预先采集所述预设声纹的语音信号,提取所述预设声纹的语音信号的语音特征图;
对所述预设声纹的语音特征图进行所述量化编码处理,得到所述预设声纹的量化特征图;
将所述预设声纹的量化特征图输入所述经训练的神经网络模型中,提取出所述预设声纹的特征编码;
将所述预设声纹的特征编码转换成所述预设声纹的特征向量。
11.一种声纹识别装置,其特征在于,包括:
提取模块,用于获取待识别语音信号,提取所述待识别语音信号的第一特征图;
量化编码模块,用于对所述第一特征图中的特征值进行量化编码处理,得到第二特征图;
神经网络模块,用于将所述第二特征图输入经训练的神经网络模型中,提取出待识别特征编码;
确定模块,用于基于所述待识别特征编码与预设声纹特征确定目标声纹。
12.根据权利要求11所述的声纹识别装置,其特征在于,所述提取模块具体用于:
对所述待识别语音信号执行短时傅里叶变换,得到第一频谱图;
在预设频率范围对所述第一频谱图加滑动时间窗,得到所述第一特征图。
13.根据权利要求11所述的声纹识别装置,其特征在于,所述提取模块还具体用于:
将所述第一频谱图中对应于同一时间点的相邻频点合并,其中所述相邻频点之间的频率距离小于预设值。
14.根据权利要求11所述的声纹识别装置,其特征在于,所述第一特征图中的特征值为声音强度值,以及,所述量化编码模块具体用于:
采用线性函数将所述第一特征图中的声音强度值转换为声音强度编码,得到所述第二特征图。
15.根据权利要求11或13所述的声纹识别装置,其特征在于,所述第一特征图的特征值为浮点数格式,所述第二特征图的声音强度编码的位数小于所述浮点数中尾数的位数。
16.根据权利要求11所述的声纹识别装置,其特征在于,所述确定模块具体用于:
根据所述待识别特征编码和预设声纹特征进行相似度匹配,从所述预设声纹中匹配出目标声纹。
17.根据权利要求16所述的声纹识别装置,其特征在于,所述预设声纹特征包括特征编码;所述确定模块具体用于:
分别计算所述待识别编码与所述预设声纹的特征编码的编码差;
通过比较得到的所述编码差,从所述预设声纹中匹配出目标声纹。
18.根据权利要求17所述的声纹识别装置,其特征在于,所述提取模块还用于:
预先采集预设声纹的语音信号,提取所述预设声纹的语音信号的语音特征图;
对所述预设声纹的语音特征图进行所述量化编码处理,得到所述预设声纹的量化特征图;
将所述预设声纹的量化特征图输入所述经训练的神经网络模型中,提取出所述预设声纹的特征编码。
19.根据权利要求11所述的声纹识别装置,其特征在于,所述预设声纹特征包括特征向量;
所述确定模块具体用于:
将所述待识别编码转换成待识别向量,其中,所述待识别特征向量的每个分量对应所述待识别编码的一个编码段;
分别计算所述待识别向量与所述预设声纹的特征向量之间的夹角余弦值;
根据所述夹角余弦值从所述预设声纹匹配出目标声纹。
20.根据权利要求19所述的声纹识别装置,其特征在于,所述提取模块还用于:
预先采集所述预设声纹的语音信号,提取所述预设声纹的语音信号的语音特征图;
对所述预设声纹的语音特征图进行所述量化编码处理,得到所述预设声纹的量化特征图;
将所述预设声纹的量化特征图输入所述经训练的神经网络模型中,提取出所述预设声纹的特征编码;
将所述预设声纹的特征编码转换成所述预设声纹的特征向量。
21.根据权利要求11所述的声纹识别装置,其特征在于,所述神经网络模块由专用集成电路实现,所述量化编码模块和所述确定模块为软件模块。
22.一种声纹识别装置,其特征在于,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行:权利要求1-10中任意一项所述的声纹识别方法。
23.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序,当所述程序被处理器执行时,使得所述处理器执行如权利要求1-10中任一项所述的声纹识别方法。
CN202110208563.XA 2021-02-24 2021-02-24 一种声纹识别方法、装置及计算机可读存储介质 Pending CN112767950A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110208563.XA CN112767950A (zh) 2021-02-24 2021-02-24 一种声纹识别方法、装置及计算机可读存储介质
PCT/CN2022/073042 WO2022179360A1 (zh) 2021-02-24 2022-01-20 一种声纹识别方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110208563.XA CN112767950A (zh) 2021-02-24 2021-02-24 一种声纹识别方法、装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN112767950A true CN112767950A (zh) 2021-05-07

Family

ID=75704128

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110208563.XA Pending CN112767950A (zh) 2021-02-24 2021-02-24 一种声纹识别方法、装置及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN112767950A (zh)
WO (1) WO2022179360A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022179360A1 (zh) * 2021-02-24 2022-09-01 嘉楠明芯(北京)科技有限公司 一种声纹识别方法、装置及计算机可读存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116189687B (zh) * 2023-04-27 2023-07-21 北京远鉴信息技术有限公司 一种声纹识别方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108899032A (zh) * 2018-06-06 2018-11-27 平安科技(深圳)有限公司 声纹识别方法、装置、计算机设备及存储介质
US20190005961A1 (en) * 2017-06-28 2019-01-03 Baidu Online Network Technology (Beijing) Co., Ltd. Method and device for processing voice message, terminal and storage medium
CN111489739A (zh) * 2020-04-17 2020-08-04 杭州嘉楠耘智信息科技有限公司 音素识别方法、装置及计算机可读存储介质
CN112053695A (zh) * 2020-09-11 2020-12-08 北京三快在线科技有限公司 声纹识别方法、装置、电子设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971690A (zh) * 2013-01-28 2014-08-06 腾讯科技(深圳)有限公司 一种声纹识别方法和装置
US10008209B1 (en) * 2015-09-25 2018-06-26 Educational Testing Service Computer-implemented systems and methods for speaker recognition using a neural network
CN107492382B (zh) * 2016-06-13 2020-12-18 阿里巴巴集团控股有限公司 基于神经网络的声纹信息提取方法及装置
CN108766445A (zh) * 2018-05-30 2018-11-06 苏州思必驰信息科技有限公司 声纹识别方法及系统
CN111341327A (zh) * 2020-02-28 2020-06-26 广州国音智能科技有限公司 一种基于粒子群算法的说话人语音识别方法、装置和设备
CN112767950A (zh) * 2021-02-24 2021-05-07 嘉楠明芯(北京)科技有限公司 一种声纹识别方法、装置及计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190005961A1 (en) * 2017-06-28 2019-01-03 Baidu Online Network Technology (Beijing) Co., Ltd. Method and device for processing voice message, terminal and storage medium
CN108899032A (zh) * 2018-06-06 2018-11-27 平安科技(深圳)有限公司 声纹识别方法、装置、计算机设备及存储介质
CN111489739A (zh) * 2020-04-17 2020-08-04 杭州嘉楠耘智信息科技有限公司 音素识别方法、装置及计算机可读存储介质
CN112053695A (zh) * 2020-09-11 2020-12-08 北京三快在线科技有限公司 声纹识别方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022179360A1 (zh) * 2021-02-24 2022-09-01 嘉楠明芯(北京)科技有限公司 一种声纹识别方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
WO2022179360A1 (zh) 2022-09-01

Similar Documents

Publication Publication Date Title
CN111179975B (zh) 用于情绪识别的语音端点检测方法、电子设备及存储介质
CN110880329B (zh) 一种音频识别方法及设备、存储介质
CN109308912B (zh) 音乐风格识别方法、装置、计算机设备及存储介质
CN108305639B (zh) 语音情感识别方法、计算机可读存储介质、终端
WO2022179360A1 (zh) 一种声纹识别方法、装置及计算机可读存储介质
CN108682432B (zh) 语音情感识别装置
CN112750441B (zh) 一种声纹的识别方法、装置、电子设备及存储介质
Chatterjee et al. Auditory model-based design and optimization of feature vectors for automatic speech recognition
Shabani et al. Speech recognition using principal components analysis and neural networks
Ustubioglu et al. Robust copy-move detection in digital audio forensics based on pitch and modified discrete cosine transform
Kumar et al. Performance evaluation of a ACF-AMDF based pitch detection scheme in real-time
US20230116052A1 (en) Array geometry agnostic multi-channel personalized speech enhancement
CN108847251B (zh) 一种语音去重方法、装置、服务器及存储介质
CN114627868A (zh) 意图识别方法、装置、模型及电子设备
CN111489739B (zh) 音素识别方法、装置及计算机可读存储介质
KR102220964B1 (ko) 오디오 인식을 위한 방법 및 디바이스
Devi et al. A novel approach for speech feature extraction by cubic-log compression in MFCC
WO2007041789A1 (en) Front-end processing of speech signals
Kumar et al. Text dependent voice recognition system using MFCC and VQ for security applications
KR100766170B1 (ko) 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법
Gedam et al. Development of automatic speech recognition of Marathi numerals-a review
CN115221351A (zh) 音频匹配方法、装置、电子设备和计算机可读存储介质
CN115359800A (zh) 发动机型号检测方法和装置、电子设备、存储介质
Nijhawan et al. Real time speaker recognition system for hindi words
Mittal et al. Classical and deep learning data processing techniques for speech and speaker recognitions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination