CN111292754A - 语音信号处理方法、装置及设备 - Google Patents

语音信号处理方法、装置及设备 Download PDF

Info

Publication number
CN111292754A
CN111292754A CN202010096100.4A CN202010096100A CN111292754A CN 111292754 A CN111292754 A CN 111292754A CN 202010096100 A CN202010096100 A CN 202010096100A CN 111292754 A CN111292754 A CN 111292754A
Authority
CN
China
Prior art keywords
vector
feature vector
sample
voice signal
statistical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010096100.4A
Other languages
English (en)
Inventor
王健宗
彭俊清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010096100.4A priority Critical patent/CN111292754A/zh
Publication of CN111292754A publication Critical patent/CN111292754A/zh
Priority to PCT/CN2020/118120 priority patent/WO2021164256A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供语音信号处理方法、装置及设备,其中,方法包括:获取待处理语音信号对应的第一统计特征向量,所述第一统计特征向量用于表示所述待处理语音信号在M维特征空间中每维特征空间的统计值,所述M为大于1的整数;将所述第一统计特征向量输入第一模型进行处理,获得第二统计特征向量,所述第一模型用于根据所述M维特征空间中每维特征空间的重要程度对所述第一统计特征向量进行处理;根据所述第二统计特征向量,确定所述待处理语音信号的目标类别,所述目标类别包括原始语音信号或者录音重放语音信号。该技术方案可以提高录音重放信号检测的准确性。

Description

语音信号处理方法、装置及设备
技术领域
本发明涉及信号处理领域,尤其涉及语音信号处理方法、装置及设备。
背景技术
近几年,声纹识别技术在远程无监督身份认证领域中得到了广泛应用。然而在使用中也存在很多安全隐患,比如,录制说话人语音,然后进行录音重放的攻击手段是声纹识别系统面临的最常见的攻击手段,录音重放攻击是一种用高保真录音设备录制目标人物的语音,然后运用录制的语音信号去破解声纹认证系统的技术手段。语音重放攻击的语音是来自说话人本人,因此更具真实性,这种攻击对系统的安全性将造成更大的威胁。
目前为了避免录音重放攻击,用户在进行声纹验证时,系统会规定用户需要诵读的文本语句,在进行声纹验证时,辅以语音内容识别进行录音重放检测。然而在用户口音严重或者有自己特殊发音习惯时,语音内容识别准确率大幅下降,降低录音重放语音信号检测的准确性。
发明内容
本发明实施例提供语音信号处理方法、装置及设备,可以提高录音重放信号检测的准确性,并且不需要对语音信号内容进行检测,提高检测效率。
第一方面,提供语音信号处理方法,包括:
获取待处理语音信号对应的第一统计特征向量,所述第一统计特征向量用于表示所述待处理语音信号在M维特征空间中每维特征空间的统计值,所述M为大于1的整数;
将所述第一统计特征向量输入第一模型进行处理,获得第二统计特征向量,所述第一模型用于根据所述M维特征空间中每维特征空间的重要程度对所述第一统计特征向量进行处理;
根据所述第二统计特征向量,确定所述待处理语音信号的目标类别,所述目标类别包括原始语音信号或者录音重放语音信号。
结合第一方面,在一种可能的实现方式中,所述获取待处理语音信号对应的第一统计特征向量,包括:将所述待处理语音信号划分为N个语音帧,所述N为大于或者等于1的整数;获取所述N个语音帧中每个语音帧的第一特征向量,所述第一特征向量用于表示所述语音帧在M维特征空间中每维特征空间的特征值;针对所述M维特征空间中的每维特征空间,计算该维特征空间对应的统计值,所述统计值为所述N个语音帧在该维特征空间的统计值;根据所述M维特征空间中每维特征空间对应的统计值,构建所述待处理语音信号对应的第一统计特征向量。
结合第一方面,在一种可能的实现方式中,所述第一统计特征向量包括第一均值向量和/或第一标准差向量,所述第一均值向量用于表示所述待处理语音信号在M维特征空间中每维特征空间的均值,所述第一标准差向量用于表示所述待处理语音信号在M维特征空间中每维特征空间的标准差。
结合第一方面,在一种可能的实现方式中,若所述第一统计特征向量包括所述第一均值向量和所述第一标准差向量;所述第二统计特征向量包括第二均值向量和第二标准差向量,所述第二均值向量是根据所述第一均值向量和所述第一模型得到,所述第二标准差向量是根据所述第一标准向量和所述第一模型得到;所述根据所述第二统计特征向量,确定所述待处理语音信号的目标类别,包括:根据所述第二均值向量和所述第二标准差向量,构建第三统计特征向量;根据所述第三统计特征向量,确定所述待处理语音信号的目标类别。
结合第一方面,在一种可能的实现方式中,所述获取待处理语音信号对应的第一统计特征向量之前,还包括:获取第一样本语音信号对应的第一样本统计特征向量,所述第一样本统计特征向量用于表示所述第一样本语音信号在M维特征空间中每维特征空间的统计值,所述M为大于1的整数,所述第一样本语音信号为录音重放语音信号或者原始语音信号;将所述第一样本统计特征向量输入所述第一模型进行处理,获得第二样本统计特征向量;根据所述第二样本统计特征向量,计算所述第一模型的第一损失;根据所述第一损失,训练所述第一模型。
结合第一方面,在一种可能的实现方式中,所述获取待处理语音信号对应的第一统计特征向量之前,还包括:获取第一语音信号,所述第一语音信号为录音重放语音信号;获取所述第一语音信号的第二特征向量,并将所述第二特征向量输入编码模型进行编码处理,获得第四统计特征向量,所述第四统计特征向量用于表示所述第一语音信号的统计特征;根据所述第四统计特征向量构建第一隐含向量,并将所述第一隐含向量输入解码模型进行解码处理,获得第三特征向量,其中,由所述第三特征向量生成的第二语音信号与所述第一语音信号之间的相似度满足目标条件;若所述第一样本语音信号为录音重放语音信号,则所述第一样本语音信号为所述第一语音信号或者所述第二语音信号。
结合第一方面,在一种可能的实现方式中,所述获取第一语音信号之前,还包括:获取第二样本语音信号对应的第一样本特征向量;将所述第一样本特征向量输入所述编码模型进行编码处理,获得第三样本统计特征向量,所述第三样本统计特征向量用于表示所述第二样本语音信号的统计特征;根据所述第三样本统计特征向量和标准正态分布函数,确定第二损失;根据所述第三样本统计特征向量构建第一样本隐含向量,并将所述第一样本隐含向量输入所述解码模型进行解码处理,获得第二样本特征向量;根据所述第一样本特征向量和所述第二样本特征向量,确定第三损失;根据所述第二损失和所述第三损失,训练所述编码模型和所述解码模型。
第二方面,提供语音信号处理装置,包括:
第一特征获取模块,用于获取待处理语音信号对应的第一统计特征向量,所述第一统计特征向量用于表示所述待处理语音信号在M维特征空间中每维特征空间的统计值,所述M为大于1的整数;
第二特征获取模块,用于将所述第一统计特征向量输入第一模型进行处理,获得第二统计特征向量,所述第一模型用于根据所述M维特征空间中每维特征空间的重要程度对所述第一统计特征向量进行处理;
目标类别确定模块,用于根据所述第二统计特征向量,确定所述待处理语音信号的目标类别,所述目标类别包括原始语音信号或者录音重放语音信号。
结合第二方面,在一种可能的实现方式中,第一特征获取模块,用于:将所述待处理语音信号划分为N个语音帧,所述N为大于或者等于1的整数;获取所述N个语音帧中每个语音帧的第一特征向量,所述第一特征向量用于表示所述语音帧在M维特征空间中每维特征空间的特征值;针对所述M维特征空间中的每维特征空间,计算该维特征空间对应的统计值,所述统计值为所述N个语音帧在该维特征空间的统计值;根据所述M维特征空间中每维特征空间对应的统计值,构建所述待处理语音信号对应的第一统计特征向量。
结合第二方面,在一种可能的实现方式中,所述第一统计特征向量包括第一均值向量和/或第一标准差向量,所述第一均值向量用于表示所述待处理语音信号在M维特征空间中每维特征空间的均值,所述第一标准差向量用于表示所述待处理语音信号在M维特征空间中每维特征空间的标准差。
结合第二方面,在一种可能的实现方式中,若所述第一统计特征向量包括所述第一均值向量和所述第一标准差向量;所述第二统计特征向量包括第二均值向量和第二标准差向量,所述第二均值向量是根据所述第一均值向量和所述第一模型得到,所述第二标准差向量是根据所述第一标准向量和所述第一模型得到;所述目标类别确定模块,还用于根据所述第二均值向量和所述第二标准差向量,构建第三统计特征向量;根据所述第三统计特征向量,确定所述待处理语音信号的目标类别。
结合第二方面,在一种可能的实现方式中,所述装置还包括:第一模型训练模块,用于获取第一样本语音信号对应的第一样本统计特征向量,所述第一样本统计特征向量用于表示所述第一样本语音信号在M维特征空间中每维特征空间的统计值,所述M为大于1的整数,所述第一样本语音信号为录音重放语音信号或者原始语音信号;所述第一模型训练模块,还用于将所述第一样本统计特征向量输入所述第一模型进行处理,获得第二样本统计特征向量;根据所述第二样本统计特征向量,计算所述第一模型的第一损失;根据所述第一损失,训练所述第一模型。
结合第二方面,在一种可能的实现方式中,所述装置还包括:语音信号获取模块,用于获取第一语音信号,所述第一语音信号为录音重放语音信号;获取所述第一语音信号的第二特征向量,并将所述第二特征向量输入编码模型进行编码处理,获得第四统计特征向量,所述第四统计特征向量用于表示所述第一语音信号的统计特征;根据所述第四统计特征向量构建第一隐含向量,并将所述第一隐含向量输入解码模型进行解码处理,获得第三特征向量,其中,由所述第三特征向量生成的第二语音信号与所述第一语音信号之间的相似度满足目标条件;若所述第一样本语音信号为录音重放语音信号,则所述第一样本语音信号为所述第一语音信号或者所述第二语音信号。
结合第二方面,在一种可能的实现方式中,所述装置还包括:第二模型训练模块,用于获取第二样本语音信号对应的第一样本特征向量;将所述第一样本特征向量输入所述编码模型进行编码处理,获得第三样本统计特征向量,所述第三样本统计特征向量用于表示所述第二样本语音信号的统计特征;根据所述第三样本统计特征向量和标准正态分布函数,确定第二损失;根据所述第三样本统计特征向量构建第一样本隐含向量,并将所述第一样本隐含向量输入所述解码模型进行解码处理,获得第二样本特征向量;根据所述第一样本特征向量和所述第二样本特征向量,确定第三损失;根据所述第二损失和所述第三损失,训练所述编码模型和所述解码模型。
第三方面,提供语音信号处理设备,包括处理器、存储器、以及输入输出接口,所述处理器、存储器和输入输出接口相互连接,其中,所述输入输出接口用于输入或输出数据,所述存储器用于存储语音信号处理设备执行上述方法的应用程序代码,所述处理器被配置用于执行上述第一方面的方法。
第四方面,提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
本发明实施例中,通过获取待处理语音信号对应的第一统计特征向量,将第一统计特征向量输入第一模型进行处理,获得第二统计特征向量,并根据第二统计特征向量确定待处理语音信号的目标类别,从而确定待处理语音信号为原始语音信号或者录音重放语音信号,由于根据M维特征空间中每维特征空间的重要程度对第一统计特征向量进行处理,强化了M维特征空间中每维特征空间的统计特征,可以更准确的反映待处理语音信号的统计特征,从而准确地确定出待处理语音信号的目标类别,提高录音重放检测的准确性,并且不需要对待处理语音信号的内容进行检测,提高检测效率,适用性强。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种语音信号处理方法的流程示意图;
图2是本发明实施例提供的另一种语音信号处理方法的流程示意图;
图3是本发明实施例提供的一种训练第一模型的示意图;
图4是本发明实施例提供的另一种语音信号处理方法的流程示意图;
图5是本发明实施例提供的一种训练编码模型与解码模型的示意图;
图6是本发明实施例提供的一种语音信号处理装置的组成结构示意图;
图7是本发明实施例提供的一种语音信号处理设备的组成结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例的方案适用于对语音信号进行处理,从而确定出语音信号所属的目标类别是否为录音重放语音信号类别的场景中,通过获取待处理语音信号对应的第一统计特征向量,将第一统计特征向量输入第一模型进行处理,获得第二统计特征向量,并根据第二统计特征向量确定待处理语音信号的目标类别,从而确定待处理语音信号为原始语音信号或者录音重放语音信号,由于根据M维特征空间中每维特征空间的重要程度对第一统计特征向量进行处理,强化了M维特征空间中每维特征空间的统计特征,可以更准确的反映待处理语音信号的统计特征,从而准确地确定出待处理语音信号的目标类别,提高录音重放检测的准确性,并且不需要对待处理语音信号的内容进行检测,提高检测效率,适用性强。
参见图1,图1是本发明实施例提供的一种语音信号处理方法的流程示意图,如图所示,该方法包括:
S101,获取待处理语音信号对应的第一统计特征向量,第一统计特征向量用于表示待处理语音信号在M维特征空间中每维特征空间的统计值,M为大于1的整数。
本申请实施例可以应用于声纹识别认证系统中,即通过检测待处理语音信号的声纹确定用户的身份,待处理语音信号可以是用于声纹识别的语音信号,为了避免非法人员采用某个用户的录音重放语音信号进行声纹识别,因此本申请实施例需要对待处理语音信号进行录音重放检测。
其中,待处理语音信号可以是原始语音信号或者录音重放语音信号,其中,原始语音信号可以为通过用户直接发声(例如说话)所产生的语音信号(即未经过录音录像等设备进行录音重放的语音信号),录音重放语音信号可以包括对用户直接发声所产生的语音信号进行录音得到的语音信号,或者通过信号合成等方式合成的非用户直接发声所产生的语音信号,等等。本技术方案中,除原始语音信号以外的其他语音信号都称为录音重放语音信号。
第一统计特征向量包括第一均值向量和/或第一标准差向量,第一均值向量用于表示待处理语音信号在M维特征空间中每维特征空间的均值,第一标准差向量用于表示待处理语音信号在M维特征空间中每维特征空间的标准差。
在一种可实现的方式中,具体获取待处理语音信号对应的第一统计特征向量可以包括以下步骤:
一、将待处理语音信号划分为N个语音帧,N为大于或者等于1的整数。
具体地,可以以预设的采样周期对待处理语音信号进行采样,将连续的待处理语音信号变换为离散化的语音信号,采样周期可以为根据奈奎斯特采样定理确定的周期;然后通过传递函数为H(Z)=1-αZ-1的数字滤波器对离散后的语音信号进行滤波,增加语音信号的高频分辨率,α为预加重系数,α大于0.9小于1;最后,可以利用窗函数对离散的语音信号进行分帧处理得到多个语音帧,这里即得到N个语音帧,其中,窗函数可以为矩形窗、汉明窗或汉宁窗中的任意一种窗函数。
可选地,还可以通过端点检测剔除语音帧中的噪声和干扰。其中,可以通过基于能量的端点检测、基于信息熵的端点检测或基于频带方差的端点检测等方式进行端点检测。
二、获取N个语音帧中每个语音帧的第一特征向量,第一特征向量用于表示语音帧在M维特征空间中每维特征空间的特征值。
这里,例如M为400,N为100,则获取到100个语音帧,其中,每个语音帧的第一特征向量为具有400维特征空间的特征向量,即第一特征向量用于表示语音帧在400维特征空间中每维特征空间的特征值,则获取到100个400维的第一特征向量。
具体地,可以对N个语音帧中每个语音帧进行线性预测倒谱系数(linearprediction cepstral coefficients,LPCC)特征提取、梅尔频率倒谱系数(Mel-scalefrequency cepstral coefficients,MFCC)特征提取、或者常量Q倒谱系数(Constant Qcepstral coefficients,CQCC)特征提取得到第一特征向量。
具体实现中,以对N个语音帧中每个语音帧进行CQCC特征提取得到第一特征向量为例,可以首先对N个语音帧中每个语音帧对应的语音信号进行常Q变换(Constant QTransform,CQT),将时域信号转变为频域信号;其次,计算N个语音帧中每个语音帧的能量谱,对能量谱取对数得到对数能量谱;最后,将对数能量谱进行均匀重采样得到采样函数,再对采样函数进行离散余弦变换(Discrete Consine Transform,DCT)得到CQCC特征向量,即第一特征向量,由此可得到N个语音帧中每个语音帧的第一特征向量。
三、针对M维特征空间中的每维特征空间,计算该维特征空间对应的统计值,该维特征空间对应的统计值为N个语音帧在该维特征空间的统计值。
这里,即针对M维特征空间中的每维特征空间,计算N个语音帧在该维特征空间的统计值。例如M为400,N为100,则针对400维特征空间中的每维特征空间,计算100个语音帧在该维特征空间的统计值。
其中,统计值可以包括均值和/或标准差,即针对M维特征空间中的每维特征空间,计算N个语音帧在该维特征空间的均值,得到M维均值向量;针对M维特征空间中的每维特征空间,计算N个语音帧在该维特征空间的标准差,得到M维标准差向量。例如针对400维特征空间中的每维特征空间,计算100个语音帧在该维特征空间的均值和/或标准差,得到400维均值向量和/或400维标准差向量。
四、根据M维特征空间中每维特征空间对应的统计值,构建待处理语音信号对应的第一统计特征向量。
这里,第一统计特征向量包括第一均值向量和/或第一标准差向量,第一均值向量用于表示待处理语音信号在M维特征空间中每维特征空间的均值,第一标准差向量用于表示待处理语音信号在M维特征空间中每维特征空间的标准差。
在统计值包括均值和标准差的情况下,根据M维特征空间中每维特征空间对应的统计值,构建待处理语音信号对应的第一统计特征向量即:根据M维特征空间中每维特征空间对应的均值,构建待处理语音信号对应的第一均值向量,以及根据M维特征空间中每维特征空间对应的标准差,构建待处理语音信号对应的第一标准差向量。可知,第一均值向量为由M个均值组成的具有M维特征空间的向量,第一标准差向量为由M个标准差组成的具有M维特征空间的向量。
S102,将第一统计特征向量输入第一模型进行处理,获得第二统计特征向量,第一模型用于根据M维特征空间中每维特征空间的重要程度对第一统计特征向量进行处理。
具体地,可以通过第一模型中的权重模块对第一统计特征向量进行处理,得到第二统计特征向量。这里,权重模块包括目标权重矩阵,目标权重矩阵可以为具有M维特征空间的矩阵,其中,M维特征空间中的每维特征空间对应的数值用于表示该维特征空间的重要程度,即特征空间对应的数值越大,则该维特征空间的重要程度越高;特征空间对应的数值越小,则该维特征空间的重要程度越低。
可选地,目标权重矩阵可以根据第一均值向量的M维特征空间中的每维特征空间的均值大小,按照目标规则为每维特征空间分配权重得到,即目标权重矩阵为具有M维特征空间的矩阵。这里,目标规则可以为第一均值向量的M维特征空间中某一维度的均值大,则该维特征空间的权重大;第一均值向量的M维特征空间中某一维度的均值小,则该维特征空间的权重小,即第一均值向量的M维特征空间中均值越大的特征空间的权重越大,均值越小的特征空间的权重越小。
需要说明的是,可以预先对第一模型进行训练,使得通过使用训练后的第一模型处理得到的第二统计特征向量更准确的表示待处理语音信号的类别,具体地对第一模型进行训练的过程可参考图3对应的实施例中的描述,此处不做过多描述。
S103,根据第二统计特征向量,确定待处理语音信号的目标类别,目标类别包括原始语音信号或者录音重放语音信号。
这里,原始语音信号可以为通过用户直接发声所产生的语音信号(即未经过录音录像等设备进行录音重放的语音信号),录音重放语音信号可以包括对用户直接发声所产生的语音信号进行录音得到的语音信号,或者通过信号合成等方式合成的非用户直接发声所产生的语音信号,等等。
具体地,若第一统计特征向量包括第一均值向量和第一标准差向量,则第二统计特征向量包括第二均值向量和第二标准差向量,第二均值向量是根据第一均值向量和第一模型得到,第二标准差向量是根据第一标准向量和第一模型得到。具体实现中,第二均值向量可以为第一均值向量与目标权重矩阵之积,第二标准向量可以为第一标准向量与目标权重矩阵之积。
在一种可能的实现方式中,可以首先根据第二均值向量和第二标准差向量,构建第三统计特征向量;再根据第三统计特征向量,确定待处理语音信号的目标类别。
具体实现中,可以通过拼接第二均值向量和第二标准差向量得到第三统计特征向量,由于第二均值向量为具有M维特征空间的向量,第二标准差向量为具有M维特征空间的向量,则拼接得到的第三统计特征向量可以为具有2M维特征空间的向量,即第三统计特征向量为2M维特征向量。
可选地,还可以通过降维模块对第三统计特征向量进行降维处理,得到二维特征向量,由此根据该二维特征向量确定待处理语音信号的目标类别。具体实现中,可以预先设置二维特征向量与语音信号类别之间的对应关系,则可以在对第三统计特征向量进行降维处理得到二维特征向量时,根据得到的二维特征向量以及二维特征向量与语音信号类别之间的对应关系确定出该二维特征向量对应的语音信号类别,从而确定待处理语音信号的目标类别。
本发明实施例中,通过获取待处理语音信号对应的第一统计特征向量,将第一统计特征向量输入第一模型进行处理,获得第二统计特征向量,并根据第二统计特征向量确定待处理语音信号的目标类别,从而确定待处理语音信号为原始语音信号或者录音重放语音信号,由于根据M维特征空间中每维特征空间的重要程度对第一统计特征向量进行处理,强化了M维特征空间中每维特征空间的统计特征,可以更准确的反映待处理语音信号的统计特征,从而准确地确定出待处理语音信号的目标类别,提高录音重放检测的准确性,并且不需要对待处理语音信号的内容进行检测,提高检测效率,适用性强。
在一种可能的实现方式中,为了使得通过第一模型处理后的第二统计特征向量更准确的表示待处理语音信号的类别,在将第一统计特征向量输入第一模型进行处理(使用第一模型)之前,还可以使用大量样本语音信号对第一模型进行训练,并根据训练得到的损失值对第一模型进行调整,使得通过训练完成的第一模型处理后的第二统计特征向量能更准确的表示待处理语音信号的类别,具体训练第一模型的步骤如图2所示,图2是本发明实施例提供的另一种语音信号处理方法的流程示意图,如图所示,该方法包括:
S201,获取第一样本语音信号对应的第一样本统计特征向量,第一样本统计特征向量用于表示第一样本语音信号在M维特征空间中每维特征空间的统计值,M为大于1的整数,第一样本语音信号为录音重放语音信号或者原始语音信号。
这里,第一样本语音信号为用于训练第一模型所准备的语音信号。例如,第一样本语音信号可以通过对原始语音信号进行录音得到,也可以通过对录音重放语音信号进行录音得到。
可选地,在获取第一样本语音信号时,可确定第一样本语音信号的目标类别,即在将第一样本语音信号输入第一模型进行处理前预先确定出第一样本语音信号属于原始语音信号或者录音重放语音信号。例如,可以预先记录第一样本语音信号1、第一样本语音信号2、第一样本语音信号3的目标类别,例如第一样本语音信号1、第一样本语音信号2、第一样本语音信号3的目标类别分别为原始语音信号、原始语音信号、录音重放语音信号,则可记录第一样本语音信号1~原始语音信号、第一样本语音信号2~原始语音信号、第一样本语音信号3~录音重放语音信号,等等。
具体实现中,获取第一样本语音信号对应的第一样本统计特征向量可参考步骤S101中获取待处理语音信号对应的第一统计特征向量的方法,此处不再赘述。第一样本统计特征向量包括第一样本均值向量和/或第一样本标准差向量,第一样本均值向量用于表示第一样本语音信号在M维特征空间中每维特征空间的均值,第一样本标准差向量用于表示第一样本语音信号在M维特征空间中每维特征空间的标准差。
S202,将第一样本统计特征向量输入第一模型进行处理,获得第二样本统计特征向量。
这里,若第一样本统计特征向量包括第一样本均值向量和第一样本标准差向量,第二样本统计特征向量包括第二样本均值向量和第二样本标准差向量,第二样本均值向量是根据第一样本均值向量和第一模型得到的,第二样本标准差向量是根据第一样本标准向量和第一模型得到的。
下面具体介绍将第一样本统计特征向量输入第一模型进行处理,获得第二样本统计特征向量的过程,可参考图3,图3是本发明实施例提供的一种训练第一模型的示意图,如图所示:
获取第一样本语音信号对应的第一样本统计特征向量,将第一样本统计特征向量输入第一模型,通过第一模型中的权重模块对第一样本统计特征向量进行权重计算,得到第二样本统计特征向量。可选地,还可以根据第二样本统计特征向量得到第三样本统计特征向量,通过降维模块对第三样本统计特征向量进行降维处理,得到二维样本特征向量,该二维样本特征向量对应一个目标类别。
其中,权重模块包括目标权重矩阵,目标权重矩阵用于表示M维特征空间中每维特征空间的重要程度,即权重模块用于根据M维特征空间中每维特征空间的重要程度对第一样本统计特征向量进行权重计算得到第三样本统计特征向量;降维模块可以包括全连接层,用于减少第一模型训练中的计算量,例如得到的第三样本统计特征向量为高维特征矩阵,通过降维模块对高维特征矩阵进行降维可以得到低维特征矩阵,例如高维特征矩阵为2M维,通过降维模块进行降维可以得到二维的低维特征矩阵,通过降维处理可以减少模型训练中的计算量。
S203,根据第二样本统计特征向量,计算第一模型的第一损失。
这里,根据第二样本统计特征向量,计算第一模型的第一损失即根据第一样本均值向量和第一样本标准差向量,计算第一模型的第一损失。
具体实现中,由于预先确定了第一样本语音信号的目标类别,且通过第一模型对第一样本语音信号对应的第一样本统计特征向量进行处理得到第二样本统计特征向量,并根据第二样本统计特征向量得到第三样本统计特征向量,以及通过降维模块对第三样本统计特征向量进行降维处理,得到的二维样本特征向量对应一个目标类别,根据预先确定的第一样本语音信号的目标类别与二维样本特征向量对应的目标类别之间的相似度,计算第一模型的第一损失。这里,相似度越高,则第一损失越小,相似度越低,则第一损失越大,其中,第一损失可以为交叉熵损失。
S204,根据第一损失,训练第一模型。
这里,在第一损失较大的情况下,可以采用梯度下降法对第一模型进行调整,即对第一模型中的权重模块进行调整,还可以采用梯度下降法对降维模块进行调整,使得模型训练的参数以及降维模块中的参数更准确,从而使得通过第一模型处理后得到的第二统计特征向量能更准确的反映第一样本语音信号的类别。
本发明实施例中,由于使用大量样本语音信号对第一模型进行训练,且根据预先确定的各个样本语音信号的目标类别与通过第一模型处理后得到的样本语音信号的目标类别之间的相似度确定第一模型的第一损失,并根据第一损失确定第一模型是否准确,在第一损失较大的情况下,对第一模型进行调整,使得通过训练完成的第一模型处理得到的第二统计特征向量更加准确地表示样本语音信号的目标类别,由于使用了大量的样本语音信号对第一模型进行训练,因此训练后的第一模型更准确,从而使得录音重放检测结果更准确。
在一种可能的实现方式中,为了使得训练得到的第一模型更准确,需要使用大量的样本语音信号对第一模型进行训练,因此需要获取大量样本语音信号,由于通过对语音信号进行录音获取录音重放的样本语音信号的方式效率较低,因此可以通过以下方式快速获取大量录音重放的样本语音信号,具体获取大量样本语音信号的步骤如图4所示,图4是本发明实施例提供的另一种语音信号处理方法的流程示意图,如图所示,该方法包括:
S301,获取第一语音信号,第一语音信号为录音重放语音信号。
S302,获取第一语音信号的第二特征向量,并将第二特征向量输入编码模型进行编码处理,获得第四统计特征向量,第四统计特征向量用于表示第一语音信号的统计特征。
这里,第二特征向量可以包括LPCC特征向量、MFCC特征向量、或者CQCC特征向量,可以通过对第一语音信号进行LPCC特征提取、MFCC特征提取、或者CQCC特征提取得到第二特征向量。具体对第一语音信号进行CQCC特征提取得到CQCC特征向量的方法可参考步骤S101中的描述,此处不再赘述。
本发明实施例中,通过对第一语音信号进行特征提取得到第二特征向量,并将第二特征向量输入编码模型进行编码处理,获得第四统计特征向量,第四统计特征向量包括第三均值向量和第三标准差向量,第三均值向量用于表示第一语音信号在M维特征空间中每维特征空间的均值,第三标准差向量用于表示第一语音信号在M维特征空间中每维特征空间的标准差。
S303,根据第四统计特征向量构建第一隐含向量,并将第一隐含向量输入解码模型进行解码处理,获得第三特征向量,其中,由第三特征向量生成的第二语音信号与第一语音信号之间的相似度满足目标条件。
这里,目标条件为第二语音信号与第一语音信号之间的相似度满足相似度阈值,例如,相似度阈值可以为80%、90%、95%等数值,即第一语音信号与第二语音信号为相似度较高的两个语音信号,即通过该方式可以通过一个录音重放的语音信号生成一个与该录音重放语音信号相似度很高的录音重放语音信号,比如,存在X个录音重放语音信号,则通过上述方式可以产生2X个录音重放语音信号,进一步将该2X个录音重放语音信号用于训练第一模型。
这里,根据第四统计特征向量构建第一隐含向量即根据第三均值向量和第三标准差向量构建第一隐含向量,并将第一隐含向量输入解码模型进行解码处理,获得第三特征向量。
可选地,编码模型和解码模型可以为变分自编码器(Variational Autoencoder,VAE)中的编码层和解码层,在使用编码模型和解码模型之前,可以预先对编码模型与解码模型进行训练,使得训练后的编码模型以及解码模型更准确,从而使得得到的第二语音信号与输入编码模型中的第二特征向量对应的第一语音信号之间的相似度更高。对编码模型与解码模型进行训练的方式可参考图5,图5是本发明实施例提供的一种训练编码模型与解码模型的示意图,如图所示:
一、获取第二样本语音信号对应的第一样本特征向量。
具体获取第二样本语音信号对应的第一样本特征向量的方法可参考步骤S302中获取第一语音信号的第二特征向量的方法,此处不再赘述。
二、将第一样本特征向量输入编码模型进行编码处理,获得第三样本统计特征向量,第三样本统计特征向量用于表示第二样本语音信号的统计特征。
这里,第三样本统计特征向量包括第二样本均值向量和第二样本标准差向量,第二样本均值向量用于表示第二样本语音信号在M维特征空间中每维特征空间的均值,第二样本标准差向量用于表示第二样本语音信号在M维特征空间中每维特征空间的标准差。即将第一样本特征向量输入编码模型进行编码处理,获得第二样本均值向量和第二样本标准差向量。
三、根据第三样本统计特征向量和标准正态分布函数,确定第二损失。
这里,可以先根据第二样本均值向量和第二样本标准差向量确定第一正态分布函数,再根据第一正态分布函数与标准正态分布函数之间的重合度确定第二损失,其中,第一正态分布函数与标准正态分布函数之间的重合度越高,第二损失越小,第一正态分布函数与标准正态分布函数之间的重合度越低,第二损失越大,其中,第二损失可以为散度损失,第一正态分布函数与标准正态分布函数之间的重合度即在坐标轴上第一正态分布函数对应的图形与在该坐标轴上标准正态分布函数对应的图形之间的重合度。
四、根据第三样本统计特征向量构建第一样本隐含向量,并将第一样本隐含向量输入解码模型进行解码处理,获得第二样本特征向量。
具体实现中,可以通过标准正态分布函数乘以第二样本标准差向量,再加上第二样本均值向量得到第一样本隐含向量,即第一样本隐含向量可以为标准正态分布函数与第二样本标准差向量之积,再与第二样本均值向量之和。将第一样本隐含向量输入解码模型进行解码处理,获得第二样本特征向量。这里,第二样本特征向量即通过将第一样本特征向量输入编码模型与解码模型后构造得到的特征向量。
五、根据第一样本特征向量和第二样本特征向量,确定第三损失。
这里,可以根据第一样本特征向量和第二样本特征向量的相似度确定第三损失,即第一样本特征向量和第二样本特征向量的相似度越高,则第三损失越小;第一样本特征向量和第二样本特征向量的相似度越低,则第三损失越大,其中,第三损失可以为交叉熵损失。
六、根据第二损失和第三损失,训练编码模型和解码模型。
在第二损失较大的情况下,可以采用梯度下降法对编码模型中的参数进行调整,在第三损失较大的情况下,可以采用梯度下降法对解码模型中的参数进行调整,使得调整后的编码模型和解码模型更准确,从而通过编码模型和解码模型处理得到的第二样本特征向量与第一样本特征向量之间的相似度更高。
若上述用于训练第一模型的第一样本语音信号为录音重放语音信号,则第一样本语音信号为上述第一语音信号或者第二语音信号。
这里,第一语音信号与第二语音信号都为录音重放语音信号,第一语音信号为输入编码模型的第一样本特征向量对应的语音信号,第二语音信号为从解码模型中输出的第二样本特征向量对应的语音信号。可选地,录音重放语音信号可以包括转录语音信号,转录语音信号即通过编码模型与解码模型对录音重放语音信号进行转录得到的语音信号,即第二语音信号。在训练第一模型时,可以使用原始语音信号或者录音重放语音信号,录音重放语音信号也包括转录语音信号,即通过将转录语音信号对应的统计特征向量输入第一模型处理后得到的转录语音信号的目标类别为录音重放语音信号。
本发明实施例中,通过使用编码模型和解码模型对样本语音信号对应的统计特征向量进行处理,可快速得到大量样本语音信号,相较于通过录音设备对样本语音信号进行录音的方式而言,该方法获取大量样本语音信号的效率较高。
上面介绍了本发明实施例的方法,下面介绍本发明实施例的装置。
参见图6,图6是本发明实施例提供的一种语音信号处理装置的组成结构示意图,该装置60包括:
第一特征获取模块601,用于获取待处理语音信号对应的第一统计特征向量,所述第一统计特征向量用于表示所述待处理语音信号在M维特征空间中每维特征空间的统计值,所述M为大于1的整数;
其中,待处理语音信号可以是原始语音信号或者录音重放语音信号,其中,原始语音信号可以为通过用户直接发声(例如说话)所产生的语音信号(即未经过录音录像等设备进行录音重放的语音信号),录音重放语音信号可以包括对用户直接发声所产生的语音信号进行录音得到的语音信号,或者通过信号合成等方式合成的非用户直接发声所产生的语音信号,等等。本技术方案中,除原始语音信号以外的其他语音信号都称为录音重放语音信号。
第一统计特征向量包括第一均值向量和/或第一标准差向量,第一均值向量用于表示待处理语音信号在M维特征空间中每维特征空间的均值,第一标准差向量用于表示待处理语音信号在M维特征空间中每维特征空间的标准差。
第二特征获取模块602,用于将所述第一统计特征向量输入第一模型进行处理,获得第二统计特征向量,所述第一模型用于根据所述M维特征空间中每维特征空间的重要程度对所述第一统计特征向量进行处理;
具体地,第二特征获取模块602可以通过第一模型中的权重模块对第一统计特征向量进行处理,得到第二统计特征向量。这里,权重模块包括目标权重矩阵,目标权重矩阵可以为具有M维特征空间的矩阵,其中,M维特征空间中的每维特征空间对应的数值用于表示该维特征空间的重要程度,即特征空间对应的数值越大,则该维特征空间的重要程度越高;特征空间对应的数值越小,则该维特征空间的重要程度越低。
可选地,目标权重矩阵可以根据第一均值向量的M维特征空间中的每维特征空间的均值大小,按照目标规则为每维特征空间分配权重得到,即目标权重矩阵为具有M维特征空间的矩阵。这里,目标规则可以为第一均值向量的M维特征空间中某一维度的均值大,则该维特征空间的权重大;第一均值向量的M维特征空间中某一维度的均值小,则该维特征空间的权重小,即第一均值向量的M维特征空间中均值越大的特征空间的权重越大,均值越小的特征空间的权重越小。
需要说明的是,可以预先对第一模型进行训练,使得通过使用训练后的第一模型处理得到的第二统计特征向量更准确的表示待处理语音信号的类别,具体地对第一模型进行训练的过程可参考图3对应的实施例中的描述,此处不做过多描述。
目标类别确定模块603,用于根据所述第二统计特征向量,确定所述待处理语音信号的目标类别,所述目标类别包括原始语音信号或者录音重放语音信号。
这里,原始语音信号可以为通过用户直接发声所产生的语音信号(即未经过录音录像等设备进行录音重放的语音信号),录音重放语音信号可以包括对用户直接发声所产生的语音信号进行录音得到的语音信号,或者通过信号合成等方式合成的非用户直接发声所产生的语音信号,等等。
在一种可能的设计中,所述第一特征获取模块601,用于:
将所述待处理语音信号划分为N个语音帧,所述N为大于或者等于1的整数;
具体地,第一特征获取模块601可以以预设的采样周期对待处理语音信号进行采样,将连续的待处理语音信号变换为离散化的语音信号,采样周期可以为根据奈奎斯特采样定理确定的周期;然后通过传递函数为H(Z)=1-αZ-1的数字滤波器对离散后的语音信号进行滤波,增加语音信号的高频分辨率,α为预加重系数,α大于0.9小于1;最后,可以利用窗函数对离散的语音信号进行分帧处理得到多个语音帧,这里即得到N个语音帧,其中,窗函数可以为矩形窗、汉明窗或汉宁窗中的任意一种窗函数。
可选地,第一特征获取模块601还可以通过端点检测剔除语音帧中的噪声和干扰。其中,可以通过基于能量的端点检测、基于信息熵的端点检测或基于频带方差的端点检测等方式进行端点检测。
获取所述N个语音帧中每个语音帧的第一特征向量,所述第一特征向量用于表示所述语音帧在M维特征空间中每维特征空间的特征值;
这里,例如M为400,N为100,则获取到100个语音帧,其中,每个语音帧的第一特征向量为具有400维特征空间的特征向量,即第一特征向量用于表示语音帧在400维特征空间中每维特征空间的特征值,则获取到100个400维的第一特征向量。
具体地,第一特征获取模块601可以对N个语音帧中每个语音帧进行线性预测倒谱系数(linear prediction cepstral coefficients,LPCC)特征提取、梅尔频率倒谱系数(Mel-scale frequency cepstral coefficients,MFCC)特征提取、或者常量Q倒谱系数(Constant Q cepstral coefficients,CQCC)特征提取得到第一特征向量。
具体实现中,以对N个语音帧中每个语音帧进行CQCC特征提取得到第一特征向量为例,第一特征获取模块601可以首先对N个语音帧中每个语音帧对应的语音信号进行常Q变换(Constant Q Transform,CQT),将时域信号转变为频域信号;其次,计算N个语音帧中每个语音帧的能量谱,对能量谱取对数得到对数能量谱;最后,将对数能量谱进行均匀重采样得到采样函数,再对采样函数进行离散余弦变换(Discrete Consine Transform,DCT)得到CQCC特征向量,即第一特征向量,由此可得到N个语音帧中每个语音帧的第一特征向量。
针对所述M维特征空间中的每维特征空间,计算该维特征空间对应的统计值,所述统计值为所述N个语音帧在该维特征空间的统计值;
这里,即第一特征获取模块601针对M维特征空间中的每维特征空间,计算N个语音帧在该维特征空间的统计值。例如M为400,N为100,则针对400维特征空间中的每维特征空间,计算100个语音帧在该维特征空间的统计值。
其中,统计值可以包括均值和/或标准差,即第一特征获取模块601针对M维特征空间中的每维特征空间,计算N个语音帧在该维特征空间的均值,得到M维均值向量;第一特征获取模块601针对M维特征空间中的每维特征空间,计算N个语音帧在该维特征空间的标准差,得到M维标准差向量。例如针对400维特征空间中的每维特征空间,计算100个语音帧在该维特征空间的均值和/或标准差,得到400维均值向量和/或400维标准差向量。
根据所述M维特征空间中每维特征空间对应的统计值,构建所述待处理语音信号对应的第一统计特征向量。
这里,第一统计特征向量包括第一均值向量和/或第一标准差向量,第一均值向量用于表示待处理语音信号在M维特征空间中每维特征空间的均值,第一标准差向量用于表示待处理语音信号在M维特征空间中每维特征空间的标准差。
在统计值包括均值和标准差的情况下,第一特征获取模块601根据M维特征空间中每维特征空间对应的统计值,构建待处理语音信号对应的第一统计特征向量即:第一特征获取模块601根据M维特征空间中每维特征空间对应的均值,构建待处理语音信号对应的第一均值向量,以及根据M维特征空间中每维特征空间对应的标准差,构建待处理语音信号对应的第一标准差向量。可知,第一均值向量为由M个均值组成的具有M维特征空间的向量,第一标准差向量为由M个标准差组成的具有M维特征空间的向量。
在一种可能的设计中,所述第一统计特征向量包括第一均值向量和/或第一标准差向量,所述第一均值向量用于表示所述待处理语音信号在M维特征空间中每维特征空间的均值,所述第一标准差向量用于表示所述待处理语音信号在M维特征空间中每维特征空间的标准差。
在一种可能的设计中,若所述第一统计特征向量包括所述第一均值向量和所述第一标准差向量;所述第二统计特征向量包括第二均值向量和第二标准差向量,所述第二均值向量是根据所述第一均值向量和所述第一模型得到,所述第二标准差向量是根据所述第一标准向量和所述第一模型得到;
具体地,若第一统计特征向量包括第一均值向量和第一标准差向量,则第二统计特征向量包括第二均值向量和第二标准差向量,第二均值向量是根据第一均值向量和第一模型得到,第二标准差向量是根据第一标准向量和第一模型得到。具体实现中,第二均值向量可以为第一均值向量与目标权重矩阵之积,第二标准向量可以为第一标准向量与目标权重矩阵之积。
所述目标类别确定模块603,还用于根据所述第二均值向量和所述第二标准差向量,构建第三统计特征向量;
具体实现中,目标类别确定模块603可以通过拼接第二均值向量和第二标准差向量得到第三统计特征向量,由于第二均值向量为具有M维特征空间的向量,第二标准差向量为具有M维特征空间的向量,则拼接得到的第三统计特征向量可以为具有2M维特征空间的向量,即第三统计特征向量为2M维特征向量。
所述目标类别确定模块603,还用于根据所述第三统计特征向量,确定所述待处理语音信号的目标类别。
可选地,目标类别确定模块603还可以通过降维模块对第三统计特征向量进行降维处理,得到二维特征向量,由此根据该二维特征向量确定待处理语音信号的目标类别。具体实现中,目标类别确定模块603可以预先设置二维特征向量与语音信号类别之间的对应关系,则可以在对第三统计特征向量进行降维处理得到二维特征向量时,根据得到的二维特征向量以及二维特征向量与语音信号类别之间的对应关系确定出该二维特征向量对应的语音信号类别,从而确定待处理语音信号的目标类别。
在一种可能的设计中,所述装置60还包括:
第一模型训练模块604,用于获取第一样本语音信号对应的第一样本统计特征向量,所述第一样本统计特征向量用于表示所述第一样本语音信号在M维特征空间中每维特征空间的统计值,所述M为大于1的整数,所述第一样本语音信号为录音重放语音信号或者原始语音信号;
这里,第一样本语音信号为用于训练第一模型所准备的语音信号。例如,第一样本语音信号可以通过对原始语音信号进行录音得到,也可以通过对录音重放语音信号进行录音得到。
可选地,第一模型训练模块604在获取第一样本语音信号时,可确定第一样本语音信号的目标类别,即在将第一样本语音信号输入第一模型进行处理前预先确定出第一样本语音信号属于原始语音信号或者录音重放语音信号。例如,可以预先记录第一样本语音信号1、第一样本语音信号2、第一样本语音信号3的目标类别,例如第一样本语音信号1、第一样本语音信号2、第一样本语音信号3的目标类别分别为原始语音信号、原始语音信号、录音重放语音信号,则可记录第一样本语音信号1~原始语音信号、第一样本语音信号2~原始语音信号、第一样本语音信号3~录音重放语音信号,等等。
具体实现中,第一模型训练模块604获取第一样本语音信号对应的第一样本统计特征向量可参考步骤S101中获取待处理语音信号对应的第一统计特征向量的方法,此处不再赘述。第一样本统计特征向量包括第一样本均值向量和/或第一样本标准差向量,第一样本均值向量用于表示第一样本语音信号在M维特征空间中每维特征空间的均值,第一样本标准差向量用于表示第一样本语音信号在M维特征空间中每维特征空间的标准差。
所述第一模型训练模块604,还用于将所述第一样本统计特征向量输入所述第一模型进行处理,获得第二样本统计特征向量;
这里,若第一样本统计特征向量包括第一样本均值向量和第一样本标准差向量,第二样本统计特征向量包括第二样本均值向量和第二样本标准差向量,第二样本均值向量是根据第一样本均值向量和第一模型得到的,第二样本标准差向量是根据第一样本标准向量和第一模型得到的。
下面具体介绍将第一样本统计特征向量输入第一模型进行处理,获得第二样本统计特征向量的过程,可参考图3,图3是本发明实施例提供的一种训练第一模型的示意图,如图所示:
第一模型训练模块604获取第一样本语音信号对应的第一样本统计特征向量,将第一样本统计特征向量输入第一模型,通过第一模型中的权重模块对第一样本统计特征向量进行权重计算,得到第二样本统计特征向量。可选地,还可以根据第二样本统计特征向量得到第三样本统计特征向量,通过降维模块对第三样本统计特征向量进行降维处理,得到二维样本特征向量,该二维样本特征向量对应一个目标类别。
其中,权重模块包括目标权重矩阵,目标权重矩阵用于表示M维特征空间中每维特征空间的重要程度,即权重模块用于根据M维特征空间中每维特征空间的重要程度对第一样本统计特征向量进行权重计算得到第三样本统计特征向量;降维模块可以包括全连接层,用于减少第一模型训练中的计算量,例如得到的第三样本统计特征向量为高维特征矩阵,通过降维模块对高维特征矩阵进行降维可以得到低维特征矩阵,例如高维特征矩阵为2M维,通过降维模块进行降维可以得到2维的低维特征矩阵,通过降维处理可以减少模型训练中的计算量。
所述第一模型训练模块604,还用于根据所述第二样本统计特征向量,计算所述第一模型的第一损失;
这里,第一模型训练模块604根据第二样本统计特征向量,计算第一模型的第一损失即第一模型训练模块604根据第一样本均值向量和第一样本标准差向量,计算第一模型的第一损失。
具体实现中,第一模型训练模块604由于预先确定了第一样本语音信号的目标类别,且通过第一模型对第一样本语音信号对应的第一样本统计特征向量进行处理得到第二样本统计特征向量,并根据第二样本统计特征向量得到第三样本统计特征向量,以及通过降维模块对第三样本统计特征向量进行降维处理,得到的二维样本特征向量对应一个目标类别,根据预先确定的第一样本语音信号的目标类别与二维样本特征向量对应的目标类别之间的相似度,计算第一模型的第一损失。这里,相似度越高,则第一损失越小,相似度越低,则第一损失越大,其中,第一损失可以为交叉熵损失。
所述第一模型训练模块604,还用于根据所述第一损失,训练所述第一模型。
这里,在第一损失较大的情况下,第一模型训练模块604可以采用梯度下降法对第一模型进行调整,即对第一模型中的权重模块进行调整,第一模型训练模块604还可以采用梯度下降法对降维模块进行调整,使得模型训练的参数更准确,从而使得通过第一模型处理后得到的第二统计特征向量能更准确的反映第一样本语音信号的类别。
在一种可能的设计中,所述装置60还包括:
语音信号获取模块605,用于获取第一语音信号,所述第一语音信号为录音重放语音信号;
这里,语音信号获取模块605可以通过录音设备等对原始语音信号进行录音得到录音重放语音信号。
所述语音信号获取模块605,还用于获取所述第一语音信号的第二特征向量,并将所述第二特征向量输入编码模型进行编码处理,获得第四统计特征向量,所述第四统计特征向量用于表示所述第一语音信号的统计特征;
这里,第二特征向量可以包括LPCC特征向量、MFCC特征向量、或者CQCC特征向量,语音信号获取模块605可以通过对第一语音信号进行LPCC特征提取、MFCC特征提取、或者CQCC特征提取得到第二特征向量。具体语音信号获取模块605对第一语音信号进行CQCC特征提取得到CQCC特征向量的方法可参考步骤S101中的描述,此处不再赘述。
本发明实施例中,语音信号获取模块605通过对第一语音信号进行特征提取得到第二特征向量,并将第二特征向量输入编码模型进行编码处理,获得第四统计特征向量,第四统计特征向量包括第三均值向量和第三标准差向量,第三均值向量用于表示第一语音信号在M维特征空间中每维特征空间的均值,第三标准差向量用于表示第一语音信号在M维特征空间中每维特征空间的标准差。
所述语音信号获取模块605,还用于根据所述第四统计特征向量构建第一隐含向量,并将所述第一隐含向量输入解码模型进行解码处理,获得第三特征向量,其中,由所述第三特征向量生成的第二语音信号与所述第一语音信号之间的相似度满足目标条件;
这里,目标条件为第二语音信号与第一语音信号之间的相似度满足相似度阈值,例如,相似度阈值可以为80%、90%、95%等数值,即第一语音信号与第二语音信号为相似度较高的两个语音信号,即通过该方式可以通过一个录音重放的语音信号生成一个与该录音重放语音信号相似度很高的录音重放语音信号,比如,存在X个录音重放语音信号,则通过上述方式可以产生2X个录音重放语音信号,进一步将该2X个录音重放语音信号用于训练第一模型。
这里,语音信号获取模块605根据第四统计特征向量构建第一隐含向量即根据第三均值向量和第三标准差向量构建第一隐含向量,并将第一隐含向量输入解码模型进行解码处理,获得第三特征向量。
可选地,编码模型和解码模型可以为变分自编码器(Variational Autoencoder,VAE)中的编码层和解码层,语音信号获取模块605在使用编码模型和解码模型之前,可以预先对编码模型与解码模型进行训练,使得训练后的编码模型以及解码模型更准确,从而使得得到的第二语音信号与输入编码模型中的第二特征向量对应的第一语音信号之间的相似度更高,对编码模型与解码模型进行训练的方式可参考图5。
所述语音信号获取模块605,还用于若所述第一样本语音信号为录音重放语音信号,则所述第一样本语音信号为所述第一语音信号或者所述第二语音信号。
在一种可能的设计中,所述装置60还包括:
第二模型训练模块606,用于获取第二样本语音信号对应的第一样本特征向量;
具体第二模型训练模块606获取第二样本语音信号对应的第一样本特征向量的方法可参考步骤S302中获取第一语音信号的第二特征向量的方法,此处不再赘述。
所述第二模型训练模块606,还用于将所述第一样本特征向量输入所述编码模型进行编码处理,获得第三样本统计特征向量,所述第三样本统计特征向量用于表示所述第二样本语音信号的统计特征;
这里,第三样本统计特征向量包括第二样本均值向量和第二样本标准差向量,第二样本均值向量用于表示第二样本语音信号在M维特征空间中每维特征空间的均值,第二样本标准差向量用于表示第二样本语音信号在M维特征空间中每维特征空间的标准差。即第二模型训练模块606将第一样本特征向量输入编码模型进行编码处理,获得第二样本均值向量和第二样本标准差向量。
所述第二模型训练模块606,还用于根据所述第三样本统计特征向量和标准正态分布函数,确定第二损失;
这里,第二模型训练模块606可以先根据第二样本均值向量和第二样本标准差向量确定第一正态分布函数,再根据第一正态分布函数与标准正态分布函数之间的重合度确定第二损失,其中,第一正态分布函数与标准正态分布函数之间的重合度越高,第二损失越小,第一正态分布函数与标准正态分布函数之间的重合度越低,第二损失越大,其中,第二损失可以为散度损失,第一正态分布函数与标准正态分布函数之间的重合度即在坐标轴上第一正态分布函数对应的图形与在该坐标轴上标准正态分布函数对应的图形之间的重合度。
所述第二模型训练模块606,还用于根据所述第三样本统计特征向量构建第一样本隐含向量,并将所述第一样本隐含向量输入所述解码模型进行解码处理,获得第二样本特征向量;
具体实现中,第二模型训练模块606可以通过标准正态分布函数乘以第二样本标准差向量,再加上第二样本均值向量得到第一样本隐含向量,即第一样本隐含向量可以为标准正态分布函数与第二样本标准差向量之积,再与第二样本均值向量之和。第二模型训练模块606将第一样本隐含向量输入解码模型进行解码处理,获得第二样本特征向量。这里,第二样本特征向量即通过将第一样本特征向量输入编码模型与解码模型后构造得到的特征向量。
所述第二模型训练模块606,还用于根据所述第一样本特征向量和所述第二样本特征向量,确定第三损失;
这里,第二模型训练模块606可以根据第一样本特征向量和第二样本特征向量的相似度确定第三损失,即第一样本特征向量和第二样本特征向量的相似度越高,则第三损失越小;第一样本特征向量和第二样本特征向量的相似度越低,则第三损失越大,其中,第三损失可以为交叉熵损失。
所述第二模型训练模块606,还用于根据所述第二损失和所述第三损失,训练所述编码模型和所述解码模型。
在第二损失较大的情况下,第二模型训练模块606可以采用梯度下降法对编码模型中的参数进行调整,在第三损失较大的情况下,可以采用梯度下降法对解码模型中的参数进行调整,使得调整后的编码模型和解码模型更准确,从而通过编码模型和解码模型处理得到的第二样本特征向量与第一样本特征向量之间的相似度更高。
这里,第一语音信号与第二语音信号都为录音重放语音信号,第一语音信号为输入编码模型的第一样本特征向量对应的语音信号,第二语音信号为从解码模型中输出的第二样本特征向量对应的语音信号。可选地,录音重放语音信号可以包括转录语音信号,转录语音信号即通过编码模型与解码模型对录音重放语音信号进行转录得到的语音信号,即第二语音信号。在训练第一模型时,可以使用原始语音信号或者录音重放语音信号,录音重放语音信号也包括转录语音信号,即通过将转录语音信号对应的统计特征向量输入第一模型处理后得到的转录语音信号的目标类别为录音重放语音信号。
需要说明的是,图6对应的实施例中未提及的内容可参见方法实施例的描述,这里不再赘述。
本发明实施例中,通过获取待处理语音信号对应的第一统计特征向量,将第一统计特征向量输入第一模型进行处理,获得第二统计特征向量,并根据第二统计特征向量确定待处理语音信号的目标类别,从而确定待处理语音信号为原始语音信号或者录音重放语音信号,由于根据M维特征空间中每维特征空间的重要程度对第一统计特征向量进行处理,强化了M维特征空间中每维特征空间的统计特征,可以更准确的反映待处理语音信号的统计特征,从而准确地确定出待处理语音信号的目标类别,提高录音重放检测的准确性,并且不需要对待处理语音信号的内容进行检测,提高检测效率,适用性强;由于使用了大量的样本语音信号对第一模型进行训练,因此训练后的第一模型更准确,从而使得录音重放检测结果更准确;通过使用编码模型和解码模型对样本语音信号对应的统计特征向量进行处理,可快速得到大量样本语音信号,相较于通过录音设备对样本语音信号进行录音的方式而言,该方法获取大量样本语音信号的效率较高。
参见图7,图7是本发明实施例提供的一种语音信号处理设备的组成结构示意图,该设备70包括处理器701、存储器702以及输入输出接口703。处理器701连接到存储器702和输入输出接口703,例如处理器701可以通过总线连接到存储器702和输入输出接口703。
处理器701被配置为支持所述语音信号处理设备执行图1-图2、图4所述的语音信号处理方法中相应的功能。该处理器701可以是中央处理器(central processing unit,CPU),网络处理器(network processor,NP),硬件芯片或者其任意组合。上述硬件芯片可以是专用集成电路(application specific integrated circuit,ASIC),可编程逻辑器件(programmable logic device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device,CPLD),现场可编程逻辑门阵列(field-programmable gate array,FPGA),通用阵列逻辑(generic array logic,GAL)或其任意组合。
存储器702用于存储程序代码等。存储器702可以包括易失性存储器(volatilememory,VM),例如随机存取存储器(random access memory,RAM);存储器702也可以包括非易失性存储器(non-volatile memory,NVM),例如只读存储器(read-only memory,ROM),快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);存储器702还可以包括上述种类的存储器的组合。
所述输入输出接口703用于输入或输出数据。
处理器701可以调用所述程序代码以执行以下操作:
获取待处理语音信号对应的第一统计特征向量,所述第一统计特征向量用于表示所述待处理语音信号在M维特征空间中每维特征空间的统计值,所述M为大于1的整数;
将所述第一统计特征向量输入第一模型进行处理,获得第二统计特征向量,所述第一模型用于根据所述M维特征空间中每维特征空间的重要程度对所述第一统计特征向量进行处理;
根据所述第二统计特征向量,确定所述待处理语音信号的目标类别,所述目标类别包括原始语音信号或者录音重放语音信号。
需要说明的是,各个操作的实现还可以对应参照上述方法实施例的相应描述;所述处理器701还可以与输入输出接口703配合执行上述方法实施例中的其他操作。
本发明实施例还提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被计算机执行时使所述计算机执行如前述实施例所述的方法,所述计算机可以为上述提到的语音信号处理设备的一部分。例如为上述的处理器701。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (10)

1.一种语音信号处理方法,其特征在于,包括:
获取待处理语音信号对应的第一统计特征向量,所述第一统计特征向量用于表示所述待处理语音信号在M维特征空间中每维特征空间的统计值,所述M为大于1的整数;
将所述第一统计特征向量输入第一模型进行处理,获得第二统计特征向量,所述第一模型用于根据所述M维特征空间中每维特征空间的重要程度对所述第一统计特征向量进行处理;
根据所述第二统计特征向量,确定所述待处理语音信号的目标类别,所述目标类别包括原始语音信号或者录音重放语音信号。
2.如权利要求1所述的方法,其特征在于,所述获取待处理语音信号对应的第一统计特征向量,包括:
将所述待处理语音信号划分为N个语音帧,所述N为大于或者等于1的整数;
获取所述N个语音帧中每个语音帧的第一特征向量,所述第一特征向量用于表示所述语音帧在M维特征空间中每维特征空间的特征值;
针对所述M维特征空间中的每维特征空间,计算该维特征空间对应的统计值,所述统计值为所述N个语音帧在该维特征空间的统计值;
根据所述M维特征空间中每维特征空间对应的统计值,构建所述待处理语音信号对应的第一统计特征向量。
3.如权利要求1或2所述的方法,其特征在于,所述第一统计特征向量包括第一均值向量和/或第一标准差向量,所述第一均值向量用于表示所述待处理语音信号在M维特征空间中每维特征空间的均值,所述第一标准差向量用于表示所述待处理语音信号在M维特征空间中每维特征空间的标准差。
4.如权利要求3所述的方法,其特征在于,若所述第一统计特征向量包括所述第一均值向量和所述第一标准差向量;所述第二统计特征向量包括第二均值向量和第二标准差向量,所述第二均值向量是根据所述第一均值向量和所述第一模型得到,所述第二标准差向量是根据所述第一标准向量和所述第一模型得到;
所述根据所述第二统计特征向量,确定所述待处理语音信号的目标类别,包括:
根据所述第二均值向量和所述第二标准差向量,构建第三统计特征向量;
根据所述第三统计特征向量,确定所述待处理语音信号的目标类别。
5.如权利要求1所述的方法,其特征在于,所述获取待处理语音信号对应的第一统计特征向量之前,还包括:
获取第一样本语音信号对应的第一样本统计特征向量,所述第一样本统计特征向量用于表示所述第一样本语音信号在M维特征空间中每维特征空间的统计值,所述M为大于1的整数,所述第一样本语音信号为录音重放语音信号或者原始语音信号;
将所述第一样本统计特征向量输入所述第一模型进行处理,获得第二样本统计特征向量;
根据所述第二样本统计特征向量,计算所述第一模型的第一损失;
根据所述第一损失,训练所述第一模型。
6.如权利要求5所述的方法,其特征在于,所述获取待处理语音信号对应的第一统计特征向量之前,还包括:
获取第一语音信号,所述第一语音信号为录音重放语音信号;
获取所述第一语音信号的第二特征向量,并将所述第二特征向量输入编码模型进行编码处理,获得第四统计特征向量,所述第四统计特征向量用于表示所述第一语音信号的统计特征;
根据所述第四统计特征向量构建第一隐含向量,并将所述第一隐含向量输入解码模型进行解码处理,获得第三特征向量,其中,由所述第三特征向量生成的第二语音信号与所述第一语音信号之间的相似度满足目标条件;
若所述第一样本语音信号为录音重放语音信号,则所述第一样本语音信号为所述第一语音信号或者所述第二语音信号。
7.如权利要求6所述的方法,其特征在于,所述获取第一语音信号之前,还包括:
获取第二样本语音信号对应的第一样本特征向量;
将所述第一样本特征向量输入所述编码模型进行编码处理,获得第三样本统计特征向量,所述第三样本统计特征向量用于表示所述第二样本语音信号的统计特征;
根据所述第三样本统计特征向量和标准正态分布函数,确定第二损失;
根据所述第三样本统计特征向量构建第一样本隐含向量,并将所述第一样本隐含向量输入所述解码模型进行解码处理,获得第二样本特征向量;
根据所述第一样本特征向量和所述第二样本特征向量,确定第三损失;
根据所述第二损失和所述第三损失,训练所述编码模型和所述解码模型。
8.一种语音信号处理装置,其特征在于,包括:
第一特征获取模块,用于获取待处理语音信号对应的第一统计特征向量,所述第一统计特征向量用于表示所述待处理语音信号在M维特征空间中每维特征空间的统计值,所述M为大于1的整数;
第二特征获取模块,用于将所述第一统计特征向量输入第一模型进行处理,获得第二统计特征向量,所述第一模型用于根据所述M维特征空间中每维特征空间的重要程度对所述第一统计特征向量进行处理;
目标类别确定模块,用于根据所述第二统计特征向量,确定所述待处理语音信号的目标类别,所述目标类别包括原始语音信号或者录音重放语音信号。
9.一种语音信号处理设备,其特征在于,包括处理器、存储器以及输入输出接口,所述处理器、存储器和输入输出接口相互连接,其中,所述输入输出接口用于输入或输出数据,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,执行如权利要求1-7任一项所述的方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。
CN202010096100.4A 2020-02-17 2020-02-17 语音信号处理方法、装置及设备 Pending CN111292754A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010096100.4A CN111292754A (zh) 2020-02-17 2020-02-17 语音信号处理方法、装置及设备
PCT/CN2020/118120 WO2021164256A1 (zh) 2020-02-17 2020-09-27 语音信号处理方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010096100.4A CN111292754A (zh) 2020-02-17 2020-02-17 语音信号处理方法、装置及设备

Publications (1)

Publication Number Publication Date
CN111292754A true CN111292754A (zh) 2020-06-16

Family

ID=71030044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010096100.4A Pending CN111292754A (zh) 2020-02-17 2020-02-17 语音信号处理方法、装置及设备

Country Status (2)

Country Link
CN (1) CN111292754A (zh)
WO (1) WO2021164256A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021164256A1 (zh) * 2020-02-17 2021-08-26 平安科技(深圳)有限公司 语音信号处理方法、装置及设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3590113B1 (en) * 2017-03-03 2024-05-29 Pindrop Security, Inc. Method and apparatus for detecting spoofing conditions
US11238843B2 (en) * 2018-02-09 2022-02-01 Baidu Usa Llc Systems and methods for neural voice cloning with a few samples
CN108364656B (zh) * 2018-03-08 2021-03-09 北京得意音通技术有限责任公司 一种用于语音重放检测的特征提取方法及装置
CN108711436B (zh) * 2018-05-17 2020-06-09 哈尔滨工业大学 基于高频和瓶颈特征的说话人验证系统重放攻击检测方法
CN110232927B (zh) * 2019-06-13 2021-08-13 思必驰科技股份有限公司 说话人验证反欺骗方法和装置
CN110491391B (zh) * 2019-07-02 2021-09-17 厦门大学 一种基于深度神经网络的欺骗语音检测方法
CN111292754A (zh) * 2020-02-17 2020-06-16 平安科技(深圳)有限公司 语音信号处理方法、装置及设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021164256A1 (zh) * 2020-02-17 2021-08-26 平安科技(深圳)有限公司 语音信号处理方法、装置及设备

Also Published As

Publication number Publication date
WO2021164256A1 (zh) 2021-08-26

Similar Documents

Publication Publication Date Title
US20220207707A1 (en) Image defect detection method, electronic device using the same
CN112634875B (zh) 语音分离方法、语音分离装置、电子设备及存储介质
EP3989217B1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
CN114596879B (zh) 一种虚假语音的检测方法、装置、电子设备及存储介质
KR100888804B1 (ko) 동영상 데이터의 동일성 판단 및 동일 구간 검출 방법 및장치
US20110066426A1 (en) Real-time speaker-adaptive speech recognition apparatus and method
CN110930976A (zh) 一种语音生成方法及装置
WO2023001128A1 (zh) 音频数据的处理方法、装置及设备
KR20160102815A (ko) 잡음에 강인한 오디오 신호 처리 장치 및 방법
CN115083423B (zh) 语音鉴别的数据处理方法和装置
Yan et al. An initial investigation for detecting vocoder fingerprints of fake audio
CN113782042B (zh) 语音合成方法、声码器的训练方法、装置、设备及介质
CN114999525A (zh) 一种基于神经网络的轻量环境声音识别方法
CN111292754A (zh) 语音信号处理方法、装置及设备
CN112580669B (zh) 一种对语音信息的训练方法及装置
CN112185340B (zh) 语音合成方法、语音合成装置、存储介质与电子设备
JP7329393B2 (ja) 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム
CN116386664A (zh) 一种语音伪造检测方法、装置、系统及存储介质
Thai Deepfake detection and low-resource language speech recogntion using deep learning
CN112992157A (zh) 一种基于残差和批量归一化的神经网络带噪声纹识别方法
CN113724689B (zh) 语音识别方法及相关装置、电子设备、存储介质
KR20200080917A (ko) 고래 소리 재생 방법 및 고래 소리 재생 장치
CN116364063B (zh) 音素对齐方法、设备、驾驶设备和介质
CN117649846B (zh) 语音识别模型生成方法、语音识别方法、设备和介质
CN112133311B (zh) 说话人识别方法、相关设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40030006

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination