CN115022087B - 一种语音识别验证处理方法及装置 - Google Patents

一种语音识别验证处理方法及装置 Download PDF

Info

Publication number
CN115022087B
CN115022087B CN202210853098.XA CN202210853098A CN115022087B CN 115022087 B CN115022087 B CN 115022087B CN 202210853098 A CN202210853098 A CN 202210853098A CN 115022087 B CN115022087 B CN 115022087B
Authority
CN
China
Prior art keywords
voice
speech
features
recognition
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210853098.XA
Other languages
English (en)
Other versions
CN115022087A (zh
Inventor
黄淋
宁博
刘金山
饶宇熹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202210853098.XA priority Critical patent/CN115022087B/zh
Publication of CN115022087A publication Critical patent/CN115022087A/zh
Application granted granted Critical
Publication of CN115022087B publication Critical patent/CN115022087B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0861Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明提供一种语音识别验证处理方法及装置,涉及语音技术领域,可用于金融领域或其他技术领域。所述方法包括:获取原始语音信号,对所述原始语音信号进行预处理,得到由二维数据表示的第一语谱图;基于预设合成语音识别模型对所述第一语谱图进行合成语音识别;若确定合成语音识别结果为非合成语音,则对非合成语音的语音信号进行声纹识别,并对声纹识别结果是否为目标人本人声音进行验证,得到验证结果。所述装置执行上述方法。本发明实施例提供的语音识别验证处理方法及装置,能够提高语音识别验证的准确性,进而保证用户身份信息安全。

Description

一种语音识别验证处理方法及装置
技术领域
本发明涉及语音技术领域,具体涉及一种语音识别验证处理方法及装置。
背景技术
随着声音技术的发展,通过识别声音可以给人们生活工作带来便利,但也给有些不法分子带来可乘之机。
不法分子通过假冒说话人语音和合成说话人语音等方式,冒充说话人身份,进而从事非法活动,现有技术对合成说话人语音的识别准确率不高。
发明内容
针对现有技术中的问题,本发明实施例提供一种语音识别验证处理方法及装置,能够至少部分地解决现有技术中存在的问题。
一方面,本发明提出一种语音识别验证处理方法,包括:
获取原始语音信号,对所述原始语音信号进行预处理,得到由二维数据表示的第一语谱图;
基于预设合成语音识别模型对所述第一语谱图进行合成语音识别;所述预设合成语音识别模型根据合成语音样本数据训练卷积循环神经网络得到;
若确定合成语音识别结果为非合成语音,则对非合成语音的语音信号进行声纹识别,并对声纹识别结果是否为目标人本人声音进行验证,得到验证结果。
其中,所述对所述原始语音信号进行预处理,得到由二维数据表示的第一语谱图,包括:
对所述原始语音信号进行预加重处理,以提升所述原始语音信号在高频部分的信噪比;
对预加重处理后的语音信号进行分帧加窗处理,并对分帧加窗处理后的语音信号进行快速傅里叶变换,得到每帧语音信号对应的频谱;
对各频谱的频谱幅度分别进行求平方计算,并将求平方计算结果按照时间维度进行拼接,得到所述第一语谱图。
其中,所述卷积循环神经网络包括依次相连的第一卷积神经网络和第一循环神经网络;相应的,所述基于预设合成语音识别模型对所述第一语谱图进行合成语音识别,包括:
基于所述第一卷积神经网络对所述第一语谱图进行特征提取,得到空间局部特征;
基于所述第一循环神经网络对所述空间局部特征进行特征提取,得到由时间序列表示的语音特征;
基于第一全连接层对所述语音特征进行识别,得到合成语音识别结果。
其中,所述对非合成语音的语音信号进行声纹识别,包括:
对非合成语音的语音信号进行浅层语音特征提取,得到浅层语音特征;
对非合成语音的语音信号进行深层语音特征提取,得到深层语音特征;
融合所述浅层语音特征和所述深层语音特征,得到融合语音特征;
基于第二全连接层对所述融合语音特征进行识别,得到声纹识别结果。
其中,所述对非合成语音的语音信号进行深层语音特征提取,得到深层语音特征,包括:
对非合成语音的语音信号进行预处理,得到第二语谱图;
基于预设语音特征提取模型对所述第二语谱图进行深层语音特征提取,得到深层语音特征;
所述预设语音特征提取模型根据语音特征提取样本数据训练第二卷积神经网络得到。
其中,还获取所述浅层语音特征的数据维数;相应的,所述语音识别验证处理方法还包括:
对基于所述预设语音特征提取模型得到的深层语音特征进行数据降维,得到与所述浅层语音特征的数据维数相等的深层语音特征的数据维数。
其中,所述对基于所述预设语音特征提取模型得到的深层语音特征进行数据降维,包括:
基于第二循环神经网络对基于所述预设语音特征提取模型得到的深层语音特征进行数据降维。
一方面,本发明提出一种语音识别验证处理装置,包括:
获取单元,用于获取原始语音信号,对所述原始语音信号进行预处理,得到由二维数据表示的第一语谱图;
识别单元,用于基于预设合成语音识别模型对所述第一语谱图进行合成语音识别;所述预设合成语音识别模型根据合成语音样本数据训练卷积循环神经网络得到;
验证单元,用于若确定合成语音识别结果为非合成语音,则对非合成语音的语音信号进行声纹识别,并对声纹识别结果是否为目标人本人声音进行验证,得到验证结果。
再一方面,本发明实施例提供一种电子设备,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如下方法:
获取原始语音信号,对所述原始语音信号进行预处理,得到由二维数据表示的第一语谱图;
基于预设合成语音识别模型对所述第一语谱图进行合成语音识别;所述预设合成语音识别模型根据合成语音样本数据训练卷积循环神经网络得到;
若确定合成语音识别结果为非合成语音,则对非合成语音的语音信号进行声纹识别,并对声纹识别结果是否为目标人本人声音进行验证,得到验证结果。
本发明实施例提供一种非暂态计算机可读存储介质,包括:
所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如下方法:
获取原始语音信号,对所述原始语音信号进行预处理,得到由二维数据表示的第一语谱图;
基于预设合成语音识别模型对所述第一语谱图进行合成语音识别;所述预设合成语音识别模型根据合成语音样本数据训练卷积循环神经网络得到;
若确定合成语音识别结果为非合成语音,则对非合成语音的语音信号进行声纹识别,并对声纹识别结果是否为目标人本人声音进行验证,得到验证结果。
本发明实施例提供的语音识别验证处理方法及装置,获取原始语音信号,对所述原始语音信号进行预处理,得到由二维数据表示的第一语谱图;基于预设合成语音识别模型对所述第一语谱图进行合成语音识别;所述预设合成语音识别模型根据合成语音样本数据训练卷积循环神经网络得到;若确定合成语音识别结果为非合成语音,则对非合成语音的语音信号进行声纹识别,并对声纹识别结果是否为目标人本人声音进行验证,得到验证结果,能够提高语音识别验证的准确性,进而保证用户身份信息安全。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本发明一实施例提供的语音识别验证处理方法的流程示意图。
图2是本发明另一实施例提供的语音识别验证处理方法的流程示意图。
图3是本发明另一实施例提供的语音识别验证处理方法的流程示意图。
图4是本发明另一实施例提供的语音识别验证处理方法的流程示意图。
图5是本发明一实施例提供的语音识别验证处理装置的结构示意图。
图6为本发明实施例提供的电子设备实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
图1是本发明一实施例提供的语音识别验证处理方法的流程示意图,如图1所示,本发明实施例提供的语音识别验证处理方法,包括:
步骤S1:获取原始语音信号,对所述原始语音信号进行预处理,得到由二维数据表示的第一语谱图。
步骤S2:基于预设合成语音识别模型对所述第一语谱图进行合成语音识别;所述预设合成语音识别模型根据合成语音样本数据训练卷积循环神经网络得到。
步骤S3:若确定合成语音识别结果为非合成语音,则对非合成语音的语音信号进行声纹识别,并对声纹识别结果是否为目标人本人声音进行验证,得到验证结果。
在上述步骤S1中,装置获取原始语音信号,对所述原始语音信号进行预处理,得到由二维数据表示的第一语谱图。装置可以是执行该方法的计算机设备,例如可以包括服务器。需要说明是,本发明实施例涉及数据的获取及分析是经用户授权的。原始语音信号,可以理解为待识别语音信号,待识别语音信号可以是说话人发出的语音信号,也可以是合成语音信号,该合成语音信号可以是不法分子,即非法用户提供的。
由于本发明实施例方法使用的卷积循环神经网络中的第一卷积神经网络更加适合对二维数据进行识别,因此,通过二维数据表示第一语谱图更加有助于第一卷积神经网络进行识别。
第一语谱图包含有时间序列信息,且使用的卷积循环神经网络中的第一循环神经网络更加适合对时间序列信息进行识别,因此,将由二维数据表示的第一语谱图作为卷积循环神经网络的输入,更有助于快速和准确地得到合成语音识别结果。
原始语音信号是一维数据表示,对其进行预处理,将其转换为由二维数据表示第一语谱图,然后作为预设合成语音识别模型的输入。语谱图,即语音频谱图,也叫时频图,横坐标是时间,纵坐标是频率,语谱图是频率的声纹集合,通过语谱图,可以对语音信号的音调、不同时间区间的声纹等进行分析。语谱图计算步骤包括:预加重、分帧加窗、快速傅里叶变换(FFT)、求平方计算和生成语谱图,具体说明如下:
如图2所示,所述对所述原始语音信号进行预处理,得到由二维数据表示的第一语谱图,包括:
对所述原始语音信号进行预加重处理,以提升所述原始语音信号在高频部分的信噪比;可以使用一阶高通滤波器提升语音信号在高频部分的信噪比。
对预加重处理后的语音信号进行分帧加窗处理,并对分帧加窗处理后的语音信号进行快速傅里叶变换,得到每帧语音信号对应的频谱;对于一段语音,以10ms至30ms为一帧进行切割,并采用汉明窗对每一个语音帧进行加窗处理。
对分帧加窗后的信号进行快速傅里叶变换,每一帧信号得到一个频谱,使用灰度值表示频谱幅度,幅度越大,颜色越深。
对各频谱的频谱幅度分别进行求平方计算,并将求平方计算结果按照时间维度进行拼接,得到所述第一语谱图。将所有帧的频谱幅度求平方计算结果沿时间维度进行拼接,得到第一语谱图,横轴是时间,纵轴是频谱。
在上述步骤S2中,装置基于预设合成语音识别模型对所述第一语谱图进行合成语音识别;所述预设合成语音识别模型根据合成语音样本数据训练卷积循环神经网络得到。如图3所示,所述卷积循环神经网络(对应CRNN)包括依次相连的第一卷积神经网络(对应CNN1)和第一循环神经网络(对应RNN1);相应的,所述基于预设合成语音识别模型对所述第一语谱图进行合成语音识别,包括:
基于所述第一卷积神经网络对所述第一语谱图进行特征提取,得到空间局部特征;
基于所述第一循环神经网络对所述空间局部特征进行特征提取,得到由时间序列表示的语音特征;
基于第一全连接层对所述语音特征进行识别,得到合成语音识别结果。合成语音识别结果包括合成语音或非合成语音。
构建预设合成语音识别模型,将第一语谱图作为模型输入,训练卷积循环神经网络,判断输入语音信号是非合成语音还是合成语音。CNN在学习空间局部特征有优势,常用于学习图片数据的特征,RNN在学习时序依赖特征有优势,常用于学习语音数据的特征。该模型输入是语谱图,语谱图是二维图像数据,但横轴是时间,数据信息与时间有关,因此首先使用二维CNN提取语谱图的空间局部特征,然后使用RNN沿时间维度总结CNN学到的特征,可解决基于图像的序列识别问题。
使用CRNN自动提取第一语谱图的语音特征,然后将语音特征向量通过第一全连接层,得到合成语音识别结果。
在上述步骤S3中,装置若确定合成语音识别结果为非合成语音,则对非合成语音的语音信号进行声纹识别,并对声纹识别结果是否为目标人本人声音进行验证,得到验证结果。
如图1所示,若确定合成语音识别结果为合成语音,则说明原始语音信号为非法用户提供的合成语音,可直接确定验证结果为验证不通过。
目标人本人声音可以是预先经过认证的说话人本人声音,如果确定合成语音识别结果为非合成语音,则说明是真实说话人发出的语音,但还无法确定该真实说话人发出的语音是不是预先经过认证的说话人本人声音。
可以将声纹识别结果与目标人本人声音的特征进行特征对比,若特征对比结果一致,则确定验证通过;若特征对比结果不一致,则确定验证不通过。
所述对非合成语音的语音信号进行声纹识别,包括:
对非合成语音的语音信号进行浅层语音特征提取,得到浅层语音特征;如图4所示:
浅层语音特征提取:对非合成语音的语音信号进行处理,提取浅层语音特征MFCC,梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)。
提取步骤可以包括:预加重、分帧、加窗、快速傅里叶变换(FFT)、梅尔滤波器组、离散余弦变换(DCT),最终得到12维的MFCC特征。MFCC特征从人耳听觉感知角度而提取,能够捕捉到物理层面的直观的声纹信息。
对非合成语音的语音信号进行深层语音特征提取,得到深层语音特征;所述对非合成语音的语音信号进行深层语音特征提取,得到深层语音特征,包括:
对非合成语音的语音信号进行预处理,得到第二语谱图;可参照上述对原始语音信号进行预处理,得到第一语谱图的说明,第二语谱图也可以由二维数据表示。
基于预设语音特征提取模型对所述第二语谱图进行深层语音特征提取,得到深层语音特征;
所述预设语音特征提取模型根据语音特征提取样本数据训练第二卷积神经网络(对应CNN2)得到。深层语音特征提取:将第二语谱图输入CNN2,CNN2可以为二维卷积神经网络(2D CNN)框架,经多个二维卷积层,得到x维的深层语音特征(x根据具体网络参数而定)。卷积神经网络因其强大的非线性表达和自动学习能力,能够捕捉到高层的具有区分性的声纹信息。
融合所述浅层语音特征和所述深层语音特征,得到融合语音特征;
基于第二全连接层对所述融合语音特征进行识别,得到声纹识别结果。将融合语音特征向量通过一个全连接层,得到声纹识别结果。
还获取所述浅层语音特征的数据维数;相应的,所述语音识别验证处理方法还包括:
对基于所述预设语音特征提取模型得到的深层语音特征进行数据降维,得到与所述浅层语音特征的数据维数相等的深层语音特征的数据维数,进一步可以将数据维数相等的浅层语音特征和深层语音特征进行融合,得到融合语音特征,再执行后续步骤。
所述对基于所述预设语音特征提取模型得到的深层语音特征进行数据降维,包括:
基于第二循环神经网络对基于所述预设语音特征提取模型得到的深层语音特征进行数据降维。特征融合:将浅层语音特征和深层语音特征进行融合。首先将神经网络提取的x维深层语音特征通过一个RNN2(循环神经网络)层,其隐藏状态(hidden size)设为12,得到12维的特征向量;然后,将12维的MFCC特征向量与RNN2层输出的12维特征向量进行拼接,得到24维的融合语音特征。
本发明的技术方案具有以下有益效果:
(1)本发明将合成语音识别与声纹识别相结合,得到一个既能判别输入语音是否为合成语音,又能判别语音是否为目标说话人的融合系统,保证信息安全。
(2)本发明使用语谱图作为预设合成语音识别模型的输入,语谱图能有效表征时间和频率维度的信息,并且网络模型使用CRNN,结合了CNN提取局部特征与RNN处理时序依赖的优势,能有效解决基于图像的序列识别问题,进一步提升合成语音识别准确率。
(3)本发明采用的声纹识别模型融合了浅层语音特征MFCC和神经网络提取的深层语音特征,捕捉到的声纹信息更全面,既捕捉到了物理层面的直观的声纹信息,也捕捉到了高层的具有区分性的声纹信息,使用该融合特征进行模型训练,有利于提升声纹识别准确率。
本发明实施例提供的语音识别验证处理方法,获取原始语音信号,对所述原始语音信号进行预处理,得到由二维数据表示的第一语谱图;基于预设合成语音识别模型对所述第一语谱图进行合成语音识别;所述预设合成语音识别模型根据合成语音样本数据训练卷积循环神经网络得到;若确定合成语音识别结果为非合成语音,则对非合成语音的语音信号进行声纹识别,并对声纹识别结果是否为目标人本人声音进行验证,得到验证结果,能够提高语音识别验证的准确性,进而保证用户身份信息安全。
进一步地,所述对所述原始语音信号进行预处理,得到由二维数据表示的第一语谱图,包括:
对所述原始语音信号进行预加重处理,以提升所述原始语音信号在高频部分的信噪比;可参照上述说明,不再赘述。
对预加重处理后的语音信号进行分帧加窗处理,并对分帧加窗处理后的语音信号进行快速傅里叶变换,得到每帧语音信号对应的频谱;可参照上述说明,不再赘述。
对各频谱的频谱幅度分别进行求平方计算,并将求平方计算结果按照时间维度进行拼接,得到所述第一语谱图。可参照上述说明,不再赘述。
本发明实施例提供的语音识别验证处理方法,通过生成第一语谱图,有助于后续模型能够准确地进行合成语音识别。
进一步地,所述卷积循环神经网络包括依次相连的第一卷积神经网络和第一循环神经网络;相应的,所述基于预设合成语音识别模型对所述第一语谱图进行合成语音识别,包括:
基于所述第一卷积神经网络对所述第一语谱图进行特征提取,得到空间局部特征;可参照上述说明,不再赘述。
基于所述第一循环神经网络对所述空间局部特征进行特征提取,得到由时间序列表示的语音特征;可参照上述说明,不再赘述。
基于第一全连接层对所述语音特征进行识别,得到合成语音识别结果。可参照上述说明,不再赘述。
本发明实施例提供的语音识别验证处理方法,通过卷积循环神经网络进一步能够提高语音识别验证的准确性,进而保证用户身份信息安全。
进一步地,所述对非合成语音的语音信号进行声纹识别,包括:
对非合成语音的语音信号进行浅层语音特征提取,得到浅层语音特征;可参照上述说明,不再赘述。
对非合成语音的语音信号进行深层语音特征提取,得到深层语音特征;可参照上述说明,不再赘述。
融合所述浅层语音特征和所述深层语音特征,得到融合语音特征;可参照上述说明,不再赘述。
基于第二全连接层对所述融合语音特征进行识别,得到声纹识别结果。可参照上述说明,不再赘述。
本发明实施例提供的语音识别验证处理方法,通过融合浅层语音特征和深层语音特征,进一步能够提高语音识别验证的准确性,进而保证用户身份信息安全。
进一步地,所述对非合成语音的语音信号进行深层语音特征提取,得到深层语音特征,包括:
对非合成语音的语音信号进行预处理,得到第二语谱图;可参照上述说明,不再赘述。
基于预设语音特征提取模型对所述第二语谱图进行深层语音特征提取,得到深层语音特征;可参照上述说明,不再赘述。
所述预设语音特征提取模型根据语音特征提取样本数据训练第二卷积神经网络得到。可参照上述说明,不再赘述。
本发明实施例提供的语音识别验证处理方法,能够提高深层语音特征提取效率。
进一步地,还获取所述浅层语音特征的数据维数;相应的,所述语音识别验证处理方法还包括:
对基于所述预设语音特征提取模型得到的深层语音特征进行数据降维,得到与所述浅层语音特征的数据维数相等的深层语音特征的数据维数。可参照上述说明,不再赘述。
本发明实施例提供的语音识别验证处理方法,方便对融合语音特征进行声纹识别。
进一步地,所述对基于所述预设语音特征提取模型得到的深层语音特征进行数据降维,包括:
基于第二循环神经网络对基于所述预设语音特征提取模型得到的深层语音特征进行数据降维。可参照上述说明,不再赘述。
本发明实施例提供的语音识别验证处理方法,能够准确和方便地实现数据降维。
需要说明的是,本发明实施例提供的语音识别验证处理方法可用于金融领域,也可用于除金融领域之外的任意技术领域,本发明实施例对语音识别验证处理方法的应用领域不做限定。
图5是本发明一实施例提供的语音识别验证处理装置的结构示意图,如图5所示,本发明实施例提供的语音识别验证处理装置,包括获取单元501、识别单元502和验证单元503,其中:
获取单元501用于获取原始语音信号,对所述原始语音信号进行预处理,得到由二维数据表示的第一语谱图;识别单元502用于基于预设合成语音识别模型对所述第一语谱图进行合成语音识别;所述预设合成语音识别模型根据合成语音样本数据训练卷积循环神经网络得到;验证单元503用于若确定合成语音识别结果为非合成语音,则对非合成语音的语音信号进行声纹识别,并对声纹识别结果是否为目标人本人声音进行验证,得到验证结果。
具体的,装置中的获取单元501用于获取原始语音信号,对所述原始语音信号进行预处理,得到由二维数据表示的第一语谱图;识别单元502用于基于预设合成语音识别模型对所述第一语谱图进行合成语音识别;所述预设合成语音识别模型根据合成语音样本数据训练卷积循环神经网络得到;验证单元503用于若确定合成语音识别结果为非合成语音,则对非合成语音的语音信号进行声纹识别,并对声纹识别结果是否为目标人本人声音进行验证,得到验证结果。
本发明实施例提供的语音识别验证处理装置,获取原始语音信号,对所述原始语音信号进行预处理,得到由二维数据表示的第一语谱图;基于预设合成语音识别模型对所述第一语谱图进行合成语音识别;所述预设合成语音识别模型根据合成语音样本数据训练卷积循环神经网络得到;若确定合成语音识别结果为非合成语音,则对非合成语音的语音信号进行声纹识别,并对声纹识别结果是否为目标人本人声音进行验证,得到验证结果,能够提高语音识别验证的准确性,进而保证用户身份信息安全。
进一步地,所述获取单元501具体用于:
对所述原始语音信号进行预加重处理,以提升所述原始语音信号在高频部分的信噪比;
对预加重处理后的语音信号进行分帧加窗处理,并对分帧加窗处理后的语音信号进行快速傅里叶变换,得到每帧语音信号对应的频谱;
对各频谱的频谱幅度分别进行求平方计算,并将求平方计算结果按照时间维度进行拼接,得到所述第一语谱图。
本发明实施例提供的语音识别验证处理装置,通过生成第一语谱图,有助于后续模型能够准确地进行合成语音识别。
进一步地,所述卷积循环神经网络包括依次相连的第一卷积神经网络和第一循环神经网络;相应的,所述识别单元502具体用于:
基于所述第一卷积神经网络对所述第一语谱图进行特征提取,得到空间局部特征;
基于所述第一循环神经网络对所述空间局部特征进行特征提取,得到由时间序列表示的语音特征;
基于第一全连接层对所述语音特征进行识别,得到合成语音识别结果。
本发明实施例提供的语音识别验证处理装置,通过卷积循环神经网络进一步能够提高语音识别验证的准确性,进而保证用户身份信息安全。
进一步地,所述验证单元503具体用于:
对非合成语音的语音信号进行浅层语音特征提取,得到浅层语音特征;
对非合成语音的语音信号进行深层语音特征提取,得到深层语音特征;
融合所述浅层语音特征和所述深层语音特征,得到融合语音特征;
基于第二全连接层对所述融合语音特征进行识别,得到声纹识别结果。
本发明实施例提供的语音识别验证处理装置,通过融合浅层语音特征和深层语音特征,进一步能够提高语音识别验证的准确性,进而保证用户身份信息安全。
进一步地,所述验证单元503还具体用于:
对非合成语音的语音信号进行预处理,得到第二语谱图;
基于预设语音特征提取模型对所述第二语谱图进行深层语音特征提取,得到深层语音特征;
所述预设语音特征提取模型根据语音特征提取样本数据训练第二卷积神经网络得到。
本发明实施例提供的语音识别验证处理装置,能够提高深层语音特征提取效率。
进一步地,还获取所述浅层语音特征的数据维数;相应的,所述语音识别验证处理装置还用于:
对基于所述预设语音特征提取模型得到的深层语音特征进行数据降维,得到与所述浅层语音特征的数据维数相等的深层语音特征的数据维数。
本发明实施例提供的语音识别验证处理装置,方便对融合语音特征进行声纹识别。
进一步地,所述语音识别验证处理装置还用于:
基于第二循环神经网络对基于所述预设语音特征提取模型得到的深层语音特征进行数据降维。
本发明实施例提供的语音识别验证处理装置,能够准确和方便地实现数据降维。
本发明实施例提供语音识别验证处理装置的实施例具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
图6为本发明实施例提供的电子设备实体结构示意图,如图6所示,所述电子设备包括:处理器(processor)601、存储器(memory)602和总线603;
其中,所述处理器601、存储器602通过总线603完成相互间的通信;
所述处理器601用于调用所述存储器602中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:
获取原始语音信号,对所述原始语音信号进行预处理,得到由二维数据表示的第一语谱图;
基于预设合成语音识别模型对所述第一语谱图进行合成语音识别;所述预设合成语音识别模型根据合成语音样本数据训练卷积循环神经网络得到;
若确定合成语音识别结果为非合成语音,则对非合成语音的语音信号进行声纹识别,并对声纹识别结果是否为目标人本人声音进行验证,得到验证结果。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:
获取原始语音信号,对所述原始语音信号进行预处理,得到由二维数据表示的第一语谱图;
基于预设合成语音识别模型对所述第一语谱图进行合成语音识别;所述预设合成语音识别模型根据合成语音样本数据训练卷积循环神经网络得到;
若确定合成语音识别结果为非合成语音,则对非合成语音的语音信号进行声纹识别,并对声纹识别结果是否为目标人本人声音进行验证,得到验证结果。
本实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述各方法实施例所提供的方法,例如包括:
获取原始语音信号,对所述原始语音信号进行预处理,得到由二维数据表示的第一语谱图;
基于预设合成语音识别模型对所述第一语谱图进行合成语音识别;所述预设合成语音识别模型根据合成语音样本数据训练卷积循环神经网络得到;
若确定合成语音识别结果为非合成语音,则对非合成语音的语音信号进行声纹识别,并对声纹识别结果是否为目标人本人声音进行验证,得到验证结果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在本说明书的描述中,参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种语音识别验证处理方法,其特征在于,包括:
获取原始语音信号,对所述原始语音信号进行预处理,得到由二维数据表示的第一语谱图;
基于预设合成语音识别模型对所述第一语谱图进行合成语音识别;所述预设合成语音识别模型根据合成语音样本数据训练卷积循环神经网络得到;
若确定合成语音识别结果为非合成语音,则对非合成语音的语音信号进行声纹识别,并对声纹识别结果是否为目标人本人声音进行验证,得到验证结果;
所述对所述原始语音信号进行预处理,得到由二维数据表示的第一语谱图,包括:
对所述原始语音信号进行预加重处理,以提升所述原始语音信号在高频部分的信噪比;
对预加重处理后的语音信号进行分帧加窗处理,并对分帧加窗处理后的语音信号进行快速傅里叶变换,得到每帧语音信号对应的频谱;
对各频谱的频谱幅度分别进行求平方计算,并将求平方计算结果按照时间维度进行拼接,得到所述第一语谱图;
所述卷积循环神经网络包括依次相连的第一卷积神经网络和第一循环神经网络;相应的,所述基于预设合成语音识别模型对所述第一语谱图进行合成语音识别,包括:
基于所述第一卷积神经网络对所述第一语谱图进行特征提取,得到空间局部特征;
基于所述第一循环神经网络对所述空间局部特征进行特征提取,得到由时间序列表示的语音特征;
基于第一全连接层对所述语音特征进行识别,得到合成语音识别结果;
所述对非合成语音的语音信号进行声纹识别,包括:
对非合成语音的语音信号进行浅层语音特征提取,得到浅层语音特征;
对非合成语音的语音信号进行深层语音特征提取,得到深层语音特征;
融合所述浅层语音特征和所述深层语音特征,得到融合语音特征;
基于第二全连接层对所述融合语音特征进行识别,得到声纹识别结果;
所述对非合成语音的语音信号进行深层语音特征提取,得到深层语音特征,包括:
对非合成语音的语音信号进行预处理,得到第二语谱图;
基于预设语音特征提取模型对所述第二语谱图进行深层语音特征提取,得到深层语音特征;
所述预设语音特征提取模型根据语音特征提取样本数据训练第二卷积神经网络得到。
2.根据权利要求1所述的语音识别验证处理方法,其特征在于,还获取所述浅层语音特征的数据维数;相应的,所述语音识别验证处理方法还包括:
对基于所述预设语音特征提取模型得到的深层语音特征进行数据降维,得到与所述浅层语音特征的数据维数相等的深层语音特征的数据维数。
3.根据权利要求2所述的语音识别验证处理方法,其特征在于,所述对基于所述预设语音特征提取模型得到的深层语音特征进行数据降维,包括:
基于第二循环神经网络对基于所述预设语音特征提取模型得到的深层语音特征进行数据降维。
4.一种语音识别验证处理装置,其特征在于,包括:
获取单元,用于获取原始语音信号,对所述原始语音信号进行预处理,得到由二维数据表示的第一语谱图;
识别单元,用于基于预设合成语音识别模型对所述第一语谱图进行合成语音识别;所述预设合成语音识别模型根据合成语音样本数据训练卷积循环神经网络得到;
验证单元,用于若确定合成语音识别结果为非合成语音,则对非合成语音的语音信号进行声纹识别,并对声纹识别结果是否为目标人本人声音进行验证,得到验证结果;
所述获取单元具体用于:
对所述原始语音信号进行预加重处理,以提升所述原始语音信号在高频部分的信噪比;
对预加重处理后的语音信号进行分帧加窗处理,并对分帧加窗处理后的语音信号进行快速傅里叶变换,得到每帧语音信号对应的频谱;
对各频谱的频谱幅度分别进行求平方计算,并将求平方计算结果按照时间维度进行拼接,得到所述第一语谱图;
所述卷积循环神经网络包括依次相连的第一卷积神经网络和第一循环神经网络;相应的,所述识别单元具体用于:
基于所述第一卷积神经网络对所述第一语谱图进行特征提取,得到空间局部特征;
基于所述第一循环神经网络对所述空间局部特征进行特征提取,得到由时间序列表示的语音特征;
基于第一全连接层对所述语音特征进行识别,得到合成语音识别结果;
所述验证单元具体用于:
对非合成语音的语音信号进行浅层语音特征提取,得到浅层语音特征;
对非合成语音的语音信号进行深层语音特征提取,得到深层语音特征;
融合所述浅层语音特征和所述深层语音特征,得到融合语音特征;
基于第二全连接层对所述融合语音特征进行识别,得到声纹识别结果;
所述验证单元还具体用于:
对非合成语音的语音信号进行预处理,得到第二语谱图;
基于预设语音特征提取模型对所述第二语谱图进行深层语音特征提取,得到深层语音特征;
所述预设语音特征提取模型根据语音特征提取样本数据训练第二卷积神经网络得到。
5.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述方法的步骤。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至3中任一项所述方法的步骤。
CN202210853098.XA 2022-07-20 2022-07-20 一种语音识别验证处理方法及装置 Active CN115022087B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210853098.XA CN115022087B (zh) 2022-07-20 2022-07-20 一种语音识别验证处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210853098.XA CN115022087B (zh) 2022-07-20 2022-07-20 一种语音识别验证处理方法及装置

Publications (2)

Publication Number Publication Date
CN115022087A CN115022087A (zh) 2022-09-06
CN115022087B true CN115022087B (zh) 2024-02-27

Family

ID=83082301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210853098.XA Active CN115022087B (zh) 2022-07-20 2022-07-20 一种语音识别验证处理方法及装置

Country Status (1)

Country Link
CN (1) CN115022087B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010237364A (ja) * 2009-03-31 2010-10-21 Oki Electric Ind Co Ltd 合成音声判別装置、方法及びプログラム
CN110047490A (zh) * 2019-03-12 2019-07-23 平安科技(深圳)有限公司 声纹识别方法、装置、设备以及计算机可读存储介质
CN110459204A (zh) * 2018-05-02 2019-11-15 Oppo广东移动通信有限公司 语音识别方法、装置、存储介质及电子设备
CN110853630A (zh) * 2019-10-30 2020-02-28 华南师范大学 面向边缘计算的轻量级语音识别方法
CN111653289A (zh) * 2020-05-29 2020-09-11 宁波大学 一种回放语音检测方法
KR20220040813A (ko) * 2020-09-24 2022-03-31 장원준 인공지능 음성의 컴퓨팅 탐지 장치

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010237364A (ja) * 2009-03-31 2010-10-21 Oki Electric Ind Co Ltd 合成音声判別装置、方法及びプログラム
CN110459204A (zh) * 2018-05-02 2019-11-15 Oppo广东移动通信有限公司 语音识别方法、装置、存储介质及电子设备
CN110047490A (zh) * 2019-03-12 2019-07-23 平安科技(深圳)有限公司 声纹识别方法、装置、设备以及计算机可读存储介质
CN110853630A (zh) * 2019-10-30 2020-02-28 华南师范大学 面向边缘计算的轻量级语音识别方法
CN111653289A (zh) * 2020-05-29 2020-09-11 宁波大学 一种回放语音检测方法
KR20220040813A (ko) * 2020-09-24 2022-03-31 장원준 인공지능 음성의 컴퓨팅 탐지 장치

Also Published As

Publication number Publication date
CN115022087A (zh) 2022-09-06

Similar Documents

Publication Publication Date Title
CN109726624B (zh) 身份认证方法、终端设备和计算机可读存储介质
US11289072B2 (en) Object recognition method, computer device, and computer-readable storage medium
CN110082723B (zh) 一种声源定位方法、装置、设备及存储介质
CN111564164A (zh) 一种多模态情感识别方法及装置
CN112053695A (zh) 声纹识别方法、装置、电子设备及存储介质
Le Cornu et al. Reconstructing intelligible audio speech from visual speech features.
CN112927694B (zh) 一种基于融合声纹特征的语音指令合法性判别方法
CN111881726A (zh) 一种活体检测方法、装置及存储介质
CN111445900A (zh) 一种语音识别的前端处理方法、装置及终端设备
CN111191073A (zh) 视频音频识别方法、设备、存储介质及装置
CN112507311A (zh) 一种基于多模态特征融合的高安全性身份验证方法
CN110765868A (zh) 唇读模型的生成方法、装置、设备及存储介质
CN110459226A (zh) 一种通过声纹引擎检测人声或机器音进行身份核验的方法
CN114333865A (zh) 一种模型训练以及音色转换方法、装置、设备及介质
CN112151194A (zh) 康体训练监测系统及方法、存储介质及电子设备
CN111667839A (zh) 注册方法和设备、说话者识别方法和设备
CN108880815A (zh) 身份验证方法、装置和系统
CN113920560A (zh) 多模态说话人身份识别方法、装置和设备
CN115022087B (zh) 一种语音识别验证处理方法及装置
CN112466276A (zh) 一种语音合成系统训练方法、装置以及可读存储介质
CN112687274A (zh) 一种语音信息的处理方法、装置、设备及介质
JP7184236B2 (ja) 声紋を認識する方法、装置、設備、および記憶媒体
CN112992155B (zh) 一种基于残差神经网络的远场语音说话人识别方法及装置
CN113012684B (zh) 一种基于语音分割的合成语音检测方法
CN112908340A (zh) 一种基于全局-局部加窗的声音特征快速提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant