CN111128234B - 一种拼接语音的识别检测方法和装置以及设备 - Google Patents

一种拼接语音的识别检测方法和装置以及设备 Download PDF

Info

Publication number
CN111128234B
CN111128234B CN201911234375.3A CN201911234375A CN111128234B CN 111128234 B CN111128234 B CN 111128234B CN 201911234375 A CN201911234375 A CN 201911234375A CN 111128234 B CN111128234 B CN 111128234B
Authority
CN
China
Prior art keywords
spliced
voice data
cepstrum coefficient
voice
long
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911234375.3A
Other languages
English (en)
Other versions
CN111128234A (zh
Inventor
陈文敏
李稀敏
肖龙源
蔡振华
刘晓葳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Co Ltd
Original Assignee
Xiamen Kuaishangtong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Co Ltd filed Critical Xiamen Kuaishangtong Technology Co Ltd
Priority to CN201911234375.3A priority Critical patent/CN111128234B/zh
Publication of CN111128234A publication Critical patent/CN111128234A/zh
Application granted granted Critical
Publication of CN111128234B publication Critical patent/CN111128234B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种拼接语音的识别检测方法和装置以及设备。其中,所述方法包括:获取用户的正常语音数据,和将该正常语音数据剪切成预设段数,并将该剪切成预设段数的正常语音数据按语音倒序进行拼接得到拼接语音数据,和构建基于该正常语音数据和该拼接语音数据的二分类模型,和采用长短期记忆网络对该二分类模型进行拼接语音模型的训练,以及根据该经拼接语音模型训练后的二分类模型,对语音数据进行拼接语音的识别检测。通过上述方式,能够实现对拼接语音的识别检测,进而能够保障语音验证的安全性。

Description

一种拼接语音的识别检测方法和装置以及设备
技术领域
本发明涉及语音识别技术领域,尤其涉及一种拼接语音的识别检测方法和装置以及设备。
背景技术
在现实生活的很多场景中,经常需要对用户进行语音验证例如通过语音验证来登录软件程序或通过语音验证来登录终端设备等,但是会有一些不法人员通过将非本人的其他用户的语音进行剪切,进而拼接出特定的音频内容的拼接语音,试图采用该拼接语音来仿冒真实用户的身份来进行语音验证,以此来非法获取利益或者进行一些非法操作等,无法保障语音验证的安全性。
然而,现有技术无法实现对拼接语音的识别检测,进而无法保障语音验证的安全性。
发明内容
有鉴于此,本发明的目的在于提出一种拼接语音的识别检测方法和装置以及设备,能够实现对拼接语音的识别检测,进而能够保障语音验证的安全性。
根据本发明的一个方面,提供一种拼接语音的识别检测方法,包括:
获取用户的正常语音数据;
将所述正常语音数据剪切成预设段数,并将所述剪切成预设段数的正常语音数据按语音倒序进行拼接得到拼接语音数据;
构建基于所述正常语音数据和所述拼接语音数据的二分类模型;
采用长短期记忆网络对所述二分类模型进行拼接语音模型的训练;
根据所述经拼接语音模型训练后的二分类模型,对语音数据进行拼接语音的识别检测。
其中,所述构建基于所述正常语音数据和所述拼接语音数据的二分类模型,包括:
采用分别提取所述正常语音数据和所述拼接语音数据的梅尔倒谱系数特征和一阶梅尔倒谱系数特征以及二阶梅尔倒谱系数特征,并将所述分别提取的梅尔倒谱系数特征和一阶梅尔倒谱系数特征以及二阶梅尔倒谱系数特征作为长短期记忆网络的训练输入的方式,构建基于所述正常语音数据和所述拼接语音数据的二分类模型。
其中,所述采用长短期记忆网络对所述二分类模型进行拼接语音模型的训练,包括:
在拼接语音模型中设置随机失活层和局部响应归一化层,和从所述二分类模型中提取出梅尔倒谱系数特征,并将所述提取出的梅尔倒谱系数特征输入到长短期记忆网络,以及采用长短期记忆网络对所述二分类模型进行拼接语音模型的训练。
其中,在所述根据所述经拼接语音模型训练后的二分类模型,对语音数据进行拼接语音的识别检测之后,还包括:
通过交叉熵损失的损失函数和优化算法对采用长短期记忆网络进行参数更数,和采用所述经参数更新后的长短期记忆网络通过预设次数的迭代对所述二分类模型进行训练更新。
根据本发明的另一个方面,提供一种拼接语音的识别检测装置,包括:
获取模块、拼接模块、构建模块、训练模块和识别检测模块;
所述获取模块,用于获取用户的正常语音数据;
所述拼接模块,用于将所述正常语音数据剪切成预设段数,并将所述剪切成预设段数的正常语音数据按语音倒序进行拼接得到拼接语音数据;
所述构建模块,用于构建基于所述正常语音数据和所述拼接语音数据的二分类模型;
所述训练模块,用于采用长短期记忆网络对所述二分类模型进行拼接语音模型的训练;
所述识别检测模块,用于根据所述经拼接语音模型训练后的二分类模型,对语音数据进行拼接语音的识别检测。
其中,所述构建模块,具体用于:
采用分别提取所述正常语音数据和所述拼接语音数据的梅尔倒谱系数特征和一阶梅尔倒谱系数特征以及二阶梅尔倒谱系数特征,并将所述分别提取的梅尔倒谱系数特征和一阶梅尔倒谱系数特征以及二阶梅尔倒谱系数特征作为长短期记忆网络的训练输入的方式,构建基于所述正常语音数据和所述拼接语音数据的二分类模型。
其中,所述训练模块,具体用于:
在拼接语音模型中设置随机失活层和局部响应归一化层,和从所述二分类模型中提取出梅尔倒谱系数特征,并将所述提取出的梅尔倒谱系数特征输入到长短期记忆网络,以及采用长短期记忆网络对所述二分类模型进行拼接语音模型的训练。
其中,所述拼接语音的识别检测装置,还包括:
更新模块;
所述更新模块,用于通过交叉熵损失的损失函数和优化算法对采用长短期记忆网络进行参数更数,和采用所述经参数更新后的长短期记忆网络通过预设次数的迭代对所述二分类模型进行训练更新。
根据本发明的又一个方面,提供一种拼接语音的识别检测设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任一项所述的拼接语音的识别检测方法。
根据本发明的再一个方面,提供一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述任一项所述的拼接语音的识别检测方法。
可以发现,以上方案,可以获取用户的正常语音数据,和可以将该正常语音数据剪切成预设段数,并将该剪切成预设段数的正常语音数据按语音倒序进行拼接得到拼接语音数据,和可以构建基于该正常语音数据和该拼接语音数据的二分类模型,和可以采用长短期记忆网络对该二分类模型进行拼接语音模型的训练,以及可以根据该经拼接语音模型训练后的二分类模型,对语音数据进行拼接语音的识别检测,能够实现对拼接语音的识别检测,进而能够保障语音验证的安全性。
进一步的,以上方案,可以采用分别提取该正常语音数据和该拼接语音数据的梅尔倒谱系数特征和一阶梅尔倒谱系数特征以及二阶梅尔倒谱系数特征,并将该分别提取的梅尔倒谱系数特征和一阶梅尔倒谱系数特征以及二阶梅尔倒谱系数特征作为长短期记忆网络的训练输入的方式,构建基于该正常语音数据和该拼接语音数据的二分类模型,这样的好处是因为该长短期记忆网络是递归神经网络,该长短期记忆网络能够保留音频上下文的信息,进而能够便于识别检测拼接语音。
进一步的,以上方案,可以在拼接语音模型中设置随机失活层和局部响应归一化层,和从该二分类模型中提取出梅尔倒谱系数特征,并将该提取出的梅尔倒谱系数特征输入到长短期记忆网络,以及采用长短期记忆网络对该二分类模型进行拼接语音模型的训练,这样的好处是在该拼接语音模型中设置的随机失活层能够防止过拟合,在该拼接语音模型中设置的局部响应归一化层能够使拼接语音的特征更加突出,能够提高对拼接语音的识别检测的准确率。
进一步的,以上方案,可以通过交叉熵损失的损失函数和优化算法对采用长短期记忆网络进行参数更数,和采用该经参数更新后的长短期记忆网络通过预设次数的迭代对该二分类模型进行训练更新,这样的好处是能够实现提高对拼接语音的识别检测的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明拼接语音的识别检测方法一实施例的流程示意图;
图2是本发明拼接语音的识别检测方法另一实施例的流程示意图;
图3是本发明拼接语音的识别检测装置一实施例的结构示意图;
图4是本发明拼接语音的识别检测装置另一实施例的结构示意图;
图5是本发明拼接语音的识别检测设备一实施例的结构示意图。
具体实施方式
下面结合附图和实施例,对本发明作进一步的详细描述。特别指出的是,以下实施例仅用于说明本发明,但不对本发明的范围进行限定。同样的,以下实施例仅为本发明的部分实施例而非全部实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明提供一种拼接语音的识别检测方法,能够实现对拼接语音的识别检测,进而能够保障语音验证的安全性。
请参见图1,图1是本发明拼接语音的识别检测方法一实施例的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括如下步骤:
S101:获取用户的正常语音数据。
在本实施例中,该用户可以一个单一用户,也可以是多个用户,本发明不加以限定。
在本实施例中,可以一次性获取多个用户的正常语音数据,也可以分多次获取多个用户的正常语音数据,还可以逐一逐个用户的获取用户的正常语音数据等,本发明不加以限定。
S102:将该正常语音数据剪切成预设段数,并将该剪切成预设段数的正常语音数据按语音倒序进行拼接得到拼接语音数据。
在本实施例中,可以将该正常语音数据剪切成预设的2段,也可以将该正常语音数据剪切成预设的3段,还可以将该正常语音数据剪切成预设的其它段数,本发明不加以限定。
S103:构建基于该正常语音数据和该拼接语音数据的二分类模型。
其中,该构建基于该正常语音数据和该拼接语音数据的二分类模型,可以包括:
采用分别提取该正常语音数据和该拼接语音数据的MFCC(Mel-scale FrequencyCepstral Coefficients,梅尔倒谱系数)特征和一阶梅尔倒谱系数特征以及二阶梅尔倒谱系数特征,并将该分别提取的梅尔倒谱系数特征和一阶梅尔倒谱系数特征以及二阶梅尔倒谱系数特征作为LSTM(Long Short-Term Memory,长短期记忆网络)的训练输入的方式,构建基于该正常语音数据和该拼接语音数据的二分类模型,这样的好处是因为该长短期记忆网络是递归神经网络,该长短期记忆网络能够保留音频上下文的信息,进而能够便于识别检测拼接语音。
S104:采用长短期记忆网络对该二分类模型进行拼接语音模型的训练。
其中,该采用长短期记忆网络对该二分类模型进行拼接语音模型的训练,可以包括:
在拼接语音模型中设置dropout(随机失活)层和局部响应归一化层,和从该二分类模型中提取出梅尔倒谱系数特征,并将该提取出的梅尔倒谱系数特征输入到长短期记忆网络,以及采用长短期记忆网络对该二分类模型进行拼接语音模型的训练,这样的好处是在该拼接语音模型中设置的随机失活层能够防止过拟合,在该拼接语音模型中设置的局部响应归一化层能够使拼接语音的特征更加突出,能够提高对拼接语音的识别检测的准确率。
在本实施例中,该长短期记忆网络可以包括两层长短期记忆层和两层全连接层,也可以包括三层长短期记忆层和三层全连接层,还可以包括四层长短期记忆层和四层全连接层,本发明不加以限定。
S105:根据该经拼接语音模型训练后的二分类模型,对语音数据进行拼接语音的识别检测。
其中,在该根据该经拼接语音模型训练后的二分类模型,对语音数据进行拼接语音的识别检测之后,还可以包括:
通过交叉熵损失的损失函数和优化算法对采用长短期记忆网络进行参数更数,和采用该经参数更新后的长短期记忆网络通过预设次数的迭代对该二分类模型进行训练更新,这样的好处是能够实现提高对拼接语音的识别检测的准确率。
可以发现,在本实施例中,可以获取用户的正常语音数据,和可以将该正常语音数据剪切成预设段数,并将该剪切成预设段数的正常语音数据按语音倒序进行拼接得到拼接语音数据,和可以构建基于该正常语音数据和该拼接语音数据的二分类模型,和可以采用长短期记忆网络对该二分类模型进行拼接语音模型的训练,以及可以根据该经拼接语音模型训练后的二分类模型,对语音数据进行拼接语音的识别检测,能够实现对拼接语音的识别检测,进而能够保障语音验证的安全性。
进一步的,在本实施例中,可以采用分别提取该正常语音数据和该拼接语音数据的梅尔倒谱系数特征和一阶梅尔倒谱系数特征以及二阶梅尔倒谱系数特征,并将该分别提取的梅尔倒谱系数特征和一阶梅尔倒谱系数特征以及二阶梅尔倒谱系数特征作为长短期记忆网络的训练输入的方式,构建基于该正常语音数据和该拼接语音数据的二分类模型,这样的好处是因为该长短期记忆网络是递归神经网络,该长短期记忆网络能够保留音频上下文的信息,进而能够便于识别检测拼接语音。
进一步的,在本实施例中,可以在拼接语音模型中设置随机失活层和局部响应归一化层,和从该二分类模型中提取出梅尔倒谱系数特征,并将该提取出的梅尔倒谱系数特征输入到长短期记忆网络,以及采用长短期记忆网络对该二分类模型进行拼接语音模型的训练,这样的好处是在该拼接语音模型中设置的随机失活层能够防止过拟合,在该拼接语音模型中设置的局部响应归一化层能够使拼接语音的特征更加突出,能够提高对拼接语音的识别检测的准确率。
请参见图2,图2是本发明拼接语音的识别检测方法另一实施例的流程示意图。本实施例中,该方法包括以下步骤:
S201:获取用户的正常语音数据。
可如上S101所述,在此不作赘述。
S202:将该正常语音数据剪切成预设段数,并将该剪切成预设段数的正常语音数据按语音倒序进行拼接得到拼接语音数据。
可如上S102所述,在此不作赘述。
S203:构建基于该正常语音数据和该拼接语音数据的二分类模型。
可如上S103所述,在此不作赘述。
S204:采用长短期记忆网络对该二分类模型进行拼接语音模型的训练。
可如上S104所述,在此不作赘述。
S205:根据该经拼接语音模型训练后的二分类模型,对语音数据进行拼接语音的识别检测。
S206:通过交叉熵损失的损失函数和优化算法对采用长短期记忆网络进行参数更数,和采用该经参数更新后的长短期记忆网络通过预设次数的迭代对该二分类模型进行训练更新。
可以发现,在本实施例中,可以通过交叉熵损失的损失函数和优化算法对采用长短期记忆网络进行参数更数,和采用该经参数更新后的长短期记忆网络通过预设次数的迭代对该二分类模型进行训练更新,这样的好处是能够实现提高对拼接语音的识别检测的准确率。
本发明还提供一种拼接语音的识别检测装置,能够实现对拼接语音的识别检测,进而能够保障语音验证的安全性。
请参见图3,图3是本发明拼接语音的识别检测装置一实施例的结构示意图。本实施例中,该拼接语音的识别检测装置30包括获取模块31、拼接模块32、构建模块33、训练模块34和识别检测模块35。
该获取模块31,用于获取用户的正常语音数据。
该拼接模块32,用于将该正常语音数据剪切成预设段数,并将该剪切成预设段数的正常语音数据按语音倒序进行拼接得到拼接语音数据。
该构建模块33,用于构建基于该正常语音数据和该拼接语音数据的二分类模型。
该训练模块34,用于采用长短期记忆网络对该二分类模型进行拼接语音模型的训练。
该识别检测模块35,用于根据该经拼接语音模型训练后的二分类模型,对语音数据进行拼接语音的识别检测。
可选地,该构建模块33,可以具体用于:
采用分别提取该正常语音数据和该拼接语音数据的梅尔倒谱系数特征和一阶梅尔倒谱系数特征以及二阶梅尔倒谱系数特征,并将该分别提取的梅尔倒谱系数特征和一阶梅尔倒谱系数特征以及二阶梅尔倒谱系数特征作为长短期记忆网络的训练输入的方式,构建基于该正常语音数据和该拼接语音数据的二分类模型。
可选地,该训练模块34,可以具体用于:
在拼接语音模型中设置随机失活层和局部响应归一化层,和从该二分类模型中提取出梅尔倒谱系数特征,并将该提取出的梅尔倒谱系数特征输入到长短期记忆网络,以及采用长短期记忆网络对该二分类模型进行拼接语音模型的训练。
请参见图4,图4是本发明拼接语音的识别检测装置另一实施例的结构示意图。区别于上一实施例,本实施例所述拼接语音的识别检测装置40还包括更新模块41。
该更新模块41,用于通过交叉熵损失的损失函数和优化算法对采用长短期记忆网络进行参数更数,和采用该经参数更新后的长短期记忆网络通过预设次数的迭代对该二分类模型进行训练更新。
该拼接语音的识别检测装置30/40的各个单元模块可分别执行上述方法实施例中对应步骤,故在此不对各单元模块进行赘述,详细请参见以上对应步骤的说明。
本发明又提供一种拼接语音的识别检测设备,如图5所示,包括:至少一个处理器51;以及,与至少一个处理器51通信连接的存储器52;其中,存储器52存储有可被至少一个处理器51执行的指令,指令被至少一个处理器51执行,以使至少一个处理器51能够执行上述的拼接语音的识别检测方法。
其中,存储器52和处理器51采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器51和存储器52的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器51处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器51。
处理器51负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器52可以被用于存储处理器51在执行操作时所使用的数据。
本发明再提供一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
可以发现,以上方案,可以获取用户的正常语音数据,和可以将该正常语音数据剪切成预设段数,并将该剪切成预设段数的正常语音数据按语音倒序进行拼接得到拼接语音数据,和可以构建基于该正常语音数据和该拼接语音数据的二分类模型,和可以采用长短期记忆网络对该二分类模型进行拼接语音模型的训练,以及可以根据该经拼接语音模型训练后的二分类模型,对语音数据进行拼接语音的识别检测,能够实现对拼接语音的识别检测,进而能够保障语音验证的安全性。
进一步的,以上方案,可以采用分别提取该正常语音数据和该拼接语音数据的梅尔倒谱系数特征和一阶梅尔倒谱系数特征以及二阶梅尔倒谱系数特征,并将该分别提取的梅尔倒谱系数特征和一阶梅尔倒谱系数特征以及二阶梅尔倒谱系数特征作为长短期记忆网络的训练输入的方式,构建基于该正常语音数据和该拼接语音数据的二分类模型,这样的好处是因为该长短期记忆网络是递归神经网络,该长短期记忆网络能够保留音频上下文的信息,进而能够便于识别检测拼接语音。
进一步的,以上方案,可以在拼接语音模型中设置随机失活层和局部响应归一化层,和从该二分类模型中提取出梅尔倒谱系数特征,并将该提取出的梅尔倒谱系数特征输入到长短期记忆网络,以及采用长短期记忆网络对该二分类模型进行拼接语音模型的训练,这样的好处是在该拼接语音模型中设置的随机失活层能够防止过拟合,在该拼接语音模型中设置的局部响应归一化层能够使拼接语音的特征更加突出,能够提高对拼接语音的识别检测的准确率。
进一步的,以上方案,可以通过交叉熵损失的损失函数和优化算法对采用长短期记忆网络进行参数更数,和采用该经参数更新后的长短期记忆网络通过预设次数的迭代对该二分类模型进行训练更新,这样的好处是能够实现提高对拼接语音的识别检测的准确率。
在本发明所提供的几个实施方式中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本发明各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的部分实施例,并非因此限制本发明的保护范围,凡是利用本发明说明书及附图内容所作的等效装置或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种拼接语音的识别检测方法,其特征在于,包括:
获取用户的正常语音数据;
将所述正常语音数据剪切成预设段数,并将所述剪切成预设段数的正常语音数据按语音倒序进行拼接得到拼接语音数据;
构建基于所述正常语音数据和所述拼接语音数据的二分类模型;
采用长短期记忆网络对所述二分类模型进行拼接语音模型的训练,所述采用长短期记忆网络对所述二分类模型进行拼接语音模型的训练具体包括:在拼接语音模型中设置随机失活层和局部响应归一化层,和从所述二分类模型中提取出梅尔倒谱系数特征,并将所述提取出的梅尔倒谱系数特征输入到长短期记忆网络,以及采用长短期记忆网络对所述二分类模型进行拼接语音模型的训练;
根据所述经拼接语音模型训练后的二分类模型,对语音数据进行拼接语音的识别检测。
2.如权利要求1所述的拼接语音的识别检测方法,其特征在于,所述构建基于所述正常语音数据和所述拼接语音数据的二分类模型,包括:
采用分别提取所述正常语音数据和所述拼接语音数据的梅尔倒谱系数特征和一阶梅尔倒谱系数特征以及二阶梅尔倒谱系数特征,并将所述分别提取的梅尔倒谱系数特征和一阶梅尔倒谱系数特征以及二阶梅尔倒谱系数特征作为长短期记忆网络的训练输入的方式,构建基于所述正常语音数据和所述拼接语音数据的二分类模型。
3.如权利要求1所述的拼接语音的识别检测方法,其特征在于,在所述根据所述经拼接语音模型训练后的二分类模型,对语音数据进行拼接语音的识别检测之后,还包括:
通过交叉熵损失的损失函数和优化算法对采用长短期记忆网络进行参数更数,和采用所述经参数更新后的长短期记忆网络通过预设次数的迭代对所述二分类模型进行训练更新。
4.一种拼接语音的识别检测装置,其特征在于,包括:
获取模块、拼接模块、构建模块、训练模块和识别检测模块;
所述获取模块,用于获取用户的正常语音数据;
所述拼接模块,用于将所述正常语音数据剪切成预设段数,并将所述剪切成预设段数的正常语音数据按语音倒序进行拼接得到拼接语音数据;
所述构建模块,用于构建基于所述正常语音数据和所述拼接语音数据的二分类模型;
所述训练模块,用于采用长短期记忆网络对所述二分类模型进行拼接语音模型的训练,具体用于:在拼接语音模型中设置随机失活层和局部响应归一化层,和从所述二分类模型中提取出梅尔倒谱系数特征,并将所述提取出的梅尔倒谱系数特征输入到长短期记忆网络,以及采用长短期记忆网络对所述二分类模型进行拼接语音模型的训练;
所述识别检测模块,用于根据所述经拼接语音模型训练后的二分类模型,对语音数据进行拼接语音的识别检测。
5.如权利要求4所述的拼接语音的识别检测装置,其特征在于,所述构建模块,具体用于:
采用分别提取所述正常语音数据和所述拼接语音数据的梅尔倒谱系数特征和一阶梅尔倒谱系数特征以及二阶梅尔倒谱系数特征,并将所述分别提取的梅尔倒谱系数特征和一阶梅尔倒谱系数特征以及二阶梅尔倒谱系数特征作为长短期记忆网络的训练输入的方式,构建基于所述正常语音数据和所述拼接语音数据的二分类模型。
6.如权利要求4所述的拼接语音的识别检测装置,其特征在于,所述拼接语音的识别检测装置,还包括:
更新模块;
所述更新模块,用于通过交叉熵损失的损失函数和优化算法对采用长短期记忆网络进行参数更数,和采用所述经参数更新后的长短期记忆网络通过预设次数的迭代对所述二分类模型进行训练更新。
7.一种拼接语音的识别检测设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至3中任一项所述的拼接语音的识别检测方法。
8.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的拼接语音的识别检测方法。
CN201911234375.3A 2019-12-05 2019-12-05 一种拼接语音的识别检测方法和装置以及设备 Active CN111128234B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911234375.3A CN111128234B (zh) 2019-12-05 2019-12-05 一种拼接语音的识别检测方法和装置以及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911234375.3A CN111128234B (zh) 2019-12-05 2019-12-05 一种拼接语音的识别检测方法和装置以及设备

Publications (2)

Publication Number Publication Date
CN111128234A CN111128234A (zh) 2020-05-08
CN111128234B true CN111128234B (zh) 2023-02-14

Family

ID=70497520

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911234375.3A Active CN111128234B (zh) 2019-12-05 2019-12-05 一种拼接语音的识别检测方法和装置以及设备

Country Status (1)

Country Link
CN (1) CN111128234B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113555007B (zh) 2021-09-23 2021-12-14 中国科学院自动化研究所 语音拼接点检测方法及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105023581A (zh) * 2015-07-24 2015-11-04 南京工程学院 一种基于时频域联合特征的音频篡改检测装置
CN109147799A (zh) * 2018-10-18 2019-01-04 广州势必可赢网络科技有限公司 一种语音识别的方法、装置、设备及计算机存储介质
CN110428845A (zh) * 2019-07-24 2019-11-08 厦门快商通科技股份有限公司 合成音频检测方法、系统、移动终端及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376264A (zh) * 2018-11-09 2019-02-22 广州势必可赢网络科技有限公司 一种音频检测方法、装置、设备及计算机可读存储介质
CN110010133A (zh) * 2019-03-06 2019-07-12 平安科技(深圳)有限公司 基于短文本的声纹检测方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105023581A (zh) * 2015-07-24 2015-11-04 南京工程学院 一种基于时频域联合特征的音频篡改检测装置
CN109147799A (zh) * 2018-10-18 2019-01-04 广州势必可赢网络科技有限公司 一种语音识别的方法、装置、设备及计算机存储介质
CN110428845A (zh) * 2019-07-24 2019-11-08 厦门快商通科技股份有限公司 合成音频检测方法、系统、移动终端及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《基于分数倒谱变换的取证语音拼接特征提取与分析》;钟巍等;《数据采集与处理》;20140331;全文 *

Also Published As

Publication number Publication date
CN111128234A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN111009238B (zh) 一种拼接语音的识别方法和装置以及设备
CN105229725B (zh) 多语言深神经网络
CN110827805B (zh) 语音识别模型训练方法、语音识别方法和装置
EP3451328A1 (en) Method and apparatus for verifying information
CN110491393B (zh) 声纹表征模型的训练方法及相关装置
CN107886957A (zh) 一种结合声纹识别的语音唤醒方法及装置
CN112259089B (zh) 语音识别方法及装置
CN105656887A (zh) 基于人工智能的声纹认证方法以及装置
CN110942763B (zh) 语音识别方法及装置
CN111081280A (zh) 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法
CN104765996A (zh) 声纹密码认证方法及系统
CN109462482A (zh) 声纹识别方法、装置、电子设备及计算机可读存储介质
CN104462912A (zh) 改进的生物密码安全
CN113744739A (zh) 语音数据处理方法、装置、设备、存储介质及程序产品
CN111508497A (zh) 语音识别方法、装置、电子设备及存储介质
US11410685B1 (en) Method for detecting voice splicing points and storage medium
CN111128234B (zh) 一种拼接语音的识别检测方法和装置以及设备
CN113744727B (zh) 模型训练方法、系统、终端设备及存储介质
CN111210840A (zh) 一种年龄预测方法和装置以及设备
CN110053055A (zh) 一种机器人及其回答问题的方法、存储介质
US10418024B1 (en) Systems and methods of speech generation for target user given limited data
CN115101075B (zh) 一种语音识别的方法以及相关装置
CN116935277A (zh) 多模态情感识别方法及装置
CN111261196A (zh) 一种年龄预估方法和装置以及设备
CN111179912A (zh) 一种拼接语音的检测方法和装置以及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant