CN110931020B - 一种语音检测方法及装置 - Google Patents
一种语音检测方法及装置 Download PDFInfo
- Publication number
- CN110931020B CN110931020B CN201911281198.4A CN201911281198A CN110931020B CN 110931020 B CN110931020 B CN 110931020B CN 201911281198 A CN201911281198 A CN 201911281198A CN 110931020 B CN110931020 B CN 110931020B
- Authority
- CN
- China
- Prior art keywords
- voice
- data
- pieces
- voice data
- human
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 145
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims description 22
- 230000003247 decreasing effect Effects 0.000 claims description 18
- 238000012795 verification Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
- Telephone Function (AREA)
Abstract
本发明实施例提供一种语音检测方法及装置,该方法包括:获取至少两条语音数据,其中,所述至少两条语音数据的部分或全部语音文本信息相同;对所述至少两条语音数据的语音参数特征进行对比,得到对比结果;基于所述对比结果,确定所述至少两条语音数据是否为人声数据。本发明实施例能够对获取的语音数据进行人声检测,从而可在语音识别中可以抵御合成语音攻击,提升安全性。
Description
技术领域
本发明涉及语音处理技术领域,尤其涉及一种语音检测方法及装置。
背景技术
随着科技的发展,生物识别技术在生活、安防领域的应用越来越广泛,其中,声纹识别作为一种新兴生物识别技术,被越来越多的运用在金融、安防领域。现有声纹识别方案中是通过用户阅读动态数字的方式来获取声音数据,而后进行声纹注册和声纹验证,通过这种方案可以抵御重放攻击,即声纹验证者的密码被录音。但随着语音合成技术的发展,合成特定音色的音频已逐渐不是难题,导致现有语音识别方案难以抵御合成语音攻击,即现有方案中,通过合成模拟特定用户音色的语音可通过声纹验证。
可见,现有语音识别方案仍存在安全性较差的问题。
发明内容
本发明实施例提供一种语音检测方法及装置,以解决现有语音识别方案存在安全性较差的问题。
为解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种语音检测方法,包括:
获取至少两条语音数据,其中,所述至少两条语音数据的部分或全部语音文本信息相同;
对所述至少两条语音数据的语音参数特征进行对比,得到对比结果;
基于所述对比结果,确定所述至少两条语音数据是否为人声数据。
可选的,所述对所述至少两条语音数据的语音参数特征进行对比,得到对比结果,包括:
将所述至少两条语音数据输入人声检测模型,以通过所述人声检测模型对比所述至少两条语音数据的语音参数特征,其中,所述人声检测模型是根据人声样本数据和合成语音样本数据训练生成的;
所述基于所述对比结果,确定所述至少两条语音数据是否为人声数据,包括:
基于所述人声检测模型输出的检测结果,确定所述至少两条语音数据是否为人声数据。
可选的,所述人声检测模型的训练过程包括:
采集多组人声语音样本数据,其中,每组人声语音样本数据包括至少两条人声语音数据,且每组人声语音样本数据包括的语音数据中的语音文本信息相同;
获取多组合成语音样本数据,其中,每组合成语音样本数据包括至少两条合成语音数据,且每条合成语音的语音参数不同,每组合成语音样本数据包括的语音数据中的语音文本信息相同;
将所述多组人声语音样本数据作为正样本集,以及将所述多组合成语音样本数据作为负样本集;
利用所述正样本集和负样本集对初始模型进行训练,得到所述人声检测模型。
可选的,所述将所述至少两条语音数据输入人声检测模型,以通过所述人声检测模型对比所述至少两条语音数据的语音参数特征,包括:
通过所述人声检测模型分析所述至少两条语音数据的语音参数的变化特征;
若所述至少两条语音数据的语音参数的变化特征为不呈现规则性递增或递减,则输出所述至少两条语音数据为人声数据的检测结果;
若所述至少两条语音数据的语音参数的变化特征为呈现规则性递增或递减,则输出所述至少两条语音数据为合成语音数据的检测结果。
可选的,所述获取至少两条语音数,包括:
输出随机语句;
接收用户基于所述随机语句输入的至少两条语音数据;
所述方法还包括:
在确定所述至少两条语音数据为人声数据的情况下,识别所述至少两条语音数据中的语音文本信息是否与所述随机语句匹配;
若所述至少两条语音数据中的语音文本信息与所述随机语句匹配,则确定语音验证通过。
第二方面,本发明实施例提供一种语音检测装置,包括:
获取模块,用于获取至少两条语音数据,其中,所述至少两条语音数据的部分或全部语音文本信息相同;
对比模块,用于对所述至少两条语音数据的语音参数特征进行对比,得到对比结果;
第一确定模块,用于基于所述对比结果,确定所述至少两条语音数据是否为人声数据。
可选的,所述对比模块用于将所述至少两条语音数据输入人声检测模型,以通过所述人声检测模型对比所述至少两条语音数据的语音参数特征,其中,所述人声检测模型是根据人声样本数据和合成语音样本数据训练生成的;
所述第一确定模块用于基于所述人声检测模型输出的检测结果,确定所述至少两条语音数据是否为人声数据。
可选的,所述人声检测模型的训练过程包括:
采集多组人声语音样本数据,其中,每组人声语音样本数据包括至少两条人声语音数据,且每组人声语音样本数据包括的语音数据中的语音文本信息相同;
获取多组合成语音样本数据,其中,每组合成语音样本数据包括至少两条合成语音数据,且每条合成语音的语音参数不同,每组合成语音样本数据包括的语音数据中的语音文本信息相同;
将所述多组人声语音样本数据作为正样本集,以及将所述多组合成语音样本数据作为负样本集;
利用所述正样本集和负样本集对初始模型进行训练,得到所述人声检测模型。
可选的,所述对比模块包括:
分析单元,用于通过所述人声检测模型分析所述至少两条语音数据的语音参数的变化特征;
第一输出单元,用于若所述至少两条语音数据的语音参数的变化特征为不呈现规则性递增或递减,则输出所述至少两条语音数据为人声数据的检测结果;
第二输出单元,用于若所述至少两条语音数据的语音参数的变化特征为呈现规则性递增或递减,则输出所述至少两条语音数据为合成语音数据的检测结果。
可选的,所述获取模块包括:
第三输出单元,用于输出随机语句;
接收单元,用于接收用户基于所述随机语句输入的至少两条语音数据;
所述语音检测装置还包括:
识别模块,用于在确定所述至少两条语音数据为人声数据的情况下,识别所述至少两条语音数据中的语音文本信息是否与所述随机语句匹配;
第二确定模块,用于若所述至少两条语音数据中的语音文本信息与所述随机语句匹配,则确定语音验证通过。
第三方面,本发明实施例提供一种语音检测装置,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述语音检测方法中的步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述语音检测方法中的步骤。
本发明实施例中,通过获取包括部分或全部语音文本信息相同的至少两条语音数据,并对比所述至少两条语音数据的语音参数特征,可以确定该语音数据是人声数据还是合成的非人声数据,进而可在语音识别中抵御合成语音攻击,提升安全性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种语音检测方法的流程图;
图2是本发明实施例提供的一种人声检测模型的训练流程图;
图3是本发明实施例提供的一种语音检测方法的举例流程图;
图4是本发明实施例提供的一种语音检测装置的结构示意图;
图5是本发明实施例提供的一种语音检测装置的对比模块的结构示意图;
图6是本发明实施例提供的另一种语音检测装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,图1是本发明实施例提供的一种语音检测方法的流程图,应用于移动终端,如图1所示,所述方法包括以下步骤:
步骤101、获取至少两条语音数据,其中,所述至少两条语音数据的部分或全部语音文本信息相同。
上述至少两条语音数据可以是采集的外界输入的两条或两条以上语音数据,且所述至少两条语音数据中包含的部分或全部语音文本信息是相同的,即所述至少两条语音数据可以是对同一语句的相同描述或不同描述,例如,用户可以连续输入两条完全相同语句“今天天气真不错”,或者,连续输入两条部分相同语句“今天天气真不错”和“今天天气很好”。
本发明实施例中,为了更为精准地实现活体检测,即识别采集的语音数据是否为真人输入的数据,可以要求用户对同一语句至少念读两次,以通过对用户输入的至少两条语音数据进行语音参数特征分析,来确定检测结果。
步骤102、对所述至少两条语音数据的语音参数特征进行对比,得到对比结果。
上述语音参数特征可以是音调、音高、音速等特征,本发明实施例中,鉴于人声与合成语音的主要区别在于人声的音调、音高、音速等参数具有随机性,而合成语音的音调、音高、音速等参数往往是通过机器设定的,即是固定的,故可以通过对比所述至少两条语音数据的语音参数特征,来判定所述至少两条语音数据是否人声数据,也即可以对比每条语音数据的音调、音高、音速等语音参数,得到某条语音数据的音调、音高、音速等语音参数相对于另一条语音数据的变化趋势,如是增加或减少固定值,还或是某个词句增加,某个词句减少,且变化的幅度是随机不定的,通过此对比,可以得到相应的对比结果。
步骤103、基于所述对比结果,确定所述至少两条语音数据是否为人声数据。
该步骤中,可以基于上述步骤102的对比结果,来确定所述至少两条语音数据是人声数据还是合成语音数据,例如,若所述对比结果指示所述至少两条语音数据中每条语音数据的语音参数均固定不变或呈现规则的递增或递减变化,则可知所述至少两条语音数据符合合成语音数据的语音参数特征,进而可确定所述至少两条语音数据非人声数据而为合成语音数据,反之,若所述对比结果指示所述至少两条语音数据中每条语音数据的语音参数呈现不规则的随机变化,则可知所述至少两条语音数据符合人声数据的语音参数特征,进而可确定所述至少两条语音数据为人声数据。
可选的,所述至少两条语音数据的全部语音文本信息相同;
所述步骤102包括:
将所述至少两条语音数据输入人声检测模型,以通过所述人声检测模型对比所述至少两条语音数据的语音参数特征,其中,所述人声检测模型是根据人声样本数据和合成语音样本数据训练生成的;
所述步骤103包括:
基于所述人声检测模型输出的检测结果,确定所述至少两条语音数据是否为人声数据。
该实施方式中,在获得所述至少两条语音数据后,可以将其输入预先训练好的人声检测模型进行人声检测,以通过所述人声检测模型对比所述至少两条语音数据的语音参数特征,得到所述人声检测模型输出的用于指示所述至少两条语音数据是否为人声数据的检测结果,即所述人声检测模型的输出为是否为人声数据,其中,所述人声检测模型可以是预先根据人声样本数据和合成语音样本数据训练生成的,所述人声样本数据可以是采集的真人语音数据,所述合成语音样本数据可以是通过机器合成的语音数据,为保证训练的人声检测模型更为精确,可以采集足够多的人声样本数据和合成语音样本数据进行训练,且可以采集多组包含相同语音文本信息的样本数据,以训练所述人声检测模型能够通过分析包含相同语音文本信息的样本数据在语音参数(如音调、音高、音速等)上的不同变化特征来区分人声数据和合成数据。当然,还可以分别对于每条样本数据作标准化处理,例如,处理成音量相同、时长相同、采样频率相同等,以避免各样本数据因形式的不同而影响模型的检测精度。
这样,通过使用人声样本数据和合成语音样本数据对模型进行分类训练,使得训练好的人声检测模型能够对于输入的语音数据所属的类别进行准确区分,从而在将所述至少两条语音数据输入所述人声检测模型后,便可以得到所述至少两条语音数据是否为人声数据的检测结果,进而可基于所述人声检测模型输出的检测结果,确定所述至少两条语音数据是否为人声数据。
可选的,所述人声检测模型的训练过程包括:
采集多组人声语音样本数据,其中,每组人声语音样本数据包括至少两条人声语音数据,且每组人声语音样本数据包括的语音数据中的语音文本信息相同;
获取多组合成语音样本数据,其中,每组合成语音样本数据包括至少两条合成语音数据,且每条合成语音的语音参数不同,每组合成语音样本数据包括的语音数据中的语音文本信息相同;
将所述多组人声语音样本数据作为正样本集,以及将所述多组合成语音样本数据作为负样本集;
利用所述正样本集和负样本集对初始模型进行训练,得到所述人声检测模型。
该实施方式中,所述人声检测模型的训练过程可以参见图2,首先,可以进行样本数据采集,为保证更好地训练人声检测模型,可以分别采集多组人声样本数据和多组合成语音样本数据,其中,每组样本数据的数量为至少两条,且每组样本数据包括的语音数据中的语音文本信息相同,对于每组合成语音样本数据,还可以分别调整每组合成语音样本数据中的每条合成语音数据的语音参数,如音调、音速等,以保证所述每条合成语音数据的语音参数具有差别,进而使得训练模型能够检测出每组合成语音样本数据在语音参数上的不同以及变化规则。
其次,可以将所采集的多组人声语音样本数据作为正样本集,将所获取的多组合成语音样本数据作为负样本集,即对于所述正样本集训练的结果为输出是人声数据,而对于所述负样本集训练的结果则为输出不是人声数据。
最后,可以利用所述正样本集和负样本集对初始模型进行训练,得到所需的人声检测模型,具体地,可以采用神经网络模型,如卷积神经网络模型作为初始训练模型,当然也可以采用其他模型,当输入所述正样本集中的样本数据时,对应的输出应为是人声数据,当输入所述负样本集中的样本数据时,对应的输出应为是非人声数据,这样,根据训练样本的输入和输出,可以以迭代的方式对初始神经网络模型中的各个参数值进行不断调整,直至模型的输出对应的误差参数收敛,最终训练得到所需的人声检测模型。
这样,通过采用多组符合要求的人声语音样本数据和合成语音样本数据分别作为正样本集和负样本集,来训练所需人声检测模型,可以保证训练出的模型能够准确区分当前获取的包含相同语音文本信息的至少两条语音数据是否为真实人声数据,进而能够保证语音识别中的安全性。
可选的,所述将所述至少两条语音数据输入人声检测模型,以通过所述人声检测模型对比所述至少两条语音数据的语音参数特征,包括:
将所述至少两条语音数据输入人声检测模型,通过所述人声检测模型分析所述至少两条语音数据的语音参数特征,得到检测结果。
在将所获取的至少两条语音数据输入人声检测模型后,可以通过所述人声检测模型来分析所述至少两条语音数据的语音参数特征,从而通过分析其语音参数特征是否符合人声数据的语音参数特征,来得到相应的检测结果。
例如,在对人声样本数据进行分析时,总结得出真人在多次念读同一语句时,每次所呈现出的音调、音速并不一致,且变化是不确定的,而在对合成样本数据进行分析时,总结得出机器合成包含同一语句的语音时,音调或音速是一致的,或者音调、音速虽不一致,但变化却是有规则的,如在上一条语音的基础上,音速增大了固定值,或音调降低固定值等,故可以鉴于人声数据和合成语音数据在语音参数上的区别特征,对所述至少两条语音数据中每条语音数据的语音参数特征进行分析,并基于分析结果判断各条语音数据的音调特征是否符合人声数据的音调特征,和/或者判断各条语音数据的音速特征是否符合人声数据的音速特征,若符合,则可输出检测结果为是人声数据,否则输出检测结果为不是人声数据。
这样,通过从人声数据与合成语音数据在语音参数特征上的不同的角度出发,来分析所述至少两条语音数据,可以准确地得到所述至少两条语音数据是否为人声数据的检测结果。
可选的,所述将所述至少两条语音数据输入人声检测模型,以通过所述人声检测模型对比所述至少两条语音数据的语音参数特征,包括:
通过所述人声检测模型分析所述至少两条语音数据的语音参数的变化特征;
若所述至少两条语音数据的语音参数的变化特征为不呈现规则性递增或递减,则输出所述至少两条语音数据为人声数据的检测结果;
若所述至少两条语音数据的语音参数的变化特征为呈现规则性递增或递减,则输出所述至少两条语音数据为合成语音数据的检测结果。
考虑到真人在重复念读一句话时,每次所发出的语音参数是会呈不规则变化的,例如,用户两次念读同一语句,前后两次发出的语音在音调或音速上会存在变化,如音调可能忽高忽低,音速时快时慢等,而若是机器合成的语音,则由于每条语音都是通过参数设定实现的,故机器重复发出的语音参数可以保持不变,或者呈阶梯递增或递减,如音调增高5%,音速增加10%等,而不是忽高忽低或时快时慢。故该实施方式中,可以通过所述人声检测模型分析所述至少两条语音数据的语音参数的变化特征,并依据该变化特征来判断所述至少两条语音数据是否为人声数据。
具体地,可以先分别提取每条语音数据的语音参数,如从每条语音数据对应的声谱图中提取音速、音调等参数,然后对比每条语音数据的语音参数,得到语音参数的变化特征,如变化曲线或表格,最后通过分析每两条语音数据的语音参数的差值,可以确定所述至少两条语音数据的语音参数是否是呈现规则性递增或递减,若分析出所述至少两条语音数据的语音参数呈现规则性递增或递减,则可将所述至少两条语音数据分类为非人声数据,并输出所述至少两条语音数据为合成语音数据的检测结果,反之,若分析出所述至少两条语音数据的语音参数不是呈现规则性递增或递减,而是不规则的变化,则可将所述至少两条语音数据分类为人声数据,并输出所述至少两条语音数据为人声数据的检测结果。
这样,通过分析所述至少两条语音数据的语音参数的变化特征,并依据其变化特征是否呈现规则性递增或递减来确定人声检测结果,可以保证所述人声检测模型能够较为准确地识别人声数据和合成语音数据,进而提升语音识别的安全性。
可选的,所述步骤101包括:
输出随机语句;
接收用户基于所述随机语句输入的至少两条语音数据;
且所述方法还包括:
在确定所述至少两条语音数据为人声数据的情况下,识别所述至少两条语音数据中的语音文本信息是否与所述随机语句匹配;
若所述至少两条语音数据中的语音文本信息与所述随机语句匹配,则确定语音验证通过。
由于本发明实施例中的语音检测方案可以准确地区分人声数据与合成语音数据,故可以将该方案应用于语音验证的场景中,具体地,在需要用户进行语音验证时,可以先输出一随机语句,所述随机语句可用于确认用户输入语音的时效性,即确定用户是否是现场发声而非录音,也就是说,由于待验证语音是随机的,故用户无法预先获知待验证语音的具体内容,也因此不能提前录制,只能现场输入与所述随机语句一致的语音数据。且所述输出随机语句可以是显示一条随机语句,如显示“今天天气不错”,以便用户读出该语句进行验证,或者,也可以是播放一随机语句,如播放“今天天气不错”的音频,以便用户重复念读该语句来进行验证。
这样,在输出随机语句后,用户可按照所述随机语句来输入对应的语音数据以进行语音验证,且需至少输入两次,即为保证验证通过,用户需至少连续念读两次所述随机语句,系统则可对接收到的用户输入的至少两条语音数据进行人声检测,且若检测结果指示所述至少两条语音数据为人声数据,则可进一步对所述至少两条语音数据中的语音文本信息进行验证,具体地,可以解析出所述至少两条语音数据中的语音文本信息,然后将解析出的语音文本信息与所述随机语句进行匹配,若识别该语音文本信息与所述随机语句匹配,则可确定语音验证通过,反之,若识别该语音文本信息与所述随机语句不匹配,则可确定语音验证失败。其中,需说明的是,为节省系统资源,可在检测结果指示所述至少两条语音数据不为人声数据的情况下,无需进行后续语音验证,而是直接输出验证失败的提示消息。
例如,输出的随机语句为“今天天气不错”,用户在获知该随机语句后,按要求连续两次发出“今天天气不错”的语音数据,系统在检测到确为人声数据后,可进一步将用户发出的语音数据中的语音文本信息“今天天气不错”与随机语句“今天天气不错”进行匹配,最终匹配结果显示一致,确认验证通过,若用户在按照随机语句输入的语音数据有误时,将匹配失败,并会输出验证失败的提示消息。
下面请参见图3,以输入两条语音数据为例对本发明实施例提供的语音检测方法的流程进行说明:
如图3所示,可对获取到的两条语音数据输入人声检测模型中进行人声检测,以及对所述两条语音数据进行语音识别,以对所述两条语音数据进行综合分析,最终依据人声检测和语音识别结果,得到活体检测结果,即得到所述两条语音数据是否为活体发出的现场语音。
本实施例中的语音检测方法,通过获取包括部分或全部语音文本信息相同的至少两条语音数据,并对比所述至少两条语音数据的语音参数特征,可以确定该语音数据是人声数据还是合成的非人声数据,进而可在语音识别中抵御合成语音攻击,提升安全性。
参见图4,图4是本发明实施例提供的一种语音检测装置的结构示意图,如图4所示,语音检测装置400包括:
获取模块401,用于获取至少两条语音数据,其中,所述至少两条语音数据的部分或全部语音文本信息相同;
对比模块402,用于对所述至少两条语音数据的语音参数特征进行对比,得到对比结果;
第一确定模块403,用于基于所述对比结果,确定所述至少两条语音数据是否为人声数据。
可选的,所述至少两条语音数据的全部语音文本信息相同;
对比模块402用于将所述至少两条语音数据输入人声检测模型,以通过所述人声检测模型对比所述至少两条语音数据的语音参数特征,其中,所述人声检测模型是根据人声样本数据和合成语音样本数据训练生成的;
第一确定模块403用于基于所述人声检测模型输出的检测结果,确定所述至少两条语音数据是否为人声数据。
可选的,所述人声检测模型的训练过程包括:
采集多组人声语音样本数据,其中,每组人声语音样本数据包括至少两条人声语音数据,且每组人声语音样本数据包括的语音数据中的语音文本信息相同;
获取多组合成语音样本数据,其中,每组合成语音样本数据包括至少两条合成语音数据,且每条合成语音的语音参数不同,每组合成语音样本数据包括的语音数据中的语音文本信息相同;
将所述多组人声语音样本数据作为正样本集,以及将所述多组合成语音样本数据作为负样本集;
利用所述正样本集和负样本集对初始模型进行训练,得到所述人声检测模型。
可选的,如图5所示,对比模块402包括:
分析单元4021,用于通过所述人声检测模型分析所述至少两条语音数据的语音参数的变化特征;
第一输出单元4022,用于若所述至少两条语音数据的语音参数的变化特征为不呈现规则性递增或递减,则输出所述至少两条语音数据为人声数据的检测结果;
第二输出单元4023,用于若所述至少两条语音数据的语音参数的变化特征为呈现规则性递增或递减,则输出所述至少两条语音数据为合成语音数据的检测结果。
可选的,如图6所示,获取模块401包括:
第三输出单元4011,用于输出随机语句;
接收单元4012,用于接收用户基于所述随机语句输入的至少两条语音数据;
语音检测装置400还包括:
识别模块404,用于在确定所述至少两条语音数据为人声数据的情况下,识别所述至少两条语音数据中的语音文本信息是否与所述随机语句匹配;
第二确定模块405,用于若所述至少两条语音数据中的语音文本信息与所述随机语句匹配,则确定语音验证通过。
语音检测装置400能够实现图1的方法实施例中的各个过程,为避免重复,这里不再赘述。本发明实施例的语音检测装置400通过获取部分或全部语音文本信息相同的至少两条语音数据,并对比所述至少两条语音数据的语音参数特征,可以确定该语音数据是人声数据还是合成的非人声数据,进而可在语音识别中抵御合成语音攻击,提升安全性。
本发明实施例还提供一种语音检测装置,包括处理器,存储器,存储在存储器上并可在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述语音检测方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述语音检测方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
Claims (6)
1.一种语音检测方法,其特征在于,包括:
获取至少两条语音数据,其中,所述至少两条语音数据的全部语音文本信息相同;
对所述至少两条语音数据的语音参数特征进行对比,得到对比结果;
基于所述对比结果,确定所述至少两条语音数据是否为人声数据;
所述对所述至少两条语音数据的语音参数特征进行对比,得到对比结果,包括:
将所述至少两条语音数据输入人声检测模型,以通过所述人声检测模型对比所述至少两条语音数据的语音参数特征;
所述基于所述对比结果,确定所述至少两条语音数据是否为人声数据,包括:
基于所述人声检测模型输出的检测结果,确定所述至少两条语音数据是否为人声数据;
所述人声检测模型的训练过程包括:
采集多组人声语音样本数据,其中,每组人声语音样本数据包括至少两条人声语音数据,且每组人声语音样本数据包括的语音数据中的语音文本信息相同;
获取多组合成语音样本数据,其中,每组合成语音样本数据包括至少两条合成语音数据,且每条合成语音的语音参数不同,每组合成语音样本数据包括的语音数据中的语音文本信息相同;
将所述多组人声语音样本数据作为正样本集,以及将所述多组合成语音样本数据作为负样本集;
利用所述正样本集和负样本集对初始模型进行训练,得到所述人声检测模型。
2.根据权利要求1所述的方法,其特征在于,所述将所述至少两条语音数据输入人声检测模型,以通过所述人声检测模型对比所述至少两条语音数据的语音参数特征,包括:
通过所述人声检测模型分析所述至少两条语音数据的语音参数的变化特征;
若所述至少两条语音数据的语音参数的变化特征为不呈现规则性递增或递减,则输出所述至少两条语音数据为人声数据的检测结果;
若所述至少两条语音数据的语音参数的变化特征为呈现规则性递增或递减,则输出所述至少两条语音数据为合成语音数据的检测结果。
3.根据权利要求1所述的方法,其特征在于,所述获取至少两条语音数据,包括:
输出随机语句;
接收用户基于所述随机语句输入的至少两条语音数据;
所述方法还包括:
在确定所述至少两条语音数据为人声数据的情况下,识别所述至少两条语音数据中的语音文本信息是否与所述随机语句匹配;
若所述至少两条语音数据中的语音文本信息与所述随机语句匹配,则确定语音验证通过。
4.一种语音检测装置,其特征在于,包括:
获取模块,用于获取至少两条语音数据,其中,所述至少两条语音数据的全部语音文本信息相同;
对比模块,用于对所述至少两条语音数据的语音参数特征进行对比,得到对比结果;
第一确定模块,用于基于所述对比结果,确定所述至少两条语音数据是否为人声数据;
所述对比模块用于将所述至少两条语音数据输入人声检测模型,以通过所述人声检测模型对比所述至少两条语音数据的语音参数特征;
所述第一确定模块用于基于所述人声检测模型输出的检测结果,确定所述至少两条语音数据是否为人声数据;
所述人声检测模型的训练过程包括:
采集多组人声语音样本数据,其中,每组人声语音样本数据包括至少两条人声语音数据,且每组人声语音样本数据包括的语音数据中的语音文本信息相同;
获取多组合成语音样本数据,其中,每组合成语音样本数据包括至少两条合成语音数据,且每条合成语音的语音参数不同,每组合成语音样本数据包括的语音数据中的语音文本信息相同;
将所述多组人声语音样本数据作为正样本集,以及将所述多组合成语音样本数据作为负样本集;
利用所述正样本集和负样本集对初始模型进行训练,得到所述人声检测模型。
5.根据权利要求4所述的语音检测装置,其特征在于,所述对比模块包括:
分析单元,用于通过所述人声检测模型分析所述至少两条语音数据的语音参数的变化特征;
第一输出单元,用于若所述至少两条语音数据的语音参数的变化特征为不呈现规则性递增或递减,则输出所述至少两条语音数据为人声数据的检测结果;
第二输出单元,用于若所述至少两条语音数据的语音参数的变化特征为呈现规则性递增或递减,则输出所述至少两条语音数据为合成语音数据的检测结果。
6.一种语音检测装置,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至3中任一项所述的语音检测方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911281198.4A CN110931020B (zh) | 2019-12-11 | 2019-12-11 | 一种语音检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911281198.4A CN110931020B (zh) | 2019-12-11 | 2019-12-11 | 一种语音检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110931020A CN110931020A (zh) | 2020-03-27 |
CN110931020B true CN110931020B (zh) | 2022-05-24 |
Family
ID=69859796
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911281198.4A Active CN110931020B (zh) | 2019-12-11 | 2019-12-11 | 一种语音检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110931020B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116343726B (zh) * | 2023-05-29 | 2023-08-08 | 成都小唱科技有限公司 | 一种点唱机音频切换方法、装置、计算机设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107742516A (zh) * | 2017-09-29 | 2018-02-27 | 上海与德通讯技术有限公司 | 智能识别方法、机器人及计算机可读存储介质 |
CN109218269A (zh) * | 2017-07-05 | 2019-01-15 | 阿里巴巴集团控股有限公司 | 身份认证的方法、装置、设备及数据处理方法 |
CN109599117A (zh) * | 2018-11-14 | 2019-04-09 | 厦门快商通信息技术有限公司 | 一种音频数据识别方法及人声语音防重放识别系统 |
CN109801638A (zh) * | 2019-01-24 | 2019-05-24 | 平安科技(深圳)有限公司 | 语音验证方法、装置、计算机设备及存储介质 |
CN110428845A (zh) * | 2019-07-24 | 2019-11-08 | 厦门快商通科技股份有限公司 | 合成音频检测方法、系统、移动终端及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10628484B2 (en) * | 2017-05-17 | 2020-04-21 | Board Of Trustees Of The University Of Illinois | Vibrational devices as sound sensors |
-
2019
- 2019-12-11 CN CN201911281198.4A patent/CN110931020B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109218269A (zh) * | 2017-07-05 | 2019-01-15 | 阿里巴巴集团控股有限公司 | 身份认证的方法、装置、设备及数据处理方法 |
CN107742516A (zh) * | 2017-09-29 | 2018-02-27 | 上海与德通讯技术有限公司 | 智能识别方法、机器人及计算机可读存储介质 |
CN109599117A (zh) * | 2018-11-14 | 2019-04-09 | 厦门快商通信息技术有限公司 | 一种音频数据识别方法及人声语音防重放识别系统 |
CN109801638A (zh) * | 2019-01-24 | 2019-05-24 | 平安科技(深圳)有限公司 | 语音验证方法、装置、计算机设备及存储介质 |
CN110428845A (zh) * | 2019-07-24 | 2019-11-08 | 厦门快商通科技股份有限公司 | 合成音频检测方法、系统、移动终端及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110931020A (zh) | 2020-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9792912B2 (en) | Method for verifying the identity of a speaker, system therefore and computer readable medium | |
Vestman et al. | Voice mimicry attacks assisted by automatic speaker verification | |
CN105933272A (zh) | 能够防止录音攻击的声纹认证方法、服务器、终端及系统 | |
CN1808567A (zh) | 验证真人在场状态的声纹认证设备和其认证方法 | |
Singh | Forensic and Automatic Speaker Recognition System. | |
CN108899033B (zh) | 一种确定说话人特征的方法及装置 | |
Paul et al. | Countermeasure to handle replay attacks in practical speaker verification systems | |
CN110797032B (zh) | 一种声纹数据库建立方法及声纹识别方法 | |
Chen et al. | Towards understanding and mitigating audio adversarial examples for speaker recognition | |
CN104462912B (zh) | 改进的生物密码安全 | |
CN111081223B (zh) | 一种语音识别方法、装置、设备和存储介质 | |
CN112382300A (zh) | 声纹鉴定方法、模型训练方法、装置、设备及存储介质 | |
CN110111798A (zh) | 一种识别说话人的方法及终端 | |
CN111161746B (zh) | 声纹注册方法及系统 | |
CN112309406A (zh) | 声纹注册方法、装置和计算机可读存储介质 | |
CN115394318A (zh) | 一种音频检测方法和装置 | |
CN110931020B (zh) | 一种语音检测方法及装置 | |
JPWO2020003413A1 (ja) | 情報処理装置、制御方法、及びプログラム | |
Shirali-Shahreza et al. | Verifying human users in speech-based interactions | |
KR20110079161A (ko) | 이동 단말기에서 화자 인증 방법 및 장치 | |
CN111261172B (zh) | 一种声纹识别方法和装置 | |
CN113658599A (zh) | 基于语音识别的会议记录生成方法、装置、设备及介质 | |
Malik et al. | Speaker Recognition for Device Controlling using MFCC and GMM Algorithm | |
Prapcoyo et al. | Implementation of Mel Frequency Cepstral Coefficient and Dynamic Time Warping For Bird Sound Classification | |
Sinha et al. | Why Eli Roth should not use TTS-systems for anonymization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |