CN112712809B - 一种语音检测方法、装置、电子设备及存储介质 - Google Patents
一种语音检测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112712809B CN112712809B CN202110329899.1A CN202110329899A CN112712809B CN 112712809 B CN112712809 B CN 112712809B CN 202110329899 A CN202110329899 A CN 202110329899A CN 112712809 B CN112712809 B CN 112712809B
- Authority
- CN
- China
- Prior art keywords
- voice
- model
- source
- category
- matching degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 89
- 238000012549 training Methods 0.000 claims description 111
- 238000013528 artificial neural network Methods 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 18
- 238000000034 method Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 12
- 238000006243 chemical reaction Methods 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005242 forging Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种语音检测方法、装置、电子设备及存储介质。从待检测语音中提取出多个语音特征信息;将语音特征信息分别输入至预先训练好的多个语音来源模型中,确定待检测语音与每个语音来源模型的来源类型之间的第一匹配度;针对于每个语音类别模型,基于确定出的第一匹配度,确定待检测语音与该语音类别模型对应的类别类型之间的第二匹配度;基于确定出的多个第一匹配度和多个第二匹配度,确定待检测语音的类别类型和来源类型。这样,本申请通过采用语音类别模型以及语音类别模型下的语音来源模型进行语音检测,完成了语音真伪和语音来源的检测,解决了现有语音检测技术检测结果偏移的问题,有助于提升语音检测方法的准确性。
Description
技术领域
本申请涉及语音检测技术领域,尤其是涉及一种语音检测方法、装置、电子设备及存储介质。
背景技术
语音欺骗攻击,是指针对特定目标声音进行伪造,从而对于说话人识别系统进行攻击的技术。近年来针对说话人识别系统的攻击主要分为四类,即人声模仿、录音重放、语音合成以及语音转换,从而使得用户的个人身份认证以及个人信息安全受到极大威胁。因此,如何对接收到的语音进行精准识别与检测,得到了广泛关注。
通常情况下,现有的语音检测手段中由于语音的采集方式或音质清晰程度等问题,导致检测结果发生偏移,存在误将真人语音识别为假体语音的情况,比如因为音质清晰度的原因,将清晰度不高的真人语音识别为假体语音,或者由于采集方式的原因,将采集来源为桌面麦克风语音识别为麦克风阵列语音。因此,如何准确地识别出待检查语音的来源类型及类别类型,成为了亟待解决的问题。
发明内容
有鉴于此,本申请的目的在于提供一种语音检测方法、装置、电子设备及存储介质,通过采用语音类别模型以及语音类别模型下的语音来源模型进行语音检测,完成了语音真伪和语音来源的检测,解决了现有语音检测技术检测结果偏移的问题,有助于提升语音检测方法的准确性。
本申请实施例提供了一种语音检测方法,所述语音检测方法包括:
从待检测语音中提取出多个语音特征信息;
将所述多个语音特征信息分别输入至预先训练好的多个语音类别模型下的多个语音来源模型中,确定所述待检测语音与每个语音来源模型对应的来源类型之间的第一匹配度;
针对于每个语音类别模型,基于该语音类别模型下每个语音来源模型确定出的第一匹配度,确定所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度;
基于确定出的多个第一匹配度和多个第二匹配度,确定所述待检测语音的类别类型和来源类型。
进一步的,所述针对于每个语音类别模型,基于该语音类别模型下每个语音来源模型确定出的第一匹配度,确定所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度,包括:
针对于每个语音类别模型,计算该语音类别模型下全部语音来源模型确定出的多个第一匹配度之间的加权平均值;
将所述加权平均值确定为所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度。
进一步的,所述基于确定出的多个第一匹配度和多个第二匹配度,确定所述待检测语音的类别类型和来源类型,包括:
将所述第二匹配度最高的语音类别模型对应的类别类型,确定为所述待检测语音的类别类型;
基于所述第二匹配度最高的语音类别模型下的各个语音来源模型确定出的第一匹配度,确定所述待检测语音的来源类型。
进一步的,所述基于所述第二匹配度最高的语音类别模型下的各个语音来源模型确定出的第一匹配度,确定所述待检测语音的来源类型,包括:
将所述第二匹配度最高的语音类别模型下,第一匹配度最高的语音来源模型对应的来源类型,确定为所述待检测语音的来源类型。
进一步的,通过以下步骤训练每个语音类别模型下的每个语音来源模型:
获取多个样本语音数据,以及每个样本语音数据的类别标签和来源标签;
对所述多个样本语音数据进行初始分类处理,确定出用于训练每个待训练语音类别模型的训练样本集;
针对于每个待训练的语音类别模型,对用于训练该待训练的语音类别模型的训练样本集进行二次分类处理,确定出用于训练该待训练的语音类别模型下的每个语音来源神经网络的训练样本子集;
针对于每个语音来源神经网络,将用于训练该语音来源神经网络的训练样本子集中的多个样本语音数据作为输入特征,将训练样本子集中的每个样本语音数据的类别标签和来源标签作为输出特征,训练该语音来源神经网络,得到训练好的语音来源模型;
基于该待训练的语音类别模型下每个训练好的语音来源模型,得到训练好的语音类别模型。
进一步的,所述待检测语音的类别类型和所述待检测语音的来源类型包括:
所述待检测语音的类别类型包括真人语音、物理攻击假体语音以及逻辑攻击假体语音中的任意一种;
所述待检测语音的来源类型包括网络语音、电话语音、桌面麦克风语音、麦克风阵列语音、合成语音以及转换语音中的任意一种。
本申请实施例还提供了一种语音检测装置,所述语音检测装置包括:
特征提取模块,用于从待检测语音中提取出多个语音特征信息;
第一匹配度确定模块,用于将所述多个语音特征信息分别输入至预先训练好的多个语音类别模型下的多个语音来源模型中,确定所述待检测语音与每个语音来源模型对应的来源类型之间的第一匹配度;
第二匹配度确定模块,用于针对于每个语音类别模型,基于该语音类别模型下每个语音来源模型确定出的第一匹配度,确定所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度;
类型确定模块,用于基于确定出的多个第一匹配度和多个第二匹配度,确定所述待检测语音的类别类型和来源类型。
进一步的,所述第二匹配度确定模块在用于针对于每个语音类别模型,基于该语音类别模型下每个语音来源模型确定出的第一匹配度,确定所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度,所述第二匹配度确定模块用于:
针对于每个语音类别模型,计算该语音类别模型下全部语音来源模型确定出的多个第一匹配度之间的加权平均值;
将所述加权平均值确定为所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度。
进一步的,所述类型确定模块在用于基于确定出的多个第一匹配度和多个第二匹配度,确定所述待检测语音的类别类型和来源类型,所述类型确定模块用于:
将所述第二匹配度最高的语音类别模型对应的类别类型,确定为所述待检测语音的类别类型;
基于所述第二匹配度最高的语音类别模型下的各个语音来源模型确定出的第一匹配度,确定所述待检测语音的来源类型。
进一步的,所述类型确定模块在用于基于所述第二匹配度最高的语音类别模型下的各个语音来源模型确定出的第一匹配度,确定所述待检测语音的来源类型,所述类型确定模块用于:
将所述第二匹配度最高的语音类别模型下,第一匹配度最高的语音来源模型对应的来源类型,确定为所述待检测语音的来源类型。
进一步的,所述优化装置还包括模型训练模块,所述模型训练模块用于:
获取多个样本语音数据,以及每个样本语音数据的类别标签和来源标签;
对所述多个样本语音数据进行初始分类处理,确定出用于训练每个待训练语音类别模型的训练样本集;
针对于每个待训练的语音类别模型,对用于训练该待训练的语音类别模型的训练样本集进行二次分类处理,确定出用于训练该待训练的语音类别模型下的每个语音来源神经网络的训练样本子集;
针对于每个语音来源神经网络,将用于训练该语音来源神经网络的训练样本子集中的多个样本语音数据作为输入特征,将训练样本子集中的每个样本语音数据的类别标签和来源标签作为输出特征,训练该语音来源神经网络,得到训练好的语音来源模型;
基于该待训练的语音类别模型下每个训练好的语音来源模型,得到训练好的语音类别模型。
进一步的,所述待检测语音的类别类型和所述待检测语音的来源类型包括:
所述待检测语音的类别类型包括真人语音、物理攻击假体语音以及逻辑攻击假体语音中的任意一种;
所述待检测语音的来源类型包括网络语音、电话语音、桌面麦克风语音、麦克风阵列语音、合成语音以及转换语音中的任意一种。
本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的语音检测方法的步骤。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的语音检测方法的步骤。
本申请实施例提供的一种语音检测方法、装置、电子设备及存储介质。所述语音检测方法包括:从待检测语音中提取出多个语音特征信息;将所述多个语音特征信息分别输入至预先训练好的多个语音类别模型下的多个语音来源模型中,确定所述待检测语音与每个语音来源模型对应的来源类型之间的第一匹配度;针对于每个语音类别模型,基于该语音类别模型下每个语音来源模型确定出的第一匹配度,确定所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度;基于确定出的多个第一匹配度和多个第二匹配度,确定所述待检测语音的类别类型和来源类型。
这样,本申请通过采用语音类别模型以及语音类别模型下的语音来源模型进行语音检测,完成了语音真伪和语音来源的检测,解决了现有语音检测技术检测结果偏移的问题,有助于提升语音检测方法的准确性。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例所提供的一种语音检测方法的流程图;
图2为本申请实施例所提供的另一种语音检测方法的流程图;
图3为本申请实施例所提供的一种语音检测装置的结构示意图之一;
图4为本申请实施例所提供的一种语音检测装置的结构示意图之二;
图5为本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
首先,对本申请可适用的应用场景进行介绍。本申请可应用于语音检测技术领域。从待检测语音中提取出多个语音特征信息;将所述多个语音特征信息分别输入至预先训练好的多个语音类别模型下的多个语音来源模型中,确定所述待检测语音与每个语音来源模型对应的来源类型之间的第一匹配度;针对于每个语音类别模型,基于该语音类别模型下每个语音来源模型确定出的第一匹配度,确定所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度;基于确定出的多个第一匹配度和多个第二匹配度,确定所述待检测语音的类别类型和来源类型。
经研究发现,通常情况下,现有的语音检测手段中由于语音的采集方式或清晰程度等问题,导致检测结果发生偏移,存在误将真人语音识别为假体语音的情况,比如因为音质清晰度的原因,将不清晰的真人语音识别为假体语音,或者由于采集方式的原因,将采集来源为桌面麦克风语音识别为麦克风阵列语音。因此,如何准确地识别出待检查语音的来源类型及类别类型,成为了亟待解决的问题。
基于此,本申请实施例提供了一种语音检测方法,通过采用语音类别模型以及语音类别模型下的语音来源模型进行语音检测,完成了语音真伪和语音来源的检测,解决了现有语音检测技术检测结果偏移的问题,有助于提升语音检测方法的准确性。
请参阅图1,图1为本申请实施例所提供的一种语音检测方法的流程图。如图1中所示,本申请实施例提供的语音检测方法,包括:
S101、从待检测语音中提取出多个语音特征信息。
该步骤中,获取待检测语音,利用语音特征提取技术从获取到的待检测语音中提取所需要进行检测的语音特征信息。
这里,不限定语音特征提取的具体形式,当前主流的梅尔倒谱系数特征(Mel-frequency Cepstral Coefficient,MFCC)、线性倒谱系数(Linear Frequency CepstralCoefficients,LFCC),恒定Q倒谱系数特征(Constant Q Cepstral Coefficient,CQCC)、短时傅里叶变换(Short-time Fourier Transform,STFT)声谱图等特征提取方法均可以应用。所需要进行检测的语音特征信息为对语音检测结果产生影响的语音特征信息。
S102、将所述多个语音特征信息分别输入至预先训练好的多个语音类别模型下的多个语音来源模型中,确定所述待检测语音与每个语音来源模型对应的来源类型之间的第一匹配度。
该步骤中,确定出待检测语音中影响检测结果的多个语音特征信息,将确定出的多个语音特征信息分别多次的输入到预先训练好的多个语音类别模型下的多个语音来源模型中,保证每个语音来源模型都接收到确定出的多个语音特征信息,且接收的多个语音特征信息都是相同的,每个语音来源模型对接收到的多个语音特征信息进行分析,每个语音来源模型会输出一个匹配度,基于输出的匹配度,从而确定待检测语音与每个语音来源模型对应的来源类型的第一匹配度。
其中,匹配度也可以理解为相似度,匹配度的计算方式是由语音来源模型对应的模型类型决定的。示例的,当所述语音来源模型为高斯混合模型时,计算待检测语音与该高斯混合模型的似然度,将计算出的似然度转换为第一匹配度;当所述语音来源模型为深度学习模型时,计算待检测语音经过深度学习模型前向计算的嵌入(embedding)向量的余弦距离,将计算得到的余弦距离转换为第一匹配度。
其中,所述来源类型代表语音的获取来源和/或伪造生成方式,示例的,所述来源类型包括网络语音、电话语音、桌面麦克风语音、麦克风阵列语音、合成语音以及转换语音。这里,网络语音、电话语音、桌面麦克风语音以及麦克风阵列语音属于来源类型中的获取来源方式;合成语音以及转换语音属于来源类型中的伪造生成方式。语音类别模型包括真人模型、物理攻击假体模型以及逻辑攻击假体模型;当语音类别模型为真人模型时,对应的语音来源模型包括网络模型、电话模型、桌面麦克风模型以及麦克风阵列模型,当语音类别模型为物理攻击假体模型时,对应的语音来源模型也包括网络模型、电话模型、桌面麦克风模型以及麦克风阵列模型,当语音类别模型为逻辑攻击假体模型时,对应的语音来源模型包括合成模型以及转换模型。
这里,网络语音可以包括各类APP采集语音以及即时通讯语音等;电话语音可以包括手机通话以及固定电话通话等;桌面麦克风语音可以包括摄录一体机以及头戴式或领夹式麦克风语音等;合成语音为使用语音合成技术,输入一段文本,生成特定人语音,实现从文本到语音的转换;转换语音通常是输入源目标人的语音,转化成目标说话人的语音,实现从语音到语音的转换。
S103,针对于每个语音类别模型,基于该语音类别模型下每个语音来源模型确定出的第一匹配度,确定所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度。
该步骤中,针对于每个语音类别模型,该语音类别模型下包括有多个语音来源模型,所以,语音类别模型相当于语音来源模型的上级模型,在确定出待检测语音与每个语音来源模型的第一匹配度后,便可以基于该语音类别模型下的每个语音来源模型与待检测语音之间的第一匹配度,确定该语音类别模型与待检测语音之间的第二匹配度。
其中,类别类型包括真人语音、物理攻击假体语音以及逻辑攻击假体语音。真人语音也就是真实活体人发出的语音,真人语音只经过一个采集环节,完成一次声电转换;假体语音一般包括人声模仿、合成语音、录音重放以及转换语音,物理攻击通常经过了声音采集环节,通过APP,H5页面等形式,物理攻击侧重研究录音设备的编解码、回放设备的放大功能、录音环境等因素对语音产生非线性失真的影响;逻辑攻击通常是通过调用SDK或者API接口完成攻击。逻辑攻击可以结合数据安全、软件安全等检测技术,例如数字水印技术,可信设备检测等应对方式,逻辑攻击主要研究与高频信息相关的、动态的特征更能反映假体语音与真人语音之前的差别。
这里,物理攻击假体语音包括录音重放;逻辑攻击假体语音包括合成语音和转换语音。
S104,基于确定出的多个第一匹配度和多个第二匹配度,确定所述待检测语音的类别类型和来源类型。
该步骤中,确定出多个待检测语音与语音来源模型的第一匹配度以及确定出多个待检测语音与语音类别模型的第二匹配度后,对确定出的第一匹配度和第二匹配度进行分析,先基于第二匹配度,确定出待检测语音的语音类别类型,再基于确定出的语音类别类型和第一匹配度,确定待检测语音的语音来源类型。
本申请实施例提供的一种语音检测方法,从待检测语音中提取出多个语音特征信息;将所述多个语音特征信息分别输入至预先训练好的多个语音类别模型下的多个语音来源模型中,确定所述待检测语音与每个语音来源模型对应的来源类型之间的第一匹配度;针对于每个语音类别模型,基于该语音类别模型下每个语音来源模型确定出的第一匹配度,确定所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度;基于确定出的多个第一匹配度和多个第二匹配度,确定所述待检测语音的类别类型和来源类型。
这样,本申请通过采用语音类别模型以及语音类别模型下的语音来源模型进行语音检测,完成了语音真伪和语音来源的检测,解决了现有语音检测技术检测结果偏移的问题,有助于提升语音检测方法的准确性。
请参阅图2,图2为本申请实施例所提供的另一种语音检测方法的流程图。如图2中所示,本申请实施例提供的语音检测方法,包括:
S201,从待检测语音中提取出多个语音特征信息。
S202,将所述多个语音特征信息分别输入至预先训练好的多个语音类别模型下的多个语音来源模型中,确定所述待检测语音与每个语音来源模型对应的来源类型之间的第一匹配度。
S203,针对于每个语音类别模型,计算该语音类别模型下全部语音来源模型确定出的多个第一匹配度之间的加权平均值。
该步骤中,针对于每个语音类别模型,确定出该语音类别模型所包含的全部语音来源模型以及待检测语音与每个语音来源模型的第一匹配度,根据各个语音来源模型的重要程度,为每个第一匹配度分配一个权重值。将每个语音来源模型的第一匹配度乘以对应的权重值再相加,得到第一匹配度的和值,使用确定出的第一匹配度的和值除以该语音类型模型下的语音来源模型的个数,得到该语音类型模型的加权平均值。
示例的,假设分配给每个语音来源模型的权重值为1,当语音类别模型为真人模型时,所包含的语音来源模型分别为网络模型、电话模型、桌面麦克风模型以及麦克风阵列模型,对应的第一匹配度分别为X1,X2,X3以及X4,计算得到的真人模型的加权平均值X为(X1+X2+X3+X4)/4。当语音类别模型为物理攻击假体模型时,所包含的语音来源模型分别为网络模型、电话模型、桌面麦克风模型以及麦克风阵列模型,对应的第一匹配度分别为Y1,Y2,Y3以及Y4,计算得到的物理攻击假体模型的加权平均值Y为(Y1+Y2+Y3+Y4)/4。当语音类别模型为逻辑攻击假体模型时,所包含的语音来源模型分别为合成模型以及转换模型,对应的第一匹配度分别为Z1以及Z2,计算得到的逻辑攻击假体模型的加权平均值Z为(Z1+Z2)/2。
S204,将所述加权平均值确定为所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度。
该步骤中,针对于每个语音类别模型,将计算得到的该语音类别模型的加权平均值作为待检测语音和该语音类别模型对应的类别类型之间的第二匹配度。
对应于上述实施例,当所述语音类别模型为真人模型时,所对应的类别类型为真人语音,计算得到的真人模型的加权平均值为X,所以待检测语音与真人语音的第二匹配度即为X;当所述语音类别模型为物理攻击假体模型时,所对应的类别类型为物理攻击假体语音,计算得到的物理攻击假体模型的加权平均值为Y,所以待检测语音与物理攻击假体语音的第二匹配度即为Y;当所述语音类别模型为逻辑攻击假体模型时,所对应的类别类型为逻辑攻击假体语音,计算得到的逻辑攻击假体模型的加权平均值为Z,所以待检测语音与逻辑攻击假体语音的第二匹配度即为Z。
S205,基于确定出的多个第一匹配度和多个第二匹配度,确定所述待检测语音的类别类型和来源类型。
其中,S201、S202以及S205的描述可以参数S101、S102以及S104的描述,并且能达到相同的技术效果,对此不做赘述。
进一步的,步骤S202包括:通过以下步骤训练每个语音类别模型下的每个语音来源模型:获取多个样本语音数据,以及每个样本语音数据的类别标签和来源标签;对所述多个样本语音数据进行初始分类处理,确定出用于训练每个待训练语音类别模型的训练样本集;针对于每个待训练的语音类别模型,对用于训练该待训练的语音类别模型的训练样本集进行二次分类处理,确定出用于训练该待训练的语音类别模型下的每个语音来源神经网络的训练样本子集;针对于每个语音来源神经网络,将用于训练该语音来源神经网络的训练样本子集中的多个样本语音数据作为输入特征,将训练样本子集中的每个样本语音数据的类别标签和来源标签作为输出特征,训练该语音来源神经网络,得到训练好的语音来源模型;基于该待训练的语音类别模型下每个训练好的语音来源模型,得到训练好的语音类别模型。
该步骤中,在进行语音检测前,需要构建进行语音检测所需要的模型,首先获取多个训练语音检测模型所需要的训练样本语音数据,以及每个样本语音数据的样本标签,其中样本标签包括类别标签和来源标签;根据所需要训练的语音类别模型,对获取到的多个样本语音数据按照语样本语音数据的类别标签进行初始分类处理,确定出可以用于训练待训练语音类别模型的训练样本集。
再根据每个语音类别模型下所包含的语音来源神经网络,对确定出的训练样本集进行二次分类处理,其中,针对于确定出的每个训练样本集,根据该样本集中的样本语音数据的来源标签对该样本集进行二次分类处理,确定出用于训练该待训练的语音类别模型下的每个语音来源神经网络的训练样本子集。
确定出各个训练样本子集后,通过每个训练样本子集训练相应的语音来源神经网络,得到语音来源模型,训练步骤为:针对每个训练样本子集,将该训练样本子集中的多个样本语音数据作为输入特征,将训练样本子集中的每个样本语音数据的类别标签和来源标签作为输出特征,训练预先构建好的语音来源神经网络,得到语音来源模型。
训练得到多个语音来源模型,将属于同一语音类别模型的语音来源模型进行聚类处理,从而生成多个训练好的语音类别模型。
其中,进行语音来源训练时,不限定语音特征提取的具体形式,当前主流的LFCC、CQCC、短时傅里叶变换(Short-time Fourier Transform,STFT)声谱图等语音特征提取方法均可以应用。本方案也不限定模型训练的具体方法,当前主流的高斯混合模型GMM分类器、轻量级卷积神经网络LCNN及其衍生算法等建模方法均可以应用。
示例的,在进行初始分类处理时,可以从获取到的多个样本语音数据筛选出真人语音训练样本集、物理攻击假体语音训练样本集以及逻辑攻击假体语音训练样本集;其中,真人语音训练样本集中的样本语音数据所具有的特点是,仅完成一次声电转换,而物理攻击假体语音训练样本集中的样本语音数据所具有的特点是,完成两次或两次以上声电转换和一次或一次以上电声转换,逻辑攻击假体语音训练样本集中的样本语音数据是通过高频信息相关的、动态的特征来反映假体语音与真人语音之间的差别。确定完真人语音训练样本集、物理攻击假体语音训练样本集以及逻辑攻击假体语音训练样本集后,对确定出的真人语音训练样本集、物理攻击假体语音训练样本集以及逻辑攻击假体语音训练样本集进行二次分类处理。
根据采集来源中对检测影响最大的因素,对真人语音训练样本集进行筛选,确定出网络语音训练样本子集、电话语音训练样本子集、桌面麦克风语音训练样本子集以及麦克风语音阵列训练样本子集。对应与真人语音训练样本集的分类方式,从物理攻击假体语音训练样本集也筛选出网络语音训练样本子集、电话语音训练样本子集、桌面麦克风语音训练样本子集。对逻辑攻击假体语音训练样本集按照主要的语音合成和声音转换等算法工具进行数据生成归类,得到合成语音训练样本子集和转换语音训练样本子集。
进一步的,步骤S205包括:将所述第二匹配度最高的语音类别模型对应的类别类型,确定为所述待检测语音的类别类型;基于所述第二匹配度最高的语音类别模型下的各个语音来源模型确定出的第一匹配度,确定所述待检测语音的来源类型。
该步骤中,确定出所述待检测语音与各个语音类别模型对应的类别类型之间的第二匹配度后,将得到的多个第二匹配度进行比较,根据第二匹配度从多个语音类别模型中确定出第二匹配度最高的语音类别模型,将第二匹配度最高的语音类别模型对应的类别类型,确定为待检测语音的类别类型。
再对第二匹配度最高的语音类别模型下的所有语音来源模型的第一匹配度进行分析,确定所述待检测语音的来源类型。
进一步的,所述基于所述第二匹配度最高的语音类别模型下的各个语音来源模型确定出的第一匹配度,确定所述待检测语音的来源类型,包括:将所述第二匹配度最高的语音类别模型下,第一匹配度最高的语音来源模型对应的来源类型,确定为所述待检测语音的来源类型。
该步骤中,确定出第二匹配度最高的语音类别模型后,确定该语音类别模型所包含的所有语音来源模型以及每个语音来源模型的第一匹配度,将得到的多个第一匹配度进行比较,根据第一匹配度从多个语音来源模型中确定出第一匹配度最高的语音来源模型,将第一匹配度最高的语音来源模型对应的来源类型,确定为待检测语音的来源类型。
对应于上述实施例,确定出待检测语音与真人语音的第二匹配度为X,待检测语音与物理攻击假体语音的第二匹配度为Y,待检测语音与逻辑攻击假体语音的第二匹配度为Z,比较X,Y,Z三个值确定出最大值,假设Y为最大值,则确定待检测语音的类别类型为物理攻击假体语音,也可以直接将待检测语音确定为假体语音。
确定出的第二匹配度最高的语音类别模型为物理攻击假体语音模型,在物理攻击假体语音模型下包括网络模型、电话模型、桌面麦克风模型以及麦克风阵列模型,对应的第一匹配度分别为Y1,Y2,Y3以及Y4,比较Y1,Y2,Y3以及Y4四个值确定出最大值,假设Y1为最大值,则确定该物理攻击假体语音的来源类型为网络语音,最后确定出待检测语音为网络假体语音。
本申请实施例提供的一种语音检测方法,从待检测语音中提取出多个语音特征信息;将所述多个语音特征信息分别输入至预先训练好的多个语音类别模型下的多个语音来源模型中,确定所述待检测语音与每个语音来源模型对应的来源类型之间的第一匹配度;针对于每个语音类别模型,计算该语音类别模型下全部语音来源模型确定出的多个第一匹配度之间的加权平均值;将所述加权平均值确定为所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度;基于确定出的多个第一匹配度和多个第二匹配度,确定所述待检测语音的类别类型和来源类型。
这样,本申请通过对语音检测模型细化,使得语音检测模型更具有针对性,通过检测分数平均值,使得融合判决得到的相似度分数更加合理,通过模型的层级划分,提升了语音检测模型的可用度,故本申请通过类别细分、配对竞争、融合判决、语音来源或伪造生成的辅助信息判别技术,完成了语音真伪性的判别以及来源检测,从而解决了现有语音检测技术检测结果偏移的问题,有助于进而提升语音检测方法的准确度。
请参阅图3、图4,图3为本申请实施例所提供的一种语音检测装置的结构示意图之一,图4为本申请实施例所提供的一种语音检测装置的结构示意图之二。如图3中所示,所述语音检测装置300包括:
特征提取模块310,用于从待检测语音中提取出多个语音特征信息;
第一匹配度确定模块320,用于将所述多个语音特征信息分别输入至预先训练好的多个语音类别模型下的多个语音来源模型中,确定所述待检测语音与每个语音来源模型对应的来源类型之间的第一匹配度;
第二匹配度确定模块330,用于针对于每个语音类别模型,基于该语音类别模型下每个语音来源模型确定出的第一匹配度,确定所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度;
类型确定模块340,用于基于确定出的多个第一匹配度和多个第二匹配度,确定所述待检测语音的类别类型和来源类型。
进一步的,所述第二匹配度确定模块330在用于针对于每个语音类别模型,基于该语音类别模型下每个语音来源模型确定出的第一匹配度,确定所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度,所述第二匹配度确定模块330用于:
针对于每个语音类别模型,计算该语音类别模型下全部语音来源模型确定出的多个第一匹配度之间的加权平均值;
将所述加权平均值确定为所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度。
进一步的,所述类型确定模块340在用于基于确定出的多个第一匹配度和多个第二匹配度,确定所述待检测语音的类别类型和来源类型,所述类型确定模块340用于:
将所述第二匹配度最高的语音类别模型对应的类别类型,确定为所述待检测语音的类别类型;
基于所述第二匹配度最高的语音类别模型下的各个语音来源模型确定出的第一匹配度,确定所述待检测语音的来源类型。
进一步的,所述类型确定模块340在用于基于所述第二匹配度最高的语音类别模型下的各个语音来源模型确定出的第一匹配度,确定所述待检测语音的来源类型,所述类型确定模块340用于:
将所述第二匹配度最高的语音类别模型下,第一匹配度最高的语音来源模型对应的来源类型,确定为所述待检测语音的来源类型。
进一步的,如图4所示,所述语音检测装置300还包括模型训练模块350,所述模型训练模块350用于:
获取多个样本语音数据,以及每个样本语音数据的类别标签和来源标签;
对所述多个样本语音数据进行初始分类处理,确定出用于训练每个待训练语音类别模型的训练样本集;
针对于每个待训练的语音类别模型,对用于训练该待训练的语音类别模型的训练样本集进行二次分类处理,确定出用于训练该待训练的语音类别模型下的每个语音来源神经网络的训练样本子集;
针对于每个语音来源神经网络,将用于训练该语音来源神经网络的训练样本子集中的多个样本语音数据作为输入特征,将训练样本子集中的每个样本语音数据的类别标签和来源标签作为输出特征,训练该语音来源神经网络,得到训练好的语音来源模型;
基于该待训练的语音类别模型下每个训练好的语音来源模型,得到训练好的语音类别模型。
进一步的,所述待检测语音的类别类型和所述待检测语音的来源类型包括:
所述待检测语音的类别类型包括真人语音、物理攻击假体语音以及逻辑攻击假体语音中的任意一种;
所述待检测语音的来源类型包括网络语音、电话语音、桌面麦克风语音、麦克风阵列语音、合成语音以及转换语音中的任意一种。
本申请实施例提供的一种语音检测装置。所述检测装置包括:特征提取模块,用于从待检测语音中提取出多个语音特征信息;第一匹配度确定模块,用于将所述多个语音特征信息分别输入至预先训练好的多个语音类别模型下的多个语音来源模型中,确定所述待检测语音与每个语音来源模型对应的来源类型之间的第一匹配度;第二匹配度确定模块,用于针对于每个语音类别模型,基于该语音类别模型下每个语音来源模型确定出的第一匹配度,确定所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度;类型确定模块,用于基于确定出的多个第一匹配度和多个第二匹配度,确定所述待检测语音的类别类型和来源类型。
这样,本申请通过采用语音类别模型以及语音类别模型下的语音来源模型进行语音检测,完成了语音真伪和语音来源的检测,解决了现有语音检测技术检测结果偏移的问题,有助于提升语音检测方法的准确性。
请参阅图5,图5为本申请实施例所提供的一种电子设备的结构示意图。如图5中所示,所述电子设备500包括处理器510、存储器520和总线530。
所述存储器520存储有所述处理器510可执行的机器可读指令,当电子设备500运行时,所述处理器510与所述存储器520之间通过总线530通信,所述机器可读指令被所述处理器510执行时,可以执行如上述图1以及图2所示方法实施例中的语音检测方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1以及图2所示方法实施例中的语音检测方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (7)
1.一种语音检测方法,其特征在于,所述检测方法包括:
从待检测语音中提取出多个语音特征信息;
将所述多个语音特征信息分别输入至预先训练好的多个语音类别模型下的多个语音来源模型中,确定所述待检测语音与每个语音来源模型对应的来源类型之间的第一匹配度;
针对于每个语音类别模型,基于该语音类别模型下每个语音来源模型确定出的第一匹配度,确定所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度;
基于所述多个语音来源模型确定出的多个第一匹配度和基于所述多个语音类别模型确定出的多个第二匹配度,确定所述待检测语音的类别类型和来源类型;
通过以下步骤确定多个语音类别模型以及多个语音类别模型下的多个语音来源模型:
获取多个样本语音数据,以及每个样本语音数据的类别标签和来源标签;
对所述多个样本语音数据进行初始分类处理,确定出用于训练每个待训练语音类别模型的训练样本集;
针对于每个待训练的语音类别模型,对用于训练该待训练的语音类别模型的训练样本集进行二次分类处理,确定出用于训练该待训练的语音类别模型下的每个语音来源神经网络的训练样本子集;
针对于每个语音来源神经网络,将用于训练该语音来源神经网络的训练样本子集中的多个样本语音数据作为输入特征,将训练样本子集中的每个样本语音数据的类别标签和来源标签作为输出特征,训练该语音来源神经网络,得到训练好的该语音来源模型,并确定出多个语音来源模型;
基于确定出的多个语音来源模型,将属于同一语音类别模型的语音来源模型进行聚类处理,得到多个语音类别模型;
所述针对于每个语音类别模型,基于该语音类别模型下每个语音来源模型确定出的第一匹配度,确定所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度,包括:
针对于每个语音类别模型,计算该语音类别模型下全部语音来源模型确定出的多个第一匹配度之间的加权平均值;
将所述加权平均值确定为所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度。
2.根据权利要求1所述的语音检测方法,其特征在于,所述基于确定出的多个第一匹配度和多个第二匹配度,确定所述待检测语音的类别类型和来源类型,包括:
将所述第二匹配度最高的语音类别模型对应的类别类型,确定为所述待检测语音的类别类型;
基于所述第二匹配度最高的语音类别模型下的各个语音来源模型确定出的第一匹配度,确定所述待检测语音的来源类型。
3.根据权利要求2所述的语音检测方法,其特征在于,所述基于所述第二匹配度最高的语音类别模型下的各个语音来源模型确定出的第一匹配度,确定所述待检测语音的来源类型,包括:
将所述第二匹配度最高的语音类别模型下,第一匹配度最高的语音来源模型对应的来源类型,确定为所述待检测语音的来源类型。
4.根据权利要求1所述的语音检测方法,其特征在于,所述待检测语音的类别类型和所述待检测语音的来源类型包括:
所述待检测语音的类别类型包括真人语音、物理攻击假体语音以及逻辑攻击假体语音中的任意一种;
所述待检测语音的来源类型包括网络语音、电话语音、桌面麦克风语音、麦克风阵列语音、合成语音以及转换语音中的任意一种。
5.一种语音检测装置,其特征在于,所述语音检测装置包括:
特征提取模块,用于从待检测语音中提取出多个语音特征信息;
第一匹配度确定模块,用于将所述多个语音特征信息分别输入至预先训练好的多个语音类别模型下的多个语音来源模型中,确定所述待检测语音与每个语音来源模型对应的来源类型之间的第一匹配度;
第二匹配度确定模块,用于针对于每个语音类别模型,基于该语音类别模型下每个语音来源模型确定出的第一匹配度,确定所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度;
类型确定模块,用于基于所述多个语音来源模型确定出的多个第一匹配度和基于所述多个语音类别模型确定出的多个第二匹配度,确定所述待检测语音的类别类型和来源类型;
所述语音检测装置还包括模型训练模块,所述模型训练模块用于:
获取多个样本语音数据,以及每个样本语音数据的类别标签和来源标签;
对所述多个样本语音数据进行初始分类处理,确定出用于训练每个待训练语音类别模型的训练样本集;
针对于每个待训练的语音类别模型,对用于训练该待训练的语音类别模型的训练样本集进行二次分类处理,确定出用于训练该待训练的语音类别模型下的每个语音来源神经网络的训练样本子集;
针对于每个语音来源神经网络,将用于训练该语音来源神经网络的训练样本子集中的多个样本语音数据作为输入特征,将训练样本子集中的每个样本语音数据的类别标签和来源标签作为输出特征,训练该语音来源神经网络,得到训练好的该语音来源模型,并确定出多个语音来源模型;
基于确定出的多个语音来源模型,将属于同一语音类别模型的语音来源模型进行聚类处理,得到多个语音类别模型;
所述第二匹配度确定模块在用于针对于每个语音类别模型,基于该语音类别模型下每个语音来源模型确定出的第一匹配度,确定所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度时,所述第二匹配度确定模块用于:
针对于每个语音类别模型,计算该语音类别模型下全部语音来源模型确定出的多个第一匹配度之间的加权平均值;
将所述加权平均值确定为所述待检测语音与该语音类别模型对应的类别类型之间的第二匹配度。
6.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至4任一所述语音检测方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至4任一所述语音检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110329899.1A CN112712809B (zh) | 2021-03-29 | 2021-03-29 | 一种语音检测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110329899.1A CN112712809B (zh) | 2021-03-29 | 2021-03-29 | 一种语音检测方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112712809A CN112712809A (zh) | 2021-04-27 |
CN112712809B true CN112712809B (zh) | 2021-06-18 |
Family
ID=75550399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110329899.1A Active CN112712809B (zh) | 2021-03-29 | 2021-03-29 | 一种语音检测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112712809B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113299315B (zh) * | 2021-07-27 | 2021-10-15 | 中国科学院自动化研究所 | 一种无需原始数据存储的持续性学习生成语音特征的方法 |
CN113314148B (zh) * | 2021-07-29 | 2021-11-09 | 中国科学院自动化研究所 | 基于原始波形的轻量级神经网络生成语音鉴别方法和系统 |
CN113362814B (zh) * | 2021-08-09 | 2021-11-09 | 中国科学院自动化研究所 | 一种融合组合模型信息的语音鉴别模型压缩方法 |
CN113488027A (zh) * | 2021-09-08 | 2021-10-08 | 中国科学院自动化研究所 | 一种层级分类的生成音频溯源方法及存储介质、计算机设备 |
CN115171699B (zh) * | 2022-05-31 | 2024-09-24 | 青岛海尔科技有限公司 | 唤醒参数的调整方法和装置、存储介质及电子装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10134401B2 (en) * | 2012-11-21 | 2018-11-20 | Verint Systems Ltd. | Diarization using linguistic labeling |
CN105957516B (zh) * | 2016-06-16 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 多语音识别模型切换方法及装置 |
CN108039176B (zh) * | 2018-01-11 | 2021-06-18 | 广州势必可赢网络科技有限公司 | 一种防录音攻击的声纹认证方法、装置及门禁系统 |
CN111613231A (zh) * | 2019-02-26 | 2020-09-01 | 广州慧睿思通信息科技有限公司 | 语音数据处理方法、装置、计算机设备和存储介质 |
CN111370025A (zh) * | 2020-02-25 | 2020-07-03 | 广州酷狗计算机科技有限公司 | 音频识别方法、装置及计算机存储介质 |
CN112562736B (zh) * | 2020-12-11 | 2024-06-21 | 中国信息通信研究院 | 一种语音数据集质量评估方法和装置 |
CN112562727B (zh) * | 2020-12-18 | 2024-04-26 | 科大讯飞股份有限公司 | 应用于音频监控的音频场景分类方法、装置以及设备 |
-
2021
- 2021-03-29 CN CN202110329899.1A patent/CN112712809B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112712809A (zh) | 2021-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112712809B (zh) | 一种语音检测方法、装置、电子设备及存储介质 | |
CN108305615B (zh) | 一种对象识别方法及其设备、存储介质、终端 | |
CN107731233B (zh) | 一种基于rnn的声纹识别方法 | |
CN103765506B (zh) | 使用听觉注意线索进行音调/语调识别的方法 | |
CN105023573B (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
CN104900235B (zh) | 基于基音周期混合特征参数的声纹识别方法 | |
CN110473566A (zh) | 音频分离方法、装置、电子设备及计算机可读存储介质 | |
CN102270451A (zh) | 说话人识别方法及系统 | |
CN105283916B (zh) | 电子水印嵌入装置、电子水印嵌入方法及计算机可读记录介质 | |
Zheng et al. | When automatic voice disguise meets automatic speaker verification | |
CN108922543A (zh) | 模型库建立方法、语音识别方法、装置、设备及介质 | |
CN111081223A (zh) | 一种语音识别方法、装置、设备和存储介质 | |
Biagetti et al. | Speaker identification in noisy conditions using short sequences of speech frames | |
Efanov et al. | The BiLSTM-based synthesized speech recognition | |
Murugaiya et al. | Probability enhanced entropy (PEE) novel feature for improved bird sound classification | |
CN116935889B (zh) | 一种音频类别的确定方法、装置、电子设备及存储介质 | |
Mahum et al. | EDL-Det: A Robust TTS Synthesis Detector Using VGG19-Based YAMNet and Ensemble Learning Block | |
CN109817223A (zh) | 基于音频指纹的音素标记方法及装置 | |
CN116705063B (zh) | 一种基于流形测度的多模型融合的语音鉴伪识别方法 | |
CN116665649A (zh) | 基于韵律特征的合成语音检测方法 | |
Sukor et al. | Speaker identification system using MFCC procedure and noise reduction method | |
Panda et al. | Study of speaker recognition systems | |
Chauhan et al. | A review of automatic speaker recognition system | |
Büker et al. | Deep convolutional neural networks for double compressed AMR audio detection | |
CN113113051A (zh) | 音频指纹提取方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |