CN109065023A - 一种语音鉴定方法、装置、设备及计算机可读存储介质 - Google Patents
一种语音鉴定方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN109065023A CN109065023A CN201810968455.0A CN201810968455A CN109065023A CN 109065023 A CN109065023 A CN 109065023A CN 201810968455 A CN201810968455 A CN 201810968455A CN 109065023 A CN109065023 A CN 109065023A
- Authority
- CN
- China
- Prior art keywords
- voice
- target
- audio
- obtains
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 239000012634 fragment Substances 0.000 claims abstract description 61
- 238000012545 processing Methods 0.000 claims abstract description 32
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 239000000284 extract Substances 0.000 claims abstract description 7
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012797 qualification Methods 0.000 abstract description 9
- 230000009286 beneficial effect Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 8
- 238000010835 comparative analysis Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 230000001755 vocal effect Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000406668 Loxodonta cyclotis Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种语音鉴定方法,包括对获取的检材语音进行分割处理,获得预定数量个音频片段;对各个所述音频片段进行特征提取,获得对应的音频特征;将各个所述音频特征进行对比,获得比对结果;提取超出预设阈值的比对结果对应的目标音频片段;将各个所述目标音频片段进行合并,获得目标语音;将所述目标语音与目标对象的样本语音进行比对,以确定所述目标语音是否属于所述目标对象;该方法能够更加方便快捷的对语音进行鉴定,并有效地保证其鉴定结果的准确率。本申请还公开了一种语音鉴定装置、设备以及计算机可读存储介质,也具有上述有益效果。
Description
技术领域
本申请涉及人声识别技术领域,特别涉及一种语音鉴定方法,还涉及一种语音鉴定装置、设备及计算机可读存储介质。
背景技术
随着计算机应用技术的普及,数字信号技术的发展,语音识别技术得到了广泛的应用,不断地进入通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。其中,基于语音识别技术的语音鉴定也成为越来越重要的一种语音服务。
语音鉴定主要是对语音材料进行识别与鉴定以确定语音来源,而语音材料作为司法领域中一种独立的证据形式,使得语音鉴定在司法领域的应用尤为广泛。目前,现有技术中主要的语音鉴定方法是由鉴定人员人工抽取样本语音与检材语音,通过音素检索,对音素进行对比分析,以确定两份语音是否同属一人的定论。然而,对于检材语音,往往是多人对话的语音,需要人工在其中提取出目标人物的语音,由于该过程为人工处理,故需花费大量的时间和精力。如果不对检材语音进行人工处理以标识出目标人物的语音,那么直接对其进行语音检索所获得的音素将会很多,需要由专业鉴定人员一个一个去听,且需要反反复复试听,同时还需对语谱图进行观察,进一步,根据试听结果对该检材语音进行人工剪切,并合成标识出目标人物的语音,最后进行保存、回放再作比对,由此,将会大大增加鉴定人员的工作难度及专业要求。此外,由于人耳的分辨具有误差,其所能接受的声音频率有所限制,且听出来的效果有一定的主观效果,会对分离出来的最终结果有所影响。
因此,如何更加方便快捷的对语音进行鉴定,并有效地保证鉴定结果的准确率是本领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种语音鉴定方法,该方法能够更加方便快捷的对语音进行鉴定,并有效地保证其鉴定结果的准确率;本申请的另一目的是提供一种语音鉴定装置、设备以及计算机可读存储介质,也具有上述有益效果。
为解决上述技术问题,本申请提供了一种语音鉴定方法,所述方法包括:
对获取的检材语音进行分割处理,获得预定数量个音频片段;
对各个所述音频片段进行特征提取,获得对应的音频特征;
将各个所述音频特征进行对比,获得比对结果;
提取超出预设阈值的比对结果对应的目标音频片段;
将各个所述目标音频片段进行合并,获得目标语音;
将所述目标语音与目标对象的样本语音进行比对,以确定所述目标语音是否属于所述目标对象。
优选的,所述对获取的检材语音进行分割处理,获得预定数量个音频片段,包括:
读取所述检材语音的文件头信息,并获取去除所述文件头信息的pcm语音文件;
根据所述文件头信息对所述pcm语音文件进行分割处理,获得所述预定数量个音频片段。
优选的,所述根据所述文件头信息对所述pcm语音文件进行分割处理,获得所述预定数量个音频片段,包括:
剔除所述pcm语音文件中的空白信息,获得无空白音频;
按照预设长度对所述无空白音频进行分割处理,获得所述音频片段。
优选的,所述按照预设长度对所述无空白音频进行分割处理,获得所述音频片段,包括:
按照预设长度对所述无空白音频进行冗余切割,获得所述音频片段。
优选的,所述音频特征包括过零率、短时能量、基频以及共振峰。
优选的,所述将所述目标语音与目标对象的样本语音进行比对,以确定所述目标语音是否属于所述目标对象,包括:
分别提取所述目标语音与所述样本语音的音素;
对所述目标语音的音素与所述样本语音的音素进行比对分析,获得分析结果;
判断所述分析结果是否超出标准阈值;若是,则确定所述目标语音属于所述目标人物。
优选的,所述语音鉴定方法还包括:
将所述文件头信息附加至所述目标语音中进行保存。
为解决上述技术问题,本申请提供了一种语音鉴定装置,所述装置包括:
语音分割模块,用于对获取的检材语音进行分割处理,获得预定数量个音频片段;
特征提取模块,用于对各个所述音频片段进行特征提取,获得对应的音频特征;
特征比对模块,用于将各个所述音频特征进行对比,获得比对结果;
音频提取模块,用于提取超出预设阈值的比对结果对应的目标音频片段;
音频合并模块,用于将各个所述目标音频片段进行合并,获得目标语音;
语音比对模块,用于将所述目标语音与目标对象的样本语音进行比对,以确定所述目标语音是否属于所述目标对象。
为解决上述技术问题,本申请提供了一种语音鉴定设备,所述设备包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述任意一种语音鉴定方法的步骤。
为解决上述技术问题,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一种语音鉴定方法的步骤。
本申请所提供的一种语音鉴定方法,包括对获取的检材语音进行分割处理,获得预定数量个音频片段;对各个所述音频片段进行特征提取,获得对应的音频特征;将各个所述音频特征进行对比,获得比对结果;提取超出预设阈值的比对结果对应的目标音频片段;将各个所述目标音频片段进行合并,获得目标语音;将所述目标语音与目标对象的样本语音进行比对,以确定所述目标语音是否属于所述目标对象。
可见,本申请所提供的语音鉴定方法,通过将检材语音分割为多个音频片段,并基于音频特征的对比分析结果,方便快速的实现目标语音在检材语音中的提取,最后,将该目标语音与目标对象的样本语音进行比对,即可确定该目标语音是否属于该目标对象,由此,即实现了语音的鉴定;基于该方法进行语音鉴定,无需鉴定人员进行人工处理,更加省时省力、方便快捷,且有效避免了人工处理为鉴定结果带来的误差,进一步保证了鉴定结果的准确率。
本申请所提供的一种语音鉴定装置、设备以及计算机可读存储介质,也具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请所提供的一种语音鉴定方法的流程示意图;
图2为本申请所提供的一种语音比对方法的流程示意图
图3为本申请所提供的一种语音鉴定装置的结构示意图;
图4为本申请所提供的另一种语音鉴定装置的结构示意图;
图5为本申请所提供的一种语音鉴定设备的结构示意图。
具体实施方式
本申请的核心是提供一种语音鉴定方法,该方法能够更加方便快捷的对语音进行鉴定,并有效地保证其鉴定结果的准确率;本申请的另一核心是提供一种语音鉴定装置、设备以及计算机可读存储介质,也具有上述有益效果。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
请参考图1,图1为本申请所提供的一种语音鉴定方法的流程示意图,该语音鉴定方法可以包括:
S101:对获取的检材语音进行分割处理,获得预定数量个音频片段;
具体的,由于检材语音一般是多人对话的声音,且语音时间长短不一,因此,在获得一份检材语音后,可先对其进行分割处理,以获得多个不同的音频片段,即上述预定数量个音频片段,通过对音频片段进行相应的分析处理,进一步实现语音的鉴定。其中,对于上述检材语音的分割方式,并不唯一,如可按照一定的时间间隔进行分割,也可按照说话的字数、频率等进行分割,本申请不做限定。此外,对于上述预定数量,本申请同样不做限定,根据用户所需获得检材语音的大小进行设定即可。
优选的,上述对获取的检材语音进行分割处理,获得预定数量个音频片段,可以包括:读取检材语音的文件头信息,并获取去除文件头信息的pcm语音文件;根据文件头信息对pcm语音文件进行分割处理,获得预定数量个音频片段。
具体的,检材语音与样本语音相同,均是通过相应的采集设备,如监听器等进行采集获得,因此,一般一份完整的检材语音是包括文件头信息的,该文件头信息中包括该检材语音的相关文件信息,如字节长度、采样率、声道等信息,因此,为保证获得的音频片段的准确性、清晰性,在对检材语音进行分割之前,可先提取出该检材语音的文件头信息,并获得去除文件头信息的pcm(Pulse Code Modulation,脉冲编码调制)语音文件,也就是只包含语音内容的语音文件,进一步,根据文件头信息对pcm语音文件进行分割处理即可。
优选的,上述根据文件头信息对pcm语音文件进行分割处理,获得预定数量个音频片段,可以包括:剔除pcm语音文件中的空白信息,获得无空白音频;按照预设长度对无空白音频进行分割处理,获得音频片段。
具体的,由于检材语音中包括多人语音对话,且人在说话时都具有一定的间接性,因此,一份完整的检材语音中是包括一定的空白信息的,即不同的人之间对话的间隙,以及同一个人所说的两句话之间的间隙等。为避免由于获得的音频片段中存在大量空白信息而对语音鉴定带来的影响,在对pcm语音文件进行分割处理时,首先将该pcm语音文件中的空白信息剔除,获得不包括空白信息的pcm语音文件,即上述无空白音频;进一步,再对无空白音频按照预设长度进行分割处理,以获得所需的音频片段。其中,此处的预设长度所对应的内容并不唯一,可以为预设时长,也可以为预设字数,还可以为其他。例如,一份检材语音在去除文件头信息以及空白信息后,其总时长为10分钟,则可以按照1分钟间隔对无空白音频进行分割,即可获得10个1分钟时长的音频片段。再如,一份检材语音在去除文件头信息以及空白信息后,其语音字数为100个,则可以每间隔10个字进行一次分割,即可获得10个包括有10个字的音频片段。当然,上述方法仅为本申请所提供的一种实施方式,并不唯一。
优选的,上述按照预设长度对无空白音频进行分割处理,获得音频片段,包括:按照预设长度对无空白音频进行冗余切割,获得音频片段。
具体的,本申请提供了一种较为具体的语音分割处理方式,为保证分割获取的音频片段的准确性,在获得无空白语音后,可按照预设长度对语音进行冗余切割。继续参照上述举例,当一份无空白语音时长为10分钟时,同样按照1分钟间隔对该无空白音频进行分割处理,在分割过程中,第一个音频片段为1分钟,那么,在分割第二个音频片段时,可从第一个音频片段的第50秒开始分割,即第一个音频片段为第1秒至第60秒,第二个音频片段为第50秒至110秒,第三个音频片段为第100秒至第160秒,以此类推,直至将整个时长为10分钟的无空白音频分割完毕,由此即实现了对无空白音频的冗余切割。而对于另一举例,可以以同样的方式进行冗余切割,以实现音频片段的获取。由此,通过冗余分割,可有效避免出现将同一个语音对象的声音切断,或将一个字切割成两个音节的情况。
S102:对各个音频片段进行特征提取,获得对应的音频特征;
S103:将各个音频特征进行对比,获得比对结果;
具体的,在对检材语音进行分割获得预定数量个音频片段后,即可对各个音频片段进行特征提取,获得其对应的音频特征,以通过各个音频特征之间的对比分析,获得相应的比对结果。其中,此处的音频特征之间的对比分析可以为各个音频特征之间的一一对比,即任意两个音频特征之间均进行对比,例如,当获得3个音频片段时,将同样获得3个音频特征,此时,将3个音频特征进行对比,则需要进行3+2+1=6次对比分析过程;当获得5个音频片段时,将同样获得5个音频特征,此时,将5个音频特征进行对比,则需要进行5+4+3+2+1=15次对比分析过程。
优选的,上述音频特征包括过零率、短时能量、基频以及共振峰。
具体的,对于上述音频特征,可以包括过零率、短时能量、基频以及共振峰等各种相关的特征信息。当然,这些音频特征仅为本申请所提供的一种优选实施方式,并不唯一,例如,还可以是声纹特征,即提取出各个音频片段的声纹,并对声纹进行对比分析,获得相应的比对结果。因此,其音频特征的具体类型,根据实际需求自行设定即可。
进一步,对于上述比对结果,则可依据音频特征中各类特征信息的性质而定,并不唯一。例如,如果采用声纹作为音频特征,那么在对各个音频片段的声纹进行对比时,其所获得的比对结果可以为相似度;如果采用过零率作为音频特征,那么在对各个音频特征的过零率进行对比时,其所获得的比对结果可以为两个音频片段过零率的差值或者比值。更进一步的,也可以根据实际情况选取上述特征信息中的一个或多个作为音频特征,并实现上述比对过程。
S104:提取超出预设阈值的比对结果对应的目标音频片段;
具体的,在完成音频特征的对比分析,获得相应的比对结果之后,即可判断各个比对结果是否超出预设阈值,将超出预设阈值的比对结果对应的音频片段,即上述目标音频片段提取出来,例如,当一个检材语音中的语音对象有三个人时,即可将基于该检材语音获得的音频片段分为三组,由此,即可将属于不同的语音对象的音频片段区分开来。
其中,对于上述预设阈值的具体取值,由用户根据实际需求自行设定即可。基于上述距离,当采用声纹作为音频特征时,由于其对应的比对结果为相似度,则预设阈值取值越高,语音鉴定的结果越准确;当采用过零率作为音频特征时,由于其对应的比对结果为差值或比值,则预设阈值取值越低,语音鉴定的结果越准确。而对于将多个特征信息作为音频特征的情况,则可根据实际所需进行设定,可当所有特征信息均满足其对应的条件时再进行目标音频片段的提取,也可当多数特征信息满足其对应的条件时再进行目标音频片段的提取,例如,如果将5个特征信息作为音频特征,可当5个特征信息全部满足对应的条件时再提取目标音频片段,也可当其中任意3个特征信息满足对应的条件时再提取目标音频片段。
当然,上述目标音频片段的各种提取方式,仅为本申请所提供的一种具体实施方式,并不唯一,用户均可根据实际所需自行设定。
S105:将各个目标音频片段进行合并,获得目标语音;
具体的,在S104的基础上,本步骤旨在将S104中获得的目标音频片段进行合并,以获得属于同一个语音对象的完整的语音,即上述目标语音。对于其合并方法,可采用现有技术中的任意一种合并方法,本申请不做具体限定。
S106:将目标语音与目标对象的样本语音进行比对,以确定目标语音是否属于目标对象。
具体的,在获得目标语音后,即可将其与目标对象的样本语音进行比对,例如,在基于一份检材语音获得三个目标语音时,则可将这三组目标语音与样本语音分别进行对比,判断这三个目标语音中是否存在属于样本语音对应的目标对象。其中,上述目标语音对象的样本语音为预先采集的,例如,在司法领域,当锁定目标嫌疑人时,可对其进行语音采集,获得样本语音,再根据司法案件中获得的语音资料,即上述检材语音,进一步完成语音的鉴定。
此外,对于上述语音比对的具体方法,本申请不做具体限定,参照已有技术中的任意一种方案即可。
进一步,请参考图2,图2为本申请所提供的一种语音比对方法的流程示意图,优选的,上述将目标语音与目标对象的样本语音进行比对,以确定目标语音是否属于目标对象,可以包括:
S201:分别提取目标语音与样本语音的音素;
S202:对目标语音的音素与样本语音的音素进行比对分析,获得分析结果;
S203:判断分析结果是否超出标准阈值;
S204:若超出标准阈值,则确定目标语音属于目标人物;
S205:若未超出标准阈值,则确定目标语音不属于目标人物。
具体的,本申请提供了一种较为具体的语音比对方法,即基于音素的比对分析,实现语音的比对过程。具体而言,首先,分别对目标语音和样本语音进行音素的提取,获得目标语音的音素和样本语音的音素,并将两类音素进行比对分析,获得相应的分析结果;进一步,判断获得的分析结果是否超出标准阈值,如果超出标准阈值,则说明该目标语音属于该样本语音对应的目标人物;如果未超出标准阈值,则说明该目标语音不属于目标人物。其中,对于上述标准阈值的具体取值,本申请同样不做限定,由用户自行设定即可,标准阈值越高,其最终的语音鉴定结果也会越准确。
在上述各具体实施方式的基础上,作为一种优选实施例,该语音鉴定方法还可以包括将文件头信息附加至目标语音中进行保存。
具体的,在司法领域的各类案件中,一般会涉及到证据的留存,因此,当完成语音鉴定后,即可对基于检材语音获得的属于目标对象,即目标嫌疑人的目标语音进行保存,其在保存过程中,可进一步将其对应的文件头信息附加至目标语音中,组成一份完整的语音资料,并完成保存。
本申请所提供的语音鉴定方法,通过将检材语音分割为多个音频片段,并基于音频特征的对比分析结果,方便快速的实现目标语音在检材语音中的提取,最后,将该目标语音与目标对象的样本语音进行比对,即可确定该目标语音是否属于该目标对象,由此,即实现了语音的鉴定;基于该方法进行语音鉴定,无需鉴定人员进行人工处理,更加省时省力、方便快捷,且有效避免了人工处理为鉴定结果带来的误差,进一步保证了鉴定结果的准确率。
为解决上述问题,请参考图3,图3为本申请所提供的一种语音鉴定装置的结构示意图,该语音鉴定装置可包括:
语音分割模块10,用于对获取的检材语音进行分割处理,获得预定数量个音频片段;
特征提取模块20,用于对各个音频片段进行特征提取,获得对应的音频特征;
特征比对模块30,用于将各个音频特征进行对比,获得比对结果;
音频提取模块40,用于提取超出预设阈值的比对结果对应的目标音频片段;
音频合并模块50,用于将各个目标音频片段进行合并,获得目标语音;
语音比对模块60,用于将目标语音与目标对象的样本语音进行比对,以确定目标语音是否属于目标对象。
在上述实施例的基础上,请参考图4,图4为本申请所提供的另一种语音鉴定装置的结构示意图。
作为一种优选实施例,上述语音分割模块10可以包括:
头信息去除子模块11,用于读取检材语音的文件头信息,并获取去除文件头信息的pcm语音文件;
语音文件分割子模块12,用于根据文件头信息对pcm语音文件进行分割处理,获得预定数量个音频片段。
作为一种优选实施例,上述语音文件分割单元12具体用于剔除pcm语音文件中的空白信息,获得无空白音频;按照预设长度对无空白音频进行分割处理,获得音频片段。
作为一种优选实施例,上述语音比对模块60可以包括:
音素提取子模块61,用于分别提取目标语音与样本语音的音素;
音素比对子模块62,用于对目标语音的音素与样本语音的音素进行比对分析,获得分析结果;
语音鉴定子模块63,用于判断分析结果是否超出标准阈值;若是,则确定目标语音属于目标人物。
作为一种优选实施例,该语音鉴定方法还可以包括:
语音保存模块70,用于将文件头信息附加至目标语音中进行保存。
对于本申请提供的装置的介绍请参照上述方法实施例,本申请在此不做赘述。
为解决上述问题,请参考图5,图5为本申请所提供的一种语音鉴定设备的结构示意图,该语音鉴定设备可包括:
存储器1,用于存储计算机程序;
处理器2,用于执行计算机程序时可实现如下步骤:
对获取的检材语音进行分割处理,获得预定数量个音频片段;对各个音频片段进行特征提取,获得对应的音频特征;将各个音频特征进行对比,获得比对结果;提取超出预设阈值的比对结果对应的目标音频片段;将各个目标音频片段进行合并,获得目标语音;将目标语音与目标对象的样本语音进行比对,以确定目标语音是否属于目标对象。
对于本申请提供的设备的介绍请参照上述方法实施例,本申请在此不做赘述。
为解决上述问题,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现如下骤:
对获取的检材语音进行分割处理,获得预定数量个音频片段;对各个音频片段进行特征提取,获得对应的音频特征;将各个音频特征进行对比,获得比对结果;提取超出预设阈值的比对结果对应的目标音频片段;将各个目标音频片段进行合并,获得目标语音;将目标语音与目标对象的样本语音进行比对,以确定目标语音是否属于目标对象。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
对于本申请提供的计算机可读存储介质的介绍请参照上述方法实施例,本申请在此不做赘述。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的语音鉴定方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围要素。
Claims (10)
1.一种语音鉴定方法,其特征在于,包括:
对获取的检材语音进行分割处理,获得预定数量个音频片段;
对各个所述音频片段进行特征提取,获得对应的音频特征;
将各个所述音频特征进行对比,获得比对结果;
提取超出预设阈值的比对结果对应的目标音频片段;
将各个所述目标音频片段进行合并,获得目标语音;
将所述目标语音与目标对象的样本语音进行比对,以确定所述目标语音是否属于所述目标对象。
2.如权利要求1所述的语音鉴定方法,其特征在于,所述对获取的检材语音进行分割处理,获得预定数量个音频片段,包括:
读取所述检材语音的文件头信息,并获取去除所述文件头信息的pcm语音文件;
根据所述文件头信息对所述pcm语音文件进行分割处理,获得所述预定数量个音频片段。
3.如权利要求2所述的语音鉴定方法,其特征在于,所述根据所述文件头信息对所述pcm语音文件进行分割处理,获得所述预定数量个音频片段,包括:
剔除所述pcm语音文件中的空白信息,获得无空白音频;
按照预设长度对所述无空白音频进行分割处理,获得所述音频片段。
4.如权利要求3所述的语音鉴定方法,其特征在于,所述按照预设长度对所述无空白音频进行分割处理,获得所述音频片段,包括:
按照预设长度对所述无空白音频进行冗余切割,获得所述音频片段。
5.如权利要求1所述的语音鉴定方法,其特征在于,所述音频特征包括过零率、短时能量、基频以及共振峰。
6.如权利要求1所述的语音鉴定方法,其特征在于,所述将所述目标语音与目标对象的样本语音进行比对,以确定所述目标语音是否属于所述目标对象,包括:
分别提取所述目标语音与所述样本语音的音素;
对所述目标语音的音素与所述样本语音的音素进行比对分析,获得分析结果;
判断所述分析结果是否超出标准阈值;若是,则确定所述目标语音属于所述目标人物。
7.如权利要求1至6任意一项所述的语音鉴定方法,其特征在于,还包括:
将所述文件头信息附加至所述目标语音中进行保存。
8.一种语音鉴定装置,其特征在于,包括:
语音分割模块,用于对获取的检材语音进行分割处理,获得预定数量个音频片段;
特征提取模块,用于对各个所述音频片段进行特征提取,获得对应的音频特征;
特征比对模块,用于将各个所述音频特征进行对比,获得比对结果;
音频提取模块,用于提取超出预设阈值的比对结果对应的目标音频片段;
音频合并模块,用于将各个所述目标音频片段进行合并,获得目标语音;
语音比对模块,用于将所述目标语音与目标对象的样本语音进行比对,以确定所述目标语音是否属于所述目标对象。
9.一种语音鉴定装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任意一项所述的语音鉴定方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任意一项所述的语音鉴定方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810968455.0A CN109065023A (zh) | 2018-08-23 | 2018-08-23 | 一种语音鉴定方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810968455.0A CN109065023A (zh) | 2018-08-23 | 2018-08-23 | 一种语音鉴定方法、装置、设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109065023A true CN109065023A (zh) | 2018-12-21 |
Family
ID=64756788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810968455.0A Pending CN109065023A (zh) | 2018-08-23 | 2018-08-23 | 一种语音鉴定方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109065023A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109979466A (zh) * | 2019-03-21 | 2019-07-05 | 广州国音智能科技有限公司 | 一种声纹身份同一性鉴定方法、装置及计算机可读存储介质 |
CN110289013A (zh) * | 2019-07-24 | 2019-09-27 | 腾讯科技(深圳)有限公司 | 多音频采集源检测方法、装置、存储介质和计算机设备 |
CN110910863A (zh) * | 2019-11-29 | 2020-03-24 | 上海依图信息技术有限公司 | 从音频文件中提取有声片段的方法、装置设备及存储介质 |
CN111028862A (zh) * | 2019-12-17 | 2020-04-17 | 北京海益同展信息科技有限公司 | 处理语音数据的方法、装置、计算机设备和存储介质 |
CN111640421A (zh) * | 2020-05-13 | 2020-09-08 | 广州国音智能科技有限公司 | 语音对比方法、装置、设备及计算机可读存储介质 |
CN111640445A (zh) * | 2020-05-13 | 2020-09-08 | 广州国音智能科技有限公司 | 音频差异检测方法、装置、设备及可读存储介质 |
CN111639157A (zh) * | 2020-05-13 | 2020-09-08 | 广州国音智能科技有限公司 | 音频标记方法、装置、设备及可读存储介质 |
CN112466287A (zh) * | 2020-11-25 | 2021-03-09 | 出门问问(苏州)信息科技有限公司 | 一种语音分割方法、装置以及计算机可读存储介质 |
CN112634857A (zh) * | 2020-12-15 | 2021-04-09 | 京东数字科技控股股份有限公司 | 一种语音合成方法、装置、电子设备和计算机可读介质 |
CN112863491A (zh) * | 2021-03-12 | 2021-05-28 | 云知声智能科技股份有限公司 | 一种语音转写方法、装置及电子设备 |
CN113035234A (zh) * | 2021-03-10 | 2021-06-25 | 湖南快乐阳光互动娱乐传媒有限公司 | 音频数据处理方法及相关装置 |
WO2021127976A1 (zh) * | 2019-12-24 | 2021-07-01 | 广州国音智能科技有限公司 | 一种可供比对音素选取方法和装置 |
CN113409776A (zh) * | 2021-06-30 | 2021-09-17 | 南京领行科技股份有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
CN113724735A (zh) * | 2021-09-01 | 2021-11-30 | 广州博冠信息科技有限公司 | 语音流处理方法及装置、计算机可读存储介质、电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4730812B2 (ja) * | 2005-03-24 | 2011-07-20 | 株式会社リコー | 個人認証装置、個人認証処理方法、そのためのプログラム及び記録媒体 |
CN106448685A (zh) * | 2016-10-09 | 2017-02-22 | 北京远鉴科技有限公司 | 一种基于音素信息的声纹认证系统及方法 |
CN107210040A (zh) * | 2015-02-11 | 2017-09-26 | 三星电子株式会社 | 语音功能的操作方法和支持该方法的电子设备 |
CN107680601A (zh) * | 2017-10-18 | 2018-02-09 | 深圳势必可赢科技有限公司 | 一种基于语谱图和音素检索的身份同一性检验方法及装置 |
CN108182945A (zh) * | 2018-03-12 | 2018-06-19 | 广州势必可赢网络科技有限公司 | 一种基于声纹特征的多人声音分离方法及装置 |
CN108198570A (zh) * | 2018-02-02 | 2018-06-22 | 北京云知声信息技术有限公司 | 审讯时语音分离的方法及装置 |
CN108305632A (zh) * | 2018-02-02 | 2018-07-20 | 深圳市鹰硕技术有限公司 | 一种会议的语音摘要形成方法及系统 |
-
2018
- 2018-08-23 CN CN201810968455.0A patent/CN109065023A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4730812B2 (ja) * | 2005-03-24 | 2011-07-20 | 株式会社リコー | 個人認証装置、個人認証処理方法、そのためのプログラム及び記録媒体 |
CN107210040A (zh) * | 2015-02-11 | 2017-09-26 | 三星电子株式会社 | 语音功能的操作方法和支持该方法的电子设备 |
CN106448685A (zh) * | 2016-10-09 | 2017-02-22 | 北京远鉴科技有限公司 | 一种基于音素信息的声纹认证系统及方法 |
CN107680601A (zh) * | 2017-10-18 | 2018-02-09 | 深圳势必可赢科技有限公司 | 一种基于语谱图和音素检索的身份同一性检验方法及装置 |
CN108198570A (zh) * | 2018-02-02 | 2018-06-22 | 北京云知声信息技术有限公司 | 审讯时语音分离的方法及装置 |
CN108305632A (zh) * | 2018-02-02 | 2018-07-20 | 深圳市鹰硕技术有限公司 | 一种会议的语音摘要形成方法及系统 |
CN108182945A (zh) * | 2018-03-12 | 2018-06-19 | 广州势必可赢网络科技有限公司 | 一种基于声纹特征的多人声音分离方法及装置 |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109979466A (zh) * | 2019-03-21 | 2019-07-05 | 广州国音智能科技有限公司 | 一种声纹身份同一性鉴定方法、装置及计算机可读存储介质 |
CN109979466B (zh) * | 2019-03-21 | 2021-09-17 | 广州国音智能科技有限公司 | 一种声纹身份同一性鉴定方法、装置及计算机可读存储介质 |
CN110289013A (zh) * | 2019-07-24 | 2019-09-27 | 腾讯科技(深圳)有限公司 | 多音频采集源检测方法、装置、存储介质和计算机设备 |
CN110289013B (zh) * | 2019-07-24 | 2023-12-19 | 腾讯科技(深圳)有限公司 | 多音频采集源检测方法、装置、存储介质和计算机设备 |
CN110910863A (zh) * | 2019-11-29 | 2020-03-24 | 上海依图信息技术有限公司 | 从音频文件中提取有声片段的方法、装置设备及存储介质 |
CN110910863B (zh) * | 2019-11-29 | 2023-01-31 | 上海依图信息技术有限公司 | 从音频文件中提取有声片段的方法、装置设备及存储介质 |
CN111028862A (zh) * | 2019-12-17 | 2020-04-17 | 北京海益同展信息科技有限公司 | 处理语音数据的方法、装置、计算机设备和存储介质 |
CN111028862B (zh) * | 2019-12-17 | 2022-09-06 | 京东科技信息技术有限公司 | 处理语音数据的方法、装置、计算机设备和存储介质 |
WO2021127976A1 (zh) * | 2019-12-24 | 2021-07-01 | 广州国音智能科技有限公司 | 一种可供比对音素选取方法和装置 |
CN111640445A (zh) * | 2020-05-13 | 2020-09-08 | 广州国音智能科技有限公司 | 音频差异检测方法、装置、设备及可读存储介质 |
CN111639157B (zh) * | 2020-05-13 | 2023-10-20 | 广州国音智能科技有限公司 | 音频标记方法、装置、设备及可读存储介质 |
CN111640421A (zh) * | 2020-05-13 | 2020-09-08 | 广州国音智能科技有限公司 | 语音对比方法、装置、设备及计算机可读存储介质 |
CN111640421B (zh) * | 2020-05-13 | 2023-06-16 | 广州国音智能科技有限公司 | 语音对比方法、装置、设备及计算机可读存储介质 |
CN111639157A (zh) * | 2020-05-13 | 2020-09-08 | 广州国音智能科技有限公司 | 音频标记方法、装置、设备及可读存储介质 |
CN112466287A (zh) * | 2020-11-25 | 2021-03-09 | 出门问问(苏州)信息科技有限公司 | 一种语音分割方法、装置以及计算机可读存储介质 |
CN112466287B (zh) * | 2020-11-25 | 2023-06-27 | 出门问问(苏州)信息科技有限公司 | 一种语音分割方法、装置以及计算机可读存储介质 |
CN112634857A (zh) * | 2020-12-15 | 2021-04-09 | 京东数字科技控股股份有限公司 | 一种语音合成方法、装置、电子设备和计算机可读介质 |
CN113035234A (zh) * | 2021-03-10 | 2021-06-25 | 湖南快乐阳光互动娱乐传媒有限公司 | 音频数据处理方法及相关装置 |
CN113035234B (zh) * | 2021-03-10 | 2024-02-09 | 湖南快乐阳光互动娱乐传媒有限公司 | 音频数据处理方法及相关装置 |
CN112863491A (zh) * | 2021-03-12 | 2021-05-28 | 云知声智能科技股份有限公司 | 一种语音转写方法、装置及电子设备 |
CN113409776A (zh) * | 2021-06-30 | 2021-09-17 | 南京领行科技股份有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
CN113409776B (zh) * | 2021-06-30 | 2024-06-07 | 南京领行科技股份有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
CN113724735A (zh) * | 2021-09-01 | 2021-11-30 | 广州博冠信息科技有限公司 | 语音流处理方法及装置、计算机可读存储介质、电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109065023A (zh) | 一种语音鉴定方法、装置、设备及计算机可读存储介质 | |
CN109065031B (zh) | 语音标注方法、装置及设备 | |
CN111128223B (zh) | 一种基于文本信息的辅助说话人分离方法及相关装置 | |
EP1908055B1 (en) | Content-based audio playback emphasis | |
EP1901286B1 (en) | Speech enhancement apparatus, speech recording apparatus, speech enhancement program, speech recording program, speech enhancing method, and speech recording method | |
CN107274916B (zh) | 基于声纹信息对音频/视频文件进行操作的方法及装置 | |
EP3206205A1 (en) | Voiceprint information management method and device as well as identity authentication method and system | |
WO2020224217A1 (zh) | 语音处理方法、装置、计算机设备及存储介质 | |
CN102063904B (zh) | 一种音频文件的旋律提取方法及旋律识别系统 | |
CN105975569A (zh) | 一种语音处理的方法及终端 | |
US20090271198A1 (en) | Producing phonitos based on feature vectors | |
JP2002517175A (ja) | 人間の音源を識別するための手段および装置 | |
CN112133277B (zh) | 样本生成方法及装置 | |
US10706867B1 (en) | Global frequency-warping transformation estimation for voice timbre approximation | |
CN110019922B (zh) | 一种音频高潮识别方法和装置 | |
CN113112992B (zh) | 一种语音识别方法、装置、存储介质和服务器 | |
Oh et al. | Characteristic contours of syllabic-level units in laughter. | |
Wang et al. | A multi-pass linear fold algorithm for sentence boundary detection using prosodic cues | |
CN101419796A (zh) | 自动分割单字语音信号的装置与方法 | |
Baskoro et al. | Analysis of Voice Changes in Anti Forensic Activities Case Study: Voice Changer with Telephone Effect | |
CN109087651B (zh) | 一种基于视频与语谱图的声纹鉴定方法、系统及设备 | |
CN113409774A (zh) | 语音识别方法、装置及电子设备 | |
Tomchuk | Spectral masking in MFCC calculation for noisy speech | |
CN116758939B (zh) | 一种多设备音频数据的对齐方法、装置及存储介质 | |
CN114242120B (zh) | 一种基于dtmf技术的音频剪辑方法及音频标记方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181221 |