CN111653283B - 一种跨场景声纹比对方法、装置、设备及存储介质 - Google Patents
一种跨场景声纹比对方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111653283B CN111653283B CN202010597183.5A CN202010597183A CN111653283B CN 111653283 B CN111653283 B CN 111653283B CN 202010597183 A CN202010597183 A CN 202010597183A CN 111653283 B CN111653283 B CN 111653283B
- Authority
- CN
- China
- Prior art keywords
- voice
- voices
- scene
- voiceprint
- channel information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000012545 processing Methods 0.000 claims abstract description 53
- 238000001514 detection method Methods 0.000 claims description 78
- 238000001228 spectrum Methods 0.000 claims description 46
- 238000010606 normalization Methods 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 18
- 230000004044 response Effects 0.000 claims description 17
- 238000012512 characterization method Methods 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 8
- 238000000556 factor analysis Methods 0.000 claims description 5
- 230000010365 information processing Effects 0.000 claims description 5
- 238000013139 quantization Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 11
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请提供了一种跨场景声纹对比方法、装置、设备及存储介质,其中,跨场景声纹对比方法方法包括:获取两条语音,其中,两条语音中的其中一条语音属于第一场景,另一条语音属于与第一场景不同的第二场景;将两条语音处理为同一编码格式的语音,获得具有相同编码格式的两条语音;将具有相同编码格式的两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音,获得信道信息一致的两条语音;分别对信道信息一致的两条语音提取声纹特征,并对提取的声纹特征进行比对。本申请可对不同场景中的两条语音进行声纹比对,且可获得较好的声纹比对效果。
Description
技术领域
本申请涉及声纹技术领域,尤其涉及一种跨场景声纹比对方法、装置、设备及存储介质。
背景技术
近年来,随着声纹技术的发展,越来越多的场景中用到了声纹比对,比如,金融领域的身份验证场景、家居领域的身份验证场景等。所谓声纹比对,指的是将两条语音的声纹特征进行比对,进一步的,可以根据比对结果确定两条语音的说话人是否为同一说话人。
一般而言,应用声纹比对的每个场景都会自建声纹库,声纹库中包括了对应场景的多条注册语音和多条注册语音分别对应的声纹特征。随着各场景声纹库的规模越来越大,不同场景之间的声纹比对将发挥重要的作用,比如,在打击违法犯罪中,在仅有犯罪人在场景A的语音的情况下,可以将该场景A的语音与场景B的声纹库中的注册语音进行声纹比对,以确定犯罪人的身份等信息。
目前的声纹比对方案均为针对单一场景的声纹比对方案,即,将场景A的待测语音与场景A的声纹库中的注册语音进行声纹比对,这种针对单一场景的声纹比对方案并不适于跨场景声纹比对,而如何获得效果较好的跨场景声纹比对方案是目前亟需解决的问题。
发明内容
有鉴于此,本申请提供了一种跨场景声纹比对方法、装置、设备及存储介质,用于提供一种效果较好的、适用于跨场景的声纹比对方案,其技术方案如下:
一种跨场景声纹对比方法,包括:
获取两条语音,其中,所述两条语音中的其中一条语音属于第一场景,另一条语音属于与所述第一场景不同的第二场景;
将所述两条语音处理为同一编码格式的语音,获得具有相同编码格式的两条语音;
将所述具有相同编码格式的两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音,获得信道信息一致的两条语音;
对所述信道信息一致的两条语音分别提取声纹特征,并对提取的声纹特征进行比对。
可选的,所述将所述两条语音处理为同一编码格式的语音,包括:
将所述两条语音处理成具有相同采样率、相同量化比特数、相同编码方式的语音,其中,处理后语音的采样率为所述两条语音的采样率中的最大采样率。
可选的,所述跨场景声纹对比方法还包括:
检测所述具有相同编码格式的两条语音中的至少一条语音是否满足质量要求;
若满足,则执行所述将所述具有相同编码格式两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音。
可选的,检测一条语音是否满足质量要求,包括:
获取该语音的质量表征指标,其中,所述质量表征指标包括有效时长、信噪比、截幅比、语音归一化平均能量中的一个或多个;
根据所述质量表征指标和所述质量表征指标对应的质量检测阈值,确定该语音是否满足质量要求。
可选的,所述信噪比、所述截幅比和所述语音归一化平均能量对应同一质量检测阈值;
确定所述信噪比、所述截幅比和所述语音归一化平均能量对应的质量检测阈值的过程包括:
获取质量检测集合中每条语音的信噪比、截幅比和语音归一化平均能量,其中,所述质量检测集合由该语音所属场景对应的声纹库中的语音组成;
确定所述质量检测集合中所有优质语音的信噪比均值、截幅比均值和语音归一化平均能量均值,并确定所述质量检测集合中所有非优质语音的信噪比均值、截幅比均值和语音归一化平均能量均值;
根据所述质量检测集合中所有优质语音的信噪比均值、截幅比均值和语音归一化平均能量均值确定第一阈值,并根据所述质量检测集合中所有非优质语音的信噪比均值、截幅比均值和语音归一化平均能量均值确定第二阈值;
根据所述第一阈值和所述第二阈值,确定所述信噪比、所述截幅比和所述语音归一化平均能量对应的质量检测阈值。
可选的,所述将所述具有相同编码格式的两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音,包括:
获取所述具有相同编码格式的两条语音中第一语音的信道信息,并根据所述第一语音的信道信息生成所述第一语音对应的信道模型;
利用所述第一语音对应的信道模型,将所述具有相同编码格式的两条语音中的第二语音处理成与所述第一语音的信道信息一致的语音。
可选的,所述获取所述具有相同编码格式的两条语音中第一语音的信道信息,包括:
获取所述第一语音的频谱;
采用联合因子分析法,从所述第一语音的频谱中分离出信道信息,以得到所述第一语音的信道信息。
可选的,所述根据所述第一语音的信道信息生成所述第一语音对应的信道模型,包括:
根据所述第一语音的信道信息,以及所述第一语音对应的信道的频率响应,生成所述第一语音对应的信道模型。
可选的,所述利用所述第一语音对应的信道模型,将所述具有相同编码格式的两条语音中的第二语音处理成与所述第一语音的信道信息一致的语音,包括:
获取所述第二语音的频谱,以及所述第二语音对应的信道的频率响应;
根据所述第二语音的频谱以及所述第二语音对应的信道的频率响应确定所述第二语音对应的源语音的频谱,其中,所述第二语音对应的源语音经所述第二语音对应的信道得到所述第二语音;
根据所述第二语音对应的源语音的频谱,以及所述第一语音对应的信道模型,确定与所述第一语音的信道信息一致的语音的频谱;
根据与所述第一语音的信道信息一致的语音的频谱,获得与所述第一语音的信道信息一致的语音。
可选的,所述两条语音中的其中一条语音为一场景中的待验证语音,另一条语音为另一场景对应的声纹库中的一注册语音。
一种跨场景声纹对比装置,包括:语音获取模块、第一处理模块、第二处理模块、声纹提取模块和声纹比对模块;
所述语音获取模块,用于获取两条语音,其中,所述两条语音中的其中一条语音属于第一场景,另一条语音属于与所述第一场景不同的第二场景;
所述第一处理模块,用于将所述两条语音处理为同一编码格式的语音,获得具有相同编码格式的两条语音;
所述第二处理模块,用于将所述具有相同编码格式的两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音,获得信道信息一致的两条语音;
所述声纹提取模块,用于对所述信道信息一致的两条语音分别提取声纹特征,得到提取出的声纹特征;
所述声纹比对模块,用于对所述提取出的声纹特征进行比对。
可选的,所述跨场景声纹对比装置还包括:语音质量检测模块;
所述语音质量检测模块,用于检测所述具有相同编码格式的两条语音中的至少一条语音是否满足质量要求;
所述第二处理模块,具体用于当所述具有相同编码格式的两条语音中的至少一条语音满足质量要求时,将所述具有相同编码格式两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音。
一种跨场景声纹对比设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现上述任一项所述的跨场景声纹对比方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一项所述的跨场景声纹对比方法的各个步骤。
经由上述方案可知,本申请提供的跨场景声纹对比方法,在获得属于不同场景中的两条语音后,考虑到不同场景中的语音所采用的编码格式不同,首先将两条语音处理为同一编码格式的语音,在获得具有相同编码格式的两条语音后,考虑到不同场景中语音的信道信息不同,将具有相同编码格式的两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音,从而获得信道信息一致的两条语音,接下来便可对编码格式相同且信道信息一致的两条语音分别提取声纹特征,进而对提取的声纹特征进行比对。考虑到不同场景语音的差异性,本申请在提取声纹特征之前,先将属于不同场景中的两条语音处理成具有相同编码格式、具有相同信道信息的两条语音,从而消除场景不同对后续声纹比对的影响,进而在对从具有相同编码格式和相同信道信息的两条语音中提取出的声纹特征进行比对时,可获得较好的声纹比对效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的跨场景声纹对比方法的一流程示意图;
图2为本申请实施例提供的跨场景声纹对比方法的另一流程示意图;
图3为本申请实施例提供的检测语音是否满足质量要求的流程示意图;
图4为本申请实施例提供的确定信噪比、截幅比和语音归一化平均能量对应的质量检测阈值的流程示意图;
图5为本申请实施例提供的将具有相同编码格式的两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音的流程示意图;
图6为本申请实施例提供的跨场景声纹对比装置的结构示意图;
图7为本申请实施例提供的跨场景声纹对比设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前的声纹对比方案针对的是单一场景,这种方案直接对同一场景中的两条语音提取声纹特征,进而对提取的声纹特征进行比对,本案发明人在实现本案的过程中发现,不同场景中的语音因场景不同存在诸多差异,比如编码方式不同、信道信息不同等,这些差异的存在导致,在使用现有的声纹比对方案对不同场景的语音进行声纹比对时效果较差,鉴于该问题,本案发明人进行了深入研究,最终提出一种效果较好的跨场景声纹比对方法,该方法适用任何需要对不同场景的语音进行声纹比对的应用场景。
本申请提供的跨场景声纹比对方法可应用于具有数据处理能力的终端(比如,PC、笔记本电脑、智能手机、PAD、车载终端、智能家居设备等),终端可获取不同场景中的两条语音,并对两条语音进行声纹比对,本申请提供的跨场景声纹比对方法还可以应用于服务器(可以是一个服务器,也可是多个服务器,还可以是服务器集群),同样的,服务器可获取不同场景中的两条语音,并对两条语音进行声纹比对。接下来通过下述实施例对本申请提供的跨场景声纹比对方法进行介绍。
第一实施例
请参阅图1,示出了本申请提供的跨场景声纹对比方法的流程示意图,可以包括:
步骤S101:获取两条语音。
其中,两条语音中的其中一条语音属于第一场景,另一条语音属于第二场景,第一场景与第二场景不同。
可选的,两条语音中的一条语音为第一场景中的待验证语音,另一条语音为第二场景对应的声纹库中的一条注册语音。示例性的,两条语音分别为A场景中的语音a和B场景中的语音b,则语音a可以为A场景中的待验证语音,语音b可以为B场景对应的声纹库中的一条注册语音,当然,反过来也可以,即语音b为B场景中的待验证语音,语音a为A场景对应的声纹库中的一条注册语音。
步骤S102:将两条语音处理为同一编码格式的语音,获得具有相同编码格式的两条语音。
可以理解的是,不同场景中语音的编码格式是不同的,为了后续能够获得较好的声纹比对效果,本申请将不同场景中的两条语音处理为同一编码格式的语音。
需要说明的是,将不同场景中的两条语音处理为同一编码格式的语音具体为,将不同场景中的两条语音处理成具有相同采样率、相同量化比特数、相同编码方式的语音。其中,处理后语音的采样率优选为两条语音的采样率中的最大采样率。
步骤S103:将具有相同编码格式的两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音,获得信道信息一致的两条语音。
可以理解的是,不同场景中语音的信道信息是不同的,本步骤的目的在于使不同场景中的两条语音的信道信息变为一致。假设两条语音分别为A场景中的语音a和B场景中的语音b,则可将A场景中的语音a处理成与B场景中的语音b的信道信息一致的语音,也可将B场景中的语音b处理成与A场景中的语音a的信道信息一致的语音。
步骤S104:对信道信息一致的两条语音分别提取声纹特征,并对提取的声纹特征进行比对。
针对信道信息一致的两种语音中的每条语音,可先对该语音进行预处理,然后对预处理后语音提取声纹特征。
其中,对该语音进行预处理具体包括:从该语音中检测出除噪声、静音等干扰外的有效语音片段,另外,若该语音包含多个说话人,则还需要对该语音进行说话人分离,以得到多个说话人分别对应的语音,进一步的,还可以从多个说话人分别对应的语音中挑选出需要进行声纹特征提取的语音。在获得预处理后语音后,可采用现有的声纹特征提取方案(比如基于X-vector的声纹提取方案)对预处理后语音提取声纹特征。
在获得声纹特征后,对于需要比对的两个声纹特征,可计算两个声纹特征的相似度,将计算得到的相似度作为这两个声纹特征的比对结果。
本申请实施例提供的跨场景声纹对比方法,在获得属于不同场景中的两条语音后,考虑到不同场景中的语音所采用的编码格式不同,首先将两条语音处理为同一编码格式的语音,在获得具有相同编码格式的两条语音后,考虑到不同场景中语音的信道信息不同,将具有相同编码格式的两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音,从而获得信道信息一致的两条语音,接下来便可对编码格式相同且信道信息一致的两条语音分别提取声纹特征,进而对提取的声纹特征进行比对。考虑到不同场景语音的差异性,本申请在提取声纹特征之前,先将属于不同场景中的两条语音处理成具有相同编码格式、具有相同信道信息的两条语音,从而消除场景不同对后续声纹比对的影响,进而在对从具有相同编码格式和相同信道信息的两条语音中提取出的声纹特征进行比对时,可获得较好的声纹比对效果。
第二实施例
考虑在某些时候,需要进行声纹比对的两条语音中可能存在质量不佳的语音,可能其中一条语音的质量不佳,也可能两条语音的质量均不佳,若两条语音中有至少一条语音的质量不佳,会导致最终获得的比对结果的使用价值不高,针对这种情况,本实施例提供了另一种跨场景声纹对比方法,请参阅图2,示出了该跨场景声纹对比方法的流程示意图,可以包括:
步骤S201:获取两条语音。
其中,两条语音中的其中一条语音属于第一场景,另一条语音属于第二场景,第一场景与第二场景不同。
步骤S202:将两条语音处理为同一编码格式的语音,获得具有相同编码格式的两条语音。
步骤S203:检测具有相同编码格式的两条语音中的至少一条语音是否满足质量要求,若是,则执行步骤S204,若否,则结束声纹比对流程。
假设两条语音中的一条语音为声纹库中的注册语音,另一条为待验证语音,一般而言,声纹库中的语音在入库前都会进行质量检测,因此,声纹库中的语音一般为质量较佳的语音,而待验证语音可能为质量不佳的语音,为此,可只检测待验证语音是否满足质量要求。可以理解的是,在某些情况下可能存在语音未进行质量检测即入声纹库的情况,比如,声纹库中早期的语音可能未经质量检测便直接入库,针对这种情况,可对注册语音和待验证语音均进行质量检测。
需要说明的是,对两条语音中的一条语音进行质量检测还是针对两条语音均进行质量检测,可根据声纹库中语音的质量情况确定。当然,也可不考虑声纹库中语音的质量情况,而是直接对两条语音均进行质量检测。
步骤S204:将具有相同编码格式的两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音,获得信道信息一致的两条语音。
步骤S205:分别对信道信息一致的两条语音提取声纹特征,并对提取的声纹特征进行比对。
需要说明的是,步骤S201、步骤S202、步骤S204和步骤S205的具体实现过程可参见上述实施例中对应步骤的具体实现过程,本实施例在此不作赘述。
本申请实施例提供的跨场景声纹对比方法,在获得属于不同场景中的两条语音后,考虑到不同场景中的语音所采用的编码格式不同,首先将两条语音处理为同一编码格式的语音,在获得具有相同编码格式的两条语音后,考虑到可能存在语音质量不佳的情况,为了后续能够获得更加有价值的比对结果,对具有相同编码格式的两条语音中的至少一条语音进行质量检测,在语音质量满足要求时,考虑到不同场景中语音的信道信息不同,进一步将具有相同编码格式的两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音,从而获得信道信息一致的两条语音,接下来便可从编码格式相同且信道信息一致的两条语音中提取声纹特征,进而对提取的声纹特征进行比对。由于本申请实施例提供的跨场景声纹对比方法,充分考虑了不同语音场景语音的差异性以及语音质量对声纹比对结果的影响,因此,可获得较好的声纹比对效果。
第三实施例
上述实施例例提到,在获得具有相同编码格式的两条语音后,可检测具有相同编码格式的两条语音中的至少一条语音是否满足质量要求。本实施例以一条语音a为例,对检测语音a是否满足质量要求的具体过程进行介绍。
请参阅图3,示出了检测语音a是否满足质量要求的流程示意图,可以包括:
步骤S301:获取语音a的质量表征指标。
其中,语音a的质量表征指标包括语音a的有效时长、语音a的信噪比、语音a的截幅比、语音a的语音归一化平均能量中的一个或多个,优选的,语音a的质量表征指标包括上述的所有指标。
其中,语音a的截幅比指的是语音a中截幅语音占整条语音的比例,需要说明的是,当语音的幅度超出指定范围时,会在峰值处产生截幅;语音a的语音归一化平均能量为整段语音平均能量和量化最大值的比例。
步骤S302:根据质量表征指标和质量表征指标对应的质量检测阈值,确定语音a是否满足质量要求。
需要说明的是,上述的每个质量表征指标对应一质量检测阈值,其中,有效时长对应的质量检测阈值为Tth,信噪比对应的质量检测阈值为SNRth,截幅比对应的质量检测阈值为Qth,语音归一化平均能量对应的质量检测阈值为Nth。若语音a的有效时长大于或等于Tth、语音a的信噪比大于SNRth、截幅比小于或等于Qth、且语音归一化平均能量大于或等于Nth,则确定语音a满足质量要求,否则,确定语音a不满足质量要求。
在一种可能的实现方式中,信噪比、截幅比和语音归一化平均能量可对应同一质量检测阈值,具体的,请参阅图4,示出了确定信噪比、截幅比和语音归一化平均能量对应的质量检测阈值的过程,可以包括:
步骤S401:获取质量检测集合中每条语音的信噪比、截幅比和语音归一化平均能量。
目前的声纹库通常包括多条语音和多条语音分别对应的声纹特征(声纹特征从对应的语音中提取),本步骤中的质量检测集合由语音a所属场景对应的声纹库中的部分或全部语音组成(优选为全部语音)。
步骤S402:确定质量检测集合中所有优质语音的信噪比均值、截幅比均值和语音归一化平均能量均值,并确定质量检测集合中所有非优质语音的信噪比均值、截幅比均值和语音归一化平均能量均值。
其中,质量检测集合中的优质语音可以为人工体验感较好(MOS分值大于预设分值的语音)、且时长大于预设时长(比如时长大于10分钟)的语音,质量检测集合中的其它语音即为非优质语音。需要说明的是,若语音时长不足预设时长,则可将多条语音拼接在一起。
步骤S403:根据质量检测集合中所有优质语音的信噪比均值、截幅比均值和语音归一化平均能量均值确定第一阈值,并根据质量检测集合中所有非优质语音的信噪比均值、截幅比均值和语音归一化平均能量均值确定第二阈值。
具体的,可根据下式确定第一阈值V1和第二阈值V2:
其中,为质量检测集合中所有优质语音的信噪比均值,/>为质量检测集合中所有优质语音的截幅比均值,/>为质量检测集合中所有优质语音的语音归一化平均能量均值,/>为质量检测集合中所有非优质语音的信噪比均值,/>为质量检测集合中所有非优质语音的截幅比均值,/>质量检测集合中所有非优质语音的语音归一化平均能量均值。
步骤S404:根据第一阈值和第二阈值确定信噪比、截幅比和语音归一化平均能量对应的质量检测阈值。
具体的,在获得第一阈值和第二阈值后,可根据下式确定信噪比、截幅比和语音归一化平均能量对应的质量检测阈值V:
V=αV1+(1-α)V2 (3)
其中,α为阈值调节的融合权重系数,α值的设置是根据质量检测集合中的语音在通过质量检测后剩余的数量值调节的,即通过V的调节使得可以通过检测的语音数量达到最多。
第四实施例
考虑到不同场景中两条语音的信道信息不同,为了后续能够获得较好的声纹比对效果,本申请将具有相同编码格式的两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音,本实施例对将具有相同编码格式的两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音进行介绍。
请参阅图5,示出了将具有相同编码格式的两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音的流程示意图,可以包括:
步骤S501:获取具有相同编码格式的两条语音中第一语音的信道信息。
需要说明的是,第一语音可以为具有相同编码格式的两条语音中的任一条语音。
具体的,获取第一语音的信道信息的过程可以包括:
步骤S5011、获取第一语音的频谱。
具体的,可通过对第一语音进行傅里叶变换,来获得第一语音的频谱。
步骤S5012、采用联合因子分析法,从第一语音的频谱中分离出信道信息,以得到第一语音的信道信息。
采用联合因子分析法可将第一语音中的说话人信息和信道信息分离开,从而获得第一语音的信道信息。第一语音的信道信息为第一语音对应的源语音所经信道的信息,第一语音对应的源语音为未经信道的语音,也就是说,第一语音对应的源语音经第一语音对应的信道后,可得到第一语音。
步骤S502:根据第一语音的信道信息生成第一语音对应的信道模型。
具体的,根据第一语音的信道信息生成第一语音对应的信道模型的过程可以包括:根据第一语音的信道信息,以及第一语音对应的信道的频率响应,生成第一语音对应的信道模型。
可定义一个标准化虚拟函数Fs(ω),使下式成立:
FS(ω)|O1(ω)|=|H(ω)| (4)
其中,H(ω)为从第一语音的频谱中分离出的信道信息,O1(ω)为第一语音对应的信道的频率响应。第一语音对应的信道即为第一语音对应的源语音所经的信道。
由于H(ω)和O1(ω)已知,因此,根据上式可获得Fs(ω),将Fs(ω)作为第一语音对应的信道模型,其用于模拟第一语音对应的信道。
步骤S503:利用第一语音对应的信道模型,将具有相同编码格式的两条语音中的第二语音处理成与第一语音的信道信息一致的语音。
具体的,利用第一语音对应的信道模型,将具有相同编码格式的两条语音中的第二语音处理成与第一语音的信道信息一致的语音的过程可以包括:
步骤S5031、获取第二语音的频谱,以及第二语音对应的信道的频率响应。
其中,第二语音的频谱可通过对第二语音进行傅里叶变换获得,第二语音的信道信息为第二语音对应的源语音所经信道的信息。
步骤S5032、根据第二语音的频谱以及第二语音对应的信道的频率响应确定第二语音对应的源语音的频谱。
假设第二语音的频谱为Y2(ω),第二语音对应的信道的频率响应O2(ω),Y2(ω)和O2(ω)具有如下关系:
|X02(ω)||O2(ω)|=|Y2(ω)| (5)
其中,X02(ω)为第二语音对应的源语音的频谱,第二语音对应的源语音为未经信道的语音,也就是说,第二语音对应的源语音经第二语音对应的信道后,可得到第二语音。
由于Y2(ω)和O2(ω)已知,因此,根据上式可得到第二语音对应的源语音的频谱X02(ω)。
步骤S5033、根据第二语音对应的源语音的频谱,以及第一语音对应的信道模型,确定与第一语音的信道信息一致的语音的频谱。
具体的,可根据下式确定与第一语音的信道信息一致的语音的频谱:
|X02(ω)||Fs(ω)|=|YS(ω)| (6)
将第二语音对应的源语音经第一语音的模拟信道,便可将第二语音处理成与第一语音的信道信息一致的语音。
步骤S5034、根据与第一语音的信道信息一致的语音的频谱,获得与第一语音的信道信息一致的语音。
将与第一语音的信道信息一致的语音的频谱进行傅里叶逆变换,便可获得与第一语音的信道信息一致的语音,如此便将第二语音处理成了与第一语音的信道信息一致的语音。
本申请采用信道软仿真技术对具有相同编码格式的两条语音中的第一语音的信道进行模拟,进而将第二语音对应的源语音经模拟信道,从而获得与第一语音的信道信息一致的语音。可以理解的,由于第二语音对应的源语音所经的信道为模拟出来的信道,因此,信道模拟后语音的信道信息与第一语音的信道信息可能并非完全一致,本申请认为只要二者的信道信息接近或相似,便可人认为二者的信道信息一致。
第五实施例
本实施例提供了一种与上述实施例提供的跨场景声纹对比方法对应的跨场景声纹对比装置,请参阅图6,示出了该跨场景声纹对比装置的结构示意图,可以包括:语音获取模块601、第一处理模块602、第二处理模块603、声纹提取模块604和声纹比对模块605。
语音获取模块601,用于获取两条语音。
其中,所述两条语音中的其中一条语音属于第一场景,另一条语音属于与所述第一场景不同的第二场景。
第一处理模块602,用于将所述两条语音处理为同一编码格式的语音,获得具有相同编码格式的两条语音。
第二处理模块603,用于将所述具有相同编码格式的两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音,获得信道信息一致的两条语音。
声纹提取模块604,用于对所述信道信息一致的两条语音分别提取声纹特征,得到提取出的声纹特征。
声纹比对模块605,用于对提取出的声纹特征进行比对。
可选的,第一处理模块602,具体用于将所述两条语音处理成具有相同采样率、相同量化比特数、相同编码方式的语音,其中,处理后语音的采样率为所述两条语音的采样率中的最大采样率。
可选的,本申请实施例提供的跨场景声纹对比装置还可以包括:语音质量检测模块。
语音质量检测模块,用于检测所述具有相同编码格式的两条语音中的至少一条语音是否满足质量要求。
第二处理模块603,具体用于当所述具有相同编码格式的两条语音中的至少一条语音满足质量要求时,将所述具有相同编码格式两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音。
可选的,语音质量检测模块包括:质量表征指标获取子模块和语音质量检测子模块。
质量表征指标获取子模块,用于获取一语音的质量表征指标。
其中,质量表征指标包括有效时长、信噪比、截幅比、语音归一化平均能量中的一个或多个。
语音质量检测子模块,用于根据所述质量表征指标和所述质量表征指标对应的质量检测阈值,确定该语音是否满足质量要求。
可选的,所述述信噪比、所述截幅比和所述语音归一化平均能量对应同一质量检测阈值。
本申请实施例提供的跨场景声纹对比装置还可以包括:用于确定所述信噪比、所述截幅比和所述语音归一化平均能量对应的质量检测阈值的质量检测阈值确定模块。
所述质量检测阈值确定模块包括:指标获取子模块、指标均值确定子模块、第一阈值确定子模块、第二阈值确定子模块和质量检测阈值确定子模块。
指标获取子模块,用于获取质量检测集合中每条语音的信噪比、截幅比和语音归一化平均能量。
其中,所述质量检测集合由该语音所属场景对应的声纹库中的语音组成。
指标均值确定子模块,用于确定所述质量检测集合中所有优质语音的信噪比均值、截幅比均值和语音归一化平均能量均值,并确定所述质量检测集合中所有非优质语音的信噪比均值、截幅比均值和语音归一化平均能量均值。
第一阈值确定子模块,用于根据所述质量检测集合中所有优质语音的信噪比均值、截幅比均值和语音归一化平均能量均值确定第一阈值。
第二阈值确定子模块,用于根据所述质量检测集合中所有非优质语音的信噪比均值、截幅比均值和语音归一化平均能量均值确定第二阈值。
质量检测阈值确定子模块,用于根据所述第一阈值和所述第二阈值,确定所述信噪比、所述截幅比和所述语音归一化平均能量对应的质量检测阈值。
可选的,第二处理模块603包括:信道信息获取子模块、信道模型生成子模块和信息处理子模块。
信道信息获取子模块,用于获取所述具有相同编码格式的两条语音中第一语音的信道信息。
信道模型生成子模块,用于根据所述第一语音的信道信息生成所述第一语音对应的信道模型。
信息处理子模块,用于利用所述第一语音对应的信道模型,将所述具有相同编码格式的两条语音中的第二语音处理成与所述第一语音的信道信息一致的语音。
可选的,信道信息获取子模块,具体用于获取所述第一语音的频谱,采用联合因子分析法,从所述第一语音的频谱中分离出信道信息,以得到所述第一语音的信道信息。
可选的,信道模型生成子模块,具体用于根据所述第一语音的信道信息,以及所述第一语音对应的信道的频率响应,生成所述第一语音对应的信道模型。
可选的,信息处理子模块,具体用于获取所述第二语音的频谱,以及所述第二语音对应的信道的频率响应;根据所述第二语音的频谱以及所述第二语音对应的信道的频率响应确定所述第二语音对应的源语音的频谱,其中,所述第二语音对应的源语音经所述第二语音对应的信道得到所述第二语音;根据所述第二语音对应的源语音的频谱,以及所述第一语音对应的信道模型,确定与所述第一语音的信道信息一致的语音的频谱;根据与所述第一语音的信道信息一致的语音的频谱,获得与所述第一语音的信道信息一致的语音。
可选的,所述两条语音中的其中一条语音为一场景中的待验证语音,另一条语音为另一场景对应的声纹库中的一注册语音。
本申请实施例提供的跨场景声纹对比装置,在获得属于不同场景中的两条语音后,考虑到不同场景中的语音所采用的编码格式不同,首先将两条语音处理为同一编码格式的语音,在获得具有相同编码格式的两条语音后,考虑到可能存在语音质量不佳的情况,为了后续能够获得更加有价值的比对结果,对具有相同编码格式的两条语音中的至少一条语音进行质量检测,在语音质量满足要求时,考虑到不同场景中语音的信道信息不同,进一步将具有相同编码格式的两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音,从而获得信道信息一致的两条语音,接下来便可对编码格式相同且信道信息一致的两条语音分别提取声纹特征,进而对提取的声纹特征进行比对。由于本申请实施例提供的跨场景声纹对比方法,充分考虑了不同语音场景语音的差异性以及语音质量对声纹比对结果的影响,因此,可获得较好的声纹比对效果。
第六实施例
本申请实施例还提供了一种跨场景声纹对比设备,请参阅图7,示出了该跨场景声纹对比设备的结构示意图,该跨场景声纹对比设备可以包括:至少一个处理器701,至少一个通信接口702,至少一个存储器703和至少一个通信总线704;
在本申请实施例中,处理器701、通信接口702、存储器703、通信总线704的数量为至少一个,且处理器701、通信接口702、存储器703通过通信总线704完成相互间的通信;
处理器701可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器703可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取两条语音,其中,所述两条语音中的其中一条语音属于第一场景,另一条语音属于与所述第一场景不同的第二场景;
将所述两条语音处理为同一编码格式的语音,获得具有相同编码格式的两条语音;
将所述具有相同编码格式的两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音,获得信道信息一致的两条语音;
对所述信道信息一致的两条语音分别提取声纹特征,并对提取的声纹特征进行比对。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
第七实施例
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
获取两条语音,其中,所述两条语音中的其中一条语音属于第一场景,另一条语音属于与所述第一场景不同的第二场景;
将所述两条语音处理为同一编码格式的语音,获得具有相同编码格式的两条语音;
将所述具有相同编码格式的两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音,获得信道信息一致的两条语音;
对所述信道信息一致的两条语音分别提取声纹特征,并对提取的声纹特征进行比对。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (11)
1.一种跨场景声纹对比方法,其特征在于,包括:
获取两条语音,其中,所述两条语音中的第一语音属于第一场景,第二语音属于与所述第一场景不同的第二场景;
将所述两条语音处理为同一编码格式的语音,获得具有相同编码格式的两条语音;
获取所述具有相同编码格式的两条语音中第一语音的信道信息,并根据所述第一语音的信道信息,以及所述第一语音对应的信道的频率响应,生成所述第一语音对应的信道模型;
获取所述第二语音的频谱,以及所述第二语音对应的信道的频率响应,所述第二语音的信道信息为第二语音对应的源语音所经信道的信息;
根据所述第二语音的频谱以及所述第二语音对应的信道的频率响应确定所述第二语音对应的源语音的频谱,其中,所述第二语音对应的源语音经所述第二语音对应的信道得到所述第二语音;
根据所述第二语音对应的源语音的频谱,以及所述第一语音对应的信道模型,确定与所述第一语音的信道信息一致的语音的频谱;
根据与所述第一语音的信道信息一致的语音的频谱,获得与所述第一语音的信道信息一致的语音;
对所述信道信息一致的两条语音分别提取声纹特征,并对提取的声纹特征进行比对。
2.根据权利要求1所述的跨场景声纹对比方法,其特征在于,所述将所述两条语音处理为同一编码格式的语音,包括:
将所述两条语音处理成具有相同采样率、相同量化比特数、相同编码方式的语音,其中,处理后语音的采样率为所述两条语音的采样率中的最大采样率。
3.根据权利要求1所述的跨场景声纹对比方法,其特征在于,还包括:
检测所述具有相同编码格式的两条语音中的至少一条语音是否满足质量要求;
若满足,则执行所述将所述具有相同编码格式两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音。
4.根据权利要求3所述的跨场景声纹对比方法,其特征在于,检测一条语音是否满足质量要求,包括:
获取该语音的质量表征指标,其中,所述质量表征指标包括有效时长、信噪比、截幅比、语音归一化平均能量中的一个或多个;
根据所述质量表征指标和所述质量表征指标对应的质量检测阈值,确定该语音是否满足质量要求。
5.根据权利要求4所述的跨场景声纹对比方法,其特征在于,所述信噪比、所述截幅比和所述语音归一化平均能量对应同一质量检测阈值;
确定所述信噪比、所述截幅比和所述语音归一化平均能量对应的质量检测阈值的过程包括:
获取质量检测集合中每条语音的信噪比、截幅比和语音归一化平均能量,其中,所述质量检测集合由该语音所属场景对应的声纹库中的语音组成;
确定所述质量检测集合中所有优质语音的信噪比均值、截幅比均值和语音归一化平均能量均值,并确定所述质量检测集合中所有非优质语音的信噪比均值、截幅比均值和语音归一化平均能量均值;
根据所述质量检测集合中所有优质语音的信噪比均值、截幅比均值和语音归一化平均能量均值确定第一阈值,并根据所述质量检测集合中所有非优质语音的信噪比均值、截幅比均值和语音归一化平均能量均值确定第二阈值;
根据所述第一阈值和所述第二阈值,确定所述信噪比、所述截幅比和所述语音归一化平均能量对应的质量检测阈值。
6.根据权利要求1所述的跨场景声纹对比方法,其特征在于,所述获取所述具有相同编码格式的两条语音中第一语音的信道信息,包括:
获取所述第一语音的频谱;
采用联合因子分析法,从所述第一语音的频谱中分离出信道信息,以得到所述第一语音的信道信息。
7.根据权利要求1~6中任一项所述的跨场景声纹对比方法,其特征在于,所述两条语音中的其中一条语音为一场景中的待验证语音,另一条语音为另一场景对应的声纹库中的一注册语音。
8.一种跨场景声纹对比装置,其特征在于,包括:语音获取模块、第一处理模块、第二处理模块、声纹提取模块和声纹比对模块,所述第二处理模块包括信道模型生成子模块和信息处理子模块;
所述语音获取模块,用于获取两条语音,其中,所述两条语音中的第一语音属于第一场景,第二语音属于与所述第一场景不同的第二场景;
所述第一处理模块,用于将所述两条语音处理为同一编码格式的语音,获得具有相同编码格式的两条语音;
所述第二处理模块,用于将所述具有相同编码格式的两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音,获得信道信息一致的两条语音;
所述声纹提取模块,用于对所述信道信息一致的两条语音分别提取声纹特征,得到提取出的声纹特征;
所述声纹比对模块,用于对所述提取出的声纹特征进行比对;
所述第二处理模块,具体用于获取所述具有相同编码格式的两条语音中第一语音的信道信息,并根据所述第一语音的信道信息生成所述第一语音对应的信道模型,利用所述第一语音对应的信道模型,将所述具有相同编码格式的两条语音中的第二语音处理成与所述第一语音的信道信息一致的语音;
所述信道模型生成子模块,具体用于根据所述第一语音的信道信息,以及所述第一语音对应的信道的频率响应,生成所述第一语音对应的信道模型;
所述信息处理子模块,具体用于获取所述第二语音的频谱,以及所述第二语音对应的信道的频率响应,所述第二语音的信道信息为第二语音对应的源语音所经信道的信息;根据所述第二语音的频谱以及所述第二语音对应的信道的频率响应确定所述第二语音对应的源语音的频谱,其中,所述第二语音对应的源语音经所述第二语音对应的信道得到所述第二语音;根据所述第二语音对应的源语音的频谱,以及所述第一语音对应的信道模型,确定与所述第一语音的信道信息一致的语音的频谱;根据与所述第一语音的信道信息一致的语音的频谱,获得与所述第一语音的信道信息一致的语音。
9.根据权利要求8所述的跨场景声纹对比装置,其特征在于,还包括:语音质量检测模块;
所述语音质量检测模块,用于检测所述具有相同编码格式的两条语音中的至少一条语音是否满足质量要求;
所述第二处理模块,具体用于当所述具有相同编码格式的两条语音中的至少一条语音满足质量要求时,将所述具有相同编码格式两条语音中的其中一条语音处理成与另一条语音的信道信息一致的语音。
10.一种跨场景声纹对比设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~7中任一项所述的跨场景声纹对比方法的各个步骤。
11.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~7中任一项所述的跨场景声纹对比方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010597183.5A CN111653283B (zh) | 2020-06-28 | 2020-06-28 | 一种跨场景声纹比对方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010597183.5A CN111653283B (zh) | 2020-06-28 | 2020-06-28 | 一种跨场景声纹比对方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111653283A CN111653283A (zh) | 2020-09-11 |
CN111653283B true CN111653283B (zh) | 2024-03-01 |
Family
ID=72352428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010597183.5A Active CN111653283B (zh) | 2020-06-28 | 2020-06-28 | 一种跨场景声纹比对方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111653283B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112599137A (zh) * | 2020-12-16 | 2021-04-02 | 康键信息技术(深圳)有限公司 | 验证声纹模型识别效果的方法、装置和计算机设备 |
CN113327617B (zh) * | 2021-05-17 | 2024-04-19 | 西安讯飞超脑信息科技有限公司 | 声纹判别方法、装置、计算机设备和存储介质 |
CN113327618B (zh) * | 2021-05-17 | 2024-04-19 | 西安讯飞超脑信息科技有限公司 | 声纹判别方法、装置、计算机设备和存储介质 |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11272298A (ja) * | 1998-03-24 | 1999-10-08 | Kokusai Electric Co Ltd | 音声通信方法及び音声通信装置 |
JP2001266002A (ja) * | 2000-03-21 | 2001-09-28 | Nippon Telegr & Teleph Corp <Ntt> | 個人認証による個人適応型情報提供方法及び装置 |
CA2375165A1 (en) * | 2002-03-08 | 2003-09-08 | Diaphonics, Inc. | Voice data privacy and protection system |
EP2374123A1 (fr) * | 2008-12-15 | 2011-10-12 | France Telecom | Codage perfectionne de signaux audionumeriques multicanaux |
WO2017012496A1 (zh) * | 2015-07-23 | 2017-01-26 | 阿里巴巴集团控股有限公司 | 一种用户声纹模型构建方法、装置及系统 |
CN106971711A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 一种自适应的声纹识别方法及系统 |
CN107705791A (zh) * | 2016-08-08 | 2018-02-16 | 中国电信股份有限公司 | 基于声纹识别的来电身份确认方法、装置和声纹识别系统 |
CN107958047A (zh) * | 2017-11-24 | 2018-04-24 | 四川长虹电器股份有限公司 | 一种提高个性化推荐系统性能的方法 |
CN108305633A (zh) * | 2018-01-16 | 2018-07-20 | 平安科技(深圳)有限公司 | 语音验证方法、装置、计算机设备和计算机可读存储介质 |
CN108880736A (zh) * | 2017-05-08 | 2018-11-23 | 深圳清华大学研究院 | 一种上行非正交多址接入系统的传输方法 |
CN109273010A (zh) * | 2018-08-21 | 2019-01-25 | 深圳市声扬科技有限公司 | 语音数据处理方法、装置、计算机设备和存储介质 |
CN109410956A (zh) * | 2018-12-24 | 2019-03-01 | 科大讯飞股份有限公司 | 一种音频数据的对象识别方法、装置、设备及存储介质 |
CN109859745A (zh) * | 2019-03-27 | 2019-06-07 | 北京爱数智慧科技有限公司 | 一种音频处理方法、设备及计算机可读介质 |
WO2020007495A1 (en) * | 2018-07-06 | 2020-01-09 | Veridas Digital Authentication Solutions, S.L. | Authenticating a user |
CN110782902A (zh) * | 2019-11-06 | 2020-02-11 | 北京远鉴信息技术有限公司 | 音频数据确定方法、装置、设备和介质 |
CN111081257A (zh) * | 2018-10-19 | 2020-04-28 | 珠海格力电器股份有限公司 | 一种语音采集方法、装置、设备及存储介质 |
CN111131616A (zh) * | 2019-12-28 | 2020-05-08 | 科大讯飞股份有限公司 | 基于智能终端的音频共享方法及相关装置 |
CN111312283A (zh) * | 2020-02-24 | 2020-06-19 | 中国工商银行股份有限公司 | 跨信道声纹处理方法及装置 |
CN111341325A (zh) * | 2020-02-13 | 2020-06-26 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、存储介质、电子装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9502038B2 (en) * | 2013-01-28 | 2016-11-22 | Tencent Technology (Shenzhen) Company Limited | Method and device for voiceprint recognition |
-
2020
- 2020-06-28 CN CN202010597183.5A patent/CN111653283B/zh active Active
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11272298A (ja) * | 1998-03-24 | 1999-10-08 | Kokusai Electric Co Ltd | 音声通信方法及び音声通信装置 |
JP2001266002A (ja) * | 2000-03-21 | 2001-09-28 | Nippon Telegr & Teleph Corp <Ntt> | 個人認証による個人適応型情報提供方法及び装置 |
CA2375165A1 (en) * | 2002-03-08 | 2003-09-08 | Diaphonics, Inc. | Voice data privacy and protection system |
EP2374123A1 (fr) * | 2008-12-15 | 2011-10-12 | France Telecom | Codage perfectionne de signaux audionumeriques multicanaux |
WO2017012496A1 (zh) * | 2015-07-23 | 2017-01-26 | 阿里巴巴集团控股有限公司 | 一种用户声纹模型构建方法、装置及系统 |
CN106971711A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 一种自适应的声纹识别方法及系统 |
CN107705791A (zh) * | 2016-08-08 | 2018-02-16 | 中国电信股份有限公司 | 基于声纹识别的来电身份确认方法、装置和声纹识别系统 |
CN108880736A (zh) * | 2017-05-08 | 2018-11-23 | 深圳清华大学研究院 | 一种上行非正交多址接入系统的传输方法 |
CN107958047A (zh) * | 2017-11-24 | 2018-04-24 | 四川长虹电器股份有限公司 | 一种提高个性化推荐系统性能的方法 |
CN108305633A (zh) * | 2018-01-16 | 2018-07-20 | 平安科技(深圳)有限公司 | 语音验证方法、装置、计算机设备和计算机可读存储介质 |
WO2020007495A1 (en) * | 2018-07-06 | 2020-01-09 | Veridas Digital Authentication Solutions, S.L. | Authenticating a user |
CN109273010A (zh) * | 2018-08-21 | 2019-01-25 | 深圳市声扬科技有限公司 | 语音数据处理方法、装置、计算机设备和存储介质 |
CN111081257A (zh) * | 2018-10-19 | 2020-04-28 | 珠海格力电器股份有限公司 | 一种语音采集方法、装置、设备及存储介质 |
CN109410956A (zh) * | 2018-12-24 | 2019-03-01 | 科大讯飞股份有限公司 | 一种音频数据的对象识别方法、装置、设备及存储介质 |
CN109859745A (zh) * | 2019-03-27 | 2019-06-07 | 北京爱数智慧科技有限公司 | 一种音频处理方法、设备及计算机可读介质 |
CN110782902A (zh) * | 2019-11-06 | 2020-02-11 | 北京远鉴信息技术有限公司 | 音频数据确定方法、装置、设备和介质 |
CN111131616A (zh) * | 2019-12-28 | 2020-05-08 | 科大讯飞股份有限公司 | 基于智能终端的音频共享方法及相关装置 |
CN111341325A (zh) * | 2020-02-13 | 2020-06-26 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、存储介质、电子装置 |
CN111312283A (zh) * | 2020-02-24 | 2020-06-19 | 中国工商银行股份有限公司 | 跨信道声纹处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111653283A (zh) | 2020-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111653283B (zh) | 一种跨场景声纹比对方法、装置、设备及存储介质 | |
KR102339594B1 (ko) | 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체 | |
WO2018166187A1 (zh) | 服务器、身份验证方法、系统及计算机可读存储介质 | |
CN103475490B (zh) | 一种身份验证方法及装置 | |
WO2020181824A1 (zh) | 声纹识别方法、装置、设备以及计算机可读存储介质 | |
CN110265037B (zh) | 身份验证方法、装置、电子设备及计算机可读存储介质 | |
CN108597505B (zh) | 语音识别方法、装置及终端设备 | |
CN105989836B (zh) | 一种语音采集方法、装置及终端设备 | |
CN104834849A (zh) | 基于声纹识别和人脸识别的双因素身份认证方法及系统 | |
CN109117622B (zh) | 一种基于音频指纹的身份认证方法 | |
CN104517066A (zh) | 一种文件夹加密方法 | |
CN113823293B (zh) | 一种基于语音增强的说话人识别方法及系统 | |
CN110634492B (zh) | 登录验证方法、装置、电子设备及计算机可读存储介质 | |
CN111312286A (zh) | 年龄识别方法、装置、设备及计算机可读存储介质 | |
CN111833884A (zh) | 一种声纹特征提取方法、装置、电子设备及存储介质 | |
CN113889091A (zh) | 语音识别方法、装置、计算机可读存储介质及电子设备 | |
CN204576520U (zh) | 基于声纹识别和人脸识别的双因素身份认证装置 | |
CN109920447A (zh) | 基于自适应滤波器振幅相位特征提取的录音欺诈检测方法 | |
CN112735381A (zh) | 一种模型更新方法及装置 | |
CN112420056A (zh) | 基于变分自编码器的说话人身份鉴别方法、系统及无人机 | |
CN116312559A (zh) | 跨信道声纹识别模型的训练方法、声纹识别方法及装置 | |
CN106373576B (zh) | 一种基于vq和svm算法的说话人确认方法及其系统 | |
CN112581975B (zh) | 基于信号混叠和双声道相关性的超声波语音指令防御方法 | |
CN109273003B (zh) | 用于行车记录仪的语音控制方法及系统 | |
CN114333817A (zh) | 遥控器及遥控器语音识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |