CN111312283B - 跨信道声纹处理方法及装置 - Google Patents

跨信道声纹处理方法及装置 Download PDF

Info

Publication number
CN111312283B
CN111312283B CN202010111539.XA CN202010111539A CN111312283B CN 111312283 B CN111312283 B CN 111312283B CN 202010111539 A CN202010111539 A CN 202010111539A CN 111312283 B CN111312283 B CN 111312283B
Authority
CN
China
Prior art keywords
channel
voiceprint
audio data
network
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010111539.XA
Other languages
English (en)
Other versions
CN111312283A (zh
Inventor
吕楠楠
巫昌凯
宁博
李麒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202010111539.XA priority Critical patent/CN111312283B/zh
Publication of CN111312283A publication Critical patent/CN111312283A/zh
Application granted granted Critical
Publication of CN111312283B publication Critical patent/CN111312283B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请实施例提供一种跨信道声纹处理方法及装置,方法包括:应用预设的信道转换网络对目标声纹识别指令对应的目标音频数据进行信道转换,得到对应的信道转换后音频数据,其中,所述信道转换网络用于实现网络信道数据与电话信道数据之间的转换;基于所述目标声纹识别指令对应的声纹处理方式,对所述信道转换后音频数据进行声纹处理,并输出对应的处理结果。本申请能够有效实现不同信道之间的音频声纹处理,并能够有效提高声纹处理过程的可靠性,并提高声纹处理结果的准确性。

Description

跨信道声纹处理方法及装置
技术领域
本申请涉及声纹处理技术领域,具体涉及跨信道声纹处理方法及装置。
背景技术
目前,人工智能技术广泛应用于各领域,尤其是在办公领域中的应用,将大量重复性流程剥离出主要业务流程,显著地提高了办公效率及正确率。在人工智能技术领域中,声纹识别技术正逐渐应用到银行业,典型应用场景为电话银行,电话银行呼叫中心使用声纹识别作为用户身份验证的辅助手段,并基于声纹识别技术搭建声纹黑名单,在抵制电话诈骗的场景下有着广阔的应用空间。
在声纹识别应用过程中,不同信道采集到的音频数据频率不同。其中,电话信道采集的音频数据频率为8k,网络信道采集的音频数据频率为16k。当前通用声纹识别算法识别准确率受信道影响比较大,能较为理想地支持同一信道的音频数据注册识别,但无法为跨信道声纹认证识别提供有力的技术支持。而实际场景下,用户往往仅在特定信道下采集音频,之后进行跨信道的认证识别,因此实际应用中声纹认证识别的准确率并不高。
发明内容
针对现有技术中的问题,本申请提供一种跨信道声纹处理方法及装置,能够有效实现不同信道之间的音频声纹处理,并能够有效提高声纹处理过程的可靠性,并提高声纹处理结果的准确性。
为解决上述技术问题,本申请提供以下技术方案:
第一方面,本申请提供一种跨信道声纹处理方法,包括:
应用预设的信道转换网络对目标声纹识别指令对应的目标音频数据进行信道转换,得到对应的信道转换后音频数据,其中,所述信道转换网络用于实现网络信道数据与电话信道数据之间的转换;
基于所述目标声纹识别指令对应的声纹处理方式,对所述信道转换后音频数据进行声纹处理,并输出对应的处理结果。
进一步地,在所述应用预设的信道转换网络对目标声纹识别指令对应的目标音频数据进行信道转换之前,还包括:
获取目标声纹识别指令对应的音频数据;
对所述音频数据进行预处理;
对经预处理后的音频数据进行音频格式转换,得到对应的目标音频数据。
进一步地,所述对所述音频数据进行预处理,包括:
对所述音频数据进行去噪音和/或去静音段处理。
进一步地,所述对经预处理后的音频数据进行音频格式转换,得到对应的目标音频数据,包括:
应用预设的梅尔倒谱系数MFCC算法提取经预处理后的音频数据中的十三维音频特征,作为对应的目标音频数据。
进一步地,在所述得到对应的信道转换后音频数据之后,还包括:
在对目标声纹识别指令对应的目标音频数据进行信道转换之后,将对应得到的分类残差输入至预设的域分类器的损失函数,以应用该损失函数对所述信道转换网络进行自动化参数优化。
进一步地,所述声纹处理方式包括:声纹识别和/或声纹认证。
进一步地,在所述应用预设的信道转换网络对目标声纹识别指令对应的目标音频数据进行信道转换之前,还包括:
应用带标签的第一历史网络信道及第一历史电话信道数据训练得到一域分类器;
以及,将带标签的第二历史网络信道及第二历史电话信道数据输入预设的信道转换网络,得到该信道转换网络对应输出的数据;
基于所述域分类器训练所述信道转换网络。
进一步地,所述基于所述域分类器训练所述信道转换网络,包括:
应用所述域分类器对所述信道转换网络对应输出的数据进行分类,并得到对应的分类残差;
应用所述分类残差作为所述域分类器的损失函数进行反向传播,通过预设的随机梯度下降方法迭代训练所述信道转换网络,直至得到的分类残差小于误差阈值。
第二方面,本申请提供一种跨信道声纹处理装置,包括:
信道转换网络模块,用于应用预设的信道转换网络对目标声纹识别指令对应的目标音频数据进行信道转换,得到对应的信道转换后音频数据,其中,所述信道转换网络用于实现网络信道数据与电话信道数据之间的转换;
处理响应模块,用于基于所述目标声纹识别指令对应的声纹处理方式,对所述信道转换后音频数据进行声纹处理,并输出对应的处理结果。
进一步地,还包括:
数据采集模块,用于获取目标声纹识别指令对应的音频数据;
数据预处理模块,用于对所述音频数据进行预处理;
格式转换模块,用于对经预处理后的音频数据进行音频格式转换,得到对应的目标音频数据。
进一步地,所述数据预处理模块包括:
预处理单元,用于对所述音频数据进行去噪音和/或去静音段处理。
进一步地,所述格式转换模块包括:
特征提取单元,用于应用预设的梅尔倒谱系数MFCC算法提取经预处理后的音频数据中的十三维音频特征,作为对应的目标音频数据。
进一步地,还包括:
域分类器模块,用于在对目标声纹识别指令对应的目标音频数据进行信道转换之后,将对应得到的分类残差输入至预设的域分类器的损失函数,以应用该损失函数对所述信道转换网络进行自动化参数优化。
进一步地,所述声纹处理方式包括:声纹识别和/或声纹认证。
进一步地,还包括:
域分类器训练模块,用于应用带标签的第一历史网络信道及第一历史电话信道数据训练得到一域分类器;
历史数据应用模块,用于将带标签的第二历史网络信道及第二历史电话信道数据输入预设的信道转换网络,得到该信道转换网络对应输出的数据;
网络训练模块,用于基于所述域分类器训练所述信道转换网络。
进一步地,所述网络训练模块包括:
分类残差获取单元,用于应用所述域分类器对所述信道转换网络对应输出的数据进行分类,并得到对应的分类残差;
迭代训练单元,用于应用所述分类残差作为所述域分类器的损失函数进行反向传播,通过预设的随机梯度下降方法迭代训练所述信道转换网络,直至得到的分类残差小于误差阈值。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的跨信道声纹处理方法的步骤。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的跨信道声纹处理方法的步骤。
由上述技术方案可知,本申请提供的一种跨信道声纹处理方法及装置,方法包括:应用预设的信道转换网络对目标声纹识别指令对应的目标音频数据进行信道转换,得到对应的信道转换后音频数据,其中,所述信道转换网络用于实现网络信道数据与电话信道数据之间的转换;基于所述目标声纹识别指令对应的声纹处理方式,对所述信道转换后音频数据进行声纹处理,并输出对应的处理结果,能够有效实现不同信道之间的音频声纹处理,实现跨信道推送音频处理过程的无差异化,并能够有效提高声纹处理过程的可靠性、智能化程度及识别效率,并提高声纹处理结果的准确性,进而能够更好地适应实际音频采集与应用场景,即能够提高跨信道音频识别或认证的准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例中的跨信道声纹处理方法的流程示意图。
图2是本申请实施例中的跨信道声纹处理方法中步骤010至步骤030的流程示意图。
图3是本申请实施例中的包含有步骤300的跨信道声纹处理方法的流程示意图。
图4是本申请实施例中的跨信道声纹处理方法中步骤410至步骤430的流程示意图。
图5是本申请实施例中的跨信道声纹处理方法中步骤430的具体流程示意图。
图6是本申请具体应用实例的声纹识别系统结构图。
图7是本申请具体应用实例的述跨信道声纹处理方法的流程图。
图8是本申请具体应用实例中信道转换网络的训练流程图。
图9是本申请实施例中的跨信道声纹处理装置的第一种结构示意图。
图10是本申请实施例中的跨信道声纹处理装置的第二种结构示意图。
图11是本申请实施例中的跨信道声纹处理装置的第三种结构示意图。
图12是本申请实施例中的跨信道声纹处理装置的第四种结构示意图。
图13是本申请实施例中的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请旨在解决声纹识别算法在跨信道声纹识别场景下识别准确率低的问题。本申请的关键点在于构建了信道转换网络。在声纹识别过程中,首先进行音频采集,接着把采集到的音频进行预处理,如降噪去静音段等;然后使用信道转换网络处理预处理后的音频,最后将处理好的音频推送给声纹识别系统进行认证或识别。本申请通过信道转换网络实现跨音频推送音频处理系统无差异化,进而提高跨信道音频的识别准确率,从而更好地适应实际音频采集与应用场景。
基于此,申请提供一种跨信道声纹处理方法、跨信道声纹处理装置、电子设备及计算机可读存储介质,通过应用预设的信道转换网络对目标声纹识别指令对应的目标音频数据进行信道转换,得到对应的信道转换后音频数据,其中,所述信道转换网络用于实现网络信道数据与电话信道数据之间的转换;基于所述目标声纹识别指令对应的声纹处理方式,对所述信道转换后音频数据,进行声纹处理,并输出对应的处理结果,能够有效实现不同信道之间的音频声纹处理,实现跨信道推送音频处理过程的无差异化,并能够有效提高声纹处理过程的可靠性、智能化程度及识别效率,并提高声纹处理结果的准确性,进而能够更好地适应实际音频采集与应用场景,即能够提高跨信道音频识别或认证的准确率。
为了有效实现不同信道之间的音频声纹处理,并能够有效提高声纹处理过程的可靠性,并提高声纹处理结果的准确性,本申请提供一种跨信道声纹处理方法的实施例,参见图1,所述跨信道声纹处理方法具体包含有如下内容:
步骤100:应用预设的信道转换网络对目标声纹识别指令对应的目标音频数据进行信道转换,得到对应的信道转换后音频数据,其中,所述信道转换网络用于实现网络信道数据与电话信道数据之间的转换。
在步骤100中,用于执行跨信道声纹处理方法的服务器可以接收与其通信连接的客户终端发送的声纹识别指令,并将其作为当前的目标声纹识别指令进行处理,即:用于执行跨信道声纹处理方法的服务器首先自所述目标声纹识别指令中或重新自所述客户终端采集目标声纹识别指令对应的音频数据,而后应用预先存储在本地或其他通信连接的服务器或数据库中的信道转换网络,对目标声纹识别指令对应的该音频数据进行信道转换。
可以理解的是,对目标声纹识别指令对应的该音频数据进行信道转换的具体方式至少有二:
其一为:采集的目标声纹识别指令对应的音频数据的类型为网络信道数据,则将该网络信道数据输入用于将网络信道数据转化为电话信道数据的信道转换网络,并将该信道转换网络的输出的对应的电话信道数据作为信道转换后音频数据进行后续处理。
其二为:采集的目标声纹识别指令对应的音频数据的类型为电话信道数据,则将该网络信道数据输入用于将电话信道数据转化为网络信道数据的信道转换网络,并将该信道转换网络的输出的对应的网络信道数据作为信道转换后音频数据进行后续处理。
步骤200:基于所述目标声纹识别指令对应的声纹处理方式,对所述信道转换后音频数据进行声纹处理,并输出对应的处理结果。
其中,所述声纹处理方式至少包含有两种:声纹识别方式和声纹认证方式。
在步骤200中,所述用于执行跨信道声纹处理方法的服务器可以同时具有声纹处理功能(预先存储有用于进行声纹处理的程序),所述用于执行跨信道声纹处理方法的服务器可以先获取所述目标声纹识别指令中存储的声纹处理方式,而后基于该声纹处理方式对所述信道转换后音频数据进行声纹处理,得到对应的处理结果。
以及,所述用于执行跨信道声纹处理方法的服务器还可以将信道转换后音频数据发送至具有声纹处理功能的另一服务器,以使该另一服务器可以先获取所述目标声纹识别指令中存储的声纹处理方式,而后基于该声纹处理方式对所述信道转换后音频数据进行声纹处理,得到对应的处理结果。
为进一步提高音频数据信道转换的准确性及可靠性,在本申请提供的跨信道声纹处理方法的一实施例中,参见图2,所述跨信道声纹处理方法的步骤100之前还具体包含有如下内容:
步骤010:获取目标声纹识别指令对应的音频数据。
步骤020:对所述音频数据进行预处理。
步骤030:对经预处理后的音频数据进行音频格式转换,得到对应的目标音频数据。
为有效提高对所述音频数据进行预处理的可靠性,以进一步提高音频数据信道转换的准确性及可靠性,在本申请提供的跨信道声纹处理方法的一实施例中,所述跨信道声纹处理方法的步骤020具体包含有如下内容:
步骤021:对所述音频数据进行去噪音和/或去静音段处理。
为进一步有效提高对所述音频数据进行预处理的可靠性,以进一步提高音频数据信道转换的准确性及可靠性,在本申请提供的跨信道声纹处理方法的一实施例中,所述跨信道声纹处理方法的步骤030具体包含有如下内容:
步骤031:应用预设的梅尔倒谱系数MFCC算法提取经预处理后的音频数据中的十三维音频特征,作为对应的目标音频数据。
为进一步有效提高信道转换网络的应用准确性及智能化程度,以进一步提高音频数据信道转换的准确性及可靠性,在本申请提供的跨信道声纹处理方法的一实施例中,参见图3,所述跨信道声纹处理方法的步骤100之后还具体包含有如下内容:
步骤300:在对目标声纹识别指令对应的目标音频数据进行信道转换之后,将对应得到的分类残差输入至预设的域分类器的损失函数,以应用该损失函数对所述信道转换网络进行自动化参数优化。
为了进一步提高信道转换的准确性、可靠性及智能化程度,在本申请提供的跨信道声纹处理方法的一实施例中,参见图4,所述跨信道声纹处理方法的步骤100之前还具体包含有如下内容:
步骤410:应用带标签的第一历史网络信道及第一历史电话信道数据训练得到一域分类器。
步骤420:将带标签的第二历史网络信道及第二历史电话信道数据输入预设的信道转换网络,得到该信道转换网络对应输出的数据。
步骤430:基于所述域分类器训练所述信道转换网络。
为了有效提高信道转换网络训练的准确性、可靠性及智能化程度,以进一步提高信道转换的准确性、可靠性及智能化程度,在本申请提供的跨信道声纹处理方法的一实施例中,参见图5,所述跨信道声纹处理方法的步骤430具体包含有如下内容:
步骤431:应用所述域分类器对所述信道转换网络对应输出的数据进行分类,并得到对应的分类残差。
步骤432:应用所述分类残差作为所述域分类器的损失函数进行反向传播,通过预设的随机梯度下降方法迭代训练所述信道转换网络,直至得到的分类残差小于误差阈值。
为进一步说明本方案,本申请还提供一种跨信道声纹处理方法的具体应用实例,所述跨信道声纹处理方法具体包含有如下内容:
图6为本申请具体应用实例的声纹识别系统结构图,包括数据预处理模块、信道转换网络、域分类器、处理响应模块。
数据预处理模块1,对采集到的音频数据降噪,去静音段,接着通过梅尔倒谱系数(MFCC)转换音频数据格式;
信道转换网络模块2,用于对音频的信道进行转换,并将处理后的音频传送给音频处理模块;
域分类器模块3,通过损失函数评估信道转换网络的效果,并自动纠正信道转换网络的主要参数,用于后续优化信道转换网络;
处理响应模块4,按照用户需求处理音频,响应指令。
图7为本申请具体应用实例的述跨信道声纹处理方法的流程图,包括以下步骤:
步骤S101:数据预处理模块接收音频后,先对录入音频进行预处理,主要包括连通域去噪音、vad去静音段等去除噪音及静音;
步骤S102:数据预处理模块接收S101处理后的音频,使用MFCC算法提取13维音频特征,并推送给信道转换网络;
步骤S103:信道转换网络转换S102处理完成后的音频,并将处理误差传递给损失函数,域分类器根据损失函数自动优化信道转换网络的主要参数;
步骤S104:处理响应模块接收信道转换网络处理后的音频,并根据用户指令处理音频,相应指令。
图8为本申请具体应用实例中信道转换网络的训练流程图,具体包含有如下内容:
步骤S101:使用第一批带标签的网络信道及电话信道数据训练出一个效果良好的域分类器,用于分类。
步骤S102:将第二批带标签的网络信道及电话信道的数据输入信道转换网络。
步骤S103:使用S101训练出的域分类器对S102处理后的数据进行分类,并计算出分类残差。
步骤S104:使用分类残差作为损失函数进行反向传播,通过随机梯度下降方法迭代训练信道转换网络,直到分类残差小于设定的误差阈值,即完成信道转换网络的训练。
从上述描述可知,本申请具体应用实例提供的跨信道声纹处理方法,能够解决声纹识别系统在跨信道声纹识别中准确率不佳的问题,并能够使用信道转换网络处理MFCC处理后的音频数据,实现跨信道数据无差异化,显著提高了跨信道音频识别的准确度;以及通过使用损失函数和域分类器自动优化信道转换网络的主要参数,能更好地处理实际生产环境中质量较差的音频数据。
从软件层面来说,为了有效实现不同信道之间的音频声纹处理,并能够有效提高声纹处理过程的可靠性,并提高声纹处理结果的准确性,本申请提供一种用于实现所述跨信道声纹处理方法中全部或部分内容的跨信道声纹处理装置的实施例,参见图9,所述跨信道声纹处理装置具体包含有如下内容:
信道转换网络模块2,用于应用预设的信道转换网络对目标声纹识别指令对应的目标音频数据进行信道转换,得到对应的信道转换后音频数据,其中,所述信道转换网络用于实现网络信道数据与电话信道数据之间的转换。
处理响应模块4,用于基于所述目标声纹识别指令对应的声纹处理方式,对所述信道转换后音频数据进行声纹处理,并输出对应的处理结果。
为进一步提高音频数据信道转换的准确性及可靠性,在本申请提供的跨信道声纹处理装置的一实施例中,参见图10,所述跨信道声纹处理装置还具体包含有如下内容:
数据采集模块5,用于获取目标声纹识别指令对应的音频数据。
数据预处理模块1,用于对所述音频数据进行预处理。
格式转换模块6,用于对经预处理后的音频数据进行音频格式转换,得到对应的目标音频数据。
为有效提高对所述音频数据进行预处理的可靠性,以进一步提高音频数据信道转换的准确性及可靠性,在本申请提供的跨信道声纹处理装置的一实施例中,所述跨信道声纹处理装置的数据预处理模块1具体包含有如下内容:
预处理单元,用于对所述音频数据进行去噪音和/或去静音段处理。
为进一步有效提高对所述音频数据进行预处理的可靠性,以进一步提高音频数据信道转换的准确性及可靠性,在本申请提供的跨信道声纹处理装的一实施例中,所述跨信道声纹处理装置的格式转换模块6具体包含有如下内容:
特征提取单元,用于应用预设的梅尔倒谱系数MFCC算法提取经预处理后的音频数据中的十三维音频特征,作为对应的目标音频数据。
为进一步有效提高信道转换网络的应用准确性及智能化程度,以进一步提高音频数据信道转换的准确性及可靠性,在本申请提供的跨信道声纹处理装置的一实施例中,参见图11,所述跨信道声纹处理装置还具体包含有如下内容:
域分类器模块3,用于在对目标声纹识别指令对应的目标音频数据进行信道转换之后,将对应得到的分类残差输入至预设的域分类器的损失函数,以应用该损失函数对所述信道转换网络进行自动化参数优化。
其中,所述声纹处理方式包括:声纹识别和/或声纹认证。
为了进一步提高信道转换的准确性、可靠性及智能化程度,在本申请提供的跨信道声纹处理装置的一实施例中,参见图12,所述跨信道声纹处理装置还具体包含有如下内容:
域分类器训练模块7,用于应用带标签的第一历史网络信道及第一历史电话信道数据训练得到一域分类器;
历史数据应用模块8,用于将带标签的第二历史网络信道及第二历史电话信道数据输入预设的信道转换网络,得到该信道转换网络对应输出的数据;
网络训练模块9,用于基于所述域分类器训练所述信道转换网络。
为了有效提高信道转换网络训练的准确性、可靠性及智能化程度,以进一步提高信道转换的准确性、可靠性及智能化程度,在本申请提供的跨信道声纹处理装置的一实施例中,所述跨信道声纹处理装置的网络训练模块9具体包含有如下内容:
分类残差获取单元,用于应用所述域分类器对所述信道转换网络对应输出的数据进行分类,并得到对应的分类残差;
迭代训练单元,用于应用所述分类残差作为所述域分类器的损失函数进行反向传播,通过预设的随机梯度下降方法迭代训练所述信道转换网络,直至得到的分类残差小于误差阈值。
从上述描述可知,本申请实施例提供的跨信道声纹处理装置,能够有效实现不同信道之间的音频声纹处理,实现跨信道推送音频处理过程的无差异化,并能够有效提高声纹处理过程的可靠性、智能化程度及识别效率,并提高声纹处理结果的准确性,进而能够更好地适应实际音频采集与应用场景,即能够提高跨信道音频识别或认证的准确率。
从硬件层面来说,为了能够有效实现不同信道之间的音频声纹处理,并能够有效提高声纹处理过程的可靠性,并提高声纹处理结果的准确性,本申请提供一种用于实现所述跨信道声纹处理方法中的全部或部分内容的电子设备的实施例,所述电子设备具体包含有如下内容:
处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于实现电子设备与用户终端以及相关数据库等相关设备之间的信息传输;该电子设备可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该电子设备可以参照实施例中的跨信道声纹处理方法的实施例,以及,跨信道声纹处理装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。
图13为本申请实施例的电子设备9600的系统构成的示意框图。如图13所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图13是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
在一实施例中,跨信道声纹处理功能可以被集成到中央处理器中。其中,中央处理器可以被配置为进行如下控制:
步骤100:应用预设的信道转换网络对目标声纹识别指令对应的目标音频数据进行信道转换,得到对应的信道转换后音频数据,其中,所述信道转换网络用于实现网络信道数据与电话信道数据之间的转换。
在步骤100中,用于执行跨信道声纹处理方法的服务器可以接收与其通信连接的客户终端发送的声纹识别指令,并将其作为当前的目标声纹识别指令进行处理,即:用于执行跨信道声纹处理方法的服务器首先自所述目标声纹识别指令中或重新自所述客户终端采集目标声纹识别指令对应的音频数据,而后应用预先存储在本地或其他通信连接的服务器或数据库中的信道转换网络,对目标声纹识别指令对应的该音频数据进行信道转换。
可以理解的是,对目标声纹识别指令对应的该音频数据进行信道转换的具体方式至少有二:
其一为:采集的目标声纹识别指令对应的音频数据的类型为网络信道数据,则将该网络信道数据输入用于将网络信道数据转化为电话信道数据的信道转换网络,并将该信道转换网络的输出的对应的电话信道数据作为信道转换后音频数据进行后续处理。
其二为:采集的目标声纹识别指令对应的音频数据的类型为电话信道数据,则将该网络信道数据输入用于将电话信道数据转化为网络信道数据的信道转换网络,并将该信道转换网络的输出的对应的网络信道数据作为信道转换后音频数据进行后续处理。
步骤200:基于所述目标声纹识别指令对应的声纹处理方式,对所述信道转换后音频数据进行声纹处理,并输出对应的处理结果。
其中,所述声纹处理方式至少包含有两种:声纹识别方式和声纹认证方式。
在步骤200中,所述用于执行跨信道声纹处理方法的服务器可以同时具有声纹处理功能(预先存储有用于进行声纹处理的程序),所述用于执行跨信道声纹处理方法的服务器可以先获取所述目标声纹识别指令中存储的声纹处理方式,而后基于该声纹处理方式对所述信道转换后音频数据进行声纹处理,得到对应的处理结果。
以及,所述用于执行跨信道声纹处理方法的服务器还可以将信道转换后音频数据发送至具有声纹处理功能的另一服务器,以使该另一服务器可以先获取所述目标声纹识别指令中存储的声纹处理方式,而后基于该声纹处理方式对所述信道转换后音频数据进行声纹处理,得到对应的处理结果。
从上述描述可知,本申请实施例提供的电子设备,能够有效实现不同信道之间的音频声纹处理,实现跨信道推送音频处理过程的无差异化,并能够有效提高声纹处理过程的可靠性、智能化程度及识别效率,并提高声纹处理结果的准确性,进而能够更好地适应实际音频采集与应用场景,即能够提高跨信道音频识别或认证的准确率。
在另一个实施方式中,跨信道声纹处理装置可以与中央处理器9100分开配置,例如可以将跨信道声纹处理装置配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现跨信道声纹处理功能。
如图13所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图13中所示的所有部件;此外,电子设备9600还可以包括图13中没有示出的部件,可以参考现有技术。
如图13所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
本申请的实施例还提供能够实现上述实施例中的跨信道声纹处理方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的跨信道声纹处理方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤100:应用预设的信道转换网络对目标声纹识别指令对应的目标音频数据进行信道转换,得到对应的信道转换后音频数据,其中,所述信道转换网络用于实现网络信道数据与电话信道数据之间的转换。
在步骤100中,用于执行跨信道声纹处理方法的服务器可以接收与其通信连接的客户终端发送的声纹识别指令,并将其作为当前的目标声纹识别指令进行处理,即:用于执行跨信道声纹处理方法的服务器首先自所述目标声纹识别指令中或重新自所述客户终端采集目标声纹识别指令对应的音频数据,而后应用预先存储在本地或其他通信连接的服务器或数据库中的信道转换网络,对目标声纹识别指令对应的该音频数据进行信道转换。
可以理解的是,对目标声纹识别指令对应的该音频数据进行信道转换的具体方式至少有二:
其一为:采集的目标声纹识别指令对应的音频数据的类型为网络信道数据,则将该网络信道数据输入用于将网络信道数据转化为电话信道数据的信道转换网络,并将该信道转换网络的输出的对应的电话信道数据作为信道转换后音频数据进行后续处理。
其二为:采集的目标声纹识别指令对应的音频数据的类型为电话信道数据,则将该网络信道数据输入用于将电话信道数据转化为网络信道数据的信道转换网络,并将该信道转换网络的输出的对应的网络信道数据作为信道转换后音频数据进行后续处理。
步骤200:基于所述目标声纹识别指令对应的声纹处理方式,对所述信道转换后音频数据进行声纹处理,并输出对应的处理结果。
其中,所述声纹处理方式至少包含有两种:声纹识别方式和声纹认证方式。
在步骤200中,所述用于执行跨信道声纹处理方法的服务器可以同时具有声纹处理功能(预先存储有用于进行声纹处理的程序),所述用于执行跨信道声纹处理方法的服务器可以先获取所述目标声纹识别指令中存储的声纹处理方式,而后基于该声纹处理方式对所述信道转换后音频数据进行声纹处理,得到对应的处理结果。
以及,所述用于执行跨信道声纹处理方法的服务器还可以将信道转换后音频数据发送至具有声纹处理功能的另一服务器,以使该另一服务器可以先获取所述目标声纹识别指令中存储的声纹处理方式,而后基于该声纹处理方式对所述信道转换后音频数据进行声纹处理,得到对应的处理结果。
从上述描述可知,本申请实施例提供的计算机可读存储介质,能够有效实现不同信道之间的音频声纹处理,实现跨信道推送音频处理过程的无差异化,并能够有效提高声纹处理过程的可靠性、智能化程度及识别效率,并提高声纹处理结果的准确性,进而能够更好地适应实际音频采集与应用场景,即能够提高跨信道音频识别或认证的准确率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (16)

1.一种跨信道声纹处理方法,其特征在于,包括:
应用预设的信道转换网络对目标声纹识别指令对应的目标音频数据进行信道转换,得到对应的信道转换后音频数据,其中,所述信道转换网络用于实现网络信道数据与电话信道数据之间的转换;
基于所述目标声纹识别指令对应的声纹处理方式,对所述信道转换后音频数据进行声纹处理,并输出对应的处理结果;
在所述得到对应的信道转换后音频数据之后,还包括:
在对目标声纹识别指令对应的目标音频数据进行信道转换之后,将对应得到的分类残差输入至预设的域分类器的损失函数,以应用该损失函数对所述信道转换网络进行自动化参数优化。
2.根据权利要求1所述的跨信道声纹处理方法,其特征在于,在所述应用预设的信道转换网络对目标声纹识别指令对应的目标音频数据进行信道转换之前,还包括:
获取目标声纹识别指令对应的音频数据;
对所述音频数据进行预处理;
对经预处理后的音频数据进行音频格式转换,得到对应的目标音频数据。
3.根据权利要求2所述的跨信道声纹处理方法,其特征在于,所述对所述音频数据进行预处理,包括:
对所述音频数据进行去噪音和/或去静音段处理。
4.根据权利要求2所述的跨信道声纹处理方法,其特征在于,所述对经预处理后的音频数据进行音频格式转换,得到对应的目标音频数据,包括:
应用预设的梅尔倒谱系数MFCC算法提取经预处理后的音频数据中的十三维音频特征,作为对应的目标音频数据。
5.根据权利要求1所述的跨信道声纹处理方法,其特征在于,所述声纹处理方式包括:声纹识别和/或声纹认证。
6.根据权利要求1所述的跨信道声纹处理方法,其特征在于,在所述应用预设的信道转换网络对目标声纹识别指令对应的目标音频数据进行信道转换之前,还包括:
应用带标签的第一历史网络信道及第一历史电话信道数据训练得到一域分类器;
以及,将带标签的第二历史网络信道及第二历史电话信道数据输入预设的信道转换网络,得到该信道转换网络对应输出的数据;
基于所述域分类器训练所述信道转换网络。
7.根据权利要求6所述的跨信道声纹处理方法,其特征在于,所述基于所述域分类器训练所述信道转换网络,包括:
应用所述域分类器对所述信道转换网络对应输出的数据进行分类,并得到对应的分类残差;
应用所述分类残差作为所述域分类器的损失函数进行反向传播,通过预设的随机梯度下降方法迭代训练所述信道转换网络,直至得到的分类残差小于误差阈值。
8.一种跨信道声纹处理装置,其特征在于,包括:
信道转换网络模块,用于应用预设的信道转换网络对目标声纹识别指令对应的目标音频数据进行信道转换,得到对应的信道转换后音频数据,其中,所述信道转换网络用于实现网络信道数据与电话信道数据之间的转换;
处理响应模块,用于基于所述目标声纹识别指令对应的声纹处理方式,对所述信道转换后音频数据进行声纹处理,并输出对应的处理结果;
域分类器模块,用于在对目标声纹识别指令对应的目标音频数据进行信道转换之后,将对应得到的分类残差输入至预设的域分类器的损失函数,以应用该损失函数对所述信道转换网络进行自动化参数优化。
9.根据权利要求8所述的跨信道声纹处理装置,其特征在于,还包括:
数据采集模块,用于获取目标声纹识别指令对应的音频数据;
数据预处理模块,用于对所述音频数据进行预处理;
格式转换模块,用于对经预处理后的音频数据进行音频格式转换,得到对应的目标音频数据。
10.根据权利要求9所述的跨信道声纹处理装置,其特征在于,所述数据预处理模块包括:
预处理单元,用于对所述音频数据进行去噪音和/或去静音段处理。
11.根据权利要求9所述的跨信道声纹处理装置,其特征在于,所述格式转换模块包括:
特征提取单元,用于应用预设的梅尔倒谱系数MFCC算法提取经预处理后的音频数据中的十三维音频特征,作为对应的目标音频数据。
12.根据权利要求8所述的跨信道声纹处理装置,其特征在于,所述声纹处理方式包括:声纹识别和/或声纹认证。
13.根据权利要求8所述的跨信道声纹处理装置,其特征在于,还包括:
域分类器训练模块,用于应用带标签的第一历史网络信道及第一历史电话信道数据训练得到一域分类器;
历史数据应用模块,用于将带标签的第二历史网络信道及第二历史电话信道数据输入预设的信道转换网络,得到该信道转换网络对应输出的数据;
网络训练模块,用于基于所述域分类器训练所述信道转换网络。
14.根据权利要求13所述的跨信道声纹处理装置,其特征在于,所述网络训练模块包括:
分类残差获取单元,用于应用所述域分类器对所述信道转换网络对应输出的数据进行分类,并得到对应的分类残差;
迭代训练单元,用于应用所述分类残差作为所述域分类器的损失函数进行反向传播,通过预设的随机梯度下降方法迭代训练所述信道转换网络,直至得到的分类残差小于误差阈值。
15.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7任一项所述的跨信道声纹处理方法的步骤。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7任一项所述的跨信道声纹处理方法的步骤。
CN202010111539.XA 2020-02-24 2020-02-24 跨信道声纹处理方法及装置 Active CN111312283B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010111539.XA CN111312283B (zh) 2020-02-24 2020-02-24 跨信道声纹处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010111539.XA CN111312283B (zh) 2020-02-24 2020-02-24 跨信道声纹处理方法及装置

Publications (2)

Publication Number Publication Date
CN111312283A CN111312283A (zh) 2020-06-19
CN111312283B true CN111312283B (zh) 2023-03-21

Family

ID=71147697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010111539.XA Active CN111312283B (zh) 2020-02-24 2020-02-24 跨信道声纹处理方法及装置

Country Status (1)

Country Link
CN (1) CN111312283B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111524524B (zh) * 2020-04-28 2021-10-22 平安科技(深圳)有限公司 声纹识别方法、装置、设备及存储介质
CN111653283B (zh) * 2020-06-28 2024-03-01 讯飞智元信息科技有限公司 一种跨场景声纹比对方法、装置、设备及存储介质
CN112259105B (zh) * 2020-10-10 2022-09-20 西南政法大学 一种声纹识别模型的训练方法、存储介质和计算机设备
CN112820298B (zh) * 2021-01-14 2022-11-22 中国工商银行股份有限公司 声纹识别方法及装置
CN113380235B (zh) * 2021-08-13 2021-11-16 中国科学院自动化研究所 基于知识迁移的电话信道虚假语音鉴别方法及存储介质
CN113823294B (zh) * 2021-11-23 2022-03-11 清华大学 跨信道声纹识别方法、装置、设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390937A (zh) * 2019-06-10 2019-10-29 南京硅基智能科技有限公司 一种基于ArcFace loss算法的跨信道声纹识别方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003222487A1 (en) * 2003-04-21 2004-11-19 Hee-Suk Jeong Channel mis-match compensation apparatus and method for robust speaker verification system
US8180637B2 (en) * 2007-12-03 2012-05-15 Microsoft Corporation High performance HMM adaptation with joint compensation of additive and convolutive distortions
CN102129859B (zh) * 2010-01-18 2013-10-30 盛乐信息技术(上海)有限公司 快速信道补偿的声纹认证系统及方法
CN102270451B (zh) * 2011-08-18 2013-05-29 安徽科大讯飞信息科技股份有限公司 说话人识别方法及系统
CN104167208B (zh) * 2014-08-08 2017-09-15 中国科学院深圳先进技术研究院 一种说话人识别方法和装置
CN106971730A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种基于信道补偿的声纹识别方法
CN106448684A (zh) * 2016-11-16 2017-02-22 北京大学深圳研究生院 基于深度置信网络特征矢量的信道鲁棒声纹识别系统
CN107481723A (zh) * 2017-08-28 2017-12-15 清华大学 一种用于声纹识别的信道匹配方法及其装置
CN109903774A (zh) * 2019-04-12 2019-06-18 南京大学 一种基于角度间隔损失函数的声纹识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390937A (zh) * 2019-06-10 2019-10-29 南京硅基智能科技有限公司 一种基于ArcFace loss算法的跨信道声纹识别方法

Also Published As

Publication number Publication date
CN111312283A (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
CN111312283B (zh) 跨信道声纹处理方法及装置
CN111524526B (zh) 声纹识别方法及装置
CN111652093B (zh) 文本图像处理方法及装置
CN103514882A (zh) 一种语音识别方法及系统
CN112836037A (zh) 话术推荐方法及装置
CN111356117A (zh) 一种语音交互的方法及蓝牙设备
CN111931835A (zh) 一种图像识别方法、装置及系统
CN113159000A (zh) 人脸识别方法、装置及系统
WO2024099359A1 (zh) 语音检测的方法和装置、电子设备和存储介质
KR20190119521A (ko) 전자 장치 및 그 동작 방법
EP3059731B1 (en) Method and apparatus for automatically sending multimedia file, mobile terminal, and storage medium
CN112820298B (zh) 声纹识别方法及装置
CN111341320B (zh) 短语语音的声纹识别方法及装置
CN115798458A (zh) 分类语种识别方法及装置
CN113206998B (zh) 一种业务录制的视频数据质检方法及装置
CN113643706B (zh) 语音识别方法、装置、电子设备及存储介质
CN114283791A (zh) 一种基于高维声学特征的语音识别方法及模型训练方法
CN109065066B (zh) 一种通话控制方法、装置及设备
CN115205009A (zh) 基于虚拟技术的开户业务处理方法及装置
CN111489756B (zh) 一种声纹识别方法及装置
CN112820302A (zh) 声纹识别方法、装置、电子设备和可读存储介质
CN113065109A (zh) 人机识别方法及装置
CN111785277A (zh) 语音识别方法、装置、计算机可读存储介质以及处理器
CN112542157A (zh) 语音处理方法、装置、电子设备及计算机可读存储介质
CN113206997B (zh) 一种多业务的录制音频数据的同时质检方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant