CN115376498A - 语音识别方法、模型训练方法、装置、介质、电子设备 - Google Patents

语音识别方法、模型训练方法、装置、介质、电子设备 Download PDF

Info

Publication number
CN115376498A
CN115376498A CN202211033301.5A CN202211033301A CN115376498A CN 115376498 A CN115376498 A CN 115376498A CN 202211033301 A CN202211033301 A CN 202211033301A CN 115376498 A CN115376498 A CN 115376498A
Authority
CN
China
Prior art keywords
voice
data
audio data
feature extraction
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211033301.5A
Other languages
English (en)
Inventor
周立峰
朱浩齐
杨卫强
李雨珂
魏凯峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Netease Zhiqi Technology Co Ltd
Original Assignee
Hangzhou Netease Zhiqi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Netease Zhiqi Technology Co Ltd filed Critical Hangzhou Netease Zhiqi Technology Co Ltd
Priority to CN202211033301.5A priority Critical patent/CN115376498A/zh
Publication of CN115376498A publication Critical patent/CN115376498A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开的实施方式涉及计算机技术领域,更具体地,本公开的实施方式涉及语音识别方法、模型训练方法、装置、介质、电子设备。方法包括:将待识别音频数据输入至第一语音特征提取子模型,得到待识别音频数据的初始特征数据;将初始特征数据输入第二语音特征提取子模型中,第二语音特征提取子模型包括频域分支以及时域分支,频域分支用于输出待识别音频数据的频域特征数据,时域分支用于输出的待识别音频数据的时域特征数据;将频域特征数据和时域特征数据输入语音鉴伪子模型中,得到待识别音频数据的分类结果,分类结果用以指示待识别音频数据是否为真实语音。本公开的技术方案能够提高语音识别的效率。

Description

语音识别方法、模型训练方法、装置、介质、电子设备
技术领域
本公开的实施方式涉及计算机技术领域,更具体地,本公开的实施方式涉及语音识别方法、模型训练方法、装置、介质、电子设备。
背景技术
本部分旨在为权利要求中陈述的本公开的实施方式提供背景或上下文,此处的描述不因为包括在本部分中就承认是现有技术。
随着语音技术的发展,已经有诸如语音合成(text to speech)、语音转换(voiceconversion)等技术,进行语音处理。例如,通过语音合成技术,可以将输入的文字信息转变为可播放的语音数据;通过语音转换技术,可以将输入的第一人的语音数据(对应内容A)和第二人的语音数据(对应内容B)转换输出第一人的对应内容B的语音数据(和/或第二人的对应内容A的语音数据)。而这些通过语音处理获得的伪造语音可能被用于诸如诈骗、声纹解锁等场景,从而造成财产安全问题,由此,如何对伪造语音进行识别是本领域亟待解决的技术问题。
发明内容
目前,伪造语音常常通过人工审核来识别,即通过人工听语音的方式判断语音数据为真实语音还是伪造语音。然而,由于大数据时代,待识别的语音数据的数量非常庞大,人工审核的方式,无论是人力成本还是识别所需时长,皆无法满足语音识别的需求。
为此,非常需要一种语音识别方法、模型训练方法、装置、介质、电子设备,提高语音识别的效率。
在本上下文中,本公开的实施方式期望提供一种语音识别方法、模型训练方法、装置、介质、电子设备。
根据本公开的一个方面,提供一种语音识别方法,包括:
将待识别音频数据输入至第一语音特征提取子模型,得到所述待识别音频数据的初始特征数据,所述第一语音特征提取子模型为预先训练的语音识别模型的子模型,所述语音识别模型还包括第二语音特征提取子模型和语音鉴伪子模型;
将所述初始特征数据输入所述第二语音特征提取子模型中,所述第二语音特征提取子模型包括频域分支以及时域分支,所述频域分支用于输出所述待识别音频数据的频域特征数据,所述时域分支用于输出的所述待识别音频数据的时域特征数据;
将所述频域特征数据和所述时域特征数据输入所述语音鉴伪子模型中,得到所述待识别音频数据的分类结果,所述分类结果用以指示所述待识别音频数据是否为真实语音。
根据本公开的一个方面,提供语音识别模型训练方法,包括:
将样本音频数据输入至第一语音特征提取子模型,得到所述样本音频数据的初始特征数据,所述第一语音特征提取子模型为预先训练的语音识别模型的子模型,所述语音识别模型还包括第二语音特征提取子模型和语音鉴伪子模型;
将所述初始特征数据输入所述第二语音特征提取子模型中,所述第二语音特征提取子模型包括频域分支以及时域分支,所述频域分支用于输出所述样本音频数据的频域特征数据,所述时域分支用于输出所述样本音频数据的时域特征数据;
将所述频域特征数据和所述时域特征数据输入所述语音鉴伪子模型中,得到所述样本音频数据的预测分类结果,所述预测分类结果用以预测所述样本音频数据是否为真实语音;
根据所述预测分类结果以及所述样本音频数据的类别标签训练所述语音识别模型。
根据本公开的一个方面,提供一种语音识别装置,包括:
第一输入装置,用于将待识别音频数据输入至第一语音特征提取子模型,得到所述待识别音频数据的初始特征数据,所述第一语音特征提取子模型为预先训练的语音识别模型的子模型,所述语音识别模型还包括第二语音特征提取子模型和语音鉴伪子模型;
第二输入装置,用于将所述初始特征数据输入所述第二语音特征提取子模型中,所述第二语音特征提取子模型包括频域分支以及时域分支,所述频域分支用于输出所述待识别音频数据的频域特征数据,所述时域分支用于输出的所述待识别音频数据的时域特征数据;
第三输入装置,用于将所述频域特征数据和所述时域特征数据输入所述语音鉴伪子模型中,得到所述待识别音频数据的分类结果,所述分类结果用以指示所述待识别音频数据是否为真实语音。
根据本公开的一个方面,提供语音识别模型训练装置,包括:
第四输入模块,用于将样本音频数据输入至第一语音特征提取子模型,得到所述样本音频数据的初始特征数据,所述第一语音特征提取子模型为预先训练的语音识别模型的子模型,所述语音识别模型还包括第二语音特征提取子模型和语音鉴伪子模型;
第五输入模块,用于将所述初始特征数据输入所述第二语音特征提取子模型中,所述第二语音特征提取子模型包括频域分支以及时域分支,所述频域分支用于输出所述样本音频数据的频域特征数据,所述时域分支用于输出所述样本音频数据的时域特征数据;
第六输入模块,用于将所述频域特征数据和所述时域特征数据输入所述语音鉴伪子模型中,得到所述样本音频数据的预测分类结果,所述预测分类结果用以预测所述样本音频数据是否为真实语音;
训练模块,用于根据所述预测分类结果以及所述样本音频数据的类别标签训练所述语音识别模型。
根据本公开的一个方面,提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时上述的语音识别方法和/或语音识别模型训练方法。
根据本公开的一个方面,提供一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的语音识别方法和/或语音识别模型训练方法。
根据本公开实施方式的语音识别方法中,一方面,通过语音识别模型可以自动实现真实语音的识别,提高自动语音识别的效率;另一方面,通过第一语音特征提取子模型提取得到的初始特征数据,经由第二语音特征提取子模型获得待识别音频数据的频域特征数据和时域特征数据,从而能够基于频域和时域两个维度来对待识别音频数据是否为真实语音进行识别,提高识别精准度;再一方面,第二语音特征提取子模型通过频域分支以及时域分支来分别提取获得频域特征数据和时域特征数据,无需设置两个单独的特征提取模型,减少模型数量,提高特征提取效率。
根据本公开实施方式的语音识别模型训练方法中,一方面,通过训练语音识别模型,从而经训练的语音识别模型可以自动实现真实语音的识别,提高自动语音识别的效率;另一方面,通过样本音频数据训练提取初始特征数据的第一语音特征提取子模型、提取频域特征数据和时域特征数据的第二语音特征提取子模型以及获得分类结果的语音鉴伪子模型,从而提高语音识别模型的识别准确率;再一方面,第二语音特征提取子模型包括提取频域特征数据的频域分支以及提取时域特征数据的时域分支来,无需设置两个单独的特征提取模型,从而无需单独训练时域和频域的特征提取模型,通过设置时域和频域分支来提高第二语音特征提取子模型的训练效率。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
图1示意性地示出了基于深度学习的语音识别的流程图;
图2示意性地示出了根据本公开实施方式的语音识别模型的示意图;
图3示意性地示出了根据本公开实施方式的一种第一语音特征提取子模型的示意图;
图4示意性地示出了根据本公开实施方式的另一种第一语音特征提取子模型的示意图;
图5示意性地示出了根据本公开实施方式的第二语音特征提取子模型的示意图;
图6示意性地示出了根据本公开实施方式的语音识别模型训练方法的流程图;
图7示意性地示出了根据本公开实施方式的训练语音识别模型的示意图;
图8示意性地示出了根据本公开实施方式的训练Transformer编码模块的示意图;
图9示意性地示出了根据本公开实施方式的语音识别装置的模块图;
图10示意性地示出了根据本公开实施方式的语音识别模型训练装置的模块图;
图11示出了根据本公开实施方式的存储介质的示意图;以及
图12示意性示出了根据公开实施方式的电子设备的方框图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本公开的实施方式,提供一种语音识别方法、模型训练方法、装置、介质、电子设备。
在本文中,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本公开的若干代表性实施方式,详细阐述本公开的原理和精神。
发明概述
发明人发现,现有的语音识别主要是通过人工审核,即通过人工听语音的方式判断是否为伪造语音。
通过人工的方式识别伪造语音,需要审核人员听完整个语音。且伪造语音时,常常没有固定的人员音色,从而审核人员需要熟悉不同伪造语音的说话韵律、风格、音色等附加语义信息,理论上来讲,一个审核人员审核的语音数量被工作时间所限制。因此,基于人工的语音鉴伪,效率低下,且需要很高的人力成本。
一方面,通过语音合成或者语音转换技术获得伪造语音常常没有特定的目标人物。例如,在进行语音合成或者语音转换时,可以获得随机目标人物的伪造语音。由此,由于目标人物不固定,进一步增加了人工识别的难度。
另一方面,在大数据时代,语音音频的数量和时长呈指数型增长,特别是在直播领域。对于海量的语音音频数据,纯人工审核的方式几乎变得不可能。
鉴于上述内容,本公开的技术方案在于:
在语音识别方法中,一方面,通过语音识别模型可以自动实现真实语音的识别,提高自动语音识别的效率;另一方面,通过第一语音特征提取子模型提取得到的初始特征数据,经由第二语音特征提取子模型获得待识别音频数据的频域特征数据和时域特征数据,从而能够基于频域和时域两个维度来对待识别音频数据是否为真实语音进行识别,提高识别精准度;再一方面,第二语音特征提取子模型通过频域分支以及时域分支来分别提取获得频域特征数据和时域特征数据,无需设置两个单独的特征提取模型,减少模型数量,提高特征提取效率。
在语音识别模型训练方法中,一方面,通过训练语音识别模型,从而经训练的语音识别模型可以自动实现真实语音的识别,提高自动语音识别的效率;另一方面,通过样本音频数据训练提取初始特征数据的第一语音特征提取子模型、提取频域特征数据和时域特征数据的第二语音特征提取子模型以及获得分类结果的语音鉴伪子模型,从而提高语音识别模型的识别准确率;再一方面,第二语音特征提取子模型包括提取频域特征数据的频域分支以及提取时域特征数据的时域分支来,无需设置两个单独的特征提取模型,从而无需单独训练时域和频域的特征提取模型,通过设置时域和频域分支来提高第二语音特征提取子模型的训练效率。
在介绍了本公开的基本原理之后,下面具体介绍本公开的各种非限制性实施方式。
应用场景总览
需要注意的是,下述应用场景仅是为了便于理解本公开的精神和原理而示出,本公开的实施方式在此方面不受任何限制。相反,本公开的实施方式可以应用于适用的任何场景。
本公开可以应用于识别伪造语音的场景,尤其是适用于对语音合成技术或语音转换技术得到的伪造语音进行识别的场景,例如:音乐平台或者短视频平台,对于需要发布的待发布音频文件,可以利用预先训练的语音识别模型对该待发布音频文件进行识别,以确定待发布音频文件中存储的音频数据是否为伪造音频数据。采用本公开实施方式的技术方案,可以实现无特定目标人物的伪造语音的识别,且可以提高待发布音频文件中的音频数据的识别效率,以及提高识别结果的精准度。
在一些实施例中,语音识别方法可以运行在由服务器和用户终端构成的系统架构中。服务器端可以为语音识别服务方的后台服务器,例如,可以是音乐平台的服务器,短视频平台的服务器或者音视频平台的服务器。用户终端可以是用户所使用的手机、PC电脑、平板电脑等电子设备,在一些可能的实施例中,服务器与用户终端之间可以建立网络连接以进行交互。
在一种可选的实施方式中,语音识别服务方可以预先训练语音识别模型,训练好的语音识别模型可以部署于服务器中;服务器可以接收用户终端发送的音视频上传请求,并解析音视频上传请求以获取待识别音频数据,服务器可以利用预先训练的语音识别模型,对待识别音频数据进行识别,得到针对待识别音频数据的分类结果。
在一种可选的实施方式中,语音识别服务方可以预先训练语音识别模型,训练好的语音识别模型配置于语音识别服务方的应用程序中,服务器可以接收用户终端发送的应用程序下载请求,配置有语音识别模型的应用程序安装包发送至用户终端,用户终端可以响应于用户的音视频文件上传操作,利用预先训练的语音识别模型,对待识别音频数据进行识别,得到针对待识别音频数据的分类结果。
在一种可选的实施方式中,语音识别方法可以运行在服务器中,服务器可以利用预先训练的语音识别模型,对储存在服务器中或者附送至服务器中的待识别音频数据进行识别,得到针对待识别音频数据的分类结果。
示例性方法
下面结合图1来描述根据本公开示例性实施方式的语音识别方法。
参考图1所示,所述语音识别方法可以包括以下步骤:
步骤S110:将待识别音频数据输入至第一语音特征提取子模型,得到所述待识别音频数据的初始特征数据,所述第一语音特征提取子模型为预先训练的语音识别模型的子模型,所述语音识别模型还包括第二语音特征提取子模型和语音鉴伪子模型;
步骤S120:将所述初始特征数据输入所述第二语音特征提取子模型中,所述第二语音特征提取子模型包括频域分支以及时域分支,所述频域分支用于输出所述待识别音频数据的频域特征数据,所述时域分支用于输出的所述待识别音频数据的时域特征数据;
步骤S130:将所述频域特征数据和所述时域特征数据输入所述语音鉴伪子模型中,得到所述待识别音频数据的分类结果,所述分类结果用以指示所述待识别音频数据是否为真实语音。
在本公开实施方式的语音识别方法中,一方面,通过语音识别模型可以自动实现真实语音的识别,提高自动语音识别的效率;另一方面,通过第一语音特征提取子模型提取得到的初始特征数据,经由第二语音特征提取子模型获得待识别音频数据的频域特征数据和时域特征数据,从而能够基于频域和时域两个维度来对待识别音频数据是否为真实语音进行识别,提高识别精准度;再一方面,第二语音特征提取子模型通过频域分支以及时域分支来分别提取获得频域特征数据和时域特征数据,无需设置两个单独的特征提取模型,减少模型数量,提高特征提取效率。
下面结合图2来说明本公开可能的实施方式的语音识别过程。
如图2所示,语音识别模型包括第一语音特征提取子模型210、第二语音特征提取子模型220以及语音鉴伪子模型230。
待识别音频数据输入至第一语音特征提取子模型210,得到所述待识别音频数据的初始特征数据。所述初始特征数据输入所述第二语音特征提取子模型220中,通过第二语音特征提取子模型220的频域分支获得所述待识别音频数据的频域特征数据,并通过第二语音特征提取子模型220的时域分支获得所述待识别音频数据的时域特征数据。将所述频域特征数据和所述时域特征数据输入所述语音鉴伪子模型230中,得到所述待识别音频数据的分类结果。所述分类结果用以指示所述待识别音频数据是否为真实语音。
根据本公开的示例性实施例,所述分类结果用以指示所述待识别音频数据为真实语音或伪造语音。伪造语音可以包括合成语音和/或转换语音。其中,合成语音为通过语音合成技术,将输入的文字信息转变为可播放的语音数据。转换语音为通过语音转换技术,将输入的第一人的语音数据(对应内容A)和第二人的语音数据(对应内容B)转换为第一人的对应内容B的语音数据(和/或第二人的对应内容A的语音数据)。具体而言,本公开可以确定待识别音频数据是否为伪造语音,而无需确定伪造语音的目标人物。换言之,本公开可以实现非特定目标人物的伪造语音的识别。
根据本公开的示例性实施例,第一语音特征提取子模型210可以为WavLM模型。参见图3,WavLM模型可以包括卷积编码模块211以及Transformer编码模块212。卷积编码模块211用于对所述待识别音频数据进行编码获得编码数据。Transformer编码模块212包括J个特征提取层2121-212J。其中,第一个特征提取层2121用于根据所述编码数据提取特征数据C1,第j个特征提取层212j用于根据特征数据Cj-1提取特征数据Cj,j为大于1且小于J的整数,J为大于1的整数。所述初始特征数据可以根据特征数据C1至Cj获得。
WavLM模型可以利用自监督训练到的初始特征数据,来辅助进行后续的频域特征数据的特征提取、时域特征数据的特征提取以及语音识别的分类。WavLM模型可以利用大量的无标注语音数据进行自监督训练得到,WavLM模型通过卷积编码模块211以及Transformer编码模块212提取到的初始特征数据在多种语音处理任务(诸如语种分类,声纹识别,语音识别等)中有较好的迁移性能。此外,WavLM模型通过卷积编码模块211以及Transformer编码模块212提取到的初始特征数据具有更好的泛化性能,从而更适合于非特定目标人物的伪造语音的识别。
WavLM模型可以直接基于输入的待识别音频数据进行初始特征数据的提取,而无需先对待识别音频数据进行诸如STFT(短时傅里叶变换),FBank(Mel-scaleFilterBank,梅尔标度滤波器组),MFCCC(Mel-Frequency Ceptral Coefficients,Mel频率倒谱系数)等频谱变换,从而WavLM模型可以保留待识别音频数据中存在的相位数据。反映在音频数据的语谱图中,真实语音和伪造语音的相位部分会存在较大差异,特别是音频数据的高频相位,真实语音的高频相位比较丰富,而伪造语音的高频相位则相对单一或者存在缺失。伪造语音的高频相位相对单一或存在缺失的原因在于,相关技术中的语音合成/语音转换技术还不能够精细,无法还原真实语音中的每一个细节,这种细节上的差异,在真实语音和伪造语音的高频相位部分体现的尤为明显。由此,由于WavLM模型在特征提取时,可以使得初始特征数据保留待识别音频数据中有利于区分真实语音和伪造语音的相位数据,以提高识别准确率。
根据本公开的示例性实施例,所述第一语音特征提取子模型还包括自注意力模块213。自注意力模块213用于对所述特征数据C1至Cj进行加权求和,得到所述待识别音频数据的初始特征数据。由于Transformer编码模块212的J个特征提取层2121-212J所提取的特征,对于伪造语音的识别任务而言,各层所提取的特征对于识别结果的影响存在差别。例如,第1个特征提取层提取的特征数据C1对伪造语音的识别结果影响更大,第J个特征提取层提取的特征数据Cj对伪造语音的识别结果影响更小。而在实际应用中,无法获知哪一特征提取层所提取的特征对伪造语音的识别结果的影响更大,为此,在一些实例性实施例中,可以引入自注意力模块213,让第一语音特征提取子模型可以自动学习特征数据C1至Cj的对于伪造语音的识别结果的影响,以确定各层所提取的特征的重要程度。
具体而言,通过对自注意力模块213进行训练,使其学习到不同特征提取层提取到的特征数据的对于伪造语音的识别任务的重要性,并基于重要性向不同特征提取层赋予不同的权重(重要性越高,权重越大),再以加权求和的方式融合Transformer编码模块212的J个特征提取层2121-212J输出的特征数据,从而,自注意力模块213的输出C:
C=a1C1+a2C2+。。。+aJCJ
其中,a1至aJ分别为J个特征提取层2121-212J输出的特征数据C1至Cj的权重。
根据本公开的示例性实施例,第一语音特征提取子模型210可以为Wav2vec模型。参见图4,Wav2vec模型包括特征提取层214以及上下文编码层215。特征提取层214用于提取所述待识别音频数据的浅层特征数据。上下文编码层215用于提取所述待识别音频数据的相邻帧的浅层特征数据之间的关联特征数据,得到所述待识别音频数据的初始特征数据。Wav2vec模型可以获取待识别音频数据中更丰富全面的特征信息,Wav2vec模型的特征提取层214提取的浅层特征数据可以包括音频数据的相位数据,便于更精准的对待识别音频数据是否为伪造语音进行识别;上下文编码层215可以通过关联特征数据,以获取更丰富的特征数据。
根据本公开的示例性实施例,第二语音特征提取子模型可以如图5所示。
频域分支220A可以包括频域池化模块221以及频域特征提取模块222。频域池化模块221用于对所述初始特征数据在频域维度进行池化,以获得初始频域特征数据。频域特征提取模块222用于根据所述初始频域特征数据提取所述待识别音频数据的频域特征数据,所述频域特征数据中不同频段的特征数据具有不同的权重。
具体而言,频域池化模块221用于在频域维度提取初始特征数据的特征,以获得初始频域特征数据。初始频域特征数据中包括不同频段的特征数据。频域特征提取模块222可以学习不同频段的特征对语音识别的不同的重要性,从而不同频段的特征数据具有不同的权重。在一些实施例中,如在前所述的,伪造语音和真实语音在高频部分有较大的差异,从而频域特征提取模块222可以学习不同频段的特征对伪造语音的识别任务而言,所具有的不同的重要程度,并向高频的特征数据赋予更大的权重。在一些具体实施例中,所述频域特征提取模块可以为Transformer模型,Transformer模型更易于学习到不同频段特征对于后续任务的重要性。
所述时域分支220B可以包括时域池化模块223以及时域特征提取模块224。时域池化模块223用于对所述时域特征数据在时域维度进行池化,获得初始时域特征数据。时域特征提取模块224用于根据所述初始时域特征数据提取所述待识别音频数据的时域特征数据,所述时域特征数据中不同时段的特征数据具有不同的权重。
具体而言,时域池化模块223用于在时域维度提取初始特征数据的特征,以获得初始时域特征数据。初始时域特征数据中包括不同时域的时域特征。时域特征提取模块224可以学习不同时段的特征数据对伪造语音的识别任务而言,所具有的不同的重要程度,从而不同时段的特征数据具有不同的权重。在一些具体实施例中,所述时域特征提取模块可以为Transformer模型,Transformer模型更易于学习到不同时域特征对于后续任务的重要性。
由此,相较于为频域特征数据和时域特征数据分别进行建模,以通过频域特征数据的识别结果以及时域特征数据的识别结果进行融合获得分类结果的方案,本实施例的第二语音特征提取子模型通过频域分支和时域分支来分别获得频域特征数据和时域特征数据的方案,无需针对频域特征数据和时域特征数据而分别进行建模,从而减小了语音识别模型的大小,同时能够提高特征提取效率。
根据本公开的示例性实施例,所述语音鉴伪子模型230可以包括特征融合模块以及分类模块,如图2所示。特征融合模块用于融合所述待识别音频数据的频域特征数据以及所述待识别音频数据的时域特征数据,获得融合特征。具体而言,融合的方式包括但不限于特征相加、特征拼接、特征相乘等。分类模块用于根据所述融合特征,得到分类结果。在一些可能的实现中,所述分类模块可以用于根据所述融合特征,得到分类结果值,所述分类结果根据分类结果值确定。其中,响应于所述分类结果值大于或者等于预设阈值,则所述分类结果确定所述待识别音频数据为伪造语音,所述伪造语音包括合成语音和/或转换语音。响应于所述分类结果值小于预设阈值,则所述分类结果确定所述待识别音频数据为真实语音。进一步地,在一些变化例中,也可以响应于所述分类结果值小于或者等于预设阈值,则所述分类结果确定所述待识别音频数据为伪造语音,所述伪造语音包括合成语音和/或转换语音。响应于所述分类结果值大于预设阈值,则所述分类结果确定所述待识别音频数据为真实语音。本公开可以实现更多不同的分类结果判定方式,在此不予赘述。
由此,通过特征融合模块对频域分支和融合分支提取的频域特征数据和时序特征数据进行融合,相较于单独使用一种特征的方案,本实施例能使得语音识别模型的分类结果更为准确;相较于分别通过频域特征数据和时域特征数据获得两个识别结果并对识别结果进行融合的方案,本实施例能够提高特征提取的分类结果的获取效率。
下面结合图9来描述根据本公开示例性实施方式的语音识别模型训练方法。
参考图9所示,所述语音识别模型训练方法可以包括以下步骤:
步骤S310:将样本音频数据输入至第一语音特征提取子模型,得到所述样本音频数据的初始特征数据,所述第一语音特征提取子模型为预先训练的语音识别模型的子模型,所述语音识别模型还包括第二语音特征提取子模型和语音鉴伪子模型;
步骤S320:将所述初始特征数据输入所述第二语音特征提取子模型中,所述第二语音特征提取子模型包括频域分支以及时域分支,所述频域分支用于输出所述样本音频数据的频域特征数据,所述时域分支用于输出所述样本音频数据的时域特征数据;
步骤S330:将所述频域特征数据和所述时域特征数据输入所述语音鉴伪子模型中,得到所述样本音频数据的预测分类结果,所述预测分类结果用以预测所述样本音频数据是否为真实语音;
步骤S340:根据所述预测分类结果以及所述样本音频数据的类别标签训练所述语音识别模型。
在本公开实施方式的语音识别模型训练方法中,一方面,通过训练语音识别模型,从而经训练的语音识别模型可以自动实现真实语音的识别,提高自动语音识别的效率;另一方面,通过样本音频数据训练提取初始特征数据的第一语音特征提取子模型、提取频域特征数据和时域特征数据的第二语音特征提取子模型以及获得分类结果的语音鉴伪子模型,从而提高语音识别模型的识别准确率;再一方面,第二语音特征提取子模型包括提取频域特征数据的频域分支以及提取时域特征数据的时域分支来,无需设置两个单独的特征提取模型,从而无需单独训练时域和频域的特征提取模型,通过设置时域和频域分支来提高第二语音特征提取子模型的训练效率。
下面结合图7来说明本公开可能的实施方式的语音识别模型训练过程。
如图7所示,语音识别模型包括第一语音特征提取子模型210、第二语音特征提取子模型220以及语音鉴伪子模型230。
样本音频数据输入至第一语音特征提取子模型210,得到所述样本音频数据输的初始特征数据。样本音频数据可以包括非特定目标人物的真实语音和/或非特定目标人物的伪造语音。换言之,可以获取多个不同人物的真实语音和/或伪造语音来作为样本音频数据。所述初始特征数据输入所述第二语音特征提取子模型220中,通过第二语音特征提取子模型220的频域分支获得所述待识别音频数据的频域特征数据;并通过第二语音特征提取子模型220的时域分支获得所述待识别音频数据的时域特征数据。将所述频域特征数据和所述时域特征数据输入所述语音鉴伪子模型230中,得到所述样本音频数据输的预测分类结果。所述预测分类结果用以指示所述待识别音频数据是否为真实语音。语音鉴伪子模型230输出的预测分类结果和分类标签可以输入至第一损失函数中240,以进行损失函数的计算,并根据损失函数的计算调整模型参数。
根据本公开的示例性实施例,第二语音特征提取子模型可以如图5所示。
频域分支220A可以包括频域池化模块221以及频域特征提取模块222。频域池化模块221用于对所述初始特征数据在频域维度进行池化,以获得初始频域特征数据。频域特征提取模块222用于根据所述初始频域特征数据提取所述样本音频数据的频域特征数据,所述频域特征数据中不同频段的特征数据具有不同的权重。
具体而言,频域池化模块221用于在频域维度提取初始特征数据的特征,以获得初始频域特征数据。初始频域特征数据中包括不同频段的特征数据。频域特征提取模块222可以学习不同频段的特征对语音识别的不同的重要性,从而不同频段的特征数据具有不同的权重。在一些实施例中,如在前所述的,伪造语音和真实语音在高频部分有较大的差异,从而频域特征提取模块222可以学习不同频段的特征对伪造语音的识别人物而言,所具有的不同的重要程度,并向高频的特征数据赋予更大的权重。在一些具体实施例中,所述频域特征提取模块可以为Transformer模型,Transformer模型更易于学习到不同频段特征对于后续任务的重要性。
所述时域分支220B可以包括时域池化模块223以及时域特征提取模块224。时域池化模块223用于对所述时域特征数据在时域维度进行池化,获得初始时域特征数据。时域特征提取模块224用于根据所述初始时域特征数据提取所述样本音频数据的时域特征数据,所述时域特征数据中不同时段的特征数据具有不同的权重。
具体而言,时域池化模块223用于在时域维度提取初始特征数据的特征,以获得初始时域特征数据。初始时域特征数据中包括不同时段的时域特征。时域特征提取模块224可以学习不同时段的特征数据对伪造语音的识别人物而言,所具有的不同的重要程度,从而不同时段的特征数据具有不同的权重。在一些具体实施例中,所述时域特征提取模块可以为Transformer模型,Transformer模型更易于学习到不同时域特征对于后续任务的重要性。
由此,相较于为频域特征数据和时域特征数据分别进行建模,以通过频域特征数据的识别结果以及时域特征数据的识别结果进行融合获得分类结果的方案,本实施例的第二语音特征提取子模型通过频域分支和时域分支来分别获得频域特征数据和时域特征数据的方案,无需针对频域特征和时域特征数据而分别建模,从而减小了语音识别模型的规格,同时能够提高特征提取效率。
根据本公开的示例性实施例,第一语音特征提取子模型210可以为WavLM模型。参见图3,WavLM模型可以包括卷积编码模块211以及Transformer编码模块212。卷积编码模块211用于对所述样本音频数据进行编码获得编码数据。Transformer编码模块212包括J个特征提取层2121-212J。其中,第一个特征提取层2121用于根据所述编码数据提取特征数据C1,第j个特征提取层212j用于根据特征数据Cj-1提取特征数据Cj,j为大于1且小于J的整数,J为大于1的整数。所述初始特征数据可以根据特征数据C1至Cj获得。
WavLM模型可以利用自监督训练到的初始特征数据,来辅助进行后续的频域特征数据的特征提取、时域特征数据的特征提取以及语音识别的分类。WavLM模型可以利用大量的无标注语音数据进行自监督训练得到,WavLM模型通过卷积编码模块211以及Transformer编码模块212提取到的初始特征数据在多种语音处理任务(诸如语种分类,声纹识别,语音识别等)中有较好的迁移性能。此外,WavLM模型通过卷积编码模块211以及Transformer编码模块212提取到的初始特征数据具有更好的泛化性能,从而更适合于非特定目标人物的伪造语音的识别。
WavLM模型可以直接基于输入的样本音频数据进行初始特征数据的提取,而无需先对样本音频数据进行诸如STFT(短时傅里叶变换),FBank(Mel-scaleFilterBank,梅尔标度滤波器组),MFCCC(Mel-Frequency Ceptral Coefficients,Mel频率倒谱系数)等频谱变换,从而WavLM模型可以保留样本音频数据中存在的相位数据。反映在音频数据的语谱图中,真实语音和伪造语音的相位部分会存在较大差异,特别是音频数据的高频相位,真实语音的高频相位比较丰富,而伪造语音的高频相位则相对单一或者存在缺失。伪造语音的高频相位相对单一或存在缺失的原因在于,相关技术中的语音合成/语音转换技术还不能够精细,无法还原真实语音中的每一个细节,这种细节上的差异,在真实语音和伪造语音的高频相位部分体现的尤为明显。由此,由于WavLM模型在特征提取时,可以使得初始特征数据保留样本音频数据中有利于区分真实语音和伪造语音的相位数据,以提高识别准确率。
根据本公开的示例性实施例,所述第一语音特征提取子模型还包括自注意力模块213。自注意力模块213用于对所述特征数据C1至Cj进行加权求和,得到所述样本音频数据的初始特征数据。由于Transformer编码模块212的J个特征提取层2121-212J所提取的特征,对于伪造语音的识别任务而言,各层所提取的特征对于识别结果的影响存在差别。例如,第1个特征提取层提取的特征数据C1对伪造语音的识别结果影响更大,第J个特征提取层提取的特征数据Cj对伪造语音的识别结果影响更小。而在实际应用中,无法获知哪一特征提取层所提取的特征对伪造语音的识别结果的影响更大,为此,在一些实例性实施例中,可以引入自注意力模块213,让第一语音特征提取子模型可以自动学习特征数据C1至Cj的对于伪造语音的识别结果的影响,以确定各层所提取的特征的重要程度。
具体而言,通过对自注意力模块213进行训练,使其学习到不同特征提取层提取到的特征数据的对于伪造语音的识别任务的重要性,并基于重要性向不同特征提取层赋予不同的权重(重要性越高,权重越大),再以加权求和的方式融合Transformer编码模块212的J个特征提取层2121-212J输出的特征数据,从而,自注意力模块213的输出C:
C=a1C1+a2C2+。。。+aJCJ
其中,a1至aJ分别为J个特征提取层2121-212J输出的特征数据C1至Cj的权重。
下面参见图8,图8示意性地示出了根据本公开实施方式的训练Transformer编码模块的示意图。
在训练过程中,样本音频数据输入至所述卷积编码模块211,所述卷积编码模块输出的编码数据。然后,将所述卷积编码模块输出的编码数据划分为多个原始子编码数据(X1至X6,原始子编码数据的数量并非以此为限制),掩蔽至少一个原始子编码数据(X2至X4),获得掩蔽子编码数据M。具体而言,所掩蔽的原始子编码数据可以随机选取。掩蔽子编码数据M也可以随机生成。然后,将未经掩蔽的原始子编码数据(X1,X5以及X6和所述掩蔽子编码数据M和输入至所述Transformer编码模块212,得到所述Transformer编码模块212输出的与所述原始子编码数据一一对应的多个预测子编码标签(Z1至Z6)。根据所述原始子编码数据(X1至X6)的对应原始子编码标签以及所述预测子编码标签(Z1至Z6),计算损失函数。根据所述损失函数更新所述Transformer编码模块212的参数,从而使得Transformer编码模块212能够在掩蔽的情况下,预测被掩蔽的原始子编码数据。由此,Transformer编码模块212能够针对局部数据进行建模,从而能够根据未被掩蔽的原始子编码数据,掩蔽子编码数据和未被掩蔽的原始子编码数据的相对位置来准确预测被掩蔽处的原始子编码数据的编码标签,避免噪音等其它因素使得部分音频数据被掩蔽后,造成的对伪造语音的识别任务的影响,提高基于Transformer编码模块212的模型识别的准确率。
在第一语音特征提取子模型为WavLM模型的示例性实施例,所述根据所述预测分类结果以及所述样本音频数据的类别标签训练所述语音识别模型可以包括如下步骤:根据所述预测分类结果以及所述样本音频数据的类别标签计算第一损失函数值;根据所述第一损失函数值更新所述自注意力模块中所述特征数据C1至Cj的权重、所述第二语音特征提取子模型的参数、以及所述语音鉴伪子模型的参数。由此,可以通过第一损失函数的第一损失函数值对自注意力模块中所述特征数据C1至Cj的权重进行调整,以更新各特征数据C1至Cj对分类结果的重要性;通过第一损失函数的第一损失函数值对所述第二语音特征提取子模型的参数进行调整,以更新不同频段的特征数据以及不同时段的特征数据对分类结果的重要性;通过第一损失函数的第一损失函数值对所述语音鉴伪子模型的参数进行调整,以使得语音鉴伪子模型的分类结果更为准确。
根据本公开的示例性实施例,所述第一语音特征提取子模型可以为Wav2vec模型。参见图4,Wav2vec模型包括特征提取层214以及上下文编码层215。特征提取层214用于提取所述样本音频数据的浅层特征数据。上下文编码层215用于提取所述样本音频数据的相邻帧的浅层特征数据之间的关联特征数据,得到所述样本音频数据的初始特征数据。Wav2vec模型可以获取样本音频数据中更丰富全面的特征信息,Wav2vec模型的特征提取层214提取的浅层特征数据可以包括音频数据的相位数据,便于更精准的对样本音频数据是否为伪造语音进行识别;上下文编码层215可以通过关联特征数据,以获取更丰富的特征数据。
在第一语音特征提取子模型为Wav2vec模型的示例性实施例中,所述根据所述预测分类结果以及所述样本音频数据的类别标签训练所述语音识别模型可以包括如下步骤:根据所述预测分类结果以及所述样本音频数据的类别标签计算第一损失函数值;根据所述第一损失函数值更新所述特征提取层中所述Wav2vec模型的参数、所述第二语音特征提取子模型的参数、以及所述语音鉴伪子模型的参数。由此,可以通过第一损失函数的第一损失函数值对Wav2vec模型的参数进行调整,以使得Wav2vec模型提取的参数更利于进行语音识别;通过第一损失函数的第一损失函数值对所述第二语音特征提取子模型的参数进行调整,以更新不同频段的特征数据以及不同时段的特征数据对分类结果的重要性;通过第一损失函数的第一损失函数值对所述语音鉴伪子模型的参数进行调整,以使得语音鉴伪子模型的分类结果更为准确。
在本公开的示例性实施例中,由于所训练的语音识别模型用于对非特定对象的语音进行识别,从而难以获得各种不同伪造技术下的不同音色的伪造语音,无法覆盖所有的伪造语音类型,如果采取简单的交叉熵损失函数,会导致在训练集上的过拟合。因此,本实施例中可以采用one-class learning(单类别学习)的思想,着重学习真实语音的分类中心,最终使得真实语音的分类内,各真实语音的距离较小,且让伪造语音远离真实语音一定的距离。本实施例中,可以提供足够多的真实语音样本,以使得真实语音的分布和识别时的真实语音的分布基本一致,以通过单类别学习的思想,单独学习真实语音的数据分布,并且让训练集中的伪造数据的特征离开真实语音特征中心一定距离,由此,更适用于本公开的非特征对象的伪造语音的识别。由此,基于单类别学习的第一损失函数的第一损失函数值LOCS可以根据如下公式计算:
Figure BDA0003817928030000201
其中,N为所述样本音频数据的数量,i为N个样本音频数据中的第i个样本音频数据,α为比例因子,myi为真实语音特征数据的中心与所述预测分类结果的距离,
Figure BDA0003817928030000202
为真实语音特征数据的中心,
Figure BDA0003817928030000203
为所述预测分类结果,yi为所述样本音频数据的类别标签。
以上仅仅是示意性地描述本公开提供的多种实施例,本公开并非以此为限制,各实施例可以单独或者组合来使用。
示例性装置
在介绍了本公开示例性实施方式的语音识别方法和语音识别模型训练之后,接下来,参考图9对本公开示例性实施方式的语音识别装置进行描述。
参考图9所示,本公开示例性实施方式的语音识别装置400可以包括:第一输入模块410,第二输入模块420以及第三输入模块430。其中,
第一输入模块410用于将待识别音频数据输入至第一语音特征提取子模型,得到所述待识别音频数据的初始特征数据,所述第一语音特征提取子模型为预先训练的语音识别模型的子模型,所述语音识别模型还包括第二语音特征提取子模型和语音鉴伪子模型;
第二输入模块420用于将所述初始特征数据输入所述第二语音特征提取子模型中,所述第二语音特征提取子模型包括频域分支以及时域分支,所述频域分支用于输出所述待识别音频数据的频域特征数据,所述时域分支用于输出的所述待识别音频数据的时域特征数据;
第三输入模块430用于将所述频域特征数据和所述时域特征数据输入所述语音鉴伪子模型中,得到所述待识别音频数据的分类结果,所述分类结果用以指示所述待识别音频数据是否为真实语音。
根据本公开的示例性实施例,所述第一语音特征提取子模型为WavLM模型或者Wav2vec模型。
根据本公开的示例性实施例,所述第一语音特征提取子模型为WavLM模型,所述第一语音特征提取子模型包括:
卷积编码模块,用于对所述待识别音频数据进行编码获得编码数据;
Transformer编码模块,包括J个特征提取层,其中,第一个特征提取层用于根据所述编码数据提取特征数据C1,第j个特征提取层用于根据特征数据Cj-1提取特征数据Cj,j为大于1且小于J的整数,J为大于1的整数,其中,所述初始特征数据根据特征数据C1至Cj获得。
根据本公开的示例性实施例,所述第一语音特征提取子模型还包括:
自注意力模块,用于对所述特征数据C1至Cj进行加权求和,得到所述待识别音频数据的初始特征数据。
根据本公开的示例性实施例,所述第一语音特征提取子模型为Wav2vec模型,所述第一语音特征提取子模型包括:
特征提取层,用于提取所述待识别音频数据的浅层特征数据;
上下文编码层,用于提取所述待识别音频数据的相邻帧的浅层特征数据之间的关联特征数据,得到所述待识别音频数据的初始特征数据。
根据本公开的示例性实施例,所述初始特征数据包含所述待识别音频数据的相位数据。
根据本公开的示例性实施例,所述频域分支包括:
频域池化模块,用于对所述初始特征数据在频域维度进行池化,以获得初始频域特征数据;
频域特征提取模块,用于根据所述初始频域特征数据提取所述待识别音频数据的频域特征数据,所述频域特征数据中不同频段的特征数据具有不同的权重。
根据本公开的示例性实施例,所述频域特征提取模块为Transformer模型。
根据本公开的示例性实施例,所述时域分支包括:
时域池化模块,用于对所述时域特征数据在时域维度进行池化,获得初始时域特征数据;
时域特征提取模块,用于根据所述初始时域特征数据提取所述待识别音频数据的时域特征数据,所述时域特征数据中不同时段的特征数据具有不同的权重。
根据本公开的示例性实施例,所述时域特征提取模块为Transformer模型。
根据本公开的示例性实施例,所述语音鉴伪子模型包括:
特征融合模块,用于融合所述待识别音频数据的频域特征数据以及所述待识别音频数据的时域特征数据,获得融合特征;
分类模块,用于根据所述融合特征,得到分类结果。
根据本公开的示例性实施例,所述分类模块用于根据所述融合特征,得到分类结果值,所述分类结果根据分类结果值确定,
其中,响应于所述分类结果值大于或者等于预设阈值,则所述分类结果确定所述待识别音频数据为伪造语音,所述伪造语音包括合成语音和/或转换语音;
响应于所述分类结果值小于预设阈值,则所述分类结果确定所述待识别音频数据为真实语音。
由于本公开实施方式的语音识别装置的各个功能模块与上述语音识别方法公开实施方式中相同,因此在此不再赘述。
接下来,参考图10对本公开示例性实施方式的语音识别模型训练装置进行描述。
参考图10所示,本公开示例性实施方式的语音识别模型训练装置500可以包括:第四输入模块510,第五输入模块520、第六输入模块530以及训练模块540。其中,
第四输入模块510用于将样本音频数据输入至第一语音特征提取子模型,得到所述样本音频数据的初始特征数据,所述第一语音特征提取子模型为预先训练的语音识别模型的子模型,所述语音识别模型还包括第二语音特征提取子模型和语音鉴伪子模型;
第五输入模块520用于将所述初始特征数据输入所述第二语音特征提取子模型中,所述第二语音特征提取子模型包括频域分支以及时域分支,所述频域分支用于输出所述样本音频数据的频域特征数据,所述时域分支用于输出所述样本音频数据的时域特征数据;
第六输入模块530用于将所述频域特征数据和所述时域特征数据输入所述语音鉴伪子模型中,得到所述样本音频数据的预测分类结果,所述预测分类结果用以预测所述样本音频数据是否为真实语音;
训练模块540用于根据所述预测分类结果以及所述样本音频数据的类别标签训练所述语音识别模型。
根据本公开的示例性实施例,所述第一语音特征提取子模型为WavLM模型或者Wav2vec模型。
根据本公开的示例性实施例,所述第一语音特征提取子模型为WavLM模型,所述第一语音特征提取子模型还包括:
卷积编码模块,对所述样本音频数据进行编码获得编码数据;
Transformer编码模块,包括J个特征提取层,其中,第一个特征提取层用于根据所述编码数据提取特征数据C1,第j个特征提取层用于根据特征数据Cj-1提取特征数据Cj,j为大于1且小于J的整数,J为大于1的整数其中,所述初始特征数据根据所述特征数据C1至Cj获得。
根据本公开的示例性实施例,所述第一语音特征提取子模型还包括:
自注意力模块,用于对所述特征数据C1至Cj进行加权求和,得到所述样本音频数据的初始特征数据。
根据本公开的示例性实施例,所述Transformer编码模块根据如下步骤训练:
将所述卷积编码模块输出的编码数据划分为多个原始子编码数据;
掩蔽至少一个原始子编码数据,获得掩蔽子编码数据;
将未经掩蔽的原始子编码数据和所述掩蔽子编码数据和输入至所述Transformer编码模块,得到所述Transformer编码模块输出的与所述原始子编码数据一一对应的多个预测子编码标签;
根据对应各所述原始子编码数据的原始子编码标签以及所述预测子编码标签,计算损失函数;
根据所述损失函数更新所述Transformer编码模块的参数。
根据本公开的示例性实施例,所述训练模块还用于:
根据所述预测分类结果以及所述样本音频数据的类别标签计算第一损失函数值;
根据所述第一损失函数值更新所述自注意力模块中所述特征数据C1至Cj的权重、所述第二语音特征提取子模型的参数、以及所述语音鉴伪子模型的参数。
根据本公开的示例性实施例,所述第一语音特征提取子模型为Wav2vec模型,所述第一语音特征提取子模型包括:
特征提取层,用于提取所述样本音频数据的浅层特征数据;
上下文编码层,用于提取所述样本音频数据的相邻帧的浅层特征数据之间的关联特征数据,得到所述样本音频数据的初始特征数据。
根据本公开的示例性实施例,所述训练模块还用于:
根据所述预测分类结果以及所述样本音频数据的类别标签计算第一损失函数值;
根据所述第一损失函数值更新所述特征提取层中所述Wav2vec模型的参数、所述第二语音特征提取子模型的参数、以及所述语音鉴伪子模型的参数。
根据本公开的示例性实施例,所述第一损失函数值LOCS根据如下公式计算:
Figure BDA0003817928030000241
其中,N为所述样本音频数据的数量,i为N个样本音频数据中的第i个样本音频数据,α为比例因子,myi为真实语音特征数据的中心与所述预测分类结果的距离,
Figure BDA0003817928030000242
为真实语音特征数据的中心,
Figure BDA0003817928030000243
为所述预测分类结果,yi为所述样本音频数据的类别标签。
由于本公开实施方式的语音识别模型训练装置的各个功能模块与上述语音识别模型训练方法公开实施方式中相同,因此在此不再赘述。
示例性存储介质
在介绍了本公开示例性实施方式的语音识别方法、语音识别模型训练方法和装置之后,接下来,参考图11对本公开示例性实施方式的存储介质进行说明。
参考图11所示,描述了根据本公开的实施方式的用于实现上述方法的程序产品1000,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言-诸如Java、C++等,还包括常规的过程式程序设计语言-诸如"C"语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
示例性电子设备
在介绍了本公开示例性实施方式的存储介质之后,接下来,参考图12对本公开示例性实施方式的电子设备进行说明。
图12显示的电子设备800仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图12所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830、显示单元840。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元810执行,使得所述处理单元810执行本说明书上述"示例性方法"部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元810可以执行如图1和/或图6中所示的步骤。
存储单元820可以包括易失性存储单元,例如随机存取存储单元(RAM)8201和/或高速缓存存储单元8202,还可以进一步包括只读存储单元(ROM)8203。
存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204,这样的程序模块8205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线830可以包括数据总线、地址总线和控制总线。
电子设备800也可以与一个或多个外部设备900(例如键盘、指向设备、蓝牙设备等)通信,这种通信可以通过输入/输出(I/O)接口850进行。电子设备800还包括显示单元840,其连接到输入/输出(I/O)接口850,用于进行显示。并且,电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器860通过总线830与电子设备800的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了语音识别装置和语音识别模型训练装置的若干模块或子模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本公开的精神和原理,但是应该理解,本公开并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (10)

1.一种语音识别方法,其特征在于,包括:
将待识别音频数据输入至第一语音特征提取子模型,得到所述待识别音频数据的初始特征数据,所述第一语音特征提取子模型为预先训练的语音识别模型的子模型,所述语音识别模型还包括第二语音特征提取子模型和语音鉴伪子模型;
将所述初始特征数据输入所述第二语音特征提取子模型中,所述第二语音特征提取子模型包括频域分支以及时域分支,所述频域分支用于输出所述待识别音频数据的频域特征数据,所述时域分支用于输出的所述待识别音频数据的时域特征数据;
将所述频域特征数据和所述时域特征数据输入所述语音鉴伪子模型中,得到所述待识别音频数据的分类结果,所述分类结果用以指示所述待识别音频数据是否为真实语音。
2.根据权利要求1所述的语音识别方法,其特征在于,所述第一语音特征提取子模型为WavLM模型或者Wav2vec模型。
3.根据权利要求2所述的语音识别方法,其特征在于,所述第一语音特征提取子模型为WavLM模型,所述第一语音特征提取子模型包括:
卷积编码模块,用于对所述待识别音频数据进行编码获得编码数据;
Transformer编码模块,包括J个特征提取层,其中,第一个特征提取层用于根据所述编码数据提取特征数据C1,第j个特征提取层用于根据特征数据Cj-1提取特征数据Cj,j为大于1且小于J的整数,J为大于1的整数,其中,所述初始特征数据根据特征数据C1至Cj获得。
4.根据权利要求3所述的语音识别方法,其特征在于,所述第一语音特征提取子模型还包括:
自注意力模块,用于对所述特征数据C1至Cj进行加权求和,得到所述待识别音频数据的初始特征数据。
5.根据权利要求2所述的语音识别方法,其特征在于,所述第一语音特征提取子模型为Wav2vec模型,所述第一语音特征提取子模型包括:
特征提取层,用于提取所述待识别音频数据的浅层特征数据;
上下文编码层,用于提取所述待识别音频数据的相邻帧的浅层特征数据之间的关联特征数据,得到所述待识别音频数据的初始特征数据。
6.一种语音识别模型训练方法,其特征在于,包括:
将样本音频数据输入至第一语音特征提取子模型,得到所述样本音频数据的初始特征数据,所述第一语音特征提取子模型为预先训练的语音识别模型的子模型,所述语音识别模型还包括第二语音特征提取子模型和语音鉴伪子模型;
将所述初始特征数据输入所述第二语音特征提取子模型中,所述第二语音特征提取子模型包括频域分支以及时域分支,所述频域分支用于输出所述样本音频数据的频域特征数据,所述时域分支用于输出所述样本音频数据的时域特征数据;
将所述频域特征数据和所述时域特征数据输入所述语音鉴伪子模型中,得到所述样本音频数据的预测分类结果,所述预测分类结果用以预测所述样本音频数据是否为真实语音;
根据所述预测分类结果以及所述样本音频数据的类别标签训练所述语音识别模型。
7.一种语音识别装置,其特征在于,包括:
第一输入模块,用于将待识别音频数据输入至第一语音特征提取子模型,得到所述待识别音频数据的初始特征数据,所述第一语音特征提取子模型为预先训练的语音识别模型的子模型,所述语音识别模型还包括第二语音特征提取子模型和语音鉴伪子模型;
第二输入模块,用于将所述初始特征数据输入所述第二语音特征提取子模型中,所述第二语音特征提取子模型包括频域分支以及时域分支,所述频域分支用于输出所述待识别音频数据的频域特征数据,所述时域分支用于输出的所述待识别音频数据的时域特征数据;
第三输入模块,用于将所述频域特征数据和所述时域特征数据输入所述语音鉴伪子模型中,得到所述待识别音频数据的分类结果,所述分类结果用以指示所述待识别音频数据是否为真实语音。
8.一种语音识别模型训练装置,其特征在于,包括:
第四输入模块,用于将样本音频数据输入至第一语音特征提取子模型,得到所述样本音频数据的初始特征数据,所述第一语音特征提取子模型为预先训练的语音识别模型的子模型,所述语音识别模型还包括第二语音特征提取子模型和语音鉴伪子模型;
第五输入模块,用于将所述初始特征数据输入所述第二语音特征提取子模型中,所述第二语音特征提取子模型包括频域分支以及时域分支,所述频域分支用于输出所述样本音频数据的频域特征数据,所述时域分支用于输出所述样本音频数据的时域特征数据;
第六输入模块,用于将所述频域特征数据和所述时域特征数据输入所述语音鉴伪子模型中,得到所述样本音频数据的预测分类结果,所述预测分类结果用以预测所述样本音频数据是否为真实语音;
训练模块,用于根据所述预测分类结果以及所述样本音频数据的类别标签训练所述语音识别模型。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现:
权利要求1~5中任一项所述的语音识别方法;和/或
权利要求6所述的语音识别模型训练方法。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行:
权利要求1~5中任一项所述的语音识别方法;和/或
权利要求6所述的语音识别模型训练方法。
CN202211033301.5A 2022-08-26 2022-08-26 语音识别方法、模型训练方法、装置、介质、电子设备 Pending CN115376498A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211033301.5A CN115376498A (zh) 2022-08-26 2022-08-26 语音识别方法、模型训练方法、装置、介质、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211033301.5A CN115376498A (zh) 2022-08-26 2022-08-26 语音识别方法、模型训练方法、装置、介质、电子设备

Publications (1)

Publication Number Publication Date
CN115376498A true CN115376498A (zh) 2022-11-22

Family

ID=84066913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211033301.5A Pending CN115376498A (zh) 2022-08-26 2022-08-26 语音识别方法、模型训练方法、装置、介质、电子设备

Country Status (1)

Country Link
CN (1) CN115376498A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116229960A (zh) * 2023-03-08 2023-06-06 江苏微锐超算科技有限公司 欺骗性语音鲁棒检测方法、系统、介质及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116229960A (zh) * 2023-03-08 2023-06-06 江苏微锐超算科技有限公司 欺骗性语音鲁棒检测方法、系统、介质及设备
CN116229960B (zh) * 2023-03-08 2023-10-31 江苏微锐超算科技有限公司 欺骗性语音鲁棒检测方法、系统、介质及设备

Similar Documents

Publication Publication Date Title
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
Kabir et al. A survey of speaker recognition: Fundamental theories, recognition methods and opportunities
CN107610709B (zh) 一种训练声纹识别模型的方法及系统
CN111276131B (zh) 一种基于深度神经网络的多类声学特征整合方法和系统
WO2022105861A1 (zh) 用于识别语音的方法、装置、电子设备和介质
CN114627856A (zh) 语音识别方法、装置、存储介质及电子设备
Pawar et al. Review of various stages in speaker recognition system, performance measures and recognition toolkits
KR101699252B1 (ko) 음성 인식을 위한 특징 파라미터 추출 방법 및 이를 이용하는 음성 인식 장치
Biagetti et al. Speaker identification in noisy conditions using short sequences of speech frames
Abraham et al. A deep learning approach for robust speaker identification using chroma energy normalized statistics and mel frequency cepstral coefficients
CN115376498A (zh) 语音识别方法、模型训练方法、装置、介质、电子设备
CN112992155B (zh) 一种基于残差神经网络的远场语音说话人识别方法及装置
CN113035230B (zh) 认证模型的训练方法、装置及电子设备
Büker et al. Deep convolutional neural networks for double compressed AMR audio detection
Arora et al. An efficient text-independent speaker verification for short utterance data from Mobile devices
Van et al. Text-dependent Speaker Recognition System Based on Speaking Frequency Characteristics
CN116959421B (zh) 处理音频数据的方法及装置、音频数据处理设备和介质
CN117649846B (zh) 语音识别模型生成方法、语音识别方法、设备和介质
Shah et al. A robust approach for speaker identification using dialect information
CN113823300B (zh) 语音处理方法及装置、存储介质、电子设备
WO2024055752A1 (zh) 语音合成模型的训练方法、语音合成方法和相关装置
Chang Deepfake Speech Recognition and Detection
Protserov et al. Segmentation of Noisy Speech Signals
Revathi et al. Real time implementation of voice based robust person authentication using TF features and CNN
Shah et al. Research Article A Robust Approach for Speaker Identification Using Dialect Information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination