CN117409767A - 语音数据、会议语音的处理方法及服务器 - Google Patents
语音数据、会议语音的处理方法及服务器 Download PDFInfo
- Publication number
- CN117409767A CN117409767A CN202311264759.6A CN202311264759A CN117409767A CN 117409767 A CN117409767 A CN 117409767A CN 202311264759 A CN202311264759 A CN 202311264759A CN 117409767 A CN117409767 A CN 117409767A
- Authority
- CN
- China
- Prior art keywords
- prompt
- voice
- processing
- information
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 467
- 238000000034 method Methods 0.000 claims abstract description 101
- 230000008447 perception Effects 0.000 claims abstract description 61
- 238000012549 training Methods 0.000 claims description 147
- 230000009466 transformation Effects 0.000 claims description 53
- 238000000605 extraction Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000002372 labelling Methods 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 description 33
- 230000006870 function Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 14
- 238000013145 classification model Methods 0.000 description 13
- 230000007246 mechanism Effects 0.000 description 12
- 239000013598 vector Substances 0.000 description 12
- 239000011159 matrix material Substances 0.000 description 10
- 239000000284 extract Substances 0.000 description 8
- 238000013519 translation Methods 0.000 description 8
- 238000007689 inspection Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000004378 air conditioning Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 238000010295 mobile communication Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种语音数据、会议语音的处理方法及服务器。本申请的方法,在语音处理模型的至少一个编码层中增加了噪声感知提示控制模块NPG,通过将待处理的语音数据输入语音处理模型,通过所述语音处理模型提取所述语音数据的特征信息,通过NPG根据所述语音数据的特征信息和多个不同噪声类型的预设提示信息,自适应地生成与所述语音数据匹配的控制提示,并基于所述控制提示和特征信息实现语音处理,得到语音处理结果,并返回所述语音处理结果,提升了语音处理模型的抗噪能力,从而提升语音处理模型在各类噪声条件下的鲁棒性和准确性。
Description
技术领域
本申请涉及计算机技术,尤其涉及一种语音数据、会议语音的处理方法及服务器。
背景技术
在语音处理领域,越来越多场景(如语音翻译、音视频会议、直播、短视频、智能电话客服质检与外呼等)迫切需要强大语音处理(如语音识别、语音分类等)能力的支持。传统语音处理(如语音识别、语音分类等)模型,需要依赖标注大量不同场景不同语言的语音数据的训练,才可以在通用或某些特定领域上取得较好的准确率。模型效果强依赖于语音数据及其对应标注数据(如文本、类别)的标注量,为提高模型的准确率,需要标注大量数据但是训练数据的标注成本高、标注质量差,高质量的标注数据难以获取,导致语音处理模型容易出现因训练数据缺乏、应用场景数据不匹配而导致的性能下降问题。
基于大量无监督数据预训练的大型预训练语音模型已成为语音处理领域的主导力量,通过使用下游任务的较小规模的标注训练数据进行微调训练,来获得在特定下游任务尚准确率较高的语音处理模型。但是,在有噪声的语音条件下,噪声的存在破坏了语音内容,引入了不必要的失真,放大了微调方法的过平滑问题,导致在各类噪声的语音条件下语音处理模型的鲁棒性低、语音处理准确性较低。
发明内容
本申请提供一种语音数据、会议语音的处理方法及服务器,用以解决在各类噪声的语音条件下语音处理模型的鲁棒性低、语音处理的准确性较低的问题。
第一方面,本申请提供一种语音数据的处理方法,包括:
获取待处理的语音数据;将所述语音数据输入语音处理模型,通过所述语音处理模型提取所述语音数据的特征信息,根据所述语音数据的特征信息和预设的多个不同噪声类型的提示信息,生成与所述语音数据匹配的控制提示,基于所述控制提示和所述特征信息进行语音处理,得到语音处理结果;输出所述语音处理结果。
第二方面,本申请提供一种会议语音的处理方法,包括:
接收端侧设备发送的会议语音;将所述会议语音输入语音识别模型,通过所述语音识别模型提取所述会议语音的特征信息,根据所述会议语音的特征信息和预设的多个不同噪声类型的提示信息,生成与所述会议语音匹配的控制提示,基于所述控制提示和所述会议语音的特征信息进行语音识别,得到所述会议语音的内容文本;向所述端侧设备输出所述会议语音的内容文本。
第三方面,本申请提供一种服务器,包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述服务器执行前述任一方面所述的方法。
本申请提供的语音数据、会议语音的处理方法及服务器,通过获取待处理的语音数据,将语音数据输入语音处理模型,通过语音处理模型提取语音数据的特征信息,根据语音数据的特征信息和预设的多个不同噪声类型的提示信息,生成与语音数据匹配的控制提示,基于控制提示和特征信息进行语音处理,得到语音处理结果,并输出语音处理结果,能够根据输入语音的特征信息和多个不同噪声类型的提示信息,自适应地生成与输入语音数据匹配的控制提示,相较于现有技术中使用固定的噪声提示信息,本申请的方案提升了语音处理模型的抗噪声能力,提升了语音处理模型在各类噪声条件下的鲁棒性,从而提升了在各类噪声条件下语音处理的准确性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请所适用的一示例系统架构的示意图;
图2为本申请一示例性实施例提供的语音数据处理方法流程图;
图3为本申请一示例性实施例提供的语音处理模型的结构示例图;
图4为本申请一示例性实施例提供的不包含NPG的编码层的结构示例图;
图5为本申请一示例性实施例提供的增加第二前馈层对应NPG的编码层的示例图;
图6为本申请一示例性实施例提供的增加第一前馈层对应NPG的编码层的示例图;
图7为本申请一示例性实施例提供的增加注意力模块对应NPG的编码层的示例图;
图8为本申请一示例性实施例提供的噪声感知提示控制模块NPG的示例架构图;
图9为本申请一示例性实施例提供的与第二前馈层对应的NPG的示例架构图;
图10为本申请一示例性实施例提供的获取语音处理模型的方法流程图;
图11为本申请一示例性实施例提供的一种预训练语音模型的示例架构图;
图12为本申请一示例性实施例提供的获取垂直领域的语音处理模型的方法流程图;
图13为本申请一示例性实施例提供的语音数据处理方法流程图;
图14为本申请一示例性实施例提供的会议语音的处理方法流程图;
图15为本申请实施例提供的一种服务器的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户属性信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
首先对本申请所涉及的名词进行解释:
预训练语音模型:是指预训练的自监督学习语音模型,这些模型以及在大量位标注的训练上进行了广泛的训练,在语音相关任务方面取得了较大的改进,具有较优的性能。例如,wav2vec2(是一种基于自学习的语音表示方法),基于BERT的自监督(self-supervised)语音表示模型等。
Transformer:是广泛用于自然语言处理任务的一种深度学习架构,可以有效地解决对序列数据的建模问题。它的核心是注意力机制。
BERT:全称是Bidirectional Encoder Representations from Transformer,是一种基于Transformer的双向编码器表示模型,是一个预训练的语言表征模型。
注意力机制(Attention):一种深度学习算法,它可以使模型在处理输入数据时,集中关注于与当前任务相关的部分,而忽略与任务无关的部分。其通常是通过一种称为“注意力层”的特殊层来实现的。这个层可以计算出每个输入的重要性,并将这些重要性作为权重来加权输入,从而使模型更加关注重要的部分。这种机制可以提高模型的性能和效率,尤其是在处理长序列数据时。
自注意力(Self Attention,简称SA)机制:注意力机制的一种,自注意力机制中有三个重要的输入矩阵:查询矩阵Q(query)、键矩阵K(key)和值矩阵V(value)。这三个矩阵都是由输入序列经过不同的线性变换(使用三个不同的权重矩阵)得到的。然后,查询矩阵Q与键矩阵K的乘积经过一个softmax函数进行归一化处理,得到一个与输入序列长度相同的概率分布,也即注意力权重。最后,将注意力权重乘以值矩阵V,得到自注意力机制输出的自注意力表征(向量/矩阵),表示将每个元素(value)的值加权平均后的结果。
语音识别:也被称为自动语音识别(Automatic Speech recognition,ASR),其目标是将语音转换为文字。
噪声感知提示控制(Noise-aware Prompt Gating,简称NPG):本申请中是指基于门控机制选择/调整模型所使用的提示信息(prompt)的方法。
提示微调(Prompt-tuning):基于提示学习(Prompting)的方法,将提示(prompt)扩展到连续空间,在输入层加入prompt连续向量作为提示信息,微调训练的重点是调整输入的提示信息而非修改模型参数。通常预训练模型的参数保持不变,调整输入的提示信息来适应下游的任务。
大模型是指具有大规模模型参数的深度学习模型,通常包含上亿、上百亿、甚至上千亿的模型参数。大模型又可以称为基石模型/基础模型(Foundation Model,简称FM),通过大规模无标注的语料进行大模型的预训练,产出亿级以上参数的预训练模型,这种模型能适应广泛的下游任务,模型具有较好的泛化能力,例如大规模语言模型(Large LanguageModel,简称LLM)、多模态预训练模型(Multi-modal Pre-training Model)、预训练的语音表示模型等。
大模型在实际应用时,需较小规模的标注数据对预训练模型进行微调即可应用于不同的任务中。大模型可以广泛应用于自然语言处理(Natural Language Processing,简称NLP)、计算机视觉、语音处理等领域。应用于语音处理领域时,大模型具体可以应用于语音识别、语音分类等任务,主要的应用场景包括语音翻译、音视频会议、直播、短视频、智能电话客服质检与外呼等。
在语音处理领域,基于预训练的语音表示模型构建适用于具体下游任务的预训练语音模型,例如,适用于语音识别任务的预训练语音识别模型、适用于语音分类任务的预训练语音分类模型等。通过使用具体下游任务的较小规模的标注训练数据,对预训练语音模型进行微调训练,来获得在具体下游任务中性能较优的语音处理模型。但是,在有噪声的语音条件下,噪声的存在破坏了语音内容,引入了不必要的失真,放大了微调训练方案的过平滑问题,导致在各类噪声的语音条件下语音处理模型的鲁棒性低、语音处理的准确性较低。
本申请提供一种语音数据的处理方法,获取待处理的语音数据,将语音数据输入语音处理模型,通过语音处理模型提取语音数据的特征信息,根据语音数据的特征信息和预设的多个不同噪声类型的提示信息,生成与语音数据匹配的控制提示,基于控制提示和特征信息进行语音处理,得到语音处理结果,并输出语音处理结果,能够根据输入语音的特征信息和多个不同噪声类型的提示信息,自适应地生成与输入语音数据匹配的控制提示,相较于现有技术中使用固定的噪声提示信息,本申请的方案能够提升语音处理模型在各类噪声条件下的鲁棒性,从而提升在各类噪声条件下语音处理的准确性。
其中,预训练语音模型是基于预训练的语音表示模型构建的、适用于具体下游语音处理任务的模型。例如,应用于下游的语音识别任务时,可以在预训练的语音表示模型上增加实现语音识别的解码器,得到的预训练的语音识别模型。例如,应用于下游的语音分类任务时,可以在预训练的语音表示模型上增加实现语音分类的分类器,得到的预训练的语音分类模型。
噪声类型是指噪声的具体分类类型,包括平稳噪声和非平稳噪声两大类,每一大类具体包括多个不同的噪声类型。平稳噪声包括但不限于汽车、地铁等交通噪声。非平稳噪声包括但不限于机场、车站、咖啡馆等各类场所内的噪声,以及空调/真空噪声等。
本申请中,多种噪声类型的提示信息包括多种不同噪声类型分别对应的提示向量,具体包括但不限于各类平稳噪声及各类非平稳噪声分别对应的提示向量。各噪声类型的提示信息可以随机初始化,在语音处理模型的训练过程中,训练更新各噪声类型的提示信息,训练完成后获得多种噪声类型的提示信息,作为语音处理时使用的预设的多种噪声类型的提示信息。
图1为本申请所适用的一示例系统架构的示意图。如图1所示,该系统架构包括服务器和端侧设备。其中,服务器与端侧设备之间具有可通信的通信链路,能够实现服务器与端侧设备间的通信连接。
其中,服务器是部署在云端或本地的具有计算能力的设备,例如云集群等。服务器存储有预训练语音模型以及用于微调训练的训练集。服务器负责将预训练语音模型的噪声提示信息初始化成多种不同噪声类型的提示信息,并在预训练语音模型的至少一个编码层中增加噪声感知提示控制模块NPG,获得待训练的语音处理模型。其中该噪声感知提示控制模块NPG用于根据输入的特征信息和多个提示信息,生成与输入的特征信息匹配的控制提示。进一步地,服务器使用训练集对语音处理模型进行训练,更新噪声感知提示控制模块NPG的参数和多个不同噪声类型的提示信息,得到适用于下游语音处理任务的语音处理模型。该语音处理模型的参数包含神经网络参数和训练得到的多个不同噪声类型的提示信息。
端侧设备可以是运行下游应用系统的电子设备,具体可以为具有网络通信功能、运算功能以及信息显示功能的硬件设备,其包括但不限于智能手机、平板电脑、台式电脑、本地服务器、云端服务器等。端侧设备运行下游应用系统时需要使用语音处理模型的语音处理能力。例如,端侧设备运行的下游应用系统可以是实现语音翻译、音视频会议、直播、短视频、智能电话客服质检与外呼等,在实现下游应用系统的至少一个功能时,需要使用语音处理模型的语音处理能力。
基于图1所示的系统架构,用户通过端侧设备向服务器发送对语音处理模型的调用请求,该调用请求包含待处理的语音数据。服务器接调用请求,获取待处理的语音数据,将待处理语音数据输入语音处理模型,通过语音处理模型提取语音数据的特征信息,根据语音数据的特征信息和多个不同噪声类型的提示信息,生成与语音数据匹配的控制提示,基于控制提示和特征信息进行语音处理,得到语音处理结果,并向端侧设备返回语音处理结果。端侧设备接收服务器返回的语音处理结果,根据语音处理结果继续执行下游应用系统的处理逻辑,实现下游应用系统的功能。
另外,服务器还可以将语音处理模型(或语音处理模型的参数,包括模型参数和训练得到的多个不同噪声类型的提示信息)提供给端侧设备,端侧设备可以在本地使用语音处理模型,基于语音处理模型的语音处理能力实现具体的下游应用系统的语音处理功能,如语音识别、语音分类等。当然,语音处理模型还可以应用于其他语音处理和人工智能领域的应用场景,此处不做具体限定。
示例性地,基于本申请的方法可以应用于获取语音识别模型。该语音识别模型具体可以应用于语音翻译、音视频会议、直播、短视频、智能电话客服质检与外呼等应用场景中。具体地,基于预训练的语音表示模型构建预训练语音识别模型(预训练语音模型的一种)。其中预训练语音模型的参数包括噪声提示信息。将预训练语音识别模型的噪声提示信息初始化成多种不同噪声类型的提示信息,并在预训练语音识别模型的至少一个编码层中增加噪声感知提示控制模块NPG,获得待微调训练的语音识别模型;进一步地,使用训练集对语音识别模型进行训练,更新噪声感知提示控制模块NPG的参数和多个不同噪声类型的提示信息,得到训练好的语音识别模型,语音识别模型训练好的参数包括模型参数和多个不同噪声类型的提示信息。
在进行语音识别时,将待识别的语音数据输入语音识别模型,通过语音识别模型提取语音数据的特征信息,根据语音数据的特征信息和多个不同噪声类型的提示信息,自适应地生成与语音数据匹配的控制提示,并基于控制和特征信息进行语音识别,得到语音识别结果。
示例性地,基于本申请的方法可以应用于获取语音分类模型。该语音分类模型具体可以应用于语音翻译、音视频会议、直播、短视频、智能电话客服质检与外呼等应用场景中。具体地,基于预训练的语音表示模型构建预训练语音分类模型(预训练语音模型的一种),其中预训练语音模型的参数包括噪声提示信息。将预训练语音识别模型的噪声提示信息初始化成多种不同噪声类型的提示信息,并在预训练语音分类模型的至少一个编码层中增加噪声感知提示控制模块NPG,获得待微调训练的语音分类模型;进一步地,使用训练集对语音分类模型进行训练,更新噪声感知提示控制模块NPG的参数和多个不同噪声类型的提示信息,得到训练好的语音分类模型,语音分类模型训练好的参数包括模型参数和多个不同噪声类型的提示信息。
在进行语音分类时,将待分类的语音数据输入语音分类模型,通过语音分类模型提取语音数据的特征信息,根据语音数据的特征信息和多个不同噪声类型的提示信息,自适应地生成与语音数据匹配的控制提示,并基于控制提示和特征信息进行语音分类,得到语音分类结果。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图2为本申请一示例性实施例提供的语音数据处理方法流程图。本实施例的执行主体可以是运行有语音处理模型的服务器。具体可以为前述系统架构中的服务器。如图2所示,该方法具体步骤如下:
步骤S201、获取待处理的语音数据。
本实施例的方法可以应用于实现语音识别、语音分类等语音处理任务,具体可以应用于语音翻译、音视频会议、直播、短视频、智能电话客服质检与外呼等应用场景中。
在不同的应用场景中,获取待处理的语音数据的方式可以不同。示例性地,服务器可以接收具有语音录制功能的端侧设备录制并发送的语音数据;或者,服务器还接收用户通过前端界面上传的语音数据;或者,服务器还可以接收端侧设备发送的语音处理请求,从语音处理请求中提取语音数据。服务器获取待处理的语音数据的具体方式可以根据实际应用场景的应用需求设置和调整,此处不做具体限定。
另外,在不同的应用场景中,待处理的语音数据可以不同。例如,在语音翻译场景中,待处理的语音数据是待翻译的语音;在音视频会议场景中,待处理的语音数据可以是采集的会议语音。
步骤S202、将语音数据输入语音处理模型,通过语音处理模型提取语音数据的特征信息,根据语音数据的特征信息和预设的多个不同噪声类型的提示信息,生成与语音数据匹配的控制提示,基于控制提示和特征信息进行语音处理,得到语音处理结果。
其中,噪声类型是指噪声的具体分类类型,包括平稳噪声和非平稳噪声两大类,每一大类具体包括多个不同的噪声类型。平稳噪声包括但不限于汽车、地铁等交通噪声。非平稳噪声包括但不限于机场、车站、咖啡馆等各类场所内的噪声,以及空调/真空噪声等。
本实施例中,预设的多个不同噪声类型的提示信息,包括多种不同噪声类型分别对应的提示向量,具体包括但不限于各类平稳噪声及各类非平稳噪声分别对应的提示向量。预设的多个不同噪声类型的提示信息是在语音处理模型的训练过程训练确定的。
在获取到待处理的语音数据之后,将语音数据输入语音处理模型,通过语音处理模型对语音数据进行语音处理,得到语音处理结果。
具体地,语音处理模型首先通过特征提取网络来提取语音数据的特征信息。该特征提取网络使用可以提取语音的声学特征或语音特征的结构,例如卷积神经网络(Convolutional Neural Networks,简称CNN)等。另外,还可以采用Mel频率倒谱系数(MelFrequency Cepstrum Coefficient,简称MFCC)、线性预测倒谱系数(Linear PredictionCepstrum Coefficient,简称LPCC)、离散小波变换(Discrete Wavelet Transform,简称DWT)等常用的语音数据特征提取方法,来提取语音数据的特征信息,本实施例此处不做具体限定。
进一步地,将语音数据的特征信息和预设的多个不同噪声类型的提示信息输入语音处理模型的编码器,通过编码器对输入的特征信息和多个提示信息进行编码处理。语音处理模型的至少一个编码层中增加了与指定处理模块对应的噪声感知提示控制模块NPG,其中指定处理模块可以是注意力模块、前馈网络或前馈网络的一个前馈层。在编码器的编码过程中,通过NPG模块可以根据输入指定处理模块的特征信息,对输入指定处理模块的多个提示信息进行加权控制,生成与输入指定处理模块的特征信息相匹配的控制提示,并将控制提示融入指定处理模块处理后输出的多个提示信息中。通过NPG可以基于语音数据的特征信息感知语音数据包含的噪声,使得编码器最终输出的提示信息是与语音数据相匹配的控制提示。通过解码器基于与语音数据相匹配的控制提示和特征信息的编码结果进行解码,获得语音处理结果,可以提升语音处理模型在各类噪声条件下的鲁棒性,从而提升语音处理的准确性。
步骤S203、输出语音处理结果。
本实施例的方法,通过获取待处理的语音数据,将语音数据输入语音处理模型,通过语音处理模型提取语音数据的特征信息,根据语音数据的特征信息和预设的多个不同噪声类型的提示信息,自适应地生成与语音数据匹配的控制提示,基于控制提示和特征信息进行语音处理,得到语音处理结果,并输出语音处理结果,相较于现有技术中使用固定的噪声提示信息,本实施例的方案能够提升语音处理模型在各类噪声条件下的鲁棒性,从而提升在各类噪声条件下语音处理的准确性。
示例性地,图3为本申请一示例性实施例提供的语音处理模型的结构示例图。语音处理模型包括特征提取网络、编码器和解码器。其中,编码器包括多个依次堆叠的编码层(Transformer block),图3中用“×M”表示编码器由M个编码层依次堆叠而成,M为正整数。每一个编码层包含依次堆叠的多个处理模块(图3中画出了3个处理模块,其中一个是指定处理模块进行示例性地说明,对编码层包含的处理模块的数量和指定处理模块的数量和位置不做具体限定)。任一处理模块的输入包括特征信息和多个提示信息,输出包括处理后的特征信息和多个提示信息,处理模块用于对输入的特征信息和多个提示信息进行处理,输出处理后的提示信息和多个提示信息。
语音处理模型的至少一个编码层中包括与指定处理模块对应的噪声感知提示控制模块NPG。其中,指定处理模块为编码层中的任一处理模块。NPG用于根据输入对应指定处理模块的特征信息对输入对应指定处理模块的多个提示信息进行加权控制,生成与输入的特征信息匹配的控制提示,并将控制提示融入对应指定处理模块输出的处理后的多个提示信息。图3中示出了包含噪声感知提示控制模块NPG的一个编码层的结构示例,并不限定每个编码层中均包含NPG模块。在一可选实施例中,可以在语音处理模型的每一个编码层中增加与指定处理模块对应的NPG。可选地,可以指定一个编码层中的多个处理模模块为指定处理模块,在一个编码层中增加多个指定处理模块分别对应的NPG。
在一可选实施例中,编码层至少包括如下处理模块:注意力模块和前馈网络,前馈网络包含前后依次连接的第一前馈层和第二前馈层。第一前馈层为全连接层,使用修正线性单元(Rectified Linear Unit,ReLU)作为激活函数,将输入数据映射到高维空间。第二前馈层是全连接层,使用线性激活函数(Identity),将第一前馈层输出的高维数据映射到低维空间,第二前馈层的输出维度与第一前馈层的输入维度相同。指定处理模块可以为注意力模块、第一前馈层、第二前馈层中的任意一个。另外,指定处理模块还可以是整个前馈网络,或者是编码层中的其他处理模块,此处不做具体限定。
示例性地,图4示出了一种不包含NPG的编码层的结构示例,如图4所示,按照数据流向,编码层依次包括如下处理模块:Multi-Headed Attention(多头注意力模块)、LayerNorm(归一化模块)、Feed-Forward(up)(第一前馈层)、Feed-Forward(down)(第二前馈层)、LayerNorm(归一化模块)。其中,各编码层的输入为特征信息与多个提示信息的拼接,各个编码层通过多个处理模块依次对输入的特征信息和多个提示信息的拼接特征进行处理,输出处理后的拼接特征,仍然包特征信息与多个提示信息的拼接。
在图4所示编码层的基础上,以将Feed-Forward(down)(第二前馈层)作为指定处理模块为例,在编码层中增加与Feed-Forward(down)(第二前馈层)对应的NPG之后,得到如图5所示的编码层结构。NPG根据输入Feed-Forward(down)(第二前馈层)的特征信息和提示信息,基于门控机制生成与输入的特征信息匹配的控制提示。该将控制提示后续融入Feed-Forward(down)(第二前馈层)输出的提示信息。
在图4所示编码层的基础上,以将Feed-Forward(up)(第一前馈层)作为指定处理模块为例,在编码层中增加与Feed-Forward(up)(第一前馈层)对应的NPG之后,得到如图6所示的编码层结构。NPG根据输入Feed-Forward(up)(第一前馈层)的特征信息和提示信息,基于门控机制生成与输入的特征信息匹配的控制提示。该控制提示后续融入Feed-Forward(up)(第一前馈层)输出的提示信息。
在图4所示编码层的基础上,以将Multi-Headed Attention(多头注意力模块)作为指定处理模块为例,在编码层中增加与Multi-Headed Attention(多头注意力模块)对应的NPG之后,得到如图7所示的编码层结构。NPG根据输入Multi-Headed Attention(多头注意力模块)的特征信息和提示信息,基于门控机制生成与输入的特征信息匹配的控制提示。该控制提示后续融入Multi-Headed Attention(多头注意力模块)输出的提示信息。
另外,还可以将整个前馈网络作为指定处理模块,在编码层中增加与前馈网络对应的噪声感知提示控制模块NPG,NPG根据输入前馈网络的第一前馈层的特征信息和提示信息,基于门控机制生成与输入第一前馈层的特征信息匹配的控制提示,将输入第一前馈层的特征信息匹配的控制提示与前馈网络的第二前馈层输出的提示信息融合。
可选地,将控制提示与指定处理模块输出的提示信息融合时,可以将控制提示与指定处理模块输出的特征信息拼接,将拼接结果与指定处理模块的输出(包括特征信息与提示信息的拼接)融合(求和或求均值)。可选地,将控制提示与指定处理模块输出的提示信息融合时,可以将控制提示与输入指定处理模块的特征信息拼接,将拼接结果与指定处理模块的输出(包括特征信息与提示信息的拼接)融合(求和或求均值)。
基于前述语音处理模型的结构,前述步骤S202具体实现过程如下:
将待处理的语音数据输入语音处理模型的特征提取网络进行特征提取,得到语音数据的特征信息。将语音数据的特征信息和预设的多个不同噪声类型的提示信息输入编码器中第一层编码层的第一个处理模块,通过各编码层的各个处理模块依次对输入的特征信息和多个提示信息进行处理,输出处理后的特征信息和多个提示信息,并通过噪声感知提示控制模块NPG,根据输入对应指定处理模块的特征信息对输入对应指定处理模块的多个提示信息进行加权控制,生成与输入的特征信息匹配的控制提示,将与输入的特征信息匹配的控制提示融入对应指定处理模块输出的处理后的多个提示信息,作为输入下一处理模块的提示信息。经过编码器的多个编码层的处理后,编码器的最后一层编码层输出最终的编码特征,包括处理后的特征信息和多个提示信息。将最后一层编码层输出的特征信息和多个提示信息输入解码器进行解码,得到语音处理结果。
在前述任一实施例的基础上,在一可选实施方式中,NPG根据输入对应指定处理模块的特征信息对输入对应指定处理模块的多个提示信息进行加权控制,生成与输入的特征信息匹配的控制提示,具体通过如下方式实现:
通过噪声感知提示控制模块NPG,根据输入指定处理模块的特征信息,确定输入指定处理模块的多个提示信息的第一门控系数,并基于第一门控系数对输入指定处理模块的多个提示信息进行加权计算,生成第一中间提示;根据指定处理模块输出的特征信息确定第二门控系数,并基于第二门控系数对第一中间提示进行加权计算,生成第一控制提示。
示例性地,噪声感知提示控制模块NPG包括:第一线性变换单元、第一控制单元、第二线性变换单元和第二控制单元。第一线性变换单元和第二线性变换单元采用相同结构的线性变换单元实现,第一线性变换单元和第二线性变换单元使用的线性变换矩阵是可训练参数,第一线性变换单元和第二线性变换单元不共享参数。第一线性变换单元和第二线性变换单元还包括向下投影的通道维度r这一超参数,可以根据实际应用场景和经验进行设置,例如r可以为16、32、64等,此处不做具体限定。
其中,第一线性变换单元用于对指定处理模块的输入特征信息进行第一线性变换,并对第一线性变换结果进行归一化处理,得到第一门控系数。第一控制单元用于根据第一门控系数,对输入指定处理模块的多个提示信息进行加权计算,生成第一中间提示。第二线性变换单元用于对指定处理模块输出的特征信息进行第二线性变换,并对第二线性变换结果进行归一化处理,得到第二门控系数。第二控制单元用于基于第二门控系数对第一中间提示进行加权计算,生成第一控制提示。
具体地,在实现根据输入指定处理模块的特征信息,确定输入指定处理模块的多个提示信息的第一门控系数时,通过噪声感知提示控制模块的第一线性变换单元(linear),对输入的特征信息进行第一线性变换,对第一线性变换结果进行归一化处理,得到第一门控系数。在实现根据指定处理模块输出的特征信息确定第二门控系数时,通过噪声感知提示控制模块的第二线性变换单元(linear),对输入的特征信息进行第二线性变换,对第二线性变换结果进行归一化处理,得到第二门控系数。
示例性地,以Z*表示任一输入语音数据的原始特征信息,输入各层编码层中指定处理模块的特征信息通常是经过之前的各层处理后的隐层特征信息,表示为H(Z*)′。当指定处理模块注意力模块时,第一层编码层输入的特征信息可以是输入语音的原始特征信息,这一特殊情况下H(Z*)′=Z*。生成第一门控系数的过程可以表示为:A=δ(LinearA(H(Z*)′)),其中H(Z*)′表示输入指定处理模块的特征信息。LinearA表示经第一线性变换单元进行的第一线性变换。δ表示归一化处理,可以使用Sigmoid函数实现归一化。第一门控系数A包含多个权重系数,可以表示为由多个权重值构成的向量:A={α1,α2,…,αt},其中每个权重值α*是一个权重系数,用于对输入的提示信息进行门控选择。t是A的维度,与输入特征信息的维度相同。
其中,LinearA(H(Z*)′)=W(out)·σ(W(in)(H(Z*)′)),W(out)和W(in)为第一线性变换单元使用的两个线性变换矩阵,W(in)与输入指定处理单元的特征信息的维度相同,W(out)与指定处理单元输出的特征信息的维度相同。σ是指非线性激活函数。W(out)和W(in)为第一线性变换单元中的可训练参数。
进一步地,用F()表示指定处理模块的处理过程,指定处理模块输出的特征信息H(Z*)=F(H(Z*)′),也即输入特征信息H(Z*)′经指定处理模块的处理后的特征信息。生成第二门控系数的过程可以表示为:G=δ(LinearG(H(Z*))),其中H(Z*)表示指定处理模块输出的特征信息。LinearG表示经第二线性变换单元进行的第二线性变换。δ表示归一化处理,可以使用Sigmoid函数实现归一化。
其中,LinearG(H(Z*))=W′(in)·σ(W′(out)(H(Z*))),W′(in)和W′(out)为第二线性变换单元使用的两个线性变换矩阵,W′(out)与指定处理单元输出的特征信息的维度相同,W′(in)与输入指定处理单元的特征信息的维度相同。σ是指非线性激活函数。W′(in)和W′(out)为第二线性变换单元中的可训练参数。
用P(in)表示输入指定处理模块的提示信息,基于第一门控系数A,对输入指定处理模块的多个提示信息P(in)进行加权计算,生成第一中间提示,具体过程可以表示为: 其中PA表示第一中间提示,/>表示矩阵的克罗内克积运算。该第一中间提示PA为提示级的加权提示。基于第二门控系数G,对第一中间提示PA进行加权计算,生成第一控制提示,具体过程可以表示为:/>其中PG→A表示第一控制提示,°表示矩阵的哈达玛积运算。第一控制提示PG→A为通道级的控制提示。
可选地,在基于第二门控系数对第一中间提示进行加权计算,生成第一控制提示时,还可以将第一中间提示输入指定处理模块进行处理,得到第二中间提示,基于第二门控系数对第二中间提示进行加权计算来生成第一控制提示。具体过程可以表示为: 其中F()表示指定处理模块的处理过程。通过指定处理模块对基于第一门控系数对输入提示信息加权计算后得到的第一中间提示进行处理,可以尽可能保留隐层特征信息,可以提升微调训练的效果和语音处理模型的性能。
示例性地,图8为本实施例提供的噪声感知提示控制模块NPG的示例架构图。如图8所示,NPG包括第一线性变换单元和第二线性变换单元,这两个线性变换单元具有相同的结构但不共享参数。NPG的输入为输入指定处理单元的特征信息H(Z*)′和提示信息P(in)包含m个不同噪声类型的提示向量。输入的特征信息H(Z*)′经第一线性变换单元进行线性变换并进行归一化处理后,得到第一门控系数A={α1,α2,…,αt}。基于第一门控系数A,对输入指定处理模块的多个提示信息P(in)进行加权计算获得第一中间提示/>进一步地,指定处理模块输出的特征信息H(Z*)经第二线性变换单元进行线性变换并进行归一化处理后,得到第二门控系数G。将第一中间提示PA经指定处理模块处理后得到第二中间提示/>进一步地,基于第二门控系数G对第二中间提示/>进行加权计算来生成第一控制提示/>
可选地,为了便于将NPG生成的控制提示与指定处理模块输出的提示信息融合,NPG还可以将生成的控制提示与指定处理模块输出的特征信息拼接(可以表示为[H(Z*),PG→A]),将拼接结果与指定处理模块的输出融合(求和或求均值)。
示例性地,在图5所示增加NPG的编码层架构的基础上,将Feed-Forward(down)(第二前馈层)作为指定处理模块,增加的与Feed-Forward(down)对应的NPG的架构如图9所示,NPG的输入为输入Feed-Forward(down)的特征信息和提示信息,也就是Feed-Forward(up)层输出的隐层特征信息H(Z*)′和隐层提示信息 其中用上标up表示这是Feed-Forward(up)层输出的提示信息。P(up)包含m个不同噪声类型的提示向量,图9中以m=2为例进行示例性地说明。输入的特征信息H(Z*)′经第一线性变换单元进行线性变换并进行归一化处理后,得到第一门控系数A={α1,α2,…,αt}。基于第一门控系数A,对输入Feed-Forward(down)的多个提示信息P(up)进行加权计算获得第一中间提示进一步地,Feed-Forward(down)输出的特征信息H(Z*)经第二线性变换单元进行线性变换并进行归一化处理后,得到第二门控系数G。将第一中间提示PA经Feed-Forward(down)处理后得到第二中间提示/> 其中FFN(down)表示Feed-Forward(down)的处理过程。进一步地,基于第二门控系数G对第二中间提示/>进行加权计算来生成第一控制提示/>这一架构中,Feed-Forward(up)输出的高维特征包含了关于噪声的更详细、更细粒度的信息,基于Feed-Forward(up)输出的特征信息可以更加精准地确定第一门控系数A。Feed-Forward(up)和Feed-Forward(down)的使用,能够结合高维和低维信息,生成更加降准和有效的门控系数,从而生成更加有效的控制提示,以提升语音处理模型的准确性。
可选地,为了便于将NPG生成的控制提示与Feed-Forward(down)输出的提示信息融合,NPG还可以将生成的控制提示与Feed-Forward(down)输出的特征信息H(Z*)拼接(可以表示为[H(Z*),PG→A]),将拼接结果与Feed-Forward(down)的输出融合(求和或求均值)。
另一可选实施方式中,噪声感知提示控制模块根据输入指定处理模块的特征信息和提示信息,生成与输入特征信息匹配的控制提示,还可以通过如下方式实现:通过噪声感知提示控制模块,根据输入指定处理模块的特征信息,确定输入指定处理模块的多个提示信息的第一门控系数,并基于第一门控系数对多个提示信息进行加权计算,生成第一中间提示,将第一中间提示作为与输入特征信息匹配的控制提示。该实施方式中,生成第一门控系数以及生成第一中间提示的具体实现方式与前一实施方式中一致,具体参见前述实施例的相关内容,此处不再赘述。
可选地,在生成第一中间提示后,将第一中间提示作为与输入特征信息匹配的控制提示。进一步地,将第一中间提示与输入指定处理模块的特征信息拼接,将该拼接结果与指定处理模块的输入融合;或者,将第一中间提示与指定处理模块输出的特征信息拼接,将该拼接结果与指定处理模块的输出融合,以此来实现将控制提示与指定处理模块输出的提示信息融合。
可选地,在生成第一中间提示后,还可以将第一中间提示输入指定处理模块进行处理,得到第二中间提示,将第二中间提示作为与输入特征信息匹配的控制提示。进一步地,将第二中间提示与指定处理模块输出的特征信息拼接,将该拼接结果与指定处理模块的输出融合,以此来实现将控制提示与指定处理模块输出的提示信息融合。
又一可选实施方式中,噪声感知提示控制模块用于根据指定处理模块输出的特征信息确定第三门控系数,并基于第三门控系数对指定处理模块输出的多个提示信息进行加权计算,生成第二控制提示。
该实施方式中,生成第三门控系数的具体实现方式与前述实施方式中生成第二门控系数的方式一致,具体参见前述实施例的相关内容,此处不再赘述。本实施方式中,在生成第三门控系数G′之后,基于第三门控系数G′对指定处理模块输出的多个提示信息(可以表示为进行加权计算,生成第二控制提示,具体过程可以表示为:/>其中PG′表示第二控制提示,°表示矩阵的哈达玛积运算。进一步地,将第二控制提示与指定处理模块输出的特征信息H(Z*)拼接,将该拼接结果与指定处理模块的输出融合,以此来实现将控制提示与指定处理模块输出的提示信息融合。
图10为本申请一示例性实施例提供的获取语音处理模型的方法流程图。本实施例的执行主体为训练获得语音处理模型的服务器。如图10所示,前述实施例中的语音处理模型,通过如下步骤获得:
步骤S1001、获取预训练语音模型和用于微调训练的训练集。
其中,预训练语音模型是基于预训练的语音表示模型构建的、适用于具体下游语音处理任务的模型。预训练语音模型可以通过在预训练的语音表示模型上增加实现语音处理的解码器实现。预训练语音模型的参数包括噪声提示信息。
例如,应用于下游的语音识别任务时,可以在预训练的语音表示模型上增加实现语音识别的解码器,得到的预训练的语音识别模型。例如,应用于下游的语音分类任务时,可以在预训练的语音表示模型上增加实现语音分类的分类器,得到的预训练的语音分类模型。
用于微调训练的训练集是带有标注的噪声语料库,噪声语料库中包括语音样本,以及语音样本对应的标注信息(如内容文本、类别信息等)。其中,训练集包括的语音样本中至少部分语音样本是包含噪声的语音样本。优选地,训练集既包括干净(不含噪声)的语音样本、也包括含噪声的语音样本。
其中,含噪声的语音样本可以基于开源语音语料库和噪声数据集,将语音语料与噪声数据按照不同信噪比(Signal-to-Noise Ratio,SNR)合成的噪声语料。噪声数据集中包括各种噪声类型的噪声数据,具体分为平稳噪声和非平稳噪声两大类,每一大类具体包括多个不同的噪声类型。平稳噪声包括但不限于汽车、地铁等交通噪声。非平稳噪声包括但不限于机场、车站、咖啡馆等各类场所内的噪声,以及空调/真空噪声等。噪声数据集中每种噪声类型都包含多个用于训练的噪声数据和多个用于测试的噪声数据。
示例性地,从语音语料库的干净语音中随机选择若干语音,基于各种信噪比(SNR)引入各类噪声数据,获得混合了噪声的语音样本。另外,用于微调训练的训练集可以通过直接搜集含噪声的语音得到。
语音样本对应的标注信息通过使用已有较成熟的语音处理模型对语音样本的来源干净语音进行语音处理得到,也可以通过人工标注得到,此处不做具体限定。
步骤S1002、将预训练语音模型的噪声提示信息初始化成多种不同噪声类型的提示信息,在预训练语音模型的至少一个编码层中增加指定处理模块对应的噪声感知提示控制模块,获得待微调训练的语音处理模型。
本实施例中,在实现预训练语音模型的微调训练时,在预训练语音模型的至少一个编码层中增加指定处理模块对应的噪声感知提示控制模块NPG。通过增加的噪声感知提示控制模块NPG根据输入语音的特征信息和多个不同噪声类型的提示信息,生成与输入语音匹配的控制提示。所增加的噪声感知提示控制模块包含可训练参数,多个不同噪声类型的提示信息也是微调训练过程中可训练的。
可选地,可以在预训练语音模型的每一个编码层中增加与指定处理模块对应的噪声感知提示控制模块;或者,根据编码层的堆叠顺序,在顺序为单数(或双数)的编码层中增加与指定处理模块对应的噪声感知提示控制模块;或者,在预训练语音模型的编码层中随机选择一个或者多个编码层来增加与指定处理模块对应的噪声感知提示控制模块,本实施例此处对于在哪几个编码层中增加噪声感知提示控制模块不做具体限定。
在实际应用中,基于提示微调(Prompt-tuning)方法对预训练语音模型的微调训练过程中,编码层的输入包括特征信息和提示信息(包含多个不同噪声类型的提示信息),每一层编码层用于对输入的特征信息和提示信息进行编码处理,并输出编码后的特征信息和提示信息。示例性地,第一层编码层的输入为语音样本的特征信息与提示信息的拼接,编码层对拼接特征进行处理后,输出的仍然是特征信息与提示信息的拼接,其中的特征信息和提示信息是经编码层处理后的隐层特征信息和隐层提示信息。后续编码层的输入为前一编码层的输出,也是(隐层)特征信息与(隐层)提示信息的拼接。
示例性地,图11为本实施例提供的一种预训练语音模型的示例架构图,如图11所示,预训练语音模型包括特征提取网络、编码器和解码器。编码器包含M个编码层(Transformer block),图11中“×M”表示有M层依次堆叠的编码层构成编码器,M为正整数。其中各个编码层的结构相同。示例性地,未增加NPG一个编码层示例如图4所示,按照数据流向依次包括如下处理模块:Multi-Headed Attention(多头注意力模块)、LayerNorm(归一化模块)、Feed-Forward(up)(第一前馈层)、Feed-Forward(down)(第二前馈层)、LayerNorm(归一化模块)。其中,各编码层的输入为特征信息与提示信息的拼接,各个编码层通过多个处理模块对输入特征(包含特征信息和提示信息)进行处理,输出处理后的特征,包特征信息与提示信息的拼接。
需要说明的是,图11仅为预训练语音模型的编码层结构的一个示例,预训练语音模型的编码层所包含的处理模块、以及处理模型使用具体网络结构,可根据实际应用场景进行调整,调整后的结构也可以使用本申请的方案进行微调训练,此处对于预训练语音模型及编码层的结构不做具体限定。
本实施例中,在预训练语音模型的至少一个编码层中增加噪声感知提示控制模块时,可以在预训练语音模型的至少一个编码层中增加与指定处理模块对应的噪声感知提示控制模块,获得待训练的语音处理模型。噪声感知提示控制模块用于根据输入指定处理模块的特征信息对输入指定处理模块的多个提示信息进行加权控制,生成与输入指定处理模块的特征信息匹配的控制提示。该控制提示与指定处理模块输出的提示信息融合。其中,指定处理模块可以是编码层包含的至少一个处理模块中的任一处理模块,如注意力模块、前馈网络(整个)、前馈网络的第一前馈层或第二前馈层。具体示例参见图5-7。
可选地,在预训练语音模型的至少一个编码层中增加与指定处理模块对应的噪声感知提示控制模块NPG时,可以将即将输入指定处理模块的特征信息和提示信息先输入对应的NPG中,NPG可以根据输入的特征信息和提示信息,生成与输入的特征信息匹配的控制提示,并将控制提示与输入的提示信息融合,将融合后的提示信息输入指定处理模块。示例性地,将生成的控制提示与输入的提示信息融合时,可以将控制提示与输入的特征信息拼接,将拼接结果与指定处理模块的输入(包括特征信息与原提示信息的拼接)融合(求和或求均值)。也即是,在将特征信息和提示信息输入指定处理模块之前,先输入指定处理模块对应的NPG,通过NPG根据输入的特征信息对输入的提示信息进行加权控制,生成与输入特征信息匹配的控制提示,将控制提示与输入的特征信息拼接,将拼接结果与的经NPG处理之前的特征信息和提示信息的拼接结果融合后,输入指定处理模块。
步骤S1003、使用训练集对语音处理模型进行训练,更新噪声感知提示控制模块的参数和多个不同噪声类型的提示信息,得到训练好的语音处理模型和多个不同噪声类型的提示信息。
其中,多个不同噪声类型的提示信息包括多种不同噪声类型对应的提示向量,具体包括但不限于各类平稳噪声及各类非平稳噪声分别对应的提示向量,各类噪声类型的提示信息可以通过随机初始化确定,或者由相关技术人员根据经验值设定,此处不做具体限定。
示例性地,训练集可以表示为X={X1,X2,…,XN},其中N是训练集中语音样本的数量。提取的各个语音样本的特征信息可以表示为Z={Z1,Z2,…,ZN},用Z*表示任一语音样本的特征信息。可训练的多个不同噪声类型的提示信息可以表示为:P={P1,P2,,…,Pm,},其中m表示初始化不同噪声类型的提示信息的数量,其中每个提示信息的维度与所提取的特征信息Z*的维度相同。提示信息P会附加各个语音样本的特征信息输入编码层。m为超参数,可以根据实际应用场景和经验进行设置,例如m可以为9、15、21、30等,此处不做具体限定。
通过在预训练语音模型的至少一个编码层中增加与指定处理模块对应的噪声感知提示控制模块,获得预训练的语音处理模型,然后使用训练集对预训练的语音处理模型进行微调训练,在微调训练过程中固定预训练语音模型原有的模型参数,仅优化噪声感知提示控制模块的参数和多个不同噪声类型的提示信息。
具体地,将训练集中的语音样本输入预训练的语音处理模型,语音处理模型的特征提取网络提取输入语音样本的特征信息,并将语音样本的特征信息与多个不同噪声类型的提示信息一起输入编码器,依次经过多个编码层的处理获得语音样本的编码特征,编码层最终输出的编码特征输入解码器进行语音处理,输出语音处理结果。其中,编码层包含多个处理模块,通过多个编码层的各个处理模块依次对输入的特征信息和多个提示信息进行处理,获得处理后的特征信息和多个提示信息;并将输入指定处理模块的特征信息和多个提示信息输入对应的噪声感知提示控制模块,通过噪声感知提示控制模块根据输入的特征信息对输入的多个提示信息进行加权控制,生成与输入的特征信息匹配的控制提示;将控制提示融入对应指定处理模块输出的处理后的多个提示信息,作为输入下一处理模块的提示信息。通过NPG可以基于语音数据的特征信息感知语音数据包含的噪声,使得编码器最终输出的提示信息是与语音数据相匹配的控制提示。
进一步地,通过解码器根据最后一层编码层输出的特征信息和多个提示信息进行解码,获得语音样本的语音处理结果。
需要说明的是,本实施例中构建的语音处理模型的结构,及基于语音处理模型获得语音样本的语音处理结构的数据处理流程,与基于语音处理模型实现语音数据的处理的流程一致,具体参见前述语音数据处理方法实施例的相应内容,此处不再赘述。
进一步地,根据语音样本的语音处理结果和语音样本的标注信息,计算损失函数,并更新噪声感知提示控制模块的参数和多个不同噪声类型的提示信息。经过多轮迭代训练,在满足迭代停止条件时,获得训练好的语音处理模型。该语音处理模型的参数包含模型参数以及训练得到的多个不同噪声类型的提示信息。
其中,语音处理模型包括特征提取网络,用于提取输入语音的特征信息,并将提取的特征信息输入编码层(Transformer block)。特征提取网络可以使用可以提取语音数据的特征信息的结构,例如卷积神经网络(Convolutional Neural Networks,CNN)等,此处不做具体限定。
本实施例的方法,通过将预训练语音模型的噪声提示信息初始化成多种不同噪声类型的提示信息,并在预训练语音模型的至少一个编码层中增加与指定处理模块对应的NPG,在微调训练过程中固定预训练语音模型原有的模型参数,仅优化NPG的参数和多个不同噪声类型的提示信息,不仅可以有效减少训练参数,提升微调训练的效率,而且通过增加的NPG可以基于输入语音的特征信息感知输入语音所包含的噪声,并自适应地调整不同噪声类型的提示信息,获得与输入语音匹配的控制提示,基于与输入语音匹配的控制提示进行语音处理,相较于现有技术中使用固定的噪声提示信息,本实施例的方案可以有效提升语音处理模型对不同噪声的鲁棒性以及对不同场景任务的迁移能力,从而提升在各类噪声条件下语音处理的准确性。
图12为本申请一示例性实施例提供的获取垂直领域的语音处理模型的方法流程图,在图10对应实施例的基础上,本实施例中,服务器可以获取端侧设备提供的所在垂直领域的训练集,用于进行预训练语音模型的微调训练,获得适用于垂直领域的语音处理模型。如图12所示,该方法具体步骤如下:
步骤S1200、端侧设备构建所在垂直领域的训练集。
本实施例中,用于进行微调训练的训练集可以是用户通过端侧设备提供的用户所在垂直领域的训练集。其中,端侧设备提供的垂直领域的训练集,包括语音样本及语音样本的标注信息(如内容文本、类别信息等)。示例性地,端侧设备可以构建所在垂直领域的训练集,并将垂直领域的训练集发送至服务器。
为了提升语音处理模型的抗噪声能力,端侧设备提供的垂直领域的训练集包括的语音样本中至少部分语音样本是包含噪声的语音样本。优选地,训练集既包括干净(不含噪声)的语音样本、也包括含噪声的语音样本。
端侧设备构建垂直领域的训练集时,可以获取所在垂直领域的干净语音样本,以及干净语音样本的标注信息。干净语音样本可以来自于开源语音语料库,或者应用于所在垂直领域的各类语音处理相关应用系统产生的语音语料。含噪声的语音样本可以通过向干净语音引入噪声得到。示例性地,端侧设备可以获取噪声数据集,将干净语音与噪声数据按照不同信噪比(SNR)合成获得噪声语料。噪声数据集中包括各种噪声类型的噪声数据,具体分为平稳噪声和非平稳噪声两大类,每一大类具体包括多个不同的噪声类型。平稳噪声包括但不限于汽车、地铁等交通噪声。非平稳噪声包括但不限于机场、车站、咖啡馆等各类场所内的噪声,以及空调/真空噪声等。噪声数据集中每种噪声类型都包含多个用于训练的噪声数据和多个用于测试的噪声数据。另外,端侧设备可以通过直接搜集含噪声的语音来获得含噪声的语音样本。
语音样本对应的标注信息通过使用已有较成熟的语音处理模型对语音样本的来源干净语音进行语音处理得到,也可以通过人工标注得到,此处不做具体限定。
步骤S1201、端侧设备向服务器发送垂直领域的训练集。
可选地,在获取到端侧设备提供垂直领域的训练集之后,服务器还可以对训练集中多个语音样本进行加噪处理,以确保训练集包括含噪声的语音样本。
示例性地,服务器可以从训练集的语音样本中随机选择若干语音样本,基于各种信噪比(SNR)向语音样本引入各类噪声数据,获得混合了噪声的语音样本。
步骤S1202、服务器将预训练语音模型的噪声提示信息初始化成多种不同噪声类型的提示信息,并在预训练语音模型的至少一个编码层中增加噪声感知提示控制模块,获得待微调训练的语音处理模型。
该步骤与前述步骤S1002的实现方式一致,具体参见前述实施例的相关内容,本实施例此处不再赘述。
步骤S1203、服务器使用垂直领域的训练集对语音处理模型进行训练,更新噪声感知提示控制模块的参数和多个不同噪声类型的提示信息,得到适用于垂直领域的语音处理模型和多个不同噪声类型的提示信息。
该步骤与前述步骤S1003的实现方式类似,不同之处在于所使用的训练集是端侧设备提供的垂直领域的训练集,具体实现方式参见前述实施例的相关内容,本实施例此处不再赘述。
步骤S1204、服务器向端侧设备提供语音处理模型,语音处理模型的参数包含多个不同噪声类型的提示信息。
示例性地,服务器向端侧设备提供适用于垂直领域的语音处理模型的下载地址,端侧设备根据下载地址下载适用于垂直领域的语音处理模型,并在本地运行垂直领域的语音处理模型。
示例性地,服务器向端侧设备提供垂直领域的语音处理模型的应用程序编程接口(Application Programming Interface,简称API),端侧设备在需要使用语音处理模型时,通过调用语音处理模型的API使用语音处理模型对传入的语音进行编码,获得语音处理结果。
本实施例中,通过在预训练语音模型的至少一个编码层中增加噪声感知提示控制模块,在微调训练过程中固定预训练语音模型原有的模型参数,使用端侧设备提供的垂直领域的训练集,优化噪声感知提示控制模块的参数和多个不同噪声类型的提示信息,不仅可以有效减少训练参数,提升微调训练的效率,而且通过新增加的噪声感知提示控制模块,可以基于输入语音的特征信息感知输入语音所包含的噪声,并自适应地调整不同噪声类型的提示信息,获得与输入语音匹配的控制提示,基于该控制提示实现输入语音的语音处理,可以有效提示语音处理模型应用于垂直领域时的抗噪声能力,从而提升语音处理模型应用于垂直领域时的性能和效果。
图13为本申请一示例性实施例提供的语音数据处理方法流程图,在一可选实施例中,在前述实施例获得语音处理模型之后,服务器还可以基于语音处理模型对外向端侧设备提供语音处理模型的调用接口,并基于语音处理模型的语音处理处理能力,实现语音处理功能。如图13所示,基于语音处理模型实现语音数据处理的流程如下:
步骤S131、接收端侧设备对语音处理模型的调用请求,调用请求包含待处理的语音数据。
示例性地,服务器可以对外提供语音处理模型的应用程序编程接口(API)。端侧设备可以通过该API调用语音处理模型。
端侧设备在调用语音处理模型的API时,服务器接收到端侧设备对语音处理模型的调用请求,并从调用请求中提取待处理的语音数据。
步骤S132、将语音数据输入语音处理模型,通过语音处理模型基于多个不同噪声类型的提示信息对语音数据进行语音处理,得到语音处理结果。
在获取到待处理的语音数据之后,服务器将语音数据输入语音处理模型,通过语音处理模型基于多个不同噪声类型的提示信息对语音数据进行语音处理,得到语音处理结果。
本实施例中所使用的语音处理模型是通过前述任一方法实施例对预训练语音模型进行微调训练得到的,语音处理模型在预训练语音模型的至少一个编码层中增加了噪声感知提示控制模块,通过增加的噪声感知提示控制模块根据输入语音数据的特征信息和多个不同噪声类型的提示信息,生成与语音数据匹配的控制提示,并基于控制提示实现对语音数据的语音处理,得到语音处理结果。
在应用于语音处理时,语音处理模型对输入语音数据的处理流程,与微调训练过程中语音处理模型对输入语音(样本)的前向处理(即获取语音样本的语音处理结果)的过程一致,具体处理过程参见前述实施例的相关内容,本实施例此处不再赘述。
步骤S133、向端侧设备发送语音处理结果。
在通过语音处理模型得到语音数据的语音处理结果之后,服务器将语音处理结果返回给端侧设备。
本实施例中,运行有语音处理模型的服务器对外提供语音处理模型的调用接口。端侧设备在实现各类应用系统的语音处理任务时,可以通过该接口调用语音处理模型,使用语音处理模型的语音处理能力来获得语音处理结果。本实施例的方法具体可以应用于实现语音识别、语音分类等语音处理任务,具体可以应用于语音翻译、音视频会议、直播、短视频、智能电话客服质检与外呼等应用场景中。
下面以语音会议场景为例,获得的语音处理模型为语音识别模型,具体用于识别输入语音的文本内容。语音识别模型可以通过如下方式获得:获取预训练语音识别模型,预训练语音识别模型的参数包括噪声提示信息;将预训练语音识别模型的噪声提示信息初始化成多种不同噪声类型的提示信息,并在预训练语音识别模型的至少一个编码层中增加指定处理模块对应的噪声感知提示控制模块,获得待微调训练的语音识别模型;使用训练集对该语音识别模型进行微调训练,更新噪声感知提示控制模块的参数和多个不同噪声类型的提示信息,得到训练好的语音识别模型和多个不同噪声类型的提示信息。
其中,语音识别模型包括:特征提取网络、编码器和解码器。其中编码器、所增加的噪声感知提示控制模块、以及噪声感知提示控制模块的增加位置,与前述获得语音处理模型的实施例中的实现方式一致,具体参见前述实施例中的相关内容,此处不再赘述。
图14为本申请实施例提供的会议语音的处理方法流程图。在语音会议场景中,基于获得的语音识别模型来识别会议语音的文本内容,如图14所示,该方法具体步骤如下:
步骤S141、接收端侧设备发送的会议语音。
其中,会议语音是指参会人员在会议期间录入的语音数据。
端侧设备可以用户使用的语音会议的终端,具有采集参会人员输入的语音的功能,具体可以是智能手机、平板电脑、个人电脑、笔记本电脑、智能手表等等。端侧设备采集参会人员的在会议期间的语音数据,形成会议语音,并将会议语音发送至服务器。
端侧设备还可以是用户使用的具有语音文件上传功能的电子设备,具有现实上传界面实现向服务器上传文件的功能。用户可以通过上传界面上传预先录制的会议语音,端侧设备可以获取用户上传的会议语音,将会议语音发送至服务器。
服务器接收端侧设备发送的会议语音,获得待处理的会议语音。
步骤S142、将会议语音输入语音识别模型,通过语音识别模型提取会议语音的特征信息,根据会议语音的特征信息和预设的多个不同噪声类型的提示信息,生成与会议语音匹配的控制提示,基于控制提示和会议语音的特征信息进行语音识别,得到会议语音的内容文本。
其中,噪声类型是指噪声的具体分类类型,包括平稳噪声和非平稳噪声两大类,每一大类具体包括多个不同的噪声类型。平稳噪声包括但不限于汽车、地铁等交通噪声。非平稳噪声包括但不限于机场、车站、咖啡馆等各类场所内的噪声,以及空调/真空噪声等。
本实施例中,预设的多个不同噪声类型的提示信息,包括多种不同噪声类型分别对应的提示向量,具体包括但不限于各类平稳噪声及各类非平稳噪声分别对应的提示向量。预设的多个不同噪声类型的提示信息是在语音识别模型的训练过程训练确定的。
在获取到待处理的会议语音之后,将会议语音输入语音识别模型,通过语音识别模型对会议语音进行语音识别,得到会议语音的内容文本。
具体地,语音识别模型包括特征提取网络、编码器和解码器。编码器包括多个依次堆叠的编码层,每一个编码层包含依次堆叠的多个处理模块。任一处理模块的输入包括特征信息和多个提示信息,输出包括处理后的特征信息和多个提示信息,处理模块用于对输入的特征信息和多个提示信息进行处理,输出处理后的提示信息和多个提示信息。语音处理模型的至少一个编码层中包括与指定处理模块对应的噪声感知提示控制模块NPG。其中,指定处理模块为编码层中的任一处理模块。NPG用于根据输入对应指定处理模块的特征信息对输入对应指定处理模块的多个提示信息进行加权控制,生成与输入的特征信息匹配的控制提示,并将控制提示融入对应指定处理模块输出的处理后的多个提示信息。
该步骤中,将待处理的会议语音输入语音识别模型的特征提取网络进行特征提取,得到会议语音的特征信息。将会议语音的特征信息和预设的多个不同噪声类型的提示信息输入语音识别模型的编码器中第一层编码层的第一个处理模块,通过各编码层的各个处理模块依次对输入的特征信息和多个提示信息进行处理,输出处理后的特征信息和多个提示信息,并通过噪声感知提示控制模块NPG,根据输入对应指定处理模块的特征信息对输入对应指定处理模块的多个提示信息进行加权控制,生成与输入指定处理模块的特征信息匹配的控制提示,将与输入指定处理模块的特征信息匹配的控制提示融入对应指定处理模块输出的处理后的多个提示信息,作为输入下一处理模块的提示信息。经过编码器的多个编码层的处理后,编码器的最后一层编码层输出最终的编码特征,包括处理后的特征信息和多个提示信息。将最后一层编码层输出的特征信息和多个提示信息输入解码器进行解码,得到会议语音的内容文本。
需要说明的是,本实施例中,获得语音识别模型的过程与前述实施例中获取语音处理模型的过程一致,不同之处在于使用的预训练语音模型是预训练语音识别模型,具体构建方式和微调训练过程与语音处理模型一致,具体参见前述实施例中获取语音处理模型的相关内容,此处不再赘述。
另外,本实施例中基于语音识别模型对输入的会议语音进行语音识别,获得语音识别结果(会议语音的内容文本)的流程,与前述实施例中基于语音处理模型对语音数据进行语音处理获得语音处理结果的流程类似,不同之处在于使用的解码器可能不同,编码部分的处理流程一样,具体参见前述实施例的相关内容,此处不再赘述。
步骤S143、向端侧设备输出会议语音的内容文本。
在获得会议语音的内容文本之后,服务器将会议语音的内容文本输出至端侧设备。
端侧设备根据会议语音的内容文本,根据应用需求执行后续的处理逻辑。
示例性地,端侧设备可以根据各个参与人员的会议语音的内容文本,形成会议记录,并保存会议记录。
示例性地,端侧设备可以将会议中发言人的会议语音的内容文本,实时地输出在会议界面上,以供其他参与人员准确获知会议内容。
示例性地,端侧设备还可以根据会议语音的内容文本的语言类型,将会议语音的内容文本翻译为预设一种或多种语言类型的文本,并通过会议界面输出,以便于熟悉不同语言的参会人员选择观看自己熟悉的语言类型的文本,来获知会议内容。
本实施例的方法,通过接收端侧设备发送的会议语音,将会议语音输入语音识别模型,通过语音识别模型提取会议语音的特征信息,根据会议语音的特征信息和预设的多个不同噪声类型的提示信息,生成与会议语音匹配的控制提示,基于控制提示和会议语音的特征信息进行语音识别,得到会议语音的内容文本,相较于现有技术中使用固定的噪声提示信息,本申请的方案能够根据会议语音的特征信息和预设的多个不同噪声类型的提示信息,自适应地生成与会议语音相匹配的控制提示,提升了语音识别模型在各类噪声条件下的鲁棒性,从而提升在各类噪声条件下语音识别的准确性。
图15为本申请实施例提供的一种服务器的结构示意图。如图15所示,该服务器包括:存储器1501和处理器1502。存储器1501,用于存储计算机执行指令,并可被配置为存储其它各种数据以支持在服务器上的操作。处理器1502,与存储器1501通信连接,用于执行存储器1501存储的计算机执行指令,以实现上述任一方法实施例所提供的技术方案,其具体功能和所能实现的技术效果类似,此处不再赘述。图9中以该服务器为云服务器为例进行示例,本实施例此处不做具体限定。
可选的,如图15所示,服务器还包括:防火墙1503、负载均衡器1504、通信组件1505、电源组件1506等其它组件。图15中仅示意性给出部分组件,并不意味着服务器只包括图15所示组件。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现前述任一实施例的方法,具体功能和所能实现的技术效果此处不再赘述。
本申请实施例还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现前述任一实施例的方法。计算机程序存储在可读存储介质中,服务器的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得服务器执行上述任一方法实施例所提供的技术方案,具体功能和所能实现的技术效果此处不再赘述。
本申请实施例提供一种芯片,包括:处理模块与通信接口,该处理模块能执行前述方法实施例中服务器的技术方案。可选的,该芯片还包括存储模块(如,存储器),存储模块用于存储指令,处理模块用于执行存储模块存储的指令,并且对存储模块中存储的指令的执行使得处理模块执行前述任一方法实施例所提供的技术方案。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本申请各个实施例方法的部分步骤。
应理解,上述处理器可以是处理单元(Central Processing Unit,简称CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
上述存储器可以是对象存储(Object Storage Service,OSS)。
上述存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
上述通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如移动热点(WiFi),第二代移动通信系统(2G)、第三代移动通信系统(3G)、第四代移动通信系统(4G)/长期演进(LTE)、第五代移动通信系统(5G)等移动通信网络,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
上述电源组件,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例的顺序仅仅为了描述,不代表实施例的优劣。另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。“多个”的含义是两个以上,除非另有明确具体的限定。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (14)
1.一种语音数据的处理方法,其特征在于,包括:
获取待处理的语音数据;
将所述语音数据输入语音处理模型,通过所述语音处理模型提取所述语音数据的特征信息,根据所述语音数据的特征信息和预设的多个不同噪声类型的提示信息,生成与所述语音数据匹配的控制提示,基于所述控制提示和所述特征信息进行语音处理,得到语音处理结果;
输出所述语音处理结果。
2.根据权利要求1所述的方法,其特征在于,所述语音处理模型包括:特征提取网络、编码器和解码器,所述编码器包括依次堆叠的多个编码层,所述编码层包含依次堆叠的多个处理模块,至少一个所述编码层包括与同一所述编码层中指定处理模块对应的噪声感知提示控制模块;
所述处理模块用于:对输入的特征信息和多个提示信息进行处理,输出处理后的提示信息和多个提示信息;
所述噪声感知提示控制模块用于:根据输入对应指定处理模块的特征信息对输入对应指定处理模块的多个提示信息进行加权控制,生成与输入的特征信息匹配的控制提示,并将所述控制提示融入对应指定处理模块输出的处理后的多个提示信息。
3.根据权利要求2所述的方法,其特征在于,所述编码层至少包括如下处理模块:注意力模块和前馈网络,所述前馈网络包含前后依次连接的第一前馈层和第二前馈层;
所述指定处理模块为所述注意力模块、所述第一前馈层、所述第二前馈层中的任意一个。
4.根据权利要求2所述的方法,其特征在于,所述噪声感知提示控制模块包括:第一线性变换单元、第一控制单元、第二线性变换单元和第二控制单元,
其中,所述第一线性变换单元用于对所述指定处理模块的输入特征信息进行第一线性变换,对第一线性变换结果进行归一化处理,得到第一门控系数;
所述第一控制单元用于根据所述第一门控系数,对输入所述指定处理模块的多个提示信息进行加权计算,生成第一中间提示;
第二线性变换单元用于对所述指定处理模块输出的特征信息进行第二线性变换,对第二线性变换结果进行归一化处理,得到第二门控系数;
所述第二控制单元用于基于所述第二门控系数对所述第一中间提示进行加权计算,生成第一控制提示。
5.根据权利要求2所述的方法,其特征在于,所述将所述语音数据输入语音处理模型,通过所述语音处理模型提取所述语音数据的特征信息,根据所述语音数据的特征信息和预设的多个不同噪声类型的提示信息,生成与所述语音数据匹配的控制提示,基于所述控制提示和所述特征信息进行语音处理,得到语音处理结果,包括:
将所述语音数据输入所述特征提取网络进行特征提取,得到所述语音数据的特征信息;
将所述语音数据的特征信息和预设的多个不同噪声类型的提示信息输入所述编码器中第一层编码层的第一个处理模块,通过各编码层的各个处理模块依次对输入的特征信息和多个提示信息进行处理,输出处理后的特征信息和多个提示信息,并通过所述噪声感知提示控制模块,根据输入对应指定处理模块的特征信息对输入对应指定处理模块的多个提示信息进行加权控制,生成与输入的特征信息匹配的控制提示,将所述控制提示融入对应指定处理模块输出的处理后的多个提示信息;
将最后一层编码层输出的特征信息和多个提示信息输入解码器进行解码,得到语音处理结果。
6.根据权利要求2所述的方法,其特征在于,所述根据输入对应指定处理模块的特征信息对输入对应指定处理模块的多个提示信息进行加权控制,生成与输入的特征信息匹配的控制提示,包括:
根据输入所述指定处理模块的特征信息,确定输入所述指定处理模块的多个提示信息的第一门控系数,并基于所述第一门控系数对输入所述指定处理模块的多个提示信息进行加权计算,生成第一中间提示;
根据所述指定处理模块输出的特征信息确定第二门控系数,并基于所述第二门控系数对所述第一中间提示进行加权计算,生成第一控制提示。
7.根据权利要求6所述的方法,其特征在于,所述基于所述第二门控系数对所述第一中间提示进行加权计算,生成第一控制提示,包括:
将所述第一中间提示输入所述指定处理模块进行处理,得到第二中间提示;
基于所述第二门控系数对所述第二中间提示进行加权计算,生成第一控制提示。
8.根据权利要求2所述的方法,其特征在于,所述语音处理模型通过如下方式获得:
获取预训练语音模型,所述预训练语音模型的参数包括噪声提示信息;
将所述预训练语音模型的所述噪声提示信息初始化成多种不同噪声类型的提示信息,并在所述预训练语音模型的至少一个编码层中增加指定处理模块对应的噪声感知提示控制模块,获得待微调训练的语音处理模型;
使用训练集对所述语音处理模型进行训练,更新所述噪声感知提示控制模块的参数和所述多个不同噪声类型的提示信息,得到训练好的语音处理模型和多个不同噪声类型的提示信息。
9.根据权利要求8所述的方法,其特征在于,所述预训练语音模型包括特征提取网络、编码器和解码器,
其中,所述编码器包括依次堆叠的多个编码层,所述编码层包含依次堆叠的多个处理模块,所述处理模块用于对输入的特征信息和多个提示信息进行处理,并输出处理后的特征信息和多个提示信息;
所述在所述预训练语音模型的至少一个编码层中增加指定处理模块对应的噪声感知提示控制模块,包括:
在所述预训练语音模型的至少一个所述编码层中,增加与指定处理模块对应的噪声感知提示控制模块;
所述噪声感知提示控制模块具体用于根据输入所述指定处理模块的特征信息对输入所述指定处理模块的多个提示信息进行加权控制,生成与输入所述指定处理模块的特征信息匹配的控制提示,将所述控制提示与所述指定处理模块输出的处理后的多个提示信息融合。
10.根据权利要求9所述的方法,其特征在于,所述使用训练集对所述语音处理模型进行训练,更新所述噪声感知提示控制模块的参数和所述多个不同噪声类型的提示信息,得到训练好的语音处理模型和多个不同噪声类型的提示信息,包括:
将训练集中的语音样本输入所述语音处理模型,通过所述特征提取网络提取所述语音样本的特征信息,并将所述语音样本的特征信息和多个不同噪声类型的提示信息输入编码器;
通过所述编码器中各个编码层的各处理模块依次对输入的特征信息和多个提示信息进行处理,获得处理后的特征信息和多个提示信息,并将输入指定处理模块的特征信息和多个提示信息输入对应的噪声感知提示控制模块,通过所述噪声感知提示控制模块根据输入的特征信息对输入的多个提示信息进行加权控制,生成与输入的特征信息匹配的控制提示,并将所述控制提示融入对应指定处理模块输出的处理后的多个提示信息;
通过解码器根据最后一层编码层输出的特征信息和多个提示信息进行解码,获得所述语音样本的语音处理结果;
根据所述语音样本的语音处理结果和所述语音样本的标注信息,更新所述噪声感知提示控制模块的参数和所述多个不同噪声类型的提示信息,获得训练好的语音处理模型和多个不同噪声类型的提示信息。
11.根据权利要求8-10中任一项所述的方法,其特征在于,所述使用训练集对所述语音处理模型进行训练之前,还包括:
获取端侧设备提供的垂直领域的训练集;
在使用所述训练集训练所述噪声感知提示控制模块的参数和所述多个提示信息,得到语音处理模型和多个不同噪声类型的提示信息之后,还包括:
向所述端侧设备下发所述语音处理模型的参数,所述语音处理模型的参数包含所述多个不同噪声类型的提示信息。
12.根据权利要求1-10中任一项所述的方法,其特征在于,所述获取待处理的语音数据,包括:
接收端侧设备对语音处理模型的调用请求,根据所述调用请求获取待处理的语音数据;
所述输出所述语音处理结果,包括:
向所述端侧设备发送所述语音处理结果。
13.一种会议语音的处理方法,其特征在于,包括:
接收端侧设备发送的会议语音;
将所述会议语音输入语音识别模型,通过所述语音识别模型提取所述会议语音的特征信息,根据所述会议语音的特征信息和预设的多个不同噪声类型的提示信息,生成与所述会议语音匹配的控制提示,基于所述控制提示和所述会议语音的特征信息进行语音识别,得到所述会议语音的内容文本;
向所述端侧设备输出所述会议语音的内容文本。
14.一种服务器,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述服务器执行权利要求1-13中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311264759.6A CN117409767A (zh) | 2023-09-27 | 2023-09-27 | 语音数据、会议语音的处理方法及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311264759.6A CN117409767A (zh) | 2023-09-27 | 2023-09-27 | 语音数据、会议语音的处理方法及服务器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117409767A true CN117409767A (zh) | 2024-01-16 |
Family
ID=89498508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311264759.6A Pending CN117409767A (zh) | 2023-09-27 | 2023-09-27 | 语音数据、会议语音的处理方法及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117409767A (zh) |
-
2023
- 2023-09-27 CN CN202311264759.6A patent/CN117409767A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111009237A (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN104981871B (zh) | 个人化带宽扩展 | |
CN112951258B (zh) | 一种音视频语音增强处理方法及装置 | |
US20230377584A1 (en) | Real-time packet loss concealment using deep generative networks | |
CN111862934A (zh) | 语音合成模型的改进方法和语音合成方法及装置 | |
US11763801B2 (en) | Method and system for outputting target audio, readable storage medium, and electronic device | |
CN112908294B (zh) | 一种语音合成方法以及语音合成系统 | |
CN113205793B (zh) | 音频生成方法、装置、存储介质及电子设备 | |
CN112530400A (zh) | 基于深度学习的文本生成语音的方法、系统、装置及介质 | |
WO2021028236A1 (en) | Systems and methods for sound conversion | |
Verma et al. | Speaker-independent source cell-phone identification for re-compressed and noisy audio recordings | |
CN106256001A (zh) | 信号分类方法和装置以及使用其的音频编码方法和装置 | |
CN117150338A (zh) | 任务处理、自动问答以及多媒体数据识别模型训练方法 | |
CN112036122A (zh) | 文本识别方法、电子设备及计算机可读介质 | |
CN117409767A (zh) | 语音数据、会议语音的处理方法及服务器 | |
CN114360491B (zh) | 语音合成方法、装置、电子设备及计算机可读存储介质 | |
CN116074574A (zh) | 一种视频处理方法、装置、设备及存储介质 | |
CN115565533A (zh) | 语音识别方法、装置、设备及存储介质 | |
CN115472174A (zh) | 声音降噪方法和装置、电子设备和存储介质 | |
CN113724690A (zh) | Ppg特征的输出方法、目标音频的输出方法及装置 | |
Büker et al. | Deep convolutional neural networks for double compressed AMR audio detection | |
CN117476027B (zh) | 语音转换方法及装置、存储介质、电子装置 | |
CN117877517B (zh) | 基于对抗神经网络的环境音生成方法、装置、设备及介质 | |
CN113436615B (zh) | 语义识别模型及其训练方法、语义识别方法 | |
CN114171034B (zh) | 一种高清机顶盒语音数据编解码系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |