CN114078471A - 网络模型处理方法、装置、设备及计算机可读存储介质 - Google Patents

网络模型处理方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN114078471A
CN114078471A CN202010840742.0A CN202010840742A CN114078471A CN 114078471 A CN114078471 A CN 114078471A CN 202010840742 A CN202010840742 A CN 202010840742A CN 114078471 A CN114078471 A CN 114078471A
Authority
CN
China
Prior art keywords
trained
model
loss function
data
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010840742.0A
Other languages
English (en)
Inventor
付立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Holding Co Ltd
Original Assignee
Jingdong Technology Holding Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong Technology Holding Co Ltd filed Critical Jingdong Technology Holding Co Ltd
Priority to CN202010840742.0A priority Critical patent/CN114078471A/zh
Publication of CN114078471A publication Critical patent/CN114078471A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本公开提供一种网络模型处理方法、装置、设备及计算机可读存储介质,方法包括:获取待训练数据集,待训练数据集中包括目标场景下的音频训练数据、音频训练数据对应的文本标注结果;根据预设的识别模型以及待训练模型,确定CTC损失函数、知识蒸馏损失函数以及注意力损失函数,识别模型为采用预设的旧场景训练数据训练后的网络模型,待训练模型是根据识别模型进行复制操作获得的;根据CTC损失函数、知识蒸馏损失函数以及注意力损失函数确定目标损失函数;采用待训练数据集以及目标损失函数对待训练模型进行训练,获得训练后的语音识别模型。从而能够仅利用少量目标场景下待训练数据,即可快速训练获得兼具目标场景以及旧场景识别能力的语音识别模型。

Description

网络模型处理方法、装置、设备及计算机可读存储介质
技术领域
本公开涉及人工智能领域,尤其涉及一种网络模型处理方法、装置、设备及计算机可读存储介质。
背景技术
随着深度学习技术的快速发展,基于端到端深度神经网络(Deep NeuralNetwork,简称DNN)的自动语音识别(Automatic Speech Recognition,简称ASR)已经在电话机器人、语音助手、语音输入法等实际应用场景中扮演着日益重要的角色。端到端深度神经网络ASR模型通过学习样本数据的层次表征和内在规律,实现将输入语音信号转为输出文本的功能。然而,由于端到端深度神经网络模型的参数规模较大,模型的语音识别性能往往依赖于大规模的语音训练数据。通常情况下,采用某一个场景的语音训练数据训练得到的ASR模型往往难以适用于新的场景应用。由于语音数据的标注需要人工听取至少一遍,标注成本也往往更高。因此,难以在短期内获得大量的新业务场景的语音数据用于模型训练,严重影响新业务的快速开展。
为了解决上述技术问题,现有技术中一般都是采用混合数据进行训练。具体地,将大规模的旧场景语音训练数据和少量的新场景语音训练数据混合在一起,构成一个新的混合训练集,重新训练ASR模型。
但是,采用上述方法进行模型训练的过程中,由于混合训练集数据规模较大,重新训练模型和调优的所需时间较长。每次新业务场景出现,都需要重复进行一遍完整的ASR模型训练和调优过程,大大提高了研发成本。
发明内容
本公开提供一种网络模型处理方法、装置、设备及计算机可读存储介质,用于解决现有的模型处理方法耗费时间较长且研发成本较高的技术问题。
本公开的第一个方面是提供一种网络模型处理方法,包括:
从数据库中获取待训练数据集,其中,所述待训练数据集中包括目标场景下的音频训练数据以及所述音频训练数据对应的文本标注结果;
根据预设的识别模型以及待训练模型,确定CTC损失函数、知识蒸馏损失函数以及注意力损失函数,其中,所述识别模型为采用预设的旧场景训练数据训练后的网络模型,所述待训练模型是根据所述识别模型进行复制操作获得的;
根据所述CTC损失函数、知识蒸馏损失函数以及注意力损失函数确定目标损失函数;
采用所述待训练数据集以及所述目标损失函数对所述待训练模型进行训练,获得训练后的语音识别模型。
本公开的第二个方面是提供一种网络模型处理方法,包括:
获取终端设备发送的语音识别指令,所述语音识别指令中包括待识别语音;
根据所述语音识别指令,将所述待识别语音输入至预设的语音识别模型,获得所述待识别语音对应的文本信息,其中,所述语音识别模型是通过由CTC损失函数、知识蒸馏损失函数以及注意力损失函数确定的目标损失函数,以及包括目标场景下音频训练数据以及所述音频训练数据对应的文本标注结果的待训练数据集训练获得的;
将所述文本信息发送至所述终端设备。
本公开的第三个方面是提供一种网络模型处理装置,包括:
获取模块,用于从数据库中获取待训练数据集,其中,所述待训练数据集中包括目标场景下的音频训练数据以及所述音频训练数据对应的文本标注结果;
计算模块,用于根据预设的识别模型以及待训练模型,确定CTC损失函数、知识蒸馏损失函数以及注意力损失函数,其中,所述识别模型为采用预设的旧场景训练数据训练后的网络模型,所述待训练模型是根据所述识别模型进行复制操作获得的;
确定模块,用于根据所述CTC损失函数、知识蒸馏损失函数以及注意力损失函数确定目标损失函数;
训练模块,用于采用所述待训练数据集以及所述目标损失函数对所述待训练模型进行训练,获得训练后的语音识别模型。网络模型处理装置,包括:
获取模块,用于从数据库中获取待训练数据集,其中,所述待训练数据集中包括目标场景下的音频训练数据以及所述音频训练数据对应的文本标注结果;
计算模块,用于根据预设的识别模型以及待训练模型,确定CTC损失函数、知识蒸馏损失函数以及注意力损失函数,其中,所述识别模型为采用预设的旧场景训练数据训练后的网络模型,所述待训练模型是根据所述识别模型进行复制操作获得的;
确定模块,用于根据所述CTC损失函数、知识蒸馏损失函数以及注意力损失函数确定目标损失函数;
训练模块,用于采用所述待训练数据集以及所述目标损失函数对所述待训练模型进行训练,获得训练后的语音识别模型。
本公开的第四个方面是提供一种网络模型处理装置,包括:
指令获取模块,用于获取终端设备发送的语音识别指令,所述语音识别指令中包括待识别语音;
识别模块,用于根据所述语音识别指令,将所述待识别语音输入至预设的语音识别模型,获得所述待识别语音对应的文本信息,其中,所述语音识别模型是通过由CTC损失函数、知识蒸馏损失函数以及注意力损失函数确定的目标损失函数,以及包括目标场景下音频训练数据以及所述音频训练数据对应的文本标注结果的待训练数据集训练获得的;
发送模块,用于将所述文本信息发送至所述终端设备。
本公开的第五个方面是提供一种网络模型处理设备,包括:存储器,处理器;
存储器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器用于调用所述存储器中的程序指令执行如第一方面或第二方面所述的网络模型处理方法。
本公开的第六个方面是提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面或第二方面所述的网络模型处理方法。
本公开提供的网络模型处理方法、装置、设备及计算机可读存储介质,通过获取包括目标场景下待训练数据的待训练数据集,并根据CTC损失函数、知识蒸馏损失函数以及注意力损失函数构建目标损失函数。从而能够根据该待训练数据集以及目标损失函数,对预设的采用预设的旧场景训练数据训练后的待训练模型进行基于注意力损失的训练操作,进而能够仅利用少量目标场景下待训练数据,即可快速训练获得兼具目标场景以及旧场景识别能力的语音识别模型。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本公开基于的系统架构图;
图2为本公开实施例一提供的网络模型处理方法的流程示意图;
图3为本公开实施例提供的标注后的音频训练数据示意图;
图4为本公开实施例二提供的网络模型处理方法的流程示意图;
图5为本公开实施例三提供的网络模型处理方法的流程示意图;
图6为本公开实施例四提供的网络模型处理方法的流程示意图;
图7为本公开实施例五提供的网络模型处理方法的流程示意图;
图8为本公开所基于的又一系统架构图;
图9为本公开实施例提供的语音识别示意图;
图10为本公开实施例六提供的网络模型处理装置的结构示意图;
图11为本公开实施例七提供的网络模型处理装置的结构示意图;
图12为本公开实施例八提供的网络模型处理装置的结构示意图;
图13为本公开实施例九提供的网络模型处理装置的结构示意图;
图14为本公开实施例十提供的网络模型处理装置的结构示意图;
图15为本公开实施例十一提供的网络模型处理设备的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例所获得的所有其他实施例,都属于本公开保护的范围。
针对上述提及的现有的模型处理方法耗费时间较长且研发成本较高的技术问题,本公开提供了一种网络模型处理方法、装置、设备及计算机可读存储介质。
需要说明的是,本公开提供网络模型处理方法、装置、设备及计算机可读存储介质可运用在任意一种语音识别模型的处理场景中。
实际应用中,当语音识别模型需要应用在其他应用场景时,需要采用该应用场景的语音数据对模型进行训练。具体地,训练模型所需数据量较大,用于训练模型的语音数据首先需要人工听取至少一遍,根据人工听取的结果对语音数据进行标注操作,根据标注后的语音数据对模型进行训练。采用上述方法进行新的应用场景的模型训练时,标注过程耗费大量的人力资源,且无法快速地获取大量的新业务场景的语音数据用于模型训练。为了解决上述技术问题,现有技术一般都是将大规模的旧场景语音训练数据和少量的新场景语音训练数据混合在一起,构成一个新的混合训练集,采用该混合训练集进行模型的训练操作。但是,由于混合训练集数据规模较大,重新训练模型和调优的时间成本非常高。
在解决上述技术问题的过程中,发明人通过研究发现,为了有效利用小规模的新场景训练数据,避免模型重新训练,短时间、低成本地获得新业务场景的语音识别模型,可以采用知识蒸馏和注意力损失相结合的方式,构建目标损失函数,通过该目标损失函数对模型进行训练。从而能够使得模型在保留旧模型的识别结果的同时,保留旧模型获得识别结果的原因,进而可以仅利用少量新业务场景音频数据,便可获得既能够适用于新业务场景的语音识别模型。
图1为本公开基于的系统架构图,如图1所示,本公开基于的网络架构至少包括:服务器1以及数据库2,该服务器1中设置有网络模型处理装置。其中,网络模型处理装置采用C/C++、Java、Shell或Python等语言编写;数据库2则可为云端服务器或服务器集群,其内存储有大量的数据。服务器1与数据库2通信连接,从而二者能够进行信息交互。
图2为本公开实施例一提供的网络模型处理方法的流程示意图,如图2所示,该方法包括:
步骤101、从数据库中获取待训练数据集,其中,所述待训练数据集中包括目标场景下的音频训练数据以及所述音频训练数据对应的文本标注结果。
本实施例的执行主体为网络模型处理装置,该网络模型处理装置可耦合于服务器中。该服务器可以与数据库通信连接,进而能够与数据库进行信息交互。该数据库中存储有大量的待训练数据。
在本实施方式中,为了实现对网络模型的训练,首先需要获取待训练数据集。由于需要使得训练后的网络模型具有对目标场景下语音数据的识别能力,因此,该待训练数据集中可以包括目标场景下的音频训练数据以及音频训练数据对应的文本标注结果。
图3为本公开实施例提供的标注后的音频训练数据示意图,如图3所示,左侧为音频训练数据,右侧为该音频训练数据对应的文本标注结果,该音频训练数据对应的文本标注结果为大家早上好。
步骤102、根据预设的识别模型以及待训练模型,确定CTC损失函数、知识蒸馏损失函数以及注意力损失函数,其中,所述识别模型为采用预设的旧场景训练数据训练后的网络模型,所述待训练模型是根据所述识别模型进行复制操作获得的。
在本实施方式中,为了提高网络模型的训练效率,使得训练后的网络模型能够具有对旧场景下的语音数据以及目标场景下的语音数据的识别能力,可以选择已经采用预设的旧场景训练数据训练后的识别模型作为待训练模型。目标场景区别于旧场景。
现有技术中,一般都是针对待训练模型采用迁移学习的方式对待训练模型进行训练操作。但是,由于在训练过程中仅关注模型对目标场景的适应性,容易导致模型通用性较差。甚至在目标场景训练数据较少时,可能会出现过模型拟合的问题。
为了避免上述技术问题,可以采用基于注意力的损失函数对模型进行训练。具体地,可以对识别模型进行复制操作,获得待训练模型。根据该识别模型以及待训练模型在训练过程中的输出数据以及参数信息确定CTC损失函数、知识蒸馏损失函数以及注意力损失函数。
其中,该CTC损失模型具体用于使得训练后的语音识别模型具有语音识别能力。知识蒸馏损失函数具体用于使得识别模型与训练后的语音识别模型输出结果相同。而注意力损失函数则具体用于使得识别模型与训练后的语音识别模型识别过程中的参数保持一致。
步骤103、根据所述CTC损失函数、知识蒸馏损失函数以及注意力损失函数确定目标损失函数。
在本实施方式中,由于不同的应用场景下,对每一个损失函数的需求可能存在不同,因此,为了提高训练后的语音识别模型的通用性,可以根据CTC损失函数、知识蒸馏损失函数以及注意力损失函数确定目标损失函数。
步骤104、采用所述待训练数据集以及所述目标损失函数对所述待训练模型进行训练,获得训练后的语音识别模型。
在本实施例方式中,在根据CTC损失函数、知识蒸馏损失函数以及注意力损失函数确定目标损失函数之后,既可以根据该目标损失函数以及待训练数据集对待训练模型进行训练操作,获得训练后的语音识别模型。
由于采用由CTC损失函数、知识蒸馏损失函数以及注意力损失函数构建的目标损失函数,从而只需要目标场景下的待训练数据即可对待训练模型进行训练。
进一步地,在实施例一的基础上,步骤104之前,还包括:
针对所述待训练数据集中的每一音频训练数据,对所述音频训练数据进行语音频谱特征提取操作,获得所述音频训练数据对应的输入特征信息。
在本实施例中,为了提高待训练模型的训练效率,在采用待训练数据集对待训练模型进行训练之前,可以对待训练数据集中的待训练数据进行预处理操作。
具体地,针对待训练数据集中的每一音频训练数据,可以对该音频训练数据进行语音频谱特征提取操作,获得所述音频训练数据对应的输入特征信息。
进一步地,在实施例一的基础上,所述对所述音频训练数据进行语音频谱特征提取操作,包括:
通过短时傅里叶变换对所述音频训练数据进行语音频谱特征提取操作。
具体地,可以采用传统短时傅立叶变换(Short-Time Fourier Transform,简称STFT)对所述音频训练数据进行语音频谱特征提取操作。实际应用中,窗口大小为20ms,窗口滑动步长为10ms,获得每一段音频训练数据的81维频谱信息序列。
本实施例提供的网络模型处理方法,通过获取包括目标场景下待训练数据的待训练数据集,并根据CTC损失函数、知识蒸馏损失函数以及注意力损失函数构建目标损失函数。从而能够根据该待训练数据集以及目标损失函数,对预设的采用预设的旧场景训练数据训练后的待训练模型进行基于注意力损失的训练操作,进而能够仅利用少量目标场景下待训练数据,即可快速训练获得兼具目标场景以及旧场景识别能力的语音识别模型。
图4为本公开实施例二提供的网络模型处理方法的流程示意图,在实施例一的基础上,如图4所示,步骤102具体包括:
步骤201、将所述待训练数据集中的待训练数据输入至所述待训练模型中,计算所述待训练模型对应的CTC损失函数,以使所述待训练模型输出的输出结果与所述音频训练数据对应的文本标注结果一致。
在本实施方式中,为了实现对目标损失函数的计算,首先可以计算待训练模型对应的CTC损失函数。具体地,可以将待训练数据集中的待训练数据输入至待训练模型中,获得模型的输出结果。计算CTC损失函数,使得待训练模型输出的输出结果与音频训练数据对应的文本标注结果一致。其中,该CTC损失函数L1如公式1所示:
Figure BDA0002641294660000091
其中lc(·)为CTC损失函数,Nb为训练中每一个批次的数量,实际应用中,Nb=32。f(h0,in)为旧场景待训练模型对应的非线性映射函数,h0,i为待训练模型的输入特征,θn为待训练模型训练数据训练获得的模型参数。yi为该样本的汉字标注结果。
步骤202、将所述待训练数据集中的待训练数据分别输入至所述识别模型以及所述待训练模型中,计算所述待训练模型对应的知识蒸馏损失函数,以使所述待训练模型输出的输出结果与所述识别模型输出的输出结果一致。
在本实施方式中,知识蒸馏损失函数具体用于使得识别模型f(h0,in)与训练后的语音识别模型输出结果f(h0,io)相同。具体地,可以将待训练数据集中的待训练数据分别输入至识别模型以及待训练模型中,计算待训练模型对应的知识蒸馏损失函数。
其中,具体可以根据KL散度控制所述待训练模型输出的输出结果与所述识别模型输出的输出结果一致,获得所述待训练模型对应的知识蒸馏损失函数。
该知识蒸馏损失函数L2具体可以如公式2所示:
Figure BDA0002641294660000092
其中,f(h0,in)为识别模型的输出结果,f(h0,io)为训练后的语音识别模型输出结果,lKL(·)为KL散度。
步骤203、分别确定所述待训练模型以及所述识别模型对应的至少一个影响因素,计算所述待训练模型对应的注意力损失函数,以使所述待训练模型与所述识别模型对应的影响因素一致。
在本实施方式中,注意力损失函数则具体用于使得识别模型与训练后的语音识别模型识别过程中的参数保持一致。具体可以分别确定待训练模型以及识别模型对应的至少一个影响因素,计算待训练模型对应的注意力损失函数。
其中,该注意力损失函数L3可以如公式3所示:
Figure BDA0002641294660000101
其中,lA(·)为注意力损失函数。
具体地,在实施例一的基础上,步骤203具体包括:
分别计算所述待训练模型与所述识别模型对应的梯度信息;
根据所述梯度信息分别确定待训练模型与所述识别模型对应的注意力矢量;
对所述待训练模型与所述识别模型对应的注意力矢量进行归一化操作,获得所述待训练模型对应的注意力损失函数。
具体地,为了实现注意力损失函数的计算,首先可以分别计算
本实施例提供的网络模型处理方法,通过待训练模型与所述识别模型对应的梯度信息。具体地,可以记识别模型的输出结果f(h0,io)每一层输出为
Figure BDA0002641294660000102
训练后的语音识别模型输出结果f(h0,in)每一层输出为
Figure BDA0002641294660000103
计算识别模型对应的梯度。识别模型对应的梯度具体可以如公式4所示:
Figure BDA0002641294660000104
其中max(h)为h每一列的最大值。记argmax(h)为h每一列的最大值的索引,计算待训练模型对应的梯度,该待训练模型对应的梯度具体可以如公式5所示:
Figure BDA0002641294660000105
其中
Figure BDA0002641294660000106
Figure BDA0002641294660000107
每一列中取索引值为对应
Figure BDA0002641294660000108
构成的矢量。
由公式(4-5)获得识别模型的注意力矢量vo和待训练模型的注意力矢量vn,如公式6-7所示:
Figure BDA0002641294660000109
Figure BDA00026412946600001010
其中,
Figure BDA00026412946600001011
代表矢量对应元素相乘。
由公式(6-7)可计算获得归一化矢量的注意力损失函数L3,如公式8所示:
Figure BDA0002641294660000111
其中||·||和|·|分别代表2范数和1范数。
本实施例提供的网络模型处理方法,通过分别计算CTC损失函数、知识蒸馏损失函数以及注意力损失函数,从而后续可以根据CTC损失函数、知识蒸馏损失函数以及注意力损失函数构建目标损失函数。进而能够通过该目标损失函数实现对待训练模型的训练操作。进而能够仅利用少量目标场景下待训练数据,即可快速训练获得兼具目标场景以及旧场景识别能力的语音识别模型。
图5为本公开实施例三提供的网络模型处理方法的流程示意图,在上述任一实施例的基础上,如图5所示,步骤103具体包括:
步骤301、根据所述语音识别模型的应用场景,确定与所述应用场景对应的参数信息。
步骤302、根据所述参数信息以及所述CTC损失函数、知识蒸馏损失函数以及注意力损失函数确定目标损失函数。
在本实施例中,在分别计算CTC损失函数、知识蒸馏损失函数以及注意力损失函数之后,可以根据CTC损失函数、知识蒸馏损失函数以及注意力损失函数构建目标损失函数。其中,该目标损失函数具体可以如公式9所示:
L=L1+αL2+βL3 (9)
其中,α与β为该语音识别模型所应用的应用场景的参数信息。α和β用于平衡模型对识别模型知识的保留和对新业务信息的学习能力。
由于不同的应用场景下,对每一个损失函数的需求可能存在不同。以实际应用举例来说,α或β越大,模型对识别模型知识蒸馏和注意力特征的保留越强,反之,则对新业务信息的学习适应性越强。当α=β=0,模型训练退化为现有深度迁移学习方法,此时模型训练中仅关注模型对新业务场景的适应性。当α≠0,β=0时,模型训练退化为现有增量学习方法,即仅关注新模型和识别模型最终输出结果的一致性。当α≠0,β≠0时,模型在关注新场景、保留模型输出结果一致性的同时,也保留识别模型输出该结果的原因,从而进一步提高新模型对识别模型知识的保留。
因此,可以根据该语音识别模型的应用场景,确定与该应用场景对应的参数信息。根据该参数信息以及CTC损失函数、知识蒸馏损失函数以及注意力损失函数确定目标损失函数。
本实施例提供的网络模型处理方法,通过根据该语音识别模型的应用场景,确定与该应用场景对应的参数信息。根据该参数信息以及CTC损失函数、知识蒸馏损失函数以及注意力损失函数确定目标损失函数,从而能够使得该训练后的语音识别模型适用于更多的应用场景,提高语音识别模型的通用性。
图6为本公开实施例四提供的网络模型处理方法的流程示意图,在上述任一实施例的基础上,如图6所示,步骤104具体包括:
步骤401、将所述待训练数据集中的待训练数据输入至所述待训练模型中,获得所述目标损失函数对应的损失值。
步骤402、根据所述损失值对所述待训练模型的参数进行调整操作,直至所述损失值小于预设的阈值。
在本实施例中,可以利用待训练数据集对待训练模型进行反向传播训练。具体地,可以将待训练数据集中的待训练数据输入至所述待训练模型中,获得所述目标损失函数对应的损失值。根据该损失值对待训练模型的参数进行调整,直至该损失值小于预设的阈值,得到训练后的语音识别模型。
本实施例提供的网络模型处理方法,通过利用待训练数据集对待训练模型进行反向传播训练,不断地根据损失值对待训练模型的参数进行调整,从而能够有效地提高训练后的语音识别模型的识别精度。
图7为本公开实施例五提供的网络模型处理方法的流程示意图,如图7所示,该方法包括:
步骤501、获取终端设备发送的语音识别指令,所述语音识别指令中包括待识别语音。
步骤502、根据所述语音识别指令,将所述待识别语音输入至预设的语音识别模型,获得所述待识别语音对应的文本信息,其中,所述语音识别模型是通过由CTC损失函数、知识蒸馏损失函数以及注意力损失函数确定的目标损失函数,以及包括目标场景下音频训练数据以及所述音频训练数据对应的文本标注结果的待训练数据集训练获得的。
步骤503、将所述文本信息发送至所述终端设备。
本实施例的执行主体为网络模型处理装置,该网络模型处理装置可耦合于服务器中。该服务器可以与终端设备通信连接,进而能够与终端设备进行信息交互。终端设备可例如台式电脑、平板电脑、手机等。
图8为本公开所基于的又一系统架构图,如图8所示,本公开所基于的网络架构具体包括服务器1以及终端设备3,其中,该服务器1中设置有网络模型处理装置。该终端设备则可以为手机、平板电脑、台式电脑等。该服务器1可以与终端设备3通信连接,从而二者可以进行信息交互。
在本实施例中,网络模型处理装置可以获取终端设备发送的语音识别指令,其中,该语音识别指令中包括待识别语音。根据该语音识别指令,将该待识别语音输入至预设的语音识别模型,获得所述待识别语音对应的文本信息。
其中,该语音识别模型是通过包括目标场景下待训练数据的待训练数据集,以及由CTC损失函数、知识蒸馏损失函数以及注意力损失函数构建的目标损失函数训练获得的。从而能够根据该待训练数据集以及目标损失函数,对预设的采用预设的旧场景训练数据训练后的待训练模型进行基于注意力损失的训练操作,进而能够仅利用少量目标场景下待训练数据,即可快速训练获得兼具目标场景以及旧场景识别能力的语音识别模型。
为了使得用户能够对识别的文本信息进行及时了解,在语音识别模型输出文本信息之后,可以将该语音信息发送至终端设备中,以供用户查看。
图9为本公开实施例提供的语音识别示意图,如图9所示,可以将终端设备发送的语音识别指令中的待识别语音输入至语音识别模型中,得到语音识别模型输出的识别结果。
本实施例提供的网络模型处理方法,通过采用通过包括目标场景下待训练数据的待训练数据集,以及由CTC损失函数、知识蒸馏损失函数以及注意力损失函数构建的目标损失函数训练获得的语音识别模型对待识别语音进行识别,从而能够提高语音数据的识别精度。
图10为本公开实施例六提供的网络模型处理装置的结构示意图,如图10所示,该装置包括:获取模块61、计算模块62、确定模块63以及训练模块64。其中,获取模块61,用于从数据库中获取待训练数据集,其中,所述待训练数据集中包括目标场景下的音频训练数据以及所述音频训练数据对应的文本标注结果。计算模块62,用于根据预设的识别模型以及待训练模型,确定CTC损失函数、知识蒸馏损失函数以及注意力损失函数,其中,所述识别模型为采用预设的旧场景训练数据训练后的网络模型,所述待训练模型是根据所述识别模型进行复制操作获得的。确定模块63,用于根据所述CTC损失函数、知识蒸馏损失函数以及注意力损失函数确定目标损失函数。训练模块64,用于采用所述待训练数据集以及所述目标损失函数对所述待训练模型进行训练,获得训练后的语音识别模型。
进一步地,在实施例六的基础上,所述装置还包括:
特征提取模块,用于针对所述待训练数据集中的每一音频训练数据,对所述音频训练数据进行语音频谱特征提取操作,获得所述音频训练数据对应的输入特征信息。
进一步地,在实施例六的基础上,所述特征提取模块用于:
通过短时傅里叶变换对所述音频训练数据进行语音频谱特征提取操作。
本实施例提供的网络模型处理装置,通过获取包括目标场景下待训练数据的待训练数据集,并根据CTC损失函数、知识蒸馏损失函数以及注意力损失函数构建目标损失函数。从而能够根据该待训练数据集以及目标损失函数,对预设的采用预设的旧场景训练数据训练后的待训练模型进行基于注意力损失的训练操作,进而能够仅利用少量目标场景下待训练数据,即可快速训练获得兼具目标场景以及旧场景识别能力的语音识别模型。
图11为本公开实施例七提供的网络模型处理装置的结构示意图,在实施例六的基础上,如图11所示,所述计算模块包括:第一计算单元71、第二计算单元72以及第三计算单元73。其中,第一计算单元71,用于将所述待训练数据集中的待训练数据输入至所述待训练模型中,计算所述待训练模型对应的CTC损失函数,以使所述待训练模型输出的输出结果与所述音频训练数据对应的文本标注结果一致。第二计算单元72,用于将所述待训练数据集中的待训练数据分别输入至所述识别模型以及所述待训练模型中,计算所述待训练模型对应的知识蒸馏损失函数,以使所述待训练模型输出的输出结果与所述识别模型输出的输出结果一致。第三计算单元73,用于分别确定所述待训练模型以及所述识别模型对应的至少一个影响因素,计算所述待训练模型对应的注意力损失函数,以使所述待训练模型与所述识别模型对应的影响因素一致。
进一步地,在实施例六的基础上,所述第二计算单元用于:根据KL散度控制所述待训练模型输出的输出结果与所述识别模型输出的输出结果一致,获得所述待训练模型对应的知识蒸馏损失函数。
进一步地,在实施例六的基础上,所述第三计算单元用于:分别计算所述待训练模型与所述识别模型对应的梯度信息;根据所述梯度信息分别确定待训练模型与所述识别模型对应的注意力矢量;对所述待训练模型与所述识别模型对应的注意力矢量进行归一化操作,获得所述待训练模型对应的注意力损失函数。
图12为本公开实施例八提供的网络模型处理装置的结构示意图,在上述任一实施例的基础上,如图12所示,所述确定模块包括:确定单元81以及调整单元82。其中,确定单元81,用于根据所述语音识别模型的应用场景,确定与所述应用场景对应的参数信息;调整单元82,用于根据所述参数信息以及所述CTC损失函数、知识蒸馏损失函数以及注意力损失函数确定目标损失函数。
图13为本公开实施例九提供的网络模型处理装置的结构示意图,在上述任一实施例的基础上,如图13所示,所述训练模块包括:输入单元91以及训练单元92,其中,输入单元91,用于将所述待训练数据集中的待训练数据输入至所述待训练模型中,获得所述目标损失函数对应的损失值。训练单元92,用于根据所述损失值对所述待训练模型的参数进行调整操作,直至所述损失值小于预设的阈值。
图14为本公开实施例十提供的网络模型处理装置的结构示意图,如图14所示,该装置包括:指令获取模块111、识别模块112以及发送模块113,其中,指令获取模块111,用于获取终端设备发送的语音识别指令,所述语音识别指令中包括待识别语音。识别模块112,用于根据所述语音识别指令,将所述待识别语音输入至预设的语音识别模型,获得所述待识别语音对应的文本信息,其中,所述语音识别模型是通过由CTC损失函数、知识蒸馏损失函数以及注意力损失函数确定的目标损失函数,以及包括目标场景下音频训练数据以及所述音频训练数据对应的文本标注结果的待训练数据集训练获得的。发送模块113,用于将所述文本信息发送至所述终端设备。
图15为本公开实施例十一提供的网络模型处理设备的结构示意图,如图15所示,该设备包括:存储器121,处理器122;
存储器121;用于存储所述处理器122可执行指令的存储器121;
其中,所述处理器122用于调用所述存储器121中的程序指令执行如上述任一实施例所述的网络模型处理方法。
存储器121,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器121可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
其中,处理器122可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本公开实施例的一个或多个集成电路。
可选的,在具体实现上,如果存储器121和处理器122独立实现,则存储器121和处理器122可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图15中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器121和处理器122集成在一块芯片上实现,则存储器121和处理器122可以通过内部接口完成相同间的通信。
本公开又一实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述任一实施例所述的网络模型处理方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述各实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

Claims (20)

1.一种网络模型处理方法,其特征在于,包括:
从数据库中获取待训练数据集,其中,所述待训练数据集中包括目标场景下的音频训练数据以及所述音频训练数据对应的文本标注结果;
根据预设的识别模型以及待训练模型,确定CTC损失函数、知识蒸馏损失函数以及注意力损失函数,其中,所述识别模型为采用预设的旧场景训练数据训练后的网络模型,所述待训练模型是根据所述识别模型进行复制操作获得的;
根据所述CTC损失函数、知识蒸馏损失函数以及注意力损失函数确定目标损失函数;
采用所述待训练数据集以及所述目标损失函数对所述待训练模型进行训练,获得训练后的语音识别模型。
2.根据权利要求1所述的方法,其特征在于,所述根据预设的识别模型以及待训练模型,确定CTC损失函数、知识蒸馏损失函数以及注意力损失函数,包括:
将所述待训练数据集中的待训练数据输入至所述待训练模型中,计算所述待训练模型对应的CTC损失函数,以使所述待训练模型输出的输出结果与所述音频训练数据对应的文本标注结果一致;
将所述待训练数据集中的待训练数据分别输入至所述识别模型以及所述待训练模型中,计算所述待训练模型对应的知识蒸馏损失函数,以使所述待训练模型输出的输出结果与所述识别模型输出的输出结果一致;
分别确定所述待训练模型以及所述识别模型对应的至少一个影响因素,计算所述待训练模型对应的注意力损失函数,以使所述待训练模型与所述识别模型对应的影响因素一致。
3.根据权利要求2所述的方法,其特征在于,所述计算所述待训练模型对应的知识蒸馏损失函数,包括:
根据KL散度控制所述待训练模型输出的输出结果与所述识别模型输出的输出结果一致,获得所述待训练模型对应的知识蒸馏损失函数。
4.根据权利要求2所述的方法,其特征在于,所述分别确定所述待训练模型以及所述识别模型对应的至少一个影响因素,计算所述待训练模型对应的注意力损失函数,以使所述待训练模型与所述识别模型对应的影响因素一致,包括:
分别计算所述待训练模型与所述识别模型对应的梯度信息;
根据所述梯度信息分别确定待训练模型与所述识别模型对应的注意力矢量;
对所述待训练模型与所述识别模型对应的注意力矢量进行归一化操作,获得所述待训练模型对应的注意力损失函数。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述CTC损失函数、知识蒸馏损失函数以及注意力损失函数确定目标损失函数,包括:
根据所述语音识别模型的应用场景,确定与所述应用场景对应的参数信息;
根据所述参数信息以及所述CTC损失函数、知识蒸馏损失函数以及注意力损失函数确定目标损失函数。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述采用所述待训练数据集以及所述目标损失函数对所述待训练模型进行训练之前,还包括:
针对所述待训练数据集中的每一音频训练数据,对所述音频训练数据进行语音频谱特征提取操作,获得所述音频训练数据对应的输入特征信息。
7.根据权利要求6所述的方法,其特征在于,所述对所述音频训练数据进行语音频谱特征提取操作,包括:
通过短时傅里叶变换对所述音频训练数据进行语音频谱特征提取操作。
8.根据权利要求1-4任一项所述的方法,其特征在于,所述采用所述待训练数据集以及所述目标损失函数对所述待训练模型进行训练,包括:
将所述待训练数据集中的待训练数据输入至所述待训练模型中,获得所述目标损失函数对应的损失值;
根据所述损失值对所述待训练模型的参数进行调整操作,直至所述损失值小于预设的阈值。
9.一种网络模型处理方法,其特征在于,包括:
获取终端设备发送的语音识别指令,所述语音识别指令中包括待识别语音;
根据所述语音识别指令,将所述待识别语音输入至预设的语音识别模型,获得所述待识别语音对应的文本信息,其中,所述语音识别模型是通过由CTC损失函数、知识蒸馏损失函数以及注意力损失函数确定的目标损失函数,以及包括目标场景下音频训练数据以及所述音频训练数据对应的文本标注结果的待训练数据集训练获得的;
将所述文本信息发送至所述终端设备。
10.一种网络模型处理装置,其特征在于,包括:
获取模块,用于从数据库中获取待训练数据集,其中,所述待训练数据集中包括目标场景下的音频训练数据以及所述音频训练数据对应的文本标注结果;
计算模块,用于根据预设的识别模型以及待训练模型,确定CTC损失函数、知识蒸馏损失函数以及注意力损失函数,其中,所述识别模型为采用预设的旧场景训练数据训练后的网络模型,所述待训练模型是根据所述识别模型进行复制操作获得的;
确定模块,用于根据所述CTC损失函数、知识蒸馏损失函数以及注意力损失函数确定目标损失函数;
训练模块,用于采用所述待训练数据集以及所述目标损失函数对所述待训练模型进行训练,获得训练后的语音识别模型。
11.根据权利要求10所述的装置,其特征在于,所述计算模块包括:
第一计算单元,用于将所述待训练数据集中的待训练数据输入至所述待训练模型中,计算所述待训练模型对应的CTC损失函数,以使所述待训练模型输出的输出结果与所述音频训练数据对应的文本标注结果一致;
第二计算单元,用于将所述待训练数据集中的待训练数据分别输入至所述识别模型以及所述待训练模型中,计算所述待训练模型对应的知识蒸馏损失函数,以使所述待训练模型输出的输出结果与所述识别模型输出的输出结果一致;
第三计算单元,用于分别确定所述待训练模型以及所述识别模型对应的至少一个影响因素,计算所述待训练模型对应的注意力损失函数,以使所述待训练模型与所述识别模型对应的影响因素一致。
12.根据权利要求11所述的装置,其特征在于,所述第二计算单元用于:
根据KL散度控制所述待训练模型输出的输出结果与所述识别模型输出的输出结果一致,获得所述待训练模型对应的知识蒸馏损失函数。
13.根据权利要求11所述的装置,其特征在于,所述第三计算单元用于:
分别计算所述待训练模型与所述识别模型对应的梯度信息;
根据所述梯度信息分别确定待训练模型与所述识别模型对应的注意力矢量;
对所述待训练模型与所述识别模型对应的注意力矢量进行归一化操作,获得所述待训练模型对应的注意力损失函数。
14.根据权利要求10-13任一项所述的装置,其特征在于,所述确定模块包括:
确定单元,用于根据所述语音识别模型的应用场景,确定与所述应用场景对应的参数信息;
调整单元,用于根据所述参数信息以及所述CTC损失函数、知识蒸馏损失函数以及注意力损失函数确定目标损失函数。
15.根据权利要求10-13任一项所述的装置,其特征在于,所述装置还包括:
特征提取模块,用于针对所述待训练数据集中的每一音频训练数据,对所述音频训练数据进行语音频谱特征提取操作,获得所述音频训练数据对应的输入特征信息。
16.根据权利要求15所述的装置,其特征在于,所述特征提取模块用于:
通过短时傅里叶变换对所述音频训练数据进行语音频谱特征提取操作。
17.根据权利要求10-13任一项所述的装置,其特征在于,所述训练模块包括:
输入单元,用于将所述待训练数据集中的待训练数据输入至所述待训练模型中,获得所述目标损失函数对应的损失值;
训练单元,用于根据所述损失值对所述待训练模型的参数进行调整操作,直至所述损失值小于预设的阈值。
18.一种网络模型处理装置,其特征在于,包括:
指令获取模块,用于获取终端设备发送的语音识别指令,所述语音识别指令中包括待识别语音;
识别模块,用于根据所述语音识别指令,将所述待识别语音输入至预设的语音识别模型,获得所述待识别语音对应的文本信息,其中,所述语音识别模型是通过由CTC损失函数、知识蒸馏损失函数以及注意力损失函数确定的目标损失函数,以及包括目标场景下音频训练数据以及所述音频训练数据对应的文本标注结果的待训练数据集训练获得的;
发送模块,用于将所述文本信息发送至所述终端设备。
19.一种网络模型处理设备,其特征在于,包括:存储器,处理器;
存储器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器用于调用所述存储器中的程序指令执行如权利要求1-8或9任一项所述的网络模型处理方法。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-8或9任一项所述的网络模型处理方法。
CN202010840742.0A 2020-08-20 2020-08-20 网络模型处理方法、装置、设备及计算机可读存储介质 Pending CN114078471A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010840742.0A CN114078471A (zh) 2020-08-20 2020-08-20 网络模型处理方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010840742.0A CN114078471A (zh) 2020-08-20 2020-08-20 网络模型处理方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN114078471A true CN114078471A (zh) 2022-02-22

Family

ID=80282934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010840742.0A Pending CN114078471A (zh) 2020-08-20 2020-08-20 网络模型处理方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114078471A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115662401A (zh) * 2022-12-14 2023-01-31 国家电网有限公司客户服务中心 一种基于持续学习的客服通话语音识别方法
CN117524252A (zh) * 2023-11-13 2024-02-06 北方工业大学 一种基于醉汉模型的轻量化声学场景感知方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115662401A (zh) * 2022-12-14 2023-01-31 国家电网有限公司客户服务中心 一种基于持续学习的客服通话语音识别方法
CN115662401B (zh) * 2022-12-14 2023-03-10 国家电网有限公司客户服务中心 一种基于持续学习的客服通话语音识别方法
CN117524252A (zh) * 2023-11-13 2024-02-06 北方工业大学 一种基于醉汉模型的轻量化声学场景感知方法
CN117524252B (zh) * 2023-11-13 2024-04-05 北方工业大学 一种基于醉汉模型的轻量化声学场景感知方法

Similar Documents

Publication Publication Date Title
US11080481B2 (en) Method and device for classifying questions based on artificial intelligence
CN107980130A (zh) 自动回答方法、装置、存储介质及电子设备
CN112507704A (zh) 多意图识别方法、装置、设备及存储介质
WO2023005386A1 (zh) 模型训练方法和装置
EP4057283A2 (en) Method for detecting voice, method for training, apparatuses and smart speaker
CN112507706A (zh) 知识预训练模型的训练方法、装置和电子设备
CN114078471A (zh) 网络模型处理方法、装置、设备及计算机可读存储介质
CN112667803A (zh) 一种文本情感分类方法及装置
KR20200103165A (ko) 대화 서비스 제공을 위한 문장 의미 관계 분류 프로그램
CN116628163A (zh) 客服服务处理方法、装置、设备及存储介质
CN109710939B (zh) 用于确定主题的方法和装置
CN110516125A (zh) 识别异常字符串的方法、装置、设备及可读存储介质
KR20200103152A (ko) 대화 서비스 제공을 위한 문장 의미 관계 학습 장치
CN114091551A (zh) 色情图像识别方法、装置、电子设备及存储介质
KR20200098394A (ko) 대화 서비스 제공을 위한 문장 의미 관계 학습 장치 및 그 동작 방법
CN111859933A (zh) 马来语识别模型的训练方法、识别方法、装置、设备
KR20200103156A (ko) 대화 서비스 제공을 위한 문장 의미 관계 학습 프로세스를 컴퓨터에서 실행하기 위해 매체에 저장된 프로그램
CN113204973B (zh) 答非所问识别模型的训练方法、装置、设备和存储介质
CN111401069A (zh) 会话文本的意图识别方法、意图识别装置及终端
CN115270818A (zh) 一种意图识别方法及装置、存储介质、计算机设备
CN113823271B (zh) 语音分类模型的训练方法、装置、计算机设备及存储介质
CN115273820A (zh) 音频处理方法、装置、存储介质及电子设备
CN115273828A (zh) 语音意图识别模型的训练方法、装置及电子设备
CN114972775A (zh) 特征处理方法、装置、产品、介质及设备
JP2022068146A (ja) データ注釈方法、装置、電子機器、記憶媒体およびコンピュータプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination