CN111627428B - 构建压缩的语音识别模型的方法 - Google Patents
构建压缩的语音识别模型的方法 Download PDFInfo
- Publication number
- CN111627428B CN111627428B CN202010414344.2A CN202010414344A CN111627428B CN 111627428 B CN111627428 B CN 111627428B CN 202010414344 A CN202010414344 A CN 202010414344A CN 111627428 B CN111627428 B CN 111627428B
- Authority
- CN
- China
- Prior art keywords
- model
- audio data
- speech recognition
- constructing
- trained
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012545 processing Methods 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000007906 compression Methods 0.000 claims abstract description 13
- 230000006835 compression Effects 0.000 claims abstract description 12
- 238000005457 optimization Methods 0.000 claims abstract description 9
- 238000013138 pruning Methods 0.000 claims description 5
- 238000013139 quantization Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000013140 knowledge distillation Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013518 transcription Methods 0.000 description 3
- 230000035897 transcription Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提供了一种构建压缩的语音识别模型的方法,该方法包括:采集音频数据;提供经过训练的教师模型,将所述音频数据输入至所述教师模型,获得所述教师模型针对所述音频数据输出的软化概率分布向量;提供经过初始化的学生模型,将所述音频数据作为输入,以及将所述软化概率分布向量作为监督信号,训练所述学生模型;对训练后的学生模型进行压缩处理;利用根据所述音频数据对应的转录文本生成的语言模型对压缩处理后的学生模型进行超参数优化处理,以获得压缩的语音识别模型。此外,本发明还提供相应的计算机介质。
Description
技术领域
本发明涉及语音识别的神经网络算法领域,尤其涉及一种构建压缩的语音识别模型的方法。
背景技术
目前,智能呼叫中心通常使用语音识别模型来实现实时语音识别,为了获得较好的场景、客户意图等角度的预测性能,往往需要对复杂的语音识别模型进行训练,所述训练的效率取决于所能获得的计算资源,当计算资源不足,尤其是面对智能呼叫中心所配备的计算能力有限的低成本硬件时,在模型部署阶段就需要考虑模型的大小、计算复杂度、速度等诸多因素,具有过于庞大的模型参数数量和复杂度的语音识别模型不利于在上述有限的设备规模中进行训练和推广。
因此,对于复杂的语音识别模型,迫切需要在不影响其预测性能,甚至在提升其预测性能的前提下,尽可能地降低该语音识别模型的复杂度,以从中构建出一个所需计算资源更小的语音识别模型。
发明内容
为了克服现有技术中的上述缺陷,本发明提供了构建压缩的语音识别模型的方法,该方法包括:
采集音频数据;
提供经过训练的教师模型,将所述音频数据输入至所述教师模型,获得所述教师模型针对所述音频数据输出的软化概率分布向量;
提供经过初始化的学生模型,将所述音频数据作为输入,以及将所述软化概率分布向量作为监督信号,训练所述学生模型;
对训练后的学生模型进行压缩处理;
利用根据所述音频数据对应的转录文本生成的语言模型对压缩处理后的学生模型进行超参数优化处理,以获得压缩的语音识别模型。
根据本发明的一个方面,该方法中所述软化概率分布向量是:根据所述教师模型针对所述音频数据的预测输出结果,在特定温度参数值下通过所述教师模型的softmax函数输出的软目标。
根据本发明的另一个方面,该方法中所述对训练后的学生模型进行压缩处理的步骤包括:对所述训练后的学生模型执行核稀疏化处理。
根据本发明的另一个方面,该方法中所述对训练后的学生模型进行压缩处理的步骤还包括:对所述训练后的学生模型执行模型剪枝处理。
根据本发明的另一个方面,该方法中所述对训练后的学生模型进行压缩处理的步骤还包括:对所述训练后的学生模型执行矩阵量化处理。
根据本发明的另一个方面,该方法中所述语言模型是N-gram模型。
相应地,本发明还提供了一个或多个存储计算机可执行指令的计算机可读介质,所述指令在由一个或多个计算机设备使用时使得一个或多个计算机设备执行如前文所述的构建压缩的语音识别模型的方法。
本发明提供的构建压缩的语音识别模型的方法使用了教师模型输出的软化概率分布向量作为训练学生模型的监督信号,实现学生模型的压缩和训练加速,结合对训练后的学生模型进行的进一步压缩处理和超参数优化处理,可获得压缩的语音识别模型,相比复杂度较高的教师模型,所述压缩的语音识别模型训练和运行所需的计算资源更小,便于在低成本的硬件环境中进行部署。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是根据本发明的构建压缩的语音识别模型的方法的一个具体实施方式的流程示意图;
图2是图1示出的步骤S400的可选实施例的流程示意图;
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
为了更好地理解和阐释本发明,下面将结合附图对本发明作进一步的详细描述。本发明并不仅仅局限于这些具体实施方式。相反,对本发明进行的修改或者等同替换,均应涵盖在本发明的权利要求范围当中。
需要说明的是,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有这些具体细节,本发明同样可以实施。在下文给出的多个具体实施方式中,对于本领域熟知的结构和部件未作详细描述,以便于凸显本发明的主旨。
本发明提供了一种构建压缩的语音识别模型的方法,请参考图1,图1是根据本发明的构建压缩的语音识别模型的方法的一个具体实施方式的流程示意图,该方法包括:
步骤S100,采集音频数据;
步骤S200,提供经过训练的教师模型,将所述音频数据输入至所述教师模型,获得所述教师模型针对所述音频数据输出的软化概率分布向量;
步骤S300,提供经过初始化的学生模型,将所述音频数据作为输入,以及将所述软化概率分布向量作为监督信号,训练所述学生模型;
步骤S400,对训练后的学生模型进行进一步压缩处理;
步骤S500,利用根据所述音频数据对应的转录文本生成的语言模型对压缩处理后的学生模型进行超参数优化处理,以获得压缩的语音识别模型。
具体地,在步骤S100中所采集的音频数据通常是具有训练样本意义的对话录音,该音频数据可能由多个具有自然语言含义的句子构成。
步骤S200中首先提供了经过训练的教师模型,本领域技术人员可知,根据知识蒸馏算法的技术背景,所述教师模型指的是:相对复杂并可以针对所述音频数据输出满足精度要求的预测结果的神经网络,可见,所述教师模型具有高复杂度和高推理性能两个典型特征,虽然其推理性能较好,但其高复杂度导致所述教师模型不利于在低计算性能的硬件环境中部署,例如现有的大多数智能呼叫中心所配备的计算能力有限的低成本硬件对于运行所述教师模型进行语音识别时就比较吃力,因而教师模型的高复杂度成为了现有的大多数智能呼叫中心在实现语音识别时的瓶颈因素。本发明的目的之一是构建相对于所述教师模型而言复杂度更低的语音识别模型,也即构建所述压缩的语音识别模型。为实现上述目的,考虑根据知识蒸馏算法,将所述教师模型的输出成果用于一个简单神经网络的训练,实现所述教师模型对所述简单神经网络的知识迁移。所述简单神经网络也即步骤S300中的所述学生模型,所述学生模型是上述一类简单神经网络在知识蒸馏算法中所公知的称谓。
步骤S200中获得的所述教师模型针对所述音频数据输出的软化概率分布向量是进一步在步骤S300中用来约束所述学生模型的训练,具体而言,将所述音频数据作为样本集训练所述学生模型,并将所述软化概率分布向量作为训练所述学生模型时的监督信号。典型地,为了达到知识蒸馏算法所预期的效果,所述软化概率分布向量指的是:根据所述教师模型针对所述音频数据的预测输出结果,在特定温度参数值下通过所述教师模型的softmax函数输出的软目标(soft-target)。相对应地,对所述音频数据进行文本转录所得的真实转录结果也通常被称之为硬目标(hard-target)。所述温度参数是softmax函数中的调节参数,所述温度参数的值越大,则所述软目标中所有类的概率分布越趋近于平均,本具体实施方式的实施者可以根据所述学生模型的训练需求选择所述温度参数的合适值。
根据知识蒸馏算法的特性,当所述软化概率分布向量充当训练所述学生模型时的监督信号时,所述学生模型的训练是受到该监督信号的约束的,因此所述训练能获得更好的收敛速率。
执行步骤S300后,训练后的学生模型可认为已经与所述教师模型具有基本相等的预测性能,而该训练后的学生模型复杂度显然低于所述教师模式,但所述复杂度依然有进一步降低的可能性。因此考虑执行步骤S400,对所述训练后的学生模型进行进一步的压缩处理。请参考图2,图2是图1示出的步骤S400的可选实施例的流程示意图,如图2所示,步骤S400包括:
步骤S410,对所述训练后的学生模型执行核稀疏化处理;
步骤S420,对所述训练后的学生模型执行模型剪枝处理;
步骤S430,对所述训练后的学生模型执行矩阵量化处理。
具体地,步骤S410中所述核稀疏化处理指的是通过Regular方法或Irregular方法来更新所述训练后的学生模型中的权重,使其运算效率更高;步骤S420中所述模型剪枝处理指的是通过模型剪枝算法思想删除所述训练后的学生模型中的计算收益较低的部分,进一步压缩所述训练后的学生模型的规模;步骤S430中所述矩阵量化处理指的是通过量化、共享权值、哈夫曼编码等手段使所述训练后的学生模型所包含的数据量进一步减小。总体而言,能进一步降低所述训练后的学生模型的复杂度的压缩处理,都可以包含在步骤S400中。
在步骤S400中执行所述压缩处理之后,进一步对压缩处理后的学生模型进行优化处理,也即执行步骤S500,利用根据所述音频数据对应的转录文本生成的语言模型对压缩处理后的学生模型进行超参数优化处理,以获得压缩的语音识别模型。典型的,步骤S500中根据所述音频数据对应的转录文本生成的语言模型例如是N-gram模型,该N-gram模型可以使用对所述音频数据进行文本转录后的文本集合来构建。所述超参数优化处理例如是利用所述N-gram模型所执行的针对所述压缩的语音识别模型的错别字修正等超参数调整。
经过多次实施步骤S100至步骤S500的实验,该压缩的语音识别模型比所述教师模型的预测准确率更高,而模型大小和参数总量压缩至所述教师模型的18%左右。
需要说明的是,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
相应地,本发明还公开了一个或多个存储计算机可执行指令的计算机可读介质,所述指令在由一个或多个计算机设备使用时使得一个或多个计算机设备执行如前文所述的构建压缩的语音识别模型的方法,例如图1示出的构建压缩的语音识别模型的方法。所述计算机可读介质可以是可由计算机设备访问的任何可用介质,且包括用任何方法和技术实现的用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的易失性和非易失性介质、可移动和不可移动介质。计算机可读介质包括但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光存储、盒式磁带、磁带、磁盘存储或其它磁存储设备,或者可用于存储所需信息并且可由计算设备访问的任何其它介质。上述的任意组合也应包含在计算机可读介质的范围内。
本发明提供的构建压缩的语音识别模型的方法中涉及软件逻辑的部分可以使用可编程逻辑器件来实现,也可以实施为计算机程序产品,该程序产品使计算机执行用于所示范的方法。所述计算机程序产品包括计算机可读存储介质,该介质上包含计算机程序逻辑或代码部分,用于实现上述涉及软件逻辑的部分的各个步骤。所述计算机可读存储介质可以是被安装在计算机中的内置介质或者可从计算机主体拆卸的可移动介质(例如可热拔插的存储设备)。所述内置介质包括但不限于可重写的非易失性存储器,例如RAM、ROM和硬盘。所述可移动介质包括但不限于:光存储媒体(例如CD-ROM和DVD)、磁光存储媒体(例如MO)、磁存储媒体(例如磁带或移动硬盘)、具有内置的可重写的非易失性存储器的媒体(例如存储卡)和具有内置ROM的媒体(例如ROM盒)。
本领域技术人员应当理解,任何具有适当编程装置的计算机系统都能够执行包含在计算机程序产品中的本发明的方法的诸步骤。尽管本说明书中描述的多数具体实施方式都侧重于软件程序,但是以硬件方式实现本发明提供的方法的替代实施例同样在本发明要求保护的范围之内。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,在权利要求的等同要件的含义和范围内的所有变化均涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他部件、单元或步骤,单数不排除复数。权利要求中陈述的多个部件、单元或装置也可以由一个部件、单元或装置通过软件或者硬件来实现。
本发明提供的构建压缩的语音识别模型的方法使用了教师模型输出的软化概率分布向量作为训练学生模型的监督信号,实现学生模型的压缩和训练加速,结合对训练后的学生模型进行的进一步压缩处理和超参数优化处理,可获得压缩的语音识别模型,相比复杂度较高的教师模型,所述压缩的语音识别模型训练和运行所需的计算资源更小,便于在低成本的硬件环境中进行部署。
以上所披露的仅为本发明的一些较佳实施例,不能以此来限定本发明之权利范围,依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (7)
1.一种构建压缩的语音识别模型的方法,该方法包括:
采集音频数据;
提供经过训练的教师模型,将所述音频数据输入至所述教师模型,获得所述教师模型针对所述音频数据输出的软化概率分布向量;
提供经过初始化的学生模型,将所述音频数据作为输入,以及将所述软化概率分布向量作为监督信号,训练所述学生模型;
对训练后的学生模型进行压缩处理;
利用根据所述音频数据对应的转录文本生成的语言模型对压缩处理后的学生模型进行超参数优化处理,以获得压缩的语音识别模型。
2.根据权利要求1所述的构建压缩的语音识别模型的方法,其中,所述软化概率分布向量是:
根据所述教师模型针对所述音频数据的预测输出结果,在特定温度参数值下通过所述教师模型的softmax函数输出的软目标。
3.根据权利要求1所述的构建压缩的语音识别模型的方法,其中,所述对训练后的学生模型进行压缩处理的步骤包括:
对所述训练后的学生模型执行核稀疏化处理。
4.根据权利要求3所述的构建压缩的语音识别模型的方法,其中,所述对训练后的学生模型进行压缩处理的步骤还包括:
对所述训练后的学生模型执行模型剪枝处理。
5.根据权利要求4所述的构建压缩的语音识别模型的方法,其中,所述对训练后的学生模型进行压缩处理的步骤还包括:
对所述训练后的学生模型执行矩阵量化处理。
6.根据权利要求1所述的构建压缩的语音识别模型的方法,其中:
所述语言模型是N-gram模型。
7.一个或多个存储计算机可执行指令的计算机可读介质,所述指令在由一个或多个计算机设备使用时使得一个或多个计算机设备执行如权利要求1至6任一项所述的构建压缩的语音识别模型的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010414344.2A CN111627428B (zh) | 2020-05-15 | 2020-05-15 | 构建压缩的语音识别模型的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010414344.2A CN111627428B (zh) | 2020-05-15 | 2020-05-15 | 构建压缩的语音识别模型的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111627428A CN111627428A (zh) | 2020-09-04 |
CN111627428B true CN111627428B (zh) | 2023-11-14 |
Family
ID=72271897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010414344.2A Active CN111627428B (zh) | 2020-05-15 | 2020-05-15 | 构建压缩的语音识别模型的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111627428B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112687290B (zh) * | 2020-12-30 | 2022-09-20 | 同济大学 | 一种经过压缩的咳嗽自动检测方法及嵌入式设备 |
CN112786028B (zh) * | 2021-02-07 | 2024-03-26 | 百果园技术(新加坡)有限公司 | 声学模型处理方法、装置、设备和可读存储介质 |
US11200497B1 (en) * | 2021-03-16 | 2021-12-14 | Moffett Technologies Co., Limited | System and method for knowledge-preserving neural network pruning |
CN113314107B (zh) * | 2021-05-28 | 2022-10-21 | 思必驰科技股份有限公司 | 训练语音增广模型的方法和装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108389576A (zh) * | 2018-01-10 | 2018-08-10 | 苏州思必驰信息科技有限公司 | 压缩后的语音识别模型的优化方法及系统 |
CN108630190A (zh) * | 2018-05-18 | 2018-10-09 | 百度在线网络技术(北京)有限公司 | 用于生成语音合成模型的方法和装置 |
CN109243428A (zh) * | 2018-10-15 | 2019-01-18 | 百度在线网络技术(北京)有限公司 | 一种建立语音识别模型的方法、语音识别方法及系统 |
CN109448706A (zh) * | 2018-12-12 | 2019-03-08 | 苏州思必驰信息科技有限公司 | 神经网络语言模型压缩方法及系统 |
CN109637546A (zh) * | 2018-12-29 | 2019-04-16 | 苏州思必驰信息科技有限公司 | 知识蒸馏方法和装置 |
CN110473549A (zh) * | 2019-08-21 | 2019-11-19 | 北京智合大方科技有限公司 | 一种语音对话分析系统、方法及存储介质 |
CN110705907A (zh) * | 2019-10-16 | 2020-01-17 | 江苏网进科技股份有限公司 | 一种基于音频语音处理技术的课堂教学辅助督导方法及系统 |
CN110827801A (zh) * | 2020-01-09 | 2020-02-21 | 成都无糖信息技术有限公司 | 一种基于人工智能的自动语音识别方法及系统 |
CN111126079A (zh) * | 2019-11-25 | 2020-05-08 | 北京小米智能科技有限公司 | 用于机器翻译的神经网络模型压缩方法、装置及存储介质 |
CN111145729A (zh) * | 2019-12-23 | 2020-05-12 | 厦门快商通科技股份有限公司 | 语音识别模型训练方法、系统、移动终端及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102570278B1 (ko) * | 2017-07-31 | 2023-08-24 | 삼성전자주식회사 | 교사 모델로부터 학생 모델을 트레이닝하는데 사용되는 학습 데이터를 생성하는 장치 및 방법 |
US10699697B2 (en) * | 2018-03-29 | 2020-06-30 | Tencent Technology (Shenzhen) Company Limited | Knowledge transfer in permutation invariant training for single-channel multi-talker speech recognition |
-
2020
- 2020-05-15 CN CN202010414344.2A patent/CN111627428B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108389576A (zh) * | 2018-01-10 | 2018-08-10 | 苏州思必驰信息科技有限公司 | 压缩后的语音识别模型的优化方法及系统 |
CN108630190A (zh) * | 2018-05-18 | 2018-10-09 | 百度在线网络技术(北京)有限公司 | 用于生成语音合成模型的方法和装置 |
CN109243428A (zh) * | 2018-10-15 | 2019-01-18 | 百度在线网络技术(北京)有限公司 | 一种建立语音识别模型的方法、语音识别方法及系统 |
CN109448706A (zh) * | 2018-12-12 | 2019-03-08 | 苏州思必驰信息科技有限公司 | 神经网络语言模型压缩方法及系统 |
CN109637546A (zh) * | 2018-12-29 | 2019-04-16 | 苏州思必驰信息科技有限公司 | 知识蒸馏方法和装置 |
CN110473549A (zh) * | 2019-08-21 | 2019-11-19 | 北京智合大方科技有限公司 | 一种语音对话分析系统、方法及存储介质 |
CN110705907A (zh) * | 2019-10-16 | 2020-01-17 | 江苏网进科技股份有限公司 | 一种基于音频语音处理技术的课堂教学辅助督导方法及系统 |
CN111126079A (zh) * | 2019-11-25 | 2020-05-08 | 北京小米智能科技有限公司 | 用于机器翻译的神经网络模型压缩方法、装置及存储介质 |
CN111145729A (zh) * | 2019-12-23 | 2020-05-12 | 厦门快商通科技股份有限公司 | 语音识别模型训练方法、系统、移动终端及存储介质 |
CN110827801A (zh) * | 2020-01-09 | 2020-02-21 | 成都无糖信息技术有限公司 | 一种基于人工智能的自动语音识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
舒真瀚 等.基于知识蒸馏的中文自动语音识别的建模方法.现代计算机.2020,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111627428A (zh) | 2020-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111627428B (zh) | 构建压缩的语音识别模型的方法 | |
US10741170B2 (en) | Speech recognition method and apparatus | |
US11410029B2 (en) | Soft label generation for knowledge distillation | |
CN110210032B (zh) | 文本处理方法及装置 | |
US7292976B1 (en) | Active learning process for spoken dialog systems | |
JP7070653B2 (ja) | 学習装置、音声認識順位推定装置、それらの方法、およびプログラム | |
CN115064155A (zh) | 一种基于知识蒸馏的端到端语音识别增量学习方法及系统 | |
CN114021524A (zh) | 一种情感识别方法、装置、设备及可读存储介质 | |
CN114022192A (zh) | 一种基于智能营销场景的数据建模方法及系统 | |
CN113408704A (zh) | 数据处理方法、装置、设备及计算机可读存储介质 | |
CN111627427B (zh) | 特定领域的语音识别模型的构建方法 | |
CN110808036B (zh) | 一种增量式语音命令词识别方法 | |
JP2022042467A (ja) | 人工ニューラルネットワークモデル学習方法およびシステム | |
CN111986653A (zh) | 一种语音意图识别方法、装置及设备 | |
En-Naimani et al. | Hybrid system of optimal self organizing maps and hidden Markov model for Arabic digits recognition | |
CN112633516B (zh) | 性能预测和机器学习编译优化方法及装置 | |
CN114783424A (zh) | 文本语料筛选方法、装置、设备及存储介质 | |
CN110413779B (zh) | 一种针对电力行业的词向量训练方法及其系统、介质 | |
CN111797984A (zh) | 一种用于多任务神经网络的量化和硬件加速方法及装置 | |
CN111666755A (zh) | 一种复述句识别的方法及装置 | |
CN112446206A (zh) | 一种菜谱标题的生成方法及装置 | |
CN117251574B (zh) | 一种基于多特征数据融合的文本分类提取方法及系统 | |
CN114818644B (zh) | 文本模板生成方法、装置、设备及存储介质 | |
CN116910227A (zh) | 标注样本筛选方法、装置、设备及可读存储介质 | |
EP4068279B1 (en) | Method and system for performing domain adaptation of end-to-end automatic speech recognition model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |