CN112992129A - 语音识别任务中的保持注意力机制单调性方法 - Google Patents

语音识别任务中的保持注意力机制单调性方法 Download PDF

Info

Publication number
CN112992129A
CN112992129A CN202110250627.2A CN202110250627A CN112992129A CN 112992129 A CN112992129 A CN 112992129A CN 202110250627 A CN202110250627 A CN 202110250627A CN 112992129 A CN112992129 A CN 112992129A
Authority
CN
China
Prior art keywords
attention mechanism
monotonicity
loss
calculation
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110250627.2A
Other languages
English (en)
Other versions
CN112992129B (zh
Inventor
杨周旺
杜叶倩
王昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202110250627.2A priority Critical patent/CN112992129B/zh
Publication of CN112992129A publication Critical patent/CN112992129A/zh
Application granted granted Critical
Publication of CN112992129B publication Critical patent/CN112992129B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种语音识别任务中的保持注意力机制单调性方法,包括:通过神经网络模块,学习能够拟合注意力机制权重分布的高斯分布的参数,并进行数值计算,使之符合设定要求;将数值计算得到的参数值与注意力机制权重矩阵之间的均方误差作为单调性损失,并将所述单调性损失作为原本优化目标的正则项,得到最终的优化目标;基于所述最终的优化目标对语音识别框架进行训练。上述方法使得模型在训练和测试过程中都能保持良好的语音和文本的对齐关系,从而避免解码过长或重复解码的问题,提升模型稳定性,减少预测错误,尤其是插入错误。此外,该方法简单易实施,参数量小,只少量增加计算量。

Description

语音识别任务中的保持注意力机制单调性方法
技术领域
本发明涉及深度学习与人工智能技术领域,尤其涉及一种语音识别任务中的保持注意力机制单调性方法。
背景技术
语音识别任务,是深度学习领域最重要,也是最常见的问题之一,目标是将语音识别为文本。用深度学习解决这类问题的一般方式为,构造一个端到端的神经网络模型,目前语音领域的主流方法为Encoder-Decoder框架结合注意力机制。虽然这类方法在多个数据集中均取得了良好的效果,然而基于注意力机制的自回归解码方式,由于更依赖上下文而非音频,因此容易产生解码过长或重复解码的问题,这一问题严重影响模型性能,是这类方法被诟病的重要原因之一。
这类错误在模型中体现为由Query、Key相乘得到的注意力机制的权重的交叉对齐或者重复对齐,因此保证注意力机制权重的单调对齐关系对于解决解码过长或重复解码至关重要。对于注意力机制单调对齐关系的研究,尤其是在以Transformer等可并行模型框架为基础模型的研究中,主要针对在线学习任务,这些方法是为了解决在线学习任务的训练过程与测试过程相匹配而设计的,但是按照这一思路做常规离线学习任务发现其性能不佳。
发明内容
本发明的目的是提供一种语音识别任务中的保持注意力机制单调性方法,通过正则化手段约束注意力机制权重的分布,使模型在训练和测试过程中都能保持良好的语音和文本的对齐关系,从而避免解码过长或重复解码的问题,提升模型稳定性。
本发明的目的是通过以下技术方案实现的:
一种语音识别任务中的保持注意力机制单调性方法,包括:
通过神经网络模块,学习能够拟合注意力机制权重分布的高斯分布的参数,并进行数值计算,使之符合设定要求;
将数值计算得到的参数值与注意力机制权重矩阵之间的均方误差作为单调性损失,并将所述单调性损失作为原本优化目标的正则项,得到最终的优化目标;
基于所述最终的优化目标对语音识别框架进行训练。
由上述本发明提供的技术方案可以看出,使得模型在训练和测试过程中都能保持良好的语音和文本的对齐关系,从而避免解码过长或重复解码的问题,提升模型稳定性,减少预测错误,尤其是插入错误。此外,该方法简单易实施,参数量小,只少量增加计算量。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种语音识别任务中的保持注意力机制单调性方法的流程图;
图2为本发明实施例提供的产生单调性损失的核心模型结构示意图;
图3为本发明实施例提供的单调性策略实验数据;
图4为本发明实施例提供的样例展示图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种语音识别任务中的保持注意力机制单调性方法,如图1所示,其主要包括如下步骤:
步骤1、通过神经网络模块,学习能够拟合注意力机制权重分布的高斯分布的参数,并进行数值计算,使之符合设定要求。
本发明实施例中,所述语音识别框架为语音识别领域一种主流的Encoder-Decoder+Attention的网络框架(包含注意力机制的编解码框架),如图2所示,通过神经网络模块,来学习能够拟合注意力机制权重分布的高斯分布的参数,连接编码器和解码器的注意力机制的三个输入Query(Q)、Key(K)、Value(V)分别来自解码器、编码器、编码器,经信息的提取与融合得到与Query同大小的输出。将解码器、编码器的序列长度分别记为I、J,特征维度均为d。
本发明实施例中,神经网络模块可以选择线性层来实现,如图2右侧部分所示,神经网络模块的输入为Query,记为
Figure BDA0002965906230000031
通过神经网络模块的映射操作(例如,将特征维度映射至1维),得到高斯分布的参数均值μ和方差σ的初步数值;其中,均值μ的映射权重Wμ与方差σ映射权重Wσ不共享,记为
Figure BDA0002965906230000032
本发明实施例中,需要对参数均值μ和方差σ的初步数值进行一定的数值计算,计算使之符合要求且在合理范围内。如图2所示,在进行数值计算时,对均值μ的初步数值进行截断使之非负,再做放缩使得求和等于语音序列长度,计算结果记为Δ;对方差σ进行截断使之在设定范围内(例如,控制在[0.5,5]区间内),计算结果记为Σ;计算过程表示为:
Δ,Σ=Cal(μ)(QWμ),Cal(σ)(QWσ)
其中,Wμ、Wσ各自表示神经网络模块中对于均值μ、方差σ的映射权重,Q为注意力机制中的Query;令QWμ,QWσ=X,则Cal(μ)(X)、Cal(σ)(X)的计算公式为:
Figure BDA0002965906230000033
Cal(σ)(X)=clamp(X,σminmax)
上式中,Xi为QWμ的第i行,inf表示无穷大,clamp(.)为区间限定函数,将括号中的三个数值对应的表示为(x,xmin,xmax),如果输入为矩阵则为每一个元素进行计算,表示为:
Figure BDA0002965906230000034
步骤2、将数值计算得到的参数值与注意力机制权重矩阵之间的均方误差作为单调性损失,并将所述单调性损失作为原本优化目标的正则项,得到最终的优化目标。
本发明实施例中,首先,由向量Δ与Σ对应的计算每个位置高斯分布参数的均值μi与σi,从而计算每个位置上的数值
Figure BDA0002965906230000041
然后,与注意力机制权重矩阵
Figure BDA0002965906230000042
相减,计算均方误差(MSE),计算过程表示为:
μi,σi=μi-1i,Σi
Figure BDA0002965906230000043
Figure BDA0002965906230000044
其中,i,j为位置索引,
Figure BDA0002965906230000045
表示均方误差。
前文中Xi的角标i与μii的角标i含义相同。
本发明实施例中,将单调性损失作为原本优化目标lossCE的正则项参与共同训练。首先,对于对解码器部分的N个layer和每个layer的H个head的单调性损失取平均,表示为:
Figure BDA0002965906230000046
然后,将lossmono作为原本优化目标lossCE的正则项,得到最终的优化目标loss:
loss=lossCE+λ*lossmono
其中,n=1,…,N,h=1,…,H;,
Figure BDA0002965906230000047
表示对第n个layer、第h个head的注意力机制执行前文的操作(即,计算相应的均方误差),λ为正则项系数,它是超参数,具体数值可根据情况自行设定。
本领域技术人员可以理解,解码器部分的N个layer、H个head均为模型结构中的专有名字,可以翻译为:解码器的N个层和每个层的H个“头”。具体来说,解码器有N个广义上的神经网络层;head与注意力机制相关,输入从特征维度上会分裂成H个head。
本发明实施例上述方案,通过正则化手段约束注意力机制权重的分布,具体来说,上述方案通过高斯分布来产生一个分布
Figure BDA0002965906230000048
语音识别框架中本身包含一个对应注意力机制权重分布a,产生的分布
Figure BDA0002965906230000049
可以通过学习趋近于分布a,其中强制约束的是中心位置单调递增;在本发明实施例中,将
Figure BDA00029659062300000410
与a之间的差距作为正则项(即辅助学习目标),就能帮助分布a也保持中心单调递增。
步骤3、基于所述最终的优化目标对语音识别框架进行训练。
本发明实施例中,在基础模型框架(即包含注意力机制的编解码框架)下加入了单调性策略,按照常规方式选定训练参数与策略,并将预先收集语音数据集作为训练数据,基于所述最终的优化目标对语音识别框架进行训练。
对于训练后的语音识别框架,使用新的语音数据样本进行测试,获得语音识别结果。
为了说明本发明实施例上述方案的效果,下面结合具体示例进行说明。
如图3所示,本示例中采用600小时左右的中文语音识别数据集进行训练,并分别在同源测试集和非同源测试集上进行测试,其中同源测试集表示与训练数据来源相同的数据集,非同源测试集表示与训练数据来源不同的数据集,测试集均为中文。此外,为了重点考察本发明所提出的方法对由于对齐问题导致的插入错误的降低情况,在基线中插入错误明显的非同源测试集样本被单独提取出来形成“插入错误”测试集。实验对比基线方法(baseline)和两种正则化系数10、100下的保持单调性的方法(mono 10、mono 100)。分别展示以词为单位的“替换”错误(Sub)、“删除”错误(Del)、“插入”错误(Ins)和准确率(Acc),指标间的关系为Acc=1-(Sub+Del+Ins)。实验结果显示,引入单调性方法后同源测试集上准确率有少量提升,非同源测试集上有较为明显提升,在“插入错误”测试集中对插入错误有明显降低,说明本发明中的方法在对齐问题不明显的情况下能保持原有性能,对明显的插入错误能一定程度降低,增强模型的稳定性和泛化性。
如图4所示,对于明显的由于对齐问题导致的循环解码的情况,本发明中的方法有明显的改善,且在正则化系数较小的情况下已有明显的减缓,当正则化系数较大时,几乎没有错误对齐的问题;其中,Mono_10、Mono_100分别表示正则化系数λ为10、100
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (6)

1.一种语音识别任务中的保持注意力机制单调性方法,其特征在于,包括:
通过神经网络模块,学习能够拟合注意力机制权重分布的高斯分布的参数,并进行数值计算,使之符合设定要求;
将数值计算得到的参数值与注意力机制权重矩阵之间的均方误差作为单调性损失,并将所述单调性损失作为原本优化目标的正则项,得到最终的优化目标;
基于所述最终的优化目标对语音识别框架进行训练。
2.根据权利要求1所述的一种语音识别任务中的保持注意力机制单调性方法,其特征在于,所述通过神经网络模块,学习能够拟合注意力机制权重分布的高斯分布的参数包括:
所述语音识别框架为包含注意力机制的编解码框架,连接编码器和解码器的注意力机制的三个输入Query、Key、Value分别来自解码器、编码器、编码器;
神经网络模块的输入为Query,通过神经网络模块的映射操作,得到高斯分布的参数均值μ和方差σ的初步数值;其中,均值μ的映射权重Wμ与方差σ映射权重Wσ不共享。
3.根据权利要求1或2所述的一种语音识别任务中的保持注意力机制单调性方法,其特征在于,通过神经网络模块,得到高斯分布的参数,即均值μ和方差σ的初步数值,在进行数值计算时,对均值μ的初步数值进行截断使之非负,再做放缩使得求和等于语音序列长度,计算结果记为Δ;对方差σ进行截断使之在设定范围内,计算结果记为∑;计算过程表示为:
Δ,∑=Cal(μ)(QWμ),Cal(σ)(QWσ)
其中,Wμ、Wσ各自表示神经网络模块中对于均值μ、方差σ的映射权重,Q为注意力机制中的Query;令QWμ,QWσ=X,则Cal(μ)(X)、Cal(σ)(X)的计算公式为:
Figure FDA0002965906220000011
Cal(σ)(X)=clamp(X,σmin,σmax)
上式中,Xi为QWμ的第i行,inf表示无穷大,J表示语音识别框架中编码器的序列长度,clamp(.)为区间限定函数,将括号中的三个数值对应的表示为(x,xmin,xmax),如果输入为矩阵则为每一个元素进行计算,表示为:
Figure FDA0002965906220000021
4.根据权利要求1或2所述的一种语音识别任务中的保持注意力机制单调性方法,其特征在于,计算参数值与注意力机制权重之间的均方误差的过程包括:
高斯分布的参数包含了均值μ和方差σ的初步数值,数值计算结果对应记为Δ,∑,由Δ与∑对应的计算每个位置高斯分布参数的均值μi与σi,从而计算每个位置上的数值
Figure FDA0002965906220000027
然后,与注意力机制权重矩阵a相减,计算均方误差,计算过程表示为:
μi,σi=μi-1i,∑i
Figure FDA0002965906220000022
Figure FDA0002965906220000023
其中,i,j为位置索引,I、J分别表示语音识别框架中解码器、编码器的序列长度,
Figure FDA0002965906220000024
表示均方误差。
5.根据权利要求1或2所述的一种语音识别任务中的保持注意力机制单调性方法,其特征在于,所述将所述单调性损失作为原本优化目标的正则项,得到最终的优化目标包括:
对于包含注意力机制的编解码框架,对解码器部分的N个layer和每个layer的H个head的单调性损失取平均,表示为:
Figure FDA0002965906220000025
将lossmono作为原本优化目标lossCE的正则项,得到最终的优化目标loss:
loss=lossCE+λ*lossmono
其中,λ为正则项系数,n=1,...,N,h=1,...,H,
Figure FDA0002965906220000026
表示对第n个layer、第h个head的注意力机制计算出的单调性损失。
6.根据权利要求1或2所述的一种语音识别任务中的保持注意力机制单调性方法,其特征在于,预先收集语音数据集作为训练数据,并基于所述最终的优化目标对语音识别框架进行训练;对于训练后的语音识别框架,使用新的语音数据样本进行测试,获得语音识别结果。
CN202110250627.2A 2021-03-08 2021-03-08 语音识别任务中的保持注意力机制单调性方法 Active CN112992129B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110250627.2A CN112992129B (zh) 2021-03-08 2021-03-08 语音识别任务中的保持注意力机制单调性方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110250627.2A CN112992129B (zh) 2021-03-08 2021-03-08 语音识别任务中的保持注意力机制单调性方法

Publications (2)

Publication Number Publication Date
CN112992129A true CN112992129A (zh) 2021-06-18
CN112992129B CN112992129B (zh) 2022-09-30

Family

ID=76335698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110250627.2A Active CN112992129B (zh) 2021-03-08 2021-03-08 语音识别任务中的保持注意力机制单调性方法

Country Status (1)

Country Link
CN (1) CN112992129B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113887721A (zh) * 2021-09-29 2022-01-04 中国科学技术大学 一种语音识别任务中的训练后量化压缩方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359723A (zh) * 2018-11-20 2019-02-19 北京科技大学 基于改进正则化极限学习机的转炉终点锰含量预测方法
CN110427989A (zh) * 2019-07-18 2019-11-08 北京大学 汉字骨架自动合成方法及大规模中文字库自动生成方法
CN110688860A (zh) * 2019-09-27 2020-01-14 电子科技大学 一种基于transformer多种注意力机制的权重分配方法
CN110717343A (zh) * 2019-09-27 2020-01-21 电子科技大学 一种基于transformer注意力机制输出的优化对齐方法
US20200066253A1 (en) * 2017-10-19 2020-02-27 Baidu Usa Llc Parallel neural text-to-speech
CN110875035A (zh) * 2019-10-24 2020-03-10 广州多益网络股份有限公司 新型多任务联合的语音识别训练架构和方法
US20200160836A1 (en) * 2018-11-21 2020-05-21 Google Llc Multi-dialect and multilingual speech recognition
CN111382582A (zh) * 2020-01-21 2020-07-07 沈阳雅译网络技术有限公司 一种基于非自回归的神经机器翻译解码加速方法
CN111860785A (zh) * 2020-07-24 2020-10-30 中山大学 基于注意力机制循环神经网络的时间序列预测方法及系统
US20210005183A1 (en) * 2019-07-03 2021-01-07 Qualcomm Incorporated Orthogonally constrained multi-head attention for speech tasks

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200066253A1 (en) * 2017-10-19 2020-02-27 Baidu Usa Llc Parallel neural text-to-speech
CN109359723A (zh) * 2018-11-20 2019-02-19 北京科技大学 基于改进正则化极限学习机的转炉终点锰含量预测方法
US20200160836A1 (en) * 2018-11-21 2020-05-21 Google Llc Multi-dialect and multilingual speech recognition
US20210005183A1 (en) * 2019-07-03 2021-01-07 Qualcomm Incorporated Orthogonally constrained multi-head attention for speech tasks
CN110427989A (zh) * 2019-07-18 2019-11-08 北京大学 汉字骨架自动合成方法及大规模中文字库自动生成方法
CN110688860A (zh) * 2019-09-27 2020-01-14 电子科技大学 一种基于transformer多种注意力机制的权重分配方法
CN110717343A (zh) * 2019-09-27 2020-01-21 电子科技大学 一种基于transformer注意力机制输出的优化对齐方法
CN110875035A (zh) * 2019-10-24 2020-03-10 广州多益网络股份有限公司 新型多任务联合的语音识别训练架构和方法
CN111382582A (zh) * 2020-01-21 2020-07-07 沈阳雅译网络技术有限公司 一种基于非自回归的神经机器翻译解码加速方法
CN111860785A (zh) * 2020-07-24 2020-10-30 中山大学 基于注意力机制循环神经网络的时间序列预测方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YAN LUO等: "《G-Softmax: Improving Intraclass Compactness》", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 *
侯俊峰: "《基于编码-解码模型的序列映射若干问题研究》", 《中国博士学位论文全文数据库》 *
刘柏基: "《基于注意力机制的端到端语音识别应用研究》", 《中国优秀硕士学位论文全文数据库》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113887721A (zh) * 2021-09-29 2022-01-04 中国科学技术大学 一种语音识别任务中的训练后量化压缩方法及系统
CN113887721B (zh) * 2021-09-29 2024-02-27 中国科学技术大学 一种语音识别任务中的训练后量化压缩方法及系统

Also Published As

Publication number Publication date
CN112992129B (zh) 2022-09-30

Similar Documents

Publication Publication Date Title
CN111477221B (zh) 采用双向时序卷积与自注意力机制网络的语音识别系统
CN112489635A (zh) 一种基于增强注意力机制的多模态情感识别方法
CN107608943A (zh) 融合视觉注意力和语义注意力的图像字幕生成方法及系统
US11527238B2 (en) Internal language model for E2E models
US11380315B2 (en) Characterizing accuracy of ensemble models for automatic speech recognition by determining a predetermined number of multiple ASR engines based on their historical performance
CN112992129B (zh) 语音识别任务中的保持注意力机制单调性方法
US7424423B2 (en) Method and apparatus for formant tracking using a residual model
Li et al. When speaker recognition meets noisy labels: Optimizations for front-ends and back-ends
US20080189109A1 (en) Segmentation posterior based boundary point determination
US20080147579A1 (en) Discriminative training using boosted lasso
CN113656542A (zh) 一种基于信息检索与排序的话术推荐方法
KR100915638B1 (ko) 고속 음성 인식 방법 및 시스템
Liu et al. Computation and Parameter Efficient Multi-Modal Fusion Transformer for Cued Speech Recognition
CN114333762B (zh) 基于表现力的语音合成方法、系统、电子设备及存储介质
Cui et al. Multi-view and multi-objective semi-supervised learning for large vocabulary continuous speech recognition
JP2001083986A (ja) 統計モデル作成方法
CN109427330B (zh) 一种基于统计语言模型得分规整的语音识别方法及系统
McClanahan et al. Reducing computation in an i-vector speaker recognition system using a tree-structured universal background model
CN112767914B (zh) 歌唱语音合成方法及合成设备、计算机存储介质
US11024315B2 (en) Characterizing accuracy of ensemble models for automatic speech recognition
Wei et al. Graph attention-based deep embedded clustering for speaker diarization
CN115376547B (zh) 发音评测方法、装置、计算机设备和存储介质
CN115687586A (zh) 一种面向对话目标的条件变分自编码器对话推荐方法及系统
Jia et al. Language model adaptation based on correction information for interactive speech transcription
CN116010595A (zh) 基于同构性和异质性动态信息交互的多模态情感分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant