CN105161092A - 一种语音识别方法和装置 - Google Patents

一种语音识别方法和装置 Download PDF

Info

Publication number
CN105161092A
CN105161092A CN201510595577.6A CN201510595577A CN105161092A CN 105161092 A CN105161092 A CN 105161092A CN 201510595577 A CN201510595577 A CN 201510595577A CN 105161092 A CN105161092 A CN 105161092A
Authority
CN
China
Prior art keywords
acoustic
likelihood value
acoustic model
modeling unit
multiple dissimilar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510595577.6A
Other languages
English (en)
Other versions
CN105161092B (zh
Inventor
贺利强
钱胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510595577.6A priority Critical patent/CN105161092B/zh
Publication of CN105161092A publication Critical patent/CN105161092A/zh
Application granted granted Critical
Publication of CN105161092B publication Critical patent/CN105161092B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种语音识别方法和装置。所述方法包括:对输入语音进行声学特征提取,并根据所述提取的声学特征分别计算多个不同类型的声学模型中各声学建模单元的似然值;将所述多个不同类型的声学模型中各声学建模单元的似然值进行融合处理;根据融合处理结果获取所述输入语音的识别结果。所述装置包括:似然值计算模块,用于对输入语音进行声学特征提取,并根据所述提取的声学特征分别计算多个不同类型的声学模型中各声学建模单元的似然值;融合处理模块,用于将所述多个不同类型的声学模型中各声学建模单元的似然值进行融合处理;识别模块,用于根据融合处理结果获取所述输入语音的识别结果,增强了语音识别的鲁棒性,提高了识别准确度。

Description

一种语音识别方法和装置
技术领域
本发明实施例涉及语音识别技术领域,尤其涉及一种语音识别方法和装置。
背景技术
语音识别技术已逐渐普及到我们熟知的各个领域中,语音识别服务支持的场景也伴随着用户需求的增加而逐步增多,比如普通话语音识别、英文语音识别、粤语语音识别和四川话语音识别等。
基于统计的声学模型在选定的实际产品方向中的建模能力非常强,比如普通话语音识别方向、英文语音识别方向和各个方言语音识别方向等。每个产品方向的声学模型可以通过累积语音数据,来进一步提高声学模型的建模能力。但是,实际的语音识别服务场景可能无法有效区分用户的语音内容,从而无法有效的把用户的语音识别请求定位到对应的声学模型上进行语音识别,比如对于普通话的语音识别服务,可能会有说粤语的用户对其进行语音识别请求,或者还可能会有带粤语口音的用户对其进行语音识别请求等。这时普通话的语音识别服务可能无法有效区分上述用户的语音内容,导致语音识别准确率的急剧下降或者识别结果完全不对,给用户的语音识别服务体验带来挫败感。
现有技术中的语音识别服务在处理用户的语音识别请求时,一般都使用单个声学模型,且通常会有如下三种处理方式:
1、专注于特定产品方向的语音识别请求,通过识别结果引导或者在客户端提示用户使用产品方向的语音来获得更好的用户体验。该方式专注于特定产品方向的语音识别请求,一旦用户的语音识别请求和声学模型不匹配,那么用户体验无法保证。例如普通话的语音识别服务只能提供用户的普通话语音识别请求,而无法满足四川话语音识别请求。
2、部分或者全面覆盖用户可能使用的产品方向的语音,该方法通过增加声学模型训练在多个产品方向的语音数据,提高声学模型的产品覆盖能力。该方式会降低声学层面建模单元的区分度,进而导致各个产品方向识别率的普遍降低。
3、为不同产品方向的用户语音识别请求分别提供独立的语音识别服务,将用户的语音识别请求尽可能定位到对应声学模型的语音识别服务中。该方式从产品的角度无法保证将用户的语音识别请求都准确定位到各自对应声学模型的语音识别服务上,而且用户说话方式的多样性也给语音识别服务对应的声学模型带来更多需要解决的问题,例如普通话的语音识别服务在响应用户带粤语口音的普通话语音识别请求时,识别率会显著下降。
发明内容
本发明提供一种语音识别方法和装置,以实现改善用户的语音识别请求的识别性能,提高语音识别准确率,提升用户体验。
第一方面,本发明实施例提供了一种语音识别方法,包括:
对输入语音进行声学特征提取,并根据所述提取的声学特征分别计算多个不同类型的声学模型中各声学建模单元的似然值;
将所述多个不同类型的声学模型中各声学建模单元的似然值进行融合处理;
根据融合处理结果获取所述输入语音的识别结果。
第二方面,本发明实施例还提供了一种语音识别装置,包括:
似然值计算模块,用于对输入语音进行声学特征提取,并根据所述提取的声学特征分别计算多个不同类型的声学模型中各声学建模单元的似然值;
融合处理模块,用于将所述多个不同类型的声学模型中各声学建模单元的似然值进行融合处理;
识别模块,用于根据融合处理结果获取所述输入语音的识别结果。
本发明通过对输入语音进行声学特征提取,并根据所述提取的声学特征分别计算多个不同类型的声学模型中各声学建模单元的似然值,然后将所述多个不同类型的声学模型中各声学建模单元的似然值进行融合处理,并根据融合处理结果获取所述输入语音的识别结果,相比于现有技术,本发明采用多声学模型的融合处理方案,充分利用多个不同类型的声学模型在各自方向上的建模能力,显著改善了用户语音识别请求与声学模型不匹配的问题,增强了语音识别的鲁棒性,识别准确度高,提升了用户体验。
附图说明
图1为本发明实施例一提供的一种语音识别方法的流程图;
图2为本发明实施例一提供的一种声学模型融合示意图;
图3为本发明实施例二提供的一种语音识别方法的流程示意图;
图4为本发明实施例三提供的一种语音识别方法的流程示意图;
图5为本发明实施例三提供的一种声学建模单元的似然值融合示意图;
图6为本发明实施例四提供的一种语音识别装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种语音识别方法的流程图,该方法主要通过计算机设备中的语音识别装置来执行,所述计算机设备包括但不限于以下中的至少一个:用户设备和网络设备。用户设备包括但不限于计算机、智能手机和平板电脑等。网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或由大量计算机或网络服务器构成的云。具体的所述语音识别装置可以通过语音解码器的方式实现。如图1所示,所述语音合成方法具体包括如下操作:
S110、对输入语音进行声学特征提取,并根据所述提取的声学特征分别计算多个不同类型的声学模型中各声学建模单元的似然值;
在该步骤之前,还可以先对输入语音进行前端处理,所述前端处理包括消除噪声、端点检测和语音增强等,使处理后的语音更能反映语音的本质特征。在对输入语音进行前端处理后,再进行声学特征提取。声学特征提取是将输入语音进行语音信息参数化,转换成机器可以识别处理的语音特征矢量。所述声学特征例如包括时域、频域和倒谱域特征等。时域特征主要反应短时平均能量、基调周期、共振峰等,频域特征主要反应傅里叶频谱特征,倒谱域特征主要基于线性预测编码倒谱的LPCC特征等。提取声学特征后,根据所述提取的声学特征分别计算多个不同类型的声学模型中各声学模型建模单元的似然值,其中,所述声学建模单元是,具体的,HMM(HiddenMarkovModel)声学模型中三因子模型所属的每个状态,或者,DNN(DeepNeuralNetworks)声学模型中的每个输出状态。其中,所述声学建模单元的似然值是,所述提取的声学特征在声学建模单元上计算得到的状态输出概率。
S120、将所述多个不同类型的声学模型中各声学建模单元的似然值进行融合处理;
操作S110针对每个声学模型均可以得到对应的一套声学建模单元的似然值。操作S120将操作S110获得的各声学模型中声学建模单元的似然值进行融合处理,即融合为一套声学建模单元的似然值。图2为本发明实施例一提供的一种声学模型融合示意图,图2示例性的,选择2个声学模型,通过两套声学模型计算得到两套似然值得分;两套似然值得分通过融合处理,得到一套似然值得分,供后续语音识别使用。需要说明的是,在其他实施方式中,还可以根据实际应用场景,个性化设置声学模型的数量。
S130、根据融合处理结果获取所述输入语音的识别结果。
融合处理后的声学建模单元似然值,能够充分反映多个不同类型的声学模型的建模性能,因此,根据所述融合处理结果获取的输入语音的识别结果,能够保证匹配的声学模型的建模能力得到充分发挥,且可适用于不同用户的语音识别请求,用户输入的语音可以对应多个不同类型的声学模型。
本实施例的技术方案,采用多个不同类型的声学模型的融合处理方案,充分利用多个不同类型的声学模型在各自方向上的建模能力,显著改善了用户语音识别请求与声学模型不匹配的问题,增强了语音识别的鲁棒性,识别准确度高,提升了用户体验。
在上述技术方案的基础上,可选的,所述多个不同类型的声学模型包括朗读语音声学模型和自然语音声学模型。朗读语音和自然语音是两种不同的语音风格。例如提供文供用户朗读,则为朗读语音,根据用户朗读的语音训练的声学模型为朗读语音声学模型。用户自然聊天的语音为自然语音,根据用户自然聊天的语音训练的声学模型为自然语音声学模型。现有技术中一般可以分别通过朗读语音声学模型和自然语音声学模型匹配朗读语音识别请求和自然语音识别请求。但每种类型的声学模型仅能有效匹配一种类型的语音识别请求。例如朗读语音声学模型在匹配自然语音识别请求时,识别准确率会显著降低。本发明实施例通过将输入语音,在朗读语音声学模型和自然语音声学模型上各声学建模单元计算得到的似然值进行融合处理,在保证朗读语音识别性能的基础上,同时显著提升自然语音识别的准确率,充分利用朗读语音声学模型和自然语音声学模型的建模能力,提高了用户不同类型的语音识别请求的准确率,提升了用户体验。
在上述实施例的基础上,可选的,所述多个声学模型的类型不同包括:所述多个声学模型的语种类型不同和/或方言类型不同。本发明实施例通过设置多个不同语种类型和/或不同方言类型的声学模型,并通过将所述多个声学模型中各声学建模单元的似然值进行融合处理,因此可以同时满足用户不同语种类型和/或不同方言类型的语音识别请求。举例而言,当多个声学模型包括英语声学模型和四川话声学模型时,若输入语音为带有四川口音的英语时,本实施例也能够根据所述输入语音获得准确的识别结果。
实施例二
图3为本发明实施例二提供的一种语音识别方法的流程示意图。如图3所示,所述方法具体包括:
S210、对输入语音进行声学特征提取,并根据所述提取的声学特征分别计算多个不同类型的声学模型中各声学建模单元的似然值;
S220、根据多个不同类型的声学模型的似然值融合权重系数,对所述多个不同类型的声学模型中各声学建模单元的似然值进行加权求和;
其中,多个不同类型的声学模型的似然值融合权重系数可以是预设值,根据多个不同类型的声学模型的似然值融合权重系数,对所述多个不同类型的声
学模型中各声学建模单元的似然值进行加权求和可以通过下列公式获得:
P ( k ) = Σ i = 1 N ω i * P i ( k )
其中,0≤ωi≤1;且N为声学模型的数量,且N为大于或者等于2的正整数;1≤i≤N;k为大于或者等于1的正整数;Pi(k)为第i个声学模型中第k个声学建模单元的似然值;ωi为第i个声学模型的似然值融合权重系数;P(k)为N个声学模型的第k个声学建模单元的似然值融合值。将所述多个不同类型的声学模型中各声学建模单元的似然值通过上述公式进行融合处理,从而获得一套似然值。
例如,共有两个声学模型,分别为朗读语音声学模型A和自然语音声学模型B。朗读语音声学模型A和自然语音声学模型B的似然值融合权重系数分别为ωA和ωB那么第k个声学建模单元的似然值融合值P(k)=ωA*PA(k)+ωB*PB(k)。
S230、根据融合处理结果获取所述输入语音的识别结果。
根据上述融合后的似然值对所述输入语音进行识别解析,从而获得所述输入语音的识别结果。
本发明实施例通过采用多个不同类型的声学模型的融合处理方案,利用声学模型似然值融合函数以及声学模型的似然值融合权重系数对多个声学模型中各声学建模单元的似然值进行融合处理,充分利用多个不同类型的声学模型在各自方向上的建模能力,显著改善了用户语音识别请求与声学模型不匹配的问题,增强了语音识别的鲁棒性,识别准确度高,提升了用户体验。
在上述实施例的基础上,根据多个不同类型的声学模型的似然值融合权重系数,对所述多个不同类型的声学模型中各声学建模单元的似然值进行加权求和之前,优选的,对所述多个不同类型的声学模型中各声学建模单元的似然值进行排序,以及对多个不同类型的声学模型的似然值融合权重系数进行排序,相应的,操作S220根据多个不同类型的声学模型的似然值融合权重系数,对所述多个不同类型的声学模型中各声学建模单元的似然值进行加权求和,包括:
根据多个不同类型的声学模型中各声学建模单元的似然值排序结果,以及多个不同类型的声学模型的似然值融合权重系数排序结果,对所述多个不同类型的声学模型中各声学建模单元的似然值进行加权求和。
举例而言,共有3个声学模型,分别为声学模型C、D和E。声学模型C、D和E的似然值融合权重系数分别为ωC,ωD,ωE。声学模型C、D和E的第k个声学建模单元的似然值分别为PC(k),PD(k),PE(k)。多个不同类型的声学模型中各声学建模单元的似然值排序结果为PC(k)>PE(k)>PD(k),多个不同类型的声学模型的似然值融合权重系数排序结果为ωD>ωE>ωC。那么第k个声学建模单元的似然值融合值P(k)=ωD*PC(k)+ωE*PE(k)+ωC*PD(k)。这种算法的优势在于,可以根据输入语音实时调整不同声学模型的声学建模单元所对应的加权系数,进一步增强了语音识别的鲁棒性,提高识别准确度。
需要说明的是,所述多个不同类型的声学模型的似然值融合权重系数可以根据实际应用场景预先设定,优选的,在设定多个不同类型的声学模型的似然值融合权重系数后,还可以根据实验数据进行调整。举例而言,当包括第一声学模型和第二声学模型时,根据先验知识预设第一声学模型的似然值融合权重系数为0.8,第二声学模型的似然值融合权重系数为0.2,可以直接根据上述预设值继续后续的似然值融合,还可以在上述预设值的基础上通过实验数据结果进行调整,例如,采集大量符合第一声学模型和第二声学模型的语音数据,输入预先设定的第一声学模型的似然值融合权重系数0.8,第二声学模型的似然值融合权重系数0.2,最终调节获得第一声学模型的似然值融合权重系数为0.7,第二声学模型的似然值融合权重系数为0.3,然后采用第一声学模型的似然值融合权重系数0.7,第二声学模型的似然值融合权重系数0.3进行后续的似然值融合。
实施例三
图4为本发明实施例三提供的一种语音识别方法的流程示意图,本实施例在上述实施例二的基础上,优选的,当第i个声学模型的第k个声学建模单元的似然值大于其他声学模型的第k个声学建模单元的似然值的连续帧数T大于预设帧数X时,在根据多个不同类型的声学模型的似然值融合权重系数,对所述多个不同类型的声学模型中各声学建模单元的似然值进行加权求和之前,还包括:对所述多个不同类型的声学模型的似然值融合权重系数进行后向掩蔽处理,其中X为大于或者等于2的正整数,T为大于X的正整数。相应的,根据多个不同类型的声学模型的似然值融合权重系数,对所述多个不同类型的声学模型中各声学建模单元的似然值进行加权求和,包括:根据后向掩蔽处理结果对所述多个不同类型的声学模型中各声学建模单元的似然值进行加权求和。如图4所述,所述语音合成方法包括:
S310、对输入语音进行声学特征提取,并根据所述提取的声学特征分别计算多个不同类型的声学模型中各声学建模单元的似然值;
S320、对多个不同类型的声学模型的似然值融合权重系数进行后向掩蔽处理;
输入语音在进行分帧操作后,每一帧语音数据经过声学特征提取,会生成一帧特征,称之为一个特征向量或特征矢量。实施例二中预先设定所述多个不同类型的声学模型的似然值融合权重系数,也就是声学模型中的声学建模单元的似然值融合权重系数不会随着时间变化。但所述声学建模单元在不同帧的似然值是波动的。因此在多个不同类型的声学模型的似然值融合时,采用不随着时间变化的声学模型中的声学建模单元的似然值融合权重系数,容易导致融合之后的似然值出现明显的跳变,进而使语音识别性能表现出不稳定的趋势。若第i个声学模型的第k个声学建模单元的似然值连续X帧大于其他声学模型的第k个声学建模单元的似然值,那么说明第i个声学模型的第k个声学建模单元的似然值具有占优的历史信息,会对当前似然值融合的方式产生后向掩蔽效应。因此本发明实施例在当第i个声学模型的第k个声学建模单元的似然值大于其他声学模型的第k个声学建模单元的似然值的连续帧数T大于预设帧数X时,在根据多个不同类型的声学模型的似然值融合权重系数,对所述多个不同类型的声学模型中各声学建模单元的似然值进行加权求和之前,对所述多个不同类型的声学模型的似然值融合权重系数进行后向掩蔽处理,以解决融合之后的似然值出现明显的跳变的问题。
需要说明的是,上述预设帧数X为大于或者等于2的正整数,具体的可根据实际情况区别设置。
S330、根据后向掩蔽处理结果对所述多个不同类型的声学模型中各声学建模单元的似然值进行加权求和;
S340、根据融合处理结果获取所述输入语音的识别结果。
本发明实施例通过在将所述多个不同类型的声学模型中各声学建模单元的似然值进行融合处理之前,对所述多个不同类型的声学模型的似然值融合权重系数进行后向掩蔽处理,解决了融合之后的似然值出现明显的跳变的问题,避免语音识别性能表现出不稳定的趋势。
在上述实施例的基础上,可选的,对所述多个不同类型的声学模型的似然值融合权重系数进行后向掩蔽处理,包括:
当第i个声学模型的第k个声学建模单元的似然值大于其他声学模型的第k个声学建模单元的似然值的连续帧数T大于预设帧数X时,在连续T帧后的Y帧内增大所述第i个声学模型的似然值融合权重系数,其中Y为大于或者等于1的正整数。
图5为本发明实施例三提供的单个声学建模单元的似然值融合示意图。其中,横坐标表示时间以帧为单位,纵坐标表示声学建模单元的似然值。如图5所示,在7-15帧内,第一声学模型的该声学建模单元的似然值持续大于第二声学模型的该声学建模单元的似然值,持续时间T为9帧(如图5中虚线框L1所示)。本发明实施例示例性的设置X等于4。因此,第一声学模型的该声学建模单元的似然值大于第二声学模型的该声学建模单元的似然值的持续时间T大于预设帧数X,满足后向掩蔽处理的触发条件。因此在连续T帧后的Y帧(示例性的设置Y等于3)内增加所述第一声学模型的似然值融合权重系数,即在17-19帧内增加第一声学模型的似然值融合权重系数(如图5中虚线框L2所示)。需要说明的是,所述增加第一声学模型的似然值融合权重系数,例如可以只在整个Y帧时间内增加一次,还可以是周期性的等差增加或等比增加,相应的减小其他声学模型的该声学建模单元的似然值融合权重系数,但多个声学模型的该声建模单元的似然值融合权重系数之和等于1。
需要说明的是,后向掩蔽处理的连续帧数Y可以是根据实际应用场景预先固定设定,优选的,后向掩蔽处理的连续帧数Y还可以根据连续帧数T调整,具体的,通过下列公式确定Y的值:
Y=int(α*T+0.5);
其中,int()表示取整,α为常数。
依然参见图5,其中T=9,示例性的设置α=0.3,那么Y=int(0.3×9+0.5)=3。
实施例四
本发明实施四提供了一种语音识别装置,图6为本发明实施例四提供的一种语音识别装置的结构示意图,如图6所示,所述装置包括:
似然值计算模块41,用于对输入语音进行声学特征提取,并根据所述提取的声学特征分别计算多个不同类型的声学模型中各声学建模单元的似然值;
融合处理模块42,用于将所述多个不同类型的声学模型中各声学建模单元的似然值进行融合处理;
识别模块43,用于根据融合处理结果获取所述输入语音的识别结果。
本发明实施例通过采用多个不同类型的声学模型的融合处理方案,充分利用多个不同类型的声学模型在各自方向上的建模能力,显著改善了用户语音识别请求与声学模型不匹配的问题,增强了语音识别的鲁棒性,识别准确度高,提升了用户体验。
在上述实施例的基础上,可选的所述多个不同类型的声学模型包括:朗读语音声学模型和自然语音声学模型。
进一步的,所述多个不同类型的声学模型的类型包括:多个声学模型的语种类型不同和/或方言类型不同。
在上述实施例的基础上,优选的,所述融合处理模块具体用于:根据多个不同类型的声学模型的似然值融合权重系数,对所述多个不同类型的声学模型中各声学建模单元的似然值进行加权求和。
在上述各实施例的基础上,可选的,所述融合处理模块具体用于:根据多个不同类型的声学模型中各声学建模单元的似然值排序结果,以及多个不同类型的声学模型的似然值融合权重系数排序结果,对所述多个不同类型的声学模型中各声学建模单元的似然值进行加权求和。
在上述各实施例的基础上,可选的,所述装置还包括:后向掩蔽处理模块,用于当第i个声学模型的第k个声学建模单元的似然值大于其他声学模型的第k个声学建模单元的似然值的连续帧数T大于预设帧数X时,在根据多个不同类型的声学模型的似然值融合权重系数,对所述多个不同类型的声学模型中各声学建模单元的似然值进行加权求和之前,对所述多个不同类型的声学模型的似然值融合权重系数进行后向掩蔽处理;其中X为大于或者等于2的正整数,T为大于X的正整数;
相应的,所述融合处理模块具体用于根据后向掩蔽处理结果对所述多个不同类型的声学模型中各声学建模单元的似然值进行加权求和。
优选的,所述后向掩蔽处理模块具体用于:当第i个声学模型的第k个声学建模单元的似然值大于其他声学模型的第k个声学建模单元的似然值的连续帧数T大于预设帧数X时,在连续T帧后的Y帧内增加所述第i个声学模型的似然值融合权重系数,其中Y为大于或者等于1的正整数。
在上述实施例的基础上,优选的,根据以下公式确定Y的值:
Y=int(α*T+0.5);
其中,int()表示取整,α为常数。
上述语音识别装置可执行本发明任意实施例所提供的语音识别方法,具备执行方法相应的功能模块和有益效果。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (14)

1.一种语音识别方法,其特征在于,包括:
对输入语音进行声学特征提取,并根据所述提取的声学特征分别计算多个不同类型的声学模型中各声学建模单元的似然值;
将所述多个不同类型的声学模型中各声学建模单元的似然值进行融合处理;
根据融合处理结果获取所述输入语音的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述多个不同类型的声学模型包括:朗读语音声学模型和自然语音声学模型。
3.根据权利要求1或2所述的方法,其特征在于,所述多个不同类型的声学模型包括:多个声学模型的语种类型不同和/或方言类型不同。
4.根据权利要求1所述的方法,其特征在于,将所述多个不同类型的声学模型中各声学建模单元的似然值进行融合处理,包括:
根据多个不同类型的声学模型的似然值融合权重系数,对所述多个不同类型的声学模型中各声学建模单元的似然值进行加权求和。
5.根据权利要求4所述的方法,其特征在于,根据多个不同类型的声学模型的似然值融合权重系数,对所述多个不同类型的声学模型中各声学建模单元的似然值进行加权求和,包括:
根据多个不同类型的声学模型中各声学建模单元的似然值排序结果,以及多个不同类型的声学模型的似然值融合权重系数排序结果,对所述多个不同类型的声学模型中各声学建模单元的似然值进行加权求和。
6.根据权利要求4或5所述的方法,其特征在于,当第i个声学模型的第k个声学建模单元的似然值大于其他声学模型的第k个声学建模单元的似然值的连续帧数T大于预设帧数X时,在根据多个不同类型的声学模型的似然值融合权重系数,对所述多个不同类型的声学模型中各声学建模单元的似然值进行加权求和之前,还包括:
对所述多个不同类型的声学模型的似然值融合权重系数进行后向掩蔽处理;其中,i和k为正整数,X为大于或者等于2的正整数,T为大于X的正整数;
根据多个不同类型的声学模型的似然值融合权重系数,对所述多个不同类型的声学模型中各声学建模单元的似然值进行加权求和,包括:
根据后向掩蔽处理结果对所述多个不同类型的声学模型中各声学建模单元的似然值进行加权求和。
7.根据权利要求6所述的方法,其特征在于,所述对所述多个不同类型的声学模型的似然值融合权重系数进行后向掩蔽处理,包括:
当第i个声学模型的第k个声学建模单元的似然值大于其他声学模型的第k个声学建模单元的似然值的连续帧数T大于预设帧数X时,在连续T帧后的Y帧内增加所述第i个声学模型的似然值融合权重系数,其中Y为大于或者等于1的正整数。
8.一种语音识别装置,其特征在于,包括:
似然值计算模块,用于对输入语音进行声学特征提取,并根据所述提取的声学特征分别计算多个不同类型的声学模型中各声学建模单元的似然值;
融合处理模块,用于将所述多个不同类型的声学模型中各声学建模单元的似然值进行融合处理;
识别模块,用于根据融合处理结果获取所述输入语音的识别结果。
9.根据权利要求8所述的装置,其特征在于,所述多个不同类型的声学模型包括:朗读语音声学模型和自然语音声学模型。
10.根据权利要求8或9所述的装置,其特征在于,所述多个不同类型的声学模型包括:多个声学模型的语种类型不同和/或方言类型不同。
11.根据权利要求8所述的装置,其特征在于,所述融合处理模块具体用于:根据多个不同类型的声学模型的似然值融合权重系数,对所述多个不同类型的声学模型中各声学建模单元的似然值进行加权求和。
12.根据权利要求11所述的装置,其特征在于,所述融合处理模块具体用于:根据多个不同类型的声学模型中各声学建模单元的似然值排序结果,以及多个不同类型的声学模型的似然值融合权重系数排序结果,对所述多个不同类型的声学模型中各声学建模单元的似然值进行加权求和。
13.根据权利要求11或12所述的装置,其特征在于,还包括:
后向掩蔽处理模块,用于当第i个声学模型的第k个声学建模单元的似然值大于其他声学模型的第k个声学建模单元的似然值的连续帧数T大于预设帧数X时,在根据多个不同类型的声学模型的似然值融合权重系数,对所述多个不同类型的声学模型中各声学建模单元的似然值进行加权求和之前,对所述多个不同类型的声学模型的似然值融合权重系数进行后向掩蔽处理;其中,i和k为正整数,X为大于或者等于2的正整数,T为大于X的正整数;
所述融合处理模块具体用于根据后向掩蔽处理结果对所述多个不同类型的声学模型中各声学建模单元的似然值进行加权求和。
14.根据权利要求13所述的装置,其特征在于,所述后向掩蔽处理模块具体用于:当第i个声学模型的第k个声学建模单元的似然值大于其他声学模型的第k个声学建模单元的似然值的连续帧数T大于X时,在连续T帧后的Y帧内增加所述第i个声学模型的似然值融合权重系数,其中Y为大于或者等于1的正整数。
CN201510595577.6A 2015-09-17 2015-09-17 一种语音识别方法和装置 Active CN105161092B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510595577.6A CN105161092B (zh) 2015-09-17 2015-09-17 一种语音识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510595577.6A CN105161092B (zh) 2015-09-17 2015-09-17 一种语音识别方法和装置

Publications (2)

Publication Number Publication Date
CN105161092A true CN105161092A (zh) 2015-12-16
CN105161092B CN105161092B (zh) 2017-03-01

Family

ID=54801925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510595577.6A Active CN105161092B (zh) 2015-09-17 2015-09-17 一种语音识别方法和装置

Country Status (1)

Country Link
CN (1) CN105161092B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107172784A (zh) * 2017-06-23 2017-09-15 中国地质大学(武汉) 一种基于舞台场景声音的自适应灯光控制方法和系统
WO2018014537A1 (zh) * 2016-07-22 2018-01-25 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN107910008A (zh) * 2017-11-13 2018-04-13 河海大学 一种用于个人设备的基于多声学模型的语音识别方法
CN107945805A (zh) * 2017-12-19 2018-04-20 程海波 一种智能化跨语言语音识别转化方法
CN109285551A (zh) * 2018-09-18 2019-01-29 上海海事大学 基于wmfcc和dnn的帕金森患者声纹识别方法
CN109559749A (zh) * 2018-12-24 2019-04-02 苏州思必驰信息科技有限公司 用于语音识别系统的联合解码方法及系统
WO2019109787A1 (zh) * 2017-12-05 2019-06-13 腾讯科技(深圳)有限公司 音频分类方法、装置、智能设备和存储介质
CN111627425A (zh) * 2019-02-12 2020-09-04 阿里巴巴集团控股有限公司 一种语音识别方法及系统
CN112750462A (zh) * 2020-08-07 2021-05-04 腾讯科技(深圳)有限公司 一种音频处理方法、装置及设备
CN113192491A (zh) * 2021-04-28 2021-07-30 平安科技(深圳)有限公司 声学模型生成方法、装置、计算机设备及存储介质
CN113327597A (zh) * 2021-06-23 2021-08-31 网易(杭州)网络有限公司 语音识别方法、介质、装置和计算设备
WO2023279691A1 (zh) * 2021-07-06 2023-01-12 上海商汤智能科技有限公司 语音分类方法、模型训练方法及装置、设备、介质和程序

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101447184A (zh) * 2007-11-28 2009-06-03 中国科学院声学研究所 基于音素混淆的中英文双语语音识别方法
CN101727901A (zh) * 2009-12-10 2010-06-09 清华大学 嵌入式系统的汉英双语语音识别方法
JP2011039434A (ja) * 2009-08-18 2011-02-24 Kddi Corp 音声認識装置およびその特徴量正規化方法
CN103632667A (zh) * 2013-11-25 2014-03-12 华为技术有限公司 声学模型优化方法、装置及语音唤醒方法、装置和终端
CN105009206A (zh) * 2013-03-06 2015-10-28 三菱电机株式会社 语音识别装置和语音识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101447184A (zh) * 2007-11-28 2009-06-03 中国科学院声学研究所 基于音素混淆的中英文双语语音识别方法
JP2011039434A (ja) * 2009-08-18 2011-02-24 Kddi Corp 音声認識装置およびその特徴量正規化方法
CN101727901A (zh) * 2009-12-10 2010-06-09 清华大学 嵌入式系统的汉英双语语音识别方法
CN105009206A (zh) * 2013-03-06 2015-10-28 三菱电机株式会社 语音识别装置和语音识别方法
CN103632667A (zh) * 2013-11-25 2014-03-12 华为技术有限公司 声学模型优化方法、装置及语音唤醒方法、装置和终端

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018014537A1 (zh) * 2016-07-22 2018-01-25 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN107172784B (zh) * 2017-06-23 2019-02-12 中国地质大学(武汉) 一种基于舞台场景声音的自适应灯光控制方法和系统
CN107172784A (zh) * 2017-06-23 2017-09-15 中国地质大学(武汉) 一种基于舞台场景声音的自适应灯光控制方法和系统
CN107910008B (zh) * 2017-11-13 2021-06-11 河海大学 一种用于个人设备的基于多声学模型的语音识别方法
CN107910008A (zh) * 2017-11-13 2018-04-13 河海大学 一种用于个人设备的基于多声学模型的语音识别方法
WO2019109787A1 (zh) * 2017-12-05 2019-06-13 腾讯科技(深圳)有限公司 音频分类方法、装置、智能设备和存储介质
CN107945805A (zh) * 2017-12-19 2018-04-20 程海波 一种智能化跨语言语音识别转化方法
CN109285551A (zh) * 2018-09-18 2019-01-29 上海海事大学 基于wmfcc和dnn的帕金森患者声纹识别方法
CN109559749A (zh) * 2018-12-24 2019-04-02 苏州思必驰信息科技有限公司 用于语音识别系统的联合解码方法及系统
CN109559749B (zh) * 2018-12-24 2021-06-18 思必驰科技股份有限公司 用于语音识别系统的联合解码方法及系统
CN111627425A (zh) * 2019-02-12 2020-09-04 阿里巴巴集团控股有限公司 一种语音识别方法及系统
CN111627425B (zh) * 2019-02-12 2023-11-28 阿里巴巴集团控股有限公司 一种语音识别方法及系统
CN112750462A (zh) * 2020-08-07 2021-05-04 腾讯科技(深圳)有限公司 一种音频处理方法、装置及设备
CN113192491A (zh) * 2021-04-28 2021-07-30 平安科技(深圳)有限公司 声学模型生成方法、装置、计算机设备及存储介质
CN113192491B (zh) * 2021-04-28 2024-05-03 平安科技(深圳)有限公司 声学模型生成方法、装置、计算机设备及存储介质
CN113327597A (zh) * 2021-06-23 2021-08-31 网易(杭州)网络有限公司 语音识别方法、介质、装置和计算设备
CN113327597B (zh) * 2021-06-23 2023-08-22 网易(杭州)网络有限公司 语音识别方法、介质、装置和计算设备
WO2023279691A1 (zh) * 2021-07-06 2023-01-12 上海商汤智能科技有限公司 语音分类方法、模型训练方法及装置、设备、介质和程序

Also Published As

Publication number Publication date
CN105161092B (zh) 2017-03-01

Similar Documents

Publication Publication Date Title
CN105161092A (zh) 一种语音识别方法和装置
Gelly et al. Optimization of RNN-based speech activity detection
CN108305616B (zh) 一种基于长短时特征提取的音频场景识别方法及装置
Takamichi et al. Postfilters to modify the modulation spectrum for statistical parametric speech synthesis
CN107146624B (zh) 一种说话人确认方法及装置
Zen et al. Statistical parametric speech synthesis using deep neural networks
CN107452379B (zh) 一种方言语言的识别方法及虚拟现实教学方法和系统
CN110246488B (zh) 半优化CycleGAN模型的语音转换方法及装置
CN110706692B (zh) 儿童语音识别模型的训练方法及系统
Xie et al. Sequence error (SE) minimization training of neural network for voice conversion.
Kinoshita et al. Text-informed speech enhancement with deep neural networks.
KR101664815B1 (ko) 스피치 모델 생성 방법
CN112489629A (zh) 语音转写模型、方法、介质及电子设备
Omar et al. Training Universal Background Models for Speaker Recognition.
Jindal et al. SpeechMix-Augmenting Deep Sound Recognition Using Hidden Space Interpolations.
CN103366737A (zh) 在自动语音识别中应用声调特征的装置和方法
CN101178895A (zh) 基于生成参数听感误差最小化的模型自适应方法
Hu et al. The USTC system for blizzard challenge 2017
Stanek et al. Algorithms for vowel recognition in fluent speech based on formant positions
JP2015175859A (ja) パターン認識装置、パターン認識方法及びパターン認識プログラム
Shah et al. Unsupervised Vocal Tract Length Warped Posterior Features for Non-Parallel Voice Conversion.
Zhao et al. Research on voice cloning with a few samples
Li et al. Speech intelligibility enhancement using non-parallel speaking style conversion with stargan and dynamic range compression
CN113889088B (zh) 训练语音识别模型的方法及装置、电子设备和存储介质
Wisesty et al. Feature extraction analysis on Indonesian speech recognition system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant