CN105989839A - 语音识别方法和装置 - Google Patents

语音识别方法和装置 Download PDF

Info

Publication number
CN105989839A
CN105989839A CN201510298789.8A CN201510298789A CN105989839A CN 105989839 A CN105989839 A CN 105989839A CN 201510298789 A CN201510298789 A CN 201510298789A CN 105989839 A CN105989839 A CN 105989839A
Authority
CN
China
Prior art keywords
feature vector
speech
result
sub
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510298789.8A
Other languages
English (en)
Other versions
CN105989839B (zh
Inventor
王育军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Leshi Zhixin Electronic Technology Tianjin Co Ltd
Original Assignee
Leshi Zhixin Electronic Technology Tianjin Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Leshi Zhixin Electronic Technology Tianjin Co Ltd filed Critical Leshi Zhixin Electronic Technology Tianjin Co Ltd
Priority to CN201510298789.8A priority Critical patent/CN105989839B/zh
Publication of CN105989839A publication Critical patent/CN105989839A/zh
Application granted granted Critical
Publication of CN105989839B publication Critical patent/CN105989839B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种语音识别方法和装置,该方法和装置通过在语音信号中提取多个语音数据包,对每个语音数据包进行语音识别,并根据前一语音数据包的语速来生成后一语音数据包的语音识别过程所需提取语音特征向量的数量,无需获取完整的语音信号即可实现根据语音信号的语速变化来调整语音识别进程,使得语音识别效率和准确性均达到很高水准。

Description

语音识别方法和装置
技术领域
本发明实施例涉及语音信号处理技术领域,尤其涉及一种语音识别方法和装置。
背景技术
语音识别是语音信号处理技术领域中一个重要的研究方向,是将采集到的语音信号中反映说话人生理和行为特征的语音特征与已有声学模型做比对,从而得出语音内容的过程,随着当前电话语音、在线视频语音等语音产品的快速发展,语音识别的需求越来越多。
在进行语音识别的过程中,由于不同说话人的说话习惯不一样,说话速度也会有较大差异,而已有声学模型多是基于正常语速的自然语音产生的,在说话速度过快时,常会产生语音与声学模型的失配,导致语音识别准确率低。
现有技术中,一般采用如下方法来解决说话速度过快时,语音与声学模型易失配的问题,该方法具体包括如下步骤:
1、采集用户所说的全部语音信号。
2、语音信号的语速评估,分为后端评估和前端评估两个步骤,后端评估是指利用人工标注或者利用识别器对语音信号进行识别和标注,使用标注信息来计算语速,前端评估是指在信号层面,比如利用声学信号在时域上的能量包络的变化率,作为语速的参考值。
3、语音信号或声学模型的语速适应,也分为前端适应和后端适应两个步骤,在说话速度过快时,前端适应是指对语音信号进行拉伸以放慢语速,后端适应是指调整声学模型的结构或参数和调节识别参数来匹配说话速度。
4、完成语速适应后,对整句语音进行语音识别。
然而,在实现本发明过程中,该现有技术中至少存在如下问题:
由于在语音识别过程中需收集当前用户请求的全部语音信号并对全部语音信号进行语速评估和预设适应之后,才能进行语音识别,在全部语音信号的数据量较大时,使得语音识别前的处理周期较长,该处理周期所产生的系统延时甚至大于全部语音的时长,降低了语音识别的效率。
发明内容
本发明实施例提供一种语音识别方法和装置,用以解决现有技术中语音识别效率较低的技术问题。
本发明实施例提供一种语音识别方法,包括:
获取语音信号,在所述语音信号中提取多个语音数据包,所述多个语音数据包内包括在时间上连续的第一语音数据包和第二语音数据包;
从所述第一语音数据包中提取第一数量的第一语音特征向量;
根据各第一语音特征向量与预设的马尔科夫声学模型,确定所述第一语音数据包的第一语音语速;
根据所述第一语音语速与标准语音语速,确定第二数量;
从所述第二语音数据包提取第二数量的第二语音特征向量;
根据所述第二语音特征向量与预设马尔科夫声学模型,确定第二语音数据包的第二识别结果。
本发明实施例还提供一种语音识别装置,包括:该语音识别装置包括:
语音数据包提取模块,获取语音信号,在所述语音信号中提取多个语音数据包,所述多个语音数据包中包括在时间上连续的第一语音数据包和第二语音数据包;
第一特征向量提取模块,从所述第一语音数据包中提取第一数量的第一语音特征向量;
第一语音语速确定模块,根据各第一语音特征向量与预设的马尔科夫声学模型,确定所述第一语音数据包的第一语音语速;
第二数量确定模块,根据所述第一语音语速与标准语音语速,确定第二数量;
第二特征向量提取模块,从所述第二语音数据包提取第二数量的第二语音特征向量;
第二识别结果确定模块,根据所述第二语音特征向量与预设马尔科夫声学模型,确定第二语音数据包的第二识别结果。
本发明实施例所提供的语音识别方法和装置,通过在语音信号中提取多个语音数据包,对每个语音数据包分别进行语音识别,并根据前一语音数据包的语速来生成后一语音数据包的语音识别过程所需提取语音特征向量的数量,无需获取完整的语音信号即可实现根据语音信号的语速变化来调整语音识别进程,使得语音识别效率和准确性均达到很高水准。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中语音识别方法的过程;
图2为本发明实施例中语音识别方法内根据各第一语音特征向量与预设的马尔科夫声学模型,确定所述第一语音数据包的第一语音语速的具体过程;
图3为本发明实施例中语音识别方法内根据第一最优识别路径的跳转概率更新马尔科夫声学模型条状概率的具体过程;
图4为本发明实施例中语音识别装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术通过获取完整语音信号来进行语音识别的过程中,可能存在语音识别效率低的问题,本发明实施例提供一种解决前述问题的语音识别方法,以下结合附图详细描述本方法。
图1为本发明实施例中语音识别方法的过程,具体包括如下步骤。
S10、获取语音信号,在语音信号中提取多个语音数据包,前述多个语音数据包中包括在时间上连续的第一语音数据包和第二语音数据包。
由于所获取的语音信号为时域上连续的信号,以时间为基准,在该语音信号中提取多个语音数据包,并保证相邻的两个语音数据包在时间上连续。
本发明实施例中,每个语音数据包的时长设定为0.5秒,在获取语音信号的过程中,每隔0.5秒便生成一个语音数据包,通过对每个语音数据包进行语音识别并获得识别结果,后续将所有语音数据包的识别结果进行汇总,则能够得到语音信号的完整识别结果。
值得注意的是,第一语音数据包和第二语音数据包是泛指从语音信号中提取的在时间上连续的任意两个语音数据包,并非特指从语音信号中提取出的第一个和第二个语音数据包,在此不做赘述。
S20、从第一语音数据包中提取第一数量的第一语音特征向量。
本发明实施例中,在获取第一语音数据包后,通过傅里叶转换和采样处理将时域上连续的第一语音数据包转换为在频域上离散的、第一数量的第一语音特征向量。
前述第一语音特征向量可以是预设帧长的语音频谱信号,也可以是梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs)。
其中,通过傅里叶转换和采样处理来得到第一语音特征向量为业内常规手段,在此不做赘述。
S30、根据各第一语音特征向量与预设的马尔科夫声学模型,确定第一语音数据包的第一语音语速。
预设的马尔科夫声学模型通过大量的自然语音语料训练得到的统计模型,并根据目标区域的人种、发音习惯进行了调整,以确保后续语音识别的准确性。
通过将第一语音特征向量与马尔科夫声学模型作比对,得到第一语音数据包中各个第一语音特征向量的第一识别子结果。
将这些第一识别子结果进行对比,明确其中发生了多少次自跳和跳转,从而得到第一识别子结果中跳转概率,将跳转概率与第一语音数据包的时长做比对,则可得出第一语音语速。
S40、根据所述第一语音语速与标准语音语速,确定第二数量。
标准语音语速为预先设定,一般以普通自然人的常规语速做标准。
本发明实施例中,第一语音数据包和第二语音数据包的时长相同,前述第二数量为将第一语音语速和标准语音语速的比值与第一数量作乘积的结果。
以根据第一语音特征向量得到第一语音语速是标准语速的2倍为例,第二数量为第一数量的2倍,即在第二语音数据包中获取到的第二语音特征向量的数量是第一语音特征向量的数量2倍。
S50、从所述第二语音数据包提取第二数量的第二语音特征向量。
本发明实施例中,步骤S50可以通过如下步骤来实现:
获取相邻第一语音特征向量之间的第一帧移;
根据所述第二数量和第一数量调整所述第一帧移,得到第二帧移。
根据所述第二帧移,从所述第二语音数据包提取第二语音特征向量,以使得所述第二语音特征向量的数量为第二数量。
其中,第二帧移根据所述第二数量和第一数量的比值来缩小第一帧移得到。仍以根据第一语音特征向量得到第一语音语速是标准语速的2倍为例,第二数量为第一数量的2倍,则第二帧移为第一帧移的一半,通过缩小相邻第二语音特征向量之间的第二帧移,使得在时长相同的第二语音数据包中得到第二数量的第二语音特征向量。
以第一数量等于8为例,在第二数量与第一数量一样,即等于8时,在第二识别子结果中发生了3次自跳和5次跳转时,从而得到第二识别子结果的跳转概率为5/8;而第二数量为第一数量的两倍,即等于16时,由于同一语音数据包中跳转动作的数量总是确定的,则第二识别子结果中会发生了11次自跳和5次跳转,得到第二识别子结果的跳转概率为5/16。在第二语音数据包的时长确定时,则能实现根据第二语音特征向量得到第二语音数据包的第二语音语速修正为其真实语速的一半,即使得第二语音语速被修正为与标准语速相同。
通过第一语音语速来修正第二数量,在第二语音数据包的时长和语音数据一定时,使得每个第二语音特征向量的所含词素变少,使其接近标准语音语速,提高第二语音特征向量和马尔科夫声学模型比对得到识别结果的精度。
当然,在对第二语音数据包后的第三语音数据包进行识别时,根据第二数量所得到的第二语音语速来得到在第三语音数据包中提取的第三语音特征向量的数量。
以第二语音数据包的真实语速为标准语速的2倍为例,由于第二数量相对于第一数量翻倍,则根据第二数量得到的第二语速被修正为与标准语速相同,则第三数量为1*20=20;以第二语音数据包的真实语速为标准语速的4倍为例,则根据第二数量得到的第二语速被修正为是标准语速的2倍,则第三数量为2*20=40。
本发明的实施例中,还可对语音特征向量的数量设定上限,避免语音特征向量的数量不断膨胀,导致语音识别系统出现异常。
当然,本发明的其他实施例中,步骤S50还可以通过如下步骤来实现:
从所述第二语音数据包中提取第一数量的第二语音特征向量;
在相邻的第二语音特征向量之间插入特定数量的第二语音特征向量,将所述第二语音特征向量的数量调整为第二数量。
仍以根据第一语音特征向量得到第一语音语速是标准语速的2倍,且第一数量等于8为例,预先在第二语音数据包中提取8个第二语音特征向量,并在相邻的第二语音特征向量之间插入1个第二语音特征向量,使得得到16个第二语音特征向量。
通过前述方式来提高语音识别精确性的原理与前述实施例相同,在此不做赘述。
S60、根据第二语音特征向量与马尔科夫声学模型,确定第二语音数据包的第二识别结果。
当然,完整的语音信号还包括后续的其他语音数据包,均可通过本发明实施例所提供的方式来逐一得到其识别结果,后续将所有语音数据包的识别结果进行汇总,则能够得到语音信号的完整识别结果
本发明实施例所提供的语音识别方法,通过在语音信号中提取多个语音数据包,分别对每个语音数据包进行语音识别,并根据前一语音数据包的语速来生成后一语音数据包的语音识别过程所需提取语音特征向量的数量,无需获取完整的语音信号即可实现根据语音信号的语速变化来调整语音识别进程,使得语音识别效率和准确性均达到很高水准。
本发明实施例中,语音识别方法还包括:在有第一识别子结果为新词的首个词素时,在该第一识别子结果的参考概率值上更新预设的插入惩罚概率值,作为新的参考概率值。
通过马尔科夫声学模型来判断第一识别子结果为新词的首个词素为本领域普通技术人员所熟知的技术,在此不做赘述。
预设的插入惩罚概率值可根据需求设定,例如在噪声较大的环境,可提供为负值得预设的插入惩罚概率值,第一识别子结果的参考概率值加上负的插入惩罚概率值,使得识别出新词的概率降低,降低出现由于噪声所产生的新词的概率;而在噪声较小的环境,可提供为正值得预设的插入惩罚概率值,第一识别子结果的参考概率值加上正的插入惩罚概率值,使得识别出新词的概率增加。
通过设定插入惩罚概率值,降低环境噪声对语音识别的影响,提高语音识别的准确性。
参图2所示,本发明实施例中,步骤S30具体包括如下步骤。
S31、将各第一语音特征向量与马尔科夫声学模型做比对,得到每个第一语音特征向量的第一识别子结果和每个第一识别子结果的参考概率值。
在将各个第一语音特征向量与马尔科夫声学模型比对后,每个第一语音特征向量均能够得到至少一个可能的第一识别子结果,马尔科夫声学模型对于每个可能的第一识别子结果均贴有参考概率值,这些参考概率值用于体现马尔科夫声学模型所输出的第一识别子结果是真实识别结果的概率。
S32、获取各第一语音特征向量的第一识别子结果的数量上的收敛时刻,得到位于收敛时刻的第一语音特征向量,作为第一收敛特征向量。
仍以第一数量等于8为例,第一语音数据包被转换为8个第一语音特征向量;在将8个第一语音特征向量与马尔科夫声学模型比对后,得到每个第一语音特征向量的第一识别子结果的数量如表1所示,其中,随着第一语音特征向量序号的增加,第一语音特征向量在第一语音数据包的时刻越晚。
第一语音特征向量 1 2 3 4 5 6 7 8
第一识别子结果数量 5422 6750 7752 2210 3256 5460 1988 4352
表1
参表1,序号为4和7的第一语音特征向量在数量上收敛,序号为4和7的第一语音特征向量为第一收敛特征向量,其所在的时刻即为前述收敛时刻;位于第一收敛特征向量中第一识别子结果的数量小于前一、后一第一语音特征向量中第一识别子结果的数量。
其中,在第一数量较大时,可通过对第一识别子结果的数量所构成的数列进行多项式拟合,并对拟合后多项式进行求导,以求导后的波谷值所在时刻来得到前述收敛时刻。
本发明实施例中,在获取第一语音特征向量的第一识别子结果的数量上的收敛时刻之前,语音识别方法还包括:仅保留每个第一语音特征向量中参考概率值大于预设概率阈值的第一识别子结果。
通过预设概率阈值对第一语音特征中第一识别子结果的数量进行限缩,降低确定收敛时刻所需运算量,提高确定第一收敛特征向量的效率。
S33、获取最晚收敛时刻上的第一收敛特征向量中参考概率值最大的第一识别子结果。
仍参表1,序号为4和7上的第一收敛特征向量,最晚收敛时刻即为序号7所对应时刻,获得序号7上的第一收敛特征向量中1988个第一识别子结果中参考概率值最大的一个。
由于特征向量的识别精确度与识别子结果的数量相关,识别子结果的数量越少,则特征向量的识别精确度越高;显然可得,相对于其他序号上的语音特征向量的识别子结果,序号为4和7上第一收敛特征向量中参考概率值最大的第一识别子结果的识别精确度更高。
最晚收敛时刻上的第一收敛特征向量,相对于其他第一收敛特征向量更接近第二语音数据包,基于最晚收敛时刻上的第一收敛特征向量得到的第一语音语速与第二语音数据包的第二语音语速更接近。
S34、根据马尔科夫声学模型对参考概率值最大的第一识别子结果做回溯,得到第一最优识别路径。
本发明实施例中,以参考概率值最大的第一识别子结果为基准,根据马尔科夫声学模型得到跳转至该第一识别子结果的参考概率值最大的前一第一语音特征向量的第一识别子结果。
仍然以参考概率值最大的第一识别子结果为基准,根据马尔科夫声学模型得到该第一识别子结果跳转的参考概率值最大的后一第一语音特征向量的第一识别子结果。
重复前述操作,直到已经得到所有第一语音特征向量的第一识别子结果,再将得到的所有第一语音特征向量的第一识别子结果做汇总,作为第一最优识别路径,该第一最优识别路径中每个第一语音特征向量仅有一个第一识别子结果。
S35、获取第一最优识别路径的跳转概率。
S36、根据第一最优识别路径的跳转概率和第一语音数据包的时长得到第一语音语速。
本发明实施例中,第一最优识别路径包括8个第一识别子结果,若通过比对第一识别子结果发现其中发生了2次跳转,6次自跳,则可出跳转概率为25%,而第一语音数据包的时长为0.5S,基于该跳转概率和时长则可得出第一语音语速。
参图3所示,本发明实施例中,步骤S60之前,语音识别方法还包括如下步骤。
S71、获取第一最优识别路径中的跳转概率;
S72、以第一最优识别路径中的跳转概率作为马尔科夫声学模型的跳转概率。
由于第一最优识别路径中跳转概率与第二语音数据包中跳转概率接近,通过跳转概率作为马尔科夫声学模型的跳转概率,使得马尔科夫声学模型与第二语音数据包的跳转概率更接近,而跳转概率体现了语速水平,使得第二语音数据包和马尔科夫声学模型的语速更接近,从而提高语音识别的精确性。
S73、根据预设S型曲线函数对马尔科夫声学模型的跳转概率进行修正。
通过预设S型曲线函数能够对更新后马尔科夫声学模型的跳转概率进行修正,避免该马尔科夫声学模型的跳转概率出现极值,导致跳转异常。
图4为本发明实施例提供的语音识别装置的机构示意图,本发明实施例所提供的语音识别装置基于以上语音识别方法,故该装置的具体细节可参照以上识别方法,本文不再予以赘述。
前述语音识别装置,用于解决现有技术中语音识别效率较低的技术问题,具体包括:
语音数据包提取模块10,获取语音信号,在语音信号中提取多个语音数据包,多个语音数据包包括在时间上连续的第一语音数据包和第二语音数据包;
第一特征向量提取模块20,从第一语音数据包中提取第一数量的第一语音特征向量;
第一语音语速确定模块30,根据各第一语音特征向量与预设的马尔科夫声学模型,确定第一语音数据包的第一语音语速;
第二数量确定模块40,根据所述第一语音语速与标准语音语速,确定第二数量;
第二特征向量提取模块50,从所述第二语音数据包提取第二数量的第二语音特征向量;
第二识别结果确定模块60,根据第二语音特征向量与预设马尔科夫声学模型,确定第二语音数据包的第二识别结果。
本发明实施例提供的语音识别装置,通过在语音信号中提取多个语音数据包,对每个语音数据包分别进行语音识别,并根据前一语音数据包的语速来生成后一语音数据包的语音识别过程所需提取语音特征向量的数量,无需获取完整的语音信号即可实现根据语音信号的语速变化来调整语音识别进程,使得语音识别效率和准确性均达到很高水准。
本发明实施例中可以通过硬件处理器(hardware processor)来实现上述相关功能模块。
本发明实施例中,第一语音语速确定模块30具体用于:
将各第一语音特征向量与预设马尔科夫声学模型做比对,得到每个第一语音特征向量的第一识别子结果和每个第一识别子结果的参考概率值;
获取各第一语音特征向量的第一识别子结果的数量上的收敛时刻,得到位于收敛时刻的第一语音特征向量,作为第一收敛特征向量;
获取最晚收敛时刻上的第一收敛特征向量中参考概率值最大的第一识别子结果;
根据马尔科夫声学模型对参考概率值最大的第一识别子结果做回溯,得到第一最优识别路径;
获取第一最优识别路径的跳转概率;
根据第一最优识别路径的跳转概率和第一语音数据包的时长得到第一语音语速。
本发明实施例中,第一收敛特征向量中第一识别子结果的数量小于前一、后一第一语音特征向量中第一识别子结果的数量。
本发明实施例中,语音识别装置还包括:
第一子结果过滤模块,仅保留每个第一语音特征向量中参考概率值大于预设概率阈值的第一识别子结果。
本发明实施例中,第二数量确定模块40具体用于:
将第一语音语速和标准语音语速的比值与所述第一数量作乘积的结果,作为第二数量。
本发明实施例中,第二特征向量提取模块50具体用于:
根据所述第二数量和第一数量调整所述第一帧移,得到第二帧移;
根据所述第二帧移,从所述第二语音数据包提取第二语音特征向量,以使得所述第二语音特征向量的数量为第二数量。
本发明实施例中,第二特征向量提取模块50具体用于:
从所述第二语音数据包中提取第一数量的第二语音特征向量;
在相邻的第二语音特征向量之间插入特定数量的第二语音特征向量,将所述第二语音特征向量的数量调整为第二数量。
本发明实施例中,语音识别装置还包括模型跳转概率更新模块,具体用于:
获取第一最优识别路径中的跳转概率;
以第一最优识别路径中的跳转概率作为马尔科夫声学模型的跳转概率。
本发明实施例中,模型跳转概率更新模块还用于:根据预设S型曲线函数对马尔科夫声学模型的跳转概率进行修正。
本发明实施例中,语音识别装置还包括插入惩罚模块,具体用于:
在有第一识别子结果为新词的首个词素时,在该第一识别子结果的参考概率值上更新预设插入惩罚概率值,作为新的参考概率值。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (17)

1.一种语音识别方法,其特征在于,包括:
获取语音信号,在所述语音信号中提取多个语音数据包,所述多个语音数据包内包括在时间上连续的第一语音数据包和第二语音数据包;
从所述第一语音数据包中提取第一数量的第一语音特征向量;
根据各第一语音特征向量与预设的马尔科夫声学模型,确定所述第一语音数据包的第一语音语速;
根据所述第一语音语速与标准语音语速,确定第二数量;
从所述第二语音数据包提取第二数量的第二语音特征向量;
根据所述第二语音特征向量与预设马尔科夫声学模型,确定第二语音数据包的第二识别结果。
2.根据权利要求1所述的语音识别方法,其特征在于,根据各第一语音特征向量与预设的马尔科夫声学模型,确定所述第一语音数据包的第一语音语速,具体包括:
将各第一语音特征向量与预设马尔科夫声学模型做比对,得到每个第一语音特征向量的第一识别子结果和每个第一识别子结果的参考概率值;
获取各第一语音特征向量的第一识别子结果的数量上的收敛时刻,得到位于所述收敛时刻的第一语音特征向量,作为第一收敛特征向量;
获取最晚收敛时刻上的第一收敛特征向量中参考概率值最大的第一识别子结果;
根据马尔科夫声学模型对所述参考概率值最大的第一识别子结果做回溯,得到第一最优识别路径;
获取所述第一最优识别路径的跳转概率;
根据所述第一最优识别路径的跳转概率和所述第一语音数据包的时长得到第一语音语速。
3.根据权利要求2所述的语音识别方法,其特征在于,所述第一收敛特征向量中第一识别子结果的数量小于前一、后一第一语音特征向量中第一识别子结果的数量。
4.根据权利要求3所述的语音识别方法,其特征在于,获取所述第一语音特征向量的第一识别子结果的数量上的收敛时刻之前,所述语音识别方法还包括:
仅保留每个第一语音特征向量中参考概率值大于预设概率阈值的第一识别子结果。
5.根据权利要求2述的语音识别方法,其特征在于,根据马尔科夫声学模型对所述参考概率值最大的第一识别子结果做回溯,得到第一最优识别路径,具体包括:
以所述参考概率值最大的第一识别子结果为基准,根据马尔科夫声学模型得到跳转至所述第一识别子结果的参考概率值最大的前一第一语音特征向量的第一识别子结果;
以第一识别子结果为基准,根据马尔科夫声学模型得到所述第一识别子结果跳转的参考概率值最大的后一第一语音特征向量的第一识别子结果;
判断是否已经得到所有第一语音特征向量的第一识别子结果;
将得到所有第一语音特征向量的第一识别子结果做汇总,作为第一最优识别路径。
6.根据权利要求1所述的语音识别方法,其特征在于,根据所述第一语音语速与标准语音语速,确定第二数量,具体包括:
将第一语音语速和标准语音语速的比值与所述第一数量作乘积的结果,作为第二数量。
7.根据权利要求1所述的语音识别方法,其特征在于,从所述第二语音数据包提取第二数量的第二语音特征向量,具体包括:
获取相邻第一语音特征向量之间的第一帧移;
根据所述第二数量和第一数量调整所述第一帧移,得到第二帧移;
根据所述第二帧移,从所述第二语音数据包提取第二语音特征向量,以使得所述第二语音特征向量的数量为第二数量。
8.根据权利要求1所述的语音识别方法,其特征在于,从所述第二语音数据包提取第二数量的第二语音特征向量,具体包括:
从所述第二语音数据包中提取第一数量的第二语音特征向量;
在相邻的第二语音特征向量之间提取特定数量的第二语音特征向量,将所述第二语音特征向量的数量调整为第二数量。
9.根据权利要求1所述的语音识别方法,其特征在于,将所述第二语音特征向量与预设马尔科夫声学模型做比对,得到第二语音数据包的第二识别结果之前,所述语音识别方法还包括:
获取所述第一最优识别路径中的跳转概率;
以所述第一最优识别路径中的跳转概率作为马尔科夫声学模型的跳转概率。
10.根据权利要求9所述的语音识别方法,其特征在于,根据所述第一最优识别路径中第一识别子结果的跳转概率来调整马尔科夫声学模型的跳转概率之后,所述语音识别方法还包括:
根据预设S型曲线函数对所述马尔科夫声学模型的跳转概率进行修正。
11.根据权利要求1所述的语音识别方法,其特征在于,所述语音识别方法还包括:
在有第一识别子结果为新词的首个词素时,在所述第一识别子结果的参考概率值上更新预设的插入惩罚概率值,作为新的参考概率值。
12.一种语音识别装置,其特征在于,所述语音识别装置包括:
语音数据包提取模块,获取语音信号,在所述语音信号中提取多个语音数据包,所述多个语音数据包中包括在时间上连续的第一语音数据包和第二语音数据包;
第一特征向量提取模块,从所述第一语音数据包中提取第一数量的第一语音特征向量;
第一语音语速确定模块,根据各第一语音特征向量与预设的马尔科夫声学模型,确定所述第一语音数据包的第一语音语速;
调速参数确定模块,根据所述第一语音语速与标准语音语速,确定调速参数;
第二特征向量提取模块,根据所述调速参数,从所述第二语音数据包提取第二语音特征向量;
第二识别结果确定模块,根据所述第二语音特征向量与预设马尔科夫声学模型,确定第二语音数据包的第二识别结果。
13.根据权利要求12所述的语音识别装置,其特征在于,第一语音语速确定模块具体用于:
将各第一语音特征向量与预设马尔科夫声学模型做比对,得到每个第一语音特征向量的第一识别子结果和每个第一识别子结果的参考概率值;
获取各第一语音特征向量的第一识别子结果的数量上的收敛时刻,得到位于所述收敛时刻的第一语音特征向量,作为第一收敛特征向量;
获取最晚收敛时刻上的第一收敛特征向量中参考概率值最大的第一识别子结果;
根据马尔科夫声学模型对所述参考概率值最大的第一识别子结果做回溯,得到第一最优识别路径;
获取所述第一最优识别路径的跳转概率;
根据所述第一最优识别路径的跳转概率和所述第一语音数据包的时长得到第一语音语速。
14.根据权利要求12所述的语音识别装置,其特征在于,第二数量确定模块具体用于:
将第一语音语速和标准语音语速的比值与所述第一数量作乘积的结果,作为第二数量。
15.根据权利要求12所述的语音识别装置,其特征在于,第二特征向量提取模块具体用于:
根据所述第二数量和第一数量调整所述第一帧移,得到第二帧移;
根据所述第二帧移,从所述第二语音数据包提取第二语音特征向量,以使得所述第二语音特征向量的数量为第二数量。
16.根据权利要求12所述的语音识别装置,其特征在于,第二特征向量提取模块具体用于:
从所述第二语音数据包中提取第一数量的第二语音特征向量;
在相邻的第二语音特征向量之间插入特定数量的第二语音特征向量,将所述第二语音特征向量的数量调整为第二数量。
17.根据权利要求12所述的语音识别装置,其特征在于,语音识别装置还包括插入惩罚模块,具体用于:
在有第一识别子结果为新词的首个词素时,在所述第一识别子结果的参考概率值上更新预设的插入惩罚概率值,作为新的参考概率值。
CN201510298789.8A 2015-06-03 2015-06-03 语音识别方法和装置 Active CN105989839B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510298789.8A CN105989839B (zh) 2015-06-03 2015-06-03 语音识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510298789.8A CN105989839B (zh) 2015-06-03 2015-06-03 语音识别方法和装置

Publications (2)

Publication Number Publication Date
CN105989839A true CN105989839A (zh) 2016-10-05
CN105989839B CN105989839B (zh) 2019-12-13

Family

ID=57040280

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510298789.8A Active CN105989839B (zh) 2015-06-03 2015-06-03 语音识别方法和装置

Country Status (1)

Country Link
CN (1) CN105989839B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106328126A (zh) * 2016-10-20 2017-01-11 北京云知声信息技术有限公司 远场语音识别处理方法及装置
CN109036404A (zh) * 2018-07-18 2018-12-18 北京小米移动软件有限公司 语音交互方法及装置
WO2019019667A1 (zh) * 2017-07-28 2019-01-31 深圳光启合众科技有限公司 语音处理方法及装置、存储介质及处理器
CN110148401A (zh) * 2019-07-02 2019-08-20 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN110852247A (zh) * 2019-11-07 2020-02-28 北京云迹科技有限公司 异常检测方法、装置、电子设备及计算机可读存储介质
CN112599148A (zh) * 2020-12-31 2021-04-02 北京声智科技有限公司 一种语音识别方法及装置
CN115223553A (zh) * 2022-03-11 2022-10-21 广州汽车集团股份有限公司 语音识别方法和驾驶辅助系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1294377A (zh) * 1999-10-29 2001-05-09 松下电器产业株式会社 对输入语音进行语音识别的音程标准化装置
US20060178879A1 (en) * 1999-04-20 2006-08-10 Hy Murveit Adaptive multi-pass speech recognition system
CN101826263A (zh) * 2009-03-04 2010-09-08 中国科学院自动化研究所 基于客观标准的自动化口语评估系统
CN102013253A (zh) * 2009-09-07 2011-04-13 株式会社东芝 基于语音单元语速的差异的语音识别方法及语音识别系统
CN102377736A (zh) * 2010-08-12 2012-03-14 杭州华三通信技术有限公司 一种基于语音识别的认证方法和设备
CN103928023A (zh) * 2014-04-29 2014-07-16 广东外语外贸大学 一种语音评分方法及系统
CN104050965A (zh) * 2013-09-02 2014-09-17 广东外语外贸大学 具有情感识别功能的英语语音发音质量评价系统及方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060178879A1 (en) * 1999-04-20 2006-08-10 Hy Murveit Adaptive multi-pass speech recognition system
CN1294377A (zh) * 1999-10-29 2001-05-09 松下电器产业株式会社 对输入语音进行语音识别的音程标准化装置
CN101826263A (zh) * 2009-03-04 2010-09-08 中国科学院自动化研究所 基于客观标准的自动化口语评估系统
CN102013253A (zh) * 2009-09-07 2011-04-13 株式会社东芝 基于语音单元语速的差异的语音识别方法及语音识别系统
CN102377736A (zh) * 2010-08-12 2012-03-14 杭州华三通信技术有限公司 一种基于语音识别的认证方法和设备
CN104050965A (zh) * 2013-09-02 2014-09-17 广东外语外贸大学 具有情感识别功能的英语语音发音质量评价系统及方法
CN103928023A (zh) * 2014-04-29 2014-07-16 广东外语外贸大学 一种语音评分方法及系统

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106328126A (zh) * 2016-10-20 2017-01-11 北京云知声信息技术有限公司 远场语音识别处理方法及装置
WO2019019667A1 (zh) * 2017-07-28 2019-01-31 深圳光启合众科技有限公司 语音处理方法及装置、存储介质及处理器
CN109036404A (zh) * 2018-07-18 2018-12-18 北京小米移动软件有限公司 语音交互方法及装置
CN110148401A (zh) * 2019-07-02 2019-08-20 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN110288999A (zh) * 2019-07-02 2019-09-27 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN110288999B (zh) * 2019-07-02 2020-12-11 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN110148401B (zh) * 2019-07-02 2023-12-15 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN110852247A (zh) * 2019-11-07 2020-02-28 北京云迹科技有限公司 异常检测方法、装置、电子设备及计算机可读存储介质
CN112599148A (zh) * 2020-12-31 2021-04-02 北京声智科技有限公司 一种语音识别方法及装置
CN115223553A (zh) * 2022-03-11 2022-10-21 广州汽车集团股份有限公司 语音识别方法和驾驶辅助系统
CN115223553B (zh) * 2022-03-11 2023-11-17 广州汽车集团股份有限公司 语音识别方法和驾驶辅助系统

Also Published As

Publication number Publication date
CN105989839B (zh) 2019-12-13

Similar Documents

Publication Publication Date Title
CN105989839A (zh) 语音识别方法和装置
CN108305643B (zh) 情感信息的确定方法和装置
CN108305641B (zh) 情感信息的确定方法和装置
CN111916058B (zh) 一种基于增量词图重打分的语音识别方法及系统
CN108305642B (zh) 情感信息的确定方法和装置
US10460034B2 (en) Intention inference system and intention inference method
CN105869629B (zh) 语音识别方法及装置
EP4018437B1 (en) Optimizing a keyword spotting system
CN105304080A (zh) 语音合成装置及方法
CN109817198A (zh) 用于语音合成的多发音训练方法、语音合成方法与装置
CN106803422A (zh) 一种基于长短时记忆网络的语言模型重估方法
CN111883137B (zh) 基于语音识别的文本处理方法及装置
CN110033756A (zh) 语种识别方法、装置、电子设备及存储介质
CN112581938B (zh) 基于人工智能的语音断点检测方法、装置和设备
CN110459202A (zh) 一种韵律标注方法、装置、设备、介质
CN114627863A (zh) 一种基于人工智能的语音识别方法和装置
CN113823323A (zh) 一种基于卷积神经网络的音频处理方法、装置及相关设备
CN106297765A (zh) 语音合成方法及系统
CN110349567B (zh) 语音信号的识别方法和装置、存储介质及电子装置
CN110223674A (zh) 语音语料训练方法、装置、计算机设备和存储介质
CN110708619B (zh) 一种智能设备的词向量训练方法及装置
CN112863464A (zh) 一种基于音频交互的钢琴陪练方法及系统
CN109979422B (zh) 基频处理方法、装置、设备及计算机可读存储介质
CN116229987B (zh) 一种校园语音识别的方法、装置及存储介质
Baker et al. Improved phonetic and lexical speaker recognition through MAP adaptation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Room 301-1, Room 301-3, Area B2, Animation Building, No. 126 Animation Road, Zhongxin Eco-city, Tianjin Binhai New Area, Tianjin

Applicant after: LE SHI ZHI XIN ELECTRONIC TECHNOLOGY (TIANJIN) Ltd.

Address before: 300453 Tianjin Binhai New Area, Tianjin Eco-city, No. 126 Animation and Animation Center Road, Area B1, Second Floor 201-427

Applicant before: Xinle Visual Intelligent Electronic Technology (Tianjin) Co.,Ltd.

Address after: 300453 Tianjin Binhai New Area, Tianjin Eco-city, No. 126 Animation and Animation Center Road, Area B1, Second Floor 201-427

Applicant after: Xinle Visual Intelligent Electronic Technology (Tianjin) Co.,Ltd.

Address before: 300467 Tianjin Binhai New Area, ecological city, animation Middle Road, building, No. two, B1 District, 201-427

Applicant before: LE SHI ZHI XIN ELECTRONIC TECHNOLOGY (TIANJIN) Ltd.

GR01 Patent grant
GR01 Patent grant
PP01 Preservation of patent right
PP01 Preservation of patent right

Effective date of registration: 20210201

Granted publication date: 20191213

PD01 Discharge of preservation of patent
PD01 Discharge of preservation of patent

Date of cancellation: 20240201

Granted publication date: 20191213

PP01 Preservation of patent right
PP01 Preservation of patent right

Effective date of registration: 20240313

Granted publication date: 20191213