CN117727298B - 基于深度学习的手提电脑语音识别方法及系统 - Google Patents

基于深度学习的手提电脑语音识别方法及系统 Download PDF

Info

Publication number
CN117727298B
CN117727298B CN202410178427.4A CN202410178427A CN117727298B CN 117727298 B CN117727298 B CN 117727298B CN 202410178427 A CN202410178427 A CN 202410178427A CN 117727298 B CN117727298 B CN 117727298B
Authority
CN
China
Prior art keywords
attribute vector
voice
acoustic
template
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410178427.4A
Other languages
English (en)
Other versions
CN117727298A (zh
Inventor
王大可
徐进
潘营
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Zmoffice Technology Co ltd
Original Assignee
Guangzhou Zmoffice Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Zmoffice Technology Co ltd filed Critical Guangzhou Zmoffice Technology Co ltd
Priority to CN202410178427.4A priority Critical patent/CN117727298B/zh
Publication of CN117727298A publication Critical patent/CN117727298A/zh
Application granted granted Critical
Publication of CN117727298B publication Critical patent/CN117727298B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种基于深度学习的手提电脑语音识别方法及系统,通过对待识别语音数据包含的各语音区块进行声学属性向量解析,可以有效地从复杂的待识别语音数据中获取关键信息,提高了语音识别的准确性和效率。其次,使用时空优化模型进行属性向量优化,能够充分利用语音信号中的时空信息,进一步增强语音识别的精确性。此外,通过确定各语音区块关联的干扰特征参数,能够有效地处理并削减语音信号中的干扰,使得在噪声环境下的语音识别更加准确。最后,根据目标语义意图数据对手提电脑进行功能控制,实现了智能交互,极大地提升了用户体验。

Description

基于深度学习的手提电脑语音识别方法及系统
技术领域
本申请涉及人工智能技术领域,具体而言,涉及一种基于深度学习的手提电脑语音识别方法及系统。
背景技术
随着科技的快速发展和人工智能技术的广泛应用,语音识别技术已成为人机交互领域的重要研究方向。手提电脑作为一种便携的计算设备,其语音识别功能的需求也日益增长。然而,在实际应用场景中,手提电脑的语音识别系统常常受到环境噪音、多声源干扰等因素的影响,导致识别准确率低、用户体验差等问题。
传统的语音识别方法主要依赖于信号处理和模式识别技术,对于复杂的声学环境和多变的语音特征,其识别性能往往受到限制。因此,如何提高是在复杂环境下的语音识别性能,以及如何利用语音识别结果进行智能控制,是当前语音识别技术亟待解决的问题。
发明内容
为了至少克服现有技术中的上述不足,本申请的目的在于提供一种基于深度学习的手提电脑语音识别方法及系统,通过引入时空优化模型,对待识别语音数据中的各语音区块进行时空优化处理,从而提高了语音识别的准确性和鲁棒性。同时,还通过引入干扰特征参数,对语音数据中的干扰特征进行识别和量化,进一步提高了语音识别的性能。此外,还实现了对待识别语音数据的优化处理和语义意图识别,使得用户可以通过语音指令方便、快捷地控制手提电脑,提高了用户的使用体验。
第一方面,本申请提供一种基于深度学习的手提电脑语音识别方法,应用于语音识别系统,所述方法包括:
获取输入到所述手提电脑中的包含目标声源的待识别语音数据,并对所述待识别语音数据包含的各语音区块进行声学属性向量解析,生成对应的区块声学属性向量;
基于在先完成模型参数学习的时空优化模型,依据所述各语音区块分别在所述待识别语音数据中的时空信息,分别对对应的区块声学属性向量进行时空优化,生成对应的包含时空信息的优化属性向量;
依据各优化属性向量各自与预先定义的模板属性向量之间的特征距离,分别确定所述各语音区块分别关联的干扰特征参数;其中,各模板属性向量是依据干扰屏蔽音频数据进行解析的,且每个模板属性向量包含相应语音区块的时空信息,所述干扰屏蔽音频数据包含不存在干扰特征的目标声源;
依据生成的各干扰特征参数,确定所述待识别语音数据的干扰状态数据,并基于所述待识别语音数据的干扰状态数据对所述待识别语音数据进行优化处理以生成对应的目标语音数据,对所述目标语音数据进行语义意图识别,获得对应的目标语义意图数据后,基于所述目标语义意图数据对所述手提电脑进行功能控制。
在第一方面的一种可能的实施方式中,在所述基于在先完成模型参数学习的时空优化模型,依据所述各语音区块分别在所述待识别语音数据中的时空信息,分别对对应的区块声学属性向量进行时空优化,生成对应的包含时空信息的优化属性向量之前,所述方法还包括:
依据多个模板音频数据与分别关联的先验知识标注数据,对初始化权重参数的时空优化模型进行循环模型参数学习,直至符合模型收敛要求时终止,生成所述在先完成模型参数学习的时空优化模型;每个先验知识标注数据表征:相应模板音频数据中各语音区块为干扰语音区块的置信度;
在任意一轮模型参数学习过程中,对于一个模板音频数据,对该模板音频数据的各语音区块进行声学属性向量解析,生成对应的模板声学属性向量;
依据本轮调用的时空优化模型,依据各语音区块在该模板音频数据中的时空信息,分别对对应的模板声学属性向量进行时空优化,生成对应的包含时空信息的优化属性向量;
依据该模板音频数据的各语音区块分别关联的优化属性向量,生成该模板音频数据的干扰状态数据;
依据生成的多个干扰状态数据与对应的先验知识标注数据之间的偏离度,对本轮调用的时空优化模型进行模型参数学习。
在第一方面的一种可能的实施方式中,在依据各优化属性向量各自与预先定义的模板属性向量之间的特征距离,分别确定所述各语音区块分别关联的干扰特征参数之前,所述方法还包括:
依据第二声学属性向量解析模型,分别对各干扰屏蔽音频数据包含的各语音区块进行声学属性向量解析,生成基础声学属性向量序列,所述基础声学属性向量序列包括所述各干扰屏蔽音频数据的各语音区块分别关联的基础声学属性向量;
对于多个作为训练样本的模板音频数据中的一个模板音频数据,依据所述第二声学属性向量解析模型,分别对该模板音频数据中各语音区块进行声学属性向量解析,生成对应的模板声学属性向量;
依据生成的各模板声学属性向量与所述基础声学属性向量序列之间的特征距离,确定相应语音区块的区块知识数据,每个区块知识数据表征:相应语音区块为干扰语音区块的置信度,依据生成的各区块知识数据,生成该模板音频数据的先验知识标注数据;
依据多个所述模板音频数据与分别关联的先验知识标注数据,对干扰状态检测模型进行循环模型参数学习,直至符合模型收敛要求时终止;其中,所述干扰状态检测模型包括第一声学属性向量解析模型和所述时空优化模型,所述第一声学属性向量解析模型与所述第二声学属性向量解析模型共用相同的模型参数配置数据;
依据完成参数学习的所述干扰状态检测模型中的第一声学属性向量解析模型,分别对所述各干扰屏蔽音频数据进行声学属性向量解析,并依据完成参数学习的所述干扰状态检测模型中的时空优化模型对解析到的区块声学属性向量进行时空优化,生成模板属性向量序列,所述模板属性向量序列包括所述预先定义的模板属性向量。
在第一方面的一种可能的实施方式中,依据完成参数学习的所述干扰状态检测模型中的第一声学属性向量解析模型,分别对所述各干扰屏蔽音频数据进行声学属性向量解析,并依据完成参数学习的所述干扰状态检测模型中的时空优化模型对解析到的区块声学属性向量进行时空优化,生成模板属性向量序列,包括:
依据所述第一声学属性向量解析模型,分别对所述各干扰屏蔽音频数据的各语音区块进行声学属性向量解析,并依据完成参数学习的所述干扰状态检测模型中的时空优化模型对解析到的区块声学属性向量进行时空优化,生成优化声学属性向量序列,所述优化声学属性向量序列包括所述各干扰屏蔽音频数据的各语音区块分别关联的优化声学属性向量;
从所述优化声学属性向量序列中游走至少一个优化声学属性向量,对所述模板属性向量序列进行初始化;
轮询优化所述模板属性向量序列;其中,在每次轮询优化时,对于所述优化声学属性向量序列中的各优化声学属性向量,分别确定对应的声学属性向量组合,每个声学属性向量组合包含一个优化声学属性向量,以及所述模板属性向量序列中与该优化声学属性向量特征距离最小的模板属性向量;
对于各声学属性向量组合包含的各模板属性向量,将与每个模板属性向量的特征距离最大的优化声学属性向量加载到所述模板属性向量序列。
在第一方面的一种可能的实施方式中,基于在先完成模型参数学习的时空优化模型,依据所述各语音区块分别在所述待识别语音数据中的时空信息,分别对对应的区块声学属性向量进行时空优化,生成对应的包含时空信息的优化属性向量,包括:
依据所述在先完成模型参数学习的时空优化模型,对于所述各语音区块中的一个语音区块,依据该语音区块在所述待识别语音数据中的时序信息,生成对应的时序特征向量;
依据该语音区块在所述待识别语音数据中的频谱信息,生成对应的频谱特征向量;
依据该语音区块的区块声学属性向量、时序特征向量和频谱特征向量,生成对应的优化属性向量。
在第一方面的一种可能的实施方式中,对所述待识别语音数据包含的各语音区块进行声学属性向量解析,生成对应的区块声学属性向量,包括:
基于递归处理策略,对所述待识别语音数据进行声学属性向量解析;在每轮递归流程中,依据设定的滤波器,对本轮递归的声学知识特征进行滤波,生成滤波特征向量;其中,在第一轮递归时,所述声学知识特征为所述待识别语音数据,在非第一轮递归时,所述声学知识特征为上一轮递归的滤波特征向量;
依据所述滤波特征向量与所述声学知识特征进行跳跃链接,生成融合特征向量;
如果本轮递归为末轮递归,将所述融合特征向量作为本轮递归的滤波特征向量;
如果本轮递归并非末轮递归,对所述融合特征向量进行基于特征域的自注意力处理,并将生成的自注意力特征向量作为本轮递归的滤波特征向量。
在第一方面的一种可能的实施方式中,所述依据各优化属性向量各自与预先定义的模板属性向量之间的特征距离,分别确定所述各语音区块分别关联的干扰特征参数,包括:
对于所述各优化属性向量中的一个优化属性向量,确定与该优化属性向量特征距离最小的模板属性向量;
依据所述模板属性向量与该优化属性向量之间的偏离度,确定该优化属性向量对应的语音区块的干扰特征参数。
在第一方面的一种可能的实施方式中,所述依据各优化属性向量各自与预先定义的模板属性向量之间的特征距离,分别确定所述各语音区块分别关联的干扰特征参数,包括:
对于所述各优化属性向量中的一个优化属性向量,确定与该优化属性向量特征距离最小的模板属性向量;
从所述预先定义的模板属性向量中,确定与所述特征距离最小的模板属性向量之间的特征距离不小于设定距离的多个模板属性向量;
依据所述特征距离最小的模板属性向量以及所述多个模板属性向量各自与该优化属性向量之间的偏离度,确定该优化属性向量对应的语音区块的干扰特征参数。
在第一方面的一种可能的实施方式中,对所述待识别语音数据包含的各语音区块进行声学属性向量解析,生成对应的区块声学属性向量,包括:
依据所述目标声源的目标声源场景标签,从预先定义的多个样例音频数据中,生成对应的目标样例音频数据;
依据所述目标样例音频数据中的预定义的声学矢量节点,对所述待识别语音数据进行声学对齐处理,生成对齐后的音频数据;
依据所述目标样例音频数据中的预先界定的语音区块范围,从所述对齐后的音频数据中,生成所述目标声源占据的目标语音区块;
对所述目标语音区块包含的各语音区块进行声学属性向量解析,生成对应的区块声学属性向量。
第二方面,本申请实施例还提供一种语音识别系统,所述语音识别系统包括处理器和机器可读存储介质,所述机器可读存储介质中存储有计算机程序,所述计算机程序依据该处理器加载并执行以实现以上第一方面的基于深度学习的手提电脑语音识别方法。
依据以上任意方面的技术方案,通过对待识别语音数据包含的各语音区块进行声学属性向量解析,可以有效地从复杂的待识别语音数据中获取关键信息,提高了语音识别的准确性和效率。其次,使用时空优化模型进行属性向量优化,能够充分利用语音信号中的时空信息,进一步增强语音识别的精确性。此外,通过确定各语音区块关联的干扰特征参数,能够有效地处理并削减语音信号中的干扰,使得在噪声环境下的语音识别更加准确。最后,根据目标语义意图数据对手提电脑进行功能控制,实现了智能交互,极大地提升了用户体验。
也即是说,本实施例通过对待识别语音数据包含的各语音区块进行声学属性向量解析,生成了能够准确表征语音区块声学特性的区块声学属性向量。进一步地,利用在先完成模型参数学习的时空优化模型,对各语音区块的声学属性向量进行时空优化,生成了包含丰富时空信息的优化属性向量,从而提高了语音识别的准确性和鲁棒性。此外,还通过引入干扰特征参数,有效地识别并量化了各语音区块中的干扰特征。依据各优化属性向量与预先定义的模板属性向量之间的特征距离,确定了各语音区块关联的干扰特征参数,进而生成了待识别语音数据的干扰状态数据。这使得本发明能够在复杂的声学环境中,准确地识别并屏蔽干扰特征,从而显著提高了语音识别的性能。最后,还通过对待识别语音数据进行优化处理,生成了高质量的目标语音数据,并对其进行语义意图识别,实现了对手提电脑的功能控制。这使得用户可以通过语音指令方便、快捷地控制手提电脑,极大地提高了用户的使用体验。由此,本实施例通过深度学习技术和时空优化模型的结合,实现了高效、准确的语音识别功能,并在复杂的声学环境中表现出了优异的性能。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要启用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以依据这些附图获得其它相关的附图。
图1为本申请实施例提供的基于深度学习的手提电脑语音识别方法的流程示意图;
图2为本申请实施例提供的用于实现上述的基于深度学习的手提电脑语音识别方法的语音识别系统的功能结构示意框图。
具体实施方式
以下描述是为了使本领域的普通技术人员能够实施和依据本申请,并且该描述是在特定的应用场景及其要求的环境下提供的。对于本领域的普通技术人员来讲,显然可以对所公开的实施例作出各种改变,并且在不偏离本申请的原则和范围时,本申请中所定义的普遍原则可以适用于其它实施例和应用场景。因此,本申请并不限于所描述的实施例,而应该被给予与权利要求一致的最广泛的范围。
参见图1所示,本申请提供一种基于深度学习的手提电脑语音识别方法,包括以下步骤。
步骤S110,获取输入到所述手提电脑中的包含目标声源的待识别语音数据,并对所述待识别语音数据包含的各语音区块进行声学属性向量解析,生成对应的区块声学属性向量。
手提电脑,也称为笔记本电脑,是一种便携式计算设备,具有显示屏、键盘和触摸板等输入设备,以及能够运行各种软件和处理数据的能力。在本场景中,用户携带的手提电脑装有语音识别系统,该系统能够接收并处理用户的语音输入。
本实施例中,所述目标声源是指语音识别系统希望捕获和识别的特定声音来源,通常是用户的语音。例如,在机场的嘈杂环境中,用户的语音就是目标声源,而机场广播、其它乘客的谈话声等则是干扰声源。
所述待识别语音数据是指从目标声源捕获的原始声音数据,这些待识别语音数据包含用户的语音信息以及可能的背景噪音和其它干扰。例如,当用户对着手提电脑的麦克风说“在‘我的视频’文件夹里找到‘家庭旅行.mp4’并播放”时,麦克风捕获的这段声音就是待识别语音数据。
所述语音区块是将连续的语音数据分割成的较小片段,每个片段包含一段时间内的声音信息。这种分割有助于后续的处理和分析。例如,用户的整句语音“在‘我的视频’文件夹里找到‘家庭旅行.mp4’并播放”可能会被分割成几个语音区块,如“在‘我的视频’文件夹里”、“找到‘家庭旅行.mp4’”、“并播放”等。
所述声学属性向量是一种数学表示,用于描述语音区块的声学特征。这些特征可以包括音高、音强、音色、共振峰、频谱特性等,它们共同构成了语音的独特特征。例如,对于语音区块“在‘我的视频’文件夹里”,其声学属性向量可能包括该区块的音高变化、音强分布、以及特定的频谱模式等信息。
所述区块声学属性向量是指针对每个语音区块计算得到的声学属性向量。这些向量是对每个区块声学特征的数学描述,用于后续的语音处理和识别。在上述例子中,每个语音区块(如“在‘我的视频’文件夹里”、“找到‘家庭旅行.mp4’”等)都会被分配一个与其声学特征相对应的区块声学属性向量。
本实施例中,假设某个用户正在一个繁忙的交通枢纽——机场的候机大厅里使用手提电脑。大厅里人声鼎沸,广播不断,还有各种机械声音和背景噪音。用户需要通过语音识别系统来完成一些复杂的操作,比如查找并播放一段特定的视频文件。
例如,用户对着手提电脑说:“在‘我的视频’文件夹里找到‘家庭旅行.mp4’并播放。”语音识别系统捕获到这段复杂的待识别语音数据,其中包含了许多不同的声音元素和干扰。语音识别系统可以将这段待识别语音数据分割成多个语音区块,并对每个语音区块进行声学属性向量的解析。这些声学属性向量不仅包括音高、音强等基本特征,还可能包括频谱特性、共振峰等更复杂的声学特征。
步骤S120,基于在先完成模型参数学习的时空优化模型,依据所述各语音区块分别在所述待识别语音数据中的时空信息,分别对对应的区块声学属性向量进行时空优化,生成对应的包含时空信息的优化属性向量。
示例性的,仍旧以前面的例子(如“在‘我的视频’文件夹里”、“找到‘家庭旅行.mp4’”等)为基础进行进一步的举例说明。
所述时空优化模型是一个预先训练好的模型,已经通过大量的语音数据学习了如何优化处理语音区块中的时间和空间信息。这些学习到的参数将用于提高语音识别的准确性。例如,所述时空优化模型可能已经通过处理大量的包含类似“在‘我的视频’文件夹里”和“找到‘家庭旅行.mp4’”等指令的语音数据,学会了如何优化这些指令的识别。
所述各语音区块在待识别语音数据中的时空信息是指每个语音区块(如“在‘我的视频’文件夹里”、“找到‘家庭旅行.mp4’”等)在整段待识别语音中出现的时间和顺序信息。时间信息可能包括区块的开始和结束时间,而顺序信息则涉及区块之间的相对位置。例如,在用户的语音指令“在‘我的视频’文件夹里找到‘家庭旅行.mp4’”中,“在‘我的视频’文件夹里”和“找到‘家庭旅行.mp4’”是两个语音区块。它们的时间信息可能是它们在整句话中的开始和结束时间点,而顺序信息则表明第一个区块在第二个区块之前。
所述区块声学属性向量则是每个语音区块声学特征的数值表示,包括音高、音色、共振峰等多种声学特性的量化值,用于描述区块的独特声音特性。例如,对于语音区块“在‘我的视频’文件夹里”,其声学属性向量可能包含该区块的音高变化、音色特征、发音时长等信息。
时空优化是一个处理过程,其中时空优化模型利用其学习到的参数和各语音区块的时空信息,对区块声学属性向量进行调整和优化。目的是减少背景噪音和干扰的影响,提高语音识别的准确性。例如,在前述的例子中,时空优化可能涉及根据机场环境的噪音特性(如广播声、机械声等)来调整和优化“在‘我的视频’文件夹里”和“找到‘家庭旅行.mp4’”等语音区块的声学属性向量。
所述优化属性向量是指经过时空优化处理后的区块声学属性向量。这些向量不仅包含了原始的声学特征,还融入了时间和空间信息,使得它们更适合用于后续的语音识别任务。例如,经过时空优化后,“在‘我的视频’文件夹里”和“找到‘家庭旅行.mp4’”等语音区块的优化属性向量可能更好地反映了它们在整句话中的时间位置和与其它词的声学关系,从而提高了识别系统的准确性。
例如,由于机场环境的噪音干扰严重,语音区块之间的界限可能变得模糊。时空优化模型在这里发挥着重要作用,能够帮助语音识别系统更准确地区分语音区块,并依据语音区块在时间和空间上的关系对它们进行优化处理。例如,时空优化模型可能会考虑到广播声音的周期性特征,以及用户语音中的停顿和语速变化。
步骤S130,依据各优化属性向量各自与预先定义的模板属性向量之间的特征距离,分别确定所述各语音区块分别关联的干扰特征参数。其中,各模板属性向量是依据干扰屏蔽音频数据进行解析的,且每个模板属性向量包含相应语音区块的时空信息,所述干扰屏蔽音频数据包含不存在干扰特征的目标声源。
示例性的,所述预先定义的模板属性向量是指根据干扰屏蔽音频数据(即不包含干扰特征的目标声源数据)预先解析和定义的理想声学属性向量。它作为基准,用于与实际语音区块的优化属性向量进行比较。例如,假设有一个清晰无干扰的“打开文件”语音指令作为干扰屏蔽音频数据,可以从中解析出模板属性向量,这个模板属性向量将作为识别类似指令时的参考标准。
特征距离是指优化属性向量与模板属性向量之间的差异或相似度度量。较小的特征距离意味着两个向量更相似,而较大的特征距离则意味着它们之间存在较大差异。例如,在比较“在‘我的视频’文件夹里”这一语音区块的优化属性向量与相应模板属性向量时,特征距离可能反映了实际发音与理想发音之间的差异程度。
所述干扰特征参数是指根据特征距离确定的,描述语音区块中干扰特征的量化参数。这些干扰特征参数可以帮助识别语音识别系统了解干扰的性质和程度,从而采取相应的补偿措施。例如,如果“在‘我的视频’文件夹里”这一语音区块的优化属性向量与模板属性向量之间的特征距离较大,那么干扰特征参数可能指示该区块受到了较强的背景噪音干扰。
所述干扰屏蔽音频数据可以是指不包含任何干扰特征(如背景噪音、其它声源等)的纯净目标声源数据。这些干扰屏蔽音频数据用于生成模板属性向量,作为语音识别的参考基准。例如,在训练语音识别系统时,可能会使用在消音室中录制的清晰语音指令作为干扰屏蔽音频数据,以确保模板属性向量的准确性和可靠性。因此,干扰屏蔽音频数据中的目标声源(即想要识别的语音)是完全清晰且不受任何干扰影响的。这样的数据有助于提取出最纯净的语音特征,用于构建高效的语音识别系统。例如,录制“播放音乐”这一语音指令时,如果在一个完全安静的环境中进行,并且只捕捉到说话者的声音,没有任何其它声源或噪音的干扰,那么这段录音就可以被认为是包含不存在干扰特征的目标声源。
也即,在这个场景中,干扰特征可能包括机场广播、其它乘客的谈话声、行李拖动的声音等。由此,通过与模板属性向量的比较,能够确定每个语音区块受到的干扰类型及其强度。然后,系统利用这些干扰特征参数对待识别语音数据进行有针对性的优化处理,比如通过噪音消除算法来减少广播声和其它噪音的影响。
步骤S140,依据生成的各干扰特征参数,确定所述待识别语音数据的干扰状态数据,并基于所述待识别语音数据的干扰状态数据对所述待识别语音数据进行优化处理以生成对应的目标语音数据,对所述目标语音数据进行语义意图识别,获得对应的目标语义意图数据后,基于所述目标语义意图数据对所述手提电脑进行功能控制。
示例性的,所述待识别语音数据的干扰状态数据是根据干扰特征参数确定的,描述整段待识别语音数据中干扰的整体状况的数据。这包括干扰的类型、强度、分布等信息。
因此,可以根据待识别语音数据的干扰状态数据,对语音数据进行调整和改善,目的是减少或消除干扰对语音识别的影响,提高语音识别的准确性。例如,优化处理可能包括使用降噪算法减少背景噪音、增强目标声源的音量、改善语音信号的清晰度等。
例如,首先可以对所述干扰状态数据进行深入分析,如识别干扰的类型(如稳态噪音、非稳态噪音、回声等),评估干扰的强度(如信噪比SNR),以及确定干扰在语音数据中的分布(如是否集中在某些频段或时间段)。根据干扰状态数据的分析结果,接下来进行预处理,如自动增益控制(AGC)以调整语音信号的动态范围,或初步滤波以去除部分明显的噪音成分。
接下来,可以利用所述干扰状态数据来估计噪音的特性,并建立一个噪音模型。这个噪音模型能够描述噪音的统计特性,如频谱分布、时变特性等,为后续的噪音消除提供依据。然后,基于噪音模型,采用至少一种噪音消除算法,如谱减法、维纳滤波、最小均方误差(MSE)估计等,对所述待识别语音数据进行处理。这些噪音消除算法能够在保留语音信号的同时,尽可能地减少或消除噪音成分。
同时,为了提高语音的清晰度和可懂度,本实施例还可以应用语音增强技术,如基于人耳听觉模型的增强、语音信号的时频分析等。在噪音消除和语音增强之后,进行后处理,包括恢复语音信号的动态范围、调整语音的音量和音调等,以确保处理后的语音数据在听觉上自然且不失真。此外,还可以进一步对处理后的目标语音数据进行音质评估,如计算语音的清晰度、可懂度等指标,并与预设的阈值进行比较。如果音质未达到预期标准,则可能需要调整优化处理策略并重新处理。
在实际应用中,可以采用迭代优化的方式,根据每次处理后的效果反馈来调整优化策略。例如,如果初次处理后的语音数据中仍残留有较多的噪音成分,可以调整噪音模型的参数或采用更复杂的噪音消除算法进行二次处理。在整个过程中,优化处理策略与干扰状态数据之间保持着强关联性。根据干扰状态数据的实时变化来调整优化策略,确保在各种不同的干扰环境下都能获得最佳的语音处理效果。
由此,所述目标语音数据则是经过优化处理后的语音数据,其质量和清晰度得到了提升,更适合进行后续的语音识别处理。例如,如果原始语音数据中存在强烈的背景噪音,经过优化处理后,目标语音数据中的噪音被有效减少,使得语音内容更加清晰可辨。
语义意图识别是对语音数据进行解析和理解的过程,目的是识别出语音中所包含的指令、请求或意图。这是语音识别系统实现功能控制的关键步骤。在接收到语音指令“请打开文档”后,语义意图识别系统会解析出用户的意图是打开某个文档。所述目标语义意图数据是语义意图识别的结果,包含了识别出的用户指令或请求的具体内容和参数。这些数据将用于后续的功能控制。例如,对于语音指令“请打开文档”,目标语义意图数据可能包括指令类型(打开)、操作对象(文档)等信息。
功能控制是根据目标语义意图数据,对手提电脑进行具体操作和控制的过程。这包括执行用户的指令、调用相应的功能或服务等。例如,在识别出用户的意图是打开文档后,手提电脑可能会自动打开相应的文档编辑软件,并展示给用户。
本实施例中,经过优化处理后,得到了更清晰的目标语音数据。接着,对这段目标语音数据进行语义意图识别。例如,在前述示例中,需要解析出用户的意图是查找并播放一个特定的视频文件。这要求不仅能够识别出文件名和文件类型,还需要理解用户的操作指令。一旦识别出用户的意图,就会生成相应的目标语义意图数据,并据此控制手提电脑执行查找和播放视频的操作。由此,即使在干扰严重的环境下,通过本方案中的步骤,语音识别系统仍然能够有效地获取、处理和识别用户的语音数据,并执行相应的操作。
基于以上步骤,本实施例通过对待识别语音数据包含的各语音区块进行声学属性向量解析,可以有效地从复杂的待识别语音数据中获取关键信息,提高了语音识别的准确性和效率。其次,使用时空优化模型进行属性向量优化,能够充分利用语音信号中的时空信息,进一步增强语音识别的精确性。此外,通过确定各语音区块关联的干扰特征参数,能够有效地处理并削减语音信号中的干扰,使得在噪声环境下的语音识别更加准确。最后,根据目标语义意图数据对手提电脑进行功能控制,实现了智能交互,极大地提升了用户体验。
也即是说,本实施例通过对待识别语音数据包含的各语音区块进行声学属性向量解析,生成了能够准确表征语音区块声学特性的区块声学属性向量。进一步地,利用在先完成模型参数学习的时空优化模型,对各语音区块的声学属性向量进行时空优化,生成了包含丰富时空信息的优化属性向量,从而提高了语音识别的准确性和鲁棒性。此外,还通过引入干扰特征参数,有效地识别并量化了各语音区块中的干扰特征。依据各优化属性向量与预先定义的模板属性向量之间的特征距离,确定了各语音区块关联的干扰特征参数,进而生成了待识别语音数据的干扰状态数据。这使得本发明能够在复杂的声学环境中,准确地识别并屏蔽干扰特征,从而显著提高了语音识别的性能。最后,还通过对待识别语音数据进行优化处理,生成了高质量的目标语音数据,并对其进行语义意图识别,实现了对手提电脑的功能控制。这使得用户可以通过语音指令方便、快捷地控制手提电脑,极大地提高了用户的使用体验。由此,本实施例通过深度学习技术和时空优化模型的结合,实现了高效、准确的语音识别功能,并在复杂的声学环境中表现出了优异的性能。
在一种可能的实施方式中,在所述步骤S120之前,所述方法还包括:
步骤S101,依据多个模板音频数据与分别关联的先验知识标注数据,对初始化权重参数的时空优化模型进行循环模型参数学习,直至符合模型收敛要求时终止,生成所述在先完成模型参数学习的时空优化模型。每个先验知识标注数据表征:相应模板音频数据中各语音区块为干扰语音区块的置信度。
步骤S102,在任意一轮模型参数学习过程中,对于一个模板音频数据,对该模板音频数据的各语音区块进行声学属性向量解析,生成对应的模板声学属性向量。
步骤S103,依据本轮调用的时空优化模型,依据各语音区块在该模板音频数据中的时空信息,分别对对应的模板声学属性向量进行时空优化,生成对应的包含时空信息的优化属性向量。
步骤S104,依据该模板音频数据的各语音区块分别关联的优化属性向量,生成该模板音频数据的干扰状态数据。
步骤S105,依据生成的多个干扰状态数据与对应的先验知识标注数据之间的偏离度,对本轮调用的时空优化模型进行模型参数学习。
本实施例中,在构建一个能够准确识别语音并优化处理干扰的语音识别系统时,首先需要训练一个时空优化模型。这个时空优化模型的关键在于它能够学习如何根据语音区块在音频数据中的时空信息来优化其声学属性向量,从而更准确地识别语音内容并处理干扰。
首先,语音识别系统收集了大量的模板音频数据。这些模板音频数据包含了各种环境下的语音样本,如嘈杂的街道、安静的办公室、有回声的房间等。对于每个模板音频数据,还准备了相应的先验知识标注数据。这些先验知识标注数据详细标注了音频中每个语音区块是否为干扰语音区块的置信度,为模型参数学习提供了重要的参考。
接下来,语音识别系统初始化了一个时空优化模型,并为其设置了初始权重参数。这个时空优化模型被设计为能够根据输入的语音区块的时空信息和声学属性向量,输出优化后的属性向量,从而提高语音识别的准确性。
为了训练这个时空优化模型,开始进行循环模型参数学习。在每一轮学习中,随机选择一个模板音频数据,并对其进行处理:
声学属性向量解析:首先,对该模板音频数据的各语音区块进行声学属性向量解析。这涉及到将音频信号转换为数字特征向量,这些向量能够描述语音的声学特性,如音高、音色和发音方式等。
然后,根据各语音区块在该模板音频数据中的时空信息,对相应的模板声学属性向量进行时空优化。这意味着模型会考虑语音区块在音频中的位置、时长以及与周围区块的关系等因素,来优化其声学属性向量。
基于优化属性向量,可以生成该模板音频数据的干扰状态数据。这些数据描述了音频中干扰的分布、类型和强度等信息,为后续的模型学习提供了重要依据。
最后,根据生成的干扰状态数据与对应的先验知识标注数据之间的偏离度,对本轮调用的时空优化模型进行模型参数学习。如果时空优化模型输出的干扰状态数据与实际的标注数据相差较大,则调整时空优化模型的权重参数,以减少这种偏离度。
当模型参数学习达到预设的收敛要求时,终止循环,并生成最终的在先完成模型参数学习的时空优化模型。这个时空优化模型已经学会了如何根据语音区块的时空信息来优化其声学属性向量,从而更准确地识别语音内容并处理干扰。
通过以上步骤,语音识别系统成功地训练了一个能够优化处理干扰的时空优化模型。这个模型在实际应用中,能够有效地提高语音识别的准确性和鲁棒性,特别是在复杂的声学环境中。
在一种可能的实施方式中,在步骤S130之前,所述方法还包括:
步骤A110,依据第二声学属性向量解析模型,分别对各干扰屏蔽音频数据包含的各语音区块进行声学属性向量解析,生成基础声学属性向量序列,所述基础声学属性向量序列包括所述各干扰屏蔽音频数据的各语音区块分别关联的基础声学属性向量。
步骤A120,对于多个作为训练样本的模板音频数据中的一个模板音频数据,依据所述第二声学属性向量解析模型,分别对该模板音频数据中各语音区块进行声学属性向量解析,生成对应的模板声学属性向量。
步骤A130,依据生成的各模板声学属性向量与所述基础声学属性向量序列之间的特征距离,确定相应语音区块的区块知识数据,每个区块知识数据表征:相应语音区块为干扰语音区块的置信度,依据生成的各区块知识数据,生成该模板音频数据的先验知识标注数据。
步骤A140,依据多个所述模板音频数据与分别关联的先验知识标注数据,对干扰状态检测模型进行循环模型参数学习,直至符合模型收敛要求时终止。其中,所述干扰状态检测模型包括第一声学属性向量解析模型和所述时空优化模型,所述第一声学属性向量解析模型与所述第二声学属性向量解析模型共用相同的模型参数配置数据。
步骤A150,依据完成参数学习的所述干扰状态检测模型中的第一声学属性向量解析模型,分别对所述各干扰屏蔽音频数据进行声学属性向量解析,并依据完成参数学习的所述干扰状态检测模型中的时空优化模型对解析到的区块声学属性向量进行时空优化,生成模板属性向量序列,所述模板属性向量序列包括所述预先定义的模板属性向量。
本实施例中,在训练和优化语音识别系统之前,首先需要准备一系列的数据和模型。这包括收集多个音频数据、定义模型结构以及初始化相关参数。
例如,语音识别系统收集了大量的音频数据,包括各种环境下的语音样本,这些语音样本被用作训练样本和测试样本。此外,还收集了一些特殊的音频数据,即干扰屏蔽音频数据,这些干扰屏蔽音频数据中的干扰成分被人为地屏蔽或削弱,用于提取纯净的语音特征。
接下来,需要定义模型结构,本实施例包含了多个关键模型,如第一声学属性向量解析模型、第二声学属性向量解析模型和时空优化模型。这些模型在结构上可能相似,但用于不同的处理阶段。特别地,第一声学属性向量解析模型和第二声学属性向量解析模型共用相同的模型参数配置数据,这意味着它们在解析声学属性向量时具有一致的行为。
对于上述模型,进行初始化操作,为它们设置了初始权重和其他相关参数。这些参数将在后续的模型训练中得到调整和优化。
为了有效地处理语音数据,需要对音频中的语音区块进行声学属性向量解析。
例如,对于干扰屏蔽音频数据,使用第二声学属性向量解析模型对各语音区块进行解析。由于这些数据中的干扰成分已被屏蔽,因此解析得到的基础声学属性向量序列较为纯净,能够反映语音区块的本质特征。
对于作为训练样本的模板音频数据,同样使用第二声学属性向量解析模型对各语音区块进行解析。这些模板音频数据包含了各种干扰情况下的语音样本,解析得到的模板声学属性向量将用于后续的模型训练。
为了训练干扰状态检测模型,需要生成区块知识数据和先验知识标注数据。详细的,可以计算生成的各模板声学属性向量与基础声学属性向量序列之间的特征距离。这个距离反映了模板音频数据中的语音区块与纯净语音区块之间的差异程度。
根据计算得到的特征距离,确定相应语音区块的区块知识数据。这些数据表征了相应语音区块为干扰语音区块的置信度,即它们包含干扰成分的可能性。
对于每个模板音频数据,可以根据其各语音区块的区块知识数据,生成该模板音频数据的先验知识标注数据。这些数据为后续的模型训练提供了重要的参考信息。
然后,利用生成的先验知识标注数据,对干扰状态检测模型进行循环模型参数学习。在每一轮学习中,根据模板音频数据和对应的先验知识标注数据来调整干扰状态检测模型的参数。这包括对第一声学属性向量解析模型和时空优化模型的参数进行更新。
当模型参数学习达到预设的收敛要求时,则终止循环,并保存完成参数学习的干扰状态检测模型。这个干扰状态检测模型现在已经学会了如何根据语音区块的声学属性向量和时空信息来检测干扰状态。
在完成干扰状态检测模型的训练后,利用该干扰状态检测模型生成模板属性向量序列。
对于之前收集的干扰屏蔽音频数据,则使用完成参数学习的干扰状态检测模型中的第一声学属性向量解析模型进行声学属性向量解析。
解析得到的区块声学属性向量随后被送入完成参数学习的时空优化模型进行时空优化。这个过程考虑了语音区块在音频中的时空信息,从而生成了更加准确的优化属性向量。
经过时空优化后,生成了模板属性向量序列。这个模板属性向量序列包含了预先定义的模板属性向量,它们代表了各种典型语音区块的特征表示,将用于后续的语音识别和处理任务中。
在一种可能的实施方式中,步骤A150可以包括:
步骤A151,依据所述第一声学属性向量解析模型,分别对所述各干扰屏蔽音频数据的各语音区块进行声学属性向量解析,并依据完成参数学习的所述干扰状态检测模型中的时空优化模型对解析到的区块声学属性向量进行时空优化,生成优化声学属性向量序列,所述优化声学属性向量序列包括所述各干扰屏蔽音频数据的各语音区块分别关联的优化声学属性向量。
步骤A152,从所述优化声学属性向量序列中游走至少一个优化声学属性向量,对所述模板属性向量序列进行初始化。
步骤A153,轮询优化所述模板属性向量序列。其中,在每次轮询优化时,对于所述优化声学属性向量序列中的各优化声学属性向量,分别确定对应的声学属性向量组合,每个声学属性向量组合包含一个优化声学属性向量,以及所述模板属性向量序列中与该优化声学属性向量特征距离最小的模板属性向量。
步骤A154,对于各声学属性向量组合包含的各模板属性向量,将与每个模板属性向量的特征距离最大的优化声学属性向量加载到所述模板属性向量序列。
本实施例中,在语音识别系统中,一系列关键模型正在运行。其中,一个经过参数学习的干扰状态检测模型尤为关键,具体包含了两个重要部分:第一声学属性向量解析模型和时空优化模型。
语音识别系统首先调用第一声学属性向量解析模型,对一系列干扰屏蔽音频数据(这些数据已经经过处理,以减少或消除干扰)进行处理。第一声学属性向量解析模型细致地分析每个音频数据中的各个语音区块,从中提取出基础的声学属性向量。
紧接着,这些基础的声学属性向量被送入时空优化模型中。这个时空优化模型考虑了语音区块在语音数据中的时空上下文信息,对每个基础的声学属性向量进行精细调整,从而生成了一组优化声学属性向量序列。这些优化声学属性向量序列不仅包含了语音区块的声学特征,还融入了它们在时间和空间上的关联信息。
为了进一步提高语音识别的准确性,需要构建一个高质量的模板属性向量序列。例如,从优化声学属性向量序列中选取至少一个优化声学属性向量,用这些优化声学属性向量来初始化模板属性向量序列。这一步是构建模板序列的起点,为后续的优化过程奠定了基础。
接下来,进入一个轮询优化循环。在这个循环中,会逐一考察优化声学属性向量序列中的每个向量。
对于每个优化声学属性向量,在模板属性向量序列中寻找与其特征距离最小的模板属性向量,并将这两个向量组成一个声学属性向量组合。
在每个声学属性向量组合中,可以评估模板属性向量与优化声学属性向量之间的差异。如果发现某个模板属性向量与组合中的优化声学属性向量相比存在较大的特征距离,则用该优化声学属性向量来更新或替换模板属性向量序列中的相应向量。
通过这样的轮询优化过程,模板属性向量序列逐渐吸收了优化声学属性向量序列中的优质特征,变得更加完善和准确。
经过上述步骤,语音识别系统现在已经构建了一个经过优化的模板属性向量序列,该模板属性向量序列将在后续的语音识别任务中发挥关键作用,帮助语音识别系统更准确地识别各种语音输入,即使在存在干扰的复杂环境中也能保持出色的性能。
在一种可能的实施方式中,步骤S120可以包括:
步骤S121,依据所述在先完成模型参数学习的时空优化模型,对于所述各语音区块中的一个语音区块,依据该语音区块在所述待识别语音数据中的时序信息,生成对应的时序特征向量。
步骤S122,依据该语音区块在所述待识别语音数据中的频谱信息,生成对应的频谱特征向量。
步骤S123,依据该语音区块的区块声学属性向量、时序特征向量和频谱特征向量,生成对应的优化属性向量。
本实施例中,语音识别系统已经完成了对时空优化模型的参数学习,现在准备对待识别语音数据进行处理。这些待识别语音数据可能来自不同的场景,包含各种语音和噪音,需要通过精确的识别和分析,提取出有效的语音信息。
在处理待识别语音数据时,首先将其划分为多个语音区块,每个语音区块包含一段连续的语音信号。接下来,将对每个语音区块进行单独的处理。例如,对于当前正在处理的一个语音区块,首先依据该语音区块在待识别语音数据中的时序信息,生成对应的时序特征向量。这个时序特征向量能够反映出语音信号在时间上的变化特征,比如语速的快慢、停顿的位置等。
紧接着,依据该语音区块在待识别语音数据中的频谱信息,生成对应的频谱特征向量。频谱信息反映了语音信号在不同频率上的分布情况,对于识别音色、语调等特征非常关键。
在提取了时序特征向量和频谱特征向量之后,将这些时序特征向量和频谱特征向量与语音区块的区块声学属性向量相结合,生成对应的优化属性向量。
在此基础上,首先将时序特征向量、频谱特征向量和区块声学属性向量进行融合。这个过程可能涉及到权重的调整、特征的缩放等操作,以确保不同特征在向量中的贡献度是合理的。经过特征融合后,生成了一个包含时空信息的优化属性向量。这个优化属性向量不仅包含了语音区块本身的声学属性,还融入了时序和频谱等上下文信息,为后续的语音识别提供了更加全面和准确的特征表示。
通过这样的处理流程,语音识别系统能够更加有效地提取和利用待识别语音数据中的信息,提高识别的准确率和鲁棒性。无论是面对复杂的噪音环境还是多变的语音特征,系统都能够通过优化属性向量来准确地捕捉和识别语音信号中的关键信息。
在一种可能的实施方式中,步骤S110中对所述待识别语音数据包含的各语音区块进行声学属性向量解析,生成对应的区块声学属性向量,包括:
步骤S111,基于递归处理策略,对所述待识别语音数据进行声学属性向量解析。在每轮递归流程中,依据设定的滤波器,对本轮递归的声学知识特征进行滤波,生成滤波特征向量。其中,在第一轮递归时,所述声学知识特征为所述待识别语音数据,在非第一轮递归时,所述声学知识特征为上一轮递归的滤波特征向量。
步骤S111,依据所述滤波特征向量与所述声学知识特征进行跳跃链接,生成融合特征向量。
步骤S113,如果本轮递归为末轮递归,将所述融合特征向量作为本轮递归的滤波特征向量,以及,如果本轮递归并非末轮递归,对所述融合特征向量进行基于特征域的自注意力处理,并将生成的自注意力特征向量作为本轮递归的滤波特征向量。
本实施例中,语音识别系统准备对待识别语音数据进行声学属性向量解析。为了提高解析的准确性和效率,采用了一种基于递归处理策略的方法。
在递归处理的开始,首先设定一个滤波器,用于后续的声学知识特征滤波。同时,确定递归的轮次,包括首轮递归和后续的递归轮次。
在首轮递归中,直接以待识别语音数据作为声学知识特征进行处理。例如,可以通过滤波器对语音数据进行滤波,去除其中的噪音和无关信息,生成滤波特征向量。
对于非首轮递归,可以以上一轮递归的滤波特征向量作为当前的声学知识特征进行处理。同样地,可以通过滤波器对特征向量进行滤波,进一步提取有用的声学信息,生成新的滤波特征向量。
在每一轮递归中,还可以依据滤波特征向量与声学知识特征进行跳跃链接。这种跳跃链接方式可以更好地融合不同层次的声学信息,生成融合特征向量。
当判断当前递归轮次为末轮递归时,可以将融合特征向量作为本轮递归的滤波特征向量,并结束递归处理。此时,生成的滤波特征向量即为对应的区块声学属性向量,它将用于后续的语音识别任务。
如果当前递归轮次并非末轮递归,则对融合特征向量进行基于特征域的自注意力处理。这种处理方式可以加关注重要的声学特征,提高特征向量的表示能力。经过自注意力处理后,生成新的自注意力特征向量,并将其作为本轮递归的滤波特征向量,继续进行下一轮递归处理。
通过这样的递归处理策略,语音识别系统能够逐步提取和融合待识别语音数据中的声学信息,生成高质量的区块声学属性向量,为后续的语音识别任务提供有力的支持。
在一种可能的实施方式中,步骤S130可以包括:
步骤S131,对于所述各优化属性向量中的一个优化属性向量,确定与该优化属性向量特征距离最小的模板属性向量。
步骤S132,依据所述模板属性向量与该优化属性向量之间的偏离度,确定该优化属性向量对应的语音区块的干扰特征参数。
本实施例中,语音识别系统已经生成了一系列的优化属性向量,这些优化属性向量包含了待识别语音数据中各语音区块的声学属性以及时空信息。同时,还预先定义了一些模板属性向量,这些模板属性向量代表了理想的、无干扰的语音特征。
现在,准备依据优化属性向量与模板属性向量之间的特征距离,来确定各语音区块的干扰特征参数。
对于优化属性向量序列中的一个优化属性向量,首先计算它与所有模板属性向量之间的特征距离。特征距离可以通过多种方式来计算,比如欧氏距离、余弦相似度等,具体选择哪种方式取决于向量的特性和系统的需求。
然后,找出与当前优化属性向量特征距离最小的模板属性向量。这个模板属性向量可以被看作是当前语音区块在无干扰情况下的理想特征表示。
确定了与当前优化属性向量特征距离最小的模板属性向量之后,接着计算这两个向量之间的偏离度。偏离度表示了实际语音特征(优化属性向量)与理想语音特征(模板属性向量)之间的差异程度。
接着,依据计算出的偏离度,确定当前优化属性向量对应的语音区块的干扰特征参数。这个干扰特征参数能够反映出该语音区块受到干扰的程度,比如噪音的强度、语音的失真程度等。干扰特征参数的具体数值和表示方式可能因系统的设计和需求而有所不同。
通过这样的处理流程,语音识别系统能够针对每个语音区块,量化其受到的干扰程度,并依据干扰特征参数来进一步优化语音识别算法,提高识别的准确性和鲁棒性。
在一种可能的实施方式中,步骤S130还可以包括:
步骤S133,对于所述各优化属性向量中的一个优化属性向量,确定与该优化属性向量特征距离最小的模板属性向量。
步骤S134,从所述预先定义的模板属性向量中,确定与所述特征距离最小的模板属性向量之间的特征距离不小于设定距离的多个模板属性向量。
步骤S135,依据所述特征距离最小的模板属性向量以及所述多个模板属性向量各自与该优化属性向量之间的偏离度,确定该优化属性向量对应的语音区块的干扰特征参数。
本实施例中,在处理优化属性向量时,首先针对其中的一个优化属性向量,计算它与所有预先定义的模板属性向量之间的特征距离。这里的特征距离是一个量化指标,用于衡量优化属性向量与模板属性向量之间的差异。
然后,确定与当前优化属性向量特征距离最小的模板属性向量。这个模板属性向量可以被看作是与当前语音区块最为接近的理想或标准语音特征。
为了进一步分析当前语音区块可能受到的干扰,本实施例不仅仅关注与最小特征距离对应的那个模板属性向量,还要从预先定义的模板属性向量中找出与最小特征距离模板属性向量之间特征距离不小于设定距离的多个模板属性向量。这些额外的模板属性向量代表了与当前语音区块有一定差异但仍然可能相关的语音特征。它们可能对应于不同的干扰类型或程度,通过分析这些模板属性向量,系统能够获得更全面的干扰信息。
在确定了与当前优化属性向量相关的多个模板属性向量后,接下来计算这些模板属性向量与优化属性向量之间的偏离度。偏离度是一个量化指标,用于衡量实际语音特征(优化属性向量)与理想或标准语音特征(模板属性向量)之间的差异程度。
依据计算出的偏离度,结合最小特征距离的模板属性向量以及相关的多个模板属性向量的信息,确定当前优化属性向量对应的语音区块的干扰特征参数。这个干扰特征参数能够反映出该语音区块受到干扰的类型、程度或特点。
通过这样的处理流程,语音识别系统能够针对每个语音区块,更加准确地确定其受到的干扰情况,并依据干扰特征参数来进一步优化语音识别算法,提高识别的准确性和鲁棒性。
在一种可能的实施方式中,步骤S110中对所述待识别语音数据包含的各语音区块进行声学属性向量解析,生成对应的区块声学属性向量,还可以包括:
步骤S114,依据所述目标声源的目标声源场景标签,从预先定义的多个样例音频数据中,生成对应的目标样例音频数据。
步骤S115,依据所述目标样例音频数据中的预定义的声学矢量节点,对所述待识别语音数据进行声学对齐处理,生成对齐后的音频数据。
步骤S116,依据所述目标样例音频数据中的预先界定的语音区块范围,从所述对齐后的音频数据中,生成所述目标声源占据的目标语音区块。
步骤S117,对所述目标语音区块包含的各语音区块进行声学属性向量解析,生成对应的区块声学属性向量。
本实施例中,在进行声学属性向量解析之前,首先依据目标声源的目标声源场景标签,从预先定义的多个样例音频数据中,生成对应的目标样例音频数据。这些样例音频数据是在不同场景下录制的,包含了各种可能的语音特征和噪音模式。通过选择与目标声源场景标签相匹配的样例音频数据,能够更准确地模拟目标声源在实际环境中的声学特性。
接下来,依据目标样例音频数据中的预定义的声学矢量节点,对待识别语音数据进行声学对齐处理。声学对齐的目的是将待识别语音数据与目标样例音频数据在时间上对齐,使得它们之间的语音信号能够一一对应。这样做有助于系统更准确地提取目标声源的语音特征,并减少其他声源和噪音的干扰。
通过对齐处理,生成了对齐后的音频数据,该对齐后的音频数据在时间上与目标样例音频数据保持一致。
在对齐后的音频数据中,依据目标样例音频数据中的预先界定的语音区块范围,生成目标声源占据的目标语音区块。这些目标语音区块是通过对齐后的音频数据进行切割得到的,每个区块都包含了目标声源在一段时间内的连续语音信号。
通过生成目标语音区块,能够更专注于处理目标声源的语音内容,而忽略其他不相关的声源和噪音。
最后,对目标语音区块包含的各语音区块进行声学属性向量解析。这个过程涉及提取每个语音区块的声学特征,并将这些特征表示为向量形式。声学属性向量包含了语音区块的频谱信息、音素分布、音高和音强等关键声学特征,是后续语音识别任务的重要输入。由此,对每个语音区块进行声学属性向量解析后,生成了对应的区块声学属性向量。这些区块声学属性向量将用于后续的语音识别和解析任务,能够更准确地识别和理解目标声源的语音内容。
图2本申请实施例中提供了一种语音识别系统100,包括处理器1001和存储器1003及存储在存储器1003上的程序代码,该处理器1001执行上述程序代码以实现基于深度学习的手提电脑语音识别方法的步骤。
图2所示的语音识别系统100包括:处理器1001和存储器1003。其中,处理器1001和存储器1003相连,如通过总线1002相连。可选地,语音识别系统100还可以包括收发器1004,收发器1004可以用于该语音识别系统100与其它语音识别系统100之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际调度中收发器1004不限于一个,该语音识别系统100的结构并不构成对本申请实施例的限定。
处理器1001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其它可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器1001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线1002可包括一通路,在上述组件之间传送信息。总线1002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线1002可以分为地址总线、数据总线、控制总线等。为便于表示,图2中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器1003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其它类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其它类型的动态存储设备,也可以是EEPROM(ElectricallyErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(CompactDiscRead Only Memory,只读光盘)或其它光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其它磁存储设备、或者能够用于携带或存储程序代码并能够由计算机读取的任何其它介质,在此不做限定。
存储器1003用于存储执行本申请实施例的程序代码,并由处理器1001来控制执行。处理器1001用于执行存储器1003中存储的程序代码,以实现前述方法实施例所示的步骤。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有程序代码,程序代码被处理器执行时可实现前述方法实施例的步骤及相应内容。
以上所述仅是本申请部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的方案技术构思的前提下,采用依据本申请技术思想的其它类似实施手段,同样属于本申请实施例的保护范畴。

Claims (8)

1.一种基于深度学习的手提电脑语音识别方法,其特征在于,应用于语音识别系统,所述方法包括:
获取输入到所述手提电脑中的包含目标声源的待识别语音数据,并对所述待识别语音数据包含的各语音区块进行声学属性向量解析,生成对应的区块声学属性向量;
基于在先完成模型参数学习的时空优化模型,依据所述各语音区块分别在所述待识别语音数据中的时空信息,分别对对应的区块声学属性向量进行时空优化,生成对应的包含时空信息的优化属性向量;
依据各优化属性向量各自与预先定义的模板属性向量之间的特征距离,分别确定所述各语音区块分别关联的干扰特征参数;其中,各模板属性向量是依据干扰屏蔽音频数据进行解析的,且每个模板属性向量包含相应语音区块的时空信息,所述干扰屏蔽音频数据包含不存在干扰特征的目标声源;
依据生成的各干扰特征参数,确定所述待识别语音数据的干扰状态数据,并基于所述待识别语音数据的干扰状态数据对所述待识别语音数据进行优化处理以生成对应的目标语音数据,对所述目标语音数据进行语义意图识别,获得对应的目标语义意图数据后,基于所述目标语义意图数据对所述手提电脑进行功能控制;
在所述基于在先完成模型参数学习的时空优化模型,依据所述各语音区块分别在所述待识别语音数据中的时空信息,分别对对应的区块声学属性向量进行时空优化,生成对应的包含时空信息的优化属性向量之前,所述方法还包括:
依据多个模板音频数据与分别关联的先验知识标注数据,对初始化权重参数的时空优化模型进行循环模型参数学习,直至符合模型收敛要求时终止,生成所述在先完成模型参数学习的时空优化模型;每个先验知识标注数据表征:相应模板音频数据中各语音区块为干扰语音区块的置信度;
在任意一轮模型参数学习过程中,对于一个模板音频数据,对该模板音频数据的各语音区块进行声学属性向量解析,生成对应的模板声学属性向量;
依据本轮调用的时空优化模型,依据各语音区块在该模板音频数据中的时空信息,分别对对应的模板声学属性向量进行时空优化,生成对应的包含时空信息的优化属性向量;
依据该模板音频数据的各语音区块分别关联的优化属性向量,生成该模板音频数据的干扰状态数据;
依据生成的多个干扰状态数据与对应的先验知识标注数据之间的偏离度,对本轮调用的时空优化模型进行模型参数学习;
在依据各优化属性向量各自与预先定义的模板属性向量之间的特征距离,分别确定所述各语音区块分别关联的干扰特征参数之前,所述方法还包括:
依据第二声学属性向量解析模型,分别对各干扰屏蔽音频数据包含的各语音区块进行声学属性向量解析,生成基础声学属性向量序列,所述基础声学属性向量序列包括所述各干扰屏蔽音频数据的各语音区块分别关联的基础声学属性向量;
对于多个作为训练样本的模板音频数据中的一个模板音频数据,依据所述第二声学属性向量解析模型,分别对该模板音频数据中各语音区块进行声学属性向量解析,生成对应的模板声学属性向量;
依据生成的各模板声学属性向量与所述基础声学属性向量序列之间的特征距离,确定相应语音区块的区块知识数据,每个区块知识数据表征:相应语音区块为干扰语音区块的置信度,依据生成的各区块知识数据,生成该模板音频数据的先验知识标注数据;
依据多个所述模板音频数据与分别关联的先验知识标注数据,对干扰状态检测模型进行循环模型参数学习,直至符合模型收敛要求时终止;其中,所述干扰状态检测模型包括第一声学属性向量解析模型和所述时空优化模型,所述第一声学属性向量解析模型与所述第二声学属性向量解析模型共用相同的模型参数配置数据;
依据完成参数学习的所述干扰状态检测模型中的第一声学属性向量解析模型,分别对所述各干扰屏蔽音频数据进行声学属性向量解析,并依据完成参数学习的所述干扰状态检测模型中的时空优化模型对解析到的区块声学属性向量进行时空优化,生成模板属性向量序列,所述模板属性向量序列包括所述预先定义的模板属性向量。
2.根据权利要求1所述的基于深度学习的手提电脑语音识别方法,其特征在于,依据完成参数学习的所述干扰状态检测模型中的第一声学属性向量解析模型,分别对所述各干扰屏蔽音频数据进行声学属性向量解析,并依据完成参数学习的所述干扰状态检测模型中的时空优化模型对解析到的区块声学属性向量进行时空优化,生成模板属性向量序列,包括:
依据所述第一声学属性向量解析模型,分别对所述各干扰屏蔽音频数据的各语音区块进行声学属性向量解析,并依据完成参数学习的所述干扰状态检测模型中的时空优化模型对解析到的区块声学属性向量进行时空优化,生成优化声学属性向量序列,所述优化声学属性向量序列包括所述各干扰屏蔽音频数据的各语音区块分别关联的优化声学属性向量;
从所述优化声学属性向量序列中游走至少一个优化声学属性向量,对所述模板属性向量序列进行初始化;
轮询优化所述模板属性向量序列;其中,在每次轮询优化时,对于所述优化声学属性向量序列中的各优化声学属性向量,分别确定对应的声学属性向量组合,每个声学属性向量组合包含一个优化声学属性向量,以及所述模板属性向量序列中与该优化声学属性向量特征距离最小的模板属性向量;
对于各声学属性向量组合包含的各模板属性向量,将与每个模板属性向量的特征距离最大的优化声学属性向量加载到所述模板属性向量序列。
3.根据权利要求1或2所述的基于深度学习的手提电脑语音识别方法,其特征在于,基于在先完成模型参数学习的时空优化模型,依据所述各语音区块分别在所述待识别语音数据中的时空信息,分别对对应的区块声学属性向量进行时空优化,生成对应的包含时空信息的优化属性向量,包括:
依据所述在先完成模型参数学习的时空优化模型,对于所述各语音区块中的一个语音区块,依据该语音区块在所述待识别语音数据中的时序信息,生成对应的时序特征向量;
依据该语音区块在所述待识别语音数据中的频谱信息,生成对应的频谱特征向量;
依据该语音区块的区块声学属性向量、时序特征向量和频谱特征向量,生成对应的优化属性向量。
4.根据权利要求1或2所述的基于深度学习的手提电脑语音识别方法,其特征在于,对所述待识别语音数据包含的各语音区块进行声学属性向量解析,生成对应的区块声学属性向量,包括:
基于递归处理策略,对所述待识别语音数据进行声学属性向量解析;在每轮递归流程中,依据设定的滤波器,对本轮递归的声学知识特征进行滤波,生成滤波特征向量;其中,在第一轮递归时,所述声学知识特征为所述待识别语音数据,在非第一轮递归时,所述声学知识特征为上一轮递归的滤波特征向量;
依据所述滤波特征向量与所述声学知识特征进行跳跃链接,生成融合特征向量;
如果本轮递归为末轮递归,将所述融合特征向量作为本轮递归的滤波特征向量;
如果本轮递归并非末轮递归,对所述融合特征向量进行基于特征域的自注意力处理,并将生成的自注意力特征向量作为本轮递归的滤波特征向量。
5.根据权利要求1或2所述的基于深度学习的手提电脑语音识别方法,其特征在于,所述依据各优化属性向量各自与预先定义的模板属性向量之间的特征距离,分别确定所述各语音区块分别关联的干扰特征参数,包括:
对于所述各优化属性向量中的一个优化属性向量,确定与该优化属性向量特征距离最小的模板属性向量;
依据所述模板属性向量与该优化属性向量之间的偏离度,确定该优化属性向量对应的语音区块的干扰特征参数。
6.根据权利要求1或2所述的基于深度学习的手提电脑语音识别方法,其特征在于,所述依据各优化属性向量各自与预先定义的模板属性向量之间的特征距离,分别确定所述各语音区块分别关联的干扰特征参数,包括:
对于所述各优化属性向量中的一个优化属性向量,确定与该优化属性向量特征距离最小的模板属性向量;
从所述预先定义的模板属性向量中,确定与所述特征距离最小的模板属性向量之间的特征距离不小于设定距离的多个模板属性向量;
依据所述特征距离最小的模板属性向量以及所述多个模板属性向量各自与该优化属性向量之间的偏离度,确定该优化属性向量对应的语音区块的干扰特征参数。
7.根据权利要求1或2所述的基于深度学习的手提电脑语音识别方法,其特征在于,对所述待识别语音数据包含的各语音区块进行声学属性向量解析,生成对应的区块声学属性向量,包括:
依据所述目标声源的目标声源场景标签,从预先定义的多个样例音频数据中,生成对应的目标样例音频数据;
依据所述目标样例音频数据中的预定义的声学矢量节点,对所述待识别语音数据进行声学对齐处理,生成对齐后的音频数据;
依据所述目标样例音频数据中的预先界定的语音区块范围,从所述对齐后的音频数据中,生成所述目标声源占据的目标语音区块;
对所述目标语音区块包含的各语音区块进行声学属性向量解析,生成对应的区块声学属性向量。
8.一种语音识别系统,其特征在于,所述语音识别系统包括处理器和机器可读存储介质,该机器可读存储介质中存储有机器可执行指令,该机器可执行指令由该处理器加载并执行以实现权利要求1-7中任意一项所述的基于深度学习的手提电脑语音识别方法。
CN202410178427.4A 2024-02-09 2024-02-09 基于深度学习的手提电脑语音识别方法及系统 Active CN117727298B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410178427.4A CN117727298B (zh) 2024-02-09 2024-02-09 基于深度学习的手提电脑语音识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410178427.4A CN117727298B (zh) 2024-02-09 2024-02-09 基于深度学习的手提电脑语音识别方法及系统

Publications (2)

Publication Number Publication Date
CN117727298A CN117727298A (zh) 2024-03-19
CN117727298B true CN117727298B (zh) 2024-04-19

Family

ID=90209240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410178427.4A Active CN117727298B (zh) 2024-02-09 2024-02-09 基于深度学习的手提电脑语音识别方法及系统

Country Status (1)

Country Link
CN (1) CN117727298B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5625749A (en) * 1994-08-22 1997-04-29 Massachusetts Institute Of Technology Segment-based apparatus and method for speech recognition by analyzing multiple speech unit frames and modeling both temporal and spatial correlation
CN108899050A (zh) * 2018-06-14 2018-11-27 南京云思创智信息科技有限公司 基于多模态情绪识别系统的语音信号分析子系统
US10229672B1 (en) * 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
CN110164417A (zh) * 2019-05-31 2019-08-23 科大讯飞股份有限公司 一种语种向量获得、语种识别的方法和相关装置
CN113610157A (zh) * 2021-01-20 2021-11-05 廖彩红 基于人工智能的业务大数据特征采集方法及服务器
CN115083394A (zh) * 2022-08-22 2022-09-20 广州声博士声学技术有限公司 一种融合时空属性的实时环境噪声识别方法、系统及设备
CN115240696A (zh) * 2022-07-26 2022-10-25 深圳市迪斯声学有限公司 一种语音识别方法及可读存储介质
CN116092497A (zh) * 2023-02-02 2023-05-09 江苏中科西北星信息科技有限公司 一种基于知识图谱和人工智能的语义云脑机器人
CN116226715A (zh) * 2023-03-07 2023-06-06 东南大学 一种基于多模态特征融合的作业人员在线多态识别系统
CN116959094A (zh) * 2023-04-07 2023-10-27 河海大学 一种基于时空图卷积网络的人体行为识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3145254A1 (en) * 2019-07-29 2021-02-04 Edward F. CHANG Method of contextual speech decoding from the brain
CN111261146B (zh) * 2020-01-16 2022-09-09 腾讯科技(深圳)有限公司 语音识别及模型训练方法、装置和计算机可读存储介质
US11361749B2 (en) * 2020-03-11 2022-06-14 Nuance Communications, Inc. Ambient cooperative intelligence system and method

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5625749A (en) * 1994-08-22 1997-04-29 Massachusetts Institute Of Technology Segment-based apparatus and method for speech recognition by analyzing multiple speech unit frames and modeling both temporal and spatial correlation
US10229672B1 (en) * 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
CN108899050A (zh) * 2018-06-14 2018-11-27 南京云思创智信息科技有限公司 基于多模态情绪识别系统的语音信号分析子系统
CN110164417A (zh) * 2019-05-31 2019-08-23 科大讯飞股份有限公司 一种语种向量获得、语种识别的方法和相关装置
CN113610157A (zh) * 2021-01-20 2021-11-05 廖彩红 基于人工智能的业务大数据特征采集方法及服务器
CN115240696A (zh) * 2022-07-26 2022-10-25 深圳市迪斯声学有限公司 一种语音识别方法及可读存储介质
CN115083394A (zh) * 2022-08-22 2022-09-20 广州声博士声学技术有限公司 一种融合时空属性的实时环境噪声识别方法、系统及设备
CN116092497A (zh) * 2023-02-02 2023-05-09 江苏中科西北星信息科技有限公司 一种基于知识图谱和人工智能的语义云脑机器人
CN116226715A (zh) * 2023-03-07 2023-06-06 东南大学 一种基于多模态特征融合的作业人员在线多态识别系统
CN116959094A (zh) * 2023-04-07 2023-10-27 河海大学 一种基于时空图卷积网络的人体行为识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
深度强化学习综述;刘全等;《计算机学报》;20170119(第1期);第1-27页 *

Also Published As

Publication number Publication date
CN117727298A (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
Xu et al. A regression approach to speech enhancement based on deep neural networks
CN107077860B (zh) 用于将有噪音频信号转换为增强音频信号的方法
CN107910011B (zh) 一种语音降噪方法、装置、服务器及存储介质
US6959276B2 (en) Including the category of environmental noise when processing speech signals
EP1199708B1 (en) Noise robust pattern recognition
Krueger et al. Model-based feature enhancement for reverberant speech recognition
CN110767244B (zh) 语音增强方法
JP2006079079A (ja) 分散音声認識システム及びその方法
CN112397083B (zh) 语音处理方法及相关装置
CN109036470B (zh) 语音区分方法、装置、计算机设备及存储介质
CN112185410B (zh) 音频处理方法及装置
US9792898B2 (en) Concurrent segmentation of multiple similar vocalizations
WO2023001128A1 (zh) 音频数据的处理方法、装置及设备
CN116490920A (zh) 用于针对由自动语音识别系统处理的语音输入检测音频对抗性攻击的方法、对应的设备、计算机程序产品和计算机可读载体介质
Hsieh et al. Improving perceptual quality by phone-fortified perceptual loss for speech enhancement
Braun et al. On training targets for noise-robust voice activity detection
Su et al. Perceptually-motivated environment-specific speech enhancement
WO2013061232A1 (en) Audio signal noise attenuation
CN109741761B (zh) 声音处理方法和装置
CN117727298B (zh) 基于深度学习的手提电脑语音识别方法及系统
Han et al. Reverberation and noise robust feature compensation based on IMM
CN112002307B (zh) 一种语音识别方法和装置
Wei et al. Improvements on self-adaptive voice activity detector for telephone data
WO2023102930A1 (zh) 语音增强方法、电子设备、程序产品及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant