CN116959424A - 语音识别方法、语音识别系统、计算机设备及存储介质 - Google Patents
语音识别方法、语音识别系统、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN116959424A CN116959424A CN202310716585.6A CN202310716585A CN116959424A CN 116959424 A CN116959424 A CN 116959424A CN 202310716585 A CN202310716585 A CN 202310716585A CN 116959424 A CN116959424 A CN 116959424A
- Authority
- CN
- China
- Prior art keywords
- voice
- model
- attention
- sub
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000012545 processing Methods 0.000 claims abstract description 134
- 230000008451 emotion Effects 0.000 claims abstract description 120
- 238000010606 normalization Methods 0.000 claims description 18
- 230000007246 mechanism Effects 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 17
- 230000006854 communication Effects 0.000 description 19
- 238000004891 communication Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 15
- 238000013473 artificial intelligence Methods 0.000 description 11
- 230000008859 change Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000037007 arousal Effects 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 4
- 230000009901 attention process Effects 0.000 description 4
- 239000003795 chemical substances by application Substances 0.000 description 4
- 206010039740 Screaming Diseases 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008909 emotion recognition Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 208000037656 Respiratory Sounds Diseases 0.000 description 1
- 206010047924 Wheezing Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000994 depressogenic effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供了一种语音识别方法、语音识别系统、计算机设备及存储介质,属于金融科技技术领域。该方法包括:将具有预设情感类别的目标语音输入至预训练的多任务语音识别模型;通过第一语音编码子模型对目标语音进行语音编码得到初始语音特征;通过第一注意力子模型对初始语音特征进行语音注意力处理得到第一目标注意力特征;通过第二语音编码子模型对初始语音特征进行隐藏特征编码得到隐藏语音特征;通过第二注意力子模型对第一目标注意力特征和隐藏语音特征进行隐藏注意力处理得到第二目标注意力特征;通过多任务分类子模型对第二目标注意力特征进行语音分类得到目标语音标签。本申请实施例能够提高多任务语音识别的识别准确率。
Description
技术领域
本申请涉及金融科技技术领域,尤其涉及一种语音识别方法、语音识别系统、计算机设备及存储介质。
背景技术
目前,随着目标对象对金融银行等服务水平的要求越来越高,银行设置专门用于监控电话坐席服务质量的工作,该电话坐席包括人工客服和智能客服等。并且,对电话坐席和目标对象在通话过程中的情绪进行实时监控与提醒,是提高对象体验和提升服务水平的有效方式之一。相关技术的语音识别方法在进行多任务识别时,通常容易采集到大量不相关的特征信息,且各个子任务语音识别之间容易相互干扰,影响了多任务语音识别的识别准确率。在实际应用中,相关技术的语音识别方法无法及时准确地识别出目标对象的当前情绪,从而无法及时做出对目标对象的情绪安抚。因此,如何提高多任务语音识别的识别准确率,能够及时准确地识别到用户的语音情感变化,并做出语音反馈,成为了当前亟需解决的技术问题。
发明内容
本申请实施例的主要目的在于提出了一种语音识别方法、语音识别系统、计算机设备及存储介质,能够提高多任务语音识别的识别准确率,并能够及时准确地识别到用户的语音情感变化,并做出语音反馈。
为实现上述目的,本申请实施例的第一方面提出了一种语音识别方法,所述方法包括:
获取具有预设情感类别的目标语音;
将所述目标语音输入至预先训练的多任务语音识别模型,所述多任务语音识别模型包括第一语音编码子模型、第一注意力子模型、第二语音编码子模型、第二注意力子模型和多任务分类子模型;
通过所述第一语音编码子模型对所述目标语音进行语音编码处理,得到初始语音特征;
通过所述第一注意力子模型对所述初始语音特征进行语音注意力处理,得到第一目标注意力特征;
通过所述第二语音编码子模型对所述初始语音特征进行隐藏特征编码处理,得到隐藏语音特征;
通过所述第二注意力子模型对所述第一目标注意力特征和所述隐藏语音特征进行隐藏注意力处理,得到第二目标注意力特征;
通过所述多任务分类子模型对所述第二目标注意力特征进行语音分类处理,得到目标语音标签。
在一些实施例中,所述通过所述第一注意力子模型对所述初始语音特征进行语音注意力处理,得到第一目标注意力特征,包括:
将所述初始语音特征输入至所述第一注意力子模型进行特征参数化处理,得到初始语音索引特征、初始语音内容特征和初始语音查询特征;
对所述初始语音索引特征、所述初始语音内容特征和所述初始语音查询特征进行注意力机制处理,得到第一目标注意力特征。
在一些实施例中,所述通过所述第二注意力子模型对所述第一目标注意力特征和所述隐藏语音特征进行隐藏注意力处理,得到第二目标注意力特征,包括:
将所述第一目标注意力特征和所述隐藏语音特征输入至所述第二注意力子模型进行特征参数化处理,得到目标语音索引特征、目标语音内容特征和目标语音查询特征;
根据所述隐藏语音特征更新所述目标语音查询特征;
对所述目标语音索引特征、所述目标语音内容特征和所述目标语音查询特征进行注意力机制处理,得到所述第二目标注意力特征。
在一些实施例中,在所述将所述目标语音输入至预先训练的多任务语音识别模型之前,所述方法还包括:
训练所述多任务语音识别模型,具体包括:
获取具有所述预设情感类别的样本语音和所述样本语音的样本语音标签;
将所述样本语音输入至预构建的初始语音识别模型,所述初始语音识别模型包括所述第一语音编码子模型、所述第一注意力子模型、所述第二语音编码子模型、所述第二注意力子模型和所述多任务分类子模型;
通过所述第一语音编码子模型对所述样本语音进行语音编码处理,得到初始样本语音特征;
通过所述第一注意力子模型对所述初始样本语音特征进行语音注意力处理,得到第一样本注意力特征;
通过所述第二语音编码子模型对所述初始样本语音特征进行隐藏特征编码处理,得到隐藏样本语音特征;
通过所述第二注意力子模型对所述第一样本注意力特征和所述隐藏样本语音特征进行隐藏注意力处理,得到第二样本注意力特征;
通过所述多任务分类子模型对所述第二样本注意力特征进行语音分类处理,得到预测语音标签;
根据所述样本语音标签和所述预测语音标签对所述初始语音识别模型进行参数调整,得到所述多任务语音识别模型。
在一些实施例中,所述预测语音标签包括预测情感属性标签和预测语音文化背景标签,所述样本语音标签包括样本情感属性标签和样本语音文化背景标签,所述根据所述样本语音标签和所述预测语音标签对所述初始语音识别模型进行参数调整,得到所述多任务语音识别模型,包括:
对所述样本情感属性标签和所述预测情感属性标签进行情感属性损失计算,得到情感属性损失数据;
对所述样本语音文化背景标签和所述预测语音文化背景标签进行语音文化背景损失计算,得到语音文化损失数据;
根据所述情感属性损失数据和所述语音文化损失数据对所述初始语音识别模型进行参数调整,得到所述多任务语音识别模型。
在一些实施例中,所述多任务分类子模型包括全连接层和归一化层,所述通过所述多任务分类子模型对所述第二样本注意力特征进行语音分类处理,得到预测语音标签,包括:
根据所述全连接层对所述第二样本注意力特征进行特征分类处理,得到预测语音分类特征;
根据所述归一化层对所述预测语音分类特征进行归一化处理,得到预测语音概率数据;
根据所述预测语音概率数据得到所述预测语音标签。
在一些实施例中,所述通过所述第一语音编码子模型对所述目标语音进行语音编码处理,得到初始语音特征,包括:
对所述目标语音进行特征编码处理,得到初始语音编码特征;
对所述初始语音编码特征进行位置编码处理,得到目标语音编码特征;
对所述目标语音编码特征进行特征变换处理,得到初始语音特征。
为实现上述目的,本申请实施例的第二方面提出了一种语音识别系统,所述系统包括:
语音获取模块,用于获取具有预设情感类别的目标语音;
语音输入模块,用于将所述目标语音输入至预先训练的多任务语音识别模型,所述多任务语音识别模型包括第一语音编码子模型、第一注意力子模型、第二语音编码子模型、第二注意力子模型和多任务分类子模型;
第一语音编码模块,用于通过所述第一语音编码子模型对所述目标语音进行语音编码处理,得到初始语音特征;
第一注意力处理模块,用于通过所述第一注意力子模型对所述初始语音特征进行语音注意力处理,得到第一目标注意力特征;
第二语音编码模块,用于通过所述第二语音编码子模型对所述初始语音特征进行隐藏特征编码处理,得到隐藏语音特征;
第二注意力处理模块,用于通过所述第二注意力子模型对所述第一目标注意力特征和所述隐藏语音特征进行隐藏注意力处理,得到第二目标注意力特征;
语音分类模块,用于通过所述多任务分类子模型对所述第二目标注意力特征进行语音分类处理,得到目标语音标签。
为实现上述目的,本申请实施例的第三方面提出了一种计算机设备,包括:
至少一个存储器;
至少一个处理器;
至少一个计算机程序;
所述计算机程序被存储在所述存储器中,处理器执行所述至少一个计算机程序以实现上述第一方面实施例任一项所述的方法。
为实现上述目的,本申请实施例的第四方面还提出一种存储介质,所述存储介质为计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于使计算机执行上述第一方面实施例任一项所述的方法。
本申请实施例提出的语音识别方法、语音识别系统、计算机设备及存储介质,首先,获取具有预设情感类别的目标语音,将目标语音输入至预先训练的多任务语音识别模型,该多任务语音识别模型包括第一语音编码子模型、第一注意力子模型、第二语音编码子模型、第二注意力子模型和多任务分类子模型。通过第一语音编码子模型对目标语音进行语音编码处理,得到初始语音特征。通过第一注意力子模型对初始语音特征进行语音注意力处理,得到第一目标注意力特征。之后,通过第二语音编码子模型对初始语音特征进行隐藏特征编码处理,得到隐藏语音特征,并通过第二注意力子模型对第一目标注意力特征和隐藏语音特征进行隐藏注意力处理,得到第二目标注意力特征,本申请实施例通过将第二语音编码子模型的输出作为第二注意力子模型的部分输入,能够通过改进的多任务语音识别模型有效提取一段语音中更深维度的情感特征信息。通过多任务分类子模型对第二目标注意力特征进行语音分类处理,得到目标语音标签。本申请实施例通过将注意力处理的输出和特征编码的输出进行结合,能够避免采集到大量不相关的特征信息,由此可知,当根据本申请实施例提供的多任务语音识别模型对目标语音进行语音识别,能够有效提高多任务语音识别的识别准确率,从而能够及时准确地识别到用户的语音情感变化,并做出语音反馈。
附图说明
图1是本申请实施例提供的语音识别方法的第一流程图;
图2是本申请实施例提供的多任务语音识别模型的训练过程的流程图;
图3是图1中步骤S130的具体方法的流程图;
图4是图1中步骤S140的具体方法的流程图;
图5是图1中步骤S160的具体方法的流程图;
图6是本申请实施例提供的初始语音识别模型的一种模型结构示意图;
图7是本申请实施例提供的初始语音识别模型的另一种模型结构示意图;
图8是图2中步骤S270的具体方法的流程图;
图9是图2中步骤S280的具体方法的流程图;
图10是本申请实施例提供的语音识别系统的模块框图;
图11是本申请实施例提供的计算机设备的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
首先,对本申请中涉及的若干名词进行解析:
人工智能(Artificial Intelligence,AI):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
注意力机制(Attention Mechanism):注意力机制可以使得神经网络具备专注于其输入(或特征)子集的能力,选择特定的输入,可以应用于任何类型的输入而不管其形状如何。在计算能力有限情况下,注意力机制是解决信息超载问题的主要手段的一种资源分配方案,将计算资源分配给更重要的任务。
归一化处理:指将数据特征按比例缩放,使之落入一个小的特定区间,以去除数据特征的单位限制,将其转化为无量纲的纯数值,便于使用不同单位或量级的指标进行比较和加权。
目前,随着目标对象对金融银行等服务水平的要求越来越高,银行设置专门用于监控电话坐席服务质量的工作,该电话坐席包括人工客服和智能客服等。并且,对电话坐席和目标对象在通话过程中的情绪进行实时监控与提醒,是提高对象体验和提升服务水平的有效方式之一。相关技术的语音识别方法在进行多任务识别时,通常容易采集到大量不相关的特征信息,且各个子任务语音识别之间容易相互干扰,影响了多任务语音识别的识别准确率。在实际应用中,相关技术的语音识别方法无法及时准确地识别出目标对象的当前情绪,从而无法及时做出对目标对象的情绪安抚。因此,如何提高多任务语音识别的识别准确率,能够及时准确地识别到用户的语音情感变化,以做出语音反馈,成为了当前亟需解决的技术问题。
基于此,本申请实施例提供一种语音识别方法、语音识别系统、计算机设备及存储介质,能够提高多任务语音识别的识别准确率,从而能够及时准确地识别到用户的语音情感变化,以做出语音反馈。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的语音识别方法,涉及人工智能技术领域。本申请实施例提供的语音识别方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的软件。在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机或者智能手表等;服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器;软件可以是实现语音识别方法的应用等,但并不局限于以上形式。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
请参照图1,图1是本申请实施例提供的语音识别方法的一个可选的流程图。在本申请的一些实施例中,语音识别方法具体包括但不限于步骤S110至步骤S170,下面结合图1对这七个步骤进行详细介绍。
步骤S110,获取具有预设情感类别的目标语音;
步骤S120,将目标语音输入至预先训练的多任务语音识别模型,多任务语音识别模型包括第一语音编码子模型、第一注意力子模型、第二语音编码子模型、第二注意力子模型和多任务分类子模型;
步骤S130,通过第一语音编码子模型对目标语音进行语音编码处理,得到初始语音特征;
步骤S140,通过第一注意力子模型对初始语音特征进行语音注意力处理,得到第一目标注意力特征;
步骤S150,通过第二语音编码子模型对初始语音特征进行隐藏特征编码处理,得到隐藏语音特征;
步骤S160,通过第二注意力子模型对第一目标注意力特征和隐藏语音特征进行隐藏注意力处理,得到第二目标注意力特征;
步骤S170,通过多任务分类子模型对第二目标注意力特征进行语音分类处理,得到目标语音标签。
需要说明的是,在实际应用环境中,本申请实施例提供的语音识别方法可以分别由终端或服务器执行,或由终端和服务器协同执行。其中,终端通过网络与服务器进行通信,例如,以该语音识别方法在对应的终端执行为例进行说明,具体为:终端从本地获取具有预设情感类别的目标语音,根据训练得到的多任务语音识别模型对该目标语音进行语音识别处理,得到目标语音在多任务分类条件下的目标语音标签。其中,该多任务语音识别模型是终端或服务器基于预获取的样本语音和对应的样本语音标签进行训练所得的,并部署于终端。该语音识别方法也可以部署于服务器,以便服务器也可以实现上述语音识别方法的步骤,在此不再赘述。
在一些实施例的步骤S110中,在人类的情感交流中,大笑、抽泣、尖叫等突发语音中包含了许多对语音情感识别有效的隐藏信息,这些信息对于情感表达和交流中存在一定的重要意义。本申请实施例提供的语音识别方法用于对具有预设情感类别的目标语音进行语音识别,能够及时准确地识别到用户的语音情感变化,从而做出语音反馈。其中,预设情感类别用于表征预设突发语音的类别,则该预设情感类别可以为大笑、抽泣、尖叫等用于表征目标对象突然间情感转变所产生的语音。
需要说明的是,在步骤S110之前,本申请实施例还可以包括:获取目标对象的初始语音,对该初始语音进行突发语音识别,得到具有预设情感类别的目标语音。具体地,对该初始语音进行音高分布检测,得到语音音高分布数据,该语音音高分布数据包括多个音高帧数据,从语音音高分布数据的第一个音高帧数据进行音高帧判断,若当前判断的音高帧数据与其前一音高帧数据之间的音高差值超过预设音高阈值,则确定该当前判断的音高帧数据为初始音高帧数据,继续对之后的音高帧数据进行音高帧判断;若再次识别到当前判断的音高帧数据与其前一音高帧数据之间的音高差值超过预设音高阈值,则确定该当前判断的音高帧数据为结束音高帧数据。因此,以该初始音高帧数据对应的语音位置和结束音高帧数据对应的语音位置对初始语音进行语音截取,得到目标语音。之后,对该目标语音和预设的突发语音识别模型进行语音情感识别,得到目标语音的预设情感类别。其中,该预设的突发语音识别模型为根据构建的突发样本集进行训练得到,突发样本集包括多个突发语音和突发语音对应的突发情感类别,突发情感类别与上述预设情感类别的设置相同,在此不再赘述。
需要说明的是,突发语音识别模型的模型结构可以采用包括基于动态神经网络-隐马尔科夫模型(Dynamic Neural Network-Hidden Markov Model,DNN-HMM)、N-Gram语言模型或基于有限加权状态转换机的情绪分析模型中的任一种,本申请对突发语音识别模型并不作限定。
本申请的语音识别方法可以用于辅助如智能客服、智能汽车、智能家居等对目标对象的情感的语音识别中。例如,在金融银行的智能客服场景下,智能客服与目标对象进行语音交流时,当突然识别到目标对象的情绪为抽泣或大哭,则根据目标对象的情绪转变提示智能客服进行话术调用,即调用安抚的语音话术去对目标对象进行安抚操作。当识别到目标对象的情绪为平稳状态,则继续进行业务沟通。因此,本申请所提供的语音识别方法能够识别目标语音的突发声音,从而根据识别出突发声音的语音情感类别调用对应的话术语音,有效提高了用户体验。
在一些实施例的步骤S120中,为了避免大量冗余且不相关的特征信息干扰,将目标语音输入至预先训练的多任务语音识别模型,该多任务语音识别模型包括第一语音编码子模型、第一注意力子模型、第二语音编码子模型、第二注意力子模型和多任务分类子模型,本申请实施例通过将自监督学习和注意力机制结合的方法构建多任务语音识别模型,能够更好地组合进行语音识别的各个子任务。
在一些实施例的步骤S130中,为了提取目标语音的声音特征信息,首先,通过第一语音编码子模型对目标语音进行语音编码处理,以得到目标语音的初始语音特征,即初步提取目标语音的声音特征信息。
在一些实施例的步骤S140中,为了捕捉到更丰富的特征信息,通过第一注意力子模型对初始语音特征进行语音注意力处理,以从初始语音特征中确定目标对象最主要表达的情感信息的语音特征。
在一些实施例的步骤S150中,通过第二语音编码子模型对初始语音特征进行隐藏特征编码处理,该第二语音编码子模型对应的卷积层的卷积核比第一语音编码子模型对应的卷积层的卷积核减小,从而使得到的隐藏语音特征能够有效提取语音细节特征信息。
在一些实施例的步骤S160中,由于现有技术的语音识别模型容易采集到大量冗余且不相关特征,从而不能有效地提取目标语音的深层语义信息,且现有的模型连接结构也容易造成误差累积。为了避免这些情况,本申请通过将第二语音编码子模型的输出层和第一注意力子模型的输出层都连接第二注意力子模型的输入层,即通过第二注意力子模型对第一目标注意力特征和隐藏语音特征进行隐藏注意力处理,实现了将注意力处理的输出和特征编码的输出进行结合,能够从中提取出更高维的语音信息。
在一些实施例的步骤S170中,由于真实环境中的语音信号是一种复杂的混合信号,其中既包含了丰富的语义信息,也包含了目标对象的相关身份信息、情感信息和环境信息等,为了使语音识别能够同时识别语音信号中包含的多维信息,使得更加符合智能化人机交互的语音识别处理,本申请实施例通过多任务分类子模型对第二目标注意力特征进行语音分类处理,得到目标语音标签,可以实现同时进行语音情感属性识别、目标对象的身份背景识别等的多任务语音识别,其中,语音情感属性用于表示语音情感强度、语音情感类型等信息,目标对象的身份背景识别可以用于表示目标对象的性别信息、环境信息、语音文化背景信息等。
需要说明的是,本申请根据多任务分类子模型得到的目标语音标签可以为多维度标签,且每个维度的标签在利用其对应的具体任务分类器进行语音分类时,每个维度的标签状态可以采用独热(One-Hot)形式,以保证每个维度对应的具体任务分类器都可以分别正常执行。
需要说明的是,例如,本申请的多任务分类子模型包括四个具体任务分类器,分别为第一任务分类器、第二任务分类器、第三任务分类器和第四任务分类器,则得到的目标语音标签可以表示为(a,b,c,d),其中,a表示目标语音在第一任务分类器下分类得到的具体类别,b表示目标语音在第二任务分类器下分类得到的具体类别,c表示目标语音在第三任务分类器下分类得到的具体类别,d表示目标语音在第四任务分类器下分类得到的具体类别,从而可以根据得到的多维目标语音标签更全面精准地实现对目标语音的识别分析,进而有效提高多任务语音识别的识别准确率。
请参照图2,图2是本申请实施例提供的多任务语音识别模型的训练过程的流程图。在本申请的一些实施例中,在步骤S120之前,语音识别方法具体还包括:训练多任务语音识别模型,该训练过程具体可以包括但不限于步骤S210至步骤S280,下面结合图2对这八个步骤进行详细介绍。
步骤S210,获取具有预设情感类别的样本语音和样本语音的样本语音标签;
步骤S220,将样本语音输入至预构建的初始语音识别模型,初始语音识别模型包括第一语音编码子模型、第一注意力子模型、第二语音编码子模型、第二注意力子模型和多任务分类子模型;
步骤S230,通过第一语音编码子模型对样本语音进行语音编码处理,得到初始样本语音特征;
步骤S240,通过第一注意力子模型对初始样本语音特征进行语音注意力处理,得到第一样本注意力特征;
步骤S250,通过第二语音编码子模型对初始样本语音特征进行隐藏特征编码处理,得到隐藏样本语音特征;
步骤S260,通过第二注意力子模型对第一样本注意力特征和隐藏样本语音特征进行隐藏注意力处理,得到第二样本注意力特征;
步骤S270,通过多任务分类子模型对第二样本注意力特征进行语音分类处理,得到预测语音标签;
步骤S280,根据样本语音标签和预测语音标签对初始语音识别模型进行参数调整,得到多任务语音识别模型。
在一些实施例的步骤S210中,样本语音的获取方式与上述目标语音的获取方式相同,在此不再赘述。样本语音标签为根据多任务分类子模型中每种分类任务预先标记的多维标签,该样本语音标签用于作为样本语音进行语音识别的目标识别结果。
在一些实施例的步骤S220中,将样本语音输入至预构建的初始语音识别模型,该初始语音识别模型包括第一语音编码子模型、第一注意力子模型、第二语音编码子模型、第二注意力子模型和多任务分类子模型,本申请实施例通过将自监督学习和注意力机制结合的方法构建多任务语音识别模型,能够更好地组合进行语音识别的各个子任务。
需要说明的是,该初始语音识别模型可以基于Wav2vec2.0预训练语音模型进行构建,并对该模型进行结构改进。
在一些实施例的步骤S230中,为了提取目标语音的声音特征信息,通过第一语音编码子模型对样本语音进行语音编码处理,得到初始样本语音特征。
请参照图3,图3是本申请实施例提供的步骤S130的具体方法的流程图。在本申请的一些实施例中,步骤S130具体包括但不限于步骤S310至步骤S330。下面结合图3对这三个进行详细介绍。
步骤S310,对目标语音进行特征编码处理,得到初始语音编码特征;
步骤S320,对初始语音编码特征进行位置编码处理,得到目标语音编码特征;
步骤S330,对目标语音编码特征进行特征变换处理,得到初始语音特征。
在一些实施例的步骤S310至步骤S330中,第一语音编码子模型包括语音编码层、位置编码层和编码注意力层。通过语音编码层对目标语音进行特征编码处理,得到初始语音编码特征,该语音编码层能够有效提取语音特征信息。然后,通过位置编码层对初始语音编码特征进行位置编码处理,得到目标语音编码特征,该目标语音编码特征中嵌入了位置信息,能够使初始语音识别模型确定样本语音中每个语音信息在特征序列中的位置,从而为每个位置分配一个唯一的特征表示。最后,通过编码注意力层对目标语音编码特征进行特征变换处理,即可以根据Transform结构中的全局注意力机制进行特征变换处理,以得到初始语音特征。
需要说明的是,语音编码层可以设置为七层卷积网络,第一层卷积网络为组归一化卷积,是将目标语音的语音序列的数据通道分为很多组,对每组求均值和方差,然后对每组进行归一化,得到归一化特征,该语音组归一化层能够加快模型收敛速度,同时缓解梯度消失的问题。语音编码层的最后一层卷积网络为层归一化卷积,即对上一层得到的编码特征中每个批次特征数据内的通道做归一化处理,从而保证其对应的卷积层的数据分布的稳定性。
在一些实施例的步骤S240中,为了捕捉到更丰富的特征信息,通过第一注意力子模型对初始样本语音特征进行语音注意力处理,具体地,本申请可以采用基于多头注意力结构的第一注意力子模型对初始样本语音特征进行语音注意力处理,能够有效避免由于同一种注意力机制可能产生的偏差,且从初始样本语音特征中确定目标对象进行语音表达时最主要的情感信息。
请参照图4,图4是本申请实施例提供的步骤S140的具体方法的流程图。在一些实施例中,步骤S140具体可以包括但不限于步骤S410和步骤S420,下面结合图4对这两个步骤进行详细介绍。
步骤S410,将初始语音特征输入至第一注意力子模型进行特征参数化处理,得到初始语音索引特征、初始语音内容特征和初始语音查询特征;
步骤S420,对初始语音索引特征、初始语音内容特征和初始语音查询特征进行注意力机制处理,得到第一目标注意力特征。
在一些实施例的步骤S410和步骤S420中,注意力子模型是指在特定场景下解决某个问题时,对解决该问题需要考虑的不同信息施加不同的权重,即注意力分数,对问题帮助大的信息施加更高的权重,对问题帮助小的信息施加更低的权重,从而更好地运用这些信息解决问题的模型。本申请实施例将初始语音特征输入至第一注意力子模型,分别根据预设的三个参数矩阵与初始语音特征进行特征参数化处理,得到初始语音索引特征K1、初始语音内容特征Q1和初始语音查询特征V1。对初始语音索引特征K1、初始语音内容特征Q1和初始语音查询特征V1进行注意力机制处理,具体地,根据初始语音内容特征Q1和初始语音索引特征K1得到初始注意力得分,对初始注意力得分进行归一化处理,得到目标注意力得分,并根据目标注意力得分和初始语音查询特征V1进行加权计算,得到第一目标注意力特征。
在一些实施例的步骤S250中,通过第二语音编码子模型对初始样本语音特征进行隐藏特征编码处理,该第二语音编码子模型对应的卷积层的卷积核比第一语音编码子模型对应的卷积层的卷积核减小,从而使得到的隐藏样本语音特征能够有效提取语音细节特征信息。其中,第二语音编码子模型包括位置编码层和编码注意力层,该位置编码层和编码注意力层与上述第一语音编码子模型中对应的结构相同,在此不再赘述。
在一些实施例的步骤S260中,本申请通过将第二语音编码子模型的输出层和第一注意力子模型的输出层都连接第二注意力子模型的输入层,即通过第二注意力子模型对第一目标注意力特征和隐藏语音特征进行隐藏注意力处理,实现了将注意力处理的输出和特征编码的输出进行结合,能够从中提取出更高维的语音信息。
请参照图5,图5是本申请的实施例提供的步骤S160的流程图。在一些实施例中,步骤S160具体包括但不限于步骤S510至步骤S530,下面结合图5对这三个步骤进行详细介绍。
步骤S510,将第一目标注意力特征和隐藏语音特征输入至第二注意力子模型进行特征参数化处理,得到目标语音索引特征、目标语音内容特征和目标语音查询特征;
步骤S520,根据隐藏语音特征更新目标语音查询特征;
步骤S530,对目标语音索引特征、目标语音内容特征和目标语音查询特征进行注意力机制处理,得到第二目标注意力特征。
在一些实施例的步骤S510至步骤S530中,将第一目标注意力特征和隐藏语音特征输入至第二注意力子模型进行特征参数化处理,得到目标语音索引特征K2、目标语音内容特征V2和目标语音查询特征Q2,根据第二语音编码子模型输出的隐藏语音特征更新目标语音查询特征Q2,并对目标语音索引特征K2、目标语音内容特征V2和目标语音查询特征Q2进行注意力机制处理,即此时的目标语音查询特征Q2为隐藏语音特征。本申请实施例实现了将注意力处理的输出和特征编码的输出进行结合,能够从中提取出更高维的语音信息。
示例性的,请参照图6,初始语音识别模型包括第一语音编码子模型610、第一注意力子模型620、第二语音编码子模型630、第二注意力子模型640和多任务分类子模型650,第一语音编码子模型610的输出端分别连接第一注意力子模型620和第二语音编码子模型630,以通过第一注意力子模型620对第一语音编码子模型610输出的初始样本语音特征进行语音注意力处理,得到第一样本注意力特征,通过第二语音编码子模型630对初始样本语音特征进行隐藏特征编码处理,得到隐藏样本语音特征。通过第二注意力子模型640对第一样本注意力特征和隐藏样本语音特征进行隐藏注意力处理,并将得到的第二样本注意力特征输入到多任务分类子模型650进行语音分类处理。
示例性的,请参照图7,当初始语音识别模型还包括第三语音编码子模型660和第三注意力子模型670,该第三语音编码子模型660与第二语音编码子模型630的结构相同,第三注意力子模型670与第二注意力子模型640的结构相同,且第二语音编码子模型630的输出端连接第三语音编码子模型660的输入端,第二注意力子模型640的输出端连接第三注意力子模型670的输入端,第三语音编码子模型660的输出端连接第三注意力子模型670的输入端。本申请实施例能够通过第三语音编码子模型660对隐藏样本语音特征进行深层特征编码处理,更新隐藏样本语音特征。通过第三注意力子模型670对第二样本注意力特征和更新后的隐藏样本语音特征进行深层隐藏注意力处理,并根据处理结果更新第二样本注意力特征,并将更新后的第二样本注意力特征输入到多任务分类子模型650进行语音分类处理,得到预测语音标签。
需要说明的是,本申请实施例所得到的多任务语音识别模型,是通过将每个语音编码子模型的输出端,与其上一层语音编码子模型所连接的注意力子模型的输出端共同输入到一个新的注意力子模型,从而提取到更深层且注意力权重更高的语音信息。
在一些实施例的步骤S270中,为了使语音识别能够同时识别语音信号中包含的多维信息,本申请实施例通过多任务分类子模型对第二目标注意力特征进行语音分类处理,得到目标语音标签,可以实现同时进行语音属性识别、目标对象身份背景识别等的多任务语音识别。
请参照图8,图8是本申请的实施例提供的步骤S270的流程图。在一些实施例中,多任务分类子模型包括全连接层和归一化层,步骤S270具体可以包括但不限于步骤S810至步骤S830,下面结合图8对这三个步骤进行详细介绍。
步骤S810,根据全连接层对第二样本注意力特征进行特征分类处理,得到预测语音分类特征;
步骤S820,根据归一化层对预测语音分类特征进行归一化处理,得到预测语音概率数据;
步骤S830,根据预测语音概率数据得到预测语音标签。
在一些实施例的步骤S810至步骤S830中,多任务分类子模型包括多个分类器,且每个分类器包括全连接层和归一化层,根据全连接层对第二样本注意力特征进行特征分类处理得到预测语音分类特征,并根据归一化层对预测语音分类特征进行归一化处理,得到预测语音概率数据,对得到的预测语音概率数据进行数值比较,将概率数据最大的标签确定为预测语音标签。
示例性的,当多任务分类子模型包括四个分类器,分别为情感强度分类器、二维情感属性分类器、语音文化背景分类器和情感类型分类器。其中,情感强度分类器用于表示根据十种标注的高维情感表达标签的分类,例如,敬畏、恐惧、惊讶、兴奋等,且每种高维情感表达与每个该类型声音的爆发程度信息相关联。二维情感属性分类器用于表示根据情感的唤醒度和效价对语音进行情感属性的分类,情感效价分为正性和负性的情感,即用于表示对情感属性的自我评估;情感唤醒度用于表示情感的激活程度指标,例如,唤醒度和效价为1表示不愉快/压抑,唤醒度和效价为5表示中性情感,唤醒度和效价为9表示愉快/刺激等。语音文化背景分类器用于表示根据跨文化高维情感背景的分类,该分类器根据预构建的文化数据集进行训练得到,该文化数据集的标签由10维、4个标准文化背景构建,即包含40种情绪强度,且根据特定文化的组成结构,构建了每种文化背景下情绪的特征信息。情感类型分类器用于表示对具体突发声音类型的分类,例如,喘气,大笑,尖叫,咕哝等。需要说明的是,对多任务分类子模型所包含的分类器数目不作具体限定,且将最后一个注意力子模型的输出端分别连接到每个分类器输入端中。
在一些实施例的步骤S280中,根据多任务分类子模型中每个分类器对应得到的预测语音标签和对应的样本语音标签对初始语音识别模型进行参数调整,得到多任务语音识别模型,则该多任务语音识别模型的模型结构和参数调整后的初始语音识别模型的模型结构相同。因此,本申请通过多任务分类子模型对多维属性信息的分类识别,能够提高多任务语音识别的识别准确率,即得到更准确的目标语音标签,并能够及时准确地识别到用户的语音情感变化。
请参照图9,图9是本申请一些实施例提供的步骤S280的流程图。在一些实施例中,预测语音标签包括预测情感属性标签和预测语音文化背景标签,样本语音标签包括样本情感属性标签和样本语音文化背景标签,步骤S280具体可以包括但不限于步骤S910至步骤S930。
步骤S910,对样本情感属性标签和预测情感属性标签进行情感属性损失计算,得到情感属性损失数据;
步骤S920,对样本语音文化背景标签和预测语音文化背景标签进行语音文化背景损失计算,得到语音文化损失数据;
步骤S930,根据情感属性损失数据和语音文化损失数据对初始语音识别模型进行参数调整,得到多任务语音识别模型。
在一些实施例的步骤S910至步骤S930中,当多任务分类子模型包括二维情感属性分类器和语音文化背景分类器,则对样本情感属性标签和预测情感属性标签进行情感属性损失计算,得到情感属性损失数据;对样本语音文化背景标签和预测语音文化背景标签进行语音文化背景损失计算,得到语音文化损失数据。根据情感属性损失数据和语音文化损失数据进行加权计算得到总损失值,并根据总损失值对初始语音识别模型进行参数调整,得到多任务语音识别模型。
需要说明的是,当多任务分类子模型包括四个分类器,分别为情感强度分类器、二维情感属性分类器、语音文化背景分类器和情感类型分类器,则预测语音标签还包括预测情感强度标签和预测情感类型标签,样本语音标签还包括样本情感强度标签和样本情感类型标签。因此,对预测情感强度标签和样本情感强度标签进行情感强度损失计算,得到情感强度损失数据,并对预测情感类型标签和样本情感类型标签进行情感类型损失计算,得到情感类型损失数据。根据情感强度损失数据和情感类型损失数据和总损失值进行加权计算,更新总损失值,并根据更新后的总损失值对初始语音识别模型进行参数调整,得到多任务语音识别模型。
示例性的,在金融银行的智能客服或人工客服场景下,智能客服或人工客服与目标对象进行语音交流时,会实时采集识别目标对象的目标语音,并将采集的目标语音输入预先训练的多任务语音识别模型,以通过对多维属性信息的识别得到更准确的目标语音标签。例如,当识别到目标语音中包含突发声音即尖叫,则表明当前目标对象的情感状态发生了明显的变化,可能无法正常进行交流。因此,通过页面显示或信息通知提示智能客服或人工客服调用预先存储的应对尖叫情感类别的语音话术,例如,“您目前发生了什么呢”、“是否需要提供什么帮助”等话术,并在沟通过程中调用预先存储的安抚话术,如“我非常理解您的心情,我马上为您处理”等对目标对象进行安抚操作。之后,在对目标语音的实时监测识别中,当识别到目标语音中无突发声音,且目标语音的情感类别与情感变化之前的语音标签相同,即目标对象的情感状态恢复到正常状态,则继续进行业务沟通。
请参照图10,图10是本申请一些实施例提供的语音识别系统的模块框图。在一些实施例中,语音识别系统具体可以包括语音获取模块1010、语音输入模块1020、第一语音编码模块1030、第一注意力处理模块1040、第二语音编码模块1050、第二注意力处理模块1060和语音分类模块1070。
语音获取模块1010,用于获取具有预设情感类别的目标语音;
语音输入模块1020,用于将目标语音输入至预先训练的多任务语音识别模型,多任务语音识别模型包括第一语音编码子模型、第一注意力子模型、第二语音编码子模型、第二注意力子模型和多任务分类子模型;
第一语音编码模块1030,用于通过第一语音编码子模型对目标语音进行语音编码处理,得到初始语音特征;
第一注意力处理模块1040,用于通过第一注意力子模型对初始语音特征进行语音注意力处理,得到第一目标注意力特征;
第二语音编码模块1050,用于通过第二语音编码子模型对初始语音特征进行隐藏特征编码处理,得到隐藏语音特征;
第二注意力处理模块1060,用于通过第二注意力子模型对第一目标注意力特征和隐藏语音特征进行隐藏注意力处理,得到第二目标注意力特征;
语音分类模块1070,用于通过多任务分类子模型对第二目标注意力特征进行语音分类处理,得到目标语音标签。
需要说明的是,本申请实施例的语音识别系统用于实现上述语音识别方法,本申请实施例的语音识别系统与前述的语音识别方法相对应,具体的处理过程请参照前述的语音识别方法,在此不一一赘述。
本申请实施例还提供了一种计算机设备,包括:
至少一个存储器;
至少一个处理器;
至少一个计算机程序;
程序被存储在存储器中,处理器执行至少一个计算机程序以实现上述本申请实施例的语音识别方法。该计算机设备可以为包括手机、平板电脑、个人数字助理(PersonalDigital Assistant,PDA)、车载电脑等任意智能终端。
下面结合图11对本申请实施例的计算机设备进行详细介绍。
如图11,图11示意了另一实施例的计算机设备的硬件结构,该计算机设备包括:
处理器1110,可以采用通用的中央处理器(Central Processing Unit,CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案;
存储器1120,可以采用只读存储器(Read Only Memory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory,RAM)等形式实现。存储器1120可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1120中,并由处理器1110来调用执行本申请实施例的语音识别方法;
输入/输出接口1130,用于实现信息输入及输出;
通信接口1140,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;
总线1150,在设备的各个组件(例如处理器1110、存储器1120、输入/输出接口1130和通信接口1140)之间传输信息;
其中处理器1110、存储器1120、输入/输出接口1130和通信接口1140通过总线1150实现彼此之间在设备内部的通信连接。
本申请实施例还提供了一种存储介质,该存储介质是计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令用于使计算机执行上述实施例的语音识别方法。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请实施例提供的一种语音识别方法、语音识别系统、计算机设备及存储介质,通过获取具有预设情感类别的目标语音,将目标语音输入至预先训练的多任务语音识别模型,该多任务语音识别模型包括第一语音编码子模型、第一注意力子模型、第二语音编码子模型、第二注意力子模型和多任务分类子模型。通过第一语音编码子模型对目标语音进行语音编码处理,得到初始语音特征。将初始语音特征输入至第一注意力子模型进行特征参数化处理,得到初始语音索引特征、初始语音内容特征和初始语音查询特征,对初始语音索引特征、初始语音内容特征和初始语音查询特征进行注意力机制处理,得到第一目标注意力特征。之后,将第一目标注意力特征和隐藏语音特征输入至第二注意力子模型进行特征参数化处理,得到目标语音索引特征、目标语音内容特征和目标语音查询特征,根据隐藏语音特征更新目标语音查询特征,并对目标语音索引特征、目标语音内容特征和目标语音查询特征进行注意力机制处理,得到第二目标注意力特征。本申请实施例通过将第二语音编码子模型的输出作为第二注意力子模型的部分输入,能够通过改进的多任务语音识别模型有效提取一段语音中更深维度的情感特征信息。通过多任务分类子模型对第二目标注意力特征进行语音分类处理,得到目标语音标签。本申请实施例使用多层Transformer的隐藏激活向量输入到基于多头注意力网络构建的多个注意力子模型中,充分利用了不同任务特征之间的相关性,且本申请实施例通过将注意力处理的输出和特征编码的输出进行结合,能够避免采集到大量不相关的特征信息。由此可知,当根据本申请实施例提供的多任务语音识别模型对目标语音进行语音识别,能够有效提高多任务语音识别的识别准确率。
本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本领域技术人员可以理解的是,图中示出的技术方案并不构成对本申请实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序的介质。
以上参照附图说明了本申请实施例的优选实施例,并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本申请实施例的权利范围之内。
Claims (10)
1.一种语音识别方法,其特征在于,所述方法包括:
获取具有预设情感类别的目标语音;
将所述目标语音输入至预先训练的多任务语音识别模型,所述多任务语音识别模型包括第一语音编码子模型、第一注意力子模型、第二语音编码子模型、第二注意力子模型和多任务分类子模型;
通过所述第一语音编码子模型对所述目标语音进行语音编码处理,得到初始语音特征;
通过所述第一注意力子模型对所述初始语音特征进行语音注意力处理,得到第一目标注意力特征;
通过所述第二语音编码子模型对所述初始语音特征进行隐藏特征编码处理,得到隐藏语音特征;
通过所述第二注意力子模型对所述第一目标注意力特征和所述隐藏语音特征进行隐藏注意力处理,得到第二目标注意力特征;
通过所述多任务分类子模型对所述第二目标注意力特征进行语音分类处理,得到目标语音标签。
2.根据权利要求1所述的方法,其特征在于,所述通过所述第一注意力子模型对所述初始语音特征进行语音注意力处理,得到第一目标注意力特征,包括:
将所述初始语音特征输入至所述第一注意力子模型进行特征参数化处理,得到初始语音索引特征、初始语音内容特征和初始语音查询特征;
对所述初始语音索引特征、所述初始语音内容特征和所述初始语音查询特征进行注意力机制处理,得到第一目标注意力特征。
3.根据权利要求2所述的方法,其特征在于,所述通过所述第二注意力子模型对所述第一目标注意力特征和所述隐藏语音特征进行隐藏注意力处理,得到第二目标注意力特征,包括:
将所述第一目标注意力特征和所述隐藏语音特征输入至所述第二注意力子模型进行特征参数化处理,得到目标语音索引特征、目标语音内容特征和目标语音查询特征;
根据所述隐藏语音特征更新所述目标语音查询特征;
对所述目标语音索引特征、所述目标语音内容特征和所述目标语音查询特征进行注意力机制处理,得到所述第二目标注意力特征。
4.根据权利要求1所述的方法,其特征在于,在所述将所述目标语音输入至预先训练的多任务语音识别模型之前,所述方法还包括:
训练所述多任务语音识别模型,具体包括:
获取具有所述预设情感类别的样本语音和所述样本语音的样本语音标签;
将所述样本语音输入至预构建的初始语音识别模型,所述初始语音识别模型包括所述第一语音编码子模型、所述第一注意力子模型、所述第二语音编码子模型、所述第二注意力子模型和所述多任务分类子模型;
通过所述第一语音编码子模型对所述样本语音进行语音编码处理,得到初始样本语音特征;
通过所述第一注意力子模型对所述初始样本语音特征进行语音注意力处理,得到第一样本注意力特征;
通过所述第二语音编码子模型对所述初始样本语音特征进行隐藏特征编码处理,得到隐藏样本语音特征;
通过所述第二注意力子模型对所述第一样本注意力特征和所述隐藏样本语音特征进行隐藏注意力处理,得到第二样本注意力特征;
通过所述多任务分类子模型对所述第二样本注意力特征进行语音分类处理,得到预测语音标签;
根据所述样本语音标签和所述预测语音标签对所述初始语音识别模型进行参数调整,得到所述多任务语音识别模型。
5.根据权利要求4所述的方法,其特征在于,所述预测语音标签包括预测情感属性标签和预测语音文化背景标签,所述样本语音标签包括样本情感属性标签和样本语音文化背景标签,所述根据所述样本语音标签和所述预测语音标签对所述初始语音识别模型进行参数调整,得到所述多任务语音识别模型,包括:
对所述样本情感属性标签和所述预测情感属性标签进行情感属性损失计算,得到情感属性损失数据;
对所述样本语音文化背景标签和所述预测语音文化背景标签进行语音文化背景损失计算,得到语音文化损失数据;
根据所述情感属性损失数据和所述语音文化损失数据对所述初始语音识别模型进行参数调整,得到所述多任务语音识别模型。
6.根据权利要求4所述的方法,其特征在于,所述多任务分类子模型包括全连接层和归一化层,所述通过所述多任务分类子模型对所述第二样本注意力特征进行语音分类处理,得到预测语音标签,包括:
根据所述全连接层对所述第二样本注意力特征进行特征分类处理,得到预测语音分类特征;
根据所述归一化层对所述预测语音分类特征进行归一化处理,得到预测语音概率数据;
根据所述预测语音概率数据得到所述预测语音标签。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述通过所述第一语音编码子模型对所述目标语音进行语音编码处理,得到初始语音特征,包括:
对所述目标语音进行特征编码处理,得到初始语音编码特征;
对所述初始语音编码特征进行位置编码处理,得到目标语音编码特征;
对所述目标语音编码特征进行特征变换处理,得到初始语音特征。
8.一种语音识别系统,其特征在于,所述系统包括:
语音获取模块,用于获取具有预设情感类别的目标语音;
语音输入模块,用于将所述目标语音输入至预先训练的多任务语音识别模型,所述多任务语音识别模型包括第一语音编码子模型、第一注意力子模型、第二语音编码子模型、第二注意力子模型和多任务分类子模型;
第一语音编码模块,用于通过所述第一语音编码子模型对所述目标语音进行语音编码处理,得到初始语音特征;
第一注意力处理模块,用于通过所述第一注意力子模型对所述初始语音特征进行语音注意力处理,得到第一目标注意力特征;
第二语音编码模块,用于通过所述第二语音编码子模型对所述初始语音特征进行隐藏特征编码处理,得到隐藏语音特征;
第二注意力处理模块,用于通过所述第二注意力子模型对所述第一目标注意力特征和所述隐藏语音特征进行隐藏注意力处理,得到第二目标注意力特征;
语音分类模块,用于通过所述多任务分类子模型对所述第二目标注意力特征进行语音分类处理,得到目标语音标签。
9.一种计算机设备,其特征在于,包括:
至少一个存储器;
至少一个处理器;
至少一个计算机程序;
所述计算机程序被存储在所述存储器中,处理器执行所述至少一个计算机程序以实现:
如权利要求1至7中任一项所述的方法。
10.一种存储介质,所述存储介质为计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于使计算机执行:
如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310716585.6A CN116959424A (zh) | 2023-06-16 | 2023-06-16 | 语音识别方法、语音识别系统、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310716585.6A CN116959424A (zh) | 2023-06-16 | 2023-06-16 | 语音识别方法、语音识别系统、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116959424A true CN116959424A (zh) | 2023-10-27 |
Family
ID=88453830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310716585.6A Pending CN116959424A (zh) | 2023-06-16 | 2023-06-16 | 语音识别方法、语音识别系统、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116959424A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117275461A (zh) * | 2023-11-23 | 2023-12-22 | 上海蜜度科技股份有限公司 | 多任务音频处理方法、系统、存储介质及电子设备 |
-
2023
- 2023-06-16 CN CN202310716585.6A patent/CN116959424A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117275461A (zh) * | 2023-11-23 | 2023-12-22 | 上海蜜度科技股份有限公司 | 多任务音频处理方法、系统、存储介质及电子设备 |
CN117275461B (zh) * | 2023-11-23 | 2024-03-15 | 上海蜜度科技股份有限公司 | 多任务音频处理方法、系统、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lines et al. | Time series classification with HIVE-COTE: The hierarchical vote collective of transformation-based ensembles | |
CN109710748B (zh) | 一种面向智能机器人的绘本阅读交互方法和系统 | |
EP4125029B1 (en) | Electronic apparatus, controlling method of thereof and non-transitory computer readable recording medium | |
KR20180108400A (ko) | 전자 장치, 그의 제어 방법 및 비일시적 컴퓨터 판독가능 기록매체 | |
CN112633425B (zh) | 图像分类方法和装置 | |
CN113392640B (zh) | 一种标题确定方法、装置、设备及存储介质 | |
CN113704419A (zh) | 对话处理方法及装置 | |
CN111858898A (zh) | 基于人工智能的文本处理方法、装置及电子设备 | |
CN116959424A (zh) | 语音识别方法、语音识别系统、计算机设备及存储介质 | |
CN106557164A (zh) | 应用于智能机器人的多模态输出方法和装置 | |
Atkar et al. | Speech emotion recognition using dialogue emotion decoder and CNN Classifier | |
CN112860995B (zh) | 交互方法、装置、客户端、服务器以及存储介质 | |
CN116543798A (zh) | 基于多分类器的情感识别方法和装置、电子设备、介质 | |
CN116704581A (zh) | 人脸识别方法、装置、设备及存储介质 | |
CN116955529A (zh) | 一种数据处理方法、装置及电子设备 | |
CN109002498A (zh) | 人机对话方法、装置、设备及存储介质 | |
CN116957128A (zh) | 业务指标预测方法、装置、设备和存储介质 | |
CN116312644A (zh) | 语音情感分类方法、装置、设备和存储介质 | |
CN116127066A (zh) | 文本聚类方法、文本聚类装置、电子设备及存储介质 | |
CN115759052A (zh) | 一种文本纠错方法、装置、电子设备及存储介质 | |
CN114969295A (zh) | 基于人工智能的对话交互数据处理方法、装置及设备 | |
CN113792540A (zh) | 意图识别模型更新方法及相关设备 | |
CN109977881B (zh) | 基于无线射频技术的人物动作特征提取和识别优化方法 | |
CN118069932B (zh) | 配置信息的推荐方法、装置、计算机设备 | |
CN118154051B (zh) | 辅助课程教学效果评估方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |