CN116994612A - 音频情感的确定方法、装置及计算机设备 - Google Patents

音频情感的确定方法、装置及计算机设备 Download PDF

Info

Publication number
CN116994612A
CN116994612A CN202211058723.8A CN202211058723A CN116994612A CN 116994612 A CN116994612 A CN 116994612A CN 202211058723 A CN202211058723 A CN 202211058723A CN 116994612 A CN116994612 A CN 116994612A
Authority
CN
China
Prior art keywords
audio
sample
representation
text
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211058723.8A
Other languages
English (en)
Inventor
林炳怀
王丽园
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202211058723.8A priority Critical patent/CN116994612A/zh
Publication of CN116994612A publication Critical patent/CN116994612A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Child & Adolescent Psychology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种音频情感的确定方法、装置及计算机设备,属于人工智能技术领域。该方法包括:获取音频的音频表示和第一文本表示,第一文本表示是音频文本的文本表示,音频文本通过对音频进行音频识别得到;基于音频表示和第一文本表示进行音频识别错误检测,得到预测错误概率,预测错误概率指对音频进行音频识别的识别错误概率;基于预测错误概率对第一文本表示进行加权处理,得到加权文本表示,加权处理用于设置第一文本表示在音频情感分类过程中的置信度;基于加权文本表示和音频表示进行音频情感分类,得到音频的预测音频情感。该方法可以提高音频情感分类的鲁棒性。

Description

音频情感的确定方法、装置及计算机设备
技术领域
本申请涉及人工智能技术领域,特别涉及一种音频情感的确定方法、装置及计算机设备。
背景技术
随着智能化设备的普及,越来越多的设备可以通过语音交互为用户提供更智能化的服务,比如,语音交互设备可以通过识别用户的语音情感为用户推荐合适歌曲。
相关技术中,可以对采集到的用户语音进行语音识别,生成语音文本,进而根据语音文本进行语音情感识别,比如,可以根据语音文本中所包含的语气词,或者与情感相关的词汇进行语音情感识别。
显然,相关技术中的语音情感识别依赖于语音识别的准确性,若语音识别准确性较低,会影响后续语音情感识别的准确性。
发明内容
本申请提供了一种音频情感的确定方法、装置及计算机设备,能够提高音频情感的确定准确性。所述技术方案如下:
根据本申请的一个方面,提供了一种音频情感的确定方法,所述方法包括:
获取音频的音频表示和第一文本表示,所述第一文本表示是音频文本的文本表示,所述音频文本通过对所述音频进行音频识别得到;
基于所述音频表示和所述第一文本表示进行音频识别错误检测,得到预测错误概率,所述预测错误概率指对所述音频进行音频识别的识别错误概率;
基于所述预测错误概率对所述第一文本表示进行加权处理,得到加权文本表示,所述加权处理用于设置所述第一文本表示在音频情感分类过程中的置信度;
基于所述加权文本表示和所述音频表示进行音频情感分类,得到所述音频的预测音频情感。
根据本申请的另一方面,提供了一种音频情感的确定方法,所述方法包括:
获取样本音频的样本音频表示和第一样本文本表示,所述第一样本文本表示是样本音频文本的文本表示,所述样本音频文本通过对所述样本音频进行音频识别得到;
通过错误检测网络,基于所述样本音频表示和所述第一样本文本表示进行音频识别错误检测,得到所述错误检测网络输出的第一样本概率,所述第一样本概率指对所述样本音频进行音频识别的识别错误概率;
基于所述第一样本概率对所述第一样本文本表示进行加权处理,得到样本加权文本表示,所述加权处理用于设置所述第一样本文本表示在音频情感分类过程中的置信度;
基于所述样本加权文本表示和所述样本音频表示进行音频情感分类,得到所述样本音频的样本音频情感;
基于所述第一样本概率和所述样本音频的识别错误标签,训练所述错误检测网络。
根据本申请的另一方面,提供了一种音频情感的确定装置,所述装置包括:
获取模块,用于获取音频的音频表示和第一文本表示,所述第一文本表示是音频文本的文本表示,所述音频文本通过对所述音频进行音频识别得到;
错误检测模块,用于基于所述音频表示和所述第一文本表示进行音频识别错误检测,得到预测错误概率,所述预测错误概率指对所述音频进行音频识别的识别错误概率;
处理模块,用于基于所述预测错误概率对所述第一文本表示进行加权处理,得到加权文本表示,所述加权处理用于设置所述第一文本表示在音频情感分类过程中的置信度;
情感分类模块,用于基于所述加权文本表示和所述音频表示进行音频情感分类,得到所述音频的预测音频情感。
根据本申请的另一方面,提供了一种音频情感的确定装置,所述装置包括:
获取模块,用于获取样本音频的样本音频表示和第一样本文本表示,所述第一样本文本表示是样本音频文本的文本表示,所述样本音频文本通过对所述样本音频进行音频识别得到;
错误检测模块,用于通过错误检测网络,基于所述样本音频表示和所述第一样本文本表示进行音频识别错误检测,得到所述错误检测网络输出的第一样本概率,所述第一样本概率指对所述样本音频进行音频识别的识别错误概率;
处理模块,用于基于所述第一样本概率对所述第一样本文本表示进行加权处理,得到样本加权文本表示,所述加权处理用于设置所述第一样本文本表示在音频情感分类过程中的置信度;
情感分类模块,用于基于所述样本加权文本表示和所述样本音频表示进行音频情感分类,得到所述样本音频的样本音频情感;
训练模块,用于基于所述第一样本概率和所述样本音频的识别错误标签,训练所述错误检测网络。
根据本申请的一个方面,提供了一种计算机设备,计算机设备包括:处理器和存储器,存储器存储有计算机程序,计算机程序由处理器加载并执行以实现如上的音频情感的确定方法。
根据本申请的另一方面,提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序由处理器加载并执行以实现如上所述的音频情感的确定方法。
根据本申请的另一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述音频情感的确定方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过音频的音频表示和第一文本表示进行音频识别的错误概率预测,并使用预测得到的预测错误概率对第一文本表示进行加权处理,以设置该文本表示在后续音频情感分类过程中的置信度;使得后续音频情感分类过程中可以更关注置信度高的文本特征,降低预测错误的文本特征对后续音频情感分类结果的影响,从而提高音频情感的确定准确性;且在音频识别错误概率提升的同时,可以降低情感分类结果准确性的下降速率,提高音频情感分类的鲁棒性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例示出的计算机系统的示意图;
图2示出了本申请一个示例性实施例提供的音频情感的确定方法的流程图;
图3是本申请一个示例性实施例示出的音频情感分类的过程示意图;
图4示出了本申请另一个示例性实施例提供的音频情感的确定方法的流程图;
图5是本申请另一个示例性实施例示出的音频情感分类的过程示意图;
图6示出了本申请另一个示例性实施例提供的音频情感的确定方法的流程图;
图7示出了本申请另一个示例性实施例提供的音频情感的确定方法的流程图;
图8是本申请一个示例性实施例示出的错误检测网络的训练过程示意图;
图9示出了本申请另一个示例性实施例提供的音频情感的确定方法的流程图;
图10是本申请另一个示例性实施例示出的错误检测网络的训练过程示意图;
图11是本申请一个示例性实施例提供的音频情感的确定装置的结构框图;
图12是本申请另一个示例性实施例提供的音频情感的确定装置的结构框图;
图13是根据一示例性实施例示出的一种计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
图1是本申请一个示例性实施例示出的计算机系统的示意图。如图1所示,该计算机系统包括第一设备110和第二设备120。
第一设备110是训练ASR鲁棒的多模态情感模型的训练设备,在ASR鲁棒的多模态情感模型训练完成之后,第一设备110可以将训练完成的ASR鲁棒的多模态情感模型发送至第二设备120,以便在第二设备120中部署ASR鲁棒的多模态情感模型。第二设备120是使用ASR鲁棒的多模态情感模型进行音频情感预测的设备。可选的,ASR鲁棒的多模态情感模型主要包括错误检测网络和情感分类网络。
可选的,上述第一设备110和第二设备120可以是具有机器学习能力的计算机设备,比如,该计算机设备可以是终端或服务器。
可选的,上述第一设备110和第二设备120可以是同一个计算机设备,或者,第一设备110和第二设备120也可以是不同的计算机设备。并且,当第一设备110和第二设备120是不同的设备时,第一设备110和第二设备120可以是同一类型的设备,比如第一设备110和第二设备120可以都是服务器;或者,第一设备110和第二设备120也可以是不同类型的设备。上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。上述终端可以是智能手机、车载终端、智能电视、可穿戴设备、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
请参考图2,其示出了本申请一个示例性实施例提供的音频情感的确定方法的流程图,以该方法应用于图1所示的第二设备120进行举例说明,该方法包括:
步骤201,获取音频的音频表示和第一文本表示,第一文本表示是音频文本的文本表示,音频文本通过对音频进行音频识别得到。
其中,音频可以是实时录入的一段用户语音,也可以是一首歌曲,或者是带有声音的短视频,只要是具备内容的声音均可以作为音频情感分类所需的音频;本申请实施例对音频不构成限定。
可选的,本申请的音频情感的确定方法可以应用于推荐场景、智能对话场景、情感判别场景等;以推荐场景为例,智能设备可以根据用户语音识别当前用户的心情或情感,从而为用户更智能化的推荐与其当前情感相符合的内容,比如,更智能化的推荐歌曲、视频、小说等;以智能对话场景为例,智能设备可以根据用户语音识别当前用户的心情或情感,从而结合用户当前情感更智能化的与用户对话等。
在一种可能的实施方式中,当用户与智能设备进行语音交互时,智能设备通过麦克风采集用户语音,从而获取到用户的音频;为了使得智能设备可以理解用户语音所代表的意思,智能设备中设置有自动语音识别(Automatic Speech Recognition,ASR)模块,可以通过该ASR模块对音频进行音频识别,将音频转换为音频文本,从而得到音频的音频文本,进一步识别到的音频文本进行后续交互过程。
在音频情感分类过程中,往往采用音频的多模态信息进行情感分类,多模态信息包括音频的声学特征,以及音频的文本特征。则为了后续可以实现音频情感分类,首先需要对音频进行声学特征编码,以及对音频文本进行文本特征编码;对应将音频输入声学编码器,由声学编码器对音频进行特征编码,以得到声学编码器输出的音频表示,并将音频文本输入文本编码器,由文本编码器对音频文本进行特征编码,以得到文本编码器输出的第一文本表示,以便后续基于音频的音频表示和第一文本表示进行音频情感分类。
可选的,声学编码器可以采用wav2vec 2.0预训练声学模型,wav2vec 2.0是一种基于大量无标签数据进行自监督预训练的模型,它由多层卷积的特征编码层和多层transforme构成,通过输入原始音频信号到音频编码器中,可以得到每一帧的音频表示;文本编码器可以采用BERT模型,BERT也是基于大量无标签数据进行自监督训练得到的模型,通过输入一句话对应的每个单词到文本编码器中,可以得到每个单词的单词表示。
可选的,音频表示为多帧音频的音频表示的集合,第一文本表示为多个单词表示的集合。
步骤202,基于音频表示和第一文本表示进行音频识别错误检测,得到预测错误概率,预测错误概率指对音频进行音频识别的识别错误概率。
由于采用ASR模块对音频进行音频识别的过程中,可能存在音频识别错误的问题,比如,缺失某个单词、某个单词多余或者单词识别错误等;而后续情感分类依赖于音频文本的识别准确性,若音频文本识别有误,可能会影响后续情感分类的准确性。因此,为了提高后续音频情感分类的准确性,在一种可能的实施方式中,基于音频表示和第一文本表示进行音频识别错误检测,得到预测错误概率,以便确定对音频进行音频识别过程中的识别错误概率,也即确定第一文本表示(音频文本)的可信度,从而在后续音频情感分类过程中可以基于该预测错误概率进行有选择的选择可信的文本特征。
步骤203,基于预测错误概率对第一文本表示进行加权处理,得到加权文本表示,加权处理用于设置第一文本表示在音频情感分类过程中的置信度。
为了提高后续音频情感分类的准确性,若第一文本表示中的某个文本特征的预测错误概率较高,则音频情感分类过程中应该尽可能少的关注该文本特征,若第一文本表示中的某个文本特征的预测错误概率较低,则音频情感分类过程中应该尽可能多的关注该文本特征。因此,在一种可能的实施方式中,需要使用预测错误概率对第一文本表示进行加权处理,以设置第一文本表示在音频情感分类过程中的置信度(预测错误概率较高,置信度低,预测错误率较低,则置信度高),得到加权后的加权文本表示,且加权文本表示中预测错误概率较高的文本特征的权重较低,且预测错误概率较低的文本特征的权重较高。
步骤204,基于加权文本表示和音频表示进行音频情感分类,得到音频的预测音频情感。
在一种可能的实施方式中,当获取到加权文本表示后,可以基于加权文本表示和音频表示进行多模态音频情感分类,从加权文本表示中提取可信的文本特征,以及从音频表示中提取音频特征,从而综合文本特征和音频特征进行音频情感分类,得到音频的预测音频情感。
如图3所示,其是本申请一个示例性实施例示出的音频情感分类的过程示意图。终端320通过麦克风采集用户310的语音,得到音频321,并将音频321输入ASR模型322进行音频识别,得到音频文本323;进一步的,终端基于音频321和音频文本323进行音频情感分类;将音频321和音频文本323输入ASR鲁棒的多模态语音情感模型324,由ASR鲁棒的多模态语音情感模型324进行音频识别错误预测和音频情感分类,得到情感分类结果325。
综上所述,本申请实施例中,通过音频的音频表示和第一文本表示进行音频识别的错误概率预测,并使用预测得到的预测错误概率对第一文本表示进行加权处理,以设置该文本表示在后续音频情感分类过程中的置信度;使得后续音频情感分类过程中可以更关注置信度高的文本特征,降低预测错误的文本特征对后续音频情感分类结果的影响,从而提高音频情感的确定准确性;且在音频识别错误概率提升的同时,可以降低情感分类结果准确性的下降速率,提高音频情感分类的鲁棒性。
当某个文本特征的预测错误率较高时,为了弥补该文本特征缺失,在一种可能的实施方式中,可以通过该文本特征对应的音频特征对该文本特征进行弥补,以进一步提高文本特征的准确性。
请参考图4,其示出了本申请另一个示例性实施例提供的音频情感的确定方法的流程图,以该方法应用于图1所示的第二设备120进行举例说明,该方法包括:
步骤401,获取音频的音频表示和第一文本表示,第一文本表示是音频文本的文本表示,音频文本通过对音频进行音频识别得到。
步骤401的实施方式可以参考步骤201,本实施例在此不做赘述。
步骤402,对音频表示和第一文本表示进行对齐处理,确定第二文本表示,第二文本表示指音频文本的音频表示。
为了可以确定出音频文本中的各个单词是否识别准确,在一种可能的实施方式中,当获取到音频表示和第一文本表示后,将文本表示与音频对应的部分进行对齐,以得到每个文本特征对应的音频表示,确定第二文本表示。
可选的,当音频文本由N个单词构成的情况下,音频文本对应的第一文本表示也由N个单词对应的单词表示构成,则确定音频文本是否识别准确,需要对每个单词进行预测错误概率的确定,对应需要从音频表示中确定每个单词的音频表示。在一个示例性的例子中,步骤402可以包括步骤402A和步骤402B。
步骤402A,将音频表示和第一文本表示输入注意力机制层,得到注意力机制层输出的N个子音频表示,注意力机制层用于从音频表示中确定各个单词的子音频表示。
在一种可能的实施方式中,基于注意力机制层将每个单词表示与音频对应的音频表示进行对齐,具体的,将音频表示和第一文本表示输入注意力机制层,由注意力机制层将每个单词的单词表示与音频表示中每一帧的音频表示进行注意力交互,从而确定出每个单词对应的子音频表示,也即得到注意力机制层输出的N个子音频表示。
在一个示例性的例子中,注意力机制层的定义可以如公式(1)所示。
其中,Q表示每个单词的单词表示(由文本编码器输出的特征表示),K和V表示每一帧音频的音频表示(由声学编码器输出的音频表示)。
由公式(1)所示的注意力机制原理对每个单词的单词表示与音频表示进行注意力机制交互后,可以得到每个单词对应的子音频表示,则每个单词的子音频表示可以如公式(2)所示。
其中,表示音频文本中第j个单词的单词表示(由文本编码器输出的特征表示),/>表示音频文本中第j个单词的音频表示,/>表示通过对单词表示和音频表示进行注意力机制交互,以得到第j个单词的音频表示。
步骤402B,基于N个子音频表示,生成第二文本表示。
与第一文本表示对应,第一文本表示由N个单词的单词表示构成,则第一文本表示也应该由N个单词的音频表示构成。示意性的,第一文本表示可以表示为:其中,n表示音频文本有n个单词构成,/>表示音频文本中第n个单词的单词表示;第二文本表示可以表示为:/> 其中,/>表示音频文本中第n个单词的音频表示。
步骤403,将第一文本表示和第二文本表示输入错误检测网络,得到错误检测网络输出的预测错误概率。
为了预测音频文本是否识别错误,需要根据该音频文本对应的音频来确定,则需要根据第一文本表示对应的音频表示,确定音频文本是否预测错误;在一种可能的实施方式中,将第一文本表示和第二文本表示(对齐后的文本表示对应的音频表示)输入错误检测网络中进行分类,以确定音频文本中的每个单词是否识别错误,从而输出预测错误概率。
可选的,在输入错误检测网络之前,可以对第一文本表示和第二文本表示进行求和处理,得到用于音频识别错误检测的特征表示,从而将该特征表示输入错误检测网络进行分类,得到错误检测网络输出的预测错误概率。
在一个示例性的例子中,用于音频识别错误检测的特征表示可以如公式(3)所示。
其中,表示用于音频识别错误检测的音频文本中第j个单词的特征表示,表示音频文本中第j个单词的音频表示(第二文本表示),/>表示音频文本中第j个单词的单词表示(第一文本表示)。
可选的,由于音频文本对应有N个单词,则错误检测网络对应预测每个单词的预测错误概率,从而得到N个预测错误概率。
可选的,预测错误网络的训练过程可以参考下文实施例,本实施例在此不做赘述。
步骤404,基于预测错误概率对第一文本表示和第二文本表示进行加权处理,得到加权文本表示。
为了弥补第一文本表示的缺陷,比如,对于某个单词预测错误概率较高的,可以通过该单词对应的音频表示对其进行弥补,以优化该单词的文本特征。在一种可能的实施方式中,可以基于预测错误概率对第一文本表示和第二文本表示进行加权处理,得到加权文本表示,使得加权处理后的加权文本表示中,预测错误概率较高的文本表示可以使用其对应的音频表示(第二文本表示)进行弥补,从而提高文本特征的准确性。
为了达到预测错误概率较高的单词的加权文本表示中,该单词的单词表示权重低,而该单词的音频表示权重高的效果,则需要使用预测错误概率对音频表示(第二文本表示)进行加权处理,而使用1-预测错误概率得到的概率对单词表示(第一文本表示)进行加权处理。对应在一个示例性的例子中,步骤404可以包括步骤404A~步骤404D。
步骤404A,确定预测正确概率,预测正确概率与预测错误概率之和为1。
可选的,通过1减去预测错误概率,可以得到该单词的预测正确概率,也即预测正确概率和预测错误概率之和为1。比如,第j个单词的预测错误概率是0.9,则第j个单词的预测正确概率仅有0.1。
步骤404B,基于预测错误概率对第二文本表示进行加权处理,得到第一加权表示。
当单词的预测错误概率较高时,则在生成加权文本表示时,应该设置该单词的单词表示的权重较低,以及设置该单词的音频表示的权重较高,则基于权重高低和预测错误概率高低之间的关系,在一种可能的实施方式中,计算机设备使用预测错误概率对第二文本表示(音频表示)进行加权处理,以得到第一加权表示。
步骤404C,基于预测正确概率对第一文本表示进行加权处理,得到第二加权表示。
对应的,计算机设备使用预测正确概率对第一文本表示(单词表示的集合)进行加权处理,以得到第二加权表示。
步骤404D,对第一加权表示和第二加权表示进行求和处理,得到加权文本表示。
可选的,将第一加权表示和第二加权表示进行求和处理,可以得到经过音频表示弥补后的加权文本表示;该加权文本表示中,预测错误概率高的单词的音频表示(音频特征)所占比重较大,而单词表示(文本特征)所占比重较少;预测错误概率低的单词的音频表示(音频特征)所占比重较少,而单词表示(文本特征)所占比重较多。
在一个示例性的例子中,确定加权文本表示的公式可以如公式(4)所示。
其中,表示音频文本中第j个单词的加权文本表示,αj表示音频文本中第j个单词的预测错误概率,(1-αj)表示音频文本中第j个单词的预测正确概率,/>表示音频文本中第j个单词的第二文本表示(音频表示),/>表示音频文本中第j个单词的第一文本表示(单词表示);由公式(4)可以看出,若音频文本中第j个单词的预测错误概率较高,则加权文本表示中该单词的音频表示所占比重较高,单词表示(文本表示)所占比重较低;反之,若音频文本中第j个单词的预测错误概率较低,则加权文本表示中该单词的音频表示所占比重较低,单词表示(文本表示)所占比重较高,从而达到在预测错误概率较高时使用单词的音频表示弥补文本缺失的目的。
步骤405,将池化操作处理后的加权文本表示与池化操作处理后的音频表示进行拼接,得到音频特征表示。
在一种可能的实施方式中,当获取到加权文本表示和音频表示后,即可以分别将加权文本表示输入池化层进行平均池化处理,以得到池化操作处理后的加权文本表示,并将音频表示输入池化层进行平均池化处理,得到池化操作处理后的音频表示,进一步的,将池化操作处理后的加权文本表示和池化操作处理后的音频表示进行拼接处理,得到用于音频情感分类的音频特征表示。
可选的,由于加权文本表示中已经包含有文本特征(第一文本表示)和音频特征(第二文本表示),在其他可能的实施方式中,也可以直接基于加权文本表示进行音频情感分类,得到预测音频情感。
步骤406,将音频特征表示输入情感分类网络,得到情感分类网络输出的预测音频情感。
可选的,设备中设置有情感分类网络,将拼接后得到的音频特征表示输入情感分类网络进行音频情感预测,得到属于各个预设音频情感的概率,从而将概率最高的音频情感确定为预测音频情感。
如图5所示,其是本申请另一个示例性实施例示出的音频情感分类的过程示意图。在特征编码阶段,将音频输入音频编码器501进行特征编码,得到每一帧的音频表示,将音频文本输入文本编码器502进行特征编码,得到音频文本中每个单词的第一文本表示;在文本表示处理阶段,将音频表示和第一文本表示输入注意力机制层503进行交互,得到音频文本中每个单词的第二文本表示(音频表示);再将第一文本表示和第二文本表示求和后输入错误检测网络504进行音频识别错误检测,得到音频文本中每个单词的预测错误概率;进一步的,基于预测错误概率对第一文本表示和第二文本表示进行加权处理,得到加权文本表示;在音频情感分类阶段:将音频表示输入第一池化层505进行平均池化处理,得到池化操作后的融合音频表示,将加权文本表示输入第二池化层506进行平均池化处理,得到池化操作后的融合文本表示,对融合音频表示和融合文本表示进行拼接处理,并输入情感分类网络507,得到情感分类网络507输出的情感分类结果(预测音频情感)。
本实施例中,通过对音频表示和第一文本表示进行对齐处理,以从音频表示中确定出各个单词对应的音频表示(第二文本表示),使得可以根据预测错误概率对第一文本表示和第二文本表示进行加权处理,从而使用音频表示弥补文本表示的缺陷,提高文本表示的准确性,从而进一步提高后续音频情感分类的准确性。
在其他可能的实施方式中,由于音频表示是基于音频编码得到的,其包含的音频特征更完善,为了进一步提高音频情感分类的准确性,在基于加权文本表示和音频表示进行音频情感分类时,也可以基于预测错误概率对音频表示和加权文本表示进一步处理,从而进一步降低后续音频情感分类过程中错误文本特征的关注度。
在图2的基础上,如图6所示,步骤202可以被替换为步骤601,步骤204可以被替换为步骤602和步骤603。
步骤601,基于音频表示和第一文本表示进行音频识别错误检测,得到N个预测错误概率,其中,每个单词对应一个预测错误概率。
由于第一文本表示是N个单词的单词表示构成,对应在基于音频表示和第一文本表示进行音频识别错误检测时,可以得到N个预测错误概率,每个单词对应一个预测错误概率。比如,若音频文本由5个单词构成,则音频识别错误检测的检测结果可以为:P=[0.1,0.3,0.9,0.4,0.5],表示第1个单词的预测错误概率为0.1,第2个单词的预测错误概率为0.3,第3个单词的预测错误概率为0.9,第4个单词的预测错误概率是0.4,第5个单词的预测错误概率是0.5。
步骤602,对N个预测错误概率进行平均处理,得到音频文本的置信度分数。
可选的,本实施例中,不仅可以基于预测错误概率对第一文本表示和第二文本表示进行加权处理,得到加权文本表示;还将预测错误概率应用于音频表示和加权文本表示的拼接过程,在预测错误概率较高的情况下,以进一步降低拼接后的音频特征表示中文本特征的比重,提高拼接后的音频特征表示中音频特征的比重。在一种可能的实施方式中,可以对N个预测错误概率进行平均处理,得到音频文本的平均预测错误概率,进一步确定该音频文本的置信度分数。
在一个示例性的例子中,置信度分数的确定公式可以如公式(5)所示。
其中,D表示置信度分数,N表示音频文本中包含有N个单词,αj表示音频文本中第j个单词的预测错误概率。
步骤603,基于置信度分数、加权文本表示和音频表示进行音频情感分类,得到音频的预测音频情感。
当置信度分数越低时,表示音频文本的预测错误概率越低,则期望在音频情感分类过程中较少关注文本特征,更多关注音频特征,以提高情感分类的准确性。对应在一种可能的实施方式中,可以根据置信度分数对加权文本表示和音频表示进行进一步的加权处理,以便根据加权处理后的结果进行后续音频情感分类,得到音频的预测音频情感。
本实施例中,在基于加权文本表示和音频表示进行音频情感分类时,基于预测错误概率求得加权文本表示的置信度分度,从而根据置信度分度对音频表示和加权文本表示进一步处理,从而进一步降低后续音频情感分类过程中错误文本特征的关注度,从而在音频识别错误较高的情况下,提高音频情感分类的鲁棒性。
上文实施例中的音频情感分类过程中涉及到错误检测网络,该错误检测网络对于预测错误概率的预测准确性,对后续音频情感分类过程具有重要影响,因此,如何训练错误检测网络,使得错误检测网络具备预测错误概率的功能是下文实施例需要说明的。
请参考图7,其示出了本申请另一个示例性实施例提供的音频情感的确定方法的流程图,以该方法应用于图1所示的第一设备110进行举例说明,该方法包括:
步骤701,获取样本音频的样本音频表示和第一样本文本表示,第一样本文本表示是样本音频文本的文本表示,样本音频文本通过对样本音频进行音频识别得到。
在训练错误检测网络时,需要样本音频的识别错误标签进行监督训练,则训练样本集可以包括若干样本对,每个样本对中包含有样本音频和其对应的识别错误标签。
可选的,在获取识别错误标签时,需要比较样本音频的样本实际文本和样本音频文本,则需要将样本音频输入ASR模块进行音频识别,以得到各个样本音频对应的样本音频文本。
在一种可能的实施方式中,当获取到样本音频的样本音频文本后,可以将样本音频输入声学编码器进行音频特征编码,得到声学编码器输出的样本音频表示,以及将样本音频文本输入文本编码器进行文本特征编码,得到文本编码器输出的第一样本文本表示。
可选的,声学编码器可以采用wav2vec2.0模型,而文本编码器可以采用BERT模型。
步骤702,通过错误检测网络,基于样本音频表示和第一样本文本表示进行音频识别错误检测,得到错误检测网络输出的第一样本概率,第一样本概率指对样本音频进行音频识别的识别错误概率。
为了实现对音频识别的识别错误概率的预测,在一种可能的实施方式中,部署有错误检测网络,由错误检测网络基于音频文本的文本表示和其对应的音频表示进行音频识别错误检测,以预测对样本音频进行音频识别的识别错误概率,得到错误检测网络输出的第一样本概率。
步骤703,基于第一样本概率对第一样本文本表示进行加权处理,得到样本加权文本表示,加权处理用于设置第一样本文本表示在音频情感分类过程中的置信度。
若样本音频文本中的某个样本单词的预测错误率较高,则音频情感分类过程中应该尽可能少的关注该样本单词的文本特征,若样本音频文本中的某个样本单词的预测错误率较低,则音频情感分类过程中应该尽可能多的关注该文本特征。因此,在一种可能的实施方式中,需要使用预测得到的第一样本概率对第一样本文本表示进行加权处理,以设置第一样本文本表示在音频情感分类过程中的置信度,得到加权处理后的样本加权文本表示。
步骤704,基于样本加权文本表示和样本音频表示进行音频情感分类,得到样本音频的样本音频情感。
在一种可能的实施方式中,当获取到样本加权文本表示后,可以基于样本加权文本表示和样本音频进行多模态音频情感分类,从样本加权文本表示中提取可信的文本特征,以及从样本音频表示中提取音频特征,从而综合文本特征和音频特征进行音频情感分类,得到样本音频的样本音频情感。
步骤705,基于第一样本概率和样本音频的识别错误标签,训练错误检测网络。
为了使得错误检测网络具备预测音频识别错误概率的功能,在一种可能的实施方式中,设置有监督信息-识别错误标签,使得可以基于第一样本概率和识别错误标签之间的损失,训练错误检测网络,通过多轮训练以提高错误检测网络的概率预测准确性。
如图8所示,其是本申请一个示例性实施例示出的错误检测网络的训练过程示意图。将样本音频输入音频编码器801进行特征编码,得到样本音频表示802;将样本音频文本输入文本编码器803,得到第一样本文本表示804;通过错误检测网络805,基于第一样本文本表示804和样本音频表示进行音频识别错误检测,得到第一样本概率806;基于第一样本概率806和错误检测标签807,训练错误检测网络805。可选的,使用第一样本概率806对第一样本文本表示804进行加权处理,得到样本加权文本表示808,使得后续可以基于样本加权文本表示808和样本音频表示802进行音频情感分类,得到样本音频的情感分类结果。
综上所述,本申请实施例中,通过识别错误标签作为监督信息训练错误检测网络,使得错误检测网络具备预测音频识别错误概率的功能,从而在模型应用过程中,可以通过音频的音频表示和第一文本表示进行音频识别的错误概率预测,并使用预测得到的预测错误概率对第一文本表示进行加权处理,以设置该文本表示在后续音频情感分类过程中的置信度;使得后续音频情感分类过程中可以更关注置信度高的文本特征,降低预测错误的文本特征对后续音频情感分类结果的影响,从而提高音频情感的确定准确性;且在音频识别错误概率提升的同时,可以降低情感分类结果准确性的下降速率,提高音频情感分类的鲁棒性。
为了进一步提高模型性能,本实施例中设置多任务训练,由于错误检测网络的预测准确性会影响音频情感分类过程,则在模型训练过程中,除了使用错误识别标签作为监督信息进行训练,还使用样本情感标签作为监督信息进行训练,通过多任务训练以提高模型性能。
如图9所示,其示出了本申请另一个示例性实施例提供的音频情感的确定方法的流程图,以该方法应用于图1所示的第一设备110进行举例说明,该方法包括:
步骤901,获取样本音频的样本音频表示和第一样本文本表示,第一样本文本表示是样本音频文本的文本表示,样本音频文本通过对样本音频进行音频识别得到。
步骤901的实施方式可以参考上文实施例,本实施例在此不做赘述。
步骤902,对样本音频表示和第一样本文本表示进行对齐处理,确定第二样本文本表示,第二样本文本表示指样本音频文本的样本音频表示。
为了可以确定样本音频文本中的各个样本单词是否识别准确,在一种可能的实施方式中,当获取到样本音频表示和第一样本文本表示后,需要将第一样本文本表示与音频对应的部分进行对齐,以得到样本音频文本对应的音频表示,也即第二样本文本表示。
可选的,当样本音频文本由M个样本单词构成的情况下,样本音频文本对应的第一样本文本表示也由M个样本单词对应的样本单词表示构成,则确定样本音频文本是否识别准确,需要对每个样本单词进行第一样本概率的预测,对应需要从样本音频表示中确定每个样本单词的样本音频表示。在一个示例性的例子中,步骤902可以包括步骤902A和步骤902B。
步骤902A,将样本音频表示和第一样本文本表示输入注意力机制层,得到注意力机制层输出的M个子样本音频表示,注意力机制层用于从样本音频表示中确定各个样本单词的子样本音频表示。
可选的,使用注意力机制层生成第二样本文本表示,由公式(1)所示的注意力机制层的定义可知,在确定第二样本文本表示时,可以将样本音频表示和第一样本文本表示输入注意力机制层,由注意力机制层将每个样本单词的样本单词表示与样本音频表示中每一帧的样本音频表示进行注意力交互,从而确定出每个样本单词对应的子样本音频表示,也即得到注意力机制层输出的M个子样本音频表示。
步骤902B,基于M个子样本音频表示,生成第二样本文本表示。
当样本音频文本中包含M个样本单词的情况下,第一样本文本表示由M个样本单词的样本单词表示构成,注意力机制层可以确定出每个样本单词对应的子样本音频表示,则第二样本文本表示也应由M个子样本音频表示构成。
步骤903,将第一样本文本表示和第二样本文本表示输入错误检测网络,得到错误检测网络输出的第一样本概率。
为了预测样本音频文本是否识别错误,需要根据该样本音频文本对应的样本音频来确定,则需要根据第一样本文本表示对应的样本音频表示(第二样本文本表示),确定音频文本是否预测错误;在一种可能的实施方式中,将第一样本文本表示和第二样本文本表示(对齐后的样本文本表示对应的样本音频表示)输入错误检测网络中进行分类,以确定样本音频文本中的每个样本单词是否识别错误,从而输出M个第一样本概率,每个样本单词有其对应的第一样本概率。
可选的,在输入错误检测网络之前,可以对第一样本文本表示和第二样本文本表示进行求和处理,得到用于音频识别错误检测的样本特征表示,从而将该样本特征表示输入错误检测网络进行分类,得到错误检测网络输出的第一样本概率。
步骤904,基于第一样本概率对第一样本文本表示和第二样本文本表示进行加权处理,得到样本加权文本表示。
为了弥补第一样本文本表示的缺陷,比如,对于某个样本单词的第一样本概率较高的,可以通过该样本单词对应的样本音频表示对其进行弥补,以优化该样本单词的文本特征。在一种可能的实施方式中,可以基于第一样本概率对第一样本文本表示和第二样本文本表示进行加权处理,得到样本加权文本表示,使得加权处理后的样本加权文本表示中,第一样本概率较高的样本文本表示可以使用其对应的样本音频表示(第二样本文本表示)进行弥补,从而提高样本文本特征的准确性。
为了达到第一样本概率较高的样本单词的样本加权文本表示中,该样本单词的样本单词表示权重低,而该样本单词的样本音频表示权重高的效果,则需要使用第一样本概率对样本音频表示(第二样本文本表示)进行加权处理,而使用1-第一样本概率得到的概率对样本单词表示(第一样本文本表示)进行加权处理。对应在一个示例性的例子中,步骤904可以包括步骤904A~步骤904D。
步骤904A,确定第二样本概率,第二样本概率和第一样本概率之和为1。
可选的,由于第一样本概率是样本单词识别错误的概率,则通过1减去第一样本概率,可以得到该样本单词的预测正确概率(第二样本概率),也即第一样本概率和第二样本概率之和为1。比如,第j个单词的第一样本概率是0.3,则第j个单词的第二样本概率为0.7。
步骤904B,基于第一样本概率对第二样本文本表示进行加权处理,得到第一样本加权表示。
当样本单词的第一样本概率(预测错误概率)较高时,则在生成样本加权文本表示时,应该设置该样本单词的样本单词表示的权重较低,以及设置该样本单词的样本音频表示的权重较高,则基于权重高低和第一样本概率高低之间的关系,在一种可能的实施方式中,计算机设备使用第一样本概率对第二样本文本表示(样本音频表示)进行加权处理,以得到第一样本加权表示。
步骤904C,基于第二样本概率对第一样本文本表示进行加权处理,得到第二样本加权表示。
对应的,计算机设备使用第二样本概率(预测正确概率)对第一样本文本表示(样本单词表示的集合)进行加权处理,以得到第二样本加权表示。
步骤904D,对第一样本加权表示和第二样本加权表示进行求和处理,得到样本加权文本表示。
可选的,按照公式(4)对第一样本文本表示和第二样本文本表示进行加权求和处理,可以得到经过样本音频表示弥补够的样本加权文本表示,该样本加权文本表示中,第一样本概率高的样本单词的样本音频表示(音频特征)所占比重较大,而样本单词表示(文本特征)所占比重较少;第一样本概率低的样本单词的样本音频表示(音频特征)所占比重较少,而样本单词表示(文本特征)所占比重较多。
步骤905,将池化操作处理后的样本加权文本表示与池化操作处理后的样本音频表示进行拼接,得到样本音频特征表示。
在一种可能的实施方式中,当获取到样本加权文本表示和样本音频表示后,即可以分别将样本加权文本表示输入池化层进行平均池化处理,以得到池化操作处理后的样本加权文本表示,并将样本音频表示输入池化层进行平均池化处理,得到池化操作处理后的样本音频表示,进一步的,将池化操作处理后的样本加权文本表示和池化操作处理后的样本音频表示进行拼接处理,得到用于音频情感分类的样本音频特征表示。
步骤906,将样本音频特征表示输入情感分类网络,得到情感分类网络输出的样本音频情感。
可选的,由于错误检测网络的预测准确性也会影响到音频情感分类任务,因此,在模型训练过程中除了引入错误检测任务的损失,还引入了情感分类任务的损失。在一种可能的实施方式中,将样本音频特征输入情感分类网络进行音频情感分类,得到属于各个预设音频情感的概率,并将概率最高的音频情感确定为样本音频情感。
步骤907,基于第一样本概率和识别错误标签,计算错误检测损失。
可选的,识别错误标签是基于样本音频的样本实际文本和ASR识别结果(样本音频文本)进行对齐对比得到的,在一个示例性的例子中,确定识别错误标签的过程可以包括以下步骤:
一、获取样本音频的样本实际文本。
二、对样本实际文本和样本音频文本进行对齐处理。
当获取到样本音频的样本实际文本后,可以对样本音频文本和样本实际文本进行对齐处理,从而比较样本音频中的各个样本单词与样本实际文本是否相同,进而根据比较结果确定出各个样本单词的识别错误标签。
三、在第j样本单词与样本实际文本相同的情况下,确定第j样本单词的第j识别错误标签为第一错误标签,j为小于等于M的正整数。
可选的,当第j个样本单词与样本实际文本相同时,表示该第j样本单词识别正确,则可以确定第j个样本单词的识别错误标签为1(第一错误标签),也即将1确定为第j样本单词的第j识别错误标签。
四、在第j样本单词与样本实际文本不同的情况下,确定第j样本单词的第j识别错误标签为第二错误标签。
反之,若第j样本单词与样本实际文本不同时,则表示该第j样本单词识别错误,则为了区分识别错误和识别正确两种情况,可以确定第j样本单词的识别错误标签为0(第二错误标签),也即将0确定为第j样本单词的第j识别错误标签。
以第一错误标签为1,第二错误标签为0为例,样本音频的识别错误标签的确定过程可以如表一所示。
表一
ASR(音频识别结果) He is a great parent
实际文本 He is a - gradparent
识别错误标签 1 1 1 0 0
由表一可见,第4个样本单词的音频识别结果与实际文本不同,则第4个样本单词的识别错误标签为0;第2个样本单词的音频识别结果与实际文本相同,则第2个样本单词的识别错误标签为1。
在一个示例性的例子中,错误检测网络的预测错误损失可以如公式(6)所示。
其中,Lerrdect表示错误检测网络的错误检测损失,表示第k句话第j个单词是否错误的识别错误标签,/>表示预测第k句话第j个单词是否错误的概率(第一样本概率)。
可选的,可以将每个样本单词对应的第一样本概率和识别错误标签带入公式(6),从而计算得到错误检测网络的错误检测损失。
步骤908,基于样本音频情感和样本情感标签,计算情感分类损失。
本实施例通过多任务损失函数优化模型,同时结合错误检测损失和情感分类损失。对应还需要根据情感分类网络输出的样本音频情感,和样本音频对应的样本情感标签,计算情感分类网络的情感分类损失。
步骤909,基于错误检测损失和情感分类损失,训练错误检测网络和情感分类网络。
在一个示例性的例子中,模型的总损失可以如公式(7)所示。
Ltotal=Lemo+β×Lerrdect (7)
其中,Ltotal表示模型总损失,Lemo表示情感分类损失,Lerrdect表示错误检测损失,情感分类损失和错误检测损失通过参数β进行平衡,β的取值为0~1之间的任意值,由人为选取设置。可选的,在每轮训练过程中,均使用错误检测损失和情感分类损失之和,训练错误检测网络和情感分类网络,以提高模型的预测性能。
如图10所示,其是本申请另一个示例性实施例示出的错误检测网络的训练过程示意图。在特征编码阶段,将样本音频输入音频编码器1001进行特征编码,得到每一帧的样本音频表示,将样本音频文本输入文本编码器1002进行特征编码,得到样本音频文本中每个样本单词的第一样本文本表示;在文本表示处理阶段,将样本音频表示和第一样本文本表示输入注意力机制层1003进行交互,得到样本音频文本中每个样本单词的第二样本文本表示(样本音频表示);再将第一样本文本表示和第二样本文本表示求和后输入错误检测网络1004进行音频识别错误检测,得到样本音频文本中每个样本单词的第一样本概率;进一步的,基于第一样本概率对第一样本文本表示和第二样本文本表示进行加权处理,得到样本加权文本表示;在音频情感分类阶段:将样本音频表示输入第一池化层1005进行平均池化处理,得到池化操作后的融合样本音频表示,将样本加权文本表示输入第二池化层1006进行平均池化处理,得到池化操作后的融合样本文本表示,对融合样本音频表示和融合样本文本表示进行拼接处理,并输入情感分类网络1007,得到情感分类网络1007输出的情感分类结果(预测音频情感);在模型训练阶段,根据第一样本概率和错误检测标签,计算错误检测损失,基于情感分类结果和样本情感标签,计算情感分类损失,从而使用错误检测损失和情感分类损失共同训练错误检测网络1004和情感分类网络1007。
本实施例中,基于错误识别标签和第一样本概率,计算错误检测损失,基于样本音频情感和样本情感标签,计算情感分类损失,使得可以通过情感分类损失和预测错误损失对模型进行多任务训练,可以进一步提高模型的鲁棒性。
图11是本申请一个示例性实施例提供的音频情感的确定装置的结构框图,该装置包括:
获取模块1101,用于获取音频的音频表示和第一文本表示,所述第一文本表示是音频文本的文本表示,所述音频文本通过对所述音频进行音频识别得到;
错误检测模块1102,用于基于所述音频表示和所述第一文本表示进行音频识别错误检测,得到预测错误概率,所述预测错误概率指对所述音频进行音频识别的识别错误概率;
处理模块1103,用于基于所述预测错误概率对所述第一文本表示进行加权处理,得到加权文本表示,所述加权处理用于设置所述第一文本表示在音频情感分类过程中的置信度;
情感分类模块1104,用于基于所述加权文本表示和所述音频表示进行音频情感分类,得到所述音频的预测音频情感。
可选的,所述错误检测模块1102,还用于:
对所述音频表示和所述第一文本表示进行对齐处理,确定第二文本表示,所述第二文本表示指所述音频文本的音频表示;
将所述第一文本表示和所述第二文本表示输入错误检测网络,得到所述错误检测网络输出的所述预测错误概率;
所述处理模块1103,还用于:
基于所述预测错误概率对所述第一文本表示和所述第二文本表示进行加权处理,得到所述加权文本表示。
可选的,所述处理模块1103,还用于:
确定预测正确概率,所述预测正确概率与所述预测错误概率之和为1;
基于所述预测错误概率对所述第二文本表示进行加权处理,得到第一加权表示基于所述预测正确概率对所述第一文本表示进行加权处理,得到第二加权表示;
对所述第一加权表示和所述第二加权表示进行求和处理,得到所述加权文本表示。
可选的,所述音频文本由N个单词构成,N为正整数;
所述错误检测模块1102,还用于:
将所述音频表示和所述第一文本表示输入注意力机制层,得到所述注意力机制层输出的N个子音频表示,所述注意力机制层用于从所述音频表示中确定各个单词的子音频表示;
基于N个所述子音频表示,生成所述第二文本表示。
可选的,所述情感分类模块1104,还用于:
将池化操作处理后的所述加权文本表示与池化操作处理后的所述音频表示进行拼接,得到音频特征表示;
将所述音频特征表示输入情感分类网络,得到所述情感分类网络输出的所述预测音频情感。
可选的,所述音频文本由N个单词构成,N为正整数;
所述错误检测模块1102,还用于:
基于所述音频表示和所述第一文本表示进行音频识别错误检测,得到N个所述预测错误概率,其中,每个单词对应一个预测错误概率;
所述情感分类模块,还用于:
对N个所述预测错误概率进行平均处理,得到所述音频文本的置信度分数;
基于所述置信度分数、所述加权文本表示和所述音频表示进行音频情感分类,得到所述音频的所述预测音频情感。
图12是本申请另一个示例性实施例提供的音频情感的确定装置的结构框图,该装置包括:
获取模块1201,用于获取样本音频的样本音频表示和第一样本文本表示,所述第一样本文本表示是样本音频文本的文本表示,所述样本音频文本通过对所述样本音频进行音频识别得到;
错误检测模块1202,用于通过错误检测网络,基于所述样本音频表示和所述第一样本文本表示进行音频识别错误检测,得到所述错误检测网络输出的第一样本概率,所述第一样本概率指对所述样本音频进行音频识别的识别错误概率;
处理模块1203,用于基于所述第一样本概率对所述第一样本文本表示进行加权处理,得到样本加权文本表示,所述加权处理用于设置所述第一样本文本表示在音频情感分类过程中的置信度;
情感分类模块1204,用于基于所述样本加权文本表示和所述样本音频表示进行音频情感分类,得到所述样本音频的样本音频情感;
训练模块1205,用于基于所述第一样本概率和所述样本音频的识别错误标签,训练所述错误检测网络。
可选的,所述错误检测模块1202,还用于:
对所述样本音频表示和所述第一样本文本表示进行对齐处理,确定第二样本文本表示,所述第二样本文本表示指所述样本音频文本的样本音频表示;
将所述第一样本文本表示和所述第二样本文本表示输入所述错误检测网络,得到所述错误检测网络输出的所述第一样本概率;
所述处理模块1203,还用于:
基于所述第一样本概率对所述第一样本文本表示和所述第二样本文本表示进行加权处理,得到所述样本加权文本表示。
可选的,所述处理模块1203,还用于:
确定第二样本概率,所述第二样本概率和所述第一样本概率之和为1;
基于所述第一样本概率对所述第二样本文本表示进行加权处理,得到第一样本加权表示;
基于所述第二样本概率对所述第一样本文本表示进行加权处理,得到第二样本加权表示;
对所述第一样本加权表示和所述第二样本加权表示进行求和处理,得到所述样本加权文本表示。
可选的,所述样本音频文本由M个样本单词构成,M为正整数;
所述错误检测模块1202,还用于:
将所述样本音频表示和所述第一样本文本表示输入注意力机制层,得到所述注意力机制层输出的M个子样本音频表示,所述注意力机制层用于从所述样本音频表示中确定各个样本单词的子样本音频表示;
基于M个所述子样本音频表示,生成所述第二样本文本表示。
可选的,所述情感分类模块1204,还用于:
将池化操作处理后的所述样本加权文本表示与池化操作处理后的所述样本音频表示进行拼接,得到样本音频特征表示;
将所述样本音频特征表示输入情感分类网络,得到所述情感分类网络输出的所述样本音频情感;
所述训练模块1205,还用于:
基于所述第一样本概率和所述识别错误标签,计算错误检测损失;
基于所述样本音频情感和样本情感标签,计算情感分类损失;
基于所述错误检测损失和所述情感分类损失,训练所述错误检测网络和所述情感分类网络。
可选的,所述样本音频文本由M个样本单词构成,M为正整数;
所述装置还包括:
所述获取模块1201,还用于获取所述样本音频的样本实际文本;
对齐模块,用于对所述样本实际文本和所述样本音频文本进行对齐处理;
确定模块,用于在第j样本单词与所述样本实际文本相同的情况下,确定所述第j样本单词的第j识别错误标签为第一错误标签,j为小于等于M的正整数;
所述确定模块,还用于在所述第j样本单词与所述样本实际文本不同的情况下,确定所述第j样本单词的第j识别错误标签为第二错误标签。
综上所述,本申请实施例中,通过音频的音频表示和第一文本表示进行音频识别的错误概率预测,并使用预测得到的预测错误概率对第一文本表示进行加权处理,以设置该文本表示在后续音频情感分类过程中的置信度;使得后续音频情感分类过程中可以更关注置信度高的文本特征,降低预测错误的文本特征对后续音频情感分类结果的影响,从而提高音频情感的确定准确性;且在音频识别错误概率提升的同时,可以降低情感分类结果准确性的下降速率,提高音频情感分类的鲁棒性。
图13是根据一示例性实施例示出的一种计算机设备的结构示意图。所述计算机设备1300可以是图1中第一设备110,也可以是图1中的第二设备120。所述计算机设备1300包括中央处理单元(Central Processing Unit,CPU)1301、包括随机存取存储器(RandomAccess Memory,RAM)1302和只读存储器(Read-Only Memory,ROM)1303的系统存储器1304,以及连接系统存储器1304和中央处理单元1301的系统总线1305。所述计算机设备1300还包括帮助计算机设备内的各个器件之间传输信息的基本输入/输出系统(Input/Output,I/O系统)1306,和用于存储操作系统1313、应用程序1314和其他程序模块1315的大容量存储设备1307。
所述基本输入/输出系统1306包括有用于显示信息的显示器1308和用于用户输入信息的诸如鼠标、键盘之类的输入设备1309。其中所述显示器1308和输入设备1309都通过连接到系统总线1305的输入输出控制器1310连接到中央处理单元1301。所述基本输入/输出系统1306还可以包括输入输出控制器1310以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1310还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1307通过连接到系统总线1305的大容量存储控制器(未示出)连接到中央处理单元1301。所述大容量存储设备1307及其相关联的计算机设备可读介质为计算机设备1300提供非易失性存储。也就是说,所述大容量存储设备1307可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory,CD-ROM)驱动器之类的计算机设备可读介质(未示出)。
不失一般性,所述计算机设备可读介质可以包括计算机设备存储介质和通信介质。计算机设备存储介质包括以用于存储诸如计算机设备可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机设备存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable ReadOnly Memory,EPROM)、带电可擦可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory,EEPROM),CD-ROM、数字视频光盘(Digital Video Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机设备存储介质不局限于上述几种。上述的系统存储器1304和大容量存储设备1307可以统称为存储器。
根据本公开的各种实施例,所述计算机设备1300还可以通过诸如因特网等网络连接到网络上的远程计算机设备运行。也即计算机设备1300可以通过连接在所述系统总线1305上的网络接口单元1312连接到网络1311,或者说,也可以使用网络接口单元1312来连接到其他类型的网络或远程计算机设备系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,中央处理器1301通过执行该一个或一个以上程序来实现上述音频情感的确定方法的全部或者部分步骤。
本申请还提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述方法实施例提供的音频情感的确定方法。
本申请提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方法实施例提供的音频情感的确定方法。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种音频情感的确定方法,其特征在于,所述方法包括:
获取音频的音频表示和第一文本表示,所述第一文本表示是音频文本的文本表示,所述音频文本通过对所述音频进行音频识别得到;
基于所述音频表示和所述第一文本表示进行音频识别错误检测,得到预测错误概率,所述预测错误概率指对所述音频进行音频识别的识别错误概率;
基于所述预测错误概率对所述第一文本表示进行加权处理,得到加权文本表示,所述加权处理用于设置所述第一文本表示在音频情感分类过程中的置信度;
基于所述加权文本表示和所述音频表示进行音频情感分类,得到所述音频的预测音频情感。
2.根据权利要求1所述的方法,其特征在于,所述基于所述音频表示和所述第一文本表示进行音频识别错误检测,得到预测错误概率,包括:
对所述音频表示和所述第一文本表示进行对齐处理,确定第二文本表示,所述第二文本表示指所述音频文本的音频表示;
将所述第一文本表示和所述第二文本表示输入错误检测网络,得到所述错误检测网络输出的所述预测错误概率;
所述基于所述预测错误概率对所述第一文本表示进行加权处理,得到加权文本表示,包括:
基于所述预测错误概率对所述第一文本表示和所述第二文本表示进行加权处理,得到所述加权文本表示。
3.根据权利要求2所述的方法,其特征在于,所述基于所述预测错误概率对所述第一文本表示和所述第二文本表示进行加权处理,得到所述加权文本表示,包括:
确定预测正确概率,所述预测正确概率与所述预测错误概率之和为1;
基于所述预测错误概率对所述第二文本表示进行加权处理,得到第一加权表示;
基于所述预测正确概率对所述第一文本表示进行加权处理,得到第二加权表示;
对所述第一加权表示和所述第二加权表示进行求和处理,得到所述加权文本表示。
4.根据权利要求2所述的方法,其特征在于,所述音频文本由N个单词构成,N为正整数;
所述对所述音频表示和所述第一文本表示进行对齐处理,确定第二文本表示,包括:
将所述音频表示和所述第一文本表示输入注意力机制层,得到所述注意力机制层输出的N个子音频表示,所述注意力机制层用于从所述音频表示中确定各个单词的子音频表示;
基于N个所述子音频表示,生成所述第二文本表示。
5.根据权利要求1至4任一所述的方法,其特征在于,所述基于所述加权文本表示和所述音频表示进行音频情感分类,得到所述音频的预测音频情感,包括:
将池化操作处理后的所述加权文本表示与池化操作处理后的所述音频表示进行拼接,得到音频特征表示;
将所述音频特征表示输入情感分类网络,得到所述情感分类网络输出的所述预测音频情感。
6.根据权利要求1至4任一所述的方法,其特征在于,所述音频文本由N个单词构成,N为正整数;
所述基于所述音频表示和所述第一文本表示进行音频识别错误检测,得到预测错误概率,包括:
基于所述音频表示和所述第一文本表示进行音频识别错误检测,得到N个所述预测错误概率,其中,每个单词对应一个预测错误概率;
所述基于所述加权文本表示和所述音频表示进行音频情感分类,得到所述音频的预测音频情感,包括:
对N个所述预测错误概率进行平均处理,得到所述音频文本的置信度分数;
基于所述置信度分数、所述加权文本表示和所述音频表示进行音频情感分类,得到所述音频的所述预测音频情感。
7.一种音频情感的确定方法,其特征在于,所述方法包括:
获取样本音频的样本音频表示和第一样本文本表示,所述第一样本文本表示是样本音频文本的文本表示,所述样本音频文本通过对所述样本音频进行音频识别得到;
通过错误检测网络,基于所述样本音频表示和所述第一样本文本表示进行音频识别错误检测,得到所述错误检测网络输出的第一样本概率,所述第一样本概率指对所述样本音频进行音频识别的识别错误概率;
基于所述第一样本概率对所述第一样本文本表示进行加权处理,得到样本加权文本表示,所述加权处理用于设置所述第一样本文本表示在音频情感分类过程中的置信度;
基于所述样本加权文本表示和所述样本音频表示进行音频情感分类,得到所述样本音频的样本音频情感;
基于所述第一样本概率和所述样本音频的识别错误标签,训练所述错误检测网络。
8.根据权利要求7所述的方法,其特征在于,所述通过错误检测网络,基于所述样本音频表示和所述第一样本文本表示进行音频识别错误检测,得到所述错误检测网络输出的第一样本概率,包括:
对所述样本音频表示和所述第一样本文本表示进行对齐处理,确定第二样本文本表示,所述第二样本文本表示指所述样本音频文本的样本音频表示;
将所述第一样本文本表示和所述第二样本文本表示输入所述错误检测网络,得到所述错误检测网络输出的所述第一样本概率;
所述基于所述第一样本概率对所述第一样本文本表示进行加权处理,得到样本加权文本表示,包括:
基于所述第一样本概率对所述第一样本文本表示和所述第二样本文本表示进行加权处理,得到所述样本加权文本表示。
9.根据权利要求8所述的方法,其特征在于,所述基于所述第一样本概率对所述第一样本文本表示和所述第二样本文本表示进行加权处理,得到所述样本加权文本表示,包括:
确定第二样本概率,所述第二样本概率和所述第一样本概率之和为1;
基于所述第一样本概率对所述第二样本文本表示进行加权处理,得到第一样本加权表示;
基于所述第二样本概率对所述第一样本文本表示进行加权处理,得到第二样本加权表示;
对所述第一样本加权表示和所述第二样本加权表示进行求和处理,得到所述样本加权文本表示。
10.根据权利要求8所述的方法,其特征在于,所述样本音频文本由M个样本单词构成,M为正整数;
所述对所述样本音频表示和所述第一样本文本表示进行对齐处理,确定第二样本文本表示,包括:
将所述样本音频表示和所述第一样本文本表示输入注意力机制层,得到所述注意力机制层输出的M个子样本音频表示,所述注意力机制层用于从所述样本音频表示中确定各个样本单词的子样本音频表示;
基于M个所述子样本音频表示,生成所述第二样本文本表示。
11.根据权利要求7至10任一所述的方法,其特征在于,所述基于所述样本加权文本表示和所述样本音频表示进行音频情感分类,得到所述样本音频的样本音频情感,包括:
将池化操作处理后的所述样本加权文本表示与池化操作处理后的所述样本音频表示进行拼接,得到样本音频特征表示;
将所述样本音频特征表示输入情感分类网络,得到所述情感分类网络输出的所述样本音频情感;
所述基于所述第一样本概率和所述样本音频的识别错误标签,训练所述错误检测网络,包括:
基于所述第一样本概率和所述识别错误标签,计算错误检测损失;
基于所述样本音频情感和样本情感标签,计算情感分类损失;
基于所述错误检测损失和所述情感分类损失,训练所述错误检测网络和所述情感分类网络。
12.根据权利要求7至10任一所述的方法,其特征在于,所述样本音频文本由M个样本单词构成,M为正整数;
所述方法还包括:
获取所述样本音频的样本实际文本;
对所述样本实际文本和所述样本音频文本进行对齐处理;
在第j样本单词与所述样本实际文本相同的情况下,确定所述第j样本单词的第j识别错误标签为第一错误标签,j为小于等于M的正整数;
在所述第j样本单词与所述样本实际文本不同的情况下,确定所述第j样本单词的第j识别错误标签为第二错误标签。
13.一种音频情感的确定装置,其特征在于,所述装置包括:
获取模块,用于获取音频的音频表示和第一文本表示,所述第一文本表示是音频文本的文本表示,所述音频文本通过对所述音频进行音频识别得到;
错误检测模块,用于基于所述音频表示和所述第一文本表示进行音频识别错误检测,得到预测错误概率,所述预测错误概率指对所述音频进行音频识别的识别错误概率;
处理模块,用于基于所述预测错误概率对所述第一文本表示进行加权处理,得到加权文本表示,所述加权处理用于设置所述第一文本表示在音频情感分类过程中的置信度;
情感分类模块,用于基于所述加权文本表示和所述音频表示进行音频情感分类,得到所述音频的预测音频情感。
14.一种音频情感的确定装置,其特征在于,所述装置包括:
获取模块,用于获取样本音频的样本音频表示和第一样本文本表示,所述第一样本文本表示是样本音频文本的文本表示,所述样本音频文本通过对所述样本音频进行音频识别得到;
错误检测模块,用于通过错误检测网络,基于所述样本音频表示和所述第一样本文本表示进行音频识别错误检测,得到所述错误检测网络输出的第一样本概率,所述第一样本概率指对所述样本音频进行音频识别的识别错误概率;
处理模块,用于基于所述第一样本概率对所述第一样本文本表示进行加权处理,得到样本加权文本表示,所述加权处理用于设置所述第一样本文本表示在音频情感分类过程中的置信度;
情感分类模块,用于基于所述样本加权文本表示和所述样本音频表示进行音频情感分类,得到所述样本音频的样本音频情感;
训练模块,用于基于所述第一样本概率和所述样本音频的识别错误标签,训练所述错误检测网络。
15.一种计算机设备,其特征在于,所述计算机设备包括:处理器和存储器,所述存储器存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至6任一所述的音频情感的确定方法,或实现如权利要求7至12任一所述的音频情感的确定方法。
CN202211058723.8A 2022-08-31 2022-08-31 音频情感的确定方法、装置及计算机设备 Pending CN116994612A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211058723.8A CN116994612A (zh) 2022-08-31 2022-08-31 音频情感的确定方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211058723.8A CN116994612A (zh) 2022-08-31 2022-08-31 音频情感的确定方法、装置及计算机设备

Publications (1)

Publication Number Publication Date
CN116994612A true CN116994612A (zh) 2023-11-03

Family

ID=88530816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211058723.8A Pending CN116994612A (zh) 2022-08-31 2022-08-31 音频情感的确定方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN116994612A (zh)

Similar Documents

Publication Publication Date Title
WO2021174757A1 (zh) 语音情绪识别方法、装置、电子设备及计算机可读存储介质
CN106683680B (zh) 说话人识别方法及装置、计算机设备及计算机可读介质
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN113850162B (zh) 一种视频审核方法、装置及电子设备
CN112509562B (zh) 用于文本后处理的方法、装置、电子设备和介质
CN104299623A (zh) 语音应用中用于自动确认和消歧模块的方法和系统
CN113240510B (zh) 异常用户预测方法、装置、设备及存储介质
CN111653274B (zh) 唤醒词识别的方法、装置及存储介质
CN110263218B (zh) 视频描述文本生成方法、装置、设备和介质
CN112232276B (zh) 一种基于语音识别和图像识别的情绪检测方法和装置
CN113239702A (zh) 意图识别方法、装置、电子设备
CN115457938A (zh) 识别唤醒词的方法、装置、存储介质及电子装置
CN111554275A (zh) 语音识别方法、装置、设备及计算机可读存储介质
CN113889092A (zh) 语音识别结果的后处理模型的训练方法、处理方法及装置
CN113393841B (zh) 语音识别模型的训练方法、装置、设备及存储介质
CN115512692B (zh) 语音识别方法、装置、设备及存储介质
CN114694637A (zh) 混合语音识别方法、装置、电子设备及存储介质
CN116450943A (zh) 基于人工智能的话术推荐方法、装置、设备及存储介质
EP3944230B1 (en) Correction of erroneous query transcriptions
CN114218356B (zh) 基于人工智能的语义识别方法、装置、设备及存储介质
CN113723367B (zh) 一种答案确定方法、判题方法及装置和电子设备
CN115019295A (zh) 模型训练方法、文本行确定方法及装置
CN116994612A (zh) 音频情感的确定方法、装置及计算机设备
CN114780757A (zh) 短媒体标签抽取方法、装置、计算机设备和存储介质
CN114333772A (zh) 语音识别方法、装置、设备、可读存储介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination