CN112911334A - 基于音视频数据的情绪识别方法、装置、设备及存储介质 - Google Patents

基于音视频数据的情绪识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112911334A
CN112911334A CN202110094215.4A CN202110094215A CN112911334A CN 112911334 A CN112911334 A CN 112911334A CN 202110094215 A CN202110094215 A CN 202110094215A CN 112911334 A CN112911334 A CN 112911334A
Authority
CN
China
Prior art keywords
audio
video data
emotion
data
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110094215.4A
Other languages
English (en)
Inventor
李健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110094215.4A priority Critical patent/CN112911334A/zh
Publication of CN112911334A publication Critical patent/CN112911334A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明实施例涉及人工智能领域,公开了一种基于音视频数据的情绪识别方法、装置、设备及存储介质,该方法包括:获取音视频数据;对音视频数据中的音频数据进行识别分析,提取出音频特征信息;对音视频数据中的视频数据进行识别分析,提取出视频帧特征信息;将音频特征信息和视频帧特征信息输入情绪识别模型进行测试,得到与音视频数据对应的客户的情绪;从标准语言库中确定与客户的情绪对应的指定文本,并将指定文本发送给客户对应的用户终端,输出显示在用户终端的显示界面上。这种方式可以自动快速、准确地识别客户情绪,输出与客户情绪对应的指定文本。本发明涉及区块链技术,如可将音视频数据写入区块链中,以用于数据取证等场景。

Description

基于音视频数据的情绪识别方法、装置、设备及存储介质
技术领域
本发明涉及人工智能领域,尤其涉及一种基于音视频数据的情绪识别方法、装置、设备及存储介质。
背景技术
随着通信技术的发展,音视频的应用越来越广泛,目前许多业务领域如银行行业领域,均通过音视频进行各种业务操作,例如银行客服员工与客户通过音视频交谈业务。然而,在银行客服员工与客户通过音视频交谈业务的过程中,可能会因为某些原因导致客户不开心,出现情绪波动的情况。因此,如何快速有效地识别客户情绪显得尤为重要。
发明内容
本发明实施例提供了一种基于音视频数据的情绪识别方法、装置、设备及存储介质,可以在音视频服务过程中自动快速、准确地识别客户情绪,并及时输出与客户情绪对应的指定文本安抚客户情绪,满足了对识别客户情绪以及输出指定文本来安抚客户情绪的自动化、智能化需求。
第一方面,本发明实施例提供了一种基于音视频数据的情绪识别方法,所述方法包括:
获取在音视频服务过程中的客户与员工的音视频数据,其中,所述音视频数据包括音频数据和视频数据;
对所述音视频数据中的音频数据进行识别分析,提取出与所述音频数据对应的音频特征信息;
对所述音视频数据中的视频数据进行识别分析,提取出与所述视频数据中的对象对应的视频帧特征信息;
将所述音频特征信息和所述视频帧特征信息输入训练得到的情绪识别模型进行测试,得到与所述音视频数据对应的客户的情绪;
根据得到的与所述音视频数据对应的客户的情绪从标准语言库中确定与所述客户的情绪对应的指定文本,并将所述指定文本发送给所述客户对应的用户终端,并将所述指定文本输出显示在所述用户终端的显示界面上,所述指定文本用于安抚客户的情绪。
进一步地,所述获取在音视频服务过程中的客户与员工的音视频数据之后,还包括:
获取所述音视频数据中的音频数据,并对所述音频数据进行端点检测,得到有效音频数据的起始端点和结束端点;
根据所述起始端点和结束端点从所述音频数据中确定有效音频数据;
获取所述音视频数据中的视频数据,并对所述视频数据进行检测,以过滤所述视频数据中的干扰数据。
进一步地,所述对所述音视频数据中的音频数据进行识别分析,提取出与所述音频数据对应的音频特征信息,包括:
获取所述音频数据中的音频信号;
将所述音频信号输入音频识别模型进行识别分析,提取得到所述音频信号对应的音频特征信息,所述音频特征信息包括第一振锋、第二振锋、能量、语调、语速中的一种或多种。
进一步地,所述对所述音视频数据中的视频数据进行识别分析,提取出与所述视频数据中的对象对应的视频帧特征信息,包括:
获取所述音频数据中的视频帧;
将所述视频帧输入视频识别模型进行识别分析,提取得到所述视频帧对应的视频帧特征信息,所述视频帧特征信息包括人脸特征信息和/或肢体特征信息。
进一步地,所述将所述音频特征信息和所述视频帧特征信息输入训练得到的情绪识别模型进行测试,得到与所述音视频数据对应的客户的情绪之前,还包括:
获取音视频样本数据,并对所述音视频样本数据添加情绪标签,所述音视频样本数据包括音频样本数据和视频样本数据;
将所述音频样本数据和视频样本数据输入指定的神经网络模型进行训练,得到所述情绪识别模型。
进一步地,所述将所述音频特征信息和所述视频帧特征信息输入训练得到的情绪识别模型进行测试,得到与所述音视频数据对应的客户的情绪,包括:
根据所述音频特征信息和所述视频帧特征信息对所述音频特征信息和所述视频帧特征信息进行级联合并处理,得到目标特征信息;
将所述目标特征信息输入训练得到的情绪识别模型进行测试,得到与所述音视频数据对应的客户的情绪。
进一步地,所述根据得到的与所述音视频数据对应的客户的情绪从标准语言库中确定与所述客户的情绪对应的指定文本,包括:
从标准语言库中获取情绪与文本的映射关系;
根据所述情绪与文本的映射关系从所述标准语言库中获取与所述客户的情绪对应的指定文本。
第二方面,本发明实施例提供了一种基于音视频数据的情绪识别装置,包括:
获取单元,用于获取在音视频服务过程中的客户与员工的音视频数据,其中,所述音视频数据包括音频数据和视频数据;
第一分析单元,用于对所述音视频数据中的音频数据进行识别分析,提取出与所述音频数据对应的音频特征信息;
第二分析单元,用于对所述音视频数据中的视频数据进行识别分析,提取出与所述视频数据中的对象对应的视频帧特征信息;
测试单元,用于将所述音频特征信息和所述视频帧特征信息输入训练得到的情绪识别模型进行测试,得到与所述音视频数据对应的客户的情绪;
确定单元,用于根据得到的与所述音视频数据对应的客户的情绪从标准语言库中确定与所述客户的情绪对应的指定文本,并将所述指定文本发送给所述客户对应的用户终端,并将所述指定文本输出显示在所述用户终端的显示界面上,所述指定文本用于安抚客户的情绪。
第三方面,本发明实施例提供了一种计算机设备,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储支持基于音视频数据的情绪识别装置执行上述方法的计算机程序,所述计算机程序包括程序,所述处理器被配置用于调用所述程序,执行上述第一方面的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行以实现上述第一方面的方法。
本发明实施例可以获取在音视频服务过程中的客户与员工的音视频数据,其中,所述音视频数据包括音频数据和视频数据;对所述音视频数据中的音频数据进行识别分析,提取出与所述音频数据对应的音频特征信息;对所述音视频数据中的视频数据进行识别分析,提取出与所述视频数据中的对象对应的视频帧特征信息;将所述音频特征信息和所述视频帧特征信息输入训练得到的情绪识别模型进行测试,得到与所述音视频数据对应的客户的情绪;根据得到的与所述音视频数据对应的客户的情绪从标准语言库中确定与所述客户的情绪对应的指定文本,并将所述指定文本发送给所述客户对应的用户终端,并将所述指定文本输出显示在所述用户终端的显示界面上,所述指定文本用于安抚客户的情绪。通过这种实施方式,可以在音视频服务过程中自动快速、准确地识别客户情绪,并及时输出与客户情绪对应的指定文本安抚客户情绪,满足了对识别客户情绪以及输出指定文本来安抚客户情绪的自动化、智能化需求。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于音视频数据的情绪识别方法的示意流程图;
图2是本发明实施例提供的一种基于音视频数据的情绪识别装置的示意框图;
图3是本发明实施例提供的一种计算机设备的示意框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的基于音视频数据的情绪识别方法可以应用于一种基于音视频数据的情绪识别装置,在某些实施例中,所述基于音视频数据的情绪识别装置设置于计算机设备中。在某些实施例中,所述计算机设备包括但不限于智能手机、平板电脑、膝上型电脑等中的一种或者多种。
下面结合附图1对本发明实施例提供的基于音视频数据的情绪识别方法进行示意性说明。
请参见图1,图1是本发明实施例提供的一种基于音视频数据的情绪识别方法的示意流程图,如图1所示,该方法可以由基于音视频数据的情绪识别装置执行,所述基于音视频数据的情绪识别装置设置于计算机设备中。具体地,本发明实施例的所述方法包括如下步骤。
S101:获取在音视频服务过程中的客户与员工的音视频数据,其中,所述音视频数据包括音频数据和视频数据。
本发明实施例中,基于音视频数据的情绪识别装置可以获取在音视频服务过程中的客户与员工的音视频数据,其中,所述音视频数据包括音频数据和视频数据。在某些实施例中,所述音视频服务包括但不限于视频通话服务。
在一个实施例中,基于音视频数据的情绪识别装置在获取在音视频服务过程中的客户与员工的音视频数据之后,可以获取所述音视频数据中的音频数据,并对所述音频数据进行端点检测,得到有效音频数据的起始端点和结束端点;根据所述起始端点和结束端点从所述音频数据中确定有效音频数据;获取所述音视频数据中的视频数据,并对所述视频数据进行检测,以过滤所述视频数据中的干扰数据。
在一个具体实施例中,基于音视频数据的情绪识别装置可以对所述音视频数据中的音频数据进行端点检测,从而从连续的语音流中检测出有效的语音段即有效音频数据。通过这种方式可以过滤无声数据,获取到有效音频数据。
在一个实施例中,基于音视频数据的情绪识别装置在获取在音视频服务过程中的客户与员工的音视频数据之后,还可以对所述音视频数据进行预处理,其中,所述预处理包括对所述音视频数据中的视频数据进行过滤,以消除一些冗余、干扰等数据。
S102:对所述音视频数据中的音频数据进行识别分析,提取出与所述音频数据对应的音频特征信息。
本发明实施例中,基于音视频数据的情绪识别装置可以对所述音视频数据中的音频数据进行识别分析,提取出与所述音频数据对应的音频特征信息。
在一个实施例中,基于音视频数据的情绪识别装置在对所述音视频数据中的音频数据进行识别分析,提取出与所述音频数据对应的音频特征信息时,可以获取所述音频数据中的音频信号;将所述音频信号输入音频识别模型进行识别分析,提取得到所述音频信号对应的音频特征信息,所述音频特征信息包括第一振锋、第二振锋、能量、语调、语速中的一种或多种。
在一个实施例中,基于音视频数据的情绪识别装置可以对所述音频信号中的语调、语速等信息进行分析并记录,通过大量累积采集音频信号,获取大量的语调、语速的分析结果,从而形成语音识别库,有助于辅助识别分析音频数据中的音频信号。
通过提取与所述音频数据对应的音频特征信息,有助于根据所述音频特征信息确定所述音频数据是否包含情绪语言,其中,所述情绪语言包括但不限于开心、不开心、愤怒等情绪。
S103:对所述音视频数据中的视频数据进行识别分析,提取出与所述视频数据中的对象对应的视频帧特征信息。
本发明实施例中,基于音视频数据的情绪识别装置可以对所述音视频数据中的视频数据进行识别分析,提取出与所述视频数据中的对象对应的视频帧特征信息。
在一个实施例中,基于音视频数据的情绪识别装置在对所述音视频数据中的视频数据进行识别分析,提取出与所述视频数据中的对象对应的视频帧特征信息时,可以获取所述音频数据中的视频帧;将所述视频帧输入视频识别模型进行识别分析,提取得到所述视频帧对应的视频帧特征信息,所述视频帧特征信息包括人脸特征信息和/或肢体特征信息。
在一个实施例中,基于音视频数据的情绪识别装置在对所述音视频数据中的视频数据进行识别分析,提取得到所述视频帧对应的视频帧特征信息时,可以识别所述视频数据,提取得到所述视频帧对应的人脸特征信息。通过提取视频帧对应的人脸特征信息,有助于根据人脸特征信息确定情绪分布占比。
在一个实施例中,基于音视频数据的情绪识别装置在对所述音视频数据中的视频数据进行识别分析,提取得到所述视频帧对应的视频帧特征信息时,可以识别所述视频数据,提取得到所述视频帧对应的肢体特征信息。在某些实施例中,所述肢体特征信息包括但不限于手部、头部、腿部等身体部位的特征信息。
通过提取与所述视频帧数据对应的视频帧特征信息,有助于根据所述视频帧特征信息确定所述视频数据是否包含情绪特征,以及各情绪特征的占比,其中,所述情绪特征包括但不限于忧郁、生气、愤怒、开心等表情特征或肢体特征。
S104:将所述音频特征信息和所述视频帧特征信息输入训练得到的情绪识别模型进行测试,得到与所述音视频数据对应的客户的情绪。
本发明实施例中,基于音视频数据的情绪识别装置可以将所述音频特征信息和所述视频帧特征信息输入训练得到的情绪识别模型进行测试,得到与所述音视频数据对应的客户的情绪。
在一个实施例中,基于音视频数据的情绪识别装置在将所述音频特征信息和所述视频帧特征信息输入训练得到的情绪识别模型进行测试,得到与所述音视频数据对应的客户的情绪之前,可以获取音视频样本数据,并对所述音视频样本数据添加情绪标签,所述音视频样本数据包括音频样本数据和视频样本数据;将所述音频样本数据和视频样本数据输入指定的神经网络模型进行训练,得到所述情绪识别模型。
在一个具体实施例中,基于音视频数据的情绪识别装置可以将所述音频样本数据和视频样本数据输入指定的神经网络模型,得到与所述音频样本数据和视频样本数据对应的情绪概率估计值,并根据所述情绪概率估计值和所述情绪标签对所述神经网络模型的参数进行调整,从而训练得到所述情绪识别模型。在某些实施例中,所述情绪概率估计值包括一个或多个情绪对应的概率估计值即情绪占比。
在一个实施例中,基于音视频数据的情绪识别装置在将所述音频特征信息和所述视频帧特征信息输入训练得到的情绪识别模型进行测试,得到与所述音视频数据对应的客户的情绪时,可以根据所述音频特征信息和所述视频帧特征信息对所述音频特征信息和所述视频帧特征信息进行级联合并处理,得到目标特征信息;将所述目标特征信息输入训练得到的情绪识别模型进行测试,得到与所述音视频数据对应的客户的情绪。
在一个实施例中,在将所述目标特征信息输入训练得到的情绪识别模型进行测试,得到与所述音视频数据对应的客户的情绪时,可以将所述目标特征信息输入训练得到的情绪识别模型进行测试,得到所述音视频数据对应的一个或多个情绪的概率估计值,并将所述一个或多个情绪的概率估计值中的最大概率估计值对应的情绪确定为与所述音视频数据对应的客户的情绪。
S105:根据得到的与所述音视频数据对应的客户的情绪从标准语言库中确定与所述客户的情绪对应的指定文本,并将所述指定文本发送给所述客户对应的用户终端,并将所述指定文本输出显示在所述用户终端的显示界面上,所述指定文本用于安抚客户的情绪。
本发明实施例中,基于音视频数据的情绪识别装置可以根据得到的与所述音视频数据对应的客户的情绪从标准语言库中确定与所述客户的情绪对应的指定文本,并将所述指定文本发送给所述客户对应的用户终端,并将所述指定文本输出显示在所述用户终端的显示界面上,所述指定文本用于安抚客户的情绪。
在一个实施例中,基于音视频数据的情绪识别装置在根据得到的与所述音视频数据对应的客户的情绪从标准语言库中确定与所述客户的情绪对应的指定文本时,可以从标准语言库中获取情绪与文本的映射关系;根据所述情绪与文本的映射关系从所述标准语言库中获取与所述客户的情绪对应的指定文本。在某些实施例中,所述指定文本包括但不限于文字、字母、符号、表情等。
例如,假设确定得到到客户的情绪为生气,则可以根据标准语言库中情绪与文本的映射关系从所述标准语言库中获取与所述客户的生气情绪对应的指定文本如“消消气,别气坏身体”等。
通过将与客户的情绪对应的指定文本输出至客户的用户终端的用户界面进行显示,有助于安抚客户的不好情绪,分享客户的好情绪。
本发明实施例中,基于音视频数据的情绪识别装置可以获取在音视频服务过程中的客户与员工的音视频数据,其中,所述音视频数据包括音频数据和视频数据;对所述音视频数据中的音频数据进行识别分析,提取出与所述音频数据对应的音频特征信息;对所述音视频数据中的视频数据进行识别分析,提取出与所述视频数据中的对象对应的视频帧特征信息;将所述音频特征信息和所述视频帧特征信息输入训练得到的情绪识别模型进行测试,得到与所述音视频数据对应的客户的情绪;根据得到的与所述音视频数据对应的客户的情绪从标准语言库中确定与所述客户的情绪对应的指定文本,并将所述指定文本发送给所述客户对应的用户终端,并将所述指定文本输出显示在所述用户终端的显示界面上,所述指定文本用于安抚客户的情绪。通过这种实施方式,可以在音视频服务过程中自动快速、准确地识别客户情绪,并及时输出与客户情绪对应的指定文本安抚客户情绪,满足了对识别客户情绪以及输出指定文本来安抚客户情绪的自动化、智能化需求。
本发明实施例还提供了一种基于音视频数据的情绪识别装置,该基于音视频数据的情绪识别装置用于执行前述任一项所述的方法的单元。具体地,参见图2,图2是本发明实施例提供的一种基于音视频数据的情绪识别装置的示意框图。本实施例的基于音视频数据的情绪识别装置包括:获取单元201、第一分析单元202、第二分析单元203、测试单元204以及确定单元205。
获取单元201,用于获取在音视频服务过程中的客户与员工的音视频数据,其中,所述音视频数据包括音频数据和视频数据;
第一分析单元202,用于对所述音视频数据中的音频数据进行识别分析,提取出与所述音频数据对应的音频特征信息;
第二分析单元203,用于对所述音视频数据中的视频数据进行识别分析,提取出与所述视频数据中的对象对应的视频帧特征信息;
测试单元204,用于将所述音频特征信息和所述视频帧特征信息输入训练得到的情绪识别模型进行测试,得到与所述音视频数据对应的客户的情绪;
确定单元205,用于根据得到的与所述音视频数据对应的客户的情绪从标准语言库中确定与所述客户的情绪对应的指定文本,并将所述指定文本发送给所述客户对应的用户终端,并将所述指定文本输出显示在所述用户终端的显示界面上,所述指定文本用于安抚客户的情绪。
进一步地,所述获取单元201获取在音视频服务过程中的客户与员工的音视频数据之后,还用于:
获取所述音视频数据中的音频数据,并对所述音频数据进行端点检测,得到有效音频数据的起始端点和结束端点;
根据所述起始端点和结束端点从所述音频数据中确定有效音频数据;
获取所述音视频数据中的视频数据,并对所述视频数据进行检测,以过滤所述视频数据中的干扰数据。
进一步地,所述第一分析单元202对所述音视频数据中的音频数据进行识别分析,提取出与所述音频数据对应的音频特征信息时,具体用于:
获取所述音频数据中的音频信号;
将所述音频信号输入音频识别模型进行识别分析,提取得到所述音频信号对应的音频特征信息,所述音频特征信息包括第一振锋、第二振锋、能量、语调、语速中的一种或多种。
进一步地,所述第二分析单元203对所述音视频数据中的视频数据进行识别分析,提取出与所述视频数据中的对象对应的视频帧特征信息时,具体用于:
获取所述音频数据中的视频帧;
将所述视频帧输入视频识别模型进行识别分析,提取得到所述视频帧对应的视频帧特征信息,所述视频帧特征信息包括人脸特征信息和/或肢体特征信息。
进一步地,所述测试单元204将所述音频特征信息和所述视频帧特征信息输入训练得到的情绪识别模型进行测试,得到与所述音视频数据对应的客户的情绪之前,还用于:
获取音视频样本数据,并对所述音视频样本数据添加情绪标签,所述音视频样本数据包括音频样本数据和视频样本数据;
将所述音频样本数据和视频样本数据输入指定的神经网络模型进行训练,得到所述情绪识别模型。
进一步地,所述测试单元204将所述音频特征信息和所述视频帧特征信息输入训练得到的情绪识别模型进行测试,得到与所述音视频数据对应的客户的情绪时,具体用于:
根据所述音频特征信息和所述视频帧特征信息对所述音频特征信息和所述视频帧特征信息进行级联合并处理,得到目标特征信息;
将所述目标特征信息输入训练得到的情绪识别模型进行测试,得到与所述音视频数据对应的客户的情绪。
进一步地,所述确定单元205根据得到的与所述音视频数据对应的客户的情绪从标准语言库中确定与所述客户的情绪对应的指定文本时,具体用于:
从标准语言库中获取情绪与文本的映射关系;
根据所述情绪与文本的映射关系从所述标准语言库中获取与所述客户的情绪对应的指定文本。
本发明实施例中,基于音视频数据的情绪识别装置可以获取在音视频服务过程中的客户与员工的音视频数据,其中,所述音视频数据包括音频数据和视频数据;对所述音视频数据中的音频数据进行识别分析,提取出与所述音频数据对应的音频特征信息;对所述音视频数据中的视频数据进行识别分析,提取出与所述视频数据中的对象对应的视频帧特征信息;将所述音频特征信息和所述视频帧特征信息输入训练得到的情绪识别模型进行测试,得到与所述音视频数据对应的客户的情绪;根据得到的与所述音视频数据对应的客户的情绪从标准语言库中确定与所述客户的情绪对应的指定文本,并将所述指定文本发送给所述客户对应的用户终端,并将所述指定文本输出显示在所述用户终端的显示界面上,所述指定文本用于安抚客户的情绪。通过这种实施方式,可以在音视频服务过程中自动快速、准确地识别客户情绪,并及时输出与客户情绪对应的指定文本安抚客户情绪,满足了对识别客户情绪以及输出指定文本来安抚客户情绪的自动化、智能化需求。
参见图3,图3是本发明实施例提供的一种计算机设备的示意框图。如图所示的本实施例中的设备可以包括:一个或多个处理器301;一个或多个输入设备302,一个或多个输出设备303和存储器304。上述处理器301、输入设备302、输出设备303和存储器304通过总线305连接。存储器304用于存储计算机程序,所述计算机程序包括程序,处理器301用于执行存储器304存储的程序。其中,处理器301被配置用于调用所述程序执行:
获取在音视频服务过程中的客户与员工的音视频数据,其中,所述音视频数据包括音频数据和视频数据;
对所述音视频数据中的音频数据进行识别分析,提取出与所述音频数据对应的音频特征信息;
对所述音视频数据中的视频数据进行识别分析,提取出与所述视频数据中的对象对应的视频帧特征信息;
将所述音频特征信息和所述视频帧特征信息输入训练得到的情绪识别模型进行测试,得到与所述音视频数据对应的客户的情绪;
根据得到的与所述音视频数据对应的客户的情绪从标准语言库中确定与所述客户的情绪对应的指定文本,并将所述指定文本发送给所述客户对应的用户终端,并将所述指定文本输出显示在所述用户终端的显示界面上,所述指定文本用于安抚客户的情绪。
进一步地,所述处理器301对所述音视频数据中的音频数据进行识别分析,提取出与所述音频数据对应的音频特征信息时,具体用于:
获取所述音频数据中的音频信号;
将所述音频信号输入音频识别模型进行识别分析,提取得到所述音频信号对应的音频特征信息,所述音频特征信息包括第一振锋、第二振锋、能量、语调、语速中的一种或多种。
进一步地,所述处理器301对所述音视频数据中的视频数据进行识别分析,提取出与所述视频数据中的对象对应的视频帧特征信息时,具体用于:
获取所述音频数据中的视频帧;
将所述视频帧输入视频识别模型进行识别分析,提取得到所述视频帧对应的视频帧特征信息,所述视频帧特征信息包括人脸特征信息和/或肢体特征信息。
进一步地,所述处理器301将所述音频特征信息和所述视频帧特征信息输入训练得到的情绪识别模型进行测试,得到与所述音视频数据对应的客户的情绪之前,还用于:
获取音视频样本数据,并对所述音视频样本数据添加情绪标签,所述音视频样本数据包括音频样本数据和视频样本数据;
将所述音频样本数据和视频样本数据输入指定的神经网络模型进行训练,得到所述情绪识别模型。
进一步地,所述处理器301将所述音频特征信息和所述视频帧特征信息输入训练得到的情绪识别模型进行测试,得到与所述音视频数据对应的客户的情绪时,具体用于:
根据所述音频特征信息和所述视频帧特征信息对所述音频特征信息和所述视频帧特征信息进行级联合并处理,得到目标特征信息;
将所述目标特征信息输入训练得到的情绪识别模型进行测试,得到与所述音视频数据对应的客户的情绪。
进一步地,所述处理器301根据得到的与所述音视频数据对应的客户的情绪从标准语言库中确定与所述客户的情绪对应的指定文本时,具体用于:
从标准语言库中获取情绪与文本的映射关系;
根据所述情绪与文本的映射关系从所述标准语言库中获取与所述客户的情绪对应的指定文本。
本发明实施例中,计算机设备可以获取在音视频服务过程中的客户与员工的音视频数据,其中,所述音视频数据包括音频数据和视频数据;对所述音视频数据中的音频数据进行识别分析,提取出与所述音频数据对应的音频特征信息;对所述音视频数据中的视频数据进行识别分析,提取出与所述视频数据中的对象对应的视频帧特征信息;将所述音频特征信息和所述视频帧特征信息输入训练得到的情绪识别模型进行测试,得到与所述音视频数据对应的客户的情绪;根据得到的与所述音视频数据对应的客户的情绪从标准语言库中确定与所述客户的情绪对应的指定文本,并将所述指定文本发送给所述客户对应的用户终端,并将所述指定文本输出显示在所述用户终端的显示界面上,所述指定文本用于安抚客户的情绪。通过这种实施方式,可以在音视频服务过程中自动快速、准确地识别客户情绪,并及时输出与客户情绪对应的指定文本安抚客户情绪,满足了对识别客户情绪以及输出指定文本来安抚客户情绪的自动化、智能化需求。
应当理解,在本发明实施例中,所称处理器301可以是中央处理单元(CenSralProcessing UniS,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigiSalSignal Processor,DSP)、专用集成电路(ApplicaSion Specific InSegraSed CircuiS,ASIC)、现成可编程门阵列(Field-Programmable GaSe Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输入设备302可以包括触控板、麦克风等,输出设备303可以包括显示器(LCD等)、扬声器等。
该存储器304可以包括只读存储器和随机存取存储器,并向处理器301提供指令和数据。存储器304的一部分还可以包括非易失性随机存取存储器。例如,存储器304还可以存储设备类型的信息。
具体实现中,本发明实施例中所描述的处理器301、输入设备302、输出设备303可执行本发明实施例提供的图1所述的方法实施例中所描述的实现方式,也可执行本发明实施例图2所描述的基于音视频数据的情绪识别装置的实现方式,在此不再赘述。
本发明实施例中还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现图1所对应实施例中描述的基于音视频数据的情绪识别方法,也可实现本发明图2所对应实施例的基于音视频数据的情绪识别装置,在此不再赘述。
所述计算机可读存储介质可以是前述任一实施例所述的基于音视频数据的情绪识别装置的内部存储单元,例如基于音视频数据的情绪识别装置的硬盘或内存。所述计算机可读存储介质也可以是所述基于音视频数据的情绪识别装置的外部存储装置,例如所述基于音视频数据的情绪识别装置上配备的插接式硬盘,智能存储卡(SmarS Media Card,SMC),安全数字(Secure DigiSal,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述基于音视频数据的情绪识别装置的内部存储单元也包括外部存储装置。所述计算机可读存储介质用于存储所述计算机程序以及所述基于音视频数据的情绪识别装置所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。所述的计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
需要强调的是,为进一步保证上述数据的私密和安全性,上述数据还可以存储于一区块链的节点中。其中,本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
以上所述,仅为本发明的部分实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于音视频数据的情绪识别方法,其特征在于,所述方法包括:
获取在音视频服务过程中的客户与员工的音视频数据,其中,所述音视频数据包括音频数据和视频数据;
对所述音视频数据中的音频数据进行识别分析,提取出与所述音频数据对应的音频特征信息;
对所述音视频数据中的视频数据进行识别分析,提取出与所述视频数据中的对象对应的视频帧特征信息;
将所述音频特征信息和所述视频帧特征信息输入训练得到的情绪识别模型进行测试,得到与所述音视频数据对应的客户的情绪;
根据得到的与所述音视频数据对应的客户的情绪从标准语言库中确定与所述客户的情绪对应的指定文本,并将所述指定文本发送给所述客户对应的用户终端,并将所述指定文本输出显示在所述用户终端的显示界面上,所述指定文本用于安抚客户的情绪。
2.根据权利要求1所述的方法,其特征在于,所述获取在音视频服务过程中的客户与员工的音视频数据之后,还包括:
获取所述音视频数据中的音频数据,并对所述音频数据进行端点检测,得到有效音频数据的起始端点和结束端点;
根据所述起始端点和结束端点从所述音频数据中确定有效音频数据;
获取所述音视频数据中的视频数据,并对所述视频数据进行检测,以过滤所述视频数据中的干扰数据。
3.根据权利要求2所述的方法,其特征在于,所述对所述音视频数据中的音频数据进行识别分析,提取出与所述音频数据对应的音频特征信息,包括:
获取所述音频数据中的音频信号;
将所述音频信号输入音频识别模型进行识别分析,提取得到所述音频信号对应的音频特征信息,所述音频特征信息包括第一振锋、第二振锋、能量、语调、语速中的一种或多种。
4.根据权利要求2所述的方法,其特征在于,所述对所述音视频数据中的视频数据进行识别分析,提取出与所述视频数据中的对象对应的视频帧特征信息,包括:
获取所述音频数据中的视频帧;
将所述视频帧输入视频识别模型进行识别分析,提取得到所述视频帧对应的视频帧特征信息,所述视频帧特征信息包括人脸特征信息和/或肢体特征信息。
5.根据权利要求1所述的方法,其特征在于,所述将所述音频特征信息和所述视频帧特征信息输入训练得到的情绪识别模型进行测试,得到与所述音视频数据对应的客户的情绪之前,还包括:
获取音视频样本数据,并对所述音视频样本数据添加情绪标签,所述音视频样本数据包括音频样本数据和视频样本数据;
将所述音频样本数据和视频样本数据输入指定的神经网络模型进行训练,得到所述情绪识别模型。
6.根据权利要求1所述的方法,其特征在于,所述将所述音频特征信息和所述视频帧特征信息输入训练得到的情绪识别模型进行测试,得到与所述音视频数据对应的客户的情绪,包括:
根据所述音频特征信息和所述视频帧特征信息对所述音频特征信息和所述视频帧特征信息进行级联合并处理,得到目标特征信息;
将所述目标特征信息输入训练得到的情绪识别模型进行测试,得到与所述音视频数据对应的客户的情绪。
7.根据权利要求1所述的方法,其特征在于,所述根据得到的与所述音视频数据对应的客户的情绪从标准语言库中确定与所述客户的情绪对应的指定文本,包括:
从标准语言库中获取情绪与文本的映射关系;
根据所述情绪与文本的映射关系从所述标准语言库中获取与所述客户的情绪对应的指定文本。
8.一种基于音视频数据的情绪识别装置,其特征在于,包括:
获取单元,用于获取在音视频服务过程中的客户与员工的音视频数据,其中,所述音视频数据包括音频数据和视频数据;
第一分析单元,用于对所述音视频数据中的音频数据进行识别分析,提取出与所述音频数据对应的音频特征信息;
第二分析单元,用于对所述音视频数据中的视频数据进行识别分析,提取出与所述视频数据中的对象对应的视频帧特征信息;
测试单元,用于将所述音频特征信息和所述视频帧特征信息输入训练得到的情绪识别模型进行测试,得到与所述音视频数据对应的客户的情绪;
确定单元,用于根据得到的与所述音视频数据对应的客户的情绪从标准语言库中确定与所述客户的情绪对应的指定文本,并将所述指定文本发送给所述客户对应的用户终端,并将所述指定文本输出显示在所述用户终端的显示界面上,所述指定文本用于安抚客户的情绪。
9.一种计算机设备,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序,所述处理器被配置用于调用所述程序,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1-7任一项所述的方法。
CN202110094215.4A 2021-01-22 2021-01-22 基于音视频数据的情绪识别方法、装置、设备及存储介质 Pending CN112911334A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110094215.4A CN112911334A (zh) 2021-01-22 2021-01-22 基于音视频数据的情绪识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110094215.4A CN112911334A (zh) 2021-01-22 2021-01-22 基于音视频数据的情绪识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112911334A true CN112911334A (zh) 2021-06-04

Family

ID=76117349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110094215.4A Pending CN112911334A (zh) 2021-01-22 2021-01-22 基于音视频数据的情绪识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112911334A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627301A (zh) * 2021-08-02 2021-11-09 科大讯飞股份有限公司 实时视频信息提取方法、装置和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627301A (zh) * 2021-08-02 2021-11-09 科大讯飞股份有限公司 实时视频信息提取方法、装置和系统
CN113627301B (zh) * 2021-08-02 2023-10-31 科大讯飞股份有限公司 实时视频信息提取方法、装置和系统

Similar Documents

Publication Publication Date Title
Khalid et al. Evaluation of an audio-video multimodal deepfake dataset using unimodal and multimodal detectors
US10817707B2 (en) Attack sample generating method and apparatus, device and storage medium
WO2019104890A1 (zh) 结合音频分析和视频分析的欺诈识别方法、装置及存储介质
CN112328999B (zh) 双录质检方法、装置、服务器及存储介质
CN112949708B (zh) 情绪识别方法、装置、计算机设备和存储介质
WO2020253128A1 (zh) 基于语音识别的通信服务方法、装置、计算机设备及存储介质
CN112233690B (zh) 双录方法、装置、终端及存储介质
CN110598008B (zh) 录制数据的数据质检方法及装置、存储介质
CN112860841A (zh) 一种文本情感分析方法、装置、设备及存储介质
CN113903363B (zh) 基于人工智能的违规行为检测方法、装置、设备及介质
CN113314150A (zh) 基于语音数据的情绪识别方法、装置及存储介质
Alghifari et al. On the use of voice activity detection in speech emotion recognition
CN113077821A (zh) 音频质量检测方法、装置、电子设备及存储介质
CN112911334A (zh) 基于音视频数据的情绪识别方法、装置、设备及存储介质
CN113903361A (zh) 基于人工智能的语音质检方法、装置、设备及存储介质
CN113095204B (zh) 双录数据质检方法、装置及系统
CN116777569A (zh) 基于区块链的商品大数据语音介绍和智能结账方法及系统
CN113421590B (zh) 异常行为检测方法、装置、设备及存储介质
CN115719058A (zh) 一种内容分析方法、电子设备和存储介质
CN114120425A (zh) 一种情绪识别方法、装置、电子设备及存储介质
CN114067362A (zh) 基于神经网络模型的手语识别方法、装置、设备及介质
CN113808577A (zh) 语音摘要的智能提取方法、装置、电子设备及存储介质
CN112307757A (zh) 基于辅助任务的情感分析方法、装置、设备及存储介质
CN111243607A (zh) 用于生成说话人信息的方法、装置、电子设备和介质
JPWO2022003796A5 (zh)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination