CN113223560A - 情绪识别方法、装置、设备及存储介质 - Google Patents

情绪识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113223560A
CN113223560A CN202110445517.1A CN202110445517A CN113223560A CN 113223560 A CN113223560 A CN 113223560A CN 202110445517 A CN202110445517 A CN 202110445517A CN 113223560 A CN113223560 A CN 113223560A
Authority
CN
China
Prior art keywords
voice
acoustic
data
emotion
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110445517.1A
Other languages
English (en)
Inventor
刘博卿
王健宗
张之勇
程宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110445517.1A priority Critical patent/CN113223560A/zh
Publication of CN113223560A publication Critical patent/CN113223560A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Abstract

本发明涉及人工智能领域,公开一种情绪识别方法、装置、设备及存储介质,该方法包括:获取当前用户输入的待分类语音,从待分类语音中提取语音声学数据和语音文本数据;然后对语音声学数据进行声学特征提取,获得声学特征信息;对语音文本数据进行语义特征提取,获得语义特征信息;再基于声学特征信息和语义特征信息通过预设SVM分类器对待分类语音数据进行分类,获得语音分类结果,最后根据语音分类结果确定当前用户的情绪状态。相比于现有的仅根据语义特征进行情绪识别的方式,本发明将用户的声学特征作为情绪判断的因素,通过SVM分类器分别对声学特征和语义特征进行分类,再根据分类结果进行情绪识别,有效的提高了情绪识别的准确性。

Description

情绪识别方法、装置、设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种情绪识别方法、装置、设备及存储介质。
背景技术
语音智能客服在进行销售的时候,需要精准的判断出客户情绪的好坏,从而即时调整语音智能客服的销售或者沟通策略,因此需要根据客户说话的语音信息来对客户的情绪进行准确识别。
现有的情绪识别技术大多是通过客户所说话语或语义等信息来判断客户的情绪。但实际上,同样的话语或语义用不同的语气表达所表征的情绪也不相同。因此,如何根据用户的语音信息准确地识别客户的情绪,成为一个亟待解决的问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供了一种情绪识别方法、装置、设备及存储介质,旨在解决如何根据用户的语音信息准确地识别客户的情绪的技术问题。
为实现上述目的,本发明提供了一种情绪识别方法,所述方法包括以下步骤:
获取当前用户输入的待分类语音,并从所述待分类语音中提取语音声学数据和语音文本数据;
对所述语音声学数据进行声学特征提取,获得声学特征信息;
对所述语音文本数据进行语义特征提取,获得语义特征信息;
基于所述声学特征信息和所述语义特征信息,通过预设SVM分类器对所述待分类语音数据进行分类,获得语音分类结果;
根据所述语音分类结果确定所述当前用户的情绪状态。
可选地,所述获取当前用户输入的待分类语音,并从所述待分类语音中提取语音声学数据和语音文本数据的步骤,包括:
获取当前用户输入的待分类语音,按预设时长对所述待分类语音进行分段,获得多段用户语音;
采用异步操作按时间顺序对多段用户语音分别进行数据提取,以获得对应的语音声学数据和语音文本数据。
可选地,所述根据所述语音分类结果确定所述当前用户的情绪状态的步骤,包括:
获取所述语音分类结果中所述声学特征信息对应的情绪类别概率,以及所述语义特征信息对应的情绪类别概率;
对所述声学特征信息对应的情绪类别概率和所述语义特征信息对应的情绪类别概率进行比较;
根据比较结果将概率较大的情绪类别概率所属的情绪类别作为所述当前用户的情绪状态。
可选地,所述获取所述语音分类结果中所述声学特征信息对应的情绪类别概率,以及所述语义特征信息对应的情绪类别概率的步骤,包括
从所述语音分类结果中获取所述声学特征信息所包含的声学特征对应的声学情绪类别;
分别获取不同声学情绪类别所占的第一类别比例,将所述第一类别比例中数值最大的类别比例作为所述声学特征信息对应的情绪类别概率;
以及,从所述语音分类结果中获取所述语义特征信息所包含的语义特征对应的语义情绪类别;
分别获取不同语义情绪类别所占的第二类别比例,将所述第二类别比例中数值最大的类别比例作为所述语义特征信息对应的情绪类别概率。
可选地,所述对所述语音声学数据进行声学特征提取,获得声学特征信息的步骤,包括:
通过预设神经网络模型对所述语音声学数据进行声学特征提取,获得声学特征信息;
所述对所述语音文本数据进行语义特征提取,获得语义特征信息的步骤,包括:
通过预设BERT模型对所述语音文本数据进行特征提取,获得语义特征信息。
可选地,所述获取当前用户输入的待分类语音,并从所述待分类语音中提取语音声学数据和语音文本数据的步骤之前,所述方法还包括:
获取模型训练语音数据以及预训练神经网络模型;
从噪音数据集中随机选取预设数量的待添加噪音数据,以及从混响数据集中选取待添加混响数据;
将所述待添加噪音数据和所述待添加混响数据添加至所述模型训练语音数据中,以获得目标模型训练语音数据;
通过所述目标模型训练语音数据对所述预训练神经网络模型进行训练,获得用于提取声学特征信息的预设神经网络模型。
可选地,所述获取模型训练语音数据以及初始神经网络模型的步骤,包括:
获取已标注的语音数据以及预先训练的声学特征提取神经网络模型;
通过迁移学习技术从所述已标注的语音数据中选取模型训练语音数据;
获取所述预先训练的声学特征提取神经网络模型中的模型参数,通过迁移学习技术将所述模型参数迁移至初始神经网络模型,以获得预训练神经网络模型。
此外,为实现上述目的,本发明还提出一种情绪识别装置,所述情绪识别装置包括:
数据获取模块,用于获取当前用户输入的待分类语音,并从所述待分类语音中提取语音声学数据和语音文本数据;
特征提取模块,用于对所述语音声学数据进行声学特征提取,获得声学特征信息;
所述特征提取模块,用于对所述语音文本数据进行语义特征提取,获得语义特征信息;
语音分类模块,用于基于所述声学特征信息和所述语义特征信息,通过SVM分类器对所述待分类语音数据进行分类,获得语音分类结果;
情绪确定模块,用于根据所述语音分类结果确定所述当前用户的情绪状态。
此外,为实现上述目的,本发明还提出一种情绪识别设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的情绪识别程序,所述情绪识别程序配置为实现如上文所述的情绪识别方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有情绪识别程序,所述情绪识别程序被处理器执行时实现如上文所述的情绪识别方法的步骤。
本发明通过获取当前用户输入的待分类语音,从待分类语音中提取语音声学数据和语音文本数据;然后对语音声学数据进行声学特征提取,获得声学特征信息;对语音文本数据进行语义特征提取,获得语义特征信息;再基于声学特征信息和语义特征信息通过预设SVM分类器对待分类语音数据进行分类,获得语音分类结果,最后根据语音分类结果确定当前用户的情绪状态。相比于现有的仅根据语义特征进行情绪识别的方式,本发明将用户的声学特征作为情绪判断的因素,通过SVM分类器分别对声学特征和语义特征进行分类,再根据分类结果进行情绪识别,有效的提高了情绪识别的准确度。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的情绪识别设备的结构示意图;
图2为本发明情绪识别方法第一实施例的流程示意图;
图3为本发明情绪识别方法第二实施例的流程示意图;
图4为本发明情绪识别装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的情绪识别设备结构示意图。
如图1所示,该情绪识别设备可以包括:处理器1001,例如中央处理器(CentralProcessing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对情绪识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及情绪识别程序。
在图1所示的情绪识别设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明情绪识别设备中的处理器1001、存储器1005可以设置在情绪识别设备中,所述情绪识别设备通过处理器1001调用存储器1005中存储的情绪识别程序,并执行本发明实施例提供的情绪识别方法。
本发明实施例提供了一种情绪识别方法,参照图2,图2为本发明情绪识别方法第一实施例的流程示意图。
本实施例中,所述情绪识别方法包括以下步骤:
步骤S10:获取当前用户输入的待分类语音,并从所述待分类语音中提取语音声学数据和语音文本数据;
需要说明的是,本实施例方法的执行主体可以是具有数据处理、网络通信以及程序运行功能的计算服务设备,例如智能手机、平板电脑以及PC电脑等,或者是安装在上述计算服务设备上,能够执行本实施例情绪识别方法的应用程序APP,例如智能语音客服等。本实施例及下述各实施例以智能语音客服为例进行说明。
应理解的是,所述当前用户可以是智能语音客服正在对接的客户,所述待分类语音可以是当前用户输入的语音信息,通俗地讲即用户当前说的话。本实施例的应用场景可以是智能语音客服在接通用户拨打的客服电话后,根据用户输入的语音信息,实时与客户沟通,同时根据用户语音信息中的声学特征和文本特征来识别用户的情绪,及时调整沟通的方式,从而更好的为客户服务。
可理解的是,本步骤中所述语音声学数据即语音数据中的声学信息,例如用户说话的语气、节奏、音调等。所述语音文本数据即语音数据中的语义信息,例如用户说的话语中的词汇以及词汇表达的含义等。
步骤S20:对所述语音声学数据进行声学特征提取,获得声学特征信息;
应理解的是,语音特征提取是通过将语音波形以相对最小的数据速率转换为参数表示形式进行后续处理和分析来实现的。因此本实施例中,智能语音客服在对语音声学数据进行特征提取时,可通过Mel频率倒谱系数(MFCC)、线性预测系数(LPC)、线性预测倒谱系数(LPCC)、线谱频率(LSF)、离散小波变换(DWT)或者感知线性预测(PLP)等算法来实现。
进一步地,考虑到线性预测系数(LPC)、线性预测倒谱系数(LPCC)、线谱频率(LSF)这三种算法的抗噪声能力强、对量化/附加噪声的灵敏度高,因此,本实施例中智能语音客服可优先从这三种算法中任选一种对语音声学数据进行声学特征提取进而获得声学特征信息。
步骤S30:对所述语音文本数据进行语义特征提取,获得语义特征信息;
需要说明的是,语义特征提取本质上可以理解为一种文本特征提取。本实施例中,智能语音客服可先将语音文本数据进行分词处理,获得对应的分词词汇,然后将分词词汇向量化获得词向量,再对词向量进行特征提取,从而获得特征向量,即上述语义特征信息。
当然,作为一种实施方式,本实施例中智能语音客服也可以使用预先训练好的BERT模型对语音文本数据进行语义特征提取,获得语义特征信息。
进一步地,为了减少BERT模型的模型训练工作量,同时降低模型训练数据的获取难度,节省人力物力。本实施例中智能语音客服可基于已有的语音文本标注数据和BERT模型利用迁移学习来进行模型训练。
进一步地,为了更加准确的对用户的情绪进行识别,本实施例中智能语音客服可以在获取到用户输入的待分类语音时,可先按预设时长(例如5秒)对所述待分类语音进行分段,获得多段用户语音(比如,一个时长为20秒的语音可被分为四段:0-5、6-10、11-15、16-20);之后再采用异步操作按时间顺序对多段语音数据进行遍历,并提取当前遍历到的语音数据对应的语音声学数据和语音文本数据,最后根据遍历结果来获取整段待分类语音对应的声学特征信息和语义特征信息。其中,所述异步操作可以是采用多线程机制同时处理预先分配或设定的任务。所述时间顺序即智能语音客服接收到语音数据的先后顺序。
步骤S40:基于所述声学特征信息和所述语义特征信息,通过预设SVM分类器对所述待分类语音数据进行分类,获得语音分类结果;
应理解的是,SVM分类器,即支持向量机(Support Vector Machines)分类器,支持向量机分类器属于二分类算法,可以支持线性和非线性的分类。在需要进行多分类SVM时,可以通过组合多个二分器进行实现。
在具体实现中,智能语音客服可利用提取到的声学特征信息和所述语音特征信息,通过SVM分类器对所述当前遍历到的语音数据进行分类,并获得语音分类结果。例如,可根据声学特征中的语气来区分用户的语音是轻快愉悦还是低沉严肃,根据语义特征中的用户词汇来区分用户的语义是强硬还是温和等。
本实施例中SVM分类器可对每一个声学特征信息和语义特征信息来进行类型划分得到(语音)分类结果,即输出每个特征对应的情绪的类别概率,例如情绪1(高兴:80%,生气:20%),或者是情绪2(情绪积极:60%,无感情:30%,情绪消极:10%)等。
步骤S50:根据所述语音分类结果确定所述当前用户的情绪状态。
在具体实现中,智能语音客服在获取到上述语音分类结果后即可根据类别概率确定每个特征对应的情绪类别,然后最终确定整个语音的情绪类别。例如,若智能语音客服从所述语音分类结果中获取到待分类语音的声学特征信息所包含的声学特征(A、B、C)对应的声学情绪类别为(高兴:80%,生气:20%)、(高兴:70%,无感情:30%)、(高兴:60%,生气:40%),则可根据类别概率大致确定出声学特征信息对应的情绪类别概率为(高兴:70%)。
相应地,若智能语音客服从所述语音分类结果中获取到待分类语音的语义特征信息(a、b、c)所包含的语义特征对应的语义情绪类别为(情绪积极:90%,无感情:5%,情绪消极:5%)、(情绪积极:80%,无感情:10%,情绪消极:10%)、(情绪积极:80%,无感情:15%,情绪消极:5%),则根据这些类别概率大致确定出语义特征信息对应的情绪类别概率为(情绪积极:83.3%),此时智能语音客服即可根据语音分类结果[(高兴:70%),(情绪积极:83.3%)]确定当前用户的情绪状态为高兴积极状态。
作为上述步骤S50的另一种实施方式,本实施例中智能语音客服可以获取语音分类结果中声学特征信息对应的情绪类别概率,以及语义特征信息对应的情绪类别概率;然后对声学特征信息对应的情绪类别概率和语义特征信息对应的情绪类别概率进行比较(即比较概率值的大小);然后根据比较结果将概率较大的情绪类别概率所属的情绪类别作为所述当前用户的情绪状态。例如,声学特征信息对应的情绪类别概率(高兴:80%),语义特征信息对应的情绪类别概率为(生气:20%),此时即可判定当前用户的情绪状态为高兴状态。
进一步地,作为情绪类别概率的获取方式之一,本实施例中智能语音客服可从所述语音分类结果中获取所述声学特征信息所包含的声学特征对应的声学情绪类别;然后分别获取不同声学情绪类别所占的第一类别比例,将所述第一类别比例中数值最大的类别比例作为所述声学特征信息对应的情绪类别概率,例如不同声学情绪类别所占的第一类别比例为(高兴:70%,生气:20%,无感情:10%),则待分类语音整体的声学特征信息的情绪类别概率为(高兴:70%);同时,智能语音客服还将从所述语音分类结果中获取所述语义特征信息所包含的语义特征对应的语义情绪类别;然后分别获取不同语义情绪类别所占的第二类别比例,将所述第二类别比例中数值最大的类别比例作为所述语义特征信息对应的情绪类别概率。本实施例通过上述方式获取语义特征信息和声学特征信息各自对应的情绪类别概率,从而实现了对类别概率的准确获取。
本实施例通过获取当前用户输入的待分类语音,从待分类语音中提取语音声学数据和语音文本数据;然后对语音声学数据进行声学特征提取,获得声学特征信息;对语音文本数据进行语义特征提取,获得语义特征信息;再基于声学特征信息和语义特征信息通过预设SVM分类器对待分类语音数据进行分类,获得语音分类结果,最后根据语音分类结果确定当前用户的情绪状态。相比于现有的仅根据语义特征进行情绪识别的方式,本实施例将用户的声学特征作为情绪判断的因素,通过SVM分类器分别对声学特征和语义特征进行分类,再根据分类结果进行情绪识别,有效的提高了情绪识别的准确度。
参考图3,图3为本发明情绪识别方法第二实施例的流程示意图。
基于上述第一实施例,在本实施例中,所述步骤S20可具体细化为:
步骤S20':通过预设神经网络模型对所述语音声学数据进行声学特征提取,获得声学特征信息;
需要说明的是,考虑到神经网络模型相比于上述Mel频率倒谱系数(MFCC)、线性预测系数(LPC)、线性预测倒谱系数(LPCC)、线谱频率(LSF)、离散小波变换(DWT)或者感知线性预测(PLP)等算法,能够有效的捕捉人类声带发出的有意义的声音特征,且特征提取的准确度能够随着模型的深度不断提高,本实施例中优选通过神经网络模型来对语音声学数据进行声学特征提取。
进一步地,在本实施例步骤S20'之前,所述方法还包括:
步骤S01:获取模型训练语音数据以及预训练神经网络模型;
需要说明的是,本实施例中用于对模型进行训练的语音数据优选为未进行频谱提取的纯语音波形数据。且本实施例预训练神经网络模型采用的结构可以有效的模拟基于帧级别的时域频域之间的变换,小卷积核大小的1D CNN叠加,进而捕捉人类声带发出的有意义的声音特征。
本实施例中,所述预训练神经网络模型的模型结构如下:
(1)1层1D CNN(卷积核个数=128,卷积步长=3,卷积核大小=3)
(2)批标准化层
(3)relu层
(4)1个残差模块(卷积核个数=128,卷积步长=3,卷积核大小=3)
(5)3个残差模块(卷积核个数=256,卷积步长=3,卷积核大小=3)
(6)3个残差模块(卷积核个数=512,卷积步长=3,卷积核大小=3)
(7)1层1D CNN(卷积核个数=768,卷积步长=1,卷积核大小=3)
(8)批标准化层
(9)relu层
(10)dropout层,dropout设置为0.5(数值可调)
(11)3层全连接层并行,最终的输出是对每个全连接层的输出做平均,激活函数softmax,从而达到给每一帧输出的特征图进行分类的效果。
步骤S02:从噪音数据集中随机选取预设数量的待添加噪音数据,以及从混响数据集中选取待添加混响数据;
步骤S03:将所述待添加噪音数据和所述待添加混响数据添加至所述模型训练语音数据中,以获得目标模型训练语音数据;
需要说明的是,为了使模型更好的学习到人类语言的声学信息特征,利用性别识别的任务来训练特征提取模型,本实施例中对模型训练语音数据还执行了加噪音、混响等数据扩充的操作,从而使得训练出的模型具有较高的鲁棒性,同样也可以避免过拟合。
在实际应用中,可以从噪音数据集中随机选取预设数量(1~3种)的待添加噪音数据添加到模型训练语音数据中。
步骤S04:通过所述目标模型训练语音数据对所述预训练神经网络模型进行训练,获得用于提取声学特征信息的预设神经网络模型。
在具体实现中,智能语音客服获取到上述目标模型训练语音数据后,即可通过目标模型训练语音数据对预训练神经网络模型进行训练,获得用于提取声学特征信息的预设神经网络模型。
进一步地,考虑到模型训练初期,容易出现由于缺少含有标注语音数据的大型训练集所导致的训练出的模型局部最优,而人工标注模型又耗费大量人力物力的情况。本实施例中智能语音客服可以通过迁移学习的方式,利用已有的有标注的大型数据集(比如在智能语音客服投入使用时,自动对通话录音进行说话人身份和性别的标注)来进行当前场景下的模型训练数据的获取。
同样的,本实施例中,对于被训练的模型也将采用迁移学习的方式将预先训练的、应用在其他声学特征提取领域的神经网络模型的模型参数迁移至初始神经网络模型获得预训练神经网络模型,从而降低模型训练量,节省人力物力。具体的,可获取已标注的语音数据以及预先训练的声学特征提取神经网络模型;然后通过迁移学习技术从所述已标注的语音数据中选取模型训练语音数据;再获取所述预先训练的声学特征提取神经网络模型中的模型参数,通过迁移学习技术将所述模型参数迁移至初始神经网络模型,以获得预训练神经网络模型。
本实施例通过获取模型训练语音数据以及预训练神经网络模型;从噪音数据集中随机选取预设数量的待添加噪音数据,以及从混响数据集中选取待添加混响数据;将所述待添加噪音数据和所述待添加混响数据添加至所述模型训练语音数据中,以获得目标模型训练语音数据;通过所述目标模型训练语音数据对所述预训练神经网络模型进行训练,获得用于提取声学特征信息的预设神经网络模型。本实施例通过对模型训练语音数据进行加噪音、混响等操作,从而使得通过目标模型训练语音数据训练出的模型具有较高的鲁棒性,同样也可以避免过拟合。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有情绪识别程序,所述情绪识别程序被处理器执行时实现如上文所述的情绪识别方法的步骤。
参照图4,图4为本发明情绪识别装置第一实施例的结构框图。
如图4所示,本发明实施例提出的情绪识别装置包括:
数据获取模块401,用于获取当前用户输入的待分类语音,并从所述待分类语音中提取语音声学数据和语音文本数据;
特征提取模块402,用于对所述语音声学数据进行声学特征提取,获得声学特征信息;
所述特征提取模块402,用于对所述语音文本数据进行语义特征提取,获得语义特征信息;
语音分类模块403,用于基于所述声学特征信息和所述语义特征信息,通过SVM分类器对所述待分类语音数据进行分类,获得语音分类结果;
情绪确定模块404,用于根据所述语音分类结果确定所述当前用户的情绪状态。
本实施例通过获取当前用户输入的待分类语音,从待分类语音中提取语音声学数据和语音文本数据;然后对语音声学数据进行声学特征提取,获得声学特征信息;对语音文本数据进行语义特征提取,获得语义特征信息;再基于声学特征信息和语义特征信息通过预设SVM分类器对待分类语音数据进行分类,获得语音分类结果,最后根据语音分类结果确定当前用户的情绪状态。相比于现有的仅根据语义特征进行情绪识别的方式,本实施例将用户的声学特征作为情绪判断的因素,通过SVM分类器分别对声学特征和语义特征进行分类,再根据分类结果进行情绪识别,有效的提高了情绪识别的准确度。
基于本发明上述情绪识别装置第一实施例,提出本发明情绪识别装置的第二实施例。
在本实施例中,所述数据获取模块401,用于获取当前用户输入的待分类语音,按预设时长对所述待分类语音进行分段,获得多段用户语音;采用异步操作按时间顺序对多段用户语音分别进行数据提取,以获得对应的语音声学数据和语音文本数据。
进一步地,所述情绪确定模块404,还用于获取所述语音分类结果中所述声学特征信息对应的情绪类别概率,以及所述语义特征信息对应的情绪类别概率;对所述声学特征信息对应的情绪类别概率和所述语义特征信息对应的情绪类别概率进行比较;根据比较结果将概率较大的情绪类别概率所属的情绪类别作为所述当前用户的情绪状态。
进一步地,所述情绪确定模块404,还用于从所述语音分类结果中获取所述声学特征信息所包含的声学特征对应的声学情绪类别;分别获取不同声学情绪类别所占的第一类别比例,将所述第一类别比例中数值最大的类别比例作为所述声学特征信息对应的情绪类别概率;以及,从所述语音分类结果中获取所述语义特征信息所包含的语义特征对应的语义情绪类别;分别获取不同语义情绪类别所占的第二类别比例,将所述第二类别比例中数值最大的类别比例作为所述语义特征信息对应的情绪类别概率。
进一步地,所述特征提取模块402,用于通过预设神经网络模型对所述语音声学数据进行声学特征提取,获得声学特征信息;通过预设BERT模型对所述语音文本数据进行特征提取,获得语义特征信息。
进一步地,所述情绪识别装置,还包括:模型训练模块,用于获取模型训练语音数据以及预训练神经网络模型;从噪音数据集中随机选取预设数量的待添加噪音数据,以及从混响数据集中选取待添加混响数据;将所述待添加噪音数据和所述待添加混响数据添加至所述模型训练语音数据中,以获得目标模型训练语音数据;通过所述目标模型训练语音数据对所述预训练神经网络模型进行训练,获得用于提取声学特征信息的预设神经网络模型。
进一步地,所述模型训练模块,还用于获取已标注的语音数据以及预先训练的声学特征提取神经网络模型;通过迁移学习技术从所述已标注的语音数据中选取模型训练语音数据;获取所述预先训练的声学特征提取神经网络模型中的模型参数,通过迁移学习技术将所述模型参数迁移至初始神经网络模型,以获得预训练神经网络模型。
本发明情绪识别装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种情绪识别方法,其特征在于,所述情绪识别方法包括以下步骤:
获取当前用户输入的待分类语音,并从所述待分类语音中提取语音声学数据和语音文本数据;
对所述语音声学数据进行声学特征提取,获得声学特征信息;
对所述语音文本数据进行语义特征提取,获得语义特征信息;
基于所述声学特征信息和所述语义特征信息,通过预设SVM分类器对所述待分类语音数据进行分类,获得语音分类结果;
根据所述语音分类结果确定所述当前用户的情绪状态。
2.如权利要求1所述的方法,其特征在于,所述获取当前用户输入的待分类语音,并从所述待分类语音中提取语音声学数据和语音文本数据的步骤,包括:
获取当前用户输入的待分类语音,按预设时长对所述待分类语音进行分段,获得多段用户语音;
采用异步操作按时间顺序对多段用户语音分别进行数据提取,以获得对应的语音声学数据和语音文本数据。
3.如权利要求2所述的方法,其特征在于,所述根据所述语音分类结果确定所述当前用户的情绪状态的步骤,包括:
获取所述语音分类结果中所述声学特征信息对应的情绪类别概率,以及所述语义特征信息对应的情绪类别概率;
对所述声学特征信息对应的情绪类别概率和所述语义特征信息对应的情绪类别概率进行比较;
根据比较结果将概率较大的情绪类别概率所属的情绪类别作为所述当前用户的情绪状态。
4.如权利要求3所述的方法,其特征在于,所述获取所述语音分类结果中所述声学特征信息对应的情绪类别概率,以及所述语义特征信息对应的情绪类别概率的步骤,包括
从所述语音分类结果中获取所述声学特征信息所包含的声学特征对应的声学情绪类别;
分别获取不同声学情绪类别所占的第一类别比例,将所述第一类别比例中数值最大的类别比例作为所述声学特征信息对应的情绪类别概率;
以及,从所述语音分类结果中获取所述语义特征信息所包含的语义特征对应的语义情绪类别;
分别获取不同语义情绪类别所占的第二类别比例,将所述第二类别比例中数值最大的类别比例作为所述语义特征信息对应的情绪类别概率。
5.如权利要求1至4任一项所述的方法,其特征在于,所述对所述语音声学数据进行声学特征提取,获得声学特征信息的步骤,包括:
通过预设神经网络模型对所述语音声学数据进行声学特征提取,获得声学特征信息;
所述对所述语音文本数据进行语义特征提取,获得语义特征信息的步骤,包括:
通过预设BERT模型对所述语音文本数据进行特征提取,获得语义特征信息。
6.如权利要求5所述的方法,其特征在于,所述获取当前用户输入的待分类语音,并从所述待分类语音中提取语音声学数据和语音文本数据的步骤之前,所述方法还包括:
获取模型训练语音数据以及预训练神经网络模型;
从噪音数据集中随机选取预设数量的待添加噪音数据,以及从混响数据集中选取待添加混响数据;
将所述待添加噪音数据和所述待添加混响数据添加至所述模型训练语音数据中,以获得目标模型训练语音数据;
通过所述目标模型训练语音数据对所述预训练神经网络模型进行训练,获得用于提取声学特征信息的预设神经网络模型。
7.如权利要求6所述的方法,其特征在于,所述获取模型训练语音数据以及初始神经网络模型的步骤,包括:
获取已标注的语音数据以及预先训练的声学特征提取神经网络模型;
通过迁移学习技术从所述已标注的语音数据中选取模型训练语音数据;
获取所述预先训练的声学特征提取神经网络模型中的模型参数,通过迁移学习技术将所述模型参数迁移至初始神经网络模型,以获得预训练神经网络模型。
8.一种情绪识别装置,其特征在于,所述情绪识别装置包括:
数据获取模块,用于获取当前用户输入的待分类语音,并从所述待分类语音中提取语音声学数据和语音文本数据;
特征提取模块,用于对所述语音声学数据进行声学特征提取,获得声学特征信息;
所述特征提取模块,用于对所述语音文本数据进行语义特征提取,获得语义特征信息;
语音分类模块,用于基于所述声学特征信息和所述语义特征信息,通过SVM分类器对所述待分类语音数据进行分类,获得语音分类结果;
情绪确定模块,用于根据所述语音分类结果确定所述当前用户的情绪状态。
9.一种情绪识别设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的情绪识别程序,所述情绪识别程序配置为实现如权利要求1至7中任一项所述的情绪识别方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有情绪识别程序,所述情绪识别程序被处理器执行时实现如权利要求1至7任一项所述的情绪识别方法的步骤。
CN202110445517.1A 2021-04-23 2021-04-23 情绪识别方法、装置、设备及存储介质 Pending CN113223560A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110445517.1A CN113223560A (zh) 2021-04-23 2021-04-23 情绪识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110445517.1A CN113223560A (zh) 2021-04-23 2021-04-23 情绪识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113223560A true CN113223560A (zh) 2021-08-06

Family

ID=77089106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110445517.1A Pending CN113223560A (zh) 2021-04-23 2021-04-23 情绪识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113223560A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113380271A (zh) * 2021-08-12 2021-09-10 明品云(北京)数据科技有限公司 情绪识别方法、系统、设备及介质
CN113990353A (zh) * 2021-10-27 2022-01-28 北京百度网讯科技有限公司 识别情绪的方法、训练情绪识别模型的方法、装置及设备
CN114093389A (zh) * 2021-11-26 2022-02-25 重庆凡骄网络科技有限公司 语音情绪识别方法、装置、电子设备和计算机可读介质
CN114420087A (zh) * 2021-12-27 2022-04-29 北京百度网讯科技有限公司 声学特征的确定方法、装置、设备、介质及产品
CN114710592A (zh) * 2022-04-11 2022-07-05 深圳市银服通企业管理咨询有限公司 一种基于人工智能的呼叫系统及方法
CN115171731A (zh) * 2022-07-11 2022-10-11 腾讯科技(深圳)有限公司 一种情绪类别确定方法、装置、设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784414A (zh) * 2019-01-24 2019-05-21 出门问问信息科技有限公司 一种电话客服中客户情绪检测方法、装置及电子设备
CN110085262A (zh) * 2018-01-26 2019-08-02 上海智臻智能网络科技股份有限公司 语音情绪交互方法、计算机设备和计算机可读存储介质
CN111028827A (zh) * 2019-12-10 2020-04-17 深圳追一科技有限公司 基于情绪识别的交互处理方法、装置、设备和存储介质
CN111312245A (zh) * 2020-02-18 2020-06-19 腾讯科技(深圳)有限公司 一种语音应答方法、装置和存储介质
CN112528668A (zh) * 2020-11-27 2021-03-19 湖北大学 深层情感语义识别方法、系统、介质、计算机设备及终端

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110085262A (zh) * 2018-01-26 2019-08-02 上海智臻智能网络科技股份有限公司 语音情绪交互方法、计算机设备和计算机可读存储介质
CN109784414A (zh) * 2019-01-24 2019-05-21 出门问问信息科技有限公司 一种电话客服中客户情绪检测方法、装置及电子设备
CN111028827A (zh) * 2019-12-10 2020-04-17 深圳追一科技有限公司 基于情绪识别的交互处理方法、装置、设备和存储介质
CN111312245A (zh) * 2020-02-18 2020-06-19 腾讯科技(深圳)有限公司 一种语音应答方法、装置和存储介质
CN112528668A (zh) * 2020-11-27 2021-03-19 湖北大学 深层情感语义识别方法、系统、介质、计算机设备及终端

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113380271A (zh) * 2021-08-12 2021-09-10 明品云(北京)数据科技有限公司 情绪识别方法、系统、设备及介质
CN113380271B (zh) * 2021-08-12 2021-12-21 明品云(北京)数据科技有限公司 情绪识别方法、系统、设备及介质
CN113990353A (zh) * 2021-10-27 2022-01-28 北京百度网讯科技有限公司 识别情绪的方法、训练情绪识别模型的方法、装置及设备
CN113990353B (zh) * 2021-10-27 2024-05-07 北京百度网讯科技有限公司 识别情绪的方法、训练情绪识别模型的方法、装置及设备
CN114093389A (zh) * 2021-11-26 2022-02-25 重庆凡骄网络科技有限公司 语音情绪识别方法、装置、电子设备和计算机可读介质
CN114420087A (zh) * 2021-12-27 2022-04-29 北京百度网讯科技有限公司 声学特征的确定方法、装置、设备、介质及产品
CN114420087B (zh) * 2021-12-27 2022-10-21 北京百度网讯科技有限公司 声学特征的确定方法、装置、设备、介质及产品
CN114710592A (zh) * 2022-04-11 2022-07-05 深圳市银服通企业管理咨询有限公司 一种基于人工智能的呼叫系统及方法
CN115171731A (zh) * 2022-07-11 2022-10-11 腾讯科技(深圳)有限公司 一种情绪类别确定方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN108520741B (zh) 一种耳语音恢复方法、装置、设备及可读存储介质
Venkataramanan et al. Emotion recognition from speech
CN110021308B (zh) 语音情绪识别方法、装置、计算机设备和存储介质
CN113223560A (zh) 情绪识别方法、装置、设备及存储介质
WO2021208287A1 (zh) 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质
CN107492379B (zh) 一种声纹创建与注册方法及装置
CN109859772B (zh) 情绪识别方法、装置及计算机可读存储介质
CN107481720B (zh) 一种显式声纹识别方法及装置
CN110990543A (zh) 智能对话的生成方法、装置、计算机设备及计算机存储介质
CN110211565A (zh) 方言识别方法、装置及计算机可读存储介质
CN111339913A (zh) 一种视频中的人物情绪识别方法及装置
CN110556130A (zh) 语音情绪识别方法、装置及存储介质
CN109658923A (zh) 基于人工智能的语音质检方法、设备、存储介质及装置
Sahoo et al. Emotion recognition from audio-visual data using rule based decision level fusion
CN112259106A (zh) 声纹识别方法、装置、存储介质及计算机设备
CN112530408A (zh) 用于识别语音的方法、装置、电子设备和介质
Jason et al. An appraisal on speech and emotion recognition technologies based on machine learning
Mahmoodi et al. Age estimation based on speech features and support vector machine
CN111901627B (zh) 视频处理方法、装置、存储介质及电子设备
CN112233680A (zh) 说话人角色识别方法、装置、电子设备及存储介质
CN111462755A (zh) 信息提示方法、装置、电子设备及介质
Jia et al. A deep learning system for sentiment analysis of service calls
CN111640450A (zh) 多人声音频处理方法、装置、设备及可读存储介质
CN113128284A (zh) 一种多模态情感识别方法和装置
CN111462762A (zh) 一种说话人向量正则化方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210806