CN116663543A - 基于语音和文本的情感识别方法和装置、设备、存储介质 - Google Patents
基于语音和文本的情感识别方法和装置、设备、存储介质 Download PDFInfo
- Publication number
- CN116663543A CN116663543A CN202310674287.5A CN202310674287A CN116663543A CN 116663543 A CN116663543 A CN 116663543A CN 202310674287 A CN202310674287 A CN 202310674287A CN 116663543 A CN116663543 A CN 116663543A
- Authority
- CN
- China
- Prior art keywords
- audio
- features
- vocabulary
- feature
- preliminary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 94
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000009466 transformation Effects 0.000 claims abstract description 51
- 230000004927 fusion Effects 0.000 claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 43
- 230000008451 emotion Effects 0.000 claims abstract description 38
- 230000007246 mechanism Effects 0.000 claims abstract description 26
- 238000000605 extraction Methods 0.000 claims description 42
- 238000001228 spectrum Methods 0.000 claims description 29
- 238000013528 artificial neural network Methods 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 23
- 230000017105 transposition Effects 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000002457 bidirectional effect Effects 0.000 claims description 7
- 230000001131 transforming effect Effects 0.000 claims description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 15
- 238000005516 engineering process Methods 0.000 abstract description 15
- 238000004891 communication Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 8
- 230000003993 interaction Effects 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- KYARBIJYVGJZLB-UHFFFAOYSA-N 7-amino-4-hydroxy-2-naphthalenesulfonic acid Chemical compound OC1=CC(S(O)(=O)=O)=CC2=CC(N)=CC=C21 KYARBIJYVGJZLB-UHFFFAOYSA-N 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000994 depressogenic effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种基于语音和文本的情感识别方法和装置、设备、存储介质,属于人工智能和金融科技技术领域。该方法包括:获取目标对象的原始音频数据和原始文本数据,对原始音频数据进行音频特征提取得到初步音频特征,对原始文本数据进行文本特征提取得到初步词汇特征,对初步音频特征进行线性变换得到音频特征组,对初步词汇特征进行线性变换得到词汇特征组,根据音频特征组和词汇特征组进行第一、二注意力机制处理得到目标音频特征和目标词汇特征,将目标音频特征和目标词汇特征进行拼接得到音频词汇融合特征,根据音频词汇融合特征进行情感识别得到目标对象的目标情感类别。本申请实施例能够提高情感识别的准确率和效率。
Description
技术领域
本申请涉及人工智能和金融科技技术领域,尤其涉及一种基于语音和文本的情感识别方法和装置、设备、存储介质。
背景技术
语音情感识别(Speech Emotion Recognition,SER):语音情感识别可以用于根据给定的语音片段识别出情感信息,主要原理是将音频数据输入到情感识别模型,情感识别模型根据所输入的音频数据进行情感识别,以输出情感信息,例如输出情感类别,该情感类别可以用于对话系统和人机交互界面,例如银行系统、保险系统、智能问诊系统等,语音情感识别是人机交互界面和对话系统中的重要步骤。传统的语音情感识别方法主要基于人工定义的特征进行判断,例如梅尔频率倒谱系数特征、音高特征、过零率特征、频谱质心特征等;该传统的情感识别方法的识别精确度较低,特别在一些较为复杂的场景下,例如音频中说话语气与音频中的说话内容不一致,情感识别的表现较差。因此,如何提高情感识别的准确率,成为了亟待解决的技术问题。
发明内容
本申请实施例的主要目的在于提出一种基于语音和文本的情感识别方法和装置、设备、存储介质,旨在提高情感识别的准确率。
为实现上述目的,本申请实施例的第一方面提出了一种基于语音和文本的情感识别方法,所述方法包括:
获取目标对象的原始音频数据和原始文本数据;
对所述原始音频数据进行音频特征提取,得到初步音频特征;
对所述原始文本数据进行文本特征提取,得到初步词汇特征;
对所述初步音频特征进行线性变换得到音频特征组,对所述初步词汇特征进行线性变换得到词汇特征组;
根据所述音频特征组和所述词汇特征组进行第一注意力机制处理得到目标音频特征,根据所述音频特征组和所述词汇特征组进行第二注意力机制处理得到目标词汇特征;
将所述目标音频特征和所述目标词汇特征进行拼接,得到音频词汇融合特征;
根据所述音频词汇融合特征进行情感识别,得到所述目标对象的目标情感类别。
在一些实施例,所述对所述初步音频特征进行线性变换得到音频特征组,对所述初步词汇特征进行线性变换得到词汇特征组,包括:
将所述初步音频特征输入到预设的特征提取神经网络;其中,所述特征提取神经网络包括第一网络层、第二网络层、第三网络层;
通过所述第一网络层对所述初步音频特征进行第一变换得到音频查询特征;
通过所述第二网络层对所述初步音频特征进行第二变换得到音频键特征;
通过所述第三网络层对所述初步音频特征进行第三变换得到音频值特征;
根据所述音频查询特征、所述音频键特征、所述音频值特征构建所述音频特征组。
在一些实施例,所述对所述初步音频特征进行线性变换得到音频特征组,对所述初步词汇特征进行线性变换得到词汇特征组,还包括:
将所述初步词汇特征输入到所述特征提取神经网络;
通过所述第一网络层对所述初步词汇特征进行第一变换得到词汇查询特征;
通过所述第二网络层对所述初步词汇特征进行第二变换得到词汇键特征;
通过所述第三网络层对所述初步词汇特征进行第三变换得到词汇值特征;
根据所述词汇查询特征、所述词汇键特征、所述词汇值特征构建所述词汇特征组。
在一些实施例,所述根据所述音频特征组和所述词汇特征组进行第一注意力机制处理得到目标音频特征,根据所述音频特征组和所述词汇特征组进行第二注意力机制处理得到目标词汇特征,包括:
对所述音频键特征进行矩阵转置处理得到音频转置键特征,对所述词汇键特征进行矩阵转置处理得到词汇转置键特征;
根据所述音频查询特征、所述词汇转置键特征、所述音频值特征进行第一注意力计算处理得到所述目标音频特征,根据所述词汇查询特征、所述音频转置键特征、所述词汇值特征进行第二注意力计算处理得到所述目标词汇特征。
在一些实施例,所述根据所述音频词汇融合特征进行情感识别,得到所述目标对象的目标情感类别,包括:
将所述音频词汇融合特征输入至预设的特征分类器中;
基于所述特征分类器对所述音频词汇融合特征进行情感分类处理,得到所述目标情感类别。
在一些实施例,所述对所述原始文本数据进行文本特征提取,得到初步词汇特征,包括:
对所述原始文本数据进行词嵌入提取,得到词嵌入序列;
通过预设的双向长短时记忆网络对所述词嵌入序列进行词特征提取,得到所述初步词汇特征。
在一些实施例,所述对所述原始音频数据进行音频特征提取,得到初步音频特征,包括:
对所述原始音频数据进行短时傅里叶变换频谱计算,得到初步频谱数据;
通过预设的卷积神经网络对所述初步频谱数据进行音频特征提取,得到所述初步音频特征。
为实现上述目的,本申请实施例的第二方面提出了一种基于语音和文本的情感识别装置,所述装置包括:
音频文本获取模块,用于获取目标对象的原始音频数据和原始文本数据;
音频特征提取模块,用于对所述原始音频数据进行音频特征提取,得到初步音频特征;
文本特征提取模块,用于对所述原始文本数据进行文本特征提取,得到初步词汇特征;
线性变换模块,用于对所述初步音频特征进行线性变换得到音频特征组,对所述初步词汇特征进行线性变换得到词汇特征组;
注意力机制计算模块,用于根据所述音频特征组和所述词汇特征组进行第一注意力机制处理得到目标音频特征,根据所述音频特征组和所述词汇特征组进行第二注意力机制处理得到目标词汇特征;
特征拼接模块,用于将所述目标音频特征和所述目标词汇特征进行拼接,得到音频词汇融合特征;
情感识别模块,用于根据所述音频词汇融合特征进行情感识别,得到所述目标对象的目标情感类别。
为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。
为实现上述目的,本申请实施例的第四方面提出了一种存储介质,所述存储介质为计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法。
本申请提出的基于语音和文本的情感识别方法和装置、设备、存储介质,,可以应用于金融科技领域,其通过获取目标对象的原始音频数据和原始文本数据,对所述原始音频数据进行音频特征提取得到初步音频特征,对所述原始文本数据进行文本特征提取得到初步词汇特征,对所述初步音频特征进行线性变换得到音频特征组,对所述初步词汇特征进行线性变换得到词汇特征组,并根据所述音频特征组和所述词汇特征组进行第一注意力机制处理得到目标音频特征,根据所述音频特征组和所述词汇特征组进行第二注意力机制处理得到目标词汇特征,再将所述目标音频特征和所述目标词汇特征进行拼接得到音频词汇融合特征,从而根据所述音频词汇融合特征进行情感识别得到所述目标对象的目标情感类别,从而可以提高情感识别的准确率。
附图说明
图1是本申请实施例提供的基于语音和文本的情感识别方法的流程图;
图2是图1中的步骤102的流程图;
图3是图1中的步骤103的流程图;
图4是图1中的步骤104的其中一流程图;
图5是图1中的步骤104的另一流程图;
图6是图1中的步骤105的流程图;
图7是图1中的步骤107的流程图;
图8是本申请实施例提供的基于语音和文本的情感识别装置的结构示意图;
图9是本申请实施例提供的电子设备的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
首先,对本申请中涉及的若干名词进行解析:
人工智能(artificial intelligence,AI):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
自然语言处理(natural language processing,NLP):NLP用计算机来处理、理解以及运用人类语言(如中文、英文等),NLP属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息意图识别、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域,它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。
梅尔频率倒谱系数(Mel-scale FrequencyCepstral Coefficients,MFCC):梅尔频率倒谱系数是在Mel标度频率域提取出来的倒谱参数,梅尔频率倒谱系数可以用于依据人的听觉实验结果来分析语音的频谱。
短时傅里叶变换(STFT):短时傅里叶变换的原理为:选择一个时频局部化的窗函数,该时频局部化的窗函数一旦确定了以后,其形状就不再发生改变,短时傅里叶变换的分辨率也就确定了,如果要改变分辨率,则需要重新选择窗函数;选择好窗函数后,假定分析窗函数g(t)在一个短时间间隔内是平稳(伪平稳)的,移动窗函数,使f(t)g(t)在不同的有限时间宽度内是平稳信号,从而计算出各个不同时刻的功率谱。短时傅里叶变换可以用于分析分段平稳信号或者近似平稳信号;对于非平稳信号,当信号变化剧烈时,要求窗函数有较高的时间分辨率。
语音情感识别:语音情感识别可以用于根据给定的语音片段识别出情感信息,主要原理是将音频数据输入到情感识别模型,情感识别模型根据所输入的音频数据进行情感识别,以输出情感信息,例如输出情感类别,该情感类别可以用于对话系统和人机交互界面,例如银行系统、保险系统、智能问诊系统等,语音情感识别是人机交互界面和对话系统中的重要步骤。传统的语音情感识别方法主要基于人工定义的特征进行判断,例如梅尔频率倒谱系数特征、音高特征、过零率特征(过零率是从原始的音频信号直接提取的特征)、频谱质心特征等;该传统的情感识别方法的识别精确度较低,特别在一些较为复杂的场景下,例如音频中说话语气与音频中的说话内容不一致,情感识别的表现较差。
基于此,本申请实施例提供了一种基于语音和文本的情感识别方法和装置、设备、存储介质,旨在提高情感识别的准确率和效率。
本申请实施例提供的基于语音和文本的情感识别方法和装置、设备、存储介质,具体通过如下实施例进行说明,首先描述本申请实施例中的基于语音和文本的情感识别方法。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的基于语音和文本的情感识别方法,涉及人工智能技术领域。本申请实施例提供的基于语音和文本的情感识别方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的软件。在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等;服务器端可以配置成独立的物理服务器,也可以配置成多个物理服务器构成的服务器集群或者分布式系统,还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器;软件可以是实现基于语音和文本的情感识别方法的应用等,但并不局限于以上形式。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
需要说明的是,在本申请的各个具体实施方式中,当涉及到需要根据用户信息、用户行为数据、用户语音数据,用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时,都会先获得用户的许可或者同意,而且,对这些数据的收集、使用和处理等,都会遵守相关法律法规和标准。此外,当本申请实施例需要获取用户的敏感个人信息时,会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意,在明确获得用户的单独许可或者单独同意之后,再获取用于使本申请实施例能够正常运行的必要的用户相关数据。
图1是本申请实施例提供的基于语音和文本的情感识别方法的一个可选的流程图,图1中的方法可以包括但不限于包括步骤101至步骤107。
步骤101,获取目标对象的原始音频数据和原始文本数据;
步骤102,对原始音频数据进行音频特征提取,得到初步音频特征;
步骤103,对原始文本数据进行文本特征提取,得到初步词汇特征;
步骤104,对初步音频特征进行线性变换得到音频特征组,对初步词汇特征进行线性变换得到词汇特征组;
步骤105,根据音频特征组和词汇特征组进行第一注意力机制处理得到目标音频特征,根据音频特征组和词汇特征组进行第二注意力机制处理得到目标词汇特征;
步骤106,将目标音频特征和目标词汇特征进行拼接,得到音频词汇融合特征;
步骤107,根据音频词汇融合特征进行情感识别,得到目标对象的目标情感类别。
本申请实施例所示意的步骤101至步骤107,通过获取目标对象的原始音频数据和原始文本数据,对原始音频数据进行音频特征提取得到初步音频特征,对原始文本数据进行文本特征提取得到初步词汇特征,对初步音频特征进行线性变换得到音频特征组,对初步词汇特征进行线性变换得到词汇特征组,根据音频特征组和词汇特征组进行第一注意力机制处理得到目标音频特征,根据音频特征组和词汇特征组进行第二注意力机制处理得到目标词汇特征,将目标音频特征和目标词汇特征进行拼接得到音频词汇融合特征,根据音频词汇融合特征进行情感识别得到目标对象的目标情感类别,可以结合音频特征和词汇特征进行情感识别,可以提高情感识别的准确率,提高情感的检测精度。
在一些实施例的步骤101中,获取到的原始音频数据可以是预先对目标对象说话进行录制得到,例如可以由语音采集终端在目标对象进行说话时进行录制得到。目标对象可以是说话用户。原始文本数据可以是通过对原始音频数据进行语音识别得到的文本内容,例如可以通过开源的自动语音识别模型(ASR)对原始音频数据进行语音识别得到,从而可以在不提升训练难度的情况下提升模型表现;原始文本数据也可以是与原始音频数据匹配的数据,例如在电影场景下,原始音频数据是电影中的音频,原始文本数据是电源中的台词,原始音频数据是由电影中的扮演者或者电影配音人(目标对象)根据台词(原始文本数据)进行配音得到。在一应用场景,例如若原始音频数据的音频内容是目标对象所说的一段话:“今天天气真好”,则原始文本数据的文本内容为“今天天气真好”。原始音频数据的音频内容还可以是英文,例如:“Hownice!Well,and I said yes,of course”,则原始文本数据的文本内容为英文:“How nice!Well,and I said yes,of course”。在其他的应用场景,原始音频数据和原始文本数据还可以是预先存储于数据库的数据,也可以是通过网络爬虫进行爬取得到。
以金融科技场景为例,原始音频数据可以是:当用户向保险公司咨询投保业务时说话进行录制得到,或者用户向理财公司咨询理财业务时说话进行录制得到;原始文本数据是通过对投保咨询的音频进行语音识别得到的文本内容,或者是通过对理财咨询的音频进行语音识别得到的文本内容。原始音频数据也可以是用户向银行申请开卡时说话产生的音频信号或者向银行申请贷款时说话产生的音频信号,原始文本数据是通过对开卡申请的音频进行语音识别得到的文本内容或者对贷款申请的音频进行语音识别得到的文本内容。
以医疗场景为例,原始音频数据可以是患者进行问诊时的音频,原始文本数据是通过对问诊的音频进行语音识别得到的文本内容。
请参阅图2,在一些实施例的步骤102,可以包括但不限于包括步骤201至步骤202:
步骤201,对原始音频数据进行短时傅里叶变换频谱计算,得到初步频谱数据;
步骤202,通过预设的卷积神经网络对初步频谱数据进行音频特征提取,得到初步音频特征。
在一些实施例的步骤201,具体地,可以使用librosa库对原始音频数据进行短时傅里叶变换频谱计算,得到初步频谱数据,该初步频谱数据是短时傅里叶变换频谱(STFT)数据,该初步频谱数据是一种音频的时频表示,该初步频谱数据在频谱图上可以表示为:X轴为时间,Y轴为频率。
在一些实施例的步骤202,预设的卷积神经网络可以使用常规的卷积神经网络(CNN)对初步频谱数据进行音频特征提取,以得到初步音频特征。在其他的应用场景,还可以使用循环神经网络(Rerrent Neural Network,RNN)或者膨胀卷积神经网络(dilatedCNN)等,或者以上神经网络的组合,本申请实施不做限定,本申请实施例以卷积神经网络为例进行说明,本申请实施例通过采用卷积神经网络,可以更好地处理二维的频谱数据。卷积神经网络对初步频谱数据进行音频特征提取的过程中,可以将音频段所蕴含的特征进行抽象和归纳,得到的初步音频特征是音频段在高维空间的一种表示;本申请实施例得到的初步音频特征不同于较为底层且为人所知的声学特征,初步音频特征是一种更为抽象的中层特征,是不为人所知的特征。
传统的音频处理方式,一般是先将音频数据从时域上转移到频域上,形成频谱图。相比于传统的音频处理方式,本申请实施例,先对原始音频数据进行短时傅里叶变换频谱计算得到初步频谱数据,再采用卷积神经网络对初步频谱数据进行音频特征提取得到初步音频特征,可以将音频段所蕴含的特征进行抽象和归纳,得到音频段在高维空间的一种表示,即得到的初步音频特征是更为抽象的中层特征,不同于较为底层且为人所知的声学特征。
请参阅图3,在一些实施例的步骤103,可以包括但不限于包括步骤301至步骤302:
步骤301,对原始文本数据进行词嵌入提取,得到词嵌入序列;
步骤302,通过预设的双向长短时记忆网络对词嵌入序列进行词特征提取,得到初步词汇特征。
在一些实施例的步骤301,可以通过Global Vectors for Word Representation(Glove)对原始文本数据进行词嵌入提取。Glove是基于全局词频统计(count-based&overall statistics)的词表征(word representation)工具,Glove可以把一个单词表达成一个由实数组成的向量,这些向量捕捉到了单词之间一些语义特性,比如相似性(similarity)、类比性(analogy)等。通过对向量的运算,比如欧几里得距离或者cosine相似度,可以计算出两个单词之间的语义相似性。步骤301中通过Glove对原始文本数据进行词嵌入提取,得到词嵌入序列。
在一些实施例的步骤302,预设的双向长短时记忆网络可以采用现有的双向长短时记忆网络(BiLSTM),本申请实施例不做限定。在其他的实施例,可以用循环神经网络(RNN)替换双向长短时记忆网络,也可以用门控循环单元(Gate Recurrent Unit,GRU)替换双向长短时记忆网络,GRU是LSTM的一种变种,LSTM有三个门:遗忘门forget、输入门input、输出门output,而GRU只有两个门:更新门update、重置门reset。
请参阅图4,在一些实施例的步骤104,可以包括但不限于包括步骤401至步骤405:
步骤401,将初步音频特征输入到预设的特征提取神经网络;其中,特征提取神经网络包括第一网络层、第二网络层、第三网络层;
步骤402,通过第一网络层对初步音频特征进行第一变换得到音频查询特征;
步骤403,通过第二网络层对初步音频特征进行第二变换得到音频键特征;
步骤404,通过第三网络层对初步音频特征进行第三变换得到音频值特征;
步骤405,根据音频查询特征、音频键特征、音频值特征构建音频特征组。
在一些实施例,预设的特征提取神经网络可以是卷积神经网络。特征提取神经网络的第一网络层、第二网络层、第三网络层是三个网络结构相同但参数不相同的网络层,并且第一网络层、第二网络层、第三网络层均为卷积层。
在一些实施例的步骤步骤402,通过第一网络层对初步音频特征进行第一变换得到的音频查询特征(query)表示为QA,该音频查询特征QA也为中层特征,是一种更为抽象的中层特征,是不为人所知的特征。在一些实施例的步骤步骤403,通过第二网络层对初步音频特征进行第二变换得到的音频键特征(key)表示为KA,该音频键特征KA也为中层特征,是一种更为抽象的中层特征,是不为人所知的特征。在一些实施例的步骤步骤404,通过第一网络层对初步音频特征进行第三变换得到的音频值特征(value)表示为VA,该音频值特征VA也为中层特征,是一种更为抽象的中层特征,是不为人所知的特征。在一些实施例的步骤步骤405,根据音频查询特征QA、音频键特征KA、音频值特征VA构建得到音频特征组可以表示为(QA,KA,VA)。
请参阅图5,在一些实施例的步骤104,还可以包括但不限于包括步骤501至步骤505:
步骤501,将初步词汇特征输入到特征提取神经网络;
步骤502,通过第一网络层对初步词汇特征进行第四变换得到词汇查询特征;
步骤503,通过第二网络层对初步词汇特征进行第五变换得到词汇键特征;
步骤504,通过第三网络层对初步词汇特征进行第六变换得到词汇值特征;
步骤505,根据词汇查询特征、词汇键特征、词汇值特征构建词汇特征组。
在一些实施例的步骤104,可以使用两个特征提取神经网络,两个特征提取神经网络分别单独对初步音频特征和初步词汇特征进行处理,也可以只使用一个特征提取神经网络分别对初步音频特征和初步词汇特征进行处理。因此,步骤501中输入的特征提取神经网络可以与步骤401的特征提取神经网络相同,步骤501中输入的特征提取神经网络也可以是另外一个特征提取神经网络,本申请实施例不做限定。
在一些实施例的步骤步骤502,通过第一网络层对初步词汇特征进行第四变换得到的词汇查询特征(query)表示为QT,该词汇查询特征QT也为中层特征,是一种更为抽象的中层特征,是不为人所知的特征。在一些实施例的步骤步骤503,通过第二网络层对初步词汇特征进行第五变换得到的词汇键特征(key)表示为KT,该词汇键特征KT也为中层特征,是一种更为抽象的中层特征,是不为人所知的特征。在一些实施例的步骤步骤504,通过第一网络层对初步词汇特征进行第六变换得到的词汇值特征(value)表示为VT,该词汇值询特征VT也为中层特征,是一种更为抽象的中层特征,是不为人所知的特征。在一些实施例的步骤步骤505,根据词汇查询特征QT、词汇键特征KT、词汇值特征VT构建得到词汇特征组可以表示为(QT,KT,VT)。
在另一些应用场景的步骤104中,可以不需要神经网络的参与,只需要单独的第一网络层、第二网络层、第三网络层,且第一网络层、第二网络层、第三网络层均为卷积层,就可实现对初步音频特征的线性变换处理和对初步词汇特征的线性变换处理。
在一些实施例,音频查询特征、词汇转置键特征、音频值特征、词汇查询特征、音频转置键特征、词汇值特征的特征维度相同,表示为dK。
请参阅图6,在一些实施例的步骤105,还可以包括但不限于包括步骤601至步骤603:
步骤601,对音频键特征进行矩阵转置处理得到音频转置键特征,对词汇键特征进行矩阵转置处理得到词汇转置键特征;
步骤602,根据音频查询特征、词汇转置键特征、音频值特征进行第一注意力计算处理得到目标音频特征;
步骤603,根据词汇查询特征、音频转置键特征、词汇值特征进行第二注意力计算处理得到目标词汇特征。
在一些实施例的步骤601中,对音频键特征KA进行矩阵转置处理得到音频转置键特征对词汇键特征KT进行矩阵转置处理得到词汇转置键特征/>音频转置键特征/>和词汇转置键特征/>也是中层特征,是一种更为抽象的中层特征,是不为人所知的特征。
在一些实施例的步骤602中根据音频查询特征、词汇转置键特征、音频值特征进行第一注意力计算处理得到目标音频特征,可以表示为如下公式(1)所示:
其中,对音频键特征KA进行矩阵转置处理得到的音频转置键特征表示为词汇查询特征QT和音频转置键特征/>进行乘积计算可以用于计算相关度或(也叫依赖度),然后经过softmax转为权重,然后再跟音频值特征VA计算,从而实现注意力(attention)结果。本申请实施例,通过用词汇特征辅助音频特征的学习,得到的目标音频特征是音频高层特征,是一种高层特征,相对传统的方式,本申请实施例能够更好地平衡文本和音频两个模态之间的信息冗余性和互补性,大大提高了情感识别能力。
本申请实施例通过引入文本信息(词汇特征)来辅助增强语义信息,进而提升语义情感识别的准确度。在语音情感识别领域,文本信息也十分重要,有些情感可以通过感知语调或者感知语速等等进行识别,但实际的应用场景中较为复杂,例如说话人故意正话反说,说话人真实情感与说明内容不一致等等,仅凭文本信息无法准确识别出说话人的情感,本申请实施例结合使用音频信息和文本信息,二者互相弥补,互相提升,进而提升情感识别的准确度。
传统的语音情感识别方法,一般是基于深度学习的语音情感识别方法,该类方法首先提取短时傅里叶变换(STFT)频谱或梅尔频谱,之后再使用深度学习模型提取该频谱特征进行判别。该的语音情感识别方法,在说话内容和语气语调不够一致时(如用沮丧的语气说一句含义较为积极开朗的话),识别表现极差,其原因在于其在判断情感时很难学习到话语本身的含义,主要依靠语音的音频特征去判断,因此识别精度低。
在一些实施例的步骤603中根据词汇查询特征、音频转置键特征、词汇值特征进行第二注意力计算处理得到目标词汇特征,可以表示为如下公式(2)所示:
其中,对词汇键特征KT进行矩阵转置处理得到的词汇转置键特征表示为音频查询特征QA和词汇转置键特征/>进行乘积计算可以用于计算相关度或(也叫依赖度),然后经过softmax转为权重,然后再跟词汇值特征VT计算,从而实现注意力(attention)结果。本申请实施例,通过用音频特征辅助词汇特征的学习,得到的目标词汇特征是词汇高层特征,是一种高层特征,相对传统的方式,本申请实施例能够更好地平衡文本和音频两个模态之间的信息冗余性和互补性,大大提高了情感识别能力。
在一些实施例的步骤106,将目标音频特征和目标词汇特征进行拼接得到的音频词汇融合特征是一种高层特征,高层的音频词汇融合特征同时包括了高层音频特征和高层词汇特征,可以更好地进行情感识别,提高情感识别的精度。在一应用场景,可以通过融合网络对目标音频特征和目标词汇特征进行拼接处理,得到音频词汇融合特征;该融合网络是跨模态注意力的融合网络,可以实现音频特征和词汇特征的拼接。
请参阅图7,在一些实施例的步骤107,还可以包括但不限于包括步骤701至步骤702:
步骤701,将音频词汇融合特征输入至预设的特征分类器中;
步骤702,基于特征分类器对音频词汇融合特征进行情感分类处理,得到目标情感类别。
在一些应用场景的步骤107中,可以采用情感识别模型对音频词汇融合特征进行情感识别,该情感识别模型包括上述的特征分类器。由于在步骤106采用跨模态注意力的融合网络对目标音频特征和目标词汇特征进行拼接,因此得到音频词汇融合特征可以提升情感识别模型在说话内容和语气语调一致性较差情况下的情感识别表现。
在一些实施例的步骤701,预设的特征分类器可以是常规的分类器,本申请实施例不做限定。
在一些实施例的步骤702,由于音频词汇融合特征是在步骤106采用跨模态注意力的融合网络对目标音频特征和目标词汇特征进行拼接得到,因此得到音频词汇融合特征包含了高层的音频特征和高层的词汇特征,可以提升情感识别模型。在一应用场景,得到的目标情感类别可以包括快乐和悲伤两类;在另一应用场景,得到的目标情感类别可以包括快乐、愤怒和悲伤三类;在其他的应用场景,得到的目标情感类别还可以分得更细,例如快乐、幸福、难过、悲愤、紧张、放松等。
本申请实施例中,对于音频模态(即原始音频数据对应的音频特征),可以先对原始音频数据进行短时傅里叶变换频谱计算得到初步频谱数据,再通过预设的卷积神经网络对初步频谱数据进行音频特征提取得到初步音频特征,该初步音频特征为中层特征;对于文本模态(即原始文本数据对应的词汇特征),可以根据对原始音频数据进行自动语音识别模型进行语音识别得到,然后计算原始文本数据的文本内容对应的Glove词嵌入(embedding),得到词嵌入序列,再将得到的词嵌入序列输入到双向长短时记忆网络(BiLSTM)中进行词特征提取得到初步词汇特征,该初步词汇特征为中层特征。再根据上述步骤401至步骤405得到音频特征组、根据上述步骤501至步骤505得到词汇特征组。从而再根据步骤601至步骤603,进行第一注意力计算处理得到目标音频特征,进行第二注意力计算处理得到目标词汇特征。并根据步骤106将目标音频特征和目标词汇特征进行拼接得到音频词汇融合特征,该音频词汇融合特征是一种高层特征,且该音频词汇融合特征同时包括了高层音频特征和高层词汇特征,以便于步骤107可以更好地进行情感识别,提高情感识别的精度。本申请实施例实现文本模态和音频模态的互相辅助、融合过程,在面对仅靠一种模态信息难以做出判断的情况时,可以通过本申请实施例的多模态方式进行情感识别,提高情感识别的精度。
本本申请实施例采用跨模态注意力融合网络能够高效地将音频特征和词汇特征统一融合在一起,以此通过两者共同进行决策。在面对不能仅靠音频特征进行判断的情况时,提高情感识别的精度。
本申请实施例,通过用词汇特征辅助音频特征的学习,得到的目标音频特征是一种高层的音频特征,相对传统的方式,本申请实施例能够更好地平衡文本和音频两个模态之间的信息冗余性和互补性,大大提高了情感识别能力。此外,本申请实施例通过引入文本信息(词汇特征)来辅助增强语义信息,进而提升语义情感识别的准确度。在复杂的实际应用场景,例如说话人故意正话反说的应用场景中,说话人真实情感与说明内容不一致时,可以结合音频信特征和词汇特征,从而准确识别出说话人的情感;本申请实施例结合使用音频信息和文本信息,二者互相弥补,互相提升,进而提升情感识别的准确度。
请参阅图8,本申请实施例还提供一种基于语音和文本的情感识别装置,可以实现上述基于语音和文本的情感识别方法,该装置包括:
音频文本获取模块,用于获取目标对象的原始音频数据和原始文本数据;
音频特征提取模块,用于对原始音频数据进行音频特征提取,得到初步音频特征;
文本特征提取模块,用于对原始文本数据进行文本特征提取,得到初步词汇特征;
线性变换模块,用于对初步音频特征进行线性变换得到音频特征组,对初步词汇特征进行线性变换得到词汇特征组;
注意力机制计算模块,用于根据音频特征组和词汇特征组进行第一注意力机制处理得到目标音频特征,根据音频特征组和词汇特征组进行第二注意力机制处理得到目标词汇特征;
特征拼接模块,用于将目标音频特征和目标词汇特征进行拼接,得到音频词汇融合特征;
情感识别模块,用于根据音频词汇融合特征进行情感识别,得到目标对象的目标情感类别。
该情感识别装置的具体实施方式与上述基于语音和文本的情感识别方法的具体实施例基本相同,在此不再赘述。
本申请实施例还提供了一种电子设备,电子设备包括括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述基于语音和文本的情感识别方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。
请参阅图9,图9示意了另一实施例的电子设备的硬件结构,电子设备包括:
处理器801,可以采用通用的CPU(CentralProcessingUnit,中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案;
存储器802,可以采用只读存储器(ReadOnlyMemory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory,RAM)等形式实现。存储器802可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器802中,并由处理器801来调用执行本申请实施例的基于语音和文本的情感识别方法;
输入/输出接口803,用于实现信息输入及输出;
通信接口804,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;
总线805,在设备的各个组件(例如处理器801、存储器802、输入/输出接口803和通信接口804)之间传输信息;
其中处理器801、存储器802、输入/输出接口803和通信接口804通过总线805实现彼此之间在设备内部的通信连接。
本申请实施例还提供了一种存储介质,存储介质为计算机可读存储介质,该存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述基于语音和文本的情感识别方法。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请实施例提供的基于语音和文本的情感识别方法和装置、设备、存储介质,其获取目标对象的原始音频数据和原始文本数据,对原始音频数据进行音频特征提取得到初步音频特征,对原始文本数据进行文本特征提取得到初步词汇特征,对初步音频特征进行线性变换得到音频特征组,对初步词汇特征进行线性变换得到词汇特征组,根据音频特征组和词汇特征组进行第一注意力机制处理得到目标音频特征,根据音频特征组和词汇特征组进行第二注意力机制处理得到目标词汇特征,将目标音频特征和目标词汇特征进行拼接得到音频词汇融合特征,根据音频词汇融合特征进行情感识别得到目标对象的目标情感类别,可以结合音频特征和词汇特征进行情感识别,可以提高情感识别的准确率,提高情感的检测精度,提高了在实际应用的复杂场景下情感识别的准确率。本申请实施例,通过用词汇特征辅助音频特征的学习,得到的目标音频特征是一种高层的音频特征,相对传统的方式,本申请实施例能够更好地平衡文本和音频两个模态之间的信息冗余性和互补性,大大提高了情感识别能力。此外,本申请实施例通过引入文本信息(词汇特征)来辅助增强语义信息,进而提升语义情感识别的准确度。在复杂的实际应用场景,例如说话人故意正话反说的应用场景中,说话人真实情感与说明内容不一致时,可以结合音频信特征和词汇特征,从而准确识别出说话人的情感;本申请实施例结合使用音频信息和文本信息,二者互相弥补,互相提升,进而提升情感识别的准确度。
本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本领域技术人员可以理解的是,图中示出的技术方案并不构成对本申请实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序的介质。
以上参照附图说明了本申请实施例的优选实施例,并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本申请实施例的权利范围之内。
Claims (10)
1.一种基于语音和文本的情感识别方法,其特征在于,所述方法包括:
获取目标对象的原始音频数据和原始文本数据;
对所述原始音频数据进行音频特征提取,得到初步音频特征;
对所述原始文本数据进行文本特征提取,得到初步词汇特征;
对所述初步音频特征进行线性变换得到音频特征组,对所述初步词汇特征进行线性变换得到词汇特征组;
根据所述音频特征组和所述词汇特征组进行第一注意力机制处理得到目标音频特征,根据所述音频特征组和所述词汇特征组进行第二注意力机制处理得到目标词汇特征;
将所述目标音频特征和所述目标词汇特征进行拼接,得到音频词汇融合特征;
根据所述音频词汇融合特征进行情感识别,得到所述目标对象的目标情感类别。
2.根据权利要求1所述的方法,其特征在于,所述对所述初步音频特征进行线性变换得到音频特征组,对所述初步词汇特征进行线性变换得到词汇特征组,包括:
将所述初步音频特征输入到预设的特征提取神经网络;其中,所述特征提取神经网络包括第一网络层、第二网络层、第三网络层;
通过所述第一网络层对所述初步音频特征进行第一变换得到音频查询特征;
通过所述第二网络层对所述初步音频特征进行第二变换得到音频键特征;
通过所述第三网络层对所述初步音频特征进行第三变换得到音频值特征;
根据所述音频查询特征、所述音频键特征、所述音频值特征构建所述音频特征组。
3.根据权利要求2所述的方法,其特征在于,所述对所述初步音频特征进行线性变换得到音频特征组,对所述初步词汇特征进行线性变换得到词汇特征组,还包括:
将所述初步词汇特征输入到所述特征提取神经网络;
通过所述第一网络层对所述初步词汇特征进行第四变换得到词汇查询特征;
通过所述第二网络层对所述初步词汇特征进行第五变换得到词汇键特征;
通过所述第三网络层对所述初步词汇特征进行第六变换得到词汇值特征;
根据所述词汇查询特征、所述词汇键特征、所述词汇值特征构建所述词汇特征组。
4.根据权利要求3所述的方法,其特征在于,所述根据所述音频特征组和所述词汇特征组进行第一注意力机制处理得到目标音频特征,根据所述音频特征组和所述词汇特征组进行第二注意力机制处理得到目标词汇特征,包括:
对所述音频键特征进行矩阵转置处理得到音频转置键特征,对所述词汇键特征进行矩阵转置处理得到词汇转置键特征;
根据所述音频查询特征、所述词汇转置键特征、所述音频值特征进行第一注意力计算处理得到所述目标音频特征;
根据所述词汇查询特征、所述音频转置键特征、所述词汇值特征进行第二注意力计算处理得到所述目标词汇特征。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述音频词汇融合特征进行情感识别,得到所述目标对象的目标情感类别,包括:
将所述音频词汇融合特征输入至预设的特征分类器中;
基于所述特征分类器对所述音频词汇融合特征进行情感分类处理,得到所述目标情感类别。
6.根据权利要求1至4任一项所述的方法,其特征在于,所述对所述原始文本数据进行文本特征提取,得到初步词汇特征,包括:
对所述原始文本数据进行词嵌入提取,得到词嵌入序列;
通过预设的双向长短时记忆网络对所述词嵌入序列进行词特征提取,得到所述初步词汇特征。
7.根据权利要求1至4任一项所述的方法,其特征在于,所述对所述原始音频数据进行音频特征提取,得到初步音频特征,包括:
对所述原始音频数据进行短时傅里叶变换频谱计算,得到初步频谱数据;
通过预设的卷积神经网络对所述初步频谱数据进行音频特征提取,得到所述初步音频特征。
8.一种基于语音和文本的情感识别装置,其特征在于,所述装置包括:
音频文本获取模块,用于获取目标对象的原始音频数据和原始文本数据;
音频特征提取模块,用于对所述原始音频数据进行音频特征提取,得到初步音频特征;
文本特征提取模块,用于对所述原始文本数据进行文本特征提取,得到初步词汇特征;
线性变换模块,用于对所述初步音频特征进行线性变换得到音频特征组,对所述初步词汇特征进行线性变换得到词汇特征组;
注意力机制计算模块,用于根据所述音频特征组和所述词汇特征组进行第一注意力机制处理得到目标音频特征,根据所述音频特征组和所述词汇特征组进行第二注意力机制处理得到目标词汇特征;
特征拼接模块,用于将所述目标音频特征和所述目标词汇特征进行拼接,得到音频词汇融合特征;
情感识别模块,用于根据所述音频词汇融合特征进行情感识别,得到所述目标对象的目标情感类别。
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310674287.5A CN116663543A (zh) | 2023-06-07 | 2023-06-07 | 基于语音和文本的情感识别方法和装置、设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310674287.5A CN116663543A (zh) | 2023-06-07 | 2023-06-07 | 基于语音和文本的情感识别方法和装置、设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116663543A true CN116663543A (zh) | 2023-08-29 |
Family
ID=87718739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310674287.5A Pending CN116663543A (zh) | 2023-06-07 | 2023-06-07 | 基于语音和文本的情感识别方法和装置、设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116663543A (zh) |
-
2023
- 2023-06-07 CN CN202310674287.5A patent/CN116663543A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111933129B (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
Kabir et al. | A survey of speaker recognition: Fundamental theories, recognition methods and opportunities | |
CN116543768A (zh) | 模型的训练方法、语音识别方法和装置、设备及存储介质 | |
CN115497477B (zh) | 语音交互方法、语音交互装置、电子设备、存储介质 | |
CN116611459B (zh) | 翻译模型的训练方法、装置、电子设备及存储介质 | |
CN116343747A (zh) | 语音合成方法、语音合成装置、电子设备及存储介质 | |
CN116312463A (zh) | 语音合成方法、语音合成装置、电子设备及存储介质 | |
CN116386594A (zh) | 语音合成方法、语音合成装置、电子设备及存储介质 | |
Wataraka Gamage et al. | Speech-based continuous emotion prediction by learning perception responses related to salient events: A study based on vocal affect bursts and cross-cultural affect in AVEC 2018 | |
Singh et al. | A lightweight 2D CNN based approach for speaker-independent emotion recognition from speech with new Indian Emotional Speech Corpora | |
CN114373443A (zh) | 语音合成方法和装置、计算设备、存储介质及程序产品 | |
CN117668758A (zh) | 对话意图识别方法和装置、电子设备及存储介质 | |
CN116541551A (zh) | 音乐分类方法、音乐分类装置、电子设备及存储介质 | |
CN116645961A (zh) | 语音识别方法、语音识别装置、电子设备及存储介质 | |
CN116543797A (zh) | 基于语音的情感识别方法和装置、电子设备及存储介质 | |
CN116469370A (zh) | 目标语言语音合成方法和装置、电子设备、存储介质 | |
CN116312644A (zh) | 语音情感分类方法、装置、设备和存储介质 | |
CN116434730A (zh) | 基于多尺度情感的语音合成方法、装置、设备、存储介质 | |
CN114974219A (zh) | 语音识别方法、语音识别装置、电子设备及存储介质 | |
CN116663543A (zh) | 基于语音和文本的情感识别方法和装置、设备、存储介质 | |
CN113836273A (zh) | 基于复杂语境的法律咨询方法及相关设备 | |
Ghorpade et al. | ITTS model: speech generation for image captioning using feature extraction for end-to-end synthesis | |
Tellai et al. | CCTG-NET: Contextualized Convolutional Transformer-GRU Network for speech emotion recognition | |
Ali et al. | Recognizing Speech Emotions in Iraqi Dialect Using Machine Learning Techniques | |
CN116564274A (zh) | 语音合成方法、语音合成装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |