CN113590760A - 情感类别的确定方法、模组、智能家居和可读存储介质 - Google Patents
情感类别的确定方法、模组、智能家居和可读存储介质 Download PDFInfo
- Publication number
- CN113590760A CN113590760A CN202110931779.9A CN202110931779A CN113590760A CN 113590760 A CN113590760 A CN 113590760A CN 202110931779 A CN202110931779 A CN 202110931779A CN 113590760 A CN113590760 A CN 113590760A
- Authority
- CN
- China
- Prior art keywords
- vector
- target
- text
- voice information
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 117
- 238000000034 method Methods 0.000 title claims abstract description 55
- 239000013598 vector Substances 0.000 claims abstract description 245
- 230000004927 fusion Effects 0.000 claims abstract description 67
- 230000002996 emotional effect Effects 0.000 claims abstract description 61
- 238000004458 analytical method Methods 0.000 claims abstract description 32
- 238000000605 extraction Methods 0.000 claims abstract description 27
- 238000006243 chemical reaction Methods 0.000 claims abstract description 20
- 238000004891 communication Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 8
- 230000001131 transforming effect Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000007405 data analysis Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000001755 vocal effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000037007 arousal Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Acoustics & Sound (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请提供了一种情感类别的确定方法、模组、智能家居和可读存储介质,属于数据分析技术领域。方法包括:获取语音信息和语音信息对应的文本信息,其中,语音信息为待进行情感分析的信息,文本信息是通过对语音信息进行识别得到的;通过向量转换模型将文本信息转换为多个文本向量;通过特征提取方案提取语音信息中的情感特征,其中,情感特征用于指示语音信息对应的情感类别;将多个文本向量和情感特征输入目标融合模型,得到目标融合模型输出的融合有多个文本向量和情感特征的第一向量;通过第一向量进行情感分析,得到第一向量对应的情感类别。本申请提高了确定情感类别的准确率。
Description
技术领域
本申请涉及数据分析技术领域,尤其涉及一种情感类别的确定方法、模组、智能家居和可读存储介质。
背景技术
情感分析是自然语言处理的基础任务之一,在情感分析的基础上可以进行后续的对话系统构建以及功能资源方面的推荐。情感的表达方式有很多,可以采用文本来进行情感分析,或采用语音进行情感分析,也可以采用文本和语音相结合的方式进行情感分析。
现有技术中采用文本和语音结合进行情感分析,是将文本和语音在分别在神经网络中进行处理,得到文本对应的情感特征和语音对应的情感特征,然后再将两种情感特征进行特征融合。但这样会将文本和语音割裂开,融合效果差,得到的情感类别不准确。
发明内容
本申请实施例的目的在于提供一种情感类别的确定方法、模组、智能家居和可读存储介质,以解决情感类别不准确的问题。具体技术方案如下:
第一方面,提供了一种情感类别的确定方法,所述方法包括:
获取语音信息和所述语音信息对应的文本信息,其中,所述语音信息为待进行情感分析的信息,所述文本信息是通过对所述语音信息进行识别得到的;
通过向量转换模型将所述文本信息转换为多个文本向量;
通过特征提取方案提取所述语音信息中的情感特征,其中,所述情感特征用于指示所述语音信息对应的情感类别;
将所述多个文本向量和所述情感特征输入目标融合模型,得到所述目标融合模型输出的融合有所述多个文本向量和所述情感特征的第一向量;
通过所述第一向量进行情感分析,得到所述第一向量对应的情感类别。
可选地,得到所述目标融合模型输出的融合有所述多个文本向量和所述情感特征的第一向量之后,所述方法还包括:
获取所述语音信息在目标时长内的语音频次,其中,所述语音频次用于指示所述语音信息的重复次数;
根据所述第一向量和所述语音频次确定增加向量,其中,所述增加向量用于扩大所述第一向量的信息容量;
根据所述第一向量和所述增加向量的组合向量作为第二向量;
通过所述第二向量进行情感分析,得到所述第二向量对应的情感类别。
可选地,所述根据所述第一向量和所述语音频次确定增加向量包括:
将所述第一向量中所有元素值的平均值作为所述第一向量的向量基值;
将所述语音频次和预设数值的差值作为目标倍数;
将目标倍数和所述向量基值的乘积作为增加向量的数值。
可选地,所述通过向量转换模型将所述文本向量转换为文本向量包括:
通过分词方案将所述文本信息映射为多个词向量,其中,所述词向量的数量为第一维度;
将所述多个词向量输入深度神经网络的全连接层,其中,所述深度神经网络用于提升所述多个词向量的维度;
通过所述全连接层将所述第一维度变换至第二维度,其中,所述第二维度高于所述第一维度,所述第二维度与所述目标融合模型的维度相同。
可选地,所述通过所述全连接层将所述第一维度变换至第二维度包括:
确定所述全连接层中的目标权重参数,其中,所述目标权重参数用于指示所述全连接层中目标层包含的所有节点的参数;
将所述第一维度作为所述全连接层中第一层的输入维度;
按照如下方式确定每一层的输出维度:将所述目标层的输入维度与所述目标权重参数的乘积作为所述目标层的输出维度,其中,所述目标层的输入维度是基于前一层的输出维度得到的;
将所述全连接层中最后一层的输出维度作为所述第二维度。
可选地,所述通过特征提取方案提取所述语音信息中的情感特征包括:
通过特征提取方案提取所述语音信息中的初始特征,其中,所述初始特征基于所述语音信息中的声学特征得到的;
将所述初始特征输出目标提取模型,得到所述目标提取模型输出的所述语音信息中的目标特征,其中,所述目标特征用于指示所述语音信息对应的情感类别。
可选地,将所述多个文本向量和所述情感特征输入目标融合模型,得到所述目标融合模型输出的融合有所述多个文本向量和所述情感特征的第一向量包括:
将所述情感特征输入所述目标融合模型中的激活函数,以通过所述激活函数初始化所述目标融合模型中第一层隐藏层的隐状态,其中,所述隐状态包含第一层隐藏层的节点信息;
将所述多个文本向量输出所述目标融合模型,其中,每个文本向量用于对所述情感特征进行一次更新;
将所述目标融合模型输出的更新后的情感特征作为所述第一向量。
第二方面,提供了一种情感类别的确定模组,所述模组包括:
获取模块,用于获取语音信息和所述语音信息对应的文本信息,其中,所述语音信息为待进行情感分析的信息,所述文本信息是通过对所述语音信息进行识别得到的;
转换模块,用于通过向量转换模型将所述文本信息转换为多个文本向量;
提取模块,用于通过特征提取方案提取所述语音信息中的情感特征,其中,所述情感特征用于指示所述语音信息对应的情感类别;
输入输出模块,用于将所述多个文本向量和所述情感特征输入目标融合模型,得到所述目标融合模型输出的融合有所述文本信息和所述语音信息的第一向量;
分析模块,用于通过所述第一向量进行情感分析,得到所述第一向量对应的情感类别。
第三方面,提供了一种智能家居,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现任一所述的情感类别的确定方法步骤。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现任一所述的情感类别的确定方法步骤。
本申请实施例有益效果:
本申请实施例提供了一种情感类别的确定方法,智能家居获取语音信息和语音信息对应的文本信息,通过向量转换模型将文本信息转换为多个文本向量,通过特征提取方案提取语音信息中的情感特征,将多个文本向量和情感特征输入目标融合模型,得到目标融合模型输出的融合有多个文本向量和情感特征的第一向量,通过第一向量进行情感分析,得到第一向量对应的情感类别。
在本申请中,智能家居得到文本信息对应的文本向量和语音信息中的情感特征,然后将情感特征和文本向量在目标融合模型中进行融合,相对于现有技术中简单的融合文本的情感特征和语音的情感特征,本申请是将文本信息的全部内容融合到语音信息的情感特征中,增加了融合信息,使融合后的第一向量的含义更丰富,提高了第一向量对应的情感类别的准确度。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种情感类别的确定方法硬件环境示意图;
图2为本申请实施例提供的一种情感类别确定的方法流程图;
图3为本申请实施例提供的一种情感类别的确定方法的流程图;
图4为本申请实施例提供的一种情感类别的确定模组的结构示意图;
图5为本申请实施例提供的一种智能家居的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明,其本身并没有特定的意义。因此,“模块”与“部件”可以混合地使用。
为了解决背景技术中提及的问题,根据本申请实施例的一方面,提供了一种情感类别的确定方法的实施例。
可选地,在本申请实施例中,上述情感类别的确定方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示,服务器103通过网络与终端101进行连接,可用于为终端或终端上安装的客户端提供服务,可在服务器上或独立于服务器设置数据库105,用于为服务器103提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端101包括但不限于PC、手机、平板电脑等。
本申请实施例中的一种情感类别的确定方法可以由终端101来执行,也可以由服务器103来执行,还可以是由服务器103和终端101共同执行。
本申请实施例提供了一种情感类别的确定方法,可以应用于智能家居,用于分析语音信息对应的情感类别。
下面将结合具体实施方式,对本申请实施例提供的一种情感类别的确定方法进行详细的说明,如图2所示,具体步骤如下:
步骤201:获取语音信息和语音信息对应的文本信息。
其中,语音信息为待进行情感分析的信息,文本信息是通过对语音信息进行识别得到的。
在本申请实施例中,用户对智能家居发出控制指令后,智能家居识别用户的语音信息,并将语音信息转换为对应的文本信息。其中,语音信息转换为文本信息,可以采用语音转文字软件实现,也可以采用智能家居中的语音转文字算法实现,本申请实施例对语音信息转换为文本信息的方式不做具体限定。
步骤202:通过向量转换模型将文本信息转换为多个文本向量。
在本申请实施例中,智能家居将文本信息输入向量转换模型,得到向量转换模型输出的文本信息对应的多个文本向量。其中,向量转换模型可以为word2vec、glove或者BERT(Bidirectional Encoder Representations from Transformers)模型,本申请对向量转换模型不做具体限制。
步骤203:通过特征提取方案提取语音信息中的情感特征。
其中,情感特征用于指示语音信息对应的情感类别。
语音信息中包括语义信息和声学特征,本申请中的情感特征是基于声学特征得到的。声学特征包括韵律特征和音质特征,其中,韵律特征包括基频、能量和语速等,音质特征包括声韵特征和共振峰等。不同的情感类别对应的声学特征是不同的,例如,情感类别为高兴,则对应的声学特征具有较高的基频均值、基频范围、基频方差和平均能量,伴随有明显的高频能量提升和语音清晰度提高;情感类别为焦虑,则对应的声学特征具有较高的唤醒度,较高的基频均值、基频范围、高频能量和清晰度,轻微的担忧也具有较高的基频均值。
本申请可以通过特征提取方案提取语音信息中的声学特征,然后再将声学特征输入目标识别模型,得到目标识别模型输出的声学特征对应的情感类别,其中,情感类别可以分为正面情绪、中性情绪和负面情绪,也可以具体分为高兴、悲伤、愤怒、惊奇、害怕和厌恶,情感类别的具体分类可以根据实际情况确定。
步骤204:将多个文本向量和情感特征输入目标融合模型,得到目标融合模型输出的融合有多个文本向量和情感特征的第一向量。
智能家居得到多个文本向量和语音信息中的情感特征后,将多个文本向量和情感特征输入目标融合模型,目标融合模型对文本向量和情感特征进行融合,得到第一向量。由于文本向量对应文本信息,情感特征来自语音信息,因此,第一向量融合了文本向量和情感特征,即融合了文本信息和语音信息。
步骤205:通过第一向量进行情感分析,得到第一向量对应的情感类别。
智能家居将第一向量输入情感分析模型,得到情感分析模型输出的第一向量对应的情感类别。
在本申请中,智能家居得到文本信息对应的文本向量和语音信息中的情感特征,然后将情感特征和文本向量在目标融合模型中进行融合,相对于现有技术中简单的融合文本的情感特征和语音的情感特征,本申请是将文本信息的全部内容融合到语音信息的情感特征中,增加了融合信息,使融合后的第一向量的含义更丰富,提高了第一向量对应的情感类别的准确度。
作为一种可选的实施方式,得到目标融合模型输出的融合有文本信息和语音信息的第一向量之后,方法还包括:获取语音信息在目标时长内的语音频次,其中,语音频次用于指示语音信息的重复次数;根据第一向量和语音频次确定增加向量,其中,增加向量用于扩大第一向量的信息容量;根据第一向量和增加向量的组合向量作为第二向量;通过第二向量进行情感分析,得到第二向量对应的情感类别。
在本申请实施例中,用户在下发语音指令的时候,可能会将语音信息重复多次,重复次数与用户的情绪相关联,举例来说,重复次数越多,表示用户的情绪越焦躁,用户情绪越倾向于负面情绪。
智能家居在首次获取到该条语音信息后,确定该语音信息在目标时长内的语音频次,目标时长为用户重复多次相同的语音信息所需要的时长,示例性地,用户正常表述一句语音信息所用时长为5秒,那么目标时长为重复三次该语音信息所用时长,目标时长为15秒。其中,目标时长是技术人员事先设定的。
智能家居确定语音频次后,为了将文本信息、语音信息和语音频次综合起来进行情感分析,需要将语音频次融入第一向量,这就扩大第一向量的信息容量。因此,智能家居根据第一向量和语音频次确定增加向量,然后将增加向量与第一向量进行组合,得到第二向量,这样第二向量融合了文本信息、语音信息和语音频次,丰富了第二向量中的情感特征。智能家居将第二向量输入情感分析模型,得到情感分析模型输出的第二向量对应的情感类别。
其中,根据第一向量和语音频次确定增加向量包括:将第一向量中所有元素值的平均值作为第一向量的向量基值;将语音频次和预设数值的差值作为目标倍数;将目标倍数和向量基值的乘积作为增加向量的数值。
在本申请实施例中,第一向量中包含多个元素,智能家居确定第一向量中所有元素值的平均值,然后将该平均值作为第一向量的向量基值,然后从数据库获取预设数值,将语音频次和预设数值的差值作为目标倍数,最后将目标倍数和向量基值的乘积作为增加向量的数值。其中,增加向量的数量是技术人员可以根据经验设定的。
示例性地,第一向量为[1,2,3],第一向量中所有元素值的平均值(向量基值)为(1+2+3)/3=2,预设数值为1。若语音频次为1,则目标倍数为1-1=0,增加向量为0*2=0,第一向量和增加向量组合成为第二向量[1,2,3,0,0]。若语音频次为1,则目标倍数为2-1=1,增加向量为1*2=2,第一向量和增加向量组合成为第二向量[1,2,3,2,2]。若语音频次为3,则目标倍数为3-1=1,增加向量为2*2=4,第一向量和增加向量组合成为第二向量[1,2,3,4,4]。
在本申请中,语音频次也与用户的情绪类别相关,智能家居将语音频次融合到文本信息和语音信息中,使第二向量中包含的情感特征更加丰富,提高了情感类别的准确性。
作为一种可选的实施方式,通过向量转换模型将文本向量转换为文本向量包括:通过分词方案将文本信息映射为多个词向量,其中,词向量的数量为第一维度;将多个词向量输入深度神经网络的全连接层,其中,深度神经网络用于提升多个词向量的维度;通过全连接层将第一维度变换至第二维度,其中,第二维度高于第一维度。
在本申请实施例中,为了处理器能够识别文本信息,智能家居通过分词方案将一维的文本信息映射为多个词向量,词向量的数量即为词向量的第一维度,但后续词向量还要在目标融合模型中与语音信息进行融合,目标融合模型的网络层具有多个维度,为了增强融合效果,需要设置词向量的维度和目标融合模型的网络层的维度一致。因此,智能设备将多个词向量输入深度神经网络的全连接层,采用深度神经网络提升多个词向量的维度,具体为通过全连接层将第一维度变换至第二维度,其中,第二维度高于第一维度,第二维度与目标融合模型的维度相同。
其中,通过全连接层将第一维度变换至第二维度包括:确定全连接层中的目标权重参数,其中,目标权重参数用于指示全连接层中目标层包含的所有节点的参数;将第一维度作为全连接层中第一层的输入维度;按照如下方式确定每一层的输出维度:将目标层的输入维度与目标权重参数的乘积作为目标层的输出维度,其中,目标层的输入维度是基于前一层的输出维度得到的;将全连接层中最后一层的输出维度作为第二维度。
在本申请实施例中,深度学习网络具有全连接层,全连接层中包含多个网络层,每个网络层都具有一个权重参数,智能家居确定全连接层中任一层的目标权重参数,目标权重参数表示目标层包含的所有节点的参数。
智能家居将第一维度的文本向量输入全连接层,第一网络层将第一维度作为输入维度,然后将第一网络层的权重参数和第一维度的乘积作为第一网络层的输出维度,第二网络层将第一网络层的输出维度作为第二网络层的输入维度,然后将第二网络层的权重参数和第二网络层输入维度的乘积作为第二网络层的输出维度,每个网络层都依次迭代,最终得到最后一个网络层输出的第二维度。
在本申请中,通过全连接层提高文本向量的维度,使文本向量的第二维度和目标融合网络的维度相同,可以提高文本向量和情感特征在目标融合网络中的融合效果,进而提高第一向量的准确度,使情感类别更准确。
作为一种可选的实施方式,通过特征提取方案提取语音信息中的情感特征包括:通过特征提取方案提取语音信息中的初始特征;将初始特征输出目标提取模型,得到目标提取模型输出的语音信息中的目标特征,其中,目标特征用于指示语音信息对应的情感类别。
在本申请实施例中,智能家居通过MFCCs(Mel Frequency CepstralCoefficents,梅尔倒谱系数)提取语音信息中的韵律特征和音质特征,然后将韵律特征和音质特征输入目标提取模型,得到目标提取模型输出的语音信息中的目标特征,其中,目标特征用于指示语音信息对应的情感类别。其中,目标提取特征可以为ResNet-50网络。
目标提取模型的训练过程为:将样本特征输入初始识别模型,初始识别模型输出样本特征对应的识别结果,若识别结果和样本情感类别不一致,则调整初始识别模型的内部参数,直至识别结果和样本情感类别一致,得到目标提取模型。
MFCCs是一种在自动语音和说话人识别中广泛使用的特征,声道的形状在语音短时功率谱的包络中显示出来,而MFCCs就是一种准确描述这个包络的一种特征。MFCCs可以是从librosa工具包中得到的,librosa是一个强大的python语音信号处理的第三方库。
作为一种可选的实施方式,将多个文本向量和情感特征输入目标融合模型,得到目标融合模型输出的融合有文本信息和语音信息的第一向量包括:将情感特征输入目标融合模型中的激活函数,以通过激活函数初始化目标融合模型中第一层隐藏层的隐状态,其中,隐状态包含第一层隐藏层的节点信息;将多个文本向量输出目标融合模型,其中,每个文本向量用于对情感特征进行一次更新;将目标融合模型输出的更新后的情感特征作为第一向量。
在本申请实施例中,智能家居将情感特征输入目标融合模型中的激活函数,激活函数可以将非线性特性引入到目标融合模型中,从而初始化目标融合模型中第一层隐藏层的隐状态,其中,隐状态包含第一层隐藏层的节点信息,初始化隐状态可以为目标融合模型提供一个全局的语音背景,后续目标融合模型的门控机制可以学习到如何将文本向量融入到语音信息的情感特征中。智能家居将多个文本向量输出目标融合模型,每个文本向量输入后,情感特征都会更新一次,这样目标融合模型输出的情感特征是融合了全部文本向量的情感特征,智能家居将该多次更新后的情感特征作为第一向量。
其中,目标融合模型可以为GRU(Gate Recurrent Unit,循环神经网络)。激活函数是在人工神经网络的神经元上运行的函数,负责将神经元的输入映射到输出端,激活函数将非线性特性引入到目标融合模型中,激活函数可以为tanh激活函数。
可选的,本申请实施例还提供了一种情感类别的确定方法的处理流程图,如图3所示,具体步骤如下。
步骤1:获取语音信息和语音信息对应的文本信息。
步骤2:通过分词方案将文本信息映射为第一维度的词向量,通过输入深度神经网络的全连接层将第一维度变换至第二维度。
步骤3:通过MFCCs提取语音信息中的初始特征,将初始特征输出ResNet-50网络,得到语音信息对应的情感特征。
步骤4:将第二维度的词向量和情感特征输入GRU网络,得到第一向量。
步骤5:将语音频次和第一向量进行融合,得到第二向量。
步骤6:通过第二向量进行情感类别分析得到情感类别。
本申请通过GNLP(Grounded Natural Language Processing)融合文本信息、语音信息和语音频次,将自然语言和外部物理世界的感知连接在一起,提高了感知效果,有利于充分理解自然语言中的情绪类别,提升智能设备对自然语言的理解能力,从而使智能设备做出相应处理,提高用户体验。
基于相同的技术构思,本申请实施例还提供了一种情感类别的确定模组,如图4所示,该模组包括:
获取模块401,用于获取语音信息和语音信息对应的文本信息,其中,语音信息为待进行情感分析的信息,文本信息是通过对语音信息进行识别得到的;
转换模块402,用于通过向量转换模型将文本信息转换为多个文本向量;
提取模块403,用于通过特征提取方案提取语音信息中的情感特征,其中,情感特征用于指示语音信息对应的情感类别;
输入输出模块404,用于将多个文本向量和情感特征输入目标融合模型,得到目标融合模型输出的融合有文本信息和语音信息的第一向量,以通过第一向量进行情感分析;
分析模块405,用于通过第一向量进行情感分析,得到第一向量对应的情感类别。
可选地,该模组还用于:
获取语音信息在目标时长内的语音频次,其中,语音频次用于指示语音信息的重复次数;
根据第一向量和语音频次确定增加向量,其中,增加向量用于扩大第一向量的信息容量;
根据第一向量和增加向量的组合向量作为第二向量;
通过第二向量进行情感分析,得到第二向量对应的情感类别。
可选地,该模组还用于:
将第一向量中所有元素值的平均值作为第一向量的向量基值;
将语音频次和预设数值的差值作为目标倍数;
将目标倍数和向量基值的乘积作为增加向量的数值。
可选地,转换模块402用于:
通过分词方案将文本信息映射为多个词向量,其中,词向量的数量为第一维度;
将多个词向量输入深度神经网络的全连接层,其中,深度神经网络用于提升多个词向量的维度;
通过全连接层将第一维度变换至第二维度,其中,第二维度高于第一维度,第二维度与目标融合模型的维度相同。
可选地,转换模块402还用于:
确定全连接层中的目标权重参数,其中,目标权重参数用于指示全连接层中目标层包含的所有节点的参数;
将第一维度作为全连接层中第一层的输入维度;
按照如下方式确定每一层的输出维度:将目标层的输入维度与目标权重参数的乘积作为目标层的输出维度,其中,目标层的输入维度是基于前一层的输出维度得到的;
将全连接层中最后一层的输出维度作为第二维度。
可选地,提取模块403用于:
通过特征提取方案提取语音信息中的初始特征,其中,初始特征基于语音信息中的声学特征得到的;
将初始特征输出目标提取模型,得到目标提取模型输出的语音信息中的目标特征,其中,目标特征用于指示语音信息对应的情感类别。
可选地,输入输出模块404用于:
将情感特征输入目标融合模型中的激活函数,以通过激活函数初始化目标融合模型中第一层隐藏层的隐状态,其中,隐状态包含第一层隐藏层的节点信息;
将多个文本向量输出目标融合模型,其中,每个文本向量用于对情感特征进行一次更新;
将目标融合模型输出的更新后的情感特征作为第一向量。
根据本申请实施例的另一方面,本申请提供了一种电子设备,如图5所示,包括存储器503、处理器501、通信接口502及通信总线504,存储器503中存储有可在处理器501上运行的计算机程序,存储器503、处理器501通过通信接口502和通信总线504进行通信,处理器501执行计算机程序时实现上述方法的步骤。
上述电子设备中的存储器、处理器通过通信总线和通信接口进行通信。所述通信总线可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
根据本申请实施例的又一方面还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质。
可选地,在本申请实施例中,计算机可读介质被设置为存储用于所述处理器执行上述方法的程序代码。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本申请实施例在具体实现时,可以参阅上述各个实施例,具有相应的技术效果。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、模组和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的模组方法,可以通过其它的方式实现。例如,以上所描述的模组实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,模组或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种情感类别的确定方法,其特征在于,所述方法包括:
获取语音信息和所述语音信息对应的文本信息,其中,所述语音信息为待进行情感分析的信息,所述文本信息是通过对所述语音信息进行识别得到的;
通过向量转换模型将所述文本信息转换为多个文本向量;
通过特征提取方案提取所述语音信息中的情感特征,其中,所述情感特征用于指示所述语音信息对应的情感类别;
将所述多个文本向量和所述情感特征输入目标融合模型,得到所述目标融合模型输出的融合有所述多个文本向量和所述情感特征的第一向量;
通过所述第一向量进行情感分析,得到所述第一向量对应的情感类别。
2.根据权利要求1所述的方法,其特征在于,得到所述目标融合模型输出的融合有所述多个文本向量和所述情感特征的第一向量之后,所述方法还包括:
获取所述语音信息在目标时长内的语音频次,其中,所述语音频次用于指示所述语音信息的重复次数;
根据所述第一向量和所述语音频次确定增加向量,其中,所述增加向量用于扩大所述第一向量的信息容量;
根据所述第一向量和所述增加向量的组合向量作为第二向量;
通过所述第二向量进行情感分析,得到所述第二向量对应的情感类别。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一向量和所述语音频次确定增加向量包括:
将所述第一向量中所有元素值的平均值作为所述第一向量的向量基值;
将所述语音频次和预设数值的差值作为目标倍数;
将目标倍数和所述向量基值的乘积作为增加向量的数值。
4.根据权利要求1所述的方法,其特征在于,所述通过向量转换模型将所述文本向量转换为文本向量包括:
通过分词方案将所述文本信息映射为多个词向量,其中,所述词向量的数量为第一维度;
将所述多个词向量输入深度神经网络的全连接层,其中,所述深度神经网络用于提升所述多个词向量的维度;
通过所述全连接层将所述第一维度变换至第二维度,其中,所述第二维度高于所述第一维度,所述第二维度与所述目标融合模型的维度相同。
5.根据权利要求4所述的方法,其特征在于,所述通过所述全连接层将所述第一维度变换至第二维度包括:
确定所述全连接层中的目标权重参数,其中,所述目标权重参数用于指示所述全连接层中目标层包含的所有节点的参数;
将所述第一维度作为所述全连接层中第一层的输入维度;
按照如下方式确定每一层的输出维度:将所述目标层的输入维度与所述目标权重参数的乘积作为所述目标层的输出维度,其中,所述目标层的输入维度是基于前一层的输出维度得到的;
将所述全连接层中最后一层的输出维度作为所述第二维度。
6.根据权利要求1所述的方法,其特征在于,所述通过特征提取方案提取所述语音信息中的情感特征包括:
通过特征提取方案提取所述语音信息中的初始特征,其中,所述初始特征基于所述语音信息中的声学特征得到的;
将所述初始特征输出目标提取模型,得到所述目标提取模型输出的所述语音信息中的目标特征,其中,所述目标特征用于指示所述语音信息对应的情感类别。
7.根据权利要求1所述的方法,其特征在于,将所述多个文本向量和所述情感特征输入目标融合模型,得到所述目标融合模型输出的融合有所述多个文本向量和所述情感特征的第一向量包括:
将所述情感特征输入所述目标融合模型中的激活函数,以通过所述激活函数初始化所述目标融合模型中第一层隐藏层的隐状态,其中,所述隐状态包含第一层隐藏层的节点信息;
将所述多个文本向量输出所述目标融合模型,其中,每个文本向量用于对所述情感特征进行一次更新;
将所述目标融合模型输出的更新后的情感特征作为所述第一向量。
8.一种情感类别的确定模组,其特征在于,所述模组包括:
获取模块,用于获取语音信息和所述语音信息对应的文本信息,其中,所述语音信息为待进行情感分析的信息,所述文本信息是通过对所述语音信息进行识别得到的;
转换模块,用于通过向量转换模型将所述文本信息转换为多个文本向量;
提取模块,用于通过特征提取方案提取所述语音信息中的情感特征,其中,所述情感特征用于指示所述语音信息对应的情感类别;
输入输出模块,用于将所述多个文本向量和所述情感特征输入目标融合模型,得到所述目标融合模型输出的融合有所述文本信息和所述语音信息的第一向量;
分析模块,用于通过所述第一向量进行情感分析,得到所述第一向量对应的情感类别。
9.一种智能家居,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110931779.9A CN113590760B (zh) | 2021-08-13 | 2021-08-13 | 情感类别的确定方法、模组、智能家居和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110931779.9A CN113590760B (zh) | 2021-08-13 | 2021-08-13 | 情感类别的确定方法、模组、智能家居和可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113590760A true CN113590760A (zh) | 2021-11-02 |
CN113590760B CN113590760B (zh) | 2024-05-03 |
Family
ID=78257841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110931779.9A Active CN113590760B (zh) | 2021-08-13 | 2021-08-13 | 情感类别的确定方法、模组、智能家居和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113590760B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108255805A (zh) * | 2017-12-13 | 2018-07-06 | 讯飞智元信息科技有限公司 | 舆情分析方法及装置、存储介质、电子设备 |
CN113297383A (zh) * | 2021-06-22 | 2021-08-24 | 苏州大学 | 基于知识蒸馏的语音情感分类方法 |
-
2021
- 2021-08-13 CN CN202110931779.9A patent/CN113590760B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108255805A (zh) * | 2017-12-13 | 2018-07-06 | 讯飞智元信息科技有限公司 | 舆情分析方法及装置、存储介质、电子设备 |
CN113297383A (zh) * | 2021-06-22 | 2021-08-24 | 苏州大学 | 基于知识蒸馏的语音情感分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113590760B (zh) | 2024-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111026842B (zh) | 自然语言处理方法、自然语言处理装置及智能问答系统 | |
CN108806667B (zh) | 基于神经网络的语音与情绪的同步识别方法 | |
CN107195296B (zh) | 一种语音识别方法、装置、终端及系统 | |
EP3260996A1 (en) | Dialogue act estimation method, dialogue act estimation apparatus, and storage medium | |
CN109920414A (zh) | 人机问答方法、装置、设备和存储介质 | |
CN107369439B (zh) | 一种语音唤醒方法和装置 | |
CN109256118B (zh) | 基于生成式听觉模型的端到端汉语方言识别系统和方法 | |
CN110910903B (zh) | 语音情绪识别方法、装置、设备及计算机可读存储介质 | |
CN110795913A (zh) | 一种文本编码方法、装置、存储介质及终端 | |
CN112967725A (zh) | 语音对话数据处理方法、装置、计算机设备及存储介质 | |
CN112989822B (zh) | 识别对话中句子类别的方法、装置、电子设备和存储介质 | |
CN113837299B (zh) | 基于人工智能的网络训练方法及装置、电子设备 | |
CN112562640B (zh) | 多语言语音识别方法、装置、系统及计算机可读存储介质 | |
CN110992959A (zh) | 一种语音识别方法及系统 | |
CN116580706B (zh) | 一种基于人工智能的语音识别方法 | |
WO2023245389A1 (zh) | 歌曲生成方法、装置、电子设备和存储介质 | |
US11615787B2 (en) | Dialogue system and method of controlling the same | |
CN114420169B (zh) | 情绪识别方法、装置及机器人 | |
CN106710588B (zh) | 语音数据句类识别方法和装置及系统 | |
CN111583965A (zh) | 一种语音情绪识别方法、装置、设备及存储介质 | |
CN109903780A (zh) | 哭声原因模型建立方法、系统及哭声原因辨别方法 | |
CN113838462A (zh) | 语音唤醒方法、装置、电子设备及计算机可读存储介质 | |
CN112818096A (zh) | 对话生成方法及其装置 | |
CN117219046A (zh) | 一种交互语音情感控制方法及系统 | |
CN114595692A (zh) | 一种情绪识别方法、系统及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |