CN107066514A

CN107066514A - 老年人的情绪识别方法和系统

Info

Publication number: CN107066514A
Application number: CN201710057964.3A
Authority: CN
Inventors: 袁克虹
Original assignee: Friends Of Shenzhen Science And Technology Co Ltd
Current assignee: Friends Of Shenzhen Science And Technology Co Ltd
Priority date: 2017-01-23
Filing date: 2017-01-23
Publication date: 2017-08-18

Abstract

本发明提供一种老年人的情绪识别方法和系统，该方法包括：获取语音信息和图像信息；处理该语音信息，获取梅尔频率倒谱系数；处理该图像信息，获取表情图像；根据所述梅尔频率倒谱系数，按照预设的语音分类规则将获取的语音信息进行分类，获取语音情绪类别；以及根据预设的表情分类网络模型，提取所述表情图像的分类特征，根据该分类特征获取图片情绪类别。根据获取的语音信息和图像信息识别用户的语音情绪和图片情绪，从而从语音和表情两个方面了解到用户的当前的情绪，更加客观、准确的识别用户的情绪，本发明对老年用户来说具有重要意义，及时的发现老年人的情绪，特别是负面情绪，从而及时的了解老年人的身心状况，及时准确的关怀老年人。

Description

老年人的情绪识别方法和系统

技术领域

本发明涉及信号处理技术领域，尤其涉及一种老年人的情绪识别方法和系统。

背景技术

情绪是一种综合了人的感觉、思想和行为的状态，它包括人对外界或自身刺激的心理反应，也包括伴随这种心理反应的生理反应。人类的情绪与身心健康密切关系，如果人类长期处于焦虑、忧愁、悲伤、恼怒、压抑等状态下，可能导致神经分裂、高血压、心脏病、溃疡、胃病和癌症等多种疾病，一般称为心因性疾病，因此掌握一个人，特别是老人的情绪情况，对于掌握身心状况非常有利。

情绪识别分析，对于老人，特别是失能和空巢老人，具有很大的价值。随着中国社会老龄化的加剧，以及大城市对年轻人就业、教育等方面的吸引力，空巢老人这一特殊群体势必会成为社会的普遍现象。但这一群体虽然正逐渐受到社会的关注，却依然缺乏有效的方式来为空巢老人提供及时的健康监管以及心理慰藉。通过情绪分析，能够实时反映出老人的情绪状况，并及时反馈给相关医务人员和子女，让他们更能了解父母的情绪，从而增加对老人的关心和及时的治疗。而在这一领域，我国市场上还没有相应成熟完善的产品和服务。

因此，如何提供一种更加客观、准确的老年人的情绪识别方法和系统，成为本领域亟需解决的问题。

发明内容

本发明的目的是提供一种更加客观、准确的老年人的情绪识别方法和系统。

本发明的目的是通过以下技术方案来实现的：

一种老年人的情绪识别方法，包括：

获取语音信息和图像信息；

处理该语音信息，获取梅尔频率倒谱系数；处理该图像信息，获取表情图像；

根据所述梅尔频率倒谱系数，按照预设的语音分类规则将获取的语音信息进行分类，获取语音情绪类别；以及根据预设的表情分类网络模型，提取所述表情图像的分类特征，根据该分类特征获取图片情绪类别。

优选的，所述方法进一步包括语音分类规则的建立步骤，具体包括：

根据语音数据库获取不同语音情绪类别所对应的梅尔频率倒谱系数的参数值。

优选的，所述方法进一步包括：对获取的不同语音情绪类别所对应的梅尔频率倒谱系数的参数值进行校正处理。

优选的，所述方法进一步包括表情分类网络模型的建立步骤，具体包括：根据人脸表情数据，使用人脸识别深度学习网络，获取不同图片情绪类别所对应的分类特征。

优选的，所述方法进一步包括：对获取的不同图片情绪类别所对应的分类特征进行校正处理。

优选的，所述处理该语音信息的步骤至少包括：对该语音信息进行去噪处理、语音增强处理和端点检测处理。

优选的，所述处理该图像信息的步骤至少包括：对该图像信息进行人脸检测识别，获取人脸图像，根据该人脸图像获取表情图像。

优选的，所述语音情绪类别至少包括正常、无力、哀愁和愤怒。

优选的，所述图片情绪类别至少包括正常、焦虑、忧伤、怀疑、愤怒和恐惧。

本发明公开一种老年人的情绪识别系统，包括：

获取模块，用于获取语音信息和表情图像；

处理模块，用于处理该语音信息，获取梅尔频率倒谱系数；处理该图像信息，获取表情图像；

分类模块，用于根据所述梅尔频率倒谱系数，按照预设的语音分类规则将获取的语音信息进行分类，获取语音情绪类别；以及根据预设的表情分类网络模型，提取所述表情图像的分类特征，根据该分类特征获取图片情绪类别。

本发明的老年人的情绪识别方法包括，获取语音信息和图像信息；处理该语音信息，获取梅尔频率倒谱系数；处理该图像信息，获取表情图像；根据所述梅尔频率倒谱系数，按照预设的语音分类规则将获取的语音信息进行分类，获取语音情绪类别；以及根据预设的表情分类网络模型，提取所述表情图像的分类特征，根据该分类特征获取图片情绪类别。采用这种方式，就可以通过分析计算获取语音信息的梅尔频率倒谱系数，再根据梅尔频率倒谱系数和预设的语音分类规则将该语音信息进行分类，获取语音情绪类别；通过分析图像信息获取表情图像，再根据表情分类网络模型提取表情图像的分类特征，然后根据该分类特征获取图片情绪类别；这样就可以根据获取的语音信息和图像信息识别用户的语音情绪和图片情绪，从而从语音和表情两个方面了解到用户的当前的情绪，更加客观、准确的识别用户的情绪，从而可以及时了解到用户的情绪状况，及时发现用户的情绪问题，早发现早治疗，及时预防，在用户出现情绪崩溃等恶劣状况之前及时采取措施防止情况的恶化，及时治疗。对用户，特别是老年用户来说具有重要意义，采用这种方式可以更加及时的发现老年人的情绪，特别是负面情绪，可以更加及时的了解、关心老年人的身心状况，及时准确的关怀老年人。

附图说明

图1是本发明实施例的老年人的情绪识别方法的流程图；

图2是本发明实施例的老年人的情绪识别方法另一实施方式的流程图；

图3是本发明实施例的老年人的情绪识别系统的示意图；

图4是本发明实施例的老年人的情绪识别系统另一实施方式的示意图。

具体实施方式

虽然流程图将各项操作描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。各项操作的顺序可以被重新安排。当其操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

计算机设备包括用户设备与网络设备。其中，用户设备或客户端包括但不限于电脑、智能手机、PDA等；网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云。计算机设备可单独运行来实现本发明，也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。

在这里可能使用了术语“第一”、“第二”等等来描述各个单元，但是这些单元不应当受这些术语限制，使用这些术语仅仅是为了将一个单元与另一个单元进行区分。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。当一个单元被称为“连接”或“耦合”到另一单元时，其可以直接连接或耦合到所述另一单元，或者可以存在中间单元。

这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指，否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是，这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在，而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。

下面结合附图和较佳的实施例对本发明作进一步说明。

如图1所示，本实施例中公开一种老年人的情绪识别方法，包括：

S110、获取语音信息和图像信息；

S120、处理该语音信息，获取梅尔频率倒谱系数；处理该图像信息，获取表情图像；

S130、根据所述梅尔频率倒谱系数，按照预设的语音分类规则将获取的语音信息进行分类，获取语音情绪类别；以及根据预设的表情分类网络模型，提取所述表情图像的分类特征，根据该分类特征获取图片情绪类别。

采用这种方式，就可以通过分析计算获取语音信息的梅尔频率倒谱系数，再根据梅尔频率倒谱系数和预设的语音分类规则将该语音信息进行分类，获取语音情绪类别；通过分析图像信息获取表情图像，再根据表情分类网络模型提取表情图像的分类特征，然后根据该分类特征获取图片情绪类别。这样就可以根据获取的语音信息和图像信息识别用户的语音情绪和图片情绪，从而从语音和表情两个方面了解到用户的当前的情绪，更加客观、准确的识别用户的情绪，从而可以及时了解到用户的情绪状况，及时发现用户的情绪问题，早发现早治疗，及时预防，在用户出现情绪崩溃等恶劣状况之前及时采取措施防止情况的恶化，及时治疗。对用户，特别是老年用户来说具有重要意义，采用这种方式可以更加及时的发现老年人的情绪，特别是负面情绪，可以更加及时的了解、关心老年人的身心状况，及时准确的关怀老年人。

本实施例中的老年人，按照国际规定，65周岁以上的人确定为老年；在中国，60周岁以上的公民为老年人。不同的文化圈对于老年人有着不同的定义，由于生命的周期是一个渐变的过程，壮年到老年的分界线往往是很模糊的。本实施例中为清楚说明，并且结合中国实际情况，按照中国普遍定义，设60周岁以上的公民为老年人。

本实施例中，语音信息和图像信息的获取可以通过手机、平板等电子设备，或单独设置的录音笔、摄像头等。当然，获取这些信息的设备具有接入互联网的功能为优，这样可以在识别情绪后及时传输，便于及时了解到用户的情绪状况。这些设备可设置在老年人的身边，如设置在房间的内，或为老年人随身携带的手机、呼叫机等等设备。

具体的，梅尔频率倒谱系数，又称为MFCC(Mel Frequency CepstralCoefficents)、Mel频率倒谱系数(Mel-Frequency Cepstral Coefficients)，是一种在自动语音和说话人识别中广泛使用的特征。语音被分为很多帧，每帧语音都对应于一个频谱(通过短时FFT计算)，频谱表示频率与能量的关系。本实施例中，提取MFCC特征的过程：

1)先对语音进行预加重、分帧和加窗；

2)对每一个短时分析窗，通过FFT(Fast Fourier Transformation，离散傅氏变换的快速算法)得到对应的频谱；

3)将上面的频谱通过Mel滤波器组得到Mel频谱；

4)在Mel频谱上面进行倒谱分析，获得Mel频率倒谱系数MFCC，这个MFCC就是这帧语音的特征；

其中倒谱分析包括：取对数，做逆变换，实际逆变换一般是通过DCT离散余弦变换来实现，取DCT后的第2个到第13个系数作为MFCC系数。

具体的，倒谱分析的过程包括：

1)将原语音信号经过傅里叶变换得到频谱：X[k]＝H[k]E[k]；

只考虑幅度就是：|X[k]|＝|H[k]||E[k]|；

2)在两边取对数：log||X[k]||＝log||H[k]||+log||E[k]||；

3)再在两边取逆傅里叶变换得到：x[k]＝h[k]+e[k]。

x[k]实际上就是倒谱，而h[k]就是倒谱的低频部分。h[k]描述了频谱的包络，它在语音识别中被广泛用于描述特征。

本实施例中，示例的，如图2所示，本方法进一步包括语音分类规则的建立步骤，具体包括：

S101、根据语音数据库获取不同语音情绪类别所对应的梅尔频率倒谱系数的参数值。

其中，语音数据库中包括大量语音数据，可以对这些语音数据提取MFCC系数，并根据人工或机器的筛选出该语音数据所对应的语音情绪类别，从而将MFCC系数与语音情绪类别进行对应，在匹配了大量的MFCC系数与语音情绪类别之后，就可以得到不同的情绪类别对应的MFCC系数的参数值，该参数值可以是一个数值范围，或零散的数值，当然为更好的识别语音情绪，优选为数值范围。这样得到了MFCC系数与语音情绪类别的对应关系后，就可以根据获取的语音信息的MFCC系数识别该用户的语音情绪类别。

具体的，S101中进一步包括：S102、对获取的不同语音情绪类别所对应的梅尔频率倒谱系数的参数值进行校正处理。这样在将MFCC系数与语音情绪类别进行对应后，如果人工核对后认为有误，可以对MFCC系数的参数值进行调整，例如调整数值范围中的上限或下限，也可以追加特殊的数值等等。

本实施例中，语音情绪类别至少包括正常、无力、哀愁和愤怒。这种方式下，可以为，“正常”的情绪类别对应的为第一个MFCC系数的区间，“无力”的情绪类别对应的为第二个MFCC系数的区间，“哀愁”的情绪类别对应的为第三个MFCC系数的区间，“愤怒”的情绪类别对应的为第四个MFCC系数的区间。当然，语音情绪类别还可以包括其他情绪，例如欢乐、大笑等等，本实施例中特别针对老年人的情绪识别，因此更加注重可能引起老年人抑郁等情况的情绪，以便更加及时的发现老年人的情绪，特别是负面情绪。

根据其中一个示例，处理该语音信息的步骤至少包括：对该语音信息进行去噪处理、语音增强处理和端点检测处理。这样就可以让语音信息更加清晰，提取特征、获取MFCC系数更加准确。本实施例中可采用自适应平滑滤波器来对数据进行去噪处理，还可以对数据进行了归一化的操作。语音增强处理可以让语音的特征值更加明显，易于提取。端点检测是语音识别和语音处理的一个基本环节，也是语音识别研究的一个热点领域。技术的主要目的是从输入的语音中对语音和非语音进行区分，主要功能可以有：自动打断；去掉语音中的静音成分；获取输入语音中有效语音；去除噪声，对语音进行增强。

本实施例中，示例的，如图2所示，本方法进一步包括表情分类网络模型的建立步骤，具体包括：S103、根据人脸表情数据，使用人脸识别深度学习网络，获取不同图片情绪类别所对应的分类特征。

示例的，深度学习网络结构可采用caffe框架，调用matlab或python的caffe接口进行模型的训练和测试，系统环境可设为ubuntu14.04。人脸识别，是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像中检测和跟踪人脸，进而对检测到的人脸进行脸部的一系列相关技术，通常也叫做人像识别、面部识别。本实施例中使用的人脸表情数据可以是从人脸表情数据库中采集的，从而建立模型。人脸表情数据库可以是Affectiva-MIT Facial ExpressionDataset(AM-FED)、BP4D(Binghamton-Pittsburgh3D Dynamic Spontaneous FacialExpression Database)、DISFA(Denver Intensity of Spontaneous Facial ActionDatabase)等数据库。然后再利用现有的人脸识别的深度学习网络，例如VGG-Face CNN模型来试验，在此基础上加以改进，设计相应的表情分类网络模型。本实施中图片情绪类别至少包括正常、焦虑、忧伤、怀疑、愤怒和恐惧，因此可以根据上述图片情绪类别对人脸表情数据库中的人脸表情数据进行对应的分类，从而得到相应上述图片情绪类别的分类模型。当然，图片情绪类别还可以包括其他情绪，例如笑容等，本实施例中特别针对老年人的情绪识别，因此更加注重可能引起老年人抑郁等情况的情绪，以便更加及时的发现老年人的情绪，特别是负面情绪。

具体的，S103中进一步包括：S104、对获取的不同图片情绪类别所对应的分类特征进行校正处理。

这样就可以对建立的图片情绪类别的分类模型进行校正，可以是人工或机器校正，对其中的一些失误进行纠正处理，或者补充一些无法分类的表情等等。

根据其中另一个示例，处理该图像信息的步骤至少包括：对该图像信息进行人脸检测识别，获取人脸图像，根据该人脸图像获取表情图像。

具体的，图像的预处理可以包括：图像的大小和灰度的归一化，头部姿态的矫正，图像分割等。这样可以改善图像质量，消除噪声，统一图像灰度值及尺寸，为后序特征提取和分类识别打好基础。

然后进行特征提取：将点阵转化成更高级别图像表述，如形状、运动、颜色、纹理、空间结构等,在尽可能保证稳定性和识别率的前提下，对庞大的图像数据进行降维处理。

特征提取的主要方法有：提取几何特征、统计特征、频率域特征和运动特征等。

根据本实施例其中一个示例，如图3所示，本实施例公开一种老年人的情绪识别系统，包括：

获取模块210，用于获取语音信息和表情图像；

处理模块220，用于处理该语音信息，获取梅尔频率倒谱系数；处理该图像信息，获取表情图像；

分类模块230，用于根据所述梅尔频率倒谱系数，按照预设的语音分类规则将获取的语音信息进行分类，获取语音情绪类别；以及根据预设的表情分类网络模型，提取所述表情图像的分类特征，根据该分类特征获取图片情绪类别。

采用这种方式，就可以通过分析计算获取语音信息的梅尔频率倒谱系数，再根据梅尔频率倒谱系数和预设的语音分类规则将该语音信息进行分类，获取语音情绪类别；通过分析图像信息获取表情图像，再根据表情分类网络模型提取表情图像的分类特征，然后根据该分类特征获取图片情绪类别；这样就可以根据获取的语音信息和图像信息识别用户的语音情绪和图片情绪，从而从语音和表情两个方面了解到用户的当前的情绪，更加客观、准确的识别用户的情绪，从而可以及时了解到用户的情绪状况，及时发现用户的情绪问题，早发现早治疗，及时预防，在用户出现情绪崩溃等恶劣状况之前及时采取措施防止情况的恶化。对用户，特别是老年用户来说具有重要意义，采用这种方式可以更加及时的发现老年人的情绪，特别是负面情绪，可以更加及时的了解、关心老年人的身心状况，及时准确的关怀老年人。

本实施例中，语音信息和图像信息的获取可以通过手机、平板等电子设备，或单独设置的录音笔、摄像头等。当然，获取这些信息的设备具有接入互联网的功能为优，这样可以在识别情绪后及时传输，便于及时了解到用户的情绪状况。

关于梅尔频率倒谱系数的阐述如上述，不再赘述。

本实施例中，示例的，如图4所示，系统还包括语音分类规则建立模块201，具体用于：根据语音数据库获取不同语音情绪类别所对应的梅尔频率倒谱系数的参数值。

语音分类规则建立模块201进一步用于：对获取的不同语音情绪类别所对应的梅尔频率倒谱系数的参数值进行校正处理。

这样在将MFCC系数与语音情绪类别进行对应后，如果人工核对后认为有误，可以对MFCC系数的参数值进行调整，例如调整数值范围中的上限或下限，也可以追加特殊的数值等等。

本实施例中，示例的，如图4所示，系统还包括表情分类网络模型建立模块202，具体用于：根据人脸表情数据，使用人脸识别深度学习网络，获取不同图片情绪类别所对应的分类特征。

具体的，表情分类网络模型建立模块202进一步用于：对获取的不同图片情绪类别所对应的分类特征进行校正处理。

根据其中一个示例，处理模块220至少用于：对该语音信息进行去噪处理、语音增强处理和端点检测处理。这样就可以让语音信息更加清晰，提取特征、获取MFCC系数更加准确。本实施例中可采用自适应平滑滤波器来对数据进行去噪处理，还可以对数据进行了归一化的操作。语音增强处理可以让语音的特征值更加明显，易于提取。端点检测是语音识别和语音处理的一个基本环节，也是语音识别研究的一个热点领域。技术的主要目的是从输入的语音中对语音和非语音进行区分，主要功能可以有：自动打断；去掉语音中的静音成分；获取输入语音中有效语音；去除噪声，对语音进行增强。

根据其中另一个示例，处理模块220至少用于：对该图像信息进行人脸检测识别，获取人脸图像，根据该人脸图像获取表情图像。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种老年人的情绪识别方法，其特征在于，包括：获取语音信息和图像信息；

处理该语音信息，获取梅尔频率倒谱系数；

处理该图像信息，获取表情图像；

根据所述梅尔频率倒谱系数，并按照预设的语音分类规则将获取的语音信息进行分类，以获取语音情绪类别；以及

根据预设的表情分类网络模型，提取所述表情图像的分类特征，并根据该分类特征获取图片情绪类别。

2.根据权利要求1所述的老年人的情绪识别方法，其特征在于，所述老年人的情绪识别方法进一步包括：

语音分类规则的建立步骤，具体包括：根据语音数据库获取不同语音情绪类别所对应的梅尔频率倒谱系数的参数值。

3.根据权利要求2所述的老年人的情绪识别方法，其特征在于，所述老年人的情绪识别方法进一步包括：

对获取的不同语音情绪类别所对应的梅尔频率倒谱系数的参数值进行校正处理。

4.根据权利要求1所述的老年人的情绪识别方法，其特征在于，所述老年人的情绪识别方法进一步包括：表情分类网络模型的建立步骤，具体包括：根据人脸表情数据，使用人脸识别深度学习网络，获取不同图片情绪类别所对应的分类特征。

5.根据权利要求4所述的老年人的情绪识别方法，其特征在于，所述老年人的情绪识别方法进一步包括：对获取的不同图片情绪类别所对应的分类特征进行校正处理。

6.根据权利要求1所述的老年人的情绪识别方法，其特征在于，所述处理该语音信息的步骤至少包括：

对该语音信息进行去噪处理、语音增强处理和端点检测处理。

7.根据权利要求1所述的老年人的情绪识别方法，其特征在于，所述处理该图像信息的步骤至少包括：

对该图像信息进行人脸检测识别，以获取人脸图像，并根据该人脸图像获取表情图像。

8.根据权利要求1所述的老年人的情绪识别方法，其特征在于，所述语音情绪类别至少包括正常、无力、哀愁和愤怒。

9.根据权利要求1所述的老年人的情绪识别方法，其特征在于，所述图片情绪类别至少包括正常、焦虑、忧伤、怀疑、愤怒和恐惧。

10.一种老年人的情绪识别系统，其特征在于，包括：

获取模块，用于获取语音信息和表情图像；

处理模块，用于处理该语音信息，以获取梅尔频率倒谱系数，还用于处理该图像信息，以获取表情图像；以及

分类模块，用于根据所述梅尔频率倒谱系数，按照预设的语音分类规则将获取的语音信息进行分类，获取语音情绪类别，还用于根据预设的表情分类网络模型，提取所述表情图像的分类特征，根据该分类特征获取图片情绪类别。