CN110175526A - 狗情绪识别模型训练方法、装置、计算机设备及存储介质 - Google Patents

狗情绪识别模型训练方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110175526A
CN110175526A CN201910350198.9A CN201910350198A CN110175526A CN 110175526 A CN110175526 A CN 110175526A CN 201910350198 A CN201910350198 A CN 201910350198A CN 110175526 A CN110175526 A CN 110175526A
Authority
CN
China
Prior art keywords
dog
image
face
information
emotion identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910350198.9A
Other languages
English (en)
Other versions
CN110175526B (zh
Inventor
黄夕桐
王健宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910350198.9A priority Critical patent/CN110175526B/zh
Publication of CN110175526A publication Critical patent/CN110175526A/zh
Application granted granted Critical
Publication of CN110175526B publication Critical patent/CN110175526B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种狗情绪识别模型训练方法、装置、计算机设备及存储介质,所述方法包括:获取包含狗脸信息的视频信息和与之相对应的狗情绪信息,并对视频信息中的图像和声音进行分离,得到包含待识别图像的图像集合和待识别声音数据;对包含待识别图像的图像集合进行狗脸区域检测和狗脸微表情特征提取,得到时空域动态纹理特征;使用预设滤波器对待识别声音数据进行噪声过滤,得到狗声数据;将时空域动态纹理特征、狗声数据和狗情绪信息作为训练样本,并使用训练样本对预设的极限学习机分类器进行训练,得到狗情绪识别模型。本发明训练得到的多模态狗情绪识别模型,提高了对狗情绪识别的准确率。

Description

狗情绪识别模型训练方法、装置、计算机设备及存储介质
技术领域
本发明涉及信息处理领域,尤其涉及狗情绪识别模型训练方法、装置、计算机设备及存储介质。
背景技术
早在上古时期,狗就被人类驯服,并成为人类最亲密的伙伴。各种具有辅助功能的狗类陪伴着人类的发展,一直延续到现在。例如,导盲犬能作为向导,辅助视障人士日常出行;搜救犬能在火灾、地震等灾害环境中搜寻待救援者;缉毒犬能在复杂的环境中进行搜寻毒品;宠物犬能忠实的陪伴它的主人,等等。
狗与人类一样,具有丰富的情绪。如果可以实时、细致地识别出狗的情绪变化,则能掌握狗的需求,提高喂养、训练、医疗的效率,使得对于整个驯养过程具有重要意义。然而,目前对狗的情绪识别基本是依靠个人经验,不具有普遍性,并且存在识别率低的问题。
发明内容
本发明实施例提供一种狗情绪识别模型训练方法、装置、计算机设备及存储介质,以解决在对狗的情绪识别过程中,识别率低的问题。
一种狗情绪识别模型训练方法,包括:
获取包含狗脸信息的视频信息和与所述视频信息相对应的狗情绪信息,并对所述视频信息中的图像和声音进行分离,得到包含待识别图像的图像集合和待识别声音数据;
从所述图像集合包含的所述待识别图像中提取包含狗脸的图像区域;
使用预设回归模型对所述图像区域进行狗脸微表情检测,得到包含狗脸微表情的图像帧集合;
根据预设特征提取方法,对所述图像帧集合中每帧图像进行特征提取,并将所述每帧图像的提取结果进行组合,得到时空域动态纹理特征;
使用预设滤波器对所述待识别声音数据进行噪声过滤,得到狗声数据;
将所述时空域动态纹理特征、所述狗声数据和所述狗情绪信息作为训练样本,并使用所述训练样本对预设的极限学习机分类器进行训练,得到狗情绪识别模型。
一种狗情绪识别模型训练装置,包括:
数据采集模块,用于获取包含狗脸信息的视频信息和与所述视频信息相对应的狗情绪信息,并对所述视频信息中的图像和声音进行分离,得到包含待识别图像的图像集合和待识别声音数据;
区域定位模块,用于从所述图像集合包含的所述待识别图像中提取包含狗脸的图像区域;
微表情检测模块,用于使用预设回归模型对所述图像区域进行狗脸微表情检测,得到包含狗脸微表情的图像帧集合;
特征提取模块,用于根据预设特征提取方法,对所述图像帧集合中每帧图像进行特征提取,并将所述每帧图像的提取结果进行组合,得到时空域动态纹理特征;
过滤模块,用于使用预设滤波器对所述待识别声音数据进行噪声过滤,得到狗声数据;
训练模块,用于将所述时空域动态纹理特征、所述狗声数据和所述狗情绪信息作为训练样本,并使用所述训练样本对预设的极限学习机分类器进行训练,得到狗情绪识别模型。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述狗情绪识别模型训练方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述狗情绪识别模型训练方法。
上述狗情绪识别模型训练方法、装置、计算机设备及存储介质,在训练样本的收集阶段,获取包含狗脸信息的视频信息,以及与视频信息相对应的狗情绪信息,并将视频信息中的图像和声音进行分离,得到包含待识别图像的图像集合和待识别声音数据;对于包含待识别图像的图像集合,提取其中包含狗脸的图像区域,即去除图像中与狗脸无关的背景信息,减少了图像噪声的干扰,为检测狗脸微表情提供基础数据;使用预设回归模型对图像区域进行狗脸微表情检测,得到包含狗脸微表情的图像帧集合,即从基础数据中获取适合进行特征提取的部分;根据预设特征提取方法,从图像帧集合中的每帧图像中提取到时空域动态纹理特征,即以时空域动态纹理特征作为体现狗脸微表情特征的信息;对于待识别声音数据,使用预设滤波器进行噪声过滤,得到狗声数据;然后将时空域动态纹理特征、狗声数据和狗情绪信息作为训练样本,并使用训练样本对预设的极限学习机分类器进行训练,得到狗情绪识别模型,其中,以预设的极限学习机分类器作为基础模型,提高了模型训练的速度和效率;并且,利用了狗情绪与与狗脸微表情、狗声的密切关系,将三者结合起来作为训练样本,由此训练得到的基于多模态的狗情绪识别模型,能提高对狗情绪识别的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中狗情绪识别模型训练方法的一应用环境示意图;
图2是本发明一实施例中狗情绪识别模型训练方法的流程图;
图3是本发明一实施例中狗情绪识别模型训练方法中步骤S2的流程图;
图4是本发明一实施例中狗情绪识别模型训练方法中步骤S3的流程图;
图5是本发明一实施例中狗情绪识别模型训练方法中步骤S4的流程图;
图6是本发明一实施例中狗情绪识别模型训练方法中图像降噪的流程图;
图7是本发明一实施例中狗情绪识别模型训练装置的示意图;
图8是本发明一实施例中计算机设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的狗情绪识别模型训练方法,可应用在如图1的应用环境中,其中,服务端进行狗情绪识别模型训练的计算机设备,服务端可以是服务器或服务器集群;客户端是采集原始样本数据的计算机终端设备,包括但不限于手机APP、平板电脑、PC机等;数据库是存储训练数据的数据库系统,包括但不限于MS-SQL、Oracle、MySQL、Sybase、DB2、Redis、MongodDB、Hbase等;客户端与服务端之间、服务端与数据库之间通过网络连接,网络可以是有线网络或无线网络。本发明实施例提供的狗情绪识别模型训练方法应用于服务端。
在一实施例中,如图2所示,提供了一种狗情绪识别模型训练方法,其具体实现流程包括如下步骤:
S1:获取包含狗脸信息的视频信息和与视频信息相对应的狗情绪信息,并对视频信息中的图像和声音进行分离,得到包含待识别图像的图像集合和待识别声音数据。
视频信息,具体可以是客户端录制的视频,如手机摄像头录制的自家狗的视频文件,视频中包含狗的面部,包括但不限于正面、侧面或其他角度。
与视频信息相对应的狗情绪信息,是对狗当前行为所反映的狗情绪的数据表示。狗情绪信息包括但不限于高兴、兴奋、警戒、攻击状态、悲伤等。
狗情绪信息可以表示为数据标签,以代表该段视频信息中狗的情绪。
狗情绪信息可以由狗驯养专家给出,并作为后续训练过程中监督学习的输入数据。其中,监督学习,是利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,即狗情绪信息将作为已知类别的样本。
待识别图的图像集合,是对视频中的图像和声音进行分离后得到图像数据。
待识别声音数据,是对对视频中的图像和声音进行分离后得到的声音部分。待识别声音数据中可以包括当时狗的叫声。
具体地,狗驯养专家通过手机的摄像头录制狗的视频,并通过客户端提交到服务端。其中,在提交过程中,狗驯养专家可以对与该段视频信息相对应的狗情绪进行描述,作为狗情绪信息,然后与视频信息一起提交到服务端。
在服务端,服务端先将获取到的包含狗脸信息的视频信息和与视频信息相对应的狗情绪信息进行关联存储,保存到预设数据库中。其中,关联存储即可以通过查询狗情绪信息,得到与之对应的视频信息,或者,通过查询视频信息,得到与之相对应的狗情绪信息。
服务端对视频信息中的图像和声音做分离处理,可以根据视频文件的格式标准对视频文件进行解码,从而得到图像部分和声音部分。例如,若视频文件为3GP格式,则服务端可以根据3GP的格式标准对视频文件进行解码,得到待识别声音数据和除声音数据之外的视频部分。其中,3GP,是MPEG-4Part 14(MP4)格式的一种简化版本,常用于智能终端设备的视频录制。
服务端对除声音数据之外的视频部分进行分帧处理,即可得到包含待识别图像的图像集合。
其中,分帧处理,是按照预设时间间隔对除声音数据之外的视频部分进行切分,得到若干张图片。例如,服务端以每0.5秒为间隔,通过调用OpenGL的图像处理接口对除声音数据之外的视频部分进行切分,得到的图片集合即构成包含待识别图像的图像集合。OpenGL,即Open Graphics Library,开放图形库,是由近350个不同的函数调用组成的跨平台应用程序编程接口。
S2:从图像集合包含的待识别图像中提取包含狗脸的图像区域。
包含狗脸的图像区域,即以狗面部为中心,去掉其他背景信息的部分。其中,狗面部包括狗的脸部正面以及各种角度的侧面,同时,由于狗耳朵的竖起或垂下也能反应狗的情绪状态,因此,狗脸的部分还包括狗的耳朵部分。例如,以矩形区域对包含各个角度狗脸的部分进行标记,作为包含狗脸的图像区域。
具体地,服务端可以使用预设边缘检测算法对图像集合中的每张待识别图像进行边缘检测,从而提取到包含狗脸的图像区域。例如,服务端可以使用拉普拉斯算子对待识别图像进行边缘检测,从而得到包含狗脸的图像区域。
S3:使用预设回归模型对图像区域进行狗脸微表情检测,得到包含狗脸微表情的图像帧集合。
狗脸微表情检测,即从图像区域中提取符合狗脸微表情特征提取要求的区域。其中,狗脸微表情特征提取要求,是指以狗面部正对摄像头为零度,狗面部向左或向右转动的夹角小于或等于四十五度的图像区域。
包含狗脸微表情的图像帧集合,即通过狗脸微表情检测后,由符合狗脸微表情特征提取要求的区域所在的待识别图像组成的集合。
回归模型,是对统计关系进行定量描述的一种数学模型,它可以反映自变量与因变量之间的映射关系,即,可以通过自变量的变化而预测因变量的值。
通过回归模型,服务端可以从包含狗脸的图像区域中检测出包含狗脸微表情的部分。
具体地,服务端以每张待识别图像中包含狗脸的图像区域为预设回归模型的自变量,以包含狗脸微表情的区域作为预设回归模型的因变量,使用预设回归模型根据自变量的值对因变量进行估值,即可得到符合狗脸微表情特征提取要求的区域,并将该区域所在的待识别图像进行标记,作为图像帧。可以理解地,将包含符合狗脸微表情特征提取要求的区域的图像帧组合起来,即可构成包含狗脸微表情的图像帧集合。
其中,预设回归模型可以包括但不限于线性回归模型、正态分布模型、伽马分布模型、韦伯分布模型、疲劳寿命分布模型等。
S4:根据预设特征提取方法,对图像帧集合中每帧图像进行特征提取,并将每帧图像的提取结果进行组合,得到时空域动态纹理特征。
特征提取,即服务端从图像中提取反应狗脸微表情特征的信息,该特征信息能作为判断当前状态下的狗情绪的数据参考。
时空域动态纹理特征,是从时间和空间的综合角度,对狗脸微表情特征的数据表示。其中,时间是指在视频信息的时间范围内;空间是指视频信息被分离成图像和声音后,图像帧集合的范围内。具体地,时空域动态纹理特征可以是骨架特征。其中,骨架特征是对图像进行骨架特征提取后得到的数据,骨架特征提取,是一种图像处理中的特征提取方法,即旨在提取图像上以目标像素区域为中心的轮廓区域,该轮廓区域构成骨架特征。
例如,由于狗鼻部分比人类的更加向前凸出,因此,从正面来看,狗脸部面积比人脸更小。在对狗面部进行骨架特征提取时,服务端可以以狗鼻为中心,根据狗鼻周围像素点颜色的变化确定狗脸的长宽范围,并且根据代表狗舌头的像素点的颜色区分狗是否在吐舌。与之类似的,由于狗耳的位置与人耳的位置不同,狗耳的耳根位置在狗眼的上部,而人耳的耳根几乎与人眼齐平,因此,服务端可以以狗眼为中心,根据狗眼周围像素点颜色的变化确定狗耳的状态是竖起或是垂下。
预设特征提取方法,可以为由服务端对图像帧集合中每帧图像进行骨架特征提取,然后根据预设狗脸特征向量对提取结果进行过滤,将过滤后得到骨架特征按照图像帧的先后顺序进行组合,得到时空域动态纹理特征。
其中,预设狗脸特征向量是根据狗脸特征而预先建立的数据集合。由于狗脸特征与人脸不同,其区别包括但不限于以下几个方面:
1)狗耳的位置与人耳的位置不同,即狗耳的耳根位置在狗眼的上部,而人耳的耳根几乎与人眼齐平;
2)随着狗品种的不同,狗耳的大小各异,而人耳大大小具有固定的比例。例如,若是耳朵下垂型的狗类,其耳长或覆盖面积向下要超过嘴、甚至整个下颌;若不是耳朵下垂型的狗类,则耳朵部分在头部偏上的位置;
3)由于狗的毛发和眉毛接近,狗的眉毛不如人类眉毛容易辨识;
4)狗鼻部分比人类的更加向前凸出,从正面来看,狗脸部面积比人脸更小;
5)狗脸部布满毛发,狗面部纹理不如人脸面部纹理均匀;
6)狗在张嘴时的特征与人不同,即狗在张嘴时,或伸出舌头;或露出尖牙;
因此,预设狗脸特征向量体现了狗脸特征的特点,能用于对提取结果进行过滤。例如,狗面部纹理不如人脸面部纹理均匀,则预设狗脸特征向量中体现面部纹理均匀度的分量的值要低于与之相对应的人脸特征向量中的分量;狗在张嘴时的特征与人不同,则预设狗脸特征向量中体现脸部轮廓区域的分量的值也与与之相对应的人脸特征向量中的分量不同。
具体地,预设狗脸特征向量可以以骨架特征的形式表示。若服务端在Python环境中进行骨架提取,则可以引用morphology子模块对每帧图像进行图像骨架特征提取处理,得到表示狗脸部分的目标特征向量;然后,服务端将目标特征向量与预设狗脸特征向量进行比较,并根据比较结果一致的目标特征向量所在图像帧的先后顺序进行组合,得到时空域动态纹理特征。
S5:使用预设滤波器对待识别声音数据进行噪声过滤,得到狗声数据。
待识别声音数据中包含有噪音和狗叫声,因此,服务端需要对待识别声音数据进行过滤,将噪声去除,得到狗声数据。
狗声能够反映狗的情绪。例如,狗叫声发出连续低沉或近乎是抽泣的鼻音时,则表示情绪悲伤或痛苦,代表狗此时可能是生病或受伤;当狗声出现连续高声或短促的叫声,则代表报警或惊吓等;当狗声出现音调变低、音节拖长、且沉重时,则代表示处于攻击或警戒状态;当狗声出现短促的低音调声,则代表高兴或向主人有所需求。
狗叫声的频率在452HZ到1800HZ之间,属于低频到中频。服务端可以采用滤波器对待识别声音数据进行过滤,将狗叫声频率之外的声音数据作为噪音过滤掉。其中,滤波器,是用于信号处理的工具,它只允许一定频率范围内的信号成分正常通过,而阻止另一部分频率成分通过。
具体地,与电子电路构成的滤波器不同,本实施例中采用的滤波器是基于数学公式的数据处理函数。例如,预设滤波器可以为基于离散傅里叶变换的数据处理函数。除此之外,预设滤波器还包括但不限于基于离散余弦变换的数据处理函数、基于离散小波变换的数据处理函数,等。服务端将待识别声音数据输入到预设滤波器中,并监控输出数据的信噪比,将频率在狗叫声频率之外的数据过滤掉,从而得到狗声数据。其中,信噪比,即Singal-Noise Ratio,是放大器的输出信号的功率与同时输出的噪声功率的比值,常常用分贝数表示。
S6:将时空域动态纹理特征、狗声数据和狗情绪信息作为训练样本,并使用训练样本对预设的极限学习机分类器进行训练,得到狗情绪识别模型。
极限学习机分类器,即Extreme Learning Machine,ELM分类器,是一类以基于前馈神经网络(feedforward neuron network)的机器学习算法为基础的分类器。
极限学习机分类器能随机产生隐层结点参数,并利用得到的外权决定输出结果,大大简化了传统神经网络复杂的迭代过程,其在准确率和计算速度方面具有良好的表现。一个基本的极限学习机分类器可以表达如下:
f(y)=h(x)×β
其中,h(x)是隐层结点输出;x,y是训练样本;β是连接隐含结点和输出结点的权重向量;f(y)是输出结果;可以理解地,训练样本x与时空域动态纹理特征和狗声数据相对应,训练样本y与狗情绪信息相对应。
由于狗脸微表情识别是非线性多分类识别,即包括狗脸部特征和声音数据部分,数据量非常大,因此,使用ELM分类器进行训练,在速度和准确率方面均高于传统的SVM分类器。其中,SVM,即support vector machine,支持向量机,是定义在特征空间上间隔最大的线性分类器。
具体地,服务端将时空域动态纹理特征、狗声数据和狗情绪信息作为训练样本输入到预设的基本极限学习机分类器中,并检测极限学习机分类器的输出,直到输出的值趋于收敛时,可以确定h(x)中隐层结点的数量和层数,以及β的值,从而得到狗情绪识别模型。
在本实施例中,在训练样本的收集阶段,获取包含狗脸信息的视频信息,以及与视频信息相对应的狗情绪信息,并将视频信息中的图像和声音进行分离,得到包含待识别图像的图像集合和待识别声音数据;对于包含待识别图像的图像集合,提取其中包含狗脸的图像区域,即去除图像中与狗脸无关的背景信息,减少了图像噪声的干扰,为检测狗脸微表情提供基础数据;使用预设回归模型对图像区域进行狗脸微表情检测,得到包含狗脸微表情的图像帧集合,即从基础数据中获取适合进行特征提取的部分;根据预设特征提取方法,从图像帧集合中的每帧图像中提取到时空域动态纹理特征,即以时空域动态纹理特征作为体现狗脸微表情特征的信息;对于待识别声音数据,使用预设滤波器进行噪声过滤,得到狗声数据;然后将时空域动态纹理特征、狗声数据和狗情绪信息作为训练样本,并使用训练样本对预设的极限学习机分类器进行训练,得到狗情绪识别模型,其中,以预设的极限学习机分类器作为基础模型,提高了模型训练的速度和效率;并且,利用了狗情绪与与狗脸微表情、狗声的密切关系,将三者结合起来作为训练样本,由此训练得到的基于多模态的狗情绪识别模型,能提高对狗情绪识别的准确率。
进一步地,在一实施例中,如图3所示,针对步骤S2,即从图像集合包含的待识别图像中提取包含狗脸的图像区域,具体包括如下步骤:
S21:使用预设自适应增强分类器对图像集合包含的待识别图像进行狗脸区域标记,得到包含狗脸的矩形区域。
预设自适应增强分类器可以是基于Adaboost算法的分类器。其中,Adaboost,是英文“Adaptive Boosting”(自适应增强)的缩写;Adaboost算法是一种迭代算法,其核心思想是针对同一个训练集,训练出不同的分类器,称为弱分类器;然后把这些弱分类器级联起来,构成一个最终分类器,即强分类器。
具体地,服务端将待识别图像输入到基于Adaboost算法的分类器中,分类器将待识别图像划分成若干尺寸规则的正方形区域,如划分成4*4像素的正方形区域;并将每个正方形区域与分类器中的预设狗脸毛发纹理部分进行比较,若两者相似,则确定该正方形区域为狗脸部分;若两者不相似,则将该正方形区域作为狗脸之外的背景信息舍弃。可以理解地,经过对待识别图像中每个正方形区域的比较,可以得到包含狗脸的矩形区域。
其中,基于Adaboost算法的分类器可以通过对包含狗脸毛发纹理部分的、尺寸规则的正方形图片进行训练得到。例如,以代表不同狗类毛发纹理部分的4*4像素图片作为训练样本,对一个预设若分类器进行训练,然后将训练好的弱分类器进行级联得到最终分类器。
S22:根据预设像素插值方法,对矩形区域进行插值计算,得到包括狗脸的图像区域。
由于待识别图像中狗脸部分可能具有不同的朝向,使得包含狗脸的矩形区域尺寸大小不一;因此,服务端需要对包含狗脸区域进行标记后的待识别图像进行裁剪,得到归一化的包括狗脸的图像区域,以便于后续处理。
像素插值方法,即图像插值方法,是对低分辨率图像进行像素补偿,生成高分辨率图像的过程。图象插值方法包括但不限于,最近邻插值法,双线性插值法,双平方插值法,双立方插值法等。预设像素插值方法,可以采取其中任何一种。
具体地,服务端可以采用双线性差值算法实现图像的尺寸归一化,从而得到尺寸大小一致的包括狗脸的图像区域,例如,均是180*180像素的图片。其中,双线性插值作为数值分析中的一种插值算法,广泛应用在信号处理,数字图像和视频处理等方面。
在本实施例中,服务端通过预设自适应增强分类器对待识别图像进行分类,确定每张待识别图像中包含狗脸的矩形区域;然后,通过预设像素插值算法,将不同尺寸的包含狗脸的矩形区域归一化为同一的尺寸,为后续狗脸微表情检测和特征提取提供了标准化的训练样本,减少了背景信息和图片尺寸不一对狗脸微表情检测和特征提取的干扰。
进一步地,在一实施例中,如图4所示,针对步骤S3,即使用预设回归模型对图像区域进行狗脸微表情检测,得到包含狗脸微表情的图像帧集合,具体包括如下步骤:
S31:根据预设分布曲线的分布函数建立回归模型。
预设分布曲线,是以变数值为横坐标,以累积频率或概率为纵坐标的曲线图,即概率分布函数的图形。
分布函数,是随机变量最重要的概率特征,分布函数可以完整地描述随机变量的统计规律,并且决定随机变量的一切其他概率特征。
分布曲线与分布函数一一对应,回归模型与分布曲线一一对应。
若预设回归模型为正态分布模型、伽马分布模型、韦伯分布模型或疲劳寿命分布中的任一一种,则服务端可以根据正态分布曲线、伽马分布曲线、韦伯分布曲线或疲劳寿命分布曲线对应的分布函数建立回归模型。
具体地,服务端可以从服务端本地的预设配置文件中获取预设分布曲线的种类,并以与分布曲线相对应的分布函数作为回归模型的基本函数,从而实现建立回归模型。
S32:使用回归模型对图像区域中狗脸微表情的出现时间和结束时间进行区间估计,得到包括狗脸微表情的开始帧,持续帧和结束帧,并将开始帧、持续帧和结束帧作为图像帧集合。
区间估计,用于确定图像集合中狗脸微表情出现的位置和结束的位置,其中,狗脸微表情出现的位置即对应了视频信息中,狗脸微表情出现的时间和消失的时间。
开始帧,即狗脸微表情在图像集合中出现的第一帧图像;结束帧,即狗脸微表情在图像集合中出现的最后一帧图像;持续帧,即开始帧与结束帧之间的图像。可以理解地,图像集合中狗脸微表情可能是分段出现的,即包括若干段由开始帧,持续帧和结束帧组成的图像帧集合。
具体地,以根据疲劳寿命分布曲线的分布函数建立起的回归模型为例,服务端将回归模型中的时间轴与图像帧集合的时间轴对应,将回归模型中的频率或概率轴与图像帧集合中每个图像区域中狗脸微表情的区域大小对应,由此,服务端可以根据回归模型中频率或概率轴的取值大小,确定每个图像区域中狗脸微表情的区域大小,即,若频率或概率值超过预设阈值的,代表该图像帧中出现了狗脸微表情;反之,则没有出现狗脸微表情。其中,预设阈值是用于判断狗脸微表情出现概率的临界值,例如可以设定为70%,即代表狗脸微表情出现的概率为70%。
可以理解地,服务端根据回归模型对狗脸微表情的出现和结束位置进行区间估计,得到包括狗脸微表情的开始帧,持续帧和结束帧,并将开始帧、持续帧和结束帧组合起来即构成图像帧集合。
在本实施例中,服务端根据预设分布曲线的分布函数建立回归模型,并根据回归模型对图像区域中狗脸微表情的出现时间和结束时间进行区间估计,从而确定狗脸微表情的开始和结束位置,从而得到图像帧集合,其中,通过回归模型进行区间估计,增加了狗脸微表情检测的准确率。
进一步地,在一实施例中,如图5所示,针对步骤S4,即根据预设特征提取方法,对图像帧集合中每帧图像进行特征提取,并将每帧图像的提取结果进行组合,得到时空域动态纹理特征,具体包括如下步骤:
S41:按照基于三个正交面的集中化二值算法,将图像帧集合划分成三个正交面,并将每个正交面分成至少两个非重叠的子块。
基于三个正交面的集中化二值算法,即CBP-TOP(Centralized Binary Patternsfrom Three Orthogonal Panels)算法,是一种将视频数据划分为三个正交面后,对每个平面进行特征提取的算法。其中,划分的三个正交面分别为XY、XT和YT三个正交切面。CBP-TOP算法是将一个视频或图像帧集合看作由一些在XY平面上,沿T轴方向上的堆栈构成,同时,也可以将其看作由是一些XT平面在,沿Y轴上的堆栈,或一些YT平面上,沿X轴上的堆栈构成。因此,根据CBP-TOP算法,服务端可以把图像帧集合作为由三个正交面构成的的长方体进行切分。
具体地,服务端将图像帧集合划分为XY、XT和YT三个正交切面;其中,XY平面代表图像帧集合中目标的形变信息,以及在目标在XT平面和YT平面的运动信息,目标即待提取特征的狗脸微表情部分。然后,服务端可以根据预设子块的大小将每个正交面进行切分,例如,若预设子块大小为16×16个像素,则服务端按照预设子块的像素大小依次分割每个正交面,得到非重叠的子块。
S42:根据基于三个正交面的集中化二值算法对每个子块进行特征提取,得到基于三个正交面的集中化二值特征。
具体地,在每个正交面中处于中间部分的图像上的像素点,都可以看作是XY,YT和YT这三个正交平面的交点,因此,服务端在对每个子块进行特征提取时,就以正交面的一幅处于序列中间部分的图像为基准,计算该图像上每个像素点作为中心像素点分别在XY、XT和YT三个正交平面上的环形邻域的CBP码,并以计算得到的CBP码作为基于三个正交面的集中化二值特征。其中,CBP码是表示当前子块亮度和色差值的数据编码。
S43:根据基于三个正交面的集中化二值特征计算每个正交面的直方图。
直方图(Histogram),又称质量分布图,是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。每个正交面的直方图,即每个正交面中,基于三个正交面的集中化二值特征出现频数的分布直方图。
具体地,服务端将在XY、XT和YT三个正交平面上提取到的基于三个正交面的集中化二值特征出现的频率进行直方图统计,分别记作XY-CBP,XT-CBP和YT-CBP,即得到每个正交面的直方图。
S44:将每个正交面的直方图进行组合,得到时空域动态纹理特征。
具体地,服务端将每个正交面的直方图串联起来,形成一个直方图,即将XY-CBP,XT-CBP和YT-CBP组成一个向量,得到时空域动态纹理特征向量,并以此时空域动态纹理特征向量作为时空域动态纹理特征。一个时空域动态纹理特征可以表示为向量H={XY-CBP,XT-CBP,YT-CBP}。
在本实施例中,服务端按照基于三个正交面的集中化二值模型将图像帧集合切分成三个正交平面,并对每个平面进行特征提取,将提取到的结果组合成时空域动态纹理特征,使得得到的时空域动态纹理特征能更准确的体现狗脸微表情的特点,同时,降低了对白色噪音的敏感性。
进一步地,在一实施例中,在步骤S5之后,并且在步骤S6之前,即在使用预设滤波器对所述待识别声音数据进行噪声过滤,得到狗声数据的步骤之后,并且在将所述时空域动态纹理特征、所述狗声数据和所述狗情绪信息作为训练样本,并使用所述训练样本对预设的极限学习机分类器进行训练,得到狗情绪识别模型的步骤之前,还包括步骤:
S7:对狗声数据进行声纹特征提取,得到狗的声纹特征信息。
狗的声纹有各自的特点,即同品种的狗,其声纹特征也是不同的。因此,可以根据狗声纹特征的不同,可以实现对狗身份的识别。
狗的声纹特征可以通过狗叫声的节奏变化,以及叫声音频的高低起伏来确定。例如,节奏变化包括在一定时间内,狗连续叫声的次数、时间间隔和速度等;叫声音频的高低起伏包括声音频谱、共振峰等。因此,狗的声纹特征信息,具体可以表示为反应声音频率高低的一组向量。
具体地,服务端对狗声数据中音频数据的频率高低和时间间隔进行采样,并将采样结果作为狗的声纹特征信息。或者,服务端可以根据梅尔频率倒谱系数对狗声数据进行处理,得到狗声纹特征信息。其中,梅尔频率倒谱(Mel Frequency CepstrumCoefficient,MFCC),是在声音处理领域中,基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换。
同时,在步骤S6中,将所述时空域动态纹理特征、所述狗声数据和所述狗情绪信息作为训练样本,还包括:
S61:将时空域动态纹理特征、狗声数据、狗情绪信息和声纹特征信息作为训练样本。
服务端在具体训练过程中,将时空域动态纹理特征、狗声数据、狗情绪信息和声纹特征信息均作为训练样本,其具体训练过程与步骤S6相同,此处不再赘述。
在本实施例中,服务端对狗声数据进行声纹特征提取,得到狗的声纹特征信息,并以此作为新增的训练样本进行训练。由于加入了声纹特征作为训练样本,使得训练得到的狗情绪识别模型能在识别一般狗情绪的基础上,增加了对狗的身份进行识别的功能。
进一步地,在一实施例中,在步骤S1之后,并且在步骤S2之前,即在获取包含狗脸信息的视频信息和与视频信息相对应的狗情绪信息,并对视频信息中的图像和声音进行分离,得到包含待识别图像的图像集合和待识别声音数据的步骤之后,并且在从图像集合包含的待识别图像中提取包含狗脸的图像区域的步骤之前,具体包括如下步骤:
S8:对图像集合中的待识别图像进行降噪处理,其中,降噪处理用于消除待识别图像中的噪点。
降噪处理,是图像处理中的术语,即去除图像中的噪声信息,其中,噪声又可成为噪点。
由于在现实中,数字图像在数字化和传输过程中常受到成像设备与外部环境噪声干扰等影响,使得图像中包括影响图像质量的杂质,因此,服务端有必要对待识别图像进行降噪处理,以提高后图像检测过程中的处理精度。
具体地,服务端可以使用预设滤波函数对图像集合中的每张待识别图像进行噪点过滤,从而消除待识别图像中的噪点,达到降噪处理的目的。
在本实施例中,服务端对图像集合中的待识别图像进行降噪处理,消除待识别图像中的噪点,可以提高图像检测过程中的处理精度。
进一步地,在一实施例中,针对步骤S9,即对图像集合中的待识别图像进行降噪处理,具体包括如下步骤:
S81:对图像集合中的待识别图像进行小波变换,得到转换域图像信息,其中,转换域图像信息中包括小波系数。
小波变换,是一种新的变换分析方法,它继承和发展了短时傅立叶变换局部化的思想,同时又克服了窗口大小不随频率变化等缺点,能够提供一个随频率改变的“时间-频率”窗口,是进行信号时频分析和处理的理想工具。
转换域图像信息,是原始图像经过小波变换处理之后得到的信息。其中,原始图像即本实施例中图像集合中的待识别图像。
小波系数,是对一个给定信号进行小波变换后,将该信号按某一小波函数簇展开所得到的值。其中,给定信号即本实施例中图像集合中的待识别图像;小波函数即小波变换中使用到的数学函数。
具体地,服务端可以通过小波变换函数对图像集合中的待识别图像进行处理,得到的结果即为转换域图像信息。
S82:将小波系数与预设系数阈值进行比较,并将小波系数低于预设系数阈值的小波系数删除,以更新转换域图像信息。
预设系数阈值,是针对降噪的需要,为小波系数预设的临界值,以判断小波系数所对应于空间域的像素点是否属于噪点。例如,预设系数阈值可以设为0.5,即若小波系数低于0.5,则该小波系数所对应于空间域的像素点属于噪点,可以被过滤掉,以达到降噪的目的。
具体地,服务端将转换域图像信息中的小波系数与预设系数阈值进行比较,将小波系数低于预设系数阈值的小波系数删除,使得转换域图像信息只保留了高于预设系数阈值的小波系数,从而实现对转换域图像信息的更新。
S83:对更新后的转换域图像信息进行反小波变换,得到降噪处理后的待识别图像。
反小波变换,是小波变换的逆运算,即,将转换域图像信息还原成空间域的图像信息,由于删除了转换域图像信息中的部分小波系数,使得还原后的图像信息中减少了噪点。
具体地,服务端使用小波变换的逆函数对更新后的转换域图像信息进行处理,即可得到降噪处理后的待识别图像。
在本实施例中,服务端使用小波变换对待识别图像进行降噪处理,利用了波变换中的变尺度特性对确定信号具有的集中能力,使得只要设置适当的系数阈值,即可实现快速降噪处理的目的,节省了服务端的计算资源。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种狗情绪识别模型训练装置,该狗情绪识别模型训练装置与上述实施例中狗情绪识别模型训练方法一一对应。如图7所示,该狗情绪识别模型训练装置包括数据采集模块71、区域定位模块72、微表情检测模块73、特征提取模块74、过滤模块75和训练模块76。各功能模块详细说明如下:
数据采集模块71,用于获取包含狗脸信息的视频信息和与视频信息相对应的狗情绪信息,并对视频信息中的图像和声音进行分离,得到包含待识别图像的图像集合和待识别声音数据;
区域定位模块72,用于从图像集合包含的待识别图像中提取包含狗脸的图像区域;
微表情检测模块73,用于使用预设回归模型对图像区域进行狗脸微表情检测,得到包含狗脸微表情的图像帧集合;
特征提取模块74,用于根据预设特征提取方法,对图像帧集合中每帧图像进行特征提取,并将每帧图像的提取结果进行组合,得到时空域动态纹理特征;
过滤模块75,用于使用预设滤波器对待识别声音数据进行噪声过滤,得到狗声数据;
训练模块76,用于将时空域动态纹理特征、狗声数据和狗情绪信息作为训练样本,并使用训练样本对预设的极限学习机分类器进行训练,得到狗情绪识别模型。
进一步地,区域定位模块72,包括:
标记子模块721,用于使用预设自适应增强分类器对图像集合包含的待识别图像进行狗脸区域标记,得到包含狗脸的矩形区域;
插值子模块722,用于根据预设像素插值方法,对矩形区域进行插值计算,得到包括狗脸的图像区域。
进一步地,微表情检测模块73,包括:
模型建立子模块731,用于根据预设分布曲线的分布函数建立回归模型;
检测子模块732,用于使用回归模型对图像区域中狗脸微表情的出现时间和结束时间进行区间估计,得到包括狗脸微表情的开始帧,持续帧和结束帧,并将开始帧、持续帧和结束帧作为图像帧集合。
进一步地,特征提取模块74,包括:
平面划分子模块741,用于按照基于三个正交面的集中化二值算法,将图像帧集合划分成三个正交面,并将每个正交面分成至少两个非重叠的子块;
特征提取子模块742,用于根据基于三个正交面的集中化二值算法对每个子块进行特征提取,得到基于三个正交面的集中化二值特征;
计算子模块743,用于根据基于三个正交面的集中化二值特征计算每个正交面的直方图;
组合子模块744,用于将每个正交面的直方图进行组合,得到时空域动态纹理特征。
进一步地,狗情绪识别模型训练装置,还包括:
声纹特征提取模块77,用于根据预设声纹特征类型,对狗声数据进行声纹特征提取,得到狗的声纹特征信息;
训练模块76,包括:
样本组合子模块761,用于将时空域动态纹理特征、狗声数据、狗情绪信息和声纹特征信息作为训练样本。
进一步地,狗情绪识别模型训练装置,还包括
降噪模块78,用于对图像集合中的待识别图像进行降噪处理,其中,降噪处理用于消除待识别图像中的噪点。
进一步地,降噪模块78,包括:
空域变换子模块781,用于对图像集合中的待识别图像进行小波变换,得到转换域图像信息,其中,转换域图像信息中包括小波系数;
系数比较子模块782,用于将小波系数与预设系数阈值进行比较,并将小波系数低于预设系数阈值的小波系数删除,以更新转换域图像信息;
空域反变换子模块783,用于对更新后的转换域图像信息进行反小波变换,得到降噪处理后的待识别图像。
关于狗情绪识别模型训练装置的具体限定可以参见上文中对于狗情绪识别模型训练方法的限定,在此不再赘述。上述狗情绪识别模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种狗情绪识别模型训练方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中狗情绪识别模型训练方法的步骤,例如图2所示的步骤S1至步骤S6。或者,处理器执行计算机程序时实现上述实施例中狗情绪识别模型训练装置的各模块/单元的功能,例如图7所示模块71至模块76的功能。为避免重复,这里不再赘述。
在一实施例中,提供一计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例中狗情绪识别模型训练方法,或者,该计算机程序被处理器执行时实现上述装置实施例中狗情绪识别模型训练装置中各模块/单元的功能。为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种狗情绪识别模型训练方法,其特征在于,所述狗情绪识别模型训练方法包括:
获取包含狗脸信息的视频信息和与所述视频信息相对应的狗情绪信息,并对所述视频信息中的图像和声音进行分离,得到包含待识别图像的图像集合和待识别声音数据;
从所述图像集合包含的所述待识别图像中提取包含狗脸的图像区域;
使用预设回归模型对所述图像区域进行狗脸微表情检测,得到包含狗脸微表情的图像帧集合;
根据预设特征提取方法,对所述图像帧集合中每帧图像进行特征提取,并将所述每帧图像的提取结果进行组合,得到时空域动态纹理特征;
使用预设滤波器对所述待识别声音数据进行噪声过滤,得到狗声数据;
将所述时空域动态纹理特征、所述狗声数据和所述狗情绪信息作为训练样本,并使用所述训练样本对预设的极限学习机分类器进行训练,得到狗情绪识别模型。
2.如权利要求1所述的狗情绪识别模型训练方法,其特征在于,所述从所述图像集合包含的所述待识别图像中提取包含狗脸的图像区域,包括:
使用预设自适应增强分类器对所述图像集合包含的所述待识别图像进行狗脸区域标记,得到包含所述狗脸的矩形区域;
根据预设像素插值方法,对所述矩形区域进行插值计算,得到所述包括狗脸的图像区域。
3.如权利要求1所述的狗情绪识别模型训练方法,其特征在于,所述使用预设回归模型对所述图像区域进行狗脸微表情检测,得到包含狗脸微表情的图像帧集合,包括:
根据预设分布曲线的分布函数建立所述回归模型;
使用所述回归模型对所述图像区域中狗脸微表情的出现时间和结束时间进行区间估计,得到包括所述狗脸微表情的开始帧,持续帧和结束帧,并将所述开始帧、持续帧和结束帧作为所述图像帧集合。
4.如权利要求1所述的狗情绪识别模型训练方法,其特征在于,所述根据预设特征提取方法,对所述图像帧集合中每帧图像进行特征提取,并将所述每帧图像的提取结果进行组合,得到时空域动态纹理特征,包括:
按照基于三个正交面的集中化二值算法,将所述图像帧集合划分成三个正交面,并将每个所述正交面分成至少两个非重叠的子块;
根据所述基于三个正交面的集中化二值算法对每个所述子块进行特征提取,得到基于三个正交面的集中化二值特征;
根据所述基于三个正交面的集中化二值特征计算每个所述正交面的直方图;
将每个所述正交面的直方图进行组合,得到时空域动态纹理特征。
5.如权利要求1所述的狗情绪识别模型训练方法,其特征在于,所述使用预设滤波器对所述待识别声音数据进行噪声过滤,得到狗声数据之后,并且在所述将所述时空域动态纹理特征、所述狗声数据和所述狗情绪信息作为训练样本,并使用所述训练样本对预设的极限学习机分类器进行训练,得到狗情绪识别模型之前,所述狗情绪识别模型训练方法,还包括:
根据预设声纹特征类型,对所述狗声数据进行声纹特征提取,得到狗的声纹特征信息;
所述将所述时空域动态纹理特征、所述狗声数据和所述狗情绪信息作为训练样本,包括:
将所述时空域动态纹理特征、所述狗声数据、所述狗情绪信息和所述声纹特征信息作为训练样本。
6.如权利要求1所述的狗情绪识别模型训练方法,其特征在于,在所述获取包含狗脸信息的视频信息和与所述视频信息相对应的狗情绪信息,并对所述视频信息中的图像和声音进行分离,得到包含待识别图像的图像集合和待识别声音数据之后,并且在所述从所述图像集合包含的所述待识别图像中提取包含狗脸的图像区域之前,所述狗情绪识别模型训练方法,还包括:
对所述图像集合中的待识别图像进行降噪处理,其中,所述降噪处理用于消除所述待识别图像中的噪点。
7.如权利要求6所述的狗情绪识别模型训练方法,其特征在于,所述对所述图像集合中的待识别图像进行降噪处理,包括:
对所述图像集合中的待识别图像进行小波变换,得到转换域图像信息,其中,所述转换域图像信息包括小波系数;
将所述小波系数与预设系数阈值进行比较,并将低于所述预设系数阈值的小波系数删除,以更新所述转换域图像信息;
对更新后的所述转换域图像信息进行反小波变换,得到所述降噪处理后的待识别图像。
8.一种狗情绪识别模型训练装置,其特征在于,所述狗情绪识别模型训练装置,包括:
数据采集模块,用于获取包含狗脸信息的视频信息和与所述视频信息相对应的狗情绪信息,并对所述视频信息中的图像和声音进行分离,得到包含待识别图像的图像集合和待识别声音数据;
区域定位模块,用于从所述图像集合包含的所述待识别图像中提取包含狗脸的图像区域;
微表情检测模块,用于使用预设回归模型对所述图像区域进行狗脸微表情检测,得到包含狗脸微表情的图像帧集合;
特征提取模块,用于根据预设特征提取方法,对所述图像帧集合中每帧图像进行特征提取,并将所述每帧图像的提取结果进行组合,得到时空域动态纹理特征;
过滤模块,用于使用预设滤波器对所述待识别声音数据进行噪声过滤,得到狗声数据;
训练模块,用于将所述时空域动态纹理特征、所述狗声数据和所述狗情绪信息作为训练样本,并使用所述训练样本对预设的极限学习机分类器进行训练,得到狗情绪识别模型。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述狗情绪识别模型训练方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述狗情绪识别模型训练方法。
CN201910350198.9A 2019-04-28 2019-04-28 狗情绪识别模型训练方法、装置、计算机设备及存储介质 Active CN110175526B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910350198.9A CN110175526B (zh) 2019-04-28 2019-04-28 狗情绪识别模型训练方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910350198.9A CN110175526B (zh) 2019-04-28 2019-04-28 狗情绪识别模型训练方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN110175526A true CN110175526A (zh) 2019-08-27
CN110175526B CN110175526B (zh) 2024-06-21

Family

ID=67690198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910350198.9A Active CN110175526B (zh) 2019-04-28 2019-04-28 狗情绪识别模型训练方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110175526B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109272986A (zh) * 2018-08-29 2019-01-25 昆明理工大学 一种基于人工神经网络的狗声音情感分类方法
CN110765849A (zh) * 2019-09-09 2020-02-07 中国平安财产保险股份有限公司 基于微表情的身份信息采集方法、装置和计算机设备
CN110852198A (zh) * 2019-10-27 2020-02-28 恒大智慧科技有限公司 防止智慧社区内宠物狗袭击的控制方法、设备及存储介质
CN112528920A (zh) * 2020-12-21 2021-03-19 杭州格像科技有限公司 一种基于深度残差网络的宠物图像情绪识别方法
CN112699774A (zh) * 2020-12-28 2021-04-23 深延科技(北京)有限公司 视频中人物的情绪识别方法及装置、计算机设备及介质
CN112704024A (zh) * 2020-12-30 2021-04-27 安徽四创电子股份有限公司 一种基于物联网的宠物狗紧急安抚系统
CN113344198A (zh) * 2021-06-09 2021-09-03 北京三快在线科技有限公司 一种模型训练的方法及装置
CN114001744A (zh) * 2020-07-27 2022-02-01 中移(苏州)软件技术有限公司 一种信息处理方法、系统、设备和计算机存储介质
CN114626430A (zh) * 2021-12-30 2022-06-14 华院计算技术(上海)股份有限公司 情绪识别模型的训练方法、情绪识别方法、设备及介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298981A (zh) * 2014-11-05 2015-01-21 河北工业大学 人脸微表情的识别方法
CN105139004A (zh) * 2015-09-23 2015-12-09 河北工业大学 基于视频序列的人脸表情识别方法
CN106127196A (zh) * 2016-09-14 2016-11-16 河北工业大学 基于动态纹理特征的人脸表情的分类与识别方法
CN106548149A (zh) * 2016-10-26 2017-03-29 河北工业大学 监控视频序列中人脸微表情图像序列的识别方法
CN108509893A (zh) * 2018-03-28 2018-09-07 深圳创维-Rgb电子有限公司 基于微表情识别的影视评分方法、存储介质及智能终端
CN108764010A (zh) * 2018-03-23 2018-11-06 姜涵予 情绪状态确定方法及装置
CN109033477A (zh) * 2018-09-12 2018-12-18 广州粤创富科技有限公司 一种宠物情绪识别方法及装置
CN109190487A (zh) * 2018-08-07 2019-01-11 平安科技(深圳)有限公司 人脸情绪识别方法、装置、计算机设备及存储介质
CN109426765A (zh) * 2017-08-23 2019-03-05 厦门雅迅网络股份有限公司 驾驶危险情绪提醒方法、终端设备及存储介质
US20190082211A1 (en) * 2016-02-10 2019-03-14 Nitin Vats Producing realistic body movement using body Images

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298981A (zh) * 2014-11-05 2015-01-21 河北工业大学 人脸微表情的识别方法
CN105139004A (zh) * 2015-09-23 2015-12-09 河北工业大学 基于视频序列的人脸表情识别方法
US20190082211A1 (en) * 2016-02-10 2019-03-14 Nitin Vats Producing realistic body movement using body Images
CN106127196A (zh) * 2016-09-14 2016-11-16 河北工业大学 基于动态纹理特征的人脸表情的分类与识别方法
CN106548149A (zh) * 2016-10-26 2017-03-29 河北工业大学 监控视频序列中人脸微表情图像序列的识别方法
CN109426765A (zh) * 2017-08-23 2019-03-05 厦门雅迅网络股份有限公司 驾驶危险情绪提醒方法、终端设备及存储介质
CN108764010A (zh) * 2018-03-23 2018-11-06 姜涵予 情绪状态确定方法及装置
CN108509893A (zh) * 2018-03-28 2018-09-07 深圳创维-Rgb电子有限公司 基于微表情识别的影视评分方法、存储介质及智能终端
CN109190487A (zh) * 2018-08-07 2019-01-11 平安科技(深圳)有限公司 人脸情绪识别方法、装置、计算机设备及存储介质
CN109033477A (zh) * 2018-09-12 2018-12-18 广州粤创富科技有限公司 一种宠物情绪识别方法及装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109272986A (zh) * 2018-08-29 2019-01-25 昆明理工大学 一种基于人工神经网络的狗声音情感分类方法
CN110765849A (zh) * 2019-09-09 2020-02-07 中国平安财产保险股份有限公司 基于微表情的身份信息采集方法、装置和计算机设备
CN110765849B (zh) * 2019-09-09 2024-04-09 中国平安财产保险股份有限公司 基于微表情的身份信息采集方法、装置和计算机设备
CN110852198A (zh) * 2019-10-27 2020-02-28 恒大智慧科技有限公司 防止智慧社区内宠物狗袭击的控制方法、设备及存储介质
CN114001744A (zh) * 2020-07-27 2022-02-01 中移(苏州)软件技术有限公司 一种信息处理方法、系统、设备和计算机存储介质
CN112528920A (zh) * 2020-12-21 2021-03-19 杭州格像科技有限公司 一种基于深度残差网络的宠物图像情绪识别方法
CN112699774A (zh) * 2020-12-28 2021-04-23 深延科技(北京)有限公司 视频中人物的情绪识别方法及装置、计算机设备及介质
CN112699774B (zh) * 2020-12-28 2024-05-24 深延科技(北京)有限公司 视频中人物的情绪识别方法及装置、计算机设备及介质
CN112704024A (zh) * 2020-12-30 2021-04-27 安徽四创电子股份有限公司 一种基于物联网的宠物狗紧急安抚系统
CN113344198A (zh) * 2021-06-09 2021-09-03 北京三快在线科技有限公司 一种模型训练的方法及装置
CN113344198B (zh) * 2021-06-09 2022-08-26 北京三快在线科技有限公司 一种模型训练的方法及装置
CN114626430A (zh) * 2021-12-30 2022-06-14 华院计算技术(上海)股份有限公司 情绪识别模型的训练方法、情绪识别方法、设备及介质

Also Published As

Publication number Publication date
CN110175526B (zh) 2024-06-21

Similar Documents

Publication Publication Date Title
CN110175526A (zh) 狗情绪识别模型训练方法、装置、计算机设备及存储介质
Ozer et al. Noise robust sound event classification with convolutional neural network
CN111370020B (zh) 一种将语音转换成唇形的方法、系统、装置和存储介质
Hossain et al. An emotion recognition system for mobile applications
US10319130B2 (en) Anonymization of facial images
CN108804453B (zh) 一种视音频识别方法及装置
CN107679572B (zh) 一种图像判别方法、存储设备及移动终端
CN111160533A (zh) 一种基于跨分辨率知识蒸馏的神经网络加速方法
CN108269254A (zh) 图像质量评估方法和装置
CN111339813B (zh) 人脸属性识别方法、装置、电子设备和存储介质
CN110047510A (zh) 音频识别方法、装置、计算机设备及存储介质
CN104346503A (zh) 一种基于人脸图像的情感健康监控方法及手机
CN107341464A (zh) 一种用于提供交友对象的方法、设备及系统
Zhao et al. Applying contrast-limited adaptive histogram equalization and integral projection for facial feature enhancement and detection
Jachimski et al. A comparative study of English viseme recognition methods and algorithms
CN107944398A (zh) 基于深度特征联合表示图像集人脸识别方法、装置和介质
CN109766419A (zh) 基于语音分析的产品推荐方法、装置、设备及存储介质
CN110163169A (zh) 人脸识别方法、装置、电子设备及存储介质
CN111401169A (zh) 基于监控视频信息的供电营业厅服务人员行为识别方法
CN114639150A (zh) 情绪识别方法、装置、计算机设备和存储介质
CN111091840A (zh) 一种建立性别识别模型的方法及性别识别方法
CN113707175A (zh) 基于特征分解分类器与自适应后处理的声学事件检测系统
CN113673465A (zh) 图像检测方法、装置、设备及可读存储介质
CN111932056A (zh) 客服质量评分方法、装置、计算机设备和存储介质
CN111369559A (zh) 妆容评估方法、装置、化妆镜和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant