CN110647651A

CN110647651A - 基于卷积神经网络的表情识别音乐推荐系统

Info

Publication number: CN110647651A
Application number: CN201910885911.XA
Authority: CN
Inventors: 曹玲; 李云; 张炜
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2020-01-03

Abstract

本发明公开了基于卷积神经网络的表情识别音乐推荐系统，属于智能推荐技术领域，包括通过网络进行通讯的客户端和服务端，所述客户端包括图片上传模块和音乐播放模块，所述服务端包括图片预处理模块、人脸检测模块、表情识别模块、音乐推荐模块。本发明将卷积神经网络技术应用于表情识别并根据识别的表情结果推荐适合用户的音乐，可用于医疗方面如心理诊疗，使病人情绪放松，提高治疗效果；或应用于商场、饭店等公共场所的音乐选择，提高顾客消费体验。

Description

基于卷积神经网络的表情识别音乐推荐系统

技术领域

本发明涉及智能推荐技术领域，具体涉及基于卷积神经网络的表情识别音乐推荐系统。

背景技术

表情识别作为计算机人工智能和模式识别领域的研究方向已经逐渐应用于人机交互、在线教学等实际场景。表情识别是计算机以人的角度分析人脸的特征，区分人脸的表情。研究人员将人类的表情分为6种基本情感：愤怒、恶心、害怕、开心、难过和惊喜。整个表情识别过程通常分成图像预处理、图像特征提取、表情分类三个部分，其中特征提取是整个过程中最核心的部分。国内外的研究者对于表情识别的研究多集中在特征提取算法的研究和改进上，现有技术对于6种基本的表情识别准确率能达到80％以上。卷积神经网络技术由于在人脸识别、图像分类、表情识别等的迅速应用，基于卷积神经网络的表情识别技术已经逐渐应用于实际场景，并且取得了比较好的识别效果。

一般的音乐推荐系统多为面向个人进行音乐推荐，推荐的方法主要有两类：一是基于内容的推荐，通过分析歌曲的底层特征提取音色、节奏等音乐特征，然后对比相似度，将内容相近的歌曲放入播放列表，这种方法耗时比较长，无法实现实时推荐，而且与个人喜好关联不大，推荐效果不够理想；另一种方法是基于用户画像的推荐，这类方法一般需要用户注册，填入必要的信息，如年龄、性别、国籍、喜欢的歌手等信息，然后根据用户的动态行为如快进、重复播放某一首歌曲来分析用户的喜好，为用户进行推荐，这种方法需要收集用户的喜好信息，一般相对固定，在用户喜好或心情发生变化时，推荐的音乐也无法实时满足用户的需要。

发明内容

针对上述存在的技术不足，本发明的目的是提供基于卷积神经网络的表情识别音乐推荐系统，将卷积神经网络技术应用于表情识别并根据识别的表情结果推荐适合用户的音乐，可用于医疗方面如心理诊疗，使病人情绪放松，提高治疗效果；或应用于商场、饭店等公共场所的音乐选择，提高顾客消费体验。

为解决上述技术问题，本发明采用如下技术方案：

本发明提供基于卷积神经网络的表情识别音乐推荐系统，包括通过网络进行通讯的客户端和服务端，所述的客户端包括图片上传模块和音乐播放模块，所述服务端包括图片预处理模块、人脸检测模块、表情识别模块、音乐推荐模块；

所述图片上传模块用于将客户端的人脸图片上传至服务端；

所述图片预处理模块用于对所述客户端上传的人脸图片进行尺寸修改和压缩，以满足识别人脸对图片的要求；

所述人脸检测模块用于检测、切割、保存所述客户端上传的人脸图片中的表情图片；所述人脸检测模块通过以下方法检测人脸图片中的表情图片：判断是否存在人脸，若存在人脸，则根据人脸个数信息及其位置信息进行表情图片的切割和保存，通过调用Face++提供的API接口，向服务端发送请求，通过分析服务端返回的数据结果，获取人脸图片中人脸的个数并且定位人脸在人脸图片上的位置；如果请求失败或者不存在人脸，即人脸个数为空给出错误提示，否则对每一张人脸进行图片分割保存，并将人脸图片列表返回给表情识别模块。

所述表情识别模块用于准确、快速识别所述表情图片中的表情信息，并将所述的表情信息发送给音乐推荐模块；鉴于用户上传的人脸图片可能包含多个人脸信息，所以要对每一个人的人脸进行表情识别，依据某种类型的表情所占比重进行识别结果汇总并分析，默认选取比重最大的为最具有代表性的表情，作为表情识别的结果发送给音乐推荐功能模块；详细实现过程如下：

(1)训练模型准备：为便于分析对比准确率，本设计方案采用两种训练模型,一种是基于LeNet5并增加其深度形成LeNet7模型,另一种是基于DenseNet模型改进的CliqueNet模型。数据集采用Fer2013人脸表情数据集，通过调整训练轮数等参数，分析对比两种模型的在训练集合测试集的准确率，获取效果更好的训练模型和训练轮数用作系统表情识别；

(2)图片处理：获得用户上传的图片后，首先将图像大小转换为48*48的尺寸并做平滑处理去除图片噪声，然后将图片转为灰度图；

(3)训练模型调用：在进行完图片预处理之后，进行表情识别首先要实例化一个数据流图并作为整个TensorFlow运行环境的默认图，通过创建一个会话，在会话中找到模型文件名加载训练模型，并计算和返回预测值；

(4)识别结果分析：如果图片中多个人脸，根据模型的输出结果，统计分析每一个人脸表情识别结果，并根据占比结果排序，将所占比重最大的表情结果作为默认表情，其他作为备选表情。

所述音乐推荐模块根据所述的表情信息推荐相关的音乐，并推送给音乐播放模块；根据表情推荐相关的音乐，系统实现音乐的在线播放，无需下载，在线抓取音乐的播放信息传递给音乐播放功能模块作为推荐的音乐，并提供音乐的重新推荐功能。

(1)音乐推荐策略：音乐推荐基于以下原则：当用户感到生气或者恶心时候，推荐安静类型和轻音乐类型的音乐安抚用户激动的情绪；当用户感到害怕和伤心时，推荐睡前音乐和治愈类的音乐，抚慰用户的情绪；当用户感到快乐或者平静时，推荐快乐类型和甜蜜类型的音乐，使原本快乐的用户保持快乐的心情，原本平静的用户变得快乐起来。

(2)获取网络歌单：通过网络爬虫爬取音乐网站提供的歌单分类字典，获取歌曲类型代码，由于每种类型的音乐有多个歌单，可以采取随机数法，随机抽取两个歌单组成歌单列表。然后提取歌单中的音乐，存储每首歌用来标识的唯一主键，为了加快系统的反应速度，综合用户需求考虑，限制每次为用户推荐的歌曲数量。

(3)获取歌曲信息：对于歌单中的每首歌，获取它们的播放信息，首先获取歌曲的唯一主键，以此获取歌曲播放所需的url、歌曲的歌词、歌曲名称、专辑名称、歌手名称、封面url，将这些信息打包存储，返回给音乐推荐主流程函数并返回给用户web页面。

所述音乐播放模块基于普通的音乐播放器，具有的功能包括播放和暂停按钮、点击歌单切换音乐、进度条拖动功能、声音大小调整、列表播放模式、列表收起与展开功能，用于播放音乐推荐模块推送的音乐。

本发明的有益效果在于：将卷积神经网络技术应用于表情识别并根据识别的表情结果推荐适合用户的音乐，可用于医疗方面如心理诊疗，使病人情绪放松，提高治疗效果；或应用于商场、饭店等公共场所的音乐选择，提高顾客消费体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的基于卷积神经网络的表情识别音乐推荐系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，基于卷积神经网络的表情识别音乐推荐系统，包括通过网络进行通讯的客户端和服务端，客户端包括图片上传模块和音乐播放模块，服务端包括图片预处理模块、人脸检测模块、表情识别模块、音乐推荐模块；

图片上传模块用于将客户端的人脸图片上传至服务端，图片预处理模块用于对客户端上传的人脸图片进行尺寸修改后进行压缩，以满足识别人脸对图片的要求；

人脸检测模块用于检测、切割、保存客户端上传的人脸图片中的表情图片，所述人脸检测模块通过以下方法检测人脸图片中的表情图片：判断是否存在人脸，若存在人脸，则根据人脸个数信息及其位置信息进行表情图片的切割和保存，通过调用Face++提供的API接口，向服务端发送请求，通过分析服务端返回的数据结果，获取人脸图片中人脸的个数并且定位人脸在人脸图片上的位置；如果请求失败或者不存在人脸，即人脸个数为空需要给出错误提示，否则对每一张人脸进行图片分割保存，并将人脸图片列表返回给表情识别模块；

表情识别模块用于准确、快速识别表情图片中的表情信息，并将表情信息发送给音乐推荐模块，鉴于用户上传的人脸图片可能包含多个人脸信息，所以要对每一个人的人脸进行表情识别，依据某种类型的表情所占比重进行识别结果汇总并分析，默认选取比重最大的为最具有代表性的表情，作为表情识别的结果发送给音乐推荐功能模块；详细实现过程如下：

(1)训练模型准备：为便于分析对比准确率，本设计方案采用两种训练模型,一种是基于LeNet5并增加其深度形成的LeNet7模型,另一种是基于DenseNet模型改进的CliqueNet模型。数据集采用Fer2013人脸表情数据集，共35886张夸张的人脸表情图片，每张图片是由大小固定为48×48的灰度图像组成，共有7种表情。通过调整训练轮数等参数，分析对比两种模型的在训练集合测试集的准确率，获取效果更好的训练模型和训练轮数用作系统表情识别；

(3)训练模型调用：在进行完图片预处理之后，进行表情识别首先要实例化一个数据流图并作为整个TensorFlow运行环境的默认图，通过创建一个会话，在该会话中找到模型文件名加载训练模型，并计算和返回预测值；

音乐推荐模块根据表情信息推荐相关的音乐，并推送给音乐播放模块，根据表情推荐相关的音乐，系统实现音乐的在线播放，无需下载，在线抓取音乐的播放信息传递给音乐播放功能模块作为推荐的音乐，并提供音乐的重新推荐功能。

音乐播放模块基于普通的音乐播放器，用于播放音乐推荐模块推送的音乐，具备普通音乐播放器所具有的功能，包括播放和暂停按钮、点击歌单切换音乐、进度条拖动功能、声音大小调整、列表播放模式、列表收起与展开功能，用于播放音乐推荐模块推送的音乐。

综上所述，本发明通过将卷积神经网络技术应用于表情识别并根据识别的表情结果推荐适合用户的音乐，可用于医疗方面如心理诊疗，使病人情绪放松，提高治疗效果；或应用于商场、饭店等公共场所的音乐选择，提高顾客消费体验。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.基于卷积神经网络的表情识别音乐推荐系统，包括通过网络进行通讯的客户端和服务端，其特征在于，所述的客户端包括图片上传模块和音乐播放模块，所述的服务端包括图片预处理模块、人脸检测模块、表情识别模块、音乐推荐模块；所述的图片上传模块用于将客户端的人脸图片上传至服务端，所述的图片预处理模块用于对所述客户端上传的人脸图片进行尺寸修改和压缩，以满足识别人脸对图片的要求，所述的人脸检测模块用于检测、切割、保存客户端上传的人脸图片中的表情图片，所述的表情识别模块用于准确、快速识别所述表情图片中的表情信息，并将所述的表情信息发送给音乐推荐模块，所述的音乐推荐模块根据所述的表情信息推荐相关的音乐，并推送给音乐播放模块，所述音乐播放模块基于普通的音乐播放器，用于播放音乐推荐模块推送的音乐。