CN110532421A

CN110532421A - 一种基于人的性别、心情和年龄的音乐推荐方法及系统

Info

Publication number: CN110532421A
Application number: CN201910814520.9A
Authority: CN
Inventors: 李楠
Original assignee: Dilu Technology Co Ltd
Current assignee: Dilu Technology Co Ltd
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2019-12-03

Abstract

本发明公开了一种基于人的性别、心情和年龄的音乐推荐方法及系统，包括以下步骤，采集模块采集图像并输入人脸检测模块中；所述人脸检测模块检测输入的所述图像中是否包含人脸图像，并将检测到的所述人脸图像进行处理，输出人脸框图像；将所述人脸框图像输入识别模块中，所述识别模块对所述人脸框图像进行分析并输出识别结果。所述识别结果送入推荐模块，所述推荐模块根据所述识别结果并采用推荐算法进行智能推荐。本发明的有益效果：本发明能够通过识别得到车内人员的性别、年龄和情绪，基于此数据进行智能音乐推荐，提高了推荐的智能化。

Description

一种基于人的性别、心情和年龄的音乐推荐方法及系统

技术领域

本发明涉及自动驾驶中人机交互的技术领域，尤其涉及一种基于人的性别、心情和年龄的音乐推荐方法及系统。

背景技术

在交通出行方面，当汽车加入AI技术，可以提升通行效率，这也是AI在车联网中的典型应用。路况监控摄像头、红绿灯、停车场等物联网数据与AI技术结合，可以更加合理地规划出行路线，实现互联互通，提升整体出行效率。

车载AI的核心竞争力是语音识别、副驾驶功能、用户体验。汽车中的娱乐设施、语音助手、空调等设备都可以与AI技术结合，从而更好地执行指令。汽车中还可以引入面部识别、步态识别等与AI有关的技术。通过这些与AI相关的应用，提升人与汽车、汽车与环境的交互体验。车载AI还有一个优势，通过不断使用车载AI，它会记住用户平时常做的选择，当你再进行同样的操作时，它会猜到你可能要做什么，这就极大的减少了操作量，智能的学习算法让车载AI给驾车带来了更多地便捷。汽车AI刚开始用时就像个什么都不太懂的小孩，但在长时间、高频次的互动后，海量精确的数据通过深度学习，将更加贴合用户的使用习惯。也就是说，汽车AI这个助理会越来越好用。

目前的车载AI的人际交互方面，主要集中在语音识别技术，用户可以通过语音发出指令信号，汽车终端识别用户语音指令，并做出相应的动作来满足用户的需求。比如现有的车载音乐控制系统、地图导航以及服务搜索系统、空调温度调节系统等等。然而，现有的车载娱乐推荐系统尚未考虑到利用驾驶员的性别、年龄、心情信息来预测用户的喜好，进而做出有效的推荐。目前的车载音乐推荐系统，大部分是随机推荐或需要用户登录外部音乐网站从而获取用户的信息再进行推荐，未考虑到车内人员的当前实际情况，缺乏针对性。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。

因此，本发明解决的一个技术问题是提供一种基于人的性别、心情和年龄的音乐推荐方法，能够根据采集模块采集到的图像，识别该图像对应车内人员的性别、年龄和情绪，然后根据识别结果，向车内人员推荐不同的音乐。

为解决上述技术问题，本发明提供如下技术方案：一种基于人的性别、心情和年龄的音乐推荐方法，包括以下步骤，采集模块采集图像并输入人脸检测模块中；所述人脸检测模块检测输入的所述图像中是否包含人脸图像，并将检测到的所述人脸图像进行处理，输出人脸框图像；将所述人脸框图像输入识别模块中，所述识别模块对所述人脸框图像进行分析并输出识别结果。所述识别结果送入推荐模块，所述推荐模块根据所述识别结果并采用推荐算法进行智能推荐。

作为本发明所述的基于人的性别、心情和年龄的音乐推荐方法的一种优选方案，其中：所述检测人脸图像是基于神经网络模型进行。

作为本发明所述的基于人的性别、心情和年龄的音乐推荐方法的一种优选方案，其中：所述识别模块包括性别识别模块、年龄识别模块和情绪识别模块，分别基于不同的深度学习神经网络架构训练得到，能够根据输入的所述人脸图像分析其对应车内人员的性别、年龄和情绪。

作为本发明所述的基于人的性别、心情和年龄的音乐推荐方法的一种优选方案，其中：所述识别模块的工作包括以下步骤，分别基于不同的神经网络架构构建性别识别模型、年龄识别模型和情绪识别模型；使用数据集分别对所述性别识别模型、所述年龄识别模型和所述情绪识别模型进行充分训练；将所述人脸图像分别输入所述性别识别模型、所述年龄识别模型和所述情绪识别模型中进行识别判断，并输出性别识别结果、年龄识别结果和情绪识别结果。

作为本发明所述的基于人的性别、心情和年龄的音乐推荐方法的一种优选方案，其中：所述输出的识别结果包括，性别识别结果，包括男或女；年龄识别结果，所述年龄识别结果为一自然数；情绪识别结果，包括生气、害怕、开心、中立、悲伤、惊讶和厌恶。

作为本发明所述的基于人的性别、心情和年龄的音乐推荐方法的一种优选方案，其中：所述推荐模块的工作包括以下步骤，推荐模块接收所述识别结果；根据所述识别结果，基于协同过滤算法推荐音乐并输出音乐列表。

作为本发明所述的基于人的性别、心情和年龄的音乐推荐方法的一种优选方案，其中：所述基于协同过滤算法推荐音乐包括以下步骤，对用户进行数据表示，生成最近邻居项目集，根据最近邻居对项目的评分信息分析当前用户对目标项的评价，从而产生推荐结果。

作为本发明所述的基于人的性别、心情和年龄的音乐推荐方法的一种优选方案，其中：所述生成最近邻居项目集是基于改进的余弦相似性计算用户之间的相似度。

本发明解决的另一个技术问题是提供一种基于人的性别、心情和年龄的音乐推荐系统，将上述基于人的性别、心情和年龄的音乐推荐方法应用于对不同用户进行不同的音乐推荐。

为解决上述技术问题，本发明提供如下技术方案：一种基于人的性别、心情和年龄的音乐推荐系统，包括，采集模块，所述采集模块用于采集车内人员的图像；人脸检测模块，所述人脸检测模块能够接收所述采集模块采集到的所述图像，检测其是否包括人脸图像，并处理所述人脸图像后输出人脸框图像；识别模块，所述识别模块与所述人脸检测模块相连接，所述人脸框图像输入所述识别模块中进行识别，得到识别结果；推荐模块，所述推荐模块与所述识别模块相连接，能够接收所述识别结果，并根据所述识别结果推荐音乐。

作为本发明所述的基于人的性别、心情和年龄的音乐推荐系统的一种优选方案，其中：所述识别模块包括性别识别模块、年龄预测模块和心情预测模块，分别用于识别车内人员的性别、年龄和心情；所述识别结果包括性别识别结果、年龄识别结果和情绪识别结果。

本发明的有益效果：本发明利用采集模块采集车内图像，并通过人脸检测模块检测和处理图像，将处理后的人脸图像输入识别模块中进行识别，输出识别结果至推荐模块，推荐模块根据图像对应车内人员的性别、年龄和情绪向其推荐不同的音乐，该方法能够辅助车载AI的人际交互系统，根据不同用户的情况，向其做出智能化、有针对性的音乐推荐。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明第一个实施例中所述基于人的性别、心情和年龄的音乐推荐方法的流程示意图；

图2为本发明第二个实施例中所述基于人的性别、心情和年龄的音乐推荐系统的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

目前车载AI的人际交互方面主要依赖于车内人员发出指令后做出响应，其智能化程度还比较有限。为了提升这一方面，考虑到不同的车内人员，其性别、年龄和情绪不同时，对应的喜好和需求也不同，若能够对此做出区分，就能够根据不同性别、年龄和情绪的车内人员，做出与之相适应的响应，提升人际交互装置的智能化程度。因此在本实施例中，提出了一种车内人员的性别、年龄和情绪智能识别方法，能够根据图像判断车内人员的性别、心情和年龄。

参照图1，本发明第一种实施例提供了一种基于人的性别、心情和年龄的音乐推荐方法，将该方法应用于根据人的性别、心情和年龄进行音乐推荐，具体的，该方法包括以下步骤，

步骤1：采集模块100采集图像101并输入人脸检测模块200中。具体的，采集模块100一般设置在车内，其采集到的图像101为实时图像。

步骤2：人脸检测模块200检测输入的图像101中是否包含人脸图像，并对其进行处理，输出处理后的人脸图像201。

本步骤中检测和处理人脸图像201是基于MTCNN网络模型，MTCNN算法是利用三层级联架构结合设计的卷积神经网络算法，能够对图像中的人脸进行检测和人脸关键点的粗略定位，实现人脸的检测与对齐。其中，三个网络结构分别是P-Net、R-Net和O-Net，人脸检测可以用来进行后续的人脸识别，人脸对齐能够找出人脸的眼睛，嘴，鼻子的位置。具体的，图像101的检测和处理包括以下步骤，

图像101进行scale操作，得到若干个不同scale的输入图像。其中，图像最基本的操作有三种，分别是scale，rotation和translation，对应尺度，旋转和平移，可以通过对图像的像素值或者像素的坐标运算来达到特定的效果。在本实施例中，对于输入的图像101进行scale操作，是对图像101的像素坐标做scale，具体如下：

其中，(x,y)为图像101中某个像素点变换前的坐标，(x′,y′)为其变换后的坐标，c、d的值可任选。

不同scale的输入图像输入P-NET中，输出是人脸的候选图像的集合。具体的，P-NET是一个全卷积网络，能够用来生成脸部候选窗和边框回归向量。基于边框回归向量来校正候选窗，并使用非极大值抑制(NMS)方法合并重叠的候选图像。

候选图像输入R-NET中进行筛选校准；所有的候选图像输入R-Net中，R-NET是一个全卷积网络，其作用在于能够进一步清除大量的从P-NET中输出的非脸部候选图像，R-NET使用边框回归向量进行校准和非极大值抑制方法进行合并，得到筛选后的图像。

R-NET中筛选后的图像输入O-Net中进行提取，通过边框回归向量和非极大值抑制方法处理图像，在这一步骤中会去除重复的人脸框，以及对图像中的人脸特征值进行回归精调并进行标记，输出最终的人脸图像201。

步骤3：将人脸图像201输入识别模块300中，识别模块300对输入的人脸图像201进行分析并输出识别结果400。识别模块300包括性别识别模块301、年龄识别模块302和心情识别模块303，分别能够根据输入的人脸图像201分析对应车内人员的性别、年龄和心情。输出的识别结果400包括性别识别结果401、年龄识别结果402和情绪识别结果403。其中，性别识别模块301和年龄识别模块302分别基于SSRNET网络架构训练得到，心情识别模块303基于VGG16网络框架训练得到。具体的，

识别模块300，包括性别识别模块301、年龄识别模块302和心情识别模块303，分别基于不同的深度学习神经网络架构训练得到。其中，性别识别模块301的工作包括以下步骤，

基于SSRNET网络架构构建性别识别模型。具体的，SSRNET网络包括两个平行的异构网络，对于这两个平行的异构网络，均分别包括卷积层、归一化层、非线性激活函数和池化层，其中，

卷积层内部包含多个卷积核，是通过不同的卷积核进行卷积操作得到的一组特征层，经过此操作的图像能够使得特征增强并降低噪声，是卷积神经网络中特征学习的最重要部分，在本实施例中，卷积层使用3*3的卷积核。

池化层通常用于缩减模型的大小，提高计算速度，同时提高所提取特征的鲁棒性，池化类型一般包括最大池化和平均池化，本实施例中中使用的是2*2的池化层，即将子矩阵的每2x2个元素变成一个元素。

不用类型的激活函数(如tanh函数、ReLU函数)和池化结构(如平均池化、最大池化)，被用于单个网络使其异构。通过该方式使异构网络得到不同的特征，并将其融合提升效果。

不同阶段采用不同级别的特征，对于每个阶段，来自两个异构网络某些级别的特征被送入融合模块中，融合模块负责生成阶段性的输出，包括分布偏移矢量和比例因子Δ_k(对于第k阶段)。在融合模块中，来自每个异构网络的特征通过1*1的卷积层，激活函数和池化层来获取更多的紧凑特征。为了获取Δ_k，获得的两个特征矩阵通过对应元素相乘进行融合。得到的结果经过一个全连接层，然后用tanh函数获取一个在[-1,1]的值作为Δ_k。其中，

和均为矢量，因此，特征在对应元素相乘前先经给一个预测模块。代表分布，ReLU函数作为激活函数用于获取正值，其中，

ReLU＝max(0,x)

另一方面，tanh函数被用于令在正负值之间转换。

对于构建好的性别识别模型，使用亚洲人脸数据集对性别识别网络模型进行充分训练。在本实施例中使用的亚洲人脸数据集是一种主要用于评估年龄和性别的人脸数据集，其包含160K以上的人脸图像和相应和性别标签。该数据集内所有的人脸图像都是针对亚洲人脸的，亚洲人脸数据集通过收集社交网络上的自拍照片而建立，其内容丰富、适合用于性别的识别训练。经过训练后，得到用于识别输入人脸图像对应人物性别的性别识别网络模型。

可以理解的是，能够使用不同的数据集对性别识别模型进行训练，使其检测结果更加可靠，且用于训练的数据集应当含有性别标签。

将人脸图像201输入训练好的性别识别模型并判断性别，并将识别结果输出。对于性别识别结果401，包括男或女，即性别识别模型能够识别输入的人脸图像201对应的车内人员的性别为男性或女性。

年龄识别模块302的工作包括如下步骤，

基于SSRNET网络架构构建年龄识别模型。SSRNET网络模型是用紧凑的模型大小用于单一图像的年龄估计。在DEX的启发下，通过多类分类处理年龄估计，然后通过计算期望值将分类结果转化为回归。SSRNET采用从粗到细的策略，分多个阶段执行多类分类。每个阶段只负责细化前一阶段的决策，以获得更准确的年龄估计，这种方法大大减少了年龄识别卷积神经网络模型的大小。

同时，为了弥补由于把年龄分段造成的量化问题，SSRNET网络模型对每个年龄段允许其进行适当的调整，如根据输入的人脸图像进行移位和缩放。将多阶段策略和动态范围结合到软阶段回归的公式中，提出了一种实现软阶段回归的网络体系结构。SSRNET网络模型小、精度高，非常适合用于年龄的识别。

SSRNET网络模型结构可以参考训练性别识别模块301中的SSRNET网络模型。对于年龄预测网络模型相对于普通的深度学习网络模型的改进主要有两个部分，

一是多层分段。其中，对年龄进行分段采用的是由粗到细策略，每个阶段执行部分年龄分类，减少任务量，以产生更少参数和更紧凑的模型。例如若采用3-stage，则每个stage进行3分类，第三stage可以分出3*3*3＝27个bin。且由于采用的是软分类，所以每一个bin的区间不是固定值，而是有一定交叠的自适应值。预测出的年龄阶段是融合各阶段的分布：

其中每一个bin的宽度为，

其中i为bin的索引。

在训练时，对于包含N个人脸图像的数据集X，需要最小化平均误差函数，其中，

二是软分类。引入动态范围，允许每个bin根据输入图像进行移位(调整bin的索引i)和缩放(调整ω_k)。其中，为了调整ω_k，引入网络的回归输出Δ_k，且

调整后的宽度为，

为了实现移位，对每个bin添加偏移量η，

由此得到索引改变，

使用亚洲人脸数据集对年龄识别模型进行充分训练。其中亚洲人脸数据集同样可以参考训练性别识别模块301时使用的数据集。同样可以理解的是，能够使用不同的数据集对年龄识别模型进行训练，使其检测结果更加可靠，且用于训练的数据集应当含有年龄标签。

将人脸图像201输入年龄识别模型并判断年龄。对于年龄识别结果402，其结果应为一自然数，其范围可以为0～100中的任一自然数，且范围可以根据需求进行适当的缩小或放大，例如对于驾驶员的年龄预测，可以设置为18～70中的任一自然数。

心情识别模块303的工作包括以下步骤，

基于VGG 16网络架构构建心情识别模型。用于心情识别的卷积神经网络共包括16层，分为多段卷积网络共同构成。其中，第一段卷积网络包括两个卷积层和一个池化层，卷积层的卷积核大小为3*3，池化层使用的是最大池化结构，大小为2*2；第二段卷积网络结构与第一段卷积网络的结构相同；第三段卷积网络包括三个卷积层和一个池化层，卷积层的卷积核大小为3*3，池化层使用的是最大池化结构，大小为2*2；第四段卷积网络和第五段卷积网络与第三段卷积网络的结构相同。对于以上的每段卷积网络，输出的图像的宽度和高度按一定规律不断减小。第七、八段卷积网络分别包括全连接层，用于将前面的卷积网络提取到的特征综合起来。第九段卷积网络包括输出层，在输出层使用softmax作为激活函数，对图像识别进行分类。

使用Cohn-Kanade扩展数据集对心情识别卷积神经网络模型进行充分训练。训练时采用的Cohn-Kanade扩展数据集是基于Cohn-Kanade Dataset数据集扩展而来的，包括300张以上标注了情绪的人脸图像，该数据集是一种较为严谨、内容可靠的数据集，常用于人脸情绪识别模型的训练。可以理解的是，除此之外，还可以使用其它数据集加入训练，例如使用FER2013数据集，该数据集包括接近30000张图像，但由于其存在一定的误差，因此在本实施例中不单独采用该数据集进行训练。训练后即可得到用于识别输入的人脸图像201对应情绪的情绪识别模型。

将人脸图像201输入心情识别网络模型并判断心情。对于情绪识别结果403，包括生气、害怕、开心、中立、悲伤、惊讶和厌恶共七种不同的情绪，根据输入情绪识别模型的人脸图像201，能够判断并输出该人脸图像201对应车内人员的情绪，输出的情绪为生气、害怕、开心、中立、悲伤、惊讶或厌恶中的至少一种。

步骤4：识别模块300分析并输出的识别结果400送入推荐模块500，推荐模块500根据识别结果400并采用推荐算法进行智能推荐。具体的，推荐模块500的工作包括以下步骤，

接收识别结果400，分别包括性别识别结果401，年龄识别结果402和情绪识别结果403。

根据识别结果400，基于协同过滤算法推荐音乐并输出音乐列表。其中，协同过滤算法是目前推荐算法中最主流的种类，其实现类别多样，使用范围广泛。包括在线协同和离线过滤两部分。所谓在线协同，就是通过在线数据找到用户可能喜欢的物品，而离线过滤，则是过滤掉一些不值得推荐的数据，比如推荐值评分低的数据。协同过滤的模型一般为m个物品，m个用户的数据，只有部分用户和部分数据之间是有评分数据的，其它部分评分是空白，此时要用已有的部分稀疏数据来预测那些空白的物品和数据之间的评分关系，找到最高评分的物品推荐给用户。一般来说，协同过滤推荐分为三种类型，第一种是基于用户的协同过滤，第二种是基于项目的协同过滤，第三种是基于模型的协同过滤。

在本实施例中，采用基于项目的协同过滤算法，其特点在于令每个被评分项目与所有其他项目相比较，找到最相似的项，而不是根据评分历史将每位用户和所有其他用户相匹配。基于项目的协同过滤算法的优点是，项目之间的类似性更为稳定，同时计算量相对较小、效率更高。具体的，该算法包括以下步骤，

对用户进行数据表示。首先需要对用户已经评价过的项目进行建模，建立用户项目评分矩阵N，从而根据该矩阵的评分数据来比较项目之间的相似性。

生成最近邻居项目集。搜集目标项目的m个最近邻居，目标就是对每个项目i，通过比较其与其它项目的相似性来搜索它的m个最近邻居集合M，使得M中的每一个项目j与项目i的相似度均大于每一个不属于M的项目t与项目i的相似度，即需要确保sim(i,j)＞sim(i,t)。

根据最近邻居对项目的评分信息分析当前用户对目标项的评价，从而产生推荐结果。根据目标项目i的m个最近邻居对项目的评分信息来分析当前用户a对目标项的评价，并生成top-N推荐结果，其比较的方式如下，

其中，N_a,j代表用户a对项目i的评分，和分别表示项目i和项目j的平均评分。

可以看出，比较用户的相似度是基于项目的协同过滤算法中的重要步骤之一，常见的相似度计算方法包括余弦相似度计算、改进的余弦相似度计算和Person相似度计算等。本实施例中，选择改进的余弦相似度计算方法。

具体的，在改进的余弦相似度计算方法中，假设用户a和用户b均评分过集合I_c，用户a评分过的项目集合为I_a，用户b评分过的项目集合为I_b，则能够得到：

其中，sim(a,b)表示用户a与用户b之间的相似性，R_a,i表示用户a对项目i的评分，和分别表示用户a和用户b对项目的平均评分，I_c代表用户a和用户b共同评分的项目集合，I_a代表用户a已评分的项目集合，I_b代表用户b已评分的项目集合。

在本实施例中，由于识别结果400包括性别、心情和年龄三个不同的方面，因此推荐模块500同样可以分为三个子模块，分别针对输入的性别、心情和年龄进行推荐；推荐模块500能够记录车内人员对推荐音乐的反馈，以根据不同的人的喜好生成个性化的推荐。

在实际应用中，通过采集模块100采集被检测人员的图像，并通过人脸检测模块200判断图像中是否包含人脸，在包含的情况下将人脸图像提取出来，识别模块300根据人脸图像识别被检测人员的性别、心情和年龄作为识别结果，推荐模块500最后根据识别结果推荐音乐，并收集被检测人员的反馈，例如播放该音乐时长小于该音乐总时长的20％，被检测人员手动切换为其它音乐，则认为此音乐不符合被检测人员的喜好，若播放时长超过音乐总时长的80％，则认为符合被检测人员的喜好，从而形成个性化的推荐，使推荐的音乐更符合被检测人员的喜好。

场景一：

利用本发明提供的方法向被检测人员进行音乐推荐，并由其本人对推荐的结果进行打分，以此评价基于本方法的推荐效果。选择30个不同的被检测人员，其中15人为男性、15人为女性，其年龄范围在20～60岁之间，在不同的情绪状态下进入待测坏境中进行检测并得到音乐推荐，被检测人员需要在接下来的20分钟内接收推荐，并可以根据喜好自己切换歌曲，以供推荐模块500收集更多被检测人员的信息，每个被检测人员总共接收5次测试，每次测试后均根据体会对推荐结果进行打分，分数为1～5分，5分为非常满意，1分为非常不满意，以此类推，取平均结果作为每次测试的分数，测试结果如下：

表1：被检测人员对本发明提供方法得到的音乐推荐的满意度

检测次数	1	2	3	4	5
						评分	2.83	3.17	3.56	4.03	4.23

从测试结果中可以看出，随着被检测人员的不断反馈，推荐的音乐也越发符合被检测人员的的个人喜好，因此满意度会随着该方法使用次数的增加而增加，另外，由于初次推荐时，本方法就会根据被检测人员的性别、心情和年龄进行推荐，因此初次推荐的结果同样有所依据而不是随意推荐，特别是将该方法应用于汽车中，对于初次乘坐或仅乘坐一两次的乘客来说，具有更多实际意义。

实施例2

参照图2，本实施例基于上述人的性别、心情和年龄的音乐推荐方法提出一种车内人员的性别、年龄和情绪智能识别系统，该系统能够用于识别车内人员的性别、年龄和情绪。具体的，该车内人员的性别、年龄和情绪智能识别系统包括采集模块100、人脸检测模块200、识别模块300和推荐模块500。

其中，采集模块100属于系统的硬件部分，用于采集车内人员的图像101。在本实施例中，采集模块100可以为摄像头，其能够采集车内人员的图像信息，图像101为采集模块100采集到的图像信息。

人脸检测模块200、识别模块300和推荐模块500属于系统的软件部分，其中，人脸检测模块200与采集模块100相连，能够接收采集模块100采集到的图像101，并检测图像101中是否包含人脸信息，并将图像101中人脸部分的图像进行处理，筛选出特征点，得到人脸图像201并输出。

识别模块300与人脸检测模块200相连接，能够接收人脸检测模块200输出的人脸图像201，并对其进行分析识别，得到识别结果400。识别模块300包括性别识别模块301、年龄识别模块302和情绪识别模块303，且性别识别模块301、年龄识别模块302和心情识别模块303分别基于不同的卷积神经网络训练得到性别识别模型、年龄识别模型和情绪识别模型，分别能够识别人脸图像201对应车内人员的性别、年龄和情绪并输出识别结果400，识别结果400包括性别识别结果401，性别识别结果401为男或女；年龄识别结果402，为一自然数；情绪识别结果403，为生气、害怕、开心、中立、悲伤、惊讶和厌恶七种情绪中的至少一种。

推荐模块500与识别模块300，能够接收识别模块300输出的识别结果400，并基于协同过滤算法针对识别结果400生成推荐音乐列表，并通过车载人机交互设备反馈，同时，推荐模块500根据车内人员的操作，记录其使用数据，根据这些数据不断优化推荐内容，使其更具有个性化。

在实际使用中，采集模块100安装于车上，用于采集车内人员的图像，人脸检测模块200、识别模块300和推荐模块500作为软件模块需要在计算机上运行，且采集模块100与人脸检测模块200相连。采集模块100将采集到的图像101输入人脸检测模块200，通过识别检测输出人脸图像201，识别模块300的性别识别模块301、年龄识别模块302和心情识别模块303分别对人脸图像201进行检测识别，输出的识别结果400包括人脸图像201对应车内人员的性别、年龄和心情，该结果供推荐模块500参考并推荐音乐。该系统能够辅助车内的智能人机交互装置，推荐模块500根据车内人员性别、年龄和心情的不同，做出不同的音乐推送，提高车载人机交互装置的服务性、适应性和智能化程度。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于人的性别、心情和年龄的音乐推荐方法，其特征在于：包括以下步骤，

采集模块(100)采集图像(101)并输入人脸检测模块(200)中；

所述人脸检测模块(200)检测输入的所述图像(101)中是否包含人脸图像(201)，并将检测到的所述人脸图像(201)进行处理，输出人脸框图像(202)；

将所述人脸框图像(202)输入识别模块(300)中，所述识别模块(300)对所述人脸框图像(202)进行分析并输出识别结果(400)。

所述识别结果(400)送入推荐模块(500)，所述推荐模块(500)根据所述识别结果(400)并采用推荐算法进行智能推荐。

2.如权利要求1所述的基于人的性别、心情和年龄的音乐推荐方法，其特征在于：所述检测人脸图像(201)是基于神经网络模型进行。

3.如权利要求2所述的基于人的性别、心情和年龄的音乐推荐方法，其特征在于：所述识别模块(300)包括性别识别模块(301)、年龄识别模块(302)和情绪识别模块(303)，分别基于不同的深度学习神经网络架构训练得到，能够根据输入的所述人脸图像(201)分析其对应车内人员的性别、年龄和情绪。

4.如权利要求3所述的基于人的性别、心情和年龄的音乐推荐方法，其特征在于：所述识别模块(300)的工作包括以下步骤，

分别基于不同的神经网络架构构建性别识别模型、年龄识别模型和情绪识别模型；

使用数据集分别对所述性别识别模型、所述年龄识别模型和所述情绪识别模型进行充分训练；

将所述人脸图像(201)分别输入所述性别识别模型、所述年龄识别模型和所述情绪识别模型中进行识别判断，并输出性别识别结果(401)、年龄识别结果(402)和情绪识别结果(403)。

5.如权利要求4所述的基于人的性别、心情和年龄的音乐推荐方法，其特征在于：所述输出的识别结果(400)包括，

性别识别结果(401)，包括男或女；

年龄识别结果(402)，所述年龄识别结果(402)为一自然数；

情绪识别结果(403)，包括生气、害怕、开心、中立、悲伤、惊讶和厌恶。

6.如权利要求5所述的基于人的性别、心情和年龄的音乐推荐方法，其特征在于：所述推荐模块(500)的工作包括以下步骤，

推荐模块(500)接收所述识别结果(400)；

根据所述识别结果(400)，基于协同过滤算法推荐音乐并输出音乐列表。

7.如权利要求6所述的基于人的性别、心情和年龄的音乐推荐方法，其特征在于：所述基于协同过滤算法推荐音乐包括以下步骤，

对用户进行数据表示，生成最近邻居项目集，根据最近邻居对项目的评分信息分析当前用户对目标项的评价，从而产生推荐结果。

8.如权利要求7所述的基于人的性别、心情和年龄的音乐推荐方法，其特征在于：所述生成最近邻居项目集是基于改进的余弦相似性计算用户之间的相似度。

9.一种基于人的性别、心情和年龄的音乐推荐系统，其特征在于：包括，

采集模块(100)，所述采集模块(100)用于采集车内人员的图像(101)；

人脸检测模块(200)，所述人脸检测模块(200)能够接收所述采集模块(100)采集到的所述图像(101)，检测其是否包括人脸图像(201)，并处理所述人脸图像(201)后输出人脸框图像(202)；

识别模块(300)，所述识别模块(300)与所述人脸检测模块(200)相连接，所述人脸框图像(202)输入所述识别模块(300)中进行识别，得到识别结果(400)；

推荐模块(500)，所述推荐模块(500)与所述识别模块(300)相连接，能够接收所述识别结果(400)，并根据所述识别结果(400)推荐音乐。

10.如权利要求9所述的基于人的性别、心情、年龄的音乐推荐系统，其特征在于：所述识别模块(300)包括性别识别模块(301)、年龄预测模块(302)和心情预测模块(303)，分别用于识别车内人员的性别、年龄和心情；

所述识别结果(400)包括性别识别结果(401)、年龄识别结果(402)和情绪识别结果(403)。