CN110532421A - 一种基于人的性别、心情和年龄的音乐推荐方法及系统 - Google Patents
一种基于人的性别、心情和年龄的音乐推荐方法及系统 Download PDFInfo
- Publication number
- CN110532421A CN110532421A CN201910814520.9A CN201910814520A CN110532421A CN 110532421 A CN110532421 A CN 110532421A CN 201910814520 A CN201910814520 A CN 201910814520A CN 110532421 A CN110532421 A CN 110532421A
- Authority
- CN
- China
- Prior art keywords
- age
- module
- gender
- identification
- mood
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000036651 mood Effects 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000001815 facial effect Effects 0.000 claims abstract description 41
- 238000001514 detection method Methods 0.000 claims abstract description 34
- 238000010586 diagram Methods 0.000 claims abstract description 16
- 230000008451 emotion Effects 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 18
- 238000001914 filtration Methods 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000007935 neutral effect Effects 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 2
- 238000012360 testing method Methods 0.000 abstract description 9
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 8
- 230000003993 interaction Effects 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 235000013399 edible fruits Nutrition 0.000 description 4
- 230000002996 emotional effect Effects 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 238000013480 data collection Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000005021 gait Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/635—Filtering based on additional data, e.g. user or group profiles
- G06F16/636—Filtering based on additional data, e.g. user or group profiles by using biological or physiological data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/64—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/178—Human faces, e.g. facial parts, sketches or expressions estimating age from face image; using age information for improving recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Physiology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于人的性别、心情和年龄的音乐推荐方法及系统,包括以下步骤,采集模块采集图像并输入人脸检测模块中;所述人脸检测模块检测输入的所述图像中是否包含人脸图像,并将检测到的所述人脸图像进行处理,输出人脸框图像;将所述人脸框图像输入识别模块中,所述识别模块对所述人脸框图像进行分析并输出识别结果。所述识别结果送入推荐模块,所述推荐模块根据所述识别结果并采用推荐算法进行智能推荐。本发明的有益效果:本发明能够通过识别得到车内人员的性别、年龄和情绪,基于此数据进行智能音乐推荐,提高了推荐的智能化。
Description
技术领域
本发明涉及自动驾驶中人机交互的技术领域,尤其涉及一种基于人的性别、心情和年龄的音乐推荐方法及系统。
背景技术
在交通出行方面,当汽车加入AI技术,可以提升通行效率,这也是AI在车联网中的典型应用。路况监控摄像头、红绿灯、停车场等物联网数据与AI技术结合,可以更加合理地规划出行路线,实现互联互通,提升整体出行效率。
车载AI的核心竞争力是语音识别、副驾驶功能、用户体验。汽车中的娱乐设施、语音助手、空调等设备都可以与AI技术结合,从而更好地执行指令。汽车中还可以引入面部识别、步态识别等与AI有关的技术。通过这些与AI相关的应用,提升人与汽车、汽车与环境的交互体验。车载AI还有一个优势,通过不断使用车载AI,它会记住用户平时常做的选择,当你再进行同样的操作时,它会猜到你可能要做什么,这就极大的减少了操作量,智能的学习算法让车载AI给驾车带来了更多地便捷。汽车AI刚开始用时就像个什么都不太懂的小孩,但在长时间、高频次的互动后,海量精确的数据通过深度学习,将更加贴合用户的使用习惯。也就是说,汽车AI这个助理会越来越好用。
目前的车载AI的人际交互方面,主要集中在语音识别技术,用户可以通过语音发出指令信号,汽车终端识别用户语音指令,并做出相应的动作来满足用户的需求。比如现有的车载音乐控制系统、地图导航以及服务搜索系统、空调温度调节系统等等。然而,现有的车载娱乐推荐系统尚未考虑到利用驾驶员的性别、年龄、心情信息来预测用户的喜好,进而做出有效的推荐。目前的车载音乐推荐系统,大部分是随机推荐或需要用户登录外部音乐网站从而获取用户的信息再进行推荐,未考虑到车内人员的当前实际情况,缺乏针对性。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有存在的问题,提出了本发明。
因此,本发明解决的一个技术问题是提供一种基于人的性别、心情和年龄的音乐推荐方法,能够根据采集模块采集到的图像,识别该图像对应车内人员的性别、年龄和情绪,然后根据识别结果,向车内人员推荐不同的音乐。
为解决上述技术问题,本发明提供如下技术方案:一种基于人的性别、心情和年龄的音乐推荐方法,包括以下步骤,采集模块采集图像并输入人脸检测模块中;所述人脸检测模块检测输入的所述图像中是否包含人脸图像,并将检测到的所述人脸图像进行处理,输出人脸框图像;将所述人脸框图像输入识别模块中,所述识别模块对所述人脸框图像进行分析并输出识别结果。所述识别结果送入推荐模块,所述推荐模块根据所述识别结果并采用推荐算法进行智能推荐。
作为本发明所述的基于人的性别、心情和年龄的音乐推荐方法的一种优选方案,其中:所述检测人脸图像是基于神经网络模型进行。
作为本发明所述的基于人的性别、心情和年龄的音乐推荐方法的一种优选方案,其中:所述识别模块包括性别识别模块、年龄识别模块和情绪识别模块,分别基于不同的深度学习神经网络架构训练得到,能够根据输入的所述人脸图像分析其对应车内人员的性别、年龄和情绪。
作为本发明所述的基于人的性别、心情和年龄的音乐推荐方法的一种优选方案,其中:所述识别模块的工作包括以下步骤,分别基于不同的神经网络架构构建性别识别模型、年龄识别模型和情绪识别模型;使用数据集分别对所述性别识别模型、所述年龄识别模型和所述情绪识别模型进行充分训练;将所述人脸图像分别输入所述性别识别模型、所述年龄识别模型和所述情绪识别模型中进行识别判断,并输出性别识别结果、年龄识别结果和情绪识别结果。
作为本发明所述的基于人的性别、心情和年龄的音乐推荐方法的一种优选方案,其中:所述输出的识别结果包括,性别识别结果,包括男或女;年龄识别结果,所述年龄识别结果为一自然数;情绪识别结果,包括生气、害怕、开心、中立、悲伤、惊讶和厌恶。
作为本发明所述的基于人的性别、心情和年龄的音乐推荐方法的一种优选方案,其中:所述推荐模块的工作包括以下步骤,推荐模块接收所述识别结果;根据所述识别结果,基于协同过滤算法推荐音乐并输出音乐列表。
作为本发明所述的基于人的性别、心情和年龄的音乐推荐方法的一种优选方案,其中:所述基于协同过滤算法推荐音乐包括以下步骤,对用户进行数据表示,生成最近邻居项目集,根据最近邻居对项目的评分信息分析当前用户对目标项的评价,从而产生推荐结果。
作为本发明所述的基于人的性别、心情和年龄的音乐推荐方法的一种优选方案,其中:所述生成最近邻居项目集是基于改进的余弦相似性计算用户之间的相似度。
本发明解决的另一个技术问题是提供一种基于人的性别、心情和年龄的音乐推荐系统,将上述基于人的性别、心情和年龄的音乐推荐方法应用于对不同用户进行不同的音乐推荐。
为解决上述技术问题,本发明提供如下技术方案:一种基于人的性别、心情和年龄的音乐推荐系统,包括,采集模块,所述采集模块用于采集车内人员的图像;人脸检测模块,所述人脸检测模块能够接收所述采集模块采集到的所述图像,检测其是否包括人脸图像,并处理所述人脸图像后输出人脸框图像;识别模块,所述识别模块与所述人脸检测模块相连接,所述人脸框图像输入所述识别模块中进行识别,得到识别结果;推荐模块,所述推荐模块与所述识别模块相连接,能够接收所述识别结果,并根据所述识别结果推荐音乐。
作为本发明所述的基于人的性别、心情和年龄的音乐推荐系统的一种优选方案,其中:所述识别模块包括性别识别模块、年龄预测模块和心情预测模块,分别用于识别车内人员的性别、年龄和心情;所述识别结果包括性别识别结果、年龄识别结果和情绪识别结果。
本发明的有益效果:本发明利用采集模块采集车内图像,并通过人脸检测模块检测和处理图像,将处理后的人脸图像输入识别模块中进行识别,输出识别结果至推荐模块,推荐模块根据图像对应车内人员的性别、年龄和情绪向其推荐不同的音乐,该方法能够辅助车载AI的人际交互系统,根据不同用户的情况,向其做出智能化、有针对性的音乐推荐。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明第一个实施例中所述基于人的性别、心情和年龄的音乐推荐方法的流程示意图;
图2为本发明第二个实施例中所述基于人的性别、心情和年龄的音乐推荐系统的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
目前车载AI的人际交互方面主要依赖于车内人员发出指令后做出响应,其智能化程度还比较有限。为了提升这一方面,考虑到不同的车内人员,其性别、年龄和情绪不同时,对应的喜好和需求也不同,若能够对此做出区分,就能够根据不同性别、年龄和情绪的车内人员,做出与之相适应的响应,提升人际交互装置的智能化程度。因此在本实施例中,提出了一种车内人员的性别、年龄和情绪智能识别方法,能够根据图像判断车内人员的性别、心情和年龄。
参照图1,本发明第一种实施例提供了一种基于人的性别、心情和年龄的音乐推荐方法,将该方法应用于根据人的性别、心情和年龄进行音乐推荐,具体的,该方法包括以下步骤,
步骤1:采集模块100采集图像101并输入人脸检测模块200中。具体的,采集模块100一般设置在车内,其采集到的图像101为实时图像。
步骤2:人脸检测模块200检测输入的图像101中是否包含人脸图像,并对其进行处理,输出处理后的人脸图像201。
本步骤中检测和处理人脸图像201是基于MTCNN网络模型,MTCNN算法是利用三层级联架构结合设计的卷积神经网络算法,能够对图像中的人脸进行检测和人脸关键点的粗略定位,实现人脸的检测与对齐。其中,三个网络结构分别是P-Net、R-Net和O-Net,人脸检测可以用来进行后续的人脸识别,人脸对齐能够找出人脸的眼睛,嘴,鼻子的位置。具体的,图像101的检测和处理包括以下步骤,
图像101进行scale操作,得到若干个不同scale的输入图像。其中,图像最基本的操作有三种,分别是scale,rotation和translation,对应尺度,旋转和平移,可以通过对图像的像素值或者像素的坐标运算来达到特定的效果。在本实施例中,对于输入的图像101进行scale操作,是对图像101的像素坐标做scale,具体如下:
其中,(x,y)为图像101中某个像素点变换前的坐标,(x′,y′)为其变换后的坐标,c、d的值可任选。
不同scale的输入图像输入P-NET中,输出是人脸的候选图像的集合。具体的,P-NET是一个全卷积网络,能够用来生成脸部候选窗和边框回归向量。基于边框回归向量来校正候选窗,并使用非极大值抑制(NMS)方法合并重叠的候选图像。
候选图像输入R-NET中进行筛选校准;所有的候选图像输入R-Net中,R-NET是一个全卷积网络,其作用在于能够进一步清除大量的从P-NET中输出的非脸部候选图像,R-NET使用边框回归向量进行校准和非极大值抑制方法进行合并,得到筛选后的图像。
R-NET中筛选后的图像输入O-Net中进行提取,通过边框回归向量和非极大值抑制方法处理图像,在这一步骤中会去除重复的人脸框,以及对图像中的人脸特征值进行回归精调并进行标记,输出最终的人脸图像201。
步骤3:将人脸图像201输入识别模块300中,识别模块300对输入的人脸图像201进行分析并输出识别结果400。识别模块300包括性别识别模块301、年龄识别模块302和心情识别模块303,分别能够根据输入的人脸图像201分析对应车内人员的性别、年龄和心情。输出的识别结果400包括性别识别结果401、年龄识别结果402和情绪识别结果403。其中,性别识别模块301和年龄识别模块302分别基于SSRNET网络架构训练得到,心情识别模块303基于VGG16网络框架训练得到。具体的,
识别模块300,包括性别识别模块301、年龄识别模块302和心情识别模块303,分别基于不同的深度学习神经网络架构训练得到。其中,性别识别模块301的工作包括以下步骤,
基于SSRNET网络架构构建性别识别模型。具体的,SSRNET网络包括两个平行的异构网络,对于这两个平行的异构网络,均分别包括卷积层、归一化层、非线性激活函数和池化层,其中,
卷积层内部包含多个卷积核,是通过不同的卷积核进行卷积操作得到的一组特征层,经过此操作的图像能够使得特征增强并降低噪声,是卷积神经网络中特征学习的最重要部分,在本实施例中,卷积层使用3*3的卷积核。
池化层通常用于缩减模型的大小,提高计算速度,同时提高所提取特征的鲁棒性,池化类型一般包括最大池化和平均池化,本实施例中中使用的是2*2的池化层,即将子矩阵的每2x2个元素变成一个元素。
不用类型的激活函数(如tanh函数、ReLU函数)和池化结构(如平均池化、最大池化),被用于单个网络使其异构。通过该方式使异构网络得到不同的特征,并将其融合提升效果。
不同阶段采用不同级别的特征,对于每个阶段,来自两个异构网络某些级别的特征被送入融合模块中,融合模块负责生成阶段性的输出,包括分布偏移矢量和比例因子Δk(对于第k阶段)。在融合模块中,来自每个异构网络的特征通过1*1的卷积层,激活函数和池化层来获取更多的紧凑特征。为了获取Δk,获得的两个特征矩阵通过对应元素相乘进行融合。得到的结果经过一个全连接层,然后用tanh函数获取一个在[-1,1]的值作为Δk。其中,
和均为矢量,因此,特征在对应元素相乘前先经给一个预测模块。代表分布,ReLU函数作为激活函数用于获取正值,其中,
ReLU=max(0,x)
另一方面,tanh函数被用于令在正负值之间转换。
对于构建好的性别识别模型,使用亚洲人脸数据集对性别识别网络模型进行充分训练。在本实施例中使用的亚洲人脸数据集是一种主要用于评估年龄和性别的人脸数据集,其包含160K以上的人脸图像和相应和性别标签。该数据集内所有的人脸图像都是针对亚洲人脸的,亚洲人脸数据集通过收集社交网络上的自拍照片而建立,其内容丰富、适合用于性别的识别训练。经过训练后,得到用于识别输入人脸图像对应人物性别的性别识别网络模型。
可以理解的是,能够使用不同的数据集对性别识别模型进行训练,使其检测结果更加可靠,且用于训练的数据集应当含有性别标签。
将人脸图像201输入训练好的性别识别模型并判断性别,并将识别结果输出。对于性别识别结果401,包括男或女,即性别识别模型能够识别输入的人脸图像201对应的车内人员的性别为男性或女性。
年龄识别模块302的工作包括如下步骤,
基于SSRNET网络架构构建年龄识别模型。SSRNET网络模型是用紧凑的模型大小用于单一图像的年龄估计。在DEX的启发下,通过多类分类处理年龄估计,然后通过计算期望值将分类结果转化为回归。SSRNET采用从粗到细的策略,分多个阶段执行多类分类。每个阶段只负责细化前一阶段的决策,以获得更准确的年龄估计,这种方法大大减少了年龄识别卷积神经网络模型的大小。
同时,为了弥补由于把年龄分段造成的量化问题,SSRNET网络模型对每个年龄段允许其进行适当的调整,如根据输入的人脸图像进行移位和缩放。将多阶段策略和动态范围结合到软阶段回归的公式中,提出了一种实现软阶段回归的网络体系结构。SSRNET网络模型小、精度高,非常适合用于年龄的识别。
SSRNET网络模型结构可以参考训练性别识别模块301中的SSRNET网络模型。对于年龄预测网络模型相对于普通的深度学习网络模型的改进主要有两个部分,
一是多层分段。其中,对年龄进行分段采用的是由粗到细策略,每个阶段执行部分年龄分类,减少任务量,以产生更少参数和更紧凑的模型。例如若采用3-stage,则每个stage进行3分类,第三stage可以分出3*3*3=27个bin。且由于采用的是软分类,所以每一个bin的区间不是固定值,而是有一定交叠的自适应值。预测出的年龄阶段是融合各阶段的分布:
其中每一个bin的宽度为,
其中i为bin的索引。
在训练时,对于包含N个人脸图像的数据集X,需要最小化平均误差函数,其中,
二是软分类。引入动态范围,允许每个bin根据输入图像进行移位(调整bin的索引i)和缩放(调整ωk)。其中,为了调整ωk,引入网络的回归输出Δk,且
调整后的宽度为,
为了实现移位,对每个bin添加偏移量η,
由此得到索引改变,
使用亚洲人脸数据集对年龄识别模型进行充分训练。其中亚洲人脸数据集同样可以参考训练性别识别模块301时使用的数据集。同样可以理解的是,能够使用不同的数据集对年龄识别模型进行训练,使其检测结果更加可靠,且用于训练的数据集应当含有年龄标签。
将人脸图像201输入年龄识别模型并判断年龄。对于年龄识别结果402,其结果应为一自然数,其范围可以为0~100中的任一自然数,且范围可以根据需求进行适当的缩小或放大,例如对于驾驶员的年龄预测,可以设置为18~70中的任一自然数。
心情识别模块303的工作包括以下步骤,
基于VGG 16网络架构构建心情识别模型。用于心情识别的卷积神经网络共包括16层,分为多段卷积网络共同构成。其中,第一段卷积网络包括两个卷积层和一个池化层,卷积层的卷积核大小为3*3,池化层使用的是最大池化结构,大小为2*2;第二段卷积网络结构与第一段卷积网络的结构相同;第三段卷积网络包括三个卷积层和一个池化层,卷积层的卷积核大小为3*3,池化层使用的是最大池化结构,大小为2*2;第四段卷积网络和第五段卷积网络与第三段卷积网络的结构相同。对于以上的每段卷积网络,输出的图像的宽度和高度按一定规律不断减小。第七、八段卷积网络分别包括全连接层,用于将前面的卷积网络提取到的特征综合起来。第九段卷积网络包括输出层,在输出层使用softmax作为激活函数,对图像识别进行分类。
使用Cohn-Kanade扩展数据集对心情识别卷积神经网络模型进行充分训练。训练时采用的Cohn-Kanade扩展数据集是基于Cohn-Kanade Dataset数据集扩展而来的,包括300张以上标注了情绪的人脸图像,该数据集是一种较为严谨、内容可靠的数据集,常用于人脸情绪识别模型的训练。可以理解的是,除此之外,还可以使用其它数据集加入训练,例如使用FER2013数据集,该数据集包括接近30000张图像,但由于其存在一定的误差,因此在本实施例中不单独采用该数据集进行训练。训练后即可得到用于识别输入的人脸图像201对应情绪的情绪识别模型。
将人脸图像201输入心情识别网络模型并判断心情。对于情绪识别结果403,包括生气、害怕、开心、中立、悲伤、惊讶和厌恶共七种不同的情绪,根据输入情绪识别模型的人脸图像201,能够判断并输出该人脸图像201对应车内人员的情绪,输出的情绪为生气、害怕、开心、中立、悲伤、惊讶或厌恶中的至少一种。
步骤4:识别模块300分析并输出的识别结果400送入推荐模块500,推荐模块500根据识别结果400并采用推荐算法进行智能推荐。具体的,推荐模块500的工作包括以下步骤,
接收识别结果400,分别包括性别识别结果401,年龄识别结果402和情绪识别结果403。
根据识别结果400,基于协同过滤算法推荐音乐并输出音乐列表。其中,协同过滤算法是目前推荐算法中最主流的种类,其实现类别多样,使用范围广泛。包括在线协同和离线过滤两部分。所谓在线协同,就是通过在线数据找到用户可能喜欢的物品,而离线过滤,则是过滤掉一些不值得推荐的数据,比如推荐值评分低的数据。协同过滤的模型一般为m个物品,m个用户的数据,只有部分用户和部分数据之间是有评分数据的,其它部分评分是空白,此时要用已有的部分稀疏数据来预测那些空白的物品和数据之间的评分关系,找到最高评分的物品推荐给用户。一般来说,协同过滤推荐分为三种类型,第一种是基于用户的协同过滤,第二种是基于项目的协同过滤,第三种是基于模型的协同过滤。
在本实施例中,采用基于项目的协同过滤算法,其特点在于令每个被评分项目与所有其他项目相比较,找到最相似的项,而不是根据评分历史将每位用户和所有其他用户相匹配。基于项目的协同过滤算法的优点是,项目之间的类似性更为稳定,同时计算量相对较小、效率更高。具体的,该算法包括以下步骤,
对用户进行数据表示。首先需要对用户已经评价过的项目进行建模,建立用户项目评分矩阵N,从而根据该矩阵的评分数据来比较项目之间的相似性。
生成最近邻居项目集。搜集目标项目的m个最近邻居,目标就是对每个项目i,通过比较其与其它项目的相似性来搜索它的m个最近邻居集合M,使得M中的每一个项目j与项目i的相似度均大于每一个不属于M的项目t与项目i的相似度,即需要确保sim(i,j)>sim(i,t)。
根据最近邻居对项目的评分信息分析当前用户对目标项的评价,从而产生推荐结果。根据目标项目i的m个最近邻居对项目的评分信息来分析当前用户a对目标项的评价,并生成top-N推荐结果,其比较的方式如下,
其中,Na,j代表用户a对项目i的评分,和分别表示项目i和项目j的平均评分。
可以看出,比较用户的相似度是基于项目的协同过滤算法中的重要步骤之一,常见的相似度计算方法包括余弦相似度计算、改进的余弦相似度计算和Person相似度计算等。本实施例中,选择改进的余弦相似度计算方法。
具体的,在改进的余弦相似度计算方法中,假设用户a和用户b均评分过集合Ic,用户a评分过的项目集合为Ia,用户b评分过的项目集合为Ib,则能够得到:
其中,sim(a,b)表示用户a与用户b之间的相似性,Ra,i表示用户a对项目i的评分,和分别表示用户a和用户b对项目的平均评分,Ic代表用户a和用户b共同评分的项目集合,Ia代表用户a已评分的项目集合,Ib代表用户b已评分的项目集合。
在本实施例中,由于识别结果400包括性别、心情和年龄三个不同的方面,因此推荐模块500同样可以分为三个子模块,分别针对输入的性别、心情和年龄进行推荐;推荐模块500能够记录车内人员对推荐音乐的反馈,以根据不同的人的喜好生成个性化的推荐。
在实际应用中,通过采集模块100采集被检测人员的图像,并通过人脸检测模块200判断图像中是否包含人脸,在包含的情况下将人脸图像提取出来,识别模块300根据人脸图像识别被检测人员的性别、心情和年龄作为识别结果,推荐模块500最后根据识别结果推荐音乐,并收集被检测人员的反馈,例如播放该音乐时长小于该音乐总时长的20%,被检测人员手动切换为其它音乐,则认为此音乐不符合被检测人员的喜好,若播放时长超过音乐总时长的80%,则认为符合被检测人员的喜好,从而形成个性化的推荐,使推荐的音乐更符合被检测人员的喜好。
场景一:
利用本发明提供的方法向被检测人员进行音乐推荐,并由其本人对推荐的结果进行打分,以此评价基于本方法的推荐效果。选择30个不同的被检测人员,其中15人为男性、15人为女性,其年龄范围在20~60岁之间,在不同的情绪状态下进入待测坏境中进行检测并得到音乐推荐,被检测人员需要在接下来的20分钟内接收推荐,并可以根据喜好自己切换歌曲,以供推荐模块500收集更多被检测人员的信息,每个被检测人员总共接收5次测试,每次测试后均根据体会对推荐结果进行打分,分数为1~5分,5分为非常满意,1分为非常不满意,以此类推,取平均结果作为每次测试的分数,测试结果如下:
表1:被检测人员对本发明提供方法得到的音乐推荐的满意度
检测次数 | 1 | 2 | 3 | 4 | 5 |
评分 | 2.83 | 3.17 | 3.56 | 4.03 | 4.23 |
从测试结果中可以看出,随着被检测人员的不断反馈,推荐的音乐也越发符合被检测人员的的个人喜好,因此满意度会随着该方法使用次数的增加而增加,另外,由于初次推荐时,本方法就会根据被检测人员的性别、心情和年龄进行推荐,因此初次推荐的结果同样有所依据而不是随意推荐,特别是将该方法应用于汽车中,对于初次乘坐或仅乘坐一两次的乘客来说,具有更多实际意义。
实施例2
参照图2,本实施例基于上述人的性别、心情和年龄的音乐推荐方法提出一种车内人员的性别、年龄和情绪智能识别系统,该系统能够用于识别车内人员的性别、年龄和情绪。具体的,该车内人员的性别、年龄和情绪智能识别系统包括采集模块100、人脸检测模块200、识别模块300和推荐模块500。
其中,采集模块100属于系统的硬件部分,用于采集车内人员的图像101。在本实施例中,采集模块100可以为摄像头,其能够采集车内人员的图像信息,图像101为采集模块100采集到的图像信息。
人脸检测模块200、识别模块300和推荐模块500属于系统的软件部分,其中,人脸检测模块200与采集模块100相连,能够接收采集模块100采集到的图像101,并检测图像101中是否包含人脸信息,并将图像101中人脸部分的图像进行处理,筛选出特征点,得到人脸图像201并输出。
识别模块300与人脸检测模块200相连接,能够接收人脸检测模块200输出的人脸图像201,并对其进行分析识别,得到识别结果400。识别模块300包括性别识别模块301、年龄识别模块302和情绪识别模块303,且性别识别模块301、年龄识别模块302和心情识别模块303分别基于不同的卷积神经网络训练得到性别识别模型、年龄识别模型和情绪识别模型,分别能够识别人脸图像201对应车内人员的性别、年龄和情绪并输出识别结果400,识别结果400包括性别识别结果401,性别识别结果401为男或女;年龄识别结果402,为一自然数;情绪识别结果403,为生气、害怕、开心、中立、悲伤、惊讶和厌恶七种情绪中的至少一种。
推荐模块500与识别模块300,能够接收识别模块300输出的识别结果400,并基于协同过滤算法针对识别结果400生成推荐音乐列表,并通过车载人机交互设备反馈,同时,推荐模块500根据车内人员的操作,记录其使用数据,根据这些数据不断优化推荐内容,使其更具有个性化。
在实际使用中,采集模块100安装于车上,用于采集车内人员的图像,人脸检测模块200、识别模块300和推荐模块500作为软件模块需要在计算机上运行,且采集模块100与人脸检测模块200相连。采集模块100将采集到的图像101输入人脸检测模块200,通过识别检测输出人脸图像201,识别模块300的性别识别模块301、年龄识别模块302和心情识别模块303分别对人脸图像201进行检测识别,输出的识别结果400包括人脸图像201对应车内人员的性别、年龄和心情,该结果供推荐模块500参考并推荐音乐。该系统能够辅助车内的智能人机交互装置,推荐模块500根据车内人员性别、年龄和心情的不同,做出不同的音乐推送,提高车载人机交互装置的服务性、适应性和智能化程度。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种基于人的性别、心情和年龄的音乐推荐方法,其特征在于:包括以下步骤,
采集模块(100)采集图像(101)并输入人脸检测模块(200)中;
所述人脸检测模块(200)检测输入的所述图像(101)中是否包含人脸图像(201),并将检测到的所述人脸图像(201)进行处理,输出人脸框图像(202);
将所述人脸框图像(202)输入识别模块(300)中,所述识别模块(300)对所述人脸框图像(202)进行分析并输出识别结果(400)。
所述识别结果(400)送入推荐模块(500),所述推荐模块(500)根据所述识别结果(400)并采用推荐算法进行智能推荐。
2.如权利要求1所述的基于人的性别、心情和年龄的音乐推荐方法,其特征在于:所述检测人脸图像(201)是基于神经网络模型进行。
3.如权利要求2所述的基于人的性别、心情和年龄的音乐推荐方法,其特征在于:所述识别模块(300)包括性别识别模块(301)、年龄识别模块(302)和情绪识别模块(303),分别基于不同的深度学习神经网络架构训练得到,能够根据输入的所述人脸图像(201)分析其对应车内人员的性别、年龄和情绪。
4.如权利要求3所述的基于人的性别、心情和年龄的音乐推荐方法,其特征在于:所述识别模块(300)的工作包括以下步骤,
分别基于不同的神经网络架构构建性别识别模型、年龄识别模型和情绪识别模型;
使用数据集分别对所述性别识别模型、所述年龄识别模型和所述情绪识别模型进行充分训练;
将所述人脸图像(201)分别输入所述性别识别模型、所述年龄识别模型和所述情绪识别模型中进行识别判断,并输出性别识别结果(401)、年龄识别结果(402)和情绪识别结果(403)。
5.如权利要求4所述的基于人的性别、心情和年龄的音乐推荐方法,其特征在于:所述输出的识别结果(400)包括,
性别识别结果(401),包括男或女;
年龄识别结果(402),所述年龄识别结果(402)为一自然数;
情绪识别结果(403),包括生气、害怕、开心、中立、悲伤、惊讶和厌恶。
6.如权利要求5所述的基于人的性别、心情和年龄的音乐推荐方法,其特征在于:所述推荐模块(500)的工作包括以下步骤,
推荐模块(500)接收所述识别结果(400);
根据所述识别结果(400),基于协同过滤算法推荐音乐并输出音乐列表。
7.如权利要求6所述的基于人的性别、心情和年龄的音乐推荐方法,其特征在于:所述基于协同过滤算法推荐音乐包括以下步骤,
对用户进行数据表示,生成最近邻居项目集,根据最近邻居对项目的评分信息分析当前用户对目标项的评价,从而产生推荐结果。
8.如权利要求7所述的基于人的性别、心情和年龄的音乐推荐方法,其特征在于:所述生成最近邻居项目集是基于改进的余弦相似性计算用户之间的相似度。
9.一种基于人的性别、心情和年龄的音乐推荐系统,其特征在于:包括,
采集模块(100),所述采集模块(100)用于采集车内人员的图像(101);
人脸检测模块(200),所述人脸检测模块(200)能够接收所述采集模块(100)采集到的所述图像(101),检测其是否包括人脸图像(201),并处理所述人脸图像(201)后输出人脸框图像(202);
识别模块(300),所述识别模块(300)与所述人脸检测模块(200)相连接,所述人脸框图像(202)输入所述识别模块(300)中进行识别,得到识别结果(400);
推荐模块(500),所述推荐模块(500)与所述识别模块(300)相连接,能够接收所述识别结果(400),并根据所述识别结果(400)推荐音乐。
10.如权利要求9所述的基于人的性别、心情、年龄的音乐推荐系统,其特征在于:所述识别模块(300)包括性别识别模块(301)、年龄预测模块(302)和心情预测模块(303),分别用于识别车内人员的性别、年龄和心情;
所述识别结果(400)包括性别识别结果(401)、年龄识别结果(402)和情绪识别结果(403)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910814520.9A CN110532421A (zh) | 2019-08-30 | 2019-08-30 | 一种基于人的性别、心情和年龄的音乐推荐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910814520.9A CN110532421A (zh) | 2019-08-30 | 2019-08-30 | 一种基于人的性别、心情和年龄的音乐推荐方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110532421A true CN110532421A (zh) | 2019-12-03 |
Family
ID=68665518
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910814520.9A Pending CN110532421A (zh) | 2019-08-30 | 2019-08-30 | 一种基于人的性别、心情和年龄的音乐推荐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110532421A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339358A (zh) * | 2020-02-28 | 2020-06-26 | 杭州市第一人民医院 | 电影推荐方法、装置、计算机设备和存储介质 |
CN111428662A (zh) * | 2020-03-30 | 2020-07-17 | 齐鲁工业大学 | 基于人群属性的广告播放变化方法及系统 |
CN111802963A (zh) * | 2020-07-10 | 2020-10-23 | 小狗电器互联网科技(北京)股份有限公司 | 一种清洁设备及感兴趣信息播放方法和装置 |
CN113139080A (zh) * | 2021-04-15 | 2021-07-20 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种音乐情绪化推荐方法及系统 |
CN113160941A (zh) * | 2021-04-07 | 2021-07-23 | 南京信息工程大学 | 一种基于情绪识别的音乐减压电子平台系统 |
CN113222712A (zh) * | 2021-05-31 | 2021-08-06 | 中国银行股份有限公司 | 一种产品推荐方法和装置 |
CN113283294A (zh) * | 2021-04-15 | 2021-08-20 | 阳光暖果(北京)科技发展有限公司 | 基于多阶段多通道注意力网络的人脸性别与年龄识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105700682A (zh) * | 2016-01-08 | 2016-06-22 | 北京乐驾科技有限公司 | 基于视觉和语音的智能性别、情绪识别检测系统及方法 |
CN107545249A (zh) * | 2017-08-30 | 2018-01-05 | 国信优易数据有限公司 | 一种人群年龄识别方法及装置 |
-
2019
- 2019-08-30 CN CN201910814520.9A patent/CN110532421A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105700682A (zh) * | 2016-01-08 | 2016-06-22 | 北京乐驾科技有限公司 | 基于视觉和语音的智能性别、情绪识别检测系统及方法 |
CN107545249A (zh) * | 2017-08-30 | 2018-01-05 | 国信优易数据有限公司 | 一种人群年龄识别方法及装置 |
Non-Patent Citations (1)
Title |
---|
TSUN-YI YANG等: "SSR-Net: A Compact Soft Stagewise Regression Network for Age Estimation", 《ACM》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339358A (zh) * | 2020-02-28 | 2020-06-26 | 杭州市第一人民医院 | 电影推荐方法、装置、计算机设备和存储介质 |
CN111428662A (zh) * | 2020-03-30 | 2020-07-17 | 齐鲁工业大学 | 基于人群属性的广告播放变化方法及系统 |
CN111802963A (zh) * | 2020-07-10 | 2020-10-23 | 小狗电器互联网科技(北京)股份有限公司 | 一种清洁设备及感兴趣信息播放方法和装置 |
CN111802963B (zh) * | 2020-07-10 | 2022-01-11 | 小狗电器互联网科技(北京)股份有限公司 | 一种清洁设备及感兴趣信息播放方法和装置 |
CN113160941A (zh) * | 2021-04-07 | 2021-07-23 | 南京信息工程大学 | 一种基于情绪识别的音乐减压电子平台系统 |
CN113139080A (zh) * | 2021-04-15 | 2021-07-20 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种音乐情绪化推荐方法及系统 |
CN113283294A (zh) * | 2021-04-15 | 2021-08-20 | 阳光暖果(北京)科技发展有限公司 | 基于多阶段多通道注意力网络的人脸性别与年龄识别方法 |
CN113222712A (zh) * | 2021-05-31 | 2021-08-06 | 中国银行股份有限公司 | 一种产品推荐方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110532421A (zh) | 一种基于人的性别、心情和年龄的音乐推荐方法及系统 | |
CN105487663B (zh) | 一种面向智能机器人的意图识别方法和系统 | |
CN109948425B (zh) | 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置 | |
CN111950655B (zh) | 一种基于多领域知识驱动的图像美学质量评价方法 | |
CN110516622A (zh) | 一种车内人员的性别、年龄和情绪智能识别方法及系统 | |
CN108363753A (zh) | 评论文本情感分类模型训练与情感分类方法、装置及设备 | |
CN103106265B (zh) | 相似图像分类方法及系统 | |
CN110689091B (zh) | 弱监督细粒度物体分类方法 | |
CN105808732A (zh) | 一种基于深度度量学习的一体化目标属性识别与精确检索方法 | |
CN105389718A (zh) | 一种汽车后服务推荐方法和系统 | |
CN108416314B (zh) | 图片重要人脸检测方法 | |
CN111738337B (zh) | 一种混行交通环境下的驾驶人分心状态检测识别方法 | |
CN104021381B (zh) | 一种基于多层级特征的人体动作识别方法 | |
CN109902201A (zh) | 一种基于cnn和bp神经网络的推荐方法 | |
CN110413825B (zh) | 面向时尚电商的街拍推荐系统 | |
DE112020002293T5 (de) | Computerimplementiertes Verfahren und System zur Inhaltsempfehlung für einen Benutzer an Bord eines Fahrzeugs | |
CN110992988A (zh) | 一种基于领域对抗的语音情感识别方法及装置 | |
CN115062702B (zh) | 基于pca-e的产品感性语义词汇提取方法 | |
CN104978569A (zh) | 一种基于稀疏表示的增量人脸识别方法 | |
CN114840745A (zh) | 一种基于图表征学习和深度语义匹配模型的个性化推荐方法及系统 | |
CN106951433A (zh) | 一种检索方法及装置 | |
DE102023004848A1 (de) | Verfahren zur Empfehlung von Campingplätzen | |
CN116958740A (zh) | 基于语义感知和自适应对比学习的零样本目标检测方法 | |
CN115374858B (zh) | 基于混合集成模型的流程工业生产品质的智能诊断方法 | |
CN113837266B (zh) | 一种基于特征提取和Stacking集成学习的软件缺陷预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 11th Floor, Building A1, Huizhi Science and Technology Park, No. 8 Hengtai Road, Nanjing Economic and Technological Development Zone, Jiangsu Province, 211000 Applicant after: DILU TECHNOLOGY Co.,Ltd. Address before: Building C4, No.55 Liyuan South Road, moling street, Jiangning District, Nanjing City, Jiangsu Province Applicant before: DILU TECHNOLOGY Co.,Ltd. |
|
CB02 | Change of applicant information |