CN105005777A

CN105005777A - 一种基于人脸的音视频推荐方法及系统

Info

Publication number: CN105005777A
Application number: CN201510467751.9A
Authority: CN
Inventors: 吴子扬; 陈磊; 杨溥; 王影
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2015-07-30
Filing date: 2015-07-30
Publication date: 2015-10-28
Anticipated expiration: 2035-07-30
Also published as: CN105005777B

Abstract

本发明涉及信息处理领域，公开了一种基于人脸的音视频推荐方法及系统。该方法包括:接收用户发送的包含人脸的用户图像；确定所述用户图像中人脸的数量；如果人脸的数量为一个，则提取包含单个人脸的图像特征信息；如果人脸的数量为多个，则提取包含多个人脸的图像特征信息；根据提取的图像特征信息确定向所述用户推荐的音视频；将所述音视频推荐给所述用户。利用本发明可以更全面地分析图像，找到用户需求,给用户推荐合适的音视频，提升用户体验度。

Description

一种基于人脸的音视频推荐方法及系统

技术领域

本发明涉及信息处理领域，具体涉及一种基于人脸的音视频推荐方法及系统。

背景技术

随着现代生活水平的不断提高，人们对于娱乐化的需求也越来越多样性，计算机技术、图像识别技术已逐步应用于日常生活中各个领域中，例如，可以在数以亿万计的人群中迅速定位目标人物，也可以根据人脸图像判断人脸表情信息。目前随着音视频内容的多样性，音视频压缩技术的成熟，存储技术的提高，出现了大量根据人脸图像推荐音乐的应用，该应用将音乐与图像以一种新的形式展现给用户，受到了越来越多用户的关注与喜爱。现有的根据人脸图像推荐音乐的方法，主要通过分析人脸的表情信息进行音乐推荐，如高兴的表情，就会推荐一些令人心情愉快的音乐，悲伤的表情，会推荐一些节奏较平缓的音乐。现有方法主要针对包含单个人脸的图像，通过分析单个人脸的表情信息进行音乐推荐。当图像中包含多个人脸时，很难分析出具体根据哪个人脸的表情进行音乐推荐，尤其是在多个人脸表情不一致或图像中存在较多无关人脸的情况下，很难找到合适的音乐进行推荐。此外,现有方法的推荐内容局限于音乐，对于其它的音频不能推荐，大大降低了用户体验度。

发明内容

本发明提供一种基于人脸的音视频推荐方法及系统，可以更全面地分析图像，找到适合的音视频推荐给用户，提升用户体验度。

为此，本发明提供如下技术方案：

一种基于人脸的音视频推荐方法，包括：

接收用户发送的包含人脸的用户图像；

确定所述用户图像中人脸的数量；

如果人脸的数量为一个，则提取包含单个人脸的图像特征信息；

如果人脸的数量为多个，则提取包含多个人脸的图像特征信息；

根据提取的图像特征信息确定向所述用户推荐的音视频；

将所述音视频推荐给所述用户。

优选地，所述确定用户图像中人脸的数量包括：

对所述用户图像进行人脸检测，以确定所述用户图像中所有人脸所在的位置；

对所述位置区域进行人脸特征点检测，以确定人脸的局部特征点位置。

优选地，所述对所述位置区域进行人脸特征点检测包括:

通过所述位置区域的纹理特征和各特征点之间的位置约束进行人脸特征点检测。

优选地，所述提取包含单个人脸的图像特征信息包括：

获取用户属性相关信息，所述用户属性相关信息包括年龄、化妆情况、表情信息、肤质、是否带眼镜和颜值信息；

计算所述人脸与明星的相似度，确定与所述人脸相似度最高的明星；

获取所述用户图像的拍摄时间。

优选地，所述提取包含多个人脸的图像特征信息包括：

去除所述用户图像中的无关人脸；

对去除无关人脸后的用户图像进行图像整体氛围估计和人脸亲密度计算。

优选地，所述去除用户图像中的无关人脸包括：

(1)以所述用户图像中心点为原点建立空间坐标系，图像所在平面作为XOY平面；

(2)确定所述用户图像中所有人脸朝向及人脸眼球朝向；

(3)根据每个人脸眼球朝向，分别向空间坐标系的Z轴引出两条目光射线，构目光约束面；

(4)如果不同人的两目光约束面的交集为线段，则选取线段中点作为交点；如果不同人的两目光约束面的交集为四边形，则取四边形中心点作为交点；然后以所述交点为球心作视觉集中球体；

(5)取落入所述球体内交点最多的视觉集中球体的球心作为视觉空间集中点；

(6)将所述视觉空间集中点向用户图像所在的XOY平面进行投影；

(7)如果所述视觉空间集中点的投影落在用户图像范围内，则将在视觉空间集中点所在球体内的目光约束面对应的人脸全部保留，其余目光约束面对应的人脸作为无关人脸删除；否则删除当前视觉空间集中点，重新选择视觉集中球体内交点数量次之的球体对应的球心作为视觉空间集中点，重新执行步骤(6)至步骤(7)。

优选地，所述整体氛围包括：欢乐、中性以及悲伤；

所述对去除无关人脸后的用户图像进行人脸亲密度计算包括：

根据去除无关人脸后的用户图像中两个人脸在图像中的距离计算人脸亲密度。

优选地，所述根据提取的图像特征信息确定向所述用户推荐的音视频包括：

利用统计建模的方式根据提取的图像特征信息确定向所述用户推荐的音视频；或者

通过标签匹配的方式根据提取的图像特征信息确定向所述用户推荐的音视频。

优选地，如果人脸的数量为一个，并且确定向用户推荐的是视频，则在将所述视频推荐给所述用户之前，还包括：

提取所述用户图像中的人脸图像；

将所述人脸图像替换掉所述视频中待匹配人物的人脸。

优选地，如果向用户推荐的视频中有多个人物，则所述方法还包括：

随机选择所述视频中的一个人物作为特匹配人物；或者

确定所述视频中的主要人物，并将所述主要人物作为待匹配人物。

一种基于人脸的音视频推荐系统，包括:

图像接收模块，用于接收用户发送的包含人脸的用户图像；

人脸数量确定模块，用于确定所述用户图像中人脸的数量；

第一信息提取模块，用于人脸的数量为一个时，提取包含单个人脸的图像特征信息；

第二信息提取模块，用于人脸的数量为多个时，提取包含多个人脸的图像特征信息；

确定模块，用于根据第一信息提取模块或者第二信息提取模块提取出的图像特征信息确定向所述用户推荐的音视频；

推荐模块，用于将所述音视频推荐给所述用户。

优选地，所述人脸数量确定模块包括：

人脸检测单元，用于确定所述用户图像中所有人脸所在的位置；

人脸特征点检测单元，用于确定人脸的局部特征点位置。

优选地，所述人脸特征点检测单元，具体用于通过人脸位置区域的纹理特征和各特征点之间的位置约束进行人脸特征点检测。

优选地，所述第一信息提取模块包括：

用户属性相关信息获取单元，用于获取用户属性相关信息，所述用户属性相关信息包括年龄、化妆情况、表情信息、肤质、是否带眼镜和颜值信息；

相似度计算单元，用于计算人脸与明星的相似度，并确定与所述人脸相似度最高的明星；

时间获取单元，用于获取所述用户图像的拍摄时间。

优选地，所述第二信息提取模块包括：

无关人脸去除单元，用于去除所述用户图像中的无关人脸；

图像整体氛围估计单元，用于对去除无关人脸后的用户图像进行图像整体氛围估计；

人脸亲密度计算单元，用于对去除无关人脸后的用户图像进行人脸亲密度计算。

优选地，所述确定模块，具体用于利用统计建模的方式根据提取的图像特征信息确定向所述用户推荐的音视频；或者通过标签匹配的方式根据提取的图像特征信息确定向所述用户推荐的音视频。

优选地，如果人脸数量确定模块确定的人脸的数量为一个，并且确定模块确定向用户推荐的是视频，则所述系统还包括：

人脸图像提取模块，用于提取所述图像接收模块接收到的用户图像中的人脸图像；

个性化视频生成模块，用于将所述人脸图像提取模块提取到的人脸图像替换掉所述视频中待匹配人物的人脸，得到个性化视频；

所述推荐模块，具体用于将所述个性化视频生成单元生成的个性化视频推荐给所述用户。

优选地，如果所述视频中有多个人物，则所述个性化视频生成模块随机选择其中一个人物作为特匹配人物，或者确定所述视频中的主要人物作为待匹配人物。

本发明实施例提出一种基于人脸的音视频推荐方法及系统，根据用户图像中包含人脸的数量，将用户图像分为两种类型，即包含单个人脸的用户图像和包含多个人脸的用户图像，分别从不同角度提取两种类型用户图像的特征信息，从而可以更全面地分析用户需求，给用户推荐合适的音视频，提升用户体验度。

进一步地，对于包含多个人脸的图像，去除无关人脸后，再进行特征提取，避免了对无关人脸的操作，同时也减少了无关人脸对音视频推荐的干扰，从而保证在准确的找到适合推荐的音视频同时，提高了系统的运行效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例音视频推荐方法的流程图；

图2是本发明实施例音视频推荐方法中去除无关人脸过程的示意图；

图3是本发明实施例音视频推荐系统的一种结构示意图；

图4是本发明实施例音视频推荐系统的另一种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

本发明实施例提供的基于人脸的推荐方法及系统，接收用户发送的包含人脸的用户图像，确定所述用户图像中人脸的数量，根据人脸的数量提取包含单个或多个人脸的图像特征信息，根据提取的用户图像特征信息对所述用户进行音视频推荐。

如图1所示，是本发明实施例音视频推荐方法的流程图，包括以下步骤：

步骤101，接收用户发送的包含人脸的用户图像。

所述用户图像可以是用户使用移动终端设备拍摄的包含人脸的图像。所述包含人脸的图像包括用户的自拍照、朋友间的合照、家庭成员的全家福照片等。

所述移动终端设备可以是相机、手机、平板电脑、笔记本等。

步骤102，确定所述用户图像中人脸的数量。

所述确定用户图像中人脸的数量包括人脸检测、人脸的局部特征点定位。

所述人脸检测的目的是为了确定用户图像中所有人脸所在的位置，具体地，可以预先收集大量包含人脸的用户图像，通过提取SIFT(Scale-invariant feature transform，尺度不变特征转换)特征，训练人脸与非人脸的分类模型，利用该模型对用户图像中的人脸进行检测。人脸检测时，可以将大面积缺失的人脸图像直接去除，不进行后续分析。

在确定了用户图像中所有人脸所在的位置后，对该位置区域进行人脸特征点检测，以确定人脸的局部特征点(如眼睛、眉毛、鼻子、嘴巴、脸部外轮廓)的位置。具体定位时，可以通过人脸的纹理特征和各特征点之间的位置约束，例如可以采用ASM(Active Shape Model)或AAM(ActiveAppreance Model)算法进行人脸特征点定位。定位后，可以得到图像中每个人脸的局部特征点位置。

根据用户图像的人脸检测、人脸的局部特征点定位结果，即可确定用户图像中人脸的数量。如果为一个，则执行步骤103；如果多于一个，则执行步骤104；如果不包含人脸，则不进行音视频推荐或推荐预先设定的通用音视频。

步骤103，提取包含单个人脸用户图像相关的特征信息。

具体地，单个人脸特征提取主要包括根据单个人脸信息获取用户属性相关信息(如年龄、性别、是否化妆等信息)、计算明星相似度、获取用户图像的拍摄时间，具体如下所述：

所述用户属性信息包括：年龄、化妆情况、表情信息、肤色、是否带眼镜、颜值等。根据所述用户属性信息可以判断出用户的基本情况，对于不同的用户属性信息，可以按以下方式划分其取值：

对于年龄信息，可以根据年龄段分为：幼儿、少年、青年、中年、老年；

对于化妆情况，根据化妆程度分为：浓妆、淡妆、无妆；

对于表情信息，可以将人脸表情划分为搞怪、欢乐、喜、怒、哀五种类型，或者进行更精细的划分；

对于肤色，可以根据皮肤的好坏分为：较好、普通、较差；

对于是否带眼镜：可以分为带眼镜、不带眼镜；

对于颜值信息，可以根据五官的分布情况：从0到100，进行打分。

上述各种用户属性相关信息取值的确定可以利用所述用户属性及预先训练得到的人脸分析模型，进行用户属性值的预测。所述人脸分析模型可以采用DNN(Deep Neural Network，深度神经网络)等模型，所述模型可通过预先收集大量数据训练得到。

明星相似度计算可以找出与当前人脸相似度最高的明星。后续进行音视频推荐时，可以推荐一些与所述用户相似度最高的明星的歌曲或综艺节目等。相似度的计算可以采用现有的一些方法。例如：通过提取两张图像中人脸特征进行相似度计算，如通过余弦距离度量人脸特征的相似度，将所有特征的相似度进行融合后，得到最终的相似度，根据所述相似度的计算，找到与所述用户图像中人脸相似度最高的明星。

获取用户图像的拍摄时间，具体可以通过所述移动终端设备的系统时间获取到用户图像的拍摄时间。为了方便音视频推荐，可以将拍摄时间按时间段进行划分，划分为：早晨、中午、下午、傍晚、深夜。早晨拍摄的图像可以推荐一些有活力的音乐，深夜拍摄的图像可以推荐一些舒缓的有助于睡眠的音乐。

步骤104，提取包含多个人脸的图像特征信息。

对于包含多个人脸的用户图像，可以提取的图像特征信息可以有：图像整体氛围、人脸亲密度等。

需要说明的是，所述用户图像中包含多个人脸时，为了防止一些误入镜头的人脸干扰音视频推荐，还可以先去除用户图像中的无关人脸后，再估计用户图像整体氛围特征和计算人脸亲密度特征。

所述无关人脸主要指与用户图像中其他人脸距离较远的人脸或者是与用户图像中其他人脸朝向差别较大的人脸，例如倾斜度差别较大的人脸，具体去除无关人脸的方法如下所述:

(1)以用户图像中心点为原点建立空间坐标系，所述用户图像所在平面作为XOY平面。

(2)确定所述用户图像中所有人脸朝向及人物眼球朝向。

(3)根据人脸眼球的朝向,向Z轴引出两条目光射线，构建每个人的目光约束面，如图2中平面ABDE或平面BDFG分别为两个人的目光约束面。

(4)如果不同人的两目光约束面交集为线段，则选取线段中点作为交点，如图2中的C点；如果不同人的两目光约束面交集为四边形，则取四边形中心点为交点，然后以所述交点为球心，以预先设定的半径作视觉集中球体，如图2中的球体H即为两人视觉集中球体。

(5)取落入所述球体内交点最多的视觉集中球体的球心作为视觉空间集中点。如图2中，只有一个视觉集中球体H，球体内落入了一个交点C，则取球心C为视觉空间集中点。

(6)将所述视觉空间集中点C向图像所在XOY平面进行投影，如果视觉空间集中点C的投影落在图像范围内，则将在视觉空间集中点C所在的球体H内的目光约束面对应的人脸全部保留，其余不在视觉空间集中点C所在的球体H内的目光约束面对应的人脸作为无关人脸，将所述无关人脸从用户图像的人脸中删除；否则，删除所述视觉空间集中点，重新选择落在视觉集中球体内交点数量次之的球体对应的球心作为视觉空间集中点，重新执行步骤(6)。

所述用户图像的整体氛围主要描述用户图像中人脸的总体表情，具体判断方法根据图像中人脸的表情进行判断。可以将图像整体氛围按表情表现程度进行划分，具体划分方法不限定，例如将整体氛围从欢乐到悲伤依次划分为三个等级：欢乐，中性，以及悲伤。如果用户图像中大部分人脸的表情都为微笑，则认为图像的整体氛围为欢乐，可以推荐一些较为轻松的音乐；如果大部分人脸的表情都为严肃，几乎没有人微笑，则认为整体氛围为悲伤，可以推荐一些较为平缓的音乐；否则认为图像的整体氛围为中性，推荐一些通用音乐。对所述用户图像整体氛围估计时，首先需要判断出图像中每个人脸的表情，具体判断时，可采用统计建模的方法进行判断，例如采用分类模型对人脸表情进行判断后，根据图像中大部分人脸的表情，估计所述用户图像整体氛围等级。

所述人脸亲密度特征主要用来描述人脸之间的亲密程度。在音视频推荐时，所述人脸之间的亲密程度作为反映用户图像中人脸之间亲密关系的特征,辅助音视频推荐。所述人脸之间的亲密程度可以根据两张人脸在用户图像中的距离进行计算，一般距离越近，说明亲密度越高，反之亦然。具体计算方法如式(1)所示：

I_{\deg} (x_{a}, x_{b}) = \frac{1}{d (x_{a}, x_{b})} - - - (1)

其中I_deg(x_a,x_b)为基于距离的人脸亲密度，x_a,x_b分别为两张人脸a和b在用户图像中的中心点，d(x_a,x_b)表示两张人脸中心点之间的空间距离。所述d(x_a,x_b)以欧氏距离为例，计算方法如式(2)所示：

d (x_{a}, x_{b}) = \sqrt{{(p_{x a} - p_{x b})}^{2} + {(p_{y a} - p_{y b})}^{2}} - - - (2)

其中，(p_xa,p_ya)和(p_xb,p_yb)为两张人脸a和b的中心点在用户图像中的横纵轴坐标。

步骤105，根据提取的图像特征信息确定向所述用户推荐的音视频。

具体地，可以利用统计建模的方法根据提取的图像特征信息确定向所述用户推荐的音视频，即预先收集大量数据训练包含单个人脸图像的音频推荐模型，及包含多个人脸图像的音频推荐模型，然后利用相应模型根据当前图像的特征信息进行音频推荐；或者通过标签匹配的方式根据提取的图像特征信息确定向所述用户推荐的音视频，即对音频库、视频库的音视频标注相应的标签，将提取的图像特征作为图像的标签，通过匹配算法，进行标签匹配，选择匹配度较高的音视频。所述音视频可以为音乐，也可以为其它类型的声音，例如有声小说、故事、相声、评书；所述视频可以是综艺节目、影视片段等。

步骤106，将所述音视频推荐给所述用户。需要说明的是，步骤105确定的音视频可以是一个或多个，相应地，在向用户推荐时，可以采用Top1或多侯选的方式展示给用户，例如，将向用户推荐的音频Top1直接作为图像的背景音频，当用户切换下一首时，可以从多侯选中依次选择相应音频播放；

为了增强与用户的互动效果，在本发明另一实施例中，还可以在用户图像中人脸的数量为一个，并且向用户推荐的是视频的情况下，将确定推荐的视频转换成个性化视频推送给用户。具体地，提取所述用户图像中的人脸图像；将所述人脸图像替换掉所述视频中待匹配人物的人脸，得到个性化视频；将该个性化视频推送给所述用户。人脸图像的替换方法可以采用现有的一些抠像等技术，并且在替换时可以根据视频环境对替换后的头像进行相应的调整等，使生成的个性化视频有更好的视频效果。当然，在用户图像中人脸的数量有多个的情况下，也可以随机提取其中一个的人脸图像。

另外，如果向用户推荐的视频中有多个人物，还可以确定所述视频中的主要人物，并将所述主要人物作为待匹配人物。确定视频的主要人物具体方法不限，比如可以采用聚类等方法来确定。当然也可以随机选取视频中的一个人物作为待匹配人物，对此本发明实施例不做限定。

本发明实施例提出一种基于人脸的音视频推荐方法，根据用户图像中包含人脸的数量，将用户图像分为两种类型，即包含单个人脸的用户图像和包含多个人脸的用户图像，分别从不同角度提取两种类型用户图像的特征信息，从而可以更全面地分析用户需求，给用户推荐合适的音视频，提升用户体验度。

相应地，本发明实施例还提供一种基于人脸的音视频推荐系统，如图3所示，是本发明实施例音视频推荐系统的一种结构示意图。

在本发明实施例中，所述系统包括：

图像接收模块301，用于接收用户发送的包含人脸的用户图像；

人脸数量确定模块302，用于确定所述用户图像中人脸的数量；

第一信息提取模块303，用于人脸的数量为一个时，提取包含单个人脸的图像特征信息；

第二信息提取模块304，用于人脸的数量为多个时，提取包含多个人脸的图像特征信息；

确定模块305，用于根据第一信息提取模块303或者第二信息提取模块304提取出的图像特征信息确定向所述用户推荐的音视频；

推荐模块306，用于将确定模块305确定的音视频推荐给所述用户。

所述人脸数量确定模块302的一种具体结构可以包括以下各单元：

人脸特征点检测单元，用于确定人脸的局部特征点位置。

所述人脸特征点检测单元具体可以通过人脸位置区域的纹理特征和各特征点之间的位置约束进行人脸特征点检测。

所述第一信息提取模块303的一种具体结构可以包括以下各单元：

时间获取单元，用于获取所述用户图像的拍摄时间单元。

所述第二信息提取模块304的一种具体结构可以包括以下各单元：

无关人脸去除单元，用于去除所述用户图像中的无关人脸；

上述无关人脸去除单元去除用户图像中的无关人脸的过程可参照前面本发明方法实施例中的描述，在此不再赘述。

所述确定模块305具体可以利用统计建模的方式根据提取的图像特征信息确定向所述用户推荐的音视频；或者通过标签匹配的方式根据提取的图像特征信息确定向所述用户推荐的音视频。

如图4所示，在本发明系统另一实施例中，在人脸数量确定模块确定的人脸的数量为一个，并且确定模块确定的是视频的情况下，所述系统还可进一步包括：

人脸图像提取模块401，用于提取所述图像接收模块301接收到的用户图像中的人脸图像；

个性化视频生成模块402，用于将所述人脸图像提取模块401提取到的人脸图像替换掉所述视频中待匹配人物的人脸，得到个性化视频。具体替换方式本发明实施例不做限定。

相应地，在该实施例中，推荐模块306是将所述个性化视频生成模块402生成的个性化视频推荐给所述用户。

需要说明的是，向用户推荐的视频中有多个人物的情况下，个性化视频生成模块402可以任意选择其中一个人物作为待匹配人物，也可以先确定所述视频中的主要人物，然后将所述主要人物作为待匹配人物。主要人物的确定可以采用现有的一些技术，对此本发明实施例不做限定。

本发明实施例提出一种基于人脸的音视频推荐系统，根据用户图像中包含人脸的数量，将用户图像分为两种类型，即包含单个人脸的用户图像和包含多个人脸的用户图像，分别从不同角度提取两种类型用户图像的特征信息，从而可以更全面地分析用户需求，给用户推荐合适的音视频，提升用户体验度。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及系统；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于人脸的音视频推荐方法，其特征在于，包括：

接收用户发送的包含人脸的用户图像；

确定所述用户图像中人脸的数量；

根据提取的图像特征信息确定向所述用户推荐的音视频；

将所述音视频推荐给所述用户。

2.根据权利要求1所述的方法，其特征在于，所述确定用户图像中人脸的数量包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述位置区域进行人脸特征点检测包括:

4.根据权利要求1所述的方法，其特征在于，所述提取包含单个人脸的图像特征信息包括：

获取所述用户图像的拍摄时间。

5.根据权利要求1所述的方法，其特征在于，所述提取包含多个人脸的图像特征信息包括：

去除所述用户图像中的无关人脸；

6.根据权利要求5所述的方法，其特征在于，所述去除用户图像中的无关人脸包括：

(2)确定所述用户图像中所有人脸朝向及人脸眼球朝向；

7.根据权利要求5所述的方法，其特征在于，所述整体氛围包括：欢乐、中性以及悲伤；

8.根据权利要求1-7任一项所述的方法，其特征在于，所述根据提取的图像特征信息确定向所述用户推荐的音视频包括：

9.根据权利要求1-7任一项所述的方法，其特征在于，如果人脸的数量为一个，并且确定向用户推荐的是视频，则在将所述视频推荐给所述用户之前，还包括：

提取所述用户图像中的人脸图像；

将所述人脸图像替换掉所述视频中待匹配人物的人脸。

10.根据权利要求9所述的方法，其特征在于，如果向用户推荐的视频中有多个人物，则所述方法还包括：

随机选择所述视频中的一个人物作为特匹配人物；或者

11.一种基于人脸的音视频推荐系统，其特征在于，包括:

图像接收模块，用于接收用户发送的包含人脸的用户图像；

人脸数量确定模块，用于确定所述用户图像中人脸的数量；

推荐模块，用于将所述音视频推荐给所述用户。

12.根据权利要求11所述的系统，其特征在于，所述人脸数量确定模块包括：

人脸特征点检测单元，用于确定人脸的局部特征点位置。

13.根据权利要求12所述的系统，其特征在于，

所述人脸特征点检测单元，具体用于通过人脸位置区域的纹理特征和各特征点之间的位置约束进行人脸特征点检测。

14.根据权利要求11所述的系统，其特征在于，所述第一信息提取模块包括：

时间获取单元，用于获取所述用户图像的拍摄时间。

15.根据权利要求11所述的系统，其特征在于，所述第二信息提取模块包括：

无关人脸去除单元，用于去除所述用户图像中的无关人脸；

16.根据权利要求11-15任一项所述的系统，其特征在于，所述确定模块，具体用于利用统计建模的方式根据提取的图像特征信息确定向所述用户推荐的音视频；或者通过标签匹配的方式根据提取的图像特征信息确定向所述用户推荐的音视频。

17.根据权利要求11-15任一项所述的系统，其特征在于，如果人脸数量确定模块确定的人脸的数量为一个，并且确定模块确定向用户推荐的是视频，则所述系统还包括：

18.根据权利要求17所述的系统，其特征在于，

如果所述视频中有多个人物，则所述个性化视频生成模块随机选择其中一个人物作为特匹配人物，或者确定所述视频中的主要人物作为待匹配人物。