CN105005777A - 一种基于人脸的音视频推荐方法及系统 - Google Patents

一种基于人脸的音视频推荐方法及系统 Download PDF

Info

Publication number
CN105005777A
CN105005777A CN201510467751.9A CN201510467751A CN105005777A CN 105005777 A CN105005777 A CN 105005777A CN 201510467751 A CN201510467751 A CN 201510467751A CN 105005777 A CN105005777 A CN 105005777A
Authority
CN
China
Prior art keywords
face
video
user
user images
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510467751.9A
Other languages
English (en)
Other versions
CN105005777B (zh
Inventor
吴子扬
陈磊
杨溥
王影
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201510467751.9A priority Critical patent/CN105005777B/zh
Publication of CN105005777A publication Critical patent/CN105005777A/zh
Application granted granted Critical
Publication of CN105005777B publication Critical patent/CN105005777B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • G06F16/436Filtering based on additional data, e.g. user or group profiles using biological or physiological data of a human being, e.g. blood pressure, facial expression, gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Physiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明涉及信息处理领域,公开了一种基于人脸的音视频推荐方法及系统。该方法包括:接收用户发送的包含人脸的用户图像;确定所述用户图像中人脸的数量;如果人脸的数量为一个,则提取包含单个人脸的图像特征信息;如果人脸的数量为多个,则提取包含多个人脸的图像特征信息;根据提取的图像特征信息确定向所述用户推荐的音视频;将所述音视频推荐给所述用户。利用本发明可以更全面地分析图像,找到用户需求,给用户推荐合适的音视频,提升用户体验度。

Description

一种基于人脸的音视频推荐方法及系统
技术领域
本发明涉及信息处理领域,具体涉及一种基于人脸的音视频推荐方法及系统。
背景技术
随着现代生活水平的不断提高,人们对于娱乐化的需求也越来越多样性,计算机技术、图像识别技术已逐步应用于日常生活中各个领域中,例如,可以在数以亿万计的人群中迅速定位目标人物,也可以根据人脸图像判断人脸表情信息。目前随着音视频内容的多样性,音视频压缩技术的成熟,存储技术的提高,出现了大量根据人脸图像推荐音乐的应用,该应用将音乐与图像以一种新的形式展现给用户,受到了越来越多用户的关注与喜爱。现有的根据人脸图像推荐音乐的方法,主要通过分析人脸的表情信息进行音乐推荐,如高兴的表情,就会推荐一些令人心情愉快的音乐,悲伤的表情,会推荐一些节奏较平缓的音乐。现有方法主要针对包含单个人脸的图像,通过分析单个人脸的表情信息进行音乐推荐。当图像中包含多个人脸时,很难分析出具体根据哪个人脸的表情进行音乐推荐,尤其是在多个人脸表情不一致或图像中存在较多无关人脸的情况下,很难找到合适的音乐进行推荐。此外,现有方法的推荐内容局限于音乐,对于其它的音频不能推荐,大大降低了用户体验度。
发明内容
本发明提供一种基于人脸的音视频推荐方法及系统,可以更全面地分析图像,找到适合的音视频推荐给用户,提升用户体验度。
为此,本发明提供如下技术方案:
一种基于人脸的音视频推荐方法,包括:
接收用户发送的包含人脸的用户图像;
确定所述用户图像中人脸的数量;
如果人脸的数量为一个,则提取包含单个人脸的图像特征信息;
如果人脸的数量为多个,则提取包含多个人脸的图像特征信息;
根据提取的图像特征信息确定向所述用户推荐的音视频;
将所述音视频推荐给所述用户。
优选地,所述确定用户图像中人脸的数量包括:
对所述用户图像进行人脸检测,以确定所述用户图像中所有人脸所在的位置;
对所述位置区域进行人脸特征点检测,以确定人脸的局部特征点位置。
优选地,所述对所述位置区域进行人脸特征点检测包括:
通过所述位置区域的纹理特征和各特征点之间的位置约束进行人脸特征点检测。
优选地,所述提取包含单个人脸的图像特征信息包括:
获取用户属性相关信息,所述用户属性相关信息包括年龄、化妆情况、表情信息、肤质、是否带眼镜和颜值信息;
计算所述人脸与明星的相似度,确定与所述人脸相似度最高的明星;
获取所述用户图像的拍摄时间。
优选地,所述提取包含多个人脸的图像特征信息包括:
去除所述用户图像中的无关人脸;
对去除无关人脸后的用户图像进行图像整体氛围估计和人脸亲密度计算。
优选地,所述去除用户图像中的无关人脸包括:
(1)以所述用户图像中心点为原点建立空间坐标系,图像所在平面作为XOY平面;
(2)确定所述用户图像中所有人脸朝向及人脸眼球朝向;
(3)根据每个人脸眼球朝向,分别向空间坐标系的Z轴引出两条目光射线,构目光约束面;
(4)如果不同人的两目光约束面的交集为线段,则选取线段中点作为交点;如果不同人的两目光约束面的交集为四边形,则取四边形中心点作为交点;然后以所述交点为球心作视觉集中球体;
(5)取落入所述球体内交点最多的视觉集中球体的球心作为视觉空间集中点;
(6)将所述视觉空间集中点向用户图像所在的XOY平面进行投影;
(7)如果所述视觉空间集中点的投影落在用户图像范围内,则将在视觉空间集中点所在球体内的目光约束面对应的人脸全部保留,其余目光约束面对应的人脸作为无关人脸删除;否则删除当前视觉空间集中点,重新选择视觉集中球体内交点数量次之的球体对应的球心作为视觉空间集中点,重新执行步骤(6)至步骤(7)。
优选地,所述整体氛围包括:欢乐、中性以及悲伤;
所述对去除无关人脸后的用户图像进行人脸亲密度计算包括:
根据去除无关人脸后的用户图像中两个人脸在图像中的距离计算人脸亲密度。
优选地,所述根据提取的图像特征信息确定向所述用户推荐的音视频包括:
利用统计建模的方式根据提取的图像特征信息确定向所述用户推荐的音视频;或者
通过标签匹配的方式根据提取的图像特征信息确定向所述用户推荐的音视频。
优选地,如果人脸的数量为一个,并且确定向用户推荐的是视频,则在将所述视频推荐给所述用户之前,还包括:
提取所述用户图像中的人脸图像;
将所述人脸图像替换掉所述视频中待匹配人物的人脸。
优选地,如果向用户推荐的视频中有多个人物,则所述方法还包括:
随机选择所述视频中的一个人物作为特匹配人物;或者
确定所述视频中的主要人物,并将所述主要人物作为待匹配人物。
一种基于人脸的音视频推荐系统,包括:
图像接收模块,用于接收用户发送的包含人脸的用户图像;
人脸数量确定模块,用于确定所述用户图像中人脸的数量;
第一信息提取模块,用于人脸的数量为一个时,提取包含单个人脸的图像特征信息;
第二信息提取模块,用于人脸的数量为多个时,提取包含多个人脸的图像特征信息;
确定模块,用于根据第一信息提取模块或者第二信息提取模块提取出的图像特征信息确定向所述用户推荐的音视频;
推荐模块,用于将所述音视频推荐给所述用户。
优选地,所述人脸数量确定模块包括:
人脸检测单元,用于确定所述用户图像中所有人脸所在的位置;
人脸特征点检测单元,用于确定人脸的局部特征点位置。
优选地,所述人脸特征点检测单元,具体用于通过人脸位置区域的纹理特征和各特征点之间的位置约束进行人脸特征点检测。
优选地,所述第一信息提取模块包括:
用户属性相关信息获取单元,用于获取用户属性相关信息,所述用户属性相关信息包括年龄、化妆情况、表情信息、肤质、是否带眼镜和颜值信息;
相似度计算单元,用于计算人脸与明星的相似度,并确定与所述人脸相似度最高的明星;
时间获取单元,用于获取所述用户图像的拍摄时间。
优选地,所述第二信息提取模块包括:
无关人脸去除单元,用于去除所述用户图像中的无关人脸;
图像整体氛围估计单元,用于对去除无关人脸后的用户图像进行图像整体氛围估计;
人脸亲密度计算单元,用于对去除无关人脸后的用户图像进行人脸亲密度计算。
优选地,所述确定模块,具体用于利用统计建模的方式根据提取的图像特征信息确定向所述用户推荐的音视频;或者通过标签匹配的方式根据提取的图像特征信息确定向所述用户推荐的音视频。
优选地,如果人脸数量确定模块确定的人脸的数量为一个,并且确定模块确定向用户推荐的是视频,则所述系统还包括:
人脸图像提取模块,用于提取所述图像接收模块接收到的用户图像中的人脸图像;
个性化视频生成模块,用于将所述人脸图像提取模块提取到的人脸图像替换掉所述视频中待匹配人物的人脸,得到个性化视频;
所述推荐模块,具体用于将所述个性化视频生成单元生成的个性化视频推荐给所述用户。
优选地,如果所述视频中有多个人物,则所述个性化视频生成模块随机选择其中一个人物作为特匹配人物,或者确定所述视频中的主要人物作为待匹配人物。
本发明实施例提出一种基于人脸的音视频推荐方法及系统,根据用户图像中包含人脸的数量,将用户图像分为两种类型,即包含单个人脸的用户图像和包含多个人脸的用户图像,分别从不同角度提取两种类型用户图像的特征信息,从而可以更全面地分析用户需求,给用户推荐合适的音视频,提升用户体验度。
进一步地,对于包含多个人脸的图像,去除无关人脸后,再进行特征提取,避免了对无关人脸的操作,同时也减少了无关人脸对音视频推荐的干扰,从而保证在准确的找到适合推荐的音视频同时,提高了系统的运行效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例音视频推荐方法的流程图;
图2是本发明实施例音视频推荐方法中去除无关人脸过程的示意图;
图3是本发明实施例音视频推荐系统的一种结构示意图;
图4是本发明实施例音视频推荐系统的另一种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
本发明实施例提供的基于人脸的推荐方法及系统,接收用户发送的包含人脸的用户图像,确定所述用户图像中人脸的数量,根据人脸的数量提取包含单个或多个人脸的图像特征信息,根据提取的用户图像特征信息对所述用户进行音视频推荐。
如图1所示,是本发明实施例音视频推荐方法的流程图,包括以下步骤:
步骤101,接收用户发送的包含人脸的用户图像。
所述用户图像可以是用户使用移动终端设备拍摄的包含人脸的图像。所述包含人脸的图像包括用户的自拍照、朋友间的合照、家庭成员的全家福照片等。
所述移动终端设备可以是相机、手机、平板电脑、笔记本等。
步骤102,确定所述用户图像中人脸的数量。
所述确定用户图像中人脸的数量包括人脸检测、人脸的局部特征点定位。
所述人脸检测的目的是为了确定用户图像中所有人脸所在的位置,具体地,可以预先收集大量包含人脸的用户图像,通过提取SIFT(Scale-invariant feature transform,尺度不变特征转换)特征,训练人脸与非人脸的分类模型,利用该模型对用户图像中的人脸进行检测。人脸检测时,可以将大面积缺失的人脸图像直接去除,不进行后续分析。
在确定了用户图像中所有人脸所在的位置后,对该位置区域进行人脸特征点检测,以确定人脸的局部特征点(如眼睛、眉毛、鼻子、嘴巴、脸部外轮廓)的位置。具体定位时,可以通过人脸的纹理特征和各特征点之间的位置约束,例如可以采用ASM(Active Shape Model)或AAM(ActiveAppreance Model)算法进行人脸特征点定位。定位后,可以得到图像中每个人脸的局部特征点位置。
根据用户图像的人脸检测、人脸的局部特征点定位结果,即可确定用户图像中人脸的数量。如果为一个,则执行步骤103;如果多于一个,则执行步骤104;如果不包含人脸,则不进行音视频推荐或推荐预先设定的通用音视频。
步骤103,提取包含单个人脸用户图像相关的特征信息。
具体地,单个人脸特征提取主要包括根据单个人脸信息获取用户属性相关信息(如年龄、性别、是否化妆等信息)、计算明星相似度、获取用户图像的拍摄时间,具体如下所述:
所述用户属性信息包括:年龄、化妆情况、表情信息、肤色、是否带眼镜、颜值等。根据所述用户属性信息可以判断出用户的基本情况,对于不同的用户属性信息,可以按以下方式划分其取值:
对于年龄信息,可以根据年龄段分为:幼儿、少年、青年、中年、老年;
对于化妆情况,根据化妆程度分为:浓妆、淡妆、无妆;
对于表情信息,可以将人脸表情划分为搞怪、欢乐、喜、怒、哀五种类型,或者进行更精细的划分;
对于肤色,可以根据皮肤的好坏分为:较好、普通、较差;
对于是否带眼镜:可以分为带眼镜、不带眼镜;
对于颜值信息,可以根据五官的分布情况:从0到100,进行打分。
上述各种用户属性相关信息取值的确定可以利用所述用户属性及预先训练得到的人脸分析模型,进行用户属性值的预测。所述人脸分析模型可以采用DNN(Deep Neural Network,深度神经网络)等模型,所述模型可通过预先收集大量数据训练得到。
明星相似度计算可以找出与当前人脸相似度最高的明星。后续进行音视频推荐时,可以推荐一些与所述用户相似度最高的明星的歌曲或综艺节目等。相似度的计算可以采用现有的一些方法。例如:通过提取两张图像中人脸特征进行相似度计算,如通过余弦距离度量人脸特征的相似度,将所有特征的相似度进行融合后,得到最终的相似度,根据所述相似度的计算,找到与所述用户图像中人脸相似度最高的明星。
获取用户图像的拍摄时间,具体可以通过所述移动终端设备的系统时间获取到用户图像的拍摄时间。为了方便音视频推荐,可以将拍摄时间按时间段进行划分,划分为:早晨、中午、下午、傍晚、深夜。早晨拍摄的图像可以推荐一些有活力的音乐,深夜拍摄的图像可以推荐一些舒缓的有助于睡眠的音乐。
步骤104,提取包含多个人脸的图像特征信息。
对于包含多个人脸的用户图像,可以提取的图像特征信息可以有:图像整体氛围、人脸亲密度等。
需要说明的是,所述用户图像中包含多个人脸时,为了防止一些误入镜头的人脸干扰音视频推荐,还可以先去除用户图像中的无关人脸后,再估计用户图像整体氛围特征和计算人脸亲密度特征。
所述无关人脸主要指与用户图像中其他人脸距离较远的人脸或者是与用户图像中其他人脸朝向差别较大的人脸,例如倾斜度差别较大的人脸,具体去除无关人脸的方法如下所述:
(1)以用户图像中心点为原点建立空间坐标系,所述用户图像所在平面作为XOY平面。
(2)确定所述用户图像中所有人脸朝向及人物眼球朝向。
(3)根据人脸眼球的朝向,向Z轴引出两条目光射线,构建每个人的目光约束面,如图2中平面ABDE或平面BDFG分别为两个人的目光约束面。
(4)如果不同人的两目光约束面交集为线段,则选取线段中点作为交点,如图2中的C点;如果不同人的两目光约束面交集为四边形,则取四边形中心点为交点,然后以所述交点为球心,以预先设定的半径作视觉集中球体,如图2中的球体H即为两人视觉集中球体。
(5)取落入所述球体内交点最多的视觉集中球体的球心作为视觉空间集中点。如图2中,只有一个视觉集中球体H,球体内落入了一个交点C,则取球心C为视觉空间集中点。
(6)将所述视觉空间集中点C向图像所在XOY平面进行投影,如果视觉空间集中点C的投影落在图像范围内,则将在视觉空间集中点C所在的球体H内的目光约束面对应的人脸全部保留,其余不在视觉空间集中点C所在的球体H内的目光约束面对应的人脸作为无关人脸,将所述无关人脸从用户图像的人脸中删除;否则,删除所述视觉空间集中点,重新选择落在视觉集中球体内交点数量次之的球体对应的球心作为视觉空间集中点,重新执行步骤(6)。
所述用户图像的整体氛围主要描述用户图像中人脸的总体表情,具体判断方法根据图像中人脸的表情进行判断。可以将图像整体氛围按表情表现程度进行划分,具体划分方法不限定,例如将整体氛围从欢乐到悲伤依次划分为三个等级:欢乐,中性,以及悲伤。如果用户图像中大部分人脸的表情都为微笑,则认为图像的整体氛围为欢乐,可以推荐一些较为轻松的音乐;如果大部分人脸的表情都为严肃,几乎没有人微笑,则认为整体氛围为悲伤,可以推荐一些较为平缓的音乐;否则认为图像的整体氛围为中性,推荐一些通用音乐。对所述用户图像整体氛围估计时,首先需要判断出图像中每个人脸的表情,具体判断时,可采用统计建模的方法进行判断,例如采用分类模型对人脸表情进行判断后,根据图像中大部分人脸的表情,估计所述用户图像整体氛围等级。
所述人脸亲密度特征主要用来描述人脸之间的亲密程度。在音视频推荐时,所述人脸之间的亲密程度作为反映用户图像中人脸之间亲密关系的特征,辅助音视频推荐。所述人脸之间的亲密程度可以根据两张人脸在用户图像中的距离进行计算,一般距离越近,说明亲密度越高,反之亦然。具体计算方法如式(1)所示:
I deg ( x a , x b ) = 1 d ( x a , x b ) - - - ( 1 )
其中Ideg(xa,xb)为基于距离的人脸亲密度,xa,xb分别为两张人脸a和b在用户图像中的中心点,d(xa,xb)表示两张人脸中心点之间的空间距离。所述d(xa,xb)以欧氏距离为例,计算方法如式(2)所示:
d ( x a , x b ) = ( p x a - p x b ) 2 + ( p y a - p y b ) 2 - - - ( 2 )
其中,(pxa,pya)和(pxb,pyb)为两张人脸a和b的中心点在用户图像中的横纵轴坐标。
步骤105,根据提取的图像特征信息确定向所述用户推荐的音视频。
具体地,可以利用统计建模的方法根据提取的图像特征信息确定向所述用户推荐的音视频,即预先收集大量数据训练包含单个人脸图像的音频推荐模型,及包含多个人脸图像的音频推荐模型,然后利用相应模型根据当前图像的特征信息进行音频推荐;或者通过标签匹配的方式根据提取的图像特征信息确定向所述用户推荐的音视频,即对音频库、视频库的音视频标注相应的标签,将提取的图像特征作为图像的标签,通过匹配算法,进行标签匹配,选择匹配度较高的音视频。所述音视频可以为音乐,也可以为其它类型的声音,例如有声小说、故事、相声、评书;所述视频可以是综艺节目、影视片段等。
步骤106,将所述音视频推荐给所述用户。需要说明的是,步骤105确定的音视频可以是一个或多个,相应地,在向用户推荐时,可以采用Top1或多侯选的方式展示给用户,例如,将向用户推荐的音频Top1直接作为图像的背景音频,当用户切换下一首时,可以从多侯选中依次选择相应音频播放;
为了增强与用户的互动效果,在本发明另一实施例中,还可以在用户图像中人脸的数量为一个,并且向用户推荐的是视频的情况下,将确定推荐的视频转换成个性化视频推送给用户。具体地,提取所述用户图像中的人脸图像;将所述人脸图像替换掉所述视频中待匹配人物的人脸,得到个性化视频;将该个性化视频推送给所述用户。人脸图像的替换方法可以采用现有的一些抠像等技术,并且在替换时可以根据视频环境对替换后的头像进行相应的调整等,使生成的个性化视频有更好的视频效果。当然,在用户图像中人脸的数量有多个的情况下,也可以随机提取其中一个的人脸图像。
另外,如果向用户推荐的视频中有多个人物,还可以确定所述视频中的主要人物,并将所述主要人物作为待匹配人物。确定视频的主要人物具体方法不限,比如可以采用聚类等方法来确定。当然也可以随机选取视频中的一个人物作为待匹配人物,对此本发明实施例不做限定。
本发明实施例提出一种基于人脸的音视频推荐方法,根据用户图像中包含人脸的数量,将用户图像分为两种类型,即包含单个人脸的用户图像和包含多个人脸的用户图像,分别从不同角度提取两种类型用户图像的特征信息,从而可以更全面地分析用户需求,给用户推荐合适的音视频,提升用户体验度。
进一步地,对于包含多个人脸的图像,去除无关人脸后,再进行特征提取,避免了对无关人脸的操作,同时也减少了无关人脸对音视频推荐的干扰,从而保证在准确的找到适合推荐的音视频同时,提高了系统的运行效率。
相应地,本发明实施例还提供一种基于人脸的音视频推荐系统,如图3所示,是本发明实施例音视频推荐系统的一种结构示意图。
在本发明实施例中,所述系统包括:
图像接收模块301,用于接收用户发送的包含人脸的用户图像;
人脸数量确定模块302,用于确定所述用户图像中人脸的数量;
第一信息提取模块303,用于人脸的数量为一个时,提取包含单个人脸的图像特征信息;
第二信息提取模块304,用于人脸的数量为多个时,提取包含多个人脸的图像特征信息;
确定模块305,用于根据第一信息提取模块303或者第二信息提取模块304提取出的图像特征信息确定向所述用户推荐的音视频;
推荐模块306,用于将确定模块305确定的音视频推荐给所述用户。
所述人脸数量确定模块302的一种具体结构可以包括以下各单元:
人脸检测单元,用于确定所述用户图像中所有人脸所在的位置;
人脸特征点检测单元,用于确定人脸的局部特征点位置。
所述人脸特征点检测单元具体可以通过人脸位置区域的纹理特征和各特征点之间的位置约束进行人脸特征点检测。
所述第一信息提取模块303的一种具体结构可以包括以下各单元:
用户属性相关信息获取单元,用于获取用户属性相关信息,所述用户属性相关信息包括年龄、化妆情况、表情信息、肤质、是否带眼镜和颜值信息;
相似度计算单元,用于计算人脸与明星的相似度,并确定与所述人脸相似度最高的明星;
时间获取单元,用于获取所述用户图像的拍摄时间单元。
所述第二信息提取模块304的一种具体结构可以包括以下各单元:
无关人脸去除单元,用于去除所述用户图像中的无关人脸;
图像整体氛围估计单元,用于对去除无关人脸后的用户图像进行图像整体氛围估计;
人脸亲密度计算单元,用于对去除无关人脸后的用户图像进行人脸亲密度计算。
上述无关人脸去除单元去除用户图像中的无关人脸的过程可参照前面本发明方法实施例中的描述,在此不再赘述。
所述确定模块305具体可以利用统计建模的方式根据提取的图像特征信息确定向所述用户推荐的音视频;或者通过标签匹配的方式根据提取的图像特征信息确定向所述用户推荐的音视频。
如图4所示,在本发明系统另一实施例中,在人脸数量确定模块确定的人脸的数量为一个,并且确定模块确定的是视频的情况下,所述系统还可进一步包括:
人脸图像提取模块401,用于提取所述图像接收模块301接收到的用户图像中的人脸图像;
个性化视频生成模块402,用于将所述人脸图像提取模块401提取到的人脸图像替换掉所述视频中待匹配人物的人脸,得到个性化视频。具体替换方式本发明实施例不做限定。
相应地,在该实施例中,推荐模块306是将所述个性化视频生成模块402生成的个性化视频推荐给所述用户。
需要说明的是,向用户推荐的视频中有多个人物的情况下,个性化视频生成模块402可以任意选择其中一个人物作为待匹配人物,也可以先确定所述视频中的主要人物,然后将所述主要人物作为待匹配人物。主要人物的确定可以采用现有的一些技术,对此本发明实施例不做限定。
本发明实施例提出一种基于人脸的音视频推荐系统,根据用户图像中包含人脸的数量,将用户图像分为两种类型,即包含单个人脸的用户图像和包含多个人脸的用户图像,分别从不同角度提取两种类型用户图像的特征信息,从而可以更全面地分析用户需求,给用户推荐合适的音视频,提升用户体验度。
进一步地,对于包含多个人脸的图像,去除无关人脸后,再进行特征提取,避免了对无关人脸的操作,同时也减少了无关人脸对音视频推荐的干扰,从而保证在准确的找到适合推荐的音视频同时,提高了系统的运行效率。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及系统;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (18)

1.一种基于人脸的音视频推荐方法,其特征在于,包括:
接收用户发送的包含人脸的用户图像;
确定所述用户图像中人脸的数量;
如果人脸的数量为一个,则提取包含单个人脸的图像特征信息;
如果人脸的数量为多个,则提取包含多个人脸的图像特征信息;
根据提取的图像特征信息确定向所述用户推荐的音视频;
将所述音视频推荐给所述用户。
2.根据权利要求1所述的方法,其特征在于,所述确定用户图像中人脸的数量包括:
对所述用户图像进行人脸检测,以确定所述用户图像中所有人脸所在的位置;
对所述位置区域进行人脸特征点检测,以确定人脸的局部特征点位置。
3.根据权利要求2所述的方法,其特征在于,所述对所述位置区域进行人脸特征点检测包括:
通过所述位置区域的纹理特征和各特征点之间的位置约束进行人脸特征点检测。
4.根据权利要求1所述的方法,其特征在于,所述提取包含单个人脸的图像特征信息包括:
获取用户属性相关信息,所述用户属性相关信息包括年龄、化妆情况、表情信息、肤质、是否带眼镜和颜值信息;
计算所述人脸与明星的相似度,确定与所述人脸相似度最高的明星;
获取所述用户图像的拍摄时间。
5.根据权利要求1所述的方法,其特征在于,所述提取包含多个人脸的图像特征信息包括:
去除所述用户图像中的无关人脸;
对去除无关人脸后的用户图像进行图像整体氛围估计和人脸亲密度计算。
6.根据权利要求5所述的方法,其特征在于,所述去除用户图像中的无关人脸包括:
(1)以所述用户图像中心点为原点建立空间坐标系,图像所在平面作为XOY平面;
(2)确定所述用户图像中所有人脸朝向及人脸眼球朝向;
(3)根据每个人脸眼球朝向,分别向空间坐标系的Z轴引出两条目光射线,构目光约束面;
(4)如果不同人的两目光约束面的交集为线段,则选取线段中点作为交点;如果不同人的两目光约束面的交集为四边形,则取四边形中心点作为交点;然后以所述交点为球心作视觉集中球体;
(5)取落入所述球体内交点最多的视觉集中球体的球心作为视觉空间集中点;
(6)将所述视觉空间集中点向用户图像所在的XOY平面进行投影;
(7)如果所述视觉空间集中点的投影落在用户图像范围内,则将在视觉空间集中点所在球体内的目光约束面对应的人脸全部保留,其余目光约束面对应的人脸作为无关人脸删除;否则删除当前视觉空间集中点,重新选择视觉集中球体内交点数量次之的球体对应的球心作为视觉空间集中点,重新执行步骤(6)至步骤(7)。
7.根据权利要求5所述的方法,其特征在于,所述整体氛围包括:欢乐、中性以及悲伤;
所述对去除无关人脸后的用户图像进行人脸亲密度计算包括:
根据去除无关人脸后的用户图像中两个人脸在图像中的距离计算人脸亲密度。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述根据提取的图像特征信息确定向所述用户推荐的音视频包括:
利用统计建模的方式根据提取的图像特征信息确定向所述用户推荐的音视频;或者
通过标签匹配的方式根据提取的图像特征信息确定向所述用户推荐的音视频。
9.根据权利要求1-7任一项所述的方法,其特征在于,如果人脸的数量为一个,并且确定向用户推荐的是视频,则在将所述视频推荐给所述用户之前,还包括:
提取所述用户图像中的人脸图像;
将所述人脸图像替换掉所述视频中待匹配人物的人脸。
10.根据权利要求9所述的方法,其特征在于,如果向用户推荐的视频中有多个人物,则所述方法还包括:
随机选择所述视频中的一个人物作为特匹配人物;或者
确定所述视频中的主要人物,并将所述主要人物作为待匹配人物。
11.一种基于人脸的音视频推荐系统,其特征在于,包括:
图像接收模块,用于接收用户发送的包含人脸的用户图像;
人脸数量确定模块,用于确定所述用户图像中人脸的数量;
第一信息提取模块,用于人脸的数量为一个时,提取包含单个人脸的图像特征信息;
第二信息提取模块,用于人脸的数量为多个时,提取包含多个人脸的图像特征信息;
确定模块,用于根据第一信息提取模块或者第二信息提取模块提取出的图像特征信息确定向所述用户推荐的音视频;
推荐模块,用于将所述音视频推荐给所述用户。
12.根据权利要求11所述的系统,其特征在于,所述人脸数量确定模块包括:
人脸检测单元,用于确定所述用户图像中所有人脸所在的位置;
人脸特征点检测单元,用于确定人脸的局部特征点位置。
13.根据权利要求12所述的系统,其特征在于,
所述人脸特征点检测单元,具体用于通过人脸位置区域的纹理特征和各特征点之间的位置约束进行人脸特征点检测。
14.根据权利要求11所述的系统,其特征在于,所述第一信息提取模块包括:
用户属性相关信息获取单元,用于获取用户属性相关信息,所述用户属性相关信息包括年龄、化妆情况、表情信息、肤质、是否带眼镜和颜值信息;
相似度计算单元,用于计算人脸与明星的相似度,并确定与所述人脸相似度最高的明星;
时间获取单元,用于获取所述用户图像的拍摄时间。
15.根据权利要求11所述的系统,其特征在于,所述第二信息提取模块包括:
无关人脸去除单元,用于去除所述用户图像中的无关人脸;
图像整体氛围估计单元,用于对去除无关人脸后的用户图像进行图像整体氛围估计;
人脸亲密度计算单元,用于对去除无关人脸后的用户图像进行人脸亲密度计算。
16.根据权利要求11-15任一项所述的系统,其特征在于,所述确定模块,具体用于利用统计建模的方式根据提取的图像特征信息确定向所述用户推荐的音视频;或者通过标签匹配的方式根据提取的图像特征信息确定向所述用户推荐的音视频。
17.根据权利要求11-15任一项所述的系统,其特征在于,如果人脸数量确定模块确定的人脸的数量为一个,并且确定模块确定向用户推荐的是视频,则所述系统还包括:
人脸图像提取模块,用于提取所述图像接收模块接收到的用户图像中的人脸图像;
个性化视频生成模块,用于将所述人脸图像提取模块提取到的人脸图像替换掉所述视频中待匹配人物的人脸,得到个性化视频;
所述推荐模块,具体用于将所述个性化视频生成单元生成的个性化视频推荐给所述用户。
18.根据权利要求17所述的系统,其特征在于,
如果所述视频中有多个人物,则所述个性化视频生成模块随机选择其中一个人物作为特匹配人物,或者确定所述视频中的主要人物作为待匹配人物。
CN201510467751.9A 2015-07-30 2015-07-30 一种基于人脸的音视频推荐方法及系统 Active CN105005777B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510467751.9A CN105005777B (zh) 2015-07-30 2015-07-30 一种基于人脸的音视频推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510467751.9A CN105005777B (zh) 2015-07-30 2015-07-30 一种基于人脸的音视频推荐方法及系统

Publications (2)

Publication Number Publication Date
CN105005777A true CN105005777A (zh) 2015-10-28
CN105005777B CN105005777B (zh) 2021-02-02

Family

ID=54378442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510467751.9A Active CN105005777B (zh) 2015-07-30 2015-07-30 一种基于人脸的音视频推荐方法及系统

Country Status (1)

Country Link
CN (1) CN105005777B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105657322A (zh) * 2015-12-29 2016-06-08 小米科技有限责任公司 图像提供方法和装置
CN106096520A (zh) * 2016-06-02 2016-11-09 乐视控股(北京)有限公司 一种信息推送方法及装置
CN106341704A (zh) * 2016-08-18 2017-01-18 北京奇虎科技有限公司 一种基于主播的推荐方法及装置
CN106407424A (zh) * 2016-09-26 2017-02-15 维沃移动通信有限公司 一种推荐音乐的方法及移动终端
CN106649710A (zh) * 2016-12-20 2017-05-10 北京奇虎科技有限公司 图片推选方法、装置和移动终端
CN106778892A (zh) * 2016-12-28 2017-05-31 珠海市魅族科技有限公司 一种测试亲密度的方法及终端
CN107563500A (zh) * 2017-09-14 2018-01-09 北京奇艺世纪科技有限公司 一种基于用户头像的视频推荐方法及系统
CN108062390A (zh) * 2017-12-15 2018-05-22 广州酷狗计算机科技有限公司 推荐用户的方法、装置和可读存储介质
CN108595600A (zh) * 2018-04-18 2018-09-28 努比亚技术有限公司 照片分类方法、移动终端及可读存储介质
CN108848419A (zh) * 2018-06-07 2018-11-20 康佳集团股份有限公司 基于生物特征识别的电视互动方法、智能电视及存储介质
CN108920648A (zh) * 2018-07-03 2018-11-30 四川大学 一种基于音乐-图像语义关系的跨模态匹配方法
CN108965741A (zh) * 2018-07-29 2018-12-07 韩劝劝 片尾言情度标记平台
CN109558853A (zh) * 2018-12-05 2019-04-02 维沃移动通信有限公司 一种音频合成方法及终端设备
CN110059250A (zh) * 2019-04-18 2019-07-26 广东小天才科技有限公司 信息推荐方法、装置、设备和存储介质
CN111385527A (zh) * 2018-12-28 2020-07-07 成都云天励飞技术有限公司 同行判定方法及相关产品
CN111432279A (zh) * 2019-01-10 2020-07-17 青岛海尔多媒体有限公司 一种用于智能电视控制的方法、装置及智能电视
CN111741337A (zh) * 2020-06-29 2020-10-02 北京金山安全软件有限公司 一种推荐信息展示方法、装置及设备
CN111814061A (zh) * 2020-09-07 2020-10-23 耀方信息技术(上海)有限公司 药品搜索方法及系统
CN112101072A (zh) * 2019-06-18 2020-12-18 北京陌陌信息技术有限公司 人脸匹配方法、装置、设备及介质
CN112492390A (zh) * 2020-11-20 2021-03-12 海信视像科技股份有限公司 一种显示设备及内容推荐方法
CN112688841A (zh) * 2020-12-18 2021-04-20 宁波向往智汇科技有限公司 智能家居背景音乐控制系统
WO2021114936A1 (zh) * 2019-12-14 2021-06-17 华为技术有限公司 信息推荐方法、装置、电子设备及计算机可读存储介质
CN116503112A (zh) * 2023-06-12 2023-07-28 深圳市豪斯莱科技有限公司 一种基于视频内容识别的广告推荐系统及方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090006397A1 (en) * 2007-06-29 2009-01-01 Nokia Corporation Systems, Methods, Devices and Computer Program Products for Providing Media Recommendation Trekking
CN101547307A (zh) * 2008-03-25 2009-09-30 奥林巴斯映像株式会社 图像处理装置和图像处理程序
CN101848337A (zh) * 2009-03-25 2010-09-29 索尼公司 图像处理设备、图像处理方法和程序
US20110096149A1 (en) * 2007-12-07 2011-04-28 Multi Base Limited Video surveillance system with object tracking and retrieval
CN102640149A (zh) * 2009-12-04 2012-08-15 索尼计算机娱乐公司 乐曲推荐系统、信息处理装置及信息处理方法
CN103324729A (zh) * 2013-06-27 2013-09-25 北京小米科技有限责任公司 一种推荐多媒体资源的方法和装置
CN104021506A (zh) * 2014-06-24 2014-09-03 河海大学常州校区 一种基于人脸识别技术的智能餐厅点餐管理系统及方法
CN104363474A (zh) * 2014-11-14 2015-02-18 四川长虹电器股份有限公司 一种基于多用户的智能电视节目推荐系统及方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090006397A1 (en) * 2007-06-29 2009-01-01 Nokia Corporation Systems, Methods, Devices and Computer Program Products for Providing Media Recommendation Trekking
US20110096149A1 (en) * 2007-12-07 2011-04-28 Multi Base Limited Video surveillance system with object tracking and retrieval
CN101547307A (zh) * 2008-03-25 2009-09-30 奥林巴斯映像株式会社 图像处理装置和图像处理程序
CN101848337A (zh) * 2009-03-25 2010-09-29 索尼公司 图像处理设备、图像处理方法和程序
CN102640149A (zh) * 2009-12-04 2012-08-15 索尼计算机娱乐公司 乐曲推荐系统、信息处理装置及信息处理方法
CN103324729A (zh) * 2013-06-27 2013-09-25 北京小米科技有限责任公司 一种推荐多媒体资源的方法和装置
CN104021506A (zh) * 2014-06-24 2014-09-03 河海大学常州校区 一种基于人脸识别技术的智能餐厅点餐管理系统及方法
CN104363474A (zh) * 2014-11-14 2015-02-18 四川长虹电器股份有限公司 一种基于多用户的智能电视节目推荐系统及方法

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105657322A (zh) * 2015-12-29 2016-06-08 小米科技有限责任公司 图像提供方法和装置
CN105657322B (zh) * 2015-12-29 2018-04-06 小米科技有限责任公司 图像提供方法和装置
CN106096520A (zh) * 2016-06-02 2016-11-09 乐视控股(北京)有限公司 一种信息推送方法及装置
CN106341704A (zh) * 2016-08-18 2017-01-18 北京奇虎科技有限公司 一种基于主播的推荐方法及装置
CN106407424A (zh) * 2016-09-26 2017-02-15 维沃移动通信有限公司 一种推荐音乐的方法及移动终端
CN106649710A (zh) * 2016-12-20 2017-05-10 北京奇虎科技有限公司 图片推选方法、装置和移动终端
CN106778892A (zh) * 2016-12-28 2017-05-31 珠海市魅族科技有限公司 一种测试亲密度的方法及终端
CN107563500A (zh) * 2017-09-14 2018-01-09 北京奇艺世纪科技有限公司 一种基于用户头像的视频推荐方法及系统
CN108062390A (zh) * 2017-12-15 2018-05-22 广州酷狗计算机科技有限公司 推荐用户的方法、装置和可读存储介质
CN108062390B (zh) * 2017-12-15 2021-07-23 广州酷狗计算机科技有限公司 推荐用户的方法、装置和可读存储介质
CN108595600A (zh) * 2018-04-18 2018-09-28 努比亚技术有限公司 照片分类方法、移动终端及可读存储介质
CN108595600B (zh) * 2018-04-18 2023-12-15 努比亚技术有限公司 照片分类方法、移动终端及可读存储介质
CN108848419A (zh) * 2018-06-07 2018-11-20 康佳集团股份有限公司 基于生物特征识别的电视互动方法、智能电视及存储介质
CN108848419B (zh) * 2018-06-07 2020-12-11 康佳集团股份有限公司 基于生物特征识别的电视互动方法、智能电视及存储介质
CN108920648A (zh) * 2018-07-03 2018-11-30 四川大学 一种基于音乐-图像语义关系的跨模态匹配方法
CN108920648B (zh) * 2018-07-03 2021-06-22 四川大学 一种基于音乐-图像语义关系的跨模态匹配方法
CN108965741A (zh) * 2018-07-29 2018-12-07 韩劝劝 片尾言情度标记平台
CN109558853A (zh) * 2018-12-05 2019-04-02 维沃移动通信有限公司 一种音频合成方法及终端设备
CN111385527A (zh) * 2018-12-28 2020-07-07 成都云天励飞技术有限公司 同行判定方法及相关产品
CN111432279A (zh) * 2019-01-10 2020-07-17 青岛海尔多媒体有限公司 一种用于智能电视控制的方法、装置及智能电视
CN110059250A (zh) * 2019-04-18 2019-07-26 广东小天才科技有限公司 信息推荐方法、装置、设备和存储介质
CN112101072A (zh) * 2019-06-18 2020-12-18 北京陌陌信息技术有限公司 人脸匹配方法、装置、设备及介质
WO2021114936A1 (zh) * 2019-12-14 2021-06-17 华为技术有限公司 信息推荐方法、装置、电子设备及计算机可读存储介质
CN111741337A (zh) * 2020-06-29 2020-10-02 北京金山安全软件有限公司 一种推荐信息展示方法、装置及设备
CN111814061A (zh) * 2020-09-07 2020-10-23 耀方信息技术(上海)有限公司 药品搜索方法及系统
CN112492390A (zh) * 2020-11-20 2021-03-12 海信视像科技股份有限公司 一种显示设备及内容推荐方法
CN112688841A (zh) * 2020-12-18 2021-04-20 宁波向往智汇科技有限公司 智能家居背景音乐控制系统
CN116503112A (zh) * 2023-06-12 2023-07-28 深圳市豪斯莱科技有限公司 一种基于视频内容识别的广告推荐系统及方法

Also Published As

Publication number Publication date
CN105005777B (zh) 2021-02-02

Similar Documents

Publication Publication Date Title
CN105005777A (zh) 一种基于人脸的音视频推荐方法及系统
Wang et al. Scene flow to action map: A new representation for rgb-d based action recognition with convolutional neural networks
Kumar et al. The p-destre: A fully annotated dataset for pedestrian detection, tracking, and short/long-term re-identification from aerial devices
CN110909651B (zh) 视频主体人物的识别方法、装置、设备及可读存储介质
CN104050449B (zh) 一种人脸识别方法及装置
Kliper-Gross et al. Motion interchange patterns for action recognition in unconstrained videos
Vieira et al. On the improvement of human action recognition from depth map sequences using space–time occupancy patterns
US20180268458A1 (en) Automated recommendation and virtualization systems and methods for e-commerce
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
CN108875542B (zh) 一种人脸识别方法、装置、系统及计算机存储介质
Ouyang et al. Video-based person re-identification via spatio-temporal attentional and two-stream fusion convolutional networks
CN109145766A (zh) 模型训练方法、装置、识别方法、电子设备及存储介质
CN111008935B (zh) 一种人脸图像增强方法、装置、系统及存储介质
CN111241932A (zh) 汽车展厅客流检测与分析系统、方法及存储介质
Wu et al. Convolutional LSTM networks for video-based person re-identification
CN108986137A (zh) 人体跟踪方法、装置及设备
WO2023279799A1 (zh) 对象识别方法、装置和电子系统
CN106778576B (zh) 一种基于sehm特征图序列的动作识别方法
CN114519863A (zh) 人体重识别方法、人体重识别装置、计算机设备及介质
CN111626212B (zh) 图片中对象的识别方法和装置、存储介质及电子装置
CN114973349A (zh) 面部图像处理方法和面部图像处理模型的训练方法
CN110543813B (zh) 一种基于场景的人脸画像、目光计数方法及系统
Bourbia et al. No-reference 3D point cloud quality assessment using multi-view projection and deep convolutional neural network
US20030123734A1 (en) Methods and apparatus for object recognition
Chakraborty et al. Person reidentification using multiple egocentric views

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant