CN111199208A - 一种基于深度学习框架的头像性别识别方法及系统 - Google Patents

一种基于深度学习框架的头像性别识别方法及系统 Download PDF

Info

Publication number
CN111199208A
CN111199208A CN201911408835.XA CN201911408835A CN111199208A CN 111199208 A CN111199208 A CN 111199208A CN 201911408835 A CN201911408835 A CN 201911408835A CN 111199208 A CN111199208 A CN 111199208A
Authority
CN
China
Prior art keywords
head portrait
model
deep learning
user
nickname
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911408835.XA
Other languages
English (en)
Inventor
巩乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Changtou Network Technology Co ltd
Original Assignee
Shanghai Changtou Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Changtou Network Technology Co ltd filed Critical Shanghai Changtou Network Technology Co ltd
Priority to CN201911408835.XA priority Critical patent/CN111199208A/zh
Publication of CN111199208A publication Critical patent/CN111199208A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明适用于头像处理技术领域,提供了一种基于深度学习框架的头像性别识别方法及系统,识别方法通过依次采集包括性别及用户昵称的学习头像样本集,对学习头像样本集的头像样本对应的用户昵称文本做预处理,将昵称文本按字符细粒度进行分割,缩小学习头像样本集的头像样本内的用户头像至预设尺寸,将处理后的头像样本集输入深度学习模型以训练模型,输入待测用户的用户昵称和头像,最后利用训练好的深度学习模型预测用户性别,识别系统包括数据处理模块和模型处理模块,模型处理模块用于进行模型训练后,通过输入处理后的待测头像样本对待测用户的性别进行预测,本发明利用用户头像和昵称文本数据联合预测,准确率提高很多。

Description

一种基于深度学习框架的头像性别识别方法及系统
技术领域
本发明属于头像处理技术领域,尤其涉及一种基于深度学习框架的头像性别识别方法及系统。
背景技术
微信公众平台主要面向名人、政府、媒体、企业等机构推出的合作推广业务。在这里可以通过渠道将品牌推广给线上平台作用。在微信公众号上进行广告推广是一种常见的广告推广方式。
但是企业在进行广告投放时需要考虑该该公号背后用户性别分布,从而可以针对性投放广告或服务。而现阶段预测用户性别,大部分依据头像上真实人物性别或者类似姓名昵称单一渠道进行预测,不能有效的预测用户性别分布。而且真实场景用户头像包含宠物,明星,风景,地表,卡通等内容,不能像真实人物头像直接预测性别,预测准确性不足。
发明内容
本发明提供一种基于深度学习框架的头像性别识别方法及系统,旨在解决不能有效的预测用户性别分布和预测准确性不足的问题。
本发明是这样实现的,一种基于深度学习框架的头像性别识别方法及系统,包括以下步骤:
S1、采集包括性别及用户昵称的学习头像样本集;
S2、对所述学习头像样本集的头像样本对应的用户昵称文本做预处理,将昵称文本按字符细粒度进行分割;
S3、缩小所述学习头像样本集的头像样本内的用户头像至预设尺寸;
S4、将步骤S2和步骤S3处理后的所述头像样本集输入深度学习模型以训练模型;
S5、输入待测用户的用户昵称和头像,利用训练好的所述深度学习模型预测用户性别。
优选的,步骤S1中,将所述头像样本集分为训练集和测试集;
步骤S2中,对所述训练集和所述测试集对应的用户昵称文本做预处理;
步骤S3中,缩小所述训练集和所述测试集的头像样本内的用户头像至预设尺寸;
步骤S4中,将步骤S2和步骤S3处理后的所述训练集输入深度学习模型以训练模型,将步骤S2和步骤S3处理后的所述测试集输入到训练好的所述深度学习模型以测试所述深度学习模型的预测正确率,当所述深度学习模型的测试正确率不低于一个预设值时,则训练完成;
步骤S5中,输入待测用户的带有用户昵称的待测头像样本集,利用训练完成的所述深度学习模型预测用户的性别。
优选的,步骤S2中,将昵称文本的长度统一为20,长度不足20的,用0填充至20,长度超过20的截取前20位。
优选的,步骤S3中,所述预设尺寸为120×120。
优选的,步骤S4中,文本深度学习采用Bi-LSTM获取高维向量,头像深度学习采取预训练的inception-v3模型,不含最后全连接层权重,最后全连接层权重重新训练,模型优化器采用rmsprop,损失函数采用交叉熵,模型指标使用准确率,batchsize采取100,epoch为50,进行模型训练。
本发明的一种基于深度学习框架的头像性别识别系统,包括:
数据处理模块,其用于输入包括性别及用户昵称的学习头像样本集和待测用户的待测头像样本,对所述学习头像样本集和待测头像样本的头像样本对应的用户昵称文本做预处理,将昵称文本按字符细粒度进行分割,缩小所述学习头像样本集和待测头像样本的头像样本内的用户头像至预设尺寸;
模型处理模块,其用于通过处理后的学习头像样本集进行模型训练后,通过输入处理后的待测头像样本对待测用户的性别进行预测,并输出预测结果。
优选的,所述数据处理模块还用于将学习头像样本集分为训练集和测试集,训练集用于训练所述模型处理模块,所述测试集用于测试训练后的模型处理模块的性别预测成功率。
优选的,所述模型处理模块包括:
Bi-LSTM模型,其用于进行文本深度学习,并获取高维向量;
inception-v3模型,其用于进行头像深度学习。
优选的,所述模型处理模块还包括模型优化器rmsprop,其用于优化所述Bi-LSTM模型和所述inception-v3模型的性能。
与现有技术相比,本发明的有益效果是:本发明的一种基于深度学习框架的头像性别识别方法及系统,通过依次采集包括性别及用户昵称的学习头像样本集,对所述学习头像样本集的头像样本对应的用户昵称文本做预处理,将昵称文本按字符细粒度进行分割,缩小所述学习头像样本集的头像样本内的用户头像至预设尺寸,将处理后的所述头像样本集输入深度学习模型以训练模型,输入待测用户的用户昵称和头像,最后利用训练好的所述深度学习模型预测用户性别,本发明能够利用用户头像和昵称文本数据联合预测,准确率提高很多。
附图说明
图1为本发明的一种基于深度学习框架的头像性别识别方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,本发明提供一种技术方案:一种基于深度学习框架的头像性别识别方法及系统,一种基于深度学习框架的头像性别识别方法,其特征在于:包括以下步骤:
S1、采集包括性别及用户昵称的学习头像样本集,将头像样本集分为训练集和测试集。由于现实场景性别样本数量不平衡,故采取向上采样,将性别样本男女平衡,再进入训练步骤。
S2、对训练集和测试集对应的用户昵称文本做预处理,将昵称文本按字符细粒度进行分割,将昵称文本的长度统一为20,长度不足20的,用0填充至20,长度超过20的截取前20位。
S3、用户头像的原尺寸一般为132×132,缩小训练集和测试集的头像样本内的用户头像至预设尺寸,预设尺寸为120×120。
S4、将步骤S2和步骤S3处理后的所述头像样本集输入深度学习模型以训练模型。将步骤S2和步骤S3处理后的测试集输入到训练好的深度学习模型以测试深度学习模型的预测正确率,当深度学习模型的测试正确率不低于一个预设值时,则训练完成,否则,重新执行本步骤。文本深度学习采用Bi-LSTM获取高维向量,头像深度学习采取预训练的inception-v3模型,不含最后全连接层权重,最后全连接层权重重新训练,模型优化器采用rmsprop,损失函数采用交叉熵,模型指标使用准确率,batchsize采取100,epoch为50,进行模型训练,同时token字典大小采用常规字,大小为5850。
S5、输入待测用户的用户昵称和头像,利用训练好的深度学习模型预测用户性别。
本发明提供的一种基于深度学习框架的头像性别识别系统,包括数据处理模块和模型处理模块。数据处理模块用于输入包括性别及用户昵称的学习头像样本集和待测用户的待测头像样本,对学习头像样本集和待测头像样本的头像样本对应的用户昵称文本做预处理,将昵称文本按字符细粒度进行分割,缩小学习头像样本集和待测头像样本的头像样本内的用户头像至预设尺寸,将学习头像样本集分为训练集和测试集,训练集用于训练模型处理模块,测试集用于测试训练后的模型处理模块的性别预测成功率。模型处理模块用于通过处理后的学习头像样本集进行模型训练后,通过输入处理后的待测头像样本对待测用户的性别进行预测,并输出预测结果。模型处理模块包括Bi-LSTM模型、inception-v3模型和模型优化器rmsprop。Bi-LSTM模型用于进行文本深度学习,并获取高维向量。inception-v3模型用于进行头像深度学习。模型优化器rmsprop用于优化Bi-LSTM模型和inception-v3模型的性能。
本发明的一种基于深度学习框架的头像性别识别方法及系统,通过依次采集包括性别及用户昵称的学习头像样本集,对学习头像样本集的头像样本对应的用户昵称文本做预处理,将昵称文本按字符细粒度进行分割,缩小学习头像样本集的头像样本内的用户头像至预设尺寸,将处理后的头像样本集输入深度学习模型以训练模型,输入待测用户的用户昵称和头像,最后利用训练好的深度学习模型依据头像和昵称联合数据预测用户性别,本发明能够利用用户头像和昵称文本数据联合预测,准确率提高很多。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于深度学习框架的头像性别识别方法,其特征在于:包括以下步骤:
S1、采集包括性别及用户昵称的学习头像样本集;
S2、对所述学习头像样本集的头像样本对应的用户昵称文本做预处理,将昵称文本按字符细粒度进行分割;
S3、缩小所述学习头像样本集的头像样本内的用户头像至预设尺寸;
S4、将步骤S2和步骤S3处理后的所述头像样本集输入深度学习模型以训练模型;
S5、输入待测用户的用户昵称和头像,利用训练好的所述深度学习模型预测用户性别。
2.如权利要求1所述的一种基于深度学习框架的头像性别识别方法,其特征在于:
步骤S1中,将所述头像样本集分为训练集和测试集;
步骤S2中,对所述训练集和所述测试集对应的用户昵称文本做预处理;
步骤S3中,缩小所述训练集和所述测试集的头像样本内的用户头像至预设尺寸;
步骤S4中,将步骤S2和步骤S3处理后的所述训练集输入深度学习模型以训练模型,将步骤S2和步骤S3处理后的所述测试集输入到训练好的所述深度学习模型以测试所述深度学习模型的预测正确率,当所述深度学习模型的测试正确率不低于一个预设值时,则训练完成;
步骤S5中,输入待测用户的带有用户昵称的待测头像样本集,利用训练完成的所述深度学习模型预测用户的性别。
3.如权利要求1所述的一种基于深度学习框架的头像性别识别方法,其特征在于:步骤S2中,将昵称文本的长度统一为20,长度不足20的,用0填充至20,长度超过20的截取前20位。
4.如权利要求1所述的一种基于深度学习框架的头像性别识别方法,其特征在于:步骤S3中,所述预设尺寸为120×120。
5.如权利要求1所述的一种基于深度学习框架的头像性别识别方法,其特征在于:步骤S4中,文本深度学习采用Bi-LSTM获取高维向量,头像深度学习采取预训练的inception-v3模型,不含最后全连接层权重,最后全连接层权重重新训练,模型优化器采用rmsprop,损失函数采用交叉熵,模型指标使用准确率,batchsize采取100,epoch为50,进行模型训练。
6.一种基于深度学习框架的头像性别识别系统,其特征在于:包括:
数据处理模块,其用于输入包括性别及用户昵称的学习头像样本集和待测用户的待测头像样本,对所述学习头像样本集和待测头像样本的头像样本对应的用户昵称文本做预处理,将昵称文本按字符细粒度进行分割,缩小所述学习头像样本集和待测头像样本的头像样本内的用户头像至预设尺寸;
模型处理模块,其用于通过处理后的学习头像样本集进行模型训练后,通过输入处理后的待测头像样本对待测用户的性别进行预测,并输出预测结果。
7.如权利要求6所述的一种基于深度学习框架的头像性别识别系统,其特征在于:所述数据处理模块还用于将学习头像样本集分为训练集和测试集,训练集用于训练所述模型处理模块,所述测试集用于测试训练后的模型处理模块的性别预测成功率。
8.如权利要求6所述的一种基于深度学习框架的头像性别识别系统,其特征在于:所述模型处理模块包括:
Bi-LSTM模型,其用于进行文本深度学习,并获取高维向量;
inception-v3模型,其用于进行头像深度学习。
9.如权利要求8所述的一种基于深度学习框架的头像性别识别系统,其特征在于:所述模型处理模块还包括模型优化器rmsprop,其用于优化所述Bi-LSTM模型和所述inception-v3模型的性能。
CN201911408835.XA 2019-12-31 2019-12-31 一种基于深度学习框架的头像性别识别方法及系统 Pending CN111199208A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911408835.XA CN111199208A (zh) 2019-12-31 2019-12-31 一种基于深度学习框架的头像性别识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911408835.XA CN111199208A (zh) 2019-12-31 2019-12-31 一种基于深度学习框架的头像性别识别方法及系统

Publications (1)

Publication Number Publication Date
CN111199208A true CN111199208A (zh) 2020-05-26

Family

ID=70746623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911408835.XA Pending CN111199208A (zh) 2019-12-31 2019-12-31 一种基于深度学习框架的头像性别识别方法及系统

Country Status (1)

Country Link
CN (1) CN111199208A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652432A (zh) * 2020-06-01 2020-09-11 北京达佳互联信息技术有限公司 用户属性信息的确定方法、装置、电子设备及存储介质
CN111932523A (zh) * 2020-08-14 2020-11-13 中国科学院心理研究所 一种基于脑成像大数据深度学习的性别分类器
CN114880407A (zh) * 2022-05-30 2022-08-09 上海九方云智能科技有限公司 基于强弱关系网络的用户智能识别方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408470A (zh) * 2014-12-01 2015-03-11 中科创达软件股份有限公司 基于平均脸预学习的性别检测方法
CN105809557A (zh) * 2016-03-15 2016-07-27 微梦创科网络科技(中国)有限公司 一种挖掘社交网络中用户性别的方法和装置
CN110490946A (zh) * 2019-07-15 2019-11-22 同济大学 基于跨模态相似度和生成对抗网络的文本生成图像方法
KR20190140801A (ko) * 2018-05-23 2019-12-20 한국과학기술원 영상, 음성, 텍스트 정보를 기반으로 사용자의 감정, 나이, 성별을 인식하는 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408470A (zh) * 2014-12-01 2015-03-11 中科创达软件股份有限公司 基于平均脸预学习的性别检测方法
CN105809557A (zh) * 2016-03-15 2016-07-27 微梦创科网络科技(中国)有限公司 一种挖掘社交网络中用户性别的方法和装置
KR20190140801A (ko) * 2018-05-23 2019-12-20 한국과학기술원 영상, 음성, 텍스트 정보를 기반으로 사용자의 감정, 나이, 성별을 인식하는 방법
CN110490946A (zh) * 2019-07-15 2019-11-22 同济大学 基于跨模态相似度和生成对抗网络的文本生成图像方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GOLNOOSH FARNADI: "User Profiling through Deep Multimodal Fusion" *
马书磊: "一种改进的全局注意机制图像描述方法" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652432A (zh) * 2020-06-01 2020-09-11 北京达佳互联信息技术有限公司 用户属性信息的确定方法、装置、电子设备及存储介质
CN111932523A (zh) * 2020-08-14 2020-11-13 中国科学院心理研究所 一种基于脑成像大数据深度学习的性别分类器
CN111932523B (zh) * 2020-08-14 2023-02-10 中国科学院心理研究所 一种基于脑成像大数据深度学习的性别分类器
CN114880407A (zh) * 2022-05-30 2022-08-09 上海九方云智能科技有限公司 基于强弱关系网络的用户智能识别方法和系统

Similar Documents

Publication Publication Date Title
CN110428820B (zh) 一种中英文混合语音识别方法及装置
CN103268339B (zh) 微博消息中命名实体识别方法及系统
CN110232439B (zh) 一种基于深度学习网络的意图识别方法
CN110781663B (zh) 文本分析模型的训练方法及装置、文本分析方法及装置
CN107657056B (zh) 基于人工智能展示评论信息的方法和装置
CN111199208A (zh) 一种基于深度学习框架的头像性别识别方法及系统
CN108984530A (zh) 一种网络敏感内容的检测方法及检测系统
CN109885670A (zh) 一种面向话题文本的交互注意力编码情感分析方法
CN109670041A (zh) 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法
CN109271493A (zh) 一种语言文本处理方法、装置和存储介质
CN108710647B (zh) 一种用于聊天机器人的数据处理方法及装置
CN111581966A (zh) 一种融合上下文特征方面级情感分类方法和装置
CN110969681A (zh) 一种基于gan网络的手写体书法文字生成方法
CN110059191A (zh) 一种文本情感分类方法及装置
CN107066541A (zh) 客服问答数据的处理方法及系统
CN109978020B (zh) 一种基于多维特征的社交网络账号马甲身份辨识方法
CN107357785A (zh) 主题特征词抽取方法及系统、情感极性判断方法及系统
CN103729474A (zh) 用于识别论坛用户马甲账号的方法和系统
CN107145573A (zh) 人工智能客服机器人的问题解答方法及系统
CN104899335A (zh) 一种对网络舆情信息进行情感分类的方法
CN106682089A (zh) 一种基于RNNs的短信自动安全审核的方法
CN110347802A (zh) 一种文本分析方法及装置
CN107402912A (zh) 解析语义的方法和装置
CN116205222A (zh) 一种基于多通道注意力融合的方面级情感分析系统及方法
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200526

RJ01 Rejection of invention patent application after publication