CN111914927A - 一种优化数据不平衡状态的移动app用户性别识别方法和系统 - Google Patents

一种优化数据不平衡状态的移动app用户性别识别方法和系统 Download PDF

Info

Publication number
CN111914927A
CN111914927A CN202010748560.0A CN202010748560A CN111914927A CN 111914927 A CN111914927 A CN 111914927A CN 202010748560 A CN202010748560 A CN 202010748560A CN 111914927 A CN111914927 A CN 111914927A
Authority
CN
China
Prior art keywords
sample data
module
sample
data
discrete
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010748560.0A
Other languages
English (en)
Inventor
李玲
贺同路
任永亮
李嘉懿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Intelligent Workshop Technology Co ltd
Original Assignee
Beijing Intelligent Workshop Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Intelligent Workshop Technology Co ltd filed Critical Beijing Intelligent Workshop Technology Co ltd
Priority to CN202010748560.0A priority Critical patent/CN111914927A/zh
Publication of CN111914927A publication Critical patent/CN111914927A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提出一种优化数据不平衡状态的移动app用户性别识别方法和系统。所述系统包括样本数据输入模块、样本数据分类模块、样本数据编码模块、映射模块、模型训练模块以及预测输出模块。样本数据编码模块用于对连续性特征和离散型特征分别进行不同的处理后,采用one‑shot编码表示,得到one‑shot样本特征。所述样本数据编码模块还包括数据不平衡状态优化子模块,所述数据不平衡状态优化子模块用于对所述连续性特征和离散型特征的不平衡状态进行优化。本发明还提出基于上述系统实现的用户性别识别方法。本发明的技术方案能够解决在使用one‑shot编码进行建模过程中产生的数据稀疏以及数据不平衡问题。

Description

一种优化数据不平衡状态的移动app用户性别识别方法和 系统
技术领域
本发明属于移动互联网技术领域,尤其涉及一种优化数据不平衡状态的移动app用户性别识别方法和系统。
背景技术
用户基础属性信息,比如性别、年龄等,通常被认为是用户隐私信息,企业很难获得,但是用户基础属性信息在个性化服务、特定广告投放、用户行为分析和其他方面有着广泛的应用。
在互联网公司的广告业务不断增长的同时,许多的互联网公司也在为用户提供个性化的广告。百度推广会根据用户的搜索历史关键字给用户提供不同的广告业务。很多的公司会根据用户的历史行为分析用户的兴趣模型,以便提供更好的个性化服务。刻画用户模型包括刻画用户的人口统计信息,地理位置信息,搜索访问兴趣爱好等。然而用户的基础属性信息如性别、年龄、收入等在一般情况下是不容易得到的,因为这些信息对用户而言是很敏感的,人们不愿意公开这类个人隐私属性。
尽管一些网络应用在用户注册时要求用户填写性别、出生年月、教育程度等相关信息,但是这些信息对用户比较敏感,因此很多用户根本不会填写这些相关信息或者填写错误的信息,这些不真实的信息对个性化推荐会有负作用。实际情况是大部分用户在注册时都没有填写相关的基础属性信息,对手机应用而言用户的基础属性信息是未知。
目前国内外对于用户基础属性信息的建模研究主要是基于用户在邮件或者社交应用中产生用户数据如邮件内容、搜索内容和空间状态等,主要有三个方面:1、基于邮件内容的用户基础属性预测;2、基于用户搜索内容的基础属性预测;3、、基于用户浏览行为的基础属性预测。研究采用的方法主要是常用的机器学习分类算法,从用户移动终端行为分析用户基础属性的研究则比较少。
中国授权发明专利ZL201610486432.7公开一种基于安装包列表的移动用户性别预测方法,包含以下步骤:获取有性别标签的用户设备号;从安装列表库中筛选出有性别标签的用户设备号所对应的用户,获取这些用户的安装包列表;将安装包列表数量小于M或者大于N的用户剔除;将安装包列表信息转换为特征数据集;将特征数据集按设定比例随机划分为训练集和测试集;根据训练集数据,使用GBDT模型训练,然后通过测试集进行验证,得到用户性别预测模型;从安装包列表库中获取没有性别标签的用户及其安装列表,做同样的特征转换利用已训练的性别模型预测。
中国发明专利申请CN201611127122.2提出一种基于手机上网行为的用户性别预测方法,该方法统计用户在一段时间内点击各APP的次数;将统计数据整理成矩阵形式;对所述矩阵进行降维处理;将处理后的数据分为训练数据集和测试数据集,用训练数据集来训练预测模型;用测试数据集来验证预测模型,并计算准确度。本发明简单易行,且准确率较高。根据用户使用的APP的次数来预测用户的性别,对后续根据不同性别用户的偏好进行相关的个性化服务推荐提供了支持。
然而,虽然现有技术已经存在各种预测用户性别的模型和机器学习算法,但是发明人发现,现有技术大多关注于模型和算法本身,而并未对算法或者模型使用的样本数据进行匹配处理,从而导致实际使用的样本数据本身存在较大的假阳性问题以及不均衡问题;此外,样本数据无法直接输入机器学习模型,必须要对其进行编码化处理,而直接对样本数据进行编码化处理将会带来大量的数据稀疏问题,从而导致建模和预测效果本身的准确性降低。
发明内容
为解决上述技术问题,本发明提出一种优化数据不平衡状态的移动app用户性别识别方法和系统。所述系统包括样本数据输入模块、样本数据分类模块、样本数据编码模块、映射模块、模型训练模块以及预测输出模块。样本数据编码模块用于对连续性特征和离散型特征分别进行不同的处理后,采用one-shot编码表示,得到one-shot样本特征。所述样本数据编码模块还包括数据不平衡状态优化子模块,所述数据不平衡状态优化子模块用于对所述连续性特征和离散型特征的不平衡状态进行优化。本发明还提出基于上述系统实现的用户性别识别方法。本发明的技术方案能够解决在使用one-shot编码进行建模过程中产生的数据稀疏以及数据不平衡问题。
在本发明的第一个方面,提供一种移动app用户性别识别系统,所述系统包括样本数据输入模块、样本数据分类模块、样本数据编码模块、映射模块、模型训练模块以及预测输出模块;
其中,所述样本数据输入模块用于输入移动终端样本数据;
所述样本数据分类模块将所述样本数据进行特征分类,得到连续性特征和离散型特征;
样本数据编码模块用于对所述连续性特征和离散型特征分别进行不同的处理后,采用one-shot编码表示,得到one-shot样本特征;
映射模块用于将所有one-hot样本特征进行Embedding映射;
所述模型训练模块基于所述Embedding映射后的样本特征构建全连接神经网络模型并进行训练;
所述预测输出模块采用训练好的全连接神经网络模型,输入移动终端用户特征,预测用户性别;
作为本发明最突出的优点,所述样本数据编码模块还包括数据不平衡状态优化子模块,所述数据不平衡状态优化子模块用于对所述连续性特征和离散型特征的不平衡状态进行优化。
作为体现上述优点的关键性技术性手段之一,所述数据不平衡状态优化子模块用于对所述连续性特征和离散型特征的不平衡状态进行优化,具体包括:
对于连续性特征进行分段处理,并进行可视化分析,获取连续数据段以及离散数据段,将所述相邻的离散数据段与所述连续数据段之间的第一空值位段、以及相邻的离散数据段之间的第二空值位段识别出来;
如果所述第一空值位段的数量小于第一阈值,则利用所述离散数据段的众数填充所述第一空值位段;
如果所述第二空值位段的数量大于第二阈值,则删除与所述第二空值位段对应的离散数据段。
作为与本发明所要解决的技术问题相关联的具体样本数据处理,所述样本数据输入模块用于输入移动终端样本数据,具体包括:
所述样本数据包括移动终端对应的用户年龄,所述用户年龄包括6个区段。
年龄的处理方式是对其进行分段处理,分别代表不同年龄段,分别为:小于等于18岁,19-23岁,24-34岁,35-44岁,45-54岁,大于等于55岁,这里一共有六段,不同情况下可以有不同划分方式。这样我们就得到了2*6种标签组合,如男生小于等于18岁、女生小于等于18岁等。
所述样本数据输入模块用于输入移动终端样本数据,具体包括:
所述样本数据包括移动终端每个应用类别下安装包的安装数量;
统计该移动终端每个应用类别下安装包的安装总数量,并进行归一化处理。
在本发明中,样本数据编码模块用于对所述连续性特征和离散型特征分别进行不同的处理后,采用one-shot编码表示,得到one-shot样本特征,具体包括:
对于离散型特征直接用one-hot表示。
所述模型训练模块基于所述Embedding映射后的样本特征构建全连接神经网络模型并进行训练,具体包括:
构建全连接神经网络将所有的one-shot样本特征进行特征映射,映射到最终的类别个数2*6=12个类别上,并使用softmax函数将分类概率归一化,通过交叉熵损失函数来优化模型。
更具体的,所述移动终端为手机,所述样本数据包括手机安装包列表、每个安装包对应的应用类别、手机品牌、手机品牌下的型号、手机屏幕长宽、手机系统、手机系统版本及该手机标注的用户的性别和年龄。
本发明还提出一种用户性别识别方法,所述方法所述的移动app用户性别识别系统实现。
具体而言,所述方法包括如下步骤:
S1:获取移动终端样本数据;
S2:将所述样本数据进行特征分类,得到连续性特征和离散型特征;
S3:对所述连续性特征和离散型特征分别进行不同的处理后,采用one-shot编码表示,得到one-shot样本特征;
S4:将所有one-hot样本特征进行Embedding映射;
S5:基于Embedding映射后的样本特征构建全连接神经网络模型并进行训练;
S6:采用训练好的全连接神经网络模型,输入移动终端用户特征,预测用户性别。
在本发明中,所述全连接深度神经网络模型是在基于单层感知机网络模型的基础上,加入多个隐含层的人工神经网络;
所述训练包括根据样本数据特点逐层搭建全连接神经网络模型,训练神经网络模型,并不断反向调整优化模型参数,得到调整后的全连接神经网络模型。
本发明上述方法可以通过计算机程序指令自动化实现,因此,本发明还提出一种计算机可读存储介质,其上存储有计算机程序指令,通过处理器和存储器执行所述程序指令,用于实现所述的方法。
本发明的技术方案着重在于对于建模使用的样本数据进行编码以及优化处理,从而解决在使用one-shot编码进行建模过程中产生的数据稀疏以及数据不平衡问题,使得后续的建模和预测更为准确。
本发明的进一步优点将结合说明书附图在具体实施例部分进一步详细体现。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的一种移动app用户性别识别系统的主要模块结构图
图2是图1所述系统的部分具体实现原理图
图3是基于图1所述系统实现的用户性别识别方法的主要流程图
具体实施方式
下面,结合附图以及具体实施方式,对发明做出进一步的描述。
参见图1,本发明一个实施例的一种移动app用户性别识别系统的主要模块结构图。
图1中,所述系统包括样本数据输入模块、样本数据分类模块、样本数据编码模块、映射模块、模型训练模块以及预测输出模块;
其中,所述样本数据输入模块用于输入移动终端样本数据;
所述样本数据分类模块将所述样本数据进行特征分类,得到连续性特征和离散型特征;
样本数据编码模块用于对所述连续性特征和离散型特征分别进行不同的处理后,采用one-shot编码表示,得到one-shot样本特征。
one hot编码是将类别变量转换为机器学习算法易于利用的一种形式的过程。
one-hot向量将类别变量转换为机器学习算法易于利用的一种形式的过程,这个向量的表示为一项属性的特征向量,也就是同一时间只有一个激活点(不为0),这个向量只有一个特征是不为0的,其他都是0,特别稀疏。
举个例子:一个特征“性别”,性别有“男性”、“女性”,这个特征有两个特征值,也只有两个特征值,如果这个特征进行one-hot编码,则特征值为“男性”的编码为“10”,“女性”的编码为“01”,如果特征值有m个离散特征值,则one-hot后特征值的表示是一个m维的向量,每个样本的特征只能有一个值,这个值的向量坐标上就是1,其他都是0,如果有多个特征,“性别”有两个特征,“尺码”:M、L、XL三个值,我们用“01”表示男性,M为“100”,L为“010”,XL为“001”,所以一个样本,【“男性”、“L”】one-hot编码为[10 010],一个样本也就是5维的向量,这就是one-hot形式。
数据稀疏会带来样本不均衡问题。作为本发明的突出性优点,参见图2,所述样本数据编码模块还包括数据不平衡状态优化子模块,所述数据不平衡状态优化子模块用于对所述连续性特征和离散型特征的不平衡状态进行优化。
更具体的,所述数据不平衡状态优化子模块用于对所述连续性特征和离散型特征的不平衡状态进行优化,具体包括:
对于连续性特征进行分段处理,并进行可视化分析,获取连续数据段以及离散数据段,将所述相邻的离散数据段与所述连续数据段之间的第一空值位段、以及相邻的离散数据段之间的第二空值位段识别出来;
如果所述第一空值位段的数量小于第一阈值,则利用所述离散数据段的众数填充所述第一空值位段;
如果所述第二空值位段的数量大于第二阈值,则删除与所述第二空值位段对应的离散数据段。
作为一个示意性而非限制的例子,举例而言,对于连续性特征,例如移动终端系统版本,可以是安卓4.1.2、安卓4.1.3这一类的特征;移动终端屏幕尺寸,可以是4.4寸、4.5寸、4.7寸等;对于这一类特征,在本发明中视为连续性特征,可以将其进行预处理的编码处理,例如移动终端系统版本可以定义为412/413/414……等;
继续以上述移动终端系统版本数据为例,对于连续性特征进行分段处理,并进行可视化分析,获取连续数据段以及离散数据段,举例如下:
假设样本数据中包含的移动终端系统版本数据如下:
412:5个;
413:0个;
414:4个;
415:5个;
416:0个;
417:0个;
418:1个;
419:0个。
则连续数据段为414和415,离散数据段为412-413-414以及416-418以及418-419;
其中,413为相邻的离散数据段与所述连续数据段之间的第一空值位段;而416-417为相邻的离散数据段之间的第二空值位段。
样本数据编码模块用于对所述连续性特征和离散型特征分别进行不同的处理后,采用one-shot编码表示,得到one-shot样本特征,具体包括:
对于离散型特征直接用one-hot表示。
所述模型训练模块基于所述Embedding映射后的样本特征构建全连接神经网络模型并进行训练,具体包括:
构建全连接神经网络将所有的one-shot样本特征进行特征映射,映射到最终的类别个数2*6=12个类别上,并使用softmax函数将分类概率归一化,通过交叉熵损失函数来优化模型。
在本实施例中,所述移动终端为手机,所述样本数据包括手机安装包列表、每个安装包对应的应用类别、手机品牌、手机品牌下的型号、手机屏幕长宽、手机系统、手机系统版本及该手机标注的用户的性别和年龄。
作为一个类别实例,所述连续性特征包括移动终端屏幕尺寸、移动终端系统版本;所述离散型特征包括移动终端安装包列表、每个安装包对应的应用类别、移动终端品牌、移动终端品牌下的型号、移动终端操作系统及该移动终端标注的用户的性别和年龄段信息。
在上述实施例中,Embedding是一个将离散变量转为连续向量表示的一个方式。Embedding字面理解是“嵌入”,实质是一种映射,从语义空间到向量空间的映射,同时尽可能在向量空间保持原样本在语义空间的关系,如语义接近的两个词汇在向量空间中的位置也比较接近。
在神经网络中,embedding是非常有用的,因为它不光可以减少离散变量的空间维数,同时还可以有意义的表示该变量。
One-hot编码的最大问题在于其转换不依赖于任何的内在关系,而通过一个监督性学习任务的网络,我们可以通过优化网络的参数和权重来减少loss以改善我们的embedding表示,loss越小,则表示最终的向量表示中,越相关的类别,它们的表示越相近。
基于相关联的技术手段,本发明整体上解决了样本数据进行编码化处理将会带来大量的数据稀疏问题。
图3是基于图1所述方法实现的用户性别识别方法的主要流程图。
图3所述方法包括步骤S1-S6,各个步骤具体实现如下:
S1:获取移动终端样本数据;
S2:将所述样本数据进行特征分类,得到连续性特征和离散型特征;
S3:对所述连续性特征和离散型特征分别进行不同的处理后,采用one-shot编码表示,得到one-shot样本特征;
S4:将所有one-hot样本特征进行Embedding映射;
S5:基于Embedding映射后的样本特征构建全连接神经网络模型并进行训练;
S6:采用训练好的全连接神经网络模型,输入移动终端用户特征,预测用户性别。
其中所述全连接深度神经网络模型是在基于单层感知机网络模型的基础上,加入多个隐含层的人工神经网络;
所述训练包括根据样本数据特点逐层搭建全连接神经网络模型,训练神经网络模型,并不断反向调整优化模型参数,得到调整后的全连接神经网络模型。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (10)

1.一种移动app用户性别识别系统,所述系统包括样本数据输入模块、样本数据分类模块、样本数据编码模块、映射模块、模型训练模块以及预测输出模块;
其中,所述样本数据输入模块用于输入移动终端样本数据;
所述样本数据分类模块将所述样本数据进行特征分类,得到连续性特征和离散型特征;
样本数据编码模块用于对所述连续性特征和离散型特征分别进行不同的处理后,采用one-shot编码表示,得到one-shot样本特征;
映射模块用于将所有one-hot样本特征进行Embedding映射;
所述模型训练模块基于所述Embedding映射后的样本特征构建全连接神经网络模型并进行训练;
所述预测输出模块采用训练好的全连接神经网络模型,输入移动终端用户特征,预测用户性别;
其特征在于:
所述样本数据编码模块还包括数据不平衡状态优化子模块,所述数据不平衡状态优化子模块用于对所述连续性特征和离散型特征的不平衡状态进行优化。
2.如权利要求1所述的移动app用户性别识别系统,其特征在于:
所述数据不平衡状态优化子模块用于对所述连续性特征和离散型特征的不平衡状态进行优化,具体包括:
对于连续性特征进行分段处理,并进行可视化分析,获取连续数据段以及离散数据段,将所述相邻的离散数据段与所述连续数据段之间的第一空值位段、以及相邻的离散数据段之间的第二空值位段识别出来;
如果所述第一空值位段的数量小于第一阈值,则利用所述离散数据段的众数填充所述第一空值位段;
如果所述第二空值位段的数量大于第二阈值,则删除与所述第二空值位段对应的离散数据段。
3.如权利要求1所述的移动app用户性别识别系统,其特征在于:
所述样本数据输入模块用于输入移动终端样本数据,具体包括:
所述样本数据包括移动终端对应的用户年龄,所述用户年龄包括6个区段。
4.如权利要求1所述的移动app用户性别识别系统,其特征在于:
所述样本数据输入模块用于输入移动终端样本数据,具体包括:
所述样本数据包括移动终端每个应用类别下安装包的安装数量;
统计该移动终端每个应用类别下安装包的安装总数量,并进行归一化处理。
5.如权利要求1所述的移动app用户性别识别系统,其特征在于:
样本数据编码模块用于对所述连续性特征和离散型特征分别进行不同的处理后,采用one-shot编码表示,得到one-shot样本特征,具体包括:
对于离散型特征直接用one-hot表示。
6.如权利要求1所述的移动app用户性别识别系统,其特征在于:
所述模型训练模块基于所述Embedding映射后的样本特征构建全连接神经网络模型并进行训练,具体包括:
构建全连接神经网络将所有的one-shot样本特征进行特征映射,映射到最终的类别个数2*6=12个类别上,并使用softmax函数将分类概率归一化,通过交叉熵损失函数来优化模型。
7.如权利要求1所述的移动app用户性别识别系统,其特征在于:
所述移动终端为手机,所述样本数据包括手机安装包列表、每个安装包对应的应用类别、手机品牌、手机品牌下的型号、手机屏幕长宽、手机系统、手机系统版本及该手机标注的用户的性别和年龄。
8.一种用户性别识别方法,所述方法基于权利要求1-7任一项所述的移动app用户性别识别系统实现,其特征在于,所述方法包括如下步骤:
S1:获取移动终端样本数据;
S2:将所述样本数据进行特征分类,得到连续性特征和离散型特征;
S3:对所述连续性特征和离散型特征分别进行不同的处理后,采用one-shot编码表示,得到one-shot样本特征;
S4:将所有one-hot样本特征进行Embedding映射;
S5:基于Embedding映射后的样本特征构建全连接神经网络模型并进行训练;
S6:采用训练好的全连接神经网络模型,输入移动终端用户特征,预测用户性别。
9.如权利要求8所述的用户性别识别方法,其特征在于:
所述全连接深度神经网络模型是在基于单层感知机网络模型的基础上,加入多个隐含层的人工神经网络;
所述训练包括根据样本数据特点逐层搭建全连接神经网络模型,训练神经网络模型,并不断反向调整优化模型参数,得到调整后的全连接神经网络模型。
10.一种计算机可读存储介质,其上存储有计算机程序指令,通过处理器和存储器执行所述程序指令,用于实现权利要求8-9任一项所述的方法。
CN202010748560.0A 2020-07-30 2020-07-30 一种优化数据不平衡状态的移动app用户性别识别方法和系统 Pending CN111914927A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010748560.0A CN111914927A (zh) 2020-07-30 2020-07-30 一种优化数据不平衡状态的移动app用户性别识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010748560.0A CN111914927A (zh) 2020-07-30 2020-07-30 一种优化数据不平衡状态的移动app用户性别识别方法和系统

Publications (1)

Publication Number Publication Date
CN111914927A true CN111914927A (zh) 2020-11-10

Family

ID=73287405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010748560.0A Pending CN111914927A (zh) 2020-07-30 2020-07-30 一种优化数据不平衡状态的移动app用户性别识别方法和系统

Country Status (1)

Country Link
CN (1) CN111914927A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529151A (zh) * 2020-12-02 2021-03-19 华为技术有限公司 一种数据处理方法以及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120159540A1 (en) * 2010-12-16 2012-06-21 Electronics And Telecommunications Research Institute System and method for providing personalized content
CN103886508A (zh) * 2014-03-03 2014-06-25 中标软件有限公司 海量农田数据的监控方法和系统
CN106126597A (zh) * 2016-06-20 2016-11-16 乐视控股(北京)有限公司 用户属性预测方法及装置
CN107145977A (zh) * 2017-04-28 2017-09-08 电子科技大学 一种对在线社交网络用户进行结构化属性推断的方法
CN109300039A (zh) * 2018-12-05 2019-02-01 山东省城市商业银行合作联盟有限公司 基于人工智能和大数据进行智能产品推荐的方法及系统
CN109711714A (zh) * 2018-12-24 2019-05-03 浙江大学 基于并联长短期记忆网络的制造装配产品质量预测方法
CN109741114A (zh) * 2019-01-10 2019-05-10 博拉网络股份有限公司 一种大数据金融场景下的用户购买预测方法
CN111178399A (zh) * 2019-12-13 2020-05-19 腾讯科技(深圳)有限公司 数据处理方法及装置、电子设备和计算机可读存储介质
CN111209173A (zh) * 2020-01-02 2020-05-29 腾讯科技(深圳)有限公司 一种性别预测方法、装置、存储介质、以及电子设备
CN111339355A (zh) * 2020-05-21 2020-06-26 北京搜狐新媒体信息技术有限公司 一种视频推荐方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120159540A1 (en) * 2010-12-16 2012-06-21 Electronics And Telecommunications Research Institute System and method for providing personalized content
CN103886508A (zh) * 2014-03-03 2014-06-25 中标软件有限公司 海量农田数据的监控方法和系统
CN106126597A (zh) * 2016-06-20 2016-11-16 乐视控股(北京)有限公司 用户属性预测方法及装置
CN107145977A (zh) * 2017-04-28 2017-09-08 电子科技大学 一种对在线社交网络用户进行结构化属性推断的方法
CN109300039A (zh) * 2018-12-05 2019-02-01 山东省城市商业银行合作联盟有限公司 基于人工智能和大数据进行智能产品推荐的方法及系统
CN109711714A (zh) * 2018-12-24 2019-05-03 浙江大学 基于并联长短期记忆网络的制造装配产品质量预测方法
CN109741114A (zh) * 2019-01-10 2019-05-10 博拉网络股份有限公司 一种大数据金融场景下的用户购买预测方法
CN111178399A (zh) * 2019-12-13 2020-05-19 腾讯科技(深圳)有限公司 数据处理方法及装置、电子设备和计算机可读存储介质
CN111209173A (zh) * 2020-01-02 2020-05-29 腾讯科技(深圳)有限公司 一种性别预测方法、装置、存储介质、以及电子设备
CN111339355A (zh) * 2020-05-21 2020-06-26 北京搜狐新媒体信息技术有限公司 一种视频推荐方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A.S.KHARCHEVNIKOVA等: "Neural Networks in Video-Based Age and Gender Recognition on Mobile Platforms", 《OPTICAL MEMORY AND NEURAL NETWORKS》, pages 246 - 259 *
杨青等: "基于Hadoop的多维关联规则挖掘算法研究及应用", 《计算机工程与科学》, vol. 41, no. 12, pages 2127 - 2133 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529151A (zh) * 2020-12-02 2021-03-19 华为技术有限公司 一种数据处理方法以及装置

Similar Documents

Publication Publication Date Title
Sudharsan et al. A Swish RNN based customer churn prediction for the telecom industry with a novel feature selection strategy
CN110032632A (zh) 基于文本相似度的智能客服问答方法、装置及存储介质
CN111597348B (zh) 用户画像方法、装置、计算机设备和存储介质
CN110598070B (zh) 应用类型识别方法及装置、服务器及存储介质
CN112000801A (zh) 基于机器学习的政务文本分类、热点问题挖掘方法及系统
CN116468460B (zh) 基于人工智能的消费金融客户画像识别系统及其方法
CN111753087A (zh) 舆情文本分类方法、装置、计算机设备和存储介质
CN113591971B (zh) 基于dpi时间序列词嵌入向量的用户个性行为预测方法
CN112100372A (zh) 头版新闻预测分类方法
CN118132856A (zh) 一种基于大数据的智能分析方法及系统
CN116228368A (zh) 一种基于深度多行为网络的广告点击率预测方法
CN118261677A (zh) 基于数据挖掘的客户信息分析管理系统及方法
CN114722810A (zh) 一种基于信息抽取和多属性决策的房地产客户画像方法和系统
CN111914927A (zh) 一种优化数据不平衡状态的移动app用户性别识别方法和系统
CN113850387A (zh) 专家系统知识库构建方法、问答方法、系统、装置及介质
CN115982646B (zh) 一种基于云平台的多源测试数据的管理方法及系统
CN116956289A (zh) 动态调整潜在黑名单和黑名单的方法
CN115994632A (zh) 一种点击率预测方法、装置、设备及可读存储介质
CN111898738A (zh) 一种基于全连接神经网络实现的移动终端用户性别预测方法和系统
CN114548242A (zh) 用户标签识别方法、装置、电子设备和计算机可读存储介质
CN111552827A (zh) 标注方法和装置、行为意愿预测模型训练方法和装置
CN113792163B (zh) 多媒体推荐方法、装置、电子设备及存储介质
CN113794900B (zh) 视频处理方法和装置
CN118332196B (zh) 基于用户兴趣标签的信息推送方法、设备与介质
CN117033651A (zh) 金融数据的预测方法和装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination