CN107766891B - 用户性别识别方法、装置、存储介质及电子设备 - Google Patents
用户性别识别方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN107766891B CN107766891B CN201711047061.3A CN201711047061A CN107766891B CN 107766891 B CN107766891 B CN 107766891B CN 201711047061 A CN201711047061 A CN 201711047061A CN 107766891 B CN107766891 B CN 107766891B
- Authority
- CN
- China
- Prior art keywords
- user
- male
- probability
- female
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000004590 computer program Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000002537 cosmetic Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Operations Research (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- User Interface Of Digital Computer (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Stored Programmes (AREA)
Abstract
本申请实施例公开了一种用户性别识别方法、装置、存储介质及电子设备,其中,用户性别识别方法包括:根据样本用户访问的应用界面的类型构建样本集,所述样本集的样本中包括每个样本用户访问男性类应用界面的数量和每个样本用户访问女性类应用界面的数量;对所述样本集进行训练,生成性别比例分布参数和访问概率分布参数;利用所述性别比例分布参数和访问概率分布参数,以及当前用户访问男性类应用界面的数量和当前用户访问女性类应用界面的数量,生成所述当前用户的性别概率;根据所述当前用户的性别概率识别所述当前用户的性别。本申请实施例能够自动识别用户的性别。
Description
技术领域
本申请涉及通信技术领域,具体涉及一种用户性别识别方法、装置、存储介质及电子设备。
背景技术
随着科技的发展,手机等电子设备越来越普及,电子设备的智能程度越来越高,目前的电子设备已能够自动地为用户提供一些服务,而电子设备在为用户提供有些服务时,通常希望知道用户的性别,以根据用户的性别提供相应的服务。现有技术中,电子设备往往需要用户主动提供性别,例如:通过页面请求用户手动输入性别,涉及用户隐私,智能程度不够,用户体验欠佳。
发明内容
本申请实施例提供了一种用户性别识别方法、装置、存储介质及电子设备,能够自动识别用户的性别。
第一方面,本申请实施例提供的用户性别识别方法,包括:
根据样本用户访问的应用界面的类型构建样本集,所述样本集的样本中包括每个样本用户访问男性类应用界面的数量和每个样本用户访问女性类应用界面的数量;
对所述样本集进行训练,生成性别比例分布参数和访问概率分布参数;
利用所述性别比例分布参数和访问概率分布参数,以及当前用户访问男性类应用界面的数量和当前用户访问女性类应用界面的数量,生成所述当前用户的性别概率;
根据所述当前用户的性别概率识别所述当前用户的性别。
第二方面,本申请实施例提供的用户性别识别装置,包括:
建立单元,用于根据样本用户访问的应用界面的类型构建样本集,所述样本集的样本中包括每个样本用户访问男性类应用界面的数量和每个样本用户访问女性类应用界面的数量;
训练单元,用于对所述样本集进行训练,生成性别比例分布参数和访问概率分布参数;
生成单元,用于利用所述性别比例分布参数和访问概率分布参数,以及当前用户访问男性类应用界面的数量和当前用户访问女性类应用界面的数量,生成所述当前用户的性别概率;
识别单元,用于根据所述当前用户的性别概率识别所述当前用户的性别。
第三方面,本申请实施例提供的存储介质,其上存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如本申请实施例第一方面所述的用户性别识别方法。
第四方面,本申请实施例提供的电子设备,包括处理器和存储器,所述存储器有计算机程序,其特征在于,所述处理器通过调用所述计算机程序,用于执行如本申请实施例第一方面所述的用户性别识别方法。
本申请实施例中,根据样本用户访问的各个类型的应用界面的数量构建样本集,通过对样本集进行训练生成性别比例分布参数和访问概率分布参数,利用生成的性别比例分布参数和访问概率分布参数,识别当前用户的性别,实现了用户性别的自动识别;通过对样本集进行训练得到各种分布参数,进而进行用户性别识别的方法,能够保证识别结果的准确性,为基于性别的服务提供了有效的参考依据。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的用户性别识别方法的应用场景示意图。
图2是本申请实施例提供的用户性别识别方法的流程示意图。
图3是本申请实施例提供的各种分布参数的生成方法的流程示意图。
图4是本申请实施例提供的用户性别识别方法的另一流程示意图。
图5是本申请实施例提供的用户性别识别装置的结构示意图。
图6是本申请实施例提供的用户性别识别装置的另一结构示意图。
图7是本申请实施例提供的电子设备的结构示意图。
图8是本申请实施例提供的电子设备的另一结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例,其不应被视为限制本申请未在此详述的其它具体实施例。
在以下的说明中,本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本申请原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本文所使用的术语“模块”可看做为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看做为在该运算系统上的实施对象。而本文所述的装置及方法可以以软件的方式进行实施,当然也可在硬件上进行实施,均在本申请保护范围之内。
本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块,而是某些实施例还包括没有列出的步骤或模块,或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例提供一种用户性别识别方法,该用户性别识别方法的执行主体可以是本申请实施例提供的用户性别识别装置,或者集成了该用户性别识别装置的电子设备,其中该用户性别识别装置可以采用硬件或者软件的方式实现。其中,电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。
请参阅图1,图1为本申请实施例提供的用户性别识别方法的应用场景示意图,以用户性别识别装置为电子设备为例,电子设备可以从服务器获取样本用户访问的应用界面的相关数据,例如:样本用户访问的应用界面的图片、文字、排版、声音等数据,样本用户可以是未知性别的用户;根据获取的数据确定样本用户访问的应用界面的类型,根据样本用户访问的应用界面的类型构建样本集,所述样本集的样本中包括每个样本用户访问男性类应用界面的数量和每个样本用户访问女性类应用界面的数量;对所述样本集进行训练,生成性别比例分布参数和访问概率分布参数;利用所述性别比例分布参数和访问概率分布参数,以及当前用户访问男性类应用界面的数量和当前用户访问女性类应用界面的数量,生成所述当前用户的性别概率,所述当前用户的性别概率包括当前用户为男性的性别概率,以及当前用户为女性的性别概率;根据所述当前用户的性别概率识别所述当前用户的性别。比如:生成的当前用户为男性的性别概率为0.8,当前用户为女性的性别概率为0.2,当前用户为男性的概率大于当前用户为女性的概率,则将当前用户识别为男性。
本申请实施例将从用户性别识别装置的角度,描述本申请实施例提供的用户性别识别方法,该用户性别识别装置具体可以集成在电子设备中。该用户性别识别方法包括:根据样本用户访问的应用界面的类型构建样本集,所述样本集的样本中包括每个样本用户访问男性类应用界面的数量和每个样本用户访问女性类应用界面的数量;对所述样本集进行训练,生成性别比例分布参数和访问概率分布参数;利用所述性别比例分布参数和访问概率分布参数,以及当前用户访问男性类应用界面的数量和当前用户访问女性类应用界面的数量,生成所述当前用户的性别概率;根据所述当前用户的性别概率识别所述当前用户的性别。
请参阅图2,图2为本申请实施例提供的用户性别识别方法的流程示意图。本申请实施例提供的用户性别识别方法的具体流程可以如下:
步骤S201、根据样本用户访问的应用界面的类型构建样本集,所述样本集的样本中包括每个样本用户访问男性类应用界面的数量和每个样本用户访问女性类应用界面的数量。
通常来说,男性用户访问的应用界面与女性用户访问的应用界面是存在一定区别的,男性用户访问的应用界面偏男性化,而女性用户访问的应用界面偏女性化。例如:男性用户通常会访问偏男性化的游戏应用(如地下城、反恐精英等)界面、偏男性话的小说(如军事、历史小说)界面、偏男性话的频道(如体育、汽车频道)界面,偏男性化的购物界面(如男装);而女性用户通常会访问偏女性化的游戏应用(如化妆系列、装扮系列游戏)界面、偏女性话的小说(如言情、魔幻小说)界面、偏女性话的频道(如娱乐、八卦频道)界面,偏女性化的购物界面(如女装、化妆品)等。
本实施例中,为了识别用户的性别,可以设置两个类型的应用界面集:男性类应用界面集和女性类应用界面集。男性类应用界面集中可以包括各种偏男性化的应用界面,或者包括各种偏男性化的应用界面的特征信息;女性类应用界面集中可以包括各种偏女性化的应用界面,或者包括各种偏女性化的应用界面的特征信息。
具体实现中,可以根据设置的男性类应用界面集和女性类应用界面集,确定样本用户访问的应用界面的类型。例如:样本用户访问的应用界面属于男性类应用界面集,则将该应用界面的类型确定为男性类应用界面;反之,如果样本用户访问的应用界面属于女性类应用界面集,则将该应用界面的类型确定为女性类应用界面。例如:样本用户访问的应用界面的特征信息与男性类应用界面集中的特征信息匹配,则将该应用界面的类型确定为男性类应用界面;反之,如果样本用户访问的应用界面的特征信息与女性类应用界面集中的特征信息匹配,则将该应用界面的类型确定为女性类应用界面。
具体地,电子设备可以从服务器获取样本用户访问的应用界面的相关数据,然后根据设置的男性类应用界面集和女性类应用界面集确定样本用户访问的应用界面的类型。比如,服务器可以在历史时间段内,按照预设频率,从各个电子设备收集各个样本用户最近连续访问的预设数量的应用界面的相关数据,将收集的数据发送给需要进行用户性别识别的电子设备。应用界面的相关数据可以包括但不限于:应用界面的图片、文字、排版、声音等数据。历史时间段可以是,例如过去3天;预设频率可以是,例如每个小时;预设数量可以是,例如1000;样本用户的数量为多个,例如可以为100。
电子设备确定每个样本用户访问的预设数量的应用界面中,男性类应用界面及女性类应用界面的数量,根据确定的数量构建样本集。样本集的一个样本中,包括一个样本用户访问的预设数量的应用界面中,男性类应用界面的数量及女性类应用界面的数量。例如,用x(1)表示一个样本用户访问的男性类应用界面的数量,用x(2)表示一个样本用户访问的女性类应用界面的数量,则一个样本中将包括x(1),x(2)这两个特征。
假如:样本用户的数量为n,则样本集可如下表1所示:
表1
需要说明的是,本实施例所提及的样本用户可以是未知性别的用户,因此,不需要样本用户主动提供自己的性别,不涉及用户隐私,每个样本没有性别标签。
步骤S202、对所述样本集进行训练,生成性别比例分布参数和访问概率分布参数。
性别比例分布参数指的是,各种性别所占的比例值。性别比例分布参数包括:男性用户所占的比例(可用α表示)和女性用户所占的比例(可用1-α表示)。
访问概率分布参数指的是,各种性别的用户访问各类应用界面的概率。访问概率分布参数包括:男性用户访问男性类应用界面的概率(可用p(1)表示)、男性用户访问女性类应用界面的概率(可用p(2)表示)、女性用户访问男性类应用界面的概率(可用q(1)表示)、女性用户访问女性类应用界面的概率(可用q(2)表示)。
两类参数可如下表2所示:
表2
对所述样本集进行训练,生成性别比例分布参数和访问概率分布参数的过程,可参阅图3所示,包括以下步骤:
步骤S2021、初始时,为样本集随机给定性别比例分布参数和访问概率分布参数;
即初始时,随机给定α、1-α、p(1)、p(2)、q(1)、q(2)的值,由于每个参数表示比例或概率,因此,每个参数的给值范围为(0,1),且满足p(1)+p(2)≤a,
q(1)+q(2)≤1-a。例如:给定α、1-α、p(1)、p(2)、q(1)、q(2)的值分别为0.5、0.5、0.2、0.05、0.06、0.3。
步骤S2022、根据当前的性别比例分布参数和访问概率分布参数,以及每个样本用户访问男性类应用界面的数量和每个样本用户访问女性类应用界面的数量,生成每个样本用户的性别概率;
即根据所述样本集中男性用户所占的比例α、女性用户所占的比例1-α、
男性用户访问男性类应用界面的概率p(1)、男性用户访问女性类应用界面的概率p(2)、女性用户访问男性类应用界面的概率q(1)、女性用户访问女性类应用界面的概率q(2),以及每个样本用户访问男性类应用界面的数量、每个样本用户访问女性类应用界面的数量,生成每个样本用户为男性的性别概率;根据每个样本用户为男性的性别概率,确定每个样本用户为女性的性别概率。
具体地,可以采用第一预设公式对所述样本集中男性用户所占的比例α、女性用户所占的比例1-α、男性用户访问男性类应用界面的概率p(1)、男性用户访问女性类应用界面的概率p(2)、女性用户访问男性类应用界面的概率q(1)、女性用户访问女性类应用界面的概率q(2),以及每个样本用户访问男性类应用界面的数量、每个样本用户访问女性类应用界面的数量进行处理,生成每个样本用户为男性的性别概率,所述第一预设公式为:
步骤S2023、根据每个样本用户的性别概率,生成性别比例分布参数和访问概率分布参数;
即可以根据每个样本用户为男性的性别概率uj,以及样本用户的数量n,生成男性用户所占的比例α。
具体地,可以采用第二预设公式对每个样本用户为男性的性别概率uj,以及样本用户的数量n进行处理,生成男性用户所占的比例α,所述第二预设公式为:
根据男性用户所占的比例α,确定女性用户所占的比例。
具体地,可以将1-α确定为女性用户所占的比例。
具体地,可以采用第三预设公式对每个样本用户为男性的性别概率uj、每个样本用户访问男性类应用界面的数量以及每个样本用户访问的应用界面的总数S进行处理,生成男性用户访问男性类应用界面的概率p(1),所述第三预设公式为:
具体地,可以利用第四预设公式对每个样本用户为男性的性别概率uj、每个样本用户访问女性类应用界面的数量以及每个样本用户访问的应用界面的总数S进行处理,生成男性用户访问女性类应用界面的概率p(2),所述第四预设公式为:
具体地,可以利用第五预设公式对每个样本用户为女性的性别概率1-uj、每个样本用户访问男性类应用界面的数量以及每个样本用户访问的应用界面的总数S进行处理,生成女性用户访问男性类应用界面的概率q(1),所述第五预设公式为:
具体地,可以利用第六预设公式对每个样本用户为女性的性别概率1-uj、每个样本用户访问女性类应用界面的数量以及每个样本用户访问的应用界面的总数S进行处理,生成女性用户访问女性类应用界面的概率q(2),所述第六预设公式为:
步骤S2024、判断前后两次得到的对应参数的差值是否小于预设参数阈值,若是,则执行步骤S2025,否则,返回步骤S2022;
预设参数阈值可根据实际需要自定义取值,例如:可以取0.001。
具体实现中,每次执行完步骤S2023之后,可以计算前后两次得到的对应参数的差值的绝对值,若对应参数的差值的绝对值不小于预设参数阈值,则返回步骤S2022,继续迭代,直至对应参数的差值的绝对值均小于预设参数阈值时,停止迭代。
步骤S2025、输出性别比例分布参数和访问概率分布参数。
即输出α、1-α、p(1)、p(2)、q(1)、q(2)这六个参数。
图3所示,即为采用最大期望算法(Expectation Maximization Algorithm,EM)得到各个概率分布参数的过程,其中步骤S2022即为EM算法的E步,步骤S2023即为EM算法的M步。实际应用中,可以不断地采集样本用户访问应用界面的相关数据,以对样本集进行更新,从而更新对应的概率分布参数,以获得更加准确的识别结果。
在某些实施方式中,步骤S2021至步骤S2025可以预先在服务器中完成。例如,服务器可以对样本集进行训练,得到各个概率分布参数,将得到的概率分布参数发送给需要进行性别识别的电子设备,电子设备根据得到的各个概率分布参数识别某个用户的性别。
步骤S203、利用所述性别比例分布参数和访问概率分布参数,以及当前用户访问男性类应用界面的数量和当前用户访问女性类应用界面的数量,生成所述当前用户的性别概率。
比如:当前用户为i,当前用户为当前电子设备的用户,可以采集当前用户最近访问的预设数量的应用界面,统计预设数量的应用界面中,男性类应用界面的数量以及女性类应用界面的数量利用第七预设公式生成当前用户为男性的性别概率ui,所述第七预设公式为:
则,当前用户为女性的性别概率为1-ui。
步骤S204、根据所述当前用户的性别概率识别所述当前用户的性别。
例如,可以判断ui与1-ui的大小,若ui大于1-ui,则将当前用户识别为男性;反之,若ui小于1-ui,则将当前用户识别为女性。
识别出当前用户的性别之后,可以根据性别为当前用户做一些信息或应用的推送。例如:当识别出当前用户为男性的时候,可以给当前用户推送一些适合男性玩的新游戏,当识别出当前用户为女性的时候,可以给当前用户推送一些化妆品促销信息等,当然,还可以根据识别出的性别做一些其他的优化,此处不做具体限定。
本实施例中,可以根据样本用户访问的各个类型的应用界面的数量构建样本集,通过对样本集进行训练生成性别比例分布参数和访问概率分布参数,利用生成的性别比例分布参数和访问概率分布参数,识别当前用户的性别,实现了用户性别的自动识别;通过对样本集进行训练得到各种分布参数,进而进行用户性别识别的方法,能够保证识别结果的准确性,为基于性别的服务提供了有效的参考依据。
下面将在上述实施例描述的方法基础上,对本申请的识别方法做进一步介绍,本实施例将以采集100个样本用户最近访问的1000个应用界面构建样本集,以识别电子设备的当前用户的性别为例,进行说明,参考图4,本实施例的方法包括:
步骤S401、设置男性类应用界面集及女性类应用界面集。
用户的性别包括:男和女。为了识别用户的性别,本实施例中,可以设置两个类型的应用界面集:男性类应用界面集和女性类应用界面集。男性类应用界面集中可以包括各种偏男性化的应用界面,或者包括各种偏男性化的应用界面的特征信息;女性类应用界面集中可以包括各种偏女性化的应用界面,或者包括各种偏女性化的应用界面的特征信息。
步骤S402、根据设置的男性类应用界面集及女性类应用界面集,确定样本用户访问的应用界面的类型。
例如:样本用户访问的应用界面属于男性类应用界面集,则将该应用界面的类型确定为男性类应用界面;反之,如果样本用户访问的应用界面属于女性类应用界面集,则将该应用界面的类型确定为女性类应用界面。
例如:样本用户访问的应用界面的特征信息与男性类应用界面集中的特征信息匹配,则将该应用界面的类型确定为男性类应用界面;反之,如果样本用户访问的应用界面的特征信息与女性类应用界面集中的特征信息匹配,则将该应用界面的类型确定为女性类应用界面。
具体地,电子设备可以从服务器获取样本用户访问的应用界面的相关数据,然后根据设置的男性类应用界面集和女性类应用界面集确定样本用户访问的应用界面的类型。比如,服务器可以在历史时间段内,按照预设频率,从100电子设备收集100样本用户最近连续访问的1000个应用界面的相关数据,将收集的数据发送给需要进行用户性别识别的电子设备。应用界面的相关数据可以包括但不限于:应用界面的图片、文字、排版、声音等数据。历史时间段可以是,例如过去3天;预设频率可以是,例如每个小时。
步骤S403、根据样本用户访问的应用界面的类型构建样本集,所述样本集的样本中包括每个样本用户访问男性类应用界面的数量和每个样本用户访问女性类应用界面的数量。
电子设备确定每个样本用户最近连续访问的1000个应用界面中,男性类应用界面及女性类应用界面的数量,根据确定的数量构建样本集。样本集中包括100个样本,一个样本中,包括一个样本用户最近连续访问的1000个应用界面中,男性类应用界面的数量及女性类应用界面的数量。例如,用x(1)表示一个样本用户访问的男性类应用界面的数量,用x(2)表示一个样本用户访问的女性类应用界面的数量,则一个样本中将包括x(1),x(2)这两个特征。100个样本构成的样本集可以表示为:
需要说明的是,本实施例所提及的100个样本用户可以是未知性别的用户,因此,不需要样本用户主动提供自己的性别,不涉及用户隐私,每个样本没有性别标签。
步骤S404、对所述样本集进行训练,生成性别比例分布参数和访问概率分布参数。
性别比例分布参数指的是,各种性别所占的比例值。性别比例分布参数包括:男性用户所占的比例(可用α表示)和女性用户所占的比例(可用1-α表示)。
访问概率分布参数指的是,各种性别的用户访问各类应用界面的概率。访问概率分布参数包括:男性用户访问男性类应用界面的概率(可用p(1)表示)、男性用户访问女性类应用界面的概率(可用p(2)表示)、女性用户访问男性类应用界面的概率(可用q(1)表示)、女性用户访问女性类应用界面的概率(可用q(2)表示)。
训练的目的,即得到α、1-α、p(1)、p(2)、q(1)、q(2),具体的训练过程,可参阅上述实施例的描述,此处不再赘述。
步骤S405、利用所述性别比例分布参数和访问概率分布参数,以及当前用户访问男性类应用界面的数量和当前用户访问女性类应用界面的数量,生成所述当前用户的性别概率。
比如:当前用户为i,当前用户为当前电子设备的用户,可以采集当前用户最近访问的1000个应用界面,统计1000个应用界面中,男性类应用界面的数量以及女性类应用界面的数量利用第七预设公式生成当前用户为男性的性别概率ui,所述第七预设公式为:
则,当前用户为女性的性别概率为1-ui。
步骤S406、判断当前用户为男性的性别概率是否大于预设概率阈值,若大于,则执行步骤S407,否则,执行步骤S408。
步骤S407、将当前用户识别为男性。
步骤S408、判断当前用户为女性的性别概率是否大于预设概率阈值,若大于,则执行步骤S409,否则结束处理。
步骤S409、将当前用户识别为男性。
预设概率阈值可根据实际需求自定义取值,例如可以取0.8、0.85等。
即可以判断ui或1-ui是否大于预设概率阈值,若ui大于预设概率阈值,则将当前用户识别为男性,若1-ui大于预设概率阈值,则将当前用户识别为女性。
另外,还可以直接通过判断ui与1-ui的大小来识别当前用户的性别。比如:若ui大于1-ui,则将当前用户识别为男性,若ui小于1-ui,则将当前用户识别为女性。
另外,如果ui和1-ui均不大于预设概率阈值,也可以采用比较ui和1-ui的大小的方法来识别当前用户的性别。或者,在ui和1-ui均不大于预设概率阈值时,重新采集样本数据重新构建样本集,以更新各个概率分布参数,然后重新计算当前用户的性别概率;或者在ui和1-ui均不大于预设概率阈值时,重新采集当前用户的应用界面访问数据,以重新计算当前用户的性别概率。
识别出当前用户的性别之后,可以根据性别为当前用户做一些信息或应用的推送。例如:当识别出当前用户为男性的时候,可以给当前用户推送一些体育直播信息,当识别出当前用户为女性的时候,可以给当前用户推送一些娱乐动态信息等,当然,还可以根据识别出的性别做一些其他的优化,此处不做具体限定。
本实施例中,可以根据样本用户访问的各个类型的应用界面的数量构建样本集,通过对样本集进行训练生成性别比例分布参数和访问概率分布参数,利用生成的性别比例分布参数和访问概率分布参数,识别当前用户的性别,实现了用户性别的自动识别;通过对样本集进行训练得到各种分布参数,进而进行用户性别识别的方法,能够保证识别结果的准确性,为基于性别的服务提供了有效的参考依据。
请参阅图5,图5为本申请实施例提供的用户性别识别装置的结构示意图。其中该用户性别识别装置应用于电子设备,该用户性别识别装置包括:建立单元501、训练单元502、生成单元503和识别单元504,如下:
建立单元501,用于根据样本用户访问的应用界面的类型构建样本集,所述样本集的样本中包括每个样本用户访问男性类应用界面的数量和每个样本用户访问女性类应用界面的数量;
训练单元502,用于对所述样本集进行训练,生成性别比例分布参数和访问概率分布参数;
生成单元503,用于利用所述性别比例分布参数和访问概率分布参数,以及当前用户访问男性类应用界面的数量和当前用户访问女性类应用界面的数量,生成所述当前用户的性别概率;
识别单元504,用于根据所述当前用户的性别概率识别所述当前用户的性别。
在一些实施例中,如图6所示,训练单元502包括:初始化子单元5021和生成子单元5022,如下:
初始化子单元5021,用于在初始时,为所述样本集随机给定性别比例分布参数和访问概率分布参数;
生成子单元5022,用于根据当前的性别比例分布参数和访问概率分布参数,以及每个样本用户访问男性类应用界面的数量和每个样本用户访问女性类应用界面的数量,生成每个样本用户的性别概率;根据每个样本用户的性别概率,生成性别比例分布参数和访问概率分布参数;所述生成子单元5022重复执行上述两个步骤,直至前后两次得到的对应参数的差值小于预设参数阈值时,输出性别比例分布参数和访问概率分布参数。
在一些实施例中,所述生成子单元5022根据当前的性别比例分布参数和访问概率分布参数,以及每个样本用户访问男性类应用界面的数量和每个样本用户访问女性类应用界面的数量,生成每个样本用户的性别概率,包括:
所述生成子单元5022根据所述样本集中男性用户所占的比例、女性用户所占的比例、男性用户访问男性类应用界面的概率、男性用户访问女性类应用界面的概率、女性用户访问男性类应用界面的概率、女性用户访问女性类应用界面的概率,以及每个样本用户访问男性类应用界面的数量、每个样本用户访问女性类应用界面的数量,生成每个样本用户为男性的性别概率;及
所述生成子单元5022根据每个样本用户为男性的性别概率,确定每个样本用户为女性的性别概率。
在一些实施例中,所述生成子单元5022基于第一预设公式对所述样本集中男性用户所占的比例、女性用户所占的比例、男性用户访问男性类应用界面的概率、男性用户访问女性类应用界面的概率、女性用户访问男性类应用界面的概率、女性用户访问女性类应用界面的概率,以及每个样本用户访问男性类应用界面的数量、每个样本用户访问女性类应用界面的数量进行处理,生成每个样本用户为男性的性别概率,所述第一预设公式为:
其中,j∈[1,n],n表示样本用户的数量,uj表示样本用户j为男性的性别概率,α表示所述样本集中男性用户所占的比例,1-α表示所述样本集中女性用户所占的比例,p(1)表示男性用户访问男性类应用界面的概率,p(2)表示男性用户访问女性类应用界面的概率,q(1)表示女性用户访问男性类应用界面的概率,q(2)表示女性用户访问女性类应用界面的概率,表示样本用户j访问男性类应用界面的数量,表示样本用户j访问女性类应用界面的数量;
所述生成子单元5022将1-uj确定为样本用户j为女性的性别概率。
在一些实施例中,所述生成子单元5022根据每个样本用户的性别概率,生成性别比例分布参数和访问概率分布参数,包括:
所述生成子单元5022根据每个样本用户为男性的性别概率以及样本用户的数量,生成男性用户所占的比例;
所述生成子单元5022根据男性用户所占的比例,确定女性用户所占的比例;
所述生成子单元5022根据每个样本用户为男性的性别概率、每个样本用户访问男性类应用界面的数量、以及每个样本用户访问的应用界面的总数,生成男性用户访问男性类应用界面的概率;
所述生成子单元5022根据根据每个样本用户为男性的性别概率、每个样本用户访问女性类应用界面的数量、以及每个样本用户访问的应用界面的总数,生成男性用户访问女性类应用界面的概率;
所述生成子单元5022根据每个样本用户为女性的性别概率、每个样本用户访问男性类应用界面的数量、以及每个样本用户访问的应用界面的总数,生成所述样本集中女性用户访问男性类应用界面的概率;
所述生成子单元5022根据每个样本用户为女性的性别概率、每个样本用户访问女性类应用界面的数量、以及每个样本用户访问的应用界面的总数,生成女性用户访问女性类应用界面的概率。
在一些实施例中,所述生成子单元5022基于第二预设公式对每个样本用户为男性的性别概率,以及样本用户的数量进行处理,生成男性用户所占的比例,所述第二预设公式为:
所述生成子单元5022将1-α确定为女性用户所占的比例;
所述生成子单元5022基于第三预设公式对每个样本用户为男性的性别概率、每个样本用户访问男性类应用界面的数量、以及每个样本用户访问的应用界面的总数进行处理,生成男性用户访问男性类应用界面的概率,所述第三预设公式为:
所述生成子单元5022基于第四预设公式对每个样本用户为男性的性别概率、每个样本用户访问女性类应用界面的数量、以及每个样本用户访问的应用界面的总数进行处理,生成男性用户访问女性类应用界面的概率,所述第四预设公式为:
所述生成子单元5022基于第五预设公式对每个样本用户为女性的性别概率、每个样本用户访问男性类应用界面的数量、以及每个样本用户访问的应用界面的总数进行处理,生成女性用户访问男性类应用界面的概率,所述第五预设公式为:
所述生成子单元5022基于第六预设公式对每个样本用户为女性的性别概率、每个样本用户访问女性类应用界面的数量、以及每个样本用户访问的应用界面的总数进行处理,生成女性用户访问女性类应用界面的概率,所述第六预设公式为:
在一些实施例中,如图6所示,所述装置还包括设置单元505和确定单元506,如下:
设置单元505,用于设置男性类应用界面集及女性类应用界面集;
确定单元506,用于根据设置的男性类应用界面集及女性类应用界面集,确定样本用户访问的应用界面的类型。
在一些实施例中,所述当前用户的性别概率包括:所述当前用户为男性的性别概率,以及所述当前用户为女性的性别概率;
所述识别单元504具体用于:
在所述当前用户为男性的性别概率大于预设概率阈值时,将所述当前用户识别为男性;或者在所述当前用户为女性的性别概率大于所述预设概率阈值时,将所述当前用户识别为女性。
需要说明的是,本实施例提供的用户性别识别装置在进行用户性别识别时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的用户性别识别装置与用户性别识别方法属于同一构思,其具体实现过程详见方法实施例,此处不再赘述。
由上可知,本实施例采用在电子设备中,由建立单元501根据样本用户访问的各个类型的应用界面的数量构建样本集,训练单元502通过对样本集进行训练生成性别比例分布参数和访问概率分布参数,生成单元503利用所述性别比例分布参数和访问概率分布参数,以及当前用户访问男性类应用界面的数量和当前用户访问女性类应用界面的数量,生成所述当前用户的性别概率,识别单元504根据所述当前用户的性别概率识别所述当前用户的性别,实现了用户性别的自动识别;通过对样本集进行训练得到各种分布参数,进而进行用户性别识别的方法,能够保证识别结果的准确性,为基于性别的服务提供了有效的参考依据。
本申请实施例还提供一种电子设备。请参阅图7,电子设备600包括处理器601以及存储器602。其中,处理器601与存储器602电性连接。
所述处理器600是电子设备600的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或加载存储在存储器602内的计算机程序,以及调用存储在存储器602内的数据,执行电子设备600的各种功能并处理数据,从而对电子设备600进行整体监控。
所述存储器602可用于存储软件程序以及模块,处理器601通过运行存储在存储器602的计算机程序以及模块,从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器601对存储器602的访问。
在本申请实施例中,电子设备600中的处理器601会按照如下的步骤,将一个或一个以上的计算机程序的进程对应的指令加载到存储器602中,并由处理器601运行存储在存储器602中的计算机程序,从而实现各种功能,如下:
根据样本用户访问的应用界面的类型构建样本集,所述样本集的样本中包括每个样本用户访问男性类应用界面的数量和每个样本用户访问女性类应用界面的数量;
对所述样本集进行训练,生成性别比例分布参数和访问概率分布参数;
利用所述性别比例分布参数和访问概率分布参数,以及当前用户访问男性类应用界面的数量和当前用户访问女性类应用界面的数量,生成所述当前用户的性别概率;
根据所述当前用户的性别概率识别所述当前用户的性别。
在某些实施方式中,对所述样本集进行训练,生成性别比例分布参数和访问概率分布参数时,处理器601具体执行以下步骤:
初始时,为所述样本集随机给定性别比例分布参数和访问概率分布参数;
根据当前的性别比例分布参数和访问概率分布参数,以及每个样本用户访问男性类应用界面的数量和每个样本用户访问女性类应用界面的数量,生成每个样本用户的性别概率;
根据每个样本用户的性别概率,生成性别比例分布参数和访问概率分布参数;
重复执行上述两个步骤,直至前后两次得到的对应参数的差值小于预设参数阈值时,输出性别比例分布参数和访问概率分布参数。
在某些实施方式中,根据当前的性别比例分布参数和访问概率分布参数,以及每个样本用户访问男性类应用界面的数量和每个样本用户访问女性类应用界面的数量,生成每个样本用户的性别概率时,处理器601具体执行以下步骤:
根据所述样本集中男性用户所占的比例、女性用户所占的比例、男性用户访问男性类应用界面的概率、男性用户访问女性类应用界面的概率、女性用户访问男性类应用界面的概率、女性用户访问女性类应用界面的概率,以及每个样本用户访问男性类应用界面的数量、每个样本用户访问女性类应用界面的数量,生成每个样本用户为男性的性别概率;
根据每个样本用户为男性的性别概率,确定每个样本用户为女性的性别概率。
在某些实施方式中,处理器601具体用于基于第一预设公式对所述样本集中男性用户所占的比例、女性用户所占的比例、男性用户访问男性类应用界面的概率、男性用户访问女性类应用界面的概率、女性用户访问男性类应用界面的概率、女性用户访问女性类应用界面的概率,以及每个样本用户访问男性类应用界面的数量、每个样本用户访问女性类应用界面的数量进行处理,生成每个样本用户为男性的性别概率,所述第一预设公式为:
其中,j∈[1,n],n表示样本用户的数量,uj表示样本用户j为男性的性别概率,α表示所述样本集中男性用户所占的比例,1-α表示所述样本集中女性用户所占的比例,p(1)表示男性用户访问男性类应用界面的概率,p(2)表示男性用户访问女性类应用界面的概率,q(1)表示女性用户访问男性类应用界面的概率,q(2)表示女性用户访问女性类应用界面的概率,表示样本用户j访问男性类应用界面的数量,表示样本用户j访问女性类应用界面的数量;
处理器601将1-uj确定为样本用户j为女性的性别概率。
在某些实施方式中,根据每个样本用户的性别概率,生成性别比例分布参数和访问概率分布参数时,处理器601具体用于执行以下步骤:
根据每个样本用户为男性的性别概率以及样本用户的数量,生成男性用户所占的比例;
根据所述样本集中男性用户所占的比例,确定女性用户所占的比例;
根据每个样本用户为男性的性别概率、每个样本用户访问男性类应用界面的数量、以及每个样本用户访问的应用界面的总数,生成男性用户访问男性类应用界面的概率;
根据根据每个样本用户为男性的性别概率、每个样本用户访问女性类应用界面的数量、以及每个样本用户访问的应用界面的总数,生成男性用户访问女性类应用界面的概率;
根据每个样本用户为女性的性别概率、每个样本用户访问男性类应用界面的数量、以及每个样本用户访问的应用界面的总数,生成女性用户访问男性类应用界面的概率;
根据每个样本用户为女性的性别概率、每个样本用户访问女性类应用界面的数量、以及每个样本用户访问的应用界面的总数,生成所述样本集中女性用户访问女性类应用界面的概率。
在某些实施方式中,处理器601具体用于基于第二预设公式对每个样本用户为男性的性别概率,以及样本用户的数量进行处理,生成男性用户所占的比例,所述第二预设公式为:
将1-α确定为所述样本集中女性用户所占的比例;
处理器601基于第三预设公式对每个样本用户为男性的性别概率、每个样本用户访问男性类应用界面的数量、以及每个样本用户访问的应用界面的总数进行处理,生成男性用户访问男性类应用界面的概率,所述第三预设公式为:
处理器601基于第四预设公式对每个样本用户为男性的性别概率、每个样本用户访问女性类应用界面的数量、以及每个样本用户访问的应用界面的总数进行处理,生成男性用户访问女性类应用界面的概率,所述第四预设公式为:
处理器601基于第五预设公式对每个样本用户为女性的性别概率、每个样本用户访问男性类应用界面的数量、以及每个样本用户访问的应用界面的总数进行处理,生成女性用户访问男性类应用界面的概率,所述第五预设公式为:
处理器601基于第六预设公式对每个样本用户为女性的性别概率、每个样本用户访问女性类应用界面的数量、以及每个样本用户访问的应用界面的总数进行处理,生成女性用户访问女性类应用界面的概率,所述第六预设公式为:
在某些实施方式中,处理器601还用于执行以下步骤:
设置男性类应用界面集及女性类应用界面集;
根据设置的男性类应用界面集及女性类应用界面集,确定样本用户访问的应用界面的类型。
在某些实施方式中,所述当前用户的性别概率包括:所述当前用户为男性的性别概率,以及所述当前用户为女性的性别概率;
根据所述当前用户的性别概率识别所述当前用户的性别时,处理器601具体用于执行以下步骤::
若所述当前用户为男性的性别概率大于预设概率阈值,则将所述当前用户识别为男性;或者
若所述当前用户为女性的性别概率大于所述预设概率阈值,则将所述当前用户识别为女性。
由上述可知,本申请实施例的电子设备,根据样本用户访问的各个类型的应用界面的数量构建样本集,通过对样本集进行训练生成性别比例分布参数和访问概率分布参数,利用生成的性别比例分布参数和访问概率分布参数,识别当前用户的性别,实现了用户性别的自动识别;通过对样本集进行训练得到各种分布参数,进而进行用户性别识别的方法,能够保证识别结果的准确性,为基于性别的服务提供了有效的参考依据。
请一并参阅图8,在某些实施方式中,电子设备600还可以包括:显示器603、射频电路604、音频电路605以及电源606。其中,其中,显示器603、射频电路604、音频电路605以及电源606分别与处理器601电性连接。
所述显示器603可以用于显示由用户输入的信息或提供给用户的信息以及各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示器603可以包括显示面板,在某些实施方式中,可以采用液晶显示器(Liquid CrystalDisplay,LCD)、或者有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板。
所述射频电路604可以用于收发射频信号,以通过无线通信与网络设备或其他电子设备建立无线通讯,与网络设备或其他电子设备之间收发信号。
所述音频电路605可以用于通过扬声器、传声器提供用户与电子设备之间的音频接口。
所述电源606可以用于给电子设备600的各个部件供电。在一些实施例中,电源606可以通过电源管理系统与处理器601逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管图8中未示出,电子设备600还可以包括摄像头、蓝牙模块等,在此不再赘述。
本申请实施例还提供一种存储介质,所述存储介质存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行上述任一实施例中的用户性别识别方法,比如:根据样本用户访问的应用界面的类型构建样本集,所述样本集的样本中包括每个样本用户访问男性类应用界面的数量和每个样本用户访问女性类应用界面的数量;对所述样本集进行训练,生成性别比例分布参数和访问概率分布参数;利用所述性别比例分布参数和访问概率分布参数,以及当前用户访问男性类应用界面的数量和当前用户访问女性类应用界面的数量,生成所述当前用户的性别概率;根据所述当前用户的性别概率识别所述当前用户的性别。
在本申请实施例中,存储介质可以是磁碟、光盘、只读存储器(Read Only Memory,ROM,)、或者随机存取记忆体(Random Access Memory,RAM)等。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
需要说明的是,对本申请实施例的用户性别识别方法而言,本领域普通决策人员可以理解实现本申请实施例的用户性别识别方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述计算机程序可存储于一计算机可读取存储介质中,如存储在电子设备的存储器中,并被该电子设备内的至少一个处理器执行,在执行过程中可包括如用户性别识别方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。
对本申请实施例的用户性别识别装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中,所述存储介质譬如为只读存储器,磁盘或光盘等。
以上对本申请实施例所提供的一种用户性别识别方法、装置、存储介质及电子设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (13)
1.一种用户性别识别方法,其特征在于,包括:
根据样本用户访问的应用界面的类型构建样本集,所述样本集的样本中包括每个样本用户访问男性类应用界面的数量和每个样本用户访问女性类应用界面的数量,所述样本用户是未知性别的用户;
采用最大期望算法对所述样本集进行训练,生成性别比例分布参数和访问概率分布参数;
利用所述性别比例分布参数和访问概率分布参数,以及当前用户访问男性类应用界面的数量和当前用户访问女性类应用界面的数量,生成所述当前用户的性别概率;
根据所述当前用户的性别概率识别所述当前用户的性别;
其中,所述采用最大期望算法对所述样本集进行训练,生成性别比例分布参数和访问概率分布参数的步骤;具体包括:
初始时,为所述样本集随机给定性别比例分布参数和访问概率分布参数;
基于第一预设公式对所述样本集中男性用户所占的比例、女性用户所占的比例、男性用户访问男性类应用界面的概率、男性用户访问女性类应用界面的概率、女性用户访问男性类应用界面的概率、女性用户访问女性类应用界面的概率,以及每个样本用户访问男性类应用界面的数量、每个样本用户访问女性类应用界面的数量进行处理,生成每个样本用户为男性的性别概率,所述第一预设公式为:
其中,j∈[1,n],n表示样本用户的数量,uj表示样本用户j为男性的性别概率,α表示所述样本集中男性用户所占的比例,1-α表示所述样本集中女性用户所占的比例,p(1)表示男性用户访问男性类应用界面的概率,p(2)表示男性用户访问女性类应用界面的概率,q(1)表示女性用户访问男性类应用界面的概率,q(2)表示女性用户访问女性类应用界面的概率,表示样本用户j访问男性类应用界面的数量,表示样本用户j访问女性类应用界面的数量;
将1-uj确定为样本用户j为女性的性别概率;
根据每个样本用户的性别概率,生成性别比例分布参数和访问概率分布参数。
2.根据权利要求1所述的用户性别识别方法,其特征在于,所述方法还包括:
重复执行所述基于第一预设公式对所述样本集中男性用户所占的比例、女性用户所占的比例、男性用户访问男性类应用界面的概率、男性用户访问女性类应用界面的概率、女性用户访问男性类应用界面的概率、女性用户访问女性类应用界面的概率,以及每个样本用户访问男性类应用界面的数量、每个样本用户访问女性类应用界面的数量进行处理,生成每个样本用户为男性的性别概率,所述第一预设公式为:
其中,j∈[1,n],n表示样本用户的数量,uj表示样本用户j为男性的性别概率,α表示所述样本集中男性用户所占的比例,1-α表示所述样本集中女性用户所占的比例,p(1)表示男性用户访问男性类应用界面的概率,p(2)表示男性用户访问女性类应用界面的概率,q(1)表示女性用户访问男性类应用界面的概率,q(2)表示女性用户访问女性类应用界面的概率,表示样本用户j访问男性类应用界面的数量,表示样本用户j访问女性类应用界面的数量;
将1-uj确定为样本用户j为女性的性别概率;
根据每个样本用户的性别概率,生成性别比例分布参数和访问概率分布参数;
直至前后两次得到的对应参数的差值小于预设参数阈值时,输出性别比例分布参数和访问概率分布参数。
3.根据权利要求1所述的用户性别识别方法,其特征在于,根据每个样本用户的性别概率,生成性别比例分布参数和访问概率分布参数,包括:
根据每个样本用户为男性的性别概率以及样本用户的数量,生成男性用户所占的比例;
根据男性用户所占的比例,确定女性用户所占的比例;
根据每个样本用户为男性的性别概率、每个样本用户访问男性类应用界面的数量、以及每个样本用户访问的应用界面的总数,生成男性用户访问男性类应用界面的概率;
根据每个样本用户为男性的性别概率、每个样本用户访问女性类应用界面的数量、以及每个样本用户访问的应用界面的总数,生成男性用户访问女性类应用界面的概率;
根据每个样本用户为女性的性别概率、每个样本用户访问男性类应用界面的数量、以及每个样本用户访问的应用界面的总数,生成女性用户访问男性类应用界面的概率;
根据每个样本用户为女性的性别概率、每个样本用户访问女性类应用界面的数量、以及每个样本用户访问的应用界面的总数,生成女性用户访问女性类应用界面的概率。
4.根据权利要求3所述的用户性别识别方法,其特征在于,
基于第二预设公式对每个样本用户为男性的性别概率,以及样本用户的数量进行处理,生成男性用户所占的比例,所述第二预设公式为:
将1-α确定为女性用户所占的比例;
基于第三预设公式对每个样本用户为男性的性别概率、每个样本用户访问男性类应用界面的数量、以及每个样本用户访问的应用界面的总数进行处理,生成男性用户访问男性类应用界面的概率,所述第三预设公式为:
基于第四预设公式对每个样本用户为男性的性别概率、每个样本用户访问女性类应用界面的数量、以及每个样本用户访问的应用界面的总数进行处理,生成男性用户访问女性类应用界面的概率,所述第四预设公式为:
基于第五预设公式对每个样本用户为女性的性别概率、每个样本用户访问男性类应用界面的数量、以及每个样本用户访问的应用界面的总数进行处理,生成女性用户访问男性类应用界面的概率,所述第五预设公式为:
基于第六预设公式对每个样本用户为女性的性别概率、每个样本用户访问女性类应用界面的数量、以及每个样本用户访问的应用界面的总数进行处理,生成女性用户访问女性类应用界面的概率,所述第六预设公式为:
5.根据权利要求1至4任意一项所述的用户性别识别方法,其特征在于,所述方法还包括:
设置男性类应用界面集及女性类应用界面集;
根据设置的男性类应用界面集及女性类应用界面集,确定样本用户访问的应用界面的类型。
6.根据权利要求1至4任意一项所述的用户性别识别方法,其特征在于,所述当前用户的性别概率包括:所述当前用户为男性的性别概率,以及所述当前用户为女性的性别概率;
根据所述当前用户的性别概率识别所述当前用户的性别,包括:
若所述当前用户为男性的性别概率大于预设概率阈值,则将所述当前用户识别为男性;或者
若所述当前用户为女性的性别概率大于所述预设概率阈值,则将所述当前用户识别为女性。
7.一种用户性别识别装置,其特征在于,包括:
建立单元,用于根据样本用户访问的应用界面的类型构建样本集,所述样本集的样本中包括每个样本用户访问男性类应用界面的数量和每个样本用户访问女性类应用界面的数量,所述样本用户是未知性别的用户;
训练单元,用于采用最大期望算法对所述样本集进行训练,生成性别比例分布参数和访问概率分布参数;
生成单元,用于利用所述性别比例分布参数和访问概率分布参数,以及当前用户访问男性类应用界面的数量和当前用户访问女性类应用界面的数量,生成所述当前用户的性别概率;
识别单元,用于根据所述当前用户的性别概率识别所述当前用户的性别;
其中,所述训练单元包括:
初始化子单元,用于在初始时,为所述样本集随机给定性别比例分布参数和访问概率分布参数;
生成子单元,用于基于第一预设公式对所述样本集中男性用户所占的比例、女性用户所占的比例、男性用户访问男性类应用界面的概率、男性用户访问女性类应用界面的概率、女性用户访问男性类应用界面的概率、女性用户访问女性类应用界面的概率,以及每个样本用户访问男性类应用界面的数量、每个样本用户访问女性类应用界面的数量进行处理,生成每个样本用户为男性的性别概率,所述第一预设公式为:
8.根据权利要求7所述的用户性别识别装置,其特征在于,
所述生成子单元重复执行基于第一预设公式对所述样本集中男性用户所占的比例、女性用户所占的比例、男性用户访问男性类应用界面的概率、男性用户访问女性类应用界面的概率、女性用户访问男性类应用界面的概率、女性用户访问女性类应用界面的概率,以及每个样本用户访问男性类应用界面的数量、每个样本用户访问女性类应用界面的数量进行处理,生成每个样本用户为男性的性别概率,所述第一预设公式为:
其中,j∈[1,n],n表示样本用户的数量,uj表示样本用户j为男性的性别概率,α表示所述样本集中男性用户所占的比例,1-α表示所述样本集中女性用户所占的比例,p(1)表示男性用户访问男性类应用界面的概率,p(2)表示男性用户访问女性类应用界面的概率,q(1)表示女性用户访问男性类应用界面的概率,q(2)表示女性用户访问女性类应用界面的概率,表示样本用户j访问男性类应用界面的数量,表示样本用户j访问女性类应用界面的数量;将1-uj确定为样本用户j为女性的性别概率;根据每个样本用户的性别概率,生成性别比例分布参数和访问概率分布参数,直至前后两次得到的对应参数的差值小于预设参数阈值时,输出性别比例分布参数和访问概率分布参数。
9.根据权利要求7所述的用户性别识别装置,其特征在于,所述生成子单元根据每个样本用户的性别概率,生成性别比例分布参数和访问概率分布参数,包括:
所述生成子单元根据每个样本用户为男性的性别概率以及样本用户的数量,生成男性用户所占的比例;
所述生成子单元根据男性用户所占的比例,确定女性用户所占的比例;
所述生成子单元根据每个样本用户为男性的性别概率、每个样本用户访问男性类应用界面的数量、以及每个样本用户访问的应用界面的总数,生成男性用户访问男性类应用界面的概率;
所述生成子单元根据每个样本用户为男性的性别概率、每个样本用户访问女性类应用界面的数量、以及每个样本用户访问的应用界面的总数,生成男性用户访问女性类应用界面的概率;
所述生成子单元根据每个样本用户为女性的性别概率、每个样本用户访问男性类应用界面的数量、以及每个样本用户访问的应用界面的总数,生成女性用户访问男性类应用界面的概率;
所述生成子单元根据每个样本用户为女性的性别概率、每个样本用户访问女性类应用界面的数量、以及每个样本用户访问的应用界面的总数,生成女性用户访问女性类应用界面的概率。
10.根据权利要求7至9任意一项所述的用户性别识别装置,其特征在于,所述装置还包括:
设置单元,用于设置男性类应用界面集及女性类应用界面集;
确定单元,用于根据设置的男性类应用界面集及女性类应用界面集,确定样本用户访问的应用界面的类型。
11.根据权利要求7至9任意一项所述的用户性别识别装置,其特征在于,所述当前用户的性别概率包括:所述当前用户为男性的性别概率,以及所述当前用户为女性的性别概率;
所述识别单元具体用于:
在所述当前用户为男性的性别概率大于预设概率阈值时,将所述当前用户识别为男性;或者在所述当前用户为女性的性别概率大于所述预设概率阈值时,将所述当前用户识别为女性。
12.一种存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1至6任一项所述的用户性别识别方法。
13.一种电子设备,包括处理器和存储器,所述存储器有计算机程序,其特征在于,所述处理器通过调用所述计算机程序,用于执行如权利要求1至6任一项所述的用户性别识别方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711047061.3A CN107766891B (zh) | 2017-10-31 | 2017-10-31 | 用户性别识别方法、装置、存储介质及电子设备 |
PCT/CN2018/110476 WO2019085743A1 (zh) | 2017-10-31 | 2018-10-16 | 用户性别识别方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711047061.3A CN107766891B (zh) | 2017-10-31 | 2017-10-31 | 用户性别识别方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107766891A CN107766891A (zh) | 2018-03-06 |
CN107766891B true CN107766891B (zh) | 2020-05-12 |
Family
ID=61271113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711047061.3A Expired - Fee Related CN107766891B (zh) | 2017-10-31 | 2017-10-31 | 用户性别识别方法、装置、存储介质及电子设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107766891B (zh) |
WO (1) | WO2019085743A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766891B (zh) * | 2017-10-31 | 2020-05-12 | Oppo广东移动通信有限公司 | 用户性别识别方法、装置、存储介质及电子设备 |
CN108564220A (zh) * | 2018-04-19 | 2018-09-21 | 广州优视网络科技有限公司 | 用户性别预测方法、装置、存储介质和计算机设备 |
CN110502959A (zh) * | 2018-05-17 | 2019-11-26 | Oppo广东移动通信有限公司 | 性别判断方法、装置、存储介质及电子设备 |
CN110555451A (zh) * | 2018-05-31 | 2019-12-10 | 北京京东尚科信息技术有限公司 | 信息识别方法和装置 |
CN110851759B (zh) * | 2019-10-31 | 2022-11-29 | 上海连尚网络科技有限公司 | 一种识别新用户的性别的方法及设备 |
CN113268654A (zh) * | 2020-02-17 | 2021-08-17 | 北京搜狗科技发展有限公司 | 一种用户性别识别方法、装置及电子设备 |
CN112434136B (zh) * | 2020-12-08 | 2024-04-23 | 深圳市欢太科技有限公司 | 性别分类方法、装置、电子设备以及计算机存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103838884A (zh) * | 2014-03-31 | 2014-06-04 | 联想(北京)有限公司 | 信息处理设备以及信息处理方法 |
CN104636504A (zh) * | 2015-03-10 | 2015-05-20 | 飞狐信息技术(天津)有限公司 | 一种识别用户性别的方法及系统 |
CN106778843A (zh) * | 2016-11-30 | 2017-05-31 | 腾云天宇科技(北京)有限公司 | 一种预测移动终端用户性别的方法、服务器和系统 |
CN106897727A (zh) * | 2015-12-21 | 2017-06-27 | 百度在线网络技术(北京)有限公司 | 一种用户性别识别方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766891B (zh) * | 2017-10-31 | 2020-05-12 | Oppo广东移动通信有限公司 | 用户性别识别方法、装置、存储介质及电子设备 |
-
2017
- 2017-10-31 CN CN201711047061.3A patent/CN107766891B/zh not_active Expired - Fee Related
-
2018
- 2018-10-16 WO PCT/CN2018/110476 patent/WO2019085743A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103838884A (zh) * | 2014-03-31 | 2014-06-04 | 联想(北京)有限公司 | 信息处理设备以及信息处理方法 |
CN104636504A (zh) * | 2015-03-10 | 2015-05-20 | 飞狐信息技术(天津)有限公司 | 一种识别用户性别的方法及系统 |
CN106897727A (zh) * | 2015-12-21 | 2017-06-27 | 百度在线网络技术(北京)有限公司 | 一种用户性别识别方法及装置 |
CN106778843A (zh) * | 2016-11-30 | 2017-05-31 | 腾云天宇科技(北京)有限公司 | 一种预测移动终端用户性别的方法、服务器和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107766891A (zh) | 2018-03-06 |
WO2019085743A1 (zh) | 2019-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107766891B (zh) | 用户性别识别方法、装置、存储介质及电子设备 | |
CN108027952B (zh) | 用于提供内容的方法和电子设备 | |
CN111241340B (zh) | 视频标签确定方法、装置、终端及存储介质 | |
US10599913B2 (en) | Face model matrix training method and apparatus, and storage medium | |
KR20160015727A (ko) | 음악 정보 시각화 방법 및 장치 | |
US20170046123A1 (en) | Device for providing sound user interface and method thereof | |
CN109741755A (zh) | 语音唤醒词阈值管理装置及管理语音唤醒词阈值的方法 | |
CN106776036A (zh) | 一种资源分配方法及装置 | |
CN108573306B (zh) | 输出回复信息的方法、深度学习模型的训练方法及装置 | |
CN104423804A (zh) | 用于显示内容的方法和电子设备 | |
CN107548568A (zh) | 用于设备功能的场境发现的系统和方法 | |
CN107193598A (zh) | 一种应用启动方法、移动终端及计算机可读存储介质 | |
CN114333774B (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN117688385A (zh) | 文本分析模型的训练方法、装置、设备及存储介质 | |
CN113628221B (zh) | 图像处理方法、图像分割模型训练方法及相关装置 | |
CN111553163A (zh) | 文本相关度的确定方法、装置、存储介质及电子设备 | |
CN107368998A (zh) | 日程管理方法及相关产品 | |
CN106776040A (zh) | 一种资源分配方法及装置 | |
CN106815079A (zh) | 一种热门应用控制的方法及移动终端 | |
CN110020167B (zh) | 用户性别识别方法、装置、存储介质及电子设备 | |
CN107749201B (zh) | 点读对象处理方法、装置、存储介质及电子设备 | |
CN110852093B (zh) | 诗词生成方法、装置、计算机设备及存储介质 | |
CN112820302B (zh) | 声纹识别方法、装置、电子设备和可读存储介质 | |
CN108319667B (zh) | 多维的知识体系展示方法和装置 | |
CN113051126B (zh) | 画像构建方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Changan town in Guangdong province Dongguan 523860 usha Beach Road No. 18 Applicant after: GUANGDONG OPPO MOBILE TELECOMMUNICATIONS Corp.,Ltd. Address before: Changan town in Guangdong province Dongguan 523860 usha Beach Road No. 18 Applicant before: GUANGDONG OPPO MOBILE TELECOMMUNICATIONS Corp.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200512 |
|
CF01 | Termination of patent right due to non-payment of annual fee |