CN110119433B - 用于预测性别的方法和设备 - Google Patents

用于预测性别的方法和设备 Download PDF

Info

Publication number
CN110119433B
CN110119433B CN201910393107.XA CN201910393107A CN110119433B CN 110119433 B CN110119433 B CN 110119433B CN 201910393107 A CN201910393107 A CN 201910393107A CN 110119433 B CN110119433 B CN 110119433B
Authority
CN
China
Prior art keywords
gender
male
probability
user
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910393107.XA
Other languages
English (en)
Other versions
CN110119433A (zh
Inventor
许文龙
居海建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Shangxiang Network Technology Co.,Ltd.
Original Assignee
Shanghai Lianshang Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Lianshang Network Technology Co Ltd filed Critical Shanghai Lianshang Network Technology Co Ltd
Priority to CN201910393107.XA priority Critical patent/CN110119433B/zh
Publication of CN110119433A publication Critical patent/CN110119433A/zh
Application granted granted Critical
Publication of CN110119433B publication Critical patent/CN110119433B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/274Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc
    • H04M1/2745Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc using static electronic memories, e.g. chips
    • H04M1/27453Directories allowing storage of additional subscriber data, e.g. metadata

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例公开了用于预测性别的方法和设备。该方法的一具体实施方式包括:响应于接收到有标注信息的电话号码,从该标注信息中提取性别识别信息,其中,性别识别信息关联相应的性别偏向概率;若从该标注信息中提取出性别识别信息,则基于性别识别信息所关联的性别偏向概率,确定电话号码所归属的用户的性别偏向概率;基于用户的性别偏向概率,确定用户的性别。该实施方式可以避免通过采集图像、声音、应用列表等大量数据来进行性别预测,可以在节约数据采集时间、设备存储空间的情况下,提高性别预测准确率。

Description

用于预测性别的方法和设备
技术领域
本申请实施例涉及计算机技术领域,具体涉及用于预测性别的方法和设备。
背景技术
目前,对用户的性别的判断,主要基于用户的图像、声音、应用列表等大量数据。这些数据一般会占用较多的采集时间和设备存储空间。而且,由于用户所使用的图像可能不是用户本人的图像,用户的声音存在噪声等原因,基于这些数据预测出的性别的准确率一般比较低。
发明内容
本申请实施例提出了用于预测性别的方法和设备。
第一方面,本申请实施例提供了一种用于预测性别的方法,应用于服务端,该方法包括:响应于接收到有标注信息的电话号码,从标注信息中提取性别识别信息,其中,性别识别信息关联相应的性别偏向概率;若从标注信息中提取出性别识别信息,则基于性别识别信息所关联的性别偏向概率,确定电话号码所归属的用户的性别偏向概率;基于用户的性别偏向概率,确定用户的性别。
在一些实施例中,性别识别信息为身份标签或名字;以及基于性别识别信息所关联的性别偏向概率,确定电话号码所归属的用户的性别偏向概率,包括:获取与身份标签或名字相关联的性别偏向概率;基于身份标签或名字所关联的性别偏向概率,确定用户的性别偏向概率。
在一些实施例中,性别识别信息包括身份标签及名字;以及基于性别识别信息所关联的性别偏向概率,确定电话号码所归属的用户的性别偏向概率,包括:获取分别与身份标签和名字相关联的性别偏向概率;基于身份标签和名字所关联的性别偏向概率,确定用户的性别偏向概率。
在一些实施例中,身份标签和名字所关联的性别偏向概率包括男性性别偏向概率,男性性别偏向概率包括身份标签对应的第一男性性别偏向概率及名字对应的第二男性性别偏向概率;以及基于身份标签和名字所关联的性别偏向概率,确定用户的性别偏向概率,包括:基于预设的加权计算方法,对第一男性性别偏向概率和第二男性性别偏向概率进行加权计算,基于计算结果确定用户的男性性别偏向概率。
在一些实施例中,基于预设的加权计算方法,对第一男性性别偏向概率和第二男性性别偏向概率进行加权计算,基于计算结果确定用户的男性性别偏向概率,包括:将第一男性性别偏向概率与预设值之间的差值作为第一值,以及将第二男性性别偏向概率与预设值之间的差值作为第二值;若第一值与第二值之间的乘积等于零,则进一步确定第一值是否等于零;响应于确定第一值等于零,将第二男性性别偏向概率确定为用户的男性性别偏向概率;响应于确定第一值不等于零,将第一男性性别偏向概率确定为用户的男性性别偏向概率。
在一些实施例中,基于预设的加权计算方法,对第一男性性别偏向概率和第二男性性别偏向概率进行加权计算,基于计算结果确定用户的男性性别偏向概率,还包括:若第一值与第二值之间的乘积小于零,则将第一值、第二值和预设值三者之间的总和确定为用户的男性性别偏向概率。
在一些实施例中,基于预设的加权计算方法,对第一男性性别偏向概率和第二男性性别偏向概率进行加权计算,基于计算结果确定用户的男性性别偏向概率,还包括:若第一值与第二值之间的乘积大于零且第一值大于零,则利用以下公式计算出用户的男性性别偏向概率:
m=(1-(1-s1*2)*(1-s2*2))/2+a;
其中,m代表用户的男性性别偏向概率,s1代表第一值,s2代表第二值,a代表预设值。
在一些实施例中,基于预设的加权计算方法,对第一男性性别偏向概率和第二男性性别偏向概率进行加权计算,基于计算结果确定用户的男性性别偏向概率,还包括:若第一值与第二值之间的乘积大于零且第一值小于零,则利用以下公式计算出用户的男性性别偏向概率:
m=(-1+(1+s1*2)*(1+s2*2))/2+a;
其中,m代表用户的男性性别偏向概率,s1代表第一值,s2代表第二值,a代表预设值。
在一些实施例中,基于用户的性别偏向概率,确定用户的性别,包括:若用户的男性性别偏向概率大于概率阈值,则确定用户的性别为男性。
在一些实施例中,基于用户的性别偏向概率,确定用户的性别,包括:若用户的男性性别偏向概率小于概率阈值,则确定用户的性别为女性。
在一些实施例中,基于用户的性别偏向概率,确定用户的性别,包括:若用户的男性性别偏向概率等于概率阈值,则生成用于指示无法预测性别信息的信息。
在一些实施例中,上述方法还包括:若未从标注信息中提取出性别识别信息,则生成用于指示无法预测性别信息的信息。
在一些实施例中,上述方法还包括:获取与至少一个电话号码对应的预测结果,其中,预测结果用于指示其所对应的电话号码所归属的用户的性别;向用于提供真实性别信息的第一服务端发送包括至少一个电话号码的信息;接收第一服务端返回的与该至少一个电话号码分别对应的真实性别信息;基于接收到的真实性别信息,确定预测结果的准确率。
在一些实施例中,上述方法还包括:获取样本电话号码集合,其中,样本电话号码集合中的每个样本电话号码对应标注信息;从样本电话号码集合中的样本电话号码所对应的标注信息中提取性别识别信息;对提取出的性别识别信息进行分析,确定提取出的性别识别信息所关联的性别偏向概率。
在一些实施例中,提取出的性别识别信息包括身份标签和名字,身份标签包括第一身份标签和第二身份标签;以及对提取出的性别识别信息进行分析,确定提取出的性别识别信息所关联的性别偏向概率,包括:将样本电话号码集合中的样本电话号码作为用户,基于第一身份标签将样本电话号码集合分成男性用户组及女性用户组;基于第二身份标签所对应的样本电话号码在男性用户组或女性用户组中的占比,确定第二身份标签所关联的性别偏向概率;基于名字所对应的样本电话号码在男性用户组或女性用户组中的占比,确定名字所关联的性别偏向概率。
在一些实施例中,第二身份标签及名字关联的性别偏向概率包括男性性别偏向概率,男性性别偏向概率包括第二身份标签对应的第一男性性别偏向概率及名字对应的第二男性性别偏向概率;以及基于第二身份标签所对应的样本电话号码在男性用户组或女性用户组中的占比,确定第二身份标签所关联的性别偏向概率,包括:对于提取出的性别识别信息中的每个第二身份标签,对于男性用户组和女性用户组中的与该第二身份标签相关联的所有样本电话号码,确定该所有样本电话号码中的归属于男性用户组的样本电话号码在该所有样本电话号码中的占比,基于该占比确定与该第二身份标签对应的第一男性性别偏向概率。
在一些实施例中,基于名字所对应的样本电话号码在男性用户组或女性用户组中的占比,确定名字所关联的性别偏向概率,包括:对于提取出的性别识别信息中的每个名字,对于男性用户组和女性用户组中的与该名字相关联的所有样本电话号码,确定该所有样本电话号码中的归属于男性用户组的样本电话号码在该所有样本电话号码中的占比,基于该占比确定与该名字对应的第二男性性别偏向概率。
在一些实施例中,第二身份标签及名字关联的性别偏向概率包括女性性别偏向概率,女性性别偏向概率包括第二身份标签对应的第一女性性别偏向概率及名字对应的第二女性性别偏向概率;以及基于第二身份标签所对应的样本电话号码在男性用户组或女性用户组中的占比,确定第二身份标签所关联的性别偏向概率,包括:对于提取出的性别识别信息中的每个第二身份标签,对于男性用户组和女性用户组中的与该第二身份标签相关联的所有样本电话号码,确定该所有样本电话号码中的归属于女性用户组的样本电话号码在该所有样本电话号码中的占比,基于该占比确定与该第二身份标签对应的第一女性性别偏向概率。
在一些实施例中,基于名字所对应的样本电话号码在男性用户组或女性用户组中的占比,确定名字所关联的性别偏向概率,包括:对于提取出的性别识别信息中的每个名字,对于男性用户组和女性用户组中的与该名字相关联的所有样本电话号码,确定该所有样本电话号码中的归属于女性用户组的样本电话号码在该所有样本电话号码中的占比,基于该占比确定与该名字对应的第二女性性别偏向概率。
第二方面,本申请实施例提供了一种用于预测性别的装置,应用于服务端,该装置包括:提取单元,被配置成响应于接收到有标注信息的电话号码,从标注信息中提取性别识别信息,其中,性别识别信息关联相应的性别偏向概率;第一确定单元,被配置成若从标注信息中提取出性别识别信息,则基于性别识别信息所关联的性别偏向概率,确定电话号码所归属的用户的性别偏向概率;第二确定单元,被配置成基于用户的性别偏向概率,确定用户的性别。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当该一个或多个程序被该一个或多个处理器执行,使得该一个或多个处理器实现如第一方面中任一实现方式描述的方法。
第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
本申请的上述实施例提供的用于预测性别的方法和设备,通过响应于接收有标注信息的电话号码,从标注信息中提取性别识别信息,其中,性别识别信息关联相应的性别偏向概率,而后若从标注信息中提取出性别识别信息,则基于性别识别信息所关联的性别偏向概率,确定电话号码所归属的用户的性别偏向概率,以便基于该用户的性别偏向概率,确定该用户的性别。本申请的上述实施例提供的方案通过电话号码所关联的性别识别信息来预测电话号码所归属的用户的性别,可以避免通过采集图像、声音、应用列表等大量数据来进行性别预测,这些数据一般会占用较多的数据采集时间和设备存储空间。另外,根据电话号码的相对客观的标注信息来挖掘电话号码所关联的性别识别信息,基于该性别识别信息来进行性别预测,可以提高性别预测准确率。因而,本申请的上述实施例提供的方案,可以在节约数据采集时间、设备存储空间的情况下,提高性别预测准确率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请的一些实施例可以应用于其中的示例性系统架构图;
图2是根据本申请的用于预测性别的方法的一个实施例的流程图;
图3是根据本申请的用于预测性别的方法的一个应用场景的示意图;
图4是根据本申请的用于预测性别的方法的又一个实施例的流程图;
图5是根据本申请的基于有标注信息的样本电话号码集合的信息挖掘方法的一个实施例的流程图;
图6是适于用来实现本申请的一些实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于预测性别的方法的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括预测请求端101,网络102和服务器103。网络102用以在预测请求端101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
预测请求端101可以是终端设备,也可以是服务器。当预测请求端101为终端设备时,其上可以安装有各种通讯客户端应用,例如网页浏览器应用、性别预测类应用等等。终端设备可以是硬件,也可以是软件。当终端设备为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器103可以是提供各种服务的服务器,例如,服务器103可以响应于接收到预测请求端101发送的有标注信息的电话号码,基于该电话号码所关联的标注信息,进行相应的性别预测操作。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
需要指出的是,本申请的一些实施例所提供的用于预测性别的方法可在服务器103上执行。
应该理解,图1中的预测请求端、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的预测请求端、网络和服务器。
继续参考图2,示出了根据本申请的用于预测性别的方法的一个实施例的流程200。该用于预测性别的方法的流程200,包括以下步骤:
步骤201,响应于接收到有标注信息的电话号码,从标注信息中提取性别识别信息。
在本实施例中,用于预测性别的方法的执行主体可以为服务端(例如图1所示的服务器103)。上述执行主体可以响应于接收到有标注信息的电话号码,从该标注信息中提取性别识别信息。其中,性别识别信息可以关联性别偏向概率。
需要说明的是,电话号码可以为固定电话或移动电话的号码,在此不做具体限定。本实施例中的性别可以包括男性和女性。性别偏向概率可以包括男性性别偏向概率和/或女性性别偏向概率。男性性别偏向概率可以指偏向男性的概率。女性性别偏向概率可以指偏向女性的概率。
实践中,性别识别信息可以包括以下至少一项:身份标签、名字。其中,身份标签可以包括第一身份标签、第二身份标签。第一身份标签可以是显性的便于区分性别的身份标签,例如“爸爸”、“妈妈”、“姐姐”、“弟弟”等家庭称谓。第二身份标签例如可以包括但不限于职业标签等。其中,职业标签例如可以包括但不限于“保姆”、“司机”、“师傅”、“房东”等等。另外,本申请中的名字一般不包括姓氏。
在本实施例中,上述执行主体例如可以基于预设的身份标签集合以及名字集合,对电话号码对应的标注信息进行身份识别信息提取。其中,身份标签集合中的身份标签以及名字集合中的名字均对应相应的性别偏向概率。
这里,若标注信息为经分词之后的标注信息,则上述执行主体可以将标注信息中的包含在身份标签集合中的词确定为电话号码所关联的身份标签,以及将包含在名字集合中的词确定为电话号码所关联的名字。作为示例,假设标注信息包括以下词:小明、老马、老板。若“老板”包含在身份标签集合中,则上述执行主体可以将“老板”确定为电话号码所关联的身份标签。若“小明”包含在名字集合中,则上述执行主体可以将“小明”确定为电话号码所关联的名字。
若标注信息是未经分词的标注信息,则上述执行主体可以先基于预设的分词方法(例如Jieba分词等),对标注信息进行分词,而后可以基于身份标签集合和名字集合,从分出的词中提取身份标签和名字。其中,Jieba分词可称为结巴分词。由于Jieba分词是目前广泛研究和应用的公知技术,在此不再赘述。
需要说明的是,一个电话号码可以关联一个或多个身份标签,在此不做具体限定。
步骤202,若从标注信息中提取出性别识别信息,则基于性别识别信息所关联的性别偏向概率,确定电话号码所归属的用户的性别偏向概率。
在本实施例中,若上述执行主体从标注信息中提取出性别识别信息,则上述执行主体可以基于提取出的性别识别信息所关联的性别偏向概率,确定电话号码所归属的用户的性别偏向概率。
需要说明的是,上述执行主体可以采用各种方法,基于提取出的性别识别信息所关联的性别偏向概率,确定电话号码所归属的用户的性别偏向概率。
作为示例,若提取出的性别识别信息为身份标签或名字,上述执行主体可以获取与身份标签或名字相关联的性别偏向概率,并基于获取到的性别偏向概率,确定用户的性别偏向概率。例如,若提取出的性别识别信息为一个身份标签或一个名字,该身份标签或该名字所关联的性别偏向概率包括女性性别偏向概率,上述执行主体可以将该女性性别偏向概率确定为用户的女性性别偏向概率。
作为另一个示例,若提取出的性别识别信息包括身份标签及名字,上述执行主体可以获取分别与该身份标签和该名字相关联的性别偏向概率,并基于该身份标签和该名字所关联的性别偏向概率,确定用户的性别偏向概率。以女性性别偏向概率为例,上述执行主体例如可以将身份标签对应的第一女性性别偏向概率和名字对应的第二女性性别偏向概率的平均值确定为用户的性别偏向概率。可选地,若该第一女性性别偏向概率和该第二女性性别偏向概率中的一者等于预设值(例如0.5),上述执行主体可以将该第一女性性别偏向概率和该第二女性性别偏向概率中的另一者确定为用户的女性性别偏向概率。可选地,上述执行主体也可以采用与图4所示实施例中的加权计算方法类似的方法,基于身份标签和名字所关联的女性性别偏向概率,确定用户的女性性别偏向概率。
步骤203,基于用户的性别偏向概率,确定用户的性别。
在本实施例中,上述执行主体可以基于用户的性别偏向概率,确定用户的性别。例如,若用户的女性性别偏向概率大于概率阈值(例如0.5),则上述执行主体可以确定用户的性别为女性。若用户的女性性别偏向概率小于概率阈值,则上述执行主体可以确定用户的性别为男性。
需要说明的是,若用户的女性性别偏向概率等于概率阈值,上述执行主体例如可以确定无法预测性别信息,并生成用于指示无法预测性别信息的信息。
可选地,若性别除了包括男性和女性外,还包括中性,那么当用户的女性性别偏向概率等于概率阈值时,上述执行主体可以确定用户的性别为中性。
继续参见图3,图3是根据本实施例的用于预测性别的方法的应用场景的一个示意图。在图3的应用场景中,性别偏向概率可以包括女性性别偏向概率,预设值和概率阈值均为0.5。当预测请求端需要获取有标注信息的电话号码A所归属的用户的性别信息时,可以如标号301所示,将电话号码A和电话号码A所关联的标注信息B发送给服务器。其中,标注信息B可以包括以下词:小明、老板、老马。服务器本地可以存储有身份标签集合和名字集合。其中,身份标签集合中的每个身份标签和名字集合中的每个名字可以分别关联女性性别偏向概率。如标号302所示,服务器可以基于身份标签集合和名字集合,从标注信息B中提取出包括身份标签“老板”和名字“小明”的身份识别信息。其中,身份标签“老板”对应的第一女性性别偏向概率可以为0.5。名字“小明”对应的第二女性性别偏向概率可以为0.2。而后,如标号303所示,服务器可以确定身份标签“老板”对应的第一女性性别偏向概率0.5等于上述预设值,将名字“小明”对应的第二女性性别偏向概率0.2确定为电话号码A所归属的用户的女性性别偏向概率。然后,如标号304所示,服务器可以确定电话号码A所归属的用户的女性性别偏向概率小于概率阈值,将电话号码A所归属的用户的性别确定为男性。最后,如标号305所示,服务器可以向预测请求端返回用于指示电话号码A所归属的用户的性别为男性的信息。
本申请的上述实施例提供的用于预测性别的方法,通过响应于接收有标注信息的电话号码,从标注信息中提取性别识别信息,其中,性别识别信息关联相应的性别偏向概率,而后若从标注信息中提取出性别识别信息,则基于性别识别信息所关联的性别偏向概率,确定电话号码所归属的用户的性别偏向概率,以便基于该用户的性别偏向概率,确定该用户的性别。本申请的上述实施例提供的方案通过电话号码所关联的性别识别信息来预测电话号码所归属的用户的性别,可以避免通过采集图像、声音、应用列表等大量数据来进行性别预测,可以在节约数据采集时间、设备存储空间的情况下,提高性别预测准确率。
进一步参考图4,其示出了用于预测性别的方法的又一个实施例的流程400。该用于预测性别的方法的流程400,包括以下步骤:
步骤401,响应于接收到有标注信息的电话号码,从标注信息中提取性别识别信息。
在本实施例中,用于预测性别的方法的执行主体可以是服务端(例如图1所示的服务器103)。上述执行主体可以响应于接收到有标注信息的电话号码,从该标注信息中提取性别识别信息。其中,性别识别信息可以关联性别偏向概率。
需要说明的是,电话号码可以为固定电话或移动电话的号码,在此不做具体限定。本实施例中的性别可以包括男性和女性。性别识别信息可以包括身份标签和名字。身份标签和名字所关联的性别偏向概率可以包括男性性别偏向概率。该男性性别偏向概率包括身份标签对应的第一男性性别偏向概率及名字对应的第二男性性别偏向概率。
步骤402,若从标注信息中提取出包括身份标签及名字的性别识别信息,获取身份标签对应的第一男性性别偏向概率及名字对应的第二男性性别偏向概率。
在本实施例中,若上述执行主体从标注信息中提取出包括身份标签及名字的性别识别信息,上述执行主体可以获取身份标签对应的第一男性性别偏向概率及名字对应的第二男性性别偏向概率。
其中,若提取出的性别识别信息仅包括一个身份标签及一个名字,那么上述执行主体所获取的第一男性性别偏向概率为该一个身份标签所对应的原始的第一男性性别偏向概率(例如该一个身份标签在上述身份标签集合中时对应的第一男性性别偏向概率),所获取的第二男性性别偏向概率为该一个名字所对应的原始的第二男性性别偏向概率(例如该一个名字在上述名字集合中时所对应的第二男性性别偏向概率)。
若提取出的性别识别信息包括多个身份标签及多个名字,那么上述执行主体所获取的第一男性性别偏向概率可以是基于该多个身份标签所对应的原始的第一男性性别偏向概率计算得到的,所获取的第二男性性别偏向概率可以是基于该多个名字所对应的原始的第二男性性别偏向概率计算得到的。这里,上述执行主体例如可以采用平均值方法或加权计算方法计算得到提取出的性别识别信息中的身份标签对应的第一男性性别偏向概率及名字对应的第二男性性别偏向概率。
步骤403,基于预设的加权计算方法,对第一男性性别偏向概率和第二男性性别偏向概率进行加权计算,基于计算结果确定用户的男性性别偏向概率。
在本实施例中,上述执行主体在获取到提取出的性别识别信息中的身份标签对应的第一男性性别偏向概率及名字对应的第二男性性别偏向概率后,可以基于预设的加权计算方法,对第一男性性别偏向概率和第二男性性别偏向概率进行加权计算,基于计算结果确定用户的男性性别偏向概率。
例如,上述执行主体可以将第一男性性别偏向概率与预设值(例如0.5)之间的差值作为第一值,以及将第二男性性别偏向概率与上述预设值之间的差值作为第二值。而后,若第一值与第二值之间的乘积等于零,则上述执行主体可以进一步确定第一值是否等于零;若第一值等于零,则上述执行主体可以将第二男性性别偏向概率确定为用户的男性性别偏向概率;若第一值不等于零,则上述执行主体可以将第一男性性别偏向概率确定为用户的男性性别偏向概率。
在本实施例的一些可选的实现方式中,若第一值与第二值之间的乘积小于零,则上述执行主体可以将第一值、第二值和上述预设值三者之间的总和确定为用户的男性性别偏向概率。
在本实施例的一些可选的实现方式中,若第一值与第二值之间的乘积大于零且第一值大于零,则上述执行主体可以利用以下公式计算出用户的男性性别偏向概率:
m=(1-(1-s1*2)*(1-s2*2))/2+a。
若第一值与第二值之间的乘积大于零且第一值小于零,则上述执行主体可以利用以下公式计算出用户的男性性别偏向概率:
m=(-1+(1+s1*2)*(1+s2*2))/2+a。
其中,m可以代表用户的男性性别偏向概率,s1可以代表第一值,s2可以代表第二值,a可以代表上述预设值。
步骤404,基于用户的男性性别偏向概率,确定用户的性别。
在本实施例中,上述执行主体在确定电话号码所归属的用户的男性性别偏向概率后,可以基于该男性性别偏向概率,确定该用户的性别。例如,若该用户的男性性别偏向概率大于概率阈值(例如0.5),则上述执行主体可以确定该用户的性别为男性。若该用户的男性性别偏向概率小于概率阈值,则上述执行主体可以确定该用户的性别为女性。若该用户的男性性别偏向概率等于概率阈值,则上述执行主体可以确定无法预测性别信息,并生成用于指示无法预测性别信息的信息。
可选地,若性别除了包括男性和女性外,还包括中性,那么当电话号码所归属的用户的男性性别偏向概率等于概率阈值时,上述执行主体可以确定用户的性别为中性。
从图4中可以看出,与图2对应的实施例相比,本实施例提供的用于预测性别的方法的流程400突出了采用加权计算方法确定电话号码所归属的用户的男性性别偏向概率的步骤。由此,本实施例描述的方案在节约数据采集时间、设备存储空间的情况下,可以进一步提升所确定的性别的准确率。
在本申请的各实施例提供的用于预测性别的方法的一些可选的实现方式中,该方法的执行主体在确定出电话号码所归属的用户的性别后,可以返回用于指示该用户的性别的信息。
在本申请的各实施例提供的用于预测性别的方法的一些可选的实现方式中,若未从标注信息中提取出性别识别信息,则上述执行主体可以生成用于指示无法预测性别信息的信息。可选地,上述执行主体还可以返回该信息。
在本申请的各实施例提供的用于预测性别的方法的一些可选的实现方式中,上述执行主体可以评估所预测的性别的准确率。例如,上述执行主体可以获取与至少一个电话号码对应的预测结果。其中,预测结果可以用于指示其所对应的电话号码所归属的用户的性别。而后,上述执行主体可以向用于提供真实性别信息的第一服务端(例如与该至少一个电话号码相关联的运营商的服务器)发送包括该至少一个电话号码的信息。之后,上述执行主体可以接收第一服务端返回的与该至少一个电话号码分别对应的真实性别信息。然后,上述执行主体可以基于接收到的真实性别信息,确定预测结果的准确率。这里,上述执行主体可以基于接收到的真实性别信息,统计出与该至少一个电话号码对应的预测结果中的正确的预测结果的数量,将该数量和与该至少一个电话号码对应的预测结果的总数量的比值作为准确率。
在本申请的各实施例提供的用于预测性别的方法的一些可选的实现方式中,上述执行主体提取出的性别标识信息中的每项信息所关联的性别偏向概率可以是上述执行主体预先确定的。上述执行主体例如可以采用如图5所示的实施例描述的方法进行性别偏向概率挖掘。
如图5所示,其示出了基于有标注信息的样本电话号码集合的信息挖掘方法的一个实施例的流程500,包括以下步骤:
步骤501,获取样本电话号码集合。
在本实施例中,上述执行主体可以从本地或所连接的服务器获取样本电话号码集合。其中,样本电话号码集合中的每个样本电话号码对应标注信息。标注信息可以包括但不限于身份标签、名字。其中,身份标签包括第一身份标签和第二身份标签。需要说明的是,样本电话号码集合可以是基于多个通讯录生成的。
步骤502,从样本电话号码集合中的样本电话号码所对应的标注信息中提取性别识别信息,性别识别信息包括身份标签和名字,身份标签包括第一身份标签和第二身份标签。
在本实施例中,上述执行主体可以从样本电话号码集合中的样本电话号码所对应的标注信息中提取性别识别信息。其中,性别识别信息包括身份标签和名字。该身份标签包括第一身份标签和第二身份标签。
这里,上述执行主体例如可以获取人工预先确定的第一身份标签集合和第二身份标签集合。而后,上述执行主体可以对样本电话号码集合中的样本电话号码所对应的标注信息所形成的标注信息集合进行分词操作,以得到词集合。之后,上述执行主体例如可以从词集合中选取包含在第一身份标签集合中的词作为第一身份标签。此外,上述执行主体例如可以基于预设的身份标签选取条件,从词集合中的除被确定为第一身份标签以外的词中选取词作为候选词。接着,上述执行主体例如可以从各个候选词中移除被确定为第一身份标签的候选词。然后,上述执行主体例如可以对剩余的候选词以及上述第二身份标签集合进行合并去重,并将去重后剩下的候选词以及第二身份标签确定为提取出的第二身份标签。
需要说明的是,上述执行主体例如可以采用Jieba分词方法对标注信息进行分词。身份标签选取条件例如可以包括以下至少一项:身份标签是词频最高的前第一预设数目(例如500)个词中的词、身份标签不归属于预设的停用词集合。其中,停用词可以是自身无明确的意义的词,例如语气助词、副词、介词、连接词等。需要说明的是,上述执行主体可以采用Jieba分词方法中的TF-IDF算法(Term Frequency-Inverse Document Frequency,词频-逆向文件频率)确定词集合中的词的词频。
在本实施例中,上述执行主体可以基于预设的名字选取条件,从词集合中提取出名字。其中,名字选取条件例如可以包括以下至少一项:名字长度不大于预设长度(例如5)、名字不包括姓氏、名字不包含在提取出的身份标签中、名字为汉字、名字包含在不少于第二预设数目(例如100)个样本电话号码所对应的标注信息中等等。
假设名字选取条件包括以上列举的各项,上述执行主体可以先从词集合中移除停用词、包含在提取出的身份标签中的词,以及不属于汉字的词。而后上述执行主体可以统计词集合中剩余的词在样本电话号码集合中的多少个样本电话号码所对应的标注信息中出现过,得到与该剩余的词中的每个词对应的出现次数,上述执行主体可以将所对应的出现次数小于第二预设数目的词从词集合中移除。接着上述执行主体可以对词集合中剩余的词进行姓氏移除。然后上述执行主体可以进一步移除词集合中的长度大于或等于预设长度的词。最后上述执行主体可以将此时词集合中剩余的词均作为名字。
步骤503,将样本电话号码集合中的样本电话号码作为用户,基于第一身份标签将样本电话号码集合分成男性用户组及女性用户组。
在本实施例中,将样本电话号码集合中的样本电话号码作为用户上述执行主体可以基于在步骤502中提取出的第一身份标签,将样本电话号码集合划分成男性用户组及女性用户组。
作为示例,上述第一身份标签集合中的第一身份标签可以对应相应的性别,如男性或女性。对于样本电话号码集合中的任意一个样本电话号码,若该样本电话号码所对应的标注信息包括对应女性的第一身份标签,上述执行主体可以将该样本电话号码归入女性用户组;若该样本电话号码所对应的标注信息包括对应男性的第一身份标签,上述执行主体可以将该样本电话号码归入男性用户组。
步骤504,基于第二身份标签所对应的样本电话号码在男性用户组或女性用户组中的占比,确定第二身份标签所关联的性别偏向概率。
在本实施例中,上述执行主体可以基于第二身份标签所对应的样本电话号码在男性用户组或女性用户组中的占比,确定第二身份标签所关联的性别偏向概率。
作为示例,第二身份标签及名字关联的性别偏向概率包括男性性别偏向概率,该男性性别偏向概率包括第二身份标签对应的第一男性性别偏向概率及名字对应的第二男性性别偏向概率。对于提取出的性别识别信息中的每个第二身份标签,对于男性用户组和女性用户组中的与该第二身份标签相关联的所有样本电话号码,确定该所有样本电话号码中的归属于男性用户组的样本电话号码在该所有样本电话号码中的占比,基于该占比确定与该第二身份标签对应的第一男性性别偏向概率。
例如,假设该第二身份标签为“司机”,男性用户组和女性用户组中的与第二身份标签“司机”相关联的所有样本电话号码共220万个,其中89%归属于男性用户组,11%归属于女性用户组。上述执行主体可以将0.89确定为与第二身份标签“司机”对应的第一男性性别偏向概率。
可选地,第二身份标签及名字关联的性别偏向概率可以包括女性性别偏向概率,该女性性别偏向概率可以包括第二身份标签对应的第一女性性别偏向概率及名字对应的第二女性性别偏向概率。对于提取出的性别识别信息中的每个第二身份标签,上述执行主体例如可以将1与该第二身份标签所对应的第一男性性别偏向概率之间的差值确定为该第二身份标签所对应的第一女性性别偏向概率。再例如,上述执行主体可以采用以下方式确定该第二身份标签所对应的第一女性性别偏向概率:对于男性用户组和女性用户组中的与该第二身份标签相关联的所有样本电话号码,确定该所有样本电话号码中的归属于女性用户组的样本电话号码在该所有样本电话号码中的占比,基于该占比确定与该第二身份标签对应的第一女性性别偏向概率。
步骤505,基于名字所对应的样本电话号码在男性用户组或女性用户组中的占比,确定名字所关联的性别偏向概率。
在本实施例中,上述执行主体可以基于名字所对应的样本电话号码在男性用户组或女性用户组中的占比,确定名字所关联的性别偏向概率。
作为示例,第二身份标签及名字关联的性别偏向概率包括男性性别偏向概率,该男性性别偏向概率包括第二身份标签对应的第一男性性别偏向概率及名字对应的第二男性性别偏向概率。对于提取出的性别识别信息中的每个名字,对于男性用户组和女性用户组中的与该名字相关联的所有样本电话号码,确定该所有样本电话号码中的归属于男性用户组的样本电话号码在该所有样本电话号码中的占比,基于该占比确定与该名字对应的第二男性性别偏向概率。
例如,假设该名字为“小明”,男性用户组和女性用户组中的与名字“小明”相关联的所有样本电话号码共220万个,其中89%归属于男性用户组,11%归属于女性用户组。上述执行主体可以将0.89确定为与名字“小明”对应的第二男性性别偏向概率。
可选地,第二身份标签及名字关联的性别偏向概率可以包括女性性别偏向概率,该女性性别偏向概率可以包括第二身份标签对应的第一女性性别偏向概率及名字对应的第二女性性别偏向概率。对于提取出的性别识别信息中的每个名字,上述执行主体例如可以将1和该名字所对应的第二男性性别偏向概率之间的差值确定为该名字所对应的第二女性性别偏向概率。再例如,上述执行主体可以采用以下方式确定该名字所对应的第二女性性别偏向概率:对于男性用户组和女性用户组中的与该名字相关联的所有样本电话号码,确定该所有样本电话号码中的归属于女性用户组的样本电话号码在该所有样本电话号码中的占比,基于该占比确定与该名字对应的第二女性性别偏向概率。
需要说明的是,上述第一身份标签集合中的每个第一身份标签可以预先对应性别偏向概率。
可选地,若上述第一身份标签集合中的第一身份标签未预先对应性别偏向概率,上述执行主体可以基于预设的规则,确定该第一身份标签对应的性别偏向概率。其中,该规则例如可以包括:若第一身份标签对应的性别为男性,则确定该第一身份标签所对应的第一男性性别偏向概率为1,所对应的第一女性性别偏向概率为0;若第一身份标签对应的性别为女性,则确定该第一身份标签所对应的第一男性性别偏向概率为0,所对应的第一女性性别偏向概率为1。
另外,上述执行主体在基于样本电话号码集合完成信息挖掘后,可以将对应相应性别偏向概率的第一身份标签及第二身份标签合并为身份标签集合,以及将对应相应性别偏向概率的名字合并为名字集合。
本申请的上述实施例提供的基于有标注信息的样本电话号码集合的信息挖掘方法的流程500,可以对来源于多个通讯录的大量的样本电话号码进行分析,根据通讯录主相对客观的电话号码标注信息,挖掘有标注信息的电话号码关联的身份标签及名字,以及统计挖掘出的多个身份标签中的每个身份标签以及多个名字中的每个名字在男女性别中的概率分布。挖掘出的关联相应性别偏向概率的身份标签及名字可以用于性别预测,可以有助于提高性别预测准确率。另外,由于本申请的上述实施例提供的方案基于通讯录数据挖掘用于性别预测的信息,可以避免采集图像、声音、应用列表等大量数据进行数据挖掘,可以有效地节约数据采集时间和设备存储空间。
下面参考图6,其示出了适于用来实现本申请实施例的电子设备(例如图1所示的服务器)的计算机系统600的结构示意图。图6示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括提取单元、第一确定单元和第二确定单元。其中,这些单元的名字在某种情况下并不构成对该单元本身的限定,例如,提取单元还可以被描述为“从标注信息中提取性别识别信息的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备:响应于接收到有标注信息的电话号码,从标注信息中提取性别识别信息,其中,性别识别信息关联相应的性别偏向概率;若从标注信息中提取出性别识别信息,则基于性别识别信息所关联的性别偏向概率,确定电话号码所归属的用户的性别偏向概率;基于用户的性别偏向概率,确定用户的性别。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (21)

1.一种用于预测性别的方法,应用于服务端,所述方法包括:
响应于接收到有标注信息的电话号码,从所述标注信息中提取性别识别信息,其中,所述性别识别信息关联相应的性别偏向概率,所述性别识别信息包括身份标签和名字,名字所关联的性别偏向概率基于名字所对应的样本电话号码在男性用户组或女性用户组中的占比确定,所述男性用户组以及所述女性用户组基于所述身份标签对样本电话号码集合的划分而确定;
若从所述标注信息中提取出所述性别识别信息,则基于所述性别识别信息所关联的性别偏向概率,确定所述电话号码所归属的用户的性别偏向概率;
基于所述用户的性别偏向概率,确定所述用户的性别。
2.根据权利要求1所述的方法,其中,所述基于所述性别识别信息所关联的性别偏向概率,确定所述电话号码所归属的用户的性别偏向概率,包括:
获取与身份标签或名字相关联的性别偏向概率;
基于身份标签或名字所关联的性别偏向概率,确定所述用户的性别偏向概率。
3.根据权利要求1所述的方法,其中,所述基于所述性别识别信息所关联的性别偏向概率,确定所述电话号码所归属的用户的性别偏向概率,包括:
获取分别与身份标签和名字相关联的性别偏向概率;
基于身份标签和名字所关联的性别偏向概率,确定所述用户的性别偏向概率。
4.根据权利要求3所述的方法,其中,身份标签和名字所关联的性别偏向概率包括男性性别偏向概率,所述男性性别偏向概率包括身份标签对应的第一男性性别偏向概率及名字对应的第二男性性别偏向概率;以及
所述基于身份标签和名字所关联的性别偏向概率,确定所述用户的性别偏向概率,包括:
基于预设的加权计算方法,对所述第一男性性别偏向概率和所述第二男性性别偏向概率进行加权计算,基于计算结果确定所述用户的男性性别偏向概率。
5.根据权利要求4所述的方法,其中,所述基于预设的加权计算方法,对所述第一男性性别偏向概率和所述第二男性性别偏向概率进行加权计算,基于计算结果确定所述用户的男性性别偏向概率,包括:
将所述第一男性性别偏向概率与预设值之间的差值作为第一值,以及将所述第二男性性别偏向概率与所述预设值之间的差值作为第二值;
若所述第一值与所述第二值之间的乘积等于零,则进一步确定所述第一值是否等于零;
响应于确定所述第一值等于零,将所述第二男性性别偏向概率确定为所述用户的男性性别偏向概率;
响应于确定所述第一值不等于零,将所述第一男性性别偏向概率确定为所述用户的男性性别偏向概率。
6.根据权利要求5所述的方法,其中,所述基于预设的加权计算方法,对所述第一男性性别偏向概率和所述第二男性性别偏向概率进行加权计算,基于计算结果确定所述用户的男性性别偏向概率,还包括:
若所述第一值与所述第二值之间的乘积小于零,则将所述第一值、所述第二值和所述预设值三者之间的总和确定为所述用户的男性性别偏向概率。
7.根据权利要求5所述的方法,其中,所述基于预设的加权计算方法,对所述第一男性性别偏向概率和所述第二男性性别偏向概率进行加权计算,基于计算结果确定所述用户的男性性别偏向概率,还包括:
若所述第一值与所述第二值之间的乘积大于零且所述第一值大于零,则利用以下公式计算出所述用户的男性性别偏向概率:
m=(1-(1-s1*2)*(1-s2*2))/2+a;
其中,m代表所述用户的男性性别偏向概率,s1代表所述第一值,s2代表所述第二值,a代表所述预设值。
8.根据权利要求5所述的方法,其中,所述基于预设的加权计算方法,对所述第一男性性别偏向概率和所述第二男性性别偏向概率进行加权计算,基于计算结果确定所述用户的男性性别偏向概率,还包括:
若所述第一值与所述第二值之间的乘积大于零且所述第一值小于零,则利用以下公式计算出所述用户的男性性别偏向概率:
m=(-1+(1+s1*2)*(1+s2*2))/2+a;
其中,m代表所述用户的男性性别偏向概率,s1代表所述第一值,s2代表所述第二值,a代表所述预设值。
9.根据权利要求4-8之一所述的方法,其中,所述基于所述用户的性别偏向概率,确定所述用户的性别,包括:
若所述用户的男性性别偏向概率大于概率阈值,则确定所述用户的性别为男性。
10.根据权利要求4-8之一所述的方法,其中,所述基于所述用户的性别偏向概率,确定所述用户的性别,包括:
若所述用户的男性性别偏向概率小于概率阈值,则确定所述用户的性别为女性。
11.根据权利要求4-8之一所述的方法,其中,所述基于所述用户的性别偏向概率,确定所述用户的性别,包括:
若所述用户的男性性别偏向概率等于概率阈值,则生成用于指示无法预测性别信息的信息。
12.根据权利要求4-8之一所述的方法,其中,所述方法还包括:
若未从所述标注信息中提取出所述性别识别信息,则生成用于指示无法预测性别信息的信息。
13.根据权利要求1-8之一所述的方法,其中,所述方法还包括:
获取与至少一个电话号码对应的预测结果,其中,所述预测结果用于指示其所对应的电话号码所归属的用户的性别;
向用于提供真实性别信息的第一服务端发送包括所述至少一个电话号码的信息;
接收所述第一服务端返回的与所述至少一个电话号码分别对应的真实性别信息;
基于接收到的真实性别信息,确定所述预测结果的准确率。
14.根据权利要求1所述的方法,其中,所述方法还包括:
获取所述样本电话号码集合,其中,所述样本电话号码集合中的每个样本电话号码对应标注信息;
从所述样本电话号码集合中的样本电话号码所对应的标注信息中提取性别识别信息;
对提取出的性别识别信息进行分析,确定所述提取出的性别识别信息所关联的性别偏向概率。
15.根据权利要求14所述的方法,其中,所述身份标签包括第一身份标签和第二身份标签;以及
所述对提取出的性别识别信息进行分析,确定所述提取出的性别识别信息所关联的性别偏向概率,包括:
将所述样本电话号码集合中的样本电话号码作为用户,基于第一身份标签将所述样本电话号码集合分成男性用户组及女性用户组;
基于第二身份标签所对应的样本电话号码在所述男性用户组或所述女性用户组中的占比,确定第二身份标签所关联的性别偏向概率;
基于名字所对应的样本电话号码在所述男性用户组或所述女性用户组中的占比,确定名字所关联的性别偏向概率。
16.根据权利要求15所述的方法,其中,第二身份标签及名字关联的性别偏向概率包括男性性别偏向概率,所述男性性别偏向概率包括第二身份标签对应的第一男性性别偏向概率及名字对应的第二男性性别偏向概率;以及
所述基于第二身份标签所对应的样本电话号码在所述男性用户组或所述女性用户组中的占比,确定第二身份标签所关联的性别偏向概率,包括:
对于所述提取出的性别识别信息中的每个第二身份标签,对于所述男性用户组和所述女性用户组中的与该第二身份标签相关联的所有样本电话号码,确定该所有样本电话号码中的归属于所述男性用户组的样本电话号码在该所有样本电话号码中的占比,基于该占比确定与该第二身份标签对应的第一男性性别偏向概率。
17.根据权利要求16所述的方法,其中,所述基于名字所对应的样本电话号码在所述男性用户组或所述女性用户组中的占比,确定名字所关联的性别偏向概率,包括:
对于所述提取出的性别识别信息中的每个名字,对于所述男性用户组和所述女性用户组中的与该名字相关联的所有样本电话号码,确定该所有样本电话号码中的归属于所述男性用户组的样本电话号码在该所有样本电话号码中的占比,基于该占比确定与该名字对应的第二男性性别偏向概率。
18.根据权利要求15-17之一所述的方法,其中,第二身份标签及名字关联的性别偏向概率包括女性性别偏向概率,所述女性性别偏向概率包括第二身份标签对应的第一女性性别偏向概率及名字对应的第二女性性别偏向概率;以及
所述基于第二身份标签所对应的样本电话号码在所述男性用户组或所述女性用户组中的占比,确定第二身份标签所关联的性别偏向概率,包括:
对于所述提取出的性别识别信息中的每个第二身份标签,对于所述男性用户组和所述女性用户组中的与该第二身份标签相关联的所有样本电话号码,确定该所有样本电话号码中的归属于所述女性用户组的样本电话号码在该所有样本电话号码中的占比,基于该占比确定与该第二身份标签对应的第一女性性别偏向概率。
19.根据权利要求18所述的方法,其中,所述基于名字所对应的样本电话号码在所述男性用户组或所述女性用户组中的占比,确定名字所关联的性别偏向概率,包括:
对于所述提取出的性别识别信息中的每个名字,对于所述男性用户组和所述女性用户组中的与该名字相关联的所有样本电话号码,确定该所有样本电话号码中的归属于所述女性用户组的样本电话号码在该所有样本电话号码中的占比,基于该占比确定与该名字对应的第二女性性别偏向概率。
20.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-19中任一所述的方法。
21.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-19中任一所述的方法。
CN201910393107.XA 2019-05-13 2019-05-13 用于预测性别的方法和设备 Active CN110119433B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910393107.XA CN110119433B (zh) 2019-05-13 2019-05-13 用于预测性别的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910393107.XA CN110119433B (zh) 2019-05-13 2019-05-13 用于预测性别的方法和设备

Publications (2)

Publication Number Publication Date
CN110119433A CN110119433A (zh) 2019-08-13
CN110119433B true CN110119433B (zh) 2021-06-08

Family

ID=67522121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910393107.XA Active CN110119433B (zh) 2019-05-13 2019-05-13 用于预测性别的方法和设备

Country Status (1)

Country Link
CN (1) CN110119433B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143441A (zh) * 2019-12-30 2020-05-12 北京每日优鲜电子商务有限公司 性别确定方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN202475557U (zh) * 2011-11-21 2012-10-03 上海华勤通讯技术有限公司 自动编辑通讯录的移动终端的性别识别装置
CN103389973A (zh) * 2013-07-23 2013-11-13 安阳师范学院 一种利用中文人名判定性别的方法
US10242260B1 (en) * 2017-11-02 2019-03-26 Sap Se Using machine learning to flag gender biased words within free-form text, such as job descriptions

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103095924A (zh) * 2013-01-23 2013-05-08 广东欧珀移动通信有限公司 一种联系人性别的模糊匹配方法及移动终端
US9262629B2 (en) * 2014-01-21 2016-02-16 PhishMe, Inc. Methods and systems for preventing malicious use of phishing simulation records

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN202475557U (zh) * 2011-11-21 2012-10-03 上海华勤通讯技术有限公司 自动编辑通讯录的移动终端的性别识别装置
CN103389973A (zh) * 2013-07-23 2013-11-13 安阳师范学院 一种利用中文人名判定性别的方法
US10242260B1 (en) * 2017-11-02 2019-03-26 Sap Se Using machine learning to flag gender biased words within free-form text, such as job descriptions

Also Published As

Publication number Publication date
CN110119433A (zh) 2019-08-13

Similar Documents

Publication Publication Date Title
CN109145280B (zh) 信息推送的方法和装置
CN106919711B (zh) 基于人工智能的标注信息的方法和装置
CN108228428B (zh) 用于输出信息的方法和装置
CN109359194B (zh) 用于预测信息类别的方法和装置
CN106844685B (zh) 用于识别网站的方法、装置及服务器
CN111709240A (zh) 实体关系抽取方法、装置、设备及其存储介质
CN109460652B (zh) 用于标注图像样本的方法、设备及计算机可读介质
CN110555451A (zh) 信息识别方法和装置
CN111259663A (zh) 信息处理方法和装置
CN114428677B (zh) 任务处理方法、处理装置、电子设备及存储介质
CN110737824B (zh) 内容查询方法和装置
CN112766284A (zh) 图像识别方法和装置、存储介质和电子设备
CN110119433B (zh) 用于预测性别的方法和设备
CN116578925B (zh) 基于特征画像的行为预测方法、装置及存储介质
CN111292333A (zh) 用于分割图像的方法和装置
CN114548192A (zh) 样本数据处理方法、装置、电子设备及介质
CN111881381A (zh) 一种显示方法、装置、设备及存储介质
CN113742450B (zh) 用户数据等级落标的方法、装置、电子设备和存储介质
CN110795424B (zh) 特征工程变量数据请求处理方法、装置及电子设备
CN112434083A (zh) 一种基于大数据的事件处理方法和装置
CN111857875A (zh) 用于显示插件的方法及装置
CN114066603A (zh) 贷后风险预警方法、装置、电子设备和计算机可读介质
CN111126649B (zh) 用于生成信息的方法和装置
CN109857838B (zh) 用于生成信息的方法和装置
CN113743973A (zh) 分析市场热点趋势的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211224

Address after: 200131 Zone E, 9th floor, No.1 Lane 666, zhangheng Road, Pudong New Area pilot Free Trade Zone, Shanghai

Patentee after: Shanghai Shangxiang Network Technology Co.,Ltd.

Address before: 201306 N2025 room 24, 2 New Town Road, mud town, Pudong New Area, Shanghai

Patentee before: SHANGHAI LIANSHANG NETWORK TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right