CN111444440B - 一种身份信息识别方法、装置、电子设备和存储介质 - Google Patents

一种身份信息识别方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN111444440B
CN111444440B CN202010539843.4A CN202010539843A CN111444440B CN 111444440 B CN111444440 B CN 111444440B CN 202010539843 A CN202010539843 A CN 202010539843A CN 111444440 B CN111444440 B CN 111444440B
Authority
CN
China
Prior art keywords
information
user
identity
identified
identity information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202010539843.4A
Other languages
English (en)
Other versions
CN111444440A (zh
Inventor
刘峰
王宗晟
徐振
李辉
王宝勋
冯启航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010539843.4A priority Critical patent/CN111444440B/zh
Publication of CN111444440A publication Critical patent/CN111444440A/zh
Application granted granted Critical
Publication of CN111444440B publication Critical patent/CN111444440B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种身份信息识别方法、装置、电子设备和存储介质;本发明实施例在获取多个待识别用户的用户信息后,根据待识别用户的地理位置信息和属性信息,分别预测每一待识别用户的身份,得到待识别用户的初始身份信息,采用云服务器将初始身份信息与社交行为数据进行匹配,若初始身份信息与社交行为数据匹配,则将初始身份信息作为待识别用户的身份信息,并将待识别用户作为种子用户,若初始身份信息与社交行为数据不匹配,则将待识别用户作为候选用户,采用身份识别模型对候选用户的身份进行识别,以得到候选用户的身份信息,该身份识别模型由多个种子用户的身份信息训练而成;该方案可以提升身份信息的识别准确率和识别效率。

Description

一种身份信息识别方法、装置、电子设备和存储介质
技术领域
本发明涉及通信技术领域,具体涉及一种身份信息识别方法、装置、电子设备和存储介质。
背景技术
近年来,随着互联网技术的飞速发展,互联网中各个社交平台的用户也越来越多了。在对这些用户进行画像建设或者产品投放时,就需要识别出这些用户的身份信息。现有的身份信息识别方法主要基于对用户的多源信息进行统计,再配合一定规则来识别用户身份,或者直接采用模型对这些全量用户的身份信息进行识别。
在对现有技术的研究和实践过程中,本发明的发明人发现单纯根据规则来识别拥有某些行为用户具有的身份信息,经常会造成与实际情况存在较大的误差,导致身份信息的识别准确率较低,而直接采用模型来识别全量用户的身份信息,又会导致需要巨大的计算开销,又使得身份信息的识别效率大大降低。
发明内容
本发明实施例提供一种身份信息识别方法、装置、电子设备和存储介质。可以提升身份信息的识别准确率和识别效率。
一种身份信息识别方法,包括:
获取多个待识别用户的用户信息,所述用户信息包括所述待识别用户的地理位置信息、属性信息和社交行为数据;
根据所述待识别用户的地理位置信息和属性信息,分别预测每一待识别用户的身份,得到所述待识别用户的初始身份信息;
若所述待识别用户的初始身份信息与社交行为数据匹配,则将所述初始身份信息作为待识别用户的身份信息,并将该待识别用户作为种子用户;
若所述待识别用户的初始身份信息与社交行为数据不匹配,则将所述待识别用户作为候选用户,采用身份识别模型对候选用户的身份进行识别,以得到候选用户的身份信息,所述身份识别模型由多个所述种子用户的身份信息训练而成。
相应的,本发明实施例提供一种身份信息识别装置,包括:
获取单元,用于获取多个待识别用户的用户信息,所述用户信息包括所述待识别用户的地理位置信息、属性信息和社交行为数据;
预测单元,用于根据所述待识别用户的地理位置信息和属性信息,分别预测每一待识别用户的身份,得到所述待识别用户的初始身份信息;
第一识别单元,用于若所述待识别用户的初始身份信息与社交行为数据匹配,则将所述初始身份信息作为待识别用户的身份信息,并将该待识别用户作为种子用户;
第二识别单元,用于若所述待识别用户的初始身份信息与社交行为数据不匹配,则将所述待识别用户作为候选用户,采用身份识别模型对候选用户的身份进行识别,以得到候选用户的身份信息,所述身份识别模型由多个所述种子用户的身份信息训练而成。
可选的,在一些实施例中,所述预测单元,具体可以根据所述待识别用户的初始身份信息,确定所述待识别用户的身份类型;根据所述身份类型,在所述待识别用户的社交行为数据中筛选出社交群文本信息;所述若所述待识别用户的初始身份信息与社交行为数据匹配,则将所述初始身份信息作为待识别用户的身份信息,并将该待识别用户作为种子用户,包括:将所述初始身份信息与所述社交群文本信息进行匹配,若所述初始身份信息与所述社交群文本信息匹配,则所述初始身份信息作为待识别用户的身份信息,并将所述待识别用户作为种子用户;所述若所述待识别用户的初始身份信息与社交行为数据不匹配,则将所述待识别用户作为候选用户,采用身份识别模型对候选用户的身份进行识别,以得到候选用户的身份信息,包括:将所述初始身份信息与所述社交群文本信息进行匹配,若所述初始身份信息与所述社交群文本信息不匹配时,则将所述待识别用户作为候选用户,采用身份识别模型对所述候选用户的身份进行识别,以得到所述候选用户的身份信息。
可选的,在一些实施例中,所述预测单元,具体可以用于在所述社交行为数据中筛选出所述待识别用户加入的社交群信息,得到社交群信息;从所述社交群信息中提取出所述待识别用户加入的社交群的属性信息,得到群属性信息;根据所述身份类型和群属性信息,在所述社交群信息中筛选出所述社交群文本信息。
可选的,在一些实施例中,所述预测单元,具体可以用于根据所述群属性信息,确定所述待识别用户加入的目标社交群;在所述社交群信息中提取出所述目标社交群对应的候选社交群文本信息;在所述候选社交群文本信息中筛选出所述身份类型对应的社交群文本信息。
可选的,在一些实施例中,所述预测单元,具体可以用于根据所述初始身份信息,确定所述待识别用户的身份关键词,所述身份关键词为指示所述待识别用户的身份的词;当所述社交群文本信息中存在所述身份关键词时,确定所述初始身份信息与所述社交群文本信息匹配;当所述社交群文本信息中不存在所述身份关键词,确定所述初始身份信息与所述社交群文本信息不匹配。
可选的,在一些实施例中,所述第二识别单元,具体可以用于采用所述身份识别模型对所述候选用户的用户信息进行多个尺度的特征提取,得到每个尺度对应的局部身份特征信息;对所述局部身份特征信息进行融合,得到所述候选用户的全局身份特征信息;根据所述全局身份特征信息,确定所述候选用户的身份信息。
可选的,在一些实施例中,所述第二识别单元,具体可以用于对所述种子用户的用户信息进行身份信息的标注,以构建用户信息样本;采用所述身份识别模型对所述用户信息样本中的身份信息进行预测,得到预测身份信息;根据所述预测身份信息与标注的身份信息,对所述身份识别模型进行收敛,得到身份识别模型。
可选的,在一些实施例中,所述预测单元,具体可以用于在所述待识别用户的地理位置信息中提取出所述待识别用户的登录记录;根据所述登录记录和属性信息,分别预测每一待识别用户的身份,得到所述待识别用户的初始身份信息。
可选的,在一些实施例中,所述预测单元,具体可以用于对所述原始登录地址进行聚类,得到多个类型的登录地址;根据原始登录地址对应的所述登录时间,在所述多个类型的登录地址中筛选出目标类型的登录地址;根据所述目标类型的登录地址和所述待识别用户的属性信息,分别预测每一待识别用户的身份,得到所述待识别用户的初始身份信息。
可选的,在一些实施例中,所述预测单元,具体可以用于根据所述原始登录地址对应的登录时间,确定每一种类型的登录地址在预设登录周期的登录频率;在所述多种类型的登录地址中筛选出登录频率超过预设登录频率阈值的目标类型的目标登录地址。
可选的,在一些实施例中,所述预测单元,具体可以用于根据所述目标登录地址的地址类型,确定所述待识别用户的至少一个候选身份;基于所述待识别用户的属性信息,在所述候选身份中筛选出目标身份;根据所述待识别用户的目标身份、属性信息和目标登录地址,生成所述待识别用户的初始身份信息。
此外,本发明实施例还提供一种电子设备,包括处理器和存储器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序实现本发明实施例提供的身份信息识别方法。
此外,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例所提供的任一种身份信息识别方法中的步骤。
本发明实施例在获取多个待识别用户的用户信息,用户信息包括待识别用户的地理位置信息、属性信息和社交行为数据,根据待识别用户的地理位置信息和属性信息,分别预测每一待识别用户的身份,得到待识别用户的初始身份信息,若待识别用户的初始身份信息与社交行为数据匹配,则将初始身份信息作为待识别用户的身份信息,并将该待识别用户作为种子用户,若待识别用户的初始身份信息与社交行为数据不匹配,则将待识别用户作为候选用户,采用身份识别模型对候选用户的身份进行识别,以得到候选用户的身份信息,该身份识别模型由多个种子用户的身份信息训练而成;由于该方案在单纯的规则识别的基础上,采用社交行为数据对识别出的初始身份信息进行匹配,可以提升身份信息的识别准确率,而且又采用确定身份信息的待识别用户这种高置信度样本作为种子用户来训练身份识别模型,最后采用身份识别模型只对剩下的未匹配的候选用户进行身份信息的识别,可以大大提升身份信息的识别准确率和识别效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的身份信息识别方法的场景示意图;
图2是本发明实施例提供的身份信息识别方法的流程示意图;
图3是本发明实施例提供的身份信息识别方法的另一流程示意图;
图4是本发明实施例提供的预测初始身份信息的流程;
图5是本发明实施例提供的身份信息识别装置的结构示意图;
图6是本发明实施例提供的身份信息识别装置的预测单元的结构示意图;
图7是本发明实施例提供的身份信息识别装置的另一结构示意图;
图8是本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种身份信息识别方法、装置、电子设备和计算机可读存储介质。其中,该身份信息识别装置可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备。
其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
例如,参见图1,以身份信息识别装置集成在电子设备中为例,电子设备获取待识别用户信息集合,该待识别用户信息集合包括多个待识别用户的用户信息,用户信息包括待识别用户的地理位置信息、属性信息和社交行为数据,然后,根据待识别用户的地理位置信息和属性信息,分别预测每一待识别用户的身份,得到待识别用户的初始身份信息,若初始身份信息与社交行为数据匹配,则将初始身份信息作为待识别用户的身份信息,并将待识别用户作为种子用户,若初始身份信息与社交行为数据不匹配,则将待识别用户作为候选用户,采用身份识别模型对候选用户的身份进行识别,以得到候选用户的身份信息,该身份识别模型由多个种子用户的身份信息训练而成。
其中,根据待识别用户的地理位置信息和属性信息,可以基于云平台分别预测每一待识别用户的身份,得到待识别用户的身份信息。而云平台也称云计算平台,是指基于硬件资源和软件资源的服务,提供计算、网络和存储能力。云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。
按照逻辑功能划分,在IaaS(Infrastructure as a Service,基础设施即服务)层上可以部署PaaS(Platform as a Service,平台即服务)层,PaaS层之上再部署SaaS(Software as a Service,软件即服务)层,也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台,如数据库、web容器等。SaaS为各式各样的业务软件,如web门户网站、短信群发器等。一般来说,SaaS和PaaS相对于IaaS是上层。
以下分别进行详细说明。需要说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从身份信息识别装置的角度进行描述,该身份信息识别装置具体可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备;其中,该终端可以包括平板电脑、笔记本电脑、个人计算机(PC,Personal Computer)、可穿戴设备、虚拟现实设备或其他可以进行身份识别的智能设备。
一种身份信息识别方法,包括:
获取多个待识别用户的用户信息,用户信息包括待识别用户的地理位置信息、属性信息和社交行为数据,根据待识别用户的地理位置信息和属性信息,分别预测每一待识别用户的身份,得到待识别用户的初始身份信息,若待识别用户的初始身份信息与社交行为数据匹配,则将初始身份信息作为待识别用户的身份信息,并将该待识别用户作为种子用户,若待识别用户的初始身份信息与社交行为数据不匹配,则将待识别用户作为候选用户,采用身份识别模型对候选用户的身份进行识别,以得到候选用户的身份信息,该身份识别模型由多个种子用户的身份信息训练而成。
如图2所示,该身份信息识别方法的具体流程如下:
101、获取多个待识别用户的用户信息。
其中,用户信息包括待识别用户的地理位置信息、属性信息和社交行为数据。地理位置信息可以理解为用户使用某种服务时所使用的登录地址以及登录地址对应的登录时间等信息,比如,可以为采用定位基础服务(Location Based Services,LBS)获取到的定位设备所在的当前信息点(Point of Information,POI)的位置信息和使用LBS服务的相应的登录记录。社交行为数据可以理解为待识别用户在即时通讯系统或者社交系统中与其他用户进行社交行为时产生的数据,比如,待识别用户加入的社交群组的信息,待识别用户添加的社交联系人的信息等。
例如,获取待识别用户信息集合的方式可以有多种,比如,可以从即时通讯系统或社交系统的数据库中直接获取用户信息集合,该用户信息集合中包括即时通讯系统或社交系统中多个用户的用户信息,譬如,可以采集用户登录即时通讯系统或社交系统的登录时间、登录地址(具体可以为信息点的经纬度信息)、用户在即时通讯系统或社交系统加入的社交群的信息、用户在即时通讯系统或社交系统的好友信息和/或用户在即时通讯系统或者社交群系统中输入的自身的属性信息(年龄和性别等)。还可以从互联网上定期爬取用户的信息,其中,爬取可以为采用一些特定的应用程序或者脚本按照一定的数据获取规则,在互联网的网页或服务器上获取网络数据。在爬取用户的信息中筛选出待识别用户的用户信息。比如,从爬取用户的信息中筛选出用户经常用来使用互联网服务的地址,这个地址可以为某个POI信息的地理位置,还可以筛选出使用这些地址的登录记录,譬如,登录时间等信息,还可以筛选出用户在某些即时通讯系统或者社交系统中的社交行为数据和自身的属性信息等用户信息。
102、根据待识别用户的地理位置信息和属性信息,分别预测每一待识别用户的身份,得到待识别用户的初始身份信息。
其中,待识别用户的身份可以为该用户在社会上的社会身份,比如,待识别用户还在学校上学,就可以认为该用户的社会身份可以为在校学生,又比如待识别用户在公司工作,就可以认为该用户的社会身份可以为企业工作人员等。待识别用户的初始身份信息可以为对待识别用户进行初始识别得到身份信息,比如,该用户初始识别的社会身份为在校学生,还识别出该用户就读的学校为XX大学,因此,该用户的初始身份信息就可以为XX大学的在校学生,又比如,该用户初始识别的社会身份为企业工作人员,还识别出该用户所工作的企业为XX公司,因此,该用户的初始身份信息就可以为XX公司的工作人员。
例如,可以在待识别用户的地理位置信息中提取出待识别用户的登录记录,根据登录记录和属性信息,分别预测每一待识别用户的身份,得到待识别用户的初始身份信息。具体可以如下:
S1、在待识别用户的地理位置信息中提取出待识别用户的登录记录。
其中,登录记录可以包括多个原始登录地址和登录地址对应的登录时间。
例如,可以在待识别用户的地理位置信息中获取每个登录地址的信息,将每一个登录地址作为原始登录地址,在原始登录地址的信息中确定用户在使用地理位置服务进行登录互联网服务时的登录时间。将原始登录地址和该原始登录地址对应的登录地址作为登录记录。
S2、根据登录记录和属性信息,分别预测每一待识别用户的身份,得到待识别用户的初始身份信息。
例如,可以对原始登录地址进行聚类,得到多个类型的登录地址,根据原始登录地址对应的登录时间,在多个类型的登录地址中筛选出目标类型的登录地址,根据目标类型的登录地址和待识别用户的属性信息,分别预测每一待识别用户的身份,得到待识别用户的初始身份信息,具体可以如下:
(1)对原始登录地址进行聚类,得到多个类型的登录地址。
例如,根据原始登录地址对应的信息点类型,进行聚类,比如,原始地址为XX大学的食堂、XX大学的宿舍和XX大学的教学楼等这些原始登录地址就可以为聚类为XX大学校园内登录地址,又比如,XX大学的公交站,如果是在校园内就可以聚类为XX大学校园内登录地址,如果是在XX大学的校园外,就可以与其他在XX大学校园外的地址聚类为XX大学校园外登录地址。又比如,原始登录地址为XX公司总部、XX公司的第一分公司和XX公司的第二分公司等,这些原始登录地址就可以聚类为XX公司登录地址,相应的除了公司外的登录地址就可以聚类为XX公司外登录地址等。
(2)根据原始登录地址对应的登录时间,在多个类型的登录地址中筛选出目标类型的登录地址。
例如,可以根据原始登录地址对应的登录时间,确定每一种类型的登录地址在预设登录周期的登录频率,比如,以待识别用户聚类后的登录地址分为A、B和C三类,预设登录周期为一个月为例,A类登录地址包括三个原始登录地址,每个原始登录地在一个月内登录了10次,则A类登录地址在一个月内的登录频率就为30次,B类和C类只包含2个原始登录地址,根据每个原始登录地址的登录时间确定每个原始登录地址在一个月内登录了2次,则B类和C类登录地址在一个月内的登录频率为4次。在多种类型的登录地址中筛选出登录频率超过预设登录频率阈值的目标类型的登录地址,比如,以预设登录频率阈值为20次为例,就可以在待识别用户的A、B和C三类登录地址中筛选出登录频率超过20次的A类型登录地址作为目标类型的登录地址。
其中,需要说明的是,该预设登录频率阈值可以为任意整数数值,一般根据实际需要来进行设定,通常筛选出的目标类型的登录地址为一类,但是也可以为多类。
(3)根据目标类型的登录地址和待识别用户属性信息,分别预测每一待识别用户的身份,得到待识别用户的初始身份信息。
例如,根据目标登录地址的地址类型,确定待识别用户的至少一个候选身份,比如,目标登录地址为XX大学,则可以确定待识别用户至少生活在XX大学,其身份跟XX大学存在关系,因此,可以确定待识别用户的候选身份可以为在校学生、教师和大学工作人员等。基于待识别用户的属性信息,在候选身份中筛选出目标身份,比如,待识别用户的属性信息中显示该用户的年龄在20岁,学历为大学本科,就可以从这三个候选身份中筛选出在校学生为待识别用户的目标身份,假设,待识别用户的属性信息中显示该用户的年龄在45岁,学历为博士研究生,就可以从这三个候选身份中筛选出教师为待识别用户的目标身份。根据待识别用户的目标身份信息、属性信息和目标登录地址,生成待识别用户的初始身份信息,比如,以待识别用户的身份为在校学生为例,该待识别用户的属性信息为显示年龄20岁,性别女,学历大学本科,且该待识别用户的目标登录地址为XX大学校园内登录地址,则将这些信息综合成待识别用户的初始身份信息,该初始身份信息就可以为XX大学在校学生,年龄20岁,性别女,学历大学本科等。利用这种筛选方式,筛选出用户信息中全部的待识别用户的初始身份信息。
其中,用于从候选身份中筛选出目标身份的属性信息除了年龄和学历以外,还可以包括其他属性信息,比如所学专业、教育信息等。
可选的,在确定每一待识别用户的初始身份信息之后,还可以将待识别用户的初始身份信息与社交行为数据进行匹配,因此,在步骤“根据所述待识别用户的地理位置信息和属性信息,分别预测每一待识别用户的身份,得到所述待识别用户的初始身份信息”之后,本发明实施例中的身份信息识别方法,可以包括:
根据待识别用户的初始身份信息,确定待识别用户的身份类型,根据该身份类型,在待识别用户的社交行为数据中筛选出社交群文本信息。将社交群文本信息与初始身份信息进行匹配。具体可以如下:
(1)根据待识别用户的初始身份信息,确定待识别用户的身份类型。
例如,根据待识别用户的初始身份信息中的目标身份和目标登录地址,可以确定待识别用户的身份类型,比如,待识别用户的目标身份为在校学生,目标登录地址为XX大学校园内登录地址,就可以确定待识别用户的身份类型为XX大学的在校学生。
(2)根据该身份类型,在待识别用户的社交行为数据中筛选出社交群文本信息。
其中,社交群文本信息可以为待识别用户加入的社交群的公示文本信息,比如,社交群名称、社交群公示、社交群的用户标识列表或社交群内文件信息等。
例如,在社交行为数据中筛选出待识别用户加入的社交群的信息,得到社交群信息,比如,在社交行为数据中识别出用户加入的包含该待识别用户的多个组成的社交群信息,将这些社交群信息作为社交群信息。在社交群信息中提取出待识别用户加入的社交群的属性信息,得到群基础属性信息,比如,在社交群信息中提取出群名称、群的创建时间、群规模和/或群类型等,得到群属性信息。根据身份类型和群属性信息,在社交群信息中筛选出社交群文本信息,比如,可以根据群属性信息,确定待识别用户加入的目标社交群,譬如,以身份类型为XX大学在校学生为例,根据获取到的群属性信息,在待识别用户加入社交群中筛选出可能与XX大学相关的目标社交群,譬如,XX大学XX专业班级群等这种相关的目标社交群。在社交群信息中提取出目标社交群对应的候选社交群文本信息,比如,目标社交群为XX大学XX专业班级群,在社交群信息中提取出这个XX大学XX专业班级群的群名称、群介绍、群文件信息和待识别用户在该社交群中的群备注等群公示类文本信息,提取的方式可以采用自然语言处理(Natural Language Processing,NLP)中的关键词提取技术,得到这些最显著的群文本标签,将这些信息作为候选社交群文本信息。在候选社交群文本信息中筛选出身份类型对应的社交群文本信息,比如,以身份类型为XX大学在校学生为例,就需要在候选社交群文本信息中筛选出只属于在校学生的社交群文本信息,譬如,候选社交群文本信息中包含高考要上XX大学群的社交群的文本信息,像这种社交群文本信息中就表明待识别用户就不是在校学生,因此,在筛选身份类型对应的社交群文本信息就需要将这些候选社交群文本信息丢弃。还可以将这些社交群文本信息采用词袋模型进行处理,得到直接可以和初始身份信息进行匹配的文本特征。
(3)将社交群文本信息与初始身份信息进行匹配。
例如,将待识别用户的社交群文本信息与初始身份信息进行匹配,这个匹配的过程可以由人工来匹配完成,比如,将初始身份信息与社交群文本信息发送至第三方的匹配服务器,人工通过匹配服务器将初始身份信息与社交群文本信息进行匹配,将匹配结果发送至身份信息识别装置。还可以由身份信息识别装置自行将初始身份信息与社交群文本信息进行匹配,具体匹配过程可以如下:
根据初始身份信息,确定待识别用户的身份关键词,该身份关键词为指示待识别用户的身份的词,比如,待识别用户的初始身份信息为XX大学在校学生,则身份关键词就可以为XX大学。在社交群文本信息中查询身份关键词,比如,社交群的群名称、群介绍和/或群备注等社交群文本信息中查询是否存在待识别用户的身份关键词。当社交群文本信息中存在身份关键词时,确定初始身份信息与社交群文本信息匹配,比如,以身份关键词为XX大学为例,当待识别用户加入了包含XX大学的社交群,就说明待识别用户的初始身份信息与社交群文本信息匹配。当社交群文本信息中不存在身份关键词时,确定初始身份信息与社交群文本信息不匹配,比如,还是以身份关键词为XX大学为例,当待识别用户未加入包含XX大学的社交群,就说明待识别用户的初始身份信息与社交群文本信息不匹配。
103、若待识别用户的初始身份信息与社交行为数据匹配,则将初始身份信息作为待识别用户的身份信息,并将该待识别用户作为种子用户。
例如,若待识别用户的初始身份信息与社交行为数据中的社交群文本信息匹配,则说明待识别用户的初始身份信息预测正确,直接将待识别用户的初始身份信息作为真实的身份信息,并将待识别用户作为种子用户,然后,利用种子用户的用户信息这个高置信度样本对身份识别模型进行训练,可以大大提升该身份识别模型准确性。
104、若待识别用户的初始身份信息与社交行为数据不匹配,则将待识别用户作为候选用户,采用身份识别模型对候选用户的身份进行识别,以得到候选用户的身份信息。
其中,身份识别模型由多个种子用户的身份信息作为样本训练而成。
例如,若待识别用户的初始身份信息与社交行为数据中的社交群文本信息不匹配,说明待识别用户的身份信息预测可能存在问题,然后,将待识别用户作为候选用户,采用身份识别模型对候选用户的身份进行识别,以得到候选用户的身份信息,具体识别过程可以如下:
采用身份识别模型对候选用户的用户信息进行多个尺度的特征提取,得到每一尺度对应的局部身份特征信息,对局部特征信息进行融合,得到候选用户的全局身份特征信息。根据全局身份特征信息,确定候选用户的身份信息,比如,可以采用全连接层对候选用户的全局身份特征信息在预设身份信息集合中映射出候选用户的身份信息。
其中,该身份识别模型可以根据实际应用的需求进行设置,另外,需要说明的是,该身份识别模型可以由维护人员预先进行设置,也可以由该身份识别模型自行进行训练,即步骤“采用身份识别模型对候选用户的身份信息进行多个尺度的特征提取”之前,该身份信息识别方法还可以包括:
(1)对种子用户的用户信息进行身份信息的标注,以构建用户信息样本。
例如,将每个种子用户的身份信息标注在用户信息中,得到用户信息的正样本,然后,再采集与种子用户数量相同的负样本,比如,以种子用户为在校学生为例,则负样本中的用户身份就可以为在学校的教职员工等。将正样本和负样本作为用户信息样本,该用户信息样本中标注有种子用户的身份信息,还标注有负样本对应的用户的身份信息。
(2)采用身份识别模型对用户信息样本中的身份信息进行预测,得到预测身份信息。
例如,采用身份识别模型对用户信息样本进行多个尺度的特征提取,得到每一尺度对应的局部身份特征信息,对局部身份特征信息进行融合,得到用户信息样本对应的全局身份特征信息,根据全局身份特征信息,确定用户信息样本中的预测身份信息。
(3)根据预测身份信息与标注的身份信息对身份识别模型进行收敛,得到身份识别模型。
例如,在本申请实施例中,可以通过插值损失函数,根据预测身份信息与标注的身份信息对身份识别模型进行收敛,得到身份识别模型,譬如,具体可以如下:
采用Dice函数(一种损失函数),根据用户信息样本的预测身份信息与标注的身份信息对身份识别模型中用于识别身份信息的参数进行调整,以及通过插值损失函数,根据用户信息样本的预测身份信息与标注的身份信息对身份识别模型中用于识别身份信息的参数进行调整,得到身份识别模型。
可选的,为了提供身份信息识别的精确的性,除了采用Dice函数之外,还可以采用其他的损失函数如交叉熵损失函数来进行收敛,具体可以如下:
采用交叉熵损失函数,根据用户信息样本的预测身份信息与标注的身份信息对身份识别模型中用于识别身份信息的参数进行调整,以及通过插值损失函数,根据用户信息样本的预测身份信息与标注的身份信息对身份识别模型中用于识别身份信息的参数进行调整,得到身份识别模型。
由以上可知,本申请的实施例在获取多个待识别用户的用户信息,用户信息包括待识别用户的地理位置信息、属性信息和社交行为数据,根据待识别用户的地理位置信息和属性信息,分别预测每一待识别用户的身份,得到待识别用户的初始身份信息,若待识别用户的初始身份信息与社交行为数据匹配,则将初始身份信息作为待识别用户的身份信息,并将该待识别用户作为种子用户,若待识别用户的初始身份信息与社交行为数据不匹配,则将待识别用户作为候选用户,采用身份识别模型对候选用户的身份进行识别,以得到候选用户的身份信息,该身份识别模型由多个种子用户的身份信息训练而成;由于该方案在单纯的规则识别的基础上,采用社交行为数据对识别出的初始身份信息进行匹配,可以提升身份信息的识别准确率,而且又采用确定身份信息的待识别用户这种高置信度样本作为种子用户来训练身份识别模型,最后采用身份识别模型只对剩下的未匹配的候选用户进行身份信息的识别,可以大大提升身份信息的识别准确率和识别效率。
根据上面实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该身份信息识别装置具体集成在电子设备,电子设备为服务器为例进行说明。
如图3所示,一种身份信息识别方法,具体流程如下:
201、服务器获取多个待识别用户的用户信息。
例如,服务器直接采集用户登录即时通讯系统或社交系统的登录时间、登录地址(具体可以为信息点的经纬度信息)、用户在即时通讯系统或社交系统加入的社交群的信息、用户在即时通讯系统或社交系统的好友信息和/或用户在即时通讯系统或者社交群系统中输入的自身的属性信息(年龄和性别等),将这些采集到的信息作为多个待识别用户的用户信息。服务器还可以从互联网上爬取各种用户信息,从爬取用户的信息中筛选出用户经常用来使用互联网服务的地址,这个地址可以为某个POI信息点的具体的地理位置,还可以筛选出使用这些地址的登录记录,譬如,登录时间等信息,还可以筛选出用户在某些即时通讯系统或者社交系统中的社交行为数据和自身的属性信息等用户信息,就这些用户信息作为多个待识别用户的用户信息。
202、服务器在待识别用户的地理位置信息中提取出待识别用户的登录记录。
例如,服务器可以在待识别用户的地理位置信息中获取每个登录地址的信息,将每一个登录地址作为原始登录地址,在原始登录地址的信息中确定用户在使用地理位置服务进行登录互联网服务时的登录时间。将原始登录地址和该原始登录地址对应的登录地址作为登录记录。
203、服务器根据登录记录和属性信息,分别预测每一待识别用户的身份,得到待识别用户的初始身份信息。
例如,服务器可以对原始登录地址进行聚类,得到多个类型的登录地址,根据原始登录地址对应的登录时间,在多个类型的登录地址中筛选出目标类型的登录地址,根据目标类型的登录地址和待识别用户的属性信息,分别预测每一待识别用户的身份,得到待识别用户的初始身份信息,预测过程如图4所示,具体可以如下:
C1、服务器对原始登录地址进行聚类,得到多个类型的登录地址。
例如,以原始地址为XX大学的食堂、XX大学的宿舍和XX大学的教学楼为例,对于这些原始登录地址,服务器就可以为聚类为XX大学校园内登录地址,又比如,XX大学的公交站,如果是在校园内就可以聚类为XX大学校园内登录地址,如果是在XX大学的校园外,就可以与其他在XX大学校园外的地址聚类为XX大学校园外登录地址。又比如,原始登录地址为XX公司总部、XX公司的第一分公司和XX公司的第二分公司等,这些原始登录地址就可以聚类为XX公司登录地址,相应的除了公司外的登录地址就可以聚类为XX公司外登录地址等。
C2、服务器根据原始登录地址对应的登录时间,在多个类型的登录地址中筛选出目标类型的登录地址。
例如,以待识别用户聚类后的登录地址分为A、B和C三类,预设登录周期为一个月为例,A类登录地址包括三个原始登录地址,每个原始登录地在一个月内登录了10次,则A类登录地址在一个月内的登录频率就为30次,B类和C类只包含2个原始登录地址,服务器根据每个原始登录地址的登录时间确定每个原始登录地址在一个月内登录了2次,则B类和C类登录地址在一个月内的登录频率为4次。在多个类型的登录地址中筛选出登录频率超过预设登录频率阈值的目标类型的登录地址,比如,以预设登录频率阈值为20次为例,就可以在待识别用户的A、B和C三类登录地址中筛选出登录频率超过20次的A类型登录地址作为目标类型的登录地址。
C3、服务器根据目标类型的登录地址和待识别用户的属性信息,分别预测每一待识别用户的身份,得到待识别用户的初始身份信息。
例如,以目标登录地址为XX大学为例,则服务器就可以确定待识别用户至少生活在XX大学,其身份跟XX大学存在关系,因此,可以确定待识别用户的候选身份可以为在校学生、教师和大学工作人员等。基于待识别用户的属性信息,在候选身份中筛选出目标身份,比如,待识别用户的属性信息中显示该用户的年龄在20岁,学历为大学本科,就可以从这三个候选身份中筛选出在校学生为待识别用户的目标身份,假设,待识别用户的属性信息中显示该用户的年龄在45岁,学历为博士研究生,就可以从这三个候选身份中筛选出教师为待识别用户的目标身份。根据待识别用户的目标身份信息、属性信息和目标登录地址,生成待识别用户的初始身份信息,比如,以待识别用户的身份为在校学生为例,该待识别用户的属性信息为显示年龄20岁,性别女,学历大学本科,且该待识别用户的目标登录地址为XX大学校园内登录地址,则将这些信息综合成待识别用户的初始身份信息,该初始身份信息就可以为XX大学在校学生,年龄20岁,性别女,学历大学本科等。利用这种筛选方式,筛选出用户信息中全部的待识别用户的初始身份信息。
可选的,服务器在确定完每一待识别用户的初始身份信息之后,还可以将待识别用户的初始身份信息与社交行为数据进行匹配。因此,在步骤“根据所述待识别用户的地理位置信息和属性信息,分别预测每一待识别用户的身份,得到所述待识别用户的初始身份信息”之后,本发明实施例中的身份信息识别方法,可以包括:
根据待识别用户的初始身份信息,确定待识别用户的身份类型,根据该身份类型,在待识别用户的社交行为数据中筛选出社交群文本信息。将社交群文本信息与初始身份信息进行匹配。具体可以如下:
(1)服务器根据待识别用户的初始身份信息,确定待识别用户的身份类型。
例如,以待识别用户的目标身份为在校学生、目标登录地址为XX大学校园内登录地址,服务器就可以确定待识别用户的身份类型为XX大学的在校学生。
(2)服务器根据该身份类型,在待识别用户的社交行为数据中筛选出社交群文本信息。
例如,服务器在社交行为数据中识别出用户加入的包含该待识别用户的多个组成的社交群信息,将这些社交群信息作为社交群信息。在社交群信息中提取出群名称、群的创建时间、群规模和/或群类型等,得到群属性信息。以身份类型为XX大学在校学生为例,根据获取到的群属性信息,在待识别用户加入社交群中筛选出可能与XX大学相关的目标社交群,譬如,XX大学XX专业班级群等这种相关的目标社交群。在社交群信息中提取出目标社交群对应的候选社交群文本信息,比如,目标社交群为XX大学XX专业班级群,在社交群信息中采用NPL的关键词提取技术提取出这个XX大学XX专业班级群的群名称、群介绍、群文件信息和待识别用户在该社交群中的群备注等群公示类文本信息,得到这些最显著的群文本标签,将这些信息作为候选社交群文本信息。以身份类型为XX大学在校学生为例,就需要在候选社交群文本信息中筛选出只属于在校学生的社交群文本信息,比如,候选社交群文本信息中包含高考要上XX大学群的社交群的文本信息,像这种社交群文本信息中就表明待识别用户就不是在校学生,因此,在筛选身份类型对应的社交群文本信息就需要将这些候选社交群文本信息丢弃。还可以将这些社交群文本信息采用词袋模型进行处理,得到直接可以和初始身份信息进行匹配的文本特征。
(3)服务器将社交群文本信息与初始身份信息进行匹配。
例如,服务器将社交群文本信息与初始身份信息进行匹配的过程可以由人工来匹配完成,还可以由身份识别的服务器自行匹配完成。其中,由人工来完成主要为服务器将社交群文本信息与初始身份信息发送至匹配服务器,人工通过匹配服务器将初始身份信息与社交群文本信息进行匹配,将匹配结果发送至身份信息识别的服务器。由身份识别的服务器自行匹配完成的具体过程可以如下:
例如,根据初始身份信息,服务器确定待识别用户的身份关键词,比如,待识别用户的初始身份信息为XX大学在校学生,则服务器确定身份关键词就可以为XX大学。在社交群文本信息中查询身份关键词,比如,社交群的群名称、群介绍和/或群备注等社交群文本信息中查询是否存在待识别用户的身份关键词。当社交群文本信息中存在身份关键词时,确定初始身份信息与社交群文本信息匹配,比如,以身份关键词为XX大学为例,当待识别用户加入了包含XX大学的社交群,就说明待识别用户的初始身份信息与社交群文本信息匹配。当社交群文本信息中不存在身份关键词时,确定初始身份信息与社交群文本信息不匹配,比如,还是以身份关键词为XX大学为例,当待识别用户未加入包含XX大学的社交群,就说明待识别用户的初始身份信息与社交群文本信息不匹配。
204、若待识别用户的初始身份信息与社交行为数据匹配,则服务器将初始身份信息作为待识别用户的身份信息,并将该待识别用户作为种子用户。
例如,若待识别用户的初始身份信息与社交行为数据中的社交群文本信息匹配,则说明待识别用户的初始身份信息预测正确,服务器直接将待识别用户的初始身份信息作为真实的身份信息,并将待识别用户作为种子用户,然后,利用种子用户的用户信息这个高置信度样本对身份识别模型进行训练,可以大大提升该身份识别模型准确性。
205、若待识别用户的初始身份信息与社交行为数据不匹配,则服务器将待识别用户作为候选用户,采用身份识别模型对候选用户的身份进行识别,以得到候选用户的身份信息。
例如,若待识别用户的初始身份信息与社交行为数据中的社交群文本信息不匹配,说明待识别用户的身份信息预测可能存在问题,然后,服务器采用身份识别模型对候选用户的用户信息进行多个尺度的特征提取,得到每一尺度对应的局部身份特征信息,对局部特征信息进行融合,得到候选用户的全局身份特征信息。根据全局身份特征信息,确定候选用户的身份信息,比如,可以采用全连接层对候选用户的全局身份特征信息在预设身份信息集合中映射出候选用户的身份信息。
其中,该身份识别模型可以根据实际应用的需求进行设置,另外,需要说明的是,该身份识别模型可以由维护人员预先进行设置,也可以由该身份识别模型自行进行训练,即步骤“采用身份识别模型对候选用户的身份信息进行多个尺度的特征提取”之前,该身份信息识别方法还可以包括:
(1)服务器对种子用户的用户信息进行身份信息的标注,以构建用户信息样本。
例如,服务器将每个种子用户的身份信息标注在用户信息中,得到用户信息的正样本,然后,再采集与种子用户数量相同的负样本,比如,以种子用户为在校学生,则负样本中的用户身份就可以为在学校的教职员工等。将正样本和负样本作为用户信息样本,该用户信息样本中标注有种子用户的身份信息,还标注有负样本对应的用户的身份信息。
(2)服务器采用身份识别模型对用户信息样本中的身份信息进行预测,得到预测身份信息。
例如,采用身份识别模型对用户信息样本进行多个尺度的特征提取,得到每一尺度对应的局部身份特征信息,对局部身份特征信息进行融合,得到用户信息样本对应的全局身份特征信息,根据全局身份特征信息,确定用户信息样本中的预测身份信息。
(3)服务器根据预测身份信息与标注的身份信息对身份识别模型进行收敛,得到身份识别模型。
例如,在本申请实施例中,可以通过插值损失函数,根据预测身份信息与标注的身份信息对身份识别模型进行收敛,得到身份识别模型,譬如,具体可以如下:
采用Dice函数,根据用户信息样本的预测身份信息与标注的身份信息对身份识别模型中用于识别身份信息的参数进行调整,以及通过插值损失函数,根据用户信息样本的预测身份信息与标注的身份信息对身份识别模型中用于识别身份信息的参数进行调整,得到身份识别模型。
可选的,为了提供身份信息识别的精确的性,除了采用Dice函数之外,还可以采用其他的损失函数如交叉熵损失函数来进行收敛,具体可以如下:
采用交叉熵损失函数,根据用户信息样本的预测身份信息与标注的身份信息对身份识别模型中用于识别身份信息的参数进行调整,以及通过插值损失函数,根据用户信息样本的预测身份信息与标注的身份信息对身份识别模型中用于识别身份信息的参数进行调整,得到身份识别模型。
由以上可知,本实施例服务器在获取多个待识别用户的用户信息,用户信息包括待识别用户的地理位置信息、属性信息和社交行为数据,根据待识别用户的地理位置信息和属性信息,分别预测每一待识别用户的身份,得到待识别用户的初始身份信息,若待识别用户的初始身份信息与社交行为数据匹配,则将初始身份信息作为待识别用户的身份信息,并将待识别用户作为种子用户,若待识别用户的初始身份信息与社交行为数据不匹配,则将待识别用户作为候选用户,采用身份识别模型对候选用户的身份进行识别,以得到候选用户的身份信息,该身份识别模型由多个种子用户的身份信息训练而成;由于该方案在单纯的规则识别的基础上,采用社交行为数据对识别出的初始身份信息进行匹配,可以提升身份信息的识别准确率,而且又采用确定身份信息的待识别用户这种高置信度样本作为种子用户来训练身份识别模型,最后采用身份识别模型只对剩下的未匹配的候选用户进行身份信息的识别,可以大大提升身份信息的识别准确率和识别效率。
为了更好地实施以上方法,本发明实施例还提供一种身份信息识别装置,该身份信息识别装置可以集成在电子设备,比如服务器或终端等设备中,该终端可以包括平板电脑、笔记本电脑和/或个人计算机等。
例如,如图5所示,该身份信息识别装置可以包括获取单元301、预测单元302、第一识别单元303和第二识别单元304如下:
(1)获取单元301;
获取单元301,用于获取多个待识别用户的用户信息,该用户信息包括待识别用户的地理位置信息、属性信息和社交行为数据。
例如,获取单元301,具体可以用于从即时通讯系统或社交系统的数据库中直接获取即时通讯系统或社交系统中多个用户的用户信息,还可以直接从互联网上定期爬取用户的信息,在爬取的信息中筛选出待识别用户的用户信息。
(2)预测单元302;
预测单元302,用于根据待识别用户的地理位置信息和属性信息,分别预测每一待识别用户的身份,得到待识别用户的初始身份信息。
其中,预测单元302还可以包括提取子单元3021和预测子单元3022,如图6所示,具体可以如下:
提取子单元3021,用于在待识别用户的地理位置信息中提取出待识别用户的登录记录;
预测子单元3022,用于根据登录记录和属性信息,分别预测每一待识别用户的身份,得到待识别用户的初始身份信息。
例如,提取子单元3021在待识别用户的地理位置信息中提取出待识别用户的登录记录,预测子单元3022根据登录记录和属性信息,分别预测每一待识别用户的身份,得到待识别用户的初始身份信息。
(3)第一识别单元303;
第一识别单元303,用于若待识别用户的初始身份信息与社交行为数据匹配,则将初始身份信息作为待识别用户的身份信息,并将该待识别用户作为种子用户。
例如,第一识别单元303,具体可以用于,若待识别用户的初始身份信息与社交行为数据中的社交群文本信息匹配,则说明待识别用户的初始身份信息预测正确,直接将待识别用户的初始身份信息作为真实的身份信息,并将待识别用户作为种子用户。
(4)第二识别单元304;
第二识别单元304,用于若待识别用户的初始身份信息与社交行为数据不匹配,则将待识别用户作为候选用户,采用身份识别模型对候选用户的身份进行识别,以得到候选用户的身份信息。
例如,第二识别单元304,具体可以用于若待识别用户的初始身份信息与社交行为数据中的社交群文本信息不匹配,将待识别用户作为候选用户,采用身份识别模型对候选用户的用户信息进行多尺度的特征提取,得到不同尺度对应的局部身份特征信息,对局部特征信息进行融合,得到候选用户的全局身份特征信息。根据全局身份特征信息,确定候选用户的身份信息。
可选的,身份信息识别装置还可以包括构建单元305和训练单元306,如图7所示,具体可以如下:
构建单元305,用于对种子用户的用户信息进行身份信息的标注,以构建用户信息样本;
训练单元306,用于采用身份识别模型对用户信息样本中的身份信息进行预测,得到预测身份信息,根据预测身份信息与标注的身份信息,对身份识别模型进行收敛,得到身份识别模型。
例如,构建单元305对种子用户的用户信息进行身份信息的标注,以构建用户信息样本,训练单元306采用身份识别模型对用户信息样本中的身份信息进行预测,得到预测身份信息,根据预测身份信息与标注的身份信息,对身份识别模型进行收敛,得到身份识别模型。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由以上可知,本实施例在获取单元301获取多个待识别用户的用户信息,用户信息包括待识别用户的地理位置信息、属性信息和社交行为数据,预测单元302根据待识别用户的地理位置信息和属性信息,分别预测每一待识别用户的身份,得到待识别用户的初始身份信息,第一识别单元303若待识别用户的初始身份信息与社交行为数据匹配,则将初始身份信息作为待识别用户的身份信息,并将该待识别用户作为种子用户,第二识别单元304若待识别用户的初始身份信息与社交行为数据不匹配,则将待识别用户作为候选用户,采用身份识别模型对候选用户的身份进行识别,以得到候选用户的身份信息,该身份识别模型由多个种子用户的身份信息训练而成;由于该方案在单纯的规则识别的基础上,采用社交行为数据对识别出的初始身份信息进行匹配,可以提升身份信息的识别准确率,而且又采用确定身份信息的待识别用户这种高置信度样本作为种子用户来训练身份识别模型,最后采用身份识别模型只对剩下的未匹配的候选用户进行身份信息的识别,可以大大提升身份信息的识别准确率和识别效率。
本发明实施例还提供一种电子设备,如图8所示,其示出了本发明实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图8中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
电子设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取多个待识别用户的用户信息,用户信息包括待识别用户的地理位置信息、属性信息和社交行为数据,根据待识别用户的地理位置信息和属性信息,分别预测每一待识别用户的身份,得到待识别用户的初始身份信息,若待识别用户的初始身份信息与社交行为数据匹配,则将初始身份信息作为待识别用户的身份信息,并将该待识别用户作为种子用户,若待识别用户的初始身份信息与社交行为数据不匹配,则将待识别用户作为候选用户,采用身份识别模型对候选用户的身份进行识别,以得到候选用户的身份信息,该身份识别模型由多个种子用户的身份信息训练而成。
例如,从即时通讯系统或社交系统的数据库中直接获取多个用户的用户信息,还可以直接从互联网上定期爬取用户的信息,在爬取的信息中筛选出待识别用户的用户信息。在待识别用户的地理位置信息中提取出待识别用户的登录记录,对原始登录地址进行聚类,得到多个类型的登录地址,可以根据原始登录地址对应的登录时间,确定每一类型的登录地址在预设登录周期的登录频率,在多个类型的登录地址中筛选出登录频率超过预设登录频率阈值的目标类型的登录地址,根据登录地址的地址类型,确定待识别用户的至少一个候选身份,基于待识别用户的属性信息,在候选身份中筛选出目标身份,根据待识别用户的目标身份信息、属性信息和登录地址的类型,生成待识别用户的初始身份信息。根据待识别用户的初始身份信息,确定待识别用户的身份类型,根据该身份类型,在待识别用户的社交行为数据中筛选出社交群文本信息。将社交群文本信息与初始身份信息进行匹配。若待识别用户的初始身份信息与社交行为数据匹配,则将初始身份信息作为待识别用户的身份信息,并将待识别用户作为种子用户,若待识别用户的初始身份信息与社交行为数据不匹配,则将待识别用户作为候选用户,采用身份识别模型对候选用户的用户信息进行多个尺度的特征提取,得到每一尺度对应的局部身份特征信息,对局部特征信息进行融合,得到候选用户的全局身份特征信息。根据全局身份特征信息,确定候选用户的身份信息。
以上各个操作的具体实施可参见前面的实施例,在此不作赘述。
由以上可知,本发明实施例在获取多个待识别用户的用户信息,用户信息包括待识别用户的地理位置信息、属性信息和社交行为数据,根据待识别用户的地理位置信息和属性信息,分别预测每一待识别用户的身份,得到待识别用户的初始身份信息,若待识别用户的初始身份信息与社交行为数据匹配,则将初始身份信息作为待识别用户的身份信息,并将该待识别用户作为种子用户,若待识别用户的初始身份信息与社交行为数据不匹配,则将待识别用户作为候选用户,采用身份识别模型对候选用户的身份进行识别,以得到候选用户的身份信息,该身份识别模型由多个所述种子用户的身份信息训练而成;由于该方案在单纯的规则识别的基础上,采用社交行为数据对识别出的初始身份信息进行匹配,可以提升身份信息的识别准确率,而且又采用确定身份信息的待识别用户这种高置信度样本作为种子用户来训练身份识别模型,最后采用身份识别模型只对剩下的未匹配的候选用户进行身份信息的识别,可以大大提升身份信息的识别准确率和识别效率。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种身份信息识别方法中的步骤。例如,该指令可以执行如下步骤:
获取多个待识别用户的用户信息,用户信息包括待识别用户的地理位置信息、属性信息和社交行为数据,根据待识别用户的地理位置信息和属性信息,分别预测每一待识别用户的身份,得到待识别用户的初始身份信息,若待识别用户的初始身份信息与社交行为数据匹配,则将初始身份信息作为待识别用户的身份信息,并将该待识别用户作为种子用户,若待识别用户的初始身份信息与社交行为数据不匹配,则将待识别用户作为候选用户,采用身份识别模型对候选用户的身份进行识别,以得到候选用户的身份信息,该身份识别模型由多个种子用户的身份信息训练而成。
例如,从即时通讯系统或社交系统的数据库中直接获取多个用户的用户信息,还可以直接从互联网上定期爬取用户的信息,在爬取的信息中筛选出待识别用户的用户信息。在待识别用户的地理位置信息中提取出待识别用户的登录记录,对原始登录地址进行聚类,得到多个类型的登录地址,可以根据原始登录地址对应的登录时间,确定每一类型的登录地址在预设登录周期的登录频率,在多个类型的登录地址中筛选出登录频率超过预设登录频率阈值的目标类型的登录地址,根据登录地址的地址类型,确定待识别用户的至少一个候选身份,基于待识别用户的属性信息,在候选身份中筛选出目标身份,根据待识别用户的目标身份信息、属性信息和登录地址的类型,生成待识别用户的初始身份信息。根据待识别用户的初始身份信息,确定待识别用户的身份类型,根据该身份类型,在待识别用户的社交行为数据中筛选出社交群文本信息。将社交群文本信息与初始身份信息进行匹配。若待识别用户的初始身份信息与社交行为数据匹配,则将初始身份信息作为待识别用户的身份信息,并将待识别用户作为种子用户,若待识别用户的初始身份信息与社交行为数据不匹配,则将待识别用户作为候选用户,采用身份识别模型对候选用户的用户信息进行多个尺度的特征提取,得到每一尺度对应的局部身份特征信息,对局部特征信息进行融合,得到候选用户的全局身份特征信息。根据全局身份特征信息,确定候选用户的身份信息。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本发明实施例所提供的任一种身份信息识别方法中的步骤,因此,可以实现本发明实施例所提供的任一种身份信息识别方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种身份信息识别方法、装置和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种身份信息识别方法,其特征在于,包括:
获取多个待识别用户的用户信息,所述用户信息包括所述待识别用户的地理位置信息、属性信息和社交行为数据,所述地理位置信息包括多个原始登录地址和所述原始登录地址对应的登录时间;
对所述原始登录地址进行聚类,得到多个类型的登录地址;
根据原始登录地址对应的所述登录时间,在所述多个类型的登录地址中筛选出目标类型的登录地址;
根据所述目标类型的登录地址和所述待识别用户的属性信息,分别预测每一待识别用户的身份,得到所述待识别用户的初始身份信息;
若所述待识别用户的初始身份信息与社交行为数据匹配,则将所述初始身份信息作为待识别用户的身份信息,并将该待识别用户作为种子用户;
若所述待识别用户的初始身份信息与社交行为数据不匹配,则将所述待识别用户作为候选用户,采用身份识别模型对候选用户的身份进行识别,以得到候选用户的身份信息,所述身份识别模型由多个所述种子用户的身份信息训练而成。
2.根据权利要求1所述的身份信息识别方法,其特征在于,该方法还包括:
根据所述待识别用户的初始身份信息,确定所述待识别用户的身份类型;
根据所述身份类型,在所述待识别用户的社交行为数据中筛选出社交群文本信息;
所述若所述待识别用户的初始身份信息与社交行为数据匹配,则将所述初始身份信息作为待识别用户的身份信息,并将该待识别用户作为种子用户,包括:将所述初始身份信息与所述社交群文本信息进行匹配,若所述初始身份信息与所述社交群文本信息匹配,则将所述初始身份信息作为待识别用户的身份信息,并将所述待识别用户作为种子用户;
所述若所述待识别用户的初始身份信息与社交行为数据不匹配,则将所述待识别用户作为候选用户,采用身份识别模型对候选用户的身份进行识别,以得到候选用户的身份信息,包括:将所述初始身份信息与所述社交群文本信息进行匹配,若所述初始身份信息与所述社交群文本信息不匹配时,则将所述待识别用户作为候选用户,采用身份识别模型对所述候选用户的身份进行识别,以得到所述候选用户的身份信息。
3.根据权利要求2所述的身份信息识别方法,其特征在于,所述根据所述身份类型,在所述待识别用户的社交行为数据中筛选出社交群文本信息,包括:
在所述社交行为数据中筛选出所述待识别用户加入的社交群的信息,得到社交群信息;
从所述社交群信息中提取出所述待识别用户加入的社交群的属性信息,得到群属性信息;
根据所述身份类型和群属性信息,在所述社交群信息中筛选出所述社交群文本信息。
4.根据权利要求3所述的身份信息识别方法,其特征在于,所述根据所述身份类型和群属性信息,在所述社交群信息中筛选出所述社交群文本信息,包括:
根据所述群属性信息,确定所述待识别用户加入的目标社交群;
在所述社交群信息中提取出所述目标社交群对应的候选社交群文本信息;
在所述候选社交群文本信息中筛选出所述身份类型对应的社交群文本信息。
5.根据权利要求2所述的身份信息识别方法,其特征在于,所述将所述初始身份信息与所述社交群文本信息进行匹配,包括:
根据所述初始身份信息,确定所述待识别用户的身份关键词,所述身份关键词为指示所述待识别用户的身份的词;
当所述社交群文本信息中存在所述身份关键词时,确定所述初始身份信息与所述社交群文本信息匹配;
当所述社交群文本信息中不存在所述身份关键词,确定所述初始身份信息与所述社交群文本信息不匹配。
6.根据权利要求2所述的身份信息识别方法,其特征在于,所述采用身份识别模型对所述候选用户的身份进行识别,以得到所述候选用户的身份信息,包括:
采用所述身份识别模型对所述候选用户的用户信息进行多个尺度的特征提取,得到每个尺度对应的局部身份特征信息;
对所述局部身份特征信息进行融合,得到所述候选用户的全局身份特征信息;
根据所述全局身份特征信息,确定所述候选用户的身份信息。
7.根据权利要求6所述的身份信息识别方法,其特征在于,所述采用所述身份识别模型对所述候选用户的用户信息进行多个尺度的特征提取之前,还包括:
对所述种子用户的用户信息进行身份信息的标注,以构建用户信息样本;
采用预设身份识别模型对所述用户信息样本中的身份信息进行预测,得到预测身份信息;
根据所述预测身份信息与标注的身份信息,对所述预设身份识别模型进行收敛,得到所述身份识别模型。
8.根据权利要求1所述的身份信息识别方法,其特征在于,所述根据原始登录地址对应的所述登录时间,在所述多个类型的登录地址中筛选出目标类型的登录地址,包括:
根据所述原始登录地址对应的登录时间,确定每一种类型的登录地址在预设登录周期的登录频率;
在所述多个类型的登录地址中筛选出登录频率超过预设登录频率阈值的目标类型的登录地址。
9.根据权利要求1所述的身份信息识别方法,其特征在于,所述根据所述目标类型的登录地址和所述待识别用户的属性信息,分别预测每一待识别用户的身份,得到所述待识别用户的初始身份信息,包括:
根据所述目标类型的登录地址的地址类型,确定所述待识别用户的至少一个候选身份;
基于所述待识别用户的属性信息,在所述候选身份中筛选出目标身份;
根据所述待识别用户的目标身份、属性信息和目标登录地址,生成所述待识别用户的初始身份信息。
10.一种身份信息识别装置,其特征在于,包括:
获取单元,用于获取多个待识别用户的用户信息,所述用户信息包括所述待识别用户的地理位置信息、属性信息和社交行为数据,所述地理位置信息包括多个原始登录地址和所述原始登录地址对应的登录时间;
预测单元,用于对所述原始登录地址进行聚类,得到多个类型的登录地址,根据原始登录地址对应的所述登录时间,在所述多个类型的登录地址中筛选出目标类型的登录地址,根据所述目标类型的登录地址和所述待识别用户的属性信息,分别预测每一待识别用户的身份,得到所述待识别用户的初始身份信息;
第一识别单元,用于若所述待识别用户的初始身份信息与社交行为数据匹配,则将所述初始身份信息作为待识别用户的身份信息,并将该待识别用户作为种子用户;
第二识别单元,用于若所述待识别用户的初始身份信息与社交行为数据不匹配,则将所述待识别用户作为候选用户,采用身份识别模型对候选用户的身份进行识别,以得到候选用户的身份信息,所述身份识别模型由多个所述种子用户的身份信息训练而成。
11.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序实现如权利要求1至9任一项所述的身份信息识别方法中的步骤。
12.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至9任一项所述的身份信息识别方法中的步骤。
CN202010539843.4A 2020-06-15 2020-06-15 一种身份信息识别方法、装置、电子设备和存储介质 Expired - Fee Related CN111444440B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010539843.4A CN111444440B (zh) 2020-06-15 2020-06-15 一种身份信息识别方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010539843.4A CN111444440B (zh) 2020-06-15 2020-06-15 一种身份信息识别方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN111444440A CN111444440A (zh) 2020-07-24
CN111444440B true CN111444440B (zh) 2020-09-29

Family

ID=71653720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010539843.4A Expired - Fee Related CN111444440B (zh) 2020-06-15 2020-06-15 一种身份信息识别方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN111444440B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113094595A (zh) * 2021-04-08 2021-07-09 中国工商银行股份有限公司 对象识别方法、装置、计算机系统及可读存储介质
CN113743103A (zh) * 2021-08-20 2021-12-03 南京星云数字技术有限公司 评论用户身份识别方法、装置、计算机设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945276A (zh) * 2011-11-09 2013-02-27 微软公司 生成和更新基于事件的回放体验
CN109242470A (zh) * 2018-08-14 2019-01-18 阿里巴巴集团控股有限公司 身份识别方法、装置、设备及计算机可读存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8549590B1 (en) * 2012-07-03 2013-10-01 Lexisnexis Risk Solutions Fl Inc. Systems and methods for identity authentication using a social network
US20120331557A1 (en) * 2011-06-21 2012-12-27 Keith Anthony Washington Global identity protector E-commerce payment code certified processing system
CN104933139B (zh) * 2015-06-17 2018-06-01 中国科学院计算技术研究所 一种社交网络用户身份虚实映射的方法及装置
CN106126521B (zh) * 2016-06-06 2018-06-19 腾讯科技(深圳)有限公司 目标对象的社交账号挖掘方法及服务器
CN110750537B (zh) * 2019-10-14 2023-09-26 赛诺贝斯(北京)营销技术股份有限公司 一种客户身份识别方法及装置、设备、介质
CN110796072B (zh) * 2019-10-28 2023-04-07 桂林电子科技大学 一种基于双任务学习的目标跟踪及身份识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945276A (zh) * 2011-11-09 2013-02-27 微软公司 生成和更新基于事件的回放体验
CN109242470A (zh) * 2018-08-14 2019-01-18 阿里巴巴集团控股有限公司 身份识别方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN111444440A (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
CN110598070B (zh) 应用类型识别方法及装置、服务器及存储介质
US11263208B2 (en) Context-sensitive cross-lingual searches
Lu et al. Clustering-algorithm-based rare-event evolution analysis via social media data
US11281992B2 (en) Predicting geofence performance for optimized location based services
US11093774B2 (en) Optical character recognition error correction model
CN110300084B (zh) 基于ip地址的画像方法和装置,电子设备,可读介质
CN103346957A (zh) 一种根据联系人消息改变联系人头像表情的系统及方法
CN111405030B (zh) 一种消息推送方法、装置、电子设备和存储介质
CN111444440B (zh) 一种身份信息识别方法、装置、电子设备和存储介质
US11429833B2 (en) Cognitive communication assistant services
CN110046174B (zh) 一种基于大数据的人口迁移分析方法和系统
CN112417274A (zh) 一种消息推送方法、装置、电子设备及存储介质
CN113778871A (zh) Mock测试方法、装置、设备及存储介质
US10229182B2 (en) Friend locator based on friend network and profile
CN112883257A (zh) 行为序列数据处理方法、装置、电子设备及存储介质
US20220386071A1 (en) Road side positioning method and apparatus, device, and storage medium
US10592832B2 (en) Effective utilization of idle cycles of users
CN113128526A (zh) 图像识别方法、装置、电子设备和计算机可读存储介质
CN112052399A (zh) 一种数据处理方法、装置和计算机可读存储介质
US10394876B2 (en) Fuzzy term partition identification
US20200370896A1 (en) Customized trip grouping based on individualized user preferences
CN114638308A (zh) 一种获取对象关系的方法、装置、电子设备和存储介质
CN115168609A (zh) 一种文本匹配方法、装置、计算机设备和存储介质
CN114443904A (zh) 视频查询方法、装置、计算机设备及计算机可读存储介质
US11645558B2 (en) Automatic mapping of records without configuration information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40025955

Country of ref document: HK

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200929

CF01 Termination of patent right due to non-payment of annual fee