CN106897729B - 信息识别方法、模型训练方法、装置及处理设备 - Google Patents

信息识别方法、模型训练方法、装置及处理设备 Download PDF

Info

Publication number
CN106897729B
CN106897729B CN201610491023.6A CN201610491023A CN106897729B CN 106897729 B CN106897729 B CN 106897729B CN 201610491023 A CN201610491023 A CN 201610491023A CN 106897729 B CN106897729 B CN 106897729B
Authority
CN
China
Prior art keywords
user
level
training
users
iteration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610491023.6A
Other languages
English (en)
Other versions
CN106897729A (zh
Inventor
李辉
钟观海
操颖平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610491023.6A priority Critical patent/CN106897729B/zh
Publication of CN106897729A publication Critical patent/CN106897729A/zh
Application granted granted Critical
Publication of CN106897729B publication Critical patent/CN106897729B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本申请公开了一种信息识别方法、模型训练方法、装置及处理设备,从检测用户的行为数据中提取所述检测用户的关键特征;其中,所述关键特征由表示身份信息的特征数据组成;根据所述检测用户的好友用户是否为目标身份信息的检测结果,获得所述检测用户的社交特征;根据所述检测用户的用户特征,利用第一分类模型获得所述检测用户的好友用户是否为所述目标身份信息的检测结果;其中,所述好友用户的用户特征包括所述好友用户的关键特征;所述第一分类模型预先根据训练用户的用户特征训练获得,本申请实施例提高了识别准确度。

Description

信息识别方法、模型训练方法、装置及处理设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种信息识别方法、模型训练方法、装置及处理设备。
背景技术
随着计算技术以及互联网技术的发展,网络中产生的用户数据也越来越多,特别是用户身份信息,例如用户学历、用户职位等,而用户身份在实际应用中具有重要意义,比如在互联网金融中,根据用户学历可以对用户账户进行风险评级、征信评分等。
现有技术中,用户身份的识别通常是根据用户提供的信息确定,例如用户学历信息,通常是根据用户自己填写的信息确定的,但是这种方式并没有对用户提供的信息进行鉴别,无法保证信息准确性,因此可能导致识别结果不准确。
发明内容
有鉴于此,本申请提供一种信息识别方法、用于信息识别的模型训练方法、装置及处理设备,用以解决现有技术中用户身份识别不准确的技术问题。
本申请实施例提供一种信息识别方法,包括:
从检测用户的行为数据中提取所述检测用户的关键特征;其中,所述关键特征由表示身份信息的特征数据组成;
根据所述检测用户的好友用户是否为目标身份信息的检测结果,获得所述检测用户的社交特征;
根据所述检测用户的用户特征,利用第一分类模型获得所述检测用户是否为所述目标身份信息的检测结果;其中,所述检测用户的用户特征至少包括所述检测用户的关键特征和所述检测用户的社交特征;所述第一分类模型预先根据训练用户的用户特征训练获得。
优选地,所述根据所述检测用户的好友用户是否为所述目标身份信息的检测结果,获得所述检测用户的社交特征之前,所述方法还包括:
从所述检测用户的好友用户的行为数据中提取所述好友用户的关键特征;其中,所述关键特征由表示身份信息的特征数据组成;
根据所述检测用户的好友用户的用户特征,利用第二分类模型获得所述检测用户的好友用户是否为所述目标身份信息的检测结果;其中,所述好友用户的用户特征包括所述好友用户的关键特征。
优选地,所述第二分类模型预先根据从训练用户的行为数据中提取的所述训练用户的关键特征训练获得;
所述第一分类模型预先根据所述训练用户的关键特征以及社交特征训练获得;
所述训练用户的社交特征根据所述训练用户的好友用户的检测结果获得;
所述好友用户的检测结果根据所述好友用户的关键特征利用所述第二分类模型获得。
优选地,所述检测用户的好友用户的用户特征还包括所述检测用户的好友用户的社交特征;
所述从所述检测用户的好友用户的行为数据中,提取所述检测用户的好友用户的关键特征包括:
从所述检测用户的每一级迭代用户的行为数据中提取每一级迭代用户的关键特征;其中,所述检测用户的好友用户为所述检测用户的第1级迭代用户;所述检测用户的第m级迭代用户分别与第m-1级迭代用户以及第m+1级迭代用户具有好友关系;m=1、2、…N,N为迭代训练次数且为大于等于1的整数;所述第二分类模型为第N级迭代分类模型;所述第一分类模型为第N+1级迭代分类模型;
其中,第i级迭代用户的社交特征根据第i+1级迭代用户的检测结果获得,i=1、2…N-2;所述第i+1级迭代用户的检测结果按照如下方式获得:
根据所述检测用户的第i+1级迭代用户的用户特征,利用第N-i级迭代分类模型,计算获得第i+1级迭代用户的检测结果;所述检测用户的第i+1级迭代用户的用户特征包括第i+1级迭代用户的关键特征以及社交特征;其中,第N级迭代用户的检测结果根据第N级迭代好友的关键特征利用第1级迭代分类模型计算获得;第N-1级迭代用户的社交特征根据第N级迭代用户的检测结果获得;
所述第1级迭代分类模型预先根据从训练用户的行为数据中提取的所述训练用户的关键特征训练获得;所述第j+1级迭代分类模型基于所述第1级迭代分类模型进行迭代训练获得。
优选地,所述第j+1级迭代分类模型按照如下迭代训练方式预先训练获得,其中,j=1、2、3……N;
将训练用户的第j级迭代用户的关键特征,输入第1级迭代分类模型,计算获得第j级迭代用户的第1级检测结果;
根据所述训练用户第j级迭代用户的第1级检测结果,获得第j-1级迭代用户的第1级社交特征;
对于所述训练用户第j-i级迭代用户,将第j-i级迭代用户的第i级用户特征输入第i+1级迭代分类模型,计算获得第j-i级迭代用户的第i+1级检测结果;i=1、2、3……N-2;所述第i级用户特征包括关键特征以及第i级社交特征;
根据所述第j-i级迭代用户的第i+1级检测结果,获得第j-i-1级迭代用户的第i+1级社交特征;
将获得的第1级迭代用户的第j-1级用户特征输入第j级迭代模型,计算获得所述第1级迭代用户的第j级检测结果;所述第j-1级用户特征包括关键特征以及第j-1级社交特征;
利用所述第1级迭代好友的第j级检测结果,计算获得训练用户的第j级社交特征;
利用所述训练用户的第j级用户特征,训练获得第j+1级迭代分类模型;所述训练用户的第j级用户特征包括所述训练用户的关键特征及第j级社交特征。
优选地,所述好友用户的检测结果为所述好友用户为所述目标身份信息的检测概率;
所述根据所述好友用户的检测结果,获得所述检测用户的社交特征包括:
根据每一个好友用户的检测概率计算平均检测概率,将所述平均检测概率作为所述检测用户的社交特征。
优选地,所述目标身份信息为目标学历信息;
所述从检测用户的行为数据中,提取所述检测用户的表示身份信息的关键特征包括:
从检测用户的行为数据中,提取至少由学历等级关键词、不同学历等级关键词出现次数以及所述学历等级关键词出现次数的归一化次数构成的关键特征。
一种用于信息识别的模型训练方法,包括:
从训练用户的行为数据中,提取所述训练用户的关键特征,其中,所述关键特征由表示身份信息的特征数据组成;
根据所述训练用户的好友用户是否为目标身份信息的检测结果,获得所述训练用户的社交特征;
利用所述训练用户的用户特征,训练获得第一分类模型;所述训练用户的用户特征包括所述训练用户的关键特征以及社交特征;所述第一分类模型用于根据检测用户的用户特征,识别所述检测用户的身份信息。
优选地,所述根据所述训练用户的好友用户是否为目标身份信息的检测结果,获得所述训练用户的社交特征之前,所述方法还包括:
从训练用户的好友用户的行为数据中,提取训练用户的好友用户的关键特征;
利用所述训练用户的关键特征,训练获得第二分类模型;
将所述训练用户的好友用户的关键特征,输入第二分类模型,获得所述训练用户的好友用户是否为目标身份信息的检测结果。
优选地,所述从训练用户的行为数据中,提取所述训练用户的关键特征之后,所述方法还包括:
从所述训练用户的每一级迭代用户的行为数据中,提取所述每一级迭代用户的关键特征;其中,所述训练用户的好友用户为所述训练用户的第1级迭代用户;所述训练用户的第m级迭代用户分别与第m-1级迭代用户以及第m+1级迭代用户具有好友关系;m=1、2、…N,N为大于等于1的整数;
所述利用所述训练用户的用户特征,训练获得第一分类模型包括:
利用所述训练用户的关键特征,训练获得第1级迭代分类模型;
利用所述训练用户的第j级用户特征,训练获得第j+1级迭代分类模型;其中,j=1、2……N;所述训练用户的第j级用户特征包括所述训练用户的关键特征以及第j级社交特征;所述训练用户的第j级社交特征根据所述训练用户的第1级迭代用户的第j级检测结果获得;所述训练用户的第1级迭代用户的第j级检测结果根据所述第1级迭代用户的第j-1级用户特征,利用第j级迭代分类模型获得;
其中,第N+1级迭代分类模型为所述第一分类模型,用于识别检测用户的身份信息,第j级迭代分类模型用于识别所述检测用户的第N-j+1级迭代用户的身份信息。
优选地,所述利用所述训练用户的第j级用户特征,训练获得第j+1级迭代分类模型包括:
按照如下迭代训练方式进行训练,获得第j+1级迭代分类模型,其中,j=1、2、3……N:
将训练用户的第j级迭代用户的关键特征,输入第1级迭代分类模型,计算获得第j级迭代用户的第1级检测结果;
根据所述训练用户的第j级迭代用户的第1级检测结果,获得所述训练用户的第j-1级迭代用户的第1级社交特征;
对于所述训练用户的第j-i级迭代用户,将所述训练用户的第j-i级迭代用户的第i级用户特征输入第i+1级迭代分类模型,计算获得所述训练用户的第j-i级迭代用户的第i+1级检测结果;i=1、2、3……N-2;所述第j-i级迭代用户的第i级用户特征包括所述第j-i级迭代用户的关键特征以及第i级社交特征;
根据所述训练用户的第j-i级迭代用户的第i+1级检测结果,获得所述训练用户的第j-i-1级迭代用户的第i+1级社交特征;
将获得的第1级迭代用户的第j-1级用户特征输入第j级迭代模型,计算获得所述第1级迭代用户的第j级检测结果;所述第j-1级用户特征包括关键特征以及第j-1级社交特征;
利用所述第1级迭代好友的第j级检测结果,计算获得训练用户的第j级社交特征;
利用所述训练用户的第j级用户特征,训练获得第j+1级迭代分类模型;所述训练用户的第j级用户特征包括所述训练用户的关键特征及第j级社交特征。
一种处理设备,包括存储器以及处理器;
所述存储器存储一组或多组程序指令;
所述处理器调用所述一组或多组程序指令,执行如下操作:
从检测用户的行为数据中提取所述检测用户的关键特征;其中,所述关键特征由表示身份信息的特征数据组成;
根据所述检测用户的好友用户是否为目标身份信息的检测结果,获得所述检测用户的社交特征;
根据所述检测用户的用户特征,利用第一分类模型获得所述检测用户是否为所述目标身份信息的检测结果;其中,所述检测用户的用户特征至少包括所述检测用户的关键特征和所述检测用户的社交特征;所述第一分类模型预先根据训练用户的用户特征训练获得。
优选地,所述处理器还用于:
从所述检测用户的好友用户的行为数据中提取所述好友用户的关键特征;其中,所述关键特征由表示身份信息的特征数据组成;
根据所述检测用户的好友用户的用户特征,利用第二分类模型获得所述检测用户的好友用户是否为所述目标身份信息的检测结果;其中,所述好友用户的用户特征包括所述好友用户的关键特征。
优选地,所述检测用户的好友用户的用户特征还包括所述检测用户的好友用户的社交特征;
所述处理器从所述检测用户的好友用户的行为数据中,提取所述检测用户的好友用户的关键特征包括:
从所述检测用户的每一级迭代用户的行为数据中提取每一级迭代用户的关键特征;其中,所述检测用户的好友用户为所述检测用户的第1级迭代用户;所述检测用户的第m级迭代用户分别与第m-1级迭代用户以及第m+1级迭代用户具有好友关系;m=1、2、…N,N为迭代训练次数且为大于等于1的整数;所述第二分类模型为第N级迭代分类模型;所述第一分类模型为第N+1级迭代分类模型;
其中,第i级迭代用户的社交特征根据第i+1级迭代用户的检测结果获得,i=1、2…N-2;所述第i+1级迭代用户的检测结果按照如下方式获得:
根据所述检测用户的第i+1级迭代用户的用户特征,利用第N-i级迭代分类模型,计算获得第i+1级迭代用户的检测结果;所述检测用户的第i+1级迭代用户的用户特征包括第i+1级迭代用户的关键特征以及社交特征;其中,第N级迭代用户的检测结果根据第N级迭代好友的关键特征利用第1级迭代分类模型计算获得;第N-1级迭代用户的社交特征根据第N级迭代用户的检测结果获得;
所述第1级迭代分类模型预先根据从训练用户的行为数据中提取的所述训练用户的关键特征训练获得;所述第j+1级迭代分类模型基于所述第1级迭代分类模型进行迭代训练获得。
优选地,所述好友用户的检测结果为所述好友用户为所述目标身份信息的检测概率;
所述处理器根据所述好友用户的检测结果,获得所述检测用户的社交特征包括:
根据每一个好友用户的检测概率计算平均检测概率,将所述平均检测概率作为所述检测用户的社交特征。
优选地,所述目标身份信息为目标学历信息;
所述处理器从检测用户的行为数据中,提取所述检测用户的表示身份信息的关键特征包括:
从检测用户的行为数据中,提取至少由学历等级关键词、不同学历等级关键词出现次数以及所述学历等级关键词出现次数的归一化次数构成的关键特征。
一种用于模型训练的处理设备,包括存储器以及处理器;
所述存储器存储一组或多组程序指令;
所述处理器调用所述一组或多组程序指令,执行如下操作:
从训练用户的行为数据中,提取所述训练用户的关键特征,其中,所述关键特征由表示身份信息的特征数据组成;
根据所述训练用户的好友用户是否为目标身份信息的检测结果,获得所述训练用户的社交特征;
利用所述训练用户的用户特征,训练获得第一分类模型;所述训练用户的用户特征包括所述训练用户的关键特征以及社交特征;所述第一分类模型用于根据检测用户的用户特征,识别所述检测用户的身份信息。
优选地,所述处理器还用于:
从训练用户的好友用户的行为数据中,提取训练用户的好友用户的关键特征;
利用所述训练用户的关键特征,训练获得第二分类模型;
将所述训练用户的好友用户的关键特征,输入第二分类模型,获得所述训练用户的好友用户是否为目标身份信息的检测结果。
优选地,所述处理器还用于从所述训练用户的每一级迭代用户的行为数据中,提取所述每一级迭代用户的关键特征;其中,所述训练用户的好友用户为所述训练用户的第1级迭代用户;所述训练用户的第m级迭代用户分别与第m-1级迭代用户以及第m+1级迭代用户具有好友关系;m=1、2、…N,N为大于等于1的整数;
所述处理器利用所述训练用户的用户特征,训练获得第一分类模型包括:
利用所述训练用户的关键特征,训练获得第1级迭代分类模型;
利用所述训练用户的第j级用户特征,训练获得第j+1级迭代分类模型;其中,j=1、2……N;所述训练用户的第j级用户特征包括所述训练用户的关键特征以及第j级社交特征;所述训练用户的第j级社交特征根据所述训练用户的第1级迭代用户的第j级检测结果获得;所述训练用户的第1级迭代用户的第j级检测结果根据所述第1级迭代用户的第j-1级用户特征,利用第j级迭代分类模型获得;
其中,第N+1级迭代分类模型为所述第一分类模型,用于识别检测用户的身份信息,第j级迭代分类模型用于识别所述检测用户的第N-j+1级迭代用户的身份信息。
优选地,所述处理器利用所述训练用户的第j级用户特征,训练获得第j+1级迭代分类模型包括:
按照如下迭代训练方式进行训练,获得第j+1级迭代分类模型,其中,j=1、2、3……N:
将训练用户的第j级迭代用户的关键特征,输入第1级迭代分类模型,计算获得第j级迭代用户的第1级检测结果;
根据所述训练用户的第j级迭代用户的第1级检测结果,获得所述训练用户的第j-1级迭代用户的第1级社交特征;
对于所述训练用户的第j-i级迭代用户,将所述训练用户的第j-i级迭代用户的第i级用户特征输入第i+1级迭代分类模型,计算获得所述训练用户的第j-i级迭代用户的第i+1级检测结果;i=1、2、3……N-2;所述第j-i级迭代用户的第i级用户特征包括所述第j-i级迭代用户的关键特征以及第i级社交特征;
根据所述训练用户的第j-i级迭代用户的第i+1级检测结果,获得所述训练用户的第j-i-1级迭代用户的第i+1级社交特征;
将获得的第1级迭代用户的第j-1级用户特征输入第j级迭代模型,计算获得所述第1级迭代用户的第j级检测结果;所述第j-1级用户特征包括关键特征以及第j-1级社交特征;
利用所述第1级迭代好友的第j级检测结果,计算获得训练用户的第j级社交特征;
利用所述训练用户的第j级用户特征,训练获得第j+1级迭代分类模型;所述训练用户的第j级用户特征包括所述训练用户的关键特征及第j级社交特征。
一种信息识别装置,包括:
第一特征提取模块,从检测用户的行为数据中提取所述检测用户的关键特征;其中,所述关键特征由表示身份信息的特征数据组成;
第二特征提取模块,根据所述检测用户的好友用户是否为目标身份信息的检测结果,获得所述检测用户的社交特征;
第一检测模块,根据所述检测用户的用户特征,利用第一分类模型获得所述检测用户是否为所述目标身份信息的检测结果;其中,所述检测用户的用户特征至少包括所述检测用户的关键特征和所述检测用户的社交特征;所述第一分类模型预先根据训练用户的用户特征训练获得。
优选地,还包括:
第三特征提取模块,从所述检测用户的好友用户的行为数据中提取所述好友用户的关键特征;其中,所述关键特征由表示身份信息的特征数据组成;
第二检测模块,根据所述检测用户的好友用户的用户特征,利用第二分类模型获得所述检测用户的好友用户是否为所述目标身份信息的检测结果;其中,所述好友用户的用户特征包括所述好友用户的关键特征。
优选地,所述检测用户的好友用户的用户特征还包括所述检测用户的好友用户的社交特征;
所述第三特征提取模块具体是:
从所述检测用户的每一级迭代用户的行为数据中,提取每一级迭代用户的关键特征;其中,所述检测用户的好友用户为所述检测用户的第1级迭代用户;所述检测用户的第m级迭代用户分别与第m-1级迭代用户以及第m+1级迭代用户具有好友关系;m=1、2、…N,N为迭代训练次数且为大于等于1的整数;所述第二分类模型为第N级迭代分类模型;所述第一分类模型为第N+1级迭代分类模型;
所述装置还包括:
第三检测模块,根据所述检测用户的第N级迭代用户的关键特征,利用第1级迭代分类模型获得所述第N级迭代用户的检测结果;根据所述检测用户的第i+1级迭代用户的用户特征,利用第N-i级迭代分类模型,获得第i+1级迭代用户的检测结果;所述检测用户的第i+1级迭代用户的用户特征包括第i+1级迭代用户的关键特征以及社交特征;i=1、2…N-2;
第四特征提取模块,根据所述检测用户的第i+1级迭代用户的检测结果,获得所述检测用户的第i级迭代用户的社交特征;根据第N级迭代用户的检测结果,获得第N-1级迭代用户的社交特征。
优选地,所述好友用户的检测结果为所述好友用户为所述目标身份信息的检测概率;
所述第二特征提取模块具体用于:
根据每一个好友用户的检测概率计算平均检测概率,将所述平均检测概率作为所述检测用户的社交特征。
一种用于信息识别的模型训练装置,包括:
第五特征提取模块,从训练用户的行为数据中,提取所述训练用户的关键特征,其中,所述关键特征由表示身份信息的特征数据组成;
第六特征提取模块,用于根据所述训练用户的好友用户是否为目标身份信息的检测结果,获得所述训练用户的社交特征;
第一训练模块,用于利用所述训练用户的用户特征,训练获得第一分类模型;所述训练用户的用户特征包括所述训练用户的关键特征以及社交特征;所述第一分类模型用于根据检测用户的用户特征,识别所述检测用户的身份信息。
优选地,还包括:
第七特征提取模块,从训练用户的好友用户的行为数据中,提取训练用户的好友用户的关键特征;
第二训练模块,利用所述训练用户的关键特征,训练获得第二分类模型;
第三检测模块,将所述训练用户的好友用户的关键特征,输入第二分类模型,获得所述训练用户的好友用户是否为目标身份信息的检测结果。
优选地,还包括:
第八特征提取模块,用于从所述训练用户的每一级迭代用户的行为数据中,提取所述每一级迭代用户的关键特征;其中,所述训练用户的好友用户为所述训练用户的第1级迭代用户;所述训练用户的第m级迭代用户分别与第m-1级迭代用户以及第m+1级迭代用户具有好友关系;m=1、2、…N,N为大于等于1的整数;
所述第一训练模块具体是:
利用所述训练用户的关键特征,训练获得第1级迭代分类模型;
利用所述训练用户的第j级用户特征,训练获得第j+1级迭代分类模型;其中,j=1、2……N;所述训练用户的第j级用户特征包括所述训练用户的关键特征以及第j级社交特征;所述训练用户的第j级社交特征根据所述训练用户的第1级迭代用户的第j级检测结果获得;所述训练用户的第1级迭代用户的第j级检测结果根据所述第1级迭代用户的第j-1级用户特征,利用第j级迭代分类模型获得;
其中,第N+1级迭代分类模型为所述第一分类模型,用于识别检测用户的身份信息,第j级迭代分类模型用于识别所述检测用户的第N-j+1级迭代用户的身份信息。
优选地,所第一述训练模块具体按照如下迭代训练方式进行训练,获得第j+1级迭代分类模型,其中,j=1、2、3……N:
将训练用户的第j级迭代用户的关键特征,输入第1级迭代分类模型,计算获得第j级迭代用户的第1级检测结果;
根据所述训练用户的第j级迭代用户的第1级检测结果,获得所述训练用户的第j-1级迭代用户的第1级社交特征;
对于所述训练用户的第j-i级迭代用户,将所述训练用户的第j-i级迭代用户的第i级用户特征输入第i+1级迭代分类模型,计算获得所述训练用户的第j-i级迭代用户的第i+1级检测结果;i=1、2、3……N-2;所述第j-i级迭代用户的第i级用户特征包括所述第j-i级迭代用户的关键特征以及第i级社交特征;
根据所述训练用户的第j-i级迭代用户的第i+1级检测结果,获得所述训练用户的第j-i-1级迭代用户的第i+1级社交特征;
将获得的第1级迭代用户的第j-1级用户特征输入第j级迭代模型,计算获得所述第1级迭代用户的第j级检测结果;所述第j-1级用户特征包括关键特征以及第j-1级社交特征;
利用所述第1级迭代好友的第j级检测结果,计算获得训练用户的第j级社交特征;
利用所述训练用户的第j级用户特征,训练获得第j+1级迭代分类模型;所述训练用户的第j级用户特征包括所述训练用户的关键特征及第j级社交特征。
与现有技术相比,本申请可以获得包括以下技术效果:
根据检测用户的行为数据实现了检测用户身份的识别,而不是根据检测用户提供的身份信息确定,提高了识别准确度和安全性,且不仅考虑了检测用户的行为数据,还综合考虑了检测用户的好友用户的身份信息使得获得的检测用户的检测结果更加准确,进一步保证了识别准确度。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种信息识别方法一个实施例的流程图;
图2为本申请实施例提供的一种用于信息识别的模型训练方法一个实施例的流程图;
图3为本申请实施例提供的一种信息识别方法又一个实施例的流程图;
图4为本申请实施例提供的一种用于信息识别的模型训练方法又一个实施例的流程图;
图5为本申请实施例提供的一种用于信息识别的模型训练方法又一个实施例的流程图;
图6为本申请实施例提供的一种信息识别方法又一个实施例的流程图;
图7为本申请实施例在一个实际应用中的特征提取示意图;
图8为本申请实施例提供的一种处理设备一个实施例的结构示意图;
图9为本申请实施例提供的一种用于模型训练的处理设备一个实施例的结构示意图;
图10为本申请实施例提供的一种信息识别装置一个实施例的结构示意图;
图11为本申请实施例提供的一种信息识别装置又一个实施例的结构示意图;
图12为本申请实施例提供的一种信息识别装置又一个实施例的结构示意图;
图13为本申请实施例提供的一种用于信息识别的模型训练装置一个实施例的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例的技术方案主要适用于用户身份信息识别,用户身份可以是指用户学历、用户职位、用户社会关系等,根据用户使用网络产生的行为数据,进行用户身份识别,无需用户主动提供身份信息,保证了识别准确度和安全性等。
在本申请实施例中,为了识别检测用户是否为目标身份信息,首先从检测用户的行为数据中,提取用于标识目标身份信息的关键特征,作为检测用户的关键特征,此外,根据好友用户是否为目标身份信息的检测结果,获得检测用户的社交特征;之后根据检测用户的用户特征,利用第一分类模型,获得检测用户是否目标身份信息的检测结果,根据该检测用户的检测结果,即可以确定检测用户是否为目标身份信息。本申请实施例中,根据检测用户的行为数据实现了检测用户身份的识别,而不是根据检测用户提供的身份信息确定,提高了识别准确度和安全性,且不仅考虑了检测用户的关键特征,还综合考虑了检测用户的社交特征,也即好友用户的身份信息,使得获得的检测用户的检测结果更加准确,进一步保证了识别准确度。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1为本申请实施例提供的一种信息识别方法一个实施例的流程图,该方法可以包括以下几个步骤:
101:从检测用户的行为数据中,提取所述检测用户关键特征。
关键特征由表示身份信息的特征数据组成。
本申请实施例为了识别检测用户是否为目标身份信息。
其中,目标身份信息可以是指任一个身份等级,以身份信息为学历信息为例,学历等级可以包括专科、本科、硕士、博士等,目标身份信息可以是任一个学历等级。
本申请实施例中,对用户身份信息的识别是通过识别检测用户是否为任一个身份等级确定。对于任一个身份等级的判断,均可以按照本申请实施例的技术方案实现。
其中,检测用户可以是指使用网络的网络用户,检测用户的行为数据是指检测用户使用网络时产生的数据,可以包括检测使用网络产生的搜索数据、浏览数据、操作数据以及获取或者提交的数据等等,检测用户登录网络服务器之后,网络服务器即可以根据检测用户的用户信息,获得检测用户的行为数据。
每一个检测用户可以对应一个用户账户,检测用户的行为数据可以是根据检测用户的用户账户从历史行为记录中获取。
以检测用户使用网络进行网络购物为例,行为数据可以包括购物数据,收货信息以及好友标注信息等。
其中,购物数据可以包括购买商品名称等。收货信息可以包括检测用户登记的收货地址等。好友标注信息为与检测用户具有好友关系的好友用户提交的对检测用户的标注的与身份相关的标注信息等。
其中,所述关键特征由表示身份信息的特征数据组成;特征数据可以包括一个或者多个,为了提高识别准确度,所述特征数据可以包括多个,关键特征可以由特征数据组成的向量形式表示。
以身份信息为学历信息为例,例如,从购物数据中提取的关键特征可以包括购买商品名称对应的学历等级,例如购买商品为书籍,而不同书籍名称适用于不同学历的用户,因此可以获得学历等级;从收货信息中提取的关键特征可以包括收货地址为学校地址的收货次数、学校地址对应学校的学历等级、不同学历等级命中次数等。其中,不同学历等级命中次数根据收货次数确定。
例如收货信息中A学校地址的收货次数为N次,A学校对应的学历等级为专科,则专科的命中次数即为N。
从好友标注信息中可以提取好友用户标注为不同学历关键词的次数等,比如对于本科学历,学历关键词可以包括“本科、学士、一本、二本、三本”等。
由上述描述可知,关键特征可以包括多个特征数据,其可以是由多个特征数据形成的特征组合。在进行实际计算时,多个特征数据可以以向量形式进行表示。
102:根据所述检测用户的好友用户是否为目标身份信息的检测结果,获得所述检测用户的社交特征。
其中,所述检测用户的好友用户的身份信息的确定可以有多种可能实现方式,可以选择已知身份信息的好友用户来确定好友用户是否为目标身份信息,进而获得检测用户的社交特征。
当然,还可以根据检测用户的好友用户提供的身份信息,确定检测用户的好友用户是否为目标身份信息的。
还可以采用其他实现方式,在下面实施例中会详细进行介绍。
其中,检测用户的社交特征即用于表示好友用户的检测结果。
由于检测用户可能具有多个好友用户,在所述检测结果为所述好友用户为目标身份信息的检测概率时,
作为一种可能的实现方式,社交特征可以包括每一个好友用户的检测概率;
作为又一种可能的实现方式,社交特征可以包括好友用户的平均检测概率;
作为又一种可能的实现方式,社交特征可以包括检测概率大于预设概率的好友用户个数。
当然,社交特征还可以是包括上述一个或多个或全部可能的实现方式。
103:根据所述检测用户的用户特征,利用第一分类模型获得所述检测用户是否为所述目标身份信息的检测结果。
其中,所述检测用户的用户特征至少包括所述检测用户的关键特征和所述检测用户的社交特征;所述第一分类模型预先根据训练用户的用户特征训练获得。
所述第一分类模型预先根据训练用户的用户特征训练获得。
第一分类模型为有监督的模型,通过监督学习获得。也即利用一组已知类别的样本调整模型的参数,使其达到所要求性能的过程。本实施例中,第一分类模型即可以是利用已知身份的训练用户的用户特征来调整模型的参数,进行模型训练获得。
第一分类模型可以选择逻辑归回模型(Logit model)、支持向量机(SupportVector Machine)等有监督的学习模型。
检测用户的检测结果可以具体是检测用户为目标身份信息的检测概率,从而根据检测用户的检测概率,即可有确定检测用户是否为目标身份信息,例如如果检测用户的检测概率大于预设概率,即表明检测用户为目标身份信息。
在本实施例中,根据检测用户的行为数据实现了检测用户身份的识别,而不是根据检测用户提供的身份信息确定,提高了识别准确度和安全性,且不仅考虑了检测用户的关键特征,还综合考虑了检测用户的社交特征,也即好友用户的身份信息,使得获得的检测用户的检测结果更加准确,保证了识别准确度。
与图1所示实施例相对应,本申请实施例还提供的一种用于信息识别的模型训练方法,如图2所示,在一个实施例中,该方法可以包括以下几个步骤:
201:从训练用户的行为数据中,提取所述训练用户的关键特征,其中,所述关键特征由表示身份信息的特征数据组成。
训练用户的关键特征中的特征数据与检测用户的关键特征中特征数据类型相同,数值不同。
比如特征数据为身份等级关键词,则从不同用户的行为数据提取的身份等级关键词的具体内容不同。
其中,训练用户也可以是使用网络的网络用户,只是训练用户的身份信息已知,也即在进行有监督训练时,训练用户作为训练样本,已知身份信息即为训练样本的标签数据。训练用户的行为数据的获取与检测用户相同,在此不再赘述。
其中,训练用户包括正样本训练用户以及负样本训练用户,正样本的训练用户的身份信息为目标身份信息,而负样本训练用户的份信息为非目标身份信息。
202:根据所述训练用户的好友用户是否为目标身份信息的检测结果,获得所述训练用户的社交特征。
其中,所述训练用户的好友用户的身份信息的确定可以有多种可能实现方式,可以选择已知身份信息的好友用户来确定好友用户是否为目标身份信息,进而获得训练用户的社交特征。
当然,还可以根据训练用户的好友用户提供的身份信息,确定训练用户的好友用户是否为目标身份信息的。
还可以采用其他实现方式,在下面实施例中会详细进行介绍。
203:利用所述训练用户的用户特征,训练获得第一分类模型;
所述训练用户的用户特征包括所述训练用户的关键特征以及社交特征;所述第一分类模型用于根据检测用户的用户特征,识别所述检测用户的身份信息。
在本实施例中,不仅根据训练用户的行为数据,训练获得第一分类模型,还考虑训练用户的好友用户的身份信息,训练获得第二分类模型,第一分类模型用于对检测用户的身份信息进行识别,从而提高了模型准确度,进而可以提高进行信息识别的识别准确度。
图3为本申请实施例提供的一种信息识别方法一个实施例的流程图,该方法可以包括以下几个步骤:
301:从检测用户的行为数据中,提取所述检测用户关键特征。
本步骤与步骤101相同,在此不再赘述。
302:从所述检测用户具有好友关系的好友用户的行为数据中,提取所述好友用户的关键特征。
与检测用户具有好友关系的好友用户,基于检测用户的社交数据获得,好友用户的确定可以有多种方式,本申请并不此进行限制。
好友用户同样作为使用网络的网络用户,其行为数据的获取与检测用户相同,在此不再赘述。
其中,好友用户的关键特征与检测用户的关键特征的中特征数据的类型相同,数值不同。
303:根据所述好友用户的用户特征,利用第二分类模型获得所述好友用户是否为所述目标身份信息的检测结果。
其中,所述好友用户的用户特征至少包括所述好友用户的关键特征。
其中,第二分类模型也可以为有监督的模型,通过监督学习获得。可以选择逻辑归回模型(Logit model)、支持向量机(Support Vector Machine)等有监督的学习模型。
利用第二分类模型可以获取好友用户是否为目标身份信息的检测结果。
作为可能的实现方式,该检测结果可以是好友用户为目标身份信息的检测概率。
例如第二分类模型用于识别本科学历时,通过第二分类模型可以计算好友用户为本科学历的检测概率。
304:根据所述好友用户的检测结果,获得所述检测用户的社交特征。
所述检测用户的社交特征可以包括每一个好友用户的检测概率、好友用户的平均检测概率以及检测概率大于预设概率的好友用户个数等中的一个或多个或全部。
305:根据所述检测用户的用户特征利用第一分类模型获得所述检测用户是否为所述目标身份信息的检测结果。
其中,所述检测用户的用户特征至少包括所述检测用户的关键特征以及所述检测用户的社交特征。
在本实施例中,根据检测用户的行为数据实现了检测用户身份的识别,而不是根据检测用户提供的身份信息确定,提高了识别准确度和安全性,且不仅考虑了检测用户的关键特征,还综合考虑了检测用户的社交特征,也即好友用户是否为目标身份信息的检测结果,使得获得的检测用户的检测结果更加准确,保证了识别准确度。
作为一种可能的实现方式,训练用户的好友用户的用户特征即为好友用户的关键特征;
而训练用户的用户特征既包括训练用户的关键特征,同时还包括训练用户的社交特征;
因此,第二分类模型具体是预先根据从训练用户的行为数据中提取的所述训练用户的关键特征训练获得;
而第一分类模型具体是先根据所述训练用户的关键特征以及社交特征训练获得;
所述训练用户的社交特征根据所述训练用户的好友用户的检测结果获得;
所述好友用户的检测结果根据所述好友用户的关键特征利用所述第二分类模型获得。
因此,本申请实施例还提供了一种用于信息识别的模型方法又一个实施例,如图4所示,该方法可以包括以下几个步骤:
401:从训练用户的行为数据中,提取训练用户的关键特征。
402:从训练用户的好友用户的行为数据中,提取训练用户的好友用户的关键特征。
训练用户的好友用户也可以是使用网络的网络用户,其训练用户的好友用户的确定与检测用户的好友用户的确定方式相同,本申请并不对此进行限制,在一种特殊的实现方式中,好友用户也可以包含在训练样本中,只是身份信息未知。
同样,训练用户的好友用户的关键特征的提取与训练用户的关键特征的提取相同,在此不再赘述。
403:利用所述训练用户的关键特征,训练获得第二分类模型。
404:将所述训练用户的好友用户的关键特征,输入第二分类模型,获得所述训练用户的好友用户是否为目标身份信息的检测结果。
本实施例中,首先利用提取的训练用户的关键特征,训练获得第二分类模型。
由于第二分类模型是利用关键特征训练获得,因此可以利用第二分类模型,结合训练用户的好友用户的关键特征,可以对训练用户的好友用户的身份进行识别,获得检测结果。
该检测结果可以具体是训练用户的好友用户的为目标身份信息的检测概率,简称为训练用户的好友用户的检测概率。
405:根据所述训练用户的好友用户的检测结果,获得所述训练用户的社交特征。
在所述检测结果为所述好友用户为目标身份信息的检测概率时,所述训练用户的社交特征可以包括每一个好友用户的检测概率、好友用户的平均检测概率以及检测概率大于预设概率的好友用户个数等中的一个或多个或全部。
406:将所述训练用户的关键特征以及社交特征作为所述训练用户的用户特征,并利用所述训练用户的用户特征,训练获得第一分类模型。
根据步骤405获得的训练用户的社交特征,结合训练用户的关键特征,可以作为训练用户的用户特征,并可以继续利用训练用户的用户特征,训练获得第一分类模型。
第一分类模型即用于根据检测用户的用户特征,获得检测用户的检测结果,而检测用户的用户特征中的社交特征,则由第二分类模型根据检测用户的好友用户的关键特征获得好友用户的检查结果获得。
在本实施例中,不仅根据训练用户的行为数据,训练获得第一分类模型,还结合训练用户的好友用户的身份信息,训练获得第二分类模型,第一分类模型用于对检测用户的身份信息进行识别,从而提高了模型准确度,进而可以提高进行信息识别的识别准确度。
其中,在图4所述的实施例中,第一分类模型为在第二分类模型的基础上进行一次迭代训练获得。使得第一分类模型结合了训练用户的好友用户的身份信息训练获得,提高了模型准确度。
为了进一步提高模型准确度,进一步提高识别准确度,第一分类模型可以进行多次迭代训练获得,从而训练过程中可以获得多级迭代分类模型,第一分类模型即为最后一级迭代分类模型,假设进行N次迭代训练,则第一分类模型即为第N+1级迭代分类模型,第二分类模型即为第N级迭代分类模型。
具体的:
第1级迭代分类模型预先根据从训练用户的行为数据中提取的所述训练用户的关键特征训练获得;
第j+1级迭代分类模型预先根据所述训练用户的第j级用户特征训练获得;其中,j=1、2、3……N,N为大于等于1的整数;所述训练用户的第j级用户特征包括所述训练用户的关键特征以及第j级社交特征;所述训练用户的第j级社交特征根据所述训练用户的第1级迭代用户的第j级检测结果获得;所述训练用户的第1级迭代用户的第j级检测结果根据所述第1级迭代用户的第j-1级用户特征,利用第j级迭代分类模型获得。
而训练用户第1级迭代用户的第j-1级用户特征包括第1级迭代用户的关键特征以及第j-1级社交特征。而第1级迭代用户的第j-1级社交特征根据第2级迭代用户的第j-1级检测结果获得;而第2级迭代用户的第j-1级检测结果根据所述第2级迭代用户的第j-2级用户特征,利用第j-1级迭代分类模型获得。依次迭代进行。
在一个特殊情况下:当N等于1,j=1,第1级迭代用户即为所述训练用户的好友用户。则第2级迭代分类模型即为第一分类模型,其是预先根据训练用户第1级用户特征训练获得;而训练用户的第1级用户特征包括训练用户的关键特征以及第1级社交特征;而训练用户的第1级社交特征根据训练用户第1级迭代用户的第1级检测结果获得,而训练用户第1级检测结果根据第1级迭代用户的第0级用户特征,利用第1级迭代分类模型获得。第1级迭代用户的第0级用户特征即是第1级迭代用户的关键特征。
由上述描述可知,在N等于1时,即可以获得图2所示实施例的训练获得分类模型。第一分类模型进行一次迭代训练获得。
而当N大于1时,第一分类模型即进行至少两次迭代训练获得,使得获得的第一分类模型更加准确。
因此,如图5所示,本申请实施例提供的一种用于信息识别的模型训练方法又一个实施例的流程图,该方法可以包括以下几个步骤:
501:从训练用户的行为数据中,提取所述训练用户的关键特征。
502:从所述训练用户的每一级迭代用户的行为数据中,提取所述每一级迭代用户的关键特征。
其中,所述训练用户的好友用户为所述训练用户的第1级迭代用户;所述训练用户的第m级迭代用户分别与第m-1级迭代用户以及第m+1级迭代用户具有好友关系;m=1、2、…N,N为大于等于1的整数。
503:利用所述训练用户的关键特征,训练获得第1级迭代分类模型;
504:利用所述训练用户的第j级用户特征,训练获得第j+1级迭代分类模型。
其中,j=1、2……N;所述训练用户的第j级用户特征包括所述训练用户的关键特征以及第j级社交特征;所述训练用户的第j级社交特征根据所述训练用户的第1级迭代用户的第j级检测结果获得;所述训练用户的第1级迭代用户的第j级检测结果根据所述第1级迭代用户的第j-1级用户特征,利用第j级迭代分类模型获得;
当通过依次迭代训练,即可以获得第N+1级迭代分类模型。
其中,第N+1级迭代分类模型用于识别检测用户的身份信息,第j级迭代分类模型用于识别所述检测用户的第N-j+1级迭代用户的身份信息。
通过本实施例,可以经过多次迭代训练获得第N+1级迭代分类模型,作为第一分类模型,用于对检测用户的身份信息进行识别,获得检测用户的检测结果,使得模型训练更加准确。
其中迭代训练次数N可以根据实际情况进行设定。
为了方便理解第j+1级迭代分类模型的迭代训练过程,下面依次对每一次迭代训练过程进行介绍。
从训练用户的行为数据中,提取所述训练用户的表示身份信息的用户特征;从所述训练用户的每一级迭代用户的行为数据中,提取所述每一级迭代用户的关键特征;
利用所述训练用户的关键特征,训练获得第1级迭代分类模型;
第1次迭代训练:
将所述第1级迭代用户的关键特征输入所述第1级迭代分类模型,计算所述第1级迭代用户为所述目标身份信息的第1级检测结果;
根据所述第1级迭代用户的第1级检测结果,获得所述训练用户的第1级社交特征;
利用所述训练用户的第1级用户特征,训练获得第2级迭代分类模型;其中训练用户的第1级用户特征包括训练用户的关键特征以及第1级社交特征。
第2次迭代训练:
将第2级迭代用户关键特征,输入第1级迭代分类模型,计算第2级迭代用户的第1级检测结果;
根据第2级迭代用户的第1级检测结果,获取所述第1级迭代用户的第1级社交特征;
将所述第1级迭代用户的第1级用户特征输入第2级迭代模型,计算获得所述第1级迭代用户的第2级检测结果;其中第1级迭代用户的第1级用户特征包括第1级迭代用户的关键特征以及第1级社交特征;
利用所述第1级迭代用户的第2级检测结果,计算获得训练用户的第2级社交特征;
利用所述训练用户的第2级用户特征训练获得第3级迭代分类模型;训练用户的第2级用户特征包括训练用户的关键特征以及第2级社交特征,
第3次迭代训练:
将第3级迭代用户关键特征,输入第1级迭代分类模型,计算获得第3级迭代用户的第1级检测结果;
根据第3级迭代用户的第1级检测结果,获得第2级迭代用户的第1级社交特征;
将所述第2级迭代用户的第1级用户特征输入第2级迭代模型,计算获得第2级迭代用户的第2级检测结果;第2级迭代用户的第1级用户特征包括第2级迭代用户的关键特征以及第1级社交特征;
根据所述第2级迭代用户的第2级检测结果,获得第1级迭代用户的第2级社交特征;
将所述第1级迭代用户的第2级用户特征输入第3级迭代模型,计算获得第1级迭代用户的第3级检测结果;第1级迭代用户的第2级用户特征包括第1级迭代用户的关键特征以及第2级社交特征;
利用所述第1级迭代用户的第3级检测结果,获得训练用户的第3级社交特征;
利用所述训练用户的第3级用户特征,训练获得第4级迭代分类模型;训练用户第3级用户特征包括设训练用户的关键特征以及第3级社交特征;
以此类推,第N次迭代训练为:
将所述N级迭代用户的关键特征,输入第1级迭代分类模型,计算获得第N级迭代用户的第1级检测结果;
根据N级迭代用户的第1级检测结果,获得第N-1级迭代用户的第1级社交特征;
对于第N-i级迭代用户,将第N-i级迭代用户第i级用户特征输入第i+1级迭代分类模型,计算获得第N-i级迭代用户的第i+1级检测结果;i=1、2、3……N-2;第N-i级迭代用户第i级用户特征包括第N-i级迭代用户的关键特征以及第i级社交特征;
根据所述第N-i级迭代用户的第i+1级检测结果,获得第N-i-1级迭代用户的第i+1级社交特征;
从而即可以获得i=N-2时,第1级迭代用户的N-1级社交特征;
将获得的第1级迭代用户的第N-1级用户特征输入第N级迭代模型,计算获得所述第1级迭代用户的第N级检测结果;第1级迭代用户的第N-1级用户特征包括第1级迭代用户的的关键特征以及第N-1级社交特征;
利用所述第1级迭代好友的第N级检测结果,计算获得训练用户的第N级社交特征;
利用所述训练用户的第N级社交特征以及所述训练用户的关键特征,训练获得第N+1级迭代分类模型;
第N+1级迭代模型即为第一分类模型,用于识别检测用户的身份信息,以获得检测用户的检测结果。
综上描述,本申请实施例中,所述利用所述训练用户的第j级用户特征,训练获得第j+1级迭代分类模型可以包括:
按照如下迭代训练方式进行训练,获得第j+1级迭代分类模型,其中,j=1、2、3……N:
将训练用户的第j级迭代用户的关键特征,输入第1级迭代分类模型,计算获得第j级迭代用户的第1级检测结果;
根据所述训练用户第j级迭代用户的第1级检测结果,获得第j-1级迭代用户的第1级社交特征;
对于所述训练用户第j-i级迭代用户,将第j-i级迭代用户的第i级用户特征输入第i+1级迭代分类模型,计算获得第j-i级迭代用户的第i+1级检测结果;i=1、2、3……N-2;所述第i级用户特征包括关键特征以及第i级社交特征;
根据所述第j-i级迭代用户的第i+1级检测结果,获得第j-i-1级迭代用户的第i+1级社交特征;
将获得的第1级迭代用户的第j-1级用户特征输入第j级迭代模型,计算获得所述第1级迭代用户的第j级检测结果;所述第1级迭代用户的第j-1级用户特征包括第1级迭代用户的关键特征以及第j-1级社交特征;
利用所述第1级迭代好友的第j级检测结果,计算获得训练用户的第j级社交特征;
利用所述训练用户的第j级用户特征,训练获得第j+1级迭代分类模型;所述训练用户的第j级用户特征包括所述训练用户的关键特征及第j级社交特征。
j取值到N时,即可以获得第N+1级迭代分类模型。
其中,第N+1级迭代分类模型用于计算检测用户的检测结果,第j级迭代分类模型用于计算所述检测用户的第N-j+1级迭代用户的检测结果。
基于图5所示的实施例训练获得的模型,如图6所示,为本申请实施例一种信息识别方法又一个实施例的流程图,该方法可以包括以下几个步骤:
601:从检测用户的行为数据中,提取所述检测用户的表示身份信息的关键特征。
602:从所述检测用户的每一级迭代用户的行为数据中,提取每一级迭代用户的关键特征。
其中,所述检测用户的好友用户为所述检测用户的第1级迭代用户;所述检测用户的第m级迭代用户分别与第m-1级迭代用户以及第m+1级迭代用户具有好友关系;m=1、2、…N,N为大于等于1的整数;
603:根据所述检测用户的第i+1级迭代用户的用户特征,利用第N-i级迭代分类模型,计算获得第i+1级迭代用户的检测结果。
其中,所述检测用户的第i+1级迭代用户的用户特征包括第i+1级迭代用户的关键特征以及社交特征;其中,第N级迭代用户的检测结果根据第N级迭代好友的关键特征利用第1级迭代分类模型计算获得;第N-1级迭代用户的社交特征根据第N级迭代用户的检测结果获得。
604:根据所述第i+1级迭代用户的检测结果,获得第i级迭代用户的社交特征。
i=1、2…N-2;
由于第N级迭代用户的检测结果根据第N级迭代好友的关键特征利用第1级迭代分类模型计算获得;第N-1级迭代用户的社交特征根据第N级迭代用户的检测结果获得;
i从N-2开始,直至取值为1,依据步骤303以及步骤304,从而即可以获得检测用户的第1级迭代用户的社交特征。
其中,检测用户的第1级迭代用户即为检测用户的好友用户。
而每一级迭代分类模型可以按照图3所示实施例中的技术方案训练获得。
第j级迭代分类模型用于计算所述检测用户的第N-j+1级迭代用户的检测结果。
第N+1级迭代分类模型用于识别训练用户的身份信息;第N级迭代分类模型用户识别第1级迭代用户的身份信息。
第N级迭代分类模型即为所述第二分类模型;第N+1级迭代分类模型即为所述第一分类模型。
604:根据所述好友用户的用户特征,利用第二分类模型获得所述好友用户是否为所述目标身份信息的检测结果。
所述好友用户即为检测用户的第1级迭代用户。
其中,所述好友用户的用户特征即包括所述好友用户的关键特征以及经由上述步骤404获得的社交特征。
605:根据所述好友用户的检测结果,获得所述检测用户的社交特征。
606:根据所述检测用户的用户特征,利用第一分类模型获得所述检测用户是否为目标身份信息的检测结果。
其中,所述检测用户的用户特征包括所述检测用户的关键特征以及所述检测用户的社交特征。
通过本实施例,进一步提高了识别准确度。
在一个实际应用中,本申请实施例的技术方案可以用于对用户的学历信息进行识别。
以该实际应用中为例,训练用户的身份信息已知,训练用户的身份信息可以从国家公开的数据中获取。
关键特征中特征数据类型可以包括:学历等级关键词、不同学历等级关键词出现次数以及所述学历等级关键词出现次数的归一化次数。
还可以包括:学校名称关键词、学校等级、不同学校等级出现次数等。
其中,学历等级关键词可以根据需要识别的学历信息确定,比如,学历等级由于可以分为“专科、本科、硕博,”
由于每一个学历等级均有一些有代表性的关键词,譬如“专科、中专、职校、卫校、技校、技师、技工、职业中等专业”等均可以表示专科学历,因此可以作为专科学历对应学历等级关键词,“而硕士、博士、研究生、教授、博士后、研究院、科研、中科院”等均可以表示硕博学历,因此可以作为硕博学历对应的学历等级关键词。而“本科、学士、一本、二本、三本”等均可以本科学历,因此均可以作为本科学历的学历等级关键词,
而从国家公开的数据中可以获取现有的国家标准化后的学校名称列表,由于部分学校进行了改名和合并,可以对学校曾用名称和现有名称进行一一对应。
学校名称列表中还包括对应学校等级,譬如该学校是否是“985”还是“211”,是否是“本科学校”或者“专科学校”等,是否有研究生授予资格等。
在用户学历信息识别时,可以将已知学历信息的用户作为训练用户,来训练分类模型。
首先从训练用户的行为数据中提取关键特征。其中,以训练用户为进行网上交易的用户,根据训练用户的用户账户,即可以从网络服务器中获取训练用户的行为数据,这些行为数据可以包括购物数据、好友标注信息以及收货信息等。好友标注信息也即是训练用户的好友用户提供的有关训练用户的相关信息,可能包括对训练用户的身份信息的标注等。
购物数据可以包括购买商品名称等。收货信息可以包括检测用户登记的收货地址等。
则关键特征可以包括至少从以下购物数据、好友标注信息以及收货信息中提取的特征数据:
(1)好友标注信息:
从好友标注信息中,提取被好友用户标注的不同学历关键词、以及不同学历关键词的出现次数等,比如对于本科学历,学历关键词可以包括“本科、学士、一本、二本、三本”等。
根据学历关键词出现次数,还可以按照学历等级进行汇总获得:每一个学历等级的学历关键词出现次数、每一个学历等级的学历关键词出现次数的归一化次次数以及每一个学历等级的学历关键词的平均出现次数。
其中,每一个学历等级的学历关键词的平均出现次数可以是将每一个学历等级的学历关键词出现次数除以标注该学历等级的学历关键词的好友用户个数计算获得。
每一个学历等级的学历关键词次数的归一化次次数可以是将每一个学历等级的学历关键词出现次数除以不同学历等级的学历关键词总出现次数。
则不同学历关键词的出现次数、每一个学历等级的学历关键词出现次数的归一化次次数以及每一个学历等级的学历关键词的平均出现次数均可以作为关键特征的特征数据。
(2)收货信息:
通过提取收货信息中的收货地址的文本信息,可以统计收货地址中是否出现上述学校名称列表中的学校名称,如果是,对该条收货信息标记为1,否则标记为0。
从而可以统计使用不同学校名称的使用次数、以及学校名称对应的学校等级,以及不同学校等级的命中次数、以及学校等级命中次数的归一化次数。
学校等级、学校等级命中次数以及学校命中次数的归一化次数均可以作为关键特征的特征数据。
(3)购物数据:
根据购买商品的名称,可以统计购买商品对应学历等级,以及学历等级出现次数等。
例如购买商品为书籍,而不同书籍名称适用于不同学历的用户因此可以确定学历等级;例如考研类书籍,即对应的学历等级为“本科”等。
因此,不同学历等级出现次数及其归一化次数,均可以作为关键特征的特征数据。
需要说明的是,上述只是举例说明从行为数据中提取关键特征的可能实现方式,本申请实施例并不仅限定与上述行为数据类型以及上述关键特征的特征数据类型。
对于检测用户、检测用户的每一级迭代用户以及训练用户的每一级迭代用户,提取关键特征的方式与训练用户相同,不再赘述。需要说明的是,需要保证不同用户提取的关键特征的特征数据类型相同。
提取获得训练用户的关键特征之后,即可以进行模型训练,通过训练获得模型即可以用于对检测用户进行学历信息识别。模型训练以及模型识别的过程可以参见上文描述,在此不再一一赘述。
在实际应用中,如图7所示,训练用户、检测用户以及迭代用户可以是通过用户账户登录网络服务器701的用户,用户可以通过各种客户端登录至网络服务器701,网络服务器即可以获得各个用户的行为数据,在网络服务器701为电商服务器时,行为数据可以包括购物数据、好友标注信息以及收货信息,从而可以从中提取特征数据,用于训练或检测。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
图8为本申请实施例提供的一种处理设备一个实施例的结构示意图,该处理设备在一个实际应用中可以为网络服务器,该设备可以包括存储器801以及处理器802,,存储器801与处理器802通过总线连接。
其中,存储器801存储一组或多组程序指令;
所述处理器802调用并执行所述存储器801存储的一组或多组程序指令,执行如下操作:
从检测用户的行为数据中提取所述检测用户的关键特征;其中,所述关键特征由表示身份信息的特征数据组成;
根据所述检测用户的好友用户是否为目标身份信息的检测结果,获得所述检测用户的社交特征;
根据所述检测用户的用户特征,利用第一分类模型获得所述检测用户是否为所述目标身份信息的检测结果;其中,所述检测用户的用户特征至少包括所述检测用户的关键特征和所述检测用户的社交特征;所述第一分类模型预先根据训练用户的用户特征训练获得。
存储器801被配置为存储各种类型的数据以支持在通信服务器的操作。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
其中,所述处理器802包括一个或多个,可以中央处理器CPU,或者一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现。
其中,作为又一个实施例,所述处理器802还可以用于:
从所述检测用户的好友用户的行为数据中提取所述好友用户的关键特征;其中,所述关键特征由表示身份信息的特征数据组成;
根据所述检测用户的好友用户的用户特征,利用第二分类模型获得所述检测用户的好友用户是否为所述目标身份信息的检测结果;其中,所述好友用户的用户特征包括所述好友用户的关键特征。
作为一种可能的实现方式,所述第二分类模型预先根据从训练用户的行为数据中提取的所述训练用户的关键特征训练获得;
所述第一分类模型预先根据所述训练用户的关键特征以及社交特征训练获得;
所述训练用户的社交特征根据所述训练用户的好友用户的检测结果获得;
所述好友用户的检测结果根据所述好友用户的关键特征利用所述第二分类模型获得。
其中,作为又一个实施例,所述检测用户的好友用户的用户特征还包括所述检测用户的好友用户的社交特征;
所述处理器802从所述检测用户的好友用户的行为数据中,提取所述检测用户的好友用户的关键特征可以是:
从所述检测用户的每一级迭代用户的行为数据中提取每一级迭代用户的关键特征;其中,所述检测用户的好友用户为所述检测用户的第1级迭代用户;所述检测用户的第m级迭代用户分别与第m-1级迭代用户以及第m+1级迭代用户具有好友关系;m=1、2、…N,N为迭代训练次数且为大于等于1的整数;所述第二分类模型为第N级迭代分类模型;所述第一分类模型为第N+1级迭代分类模型;
其中,第i级迭代用户的社交特征根据第i+1级迭代用户的检测结果获得,i=1、2…N-2;所述第i+1级迭代用户的检测结果按照如下方式获得:
根据所述检测用户的第i+1级迭代用户的用户特征,利用第N-i级迭代分类模型,计算获得第i+1级迭代用户的检测结果;所述检测用户的第i+1级迭代用户的用户特征包括第i+1级迭代用户的关键特征以及社交特征;其中,第N级迭代用户的检测结果根据第N级迭代好友的关键特征利用第1级迭代分类模型计算获得;第N-1级迭代用户的社交特征根据第N级迭代用户的检测结果获得;
所述第1级迭代分类模型预先根据从训练用户的行为数据中提取的所述训练用户的关键特征训练获得;所述第j+1级迭代分类模型基于所述第1级迭代分类模型进行迭代训练获得。
其中,所述第j+1级迭代分类模型按照如下迭代训练方式预先训练获得,其中,j=1、2、3……N;
将训练用户的第j级迭代用户的关键特征,输入第1级迭代分类模型,计算获得第j级迭代用户的第1级检测结果;
根据所述训练用户第j级迭代用户的第1级检测结果,获得第j-1级迭代用户的第1级社交特征;
对于所述训练用户第j-i级迭代用户,将第j-i级迭代用户的第i级用户特征输入第i+1级迭代分类模型,计算获得第j-i级迭代用户的第i+1级检测结果;i=1、2、3……N-2;所述第i级用户特征包括关键特征以及第i级社交特征;
根据所述第j-i级迭代用户的第i+1级检测结果,获得第j-i-1级迭代用户的第i+1级社交特征;
将获得的第1级迭代用户的第j-1级用户特征输入第j级迭代模型,计算获得所述第1级迭代用户的第j级检测结果;所述第j-1级用户特征包括关键特征以及第j-1级社交特征;
利用所述第1级迭代好友的第j级检测结果,计算获得训练用户的第j级社交特征;
利用所述训练用户的第j级用户特征,训练获得第j+1级迭代分类模型;所述训练用户的第j级用户特征包括所述训练用户的关键特征及第j级社交特征。
作为又一个实施例,所述好友用户的检测结果为所述好友用户为所述目标身份信息的检测概率;
所述处理器802根据所述好友用户的检测结果,获得所述检测用户的社交特征可以具体是
根据每一个好友用户的检测概率计算平均检测概率,将所述平均检测概率作为所述检测用户的社交特征。
作为又一个实施例,所述目标身份信息为目标学历信息时
所述处理器802从检测用户的行为数据中,提取所述检测用户的表示身份信息的关键特征可以是:
从检测用户的行为数据中,提取至少由学历等级关键词、不同学历等级关键词出现次数以及所述学历等级关键词出现次数的归一化次数构成的关键特征。
图9为本申请实施例提供的一种用于模型训练的处理设备又一个实施例的结构实施例,其中,该设备与图8所示处理设备可以为同一个设备,当然也可以是不同的设备。
该处理设备包括存储器901以及处理器902,,存储器901与处理器902通过总线连接。
其中,存储器901存储一组或多组程序指令;
所述处理器902调用并执行所述存储器901存储的一组或多组程序指令,执行如下操作:
从训练用户的行为数据中,提取所述训练用户的关键特征,其中,所述关键特征由表示身份信息的特征数据组成;
根据所述训练用户的好友用户是否为目标身份信息的检测结果,获得所述训练用户的社交特征;
利用所述训练用户的用户特征,训练获得第一分类模型;所述训练用户的用户特征包括所述训练用户的关键特征以及社交特征;所述第一分类模型用于根据检测用户的用户特征,识别所述检测用户的身份信息。
存储器901被配置为存储各种类型的数据以支持在通信服务器的操作。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
其中,所述处理器902包括一个或多个,可以中央处理器CPU,或者一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现。
作为又一个实施例,所述处理器902还可以用于:
从训练用户的好友用户的行为数据中,提取训练用户的好友用户的关键特征;
利用所述训练用户的关键特征,训练获得第二分类模型;
将所述训练用户的好友用户的关键特征,输入第二分类模型,获得所述训练用户的好友用户是否为目标身份信息的检测结果。
作为又一个实施例,所述处理器902还可以用于从所述训练用户的每一级迭代用户的行为数据中,提取所述每一级迭代用户的关键特征;其中,所述训练用户的好友用户为所述训练用户的第1级迭代用户;所述训练用户的第m级迭代用户分别与第m-1级迭代用户以及第m+1级迭代用户具有好友关系;m=1、2、…N,N为大于等于1的整数;
此时,所述处理器902利用所述训练用户的用户特征,训练获得第一分类模型可以是:
利用所述训练用户的关键特征,训练获得第1级迭代分类模型;
利用所述训练用户的第j级用户特征,训练获得第j+1级迭代分类模型;其中,j=1、2……N;所述训练用户的第j级用户特征包括所述训练用户的关键特征以及第j级社交特征;所述训练用户的第j级社交特征根据所述训练用户的第1级迭代用户的第j级检测结果获得;所述训练用户的第1级迭代用户的第j级检测结果根据所述第1级迭代用户的第j-1级用户特征,利用第j级迭代分类模型获得;
其中,第N+1级迭代分类模型为所述第一分类模型,用于识别检测用户的身份信息,第j级迭代分类模型用于识别所述检测用户的第N-j+1级迭代用户的身份信息。
其中,所述处理器902利用所述训练用户的第j级用户特征,训练获得第j+1级迭代分类模型可以具体是:
按照如下迭代训练方式进行训练,获得第j+1级迭代分类模型,其中,j=1、2、3……N:
将训练用户的第j级迭代用户的关键特征,输入第1级迭代分类模型,计算获得第j级迭代用户的第1级检测结果;
根据所述训练用户的第j级迭代用户的第1级检测结果,获得所述训练用户的第j-1级迭代用户的第1级社交特征;
对于所述训练用户的第j-i级迭代用户,将所述训练用户的第j-i级迭代用户的第i级用户特征输入第i+1级迭代分类模型,计算获得所述训练用户的第j-i级迭代用户的第i+1级检测结果;i=1、2、3……N-2;所述第j-i级迭代用户的第i级用户特征包括所述第j-i级迭代用户的关键特征以及第i级社交特征;
根据所述训练用户的第j-i级迭代用户的第i+1级检测结果,获得所述训练用户的第j-i-1级迭代用户的第i+1级社交特征;
将获得的第1级迭代用户的第j-1级用户特征输入第j级迭代模型,计算获得所述第1级迭代用户的第j级检测结果;所述第j-1级用户特征包括关键特征以及第j-1级社交特征;
利用所述第1级迭代好友的第j级检测结果,计算获得训练用户的第j级社交特征;
利用所述训练用户的第j级用户特征,训练获得第j+1级迭代分类模型;所述训练用户的第j级用户特征包括所述训练用户的关键特征及第j级社交特征。
图10为本申请实施例提供的一种信息识别装置一个实施例的结构示意图,该装置在实际应用中,可以配置在如图8所示的处理设备中,该装置可以包括:
第一特征提取模块1001,从检测用户的行为数据中提取所述检测用户的关键特征;其中,所述关键特征由表示身份信息的特征数据组成;
第二特征提取模块1002,根据所述检测用户的好友用户是否为目标身份信息的检测结果,获得所述检测用户的社交特征;
所述好友用户的检测结果可以具体为所述好友用户为所述目标身份信息的检测概率;则所述第二特征提取模块1002可以具体用于:
根据每一个好友用户的检测概率计算平均检测概率,将所述平均检测概率作为所述检测用户的社交特征。
当然,所述社交特征还可以包括每一个好友用户的检测概率和/或检测概率大于预设概率的好友用户个数等。
第一检测模块1003,根据所述检测用户的用户特征,利用第一分类模型获得所述检测用户是否为所述目标身份信息的检测结果;其中,所述检测用户的用户特征至少包括所述检测用户的关键特征和所述检测用户的社交特征;所述第一分类模型预先根据训练用户的用户特征训练获得。
图11为本申请实施例提供的一种信息识别装置又一个实施例的结构示意图,与图10所示实施例不同之处,该装置还可以包括:
第三特征提取模块1004,从所述检测用户的好友用户的行为数据中提取所述好友用户的关键特征;其中,所述关键特征由表示身份信息的特征数据组成;
第二检测模块1005,根据所述检测用户的好友用户的用户特征,利用第二分类模型获得所述检测用户的好友用户是否为所述目标身份信息的检测结果;其中,所述好友用户的用户特征包括所述好友用户的关键特征。
所述第一分类模型预先根据训练用户的用户特征训练获得。
作为一种可能的实现方式,检测用户的好友用户的用户特征即为好友用户的关键特征;
而检测用户的用户特征既包括检测用户的关键特征,同时还包括检测用户的社交特征;
因此,第二分类模型具体是预先根据从训练用户的行为数据中提取的所述训练用户的关键特征训练获得;
而第一分类模型具体是先根据所述训练用户的关键特征以及社交特征训练获得;
所述训练用户的社交特征根据所述训练用户的好友用户的检测结果获得;
所述好友用户的检测结果根据所述好友用户的关键特征利用所述第二分类模型获得。
上述可能实现方式中,第一分类模型为在第二分类模型的基础上进行一次迭代训练获得。使得第一分类模型的训练考虑了训练用户的好友用户的身份信息,提高了模型准确度。
为了进一步提高模型准确度,进一步提高识别准确度,第一分类模型可以进行多次迭代训练获得,从而训练过程中可以获得多级迭代分类模型,第一分类模型即为最后一级迭代分类模型,假设进行N次迭代训练,则第一分类模型即为第N+1级迭代分类模型,第二分类模型即为第N级迭代分类模型。
因此,作为又一种可能的实现方式:
第1级迭代分类模型预先根据从训练用户的行为数据中提取的所述训练用户的关键特征训练获得;第j+1级迭代分类模型基于所述第1级迭代分类模型进行迭代训练获得。
因此,如图12所示,为本申请实施例提供的一种信息识别装置一个实施例的结构示意图,与图11所示不同之处在于,所述检测用户的好友用户的用户特征还包括所述检测用户的好友用户的社交特征;
所述第一特征提取模块1004从所述检测用户的好友用户的行为数据中,提取所述好友用户的关键特征具体是:
从所述检测用户的每一级迭代用户的行为数据中,提取每一级迭代用户的关键特征;其中,所述检测用户的好友用户为所述检测用户的第1级迭代用户;所述检测用户的第m级迭代用户分别与第m-1级迭代用户以及第m+1级迭代用户具有好友关系;m=1、2、…N,N为迭代训练次数且为大于等于1的整数;所述第二分类模型为第N级迭代分类模型;所述第一分类模型为第N+1级迭代分类模型;
所述装置还包括:
第三检测模块1006,根据所述检测用户的第N级迭代用户的关键特征,利用第1级迭代分类模型获得所述第N级迭代用户的检测结果;根据所述检测用户的第i+1级迭代用户的用户特征,利用第N-i级迭代分类模型,获得第i+1级迭代用户的检测结果;所述检测用户的第i+1级迭代用户的用户特征包括第i+1级迭代用户的关键特征以及社交特征;i=1、2…N-2;
第四特征提取模块707,根据所述检测用户的第i+1级迭代用户的检测结果,获得所述检测用户的第i级迭代用户的社交特征;根据第N级迭代用户的检测结果,获得第N-1级迭代用户的社交特征。
通过本实施例,进一步提高了识别准确度。
图13为本申请实施例提供的一种用于信息识别的模型训练装置一个实施例的结构示意图,该装置在实际应用中可以配置在如图9所示的设备中,该装置可以包括:
第五特征提取模块1301,从训练用户的行为数据中,提取所述训练用户的关键特征,其中,所述关键特征由表示身份信息的特征数据组成;
第六特征提取模块1302,用于根据所述训练用户的好友用户是否为目标身份信息的检测结果,获得所述训练用户的社交特征;
第一训练模块1302,用于利用所述训练用户的用户特征,训练获得第一分类模型;所述训练用户的用户特征包括所述训练用户的关键特征以及社交特征;所述第一分类模型用于根据检测用户的用户特征,识别所述检测用户的身份信息。
其中,作为又一个实施例,与图10所示实施例不同之处,该装置还可以包括:
第七特征提取模块,从训练用户的好友用户的行为数据中,提取训练用户的好友用户的关键特征;
第二训练模块,利用所述训练用户的关键特征,训练获得第二分类模型;
第三检测模块,将所述训练用户的好友用户的关键特征,输入第二分类模型,获得所述训练用户的好友用户是否为目标身份信息的检测结果。
作为又一个实施例,与图10所示实施例不同之处,该装置还可以包括:
第八特征提取模块,用于从所述训练用户的每一级迭代用户的行为数据中,提取所述每一级迭代用户的关键特征;其中,所述训练用户的好友用户为所述训练用户的第1级迭代用户;所述训练用户的第m级迭代用户分别与第m-1级迭代用户以及第m+1级迭代用户具有好友关系;m=1、2、…N,N为大于等于1的整数;
所述第一训练模块具体是
利用所述训练用户的关键特征,训练获得第1级迭代分类模型;
利用所述训练用户的第j级用户特征,训练获得第j+1级迭代分类模型;其中,j=1、2……N,N为迭代训练次数;所述训练用户的第j级用户特征包括所述训练用户的关键特征以及第j级社交特征;所述训练用户的第j级社交特征根据所述训练用户的第1级迭代用户的第j级检测结果获得;所述训练用户的第1级迭代用户的第j级检测结果根据所述第1级迭代用户的第j-1级用户特征,利用第j级迭代分类模型获得;
其中,第N+1级迭代分类模型用于识别检测用户的身份信息,第j级迭代分类模型用于识别所述检测用户的第N-j+1级迭代用户的身份信息。
其中,所述第一训练模块可以具体用于
按照如下迭代训练方式进行训练,获得第j+1级迭代分类模型,其中,j=1、2、3……N:
将训练用户的第j级迭代用户的关键特征,输入第1级迭代分类模型,计算获得第j级迭代用户的第1级检测结果;
根据所述训练用户的第j级迭代用户的第1级检测结果,获得所述训练用户的第j-1级迭代用户的第1级社交特征;
对于所述训练用户的第j-i级迭代用户,将所述训练用户的第j-i级迭代用户的第i级用户特征输入第i+1级迭代分类模型,计算获得所述训练用户的第j-i级迭代用户的第i+1级检测结果;i=1、2、3……N-2;所述第j-i级迭代用户的第i级用户特征包括所述第j-i级迭代用户的关键特征以及第i级社交特征;
根据所述训练用户的第j-i级迭代用户的第i+1级检测结果,获得所述训练用户的第j-i-1级迭代用户的第i+1级社交特征;
将获得的第1级迭代用户的第j-1级用户特征输入第j级迭代模型,计算获得所述第1级迭代用户的第j级检测结果;所述第j-1级用户特征包括关键特征以及第j-1级社交特征;
利用所述第1级迭代好友的第j级检测结果,计算获得训练用户的第j级社交特征;
利用所述训练用户的第j级用户特征,训练获得第j+1级迭代分类模型;所述训练用户的第j级用户特征包括所述训练用户的关键特征及第j级社交特征。
其中,第N+1级迭代分类模型用于计算检测用户的检测结果,第j级迭代分类模型用于计算所述检测用户的第N-j+1级迭代用户的检测结果。
通过本实施例,可以经过多次迭代训练获得第N+1级迭代分类模型,作为第一分类模型,用于对检测用户的身份信息进行识别,获得检测用户的检测结果,使得模型训练更加准确。
其中迭代训练次数N可以根据实际情况进行设定。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (28)

1.一种信息识别方法,其特征在于,包括:
从检测用户的行为数据中提取所述检测用户的关键特征;其中,所述关键特征由表示身份信息的特征数据组成,所述关键特征至少包括:学历等级关键词;
根据所述检测用户的好友用户是否为目标身份信息的检测结果,获得所述检测用户的社交特征,所述好友用户的检测结果利用第二分类模型获得;
根据所述检测用户的用户特征,利用第一分类模型获得所述检测用户是否为所述目标身份信息的检测结果;其中,所述检测用户的用户特征至少包括所述检测用户的关键特征和所述检测用户的社交特征;所述第一分类模型预先根据训练用户的用户特征训练获得,其中,所述检测用户的好友用户为所述检测用户的第1级迭代用户;所述检测用户的第m级迭代用户分别与第m-1级迭代用户以及第m+1级迭代用户具有好友关系;m=1、2、…N,N为迭代训练次数且为大于等于1的整数;所述第二分类模型为第N级迭代分类模型;所述第一分类模型为第N+1级迭代分类模型;第j+1级迭代分类模型基于训练用户的第j级用户特征训练得到,训练用户的第j级用户特征包括所述训练用户的关键特征及第j级社交特征,其中,根据第j级迭代分类模型确定所述训练用户的第1级迭代用户的第j级检测结果,以确定所述训练用户的第j级社交特征,j=1、2、3……N。
2.根据权利要求1所述的方法,其特征在于,所述根据所述检测用户的好友用户是否为所述目标身份信息的检测结果,获得所述检测用户的社交特征之前,所述方法还包括:
从所述检测用户的好友用户的行为数据中提取所述好友用户的关键特征;其中,所述关键特征由表示身份信息的特征数据组成;
根据所述检测用户的好友用户的用户特征,利用第二分类模型获得所述检测用户的好友用户是否为所述目标身份信息的检测结果;其中,所述好友用户的用户特征包括所述好友用户的关键特征。
3.根据权利要求2所述的方法,其特征在于,所述第二分类模型预先根据从训练用户的行为数据中提取的所述训练用户的关键特征训练获得;
所述第一分类模型预先根据所述训练用户的关键特征以及社交特征训练获得;
所述训练用户的社交特征根据所述训练用户的好友用户的检测结果获得;
所述好友用户的检测结果根据所述好友用户的关键特征利用所述第二分类模型获得。
4.根据权利要求2所述的方法,其特征在于,所述检测用户的好友用户的用户特征还包括所述检测用户的好友用户的社交特征;
所述从所述检测用户的好友用户的行为数据中,提取所述检测用户的好友用户的关键特征包括:
从所述检测用户的每一级迭代用户的行为数据中提取每一级迭代用户的关键特征;其中,所述检测用户的好友用户为所述检测用户的第1级迭代用户;所述检测用户的第m级迭代用户分别与第m-1级迭代用户以及第m+1级迭代用户具有好友关系;m=1、2、…N,N为迭代训练次数且为大于等于1的整数;所述第二分类模型为第N级迭代分类模型;所述第一分类模型为第N+1级迭代分类模型;
其中,第i级迭代用户的社交特征根据第i+1级迭代用户的检测结果获得,i=1、2…N-2;所述第i+1级迭代用户的检测结果按照如下方式获得:
根据所述检测用户的第i+1级迭代用户的用户特征,利用第N-i级迭代分类模型,计算获得第i+1级迭代用户的检测结果;所述检测用户的第i+1级迭代用户的用户特征包括第i+1级迭代用户的关键特征以及社交特征;其中,第N级迭代用户的检测结果根据第N级迭代好友的关键特征利用第1级迭代分类模型计算获得;第N-1级迭代用户的社交特征根据第N级迭代用户的检测结果获得;
所述第1级迭代分类模型预先根据从训练用户的行为数据中提取的所述训练用户的关键特征训练获得;所述第j+1级迭代分类模型基于所述第1级迭代分类模型进行迭代训练获得。
5.根据权利要求 4所述的方法,其特征在于,所述第j+1级迭代分类模型按照如下迭代训练方式预先训练获得,其中,j=1、2、3……N;
将训练用户的第j级迭代用户的关键特征,输入第1级迭代分类模型,计算获得第j级迭代用户的第1级检测结果;
根据所述训练用户第j级迭代用户的第1级检测结果,获得第j-1级迭代用户的第1级社交特征;
对于所述训练用户第j-i级迭代用户,将第j-i级迭代用户的第i级用户特征输入第i+1级迭代分类模型,计算获得第j-i级迭代用户的第i+1级检测结果;i=1、2、3……N-2;所述第i级用户特征包括关键特征以及第i级社交特征;
根据所述第j-i级迭代用户的第i+1级检测结果,获得第j-i-1级迭代用户的第i+1级社交特征;
将获得的第1级迭代用户的第j-1级用户特征输入第j级迭代模型,计算获得所述第1级迭代用户的第j级检测结果;所述第j-1级用户特征包括关键特征以及第j-1级社交特征;
利用所述第1级迭代好友的第j级检测结果,计算获得训练用户的第j级社交特征;
利用所述训练用户的第j级用户特征,训练获得第j+1级迭代分类模型;所述训练用户的第j级用户特征包括所述训练用户的关键特征及第j级社交特征。
6.根据权利要求2所述的方法,其特征在于,所述好友用户的检测结果为所述好友用户为所述目标身份信息的检测概率;
所述根据所述好友用户的检测结果,获得所述检测用户的社交特征包括:
根据每一个好友用户的检测概率计算平均检测概率,将所述平均检测概率作为所述检测用户的社交特征。
7.根据权利要求1所述的方法,其特征在于,所述目标身份信息为目标学历信息;
所述从检测用户的行为数据中,提取所述检测用户的表示身份信息的关键特征包括:
从检测用户的行为数据中,提取至少由学历等级关键词、不同学历等级关键词出现次数以及所述学历等级关键词出现次数的归一化次数构成的关键特征。
8.一种用于信息识别的模型训练方法,其特征在于,包括:
从训练用户的行为数据中,提取所述训练用户的关键特征,其中,所述关键特征由表示身份信息的特征数据组成,所述关键特征至少包括:学历等级关键词;
根据所述训练用户的好友用户是否为目标身份信息的检测结果,获得所述训练用户的社交特征,所述好友用户的检测结果利用第二分类模型获得;
利用所述训练用户的用户特征,训练获得第一分类模型;所述训练用户的用户特征包括所述训练用户的关键特征以及社交特征;所述第一分类模型用于根据检测用户的用户特征,识别所述检测用户的身份信息,其中,所述检测用户的好友用户为所述检测用户的第1级迭代用户;所述检测用户的第m级迭代用户分别与第m-1级迭代用户以及第m+1级迭代用户具有好友关系;m=1、2、…N,N为迭代训练次数且为大于等于1的整数;所述第二分类模型为第N级迭代分类模型;所述第一分类模型为第N+1级迭代分类模型;第j+1级迭代分类模型基于训练用户的第j级用户特征训练得到,训练用户的第j级用户特征包括所述训练用户的关键特征及第j级社交特征,其中,根据第j级迭代分类模型确定所述训练用户的第1级迭代用户的第j级检测结果,以确定所述训练用户的第j级社交特征,j=1、2、3……N。
9.根据权利要求8所述的方法,其特征在于,所述根据所述训练用户的好友用户是否为目标身份信息的检测结果,获得所述训练用户的社交特征之前,所述方法还包括:
从训练用户的好友用户的行为数据中,提取训练用户的好友用户的关键特征;
利用所述训练用户的关键特征,训练获得第二分类模型;
将所述训练用户的好友用户的关键特征,输入第二分类模型,获得所述训练用户的好友用户是否为目标身份信息的检测结果。
10.根据权利要求8所述的方法,其特征在于,所述从训练用户的行为数据中,提取所述训练用户的关键特征之后,所述方法还包括:
从所述训练用户的每一级迭代用户的行为数据中,提取所述每一级迭代用户的关键特征;其中,所述训练用户的好友用户为所述训练用户的第1级迭代用户;所述训练用户的第m级迭代用户分别与第m-1级迭代用户以及第m+1级迭代用户具有好友关系;m=1、2、…N,N为大于等于1的整数;
所述利用所述训练用户的用户特征,训练获得第一分类模型包括:
利用所述训练用户的关键特征,训练获得第1级迭代分类模型;
利用所述训练用户的第j级用户特征,训练获得第j+1级迭代分类模型;其中,j=1、2……N;所述训练用户的第j级用户特征包括所述训练用户的关键特征以及第j级社交特征;所述训练用户的第j级社交特征根据所述训练用户的第1级迭代用户的第j级检测结果获得;所述训练用户的第1级迭代用户的第j级检测结果根据所述第1级迭代用户的第j-1级用户特征,利用第j级迭代分类模型获得;
其中,第N+1级迭代分类模型为所述第一分类模型,用于识别检测用户的身份信息,第j级迭代分类模型用于识别所述检测用户的第N-j+1级迭代用户的身份信息。
11.根据权利要求 10所述的方法,其特征在于,所述利用所述训练用户的第j级用户特征,训练获得第j+1级迭代分类模型包括:
按照如下迭代训练方式进行训练,获得第j+1级迭代分类模型,其中,j=1、2、3……N:
将训练用户的第j级迭代用户的关键特征,输入第1级迭代分类模型,计算获得第j级迭代用户的第1级检测结果;
根据所述训练用户的第j级迭代用户的第1级检测结果,获得所述训练用户的第j-1级迭代用户的第1级社交特征;
对于所述训练用户的第j-i级迭代用户,将所述训练用户的第j-i级迭代用户的第i级用户特征输入第i+1级迭代分类模型,计算获得所述训练用户的第j-i级迭代用户的第i+1级检测结果;i=1、2、3……N-2;所述第j-i级迭代用户的第i级用户特征包括所述第j-i级迭代用户的关键特征以及第i级社交特征;
根据所述训练用户的第j-i级迭代用户的第i+1级检测结果,获得所述训练用户的第j-i-1级迭代用户的第i+1级社交特征;
将获得的第1级迭代用户的第j-1级用户特征输入第j级迭代模型,计算获得所述第1级迭代用户的第j级检测结果;所述第j-1级用户特征包括关键特征以及第j-1级社交特征;
利用所述第1级迭代好友的第j级检测结果,计算获得训练用户的第j级社交特征;
利用所述训练用户的第j级用户特征,训练获得第j+1级迭代分类模型;所述训练用户的第j级用户特征包括所述训练用户的关键特征及第j级社交特征。
12.一种处理设备,其特征在于,包括存储器以及处理器;
所述存储器存储一组或多组程序指令;
所述处理器调用所述一组或多组程序指令,执行如下操作:
从检测用户的行为数据中提取所述检测用户的关键特征;其中,所述关键特征由表示身份信息的特征数据组成,所述关键特征至少包括:学历等级关键词;
根据所述检测用户的好友用户是否为目标身份信息的检测结果,获得所述检测用户的社交特征,所述好友用户的检测结果利用第二分类模型获得;
根据所述检测用户的用户特征,利用第一分类模型获得所述检测用户是否为所述目标身份信息的检测结果;其中,所述检测用户的用户特征至少包括所述检测用户的关键特征和所述检测用户的社交特征;所述第一分类模型预先根据训练用户的用户特征训练获得,其中,所述检测用户的好友用户为所述检测用户的第1级迭代用户;所述检测用户的第m级迭代用户分别与第m-1级迭代用户以及第m+1级迭代用户具有好友关系;m=1、2、…N,N为迭代训练次数且为大于等于1的整数;所述第二分类模型为第N级迭代分类模型;所述第一分类模型为第N+1级迭代分类模型;第j+1级迭代分类模型基于训练用户的第j级用户特征训练得到,训练用户的第j级用户特征包括所述训练用户的关键特征及第j级社交特征,其中,根据第j级迭代分类模型确定所述训练用户的第1级迭代用户的第j级检测结果,以确定所述训练用户的第j级社交特征,j=1、2、3……N。
13.根据权利要求12所述的设备,其特征在于,所述处理器还用于:
从所述检测用户的好友用户的行为数据中提取所述好友用户的关键特征;其中,所述关键特征由表示身份信息的特征数据组成;
根据所述检测用户的好友用户的用户特征,利用第二分类模型获得所述检测用户的好友用户是否为所述目标身份信息的检测结果;其中,所述好友用户的用户特征包括所述好友用户的关键特征。
14.根据权利要求13所述的设备,其特征在于,所述检测用户的好友用户的用户特征还包括所述检测用户的好友用户的社交特征;
所述处理器从所述检测用户的好友用户的行为数据中,提取所述检测用户的好友用户的关键特征包括:
从所述检测用户的每一级迭代用户的行为数据中提取每一级迭代用户的关键特征;其中,所述检测用户的好友用户为所述检测用户的第1级迭代用户;所述检测用户的第m级迭代用户分别与第m-1级迭代用户以及第m+1级迭代用户具有好友关系;m=1、2、…N,N为迭代训练次数且为大于等于1的整数;所述第二分类模型为第N级迭代分类模型;所述第一分类模型为第N+1级迭代分类模型;
其中,第i级迭代用户的社交特征根据第i+1级迭代用户的检测结果获得,i=1、2…N-2;所述第i+1级迭代用户的检测结果按照如下方式获得:
根据所述检测用户的第i+1级迭代用户的用户特征,利用第N-i级迭代分类模型,计算获得第i+1级迭代用户的检测结果;所述检测用户的第i+1级迭代用户的用户特征包括第i+1级迭代用户的关键特征以及社交特征;其中,第N级迭代用户的检测结果根据第N级迭代好友的关键特征利用第1级迭代分类模型计算获得;第N-1级迭代用户的社交特征根据第N级迭代用户的检测结果获得;
所述第1级迭代分类模型预先根据从训练用户的行为数据中提取的所述训练用户的关键特征训练获得;所述第j+1级迭代分类模型基于所述第1级迭代分类模型进行迭代训练获得。
15.根据权利要求13所述的设备,其特征在于,所述好友用户的检测结果为所述好友用户为所述目标身份信息的检测概率;
所述处理器根据所述好友用户的检测结果,获得所述检测用户的社交特征包括:
根据每一个好友用户的检测概率计算平均检测概率,将所述平均检测概率作为所述检测用户的社交特征。
16.根据权利要求12所述的设备,其特征在于,所述目标身份信息为目标学历信息;
所述处理器从检测用户的行为数据中,提取所述检测用户的表示身份信息的关键特征包括:
从检测用户的行为数据中,提取至少由学历等级关键词、不同学历等级关键词出现次数以及所述学历等级关键词出现次数的归一化次数构成的关键特征。
17.一种用于模型训练的处理设备,其特征在于,包括存储器以及处理器;
所述存储器存储一组或多组程序指令;
所述处理器调用所述一组或多组程序指令,执行如下操作:
从训练用户的行为数据中,提取所述训练用户的关键特征,其中,所述关键特征由表示身份信息的特征数据组成,所述关键特征至少包括:学历等级关键词;
根据所述训练用户的好友用户是否为目标身份信息的检测结果,获得所述训练用户的社交特征,所述好友用户的检测结果利用第二分类模型获得;
利用所述训练用户的用户特征,训练获得第一分类模型;所述训练用户的用户特征包括所述训练用户的关键特征以及社交特征;所述第一分类模型用于根据检测用户的用户特征,识别所述检测用户的身份信息,其中,所述检测用户的好友用户为所述检测用户的第1级迭代用户;所述检测用户的第m级迭代用户分别与第m-1级迭代用户以及第m+1级迭代用户具有好友关系;m=1、2、…N,N为迭代训练次数且为大于等于1的整数;所述第二分类模型为第N级迭代分类模型;所述第一分类模型为第N+1级迭代分类模型;第j+1级迭代分类模型基于训练用户的第j级用户特征训练得到,训练用户的第j级用户特征包括所述训练用户的关键特征及第j级社交特征,其中,根据第j级迭代分类模型确定所述训练用户的第1级迭代用户的第j级检测结果,以确定所述训练用户的第j级社交特征,j=1、2、3……N。
18.根据权利要求17所述的设备,其特征在于,所述处理器还用于:
从训练用户的好友用户的行为数据中,提取训练用户的好友用户的关键特征;
利用所述训练用户的关键特征,训练获得第二分类模型;
将所述训练用户的好友用户的关键特征,输入第二分类模型,获得所述训练用户的好友用户是否为目标身份信息的检测结果。
19.根据权利要求17所述的设备,其特征在于,所述处理器还用于从所述训练用户的每一级迭代用户的行为数据中,提取所述每一级迭代用户的关键特征;其中,所述训练用户的好友用户为所述训练用户的第1级迭代用户;所述训练用户的第m级迭代用户分别与第m-1级迭代用户以及第m+1级迭代用户具有好友关系;m=1、2、…N,N为大于等于1的整数;
所述处理器利用所述训练用户的用户特征,训练获得第一分类模型包括:
利用所述训练用户的关键特征,训练获得第1级迭代分类模型;
利用所述训练用户的第j级用户特征,训练获得第j+1级迭代分类模型;其中,j=1、2……N;所述训练用户的第j级用户特征包括所述训练用户的关键特征以及第j级社交特征;所述训练用户的第j级社交特征根据所述训练用户的第1级迭代用户的第j级检测结果获得;所述训练用户的第1级迭代用户的第j级检测结果根据所述第1级迭代用户的第j-1级用户特征,利用第j级迭代分类模型获得;
其中,第N+1级迭代分类模型为所述第一分类模型,用于识别检测用户的身份信息,第j级迭代分类模型用于识别所述检测用户的第N-j+1级迭代用户的身份信息。
20.根据权利要求19所述的设备,其特征在于,所述处理器利用所述训练用户的第j级用户特征,训练获得第j+1级迭代分类模型包括:
按照如下迭代训练方式进行训练,获得第j+1级迭代分类模型,其中,j=1、2、3……N:
将训练用户的第j级迭代用户的关键特征,输入第1级迭代分类模型,计算获得第j级迭代用户的第1级检测结果;
根据所述训练用户的第j级迭代用户的第1级检测结果,获得所述训练用户的第j-1级迭代用户的第1级社交特征;
对于所述训练用户的第j-i级迭代用户,将所述训练用户的第j-i级迭代用户的第i级用户特征输入第i+1级迭代分类模型,计算获得所述训练用户的第j-i级迭代用户的第i+1级检测结果;i=1、2、3……N-2;所述第j-i级迭代用户的第i级用户特征包括所述第j-i级迭代用户的关键特征以及第i级社交特征;
根据所述训练用户的第j-i级迭代用户的第i+1级检测结果,获得所述训练用户的第j-i-1级迭代用户的第i+1级社交特征;
将获得的第1级迭代用户的第j-1级用户特征输入第j级迭代模型,计算获得所述第1级迭代用户的第j级检测结果;所述第j-1级用户特征包括关键特征以及第j-1级社交特征;
利用所述第1级迭代好友的第j级检测结果,计算获得训练用户的第j级社交特征;
利用所述训练用户的第j级用户特征,训练获得第j+1级迭代分类模型;所述训练用户的第j级用户特征包括所述训练用户的关键特征及第j级社交特征。
21.一种信息识别装置,其特征在于,包括:
第一特征提取模块,从检测用户的行为数据中提取所述检测用户的关键特征;其中,所述关键特征由表示身份信息的特征数据组成,所述关键特征至少包括:学历等级关键词;
第二特征提取模块,根据所述检测用户的好友用户是否为目标身份信息的检测结果,获得所述检测用户的社交特征,所述好友用户的检测结果利用第二分类模型获得;
第一检测模块,根据所述检测用户的用户特征,利用第一分类模型获得所述检测用户是否为所述目标身份信息的检测结果;其中,所述检测用户的用户特征至少包括所述检测用户的关键特征和所述检测用户的社交特征;所述第一分类模型预先根据训练用户的用户特征训练获得,其中,所述检测用户的好友用户为所述检测用户的第1级迭代用户;所述检测用户的第m级迭代用户分别与第m-1级迭代用户以及第m+1级迭代用户具有好友关系;m=1、2、…N,N为迭代训练次数且为大于等于1的整数;所述第二分类模型为第N级迭代分类模型;所述第一分类模型为第N+1级迭代分类模型;第j+1级迭代分类模型基于训练用户的第j级用户特征训练得到,训练用户的第j级用户特征包括所述训练用户的关键特征及第j级社交特征,其中,根据第j级迭代分类模型确定所述训练用户的第1级迭代用户的第j级检测结果,以确定所述训练用户的第j级社交特征,j=1、2、3……N。
22.根据权利要求21所述的装置,其特征在于,还包括:
第三特征提取模块,从所述检测用户的好友用户的行为数据中提取所述好友用户的关键特征;其中,所述关键特征由表示身份信息的特征数据组成;
第二检测模块,根据所述检测用户的好友用户的用户特征,利用第二分类模型获得所述检测用户的好友用户是否为所述目标身份信息的检测结果;其中,所述好友用户的用户特征包括所述好友用户的关键特征。
23.根据权利要求22所述的装置,其特征在于,所述检测用户的好友用户的用户特征还包括所述检测用户的好友用户的社交特征;
所述第三特征提取模块具体是:
从所述检测用户的每一级迭代用户的行为数据中,提取每一级迭代用户的关键特征;其中,所述检测用户的好友用户为所述检测用户的第1级迭代用户;所述检测用户的第m级迭代用户分别与第m-1级迭代用户以及第m+1级迭代用户具有好友关系;m=1、2、…N,N为迭代训练次数且为大于等于1的整数;所述第二分类模型为第N级迭代分类模型;所述第一分类模型为第N+1级迭代分类模型;
所述装置还包括:
第三检测模块,根据所述检测用户的第N级迭代用户的关键特征,利用第1级迭代分类模型获得所述第N级迭代用户的检测结果;根据所述检测用户的第i+1级迭代用户的用户特征,利用第N-i级迭代分类模型,获得第i+1级迭代用户的检测结果;所述检测用户的第i+1级迭代用户的用户特征包括第i+1级迭代用户的关键特征以及社交特征;i=1、2…N-2;
第四特征提取模块,根据所述检测用户的第i+1级迭代用户的检测结果,获得所述检测用户的第i级迭代用户的社交特征; 根据第N级迭代用户的检测结果,获得第N-1级迭代用户的社交特征。
24.根据权利要求22所述的装置,其特征在于,所述好友用户的检测结果为所述好友用户为所述目标身份信息的检测概率;
所述第二特征提取模块具体用于:
根据每一个好友用户的检测概率计算平均检测概率,将所述平均检测概率作为所述检测用户的社交特征。
25.一种用于信息识别的模型训练装置,其特征在于,包括:
第五特征提取模块,从训练用户的行为数据中,提取所述训练用户的关键特征,其中,所述关键特征由表示身份信息的特征数据组成,所述关键特征至少包括:学历等级关键词;
第六特征提取模块,用于根据所述训练用户的好友用户是否为目标身份信息的检测结果,获得所述训练用户的社交特征,所述好友用户的检测结果利用第二分类模型获得;
第一训练模块,用于利用所述训练用户的用户特征,训练获得第一分类模型;所述训练用户的用户特征包括所述训练用户的关键特征以及社交特征;所述第一分类模型用于根据检测用户的用户特征,识别所述检测用户的身份信息,其中,所述检测用户的好友用户为所述检测用户的第1级迭代用户;所述检测用户的第m级迭代用户分别与第m-1级迭代用户以及第m+1级迭代用户具有好友关系;m=1、2、…N,N为迭代训练次数且为大于等于1的整数;所述第二分类模型为第N级迭代分类模型;所述第一分类模型为第N+1级迭代分类模型;第j+1级迭代分类模型基于训练用户的第j级用户特征训练得到,训练用户的第j级用户特征包括所述训练用户的关键特征及第j级社交特征,其中,根据第j级迭代分类模型确定所述训练用户的第1级迭代用户的第j级检测结果,以确定所述训练用户的第j级社交特征,j=1、2、3……N。
26.根据权利要求25所述的装置,其特征在于,还包括:
第七特征提取模块,从训练用户的好友用户的行为数据中,提取训练用户的好友用户的关键特征;
第二训练模块,利用所述训练用户的关键特征,训练获得第二分类模型;
第三检测模块,将所述训练用户的好友用户的关键特征,输入第二分类模型,获得所述训练用户的好友用户是否为目标身份信息的检测结果。
27.根据权利要求26所述的装置,其特征在于,还包括:
第八特征提取模块,用于从所述训练用户的每一级迭代用户的行为数据中,提取所述每一级迭代用户的关键特征;其中,所述训练用户的好友用户为所述训练用户的第1级迭代用户;所述训练用户的第m级迭代用户分别与第m-1级迭代用户以及第m+1级迭代用户具有好友关系;m=1、2、…N,N为大于等于1的整数;
所述第一训练模块具体是:
利用所述训练用户的关键特征,训练获得第1级迭代分类模型;
利用所述训练用户的第j级用户特征,训练获得第j+1级迭代分类模型;其中,j=1、2……N;所述训练用户的第j级用户特征包括所述训练用户的关键特征以及第j级社交特征;所述训练用户的第j级社交特征根据所述训练用户的第1级迭代用户的第j级检测结果获得;所述训练用户的第1级迭代用户的第j级检测结果根据所述第1级迭代用户的第j-1级用户特征,利用第j级迭代分类模型获得;
其中,第N+1级迭代分类模型为所述第一分类模型,用于识别检测用户的身份信息,第j级迭代分类模型用于识别所述检测用户的第N-j+1级迭代用户的身份信息。
28.根据权利要求27所述的装置,其特征在于,所第一述训练模块具体按照如下迭代训练方式进行训练,获得第j+1级迭代分类模型,其中,j=1、2、3……N:
将训练用户的第j级迭代用户的关键特征,输入第1级迭代分类模型,计算获得第j级迭代用户的第1级检测结果;
根据所述训练用户的第j级迭代用户的第1级检测结果,获得所述训练用户的第j-1级迭代用户的第1级社交特征;
对于所述训练用户的第j-i级迭代用户,将所述训练用户的第j-i级迭代用户的第i级用户特征输入第i+1级迭代分类模型,计算获得所述训练用户的第j-i级迭代用户的第i+1级检测结果;i=1、2、3……N-2;所述第j-i级迭代用户的第i级用户特征包括所述第j-i级迭代用户的关键特征以及第i级社交特征;
根据所述训练用户的第j-i级迭代用户的第i+1级检测结果,获得所述训练用户的第j-i-1级迭代用户的第i+1级社交特征;
将获得的第1级迭代用户的第j-1级用户特征输入第j级迭代模型,计算获得所述第1级迭代用户的第j级检测结果;所述第j-1级用户特征包括关键特征以及第j-1级社交特征;
利用所述第1级迭代好友的第j级检测结果,计算获得训练用户的第j级社交特征;
利用所述训练用户的第j级用户特征,训练获得第j+1级迭代分类模型;所述训练用户的第j级用户特征包括所述训练用户的关键特征及第j级社交特征。
CN201610491023.6A 2016-06-28 2016-06-28 信息识别方法、模型训练方法、装置及处理设备 Active CN106897729B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610491023.6A CN106897729B (zh) 2016-06-28 2016-06-28 信息识别方法、模型训练方法、装置及处理设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610491023.6A CN106897729B (zh) 2016-06-28 2016-06-28 信息识别方法、模型训练方法、装置及处理设备

Publications (2)

Publication Number Publication Date
CN106897729A CN106897729A (zh) 2017-06-27
CN106897729B true CN106897729B (zh) 2020-09-11

Family

ID=59190596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610491023.6A Active CN106897729B (zh) 2016-06-28 2016-06-28 信息识别方法、模型训练方法、装置及处理设备

Country Status (1)

Country Link
CN (1) CN106897729B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108681667A (zh) * 2018-04-02 2018-10-19 阿里巴巴集团控股有限公司 一种设备型号识别方法、装置及处理设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103458042A (zh) * 2013-09-10 2013-12-18 上海交通大学 一种微博广告用户检测方法
CN104036037A (zh) * 2014-06-30 2014-09-10 小米科技有限责任公司 处理垃圾用户的方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831202A (zh) * 2012-08-08 2012-12-19 中兴通讯股份有限公司 一种向社交网站用户推送推荐好友的方法和系统
CN103077240B (zh) * 2013-01-10 2015-09-23 北京工商大学 一种基于概率图模型的微博水军识别方法
CN104657369A (zh) * 2013-11-19 2015-05-27 深圳市腾讯计算机系统有限公司 用户属性信息的生成方法及系统
CN104933075A (zh) * 2014-03-20 2015-09-23 百度在线网络技术(北京)有限公司 用户属性预测平台和方法
CN104951544A (zh) * 2015-06-19 2015-09-30 百度在线网络技术(北京)有限公司 用户数据处理方法、用户数据的提供方法和系统
CN105160016A (zh) * 2015-09-25 2015-12-16 百度在线网络技术(北京)有限公司 用户属性的获取方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103458042A (zh) * 2013-09-10 2013-12-18 上海交通大学 一种微博广告用户检测方法
CN104036037A (zh) * 2014-06-30 2014-09-10 小米科技有限责任公司 处理垃圾用户的方法及装置

Also Published As

Publication number Publication date
CN106897729A (zh) 2017-06-27

Similar Documents

Publication Publication Date Title
CN107436922B (zh) 文本标签生成方法和装置
CN108399418B (zh) 一种用户分类方法及装置
Undavia et al. A comparative study of classifying legal documents with neural networks
Wang et al. Duplicate question detection with deep learning in stack overflow
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN111291570A (zh) 一种实现司法文书中要素识别的方法及装置
US11734322B2 (en) Enhanced intent matching using keyword-based word mover's distance
CN109684627A (zh) 一种文本分类方法及装置
CN109388634B (zh) 地址信息的处理方法、终端设备及计算机可读存储介质
Malik et al. Accurate information extraction for quantitative financial events
WO2020063524A1 (zh) 一种法律文书的确定方法及系统
CN112132238A (zh) 一种识别隐私数据的方法、装置、设备和可读介质
CN112052396A (zh) 课程匹配方法、系统、计算机设备和存储介质
CN109472722B (zh) 获得待生成裁判文书经审理查明段相关信息的方法及装置
Choudhary et al. Neural Network Architecture for Credibility Assessment of Textual Claims (Best Paper Award, First Place)
CN111767390A (zh) 技能词评估方法及装置、电子设备、计算机可读介质
CN110647504B (zh) 司法文书的检索方法及装置
US20220366295A1 (en) Pre-search content recommendations
CN106897729B (zh) 信息识别方法、模型训练方法、装置及处理设备
CN111460808B (zh) 同义文本识别及内容推荐方法、装置及电子设备
CN113254623B (zh) 数据处理方法、装置、服务器、介质及产品
CN113139379B (zh) 信息识别方法和系统
CN115033754A (zh) 一种基于题型素养数据库的作业、考试错题推送方法
Nagavelli et al. Amazon Reviews Sentiment Analysis, Segmentation, Classification and Prediction leveraging Multi-Class Multi-Output Classification
CN113688633A (zh) 一种提纲确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200923

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Patentee after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Patentee before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200923

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Patentee after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: Alibaba Group Holding Ltd.