CN105978722B - 用户属性挖掘方法及装置 - Google Patents

用户属性挖掘方法及装置 Download PDF

Info

Publication number
CN105978722B
CN105978722B CN201610313392.6A CN201610313392A CN105978722B CN 105978722 B CN105978722 B CN 105978722B CN 201610313392 A CN201610313392 A CN 201610313392A CN 105978722 B CN105978722 B CN 105978722B
Authority
CN
China
Prior art keywords
user
network
job
wireless network
business name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610313392.6A
Other languages
English (en)
Other versions
CN105978722A (zh
Inventor
黄引刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201610313392.6A priority Critical patent/CN105978722B/zh
Publication of CN105978722A publication Critical patent/CN105978722A/zh
Application granted granted Critical
Publication of CN105978722B publication Critical patent/CN105978722B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5061Network service management, e.g. ensuring proper service fulfilment according to agreements characterised by the interaction between service providers and their network customers, e.g. customer relationship management
    • H04L41/5064Customer relationship management

Abstract

本发明公开了一种用户属性挖掘方法,所述用户属性挖掘方法包括:在预先获得的用户接入无线网络所产生的无线网络接入数据中,通过预先构建的模型对所述用户接入的无线网络进行预测,得到所述用户的工作网络;针对所述工作网络,通过所述无线网络接入数据挖掘所述工作网络对应的公司名称;根据所述工作网络对应的公司名称建立所述用户与公司名称的映射,由所述映射生成用户属性。本发明还公开了一种与所述用户属性挖掘方法相匹配的用户属性挖掘装置。采用本发明所提供的用户属性挖掘方法及装置能够提高用户属性的可靠性和准确性。

Description

用户属性挖掘方法及装置
技术领域
本发明涉及计算机应用技术领域,尤其涉及一种用户属性挖掘方法及装置。
背景技术
大数据征信项目中,客群划分是风险控制中重要的一环。客群划分通常是依据用户属性实现的,而用户属性挖掘过程通常是通过识别用户常驻地点而得到相应的用户属性,以将用户划分至与该用户属性相匹配的客群当中。
然而,无论是基于IP(Internet Protocol,网络之间互连协议)地址的方式进行的用户常驻地点的识别,亦或是基于移动终端中GPS(Global Positioning System,全球定位系统)模块的定位实现用户常驻地点的识别,均难以得到可靠准确的用户常驻地点,进而导致现有的用户属性仍存在可靠性和准确性较低的缺陷。
发明内容
基于此,有必要提供一种用户属性挖掘方法,所述方法能够提高用户属性的可靠性和准确性。
此外,还有必要提供一种用户属性挖掘装置,所述装置能够提高用户属性的可靠性和准确性。
为了解决上述技术问题,本发明所采用的技术方案为:
一种用户属性挖掘方法,包括:在预先获得的用户接入无线网络所产生的无线网络接入数据中,通过预先构建的模型对所述用户接入的无线网络进行预测,得到所述用户的工作网络;针对所述工作网络,通过所述无线网络接入数据挖掘所述工作网络对应的公司名称;根据所述工作网络对应的公司名称建立所述用户与公司名称的映射,由所述映射生成用户属性。
一种用户属性挖掘装置,包括:网络预测模块,用于在预先获得的用户接入无线网络所产生的无线网络接入数据中,通过预先构建的模型对所述用户接入的无线网络进行预测,得到所述用户的工作网络;名称挖掘模块,用于针对所述工作网络,通过所述无线网络接入数据挖掘所述工作网络对应的公司名称;属性生成模块,用于根据所述工作网络对应的公司名称建立所述用户与公司名称的映射,由所述映射生成用户属性。
与现有技术相比,本发明具有以下有益效果:
在预先获得的用户接入无线网络所产生的无线网络接入数据中,通过预先构建的模型对用户接入的无线网络进行预测得到用户的工作网络,再针对工作网络利用无线网络接入数据进行工作网络对应的公司名称的挖掘,最后基于挖掘得出的工作网络对应的公司名称建立用户与公司名称的映射生成用户属性。
在实际的工作和生活当中,用户携带的移动终端通常会开启无线连接的功能,随着用户所在场所的变换,其所接入的无线网络也将发生相应地改变,在此过程中所产生的无线网络接入数据则是与无线网络相对应的。也就是说,基于无线网络接入数据对用户接入的无线网络进行的预测能够准确地得到用户的工作网络,进而使得针对工作网络所进行的公司名称的挖掘以及建立用户与公司名称的映射也将具有较高的准确性,从而通过映射生成高可靠性和准确性的用户属性。
附图说明
图1为本发明实施例所提供的一种服务器的结构示意图;
图2为一实施例的用户属性挖掘方法的流程图;
图3为另一实施例的用户属性挖掘方法的流程图;
图4为图2中得到用户的工作网络的方法流程图;
图5为另一实施例的用户属性挖掘方法的流程图;
图6为图2中挖掘工作网络对应的公司名称的方法流程图;
图7为图2中由映射生成用户属性的方法流程图;
图8为一具体实施例中用户属性挖掘方法的应用场景示意图;
图8a为图8中针对每一个用户的用户属性挖掘方法的流程图;
图8b为图8中针对每一个工作网络的用户属性挖掘方法的流程图;
图8c为图8中针对曾经接入工作网络的每一个用户的用户属性挖掘方法的流程图;
图9为一实施例的用户属性挖掘装置的结构框图;
图10为另一实施例的用户属性挖掘系统的结构框图;
图11为图9中网络预测模块的结构框图;
图12为另一实施例的用户属性挖掘系统的结构框图;
图13为图9中名称挖掘模块的结构框图;
图14为图9中属性生成模块的结构框图。
具体实施方式
体现本发明特征与优点的典型实施方式将在以下的说明中详细叙述。应理解的是本发明能够在不同的实施方式上具有各种的变化,其皆不脱离本发明的范围,且其中的说明及图示在本质上是当作说明之用,而非用以限制本发明。
如前所述,用户属性的可靠准确获得将是大数据征信项目中进行风险控制的重要环节。随着互联网金融应用的迅猛发展,根据用户属性来获得高征信群体将是互联网金融应用中至关重要的处理方式,例如,服务于优质公司的群体即可认为是一高征信群体,因此,用户属性获取的可靠性和准确性将是当前所需要重点关注的。
而现有的用户属性获得中,对于用户常驻地点的识别将是可靠并准确地挖掘用户属性的关键。然而现有的用户常驻地点的识别中无论是基于IP地址还是基于GPS坐标数据,都存在可靠性和准确性不高的缺陷。
例如,用以定位得到GPS坐标数据的GPS模块实际上并不常常开启,因此存在GPS坐标数据获取失败的问题,从而导致相应的用户常驻地点的识别的可靠性和准确性均较为低下,进而导致用户属性的可靠性和准确性也较低。
因此,为了提高用户属性的可靠性和准确性,特提出了一种用户属性挖掘方法,该方法基于用户对应的无线网络接入数据进行用户属性的生成,该方法可依赖于计算机程序,该计算机程序将运行在服务器之上。
图1是本发明实施例提供的一种服务器100的结构示意图。该服务器100只是一个适配于本发明的示例,不能认为是提供了对本发明的使用范围的任何限制。该服务器100也不能解释为需要依赖于或者必须具有图1中示出的示例性的服务器100中的一个或者多个部件。
如图1所示,该服务器100可因配置或者性能的不同而产生较大的差异,其包括:电源110、接口130、至少一存储介质150、以及至少一中央处理器(CPU ,Central ProcessingUnits)170。
具体地,电源110用于为服务器100上的各硬件设备提供工作电压。
接口130包括至少一有线或无线网络接口131、至少一串并转换接口133、至少一输入输出接口135以及至少一USB接口137等,用于与外部设备通信。
存储介质150作为资源存储的载体,可以是随机存储介质、磁盘或者光盘等,其上所存储的资源包括操作系统151、应用程序153及数据155等,存储方式可以是短暂存储或者永久存储。其中,操作系统151用于管理与控制服务器100上的各硬件设备以及应用程序153,以实现中央处理器170对海量数据155的计算与处理,其可以是Windows ServerTM、MacOS XTM、UnixTM、LinuxTM、FreeBSDTM等。应用程序153是基于操作系统151之上完成至少一项特定工作的计算机程序,其可以包括至少一模块(图示未示出),每个模块都可以分别包含有对服务器100的一系列操作指令。数据155可以是存储于磁盘中的用户对应的无线网络接入数据等等。
中央处理器170可以包括一个或多个以上的处理器,并设置为通过总线与存储介质150通信,用于计算与处理存储介质150中的海量数据155。
通过中央处理器170读取存储介质150中存储的一系列操作指令,并基于存储介质150上的操作系统151在服务器100上执行,进而使得上述用户属性挖掘方法的全部或者部分步骤可以通过在服务器上运行相关的计算机程序来完成。
此外,通过硬件电路或者硬件电路结合软件指令也能同样实现本发明,因此,实现本发明并不限于任何特定硬件电路、软件以及两者的组合。
请参阅图2,在一实施例中,一种用户属性挖掘方法包括以下步骤:
步骤210,在预先获得的用户接入无线网络所产生的无线网络接入数据中,通过预先构建的模型对用户接入的无线网络进行预测,得到用户的工作网络。
用户接入无线网络是用户通过所在移动终端进行与无线网络接入设备的连接。该无线网络接入设备实质上是无线网络接入点,在其工作状态下将发射无线信号,以通过发射的无线信号在一定范围内建立无线网络,而处于该范围内的移动终端若开启了无线连接的功能则会与该无线网络接入设备连接,从而使得用户接入该无线网络接入设备所建立的无线网络。
相应地,服务器预先获得的无线网络接入数据则是在用户接入无线网络时产生的。可以理解,对于用户而言,无线网络接入数据对应于用户所接入的无线网络,而对于服务器而言,其将随着用户所在移动终端接入无线网络时进行的无线网络接入数据上报而预先获得海量的无线网络接入数据,并且该海量的无线网络接入数据是与海量用户对应的。
在服务器获取到无线网络接入数据之后,将能够根据预先构建的模型由用户接入的无线网络中预测得到用户的工作网络。换而言之,用户在工作和日常生活中接入的无线网络可能不止一个,在多个无线网络中可能仅有一个才是用户工作时所接入的无线网络,通过对用户接入的多个无线网络进行预测即能够得出用户工作时所接入的无线网络,即该用户的工作网络。
值得一提的是,对于每一个用户而言,服务器所预测获得的用户的工作网络仅有一个,该工作网络是相对于该用户上班的公司而言的,然而,该用户所接入的工作网络则可能有多个,例如,该用户可以离开其上班的公司去其他公司参观,此时该用户接入的工作网络并非其的工作网络,而是隶属于其所参观的其他公司。
需要说明的是,用户所在移动终端可以是智能手机、笔记本电脑、平板电脑等,无线网络接入设备则可以是无线路由器等。进一步地,在本发明的各实施例中,无线网络等在数据上是通过唯一对应的名称或者无线网络接入标识来进行唯一标记的,例如,用户接入的无线网络在其所在移动终端上是通过无线网络接入标识进行标记的。
步骤230,针对工作网络,通过无线网络接入数据挖掘工作网络对应的公司名称。
如上所述,对于服务器而言,其预先获得的无线网络接入数据是与海量用户对应的,因此,服务器对用户接入的无线网络进行的预测所得到的工作网络也将是与海量用户对应的。也就是说,服务器分别对其所预先获得的每一个用户的无线网络接入数据进行的预测都将得出该每一个用户的工作网络。
本实施例中,通过无线网络接入数据进行的公司名称的挖掘是针对预测所获得的每一个工作网络的。
举例来说,对于工作网络a而言,用户a和用户b均接入了工作网络a,则用户a的无线网络接入数据和用户b的无线网络接入数据都将用于工作网络a对应的公司名称的挖掘。而对于工作网络b而言,仅用户a接入了工作网络b,则用户a的无线网络接入数据还将用于工作网络b对应的公司名称的挖掘。
进一步地,由于服务器通过预先构建的模型将预测得出海量用户的工作网络,由此针对预测所获得的每一个工作网络,都能够通过执行步骤230挖掘得出与该每一个工作网络对应的公司名称。
步骤250,根据工作网络对应的公司名称建立用户与公司名称的映射,由映射生成用户属性。
如上所述,在服务器得到所有工作网络分别对应的公司名称之后,服务器将能够为接入上述工作网络的用户建立其与公司名称的映射,通过建立的映射生成用户属性,即用户属性中至少包含了用户所映射得到的公司名称。
当然,用户属性中也还可以包含预测得到的用户的工作网络等其它与用户相关的属性信息,以此方便于服务器根据用户属性为用户推送与该用户属性相符合的个性化内容,进而保障个性化内容推送的精准性和有效性。
通过如上所述的过程,实现了可靠并准确的用户属性挖掘,以此确保了服务器所进行的客群划分的精准和/或个性化内容推送的精准。
请参阅图3,在一实施例中,预先构建的模型包括工作网络预测模型。顾名思义,该工作网络预测模型用以预测用户接入的无线网络是否为工作网络。
进一步地,步骤210之前,如上所述的方法还包括以下步骤:
步骤310,在预先获得的无线网络接入数据中,对符合模型准入条件的无线网络接入数据进行工作网络接入特征的提取。
模型准入条件是针对用户所接入的无线网络而预置的统计规则。例如,模型准入条件可以是对接入无线网络的用户数量的统计,只有接入的用户数量较多的无线网络才有可能是潜在的工作网络;还可以是对用户接入无线网络的接入时间的统计,接入时间为工作时间的无线网络则有可能是潜在的工作网络。
进一步地,如前所述,对于用户而言,无线网路接入数据对应于用户所接入的无线网络,因此,通过模型准入条件对用户所接入的无线网络进行的统计,实际上是根据模型准入条件对无线网络接入数据进行的筛选,以确保进入模型进行工作网络接入特征提取的无线网络接入数据对应于潜在的工作网络,避免服务器对不符合模型准入条件的无线网络接入数据进行不必要的运算,以此提高服务器的处理效率。
其中,工作网络接入特征包括但不限于:接入工作网络的用户数量,工作网络的接入时长,同时接入工作网络的用户数量,工作网络的使用高峰时间段、使用低峰时间段、上传速度、下载速度、网速稳定性,以及接入工作网络的用户的稳定性等等。
步骤330,根据提取得到的工作网络接入特征进行模型训练,得到工作网络预测模型。
由于工作网络接入特征能够反映出工作网络的特征,例如,接入工作网络的用户比较稳定,或者,工作网络的网速比较稳定、上传下载速度较快等等,因此,通过对工作网络接入特征进行建模和训练所得到的工作网络预测模型将能够用以预测用户接入的无线网络是否为工作网络。
请参阅图4,在一实施例中,步骤210包括以下步骤:
步骤211,以用户的无线网络接入数据为模型输入,利用预先构建的模型计算得到用户接入的无线网络为工作网络的概率。
模型的构建方式是以批量的输入数据作为训练样本,并通过对训练样本进行输入数据特征的提取,以通过提取得到的输入数据特征进行模型训练获取所欲构建的模型。
换而言之,通过构建的模型则能够将输入数据识别成反映了输入数据的特征的结果,其中,模型输出的结果都是通过概率进行表示的,即概率越大的结果越能够反映出输入数据的特征。
基于此,本实施例中,通过预先构建的模型所进行的无线网络的概率计算,将能够根据计算得到的无线网络的概率来反映由用户的无线网络接入数据提取出的工作网络接入特征,即计算得到的概率越大,该无线网络的特征越接近工作网络接入特征,该无线网络作为用户的工作网络的概率也越大。
步骤213,按照用户接入无线网络的频率对计算得到的无线网络的概率进行累加,得到无线网络对应的权重。
在计算得到无线网络的概率之后,还将进一步地按照用户接入无线网络的频率对无线网络的频率进行累加,以此确保用户并非以参观者身份进行的无线网络接入。
本实施例中,用户接入无线网络的频率是通过用户接入无线网络的天数来表示的。
举例来说,在预定天数(例如,一周5个工作日)中,根据用户接入无线网络的天数对无线网络的概率作累加。假设用户3天都接入了该无线网络,则将无线网络的概率累加3次,累加3次所得到的结果即为无线网络对应的权重。
可以理解,用户接入无线网络的频率越高,该无线网络所对应的权重可能越大,则该无线网络作为用户的工作网络的概率也就越大。
当然,若用户接入无线网络的频率过低,则该无线网络作为用户的工作网络的概率也将很低,此时,服务器也可以不计算该无线网络对应的权重,以此来降低服务器的运算量,提高服务器的处理效率。
步骤215,根据无线网络对应的权重由用户接入的无线网络中筛选出用户的工作网络。
由于用户在工作和日常生活中接入的无线网络可能不止一个,因此,要得到用户的工作网络就需要在用户所接入的多个无线网络中进行筛选。
具体地,在得到无线网络对应的权重之后,即能够通过判断无线网络对应的权重是否满足预设条件来对多个无线网络作筛选。
例如,用户接入的无线网络有无线网络a和无线网络b,无线网络a对应的权重为a1,无线网络b对应的权重为b1。若a1大于b1,则将无线网络a视为用户的工作网络。可以理解,就该例子而言,预设条件是对应最大权重的无线网络即为用户的工作网络。
当然,为了提高筛选的准确性,还可以设置更为复杂的预设条件对无线网络进行筛选。例如,预设条件可以是最大权重超过阈值并且最大权重远大于次大权重,若最大权重满足了预设条件,则认为对应该最大权重的无线网络为用户的工作网络。
在一实施例中,预先构建的模型包括生活网络预测模型。相对于工作网络预测模型用以预测用户接入的无线网络是否为工作网络,生活网络预测模型是用作预测用户接入的无线网络是否为生活网络的。
进一步地,步骤230之前,如上所述方法还包括以下步骤:
对用户的工作网络和生活网络进行冲突性检测,通过冲突性检测剔除与生活网络存在冲突的工作网络,生活网络由生活网络预测模型预测得到。
可以理解,模型准入条件不同则根据无线网络接入数据提取到的无线网络接入特征构建得到的模型也将有所差别。
举例来说,以接入生活网络的用户数量通常比较少,并且接入时间一般在晚上作为模型准入条件,相应地,提取到的生活网络接入特征可能是网速比较不稳定,上传下载速度较为缓慢等,由此构建得到的模型则是能够用以预测无线网络是否为生活网络的生活网络预测模型。
也就是说,本实施例中,用户的无线网络接入数据将按照不同的模型准入条件分别进行工作网络预测模型和生活网络预测模型的构建,通过工作网络预测模型进行用户的工作网络的预测,通过生活网络预测模型来预测用户的生活网络。
由于预测得到的用户的工作网络和生活网络可能存在冲突,例如,二者在接入时间上可能存在重叠,因此,在预测得到用户的工作网络和生活网络之后,通过对二者进行的冲突性检测即能够判断二者是否存在冲突。
若二者不冲突,则将预测得到的用户的工作网络和生活网络作为模型输出结果直接输出。
反之,若二者相互冲突,则还需要进一步判断是否存在误检测。例如,利用生活网络预测模型计算得到的用户的生活网络的概率偏低,则可以认为该生活网络并非真实的生活网络,此时将忽略冲突性检测结果,将用户的工作网络作为模型输出结果输出。
当然,在没有误检测的情况下,若判断得到二者相互冲突,则无论工作网络预测模型还是生活网络预测模型都不会有任何输出,而是继续对用户所接入的无线网络进行预测。
通过如上所述的过程,有效地确保了进行公司名称挖掘的工作网络的有效性,即无效的工作网络将不继续进行公司名称的挖掘。
在一实施例中,如上所述的方法还包括以下步骤:
通过用户接入工作网络或者生活网络推算用户的当前状态,并向用户所在移动终端推送与该当前状态相符合的个性化内容。
本实施例中,用户的当前状态分为工作状态和生活状态,工作状态对应于用户工作时,生活状态则对应于用户日常生活时,例如,用户下班后。
如前所述,工作网络是用户在工作时所接入的无线网络,相对的,生活网络则是用户在日常生活中所接入的无线网络,例如,用户回到家所接入的无线网络即可视为生活网络。
基于此,用户的当前状态是与用户所接入的无线网络对应的,即用户处于工作状态下所接入的无线网络是工作网络,其处于生活状态下所接入的无线网络是生活网络。相应地,通过用户接入的无线网络是工作网络还是生活网络即能够推算出用户的当前状态是工作状态还是生活状态。
服务器在推算出用户的当前状态之后,即可根据用户的当前状态向用户所在移动终端进行个性化内容的推送。例如,对于处在工作状态的用户而言,服务器可能向用户推荐一些技术类、与工作相关的文章,以此提高用户的工作效率;而对于处在生活状态的用户而言,则会推荐一些休闲、健身、购物等方面的个性化内容,以此丰富用户的业余生活。
进一步地,为了提高当前状态推算的准确性,还可以联合用户接入无线网络的接入时间进行推算。例如,用户在工作时间接入生活网络,此时的用户很可能是在休假,因此,服务器也将向其所在移动终端推送日常生活相关的个性化内容,而不是进行与工作相关的个性化内容的推送。
通过如上所述的过程,服务器根据用户的当前状态所推送的个性化内容是与用户的实际情况相匹配的,例如,某个重度游戏用户在上班时间中不可能得到与游戏相关的个性化内容的推荐,而在其下班之后服务器才可能向其推荐与游戏相关的个性化内容,进而保障了个性化内容推送的精准性和有效性,避免了用户所在终端中出现大量无用信息,甚至于垃圾信息的情况发生。
请参阅图5,在一实施例中,步骤230之前,如上所述的方法还包括以下步骤:
步骤410,对接入工作网络的用户,分别进行用户总数和有效用户数的统计。
接入工作网络的用户可以分为两种:一种是工作网络即为所接入的工作网络的用户,即对于用户所接入的工作网络而言,该用户是有效用户;另一种则是不以其所接入的工作网络作为工作网络的用户,即对于用户所接入的工作网络而言,该用户是无效用户,例如,该用户仅是参观者,该用户的工作网络有别于其所接入的工作网络。设想一下,若接入工作网络的用户大多是无效用户,则该工作网络可能并非真实的工作网络。
基于此,为了进一步确保进行公司名称挖掘的工作网络的有效性,将对用户总数和有效用户数进行统计。
其中,用户总数即为接入工作网络的所有用户的数量,而有效用户数则是以所接入的工作网络作为工作网络的用户的数量。
步骤430,根据统计出的用户总数和有效用户数进行工作网络的有效性判断,剔除无效的工作网络。
在统计得到用户总数和有效用户数之后,即能够对工作网络的有效性进行判断。
例如,若统计得到的有效用户数超过阈值,或者该有效用户数与用户总数的比值超过阈值,则判定工作网络是有效的,反之,当判定工作网络是无效的,将剔除无效的工作网络,使得服务器不对该无效的工作网络进行公司名称的挖掘。
通过如上所述的过程,进一步有效地确保了进行公司名称挖掘的工作网络的有效性。
请参阅图6,在一实施例中,接入工作网络的用户为多个。可以理解,同一个工作网络下接入的用户将有多个,有的用户是该工作网络的有效用户,有的用户则是以参观者身份接入的该工作网络。
进一步地,步骤230包括以下步骤:
步骤231,根据用户的无线网络接入数据对用户的候选公司名称进行匹配,得到用户关于候选公司名称的初始分布。
用户的无线网络接入数据中可以包含有用户接入的无线网络的名称、用户接入无线网络的时间、甚至于用户登录某个社交网站所使用的昵称和相关备注等等,服务器在预先获得用户的无线网络接入数据之后,即能够充分利用这些无线网络接入数据所包含的内容进行用户属性的挖掘。
本实施例中,在获得用户的无线网络接入数据之后,将利用其所包含的内容匹配出可能的公司名称作为用户的候选公司名称。可以理解,匹配出的候选公司名称可能不止一个,再按照候选公司名称随机出现的概率规律进行计算,即能够得到用户关于候选公司名称的初始分布。
也就是说,该初始分布反映的是用户的候选公司名称在用户的无线网络接入数据中所出现的概率。例如,匹配出的用户a的候选公司名称有公司a和公司b,则用户a关于候选公司名称的初始分布为{公司a:0.3,公司b:0.7},其中,0.3为公司a在用户a的无线网络接入数据中所出现的概率,0.7为公司b在用户a的无线网络接入数据中所出现的概率。
步骤233,对工作网络下多个用户关于候选公司名称的初始分布进行累加,得到工作网络的候选公司名称分布。
由于接入同一个工作网络的所有用户都分别具有关于候选公司名称的初始分布,而在该些初始分布中,可能存在相同的候选公司名称,由此,服务器将对该些初始分布进行累加,以使相同的候选公司名称对应的概率得以累加。
换而言之,工作网络的候选公司名称分布是包含了接入该工作网络的所有用户关于候选公司名称的初始分布的,并且不同用户之间相同的候选公司名称所对应的概率进行了累加。
举例来说,工作网络a下接入的用户有用户a和用户b,用户a关于候选公司名称的初始分布为{公司a:0.3,公司b:0.7},用户b关于候选公司名称的初始分布为{公司b:0.6,公司c:0.4},则工作网络a的候选公司名称分布为{公司a:0.3,公司b:1.3,公司c:0.4}。
步骤235,在工作网络的候选公司名称分布中对候选公司名称作筛选,得到工作网络对应的公司名称。
工作网络的候选公司名称分布反映的是接入了工作网络的所有用户的候选公司名称在所有用户的无线网络接入数据中所出现的概率,该工作网络的候选公司名称中包含的候选公司名称至少有一个。
基于此,服务器将对工作网络的候选公司名称分布中的候选公司名称进行筛选,以得出工作网络对应的公司名称。
例如,工作网络a的候选公司名称分布为{公司a:0.3,公司b:1.3,公司c:0.4},其中,公司b在所有用户的无线网络接入数据中出现的概率为1.3,高于公司a和公司c出现的概率,因此,公司b则被视为工作网络对应的公司名称。
进一步地,服务器还可以进行其他的过滤处理。例如,服务器可能由工作网络的名称中直接提取出该工作网络相关的公司名称,通过将该相关的公司名称与候选公司名称进行相关性计算,则直接将不太相关的候选公司名称过滤掉。又或者,为候选公司名称出现的概率设置阈值,若候选公司名称出现的概率低于阈值,则直接将该候选公司名称过滤掉。通过如上所述的方式,有效地降低了服务器的处理量,提高了服务器的处理效率。
请参阅图7,在一实施例中,用户接入的工作网络为多个。可以理解,对于同一个用户而言,既可能接入的是其上班的公司的工作网络,也有可能是以参观者身份接入了其所参观的公司的工作网络。
进一步地,步骤250包括以下步骤:
步骤251,根据用户的无线网络接入数据在多个工作网络中识别用户频繁接入的工作网络。
可以理解,通过预先构建的模型对用户接入的无线网络预测得到的工作网络可能会有误差,而基于用户所接入的预测得到的多个工作网络通过无线网络接入数据作进一步地频繁接入识别,使得用户以参观者身份接入的工作网络将被剔除,以此消除模型预测阶段中可能存在的误差。
通过如上所述的方式,将有利于避免误差,以此提高用户的工作网络的获取准确性,从而有利于用户属性的准确挖掘。
步骤253,将用户频繁接入的工作网络所对应的公司名称映射至用户,通过映射生成用户的用户属性。
在识别得到用户频繁接入的工作网络并且得到工作网络对应的公司名称之后,服务器将能够进行用户与公司名称之间的映射,即以用户频繁接入的工作网络对应的公司名称作为用户上班的公司的公司名称,从而形成该用户的用户属性。
下面结合一个具体实施例来详细阐述如上所述的方法。在该具体实施例中,如图8所示,用户所在移动终端为其所使用的智能手机530,该智能手机530通过用户所接入的无线网络(家、公司a、公司b的无线网络)将对应的无线网络接入数据上报至服务器510进行用户属性挖掘。
针对于每一个用户,图8a示出了服务器510对于每一个用户曾经接入的所有wifi进行的工作wifi和生活wifi预测的方法流程示意图。
通过对同一用户曾经接入的所有wifi的循环过程551或者553,即分别对其中的每一个wifi进行此wifi是工作wifi的概率或者此wifi是生活wifi的概率的累加,即能够预测得到相互不冲突的针对于该同一用户的工作wifi和生活wifi。
进一步地,通过循环过程555,即能够预测得到针对于每一个用户的工作wifi和生活wifi。
针对于用户曾经接入的每一个wifi,例如用户通过其所使用的智能手机530曾经接入的所有wifi包括了家、公司a和公司b的无线网络,图8b示出了服务器510对于每一个wifi进行对应的公司名称挖掘的方法流程示意图。通过循环过程570,服务器510即能够挖掘得出每一个wifi对应的公司名称。
最后,如图8c所示,通过循环过程590,服务器510将为曾经接入工作wifi的每一个用户建立其与公司名称的映射,以通过映射生成每一个用户的用户属性。
通过如上所述的过程,基于用户的无线网络接入数据实现了用户属性挖掘,而通过用户与优质公司的公司名称进行的映射,还将挖掘得到在优质公司上班的优质用户,该优质用户的收入通常是稳定有保障的,而对于微粒贷等软件应用而言,该优质用户将是需要重点关注的,因为该优质用户将被服务器根据其用户属性划分为高征信客群,从而有利于互联网金融行业依据服务器所划分的客群进行风险控制。
请参阅图9,在一实施例中,一种用户属性挖掘装置600包括:网络预测模块610、名称挖掘模块630及属性生成模块650。
其中,网络预测模块610用于在预先获得的用户接入无线网络所产生的无线网络接入数据中,通过预先构建的模型对用户接入的无线网络进行预测,得到用户的工作网络。
名称挖掘模块630用于针对工作网络,通过无线网络接入数据挖掘工作网络对应的公司名称。
属性生成模块650用于根据工作网络对应的公司名称建立用户与公司名称的映射,由映射生成用户属性。
请参阅图10,在一实施例中,预先构建的模型包括工作网络预测模型,如上所述的装置600还包括:特征提取模块710及模型构建模块730。
其中,特征提取模块710用于在预先获得的无线网络接入数据中,对符合模型准入条件的无线网络接入数据进行工作网络接入特征的提取。
模型构建模块730用于根据提取得到的工作网络接入特征进行模型训练,得到工作网络预测模型。
请参阅图11,在一实施例中,所述网络预测模块610包括:概率计算单元611、权重计算单元613及网络筛选单元615。
其中,概率计算单元611用于以用户的无线网络接入数据为模型输入,利用预先构建的模型计算得到用户接入的无线网络为工作网络的概率。
权重计算单元613用于按照用户接入无线网络的频率对计算得到的无线网络的概率进行累加,得到无线网络对应的权重。
网络筛选单元615用于根据无线网络对应的权重由用户接入的无线网络中筛选出用户的工作网络。
在一实施例中,如上所述的装置600还包括:冲突性检测模块,该冲突性检测模块用于对用户的工作网络和生活网络进行冲突性检测,通过冲突性检测剔除与生活网络存在冲突的工作网络,生活网络由生活网络预测模型预测得到。
在一实施例中,如上所述的装置600还包括:个性化内容推送模块,该个性化内容推送模块用于通过用户接入工作网络或者生活网络推算用户的当前状态,并向用户所在移动终端推送与该当前状态相符合的个性化内容。
请参阅图12,在一实施例中,如上所述的装置600还包括:用户数统计模块810及有效性判断模块830。
其中,用户数统计模块810用于对接入工作网络的用户,分别进行用户总数和有效用户数的统计。
有效性判断模块830用于根据统计出的用户总数和有效用户数进行工作网络的有效性判断,剔除无效的工作网络。
请参阅图13,在一实施例中,接入工作网络的用户为多个,所述名称挖掘模块630包括:名称初始化单元631、分布累加单元633及名称筛选单元635。
其中,名称初始化单元631用于根据用户的无线网络接入数据为输入对用户的候选公司名称进行匹配,得到用户关于候选公司名称的初始分布。
分布累加单元633用于对工作网络下多个用户关于候选公司名称的初始分布进行累加,得到工作网络的候选公司名称分布。
名称筛选单元635用于在工作网络的候选公司名称分布中对候选公司名称作筛选,得到工作网络对应的公司名称。
请参阅图14,在一实施例中,用户接入的工作网络为多个,所述属性生成模块650包括:网络识别单元651及名称映射单元653。
其中,网络识别单元651用于根据用户的无线网络接入数据在多个工作网络中识别用户频繁接入的工作网络。
名称映射单元653用于将用户频繁接入的工作网络所对应的公司名称映射至用户,通过映射生成用户的用户属性。
上述内容,仅为本发明的较佳实施例,并非用于限制本发明的实施方案,本领域普通技术人员根据本发明的主要构思和精神,可以十分方便地进行相应的变通或修改,故本发明的保护范围应以权利要求书所要求的保护范围为准。

Claims (16)

1.一种用户属性挖掘方法,其特征在于,包括:
在预先获得的用户接入无线网络所产生的无线网络接入数据中,通过预先构建的模型对所述用户接入的无线网络进行预测,得到所述用户的工作网络;
针对所述工作网络,通过所述无线网络接入数据挖掘所述工作网络对应的公司名称,所述工作网络对应的公司名称与所述用户关于候选公司名称的初始分布相关,所述用户关于候选公司名称的初始分布用于指示所述用户的候选公司名称在所述无线网络接入数据中随机出现的概率,所述用户的候选公司名称从所述用户的无线网络接入数据中获取;
根据所述工作网络对应的公司名称建立所述用户与公司名称的映射,由所述映射生成用户属性。
2.如权利要求1所述的方法,其特征在于,所述预先构建的模型包括工作网络预测模型,所述在预先获得的用户接入无线网络所产生的无线网络接入数据中,通过预先构建的模型对所述用户接入的无线网络进行预测,得到所述用户的工作网络的步骤之前,所述方法还包括:
在预先获得的无线网络接入数据中,对符合模型准入条件的无线网络接入数据进行工作网络接入特征的提取;
根据提取得到的工作网络接入特征进行模型训练,得到所述工作网络预测模型。
3.如权利要求1所述的方法,其特征在于,所述在预先获得的用户接入无线网络所产生的无线网络接入数据中,通过预先构建的模型对所述用户接入的无线网络进行预测,得到所述用户的工作网络的步骤包括:
以用户的无线网络接入数据为模型输入,利用所述预先构建的模型计算得到所述用户接入的无线网络为工作网络的概率;
根据用户接入所述无线网络的频率确定累加次数,将计算得到的所述无线网络的概率按照所述累加次数进行累加,得到所述无线网络对应的权重;
根据所述无线网络对应的权重由所述用户接入的无线网络中筛选出所述用户的工作网络。
4.如权利要求1所述的方法,其特征在于,所述预先构建的模型包括生活网络预测模型,所述针对所述工作网络,通过所述无线网络接入数据挖掘所述工作网络对应的公司名称的步骤之前,所述方法还包括:
对所述用户的工作网络和生活网络进行冲突性检测,通过所述冲突性检测剔除与所述生活网络存在冲突的工作网络,所述生活网络由所述生活网络预测模型预测得到,所述冲突性检测是指检测所述用户接入所述工作网络的接入时间与所述用户接入所述生活网络的接入时间是否存在重叠。
5.如权利要求1或4所述的方法,其特征在于,所述方法还包括:
通过所述用户接入工作网络或者生活网络推算所述用户的当前状态,并向所述用户所在移动终端推送与该当前状态相符合的个性化内容。
6.如权利要求1所述的方法,其特征在于,所述针对所述工作网络,通过所述无线网络接入数据挖掘所述工作网络对应的公司名称的步骤之前,所述方法还包括:
对接入所述工作网络的用户,分别进行用户总数和有效用户数的统计,有效用户是指用户以接入的工作网络作为该用户自身的工作网络;
根据统计出的所述用户总数和有效用户数进行所述工作网络的有效性判断,剔除无效的所述工作网络。
7.如权利要求1所述的方法,其特征在于,接入所述工作网络的用户为多个,所述针对所述工作网络,通过所述无线网络接入数据挖掘所述工作网络对应的公司名称的步骤包括:
根据所述用户的候选公司名称在所述无线网络接入数据中随机出现的概率得到所述用户关于候选公司名称的初始分布;
所述工作网络下,将多个所述用户关于候选公司名称的初始分布中相同候选公司名称在所述无线网络接入数据中随机出现的概率累加,得到所述工作网络的候选公司名称分布;
在所述工作网络的候选公司名称分布中,根据候选公司在所述无线网络接入数据中随机出现的概率对候选公司名称作筛选,得到所述工作网络对应的公司名称。
8.如权利要求1所述的方法,其特征在于,所述用户接入的工作网络为多个,所述根据所述工作网络对应的公司名称建立所述用户与公司名称的映射,由所述映射生成用户属性的步骤包括:
根据所述用户的无线网络接入数据在所述多个工作网络中识别所述用户频繁接入的工作网络;
将所述用户频繁接入的工作网络所对应的公司名称映射至所述用户,通过所述映射生成所述用户的用户属性。
9.一种用户属性挖掘装置,其特征在于,包括:
网络预测模块,用于在预先获得的用户接入无线网络所产生的无线网络接入数据中,通过预先构建的模型对所述用户接入的无线网络进行预测,得到所述用户的工作网络;
名称挖掘模块,用于针对所述工作网络,通过所述无线网络接入数据挖掘所述工作网络对应的公司名称,所述工作网络对应的公司名称与所述用户关于候选公司名称的初始分布相关,所述用户关于候选公司名称的初始分布用于指示所述用户的候选公司名称在所述无线网络接入数据中随机出现的概率,所述用户的候选公司名称从所述用户的无线网络接入数据中获取;
属性生成模块,用于根据所述工作网络对应的公司名称建立所述用户与公司名称的映射,由所述映射生成用户属性。
10.如权利要求9所述的装置,其特征在于,所述预先构建的模型包括工作网络预测模型,所述装置还包括:
特征提取模块,用于在预先获得的无线网络接入数据中,对符合模型准入条件的无线网络接入数据进行工作网络接入特征的提取;
模型构建模块,用于根据提取得到的工作网络接入特征进行模型训练,得到所述工作网络预测模型。
11.如权利要求9所述的装置,其特征在于,所述网络预测模块包括:
概率计算单元,用于以用户的无线网络接入数据为模型输入,利用所述预先构建的模型计算得到所述用户接入的无线网络为工作网络的概率;
权重计算单元,用于根据用户接入所述无线网络的频率确定累加次数,将计算得到的所述无线网络的概率按照所述累加次数进行累加,得到所述无线网络对应的权重;
网络筛选单元,用于根据所述无线网络对应的权重由所述用户接入的无线网络中筛选出所述用户的工作网络。
12.如权利要求9所述的装置,其特征在于,所述装置还包括:
冲突性检测模块,用于对所述用户的工作网络和生活网络进行冲突性检测,通过所述冲突性检测剔除与所述生活网络存在冲突的工作网络,所述生活网络由所述生活网络预测模型预测得到,所述冲突性检测是指检测所述用户接入所述工作网络的接入时间与所述用户接入所述生活网络的接入时间是否存在重叠。
13.如权利要求9或12所述的装置,其特征在于,所述装置还包括:
个性化内容推送模块,用于通过所述用户接入工作网络或者生活网络推算所述用户的当前状态,并向所述用户所在移动终端推送与该当前状态相符合的个性化内容。
14.如权利要求9所述的装置,其特征在于,所述装置还包括:
用户数统计模块,用于对接入所述工作网络的用户,分别进行用户总数和有效用户数的统计,有效用户是指用户以接入的工作网络作为该用户自身的工作网络;
有效性判断模块,用于根据统计出的所述用户总数和有效用户数进行所述工作网络的有效性判断,剔除无效的所述工作网络。
15.如权利要求9所述的装置,其特征在于,接入所述工作网络的用户为多个,所述名称挖掘模块包括:
名称初始化单元,用于根据所述用户的候选公司名称在所述无线网络接入数据中随机出现的概率得到所述用户关于候选公司名称的初始分布;
分布累加单元,用于所述工作网络下,将多个所述用户关于候选公司名称的初始分布中相同候选公司名称在所述无线网络接入数据中随机出现的概率累加,得到所述工作网络的候选公司名称分布;
名称筛选单元,用于在所述工作网络的候选公司名称分布中,根据候选公司在所述无线网络接入数据中随机出现的概率对候选公司名称作筛选,得到所述工作网络对应的公司名称。
16.如权利要求9所述的装置,其特征在于,所述用户接入的工作网络为多个,所述属性生成模块包括:
网络识别单元,用于根据所述用户的无线网络接入数据在所述多个工作网络中识别所述用户频繁接入的工作网络;
名称映射单元,用于将所述用户频繁接入的工作网络所对应的公司名称映射至所述用户,通过所述映射生成所述用户的用户属性。
CN201610313392.6A 2016-05-11 2016-05-11 用户属性挖掘方法及装置 Active CN105978722B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610313392.6A CN105978722B (zh) 2016-05-11 2016-05-11 用户属性挖掘方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610313392.6A CN105978722B (zh) 2016-05-11 2016-05-11 用户属性挖掘方法及装置

Publications (2)

Publication Number Publication Date
CN105978722A CN105978722A (zh) 2016-09-28
CN105978722B true CN105978722B (zh) 2019-02-26

Family

ID=56992319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610313392.6A Active CN105978722B (zh) 2016-05-11 2016-05-11 用户属性挖掘方法及装置

Country Status (1)

Country Link
CN (1) CN105978722B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107070675B (zh) * 2016-10-19 2019-12-31 腾云天宇科技(北京)有限公司 一种确定网络设备的应用场景的方法、装置和计算设备
CN106954207B (zh) * 2017-04-25 2018-06-05 腾讯科技(深圳)有限公司 一种获取目标终端的帐号属性值的方法及装置
CN110737848A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 用户工作单位的挖掘处理方法、装置及电子设备
CN111126653B (zh) * 2018-11-01 2022-06-17 百度在线网络技术(北京)有限公司 用户职住地预测方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101083585A (zh) * 2006-05-31 2007-12-05 阿尔卡特朗讯 基于位置信息统计的紧急服务
CN101661675A (zh) * 2009-09-29 2010-03-03 苏州思必驰信息科技有限公司 一种错误自感知的声调发音学习方法和系统
CN105447129A (zh) * 2015-11-18 2016-03-30 腾讯科技(深圳)有限公司 个性化内容获取方法、用户属性挖掘方法、系统和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101083585A (zh) * 2006-05-31 2007-12-05 阿尔卡特朗讯 基于位置信息统计的紧急服务
CN101661675A (zh) * 2009-09-29 2010-03-03 苏州思必驰信息科技有限公司 一种错误自感知的声调发音学习方法和系统
CN105447129A (zh) * 2015-11-18 2016-03-30 腾讯科技(深圳)有限公司 个性化内容获取方法、用户属性挖掘方法、系统和装置

Also Published As

Publication number Publication date
CN105978722A (zh) 2016-09-28

Similar Documents

Publication Publication Date Title
CN110245165B (zh) 风险传导关联图谱优化方法、装置和计算机设备
CN105590055B (zh) 用于在网络交互系统中识别用户可信行为的方法及装置
CN105978722B (zh) 用户属性挖掘方法及装置
CN111309822B (zh) 用户身份识别方法及装置
CN110414987A (zh) 账户集合的识别方法、装置和计算机系统
CN109508879B (zh) 一种风险的识别方法、装置及设备
CN104077723B (zh) 一种社交网络推荐系统及方法
CN104516910A (zh) 在客户端服务器环境中推荐内容
US20230027450A1 (en) System and methods for credit underwriting and ongoing monitoring using behavioral parameters
CN109274639A (zh) 开放平台异常数据访问的识别方法和装置
CN110197426B (zh) 一种信用评分模型的建立方法、装置及可读存储介质
CN110609908A (zh) 案件串并方法及装置
CN110727740B (zh) 关联分析方法及装置、计算机设备与可读介质
CN107943906A (zh) 一种信息的收藏、展示方法和装置
CN112750038B (zh) 交易风险的确定方法、装置和服务器
CN117474091A (zh) 一种知识图谱构建方法、装置、设备及存储介质
CN113791837A (zh) 页面处理方法、装置、设备和存储介质
CN112966756A (zh) 一种可视化的准入规则的生成方法、装置、机器可读介质及设备
Dong Application of Big Data Mining Technology in Blockchain Computing
CN115840738A (zh) 一种数据迁移方法、装置、电子设备及存储介质
CN112069392B (zh) 涉网犯罪防控方法、装置、计算机设备及存储介质
CN114579711A (zh) 诈骗应用程序的识别方法、装置、设备及存储介质
CN113052647A (zh) 一种用于冷启动的推荐方法、装置及计算机可读存储介质
CN114374595B (zh) 事件节点归因分析方法、装置、电子设备及存储介质
CN113240472B (zh) 理财产品推荐方法、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant