CN105550248B - 用户信息挖掘方法及装置 - Google Patents

用户信息挖掘方法及装置 Download PDF

Info

Publication number
CN105550248B
CN105550248B CN201510900157.4A CN201510900157A CN105550248B CN 105550248 B CN105550248 B CN 105550248B CN 201510900157 A CN201510900157 A CN 201510900157A CN 105550248 B CN105550248 B CN 105550248B
Authority
CN
China
Prior art keywords
company
address
information
user
internet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510900157.4A
Other languages
English (en)
Other versions
CN105550248A (zh
Inventor
陈帅
刘铁俊
王刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaomi Inc
Original Assignee
Xiaomi Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaomi Inc filed Critical Xiaomi Inc
Priority to CN201510900157.4A priority Critical patent/CN105550248B/zh
Publication of CN105550248A publication Critical patent/CN105550248A/zh
Application granted granted Critical
Publication of CN105550248B publication Critical patent/CN105550248B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本公开实施例公开了一种用户信息挖掘方法及装置,用户信息挖掘方法由服务器根据接收到的网络访问请求,获取该网络访问请求对应的IP地址。然后,统计各个IP地址对应的用户上网信息,在根据用户上网信息确定IP地址是公司IP地址时,获取公司IP地址对应的公司信息。并确定该公司信息是在工作时间使用该公司IP地址的全部用户对应的公司信息。从而实现根据用户的IP地址确定用户的公司信息,并进一步方便根据用户的公司信息分析用户的信用情况。通常同一公司所使用的IP地址相同,而且,同一公司的人数通常比较多,因此,基于IP地址的网络数据的覆盖量更大、可靠性更高,更容易获得用户信息。

Description

用户信息挖掘方法及装置
技术领域
本公开涉及计算机技术领域,特别是涉及一种用户信息挖掘方法及装置。
背景技术
随着互联网技术飞速发展,互联网公司希望通过分析大量的用户网络行为数据获得用户的相关信息。例如,用户的征信。个人征信用于记录用户个人的信用行为,即信用记录。在分析用户信用时,用户的职业或所在公司是一个重要的因素。
相关技术中,通过用户使用社交软件所产生的信息,例如,用户的注册信息或用户的好友信息,分析用户职业所属行业及用户所在的公司。但是,社交软件中的数据稀疏,搜集用户信息的难度大。
发明内容
为克服相关技术中存在的问题,本公开提供一种用户信息挖掘方法及装置。
为了解决上述技术问题,本公开实施例公开了如下技术方案:
根据本公开实施例的第一方面,提供一种用户信息挖掘方法,包括:
根据终端发送的网络访问请求,获取所述网络访问请求所对应的IP地址;
统计各个IP地址对应的用户上网信息,所述用户上网信息包括以下至少一项:用户数量、用户上网时间分布及IP地址对应的地理位置;
根据所述IP地址对应的用户上网信息判断所述IP地址是否是公司IP地址;
当根据所述用户上网信息确定所述IP地址是公司IP地址时,获取所述公司IP地址对应的公司信息;
将所述公司信息同步到在工作时间使用所述公司IP地址的全部用户的用户信息中。
第一方面提供的用户信息挖掘方法,获取终端发送的网络访问请求对应的IP地址,然后,统计各个IP地址对应的用户上网信息;如果根据用户上网信息确定该IP地址是公司IP地址,则获取该IP地址对应的公司信息。最后,将该IP地址对应的公司信息同步到使用该IP地址的其它用户的用户信息中。通常同一公司所使用的IP地址相同,而且,同一公司的人数通常比较多,因此,基于IP地址的网络数据的覆盖量更大、可靠性更高,更容易获得用户信息。
可选地,所述根据终端发送的网络访问请求,获取所述网络访问请求所对应的IP地址,包括:
从终端发送的网络访问请求中,获取所述网络访问请求所携带的IP地址;
获取所述IP地址的联网参数,所述联网参数包括以下至少一项:连接时间、上报次数;
删除所述联网参数满足第一预设条件的IP地址,所述第一预设条件包括以下至少一项:连接时间低于预设时长、上报次数低于预设次数。
本实施例提供的用户信息挖掘方法,在获取终端发送的网络请求所携带的IP地址时,结合终端的联网参数,过滤掉可能是噪声的IP地址,从而提高了获得的IP地址的准确率。
可选地,所述根据所述IP地址对应的用户上网信息判断所述IP地址是否是公司IP地址,包括:
判断所述用户上网信息是否满足第二预设条件,所述第二预设条件包括以下至少一项:使用所述IP地址用户数量高于预设数量、用户上网时间处于工作时间、IP地址对应的地理位置是公司地址;
当所述用户上网信息满足第二预设条件时,确定所述用户上网信息对应的IP地址是公司IP地址;
当所述用户上网信息不满足第二预设条件时,确定所述用户上网信息对应的IP地址不是公司IP地址。
本实施例提供的用户信息挖掘方法,可以根据使用IP地址的用户数量、上网时间和该IP地址对应的地理位置中的至少一项,来判断该IP地址是否是公司IP地址,判断方式灵活,而且,可以利用多种方式综合判断IP地址是否是公司使用的IP地址,从而提高了判断结果的准确率。
可选地,所述获取所述公司IP地址对应的公司信息,包括:
获取使用所述公司IP地址的用户所标注的公司信息,并将所述公司信息确定为所述公司IP地址对应的公司信息。
可选地,若获得多个公司信息,则所述获取使用所述公司IP地址的用户所标注的公司信息,并将所述公司信息确定为所述公司IP地址对应的公司信息,包括:
获取使用所述公司IP地址的多个公司信息;
获取所述公司信息中的关键字信息;
根据所述关键字信息统计各个所述公司信息的数量,确定数量最多的公司信息作为所述公司IP地址对应的公司信息。
可选地,所述方法还包括:存储IP地址与公司信息之间的对应关系。
本实施例提供的用户信息挖掘方法,在确定IP地址对应的公司信息后,存储IP地址与公司信息之间的对应关系,这样,后续再检测到使用该IP地址的新用户后,查找IP地址与公司信息之间的对应关系,即可获得该用户的公司信息。不需要重新判断,节省了资源及时间。
根据本公开实施例的第二方面,提供一种用户信息挖掘装置,包括:
第一获取模块,用于根据终端发送的网络访问请求,获取所述网络访问请求所对应的IP地址;
统计模块,用于统计所述第一获取模块获得的各个IP地址对应的用户上网信息,所述用户上网信息包括以下至少一项:用户数量、用户上网时间分布及IP地址对应的地理位置;
判断模块,用于根据所述IP地址对应的用户上网信息判断所述IP地址是否是公司IP地址;
第二获取模块,用于当所述判断模块确定所述IP地址是公司IP地址时,获取所述公司IP地址对应的公司信息;
同步模块,用于将所述第二获取模块获得的公司信息同步到在工作时间使用所述公司IP地址的全部用户的用户信息中。
可选地,所述第一获取模块包括:
第一获取子模块,用于从终端发送的网络访问请求中,获取所述网络访问请求所携带的IP地址;
第二获取子模块,用于获取所述第一获取子模块获得的IP地址的联网参数,所述联网参数包括以下至少一项:连接时间、上报次数;
删除子模块,用于删除所述第二获取子模块获得的联网参数满足第一预设条件的IP地址,所述第一预设条件包括以下至少一项:连接时间低于预设时长、上报次数低于预设次数。
可选地,所述判断模块包括:
判断子模块,用于判断所述用户上网信息是否满足第二预设条件,所述第二预设条件包括以下至少一项:使用所述IP地址用户数量高于预设数量、用户上网时间处于工作时间、IP地址对应的地理位置是公司地址;
第一确定子模块,用于当所述判断子模块判断出用户上网信息满足第二预设条件时,确定所述用户上网信息对应的IP地址是公司IP地址;
第二确定子模块,用于当所述判断子模块判断出用户上网信息不满足第二预设条件时,确定所述用户上网信息对应的IP地址不是公司IP地址。
可选地,所述第二获取模块用于:
获取使用所述公司IP地址的用户所标注的公司信息,并将所述公司信息确定为所述公司IP地址对应的公司信息。
可选地,若获得多个公司信息,则所述第二获取模块获取使用所述公司IP地址的用户所标注的公司信息,并将所述公司信息确定为所述公司IP地址对应的公司信息,包括:
第三获取子模块,用于获取使用所述公司IP地址的多个公司信息;
第四获取子模块,用于获取所述第三获取子模块获得的公司信息中的关键字信息;
第三确定子模块,用于根据所述第四获取子模块获得的关键字信息统计各个所述公司信息的数量,确定数量最多的公司信息作为所述公司IP地址对应的公司信息。
可选地,所述装置还包括:
存储模块,用于存储IP地址与公司信息之间的对应关系。
根据本公开实施例的第三方面,提供一种服务器,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
根据终端发送的网络访问请求,获取所述网络访问请求所对应的IP地址;
统计各个IP地址对应的用户上网信息,所述用户上网信息包括以下至少一项:用户数量、用户上网时间分布及IP地址对应的地理位置;
根据所述IP地址对应的用户上网信息判断所述IP地址是否是公司IP地址;
当根据所述用户上网信息确定所述IP地址是公司IP地址时,获取所述公司IP地址对应的公司信息;
将所述公司信息同步到在工作时间使用所述公司IP地址的全部用户的用户信息中。
本公开的实施例提供的技术方案可以包括以下有益效果:服务器根据接收到的网络访问请求,获取该网络访问请求对应的IP地址。然后,统计各个IP地址对应的用户上网信息,在根据用户上网信息确定IP地址是公司IP地址时,获取公司IP地址对应的公司信息。并确定该公司信息是在工作时间使用该公司IP地址的全部用户对应的公司信息。从而实现根据用户的IP地址确定用户的公司信息,并进一步方便根据用户的公司信息分析用户的信用情况。通常同一公司所使用的IP地址相同,而且,同一公司的人数通常比较多,因此,基于IP地址的网络数据的覆盖量更大、可靠性更高,更容易获得用户信息。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种用户信息挖掘方法的流程图;
图2是根据一示例性实施例示出的另一种用户信息挖掘方法的流程图;
图3是根据一示例性实施例示出的另一种用户信息挖掘方法的流程图;
图4是根据一示例性实施例示出的一种获取公司IP地址对应的公司信息的流程图;
图5是根据一示例性实施例示出的一种用户信息挖掘装置的框图;
图6是根据一示例性实施例示出的第二获取模块的框图;
图7是根据一示例性实施例示出的一种第一获取模块的框架图;
图8是根据一示例性实施例示出的一种判断模块的框图;
图9是根据一示例性实施例示出的另一种用户信息挖掘装置框图;
图10是根据一示例性实施例示出的一种用于用户信息挖掘的装置的框图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种用户信息挖掘方法的流程图,该方法应用于服务器中,如图1所示,该方法可以包括以下步骤:
在S110中,服务器根据终端发送的网络访问请求,获取网络访问请求所对应的IP(Internet Protocol,互联网协议)地址。
其中,服务器是指能够提供网络服务的服务器,例如,提供。
终端访问互联网服务时,会向对应的服务器发送网络访问请求,该网络访问请求携带终端所使用的IP地址。
终端可以是PC机、也可以是智能手机、平板电脑等可以连接互联网的终端设备。网络访问请求可以是终端经过各种网络渠道发送,例如,用户通过PC机的浏览器访问某个网络服务,或者,通过智能终端上的相应APP(Application,应用程序)访问某项网络服务。
在S120中,服务器统计各个IP地址对应的用户上网信息。
用户上网信息包括以下至少一项:用户数量、用户上网时间分布及IP地址对应的地理位置。
分别统计发送网络访问请求的每个IP地址对应的用户上网信息。
在S130中,根据IP地址对应的用户上网判断IP地址是否是公司IP地址;如果根据IP地址对应的用户上网信息确定该IP地址是公司IP地址,则执行S140;如果根据IP地址对应的用户上网信息确定该IP地址不是公司IP地址,则结束当前流程。
在S140中,服务器获取公司IP地址对应的公司信息。
可以根据发送网络访问请求的IP地址对应的用户上网信息判断该IP地址是否是某个公司使用的IP地址。
例如,如果某个IP地址的用户数量比较大、用户上网时间分布在上班时间(例如,工作日的工作时间),或者,该IP地址对应的地址是公司地址,此种情况下,确定该IP地址是公司IP地址。
然后,获取该IP地址对应的公司信息。例如,可以从使用该IP地址的某一个用户在自己的用户信息中标注了所在公司信息,则确定该用户标注的公司信息是该IP地址对应的公司信息。
在S150中,服务器将该公司信息同步到在工作时间使用公司IP地址的全部用户的用户信息中。
获得IP地址对应的公司信息后,认为在工作时间使用该IP地址的用户均是该公司的员工,并将该公司信息同步到在工作时间使用该IP地址的其它用户的用户信息中,从而建立IP地址与公司信息之间的对应关系。后续,再检测该IP地址下的新用户时,将IP地址对应的公司信息同步到新用户的用户信息中。
例如,服务器获得20个使用某一IP地址的用户,而且,这20个用户中有1个用户在自己的用户信息中标注了公司信息,例如,公司甲。则可以将该用户所标注的公司信息“公司甲”同步到其它19个用户的用户信息中。
本实施例提供的用户信息挖掘方法,服务器根据接收到的网络访问请求,获取该网络访问请求对应的IP地址。然后,统计各个IP地址对应的用户上网信息,在根据用户上网信息确定IP地址是公司IP地址时,获取公司IP地址对应的公司信息。并确定该公司信息是在工作时间使用该公司IP地址的全部用户对应的公司信息。从而实现根据用户的IP地址确定用户的公司信息,并进一步方便根据用户的公司信息分析用户的信用情况。通常同一公司所使用的IP地址相同,而且,同一公司的人数通常比较多,因此,基于IP地址的网络数据的覆盖量更大、可靠性更高,更容易获得用户信息。
图2是根据一示例性实施例示出的另一种用户信息挖掘方法的流程图,该方法可以包括以下步骤:
在S210中,服务器接收终端发送的网络访问请求。
在S220中,服务器获取网络访问请求所携带的IP地址。
在S230中,服务器获取IP地址的联网参数。该联网参数包括以下至少一项:连接时间、上报次数。
服务器接收到终端发送的网络访问请求后,获取发送该网络访问请求的IP地址所对应的联网参数。例如,获取该IP地址的连接时间或上报次数等参数。其中,连接时间是指使用该IP地址连接网络的时间;连接时间在IP地址切换时获得,例如,用户连接IP地址A,一小时后又切换到连接IP地址B,则认为利用IP地址A连接网络的时间是一小时。
上报次数是指,在联网状态下上报该IP地址的次数,例如,在上班时间内某用户上报该IP地址的次数。
在S240中,服务器删除联网参数满足第一预设条件的IP地址;第一预设条件包括以下至少一项:连接时间低于预设时长、上报次数低于预设次数。
删除连接时间比较短、上报次数比较少的IP地址。例如,用户使用某IP地址连接网络的时间只有2min左右,则认为该IP地址可能是噪声,并删掉该IP地址;或者,在上报时间段内用户上报某个IP地址的次数只有1~2次,则认为该IP地址可能是噪声,并删掉该IP地址。
在S250中,服务器统计获得的各个IP地址对应的用户上网信息。
用户上网信息包括以下至少一项:用户数量、用户上网时间分布及IP地址对应的地理位置。
在S260中,服务器根据用户上网信息判断IP地址是否是公司IP地址;当确定IP地址是公司IP地址时,执行S270;当确定IP地址不是公司IP地址时,结束当前流程。
在本公开的一个实施例中,判断所述用户上网信息是否满足第二预设条件,如果满足,则确定用户上网信息对应的IP地址是公司IP地址;如果不满足,则确定用户上网信息对应的IP地址不是公司IP地址。
所述第二预设条件包括以下至少一项:使用所述IP地址用户数量高于预设数量、用户上网时间处于工作时间、IP地址对应的地理位置是公司地址。其中,预设数量可以根据实际情况自由设定,例如,可以设定为10个;工作时间是指法定工作日的工作时间段,例如,8:00~18:00。通过查找IP库,可以确定某个IP地址的大概地理位置。
如果IP地址对应的用户上网信息不满足第二预设条件中的任意一项,则确定用户上网信息对应的IP地址不是公司IP地址。
在S270中,服务器获取公司IP地址对应的公司信息。
在S280中,服务器将公司信息同步到在工作时间使用该公司IP地址的其它用户的用户信息中。
本实施例提供的用户信息挖掘方法,先通过IP地址的联网参数删掉可能是噪声的IP地址,再获取剩下的IP地址对应的用户上网信息,从而减轻服务器获取IP地址对应的用户上网信息的负担。
图3是根据一示例性实施例示出的另一种用户信息挖掘方法的流程图,应用于服务器中,如图3所示,该方法可以包括以下步骤:
在S310中,服务器根据终端发送的网络访问请求,获取网络访问请求所对应的IP地址。
在S320中,服务器统计各个IP地址对应的用户上网信息。
在S330中,服务器根据IP地址对应的用户上网信息判断IP地址是否是公司IP地址;如果根据IP地址对应的用户上网信息确定该IP地址是公司IP地址,则执行S340;如果根据IP地址对应的用户上网信息确定该IP地址不是公司IP地址,则结束当前流程。
判断IP地址对应的用户上网信息是否满足第二预设条件,如果满足第二预设条件,则认为IP地址是公司IP地址,如果不满足第二预设条件,则认为IP地址不是公司IP地址。
在S340中,服务器获取使用公司IP地址的用户所标注的公司信息,并将所述公司信息确定为所述公司IP地址对应的公司信息。
在本公开的一个实施例中,如果使用公司IP地址的至少一个用户所标注的公司信息相同,则确定用户所标注的公司信息为公司IP地址对应的公司信息。
在本公开的另一个实施例中,如果使用公司IP地址的至少一个用户标注有多个公司信息,且多个公司信息不完全相同,则从多个公司信息中确定出一个作为该公司IP地址对应的公司信息。
图4是根据一示例性实施例示出的一种获取公司IP地址对应的公司信息的流程图,如图4所示,S340可以包括以下步骤:
在S341中,服务器获取使用公司IP地址的多个公司信息。
在S342中,服务器获取用户标注的公司信息中的关键字信息。
在本公开的一个应用场景中,同一个公司的用户所标注的公司信息可能会出现差异,例如,用户A标注的公司是“小米科技公司”,而用户B标注的公司是“小米公司”。因此,需要获取用户标注的公司信息中的关键字信息,例如,“小米科技公司”与“小米公司”的关键字信息都是“小米”。
在S343中,服务器根据关键字信息统计各个公司信息分别对应的数量,并确定数量最多的公司信息作为公司IP地址对应的公司信息。
如果两个公司信息的关键字信息相同,则认为两个公司信息是同一个公司,根据此原则统计用户标注的各个公司信息的数量,并确定数量最多的公司信息是公司IP地址对应的公司信息。
例如,使用公司IP地址的用户中有5个用户标注了公司信息,其中,有3个用户标注的公司信息是公司1,另外2个用户标注的公司信息是公司2,则确定公司1是公司IP地址对应的公司信息。
在本公开的另一个实施例中,还可以根据IP地址对应的地理位置校验IP地址的公司信息。找到IP地址对应的数量最多的公司信息后,获取该IP地址对应的地理位置信息与公司信息对应的公司地址是否一致,如果一致,则确定数量最多的公司信息即IP地址对应的公司信息。例如,某个IP地址对应的地理位置是“朝阳区”;获得IP地址对应的数量最多的公司信息所对应的公司地址是“朝阳区安定路1号”,则认为该IP地址的地理位置与公司地址相一致。
在S350中,服务器将公司IP地址对应的公司信息同步到在工作时间使用该公司IP地址的全部用户的用户信息中。
在S360中,服务器存储IP地址与公司信息之间的对应关系。
确定IP地址对应的公司信息后,存储IP地址与公司信息之间的对应关系,这样,后续再检测到使用该IP地址的新用户后,查找IP地址与公司信息之间的对应关系,即可获得该用户的公司信息。进一步,可以利用用户的公司信息分析用户的信用情况。
本实施例提供的用户信息挖掘方法,在确定IP地址是公司IP地址后,获取使用该公司IP地址的用户所标注的公司信息,并根据获得的用户所标注的公司信息确定该公司IP地址对应的公司信息,利用该方法获取用户的公司信息的过程简单、方便。
相应于上述的用户信息挖掘方法实施例,本公开还提供了用户信息挖掘装置实施例。
图5是根据一示例性实施例示出的一种用户信息挖掘装置的框图,该装置应用于服务器中,如图5所示,该装置可以包括:第一获取模块510、统计模块520、判断模块530、第二获取模块540和同步模块550。
第一获取模块510被配置为,根据终端发送的网络访问请求,获取所述网络访问请求所对应的IP地址。
终端访问互联网服务时,会向对应的服务器发送网络访问请求,该网络访问请求携带终端所使用的IP地址。
网络访问请求可以是终端经过各种网络渠道发送,例如,用户通过PC机的浏览器访问某个网络服务,或者,通过智能终端上的相应APP访问某项网络服务。
统计模块520被配置为,统计所述第一获取模块510获得的各个IP地址对应的用户上网信息。
所述用户上网信息包括以下至少一项:用户数量、用户上网时间分布及IP地址对应的地理位置。
判断模块530被配置为,根据所述IP地址对应的用户上网信息判断所述IP地址是否是公司IP地址。
第二获取模块540被配置为,当所述判断模块530确定所述IP地址是公司IP地址时,获取所述公司IP地址对应的公司信息。
在本公开的一个实施例中,如果使用公司IP地址的至少一个用户所标注的公司信息相同,则确定用户所标注的公司信息为公司IP地址对应的公司信息。
在本公开的另一个实施例中,如果使用公司IP地址的至少一个用户标注有多个公司信息,且多个公司信息不完全相同,则从多个公司信息中确定出一个作为该公司IP地址对应的公司信息。
图6是根据一示例性实施例示出的第二获取模块的框图,如图6所示,该第二获取模块包括第三获取子模块541、第四获取子模块542和第三确定子模块543。
第三获取子模块541被配置为,获取使用所述公司IP地址的多个公司信息。
第四获取子模块542被配置为,获取所述第三获取子模块获得的公司信息中的关键字信息。
第三确定子模块543被配置为,根据所述第四获取子模块获得的关键字信息统计各个所述公司信息的数量,确定数量最多的公司信息作为所述公司IP地址对应的公司信息。
同步模块550被配置为,将所述第二获取模块540获得的公司信息同步到在工作时间使用所述公司IP地址的全部用户的用户信息中。
获得IP地址对应的公司信息后,将该公司信息同步到能够获得的、在工作时间使用该IP地址的用户对应的用户信息中。
本实施例提供的用户信息挖掘装置,接收到的网络访问请求后,获取该网络访问请求对应的IP地址。然后,统计各个IP地址对应的用户上网信息,在根据用户上网信息确定IP地址是公司IP地址时,获取公司IP地址对应的公司信息。并确定该公司信息是在工作时间使用该公司IP地址的全部用户对应的公司信息。从而实现根据用户的IP地址确定用户的公司信息。进一步地,方便根据用户的公司信息分析用户的信用情况。通常同一公司所使用的IP地址相同,而且,同一公司的人数通常比较多,因此,基于IP地址的网络数据的覆盖量更大、可靠性更高,更容易获得用户信息。
在本公开一示例性实施例中,对终端的IP地址进行清理,删除可能是噪声的IP地址。
图7是根据一示例性实施例示出的一种第一获取模块的框架图,如图7所示,该第一获取模块包括第一获取子模块511、第二获取子模块512和删除子模块513。
第一获取子模块511被配置为,从终端发送的网络访问请求中,获取所述网络访问请求所携带的IP地址。
第二获取子模块512被配置为,获取所述第一获取子模块获得的IP地址的联网参数。
所述联网参数包括以下至少一项:连接时间、上报次数。
连接时间是指使用该IP地址连接网络的时间;连接时间在IP地址切换时获得,例如,用户连接IP地址A,一小时后又切换到连接IP地址B,则认为利用IP地址A连接网络的时间是一小时。
上报次数是指,在联网状态下上报该IP地址的次数,例如,在上班时间内某用户上报该IP地址的次数。
删除子模块513被配置为,删除所述第二获取子模块获得的联网参数满足第一预设条件的IP地址。
所述第一预设条件包括以下至少一项:连接时间低于预设时长、上报次数低于预设次数。
用户使用某IP地址连接网络的时间只有2min左右,则认为该IP地址可能是噪声,并删掉该IP地址;或者,在上报时间段内用户上报某个IP地址的次数只有1~2次,则认为该IP地址可能是噪声,并删掉该IP地址。
本实施例提供的第一获取模块,在获取终端发送的网络请求所携带的IP地址时,结合终端的联网参数,过滤掉可能是噪声的IP地址,从而提高了获得的IP地址的准确率。
图8是根据一示例性实施例示出的一种判断模块的框图,如图8所示,该判断模块530可以包括判断子模块531、第一确定子模块532和第二确定子模块533。
判断子模块531被配置为,判断所述用户上网信息是否满足第二预设条件。
所述第二预设条件包括以下至少一项:使用所述IP地址用户数量高于预设数量、用户上网时间处于工作时间、IP地址对应的地理位置是公司地址。
其中,预设数量可以根据实际情况自由设定,例如,可以设定为10个;工作时间是指法定工作日的工作时间段,例如,8:00~18:00。通过查找IP库,可以确定某个IP地址的大概地理位置。
第一确定子模块532被配置为,当所述判断子模块531判断出用户上网信息满足第二预设条件时,确定所述用户上网信息对应的IP地址是公司IP地址。
第二确定子模块533被配置为,当所述判断子模块531判断出用户上网信息不满足第二预设条件时,确定所述用户上网信息对应的IP地址不是公司IP地址。
本实施例提供的用户信息挖掘装置中的判断模块,通常公司内的人数较多,因此使用的公司IP地址的人数较多;而且,公司员工的工作时间基本相同,因此,使用该IP地址的用户的上网时间相对比较集中且在工作时间段内;综上,可以根据使用IP地址的用户数量、使用IP地址的用户上网时间判断该IP地址是否是公司使用的IP地址。此外,还可以通过IP地址对应的地理位置是否是公司地址确定该IP地址是否是公司使用的IP地址。判断方式灵活,而且,可以利用多种方式综合判断IP地址是否是公司使用的IP地址,从而提高了判断结果的准确率。
图9是根据一示例性实施例示出的另一种用户信息挖掘装置框图,该装置在图5所示实施例的基础上还包括存储模块910。
存储模块910被配置为,存储IP地址与公司信息之间的对应关系。
本实施例提供的用户信息挖掘装置,确定IP地址对应的公司信息后,存储IP地址与公司信息之间的对应关系,这样,后续再检测到使用该IP地址的新用户后,查找IP地址与公司信息之间的对应关系,即可获得该用户的公司信息。不需要重新判断,节省了资源及时间。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图10是根据一示例性实施例示出的一种用于用户信息挖掘的装置1000的框图。例如,装置1000可以被提供为一服务器。如图10所示,装置1000包括处理组件1022,其进一步包括一个或多个处理器,以及由存储器1032所代表的存储器资源,用于存储可由处理组件1022的执行的指令,例如应用程序。存储器1032中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1022被配置为执行指令,以执行上述图1~图4所示的方法实施例。
装置1000还可以包括一个电源组件1026被配置为执行装置1000的电源管理,一个有线或无线网络接口1050被配置为将装置1000连接到网络,和一个输入输出(I/O)接口1058。装置1000可以操作基于存储在存储器1032的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (9)

1.一种用户信息挖掘方法,其特征在于,包括:
根据终端发送的网络访问请求,获取所述网络访问请求所对应的IP地址;
统计各个IP地址对应的用户上网信息,所述用户上网信息包括以下至少一项:用户数量、用户上网时间分布及IP地址对应的地理位置;
根据所述IP地址对应的用户上网信息判断所述IP地址是否是公司IP地址;
当根据所述用户上网信息确定所述IP地址是公司IP地址时,获取所述公司IP地址对应的公司信息;
将所述公司信息同步到在工作时间使用所述公司IP地址的全部用户的用户信息中;
所述获取所述公司IP地址对应的公司信息,包括:
获取使用所述公司IP地址的用户所标注的公司信息,并将所述公司信息确定为所述公司IP地址对应的公司信息;
若获得多个公司信息,则所述获取使用所述公司IP地址的用户所标注的公司信息,并将所述公司信息确定为所述公司IP地址对应的公司信息,包括:
获取使用所述公司IP地址的多个公司信息;
获取所述公司信息中的关键字信息;
根据所述关键字信息统计各个所述公司信息的数量,确定数量最多的公司信息作为所述公司IP地址对应的公司信息;
获取所述数量最多的公司信息所对应的公司地址,并判断所述公司地址与所述公司IP地址所对应的地理位置是否一致;如果一致,则确定所述数量最多的公司信息作为所述公司IP地址对应的公司信息。
2.根据权利要求1所述的方法,其特征在于,所述根据终端发送的网络访问请求,获取所述网络访问请求所对应的IP地址,包括:
从终端发送的网络访问请求中,获取所述网络访问请求所携带的IP地址;
获取所述IP地址的联网参数,所述联网参数包括以下至少一项:连接时间、上报次数;
删除所述联网参数满足第一预设条件的IP地址,所述第一预设条件包括以下至少一项:连接时间低于预设时长、上报次数低于预设次数。
3.根据权利要求1所述的方法,其特征在于,所述根据所述IP地址对应的用户上网信息判断所述IP地址是否是公司IP地址,包括:
判断所述用户上网信息是否满足第二预设条件,所述第二预设条件包括以下至少一项:使用所述IP地址用户数量高于预设数量、用户上网时间处于工作时间、IP地址对应的地理位置是公司地址;
当所述用户上网信息满足第二预设条件时,确定所述用户上网信息对应的IP地址是公司IP地址;
当所述用户上网信息不满足第二预设条件时,确定所述用户上网信息对应的IP地址不是公司IP地址。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:存储IP地址与公司信息之间的对应关系。
5.一种用户信息挖掘装置,其特征在于,包括:
第一获取模块,用于根据终端发送的网络访问请求,获取所述网络访问请求所对应的IP地址;
统计模块,用于统计所述第一获取模块获得的各个IP地址对应的用户上网信息,所述用户上网信息包括以下至少一项:用户数量、用户上网时间分布及IP地址对应的地理位置;
判断模块,用于根据所述IP地址对应的用户上网信息判断所述IP地址是否是公司IP地址;
第二获取模块,用于当所述判断模块确定所述IP地址是公司IP地址时,获取所述公司IP地址对应的公司信息;
同步模块,用于将所述第二获取模块获得的公司信息同步到在工作时间使用所述公司IP地址的全部用户的用户信息中;
所述第二获取模块用于:
获取使用所述公司IP地址的用户所标注的公司信息,并将所述公司信息确定为所述公司IP地址对应的公司信息;
若获得多个公司信息,则所述第二获取模块获取使用所述公司IP地址的用户所标注的公司信息,并将所述公司信息确定为所述公司IP地址对应的公司信息,包括:
第三获取子模块,用于获取使用所述公司IP地址的多个公司信息;
第四获取子模块,用于获取所述第三获取子模块获得的公司信息中的关键字信息;
第三确定子模块,用于根据所述第四获取子模块获得的关键字信息统计各个所述公司信息的数量,确定数量最多的公司信息作为所述公司IP地址对应的公司信息;获取所述数量最多的公司信息所对应的公司地址,并判断所述公司地址与所述公司IP地址所对应的地理位置是否一致;如果一致,则确定所述数量最多的公司信息作为所述公司IP地址对应的公司信息。
6.根据权利要求5所述的装置,其特征在于,所述第一获取模块包括:
第一获取子模块,用于从终端发送的网络访问请求中,获取所述网络访问请求所携带的IP地址;
第二获取子模块,用于获取所述第一获取子模块获得的IP地址的联网参数,所述联网参数包括以下至少一项:连接时间、上报次数;
删除子模块,用于删除所述第二获取子模块获得的联网参数满足第一预设条件的IP地址,所述第一预设条件包括以下至少一项:连接时间低于预设时长、上报次数低于预设次数。
7.根据权利要求5所述的装置,其特征在于,所述判断模块包括:
判断子模块,用于判断所述用户上网信息是否满足第二预设条件,所述第二预设条件包括以下至少一项:使用所述IP地址用户数量高于预设数量、用户上网时间处于工作时间、IP地址对应的地理位置是公司地址;
第一确定子模块,用于当所述判断子模块判断出用户上网信息满足第二预设条件时,确定所述用户上网信息对应的IP地址是公司IP地址;
第二确定子模块,用于当所述判断子模块判断出用户上网信息不满足第二预设条件时,确定所述用户上网信息对应的IP地址不是公司IP地址。
8.根据权利要求5所述的装置,其特征在于,所述装置还包括:
存储模块,用于存储IP地址与公司信息之间的对应关系。
9.一种服务器,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
根据终端发送的网络访问请求,获取所述网络访问请求所对应的IP地址;
统计各个IP地址对应的用户上网信息,所述用户上网信息包括以下至少一项:用户数量、用户上网时间分布及IP地址对应的地理位置;
根据所述IP地址对应的用户上网信息判断所述IP地址是否是公司IP地址;
当根据所述用户上网信息确定所述IP地址是公司IP地址时,获取所述公司IP地址对应的公司信息;
将所述公司信息同步到在工作时间使用所述公司IP地址的全部用户的用户信息中;
所述获取所述公司IP地址对应的公司信息,包括:
获取使用所述公司IP地址的用户所标注的公司信息,并将所述公司信息确定为所述公司IP地址对应的公司信息;
若获得多个公司信息,则所述获取使用所述公司IP地址的用户所标注的公司信息,并将所述公司信息确定为所述公司IP地址对应的公司信息,包括:
获取使用所述公司IP地址的多个公司信息;
获取所述公司信息中的关键字信息;
根据所述关键字信息统计各个所述公司信息的数量,确定数量最多的公司信息作为所述公司IP地址对应的公司信息;
获取所述数量最多的公司信息所对应的公司地址,并判断所述公司地址与所述公司IP地址所对应的地理位置是否一致;如果一致,则确定所述数量最多的公司信息作为所述公司IP地址对应的公司信息。
CN201510900157.4A 2015-11-26 2015-11-26 用户信息挖掘方法及装置 Active CN105550248B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510900157.4A CN105550248B (zh) 2015-11-26 2015-11-26 用户信息挖掘方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510900157.4A CN105550248B (zh) 2015-11-26 2015-11-26 用户信息挖掘方法及装置

Publications (2)

Publication Number Publication Date
CN105550248A CN105550248A (zh) 2016-05-04
CN105550248B true CN105550248B (zh) 2019-07-16

Family

ID=55829437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510900157.4A Active CN105550248B (zh) 2015-11-26 2015-11-26 用户信息挖掘方法及装置

Country Status (1)

Country Link
CN (1) CN105550248B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104935445B (zh) * 2014-03-17 2019-09-27 腾讯科技(深圳)有限公司 获取上网环境信息的方法及装置
CN106027692B (zh) * 2016-05-16 2019-07-16 北京小米移动软件有限公司 信息获取方法、装置及服务器
CN106060865B (zh) * 2016-05-27 2019-12-20 浙江每日互动网络科技股份有限公司 一种基于wifi信息建立用户画像的方法
CN107783976B (zh) * 2016-08-25 2020-04-07 腾讯科技(深圳)有限公司 用户信息挖掘方法及装置
JP2019079223A (ja) * 2017-10-24 2019-05-23 株式会社イノベーション 入力支援システム及び入力支援装置
CN110737848A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 用户工作单位的挖掘处理方法、装置及电子设备
CN109376325A (zh) * 2018-09-26 2019-02-22 中国平安财产保险股份有限公司 用户所属机构统计方法、装置、计算机设备及存储介质
CN109547931B (zh) * 2019-01-14 2020-11-24 每日互动股份有限公司 确定移动终端所在地的服务器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101404607A (zh) * 2008-11-19 2009-04-08 腾讯科技(深圳)有限公司 更新数据的方法、装置和系统
CN103699546A (zh) * 2012-09-28 2014-04-02 北京思博途信息技术有限公司 一种生成网吧ip数据库的方法及装置
CN104935603A (zh) * 2015-06-24 2015-09-23 郑州悉知信息技术有限公司 一种识别请求的方法及网站服务器

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101404607A (zh) * 2008-11-19 2009-04-08 腾讯科技(深圳)有限公司 更新数据的方法、装置和系统
CN103699546A (zh) * 2012-09-28 2014-04-02 北京思博途信息技术有限公司 一种生成网吧ip数据库的方法及装置
CN104935603A (zh) * 2015-06-24 2015-09-23 郑州悉知信息技术有限公司 一种识别请求的方法及网站服务器

Also Published As

Publication number Publication date
CN105550248A (zh) 2016-05-04

Similar Documents

Publication Publication Date Title
CN105550248B (zh) 用户信息挖掘方法及装置
CN106503134B (zh) 浏览器跳转至应用程序的数据同步方法及装置
US20050251675A1 (en) Privacy model
CN107305611B (zh) 恶意账号对应的模型建立方法和装置、恶意账号识别的方法和装置
JP2018529148A (ja) インスタントメッセージングアプリケーションのグループメッセージプロンプト方法及び装置
US20150019715A1 (en) Methods and Systems for Performance Monitoring for Mobile Applications
CN104767653B (zh) 一种网络接口监控的方法和装置
WO2019228034A1 (zh) 一种数据同步方法及装置
CN104869155B (zh) 数据审计方法及装置
CN105607986A (zh) 用户行为日志数据采集方法及装置
CN107766470B (zh) 一种数据分享的智能统计方法、智能统计显示方法及装置
CN104615658A (zh) 一种确定用户身份的方法
CN109543891A (zh) 容量预测模型的建立方法、设备及计算机可读存储介质
CN110502366A (zh) 案例执行方法、装置、设备及计算机可读存储介质
Wong et al. Design of a crawler for online social networks analysis
CN109976966A (zh) 一种应用程序启动时间统计方法、装置及系统
US20160335405A1 (en) Method and system for analyzing digital activity
US20090150380A1 (en) System and method for processing social relation oriented service
CN111311014A (zh) 业务数据处理方法、装置、计算机设备和存储介质
CN106331060A (zh) 一种基于wifi进行布控的方法和系统
KR101785288B1 (ko) 온라인 콘텐츠의 허위 평가 정보 적발 장치, 방법 및 프로그램
CN105653533B (zh) 一种更新分类关联词集合的方法和装置
CN109462617A (zh) 一种局域网中设备通讯行为检测方法及装置
CN103365858B (zh) 基于一查询序列由多个源设备获取搜索结果的方法与设备
JP2009211514A (ja) 関係情報取得システム、関係情報取得方法および関係情報取得用プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant