CN110929049B - 一种用户账号识别方法及装置 - Google Patents
一种用户账号识别方法及装置 Download PDFInfo
- Publication number
- CN110929049B CN110929049B CN201911216871.6A CN201911216871A CN110929049B CN 110929049 B CN110929049 B CN 110929049B CN 201911216871 A CN201911216871 A CN 201911216871A CN 110929049 B CN110929049 B CN 110929049B
- Authority
- CN
- China
- Prior art keywords
- account
- data
- user
- aggregation
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请实施例提供一种用户账号识别方法及装置,涉及数据处理技术领域,包括:获取同一个宽带账号对应的网络日志数据,并从网络日志数据中提取原始账号数据;对原始账号数据进行场景聚合处理,得到场景聚合数据,并对原始账号数据进行文本聚合处理,得到文本聚合数据;根据预设的权重阈值、场景聚合数据和文本聚合数据,生成带权重的权重网络图;对权重网络图进行用户账号识别处理,得到同一个宽带账号对应的用户账号识别信息。实施这种实施方式,能够识别同一宽带账号下不同用户的账号信息,并具有误差小,识别精度高的特点。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种用户账号识别方法及装置。
背景技术
随着信息技术的不断发展和宽带的全面建设,互联网得到了广泛而普遍的应用,逐渐成为了我们工作、生活、社交、娱乐不可或缺的一部分。随着互联网的飞速发展,用户数量的迅速增长,用户信息也呈爆炸式的增长。现有对网络用户账号的识别方法,通常是通过对固网宽带日志数据进行分析,以得到不同宽带的账号信息。然而,在实际中发现,现有的用户账号的识别方法不会进一步区分宽带账号下不同用户的账号信息,识别结果不精确,误差大。
发明内容
本申请实施例的目的在于提供一种用户账号识别方法及装置,能够识别同一宽带账号下不同用户的账号信息,误差小,识别精度高。
本申请实施例第一方面提供了一种用户账号识别方法,包括:
获取同一个宽带账号对应的网络日志数据,并从所述网络日志数据中提取原始账号数据;
对所述原始账号数据进行场景聚合处理,得到场景聚合数据,并对所述原始账号数据进行文本聚合处理,得到文本聚合数据;
根据预设的权重阈值、所述场景聚合数据和所述文本聚合数据,生成带权重的权重网络图;
对所述权重网络图进行用户账号识别处理,得到所述同一个宽带账号对应的用户账号识别信息。
在上述实现过程中,该方法可以预先获取统一个宽带账号对应的网络日志数据,其中该网络日志数据包括原始账号数据,在此基础上,提取该原始账号数据;在提取出原始账号数据之后,对该原始账号数据进行场景聚合处理,得到场景聚合数据,同时对原始账号数据进行文本聚合处理,得到文本聚合数据;在场景聚合数据和文本聚合数据皆获取到之后,根据预设的权重阈值对场景聚合数据和文本聚合数据进行联合处理,生成携带权重的权重网络图;并在权重网络图获取到之后,根据该权重网络图确定出场景聚合数据和文本聚合数据权重较大的数据集合,并对该数据集合进行用户账号的识别处理,得到该宽带账号下的用户账号识别信息。可见,实施这种实施方式,能够对同一宽带账号下多个场景和多个历史文本记录数据进行聚合处理,得到该宽带网络下的一个完整网络使用框架,从而可以确定出较为准确的场景聚合数据和文本聚合数据,有利于用户账号识别精度的提高;同时,根据预设的权重阈值来对场景聚合数据和文本聚合数据进行联系,得到权重网络图,以使场景聚合数据和文本聚合数据可以联系在一起,从而提高数据之间的相关性,实现数据之间的二次聚合,进而提高数据之间的数据内容,便于后续信息成组的提取;在权重网络图生成之后,根据该权重网络图进行用户账号识别处理,得到多个根据大量信息确定出的用户账号识别信息,从而在大量信息的聚合之下,大大降低了不同用户的账号信息融合度,解决了用户账号识别误差的问题,进而提高了用户账号识别的精度。
进一步地,对所述原始账号数据进行场景聚合处理,得到场景聚合数据,包括:
获取用于场景聚合处理的时间阈值和访问次数阈值;
根据所述时间阈值和所述访问次数阈值,对所述原始账号数据进行聚合处理,得到场景聚合数据;其中,场景聚合数据包括多个账号数据集合,每个账号数据集合对应的网络用户代理和网址参数相同。
在上述实现过程中,该方法可以获取原始账号数据访问某一地址或位置时产生的时间阈值(即短时间内的连续访问时间间隔)和访问次数阈值(即短时间内的访问次数),促使该方法可以根据该时间阈值和访问次数阈值来划分不同的访问场景,并将相似的访问场景进行聚合,得到大量的场景聚合数据,其中场景聚合数据包括大量的账号数据,每个账号数据对应相同或相似的时间阈值或访问次数阈值。可见,实施这种实施方式,能够划分出大量准确的场景聚合数据,促使后续的账号识别过程的精度更高,效果更好。
进一步地,对所述原始账号数据进行文本聚合处理,得到文本聚合数据,包括:
确定所述原始账号数据中每个账号数据对应的文本键值和每个所述账号数据对应的域名信息;
根据所述文本键值和预设的第一文本聚合规则,将所述原始账号数据进行文本聚合处理,得到第一文本聚合数据,并根据所述域名信息和预设的第二文本聚合规则,将所述原始账号数据进行文本聚合处理,得到第二文本聚合数据;
根据所述第一文本聚合数据和所述第二文本聚合数据,生成文本聚合数据。
在上述实现过程中,该方法可以确定原始账号数据种每个账号数据对应的文本键值和域名信息,并根据该大量的文本键值和域名信息分为两部分文本聚合数据,以使文本聚合数据包括上述两部分聚合数据。可见,实施这种实施方式,能够根据不同情况获取到不同的聚合数据,并将这些不同的聚合数据进行组合,生成一个完整的文本聚合数据,从而实现文本聚合数据的准确提取,进而能够提高用户账号识别的准确度。
进一步地,对所述权重网络图进行用户账号识别处理,得到所述同一个宽带账号对应的用户账号识别信息,包括:
根据预设的边权重阈值,对所述权重网络图进行分割处理,得到多个权重网络子图;
对所述多个权重网络子图进行过滤处理,以过滤所述多个权重网络子图中的单节点,得到多个过滤子图;
根据所述多个过滤子图,获取所述同一个宽带账号对应的每个用户的账号信息,并对所述权重网络图进行用户关系行为分析,得到所述同一个宽带账号下的关系行为结果;
根据所述账号信息和所述关系行为结果生成所述同一个宽带账号对应的用户账号识别信息。
在上述实现过程中,该方法可以通过预设的边权重阈值分割权重网络图,并得到多个权重网路子图,同时对该多个权重网络子图进行单节点过滤,得到多个过滤子图;在获取到多个过滤子图之后,获取每个用户的账号信息;同时,对权重网路图进行用户关系行为分析,得到相应的关系行为结果;以使账号信息、关系行为结果可以构成一个具有多方面信息的用户账号识别信息。可见,实施这种实施方式,能够获取用户的账号信息,从而实现多个用户账号信息的区分,同时还能够获取用户的账号信息与其他账号之间的关系属性,从而便于其他工作的执行。
进一步地,对所述权重网络图进行用户关系行为分析,得到所述同一个宽带账号下的关系行为结果,包括:
对所述权重网络图进行用户关系识别处理,得到所述同一个宽带账号对应的不同用户之间的用户关系信息;
对所述权重网络图进行用户行为识别处理,得到所述同一个宽带账号对应的每个用户的用户行为信息;
组合所述用户关系信息和所述用户行为信息,得到所述同一个宽带账号下的关系行为结果。
在上述实现过程中,该方法可以对用户关系和用户行为进行识别处理,从而得到每个用户账号的用户行为信息,以及每个用户账号之间的用户关信息;然后生成每个用户账号中对应用户账号的用户行为信息和该用户账号与其他用户账号之间的关系信息,从而得到同一宽带账号下的关系行为结果。可见,实施这种实施方式,能够将多个用户账号划分出来,并记录下多个账号之间的关系信息,从而实现数据的广泛存储,进而实现账号识别的数据结果量的增加,提高了账号识别的精度。
进一步地,在根据所述账号信息和所述关系行为结果生成所述同一个宽带账号对应的用户账号识别信息之后,所述方法还包括:
根据预设的数据库构建规则和所述每个用户的账号信息、所述用户关系信息和所述用户行为信息,生成用户账号信息库;
存储所述用户账号信息库。
在上述实现过程中,该方法还可以生成一个用户账号信息库来存储用户账号信息、用户关系信息以及用户行为信息。可见,实施这种实施方式,能够实现数据的存储,从而便于数据的提取与使用。
本申请实施例第二方面提供了一种用户账号识别装置,所述用户账号识别装置包括:
获取单元,用于获取同一个宽带账号对应的网络日志数据;
提取单元,用于从所述网络日志数据中提取原始账号数据;
聚合单元,用于对所述原始账号数据进行场景聚合处理,得到场景聚合数据,并对所述原始账号数据进行文本聚合处理,得到文本聚合数据;
生成单元,用于根据预设的权重阈值、所述场景聚合数据和所述文本聚合数据,生成带权重的权重网络图;
识别单元,用于对所述权重网络图进行用户账号识别处理,得到所述同一个宽带账号对应的每个用户对应的账号信息。
在上述实现过程中,该用户账号识别方法可以通过多个单元来实现网络日志数据的获取、原始账号数据的提取、原始账号数据的聚合、权重网络图的生成以及账号信息的识别。可见,实施这种实施方式,该用户账号识别方法可以通过多个单元来分工实现不同的工作,从而实现高精度的用户账号信息的识别;同时,上述多个单元的组合能够从多个方面实现用户账号信息的确定,从而能够有效的提高用户账号信息的识别精度,便于相关工作人员直接使用。
进一步地,所述聚合单元包括:
获取子单元,用于获取用于场景聚合处理的时间阈值和访问次数阈值;
聚合子单元,用于根据所述时间阈值和所述访问次数阈值,对所述原始账号数据进行聚合处理,得到场景聚合数据;其中,场景聚合数据包括多个账号数据集合,每个账号数据集合对应的网络用户代理和网址参数相同。
在上述实现过程中,该聚合单元包括的获取子单元可以获取到大量的时间阈值和访问次数阈值,并触发聚合子单元根据上述时间阈值和上述访问次数阈值进行数据聚合,得到聚合数据。可见,实施这种实施方式,该聚合单元可以简单、快速、准确地获取到场景聚合数据,从而便于用户账号的整体识别。
本申请实施例第三方面提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行本申请实施例第一方面中任一项所述的用户账号识别方法。
本申请实施例第四方面提供了一种计算机可读存储介质,其存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行本申请实施例第一方面中任一项所述的用户账号识别方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种用户账号识别方法的流程示意图;
图2为本申请实施例提供的另一种用户账号识别方法的流程示意图;
图3为本申请实施例提供的一种用户账号识别装置的结构示意图;
图4为本申请实施例提供的另一种用户账号识别装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例1
请参看图1,图1为本申请实施例提供了一种用户账号识别方法的流程示意图。该方法可以应用于存在大量用户的网络环境当中,并且,该方法能够在上述环境中对大量的用户账号进行区分,从而实现快速、准确区分用户账号的效果。其中,该用户账号识别方法包括:
S101、获取同一个宽带账号对应的网络日志数据,并从网络日志数据中提取原始账号数据。
本实施例中,网络日志数据包括多个原始账号数据。
S102、对原始账号数据进行场景聚合处理,得到场景聚合数据,并对原始账号数据进行文本聚合处理,得到文本聚合数据。
本实施例中,场景聚合数据对应网络访问时间、网络访问间隔、网络访问延迟等信息。
本实施例中,文本聚合数据对应网络文本记录或cookie记录等。
本实施例中,原始账号数据与场景聚合数据或文本聚合数据对应的内容一一对应;同时,该原始账号数据通过场景和文本(记录,如cookie)进行初步聚合,以使每个聚合对应一个原始账号数据。
S103、根据预设的权重阈值、场景聚合数据和文本聚合数据,生成带权重的权重网络图。
本实施例中,权重阈值时预设好的数值,用于表示多个场景聚合数据之间的关系或多个文本聚合数据之间的关系。
本实施例中,权重网络图中包括多个节点,每个节点代表一个聚合数据,聚合数据与聚合数据之间存在权重连线,用于表示聚合数据之间的权重。
S104、对权重网络图进行用户账号识别处理,得到同一个宽带账号对应的用户账号识别信息。
本实施例中,用户账号识别信息包括用户账号以及使用该用户账号的用户信息。
在本实施例中,用户账号的用户信息可以通过用户账号的行为信息进行识别。
本实施例中,该方法可以通过计算机、服务器或其他计算装置进行处理,对此本实施例中不作任何限定。
在本实施例中,该方法的执行主体可以为上述计算、服务器以及其他电子设备、智能设备,对此本实施例中不作任何限定。
可见,实施图1所描述的用户账号识别方法,能够预先获取统一个宽带账号对应的网络日志数据,其中该网络日志数据包括原始账号数据,在此基础上,提取该原始账号数据;在提取出原始账号数据之后,对该原始账号数据进行场景聚合处理,得到场景聚合数据,同时对原始账号数据进行文本聚合处理,得到文本聚合数据;在场景聚合数据和文本聚合数据皆获取到之后,根据预设的权重阈值对场景聚合数据和文本聚合数据进行联合处理,生成携带权重的权重网络图;并在权重网络图获取到之后,根据该权重网络图确定出场景聚合数据和文本聚合数据权重较大的数据集合,并对该数据集合进行用户账号的识别处理,得到该宽带账号下的用户账号识别信息。可见,实施这种实施方式,能够对同一宽带账号下多个场景和多个历史文本记录数据进行聚合处理,得到该宽带网络下的一个完整网络使用框架,从而可以确定出较为准确的场景聚合数据和文本聚合数据,有利于用户账号识别精度的提高;同时,根据预设的权重阈值来对场景聚合数据和文本聚合数据进行联系,得到权重网络图,以使场景聚合数据和文本聚合数据可以联系在一起,从而提高数据之间的相关性,实现数据之间的二次聚合,进而提高数据之间的数据内容,便于后续信息成组的提取;在权重网络图生成之后,根据该权重网络图进行用户账号识别处理,得到多个根据大量信息确定出的用户账号识别信息,从而在大量信息的聚合之下,大大降低了不同用户的账号信息融合度,解决了用户账号识别误差的问题,进而提高了用户账号识别的精度。
实施例2
请参看图2,图2为本申请实施例提供的另一种用户账号识别方法的流程示意图。图2所描述的用户账号识别方法的流程示意图是根据图1所描述的用户账号识别方法的流程示意图进行改进得到的。其中,该用户账号识别方法包括:
S201、获取同一个宽带账号对应的网络日志数据,并从网络日志数据中提取原始账号数据。
本实施例中,该过程可以包括账号划分,包括:在同一种网络日志中,通常,同一个宽带账号下的日志是不同的用户在同一场景下产生的。首先通过对不同宽带账号的日志进行划分,可方便的将不同群体的行为日志进行准确的划分并处理。
在本实施例中,该过程还可以进行id提取,其中,在id提取部分,用正则表达式建立字符串匹配规则,提取出在日志数据中存在的大量的id信息,比如(设备相关的id<imei,imsi,meid,mac,idfa,androidid等>,用户相关的id<身份证号,姓名,手机号,qq、微信号,邮箱,微博号等>,域名相关id<BAIDUID,cna等>)。
S202、获取用于场景聚合处理的时间阈值和访问次数阈值。
S203、根据时间阈值和访问次数阈值,对原始账号数据进行聚合处理,得到场景聚合数据;其中,场景聚合数据包括多个账号数据集合,每个账号数据集合对应的网络用户代理和网址参数相同。
本实施例中,步骤S202~S203主要基于以下两种场景:通常,在用户的一次访问请求中,会产生多条访问记录(甚至多达几十上百条记录),因此,如果在短时间内(例如1ms,10ms,100ms,1s),相同ua,相同refer的场景下,产生访问记录的这些id很可大能是同一用户产生的;在以上限定条件下的不同的场景(Δt,ua,refer)中,产生访问记录的id多次同时出现(例如3次),则这些id很大可能是同一用户产生的。
在本实施例中,可设置两个阈值T及N,T用于以上第一场景的时间阈值控制,N用于第二场景的共现次数控制,根据设置的阈值T,聚合在(T,ua,refer)等场景下的id值,形成(c1:id1=vi,id2=vj,id3=vk)。
S204、确定原始账号数据中每个账号数据对应的文本键值和每个账号数据对应的域名信息。
S205、根据文本键值和预设的第一文本聚合规则,将原始账号数据进行文本聚合处理,得到第一文本聚合数据,并根据域名信息和预设的第二文本聚合规则,将原始账号数据进行文本聚合处理,得到第二文本聚合数据。
本实施例中,文本聚合数据包括Cookie,其中,Cookie是一种允许HTTP协议的服务器端存储在客户端的文本信息。它伴随着用户请求的页面在网络服务器和浏览器之间传递。当用户请求网站页面时,应用程序发送给该用户的不仅仅是一个页面,还有包含用户信息的cookie,其中包含着网站用于识别用户的个人信息或用户的上网终端的信息。通过使用cookie,所有用户将由其cookie的键值唯一确定,可以快速准确的识别用户。
S206、根据第一文本聚合数据和第二文本聚合数据,生成文本聚合数据。
本实施例中,步骤S204~S206主要基于以下两种情况:在不同的日志记录中,相同cookie键值的日志肯定是同一用户产生的;在同一域名下的cookie中id的key相同而value不同,通常则表示不同的用户。
在本实施例中,根据cookie规则记录可以看出,网站会使用不同的cookie id来定位不同使用应用下的用户(如腾讯会在不同的url中使用多个id,淘宝也会有登陆和未登录的区分id,并且经常很多url的cookie id会多个同时出现),通过不同的cookie信息,可以采用并查集的方法使得同一用户在同一域名下的产生的不同id得以有效聚合。其过程如下:根据上面日志中提取的不同id及相应的值,根据域名进行多个id的并查集聚合操作,形成不同的域名集合,如(域名1:id集合1(id1=v1,id2=v2),id集合2(id1=v5,id2=v7)),(域名2:id集合(id3,id4))。
S207、根据预设的权重阈值、场景聚合数据和文本聚合数据,生成带权重的权重网络图。
本实施例中,将以上两部分聚合的id及值进行图模型的汇总生成,把id当成顶点,各id之间的联系用带权重的边表示,比如,可将场景划分部分相同场景下的id直接的权重设为1;再将Cookie划分部分相同域名下相同集合的id之间的权重设置为较大权重(如50),相同域名下的不同集合的id设置为较小的权重(如-50);按照以上的权重配置进行不同id及边权重的循环迭代,最终形成带权重的ID图(即权重网络图)。
S208、根据预设的边权重阈值,对权重网络图进行分割处理,得到多个权重网络子图。
本实施例中,为提高识别用户的准确度,可以设定边权重阈值N。根据阈值N(例如权重设为2),进行图的分割操作,得到不同子图。
S209、对多个权重网络子图进行过滤处理,以过滤多个权重网络子图中的单节点,得到多个过滤子图。
本实施例中,通过以上的子图划分,我们可以得出同一宽带账号下所有用户的相关账号信息。例如{UUID(Universally Unique Identifier,通用唯一识别码),AD,UA(ua1,ua2),COOKIE(id1,id2……idn)},并且可以将此信息构建一张用户账号信息表。我们将原始网络日志记录中的用户进行了准确划分及有效存储,便于后续的用户个性化相关工作。并且将来在服务器中新生成的web日志中,可以直接通过此表进行用户相关记录的标记工作。
S210、根据多个过滤子图,获取同一个宽带账号对应的每个用户的账号信息,并对权重网络图进行用户关系行为分析,得到同一个宽带账号下的关系行为结果。
作为一种可选的实施方式,对权重网络图进行用户关系行为分析,得到同一个宽带账号下的关系行为结果的步骤可以包括:
对权重网络图进行用户关系识别处理,得到同一个宽带账号对应的不同用户之间的用户关系信息;
对权重网络图进行用户行为识别处理,得到同一个宽带账号对应的每个用户的用户行为信息;
组合用户关系信息和用户行为信息,得到同一个宽带账号下的关系行为结果。
实施这种实施方式,能够将多个用户账号划分出来,并记录下多个账号之间的关系信息,从而实现数据的广泛存储,进而实现账号识别的数据结果量的增加,提高了账号识别的精度。
S211、根据账号信息和关系行为结果生成同一个宽带账号对应的用户账号识别信息。
作为一种可选的实施方式,该方法还包括:
根据预设的数据库构建规则和每个用户的账号信息、用户关系信息和用户行为信息,生成用户账号信息库;
存储用户账号信息库。
实施这种实施方式,还可以生成一个用户账号信息库来存储用户账号信息、用户关系信息以及用户行为信息。可见,实施这种实施方式,能够实现数据的存储,从而便于数据的提取与使用。
本实施例中,以上将原始网络日志记录中的识别出的独立用户信息进行有效存储,生成用户身份相关的id库,存储了用户相关的不同虚拟id,便于后续的用户个性化相关工作。为方便后续数据文件的使用,可将以上识别出的用户及其特征保存在NoSQL数据库中(比如Hbase)。
可见,实施图2所描述的用户账号识别方法,能够预先获取统一个宽带账号对应的网络日志数据,其中该网络日志数据包括原始账号数据,在此基础上,提取该原始账号数据;在提取出原始账号数据之后,对该原始账号数据进行场景聚合处理,得到场景聚合数据,同时对原始账号数据进行文本聚合处理,得到文本聚合数据;在场景聚合数据和文本聚合数据皆获取到之后,根据预设的权重阈值对场景聚合数据和文本聚合数据进行联合处理,生成携带权重的权重网络图;并在权重网络图获取到之后,根据该权重网络图确定出场景聚合数据和文本聚合数据权重较大的数据集合,并对该数据集合进行用户账号的识别处理,得到该宽带账号下的用户账号识别信息。可见,实施这种实施方式,能够对同一宽带账号下多个场景和多个历史文本记录数据进行聚合处理,得到该宽带网络下的一个完整网络使用框架,从而可以确定出较为准确的场景聚合数据和文本聚合数据,有利于用户账号识别精度的提高;同时,根据预设的权重阈值来对场景聚合数据和文本聚合数据进行联系,得到权重网络图,以使场景聚合数据和文本聚合数据可以联系在一起,从而提高数据之间的相关性,实现数据之间的二次聚合,进而提高数据之间的数据内容,便于后续信息成组的提取;在权重网络图生成之后,根据该权重网络图进行用户账号识别处理,得到多个根据大量信息确定出的用户账号识别信息,从而在大量信息的聚合之下,大大降低了不同用户的账号信息融合度,解决了用户账号识别误差的问题,进而提高了用户账号识别的精度。
实施例3
请参看图3,图3为本申请实施例提供的一种用户账号识别装置的结构示意图。其中,该用户账号识别装置包括:
获取单元310,用于获取同一个宽带账号对应的网络日志数据;
提取单元320,用于从网络日志数据中提取原始账号数据;
聚合单元330,用于对原始账号数据进行场景聚合处理,得到场景聚合数据,并对原始账号数据进行文本聚合处理,得到文本聚合数据;
生成单元340,用于根据预设的权重阈值、场景聚合数据和文本聚合数据,生成带权重的权重网络图;
识别单元350,用于对权重网络图进行用户账号识别处理,得到同一个宽带账号对应的每个用户对应的账号信息。
本实施例中,该用户账号识别装置可以使用实施例1或实施例2中描述的任意解释或说明,对此本实施例中不再多加赘述。
可见,实施图3所描述的用户账号识别装置,能够通过多个单元来分工实现不同的工作,从而实现高精度的用户账号信息的识别;同时,上述多个单元的组合能够从多个方面实现用户账号信息的确定,从而能够有效的提高用户账号信息的识别精度,便于相关工作人员直接使用。
实施例4
请参看图4,图4为本申请实施例提供的另一种用户账号识别装置的结构示意图。图4所描述的用户账号识别装置的结构示意图是根据图3所描述的用户账号识别装置的结构示意图进行改进得到的。其中,上述聚合单元330包括:
获取子单元331,用于获取用于场景聚合处理的时间阈值和访问次数阈值;
聚合子单元332,用于根据时间阈值和访问次数阈值,对原始账号数据进行聚合处理,得到场景聚合数据;其中,场景聚合数据包括多个账号数据集合,每个账号数据集合对应的网络用户代理和网址参数相同。
作为一种可选的实施方式,上述聚合单元330还包括:
确定子单元333,用于确定原始账号数据中每个账号数据对应的文本键值和每个账号数据对应的域名信息;
聚合子单元332,还用于根据文本键值和预设的第一文本聚合规则,将原始账号数据进行文本聚合处理,得到第一文本聚合数据,并根据域名信息和预设的第二文本聚合规则,将原始账号数据进行文本聚合处理,得到第二文本聚合数据;
聚合子单元332,还用于根据第一文本聚合数据和第二文本聚合数据,生成文本聚合数据。
作为一种可选的实施方式,识别单元350包括:
分割子单元351,用于根据预设的边权重阈值,对权重网络图进行分割处理,得到多个权重网络子图;
过滤子单元352,用于对多个权重网络子图进行过滤处理,以过滤多个权重网络子图中的单节点,得到多个过滤子图;
分析子单元353,用于根据多个过滤子图,获取同一个宽带账号对应的每个用户的账号信息,并对权重网络图进行用户关系行为分析,得到同一个宽带账号下的关系行为结果;
生成子单元354,用于根据账号信息和关系行为结果生成同一个宽带账号对应的用户账号识别信息。
作为一种可选的实施方式,分析子单元353具体用于对权重网络图进行用户关系识别处理,得到同一个宽带账号对应的不同用户之间的用户关系信息;对权重网络图进行用户行为识别处理,得到同一个宽带账号对应的每个用户的用户行为信息;组合用户关系信息和用户行为信息,得到同一个宽带账号下的关系行为结果。
作为一种可选的实施方式,用户账号识别装置还包括:
生成单元340,用于根据预设的数据库构建规则和每个用户的账号信息、用户关系信息和用户行为信息,生成用户账号信息库;
存储单元360,用于存储用户账号信息库。
本实施例中,该用户账号识别装置可以使用实施例1或实施例2中描述的任意解释或说明,对此本实施例中不再多加赘述。
可见,实施图4所描述的用户账号识别装置,能够通过多个单元来分工实现不同的工作,从而实现高精度的用户账号信息的识别;同时,上述多个单元的组合能够从多个方面实现用户账号信息的确定,从而能够有效的提高用户账号信息的识别精度,便于相关工作人员直接使用。
本申请实施例提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行本申请实施例1或实施例2中任一项用户账号识别方法。
本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行本申请实施例1或实施例2中任一项用户账号识别方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (9)
1.一种用户账号识别方法,其特征在于,包括:
获取同一个宽带账号对应的网络日志数据,并从所述网络日志数据中提取原始账号数据;
对所述原始账号数据进行场景聚合处理,得到场景聚合数据,并对所述原始账号数据进行文本聚合处理,得到文本聚合数据;
根据预设的权重阈值、所述场景聚合数据和所述文本聚合数据,生成带权重的权重网络图;
对所述权重网络图进行用户账号识别处理,得到所述同一个宽带账号对应的用户账号识别信息;
其中,对所述权重网络图进行用户账号识别处理,得到所述同一个宽带账号对应的用户账号识别信息,包括:
根据预设的边权重阈值,对所述权重网络图进行分割处理,得到多个权重网络子图;
对所述多个权重网络子图进行过滤处理,以过滤所述多个权重网络子图中的单节点,得到多个过滤子图;
根据所述多个过滤子图,获取所述同一个宽带账号对应的每个用户的账号信息,并对所述权重网络图进行用户关系行为分析,得到所述同一个宽带账号下的关系行为结果;
根据所述账号信息和所述关系行为结果生成所述同一个宽带账号对应的用户账号识别信息。
2.根据权利要求1所述的用户账号识别方法,其特征在于,对所述原始账号数据进行场景聚合处理,得到场景聚合数据,包括:
获取用于场景聚合处理的时间阈值和访问次数阈值;
根据所述时间阈值和所述访问次数阈值,对所述原始账号数据进行聚合处理,得到场景聚合数据;其中,场景聚合数据包括多个账号数据集合,每个账号数据集合对应的网络用户代理和网址参数相同。
3.根据权利要求1所述的用户账号识别方法,其特征在于,对所述原始账号数据进行文本聚合处理,得到文本聚合数据,包括:
确定所述原始账号数据中每个账号数据对应的文本键值和每个所述账号数据对应的域名信息;
根据所述文本键值和预设的第一文本聚合规则,将所述原始账号数据进行文本聚合处理,得到第一文本聚合数据,并根据所述域名信息和预设的第二文本聚合规则,将所述原始账号数据进行文本聚合处理,得到第二文本聚合数据;
根据所述第一文本聚合数据和所述第二文本聚合数据,生成文本聚合数据。
4.根据权利要求1所述的用户账号识别方法,其特征在于,对所述权重网络图进行用户关系行为分析,得到所述同一个宽带账号下的关系行为结果,包括:
对所述权重网络图进行用户关系识别处理,得到所述同一个宽带账号对应的不同用户之间的用户关系信息;
对所述权重网络图进行用户行为识别处理,得到所述同一个宽带账号对应的每个用户的用户行为信息;
组合所述用户关系信息和所述用户行为信息,得到所述同一个宽带账号下的关系行为结果。
5.根据权利要求4所述的用户账号识别方法,其特征在于,在根据所述账号信息和所述关系行为结果生成所述同一个宽带账号对应的用户账号识别信息之后,所述方法还包括:
根据预设的数据库构建规则和所述每个用户的账号信息、所述用户关系信息和所述用户行为信息,生成用户账号信息库;
存储所述用户账号信息库。
6.一种用户账号识别装置,其特征在于,包括:
获取单元,用于获取同一个宽带账号对应的网络日志数据;
提取单元,用于从所述网络日志数据中提取原始账号数据;
聚合单元,用于对所述原始账号数据进行场景聚合处理,得到场景聚合数据,并对所述原始账号数据进行文本聚合处理,得到文本聚合数据;
生成单元,用于根据预设的权重阈值、所述场景聚合数据和所述文本聚合数据,生成带权重的权重网络图;
识别单元,用于对所述权重网络图进行用户账号识别处理,得到所述同一个宽带账号对应的每个用户对应的账号信息;
其中,所述识别单元包括:
分割子单元,用于根据预设的边权重阈值,对权重网络图进行分割处理,得到多个权重网络子图;
过滤子单元,用于对多个权重网络子图进行过滤处理,以过滤多个权重网络子图中的单节点,得到多个过滤子图;
分析子单元,用于根据多个过滤子图,获取同一个宽带账号对应的每个用户的账号信息,并对权重网络图进行用户关系行为分析,得到同一个宽带账号下的关系行为结果;
生成子单元,用于根据账号信息和关系行为结果生成同一个宽带账号对应的用户账号识别信息。
7.根据权利要求6所述的用户账号识别装置,其特征在于,所述聚合单元包括:
获取子单元,用于获取用于场景聚合处理的时间阈值和访问次数阈值;
聚合子单元,用于根据所述时间阈值和所述访问次数阈值,对所述原始账号数据进行聚合处理,得到场景聚合数据;其中,场景聚合数据包括多个账号数据集合,每个账号数据集合对应的网络用户代理和网址参数相同。
8.一种电子设备,其特征在于,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行权利要求1至5中任一项所述的用户账号识别方法。
9.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行权利要求1至5任一项所述的用户账号识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911216871.6A CN110929049B (zh) | 2019-12-02 | 2019-12-02 | 一种用户账号识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911216871.6A CN110929049B (zh) | 2019-12-02 | 2019-12-02 | 一种用户账号识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110929049A CN110929049A (zh) | 2020-03-27 |
CN110929049B true CN110929049B (zh) | 2023-05-26 |
Family
ID=69848450
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911216871.6A Active CN110929049B (zh) | 2019-12-02 | 2019-12-02 | 一种用户账号识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110929049B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615658A (zh) * | 2014-12-31 | 2015-05-13 | 中国科学院深圳先进技术研究院 | 一种确定用户身份的方法 |
WO2016029794A1 (zh) * | 2014-08-27 | 2016-03-03 | 阿里巴巴集团控股有限公司 | 识别特征账号的方法及装置 |
CN110413896A (zh) * | 2019-06-06 | 2019-11-05 | 腾讯科技(北京)有限公司 | 网络信息推送方法、装置、计算机设备及存储介质 |
-
2019
- 2019-12-02 CN CN201911216871.6A patent/CN110929049B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016029794A1 (zh) * | 2014-08-27 | 2016-03-03 | 阿里巴巴集团控股有限公司 | 识别特征账号的方法及装置 |
CN104615658A (zh) * | 2014-12-31 | 2015-05-13 | 中国科学院深圳先进技术研究院 | 一种确定用户身份的方法 |
CN110413896A (zh) * | 2019-06-06 | 2019-11-05 | 腾讯科技(北京)有限公司 | 网络信息推送方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110929049A (zh) | 2020-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104866478B (zh) | 恶意文本的检测识别方法及装置 | |
CN103546446B (zh) | 一种钓鱼网站的检测方法、装置和终端 | |
CN106372202B (zh) | 文本相似度计算方法及装置 | |
CN108093026B (zh) | 多租户请求的处理方法及装置 | |
CN110222790B (zh) | 用户身份识别方法、装置及服务器 | |
CN108366012B (zh) | 一种社交关系建立方法、装置及电子设备 | |
CN101950312A (zh) | 一种互联网网页内容解析方法 | |
US20170199889A1 (en) | Method and device for identifying junk picture files | |
CN109743309B (zh) | 一种非法请求识别方法、装置及电子设备 | |
CN112347501A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN106933916B (zh) | Json字符串的处理方法及装置 | |
US10250550B2 (en) | Social message monitoring method and apparatus | |
TWI575391B (zh) | 社群資料篩選系統、方法及其非揮發性電腦可讀取紀錄媒體 | |
CN110929049B (zh) | 一种用户账号识别方法及装置 | |
JP2013242782A (ja) | 文字列変換方法及びプログラム | |
US20150032749A1 (en) | Method of creating classification pattern, apparatus, and recording medium | |
CN115796146A (zh) | 一种文件对比方法及装置 | |
CN106055572B (zh) | 页面转化参数的处理方法及装置 | |
CN111428037B (zh) | 一种分析行为政策匹配性的方法 | |
JP6680472B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
CN111612550A (zh) | 广告触发作弊识别方法、装置、电子设备及存储介质 | |
CN110858852B (zh) | 一种注册域名的获取方法及装置 | |
CN103714117A (zh) | 网页表单识别方法 | |
CN113127767A (zh) | 手机号码提取方法、装置、电子设备及存储介质 | |
CN112367663B (zh) | 一种确定宽带接入用户号码的方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |