CN116684458A - 站点独立访问量确定方法、装置、设备及存储介质 - Google Patents
站点独立访问量确定方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116684458A CN116684458A CN202310714710.XA CN202310714710A CN116684458A CN 116684458 A CN116684458 A CN 116684458A CN 202310714710 A CN202310714710 A CN 202310714710A CN 116684458 A CN116684458 A CN 116684458A
- Authority
- CN
- China
- Prior art keywords
- target
- account
- identifier
- access
- target site
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种站点独立访问量确定方法、装置、设备及存储介质,涉及数据处理领域,该方法对对象访问数据中的账户标识进行类型识别获得目标账户类型,当目标账户类型为已注册账户类型时,判断账户标识是否位于目标站点的历史访问账户集合中,若确定其未位于历史访问账户集合中则根据未注册账户标识以及对象访问数据携带的目标设备标识,生成目标对象在设备标识维度的第一对象标识。若确定第一对象标识未位于目标站点的第一标识集合中,确定目标对象为目标站点的新增独立访问者,并对目标站点的独立访问量进行更新,获得更新后的独立访问量,以准确统计目标站点的新增独立访问者的数量,提高站点独立访问量的准确度。
Description
技术领域
本申请涉及数据处理领域,提供一种站点独立访问量确定方法、装置、设备及存储介质。
背景技术
独立访问者(Unique Visitor,UV)(又称独立访客、唯一身份访问者)是指在指定时段内,网站、应用程序或其他在线服务的不重复(即每个自然人仅计数一次)的访问者人数,而独立访问者的数量,即独立访问量是最能真实反映目标站点的真实访问量的指标。
在金融等众多领域,UV计算被广泛应用于网站运营分析、用户调研中,通过实时统计特定网站、应用程序或其他在线服务的UV数量,可以为相关的网站运营、新闻更新、广告投放等业务提供可信的参考依据。例如,银行等金融机构经常会通过网页的形式展示金融产品、理财政策等,该网页的UV量在一定程度上表征了某些产品的被关注程度等信息,极大影响着金融机构后续的网页投放策略。
但是,目前的独立访问量计算方法通常是通过统计访问站点的互联网协议(Internet Protocol,IP)地址的数量来计算独立访问量,该方法需要每个独立访问者都有且只有一个唯一的IP地址,因此在不同自然人使用相同IP地址进行访问的场景下,相关技术由于无法准确检测出真实的UV,导致计算出的独立访问量误差较大,对运营分析、用户调研等业务造成严重的负面影响。
因此,目前亟需一种有效提高站点独立访问量准确度的方法。
发明内容
本申请实施例提供一种站点独立访问量确定方法、装置、设备及存储介质,用以提高站点独立访问量确定的准确性。
一方面,提供一种站点独立访问量确定方法,所述方法包括:
对目标对象的对象访问数据中账户标识进行类型识别,获得所述账户标识对应的目标账户类型,所述对象访问数据是基于所述目标对象针对目标站点的访问操作生成的,所述账户标识是所述目标站点为所述目标对象分配的;
若所述目标账户类型为所述目标站点的已注册账户类型,则确定所述账户标识是否位于所述目标站点的历史访问账户集合中;
若未位于所述历史访问账户集合中,则基于所述目标站点的未注册账户标识以及所述对象访问数据携带的目标设备标识,生成所述目标对象在设备标识维度的第一对象标识;
若所述第一对象标识未位于所述目标站点的第一标识集合中,则确定所述目标对象为所述目标站点的新增独立访问者,所述第一标识集合中各元素表征基于设备标识维度的历史访问对象;
对所述目标站点的独立访问量进行更新,获得更新后的独立访问量。
一方面,提供一种站点独立访问量确定装置,所述装置包括:
类型识别单元,用于对目标对象的对象访问数据中账户标识进行类型识别,获得所述账户标识对应的目标账户类型,所述对象访问数据是基于所述目标对象针对目标站点的访问操作生成的,所述账户标识是所述目标站点为所述目标对象分配的;
第一确定单元,用于若所述目标账户类型为所述目标站点的已注册账户类型,则确定所述账户标识是否位于所述目标站点的历史访问账户集合中;
标识生成单元,用于若未位于所述历史访问账户集合中,则基于所述目标站点的未注册账户标识以及所述对象访问数据携带的目标设备标识,生成所述目标对象在设备标识维度的第一对象标识;
第二确定单元,用于若所述第一对象标识未位于所述目标站点的第一标识集合中,则确定所述目标对象为所述目标站点的新增独立访问者,所述第一标识集合中各元素表征基于设备标识维度的历史访问对象;
参数更新单元,用于对所述目标站点的独立访问量进行更新,获得更新后的独立访问量。
可选的,所述第二确定单元,具体用于:
确定所述对象访问数据是否携带有所述目标对象的网络使用行为信息,所述网络使用行为信息包括所述目标对象访问所述目标站点时,使用的网络地址信息和产生的访问行为信息中的至少一种;
若携带有所述网络使用行为信息,则基于所述未注册账户标识以及所述网络使用行为信息,生成所述目标对象在网络使用行为维度的第二对象标识;
若所述第一对象标识未位于所述第一标识集合中,且所述第二对象标识未位于所述目标站点的第二标识集合中,则确定所述目标对象为所述新增独立访问者,所述第二标识集合中各元素表征基于网络使用行为维度的历史访问对象。
可选的,所述第一确定单元,还用于:
若所述目标账户类型为未注册账户类型,则确定所述目标设备标识是否位于所述目标站点的设备标识集合中;其中,所述设备标识集合包含在预设时间范围内,访问所述目标站点的历史访问对象的设备标识;
若未位于所述设备标识集合中,则确定所述目标对象为所述新增独立访问者。
可选的,所述第一确定单元,具体用于:
若所述目标账户类型为所述已注册账户类型,确定所述目标站点的对象属性集合中,是否包含所述账户标识对应的目标对象属性信息,所述对象属性集合包括所述目标站点的已注册对象在历史注册身份时所提供的身份属性信息;
若不包含所述账户标识对应的目标对象属性信息,则确定所述账户标识是否位于所述历史访问账户集合中。
可选的,所述第一确定单元,还用于:
若包含所述目标对象属性信息,则基于所述目标对象属性信息,生成所述目标对象基于对象属性维度的第三对象标识;
若所述第三对象标识未位于所述目标站点的第三标识集合中,则确定所述目标对象为所述新增独立访问者,所述第三标识集合中各元素表征基于所述对象属性的历史访问对象。
可选的,所述参数更新单元,还用于:
基于所述对象访问数据,按照预设的参数更新策略更新所述目标站点的至少一个检测参数集合,所述至少一个检测参数集合包括历史访问账户集合、设备标识集合、第一标识集合、第二标识集合以及第三标识集合。
一方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一种方法的步骤。
一方面,提供一种计算机存储介质,其上存储有计算机程序指令,该计算机程序指令被处理器执行时实现上述任一种方法的步骤。
一方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一种方法的步骤。
本申请实施例中,通过对目标对象针对目标站点的访问操作所生成的对象访问数据中的账户标识进行类型识别,获得账户标识对应的目标账户类型,当目标账户类型为目标站点的已注册账户类型时,判断账户标识是否位于目标站点的历史访问账户集合中,若确定该账户标识未位于历史访问账户集合中,则根据目标站点的未注册账户标识以及对象访问数据携带的目标设备标识,生成目标对象在设备标识维度的第一对象标识。若确定第一对象标识未位于目标站点的第一标识集合中,确定目标对象为目标站点的新增独立访问者,并对目标站点的独立访问量进行更新,获得更新后的独立访问量。
该方法先通过对目标站点为目标对象所分配的账户标识进行类型识别,区分已注册和未注册的访问对象,并确定与账户类型对应的独立访问量确定流程。当账户类型为已注册账户类型时,先判断该账户标识是否存在于目标站点的历史访问账户中,可直接通过确定访问对象是否曾经通过该已注册账号对该目标站点进行访问,避免对已访问过站点的对象进行重复统计,保证独立访问量计算的准确性,同时节省后续的确定流程,提高站点独立访问量计算的效率。当账户标识未位于历史访问账户集合中时,根据目标站点的未注册账户标识和对象访问数据携带的目标设备标识,生成目标对象在设备标识维度的第一对象标识,通过在设备标识纬度上进一步识别访问对象是否为独立访问者,避免该访问对象曾经通过未注册账户的形式访问站点而导致独立访问量统计出现误差,进一步提高独立访问量计算的准确性。当确定第一对象标识未位于目标站点的第一标识集合中时,确定目标对象为目标站点的新增独立访问者,并更新站点的独立访问量,实现准确地统计目标站点的新增独立访问者的数量。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的应用场景示意图;
图2为本申请实施例提供的另一种应用场景示意图;
图3为本申请实施例提供的一种站点独立访问量确定方法的流程示意图;
图4为本申请实施例提供的一种过滤链的示意图;
图5为本申请实施例提供的一种独立访问量计算的流程示意图;
图6为本申请实施例提供的一种站点独立访问量确定装置的结构示意图;
图7为本申请实施例提供的计算机设备的一种结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以按不同于此处的顺序执行所示出或描述的步骤。
本申请的说明书和权利要求书及上述附图中的术语“第一”和“第二”是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请中的“多个”可以表示至少两个,例如可以是两个、三个或者更多个,本申请实施例不做限制。
本申请技术方案中,对数据的采集、传播、使用等,均符合国家相关法律法规要求。
为便于理解本申请实施例提供的技术方案,这里先对本申请实施例使用的一些关键名词进行解释:
埋点数据:指的是在应用程序或网站等站点中设置的特殊代码、脚本或标记,用于跟踪和记录用户行为。用于捕捉和记录用户行为或系统事件的相关信息。埋点数据通常用于分析用户行为、性能监控、故障排查等目的,当用户执行特定的操作或系统发生特定的事件时,埋点代码会触发并将相关数据发送到数据收集工具或分析平台,以供后续分析和使用。
游客:访问网站、应用程序等站点时,未提供个人身份信息、未进行注册或登录的访问对象。匿名访问的游客通常以站点分配的临时身份进行访问,而不使用个人账户进行登录,网站无法直接游客与特定的个人身份关联起来,此种访问方式可提供一定程度上的个人信息隐私保护。
Cookie:是一种由服务器发送到用户浏览器并存储在用户设备上的小型文本文件,用于在用户访问网站时记录和存储特定的用户信息。网站可以通过设置Cookie来记录用户的偏好、识别用户身份、提供个性化的内容等功能。当用户再次访问相同的网站时,浏览器会将存储的Cookie发送给服务器,从而使网站能够根据之前存储的信息进行相应的处理。
过滤器(Filter):一种用于过滤数据的组件或技术,可接收输入数据,并根据预定义的规则或条件筛选出符合条件的数据,用于数据处理、查询优化和数据筛选等领域。
过滤链(Filter Chain):一种按照特定顺序组织的过滤器集合,将多个过滤器串联在一起,依次对输入数据进行处理和过滤。每个过滤器可以对数据进行特定的操作或转换,并将处理后的数据传递给下一个过滤器,最终得到最终的处理结果。
过滤组(Filter Group):一种将多个过滤器组织在一起并同时应用的结构。它可以同时对输入数据应用多个过滤器,以实现更复杂的数据处理逻辑。过滤组可以将多个过滤器的结果进行合并或交叉,从而得到更精确的数据筛选结果。
扬声器位图(Roaring Bitmap):是一种压缩位图数据结构,用于在内存中存储和操作大规模的稀疏或密集位图数据。采用了多级编码和位运算等技术,以减小内存占用并提高查询性能。Roaring Bitmap支持位图的逻辑操作,如并集、交集和差集,使得对大量整数集合进行高效筛选和查询成为可能。
位图(bitmap):一种用于表示和操作位集合的数据结构,通常用于解决对大量布尔值进行高效存储和查询的问题。Bitmap由一系列二进制位组成,每个位代表一个元素或标记的存在与否。当某个元素存在时,对应位置的位被设置为1,当元素不存在时,对应位置的位被设置为0。通过位运算和位操作,可以对Bitmap进行快速的插入、删除和查询操作,使其成为处理大规模数据集的有效工具。
压缩位图(Compressed Bitmap):压缩位图是一种用于高效存储和操作大规模位集合的数据结构。通过采用压缩算法来减少位图的存储空间,并提供了高效的位操作,例如并集、交集。
布隆过滤器(Bloom Filter):一种快速查找数据是否存在的概率型数据结构,主要利用位数组和多个哈希函数将数据映射到位图(bit array)中并在查询时利用相同的哈希函数进行判断,以实现高效判断一个元素是否属于某个集合。布隆过滤器适用于大规模数据集合的快速查询和去重场景,优势在于占用较少的内存空间和具备高效的查询性能。
布谷鸟过滤器(Cuckoo Filter):一种用于快速判断元素是否存在于集合中的数据结构,在空间利用率和查询效率方面优于传统的布隆过滤器,并且支持删除操作。
过期过滤器(Bloom Filter with Expiration):一种对布隆过滤器进行扩展的数据结构,可以在元素添加到过滤器中时指定其过期时间,通过过期过滤器,可以在判断元素是否存在的同时,检查其是否过期。
哈希运算(Hash):一种将任意长度的数据映射为固定长度值的操作。通过使用哈希函数将输入数据转换为哈希值,也称为哈希码、散列值或摘要。哈希函数接受输入数据,并对其进行计算,生成一个唯一的输出结果。
下面对本申请实施例的设计思想进行简要介绍:
目前,UV计算被广泛应用于网站运营分析、用户调研中,通过实时统计特定网站、应用程序或其他在线服务的UV数量,可以为相关的网站运营、新闻更新、广告投放等业务提供可信的参考依据。例如,银行等金融机构经常会通过网页的形式展示金融产品、理财政策等,该网页的UV量在一定程度上表征了某些产品的被关注程度等信息,极大影响着金融机构后续的网页投放策略。
但是,目前的独立访问量计算方法通常是通过IP地址统计法来统计访问站点的IP地址的数量、或通过用户账号统计法根据访问对象登录的注册用户账户来计算独立访问量。其中,IP地址统计法需要每个独立访问者都有且只有一个唯一的IP地址,因此在不同自然人使用相同IP地址进行访问或者同一自然人使用多个IP地址的场景下,IP地址统计法无法准确检测出真实的UV。而在不强制要求用户注册登陆的场景下(即允许用户以游客身份匿名访问)时,由于不同的自然人使用的游客账户相同,因此通过用户账号统计法无法准确检测出真实的UV,相关技术都存在导致独立访问量计算误差较大的缺陷,对运营分析、用户调研等业务都可能造成严重的负面影响。
鉴于上述问题,本申请实施例提供了一种站点独立访问量确定方法,通过对目标对象针对目标站点的访问操作所生成的对象访问数据中的账户标识进行类型识别,区分已注册和未注册的访问对象,并确定与账户类型对应的独立访问量确定流程。当账户类型为已注册账户类型时,先判断该账户标识是否存在于目标站点的历史访问账户中,可直接通过确定访问对象是否曾经通过该已注册账号对该目标站点进行访问,避免对已访问过站点的对象进行重复统计,保证独立访问量计算的准确性,同时节省后续的确定流程,提高站点独立访问量计算的效率。当账户标识未位于历史访问账户集合中时,根据目标站点的未注册账户标识和对象访问数据携带的目标设备标识,生成目标对象在设备标识维度的第一对象标识,通过在设备标识纬度上进一步识别访问对象是否为独立访问者,避免该访问对象曾经通过未注册账户的形式访问站点而导致独立访问量统计出现误差,进一步提高独立访问量计算的准确性。当确定第一对象标识未位于目标站点的第一标识集合中时,确定目标对象为目标站点的新增独立访问者,并更新站点的独立访问量,实现准确地统计目标站点的新增独立访问者的数量。
为了进一步提高站点独立访问量确定的准确性,本申请实施例还在确定对象访问数据携带有目标对象访问目标站点时所使用的网络地址信息和产生的访问行为信息等网络使用行为信息时,根据未注册账户标识以及该网络使用行为信息,生成目标对象在网络使用行为维度的第二对象标识,当确定第一对象标识未位于第一标识集合中时,进一步通过判断第二对象标识是否也未位于目标站点的包括基于网络使用行为维度的各个历史访问对象的第二标识集合中,从而确定目标对象是否为目标站点的新增独立访问者,该方法基于访问对象在网络使用行为纬度上的唯一性,结合设备标识纬度和网络使用行为纬度进一步对站点访问者进行全面且精准的识别,进一步避免了重复统计和计算站点访问者,增强了站点独立访问者计算的准确性和可靠性。
为了进一步提高站点独立访问量计算效率,本申请实施例在确定目标账户类型为已注册账户类型,判断账户标识是否位于历史访问账户集合中之前,还可先判断目标站点的对象属性集合中是否包含账户标识对应的目标对象属性信息,该对象属性集合包括目标站点的已注册对象在历史注册身份时所提供的身份属性信息,当确定对象属性集合中包含该目标对象属性信息,则直接根据目标对象属性信息生成目标对象基于对象属性维度的第三对象标识,通过确定第三对象标识未位于目标站点的包括基于对象属性的历史访问对象的第三标识集合中,确定目标对象为新增独立访问者,该方法引入已注册访问对象的具有唯一性的身份属性信息,可直接根据访问对象在对象属性纬度上的第三对象标识,无需再结合账户标识、设备标识、网络使用行为等其他纬度进行综合识别,可实现更加快速且准确地确定出访问对象是否为独立访问者,提高了站点独立访问量的计算效率。
为了进一步提高站点独立访问量确定的准确性,本申请实施例还提供了针对未注册的访问对象的识别方法,当确定目标账户类型为未注册账户类型时,确定目标设备标识是否位于目标站点的设备标识集合中,该设备标识集合包含在预设时间范围内访问目标站点的历史访问对象的设备标识。在确定目标设备标识未位于设备标识集合中时,确定目标对象为新增独立访问者。
为了保证站点独立访问量确定的准确性,本申请实施例在确定目标对象为新增独立访问者后,还将基于对象访问数据按照预设的参数更新策略更新目标站点的各个检测参数集合,包括历史访问账户集合、设备标识集合、第一标识集合、第二标识集合以及第三标识集合,通过准确记录和维护各个维度上的访问对象的相关标识,使各个检测参数集合能准确地反映目标站点最新时刻的历史访问对象在各个维度上的情况,保证站点独立访问量确定的准确性和可信度。
下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍,需要说明的是,本申请技术方案中,对数据的采集、传播、使用等,均符合国家相关法律法规要求,且以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施过程中,可以根据实际需要灵活地应用本申请实施例提供的技术方案。
本申请实施例提供的技术方案可以适用于任何确定网站、应用程序或其他在线服务等站点独立访问者数量的场景。如图1所示,为本申请实施例提供的应用场景示意图,在该场景中,可以包括终端设备100、站点设备101。
终端设备100是访问对象所使用的,用于访问站点设备提供的目标站点的设备,例如个人计算机、手机、平板电脑等。访问对象可通过终端设备安装的客户端访问目标站点并与站点设备进行交互,进行发送访问请求、接收响应以及向访问对象展示站点的内容和功能。其中客户端可以是软件客户端(例如浏览器、移动应用程序等),也可以是网页、小程序等客户端,在此不限制客户端的具体类型。
站点设备101可以为具有一定的处理能力和存储容量的计算机设备,例如可以为个人计算机(personal computer,PC)、服务器等能够被配置为执行本申请实施例提供的方法的任意一种,在此不再一一进行例举。站点设备101可托管网站、应用程序或其他在线服务等站点,并为上述站点提供数据存储和管理等功能支持,处理来自终端设备的访问请求,并向终端设备提供所需的数据信息和站点服务,本申请实施例不限制站点的具体类型。站点设备101基于本申请实施例提供的站点独立访问量确定方法,对目标对象通过终端设备访问目标站点所产生的对象访问数据进行处理,以确定目标对象是否为目标站点的新增独立访问者,并决定是否更新目标站点的独立访问量。该站点设备100还可以配置数据库,数据库可以用于存储本申请实施例提供的方案中涉及到的检测参数集合、站点独立访问量确定过程中产生的中间数据、终端设备发送的需存储的信息等。
本申请实施例中,终端设备100和站点设备101之间可以通过一个或者多个网络102进行直接或间接的通信连接。该网络102可以是有线网络,也可以是无线网络,例如无线网络可以是移动蜂窝网络,或者可以是无线保真(Wireless-Fidelity,WIFI)网络,当然还可以是其他可能的网络,本发明实施例对此不做限制。
需要说明的是,图1所示只是举例说明,实际上终端设备100和站点设备101的数量不受限制,在本申请实施例中不做具体限定。
在一种可能的实施方式中,如图2所示为本申请实施例提供的另一种应用场景示意图,在该场景中,可以包括站点设备201、终端设备202、服务器203。
站点设备201为具有一定的处理能力和存储容量的计算机设备,例如可以为个人计算机(personal computer,PC)、服务器等能够托管网站、应用程序或其他在线服务等站点,为上述站点提供数据存储和管理等功能支持,处理来自终端设备的访问请求,并向终端设备提供所需的数据信息和站点服务的任意一种设备均可。
终端设备202均可以为具有一定处理能力的计算机设备,例如手机、个人计算机(personal computer,PC)、平板电脑(PAD)、笔记本电脑、台式电脑、移动互联网设备(Mobile Internet Device,MID)、智能电视、智能车载设备以及智能可穿戴设备等任意能与站点设备201、服务器203进行连接的设备均可,本实施例不作具体限定。
服务器203可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器等能够被配置为执行本申请实施例提供的方法中的任意一种均可,在此不再一一进行例举。目标对象通过终端设备202访问站点设备201所提供的目标站点,服务器基于本申请实施例提供的站点独立访问量确定方法,对目标对象针对目标站点的访问操作所生成的对象访问数据进行处理,以确定目标对象是否为目标站点的新增独立访问者,并决定是否更新目标站点的独立访问量。可以理解,该方法的执行主体为服务器只是一种示例性的说明,并不应理解为对该方法的限定。
本申请实施例中,站点设备201、终端设备202以及服务器203之间可以通过一个或者多个网络进行直接或间接的通信连接。该网络可以是有线网络,也可以是无线网络,例如无线网络可以是移动蜂窝网络,或者可以是无线保真(Wireless-Fidelity,WIFI)网络,当然还可以是其他可能的网络,本发明实施例对此不做限制。
需要说明的是,图2所示只是举例说明,实际上站点设备201、终端设备202、服务器203的数量不受限制,在本申请实施例中不做具体限定。且图1、图2所示的组件和结构均只是示例性的,而非限制性的,在实际场景中根据需要,还可以具有其他组件和结构。
下面结合上述描述的应用场景,参考附图来描述本申请示例性实施方式提供的站点独立访问量确定方法,需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。
参见图3所示,为本申请实施例提供的站点独立访问量确定方法的流程示意图,该方法的执行主体为图1所示的站点设备或者图2所示的服务器,该方法的具体实施流程如下:
步骤301:对目标对象的对象访问数据中账户标识进行类型识别,获得账户标识对应的目标账户类型。
本申请实施例中,目标对象针对目标站点进行的访问操作将产生与目标对象相应的对象访问数据,对象访问数据中携带有目标站点为目标对象所分配的账户标识,通过对账户标识进行类型识别可确定出该账户标识的目标账户类型,从而根据目标账户类型确定后续的处理流程。
在一种可能的实施方式中,对象访问数据可以为网页、应用程序等目标站点的站点访问日志、埋点数据等多种形式的数据。其中,站点访问日志通常以文本文件或数据库的格式存在,记录了对象访问目标站点的访问信息,包括访问事件、IP地址、访问的页面或资源等。当对象通过浏览器或应用程序进行访问站点的操作时,目标站点的服务器可自动记录对象访问站点的相关信息并生成对应的站点访问日志,站点访问日志可以通过服务器日志文件或其他数据分析工具来获取和分析。埋点数据是目标站点的开发者及相关人员通过在目标站点的应用程序或网页中埋点所获得的,埋点包括在站点中嵌入可实时捕捉对象的访问行为并生成相应事件记录的特殊代码、标记或脚本,用于将设定的关键事件和对象行为记录为事件日志。因此埋点数据里携带了对象对目标站点进行浏览、点击、搜索、提交表单等访问操作及相关访问信息的对象行为数据,埋点数据也可以被站点后台或特定的分析工具进行获取和分析。
具体的,通过在应用程序或网站等目标站点的客户端代码中写入埋点代码。该埋点代码负责捕获对象的实时访问操作行为、访问事件触发等关键信息,并将实时埋点数据以特定的格式发送到目标站点的服务器或第三方数据处理平台,服务器或第三方数据处理平台接收到实时埋点数据后,对数据进行解析、验证和处理,获得该对象对应的对象访问数据并将其存储到数据库或分布式存储系统中,以便通过本申请实施例提供的站点独立访问量确定方法,对该对象访问数据进行处理。
在一种可能的实施方式中,账户标识可以是目标站点针对访问对象注册账户的行为,为其分配的注册账户编号,包括但不限于注册用户名、注册会员号、对象的注册邮箱、手机号码等。注册账户编号可以唯一地标识一个注册用户,并与其在目标站点的数据库中预先存储的账户信息关联,账户信息包括该注册对象在历史注册账户时所提交的身份属性信息等,包括但不限于姓名、年龄、性别、联系电话、邮箱、身份证号、家庭住址等。因此,对于注册账户编号,可以通过与目标站点的数据库中预先存储的多个注册账户信息进行比较来确定该账户标识的目标账户类型,例如通过查询账户数据库,验证该账户编号是否存在等来判断是否为注册账户类型。
在一种可能的实施例中,在目标站点不强制要求访问对象注册,即允许对象以游客身份(未注册身份)匿名访问等场景下,账户标识除了注册账户编号,还可包括未注册账户编号。未注册账户编号可以是目标站点为所有以游客身份匿名访问的访问对象统一分配的固定编号,例如“guest”等,也可以是为匿名访问的访问对象随机分配的不固定编号。因此,对于未注册账户类型的游客账户编号,由于游客账户编号具有较为固定的数据格式,因此可直接通过预先设置的识别规则进行判断,例如当游客编号固定为"guest"则可以直接比较提取到的账户标识是否与"guest"相同,当游客编号是随机生成的不固定编号,可以通过判断账户标识是否满足特定的格式或长度等规则来确定是否为未注册账户类型。
步骤302:确定目标账户类型是否为已注册账户类型,若是则跳转执行步骤303,若否则跳转执行步骤306。
本申请实施例中,通过对对象访问数据中的账户标识进行类型识别获得目标账户类型,可基于目标账户类型区分出对象是以已注册对象身份进行访问还是以未注册对象身份进行匿名访问,并为不同的账户类型分别设计了不同的独立访问量确定流程,使得本申请实施例面对存在以未注册对象身份匿名访问站点的对象、对象先以未注册对象身份匿名访问站点后以已注册对象身份访问站点等场景,依然可准确确定该对象是否为目标站点的新增独立访问者,从而提高站点独立访问量确定的准确性。
步骤303:确定账户标识是否位于目标站点的历史访问账户集合中,若是则跳转执行步骤307,若否则跳转执行步骤304。
本申请实施例中,在确定本次访问对象的账户标识的账户类型为已注册账户类型时,通过将本次访问对象的账户标识与历史访问账户集合中的各个历史访问账户进行一致性比较,确定其是否位于历史访问账户集合中。目标站点的历史访问账户集合中存储有在预设时间范围内访问过目标站点的历史独立访问者各自的注册账户编号,该预设时间范围可根据目标站点的实际业务需求设置,本申请实施例不作限定。若确定本次访问对象的账户标识位于该目标站点的历史访问账户集合中,则可确定该访问对象曾使用过该账户标识访问目标站点,即本次访问对象不是目标站点的新增独立访问者。而仅从账户标识的纬度上确定不能保证站点独立访问量确定的准确性,因此在确定其未处于历史访问账户集合中,本申请实施例还将继续执行后续的确定流程。
在一种可能的实施方式中,可使用bitmap、Roaring Bitmap、Compressed Bitmap、过滤器等不同的去重手段,来实现判断账户标识是否位于历史访问账户集合中的操作,可根据具体的准确率、硬件成本和时间成本等业务需求进行选择,本申请实施例对去重手段不作具体限定。过滤器是一种常用于数据处理、查询优化和数据筛选等领域的实现过滤数据的数据组件,常见的过滤器包括布隆过滤器、Cuckoo Filter、Bloom Filter withExpiration、Filter Chain。过滤器可通过接收输入的一个或多个数据,并根据预定义的规则或条件,实现快速检索和判断出特定的一个或多个数据是否存在于已存储的数据集合中,高效地筛除不符合条件的数据,以提高处理效率。
具体的,使用布隆过滤器执行本申请实施例中判断账户标识是否位于历史访问账户集合中的操作,包括使用布隆过滤器存储预设时间范围内访问过目标站点的独立访问者的注册账户编号,获得目标站点的历史访问账户集合。以历史访问账户集合为[1001,2002,3003,4004],本次访问对象的账户标识为2002为例,假设布隆过滤器的位数组大小为10,并使用三个不同的哈希函数来计算哈希值,在判断账户标识是否位于历史访问账户集合中时,对该账户标识进行哈希运算得到相应的三个哈希值:h1=2,h2=5,h3=8。在布隆过滤器的位数组中查询上述哈希值对应的位。如果所有位都为1,即位数组的索引2、5和8处的位都为1,则确定该账户标识位于历史访问账户集合中。如果有任何一位为0,则可以确定该账户标识并不存在于历史访问账户集合中,布隆过滤器能够充分利用内存的高速访问能力,避免了频繁的磁盘IO操作,从而降低了计算资源的消耗。
具体的,使用RoaringBitmap执行本申请实施例中判断账户标识是否位于历史访问账户集合中的操作,包括使用RoaringBitmap的应用程序编程接口(ApplicationProgramming Interface,API),将预设时间范围内访问过目标站点的独立访问者的注册账户编号依次添加到RoaringBitmap中,例如通过调用bitmap.add(1001)、bitmap.add(2002)、bitmap.add(3003)、bitmap.add(4004),将这些注册账户编号添加到RoaringBitmap中,获得目标站点的历史访问账户集合[1001,2002,3003,4004]。将本次访问对象的账户标识2002作为RoaringBitmap的输入参数,执行逻辑操作,可使用RoaringBitmap的contains()方法来检查该账户标识是否存在于历史访问账户集合中。如果bitmap.contains(2002)的结果为真,则可以确定该账户标识位于历史访问账户集合中,若结果为否,则确定该账户标识并不存在于历史访问账户集合中。RoaringBitmap可通过使用压缩算法和位运算来高效地存储和操作位图数据,大大减少存储空间的需求,并且在位图的逻辑操作上具有较快的执行速度,因此使用RoaringBitmap作为过滤器,可快速判断账户标识是否位于历史访问账户集合中,从而确定目标对象是否为新增独立访问者。
在一种可能的实施方式中,为了提高站点独立访问者确定的准确性的同时,提高站点独立访问者确定的效率并节省了计算资源,当确定目标账户类型为已注册账户类型时,可先确定目标站点的对象属性集合中是否包含账户标识对应的目标对象属性信息。当对象属性集合中包含目标对象属性信息时,基于目标对象属性信息生成目标对象基于对象属性维度的第三对象标识,并在确定第三对象标识未位于目标站点的第三标识集合中时,确定目标对象为目标站点的新增独立访问者。当确定对象属性集合不包含账户标识对应的目标对象属性信息时,继续执行后续的确定账户标识是否位于历史访问账户集合中的处理流程。
具体的,对象属性信息包括目标站点的已注册对象在历史注册身份时所提供的身份属性信息,包括但不限于各个对象的姓名、年龄、性别、联系电话、邮箱、身份证号、家庭住址等。目标站点将接收到的各个对象的身份属性信息存储在其数据库中,并将不同对象的身份属性信息与为该对象分配的注册账户编号进行一一关联,获得对象属性集合。因此,在通过账户标识从数据库中的对象属性集合中,查询到与该账户标识对应的目标对象属性信息时,即确定了与本次访问对象唯一对应、标志其自然人身份的身份属性信息,根据身份属性信息使用hash算法或md5算法生成目标对象基于对象属性维度的第三对象标识。通过将本次访问对象的第三对象标识与第三标识集合中的各个第三标识进行一致性比较,确定其是否位于第三标识集合中,第三标识集合中各元素表征基于对象属性的历史访问对象。即目标站点的第三标识集合中可存储有在预设时间范围内访问过目标站点的历史独立访问者各自在对象属性纬度上的第三标识。若确定本次访问对象的第三对象标识位于该第三标识集合中,则可直接确定该对象属性信息唯一对应的自然人对象已访问过目标站点,从而更加准确且快速地确定出本次访问对象并非目标站点的新增独立访问者,减少了后续的过滤操作,提高了站点独立访问者确定的效率。且避免了同一自然人通过其注册的不同的注册账户编号进行反复访问,造成站点独立访问量的计算误差。而在确定对象属性集合不包含账户标识对应的目标对象属性信息时,本申请实施例则继续执行后续的通过历史访问账户集合进行站点独立访问者确定的处理流程。
步骤304:基于目标站点的未注册账户标识以及对象访问数据携带的目标设备标识,生成目标对象在设备标识维度的第一对象标识。
本申请实施例中,为了避免同一自然人先以未注册对象身份对目标站点进行匿名访问后,又通过已注册账户进行访问,造成站点独立访问量的重复计算,导致独立访问量确定出现误差,本申请实施例在确定本次访问对象以已注册对象身份访问,且账户标识并不存在目标站点的历史访问账户集合中时,将通过根据目标站点的未注册账户标识与本次访问对象的对象访问数据携带的目标设备标识,生成本次访问对象在设备标识维度的第一对象标识,该第一对象标识将用于后续对访问对象在设备标识纬度作进一步的判断,以保证站点独立访问量的准确性。
具体的,在目标站点不强制要求访问对象注册,即允许对象以游客身份(未注册身份)匿名访问等场景下,未注册账户编号可以是目标站点为所有以游客身份匿名访问的访问对象统一分配的固定编号,例如“guest”。对象访问数据携带的目标设备标识是用于唯一标识对象访问目标站点所使用的设备的信息,可以是任意可用于代表该设备的标识,包括但不限于设备的媒体访问控制(Media Access Control,MAC)地址、国际移动设备身份(International Mobile Equipment Identity,IMEI)编号、通用唯一识别码(UniversallyUnique Identifier,UUID)等。
在一种可能的实施方式中,为了保护访问对象的个人隐私,提高数据安全性,本申请实施例可使用Hash算法或者消息摘要(Message Digest Algorithm 5,md5)算法,对MAC地址、IMEI编号、UUID等设备标识进行加密处理,生成不可逆的标识,并将加密后的标识作为目标设备标识,与目标站点的未注册账户标识一起生成本次访问对象在设备标识维度的第一对象标识。由于加密后的目标设备标识不可逆,无法通过目标设备标识来还原对象的设备信息,确保了对象信息的安全。
步骤305:确定第一对象标识是否位于目标站点的第一标识集合,若是则跳转执行步骤307,若否则跳转执行步骤308。
本申请实施例中,目标站点的第一标识集合中各元素代表基于设备标识维度的历史访问对象,即第一标识集合存储有在预设时间范围内使用特定设备并以游客身份匿名访问过目标站点的历史独立访问者,各自在设备标识纬度上的第一标识。其中,该预设时间范围可根据目标站点的实际业务需求设置,本申请实施例不作限定。在获得访问对象在设备标识维度的第一对象标识时,通过将本次访问对象的第一对象标识与第一标识集合中各个第一标识进行一致性比较,确定其是否位于第一标识集合中。若确定本次访问对象的第一对象标识位于该第一标识集合中,则可确定本次访问对象曾使用该设备并以游客身份匿名访问过目标站点,即本次访问对象不是目标站点的新增独立访问者。若确定本次访问对象的第一对象标识并不存在于该第一标识集合中,结合之前判断出的本次访问对象的已注册账户类型的账户标识也不存在于目标站点的历史访问账户集合中,从账户标识纬度、设备标识纬度上共同确定出该访问对象是目标站点的新增独立访问者,保证了站点独立访问量确定的准确性。
在一种可能的实施方式中,可使用RoaringBitmap、bitmap、过滤器等不同的去重手段,来实现判断第一对象标识是否位于目标站点的第一标识集合的操作,本申请实施例对去重手段不作具体限定。
在一种可能的实施方式中,针对判断账户标识是否位于历史访问账户集合以及判断第一对象标识是否位于第一标识集合等多个不同的过滤操作,可使用由两个过滤器构成的过滤链来实现,两个过滤器分别存储有代表历史访问账户集合、第一标识集合的检测参数集合。其中,同一个过滤链上的不同过滤器为遍历操作,即同一个过滤链中,如果前一个过滤器确定出代表账户标识的检测参数不存在于过滤器所存储的检测参数集合中,则继续使用下一个过滤器进行判断,直到在某一个过滤器中确定当前检测参数存在于检测参数集合中,或者该过滤链中所有过滤器都确定相应检测参数不存在于检测参数集合中。
具体的,在由过滤器B1、B2组成的过滤链B中,若前一个过滤器B1判断出账户标识不存在于历史访问账户集合中,则使用下一个过滤器B2判断第一对象标识是否位于第一标识集合,直到过滤器B1、B2中任意一个过滤器判断出检测参数集合中存在当前检测参数,确定该访问对象并非目标站点的新增独立访问者。或者,过滤链中所有过滤器都判断出检测参数集合中不存在特定的检测参数,则确定该访问对象是目标站点的新增独立访问者。
在一种可能的实施方式中,为了进一步提高站点独立访问量确定的准确性,本申请实施例在确定本次访问对象通过未注册对象身份访问,且目标对象在设备标识维度的第一对象标识未存在于目标站点的第一标识集合时,还可结合目标对象在网络使用行为纬度的特征,进一步判断其是否为目标站点的新增独立访问者。通过判断对象访问数据是否携带有目标对象的网络使用行为信息,若确定携带有网络使用行为信息,则根据未注册账户标识以及该网络使用行为信息,生成目标对象在网络使用行为维度的第二对象标识。在确定第一对象标识未位于第一标识集合中时,且第二对象标识位于目标站点的第二标识集合中时,确定目标对象为新增独立访问者。
在一种可能的实施方式中,目标站点的第二标识集合包括基于网络使用行为维度的历史访问对象,即第二标识集合可存储预设时间范围内目标站点的历史独立访问者各自的网络使用行为信息。网络使用行为信息包括对象访问目标站点时使用的网络地址信息和产生的访问行为信息中的至少一种,例如网络地址信息可以是用户的IP地址等,访问行为信息可以是用户的cookie、浏览器指纹等。
具体的,对象A以未注册对象身份去访问允许用户匿名访问的目标站点,但对象A先后使用了不同的设备对目标站点进行匿名访问。因此,仅通过确定出目标对象在设备标识维度的第一对象标识未存在于目标站点的第一标识集合,而确定该目标对象为目标站点的新增独立访问者存在一定的误差。而目标对象的IP地址等网络使用行为信息通常有对象所在的局域网决定,不会随着对象使用的设备改变而改变,因此本申请实施例则进一步将对象A的未注册账户标识和使用不同设备时相同的网络使用行为信息结合起来,生成了对象A在网络使用行为维度上的第二对象标识,来进一步确定该对象A是否为目标站点的新增独立访问者。例如,未注册用户A在IP地址为123.456.789.1的局域网下,先使用设备1访问目标站点,根据IP地址信息以及未注册账户标识guest可生成对象A在网络使用行为维度上的第二对象标识A。若用户A又使用设备2访问目标站点,由于IP地址和未注册账户标识guest相同生成的第二对象标识A相同,可确定未注册用户A并非目标站点的独立访问者。
在一种可能的实施方式中,针对新增的用于判断目标对象是否为新增独立访问者的网络使用行为纬度上的检测参数,可通过在过滤链中增加新的过滤器,来执行判断目标对象在网络使用行为维度的第二对象标识是否位于目标站点的第二标识集合中的操作。
具体的,参考图4所示,过滤链B由过滤器B1、B2、B3组成,三个过滤器分别从账户标识维度、设备标识维度、网络使用行为纬度上来判断目标对象是否为目标站点的新增独立访问者。过滤器B1用于判断账户标识是否存在于历史访问账户集合中,过滤器B2用于判断第一对象标识是否位于第一标识集合,过滤器3用于判断第二对象标识是否位于目标站点的第二标识集合,直到过滤器B1、B2、B3中任意一个过滤器判断出相应检测参数集合中存在特定的检测参数,确定该访问对象并非目标站点的新增独立访问者。或者,过滤链中所有过滤器都判断出检测参数集合中不存在特定的检测参数,则确定该访问对象是目标站点的新增独立访问者。
步骤306:确定目标设备标识是否位于目标站点的设备标识集合中,若是则跳转执行步骤307,若否则跳转执行步骤308。
本申请实施例中,在确定本次访问对象的账户标识的目标账户类型为目标站点的未注册账户类型时,即本次访问对象使用未注册对象身份对目标站点进行匿名访问,可直接将对象访问数据携带的目标设备标识与目标站点的设备标识集合中各个设备标识进行一致性比较,确定其是否位于设备标识集合中。该设备标识集合中可存储有预设时间范围内访问过目标站点的历史独立访问者各自的设备标识。因此,若确定本次访问对象的目标设备标识未处于设备标识集合中,则可确定目标对象为新增独立访问者。
在一种可能的实施方式中,当对象访问数据携带有目标对象的网络使用行为信息时,还可结合网络使用行为信息对使用未注册对象身份进行匿名访问的访问对象进行判断,从而进一步提高站点独立访问量确定的准确性。
具体的,当确定本次访问对象的目标设备标识未位于目标站点的设备标识集合中,即确定目标站点不存在历史独立访问者曾使用该设备对目标站点进行匿名访问。但若同一自然人曾以另一个设备对目标站点进行了匿名访问,则会出现站点独立访问量的计算误差,因此本申请实施例在确定本次访问对象的目标设备标识未位于目标站点的设备标识集合后,还将根据本次访问对象的IP地址、Cookie等网络使用行为信息,确定该网络使用行为信息是否位于目标站点的历史网络使用行为信息集合中,该历史网络使用行为信息集合包括目标站点的历史独立访问者各自使用的网络使用行为信息,以确定目标站点是否存在历史独立访问者曾使用相同的网络使用行为信息对目标站点进行匿名访问,若确定目标站点也不存历史独立访问者曾使用该网络使用行为信息对目标站点进行匿名访问,则可确定本次访问对象为目标站点的新增独立访问者。
步骤307:确定目标对象并非为目标站点的新增独立访问者。
本申请实施例中,提供了在账户标识维度、设备标识维度、网络使用行为纬度、对象属性信息纬度等多个维度上的站点独立访问者的判断条件,只要确定上述判断条件分别对应的检测参数中任意一个,存在于目标站点的各个历史独立访问者对应的检测参数集合中,则可确定目标对象不是目标站点的新增独立访问者,而无需再执行后续的站点独立访问确定流程,实现快速地判断目标对象是否为目标站点的独立访问者,而无需对所有维度上的检测参数依次进行判断,减少了计算资源的消耗。
步骤308:确定目标对象为目标站点的新增独立访问者。
步骤309:对目标站点的独立访问量进行更新,获得更新后的独立访问量。
本申请实施例中,在确定了一个对象属于目标站点的新增独立访问者时,可对目标站点的UV量进行增加一单位值的更新处理,从而准确且及时地统计出目标站点的最新的独立访问量。
在一种可能的实施方式中,在确定目标对象为新增独立访问者后,目标对象成为了目标站点的历史独立访问者,因此可按照预设的参数更新策略,根据对象访问数据携带的账户标识、目标设备标识以及在确定站点独立访问量过程中生成的第一对象标识、第二对象标识、第三对象标识等检测参数,来更新目标站点的历史访问账户集合、设备标识集合、第一标识集合、第二标识集合以及第三标识集合等,通过准确记录和维护各个维度上的访问对象的相关标识,使各个检测参数集合能准确地反映目标站点最新时刻的历史访问对象在各个维度上的情况,保证站点独立访问量确定的准确性和可信度。
下面,结合具体的例子对本申请实施例的方案进行介绍,参见下表1为本申请实施例提供的一种用于确定站点独立访问量的多级多维度过滤器,该多级多维度包括3个由优先级从高到低顺序排序的过滤组A、过滤组B、过滤组C,多级多维度过滤器的设计可实现快速地根据特定的一个或多个检测参数判断访问对象是否为独立访问者,而无需对所有的检测参数进行判断,降低了计算量。在由多个过滤组构成的多级多维度的基础上,可根据实际业务需求,在需要新增或删减特定检测参数时,只需增加或减少过滤组、过滤组的数量或者优先级等,以实现对多维度过滤器的灵活调整。
过滤组 | 过滤链(编号相同为同一链) | 检测参数 |
A | 1 | 第三对象标识 |
B | 2 | 账户标识 |
B | 2 | 第一对象标识 |
B | 2 | 第二对象标识 |
C | 3 | 目标设备标识 |
C | 3 | 网络使用行为信息 |
表1
其中,过滤组作为最小处理单元,结构可由过滤开关、过滤装置、更新装置构成,过滤开关用于判断输入数据是否具备该过滤组需要的检测参数,从而决定是否有此过滤组对输入数据进行处理,过滤装置用于检测输入数据的检测参数是否已位于过滤组内部的检测参数集合中,更新装置用于针对被判断为未位于过滤组内部的检测参数集合的新检测参数,将该数据更新进检测参数集合中,而每一个部分结构可通过配置实现自由组装,减少开发和维护成本。
具体的,过滤组A用于检测目标对象在对象属性维度上的第三对象标识是否位于目标站点的第三标识集合中,过滤组C用于检测目标对象的目标设备标识是否位于目标站点的设备标识集合中以及检测目标对象的网络使用行为信息是否位于目标站点的历史网络使用行为信息集合中。过滤组B用于依次检测目标对象的账户标识是否位于目标站点的历史访问账户集合中、目标对象在设备标识维度的第一对象标识是否位于目标站点的第一标识集合中、以及目标对象在网络使用行为维度的第二对象标识是否位于目标站点的第二标识集合中。不同的过滤组之间为互斥操作,即先由优先级高的过滤组进行相关检测参数的判断处理,除非输入过滤组的对象访问数据未包括该过滤组对应的检测参数时,才使用优先级较低的过滤器进行判断处理。若输入数据包括当前过滤组的检测参数,则直接以当前过滤器的判断结果作为最终结果,不再使用优先级较低的过滤器进行处理。
具体的,以目标对象的账户标识为guest,且账户类型为未注册账户类型,目标设备标识为MAC1、网络使用行为信息为IP1为例,由于目标对象的账户类型为未注册账户类型,目标对象不具备在对象属性维度上的第三对象标识,因此优先级最高的过滤组A缺失检测参数,按照优先级从高到低的顺序进入过滤组B,而过滤组B也需要第一账户类型为已注册账户类型的账户标识作为检测参数。因此使用下一优先级的过滤组C进行判断,检测目标对象的目标设备标识MAC1是否位于目标站点的设备标识集合中,若确定MAC未位于设备标识集合中,再检测目标对象网络使用行为信息为IP1是否位于目标站点的历史网络使用行为信息集合,若确定同样未位于则确定该目标对象为目标站点的独立访问者。
而每个过滤组内部还包括一个或多个过滤器,当存在多个过滤器时,多个过滤器可以过滤链的形式存在,例如过滤组B包括过滤器B1、B2、B3,三个过滤器B1、B2、B3以过滤链的形式存在于过滤组B中,同一过滤链上的过滤器为遍历操作,即同一个过滤链中,如果第一个过滤器B1确定出代表账户标识的检测参数不存在于过滤器所存储的检测参数集合中,则继续使用下一个过滤器B2,到下一个过滤器B3,直到在某一个过滤器确定当前检测参数存在于检测参数集合中,或者该过滤链中所有过滤器都确定相应检测参数不存在于检测参数集合中。
具体的,以目标对象的账户标识为account1,且账户类型为已注册账户类型,第一对象标识为guest+MAC1,第二对象标识为guest+IP1为例,由于目标对象不具备在对象属性维度上的第三对象标识,因此优先级最高的过滤组A缺失检测参数,按照优先级从高到低的顺序进入过滤组B。通过过滤组B中过滤链上的三个过滤器B1、B2、B3依次检测account1是否位于目标站点的历史访问账户集合中、guest+MAC1是否位于目标站点的第一标识集合中、以及guest+IP1是否位于目标站点的第二标识集合中,若B1、B2、B3中任意一个过滤器检测出相关的检测参数已存在于检测参数集合中,确定目标对象并非目标站点的独立访问者,若该过滤链中所有过滤器B1、B2、B3都确定相应检测参数不存在于检测参数集合中,则确定目标对象是目标站点的独立访问者,对站点的独立访问量进行更新。
参见图5所示,为本申请实施例提供的基于表1所示的多级多维度过滤器的独立访问量计算的流程示意图,该方法的具体实施流程如下:
步骤501:判断目标对象是否具有过滤组A要求的检测参数,若是则跳转执行步骤502,若否则跳转执行步骤503。
步骤502:判断目标对象的第三对象标识是否位于目标站点的第三标识集合中,若是则结束,若否则跳转执行步骤510。
步骤503:判断目标对象是否具有过滤组B要求的检测参数,若是则跳转执行步骤504,若否则跳转执行步骤507。
步骤504:判断目标对象的账户标识是否位于目标站点的历史访问账户集合中,若是则结束,若否则跳转执行步骤505。
步骤505:判断目标对象在设备标识维度的第一对象标识是否位于目标站点的第一标识集合中,若是则结束,若否则跳转执行步骤506。
步骤506:判断目标对象在网络使用行为维度的第二对象标识是否位于目标站点的第二标识集合中,若是则结束,若否则跳转执行步骤510。
步骤507:判断目标对象是否具有过滤组C要求的检测参数,若是则跳转执行步骤508,若否则结束。
步骤508:判断目标对象的目标设备标识是否位于目标站点的设备标识集合中,若是则结束,若否则跳转执行步骤509。
步骤509:判断目标对象的网络使用行为信息是否位于目标站点的历史网络使用行为信息集合中,若是则结束,若否则跳转执行步骤510。
步骤510:对目标站点的UV增加一个单位值,获得增加后的UV。
请参见图6,基于同一发明构思,本申请实施例还提供了一种站点独立访问量确定装置60,该装置包括:
类型识别单元601,用于对目标对象的对象访问数据中账户标识进行类型识别,获得账户标识对应的目标账户类型,对象访问数据是基于目标对象针对目标站点的访问操作生成的,账户标识是目标站点为目标对象分配的;
第一确定单元602,用于若目标账户类型为目标站点的已注册账户类型,则确定账户标识是否位于目标站点的历史访问账户集合中;
标识生成单元603,用于若未位于历史访问账户集合中,则基于目标站点的未注册账户标识以及对象访问数据携带的目标设备标识,生成目标对象在设备标识维度的第一对象标识;
第二确定单元604,用于若第一对象标识未位于目标站点的第一标识集合中,则确定目标对象为目标站点的新增独立访问者,第一标识集合中各元素表征基于设备标识维度的历史访问对象;
参数更新单元605,用于对目标站点的独立访问量进行更新,获得更新后的独立访问量。
可选的,第二确定单元604,具体用于:
确定对象访问数据是否携带有目标对象的网络使用行为信息,网络使用行为信息包括目标对象访问目标站点时,使用的网络地址信息和产生的访问行为信息中的至少一种;
若携带有网络使用行为信息,则基于未注册账户标识以及网络使用行为信息,生成目标对象在网络使用行为维度的第二对象标识;
若第一对象标识未位于第一标识集合中,且第二对象标识未位于目标站点的第二标识集合中,则确定目标对象为新增独立访问者,第二标识集合中各元素表征基于网络使用行为维度的历史访问对象。
可选的,第一确定单元602,还用于:
若目标账户类型为未注册账户类型,则确定目标设备标识是否位于目标站点的设备标识集合中;其中,设备标识集合包含在预设时间范围内,访问目标站点的历史访问对象的设备标识;
若未位于设备标识集合中,则确定目标对象为新增独立访问者。
可选的,第一确定单元602,具体用于:
若目标账户类型为已注册账户类型,确定目标站点的对象属性集合中,是否包含账户标识对应的目标对象属性信息,对象属性集合包括目标站点的已注册对象在历史注册身份时所提供的身份属性信息;
若不包含账户标识对应的目标对象属性信息,则确定账户标识是否位于历史访问账户集合中。
可选的,第一确定单元602,还用于:
若包含目标对象属性信息,则基于目标对象属性信息,生成目标对象基于对象属性维度的第三对象标识;
若第三对象标识未位于目标站点的第三标识集合中,则确定目标对象为新增独立访问者,第三标识集合中各元素表征基于对象属性的历史访问对象。
可选的,参数更新单元605,还用于:
基于对象访问数据,按照预设的参数更新策略更新目标站点的至少一个检测参数集合,至少一个检测参数集合包括历史访问账户集合、设备标识集合、第一标识集合、第二标识集合以及第三标识集合。
该装置通过对目标站点为目标对象所分配的账户标识进行类型识别,区分已注册和未注册的访问对象,并确定与账户类型对应的独立访问量确定流程。当账户类型为已注册账户类型时,先判断该账户标识是否存在于目标站点的历史访问账户中,可直接通过确定访问对象是否曾经通过该已注册账号对该目标站点进行访问,避免对已访问过站点的对象进行重复统计,保证独立访问量计算的准确性,同时节省后续的确定流程,提高站点独立访问量计算的效率。当账户标识未位于历史访问账户集合中时,根据目标站点的未注册账户标识和对象访问数据携带的目标设备标识,生成目标对象在设备标识维度的第一对象标识,通过在设备标识纬度上进一步识别访问对象是否为独立访问者,避免该访问对象曾经通过未注册账户的形式访问站点而导致独立访问量统计出现误差,进一步提高独立访问量计算的准确性。当确定第一对象标识未位于目标站点的第一标识集合中时,确定目标对象为目标站点的新增独立访问者,并更新站点的独立访问量,实现准确地统计目标站点的新增独立访问者的数量。
为了描述的方便,以上各部分按照功能划分为各单元模块(或模块)分别描述。当然,在实施本申请时可以把各单元(或模块)的功能在同一个或多个软件或硬件中实现。该装置可以用于执行本申请各实施例中所示的方法,因此,对于该装置的各功能模块所能够实现的功能等可参考前述实施例的描述,不多赘述。
请参见图7,基于同一技术构思,本申请实施例还提供了一种计算机设备。在一种实施例中,该计算机设备如图所示可以包括存储器701,通讯模块703以及一个或多个处理器702。
存储器701,用于存储处理器702执行的计算机程序。存储器701可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统;存储数据区可存储各种操作指令集等。
存储器701可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器701也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);或者存储器701是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器701可以是上述存储器的组合。
处理器702,可以包括一个或多个中央处理单元(central processing unit,CPU)或者为数字处理单元等等。处理器702,用于调用存储器701中存储的计算机程序时实现上述站点独立访问量确定方法。
通讯模块703用于与终端设备、站点设备或者其他网络设备进行通信。
本申请实施例中不限定上述存储器701、通讯模块703和处理器702之间的具体连接介质。本申请实施例在图7中以存储器701和处理器702之间通过总线704连接,总线704在图7中以粗线描述,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线704可以分为地址总线、数据总线、控制总线等。为便于描述,图7中仅用一条粗线描述,但并不描述仅有一根总线或一种类型的总线。
存储器701中存储有计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本申请实施例的站点独立访问量确定方法。处理器702用于执行上述各实施例的站点独立访问量确定方法。
基于同一发明构思,本申请实施例还提供一种存储介质,该存储介质上存储有计算机程序,当该计算机程序指令在计算机上运行时,使得计算机处理器执行本说明书上述描述的根据本申请各种实施例的站点独立访问量确定方法中的步骤。
在一些可能的实施方式中,本申请提供的站点独立访问量确定方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的站点独立访问量确定方法中的步骤,例如,计算机设备可以执行各实施例的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算装置上运行。然而,本申请的程序产品不限于此,在本申请件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算装置上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算装置上部分在远程计算装置上执行、或者完全在远程计算装置或服务器上执行。在涉及远程计算装置的情形中,远程计算装置可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算装置,或者,可以连接到外部计算装置(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (12)
1.一种站点独立访问量确定方法,其特征在于,所述方法包括:
对目标对象的对象访问数据中账户标识进行类型识别,获得所述账户标识对应的目标账户类型,所述对象访问数据是基于所述目标对象针对目标站点的访问操作生成的,所述账户标识是所述目标站点为所述目标对象分配的;
若所述目标账户类型为所述目标站点的已注册账户类型,则确定所述账户标识是否位于所述目标站点的历史访问账户集合中;
若未位于所述历史访问账户集合中,则基于所述目标站点的未注册账户标识以及所述对象访问数据携带的目标设备标识,生成所述目标对象在设备标识维度的第一对象标识;
若所述第一对象标识未位于所述目标站点的第一标识集合中,则确定所述目标对象为所述目标站点的新增独立访问者,所述第一标识集合中各元素表征基于设备标识维度的历史访问对象;
对所述目标站点的独立访问量进行更新,获得更新后的独立访问量。
2.如权利要求1所述的方法,其特征在于,若所述第一对象标识未位于所述目标站点的第一标识集合中,则确定所述目标对象为所述目标站点的新增独立访问者,包括:
确定所述对象访问数据是否携带有所述目标对象的网络使用行为信息,所述网络使用行为信息包括所述目标对象访问所述目标站点时,使用的网络地址信息和产生的访问行为信息中的至少一种;
若携带有所述网络使用行为信息,则基于所述未注册账户标识以及所述网络使用行为信息,生成所述目标对象在网络使用行为维度的第二对象标识;
若所述第一对象标识未位于所述第一标识集合中,且所述第二对象标识未位于所述目标站点的第二标识集合中,则确定所述目标对象为所述新增独立访问者,所述第二标识集合中各元素表征基于网络使用行为维度的历史访问对象。
3.如权利要求1所述的方法,其特征在于,在对目标对象的对象访问数据中账户标识进行类型识别,获得所述账户标识对应的目标账户类型之后,所述方法还包括:
若所述目标账户类型为未注册账户类型,则确定所述目标设备标识是否位于所述目标站点的设备标识集合中;其中,所述设备标识集合包含在预设时间范围内,访问所述目标站点的历史访问对象的设备标识;
若未位于所述设备标识集合中,则确定所述目标对象为所述新增独立访问者。
4.如权利要求1所述的方法,其特征在于,若所述目标账户类型为所述目标站点的已注册账户类型,则确定所述账户标识是否位于所述目标站点的历史访问账户集合中,包括:
若所述目标账户类型为所述已注册账户类型,确定所述目标站点的对象属性集合中,是否包含所述账户标识对应的目标对象属性信息,所述对象属性集合包括所述目标站点的已注册对象在历史注册身份时所提供的身份属性信息;
若不包含所述账户标识对应的目标对象属性信息,则确定所述账户标识是否位于所述历史访问账户集合中。
5.如权利要求4所述的方法,其特征在于,在若所述目标账户类型为所述已注册账户类型,确定所述目标站点的对象属性集合中,是否包含所述账户标识对应的目标对象属性信息之后,所述方法还包括:
若包含所述目标对象属性信息,则基于所述目标对象属性信息,生成所述目标对象基于对象属性维度的第三对象标识;
若所述第三对象标识未位于所述目标站点的第三标识集合中,则确定所述目标对象为所述新增独立访问者,所述第三标识集合中各元素表征基于所述对象属性的历史访问对象。
6.如权利要求1~5任一所述的方法,其特征在于,若所述目标对象为所述目标站点的新增独立访问者,则所述方法还包括:
基于所述对象访问数据,按照预设的参数更新策略更新所述目标站点的至少一个检测参数集合,所述至少一个检测参数集合包括历史访问账户集合、设备标识集合、第一标识集合、第二标识集合以及第三标识集合。
7.一种站点独立访问量确定装置,其特征在于,所述装置包括:
类型识别单元,用于对目标对象的对象访问数据中账户标识进行类型识别,获得所述账户标识对应的目标账户类型,所述对象访问数据是基于所述目标对象针对目标站点的访问操作生成的,所述账户标识是所述目标站点为所述目标对象分配的;
第一确定单元,用于若所述目标账户类型为所述目标站点的已注册账户类型,则确定所述账户标识是否位于所述目标站点的历史访问账户集合中;
标识生成单元,用于若未位于所述历史访问账户集合中,则基于所述目标站点的未注册账户标识以及所述对象访问数据携带的目标设备标识,生成所述目标对象在设备标识维度的第一对象标识;
第二确定单元,用于若所述第一对象标识未位于所述目标站点的第一标识集合中,则确定所述目标对象为所述目标站点的新增独立访问者,所述第一标识集合中各元素表征基于设备标识维度的历史访问对象;
参数更新单元,用于对所述目标站点的独立访问量进行更新,获得更新后的独立访问量。
8.如权利要求7所述的装置,其特征在于,所述第一确定单元,具体用于:
若所述目标账户类型为所述已注册账户类型,确定所述目标站点的对象属性集合中,是否包含所述账户标识对应的目标对象属性信息,所述对象属性集合包括所述目标站点的已注册对象在历史注册身份时所提供的身份属性信息;
若不包含所述账户标识对应的目标对象属性信息,则确定所述账户标识是否位于所述历史访问账户集合中。
9.如权利要求7所述的装置,其特征在于,所述参数更新单元,具体用于:
基于所述对象访问数据,按照预设的参数更新策略更新所述目标站点的至少一个检测参数集合,所述至少一个检测参数集合包括历史访问账户集合、设备标识集合、第一标识集合、第二标识集合以及第三标识集合。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,
所述处理器执行所述计算机程序时实现权利要求1至6任一项所述方法的步骤。
11.一种计算机存储介质,其上存储有计算机程序,其特征在于,
该计算机程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。
12.一种计算机程序产品,包括计算机程序,其特征在于,
该计算机程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310714710.XA CN116684458A (zh) | 2023-06-15 | 2023-06-15 | 站点独立访问量确定方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310714710.XA CN116684458A (zh) | 2023-06-15 | 2023-06-15 | 站点独立访问量确定方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116684458A true CN116684458A (zh) | 2023-09-01 |
Family
ID=87785315
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310714710.XA Pending CN116684458A (zh) | 2023-06-15 | 2023-06-15 | 站点独立访问量确定方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116684458A (zh) |
-
2023
- 2023-06-15 CN CN202310714710.XA patent/CN116684458A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10560465B2 (en) | Real time anomaly detection for data streams | |
CN112491602B (zh) | 行为数据的监控方法、装置、计算机设备及介质 | |
CN107895011B (zh) | 会话信息的处理方法、系统、存储介质和电子设备 | |
US20180248879A1 (en) | Method and apparatus for setting access privilege, server and storage medium | |
CN110855648B (zh) | 一种网络攻击的预警控制方法及装置 | |
KR102090982B1 (ko) | 악의 웹 사이트 식별 방법, 장치 및 컴퓨터 기억매체 | |
CN111163072B (zh) | 机器学习模型中特征值的确定方法、装置及电子设备 | |
CN111198976B (zh) | 云上资产关联分析系统、方法、电子设备及介质 | |
CN112486708B (zh) | 页面操作数据的处理方法和处理系统 | |
JP2015508543A (ja) | 店舗訪問データを処理すること | |
CN114095567B (zh) | 数据访问请求的处理方法、装置、计算机设备及介质 | |
CN111404937B (zh) | 一种服务器漏洞的检测方法和装置 | |
CN110808868B (zh) | 测试数据获取方法、装置、计算机设备及存储介质 | |
CN109542764B (zh) | 网页自动化测试方法、装置、计算机设备和存储介质 | |
CN111740868A (zh) | 告警数据的处理方法和装置及存储介质 | |
CN108154024B (zh) | 一种数据检索方法、装置及电子设备 | |
CN112351088A (zh) | 一种cdn缓存方法、装置、计算机设备及存储介质 | |
CN112839014A (zh) | 建立识别异常访问者模型的方法、系统、设备及介质 | |
CN103327036A (zh) | 互联网浏览设备的标识方法以及Cookie服务器 | |
US11243756B1 (en) | Extensible resource compliance management | |
CN110633432A (zh) | 一种获取数据的方法、装置、终端设备及介质 | |
CN116684458A (zh) | 站点独立访问量确定方法、装置、设备及存储介质 | |
CN115767601A (zh) | 一种基于多维数据的5gc网元自动化纳管方法及装置 | |
CN114297495A (zh) | 业务数据查找方法、装置、电子设备及存储介质 | |
CN114765599A (zh) | 子域名采集方法、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |