CN110287173A - 自动生成有意义的用户段 - Google Patents

自动生成有意义的用户段 Download PDF

Info

Publication number
CN110287173A
CN110287173A CN201910001291.9A CN201910001291A CN110287173A CN 110287173 A CN110287173 A CN 110287173A CN 201910001291 A CN201910001291 A CN 201910001291A CN 110287173 A CN110287173 A CN 110287173A
Authority
CN
China
Prior art keywords
user
user segment
segment
double
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910001291.9A
Other languages
English (en)
Other versions
CN110287173B (zh
Inventor
K·莫德莱斯
袁弘远
C·蒙古伊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Adobe Inc
Original Assignee
Adobe Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Adobe Systems Inc filed Critical Adobe Systems Inc
Publication of CN110287173A publication Critical patent/CN110287173A/zh
Application granted granted Critical
Publication of CN110287173B publication Critical patent/CN110287173B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0204Market segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Primary Health Care (AREA)
  • Tourism & Hospitality (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了用于基于高维数据空间生成有意义且有洞察力的用户段报告的系统、方法和非暂态计算机可读介质(系统)。特别地,在一个或多个实施例中,所公开的系统利用松散的双集群模型来自动标识数据空间中的用户段,其包括特定于单个用户的特征的数据集合。例如所公开的系统在自动生成的用户段中标识并包括用户,即使这些用户与一些但可能不是全部的特征相关联作为自动生成的用户段中的其他成员。

Description

自动生成有意义的用户段
背景技术
近年来,已经看到硬件和软件平台中的显著改进以用于执行与大型数据集合相关的分析。例如传统分析系统执行基于规则的用户数据分析,以标识代表共享特点、特性或特征的用户的大型数据集合内的集群。通常,传统分析系统然后将这些基于集群的用户段呈现给分析员或管理者,以用于产品、服务和广告的基于群的目标。
用户不仅每天例行地访问数百万个网站或应用,而且单个网站、应用、或统一资源定位器可能每天接收数千到数百万的访问或视图。利用这样大量的网络目的地和访问,网络管理员和营销人员通常会寻求收集有关访问网站、应用或网站或应用集合的特定用户段的信息。在某些情况下,网络管理员可以寻求标识具有某些特性或已经证明某种行为模式的特定用户段。
尽管标识关于特定段的信息的实用性,系统甚至可以为单个网站或应用收集的分析数据的量可能是难以处理的或者难以管理或挖掘。对于接收数千或数百万日常访问者或用户的网站或应用,数据量可能特别成问题。传统的分析引擎通常缺乏在高度指定的类别中标识和组织捕获数据的能力。然而,即使具有这种能力的传统分析引擎也消耗大量处理能力来创建满足复杂查询参数的特定段。为了标识某些大容量网站或应用的特定段,一些传统的分析引擎或方法可能需要单独分析数十亿个事务以标识表示由复杂查询参数定义的段的数据。如果没有处理能力或时间来单独分析如此大量的事务,一些Web管理员必须手动编写代码以生成段。这种定制的分段通常是耗时的,并且不允许管理员容易地改变或修正段。
因此,传统的分析系统通常是不准确的。例如由于数据中的噪声,传统分析系统可能不准确地标识高维空间内的集群。特别是,大量数据和噪声可能导致没有洞察力或无法解释的段。
此外,传统的分析系统通常是不灵活的。例如常规分析系统通常利用严格集群技术,其中集群的每个二进制条目必须是一个。因此,这种传统的分析系统不能包括共享许多相同集群特征的相邻用户。因此,传统的分析系统不可避免地产生无法给出强大洞察力或意义的用户段集群。
因此,当前用于数据分析的方法存在若干缺点。
发明内容
本公开描述了一种或多种实施例,其用系统、计算机可读介质和方法来提供益处和/或解决前述(或其他)问题中的一些或全部,系统、计算机可读介质和方法利用松散的双集群模型生成有洞察力和有意义的用户段报告,该模型自动标识高维数据空间中的用户段。系统、计算机可读介质和方法标识并包括自动生成的用户段中的用户,即使这些用户与一些但可能不是全部的特征相关联作为自动生成的用户段中的其他用户。最终,系统、计算机可读介质和方法通过提供高效、准确、和稳健的用户段报告来扩展传统分析系统,所述用户段报告标识高维数据空间内的有意义且有洞察力的用户段。
特别地,系统、计算机可读介质和方法标识松散的用户段并生成有意义的用户段报告。例如在一个或多个实施例中,在标识数据空间中的一个或多个用户段双集群之后,系统、计算机可读介质和方法合并所标识的用户段双集群以创建新的用户段组。另外,在合并用户段双集群之后,系统、计算机可读介质和方法从新的用户段组中过滤掉较小的用户段。此外,在过滤用户段之后,系统、计算机可读介质和方法通过基于用户段与剩余用户段的相似性将某些用户添加回剩余的用户段集合中来生成更有意义和更丰富的段。
本公开的一个或多个实施例的附加特征和优点将在随后的描述中阐述,并且部分地将从描述中显而易见,或者可以通过这样的示例实施例的实践来被学习。
附图说明
参考附图描述具体实施方式,在附图中:
图1示出了根据一个或多个实施例的数字分析系统在其中操作的示例环境;
图2示出了根据一个或多个实施例的数字分析系统所利用的示例数据空间;
图3A示出了根据一个或多个实施例的由数字分析系统在生成有意义且有洞察力的用户段中所实施的步骤的示例概述;
图3B示出了根据一个或多个实施例的与图3A的生成的用户段相对应的示例用户段报告;
图4示出了根据一个或多个实施例的由数字分析系统生成有意义且有洞察力的用户段所涉及的步骤的序列图;
图5示出了根据一个或多个实施例的数字分析系统的示意图;
图6A-6E示出了根据一个或多个实施例的示出了数字分析系统相对于传统分析系统的优点的输出图。
图7示出了根据一个或多个实施例的生成用户段报告的步骤的流程图;以及
图8示出了根据一个或多个实施例的示例性计算设备的框图。
具体实施方式
本公开描述了数字分析系统的一个或多个实施例,其生成详细描述高维数据空间内的用户段的有意义且有洞察力的用户段报告。更具体地,在一些实施例中,数字分析系统利用严格段创建算法的放宽来标识用户段并生成用户段报告,该用户段报告为用户段分析提供洞察力和意义。通过这种方式,数字分析系统克服了传统分析系统的局限性,以即使在处理大而嘈杂的数据集合时也能提供准确、高效和灵活的用户段解决方案。
具体地,在一个或多个实施例中,数字分析系统使用严格常规技术来标识第一用户段集合。在标识初始用户段之后,数字分析系统合并类似的严格用户段以创建松散的用户段。此外,在合并严格用户段之后,数字分析系统会从较松散的用户段中过滤掉较小的用户段。此外,在过滤松散的用户段之后,数字分析系统通过基于用户与剩余用户段的相似性来将某些用户添加回剩余的用户段集合中来生成有意义且丰富的段。
作为示意性示例,数字分析系统首先生成构成高维数据空间的一个或多个用户数据集合。例如数字分析系统可以基于由第三方网络服务器维护的原始收集数据来生成用户数据集合。在一个或多个实施例中,数据空间中的每个用户数据集合表示用户的特征。例如在用户数据集合中,数字分析系统为与该用户对应的每个特征分配值1。如果特征与用户不对应,则数字分析系统会将该特征的数据集合中的条目表示为零。因此,数字分析系统用数据空间中相关数据集合来将每个用户表示为一或零的特征条目的集合。
在一个或多个实施例中,在生成用户数据集合以产生数据空间之后,数字分析系统利用严格分段算法来从数据空间识别一个或多个严格用户段。在一个或多个实施例中,数字分析系统利用严格分段算法,该算法依赖于数据空间内的“接近度”,以标识由共享相同特征集合的用户构成的严格用户段。
一旦数字分析系统生成严格用户段,数字分析系统就生成松散的用户段并生成有意义的用户段报告。例如在一个或多个实施例中,在生成严格用户段之后,数字分析系统将严格用户段合并到第一松散用户段集合。在至少一个实施例中,数字分析系统合并严格用户段以标识不重复的用户段,并且更充分地说明用户跨数据空间共享的特征,而不要求松散用户段中的用户共享完全相同的特征集合。例如在至少一个实施例中,数字分析系统合并重叠超过阈值程度的严格用户段。
另外,为了标识真正有意义的用户段,数字分析系统关注于更大的用户段。例如在合并重叠的严格用户段之后,数字分析系统会过滤较小的用户段。通过这样做,数字分析系统可以避免过多的信息压倒营销人员和分析师。在一个或多个实施例中,如果松散的用户段的集合包括多于预定数目的用户段,则数字分析系统过滤该集合,使得该集合仅包括更大的更有意义的用户段。
通过合并和过滤用户段的集合,数字分析系统可以移除相关用户数据(例如用户的用户数据,其特征与剩余用户段中的一个或多个有意义地相似)。因此,在一个或多个实施例中,在过滤用户段的集合之后,数字分析系统将某些用户添加回剩余的用户段集合中。例如在至少一个实施例中,数字分析系统将移除的用户数据集合与每个剩余用户段的质心(“centroid”)进行比较。如果用户数据集合与用户段的质心之间的相似性高于阈值相似度,则数字分析系统将用户数据集合添加回该用户段。
因此,通过添加合并、过滤和添加回严格分段模型的结果的附加步骤,数字分析系统松散了严格分段模型的强烈要求,同时仍然获得严格分段模型的益处。如上所述,通过实现这种松散,数字分析系统提供了优于传统分析系统的许多优点和益处。例如数字分析系统准确地标识代表有意义且有洞察力的用户段的用户段。此外,数字分析系统在标识传统模型的严格要求之外的相关用户数据方面是灵活且稳健的。此外,数字分析系统高效地利用系统资源,仅标识对分析师具有意义和洞察力的用户段。
提供以下术语以供参考。如本文所使用的,术语“数据空间”指的是由数字分析系统生成的数据集合的集合。另外,如本文所使用的,术语“数据集合”是指由数字分析系统生成并与单个用户相关联的特征的表示。在一个或多个实施例中,数字分析系统将非零值(例如一或“1”)与数据集中由用户拥有、制定或表示的特征相关联,并将零值(例如“0”)与数据集合中不由用户拥有、制定或表示的特征相关联。
如本文所使用的,术语“特征”是指与数据空间中的用户相关联的动作、特性或特点。例如数据空间可以表示跨多个用户的特征,其包括用户采取的动作(例如点击链接、悬停在图形上、登陆网页)、由用户表示的人口统计(例如年龄18-30岁、男性、受雇者)和/或与用户相关的位置(例如美国西南部,纽约市,邮政编码94020)。在一个或多个实施例中,数据空间中表示的每个特征都是二进制的。换句话说,数字分析系统可以将用户与任意特征的关联表示为一(例如意味着用户与该特征相关联)或零(例如意味着用户不与该特征相关联)。在这样的实施例中,最初的非二进制特征被转换成二进制特征。例如如果特征是年龄(不是二进制),则数字分析系统将修订的特征设置为与年龄相关的二进制特征(例如年龄25-40岁、25岁以下、60岁以上)。
如本文所使用的,术语“用户”指的是已与第三方网络服务器(例如网站服务器、文件服务器)交互的客户端计算设备用户。例如用户可以包括客户端计算设备用户,其利用客户端计算设备上的web浏览器来访问与网站相关联的web页面。替代地,用户是利用本机软件应用、消息传送应用或其他应用的客户端计算设备用户。在一个或多个实施例中,第三方网络服务器收集与用户与网页和/或网站的交互相关联的数据。在至少一个实施例中,数字分析系统访问所收集的数据以生成与客户端计算设备用户相关联的数据集合。然后,数字分析系统可以将生成的数据集合添加到数据空间,该数据空间包括与在相同时间范围内与网页和/或网站交互的其他用户相关联的用户数据集合。
如在本公开中所使用的,“段”或“用户段”指的是其网络活动已被跟踪并存储在数据库中的一组用户。例如用户段可以包括其活动满足或响应于分段查询的用户子组。在一个实施例中,数字分析系统跟踪和存储与某些用户的活动有关的信息(例如移动应用的使用、网站用户使用的网站路径、每分钟的点击、在单个网页上花费的时间、进行的购买)。用户段可以包括共享一个或多个特征的一组这些用户。用户段可以是访问者或基于访问的。换句话说,一段用户可以包括执行段定义事件(即,基于访问者的)的唯一用户的列表。替代地,一段用户可以包括其中段定义事件被执行(即,基于访问的)的访问列表,其可以包括相同用户的多次访问。
如本文所使用的,术语“双集群”是指在生成的数据空间内标识的矩阵。在至少一个实施例中,双集群是数据空间内的矩阵,其由非零值的集群构成。因此,在至少一个实施例中,严格用户段是由用户/特征数据空间内的矩阵定义的用户组,其表示具有共同特征的用户(例如双集群)。例如数字分析系统标识数据空间内的双集群,其中每个双集群内的所有条目都是非零或一。得到的双集群的集合可以包括从大小1x1到大小RxC的矩阵,其中R是在数据空间中表示的行(例如用户)的数目,并且C是在数据空间中表示的列(例如特征)的数目。
现在转到附图,图1示出了数字分析系统104可以在其中操作的示例性环境100的一个实施例的示意图。如图1所示,示例性环境100可以包括用户118a-118d、客户端计算设备114a-114d、第三方网络服务器112(例如web服务器)、和网络110(例如因特网)。如图1中进一步所示,客户端计算设备114a-114d可以通过网络110与第三方网络服务器112和服务器102通信。尽管图1示出了用户118a-118d、客户端计算设备114a-114d、网络110、第三方网络服务器112和数字分析系统104的特定布置,各种附加布置是可能的。例如客户端计算设备114a-114d可以绕过网络110直接与第三方网络服务器112(或服务器102)通信。
此外,服务器102和数字分析系统104可以管理、查询和分析代表用户118a-118d中的一些或全部的数据。另外,数字分析系统104可以管理、查询和分析代表与第三方网络服务器112相关联的其他用户的数据。此外,在一个或多个实施例中,用户118a-118d可以分别与客户端计算设备114a-114d交互。客户端计算设备114a-114d的示例可以包括但不限于移动设备(例如智能手机、平板计算机)、膝上型计算机、台式机或任意其他类型的计算设备。图8和相关联的描述提供了关于诸如客户端计算设备的计算设备的附加信息。
如图1所示,在一个或多个实施例中,服务器102可以包括自动段生成器106,其包括数字分析系统104的至少一部分。数字分析系统104可以跟踪、管理、查询和/或分析代表用户118a-118d中的一些或全部的数据。此外,数字分析系统104可以包括允许客户端计算设备114a-114d的第三方网络服务器112和/或用户118a-118d管理和查询代表用户118a-118d中的一些或全部的数据的软件和/或硬件工具。
自动段生成器106可以包括在服务器102上运行的应用。替代地,可以从服务器102下载自动段生成器106的一部分。例如自动段生成器106可以包括允许第三方网络服务器112和/或客户端计算设备114a-114d与在服务器102处托管的数据交互的网络托管应用。
另外,在一个或多个实施例中,环境100的客户端计算设备114a-114d可以通过网络110与第三方网络服务器112通信。在一个或多个实施例中,网络110可以包括因特网或万维网。然而,网络110可以包括使用各种通信技术和协议的各种类型的网络,诸如公司内联网、虚拟专用网络(VPN)、局域网(LAN)、无线本地网络(WLAN)、蜂窝网络、广域网(WAN)、城域网(MAN)或两个或更多这样的网络的组合。
在一个或多个实施例中,客户端计算设备114a-114d可以出于各种目的与第三方网络服务器112通信。例如第三方网络服务器112可以是web服务器、文件服务器、服务器、程序服务器、应用商店等。因此,在一个或多个实施例中,客户端计算设备114a-114d与第三方网络服务器112通信以用于诸如但不限于请求网页、上载文件、更新简档、下载游戏等目的。例如在一个实施例中,第三方网络服务器112可以是用于电子商务业务的web服务器。在该示例中,用户118a-118d可以通过从web服务器请求网页以经由在客户端计算设备114a-114d上操作的web浏览器显示来与web服务器通信。
在一个实施例中,数字分析系统104可以跟踪和存储与客户端计算设备114a-114d和第三方网络服务器112之间的交互相关的各种用户数据。例如数字分析系统104可以跟踪用户数据包括但不限于用户动作(即URL请求、链接点击、鼠标悬停、文本输入、视频视图、按钮点击等)、时间数据(即何时点击链接、用户停留在网页上多长时间、何时应用被关闭等)、路径跟踪数据(即用户在给定会话期间访问什么网页等)、人口统计数据(即指示的用户年龄、指示的用户的性别、指示的用户的社会经济状况等)、地理数据(即用户所在何处等)、以及交易数据(即用户进行的购买的类型等)、以及其他类型的数据。例如在一个实施例中,第三方网络服务器112可以是网络服务器,并且客户端计算设备114a-114d可以与第三方网络服务器112通信以便请求网页信息以便某个网页可以经由客户端计算设备114a-114d向客户端计算设备114a-114d的用户118a-118d显示。在这种情况下,数字分析系统104可以跟踪用户动作(即,请求网页数据),动作被执行的时间,与客户端计算设备114a-114d相关联的地理信息(即与分配给客户端计算设备114a-114d的IP地址相关联的地理区域),和/或可以与用户118a-118d相关联的任意人口统计数据。
数字分析系统104可以以各种方式跟踪和存储用户数据。例如在某些情况下,第三方网络服务器112可以跟踪用户数据。在一个实施例中,第三方网络服务器112可以跟踪用户数据,然后将跟踪的用户数据报告给分析服务器,诸如服务器102(即经由图1中所示的虚线)。为了获得上述跟踪数据,第三方网络服务器112可以利用存储在客户端计算设备114a-114d上的数据(即浏览器cookie),嵌入计算机代码(即跟踪像素),初始化会话变量,访问用户简档,或参与任意其他类型的跟踪技术。一旦第三方网络服务器112已经跟踪用户数据,则第三方网络服务器112就可以向服务器102报告所跟踪的用户数据。
替代地或另外地,服务器102可以直接从客户端计算设备114a-114d接收跟踪的用户数据。例如第三方网络服务器112可以在提供给客户端计算设备114a-114d的网页或本机软件应用中安装软件代码(跟踪JavaScript的像素),这使得客户端计算设备114a-114d直接向服务器102报告用户数据。
如图1中所示,服务器102可以与分析数据库108(即,中央数据存储库)通信地耦合。在一个或多个实施例中,分析数据库108可以存储所跟踪的用户数据。如图所示,分析数据库108可以与服务器102分开维护。替代地,在一个实施例中,服务器102和分析数据库108可以组合成单个设备或设备集合(例如如虚线框120所示)。在至少一个实施例中,分析数据库108可以是由中央管理器控制的一系列远程数据库。
例如在一个或多个实施例中,分析数据库108可以利用分布式架构,其中分析数据库108包括多个存储设备,这些存储设备并非全部连接到公共处理单元,而是由数据库管理系统控制。例如在一个或多个实施例中,分析数据库108的多个存储设备分散在网络上。可以跨多个存储设备复制、分段或分区存储的数据。在至少一个实施例中,响应于数据查询,分析数据库108的数据库管理系统可以仅返回数据的随机采样,以便节省处理时间和资源。替代地或另外地,响应于数据查询,分析数据库108的数据库管理系统可以返回完整数据集合。
此外,如图1所示,环境100可以包括操作分析应用116的客户端计算设备114a。在一个或多个实施例中,用户118a可以是网络管理员或数据分析员,网络管理员或数据分析员经由客户端计算设备114a查询来自服务器102的分析数据(例如用户段报告)。在一个实施例中,服务器102可以在客户端计算设备114a处向分析应用116提供各种图形用户界面控件和显示,以便于帮助用户118a执行数据分析。另外,服务器102可以从分析应用116接收和处理请求,并基于所接收的请求来提供分析结果。
图2示出了数据空间200的示例实施例。如上所述,响应于对用户段报告的请求,自动段生成器106生成数据空间200。例如自动段生成器106可以基于在用户段报告请求中指定的参数来生成数据空间200,包括但不限于第三方网络服务器(例如第三方网络服务器112)和时间范围(例如2月1日-2月7日)。在一个或多个实施例中,自动段生成器106通过生成一个或多个用户数据集合(例如用户数据集合202a-202g)来生成对应于请求参数的数据空间200。
如图2所示,自动段生成器106生成用户数据集合202a-202g,以表示在指定时间范围内与指定的第三方网络服务器交互的用户。在一个或多个实施例中,每个用户数据集合202a-202g表示特征206a-206e上的用户204a-204g特有的数据。为了说明,在用户204a和特征206a-206e的每一个的交集处的数据条目208a-208e指示用户204a是否对应于相关联的特征。例如在一个实施例中,特征206a是“男性”,特征206b是“年龄18-30”,特征206c是“洛杉矶”,特征206d是“从home.html点击videogames.html”,并且特征206d是“在网站上保留超过5分钟。”因此,数据集合202a指示用户204a是18-30岁的男性,其不与其他特征206c-206e中的任意一个相对应。
在一个或多个实施例中,自动段生成器106通过查询与单个用户(例如与单个IP地址,与单个用户名,与单个用户帐户标识符)相关联的数据(例如来自第三方网络服务器112,来自分析数据库108)来生成用户数据集合。然后,自动段生成器106基于为数据集合指定的特征将该查询数据组装成用户数据集合。例如由服务器102接收的用户段报告请求可以指定客户端计算设备114a的用户118a感兴趣的特征。基于这些指定的特征,自动分段生成器106确定用户是与特征相关联(例如使数据集合中的对应条目为非零或一),还是与特征不相关联(例如使数据集合中的对应条目为零)。
如图2中进一步所示,自动段生成器106标识数据空间200内的用户段双集群210a、210b、210c、210d和210e。在一个或多个实施例中,如将更详细的描述,自动段生成器106利用Bi-Max双集群算法来标识用户段双集群210a-210e。如图2所示,用户段双集群210a-210e中的每一个包括非零条目矩阵。在至少一个实施例中,自动段生成器106将任意大小的用户段双集群从1x1矩阵(例如与用户段双集群210b、210c和210d一样)标识为数据空间200的大小的矩阵。在此阶段,用户段双集群210a-210e通知对用户组之间共享的特征的分析。例如用户段双集群210a指示在数据空间200内表示的最大特征共享组是共享特征206a和206b的用户。
如刚刚提到的,利用Bi-max双集群算法,自动段生成器106标识数据空间200中的所有用户段双集群210a-210e,而不管用户段双集群大小。然而,所标识的用户段双集群210a-210e可能无法表示有洞察力和/或有意义的用户段。例如即使与用户204d相关联的用户段双集群210b与用户段双集群210a有意义地相似,用户段双集群210a也不包括用户204d。类似地,用户段双集群210e未能包括类似的用户段双集群210d和210c。此外,用户段双集群210b、210c和210d非常小,以至于他们无法给出对所表示的用户的任意真实的洞察力。
在一个或多个实施例中,自动分段生成器106将附加步骤添加到用户段过程,如图3A所示,以便为基于数据空间200'生成的用户段报告添加意义和洞察力。例如图3A示出了由自动段生成器106执行的松散分段过程的概述。如图3A所示,当自动段生成器106生成数据空间200'时,松散的双分段过程开始,如上所述。然后,如关于图2所述并且如下面进一步讨论的,自动段生成器106利用严格分段算法(例如Bi-Max双集群算法)从数据空间200'内来标识严格用户段(本文也称为用户段双集群210f-210n)。
如图3A所示,Bi-Max双集群算法通常标识重叠的用户段双集群,诸如用户段双集群210f、210g和210h。如果自动段生成器106此时停止该过程,则由于用户段双集群210f、210g和210h之间的大量重叠,基于所标识的用户段双集群所得到的用户段报告将是低效的。因此,自动段生成器106在超出Bi-Max双集群模型的松散双集群过程中执行的第一附加步骤是与所标识的用户段双集群210f-210n相关的合并操作。
在一个或多个实施例中,自动段生成器106标识数据空间200'内的所标识的用户段双集群210f-210n之间的重叠特征的程度。如果所标识的两个用户段双集群之间的重叠特征的程度大于重叠特征的阈值程度,则自动段生成器106将用户段双集群合并为松散的用户段。例如如图3A所示,自动段生成器106确定用户段双集群210f、210g和210h之间的重叠特征的程度高于重叠特征的阈值程度。因此,自动段生成器106将用户段双集群210f、210g和210h合并为单个用户段210o。由于在用户段双集群210i-210n之间不存在重叠特征的程度,所以自动段生成器106不执行与这些用户段双集群210i-210n中的任意一个有关的合并操作。
如上所述,小用户段通常无法产生任意有意义或有洞察力的用户段数据。换句话说,在一个或多个实施例中,自动段生成器106更重视较大的用户段。因此,由自动段生成器106执行的松散双集群过程中的下一步骤是过滤用户段双集群210i-210o。在至少一个实施例中,自动段生成器106对用户段双集群210i-210o进行过滤,使得仅保留阈值数目的用户段双集群内的最大用户段双集群。例如如图3A所示,如果用户段双集群的阈值数目是2,则自动段生成器106从用户段双集群集合中过滤掉用户段双集群210i、210j、210k、210l和210n,使得仅剩下最大的两个用户段210o和210m。
在一个或多个实施例中,自动分段生成器106可能已经过滤掉数据空间200'内与用户段210o、210m中的一个或多个非常相似的用户。为了使用户段210o和210m对于最终用户段报告尽可能有意义和有洞察力,自动段生成器106可以将用户添加回用户段210o、210m中的一个或多个。例如自动段生成器106可以确定与用户相关联的先前移除的数据集合与用户段210o、210m中的至少一个的质心共享多于阈值相似度。响应于该确定,自动段生成器106可以将数据集合添加回至少一个用户段。如图3A所示,得到的用户段210o'和210m'表示具有有意义且有洞察力的特征的用户段。
在至少一个实施例中,响应于确定用户段210o'和210m',自动段生成器106可以为每个用户段210o'、210m'生成用户段报告。例如每个用户段210o'、210m'表示共享松散的特征集合的一组用户(例如第三方网络服务器112的用户)。因此,自动段生成器106可以为每个用户段210o'、210m'生成用户段报告,包括由每个用户段210o'、210m'表示的特征、在每个用户段210o',210m'中包括的用户数目、以及与在每个用户段210o',210m'中包括的用户相关联的任意标识信息。
例如图3B示出了基于所确定的用户段210o'和210m'生成的用户段报告302。如图3B所示,自动段生成器106生成包括由每个用户段210o'和210m'表示的特征的用户段报告302。例如用户段报告302的第一行304a(例如“用户段1”)与用户段210o'相关联,并且包括由用户段210o'中包括的用户共享的松散的特征集合(例如“F1”、“F7”、“F15”、“F4”、“F6”、“F11”)。类似地,用户段报告302的第二行304b(例如“用户段2”)与用户段210m'相关联,并且包括由在用户段210m'中包括的用户共享的松散的集合特征(例如“F10”、“F2”、“F12”)。如图3B所示,自动段生成器106确定表示不同数目的特征的不同大小的用户段。在备选实施例中,自动分段生成器106可以将用户段报告302生成为列表、图表、图形、或任意类型的图示。另外,自动段生成器106可以将生成的用户段报告302提供为文本文件、PDF、SMS文本消息、CSV文件、图形用户界面、或任意其他合适的电子通信。
响应于接收到生成的用户段报告(诸如经由客户端计算设备114a上的分析应用116的用户段报告302),数字分析系统104可以以各种方式利用用户段报告。例如在至少一个实施例中,数字分析系统104可以利用用户段报告来向其中定义的用户段提供定制的通信和/或内容。例如基于与用户段报告302的第一行304a中的用户段210o'相关联的特征,数字分析系统104可以生成包括定制要约的数字广告。然后,数字分析系统104可以向网站访问者提供所生成的数字广告(例如经由横幅广告、弹出窗口),其具有与用户段报告302的第一行304a中列出的特征匹配的特征。
数字分析系统104还可以以其他方式利用所生成的用户段报告。例如在另一个实施例中,数字分析系统104可以生成重新约定电子邮件,其包括为在用户段报告302的第二行304b中表示的用户定制的内容。在该示例中,数字分析系统104可以生成基于第二行304b中列出的特征来电子邮件内容,使得接收电子邮件的用户更可能与网站、社交网站、新闻提供商等重新约定。
图4示出了由自动段生成器106在生成参考图3A描述的松散用户段时执行的一系列步骤。例如如图4所示,该系列步骤开始于自动段生成器106识别数据空间中的所有用户段双集群(402)。在一个或多个实施例中,自动段生成器106利用Bi-Max双集群模型来标识数据空间中的用户段双集群(例如严格用户段)。
如上所述,Bi-Max双集群模型的目标是标识数据空间中的其条目完全非零(例如每个标识的用户段双集群中的所有条目是1)的所有用户段双集群。换句话说,Bi-Max双集群算法枚举所有包含-最大用户段双集群,其是所有非零的用户段双集群,在不引入零的情况下不能添加行或列。在这可以被写入的至少一个实施例中,BR×C的包括最大用户段双集群是行集合和列集合(R,C),使得:
a)
b)对于满足条件a的任意其他用户段双集群(R',C'),
因此,通过Bi-Max双集群模型,自动分段生成器106利用递归的“分而治之(divideand conquer)”策略来枚举所标识的数据空间中的所有用户段双集群。在附加或替代实施例中,自动段生成器106可以利用其他模型、方法或算法来标识数据空间内的所有集群或双集群。
在利用Bi-Max双集群模型来标识所有可能的用户段双集群之后,自动段生成器106开始合并用户段双集群。例如自动段生成器106首先标识用户段双集群(404)(例如唯一的一对用户段双集群)。例如自动段生成器106可以将第一用户段双集群与数据空间内的每个其他用户段双集群进行比较,直到将第一用户段双集群与另一个用户段双集群合并或到达用于比较的其他用户段双集群的末端。这样,自动段生成器106迭代数据空间内的用户段双集群对的每个可能组合。
在标识唯一一对用户段双集群(404)之后,自动段生成器106确定该一对用户段双集群是否重叠阈值度(406)。在一个或多个实施例中,自动段生成器106通过确定两个用户段双集群的并集上的交集(例如通过应用Jaccard索引)来确定两个用户段双集群之间的重叠特征的程度。例如自动段生成器106如下确定两个用户段双集群之间的重叠特征的程度:
在至少一个实施例中,所得到的重叠特征的程度在0到1的范围内,其中0指示两个用户段双集群之间没有重叠(例如两个用户段双集群在数据空间内完全分离),1指示两个用户段双集群之间的总重叠(例如两个用户段双集群是完全相同的)。
在一个或多个实施例中,自动段生成器106确定两个用户段双集群之间的所确定的重叠特征的程度是否等于或大于重叠特征的阈值程度(例如合并因子)。例如在一个实施例中,重叠的阈值程度可以手动指定为单个程度(例如0.3)或指定为程度范围(例如0.15-0.4)。替代地,自动段生成器106可以利用机器学习来指定和优化重叠的阈值程度。
如果两个用户段双集群之间的重叠特征的程度小于重叠特征的阈值程度(例如“否”),则自动段生成器106标识针对另一合并周期的新的用户段双集群(404)。如果两个用户段双集群之间的重叠特征的程度等于或大于重叠特征的阈值程度(例如“是”),则自动段生成器106将该对用户段双集群合并为数据空间内的单个用户段双集群(408)。例如自动段生成器106可以通过创建新的用户段双集群来合并一对用户段双集群,该新的用户段双集群包括重叠的一对用户段双集群之间的所有共同条目。自动段生成器106可以添加零条目以填充新用户段双集群中的任意悬垂的行或列,使得新用户段双集群是大多数的矩阵。
接下来,自动段生成器106确定在数据空间内是否存在另外的用户段双集群(410)。例如自动段生成器106可以确定最近分析的一对用户段双集群中的第一用户段双集群是否已经与数据空间中的每个其他用户段双集群进行比较。如果不是,则自动段生成器106迭代到下一个用户段双集群,并将第一用户段双集群和下一个用户段双集群标识为下一对用户段双集群(404)。如果自动段生成器106确定最近分析的一对用户段双集群中的第一用户段双集群已经与数据空间中的每个其他用户段双集群进行比较,则自动段生成器106可以选择新的第一个用户段双集群以迭代地与每个其他用户段双集群进行比较,新的第一个用户段双集群尚未与每个其他用户段双集群进行比较。
响应于确定在数据空间内不存在附加的用户段双集群(例如重叠重叠特征的阈值程度的所有用户段双集群已经被合并),自动段生成器106将数据空间过滤到数目“N”的最大用户段双集群(412)。在一个或多个实施例中,自动段生成器106在在数据空间内找到多个最大用户段双集群的目标下操作。例如如果合并操作之后的用户段双集群的数目太大,则自动段生成器106难以提供有意义的用户段报告。因此,在至少一个实施例中并且为了提供对高维数据空间的真正有意义且有洞察力的分析,自动段生成器106从该组中过滤掉太小的用户段双集群。在一个或多个实施例中,最大用户段双集群的数目由分析员或管理者手动指定。替代地,自动段生成器106可以根据合并过程之后剩余的用户段双集群的总数目,预先确定按比例增减的最大用户段双集群的数目。
在一个或多个实施例中,自动段生成器106过滤(412)合并的用户段双集群的集合以仅包括预定数目的最大用户段。例如在预定数目是5的情况下,自动分段生成器106可以从合并的用户段双集群的集合中标识五个用户段。然后,对于合并的用户段双集群的集合中的每个附加用户段双集群,自动段生成器106可以确定附加用户段双集群是否大于五个用户段双集群的组中的至少一个用户段。如果附加用户段双集群大于五个用户段双集群组中的至少一个用户段,则自动段生成器106将附加用户段双集群与五个用户段组中的用户段进行交换。如果附加用户段双集群不大于五个用户段组中的至少一个用户段,则自动段生成器106可以从合并的用户段双集群的集合中过滤附加用户段双集群。以这种方式,自动段生成器106可以确保将最大的用户段交换到五个用户段的组中。
在一些实施例中,当确定一个用户段双集群是否大于另一个用户段双集群时,自动段生成器106可以相对于宽度优先考虑幅度(“breadth”)。例如如果两个用户段双集群包括相同数目的条目(例如20个条目),但是一个用户段双集群比另一个更宽(例如一个是5x4用户段双集群,而另一个是4×5用户段双集群),则自动段生成器106可以确定更宽的用户段双集群是更大的用户段双集群。在该实施例中,自动段生成器106相对于用户大小优先考虑特征。替代地,自动段生成器106可以相对于幅度优先考虑宽度,从而相对于特征优先考虑用户大小。
在将合并的用户段双集群的集合过滤到预定数目的最大用户段双集群之后(412),自动段生成器106将特定用户数据集合添加回一个或多个用户段双集群中。在一个或多个实施例中,上述合并和过滤过程从用户段移除用户,该用户段可以为最终用户段报告提供洞察力和意义。因此,自动分段生成器106在某些情况下将用户数据集合添加回用户段双集群。
在一个实施例中,响应于确定用户段双集群的质心与用户数据集合之间的相似性高于预定相似度,自动段生成器106将用户数据集合添加回用户段双集群。例如自动段生成器106首先标识数据空间中的数据集合(414)。在一个或多个实施例中,自动段生成器106标识在用户段双集群组中的任意用户段双集群中未包括的数据集合(例如在任意初始用户段双集群中未包括的数据集合、从用户段双集群过滤掉的数据集合)。
接下来,自动分段生成器106确定所标识的数据集合与用户段之间的相似性是否高于预定阈值(418)。在至少一个实施例中,自动段生成器106基于每个用户段的质心来确定该相似性。例如自动分段生成器106可以利用各种相似性度量(例如Pearson相关性、欧几里德距离、或更一般地归一化的压缩距离)之一来确定用户段双集群的质心。然后,自动段生成器106将未在任意剩余用户段双集群内表示的数据集合与质心进行比较。如果自动分段生成器106确定数据集合与质心之间的相似性高于预定的相似度,则自动分段生成器106将数据集合添加到与质心对应的用户段双集群(418)。
在一个或多个实施例中,自动段生成器106确定数据空间中是否存在未被包括在任意用户段双集群中的附加数据集合(420)。如果存在附加的数据集合,则自动段生成器106标识数据空间中的新数据集合(414)并尝试将数据集合添加回用户段双集群。如果没有附加的数据集合,则自动段生成器106结束图4中所示的松散的Bi-Max双集群方法。
在一个或多个实施例中,以上关于图4描述的动作包括用于执行从第一多个用户段松散用户段以创建第二多个用户段的步骤的对应结构。在备选实施例中,以上关于图4描述的算法包括用于执行从第一多个用户段松散用户段以创建第二多个用户段的步骤的对应结构。
现在转到图5,将提供关于自动段生成器106的一个示例架构的组件和能力的附加细节。如图5所示,自动段生成器106可以实现为服务器102上的数字分析系统104的一部分。特别地,服务器102可以利用双集群标识管理器502、合并管理器504、过滤管理器506、添加管理器508、用户段报告生成器510、以及数据存储装置512来实现自动段生成器106,数据存储装置512包括数据空间数据514、松散双集群数据516和用户段数据518。在附加或替代实施例中,图5中示出的元件可以在客户端计算设备(例如客户端计算设备114a)、第三方网络服务器(例如第三方网络服务器112)、和/或网络(例如网络110)上实现,如图1所示。
如上所述,数字分析系统104包括自动段生成器106。在一个或多个实施例中,自动段生成器106及其所示组件处理生成用户段报告的所有活动。例如自动段生成器106从用户(例如经由分析应用116的用户118a)接收用户段报告请求。在至少一个实施例中,自动段生成器106从请求中提取信息,包括但不限于指定的第三方网络服务器、用于分析的一个或多个特征、用于分析的指定时间范围、指定的用户段的最大数目、重叠特征的阈值程度(例如合并因子)、阈值相似度。自动段生成器106可以利用该提取的信息生成数据空间、并且可以用于执行图5中所示的其他组件。
例如自动段生成器106根据指定的第三方网络服务器以及用于分析的一个或多个特征来生成高维数据空间。如上所述,自动段生成器106通过首先访问所跟踪的用户数据并生成表示与单个用户相关联的指定特征的一个或多个用户数据集合来生成数据空间。然后,自动段生成器106将生成的用户数据集合组装成高维数据空间。在一个或多个实施例中,自动段生成器106从第三方网络服务器、从分析数据库、或直接从客户端计算设备提取原始数据。
如图5中进一步所示,自动段生成器106包括双集群标识管理器502。在一个或多个实施例中,双集群标识管理器502标识生成的数据空间内的用户段双集群。例如如上所述,双集群标识管理器502可以利用Bi-Max双集群模型来标识数据空间内的所有可能的用户段双集群。在附加或替代实施例中,双集群标识管理器502可以利用其他方法或技术来标识数据空间内的集群、用户段双集群或矩阵。
如上所述,并且如图5所示,自动段生成器106包括合并管理器504。在一个或多个实施例中,响应于双集群标识管理器502标识生成的数据空间内的用户段双集群,合并管理器504递归地合并具有多于重叠特征的阈值程度的用户段双集群。例如如上所述,合并管理器504比较所标识的用户段双集群的集合内的每对用户段双集群,并确定该对的重叠特征的程度。如果确定的程度高于重叠特征的预定阈值程度,则合并管理器504将该对用户段双集群合并为单个用户段双集群。如果确定的程度低于预定的重叠特征的阈值程度,则合并管理器504忽略该对用户段双重集群。在至少一个实施例中,合并管理器504通过创建新的用户段双集群来合并两个重叠的用户段双集群,所述新的用户段双集群包括重叠的用户段双集群的所有非零条目,其中零填充在任意悬垂的行中或列。
如图5中进一步所示,自动段生成器106包括过滤管理器506。在一个或多个实施例中,响应于合并管理器504创建包括一个或多个合并的用户段双集群的新集合,过滤管理器506将新集合过滤到预定数目的最大用户段双集群。例如如上所述,过滤管理器506通过比较现有用户段双集群来过滤新集合,以标识预定数目的用户段双集群内的最大用户段双集群。由此得出,过滤管理器506从集合中移除不在预定数目的最大用户段双集群内的任意用户段双集群。在至少一个实施例中,过滤管理器506利用手动指定的(例如在用户段报告请求中)预定数目的最大用户段双集群。替代地,过滤管理器506可以基于合并的用户段双集群的集合中的用户段双集群的数目来自动确定按比例增减的最大用户段双集群的数目。
如图5中进一步所示,自动段生成器106包括添加管理器508。在一个或多个实施例中,添加管理器508确定是否应将单个数据集合添加回过滤的用户段双集群组中的一个或多个用户段双群集。在至少一个实施例中,添加管理器508首先确定过滤的用户段双群组中的每个用户段双集群的质心。如上所述,添加管理器508通过确定由该用户段双集群表示的所有用户之间的相似性度量(例如利用Pearson相关性、欧几里德距离、或更一般地归一化压缩距离)来确定用户段双集群的质心。然后,添加管理器508标识在任意用户段双集群中未包括的数据集合,并确定数据集合与每个用户段双集群的质心之间的相似度。如果相似度高于阈值相似度,则添加管理器508将数据集合添加到用户段双集群。
另外,如图5所示,自动段生成器106包括用户段报告生成器510。在一个或多个实施例中,用户段报告生成器510分析在以上所描述的过程之后剩余的至少一个用户段双集群,以生成详细说明用户段双集群中表示的一个或多个特征以及用户段双集群中表示的一个或多个用户的报告。例如生成的用户段报告可以包括但不限于在用户段双集群中表示的特征的列表、在用户段双集群中表示的用户的数目、与用户段双集群中表示的用户相关联的用户标识信息(例如用户名称、帐户标识符)、以及相对于其他剩余用户段双集群的用户段双集群的排名(例如就大小而言)。在至少一个实施例中,用户段报告生成器510为在上述过程之后剩余的每个用户段双群生成报告。替代地,用户段报告生成器510可以生成针对最高数目的用户段双集群(例如基于用户段双集群大小)、针对最高百分比的用户段双集群、或者针对最相关用户段双集群的报告。
如图5所示,自动段生成器106还包括数据存储装置512。数据存储装置512维护自动段生成器106的数据。数据存储装置512可以根据需要维护任意类型、大小或类型的数据以执行自动段生成器106的功能。如图5所示,数据存储装置512包括数据空间数据514。在一个或多个实施例中,数据空间数据514可以从服务器102、分析数据库108、网络110、第三方网络服务器112和/或客户端计算设备114a-114d收集。
如上所述,数据空间数据514可以包括多个用户数据集合,每个用户数据集合包括特定于单个用户的特征信息。此外,数据存储装置512包括表示诸如本文所述的松散的用户段双集群信息的松散双集群数据516。此外,数据存储装置512包括诸如本文所述的表示用户段信息的用户段数据518。
自动段生成器106的组件502-518中的每一个及其对应元件(如图5中所示)可以使用任意合适的通信技术彼此通信。将认识到,尽管在图5中示出了组件502-518及其对应元件是分离的,但是组件502-518中的任意一个及其对应元件可以组合成诸如组合成单个设施或模块的更少的组件,划分为更多组件,或者可以被配置为如可以服务特定实施例的不同组件。
组件502-518及其对应元件可包括软件、硬件或两者。例如组件502-518及其对应元件可包括在计算机可读存储介质上存储并且可由一个或多个计算设备的处理器执行的一个或多个指令。当由一个或多个处理器执行时,自动段生成器106的计算机可执行指令可以使客户端设备和/或服务器设备执行本文描述的方法。替代地,组件502-518及其对应元件可包括硬件,诸如用于执行某些功能或功能组的专用处理设备。另外,组件502-518及其对应元件可包括计算机可执行指令和硬件的组合。
此外,自动段生成器106的组件502-518可以例如实现为一个或多个独立应用,实现为应用的一个或多个模块,实现为一个或多个插件,实现为可以由其他应用调用的一个或多个库函数或函数,和/或实现为云计算模型。因此,自动段生成器106的组件502-518可以实现为独立应用,诸如桌面或移动应用。此外,自动段生成器106的组件502-518可以实现为在远程服务器上托管的一个或多个基于web的应用。替代地或另外地,自动段生成器106的组件502-518可以在一套移动设备应用或“应用”中实现。为了说明,自动段生成器106的组件502-518可以在应用中实现,包括但不限于“ADOBE”和“TARGET”是Adobe Systems Incorporated在美国和/或其他国家/地区的注册商标或商标。
研究人员进行测试以验证由自动段生成器106执行的松散双集群方法相对于传统分析系统(例如标准Bi-Max双集群方法)的改进。例如输入数据空间可以被视为随机矩阵,其条目是伯努利随机变量。不同条目为1的概率可能不同。在“真实”用户段双集群中,此概率Psignal应高于非用户段双集群条目PBG,因为用户段双集群中的条目应大部分为1。出于验证目的,假设Psignal和PBG分别对于所有用户段双集群和非用户段双集群条目是相同的。
所示的验证测试利用50,000个用户(例如行)和100个特征(例如列)的测试数据空间。测试数据空间包括三个“真实”用户段双集群,每个用户段双集群随机地选择具有替换的一些行(例如用户)和列(例如特征)。验证测试然后取决于该条目是否在三个“真实”用户段双集群中的一个中以相关联的概率来对这些50,000*100个伯努利分布的每个条目的值进行采样。具体而言,如果条目位于用户段双集群中,则其值v=1具有Psignal或v=0具有1-Psignal。如果条目不在用户段双集群中,则其值v=1具有PBG或v=0具有1-PBG。验证测试利用该测试数据空间结合本文所述的Bi-Max双集群方法和松散双集群方法。
在至少一个实施例中,验证测试使用两个性能评估度量。例如第一个性能评估指标测量检测到的真实用户段双集群的百分比,即“覆盖”。“覆盖”的正式定义如下:
第二性能评估度量测量在检测到的用户段双集群与“真实”用户段双集群之间的重叠特征的程度。第二性能评估度量即是“效率”,因为它在“真实”用户段双集群之外影响(“penalize”)检测到的用户段双集群的大小。“效率”的正式定义如下:
图6A示出了具有测试数据空间作为输入的Bi-Max双集群模型的结果。例如如图所示,当Psignal=1时,在这种情况下,所有“真实”用户段双集群仅由1组成,Bi-Max双集群的效率和覆盖为100%,能够完美地检测到三个“真正的”用户段双集群。然而,当Psignal远离确切的一时,由于零出现在“真实”用户段双集群内,效率和覆盖两者都会显著下降。在Psignal=0.9时,两个度量均从100%下降到50%以下,并且检测到的用户段双集群的数目急剧增加,其上限受预设值10的限制。因此,正如预期的那样,Bi-Max双集群在标识所有1的用户段双集群方面是完美的,但在标识本文所述的松散用户段双集群方面表现不佳。
图6B-6E示出了具有相同的测试数据空间作为输入的松散双集群方法的结果。除了Psignal和PBG之外,松散双集群方法的覆盖和效率也由两个算法参数确定,重叠特征的阈值程度(例如合并因子或MF)和阈值相似度(T)。例如在图6B-6E中,使用松散双集群方法从测试数据空间检测到的用户段双集群的效率、覆盖和数量被绘制为在不同T、PBG和Psignal处的合并因子的函数。
松散的双集群方法对PBG在0至0.3的范围内是稳健的。然而,松散的双集群方法对于Psignal在0.6(未示出)到1的范围内也是稳健的,并且当合并因子在0.1到0.5的范围内时表现良好。当合并因子在此范围内时,效率和覆盖两者均将高于80%,在某些情况下甚至接近100%。如果相似度阈值约为0.7,则两个度量大多高于90%。当效率和覆盖高于80%时,松散双集群方法通常能够检测到“真实”用户段双集群的正确数目,其在该测试数据空间中为3。
图6B示出了对于不同的合并因子和具有Psignal=1的相似性阈值(T)在PBG=0处绘制的使用松散双集群方法在测试数据空间中检测到的用户段双集群的效率、覆盖和数目。图6C示出了对于不同的合并因子和具有Psignal=0.9的相似性阈值(T)在PBG=0处绘制的使用松散双集群方法在测试数据空间中检测到的用户段双集群的效率、覆盖和数目。图6D示出了对于不同的合并因子和具有Psignal=0.8的相似性阈值(T)在PBG=0处绘制的使用松散双集群方法在测试数据空间中检测到的用户段双集群的效率、覆盖和数目。图6E示出了对于不同的合并因子和具有Psignal=0.7的相似性阈值(T)在PBG=0处绘制的使用松散双集群方法在测试数据空间中检测到的用户段双集群的效率、覆盖和数量。当在PBG=0.1和PBG=0.2处绘制时,针对松散双集群方法的测试结果类似。因此,在有效性测试中,松散的双集群方法对于宽范围的Psignal和PBG是稳健的。
现在转向图7,将提供关于根据一个或多个实施例的用于生成用户段报告的一系列动作700的流程图的附加细节。虽然图7示出了根据一个实施例的动作,但是替换实施例可以省略、添加、重新排序和/或修改图7中所示的任意动作。图7的动作可以作为方法的一部分来执行。替代地,非暂态计算机可读介质可以包括指令,该指令当由一个或多个处理器执行时,使得计算设备执行图7的动作。在另外的实施例中,系统可以执行图7的动作。
如图7中所示,一系列动作700包括生成用户数据集合的动作710。特别地,动作710可以包括生成用户数据集合,其中每个用户数据集合表示在预定时间范围期间与第三方网络服务器交互的用户的特征。
一系列动作700还包括标识所生成的用户数据集合中的第一多个用户段的动作720。特别地,动作720可以包括使用双集群来标识第一多个用户段,其中第一多个用户段中的每个用户段包括每个共享一个或多个共同特征的用户。例如一系列动作700还包括通过标识所生成的用户数据集合中的所有双集群来使用双集群来标识第一多个用户段的动作,其中每个双集群包括非零条目的矩阵。
另外,一系列动作700包括合并用户段的动作730。特别地,动作730可以包括将来自第一多个用户段的用户段与多于阈值程度的重叠特征合并以创建第二多个用户段。例如合并来自第一多个用户段的用户段可以包括:对于每对标识的双集群,确定该对双集群之间的重叠程度。如果该对双集群之间的重叠特征的程度大于重叠特征的阈值程度,则动作730可以包括将该双集群对合并到单个双集群中。在一个或多个实施例中,确定该对双集群之间的重叠特征的程度包括将该对双集群的交集的大小除以该对双集群的并集的大小。
在一个或多个实施例中,一系列动作700包括在生成用户段报告之前将第二多个用户段过滤到预定数目的用户段的动作,其中预定数目的用户段包括第二多个用户段中的最大用户段。另外,一系列动作700可以包括响应于过滤第二多个用户段,向过滤的第二多个用户段中的至少一个用户段添加从第二多个用户段中过滤掉的至少一个用户的动作,其中与至少一个用户相关联的特征指示与所过滤的第二多个用户段中的至少一个用户段的阈值相似水平。此外,一系列动作700还可以包括通过以下各项向所过滤的第二多个用户段中的至少一个用户段添加从第二多个用户段中过滤掉的至少一个用户的动作:对于每个生成的用户数据集合以及所过滤的第二多个用户段中的每个用户段:确定用户数据集合与用户段的质心之间的相似度;并且如果相似度高于阈值相似度,则将用户数据集合添加到用户段。
此外,一系列动作700包括生成用户段报告的动作740。特别地,动作740可以包括,对于第二多个用户段中的最高数目的用户段:生成用户段报告,该用户段报告指示由第二多个用户段的最高数目的用户段的用户段表示的用户的共享特征。在一个或多个实施例中,生成指示由第二多个用户段的最高数目的用户段的用户段表示的用户的共享特征的用户段报告包括:标识由用户段表示的所有特征;生成所标识的特征的显示;并向客户端计算设备上的分析应用提供生成的显示。在至少一个实施例中,一系列动作700包括基于用户段报告中指示的共享特征来生成定制内容,以及向用户段报告中由用户段表示的用户提供定制内容的动作。
本文使用的术语“数字环境”通常是指例如作为独立应用(例如个人计算机或在计算设备上运行的移动应用)、作为应用的元素、作为应用的插件、作为库函数或函数、作为计算设备、和/或作为云计算系统实现的环境。
本公开的实施例可以包括或利用包括计算机硬件(诸如例如一个或多个处理器和系统存储器)的专用或通用计算机,如下面更详细地讨论的。本公开范围内的实施例还包括用于携带或存储计算机可执行指令和/或数据结构的物理和其他计算机可读介质。特别地,本文描述的一个或多个过程可以至少部分地实现为指令,指令体现在非暂态计算机可读介质中并且可由一个或多个计算设备(例如本文描述的媒体内容访问设备中的任意一个)执行。通常,处理器(例如微处理器)从非暂态计算机可读介质(例如存储器等)接收指令,并执行那些指令,从而执行一个或多个过程,包括本文描述的过程中的一个或多个。
计算机可读介质可以是可由通用或专用计算机系统访问的任意可用介质。存储计算机可执行指令的计算机可读介质是非暂态计算机可读存储介质(设备)。携带计算机可执行指令的计算机可读介质是传输介质。因此,作为示例而非限制,本公开的实施例可以包括至少两种截然不同种类的计算机可读介质:非暂态计算机可读存储介质(设备)和传输介质。
非暂态计算机可读存储介质(设备)包括RAM、ROM、EEPROM、CD-ROM、固态驱动器(“SSD”)(例如基于RAM)、闪存、相变存储器(“PCM“)、其他类型的存储器、其他光盘存储、磁盘存储或其他磁存储设备、或可用于以计算机可执行指令或数据结构的形式存储所需程序代码部件、并且可由通用或专用计算机访问的任意其他介质。
“网络”被定义为支持在计算机系统和/或模块和/或其他电子设备之间传输电子数据的一个或多个数据链路。当通过网络或其他通信连接(硬连线、无线或硬连线或无线的组合)向计算机传输或提供信息时,计算机将连接恰当地视为传输介质。传输介质可以包括网络和/或数据链路,其可以用于以计算机可执行指令或数据结构的形式携带期望的程序代码部件,并且可以由通用或专用计算机访问。上述的组合也应被包括在计算机可读介质的范围内。
此外,在到达各种计算机系统组件时,程序代码部件可以以计算机可执行指令或数据结构的形式自动地从传输介质传输到非暂态计算机可读存储介质(设备)(或反之亦然)。例如通过网络或数据链路接收的计算机可执行指令或数据结构可以缓冲在网络接口模块(例如“NIC”)内的RAM中,然后最终被传送到计算机系统RAM和/或被传送到计算机系统处的更少的易失性计算机存储介质(设备)。因此,应该理解,非暂态计算机可读存储介质(设备)可以被包括在也(或甚至主要)利用传输介质的计算机系统组件中。
计算机可执行指令包括例如指令和数据,当在处理器处执行时,使得通用计算机、专用计算机或专用处理设备执行某些功能或功能组。在一些实施例中,计算机可执行指令在通用计算机上执行,以将通用计算机变成实现本公开的元素的专用计算机。计算机可执行指令可以是例如二进制文件、诸如汇编语言的中间格式指令、或甚至是源代码。尽管用结构特征和/或方法动作专用的语言描述了本主题,但应理解,所附权利要求书中定义的主题不一定限于上述所描述的特征或动作。相反,所描述的特征和动作被公开为实现权利要求的示例形式。
本领域技术人员将理解,本公开可以在具有许多类型的计算机系统配置的网络计算环境中实践,包括个人计算机、台式计算机、膝上型计算机、消息处理器、手持设备、多处理器系统、基于微处理器或可编程的消费电子产品、网络PC、小型计算机、大型计算机、移动电话、PDA、平板计算机、寻呼机、路由器、交换机等。本公开还可以在分布式系统环境中实施,其中通过网络链接(通过硬连线数据链路、无线数据链路、或通过硬连线和无线数据链路的组合)的本地和远程计算机系统两者均执行任务。在分布式系统环境中,程序模块可以位于本地和远程存储器存储设备中。
本公开的实施例还可以在云计算环境中实现。在本说明书中,“云计算”被定义为支持对可配置计算资源的共享池的按需网络访问的模型。例如可以在市场中采用云计算来提供对可配置计算资源的共享池的普遍且方便的按需访问。可配置计算资源的共享池可以经由虚拟化快速供应,并以低管理工作量或服务提供商交互发布,然后相应地进行扩展。
云计算模型可以由各种特征组成,诸如例如按需自助服务、广泛网络访问、资源池、快速弹性、测量服务等。云计算模型还可以展示各种服务模型,诸如例如软件即服务(“SaaS”)、平台即服务(“PaaS”)和基础设施即服务(“IaaS”)。还可以使用诸如私有云、社区云、公共云、混合云等的不同的部署模型来部署云计算模型。在本说明书和权利要求书中,“云计算环境”是其中云计算被采用的环境。
图8示出了示例性计算设备800的框图,该示例性计算设备800可以被配置为执行上述过程中的一个或多个。可以理解,诸如计算设备800的一个或多个计算设备可以表示上述计算设备(例如服务器102、客户端计算设备114a-114d、第三方网络服务器112)。在一个或多个实施例中,计算设备800可以是移动设备(例如移动电话、智能电话、PDA、平板计算机、膝上型计算机、相机、跟踪器、手表、可穿戴设备等)。在一些实施例中,计算设备800可以是非移动设备(例如台式计算机或其他类型的客户端设备)。此外,计算设备800可以是包括基于云的处理和存储能力的服务器设备。
如图8所示,计算设备800可以包括一个或多个处理器802、存储器804、存储设备806、输入/输出(“I/O”)接口808和通信接口810,其可以通过通信基础设施(例如总线812)通信地耦合。虽然图8中示出了计算设备800,但是图8中示出的组件并非旨在进行限制。在其他实施例中可以使用附加或替代组件。此外,在某些实施例中,计算设备800包括比图8中所示的组件更少的组件。现在将更详细地描述图8中所示的计算设备800的组件。
在特定实施例中,处理器802包括用于执行指令的硬件,诸如构成计算机程序的指令。作为示例而非通过限制的方式,为了执行指令,处理器802可以从内部寄存器、内部高速缓存、存储器804或存储设备806取回(或获取)指令并对它们进行解码和执行。
计算设备800包括存储器804,其耦合到处理器802。存储器804可以用于存储数据、元数据和程序以供处理器执行。存储器804可以包括易失性和非易失性存储器中的一个或多个,诸如随机存取存储器(“RAM”)、只读存储器(“ROM”)、固态盘(“SSD”)、闪存、相变存储器(“PCM”)或其他类型的数据存储。存储器804可以是内部或分布式存储器。
计算设备800包括存储设备806,其包括用于存储数据或指令的存储装置。作为示例但不作为限制,存储设备806可以包括上述的非暂态存储介质。存储设备806可以包括硬盘驱动器(HDD)、闪存、通用串行总线(USB)驱动器、或这些或其他存储设备的组合。
如图所示,计算设备800包括一个或多个I/O接口808,其被提供以允许用户向计算设备800提供输入(诸如用户笔划),从计算设备800接收输出,以及以其他方式将数据传送到计算设备800并从计算设备800传送数据。这些I/O接口808可以包括鼠标、小键盘或键盘、触摸屏、相机、光学扫描仪、网络接口、调制解调器、其他已知的I/O设备或这些I/O接口808的组合。可以用触控笔或手指激活触摸屏。
I/O接口808可以包括用于向用户呈现输出的一个或多个设备,包括但不限于图形引擎、显示器(例如显示屏)、一个或多个输出驱动器(例如显示驱动程序)、一个或多个音频扬声器、以及一个或多个音频驱动程序。在某些实施例中,I/O接口808被配置为向显示器提供图形数据以呈现给用户。图形数据可以代表一个或多个图形用户界面和/或可以服务于特定实现的任意其他图形内容。
计算设备800还可以包括通信接口810。通信接口810可以包括硬件、软件或两者。通信接口810提供用于计算设备与一个或多个其他计算设备或一个或多个网络之间的通信(诸如例如基于分组的通信)的一个或多个接口。作为示例而非通过限定的方式,通信接口810可以包括网络接口控制器(NIC)或网络适配器,以用于与以太网或其他基于有线的网络进行通信,或无线NIC(WNIC)或无线适配器,以用于与诸如WI-FI的无线网络进行通信。计算设备800还可以包括总线812。总线812可以包括将计算设备800的组件彼此连接的硬件、软件或两者。
在前述说明书中,已经参考本发明的特定示例性实施例描述了本发明。参考本文讨论的细节描述了本发明的各种实施例和方面,并且附图示出了各种实施例。以上描述和附图是对本发明的说明,而不应被解释为限制本发明。描述了许多具体细节以提供对本发明的各种实施例的透彻理解。
在不脱离本发明的精神或基本特征的情况下,本发明可以以其他特定形式体现。所描述的实施例在所有方面都应被视为仅是示意性的而非限制性的。例如可以用更少或更多的步骤/动作来执行本文描述的方法,或者可以以不同的顺序执行步骤/动作。另外,本文描述的步骤/动作可以重复或彼此并行地执行,或者与相同或类似的步骤/动作的不同实例并行地执行。因此,本发明的范围由所附权利要求而不是前面的描述指示。在权利要求的含义和等同范围内的所有改变都被涵盖在其范围内。

Claims (20)

1.一种在用于标识高维数据空间中的有意义的用户段的数字媒体环境中用于利用松散双集群的方法,包括:
生成用户数据集合,其中每个用户数据集合表示在预定时间范围期间与第三方网络服务器交互的用户的特征;
使用双集群标识第一多个用户段,其中所述第一多个用户段中的每个用户段包括各自共享一个或多个共同特征的用户;
执行用于对来自所述第一多个用户段的所述用户段进行松散以创建第二多个用户段的步骤;以及
对于所述第二多个用户段中的最高数目的用户段:生成用户段报告,所述用户段报告指示由所述第二多个用户段的所述最高数目的用户段的所述用户段表示的用户的所述共享特征。
2.根据权利要求1所述的方法,其中执行用于对来自所述第一多个用户段的所述用户段进行松散以创建第二多个用户段的步骤包括:在生成用户段报告之前,将所述第二多个用户段过滤到预定数目的用户段,其中所述预定数目的用户段包括所述第二多个用户段中的最大用户段。
3.根据权利要求2所述的方法,还包括:响应于过滤所述第二多个用户段,向所过滤的所述第二多个用户段中的至少一个用户段添加从所述第二多个用户段中过滤掉的至少一个用户,其中与所述至少一个用户相关联的特征指示与所过滤的所述第二多个用户段中的所述至少一个用户段的阈值相似水平。
4.根据权利要求3所述的方法,其中向所过滤的所述第二多个用户段中的至少一个用户段添加从所述第二多个用户段中过滤掉的至少一个用户包括:
针对每个生成的用户数据集合和所过滤的所述第二多个用户段中的每个用户段:
确定所述用户数据集合与所述用户段的质心之间的相似度;以及
如果所述相似度高于阈值相似度,则将所述用户数据集合添加到所述用户段。
5.一种非暂态计算机可读存储介质,具有存储在其上的、用于自动生成用户段的计算机可执行指令,其中所述计算机可执行指令在由处理器执行时使得计算设备:
生成用户数据集合,其中每个用户数据集合表示在预定时间范围期间与第三方网络服务器交互的用户的特征;
使用双集群标识第一多个用户段,其中所述第一多个用户段中的每个用户段包括各自共享一个或多个共同特征的用户;
将来自所述第一多个用户段的、具有多于阈值程度的重叠特征的用户段进行合并以创建第二多个用户段;以及
针对所述第二多个用户段中的最高数目的用户段:生成用户段报告,所述用户段报告指示由所述第二多个用户段的所述最高数目的用户段的所述用户段表示的用户的所述共享特征。
6.根据权利要求5所述的非暂态计算机可读存储介质,还存储计算机可执行指令,所述计算机可执行指令在由所述处理器执行时使得所述计算设备:使用双集群以通过标识所生成的所述用户数据集合中的所有双集群来标识所述第一多个用户段,其中每个双集群包括非零条目的矩阵。
7.根据权利要求6所述的非暂态计算机可读存储介质,还存储计算机可执行指令,所述计算机可执行指令在由所述处理器执行时使得所述计算设备通过以下项来合并来自所述第一多个用户段的用户段:
针对所标识的每对双集群:
确定所述一对双集群之间的重叠程度;以及
如果所述一对双集群对之间的重叠特征的程度大于所述重叠特征的阈值程度,则将所述一对双集群合合并到单个双集群中。
8.根据权利要求7所述的非暂态计算机可读存储介质,其中确定所述一对双集群之间的重叠特征的程度包括:用所述一对双集群的交集的大小除以所述一对双集群的并集的大小。
9.根据权利要求5所述的非暂态计算机可读存储介质,还存储计算机可执行指令,所述计算机可执行指令在由所述处理器执行时使得所述计算设备:在生成用户段报告之前,将所述第二多个用户段过滤为预定数目的用户段,其中所述预定数目的用户段包括所述第二多个用户段中的最大用户段。
10.根据权利要求9所述的非暂态计算机可读存储介质,还存储计算机可执行指令,所述计算机可执行指令在由所述处理器执行时使得所述计算设备:响应于过滤所述第二多个用户段,向所过滤的所述第二多个用户段中的至少一个用户段添加从所述第二多个用户段中过滤掉的至少一个用户,其中与所述至少一个用户相关联的特征指示与所过滤的所述第二多个用户段中的所述至少一个用户段的阈值相似水平。
11.根据权利要求10所述的非暂态计算机可读存储介质,还存储计算机可执行指令,所述计算机可执行指令在由所述处理器执行时使得所述计算设备:通过以下项向所过滤的所述第二多个用户段中的至少一个用户段添加从所述第二多个用户段中过滤掉的至少一个用户:
针对每个所生成的用户数据集合和所过滤的所述第二多个用户段中的每个用户段:
确定所述用户数据集合与所述用户段的质心之间的相似度;以及
如果所述相似度高于阈值相似度,则将所述用户数据集合添加到所述用户段。
12.根据权利要求5所述的非暂态计算机可读存储介质,还存储计算机可执行指令,所述计算机可执行指令在由所述处理器执行时使得所述计算设备:通过以下项生成用户段报告,所述用户段报告指示由所述第二多个用户段的所述最高数目的用户段的所述用户段表示的用户的所述共享特征:
标识由所述用户段表示的所有特征;
生成所标识的所述特征的显示;以及
向客户端计算设备上的分析应用提供所生成的所述显示。
13.一种系统,包括:
至少一个处理器;以及
至少一个非暂态计算机可读存储介质,在其上存储有指令,所述指令当由所述至少一个处理器执行时,使得所述系统:
生成用户数据集合,其中每个用户数据集合表示在预定时间范围期间与第三方网络服务器交互的用户的特征;
通过标识所生成的所述用户数据集合中的所有双集群,来使用双集群标识第一多个用户段,其中每个双集群包括非零条目的矩阵,并且其中所述第一多个用户段的每个用户段包括各自共享一个或多个共同特征的用户;
将来自所述第一多个用户段的、具有多于阈值程度的重叠特征的用户段进行合并以创建第二多个用户段;以及
针对所述第二多个用户段中的最高数目的用户段:生成用户段报告,所述用户段报告指示由所述第二多个用户段的所述最高数目的用户段的所述用户段表示的用户的所述共享特征。
14.根据权利要求13所述的系统,还在其上存储指令,所述指令在由所述至少一个处理器执行时使得所述系统:
基于所述用户段报告中指示的所述共享特征来生成定制内容;以及
向所述用户段报告中由所述最高数目的用户段表示的所述用户提供所述定制内容。
15.根据权利要求14所述的系统,还在其上存储指令,所述指令由所述至少一个处理器执行时,使得所述系统通过以下项来合并来自所述第一多个用户段的用户段:
对于所标识的每对双集群:
确定所述一对双集群之间的重叠程度;以及
如果所述一对双集群之间的重叠特征的程度大于重叠特征的阈值程度,则将所述一对双集群合并为单个双集群。
16.根据权利要求15所述的系统,其中确定所述一对双集群之间的重叠特征的程度包括:用所述一对双集群的交集的大小除以所述一对双集群的并集的大小。
17.根据权利要求16所述的系统,还在其上存储指令,所述指令在由所述至少一个处理器执行时,使得所述系统在生成用户段报告之前,将所述第二多个用户段过滤到预定数目的用户段,其中所述预定数目的用户段包括所述第二多个用户段中的最大用户段。
18.根据权利要求17所述的系统,其中还在其上存储指令,所述指令在由所述至少一个处理器执行时,使得所述系统:响应于过滤所述第二多个用户段,向所过滤的所述第二多个用户段中的至少一个用户段添加从所述第二多个用户段中过滤掉的至少一个用户,其中与所述至少一个用户相关联的特征指示与所过滤的所述第二多个用户段中的所述至少一个用户段的阈值相似水平。
19.根据权利要求18所述的系统,还在其上存储指令,所述指令在由所述至少一个处理器执行时,使得所述系统:通过以下各项向所过滤的所述第二多个用户段中的至少一个用户段添加从所述第二多个用户段中过滤掉的至少一个用户:
针对每个所生成的用户数据集合和所过滤的所述第二多个用户段中的每个用户段:
确定所述用户数据集合与所述用户段的质心之间的相似度;以及
如果所述相似度高于阈值相似度,则将所述用户数据集合添加到所述用户段。
20.根据权利要求19所述的系统,还在其上存储指令,所述指令在由所述至少一个处理器执行时,使得所述系统:通过以下各项生成用户段报告,所述用户段报告指示由所述第二多个用户段的所述最高数目的用户段的所述用户段表示的用户的所述共享特征:
标识由所述用户段表示的所有特征;
生成所标识的所述特征的显示;以及
向客户端计算设备上的分析应用提供所生成的所述显示。
CN201910001291.9A 2018-03-19 2019-01-02 自动生成有意义的用户段 Active CN110287173B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/925,707 US11023495B2 (en) 2018-03-19 2018-03-19 Automatically generating meaningful user segments
US15/925,707 2018-03-19

Publications (2)

Publication Number Publication Date
CN110287173A true CN110287173A (zh) 2019-09-27
CN110287173B CN110287173B (zh) 2024-01-26

Family

ID=67774370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910001291.9A Active CN110287173B (zh) 2018-03-19 2019-01-02 自动生成有意义的用户段

Country Status (5)

Country Link
US (2) US11023495B2 (zh)
CN (1) CN110287173B (zh)
AU (1) AU2019200084A1 (zh)
DE (1) DE102018010163A1 (zh)
GB (1) GB2572237A (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11762819B2 (en) * 2019-10-15 2023-09-19 Target Brands, Inc. Clustering model analysis for big data environments
US11620665B2 (en) * 2020-04-01 2023-04-04 Intuit Inc. Methods and systems using and constructing merchant communities based on financial transaction data
US11328002B2 (en) * 2020-04-17 2022-05-10 Adobe Inc. Dynamic clustering of sparse data utilizing hash partitions
US11636394B2 (en) * 2020-06-25 2023-04-25 Microsoft Technology Licensing, Llc Differentiable user-item co-clustering
CN112185418B (zh) * 2020-11-12 2022-05-17 度小满科技(北京)有限公司 音频处理方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101420313A (zh) * 2007-10-22 2009-04-29 北京搜狗科技发展有限公司 一种针对客户端用户群进行聚类的方法和系统
CN101535944A (zh) * 2005-08-15 2009-09-16 谷歌公司 基于集的相似性的可扩展用户聚类
CN102737333A (zh) * 2011-03-02 2012-10-17 奥多比公司 用于计算用户和要约到微小细分的匹配的顺序引擎
US20140344270A1 (en) * 2013-05-16 2014-11-20 International Business Machines Corporation Data clustering and user modeling for next-best-action decisions
US20160140587A1 (en) * 2014-11-14 2016-05-19 Aol Inc. Systems and methods for determining segments of online users from correlated datasets
CN105630856A (zh) * 2014-11-24 2016-06-01 奥多比公司 在线用户简档的自动聚合

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1485825A4 (en) * 2002-02-04 2008-03-19 Cataphora Inc DETAILED EXPLORATION TECHNIQUE OF SOCIOLOGICAL DATA AND CORRESPONDING APPARATUS
WO2005071989A1 (en) * 2004-01-16 2005-08-04 Airwalk Communications, Inc Combined base transceiver station and base station controller
US20120137367A1 (en) * 2009-11-06 2012-05-31 Cataphora, Inc. Continuous anomaly detection based on behavior modeling and heterogeneous information analysis
US8655695B1 (en) * 2010-05-07 2014-02-18 Aol Advertising Inc. Systems and methods for generating expanded user segments
US9087332B2 (en) * 2010-08-30 2015-07-21 Yahoo! Inc. Adaptive targeting for finding look-alike users
US9275345B1 (en) * 2011-02-11 2016-03-01 Allure Security Technology, Inc. System level user behavior biometrics using feature extraction and modeling
US9719256B2 (en) * 2011-02-25 2017-08-01 Joe's Eats, Llc Apparatus and methods for truss assembly
US8630902B2 (en) * 2011-03-02 2014-01-14 Adobe Systems Incorporated Automatic classification of consumers into micro-segments
US20120310763A1 (en) * 2011-06-06 2012-12-06 Michael Meehan System and methods for matching potential buyers and sellers of complex offers
US9269091B2 (en) * 2011-08-31 2016-02-23 Adobe Systems Incorporated Geographic segmentation systems and methods
US8838982B2 (en) * 2011-09-21 2014-09-16 Visa International Service Association Systems and methods to secure user identification
JP6418161B2 (ja) * 2012-10-15 2018-11-07 東レ株式会社 高弾性率繊維強化ポリマー複合材料
US9349132B2 (en) * 2013-03-13 2016-05-24 Salesforce.Com, Inc. Systems, methods, and apparatuses for implementing a group command with a predictive query interface
US9454726B1 (en) * 2013-06-06 2016-09-27 Google Inc. Systems and methods for cohort identification and reporting
WO2014198038A1 (en) * 2013-06-13 2014-12-18 Microsoft Corporation Data segmentation and visualization
US9202178B2 (en) * 2014-03-11 2015-12-01 Sas Institute Inc. Computerized cluster analysis framework for decorrelated cluster identification in datasets
US20150287091A1 (en) * 2014-04-08 2015-10-08 Turn Inc. User similarity groups for on-line marketing
US20160123041A1 (en) * 2014-10-31 2016-05-05 Connor USA LLC Receiver lock
US11403309B2 (en) * 2014-11-05 2022-08-02 Adobe Inc. Generating segments based on intelligent sequential data
US20160134934A1 (en) * 2014-11-06 2016-05-12 Adobe Systems Incorporated Estimating audience segment size changes over time
US9904932B2 (en) * 2014-12-29 2018-02-27 Google Llc Analyzing semantic places and related data from a plurality of location data reports
US10565518B2 (en) * 2015-06-23 2020-02-18 Adobe Inc. Collaborative feature learning from social media
US10191966B2 (en) * 2015-07-08 2019-01-29 Business Objects Software Ltd. Enabling advanced analytics with large data sets
US10515378B2 (en) * 2015-09-14 2019-12-24 Adobe Inc. Extracting relevant features from electronic marketing data for training analytical models
US10909145B2 (en) * 2015-11-12 2021-02-02 Adobe Inc. Techniques for determining whether to associate new user information with an existing user
US20170163825A1 (en) * 2015-12-07 2017-06-08 Xerox Corporation Matrix factorization for user profiling and outlier detection in activity data
US11042798B2 (en) * 2016-02-04 2021-06-22 Adobe Inc. Regularized iterative collaborative feature learning from web and user behavior data
US11080732B2 (en) * 2016-06-13 2021-08-03 Adobe Inc. Audience comparison
US11294972B2 (en) * 2016-11-10 2022-04-05 Adobe Inc. Generating sequential segments with pre-sequence and post-sequence analytics data
US11106995B2 (en) * 2017-02-23 2021-08-31 International Business Machines Corporation Automatic segmentation of a collection of user profiles
CA2997609A1 (en) * 2017-03-07 2018-09-07 Sennco Solutions, Inc. Integrated, persistent security monitoring of electronic merchandise
US10474988B2 (en) * 2017-08-07 2019-11-12 Standard Cognition, Corp. Predicting inventory events using foreground/background processing
WO2019118299A1 (en) * 2017-12-13 2019-06-20 Sentient Technologies (Barbados) Limited Evolving recurrent networks using genetic programming
US10990597B2 (en) * 2018-05-03 2021-04-27 Sap Se Generic analytical application integration based on an analytic integration remote services plug-in
US10990593B2 (en) * 2018-05-04 2021-04-27 Saleforce.com, inc. Providing matching security between data stores in a database system
US11328203B2 (en) * 2018-07-30 2022-05-10 Salesforce.Com, Inc. Capturing organization specificities with embeddings in a model for a multi-tenant database system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101535944A (zh) * 2005-08-15 2009-09-16 谷歌公司 基于集的相似性的可扩展用户聚类
CN101420313A (zh) * 2007-10-22 2009-04-29 北京搜狗科技发展有限公司 一种针对客户端用户群进行聚类的方法和系统
CN102737333A (zh) * 2011-03-02 2012-10-17 奥多比公司 用于计算用户和要约到微小细分的匹配的顺序引擎
US20140344270A1 (en) * 2013-05-16 2014-11-20 International Business Machines Corporation Data clustering and user modeling for next-best-action decisions
US20160140587A1 (en) * 2014-11-14 2016-05-19 Aol Inc. Systems and methods for determining segments of online users from correlated datasets
CN105630856A (zh) * 2014-11-24 2016-06-01 奥多比公司 在线用户简档的自动聚合

Also Published As

Publication number Publication date
US11023495B2 (en) 2021-06-01
US20210311969A1 (en) 2021-10-07
GB2572237A (en) 2019-09-25
DE102018010163A1 (de) 2019-09-19
AU2019200084A1 (en) 2019-10-03
US11809455B2 (en) 2023-11-07
CN110287173B (zh) 2024-01-26
US20190286739A1 (en) 2019-09-19

Similar Documents

Publication Publication Date Title
CN110287173A (zh) 自动生成有意义的用户段
Fire et al. Organization mining using online social networks
US9344519B2 (en) Receiving and correlation of user choices to facilitate recommendations for peer-to-peer connections
Martinelli et al. Measuring knowledge persistence: a genetic approach to patent citation networks
CN105989082B (zh) 报表视图生成方法和装置
DE102018008216A1 (de) Bestimmen einer strategischen Digitalcontentübertragungszeit unter Nutzung rekurrenter neuronaler Netzwerke und einer Überlebensanalyse
Agryzkov et al. Measuring urban activities using Foursquare data and network analysis: a case study of Murcia (Spain)
Scellato et al. Measuring user activity on an online location-based social network
Agarwal et al. A data‐centered collaboration portal to support global carbon‐flux analysis
IL243639A (en) Original Application Exam
Pfeffer et al. Just another day on Twitter: a complete 24 hours of Twitter data
CN103678446B (zh) 基于数据视图和数据库表的改进的模式映射
CN108665513B (zh) 基于用户行为数据的绘图方法和装置
US20170288989A1 (en) Systems and Techniques for Determining Associations Between Multiple Types of Data in Large Data Sets
Chen An agent-based model for information diffusion over online social networks
CN108062366A (zh) 公共文化信息推荐系统
Ackland et al. Political homophily on the web
CN105264526B (zh) 基于垂直的查询选择化
CN103854206A (zh) 一种分析人群特征的方法和设备
US10891638B2 (en) Survey data processing
US20150339404A1 (en) Inferring seniority level of a member of an on-line social network
Kille et al. CLEF 2017 NewsREEL overview: offline and online evaluation of stream-based news recommender systems
Ourbih-Tari et al. Survival function estimation with non parametric adaptive refined descriptive sampling algorithm: A case study
Kiani et al. Gompertz model with time-dependent covariate in the presence of interval-, right-and left-censored data
US20160071135A1 (en) Method for obtaining business intelligence information from a large dataset

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant