CN103793420B - 用于跨站点数据分析的方法和系统 - Google Patents

用于跨站点数据分析的方法和系统 Download PDF

Info

Publication number
CN103793420B
CN103793420B CN201210427841.1A CN201210427841A CN103793420B CN 103793420 B CN103793420 B CN 103793420B CN 201210427841 A CN201210427841 A CN 201210427841A CN 103793420 B CN103793420 B CN 103793420B
Authority
CN
China
Prior art keywords
website
user
action
linked character
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210427841.1A
Other languages
English (en)
Other versions
CN103793420A (zh
Inventor
包胜华
郭宏蕾
郭志立
苏中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN201210427841.1A priority Critical patent/CN103793420B/zh
Priority to US14/048,782 priority patent/US9374432B2/en
Publication of CN103793420A publication Critical patent/CN103793420A/zh
Application granted granted Critical
Publication of CN103793420B publication Critical patent/CN103793420B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user

Abstract

本发明公开了一种用于配电管理的方法和系统。例如,提供一种跨站点数据分析方法,该方法包括:基于初始用户集中的至少一个用户在第一站点和第二站点中的动作标识所述第一站点与所述第二站点的至少一个动作关联特征,该初始用户集中的用户是第一站点和第二站点的成员;以及基于至少一个动作关联特征确定在第一站点中注册的第一用户名与在第二站点中注册的第二用户名是否属于同一用户。根据本发明的实施例,可以有效地判别不同站点中的相同的用户,即使他们的用户名不同。由此,可以通过在站点之间共享信息而向用户提供定制的信息服务。

Description

用于跨站点数据分析的方法和系统
技术领域
本发明总体上涉及数据分析领域,并且更具体地,涉及用于跨站点的数据分析的方法和系统。
背景技术
目前网络已经成为了人们日常访问、浏览、存储和交换信息的常用媒介。从终端用户的角度看,可以通过网络上的站点(或简称“网站”)与网络信息进行交互。随着网络技术的发展,越来越多的站点能够利用数据分析之类的技术挖掘和学习用户的特性,例如交互习惯、偏好、兴趣等等,并且在此基础上为用户提供个性化的和/或定制的信息服务。例如,视频服务网站能够根据用户以往的浏览历史和交互行为推断用户潜在地对哪类信息比较感兴趣,并且将与此类信息有关的视频剪辑以醒目的方式推荐或者显示给用户。
然而,不同的站点甚至同一站点的不同栏目可能采用各自不同的算法和机制执行关于用户的数据分析,这不利于改善用户体验和操作效率。具体而言,假设一个站点通过对用户一段时间的分析和学习已经积累了关于该用户的知识并且可以由此提供定制信息服务。然而,当该用户访问另一站点时,在先前站点积累的用户知识无法被当前站点利用,甚至当这两个站点由同一供应商运营时也可能如此。因此,该用户在新站点交互时无法直接获得定制的个性化服务,而是必须等待该站点从头开始利用数据分析来学习用户的特性。
解决上述问题的一个可行途径是借助于用户在不同站点的用户名。可以理解,很多站点在允许用户使用该站点的功能之前要求用户进行注册成为该站点的成员。用户在站点的用户名通常是由用户选择的,例如由字母、数字和某些特定符号组成。现有技术解决方案通常 基于如下假设:如果两个站点存在相同的用户名,则认为该用户名对应的是同一个用户。相应地,与该用户名相关联的用户知识和分析结果可以在这两个站点之间共享。
但是,同一用户在不同的站点可能具有不同的用户名。首先,由不同供应商运营的站点的用户命名机制通常是彼此隔离的。不同的站点供应商可能采用不同的用户名注册机制。而且,用户可能出于其他多种原因而在不同的站点采用不同的用户名,例如用户名被其他用户抢先注册、主观愿望,等等。因此,仅仅依靠完全相同的用户名来执行跨站点数据分析在可靠性和稳定性方面均存在缺陷。
发明内容
鉴于现有技术中存在的上述问题以及其他潜在问题,本领域中需要一种改进的跨站点数据分析解决方案。为此,本发明提供一种用于跨站点数据分析的方法和系统。
在本发明的一个方面,提供一种跨站点数据分析方法。该方法包括:基于初始用户集中的至少一个用户在第一站点和第二站点中的动作标识所述第一站点与所述第二站点的至少一个动作关联特征,所述初始用户集中的用户是所述第一站点和所述第二站点的成员;以及基于所述至少一个动作关联特征确定在所述第一站点中注册的第一用户名与在所述第二站点中注册的第二用户名是否属于同一用户。
在本发明的另一方面,提供一种跨站点数据分析系统。该系统包括:特征标识单元,被配置为基于初始用户集中的至少一个用户在第一站点和第二站点中的动作标识所述第一站点与所述第二站点的至少一个动作关联特征,所述初始用户集中的用户是所述第一站点和所述第二站点的成员;以及用户判别单元,被配置为基于所述至少一个动作关联特征确定在所述第一站点中注册的第一用户名与在所述第二站点中注册的第二用户名是否属于同一用户。
通过下文描述将会清楚,根据本发明的实施例,能够有效地发现不同网站之间的潜在相同用户,从而实现跨网络的信息共享和互动。。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件:
图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图;
图2示出了根据本发明一个示例性实施例的跨站点数据分析方法200的流程图;
图3示出了根据本发明一个示例性实施例的跨站点数据分析方法300的流程图;以及
图4示出了根据本发明一个示例性实施例的跨站点数据分析系统400的框图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
所属技术领域的技术人员知道,本发明可以实现为系统、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可 读存储介质例如可以是—但不限于—电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括—但不限于—电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括—但不限于—无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
下面将参照本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,这些计算机程序指令通过计算机或其它可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instructionmeans)的制造品(manufacture)。
也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
下面参考附图详细描述根据本发明的示例性实施例。图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图1显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图1所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图1未显示,通常称为“硬盘驱动器”)。尽管图1中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括—但不限于—操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN) 和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
下面参考图2,其示出了根据本发明一个示例性实施例的跨站点数据分析方法200的流程图。请注意,在此使用的术语“跨站点”可以表示跨不同的站点,也可以表示跨同一站点的不同栏目。相应地,下文描述中提及的“第一站点”和“第二站点”可以宽泛地解释为不同的站点或者相同站点的不同栏目。
方法200开始之后,在步骤S201,基于初始用户集中的至少一个用户在第一站点和第二站点中的动作,标识第一站点与所述第二站点的至少一个动作关联特征。
根据本发明的实施例,初始用户集是由这样的用户组成的用户集组,这些用户在第一站点和第二站点中均是合法成员。换言之,每个用户在第一站点和第二站点都具有用户名。根据本发明的实施例,存在多种可行的方式来确定初始用户集。可以理解,这里所说的“成员”可以是已注册的长期有效成员,也可以是仅在受限的时间内可以执行 动作和/或具有受限的动作权限的临时性成员。
例如,根据本发明的某些实施例,可以认为第一站点和第二站点中的相同用户名属于同一用户。由此,在第一站点和第二站点具有相同用户名的用户可以被选入初始用户集。也即,初始用户集中的至少一个用户可以在第一站点和第二站点中具有相同的用户名。具体而言,如果第一站点中存在用户名“Alice01”,并且第二站点中也存在用户名“Alice01”,则认为分别与不同站点相关联的这两个用户名属于同一用户。又如,如果两个站点中的用户名足够相似,则也可以认为属于同一用户。
备选地或附加地,根据本发明的某些实施例,可以通过人工的方式确定在步骤S201中考虑的至少一个用户。具体而言,可以例如通过调查问卷等方式请一个或多个用户指出其是否已向第一站点和第二站点二者注册,并且指出其在两个站点中各自的用户名。以此方式,同样可以确定初始用户集。
上文描述的仅仅是确定初始用户集的示例性方法,任何其他备选的或附加的方法均是可行的。
在步骤S201,对于初始用户集中的至少一个用户,可以获取和存储他/她在第一站点和第二站点上的动作。这些动作包括下列各项中的至少一项:在站点上对各种信息进行发布、浏览、交互、删除、引用等等。关于这些动作的信息可以被存储在任何适当的存储介质中以供后用。所存储的信息可以包括下列各项中的至少一项:对动作的描述、动作的类型、动作所操纵的内容或其索引、动作发生的时间,等等。
根据这些动作,可以标识或者说挖掘出同一用户在第一站点与第二站点之间的动作关联特征。在此所使用的术语“动作关联特征”是一种统计特征,用于指示相同的用户在第一站点和第二站点执行的动作之间的规律性的内在联系。可以理解,在此假设相同用户在不同站点之间的动作往往是具有某种内在关联性的。实践已证明了这个假设的合理性。
例如,如果发现初始用户集中超过预定比例或者数目的用户在第 一站点上执行一个特定动作(记为第一动作)之后,将在给定的时段T内在第二站点上执行另一特定的动作(记为第二动作),则可以认为这种动作关联是带有规律性的,并且创建相应的动作关联特征。考虑一个更具体的示例,假设第一站点是视频服务站点并且第二站点是微博服务站点。如果发现初始用户集中超过预定比例或者数目的用户在第一站点上发布一段视频剪辑之后,都会在例如15分钟内在第二站点上发布引用该视频剪辑的微博,则认为这是同一用户在第一站点和第二站点上操作时的规律性特征。相应地,可以在动作关联特征中指明这一规律。这仅仅是一个示例,下文还将结合图2描述这方面的更多示例。
接下来,方法200进行到步骤S202,在此基于在步骤S201中标识的至少一个动作关联特征,确定在第一站点中注册的第一用户名与在第二站点中注册的第二用户名是否属于同一用户。
如上文所述,动作关联特征指示同一用户在第一站点和第二站点上操作时的规律性特征。由此,通过判断由第一用户名所对应的用户在第一站点中执行的动作和由第二用户名所对应的用户在第二站点中执行的动作是否符合或具有一个或多个这样的动作关联特征,可以确定第一站点中注册的第一用户名和第二站点中注册的第二用户名是否属于同一用户。
仍然考虑上文示例,如果步骤S201得出的动作关联特征指示同一用户通常在第一站点执行第一动作之后的时间段T内在第二站点执行第二动作,则在步骤S202可以确定当第一用户名所对应的用户在第一站点执行了第一动作(如果有的话)之后,第二用户名所对应的用户是否在时间段T内在第二站点中执行了第二动作。例如,在上文所述的示例中,可以确定当第一用户名对应的用户在第一站点(视频服务站点)上发布视频剪辑后,第二用户名对应的用户是否在15分钟内在第二站点上发布微博消息引用所发布的视频剪辑。如果是,则可以相应地提高第一用户名和第二用户名属于同一用户的可能性。可以针对其他动作关联特征类似地操作。当第一用户名和第二用户名 属于同一用户的可能性超过预定阈值时,可以认为第一用户名和第二用户名属于同一用户。
方法200在步骤S202之后结束。
通过执行方法200,可以从初始用户集(例如,在第一站点和第二站点具有相同用户名的那些用户)标识同一用户在两个站点之间的动作关联特征。而后,可以利用这种具有一般性的统计特征来确定两个站点中的相同用户,即使他/她在第一站点和第二站点中的用户名是不同的。
确定不同站点的相同用户是有益的。例如,可以将在一个站点中已经学习和积累的关于用户的知识与其他站点共享,从而在其他站点中为用户提供更为准确、个性化和友好的定制信息服务。应当理解,在确定不同站点的相同用户之后,可以通过各种方式实现跨站点的信息共享,本发明的范围在此方面不受限制。
下面参考图3,其示出了根据本发明示例性实施例的跨站点数据分析方法300的流程图。方法300可以视为是上文参考图2描述的方法200的一种特定实现。
方法300开始之后,在步骤S301,确定初始用户集中的至少一个用户在第一站点中执行的第一动作与在第二站点中执行的第二动作之间的时间间隔。
如上所述,初始用户集中的用户是第一站点和第二站点二者的用户。特别地,根据某些实施例,初始用户集中的至少一个用户在第一站点和第二站点中注册的用户名相同。当然,其他确定初始用户集的适当方式也是可行的。
根据某些实施例,第一动作可以是用户在第一站点中发布内容,例如在视频服务站点中发布视频剪辑;第二动作可以是在第二站点中引用该用户在第一站点中发布的内容,例如在微博服务站点中发布微博引用在视频服务站点中发布的视频剪辑。如上所述,在记录第一动作和第二动作的信息时,可以记录各个动作发生的时间(例如,时间戳)。由此,可以计算出第一动作在第一站点中的发生时间与第二动 作在第二站点中的发生时间之间的时间间隔。这仅仅是示例性的,也可以统计其他动作之间的时间间隔。
接下来,方法300进行到步骤S302,在此基于时间间隔标识时间间隔特征作为一个动作关联特征。根据本发明的实施例,如果对于初始用户集中超过预定数目或者比例的用户,上述时间间隔小于一个时间阈值,则可以认为同一用户在第一站点中执行第一动作和在第二站点中执行第二动作之间存在时间间隔上的规律。由此,可以创建指示第一动作、第二动作以及时间间隔阈值的动作关联特征。
接下来,方法300进行到步骤S303,在此确定至少一个用户在第二站点中对第一站点中与该用户相关的内容的引用数目。在本文中,内容与用户“相关”是指该内容由该用户发布、修改、评论、关注、操纵或以其他任何方式与该用户发生联系。另外,这里使用的术语“引用”指用户在第二站点中以任何目前已知或者将来开发的方式参考或者提及第一站点中的相关内容。作为一个示例,用户可以在微博服务站点(第二站点)发微博引用在视频服务站点(第一站点)中与该用户相关的视频剪辑,例如通过指向该视频剪辑的统一资源定位符(URL)。
方法300继而在步骤S304处基于引用数目标识引用数目特征作为一个动作关联特征。根据本发明的实施例,如果对于初始用户集中超过预定数目或者比例的用户,在第二站点中对第一站点中与该用户自己相关的内容的引用数目超过预定阈值,则可以认为同一用户通常倾向于在第二站点引用第一站点中与他/她本人有关的内容。由此,可以创建指示引用数目阈值的动作关联特征。
接下来,方法300进行到步骤S305,在此确定至少一个用户在第二站点中对第一站点中与该用户相关的内容的引用数目与第一站点中与该用户相关的内容总数之间的比率,即,引用比率。作为一个示例,假设一个用户在第一站点中具有N个相关内容并且在第二站点中引用了其中的M个内容,则该用户的引用比率是M/N。
方法300继而在步骤S306处基于引用比率标识引用比率特征作 为一个动作关联特征。根据本发明的实施例,如果对于初始用户集中超过预定数目或者比例的用户,在第二站点对第一站点中与该用户自己相关的内容的引用比率超过预定阈值,则可以认为同一用户通常倾向于在第二站点比较频繁地引用第一站点中与他/她有关的内容。由此,可以创建指示引用比率阈值的动作关联特征。
接下来,方法300进行到步骤S307,在此确定第一站点中与至少一个用户相关的内容与第二站点中与该用户相关的内容之间的相似度。根据本发明的实施例,可以利用目前已知或者将来开发的任何适当手段来检测两个内容之间的相似度。
例如,对于文本内容而言,多种用于确定两段文本的内容相似度的方法是已知的。例如,可以提取两端文本内容的关键词,并且确定这些关键词所述的类别。两端文本包含的属于相同类别的关键词越多,可以认为他们越发相似。备选地或附加地,也可以通过全文比较等方式来确定文本的相似性。人工或者半人工操作也可以被用于确定文本相似性。
同样,对于音频、视频或者其他多媒体内容,可以通过与其关联的摘要、索引、描述信息等文本内容来确定内容相似度。备选地或附加地,也可以采用基于内容的多媒体处理来确定两段多媒体信息之间的相似度。这些方法在本领域中是已知的,对本发明的范围不构成限制,并且在此不再赘述。
方法300继而在步骤S308处基于内容相似度标识内容相似度特征作为一个动作关联特征。根据本发明的实施例,如果对于初始用户集中超过预定数目或者比例的用户,第二站点和第一站点中与该用户相关的内容的相似度超过预定阈值,则可以认为同一用户在第一站点和第二站点中的相关内容倾向于彼此近似。由此,可以创建指示内容相似度阈值的动作关联特征。
接下来,在步骤S309,基于以上一个或多个动作关联特征来确定第一站点中的第一用户名和第二站点中的第二用户名是否属于同一用户。具体而言,如果由第一用户名对应的用户在第一站点中执行的 动作与第二用户名对应的用户在第二站点中执行的动作具有在步骤S302、S304、S306、S308中确定的动作关联特征中的一个或多个特征,则可以确定第一用户名和第二用户名属于同一用户。
例如,如果确定与第一用户名相关联的第一动作和与第二用户名相关联的第二动作在时间上满足时间间隔特征,则可以相应地提高第一用户名和第二用户名属于同一用户的可能性。对于其他动作关联特征同样如此。当这种可能性超过预定阈值时,即可认为第一用户名和第二用户名属于同一用户。
特别地,根据本发明的某些实施例,不同的动作关联特征可以具有不同的权重,这可以根据需要和情况灵活确定。其他计算任何定量的和/或定性的方式也是可能的。
接下来,方法300进行到可选的步骤S310。在步骤S310处,如果第一用户名和第二用户名被确定为属于同一用户,则在第一站点与第二站点之间共享与用户有关的信息。例如,可以将第一站点中已经学习和累积的关于用户的特性、偏好、交互习惯、兴趣等各种个性化信息传递给第二站点,以便第二站点利用这些信息为用户提供各种定制的信息服务。例如,第二站点可以根据这些信息为用户推荐内容、配置个人设置、调整图形用户界面(GUI)的布局、递送个性化信息(用户消息、系统消息、广告消息等),等等。本发明的范围在此方面不受限制。
方法300在步骤S310之后结束。
应当理解,上文结合图3描述的动作关联特征仅仅是示例性的。例如,可以考虑其他备选的和/或附加的动作关联特征。而且,上述动作关联特征并非都是必须的,可以在实际中仅考虑他们中的任意一个或多个而非全部。另外还应注意,步骤S301、S303、S305和S307的执行顺序仅仅是示例性的。本领域技术人员能够毫无疑义地理解,可以按照任何适当的顺序甚至并行地确定多个动作关联特征。相应地,上述步骤可以按照不同于图3中所示的顺序执行,并且在某些实施例中可以并行执行。
下面参考图4,示出了根据本发明示例性实施例的跨站点数据分析系统400的框图。如图4所示,根据本发明的实施例,系统400包括特征标识单元401,被配置为基于初始用户集中的至少一个用户在第一站点和第二站点中的动作标识所述第一站点与所述第二站点的至少一个动作关联特征。根据本发明的实施例,初始用户集中的用户是第一站点和第二站点的成员。另外,系统400还包括用户判别单元402,被配置为基于所述至少一个动作关联特征确定在所述第一站点中注册的第一用户名与在所述第二站点中注册的第二用户名是否属于同一用户。
根据本发明的某些实施例,特征标识单元401可以包括:时间间隔确定单元,被配置为确定所述至少一个用户在所述第一站点中执行的第一动作与在所述第二站点中执行的第二动作之间的时间间隔;以及时间间隔特征标识单元,被配置为基于所述时间间隔标识时间间隔特征作为所述至少一个动作关联特征之一。根据本发明的某些实施例,第一动作是在所述第一站点中发布内容,并且其中第二动作是在所述第二站点中引用在所述第一站点中发布的所述内容。
根据本发明的某些实施例,特征标识单元401可以包括:引用数目标识单元,被配置为确定所述至少一个用户在所述第二站点中对所述第一站点中与所述至少一个用户相关的内容的引用数目;以及引用数目特征标识单元,被配置为基于所述引用数目标识引用数目特征作为所述至少一个动作关联特征之一。
根据本发明的某些实施例,特征标识单元401可以包括:引用比率确定单元,被配置为确定所述至少一个用户在所述第二站点中对所述第一站点中与所述至少一个用户相关的内容的引用数目与所述第一站点中与所述至少一个用户相关的内容总数之间的比率;以及引用比率特征标识单元,被配置为基于所述比率标识引用比率特征作为所述至少一个动作关联特征之一。
根据本发明的某些实施例,特征标识单元401可以包括:相似度确定单元,被配置为确定所述第一站点中与所述至少一个用户相关的 内容与所述第二站点中与所述至少一个用户相关的内容之间的相似度;以及相似度特征标识单元,被配置为基于所述相似度标识内容相似度特征作为所述至少一个动作关联特征之一。
根据本发明的某些实施例,用户判别单元402可以包括:第一确定单元,被配置为在由所述第一用户名对应的用户在所述第一站点中执行的动作与由所述第二用户名对应的用户在所述第二站点中执行的动作具有所述至少一个动作关联特征中的一个或多个特征的情况下,确定所述第一用户名和所述第二用户名属于同一用户。
根据本发明的某些实施例,系统400可以进一步包括:信息共享单元,被配置为在确定所述第一用户名和所述第二用户名属于同一用户的情况下,在所述第一站点与所述第二站点之间共享与所述用户相关的信息。
根据本发明的某些实施例,初始用户集中的至少一个用户在所述第一站点和所述第二站点具有相同的用户名。
为清晰起见,图4中没有示出系统400所包含的可选单元或者子单元。应当理解,系统400包含的各个单元或者子单元分别对应于上文参考图2和图3描述的方法200和300的相应步骤。由此,上文针对方法200和300描述的所有特征和操作同样分别适用于系统400,故在此不再赘述。
而且,系统400中的单元或子单元的划分不是限制性的而是示例性的,旨在从逻辑上描述其主要功能或操作。在图4中所示的单个单元的功能可以由多个单元来实现。反之,在图4中所示的多个单元亦可由单个单元来实现。本发明的范围在此方面不受限制。
特别地,系统400中包含的单元可以利用各种方式来实现,包括软件、硬件、固件或其任意组合。例如,根据本发明的某些实施例,系统400的各单元可以利用软件和/或固件模块来实现。此时,如上所述,这些软件单元可以通过调用其他装置或器件来实现光电转换或电光转换。备选地或附加地,系统400的单元也可以利用硬件来实现。例如,系统400的各单元可以实现为集成电路(IC)芯片、专用集成 电路(ASIC)、现场可编程门阵列(FPGA)、片上系统(SOC),等等。现在已知或者将来开发的其他方式也是可行的,本发明的范围在此方面不受限制。
通过上文描述可以理解,根据本发明的实施例,对于网络中的任意两个站点,可以首先根据在这两个站点中均是成员的用户的动作,挖掘、学习和标识同一用户在这两个站点之间的常见动作关联特征。动作关联特征在统计上指明同一用户在这两个站点之间执行动作的规律性内在联系。而后,利用这种联系,可以确定在这两个站点中具有不同用户名的相同用户。确定不同站点中的相同用户是有益的,例如可以在这些站点之间共享用户信息,从而促进对用户的个性化定制信息服务。
上文已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所公开的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文公开的各实施例。

Claims (18)

1.一种跨站点数据分析方法,包括:
基于初始用户集中的至少一个用户在第一站点和第二站点中的动作标识所述第一站点与所述第二站点的至少一个动作关联特征,所述初始用户集中的用户是所述第一站点和所述第二站点的成员;以及
基于所述至少一个动作关联特征确定在所述第一站点中注册的第一用户名与在所述第二站点中注册的第二用户名是否属于同一用户。
2.根据权利要求1所述的方法,其中基于初始用户集中的至少一个用户在第一站点和第二站点中的动作标识所述第一站点与所述第二站点的至少一个动作关联特征包括:
确定所述至少一个用户在所述第一站点中执行的第一动作与在所述第二站点中执行的第二动作之间的时间间隔;以及
基于所述时间间隔标识时间间隔特征作为所述至少一个动作关联特征之一。
3.根据权利要求2所述的方法,其中所述第一动作是在所述第一站点中发布内容,并且其中所述第二动作是在所述第二站点中引用在所述第一站点中发布的所述内容。
4.根据权利要求1所述的方法,其中基于初始用户集中的至少一个用户在第一站点和第二站点中的动作标识所述第一站点与所述第二站点的至少一个动作关联特征包括:
确定所述至少一个用户在所述第二站点中对所述第一站点中与所述至少一个用户相关的内容的引用数目;以及
基于所述引用数目标识引用数目特征作为所述至少一个动作关联特征之一。
5.根据权利要求1所述的方法,其中基于初始用户集中的至少一个用户在第一站点和第二站点中的动作标识所述第一站点与所述第二站点的至少一个动作关联特征包括:
确定所述至少一个用户在所述第二站点中对所述第一站点中与所述至少一个用户相关的内容的引用数目与所述第一站点中与所述至少一个用户相关的内容总数之间的比率;以及
基于所述比率标识引用比率特征作为所述至少一个动作关联特征之一。
6.根据权利要求1所述的方法,其中基于初始用户集中的至少一个用户在第一站点和第二站点中的动作标识所述第一站点与所述第二站点的至少一个动作关联特征包括:
确定所述第一站点中与所述至少一个用户相关的内容与所述第二站点中与所述至少一个用户相关的内容之间的相似度;以及
基于所述相似度标识内容相似度特征作为所述至少一个动作关联特征之一。
7.根据权利要求1所述的方法,其中所述初始用户集中的至少一个用户在所述第一站点和所述第二站点具有相同的用户名。
8.根据权利要求1所述的方法,进一步包括:
如果确定所述第一用户名和所述第二用户名属于同一用户,则在所述第一站点与所述第二站点之间共享与所述用户相关的信息。
9.根据权利要求1-8任一项所述的方法,其中基于所述至少一个动作关联特征确定在所述第一站点中注册的第一用户名与在所述第二站点中注册的第二用户名是否属于同一用户包括:
如果由所述第一用户名对应的用户在所述第一站点中执行的动作与由所述第二用户名对应的用户在所述第二站点中执行的动作具有所述至少一个动作关联特征中的一个或多个特征,则确定所述第一用户名和所述第二用户名属于同一用户。
10.一种跨站点数据分析系统,包括:
特征标识单元,被配置为基于初始用户集中的至少一个用户在第一站点和第二站点中的动作标识所述第一站点与所述第二站点的至少一个动作关联特征,所述初始用户集中的用户是所述第一站点和所述第二站点的成员;以及
用户判别单元,被配置为基于所述至少一个动作关联特征确定在所述第一站点中注册的第一用户名与在所述第二站点中注册的第二用户名是否属于同一用户。
11.根据权利要求10所述的系统,其中所述特征标识单元包括:
时间间隔确定单元,被配置为确定所述至少一个用户在所述第一站点中执行的第一动作与在所述第二站点中执行的第二动作之间的时间间隔;以及
时间间隔特征标识单元,被配置为基于所述时间间隔标识时间间隔特征作为所述至少一个动作关联特征之一。
12.根据权利要求11所述的系统,其中所述第一动作是在所述第一站点中发布内容,并且其中所述第二动作是在所述第二站点中引用在所述第一站点中发布的所述内容。
13.根据权利要求10所述的系统,其中所述特征标识单元包括:
引用数目标识单元,被配置为确定所述至少一个用户在所述第二站点中对所述第一站点中与所述至少一个用户相关的内容的引用数目;以及
引用数目特征标识单元,被配置为基于所述引用数目标识引用数目特征作为所述至少一个动作关联特征之一。
14.根据权利要求10所述的系统,其中所述特征标识单元包括:
引用比率确定单元,被配置为确定所述至少一个用户在所述第二站点中对所述第一站点中与所述至少一个用户相关的内容的引用数目与所述第一站点中与所述至少一个用户相关的内容总数之间的比率;以及
引用比率特征标识单元,被配置为基于所述比率标识引用比率特征作为所述至少一个动作关联特征之一。
15.根据权利要求10所述的系统,其中所述特征标识单元包括:
相似度确定单元,被配置为确定所述第一站点中与所述至少一个用户相关的内容与所述第二站点中与所述至少一个用户相关的内容之间的相似度;以及
相似度特征标识单元,被配置为基于所述相似度标识内容相似度特征作为所述至少一个动作关联特征之一。
16.根据权利要求10所述的系统,其中所述初始用户集中的至少一个用户在所述第一站点和所述第二站点具有相同的用户名。
17.根据权利要求10所述的系统,进一步包括:
信息共享单元,被配置为在确定所述第一用户名和所述第二用户名属于同一用户的情况下,在所述第一站点与所述第二站点之间共享与所述用户相关的信息。
18.根据权利要求10-17任一项所述的系统,其中所述用户判别单元包括:
第一确定单元,被配置为在由所述第一用户名对应的用户在所述第一站点中执行的动作与由所述第二用户名对应的用户在所述第二站点中执行的动作具有所述至少一个动作关联特征中的一个或多个特征的情况下,确定所述第一用户名和所述第二用户名属于同一用户。
CN201210427841.1A 2012-10-31 2012-10-31 用于跨站点数据分析的方法和系统 Expired - Fee Related CN103793420B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201210427841.1A CN103793420B (zh) 2012-10-31 2012-10-31 用于跨站点数据分析的方法和系统
US14/048,782 US9374432B2 (en) 2012-10-31 2013-10-08 Cross-site data analysis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210427841.1A CN103793420B (zh) 2012-10-31 2012-10-31 用于跨站点数据分析的方法和系统

Publications (2)

Publication Number Publication Date
CN103793420A CN103793420A (zh) 2014-05-14
CN103793420B true CN103793420B (zh) 2017-04-12

Family

ID=50548505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210427841.1A Expired - Fee Related CN103793420B (zh) 2012-10-31 2012-10-31 用于跨站点数据分析的方法和系统

Country Status (2)

Country Link
US (1) US9374432B2 (zh)
CN (1) CN103793420B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140089139A1 (en) * 2012-09-26 2014-03-27 Auction.com, LLC. System and method for provisioning assets for online transactions
CN104573057B (zh) * 2015-01-22 2017-10-27 电子科技大学 一种用于跨ugc网站平台的帐户关联方法
CN106202117B (zh) * 2015-05-07 2020-07-03 深圳市腾讯计算机系统有限公司 数据处理方法、装置和服务器
CN105245544B (zh) * 2015-10-28 2020-03-17 腾讯科技(深圳)有限公司 一种信息处理方法、系统、终端及服务器
WO2017181096A1 (en) * 2016-04-15 2017-10-19 Ebay Inc. Adopting data across different sites
US11561970B2 (en) * 2018-06-05 2023-01-24 Nec Corporation Techniques for accurately specifying identification information

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853282A (zh) * 2010-05-20 2010-10-06 清华大学 用户跨网站购物模式信息的抽取系统和方法
CN101981590A (zh) * 2008-03-31 2011-02-23 雅虎公司 利用社交网络访问受信任的用户生成的内容
CN102082775A (zh) * 2009-11-27 2011-06-01 中国移动通信集团公司 一种用户身份管理方法、装置和系统

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW550477B (en) * 2000-03-01 2003-09-01 Passgate Corp Method, system and computer readable medium for Web site account and e-commerce management from a central location
US6687734B1 (en) * 2000-03-21 2004-02-03 America Online, Incorporated System and method for determining if one web site has the same information as another web site
US20020198882A1 (en) * 2001-03-29 2002-12-26 Linden Gregory D. Content personalization based on actions performed during a current browsing session
US20070203589A1 (en) 2005-04-08 2007-08-30 Manyworlds, Inc. Adaptive Recombinant Process Methods
US7788358B2 (en) 2006-03-06 2010-08-31 Aggregate Knowledge Using cross-site relationships to generate recommendations
US7779103B1 (en) * 2006-12-12 2010-08-17 Google Inc. Dual cookie security system
US10007895B2 (en) * 2007-01-30 2018-06-26 Jonathan Brian Vanasco System and method for indexing, correlating, managing, referencing and syndicating identities and relationships across systems
US8442969B2 (en) 2007-08-14 2013-05-14 John Nicholas Gross Location based news and search engine
US8775391B2 (en) * 2008-03-26 2014-07-08 Zettics, Inc. System and method for sharing anonymous user profiles with a third party
US8271878B2 (en) * 2007-12-28 2012-09-18 Amazon Technologies, Inc. Behavior-based selection of items to present on affiliate sites
US20090171754A1 (en) 2007-12-28 2009-07-02 Kane Francis J Widget-assisted detection and exposure of cross-site behavioral associations
US20090172021A1 (en) * 2007-12-28 2009-07-02 Kane Francis J Recommendations based on actions performed on multiple remote servers
US8204833B2 (en) * 2009-05-27 2012-06-19 Softroute Corporation Method for fingerprinting and identifying internet users
US8528066B2 (en) * 2009-08-25 2013-09-03 Microsoft Corporation Methods and apparatus for enabling context sharing
US20110131503A1 (en) * 2009-09-14 2011-06-02 Cbs Interactive, Inc. Apparatus and methods for providing targeted advertising from user behavior
AU2009354947A1 (en) * 2009-11-06 2012-05-31 Edatanetworks Inc. Method, system, and computer program for attracting localand regional businesses to an automated cause marketing environment
US20110191179A1 (en) * 2009-11-18 2011-08-04 Linietsky Laurence B System and method for profiling listeners to improve content distribution and listener retention
US8180778B1 (en) * 2010-02-05 2012-05-15 Google Inc. Generating action trails from web history
US20110231305A1 (en) * 2010-03-19 2011-09-22 Visa U.S.A. Inc. Systems and Methods to Identify Spending Patterns
US9076153B2 (en) * 2010-04-16 2015-07-07 Google Inc. Method, medium, and system for detecting data misuse
US9628583B2 (en) * 2010-04-29 2017-04-18 Nokia Technologies Oy Method and apparatus for coordinating service information across multiple server nodes
CN102316046B (zh) * 2010-06-29 2016-03-30 国际商业机器公司 向社交网络中的用户推荐信息的方法和装置
US8429160B2 (en) * 2010-10-12 2013-04-23 Robert Osann, Jr. User preference correlation for web-based selection
WO2012087954A2 (en) * 2010-12-20 2012-06-28 The Nielsen Company (Us), Llc Methods and apparatus to determine media impressions using distributed demographic information
US20120203865A1 (en) * 2011-02-04 2012-08-09 Cbs Interactive, Inc. Apparatus and methods for providing behavioral retargeting of content from partner websites
US20120203639A1 (en) * 2011-02-08 2012-08-09 Cbs Interactive, Inc. Targeting offers to users of a web site
US8832809B2 (en) * 2011-06-03 2014-09-09 Uc Group Limited Systems and methods for registering a user across multiple websites
US20130110583A1 (en) * 2011-10-28 2013-05-02 Justin Ormont Multiple social media network analysis for user conflation and related advertising methods
US8990580B2 (en) * 2012-04-26 2015-03-24 Google Inc. Automatic user swap
US20150066631A1 (en) * 2012-11-28 2015-03-05 Google Inc. Scalably calculating statistics associated with action performances

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101981590A (zh) * 2008-03-31 2011-02-23 雅虎公司 利用社交网络访问受信任的用户生成的内容
CN102082775A (zh) * 2009-11-27 2011-06-01 中国移动通信集团公司 一种用户身份管理方法、装置和系统
CN101853282A (zh) * 2010-05-20 2010-10-06 清华大学 用户跨网站购物模式信息的抽取系统和方法

Also Published As

Publication number Publication date
US9374432B2 (en) 2016-06-21
CN103793420A (zh) 2014-05-14
US20140122705A1 (en) 2014-05-01

Similar Documents

Publication Publication Date Title
US11379861B2 (en) Classifying post types on online social networks
US11049149B2 (en) Determination of targeted food recommendation
CN105917330B (zh) 用于在线社交网络的客户端搜索模板
US9330420B2 (en) Using crowdsourcing to improve sentiment analytics
CN103793420B (zh) 用于跨站点数据分析的方法和系统
US10324591B2 (en) System for creating and retrieving contextual links between user interface objects
US8566262B2 (en) Techniques to filter media content based on entity reputation
US20140136997A1 (en) Targeted advertising based on trending of aggregated personalized information streams
US20150095267A1 (en) Techniques to dynamically generate real time frequently asked questions from forum data
WO2014193399A1 (en) Influence score of a brand
JP2016527592A (ja) コンテンツ共有のためのユーザベースの対話要素
JP2014527651A (ja) 対人的対話からのテキストコンテンツを用いて、対人関係影響情報を判定するためのシステム及び方法
US20160117328A1 (en) Influence score of a social media domain
US20140379702A1 (en) System for influencer scoring and methods thereof
Micallef et al. True or false: Studying the work practices of professional fact-checkers
US20200412682A1 (en) Feedback enabled network curation of relevant content thread
CN109804368A (zh) 用于提供上下文信息的系统和方法
CN110785970A (zh) 使网页的机器人创建自动化的技术
WO2020151548A1 (zh) 关注页面的排序方法及装置
US20150278748A1 (en) Routing trouble tickets to proxy subject matter experts
CN107430609A (zh) 针对企业环境的浏览器新标签页的生成
Sayogo et al. The determinants of Smart Public Library roles in promoting open government in Indonesia
CN113297258B (zh) 一种基于目标人群数据提取的定制化信息推送方法及装置
Rakitzis On the performance of modified runs rules charts with estimated parameters
KR20160107605A (ko) 가계부 서비스 제공 장치 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170412

CF01 Termination of patent right due to non-payment of annual fee