CN114127679A - 跨多个不同数据源进行重复数据删除以识别共同设备 - Google Patents

跨多个不同数据源进行重复数据删除以识别共同设备 Download PDF

Info

Publication number
CN114127679A
CN114127679A CN202080050884.5A CN202080050884A CN114127679A CN 114127679 A CN114127679 A CN 114127679A CN 202080050884 A CN202080050884 A CN 202080050884A CN 114127679 A CN114127679 A CN 114127679A
Authority
CN
China
Prior art keywords
station
metric
score
time
duration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080050884.5A
Other languages
English (en)
Inventor
R·W·奥尔森
M·E·安德森
R·斯里拉姆
M·M·奥尔顿
F·米里
S·M·莫勒
D·J·库兹恩斯基
M·波比
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nielsen Co US LLC
Original Assignee
Nielsen Co US LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nielsen Co US LLC filed Critical Nielsen Co US LLC
Publication of CN114127679A publication Critical patent/CN114127679A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0652Erasing, e.g. deleting, data cleaning, moving of data to a wastebasket
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/24Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
    • H04N21/2407Monitoring of transmitted content, e.g. distribution time, number of downloads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/438Interfacing the downstream path of the transmission network originating from a server, e.g. retrieving encoded video stream packets from an IP network
    • H04N21/4383Accessing a communication channel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44222Analytics of user selections, e.g. selection of programs or purchase activity

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

公开了跨多个数据源对共同设备进行重复数据删除的示例性方法、装置、系统和制品(如物理存储介质)。示例性系统包括:比较控制器,用于将第一数据源中的第一设备和第二数据源中的第二设备识别为可能的共同设备。示例性系统还包括:第一度量计算器,用于基于第一电台持续时间数据和第二电台持续时间数据计算电台持续时间度量,第一电台持续时间数据与将第一设备调谐到第一组电台的第一组持续时间相关联,第二电台持续时间数据与将第二设备调谐到第一组电台的第二组持续时间相关联;第二度量计算器,用于基于第一时间数据和第二时间数据计算时间匹配度量,第一时间数据与一天中将第一设备调谐到第二组电台的第一组时间相关联,第二时间数据与一天中将第二设备调谐到第二组电台的第二组时间相关联,一天中的第一组时间与一天中的第二组时间重叠;和第三度量计算器,用于基于第一设备调谐到的第一电台序列和第二设备调谐到的第二电台序列来计算电台路径度量。示例性系统还包括:比较记分器,用于基于电台持续时间度量、时间匹配度量和电台路径度量确定联合分数;和共同设备选择器,用于基于联合分数确定第一设备和第二设备何时为共同设备。

Description

跨多个不同数据源进行重复数据删除以识别共同设备
相关申请
本专利要求2019年7月12日提交的序列号为62/873,699的美国临时专利申请的权益。序列号为62/873,699的美国临时专利申请在此通过引用以其整体并入本文。在此要求序列号为62/873,699的美国临时专利申请的优先权。
技术领域
本发明总体涉及数据的重复数据删除,更具体地,涉及识别在多个不同数据源中表示的共同设备。
附图说明
图1是包括多个媒体呈现设备和多个受众测量数据源的示例性环境的框图。
图2示出了根据本发明的教导实现的示例性共同设备识别系统的框图。
图3-图8示出了表示可被执行以实现图2的示例性共同设备识别系统的示例性机器可读指令的流程图。
图9是示例处理器平台的框图,该处理器平台被构造为执行图3-图8的示例性机器可读指令以实现图2的示例性共同设备识别系统。
这些附图不是按比例绘制的。通常,在整个附图和随附的书面描述中使用相同的附图标记,以指代相同或相似的部分、元件等。
具体实施方式
本文公开了用于跨多个不同数据源进行重复数据删除以识别共同设备的示例性方法、装置、系统和制品(例如,物理存储介质),包括,例如,从多个受众测量数据源进行重复数据删除以识别共同媒体呈现设备。随着媒体曝光跨设备、平台和服务变得越来越分散,受众测量实体(AME)正在致力于在电视(TV)受众测量中利用更广泛的数据源。虽然统计小组仍然是金本位,但其他数据集可以提供补充或扩大测量的附加信息。例如,大型普查或类似普查的源(如机顶盒和智能TV数据)可以帮助稳定估计值并减少采样误差。然而,这些数据源的质量水平各不相同,并且基于收集受众测量数据(如调谐数据、人口统计数据等)的技术,每个数据源都可能面临独特的挑战。为了适当地使用不同的数据源,有一个高质量的真实源来验证这些数据源是很有帮助的。此外,如果来自同一设备的数据可以出现在多个源中,则可能需要进行重复数据删除,以避免在最终受众测量或收视率数据中重复对受众成员进行计数。
如本文所使用的,术语“媒体”、“媒体内容”和/或“媒体呈现”包括通过任何类型的分发媒体发送的任何类型的内容和/或广告。因此,媒体包括电视节目或广告、广播节目或广告、电影、网站、流媒体等。
当识别可单独提及的多个元件或组件时,本文使用描述符“第一”、“第二”、“第三”等。除非基于其使用上下文另有规定或理解,否则此类描述符不旨在在时间上赋予任何优先级或顺序的含义,而仅仅是作为标记,用于分别指代多个元素或组件,以便于理解所公开的示例。在一些示例中,描述符“第一”可用于指代具体实施方式中的元件,而同一元件可在权利要求中用不同的描述符(例如“第二”或“第三”)来指代。在这种情况下,应当理解,使用这种描述符仅仅是为了便于引用多个元件或组件。
本文公开的示例性方法、装置和制品监控媒体设备上的媒体呈现。此类媒体设备可以包括,例如,支持互联网的电视、个人电脑、支持互联网的移动手机(例如,智能手机)、视频游戏机(例如,
Figure BDA0003467414900000021
)、平板电脑(例如,
Figure BDA0003467414900000022
)、数字媒体播放器(例如,
Figure BDA0003467414900000023
媒体播放器、
Figure BDA0003467414900000024
等)等。在一些示例中,聚合媒体监控信息以确定媒体设备的所有权和/或使用统计信息、媒体设备的使用的相对排名和/或所有权、媒体设备的使用类型(例如,设备是否用于浏览互联网、来自互联网的流媒体等),和/或其他类型的媒体设备信息。在本文公开的示例中,监控信息包括但不限于媒体识别信息(例如,媒体识别元数据、代码、签名、水印和/或可用于识别所呈现媒体的其他信息)、应用程序使用信息(例如,应用程序的标识符、应用程序的使用时间和/或持续时间、应用程序的收视率等)和/或用户识别信息(例如,人口统计信息、用户标识符、小组成员标识符、用户名等)。
如本文所用的,“媒体设备”是从媒体提供商处获取媒体以供呈现的设备。在一些示例中,媒体设备能够直接呈现媒体(例如,通过显示器),而在其他示例中,媒体设备在单独的媒体呈现设备(例如,扬声器、显示器等)上呈现媒体。因此,如本文所使用的,“媒体设备”可以在没有第二设备的协助的情况下呈现媒体或不能在没有第二设备的协助的情况下呈现媒体。媒体设备包括消费性电子产品。例如,媒体设备包括支持互联网的移动手机(例如,智能手机、
Figure BDA0003467414900000031
等)、视频游戏机(如
Figure BDA0003467414900000032
PlayStation 3等)、平板电脑(例如,
Figure BDA0003467414900000033
MotorolaTMXoomTM等)、数字媒体播放器(例如,
Figure BDA0003467414900000034
媒体播放器、
Figure BDA0003467414900000035
等)、智能电视、个人电脑、台式电脑、笔记本电脑、服务器等。
监控公司(如AME)希望了解用户如何与智能手机、平板电脑、笔记本电脑、智能电视等媒体设备交互。尤其是,媒体监控公司想要监控媒体设备上的媒体表示,以(除了别的之外)监控广告曝光情况,确定广告效果、确定用户行为、识别与各种人口统计相关联的购买行为等。
为了实现数据质量评估、方法研究与开发、验证和重复数据删除,识别出现在多个数据源中的相同设备(本文称为共同设备)的过程是有用的。通过匹配共同设备,可以并行比较不同的受众测量数据源,以了解不同受众测量数据源采集和/或产生的数据的差异。例如,如果小组成员的电视机和与来自卫星提供商的受众测量数据相关联的电视机相同,则可以评估来自这两个源的调谐数据,以量化数据差距或其他质量问题。本文公开的示例性共同设备识别技术使用TV调谐行为和其他特征来识别不同数据源中的共同设备,并对从共同设备采集或得出的数据进行重复数据删除。重复数据删除导致更准确的受众测量数据。
所公开的示例性共同设备识别技术基于行为相似性跨数据源匹配媒体设备或媒体呈现设备。例如,使用调谐数据,所公开的示例可以确定同一设备是否存在于多个数据源中。这使得能够跨数据源进行数据质量评估和重复数据删除,数据质量评估和重复数据删除都能够将多个数据集适当地整合到受众测量中。此外,如果高质量的小组数据可用,则所公开的示例性设备匹配技术可以在审查数据合作伙伴方面发挥作用,为方法开发提供基础验证数据集,并促进将多个数据集整合到受众测量中。
所公开的示例性共同设备识别技术通过评估多个数据源中存在的媒体设备的调谐行为的相似性来匹配这些媒体设备。在一些公开的示例中,对于跨数据源的所有可能的成对设备比较,共同设备识别技术计算若干度量,这些度量被组合成总体分数。如果分数超过或满足特定阈值,则这些设备被分类为匹配。还可以包括对匹配的附加约束(例如要求设备来自同一地理区域),以使用附加的匹配标准,并减少用于可扩展性的比较次数。所公开的示例性技术能够对大量设备进行比较。例如,50,000个媒体设备可表示在小组成员受众测量数据中,2,000,000个媒体设备可表示在普查受众测量数据中,从而产生1011(即100,000,000,000)个可能的成对比较。小组成员是在拥有和/或运营收视率实体子系统的收视率实体(如AME)维护的小组上注册的用户。小组成员受众测量数据包括从这些用户采集和/或得出的数据。普查包括跨大的或广泛的人口群体收集信息。普查受众测量数据包括从更广泛的普通人口群体采集和/或得出的数据(而不仅仅是注册的小组成员)。如上所述,类似普查的源包括机顶盒和智能电视。如本文所使用的,“普查”和“普查数据”包括人口的一部分,但不必须包括人口的每个成员。
如本文所公开的,可用于共同设备识别的示例性度量捕获调谐行为的不同方面,包括调谐的媒体(例如,内容、广告等)、调谐事件的时间和调谐事件的序列。本文公开的示例性度量可用于确定,当与两个不同受众测量数据集相关联的两个设备呈现媒体时,这两个设备正在呈现的媒体之间是否存在足够的、期望的相似性和/或阈值相似性程度(例如,基于一个或多个阈值),被识别为出现在多个数据源中的同一设备(例如,共同设备)的两个设备发生事件(例如,调谐事件)的顺序等。然而,由于数据质量可能跨数据源而异,因此度量可以允许一定程度的差异,其也可根据数据源而变化。例如,某些数据源可能更容易丢失信息和/或包含与捕获调谐事件的准确时序相关联的误差。由于这个原因,所公开的示例性重复数据删除和共同设备识别技术是灵活的,以便可以基于所比较的数据集的已知信息和/或限制来调整用于匹配设备活动的度量和相应阈值。
与用于在多个数据集中识别共同设备的先前技术不同,所公开的示例性技术不依赖设备识别信息(例如,设备型号和/或序列号)来检测匹配。而是,所公开的示例性重复数据删除和共同设备识别技术比较跨数据集的调谐行为(例如,媒体呈现信息(例如,频道/电台标识符、节目标识符等)、调谐事件的时序和顺序、调谐事件的持续时间等),以识别跨数据集的共同设备。此外,所公开的示例性重复数据删除和共同设备识别技术有细微差别,因为这些技术包括评估调谐行为不同方面的度量,这些度量可以基于被评估数据源的已知质量进行优化,从而允许所公开的示例被应用于各种各样的用例。
转向附图,图1示出了示例性环境100,其中存在多个数据测量源,包括受众测量实体(AME)仪102和自动内容识别(ACR)仪104。在该示例中,AME仪102测量小组成员受众测量数据,其包括指示在小组成员站点由媒体设备(例如,电视)呈现的媒体的数据。在此示例中,ACR仪104测量普查数据,其包括由媒体设备(例如,智能电视)执行的软件客户端报告的数据。尽管在图1的示例性环境100中示出了两个示例性数据源,即AME仪102和ACR仪104,但在其他示例中,可以包括其他数量的数据源。AME仪102从一个或多个第一设备108采集数据。ACR仪104从一个或多个第二设备110采集数据。在一些示例中,第一设备108和第二设备110是相同的。在一些示例中,第一设备108和第二设备110部分重叠。在一些示例中,第一设备108和第二设备110是不同的。本文公开的示例促进第一设备108和第二设备110之间的共同设备的识别,这些设备在小组成员受众测量数据和由媒体设备报告的普查受众测量数据两者中表示。本文公开的示例促进对与共同设备相关的数据进行重复数据删除,以提高受众测量数据的准确性。
图2示出了根据本发明的教导实现的示例性共同设备识别系统200的框图。所示示例的共同设备识别系统200包括示例性小组成员数据检索器205、示例性普查数据检索器210、示例性比较控制器215、示例性电台持续时间度量计算器220、示例性时间匹配度量计算器225、示例性电台路径度量计算器230、示例性时间距离度量计算器233、示例性比较记分器235和示例性共同设备选择器240。
在一些示例中,小组成员数据检索器205通过一个或多个网络检索AME仪102报告的小组成员受众测量数据。在一些示例中,普查数据检索器210通过一个或多个网络检索ACR仪104(例如,智能电视和/或其他媒体设备)报告的普查受众测量数据。在一些示例中,小组成员数据检索器205和普查数据检索器210组合。在其他示例中,存在例如附加数据检索器,如果环境100中存在附加仪表和/或其他数据源的话。
在一些示例中,比较控制器215识别包括多个数据源(数据源例如包括两个仪表)的家庭。例如,比较控制器215确定包括ACR仪(例如包括在智能电视中的ACR仪)的AME小组家庭。比较控制器215将第一数据源中的第一设备和第二数据源中的第二设备识别为可能的共同设备。例如,比较控制器215可以比较从两个数据源收集的调谐数据,以匹配具有类似调谐数据的设备。在一些示例中,比较控制器215可以检查分钟水平和子分钟水平调谐。在一些示例中,可以使用其他时间段。在一些示例中,比较控制器215可以精准确定数据质量问题,例如丢失和/或预测错误的调谐数据。
在一些示例中,在比较控制器215将第一设备和第二设备识别为可能的共同设备之前,比较控制器对来自第一数据源的第一数据和来自第二数据源的第二数据施加约束。例如,比较控制器215可以基于设备的地理位置限制在小组成员数据中表示的设备与普查数据中表示的设备的成对比较,例如通过将比较的设备限制为同一指定市场区域(DMA)中的成对设备来实现。
比较控制器215配置电台持续时间度量计算器220、时间匹配度量计算器225、电台路径度量计算器230、示例性时间距离度量计算器233、比较记分器235、以及共同设备选择器240来基于来自两个数据源的数据执行第一比较迭代(例如,第一轮),以选择跨两个数据集的设备对的候选匹配。例如,比较控制器215可以配置与第一时间间隔相对应的小组成员受众测量数据和普查受众测量数据的第一比较。在一些示例中,第一时间间隔是一天、一周或其他持续时间。
比较控制器215还配置电台持续时间度量计算器220、时间匹配度量计算器225、电台路径度量计算器230、示例性时间距离度量计算器233、比较记分器235、以及共同设备选择器240来执行限于在第一比较迭代中识别的候选匹配的第二比较迭代(例如,第二轮)。第二比较迭代基于来自两个数据源的数据。例如,第二比较迭代基于与第二时间间隔相对应的小组成员受众测量数据和普查受众测量数据。在一些示例中,第二间隔比第一间隔宽或长。在一些示例中,第二间隔是一个月、六周或其他持续时间。在一些示例中,比较控制器215基于第一比较迭代和/或第二比较迭代确定候选共同设备。
在一些示例中,第一计算器(例如,电台持续时间度量计算器220)计算电台持续时间度量以比较一对媒体设备(例如,在小组成员受众测量数据中表示的一个媒体设备与在普查受众测量数据中表示的另一个媒体设备)。电台持续时间度量基于第一电台持续时间数据和第二电台持续时间数据。第一电台持续时间数据与将第一设备调谐到一组电台的第一组持续时间相关联。第二电台持续时间数据与将第二设备调谐到该组电台的第二组持续时间相关联。在一些示例中,第一电台持续时间数据与来自第一数据源的数据相关,而第二电台持续时间数据与来自第二数据源的数据相关。电台持续时间度量d(p,q)测量被比较的两个媒体设备是否在比较持续时间内(例如,第一轮为一周,第二轮为六周)以相似的量呈现来自相同电台的媒体。
在一些示例中,电台持续时间度量计算器220用于计算第一电台持续时间qi
等式(1):
qi=log10(设备1的第i频道持续时间)
电台持续时间度量计算器220还用于计算第二电台持续时间pi
等式(2):
pi=log10(设备2的第i频道持续时间)
在一些示例中,电台持续时间度量计算器220使用对数函数来降低持续时间比较的灵敏度,以关注在一个数量级上的相似性,而不是准确值。在一些示例中,电台持续时间度量计算器220计算归一化距离分数。例如,电台持续时间度量计算器220通过以下计算归一化欧几里德(Euclidean)距离分数:
等式(3):
Figure BDA0003467414900000081
等式(4):
Figure BDA0003467414900000082
其中,N是电台数量。考虑分母中调谐的电台数量可确保调谐到少量电台的设备在计算中不会具有不成比例的高权重。电台持续时间度量计算器220将归一化距离分数设置为电台持续时间度量。系数N0.75是归一化因子,在一些示例中,值0.75是可配置的。在所示的示例中,较低的电台持续时间度量指示更接近的匹配。也就是说,电台持续时间度量越低,两个设备越有可能是共同设备。
在一些示例中,第二计算器(例如,时间匹配度量计算器225)计算示例性时间匹配度量。时间匹配度量计算器225比较与一对媒体设备(例如,在小组成员受众测量数据中表示的一个媒体设备与在普查受众测量数据中表示的另一个媒体设备)相关的数据。时间匹配度量测量正在比较的两个媒体设备是否在同一时间呈现相同的媒体。时间匹配度量基于第一时间数据和第二时间数据。第一时间数据与一天中第一设备调谐到一组电台的第一组时间相关联。第二时间数据与一天中第二设备调谐到该组电台的第二组时间相关联。在一些示例中,一天中的第一组时间与一天中的第二组时间重叠。在一些示例中,与由时间匹配度量计算器225比较的数据相关的该组电台和与由电台持续时间度量计算器比较的数据相关的那组电台相同。在某个示例中,与由时间匹配度量计算器225比较的数据相关的该组电台和与由电台持续时间度量计算器比较的数据相关的那组电台至少部分重叠。在某个示例中,与由时间匹配度量计算器225比较的数据相关的该组电台和与由电台持续时间度量计算器比较的数据相关的那组电台完全不同。
在一些示例中,时间匹配度量计算器225将一天中的第一组时间和一天中的第二组时间划分为时隙。例如,时间匹配度量计算器225将比较持续时间(例如,第一轮为一周,第二轮为六周等)划分为时隙。在一些示例中,时隙为持续时间中的一小时。在一些示例中,时隙以半小时为增量。其他示例可以对时隙使用其他持续时间和/或不同持续时间的组合。
时间匹配度量计算器225识别由不同设备针对各自时隙调谐到的主电台。在一些示例中,时间匹配度量计算器225识别由每个设备针对每个时隙调谐到的主电台。例如,时间匹配度量计算器225可以基于调谐到电台的持续时间、在一个时隙中占累积时间量最多的调谐到的电台、和/或占最长连续持续时间的调谐到的电台来确定主电台。在一些示例中,时间匹配度量计算器225从被比较的每个设备的相应小组成员受众测量数据与普查受众测量数据中识别在每个时隙期间由每个设备调谐的主电台。例如,对于两个时隙,时间匹配度量计算器225在多个时隙的第一时隙中识别由第一设备调谐到的第一主电台,在第一时隙中识别由第二设备调谐到的第二主电台,识别由所述第一设备在所述时隙的第二时隙中调谐到的第三主电台,以及识别由所述第二设备在所述第二时隙中调谐到的第四主电台。在一些示例中,第一设备和第二设备可以是同一设备。在这样的示例中,并且对于两个时隙,时间匹配度量计算器225基于第一数据源(例如,小组成员数据)在多个时隙的第一时隙中识别由该设备调谐到的第一主电台,基于第二数据源(例如,普查数据)识别该设备在第一时隙中调谐到的第二主电台,基于第一数据源识别该设备在多个时隙的第二时隙中调谐到的第三主电台,以及基于第二数据源识别由该设备在第二时隙中调谐到的第四主电台。
在一些示例中,时间匹配度量计算器225在各个时隙中比较这些主电台。在一些示例中,时间匹配度量计算器225在每个时隙中比较这些主电台。例如,对于两个时隙的示例,时间匹配度量计算器225执行第一时隙的第一主电台与第二主电台的第一比较,以及执行第三主电台与第四主电台的第二比较。
在一些示例中,时间匹配度量计算器225基于时隙中主电台的比较来计算惩罚。在一些示例中,当发生以下中的至少一者时,时间匹配度量计算器225以第一值设置惩罚:(1)相应时隙的数据从第一设备和第二设备中的至少一者丢失,以及(2)第一设备和第二设备中的至少一者在相应时隙断电。当第一设备和第二设备在相应的时隙期间调谐到不同的电台时,时间匹配度量计算器225以第二值设置惩罚。在一些示例中,第二值大于第一值。因此,时间匹配度量计算器225基于设备的电源状态和/或调谐状态确定要分配给时隙的不同惩罚。因此,时间匹配度量计算器225基于两个设备(或数据源)之间的主电台是否匹配、一个设备是否断电、一个设备是否正在调谐且缺少主电台、两个设备是否断电等来确定分配给时隙的不同惩罚。例如,如果这对设备调谐的电台在一个时隙期间匹配,则不分配惩罚(例如,惩罚=0)。如果两个设备都关闭,则会分配一惩罚值(例如,0.5)。如果存在不匹配,则将分配一惩罚值,该值可取决于不匹配的类型。在一些示例中,惩罚值在0和1之间。在一些示例中,惩罚因子可替选地或附加地基于所比较的数据源。例如,与其他数据源相比,某些数据源有过多的调谐。在此类示例中,可对使用这些数据源的比较的不匹配应用不同的惩罚。
在所示示例中,时间匹配度量计算器225对给定比较持续时间内各个时隙的惩罚值求和,并除以时隙的数量,以确定该对设备的时间匹配度量。在一些示例中,时间匹配度量计算器225对给定的比较持续时间内所有时隙的惩罚值求和。时间匹配度量计算器225基于惩罚的总和确定差异分数。术语“差异”分数表示两台设备之间的差异水平,即设备之间的差异程度。时间匹配度量计算器225将差异分数设置为时间匹配度量。在所示示例中,较低的时间匹配度量表示更接近的匹配。也就是说,时间匹配度量越低,两个设备就越可能是共同设备。
在一些示例中,第三计算器(例如,电台路径度量计算器230)计算示例性电台路径度量。电台路径度量计算器230确定电台路径度量以比较一对媒体设备(例如,在第一数据源(例如,小组成员受众测量数据)中表示的一个媒体设备与在第二数据源(例如,普查受众测量数据)中表示的另一个媒体设备)。电台路径度量测量被比较的两个媒体设备是否呈现相同的媒体序列。因此,在一些示例中,电台路径度量基于由第一设备调谐到的电台的第一序列和由第二设备调谐到的电台的第二序列。
在所示示例中,电台路径度量计算器230计算在比较持续时间内(例如,第一轮为一周,第二轮为六周)由第一设备调谐的电台序列和由第二设备调谐的电台序列之间的编辑距离。编辑距离对第一设备调谐的序列与第二设备调谐的序列匹配所需的更改的数量进行计数。换句话说,电台路径度量计算器230确定将由第二设备调谐到的第二序列转换为由第一设备调谐到的第一序列(反之亦然)所需的操作的数量。在所示示例中,电台路径度量计算器230基于操作的数量确定电台路径度量。
在一些示例中,电台路径度量计算器230用于计算Levenshtein距离,以确定操作的数量或两个电台序列之间的距离。例如:
等式(5):
Figure BDA0003467414900000111
在所示示例中,由电台路径度量计算器230确定的操作数量或编辑距离通过两个设备的调谐序列的长度归一化,以确定所比较的一对设备的电台路径度量。在所示示例中,较低的电台路径度量指示更接近的匹配。也就是说,电台路径度量越低,这两个设备越有可能是共同设备。
在一些示例中,第四计算器(例如,时间距离度量计算器233)计算示例性时间距离度量。时间距离度量测量或量化两个设备之间调谐会话或调谐活动的开始时间和/或结束时间的相似性程度。在一些示例中,关于时间距离度量计算器233讨论的时间可以是调谐会话的开始时间或结束时间。可以是开始时间和结束时间,然后将其组合。时间距离度量测量被比较的两个媒体设备是否同时呈现媒体。因此,在一些示例中,时间距离度量基于第一设备和第二设备的调谐或时间事件。
在所示示例中,时间距离度量计算器233识别第一设备的第一组时间事件,并创建时间事件的第一列表。时间事件的第一列表可以是例如unix时间戳,它是从某个参考点开始的整数秒数。例如,第一列表可以包括[10,15,20]。在该示例中,第一设备在参考点后10秒具有第一时间事件。第一时间事件可以是给第一设备通电、调谐到某个频道、或第一设备的操作的其他更改。在该示例中,第一设备在超过参考点15秒时具有第二时间事件,在超过参考点20秒时具有第三时间事件。时间距离度量计算器233识别第二设备的第二组时间事件,并创建时间事件的第二列表。时间事件的第二列表也可以是例如unix时间戳。例如,第二列表可以包括[10,12,16,19,20]。
时间距离度量计算器233确定每个时间事件列表的长度。在一些示例中,两个时间事件列表的长度不同。在此类示例中,较短列表可被称为短列表,较长列表可被称为长列表。因此,在上面的示例中,可以将列表标识为短(short)=[10,15,20]和长(long)=[10,12,16,19,20]。在一些示例中,两个列表的长度相同。时间距离度量计算器233确定两个列表中的每个列表中的每个事件之间的绝对距离。例如,时间距离度量计算器233可以使用数组来确定事件之间的绝对时间距离:
Figure BDA0003467414900000121
因此,在该示例中,第一设备在10秒时具有时间事件,并且第二设备在10秒时具有时间事件。因此,两个时间事件之间的距离为0。第一设备在15秒时具有第二事件。第二设备在12秒时具有第二事件。因此,两个时间事件之间的距离为3。时间距离度量计算器233还确定不同时间事件之间的距离。例如,第一设备的第一时间事件(10秒)与第二设备的第三时间事件(16秒)之间的距离为6。时间距离度量计算器233确定两个设备之间的所有时间事件之间的距离。
时间距离度量计算器233确定极小值距离列表,该列表是表示列表中的事件的接近程度的分数或距离列表。当存在一个比另一个短的列表时,时间距离度量计算器233确定短列表中每个项目(即,数组中的每一行)的最小距离。这是短列表中一事件到长列表中的事件之一的最小距离。在上面的示例中,时间距离度量计算器233将极小值距离确定为short_list_minima=[0 1 0]。在列表具有相同长度的示例中,时间距离度量计算器233确定从一个列表到另一个列表的最小距离。
在上述示例中,存在短列表和长列表。因此,当时间距离度量计算器233确定极小值距离时,长列表中存在与短列表中的项目不匹配的附加项目。例如,当确定极小值距离时,第二设备在12秒时的第二时间事件和第二设备在19秒时的第四时间事件与第一设备的事件不匹配。在该场景中,时间距离度量计算器233添加惩罚值。在一些示例中,惩罚值是时间段中两个时间戳之间的可能的最大距离。例如,在七天的时间段内,惩罚可以是604800(7天=7天*24小时*60分钟*60秒)。在一些示例中,时间距离度量计算器233计算:
等式(6):
all_penalties=short_list_minima+[penalty]*(len(long)-len(short))
=[0,1,0,penalty,penalty]
其中len表示Python中length(长度)函数的名称,其是列表中的元素的数量。在上面的示例中,短列表中的元素的数量为3,长列表中的元素的数量为5。
时间距离度量计算器233计算最终时间距离分数作为这些值的均方根。例如:
final time distance score=mean([x^2for x in all_penalties])^0.5
在上面的示例中,最终时间距离分数为382509.10577422864。在所示示例中,较低的时间距离度量指示更接近的匹配。也就是说,时间距离路径度量越低,两个设备越有可能是共同设备。
在一些示例中,比较记分器235基于电台持续时间度量、时间匹配度量、电台路径度量和时间距离度量确定最终比较或联合分数。在一些示例中,比较记分器235将电台持续时间度量、时间匹配度量、电台路径度量和/或时间距离度量归一化。例如,比较记分器235计算电台持续时间度量的z分数、时间匹配度量的z分数、电台路径度量的z分数、时间距离度量的z分数。在所示示例中,比较记分器235基于电台持续时间度量的z分数、时间匹配度量的z分数、电台路径度量的z分数和时间距离度量的z分数的组合(例如,总和)来确定联合分数。
共同设备选择器240使用产生的联合分数来选择在第一迭代轮期间作为候选共同设备的设备对或者在第二迭代轮期间被识别为共同设备的设备对。在一些示例中,当联合分数满足阈值时,共同设备选择器确定第一设备和第二设备是共同设备。在一些示例中,当联合分数的标准偏差的四倍小于平均联合分数时,满足阈值。在一些示例中,当联合分数满足第一迭代轮的阈值并且再次满足第二迭代轮的阈值时,共同设备选择器240确定两个设备是共同设备。
在一些示例中,共同设备选择器240输出在两个数据源中表示的共同设备的最终选择。例如,共同设备选择器240基于小组成员受众测量数据和普查受众测量数据确定或选择共同设备。在一些示例中,共同设备选择器240基于两个设备是共同设备的确定来对第一数据源和/或第二数据源中的一者或多者中的数据进行重复数据删除。结合下面提供的图3-图8的描述提供关于图2的其它元件的进一步的细节。
本文公开的示例计算或以其他方式确定电台持续时间度量、时间匹配度量、电台路径度量和/或时间距离度量。在一些示例中,共同设备识别系统200使用这些度量中的一者、两者或三者来识别共同设备。在其他示例中,共同设备识别系统200使用所有四个度量来识别共同设备。此外,在一些示例中,可替选地或附加地使用其他度量来识别共同设备。此外,在一些示例中,用于确定一个或多个度量的一个或多个算法的一个或多个元素可以改变。例如,确定时间匹配度量和/或时间距离度量的惩罚是可调整的。
在图2的所示示例中,小组成员数据检索器205和/或普查数据检索器210包括用于从处理设备的其他组件检索、交互和/或访问数据的装置。在该示例中,该访问装置由构造成通过运行软件或固件来执行相应操作的任何处理器实现、或由构造成在不运行软件或固件的情况下执行相应操作的硬件电路(例如,离散电路、和/或集成模拟和/或数字电路、FPGA、PLD、FPLD、ASIC、比较器、运算放大器(op-amp)、逻辑电路等)来实现,但其他结构同样适用。在一些示例中,小组成员数据检索器205和/或普查数据检索器210实现该访问装置。
在图2所示示例中,比较控制器215包括用于识别数据源中的设备的装置。在该示例中,该识别装置由构造成通过运行软件或固件来执行相应操作的任何处理器实现、或由构造成在不运行软件或固件的情况下执行相应操作的硬件电路(例如,离散电路、和/或集成模拟和/或数字电路、FPGA、PLD、FPLD、ASIC、比较器、运算放大器(op-amp)、逻辑电路等)来实现,但其他结构同样适用。在一些示例中,比较控制器215实现该识别装置。
在图2所示示例中,比较控制器215包括用于识别数据源中的设备的装置。在该示例中,该识别装置由构造成通过运行软件或固件来执行相应操作的任何处理器实现、或由构造成在不运行软件或固件的情况下执行相应操作的硬件电路(例如,离散电路、和/或集成模拟和/或数字电路、FPGA、PLD、FPLD、ASIC、比较器、运算放大器(op-amp)、逻辑电路等)来实现,但其他结构同样适用。在一些示例中,比较控制器215实现该识别装置。
在图2所示示例中,电台持续时间度量计算器220包括用于基于与设备被调谐到的一组电台的持续时间相关联的电台持续时间数据来计算电台持续时间度量的装置。在该示例中,该计算装置由构造成通过运行软件或固件来执行相应操作的任何处理器实现、或由构造成在不运行软件或固件的情况下执行相应操作的硬件电路(例如,离散电路、和/或集成模拟和/或数字电路、FPGA、PLD、FPLD、ASIC、比较器、运算放大器(op-amp)、逻辑电路等)来实现,但其他结构同样适用。在一些示例中,电台持续时间度量计算器220实现用于计算电台持续时间度量的装置。
在图2所示示例中,时间匹配度量计算器225包括用于基于与设备被调谐到一组电台的一天中的一组时间相关联的时间数据来计算时间匹配度量的装置。在该示例中,该计算装置由构造成通过运行软件或固件来执行相应操作的任何处理器实现、或由构造成在不运行软件或固件的情况下执行相应操作的硬件电路(例如,离散电路、和/或集成模拟和/或数字电路、FPGA、PLD、FPLD、ASIC、比较器、运算放大器(op-amp)、逻辑电路等)来实现,但其他结构同样适用。在一些示例中,时间匹配度量计算器225实现用于计算时间匹配度量的装置。
在图2所示示例中,电台路径度量计算器230包括用于基于由设备调谐到的电台序列来计算电台路径度量的装置。在该示例中,该计算装置由构造成通过运行软件或固件来执行相应操作的任何处理器实现、或由构造成在不运行软件或固件的情况下执行相应操作的硬件电路(例如,离散电路、和/或集成模拟和/或数字电路、FPGA、PLD、FPLD、ASIC、比较器、运算放大器(op-amp)、逻辑电路等)来实现,但其他结构同样适用。在一些示例中,电台路径度量计算器230实现用于计算电台路径度量的装置。
在图2所示示例中,时间距离度量计算器233包括用于基于观看会话的开始时间和/或结束时间来计算时间距离度量的装置。在该示例中,该计算装置由构造成通过运行软件或固件来执行相应操作的任何处理器实现、或由构造成在不运行软件或固件的情况下执行相应操作的硬件电路(例如,离散电路、和/或集成模拟和/或数字电路、FPGA、PLD、FPLD、ASIC、比较器、运算放大器(op-amp)、逻辑电路等)来实现,但其他结构同样适用。在一些示例中,时间距离度量计算器233实现用于计算时间距离度量的装置。
在图2所示示例中,比较记分器235包括用于基于电台持续时间度量、时间匹配度量和电台路径度量来确定联合分数的装置。在该示例中,该确定装置由构造成通过运行软件或固件来执行相应操作的任何处理器实现、或由构造成在不运行软件或固件的情况下执行相应操作的硬件电路(例如,离散电路、和/或集成模拟和/或数字电路、FPGA、PLD、FPLD、ASIC、比较器、运算放大器(op-amp)、逻辑电路等)来实现,但其他结构同样适用。在一些示例中,比较控制器215实现该确定装置。
在图2所示示例中,共同设备选择器240包括用于选择第一设备和第二设备何时为共同设备的装置以及用于对一个或多个数据源进行重复数据删除的装置。在该示例中,该选择装置和/或重复数据删除装置由构造成通过运行软件或固件来执行相应操作的任何处理器实现、或由构造成在不运行软件或固件的情况下执行相应操作的硬件电路(例如,离散电路、和/或集成模拟和/或数字电路、FPGA、PLD、FPLD、ASIC、比较器、运算放大器(op-amp)、逻辑电路等)来实现,但其他结构同样适用。在一些示例中,比较控制器215实现该选择装置和/或重复数据删除装置。
虽然图2中示出了实现示例性共同设备识别系统200的示例性方式,但图2中示出的一个或多个元件、过程和/或设备可以以任何其他方式组合、划分、重新布置、省略、消除和/或实现。此外,示例性小组成员数据检索器205、示例性普查数据检索器210、示例性比较控制器215、示例性电台持续时间度量计算器220、示例性时间匹配度量计算器225、示例性电台路径度量计算器230、示例性时间距离度量计算器233、示例性比较记分器235、示例性共同设备选择器240、和/或更一般地图2的示例性共同设备识别系统200可以通过硬件、软件、固件和/或硬件、软件和/或固件的任何组合来实现。因此,例如,示例性小组成员数据检索器205、示例性普查数据检索器210、示例性比较控制器215、示例性电台持续时间度量计算器220、示例性时间匹配度量计算器225、示例性电台路径度量计算器230、示例性时间距离度量计算器233、示例性比较记分器235、示例性共同设备选择器240和/或示例性共同设备识别系统200中的任何一者、可由一个或多个模拟或数字电路、逻辑电路、(一个或多个)可编程处理器、(一个或多个)可编程控制器、(一个或多个)图形处理单元(GPU)、(一个或多个)数字信号处理器(DSP)、(一个或多个)专用集成电路(ASIC)、(一个或多个)可编程逻辑器件(PLD)和/或现场可编程逻辑器件(FPLD)实现。当阅读本专利的任何装置或系统权利要求以涵盖纯软件和/或固件实现方式时,示例性小组成员数据检索器205、示例性普查数据检索器210、示例性比较控制器215、示例性电台持续时间度量计算器220、示例性时间匹配度量计算器225、示例性电台路径度量计算器230、示例性时间距离度量计算器233、示例性比较记分器235、示例性共同设备选择器240和/或示例性共同设备识别系统200中的至少一者、在此明确定义为包括非暂时性计算机可读存储设备或存储盘,例如包括软件和/或固件的存储器、数字多功能盘(DVD)、光盘(CD)、蓝光光盘等。此外,除了或代替图2所示的元件、过程和/或设备,图2的示例性共同设备识别系统200可以包括一个或多个元件、过程和/或设备,和/或可以包括所示的任何或所有元件、过程和设备中的不止一个。如本文所使用的,短语“通信中”(包括其变型)包含直接通信和/或通过一个或多个中间组件的间接通信,并且不需要直接物理(例如,有线)通信和/或持续通信,而是另外包括以周期性间隔、预先安排的间隔、非周期性间隔和/或一次性事件进行选择性通信。
图3-图8中示出了表示用于实现图2的共同设备识别系统200的示例性硬件逻辑、机器可读指令、硬件实现的状态机和/或其任何组合的流程图。机器可读指令可以是一个或多个可执行程序或可执行程序的(一个或多个)部分,用于由计算机处理器和/或处理器电路(例如下面结合图9讨论的示例性处理器平台900中所示的处理器912)执行。该程序可以实施在存储在非暂时性计算机可读存储介质(例如CD-ROM、软盘、硬盘驱动器、DVD、蓝光光盘或与处理器912相关联的存储器)上的软件中,但是整个程序和/或其部分可替选地由处理器912以外的设备执行和/或以固件或专用硬件实施。此外,尽管参考图3-图8所示的流程图来描述示例性程序,但可替选地,可以使用实现示例性共同设备识别系统200的许多其他方法。例如,可以改变块的执行顺序,和/或可以改变、消除或组合所描述的一些块。附加地或替选地,任何或所有块可由构造成在不运行软件或固件的情况下执行相应操作的一个或多个硬件电路(例如,离散电路、和/或集成模拟和/或数字电路、FPGA、ASIC、比较器、运算放大器(op-amp)、逻辑电路等)来实现。处理器电路可以分布在不同的网络位置和/或位于一个或多个设备(例如,单个机器中的多核处理器、分布在服务器机架上的多个处理器等)本地。
本文所述的机器可读指令可以压缩格式、加密格式、分散格式、编译格式、可执行格式、打包格式等中的一种或多种存储。如本文所述的机器可读指令可存储为可用于创建、制造和/或产生机器可执行指令的数据或数据结构(例如,部分指令、代码、代码的表示等)。例如,机器可读指令可以被分散并存储在位于网络或网络集合(例如,云中、边缘设备中等)的相同或不同位置的一个或多个存储设备和/或计算设备(例如,服务器)上。机器可读指令可能需要安装、修改、适应、更新、组合、补充、配置、解密、解压缩、解包、分发、重新分配、编译等中的一者或多者,以使其由计算设备和/或其他机器直接可读、可解释,和/或可执行。例如,机器可读指令可以存储在多个部分中,这些部分被单独压缩、加密并存储在单独的计算设备上,其中这些部分在解密、解压缩时、以及组合时形成一组可执行指令,该组可执行指令指令实现一个或多个功能,这些功能可一起形成如本文所述的程序。
在另一示例中,机器可读指令可以处理器电路可读取的状态存储,但需要添加库(例如,动态链接库(DLL)、软件开发工具包(SDK)、应用程序编程接口(API)等),以在特定计算设备或其他设备上执行指令。在另一示例中,在机器可读指令和/或(一个或多个)相应程序可以全部或部分执行之前,可能需要配置机器可读指令(例如,存储的设置、数据输入、记录的网络地址等)。因此,如本文所使用的机器可读介质可以包括机器可读指令和/或(一个或多个)程序,而不管机器可读指令和/或(一个或多个)程序在存储时或在静止或传输中的特定格式或状态如何。
本文所描述的机器可读指令可以用任何过去、现在或将来的指令语言、脚本语言、编程语言等来表示。例如,机器可读指令可以使用下列语言中的任何一种来表示:C、C++、Java、C#、Perl、Python、JavaScript;超文本标记语言(HTML)、结构化查询语言(SQL)、Swift等。
如上所述,图3-图8的示例性过程可以使用存储在非暂时性计算机和/或机器可读介质上的可执行指令(例如,计算机和/或机器可读指令)来实现,非暂时性计算机和/或机器可读介质例如硬盘驱动器、闪存、只读存储器、光盘、数字多功能盘、高速缓存、随机存取存储器、和/或其中信息可存储任意持续时间(例如,长时间、永久、短暂、临时缓冲和/或高速缓存信息)的任何其他存储设备或存储磁盘。如本文所使用的,术语非暂时性计算机可读介质被明确定义为包括任何类型的计算机可读存储设备和/或存储盘,并排除传播信号和排除传输介质。
“包括”和“包含”(及其所有形式和时态)在本文用作开放式术语。因此,每当权利要求采用任何形式的“包括”或“包含”(例如,包括(comprises、includes、comprising、including)、具有等)作为前序,或在任何种类的权利要求陈述中时,应当理解,可以存在附加的元素、术语等,而不会超出相应权利要求或陈述的范围。如本文所使用的,当短语“至少”在例如权利要求的前序中用作过渡术语时,其以与术语“包括”和“包含”为开放式相同的方式是开放式的。例如,当以诸如A、B和/或C的形式使用术语“和/或”时,指A、B、C的任何组合或子集,例如(1)A单独,(2)B单独,(3)C单独,(4)A与B,(5)A与C,(6)B与C,以及(7)A与B与C。如本文在描述结构、组件、项、对象和/或事物的上下文中所使用的,短语“A和B中的至少一者”意指包括(1)至少一个A、(2)至少一个B和(3)至少一个A和至少一个B中的任何一者的实现。类似地,如本文在描述结构、组件、项目、对象和/或事物的上下文中所使用的,短语“A或B中的至少一者”意指包括(1)至少一个A、(2)至少一个B和(3)至少一个A和至少一个B中的任何一者的实现,如本文在描述过程、指令、动作、活动和/或步骤的执行或运行的上下文中所使用的,短语“A和B中的至少一者”意指包括(1)至少一个A、(2)至少一个B和(3)至少一个A和至少一个B中的任何一者的实现。类似地,如本文在描述过程、指令、动作、活动和/或步骤的执行或运行的上下文中所使用的,短语“A或B中的至少一者”意指包括(1)至少一个A、(2)至少一个B和(3)至少一个A和至少一个B中的任何一者的实现。
如本文所使用的,单数引用(例如,“一”、“一个”、“第一”、“第二”等)不排除复数。如本文所使用的,术语“一”或“一个”实体是指该实体中的一个或多个。术语“一个”(“a”或“an”)、“一个或多个”和“至少一个”在本文可以互换使用。此外,尽管单独列出,但多个装置、元件或方法动作可由例如单个单元或处理器来实现。此外,尽管各个特征可以包括在不同的示例或权利要求中,但是这些特征可以被组合,并且不同示例或权利要求中的包含并不意味着特征的组合是不可行和/或不有利的。
图3示出了将由图2的示例性系统200执行以跨数据源(例如,小组成员受众测量数据源和普查受众测量数据源)匹配设备的示例性过程或程序300。示例性程序300包括小组成员数据检索器205检索、访问或获取小组成员受众测量数据,以及普查数据检索器210检索、访问或获取普查受众测量数据(框302)。在其他示例中,可替选地或附加地检索、访问或获取来自其他数据源的其他类型的数据。比较控制器215确定是否存在要实现的比较约束(框304)。比较约束限制了要分析的数据源中的数据量。例如,比较控制器215可以基于设备的地理位置限制小组成员数据中表示的设备与普查数据中表示的设备的成对比较,例如,通过将比较的设备限制为同一指定市场区域(DMA)中的设备对。添加比较约束减少了识别共同设备所需的计算资源,并提高了能够识别共同设备的速度。如果比较控制器215确定存在要实现的比较约束(框304:是),则比较控制器215对比较进行约束(框306)。
如果比较控制器215确定不存在要实现的比较约束(框304:否)和/或具有要实现的比较约束(框306),则比较控制器215识别可能的设备对(框308)。在一些示例中,比较控制器215随机选择两个设备作为可能的对进行调查。在一些示例中,比较控制器215基于地理环境选择两个设备作为可能的对进行调查。在一些示例中,比较控制器215基于IP地址或IP地址的范围选择两个设备作为可能的对进行调查。在一些示例中,比较控制器215基于与设备相关联的人口统计类别选择两个设备作为可能的对进行调查。在一些示例中,比较控制器215基于设备调谐活动(例如,调谐活动的广泛或粗略概述)选择两个设备作为可能的对进行调查。例如,比较控制器215可以识别在两个设备之间匹配的一个、两个或多个调谐事件。在一些示例中,比较控制器215基于设备通电或断电的模式选择两个设备作为可能的对进行调查。在一些示例中,比较控制器215基于其他设备活动选择两个设备作为可能的对进行调查。
比较控制器215配置度量计算达一时间段(框310)。例如,比较控制器215配置电台持续时间度量计算器220、时间匹配度量计算器225、电台路径度量计算器230、时间距离度量计算器233,比较记分器235和共同设备选择器240基于与第一时间间隔(例如,一周或某个其他持续时间)相对应的小组成员受众测量数据和普查受众测量数据来执行第一比较迭代(例如,第一轮),以选择跨两个数据集的设备对的候选匹配。
比较控制器215确定是否应该改变时间段(框312)。例如,比较控制器215确定是否应该研究另一时间段(例如更长或更宽的时间段),以识别共同设备。如果比较控制器215确定应该改变时间段(框312:是),则比较控制器215配置度量计算达一时间段(框310)。例如,比较控制器215配置电台持续时间度量计算器220、时间匹配度量计算器225、电台路径度量计算器230、时间距离度量计算器233、比较记分器235和共同设备选择器240基于与第二(例如,更长)时间间隔(例如,六周或某个其他持续时间)相对应的小组成员受众测量数据和普查受众测量数据执行限于候选匹配的第二比较迭代(例如,第二轮)。比较控制器215再次确定是否应该改变时间段(框312)。例如,比较控制器215确定是否应该研究另一时间段(例如更长的时间段或更短的时间段)以识别共同设备。
如果比较控制器215确定不应改变时间段(框312:否),则程序300继续处理得出的度量。例如,共同设备选择器240基于度量识别共同设备(框314)。例如,基于从电台持续时间度量计算器220得出的度量,时间匹配度量计算器225、电台路径度量计算器230、时间距离度量计算器233、共同设备选择器240识别在两个数据源(小组成员受众测量数据和普查受众测量数据)中表示的设备。共同设备选择器240对共同设备中的数据进行重复数据删除(框316)。然后,示例性程序300结束。
图4示出了将由电台持续时间度量计算器220执行以确定示例性电台持续时间度量的示例性过程或程序400。电台持续时间度量用于比较一对媒体设备(例如,小组成员受众测量数据中表示的一个媒体设备与普查受众测量数据中表示的另一个媒体设备)。电台持续时间度量d(p,q)测量被比较的两个媒体设备是否在比较持续时间内(例如,第一轮为一周,第二轮为六周)以相似的量呈现来自相同电台的媒体。
示例性程序400包括访问第一设备的电台持续时间数据(框402)和第二设备的电台持续时间数据(框404)的电台持续时间度量计算器220。电台持续时间度量计算器220计算两个设备的每个电台的总持续时间(框406)。例如,电台持续时间度量计算器220使用等式(1)和等式(2)计算两个设备的每个电台的总持续时间。电台持续时间度量计算器220推测或计算(calculate或compute)来自两个设备的两组电台持续时间数据的归一化距离分数(框408)。例如,电台持续时间度量计算器220使用等式(3)和等式(4)计算归一化距离分数。电台持续时间度量计算器220将归一化距离分数设置为电台持续时间度量A(框410)。电台持续时间度量A用于识别两个设备是否为本文公开的共同设备。
图5示出了将由时间匹配度量计算器225执行以确定示例性时间匹配度量的示例性过程或程序500。时间匹配度量用于比较一对媒体设备(例如,小组成员受众测量数据中表示的一个媒体设备与普查受众测量数据中表示的另一个媒体设备)。时间匹配度量测量被比较的两个媒体设备是否在同一时间呈现相同的媒体。
在所示的示例性程序500中,时间匹配度量计算器225访问第一设备的媒体呈现和时间数据(框502),并访问第二设备的媒体呈现和时间数据(框504)。媒体呈现和时间数据对应于一天中各个设备被调谐到媒体(例如,一组电台)的时间。时间匹配度量计算器225将比较时段(例如,第一轮为一周,第二轮为六周)划分为时隙(框506)。对于不同的比较时段,时隙持续时间可以相同也可以不同。
时间匹配度量计算器225识别在时隙期间每个设备调谐到的主电台(框508)。例如,时间匹配度量计算器225可以基于调谐到主电台的持续时间来确定主电台。在一些示例中,主电台是在一时隙中调谐到的累积时间量最多的电台。在一些示例中,主电台是调谐到的最长连续持续时间的电台。时间匹配度量计算器225确定两个设备是否在一时隙期间断电(框510)。如果两个设备在时隙期间断电(框510:是),则时间匹配度量计算器225分配第一惩罚(框512)。例如,可施加0.5的惩罚。可以使用任何值。在一些示例中,惩罚值在0和1之间。然后,时间匹配度量计算器225确定是否要比较另一时隙(框514)。如果要比较另一时隙(框514:是),则时间匹配度量计算器225识别在要比较的时隙期间由每个设备调谐到的主电台(框508)。
如果两个设备不是在一时隙期间都断电(框510:否),则时间匹配度量计算器225确定在一时隙期间是否只有一个设备断电(框515)。如果其中一个设备在一时隙期间断电(框515:是),则时间匹配度量计算器225分配第二惩罚(框516)。例如,可施加0.25的惩罚。可以使用任何值。然后,时间匹配度量计算器225确定是否要比较另一时隙(框514)。如果要比较另一时隙(框514:是),则时间匹配度量计算器225识别在要比较的时隙期间由每个设备调谐到的主电台(框508)。
如果两个设备都通电,即如果不是两个设备在一时隙期间都断电(框510:否),而是只有一个设备在一时隙期间没有断电(框515:否),则时间匹配度量计算器225确定电台是否匹配(框517)。例如,时间匹配度量计算器225确定在时隙期间由第一设备调谐到的主电台是否与在该时隙期间由第二设备调谐到的主电台相同。如果在一时隙期间由该对设备调谐的电台匹配(框517:是),则时间匹配度量计算器225不分配惩罚(例如,惩罚=0)(框518)。然后,时间匹配度量计算器225确定是否要比较另一时隙(框514)。如果要比较另一时隙(框514:是),则时间匹配度量计算器225识别在要比较的时隙期间由每个设备调谐到的主电台(框508)。
如果时间匹配度量计算器225确定电台不匹配(框517:否),则时间匹配度量计算器225分配第三惩罚(框520)。例如,可施加1的惩罚。可以使用任何值。在一些示例中,由于一个设备调谐到的主电台与另一个设备调谐到的主电台不同,因此这些电台不匹配。在一些示例中,当一个设备断电而另一个设备通电时,分配一个惩罚值,以及当电台由于由各个设备调谐到的各个主电台不同(即,不匹配)而不匹配时,分配不同的惩罚值。
时间匹配度量计算器225确定是否要比较另一时隙(框514)。如果不比较另一时隙(框514:否),则时间匹配度量计算器225计算差异分数(框522)。例如,时间匹配度量计算器225对给定比较持续时间内的所有时隙的惩罚值求和,并除以时隙的数量,以确定该对设备的时间匹配度量。时间匹配度量计算器225将差异分数设置为时间匹配度量B(框524)。时间匹配度量B用于识别两个设备是否为本文公开的共同设备。
图6示出了将由电台路径度量计算器230执行以确定示例性电台路径度量的示例性过程或程序600。电台路径度量用于比较一对媒体设备(例如,小组成员受众测量数据中表示的一个媒体设备与普查受众测量数据中表示的另一个媒体设备)。电台路径度量测量被比较的两个媒体设备是否呈现相同的媒体序列。
在所示的示例性程序600中,电台路径度量计算器230访问第一设备的电台调谐数据(框602),并访问第二设备的电台调谐数据(框604)。电台路径度量计算器230检查在设备的每个调谐会话期间调谐到的电台(框606)。电台路径度量计算器230计算由第一设备调谐的电台序列和由第二设备调谐的电台序列之间的距离(框608)。例如,电台路径度量计算器230计算比较持续时间(例如,第一轮为一周,第二轮为六周)内的编辑距离。编辑距离对第一设备调谐的序列与第二设备调谐的序列匹配所需的更改或操作的数量进行计数。在一些示例中,电台路径度量计算器230利用Levenshtein距离计算(例如,等式(5))来计算距离。距离计算通过两个设备的调谐序列的长度进行归一化。电台路径度量计算器230将距离设置为被比较的一对设备的电台路径度量C(框610)。电台路径度量C用于识别两个设备是否为本文公开的共同设备。
图7示出了将由时间距离度量计算器233执行以确定示例性时间距离度量的示例性过程或程序700。时间距离度量用于比较两个设备之间的调谐会话或调谐活动的开始时间和/或结束时间的相似程度。时间距离度量测量被比较的两个设备是否具有在相同时间的调谐事件,或者在时间上有多近。
在所示的示例性程序700中,时间距离度量计算器233访问第一设备的调谐时间数据(框702)。时间距离度量计算器233访问第二设备的调谐时间数据(框704)。时间距离度量计算器233基于第一设备的调谐时间数据识别来自第一设备的时间事件,并创建时间事件的第一列表(框706)。时间距离度量计算器233基于第二设备的调谐时间数据识别来自第二设备的时间事件,并创建时间事件的第二列表(框708)。时间距离度量计算器233确定每个设备的每个时间事件之间的绝对距离(框710)。例如,时间距离度量计算器233使用第一列表和第二列表创建数组。时间距离度量计算器233通过计算第一设备的时间事件和第二设备的时间事件之间的距离来填充数组。
时间距离度量计算器233确定第一列表是否短于第二列表,或者第二列表是否短于第一列表(框712)。如果第一列表和第二列表的长度相同(框712:否),则时间距离度量计算器233确定极小值距离(框714)。极小值距离是从一个列表上的每个事件到另一个列表上的事件的相应最小距离的列表。如果时间距离度量计算器233确定第一列表或第二列表中的一个短于另一个(框712:是),则时间距离度量计算器233确定短列表的极小值距离(框716)。也就是说,时间距离度量计算器233确定从短列表中的每个事件到长列表中的事件的最小距离的列表。
因为长列表中的事件比短列表中的多,所以当时间距离度量计算器233确定短列表的极小值距离时,长列表中的事件将与短列表中的事件不匹配。时间距离度量计算器233计算长列表中与短列表中的事件不匹配的每个事件的惩罚(框718)。换句话说,长列表中与短列表中的事件的距离太远的事件被分配惩罚。时间距离度量计算器233计算时间距离分数(框720)。时间距离分数基于极小值距离和任何惩罚。例如,时间距离度量计算器233可以使用等式(6)计算时间距离分数。
时间距离度量计算器233将距离设置为被比较的一对设备的时间距离度量D(框722)。时间距离度量D用于识别两个设备是否为本文公开的共同设备。
图8示出了将由比较记分器235和共同设备选择器240执行的示例性过程或程序800。在示例性程序800中,比较记分器235访问度量(框802)。例如,比较记分器235访问电台持续时间度量A、时间匹配度量B、电台路径度量C和时间距离度量D。比较记分器235计算被比较的每对媒体设备的电台持续时间度量A、时间匹配度量B、电台路径度量C、以及时间距离度量D的z分数(框804)。比较记分器235将每对媒体设备的z分数组合(例如求和)成联合分数(框806)。比较记分器235计算联合分数的z分数,以确定用于被比较的每对媒体设备的最终比较分数(框808)。
共同设备选择器240确定所得比较分数是否满足阈值(框810)。例如,共同设备选择器240确定比较分数的标准偏差的四倍是否小于平均比较分数。如果共同设备选择器240确定比较分数不满足阈值(框810:否),则共同设备选择器240确定、选择或识别设备是不同的(框812)。也就是说,当比较分数不满足阈值时,共同设备选择器240将设备识别为非共同设备。
如果共同设备选择器240确定比较分数确实满足阈值(框810:是),则共同设备选择器240选择这些设备作为候选共同设备(框814)。然后,共同设备选择器240确定候选共同设备是否已在累积时间段内匹配(框816)。也就是说,共同设备选择器240确定设备的比较分数是否满足多个时间段的累积阈值。换句话说,使用第一时间段的度量执行示例性程序800,以及使用第二时间段的度量执行示例性程序800。这两个时间段可以是,例如,第一轮为一周(例如,第一时间段),第二轮为六周(例如,第二时间段)。在本示例中,为六周的第二时间段可以是六周内每周的分析和评分的累积。利用随时间段累积的分数测试或确定两个设备的匹配增强了两个设备为共同设备的置信度。
如果共同设备选择器240确定候选共同设备在两个时间段内没有匹配(框816:否),则共同设备选择器240将这些设备识别为不同的(框812)。换句话说,如果共同设备选择器240确定两个设备的比较分数在一时间段内满足阈值,但在另一个时间段不满足该阈值,则共同设备选择器240将两个设备识别为非共同或不同的设备。
如果共同设备选择器240确定候选共同设备在两个时间段具有匹配(框816:是),则共同设备选择器240确定、选择或识别候选共同设备为共同设备(框818)。换句话说,如果共同设备选择器240确定两个设备的比较分数在两个时间段内满足阈值,则共同设备选择器240将这两个设备识别为共同设备。共同设备选择器240将两个设备识别为共同设备(框818),示例性程序400、500、600、700和800可以实现图3的示例性程序300的共同设备识别(框314)。
图9是构造成执行图3-图8的指令以实现图2的共同设备识别系统200的示例性处理器平台900的框图。处理器平台900可以是,例如,服务器、个人电脑、工作站、自学习机(例如,神经网络)、移动设备(例如,手机、智能手机、诸如iPadTM的平板电脑)、个人数字助理(PDA)、互联网设备、DVD播放器、CD播放器、数字录像机、蓝光播放器、游戏控制台、个人录像机、机顶盒、耳机或其他可穿戴设备、或任何其他类型的计算设备。
所示示例的处理器平台900包括处理器912。所示示例的处理器912是硬件。例如,处理器912可以由一个或多个集成电路、逻辑电路、微处理器、GPU、DSP或来自任何期望家族或制造商的控制器来实现。硬件处理器可以是基于半导体(例如,基于硅)的设备。在此示例中,处理器实现小组数据检索器205、普查数据检索器210、比较控制器215、电台持续时间度量计算器220、时间匹配度量计算器225、电台路径度量计算器230、时间距离度量计算器233、比较记分器235、共同设备选择器240和/或共同设备识别系统200。
所示示例的处理器912包括本地存储器913(例如,高速缓存)。所示示例的处理器912通过总线918与包括易失性存储器914和非易失性存储器916的主存储器通信。易失性存储器914可以由同步动态随机存取存储器(SDRAM)、动态随机存取存储器(DRAM)、
Figure BDA0003467414900000281
动态随机存取存储器
Figure BDA0003467414900000282
和/或任何其他类型的随机存取存储器设备来实现。非易失性存储器916可以通过闪存和/或任何其他期望类型的存储器设备来实现。对主存储器914、916的访问由存储器控制器控制。
所示示例的处理器平台900还包括接口电路920。接口电路920可以由任何类型的接口标准实现,例如以太网接口、通用串行总线(USB)、
Figure BDA0003467414900000283
接口、近场通信(NFC)接口、和/或PCI-express(串行总线)接口。
在所示示例中,一个或多个输入设备922连接到接口电路920。(一个或多个)输入设备922允许用户向处理器912输入数据和/或命令。(一个或多个)输入设备可以通过例如音频传感器、麦克风、照相机(静止或视频)、键盘、按钮、鼠标、触摸屏、轨迹板、轨迹球、等点和/或语音识别系统来实现。
一个或多个输出设备924也连接到所示示例的接口电路920。输出设备924例如可以由显示设备(例如,发光二极管(LED)、有机发光二极管(OLED)、液晶显示器(LCD)、阴极射线管显示器(CRT)、就地开关(IPS)显示器、触摸屏等)、触觉输出设备、打印机和/或扬声器来实现。因此,所示示例的接口电路920通常包括图形驱动卡、图形驱动芯片和/或图形驱动处理器。
所示示例的接口电路920还包括通信设备(例如发射器、接收器、收发器、调制解调器、住宅网关、无线接入点和/或网络接口),以促进通过网络926与外部机器(例如,任何种类的计算设备)交换数据。通信可以通过例如以太网连接、数字用户线路(DSL)连接、电话线路连接、同轴电缆系统、卫星系统、直线对传式无线系统、蜂窝电话系统等实现。
所示示例的处理器平台900还包括用于存储软件和/或数据的一个或多个大容量存储设备928。此类大容量存储设备928的示例包括软盘驱动器、硬盘驱动器、光盘驱动器、蓝光光磁盘驱动器、独立磁盘冗余阵列(RAID)系统和数字多功能盘(DVD)驱动器。
图3-图8的机器可执行指令932可以存储在大容量存储设备928、易失性存储器914、非易失性存储器916和/或可移除的非暂时性计算机可读存储介质(例如CD或DVD)中。
本文公开的示例支持跨多个不同数据源进行重复数据删除,以识别这些数据源中数据中表示的共同设备,从而识别冗余或重复数据。重复数据删除有助于避免在最终受众测量或收视率数据中对受众成员重复计数。重复数据删除可获得更准确的受众测量数据。本文公开的示例还促进跨多个数据集聚合数据,这可用于补充一个或多个其他数据源中丢失或损坏的数据。因此,本文公开的示例提高了数据库的完整性和准确性。
公开了用于跨多个数据源对共同设备进行重复数据删除的示例性方法、装置、系统和制品(例如,物理存储介质)。示例1包括一种跨多个数据源对共同设备进行重复数据删除的系统,该系统包括:比较控制器,所述比较控制器用于将第一数据源中的第一设备和第二数据源中的第二设备识别为可能的共同设备;第一度量计算器,所述第一度量计算器用于基于第一电台持续时间数据和第二电台持续时间数据计算电台持续时间度量,所述第一电台持续时间数据与将所述第一设备调谐到第一组电台的第一组持续时间相关联,所述第二电台持续时间数据与将所述第二设备调谐到所述第一组电台的第二组持续时间相关联;第二度量计算器,所述第二度量计算器用于基于第一时间数据和第二时间数据计算时间匹配度量,所述第一时间数据与一天中将所述第一设备调谐到第二组电台的第一组时间相关联,所述第二时间数据与一天中将所述第二设备调谐到所述第二组电台的第二组时间相关联,所述一天中的第一组时间与所述一天中的第二组时间重叠;第三度量计算器,所述第三度量计算器用于基于所述第一设备调谐到的第一电台序列和所述第二设备调谐到的第二电台序列来计算电台路径度量;比较记分器,所述比较记分器用于基于所述电台持续时间度量、所述时间匹配度量和所述电台路径度量确定联合分数;以及共同设备选择器,所述共同设备选择器用于基于所述联合分数确定所述第一设备和所述第二设备何时为共同设备。
示例2包括示例1所述的系统,其中,所述第一组电台和所述第二组电台至少部分重叠。
示例3包括示例1或2所述的系统,其中,在所述比较控制器将所述第一设备和所述第二设备识别为所述可能的共同设备之前,所述比较控制器对来自所述第一数据源的第一数据和来自所述第二数据源的第二数据施加约束。
示例4包括示例3所述的系统,其中,所述约束是地理约束。
示例5包括示例1-4中任一个所述的系统,其中,所述第一度量计算器用于:
计算第一电台持续时间qi
qi=log10(设备1的第i频道持续时间)
计算第二电台持续时间pi
pi=log10(设备2的第i频道持续时间)
通过下式计算归一化距离分数:
Figure BDA0003467414900000301
Figure BDA0003467414900000302
其中N是电台的数量;并且所述第一度量计算器用于将所述归一化距离分数设置为所述电台持续时间度量。
示例6包括示例1-5中任一个所述的系统,其中,所述第二度量计算器用于:将所述一天中的第一组时间和所述一天中的第二组时间划分为多个时隙;识别在所述时隙的第一时隙中所述第一设备调谐到的第一主电台;识别在所述第一时隙中所述第二设备调谐到的第二主电台;执行所述第一主电台和所述第二主电台的第一比较;基于所述第一比较计算第一惩罚;识别在所述时隙的第二时隙中所述第一设备调谐到的第三主电台;识别在所述第二时隙中所述第二设备调谐到的第四主电台;执行所述第三主电台和所述第四主电台的第二比较;基于所述第二比较计算第二惩罚;将所述第一惩罚和所述第二惩罚相加以计算差异分数;以及将所述差异分数设置为所述时间匹配度量。
示例7包括示例6所述的系统,其中,所述第二度量计算器用于:当发生(1)所述第一设备和所述第二设备中的至少一者缺少所述第一时隙的数据和/或(2)所述第一设备和所述第二设备中的至少一者在所述第一时隙断电时,将所述第一惩罚设置为第一值;以及当所述第一设备和所述第二设备在所述第一时隙期间调谐到不同的电台时,将所述第一惩罚设置为第二值,所述第二值大于所述第一值。
示例8包括示例1-7中任一个所述的系统,其中,所述第三度量计算器用于:确定将所述第二电台序列转换为所述第一电台序列所需的操作的数量;以及基于所述操作的数量确定所述电台路径度量。
示例9包括示例8所述的系统,其中,所述第三度量计算器用于计算Levenshtein距离以确定所述操作的数量。
示例10包括示例1-9中任一个所述的系统,其中,所述比较记分器用于:计算所述电台持续时间度量的z分数;计算所述时间匹配度量的z分数;计算所述电台路径度量的z分数;以及基于所述电台持续时间度量的z分数、所述时间匹配度量的z分数、以及所述电台路径度量的z分数的组合来确定所述联合分数。
示例11包括示例1-10中任一个所述的系统,其中,所述共同设备选择器用于在所述联合分数满足阈值时确定所述第一设备和所述第二设备是共同设备。
示例12包括示例11所述的系统,其中,当所述联合分数的标准偏差的四倍小于所述联合分数的平均值时,满足所述阈值。
示例13包括示例11所述的系统,其中,所述第一电台持续时间数据、所述第二电台持续时间数据、所述第一时间数据、所述第二时间数据、所述第一电台序列和所述第二电台序列与第一时间间隔相关联,其中,所述电台持续时间度量是第一电台持续时间度量,所述时间匹配度量是第一时间匹配度量,所述电台路径度量是第一电台路径度量,所述联合分数是第一联合分数,所述第一度量计算器用于基于与第二时间间隔相关联的第三电台持续时间数据和第四电台持续时间数据来计算第二电台持续时间度量;所述第二度量计算器用于基于与所述第二时间间隔相关联的第三时间数据和第四时间数据来计算第二时间匹配度量;所述第三度量计算器用于基于所述第一设备调谐到的第三电台序列和所述第二设备调谐到的第四电台序列来计算第二电台路径度量,所述第三电台序列和所述第四电台序列与所述第二时间间隔相关联;所述比较记分器用于基于所述第二电台持续时间度量、所述第二时间匹配度量和所述第二电台路径度量确定第二联合分数;以及所述共同设备选择器用于基于满足所述阈值的所述第二联合分数确定所述第一设备和所述第二设备何时为共同设备。
示例14包括示例1-13中任一个所述的系统,还包括第四度量计算器,所述第四度量计算器用于基于所述第一设备的活动的第一组时间事件和所述第二设备的第二组时间事件计算时间距离度量,所述比较记分器用于基于所述时间距离度量确定所述联合分数。
示例15包括一种跨多个数据源对共同设备进行重复数据删除的系统,所述系统包括:用于将第一数据源中的第一设备和第二数据源中的第二设备识别为可能的共同设备的装置;用于基于第一电台持续时间数据和第二电台持续时间数据计算电台持续时间度量的装置,所述第一电台持续时间数据与将所述第一设备调谐到第一组电台的第一组持续时间相关联,所述第二电台持续时间数据与将所述第二设备调谐到所述第一组电台的第二组持续时间相关联;用于基于第一时间数据和第二时间数据计算时间匹配度量的装置,所述第一时间数据与一天中将所述第一设备调谐到第二组电台的第一组时间相关联,所述第二时间数据与一天中将所述第二设备调谐到所述第二组电台的第二组时间相关联,所述一天中的第一组时间与所述一天中的第二组时间重叠;用于基于所述第一设备调谐到的第一电台序列和所述第二设备调谐到的第二电台序列计算电台路径度量的装置;用于基于所述电台持续时间度量、所述时间匹配度量和所述电台路径度量确定联合分数的装置;以及用于基于所述联合分数选择所述第一设备和所述第二设备何时为共同设备的装置。
示例16包括示例15所述的系统,其中,所述第一组电台和所述第二组电台至少部分重叠。
示例17包括示例15或16所述的系统,其中,用于识别的所述装置用于在将所述第一设备和所述第二设备识别为所述可能的共同设备之前,对来自所述第一数据源的第一数据和来自所述第二数据源的第二数据施加约束。
示例18包括示例17所述的系统,其中,所述约束是地理约束。
示例19包括示例15-18中任一个所述的系统,其中,用于计算所述电台持续时间度量的所述装置用于:
计算第一电台持续时间qi
qi=log10(设备1的第i频道持续时间)
计算第二电台持续时间pi
pi=log10(设备2的第i频道持续时间)
通过下式计算归一化距离分数:
Figure BDA0003467414900000331
Figure BDA0003467414900000332
其中N是电台的数量;并且所述装置用于将所述归一化距离分数设置为所述电台持续时间度量。
示例20包括示例15-19中任一个所述的系统,其中,用于计算所述时间匹配度量的所述装置用于:将所述一天中的第一组时间和所述一天中的第二组时间划分为多个时隙;识别在所述时隙的第一时隙中所述第一设备调谐到的第一主电台;识别在所述第一时隙中所述第二设备调谐到的第二主电台;执行所述第一主电台和所述第二主电台的第一比较;基于所述第一比较计算第一惩罚;识别在所述时隙的第二时隙中所述第一设备调谐到的第三主电台;识别在所述第二时隙中所述第二设备调谐到的第四主电台;执行所述第三主电台和所述第四主电台的第二比较;基于所述第二比较计算第二惩罚;将所述第一惩罚和所述第二惩罚相加以计算差异分数;以及将所述差异分数设置为所述时间匹配度量。
示例21包括示例20所述的系统,其中,用于计算所述时间匹配度量的所述装置用于:当发生(1)所述第一设备和所述第二设备中的至少一者缺少所述第一时隙的数据和/或(2)所述第一设备和所述第二设备中的至少一者在所述第一时隙断电时,将所述第一惩罚设置为第一值;以及当所述第一设备和所述第二设备在所述第一时隙期间调谐到不同的电台时,将所述第一惩罚设置为第二值,所述第二值大于所述第一值。
示例22包括示例15-21中任一个所述的系统,其中,用于计算电台路径度量的所述装置用于:确定将所述第二电台序列转换为所述第一电台序列所需的操作的数量;以及基于所述操作的数量确定所述电台路径度量。
示例23包括示例22所述的系统,其中,用于计算电台路径度量的所述装置用于计算Levenshtein距离以确定所述操作的数量。
示例24包括示例15-23中任一个所述的系统,其中,用于确定联合分数的所述装置用于:计算所述电台持续时间度量的z分数;计算所述时间匹配度量的z分数;计算所述电台路径度量的z分数;以及基于所述电台持续时间度量的z分数、所述时间匹配度量的z分数、以及所述电台路径度量的z分数的组合来确定所述联合分数。
示例25包括示例15-24中任一个所述的系统,其中,用于选择的所述装置用于在所述联合分数满足阈值时确定所述第一设备和所述第二设备是共同设备。
示例26包括示例25所述的系统,其中,当所述联合分数的标准偏差的四倍小于所述联合分数的平均值时,满足所述阈值。
示例27包括示例25所述的系统,其中,所述第一电台持续时间数据、所述第二电台持续时间数据、所述第一时间数据、所述第二时间数据、所述第一电台序列和所述第二电台序列与第一时间间隔相关联,其中,所述电台持续时间度量是第一电台持续时间度量,所述时间匹配度量是第一时间匹配度量,所述电台路径度量是第一电台路径度量,所述联合分数是第一联合分数,用于计算电台持续时间度量的所述装置用于基于与第二时间间隔相关联的第三电台持续时间数据和第四电台持续时间数据来计算第二电台持续时间度量;用于计算时间匹配度量的所述装置用于基于与所述第二时间间隔相关联的第三时间数据和第四时间数据来计算第二时间匹配度量;用于计算电台路径度量的所述装置用于基于所述第一设备调谐到的第三电台序列和所述第二设备调谐到的第四电台序列来计算第二电台路径度量,所述第三电台序列和所述第四电台序列与所述第二时间间隔相关联;用于确定联合分数的所述装置用于基于所述第二电台持续时间度量、所述第二时间匹配度量和所述第二电台路径度量确定第二联合分数;以及用于选择的所述装置用于基于满足所述阈值的所述第二联合分数确定所述第一设备和所述第二设备何时为共同设备。
示例28包括示例15-27中任一个所述的系统,还包括用于基于所述第一设备的活动的第一组时间事件和所述第二设备的第二组时间事件计算时间距离度量的装置,用于确定联合分数的所述装置用于基于所述时间距离度量确定所述联合分数。
示例29包括用于跨多个数据源对共同设备进行重复数据删除的装置,该装置包括:处理器电路;以及包括指令的存储器,所述指令在被执行时使得所述处理器电路:将第一数据源中的第一设备和第二数据源中的第二设备识别为可能的共同设备;基于第一电台持续时间数据和第二电台持续时间数据计算电台持续时间度量,所述第一电台持续时间数据与将所述第一设备调谐到第一组电台的第一组持续时间相关联,所述第二电台持续时间数据与将所述第二设备调谐到所述第一组电台的第二组持续时间相关联;基于第一时间数据和第二时间数据计算时间匹配度量,所述第一时间数据与一天中将所述第一设备调谐到第二组电台的第一组时间相关联,所述第二时间数据与一天中将所述第二设备调谐到所述第二组电台的第二组时间相关联,所述一天中的第一组时间与所述一天中的第二组时间重叠;基于所述第一设备调谐到的第一电台序列和所述第二设备调谐到的第二电台序列来计算电台路径度量;基于所述电台持续时间度量、所述时间匹配度量和所述电台路径度量确定联合分数;以及基于所述联合分数确定所述第一设备和所述第二设备何时为共同设备。
示例30包括示例29所述的装置,其中,所述第一组电台和所述第二组电台至少部分重叠。
示例31包括示例29或30所述的装置,其中,所述指令使得所述处理器电路:在将所述第一设备和所述第二设备识别为所述可能的共同设备之前,对来自所述第一数据源的第一数据和来自所述第二数据源的第二数据施加约束。
示例32包括示例31所述的装置,其中,所述约束是地理约束。
示例33包括示例29-32中任一个所述的装置,其中,所述指令使得所述处理器电路:
计算第一电台持续时间qi
qi=log10(设备1的第i频道持续时间)
计算第二电台持续时间pi
pi=log10(设备2的第i频道持续时间)
通过下式计算归一化距离分数:
Figure BDA0003467414900000361
Figure BDA0003467414900000362
其中N是电台的数量;并且所述指令使得所述处理器电路:将所述归一化距离分数设置为所述电台持续时间度量。
示例34包括示例29-33中任一个所述的装置,其中,所述指令使得所述处理器电路:将所述一天中的第一组时间和所述一天中的第二组时间划分为多个时隙;识别在所述时隙的第一时隙中所述第一设备调谐到的第一主电台;识别在所述第一时隙中所述第二设备调谐到的第二主电台;执行所述第一主电台和所述第二主电台的第一比较;基于所述第一比较计算第一惩罚;识别在所述时隙的第二时隙中所述第一设备调谐到的第三主电台;识别在所述第二时隙中所述第二设备调谐到的第四主电台;执行所述第三主电台和所述第四主电台的第二比较;基于所述第二比较计算第二惩罚;将所述第一惩罚和所述第二惩罚相加以计算差异分数;以及将所述差异分数设置为所述时间匹配度量。
示例35包括示例33(示例33包括示例29-32中任一个所述的装置),示例34所述的装置,其中,所述指令使得所述处理器电路:当发生(1)所述第一设备和所述第二设备中的至少一者缺少所述第一时隙的数据和/或(2)所述第一设备和所述第二设备中的至少一者在所述第一时隙断电时,将所述第一惩罚设置为第一值;以及当所述第一设备和所述第二设备在所述第一时隙期间调谐到不同的电台时,将所述第一惩罚设置为第二值,所述第二值大于所述第一值。
示例36包括示例29-35中任一个所述的装置,其中,所述指令使得所述处理器电路:确定将所述第二电台序列转换为所述第一电台序列所需的操作的数量;以及基于所述操作的数量确定所述电台路径度量。
示例37包括示例36所述的装置,其中,所述指令使得所述处理器电路:计算Levenshtein距离以确定所述操作的数量。
示例38包括示例29-37中任一个所述的装置,示例29所述的装置,其中,所述指令使得所述处理器电路:计算所述电台持续时间度量的z分数;计算所述时间匹配度量的z分数;计算所述电台路径度量的z分数;以及基于所述电台持续时间度量的z分数、所述时间匹配度量的z分数、以及所述电台路径度量的z分数的组合来确定所述联合分数。
示例39包括示例29-38中任一个所述的装置,其中,所述指令使得所述处理器电路:在所述联合分数满足阈值时确定所述第一设备和所述第二设备是共同设备。
示例40包括示例39所述的装置,其中,当所述联合分数的标准偏差的四倍小于所述联合分数的平均值时,满足所述阈值。
示例41包括示例39所述的装置,其中,所述第一电台持续时间数据、所述第二电台持续时间数据、所述第一时间数据、所述第二时间数据、所述第一电台序列和所述第二电台序列与第一时间间隔相关联,其中,所述电台持续时间度量是第一电台持续时间度量,所述时间匹配度量是第一时间匹配度量,所述电台路径度量是第一电台路径度量,所述联合分数是第一联合分数,所述指令使得所述处理器电路:基于与第二时间间隔相关联的第三电台持续时间数据和第四电台持续时间数据来计算第二电台持续时间度量;基于与所述第二时间间隔相关联的第三时间数据和第四时间数据来计算第二时间匹配度量;基于所述第一设备调谐到的第三电台序列和所述第二设备调谐到的第四电台序列来计算第二电台路径度量,所述第三电台序列和所述第四电台序列与所述第二时间间隔相关联;基于所述第二电台持续时间度量、所述第二时间匹配度量和所述第二电台路径度量确定第二联合分数;以及基于满足所述阈值的所述第二联合分数确定所述第一设备和所述第二设备何时为共同设备。
示例42包括示例29-41中任一个所述的装置,示例29所述的装置,其中,所述指令使得所述处理器电路:基于所述第一设备的活动的第一组时间事件和所述第二设备的第二组时间事件计算时间距离度量;以及基于所述时间距离度量确定所述联合分数。
示例43包括一种非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质包括指令,所述指令当被执行时,使得一个或多个处理器至少用于:将第一数据源中的第一设备和第二数据源中的第二设备识别为可能的共同设备;基于第一电台持续时间数据和第二电台持续时间数据计算电台持续时间度量,所述第一电台持续时间数据与将所述第一设备调谐到第一组电台的第一组持续时间相关联,所述第二电台持续时间数据与将所述第二设备调谐到所述第一组电台的第二组持续时间相关联;基于第一时间数据和第二时间数据计算时间匹配度量,所述第一时间数据与一天中将所述第一设备调谐到第二组电台的第一组时间相关联,所述第二时间数据与一天中将所述第二设备调谐到所述第二组电台的第二组时间相关联,所述一天中的第一组时间与所述一天中的第二组时间重叠;基于所述第一设备调谐到的第一电台序列和所述第二设备调谐到的第二电台序列来计算电台路径度量;基于所述电台持续时间度量、所述时间匹配度量和所述电台路径度量确定联合分数;以及基于所述联合分数确定所述第一设备和所述第二设备何时为共同设备。
示例44包括示例43所述的存储介质,其中,所述第一组电台和所述第二组电台至少部分重叠。
示例45包括示例43或44所述的存储介质,其中,所述指令使得所述一个或多个处理器:在所述比较控制器将所述第一设备和所述第二设备识别为所述可能的共同设备之前,对来自所述第一数据源的第一数据和来自所述第二数据源的第二数据施加约束。
示例46包括示例45所述的存储介质,其中,所述约束是地理约束。
示例47包括示例43-45中任一个所述的存储介质,其中,所述指令使得所述一个或多个处理器:
计算第一电台持续时间qi
qi=log10(设备1的第i频道持续时间);
计算第二电台持续时间pi
pi=log10(设备2的第i频道持续时间)
通过下式计算归一化距离分数:
Figure BDA0003467414900000391
Figure BDA0003467414900000392
其中N是电台的数量;并且所述指令使得所述一个或多个处理器:将所述归一化距离分数设置为所述电台持续时间度量。
示例48包括示例43-47中任一个所述的存储介质,其中,所述指令使得所述一个或多个处理器:将所述一天中的第一组时间和所述一天中的第二组时间划分为多个时隙;识别在所述时隙的第一时隙中所述第一设备调谐到的第一主电台;识别在所述第一时隙中所述第二设备调谐到的第二主电台;执行所述第一主电台和所述第二主电台的第一比较;基于所述第一比较计算第一惩罚;识别在所述时隙的第二时隙中所述第一设备调谐到的第三主电台;识别在所述第二时隙中所述第二设备调谐到的第四主电台;执行所述第三主电台和所述第四主电台的第二比较;基于所述第二比较计算第二惩罚;将所述第一惩罚和所述第二惩罚相加以计算差异分数;以及将所述差异分数设置为所述时间匹配度量。
示例49包括示例48所述的存储介质,其中,所述指令使得所述一个或多个处理器:当发生(1)所述第一设备和所述第二设备中的至少一者缺少所述第一时隙的数据和/或(2)所述第一设备和所述第二设备中的至少一者在所述第一时隙断电中时,将所述第一惩罚设置为第一值;以及当所述第一设备和所述第二设备在所述第一时隙期间调谐到不同的电台时,将所述第一惩罚设置为第二值,所述第二值大于所述第一值。
示例50包括示例43-49中任一个所述的存储介质,其中,所述指令使得所述一个或多个处理器:确定将所述第二电台序列转换为所述第一电台序列所需的操作的数量;以及基于所述操作的数量确定所述电台路径度量。
示例51包括示例50所述的存储介质,其中,所述指令使得所述一个或多个处理器:计算Levenshtein距离以确定所述操作的数量。
示例52包括示例43-51中任一个所述的存储介质,其中,所述指令使得所述一个或多个处理器:计算所述电台持续时间度量的z分数;计算所述时间匹配度量的z分数;计算所述电台路径度量的z分数;以及基于所述电台持续时间度量的z分数、所述时间匹配度量的z分数、以及所述电台路径度量的z分数的组合来确定所述联合分数。
示例53包括示例43-52中任一个所述的存储介质,其中,所述指令使得所述一个或多个处理器:在所述联合分数满足阈值时确定所述第一设备和所述第二设备是共同设备。
示例54包括示例53所述的存储介质,其中,当所述联合分数的标准偏差的四倍小于所述联合分数的平均值时,满足所述阈值。
示例55包括示例53所述的存储介质,其中,所述第一电台持续时间数据、所述第二电台持续时间数据、所述第一时间数据、所述第二时间数据、所述第一电台序列和所述第二电台序列与第一时间间隔相关联,其中,所述电台持续时间度量是第一电台持续时间度量,所述时间匹配度量是第一时间匹配度量,所述电台路径度量是第一电台路径度量,所述联合分数是第一联合分数,所述指令使得所述一个或多个处理器:基于与第二时间间隔相关联的第三电台持续时间数据和第四电台持续时间数据来计算第二电台持续时间度量;基于与所述第二时间间隔相关联的第三时间数据和第四时间数据来计算第二时间匹配度量;基于所述第一设备调谐到的第三电台序列和所述第二设备调谐到的第四电台序列来计算第二电台路径度量,所述第三电台序列和所述第四电台序列与所述第二时间间隔相关联;基于所述第二电台持续时间度量、所述第二时间匹配度量和所述第二电台路径度量确定第二联合分数;以及基于满足所述阈值的所述第二联合分数确定所述第一设备和所述第二设备何时为共同设备。
示例56包括示例43-55中任一个所述的存储介质,其中,所述指令使得所述一个或多个处理器:基于所述第一设备的活动的第一组时间事件和所述第二设备的第二组时间事件计算时间距离度量;以及基于所述时间距离度量确定所述联合分数。
示例57包括一种跨多个数据源对共同设备进行重复数据删除的方法,所述方法包括:通过使用处理器执行指令,将第一数据源中的第一设备和第二数据源中的第二设备识别为可能的共同设备;通过使用所述处理器执行指令,基于第一电台持续时间数据和第二电台持续时间数据计算电台持续时间度量,所述第一电台持续时间数据与将所述第一设备调谐到第一组电台的第一组持续时间相关联,所述第二电台持续时间数据与将所述第二设备调谐到所述第一组电台的第二组持续时间相关联;通过使用所述处理器执行指令,基于第一时间数据和第二时间数据计算时间匹配度量,所述第一时间数据与一天中将所述第一设备调谐到第二组电台的第一组时间相关联,所述第二时间数据与一天中将所述第二设备调谐到所述第二组电台的第二组时间相关联,所述一天中的第一组时间与所述一天中的第二组时间重叠;通过使用所述处理器执行指令,基于所述第一设备调谐到的第一电台序列和所述第二设备调谐到的第二电台序列来计算电台路径度量;通过使用所述处理器执行指令,基于所述电台持续时间度量、所述时间匹配度量和所述电台路径度量确定联合分数;以及通过使用所述处理器执行指令,基于所述联合分数确定所述第一设备和所述第二设备何时为共同设备。
示例58包括示例57所述的方法,其中,所述第一组电台和所述第二组电台至少部分重叠。
示例59包括示例57或58所述的方法,还包括:通过使用所述处理器执行指令,在所述比较控制器将所述第一设备和所述第二设备识别为所述可能的共同设备之前,对来自所述第一数据源的第一数据和来自所述第二数据源的第二数据施加约束。
示例60包括示例59所述的方法,其中,所述约束是地理约束。
示例61包括示例57-60中任一个所述的方法,还包括:
通过使用所述处理器执行指令,计算第一电台持续时间qi
qi=log10(设备1的第i频道持续时间);
通过使用所述处理器执行指令,计算第二电台持续时间pi
pi=log10(设备2的第i频道持续时间)
通过使用所述处理器执行指令,通过下式计算归一化距离分数:
Figure BDA0003467414900000421
Figure BDA0003467414900000422
其中N是电台的数量;并且通过使用所述处理器执行指令,将所述归一化距离分数设置为所述电台持续时间度量。
示例62包括示例57-61中任一个所述的方法,还包括:通过使用所述处理器执行指令,将所述一天中的第一组时间和所述一天中的第二组时间划分为多个时隙;通过使用所述处理器执行指令,识别在所述时隙的第一时隙中所述第一设备调谐到的第一主电台;通过使用所述处理器执行指令,识别在所述第一时隙中所述第二设备调谐到的第二主电台;通过使用所述处理器执行指令,执行所述第一主电台和所述第二主电台的第一比较;通过使用所述处理器执行指令,基于所述第一比较计算第一惩罚;通过使用所述处理器执行指令,识别在所述时隙的第二时隙中所述第一设备调谐到的第三主电台;通过使用所述处理器执行指令,识别在所述第二时隙中所述第二设备调谐到的第四主电台;通过使用所述处理器执行指令,执行所述第三主电台和所述第四主电台的第二比较;通过使用所述处理器执行指令,基于所述第二比较计算第二惩罚;通过使用所述处理器执行指令,将所述第一惩罚和所述第二惩罚相加以计算差异分数;以及通过使用所述处理器执行指令,将所述差异分数设置为所述时间匹配度量。
示例63包括示例62所述的方法,还包括:通过使用所述处理器执行指令,当发生(1)所述第一设备和所述第二设备中的至少一者缺少所述第一时隙的数据和/或(2)所述第一设备和所述第二设备中的至少一者在所述第一时隙断电时,将所述第一惩罚设置为第一值;以及通过使用所述处理器执行指令,当所述第一设备和所述第二设备在所述第一时隙期间调谐到不同的电台时,将所述第一惩罚设置为第二值,所述第二值大于所述第一值。
示例64包括示例57-63中任一个所述的方法,还包括:通过使用所述处理器执行指令,确定将所述第二电台序列转换为所述第一电台序列所需的操作的数量;以及通过使用所述处理器执行指令,基于所述操作的数量确定所述电台路径度量。
示例65包括示例64所述的方法,还包括:通过使用所述处理器执行指令,计算Levenshtein距离以确定所述操作的数量。
示例66包括示例57-65中任一个所述的方法,还包括:通过使用所述处理器执行指令,计算所述电台持续时间度量的z分数;通过使用所述处理器执行指令,计算所述时间匹配度量的z分数;通过使用所述处理器执行指令,计算所述电台路径度量的z分数;以及通过使用所述处理器执行指令,基于所述电台持续时间度量的z分数、所述时间匹配度量的z分数、以及所述电台路径度量的z分数的组合来确定所述联合分数。
示例67包括示例57-66中任一个所述的方法,示例57所述的方法,还包括:通过使用所述处理器执行指令,在所述联合分数满足阈值时确定所述第一设备和所述第二设备是共同设备。
示例68包括示例67所述的方法,其中,当所述联合分数的标准偏差的四倍小于所述联合分数的平均值时,满足所述阈值。
示例69包括示例67所述的方法,其中,所述第一电台持续时间数据、所述第二电台持续时间数据、所述第一时间数据、所述第二时间数据、所述第一电台序列和所述第二电台序列与第一时间间隔相关联,其中,所述电台持续时间度量是第一电台持续时间度量,所述时间匹配度量是第一时间匹配度量,所述电台路径度量是第一电台路径度量,所述联合分数是第一联合分数,所述方法还包括:通过使用所述处理器执行指令,基于与第二时间间隔相关联的第三电台持续时间数据和第四电台持续时间数据来计算第二电台持续时间度量;通过使用所述处理器执行指令,基于与所述第二时间间隔相关联的第三时间数据和第四时间数据来计算第二时间匹配度量;通过使用所述处理器执行指令,基于所述第一设备调谐到的第三电台序列和所述第二设备调谐到的第四电台序列来计算第二电台路径度量,所述第三电台序列和所述第四电台序列与所述第二时间间隔相关联;通过使用所述处理器执行指令,基于所述第二电台持续时间度量、所述第二时间匹配度量和所述第二电台路径度量确定第二联合分数;以及通过使用所述处理器执行指令,基于满足所述阈值的所述第二联合分数确定所述第一设备和所述第二设备何时为共同设备。
示例70包括示例57-69中任一个所述的方法,还包括:通过使用所述处理器执行指令,基于所述第一设备的活动的第一组时间事件和所述第二设备的第二组时间事件计算时间距离度量,所述联合分数基于所述时间距离度量。
尽管本文公开了某些示例性方法、装置和制品,但本专利的覆盖范围不限于此。相反,本专利涵盖了完全落入本专利权利要求的范围内的所有方法、装置和制品。

Claims (70)

1.一种跨多个数据源对共同设备进行重复数据删除的系统,所述系统包括:
比较控制器,所述比较控制器用于将第一数据源中的第一设备和第二数据源中的第二设备识别为可能的共同设备;
第一度量计算器,所述第一度量计算器用于基于第一电台持续时间数据和第二电台持续时间数据计算电台持续时间度量,所述第一电台持续时间数据与将所述第一设备调谐到第一组电台的第一组持续时间相关联,所述第二电台持续时间数据与将所述第二设备调谐到所述第一组电台的第二组持续时间相关联;
第二度量计算器,所述第二度量计算器用于基于第一时间数据和第二时间数据计算时间匹配度量,所述第一时间数据与一天中将所述第一设备调谐到第二组电台的第一组时间相关联,所述第二时间数据与一天中将所述第二设备调谐到所述第二组电台的第二组时间相关联,所述一天中的第一组时间与所述一天中的第二组时间重叠;
第三度量计算器,所述第三度量计算器用于基于所述第一设备调谐到的第一电台序列和所述第二设备调谐到的第二电台序列来计算电台路径度量;
比较记分器,所述比较记分器用于基于所述电台持续时间度量、所述时间匹配度量和所述电台路径度量确定联合分数;以及
共同设备选择器,所述共同设备选择器用于基于所述联合分数确定所述第一设备和所述第二设备何时为共同设备。
2.如权利要求1所述的系统,其中,所述第一组电台和所述第二组电台至少部分重叠。
3.如权利要求1或2所述的系统,其中,在所述比较控制器将所述第一设备和所述第二设备识别为所述可能的共同设备之前,所述比较控制器对来自所述第一数据源的第一数据和来自所述第二数据源的第二数据施加约束。
4.如权利要求3所述的系统,其中,所述约束是地理约束。
5.如权利要求1至4中任一项所述的系统,其中,所述第一度量计算器用于:
计算第一电台持续时间qi
qi=log10(设备1的第i频道持续时间)
计算第二电台持续时间pi
pi=log10(设备2的第i频道持续时间)
通过下式计算归一化距离分数:
Figure FDA0003467414890000021
Figure FDA0003467414890000022
其中N是电台的数量;以及
将所述归一化距离分数设置为所述电台持续时间度量。
6.如权利要求1至5中任一项所述的系统,其中,所述第二度量计算器用于:
将所述一天中的第一组时间和所述一天中的第二组时间划分为多个时隙;
识别在所述时隙的第一时隙中所述第一设备调谐到的第一主电台;
识别在所述第一时隙中所述第二设备调谐到的第二主电台;
执行所述第一主电台和所述第二主电台的第一比较;
基于所述第一比较计算第一惩罚;
识别在所述时隙的第二时隙中所述第一设备调谐到的第三主电台;
识别在所述第二时隙中所述第二设备调谐到的第四主电台;
执行所述第三主电台和所述第四主电台的第二比较;
基于所述第二比较计算第二惩罚;
将所述第一惩罚和所述第二惩罚相加以计算差异分数;以及
将所述差异分数设置为所述时间匹配度量。
7.如权利要求6所述的系统,其中,所述第二度量计算器用于:
当发生(1)所述第一设备和所述第二设备中的至少一者缺少所述第一时隙的数据和/或(2)所述第一设备和所述第二设备中的至少一者在所述第一时隙断电时,将所述第一惩罚设置为第一值;以及
当所述第一设备和所述第二设备在所述第一时隙期间调谐到不同的电台时,将所述第一惩罚设置为第二值,所述第二值大于所述第一值。
8.如权利要求1至7中任一项所述的系统,其中,所述第三度量计算器用于:
确定将所述第二电台序列转换为所述第一电台序列所需的操作的数量;以及
基于所述操作的数量确定所述电台路径度量。
9.如权利要求8所述的系统,其中,所述第三度量计算器用于计算Levenshtein距离以确定所述操作的数量。
10.如权利要求1至9中任一项所述的系统,其中,所述比较记分器用于:
计算所述电台持续时间度量的z分数;
计算所述时间匹配度量的z分数;
计算所述电台路径度量的z分数;以及
基于所述电台持续时间度量的z分数、所述时间匹配度量的z分数、以及所述电台路径度量的z分数的组合来确定所述联合分数。
11.如权利要求1至10中任一项所述的系统,其中,所述共同设备选择器用于在所述联合分数满足阈值时确定所述第一设备和所述第二设备是共同设备。
12.如权利要求11所述的系统,其中,当所述联合分数的标准偏差的四倍小于所述联合分数的平均值时,满足所述阈值。
13.如权利要求11所述的系统,
其中,所述第一电台持续时间数据、所述第二电台持续时间数据、所述第一时间数据、所述第二时间数据、所述第一电台序列和所述第二电台序列与第一时间间隔相关联,
其中,所述电台持续时间度量是第一电台持续时间度量,所述时间匹配度量是第一时间匹配度量,所述电台路径度量是第一电台路径度量,所述联合分数是第一联合分数,
所述第一度量计算器用于基于与第二时间间隔相关联的第三电台持续时间数据和第四电台持续时间数据来计算第二电台持续时间度量;
所述第二度量计算器用于基于与所述第二时间间隔相关联的第三时间数据和第四时间数据来计算第二时间匹配度量;
所述第三度量计算器用于基于所述第一设备调谐到的第三电台序列和所述第二设备调谐到的第四电台序列来计算第二电台路径度量,所述第三电台序列和所述第四电台序列与所述第二时间间隔相关联;
所述比较记分器用于基于所述第二电台持续时间度量、所述第二时间匹配度量和所述第二电台路径度量确定第二联合分数;以及
所述共同设备选择器用于基于满足所述阈值的所述第二联合分数确定所述第一设备和所述第二设备何时为共同设备。
14.如权利要求1至13中任一项所述的系统,还包括第四度量计算器,所述第四度量计算器用于基于所述第一设备的活动的第一组时间事件和所述第二设备的第二组时间事件计算时间距离度量,所述比较记分器用于基于所述时间距离度量确定所述联合分数。
15.一种跨多个数据源对共同设备进行重复数据删除的系统,所述系统包括:
用于将第一数据源中的第一设备和第二数据源中的第二设备识别为可能的共同设备的装置;
用于基于第一电台持续时间数据和第二电台持续时间数据计算电台持续时间度量的装置,所述第一电台持续时间数据与将所述第一设备调谐到第一组电台的第一组持续时间相关联,所述第二电台持续时间数据与将所述第二设备调谐到所述第一组电台的第二组持续时间相关联;
用于基于第一时间数据和第二时间数据计算时间匹配度量的装置,所述第一时间数据与一天中将所述第一设备调谐到第二组电台的第一组时间相关联,所述第二时间数据与一天中将所述第二设备调谐到所述第二组电台的第二组时间相关联,所述一天中的第一组时间与所述一天中的第二组时间重叠;
用于基于所述第一设备调谐到的第一电台序列和所述第二设备调谐到的第二电台序列计算电台路径度量的装置;
用于基于所述电台持续时间度量、所述时间匹配度量和所述电台路径度量确定联合分数的装置;以及
用于基于所述联合分数选择所述第一设备和所述第二设备何时为共同设备的装置。
16.如权利要求15所述的系统,其中,所述第一组电台和所述第二组电台至少部分重叠。
17.如权利要求15或16所述的系统,其中,用于识别的所述装置用于在将所述第一设备和所述第二设备识别为所述可能的共同设备之前,对来自所述第一数据源的第一数据和来自所述第二数据源的第二数据施加约束。
18.如权利要求17所述的系统,其中,所述约束是地理约束。
19.如权利要求15至18中任一项所述的系统,其中,用于计算所述电台持续时间度量的所述装置用于:
计算第一电台持续时间qi
qi=log10(设备1的第i频道持续时间)
计算第二电台持续时间pi
pi=log10(设备2的第i频道持续时间)
通过下式计算归一化距离分数:
Figure FDA0003467414890000051
Figure FDA0003467414890000061
其中N是电台的数量;以及
将所述归一化距离分数设置为所述电台持续时间度量。
20.如权利要求15至19中任一项所述的系统,其中,用于计算所述时间匹配度量的所述装置用于:
将所述一天中的第一组时间和所述一天中的第二组时间划分为多个时隙;
识别在所述时隙的第一时隙中所述第一设备调谐到的第一主电台;
识别在所述第一时隙中所述第二设备调谐到的第二主电台;
执行所述第一主电台和所述第二主电台的第一比较;
基于所述第一比较计算第一惩罚;
识别在所述时隙的第二时隙中所述第一设备调谐到的第三主电台;
识别在所述第二时隙中所述第二设备调谐到的第四主电台;
执行所述第三主电台和所述第四主电台的第二比较;
基于所述第二比较计算第二惩罚;
将所述第一惩罚和所述第二惩罚相加以计算差异分数;以及
将所述差异分数设置为所述时间匹配度量。
21.如权利要求20所述的系统,其中,用于计算所述时间匹配度量的所述装置用于:当发生(1)所述第一设备和所述第二设备中的至少一者缺少所述第一时隙的数据和/或(2)所述第一设备和所述第二设备中的至少一者在所述第一时隙断电时,将所述第一惩罚设置为第一值;以及
当所述第一设备和所述第二设备在所述第一时隙期间调谐到不同的电台时,将所述第一惩罚设置为第二值,所述第二值大于所述第一值。
22.如权利要求15至21中任一项所述的系统,其中,用于计算电台路径度量的所述装置用于:
确定将所述第二电台序列转换为所述第一电台序列所需的操作的数量;以及
基于所述操作的数量确定所述电台路径度量。
23.如权利要求22所述的系统,其中,用于计算电台路径度量的所述装置用于计算Levenshtein距离以确定所述操作的数量。
24.如权利要求15至23中任一项所述的系统,其中,用于确定联合分数的所述装置用于:
计算所述电台持续时间度量的z分数;
计算所述时间匹配度量的z分数;
计算所述电台路径度量的z分数;以及
基于所述电台持续时间度量的z分数、所述时间匹配度量的z分数、以及所述电台路径度量的z分数的组合来确定所述联合分数。
25.如权利要求15至24中任一项所述的系统,其中,用于选择的所述装置用于在所述联合分数满足阈值时确定所述第一设备和所述第二设备是共同设备。
26.如权利要求25所述的系统,其中,当所述联合分数的标准偏差的四倍小于所述联合分数的平均值时,满足所述阈值。
27.如权利要求25所述的系统,其中,所述第一电台持续时间数据、所述第二电台持续时间数据、所述第一时间数据、所述第二时间数据、所述第一电台序列和所述第二电台序列与第一时间间隔相关联,
其中,所述电台持续时间度量是第一电台持续时间度量,所述时间匹配度量是第一时间匹配度量,所述电台路径度量是第一电台路径度量,所述联合分数是第一联合分数,
用于计算电台持续时间度量的所述装置用于基于与第二时间间隔相关联的第三电台持续时间数据和第四电台持续时间数据来计算第二电台持续时间度量;
用于计算时间匹配度量的所述装置用于基于与所述第二时间间隔相关联的第三时间数据和第四时间数据来计算第二时间匹配度量;
用于计算电台路径度量的所述装置用于基于所述第一设备调谐到的第三电台序列和所述第二设备调谐到的第四电台序列来计算第二电台路径度量,所述第三电台序列和所述第四电台序列与所述第二时间间隔相关联;
用于确定联合分数的所述装置用于基于所述第二电台持续时间度量、所述第二时间匹配度量和所述第二电台路径度量确定第二联合分数;以及
用于选择的所述装置用于基于满足所述阈值的所述第二联合分数确定所述第一设备和所述第二设备何时为共同设备。
28.如权利要求15至27中任一项所述的系统,还包括用于基于所述第一设备的活动的第一组时间事件和所述第二设备的第二组时间事件计算时间距离度量的装置,用于确定联合分数的所述装置用于基于所述时间距离度量确定所述联合分数。
29.一种跨多个数据源对共同设备进行重复数据删除的装置,所述装置包括:处理器电路;以及
包括指令的存储器,所述指令在被执行时,使得所述处理器电路:
将第一数据源中的第一设备和第二数据源中的第二设备识别为可能的共同设备;
基于第一电台持续时间数据和第二电台持续时间数据计算电台持续时间度量,所述第一电台持续时间数据与将所述第一设备调谐到第一组电台的第一组持续时间相关联,所述第二电台持续时间数据与将所述第二设备调谐到所述第一组电台的第二组持续时间相关联;
基于第一时间数据和第二时间数据计算时间匹配度量,所述第一时间数据与一天中将所述第一设备调谐到第二组电台的第一组时间相关联,所述第二时间数据与一天中将所述第二设备调谐到所述第二组电台的第二组时间相关联,所述一天中的第一组时间与所述一天中的第二组时间重叠;
基于所述第一设备调谐到的第一电台序列和所述第二设备调谐到的第二电台序列来计算电台路径度量;
基于所述电台持续时间度量、所述时间匹配度量和所述电台路径度量确定联合分数;以及
基于所述联合分数确定所述第一设备和所述第二设备何时为共同设备。
30.如权利要求29所述的装置,其中,所述第一组电台和所述第二组电台至少部分重叠。
31.如权利要求29或30所述的装置,其中,所述指令使得所述处理器电路:在将所述第一设备和所述第二设备识别为所述可能的共同设备之前,对来自所述第一数据源的第一数据和来自所述第二数据源的第二数据施加约束。
32.如权利要求31所述的装置,其中,所述约束是地理约束。
33.如权利要求29至32中任一项所述的装置,其中,所述指令使得所述处理器电路:
计算第一电台持续时间qi
qi=log10(设备1的第i频道持续时间)
计算第二电台持续时间pi
pi=log10(设备2的第i频道持续时间)
通过下式计算归一化距离分数:
Figure FDA0003467414890000091
Figure FDA0003467414890000092
其中N是电台的数量;以及
将所述归一化距离分数设置为所述电台持续时间度量。
34.如权利要求29至33中任一项所述的装置,其中,所述指令使得所述处理器电路:
将所述一天中的第一组时间和所述一天中的第二组时间划分为多个时隙;
识别在所述时隙的第一时隙中所述第一设备调谐到的第一主电台;
识别在所述第一时隙中所述第二设备调谐到的第二主电台;
执行所述第一主电台和所述第二主电台的第一比较;
基于所述第一比较计算第一惩罚;
识别在所述时隙的第二时隙中所述第一设备调谐到的第三主电台;
识别在所述第二时隙中所述第二设备调谐到的第四主电台;
执行所述第三主电台和所述第四主电台的第二比较;
基于所述第二比较计算第二惩罚;
将所述第一惩罚和所述第二惩罚相加以计算差异分数;以及
将所述差异分数设置为所述时间匹配度量。
35.如权利要求34所述的装置,其中,所述指令使得所述处理器电路:
当发生(1)所述第一设备和所述第二设备中的至少一者缺少所述第一时隙的数据和/或(2)所述第一设备和所述第二设备中的至少一者在所述第一时隙断电时,将所述第一惩罚设置为第一值;以及
当所述第一设备和所述第二设备在所述第一时隙期间调谐到不同的电台时,将所述第一惩罚设置为第二值,所述第二值大于所述第一值。
36.如权利要求29至35中任一项所述的装置,其中,所述指令使得所述处理器电路:
确定将所述第二电台序列转换为所述第一电台序列所需的操作的数量;以及
基于所述操作的数量确定所述电台路径度量。
37.如权利要求36所述的装置,其中,所述指令使得所述处理器电路计算Levenshtein距离以确定所述操作的数量。
38.如权利要求29-37中任一项所述的装置,其中,所述指令使得所述处理器电路:
计算所述电台持续时间度量的z分数;
计算所述时间匹配度量的z分数;
计算所述电台路径度量的z分数;以及
基于所述电台持续时间度量的z分数、所述时间匹配度量的z分数、以及所述电台路径度量的z分数的组合来确定所述联合分数。
39.如权利要求29至38中任一项所述的装置,其中,所述指令使得所述处理器电路:在所述联合分数满足阈值时确定所述第一设备和所述第二设备是共同设备。
40.如权利要求39所述的装置,其中,当所述联合分数的标准偏差的四倍小于所述联合分数的平均值时,满足所述阈值。
41.如权利要求39所述的装置,
其中,所述第一电台持续时间数据、所述第二电台持续时间数据、所述第一时间数据、所述第二时间数据、所述第一电台序列和所述第二电台序列与第一时间间隔相关联,
其中,所述电台持续时间度量是第一电台持续时间度量,所述时间匹配度量是第一时间匹配度量,所述电台路径度量是第一电台路径度量,所述联合分数是第一联合分数,并且
所述指令使得所述处理器电路:
基于与第二时间间隔相关联的第三电台持续时间数据和第四电台持续时间数据来计算第二电台持续时间度量;
基于与所述第二时间间隔相关联的第三时间数据和第四时间数据来计算第二时间匹配度量;
基于所述第一设备调谐到的第三电台序列和所述第二设备调谐到的第四电台序列来计算第二电台路径度量,所述第三电台序列和所述第四电台序列与所述第二时间间隔相关联;
基于所述第二电台持续时间度量、所述第二时间匹配度量和所述第二电台路径度量确定第二联合分数;以及
基于满足所述阈值的所述第二联合分数确定所述第一设备和所述第二设备何时为共同设备。
42.如权利要求29至41中任一项所述的装置,其中,所述指令使得所述处理器电路:
基于所述第一设备的活动的第一组时间事件和所述第二设备的第二组时间事件计算时间距离度量;以及
基于所述时间距离度量确定所述联合分数。
43.一种非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质包括指令,所述指令当被执行时,使得一个或多个处理器至少用于:
将第一数据源中的第一设备和第二数据源中的第二设备识别为可能的共同设备;
基于第一电台持续时间数据和第二电台持续时间数据计算电台持续时间度量,所述第一电台持续时间数据与将所述第一设备调谐到第一组电台的第一组持续时间相关联,所述第二电台持续时间数据与将所述第二设备调谐到所述第一组电台的第二组持续时间相关联;
基于第一时间数据和第二时间数据计算时间匹配度量,所述第一时间数据与一天中将所述第一设备调谐到第二组电台的第一组时间相关联,所述第二时间数据与一天中将所述第二设备调谐到所述第二组电台的第二组时间相关联,所述一天中的第一组时间与所述一天中的第二组时间重叠;
基于所述第一设备调谐到的第一电台序列和所述第二设备调谐到的第二电台序列来计算电台路径度量;
基于所述电台持续时间度量、所述时间匹配度量和所述电台路径度量确定联合分数;以及
基于所述联合分数确定所述第一设备和所述第二设备何时为共同设备。
44.如权利要求43所述的存储介质,其中,所述第一组电台和所述第二组电台至少部分重叠。
45.如权利要求43或44所述的存储介质,其中,所述指令使得所述一个或多个处理器:在所述比较控制器将所述第一设备和所述第二设备识别为所述可能的共同设备之前,对来自所述第一数据源的第一数据和来自所述第二数据源的第二数据施加约束。
46.如权利要求45所述的存储介质,其中,所述约束是地理约束。
47.如权利要求43至46中任一项所述的存储介质,其中,所述指令使得所述一个或多个处理器:
计算第一电台持续时间qi
qi=log10(设备1的第i频道持续时间);
计算第二电台持续时间pi
pi=log10(设备2的第i频道持续时间)
通过下式计算归一化距离分数:
Figure FDA0003467414890000131
Figure FDA0003467414890000132
其中N是电台的数量;以及
将所述归一化距离分数设置为所述电台持续时间度量。
48.如权利要求43至47中任一项所述的存储介质,其中,所述指令使得所述一个或多个处理器:
将所述一天中的第一组时间和所述一天中的第二组时间划分为多个时隙;
识别在所述时隙的第一时隙中所述第一设备调谐到的第一主电台;
识别在所述第一时隙中所述第二设备调谐到的第二主电台;
执行所述第一主电台和所述第二主电台的第一比较;
基于所述第一比较计算第一惩罚;
识别在所述时隙的第二时隙中所述第一设备调谐到的第三主电台;
识别在所述第二时隙中所述第二设备调谐到的第四主电台;
执行所述第三主电台和所述第四主电台的第二比较;
基于所述第二比较计算第二惩罚;
将所述第一惩罚和所述第二惩罚相加以计算差异分数;以及
将所述差异分数设置为所述时间匹配度量。
49.如权利要求48所述的存储介质,其中,所述指令使得所述一个或多个处理器:
当发生(1)所述第一设备和所述第二设备中的至少一者缺少所述第一时隙的数据和/或(2)所述第一设备和所述第二设备中的至少一者在所述第一时隙断电时,将所述第一惩罚设置为第一值;以及
当所述第一设备和所述第二设备在所述第一时隙期间调谐到不同的电台时,将所述第一惩罚设置为第二值,所述第二值大于所述第一值。
50.如权利要求43至49中任一项所述的存储介质,其中,所述指令使得所述一个或多个处理器:
确定将所述第二电台序列转换为所述第一电台序列所需的操作的数量;以及
基于所述操作的数量确定所述电台路径度量。
51.如权利要求50所述的存储介质,其中,所述指令使得所述一个或多个处理器计算Levenshtein距离以确定所述操作的数量。
52.如权利要求43至51中任一项所述的存储介质,其中,所述指令使得所述一个或多个处理器:
计算所述电台持续时间度量的z分数;
计算所述时间匹配度量的z分数;
计算所述电台路径度量的z分数;以及
基于所述电台持续时间度量的z分数、所述时间匹配度量的z分数、以及所述电台路径度量的z分数的组合来确定所述联合分数。
53.如权利要求43至52中任一项所述的存储介质,其中,所述指令使得所述一个或多个处理器:在所述联合分数满足阈值时确定所述第一设备和所述第二设备是共同设备。
54.如权利要求53所述的存储介质,其中,当所述联合分数的标准偏差的四倍小于所述联合分数的平均值时,满足所述阈值。
55.如权利要求53所述的存储介质,
其中,所述第一电台持续时间数据、所述第二电台持续时间数据、所述第一时间数据、所述第二时间数据、所述第一电台序列和所述第二电台序列与第一时间间隔相关联,
其中,所述电台持续时间度量是第一电台持续时间度量,所述时间匹配度量是第一时间匹配度量,所述电台路径度量是第一电台路径度量,所述联合分数是第一联合分数,以及
所述指令使得所述一个或多个处理器:
基于与第二时间间隔相关联的第三电台持续时间数据和第四电台持续时间数据来计算第二电台持续时间度量;
基于与所述第二时间间隔相关联的第三时间数据和第四时间数据来计算第二时间匹配度量;
基于所述第一设备调谐到的第三电台序列和所述第二设备调谐到的第四电台序列来计算第二电台路径度量,所述第三电台序列和所述第四电台序列与所述第二时间间隔相关联;
基于所述第二电台持续时间度量、所述第二时间匹配度量和所述第二电台路径度量确定第二联合分数;以及
基于满足所述阈值的所述第二联合分数确定所述第一设备和所述第二设备何时为共同设备。
56.如权利要求43至55中任一项所述的存储介质,其中,所述指令使得所述一个或多个处理器:
基于所述第一设备的活动的第一组时间事件和所述第二设备的第二组时间事件计算时间距离度量;以及
基于所述时间距离度量确定所述联合分数。
57.一种跨多个数据源对共同设备进行重复数据删除的方法,所述方法包括:
通过使用处理器执行指令,将第一数据源中的第一设备和第二数据源中的第二设备识别为可能的共同设备;
通过使用所述处理器执行指令,基于第一电台持续时间数据和第二电台持续时间数据计算电台持续时间度量,所述第一电台持续时间数据与将所述第一设备调谐到第一组电台的第一组持续时间相关联,所述第二电台持续时间数据与将所述第二设备调谐到所述第一组电台的第二组持续时间相关联;
通过使用所述处理器执行指令,基于第一时间数据和第二时间数据计算时间匹配度量,所述第一时间数据与一天中将所述第一设备调谐到第二组电台的第一组时间相关联,所述第二时间数据与一天中将所述第二设备调谐到所述第二组电台的第二组时间相关联,所述一天中的第一组时间与所述一天中的第二组时间重叠;
通过使用所述处理器执行指令,基于所述第一设备调谐到的第一电台序列和所述第二设备调谐到的第二电台序列来计算电台路径度量;
通过使用所述处理器执行指令,基于所述电台持续时间度量、所述时间匹配度量和所述电台路径度量确定联合分数;以及
通过使用所述处理器执行指令,基于所述联合分数确定所述第一设备和所述第二设备何时为共同设备。
58.如权利要求57所述的方法,其中,所述第一组电台和所述第二组电台至少部分重叠。
59.如权利要求57或58所述的方法,还包括:通过使用所述处理器执行指令,在所述比较控制器将所述第一设备和所述第二设备识别为所述可能的共同设备之前,对来自所述第一数据源的第一数据和来自所述第二数据源的第二数据施加约束。
60.如权利要求59所述的方法,其中,所述约束是地理约束。
61.如权利要求57至60中任一项所述的方法,还包括:
通过使用所述处理器执行指令,计算第一电台持续时间qi
qi=log10(设备1的第i频道持续时间);
通过使用所述处理器执行指令,计算第二电台持续时间pi
pi=log10(设备2的第i频道持续时间)
通过使用所述处理器执行指令,通过下式计算归一化距离分数:
Figure FDA0003467414890000171
Figure FDA0003467414890000172
其中N是电台的数量;以及
通过使用所述处理器执行指令,将所述归一化距离分数设置为所述电台持续时间度量。
62.如权利要求57至61中任一项所述的方法,还包括:
通过使用所述处理器执行指令,将所述一天中的第一组时间和所述一天中的第二组时间划分为多个时隙;
通过使用所述处理器执行指令,识别在所述时隙的第一时隙中所述第一设备调谐到的第一主电台;
通过使用所述处理器执行指令,识别在所述第一时隙中所述第二设备调谐到的第二主电台;
通过使用所述处理器执行指令,执行所述第一主电台和所述第二主电台的第一比较;
通过使用所述处理器执行指令,基于所述第一比较计算第一惩罚;
通过使用所述处理器执行指令,识别在所述时隙的第二时隙中所述第一设备调谐到的第三主电台;
通过使用所述处理器执行指令,识别在所述第二时隙中所述第二设备调谐到的第四主电台;
通过使用所述处理器执行指令,执行所述第三主电台和所述第四主电台的第二比较;
通过使用所述处理器执行指令,基于所述第二比较计算第二惩罚;
通过使用所述处理器执行指令,将所述第一惩罚和所述第二惩罚相加以计算差异分数;以及
通过使用所述处理器执行指令,将所述差异分数设置为所述时间匹配度量。
63.如权利要求62所述的方法,还包括:
通过使用所述处理器执行指令,当发生(1)所述第一设备和所述第二设备中的至少一者缺少所述第一时隙的数据和/或(2)所述第一设备和所述第二设备中的至少一者在所述第一时隙断电时,将所述第一惩罚设置为第一值;以及
通过使用所述处理器执行指令,当所述第一设备和所述第二设备在所述第一时隙期间调谐到不同的电台时,将所述第一惩罚设置为第二值,所述第二值大于所述第一值。
64.如权利要求57至63中任一项所述的方法,还包括:
通过使用所述处理器执行指令,确定将所述第二电台序列转换为所述第一电台序列所需的操作的数量;以及
通过使用所述处理器执行指令,基于所述操作的数量确定所述电台路径度量。
65.如权利要求64所述的方法,还包括:通过使用所述处理器执行指令,计算Levenshtein距离以确定所述操作的数量。
66.如权利要求57至65中任一项所述的方法,还包括:
通过使用所述处理器执行指令,计算所述电台持续时间度量的z分数;
通过使用所述处理器执行指令,计算所述时间匹配度量的z分数;
通过使用所述处理器执行指令,计算所述电台路径度量的z分数;以及
通过使用所述处理器执行指令,基于所述电台持续时间度量的z分数、所述时间匹配度量的z分数、以及所述电台路径度量的z分数的组合来确定所述联合分数。
67.如权利要求57至66中任一项所述的方法,还包括:通过使用所述处理器执行指令,在所述联合分数满足阈值时确定所述第一设备和所述第二设备是共同设备。
68.如权利要求67所述的方法,其中,当所述联合分数的标准偏差的四倍小于所述联合分数的平均值时,满足所述阈值。
69.如权利要求67所述的方法,
其中,所述第一电台持续时间数据、所述第二电台持续时间数据、所述第一时间数据、所述第二时间数据、所述第一电台序列和所述第二电台序列与第一时间间隔相关联,
其中,所述电台持续时间度量是第一电台持续时间度量,所述时间匹配度量是第一时间匹配度量,所述电台路径度量是第一电台路径度量,所述联合分数是第一联合分数,以及
所述方法还包括:
通过使用所述处理器执行指令,基于与第二时间间隔相关联的第三电台持续时间数据和第四电台持续时间数据来计算第二电台持续时间度量;
通过使用所述处理器执行指令,基于与所述第二时间间隔相关联的第三时间数据和第四时间数据来计算第二时间匹配度量;
通过使用所述处理器执行指令,基于所述第一设备调谐到的第三电台序列和所述第二设备调谐到的第四电台序列来计算第二电台路径度量,所述第三电台序列和所述第四电台序列与所述第二时间间隔相关联;
通过使用所述处理器执行指令,基于所述第二电台持续时间度量、所述第二时间匹配度量和所述第二电台路径度量确定第二联合分数;以及
通过使用所述处理器执行指令,基于满足所述阈值的所述第二联合分数确定所述第一设备和所述第二设备何时为共同设备。
70.如权利要求57至69中任一项所述的方法,还包括:通过使用所述处理器执行指令,基于所述第一设备的活动的第一组时间事件和所述第二设备的第二组时间事件计算时间距离度量,所述联合分数基于所述时间距离度量。
CN202080050884.5A 2019-07-12 2020-07-10 跨多个不同数据源进行重复数据删除以识别共同设备 Pending CN114127679A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962873699P 2019-07-12 2019-07-12
US62/873,699 2019-07-12
PCT/US2020/041605 WO2021011378A1 (en) 2019-07-12 2020-07-10 Deduplication across multiple different data sources to identify common devices

Publications (1)

Publication Number Publication Date
CN114127679A true CN114127679A (zh) 2022-03-01

Family

ID=74103164

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080050884.5A Pending CN114127679A (zh) 2019-07-12 2020-07-10 跨多个不同数据源进行重复数据删除以识别共同设备

Country Status (4)

Country Link
US (2) US11429575B2 (zh)
EP (1) EP3997658A4 (zh)
CN (1) CN114127679A (zh)
WO (1) WO2021011378A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4094447A4 (en) 2020-01-22 2023-12-27 The Nielsen Company (US), LLC. ADDRESSABLE MEASUREMENT FRAMEWORK
US20230232073A1 (en) * 2022-01-18 2023-07-20 The Nielsen Company (Us), Llc Media device householding and deduplication
US12061581B2 (en) * 2022-07-26 2024-08-13 Hewlett Packard Enterprise Development Lp Matching operation for a deduplication storage system

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281516A (zh) * 2013-07-09 2015-01-14 尼尔森(美国)有限公司 用媒体测量仪数据表征家庭的方法和设备
US20150341453A1 (en) * 2014-05-21 2015-11-26 Aol Advertising Inc. Systems and methods for matching online users across devices
US20170126834A1 (en) * 2015-10-28 2017-05-04 Adobe Systems Incorporated Environmental detection of internet of things devices

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160134934A1 (en) * 2014-11-06 2016-05-12 Adobe Systems Incorporated Estimating audience segment size changes over time
KR101560259B1 (ko) 2015-02-27 2015-10-15 주식회사 씨에이에스 정보보호 관리체계의 범용 법규/규칙 수용이 가능한 통제항목 및 준수 관리시스템
US10380633B2 (en) * 2015-07-02 2019-08-13 The Nielsen Company (Us), Llc Methods and apparatus to generate corrected online audience measurement data
WO2017019646A1 (en) 2015-07-24 2017-02-02 Videoamp, Inc. Sequential delivery of advertising content across media devices
US10313752B2 (en) * 2015-11-30 2019-06-04 The Nielsen Company (Us), Llc Methods and apparatus to estimate deduplicated total audiences in cross-platform media campaigns
CN112435215B (zh) 2017-04-11 2024-02-13 创新先进技术有限公司 一种基于图像的车辆定损方法、移动终端、服务器
CN107358596B (zh) 2017-04-11 2020-09-18 阿里巴巴集团控股有限公司 一种基于图像的车辆定损方法、装置、电子设备及系统
US20190108554A1 (en) * 2017-10-06 2019-04-11 Comscore, Inc. Systems and methods for generating and transmitting content based on association of a common device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281516A (zh) * 2013-07-09 2015-01-14 尼尔森(美国)有限公司 用媒体测量仪数据表征家庭的方法和设备
US20150341453A1 (en) * 2014-05-21 2015-11-26 Aol Advertising Inc. Systems and methods for matching online users across devices
US20170126834A1 (en) * 2015-10-28 2017-05-04 Adobe Systems Incorporated Environmental detection of internet of things devices

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KUN MA 等: "Large-Scale Schema-Free Data Deduplication Approach with Adaptive Sliding Window Using MapReduce", THE COMPUTER JOURNAL, vol. 58, no. 11, 30 November 2015 (2015-11-30), pages 3187, XP093018042, DOI: 10.1093/comjnl/bxv052 *

Also Published As

Publication number Publication date
US11429575B2 (en) 2022-08-30
WO2021011378A1 (en) 2021-01-21
US20230004540A1 (en) 2023-01-05
EP3997658A4 (en) 2023-06-21
US20210011893A1 (en) 2021-01-14
EP3997658A1 (en) 2022-05-18

Similar Documents

Publication Publication Date Title
US11687958B2 (en) Methods and apparatus to monitor media presentations
JP7294760B2 (ja) メディアデバイスアセット認定を実行するための方法及び装置
AU2014383048B2 (en) Systems and methods for enhancing audience measurement data
US20220292528A1 (en) Methods and apparatus for campaign mapping for total audience measurement
US20230004540A1 (en) Deduplication across multiple different data sources to identify common devices
US20130345840A1 (en) Method and system for detecting users' emotions when experiencing a media program
KR20200143746A (ko) 데이터베이스 사업자에 의한 기인오류 및/또는 논-커버리지에 대해 노출 데이터를 보상하기 위한 방법 및 장치
CN114747227A (zh) 跨人口统计群体估计普查级受众规模和总印象持续时间的方法、系统和装置
US20190050317A1 (en) Systems and methods for determining event processing delays
US20240244292A1 (en) Methods and apparatus to validate reference media assets in media identification system
US11758208B2 (en) Methods and apparatus to determine media exposure of a panelist
US20240163344A1 (en) Methods and apparatus to perform computer-based community detection in a network
KR102700408B1 (ko) 인구 통계들에 걸친 인구 조사 수준의 시청자, 노출들 및 기간들을 추정하는 방법, 시스템 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40070063

Country of ref document: HK