CN104040531A - 用来标识多个版权侵权的系统 - Google Patents
用来标识多个版权侵权的系统 Download PDFInfo
- Publication number
- CN104040531A CN104040531A CN201280052042.9A CN201280052042A CN104040531A CN 104040531 A CN104040531 A CN 104040531A CN 201280052042 A CN201280052042 A CN 201280052042A CN 104040531 A CN104040531 A CN 104040531A
- Authority
- CN
- China
- Prior art keywords
- infringer
- report
- data set
- repeat
- infringement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services; Handling legal documents
- G06Q50/184—Intellectual property management
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L2463/00—Additional details relating to network architectures or network communication protocols for network security covered by H04L63/00
- H04L2463/103—Additional details relating to network architectures or network communication protocols for network security covered by H04L63/00 applying security measure for protecting copy right
Abstract
一种系统,一种方法以及一种计算机程序,其用于:确定多个版权侵权事件;标识停止报告重复侵权人;标识开始报告重复侵权人;以及确定所述停止报告重复侵权人和所述开始报告重复侵权人是否正在使用相同的计算机。
Description
现有申请的交叉引用
本申请要求于2011年8月24日提交、标题为“System to Identify Multiple Copyright Infringements”的美国临时专利申请号61/526,946的优先权及其权益,其全体通过引用结合在本文中。
版权声明
本申请包括受版权保护的材料。版权所有者不反对任何人对本申请的影印复制,因为本申请出现在美国专利商标局的记录中,但以其他方式保留版权的所有权利。
技术领域
本公开涉及用于标识版权侵权的行为的系统、方法以及计算机程序。具体地,本公开针对提供新颖方法来在法庭上标识重复侵权人的系统、方法以及计算机程序。
背景技术
版权材料的数字盗版对音乐行业来说是基本的全球性问题。例如,根据2011年国际唱片业联盟(IFPI)数字音乐报告,数字盗版已基本上导致音乐行业收入的侵蚀。IFPI报告了全球录制音乐收入由于这样的盗版而从2004-2010下降了31%。IFPI已经发现,虽然诸如Limewire之类的一些对等共享网络在下降,但是诸如BitTorrent之类的其他对等共享网络的使用在增加。类似地,尼尔森公司报告了欧洲几乎四分之一的活跃互联网用户访问没有执照的内容站点每月一次。尽管版权侵权似乎是普遍的,但是版权侵权的大多数行为由少数个体来执行。为了和这个问题斗争,来自世界各地的政府正开始将责任中的一些转移到互联网服务提供商(在下文中“ISP”)来解决在他们的网络上发生的盗版的行为。
于1997年建立,还被称为“禁止电子盗窃”法案的数字千年版权法案(DMCA)加高了对互联网上的版本侵权的惩罚,并且为由他们的用户所执行的版权侵权的行为确立了在线服务的提供商的法律责任。该法案将用来非法拷贝软件的代码破解设备的制造、销售或分发定为非法。该法案陈述了服务提供商可以不允许版权材料借助于他们的系统的合法下载。
在设法和对等版权侵权斗争时,音乐行业例如已花费数百万美国搜索用来保护有版权的作品的技术突破。这些技术常常包括数字版权管理(DRM)。DRM技术试图防止数字音乐播放机技术允许版权作品的复制。然而,DRM技术一般地遭受如下问题:如果相当有才能的技术人员能够侦听音乐文件,则该人员很可能能够找到做出不具有DRM技术的拷贝的方式。类似地,当前可用的多媒体内容拷贝防止方法同样存在问题。
本公开提供用来促进由版权侵权产生的损失收入的取回的新颖方法、系统以及计算机程序。特别地,所述新颖系统、方法以及计算机程序促进版权侵权的行为的标识、围绕版权侵权的行为的细节的文献编制、将版权侵权的通知提供给ISP以及提出用来解决和解析作为标识的版权侵权行为结果而招致的承付款项的新颖方法。
发明内容
因此,本公开提供了可以挖掘侵权数据在一时间段期间的数据流、处理已挖掘数据来发现数据的相关性并且标识与版权侵权的行为相关联的特定IP地址和端口集的系统、方法以及计算机程序。所述系统、方法以及计算机程序可以被进一步配置成提供可以被接受来解析由于版权侵权的标识行为而招致的承付款项的解决提议。
本公开的另一方面提供了用于在法庭上标识重复侵权人的方法,所述方法包括:用第一数据集的至少一部分来教导机器学习算法,其中第一数据集与停止记录重复侵权人相关联;给机器学习算法馈送第二数据集,其中第二数据集与开始报告重复侵权人相关联;以及,确定停止报告重复侵权人和开始报告重复侵权人是否正在使用相同的计算机。
第一数据集可以包括与停止报告重复侵权人相关联的文件列表。
第一数据集可以包括与停止报告重复侵权人相关联的所有文件列表的子集。
第二数据集可以包括与开始报告重复侵权人相关联的文件列表。
文件列表可以包括与开始报告重复侵权人相关联的最近的文件列表。
机器学习算法可以包括贝叶斯(Bayesian)网络分类。
所述方法还可以包括计算第一数据集和第二数据集是基本上等效的概率;以及,将该概率存储在数据结构中。
所述方法还可以包括用分屏格式显示第一数据集和第二数据集。
本公开的另一方面提供了用于在法庭上标识重复侵权人的系统,包括:第一数据采集模块,其被配置成获得与停止报告重复侵权人相关联的第一文件列表;第二数据采集模块,其被配置成获得与开始报告重复侵权人相关联的第二文件列表;以及比较模块,其被配置成将第一文件列表与第二文件列表进行比较;并且确定停止报告重复侵权人和开始报告重复侵权人是否正在使用相同的计算机。
停止报告重复侵权人和开始报告重复侵权人可以具有不同的IP地址-端口号组合。
所述系统还可以包括被配置成计算第一文件列表和第二文件列表是基本上等效的概率的计算模块。
所述系统还可以包括被配置成用分屏格式显示第一列表和第二列表的显示模块。
本公开的另一方面提供了包括指令的计算机可读介质,所述指令当被计算机执行时,使计算机执行用于在法庭上标识重复侵权人的方法,所述指令包括:命令计算机用第一数据集的至少一部分来教导机器学习算法的指令,其中第一数据集与停止记录重复侵权人相关联;命令计算机给机器学习算法馈送第二数据集的指令,其中第二数据集与开始报告重复侵权人相关联;以及,命令计算机确定停止报告重复侵权人和开始报告重复侵权人是否正在使用相同的计算机的指令。
第一数据集可以包括与停止报告重复侵权人相关联的文件列表。
第一数据集可以包括与停止报告重复侵权人相关联的所有文件列表的子集。
第二数据集可以包括与开始报告重复侵权人相关联的文件列表。
所述文件列表可以包括与开始报告重复侵权人相关联的最近的文件列表。
机器学习算法可以包括贝叶斯网络分类。
计算机可读介质还可以包括命令计算机计算第一数据集和第二数据集是基本上等效的概率的指令,以及命令计算机将概率存储在数据结构中的指令。
计算机可读介质还可以包括命令计算机用分屏格式显示第一数据集和第二数据集的指令。
本公开的附加的特征、优点以及实施例可以被阐述或者从对具体实施方式、图以及附件的考虑是显而易见的。此外,应当理解的是,本公开的前述发明内容以及以下具体实施方式、图以及附件是示例性的并且旨在提供进一步解释,而不限制如所要求保护的本公开的范围。
附图说明
被包括以提供对本公开的进一步理解的附图被并入和构成本说明书一部分,举例说明本公开的实施例,并且连同具体实施方式一起用来解释本公开的原理。不试图比对于本公开的基本理解和可以以其实践本公开的各种方式可能必要的更详细地示出本公开的结构细节。在图中:
图1示出了用于标识多个版权侵权的系统的示例。
图2示出了用于检测版本侵权的行为并且标识重复侵权人的过程的示例。
图3A示出了根据本公开的原理的侵权通知过程的示例。
图3B示出了根据本公开的原理的侵权人通知过程的示例。
图3C示出了根据本公开的原理的另外的侵权人通知过程的示例。
图4示出了根据本公开的原理的重定向网页的示例。
图5示出了用于确定标识的重复侵权人是否已停止报告侵权的行为的过程的示例。
图6示出了用于确定新的或先前未标识的重复侵权人是否已开始报告侵权的行为的过程的示例。
图7示出了用于操纵通过重复侵权人的列表并且使文件列表与每个重复侵权人相关联的过程的示例。
图8示出了用于确定两个不同的IP地址-端口号组合是否与相同的重复侵权人相关联的过程的示例。
图9示出了用于教导机器学习算法的过程的示例。
图10示出了用于对输入数据集应用机器学习算法的过程的示例。
图11示出了用于对机器学习算法的输出进行排序和解释的过程的示例。
本公开在以下的具体实施方式中被进一步描述。
具体实施方式
参考在附图中被描述和/或图示并且在以下描述中详述的非限制性实施例和示例来更全面地解释本公开及其各种特征和有利的细节。应该注意的是,图中所图示的特征未必按比例绘制,并且即使未在本文中显式地陈述,像技术人员将认识到那样一个实施例的特征也可以被与其他实施例一起采用。可以省略众所周知的部件和处理技术的描述以便不非必要地使本公开的实施例混淆。本文中所使用的示例仅仅旨在促进对可以以其实践本公开的方式的理解,并且旨在进一步使得本领域的技术人员能够实践本公开的实施例。因此,本文中的示例和实施例不应该被解释为限制本公开的范围。此外,注意的是,同样的附图标记遍及图的若干视图表示类似的部分。
如本公开中所用的“计算机”意指任何机器、设备、电路、部件或模块,或能够根据一个或多个指令来操纵数据的机器、设备、电路、部件、模块等等的任何系统,诸如例如但不限于处理器、微处理器、中央处理单元、通用计算机、超级计算机、个人计算机、膝上型计算机、掌上计算机、笔记本计算机、台式计算机、工作站计算机、服务器等等,或处理器、微处理器、中央处理单元、通用计算机、超级计算机、个人计算机、膝上型计算机、掌上计算机、笔记本计算机、台式计算机、工作站计算机、服务器等等的阵列。
如本公开中所用的“服务器”意指软件和/或硬件的任何组合,包括用来为作为客户端-服务器架构的一部分的连接客户端执行服务的至少一个应用和/或至少一个计算机。至少一个服务器应用可以包括但不限于例如能够通过将响应发送回到客户端接受从客户端对服务请求的连接的应用程序。服务器可以被配置成以最小人类指导(human direction)在延长的时间段内常常在重工作负荷下无人值守地运行至少一个应用。服务器可以包括配置有取决于工作负荷而被划分在计算机之中的至少一个应用的多个计算机。例如,在轻载下,至少一个应用能够在单个计算机上运行。然而,在重载下,可能要求多个计算机运行至少一个应用。服务器或其计算机中的任一个还可以被用作工作站。
如本公开中所用的“数据库”意指软件和/或硬件的任何组合,包括至少一个应用和/或至少一个计算机。数据库可以包括根据数据库模型组织的记录或数据的结构化收集,所述数据库模块诸如例如但不限于关系模型、层次模块、网络模型等等中的至少一个。数据库可以包括如本领域中已知的数据库管理系统应用(DBMS)。至少一个应用可以包括但不限于例如能够通过将响应发送回到客户端接受从客户端对服务请求的连接的应用程序。数据库可以被配置成以最小人类指导在延长的时间段内常常在重工作负荷下无人值守地运行至少一个应用。
如本公开中所用的“通信链路”意指在至少两个点之间输送数据或信息的有线和/或无线介质。有线或无线介质可以包括例如金属导体链路、射频(RF)通信链路、红外线(IR)通信链路、光学通信链路等等,而没有限制。RF通信链路可以包括例如WiFi、WiMAX、IEEE 802.11、DECT、0G、1G、2G、3G或4G蜂窝标准、蓝牙等等。
如本公开中所用的“网络”意指但不限于例如局域网(LAN)、广域网(WAN)、城域网(MAN)、个人区域网(PAN)、校园区域网、公司区域网、全球区域网(GAN)、宽带区域网(BAN)、蜂窝网络、互联网等等中的至少一个,或上述的任何组合,其中的任何一个都可以被配置成经由无线和/或有线通信介质来传送数据。这些网络可以运行不限于TCP/IP、IRC或HTTP的各种协议。
除非以其他方式明确地规定,否则如本公开中所用的术语“包括”、“含有”及其变化意指“包括但不限于”。
除非以其他方式明确地规定,否则如本公开中所用的术语“一”、“一个”以及“该”意指“一个或多个”。
除非以其他方式明确地规定,否则与彼此通信的设备不需要与彼此连续地通信。此外,与彼此通信的设备可以直接地或者间接地通过一个或多个媒介物进行通信。
尽管可以以顺序次序来描述过程步骤、方法步骤、算法等等,但是这样的过程、方法以及算法可以被配置成以交替次序工作。换句话说,可以被描述的步骤的任何顺序或次序未必指示步骤被以该次序执行的要求。实际上可以以任何次序来执行本文中所描述的过程、方法或算法的步骤。进一步地,可以同时地执行一些步骤。
当在本文中对单个设备或物品进行描述时,将容易地显而易见的是,可以使用一个以上的设备或物品代替单个设备或物品。类似地,在本文中对一个以上的设备或物品进行描述的情况下,将容易地显而易见的是,可以使用单个设备或物品代替一个以上的设备或物品。设备的功能性或特征可以由未被显式地描述为具有这样的功能性或特征的一个或多个其他设备可替换地具体化。
如本公开中所用的“计算机可读介质”意指参与提供可以被计算机读取的数据(例如,指令)的任何介质。这样的介质可以采取任何形式,包括非易失性介质、易失性介质以及传输介质。非易失性介质可以包括例如光盘或磁盘和其他持久性存储器。易失性介质可以包括动态随机存取存储器(DRAM)。传输介质可以包括同轴电缆、铜电线以及光纤,包括含耦合到处理器的系统总线的电线。传输介质可以包括或者输送声波、光波以及电磁发射,诸如在射频(RF)和红外线(IR)数据通信期间所生成的那些。计算机可读介质的常见形式例如包括软盘、柔性盘、硬盘、磁带或任何其他磁介质、CD-ROM、DVD、任何其他光学介质、穿孔卡片、纸带、具有孔的图案的任何其他物理介质、RAM、PROM、EPROM、FLASH-EPROM、任何其他存储器芯片或盒式磁盘、如在下文中所描述的载波,或计算机能够从其读取的任何其他介质。计算机可读介质可以包括“云”,其包括文件跨越在多个(例如,数千个)计算机上的多个(例如,数千个)存储器高速缓存的分布。
可以在将指令的序列承载到计算机时牵涉各种形式的计算机可读介质。例如,指令的序列(i)可以被从RAM递送到处理器,(ii)可以通过无线传输介质来承载,和/或(iii)可以根据许多格式、标准或协议而被格式化,所述许多格式、标准或协议包括例如WiFi、WiMAX、IEEE 802.11、DECT、0G、1G、2G、3G或4G蜂窝标准、蓝牙等等。
图1示出了用于标识多个版权侵权的系统100的示例。系统100包括多个对等(P2P)计算机110(1)至110(n) (其中n是正的非零整数)、网络130、服务器(或计算机)140、一个或多个数据库150(1)至150(m) (其中m是正的非零整数)、一个或多个ISP 160以及一个或多个客户170。服务器140和(一个或多个)数据库150可以经由一个或多个通信链路120被连接到彼此和/或网络130。P2P计算机110、ISP 160以及客户170可以经由通信链路120被耦合到网络130。客户170可以包括例如但不限于个体、私有实体、公司、政府机构(例如,司法部)等等。ISP 160可以每个都提供有唯一的登录标识和密码以访问分配给特定ISP 160的虚拟空间,其可以包括数据库150的一部分或整个数据库150。类似地,客户170可以每个都提供有唯一的登录标识和密码以访问分配给特定客户170的虚拟空间,其可以包括数据库150的一部分或整个数据库150。
图2示出了用于检测版本侵权的行为并且标识重复侵权人的过程200的示例。过程200可以例如由服务器140来执行。
图2的过程在步骤205处通过检索所有已知节点以便生成节点的库而开始。节点可以包括例如作为跨越网络的数据传输或接收的端点的任何设备。节点可以是例如与侵权的行为相关联的计算机(即,侵权计算机)。节点可以与例如IP地址和/或端口相关联。可以从例如本地储存器或远程储存器中检索已知节点的库。可以例如从BitTorrent网络中检索已知节点的库。然后,在步骤210处,信号可以被发送到在节点的库中的节点中的每一个(或少于节点中的全部)企图发现附加的节点。这个信号可以包括例如对附加的节点的查询。
响应于查询,可以从节点中的每一个接收包括例如查询的结果的响应信号。在步骤215中,过程对响应信号进行解释并且确定响应信号是否包括一个或多个附加的节点的标识。如果一个或多个附加的节点被标识了,则一个或多个附加的节点在步骤220中可以被添加到已知节点的库并且存储在例如本地储存器中,从而提供更新已知节点的库的能力。
在更新节点的库之后,步骤225提供了在节点的已更新列表中的节点中的每一个都可以被查询以确定节点是否包括一个或多个预定文件。这样的查询可以包括例如用来接收预定文件的拷贝的请求。出于本公开的目的,设想了预定文件可以包括有版权的材料,包括例如文本文件、音频文件、视频文件、多媒体文件等等。步骤225的查询可以包括关键字、数字、字母数字字符等等。
在步骤230中,可以从所查询的节点接收一个或多个查询命中。查询命中可以包括例如指示节点将提供有版权的材料的拷贝的对查询的响应。这样的响应从而可以构成版权侵权的行为。可替换地,或此外,每个查询命中可以包括例如侵权数据。侵权数据可以包括例如IP地址、端口号、文件名、时间戳、用来下载(或者上传)有版权的材料的对等软件的软件版本、ISP标识符等等。然后,在步骤235处可以用与所接收到的包括例如侵权数据的查询命中相关联的数据来填充数据库150。
在数据库已被用侵权数据填充之后,可以在步骤240中挖掘数据库。特别地,数据库中的记录中的每一个都可以被检索和分析或者查询可以被提交给数据库以返回包含侵权数据的特定记录。在步骤245处,可以使记录中的全部(或所有记录的一部分)相关以便聚类或分组在一起,所有记录都具有预定关系。预定关系可以是例如相同的或基本上相同的IP地址和端口号组合(还在本文中被称为IP地址-端口号组合)。作为相关过程的结果,在步骤250中可以容易地标识具有相同的或基本上相同的预定关系的所有记录(或所有记录的一部分)。
为了促进已聚类记录的高效组织和维护,在步骤255处可以生成并且用具有相同的或基本上相同的IP地址和端口号组合的已标识记录填充一个或多个数据结构。数据结构可以是例如表、阵列、列表、链接列表、树结构等等。如果对应的数据结构已经存在,则可以用任何新近标识的记录或信息来更新该数据结构。
在步骤260处,ISP可以被通知版权侵权的一个或多个行为何时已被检测到。这样的ISP可以被通知例如版权侵权的单个行为何时已被检测到。可替换地,能够以集中于仅通知ISP重复侵权人何时已被检测到的方式来实现该方法。
重复侵权人可以通过监控与填充每个生成的数据结构的条目的数目相关联的预定阈值来检测。例如,该方法可以假设一旦具有基本上相同的IP地址和基本上相同的端口号的预定数目(诸如,例如5、10、20或大于1的任何正数)的数据结构条目被标识,就可以通知与该IP地址相关联的ISP 160。
通知可以具有通信的形式,诸如例如电子邮件、文本消息、数据传输、语音消息、寄出的信等等,并且可以包括IP地址、端口号以及时间戳中的一个或多个。可替换地,或此外,通知可以包括例如用包括IP地址、端口号、文件名以及时间戳中的一个或多个的侵权数据的至少一部分来更新文件、数据结构、记录、元数据等等,所述侵权数据的至少一部分可以被ISP访问。
此外,或可替换地,ISP可以提供有例如被用ISP侵权数据填充的仪表板。ISP侵权数据可以包括例如侵权事件(或行为)在给定时间段(例如,一秒钟、一分钟、一个小时、一天、一星期、一个月、一年、一个时间范围、一个日期范围等等)内的总数、唯一IP地址-端口号组合在该时间段期间的总数、与每个唯一IP地址-端口号组合相关联的侵权事件的数目、每个侵权事件的侵权数据等等。
ISP侵权数据可以进一步包括对账数据。对账数据可以包括有关针对特定侵权事件可能已被接收到的任何支付、该支付是否被转发给版权所有者(或代理,或由版权所有者授权接收支付的某人等等)、版权所有者的身份等等的信息。
在ISP 160在步骤260中已被通知之后,在步骤265中可以用所关联的数据结构的条目来更新与特定ISP相关联的(一个或多个)记录(或简档)。如果对于特定ISP不存在记录,则可以创建记录。
包括客户数据的客户通知可以被传送到客户170。在步骤270中这样的客户数据可以被例如用来更新客户记录。客户通知可以具有电子通信的形式,诸如例如电子邮件、文本消息、数据传输、语音消息、寄出的信等等,并且可以包括客户数据。客户数据可以包括针对每个ISP的侵权数据和/或唯一IP地址和端口号组合,包括例如:ISP的标识、唯一IP地址和端口号组合的数目、与每个唯一IP地址和端口号组合相关联的侵权事件的数目、由每个唯一IP地址和端口号组合所下载或者上传的文件名、与每个IP地址和端口号组合相关联的侵权事件中的每一个的日期和时间等等。客户通知数据可以进一步包括针对每个ISP、针对每个唯一IP地址和端口号组合、针对每个文件名等等的历史数据。
客户可以提供有例如被用客户数据填充的仪表板。客户数据可以进一步包括例如侵权事件在给定时间段(例如,一秒钟、一分钟、一个小时、一天、一星期、一个月、一年、一个时间范围、一个日期范围等等)内的总数、唯一IP地址-端口号组合在该时间段期间的总数、与每个唯一IP地址和端口号组合相关联的侵权事件的数目、每个侵权事件的侵权数据等等。
客户数据可以进一步包括客户对账数据。对账数据可以包括支付信息(例如,针对特定侵权事件可能已被接收到的支付)、与侵权事件相关联的IP地址和端口号组合、IP地址和端口号是否是重复罪犯、ISP是否已采取任何动作(例如,将通知发送到侵权人、将侵权人的互联网访问请求重定向到重定向网页、断开了侵权人的连接等等)、所采取动作的类型的性质等等。
根据本公开的一个方面,提供了包含计算机程序的计算机可读介质,所述计算机程序当在例如服务器140上被执行时,使图2中的过程200将被执行。计算机程序可以在计算机可读介质中有形地加以具体化,包括用于当被例如服务器140和/或类似物执行时执行步骤205至270的一个或多个程序指令、代码段或代码部分。
图3A示出了根据本公开的原理的侵权通知过程300A的示例。在已经通过遵循过程200 (在图2中示出)的一个或多个步骤针对特定侵权计算机标识并且验证了侵权的行为之后,在步骤305中侵权通知可以被发送到将服务提供给侵权计算机的ISP。侵权通知可以包括例如电子邮件、文本消息、数据传输、语音消息、书写信等等,其包括ISP地址、端口号和/或时间戳。可替换地(或附加地),侵权通知可以包括例如用包括IP地址、端口号、文件名和/或时间戳的侵权数据的至少一部分来更新文件、表、记录等等,所述侵权数据的至少一部分可以被ISP访问。
在侵权通知已被发送到ISP之后,在步骤308中可以做出至于侵权是否已被侵权人解决的确定。如果侵权被确定为已被解决(在步骤308处的是),则在步骤345中解决确认可以被发送到ISP,否则(在步骤308处的否)在步骤315中可以做出至于预定时间是否已经过(例如,1天、5天、10天等)的确定。
如果确定了预定时间已经过(在步骤315处的是),则在步骤325中后续侵权通知可以被发送到ISP,否则(在步骤315处的否)没有动作被采取持续步骤335中所指示的时间段。在步骤335中时间段的期满确立了之后,在步骤308中过程可以再次确定侵权是否已被解决了。该时间段(“延迟”)可以基本上等于或小于预定时间。
可以提供包含计算机程序的计算机可读介质,所述计算机程序当在例如服务器140 (在图1中示出)被执行时,使图3A中的过程300A被执行。计算机程序可以在计算机可读介质中有形地加以具体化,包括用于当被例如一个或多个计算机、服务器140和/或类似物执行时执行步骤305至345的一个或多个程序指令、代码段或代码部分。
图3B示出了根据本公开的原理的侵权人通知过程300B的示例。在已经通过遵循例如过程200 (在图2中示出)的一个或多个步骤针对特定侵权计算机标识并且验证了侵权的行为之后,在步骤310中ISP接收侵权通知。在步骤310中ISP接收到侵权通知之后,在步骤320中ISP可以将侵权人通知转发给在侵权通知中所标识的侵权人。侵权人通知可以包括例如电子邮件、文本消息、数据传输、语音消息、寄出的信等等。侵权人通知还可以包括侵权数据的至少一部分,所述侵权数据包括例如IP地址、端口号、由侵权人所下载或者上传的文件名、用来下载(或者上传)有版权的材料的对等软件的软件版本、历史信息、ISP标识符和/或与侵权计算机相关联的至少一个时间戳。
图3C示出了根据本公开的原理的另外的侵权人通知过程300C的示例。在已经例如通过遵循过程200 (在图2中示出)的一个或多个步骤针对特定侵权计算机标识并且验证了侵权的行为之后,在步骤330中ISP可以接收后续侵权通知。后续侵权通知例如可以建议ISP采取多个动作中的一个。在步骤340处ISP然后可以确定响应于消息要采取哪一个动作。动作可以包括例如发送后续侵权通知(在步骤340处的通知,然后是步骤350)、将侵权人重定向到重定向网页(在步骤340处的重定向,然后是步骤360)或挂起对侵权人的服务(在步骤340处的挂起服务,然后是步骤370)。
可以提供包含计算机程序的计算机可读介质,所述计算机程序当在例如ISP 160和/或服务器140上被执行时,使图3B和3C中的过程300B和/或300C相应地被执行。计算机程序可以在计算机可读介质中有形地加以具体化,包括用于当被例如一个或多个计算机、ISP 160、服务器140和/或类似物执行时执行步骤310至320和/或330至370的一个或多个程序指令、代码段或代码部分。
根据本公开的一个方面,在系统100 (在图1中示出)中,计算机程序(或软件)可以爬取(一个或多个) p2p网络(例如,网络130,在图1中示出),并且与可以具有系统100可能想监控的文件(诸如例如,有版权的材料的未经授权的拷贝)的对等体进行通信。计算机程序可以从具有待监控的文件的每个对等体中检索包括例如文件名、IP地址、时间戳以及端口号的侵权数据。计算机程序然后可以对侵权数据进行挖掘并且输出重复侵权人的列表,其可以包括例如侵权事件的数目、已标识IP地址-端口号组合等。例如,在与2,289,948个对等体进行通信时,可以在表1中显示十个最流行的端口。
- 表1 -
在表1中所阐述的示例中,在四十三(43)个IP地址在诸天的部分连续序列期间标识有具有相同的端口号的侵权的情况下,存在这些IP地址是来自相同的计算机的N%概率。N基于端口而变化。如果IP地址在一个侵权与下一个侵权之间循环,则例如存在相同的IP地址75.9.73.1在循环之后将在端口63460上登陆的约2244/2,289,948或约0.1%机会。因此,存在表2中所显示的这些侵权是来自相同的计算机的99.9%机会。
- 表2 -
图4示出了如果例如ISP在步骤340处确定用户对互联网访问的请求应该被重定向则可以被提供给侵权计算机的用户的重定向网页400的示例。ISP可以确定因多个不同的原因而重定向对互联网访问的请求。ISP可以确定重定向对互联网访问的请求,因为例如ISP已接收到指示与ISP相关联的计算机(或节点)已被与版权侵权的行为相关联的侵权通知。
可替换地,或此外,ISP可以确定重定向对互联网访问的请求,因为例如ISP已接收到建议ISP应该重定向由与版权侵权的行为相关联的计算机或其他节点的用户所接收到的对互联网访问的任何请求的后续侵权通知。
可替换地,ISP可以确定重定向对互联网访问的请求,因为例如ISP已独立地确定了计算机的用户与版权侵权的行为相关联。然而,本领域的普通技术人员将领会的是,本公开不限于这样的示例。结果,对于本领域的普通技术人员而言将是容易地显而易见的是,ISP可以确定因落入本公开的精神和范围内的任何原因而重定向对互联网访问的请求。
重定向网页400可以包括与重定向网页和侵权的行为相关联的一般信息410。重定向网页400可以包括侵权数据的至少一部分。例如,重定向网页400可以包括标识被侵权的有版权的作品的信息420。重定向网页400可以包括标识侵权计算机和/或与侵权计算机相关联的用户的信息430。标识侵权计算机和/或与侵权计算机相关联的用户的信息可以包括例如IP地址、端口号、时间戳、用户ID等等。重定向网页400可以包括用来解析版权侵权的行为的解决提议的通知440。重定向网页400可以提供如果满足则将解决和解析侵权的预定支付金额450的通知。预定支付金额可以包括例如固定费用(例如,$10、$20、$100,或被视为可由例如版权所有者接受的任何其他金额)。
重定向网页400不限于仅包括上面所提供的侵权数据的部分。替代地,重定向网页400可以被配置成将侵权数据的任何部分包括在重定向网页400内。结果,重定向网页400还可以包括例如用来下载(或者上传)有版权的材料的对等软件的软件版本、与和侵权的行为相关联的计算机相关联的历史信息和/或ISP标识符中的一个或多个。
重定向网页400还可以包括用来解析未付侵权与支付网站相关联的链接460。重定向网页400可以被配置成接收链接的选择。作为响应,可以给用户提供对解决解析模块的访问。解决解析模块可以被配置成接受来自与侵权的到行为相关联的用户的支付以得到等于例如预定支付金额的金额。对解决解析模块的访问可能要求密码470的使用。密码470可以由重定向网页400来提供。
重定向网页400可以由例如服务器140 (在图1中示出)来生成和维护。在步骤340处ISP 160 (在图1中示出)确定重定向用户对互联网内容的请求之后,ISP 160可以将对互联网内容的请求重定向到被与特定侵权计算机110相关联的重定向网页400。ISP 160可以继续例如无限期地将侵权计算机110重定向到服务器140上的重定向网页400,直到在步骤345 (在图3C中示出)侵权人已解决(一个或多个)未付侵权并且ISP 160已接收到对(一个或多个)未付侵权的解决确认通知为止。进一步地,直到从服务器140接收到解决确认通知为止,可以防止侵权计算机110访问除重定向网页400之外、互联网上的任何其他站点。
可替换地,或附加地,侵权计算机110可以被重定向到与针对版权侵权的行为的民事和/或刑事处罚相关的一个或多个司法部网页。
可替换地,在步骤370处正被提供给侵权计算机的互联网服务可以被ISP挂起。在ISP挂起正被提供给侵权计算机的互联网服务的情况下,服务可以保持被挂起直到在步骤345处侵权人已解决(一个或多个)未付侵权并且ISP已接收到对(一个或多个)未付侵权的解决确认通知为止。
进一步地,重定向网页400可以由例如ISP 160或客户170 (在图1中示出)来生成和维护。
图1-4已经一般地描述了针对基于例如IP地址-端口号组合来标识版权侵权的行为或者标识重复侵权人的本公开的示例。这样的示例在当用户的IP地址保持静态时的时间窗口期间是特别有用的。然而,用户可以使他的/她的IP地址循环。IP地址循环指的是用户的IP地址为了绕过网络阻塞机制的动态改变,以便避免对文件共享的检测,或者以其他方式给用户提供用户正在访问网络的同时保持匿名的机会。IP地址循环可以通过改变用户的IP地址中的一个或多个数来执行。可以手动地或者自动地(例如,以固定时间间隔、随机时间间隔等)实现IP地址循环。
根据本公开的另一方面,提供了可以准确地标识已改变他们的IP地址的重复侵权人的方法。该方法可以包括图5-11中所描述的端口匹配方法的一个或多个方面。
图5公开了在步骤510处开始的方法。在520处系统100 (在图1中示出)确定先前标识的重复侵权人是否已停止报告可由唯一IP地址-端口号组合标识的侵权的行为。系统100 (在图1中示出)可以通过分析在侵权数据存储530和停止报告数据存储540内的一个或多个数据结构中所维护的数据来执行这个确定,所述一个或多个数据结构可以被存储在(一个或多个)数据库150或服务器140 (在图1中示出)中。数据存储可以是例如数据结构、数据库、平面文件,或数据的任何其他组织的分组。
侵权数据存储530可以包括存储与一个或多个计算机标识符相关联的版权侵权的一个或多个行为的一个或多个数据结构。可以动态地更新侵权数据存储530以便动态地检测和记录与特定标识符相关联的侵权的行为,从而允许随着侵权的新的行为被标识并且与特定标识符相关联而连续地更新的动态列表的创建。标识符和版权侵权的关联行为因此可以被用来标识重复侵权人。标识符可以是例如IP地址-端口号组合。
一般地,随着侵权的行为继续随着时间的推移而发生,系统100 (在图1中示出)可以继续使侵权的行为与在侵权数据存储530中所存储的标识符相关联。然而,当预定量的时间已经过而没有与特定标识符相关联的侵权的行为时,系统100 (在图1中示出)可以触发记录在停止报告数据存储540中的数据结构中的创建。停止报告数据存储540维护存储用于先前标识的重复侵权人的计算机标识符的数据结构,对于所述先前标识的重复侵权人来说侵权的行为在预定时间段(例如,数天、数星期、数月、数年等)内尚未被报告。可以例如在用户将有版权的内容添加到用户的共享文件夹时报告侵权的行为,从而使得有版权的内容对其他对等计算机可用。
例如,通过查阅侵权数据存储530和停止报告数据存储540,系统100 (在图1中示出)可以确定重复侵权人是否停止了报告与唯一IP地址-端口号组合相关联的侵权的行为。如果例如重复侵权人在预定时间段内尚未将有版权的内容添加到重复侵权人的共享文件夹,则系统100 (在图1中示出)可以推断出重复侵权人已停止报告侵权的行为。这样的重复侵权人可以在本文中被称为停止报告重复侵权人。
重复侵权人可以停止报告与唯一IP地址-端口号组合相关联的侵权的行为,因为该重复侵权人的IP地址已动态地改变了,从而导致不同的IP地址-端口号组合被与该重复侵权人的计算机相关联。如果在步骤520处得出重复侵权人已停止报告与唯一IP地址-端口号组合相关联的侵权的行为的结论,则在步骤550处结束由图5所公开的过程。
图5中所阐述的过程的结束可以触发图6中所公开的过程的开始。图6公开了在步骤610处开始的过程。在620处系统100 (在图1中示出)确定新的或先前未标识的重复侵权人是否已停止报告与唯一IP地址-端口号组合相关联的侵权的行为。系统100 (在图1中示出)可以通过分析在侵权数据存储630和开始记录数据存储640内的一个或多个数据结构中所维护的数据来执行这个确定,所述一个或多个数据结构可以被存储在(一个或多个)数据库150或服务器140 (在图1中示出)中。
侵权数据存储630可以是基本上与侵权数据存储530相同的数据存储。可替换地,侵权数据存储630可以是与侵权数据存储530不同的数据存储。侵权数据存储630可以包括存储与一个或多个计算机标识符相关联的版权侵权的一个或多个行为的一个或多个数据结构。可以动态地更新侵权数据存储630以便动态地检测和记录与特定标识符相关联的侵权的行为,从而允许随着侵权的新的行为被标识并且与特定标识符相关联而连续地更新的动态列表的创建。标识符和版权侵权的关联行为因此可以被用来标识重复侵权人。标识符可以是例如IP地址-端口号组合。
一般地,随着侵权的行为继续随着时间的推移而发生,系统100 (在图1中示出)可以继续使侵权的行为与在侵权数据存储630中所存储的标识符相关联。然而,当新的或先前未标识的重复侵权人被检测到时,系统100 (在图1中示出)可以触发记录在开始报告数据存储640中的数据结构中的创建。开始报告数据存储640维护存储用于新的或先前未标识的重复侵权人的计算机标识符的数据结构。可以例如在用户将有版权的内容添加到用户的共享文件夹时报告侵权的行为,从而使得有版权的内容对其他对等计算机可用。
例如,通过查阅侵权数据存储630和开始报告数据存储640,系统100 (在图1中示出)可以确定新的或先前未标识的重复侵权人是否已开始报告与唯一IP地址-端口号组合相关联的侵权的行为。如果例如具有新的或先前未标识的IP地址-端口号组合的重复侵权人在预定时间段内已将有版权的内容添加到重复侵权人的共享文件夹,则系统100 (在图1中示出)可以推断出重复侵权人已开始记录侵权的行为。这样的重复侵权人可以在本文中被称为开始报告重复侵权人。如果在步骤620处得出新的或先前未标识的重复侵权人已开始报告与唯一IP地址-端口号组合相关联的侵权的行为的结论,则在步骤650处结束由图6所公开的过程。
在图5中一般地描述的过程的执行可以产生停止报告重复侵权人的标识。在图6中一般地描述的过程的执行可以产生开始报告重复侵权人的标识。当这样的标识发生时,可以触发在图7中一般地描述的过程。
图7公开了在步骤710处开始的方法。在720处系统100 (在图1中示出)可以处理维护先前标识的重复侵权人的列表的数据结构。例如,通过查阅在侵权数据存储730和文件列表数据存储740内的一个或多个数据结构中所维护的数据,系统100 (在图1中示出)可以执行在720处的过程,所述一个或多个数据结构可以被存储在(一个或多个)数据库150或服务器140 (在图1中示出)中。
侵权数据存储730可以是基本上与侵权数据存储530和630相同的数据存储。可替换地,侵权数据存储730可以是与侵权数据存储530和630不同的数据存储。侵权数据存储730可以包括存储与一个或多个计算机标识符相关联的版权侵权的一个或多个行为的一个或多个数据结构。可以动态地更新侵权数据存储730以便动态地检测和记录与特定标识符相关联的侵权的行为,从而允许随着新的侵权的行为被标识并且与特定标识符相关联而连续地更新的动态列表的创建。标识符和版权侵权的关联行为因此可以被用来标识重复侵权人。标识符可以是例如IP地址-端口号组合。
一般地,一个或多个重复侵权人可以将一个或多个有版权的文件添加到共享文件夹。可以以允许共享文件夹的内容被与对等网络的其他成员共享的方式来配置共享文件夹。可以在例如文件列表数据存储740中维护计算机的共享文件夹的内容的列表。
可以以区分不同类型的用户和/或计算机的共享文件夹内容的列表的方式来组织文件列表数据存储740。例如,可以存在被指定来存储与停止报告重复侵权人相关联的共享文件夹内容的数据存储的一部分和被指定来存储与开始报告重复侵权人相关联的共享文件夹内容列表的数据存储的一部分。文件列表数据存储740可以维护特定共享文件夹的内容在特定时间段期间的日志。时间段可以按例如秒、分钟、小时、天、星期等来测量。
在步骤720中系统100 (在图1中示出)可以通过例如查阅侵权数据存储730和文件列表数据存储740来确定用户在任何特定天的共享文件夹的精确内容。例如,表3举例说明重复侵权人的共享文件夹在它存在于2011年5月27日时候的内容的示例。
- 表3 –
表3示出了可以被与可以在文件列表数据存储740中被维护的重复侵权人的共享文件夹的内容相关联的数据的各种类型。文件列表数据存储740可以包括例如内容的标题、内容的艺术家、内容被添加到共享文件夹的日期、获取到该内容的计算机的IP地址、获取到该内容的计算机的端口号等等。在上面所显示的表中的示例中,与这个特定共享文件夹相关联的重复侵权人的IP地址-端口号组合标识符是例如IP地址98.149.93.203和端口号30366。
类似地,对文件列表数据存储740的内容的后续查询可以产生不同的文件列表。例如,表4显示了在2011年6月24的共享文件夹的内容的示例,如针对具有例如IP地址98.149.93.42、端口30366的IP地址-端口号组合的重复侵权人在下面所示出的那样:
- 表4 -
系统100 (在图1中示出)因此可以查询文件列表数据存储740以便获得表示重复侵权人的共享文件夹的内容的一个或多个列表。例如,查询可以针对特定天请求重复侵权人的共享文件夹的内容的列表。查询可以可替换地请求例如重复侵权人的共享文件夹在它存在于给定月中的每个单独的天时候的内容的列表。此外,查询可以请求表示两个不同的重复侵权人的共享文件夹的两个不同的列表。两个不同的重复侵权人可以是例如停止报告重复侵权人和开始报告重复侵权人。系统100 (在图1中示出)可以通过提交包括诸如例如IP地址-端口号组合之类的标识符的查询来获得上面所描述的列表。
图8公开了提供对重复侵权人使他们的IP地址循环的问题的解决方案的方法的实施例。过程在步骤810处开始。在步骤820处系统100 (在图1中示出)确定两个不同的IP地址-端口号组合是否与相同的重复侵权人相关联。系统100 (在图1中示出)可以通过分析在停止报告数据存储830、开始记录数据存储840、文件列表数据存储850和/或重复侵权人文件列表数据存储860内的一个或多个数据结构中所维护的数据来执行这个确定,其中的全部(或一些)可以被存在(一个或多个)数据库150或服务器140 中(在图1中示出)。
系统100可以在820处查询停止报告数据存储830以便确定停止报告重复侵权人的列表。系统100还可以查询开始报告数据存储以便确定开始报告重复侵权人的列表。利用从停止报告数据存储830和开始报告数据存储840中检索到的数据,系统100 (在图1中示出)可以查询重复侵权人文件列表数据存储860和文件列表数据存储850以便检索与从停止报告数据存储830和开始报告数据存储840返回的结果中的每一个相关联的共享文件夹内容。
从针对文件列表数据存储850和860的查询返回的结果可以导致一个或多个数据结构的生成。第一数据结构可以包括可以与表示停止报告重复侵权人的共享文件夹在预定时间段期间的内容的列表相关联的停止报告重复侵权人的列表。第二数据结构可以包括可以与表示开始报告重复侵权人的共享文件夹在预定时间段期间的内容的列表相关联的开始报告重复侵权人的列表。
系统100可以在820处继续进行将每个停止报告重复侵权人在第一数据结构中的共享文件夹内容列表与在第二数据结构中与开始报告重复侵权人相关联的每个共享文件夹内容列表进行比较。如果基本上等效的文件列表被检测到,则可以确定的是,停止报告重复侵权人和开始报告重复侵权人正在使用相同的计算机。如果发生小于完全匹配,则可以推断出,两个重复侵权人没有正在使用相同的计算机,或者可以像在下面本文中所描述的那样执行与每个计算机相关联的数据的更具体的取证分析。
虽然上面所描述的过程可以比较计算机的共享文件夹的内容以便确定两个不同的IP地址-端口号组合是否属于相同的用户,但是应该容易地理解的是,本公开不限于此。例如,鉴于本公开,本领域的普通技术人员将理解的是,能够使用被与客户端计算机相关联的任何数据以便确定两个不同的IP地址-端口号组合是否实际上属于相同的计算机。例如,过程820能够比较侵权数据、用来共享有版权的内容的软件的名称、用来共享有版权的内容的软件的版本号和/或传输分组信息,以便对两个不同的IP地址-端口号组合标识相同的计算机或重复侵权人的确定给予附加的确实性。
图8中的过程通过比较如本文中所描述的数据集而提供对重复侵权人通过使他们的IP地址循环来避免检测的问题的解决方案。然而,本公开的其他方面可以提供与重复侵权人的计算机相关联的数据的更具体的取证分析。
系统100可以通过应用一个或多个现有的机器学习算法(诸如例如但不限于贝叶斯网络分类器)来执行包括与重复侵权人的计算机相关联的数据的深度取证分析的取证过程。
取证过程可以包括用已知数据集的至少一部分来教导算法(例如,贝叶斯网络分类器)。例如,依照本公开的一个方面,一个人可以输入已知用来标识例如一个或多个特定停止报告重复侵权人的采集到的数据的一部分。这种教导数据可以包括例如停止报告重复侵权人的IP地址-端口号组合、侵权数据、用来共享有版权的内容的软件的名称、用来共享有版权的内容的软件的版本号、传输分组信息,或可以与停止报告重复侵权人的计算机的描述相关联的任何其他数据。在被用这种训练数据教导之后,机器学习算法可以赋予有机器学习算法能够查阅以便以一定程度的概率做出有关与开始报告重复侵权人相关联的将来的输入数据集的准确预测的知识基础。
取证过程然后可以对可以例如与开始报告重复侵权人相关联的输入数据集应用经训练的机器学习算法。例如,与开始报告重复侵权人相关联的数据集可以被馈送到机器语言算法中。机器学习算法可以接收与开始报告重复侵权人相关联的输入数据集,并且至少部分地基于经训练的与一个或多个停止报告重复侵权人相关联的数据集来确定输入数据集落入特定类别内的概率。
取证过程然后可以对机器学习算法的结果进行分类和解释。机器学习算法的结果或输出可以包括例如输入数据集落入多个类别中的一个内的概率。换句话说,可以提供例如指示停止报告重复侵权人和开始报告重复侵权人正在使用相同的计算机的可能性的输出。
图9-11每个都提供了依赖数据集的简单比较的对重复侵权人通过使他们的IP地址循环来避免检测的问题应用机器学习过程的每个步骤的描述。
图9公开了用可以被系统100 (在图1中示出)采用的已知数据集的至少一部分来教导机器学习算法的过程。教导机器学习算法的过程可以包括例如填充与机器算法相关联的数据集。图9的过程在910处开始。在920处,过程可以从停止报告重复侵权人的列表选择停止报告重复侵权人。可以例如从在过程820中所创建的第一数据结构选择停止报告重复侵权人。
在930、940以及950处,过程可以选择可以被用来训练机器学习算法的训练输入数据集。训练输入可以是例如与特定的停止报告重复侵权人相关联的全部数目的共享文件夹文件夹列表(在下文中“文件列表”)的子集。本公开的一个方面假设训练输入可以是例如与特定的停止报告重复侵权人相关联的全部数目的文件列表的10%。还可以例如从最近获得的与停止报告重复侵权人相关联的文件列表选择训练输入。选择最近的文件列表可能是有利的,因为很可能与停止报告重复侵权人相关联的文件列表的内容在IP地址循环的时间或附近将基本上相当于开始报告重复侵权人的文件列表。
依照本公开的一个方面,系统100 (在图1中示出)例如可以维护停止报告重复侵权人持续N=90天的文件列表。在这个时间段期间文件列表可以被保存,例如,每天一次持续90天。依照这个示例,停止报告重复侵权人的文件列表的最近的10%可以是例如在第90天(例如,3/31)保存的文件列表、在第89天(例如,3/30)保存的文件列表、在第88天(例如,3/29)记录的文件列表、...以及在第82天(例如,3/22)存储的文件列表(包括在第88天与第82天之间的天存储的所有文件列表)。
在960处,在930、940以及950处所描述的文件列表可以被输入到分词器(tokenizer)中。分词器是如本领域中已知的常规分词器并且用作来从文件列表中提取所有必要的数据以便创建充足的输入数据集来训练机器学习算法。这样的分词器可以解析在930、940、950处描绘的文件列表,以便提取例如文件名、艺术家名字、IP地址、端口号,或被与文件列表相关联并且确定为促进机器学习算法的训练的任何其他数据。
在970处,分词器的输出可以被组织和准备以被用来在980处填充可以与机器学习算法相关联的数据集。依照本公开的一个方面,分词器的输出可以是例如词袋(bag of words)并且该数据集可以是例如贝叶斯数据集。然而,本公开不限于此。例如,鉴于本公开,本领域的普通技术人员将理解的是,分词器的输出可以被组织以便使得它能够教导与任何机器学习算法相关联的任何数据集。
在分词器的输出在970处已被组织并且用来在980处填充数据集之后,在990处过程可以折回到910并且重复。这个过程可以继续以上面所描述的方式重复,直到例如存在于在820处所创建的第一数据结构(在图8中示出)内的每个条目都已依照图9的过程被处理为止。
图10公开了可以被系统100 (在图1中示出)执行来对输入数据集应用机器学习算法的过程。图10的过程在1010处开始。在1020处,过程可以选择开始报告重复侵权人。开始报告重复侵权人可以例如与新的或先前未标识的IP地址-端口号组合相关联。可以例如从在图8中的820处所创建的第二数据结构选择开始报告重复侵权人。
在1030处,与开始报告重复侵权人相关联的最近的文件列表可以被选择并且用来馈给机器学习算法。馈给机器学习算法可以通过例如将与开始报告重复侵权人相关联的最近的文件列表作为输入数据集传递给机器学习算法来实现。在1040处,机器学习算法可以提供有与开始报告重复侵权人相关联的最近的文件列表作为输入。机器学习算法然后可以依照关联的训练的数据集1050来分析输入数据集。经训练的数据集1050可以是相同的,或者与例如图9中所训练的数据集980类似。
本公开的至少一个方面假设机器学习算法可以是至少部分地基于例如可以为完全自动化的贝叶斯网络分类方法的。然而,注意的是,本公开不限于此。例如,鉴于本公开,本领域的普通技术人员将理解的是,可以使用任何机器学习算法以便分析训练的数据集。此外,虽然本公开的一个或多个方面可以消除对于在依照训练的数据集来分析输入数据集过程中的人类交互的需要,但是当依照本公开来分析输入数据集时,本公开的其他方面可能要求人与机器之间的协作式方法。
在1060处,过程可以在1040处在接收到在1030处所描述的输入数据集之后提供机器学习算法的执行的结果。结果可以通过例如机器语言算法计算表示与开始报告重复侵权人相关联的文件列表的输入数据集1030基本上相当于与在980处或在1050处被输入到数据集中的停止报告重复侵权人相关联的文件列表的概率来确定。在1060处可以以例如概率的形式来表达结果。这个概率然后可以被存储在概率数据存储1070内的数据结构中,所述数据结构可以被存储在(一个或多个)数据库150或服务器140 (在图1中示出)中。
在机器学习算法的结果的输出被存储在概率数据存储1070内的数据结构中之后,过程在1080处可以折回到1010并且重复。这个过程可以继续以上面所描述的方式重复,直到例如在820处所创建的第二数据结构的每个条目都已依照图10的过程被处理了为止。
图11公开了可以由系统100 (在图1中示出)在对被处理并且存储在概率数据存储1010中的机器学习算法的结果进行分类和解释时执行。图11的过程在其中系统100 (在图1中示出)可以查询概率数据存储1010以便检索被存储在概率数据存储1010中的机器学习算法的结果的1110处开始。在1120处,系统100 (在图1中示出)可以确定例如在与停止报告重复侵权人相关联的文件列表和与开始报告重复侵权人相关联的文件列表之间是否存大于例如99%概率(或任何预定阈值概率)的匹配。如果在1120处确定了例如在与停止报告重复侵权人相关联文件列表和与开始报告重复侵权人相关联的文件列表之间不存在大于99%概率(预定阈值概率)的匹配,则系统100 (在图1中示出)可以在1130处记录开始报告重复侵权人不是与停止报告重复侵权人相同的计算机的指示。
如果替代地,在1120处确定了例如在与停止报告重复侵权人相关联文件列表和与开始报告重复侵权人相关联的文件列表之间存在大于99%概率(预定阈值概率)的匹配,则系统100 (在图1中示出)可以更新重复侵权人文件列表数据存储860以便反映停止报告重复侵权人和开始报告重复侵权人被在法庭上确定为是相同的计算机。
根据本公开的一个方面,提供了包含计算机程序的计算机可读介质,所述计算机程序当在例如服务器140上被执行时,使在图5-11中所公开的过程被执行。计算机程序可以在计算机可读介质中有形地加以具体化,包括用于当被例如服务器140和/或类似物执行时执行图5-11中所公开的过程的一个或多个程序指令、代码段或代码部分。
本文中所描述的本公开因此可以提供在法庭上确定两个唯一IP地址-端口号组合是否实际上与相同的计算机相关联的方法。本文中所阐述的本公开的原理的应用提供了对重复侵权人通过使他们的IP地址循环来避免检测的问题的解决方法。本文中所阐述的取证确定可以帮助建立证据痕迹,所述证据痕迹可以被用来获得传票以便获得属于重复侵权人的计算机记录。
虽然已经在示例性实施例方面对本公开进行了描述,但是本领域的技术人员将认识到,能够在所附权利要求的精神和范围中在修改情况下实践本公开。这些示例仅仅是说明性的,并且不意在为本公开的所有可能的设计、实施例、应用或修改的详尽列表。
Claims (20)
1.一种用于在法庭上标识重复侵权人的方法,所述方法包括:
用第一数据集的至少一部分来教导机器学习算法,其中所述第一数据集与停止记录重复侵权人相关联;
给所述机器学习算法馈送第二数据集,其中所述第二数据集与开始报告重复侵权人相关联;以及,
确定所述停止报告重复侵权人和所述开始报告重复侵权人是否正在使用相同的计算机。
2.根据权利要求1所述的方法,其中所述第一数据集包括与所述停止报告重复侵权人相关联的文件列表。
3.根据权利要求1所述的方法,其中所述第一数据集包括与所述停止报告重复侵权人相关联的所有文件列表的子集。
4.根据权利要求1所述的方法,其中所述第二数据集包括与所述开始报告重复侵权人相关联的文件列表。
5.根据权利要求4所述的方法,其中所述文件列表包括与所述开始报告重复侵权人相关联的最近的文件列表。
6.根据权利要求1所述的方法,其中所述机器学习算法包括贝叶斯网络分类。
7.根据权利要求1所述的方法,其中确定的步骤包括:
计算所述第一数据集和所述第二数据集是基本上等效的概率;以及,
将所述概率存储在数据结构中。
8.根据权利要求1所述的方法,其中所述确定的步骤包括:
用分屏格式显示所述第一数据集和所述第二数据集。
9.一种用于在法庭上标识重复侵权人的系统,包括:
第一数据采集模块,其被配置成获得与停止报告重复侵权人相关联的第一文件列表;
第二数据采集模块,其被配置成获得与开始报告重复侵权人相关联的第二文件列表;以及,
比较模块,其被配置成将所述第一文件列表与所述第二文件列表进行比较并且确定所述停止报告重复侵权人和所述开始报告重复侵权人是否正在使用相同的计算机。
10.根据权利要求9所述的系统,其中所述停止报告重复侵权人和所述开始报告重复侵权人具有不同的IP地址-端口号组合。
11.根据权利要求9所述的系统,所述系统进一步包括:
计算模块,其被配置成计算所述第一文件列表和所述第二文件列表是基本上等效的所述概率。
12.根据权利要求9所述的系统,所述系统进一步包括:
显示模块,其被配置成用分屏格式显示所述第一列表和所述第二列表。
13.一种包括指令的计算机可读介质,所述指令当被计算机执行时使所述计算机执行用于在法庭上标识重复侵权人的方法,所述指令包括:
命令所述计算机用第一数据集的至少一部分来教导机器学习算法的指令,其中所述第一数据集与停止记录重复侵权人相关联;
命令所述计算机给所述机器学习算法馈送第二数据集的指令,其中所述第二数据集与开始报告重复侵权人相关联;以及,
命令所述计算机确定所述停止报告重复侵权人和所述开始报告重复侵权人是否正在使用相同的计算机的指令。
14.根据权利要求13所述的计算机可读介质,其中所述第一数据集包括与所述停止报告重复侵权人相关联的文件列表。
15.根据权利要求13所述的计算机可读介质,其中所述第一数据集包括与所述停止报告重复侵权人相关联的所有文件列表的子集。
16.根据权利要求13所述的计算机可读介质,其中所述第二数据集包括与所述开始报告重复侵权人相关联的文件列表。
17.根据权利要求16所述的计算机可读介质,其中所述文件列表包括与所述开始报告重复侵权人相关联的最近的文件列表。
18.根据权利要求13所述的计算机可读介质,其中所述机器学习算法包括贝叶斯网络分类。
19.根据权利要求13所述的计算机可读介质,其中命令所述计算机确定的指令进一步包括:
命令所述计算机计算所述第一数据集和所述第二数据集是基本上等效的概率的指令;以及,
命令所述计算机将所述概率存储在数据结构中的指令。
20.根据权利要求13所述的计算机可读介质,其中命令所述计算机确定的指令进一步包括:
命令所述计算机用分屏格式显示所述第一数据集和所述第二数据集的指令。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161526946P | 2011-08-24 | 2011-08-24 | |
US61/526946 | 2011-08-24 | ||
PCT/US2012/052325 WO2013028997A2 (en) | 2011-08-24 | 2012-08-24 | System to identify multiple copyright infringements |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104040531A true CN104040531A (zh) | 2014-09-10 |
Family
ID=47745054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280052042.9A Pending CN104040531A (zh) | 2011-08-24 | 2012-08-24 | 用来标识多个版权侵权的系统 |
Country Status (10)
Country | Link |
---|---|
US (1) | US20130054477A1 (zh) |
EP (1) | EP2748718A4 (zh) |
JP (1) | JP2014529805A (zh) |
CN (1) | CN104040531A (zh) |
AU (1) | AU2012298708A1 (zh) |
BR (1) | BR112014004201A2 (zh) |
CA (1) | CA2846241A1 (zh) |
HK (1) | HK1198781A1 (zh) |
IL (1) | IL231087A (zh) |
WO (1) | WO2013028997A2 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113925200A (zh) * | 2016-03-09 | 2022-01-14 | 菲利普莫里斯生产公司 | 气溶胶生成制品 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9600582B2 (en) | 2013-05-23 | 2017-03-21 | Microsoft Technology Licensing, Llc | Blocking objectionable content in service provider storage systems |
US9645947B2 (en) | 2013-05-23 | 2017-05-09 | Microsoft Technology Licensing, Llc | Bundling file permissions for sharing files |
US9614850B2 (en) | 2013-11-15 | 2017-04-04 | Microsoft Technology Licensing, Llc | Disabling prohibited content and identifying repeat offenders in service provider storage systems |
US9438611B2 (en) * | 2014-03-17 | 2016-09-06 | Lenovo Enterprise Solutions (Singapore) Pte. Ltd. | Managing a blocked-originator list for a messaging application |
WO2020191382A1 (en) * | 2019-03-21 | 2020-09-24 | Warner Bros. Entertainment Inc. | Automatic media production risk assessment using electronic dataset |
CN111159666B (zh) * | 2020-01-14 | 2022-05-27 | 李文谦 | 一种基于区块链的设计方案侵权判别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002366531A (ja) * | 2001-06-06 | 2002-12-20 | Japan Science & Technology Corp | 著作権管理システム |
US20090083132A1 (en) * | 2007-09-20 | 2009-03-26 | General Electric Company | Method and system for statistical tracking of digital asset infringements and infringers on peer-to-peer networks |
CN101460955A (zh) * | 2006-03-10 | 2009-06-17 | 诺基亚西门子通信有限责任两合公司 | 计算机辅助地检测和识别受版权保护的内容的方法和通信系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002011033A1 (en) * | 2000-07-28 | 2002-02-07 | Copyright.Net Inc. | Apparatus and method for transmitting and keeping track of legal notices |
KR20030015742A (ko) * | 2001-08-17 | 2003-02-25 | 주식회사 비즈모델라인 | 디지털 컨텐츠의 불법 복제 및 무단 배포 추적 시스템 |
KR100930077B1 (ko) * | 2006-10-31 | 2009-12-08 | 뉴21커뮤니티(주) | 디지털 저작권 관리를 위한 워터마크 추적 시스템 |
KR100932537B1 (ko) * | 2007-11-26 | 2009-12-17 | 한국전자통신연구원 | 이미지 필터를 이용한 포렌식 증거 분석 시스템 및 방법 |
JP5261348B2 (ja) * | 2009-10-30 | 2013-08-14 | Sky株式会社 | 外部接続機器制御システム及び外部接続機器制御プログラム |
JP4964338B2 (ja) * | 2011-02-04 | 2012-06-27 | 株式会社三菱東京Ufj銀行 | ユーザ確認装置、方法及びプログラム |
US20130097089A1 (en) * | 2011-04-01 | 2013-04-18 | Robert Steele | System to identify multiple copyright infringements |
-
2012
- 2012-08-24 US US13/594,596 patent/US20130054477A1/en not_active Abandoned
- 2012-08-24 JP JP2014527331A patent/JP2014529805A/ja active Pending
- 2012-08-24 AU AU2012298708A patent/AU2012298708A1/en not_active Abandoned
- 2012-08-24 CN CN201280052042.9A patent/CN104040531A/zh active Pending
- 2012-08-24 WO PCT/US2012/052325 patent/WO2013028997A2/en active Application Filing
- 2012-08-24 EP EP12825160.0A patent/EP2748718A4/en not_active Withdrawn
- 2012-08-24 BR BR112014004201A patent/BR112014004201A2/pt not_active IP Right Cessation
- 2012-08-24 CA CA2846241A patent/CA2846241A1/en not_active Abandoned
-
2014
- 2014-02-23 IL IL231087A patent/IL231087A/en not_active IP Right Cessation
- 2014-12-05 HK HK14112266.6A patent/HK1198781A1/zh unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002366531A (ja) * | 2001-06-06 | 2002-12-20 | Japan Science & Technology Corp | 著作権管理システム |
CN101460955A (zh) * | 2006-03-10 | 2009-06-17 | 诺基亚西门子通信有限责任两合公司 | 计算机辅助地检测和识别受版权保护的内容的方法和通信系统 |
US20090083132A1 (en) * | 2007-09-20 | 2009-03-26 | General Electric Company | Method and system for statistical tracking of digital asset infringements and infringers on peer-to-peer networks |
Non-Patent Citations (2)
Title |
---|
JONATHAN STRICKLAND: "How Parallel Processing Works", 《HOW STAFF WORKS》 * |
NIR FIREDMAN: "Bayesian Nerwork Classifiers", 《MACHINE LEARNING》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113925200A (zh) * | 2016-03-09 | 2022-01-14 | 菲利普莫里斯生产公司 | 气溶胶生成制品 |
Also Published As
Publication number | Publication date |
---|---|
HK1198781A1 (zh) | 2015-06-05 |
BR112014004201A2 (pt) | 2017-03-14 |
CA2846241A1 (en) | 2013-02-28 |
US20130054477A1 (en) | 2013-02-28 |
EP2748718A2 (en) | 2014-07-02 |
IL231087A (en) | 2017-04-30 |
WO2013028997A2 (en) | 2013-02-28 |
WO2013028997A3 (en) | 2013-04-18 |
AU2012298708A1 (en) | 2014-03-13 |
JP2014529805A (ja) | 2014-11-13 |
EP2748718A4 (en) | 2015-06-10 |
IL231087A0 (en) | 2014-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104040531A (zh) | 用来标识多个版权侵权的系统 | |
RU2656995C2 (ru) | Система и способ контроля доступа третьей стороны к охраняемому объекту | |
US20180343110A1 (en) | Method and System for Implementing Scaling and Distribution of Blockchains without Ledger Limitations | |
US20050198061A1 (en) | Process and product for selectively processing data accesses | |
US8204915B2 (en) | Apparatus and method for generating a database that maps metadata to P2P content | |
US20050267945A1 (en) | Systems and methods for deterring internet file-sharing networks | |
US20080288629A1 (en) | Methods, media, and systems for tracking content usage over a network | |
US20040260933A1 (en) | Method of preventing tampering of program by using unique number, method of upgrading obfuscated program, and apparatus thereof | |
US20090113545A1 (en) | Method and System for Tracking and Filtering Multimedia Data on a Network | |
CN102176224A (zh) | 用于处理恶意软件的方法和装置 | |
Sag | Piracy: Twelve-Year-Olds, Grandmothers, and Other Good Targets for the Recording Industry's File Sharing Litigation | |
US20160080319A1 (en) | System to identify a computer on a network | |
US20120310846A1 (en) | System to identify multiple copyright infringements and collecting royalties | |
US9977877B2 (en) | System and method for terminating copyright infringement by BitTorrent users | |
AU2012236069B2 (en) | System to identify multiple copyright infringements | |
Décary‐Hétu | Police operations 3.0: On the impact and policy implications of police operations on the Warez scene | |
JP2008234605A (ja) | データ取得流通時のデータ匿名性確保に係わる、データ集計システム、データ集計方法およびデータ集計プログラム | |
US20080288504A1 (en) | Methods, media, and systems for recording and reporting content usage | |
KR20140068281A (ko) | 방송 컨텐츠 거래 관리를 위한 필터링 시스템 | |
Sude et al. | Authenticated CRF based improved ranked multi-keyword search for multi-owner model in cloud computing | |
TERTEREANU et al. | COUNTERFEITING AND INFRINGEMENTS UPON INTELLECTUAL PROPERTY RIGHTS. | |
WO2009107049A2 (en) | Content identification method | |
Hu et al. | Measurement of the usage of web clips in underground economy | |
Schmucker et al. | Promotional and commercial content distribution based on a legal and trusted P2P framework | |
Liu | Actors and purchases on the cryptomarket ecosystem: Administrators, vendors, and products |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1198781 Country of ref document: HK |
|
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140910 |
|
REG | Reference to a national code |
Ref country code: HK Ref legal event code: WD Ref document number: 1198781 Country of ref document: HK |