CN103544204A - 用于表示为树的分级的并基于索引的水印的系统和方法 - Google Patents

用于表示为树的分级的并基于索引的水印的系统和方法 Download PDF

Info

Publication number
CN103544204A
CN103544204A CN201310292100.1A CN201310292100A CN103544204A CN 103544204 A CN103544204 A CN 103544204A CN 201310292100 A CN201310292100 A CN 201310292100A CN 103544204 A CN103544204 A CN 103544204A
Authority
CN
China
Prior art keywords
watermark
collected works
feature
tree
complete
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310292100.1A
Other languages
English (en)
Other versions
CN103544204B (zh
Inventor
A.K.鲍曼
R.L.达登
J.J.范
A.A.卡尔扬珀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN103544204A publication Critical patent/CN103544204A/zh
Application granted granted Critical
Publication of CN103544204B publication Critical patent/CN103544204B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • G06F21/16Program or content traceability, e.g. by watermarking

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Technology Law (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Document Processing Apparatus (AREA)

Abstract

描述了提供表示为树的、分级的并且基于索引的水印的方法。在一个实施例中,从特征水印形成水印树,特征水印是从具有自然语言处理(NLP)分析术的NLP堆栈产生的。水印树表示每个特征水印之间的分级关系。具体地,水印树根据分级关系定义分级指针,分级指针指出存在于特征水印之间的继承的水印。此外,水印树包括指定访问存在于文集中的数据集内容的时间的时间戳。

Description

用于表示为树的分级的并基于索引的水印的系统和方法
技术领域
本发明总体地涉及对内容加水印,更具体地涉及表示为树的分级的并且基于索引的水印,其提供可以保护内容不被修改同时关于具体文集状态证实内容源。
背景技术
传统的水印技术通常提供防止伪造物品的安全机制。可以是可见和不可见的水印通常被放置在源文档上并且可以用于提供原作者和版权保护、真实和防篡改机制。其中已经使用水印的一个领域是可通过因特网访问的数字内容。具体地,水印已经用于控制如何分发或再使用数字内容(例如数字图书馆、在线新闻、杂志、科学期刊、百科全书、个人日志、材料(stores)、广告等等)。自然语言(NL)加水印是已经用于控制如何分发或再使用数字内容的一种类型的水印技术。NL加水印通常设法通过操纵句子的语义和/或语法结构来在文本文档中嵌入信息。NL加水印不同于文本加水印,文本加水印通常修改文本格式的外观或者字体,比如例如修改文本中的字间和字母间的间隔。
发明内容
在一个实施例中,存在在计算机系统上进行的用于对存储在多个全集(corpora)中的内容加水印的方法,每个全集具有多个文集(corpuse)。在此实施例中,该方法包括使用该计算机系统来进行以下操作:从所述多个全集的一个内的文集接收内容的数据集;将该数据集应用于包括多个自然语言处理(NLP)分析术的NLP堆栈,该多个NLP分析术每个分析该数据集;从多个NLP分析术(analytics)的每个产生特征水印;以及从每个特征水印形成水印树,水印树表示从多个NLP分析术的每个产生的特征水印的每个之间的分级关系,该水印树根据该分级关系定义分级指针,分级指针指出存在于特征水印之间的继承的水印,该水印树包括指定从文集访问该数据集的时间的时间戳。
在第二实施例中,存在用于对存储在多个全集中的内容加水印的计算机系统,每个全集具有多个文集。在此实施例中,该计算机系统包括至少一个处理单元以及与该至少一个处理单元操作地相关联的存储器。特征水印工具可存储在存储器中并且可由该至少一个处理单元执行。该特征水印工具包括输入组件,配置为从所述多个全集的一个内的文集接收内容的数据集。该特征水印工具还包括自然语言处理(NLP)堆栈,包括多个NLP分析术,每个NLP分析术配置为从该数据集提取特征。另外,该特征水印工具包括特征水印产生器,配置为对于多个NLP分析术的每个针对从其提取的特征产生特征水印。该特征水印产生器还配置为从每个特征水印形成水印树。该水印树表示从多个NLP分析术的每个产生的特征水印的每个之间的分级关系。该水印树根据该分级关系定义分级指针,分级指针指出存在于特征水印之间的继承的水印。该水印树包括指定访问该数据集的时间的时间戳。
在第三实施例中,存在存储计算及指令的计算机可使用的存储器,该计算机指令在执行时使得计算机系统能够对存储在多个全集中的内容加水印,每个全集具有多个文集。该执行的计算及指令致使该计算机系统进行包括以下的方法:从所述多个全集的一个内的文集接收内容的数据集;将该数据集应用于包括每个分析该数据集的多个自然语言处理(NLP)分析术的NLP堆栈;从多个NLP分析术的每个产生特征水印;以及从每个特征水印形成水印树,水印树表示从多个NLP分析术的每个产生的特征水印的每个之间的分级关系,该水印树根据该分级关系定义分级指针,分级指针指出存在于特征水印之间的继承的水印,该水印树包括指定从文集访问该数据集的时间的时间戳。
附图说明
图1示出根据本发明的一个实施例的可以对存储在多个全集(每个具有多个文集)中的内容加水印的特征水印工具的示意图;
图2示出根据本发明的一个实施例的从经过自然语言处理(NLP)堆栈的内容产生特征水印和水印树的图1所示的特征水印工具的更详细的示意图;
图3示出描述由图1所示的特征水印工具进行的一般操作的流程图;以及
图4示出其中图1所示的特征水印工具的要素可以操作的计算环境的示意。
具体实施方式
本发明的实施例针对用于将自然语言处理(NLP)加水印扩展为包括时域标记和基于继承(inheritance)的标记的技术,以保护作为来自全集的部分的文集中的内容不被修改(例如删除或更新),同时证实内容源为具体文集状态。在一个实施例中,可以在文集内产生可见水印并且将其用作时域(temporal)标记和水印树中的分级(hierarchical)指针。为了确保在具体时间时文集的真实,可以递归地遍历水印树中的水印指针以量度父亲真实性。如果沿着链有任何父亲验证失败,则从该无效水印到孩子的子链被标记为无效。另外,来自该无效标记的水印的整个子树被认为无效。因此,当在给定时间时文集的一部分被认为无效时,则在具体时间时来自该文集上的任何delta搜索的结果将是无效的,并且可以从结果中过滤掉。在一个实施例中,在活动的文集可视化期间,当文集的一部分被毁坏(corrupt)时可以通知用户,以便当选择另外的数据源时,用户不考虑脏数据(dirty data)。
希望以此方式跟踪文集改变,以便在向系统添加新的数据源时,可以确定源的相对相关性。另外,跟踪文集改变使得其适合于用在基于时间的问题回答系统中,该问题回答系统使用在变化的时间时的文集状态以提供诸如证实的出处和自动的源权重选择的探索性的益处。
与在此所述的NLP加水印实施例相关联的益处包括在无效水印的检测期间使用基于树的水印来无效文集或特征的部分。另外,基于树的水印使能父亲归属,即树中的水印将知道父亲或者相关的实体。还将存在时域消解(temporal resolution),即水印将具有依赖于水印树的时域上下文。此时域消解可以超出水印树进一步扩展到文集和全集级别。另一益处是本发明的NLP加水印实施例可以提供可见的暗淡的水印,与暗淡的代码相反,可见的暗淡的水印提供了定义的清晰含义。其他益处是本发明的各个实施例支持delta负载和delta搜索。
参考附图,图1示出根据本发明的一个实施例的可以对存储在多个全集4(每个具有多个文集6)中的内容加水印的特征水印工具2的示意图。全集4和文集6可以是以机器可读形式存储内容的大量的数据集的任意数据库。数字图书馆、在线新闻、杂志、科学期刊、百科全书、个人日志、材料、广告集合是可以存储在全集4和文集6中的内容的例子。
如图1所示,特征水印工具2包括预处理输入组件8,其配置为从多个全集4中的一个内的文集6接收内容的数据集。另外,预处理输入组件8可以进行预处理功能,预处理功能,包括额外的信息注释内容。例如,可以对每个词的词性进行词性标注(例如动词、名词、形容词)。语言变换是可以由预处理输入组件8进行的另一预处理功能。语言变换可以包括同义词替换、句法变换和语义变换。NLP解析是可以由预处理输入组件8进行的另一项功能。NLP解析可以包括对于以原始形式接收的内容,处理输入语句以及产生某种结构。NLP解析的输出可以是语句的形态的、语法的或者语义的结构,或者可以是这些的组合。预处理输入组件8的输出是代表从具体全集4内的文集6获得的原始形式的内容的文本块。
NLP堆栈10接收来自预处理输入组件8的文本块,并且配置为从数据集中提取特征。NLP堆栈10可以包括多个NLP分析术(analytics),每个分析术配置为分析体现在文本块中的数据集并且从其中提取特征。在一个实施例中,如以下关于图2所述,NLP堆栈10可以采取根据预定的分级顺序分析从预处理输入组件8接收的内容的居先管线(precedence pipeline)的形式。可以对内容进行的NLP分析术的例子可以包括英语槽文法分析术、谓词变量结构分析术、命名的实体检测分析术、时域消解分析术、联合引用分析术、N-力特征提取分析术、时域算法分析术、代词消解分析术、字替换分析术和统计语义关系分析术。这些分析术仅仅是可以用于从内容提取特征的一些NLP分析术的例子,并且不意图限制特征水印工具2的范围。
不论使用什么NLP分析术,它们都可以按预定的分级顺序布置以便一些分析术先于其他分析术而进行。此外,一些分析术可能依赖于其他分析术。即,可能需要一个分析术的确定作为另一分析术的输入,因此需要首先进行。本领域技术人员将理解,NLP堆栈10的分级顺序不是永久的并且可以依赖于用户指定而改变。如果分级顺序改变,则探查特征水印的顺序也将改变。
特征水印产生器12接收从每个NLP分析术提取的探知并且产生对于每个分析术特征的特征水印。在一个实施例中,按照符合在NLP堆栈10中建立的层级关系的顺序确定对于NLP分析术的特征水印。例如,考虑按降序顺序具有英语槽文法分析术、话语类型(type of speech)分析术、命名的实体检测分析术、时域消解分析术和联合引用分析术的NLP堆栈10。在此例子中,特征水印产生器12将首先确定对于从英语槽文法提取的特征的特征水印。特征水印产生器12然后将使用对于英语槽文法产生的特征水印作为话语类型特征水印确定的输入。在一些例子中,可能出现下述情况,由于NLP分析术的层级关系,层级较低的一些分析术可能具有不是就在其上的其他分析术作为输入。例如,在此例子的分级关系的底部的联合引用分析术可能是命名的实体检测分析术的孩子。在其中命名的实体检测分析术是联合引用分析术的父亲的情况下,则特征水印产生器12将使用对于命名的实体检测分析术产生的特征水印作为在确定对于联合引用分析术的特征水印时的输入。
如图1所示,特征水印产生器12包括用于确定对于每个NLP分析术特定的特征水印的特征水印组件14。在一个实施例中,特征水印组件14根据以下关系确定特征水印:
F ( C ‾ t , T , S ‾ t ) = W t x , 其中(1)
是在时间t时的内容向量,
T是在时间t时的时间戳,
是在时间戳T时的超类型(supertype)向量,
Figure BDA00003501255300056
是在时间戳T时的特征或属性x的水印,以及
F(*)是可见水印或散列参数化的函数。
通常,对于在时间戳T时提取的特征x的特征水印是对于在具体数据集中的内容计算的在时间t时的内容向量在时间t时的时间戳(T)和在时间戳T时的超类型向量的函数,这是当前正被确定的特征水印的父亲的特征水印。
水印树组件16从由特征水印组件14确定的每个特征水印形成水印树。在一个实施例中,水印树组件16形成水印树,其表示每个NLP分析术的关系的从特征水印组件14产生的每个特征水印之间的层级关系。由水印树组件16形成的水印树通常根据每个特征水印之间的层级关系定义指出存在于特征水印之间的继承的水印的分级指针的索引。如在此使用的,继承的水印是父亲属性的紧凑表示。水印树还可以包括指定从文集访问由该树表示的数据集的时间的时间戳。
水印树组件16通常将在每次对具体文集6内的内容进行任何修改时形成水印树。结果,将存在由水印树组件16产生的范围可以从数千到数百万的大量的水印树。每个水印树将在形成时被加时间戳以反映对作为具体全集4的部分的具体文集6中的内容进行改变的时间。因此,可以形成水印树以示出内容、文集和全集的时间戳。
通常,每个水印树表示在给定维度向量处的水印特征的层级。在一个实施例中,时间向量提供对于具体树的初始查找或索引。每个水印树是对于水印构造继承的分量的组成部分。基础情况主要是在给定索引处的单个水印树。通过归纳,对于具体的文集可以在各个时间戳时形成任意n+1个水印树。在一个实施例中,每个索引由可以包含时间和空间的特征向量定义。以上在关系(1)中阐述的特征水印F(*)将时间参数化并且在需要时可以使用多维向量。在该情况下,代替时间戳,将对其使用向量戳。在任意情况下,以此方式产生多个水印树使得本发明的各个实施例能够对在给定的全集4和文集6内的内容所作的任意修改的源“采指纹(fingerprint)”。
由水印树组件16形成的所有这些水印树可以存储回全集4和文集6中并且可以由用户经由计算设备20访问。用户可以以包括评价和分析对全集4和文集6中的内容的使用、控制和分发的这些功能来使用水印树。本领域技术人员将理解,水印树不限于被存储回全集4和文集6中。例如,水印树可以存储在另一数据库中或者储存库中并且由用户通过另一通信网络经由计算设备20访问。
回去参考图1,特征水印产生器12还包括内容验证组件18,其配置为如果希望探查全集4的具体文集6中的数据内容在如何进行则使用加时间戳的水印树来验证文集的内容。可以在多种场景下使用内容验证。例如,在基于时间的问题回答系统中,本发明的各个实施例可以用于验证在这样的系统中使用的数据的内容。考虑其中医生想要向在以上述方式加水印的文集上运行的与医学有关的问题和回答系统添加新的数据源的场景。在这样的场景下,内容验证组件18可以用于确保有关文集的新数据源中内容的内容有效性。在所有时间戳时来自该文集的所有有效数据将通过过滤器并且可用于该与医学有关的问题和回答系统中。无效数据将不能通过过滤器并且因此不可用。这仅仅是一个例子,并且本领域技术人员将理解,存在内容验证组件18可以用于检测对内容做出的改变的许多其他情况。通常,在其中希望确保全集4中的数据的有效性的任何情况(例如响应于用新的数据源更新文集),都可以使用内容验证组件18。
在一个实施例中,内容验证组件18对数据内容的验证可以包括证实在某个时间时存储内容的具体文集和全集为由水印树组件16形成的水印树的函数。证实可以包括从存储的水印树中选择具有与在文集和全集的证实中指定的具体时间戳对应的时间戳的水印树。接下来,递归地遍历水印树中的分级指针以量度在体现在其中的分级关系中与每个父亲相关联的特征水印是否可以被验证为具有有效的特征水印。如在此使用的,有效的特征水印遵循当前树层级(ply level)和父亲水印的特征集构造,如果适用的话。
在分级关系中不具有有效的特征水印的父亲被无效。如在此使用的,无效的特征水印不遵循对于在操作系统的上下文内的时间点时的具体数据集的特征集构造。除了无效不具有有效的特征水印的父亲之外,在分级关系中从属于无效的父亲的所有孩子也被无效。此外,在分级关系的子链中从被无效的父亲发散(emanate)的所有特征水印也被无效。在一个实施例中,与被无效的特征水印相关联的所有内容可以从响应于对其进行的搜索请求而从文集产生的任意搜索结果中过滤掉。
在其中分级关系中的某些父亲和孩子被认为具有无效的特征水印的情况下,则可以在对在该关系中与这些节点相关联的所有数据内容的重新预处理(re-preprocess)中使用特征水印组件14和水印树组件16。在一个实施例中,特征水印组件14和水印树组件16将仅对于在分级关系中具有被无效的特征水印的父亲和孩子产生新的特征水印,而在分级关系中具有被验证的特征的父亲和孩子将保留其当前的水印特征。这确保优化的复制处理在于,仅重新预处理已经改变的水印特征,而不重新预处理没有改变的水印特征。在一个实施例中,由特征水印组件14和水印树组件16进行的重新预处理可以发生在由预处理输入组件8和NLP堆栈10进行的任意操作之后。
包括新的特征水印和任何未改变的特征水印两者的被更新的水印树然后可以存储在全集4和文集6中用于将来使用。像其他水印树那样,被更新的水印树包括被更新的分级指针,其根据分级关系指出存在于新的特征水印和未改变的水印之间的继承的水印。另外,被更新的水印树可以包括指定形成被更新的水印树时的时间的新的时间戳。
图2示出根据本发明的一个实施例从经过NLP堆栈10的内容产生特征水印和水印树的图1所示的特征水印工具2的更详细的示意图。注意,为了清楚,图2未示出特征水印产生器12。但是,如上所述,图1所示的特征水印产生器12将用于从自NLP堆栈10提取的特征产生特征水印和水印树。
如图2所示,从全集4的文集6(图1)获得并通过预处理输入组件8(图1)构建数据内容块22。数据内容块22被输入到NLP堆栈10中并且被指派了文集时间戳以反映其被输入到该具体文集的时间。尽管未在图2中示出,但是数据内容块还可以包含全集时间戳以反映其被输入到该具体全集的时间。
在图2的例子中,NLP堆栈10包括英语槽文法、话语类型(type of speech)分析术、命名的实体检测分析术、时域消解分析术和联合引用分析术。NPL分析术的管线的分级顺序以英语槽文法开始并且按照到话语类型分析术、命名的实体检测分析术、时域消解分析术和联合引用分析术的顺序而降序。这些NLP分析术的每个提取特征,该特征由特征水印产生器12(图1)使用以产生对于每个分析术的特征水印。
在确定特征水印之后,特征水印产生器12然后可以根据在NLP堆栈10中指定的分级顺序形成水印树24。如图2所示,对于英语槽文法分析术产生特征水印1,对于话语类型分析术产生特征水印2,对于命名的实体检测分析术产生特征水印3,对于时域消解分析术产生特征水印4,并且对于联合引用分析术产生特征水印5。
图2还示出包括树中的所有子链的水印树24的父子关系。在图2中,父亲被指派了超类型变量。例如,特征水印1是特征水印2的父亲,特征水印2是特征水印3的父亲。如图2的例子中所示,特征水印3是特征水印4和特征水印5的父亲。在水印树24中指定的分级指针指示从由NLP堆栈10建立的分级关系产生的所有继承的水印。分级指针被用作用于建立树中的所有节点的水印特征的索引。例如,图2例示特征水印1被用作确定特征水印2的输入。类似地,特征水印3被用作确定特征水印4和5的输入。注意,在这些例子以及类似地有关的其他例子中,父亲的输入(即内容向量和超类型向量)应该具有与在其中确定特征水印的孩子相同的时间戳。
图3示出描述由图1所示的特征水印工具2进行的一般操作的流程图26。在图3中,流程图26在28开始接收来自全集内的文集的内容的数据集。以其原始形式的内容然后在30被预处理以产生适合于NLP的文本的构造块。在32,文本的构造块被应用于NLP堆栈用于可以包括特征提取的数据分析。在34,特征水印产生器12产生对于每个NLP分析术的特征水印。在一个实施例中,根据上述的关系1确定每个特征水印。在36,水印树组件16按上述的方式从每个特征水印产生水印树。水印树可以表示从多个NLP分析术的每个产生的每个特征水印之间的分级关系。具体地,水印树可以定义指出存在于其每个层级关系的特征水印之间的继承的水印的分级指针。然后在38,形成的水印树可以被存储并且用于内容验证(即证实从其获得内容的文集和全集)等。
以上流程图示出了与产生特征水印和形成水印树相关联的处理功能中的一些。在这点上,每个块表示与进行这些功能相关联的处理动作。还应该注意,在一些替换的实施方式中,依赖于所涉及的动作,在框中标记的动作可以不按图中标记的顺序发生,或者事实上可以基本同时或者按相反的顺序执行。而且,本领域普通技术人员将认识到,可以添加描述处理功能的另外的块。
图4示出其中图1所示的特征水印工具的要素可以操作的计算环境的示意。示例的计算环境100仅仅是适合的计算环境的一个例子并且不意图给出对在此公开的方法的使用或功能的范围的任何限制。计算环境100不应被解释为具有与图4所示的组件的任意一个或组合有关的任何依赖性或者要求。
在计算环境100中,存在可与多个其他通用或专用计算系统环境或配置操作的计算机102。可以适合于与示例的计算机102一起使用的公知的计算系统、环境和/或配置的例子包括但不限于个人计算机、服务器计算机、瘦客户端、厚客户端、手持或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、迷你计算机、大型计算机、包括上述系统或设备的任意一个的分布式计算环境等。
可以在由计算机执行的诸如程序模块的计算机可执行指令的一般背景下描述示例计算机102。通常,程序模块包括进行具体任务或实现具体抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等等。示例计算机102可以实践在其中由通过通信网络连接的远程处理设备进行任务的分布式计算环境中。在分布式计算环境中,程序模块可以位于包括存储器存储器件的本地和远程计算机存储介质中。
如图4所示,示出通用计算设备形式的计算环境100中的计算机102。计算机102的组件可以包括但不限于一个或多个处理器或处理单元104、系统存储器106和将包括系统存储器106的各种系统组件耦接到处理器104的总线108。
总线108表示任意几种类型的总线结构中的一个或多个,包括使用任意各种总线架构的存储器总线或存储器控制器、外围总线、加速图形端口和处理器或本地总线。作为例子而非限制,这样的架构包括工业标准架构(ISA)总线、微信道架构(MCA)总线、增强ISA(EISA)总线、视频电子标准协会(VESA)本地总线和外围组件互连(PCI)总线。
计算机102通常包括各种计算机可读介质。这样的介质可以是可由计算机102访问的任意可用的介质,并且其包括易失性和非易失性介质、可移除和不可移除的介质。
在图4中,系统存储器106包括诸如随机存取存储器(RAM)110的易失性存储器形式的和/或诸如ROM 112的非易失性存储器形式的计算机可读介质。包含帮助诸如在启动期间在计算机102内的要素之间传递信息的基本例程的BIOS 114存储在ROM 112中。RAM 110通常包含可由处理器104立即访问和/或当前操作的数据和/或程序模块。
计算机102还可以包括其他可移除/不可以移除、易失性/非易失性计算机存储介质。仅作为例子,图4例示了用于从不可移除的非易失性磁介质读取和向其写入的硬盘驱动器116(未示出,通常称为“硬盘”)、用于从可移除的非易失性磁盘120(例如“软盘”)读取和向其写入的磁盘驱动器118和用于从诸如CD-ROM、DVD-ROM或其他光介质的可移除的非易失性光盘124读取或向其写入的光盘驱动器122。硬盘驱动器116、磁盘驱动器118和光盘驱动器122每个通过一个或多个数据介质接口126连接到总线108。
驱动器及其相关联的计算机可读介质提供了计算机可读指令、数据结构、程序模块和用于计算机102的其他数据的非易失性存储。尽管在此所述的示例环境采用硬盘116、可移除磁盘118和可移除光盘122,但是本领域技术人员应该理解,可以存储可由计算机访问的数据的诸如磁带、闪存卡、数字视频盘、RAM、ROM等的其他类型的计算机可读介质也可以用在示例的操作环境中。
多个程序模块可以存储在硬盘116、磁盘120、光盘122、ROM112或RAM110中,包括,作为例子而非限制,操作系统128、一个或多个应用程序130(例如特征水印工具2)、其他程序模块132和程序数据134。操作系统128、一个或多个应用程序130、其他程序模块132和程序数据134或其一些组合的每个可以包括图1所示的特征水印工具2的实现。
用户可以通过诸如键盘136和定点设备138(比如“鼠标”)的可选的输入设备将命令和信息输入到计算机102中。其他输入设备(未示出)可以包括麦克风、操纵杆、游戏台、卫星信号接收器、串行端口、扫描仪、相机等。这些和其他输入设备通过耦接到总线108的用户输入接口140连接到处理器单元104,但是可以通过诸如并行端口、游戏端口或通用串行总线(USB)的其他接口和总线结构连接。
可选的监视器142或其他类型的显示设备也经由诸如视频适配器114的接口连接到总线108。除了监视器之外,个人计算机通常包括其它外围输出设备(未示出),比如扬声器和打印机,它们可以通过输出外围接口146连接。
计算机102可以使用与一个或多个诸如远程服务器/计算机148的远程计算机的逻辑连接在联网的环境中操作。远程计算机148可以包括在此所述的与计算机102相关的许多或所有要素和特征。
图4所示的逻辑连接是局域网(LAN)150和一般广域网(WAN)152。这样的联网环境在办公室、企业级计算机网络、内联网和因特网中是常见的。当用在LAN联网环境中时,计算机102经由网络接口或适配器154连接到LAN150。当用在WAN联网环境中时,计算机通常包括用于建立通过WAN152的通信的调制解调器156或其它部件。可以是内部的或者外部的调制解调器可以经由用户输入接口140或者其他适当的机制连接到系统总线108。
在联网的环境中,关于个人计算机102所述的程序模块或者其部分可以存储在远程存储器存储设备中。作为例子而非限制,图4例示了存在于远程计算机148的存储器器件上的远程应用程序158。将理解,所示出和描述的网络连接是示例性的并且可以使用用于建立计算机之间的通信链接的其他手段。
示例计算机102的实现可以存储在某种形式的计算机可读介质上或者经过某种形式的计算机可读介质而传输。计算机可读介质可以是可以由计算机访问的任意可用的介质。作为例子而非限制,计算机可读介质可以包括“计算机存储介质”和“通信介质”。
“计算机存储介质”包括在用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任意方法和技术中实现的易失性和非易失性、可移除和不可移除的介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、快闪存储器或者其他存储器技术、CD-ROM、数字通用盘(DVD)或者其他光存储、盒式磁带、磁带、磁盘存储或者其他磁存储设备、或者可以用于存储希望的信息并且可以由计算机访问的任何其他介质。
“通信介质”通常包含计算机程序指令、数据结构、程序模块或者调制的数据信号中的其他数据,比如载波或者其他传输机制。通信介质还包括任何信息传递介质。
术语“调制的数据信号”意指具有其特性集中的一个或多个或者以编码信号中的信息这样的方式改变的信号。作为例子而非限制,通信介质包括诸如有线网络的或直接连线的连接的有线介质或诸如声学、RF、红外和其他无线介质的无线介质。以上任意的组合也可以包括在计算机可读介质的范围内。
显然本发明已经提供了用于提供特征水印工具的方法。尽管结合本发明的一些实施例具体示出和描述了本发明,但是将理解,对于本领域技术人员而言,将发生变型和修改。因此,将理解,所附权利要求意图覆盖落在本发明的真实精神内的所有这样的修改和改变。

Claims (17)

1.一种在计算机系统上进行的用于对存储在多个全集中的内容加水印的方法,每个全集具有多个文集,该方法包括:
使用该计算机系统来进行以下操作:
从所述多个全集的一个内的文集接收内容的数据集;
将该数据集应用于包括多个自然语言处理(NLP)分析术的NLP堆栈,该多个NLP分析术每个分析该数据集;
从多个NLP分析术的每个产生特征水印;以及
从每个特征水印形成水印树,水印树表示从多个NLP分析术的每个产生的特征水印的每个之间的分级关系,该水印树根据该分级关系定义分级指针,分级指针指出存在于特征水印之间的继承的水印,该水印树包括指定从文集访问该数据集的时间的时间戳。
2.根据权利要求1所述的方法,还包括利用文集时间戳将水印树存储在文集中,以及响应于将水印存储在文集中,将全集时间戳应用于与该文集相关联的全集,该文集包括每个在不同的时间戳处形成的多个水印树,并且该全集包括多个全集时间戳,每个全集时间戳与将多个水印树之一存储在文集中相关联。
3.根据权利要求2所述的方法,还包括响应于用新的数据源更新,使用加时间戳的多个水印树来验证文集的内容。
4.根据权利要求3所述的方法,还包括证实在具体时间时的文集和全集为多个水印树的函数。
5.根据权利要求4所述的方法,其中证实包括从多个水印树中选择具有与在文集和全集的证实中指定的具体时间对应的时间戳的水印树,递归地遍历该水印树中的分级指针以量度在该分级关系中与每个父亲相关联的特征水印是否能够被验证为具有有效的特征水印。
6.根据权利要求5所述的方法,还包括将在分级关系中的不具有有效的特征水印的父亲无效,并且将在分级关系中的从属于该被无效的父亲的所有孩子无效。
7.根据权利要求6所述的方法,还包括将从被无效的父亲发散的分级关系的子链中的所有特征水印无效。
8.根据权利要求7所述的方法,还包括从响应于对文集做出的搜索请求而从文集产生的搜索结果中过滤掉与所有被无效的特征水印相关联的所有内容。
9.根据权利要求7所述的方法,还包括重新预处理与在分级关系中具有被无效的特征水印的父亲和孩子相关联的所有数据内容。
10.根据权利要求9所述的方法,其中重新预处理包括仅对于在分级关系中具有被无效的特征水印的父亲和孩子产生新的特征水印,而在分级关系中具有被验证的特征的父亲和孩子保留当前水印特征。
11.根据权利要求10所述的方法,还包括对于分级关系形成包括新的特征水印和任何未改变的水印两者的被更新的水印树,被更新的水印树包括根据分级关系指出存在于新的特征水印和未改变的水印之间的继承的水印的被更新的分级指针,被更新的水印树包括指定形成被更新的水印树的时间的新的时间戳。
12.根据权利要求11所述的方法,还包括利用新的文集时间戳和新的全集时间戳将被更新的水印树存储在文集中。
13.根据权利要求1所述的方法,其中根据以下公式确定每个特征水印:
F ( C ‾ t , T , S ‾ t ) = W t x , 其中
Figure FDA00003501255200022
是在时间t时的内容向量,
T是在时间t时的时间戳,
Figure FDA00003501255200023
是在时间戳T时的超类型向量
Figure FDA00003501255200024
是在时间戳T时的特征或属性x的水印,以及
F(*)是可见水印或散列参数化的函数。
14.一种用于对存储在多个全集中的内容加水印的计算机系统,每个全集具有多个文集,该计算机系统包括:
至少一个处理单元;
存储器,与该至少一个处理单元操作地相关联;以及
特征水印工具,可存储在存储器中并且可由该至少一个处理单元执行,该特征水印工具包括:
输入组件,配置为从所述多个全集的一个内的文集接收内容的数据集;
自然语言处理(NLP)堆栈,包括多个NLP分析术,每个NLP分析术配置为从该数据集提取特征;以及
特征水印产生器,配置为对于多个NLP分析术的每个针对从其提取的特征产生特征水印,该特征水印产生器还配置为从每个特征水印形成水印树,该水印树表示从多个NLP分析术的每个产生的特征水印的每个之间的分级关系,该水印树根据该分级关系定义分级指针,分级指针指出存在于特征水印之间的继承的水印,该水印树包括指定从文集访问该数据集的时间的时间戳。
15.根据权利要求14所述的计算机系统,其中该特征水印产生器还配置为利用文集时间戳将水印树存储在文集中,以及响应于将水印存储在文集中,将全集时间戳应用于与该文集相关联的全集,该文集包括每个在不同的时间戳处形成的多个水印树,并且该全集包括多个全集时间戳,每个全集时间戳与将多个水印树之一存储在文集中相关联。
16.根据权利要求14所述的计算机系统,其中该特征水印产生器从多个分级散列中产生特征水印,每个分级散列是被定义为如下的特征水印函数的分量:
F ( C ‾ t , T , S ‾ t ) = W t x , 其中
是在时间t时的内容向量,
T是在时间t时的时间戳,
Figure FDA00003501255200033
是在时间戳T时的超类型向量
Figure FDA00003501255200034
是在时间戳T时的特征或属性x的水印,以及
F(*)是可见水印或散列参数化的函数。
17.根据权利要求14所述的计算机系统,其中该特征水印产生器还配置为响应于用新的数据源更新,使用被加时间戳的多个水印树来验证文集的内容。
CN201310292100.1A 2012-07-13 2013-07-12 用于表示为树的分级的并基于索引的水印的系统和方法 Expired - Fee Related CN103544204B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/549,056 US8750630B2 (en) 2012-07-13 2012-07-13 Hierarchical and index based watermarks represented as trees
US13/549,056 2012-07-13

Publications (2)

Publication Number Publication Date
CN103544204A true CN103544204A (zh) 2014-01-29
CN103544204B CN103544204B (zh) 2016-12-28

Family

ID=49914019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310292100.1A Expired - Fee Related CN103544204B (zh) 2012-07-13 2013-07-12 用于表示为树的分级的并基于索引的水印的系统和方法

Country Status (2)

Country Link
US (1) US8750630B2 (zh)
CN (1) CN103544204B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063111A (zh) * 2018-07-30 2018-12-21 佛山市甜慕链客科技有限公司 一种大数据处理方法及系统
CN112650980A (zh) * 2019-10-10 2021-04-13 百度(美国)有限责任公司 数据处理加速器及由数据处理加速器执行的计算机实现的方法

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106355628B (zh) * 2015-07-16 2019-07-05 中国石油化工股份有限公司 图文知识点标注方法和装置、图文标注的修正方法和系统
EP3133597A1 (en) 2015-08-19 2017-02-22 Tracklib Holdings AB Method and apparatus for watermarking of audio tracks
US10719624B2 (en) * 2015-09-29 2020-07-21 International Business Machines Corporation System for hiding sensitive messages within non-sensitive meaningful text
CN105404614B (zh) * 2015-11-05 2018-05-25 南通大学 一种基于主谓语编码的文本水印嵌入以及提取方法
CN105205355B (zh) * 2015-11-05 2018-04-10 南通大学 一种基于语义角色位置映射的文本水印嵌入及提取方法
ES2829269T3 (es) * 2017-10-27 2021-05-31 Telefonica Cybersecurity & Cloud Tech S L U Procedimiento de incrustación y extracción de marca de agua para proteger documentos
EP3673394A4 (en) * 2019-05-20 2020-09-09 Alibaba Group Holding Limited IDENTIFICATION OF COPYRIGHT PROTECTED MATERIAL THROUGH INTEGRATED TIME-STATED COPYRIGHT INFORMATION
CN110809762A (zh) 2019-05-20 2020-02-18 阿里巴巴集团控股有限公司 使用嵌入式版权信息识别版权材料
WO2021056183A1 (en) * 2019-09-24 2021-04-01 Citrix Systems, Inc. Watermarks for text content

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7051203B1 (en) 1999-11-08 2006-05-23 International Business Machines Corporation Data watermarks created by using an uneven sampling period
US6664976B2 (en) 2001-04-18 2003-12-16 Digimarc Corporation Image management system and methods using digital watermarks
US7062067B2 (en) 2001-06-21 2006-06-13 International Business Machines Corporation Protecting images with multiple image watermarks
US7266216B2 (en) 2003-08-07 2007-09-04 International Business Machines Corporation Inserting and detecting watermarks in images derived from a source image
US7484100B1 (en) 2004-03-19 2009-01-27 David G Grossman Temporally threaded CMI watermark
CN1897522B (zh) 2005-07-15 2010-05-05 国际商业机器公司 水印嵌入和/或检测的方法、装置及系统
CN101866475B (zh) 2005-08-04 2012-11-21 日本电信电话株式会社 电子水印检测方法及装置
WO2007072372A2 (en) 2005-12-22 2007-06-28 Koninklijke Philips Electronics N.V. Efficient secure forensic watermarking
US8589148B2 (en) * 2006-04-14 2013-11-19 At&T Intellectual Property Ii, L.P. Natural language watermarking
US20100064305A1 (en) 2008-09-10 2010-03-11 Dolby Laboratories Licensing Corporation System and method of detecting unauthorized content usage

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063111A (zh) * 2018-07-30 2018-12-21 佛山市甜慕链客科技有限公司 一种大数据处理方法及系统
CN112650980A (zh) * 2019-10-10 2021-04-13 百度(美国)有限责任公司 数据处理加速器及由数据处理加速器执行的计算机实现的方法

Also Published As

Publication number Publication date
CN103544204B (zh) 2016-12-28
US8750630B2 (en) 2014-06-10
US20140016814A1 (en) 2014-01-16

Similar Documents

Publication Publication Date Title
CN103544204A (zh) 用于表示为树的分级的并基于索引的水印的系统和方法
US10360308B2 (en) Automated ontology building
Batrinca et al. Social media analytics: a survey of techniques, tools and platforms
US8286171B2 (en) Methods and systems to fingerprint textual information using word runs
CN111967242B (zh) 一种文本信息的抽取方法、装置及设备
Chalkidis et al. Modeling and querying greek legislation using semantic web technologies
US20220284174A1 (en) Correcting content generated by deep learning
US20140195532A1 (en) Collecting digital assets to form a searchable repository
US20210191938A1 (en) Summarized logical forms based on abstract meaning representation and discourse trees
US11120215B2 (en) Identifying spans using visual recognition
US11138380B2 (en) Identifying semantic relationships using visual recognition
Hecht The mining and application of diverse cultural perspectives in user-generated content
CN114580008A (zh) 基于文档组件布局的文档访问控制
Spencer Binary trees? Automatically identifying the links between born-digital records
Lomotey et al. RSenter: terms mining tool from unstructured data sources
US11409959B2 (en) Representation learning for tax rule bootstrapping
US11928437B2 (en) Machine reading between the lines
US20210319183A1 (en) Weakly supervised semantic entity recognition using general and target domain knowledge
Koutsomichalis Objektivisering: Text physicalization and self-introspective post-digital objecthood
US11816474B1 (en) Systems and methods for generating dynamically updated metadata using real-time artificial intelligence models
Leadbetter et al. Ontologies and ontology extension for marine environmental information systems
Clough Measuring text reuse and document derivation
Nematollahi et al. Natural language watermarking
Derven et al. Mapping and unmapping Joyce: Geoparsing wandering rocks
Guo Recommendation of reviewers based on text analysis and machine learning: part b

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20161228

Termination date: 20200712