CN101169779A - 在英文文本中嵌入和提取频域水印的方法 - Google Patents
在英文文本中嵌入和提取频域水印的方法 Download PDFInfo
- Publication number
- CN101169779A CN101169779A CNA2007101784228A CN200710178422A CN101169779A CN 101169779 A CN101169779 A CN 101169779A CN A2007101784228 A CNA2007101784228 A CN A2007101784228A CN 200710178422 A CN200710178422 A CN 200710178422A CN 101169779 A CN101169779 A CN 101169779A
- Authority
- CN
- China
- Prior art keywords
- text
- vector
- watermark
- speech
- english text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明涉及在英文文本中嵌入和提取频域水印的方法,属于计算机文本保护技术领域。包括:从英文文本T中获取下一个形容词或副词w;找出w中的同义词集合Sw,作为T中的矢量vc中的一个维度;找出w的代理词wd;与该文本版权人的私钥信息k进行单向哈希运算,得到一个长整数R;用R除以预先设置的分组数目n,n为正整数,得到当前Sw的分组号i;将Sw中的每个单词ws与k进行单向哈希运算,判断得到的余数的奇偶性,分别添入集合Ai和集合Bi;使用Ai的词的个数ci作为该英文文本T的矢量vc;设定与上述文本矢量vc对应的水印矢量vw,作为待嵌入(提取)的水印信息。还包括嵌入和检测水印步骤。以对原始文本的保护。
Description
技术领域
本发明属于计算机文本保护技术领域,特别涉及在英文文本中嵌入和提取频域水印的方法。
背景技术
作为计算机文本保护的一种有效手段,数字水印日益成为人们研究的焦点。然而,目前数字水印技术的研究大多集中在图像、音频、视频数据,对于文本水印的研究相对较少。这主要是由于文本有其特殊性,对文本实施水印较为困难:
(1)文本是由内容和格式构成的,由于对文档内容的表现方式不同,因而文本文档的格式也不尽相同。文本文件的类型很多,文件格式也多种多样,如WORD文档(*doc)、Web页、纯文本、PDF等。人们可以针对任何一种文件格式设计水印方案,但是却很难找出一种水印技术适合所有的文件格式。
(2)各种格式的文件通常可以互相转换,甚至可以直接抽取文件中的纯文本内容,比如Word中的选择性粘贴,只复制粘贴无格式文本,就会使基于格式的文本水印信息完全丢失。更为极端的一点,可以对文本进行重新录入,这样原来嵌入在格式中的水印信息便荡然无存了。
(3)多媒体对象由大量的位组成,并且许多都是不重要的,水印可以隐藏在里面。而文本由字符组成,每个字符都有固定的编码,没有可以嵌入水印信息的多余空间。
(4)多媒体对象某些部分在不引起知觉变化的条件可以删除掉或者随意的替换掉。而对于文本,那怕是仅仅改变其中的一个字符,就可以使整篇文章变得晦涩难懂,甚至所表达的意义完全相反。
由于上述原因,在多媒体水印技术已经开始进入到实际应用阶段的今天,文本水印仍处在理论和实验阶段。现有的文本水印技术大多是基于对文本格式作适量调整,通过赋予文本特定的格式来嵌入水印信息,主要有行移编码、字移编码和特征编码。基于文件格式的文本水印从本质上讲,其保护的并不是人类智慧结晶的文本内容,而是一种出版格式。当文件格式改变时,水印信息也随之消失了。
Jensen第一次提出一种基于同义词替换的文本水印方法。Chiang等人也提出了针对中文文本的基于同义词替换的水印方法。Jensen和Chiang在文章中都提到,实现同义词替换的关键在于建立一个庞大的同义词库;但遗憾的是,他们都只是提出了单薄的理论框架,并没有给出算法的具体实现细节,原因在于难以给出同义词库的具体实现。因此,前人的研究仅停留在理论和探索阶段。
本申请人在向英文文本中嵌入和提取水印的方法这一方向上取得进展,于2005年6月24日申请并获取了一项名为“一种在英文文本中嵌入和提取水印的方法”的中国专利(申请号为200510077471.3)。该专利记载的方法的主要步骤是将一句英文文本滤去特殊字符和空格,得到一个英文字符串后与该文本的版权人的私钥做哈希运算,得到的整数Z如果能被预设的水印嵌入比例整除,则该句的下一句作为水印信息的嵌入句。再用Z对版权信息的比特串取余,得到待嵌入的水印比特信息;用Z对水印信息句字符数取余,确实嵌入水印比特信息的位置,使得位置相邻的两字母编码大小关系代表的0或1与待嵌入的水印信息相同。上述过程不断循环,直至文本结束。水印信息提取过程是嵌入过程的逆过程。该方法的不足之处是难以抵御同语义变换的攻击,有时向文本中增加或删去一个词,都有可能使水印信息受到影响。
发明内容
本发明的目的是提出一种在英文文本中嵌入和提取频域水印的方法,以对文本进行水印信息的嵌入、提取和检测,最终达到对原始文本保护的目的。
本发明提出的在文本中嵌入和提取频域水印的方法,包括水印嵌入和水印提取两部分,其特征在于,所述水印嵌入包括以下步骤:
(1)读入英文文本T,
(2)从左到右扫描该英文文本T、识别并获取该英文文本T中的下一个形容词或副词w;如果遇到该英文文本T的结束符号,那么转步骤(7),否则转步骤(3);
(3)利用WordNet工具找出w在WordNet中的同义词集合Sw,如果该Sw还没有被标识为已处理,则标识该Sw为已处理,同时将Sw作为该英文文本T中的矢量vc中的一个维度,然后转步骤(4),否则转步骤(2);
(4)利用代理词汇表(word-book)工具找出w的代理词wd;
(5)将wd与该英文文本版权人的私钥信息k进行单向哈希运算,得到一个长整数R;用R除以预先设置的分组数目n,n为正整数,得到的余数作为当前Sw的分组号i;
(6)将Sw中的每个单词ws与版权人的私钥信息k进行单向哈希运算,得到一个长整数Z,用Z除以该分组数目n,判断得到的余数的奇偶性,若为奇数,则将ws添入集合Ai;若为偶数,则将ws添入集合Bi;转步骤(2);
(7)计算英文文本T中属于集合Ai的词的个数ci(含重复项),其中i=1,2,...,n;
(8)使用该个数ci作为该英文文本T的矢量vc=c1,c2,...,cn;
(9)设定与上述文本矢量vc对应的水印矢量vw=vw1,vw2,...,vwn,作为待嵌入的水印信息(水印矢量vw是版权人根据版权信息设定的,以矢量的形式表现受保护的版权信息,水印矢量vw的维数与英文文本T的矢量vc的维数相等),水印矢量vw的每一维vwi是一个整数,且当vwi为负时,vwi的绝对值不大于该英文文本T中属于Ai的词的个数,vwi为正时,vwi的值不大于该英文文本T中属于Bi的词的个数,其中i=1,2,...,n;
(10)复制文本T得到一个新文本Tw;
(11)判断水印矢量vw中的一个分量vwi的正负,如果vwi为负,那么在文本Tw中找到vwi的绝对值个数属于集合Ai的词,并将这些词分别替换为集合Bi中的词;如果vwi为正,那么在文本Tw中找到vwi个属于集合Bi的词,并将这些词分别替换为集合Ai中的词,即将水印矢量分量vwi中的信息嵌入到文本Tw中;
(12)判断水印矢量vw中的所有分量是否都已嵌入完毕,如果不是,选中一个未嵌入的分量,重复步骤(11);如果是,则此时的文本Tw为嵌入了频域水印信息的新文本,并且新文本Tw的矢量vc’等于原文本T的矢量vc和水印矢量vw的和。
所述水印提取包括以下步骤:
(13)读入英文文本Tw’;
(14)从左到右扫描、识别并获取Tw’中的下一个形容词或副词w;如果遇到英文文本Tw’的结束符号,那么转步骤(19),否则转步骤(15);
(15)利用WordNet工具找出w的同义词集合Sw,如果该Sw还没有被标识为已处理,那么标识该Sw为已处理,同时转步骤(16),否则转步骤(14);
(16)利用wod-book工具找出w的代理词wd;
(17)将wd与版权人的私钥信息k进行单向哈希运算,得到一个长整数R;用R除以预先设置的分组数目n,得到的余数作为当前Sw的分组号i;
(18)将Sw中的每个单词ws与版权人的私钥信息k进行单向哈希运算,得到一个长整数Z。用Z除以该分组数目n,判断其得到的余数的奇偶性。若为奇数,则将ws添入集合Ai;若为偶数,则将ws添入集合Bi;
(19)计算Tw’中属于集合Ai的词的个数ci”(含重复项),其中i=1,2,...,n;
(20)使用该个数ci”作为该文本Tw’的矢量vc”=c1”,c2”,...,cn”。
本发明的水印提取步骤还可包括对水印的检测,具体步骤为:
(21)用vc”减去英文文本T的矢量vc,得到的差vw’为提取出的水印矢量;
(22)计算vw’与vw的余弦相似度,判断相似度是否大于设定的阈值(阈值由所述英文文本T的版权人给定,取值范围在0和1之间;计算出来的相似度的值介于0和1之间,相似度的值越大,表明所述英文文本Tw’与所述英文文本T越相似),如果余弦相似度大于设定的阈值,则认为所述英文文本T的版权人对于所述英文文本Tw’拥有版权。
本发明的特点及效果:
(1)本发明提出的文本水印方法是基于同义词替换的,通过用同义词或近义词替换文章中某些不太重要的词,以达到隐藏信息的目的。通过这种方法嵌入的水印与文章内容密切相关,可以完全抵御格式转换攻击。
(2)本发明选择替换的对象是对语义影响较小的形容词与副词,对文章的原意几乎没有影响。对同义词集合中待替换的词语进行筛选后,可以保证不会降低文章的阅读性。
(3)本发明首次在文本嵌入的水印具有频域的特征,即将水印分散地隐藏在整个载体中,因此,对单个水印信息的随机破坏很难影响整个水印的表现效果,也增强了水印的鲁棒性,经实验证明,使用本方法嵌入水印后的文本,经受添加攻击、变形攻击等攻击方式后,提出的水印信息仍然能与原水印信息有较好的相似度。
附图说明
图1是本发明方法中水印嵌入过程的步骤框图。
图2是图1、4中的提取文本矢量过程的步骤框图。
图3是图1中嵌入单维水印矢量过程的步骤框图。
图4是本发明方法中水印提取过程的步骤框图。
具体实施方式
本发明提出的一种在英文文本中嵌入和提取频域水印的方法结合附图及举例说明如下:
本发明提出的在文本中嵌入和提取频域水印的方法,包括水印嵌入和水印提取两部分,其中嵌入水印的步骤如图1、2、3所示,包括:首先读入英文文本T,然后对T进行矢量提取,该具体流程如图2所示,第一步将文本T从左向右扫描,识别出并获得它的第一个形容词或副词w,利用WordNet工具找出w的同义词集合Sw。判断Sw是否已经做过标记,如果已经做过标记,则跳过这一词,继续向后识别,并重复这一步骤;如果Sw还没有做过标记,则首先将Sw标记为已处理,即说明该同义词集合Sw已成为文本T中的矢量vc中的一个维度,之后再利用word-book找出w的代理词wd,计算分组号(作为矢量维度的下标)。具体计算方法是将wd与版权人的私钥信息k进行单向哈希运算,得到一个长整数Z后,再除以矢量的总维数n,得到的余数即为分组号,记为i。算出分组号之后,把Sw分成两个成员个数相近的两个集合Ai和Bi,作为水印嵌入的预处理。具体做法是:对于Sw中的每个单词ws,将ws与版权人的私钥信息k进行单向哈希运算,得到一个长整数Z。用Z除以预先设置的分组数目n,n为正整数,判断余数的奇偶性。若为奇数,则将ws添入集合Ai;若为偶数,则将ws添入集合Bi。反复以上步骤直到文件结束,得到所有的Ai和Bi,再依次统计T中属于Ai的词的个数,记为矢量vc中维度i的频率ci,其中i=1,2,...,n。最后得到文本T的矢量vc=c1,c2,...,cn,矢量提取流程结束。
提取文本T的矢量vc后,与设定好的水印矢量vw逐维相加,以嵌入水印信息,本发明嵌入水印信息的步骤如图3所示,包括:水印矢量vw是版权人根据版权信息设定的水印信息,以矢量的形式表现。水印矢量vw的维数与英文文本T的矢量vc的维数相等,vw的每一维vwi是一个整数,且有vwi为负时,vwi的绝对值不大于T中属于集合Ai的词的个数,vwi为正时,vwi的值不大于T中属于集合Bi的词的个数,其中i=1,2,...,n。复制文本T,得到一个新的文本Tw,设新文本Tw的文本矢量为vc’=c1’,c2’,...,cn’,则初始时有vc’=vc。判断水印矢量vw的每个分量是否为正,如果vwi<0,即ci+vwi<ci’,那么找到文本Tw中一个属于集合Ai的词,将其替换成集合Bi中的词,因此,ci’的值也就减小了1,反复这一替换过程,直到得到ci’=ci+vwi;如果vwi>0,即ci+vwi>ci’,那么找到文本Tw中一个属于集合Bi的词,将其替换成集合Ai中的词,因此,ci’的值也就增大了1,反复这一替换过程,直到得到ci’=ci+vwi;如果vwi=0,则不做改变。其中,i=1,2,...,n。通过这一过程,水印矢量分量vwi被嵌入到新文本矢量分量ci’中去。嵌入所有的水印矢量分量后,生成的新的文本Tw即成为嵌入水印后的文本,其矢量vc’=vc+vw。也就是说新的文本Tw中已经嵌入了水印信息。
上述水印的嵌入过程结合图1,图2,图3进一步举例说明如下;首先读入英文文本T,接语句行进顺序识别并获得一个形容词/副词w(例:tremendous),通过WordNet工具找到该词的同义词集合Sw(例:wondrous,enormous等)。如果Sw已做过标记,则跳过该词继续识别下一形容词/副词;如果Sw未做标记,则先标记Sw,利用word-book工具找到w的代理词wd,用wd和版权人的私钥信息k一起做单向哈希,得到的整数Z除以总的矢量维数,余数(例如余数为5)即作为分组号i(即词tremendous其同义词集合的分组号为5)。同时对Sw中的每个词ws分别与版权人的私钥信息一起做单向哈希,得到的整数Z除以预先设置的分组数目n,余数若为奇数则将词ws归入集合Ai,否则归入集合Bi(例,tremendous归入A5,而wondrous则归入B5)。重复上述过程,直到文本T中所有形容词/副词都被找到为止。之后,依次统计Ai中含有的T中词的个数(重复的也计算在内),计为ci,综合所有的ci(i=1,2,...,n),得到文本T的矢量vc=c1,c2,...,cn。
得到矢量vc后,与设定好的水印矢量vw逐维相加。复制文本T,从而得到一个新的文本Tw。设新文本Tw的文本矢量为vc’=c1’,c2’,...,cn’,则一开始时有vc’=vc。首先判断水印矢量第i维频率vwi的值是否大于0。如果vwi<0(例,vw5=-2),那么将文本Tw中一个属于集合Ai的词替换成集合Bi中的词(例,将tremendous换为wondrous,则c5’=c5-1),借此将ci’的数值减1,反复这个步骤直到ci’=ci+vwi;如果vwi>0,那么将文本Tw中一个属于集合Bi的词替换成集合Ai中的词(例,将wondrous换为tremendous,则c5’=c5+1),借此将ci’的数值加1,反复这个步骤直到ci’=ci+vwi;如果wi=0,则不做修改,最终使得ci’=ci+vwi。其中,i=1,2,...,n。按照上述过程,将矢量vc的所有维度都与对应维度的vw相加之后,得到新的文本Tw和新的文本矢量vc’,即作为嵌入水印后的文本及其文本矢量。水印嵌入过程结束。
本发明的水印提取包括:读入嵌入水印的文本Tw’,对Tw’进行矢量提取,其过程和嵌入水印时相同(如图2所示),在此不再重述,得到文本Tw’的矢量vc”=c1”,c2”,...,cn”。该步骤还可包括对水印的检测,具体步骤如图4所示,将新的矢量vc”和原先的文本T的矢量vc进行减法计算:vc”-vc=vw’,得到的vw’就是提取出来的水印矢量。计算出vw’与原先的水印矢量vw的余弦相似度Q,再与给定的阈值σ进行比较,如果Q>σ,则成功检测出水印,则认为所述英文文本T的版权人对于所述英文文本Tw’拥有版权;如果Q<σ,则认为没有检测到水印,则认为所述英文文本T的版权人对于所述英文文本Tw’不拥有版权。
本发明中提到的WordNet工具是由美国Princetion大学认知实验室Miller等人开发研制成功的基于心理语言学原则的机器词典,其对同义词的定义为“如果两种表达方式在语言文本中相互替代而不改变其真值,则这两种表达就是同义的”。利用WordNet建立同义词库,可以有效地降低替换同义词时对原文文意的改变。
本发明中提到的代理词汇表word-book工具是在矢量提取之前,预先定义好的,其中每个单词代表一个同义/近义词集合,称为代理词,是将大量同义词分组的依据。定义该表的过程中,必须保证所有相关联的同义/近义词能且仅能被一个代理词代表,由此确保所有相关联的同义/近义词被分在同一组。
Claims (2)
1.一种在文本中嵌入和提取频域水印的方法,其特征在于,所述水印嵌入包括以下步骤:
(1)读入英文文本T,
(2)从左到右扫描该英文文本T、识别并获取该英文文本T中的下一个形容词或副词w;如果遇到该英文文本T的结束符号,那么转步骤(7),否则转步骤(3);
(3)利用WordNet工具找出w在WordNet中的同义词集合Sw,如果该Sw还没有被标识为已处理,则标识该Sw为已处理,同时将Sw作为该英文文本T中的矢量vc中的一个维度,然后转步骤(4),否则转步骤(2);
(4)利用代理词汇表word-book工具找出w的代理词wd;
(5)将wd与该英文文本版权人的私钥信息k进行单向哈希运算,得到一个长整数R;用R除以预先设置的分组数目n,n为正整数,得到的余数作为当前Sw的分组号i;
(6)将Sw中的每个单词ws与版权人的私钥信息k进行单向哈希运算,得到一个长整数Z,用Z除以该分组数目n,判断得到的余数的奇偶性,若为奇数,则将ws添入集合Ai;若为偶数,则将ws添入集合Bi;转步骤(2);
(7)计算英文文本T中属于集合Ai的词的个数ci(含重复项),其中i=1,2,...,n;
(8)使用该个数ci作为该英文文本T的矢量vc=c1,c2,...,cn;
(9)设定与上述文本矢量vc对应的水印矢量vw=vw1,vw2,...,vwn,作为待嵌入的水印信息,水印矢量vw的每一维vwi是一个整数,且当vwi为负时,vwi的绝对值不大于该英文文本T中属于Ai的词的个数,vwi为正时,vwi的值不大于该英文文本T中属于Bi的词的个数,其中i=1,2,...,n;
(10)复制文本T得到一个新文本Tw;
(11)判断水印矢量vw中的一个分量vwi的正负,如果vwi为负,那么在文本Tw中找到vwi的绝对值个数属于集合Ai的词,并将这些词分别替换为集合Bi中的词;如果vwi为正,那么在文本Tw中找到vwi个属于集合Bi的词,并将这些词分别替换为集合Ai中的词,即将水印矢量分量vwi中的信息嵌入到文本Tw中;
(12)判断水印矢量vw中的所有分量是否都已嵌入完毕,如果不是,选中一个未嵌入的分量,重复步骤(11);如果是,则此时的文本Tw为嵌入了频域水印信息的新文本,并且新文本Tw的矢量vc’等于原文本T的矢量vc和水印矢量vw的和。
所述水印提取包括以下步骤:
(13)读入英文文本Tw’;
(14)从左到右扫描、识别并获取Tw’中的下一个形容词或副词w;如果遇到英文文本Tw’的结束符号,那么转步骤(19),否则转步骤(15);
(15)利用WordNet工具找出w的同义词集合Sw,如果该Sw还没有被标识为已处理,那么标识该Sw为已处理,同时转步骤(16),否则转步骤(14);
(16)利用word-book工具找出w的代理词wd;
(17)将wd与版权人的私钥信息k进行单向哈希运算,得到一个长整数R;用R除以预先设置的分组数目n,得到的余数作为当前Sw的分组号i;
(18)将Sw中的每个单词ws与版权人的私钥信息k进行单向哈希运算,得到一个长整数Z。用Z除以该分组数目n,判断其得到的余数的奇偶性。若为奇数,则将ws添入集合Ai;若为偶数,则将ws添入集合Bi;
(19)计算Tw’中属于集合Ai的词的个数ci”(含重复项),其中i=1,2,...,n;
(20)使用该个数ci”作为该文本Tw’的矢量vc”=c1”,c2”,...,cn”。
2.如权利要求1所述的方法,其特征在于,所述的水印提取步骤还包括对水印的检测,具体步骤为:
(21)用vc”减去英文文本T的矢量vc,得到的差vw’为提取出的水印矢量;
(22)计算vw’与vw的余弦相似度,判断相似度是否大于设定的阈值,如果余弦相似度大于设定的阈值,则认为所述英文文本T的版权人对于所述英文文本Tw’拥有版权。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2007101784228A CN101169779A (zh) | 2007-11-30 | 2007-11-30 | 在英文文本中嵌入和提取频域水印的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2007101784228A CN101169779A (zh) | 2007-11-30 | 2007-11-30 | 在英文文本中嵌入和提取频域水印的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101169779A true CN101169779A (zh) | 2008-04-30 |
Family
ID=39390408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2007101784228A Pending CN101169779A (zh) | 2007-11-30 | 2007-11-30 | 在英文文本中嵌入和提取频域水印的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101169779A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102194205A (zh) * | 2010-03-18 | 2011-09-21 | 湖南大学 | 一种基于同义词替换的文本可恢复水印方法和装置 |
CN102254126A (zh) * | 2011-07-29 | 2011-11-23 | 西安交通大学 | 鲁棒的自然语言哈希域扩频水印编码算法 |
WO2012083882A1 (zh) * | 2010-12-23 | 2012-06-28 | 北大方正集团有限公司 | 用于西文水印处理的水印图像分块方法和装置 |
CN111625785A (zh) * | 2020-05-07 | 2020-09-04 | 清华四川能源互联网研究院 | 一种基于数据特征权重分析的时序数据水印比较算法 |
-
2007
- 2007-11-30 CN CNA2007101784228A patent/CN101169779A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102194205A (zh) * | 2010-03-18 | 2011-09-21 | 湖南大学 | 一种基于同义词替换的文本可恢复水印方法和装置 |
CN102194205B (zh) * | 2010-03-18 | 2013-05-22 | 南京信息工程大学 | 一种基于同义词替换的文本可恢复水印方法和装置 |
WO2012083882A1 (zh) * | 2010-12-23 | 2012-06-28 | 北大方正集团有限公司 | 用于西文水印处理的水印图像分块方法和装置 |
CN102567938A (zh) * | 2010-12-23 | 2012-07-11 | 北大方正集团有限公司 | 用于西文水印处理的水印图像分块方法和装置 |
CN102567938B (zh) * | 2010-12-23 | 2014-05-14 | 北大方正集团有限公司 | 用于西文水印处理的水印图像分块方法和装置 |
CN102254126A (zh) * | 2011-07-29 | 2011-11-23 | 西安交通大学 | 鲁棒的自然语言哈希域扩频水印编码算法 |
CN111625785A (zh) * | 2020-05-07 | 2020-09-04 | 清华四川能源互联网研究院 | 一种基于数据特征权重分析的时序数据水印比较算法 |
CN111625785B (zh) * | 2020-05-07 | 2022-03-01 | 清华四川能源互联网研究院 | 一种基于数据特征权重分析的时序数据水印比较方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105912514B (zh) | 基于指纹特征的文本复制检测系统及方法 | |
CN101315622A (zh) | 检测文件相似度的系统及方法 | |
Singh et al. | OCR++: a robust framework for information extraction from scholarly articles | |
Jalil et al. | A zero-watermarking algorithm for text documents based on structural components | |
Jalil et al. | An invisible text watermarking algorithm using image watermark | |
Li et al. | Generating steganographic image description by dynamic synonym substitution | |
Yuling et al. | An efficient linguistic steganography for Chinese text | |
Jalil et al. | A zero text watermarking algorithm based on non-vowel ASCII characters | |
CN101169779A (zh) | 在英文文本中嵌入和提取频域水印的方法 | |
Chen et al. | Text watermarking algorithm based on semantic role labeling | |
Jalil et al. | Text watermarking using combined image-plus-text watermark | |
Skylaki et al. | Named entity recognition in the legal domain using a pointer generator network | |
Meelen et al. | Optimisation of the largest annotated Tibetan corpus combining rule-based, memory-based, and deep-learning methods | |
Khairullah et al. | Steganography in bengali unicode text | |
Ba-Alwi et al. | Content authentication of English text via internet using zero watermarking technique and Markov model | |
Granitzer et al. | A comparison of layout based bibliographic metadata extraction techniques | |
Ghilan et al. | Combined Markov model and zero watermarking techniques to enhance content authentication of english text documents | |
Lin et al. | Combining a segmentation-like approach and a density-based approach in content extraction | |
CN105320716A (zh) | 数字出版物的自动标注方法 | |
Sui et al. | A steganalysis method based on the distribution of first letters of words | |
CN113435218A (zh) | 一种基于正则表达式的语音翻译文本信息抽取方法 | |
Al-Wesabi et al. | Proposing a High-Robust Approach for Detecting the Tampering Attacks on English Text Transmitted via Internet. | |
Zou et al. | A two-phase plagiarism detection method | |
Al-Wesabi | Text Analysis-Based Watermarking Approach for Tampering Detection of English Text. | |
KR20070106475A (ko) | 텍스트 복제 탐지 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |