CN117290825A - 基于单词内字符变序的英文文本水印嵌入和提取方法 - Google Patents

基于单词内字符变序的英文文本水印嵌入和提取方法 Download PDF

Info

Publication number
CN117290825A
CN117290825A CN202311437465.9A CN202311437465A CN117290825A CN 117290825 A CN117290825 A CN 117290825A CN 202311437465 A CN202311437465 A CN 202311437465A CN 117290825 A CN117290825 A CN 117290825A
Authority
CN
China
Prior art keywords
word
watermark
carrier
character
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311437465.9A
Other languages
English (en)
Inventor
王晖
袁鑫
方骥
叶施仁
陈阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou University
Original Assignee
Changzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou University filed Critical Changzhou University
Priority to CN202311437465.9A priority Critical patent/CN117290825A/zh
Publication of CN117290825A publication Critical patent/CN117290825A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • G06F21/16Program or content traceability, e.g. by watermarking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Technology Law (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及水印处理技术领域,尤其涉及基于单词内字符变序的英文文本水印嵌入和提取方法,包括设置水印信息,并利用水印字符编码规则得到水印信息中的字符对应的二进制序列;利用分词工具对需要水印处理的英文文本进行分词;取出载体单词位数大于等于二进制序列长度+2的所有单词;从载体单词的第二位字符开始与二进制序列的位进行逐位匹配,取出二进制序列不为0的载体单词的字符;进行移位处理,并将不为0的载体单词的字符替换为移位后的字符,得到嵌入后的水印单词;并将嵌入后的水印单词替换英文文本中对应的载体单词。本发明解决基于文本格式方法依赖文本格式,水印信息易丢失、文本的语句易出现歧义问题。

Description

基于单词内字符变序的英文文本水印嵌入和提取方法
技术领域
本发明涉及水印处理技术领域,尤其涉及基于单词内字符变序的英文文本水印嵌入和提取方法。
背景技术
文本水印技术多应用于版权保护领域,是将水印信息通过特殊手段隐藏在文本中;国内技术性文档,学术论文,商务书面交流等常采用英文文本、或中英文对照文本的形式;由于英文文本在互联网上交流发布时容易被非法复制和盗用,因此研究英文文本的水印技术对英文文本进行版权保护十分必要。
一般认为水印技术涉及三方面信息,包括水印信息、原文本信息和含嵌入水印文本信息;即通过向原文本信息嵌入水印信息形成含水印文本信息;现有的文本水印技术主要分为两大类:基于文本格式的文本水印和基于自然语言的文本水印;基于文本格式的文本水印技术是通过改变文本格式实现水印嵌入,例如通过改变文本行间距,字间距或字体颜色等来达到信息隐藏的目的,但该方法较为依赖文本格式,水印信息易丢失;基于自然语言的文本水印是通过对文本进行语义分析,用同义词替换等来实现信息隐藏,但该方法会破坏文本内容,文本的语句易出现歧义。
发明内容
针对现有方法的不足,本发明解决基于文本格式方法依赖文本格式,水印信息易丢失问题;基于自然语言方法破坏文本内容,文本的语句易出现歧义问题。
本发明所采用的技术方案是:基于单词内字符变序的英文文本水印嵌入方法包括以下步骤:
步骤一、设置水印信息,并利用水印字符编码规则得到水印信息中的字符对应的二进制序列;
水印信息的设置可以根据需求自定义设置,包括水印信息中字符的大小写、水印信息长度等。
进一步的,水印字符编码规则中将字符的大小写一一对应为不同的二进制序列。
字符对应二进制序列的长度可以根据需求自定义设置,使编码规则更加灵活,适用性更强。
步骤二、利用分词工具对需要嵌入水印的英文文本进行分词,得到所有单词;
进一步的,分词工具包括jieba、ansj、hanlp。
采用不同的分词工具,可以根据英文文本的类型采用不同的分词工具。
步骤三、取出所有单词中位数大于等于二进制序列长度+2,并作为载体单词;
为了保证载体单词的首尾字符不被水印信息的字符覆盖,便于对载体单词的语义理解,通常会保留单词的首尾字符。
进一步的,从所有载体单词中选出与水印信息长度相同个数的载体单词。
进一步的,水印信息长度相同个数的载体单词的选择采用包括:顺序选择、跳步选择。
可以针对英文文本的级别,采用不同的选取方式;例如,英文本文的级别较低,则顺序选择与水印信息长度相同个数的载体单词即可。
步骤四、从载体单词的第2位字符开始与二进制序列的位进行逐位匹配,取出二进制序列不为0的载体单词的字符;
步骤五、对不为0的载体单词的字符进行移位处理,并将不为0的载体单词的字符替换为移位后的字符,得到嵌入后的水印单词;
进一步的,移位处理包括:平移,对换和映射。
为了便于单词的可理解,通常保持字符不改变,试用采用移位法;根据水印字符编码规则设定移位位数,例如二进制序列中不为0的只有2个,则适宜移位1位。
进一步的,将载体单词进行转换和排列,得到水印单词键,与水印单词为值组成载体单词词库。
进一步的,转换包括将载体单词进行大写或小写转换。
进一步的,排列包括对载体单词内的所有字符进行升序或降序。
步骤六、并用嵌入后的水印单词替换英文文本中对应的载体单词。
替换后的英文文本为带有水印单词的文本,从阅读的角度,几个单词的字符拼写错误不会对阅读造成困扰或误解,水印处理方法简单有效,可用于文件版权保护领域。
进一步的,基于单词内字符变序的英文文本水印提取方法,包括:对基于单词内字符变序的英文文本水印嵌入方法得到的带有水印的英文文本进行逆向操作,得到被嵌入的水印信息。
本发明的有益效果:
1、本发明提出的方法对含水印单词的长度进行筛选,使得含水印单词不会过于集中,降低水印被察觉的风险;
2、本发明使用的载体单词词库,可以根据单词签名快速查询载体单词,能够缩短水印提取所需时间;
3、本发明能够实现不影响文本可读性的前提下进行水印嵌入与提取。
附图说明
图1是本发明的基于单词内字符变序的英文文本水印嵌入和提取方法流程图;
图2是本发明的水印嵌入具体过程流程图;
图3是本发明的水印提取具体过程流程图;
图4是本发明的水印字符嵌入载体单词过程示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明,此图为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
在英语语法中,英文单词是英语表达的基础,不少研究人员对单词进行实验和研究;Rawlinson对英文单词进行研究后发现:单词内部字符的顺序打乱并不影响熟练的阅读者对单词的辨认;White等通过实验发现:辨别打乱首尾字符顺序的单词会比辨别只打乱中间字符顺序的单词所花的时间更长;如有示例文本:“Aoccdrnig to a rseearch,itdeosn't mttaer in waht oredr the ltteers in a wrod are,the olny iprmoetnttihng is taht the frist and lsat ltteer be at the rghit pclae.”;直观来看,上述示例文本中部分单词的字符拼写顺序存在错误,例如单词“Aoccdrnig”其正确词序为“According”;而完全正确的原文文本应当是:“According to a research,it doesn'tmatter in what order the letters in a word are,the only important thing isthat the first and last letter be at the right place.”;尽管示例文本中的部分单词字符顺序有错误,但是这并不影响读者对文本语义的进行理解;事实表明,人能够通过长期、正确的历史记忆对不严重的词序错误进行自动纠错;这也进一步表明单词内的字符顺序中存在信息的冗余空间;本发明利用英文文本中单词内字符顺序的冗余作为水印信息的载体,提出一种不影响文本可阅读性的水印嵌入与提取的方法。
如图1所示,基于单词内字符变序的英文文本水印嵌入方法包括以下步骤:
本实施例令水印信息为“cczu”;原英文文本为“Studies show that those whofail regularly and keep trying anyway are better equipped to respond tochallenges in a wonderful and constructive way.They learn how to trydifferent strategies,ask others for advice.”
步骤一、水印字符编码,给定具有N个字符的水印字符串,顺序读取字符串中每个字符,并依据编码规则将字符转换为对应二进制序列;
如图2所示,步骤11、顺序读取水印信息字符串“cczu”中每个字符;读取‘c’根据表1的水印字符编码规则将其转换为‘000011’;按照字符‘c’相同的处理方法将剩余字符‘c’‘z’‘u’依次转换为‘000011’‘011010’‘010101’。
表1水印字符编码规则
需要说明是,本发明只举例了表1中的编码规则,可以根据需要设置其他字符与二进制编码的对应关系,例如可以是5位编码,也可以是7位以上编码。
步骤二、选定载体单词。预处理文本,对文本进行分词处理,获取文本中的全部单词。从预处理后的文本中顺序取出N个字符长度大于7的单词;
步骤12、预处理需要嵌入水印的英文文本,对文本使用jieba分词工具进行分词处理,获取文本中的全部单词;从预处理后的文本中顺序取出4个字符长度大于7的单词作为载体单词,即“regularly,equipped,challenges,wonderful”;分词工具包括不限于ansj、hanlp等。
需要注意的是,本实施例只举例文本为顺序提取载体单词,也可以根据自定义规则去取,例如,取后4个字符长度大于7的单词,也可以按奇数或偶数位取等;但水印提取时需与水印嵌入规则保持一致即可。
步骤13、按顺序将水印字符串中的4个字符与4个载体单词一一对应:‘c’对应“regularly”,‘c’对应“equipped”,‘z’对应“chlelanges”,‘u’对应“woedfrnul”;将第一个字符‘c’的水印信息“000011”嵌入至其对应的载体单词“regularly”中,得到嵌入水印的水印单词“regulraly”;用含水印单词“regulraly”替换原文本中的载体单词“regularly”;以第一个字符‘c’相同的处理方法依次处理余下的水印字符:将“c,z,u”依次嵌入“equipped,challenges,wonderful”得到含水印单词“equipepd,chlelanges,woedfrnul”,并用含水印单词替换原文本中的载体单词。
步骤三、水印嵌入。按顺序将水印字符串中的N个字符与N个载体单词一一对应;逐一将字符的水印信息嵌入至其对应的载体单词中;用嵌入水印后的水印单词替换原文本中的载体单词,形成含水印文本;
对步骤13中水印字符‘c’嵌入载体单词“regularly”的具体步骤将结合图4进行说明:
步骤131、按顺序将水印字符‘c’的二进制序列“000011”与“regularly”的第2位至第7位字符一一对应,对应效果如图4步骤a所示。
步骤132、顺序取出“regularly”中对应位置二进制位为‘1’的字符:‘a’、‘r’,形成一个循环字符队列“ar”,并记录字符队列与原单词字符间的位置映射关系;循环左移字符队列1位,得到字符队列“ra”。
需要注意的是仅举例循环左移字符队列1位,还可以采用古典加密法的平移,对换,映射等方法,但水印提取时需与水印嵌入移位规则保持一致即可。
步骤133、将“ra”的每个字符根据位置映射关系替换回载体单词,得到嵌入水印的水印单词“regulraly”。
步骤四、建立词库。对被替换的载体单词,将单词字符进行小写转换并升序排列,得到单词签名;以单词签名为键,载体单词为值,存入载体单词词库;
步骤134、对被替换的载体单词“regularly”字符进行小写或大写转换并升序或降序排列,形成单词签名“aegllrruy”;以“aegllrruy”为键,“regularly”为值存入载体单词词库;按照“regularly”相同的处理方法,将“equipped,challenges,wonderful”生成单词签名“deeippqu,aceeghllns,deflnoruw”,以单词签名为键,载体单词为值存入载体单词词库。
需要注意的是水印嵌入过程的小写或大写转换、以及升序或降序排列需要与水印提取过程保持一致,即水印嵌入时采用小写升序,则水印提取时也需要采用小写升序,依次类推。
词库中的每个单词的键为字符串类型,存储单词签名;单词签名计算方式为先对单词字符进行小写转换,后重新升序排列形成单词签名;词库中每个单词的值是集合类型,存储单词签名对应的全部载体单词,即1个单词签名对应1个或多个载体单词。
经水印嵌入得到含水印文本“Studies show that those who fail regulralyand keep trying anyway are better equipepd to respond to chlelanges in awoedfrnul and constructive way.They learn how to try different strategies,askothers for advice.”
基于单词内字符变序的英文文本水印提取方法,包括:
从含水印的英文文本中提取水印信息,结合图3进行详细说明:
步骤21、采用与嵌入方法相同的水印文本预处理技术,预处理嵌入水印的英文文本,对文本使用jieba分词工具进行分词处理,获取文本中全部的单词;从预处理后的文本中顺序读取字符长度大于7的单词:“regulraly”,“equipepd”,“chlelanges”,“woedfrnul”,“constructive”,“different”,“strategies”。
步骤22、读取第一个单词“regulraly”,将单词字符转变为小写并进行升序排序,得到对应的单词签名“aegllrruy”;根据单词签名查询载体单词词库,获取水印单词对应的载体单词“regularly”;按照第一个单词“regulraly”相同的处理方法依次处理剩余的单词,生成单词签名到词库查询对应载体单词:读取“equipepd”,生成单词签名“deeippqu”,查询载体单词为“equipped”;读取“chlelanges”;生成单词签名“aceeghllns”,查询载体单词为“challenges”;读取“woedfrnul”,生成单词签名“deflnoruw”,查询载体单词为“wonderful”;当读取“constructive”,生成单词签名“cceinorsttuv”,查询结果为空时,即后续没有含水印单词,停止读取剩余单词。
对步骤22中根据单词签名查询载体单词词库,获取水印单词对应的载体单词,具体步骤如下:
步骤221、读取“regulraly”,生成单词签名“aegllrruy”,查询载体单词词库,得到对应集合,集合中只有“regularly”,即“regularly”为载体单词;
步骤222、读取“equipepd”生成单词签名“deeippqu”,查询载体单词词库,得到对应集合,集合中只有元素“equipped”,即“equipped”为载体单词;
步骤223、读取“chlelanges”生成单词签名“aceeghllns”查询载体单词词库,得到对应集合,集合中只有元素“challenges”,即“challenges”为载体单词;
步骤224、读取“woedfrnul”,生成单词签名“deflnoruw”,查询载体单词词库,获取到载体单词集合:“wonderful,underflow”;比较“woedfrnul”与集合中单词的第1位、第8位至最后1位的字符,集合中的单词“wonderful”与“woedfrnul”这些位置的字符完全相同,即“wonderful”为“wofdenrul”的载体单词。
若根据单词签名查询到对应载体单词集合且集合中有多个单词,则比较水印单词与集合中单词特定位置的字符做进一步确认;具体比较的位置为:第1位、第8位至最后1位的字符;若单词上述位置字符与水印单词相同位置字符全部相同,则确认该单词为水印单词的载体单词。
步骤225、读取“constructive”生成单词签名“cceinorsttuv”,查询载体单词词库,查询结果为空,该单词未嵌入水印。
步骤23、取第一个含水印单词“regulraly”,顺序将水印单词“regulraly”与载体单词“regularly”第2个至第7个字符一一对应:“<e-e>,<g-g>,<u-u>,<l-l>,<r-a>,<a-r>”;逐一对比每个对应位置的两个字符:第1个位置‘e’,‘e’两字符相同,标记‘0’;第2个位置‘g’,‘g’两字符相同,标记‘0’;第3个位置‘u’,‘u’两字符相同,标记‘0’;第4个位置‘l’,‘l’两字符相同,标记‘0’;第5个位置‘r’,‘a’两字符不同,标记‘1’;第6个位置‘a’,‘r’两字符不同,标记‘1’。将所有标记依次组合,得到二进制序列“000011”;按照第一个含水印单词“regulraly”相同的处理方法依次提取剩余含水印单词的水印二进制序列:读取“equipepd”,提取出“000011”;读取“chlelanges”,提取出“011010”;读取“woedfrnul”,提取出“010101”;
步骤24、根据表1所示编码规则将二进制序列“000011”还原为水印字符“c”;剩余二进制序列按照第1个二进制序列相同的处理方法进行水印字符还原:依次将“000011,011010,010101”还原为水印字符:“c,z,u”;依次拼接水印字符‘c’,‘c’,‘z’,‘u’,得到水印信息“cczu”。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

Claims (10)

1.基于单词内字符变序的英文文本水印嵌入方法,其特征在于,包括以下步骤:
步骤一、设置水印信息,并利用水印字符编码规则得到水印信息中的字符对应的二进制序列;
步骤二、利用分词工具对需要嵌入水印的英文文本进行分词,得到所有单词;
步骤三、取出所有单词中位数大于等于二进制序列长度+2,并作为载体单词;
步骤四、从载体单词的第2位字符开始与二进制序列的位进行逐位匹配,取出二进制序列不为0的载体单词的字符;
步骤五、对不为0的载体单词的字符进行移位处理,并将不为0的载体单词的字符替换为移位后的字符,得到嵌入后的水印单词;
步骤六、并用嵌入后的水印单词替换英文文本中对应的载体单词。
2.根据权利要求1所述的基于单词内字符变序的英文文本水印嵌入方法,其特征在于,水印字符编码规则中将字符的大小写一一对应为不同的二进制序列。
3.根据权利要求1所述的基于单词内字符变序的英文文本水印嵌入方法,其特征在于,分词工具包括jieba、ansj、hanlp。
4.根据权利要求1所述的基于单词内字符变序的英文文本水印嵌入方法,其特征在于,载体单词的个数与水印信息长度相同。
5.根据权利要求4所述的基于单词内字符变序的英文文本水印嵌入方法,其特征在于,载体单词的选择的采用包括顺序选择、跳步选择。
6.根据权利要求1所述的基于单词内字符变序的英文文本水印嵌入方法,其特征在于,移位处理包括:平移,对换和映射。
7.根据权利要求1所述的基于单词内字符变序的英文文本水印嵌入方法,其特征在于,还包括:将载体单词进行转换和排列,得到水印单词键,与水印单词为值组成载体单词词库。
8.根据权利要求7所述的基于单词内字符变序的英文文本水印嵌入方法,其特征在于,转换包括将载体单词进行大写或小写转换。
9.根据权利要求7所述的基于单词内字符变序的英文文本水印嵌入方法,其特征在于,排列包括对载体单词内的所有字符进行升序或降序。
10.基于单词内字符变序的英文文本水印提取方法,其特征在于,对基于单词内字符变序的英文文本水印嵌入方法得到的带有水印的英文文本进行逆向操作,得到被嵌入的水印信息。
CN202311437465.9A 2023-10-31 2023-10-31 基于单词内字符变序的英文文本水印嵌入和提取方法 Pending CN117290825A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311437465.9A CN117290825A (zh) 2023-10-31 2023-10-31 基于单词内字符变序的英文文本水印嵌入和提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311437465.9A CN117290825A (zh) 2023-10-31 2023-10-31 基于单词内字符变序的英文文本水印嵌入和提取方法

Publications (1)

Publication Number Publication Date
CN117290825A true CN117290825A (zh) 2023-12-26

Family

ID=89240843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311437465.9A Pending CN117290825A (zh) 2023-10-31 2023-10-31 基于单词内字符变序的英文文本水印嵌入和提取方法

Country Status (1)

Country Link
CN (1) CN117290825A (zh)

Similar Documents

Publication Publication Date Title
Springmann et al. OCR of historical printings with an application to building diachronic corpora: A case study using the RIDGES herbal corpus
TW310400B (zh)
EP0294950A2 (en) A method of facilitating computer sorting
US7836399B2 (en) Detection of lists in vector graphics documents
JPH07168912A (ja) プリント文書の光学的文字認識能力強化方法及びその手段
Shirali-Shahreza et al. Arabic/Persian text steganography utilizing similar letters with different codes
CN106528536A (zh) 一种基于词典与文法分析的多语种分词方法
WO2004109492A1 (fr) Procede et appareil de traitement et de representation d&#39;objets
Kashefi et al. A novel string distance metric for ranking Persian respelling suggestions
CN104331400B (zh) 一种蒙古文编码转换方法和装置
Al Azawi et al. WFST-based ground truth alignment for difficult historical documents with text modification and layout variations
CN117290825A (zh) 基于单词内字符变序的英文文本水印嵌入和提取方法
US20050080612A1 (en) Spelling and encoding method for ideographic symbols
JP2007034378A (ja) 文書処理方法及び装置及びプログラム
Leydier et al. Textual indexation of ancient documents
CN115983202A (zh) 一种数据处理方法、装置、设备及存储介质
US20080072142A1 (en) Code transformation method for an operation system
Zandbergen Transliteration of the Voynich MS Text.
JP5085975B2 (ja) 日本語固有表現抽出装置、日本語固有表現抽出方法、およびその方法をコンピュータに実行させるプログラム
US20220343069A1 (en) Method of converting between an n-tuple and a document using a readable text and a text grammar
CA3022045C (en) Braille editting method using error output function, recording medium storing program for executing same, and computer program stored in recording medium for executing same
Parkinson et al. Encoding Medieval Abbreviations for Computer Analysis (from Latin–Portuguese and Portuguese Non‐literary Sources)
Bleier Digital Documentary Editing of St Patrick’s epistles. Linking the manuscript witnesses to the canonical text
Haentjens The ordering of universal character strings
Pathak A new approach for text steganography using Hindi numerical code

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination