CN115455966B - 安全字库构建方法及其安全码提取方法 - Google Patents

安全字库构建方法及其安全码提取方法 Download PDF

Info

Publication number
CN115455966B
CN115455966B CN202211417037.5A CN202211417037A CN115455966B CN 115455966 B CN115455966 B CN 115455966B CN 202211417037 A CN202211417037 A CN 202211417037A CN 115455966 B CN115455966 B CN 115455966B
Authority
CN
China
Prior art keywords
character
characters
word
frequency
binary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211417037.5A
Other languages
English (en)
Other versions
CN115455966A (zh
Inventor
田辉
朱鹏远
郭玉刚
张志翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei High Dimensional Data Technology Co ltd
Original Assignee
Hefei High Dimensional Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei High Dimensional Data Technology Co ltd filed Critical Hefei High Dimensional Data Technology Co ltd
Priority to CN202211417037.5A priority Critical patent/CN115455966B/zh
Publication of CN115455966A publication Critical patent/CN115455966A/zh
Application granted granted Critical
Publication of CN115455966B publication Critical patent/CN115455966B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明特别涉及一种安全字库构建方法及其安全码提取方法,其中安全字库构建方法包括如下步骤:根据字频排序对前N个字符分别进行变形设计得到变形字;对每个字符的标准字及其变形字进行二进制编码;将N个字符分成K组;对于任一个安全码,以每个字符所处组别对应的二进制数为二进制编码选择该字符对应的标准字或变形字,所选出的N个字符的标准字或变形字以及未选择的其他字符的标准字即构成该安全码对应的安全字库。通过对字符设置不同个数的变形字,并对其进行编码,让字符可以出现在多个组别中,这样在嵌入或提取时,单个字符可以隐藏更多内容,在安全码位数一定的情况下,可以在较少的字符中进行嵌入,大幅提高安全字库的通用性和稳定性。

Description

安全字库构建方法及其安全码提取方法
技术领域
本发明涉及字库隐形水印技术领域,特别涉及一种安全字库构建方法及其安全码提取方法。
背景技术
在现有的文本水印技术中,为了提高水印算法抵抗打印扫描、屏幕截屏和屏幕拍照等恶意攻击的鲁棒性能,基于字符拓扑结构修改的文本数字水印技术成为主流。即通过将特定字符进行不同形式的变形后对应不同的水印信息位串,字符变形数据会保存在特定的水印字库中,并在电子文本文档打印输出和屏幕显示的过程中,通过字体替换来实现水印信息的嵌入。当我们针对不同的用户使用不同的字符变形数据,对于该用户来说,该特定的水印字库即构成其安全字库。
现有的安全字库存在很多缺陷,为了实现在不改变用户任何使用习惯的前提下,用以解决现有技术中水印加载通用性差、系统稳定性差、实现过程复杂以及水印算法鲁棒性能低等问题,北京国隐科技有限公司申请的专利《一种通用的文本水印方法和装置》(公布号:CN114708133A)中公开了如下方案:一种通用的文本水印方法,包括以下步骤:根据特定策略对选定字库中一定数目的字符进行分组;根据特定规则对每个分组中的所有字符进行变形设计,并生成水印字符数据临时文件;生成用户终端水印编码数据,用以标识用户终端的身份认证信息;依据水印编码数据,并结合水印字符数据临时文件和分组的字符,动态生成并实时加载水印字库文件;运行电子格式的文本文件,在文件打印输出和屏幕显示的文档内容数据中利用水印字库文件实时嵌入水印信息。但该方案依然存在不足之处:每个字符只会分在同一组中,这样每个字符只能代表一位安全码,待提取的数据中,必须在更多的内容中才能进行可靠的提取。
发明内容
本发明的首要目的在于提供一种安全字库构建方法,能够在较少的字符中嵌入安全码。
为实现以上目的,本发明采用的技术方案为:一种安全字库构建方法,包括如下步骤:根据字频排序选择前N个字符,对N个字符分别进行变形设计得到变形字;对每个字符的标准字及其变形字进行二进制编码,该二进制编码的位数x和该字符变形字个数
Figure 634433DEST_PATH_IMAGE001
满足如下公式:
Figure 968462DEST_PATH_IMAGE002
;将N个字符分成K组,每个字符所处组别数等于该字符对应的二进制编码的位数x,K为安全字库所表征的安全码编码成的二进制字符串的位数;对于任一个安全码,以每个字符所处组别对应的二进制数为二进制编码选择该字符对应的标准字或变形字,所选出的N个字符的标准字或变形字以及未选择的其他字符的标准字即构成该安全码对应的安全字库。
与现有技术相比,本发明存在以下技术效果:通过对字符设置不同个数的变形字,并对其进行编码,让字符可以出现在多个组别中,这样在嵌入或提取时,单个字符可以隐藏更多内容,在安全码位数一定的情况下,可以在较少的字符中进行嵌入,大幅提高安全字库的通用性和稳定性。
本发明的另一个目的在于提供一种准确率更高的安全字库的安全码提取方法。
为实现以上目的,本发明采用的技术方案为:一种针对前述安全字库的安全码提取方法,包括如下步骤:对待提取的素材进行处理得到Y张单字符图片;构建识别矩阵
Figure 576161DEST_PATH_IMAGE003
,其中K为安全字库所表征的安全码编码成的二进制字符串的位数;遍历并识别每张单字符图片,得到每个字符的二进制编码;根据字符内容确定行数、根据该字符所属组别确定列数,将二进制编码填入识别矩阵
Figure 628431DEST_PATH_IMAGE003
中;统计识别矩阵
Figure 878147DEST_PATH_IMAGE003
中每列中的元素中1和0的个数,若1的个数大于0的个数,则该列对应的二进制数为1,若1的个数小于0的个数,则该列对应的二进制数为0;对得到的二进制字符串进行解码得到安全码。
与现有技术相比,本发明存在以下技术效果:在待提取的素材中,其会涉及多个字符,这些字符中,有很多字符归属于同一组,其所代表的嵌入信息也是同一个,一般来说,我们只需要提取其中一个即可;为了提高准确率,这里对归属于同一组的所有字符都进行了提取,并根据提取结果进行综合判断,降低了单个字符提取出错的情况,大幅提高提取的准确率。
附图说明
图1是本发明中安全字库构建方法流程图;
图2是本发明实施例一中字符分组流程图;
图3是本发明实施例二中字符分组流程图;
图4是本发明实施例三中字符分组流程图;
图5是本发明中安全码提取方法流程图。
具体实施方式
下面结合图1至图5,对本发明做进一步详细叙述。
参阅图1,本发明公开了一种安全字库构建方法,包括如下步骤:根据字频排序选择前N个字符,对N个字符分别进行变形设计得到变形字,N一般取1000~3000,总的来说,N选择的越大,后期进行安全码提取时会更加精准且适用更多场合。对每个字符的标准字及其变形字进行二进制编码,该二进制编码的位数x和该字符变形字个数
Figure 66683DEST_PATH_IMAGE001
满足如下公式:
Figure 110862DEST_PATH_IMAGE002
,现有技术中,很多安全字库在设计时,每个字符多表示一比特信息,这里通过设置多个变形字,将单个字符分在多个组别里,让每个字符能够携带更多比特信息。将N个字符分成K组,每个字符所处组别数等于该字符对应的二进制编码的位数x,K为安全字库所表征的安全码编码成的二进制字符串的位数,一般来说,安全码可以是设备的MAC地址,也可以是人员的ID,或者其他信息,我们对其进行加密后,让其转换成二进制字符串,还可以添加上校验位,这里所说的加密、转换成二进制、添加校验位都可以理解为编码。对于任一个安全码,以每个字符所处组别对应的二进制数为二进制编码选择该字符对应的标准字或变形字,所选出的N个字符的标准字或变形字以及未选择的其他字符的标准字即构成该安全码对应的安全字库。通过对字符设置不同个数的变形字,并对其进行编码,让字符可以出现在多个组别中,这样在嵌入或提取时,单个字符可以隐藏更多内容,在安全码位数一定的情况下,可以在较少的字符中进行嵌入,大幅提高安全字库的通用性和稳定性。
如果对所有的字都设置多个变形字,其前期的工作量非常大,而根据字频我们可以知道,每个字的出现概率是不同的。当我们截取任一段文字,字频较高的字更容易出现。因此,本发明中优选地,所述的对N个字符分别进行变形设计得到变形字包括:将N个字符按照字频分为高频字、中频字、低频字;高频字中有N1个字符,高频字中每个字符的变形字个数
Figure 650428DEST_PATH_IMAGE004
且x=3;中频字中有N2个字符,中频字中每个字符的变形字个数
Figure 438255DEST_PATH_IMAGE005
且x=2;低频字中有N3个字符,低频字中每个字符的变形字个数
Figure 743947DEST_PATH_IMAGE006
且x=1。高频字出现的概率更大,因此可以设置多个变形字,比如7个,用来携带3位比特信息,可以分到三个组别中,中频字和低频字同理。这样做的好处是,在设计安全字库时,我们只需要对字频最高的N1个高频字设计7个变形字,对字频次高的N2个中频字设计3个变形字,对字频低的N3个低频字设计1个变形字,对于其他更低频的字符无需设计变形字,从而大大降低变形字设计的工作量。
进一步地,所述的将N个字符分成K组包括:将高频字中的字符分成
Figure 959028DEST_PATH_IMAGE007
组,得到高频字中每个字符的初步分组i,第i组字符所属最终分组为第3i-2组、第3i-1组和第3i组;将中频字中的字符分成
Figure 985889DEST_PATH_IMAGE008
组,得到中频字中每个字符的初步分组j,第j组字符所属最终分组为第2j-1组和第2j组;将低频字中的字符分成K组;其中,
Figure 311829DEST_PATH_IMAGE009
为向下取整。这里的分组步骤中,相当于一开始是对高频字进行单字符分组,比如字符“的”分在第一组、字符“一”分在第二组、……,但这种分组只是初步的,最终字符“的”是属于K组中的第一组、第二组、第三组,“一”是属于K组中的第四组、第五组、第六组。然后再进行中频字的分组,比如字符“学”分在第一组、字符“法”分在第二组、……,同样地,这种分组也是初步的,最终字符“学”是属于K组中的第一组、第二组,字符“法”是属于K组中的第三组、第四组。而对于低频字,其仅分在某一组中,因此低频字中的字符分在了哪一组,其最终也属于K组中的哪一组。
如何对字符进行分组,可以使用背景技术中所提及的专利中记载的方案,也可以采用如下方案。
参阅图2,实施例一,所述的将N个字符分成K组中,依次对高频字、中频字、低频字按如下步骤进行分组:遍历语料库,统计N个字符中任意两个字符的出现次数得到二元字符频次矩阵
Figure 474957DEST_PATH_IMAGE010
,二元字符频次矩阵
Figure 126518DEST_PATH_IMAGE010
的元素
Figure 375097DEST_PATH_IMAGE011
代表字符
Figure 239147DEST_PATH_IMAGE012
后是字符
Figure 787940DEST_PATH_IMAGE013
的频次;按字频从高到低逐一遍历字符,并按如下公式计算待分配字符c分配到第k组的权重:
Figure 79244DEST_PATH_IMAGE014
式中,A为已分组字符和待分配字符c构成的集合,
Figure 80699DEST_PATH_IMAGE015
Figure 748440DEST_PATH_IMAGE016
为大于0的常数且
Figure 151740DEST_PATH_IMAGE017
;将待分配字符c添加至权重最大的组,以此类推直到所有字符完成分组。该分组方案主要从二元字符的之间的关联来对字符进行分组,对于经常出现在一起的两个字符,尽量将它们分配在不同的组中,二元字符频次矩阵反应的就是两个字符出现在一起的频次,再通过权重计算公式,让经常出现在一起的两个字符分在不同组时的权重增大,这样我们就能通过选择权重最大的组来让一起出现的字符尽量不同组,从而实现了字符的合理分组,此种分组方式对每组中字符个数不做限制,从而更加合理。
参阅图3,实施例二,所述的将N个字符分成K组中,依次对高频字、中频字、低频字按如下步骤进行分组:遍历语料库,根据N个字符的出现频数计算各字符概率
Figure 613945DEST_PATH_IMAGE018
,对语料库中的所有文本进行分词,根据N个字符所组成词语的出现频数计算各词语概率
Figure 837116DEST_PATH_IMAGE019
;根据
Figure 308549DEST_PATH_IMAGE018
Figure 300775DEST_PATH_IMAGE019
计算一个字符后是另一个字符的概率得到状态转移矩阵
Figure 465041DEST_PATH_IMAGE020
;对状态转移矩阵
Figure 441087DEST_PATH_IMAGE020
进行归一化使得一个字符后是其他字符的概率之和为1得到归一化的状态转移矩阵
Figure 185052DEST_PATH_IMAGE021
;逐一遍历字符,计算待分配字符c分配到所有分组的权重并将字符c添加到权重最大的组,该权重和随机二元字符包含组别数的期望值的增加量正相关,以此类推直到所有字符完成分组。该分组方案主要从词语之间的关联来对字符进行分组,对于常作为一个单词出现的多个字符,尽量将它们分配在不同的组中,状态转移矩阵反映的就是一个字符后是另一个字符的概率,再通过权重计算公式,让经常出现在一起的两个字符分在不同组时的权重增大,这样我们就能通过选择权重最大的组来让一起出现的字符尽量不同组,从而实现了字符的合理分组,此种分组方式对每组中字符个数不做限制,从而更加合理。
参阅图4,实施例三,所述的将N个字符分成K组中,依次对高频字、中频字、低频字按如下步骤进行分组:遍历语料库,对语料库中的所有文本进行分词,根据N个字符所组成词语的出现频数计算各词语概率
Figure 294435DEST_PATH_IMAGE019
;按照字频从高到低,重复执行以下步骤直到所有字符完成分组;根据如下公式计算待分配字符c到第k组
Figure 98443DEST_PATH_IMAGE022
中已分组字符ci的词链和:
Figure DEST_PATH_IMAGE023
式中,
Figure 30627DEST_PATH_IMAGE024
为包含字符c和字符ci的所有词语;根据字频对字符进行排序,计算排序后待分配字符c到第k组
Figure 578283DEST_PATH_IMAGE022
中已分组字符ci的字距离和:
Figure 810681DEST_PATH_IMAGE025
式中,
Figure 51169DEST_PATH_IMAGE026
为字符c和字符ci的距离;对所有组的词链和、字距离和分别进行归一化处理得到
Figure 80436DEST_PATH_IMAGE027
Figure 431783DEST_PATH_IMAGE028
;根据如下公式计算待分配字符c分配到第k组的权重:
Figure 987529DEST_PATH_IMAGE029
式中,
Figure 398919DEST_PATH_IMAGE030
为预设的权重系数。词链和反映的是待分配字符c和组内其他字符之间作为词语出现在一起的关系,这个值越大,就说明它们出现在一起的情况越多,应当分配到不同组;字距离和反映的是字频的关系,越是相近的高频字,应当分配到不同组;根据这两种关系计算得到的权重正好反映了上述关系。
进一步地,
Figure 571275DEST_PATH_IMAGE030
按如下公式计算:
Figure 726312DEST_PATH_IMAGE031
式中,
Figure 399215DEST_PATH_IMAGE032
为待分配字符c以及与待分配字符c字距离小于等于设定阈值的所有字符的字符频次方差,这个设定阈值可以取10,代表的是按字频排序,计算字符c和排在其前方的10个字符、后方的10个字符共21个字符的方差,
Figure DEST_PATH_IMAGE033
为待分配字符c的字符频次。将待分配字符c添加到权重最小的组。通过以上公式计算得到的
Figure 981506DEST_PATH_IMAGE030
,在字符频次较高时,相邻字符的频次差异也较大,计算得到的
Figure 375578DEST_PATH_IMAGE030
值也越大,此时更多考虑的是字距和,尽量让高频字分在不同组;在字符频次较低时,相邻字符的频次差异也较小,计算得到的
Figure 334307DEST_PATH_IMAGE030
值也越小,此时更多考虑的是词链和,让常出现在一起的字符分在不同组。
通过上述步骤将N个字符分为K组后,就需要根据该分组情况设计安全字库。具体地,所述的以每个字符所处组别对应的二进制数为二进制编码选择该字符对应的标准字或变形字包括:逐位遍历由安全码处理成的二进制字符串,对于每一位二进制数,选择属于该组中所有低频字、且与该位二进制数相同的二进制编码对应的标准字或变形字加入安全字库;按照两位一组遍历由安全码处理成的二进制字符串,对于每两位二进制数,选择属于该两组中所有中频字、且与该两位二进制数相同的二进制编码对应的标准字或变形字加入安全字库;按照三位一组遍历由安全码处理成的二进制字符串,对于每三位二进制数,选择属于该三组中所有高频字、且与该三位二进制数相同的二进制编码对应的标准字或变形字加入安全字库。通过上述步骤得到N个字符的安全字库,再加上未选择的其他字符的标准字即构成指定安全码对应的安全字库,该安全字库中,每个字要么是标准字,要么是变形字;对于不同的安全码,每个字符属于标准字还是变形字的情况不尽相同。上述步骤可以更方便的从字符的分组情况去构建安全字库,构建起来非常的迅速。
参阅图5,本发明还公开了一种针对前面所生成安全字库的安全码提取方法,包括如下步骤:对待提取的素材进行处理得到Y张单字符图片;构建识别矩阵
Figure 864645DEST_PATH_IMAGE003
,其中K为安全字库所表征的安全码编码成的二进制字符串的位数;遍历并识别每张单字符图片,得到每个字符的二进制编码;根据字符内容确定行数、根据该字符所属组别确定列数,将二进制编码填入识别矩阵
Figure 883417DEST_PATH_IMAGE003
中;统计识别矩阵
Figure 30364DEST_PATH_IMAGE003
中每列中的元素中1和0的个数,若1的个数大于0的个数,则该列对应的二进制数为1,若1的个数小于0的个数,则该列对应的二进制数为0;对得到的二进制字符串进行解码得到安全码,解码去前面的编码过程相对应。在待提取的素材中,其会涉及多个字符,这些字符中,有很多字符归属于同一组,其所代表的嵌入信息也是同一个,一般来说,我们只需要提取其中一个即可;为了提高准确率,这里对归属于同一组的所有字符都进行了提取,并根据提取结果进行综合判断,降低了单个字符提取出错的情况,大幅提高提取的准确率。
本发明还公开了一种计算机可读存储介质和一种电子设备。其中,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如前所述的安全字库构建方法或实现如前所述的安全码提取方法。一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序时,实现如前所述的安全字库构建方法或实现如前所述的安全码提取方法。

Claims (10)

1.一种安全字库构建方法,其特征在于:包括如下步骤:
根据字频排序选择前N个字符,对N个字符分别进行变形设计得到变形字;
对每个字符的标准字及其变形字进行二进制编码,该二进制编码的位数x和该字符变形字个数
Figure QLYQS_1
满足如下公式:
Figure QLYQS_2
;至少有一个字符的二进制编码位数x>1;
将N个字符分成K组,每个字符同时所处组别数等于该字符对应的二进制编码的位数x,K为安全字库所表征的安全码编码成的二进制字符串的位数;
对于任一个安全码,安全码的位数编号即为分组编号,以每个字符所处组别对应的二进制数为二进制编码选择该字符对应的标准字或变形字,所选出的N个字符的标准字或变形字以及未选择的其他字符的标准字即构成该安全码对应的安全字库。
2.如权利要求1所述的安全字库构建方法,其特征在于:所述的对N个字符分别进行变形设计得到变形字包括:
将N个字符按照字频分为高频字、中频字、低频字;
高频字中有N1个字符,高频字中每个字符的变形字个数
Figure QLYQS_3
且x=3;
中频字中有N2个字符,中频字中每个字符的变形字个数
Figure QLYQS_4
且x=2;
低频字中有N3个字符,低频字中每个字符的变形字个数
Figure QLYQS_5
且x=1。
3.如权利要求2所述的安全字库构建方法,其特征在于:所述的将N个字符分成K组包括:
将高频字中的字符分成
Figure QLYQS_6
组,得到高频字中每个字符的初步分组i,第i组字符所属最终分组为第3i-2组、第3i-1组和第3i组;
将中频字中的字符分成
Figure QLYQS_7
组,得到中频字中每个字符的初步分组j,第j组字符所属最终分组为第2j-1组和第2j组;
将低频字中的字符分成K组;
其中,
Figure QLYQS_8
为向下取整。
4.如权利要求3所述的安全字库构建方法,其特征在于:所述的将N个字符分成K组中,依次对高频字、中频字、低频字按如下步骤进行分组:
遍历语料库,统计N个字符中任意两个字符的出现次数得到二元字符频次矩阵
Figure QLYQS_9
,二元字符频次矩阵
Figure QLYQS_10
的元素
Figure QLYQS_11
代表字符
Figure QLYQS_12
后是字符
Figure QLYQS_13
的频次;
按字频从高到低逐一遍历字符,并按如下公式计算待分配字符c分配到第k组的权重:
Figure QLYQS_14
式中,A为已分组字符和待分配字符c构成的集合,
Figure QLYQS_15
Figure QLYQS_16
为大于0的常数且
Figure QLYQS_17
将待分配字符c添加至权重最大的组,以此类推直到所有字符完成分组。
5.如权利要求3所述的安全字库构建方法,其特征在于:所述的将N个字符分成K组中,依次对高频字、中频字、低频字按如下步骤进行分组:
遍历语料库,根据N个字符的出现频数计算各字符概率
Figure QLYQS_18
,对语料库中的所有文本进行分词,根据N个字符所组成词语的出现频数计算各词语概率
Figure QLYQS_19
根据
Figure QLYQS_20
Figure QLYQS_21
计算一个字符后是另一个字符的概率得到状态转移矩阵
Figure QLYQS_22
对状态转移矩阵
Figure QLYQS_23
进行归一化使得一个字符后是其他字符的概率之和为1得到归一化的状态转移矩阵
Figure QLYQS_24
逐一遍历字符,计算待分配字符c分配到所有分组的权重并将字符c添加到权重最大的组,该权重和随机二元字符包含组别数的期望值的增加量正相关,以此类推直到所有字符完成分组。
6.如权利要求3所述的安全字库构建方法,其特征在于:所述的将N个字符分成K组中,依次对高频字、中频字、低频字按如下步骤进行分组:
遍历语料库,对语料库中的所有文本进行分词,根据N个字符所组成词语的出现频数计算各词语概率
Figure QLYQS_25
按照字频从高到低,重复执行以下步骤直到所有字符完成分组;
根据如下公式计算待分配字符c到第k组
Figure QLYQS_26
中已分组字符ci的词链和:
Figure QLYQS_27
式中,
Figure QLYQS_28
为包含字符c和字符ci的所有词语;
根据字频对字符进行排序,计算排序后待分配字符c到第k组
Figure QLYQS_29
中已分组字符ci的字距离和:
Figure QLYQS_30
式中,
Figure QLYQS_31
为字符c和字符ci的距离;
对所有组的词链和、字距离和分别进行归一化处理得到
Figure QLYQS_32
Figure QLYQS_33
根据如下公式计算待分配字符c分配到第k组的权重:
Figure QLYQS_34
式中,
Figure QLYQS_35
为预设的权重系数并按如下公式计算:
Figure QLYQS_36
式中,
Figure QLYQS_37
为待分配字符c以及与待分配字符c字距离小于等于设定阈值的所有字符的字符频次方差,
Figure QLYQS_38
为待分配字符c的字符频次;
将待分配字符c添加到权重最小的组。
7.如权利要求3所述的安全字库构建方法,其特征在于:所述的以每个字符所处组别对应的二进制数为二进制编码选择该字符对应的标准字或变形字包括:
逐位遍历由安全码处理成的二进制字符串,对于每一位二进制数,选择属于该组中所有低频字、且与该位二进制数相同的二进制编码对应的标准字或变形字加入安全字库;
按照两位一组遍历由安全码处理成的二进制字符串,对于每两位二进制数,选择属于该两组中所有中频字、且与该两位二进制数相同的二进制编码对应的标准字或变形字加入安全字库;
按照三位一组遍历由安全码处理成的二进制字符串,对于每三位二进制数,选择属于该三组中所有高频字、且与该三位二进制数相同的二进制编码对应的标准字或变形字加入安全字库。
8.一种针对权利要求1所生成安全字库的安全码提取方法,其特征在于:包括如下步骤:
对待提取的素材进行处理得到Y张单字符图片;
构建识别矩阵
Figure QLYQS_39
,其中K为安全字库所表征的安全码编码成的二进制字符串的位数;
遍历并识别每张单字符图片,得到每个字符的二进制编码;
根据字符内容确定行数、根据该字符所属组别确定列数,将二进制编码填入识别矩阵
Figure QLYQS_40
中;
统计识别矩阵
Figure QLYQS_41
中每列中的元素中1和0的个数,若1的个数大于0的个数,则该列对应的二进制数为1,若1的个数小于0的个数,则该列对应的二进制数为0;
对得到的二进制字符串进行解码得到安全码。
9.一种计算机可读存储介质,其特征在于:其上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1-7中任一项所述的安全字库构建方法或实现如权利要求8中所述的针对权利要求1所生成安全字库的安全码提取方法。
10.一种电子设备,其特征在于:包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-7中任一项所述的安全字库构建方法或实现如权利要求8中所述的针对权利要求1所生成安全字库的安全码提取方法。
CN202211417037.5A 2022-11-14 2022-11-14 安全字库构建方法及其安全码提取方法 Active CN115455966B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211417037.5A CN115455966B (zh) 2022-11-14 2022-11-14 安全字库构建方法及其安全码提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211417037.5A CN115455966B (zh) 2022-11-14 2022-11-14 安全字库构建方法及其安全码提取方法

Publications (2)

Publication Number Publication Date
CN115455966A CN115455966A (zh) 2022-12-09
CN115455966B true CN115455966B (zh) 2023-03-10

Family

ID=84295758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211417037.5A Active CN115455966B (zh) 2022-11-14 2022-11-14 安全字库构建方法及其安全码提取方法

Country Status (1)

Country Link
CN (1) CN115455966B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003209816A (ja) * 2002-01-16 2003-07-25 Matsushita Electric Ind Co Ltd 電子透かし埋め込み装置、電子透かし埋め込み方法、電子透かし抽出装置、電子透かし抽出方法、及びデータ記録媒体
CN108763879A (zh) * 2018-05-30 2018-11-06 北京溯斐科技有限公司 一种水印字库的自动生成方法和装置
CN113901434A (zh) * 2021-12-10 2022-01-07 杭州电子科技大学 显示终端身份识别方法、系统和计算机可读存储介质
CN114547564A (zh) * 2022-04-25 2022-05-27 北京国隐科技有限公司 一种文档处理方法、装置及设备
CN114708133A (zh) * 2022-01-27 2022-07-05 北京国隐科技有限公司 一种通用的文本水印方法和装置
CN114817873A (zh) * 2022-04-19 2022-07-29 清华大学深圳国际研究生院 基于形变的水印生成、读取方法及装置
CN114936961A (zh) * 2022-06-07 2022-08-23 杭州电子科技大学 一种基于汉字特征修改和分组的鲁棒文本水印方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180096203A1 (en) * 2004-04-12 2018-04-05 Google Inc. Adding value to a rendered document

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003209816A (ja) * 2002-01-16 2003-07-25 Matsushita Electric Ind Co Ltd 電子透かし埋め込み装置、電子透かし埋め込み方法、電子透かし抽出装置、電子透かし抽出方法、及びデータ記録媒体
CN108763879A (zh) * 2018-05-30 2018-11-06 北京溯斐科技有限公司 一种水印字库的自动生成方法和装置
CN113901434A (zh) * 2021-12-10 2022-01-07 杭州电子科技大学 显示终端身份识别方法、系统和计算机可读存储介质
CN114708133A (zh) * 2022-01-27 2022-07-05 北京国隐科技有限公司 一种通用的文本水印方法和装置
CN114817873A (zh) * 2022-04-19 2022-07-29 清华大学深圳国际研究生院 基于形变的水印生成、读取方法及装置
CN114547564A (zh) * 2022-04-25 2022-05-27 北京国隐科技有限公司 一种文档处理方法、装置及设备
CN114936961A (zh) * 2022-06-07 2022-08-23 杭州电子科技大学 一种基于汉字特征修改和分组的鲁棒文本水印方法

Also Published As

Publication number Publication date
CN115455966A (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
US7730037B2 (en) Fragile watermarks
CN104063706B (zh) 一种基于surf算法的视频指纹提取方法
Al-Nofaie et al. Utilizing pseudo-spaces to improve Arabic text steganography for multimedia data communications
CN107180479B (zh) 一种票据鉴别方法、装置、设备和存储介质
CN109902710B (zh) 一种文本图像的快速匹配方法和装置
CN114708133B (zh) 一种通用的文本水印方法和装置
CN111125750B (zh) 一种基于双层椭圆模型的数据库水印嵌入、检测方法及系统
GB2358100A (en) Digital watermarks
CN101930587A (zh) 水印信息扩展编码、嵌入、评估、检测提取方法和装置
Deng et al. Deep multi-scale discriminative networks for double JPEG compression forensics
CN111931489A (zh) 文本纠错方法、装置和设备
CN112651025A (zh) 一种基于字符级嵌入编码的webshell检测方法
Alkhafaji et al. Payload capacity scheme for quran text watermarking based on vowels with kashida
CN114881698A (zh) 广告合规审核方法、装置、电子设备及存储介质
CN110770725A (zh) 数据处理方法及装置
CN114356919A (zh) 一种结构化数据库的水印嵌入方法、溯源方法及装置
CN115455966B (zh) 安全字库构建方法及其安全码提取方法
CN116362953B (zh) 基于不可见字符的高精地图水印方法
CN113128504A (zh) 一种基于校验规则的ocr识别结果纠错方法、设备
CN115618809A (zh) 基于二元字符频次的字符分组方法及安全字库构建方法
CN110084327B (zh) 基于视角自适应深度网络的票据手写数字识别方法及系统
CN115617985A (zh) 数字化人事档案标题自动匹配分类方法及系统
CN115455965B (zh) 基于字距词链的字符分组方法、存储介质及电子设备
CA3144052A1 (en) Method and apparatus for recognizing new sql statements in database audit systems
CN115455987B (zh) 基于字频词频的字符分组方法、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant