CN112417087B

CN112417087B - 基于文字的溯源方法及系统

Info

Publication number: CN112417087B
Application number: CN202011475326.1A
Authority: CN
Inventors: 田辉; 张志翔
Original assignee: Hefei High Dimensional Data Technology Co ltd
Current assignee: Hefei High Dimensional Data Technology Co ltd
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2024-03-19
Anticipated expiration: 2040-12-14
Also published as: CN112417087A

Abstract

本发明公开了一种基于文字的溯源方法及系统，所述方法包括以下步骤：S1，个性化字库生成，即在服务器端实现个性化字库生成，存储个性化字库相关数据；S2，个性化字库终端应用，即在客户端实现个性化字库终端应用；S3，图片溯源，即在服务器端实现图片溯源，输入取证图片，输出溯源结果。根据本发明的方法，具有适用场景更广、处理文字信息的种类更多和处理速度更快的优势。

Description

基于文字的溯源方法及系统

技术领域

本发明涉及字体水印技术领域，尤其是涉及一种基于文字的溯源方法及系统。

背景技术

在现有技术中，针对中文文本的溯源方法常用的是字体水印嵌入方法，该方法将某一字体字库内的部分文字结构微调后生成一个新的水印字库，在文件打印、生成版式文件时将溯源信息编码后用水印字库中的字符替换原字库字符。此类方法的缺陷是编码过程较为复杂，会增加额外的处理时间，尤其是在处理数百页的大文件时耗时太长；同时，也难以应用于网页浏览、文档编辑、即时通讯等实时性强的场景；另外字体水印嵌入方法在溯源时，也要求具有连续语义的文本段落，才能从中提取正确的水印信息。因此，上述技术存在改进空间。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明的一个目的在于提出一种基于文字的溯源方法，所述基于文字的溯源方法，具有适用场景更广、处理文字信息的种类更多和处理速度更快的优势。

本发明还提出了一种具有上述基于文字的溯源方法的系统。

根据本发明实施例的基于文字的溯源方法，包括以下步骤：

S1，个性化字库生成，即在服务器端实现个性化字库生成，存储个性化字库相关数据；

S2，个性化字库终端应用，即在客户端实现个性化字库终端应用；

S3，图片溯源，即在服务器端实现图片溯源，输入取证图片，输出溯源结果。

根据本发明的基于文字的溯源方法，具有适用场景更广、处理文字信息的种类更多和处理速度更快的优势。

根据本发明一个实施例的基于文字的溯源方法，步骤S1包括：

S101，挑选多个常用字，按字频表排序并编号存储；

S102，从字库中提取常用字字符矢量图；

S103，处理字符矢量图，生成多个字符变体并对字符变体进行编号存储；

S104，生成个性化特征序列，存储序列并与终端进行关联；

S105，参照个性化特征序列，将常用字对应编号的变体矢量图写入字库文件中，替换原字符矢量图，并且保持编码不变；

S106，保存字库文件，下发到终端。

根据本发明一个实施例的基于文字的溯源方法，在步骤S104中，个性化特征序列的序列长度等于常用字数。

根据本发明一个实施例的基于文字的溯源方法，步骤S2包括：

S201，从服务端获取个性化字库；

S202，用终端收到的个性化字库置换系统对应的字体；

S203，当检测到置换后的字体发生改动时，使用个性化字库进行重新覆盖。

根据本发明一个实施例的基于文字的溯源方法，在步骤S202中，置换系统对应的字体为替换系统对应字体字库文件。

根据本发明一个实施例的基于文字的溯源方法，在步骤S202中，置换系统对应的字体为载入系统字体缓存覆盖原字体。

根据本发明一个实施例的基于文字的溯源方法，步骤S3包括：

S301，对应用了个性化字库终端的溯源进行多渠道的预处理操作；

S302，进行字符分割处理得到中文单字符图片；

S303，对单字符图片进行自适应二值化和归一化处理；

S304，对单字符图片进行OCR识别，判断文字和字体，并将相同文字字符图片归类；

S305，对每一文字的字符图片与同一字体、同一文字的变体进行比较，根据相似度均值确定每一文字的特征编号；

S306，将每一文字的特征编号排成序列，与数据库中存储的个性化特征序列进行对位汉明距离计算，并根据汉明距离计算溯源结果置信度。

根据本发明一个实施例的基于文字的溯源方法，在步骤S301中，溯源包括：屏幕截图、屏幕拍摄图、打印纸质文件的拍摄图和打印纸质文件的扫描图。

根据本发明一个实施例的基于文字的溯源方法，在步骤S301中，多渠道的预处理操作包括：文字区域裁剪、图像增强和去噪操作。

根据本发明的第二方面的基于文字的溯源系统，采用了如第一方面任一种所述的基于文字的溯源方法，所述系统包括：

个性化字库生成模块，所述个性化字库生成模块可在服务器端实现个性化字库生成，存储个性化字库相关数据；

客户端模块，所述客户端模块可实现个性化字库终端应用；

图片溯源模块，所述图片溯源模块可在服务器端实现图片溯源，输入取证图片，输出溯源结果。

根据本发明的第二方面的基于文字的溯源系统，所述系统与上述的方法相对于现有技术所具有的优势相同，在此不再赘述。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明实施例的基于文字的溯源方法的流程图；

图2是根据本发明实施例的步骤S1的流程图；

图3是根据本发明实施例的步骤S2的流程图；

图4是根据本发明实施例的步骤S3的流程图；

图5是根据本发明实施例的基于文字的溯源系统的结构示意图。

附图标记：

100-基于文字的溯源系统，1-个性化字库生成模块，2-客户端模块，3-图片溯源模块。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

下面参考图1-图5描述根据本发明实施例的基于文字的溯源方法。如图1所示，根据本发明实施例的基于文字的溯源方法，可以包括以下步骤：

根据本发明一个实施例的基于文字的溯源方法，如图2所示，步骤S1可以包括：

S101，挑选多个常用字，按字频表排序并编号存储；例如，在一个具体的实施例中，可以挑选1000个使用频率较高的常用字，这样有利于提升统计结果的精确性。

S102，从字库中提取常用字字符矢量图；

S104，生成个性化特征序列，存储序列并与终端进行关联；

S106，保存字库文件，下发到终端。

在本发明的描述中，“多个”的含义是两个或两个以上。

根据本发明一个实施例的基于文字的溯源方法，如图3所示，步骤S2可以包括：

S201，从服务端获取个性化字库；

S202，用终端收到的个性化字库置换系统对应的字体；

根据本发明一个实施例的基于文字的溯源方法，在步骤S202中，置换系统对应的字体可以为替换系统对应字体字库文件。

根据本发明一个实施例的基于文字的溯源方法，在步骤S202中，置换系统对应的字体可以为载入系统字体缓存覆盖原字体。

根据本发明一个实施例的基于文字的溯源方法，如图4所示，步骤S3可以包括：

S302，进行字符分割处理得到中文单字符图片；

S303，对单字符图片进行自适应二值化和归一化处理；

S306，将每一文字的特征编号排成序列，与数据库中存储的个性化特征序列进行对位汉明距离计算，并根据汉明距离计算溯源结果置信度。需要说明的是，与数据库中存储的个性化特征序列进行对位汉明距离计算，可以得到最小汉明距离的一个或多个结果，并根据最小汉明距离计算溯源结果置信度。

根据本发明一个实施例的基于文字的溯源方法，在步骤S301中，溯源可以包括：屏幕截图、屏幕拍摄图、打印纸质文件的拍摄图和打印纸质文件的扫描图。

根据本发明一个实施例的基于文字的溯源方法，在步骤S301中，多渠道的预处理操作可以包括：文字区域裁剪、图像增强和去噪操作。

综上所述，根据本发明的基于文字的溯源方法，具有以下几点优势：

第一，适用场景更广，即只要是在终端屏幕上显示的文字和打印的文件都会调用个性化字库，不受场景限制；

第二，处理文字信息的种类更多，即不要求连续文字，只要有若干个不同的文字即可，无论这些文字出现的位置、版式、大小和所处软件；

第三，处理速度更快，即无需编码，没有额外耗时，用户无感知。

根据本发明的第二方面的基于文字的溯源系统100，采用了如第一方面任一种的基于文字的溯源方法，进一步地，如图5所示，该系统100可以包括：

个性化字库生成模块1，具体地，个性化字库生成模块1可在服务器端实现个性化字库生成，存储个性化字库相关数据；

客户端模块2，具体地，客户端模块2可实现个性化字库终端应用；

图片溯源模块3，具体地，图片溯源模块3可在服务器端实现图片溯源，输入取证图片，输出溯源结果。

综上，根据本发明的第二方面的基于文字的溯源系统100，具有适用场景更广、处理文字信息的种类更多和处理速度更快的优势。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于文字的溯源方法，其特征在于，包括以下步骤：

S3，图片溯源，即在服务器端实现图片溯源，输入取证图片，输出溯源结果步骤S1包括：

S101，挑选多个常用字，按字频表排序并编号存储；

S102，从字库中提取常用字字符矢量图；

S104，生成个性化特征序列，存储序列并与终端进行关联；

S106，保存字库文件，下发到终端；

步骤S3包括：

S302，进行字符分割处理得到中文单字符图片；

S303，对单字符图片进行自适应二值化和归一化处理；

2.根据权利要求1所述的基于文字的溯源方法，其特征在于，在步骤S104中，个性化特征序列的序列长度等于常用字数。

3.根据权利要求1所述的基于文字的溯源方法，其特征在于，步骤S2包括：

S201，从服务端获取个性化字库；

S202，用终端收到的个性化字库置换系统对应的字体；

4.根据权利要求3所述的基于文字的溯源方法，其特征在于，在步骤S202中，置换系统对应的字体为替换系统对应字体字库文件。

5.根据权利要求3所述的基于文字的溯源方法，其特征在于，在步骤S202中，置换系统对应的字体为载入系统字体缓存覆盖原字体。

6.根据权利要求1所述的基于文字的溯源方法，其特征在于，在步骤S301中，溯源包括：屏幕截图、屏幕拍摄图、打印纸质文件的拍摄图和打印纸质文件的扫描图。

7.根据权利要求1所述的基于文字的溯源方法，其特征在于，在步骤S301中，多渠道的预处理操作包括：文字区域裁剪、图像增强和去噪操作。

8.一种基于文字的溯源系统，其特征在于，采用了根据权利要求1-7中任一项所述的基于文字的溯源方法，所述系统包括：

客户端模块，所述客户端模块可实现个性化字库终端应用；