CN113901434B

CN113901434B - 显示终端身份识别方法、系统和计算机可读存储介质

Info

Publication number: CN113901434B
Application number: CN202111506809.8A
Authority: CN
Inventors: 袁理锋; 刘书辉; 吴国华; 任一支; 张祯; 王玉娟; 王秋华
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2022-04-26
Anticipated expiration: 2041-12-10
Also published as: CN113901434A

Abstract

本发明属于信息安全技术领域，具体涉及显示终端身份识别方法、系统和计算机可读存储介质。包括身份码嵌入和终端识别两部分。身份码嵌入包括获取字体文件和生成身份码；常用汉字和身份码序列分组；常用汉字变形嵌入身份码信息；生成新字体文件；用新字体文件替换原字体文件。终端识别包括获取待识别终端来源的文本图片；文字识别切分；字符匹配获取比特信息；提取身份码；识别显示终端。本发明可以在显示终端的字体文件中嵌入唯一标识该终端的身份码，对于经显示终端传播的文档及文本图片，可以通过提取其承载的身份码来识别其来源终端，能够实现对泄露的文档进行追踪溯源的目的。

Description

显示终端身份识别方法、系统和计算机可读存储介质

技术领域

本发明属于信息安全技术领域，具体涉及显示终端身份识别方法、系统和计算机可读存储介质。

背景技术

在信息数字化背景下，电子文档在人们的工作生活中得到广泛应用，虽然极大地提升了信息的处理和传播效率，却也带来了信息泄露和非法传播的安全隐患。尤其是在一些企事业单位，机密文档时常会以拍照、截屏、扫描、打印等方式泄露出去。因此，如何追踪并识别电子文档的泄露源头显得至关重要。在电子文档中嵌入源终端信息可以有效解决机密文档泄露后的溯源问题。但现有的追踪溯源方法在电子文档中嵌入信息后，因无法抵抗文件打印和扫描等对溯源信息的破坏，导致无法正确提取出溯源信息，最终造成溯源终端识别失败的问题。

例如，申请号为CN201710236163.3的中国专利文献描述的一种文件信息输出防泄密和溯源追踪的方法和系统，该方法在文件信息输出终端部署文件信息输出操作监控服务系统；文件信息输出终端进行文件信息输出操作时，文件信息输出操作监控服务系统自动在文件信息输出内容中进行信息防泄密处理，其中包括添加不可见水印信息；接着文件信息输出终端的文件信息经过屏幕切屏、屏幕拍照、屏幕录像、文件拷贝和打印输出操作中的一种或多种；然后将文件信息输出后的载体内容转换为电子格式的图像数据，运行水印信息提取识别程序检测水印信息，并进行文件信息泄密溯源追踪操作。虽然能够在不影响用户正确阅读的视觉效果前提下，解决文件信息输出终端屏幕拍照和打印输出方式泄密后的溯源追踪技术难题，但是其缺点在于由于通过添加的水印信息来进行溯源追踪，水印信息并非唯一标识，因此在追踪识别文档泄露源头的准确率和效率具有局限性。

发明内容

本发明是为了克服现有技术中，现有的追踪溯源方法在电子文档中嵌入信息后，因无法抵抗文件打印和扫描等对溯源信息的破坏，导致无法正确提取出溯源信息，最终造成溯源终端识别失败的问题，提供了一种能将唯一标识终端身份的溯源信息嵌入到终端字体文件中，对于该终端中的电子文档，即使通过拍照、截屏、打印、扫描等方式进行传播，也能够准确提取出溯源信息，能够解决泄露文档的追踪溯源问题的显示终端身份识别方法、系统和计算机可读存储介质。

为了达到上述发明目的，本发明采用以下技术方案：

显示终端身份识别方法，包括身份码嵌入过程和终端识别过程；

所述身份码嵌入过程，包括如下步骤：

S1，获取显示终端中正在使用的字体文件，同时生成唯一标识所述显示终端的身份码；

S2，将字体文件中的常用汉字和身份码序列进行分组；

S3，修改常用汉字笔画结构生成变形汉字，并用生成的变形汉字来承载身份码信息，同时建立变形字集合；

S4，用步骤S3建立的变形字集合中的变形字替换原字体文件中的常用汉字字体，并生成新字体文件；

S5，用新字体文件替换显示终端中的原字体文件，完成终端身份码的嵌入；

所述终端识别过程，包括如下步骤：

S6，获取待识别终端来源的文本图片；

S7，对所述文本图片进行文字识别和切分处理，获取每一个汉字和对应的汉字图像块；

S8，将汉字图像块与变形字集合进行匹配，并提取匹配的变形字所承载的身份码比特信息；

S9，利用常用汉字分组对步骤S8所提取的身份码比特信息进行排列，并采用投票算法纠错，同时提取出正确的身份码序列；

S10，将提取出的身份码序列转换回终端标识信息，识别出信息所标识的显示终端。

作为优选，步骤S1包括如下步骤：

S11，获取显示终端中正在使用的字体文件，作为身份码信息嵌入的载体；

S12，生成代表所述显示终端唯一身份标识的K位二进制比特序列，所述K位二进制比特序列作为显示终端的身份码；

其中，二进制比特序列由显示终端的MAC地址、IP地址、主机名、用户名和当前时间信息组合生成。

作为优选，步骤S2包括如下步骤：

S21，将K位的二进制比特序列按照每2位一组共划分为k=K/2组；

S22，将字体文件中的n个常用汉字划分为k组；

其中，常用汉字分组规则为：将待分组汉字按照使用频率由高到低进行排序；若汉字排在第i位，则划分到第i%k组，%表示取余符号。

作为优选，步骤S3包括如下步骤：

S31，对k个分组中的n个常用汉字，依次使用字体制作工具修改每个汉字的笔画结构，生成4种不同的变形汉字；

S32，将每个汉字的4种不同变形汉字的字符，采用二进制依次编号为00、01、10、11，用于承载2位比特的身份码信息；

S33，将步骤S2得到的k组二进制比特序列与k组常用汉字一一对应，依次根据每一组的二进制比特序列信息，对每一个常用汉字选择4种变形汉字字符中的一种，建立常用汉字的变形字集合。

作为优选，步骤S4包括如下步骤：

S41，在步骤S1获取的字体文件中，将n个常用汉字替换为步骤S3得到的变形字集合中的变形字体，生成新字体文件；

其中，新字体文件中的非常用汉字保持不变。

作为优选，步骤S8包括如下步骤：

S81，对于每一个汉字图像块，依次判断汉字是否为常用汉字；

S82，如若汉字为非常用汉字，则不做处理；若汉字为常用汉字，则将汉字图像块与对应汉字的4种不同变形汉字的字符分别进行匹配，根据匹配结果，判断出汉字属于的变形汉字字符，并获取对应变形汉字字符所承载的2位比特信息。

作为优选，步骤S9包括如下步骤：

S91，利用步骤S2的常用汉字分组，依次将步骤S82得到的2位比特信息与分组中的常用汉字一一对应，生成k组不同的比特信息；

S92，依次选择每一组中出现次数最多的比特信息，作为对应组提取正确的2位比特信息；

S93，依次输出k组的2位比特信息，获得K=2×k位的二进制身份码序列。

作为优选，步骤S10包括如下步骤：

将步骤S93获得的二进制身份码序列转换为显示终端的MAC地址、IP地址、主机名、用户名和时间标识信息，识别出身份码信息所标识的显示终端，完成终端识别过程。

本发明还提供了显示终端身份识别系统，包括：

字体信息获取模块，用于获取显示终端中正在使用的字体文件，同时生成唯一标识所述显示终端的身份码，并将字体文件中的常用汉字和身份码序列进行分组；

字体处理模块，用于修改常用汉字笔画结构生成变形汉字，并用生成的变形汉字来承载身份码信息，同时建立变形字集合；

文件替换模块，用于将变形字集合中的变形字替换原字体文件中的常用汉字字体，并生成新字体文件，并用新字体文件替换显示终端中的原字体文件；

文本图片获取模块，用于获取待识别终端来源的文本图片；

文本图片处理模块，用于对文本图片进行文字识别和切分处理，获取每一个汉字和对应的汉字图像块；

匹配提取模块，用于将汉字图像块与变形字集合进行匹配，并提取匹配的变形字所承载的身份码比特信息，并利用常用汉字分组对提取的身份码比特信息进行排列，并采用投票算法纠错，同时提取出正确的身份码序列；

识别模块，用于将提取出的身份码序列转换回终端标识信息，识别出信息所标识的显示终端。

本发明还提供了计算机可读存储介质，包括计算机可执行指令，当所述计算机可执行指令被一个或多个处理器执行时，使得所述处理器执行上述任一实施方式所述的显示终端身份识别方法的步骤。

本发明与现有技术相比，有益效果是：（1）通过采用本发明方法，可以在显示终端的字体文件中嵌入唯一标识该终端的身份码，对于经由该显示终端传播的文档及文本图片，能通过提取承载的身份码来识别来源终端，能够实现对泄露的文档进行追踪溯源的目的；（2）本发明方法能提升追踪识别文档泄露源头的准确率和效率。

附图说明

图1为本发明实施例所提供的显示终端身份识别方法的一种应用场景示意图；

图2为本发明实施例所提供的身份码嵌入过程的一种流程图；

图3为本发明实施例所提供的身份码嵌入过程的一种示意图；

图4为本发明实施例所提供的终端识别过程的一种流程图；

图5为本发明实施例所提供的终端识别过程的一种示意图；

图6为本发明实施例所提供的身份码提取运行界面的一种示意图。

具体实施方式

为了更清楚地说明本发明实施例，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

实施例1：

本发明提供了显示终端身份识别方法，包括身份码嵌入过程和终端识别过程。

如图2所示，本发明中的身份码嵌入过程按如下步骤进行：

步骤201，获取显示终端中正在使用的字体文件，同时生成唯一标识所述显示终端的身份码。获取显示终端中正在使用的字体文件，作为身份码信息嵌入的载体。生成代表当前显示终端唯一标识的32位二进制比特序列，即终端身份码。其中，二进制比特序列由计算机终端的MAC地址、IP地址、主机名、用户名和当前时间信息组合生成。本发明实施例用十六进制信息“0x12AB34CD”表示生成的32位二进制比特序列。

步骤202，将字体文件中的常用汉字和身份码序列进行分组。将32位的身份码序列（二进制比特序列）按照每2位一组共划分位16组。将字体文件中的1000个常用高频汉字划分为16组，其他非常用汉字不做字体变形，不用于承载身份码信息。常用高频汉字的分组规则为：将待分组的1000个汉字按照使用频率由高到低进行排序；如果汉字排在第i位，则划分到第i%16组，其中%表示取余符号。

步骤203，修改常用汉字笔画结构生成变形汉字，并用生成的变形汉字来承载身份码信息，同时建立变形字集合。对16个分组中的1000个常用汉字，依次使用字体制作工具修改每个汉字的笔画结构，生成4种不同的变形汉字。将每个汉字的四种不同的变形字符，采用二进制依次编号为00、01、10、11，用于承载2位比特的身份码信息；将步骤202得到的16组身份码信息与16组常用汉字一一对应，依次根据每一组的身份码比特信息，对每一个常用汉字选择四种变形字符中的一种，建立常用汉字的变形字集合。具体方式为：如果比特信息为00，则选择汉字的第1种变形字；如果比特信息为01，则选择汉字的第2种变形字；如果比特信息为10，则选择汉字的第3种变形字；如果比特信息为11，则选择汉字的第4种变形字。

步骤204，用建立的变形字集合中的变形字替换原字体文件中的常用汉字字体，并生成新字体文件。在步骤201获取的字体文件中，将1000个常用汉字替换为步骤203得到的变形字集合中的变形字体，生成新的字体文件；新字体文件中的其余非常用汉字保持不变。

步骤205，用新字体文件替换显示终端中的原字体文件，完成终端身份码的嵌入。在显示终端中，用生成的新字体文件替换原字体文件，完成本发明的身份码嵌入过程。

具体的，如图3所示，对本发明方法中的身份码嵌入过程作进一步说明：

步骤301，获取字体文件和生成身份码。获取显示终端中正在使用的字体文件Font.ttf，作为身份码信息嵌入的载体。生成代表当前终端唯一标识的32位二进制比特序列“00010010101010110011010011001101”，即终端身份码。其中，二进制比特序列由计算机终端的MAC地址、IP地址、主机名、用户名和当前时间信息组合生成。

步骤302，常用汉字和身份码序列分组。将32位的身份码序列按照每2位一组共划分位16组。将字体文件中的1000个常用高频汉字划分为16组，其他非常用汉字不做字体变形，不用于承载身份码信息。常用高频汉字的分组规则为：将待分组的1000个汉字按照使用频率由高到低进行排序；如果汉字排在第i位，则划分到第i%16组，其中%表示取余符号。

例如，如图3所示中“的”字使用频率最高，因此排在第1位，划分在第1组；“会”字的使用频率排在第17位，因此划分在第17%16=1组，其中%表示取余符号；其余常用汉字分组依此类推。

步骤303，常用汉字变形嵌入身份码信息。对16个分组中的1000个常用汉字，依次使用字体制作工具修改每个汉字的笔画结构，生成4种不同的变形汉字。例如，“的”字的4种不同变形字，它们的生成方式是将其右半边“勺”中的笔画点分别进行了不同的移位修改。将每个汉字的四种不同的变形字符，采用二进制依次编号为00、01、10、11，用于承载2位比特身份码信息。

将步骤302得到的16组身份码信息与16组常用汉字一一对应，依次根据每一组的身份码比特信息，对每一个常用汉字选择四种变形字符中的一种，建立常用汉字的变形字集合。具体方式为：如果比特信息为00，则选择汉字的第1种变形字；如果比特信息为01，则选择汉字的第2种变形字；如果比特信息为10，则选择汉字的第3种变形字；如果比特信息为11，则选择汉字的第4种变形字。

例如，身份码序列第一组比特信息为“00”，则在常用汉字分组的第1组中，选择汉字“的”、“会”的第1种变形，其余变形字依此类推。

步骤304，生成新字体文件。在步骤301获取的字体文件中，将1000个常用汉字替换为步骤303得到的变形字集合中的变形字体，生成新的字体文件NewFont.ttf；新字体文件中的其余非常用汉字保持不变。

步骤305，用新字体文件替换原字体文件。在显示终端中，用生成的新字体文件NewFont.ttf替换原字体文件Font.ttf，完成本发明的身份码嵌入过程。

如图4所示，本发明中的终端识别过程按如下步骤进行：

步骤401，获取待识别终端来源的文本图片。获取待识别终端来源的文本图片，图片中的汉字承载有显示终端的身份码。在本发明实施例中，文本图片可以通过对当前终端显示的文本内容进行截图、拍照或将终端中显示的文档进行扫描、打印、复印后拍照等方式获取。图片中承载有终端的身份码信息以十六进制表示为“0x12AB34CD”。

步骤402，对所述文本图片进行文字识别和切分处理，获取每一个汉字和对应的汉字图像块。

步骤403，将汉字图像块与变形字集合进行匹配，并提取匹配的变形字所承载的身份码比特信息。对于每一个汉字图像块，依次判断汉字是否为常用汉字。如果汉字不是常用汉字，则不做处理；如果汉字是常用汉字，则将汉字图像块与汉字的4种不同变形字分别进行匹配。根据匹配结果，判断汉字是属于四种变形字中的哪一种，并获取到这种变形字所承载的2位比特信息。具体方式为：如果汉字属于第1种变形，则获取到比特信息00；如果汉字属于第2种变形，则获取到比特信息01；如果汉字属于第3种变形，则获取到比特信息10；如果汉字属于第4种变形，则获取到比特信息11。

步骤404，利用常用汉字分组对提取的身份码比特信息进行排列，并采用投票算法纠错，同时提取出正确的身份码序列。利用本发明实施例身份码嵌入中步骤202的常用汉字分组，依次将步骤403得到的2位比特信息与分组中的常用汉字一一对应，生成16组不同的比特信息。由于步骤403中匹配变形字获取的比特信息可能存在错误，导致每一组中的2比特信息可能不同。因此，依次选择每一组中出现次数最多的比特信息，作为该组提取正确的2位比特信息。依次输出16组2位的比特信息，即32位的二进制身份码序列。

步骤405，将提取出的身份码序列转换回终端标识信息，识别出信息所标识的显示终端。将提取的32位身份码转换为终端的MAC地址、IP地址、主机名、用户名和时间等标识信息，识别出身份码信息所标识的显示终端，完成本发明的终端识别过程。

具体的，如图5所示，对本发明方法中的终端识别过程作进一步说明；

步骤501，获取待识别终端来源的文本图片。本发明实施例中，通过截取正在显示文档的终端屏幕，获得待识别终端来源的文本图片，图片中的汉字承载有显示终端的身份码。

步骤502，文字识别切分。对文本图片依次进行文字识别和文字切分处理，获取文本图片中的每一个汉字的图像块。

步骤503，字符匹配获取比特信息。对于每一个汉字图像块，依次判断汉字是否为常用汉字。如果汉字不是常用汉字，则不做处理；如果汉字是常用汉字，则将汉字图像块与汉字的4种不同变形字分别进行匹配。根据匹配结果，判断汉字是属于四种变形字中的哪一种，并获取到这种变形字所承载的2位比特信息。具体方式为：如果汉字属于第1种变形，则获取到比特信息00；如果汉字属于第2种变形，则获取到比特信息01；如果汉字属于第3种变形，则获取到比特信息10；如果汉字属于第4种变形，则获取到比特信息11。

例如，对于第一个汉字“甲”、第二个汉字“乙”，都是非常用汉字，因此不做处理；对于汉字“双”，其是常用汉字，因此将“双”字的图像块与4种不同变形字分别进行匹配。根据匹配结果判断出其属于“双”字的第3种变形，由此提取出“双”字所承载的比特信息“10”。其余汉字依此类推。

步骤504，提取身份码。利用本发明实施例身份码嵌入中步骤302的常用汉字分组，依次将步骤503得到的2位比特信息与分组中的常用汉字一一对应，生成16组不同的比特信息。由于步骤503中匹配变形字获取的比特信息可能存在错误，导致每一组中的2位比特信息可能不同。因此，依次选择每一组中出现次数最多的比特信息，作为该组提取正确的2位比特信息。

例如，在提取的16组不同的比特信息中，第5组中的“将”和“括”字，根据步骤503提取的比特信息分别为“00”和“01”，而其余汉字所提取的比特信息均为“10”。因此，选择出现次数最多的“10”作为第5组提取正确的2位比特信息。其余分组投票依此类推。依次输出16组2位的比特信息，即32位的二进制身份码序列“00010010101010110011010011001101”。

步骤505，识别显示终端。将提取的32位身份码转换为终端的MAC地址、IP地址、主机名、用户名和时间标识信息，识别出身份码信息所标识的显示终端，完成本发明的终端识别过程。

本发明实施例进一步给出实现上述方法实施例的应用场景和实施例运行界面示意图。

参考图1，为本发明实施例的应用场景示意图。

如图1所示，本发明实施例将终端A的身份码嵌入到字体文件Font.ttf中，同时生成新的字体文件NewFont.ttf，并替换终端A中的原字体文件。当终端A中的文档通过拍照、截屏或打印、扫描后拍照等方式被非法传播后，本发明实施例能够准确提取出传播的文本图片中的身份码信息，从而根据身份码识别到其传播的源头是终端A。

参考图6，为本发明实施例的身份码提取运行界面的示意图。

如图6所示，提取身份码的运行界面包括4个显示框。其中左上角为待识别终端来源的文本图片显示框，即显示读取的等待识别其来源的文本图片；右上角为文本识别结果输出框，即输出对文本图片做文本识别后的文字结果；左下角为汉字切分结果显示框，即显示文字切分后的文本图像；右下角为提取身份码结果输出框，即输出提取出来的十六进制形式的身份码信息。

基于实施例1，本发明还提供了显示终端身份识别系统，包括：

文本图片获取模块，用于获取待识别终端来源的文本图片；

基于实施例1，本发明还提供了计算机可读存储介质，包括计算机可执行指令，当所述计算机可执行指令被一个或多个处理器执行时，使得所述处理器执行上述任一实施方式所述的显示终端身份识别方法的步骤。

本发明实施例实现的显示终端身份识别方法，将唯一标识终端身份的溯源信息嵌入到终端字体文件中。对于该终端中的电子文档，即使通过拍照、截屏或打印、扫描后拍照等方式进行传播，也能够准确提取出溯源信息。因此，可以大大提升追踪识别文档泄露源头的准确率和效率。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.显示终端身份识别方法，其特征在于，包括身份码嵌入过程和终端识别过程；

所述身份码嵌入过程，包括如下步骤：

S2，将字体文件中的常用汉字和身份码序列进行分组；

所述终端识别过程，包括如下步骤：

S6，获取待识别终端来源的文本图片；

S10，将提取出的身份码序列转换回终端标识信息，识别出信息所标识的显示终端；

步骤S1包括如下步骤：

其中，二进制比特序列由显示终端的MAC地址、IP地址、主机名、用户名和当前时间信息组合生成；

步骤S2包括如下步骤：

S21，将K位的二进制比特序列按照每2位一组共划分为k＝K/2组；

S22，将字体文件中的n个常用汉字划分为k组；

其中，常用汉字分组规则为：将待分组汉字按照使用频率由高到低进行排序；若汉字排在第i位，则划分到第i％k组，％表示取余符号；

步骤S3包括如下步骤：

S33，将步骤S2得到的k组二进制比特序列与k组常用汉字一一对应，依次根据每一组的二进制比特序列信息，对每一个常用汉字选择4种变形汉字字符中的一种，建立常用汉字的变形字集合；

步骤S4包括如下步骤：

其中，新字体文件中的非常用汉字保持不变；

步骤S8包括如下步骤：

S82，如若汉字为非常用汉字，则不做处理；若汉字为常用汉字，则将汉字图像块与对应汉字的4种不同变形汉字的字符分别进行匹配，根据匹配结果，判断出汉字属于的变形汉字字符，并获取对应变形汉字字符所承载的2位比特信息；

步骤S9包括如下步骤：

S93，依次输出k组的2位比特信息，获得K＝2×k位的二进制身份码序列。

2.根据权利要求1所述的显示终端身份识别方法，其特征在于，步骤S10包括如下步骤：

3.显示终端身份识别系统，应用权利要求1-2中任一项所述的显示终端身份识别方法，其特征在于，所述显示终端身份识别系统包括：

文本图片获取模块，用于获取待识别终端来源的文本图片；

4.计算机可读存储介质，其特征在于，包括计算机可执行指令，当所述计算机可执行指令被一个或多个处理器执行时，使得所述处理器执行权利要求1-2中任一项所述的显示终端身份识别方法的步骤。