CN104200138A

CN104200138A - 一种离线鉴别文档的方法

Info

Publication number: CN104200138A
Application number: CN201410441337.6A
Authority: CN
Inventors: 姜河; 姜城
Original assignee: BEIJING VIEW SCENES TECHNOLOGY DEVELOPMENT Co Ltd
Current assignee: BEIJING VIEW SCENES TECHNOLOGY DEVELOPMENT Co Ltd
Priority date: 2014-09-01
Filing date: 2014-09-01
Publication date: 2014-12-10

Abstract

本发明提供一种离线鉴别文档的方法，包括：将基准文档的文字信息采用第一算法运算后得到校验值,所述校验值与所述基准文档的文字信息一一对应；将所述校验值作为第一数字水印信息加密嵌入到所述基准文档中,得到授权基准文档；将所述授权基准文档经过若干次传输得到待检测文档；将待检测文档的文字信息采用所述第一算法运算后得到待检测值；提取所述待检测文档中的第二数字水印信息；比较所述待检测值和所述第二数字水印信息，当所述待检测值和所述第二数字水印信息一致，则所述待检测文档为真。采用本发明的技术方案不用联网进行在线检测，从而实现离线检测，可以集成在移动终端中离线进行检测，便携方便，操作灵活，准确性高。

Description

一种离线鉴别文档的方法

技术领域

本发明涉及文档鉴别领域，尤其涉及一种离线鉴别文档的方法。

背景技术

进入信息化时代，作为信息载体的文档的数量日益庞大，其中文档的形式可以为电子形式或者纸质形式。文档的真伪关系到所承载信息的正确性，是否可以快速准备的对文档真伪进行鉴别，关系到根据文档所承载信息所做的决策的正确与否。

目前，鉴别文档的方法可以包括但不限于：扫码鉴别、特殊印刷鉴别、对比鉴别和人工鉴别等，其中扫码鉴别为扫描文档上加入的二维码或条形码；特殊印刷鉴别为鉴别印制文档所用的油墨和纸张是否为特殊的油墨和纸张；对比鉴别为使用光学字符识别(Optical Character Recognition，OCR)技术提取文字做比对；人工鉴别为通过鉴别人员用肉眼和经验鉴别。

以上扫码鉴别方式容易通过应用(Application，App)的扫码工具伪造二维码或条形码，安全性差；特殊印刷鉴别方式所采用的特殊的油墨和纸张成本较高；对比鉴别方式需要对大量数据进行比对，效率较低；人工鉴别方式准确性差。

发明内容

鉴于上述问题，提出了本发明以便提供一种离线鉴别文档的方法，方便灵活，准确性高。

本发明提供一种离线鉴别文档的方法，包括如下步骤：

将基准文档的文字信息采用第一算法运算后得到校验值,所述校验值与所述基准文档的文字信息一一对应；

将所述校验值作为第一数字水印信息加密嵌入到所述基准文档中,得到授权基准文档；

将所述授权基准文档经过若干次传输得到待检测文档；

将待检测文档的文字信息采用所述第一算法运算后得到待检测值；

提取所述待检测文档中的第二数字水印信息；

比较所述待检测值和所述第二数字水印信息，当所述待检测值和所述第二数字水印信息一致，则所述待检测文档为真；当所述待检测值和所述第二数字水印信息不一致，则所述待检测文档为假。

进一步的，所述第一算法为散列算法。

进一步的，所述校验值的长度不小于128bits。

进一步的，所述将所述校验值作为第一数字水印信息加密嵌入到所述基准文档中,得到授权基准文档包括：

将所述校验值通过水印生成算法生成第一数字水印信息；

将所述基准文档的数据、密钥和所述第一数字水印信息采用水印嵌入算法运算后得到所述授权基准文档的数据。

进一步的，所述水印生成算法包括伪随机算法或者基于混沌的水印算法；和/或，所述水印嵌入算法包括空间域算法或者变换域算法。

进一步的，所述若干次传输得包括：传真、电子邮件、复印、无线传输、蓝牙传输和/或邮寄。

进一步的，所述提取所述待检测文档中的第二数字水印信息包括：

根据所述基准文档的数据I得到所述第二数字水印信息

或者，根据所述第一数字水印信息W得到所述第二数字水印信息

或者，根据所述待检测文档的数据得到所述第二数字水印信息

其中，D表示水印检测算法，K表示密钥。

进一步的，所述提取所述待检测文档中的第二数字水印信息还包括：

对提取的信号做相似度检验。

或

其中表示第二数字水印信息，W表示第一数字水印信息，Sim表示不同信号的相似度；当Sim大于等于0.7时，所述提取的信号为第二数字水印信息。

本发明带来的有益效果如下：

基准文档与校验值一一对应，当基准文档在传输过程中，被篡改后，所得到的校验值也相应发生变化，从而可以方便快捷的对传输得到的待检测文档的真假进行检测。同时，对于传输得到的待检测文档，直接对待检测文档的文字信息进行运算得到待检测值，以及从待检测文档中所提取的第二数字水印信息进行比较，不用联网进行在线检测，从而实现离线检测，可以集成在移动终端中离线进行检测，便携方便，操作灵活，准确性高。

第一数字水印信息加密嵌入到基准文档中得到授权基准文档，在检测时采用相同的密钥进行检测，避免第一数字水印信息在传输过程中被识别或者篡改，进一步提高检测的安全性和可靠性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例中离线鉴别文档的方法的流程示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施提供一种可以供移动终端使用的离线鉴别文档的方法，可以通过移动终端拍摄扫描文档(电子或纸质)，离线对其真伪鉴别的方法。通过提取原始电子文档(下称基准文档)中的文字信息，按照散列算法，计算出散列数值作为该文档的标识信息。将标识信息作为数字水印信息加密嵌入到文档中，至此文档被嵌入防伪信息。文档可以电子或纸质的形态进行分发传播。鉴别文档时，可用移动终端APP扫描拍摄文档(电子或纸质)，提取文字信息，按照和生成文档同样的散列算法计算其值。在防伪信息区域提取水印信息解密后得到嵌入值，将该值与计算得到的散列值做比对，如果相同文档为真，反之为假。从而通过移动终端离线对文档进行真伪鉴别。

实施例，请参见图1，一种离线鉴别文档的方法，包括如下步骤：

S110将基准文档的文字信息采用第一算法运算后得到校验值,所述校验值与所述基准文档的文字信息一一对应。

第一算法所得到的校验值与基准文档的文字信息一一对应，即，当基准文档的文字信息发生变化后，所运算得到的校验值也随之发生变化，可选的，第一算法可以选用散列算法，特别的，因为采用散列算法，当基准文档的文字信息发生变化时，所得到的校验值虽然值发生变化，但是长度保持不变，因此，在本实施例中，第一算法优选采用散列算法。为了便于抵抗运算过程中的攻击，优选的，所述校验值的长度不小于128bits。散列算法可以包括但不限于：消息摘要算法第五版(Message Digest Algorithm，MD5)、安全哈希算法(SecureHash Algorithm，SHA)、消息认证码(Message Authentication Code,MAC)算法以及循环冗余检验(Cyclic Redundancy Check,CRC)算法等。

S120将所述校验值作为第一数字水印信息加密嵌入到所述基准文档中,得到授权基准文档。

所述将所述校验值作为第一数字水印信息加密嵌入到所述基准文档中,得到授权基准文档包括：

将所述校验值通过水印生成算法生成第一数字水印信息；所述水印生成算法包括伪随机算法或者基于混沌的水印算法；和/或，所述水印嵌入算法包括空间域算法或者变换域算法。在本实施例中，水印生成算法用于保证水印的唯一性、有效性、不可逆性属性。

将所述基准文档的数据、密钥和所述第一数字水印信息采用水印嵌入算法运算后得到所述授权基准文档的数据。其中密钥用于加强安全性，以避免未授权的恢复和修复水印。

本实施例中水印嵌入算法的公式如下：

I_W＝E(I,W,K)

其中I_W表示授权基准文档的数据，I表示基准文档的数据，W表示第一数字水印信息的集合，K表示密钥的集合，E表示水印嵌入算法。

通常，在选取水印嵌入算法时需要满足以下几点要求：鲁棒性：嵌入区域经过修改而保留水印信息的能力，能抵抗噪声、平滑、增强、有损压缩、平移、旋转、缩放和裁剪攻击手段。不可见性：嵌入的水印无法人为的看见。安全性：算法能够抵抗恶意攻击，能够承受一定程度的人为攻击，水印信息不会删除、破坏和窃取。数据容量：至少128bits以上。确定性：水印所携带的信息能够被唯一确定地鉴别。根据上述要求，在本实施例中，水印嵌入算法可以包括但不限于：空间域算法，例如基于位置服务(Location-based Service，LBS)算法、Patchwork和纹理映射编码算法等；或者变换域算法，例如离散博立叶变换(Discrete Fourier Transform，DFT)算法、离散余弦变换(Discrete CosineTransformation，DCT)算法和离散小波变换(Discrete Wavelet Transform，DWT)等。

在嵌入水印时，可以优选基准文档中纹理比较丰富的区域，所述纹理比较丰富区域一般是指文字较多区域、图形数量较多和/或图形色彩较丰富的区域。具体的，可以将基准文档中所有区域的像素进行采样排序后，按照排序从高到低来选择；或者，将基准文档进行分块，对每块区域的像素或者文字数量进行排序，按照排序从高到低选择等等。

S130将所述授权基准文档经过若干次传输得到待检测文档。所述若干次传输得包括：传真、电子邮件、复印、无线传输、蓝牙传输和/或邮寄。

S140将待检测文档的文字信息采用所述第一算法运算后得到待检测值。

在本实施例的应用中，在移动终端安装APP软件，先对文档文字区域进行扫描拍摄。APP软件包含光学字符识别(Optical Character Recognition，OCR)计算模块，通过OCR技术，获取待检测文档的文字信息。对待检测文档的文字信息进行散列计算，得到散列值作为待检测值，散列算法采用第一算法。

S150提取所述待检测文档中的第二数字水印信息。

将移动终端APP软件对准第二数字水印信息嵌入区域进行扫描拍摄，检测提取嵌入的水印信息。

所述提取所述待检测文档中的第二数字水印信息包括：

根据所述基准文档的数据I得到所述第二数字水印信息

其中，D表示水印检测算法，K表示密钥。

进一步的，可以对第二数字水印信息进行检测，检测方法可以包括：一是在有基准文档的数据的情况下，可以对第二数字水印信息进行相关性验证；二是在没有基准文档的数据的情况下，可以对第二数字水印信息进行全搜索或分布假设检验等，具体的，对提取的信号做相似度检验。

或

其中表示第二数字水印信息，W表示第一数字水印信息，Sim表示不同信号的相似度。

Sim的范围在[0,1]之间，数值越大表示相似度越高，可以根据待检测文档的质量设定Sim的数值满足的条件，从而确定所提取的数值是否为水印信息，在本实施例中设置数值大于等于0.7。

S160比较所述待检测值和所述第二数字水印信息，当所述待检测值和所述第二数字水印信息一致，则所述待检测文档为真；当所述待检测值和所述第二数字水印信息不一致，则所述待检测文档为假。

采用本实施例的技术方案，基准文档与校验值一一对应，当基准文档在传输过程中，被篡改后，所得到的校验值也相应发生变化，从而可以方便快捷的对传输得到的待检测文档的真假进行检测。同时，对于传输得到的待检测文档，直接对待检测文档的文字信息进行运算得到待检测值，以及从待检测文档中所提取的第二数字水印信息进行比较，不用联网进行在线检测，从而实现离线检测，可以集成在移动终端中离线进行检测，便携方便，操作灵活，准确性高。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种离线鉴别文档的方法，其特征在于，包括如下步骤：

将所述授权基准文档经过若干次传输得到待检测文档；

提取所述待检测文档中的第二数字水印信息；

2.根据权利要求1所述的方法，其特征在于，所述第一算法为散列算法。

3.根据权利要求2所述的方法，其特征在于，所述校验值的长度不小于128bits。

4.根据权利要求1所述的方法，其特征在于，所述将所述校验值作为第一数字水印信息加密嵌入到所述基准文档中,得到授权基准文档包括：

将所述校验值通过水印生成算法生成第一数字水印信息；

5.根据权利要求4所述的方法，其特征在于，所述水印生成算法包括伪随机算法或者基于混沌的水印算法；和/或，所述水印嵌入算法包括空间域算法或者变换域算法。

6.根据权利要求1所述的方法，其特征在于，所述若干次传输得包括：传真、电子邮件、复印、无线传输、蓝牙传输和/或邮寄。

7.根据权利要求1所述的方法，其特征在于，所述提取所述待检测文档中的第二数字水印信息包括：

根据所述基准文档的数据I得到所述第二数字水印信息

其中，D表示水印检测算法，K表示密钥。

8.根据权利要求7所述的方法，其特征在于，所述提取所述待检测文档中的第二数字水印信息还包括：

对提取的信号做相似度检验。

或