CN117648409B - 一种基于ocr的版式文件防伪识别方法 - Google Patents
一种基于ocr的版式文件防伪识别方法 Download PDFInfo
- Publication number
- CN117648409B CN117648409B CN202410122097.7A CN202410122097A CN117648409B CN 117648409 B CN117648409 B CN 117648409B CN 202410122097 A CN202410122097 A CN 202410122097A CN 117648409 B CN117648409 B CN 117648409B
- Authority
- CN
- China
- Prior art keywords
- term
- text
- file
- sequence
- text category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 239000013598 vector Substances 0.000 claims abstract description 51
- 238000004364 calculation method Methods 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 10
- 230000008569 process Effects 0.000 claims description 15
- 238000005516 engineering process Methods 0.000 claims description 12
- 238000005314 correlation function Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 abstract description 7
- 238000012015 optical character recognition Methods 0.000 description 34
- 230000006870 function Effects 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005242 forging Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理技术领域,具体涉及一种基于OCR的版式文件防伪识别方法,该方法包括:通过建立版式文件基准库训练OCR模型,结合OCR模型及隐马尔科夫模型得到待防伪识别的版式文件中各词项,根据各词项的搭配词项的词性得到各词项的搭配灵活权重;结合各词项在其文本类别中的出现频率分析各词项的重要性,构建各词项的特征向量得到需要对比的词项,将其与版式文件基准库中对应词项比较得到待防伪识别的版式文件的基准相似度,结合预设相似度阈值进行防伪识别。从而实现基于OCR的版式文件防伪识别,降低了进行防伪识别计算时资源消耗量,提高了防伪识别结果的可靠性。
Description
技术领域
本申请涉及数据处理技术领域,具体涉及一种基于OCR的版式文件防伪识别方法。
背景技术
版式文件是指具有特定排版样式和格式的文件,如报纸、杂志以及书籍等,通常具有一致的版面结构以及设计,包括文字、图片、标题、页眉页脚等文件元素的布局。版式文件是知识产权的重要形式之一,防止非法复制和传播是保护知识产权合法权益的必要措施,同时,版式文件防伪识别能够有效的打击盗版和侵权行为,维护市场秩序,具有极其重要的现实意义。
传统的版式文件防伪识别方法主要分为三大类:版面分析和特征提取、版面模版匹配以及水印版权技术。水印版权技术需要在版式文件创建和传播过程中严格把控,但容易受到破解和篡改,干扰识别结果;版面模版匹配对于样式变化和篇幅较大的版式文件处理不佳;对于版面分析和特征提取的版式文件防伪识别方法而言,该方法易于实现且计算资源消耗较低,能够较好的应对版面略微变形导致的干扰和噪音,但是对于篇幅较大的版式文件处理效果不佳,在一些复杂的版面布局中,不能够较为充分的考虑全局信息。
综上所述,本发明提出一种基于OCR的版式文件防伪识别方法,通过建立版式文件基准库训练OCR模型,结合OCR模型得到待防伪识别的版式文件中各词项,根据各词项在其文本类别中的重要性得到需要对比的词项,将其与版式文件基准库中对应词项比较得到待防伪识别的版式文件的基准相似度,结合预设相似度阈值进行防伪识别,具有较高防伪识别可靠性。
发明内容
为了解决上述技术问题,本发明提供一种基于OCR的版式文件防伪识别方法,以解决现有的问题。
本发明的一种基于OCR的版式文件防伪识别方法采用如下技术方案:
本发明一个实施例提供了一种基于OCR的版式文件防伪识别方法,该方法包括以下步骤:
收集版式文件建立版式文件基准库;将待防伪识别的版式文件作为待处理文件;
将待处理文件输入OCR模型得到待处理文件中各文本类别的文本字符序列;通过隐马尔科夫模型获取各文本类别的文本字符序列中每个词项;通过jieba分词算法获取待处理文件中各词项的词性;在各文本类别中,根据文本词项序列中词项的相邻词项得到各词项的搭配序列;根据各词项的搭配序列中词项的词性得到各词项的搭配词性总数;根据各词项的搭配词性总数得到各词项在文本类别中的词性灵活权重;获取各词项的词性灵活权重的负相关函数;根据各词项包含的字数及出现频率得到各词项在文本类别中的频率权重;获取各词项的搭配序列的出现频率;根据各词项的频率权重及搭配序列的出现频率得到各词项在文本类别中的关联权重;通过词频-逆文档频率算法获取文本类别中各词项的词频-逆文档频率值;将各词项的词性灵活权重的负相关函数、频率权重、关联权重及词频-逆文档频率值组成各词项的特征向量;通过K-shape聚类算法对文本类别中特征向量聚类得到文本类别中各聚类簇;在各聚类簇中,根据各词项的特征向量之间的相似性得到聚类簇的词项特征因子;将文本类别中词项特征因子最大的聚类簇中所有词项作为文本类别中需要比对的词项;根据各文本类别中每个需要比对的词项包含的字数结合版式文件基准库得到待处理文件的基准相似度;
根据待处理文件的基准相似度结合预设相似度阈值进行防伪识别。
优选的,所述根据各文本词项序列中词项的相邻词项得到各词项的搭配序列,具体为:
将文本词项序列中各词项的相邻词项组成的序列作为各词项的搭配序列。
优选的,所述根据各词项的搭配序列中词项的词性得到各词项的搭配词性总数,具体为:
获取文本类别中与第j个词项相同的各词项的搭配序列中词项的词性;获取所有所述搭配序列中词项的词性的种类数;将所述种类数作为第j个词项的搭配词性总数。
优选的,所述根据各词项的搭配词性总数得到各文本类别中每个词项的词性灵活权重的负相关函数,具体包括:
计算文本类别中各词项与剩余每个词项的搭配词性总数之间的差值;计算所有所述差值的和值;计算以自然常数为底数、以所述和值为指数的指数函数的计算结果;计算所述计算结果与文本类别中搭配序列数量的比值;将所述比值作为各词项的词项灵活权重。
优选的,所述根据各词项包含的字数及出现频率得到各词项在文本类型中的频率权重,具体包括:
对于文本类别中各词项,将单个词项包含字数与词项在文本类别中出现频率的乘积作为词项在文本类别中所占文本字符数;计算所述文本字符数与文本类别中文本字符总数的比值;计算所述比值与所述出现频率的乘积;将所述乘积作为词项在文本类别中的频率权重。
优选的,所述获取各词项的搭配序列的出现频率,具体为:
当文本类别中各词项为第一个或最后一个词项时,统计各词项的相邻词项在待处理文件中重复出现的次数;当各词项不为第一个或最后一个词项时,统计各词项的搭配序列在待处理文件所有词项的搭配序列中重复出现的次数;将所述重复出现的次数作为各词项的搭配序列的出现频率。
优选的,所述根据各词项的频率权重及搭配序列的出现频率得到各词项在文本类别中的关联权重,具体包括:
计算待处理文件中所有词项的搭配序列的出现频率的均值;计算文本类别中各词项的搭配序列的出现频率与所述均值的差值;计算以自然常数为底数、以所述差值为指数的指数函数的计算结果;计算所述计算结果与待处理文件中所有搭配序列的数量的比值;计算各词项的搭配序列中所有词项的频率权重的和值;计算所述比值与所述和值的乘积;将所述乘积作为各词项在文本类别中的关联权重。
优选的,所述根据各词项的特征向量之间的相似性得到聚类簇的词项特征因子,具体包括:
将各词项的特征向量中所有元素的均值作为各词项特征向量的特征值;根据各词项特征向量的特征值及各词项特征向量之间的相似性得到聚类簇的词项特征因子,表达式为:
式中,为第i类文本类别中第k个聚类簇的词项特征因子;/>为第i类文本类别中第k个聚类簇的香农熵;/>为所述聚类簇中词项特征向量个数;/>为所述聚类簇中第m个词项特征向量与剩余所有词项特征向量之间的杰卡德相似系数之和;为聚类簇中第/>个词项特征向量的特征值;/>为第i类文本类别中所有聚类簇中所有词项特征向量的特征值的均值;/>为以e为底的指数函数。
优选的,所述根据各文本类别中每个需要比对的词项包含的字数结合版式文件基准库得到待处理文件的基准相似度,具体包括:
对于待处理文件中各需要对比的词项,将词项对应文本类别的文本字符序列中的次序作为词项的位置;将词项包含的字数及位置组成的组合作为词项的对比二元组;获取待处理文件中各词项与版式文件基准库中对应词项的对比二元组之间的余弦相似度;通过Jaro-Winkler算法获取待处理文件中各词项与版式文件基准库中对应词项的文本内容之间的相似度得分;计算各词项的所述余弦相似度与所述相似度得分的乘积;
计算待处理文件中所有需要对比的词项的所述乘积的和值;将所述和值作为待处理文件的基准相似度。
优选的,所述根据待处理文件的基准相似度结合预设相似度阈值进行防伪识别,具体为:
若待处理文件的基准相似度大于等于相似度阈值,则待处理文件未被伪造;反之,则待处理文件存在伪造。
本发明至少具有如下有益效果:
本发明提出一种基于OCR的版式文件防伪识别方法,通过OCR模型得到待防伪识别的版式文件中各文本类别的文本字符序列;分析序列中各词项的重要性,获取需要对比的词项,计算待防伪识别的版式文件的基准相似度,进行防伪识别,避免了水印版权技术容易受到破解和篡改的问题,解决了传统的版式文件防伪识别方法对样式变化和篇幅较大的版式文件处理不佳的问题;降低了进行防伪识别计算时资源消耗量,提高了防伪识别结果的可靠性;
本发明通过建立版式文件基准库训练OCR模型,结合OCR模型及隐马尔科夫模型得到待防伪识别的版式文件不同文本类别内各词项,根据各词项的搭配词项的词性得到各词项的搭配灵活权重;根据各词项及其搭配词项在其文本类别中的出现频率得到各词项对其文本类别的频率权重及关联权重;结合各词项的词频-逆文档频率值构建每个词项的特征向量,结合聚类算法得到各聚类簇;根据各聚类簇中词项特征向量之间的相似性得到各文本类别中代表性最强的聚类簇,将簇内各词项与基准库进行比对,在保证词项对比准确度的基础上避免了对待防伪识别的版式文件中全部词项与基准库进行比对的弊端,进一步优化了计算资源;后续基于获得的版式文件基准相似度使用阈值判断其是否为盗版或存在篡改与伪造情况,能够更准确的评估待检测的版式文件是否为标准版式文件,实现了一种基于OCR的版式文件防伪识别方法。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明提供的一种基于OCR的版式文件防伪识别方法的流程图;
图2为一种基于OCR的版式文件防伪识别方法步骤图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于OCR的版式文件防伪识别方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基于OCR的版式文件防伪识别方法的具体方案。
本发明一个实施例提供的一种基于OCR的版式文件防伪识别方法。
具体的,提供了如下的一种基于OCR的版式文件防伪识别方法,请参阅图1,该方法包括以下步骤:
步骤S001,建立版式文件基准库,训练OCR模型。
首先,需建立版式文件基准库,建立版式文件基准库的方法如下:收集半年以内某市大量的广播电视报(要求所述报纸经过标准验证),通过扫描仪将报纸样本转换为数字化的版式文件,对获得的数字化版式文件进行预处理,本实施例中使用的预处理算法为中值滤波算法,目的在于削弱报纸的数字化图像中的噪声干扰,方便后续更精确的提取待防伪识别的版式文件中的文字信息,根据收集获得的大量认证过的报纸建立版式文件基准库,版式文件基准库中的文本类别数量(包括但不限于标题、副标题、摘要以及正文)应大于等于待防伪识别的版式文件中的文本类别数量。
将基准库中的版式文件作为训练样本,训练样本分为训练集、测试集和验证集,其中测试集和验证集的大小均设置为总样本数的10%,使用光学字符识别(OCR)技术对训练样本中的文字区域进行识别,之后根据标注好的版式文件数据集训练OCR模型,具体可采用TensorFlow的深度学习框架,搭建OCR模型的网络结构并进行训练,优化器选择SGD,损失函数选择交叉熵损失函数,学习率策略选择自适应学习率,由于OCR模型的训练为公知技术,本实施例不再过多赘述。
至此,可获得训练好的OCR模型,用于后续对待防伪识别的版式文件进一步分析。
步骤S002,结合OCR模型得到待防伪识别的版式文件中各词项,根据各词项在其文本类别中的重要性得到需要对比的词项,将其与版式文件基准库中对应词项比较得到待防伪识别的版式文件的基准相似度。
将需要进行防伪识别的版式文件(本实施例中为报纸)作为待处理文件,将待处理文件输入到上述训练好的OCR模型中进行相关文字信息的提取,OCR模型的输出为待处理文件的各类文本类别的文本字符序列,其中文本类别包括文本的标题、副标题、摘要、正文以及注释,每类文本类别可以得到一个文本字符序列,每个文本字符序列为对应文本类别中所有文本字符按照在文本中出现的先后顺序组成的序列。
通过隐马尔科夫模型获取上述每个文本字符序列中的各个词项,隐马尔科夫模型的输入为每个文本字符序列,输出为每个文本字符序列中的各个词项,其中隐马尔科夫模型为公知技术,具体过程不再赘述。将每个文本字符序列中所有词项按照其在对应文本字符序列中出现的先后顺序组成的序列作为每个文本类别的词项序列,记为各文本词项序列,例如摘要文本中有一句话为“任何真诚的泪水都是宝贵的”,则其所对应的文本词项序列为:。其中以第i类文本类别为例,在第i类文本类别中,将文本词项序列中第j个词项作为该文本类别的第j个词项。
至此得到待处理文件中的每个词项。通过jieba分词组件获取待处理文件中每个词项的词性,具体为:将待处理文件中的所有词项输入到jieba分词器中,jieba分词的输出为每个词项的词性标注,jieba分词为公知技术,具体过程不再赘述,其中词性指名词、动词、形容词等词项的特点。
待处理文件包含多种文本类别,对于第i类文本类别,由于当每个词项的搭配词项的词性越多时,每个词项的词项搭配越灵活,每个词项越有可能为该文本类别中的基础词项,在该文本类别中的代表性越低。因此对于每个文本类别中的内容,分析各词项在其文本类别中的词性灵活权重,具体为:以第i类文本类别为例,对于该文本类别的第j个词项,将第j-1个和第j+1个词项组成的序列作为第j个词项的搭配序列,例如上述例子中“真诚”的搭配序列为。由于第一个词项和最后一个词项都只有一个相邻词项,则将这一个相邻词项作为第一个或最后一个词项的搭配序列。在第i类文本类别中,统计所有搭配序列的数量/>;同时,获取该文本类别中与第j个词项的文本字符相同的所有词项,并获取这些词项的搭配序列中所有词项的词性种类数/>,例如,第j个词项为“的”,则统计该文本类别中所有“的”的搭配序列中词项的词性种类数,记为第j个词项的搭配词性总数/>。基于上述数据计算各词项在其文本类别中的词性灵活权重,表达式为:
式中,为第i个文本词项序列中第j个词项的词性灵活权重;/>为第i类文本类别中所有搭配序列的数量;/>、/>分别为第i个文本词项序列中第j个、第z个词项的搭配词性总数;/>为以e为底的指数函数,目的在于避免/>过小,无法体现其对计算结果的影响程度。其中由于每类文本类别中的词项数量一般均大于两个,因此/>不为0。当第j个词项的搭配词项的词性越多时,即/>越大,则该词项与其他词项的搭配越灵活,越有可能为其文本类别中的基础词项,进一步,该词项的搭配词性总数与所在文本类别中其它词项的搭配词性总数之间的差别越大,则该词项与其他词项的词性灵活度之间的差别越大,/>越大,越可能为该文本类别中的基础词项。通过上述方法获取各个词项在其文本类别中的词性灵活权重。
在每类文本类别中,单个词项包含的文字数量即文本字符数越多,且在其文本类别中重复出现的次数越多,则该词项对于其文本类别的重要性越大。据此分析各词项在其文本类别中的频率权重,具体为:以第i类文本类别为例,对于该文本类别的第j个词项,统计该词项在其文本类别中重复出现的次数,即出现频率,计算单个该词项所占文本字符数与该词项出现频率的乘积作为该词项在其文本类别中所占文本字符数/>;同时统计该文本类别中的文本字符总数/>。通过上述数据计算每个词项在其文本类别中的频率权重,表达式为:
式中,为第i类文本类别中第j个词项的频率权重,/>为第i类文本类别中第j个词项在其文本类别中的出现频率,/>为第i类文本类别中第j个词项在其文本类别中所占文本字符数,/>为第i类文本类别中的文本字符总数。每种词项在其文本类别中所占文本字符数越多,出现频率越大,则该词项在其文本类别中的重要性越大,该词项在其文本类别中的频率权重越大,/>越大。通过上述方式计算每个词项在其文本类别中的频率权重。
由于相同词项在不同文本类别中的搭配序列可能不同,从而该词项在整个待处理文件中的核心程度可能降低;而若相同词项在整个待处理文件中的搭配序列相同,则该词项及其搭配词项为整个待处理文件的核心词项的可能性较高,从而该词项为其文本类别的核心词项的可能性较高,与其文本类别的关联程度较高。因此根据每个词项的搭配序列的出现情况计算每个词项在其文本类别中的关联权重,具体为:以第i类文本类别中第j个词项为例,当第j个词项为第一个或最后一个词项时,统计其相邻词项在整个待处理文件中重复出现的次数;当该词项不为第一个或最后一个词项时,统计其搭配序列在整个待处理文件所有词项的搭配序列中重复出现的次数;将上述的重复出现的次数作为该词项的搭配序列在整个待处理文件中的出现频率。通过上述方法获取整个待处理文件中每个词项的搭配序列在整个待处理文件中的出现频率,并计算所有词项的搭配序列出现频率的平均值。同时,统计待处理文件中所有搭配序列的数量/>。之后,结合第j个词项的搭配序列中每个词项的频率权重计算每个词项在其文本类别中的关联权重,表达式为:
式中,为第i类文本类别中第j个词项的关联权重;/>为以e为底的指数函数;为第i文本类别中第j个词项的搭配序列在整个待处理文件中的出现频率;/>为待处理文件中所有词项的搭配序列出现频率的平均值;/>为待处理文件中所有搭配序列的数量;、/>分别为第i类文本类别中第/>个、第/>个词项在其文本类别中的频率权重。在第i类文本类别中,每个词项的搭配序列在整个待处理文件中的出现频率越高,与词项搭配序列的平均出现频率之间的差别越大,即/>越大,则该词项及其搭配词项越可能为整个待处理文件中的核心词汇,则该词项对于其所在文本类别而言,重要性越高,与其文本类别的关联程度越高,从而该词项在其文本类别中的关联权重越大;该词项的搭配词项的频率权重越大,搭配词项在其文本类别中的重要性越高,与搭配词项相连的该词项的重要性也越高,从而关联权重越大。通过上述方式计算每个词项在其文本类别中的关联权重。
通过词频-逆文档频率TF-IDF算法(Term Frequency-Inverse DocumentFrequency)获得第i类文本类别中第j个词项的词频-逆文档频率值(用于衡量词项在文档中的重要性),词频-逆文档频率TF-IDF算法的输入为待处理文件中各个文本类别的文本词项序列,输出为各个文本类别中每个词项的词频-逆文档频率值,TF-IDF算法为公知技术,具体过程不再赘述。
根据获得的每类文本类别中每个词项的词性灵活权重、频率权重、关联权重以及词频-逆文档频率值构建每类文本类别中每个词项的特征向量,例如第i类文本类别中第j个词项的特征向量为,将每个词项的特征向量确定为词项特征向量。通过K-shape聚类算法分别对每类文本类别中所有词项特征向量进行聚类,以第i类文本类别为例,K-shape聚类算法的输入为第i类文本类别中所有词项特征向量,聚类中心的数量K设置为第i类文本类别中词项个数的/>倍,需要说明的是,/>的值实施者可自行设定,本实施例将/>的值设定为0.2,使用欧几里得距离作为度量方式,算法输出为第i类文本类别的各聚类簇,由于K-shape聚类算法为公知技术,本实施例不再过多赘述。通过上述方式获取各类文本类别中每个聚类簇。
以第i类文本类别中词项特征向量的各个聚类簇为例进行后续计算。以该文本类别中第k个聚类簇为例,首先,获取聚类簇中所有词项特征向量的数量;将聚类簇中第/>个词项特征向量中所有元素的均值作为该词项特征向量的特征值/>。统计聚类簇中第/>个特征值/>在聚类簇中重复出现的次数/>,将其与/>的比值作为第/>个特征值在该聚类簇中出现的概率;通过上述方法计算该聚类簇内每个特征值的出现概率;通过聚类簇内每个特征值的出现概率获取该聚类簇的香农熵/>,香农熵的计算方法为公知技术,具体过程不再赘述。
然后,在该聚类簇中,计算第m个词项特征向量与该聚类簇内剩余每个词项特征向量之间的杰卡德相似系数,并计算第m个词项特征向量对应的所有杰卡德相似系数的和值,/>越大,相似性越大。杰卡德相似系数为公知技术,具体过程不再赘述。
最后,根据上述数据计算第i类文本类别中第k个聚类簇的词项特征因子,表达式为:
式中,为第i类文本类别中第k个聚类簇的词项特征因子;/>为第i类文本类别中第k个聚类簇的香农熵;/>为该聚类簇中词项特征向量个数;/>为该聚类簇中第m个词项特征向量与剩余所有词项特征向量之间的杰卡德相似系数之和;/>为聚类簇中第/>个词项特征向量的特征值;/>为第i类文本类别中所有聚类簇中所有词项特征向量的特征值的均值;/>为以e为底的指数函数。
第i类文本类别中第k个聚类簇中的香农熵越大,该聚类簇中的词项特征向量越混乱,聚类簇中词项贡献度越高;聚类簇中各个词项特征向量之间杰卡德相似系数越小,各词项特征向量之间的相似程度越小,对应的各词项之间越不相同;进一步的,该聚类簇内各词项的特征值越大、与其文本类别中所有词项的特征值均值之间差距越大,则该聚类簇中各词项的核心程度越高,重要性越高,聚类簇中词项在其文本类别中的代表性越强,越大,该聚类簇内的词项越应该优先与基准库进行比对。通过上述方法获取每类文本类别中每个聚类簇的词项特征因子。
至此,获得各类文本类别中每个聚类簇的词项特征因子,选取每个文本类别中词项特征因子最大的聚类簇中的词项作为需要比对的词项,与步骤S001中获得的版式文件基准库进行比对,对每个需要进行比对的词项构建对比二元组,例如第i类文本类别中第t个需要比对的词项的对比二元组为,/>分别为第i类文本类别中第t个词项中含有的文本字符个数以及所述词项在待处理文件中的位置(位置通过所述词项在对应文本类别的文本字符序列中的次序获得),计算第i类文本类别中第t个需要比对的词项对比二元组与基准库中相同文本类别中相同位置词项的对比二元组之间的余弦相似度/>,其中余弦相似度为公知技术,具体过程不再赘述。其次,通过Jaro-Winkler算法获得第i类文本类别中第t个需要比对的词项与基准库中对应文本类别中词项文本内容之间相似度得分/>,Jaro-Winkler算法的输入为所述需要对比词项的文本内容,输出为其与对比词项文本内容之间的相似度得分,其中Jaro-Winkler算法为公知技术,具体过程不再赘述。根据上述数据计算待处理文件的基准相似度/>,表达式为:
式中,为待处理文件的基准相似度;I为待处理文件中的文本类别数量;/>为待处理文件的第i类文本类别中需要对比的词项数量;/>为第i类文本类别中第t个需要比对的词项与基准库中对应词项的对比二元组之间的余弦相似度;/>为第i类文本类别中第t个需要比对的词项与基准库中对应词项的文本内容之间的相似度得分;/>为归一化函数,使得/>的值域处于[0,1]的范围内。
待防伪识别的版式文件中需要对比的各词项与基准库中对应词项的对比二元组之间的余弦相似度越大,即越大,各组对应词项之间越相似;待防伪识别的版式文件中需要对比的各词项与基准库中对应词项文本内容间的相似度得分越大,即/>越大,各组对应词项之间越相似,待防伪识别的版式文件与基准库中的标准版式文件之间的相似度越大,/>越大,所述版式文件是盗版或所述版式文件存在篡改或伪造的可能性越低;反之,越小,待防伪识别的版式文件与基准库中的标准版式文件之间的相似度越小,待防伪识别的版式文件是盗版或所述版式文件被篡改或伪造的可能性越高。
步骤S003,根据待处理文件的基准相似度结合预设相似度阈值进行防伪识别。
在上述步骤中已获得待防伪识别的版式文件的基准相似度,设置相似度阈值U,需要说明的是,U的值实施者可自行设定,本实施例将U的值设定为0.8。当待防伪识别的版式文件的基准相似度大于等于相似度阈值U时,则待防伪识别的版式文件不是盗版或该版式文件不存在被篡改和伪造情况;当待防伪识别的版式文件的基准相似度小于相似度阈值U时,则待防伪识别的版式文件是盗版或者该版式文件存在被篡改和伪造情况。上述方法的步骤图如图2所示。
综上所述,本发明实施例通过OCR模型得到待防伪识别的版式文件中各文本类别的文本字符序列;分析序列中各词项的重要性,获取需要对比的词项,计算待防伪识别的版式文件的基准相似度,进行防伪识别,避免了水印版权技术容易受到破解和篡改的问题,解决了传统的版式文件防伪识别方法对样式变化和篇幅较大的版式文件处理不佳的问题;降低了进行防伪识别计算时资源消耗量,提高了防伪识别结果的可靠性;
本实施例通过建立版式文件基准库训练OCR模型,结合OCR模型及隐马尔科夫模型得到待防伪识别的版式文件不同文本类别内各词项,根据各词项的搭配词项的词性得到各词项的搭配灵活权重;根据各词项及其搭配词项在其文本类别中的出现频率得到各词项对其文本类别的频率权重及关联权重;结合各词项的词频-逆文档频率值构建每个词项的特征向量,结合聚类算法得到各聚类簇;根据各聚类簇中词项特征向量之间的相似性得到各文本类别中代表性最强的聚类簇,将簇内各词项与基准库进行比对,在保证词项对比准确度的基础上避免了对待防伪识别的版式文件中全部词项与基准库进行比对的弊端,进一步优化了计算资源;后续基于获得的版式文件基准相似度使用阈值判断其是否为盗版或存在篡改与伪造情况,能够更准确的评估待检测的版式文件是否为标准版式文件,实现了一种基于OCR的版式文件防伪识别方法。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于OCR的版式文件防伪识别方法,其特征在于,该方法包括以下步骤:
收集版式文件建立版式文件基准库,将版式文件基准库中的版式文件作为训练样本,采用OCR技术对训练样本中的文字区域进行识别,之后根据标注好的版式文件数据集训练OCR模型,得到训练好的OCR模型;将待防伪识别的版式文件作为待处理文件;
将待处理文件输入OCR模型得到待处理文件中各文本类别的文本字符序列;通过隐马尔科夫模型获取各文本类别的文本字符序列中每个词项;通过jieba分词算法获取待处理文件中各词项的词性;在各文本类别中,根据文本词项序列中词项的相邻词项得到各词项的搭配序列;根据各词项的搭配序列中词项的词性得到各词项的搭配词性总数;根据各词项的搭配词性总数得到各词项在文本类别中的词性灵活权重;获取各词项的词性灵活权重的负相关函数;根据各词项包含的字数及出现频率得到各词项在文本类别中的频率权重;获取各词项的搭配序列的出现频率;根据各词项的频率权重及搭配序列的出现频率得到各词项在文本类别中的关联权重;通过词频-逆文档频率算法获取文本类别中各词项的词频-逆文档频率值;将各词项的词性灵活权重的负相关函数、频率权重、关联权重及词频-逆文档频率值组成各词项的特征向量;通过K-shape聚类算法对文本类别中特征向量聚类得到文本类别中各聚类簇;在各聚类簇中,根据各词项的特征向量之间的相似性得到聚类簇的词项特征因子;将文本类别中词项特征因子最大的聚类簇中所有词项作为文本类别中需要比对的词项;根据各文本类别中每个需要比对的词项包含的字数结合版式文件基准库得到待处理文件的基准相似度;
根据待处理文件的基准相似度结合预设相似度阈值进行防伪识别。
2.如权利要求1所述的一种基于OCR的版式文件防伪识别方法,其特征在于,所述根据各文本词项序列中词项的相邻词项得到各词项的搭配序列,具体为:
将文本词项序列中各词项的相邻词项组成的序列作为各词项的搭配序列。
3.如权利要求1所述的一种基于OCR的版式文件防伪识别方法,其特征在于,所述根据各词项的搭配序列中词项的词性得到各词项的搭配词性总数,具体为:
获取文本类别中与第j个词项相同的各词项的搭配序列中词项的词性;获取所有所述搭配序列中词项的词性的种类数;将所述种类数作为第j个词项的搭配词性总数。
4.如权利要求1所述的一种基于OCR的版式文件防伪识别方法,其特征在于,所述根据各词项的搭配词性总数得到各文本类别中每个词项的词性灵活权重的负相关函数,具体包括:
计算文本类别中各词项与剩余每个词项的搭配词性总数之间的差值;计算所有所述差值的和值;计算以自然常数为底数、以所述和值为指数的指数函数的计算结果;计算所述计算结果与文本类别中搭配序列数量的比值;将所述比值作为各词项的词项灵活权重。
5.如权利要求1所述的一种基于OCR的版式文件防伪识别方法,其特征在于,所述根据各词项包含的字数及出现频率得到各词项在文本类型中的频率权重,具体包括:
对于文本类别中各词项,将单个词项包含字数与词项在文本类别中出现频率的乘积作为词项在文本类别中所占文本字符数;计算所述文本字符数与文本类别中文本字符总数的比值;计算所述比值与所述出现频率的乘积;将所述乘积作为词项在文本类别中的频率权重。
6.如权利要求1所述的一种基于OCR的版式文件防伪识别方法,其特征在于,所述获取各词项的搭配序列的出现频率,具体为:
当文本类别中各词项为第一个或最后一个词项时,统计各词项的相邻词项在待处理文件中重复出现的次数;当各词项不为第一个或最后一个词项时,统计各词项的搭配序列在待处理文件所有词项的搭配序列中重复出现的次数;将所述重复出现的次数作为各词项的搭配序列的出现频率。
7.如权利要求1所述的一种基于OCR的版式文件防伪识别方法,其特征在于,所述根据各词项的频率权重及搭配序列的出现频率得到各词项在文本类别中的关联权重,具体包括:
计算待处理文件中所有词项的搭配序列的出现频率的均值;计算文本类别中各词项的搭配序列的出现频率与所述均值的差值;计算以自然常数为底数、以所述差值为指数的指数函数的计算结果;计算所述计算结果与待处理文件中所有搭配序列的数量的比值;计算各词项的搭配序列中所有词项的频率权重的和值;计算所述比值与所述和值的乘积;将所述乘积作为各词项在文本类别中的关联权重。
8.如权利要求1所述的一种基于OCR的版式文件防伪识别方法,其特征在于,所述根据各词项的特征向量之间的相似性得到聚类簇的词项特征因子,具体包括:
将各词项的特征向量中所有元素的均值作为各词项特征向量的特征值;根据各词项特征向量的特征值及各词项特征向量之间的相似性得到聚类簇的词项特征因子,表达式为:
式中,为第i类文本类别中第k个聚类簇的词项特征因子;/>为第i类文本类别中第k个聚类簇的香农熵;/>为所述聚类簇中词项特征向量个数;/>为所述聚类簇中第m个词项特征向量与剩余所有词项特征向量之间的杰卡德相似系数之和;/>为聚类簇中第/>个词项特征向量的特征值;/>为第i类文本类别中所有聚类簇中所有词项特征向量的特征值的均值;/>为以e为底的指数函数。
9.如权利要求1所述的一种基于OCR的版式文件防伪识别方法,其特征在于,所述根据各文本类别中每个需要比对的词项包含的字数结合版式文件基准库得到待处理文件的基准相似度,具体包括:
对于待处理文件中各需要对比的词项,将词项对应文本类别的文本字符序列中的次序作为词项的位置;将词项包含的字数及位置组成的组合作为词项的对比二元组;获取待处理文件中各词项与版式文件基准库中对应词项的对比二元组之间的余弦相似度;通过Jaro-Winkler算法获取待处理文件中各词项与版式文件基准库中对应词项的文本内容之间的相似度得分;计算各词项的所述余弦相似度与所述相似度得分的乘积;
计算待处理文件中所有需要对比的词项的所述乘积的和值;将所述和值作为待处理文件的基准相似度。
10.如权利要求1所述的一种基于OCR的版式文件防伪识别方法,其特征在于,所述根据待处理文件的基准相似度结合预设相似度阈值进行防伪识别,具体为:
若待处理文件的基准相似度大于等于相似度阈值,则待处理文件未被伪造;反之,则待处理文件存在伪造。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410122097.7A CN117648409B (zh) | 2024-01-30 | 2024-01-30 | 一种基于ocr的版式文件防伪识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410122097.7A CN117648409B (zh) | 2024-01-30 | 2024-01-30 | 一种基于ocr的版式文件防伪识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117648409A CN117648409A (zh) | 2024-03-05 |
CN117648409B true CN117648409B (zh) | 2024-04-05 |
Family
ID=90049967
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410122097.7A Active CN117648409B (zh) | 2024-01-30 | 2024-01-30 | 一种基于ocr的版式文件防伪识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117648409B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294736A (zh) * | 2016-08-10 | 2017-01-04 | 成都轻车快马网络科技有限公司 | 基于关键词频率的文本特征提取方法 |
CN108647203A (zh) * | 2018-04-20 | 2018-10-12 | 浙江大学 | 一种中医病情文本相似度的计算方法 |
CN110825877A (zh) * | 2019-11-12 | 2020-02-21 | 中国石油大学(华东) | 一种基于文本聚类的语义相似度分析方法 |
-
2024
- 2024-01-30 CN CN202410122097.7A patent/CN117648409B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294736A (zh) * | 2016-08-10 | 2017-01-04 | 成都轻车快马网络科技有限公司 | 基于关键词频率的文本特征提取方法 |
CN108647203A (zh) * | 2018-04-20 | 2018-10-12 | 浙江大学 | 一种中医病情文本相似度的计算方法 |
CN110825877A (zh) * | 2019-11-12 | 2020-02-21 | 中国石油大学(华东) | 一种基于文本聚类的语义相似度分析方法 |
Non-Patent Citations (2)
Title |
---|
"一种结合TF-IDF和Simhash的科技项目文本相似性度量方法";孙北宁 等;《电子技术应用》;20230606;第49卷(第6期);第88-93页 * |
"基于权重标准化SimRank 方法的查询扩展技术研究";马云龙 等;《中文信息学报》;20110131;第25卷(第1期);第28-34页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117648409A (zh) | 2024-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Halteren | Author verification by linguistic profiling: An exploration of the parameter space | |
Bruni et al. | Distributional semantics from text and images | |
Bayar et al. | Towards open set camera model identification using a deep learning framework | |
Butnaru et al. | Moroco: The moldavian and romanian dialectal corpus | |
CN109902223B (zh) | 一种基于多模态信息特征的不良内容过滤方法 | |
JP2004139222A (ja) | 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム | |
CN113032253B (zh) | 测试数据特征提取方法、测试方法及相关装置 | |
CN115221864A (zh) | 一种多模态假新闻检测方法及系统 | |
CN112085112A (zh) | 一种图像类别检测方法、系统、电子设备及存储介质 | |
CN113627151B (zh) | 跨模态数据的匹配方法、装置、设备及介质 | |
CN115309860A (zh) | 基于伪孪生网络的虚假新闻检测方法 | |
Kudari et al. | Fake news detection using passive aggressive and TF-IDF vectorizer | |
Fairhurst et al. | Perceptual analysis of handwritten signatures for biometric authentication | |
CN110347825A (zh) | 一种短英文影评分类方法及装置 | |
CN113626604A (zh) | 基于最大间隔准则的网页文本分类系统 | |
CN113420291A (zh) | 基于权重集成的入侵检测特征选择方法 | |
CN117648409B (zh) | 一种基于ocr的版式文件防伪识别方法 | |
CN107533672A (zh) | 模式识别装置、模式识别方法以及程序 | |
Haribhakta et al. | Unsupervised topic detection model and its application in text categorization | |
CN110110734A (zh) | 开集识别方法、信息处理设备以及存储介质 | |
CN110096708B (zh) | 一种定标集确定方法及装置 | |
Ahmed et al. | Hateful Meme Prediction Model Using Multimodal Deep Learning | |
CN111382273B (zh) | 一种基于吸引因子的特征选择的文本分类方法 | |
Du et al. | A graphical model approach for matching partial signatures | |
CN108733824B (zh) | 考虑专家知识的交互式主题建模方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |