CN107330127B - 一种基于文本图片检索的相似文本检测方法 - Google Patents

一种基于文本图片检索的相似文本检测方法 Download PDF

Info

Publication number
CN107330127B
CN107330127B CN201710598424.6A CN201710598424A CN107330127B CN 107330127 B CN107330127 B CN 107330127B CN 201710598424 A CN201710598424 A CN 201710598424A CN 107330127 B CN107330127 B CN 107330127B
Authority
CN
China
Prior art keywords
picture
text
retrieval
document
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710598424.6A
Other languages
English (en)
Other versions
CN107330127A (zh
Inventor
谭貌
原思平
金继成
苏永新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiangtan University
Original Assignee
Xiangtan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiangtan University filed Critical Xiangtan University
Priority to CN201710598424.6A priority Critical patent/CN107330127B/zh
Publication of CN107330127A publication Critical patent/CN107330127A/zh
Application granted granted Critical
Publication of CN107330127B publication Critical patent/CN107330127B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于文本图片检索的相似文本检测方法,包括以下步骤:建立文档库;建立文本图片库;文本图片库中图片的特征提取和降维;将检索文档分割为检索图片集;检索图片集中图片的特征提取和降维;检索图片集的余弦相似性度量;检索结果的全文相似度过滤;检索结果输出。本发明集成多种多层卷积神经网络模型训练CNN特征描述算子,获得文本图像的深层视觉表示,且通过PCA压缩降维提高相似性度量的效率,并从检索结果的过滤方面通过建立全文相似度过滤模型进行改进,对检索结果相似度进行更新,提高检索精度,直接推荐和检索任意多字符文本,具有良好的相似文本检测的能力,可用于文本重复性检查或相似文献推荐。

Description

一种基于文本图片检索的相似文本检测方法
技术领域
本发明涉及一种基于文本图片检索的相似文本检测方法。
背景技术
随着数字媒体技术的蓬勃发展,包括文本图像在内的多媒体资源规模越来越大。文本检索逐渐成为自然语言处理领域中的一个研究热点,产生了许多基于光学字符识别(OCR)技术的文本检索方法,该方法从图像中识别文本内容,然后利用文本检索技术实现文本图像检索系统。但是,传统的文本图像检索系统,需要依赖基于OCR的复杂模型,才能达到较好的文本识别和文本相似性检测效果。另外,对包含任意多个字符的无约束文本图像直接进行推荐和检索,同时适应于不同语言符号,需要一种相似性检索方法来学习和识别图像中的深度视觉特征。
文本内容的视觉呈现方式大致相同,在文本识别和检索的早期研究中,特征提取需要经过版面分析、行切分、单字切分、单字识别等过程,而在近几年,基于深度学习的特征提取技术已经成为一个重要的研究方向。各种深度学习模型中,卷积神经网络是图像处理任务中最强大的网络模型,使图像可以直接作为网络的输入,避免了传统识别方法中复杂的特征提取与数据重建过程。
相似性度量是确定检索系统有效性的另一关键技术。根据不同的属性度量图像内容的相似性有多种方法。在大多数的图像检索系统中,为找出检索图像的原始或类似的图像,常用余弦相似度度量方法,因为其准确性高而被确认为一种标准度量系统。此外,更有效和广泛的方法是基于图像高层的视觉特征,来计算成对图像的余弦相似性。然而在实际中,如果仅仅只计算文本图像之间的余弦相似性,来提高其相似性检索精度通常比较困难,比如不同的文本图像之间可能具有相似的视觉特征,但具有不同的高层主题特征的情况。
发明内容
为了解决上述技术问题,本发明提供一种操作简单、检测精度高的基于文本图片检索的相似文本检测方法。
本发明解决上述问题的技术方案是:一种基于文本图片检索的相似文本检测方法,包括以下步骤:
步骤一:建立文档库;收集文本类型文档建立文档库,为文档库中不同文档建立唯一编号索引;
步骤二:建立文本图片库;将文档库中文档按段落分割并转换为图片,建立文本图片库,同时根据分割前图片所属文档的唯一编号生成“图片名称-文档编号”索引,然后对文本图片库中每张文本图片进行等比例缩放、灰度转换预处理,转换为文本行高一致的灰度文本图片;
步骤三:文本图片库中图片的特征提取和降维;基于多层卷积神经网络提取文本图片库中每张图片的特征向量,组成文本图片库对应的特征矩阵,然后采用PCA方法对提取出的特征矩阵进行压缩降维;
步骤四:将检索文档分割为检索图片集;输入检索文档,将检索文档按段落分割并转换为图片,建立检索图片集,然后对检索图片集中每张文本图片进行等比例缩放、灰度转换预处理;
步骤五:检索图片集中图片的特征提取和降维;用多层卷积神经网络模型提取检索图片集中每张图片的特征向量,构建检索图片集对应的特征矩阵,并采用PCA方法压缩到与文本图片库特征矩阵相同的特征点维度;
步骤六:检索图片集的余弦相似性度量;对检索图片集中每张文本图片,计算其与文本图片库中所有文本图片之间的余弦相似度,并对得到的余弦相似度进行降序排列;
步骤七:检索结果的全文相似度过滤;根据检索图片集中每张文本图片与文本图片库中所有文本图片之间的余弦相似度,求得检索文档与文档库文档之间的相似度均值,更新检索图片集中每张文本图片对应的余弦相似度,并按余弦相似度降序重新排序;
步骤八:检索结果输出;针对检索图片集中每张图片,根据其余弦相似度选取文本图片库中图片作为输出;针对检索文档,根据相似度均值选取文档库中文档作为输出。
上述基于文本图片检索的相似文本检测方法,所述步骤三具体方法为:令多层卷积神经网络集合CNNS=(CNN1,CNN2,…CNNnc,),其中nc是CNNS中多层卷积神经网络的数量,CNNj1表示CNNS中第j1个多层卷积神经网络,j1=1,2,...,nc;对CNNS中各个网络,逐一使用文本图片数据集对CNNj1进行预训练,再以预处理后的文本图片库对CNNj1进行精调,基于CNNj1提取文本图片库中每张图片的特征向量,组成CNNj1对应的文本图片库特征矩阵,采用PCA方法对特征矩阵进行压缩降维;最后计算CNNS中各个网络的平均检索精度,基于求得的平均检索精度融合各个网络对应的特征矩阵。
上述基于文本图片检索的相似文本检测方法,所述步骤三中,用CNNj1提取文本图片库中每张图片的特征向量,组成文本图片库对应的特征矩阵的具体步骤为:
3-1-1)初始化n×x大小的文本图片库特征矩阵W,W为零矩阵,n是文本图片库中图片总数,x是CNNj1网络模型倒数第二层全连接层的神经元个数,设置图片截取的窗口大小为side×side,设置循环变量i1=1;
3-1-2)读取文本图片库中第i1张图片的像素数据矩阵Ii1,在Ii1上随机截取side×side大小的窗口,然后对窗口内的元素进行去平均化,得到side×side的矩阵Ii1’;
3-1-3)在CNNj1网络模型中输入Ii1’,然后从模型倒数第二个全连接层的x个1×1大小的神经元中输出图像特征,组成x维的特征向量wi1,并保存到特征矩阵W的第i1行;
3-1-4)令i1=i1+1,转步骤3-1-2)重复执行上述步骤,直到i1=n;
步骤五中,用CNNj1提取检索图片集中每张图片的特征向量,组成检索图片集对应的特征矩阵的方法与步骤三中相同。
上述基于文本图片检索的相似文本检测方法,所述步骤三中,计算CNNS中各个网络的平均检索精度的具体步骤为:
3-2-1)构造文本图片数据集PQ,其中第y个元素表示为{(Py,Qy)},数据集PQ的大小为ns,Qy是PQ第y个元素中包含的文本图片,其来源于步骤二中建立的文本图片库,Py是与Qy文本内容相似的检索图片,其来源是Qy中文本内容经过局部的文字修改、字体改变、布局调整后保存的图片,设置循环变量j1=1;
3-2-2)基于CNNj1,逐一检索Py(y=1,2,…,ns),计算CNNj1的平均检索精度Rank_avgj1,计算方法为:
Figure BDA0001356441060000041
其中rankj1 y是基于CNNj1的检索结果中,Py对应的相似文本图片Qy的排名,scorej1为CNNj1的Top-N准确率,N为检索输出结果的数量;
3-2-3)令j1=j1+1,转步骤3-2-2)重复执行上述步骤,直到j1=nc。
上述基于文本图片检索的相似文本检测方法,所述步骤五具体方法为:对CNNS中CNNj1(j1=1,2,...,nc),用CNNj1提取检索图片集中每张图片的特征向量,组成CNNj1对应的检索图片集特征矩阵,采用PCA方法将其压缩到与文本图片库特征矩阵相同的列数;最后基于步骤三中求得的平均检索精度融合各个网络对应的特征矩阵。
上述基于文本图片检索的相似文本检测方法,所述步骤三和步骤五中,基于求得的CNNS中各个网络的平均检索精度融合各个网络的特征矩阵,方法为:
Figure BDA0001356441060000051
其中Mj1是第j1种网络对应的特征矩阵,M是融合后的特征矩阵,
Figure BDA0001356441060000052
表示第j1种网络对应的权重。
上述基于文本图片检索的相似文本检测方法,所述步骤六具体步骤为:
6-1)加载文本图片库特征矩阵W和检索图片集特征矩阵V,设置循环变量a=1,m是检索图片集中图片总数;
6-2)读取V第a行特征向量va,并初始化n×2大小的矩阵Ca作为va对应的余弦相似度矩阵,记为
Figure BDA0001356441060000053
其中
Figure BDA0001356441060000054
的值为b,即wb对应的文本图片库中图片序号,
Figure BDA0001356441060000055
的计算方法为:
Figure BDA0001356441060000061
其中·表示两向量的点积操作,wb表示W中第b行特征向量,|| ||2表示求向量的L2范数;
6-3)对Ca所有行按
Figure BDA0001356441060000062
降序重新排列;
6-4)令a=a+1,转步骤6-2)重复执行上述步骤,直到a=m,得到m个余弦相似度矩阵C1~Cm
上述基于文本图片检索的相似文本检测方法,所述步骤七的具体方法为:根据余弦相似度矩阵C1~Cm,计算检索文档与文档库文档之间的相似度均值,以此更新余弦相似度矩阵C1~Cm
计算检索文档与文档库文档之间的相似度均值的具体步骤为:
7-1)加载“图片名称-文档编号”索引文件,初始化k×1大小的零矩阵Num和k×1大小的零矩阵Sim,k为文档库中文档总数;图片检索输出结果的数量为N,检索图片集中图片总数为m;设置循环变量j=1;
7-2)设置循环变量i=1;
7-3)对于Cj中第i行,其对应的文本图片库中图片序号为
Figure BDA0001356441060000063
根据该图片序号对应的图片名称和“图片名称-文档编号”索引,确定文档库中文档唯一编号d,更新
Figure BDA0001356441060000064
其中Numd表示Num中第d行元素的值,Simd表示Sim中第d行元素的值;
7-4)令i=i+1,转步骤7-3)重复执行上述步骤,直到i=N;
7-5)令j=j+1,转步骤7-2)重复执行上述步骤,直到j=m;
7-6)计算检索文档与文档库中编号为d(d=1,2,…,k)的文档之间的相似度均值
Figure BDA0001356441060000065
计算方法为:
Figure BDA0001356441060000071
则检索文档与文档库文档之间的相似度均值矩阵
Figure BDA0001356441060000072
更新余弦相似度矩阵C1~Cm的方法为:根据相似度均值矩阵Sim’,逐一更新余弦相似度矩阵Ca(a=1,2,…,m)中元素
Figure BDA0001356441060000073
更新方法为:
Figure BDA0001356441060000074
其中p是
Figure BDA0001356441060000075
对应的文档库中文档编号,更新后的相似度矩阵记为C1’~Cm’,对C1’~Cm’中各行,按
Figure BDA0001356441060000076
降序排列;对Sim’中元素按降序重新排列,并将降序排列后元素对应的文档编号保存至k×1大小的矩阵A中。
上述基于文本图片检索的相似文本检测方法,所述步骤八中,检索结果输出的依据为:针对检索图片集中第q(q=1,2,…,m)张文本图片,选取余弦相似度矩阵Cq’前X行对应的文本图片库中图片作为输出,X为相似文本图片最大输出数;针对检索文档,选取矩阵A中前Y行对应的文档库中文档作为输出,Y为相似文档最大输出数。
本发明的有益效果在于:本发明提供了一种基于计算机视觉的相似文本检测方法,集成多种多层卷积神经网络模型训练CNN特征描述算子,获得文本图像的深层视觉表示,且通过PCA压缩降维提高相似性度量的效率,并从检索结果的过滤方面通过建立全文相似度过滤模型进行改进,对检索结果相似度进行更新,提高检索精度,直接推荐和检索任意多字符文本,具有良好的相似文本检测的能力,可用于文本重复性检查或相似文献推荐。
附图说明
图1为本发明的流程图。
图2为本发明的检索结果示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明。
如图1所示,在训练阶段,首先收集文本文档建立文档库,对文档库文档按段落分割转换为图片,建立文本图片库;再用该文本图片库分别对预训练好的VGGNet-D、VGGNet-E、GoogLeNet三种网络模型进行精调,降维并保存从模型中得到的文本图片库的特征矩阵,再计算三种网络模型的平均检索精度,基于求得的三种网络模型的平均检索精度融合各个模型对应的特征矩阵。在检索阶段,首先将检索文档按段落分割转换成检索图片集,进行一系列预处理;再用精调后的三种网络模型分别对预处理后的检索图像集进行特征提取,获得表示深层视觉特征的特征矩阵,再通过PCA方法降维,并基于求得的三种网络模型的平均检索精度融合三种模型对应的特征矩阵;然后计算检索图片集与文本图片库图片之间的余弦相似度,同时计算检索文档与文档库文档之间的相似度均值,建立全文相似度过滤模型,基于全文相似度过滤模型更新计算检索图片集与文本图片库图片之间的余弦相似度;最后输出余弦相似度最大的一张或几张文本图片库图片,以及相似度均值最大的一篇或几篇文档库文档。
具体地说,如图1所示,本发明公开了一种基于文本图片检索的相似文本检测方法,包括训练和检索两个部分;
所述训练部分包括以下步骤:
步骤S101、建立文档库:通过互联网收集28篇文本类型文档建立文档库,为文档库中不同文档建立唯一编号索引;
步骤S102、建立文本图片库:根据文档库文档的存放路径,通过软件自动化方式将文档库中文档按段落分割并转换为图片,建立文本图片库,同时根据分割前图片所属文档的唯一编号,以“图片名称-文档编号”键值对形式生成“图片名称-文档编号”索引文件。再在Spark MLlib分布式机器学习计算框架下加载文本图片库,导入Java的AWT抽象窗口工具库,调用java.awt中基本的图像处理函数定义载入图片函数和转换图片函数,对文本图片库中图片进行分布式批量预处理。
定义的转换图片函数,是先识别图片的文本行数e,设置统一行高h=19像素,确定文本图片高度H=e×h,再以原图像比例确定图片宽度,进行等比例缩放和灰度转换,返回处理后的新图片覆盖原始图像,生成文本行高一致的灰度文本图片。
步骤S103、文本图片库中图片的特征提取和降维:基于多层卷积神经网络提取文本图片库中每张图片的特征向量,组成文本图片库对应的特征矩阵,然后采用PCA方法对提取出的特征矩阵进行压缩降维。
使用Caffe定义VGGNet-D、VGGNet-E、GoogLeNet网络结构,分别为16层、19层和23层,VGGNet网络模型包括16个卷积层和3个全连接层,其中16个卷积层分为5组,对应5个卷积特征提取阶段,每阶段的卷积个数从首阶段的64个开始,每阶段递增一倍,直到达到最高的512个后保持不变,所有卷积层均采用3×3大小的卷积核,卷积核滑动步长为1,并有一个像素的填充。模型的激活函数使用矫正线性单元,最小批量值为256,动量取0.9,权重衰减的l2惩罚系数设置为0.0005,初始学习率设置为0.01,当验证准确率停止递增后,学习率减小到初始值的十分之一;GoogLeNet网络模型包括21个卷积层和2个全连接层,其中倒数第二个全连接层采用average pooling作为全连接层,卷积层采用了1×1、3×3、5×5大小的卷积核,卷积核滑动步长为1,像素填充分别设定为0、1、2。
然后对定义的VGGNet-D、VGGNet-E、GoogLeNet网络,分别使用大规模文本图片数据集以随机梯度下降算法进行预训练,再以预处理后的文本图片库分别对三种预训练网络模型参数进行精调,并基于这三种网络模型提取文本图片库中每张图片的特征向量,组成各种网络模型对应的文本图片库特征矩阵。
提取文本图片库中每张图片的特征向量,组成文本图片库对应的特征矩阵的具体步骤为:
3-1-1)加载预处理的文本图片库,初始化n×x大小的文本图片库特征矩阵W,W为零矩阵,n是文本图片库中图片总数,x是多层卷积神经网络模型倒数第二层全连接层的神经元个数,VGGNet网络模型共4096个,GoogLeNet网络模型共1000个,设置图片截取的窗口大小为224×224,设置循环变量i1=1;
3-1-2)读取文本图片库中第i1张图片的像素数据到矩阵Ii1,在Ii1上随机截取224×224大小的窗口,然后对窗口内的元素进行去平均化,得到224×224的RGB图片矩阵Ii1’;
3-1-3)在多层卷积神经网络模型中输入Ii1’,然后从模型倒数第二个全连接层的x个1×1大小的神经元中输出图像特征,组成x维的特征向量wi1,并保存到特征矩阵W的第i1行,对应文本图片库中第i1张图片;
3-1-4)令i1=i1+1,转步骤3-1-2)重复执行上述步骤,直到i1=n,得到文本图片库对应的特征矩阵W=[w1,w2,……,wn]T
得到文本图片库对应的x维特征矩阵W后,通过PCA线性变换方法将W每列数据变换为一组各维度线性无关的表示,提取256个相互线性无关的主成分,得到x×256大小的主特征矩阵T,再将W乘以T,进行投影映射,将x维的特征矩阵W降维到256维,然后计算VGGNet-D、VGGNet-E、GoogLeNet三种网络的平均检索精度,并以此融合各个模型对应的特征矩阵,并将该特征矩阵保存在本地。
计算VGGNet-D、VGGNet-E、GoogLeNet三种网络的平均检索精度,并以此融合各个模型对应的特征矩阵的具体步骤为:
3-2-1)构造文本图片数据集PQ,其中第y个元素表示为{(Py,Qy)},数据集PQ的大小为ns,Qy是PQ第y个元素中包含的文本图片,其来源于步骤二中建立的文本图片库,Py是与Qy文本内容相似的检索图片,其来源是Qy中文本内容经过局部的文字修改、字体改变、布局调整后保存的图片,设置循环变量j1=1;本实施例中1≤j1≤3,CNN1、CNN2、CNN3分别对应VGGNet-D、VGGNet-E、GoogLeNet三种网络模型;
3-2-2)基于CNNj1,逐一检索Py(y=1,2,…,ns),计算CNNj1的平均检索精度Rank_avgj1,计算方法为:
Figure BDA0001356441060000111
其中rankj1 y是基于CNNj1的检索结果中,Py对应的相似文本图片Qy的排名,scorej1为CNNj1的Top-N准确率,scorej1计算方法为:
Figure BDA0001356441060000112
本实施例中检索输出结果的数量N为5。
3-2-3)令j1=j1+1,转步骤3-2-2)重复执行上述步骤,直到j1=3。
3-2-4)基于求得的CNNS中各个网络的平均检索精度融合各个网络的特征矩阵,方法为:
Figure BDA0001356441060000121
其中Mj1是第j1种网络对应的特征矩阵,M是融合后的特征矩阵,
Figure BDA0001356441060000122
表示第j1种网络对应的权重。
所述检索部分包括以下步骤:
步骤S104、将检索文档分割为检索图片集:输入检索文档,将检索文档按段落分割并转换为图片,建立检索图片集。如图2所示,图中201为检索文档的摘要段落经过分割并转换而成的图片。
接着,在MATLAB环境中,调用MATLAB图像处理函数,定义检索图片集预处理函数,逐一识别每张图片的文本行数e,确定其高度H=e×h,进行等比例缩放和灰度转换,得到预处理的检索图片集。
步骤S105、检索图片集中图片的特征提取和降维:用精调后的VGGNet-D、VGGNet-E、GoogLeNet三种网络模型分别提取检索图片集中每张图片的特征向量,组成各种网络模型对应的检索图片集特征矩阵,采用PCA方法将其压缩到与文本图片库特征矩阵相同的列数,再基于步骤S103中求得的CNNS中各个网络的平均检索精度融合各个网络对应的特征矩阵。检索图片集中图片的特征提取和降维采用与文本图片库中图片特征提取和降维同样的方法实现,在此不再赘述。
步骤S106、检索图片集的余弦相似性度量:对检索图片集中每张文本图片,计算其与文本图片库中所有文本图片之间的余弦相似度,并对得到的余弦相似度进行降序排列;具体步骤为:
6-1)加载文本图片库特征矩阵W=[w1,w2,…,wn]T,wn是文本图片库中第n张图片对应的特征向量,再加载检索图片集特征矩阵V=[v1,v2,……,vm]T,vm是检索图片集中第m张图片对应的特征向量,m是检索图片集中图片总数,设置循环变量a=1;
6-2)读取V第a行特征向量va,并初始化n×2大小的矩阵Ca作为va对应的相似度矩阵,记为
Figure BDA0001356441060000131
其中
Figure BDA0001356441060000132
的值初始化为b,即wb对应的文本图片库中图片序号,wb表示W中第b行特征向量,
Figure BDA0001356441060000133
初始化为va与wb之间的余弦相似度,计算方法为:
Figure BDA0001356441060000134
其中·表示两向量的点积操作,|| ||2表示求向量的L2范数;
6-3)对Ca所有行按
Figure BDA0001356441060000135
降序重新排列;
6-4)令a=a+1,转步骤6-2)重复执行上述步骤,直到a=m,得到m个余弦相似度矩阵C1~Cm
步骤S107、检索结果的全文相似度过滤:读取降序排列后的m个余弦相似度矩阵C1~Cm,根据检索图片集中每张文本图片与文本图片库中所有文本图片之间的余弦相似度,计算检索文档与文档库文档之间的相似度均值。
计算检索文档与文档库文档之间的相似度均值的具体步骤为:
7-1)加载“图片名称-文档编号”索引文件,文档库中文档总数为28,初始化28×1大小的零矩阵Num,用于保存文档库中文档被检索到的次数,初始化28×1大小的零矩阵Sim,用于保存文档库中文档分割后图片与检索图片集中图片两两匹配的余弦相似度总和,图片检索输出结果的数量为N,检索图片集中图片总数为m,设置循环变量j=1;
7-2)设置循环变量i=1;
7-3)对于Cj中第i行,其对应的文本图片库中图片序号为
Figure BDA0001356441060000141
再根据该图片序号对应的图片名称和“图片名称-文档编号”索引文件,确定对应的文档库中文档唯一编号d,更新Numd=Numd+1,
Figure BDA0001356441060000142
其中Numd表示Num中第d行元素的值,Simd表示Sim中第d行元素的值;
7-4)令i=i+1,转步骤7-3)重复执行上述步骤,直到i=N;
7-5)令j=j+1,转步骤7-2)重复执行上述步骤,直到j=m;
7-6)计算检索文档与文档库中编号为d(d=1,2,…,k)的文档之间的相似度均值
Figure BDA0001356441060000143
计算方法为:
Figure BDA0001356441060000144
则检索文档与文档库中所有文档之间的相似度均值矩阵
Figure BDA0001356441060000145
再基于相似度均值矩阵Sim’,更新余弦相似度矩阵C1~Cm,并按余弦相似度降序重新排序,实现对检索结果的过滤。
更新余弦相似度矩阵C1~Cm的方法为:根据相似度均值矩阵Sim’,逐一更新余弦相似度矩阵Ca(a=1,2,…,m)中元素
Figure BDA0001356441060000146
更新方法为:
Figure BDA0001356441060000147
其中p是
Figure BDA0001356441060000148
对应的文档库中文档编号,更新后的相似度矩阵记为C1’~Cm’,对C1’~Cm’中各行,按
Figure BDA0001356441060000149
降序排列;对Sim’中元素按降序重新排列,并将降序排列后元素对应的文档编号保存至k×1大小的矩阵A中。
步骤S108、检索结果输出:针对检索文档按段落分割得到的第q(q=1,2,…,m)张文本图片,选取余弦相似度矩阵Cq’第1行对应的文本图片库中图片作为输出结果,如图2所示,图中201为检索文档的摘要段落经过分割并转换而成的图片,202为检索输出的相似文本图片,由检索结果可见,本发明的方法具有良好的相似文本检测能力;另外针对检索文档,选取矩阵A第1行对应的文档库中文档作为输出结果。

Claims (9)

1.一种基于文本图片检索的相似文本检测方法,包括以下步骤:
步骤一:建立文档库;收集文本类型文档建立文档库,为文档库中不同文档建立唯一编号索引;
步骤二:建立文本图片库;将文档库中文档按段落分割并转换为图片,建立文本图片库,同时根据分割前图片所属文档的唯一编号生成“图片名称-文档编号”索引,然后对文本图片库中每张文本图片进行等比例缩放、灰度转换预处理,转换为文本行高一致的灰度文本图片;
步骤三:文本图片库中图片的特征提取和降维;基于多层卷积神经网络提取文本图片库中每张图片的特征向量,组成文本图片库对应的特征矩阵,然后采用PCA方法对提取出的特征矩阵进行压缩降维;
步骤四:将检索文档分割为检索图片集;输入检索文档,将检索文档按段落分割并转换为图片,建立检索图片集,然后对检索图片集中每张文本图片进行等比例缩放、灰度转换预处理;
步骤五:检索图片集中图片的特征提取和降维;用多层卷积神经网络模型提取检索图片集中每张图片的特征向量,构建检索图片集对应的特征矩阵,并采用PCA方法压缩到与文本图片库特征矩阵相同的特征点维度;
步骤六:检索图片集的余弦相似性度量;对检索图片集中每张文本图片,计算其与文本图片库中所有文本图片之间的余弦相似度,并对得到的余弦相似度进行降序排列;
步骤七:检索结果的全文相似度过滤;根据检索图片集中每张文本图片与文本图片库中所有文本图片之间的余弦相似度,求得检索文档与文档库文档之间的相似度均值,根据相似度均值更新余弦相似度,并按余弦相似度降序重新排序;
步骤八:检索结果输出;针对检索图片集中每张图片,根据其余弦相似度选取文本图片库中图片作为输出;针对检索文档,根据相似度均值选取文档库中文档作为输出。
2.根据权利要求1所述的基于文本图片检索的相似文本检测方法,其特征在于,所述步骤三具体方法为:令多层卷积神经网络集合CNNS=(CNN1,CNN2,…CNNnc,),其中nc是CNNS中多层卷积神经网络的数量,CNNj1表示CNNS中第j1个多层卷积神经网络,j1=1,2,...,nc;对CNNS中各个网络,逐一使用大规模文本图片数据集以随机梯度下降算法对CNNj1进行预训练,再以预处理后的文本图片库对CNNj1进行精调,基于CNNj1提取文本图片库中每张图片的特征向量,组成CNNj1对应的文本图片库特征矩阵,采用PCA方法对特征矩阵进行压缩降维;最后计算CNNS中各个网络的平均检索精度,基于求得的平均检索精度融合各个网络对应的特征矩阵。
3.根据权利要求2所述的基于文本图片检索的相似文本检测方法,其特征在于,所述步骤三中,用CNNj1提取文本图片库中每张图片的特征向量,组成文本图片库对应的特征矩阵的具体步骤为:
3-1-1)初始化n×x大小的文本图片库特征矩阵W,W为零矩阵,n是文本图片库中图片总数,x是CNNj1网络模型倒数第二层全连接层的神经元个数,设置图片截取的窗口大小为side×side,设置循环变量i1=1;
3-1-2)读取文本图片库中第i1张图片的像素数据矩阵Ii1,在Ii1上随机截取side×side大小的窗口,然后对窗口内的元素进行去平均化,得到side×side的矩阵Ii1’;
3-1-3)在CNNj1网络模型中输入Ii1’,然后从模型倒数第二个全连接层的x个1×1大小的神经元中输出图像特征,组成x维的特征向量wi1,并保存到特征矩阵W的第i1行;
3-1-4)令i1=i1+1,转步骤3-1-2)重复执行上述步骤,直到i1=n;
步骤五中,用CNNj1提取检索图片集中每张图片的特征向量,组成检索图片集对应的特征矩阵的方法与步骤三中相同。
4.根据权利要求3所述的基于文本图片检索的相似文本检测方法,其特征在于,所述步骤三中,计算CNNS中各个网络的平均检索精度的具体步骤为:
3-2-1)构造文本图片数据集PQ,其中第y个元素表示为{(Py,Qy)},数据集PQ的大小为ns,Qy是PQ第y个元素中包含的文本图片,其来源于步骤二中建立的文本图片库,Py是与Qy文本内容相似的检索图片,其来源是Qy中文本内容经过局部的文字修改、字体改变、布局调整后保存的图片,设置循环变量j1=1;
3-2-2)基于CNNj1,逐一检索Py(y=1,2,…,ns),计算CNNj1的平均检索精度Rank_avgj1,计算方法为:
Figure FDA0002431918260000031
其中rankj1 y是基于CNNj1的检索结果中,Py对应的相似文本图片Qy的排名,scorej1为CNNj1的Top-N准确率,N为检索输出结果的数量;
3-2-3)令j1=j1+1,转步骤3-2-2)重复执行上述步骤,直到j1=nc。
5.根据权利要求3所述的基于文本图片检索的相似文本检测方法,其特征在于,所述步骤五具体方法为:对CNNS中CNNj1(j1=1,2,...,nc),用CNNj1提取检索图片集中每张图片的特征向量,组成CNNj1对应的检索图片集特征矩阵,采用PCA方法将其压缩到与文本图片库特征矩阵相同的列数;最后基于步骤三中求得的平均检索精度融合各个网络对应的特征矩阵。
6.根据权利要求5所述的基于文本图片检索的相似文本检测方法,其特征在于,所述步骤三和步骤五中,基于求得的CNNS中各个网络的平均检索精度融合各个网络的特征矩阵,方法为:
Figure FDA0002431918260000041
其中Mj1是第j1种网络对应的特征矩阵,M是融合后的特征矩阵,
Figure FDA0002431918260000042
表示第j1种网络对应的权重。
7.根据权利要求6所述的基于文本图片检索的相似文本检测方法,其特征在于,所述步骤六具体步骤为:
6-1)加载文本图片库特征矩阵W和检索图片集特征矩阵V,设置循环变量a=1,m是检索图片集中图片总数;
6-2)读取V第a行特征向量va,并初始化n×2大小的矩阵Ca作为va对应的余弦相似度矩阵,记为
Figure FDA0002431918260000043
其中
Figure FDA0002431918260000044
的值为b,即wb对应的文本图片库中图片序号,
Figure FDA0002431918260000045
的计算方法为:
Figure FDA0002431918260000046
其中·表示两向量的点积操作,wb表示W中第b行特征向量,|| ||2表示求向量的L2范数;
6-3)对Ca所有行按
Figure FDA0002431918260000051
降序重新排列;
6-4)令a=a+1,转步骤6-2)重复执行上述步骤,直到a=m,得到m个余弦相似度矩阵C1~Cm
8.根据权利要求7所述的基于文本图片检索的相似文本检测方法,其特征在于,所述步骤七的具体方法为:根据余弦相似度矩阵C1~Cm,计算检索文档与文档库文档之间的相似度均值,以此更新余弦相似度矩阵C1~Cm
计算检索文档与文档库文档之间的相似度均值的具体步骤为:
7-1)加载“图片名称-文档编号”索引文件,初始化k×1大小的零矩阵Num和k×1大小的零矩阵Sim,k为文档库中文档总数;图片检索输出结果的数量为N,检索图片集中图片总数为m;设置循环变量j=1;
7-2)设置循环变量i=1;
7-3)对于Cj中第i行,其对应的文本图片库中图片序号为
Figure FDA0002431918260000052
根据该图片序号对应的图片名称和“图片名称-文档编号”索引,确定文档库中文档唯一编号d,更新Numd=Numd+1,
Figure FDA0002431918260000053
其中Numd表示Num中第d行元素的值,Simd表示Sim中第d行元素的值;
7-4)令i=i+1,转步骤7-3)重复执行上述步骤,直到i=N;
7-5)令j=j+1,转步骤7-2)重复执行上述步骤,直到j=m;
7-6)计算检索文档与文档库中编号为d(d=1,2,…,k)的文档之间的相似度均值
Figure FDA0002431918260000054
计算方法为:
Figure FDA0002431918260000055
则检索文档与文档库文档之间的相似度均值矩阵
Figure FDA0002431918260000056
更新余弦相似度矩阵C1~Cm的方法为:根据相似度均值矩阵Sim’,逐一更新余弦相似度矩阵Ca(a=1,2,…,m)中元素
Figure FDA0002431918260000061
更新方法为:
Figure FDA0002431918260000062
其中p是
Figure FDA0002431918260000063
对应的文档库中文档编号,更新后的相似度矩阵记为C1’~Cm’,对C1’~Cm’中各行,按
Figure FDA0002431918260000064
降序排列;对Sim’中元素按降序重新排列,并将降序排列后元素对应的文档编号保存至k×1大小的矩阵A中。
9.根据权利要求8所述的基于文本图片检索的相似文本检测方法,其特征在于,所述步骤八中,检索结果输出的依据为:针对检索图片集中第q(q=1,2,…,m)张文本图片,选取余弦相似度矩阵Cq’前X行对应的文本图片库中图片作为输出,X为相似文本图片最大输出数;针对检索文档,选取矩阵A中前Y行对应的文档库中文档作为输出,Y为相似文档最大输出数。
CN201710598424.6A 2017-07-21 2017-07-21 一种基于文本图片检索的相似文本检测方法 Active CN107330127B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710598424.6A CN107330127B (zh) 2017-07-21 2017-07-21 一种基于文本图片检索的相似文本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710598424.6A CN107330127B (zh) 2017-07-21 2017-07-21 一种基于文本图片检索的相似文本检测方法

Publications (2)

Publication Number Publication Date
CN107330127A CN107330127A (zh) 2017-11-07
CN107330127B true CN107330127B (zh) 2020-06-05

Family

ID=60199636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710598424.6A Active CN107330127B (zh) 2017-07-21 2017-07-21 一种基于文本图片检索的相似文本检测方法

Country Status (1)

Country Link
CN (1) CN107330127B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230409671A1 (en) * 2022-06-16 2023-12-21 Sichuan University Method for extracting kansei adjective of product based on principal component analysis and explanation (PCA-E)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107909054B (zh) * 2017-11-30 2021-05-04 任艳 图片文本的相似度评价方法及装置
CN108334884B (zh) * 2018-01-30 2020-09-22 华南理工大学 一种基于机器学习的手写文档检索方法
CN108984576A (zh) * 2018-02-07 2018-12-11 广州集创佳禾知识产权运营有限公司 一种基于卷积神经网络的专利文献获取方法及系统
CN108335731A (zh) * 2018-02-09 2018-07-27 辽宁工程技术大学 一种基于计算机视觉的病人饮食推荐方法
CN108596090B (zh) * 2018-04-24 2019-08-27 北京达佳互联信息技术有限公司 人脸图像关键点检测方法、装置、计算机设备及存储介质
CN108846047A (zh) * 2018-05-30 2018-11-20 百卓网络科技有限公司 一种基于卷积特征的图片检索方法及系统
CN110532352B (zh) * 2019-08-20 2023-10-27 腾讯科技(深圳)有限公司 文本查重方法及装置、计算机可读存储介质、电子设备
CN111859090A (zh) * 2020-03-18 2020-10-30 齐浩亮 基于面向源检索的局部匹配卷积神经网络模型获得抄袭源文档的方法
CN111813830B (zh) * 2020-07-02 2023-03-28 清华大学 一种基于轨道交通工业互联网的工业时序数据检索方法
CN112100412B (zh) * 2020-09-01 2024-04-12 深圳市欢太科技有限公司 图片检索方法、装置、计算机设备和存储介质
CN112131348B (zh) * 2020-09-29 2022-08-09 四川财经职业学院 基于文本和图像相似度防止项目重复申报的方法
CN113392245B (zh) * 2021-06-16 2023-12-26 南京大学 一种用于众测任务发布的文本摘要与图文检索生成方法
CN114092940A (zh) * 2021-11-24 2022-02-25 支付宝(杭州)信息技术有限公司 识别图像中字符的方法及装置
CN113962199B (zh) * 2021-12-20 2022-04-08 腾讯科技(深圳)有限公司 文本识别方法、装置、设备、存储介质及程序产品
CN116628171B (zh) * 2023-07-24 2023-10-20 北京惠每云科技有限公司 一种基于预训练语言模型的病历检索方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184256A (zh) * 2011-06-02 2011-09-14 北京邮电大学 一种针对海量相似短文本的聚类方法和系统
CN103605694A (zh) * 2013-11-04 2014-02-26 北京奇虎科技有限公司 一种相似文本检测装置和方法
CN104809481A (zh) * 2015-05-21 2015-07-29 中南大学 一种基于自适应色彩聚类的自然场景文本检测的方法
CN104809158A (zh) * 2015-03-26 2015-07-29 小米科技有限责任公司 网络内容过滤方法及装置
CN105426914A (zh) * 2015-11-19 2016-03-23 中国人民解放军信息工程大学 一种面向位置识别的图像相似度检测方法
CN106095735A (zh) * 2016-06-06 2016-11-09 北京中加国道科技有限责任公司 一种基于深度神经网络检测学术文献抄袭的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9842110B2 (en) * 2013-12-04 2017-12-12 Rakuten Kobo Inc. Content based similarity detection
US20160232231A1 (en) * 2015-02-11 2016-08-11 Hung Dang Viet System and method for document and/or message document and/or message content suggestion, user rating and user reward

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184256A (zh) * 2011-06-02 2011-09-14 北京邮电大学 一种针对海量相似短文本的聚类方法和系统
CN103605694A (zh) * 2013-11-04 2014-02-26 北京奇虎科技有限公司 一种相似文本检测装置和方法
CN104809158A (zh) * 2015-03-26 2015-07-29 小米科技有限责任公司 网络内容过滤方法及装置
CN104809481A (zh) * 2015-05-21 2015-07-29 中南大学 一种基于自适应色彩聚类的自然场景文本检测的方法
CN105426914A (zh) * 2015-11-19 2016-03-23 中国人民解放军信息工程大学 一种面向位置识别的图像相似度检测方法
CN106095735A (zh) * 2016-06-06 2016-11-09 北京中加国道科技有限责任公司 一种基于深度神经网络检测学术文献抄袭的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Newshingling的相似文本检测算法;赵德平,等;《沈阳建筑大学学报(自然科学版)》;20110730;第27卷(第4期);全文 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230409671A1 (en) * 2022-06-16 2023-12-21 Sichuan University Method for extracting kansei adjective of product based on principal component analysis and explanation (PCA-E)
US11868432B1 (en) * 2022-06-16 2024-01-09 Sichuan University Method for extracting kansei adjective of product based on principal component analysis and explanation (PCA-E)

Also Published As

Publication number Publication date
CN107330127A (zh) 2017-11-07

Similar Documents

Publication Publication Date Title
CN107330127B (zh) 一种基于文本图片检索的相似文本检测方法
US20190180154A1 (en) Text recognition using artificial intelligence
RU2661750C1 (ru) Распознавание символов с использованием искусственного интеллекта
RU2693916C1 (ru) Распознавание символов с использованием иерархической классификации
CN109948149B (zh) 一种文本分类方法及装置
US11288324B2 (en) Chart question answering
CN111340123A (zh) 一种基于深度卷积神经网络的图像分数标签预测方法
CN113674334B (zh) 基于深度自注意力网络和局部特征编码的纹理识别方法
RU2707147C1 (ru) Обучение нейронной сети посредством специализированных функций потерь
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
Termritthikun et al. NU-InNet: Thai food image recognition using convolutional neural networks on smartphone
CN110114776A (zh) 使用全卷积神经网络的字符识别的系统和方法
CN113920516B (zh) 一种基于孪生神经网络的书法字骨架匹配方法及系统
CN112163114B (zh) 一种基于特征融合的图像检索方法
Zhang et al. Consecutive convolutional activations for scene character recognition
Ahmed et al. Recognition of Urdu Handwritten Alphabet Using Convolutional Neural Network (CNN).
Hemanth et al. CNN-RNN BASED HANDWRITTEN TEXT RECOGNITION.
CN115187456A (zh) 基于图像强化处理的文本识别方法、装置、设备及介质
CN110555462A (zh) 基于卷积神经网络的无固定多字符验证码识别方法
CN110851633B (zh) 一种实现同时定位和哈希的细粒度图像检索方法
CN112257677A (zh) 一种在大数据集群中处理深度学习任务的方法及装置
CN108334884B (zh) 一种基于机器学习的手写文档检索方法
Deokate et al. Cnn classification approach for analysis and recognition of marathi manuscript
Zhuo et al. A Novel Data Augmentation Method for Chinese Character Spatial Structure Recognition by Normalized Deformable Convolutional Networks
CN116311275B (zh) 一种基于seq2seq语言模型的文字识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant