CN112131348A

CN112131348A - 基于文本和图像相似度防止项目重复申报的方法

Info

Publication number: CN112131348A
Application number: CN202011047496.XA
Authority: CN
Inventors: 罗益军; 李建军; 李代俊; 罗艾; 刘澜; 李钢
Original assignee: Chengdu Jinshui Electronic Technology Co ltd; Sichuan Vocational College Of Finance And Economics
Current assignee: Chengdu Jinshui Electronic Technology Co ltd; Sichuan Vocational College Of Finance And Economics
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2020-12-25
Anticipated expiration: 2040-09-29
Also published as: CN112131348B

Abstract

本发明公开了一种基于文本和图片相似度防止项目重复申报的方法，属于查重技术领域，解决现有技术中通过人工方式来判断项目是否存在重复申报的问题，其工作量大，效率低下，并且采用人工判断的方式，其主观性强，易造成判断的准确率低下的问题。本发明基于项目文档中的图片和文本摘要分别与数据库中的项目文档中的图片和文本摘要进行相似度对比，若项目文档中至少有一幅图片的相似度达到给定的阈值，且提取的文本摘要达到给定的阈值，将达到阈值的图片和文本摘要的相似度分别乘以给定的权重，得到项目文档的总相似度值，若总相似度值达到给定的阈值，则项目文档是重复申报的文档，否则，不是。本发明用于防止项目重复申报。

Description

基于文本和图像相似度防止项目重复申报的方法

技术领域

一种基于文本和图片相似度防止项目重复申报的方法，用于防止项目重复申报，属于查重技术领域。

背景技术

财政产业发展资金是专门用于支持特定行业、产业发展而设立的专项资金，每年各地企事业单位都会向当地科技厅(局)、经信厅(局)、商务厅(局)等厅局申报财政产业发展资金，以支持本单位重大重点项目的发展。各企事业单位在申报发展资金的时候，需要上报项目立项情况，详细介绍项目的技术指标(产品参数)、经济指标；项目研究主要目标、相关内容、技术关键、技术路线和应用方案等信息，这些信息有文字的，有表格的，也有图片(如技术架构、技术方案等)。每个单位根据项目所属，可以向不同的厅局申报项目，为了防止项目的重复申报、多头申报，项目的相似度识别就显得非常重要。以前传统的方法是人工来进行判断，但是工作量大，效率低下，而且主观性强，不够客观。

针对上述问题，现有技术中并没有公开采用图片相似度比较的方式来防止项目的重复申报，哪怕采用图片相似度比较的方式来防止项目的重复申报，仍然存在如下问题：传统的图片相似度比较都是基于图片本身的，比如图像转换为灰度图后比较图片的轮廓来判断二幅图是否相似，这种方法对于项目中的技术方面的图片不太适用，且对比结果的精确率低，因为两幅图片的轮廓特征不相似，但是可能表达的是基本相同的内容。

发明内容

针对上述研究的问题，本发明的目的在于提供了一种基于文本和图片相似度防止项目重复申报的方法，解决现有技术中通过人工方式来判断项目是否存在重复申报的问题，其工作量大，效率低下，并且采用人工判断的方式，其主观性强，易造成判断的准确率低下的问题。

为了达到上述目的，本发明采用如下技术方案：

一种基于文本和图片相似度防止项目重复申报的方法，如下步骤：

S1、基于计算机检索项目文档中的所有图片，并抽取每个图片中的所有文本元素，根据各文本元素的坐标位置，将文本元素字符串按顺序拼接起来，同时统计各文本元素间的间隔总数，形成各图片对应的文本序列和文本序列中各文本元素间的间隔总数，并将文本序列对应项目文档的申报申报编号存储在数据库中；

S2、基于项目文档中各文本序列和文本序列中各文本元素间的间隔总数，与数据库中原已保存的各项目文档中的各文本序列和文本序列中各文本元素间的间隔总数进行相似度计算，并判断最大相似度值是否达到给定的阈值，若是，则找到相似图片，若否，则未找到相似的图片；

S3、基于TextTank算法提取项目文档的文本摘要，并将文本摘要对应项目文档的申报编号存储在数据库中，再基于Doc2Vec算法将提取的文本摘要与数据库中原已保存的各项目文档中的文本摘要进行相似度计算，并判断最大相似度值是否达到给定的阈值，若是，则找到相似文本摘要，若否，则未找到相似的文本摘要；

S4、若项目文档中至少有一幅图片的相似度达到给定的阈值，且提取的文本摘要达到给定的阈值，将达到阈值的图片和文本摘要的相似度分别乘以给定的权重，得到项目文档的总相似度值，若总相似度值达到给定的阈值，则项目文档是重复申报的文档，否则，不是。

进一步，所述S1的具体步骤为：

S1.1、项目申报系统前端界面的项目内容申报的组件是文本输入框，进行图片申报时，文本输入框中获取的是图片的链接地址，基于图片的链接地址，用正则表达式检索项目文档中的所有图片；

S1.2、基于Opencv抽取每个图片中的所有文本元素，并根据抽取出的各文本元素的坐标位置，将文本元素字符串按顺序拼接起来形成各图片对应的文本序列；

S1.3、基于文本序列的间隔特征，统计文本序列中各文本元素的步数间隔，将得到的步数间隔相加得到文本序列中各文本元素间的间隔总数，即流程步骤数，并将文本序列对应项目文档的申报申报编号存储在数据库中，其中，间隔特征为各文本元素之间连续的空格、连接线段或连接箭头线，连续的空格、连接线段和连接箭头线分别代表一个步数间隔。

进一步，所述S2的具体步骤为：

S2.1、基于结巴分词原理，将待比较的两文本序列进行分词；

S2.2、将分词后的两文本序列分别转化成N维空间向量，即用词频作为各分词的权重，图片中的流程步骤数放在向量的最后一维，形成N维空间向量；

S2.3、利用余弦相似度计算出待比较的两个文本序列的向量的相似度大小，若相似度达到设定的阈值则找到相似图片，并停止比较，否则，继续比较，直到与数据库中的数据全部比较完；

通过余弦相似度计算余弦值，即相似度值，即两个向量间的余弦值通过欧几里得点积公示求出，具体如下：

其中，A是项目文档中各文本序列和文本序列中各文本元素间的间隔总数转换的空间向量，B是数据库中原已保存的项目文档中的各文本序列和文本序列中各文本元素间的间隔总数转换的空间向量；A_i，B_i分别代表空间向量A和B的各分量，Cos(θ)的值就可以用来判断A，B两个空间向量的相似度的大小，即相似度值，取值在[0，1]之间，值越大表示相似度越高。

进一步，所述S4中，将达到阈值的图片和文本摘要的相似度分别乘以给定的权重，得到项目文档的总相似度的具体步骤为：

S4.1、若达到阈值的图片为一幅时，将图片对应的相似度值乘以0.4再加上文本摘要对应的相似度值乘以0.6，得到总相似度值；

S4.2、若达到阈值的图片为两幅以上时，将各图片对应的相似度值乘以0.1再相加，得到所有图片的相似度值，将所有图片的相似度值乘以0.4再加上文本摘要对应的相似度值乘以0.6，得到总相似度值。

进一步，所述S4.2中，达到阈值的图片超过十幅时，取相似度最大的十幅图片。

本发明同现有技术相比，其有益效果表现在：

一、本发明基于项目文档中的图片来抽取文本序列和文本序列中各文本元素间的间隔总数，并将其与数据库中文本序列和文本序列中各文本元素间的间隔总数转换成向量进行相似度对比来防止项目的重复申报和多头申报，其工作量少，效度高，且判断的准确性高。

附图说明

图1为本发明中的流程示意图；

图2为本发明中项目文档中的图片。

具体实施方式

下面将结合附图及具体实施方式对本发明作进一步的描述。

具体步骤为：

S1.2、基于Opencv抽取每个图片中的所有文本元素，并根据抽取出的各文本元素的坐标位置，将文本元素字符串按顺序拼接起来形成各图片对应的文本序列；OpenCV是一个基于BSD许可(开源)发行的跨平台计算机视觉和机器学习软件库，本案例用该软件库实现了从图片中抽取文本信息的功能。

抽取出的各文本元素根据其坐标位置形成一个文本序列后，并统计文本序列中各文本元素间的间隔总数，这个间隔总数对于本案例是比较重要的，反应了流程图(即指项目文档中的各图片)经过的步骤或者某些方案的组成部分，它是流程图或某方案的重要特征，作为一个维度，必须参与计算。如图2所示，提取出的文本序列为[采购流程图独立需求订单MRP采购计划生成采购计划生成用款计划采购询价供应商档案选择供货商生成订单合同台账下达订单到货质量检验质量台账库存流水账采购入库是否合格结账采购统计分析]，可以看到中间一共经过了19步，即间隔总数或流程步骤数为19。

其中，申报申报编号是项目申报系统自动生成的。

S2、基于项目文档所对应的各文本序列和文本序列中各文本元素间的间隔总数，与数据库中原已保存的各项目文档中的各文本序列和文本序列中各文本元素间的间隔总数(指未存储本项目文档的图片的状态下，数据库中已保存的各项目文档中的各文本序列和文本序列中各文本元素间的间隔总数)进行相似度计算，并判断最大相似度值是否达到给定的阈值，若是，则找到相似图片，若否，则未找到相似的图片；

由于抽取出的文本序列本身并不是一句完整的句子或文章，所以可以采用基于文本表层意思而不是语义来进行相似度比较，而有的图片，比如组织结构图，同一层的各元素没有严格的先后顺序关系，所以本案例采用了余弦相似度计算的方案。余弦相似度计算方便快捷，在不考虑文本语义的情况下，准确性较高，性能较好。

具体步骤为：

S2.1、基于结巴分词原理，将待比较的两文本序列进行分词；

如图2所示的文本序列分词结果为：采购、流程图、独立、需求、订单、MRP、采购、计划、生成、采购、计划、生成、用款、计划、采购、询价、供应商、档案、选择、供货商、生成、订单、合同、台账、下达、订单、到货、质量、检验、质量、台账、库存、流水账、采购、入库、是、否、合格、结账、采购、统计、分析。

S2.2、将分词后的两文本序列分别转化成N维空间向量，即用词频作为各分词的权重，图片中的流程步骤数放在向量的最后一维，形成N维空间向量；比如流程图A的文本序列分词后是“生成、采购、计划、生成、用款、计划、采购、询价”，词频如下：生成为2，采购为2，计划为2，用款为1，询价为1，流程步骤数为2；流程图B的文本序列分词后是“采购、计划、用款、计划、购买、询价”，其词频如下：采购为1，计划为2，用款为1，询价为1，购买为1，流程步骤数为2；综合共有的文本元素和不同的文本元素是：“生成、采购、计划，用款、询价、购买和流程步骤数”，即空间向量是7维。流程图A的空间向量表示为[2，2，2，1，1，0，2]，流程图B的空间向量表示为[0，1，2，1，1，1，2]；

其中，A是文本序列和文本序列中各文本元素间的间隔总数转换的空间向量，B是数据库中文本序列和文本序列中各文本元素间的间隔总数转换的空间向量；A_i，B_i分别代表空间向量A和B的各分量，Cos(θ)的值就可以用来判断A，B两个空间向量的相似度的大小，即相似度值，取值在[0，1]之间，值越大表示相似度越高，对于大于0.8的，我们认为相似度高。。

S3、基于TextTank算法提取项目文档的文本摘要，并将文本摘要对应项目文档的申报编号存储在数据库中，再基于Doc2Vec算法将提取的文本摘要与数据库中原已保存的各项目文档中的文本摘要(指未存储本项目文档的文本摘要的状态下，数据库中已保存的文本摘要)进行相似度计算，并判断最大相似度值是否达到给定的阈值，若是，则找到相似文本摘要，若否，则未找到相似的文本摘要；

将达到阈值的图片和文本摘要的相似度分别乘以给定的权重，得到项目文档的总相似度的具体步骤为：

S4.2、若达到阈值的图片为两幅以上时，且达到阈值的图片超过十幅时，取相似度最大的十幅图片，将取出的各图片对应的相似度值乘以0.1再相加，得到所有图片的相似度值，将所有图片的相似度值乘以0.4再加上文本摘要对应的相似度值乘以0.6，得到总相似度值。

如果总相似度值达到给定阈值，表示项目文档与数据库中的一个或多个项目文档相似，将总相似度值显示到项目申报系统中用于查询。

以上仅是本发明众多具体应用范围中的代表性实施例，对本发明的保护范围不构成任何限制。凡采用变换或是等效替换而形成的技术方案，均落在本发明权利保护范围之内。

Claims

1.一种基于文本和图片相似度防止项目重复申报的方法，其特征在于，如下步骤：

2.根据权利要求1所述的一种基于文本和图片相似度防止项目重复申报的方法，其特征在于，所述S1的具体步骤为：

S1.2、基于0pencv抽取每个图片中的所有文本元素，并根据抽取出的各文本元素的坐标位置，将文本元素字符串按顺序拼接起来形成各图片对应的文本序列；

3.根据权利要求2所述的一种基于文本和图片相似度防止项目重复申报的方法，其特征在于，所述S2的具体步骤为：

S2.1、基于结巴分词原理，将待比较的两文本序列进行分词；

4.根据权利要求1所述的一种基于文本和图片相似度防止项目重复申报的方法，其特征在于，所述S4中，将达到阈值的图片和文本摘要的相似度分别乘以给定的权重，得到项目文档的总相似度的具体步骤为：

5.根据权利要求4所述的一种基于文本和图片相似度防止项目重复申报的方法，其特征在于，所述S4.2中，达到阈值的图片超过十幅时，取相似度最大的十幅图片。