CN112131348A - 基于文本和图像相似度防止项目重复申报的方法 - Google Patents

基于文本和图像相似度防止项目重复申报的方法 Download PDF

Info

Publication number
CN112131348A
CN112131348A CN202011047496.XA CN202011047496A CN112131348A CN 112131348 A CN112131348 A CN 112131348A CN 202011047496 A CN202011047496 A CN 202011047496A CN 112131348 A CN112131348 A CN 112131348A
Authority
CN
China
Prior art keywords
text
similarity
picture
project
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011047496.XA
Other languages
English (en)
Other versions
CN112131348B (zh
Inventor
罗益军
李建军
李代俊
罗艾
刘澜
李钢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Jinshui Electronic Technology Co ltd
Sichuan Vocational College Of Finance And Economics
Original Assignee
Chengdu Jinshui Electronic Technology Co ltd
Sichuan Vocational College Of Finance And Economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Jinshui Electronic Technology Co ltd, Sichuan Vocational College Of Finance And Economics filed Critical Chengdu Jinshui Electronic Technology Co ltd
Priority to CN202011047496.XA priority Critical patent/CN112131348B/zh
Publication of CN112131348A publication Critical patent/CN112131348A/zh
Application granted granted Critical
Publication of CN112131348B publication Critical patent/CN112131348B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Library & Information Science (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Primary Health Care (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于文本和图片相似度防止项目重复申报的方法,属于查重技术领域,解决现有技术中通过人工方式来判断项目是否存在重复申报的问题,其工作量大,效率低下,并且采用人工判断的方式,其主观性强,易造成判断的准确率低下的问题。本发明基于项目文档中的图片和文本摘要分别与数据库中的项目文档中的图片和文本摘要进行相似度对比,若项目文档中至少有一幅图片的相似度达到给定的阈值,且提取的文本摘要达到给定的阈值,将达到阈值的图片和文本摘要的相似度分别乘以给定的权重,得到项目文档的总相似度值,若总相似度值达到给定的阈值,则项目文档是重复申报的文档,否则,不是。本发明用于防止项目重复申报。

Description

基于文本和图像相似度防止项目重复申报的方法
技术领域
一种基于文本和图片相似度防止项目重复申报的方法,用于防止项目重复申报,属于查重技术领域。
背景技术
财政产业发展资金是专门用于支持特定行业、产业发展而设立的专项资金,每年各地企事业单位都会向当地科技厅(局)、经信厅(局)、商务厅(局)等厅局申报财政产业发展资金,以支持本单位重大重点项目的发展。各企事业单位在申报发展资金的时候,需要上报项目立项情况,详细介绍项目的技术指标(产品参数)、经济指标;项目研究主要目标、相关内容、技术关键、技术路线和应用方案等信息,这些信息有文字的,有表格的,也有图片(如技术架构、技术方案等)。每个单位根据项目所属,可以向不同的厅局申报项目,为了防止项目的重复申报、多头申报,项目的相似度识别就显得非常重要。以前传统的方法是人工来进行判断,但是工作量大,效率低下,而且主观性强,不够客观。
针对上述问题,现有技术中并没有公开采用图片相似度比较的方式来防止项目的重复申报,哪怕采用图片相似度比较的方式来防止项目的重复申报,仍然存在如下问题:传统的图片相似度比较都是基于图片本身的,比如图像转换为灰度图后比较图片的轮廓来判断二幅图是否相似,这种方法对于项目中的技术方面的图片不太适用,且对比结果的精确率低,因为两幅图片的轮廓特征不相似,但是可能表达的是基本相同的内容。
发明内容
针对上述研究的问题,本发明的目的在于提供了一种基于文本和图片相似度防止项目重复申报的方法,解决现有技术中通过人工方式来判断项目是否存在重复申报的问题,其工作量大,效率低下,并且采用人工判断的方式,其主观性强,易造成判断的准确率低下的问题。
为了达到上述目的,本发明采用如下技术方案:
一种基于文本和图片相似度防止项目重复申报的方法,如下步骤:
S1、基于计算机检索项目文档中的所有图片,并抽取每个图片中的所有文本元素,根据各文本元素的坐标位置,将文本元素字符串按顺序拼接起来,同时统计各文本元素间的间隔总数,形成各图片对应的文本序列和文本序列中各文本元素间的间隔总数,并将文本序列对应项目文档的申报申报编号存储在数据库中;
S2、基于项目文档中各文本序列和文本序列中各文本元素间的间隔总数,与数据库中原已保存的各项目文档中的各文本序列和文本序列中各文本元素间的间隔总数进行相似度计算,并判断最大相似度值是否达到给定的阈值,若是,则找到相似图片,若否,则未找到相似的图片;
S3、基于TextTank算法提取项目文档的文本摘要,并将文本摘要对应项目文档的申报编号存储在数据库中,再基于Doc2Vec算法将提取的文本摘要与数据库中原已保存的各项目文档中的文本摘要进行相似度计算,并判断最大相似度值是否达到给定的阈值,若是,则找到相似文本摘要,若否,则未找到相似的文本摘要;
S4、若项目文档中至少有一幅图片的相似度达到给定的阈值,且提取的文本摘要达到给定的阈值,将达到阈值的图片和文本摘要的相似度分别乘以给定的权重,得到项目文档的总相似度值,若总相似度值达到给定的阈值,则项目文档是重复申报的文档,否则,不是。
进一步,所述S1的具体步骤为:
S1.1、项目申报系统前端界面的项目内容申报的组件是文本输入框,进行图片申报时,文本输入框中获取的是图片的链接地址,基于图片的链接地址,用正则表达式检索项目文档中的所有图片;
S1.2、基于Opencv抽取每个图片中的所有文本元素,并根据抽取出的各文本元素的坐标位置,将文本元素字符串按顺序拼接起来形成各图片对应的文本序列;
S1.3、基于文本序列的间隔特征,统计文本序列中各文本元素的步数间隔,将得到的步数间隔相加得到文本序列中各文本元素间的间隔总数,即流程步骤数,并将文本序列对应项目文档的申报申报编号存储在数据库中,其中,间隔特征为各文本元素之间连续的空格、连接线段或连接箭头线,连续的空格、连接线段和连接箭头线分别代表一个步数间隔。
进一步,所述S2的具体步骤为:
S2.1、基于结巴分词原理,将待比较的两文本序列进行分词;
S2.2、将分词后的两文本序列分别转化成N维空间向量,即用词频作为各分词的权重,图片中的流程步骤数放在向量的最后一维,形成N维空间向量;
S2.3、利用余弦相似度计算出待比较的两个文本序列的向量的相似度大小,若相似度达到设定的阈值则找到相似图片,并停止比较,否则,继续比较,直到与数据库中的数据全部比较完;
通过余弦相似度计算余弦值,即相似度值,即两个向量间的余弦值通过欧几里得点积公示求出,具体如下:
Figure BDA0002708340120000021
其中,A是项目文档中各文本序列和文本序列中各文本元素间的间隔总数转换的空间向量,B是数据库中原已保存的项目文档中的各文本序列和文本序列中各文本元素间的间隔总数转换的空间向量;Ai,Bi分别代表空间向量A和B的各分量,Cos(θ)的值就可以用来判断A,B两个空间向量的相似度的大小,即相似度值,取值在[0,1]之间,值越大表示相似度越高。
进一步,所述S4中,将达到阈值的图片和文本摘要的相似度分别乘以给定的权重,得到项目文档的总相似度的具体步骤为:
S4.1、若达到阈值的图片为一幅时,将图片对应的相似度值乘以0.4再加上文本摘要对应的相似度值乘以0.6,得到总相似度值;
S4.2、若达到阈值的图片为两幅以上时,将各图片对应的相似度值乘以0.1再相加,得到所有图片的相似度值,将所有图片的相似度值乘以0.4再加上文本摘要对应的相似度值乘以0.6,得到总相似度值。
进一步,所述S4.2中,达到阈值的图片超过十幅时,取相似度最大的十幅图片。
本发明同现有技术相比,其有益效果表现在:
一、本发明基于项目文档中的图片来抽取文本序列和文本序列中各文本元素间的间隔总数,并将其与数据库中文本序列和文本序列中各文本元素间的间隔总数转换成向量进行相似度对比来防止项目的重复申报和多头申报,其工作量少,效度高,且判断的准确性高。
附图说明
图1为本发明中的流程示意图;
图2为本发明中项目文档中的图片。
具体实施方式
下面将结合附图及具体实施方式对本发明作进一步的描述。
一种基于文本和图片相似度防止项目重复申报的方法,如下步骤:
S1、基于计算机检索项目文档中的所有图片,并抽取每个图片中的所有文本元素,根据各文本元素的坐标位置,将文本元素字符串按顺序拼接起来,同时统计各文本元素间的间隔总数,形成各图片对应的文本序列和文本序列中各文本元素间的间隔总数,并将文本序列对应项目文档的申报申报编号存储在数据库中;
具体步骤为:
S1.1、项目申报系统前端界面的项目内容申报的组件是文本输入框,进行图片申报时,文本输入框中获取的是图片的链接地址,基于图片的链接地址,用正则表达式检索项目文档中的所有图片;
S1.2、基于Opencv抽取每个图片中的所有文本元素,并根据抽取出的各文本元素的坐标位置,将文本元素字符串按顺序拼接起来形成各图片对应的文本序列;OpenCV是一个基于BSD许可(开源)发行的跨平台计算机视觉和机器学习软件库,本案例用该软件库实现了从图片中抽取文本信息的功能。
S1.3、基于文本序列的间隔特征,统计文本序列中各文本元素的步数间隔,将得到的步数间隔相加得到文本序列中各文本元素间的间隔总数,即流程步骤数,并将文本序列对应项目文档的申报申报编号存储在数据库中,其中,间隔特征为各文本元素之间连续的空格、连接线段或连接箭头线,连续的空格、连接线段和连接箭头线分别代表一个步数间隔。
抽取出的各文本元素根据其坐标位置形成一个文本序列后,并统计文本序列中各文本元素间的间隔总数,这个间隔总数对于本案例是比较重要的,反应了流程图(即指项目文档中的各图片)经过的步骤或者某些方案的组成部分,它是流程图或某方案的重要特征,作为一个维度,必须参与计算。如图2所示,提取出的文本序列为[采购流程图独立需求订单MRP采购计划生成采购计划生成用款计划采购询价供应商档案选择供货商生成订单合同台账下达订单到货质量检验质量台账库存流水账采购入库是否合格结账采购统计分析],可以看到中间一共经过了19步,即间隔总数或流程步骤数为19。
其中,申报申报编号是项目申报系统自动生成的。
S2、基于项目文档所对应的各文本序列和文本序列中各文本元素间的间隔总数,与数据库中原已保存的各项目文档中的各文本序列和文本序列中各文本元素间的间隔总数(指未存储本项目文档的图片的状态下,数据库中已保存的各项目文档中的各文本序列和文本序列中各文本元素间的间隔总数)进行相似度计算,并判断最大相似度值是否达到给定的阈值,若是,则找到相似图片,若否,则未找到相似的图片;
由于抽取出的文本序列本身并不是一句完整的句子或文章,所以可以采用基于文本表层意思而不是语义来进行相似度比较,而有的图片,比如组织结构图,同一层的各元素没有严格的先后顺序关系,所以本案例采用了余弦相似度计算的方案。余弦相似度计算方便快捷,在不考虑文本语义的情况下,准确性较高,性能较好。
具体步骤为:
S2.1、基于结巴分词原理,将待比较的两文本序列进行分词;
如图2所示的文本序列分词结果为:采购、流程图、独立、需求、订单、MRP、采购、计划、生成、采购、计划、生成、用款、计划、采购、询价、供应商、档案、选择、供货商、生成、订单、合同、台账、下达、订单、到货、质量、检验、质量、台账、库存、流水账、采购、入库、是、否、合格、结账、采购、统计、分析。
S2.2、将分词后的两文本序列分别转化成N维空间向量,即用词频作为各分词的权重,图片中的流程步骤数放在向量的最后一维,形成N维空间向量;比如流程图A的文本序列分词后是“生成、采购、计划、生成、用款、计划、采购、询价”,词频如下:生成为2,采购为2,计划为2,用款为1,询价为1,流程步骤数为2;流程图B的文本序列分词后是“采购、计划、用款、计划、购买、询价”,其词频如下:采购为1,计划为2,用款为1,询价为1,购买为1,流程步骤数为2;综合共有的文本元素和不同的文本元素是:“生成、采购、计划,用款、询价、购买和流程步骤数”,即空间向量是7维。流程图A的空间向量表示为[2,2,2,1,1,0,2],流程图B的空间向量表示为[0,1,2,1,1,1,2];
S2.3、利用余弦相似度计算出待比较的两个文本序列的向量的相似度大小,若相似度达到设定的阈值则找到相似图片,并停止比较,否则,继续比较,直到与数据库中的数据全部比较完;
通过余弦相似度计算余弦值,即相似度值,即两个向量间的余弦值通过欧几里得点积公示求出,具体如下:
Figure BDA0002708340120000051
其中,A是文本序列和文本序列中各文本元素间的间隔总数转换的空间向量,B是数据库中文本序列和文本序列中各文本元素间的间隔总数转换的空间向量;Ai,Bi分别代表空间向量A和B的各分量,Cos(θ)的值就可以用来判断A,B两个空间向量的相似度的大小,即相似度值,取值在[0,1]之间,值越大表示相似度越高,对于大于0.8的,我们认为相似度高。。
S3、基于TextTank算法提取项目文档的文本摘要,并将文本摘要对应项目文档的申报编号存储在数据库中,再基于Doc2Vec算法将提取的文本摘要与数据库中原已保存的各项目文档中的文本摘要(指未存储本项目文档的文本摘要的状态下,数据库中已保存的文本摘要)进行相似度计算,并判断最大相似度值是否达到给定的阈值,若是,则找到相似文本摘要,若否,则未找到相似的文本摘要;
S4、若项目文档中至少有一幅图片的相似度达到给定的阈值,且提取的文本摘要达到给定的阈值,将达到阈值的图片和文本摘要的相似度分别乘以给定的权重,得到项目文档的总相似度值,若总相似度值达到给定的阈值,则项目文档是重复申报的文档,否则,不是。
将达到阈值的图片和文本摘要的相似度分别乘以给定的权重,得到项目文档的总相似度的具体步骤为:
S4.1、若达到阈值的图片为一幅时,将图片对应的相似度值乘以0.4再加上文本摘要对应的相似度值乘以0.6,得到总相似度值;
S4.2、若达到阈值的图片为两幅以上时,且达到阈值的图片超过十幅时,取相似度最大的十幅图片,将取出的各图片对应的相似度值乘以0.1再相加,得到所有图片的相似度值,将所有图片的相似度值乘以0.4再加上文本摘要对应的相似度值乘以0.6,得到总相似度值。
如果总相似度值达到给定阈值,表示项目文档与数据库中的一个或多个项目文档相似,将总相似度值显示到项目申报系统中用于查询。
以上仅是本发明众多具体应用范围中的代表性实施例,对本发明的保护范围不构成任何限制。凡采用变换或是等效替换而形成的技术方案,均落在本发明权利保护范围之内。

Claims (5)

1.一种基于文本和图片相似度防止项目重复申报的方法,其特征在于,如下步骤:
S1、基于计算机检索项目文档中的所有图片,并抽取每个图片中的所有文本元素,根据各文本元素的坐标位置,将文本元素字符串按顺序拼接起来,同时统计各文本元素间的间隔总数,形成各图片对应的文本序列和文本序列中各文本元素间的间隔总数,并将文本序列对应项目文档的申报申报编号存储在数据库中;
S2、基于项目文档中各文本序列和文本序列中各文本元素间的间隔总数,与数据库中原已保存的各项目文档中的各文本序列和文本序列中各文本元素间的间隔总数进行相似度计算,并判断最大相似度值是否达到给定的阈值,若是,则找到相似图片,若否,则未找到相似的图片;
S3、基于TextTank算法提取项目文档的文本摘要,并将文本摘要对应项目文档的申报编号存储在数据库中,再基于Doc2Vec算法将提取的文本摘要与数据库中原已保存的各项目文档中的文本摘要进行相似度计算,并判断最大相似度值是否达到给定的阈值,若是,则找到相似文本摘要,若否,则未找到相似的文本摘要;
S4、若项目文档中至少有一幅图片的相似度达到给定的阈值,且提取的文本摘要达到给定的阈值,将达到阈值的图片和文本摘要的相似度分别乘以给定的权重,得到项目文档的总相似度值,若总相似度值达到给定的阈值,则项目文档是重复申报的文档,否则,不是。
2.根据权利要求1所述的一种基于文本和图片相似度防止项目重复申报的方法,其特征在于,所述S1的具体步骤为:
S1.1、项目申报系统前端界面的项目内容申报的组件是文本输入框,进行图片申报时,文本输入框中获取的是图片的链接地址,基于图片的链接地址,用正则表达式检索项目文档中的所有图片;
S1.2、基于0pencv抽取每个图片中的所有文本元素,并根据抽取出的各文本元素的坐标位置,将文本元素字符串按顺序拼接起来形成各图片对应的文本序列;
S1.3、基于文本序列的间隔特征,统计文本序列中各文本元素的步数间隔,将得到的步数间隔相加得到文本序列中各文本元素间的间隔总数,即流程步骤数,并将文本序列对应项目文档的申报申报编号存储在数据库中,其中,间隔特征为各文本元素之间连续的空格、连接线段或连接箭头线,连续的空格、连接线段和连接箭头线分别代表一个步数间隔。
3.根据权利要求2所述的一种基于文本和图片相似度防止项目重复申报的方法,其特征在于,所述S2的具体步骤为:
S2.1、基于结巴分词原理,将待比较的两文本序列进行分词;
S2.2、将分词后的两文本序列分别转化成N维空间向量,即用词频作为各分词的权重,图片中的流程步骤数放在向量的最后一维,形成N维空间向量;
S2.3、利用余弦相似度计算出待比较的两个文本序列的向量的相似度大小,若相似度达到设定的阈值则找到相似图片,并停止比较,否则,继续比较,直到与数据库中的数据全部比较完;
通过余弦相似度计算余弦值,即相似度值,即两个向量间的余弦值通过欧几里得点积公示求出,具体如下:
Figure FDA0002708340110000021
其中,A是项目文档中各文本序列和文本序列中各文本元素间的间隔总数转换的空间向量,B是数据库中原已保存的项目文档中的各文本序列和文本序列中各文本元素间的间隔总数转换的空间向量;Ai,Bi分别代表空间向量A和B的各分量,Cos(θ)的值就可以用来判断A,B两个空间向量的相似度的大小,即相似度值,取值在[0,1]之间,值越大表示相似度越高。
4.根据权利要求1所述的一种基于文本和图片相似度防止项目重复申报的方法,其特征在于,所述S4中,将达到阈值的图片和文本摘要的相似度分别乘以给定的权重,得到项目文档的总相似度的具体步骤为:
S4.1、若达到阈值的图片为一幅时,将图片对应的相似度值乘以0.4再加上文本摘要对应的相似度值乘以0.6,得到总相似度值;
S4.2、若达到阈值的图片为两幅以上时,将各图片对应的相似度值乘以0.1再相加,得到所有图片的相似度值,将所有图片的相似度值乘以0.4再加上文本摘要对应的相似度值乘以0.6,得到总相似度值。
5.根据权利要求4所述的一种基于文本和图片相似度防止项目重复申报的方法,其特征在于,所述S4.2中,达到阈值的图片超过十幅时,取相似度最大的十幅图片。
CN202011047496.XA 2020-09-29 2020-09-29 基于文本和图像相似度防止项目重复申报的方法 Active CN112131348B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011047496.XA CN112131348B (zh) 2020-09-29 2020-09-29 基于文本和图像相似度防止项目重复申报的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011047496.XA CN112131348B (zh) 2020-09-29 2020-09-29 基于文本和图像相似度防止项目重复申报的方法

Publications (2)

Publication Number Publication Date
CN112131348A true CN112131348A (zh) 2020-12-25
CN112131348B CN112131348B (zh) 2022-08-09

Family

ID=73844580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011047496.XA Active CN112131348B (zh) 2020-09-29 2020-09-29 基于文本和图像相似度防止项目重复申报的方法

Country Status (1)

Country Link
CN (1) CN112131348B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113515596A (zh) * 2021-06-18 2021-10-19 深圳市对接平台科技发展有限公司 基于图像识别的成果大数据自动匹配方法
CN113569014A (zh) * 2021-08-11 2021-10-29 国家电网有限公司 基于多粒度文本语义信息的运维项目管理方法
CN113807816A (zh) * 2021-09-18 2021-12-17 山东亿云信息技术有限公司 一种项目建设方案查重方法、装置、存储介质及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246484A (zh) * 2007-02-15 2008-08-20 刘二中 一种便于查询的电子文本的相似性处理方法和系统
US20140333794A1 (en) * 2009-10-28 2014-11-13 Digimarc Corporation Sensor-based mobile search, related methods and systems
CN105701085A (zh) * 2016-01-13 2016-06-22 湖南通远网络科技有限公司 一种网络查重方法及系统
CN107330127A (zh) * 2017-07-21 2017-11-07 湘潭大学 一种基于文本图片检索的相似文本检测方法
KR20180075842A (ko) * 2016-12-27 2018-07-05 경희대학교 산학협력단 로컬 색차 기반으로 이미지를 검색하는 방법, 장치, 시스템 및 컴퓨터 프로그램
CN110020026A (zh) * 2017-07-19 2019-07-16 上海互宝能源科技有限责任公司 项目申报数据的查重系统及方法
WO2019223103A1 (zh) * 2018-05-22 2019-11-28 平安科技(深圳)有限公司 文本相似度的获取方法、装置、终端设备及介质
CN110956038A (zh) * 2019-10-16 2020-04-03 厦门美柚股份有限公司 图文内容重复判断方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246484A (zh) * 2007-02-15 2008-08-20 刘二中 一种便于查询的电子文本的相似性处理方法和系统
US20140333794A1 (en) * 2009-10-28 2014-11-13 Digimarc Corporation Sensor-based mobile search, related methods and systems
CN105701085A (zh) * 2016-01-13 2016-06-22 湖南通远网络科技有限公司 一种网络查重方法及系统
KR20180075842A (ko) * 2016-12-27 2018-07-05 경희대학교 산학협력단 로컬 색차 기반으로 이미지를 검색하는 방법, 장치, 시스템 및 컴퓨터 프로그램
CN110020026A (zh) * 2017-07-19 2019-07-16 上海互宝能源科技有限责任公司 项目申报数据的查重系统及方法
CN107330127A (zh) * 2017-07-21 2017-11-07 湘潭大学 一种基于文本图片检索的相似文本检测方法
WO2019223103A1 (zh) * 2018-05-22 2019-11-28 平安科技(深圳)有限公司 文本相似度的获取方法、装置、终端设备及介质
CN110956038A (zh) * 2019-10-16 2020-04-03 厦门美柚股份有限公司 图文内容重复判断方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ISMET ZEKI YALNIZ 等: "Dependence Models for Searching Text in Document Images", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
周静雯: "基于布局相似性的文本图像检索", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
宋涛等: "一种基于内容的文档图像检索方法", 《郑州大学学报(工学版)》 *
朱茂然 等: "基于深度哈希的相似图片推荐系统:以Airbnb为例", 《管理科学》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113515596A (zh) * 2021-06-18 2021-10-19 深圳市对接平台科技发展有限公司 基于图像识别的成果大数据自动匹配方法
CN113569014A (zh) * 2021-08-11 2021-10-29 国家电网有限公司 基于多粒度文本语义信息的运维项目管理方法
CN113569014B (zh) * 2021-08-11 2024-03-19 国家电网有限公司 基于多粒度文本语义信息的运维项目管理方法
CN113807816A (zh) * 2021-09-18 2021-12-17 山东亿云信息技术有限公司 一种项目建设方案查重方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN112131348B (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
CN112131348B (zh) 基于文本和图像相似度防止项目重复申报的方法
CN106649890B (zh) 数据存储方法和装置
US10726252B2 (en) Method of digitizing and extracting meaning from graphic objects
KR101468764B1 (ko) 앙상블 가맹점 예측 시스템을 구현하기 위한 방법 및 장치
CN109558541B (zh) 一种信息处理的方法、装置及计算机存储介质
EP4062348A1 (en) Methods, systems, apparatus and articles of manufacture for receipt decoding
US20220292861A1 (en) Docket Analysis Methods and Systems
CN110489457A (zh) 基于图像识别的商品信息分析方法、系统及存储介质
CN114817481A (zh) 基于大数据的智慧供应链可视化方法及装置
CN110942392A (zh) 一种业务数据处理方法、装置、设备和介质
CN111651552A (zh) 结构化信息确定方法、装置和电子设备
CN115249007A (zh) 一种基于电子投标文件比对的围串标行为检测方法及装置
CN111626331B (zh) 一种自动化行业分类装置及其工作方法
CN111275371B (zh) 数据处理方法、数据处理设备和计算机可读存储介质
CN111428725A (zh) 数据结构化处理方法、装置和电子设备
CN114049165B (zh) 一种采购系统的商品比价方法、装置、设备和介质
CN113011174B (zh) 一种基于文本分析的围标串标识别方法
CN111047261B (zh) 一种仓储物流委托单识别方法及系统
CN110738538A (zh) 识别相似物品的方法和装置
CN111159398B (zh) 一种识别商户类型的方法及装置
FAHRUDIN Sequence clustering in process mining for business process analysis using k-means
TWI767192B (zh) 智慧分析系統之應用方法
JP2014235619A (ja) 画像情報処理装置及び画像情報処理方法
CN112183948B (zh) 基于进销项比对的商贸企业增值税发票虚开风险评估方法
CN112818031B (zh) 基于nlp中文分词技术的潜在高耗能企业挖掘方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant