CN113515596A - 基于图像识别的成果大数据自动匹配方法 - Google Patents

基于图像识别的成果大数据自动匹配方法 Download PDF

Info

Publication number
CN113515596A
CN113515596A CN202110681084.XA CN202110681084A CN113515596A CN 113515596 A CN113515596 A CN 113515596A CN 202110681084 A CN202110681084 A CN 202110681084A CN 113515596 A CN113515596 A CN 113515596A
Authority
CN
China
Prior art keywords
content
image
result
feature
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110681084.XA
Other languages
English (en)
Other versions
CN113515596B (zh
Inventor
张丰祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Butt Joint Platform Technology Development Co ltd
Original Assignee
Shenzhen Butt Joint Platform Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Butt Joint Platform Technology Development Co ltd filed Critical Shenzhen Butt Joint Platform Technology Development Co ltd
Priority to CN202110681084.XA priority Critical patent/CN113515596B/zh
Publication of CN113515596A publication Critical patent/CN113515596A/zh
Application granted granted Critical
Publication of CN113515596B publication Critical patent/CN113515596B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于大数据技术领域,具体涉及基于图像识别的成果大数据自动匹配方法,所述方法执行以下步骤:步骤1:获取历史成果文档,提取历史成果文档中的图像信息和文字信息;步骤2:对提取到的文字信息进行内容识别,得到内容识别结果。其基于历史成果文档建立内容分类树和特征分类树,再对待匹配的成果文档匹配查询,以实现成果文档的查重;在进行匹配查询时,本发明使用先进行内容匹配,再进行特征匹配的方式进行,可以有效提升系统效率,因为内容匹配的速度远高于进行特征匹配的速度,若内容匹配已经完成了匹配,则不需要进行后续的特征匹配,避免系统资源的多度消耗。

Description

基于图像识别的成果大数据自动匹配方法
技术领域
本发明属于大数据技术领域,具体涉及基于图像识别的成果大数据自动匹配方法。
背景技术
据统计,我国科研项目重复率达40%,,另外60%中与国外重复的约占30%以上。重复立项不仅造成科技资源的大量浪费,也导致科研活动的无序发展和大量低水平重复,严重损害开拓创新的科研精神,阻碍国家科技发展的步伐。
目前,已经有学者研究了一些项目查重的方法和机制问题,取得了一定的进展。常用的项目查重方法主要有以下4类:基于非分词技术的科技项目查重方法、基于TF-IDF值算法的科技项目查重方法、基于层次聚类的科技项目分类与查重方法、基于科技项目申报与审批流程进行的项目查重方法。
基于非分词技术解决科技项目查重问题的方法,该方法不需要对文本进行分词处理,而是利用频繁闭项集构造向量空间模型对项目申请书进行建模并计算相似度。这种方法通过计算科技项目申请书之间的相似度,从而达到项目查重的目的。
基于TF-IDF值算法的科技项目查重方法,该方法是通过使用特征向量模型的方法对科技项目申报文本进行分词及权重计算,对特征进行排序选取。
基于层次聚类的科技项目分类与查重方法,该方法是在计算科技项目相似性时综合考虑了应用领域、研究内容和技术来源等因素,从而利用了项目本体相似度来计算模型和层次聚类的结果,以此提高查重的高效性与科学性。
基于科技项目申报与审批流程进行的项目查重方法,该方法通过对科研项目的申报与审批流程进行分析,提出避免重复立项的具体措施。
上述现有技术存在以下问题:都是通过文本相似度来进行科技项目查重,但现有科技项目成果表现形式如论文、专著或者专利都是各种语言进行撰写,对于同一主题的语言表达方式差异巨大,过分依赖查重人员的语言水平,很难避免漏检或者错检。而论文、专著或者专利中的附图,却有着固定的格式。但是,现有的科技项目查重中,尚未有将图片相似度作为科技项目查重手段的报道。
发明内容
本发明的主要目的在于提供基于图像识别的成果大数据自动匹配方法,其基于历史成果文档建立内容分类树和特征分类树,再对待匹配的成果文档匹配查询,以实现成果文档的查重;在进行匹配查询时,本发明使用先进行内容匹配,再进行特征匹配的方式进行,可以有效提升系统效率,因为内容匹配的速度远高于进行特征匹配的速度,若内容匹配已经完成了匹配,则不需要进行后续的特征匹配,避免系统资源的多度消耗;同时,本发明在建立内容分类树和特征分类树时,使用标签和分类组的方式来实现,可以大幅降低内容分类树或特征分类树的数据复杂度,提升检索匹配的效率;另外,本发明还使用基于多尺度特征提取的图像特征提取方法,相较于一个尺度的图像特征,其用来进行特征匹配,准确率更高。
为达到上述目的,本发明的技术方案是这样实现的:
基于图像识别的成果大数据自动匹配方法,所述方法执行以下步骤:
步骤1:获取历史成果文档,提取历史成果文档中的图像信息和文字信息;
步骤2:对提取到的文字信息进行内容识别,得到内容识别结果;
步骤3:基于内容识别结果,进行内容分类,得到多个内容分类组,基于内容分类的结果,生成多个内容标签,基于内容标签,建立内容分类树;所述内容分类树为一个树形结构的数据库;内容分类树中的每个节点为内容标签;每个内容标签对应一个内容分类组;内容分类树的下级节点为上级节点的子集,内容分类树的同级节点之间为对等关系;
步骤4:对提取到的图像信息进行第一次图像特征提取,得到图像特征集,所述图像特征集中包括所有历史成果文档的图像信息的图像特征;将图像特征集中的每个图像特征与同属于一个相同的历史成果文档对应的内容分类组进行连接,建立图像特征集与内容分类树中的内容分类组的一一映射的关系;
步骤5:对图像特征集进行第二次图像特征提取,得到图像特征集中的图像特征的特征;
步骤6:对图像特征的特征进行特征分类,得到多个特征分类组;基于特征分类的结果,生成多个特征标签,基于特征标签,建立特征分类树;所述特征分类树为一个树形结构的数据库;特征分类树中的每个节点为特征标签;每个特征标签对应一个特征分类组;特征分类树的下级节点为上级节点的子集,特征分类树的同级节点之间为对等关系;
步骤7:录入待匹配成果文档,提取待匹配成果文档中的图像信息和文字信息;对待匹配成果文档中的文字信息首先进行内容识别,基于建立的内容分类树进行内容匹配,得到内容匹配结果;然后对待匹配成果文档中的图像信息进提行图像特征提取,基于建立的内容分类树与图像特征的映射关系,进行特征匹配,得到特征匹配结果;比对特征匹配结果与内容匹配结果,若特征匹配结果与内容匹配结果的相似度大于或等于设定的阈值,则完成成果文档的匹配;若特征匹配结果与内容匹配结果的相似度小于设定的阈值,则对待匹配成果文档进行图像特征提取后得到的图像特征进行特征提取,得到图像特征的特征,然后基于建立的特征分类树,进行特征匹配,得到特征匹配结果,完成成果文档的匹配。
进一步的,所述步骤2和步骤7中:对提取到的文字信息进行内容识别的方法包括:定位所述待匹配成果文档或历史成果文档中的文字区域;对文字区域进行分类;将文字区域的图像信息输入到文字识别模型,得到文字识别模型输出的文字信息;基于对文字区域的分类结果,将文字识别模型输出的文字信息归类到相应文字区域所属的类别。
进一步的,将文字区域的图像信息输入到文字识别模型包括:将文字区域的图像信息输入到与该文字区域所属类别对应的文字识别模型,其中,不同的类别对应不同的文字识别模型;所述对文字区域进行分类包括:将文字区域的图像特征数据输入到第一分类模型中,得到第一分类模型输出的类别信息;其中,第一分类模型是用一定数量的标记了类别的图像特征数据作为样本数据进行训练后得到。
进一步的,所述对文字区域进行分类包括:获取所述图像上文字区域的图像,将文字区域的图像输入到第二分类模型中,得到第二分类模型输出的类别信息;其中,第二分类模型是用一定数量的标记了类别的包含文字的图像作为样本数据进行训练后得到。
进一步的,所述步骤3中基于内容识别结果,进行内容分类,得到多个内容分类组,基于内容分类的结果,生成多个内容标签的方法包括:比对内容识别结果之间的相似性,若内容识别结果之间的相似性超过设定的阈值,则将对应的内容分类到同一个分组中,当对所有的内容都完成相似性比对后,为每个分组,生成内容标签。
进一步的,所述步骤4中对提取到的图像信息进行第一次图像特征提取,得到图像特征集的方法包括:将提取到的图像信息使用如下公式对所述目标图像进行多尺度特征提取,得到多个尺度的特征值:A=-∑jyjlogpj
Figure BDA0003122527930000031
Figure BDA0003122527930000032
其中,yj为图像信息的每个像素点的像素值,pj为某个像素点的像素值的在整个图像信息中的像素值中的概率,λ为调整系数,取值范围为:1~5;dist表示取差值运算,dist(a,b,c)=|a-b|+|a-c|+|b-c|;xi表示图像信息的某个像素点的深度值,
Figure BDA0003122527930000033
Figure BDA0003122527930000034
表示图像信息中的某个像素点的相邻像素点的深度值;A、B和C分别表示不同尺度下的特征值;分别处理每个尺度的特征值,得到与每个尺度的特征值对应的连贯特征值;将多个所述连贯特征值融合为所述图像信息的特征,将所有图像信息的特征填充进一个集合中,得到图像特征集。
进一步的,所述步骤7中基于建立的内容分类树进行内容匹配的方法包括:对待匹配成果文档中的文字信息进行内容识别后,得到内容识别的结果;基于内容识别的结果从内容分类树的根节点开始逐层进行匹配检索,具体包括:基于内容识别的结果,找到该内容识别的结果所对应的内容标签;从内容分类树的根节点开始,基于得到的内容标签逐层进行匹配检索,直到找到与该内容识别的结果所对应的内容标签相同的内容分类树中的节点所对应的内容标签;然后从该节点对应的内容分类组中进行内容匹配。
进一步的,所述进行内容匹配的方法包括:将待匹配成果文档中的文字信息的内容识别的结果进行转换,得到待匹配成果文档中的文字信息的内容识别的结果所对应的二进制数据信息,作为内容匹配方;再将内容分类组中的内容识别的结果进行转换,得到内容分类组中的内容识别的结果的二进制数据信息,作为内容被匹配方;将内容匹配方和内容被匹配方进行作差运算,若运算结果的值在设定的阈值范围内,则认为两者匹配,若运算结果的值超过设定的阈值范围,则认为两者不匹配。
进一步的,所述步骤7中基于建立的特征分类树,进行特征匹配,得到特征匹配结果的方法包括:对待匹配成果文档进行图像特征提取后得到的图像特征进行特征提取,得到图像特征的特征;对图像特征的特征进行采样得到缩略图;将所述缩略图转化为灰度图;计算所述缩略图中全部像素的灰度平均值;将所述缩略图中每个像素的灰度值与所述灰度平均值进行比值运算,若比值运算的结果大于或等于设定的阈值;将所有比值运算的集合按一定顺序组合成一个二进制整数,该二进制整数即为该图像特征的特征的缩略图特征;逐位比较特征分类树中的图像特征的特征与图像特征的特征的缩略图特征,如果不相同的数据位不超过一定阈值,则匹配,否则,则不匹配。
进一步的,所述内容分类树和特征分类树均为二叉树。
本发明的基于图像识别的成果大数据自动匹配方法,具有如下有益效果:其基于历史成果文档建立内容分类树和特征分类树,再对待匹配的成果文档匹配查询,以实现成果文档的查重;在进行匹配查询时,本发明使用先进行内容匹配,再进行特征匹配的方式进行,可以有效提升系统效率,因为内容匹配的速度远高于进行特征匹配的速度,若内容匹配已经完成了匹配,则不需要进行后续的特征匹配,避免系统资源的多度消耗;同时,本发明在建立内容分类树和特征分类树时,使用标签和分类组的方式来实现,可以大幅降低内容分类树或特征分类树的数据复杂度,提升检索匹配的效率;另外,本发明还使用基于多尺度特征提取的图像特征提取方法,相较于一个尺度的图像特征,其用来进行特征匹配,准确率更高。主要通过以下过程实现:1.内容分类树的构建:本发明通过构建内容分类树,且树的节点为内容标签,使得进行检索时,能够首先通过标签来进行匹配,以提升匹配的效率;同时在完成内容分类后,再进行内容匹配;2.特征分类树的构建:本发明通过构建特征分类树,且树的节点为特征标签,使得在完成内容检索后,再进行特征匹配时,能够首先通过特征标签来进行匹配,以提升匹配的效率;3.图像特征提取的算法:本发明进行图像特征提取时,是将提取到的图像信息使用如下公式对所述目标图像进行多尺度特征提取,这样提取到的图像特征将更为完全,在进行特征匹配时,准确率也更高;4.通过二进制数据来进行内容匹配:本发明将待匹配成果文档中的文字信息的内容识别的结果进行转换,得到待匹配成果文档中的文字信息的内容识别的结果所对应的二进制数据信息,作为内容匹配方;再将内容分类组中的内容识别的结果进行转换,得到内容分类组中的内容识别的结果的二进制数据信息,作为内容被匹配方;将内容匹配方和内容被匹配方进行作差运算,若运算结果的值在设定的阈值范围内,则认为两者匹配,若运算结果的值超过设定的阈值范围,则认为两者不匹配;这样做可以不用进行文字内容的一对一对比,而直接进行二进制数据对比,以提升对比的效率和准确率。
附图说明
图1为本发明的实施例提供的基于图像识别的成果大数据自动匹配方法的方法流程示意图;
图2为本发明的实施例提供的基于图像识别的成果大数据自动匹配方法的图像特征提取的原理示意图;
图3为本发明的实施例提供的基于图像识别的成果大数据自动匹配方法的内容分类树和特征分类树的树形结构示意图;
图4为本发明的实施例提供的基于图像识别的成果大数据自动匹配方法的匹配准确率随着实验次数变化的曲线示意图与现有技术的对比实验效果示意图。
具体实施方式
以下结合具体实施方式和附图对本发明的技术方案作进一步详细描述:
实施例1
如图1所示,基于图像识别的成果大数据自动匹配方法,所述方法执行以下步骤:
步骤1:获取历史成果文档,提取历史成果文档中的图像信息和文字信息;
步骤2:对提取到的文字信息进行内容识别,得到内容识别结果;
步骤3:基于内容识别结果,进行内容分类,得到多个内容分类组,基于内容分类的结果,生成多个内容标签,基于内容标签,建立内容分类树;所述内容分类树为一个树形结构的数据库;内容分类树中的每个节点为内容标签;每个内容标签对应一个内容分类组;内容分类树的下级节点为上级节点的子集,内容分类树的同级节点之间为对等关系;
步骤4:对提取到的图像信息进行第一次图像特征提取,得到图像特征集,所述图像特征集中包括所有历史成果文档的图像信息的图像特征;将图像特征集中的每个图像特征与同属于一个相同的历史成果文档对应的内容分类组进行连接,建立图像特征集与内容分类树中的内容分类组的一一映射的关系;
步骤5:对图像特征集进行第二次图像特征提取,得到图像特征集中的图像特征的特征;
步骤6:对图像特征的特征进行特征分类,得到多个特征分类组;基于特征分类的结果,生成多个特征标签,基于特征标签,建立特征分类树;所述特征分类树为一个树形结构的数据库;特征分类树中的每个节点为特征标签;每个特征标签对应一个特征分类组;特征分类树的下级节点为上级节点的子集,特征分类树的同级节点之间为对等关系;
步骤7:录入待匹配成果文档,提取待匹配成果文档中的图像信息和文字信息;对待匹配成果文档中的文字信息首先进行内容识别,基于建立的内容分类树进行内容匹配,得到内容匹配结果;然后对待匹配成果文档中的图像信息进提行图像特征提取,基于建立的内容分类树与图像特征的映射关系,进行特征匹配,得到特征匹配结果;比对特征匹配结果与内容匹配结果,若特征匹配结果与内容匹配结果的相似度大于或等于设定的阈值,则完成成果文档的匹配;若特征匹配结果与内容匹配结果的相似度小于设定的阈值,则对待匹配成果文档进行图像特征提取后得到的图像特征进行特征提取,得到图像特征的特征,然后基于建立的特征分类树,进行特征匹配,得到特征匹配结果,完成成果文档的匹配。
实施例2
在上一实施例的基础上,所述步骤2和步骤7中:对提取到的文字信息进行内容识别的方法包括:定位所述待匹配成果文档或历史成果文档中的文字区域;对文字区域进行分类;将文字区域的图像信息输入到文字识别模型,得到文字识别模型输出的文字信息;基于对文字区域的分类结果,将文字识别模型输出的文字信息归类到相应文字区域所属的类别。
具体的,
实施例3
在上一实施例的基础上,将文字区域的图像信息输入到文字识别模型包括:将文字区域的图像信息输入到与该文字区域所属类别对应的文字识别模型,其中,不同的类别对应不同的文字识别模型;所述对文字区域进行分类包括:将文字区域的图像特征数据输入到第一分类模型中,得到第一分类模型输出的类别信息;其中,第一分类模型是用一定数量的标记了类别的图像特征数据作为样本数据进行训练后得到。
具体的,图像特征主要有图像的颜色特征、纹理特征、形状特征和空间关系特征。
颜色特征是一种全局特征,描述了图像或图像区域所对应的景物的表面性质。
纹理特征也是一种全局特征,它也描述了图像或图像区域所对应景物的表面性质。但由于纹理只是一种物体表面的特性,并不能完全反映出物体的本质属性,所以仅仅利用纹理特征是无法获得高层次图像内容的。与颜色特征不同,纹理特征不是基于像素点的特征,它需要在包含多个像素点的区域中进行统计计算。
形状特征有两类表示方法,一类是轮廓特征,另一类是区域特征。图像的轮廓特征主要针对物体的外边界,而图像的区域特征则关系到整个形状区域。
所谓空间关系,是指图像中分割出来的多个目标之间的相互的空间位置或相对方向关系,这些关系也可分为连接/邻接关系、交叠/重叠关系和包含/包容关系等。通常空间位置信息可以分为两类:相对空间位置信息和绝对空间位置信息。前一种关系强调的是目标之间的相对情况,如上下左右关系等,后一种关系强调的是目标之间的距离大小以及方位。
实施例4
在上一实施例的基础上,所述对文字区域进行分类包括:获取所述图像上文字区域的图像,将文字区域的图像输入到第二分类模型中,得到第二分类模型输出的类别信息;其中,第二分类模型是用一定数量的标记了类别的包含文字的图像作为样本数据进行训练后得到。
具体的,特征是描述模式的最佳方式,我们通常认为特征的各个维度能够从不同的角度描述模式,在理想情况下,维度之间是互补完备的。
特征提取的主要目的是降维。特征抽取的主要思想是将原始样本投影到一个低维特征空间,得到最能反应样本本质或进行样本区分的低维样本特征。
一般图像特征可以分为四类:直观性特征、灰度统计特征、变换系数特征与代数特征。
直观性特征主要指几何特征,几何特征比较稳定,受人脸的姿态变化与光照条件等因素的影响小,但不易抽取,而且测量精度不高,与图像处理技术密切相关。
代数特征是基于统计学习方法抽取的特征。代数特征具有较高的识别精度,代数特征抽取方法又可以分为两类:一种是线性投影特征抽取方法;另外一种是非线性特征抽取方法。
习惯上,将基于主成分分析和Fisher线性鉴别分析所获得的特征抽取方法,统称为线性投影分析。
实施例5
在上一实施例的基础上,所述步骤3中基于内容识别结果,进行内容分类,得到多个内容分类组,基于内容分类的结果,生成多个内容标签的方法包括:比对内容识别结果之间的相似性,若内容识别结果之间的相似性超过设定的阈值,则将对应的内容分类到同一个分组中,当对所有的内容都完成相似性比对后,为每个分组,生成内容标签。
具体的,线性投影分析的特征抽取方法的基本思想是根据一定的性能目标来寻找一线性变换,把原始信号数据压缩到一个低维子空间,使数据在子空间中的分布更加紧凑,为数据的更好描述提供手段,同时计算的复杂度得到大大降低。在线性投影分析中,以主成分分析(PCA,或称K-L变换)和Fisher线性鉴别分析(LDA)最具代表性,围绕这两种方法所形成的特征抽取算法,已成为模式识别领域中最为经典和广泛使用的方法。
线性投影分析法的主要缺点为:需要对大量的已有样本进行学习,且对定位、光照与物体非线性形变敏感,因而采集条件对识别性能影响较大。
非线性特征抽取方法也是研究的热点之一。“核技巧”最早应用在SVM中,KPCA和KFA是“核技巧”的推广应用。
核投影方法的基本思想是将原样本空间中的样本通过某种形式的非线性映射,变换到一个高维甚至无穷维的空间,并借助于核技巧在新的空间中应用线性的分析方法求解。由于新空间中的线性方向也对应原样本空间的非线性方向,所以基于核的投影分析得出的投影方向也对应原样本空间的非线性方向。
核投影方法也有一些缺点:几何意义不明确,无法知道样本在非显式映射后变成了什么分布模式;核函数中参数的选取没有相应选择标准,大多数只能采取经验参数选取;不适合训练样本很多的情况,原因是经过核映射后,样本的维数等于训练样本的个数,如果训练样本数目很大,核映射后的向量维数将会很高,并将遇到计算量上的难题。
就应用领域来说,KPCA远没有PCA应用的广泛。如果作为一般性的降维KPCA确实比PCA效果好,特别是特征空间不是一般的欧式空间的时候更为明显。但PCA可以通过大量的自然图片学习一个子空间,但是KPCA做不到。
变换系数特征指先对图像进行Fourier变换、小波变换等,得到的系数后作为特征进行识别。
实施例6
在上一实施例的基础上,所述步骤4中对提取到的图像信息进行第一次图像特征提取,得到图像特征集的方法包括:将提取到的图像信息使用如下公式对所述目标图像进行多尺度特征提取,得到多个尺度的特征值:A=-∑jyjlog pj
Figure BDA0003122527930000091
Figure BDA0003122527930000092
C=dist xi,xi+,xi-;其中,yj为图像信息的每个像素点的像素值,pj为某个像素点的像素值的在整个图像信息中的像素值中的概率,λ为调整系数,取值范围为:1~5;dist表示取差值运算,dist(a,b,c)=|a-b|+|a-c|+|b-c|;xi表示图像信息的某个像素点的深度值,
Figure BDA0003122527930000093
Figure BDA0003122527930000094
表示图像信息中的某个像素点的相邻像素点的深度值;A、B和C分别表示不同尺度下的特征值;分别处理每个尺度的特征值,得到与每个尺度的特征值对应的连贯特征值;将多个所述连贯特征值融合为所述图像信息的特征,将所有图像信息的特征填充进一个集合中,得到图像特征集。
实施例7
在上一实施例的基础上,所述步骤7中基于建立的内容分类树进行内容匹配的方法包括:对待匹配成果文档中的文字信息进行内容识别后,得到内容识别的结果;基于内容识别的结果从内容分类树的根节点开始逐层进行匹配检索,具体包括:基于内容识别的结果,找到该内容识别的结果所对应的内容标签;从内容分类树的根节点开始,基于得到的内容标签逐层进行匹配检索,直到找到与该内容识别的结果所对应的内容标签相同的内容分类树中的节点所对应的内容标签;然后从该节点对应的内容分类组中进行内容匹配。
实施例8
在上一实施例的基础上,所述进行内容匹配的方法包括:将待匹配成果文档中的文字信息的内容识别的结果进行转换,得到待匹配成果文档中的文字信息的内容识别的结果所对应的二进制数据信息,作为内容匹配方;再将内容分类组中的内容识别的结果进行转换,得到内容分类组中的内容识别的结果的二进制数据信息,作为内容被匹配方;将内容匹配方和内容被匹配方进行作差运算,若运算结果的值在设定的阈值范围内,则认为两者匹配,若运算结果的值超过设定的阈值范围,则认为两者不匹配。
具体的,现有技术针对字符串或特征字进行的内容匹配技术典型的执行如下操作:a)将目标字符串分为至少一个第一字符串山)通过组合生成第二字符串组,例如进一步将第一字符串的子串作为第二字符串;c)从第二字符串中提取第三字符串,例如按照黑名单、白名单筛选出常用的字符串作为第三字符串,采用状态机或规则树等算法编译各第三字符串;d)采用滑窗方式,根据不同的起始位置,比较被检测字符串中是否匹配第一个字符串节点处的第三字符串;e)如果匹配成功,但存在下一个字符串节点,则进入下一个匹配流程;f)如果匹配成功,且无下一字符串节点,则被检测字符串与目标字符串匹配;g)如果匹配失败,则被检测字符串与目标字符串不匹配。
实施例9
在上一实施例的基础上,所述步骤7中基于建立的特征分类树,进行特征匹配,得到特征匹配结果的方法包括:对待匹配成果文档进行图像特征提取后得到的图像特征进行特征提取,得到图像特征的特征;对图像特征的特征进行采样得到缩略图;将所述缩略图转化为灰度图;计算所述缩略图中全部像素的灰度平均值;将所述缩略图中每个像素的灰度值与所述灰度平均值进行比值运算,若比值运算的结果大于或等于设定的阈值;将所有比值运算的集合按一定顺序组合成一个二进制整数,该二进制整数即为该图像特征的特征的缩略图特征;逐位比较特征分类树中的图像特征的特征与图像特征的特征的缩略图特征,如果不相同的数据位不超过一定阈值,则匹配,否则,则不匹配。
实施例10
在上一实施例的基础上,所述内容分类树和特征分类树均为二叉树。
以上所述仅为本发明的一个实施例子,但不能以此限制本发明的范围,凡依据本发明所做的结构上的变化,只要不失本发明的要义所在,都应视为落入本发明保护范围之内受到制约。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (10)

1.基于图像识别的成果大数据自动匹配方法,其特征在于,所述方法执行以下步骤:
步骤1:获取历史成果文档,提取历史成果文档中的图像信息和文字信息;
步骤2:对提取到的文字信息进行内容识别,得到内容识别结果;
步骤3:基于内容识别结果,进行内容分类,得到多个内容分类组,基于内容分类的结果,生成多个内容标签,基于内容标签,建立内容分类树;所述内容分类树为一个树形结构的数据库;内容分类树中的每个节点为内容标签;每个内容标签对应一个内容分类组;内容分类树的下级节点为上级节点的子集,内容分类树的同级节点之间为对等关系;
步骤4:对提取到的图像信息进行第一次图像特征提取,得到图像特征集,所述图像特征集中包括所有历史成果文档的图像信息的图像特征;将图像特征集中的每个图像特征与同属于一个相同的历史成果文档对应的内容分类组进行连接,建立图像特征集与内容分类树中的内容分类组的一一映射的关系;
步骤5:对图像特征集进行第二次图像特征提取,得到图像特征集中的图像特征的特征;
步骤6:对图像特征的特征进行特征分类,得到多个特征分类组;基于特征分类的结果,生成多个特征标签,基于特征标签,建立特征分类树;所述特征分类树为一个树形结构的数据库;特征分类树中的每个节点为特征标签;每个特征标签对应一个特征分类组;特征分类树的下级节点为上级节点的子集,特征分类树的同级节点之间为对等关系;
步骤7:录入待匹配成果文档,提取待匹配成果文档中的图像信息和文字信息;对待匹配成果文档中的文字信息首先进行内容识别,基于建立的内容分类树进行内容匹配,得到内容匹配结果;然后对待匹配成果文档中的图像信息进提行图像特征提取,基于建立的内容分类树与图像特征的映射关系,进行特征匹配,得到特征匹配结果;比对特征匹配结果与内容匹配结果,若特征匹配结果与内容匹配结果的相似度大于或等于设定的阈值,则完成成果文档的匹配;若特征匹配结果与内容匹配结果的相似度小于设定的阈值,则对待匹配成果文档进行图像特征提取后得到的图像特征进行特征提取,得到图像特征的特征,然后基于建立的特征分类树,进行特征匹配,得到特征匹配结果,完成成果文档的匹配。
2.如权利要求1所述的方法,其特征在于,所述步骤2和步骤7中:对提取到的文字信息进行内容识别的方法包括:定位所述待匹配成果文档或历史成果文档中的文字区域;对文字区域进行分类;将文字区域的图像信息输入到文字识别模型,得到文字识别模型输出的文字信息;基于对文字区域的分类结果,将文字识别模型输出的文字信息归类到相应文字区域所属的类别。
3.如权利要求2所述的方法,其特征在于,将文字区域的图像信息输入到文字识别模型包括:将文字区域的图像信息输入到与该文字区域所属类别对应的文字识别模型,其中,不同的类别对应不同的文字识别模型;所述对文字区域进行分类包括:将文字区域的图像特征数据输入到第一分类模型中,得到第一分类模型输出的类别信息;其中,第一分类模型是用一定数量的标记了类别的图像特征数据作为样本数据进行训练后得到。
4.如权利要求3所述的方法,其特征在于,所述对文字区域进行分类包括:获取所述图像上文字区域的图像,将文字区域的图像输入到第二分类模型中,得到第二分类模型输出的类别信息;其中,第二分类模型是用一定数量的标记了类别的包含文字的图像作为样本数据进行训练后得到。
5.如权利要求2所述的方法,其特征在于,所述步骤3中基于内容识别结果,进行内容分类,得到多个内容分类组,基于内容分类的结果,生成多个内容标签的方法包括:比对内容识别结果之间的相似性,若内容识别结果之间的相似性超过设定的阈值,则将对应的内容分类到同一个分组中,当对所有的内容都完成相似性比对后,为每个分组,生成内容标签。
6.如权利要求3所述的方法,其特征在于,所述步骤4中对提取到的图像信息进行第一次图像特征提取,得到图像特征集的方法包括:将提取到的图像信息使用如下公式对所述目标图像进行多尺度特征提取,得到多个尺度的特征值:A=-∑jyjlog pj
Figure FDA0003122527920000021
Figure FDA0003122527920000023
Figure FDA0003122527920000022
其中,yj为图像信息的每个像素点的像素值,pj为某个像素点的像素值的在整个图像信息中的像素值中的概率,λ为调整系数,取值范围为:1~5;dist表示取差值运算,dist(a,b,c)=|a-b|+|a-c|+|b-c|;xi表示图像信息的某个像素点的深度值,
Figure FDA0003122527920000024
Figure FDA0003122527920000025
表示图像信息中的某个像素点的相邻像素点的深度值;A、B和C分别表示不同尺度下的特征值;分别处理每个尺度的特征值,得到与每个尺度的特征值对应的连贯特征值;将多个所述连贯特征值融合为所述图像信息的特征,将所有图像信息的特征填充进一个集合中,得到图像特征集。
7.如权利要求6所述的方法,其特征在于,所述步骤7中基于建立的内容分类树进行内容匹配的方法包括:对待匹配成果文档中的文字信息进行内容识别后,得到内容识别的结果;基于内容识别的结果从内容分类树的根节点开始逐层进行匹配检索,具体包括:基于内容识别的结果,找到该内容识别的结果所对应的内容标签;从内容分类树的根节点开始,基于得到的内容标签逐层进行匹配检索,直到找到与该内容识别的结果所对应的内容标签相同的内容分类树中的节点所对应的内容标签;然后从该节点对应的内容分类组中进行内容匹配。
8.如权利要求7所述的方法,其特征在于,所述进行内容匹配的方法包括:将待匹配成果文档中的文字信息的内容识别的结果进行转换,得到待匹配成果文档中的文字信息的内容识别的结果所对应的二进制数据信息,作为内容匹配方;再将内容分类组中的内容识别的结果进行转换,得到内容分类组中的内容识别的结果的二进制数据信息,作为内容被匹配方;将内容匹配方和内容被匹配方进行作差运算,若运算结果的值在设定的阈值范围内,则认为两者匹配,若运算结果的值超过设定的阈值范围,则认为两者不匹配。
9.如权利要求8所述的方法,其特征在于,所述步骤7中基于建立的特征分类树,进行特征匹配,得到特征匹配结果的方法包括:对待匹配成果文档进行图像特征提取后得到的图像特征进行特征提取,得到图像特征的特征;对图像特征的特征进行采样得到缩略图;将所述缩略图转化为灰度图;计算所述缩略图中全部像素的灰度平均值;将所述缩略图中每个像素的灰度值与所述灰度平均值进行比值运算,若比值运算的结果大于或等于设定的阈值;将所有比值运算的集合按一定顺序组合成一个二进制整数,该二进制整数即为该图像特征的特征的缩略图特征;逐位比较特征分类树中的图像特征的特征与图像特征的特征的缩略图特征,如果不相同的数据位不超过一定阈值,则匹配,否则,则不匹配。
10.如权利要求9所述的方法,其特征在于,所述内容分类树和特征分类树均为二叉树。
CN202110681084.XA 2021-06-18 2021-06-18 基于图像识别的成果大数据自动匹配方法 Active CN113515596B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110681084.XA CN113515596B (zh) 2021-06-18 2021-06-18 基于图像识别的成果大数据自动匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110681084.XA CN113515596B (zh) 2021-06-18 2021-06-18 基于图像识别的成果大数据自动匹配方法

Publications (2)

Publication Number Publication Date
CN113515596A true CN113515596A (zh) 2021-10-19
CN113515596B CN113515596B (zh) 2022-04-05

Family

ID=78065735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110681084.XA Active CN113515596B (zh) 2021-06-18 2021-06-18 基于图像识别的成果大数据自动匹配方法

Country Status (1)

Country Link
CN (1) CN113515596B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030195890A1 (en) * 2002-04-05 2003-10-16 Oommen John B. Method of comparing the closeness of a target tree to other trees using noisy sub-sequence tree processing
CN110929069A (zh) * 2019-10-14 2020-03-27 广西壮族自治区科学技术情报研究所 一种基于图像分区进行大数据匹配计算的科技项目查重方法
CN112131348A (zh) * 2020-09-29 2020-12-25 四川财经职业学院 基于文本和图像相似度防止项目重复申报的方法
CN112352232A (zh) * 2018-06-22 2021-02-09 微软技术许可有限责任公司 分类树生成
CN112464781A (zh) * 2020-11-24 2021-03-09 厦门理工学院 基于图神经网络的文档图像关键信息提取及匹配方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030195890A1 (en) * 2002-04-05 2003-10-16 Oommen John B. Method of comparing the closeness of a target tree to other trees using noisy sub-sequence tree processing
CN112352232A (zh) * 2018-06-22 2021-02-09 微软技术许可有限责任公司 分类树生成
CN110929069A (zh) * 2019-10-14 2020-03-27 广西壮族自治区科学技术情报研究所 一种基于图像分区进行大数据匹配计算的科技项目查重方法
CN112131348A (zh) * 2020-09-29 2020-12-25 四川财经职业学院 基于文本和图像相似度防止项目重复申报的方法
CN112464781A (zh) * 2020-11-24 2021-03-09 厦门理工学院 基于图神经网络的文档图像关键信息提取及匹配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李善青等: "科技项目查重方法研究综述", 《科技管理研究》 *

Also Published As

Publication number Publication date
CN113515596B (zh) 2022-04-05

Similar Documents

Publication Publication Date Title
He et al. Beyond OCR: Multi-faceted understanding of handwritten document characteristics
Gultepe et al. Predicting and grouping digitized paintings by style using unsupervised feature learning
CN107480620B (zh) 基于异构特征融合的遥感图像自动目标识别方法
Singh et al. A study of moment based features on handwritten digit recognition
Mohamed et al. Content-based image retrieval using convolutional neural networks
Huang et al. Object-location-aware hashing for multi-label image retrieval via automatic mask learning
CN108664975B (zh) 一种维吾尔文手写字母识别方法、系统及电子设备
Nongmeikapam et al. Handwritten Manipuri Meetei-Mayek classification using convolutional neural network
Xia et al. Texture characterization using shape co-occurrence patterns
Bajić et al. Data visualization classification using simple convolutional neural network model
Inunganbi et al. Handwritten Meitei Mayek recognition using three‐channel convolution neural network of gradients and gray
Muzakir et al. Model for Identification and Prediction of Leaf Patterns: Preliminary Study for Improvement
CN117076455A (zh) 一种基于智能识别的保单结构化存储方法、介质及系统
CN112966629A (zh) 基于图像变换和BoF模型的遥感图像场景分类方法
CN113515596B (zh) 基于图像识别的成果大数据自动匹配方法
Gattal et al. A new method for writer identification based on historical documents
CN110825896A (zh) 一种商标检索系统及检索方法
CN115203408A (zh) 一种多模态试验数据智能标注方法
CN111898618B (zh) 一种识别古代图形文字的方法、装置和程序储存介质
Westphal et al. Representative image selection for data efficient word spotting
Koopmans et al. The Effects of Character-Level Data Augmentation on Style-Based Dating of Historical Manuscripts
Froech et al. Reconstructing facade details using MLS point clouds and Bag-of-Words approach
Sharma et al. Optical Character Recognition Using Hybrid CRNN Based Lexicon-Free Approach with Grey Wolf Hyperparameter Optimization
Sureka et al. Word recognition techniques for Kannada handwritten documents
Tencer et al. Sketch-based retrieval of document illustrations and regions of interest

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20211019

Assignee: Shenzhen Future Industry Center Co.,Ltd.

Assignor: SHENZHEN BUTT JOINT PLATFORM TECHNOLOGY DEVELOPMENT CO.,LTD.

Contract record no.: X2023980042929

Denomination of invention: Automatic matching method for big data based on image recognition

Granted publication date: 20220405

License type: Common License

Record date: 20231007

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20211019

Assignee: Guangxi Yizhi Intellectual Property Service Co.,Ltd.

Assignor: SHENZHEN BUTT JOINT PLATFORM TECHNOLOGY DEVELOPMENT CO.,LTD.

Contract record no.: X2023980046392

Denomination of invention: Automatic matching method for big data based on image recognition

Granted publication date: 20220405

License type: Common License

Record date: 20231108

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20211019

Assignee: Guangxi SANBI Technology Co.,Ltd.

Assignor: SHENZHEN BUTT JOINT PLATFORM TECHNOLOGY DEVELOPMENT CO.,LTD.

Contract record no.: X2023980047564

Denomination of invention: An automatic matching method for big data based on image recognition

Granted publication date: 20220405

License type: Common License

Record date: 20231120