CN107909054A - 图片文本的相似度评价方法及装置 - Google Patents

图片文本的相似度评价方法及装置 Download PDF

Info

Publication number
CN107909054A
CN107909054A CN201711237227.8A CN201711237227A CN107909054A CN 107909054 A CN107909054 A CN 107909054A CN 201711237227 A CN201711237227 A CN 201711237227A CN 107909054 A CN107909054 A CN 107909054A
Authority
CN
China
Prior art keywords
picture text
character
keyword
picture
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711237227.8A
Other languages
English (en)
Other versions
CN107909054B (zh
Inventor
任艳
叶倩
司蕾
郭泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201711237227.8A priority Critical patent/CN107909054B/zh
Publication of CN107909054A publication Critical patent/CN107909054A/zh
Application granted granted Critical
Publication of CN107909054B publication Critical patent/CN107909054B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种图片文本的相似度评价方法及装置,其中,方法包括以下步骤:获取第一图片文本和第二图片文本;分别提取第一图片文本和第二图片文本中的字符;将字符对齐到网格上,进行归一化处理;提取字符对应于网格上的灰度值,形成对应于每个字符的灰度值矩阵;依次对比第一图片文本中的每个字符的灰度值矩阵与第二图片文本中的每个字符的灰度值矩阵,得到字符评分值;根据字符评分值,计算第一图片文本与第二图片文本之间的相似度。该方法将图片文本中的字符进行量化处理,即字符转化成客观的数据,从而对客观数据的处理,提高了图片文本相似度评价结果的可信度。

Description

图片文本的相似度评价方法及装置
技术领域
本发明涉及计算机技术领域,具体涉及一种图片文本的相似度评价方法及装置。
背景技术
目前,由多个字符所组成的文本已成为一种十分重要的信息载体。其文本间相似度的计算,作为一种文档处理中所经常使用的方法,通常被应用于文本聚类、文本检索、数据挖掘、系统自动问答等诸多应用场合。
其中,对于字符串相似在文本分析中具有重要意义。现有的字符相似度计算方法都比较成熟的是计算最小编辑距离的方法。该方法是指两个字符串之间,由一个转化为另一个字符串所需的最小编辑步骤。编辑操作包括替换、删除、插入。该方法基于字符编辑,存在一定误差,并且进行相似度计算的路径较为复杂,导致字符串相似度计算的效率偏低。
此外,对于以图片形式表示的文本内容,在进行相似度评价时,一般是通过识别图片中的字符,通过调用字符字典依次比对每个字符之间的相似度,进而得出整个图片文本的相似度。然而,该方法中需要实现设置字符字典,其次还需要针对每个字符查阅字符字典进行比对;此外,还需识别出图片中的文本,而文本识别的准确度直接关系到评价结果的准确度,从而导致该方法的可靠性以及对比效率偏低的问题。
发明内容
有鉴于此,本发明实施例提供了一种图片文本的相似度评价方法及装置,以解决现有技术中相似度评价结果的可靠性偏低的问题。
本发明第一方面提供了一种图片文本的相似度评价方法,包括以下步骤:
获取第一图片文本和第二图片文本;
分别提取所述第一图片文本和所述第二图片文本中的字符;
将所述字符对齐到网格上,进行归一化处理;
提取所述字符对应于所述网格上的灰度值,形成对应于每个字符的灰度值矩阵;
依次对比所述第一图片文本中的每个字符的灰度值矩阵与所述第二图片文本中的每个字符的灰度值矩阵,得到字符评分值;
根据所述字符评分值,计算所述第一图片文本与所述第二图片文本之间的相似度。
可选地,还包括:
分别提取所述第一图片文本和所述第二图片文本中的N个关键词,所述关键词为第一图片文本和所述第二图片文本中频率最高的N个字符或字符串;
分别对比所述关键词,计算所述第一图片文本和所述第二图片文本之间所述关键词的相似度,以得到关键词评分值。
可选地,所述分别提取所述第一图片文本和所述第二图片文本中的N个关键词,包括以下步骤:
对所述第一图片文本和所述第二图片文本中的所有字符进行切词处理,形成若干对应于第一图片文本和所述第二图片文本中字符串的灰度值矩阵,所述切词处理为将所述第一图片文本或所述第二图片文本中的单个字符组成词语;
依次判断每两个所述字符串的灰度值矩阵的距离是否小于第一阈值;
当判断结果为是时,则确定两个字符串为相同的字符串;
统计所述相同的字符串的数量,其中,数量最大的前N个字符串为所述关键词。
可选地,所述分别对比所述关键词,计算所述第一图片文本和所述第二图片文本之间所述关键词的相似度,包括:
依次提取所述第一图片文本的任意一个关键词和所述第二图片文本中的任意一个关键词;
计算提取出的两个关键词对应的灰度值矩阵之间的距离;
根据计算结果,确定所述关键词的相似度。
可选地,根据比对结果,计算所述第一图片文本与所述第二图片文本之间的相似度,采用如下公式计算:
其中,A为所述第一图片文本与所述第二图片文本之间的相似度,a1和a2为常数,n为所述第一图片文本与所述第二图片文本中最小的字符总数;fi为所述字符评分值,N为关键词的数量,fj为所述关键词评分值。
本发明第二方面还提供一种图片文本的相似度评价装置,包括:
获取单元,用于获取第一图片文本和第二图片文本;
第一提取单元,用于分别提取所述第一图片文本和所述第二图片文本中的字符;
对齐单元,用于将所述字符对齐到网格上,进行归一化处理;
第二提取单元,用于提取所述字符对应于所述网格上的灰度值,形成对应于每个字符的灰度值矩阵;
第一对比单元,用于依次对比所述第一图片文本中的每个字符的灰度值矩阵与所述第二图片文本中的每个字符的灰度值矩阵,得到字符评分值;
计算单元,用于根据所述字符评分值,计算所述第一图片文本与所述第二图片文本之间的相似度。
可选地,还包括:
第三提取单元,用于分别提取所述第一图片文本和所述第二图片文本中的N个关键词,所述关键词为第一图片文本和所述第二图片文本中频率最高的N个字符或字符串;
第二对比单元,用于分别对比所述关键词,计算所述第一图片文本和所述第二图片文本之间所述关键词的相似度,以得到关键词评分值。
可选地,所述第三提取单元,包括:
切词子单元,用于对所述第一图片文本和所述第二图片文本中的所有字符进行切词处理,形成若干对应于第一图片文本和所述第二图片文本中字符串的灰度值矩阵,所述切词处理为将所述第一图片文本或所述第二图片文本中的单个字符组成词语;
判断子单元,用于依次判断每两个所述字符串的灰度值矩阵的距离是否小于第一阈值;
确定子单元,用于当判断结果为是时,则确定两个字符串为相同的字符串;
统计子单元,用于统计所述相同的字符串的数量,其中,数量最大的前N个字符串为所述关键词。
本发明第三方面还提供一种评价装置,包括至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行本发明第一方面或第一方面中任一项所述的图片文本的相似度评价方法。
本发明第四方面提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行本发明第一方面或第一方面中任一项所述的图片文本的相似度评价方法。
本发明实施例提供的技术方案,具有如下有益效果:
1.本发明实施例提供的图片文本相似度评价方法,通过将图片文本中的所有字符对齐到网格上进行归一化处理后,得到字符所对应的灰度值矩阵,并对灰度值矩阵进行对比分析得到字符评分值;该方法将图片文本中的字符进行量化处理,即字符转化成客观的数据,从而对客观数据的处理,提高了图片文本相似度评价结果的可信度。
2.本发明实施例提供的图片文本相似度评价方法,通过对图片文本中关键词提取和量化处理,得到关键词评分值,能够利用关键词反应图片文本的相似度,进而提高了评价结果的精度。
3.本发明实施例提供的图片文本相似度评价方法,通过将单个字符的字符评分值与关键词评分值相结合,得出两个图片文本之间的相似度,即结合多个评价因素,对待评价图片进行分析处理,能够提高评价的准确性和评价结果的精度。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1示出了本发明实施例1中图片文本的相似度评价方法的一个具体示意的方法流程图;
图2示出了本发明实施例2中图片文本的相似度评价方法的一个具体示意的方法流程图;
图3示出了本发明实施例3中图片文本的相似度评价方法的一个具体示意的方法流程图;
图4示出了本发明实施例4中图片文本的相似度评价装置的一个具体示意的结构图;
图5示出了本发明实施例5中评价装置的一个具体示意的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本实施例提供一种图片文本的相似度评价方法,可用于评价装置中。如图1所示,该方法包括以下步骤:
步骤S11,获取第一图片文本和第二图片文本。
评价装置可以从外界直接获取第一图片文本和第二图片文本,也可以预先存储在评价装置的存储器中,只需保证评价装置能够获取到第一图片文本和第二图片文本。其中,所谓图片文本为以图片形式表示的文本字符,评价装置处理的是图片格式。
步骤S12,分别提取第一图片文本和第二图片文本中的字符。
评价装置通过对图片文本进行处理,分别提取第一图片文本以及第二图片文本中的字符,提取出的字符分别保存评价装置的存储器的不同存储区间中。
步骤S13,将字符对齐到网格上,进行归一化处理。
其中,网格为将一个矩形框划分成g行h列的矩形格,g行或h列的具体数量取决于对评价结果的精度要求,精度要求越高,g以及h的取值越大。
评价装置提取出第一图片文本和第二图片文本中的字符后,对所有字符的字号进行处理,使的所有字符的字号相同。具体地,可以等比例缩放所有字符,以实现字号的统一。
在对所有字符的字号统一之后,依次将每个字符对齐到网格上。若网格对应的矩形格内存在字符的组成部分,则将该矩形格的取值设为1;若网格对应的矩形格内不存在字符的组成部分,则将该矩形格的取值设为0。
步骤S14,提取字符对应于网格上的灰度值,形成对应于每个字符的灰度值矩阵。
评价装置将每个字符归一化处理完成之后,提取每个字符对应于网格上的灰度值,将所有灰度值按照网格的排列形成灰度值矩阵,每个字符都对应一个灰度值矩阵,即每个字符都对应一个g行h列的灰度值矩阵。
步骤S15,依次对比第一图片文本中的每个字符的灰度值矩阵与第二图片文本中的每个字符的灰度值矩阵,得到字符评分值。
评价装置按照第一图片文本和第二图片文本中字符的排列顺序,依次对比每个字符的灰度值矩阵之间的关系,从而能够得到对应于每个字符的评分值。例如,可以计算第一图片文本和第二图片文本中每两个字符之间灰度值矩阵的距离,得到字符评分值。
步骤S16,根据字符评分值,计算第一图片文本与所述第二图片文本之间的相似度。
评价装置在得到第一图片文本和第二图片文本中每个字符的字符评分值之后,可以用该字符评分值直接计算第一图片文本与第二图片文本之间的相似度,也可以用该字符评分值与其他评分值结合,综合评价第一图片文本与第二图片文本之间的相似度。
该图片文本的相似度评价方法将图片文本中的字符进行量化处理,即字符转化成客观的数据,从而对客观数据的处理,提高了图片文本相似度评价结果的可信度。
实施例2
本实施例提供一种图片文本的相似度评价方法,可用于评价装置中。如图2所示,该方法包括以下步骤:
步骤S21,获取第一图片文本和第二图片文本。
与实施例1步骤S11相同,在此不再赘述。
步骤S22,分别提取第一图片文本和第二图片文本中的字符。
与实施例1步骤S12相同,在此不再赘述。
步骤S23,将字符对齐到网格上,进行归一化处理。
与实施例1步骤S13相同,在此不再赘述。
步骤S24,提取字符对应于网格上的灰度值,形成对应于每个字符的灰度值矩阵。
与实施例1步骤S14相同,在此不再赘述。
步骤S25,依次对比第一图片文本中的每个字符的灰度值矩阵与第二图片文本中的每个字符的灰度值矩阵,得到字符评分值。
与实施例1步骤S15相同,在此不再赘述。
步骤S26,分别提取所述第一图片文本和所述第二图片文本中的N个关键词,所述关键词为第一图片文本和所述第二图片文本中频率最高的N个字符或字符串。
关键词一般由1至5个字符组成,因此,对于第一图片文本和第二图片文本,评价装置依次将1个,2个,3个,4个,以及5个字符进行组合,对比出出现频率最高的N个字符或字符串。
即对于第一图片文本,评价装置提取出N个关键词,对于第二图片文本,评价装置同样也提取出N个关键词。由于关键词由字符构成,因此,可以将形成关键词的字符对应的灰度值矩阵组成关键词矩阵。例如,对于第一图片文本中存在关键词“控制”,该关键词由两个字符构成。因此,评价装置将:“控”以及“制”这两个字符的灰度值矩阵进行组合,得到对应于“控制”的关键词的灰度值矩阵。例如:“控”对应的灰度值矩阵为A1,“制”对应的灰度值矩阵为A2,那么所组成的灰度值矩阵为A’,如下所示:
依次类推,评价装置能够得出对应于所有关键词的关键词灰度值矩阵。
步骤S27,分别对比所述关键词,计算所述第一图片文本和所述第二图片文本之间所述关键词的相似度,以得到关键词评分值。
评价装置依次对比第一图片文本中的每个关键词与第二图片文本中的所有关键词,从而能够得到对应于每个字符的评分值。例如,可以计算第一图片文本和第二图片文本中每两个关键词之间灰度值矩阵的距离,得到关键词评分值。
步骤S28,根据字符评分值,计算第一图片文本与所述第二图片文本之间的相似度。
评价装置在得到字符评分值以及关键词评分值之后,可以将这两组评分值进行结合,从而得到第一图片文本与第二图片文本之间的相似度。具体地,采用如下公式计算:
其中,A为所述第一图片文本与所述第二图片文本之间的相似度,a1和a2为常数,n为所述第一图片文本与所述第二图片文本中最小的字符总数;fi为所述字符评分值,N为关键词的数量,fj为所述关键词评分值。
上述公式中,a1和a2的取值取决于用户对评价结果的倾向,若倾向于字符得分值,则a1取值大于a2;若倾向于关键词得分值,则a1取值小于a2,只需保证a1与a2之和为固定常数即可。
未在本实施例中详细描述的步骤细节,请操作实施例1,在此不再赘述。
实施例3
本实施例提供一种图片文本的相似度评价方法,可用于评价装置中。如图3所示,该方法包括以下步骤:
步骤S31,获取第一图片文本和第二图片文本。
与实施例1步骤S11相同,在此不再赘述。
步骤S32,分别提取第一图片文本和第二图片文本中的字符。
与实施例1步骤S12相同,在此不再赘述。
步骤S33,将字符对齐到网格上,进行归一化处理。
与实施例1步骤S13相同,在此不再赘述。
步骤S34,提取字符对应于网格上的灰度值,形成对应于每个字符的灰度值矩阵。
与实施例1步骤S14相同,在此不再赘述。
步骤S35,依次对比第一图片文本中的每个字符的灰度值矩阵与第二图片文本中的每个字符的灰度值矩阵,得到字符评分值。
与实施例1步骤S15相同,在此不再赘述。
步骤S36,分别提取所述第一图片文本和所述第二图片文本中的N个关键词,所述关键词为第一图片文本和所述第二图片文本中频率最高的N个字符或字符串。
评价装置通过对第一图片文本和第二图片文本分别进行切词处理,即将字符形成词语,再进行关键词的提取。
具体包括以下步骤:
步骤S361,对第一图片文本和第二图片文本中的所有字符进行切词处理,形成若干对应于第一图片文本和第二图片文本中字符串的灰度值矩阵,切词处理为将第一图片文本或第二图片文本中的单个字符组成词语;
评价装置通过对第一图片文本和第二图片文本中的所有字符进行切词处理,即分别将第一图片文本和第二图片文本中的所有字符组合成若干词语。
在依次提取词语中每个字符对饮的灰度值矩阵,构成每个词语对应的灰度值矩阵。具体词语对应的灰度值矩阵的构成过程,请参照实施例2中关键词的灰度值矩阵的构成过程。
步骤S362,依次判断每两个所述字符串的灰度值矩阵的距离是否小于第一阈值。若判断结果为是,则执行步骤S363;否则,执行步骤S362。
依次计算第一图片文本中每两个字符串(词语)的灰度值矩阵之间的距离,通过判断计算出的距离与第一阈值之间的关系,即可判断出比较的两个字符串是否相同。
其中,第一阈值为预先设置的用于表示两个字符串是否为相同字符串的阈值,取值为0至1之间。
此外,对于第一图片文本中判断每两个字符串是否为相同字符串的判断过程与上述第一图片文本中字符串的判断相同。
步骤S363,确定两个字符串为相同的字符串。
在计算出第一图片文本中每两个字符串(词语)的灰度值矩阵之间的距离小于第一阈值时,则确定比较的两个字符串为相同的字符串。
步骤S364,统计相同的字符串的数量,其中,数量最大的前N个字符串为所述关键词。
当比较的两个字符串为相同的字符串时,则对应于该字符串的数量值加1。依次类推,直至所有字符串比较完成。
对所有字符串对应的数量值进行排序,区数量最大的前N个字符串为对应于第一图片文本或第二图片文本的关键词。
步骤S37,分别对比所述关键词,计算所述第一图片文本和所述第二图片文本之间所述关键词的相似度,以得到关键词评分值。
在提取出第一图片文本和第二图片文本的关键词之后,依次计算第一图片文本中的每个关键词与第二图片文本中的所有关键词之间的相似度。
具体地,计算第一图片文本中的每个关键词的灰度值矩阵与第二图片文本中的所有关键词的灰度值矩阵之间的距离,用计算出的距离表示该关键词的评分值。
步骤S38,根据字符评分值,计算第一图片文本与所述第二图片文本之间的相似度。
与实施例2步骤S28相同,在此不再赘述。
未在本实施例中详细描述的步骤细节,请参照实施例1或实施例2,在此不再赘述。
实施例4
本实施例提供一种图片文本的相似度评价装置,可用于执行实施例1至实施例3中的图片文本的相似度评价方法。如图4所示,该装置包括:
获取单元41,用于获取第一图片文本和第二图片文本;
第一提取单元42,用于分别提取所述第一图片文本和所述第二图片文本中的字符;
对齐单元43,用于将所述字符对齐到网格上,进行归一化处理;
第二提取单元44,用于提取所述字符对应于所述网格上的灰度值,形成对应于每个字符的灰度值矩阵;
第一对比单元45,用于依次对比所述第一图片文本中的每个字符的灰度值矩阵与所述第二图片文本中的每个字符的灰度值矩阵,得到字符评分值;
计算单元46,用于根据所述字符评分值,计算所述第一图片文本与所述第二图片文本之间的相似度。
作为本实施例的一种可选实施方式,该装置还包括:
第三提取单元,用于分别提取所述第一图片文本和所述第二图片文本中的N个关键词,所述关键词为第一图片文本和所述第二图片文本中频率最高的N个字符或字符串。
第二对比单元,用于分别对比所述关键词,计算所述第一图片文本和所述第二图片文本之间所述关键词的相似度,以得到关键词评分值。
可选地,其中,所述第三提取单元,包括:
切词子单元,用于对所述第一图片文本和所述第二图片文本中的所有字符进行切词处理,形成若干对应于第一图片文本和所述第二图片文本中字符串的灰度值矩阵,所述切词处理为将所述第一图片文本或所述第二图片文本中的单个字符组成词语。
判断子单元,用于依次判断每两个所述字符串的灰度值矩阵的距离是否小于第一阈值。
确定子单元,用于当判断结果为是时,则确定两个字符串为相同的字符串。
统计子单元,用于统计所述相同的字符串的数量,其中,数量最大的前N个字符串为所述关键词。
实施例5
图5是本发明实施例提供的评价装置的硬件结构示意图,如图5所示,该装置包括一个或多个处理器51以及存储器52,图5中以一个处理器51为例。
该评价装置还可以包括:图像显示器(未示出),用于对比显示待比较的图片文本。处理器51、存储器52和图像显示器可以通过总线或者其他方式连接,图5中以通过总线连接为例。
处理器51可以为中央处理器(Central Processing Unit,CPU)。处理器51还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器52作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的图片文本的相似度评价方法对应的程序指令/模块。处理器51通过运行存储在存储器52中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述实施例中,图片文本的相似度评价方法。
存储器52可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据图片文本的相似度评价装置使用所创建的数据等。此外,存储器52可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器52可选包括相对于处理器51远程设置的存储器,这些远程存储器可以通过网络连接至图片文本的相似度评价装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器52中,当被所述一个或者多个处理器51执行时,执行实施例1至实施例3中任一项所述的图片文本的相似度评价方法。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,具体可参见如图1所示的实施例中的相关描述。
实施例6
本发明实施例还提供了一种非暂态计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行实施例1至实施例3中任一项所述的图片文本的相似度评价方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(FlashMemory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种图片文本的相似度评价方法,其特征在于,包括以下步骤:
获取第一图片文本和第二图片文本;
分别提取所述第一图片文本和所述第二图片文本中的字符;
将所述字符对齐到网格上,进行归一化处理;
提取所述字符对应于所述网格上的灰度值,形成对应于每个字符的灰度值矩阵;
依次对比所述第一图片文本中的每个字符的灰度值矩阵与所述第二图片文本中的每个字符的灰度值矩阵,得到字符评分值;
根据所述字符评分值,计算所述第一图片文本与所述第二图片文本之间的相似度。
2.根据权利要求1所述的相似度评价方法,其特征在于,还包括:
分别提取所述第一图片文本和所述第二图片文本中的N个关键词,所述关键词为第一图片文本和所述第二图片文本中频率最高的N个字符或字符串;
分别对比所述关键词,计算所述第一图片文本和所述第二图片文本之间所述关键词的相似度,以得到关键词评分值。
3.根据权利要求2所述的相似度评价方法,其特征在于,所述分别提取所述第一图片文本和所述第二图片文本中的N个关键词,包括以下步骤:
对所述第一图片文本和所述第二图片文本中的所有字符进行切词处理,形成若干对应于第一图片文本和所述第二图片文本中字符串的灰度值矩阵,所述切词处理为将所述第一图片文本或所述第二图片文本中的单个字符组成词语;
依次判断每两个所述字符串的灰度值矩阵的距离是否小于第一阈值;
当判断结果为是时,则确定两个字符串为相同的字符串;
统计所述相同的字符串的数量,其中,数量最大的前N个字符串为所述关键词。
4.根据权利要求2或3所述的相似度评价方法,其特征在于,所述分别对比所述关键词,计算所述第一图片文本和所述第二图片文本之间所述关键词的相似度,包括:
依次提取所述第一图片文本的任意一个关键词和所述第二图片文本中的任意一个关键词;
计算提取出的两个关键词对应的灰度值矩阵之间的距离;
根据计算结果,确定所述关键词的相似度。
5.根据权利要求2所述的相似度评价方法,其特征在于,根据比对结果,计算所述第一图片文本与所述第二图片文本之间的相似度,采用如下公式计算:
<mrow> <mi>A</mi> <mo>=</mo> <msub> <mi>a</mi> <mn>1</mn> </msub> <mo>&amp;times;</mo> <msup> <mrow> <mo>(</mo> <mfrac> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>f</mi> <mi>i</mi> </msub> </mrow> <mi>n</mi> </mfrac> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <msub> <mi>a</mi> <mn>2</mn> </msub> <mo>&amp;times;</mo> <mfrac> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>f</mi> <mi>j</mi> </msub> </mrow> <mi>N</mi> </mfrac> <mo>;</mo> </mrow>
其中,A为所述第一图片文本与所述第二图片文本之间的相似度,a1和a2为常数,n为所述第一图片文本与所述第二图片文本中最小的字符总数;fi为所述字符评分值,N为关键词的数量,fj为所述关键词评分值。
6.一种图片文本的相似度评价装置,其特征在于,包括:
获取单元,用于获取第一图片文本和第二图片文本;
第一提取单元,用于分别提取所述第一图片文本和所述第二图片文本中的字符;
对齐单元,用于将所述字符对齐到网格上,进行归一化处理;
第二提取单元,用于提取所述字符对应于所述网格上的灰度值,形成对应于每个字符的灰度值矩阵;
第一对比单元,用于依次对比所述第一图片文本中的每个字符的灰度值矩阵与所述第二图片文本中的每个字符的灰度值矩阵,得到字符评分值;
计算单元,用于根据所述字符评分值,计算所述第一图片文本与所述第二图片文本之间的相似度。
7.根据权利要求6所述的相似度评价装置,其特征在于,还包括:
第三提取单元,用于分别提取所述第一图片文本和所述第二图片文本中的N个关键词,所述关键词为第一图片文本和所述第二图片文本中频率最高的N个字符或字符串;
第二对比单元,用于分别对比所述关键词,计算所述第一图片文本和所述第二图片文本之间所述关键词的相似度,以得到关键词评分值。
8.根据权利要求7所述的相似度评价装置,其特征在于,所述第三提取单元,包括:
切词子单元,用于对所述第一图片文本和所述第二图片文本中的所有字符进行切词处理,形成若干对应于第一图片文本和所述第二图片文本中字符串的灰度值矩阵,所述切词处理为将所述第一图片文本或所述第二图片文本中的单个字符组成词语;
判断子单元,用于依次判断每两个所述字符串的灰度值矩阵的距离是否小于第一阈值;
确定子单元,用于当判断结果为是时,确定两个字符串为相同的字符串;
统计子单元,用于统计所述相同的字符串的数量,其中,数量最大的前N个字符串为所述关键词。
9.一种评价装置,其特征在于,包括至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1至5中任一项所述的图片文本的相似度评价方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行权利要求1至5中任一项所述的图片文本的相似度评价方法。
CN201711237227.8A 2017-11-30 2017-11-30 图片文本的相似度评价方法及装置 Active CN107909054B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711237227.8A CN107909054B (zh) 2017-11-30 2017-11-30 图片文本的相似度评价方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711237227.8A CN107909054B (zh) 2017-11-30 2017-11-30 图片文本的相似度评价方法及装置

Publications (2)

Publication Number Publication Date
CN107909054A true CN107909054A (zh) 2018-04-13
CN107909054B CN107909054B (zh) 2021-05-04

Family

ID=61848200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711237227.8A Active CN107909054B (zh) 2017-11-30 2017-11-30 图片文本的相似度评价方法及装置

Country Status (1)

Country Link
CN (1) CN107909054B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079037A (zh) * 2019-12-12 2020-04-28 腾讯科技(深圳)有限公司 文档显示效果的评估方法、装置及计算机可读存储介质
CN111985519A (zh) * 2019-05-21 2020-11-24 创新先进技术有限公司 文本相似度量化方法、设备及系统
CN112423016A (zh) * 2020-11-20 2021-02-26 广州欢网科技有限责任公司 一种提高电视台直播收视率的优化方法和系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8081824B2 (en) * 2005-09-21 2011-12-20 Microsoft Corporation Generating search requests from multimodal queries
CN102750541A (zh) * 2011-04-22 2012-10-24 北京文通科技有限公司 一种文档图像分类识别方法及装置
CN102855245A (zh) * 2011-06-28 2013-01-02 北京百度网讯科技有限公司 一种用于确定图片相似度的方法与设备
CN103098074A (zh) * 2010-03-10 2013-05-08 微软公司 光学字符识别中的文档页分割
CN104504387A (zh) * 2014-12-16 2015-04-08 杭州华为数字技术有限公司 文本图像的校正方法和装置
CN106127222A (zh) * 2016-06-13 2016-11-16 中国科学院信息工程研究所 一种基于视觉的字符串相似度计算方法及相似性判断方法
CN106815197A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 文本相似度的确定方法和装置
CN107168954A (zh) * 2017-05-18 2017-09-15 北京奇艺世纪科技有限公司 文本关键词生成方法及装置和电子设备及可读存储介质
CN107330127A (zh) * 2017-07-21 2017-11-07 湘潭大学 一种基于文本图片检索的相似文本检测方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8081824B2 (en) * 2005-09-21 2011-12-20 Microsoft Corporation Generating search requests from multimodal queries
CN103098074A (zh) * 2010-03-10 2013-05-08 微软公司 光学字符识别中的文档页分割
CN102750541A (zh) * 2011-04-22 2012-10-24 北京文通科技有限公司 一种文档图像分类识别方法及装置
CN102855245A (zh) * 2011-06-28 2013-01-02 北京百度网讯科技有限公司 一种用于确定图片相似度的方法与设备
CN104504387A (zh) * 2014-12-16 2015-04-08 杭州华为数字技术有限公司 文本图像的校正方法和装置
CN106815197A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 文本相似度的确定方法和装置
CN106127222A (zh) * 2016-06-13 2016-11-16 中国科学院信息工程研究所 一种基于视觉的字符串相似度计算方法及相似性判断方法
CN107168954A (zh) * 2017-05-18 2017-09-15 北京奇艺世纪科技有限公司 文本关键词生成方法及装置和电子设备及可读存储介质
CN107330127A (zh) * 2017-07-21 2017-11-07 湘潭大学 一种基于文本图片检索的相似文本检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴锐: "基于灰度直方图和谱聚类的文本图像二值化方法", 《电子与信息学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985519A (zh) * 2019-05-21 2020-11-24 创新先进技术有限公司 文本相似度量化方法、设备及系统
US11210553B2 (en) 2019-05-21 2021-12-28 Advanced New Technologies Co., Ltd. Methods and devices for quantifying text similarity
CN111079037A (zh) * 2019-12-12 2020-04-28 腾讯科技(深圳)有限公司 文档显示效果的评估方法、装置及计算机可读存储介质
CN111079037B (zh) * 2019-12-12 2023-09-22 腾讯科技(深圳)有限公司 文档显示效果的评估方法、装置及计算机可读存储介质
CN112423016A (zh) * 2020-11-20 2021-02-26 广州欢网科技有限责任公司 一种提高电视台直播收视率的优化方法和系统

Also Published As

Publication number Publication date
CN107909054B (zh) 2021-05-04

Similar Documents

Publication Publication Date Title
US11816138B2 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
CN109190007B (zh) 数据分析方法及装置
CN110765770A (zh) 一种合同自动生成方法及装置
US20150032708A1 (en) Database analysis apparatus and method
CN109857957B (zh) 建立标签库的方法、电子设备及计算机存储介质
US10699112B1 (en) Identification of key segments in document images
US20230205755A1 (en) Methods and systems for improved search for data loss prevention
CN112036295B (zh) 票据图像处理方法、装置、存储介质及电子设备
CN111797239A (zh) 应用程序的分类方法、装置及终端设备
CN113221918B (zh) 目标检测方法、目标检测模型的训练方法及装置
CN107909054A (zh) 图片文本的相似度评价方法及装置
CN110716718A (zh) 页面生成的方法、装置、设备和存储介质
US10782942B1 (en) Rapid onboarding of data from diverse data sources into standardized objects with parser and unit test generation
CN104102704A (zh) 系统控件展示方法和装置
CN103455527A (zh) 手写文件检索装置、方法以及记录介质
CN108334800B (zh) 印章图像的处理装置、方法以及电子设备
CN112329409B (zh) 一种单元格颜色转换方法、装置及电子设备
JP6252296B2 (ja) データ識別方法、データ識別プログラム及びデータ識別装置
CN110598194A (zh) 一种非满格表格内容提取方法、装置及终端设备
CN107368525A (zh) 搜索相关词的方法及装置、存储介质和终端设备
CN116029280A (zh) 一种文档关键信息抽取方法、装置、计算设备和存储介质
CN112380117A (zh) 一种软件测试基础用例的生产方法、装置和电子设备
CN104899572A (zh) 检测内容的方法、装置及终端
JP6485084B2 (ja) 画像探索装置、画像探索方法および画像探索プログラム
CN116758565B (zh) 一种基于决策树的ocr文本还原方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant