CN114461835A - 图片处理方法及装置、计算机可读存储介质和电子设备 - Google Patents

图片处理方法及装置、计算机可读存储介质和电子设备 Download PDF

Info

Publication number
CN114461835A
CN114461835A CN202210112690.4A CN202210112690A CN114461835A CN 114461835 A CN114461835 A CN 114461835A CN 202210112690 A CN202210112690 A CN 202210112690A CN 114461835 A CN114461835 A CN 114461835A
Authority
CN
China
Prior art keywords
picture
characters
text
processed
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210112690.4A
Other languages
English (en)
Inventor
孟冬伟
李发科
王为磊
孙敏
屠昶旸
张济徽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Smart Bud Information Technology Suzhou Co ltd
Original Assignee
Smart Bud Information Technology Suzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Smart Bud Information Technology Suzhou Co ltd filed Critical Smart Bud Information Technology Suzhou Co ltd
Priority to CN202210112690.4A priority Critical patent/CN114461835A/zh
Publication of CN114461835A publication Critical patent/CN114461835A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/54Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Character Input (AREA)

Abstract

本申请实施例涉及一种图片处理方法及装置、计算机可读存储介质和电子设备。其中,图片处理方法通过获取待处理图片,待处理图片中包括图形和文字;对待处理图片进行文字检测,得到包含文字的图像;对包含文字的图像进行文字方向识别,得到包含文字的图像中的文字对应的朝向;根据对应的朝向对包含文字的图像进行文本识别,获得包含文本字符串的文本识别结果,文本字符串与包含文字的图像中的文字相对应;如此,提高了文本识别结果的准确率,进而为提高后续展示图片的准确率提供了前提条件。

Description

图片处理方法及装置、计算机可读存储介质和电子设备
技术领域
本申请涉及数据处理技术领域,特别是涉及一种图片处理方法及装置、计算机可读存储介质和电子设备。
背景技术
在用户关注或想查询的文件(例如专利文件等)中不乏少数会同时包含有文本内容和图片内容,二者对于准确、清晰地介绍文件的详细内容发挥着重要作用。其中,文本内容可以更详细、明确地通过文字信息介绍图片内容中对象的构成,而图片内容则更形象、直观地进行展示,两者内容上往往相互关联、相辅相成。但受限于文件的格式或者排版等问题,上述文件中的图片内容和文本内容大多是相互分开、相互独立的。相应的,导致在浏览图片内容时,如果想了解其中某个对象的详细介绍,需要先在冗长的文本内容中找到描述对应对象的文字信息的位置,此过程较为繁杂、耗时。
对图片内容中的对象进行标注,使得与对象相关联的文字信息也展示在图片内容中,最后向用户展示具有相关文字信息标注的图片,是一种便于用户快速了解、掌握图片内容的方式,对于用户阅读理解文件有着较大的帮助。然而,如果对图片内容中的对象没有进行准确的标注,从而做了错误的展示,那么可能会对用户的阅读理解产生相反的、不利的影响,用户使用体验相对较差。由于图片中的文字是图片内容中对象与文本内容中文字信息之间的链接节点,因而,能否对图片中的文字进行准确的文本识别是影响标注准确性,甚至影响展示图片的准确性的重要因素之一。
发明内容
有鉴于此,本申请实施例为解决背景技术中存在的至少一个问题而提供一种图片处理方法及装置、计算机可读存储介质和电子设备。
第一方面,本申请一实施例提供了一种图片处理方法,所述方法包括:
获取待处理图片,所述待处理图片中包括图形和文字;
对所述待处理图片进行文字检测,得到包含文字的图像;
对所述包含文字的图像进行文字方向识别,得到所述包含文字的图像中的文字对应的朝向;
根据对应的所述朝向对所述包含文字的图像进行文本识别,获得包含文本字符串的文本识别结果,所述文本字符串与所述包含文字的图像中的文字相对应。
结合本申请的第一方面,在一可选实施方式中,所述进行文字方向识别基于经过训练的方向识别模型执行;所述经过训练的方向识别模型的训练过程包括:
获得包括多个第一合成标签数据的第一训练集,所述第一合成标签数据为语料内容的字符长度小于预设阈值且各字符排布于同一行中的第一合成图片对应的数据,并且各所述第一合成图片经过朝向上的随机旋转;
基于所述第一训练集对方向识别模型进行训练,得到所述经过训练的方向识别模型。
结合本申请的第一方面,在一可选实施方式中,所述对所述待处理图片进行文字检测,得到包含文字的图像,包括:
基于经过训练的文字检测模型对所述待处理图片进行文字检测,得到文字在所述待处理图片中的位置,其中,所述经过训练的文字检测模型基于第二训练集进行训练而得到,所述第二训练集包括标注数据以及第二合成标签数据;
根据所述待处理图片和所述位置,得到所述包含文字的图像。
结合本申请的第一方面,在一可选实施方式中,所述第二合成标签数据为第二合成图片对应的数据,所述第二合成图片通过以下步骤得到:
获得候选背景图片,对所述候选背景图片进行文字检测,将候选背景图片中没有文字的图片确定为背景图片;
选择文字属性,所述文字属性包括以下至少一种:字体、文字的设置位置、语料内容、颜色;
基于所述背景图片和所述文字属性,生成第二合成图片。
结合本申请的第一方面,在一可选实施方式中,所述进行文本识别基于经过训练的文本识别模型执行;所述根据所述包含文字的图像和对应的所述朝向,进行文本识别之前,所述方法还包括:
基于第三训练集对文本识别模型进行训练,得到所述经过训练的文本识别模型,所述第三训练集包括与第三图片对应的数据,所述第三图片包括文字和位于所述文字周围的指引线。
结合本申请的第一方面,在一可选实施方式中,所述获取待处理图片之前,所述方法还包括:
根据预设规则确定获取的图片是否为待处理图片;所述预设规则为若判断所述图片为包含附图标记的电路图、轮廓图或结构图,则将所述图片确定为待处理图片。
结合本申请的第一方面,在一可选实施方式中,所述方法还包括:
获取与所述待处理图片对应的文本,识别所述文本中包含的命名实体以及附图标记,所述命名实体与所述附图标记之间存在第一对应关系;
将所述文本识别结果与所述附图标记进行匹配,根据匹配结果以及所述第一对应关系,获得文本识别结果与命名实体之间的第二对应关系;
根据所述第二对应关系以及所述待处理图片,生成第一待展示图片,所述第一待展示图片相较于所述待处理图片至少还展示有命名实体以作为所述文本识别结果的标注。
结合本申请的第一方面,在一可选实施方式中,所述方法还包括:
接收请求消息,所述请求消息中包含与所述待处理图片对应的信息;
根据所述请求消息在数据库中查询是否存在与所述待处理图片对应的第一数据,所述第一数据为经过人工修订后储存的数据;
如果存在所述第一数据,则将根据所述第一数据生成的图片作为第二待展示图片进行展示;
如果不存在所述第一数据,则根据所述请求消息在数据库中查询是否存在第二数据,所述第二数据为与所述待处理图片对应的第一待展示图片相关的数据或者与所述待处理图片对应的所述第二对应关系相关的数据;
如果存在所述第二数据,则展示所述第一待展示图片;
如果不存在所述第二数据,则执行所述获取与所述待处理图片对应的文本的步骤,直至生成第一待展示图片,展示所述第一待展示图片。
结合本申请的第一方面,在一可选实施方式中,所述第一数据通过以下步骤生成:
接收针对所述第一待展示图片的反馈消息,所述反馈消息表征所述第一待展示图片中存在错误;
接收用于修正所述错误的修订信息;
生成包含所述修订信息的所述第一数据。
第二方面,本申请一实施例提供了一种图片处理装置,包括:
获取模块,配置为获取待处理图片,所述待处理图片中包括图形和文字;
文字检测模块,配置为对所述待处理图片进行文字检测,得到包含文字的图像;
文字方向识别模块,配置为对所述包含文字的图像进行文字方向识别,得到所述包含文字的图像中的文字对应的朝向;
文本识别模块,配置为根据对应的所述朝向对所述包含文字的图像进行文本识别,获得包含文本字符串的文本识别结果,所述文本字符串与所述包含文字的图像中的文字相对应。
第三方面,本申请一实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有指令,当所述指令由电子设备的处理器执行时,使得所述电子设备能够执行上述实施例中任意一项提供的图片处理方法。
第四方面,本申请一实施例提供了一种电子设备,所述电子设备包括:
处理器;
用于存储计算机可执行指令的存储器;
所述处理器,用于执行所述计算机可执行指令,以实现上述实施例中任意一项所述的图片处理方法。
本申请实施例所提供的图片处理方法,通过获取待处理图片,所述待处理图片中包括图形和文字;对所述待处理图片进行文字检测,得到包含文字的图像;对所述包含文字的图像进行文字方向识别,得到所述包含文字的图像中的文字对应的朝向;根据对应的所述朝向对所述包含文字的图像进行文本识别,获得包含文本字符串的文本识别结果,所述文本字符串与所述包含文字的图像中的文字相对应;如此,提高了文本识别结果的准确率,进而为提高后续展示图片的准确率提供了前提条件。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请一实施例提供的图片处理方法的应用场景示意图;
图2为本申请一实施例提供的图片处理方法的流程示意图;
图3为待处理图片的示意图;
图4为图3中待处理图片进行文字检测后得到的包含文字的图像;
图5为本申请一实施例提供的文字检测方法的流程示意图;
图6为本申请一实施例提供的合成图片的方法的流程示意图;
图7为本申请一实施例提供的方向识别模型的训练方法的流程示意图;
图8为本申请另一实施例提供的图片处理方法的流程示意图;
图9为第一待展示图片的示意图;
图10为本申请又一实施例提供的图片处理方法的流程示意图;
图11为本申请一实施例提供的第一数据生成方法的流程示意图;
图12为本申请一具体示例中图片展示方法的流程图;
图13为本申请一具体示例中在线计算过程的流程图;
图14为本申请一实施例提供的图片处理装置的结构示意图;
图15为本申请一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明的技术方案和有益效果能够更加明显易懂,下面通过列举具体实施例的方式,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供的技术方案可以应用于包含有服务器(例如,为用户提供图片处理的后台处理服务器)和终端设备(例如,台式电脑、笔记本电脑、平板电脑、手机等)的系统中。
示例性地,本申请提供的技术方案可以应用于专利文献阅读场景中。具体地,待处理图片为专利附图,具体为专利的说明书附图或摘要附图,待处理图片中包括的文字至少包括附图标记;与待处理图片对应的文本为专利的说明书,文本中包含的命名实体至少包括术语名称。在专利检索场景中,利用本申请提供的技术方案能够对专利附图中的附图标记进行准确识别,进而与说明书中记载的附图标记以及对应的术语名称(还可以包括其他相关描述)进行匹配,将术语名称(或其他相关描述)展示在附图中相应的附图标记的周围,从而便于用户阅读理解,节省阅读专利文献的时间。
除了上述提及的专利文献阅读场景,本申请还可以基于服务器的形式应用于诸多其他场景。下面结合图1进行简单的介绍。
图1所示为本申请一实施例提供的图片处理方法的应用场景示意图。图1所示的场景包括服务器10以及与服务器10通信连接的终端设备20。具体而言,服务器10用于获取待处理图片;对待处理图片进行文字检测,得到包含文字的图像;对包含文字的图像进行文字方向识别,得到包含文字的图像中的文字对应的朝向;根据包含文字的图像和对应的朝向进行文本识别,获得文本识别结果。
示例性地,在实际应用过程中,终端设备20可以接收用户输入的各类指令,并将接收的指令发送至服务器10;服务器10基于接收的指令执行相应的操作,并将结果输出至终端设备20;终端设备20可以基于接受到的结果进行相应的展示,从而呈现给用户。
下面,对本申请一实施例提供的图片处理方法进行简单的介绍。
图2所示为本申请一实施例提供的图片处理方法的流程示意图,其具体涉及对图片中的文字进行文本识别。如图2所示,本申请实施例提供的图片处理方法包括如下步骤:
步骤210,获取待处理图片,待处理图片中包括图形和文字。
在本申请一实施例中,待处理图片可以为专利文献的说明书附图或摘要附图;其中,文字可以为附图标记。当然,本申请并不限于此,比如待处理图片还可以为期刊文献中的附图、论文中的附图、使用说明书中的图片等。
图3为一张待处理图片的示意图;如图所示,待处理图片300包括图形,该图形用于表示装置结构,如图中示出的各长方形,其分别表示器件中的各结构层;待处理图片300还包括文字,如图中“301”、“302”、“303”,该文字用于表示装置结构的序号,具体可以将其理解为待处理图片中一种用于指示图片整体或者图片中的某个内容对象的标识信息。应当理解,上述文字具体可以包括数字、字母等;还可以包括各种字符的组合,例如数字和字母的组合等。例如,可以是数字“101”,或字母“A”,或者数字和字母的组合“A101”等等。当然,在具体实施时,根据具体情况和用户需求,上述文字还可以是其他类型的标识信息;例如,还可以是位于附图中的方框内,没有特征线相连的数字和文字的组合,例如“模块21”等等。对此,本申请不作限定。
步骤220,对待处理图片进行文字检测,得到包含文字的图像。
对待处理图片进行文字检测可以基于经过训练的文字检测模型实现。当然,本申请并不限于此,也可以通过本领域中其他常规的方式对待处理图片进行文字检测。经过训练的文字检测模型将在下文中详细展开说明。
以图3所示的待处理图片300为例,通过对待处理图片300进行文字检测,可以得到包含文字的图像,这里可以参见图4,其中,共得到3个包含文字的图像,分别为包含文字“301”的图像(在图4中位于左侧的图像)、包含文字“302”的图像(在图4中位于中间的图像)和包含文字“303”的图像(在图4中位于右侧的图像)。可以理解的,此时虽然识别出“301”、“302”以及“303”为文字,但仅据此得到了包含文字的图像,并未对其进行文本识别,因而并未获得与其对应的文本字符串。
可以理解的,该包含文字的图像为待处理图片中的一部分,并且为包含文字的部分。由于待处理图片中包括文字,因此针对一张待处理图片,进行文字检测后得到的包含文字的图像的数量至少为一个。在一些实际场景中,待处理图片中包括多段文字,如专利附图中包括多个附图标记,那么进行文字检测后得到的包含文字的图像的数量也为多个。具体的,进行文字检测后得到的包含文字的图像的数量与待处理图片中包括文字的段数(如专利附图中包括附图标记的数量)相同。
包含文字的图像的外轮廓可以为矩形。当然,本申请并不限于此,包含文字的图像的外轮廓也可以为其它合适的形状。
在一具体实施例中,包含文字的图像为语料内容的字符长度小于预设阈值且各字符排布于同一行中的图像。预设阈值例如为5,语料内容的字符长度在[0-5]的区间内;进一步的,预设阈值例如为4,语料内容的字符长度在[0-4]的区间内。从而,包含文字的图像例如为单行的短文本图像。
步骤230,对包含文字的图像进行文字方向识别,得到包含文字的图像中的文字对应的朝向。
由于图片在文件中的排版问题或者文字在图片中的排版问题,经常出现文字在页面中非正向的情况,即文字的朝向不是页面的正上方。在一些相关技术中,提出了基于深度神经网络模型的监督式学习算法识别附图中技术元件的编号和编号的位置信息,但是由于没有考虑到文字的朝向,因而不能正确识别非正向的文字,导致图文匹配的准确度较低。例如,包含文字“8”的图像如果具有90度或270度的朝向,而在文本识别的过程中,如果不考虑其朝向直接进行识别,则很可能会被识别为无穷大标记“∞”,或者被识别为“oo”;再如,包含文字“6”的图像如果具有180度朝向,则很可能会被识别为“9”。虽然也存在实现文字方向识别的相关技术;但一些相关技术进行文字方向识别的目的不是为了识别文本,而是为了诸如校正图片显示方向等,因而其并不适用于文本识别,尤其不适用于针对专利附图中的文字所进行的文本识别;目前并没有在进行文本识别的过程中先进行文字检测得到包含文字的图像,再对包含文字的图像进行文字方向识别,最后考虑文字的方向进行文本识别的技术。本申请实施例提供的图片处理方法相比于相关技术可以获得更准确的识别结果,例如对于一张待处理图片中存在多处文字的情况而言,由于先通过文字检测得到了包含文字的图像,那么即使多处文字分别具有不同的朝向,也能够在以包含文字的图像为单位进行文字方向识别后,获得各处文字对应的朝向,从而利用对应的朝向可以实现对各处文字的准确识别,避免了采用待处理图片的总体朝向作为图片中所有文字的方向而造成对部分文字识别错误的问题;此外,先识别出文字对应的朝向,直接根据朝向进行文本识别,可以避免在不知道朝向的情况下通过多次尝试的方式获得正确的文本识别结果,从而可以降低文本识别的处理量。
在实际应用中,对包含文字的图像进行文字方向识别可以基于经过训练的方向识别模型实现。得到的与包含文字的图像中的文字对应的朝向可以包括0度、90度、180度、270度等。
步骤240,根据对应的朝向对包含文字的图像进行文本识别,获得包含文本字符串的文本识别结果,文本字符串与包含文字的图像中的文字相对应。
在实际应用中,进行文本识别基于经过训练的文本识别模型执行。文本识别模型的输出,即文本识别结果,文本识别结果包含与包含文字的图像中的文字相匹配的文本字符串。作为一种可选的具体实施方式,文本识别模型的输出就是文本字符串。以图3所示的待处理图片300为例,图4中位于左侧的图像对应的文本识别结果为文本字符串“301”,位于中间的图像对应的文本识别结果为文本字符串“302”,位于右侧的图像对应的文本识别结果为文本字符串“303”。由于在文本识别中考虑了文字的朝向,因而避免了对非正向文字的错误识别。可以理解的,如果对待处理图片中的文字进行了错误识别,那么基于错误的识别结果将难以在与待处理图片对应的文本匹配到同样的附图标记,进而难以获得对应的术语名称或相关描述。
虽然图3和图4仅示出了包含文字的图像的朝向为正向(0度)的情况,但应当理解,包含文字的图像的朝向为非正向也是十分常见的情况,如果在文本识别过程中不考虑其朝向,则很有可能造成错误识别,甚至无法识别;而在文本识别中考虑文字的朝向,可以极大地避免对非正向文字的错误识别。再次参考前述举例,对于包含文字“8”且具有90度或270度的朝向的图像,容易被识别为无穷大标记“∞”,或者被识别为“oo”;而采用本申请实施例提供的方法,对该图像进行文字方向识别后得到其朝向,再根据其朝向对图像进行文本识别,则可以获得正确的文本识别结果——“8”;再如,包含文字“6”的图像如果具有180度朝向,容易被识别为“9”;采用本申请实施例提供的方法,对该图像进行文字方向识别后得到其朝向为180度,再根据其朝向对图像进行文本识别,则可以识别出该图像中的文字对应为“6”。
由此可见,本实施例中,由于先对待处理图片进行文字检测,获得包含文字的图像;再对包含文字的图像进行文字方向识别,得到包含文字的图像中的文字对应的朝向;最后根据对应的朝向对包含文字的图像进行文本识别,获得文本识别结果;从而提高了文本识别结果的准确率。
接下来,请参见图5;在一具体实施例中,步骤220可以包括以下步骤:
步骤222,基于经过训练的文字检测模型对待处理图片进行文字检测,得到文字在待处理图片中的位置。
其中,经过训练的文字检测模型基于第二训练集进行训练而得到,第二训练集包括标注数据以及第二合成标签数据。
步骤224,根据待处理图片和位置,得到包含文字的图像。
可以理解的,将待处理图片输入至文字检测模型,经过文字检测后输出文字在待处理图片中的位置,具体例如输出文字在待处理图片中的位置坐标。
根据位置坐标,将待处理图片中包含文字的部分(可称为“文字块”)裁剪出来,从而得到包含文字的图像。
在深度卷积神经网络的训练中需要大量的标注数据,文字检测任务数据标注过程繁杂,需要大量的人力。本实施例中,训练文字检测模型所采用的第二训练集包括标注数据以及第二合成标签数据,从而在保证检测准确率的同时节省了数据标注的时间成本和人力成本。
其中,标注数据和第二合成标签数据均是与图片对应的数据;标注数据对应的图片为从现有数据库中直接获取的图片;第二合成标签数据对应的图片为合成的图片,具体地,第二合成标签数据为第二合成图片对应的数据。
作为一种可选的实施方式,第二训练集包括第一数量的标注数据以及第二数量的第二合成标签数据,且第二数量大于第一数量。换言之,第二训练集包括少量的标注数据以及大量的第二合成标签数据,以尽可能降低数据标注的工作量。此外,采用以第二合成图片为主的第二训练集对文字检测模型进行训练,可以获得检测能力更强、检测结果更准确的文字检测模型。在实际应用中,第二数量可以远大于第一数量。第二合成标签数据占第二训练集的95%以上。进一步的,第二数量可以为第一数量的数百倍至数千倍。例如,第二数量为50万数量级,而第一数量为千或百数量级。
本申请实施例还提供了一种合成图片的方法。该合成图片的方法中的步骤可以应用于任一图像处理方法中。在一具体实施例中,第二合成图片可以通过合成图片的方法中的步骤而得到。
请参见图6,在一具体实施例中,合成图片的方法包括:
步骤610,获得候选背景图片,对候选背景图片进行文字检测,将图片中没有文字的候选背景图片确定为背景图片。
在实际应用中,该步骤610通过背景图片选择模块执行;在该步骤中,首先获取大量候选背景图片,然后使用开源文字检测模型对候选背景图片进行文字检测;如果检测结果中有文字,则删除该候选背景图片,从而使得检测结果中没有文字的图片被保留下来,构成背景图片。这种背景图片的选择方法,能高效的选择出无文字的图片,避免在后续步骤中背景图片中文字对文字检测造成干扰。
步骤620,确定文字属性,文字属性包括以下至少一种:字体、文字的设置位置、语料内容、颜色;
步骤630,基于背景图片和文字属性,生成第二合成图片。
这里,确定文字属性可以包括以下步骤中的至少之一:从多种字体中随机选择字体、从多个位置中随机选择文字的设置位置、从文本内容中随机选择语料内容、从多个颜色中随机选择颜色。具体地,包括以下步骤中的至少之一:
通过字体选择模块确定字体。多样化的字体可以更全面地覆盖场景数据字体的多样性,增强模型的鲁棒性。
通过选择文字位置的选择模块,根据不同字体的不同尺寸随机在背景图片中选择文字写入的外接矩形框(或称“文字框”)。在每一次写入文本之前,先计算当前选择的外接矩形框和历史外接矩形框的重合度,若判断存在某一历史外接矩形框和当前外接矩形框重合度较大的情况,则舍弃掉当前外接矩形框的位置,重新选择外接矩形框。其中,可以通过设置预设阈值的方式判断是否存在重合度较大的情况,判断存在某一历史外接矩形框和当前外接矩形框重合度较大具体可以判断存在某一历史外接矩形框和当前外接矩形框的重合度超过预设阈值。若当前选择外接矩形框为第一次选择,则没有历史外接矩形框,重合度为0;若当前选择外接矩形框不是第一次选择,则历史外接矩形框指的是在生成同一第二合成图片的过程中在当前选择外接矩形框的步骤之前选择的外接矩形框。通过上述方案可以有效地避免文本重合的情况,保证训练数据的准确性。
通过文本语料选择模块,使用场景数据下的文本内容作为语料,具体做法是:首先,获取一定数量的文本内容,例如获取1万篇专利文献的文本内容;然后,随机将获取的文本内容划分为一定字符长度的文本行,字符长度例如选择为10个字符,每个文本行作为一个样本的语料。
通过文字写入模块,从多个颜色中随机选择颜色。作为一种具体实施方式:首先,随机选择文字的颜色(r,g,b),然后使用Pillow图像处理库的ImageDraw工具在对应的位置,使用选择的颜色,将选择的语料写入到选定的外接矩形框中。如此,保证了第二合成标签数据中文字颜色的多样性,提高了模型的鲁棒性。
可以理解的,确定文字属性可以包括上述全部步骤,也可以省略其中的一项或多项。例如,可以不包括从多个颜色中随机选择颜色的步骤,所有文字均采用黑色。当然,与不包括从多个颜色中随机选择颜色的步骤相比,基于确定了颜色属性的第二合成图片而训练得到的文字检测模型对于具有不同颜色文字的待处理图片的识别能力更强。
第二合成图片既包括背景图片中的图形,又包括根据文字属性确定的文字。第二合成图片具体为根据确定的文字属性在背景图片中插入相应的文字而得到的图片。本实施例提供的第二合成图片的合成方法具有生成数据快,同真实场景图片相似度高,以及类型多样等优点。
基于上述合成图片的方法,本申请实施例还提供了一种文字检测模型的训练方法。具体包括:
获取标注数据以及第二合成标签数据,得到包括标注数据以及第二合成标签数据的第二训练集;其中,第二合成标签数据基于上述合成图片的方法而得到;
基于第二训练集对文字检测模型进行训练,得到经过训练的文字检测模型。
作为一种可选的实施方式,第二训练集中第二合成标签数据的数量大于标注数据的数量。可以理解的,采用以第二合成图片为主的第二训练集对文字检测模型进行训练,可以获得检测能力更强、检测结果更准确的文字检测模型。
进一步地,该文字检测模型的训练方法中的步骤可以应用于任一图像处理方法中。
在步骤230中,对包含文字的图像进行文字方向识别,得到包含文字的图像中的文字对应的朝向,该朝向基于经过训练的方向识别模型确定。
本申请实施例进一步提供了一种方向识别模型的训练方法。该方向识别模型的训练方法中的步骤可以应用于任一图像处理方法中。在一具体实施例中,在图像处理方法中的步骤230之前还包括采用方向识别模型的训练方法获得经过训练的方向识别模型的步骤。
接下来,请参见图7,方向识别模型的训练方法包括以下步骤:
步骤710,获得包括多个第一合成标签数据的第一训练集,第一合成标签数据为语料内容的字符长度小于预设阈值且各字符排布于同一行中的第一合成图片对应的数据,并且各第一合成图片经过朝向上的随机旋转;
步骤720,基于第一训练集对方向识别模型进行训练,得到经过训练的方向识别模型。
可以理解的,第一合成图片具有单行、短文字的特点。通过使用第一训练集对方向识别模型进行训练,可以得到更适合识别单行、短文字图片中的文字朝向,进而更适合应用于对专利附图中附图标记的方向识别。考虑到如果从现有数据库中直接获取图片进行标注,那么很多图片中可能没有文字,或者即使挑选了有文字的图片,但可能为字符长度较长、分布于多行的文字,采用这样的图片作为训练集对方向识别模型进行训练,得到的模型对专利附图中附图标记的方向识别效果较差。同样,如果直接采用相关技术中已训练的方向识别模型进行方向识别,也会出现类似的问题。因此,本申请实施例采用合成图片构建训练集,且合成时限制语料内容的字符长度小于预设阈值并且各字符排布于同一行中,从而更贴近专利附图中附图标记的形式,训练得到的方向识别模型可适用于对单行、短文字图片中的文字朝向的识别。
这里,对第一训练集中第一合成标签数据的数量和占比不作具体限定。第一训练集可以全部由第一合成标签数据构成;此外,也不排除第一训练集中包括通过对从现有数据库中直接获取图片进行标注而形成的标注数据的情况。
第一合成图片的合成方法与上述第二合成图片所采用的合成图片的方法的类似,对于实施过程中不冲突的特征可以具体参见上述合成图片的方法中的描述,这里不一一赘述。下面,重点描述二者的主要区别:第一合成图片的合成方法中可以不包括获得候选背景图片的步骤,从而在确定文字属性后,直接基于文字属性生成仅包含文字的图片;生成的第一合成图片的尺寸大小可以等于或略大于第一合成图片中文字的外接矩形框的尺寸大小。可以理解的,与不包括获得候选背景图片的步骤相应的,也可以不包括在从多个位置中随机选择文字的设置位置的步骤。当然,本申请也不排除包括获得候选背景图片的步骤的情况。此外,对于从文本内容中随机选择语料内容的步骤,在随机将获取的文本内容划分为一定字符长度的文本行时,字符长度需要满足能够生成单行、短文本图片的条件;具体地,字符长度小于预设阈值。该预设阈值例如为5,从而语料内容的字符长度在[0-5]的区间内;进一步的,预设阈值例如为4,语料内容的字符长度在[0-4]的区间内。
作为一种具体的实施方式,第一合成图片通过以下步骤得到:从多种字体中随机选择字体;从文本内容中随机选择语料内容,该语料内容的字符长度小于预设阈值;从多个颜色中随机选择颜色;然后生成具有选择的颜色和字体、且选择的语料内容排布于同一行中的文字的图片。
接下来,对各第一合成图片进行朝向上的随机旋转,从而基于旋转后的第一合成图片形成第一训练集。考虑到绝大多数情况下只需要辨别0度、90度、180度、270度这四个方向即可,因而随机旋转的角度可以包括0度、90度、180度、270度。其中,0度为文字自左向右水平显示、90度为文字自下向上垂直显示、180度为文字自右向左水平显示、270度为文字自上向下垂直显示,但本申请并不限于此。
此外,方向识别模型可以使用图像分类网络;具体可以使用深度卷积神经网络EfficientNet-B3。EfficientNet是目前图像分类中最好的网络之一,使用EfficientNet-B3具有参数数量小,运行速度快等优点。
方向识别模型的训练方法还可以包括:在训练时使用RMSProp(Root Mean Squareprop,均方根传递)优化器,并对标签做label-smooth(标签平滑)处理。
在训练时,还可以对训练图片(即第一合成图片)做一种或多种数据增强。例如对第一合成图片进行以下操作中的至少一种:进行随机旋转,旋转角度例如在[-30度,+30度]的区间内;对第一合成图片随机添加多种噪声,例如高斯分布、泊松分布、拉普拉斯噪声、像素扰动等;对第一合成图片的亮度、饱和度和灰度中的至少一种做随机加减,加减范围在[-100,+100]的区间内。
其中,对训练图片做一种或多种数据增强时,如果采用的操作中包括对第一合成图片进行随机旋转,则可以理解的,该操作是在前述对各第一合成图片进行随机旋转之后再次进行随机旋转。为了便于描述,下文中将对各第一合成图片进行的第一次随机旋转称为“第一随机旋转”,将做数据增强时在第一随机旋转的基础上对第一合成图片再次进行的随机旋转称为“第二随机旋转”。第二随机旋转的角度的最大值的绝对值小于第一随机旋转的两相邻可选角度的差值的一半。例如,第一随机旋转的角度可以包括0度、90度、180度、270度,那么,第一随机旋转的两相邻可选角度的差值为90度;而第二随机旋转的角度的最大值的绝对值小于90度的一半,即小于45度。在实际应用中,例如将第二随机旋转的角度设置为在[-30度,+30度]的区间内。如此,通过第一随机旋转,使得各第一合成图片分别具有0度、90度、180度、270度的朝向,这里可以理解为获得了具有上下左右不同朝向的第一合成图片;然而,实际的待处理图片不仅可能由于诸如排版等原因而在朝向上经过调整,而且很可能由于调整的误差等问题导致在调整后并非严格的朝向所欲调整的方向,比如,待处理图片的朝向是向下的,但其角度不是180度,而是185度。为了对这种朝向上有偏差的待处理图片中的文字方向也能够进行准确识别,可以通过对训练图片进行数据增强,使得各第一合成图片在第一随机旋转的基础上再进行小幅度的第二随机旋转(在绝对值小于第一随机旋转的两相邻可选角度的差值的一半的范围内进行随机旋转,则旋转后的朝向仍然靠近第一随机旋转后的朝向,标签不改变),如在进行180度旋转的基础上再进行[-30度,+30度]区间内的随机旋转,获得旋转了150度至210度的第一合成图片,类似地,还可以获得旋转了-30度至+30度、60度至120度、240度至300度的第一合成图片,从而共同构成第一训练集;再采用该第一训练集对方向识别模型进行训练,可以获得能够对朝向上有偏差的待处理图片中的文字方向进行准确识别的方向识别模型。
在步骤240中,进行文本识别基于经过训练的文本识别模型执行;根据包含文字的图像和对应的朝向,进行文本识别之前,方法还包括:
基于第三训练集对方向识别模型进行训练,得到经过训练的方向识别模型,第三训练集包括与第三图片对应的数据,第三图片包括文字和位于文字周围的指引线。
可以理解的,由于专利附图中,在附图标记附近一般存在指引线,当指引线离附图标记太近时,文字检测所得到的包含文字的图像可能会包括部分指引线框,这将为文本识别模型的识别过程引入噪声,这种噪声的出现会影响文本识别的准确性。本实施例通过代码在文字周围生成指引线噪声训练数据,模拟专利附图场景,大大提高文字识别的准确率。
可选地,使用基于Resnet-50(残差网络中的一种典型的网络)的主干网络、CRNN(Convolutional Recurrent Neural Network,卷积递归神经网络)文字识别算法进行文本识别。
在一可选实施例中,在步骤210之前,还可以包括以下步骤:确定图片是否为待处理图片;其中,若判断图片为包含附图标记的电路图、轮廓图或结构图,则将图片确定为待处理图片。
可以理解的,为了进行图文匹配,需要以附图标记作为链接节点。那么如果待处理图片中不存在附图标记,则无法将待处理图片的文本识别结果和文本中的命名实体识别结果进行匹配。相关技术往往没有对图片是否可以做或者需要做图文匹配进行判断,而是将所有图片均作为待处理图片,对其进行文本识别,并基于文本识别结果对其进行图文匹配,这比如会引入不必要的计算,并且可能产生错误的匹配结果。本实施例在对图片进行文本识别之前,先对图片进行分类,判断该图片是否需要做图文匹配,如果需要,才将该图片确定为待处理图片进而执行后续步骤,如此,避免了不必要的计算,并且避免部分错误的匹配。
确定图片是否为待处理图片具体可以采用图片分类模型实现。针对不是待处理图片的图片,可以无需执行获得文本识别结果等相关步骤。在具体应用中,可以根据图片内容对图片进行类别划分,具体例如划分为两类,其中一类为包含附图标记的电路图、轮廓图或结构图;另一类为除此之外的其他图片。
图片分类模型例如以EfficientNet-B3为基础模型;并且可以去掉原有网络头部模块,添加两个全连接层。
在网络训练阶段,训练时可以使用RMSProp优化器,对预训练参数进行微调。并且,还可以对标签做label-smooth处理。
本申请实施例还提供一种图片处理方法,请参见图8,其具体涉及生成待展示图片的方法。如图所示,上述方法包括如下步骤:
步骤820,对待处理图片进行文本识别,获得文本识别结果。
这里,步骤820可以包括上述步骤210至步骤240。不仅如此,步骤820具体可以包括上述实施例提供的步骤中的至少之一。
可选的,在步骤820之前,上述图片处理方法还可以包括:步骤810,获取待处理图片,待处理图片中包括图形和文字。步骤810可以参见上述实施例中描述的确定图片是否为待处理图片的步骤,这里不再赘述。
接下来,执行步骤830,获取与待处理图片对应的文本,识别该文本中包含的命名实体以及附图标记,命名实体与附图标记之间存在第一对应关系。
例如,在与待处理图片对应的文本中,识别到的命名实体包括:“衬底”、“介质层”、“半导体材料层”等;并且识别到的附图标记包括:“301”、“302”、“303”等。其中,第一对应关系包括:命名实体“衬底”与附图标记“301”对应;类似地,“介质层”与“302”对应;“半导体材料层”与“303”对应。
可选的,步骤830还可以包括识别出该文本中包含的与命名实体相关的文字描述。例如,针对命名实体“衬底”,在文本中识别出其相关的文字描述包括“材料为硅”。此外,步骤830还可以包括识别出该文本中包含的命名实体所在的位置信息。例如,针对命名实体“衬底”,在文本中识别出其位置信息为第20-23字符、第71-74字符、第100-103字符……。这里,可以识别出命名实体在该文本中的具体位置;不仅如此,对于同一命名实体在该文本中多次出现的情况,还可以识别出该命名实体在该文本中的各个位置。
接下来,执行步骤840,将文本识别结果与附图标记进行匹配,根据匹配结果以及第一对应关系,获得文本识别结果与命名实体之间的第二对应关系。
仍以图3所示的待处理图片为例,文本识别结果包括:“301”、“302”、“303”。将文本识别结果中的“301”、“302”和“303”与附图标记中的“301”、“302”和“303”进行匹配,根据匹配结果以及第一对应关系,可以获得文本识别结果与命名实体“衬底”、“介质层”和“半导体材料层”之间的第二对应关系。其中,第二对应关系包括:命名实体“衬底”与文本识别结果“301”对应;类似地,“介质层”与“302”对应;“半导体材料层”与“303”对应。
在步骤830还包括识别文本中包含的与命名实体相关的文字描述和/识别文本中包含的命名实体所在的位置信息的实施方式中,步骤840还包括:获得文本识别结果与命名实体相关的文字描述和/或其位置信息之间的对应关系。
接下来,执行步骤850,根据第二对应关系以及待处理图片,生成第一待展示图片,第一待展示图片相较于待处理图片至少还展示有命名实体以作为文本识别结果的标注。
请参考图9,第一展示图片400在待处理图片300的基础上,还展示有命名实体“衬底”、“介质层”和“半导体材料层”以作为文本识别结果的标注。
第一待展示图片相较于待处理图片可以仅展示命名实体;此时,命名实体可以展示在存在第二对应关系的文本识别结果的旁边,例如在待处理图片中“301”的旁边展示“衬底”。作为一种可选的实施方式,第一展示图片400还可以展示与命名实体相关的文字描述和/或其位置信息;此外,还可以展示与命名实体存在第一对应关系的附图标记。具体地,第一待展示图片相较于待处理图片至少还展示以下内容中的一项或多项:与命名实体对应的附图标记、与命名实体相关的文字描述、命名实体的位置信息。例如,展示“与命名实体对应的附图标记+命名实体”、展示“与命名实体对应的附图标记+命名实体+与命名实体相关的文字描述”、展示“与命名实体对应的附图标记+命名实体+与命名实体相关的文字描述+命名实体的位置信息”等,这里不一一列举。
针对命名实体的位置信息,可以通过在第一待展示图片上设置链接的方式进行展示。例如,当鼠标滑过或点击第一待展示图片上的命名实体所在的位置(当然,也可以为与命名实体存在对应关系的其他内容所在的位置)时,页面跳转至文本中出现该命名实体的位置;对应于同一命名实体在该文本中多次出现的情况,可以按照预设规则(如,按照该命名实体在文本中从前至后的出现顺序)依次跳转至该命名实体出现的各个位置。又如,当鼠标滑过或点击第一待展示图片上的命名实体所在的位置(同样可以为与命名实体存在对应关系的其他内容所在的位置)时,在文本中,该命名实体在出现的各位置处呈现高亮显示。
此外,还可以在第一待展示图片上展示表征该命名实体的位置信息的文字描述。例如,对于命名实体“衬底”,展示其位置为“第21段”。对于该命名实体在文本中多次出现的情况,可以按照预设规则选择一处或多处位置信息进行展示;如,展示既出现命名实体又出现相关的文字描述的段落。
类似地,针对命名实体“介质层”,识别出其相关的文字描述包括“材料为二氧化硅”、其位置信息为“第22段”;针对命名实体“半导体材料层”,识别出其相关的文字描述包括“或称‘顶硅层’”,进而将命名实体“半导体材料层”与命名实体“顶硅层”相关联,二者共同与附图标记“302”对应,进一步识别出其相关的文字描述包括“材料为硅”、其位置信息为“第23段”。
本申请实施例还提供了一种图片处理方法,请参见图10,其具体涉及对图片进行展示。如图所示,上述方法包括如下步骤:
步骤1010,接收请求消息;
其中,请求消息中包含与待处理图片对应的信息。
请求消息可以基于终端设备20而发送至服务器10。请求消息用于指示在页面中展示图片。
在具体应用中,与待处理图片对应的信息可以为专利信息和图片信息。服务器10从请求消息中解析出专利信息和图片信息。
步骤1020,根据请求消息在数据库中查询是否存在与待处理图片对应的第一数据;
其中,第一数据为经过人工修订后储存的数据。
步骤1030,如果存在第一数据,则将根据第一数据生成的图片作为第二待展示图片进行展示。
可以理解的,虽然可以通过人工智能的方式,借助神经网络模型自动生成所需的待展示图片,但是自动生成的结果难以避免地会存在一些不准确的情况。尤其以专利文献为例,专利附图中的附图标记可能由大小写英文字符、阿拉伯数字和标点符号组成,不同年份和不同国家的专利文献在图片质量和文档格式上都有很大的不同,这些都会增大文字检测和文本识别的难度,模型输出的结果可能会出现一些错误。为了提高用户的使用体验,本实施例提出了对算法模型生成的结果进行适当的人为修正的功能。这里,将经过人工修订的数据称为第一数据;将第一数据保存在数据库中。如此,在服务器接收到请求消息后,率先查询数据库中是否存储有第一数据,如果有,则直接返回该结果,从而在终端设备上进行图片展示;如果没有,再进行剩余的操作。
请参见图11,上述第一数据可以通过以下步骤生成:
步骤1110,接收针对第一待展示图片的反馈消息,反馈消息表征第一待展示图片中存在错误;
步骤1120,接收用于修正错误的修订信息;
步骤1130,生成包含修订信息的第一数据。
这里,第一待展示图片可以采用本申请实施例提供的图片处理方法生成;人工修订可以在发现基于图片处理方法自动生成的第一待展示图片有误之后再进行,并且在人为对第一待展示图片进行修正后将修订信息发送给服务器;服务器根据接收到的修订信息生成包含修订信息的第一数据,并将其存储在数据库中。如此,既为用户提供了正确的展示结果,又降低了人工操作的频次。
接下来,执行步骤1040,如果不存在第一数据,则根据请求消息在数据库中查询是否存在第二数据,第二数据为与待处理图片对应的第一待展示图片相关的数据或者与待处理图片对应的第二对应关系相关的数据;如果存在第二数据,则执行步骤1160——展示第一待展示图片。
这里,第二数据可以基于本申请实施例提供的图片处理方法而获得;可以理解的,基于本申请实施例提供的图片处理方法可以得到第一待展示图片,也可以得到与待处理图片对应的第二对应关系,那么,可以直接将生成的第一待展示图片存储在数据库中,也可以将第二对应关系存储在数据库中,本实施例不对此进行限制。如此,即使不存在人工修订后储存的第一数据,也可以查找是否存在已经基于算法模型而生成的第二数据。如果存在,直接根据第二数据展示第一待展示图片即可,无需再次生成展示图片,从而避免了重复计算,节省了展示图片所需的时间。
接下来,执行步骤1150,如果不存在第二数据,则生成第一待展示图片。
这里,生成第一待展示图片的步骤可以采用本申请实施例提供的图片处理方法中的步骤。具体包括执行获取与待处理图片对应的文本的步骤,直至生成第一待展示图片。接下来,执行步骤1160;展示第一待展示图片。
具体示例:
图12示出了一具体示例中图片展示方法的流程图;如图所示,首先,后台发送Post(传送)请求;当服务端接收到前端的Post请求后,会进行以下操作流程:
Step 1,请求参数解析;从Post请求中解析出专利信息和图片信息,为后续步骤提供输入。
Step 2:确定是否有专家修订的结果;该步骤可以采用专家修订结果读取模块实现。这里的专家修订的结果具体与上述第一数据相对应。根据Step 1中的专利信息和图片信息执行数据库查询操作,如果数据库中存在专家修订的结果,则将其返回给前端,如果不存在专家修订的结果,则执行Step 3。
Step 3:确定是否有模型的结果;该步骤可以采用模型预测结果读取模块实现。根据Step 1中的专利信息和图片信息执行数据库查询操作,如果数据库中存在模型结果,则将其返回给前端,如果不存在模型执行结果,则执行Step 4。
Step 4:在线计算;该步骤可以采用在线计算模块实现。具体地,根据Step 1中的专利信息和图片信息执行在线计算,使用OCR(Optical Character Recognition,光学字符识别)和NLP(Natural Language Processing,自然语言处理)技术计算结果,将结果存入数据库并返回给前端。
其中,在先计算的具体流程可参考图13;如图所示,当服务端接收到前端的Post请求后,会进行以下操作流程:基于Post请求数据,一方面读取附图图片,计算OCR结果,具体使用文字识别算法将附图图片中子模块的序号识别出来;另一方面读取专利文本,计算NLP结果,具体使用命名实体识别算法找到潜在的子模块名称及其序号,同时获得其在专利文本中的位置和子模块名称的文本描述;然后,匹配OCR结果和NLP结果,具体匹配文本中子模块的序号和附图图片中子模块的序号;接下来,返回结果,具体可以将匹配到的子模块名称及其描述展示在子模块在附图中位置的附近。
进一步地,在读取附图图片和读取专利文本的步骤之前,还可以包括使用图像分类模型对附图图片类别进行分类,筛选只需要做图文匹配的图片。
进一步地,在返回结果之后,还可以包括将上述匹配文本中子模块的序号和附图图片中子模块的序号的结果存入数据库中,以使用户后续浏览该文档时,可以直接从数据库中读取结果并进行展示,即执行Step 3。
进一步地,在返回结果之后,还可以包括:若接收到用户反馈展示结果有误的信息,则发出需要领域专家介入的消息,以使领域专家可以做出用于修正所述错误的专家修订的结果;接收专家修订的结果,并基于该结果对数据库中保存的结果进行矫正。进而在用户后续浏览该文档时,优先从数据库中读取专家修订的结果并进行展示,即执行Step 2。其中,由领域专家进行修正可以尽可能的保证修正结果的准确性,这主要是考虑到领域专家对文件的理解和解读能力较强;但应当理解,本具体示例并不限于此,在接收到用户反馈展示结果有误后,进行人工修正即可。
容易理解的,本具体示例的主要目的是在筛选需要做图文匹配的专利附图后,识别专利附图中实体部件的位置和序号,同时识别专利文本中物体部件的名称、序号、其在文本中的位置和描述部件的语句,然后根据部件的序号将图片中的部件序号和文本中的部件序号进行匹配。将匹配后的部件的文本名称展示在部件在图片中位置附近,并将匹配的结果存入数据库中,供后续的浏览使用,同时支持领域专家对匹配的结果过进行修改并优先展示专家修改后的结果。本发明可以在用户浏览专利附图图片时自动展示图片内容中各个部件的名称,并支持图片部件到文本部件的跳转,减少阅读成本,提高研发效率。
需要说明的是,虽然本申请各流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述各流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
本申请实施例还提供了一种图片处理装置,请参考图14,该图片处理装置1400包括:
获取模块1401,配置为获取待处理图片,待处理图片中包括图形和文字;
文字检测模块1402,配置为对待处理图片进行文字检测,得到包含文字的图像;
文字方向识别模块1403,配置为对包含文字的图像进行文字方向识别,得到包含文字的图像中的文字对应的朝向;
文本识别模块1404,配置为根据对应的朝向对包含文字的图像进行文本识别,获得包含文本字符串的文本识别结果,文本字符串与包含文字的图像中的文字相对应。
在一可选实施例中,该图片处理装置1400还包括文字方向识别模块的训练模块。该文字方向识别模块的训练模块配置为获得包括多个第一合成标签数据的第一训练集,第一合成标签数据为语料内容的字符长度小于预设阈值且各字符排布于同一行中的第一合成图片对应的数据,并且各第一合成图片经过朝向上的随机旋转;基于第一训练集对方向识别模型进行训练,得到经过训练的方向识别模型。
在一可选实施例中,文字检测模块1402,具体配置为基于经过训练的文字检测模型对待处理图片进行文字检测,得到文字在待处理图片中的位置,其中,经过训练的文字检测模型基于第二训练集进行训练而得到,第二训练集包括标注数据以及第二合成标签数据;根据待处理图片和位置,得到包含文字的图像。
在一可选实施例中,该图片处理装置1400还包括文字检测模块的训练模块。该文字检测模块的训练模块配置为获得候选背景图片,对候选背景图片进行文字检测,将图片中没有文字的候选背景图片确定为背景图片;确定文字属性,文字属性包括以下至少一种:字体、文字的设置位置、语料内容、颜色;基于背景图片和文字属性,生成第二合成图片;根据第二合成图片对应的数据确定第二合成标签数据。
该文字检测模块的训练模块还可以配置为基于第二合成标签数据和标注数据确定第二训练集;基于第二训练集对文字检测模型进行训练,得到经过训练的文字检测模型。
在一可选实施例中,该图片处理装置1400还包括文本识别模块的训练模块。该文本识别模块的训练模块配置为对文本识别模型进行训练,得到经过训练的文本识别模型。该文本识别模块的训练模块具体配置为基于第三训练集对方向识别模型进行训练,得到经过训练的方向识别模型,第三训练集包括与第三图片对应的数据,第三图片包括文字和位于文字周围的指引线。
在一可选实施例中,该图片处理装置1400还包括待处理图片确定模块。该待处理图片确定模块配置为在获取待处理图片之前,确定图片是否为待处理图片;其中,若判断图片为包含附图标记的电路图、轮廓图或结构图,则将图片确定为待处理图片。
在一可选实施例中,该图片处理装置1400还包括:
文本获取模块,配置为获取与待处理图片对应的文本,识别文本中包含的命名实体以及附图标记,命名实体与附图标记之间存在第一对应关系;
匹配模块,配置为将文本识别结果与附图标记进行匹配,根据匹配结果以及第一对应关系,获得文本识别结果与命名实体之间的第二对应关系;
第一待展示图片生成模块,配置为根据第二对应关系以及待处理图片,生成第一待展示图片,第一待展示图片相较于待处理图片至少还展示有命名实体以作为文本识别结果的标注。
在一可选实施例中,该图片处理装置1400还包括:
请求消息接受模块,配置为接收请求消息,请求消息中包含与待处理图片对应的信息;
查询模块,配置为根据请求消息在数据库中查询是否存在与待处理图片对应的第一数据,第一数据为经过人工修订后储存的数据;
展示模块,配置为在存在第一数据的情况下,将根据第一数据生成的图片作为第二待展示图片进行展示;
查询模块,还配置为在不存在第一数据的情况下,根据请求消息在数据库中查询是否存在第二数据,第二数据为与待处理图片对应的第一待展示图片相关的数据或者与待处理图片对应的第二对应关系相关的数据;
展示模块,还配置为在存在第二数据的情况下,展示第一待展示图片;
第一待展示图片生成模块,还配置为在不存在第二数据的情况下,执行获取与待处理图片对应的文本的步骤,直至生成第一待展示图片;
展示模块,还配置为基于第一待展示图片生成模块生成的第一待展示图片,展示第一待展示图片。
在一可选实施例中,该图片处理装置1400还包括:第一数据生成模块,配置为接收针对第一待展示图片的反馈消息,反馈消息表征第一待展示图片中存在错误;接收用于修正错误的修订信息;生成包含修订信息的第一数据。
本申请实施例还提供了一种计算机可读存储介质。该计算机可读存储介质存储有指令,当该指令由电子设备的处理器执行时,使得电子设备能够执行如上述任一实施例的图片处理方法中的步骤。
本申请实施例可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本申请的各个方面的计算机可读程序指令。计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本申请的各个方面。
计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。计算机可读存储介质是可以保持和存储由指令执行设备使用的指令的有形设备。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
这里参照根据本申请实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
本申请实施例还提供了一种电子设备。图15所示为本申请一实施例提供的电子设备的结构示意图。如图所示,该电子设备1500包括:一个或多个处理器1501和存储器1502;存储器1502中存储有存储计算机可执行指令;处理器1501,用于执行计算机可执行指令,以实现如上述任一实施例的图片处理方法中的步骤。
处理器1501可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
存储器1502可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器1501可以运行程序指令,以实现上文的本申请的各个实施例的文本识别方法中的步骤以及/或者其他期望的功能。
在一个示例中,电子设备1500还可以包括:输入装置和输出装置,这些组件通过总线系统和/或其他形式的连接机构(图中未示出)互连。
此外,输入装置还可以包括例如键盘、鼠标、麦克风等等。输出装置可以向外部输出各种信息,例如可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图15中仅示出了该电子设备1500中与本申请有关的组件中的一部分,省略了诸如总线、输入装置/输出接口等组件。除此之外,根据具体应用情况,电子设备1500还可以包括任何其他适当的组件。
需要说明的是,本申请实施例提供的图片处理方法实施例、图片处理装置实施例、计算机可读存储介质实施例和电子设备实施例属于同一构思;各实施例所记载的技术方案中各技术特征之间,在不冲突的情况下,可以任意组合。
应当理解,以上实施例均为示例性的,不用于包含权利要求所包含的所有可能的实施方式。在不脱离本公开的范围的情况下,还可以在以上实施例的基础上做出各种变形和改变。同样的,也可以对以上实施例的各个技术特征进行任意组合,以形成可能没有被明确描述的本发明的另外的实施例。因此,上述实施例仅表达了本发明的几种实施方式,不对本发明专利的保护范围进行限制。

Claims (12)

1.一种图片处理方法,其特征在于,所述方法包括:
获取待处理图片,所述待处理图片中包括图形和文字;
对所述待处理图片进行文字检测,得到包含文字的图像;
对所述包含文字的图像进行文字方向识别,得到所述包含文字的图像中的文字对应的朝向;
根据对应的所述朝向对所述包含文字的图像进行文本识别,获得包含文本字符串的文本识别结果,所述文本字符串与所述包含文字的图像中的文字相对应。
2.根据权利要求1所述的图片处理方法,其特征在于,所述进行文字方向识别基于经过训练的方向识别模型执行;所述经过训练的方向识别模型的训练过程包括:
获得包括多个第一合成标签数据的第一训练集,所述第一合成标签数据为语料内容的字符长度小于预设阈值且各字符排布于同一行中的第一合成图片对应的数据,并且各所述第一合成图片经过朝向上的随机旋转;
基于所述第一训练集对方向识别模型进行训练,得到所述经过训练的方向识别模型。
3.根据权利要求1或2所述的图片处理方法,其特征在于,所述对所述待处理图片进行文字检测,得到包含文字的图像,包括:
基于经过训练的文字检测模型对所述待处理图片进行文字检测,得到文字在所述待处理图片中的位置,其中,所述经过训练的文字检测模型基于第二训练集进行训练而得到,所述第二训练集包括标注数据以及第二合成标签数据;
根据所述待处理图片和所述位置,得到所述包含文字的图像。
4.根据权利要求3所述的图片处理方法,其特征在于,所述第二合成标签数据为第二合成图片对应的数据,所述第二合成图片通过以下步骤得到:
获得候选背景图片,对所述候选背景图片进行文字检测,将候选背景图片中没有文字的图片确定为背景图片;
选择文字属性,所述文字属性包括以下至少一种:字体、文字的设置位置、语料内容、颜色;
基于所述背景图片和所述文字属性,生成第二合成图片。
5.根据权利要求1或4所述的图片处理方法,其特征在于,所述进行文本识别基于经过训练的文本识别模型执行;所述经过训练的文本识别模型的训练过程包括:
基于第三训练集对文本识别模型进行训练,得到所述经过训练的文本识别模型,所述第三训练集包括与第三图片对应的数据,所述第三图片包括文字和位于所述文字周围的指引线。
6.根据权利要求1所述的图片处理方法,其特征在于,所述获取待处理图片之前,所述方法还包括:
根据预设规则确定获取的图片是否为待处理图片;所述预设规则为若判断所述图片为包含附图标记的电路图、轮廓图或结构图,则将所述图片确定为待处理图片。
7.根据权利要求1或6所述的图片处理方法,其特征在于,所述方法还包括:
获取与所述待处理图片对应的文本,识别所述文本中包含的命名实体以及附图标记,所述命名实体与所述附图标记之间存在第一对应关系;
将所述文本识别结果与所述附图标记进行匹配,根据匹配结果以及所述第一对应关系,获得文本识别结果与命名实体之间的第二对应关系;
根据所述第二对应关系以及所述待处理图片,生成第一待展示图片,所述第一待展示图片相较于所述待处理图片至少还展示有命名实体以作为所述文本识别结果的标注。
8.根据权利要求7所述的图片处理方法,其特征在于,所述方法还包括:
接收请求消息,所述请求消息中包含与所述待处理图片对应的信息;
根据所述请求消息在数据库中查询是否存在与所述待处理图片对应的第一数据,所述第一数据为经过人工修订后储存的数据;
如果存在所述第一数据,则将根据所述第一数据生成的图片作为第二待展示图片进行展示;
如果不存在所述第一数据,则根据所述请求消息在数据库中查询是否存在第二数据,所述第二数据为与所述待处理图片对应的第一待展示图片相关的数据或者与所述待处理图片对应的所述第二对应关系相关的数据;
如果存在所述第二数据,则展示所述第一待展示图片;
如果不存在所述第二数据,则执行所述获取与所述待处理图片对应的文本的步骤,直至生成第一待展示图片,展示所述第一待展示图片。
9.根据权利要求8所述的图片处理方法,其特征在于,所述第一数据通过以下步骤生成:
接收针对所述第一待展示图片的反馈消息,所述反馈消息表征所述第一待展示图片中存在错误;
接收用于修正所述错误的修订信息;
生成包含所述修订信息的所述第一数据。
10.一种图片处理装置,其特征在于,包括:
获取模块,配置为获取待处理图片,所述待处理图片中包括图形和文字;
文字检测模块,配置为对所述待处理图片进行文字检测,得到包含文字的图像;
文字方向识别模块,配置为对所述包含文字的图像进行文字方向识别,得到所述包含文字的图像中的文字对应的朝向;
文本识别模块,配置为根据对应的所述朝向对所述包含文字的图像进行文本识别,获得包含文本字符串的文本识别结果,所述文本字符串与所述包含文字的图像中的文字相对应。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有指令,当所述指令由电子设备的处理器执行时,使得所述电子设备能够执行上述权利要求1至9中任意一项所述的图片处理方法。
12.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储计算机可执行指令的存储器;
所述处理器,用于执行所述计算机可执行指令,以实现上述权利要求1至9中任意一项所述的图片处理方法。
CN202210112690.4A 2022-01-29 2022-01-29 图片处理方法及装置、计算机可读存储介质和电子设备 Pending CN114461835A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210112690.4A CN114461835A (zh) 2022-01-29 2022-01-29 图片处理方法及装置、计算机可读存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210112690.4A CN114461835A (zh) 2022-01-29 2022-01-29 图片处理方法及装置、计算机可读存储介质和电子设备

Publications (1)

Publication Number Publication Date
CN114461835A true CN114461835A (zh) 2022-05-10

Family

ID=81411484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210112690.4A Pending CN114461835A (zh) 2022-01-29 2022-01-29 图片处理方法及装置、计算机可读存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN114461835A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114898375A (zh) * 2022-05-20 2022-08-12 深信服科技股份有限公司 字符检测模型训练方法及组件,文本识别方法及组件

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114898375A (zh) * 2022-05-20 2022-08-12 深信服科技股份有限公司 字符检测模型训练方法及组件,文本识别方法及组件

Similar Documents

Publication Publication Date Title
US10915788B2 (en) Optical character recognition using end-to-end deep learning
US10846553B2 (en) Recognizing typewritten and handwritten characters using end-to-end deep learning
JP6596511B2 (ja) デジタルグラフィックノベルの自動翻訳
CN108229303B (zh) 检测识别和检测识别网络的训练方法及装置、设备、介质
CN111046784A (zh) 文档版面分析识别方法、装置、电子设备和存储介质
CN111368562B (zh) 翻译图片中的文字的方法、装置、电子设备、及存储介质
CN110765996A (zh) 文本信息处理方法及装置
CN111507330B (zh) 习题识别方法、装置、电子设备及存储介质
CN110942074A (zh) 字符切分识别方法、装置、电子设备、存储介质
US9286526B1 (en) Cohort-based learning from user edits
JP7170773B2 (ja) 構造化文書情報の標識方法、構造化文書情報の標識装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
CN112712121B (zh) 一种图像识别模型训练方法、装置及存储介质
CN111832551A (zh) 文本图像处理方法、装置、电子扫描设备和存储介质
CN114461835A (zh) 图片处理方法及装置、计算机可读存储介质和电子设备
CN115130437B (zh) 一种文档智能填写方法、装置及存储介质
CN116704508A (zh) 信息处理方法及装置
US11687700B1 (en) Generating a structure of a PDF-document
CN116052195A (zh) 文档解析方法、装置、终端设备和计算机可读存储介质
CN115546815A (zh) 一种表格识别方法、装置、设备及存储介质
CN114663886A (zh) 文本识别方法、模型的训练方法及装置
CN111046096B (zh) 用于生成图文结构化信息的方法和装置
CN114067328A (zh) 识别文本的方法、装置和电子设备
CN112307869A (zh) 语音点读方法、装置、设备和介质
CN113537097B (zh) 针对图像的信息提取方法、装置、介质及电子设备
US20240153295A1 (en) Methods and Systems for Testing an Optical Character Recognition Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination