CN115188006A - 从图像中提取文本的方法、装置、存储介质及电子设备 - Google Patents

从图像中提取文本的方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN115188006A
CN115188006A CN202210692363.0A CN202210692363A CN115188006A CN 115188006 A CN115188006 A CN 115188006A CN 202210692363 A CN202210692363 A CN 202210692363A CN 115188006 A CN115188006 A CN 115188006A
Authority
CN
China
Prior art keywords
text
image
extracting
content
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210692363.0A
Other languages
English (en)
Inventor
柳阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Bank Co Ltd
Original Assignee
Ping An Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Bank Co Ltd filed Critical Ping An Bank Co Ltd
Priority to CN202210692363.0A priority Critical patent/CN115188006A/zh
Publication of CN115188006A publication Critical patent/CN115188006A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19107Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)

Abstract

本申请公开了一种从图像中提取文本的方法、装置、存储介质及电子设备,包括:根据像素值和像素位置对待处理图像中的像素点进行聚类处理,得到多个聚类中心;根据多个聚类中心的位置分布,确定多个聚类中心中相邻两个聚类中心之间的距离;若距离小于预设距离阈值,则对相邻两个聚类中心进行合并处理,以将待处理图像划分为多个候选区域,并从多个候选区域中确定出文本区域;提取文本区域中的像素点,得到文本区域的文本内容。通过提取文本区域的像素点得到文本内容,能够实现从各类图像中提取文本内容,提高了对图像进行文本识别的有效性。

Description

从图像中提取文本的方法、装置、存储介质及电子设备
技术领域
本申请涉及文本识别技术领域,具体涉及一种从图像中提取文本的方法、装置、存储介质及电子设备。
背景技术
银行业务中也包括网上商城,网上商城的各类产品均以宣传海报进行展示,一般而言,银行人员可根据供应商提供的宣传海报中的文本内容得到对产品的介绍信息,由于宣传海报为突显其个性化特色,其中的图文排版以及文本内容一般会进行个性化设计,此种情况下无法通过文本识别工具识别宣传海报中的文本内容,只能通过银行人员人工读取的方式获知宣传海报中的文本内容,在网上商城上线的产品数量繁多时,现存的文本识别方式显然存在较大局限。
发明内容
本申请实施例提供一种从图像中提取文本的方法、装置、存储介质及电子设备,能够提高对图像进行文本识别的有效性。
第一方面,本申请实施例提供一种从图像中提取文本的方法,方法包括:
根据像素值和像素位置对待处理图像中的像素点进行聚类处理,得到多个聚类中心;
根据所述多个聚类中心的位置分布,确定所述多个聚类中心中相邻两个聚类中心之间的距离;
若所述距离小于预设距离阈值,则对所述相邻两个聚类中心进行合并处理,以将所述待处理图像划分为多个候选区域,并从所述多个候选区域中确定出文本区域;
提取文本区域中的像素点,得到文本区域的文本内容。
第二方面,本申请实施例还提供一种从图像中提取文本的装置,包括:
聚类处理模块,用于根据像素值和像素位置对待处理图像中的像素点进行聚类处理,得到多个聚类中心;
文本区域识别模块,用于根据所述多个聚类中心的位置分布,确定所述多个聚类中心中相邻两个聚类中心之间的距离;若所述距离小于预设距离阈值,则对所述相邻两个聚类中心进行合并处理,以将所述待处理图像划分为多个候选区域,并从所述多个候选区域中确定出文本区域;
文本提取模块,用于提取所述文本区域中的像素点,得到所述文本区域的文本内容。
第三方面,本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,当计算机程序在计算机上运行时,使得计算机执行如本申请任一实施例提供的从图像中提取文本的方法。
第四方面,本申请实施例还提供一种电子设备,包括处理器和存储器,存储器有计算机程序,处理器通过调用计算机程序,用于执行如本申请任一实施例提供的从图像中提取文本的方法。
本申请实施例提供的技术方案,通过根据像素值和像素位置对待处理图像中的像素点进行聚类处理,得到多个聚类中心,以便于对待处理图像进行区域分割,之后根据多个聚类中心的位置分布,从待处理图像中确定出文本区域,从而识别出待处理图像中处于不同位置的文本区域,最后提取每一文本区域中的像素点,以根据提取出的像素点构建文本区域的文本内容,以此克服了文本识别工具不能准确识别文本内容的弊端,且此种方式并不受限于图像的类型,能够应用于各类图像中,提高了对图像进行文本识别的有效性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的从图像中提取文本的方法的流程示意图。
图2为本申请实施例提供的从图像中提取文本的方法中宣传海报的示意图。
图3为本申请实施例提供的从图像中提取文本的方法中候选区域的示意图。
图4为本申请实施例提供的从图像中提取文本的方法中笔画与第一笔画轮廓的对比示意图。
图5为本申请实施例提供的从图像中提取文本的装置的结构示意图。
图6为本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本申请的保护范围。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
银行业务涉猎广泛,比如,银行具有的线上业务包括上架的各类产品,该各类产品可在银行网页上展示,也可在银行应用程序中展示,以供用户购买。其中,各类产品可涵盖电影、美食、服饰、百货、电子产品等各种类别,且各供应商也可通过银行的线上业务上架其产品。
各供应商上架产品时一方面会提供产品介绍,另一方面会提供产品宣传海报或图片,一般情况下,宣传海报会以图文结合的方式对产品提供形象的介绍。银行人员接收到供应商提供的宣传海报时,可通过人工阅览的方式对宣传海报的内容进行审核,或者通过了解宣传海报的图文内容,以从中提取关键词句,进行形成对该产品的产品介绍。由于人工提取宣传海报文本内容的方式需要耗费较大的人力成本,且当需要处理的宣传海报数量庞杂时,此种方式显然不能满足需求。
因此,一般情况下会使用文本识别工具识别宣传海报上的图文内容,以从中识别出文本内容。其中,文本识别工具,也即OCR(Optical Character Recognition,光学字符识别)是指电子设备通过扫描或拍摄检测图像中的字符,通过检测暗、亮的模式确定其形状,然后将形状翻译成计算机文字的过程。
但使用文本识别工具时,对于具有如下此类的宣传海报的文本内容则无法识别,或者无法全部识别。
第一种,宣传海报上的文字为渐变色填充的,或者一个文字用多个颜色分区域填充的;
第二种,宣传海报上的文字为变形文字,即艺术字体;
第三种,宣传海报上的文本排版是不规整的;
第四种,宣传海报上的文本分布不规则,且文字大小、文字字体不同。
可以理解地,此处提供的四种形式的文本内容是可通过至少一种的组合方式出现在同一张宣传海报上的,且此处的四种形式也仅限于举例,还有更多种文本内容的形式也是文本识别工具无法处理的,由于种类繁多,此处并不进行限定。而本申请实施例提供的方案是可以解决各类宣传海报中的文本内容无法识别的问题的,且应用范围广泛。但需说明的是,本申请实施例提供的方案也并不局限于图像为宣传海报的形式,为更好地理解本申请的方案,以下则以宣传海报为例对本申请实施例提供的方案进行详细的介绍。
如下,本申请实施例提供了一种从图像中提取文本的方法,该从图像中提取文本的方法的执行主体可以是本申请实施例提供的从图像中提取文本的装置,或者集成了该从图像中提取文本的装置的电子设备。其中,该从图像中提取文本的装置可以采用硬件或者软件的方式实现,电子设备可以是智能手机、平板电脑、台式电脑、扫描仪、阅读器、学习机等设备。在通过电子设备使用本申请实施例提供的从图像中提取文本的方法时,电子设备可通过加载应程序扫描宣传海报,或者通过应用程序对宣传海报进行拍摄后再扫描拍摄得到的图像,以此提取宣传海报中的文本内容。其中,应用程序如微信、淘宝、相机、浏览器等均可启用扫描功能,也均可结合本申请实施例提供的从图像中提取文本的方法对宣传海报进行文本内容的提取。
请参阅图1,图1为本申请实施例提供的从图像中提取文本的方法的流程示意图。本申请实施例提供的从图像中提取文本的方法的具体流程可以如下:
101、根据像素值和像素位置对待处理图像中的像素点进行聚类处理,得到多个聚类中心。
在本实施例中则将待处理图像视为宣传海报,以下实施例同样适用。其中,宣传海报上每一个像素点均具有一个像素值和一个像素位置,像素值用于表示该像素点的颜色,像素位置用于表示该像素点在宣传海报上的位置。
示例性地,可通过聚类算法对宣传海报中的所有像素点进行聚类处理,其中,以像素值和像素位置为依据通过聚类算法对所有像素点进行聚类处理,能够使得像素值相同或相似且位置相近的像素点组成同一个聚类中心,且能够使得同一个聚类中心中的像素点尽可能地聚集到一起,而不同聚类中心中的像素点尽量分离,以此,能够实现对宣传海报的初步分割。
其中,聚类算法包括划分法、层次法、密度法、网格法等,在本实施例中可采用划分法中的K均值聚类算法(K-MEANS算法),根据像素值确定出K个聚类中心,而后再根据像素位置对聚类中心进行像素点分配,以使得每一个聚类中心所表示的像素点的像素值相同或相似,且位置相近。可以理解地,也可采用其它聚类算法实施本申请实施例提供的方案,具体实施方式雷同,此处不再详述。
102、根据多个聚类中心的位置分布,从待处理图像中确定出文本区域。
其中,位置分布指的是每一聚类中心在宣传海报上所处的区域,根据每两个相邻的聚类中心之间的位置关系,可以将位置相近且相邻的聚类中心进行合并,以合并成同一个区域之后再判断该区域中的图像内容是否为文本内容,若是,则将此同一个区域视为一个文本区域。可以理解地,根据聚类中心的位置分布宣传海报上也可存在多个文本区域。
请参阅图2,图2为本申请实施例提供的从图像中提取文本的方法中宣传海报的示意图,该宣传海报指的是银行的网上商城上线的月饼的宣传海报。以该图中的“中”和“秋”为例,其中,“中”为一个聚类中心,“秋”为一个聚类中心,两者所指示的聚类中心即可分别表示一个文本区域,另一方面,由于两者位置相近,可将两者合并成一个文本区域。
需要说明的是,文本区域指的是以文字轮廓为界的,在文字轮廓以内的区域均可称为文本区域。
103、提取文本区域中的像素点,得到文本区域的文本内容。
当确定出宣传海报上的文本区域之后,可对每一个文本区域分别进行像素点提取,并将提取出的像素点作为该文本区域的文本内容。其中,若文本区域中仅存在一个文字,则提取出的文本内容为一个文字,若文本区域中存在多个文字,则提取出的文本内容为一行或一列文字。
具体实施时,本申请不受所描述的各个步骤的执行顺序的限制,在不产生冲突的情况下,某些步骤还可以采用其它顺序进行或者同时进行。
通过本申请实施例提供的从图像中提取文本的方法,能够根据像素值和像素位置对宣传海报上的所有像素点进行聚类处理,以将所有像素点划分成多个聚类中心,每一聚类中心所包含的像素点的像素值相同或相似,且通过聚类算法还可使得同一个聚类中心所包含的像素点之间的距离相互靠近,以此实现对宣传海报的分割,进而将宣传海报按照聚类中心进行划分;之后,根据多个聚类中心的位置分布,以从多个聚类中心中识别出文本区域,进而通过提取文本区域中的像素点,并将提取出的像素点作为该文本区域的文本内容,从而实现提取出宣传海报中所有的文本内容,且此种方式并不受限于宣传海报的类型,具有较好的适用性,且识别准确度高,提高了对宣传海报的文本内容识别的有效性。
根据前面实施例所描述的方法,以下将举例作进一步详细说明。
在一些实施例中,根据多个聚类中心的位置分布,从待处理图像中确定出文本区域,包括:
1021、根据多个聚类中心的位置分布,确定多个聚类中心中相邻两个聚类中心之间的距离;
1022、若距离小于预设距离阈值,则对相邻两个聚类中心进行合并处理,以将待处理图像划分为多个候选区域;
1023、从多个候选区域中确定出文本区域。
以上述图2中的宣传海报为例,一个图像内容即可表示一个聚类中心,比如,宣传海报中间位置的图像“月饼”可表示一个聚类中心,且“中”“秋”“快”“乐”四个字也可分别表示一个聚类中心。在计算相邻两个聚类中心之间的距离时,是逐一计算每相邻的两个聚类中心之间的距离的,其中,计算距离的方式可采用文本相似度算法、词移距离算法等,由于计算距离的方式有多种,此处不再列举。
当得到相邻两个聚类中心之间的距离后,则将该距离与预设距离阈值进行比较,当距离小于预设距离阈值时,则对相邻两个聚类中心进行合并。比如,“中”和“秋”两个字之间的距离小于预设距离阈值,则将两者合并成一个候选区域“中秋”,“快”和“中秋”之间的距离小于预设距离阈值,则将“快”和“中秋”合并成一个候选区域“中秋快”,“乐”和“中秋快”之间的距离小于预设距离阈值,则将“乐”和“中秋快”合并成一个候选区域“中秋快乐”最终,该候选区域中所涵盖的内容为“中秋快乐”四个字。由此可见,本申请实施例通过将相邻且距离小于预设距离阈值的聚类中心进行两两合并,最终合并成成一个候选区域,使得宣传海报的图文内容划分成多个候选区域。
比如,以上述实施例中宣传海报为例,可将其图文内容划分成6个候选区域(以虚线框选),请参阅图3,图3为本申请实施例提供的从图像中提取文本的方法中候选区域的示意图。该图中,每个候选区域之间的距离较远,且图文内容相差较大。
在一些实施例中,从多个候选区域中确定出文本区域,包括:
对于多个候选区域中的每一候选区域,确定候选区域中的图像内容是否包含文字结构;
若是,则将候选区域确定为文本区域。
其中,文字结构可如笔画、偏旁、部首等用于表征文字的符号,比如,以图2所示宣传海报为例,其中的“中”具有笔画“横”,则可确定“中”所在的候选区域中包含文字结构,即将此候选区域视为文本区域。
而若候选区域中的图像内容不包含文字结构,则将该候选区域视为图像区域。
示例性地,若候选区域中的图像内容包含较多的文字结构,可按照笔画数量对其进行筛选,以将笔画数量大于预设笔画阈值的候选区域确定为文本区域,若笔画数量不大于预设笔画阈值则将该候选区域确定为图像区域。此种方式能够避免误将图像区域识别为文本区域,提高了对文本区域识别的准确性。
当然地,也可按照文字结构与在图像内容中的占比确定该候选区域是否为文本区域。其中,可通过统计候选区域中构成图像内容的像素点数量n,以及构成文字结构的像素点数量m,通过计算m/n,得到文字结构在图像内容中的占比,若该占比大于预设占比,则将此候选区域确定为文本区域,若占比不大于预设占比,则将此候选区域确定为图像区域。
作为一种实施例,还可通过人工框选的方式从候选区域中确定出文本区域。具体地,用户可对部分候选区域进行标识,电子设备将已标识的候选区域确定为文本区域。
在一些实施例中,提取文本区域中的像素点,得到文本区域的文本内容,包括:
提取文本区域中的像素点,并根据文本区域中的像素点识别文本区域中的文字字体;
若文字字体符合预设字体,则根据提取出的像素点确定文本区域的文本内容;
若文字字体不符合预设字体,则按照预设字体的字形特征对提取出的像素点进行调整,并根据调整后的像素点确定文本区域的文本内容。
其中,文字字体指的是字体类型,比如宋体、楷体、魏体、隶书、黑体等。而识别文字字体可通过将文字字体与字体库中的预存字体进行比对,若两者相同,则将该预存字体视为文本区域中的文字字体。
在本实施例中,当识别出文字字体之后,还可判断该文字字体是否符合预设字体,其中,预设字体可有一种或多种,此处进行举例说明,比如,若文字字体为楷体,预设字体包含楷体和宋体,则说明文字字体符合预设字体;而若文字字体为魏体,预设字体包含楷体和宋体,则说明文字字体不符合预设字体。
其中,当文字字体符合预设字体时,可直接提取文本区域中的像素点以构成文本内容;当文字字体不符合预设字体时,还需要按照预设字体对提取出的像素点进行调整后构成文本区域的文本内容。
示例性地,当预设字体只有一个时,可参照预设字体的字形特征对提取出的像素点进行调整,以根据调整后的像素点构成文本区域的文本内容;当预设字体有多个时,可从多个预设字体中选择一个目标字体,以按照目标字体的字形特征对提取出的像素点进行调整,并根据调整后的像素点构成文本区域的文本内容。其中,从多个预设字体中选择一个目标字体的方式可包括:选择最常用的预设字体作为目标字体,或者通过用户选择一个预设字体作为目标字体,或者选择与文本区域的文字字体最为相似的预设字体作为目标字体,由于可选方式有多种,在具体实施时可根据实际需求选用。
在本实施例中,可通过对文字字体进行识别,以当文字字体不符合预设字体时,对文本区域的像素点进行调整,以使得调整后得到的文本内容的文字字体与预设字体相同,以此使得识别出的文本内容的文字字体较为规整,更便于用户阅览。
在一些实施例中,按照预设字体的字形特征对提取出的像素点进行调整,并根据调整后的像素点确定文本区域的文本内容,包括:
识别提取出的像素点中包含的第一笔画轮廓;
按照预设字体的字形特征对第一笔画轮廓的尺寸和位置进行调整,得到第二笔画轮廓;
根据第二笔画轮廓构建文本区域的文本内容。
其中,第一笔画轮廓指的是像素点所构成的笔画的轮廓,请参阅图4,图4为本申请实施例提供的从图像中提取文本的方法中笔画与第一笔画轮廓的对比示意图,图4左侧为笔画,右侧为第一笔画轮廓。
而字形特征是用于区分不同文字字体的,比如,宋体的字形特征为横细竖粗,楷体的字形特征为横平竖直,黑体的字形特征为横竖粗细一致。由于各种文字字体是通过字形特征进行区分的,当得到预设字体或如上实施例中提及的目标字体的字形特征之后,可根据字形特征对第一笔画轮廓进行调整。
具体地,可调整第一笔画轮廓的尺寸,其中,尺寸也指第一笔画轮廓的粗细,比如,预设字体为宋体,可按照宋体的字形特征-横细竖粗对第一笔画轮廓进行调整,即第一笔画轮廓若为笔画“横”,则将此第一笔画轮廓调细,如上图4所示的第一笔画轮廓,可对其进行纵向压缩,使其变细,以使得笔画“横”的字形特征与宋体中笔画“横”的字形特征相同。以此类推,不同预设字体的字形特征不同,可按照不同预设字体中与第一笔画轮廓对应的笔画的字形特征对第一笔画轮廓进行调整,使得第一笔画轮廓的字形特征与预设字体的字形特征相同,以此能够得到第二笔画轮廓。
示例性地,在调整第一笔画轮廓的尺寸之后,还可对各第一笔画轮廓之间的相对位置进行调整,使得笔画的分布与预设字体的笔画分布相同,即此实施例中对第一笔画轮廓进行位置调整指的是每一第一笔画轮廓的相对位置进行调整,在调整之后可得到第二笔画轮廓。
示例性地,根据第二笔画轮廓构建文本区域中的文本内容指的是通过构成第二笔画轮廓的像素点,以及处于第二笔画轮廓以内的像素点构建文本区域的文本内容。
在一些实施例中,当得到文本区域的文本内容之后,还可进一步识别文本内容的文字结构,以将文字结构从词典库中匹配对应的文字,若能匹配到,则说明文本内容识别正确,若不能匹配到则说明文本内容识别错误。其中,若文本内容包含多个文字,则逐一将每个文字在词典库中进行匹配,以查询是否存在识别错误的文字。
示例性地,若存在识别错误的文字或识别错误的文本内容,则根据其文字结构从词典库中匹配最相似的文字以替换该识别错误的文字或文本内容。其中,最相似的文字指的是文字结构的相似度可达到预设相似阈值以上。
本实施例中通过对文本内容中的错误文字进行识别,能够便于对文本内容进行纠错,并将错误文字进行替换,提高了文本识别的有效性。
在一些实施例中,提取文本区域中的像素点,得到文本区域的文本内容之后,方法还包括:
提取文本内容的语义特征;
按照语义特征和预设文本格式对文本内容中的文字进行排序,得到排序后的文本内容。
在此实施例中,当文本内容中具有多个文字时,可提取文本内容的语义特征,以根据语义特征对多个文字重新进行排序,并按照新的顺序将文字填入预设文本格式中。
如上述图2中所示的文本内容“快中秋/乐”,通过识别其语义特征对其进行排序后,新的顺序为“中秋快乐”。然后获取预设文本格式,其中,预设文本格式可为横向排版或纵向排版,但除此之外还可采用其它排版方式,此处不再列举,若预设文本格式采用横向排版,则“中秋快乐”为一个文本行,若预设文本格式采用纵向排版,则“中秋快乐”为一个文本列。
本实施例中通过提取文本内容的语义特征能够得到文本内容中每一文字的顺序,以实现根据语义特征对文字重新进行排序,并将重新排序后的文字填入预设文本格式中,实现对文本内容进行灵活地排版,更易满足用户需求,为用户进行宣传海报的文本内容的提取提供了极大的便利。
在一些实施例中,根据像素值和像素位置对待处理图像中的像素点进行聚类处理,得到多个聚类中心之前,方法还包括:
通过文本识别工具对待处理图像进行文本识别,得到识别结果;
若识别结果指示识别失败,则执行根据像素值和像素位置对待处理图像中的像素点进行聚类处理,得到多个聚类中心的步骤;
若识别结果指示识别成功,则将识别结果确定为待处理图像的文本内容。
对于宣传海报而言,某些类型的宣传海报上的文本内容可通过文本识别工具识别,而某些类型的宣传海报上的文本内容则通过文本识别工具无法识别。因此,在执行如上述实施例提供的从图像中提取文本的方法之前,还可先使用文本识别工具对宣传海报进行文本识别,若能从宣传海报中识别出文本内容,则识别结果为文本内容,否则,识别结果指示识别失败,识别结果为乱码符号,并非文本内容。
可以理解地,若通过文本识别工具识别失败,则可采用上述实施例提及的文本识别方式识别文本内容,若通过文本识别工具识别成功,可直接将通过文本识别工具得到的光学字符作为文本内容,此处进行区分:通过文本识别工具识别的文本类型为光学字符,而通过本申请实施例提供的方法识别的文本类型为像素图像。
示例性地,若通过文本识别工具识别出部分文本内容,可将识别出的光学字符作为部分文本内容,而通过文本识别工具不能识别的另一部分文本内容,可通过本申请实施例提供的方法识别,此另一部分文本内容的类型为像素图像。其中,可通过对宣传海报进行裁剪,以区分文本识别工具能够识别的部分文本内容,以及不能识别的另一部分文本内容,进而以对不能识别的另一部分文本内容采用本申请实施例提供的方法识别。
本实施例通过先使用文本识别工具对宣传海报进行文本识别,由于文本识别工具的识别速率较高,利于提高文本识别的效率。
在一些实施例中,当得到文本内容之后,还可对文本内容中的文字颜色进行调整,比如,若有指定的颜色,可将所有文本内容中的文字颜色调整为该指定的颜色,若没有指定的颜色,可将所有文本内容中的文字颜色调整为同一种目标颜色,其中,确定目标颜色的方式可为采用主要文本内容的颜色,主要文本内容即位于宣传海报中间位置的文本内容,或者为在宣传海报中占据较大面积的文本内容,由于确定目标颜色或指定的颜色的方式有多种,在具体调整时可根据实际需求而定。
在一些实施例中,在根据像素值和像素位置对待处理图像中的像素点进行聚类处理,得到多个聚类中心之前,方法还包括:
对宣传海报的背景进行抠除,将抠除背景后的图像内容作为待处理图像。
示例性地,可采用智能化抠图工具将宣传海报的背景进行抠除,此种方式能够避免对背景中的像素点进行聚类处理以及文字结构识别等过程,能够极大地提高文本识别效率。
由上可知,本发明实施例提出的从图像中提取文本的方法,通过根据像素值和像素位置对宣传海报上的所有像素点进行聚类处理,以对宣传海报的内容进行初步分割。而后根据多个聚类中心的位置分布,以从多个聚类中心中识别出文本区域,从而利于从文本区域中提取出文本内容,再者,在识别文本区域时是依据图像内容的文字结构进行识别的,以此能提高对文本区域识别的准确性,且能够适用于各类图像,具有较好的适用性。当识别出文本区域的文字内容后,还通过识别文字字体,并当文字字体不符合预设字体时,通过对文本区域的像素点进行调整,进而得到文字字体规整的文本内容,便于用户阅览。其次,还能够对文本内容进行纠错以及排序,既提高了文本识别的准确性,又能够灵活地对文本内容进行排版,更易满足用户需求。在此之前,还通过文本识别工具预先识别能够处理的文本内容,以及智能抠除宣传海报的背景,能够极大地提高文本识别的效率。
在一实施例中还提供一种从图像中提取文本的装置200。请参阅图5,图5为本申请实施例提供的从图像中提取文本的装置200的结构示意图。其中该从图像中提取文本的装置200应用于电子设备,该从图像中提取文本的装置200包括:
聚类处理模块201,用于根据像素值和像素位置对待处理图像中的像素点进行聚类处理,得到多个聚类中心;
文本区域识别模块202,用于根据多个聚类中心的位置分布,从待处理图像中确定出文本区域;
文本提取模块203,用于提取文本区域中的像素点,得到文本区域的文本内容。
在一些实施例中,文本区域识别模块202还用于:
根据多个聚类中心的位置分布,确定多个聚类中心中相邻两个聚类中心之间的距离;
若距离小于预设距离阈值,则对相邻两个聚类中心进行合并处理,以将待处理图像划分为多个候选区域;
从多个候选区域中确定出文本区域。
在一些实施例中,文本区域识别模块202还用于:
对于多个候选区域中的每一候选区域,确定候选区域中的图像内容是否包含文字结构;
若是,则将候选区域确定为文本区域。
在一些实施例中,文本提取模块203还用于:
提取文本区域中的像素点,并根据文本区域中的像素点识别文本区域中的文字字体;
若文字字体符合预设字体,则根据提取出的像素点确定文本区域的文本内容;
若文字字体不符合预设字体,则按照预设字体的字形特征对提取出的像素点进行调整,并根据调整后的像素点确定文本区域的文本内容。
在一些实施例中,文本提取模块203还用于:
识别提取出的像素点中包含的第一笔画轮廓;
按照预设字体的字形特征对第一笔画轮廓的尺寸和位置进行调整,得到第二笔画轮廓;
根据第二笔画轮廓构建文本区域的文本内容。
在一些实施例中,从图像中提取文本的装置200还包括文本排序模块204,其中,提取文本区域中的像素点,得到文本区域的文本内容之后,文本排序模块204用于:
提取文本内容的语义特征;
按照语义特征和预设文本格式对文本内容中的文字进行排序,得到排序后的文本内容。
在一些实施例中,从图像中提取文本的装置200还包括文本转换模块205,根据像素值和像素位置对待处理图像中的像素点进行聚类处理,得到多个聚类中心之前,文本转换模块205用于:
通过文本识别工具对待处理图像进行文本识别,得到识别结果;
若识别结果指示识别失败,则执行根据像素值和像素位置对待处理图像中的像素点进行聚类处理,得到多个聚类中心的步骤;
若识别结果指示识别成功,则将识别结果确定为待处理图像的文本内容。
应当说明的是,本申请实施例提供的从图像中提取文本的装置200与上文实施例中的从图像中提取文本的方法属于同一构思,通过该从图像中提取文本的装置200可以实现从图像中提取文本的方法实施例中提供的任一方法,其具体实现过程详见从图像中提取文本的方法实施例,此处不再赘述。
由上可知,本申请实施例提出的从图像中提取文本的装置,能够根据像素值和像素位置对宣传海报上的所有像素点进行聚类处理,以对宣传海报的内容进行初步分割。而后根据多个聚类中心的位置分布,以从多个聚类中心中识别出文本区域,从而利于从文本区域中提取出文本内容,再者,在识别文本区域时是依据图像内容的文字结构进行识别的,以此能提高对文本区域识别的准确性,且能够适用于各类图像,具有较好的适用性。当识别出文本区域的文字内容后,还通过识别文字字体,并当文字字体不符合预设字体时,通过对文本区域的像素点进行调整,进而得到文字字体规整的文本内容,便于用户阅览。其次,还能够对文本内容进行纠错以及排序,既提高了文本识别的准确性,又能够灵活地对文本内容进行排版,更易满足用户需求。在此之前,还通过文本识别工具预先识别能够处理的文本内容,以及智能抠除宣传海报的背景,能够极大地提高文本识别的效率。
本申请实施例还提供一种电子设备,该电子设备可以是智能手机、平板电脑、台式电脑、扫描仪、阅读器、学习机等设备。如图6所示,图6为本申请实施例提供的电子设备的结构示意图。该电子设备300包括有一个或者一个以上处理核心的处理器301、有一个或一个以上计算机可读存储介质的存储器302及存储在存储器302上并可在处理器上运行的计算机程序。其中,处理器301与存储器302电性连接。本领域技术人员可以理解,图中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
处理器301是电子设备300的控制中心,利用各种接口和线路连接整个电子设备300的各个部分,通过运行或加载存储在存储器302内的软件程序和/或模块,以及调用存储在存储器302内的数据,执行电子设备300的各种功能和处理数据,从而对电子设备300进行整体监控。
在本申请实施例中,电子设备300中的处理器301会按照如下的步骤,将一个或一个以上的应用程序的进程对应的指令加载到存储器302中,并由处理器301来运行存储在存储器302中的应用程序,从而实现各种功能:
根据像素值和像素位置对待处理图像中的像素点进行聚类处理,得到多个聚类中心;
根据多个聚类中心的位置分布,从待处理图像中确定出文本区域;
提取文本区域中的像素点,得到文本区域的文本内容。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
由上可知,本实施例提供的电子设备,能够根据像素值和像素位置对宣传海报上的所有像素点进行聚类处理,以对宣传海报的内容进行初步分割。而后根据多个聚类中心的位置分布,以从多个聚类中心中识别出文本区域,从而利于从文本区域中提取出文本内容,再者,在识别文本区域时是依据图像内容的文字结构进行识别的,以此能提高对文本区域识别的准确性,且能够适用于各类图像,具有较好的适用性。当识别出文本区域的文字内容后,还通过识别文字字体,并当文字字体不符合预设字体时,通过对文本区域的像素点进行调整,进而得到文字字体规整的文本内容,便于用户阅览。其次,还能够对文本内容进行纠错以及排序,既提高了文本识别的准确性,又能够灵活地对文本内容进行排版,更易满足用户需求。在此之前,还通过文本识别工具预先识别能够处理的文本内容,以及智能抠除宣传海报的背景,能够极大地提高文本识别的效率。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括如下步骤:
根据像素值和像素位置对待处理图像中的像素点进行聚类处理,得到多个聚类中心;
根据多个聚类中心的位置分布,从待处理图像中确定出文本区域;
提取文本区域中的像素点,得到文本区域的文本内容。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
上述的存储介质可以为ROM/RAM、磁碟、光盘等。由于该存储介质中所存储的计算机程序,可以执行本申请实施例所提供的任一种从图像中提取文本的方法中的步骤,因此,可以实现本申请实施例所提供的任一种从图像中提取文本的方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种从图像中提取文本的方法、装置、介质及电子设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种从图像中提取文本的方法,其特征在于,所述方法包括:
根据像素值和像素位置对待处理图像中的像素点进行聚类处理,得到多个聚类中心;
根据所述多个聚类中心的位置分布,确定所述多个聚类中心中相邻两个聚类中心之间的距离;
若所述距离小于预设距离阈值,则对所述相邻两个聚类中心进行合并处理,以将所述待处理图像划分为多个候选区域,并从所述多个候选区域中确定出文本区域;
提取所述文本区域中的像素点,得到所述文本区域的文本内容。
2.根据权利要求1所述的从图像中提取文本的方法,其特征在于,所述从所述多个候选区域中确定出文本区域,包括:
对于所述多个候选区域中的每一候选区域,确定所述候选区域中的图像内容是否包含文字结构;
若是,则将所述候选区域确定为文本区域。
3.根据权利要求1所述的从图像中提取文本的方法,其特征在于,所述提取所述文本区域中的像素点,得到所述文本区域的文本内容,包括:
提取所述文本区域中的像素点,并根据所述文本区域中的像素点识别所述文本区域中的文字字体;
若所述文字字体符合预设字体,则根据提取出的像素点确定所述文本区域的文本内容;
若所述文字字体不符合所述预设字体,则按照所述预设字体的字形特征对提取出的所述像素点进行调整,并根据调整后的像素点确定所述文本区域的文本内容。
4.根据权利要求3所述的从图像中提取文本的方法,其特征在于,所述按照所述预设字体的字形特征对提取出的所述像素点进行调整,并根据调整后的像素点确定所述文本区域的文本内容,包括:
识别提取出的所述像素点中包含的第一笔画轮廓;
按照所述预设字体的字形特征对所述第一笔画轮廓的尺寸和位置进行调整,得到第二笔画轮廓;
根据所述第二笔画轮廓构建所述文本区域的文本内容。
5.根据权利要求1-4任一项所述的从图像中提取文本的方法,其特征在于,所述提取所述文本区域中的像素点,得到所述文本区域的文本内容之后,所述方法还包括:
提取所述文本内容的语义特征;
按照所述语义特征和预设文本格式对所述文本内容中的文字进行排序,得到排序后的文本内容。
6.根据权利要求1-4任一项所述的从图像中提取文本的方法,其特征在于,所述根据像素值和像素位置对待处理图像中的像素点进行聚类处理,得到多个聚类中心之前,所述方法还包括:
通过文本识别工具对所述待处理图像进行文本识别,得到识别结果;
若所述识别结果指示识别失败,则执行所述根据像素值和像素位置对待处理图像中的像素点进行聚类处理,得到多个聚类中心的步骤;
若所述识别结果指示识别成功,则将所述识别结果确定为所述待处理图像的文本内容。
7.根据权利要求1-4任一项所述的从图像中提取文本的方法,其特征在于,所述根据像素值和像素位置对待处理图像中的像素点进行聚类处理,得到多个聚类中心之前,所述方法还包括:
对宣传海报的背景进行抠除,将抠除背景后的图像内容作为所述待处理图像。
8.一种从图像中提取文本的装置,其特征在于,包括:
聚类处理模块,用于根据像素值和像素位置对待处理图像中的像素点进行聚类处理,得到多个聚类中心;
文本区域识别模块,用于根据所述多个聚类中心的位置分布,确定所述多个聚类中心中相邻两个聚类中心之间的距离;若所述距离小于预设距离阈值,则对所述相邻两个聚类中心进行合并处理,以将所述待处理图像划分为多个候选区域,并从所述多个候选区域中确定出文本区域;
文本提取模块,用于提取所述文本区域中的像素点,得到所述文本区域的文本内容。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1至7任一项所述的从图像中提取文本的方法。
10.一种电子设备,包括处理器和存储器,所述存储器存储有计算机程序,其特征在于,所述处理器通过调用所述计算机程序,用于执行如权利要求1至7任一项所述的从图像中提取文本的方法。
CN202210692363.0A 2022-06-17 2022-06-17 从图像中提取文本的方法、装置、存储介质及电子设备 Pending CN115188006A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210692363.0A CN115188006A (zh) 2022-06-17 2022-06-17 从图像中提取文本的方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210692363.0A CN115188006A (zh) 2022-06-17 2022-06-17 从图像中提取文本的方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN115188006A true CN115188006A (zh) 2022-10-14

Family

ID=83513814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210692363.0A Pending CN115188006A (zh) 2022-06-17 2022-06-17 从图像中提取文本的方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN115188006A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115830600A (zh) * 2023-02-22 2023-03-21 杭州金诚信息安全科技有限公司 一种图文设计页面识别整理方法
CN118172777A (zh) * 2024-05-16 2024-06-11 成都航空职业技术学院 一种基于图像处理的互动虚拟教具实现方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115830600A (zh) * 2023-02-22 2023-03-21 杭州金诚信息安全科技有限公司 一种图文设计页面识别整理方法
CN115830600B (zh) * 2023-02-22 2023-05-26 杭州金诚信息安全科技有限公司 一种图文设计页面识别整理方法
CN118172777A (zh) * 2024-05-16 2024-06-11 成都航空职业技术学院 一种基于图像处理的互动虚拟教具实现方法

Similar Documents

Publication Publication Date Title
US8744196B2 (en) Automatic recognition of images
US8315465B1 (en) Effective feature classification in images
Gallego et al. Staff-line removal with selectional auto-encoders
CN115188006A (zh) 从图像中提取文本的方法、装置、存储介质及电子设备
Hazra et al. Optical character recognition using KNN on custom image dataset
JP5674615B2 (ja) 文字認識装置及び文字認識方法
US9563811B2 (en) Character recognition method, character recognition apparatus and financial apparatus
US11600088B2 (en) Utilizing machine learning and image filtering techniques to detect and analyze handwritten text
CN111460782A (zh) 一种信息处理方法、装置及设备
CN114821590A (zh) 文档信息提取方法、装置、设备及介质
Kaur et al. A survey on camera-captured scene text detection and extraction: towards Gurmukhi script
Singh et al. Statistical comparison of classifiers for script identification from multi-script handwritten documents
En et al. New public dataset for spotting patterns in medieval document images
Dixit et al. A survey on document image analysis and retrieval system
Devi et al. Pattern matching model for recognition of stone inscription characters
CN113673528B (zh) 文本处理方法、装置、电子设备和可读存储介质
Úbeda et al. Pattern spotting in historical documents using convolutional models
Le Bourgeois et al. Automatic metadata retrieval from ancient manuscripts
Ali et al. Different handwritten character recognition methods: a review
Marinai Text retrieval from early printed books
CN116030469A (zh) 一种处理方法、装置、设备和计算机可读存储介质
Diem et al. Semi-automated document image clustering and retrieval
CN115661516A (zh) 商品识别方法以及装置、存储介质、电子装置
CN113111882B (zh) 一种卡证识别方法、装置、电子设备及存储介质
Bashir et al. Script identification: a review

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination