CN110059563A - 一种文本处理方法和装置 - Google Patents

一种文本处理方法和装置 Download PDF

Info

Publication number
CN110059563A
CN110059563A CN201910208026.8A CN201910208026A CN110059563A CN 110059563 A CN110059563 A CN 110059563A CN 201910208026 A CN201910208026 A CN 201910208026A CN 110059563 A CN110059563 A CN 110059563A
Authority
CN
China
Prior art keywords
text
processed
multirow
picture
paragraph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910208026.8A
Other languages
English (en)
Other versions
CN110059563B (zh
Inventor
余红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910208026.8A priority Critical patent/CN110059563B/zh
Publication of CN110059563A publication Critical patent/CN110059563A/zh
Application granted granted Critical
Publication of CN110059563B publication Critical patent/CN110059563B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

本申请公开了一种文本处理方法和装置,该方法包括:获取包含多行文本的图片;对所述图片进行文本识别,得到多行待处理文本以及所述多行待处理文本的段落特征信息,所述多行待处理文本之间相互独立;基于所述段落特征信息对所述多行待处理文本进行合并,得到包含至少一个段落的目标文本。

Description

一种文本处理方法和装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本处理方法和装置。
背景技术
文字识别技术(例如,OCR(Optical Character Recognition,光学字符识别)等)是一种利用计算机自动识别字符的技术。通常,在进行文本识别时,可以获取包含文本的图片,并基于文字识别技术对图片中的文本进行识别,以实现将图片中的文本转化为计算机文字的目的。
在基于文字识别技术对图片中的多行文本进行识别时,通常,可以将图片中每行待识别文本作为一个文本块,通过对每个文本块进行识别,可以得到图片中的多行文本。然而,在实际应用中,这种识别方法通常会丢失文本原有的段落结构,从而影响对文本的识别效果。
发明内容
本申请实施例提供一种文本处理方法和装置,用于解决现有的文字识别技术在识别图片中的多行文本时,会丢失文本原有的段落结构,从而影响文本识别效果的问题。
为解决上述技术问题,本申请实施例是这样实现的:
第一方面,提出一种文本处理方法,包括:
获取包含多行文本的图片;
对所述图片进行文本识别,得到多行待处理文本以及所述多行待处理文本的段落特征信息,所述多行待处理文本之间相互独立;
基于所述段落特征信息对所述多行待处理文本进行合并,得到包含至少一个段落的目标文本。
第二方面,提出一种文本处理装置,包括:
获取单元,获取包含多行文本的图片;
识别单元,对所述图片进行文本识别,得到多行待处理文本以及所述多行待处理文本的段落特征信息,所述多行待处理文本之间相互独立;
合并单元,基于所述段落特征信息对所述多行待处理文本进行合并,得到包含至少一个段落的目标文本。
第三方面,提出一种电子设备,该电子设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,该可执行指令在被执行时使该处理器执行以下操作:
获取包含多行文本的图片;
对所述图片进行文本识别,得到多行待处理文本以及所述多行待处理文本的段落特征信息,所述多行待处理文本之间相互独立;
基于所述段落特征信息对所述多行待处理文本进行合并,得到包含至少一个段落的目标文本。
第四方面,提出一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下方法:
获取包含多行文本的图片;
对所述图片进行文本识别,得到多行待处理文本以及所述多行待处理文本的段落特征信息,所述多行待处理文本之间相互独立;
基于所述段落特征信息对所述多行待处理文本进行合并,得到包含至少一个段落的目标文本。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
本申请实施例提供的技术方案,在对图片进行文本识别时,由于在识别到图片中多行文本的同时,还可以得到每行文本的段落特征信息,并基于段落特征信息对识别得到的多行文本进行合并,因此,最终得到的文本可以还原图片中文本的段落结构,从而可以改善对文本的识别效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请的一个实施例文本处理方法的流程示意图;
图2是本申请的一个实施例文本的坐标信息的示意图;
图3是本申请的一个实施例文本处理方法的流程示意图;
图4是本申请的一个实施例文本处理方法的流程示意图;
图5是本申请的一个实施例电子设备的结构示意图;
图6是本申请的一个实施例文本处理装置的结构示意图。
具体实施方式
现有技术中,在获取到包含多行文本的图片,并基于文字识别技术对图片中的多行文本进行识别时,可以将图片中的多行文本进行分块,通常,一行文本可以作为一个文本块。在得到多个文本块后,可以分别对每个文本块中的文本进行识别,进而得到图片中的多行文本。
然而,在基于上述记载的方法对图片中的多行文本进行识别后,识别到的文本通常是一行一行单独分开的,不存在任何的段落结构,也就是说,识别到的文本丢失了原有的段落结构。在这种情况下,由于无法确定哪些文本属于一个段落,因此,也就无法真正的还原图片中的文本,从而影响对文本的识别效果。
现有技术中,为了还原文本的段落结构,在识别得到多行文本后,可以允许用户手动地对文本进行选择,在用户选择文本后,可以对用户选择的文本进行合并,得到一个段落。这样,通过用户手动选择的方式可以得到包含至少一个段落的文本。
然而,上述方法虽然可以还原文本的段落结构,但是,由于需要用户手动地选择文本,因此,会增加用户的操作成本,此外,当原有文本的段落较多时,用户需要多次选择才可以还原原有的段落结构,导致效率较低。
有鉴于此,本申请实施例提供一种文本处理方法和装置,该方法包括:获取包含多行文本的图片;对所述图片进行文本识别,得到多行待处理文本以及所述多行待处理文本的段落特征信息,所述多行待处理文本之间相互独立;基于所述段落特征信息对所述多行待处理文本进行合并,得到包含至少一个段落的目标文本。
这样,在对图片进行文本识别时,由于在识别到图片中多行文本的同时,还可以得到每行文本的段落特征信息,并基于段落特征信息对识别得到的多行文本进行合并,因此,最终得到的文本可以还原图片中文本的段落结构,从而可以改善对文本的识别效果。
此外,由于本申请实施例可以基于文本的段落特征信息,自动地对识别得到的多行文本进行合并,无需用户手动操作,因此,可以降低用户的操作成本,提高效率,从而提升用户体验。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1是本申请的一个实施例文本处理方法的流程示意图。所述方法包括以下步骤。
S102:获取包含多行文本的图片。
在S102中,在对多行文本进行识别时,可以获取包含多行文本的图片。
本实施例在获取包含多行文本的图片时,至少可以包括以下三种方法:
若待识别的多行文本为图片中的文本,则可以直接获取该图片。
若待识别的多行文本为纸质文件中的多行文本,则可以对纸质文件进行扫描得到电子图片,将电子图片转化为PDF文档,将PDF文档转化为包含多行文本的图片,并获取该图片,或者,也可以直接获取对纸质文件扫描得到的电子图片,该电子图片即为包含多行文本的图片。其中,需要注意的是,若纸质文件包含多页,则在扫描该纸质文件或将纸质文件对应的PDF文档转化为图片时,要按照纸质文件的页码顺序依次扫描或转化。
若待识别的多行文本为PDF文档中包含的多行文本,则可以将PDF文档转化为包含多行文本的图片,并获取该图片。其中,若PDF文档包含多页,则在将PDF文档转化为图片时,也需要按照PDF文档的页码依次将PDF文档转化为图片。
应理解,在其他实现方式中,也可以通过其他方法获取包含多行文本的图片,这里不再一一举例说明。
本实施例中,获取到的图片可以是一张,也可以是多张,其中,每张图片中可以包含多行文本。为了便于描述,本实施例可以以获取一张包含多行文本的图片为例进行说明。
在S102中,在获取到包含多行文本的图片后,可以执行S104。
S104:对所述图片进行文本识别,得到多行待处理文本以及所述多行待处理文本的段落特征信息。
在S104中,在获取到包含多行文本的图片后,可以对图片进行文本识别,得到与图片中的多行文本一一对应的多行待处理文本,其中,识别得到的多行待处理文本是一行一行单独分开的,即多行待处理文本之间相互独立,不包含段落结构。
需要说明的是,在对图片进行文本识别时,使用的文字识别技术可以是OCR(Optical Character Recognition,光学字符识别)技术,也可以是其他能够对图片中的文本进行识别的技术,这里不做具体限定。
此外,在对图片进行文本识别时,可以依次对图片中的多行文本进行识别,得到多行待处理文本,也可以并行地对图片中的多行进行识别,得到多行待处理文本,这里不做具体限定。
本实施例中,在识别得到多行待处理文本的同时,还可以识别得到多行待处理文本的段落特征信息,其中,段落特征信息可以理解为与图片中多行文本的段落结构相关的信息。
在一种实现方式中,段落特征信息可以包括每行待处理文本的坐标信息,针对其中一行待处理文本而言,该行待处理文本的该坐标信息可以基于图片中与该待处理文本对应的文本在图片中的像素位置确定得到。即在对图片进行文本识别时,针对图片中的每行文本,可以基于每行文本在图片中的像素位置,得到对应的每行待处理文本的坐标信息。
例如,图片中包含N行文本,针对第一行文本,在识别得到对应的第一行待处理文本时,可以基于该第一行文本在图片中的像素位置,确定该第一行待处理文本的坐标信息;针对图片中的第二行文本,在识别得到对应的第二行待处理文本时,可以基于该第二行文本在图片中的像素位置,确定该第二行待处理文本的坐标信息,……,依次类推,可以基于N行文本在图片中的像素位置,得到N行待处理文本各自的坐标信息。
在另一种实现方式中,段落特征信息可以包括每行待处理文本的字符数,针对其中一行待处理文本而言,该行待处理文本的字符数等于图片中与该行待处理文本对应的文本的字符数。即在对图片进行文本识别时,针对图片中的每行文本,可以识别得到每行文本的字符数,每行文本的字符数即为对应的每行待处理文本的字符数。
在S104中,在识别得到多行待处理文本以及每行待处理文本的段落特征信息后,可以执行S106。
S106:基于所述段落特征信息对所述多行待处理文本进行合并,得到包含至少一个段落的目标文本。
在S106中,可以基于S104中每行待处理文本的段落特征信息,对多行文本进行合并,在合并后,可以得到包含至少一个段落的目标文本。
在一种实现方式中,若S104中获取到的段落特征信息包括坐标信息,则基于段落特征信息对多行待处理文本进行合并,得到包含至少一个段落的目标文本,可以包括以下步骤:
首先,基于每行待处理文本的坐标信息,确定每行待处理文本的长度。
本实施例中,待处理文本的坐标信息可以是二维的坐标信息,具体可以包括横坐标信息和纵坐标信息,横坐标信息中可以包括第一横坐标和第二横坐标,纵坐标信息中可以包括第一纵坐标和第二纵坐标,其中,第二横坐标可以大于第一横坐标,第二纵坐标可以大于第一纵坐标。
也就是说,针对一行待处理文本而言,该行待处理文本的坐标信息可以表示为“[第一横坐标,第一纵坐标]、[第一横坐标,第二纵坐标]、[第二横坐标,第一纵坐标]、[第二横坐标,第二纵坐标]”,其中,该坐标信息中包含四个点的坐标,这四个点的坐标可以表征图片中与该行待处理文本对应的一行文本在图片中所占区域的四个顶点的像素位置。
具体请参见图2。
图2所示的图片A中包含N行文本,针对图片A中第一行文本而言,其在图片A中所占区域的四个顶点的坐标等于这四个顶点在图片A中的像素位置,具体可以表示为[x1,y1]、[x1,y2]、[x2,y1]、[x2,y2]。
在识别得到第一行待处理文本后,第一待处理文本的坐标信息即为[x1,y1]、[x1,y2]、[x2,y1]、[x2,y2],其中,x1为第一横坐标,x2为第二横坐标,y1为第一纵坐标,y2为第二纵坐标。
针对图片A中第2至N行文本而言,也可以基于相同的方法,根据各自在图片A中所占区域的四个顶点的像素位置,得到第2至N行待处理文本的坐标信息,这里不再重复描述。图2中,可以由[坐标信息2]至[坐标信息N]分别代表第2至N行待处理文本的坐标信息。
本实施例在基于待处理文本的坐标信息,确定待处理文本的长度时,针对其中一行待处理文本而言,可以获取该待处理文本的第一横坐标以及第二横坐标,并计算该行待处理文本的第二横坐标与第一横坐标的差值,该差值即为该行待处理文本的长度。
以上述图2中第一行待处理文本为例,图2中第一行待处理文本的长度为x2-x1。
这样,可以基于同样的方法,确定识别到的每行待处理文本的长度。
其次,基于识别到的每行待处理文本的长度,对多行待处理文本进行合并,得到包含至少一个段落的目标文本。
具体地,针对其中一行待处理文本(为了便于描述,可以由第一文本表示),可以执行以下操作:
判断第一文本的长度是否不小于预设长度,且,第一文本不以句号结尾。其中,预设长度可以基于识别到的多行待处理文本的长度确定得到,具体地,预设长度可以等于多行待处理文本中最大的文本长度与第一参数的乘积,该第一参数可以表征待处理文本与其他行文本合并的概率,是一个经验值,具体可以通过对样本文本反复试验确定得到。优选地,第一参数可以是[0.75,0.95]之间的任一数值。
在对第一文本进行上述判断后,若判断结果为第一文本的长度不小于预设长度,且第一文本不以句号结尾,则可以说明,第一文本与其相邻的下一行待处理文本(为了便于描述,可以由第二文本表示)为某个段落中的两行相邻的文本,此时,可以将第一文本与第二合并。
若判断结果为第一文本的长度小于预设长度,或第一文本以句号结尾,则可以说明,第一文本为某个段落的最后一行,此时,可以不对第一文本进行合并处理,即不将第一文本与第二文本合并。
这样,针对多行待处理文本中的每行文本,在基于上述记载的方法进行合并处理后,可以得到包含至少一个段落的文本。
在一种实现方式中,若S104中获取到的段落特征信息包括字符数,则基于段落特征信息对多行待处理文本进行合并,得到包含至少一个段落的目标文本,可以包括以下步骤:
针对其中一行待处理文本(为了便于描述,可以由第三文本表示),可以执行以下操作:
首先,判断第三文本的字符数是否不小于预设值,且第三文本不以句号结尾。
预设值可以基于识别到的每行待处理文本的字符数确定得到,具体地,适可以等于多行待处理文本中最大字符数与第二参数的乘积,其中,第二参数与上述记载的第一参数类似,也可以表征待处理文本与其他行文本合并的概率,是一个经验值,具体可以通过对样本文本反复试验确定得到。优选地,第二参数可以是[0.75,0.95]之间的任一数值。
其次,在对第三文本进行上述判断后,若判断结果是第三文本的字符数不小于预设值,且第三文本不以句号结尾,则可以说明,第三文本与其相邻的下一行待处理文本(为了便于描述,可以由第四文本表示)为某个段落中的两行相邻的文本,此时,可以将第三文本与第四合并。
若判断结果为第三文本的字符数小于预设值,或第三文本以句号结尾,则可以说明,第三文本为某个段落的最后一行,此时,可以不对第三文本进行合并处理,即不将第三文本与第四文本合并。
这样,针对多行待处理文本中的每行文本,在基于上述记载的方法进行合并处理后,可以得到包含至少一个段落的文本。
需要说明的是,在实际应用中,可以基于上述记载的第一种实现方式对多行待处理文本进行合并,也可以基于上述记载的第二种实现方式对多行待处理文本进行合并,还可以结合上述记载的第一种实现方式和第二种实现方式对多行待处理文本进行合并,这里不做具体限定。
本申请实施例提供的技术方案,在对图片进行文本识别时,由于在识别到图片中多行文本的同时,还可以得到每行文本的段落特征信息,并基于段落特征信息对识别得到的多行文本进行合并,因此,最终得到的文本可以还原图片中文本的段落结构,从而可以改善对文本的识别效果。
为了便于理解本申请实施例提供的整个技术方案,可以参见图3和图4。图3为本申请的一个实施例文本处理方法的流程示意图,本实施例以段落特征信息包括坐标信息为例进行说明,可以包括以下步骤。
S301:获取包含多行文本的图片。
在S301中,获取图片的具体实现方法可以参见图1所示实施例中记载的相关内容,这里不再重复描述。
S302:对图片进行文本识别,得到多行待处理文本以及多行待处理文本的坐标信息。
在S302中,可以基于OCR技术或其他文字识别技术对图片进行文本识别,得到图片中多行文本对应的多行待处理文本,其中,多行待处理文本之间相互独立,即多行待处理文本之间没有段落结构。
在识别得到多行待处理文本的同时,还可以得到多行待处理文本各自的坐标信息。针对一行待处理文本而言,该行待处理文本的坐标信息可以基于图片中与该行待处理文本对应的文本在图片中所占区域的像素位置确定得到,具体请参见上述图2记载的内容,这里不再重复描述。
坐标信息可以包括横坐标信息和纵坐标信息,横坐标信息可以包括第一横坐标和第二横坐标,纵坐标信息可以包括第一纵坐标和第二纵坐标,其中,第二横坐标可以大于第一横坐标,第二纵坐标可以大于第一纵坐标。
S303:根据每行待处理文本的坐标信息,确定每行待处理文本的长度。
具体地,针对其中一行待处理文本,可以获取该行待处理文本的第一横坐标和第二横坐标,该第二横坐标和第一横坐标的差值即为该行待处理文本的长度。基于相同的方法,可以得到其他待处理文本的长度。
S304:判断第一文本的长度是否不小于预设长度,且第一文本不以句号结尾。
第一文本为多行待处理文本中的其中一行文本。预设长度等于多行待处理文本中最大文本长度与第一参数的乘积,具体请参见图1所示实施例中对预设长度的描述,这里不再重复说明。
若判断结果为第一文本的长度不小于预设长度,且不以句号结尾,则可以说明第一文本与其相邻的下一行文本(为了便于描述,可以由第二文本描述)为某个段落中的两行相邻文本,此时,可以执行S305。
若判断结果为第一文本的长度小于预设长度,或不以句号结尾,则可以说明第一文本为某个段落中的最后一行文本,此时,可以不对第一文本执行合并操作,并执行S306。
S305:将第一文本与第二文本合并,得到包含至少一个段落的目标文本。
在S305中,通过对第一文本和第二文本合并,可以将第一文本与第二文本作为一个段落,针对多行待处理文本而言,基于相同的方法,最终可以得到包含至少一个段落的目标文本。
在得到目标文本后,可以执行S306。
S306:结束。
这样,基于上述记载的S301至S306,在对图片进行文本识别时,由于在识别到图片中多行文本的同时,还可以得到每行文本的坐标信息,并基于坐标信息对识别得到的多行文本进行合并,因此,最终得到的文本可以还原图片中文本的段落结构,从而可以改善对文本的识别效果。
图4为本申请的一个实施例文本处理方法的流程示意图,本实施例以段落特征信息包括字符数为例进行说明,可以包括以下步骤。
S401:获取包含多行文本的图片。
在S401中,获取图片的具体实现方法可以参见图1所示实施例中记载的相关内容,这里不再重复描述。
S402:对图片进行文本识别,得到多行待处理文本以及多行待处理文本的字符数。
在S402中,可以基于OCR技术或其他文字识别技术对图片进行文本识别,得到图片中多行文本对应的多行待处理文本,其中,多行待处理文本之间相互独立,即多行待处理文本之间没有段落结构。
在识别得到多行待处理文本的同时,还可以得到多行待处理文本各自的字符数。针对一行待处理文本而言,该行待处理文本的字符数等于图片中与该行待处理文本对应的文本的字符数。
S403:判断第三文本的字符数是否不小于预设值,且第三文本不以句号结尾。
第三文本为多行待处理文本中的一行文本,预设值可以等于多行待处理文本中最大的字符数与第二参数的乘积,第二参数为经验值,具体可以参见图1所示实施例中对第二参数的描述,这里不再重复说明。
若判断结果为第三文本的字符数不小于预设值,且不以句号结尾,则可以说明第三文本与其相邻的下一行待处理文本(为了便于描述,可以由第四文本表示)为某个段落中的两行文本,此时,可以执行S404;
若判断结果为第三文本的字符数小于预设值,或以句号结尾,则可以说明第三文本为某个段落的最后一行文本,此时,可以不对第三文本执行合并操作,并执行S405。
S404:将第三文本与第四文本合并,得到包含至少一个段落的目标文本。
在S404中,通过对第三文本和第四文本合并,可以将第三文本与第四文本作为一个段落,针对多行待处理文本而言,基于相同的方法,最终可以得到包含至少一个段落的目标文本。
在得到目标文本后,可以执行S405。
S405:结束。
这样,基于上述记载的S401至S405,在对图片进行文本识别时,由于在识别到图片中多行文本的同时,还可以得到每行文本的字符数,并基于字符数对识别得到的多行文本进行合并,因此,最终得到的文本可以还原图片中文本的段落结构,从而可以改善对文本的识别效果。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
图5是本申请的一个实施例电子设备的结构示意图。请参考图5,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成文本处理装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取包含多行文本的图片;
对所述图片进行文本识别,得到多行待处理文本以及每行待处理文本的段落特征信息,所述多行待处理文本之间相互独立;
基于所述段落特征信息对所述多行待处理文本进行合并,得到包含至少一个段落的目标文本。
上述如本申请图5所示实施例揭示的文本处理装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1、图3和图4的方法,并实现文本处理装置在图1、图3和图4所示实施例中的功能,本申请实施例在此不再赘述。
当然,除了软件实现方式之外,本申请的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1、图3和图4所示实施例的方法,并具体用于执行以下操作:
获取包含多行文本的图片;
对所述图片进行文本识别,得到多行待处理文本以及每行待处理文本的段落特征信息,所述多行待处理文本之间相互独立;
基于所述段落特征信息对所述多行待处理文本进行合并,得到包含至少一个段落的目标文本。
图6是本申请的一个实施例文本处理装置60的结构示意图。请参考图6,在一种软件实施方式中,所述文本处理装置60可包括:获取单元61、识别单元62和合并单元63,其中:
获取单元61,获取包含多行文本的图片;
识别单元62,对所述图片进行文本识别,得到多行待处理文本以及所述多行待处理文本的段落特征信息,所述多行待处理文本之间相互独立;
合并单元63,基于所述段落特征信息对所述多行待处理文本进行合并,得到包含至少一个段落的目标文本。
可选地,所述段落特征信息包括每行待处理文本的坐标信息,针对其中一行待处理文本,所述待处理文本的坐标信息基于所述图片中与所述待处理文本对应的文本在所述图片中的像素位置确定得到。
可选地,所述合并单元63,基于所述段落特征信息对所述多行待处理文本进行合并,得到包含至少一个段落的目标文本,包括:
基于所述坐标信息,确定每行待处理文本的长度;
基于每行待处理文本的长度,对所述多行待处理文本进行合并,得到包含至少一个段落的目标文本。
可选地,所述坐标信息包括横坐标信息,所述横坐标信息包括第一横坐标和第二横坐标,所述第二横坐标大于所述第一横坐标;
其中,所述合并单元63,基于所述坐标信息,确定每行待处理文本的长度,包括:
针对其中一行待处理文本,执行以下操作:
获取所述待处理文本的第一横坐标以及第二横坐标;
将所述待处理文本的第二横坐标与第一横坐标的差值确定为所述待处理文本的长度。
可选地,所述合并单元63,基于每行待处理文本的长度,对所述多个待处理文本进行合并,包括:
针对其中一行第一文本,执行以下操作:
判断所述第一文本的长度是否不小于预设长度,且所述第一文本不以句号结尾,所述预设长度等于所述多行待处理文本中的最大文本长度与第一参数的乘积,所述第一参数为经验值;
若是,则将所述第一文本与第二文本合并,所述第二文本为与所述第一文本相邻的下一行待处理文本。
可选地,所述段落特征信息包括字符数。
可选地,所述合并单元63,基于所述段落特征信息对所述多行待处理文本进行合并,包括:
针对其中一行第三文本,执行以下操作:
判断所述第三文本的字符数是否不小于预设值,且所述第三文本不以句号结尾,所述预设值等于所述多行待处理文本中的最大字符数与第二参数的乘积,所述第二参数为经验值;
若是,则将所述第三文本与第四文本合并,所述第四文本为与所述第三文本相邻的下一行待处理文本。
本申请实施例提供的文本处理装置60还可执行图1、图3和图4的方法,并实现文本处理装置在图1、图3和图4所示实施例的功能,本申请实施例在此不再赘述。
总之,以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (10)

1.一种文本处理方法,包括:
获取包含多行文本的图片;
对所述图片进行文本识别,得到多行待处理文本以及所述多行待处理文本的段落特征信息,所述多行待处理文本之间相互独立;
基于所述段落特征信息对所述多行待处理文本进行合并,得到包含至少一个段落的目标文本。
2.如权利要求1所述的方法,
所述段落特征信息包括每行待处理文本的坐标信息,针对其中一行待处理文本,所述待处理文本的坐标信息基于所述图片中与所述待处理文本对应的文本在所述图片中的像素位置确定得到。
3.如权利要求2所述的方法,基于所述段落特征信息对所述多行待处理文本进行合并,得到包含至少一个段落的目标文本,包括:
基于所述坐标信息,确定每行待处理文本的长度;
基于每行待处理文本的长度,对所述多行待处理文本进行合并,得到包含至少一个段落的目标文本。
4.如权利要求3所述的方法,
所述坐标信息包括横坐标信息,所述横坐标信息包括第一横坐标和第二横坐标,所述第二横坐标大于所述第一横坐标;
其中,基于所述坐标信息,确定每行待处理文本的长度,包括:
针对其中一行待处理文本,执行以下操作:
获取所述待处理文本的第一横坐标以及第二横坐标;
将所述待处理文本的第二横坐标与第一横坐标的差值确定为所述待处理文本的长度。
5.如权利要求3所述的方法,基于每行待处理文本的长度,对所述多个待处理文本进行合并,包括:
针对其中一行第一文本,执行以下操作:
判断所述第一文本的长度是否不小于预设长度,且所述第一文本不以句号结尾,所述预设长度等于所述多行待处理文本中的最大文本长度与第一参数的乘积,所述第一参数为经验值;
若是,则将所述第一文本与第二文本合并,所述第二文本为与所述第一文本相邻的下一行待处理文本。
6.如权利要求1所述的方法,
所述段落特征信息包括字符数。
7.如权利要求6所述的方法,基于所述段落特征信息对所述多行待处理文本进行合并,包括:
针对其中一行第三文本,执行以下操作:
判断所述第三文本的字符数是否不小于预设值,且所述第三文本不以句号结尾,所述预设值等于所述多行待处理文本中的最大字符数与第二参数的乘积,所述第二参数为经验值;
若是,则将所述第三文本与第四文本合并,所述第四文本为与所述第三文本相邻的下一行待处理文本。
8.一种文本处理装置,包括:
获取单元,获取包含多行文本的图片;
识别单元,对所述图片进行文本识别,得到多行待处理文本以及所述多行待处理文本的段落特征信息,所述多行待处理文本之间相互独立;
合并单元,基于所述段落特征信息对所述多行待处理文本进行合并,得到包含至少一个段落的目标文本。
9.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,该可执行指令在被执行时使该处理器执行以下操作:
获取包含多行文本的图片;
对所述图片进行文本识别,得到多行待处理文本以及所述多行待处理文本的段落特征信息,所述多行待处理文本之间相互独立;
基于所述段落特征信息对所述多行待处理文本进行合并,得到包含至少一个段落的目标文本。
10.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下方法:
获取包含多行文本的图片;
对所述图片进行文本识别,得到多行待处理文本以及所述多行待处理文本的段落特征信息,所述多行待处理文本之间相互独立;
基于所述段落特征信息对所述多行待处理文本进行合并,得到包含至少一个段落的目标文本。
CN201910208026.8A 2019-03-19 2019-03-19 一种文本处理方法和装置 Active CN110059563B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910208026.8A CN110059563B (zh) 2019-03-19 2019-03-19 一种文本处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910208026.8A CN110059563B (zh) 2019-03-19 2019-03-19 一种文本处理方法和装置

Publications (2)

Publication Number Publication Date
CN110059563A true CN110059563A (zh) 2019-07-26
CN110059563B CN110059563B (zh) 2023-09-12

Family

ID=67317195

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910208026.8A Active CN110059563B (zh) 2019-03-19 2019-03-19 一种文本处理方法和装置

Country Status (1)

Country Link
CN (1) CN110059563B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144320A (zh) * 2019-12-27 2020-05-12 腾讯科技(深圳)有限公司 一种图像处理方法、装置、计算机设备和存储介质
CN112101308A (zh) * 2020-11-11 2020-12-18 北京云测信息技术有限公司 一种基于语言模型的文本框的合并方法、装置及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609408A (zh) * 2012-01-11 2012-07-25 清华大学 基于多文种文档图像识别的跨文种理解方法
CN104317786A (zh) * 2014-10-13 2015-01-28 安徽华贞信息科技有限公司 一种文本段落切片方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609408A (zh) * 2012-01-11 2012-07-25 清华大学 基于多文种文档图像识别的跨文种理解方法
CN104317786A (zh) * 2014-10-13 2015-01-28 安徽华贞信息科技有限公司 一种文本段落切片方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王丹: "基于版面结构的文本图像检索技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144320A (zh) * 2019-12-27 2020-05-12 腾讯科技(深圳)有限公司 一种图像处理方法、装置、计算机设备和存储介质
CN112101308A (zh) * 2020-11-11 2020-12-18 北京云测信息技术有限公司 一种基于语言模型的文本框的合并方法、装置及电子设备
CN112101308B (zh) * 2020-11-11 2021-02-09 北京云测信息技术有限公司 一种基于语言模型的文本框的合并方法、装置及电子设备

Also Published As

Publication number Publication date
CN110059563B (zh) 2023-09-12

Similar Documents

Publication Publication Date Title
US9665787B2 (en) Method and apparatus of extracting particular information from standard card
CN101908136B (zh) 一种表格识别处理方法及系统
CN109190539A (zh) 人脸识别方法及装置
CN109271910A (zh) 一种文字识别、文字翻译方法和装置
CN111291661B (zh) 一种屏幕中图标的文本内容的识别方法及设备
EP0483343A1 (en) A polygon-based method for automatic extraction of selected text in a digitized document
CN110163786B (zh) 一种去除水印的方法、装置及设备
CN109508189B (zh) 一种布局模板处理方法、装置及计算机可读存储介质
CN109308465A (zh) 表格线检测方法、装置、设备及计算机可读介质
WO2019041442A1 (zh) 图表数据结构化提取方法、系统、电子设备及计算机可读存储介质
CN111046644A (zh) 一种答题卡模板生成方法、识别方法、装置及存储介质
CN110008664A (zh) 认证信息采集、开户方法、装置及电子设备
CN110059563A (zh) 一种文本处理方法和装置
CN110298353A (zh) 一种字符识别方法及系统
CN114529773A (zh) 基于结构单元的表格识别方法、系统、终端及介质
CN102915429B (zh) 一种扫描图片匹配方法和装置
CN110909816B (zh) 图片识别方法和装置
CN113378823A (zh) 一种心理量表试卷生成及其自动化批阅系统
CN108804652B (zh) 封面图片的生成方法、装置、存储介质和电子装置
CN112465931B (zh) 图像文本抹除方法、相关设备及可读存储介质
CN108573473A (zh) 图片旋转方法、装置、计算机设备及存储介质
CN105630750A (zh) 名片图片的处理方法和装置
CN113657317A (zh) 一种货物位置识别方法、系统、电子设备及存储介质
US9715624B1 (en) Document image segmentation based on pixel classification
CN110119743A (zh) 一种图片识别方法、服务器及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant