CN111310435B - 图像文本显示方法、装置、存储介质及终端 - Google Patents

图像文本显示方法、装置、存储介质及终端 Download PDF

Info

Publication number
CN111310435B
CN111310435B CN202010092152.4A CN202010092152A CN111310435B CN 111310435 B CN111310435 B CN 111310435B CN 202010092152 A CN202010092152 A CN 202010092152A CN 111310435 B CN111310435 B CN 111310435B
Authority
CN
China
Prior art keywords
text
paragraph
typesetting
target
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010092152.4A
Other languages
English (en)
Other versions
CN111310435A (zh
Inventor
宋肃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN202010092152.4A priority Critical patent/CN111310435B/zh
Publication of CN111310435A publication Critical patent/CN111310435A/zh
Application granted granted Critical
Publication of CN111310435B publication Critical patent/CN111310435B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请实施例公开了一种图像文本显示方法、装置、存储介质及终端,其中,方法包括:获取待识别图像包含的至少一个文本区域中目标文本区域内的文本;提取所述文本对应的至少一个语意特征;基于所述至少一个语意特征对所述文本进行排版,得到目标排版文本;生成并显示包含所述目标排版文本的最终排版文本,所述最终排版文本包括所述至少一个文本区域中各文本区域对应的排版文本。本申请实施例基于语意特征对文本进行自动调整,调整后的文本更接近于真实需求;文本排版全程无需用户手动参与,增加了排版的智能性;所述方法可用于不同类型的图像文本中,适用性强。

Description

图像文本显示方法、装置、存储介质及终端
技术领域
本申请涉及计算机技术领域,尤其涉及一种图像文本显示方法、装置、存储介质及终端。
背景技术
光学字符识别(Optical Character Recognition,OCR)是指对文本资料进行扫描后,对图像文件进行分析处理获取文字及版面信息的过程,借助于OCR技术,图像中的文本内容可被轻松提取出来。
在利用OCR技术识别出图像中的文字后,一般都是根据图像文本原先的排版方式直接输出文档,而所输出的文档排版并不一定是用户所需要的,根据需要,还需用户手动对文档排版适应性调整,这种排版方式会给用户带来额外的工作量,从而降低了排版的智能性。
发明内容
本申请实施例提供了一种图像文本显示方法、装置、存储介质及终端,可以解决上述排版方式给用户带来了额外的工作量、降低了排版的智能性的问题。
所述技术方案如下:
第一方面,本申请实施例提供了一种图像文本显示方法,所述方法包括:
获取待识别图像包含的至少一个文本区域中目标文本区域内的文本;
提取所述文本对应的至少一个语意特征;
基于所述至少一个语意特征对所述文本进行排版,得到目标排版文本;
生成并显示包含所述目标排版文本的最终排版文本,所述最终排版文本包括所述至少一个文本区域中各文本区域对应的排版文本。
第二方面,本申请实施例提供了一种图像文本显示装置,所述装置包括:
文本获取模块,用于获取待识别图像包含的至少一个文本区域中目标文本区域内的文本;
语意特征提取模块,用于提取所述文本对应的至少一个语意特征;
文本排版模块,用于基于所述至少一个语意特征对所述文本进行排版,得到目标排版文本;
排版文本显示模块,用于生成并显示包含所述目标排版文本的最终排版文本,所述最终排版文本包括所述至少一个文本区域中各文本区域对应的排版文本。
第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项方法的步骤。
第四方面,本申请实施例提供了一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项方法的步骤。
本申请一些实施例提供的技术方案带来的有益效果至少包括:
本申请实施例提供的图像文本显示方法,先获取待识别图像包含的至少一个文本区域中目标文本区域内的文本并提取所述文本对应的至少一个语意特征,再基于所述至少一个语意特征对所述文本进行排版,得到目标排版文本,最后生成并显示包含所述目标排版文本的最终排版文本,所述最终排版文本包括所述至少一个文本区域中各文本区域对应的排版文本。所述方法在识别出待识别图像中的文本后,还要获取文本的语意特征,根据文本的语意特征对文本进行重新排版,并在待识别图像所有文本区域的文本均重新排版之后生成最终排版文本显示给用户,基于语意特征对文本进行自动调整,调整后的文本更接近于真实需求;文本排版全程无需用户手动参与,增加了排版的智能性;本申请提供的所述方法可用于不同类型的图像文本中,方法适用性强。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种图像文本显示方法的流程示意图;
图2是本申请实施例提供的某一演示文稿页中的文本区域示意图;
图3a-3c是本申请实施例提供的一种图像文本排版的过程示意图;
图4是本申请实施例提供的一种图像文本显示方法的流程示意图;
图5a-5c是本申请实施例提供的一种段落划分示意图;
图6是本申请实施例提供的一种图像文本显示方法的流程示意图;
图7是本申请实施例提供的一张图片文本区域示意图;
图8是本申请实施例提供的一种图像文本显示装置的结构示意图;
图9是本申请实施例提供的一种图像文本显示装置的结构示意图;
图10是本申请实施例提供的一种图像文本显示装置的结构示意图;
图11是本申请实施例提供的一种终端结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
下面将结合附图1-附图7,对本申请实施例提供的图像文本显示方法进行详细介绍。
请参见图1,为本申请实施例提供的一种图像文本显示方法的流程示意图。
如图1所示,本申请实施例的所述方法可以包括以下步骤:
S101,获取待识别图像包含的至少一个文本区域中目标文本区域内的文本,提取所述文本对应的至少一个语意特征。
本实施例中的待识别图像包含文本内容,可以是演示文稿(PowerPoint,PPT)中的某页,PDF文件或者相册中的某张图片等。根据文本的集中度或排版方式,所述待识别图像可以划分为一个或多个文本区域,每个文本区域均包含有部分文本,各部分文本可以是几个字/词、一句话或者一个段落等。图像中的文本采用OCR技术识别。
图2示出了一页演示文稿,如图所示,本页演示文稿包含两个文本区域,即图示第一文本区域与第二文本区域,第一文本区域与第二文本区域中的文本内容共同构成了该页演示文稿的全部内容。
将示意图中的第二文本区域作为目标文本区域,利用BERT模型(BidirectionalEncoder Representation from Transformers)对该区域中的文本进行语意特征提取。语意特征是对文本的简练概括,它能表达出文本所包含的意义。语意特征的提取可以针对目标文本区域中的全部内容,也可以针对目标文本区域中的局部内容。对于不同文本,语意特征可以提取出一个或多个。
例如针对图2中的第二文本区域,语意特征的提取结果为几何元素在设计中的作用与效果。
特别说明的是,本实施例中的目标文本区域指的是一个文本区域,在其他可行的实施例中,所述目标文本区域也可以是多个文本区域。
S102,基于所述至少一个语意特征对所述文本进行排版,得到目标排版文本。
根据文本的语意特征对文本进行排版,当文本的多个语意特征表述的是不同意义时,依据语意对该文本进行重新排版,获得目标排版;当文本仅提取出一个语意特征时,图像中该文本的排版即为目标排版。
例如图2中的第二文本区域,语意特征提取结果仅为几何元素在设计中的作用与效果,则图片中该区域文本的排版即为目标排版。
再如图3a所示课件,该页包含1、2、3、4四个文本区域,其中区域4为目标文本区域,采用OCR技术识别出该区域内的文字(文本排版如3b左侧图所示),再利用BERT模型提取语意特征,根据所提取的语意特征:基于相对的参照系统表述位置、基于绝对的参照系统表述位置、方向与距离的结合表述位置、数对方式表述位置可知,图3a第4区域中的①-④这4部分内容为并列关系(均是位置的表示方法),对所述识别出来的文本(3b左侧图)进行重新排版,获得目标排版文本,即3b右侧图所示的排版。
S103,生成并显示包含所述目标排版文本的最终排版文本,所述最终排版文本包括所述至少一个文本区域中各文本区域对应的排版文本。
逐一将图像中的文本区域作为目标文本区域进行文本排版之后,生成最终排版文本并通过显示屏显示给用户。所述最终排版文本可编辑,可选的如Word文档等。
图3a所示课件包含的四个文本区域在经过文本识别、语义特征提取以及文本排版之后,形成的最终排版文本如图3c所示。
本申请实施例提供的图像文本显示方法,先获取待识别图像包含的至少一个文本区域中目标文本区域内的文本并提取所述文本对应的至少一个语意特征,再基于所述至少一个语意特征对所述文本进行排版,得到目标排版文本,最后生成并显示包含所述目标排版文本的最终排版文本,所述最终排版文本包括所述至少一个文本区域中各文本区域对应的排版文本。所述方法在识别出待识别图像中的文本后,还要获取文本的语意特征,根据文本的语意特征对文本进行重新排版,并在待识别图像所有文本区域的文本均重新排版之后生成最终排版文本显示给用户,基于语意特征对文本进行自动调整,调整后的文本更接近于真实需求;文本排版全程无需用户手动参与,增加了排版的智能性;本申请提供的所述方法可用于不同类型的图像文本中,方法适用性强。
请参见图4,为本申请实施例提供的一种图像文本显示方法的流程示意图。
如图4所示,本申请实施例的所述方法可以包括以下步骤:
S201,获取待识别图像包含的至少一个文本区域中目标文本区域内的文本,逐行遍历所述文本对应的语句集合,分别提取所述语句集合中各语句的语意特征。
对目标文本区域内文本的排版可以精确到对每一句语句进行排版。具体的,先识别出所述待识别图像中目标文本区域内的文本,然后逐行遍历得到该文本的语句集合,再针对集合中的每个语句分别提取语意特征。
如图5a所示,为本申请提供的一PDF文件,该图中框出来的区域为目标文本区域,以句号为节点,遍历该区域内的文本,获得12个语句,这12个语句构成一个语句集合(其中,景区介绍、前往景区交通路线以及水果资源分别算是一个语句),采用BERT模型分别对集合中的每个语句进行语意特征提取。
本步骤未作详尽说明之处可参见S101,此处不再赘述。
S202,基于所述各语句的语意特征对所述语句集合进行分段,生成所述文本对应的第一段落集合。
根据每个语句的语意特征对所述语句集合中的各语句进行分段:语意特征相同的语句合并为一个段落,语意特征不同的语句划分为不同的段落。
具体于图5a目标文本区域内的文本也就是,根据语意特征,前往景区交通路线里的内容会被分为两个段落(该部分语意特征有交通路线以及游览注意点);水果资源里的内容会被分为两个段落(该部分语意特征有水果价格以及水果种类);所述语句集合中的其余语句各为一个段落。目标文本区域内的文本经过分段后,形成第一段落集合(该集合所包含的段落如图5b中所示)。
S203,获取所述第一段落集合中包含预设类型标识的第二段落集合。
预设类型标识例如为项目符号(★、●、◆)、编号(1.1、1.2、1.3)、表示列表格式的字符等。因对语句集合中的各语句进行段落划分会打乱原有的列表文本排序,造成无序而给后续阅读带来困扰,本实施例还需在语句分段后,在所生成的第一段落集合中获取第二段落集合,第二段落也就是各个带有预设类型标识的语句。
如图5b所示的第一段落集合,该集合包含了4个带有预设类型标识(1)-4))的段落,这4个段落构成了第二段落集合。特别说明的是,2)标识的段落包含两个语句,因这两个语句的语意特征均为企鹅,故在上一步骤中未被分为两个子段落,其他实施例中,若某一带有预设类型标识的段落包含多个语句且在语句分段时被划分为不同的子段落,那么,在获取第二段落集合时,这些子段落也将作为第二段落集合中的段落,且属于划分之前预设标识下的内容。
S204,基于所述预设类型标识对所述第二段落集合中各第二段落进行分段,生成所述各第二段落分别对应的目标段落集合。
当预设类型标识能够清楚地表示段落之间的先后顺序时(如一、二、三),按照标识依次分段排列第二段落集合中的各段落(一个预设类型标识为一个段落),生成目标段落集合。图5b所示的第一段落集合中,带有预设类型标识的1)-4)段落均是按照序列号有序排列的,无需再做排序,该排版即为目标段落集合。
当预设类型标识不能清楚地表示段落之间的先后顺序时(如×、×、×),根据各段落语意特征之间的关系确定排列先后顺序,然后按照该顺序对第二段落集合中的各段落进行分段排列,生成目标段落集合。
S205,对在所述目标段落集合以及所述第一段落集合中除所述第二段落集合以外的第三段落集合中所选择的单个段落设置目录级别。
将第一段落集合内、第二段落集合以外的段落形成的集合称为第三段落集合。于图5b中,第三段落集合也就是由景区介绍、前往景区交通路线及该节内容、水果资源及该节内容构成的(集合划分具体可参见图5c中的标示)。
目录级别即标题级别。为段落设置级别,本实施例是通过在第三段落集合中选择出任意一个段落自定义为其设置一个目录级别,然后再基于该段落的目录级别分别确定出其余段落的目录级别。
S206,获取所述目标段落集合以及所述第一段落集合中除所述第二段落集合以外的第三段落集合中各段落与所述所选择的单个段落的段落关系,基于所述段落关系以及所述所选择的单个段落的目录级别确定所述各段落的目录级别。
基于各段落的语意特征,分别确定出目标段落集合与所述所选择的单个段落之间的段落关系、第三段落集合中各段落与所述所选择的单个段落之间的段落关系,再根据段落关系以及所述所选择的单个段落的目录级别为其余各段落设置目录级别。所述段落关系例如可以是从属、并列以及无关联等,当两个段落之间的关系为从属关系时,目录级别为上下级;当两个段落之间的关系为并列关系时,目录级别为同等级;当两个段落之间无关联时,可以自定义另设目录级别(例如设置为一级目录)等。
S207,基于各段落的目录级别对所述目标段落集合以及所述第三段落集合进行排版,得到目标排版文本。
以图5c为例,在第三段落集合中选择的单个段落为景区介绍,并且设置该段落的目录级别为二级,那么,根据目标段落集合的语意特征以及第三段落集合中除景区介绍之外的其余段落的语意特征可以确定:前往景区交通路线/水果资源段落与景区介绍段落是并列关系,这两个段落的目录级别为二级,除此之外,第三段落集合中的剩余段落分别是对前往景区交通路线段落与水果资源段落的具体说明/介绍,属从属关系,为三级目录;目标段落集合与景区介绍段落为从属关系,目标段落集合的目录级别为三级。根据所确定的各段落的目录级别进行文本排版,生成目标排版文本。
上述所举之例针对的是图5a中的目标文本区域,本实施例还可以继续依照上述相同的步骤确定出该PDF文件中其余区域(也就是图5a中的大标题)的目录级别并进行文本排版,此处不再复述。
S208,生成并显示包含所述目标排版文本的最终排版文本,所述最终排版文本包括所述至少一个文本区域中各文本区域对应的排版文本。
该步骤具体可参见S103,此处不再赘述。
本实施例提供的图像文本显示方法,终端是基于目标文本区域内文本对应的语句集合中各语句的语意特征来进行段落划分/文本排本的,具体的,根据各语句的语意特征对集合中的各语句进行段落划分,形成第一段落集合;当第一段落集合里包含预设类型标识的段落时,还要确定出包含所述预设类型标识的第二段落集合并基于预设类型标识对该集合中的各段落进行分段;自定义设置所述第一段落集合中除所述第二段落集合以外的第三段落集合中所选择的单个段落的目录级别,并结合第一段落集合中各个段落之间的关系确定出每个段落的目录级别,再基于目录级别对所述各段落进行排版从而形成调整后的文本。本实施例中,语意特征提取精确到语句,基于语句间的语意特征确定目标文本区域中文本的整体排序,文本排版更条理清晰,逻辑更严谨。
请参见图6,为本申请实施例提供的一种图像文本显示方法的流程示意图。
如图6所示,本申请实施例的所述方法可以包括以下步骤:
S301,获取待识别图像,采用文本检测模型对所述待识别图像进行文本区域检测,得到至少一个文本区域。
待识别图像可以是某张PPT,某份PDF文件或者是某张图片等。可在相关图像所属应用例如PDF显示界面上增设图像文本识别按钮,用户触控该按钮输入图像文本识别指令,基于该指令终端获取所述界面展示的图像,并采用例如CTPN模型检测出所述图像中的文本区域。其中,CTPN是CNN+RNN端到端深度学习神经网络,它可以精确地定位图像中的文本行,例如,采用CTPN模型检测图7所示图片中的文本区域时,可获得2个文本区域(图中框出来的LOST区域和FOUND区域)。本实施例也可采用其他现有的文本区域检测模型。
当然,针对本申请提供的图像文本显示方法,还以单独开发应用,用户在该应用上点击图像上传按钮,上传需要识别的图像,应用再对上传的图像进行文本识别。
S302,采用文本识别模型识别所述至少一个文本区域中目标文本区域内的文本,逐行遍历所述文本对应的语句集合,分别提取所述语句集合中各语句的语意特征。
采用文本检测模型检测出待识别图像中的一个或多个文本区域后,利用如CRNN的文本识别模型分别识别出所述各个文本区域内的文本,并逐行遍历得到所述各个文本的语句集合,再针对各集合中的每个语句分别提取语意特征。
本步骤未作详尽说明之处可参见S201,此处不再赘述。
S303,基于所述各语句的语意特征,确定所述各语句中相邻语句的连贯性。
基于所述各语句的语意特征可以确定语句与语句之间的连续性。
语句集合是按照原本的文本排版逐行遍历获得的,因此,该集合中的各语句是有序排列的,逐一确定出相邻语句之间的连贯性即可确保该文本区域内整体文本的连贯性。
S304,当所述相邻语句的连贯性为连贯时,将所述相邻语句分为同一段落;当所述相邻语句的连贯性为不连贯时,将所述相邻语句分为不同段落,生成所述语句集合对应的第一段落集合,并对所述第一段落集合进行排版,得到目标排版文本。
当相邻语句的语意特征相似时,则表明语句连贯,将这两句划分为同一个段落(例如图5b中,语句“金玉企鹅参观额外需要20元小门票”与其前一句语意特征都为金玉企鹅,被分为同一个段落);当相邻语句的语意特征完全不同时,则表明语句不连贯,将这两句划分为不同段落(例如图5b中,语句“岛上交通方便,可乘坐2、4、8、15、17、18、19、旅游专线观光车前往”跟语句“另外岛上景点也多,若时间比较紧迫,可以少游览一些景点,或者放弃海上娱乐区”,一个表述的是乘坐交通,一个表述的是注意事项,语意特征不同,被划分为两段),集合中的所有语句段落划分完成后形成第一段落集合。
本步骤未作详尽说明之处具体可参见S102及S202,此处不再赘述。
S305,生成包含所述目标排版文本的最终排版文本,所述最终排版文本包括所述至少一个文本区域中各文本区域对应的排版文本,并按照并列方式显示所述各文本区域对应的排版文本。
逐一将图像中的文本区域作为目标文本区域进行文本排版之后,各区域按照并列方式排列生成最终排版文本,并通过显示屏显示给用户。所述最终排版文本可编辑,可选的如Word文档等。
当然,图像中各区域在经过排版之后,还可以按照扇形、表格等其他方式进行排列来生成最终排版文本。
本实施例采用文本检测模型来检测待识别图像包含的文本区域,并在所检测出的文本区域中确定出目标文本区域,利用文本识别模型识别出该目标文本区域内的文本,再逐行遍历获得语句集合,根据集合中相邻语句间的连贯性来进行段落划分,形成目标排版文本并生成最终排版文本显示给用户。通过模型检测文本区域并识别文本区域中的文本,文本内容获取精准度高。此外,无需借助服务器就可识别图像中的文本,减少了设备之间的交互过程,可有效提高文本的识别效率。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参见图8,为本申请一个示例性实施例提供的图像文本显示装置的结构示意图。该图像文本显示装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分,还可以作为独立的模块集成于服务器上。本申请实施例中的图像文本显示装置应用于终端,所述该装置1包括文本获取模块11、语意特征提取模块12、文本排版模块13和排版文本显示模块14,其中:
文本获取模块11,用于获取待识别图像包含的至少一个文本区域中目标文本区域内的文本;
语意特征提取模块12,用于提取所述文本对应的至少一个语意特征;
文本排版模块13,用于基于所述至少一个语意特征对所述文本进行排版,得到目标排版文本;
排版文本显示模块14,用于生成并显示包含所述目标排版文本的最终排版文本,所述最终排版文本包括所述至少一个文本区域中各文本区域对应的排版文本。
请参见图9,为本申请一个示例性实施例提供的图像文本显示装置的结构示意图。
可选的,如图9所示,本申请实施例提供的所述图像文本显示装置1中的语意特征提取模块12具体用于:
逐行遍历所述文本对应的语句集合,分别提取所述语句集合中各语句的语意特征;
所述文本排版模块13模块包括:
第一段落集合生成单元131,用于基于所述各语句的语意特征对所述语句集合进行分段,生成所述文本对应的第一段落集合;
目标段落集合生成单元132,用于获取所述第一段落集合中包含预设类型标识的第二段落集合,基于所述预设类型标识对所述第二段落集合中各第二段落进行分段,生成所述各第二段落分别对应的目标段落集合;
目录级别确定单元133,用于对在所述目标段落集合以及所述第一段落集合中除所述第二段落集合以外的第三段落集合中所选择的单个段落设置目录级别,获取所述目标段落集合以及所述第一段落集合中除所述第二段落集合以外的第三段落集合中各段落与所述所选择的单个段落的段落关系,基于所述段落关系以及所述所选择的单个段落的目录级别确定所述各段落的目录级别;
文本排版单元134,用于基于各段落的目录级别对所述目标段落集合以及所述第三段落集合进行排版,得到目标排版文本。
请参见图10,为本申请一个示例性实施例提供的图像文本显示装置的结构示意图。
可选的,如图10所示,本申请实施例提供的所述图像文本显示装置1中的文本获取模块11包括:
图像获取单元111,用于获取待识别图像;
文本区域获取单元112,用于采用文本检测模型对所述待识别图像进行文本区域检测,得到至少一个文本区域;
文本获取单元113,用于采用文本识别模型识别所述至少一个文本区域中目标文本区域内的文本;
所述装置1中的第一段落集合生成单元131包括:
语句连贯性确定子单元1311,用于基于所述各语句的语意特征,确定所述各语句中相邻语句的连贯性;
段落划分子单元1312,用于当所述相邻语句的连贯性为连贯时,将所述相邻语句分为同一段落,以及当所述相邻语句的连贯性为不连贯时,将所述相邻语句分为不同段落;
第一段落集合生成子单元1313,用于生成所述语句集合对应的第一段落集合;
所述装置1中的排版文本显示模块14具体用于:
生成包含所述目标排版文本的最终排版文本,所述最终排版文本包括所述至少一个文本区域中各文本区域对应的排版文本,并按照并列方式显示所述各文本区域对应的排版文本。
需要说明的是,上述实施例提供的图像文本显示装置在执行图像文本显示方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的图像文本显示装置与图像文本显示方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本申请实施例提供的图像文本显示装置,先获取待识别图像包含的至少一个文本区域中目标文本区域内的文本并提取所述文本对应的至少一个语意特征,再基于所述至少一个语意特征对所述文本进行排版,得到目标排版文本,最后生成并显示包含所述目标排版文本的最终排版文本,所述最终排版文本包括所述至少一个文本区域中各文本区域对应的排版文本。所述方法在识别出待识别图像中的文本后,还要获取文本的语意特征,根据文本的语意特征对文本进行重新排版,并在待识别图像所有文本区域的文本均重新排版之后生成最终排版文本显示给用户,基于语意特征对文本进行自动调整,调整后的文本更接近于真实需求;文本排版全程无需用户手动参与,增加了排版的智能性;本申请提供的所述方法可用于不同类型的图像文本中,方法适用性强。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任一实施例方法的步骤。其中,计算机可读存储介质可以包括但不限于任何类型的盘,包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米系统(包括分子存储器IC),或适合于存储指令和/或数据的任何类型的媒介或设备。
本申请实施例还提供了一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述任一实施例方法的步骤。
请参见图11,为本申请实施例提供的一种终端结构框图。
如图11所示,终端100包括有:处理器1101和存储器1102。
本申请实施例中,处理器1101为计算机系统的控制中心,可以是实体机的处理器,也可以是虚拟机的处理器。处理器1101可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1101可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable LogicArray,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(CentralProcessing Unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。
存储器1102可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在本申请的一些实施例中,存储器1102中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1101所执行以实现本申请实施例中的方法。
一些实施例中,终端100还包括有:外围设备接口1103和至少一个外围设备。处理器1101、存储器1102和外围设备接口1103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1103相连。具体地,外围设备包括:显示屏1104、摄像头1105和音频电路1106中的至少一种。
外围设备接口1103可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1101和存储器1102。在本申请的一些实施例中,处理器1101、存储器1102和外围设备接口1103被集成在同一芯片或电路板上;在本申请的一些其他实施例中,处理器1101、存储器1102和外围设备接口1103中的任意一个或两个可以在单独的芯片或电路板上实现。本申请实施例对此不作具体限定。
显示屏1104用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1104是触摸显示屏时,显示屏1104还具有采集在显示屏1104的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1101进行处理。此时,显示屏1104还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在本申请的一些实施例中,显示屏1104可以为一个,设置终端1100的前面板;在本申请的另一些实施例中,显示屏1104可以为至少两个,分别设置在终端1100的不同表面或呈折叠设计;在本申请的再一些实施例中,显示屏1104可以是柔性显示屏,设置在终端100的弯曲表面上或折叠面上。甚至,显示屏1104还可以设置成非矩形的不规则图形,也即异形屏。显示屏1104可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头1105用于采集图像或视频。可选地,摄像头1105包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在本申请的一些实施例中,摄像头1105还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1106可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1101进行处理。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。
电源1107用于为终端100中的各个组件进行供电。电源1107可以是交流电、直流电、一次性电池或可充电电池。当电源1107包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
本申请实施例中示出的终端结构框图并不构成对终端100的限定,终端100可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在本申请中,术语“第一”、“第二”等仅用于描述的目的,而不能理解为指示或暗示相对重要性或顺序;术语“多个”则指两个或两个以上,除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;“相连”可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
本申请的描述中,需要理解的是,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或单元必须具有特定的方向、以特定的方位构造和操作,因此,不能理解为对本申请的限制。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (7)

1.一种图像文本显示方法,其特征在于,所述方法包括:
获取待识别图像包含的至少一个文本区域中目标文本区域内的文本;
提取所述文本对应的至少一个语意特征;
基于所述至少一个语意特征对所述文本进行排版,得到目标排版文本;
生成并显示包含所述目标排版文本的最终排版文本,所述最终排版文本包括所述至少一个文本区域中各文本区域对应的排版文本;
其中,所述提取所述文本对应的至少一个语意特征,包括:
逐行遍历所述文本对应的语句集合,分别提取所述语句集合中各语句的语意特征;
其中,所述基于所述至少一个语意特征对所述文本进行排版,得到目标排版文本,包括:
基于所述各语句的语意特征对所述语句集合进行分段,生成所述文本对应的第一段落集合;
对所述第一段落集合进行排版,得到目标排版文本;
其中,所述对所述第一段落集合进行排版,得到目标排版文本,包括:
获取所述第一段落集合中包含预设类型标识的第二段落集合;
基于所述预设类型标识对所述第二段落集合中各第二段落进行分段,生成所述各第二段落分别对应的目标段落集合;
对所述目标段落集合以及所述第一段落集合中除所述第二段落集合以外的第三段落集合进行排版,得到目标排版文本;
其中,所述对所述目标段落集合以及所述第一段落集合中除所述第二段落集合以外的第三段落集合进行排版,得到目标排版文本,包括:
对在所述目标段落集合以及所述第一段落集合中除所述第二段落集合以外的第三段落集合中所选择的单个段落设置目录级别;
获取所述目标段落集合以及所述第一段落集合中除所述第二段落集合以外的第三段落集合中各段落与所述所选择的单个段落的段落关系,基于所述段落关系以及所述所选择的单个段落的目录级别确定所述各段落的目录级别;
基于各段落的目录级别对所述目标段落集合以及所述第三段落集合进行排版,得到目标排版文本。
2.根据权利要求1所述的方法,其特征在于,所述基于所述各语句的语意特征对所述语句集合进行分段,生成所述文本对应的第一段落集合,包括:
基于所述各语句的语意特征,确定所述各语句中相邻语句的连贯性;
当所述相邻语句的连贯性为连贯时,将所述相邻语句分为同一段落;
当所述相邻语句的连贯性为不连贯时,将所述相邻语句分为不同段落;
生成所述语句集合对应的第一段落集合。
3.根据权利要求1-2中任一项所述的方法,其特征在于,所述生成并显示包含所述目标排版文本的最终排版文本,所述最终排版文本包括所述至少一个文本区域中各文本区域对应的排版文本,包括:
生成包含所述目标排版文本的最终排版文本,所述最终排版文本包括所述至少一个文本区域中各文本区域对应的排版文本;
并按照并列方式显示所述各文本区域对应的排版文本。
4.根据权利要求1所述的方法,其特征在于,所述获取待识别图像包含的至少一个文本区域中目标文本区域内的文本,包括:
获取待识别图像;
采用文本检测模型对所述待识别图像进行文本区域检测,得到至少一个文本区域;
采用文本识别模型识别所述至少一个文本区域中目标文本区域内的文本。
5.一种图像文本显示装置,其特征在于,所述装置包括:
文本获取模块,用于获取待识别图像包含的至少一个文本区域中目标文本区域内的文本;
语意特征提取模块,用于提取所述文本对应的至少一个语意特征;
文本排版模块,用于基于所述至少一个语意特征对所述文本进行排版,得到目标排版文本;
排版文本显示模块,用于生成并显示包含所述目标排版文本的最终排版文本,所述最终排版文本包括所述至少一个文本区域中各文本区域对应的排版文本;
其中,所述语意特征提取模块具体用于:逐行遍历所述文本对应的语句集合,分别提取所述语句集合中各语句的语意特征;
所述文本排版模块包括:
第一段落集合生成单元,用于基于所述各语句的语意特征对所述语句集合进行分段,生成所述文本对应的第一段落集合;
目标段落集合生成单元,用于获取所述第一段落集合中包含预设类型标识的第二段落集合,基于所述预设类型标识对所述第二段落集合中各第二段落进行分段,生成所述各第二段落分别对应的目标段落集合;
目录级别确定单元,用于对在所述目标段落集合以及所述第一段落集合中除所述第二段落集合以外的第三段落集合中所选择的单个段落设置目录级别,获取所述目标段落集合以及所述第一段落集合中除所述第二段落集合以外的第三段落集合中各段落与所述所选择的单个段落的段落关系,基于所述段落关系以及所述所选择的单个段落的目录级别确定所述各段落的目录级别;
文本排版单元,用于基于各段落的目录级别对所述目标段落集合以及所述第三段落集合进行排版,得到目标排版文本。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现所述权利要求1-4中任一项所述方法的步骤。
7.一种终端,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现所述权利要求1-4中任一项所述方法的步骤。
CN202010092152.4A 2020-02-14 2020-02-14 图像文本显示方法、装置、存储介质及终端 Active CN111310435B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010092152.4A CN111310435B (zh) 2020-02-14 2020-02-14 图像文本显示方法、装置、存储介质及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010092152.4A CN111310435B (zh) 2020-02-14 2020-02-14 图像文本显示方法、装置、存储介质及终端

Publications (2)

Publication Number Publication Date
CN111310435A CN111310435A (zh) 2020-06-19
CN111310435B true CN111310435B (zh) 2023-09-08

Family

ID=71161657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010092152.4A Active CN111310435B (zh) 2020-02-14 2020-02-14 图像文本显示方法、装置、存储介质及终端

Country Status (1)

Country Link
CN (1) CN111310435B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8244037B2 (en) * 2007-11-15 2012-08-14 Master Wave International Company Ltd Image-based data management method and system
CN101807192B (zh) * 2009-12-31 2012-11-07 优视科技有限公司 一种用于移动通讯设备终端的网页页面光学字符识别处理方法
CN103810485A (zh) * 2014-01-22 2014-05-21 深圳市东信时代信息技术有限公司 识别装置、文字识别系统及方法
CN104239284A (zh) * 2014-09-15 2014-12-24 广州市西美信息科技有限公司 一种图文自动排版的方法和装置
CN105701082A (zh) * 2016-01-13 2016-06-22 刘敏 演示文档的自动排版方法及系统

Also Published As

Publication number Publication date
CN111310435A (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
CN109618222B (zh) 一种拼接视频生成方法、装置、终端设备及存储介质
CN109688463B (zh) 一种剪辑视频生成方法、装置、终端设备及存储介质
CN108073555B (zh) 用于从电子文档生成虚拟现实环境的方法和系统
CN114375435A (zh) 增强物理活动表面上的有形内容
CN109189879B (zh) 电子书籍显示方法及装置
CN110914872A (zh) 用认知洞察力导航视频场景
US20180276896A1 (en) System and method for augmented reality annotations
US20100289739A1 (en) Storage medium storing information processing program, information processing apparatus and information processing method
KR101378493B1 (ko) 영상 데이터에 동기화된 텍스트 데이터 설정 방법 및 장치
JP2016524229A (ja) 検索推奨方法及び装置
CN109155076B (zh) 自动识别和显示图形小说中的感兴趣对象
CN110795925B (zh) 基于人工智能的图文排版方法、图文排版装置及电子设备
US8002185B2 (en) Decoupled applications for printed materials
JP2011103588A (ja) 電子機器及び画像表示方法
Margolis et al. Methodological approaches to disclosing historic photographs
CN112232260A (zh) 字幕区域识别方法、装置、设备及存储介质
KR20130083049A (ko) 전자방명록 장치
CN111125550B (zh) 兴趣点分类方法、装置、设备及存储介质
CN110969159A (zh) 图像识别方法、装置及电子设备
Ouali et al. Architecture for real-time visualizing arabic words with diacritics using augmented reality for visually impaired people
JP4955596B2 (ja) 画像出力方法、装置およびプログラム
CN111310435B (zh) 图像文本显示方法、装置、存储介质及终端
CN111462548A (zh) 一种段落点读方法、装置、设备和可读介质
CN114967914A (zh) 一种虚拟显示方法、装置、设备以及存储介质
CN115130456A (zh) 语句解析、匹配模型的训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant