CN113780254A - 图片处理方法、装置、电子设备及计算机存储介质 - Google Patents

图片处理方法、装置、电子设备及计算机存储介质 Download PDF

Info

Publication number
CN113780254A
CN113780254A CN202111336354.XA CN202111336354A CN113780254A CN 113780254 A CN113780254 A CN 113780254A CN 202111336354 A CN202111336354 A CN 202111336354A CN 113780254 A CN113780254 A CN 113780254A
Authority
CN
China
Prior art keywords
text
picture
region
translated
target picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111336354.XA
Other languages
English (en)
Inventor
廖敏鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Damo Institute Hangzhou Technology Co Ltd
Original Assignee
Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Damo Institute Hangzhou Technology Co Ltd filed Critical Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority to CN202111336354.XA priority Critical patent/CN113780254A/zh
Publication of CN113780254A publication Critical patent/CN113780254A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种图片处理方法、装置、电子设备及计算机存储介质。将目标图片分割得到至少一个文本区域,每个文本区域中包括至少一个文本;对每个文本区域中的文本进行文本翻译,得到翻译后的文本区域;基于翻译后的文本区域进行拼接,得到所述目标图片的翻译图片。分割时通过将目标图片分割为多个图片块,对图片块进行文本检测并确定文本,并根据确定的文本将目标图片分割为包括文本的文本区域,使得对目标图片的分割更合理,保证一个文本不被分割到不同的文本区域,对文本区域中的文本进行翻译时文本是完整的,因而在实现对大尺寸图片处理的基础上可以保证翻译质量。

Description

图片处理方法、装置、电子设备及计算机存储介质
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种图片处理方法、装置、电子设备及计算机存储介质。
背景技术
一般而言,图片处理是一系列对图片进行修复、合成、编辑等操作的统称。随着人工智能技术的发展,利用深度学习(Deep learning)算法的机器学习模型能够极大地增强计算机的图片处理能力,提高了图片处理的速度和效率。
作为当前一种重要的图片处理技术,图片翻译处理能够对图片中的文字进行翻译并生成新的图片。图片翻译处理中往往采用基于卷积神经网络(Convolutional NeuralNetworks, CNN)的模型。
由于运行卷积神经网络模型的图形处理器(Graphics Processing Unit,GPU)等硬件性能的限制,现有的图片翻译技术难以实现大尺寸图片的处理。
发明内容
有鉴于此,本发明实施例提供一种图片处理方法、装置、电子设备及计算机存储介质,以至少部分解决上述问题。
根据本发明实施例的第一方面,提供了一种图片处理方法,包括:将目标图片分割得到至少一个文本区域,每个文本区域中包括至少一个文本;对每个文本区域中的文本进行文本翻译,得到翻译后的文本区域;基于翻译后的文本区域进行拼接,得到所述目标图片的翻译图片;其中,所述将目标图片分割得到至少一个文本区域,包括:将目标图片进行分割,得到多个图片块;对每个图片块进行文本特征检测,确定所述至少一个文本;从所述目标图片中分割包括至少一个文本的至少一个文本区域。
在第一方面的另一实现方式中,所述对每个图片块进行文本特征检测,确定所述至少一个文本,包括:对所述每个图片块进行文本特征检测,确定所述每个图片块中的文本特征区域;利用各个文本特征区域的文本特征形成至少一个文本。
在第一方面的另一实现方式中,所述对每个图片块进行文本特征检测,确定图片块中的文本特征区域,包括:根据所述至少一个文本分别对应的区域与所述目标图片的比例,确定卷积神经网络的卷积核大小;采用所述卷积神经网络,对所述多个图片块进行文本特征检测,确定所述图片块中的文本特征区域。
在第一方面的另一实现方式中,所述从所述目标图片中分割包括至少一个文本的至少一个文本区域,包括:在图片块中对所述至少一个文本进行位置标记;根据所述位置标记,将目标图片分割得到至少一个文本区域。
在第一方面的另一实现方式中,所述根据所述位置标记,将目标图片分割得到至少一个文本区域,包括:对文本进行掩膜处理,得到文本的掩膜图;确定所述掩膜图在所述目标图片的横向和纵向上的横向投影位置和纵向投影位置;根据所述横向投影位置和所述纵向投影位置,对所述目标图片进行分割。
在第一方面的另一实现方式中,所述基于翻译后的文本区域进行拼接,得到所述目标图片的翻译图片,包括:根据所述横向投影位置和所述纵向投影位置,合并翻译后的文本区域,得到所述翻译图片。
根据本发明实施例的第二方面,提供了一种图片处理装置,包括:分割模块,用于将目标图片分割得到至少一个文本区域,每个文本区域中包括至少一个文本,包括:将目标图片进行分割,得到多个图片块;对每个图片块进行文本特征检测,确定所述至少一个文本;从所述目标图片中分割包括至少一个文本的至少一个文本区域;翻译模块,用于对每个文本区域中的文本进行文本翻译,得到翻译后的文本区域;拼接模块,用于基于翻译后的文本区域进行拼接,得到所述目标图片的翻译图片。
根据本发明实施例的第三方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面所述的方法对应的操作。
根据本发明实施例的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的方法。
在本发明实施例的方案中,将目标图片分割得到至少一个文本区域,每个文本区域中包括至少一个文本;对每个文本区域中的文本进行文本翻译,得到翻译后的文本区域;基于翻译后的文本区域进行拼接,得到所述目标图片的翻译图片。分割时通过将目标图片分割为多个图片块,对图片块进行文本检测并确定文本,并根据确定的文本将目标图片分割为包括文本的文本区域,使得对目标图片的分割更合理,保证一个文本不被分割到不同的文本区域,对文本区域中的文本进行翻译时文本是完整的,因而在实现对大尺寸图片处理的基础上可以保证翻译质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为一个示例的图片处理方法的示意图;
图2A为根据本发明的一个实施例的图片处理方法的步骤流程图;
图2B为根据本发明的另一实施例的图片处理方法的示意图;
图3A为根据本发明的另一实施例的图片处理方法的步骤流程图;
图3B为根据本发明的另一实施例的图片处理方法的示意图;
图3C为根据本发明的另一实施例的图片处理方法的示意图;
图4为根据本发明的另一实施例的图片处理方法的步骤流程图;
图5为根据本发明的另一实施例的图片处理方法的步骤流程图;
图6为根据本发明的另一实施例的图片处理装置的结构框图;
图7为根据本发明的另一实施例的电子设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
一般而言,在图片翻译处理中,首先对目标图片进行文本识别,得到文本区域中的待翻译文本,然后在文本区域中将待翻译文本的翻译文本替换待翻译文本,得到翻译后的图片,换句话说,在图片翻译中,带有基于一种语言文本的图片经过处理可以得到另一种语言文本的图片。
如图1所示,首先检测到目标图片中的文本区域,即,英文文本“There is a cat”所在的文本区域,然后进行文本的翻译,将待翻译文本翻译成翻译文本,中文文本“那有一只猫”是其翻译文本,然后将翻译文本填回到文本区域。
目标图片经过这样的处理,一方面,提高了目标图片的可读性,在诸如换联网跨境服务中能够对图片进行批量翻译处理,提高了用户互动体验;另一方面,通过文本区域的识别,没有改变图片自身的构图,保证了用户浏览体验。
应理解,上述图片翻译处理的语言仅仅是示例性的,也可以将目标图片中的中文文本翻译成英文文本或其他文本,或者,在其他不同语言之间进行转换。
下面将参照图2A对本发明的一个实施例的图片处理方法进行说明。图2A的图片处理方法包括以下步骤:
S120:将目标图片分割得到至少一个文本区域,每个文本区域中包括至少一个文本。
S140:对每个文本区域中的文本进行文本翻译,得到翻译后的文本区域。
S160:基于翻译后的文本区域进行拼接,得到所述目标图片的翻译图片。
在步骤S120中,与目标图片中的图形特征不同,文中的文本是指目标图片中能够被翻译的部分,文本可以通过任意文本识别技术或文本检测技术进行识别,然后将识别出的文本进行翻译。在文本识别中,被识别出的文本不必然是具有完整文本特征的文本,换言之,被识别出的文本可以包括部分缺失,只要能够识别出文本的语义即可。此外,文本可以包括不同语言的文本特征,例如,单词、字符、汉字等文本特征。翻译前的文本与翻译后的文本都可以属于任意语言。
另外,文本区域是与文本对应的区域,文本区域的数量可以根据文本的数量确定,优选地,文本区域与文本一一对应。文本区域可以包括或覆盖文本,也可以部分覆盖或大致覆盖文本。在对文本区域的分割处理时,相应的文本大致未被分割,以便保证翻译后的图片的浏览效果。
在步骤S140中,对文本区域中文本的翻译可以是实时翻译,也可以是用预先翻译的文本进行替换。前述目标图片如果是一次全部分割或批量分割,则翻译可以一次进行或批量进行,如果图片分割是依次分割,每次分割一个文本区域,则翻译可以对每次分割的文本区域分别翻译,也可以是图片分割完成后统一进行翻译。翻译可以是将文本区域中的文本翻译成某一种目标语言的文本并得到这种个目标语言的文本区域,也可以是翻译成多种语言的文本并得到包括多种语言的文本区域。
在步骤S160中,对文本区域的拼接可以是将全部分割的文本区域一起进行拼接,也可以是填充式拼接,即分割出一个文本区域,进行翻译,再将翻译后的文本区域填充到原先文本区域的位置。如果目标图片的分割是横向和纵向分割,则拼接也按横向和纵向进行。
在本发明实施例中,由于包括至少一个文本的至少一个文本区域从目标图片中分割出来小于目标图片的尺寸,使得基于至少一个文本区域中的文本进行翻译时减小了对硬件性能的要求,拼接翻译后的文本区域所得到的翻译图片与目标图片尺寸一致,因此实现了对大尺寸图片的处理。
下面将参照图2B对图2A的实施例进行进一步的示例性解释和说明。
具体地,参照图2B,对左侧待处理的目标图片进行文本区域识别,确定文本“thereis a blue car it is beautiful”以及“I like the car”所在的文本区域,作为分割参考区域。
基于分割参考区域,将目标图片分割为4个区域,其中,作为分割参考区域的两个包括文本的区域为文本区域,另两个区域为不包括文本的非文本区域。
对带有文本的两个文本区域内进行语义识别得到待翻译文本。
翻译待翻译文本得到翻译文本“一辆蓝车,很漂亮”以及“我喜欢车”。
在文本区域中,将待翻译文本替换为翻译文本。
基于包括翻译文本的文本区域,进行图片拼接处理,得到右侧的翻译图片。
在一些实施例中,对文本区域进行文字识别得到待翻译文本之后还可以对待翻译文本进行文本平滑处理,进一步为翻译做好准备,提高翻译效果。
在一些实施例中,替换文本区域中的待翻译文本为翻译文本可以包括擦除图片中的待翻译文本,以及将翻译文本填充到文本区域中待翻译文本的位置。
在得到两个包括文本的文本区域翻译后的文本区域后,将翻译后的文本区域和不包括文本的非文本区域按照其在目标图片中的位置(坐标)进行拼接即可得到目标图片的翻译图片。
在本实施例中,目标图片分割出的4个区域中有两个包括文本的文本区域和两个不包括文本的非文本区域,拼接时需要拼接翻译后的文本区域和不包括文本的非文本区域。
在一些实施例中,目标图片分割出的区域都包括至少一个文本,则需要翻译所有的文本区域中的文本,拼接时将全部翻译后的文本区域进行拼接得到目标图片的翻译图片。
下面将参照图3A、图3B和图3C进一步对另一示例的图片处理方进行说明。
参照图4,所述S120将目标图片分割得到至少一个文本区域,包括:
S221:将目标图片进行分割,得到多个图片块。
具体地,处理目标图片时,可以先将目标图片分割成多个图片块。比如图3B中,目标图片被分割为8x10共80个图片块。分割的图片块的数量主要根据图片大小确定,也可以参考文本的大小和数量。每个图片块可以表示为patch{x,y},其中x和y为图片块的横坐标和纵坐标。
S222:对每个图片块进行文本特征检测,确定所述至少一个文本。
对分割的图片块进行文本特征检测,可以确定目标图片中的一个或多个文本。
在一种实施例中,S222对所述多个图片块进行文本特征检测,确定所述至少一个文本可以包括:
对所述每个图片块进行文本特征检测,确定所述每个图片块中的文本特征区域;
利用各个文本特征区域的文本特征形成至少一个文本。
具体地,参照图3B,目标图片被分割成80个图片块,分别对这些图片块进行文本特征检测,确定每个图片块中的文本特征区域,比如,通过文本特征检测可以确定patch{2,5}、patch{3,5}、patch{4,5}、patch{2,6}、patch{3,6}和patch{4,6}以及patch{7,3}、patch{8,3}和patch{9,3}分别包括的文本特征区域。
在确定图片块中的文本区域特征后,通过各个文本特征区域的文本特征形成至少一个文本。通过patch{2,5}、patch{3,5}、patch{4,5}、patch{2,6}、patch{3,6}和patch{4,6}确定的文本特征区域中的文本特征可以形成一个文本“There is a blue car, it isbeautiful”,通过patch{7,3}、patch{8,3}和patch{9,3}确定的文本特征区域中的文本特征可以形成另一个文本“I like the car”。
在另一种实施例中,所述对每个图片块进行文本特征检测,确定图片块中的文本特征区域,包括:
根据所述至少一个文本分别对应的区域与所述目标图片的比例,确定卷积神经网络的卷积核大小;
采用所述卷积神经网络,对所述多个图片块进行文本特征检测,确定所述图片块中的文本特征区域。
具体地,对多个图片快进行文本检测可以通过卷积神经网络进行,从而确定至少一个文本。卷积神经网络的卷积核的大小根据文本对应的区域大小和目标图片的大小确定。进一步地,卷积核的大小根据文本对应区域和目标图片的比例确定,文本对应区域和目标图片的比例越大则卷积核越小,反之,比例越小则卷积核越大。
S223:从所述目标图片中分割包括至少一个文本的至少一个文本区域。
图3C中将目标图片分割为5x5共25个文本区域,文本区域也可以用context_patch{i,j}表示,其中i和j为文本区域的横坐标和纵坐标。
具体地,对目标图片进行分割时,要以文本为最小单位,不能将文本分割。比如图3B中包括两个文本文本“There is a blue car, it is beautiful”和“I like the car”;则在目标图片中可以分割出context_patch{12,14}和context_patch{14,12}两个分别对应前述两个文本的文本区域。
本实施例中,通过将目标图片分割为多个图片块,对图片块进行文本检测并确定文本,并根据确定的文本将目标图片分割为包括文本的文本区域,这种方式下,对目标图片的分割更合理,保证一个文本不被分割到不同的文本区域,对文本区域中的文本进行翻译时文本是完整的,因而可以保证翻译质量。
参照图4,在本发明的另一种实施例中,所述S120所述将目标图片分割得到至少一个文本区域,包括:
S321在目标图片中对至少一个文本进行位置标记。
具体地,文本在目标图片中的位置也可以用坐标表示,context{m,n},仍以图3B中的图片为例,文本“There is a blue car, it is beautiful”在其中的位置可以表示为context {2,5}、context {3,5}、context {4,5}、context {2,6}、context {3,6}和context {4,6}。与前述步骤S221-S223中的分割方式不同的是,目标图片不用分割成图片块,只需对文本的位置进行标记。
S322根据所述位置标记,将目标图片分割得到至少一个文本区域。
具体地,根据标记的文本位置分割图片时要同一个文本的多个位置被分割在同一个文本区域中,从而保证文本的完整。
这种分割方式以文本的位置为基础,先标记文本的位置,再根据标记的位置分割图片,图片的分割更简便,容易实现。
需要说明的是前述步骤S221-S222和S321-S322分别单独描述了不同的方式来将分割目标图片,实际上这两种方式也可以结合起来进行。比如,将目标图片分割得到多个图片块并确定至少一个文本后,也可以标记文本的位置,进而分割目标图片。
参照图5,在本发明的另一种实施例中,所述S322根据所述位置标记,将目标图片分割得到至少一个文本区域,包括:
S3221对文本进行掩膜处理,得到所述文本的掩膜图;
S3222确定所述掩膜图在所述目标图片的横向和纵向上的横向投影位置和纵向投影位置;
S3223根据所述横向投影位置和所述纵向投影位置,对所述目标图片进行分割。
具体地,可以根据标记的文本位置对文本进行掩膜处理,得到文本的掩膜图;对得到的文本掩膜图进行横向投影和纵向投影,可以确定其横向投影位置和纵向投影位置;根据横向投影位置和纵向投影位置即可对目标图片进行分割,得到包括至少一个文本的至少一个文本区域。
在本发明的另一种实施例中,在上述步骤S3221之后,还可以对得到掩膜图进行膨胀,从而为分割留下余量,保证同一文本不被分割到不同的文本区域。膨胀比例可以根据掩膜图的大小和目标图片的大小确定,具体地,根据掩膜图和目标图片的比例确定,掩膜图和目标图片的比例较小时膨胀比例可以大一些,反之,比例较大时,膨胀比例可以小一些。
在本发明的另一种实施例中,所述S160基于翻译后的文本区域进行拼接,得到所述目标图片的翻译图片,包括:
根据所述横向投影位置和所述纵向投影位置,合并翻译后的文本区域,得到所述翻译图片。
具体地,S3222确定的文本的掩膜图的横向和纵向投影位置用来分割图片为文本区域,并翻译文本区域后,可以将翻译后的文本区域拼接到前述横向和纵向投影位置来实现合并翻译后的文本区域,得到翻译图片。
在这种实施方式中根据包括文本掩膜图的横向和纵向投影位置来合并翻译后的文本区域,图片的合并更准确,不易出错。
图6为根据本发明的另一实施例的图处理装置的结构框图。图7的图片处理装置包括:
分割模块610,用于将目标图片分割得到至少一个文本区域,每个文本区域中包括至少一个文本;
翻译模块620,用于对每个文本区域中的文本进行文本翻译,得到翻译后的文本区域;
拼接模块630,用于基于翻译后的文本区域进行拼接,得到所述目标图片的翻译图片。
在本发明实施例的方案中,将目标图片分割得到至少一个文本区域,每个文本区域中包括至少一个文本;对每个文本区域中的文本进行文本翻译,得到翻译后的文本区域;基于翻译后的文本区域进行拼接,得到所述目标图片的翻译图片。由于包括至少一个文本的至少一个文本区域从目标图片中分割出来小于目标图片的尺寸,使得基于至少一个文本区域中的文本进行翻译时减小了对硬件性能的要求,拼接翻译后的文本区域所得到的翻译图片与目标图片尺寸一致,因此实现了对大尺寸图片的处理。
在本发明的另一实现方式中,分割模块具体用于:将目标图片进行分割,得到多个图片块;对每个图片块进行文本特征检测,确定所述至少一个文本;从所述目标图片中分割包括至少一个文本的至少一个文本区域。基于神经网络算法进行文本检测时,对多个图片块分别进行文本检测,减小了对硬件性能的要求。
在本发明的另一实现方式中,分割模块具体用于:对所述每个图片块进行文本特征检测,确定所述每个图片块中的文本特征区域;利用各个文本特征区域的文本特征形成至少一个文本。
在本发明的另一实现方式中,分割模块具体用于:根据所述至少一个文本分别对应的区域与所述目标图片的比例,确定卷积神经网络的卷积核大小;采用所述卷积神经网络,对所述多个图片块进行文本特征检测,确定所述图片块中的文本区域,从而高效地进行了文本区域的确定,实现了诸如图片批处理的目的。
在本发明的另一实现方式中,分割模块具体用于:在目标图片中对至少一个文本进行位置标记;根据所述位置标记,将目标图片分割得到至少一个文本区域,从而提高了文本区域的分割效率以及后续的区域拼接效率。
在本发明的另一实现方式中,分割模块具体用于:对文本进行掩膜处理,得到所述文本的掩膜图;确定所述掩膜图在所述目标图片的横向和纵向上的横向投影位置和纵向投影位置;根据所述横向投影位置和所述纵向投影位置,对所述目标图片进行分割。掩膜图有利于兼容了图片分割处理方法,无需过多对图片分割处理方法进行改动。
在本发明的另一实现方式中,拼接模块具体用于:根据所述横向投影位置和所述纵向投影位置,合并翻译后的文本区域,得到所述翻译图片,提高了区域拼接的准确性和效率。
在本发明的另一实现方式中,分割模块具体用于:在目标图片的横向和纵向上分割所述目标图片,得到多个图片块;对所述多个图片块进行文本特征检测,确定所述至少一个文本;从所述目标图片中,分割包括至少一个文本的至少一个文本区域。分割模块还用于:根据目标图片的多个图片块,确定所述掩膜图在横向和纵向上的横向投影位置和纵向投影位置,提高了图片分割与区域拼接的处理过程基于投影位置对应,提高了图片处理的整体效率。
本实施例的装置用于实现前述多个方法实施例中相应的方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本实施例的装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述,在此亦不再赘述。
参照图7,示出了根据本发明的另一实施例的电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图7所示,该电子设备可以包括:处理器(processor)702、通信接口(Communications Interface)704、存储器(memory)706、以及通信总线708。
其中:
处理器702、通信接口704、以及存储器706通过通信总线708完成相互间的通信。
通信接口704,用于与其它电子设备或服务器进行通信。
处理器702,用于执行程序710,具体可以执行上述方法实施例中的相关步骤。
具体地,程序710可以包括程序代码,该程序代码包括计算机操作指令。
处理器702可能是CPU,或者是特定集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器706,用于存放程序710。存储器706可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序710具体可以用于使得处理器702执行以下操作:
分割目标图片中的包括至少一个文本的至少一个文本区域;分别对所述至少一个文本区域中的至少一个文本进行文本翻译,得到翻译后的文本区域;基于翻译后的文本区域进行拼接,得到所述目标图片的翻译图片。
此外,程序710中各步骤的具体实现可以参见上述方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
需要指出,根据实施的需要,可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本发明实施例的目的。
上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的方法。此外,当通用计算机访问用于实现在此示出的方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。
以上实施方式仅用于说明本发明实施例,而并非对本发明实施例的限制,有关技术领域的普通技术人员,在不脱离本发明实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明实施例的范畴,本发明实施例的专利保护范围应由权利要求限定。

Claims (9)

1.一种图片处理方法,包括:
将目标图片分割得到至少一个文本区域,每个文本区域中包括至少一个文本;
对每个文本区域中的文本进行文本翻译,得到翻译后的文本区域;
基于翻译后的文本区域进行拼接,得到所述目标图片的翻译图片;
其中,所述将目标图片分割得到至少一个文本区域,包括:
将目标图片进行分割,得到多个图片块;
对每个图片块进行文本特征检测,确定所述至少一个文本;
从所述目标图片中分割包括至少一个文本的至少一个文本区域。
2.根据权利要求1所述的方法,其中,所述对每个图片块进行文本特征检测,确定所述至少一个文本,包括:
对所述每个图片块进行文本特征检测,确定所述每个图片块中的文本特征区域;
利用各个文本特征区域的文本特征形成至少一个文本。
3.根据权利要求2所述的方法,其中,所述对每个图片块进行文本特征检测,确定图片块中的文本特征区域,包括:
根据所述至少一个文本分别对应的区域与所述目标图片的比例,确定卷积神经网络的卷积核大小;
采用所述卷积神经网络,对所述多个图片块进行文本特征检测,确定所述图片块中的文本特征区域。
4.根据权利要求1所述的方法,其中,所述从所述目标图片中分割包括至少一个文本的至少一个文本区域,包括:
在图片块中对所述至少一个文本进行位置标记;
根据所述位置标记,将目标图片分割得到至少一个文本区域。
5.根据权利要求4所述的方法,其中,所述根据所述位置标记,将目标图片分割得到至少一个文本区域,包括:
对文本进行掩膜处理,得到所述文本的掩膜图;
确定所述掩膜图在所述目标图片的横向和纵向上的横向投影位置和纵向投影位置;
根据所述横向投影位置和所述纵向投影位置,对所述目标图片进行分割。
6.根据权利要求5所述的方法,其中,所述基于翻译后的文本区域进行拼接,得到所述目标图片的翻译图片,包括:
根据所述横向投影位置和所述纵向投影位置,合并翻译后的文本区域,得到所述翻译图片。
7.一种图片处理装置,包括:
分割模块,用于将目标图片分割得到至少一个文本区域,每个文本区域中包括至少一个文本,包括:将目标图片进行分割,得到多个图片块;对每个图片块进行文本特征检测,确定所述至少一个文本;从所述目标图片中分割包括至少一个文本的至少一个文本区域;
翻译模块,用于对每个文本区域中的文本进行文本翻译,得到翻译后的文本区域;
拼接模块,用于基于翻译后的文本区域进行拼接,得到所述目标图片的翻译图片。
8.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-6中任一项所述的方法对应的操作。
9.一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN202111336354.XA 2021-11-12 2021-11-12 图片处理方法、装置、电子设备及计算机存储介质 Pending CN113780254A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111336354.XA CN113780254A (zh) 2021-11-12 2021-11-12 图片处理方法、装置、电子设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111336354.XA CN113780254A (zh) 2021-11-12 2021-11-12 图片处理方法、装置、电子设备及计算机存储介质

Publications (1)

Publication Number Publication Date
CN113780254A true CN113780254A (zh) 2021-12-10

Family

ID=78957020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111336354.XA Pending CN113780254A (zh) 2021-11-12 2021-11-12 图片处理方法、装置、电子设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN113780254A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114219876A (zh) * 2022-02-18 2022-03-22 阿里巴巴达摩院(杭州)科技有限公司 文本合并方法、装置、设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001291058A (ja) * 2000-04-07 2001-10-19 Fujitsu Ltd 文字認識装置及び記録媒体
CN104966049A (zh) * 2015-06-01 2015-10-07 江苏大为科技股份有限公司 基于图像的货车检测方法
CN109977723A (zh) * 2017-12-22 2019-07-05 苏宁云商集团股份有限公司 大票据图片文字识别方法
CN110276253A (zh) * 2019-05-15 2019-09-24 中国科学院信息工程研究所 一种基于深度学习的模糊文字检测识别方法
CN110807769A (zh) * 2019-10-30 2020-02-18 腾讯科技(深圳)有限公司 图像显示控制方法及装置
CN111563440A (zh) * 2020-04-29 2020-08-21 上海海事大学 一种基于异构卷积的多核迭代rpn的目标检测方法
CN111612003A (zh) * 2019-02-22 2020-09-01 北京京东尚科信息技术有限公司 一种提取图片中的文本的方法和装置
CN111611986A (zh) * 2020-05-11 2020-09-01 上海翎腾智能科技有限公司 一种基于手指交互的焦点文本提取和识别方法及系统
CN111723585A (zh) * 2020-06-08 2020-09-29 中国石油大学(华东) 一种风格可控的图像文本实时翻译与转换方法
CN112115937A (zh) * 2019-06-20 2020-12-22 成都天府新区光启未来技术研究院 目标识别方法、装置、计算机设备和存储介质
CN112288767A (zh) * 2020-11-04 2021-01-29 成都寰蓉光电科技有限公司 一种基于目标自适应投影的自动检测与跟踪方法
CN112328348A (zh) * 2020-11-05 2021-02-05 深圳壹账通智能科技有限公司 应用程序多语言支持方法、装置、计算机设备及存储介质
CN112836694A (zh) * 2021-02-05 2021-05-25 广州华多网络科技有限公司 图像文字提取方法、装置、计算机设备及存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001291058A (ja) * 2000-04-07 2001-10-19 Fujitsu Ltd 文字認識装置及び記録媒体
CN104966049A (zh) * 2015-06-01 2015-10-07 江苏大为科技股份有限公司 基于图像的货车检测方法
CN109977723A (zh) * 2017-12-22 2019-07-05 苏宁云商集团股份有限公司 大票据图片文字识别方法
CN111612003A (zh) * 2019-02-22 2020-09-01 北京京东尚科信息技术有限公司 一种提取图片中的文本的方法和装置
CN110276253A (zh) * 2019-05-15 2019-09-24 中国科学院信息工程研究所 一种基于深度学习的模糊文字检测识别方法
CN112115937A (zh) * 2019-06-20 2020-12-22 成都天府新区光启未来技术研究院 目标识别方法、装置、计算机设备和存储介质
CN110807769A (zh) * 2019-10-30 2020-02-18 腾讯科技(深圳)有限公司 图像显示控制方法及装置
CN111563440A (zh) * 2020-04-29 2020-08-21 上海海事大学 一种基于异构卷积的多核迭代rpn的目标检测方法
CN111611986A (zh) * 2020-05-11 2020-09-01 上海翎腾智能科技有限公司 一种基于手指交互的焦点文本提取和识别方法及系统
CN111723585A (zh) * 2020-06-08 2020-09-29 中国石油大学(华东) 一种风格可控的图像文本实时翻译与转换方法
CN112288767A (zh) * 2020-11-04 2021-01-29 成都寰蓉光电科技有限公司 一种基于目标自适应投影的自动检测与跟踪方法
CN112328348A (zh) * 2020-11-05 2021-02-05 深圳壹账通智能科技有限公司 应用程序多语言支持方法、装置、计算机设备及存储介质
CN112836694A (zh) * 2021-02-05 2021-05-25 广州华多网络科技有限公司 图像文字提取方法、装置、计算机设备及存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
H RITHIKA ET AL: "Image text to speech conversion in the desired language by translating with Raspberry Pi", 《2016 IEEE INTERNATIONAL CONFERENCE ON COMPUTATIONAL INTELLIGENCE AND COMPUTING RESEARCH (ICCIC)》 *
张旭: "基于动作识别的智能视频监控", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
张洁勤: "自然街景下的文本目标检测和识别方法研究", 《万方数据》 *
王晓艺等: "二值文本信息翻译过程中光学字符识别方法研究", 《激光杂志》 *
谭诗雨等: "复杂背景下银行卡号识别方法研究  ", 《成都信息工程大学学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114219876A (zh) * 2022-02-18 2022-03-22 阿里巴巴达摩院(杭州)科技有限公司 文本合并方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US10726599B2 (en) Realistic augmentation of images and videos with graphics
US20060197999A1 (en) Image processing apparatus, image processing method, and image processing program
CN108765534A (zh) 一种图像渲染方法、装置、设备及存储介质
CN112418216A (zh) 一种复杂自然场景图像中的文字检测方法
CN107545223B (zh) 图像识别方法及电子设备
CN110796663B (zh) 图片剪裁方法、装置、设备和存储介质
CN102467519B (zh) 基于地理信息系统的可视化标绘方法及系统
CN113780254A (zh) 图片处理方法、装置、电子设备及计算机存储介质
CN116597466A (zh) 一种基于改进YOLOv5s的工程图纸文字检测识别方法及系统
CN110211032B (zh) 汉字字符的生成方法、装置及可读存储介质
CN114419632A (zh) 一种ocr训练样本生成方法、装置及系统
CN112598687B (zh) 图像分割方法和装置、存储介质、电子设备
US11189010B2 (en) Method and apparatus for image processing
CN113537184A (zh) Ocr模型训练方法、装置、计算机设备、存储介质
CN115797533A (zh) 模型描边方法、装置、设备及存储介质
CN112395834B (zh) 基于图片输入的脑图生成方法、装置、设备及存储介质
CN114237468A (zh) 文字图片的翻译方法、装置、电子设备及可读存储介质
CN114898375A (zh) 字符检测模型训练方法及组件,文本识别方法及组件
US11468658B2 (en) Systems and methods for generating typographical images or videos
CN111191580B (zh) 合成渲染方法、装置、电子设备及介质
CN114549700A (zh) 基于漫画翻译的排版区域确定方法及装置
CN114399782B (zh) 文本图像处理方法、装置、设备、存储介质及程序产品
CN116612269B (zh) 交互式分割标注方法、装置、计算机设备及存储介质
CN112101369B (zh) 图像分割方法和装置
CN113743400B (zh) 一种基于深度学习的电子公文智能审查方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination