CN108985201A - 图像处理方法、介质、装置和计算设备 - Google Patents

图像处理方法、介质、装置和计算设备 Download PDF

Info

Publication number
CN108985201A
CN108985201A CN201810713149.2A CN201810713149A CN108985201A CN 108985201 A CN108985201 A CN 108985201A CN 201810713149 A CN201810713149 A CN 201810713149A CN 108985201 A CN108985201 A CN 108985201A
Authority
CN
China
Prior art keywords
target area
target
image
color
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810713149.2A
Other languages
English (en)
Inventor
谢仪伦
宫思伟
林会杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NET EASE YOUDAO INFORMATION TECHNOLOGY (BEIJING) Co Ltd
Netease Youdao Information Technology Beijing Co Ltd
Original Assignee
NET EASE YOUDAO INFORMATION TECHNOLOGY (BEIJING) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NET EASE YOUDAO INFORMATION TECHNOLOGY (BEIJING) Co Ltd filed Critical NET EASE YOUDAO INFORMATION TECHNOLOGY (BEIJING) Co Ltd
Priority to CN201810713149.2A priority Critical patent/CN108985201A/zh
Publication of CN108985201A publication Critical patent/CN108985201A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明的实施方式提供了一种图像处理方法、介质、装置和计算设备。该图像处理方法包括:识别输入的目标图像中需要翻译的文字内容及所述文字内容所在的目标区域;对所述文字内容进行翻译,得到翻译结果;将所述翻译结果显示在所述目标区域内;将所述目标图像之后输入的其它图像与所述目标图像进行对比;若所述其它图像与所述目标图像之间的差异小于或等于预定值,则将所述翻译结果显示在所述其它图像中与所述目标区域对应的区域内。本发明实施例的技术方案避免了重复进行识别及翻译而导致增加处理器的负荷及降低实时翻译的效率,有利于提升用户的使用体验。

Description

图像处理方法、介质、装置和计算设备
技术领域
本发明的实施方式涉及通信及计算机技术领域,更具体地,本发明的实施方式涉及图像处理方法、介质、装置和计算设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
目前,已有的增强现实翻译方案是对输入的视频流中的每一帧图像都进行如下处理:采用OCR(Optical Character Recognition,光学字符识别)技术按词识别图片中的文字,之后通过查词得到翻译结果,再把翻译结果展示在图像中的相应位置。
发明内容
但是,由于现有的增强现实翻译方案是按词来识别并进行翻译的,未考虑段落内及段落之间的语义信息,因此整段文字的翻译结果没有可读性,翻译质量差。同时由于现有的增强现实翻译方案需要对视频流中的每一帧图像进行文字识别及翻译处理,因此给处理器带来了较大的处理负荷,导致实时翻译效率低,有碍于用户体验的提升。
为此,非常需要一种改进的图像处理方案,一方面可以提高图像中文字内容的翻译质量,另一方面避免了重复进行文字识别及翻译而导致增加处理器的负荷及降低实时翻译的效率,有利于提升用户的使用体验。
在本上下文中,本发明的实施方式期望提供一种图像处理方法、介质、装置和计算设备。
在本发明实施方式的第一方面中,提供了一种图像处理方法,包括:识别输入的目标图像中需要翻译的文字内容及所述文字内容所在的目标区域;对所述文字内容进行翻译,得到翻译结果;将所述翻译结果显示在所述目标区域内;将所述目标图像之后输入的其它图像与所述目标图像进行对比;若所述其它图像与所述目标图像之间的差异小于或等于预定值,则将所述翻译结果显示在所述其它图像中与所述目标区域对应的区域内。
在本发明的一些实施方式中,基于前述方案,将所述翻译结果显示在所述目标区域内,包括:通过所述翻译结果替换所述文字内容显示在所述目标区域内。
在本发明的一些实施方式中,基于前述方案,通过所述翻译结果替换所述文字内容显示在所述目标区域内,包括:识别所述目标区域的背景颜色;根据所述目标区域的背景颜色生成所述目标区域对应的背景图;将所述背景图和所述翻译结果显示在所述目标区域内。
在本发明的一些实施方式中,基于前述方案,识别所述目标区域的背景颜色,包括:对所述目标图像进行二值化处理,得到二值化结果;确定所述目标区域的边缘上的各个像素点对应的二值化结果,以及所述各个像素点的颜色值;根据所述目标区域的边缘上的各个像素点对应的二值化结果,确定属于所述目标区域的背景部分的目标像素点;根据所述目标像素点的颜色值,确定所述目标区域的背景颜色。
在本发明的一些实施方式中,基于前述方案,对所述目标图像进行二值化处理,得到二值化结果,包括:将所述目标图像转换为灰度图;基于所述灰度图,通过自适应二值化方法获取所述二值化结果。
在本发明的一些实施方式中,基于前述方案,根据所述目标区域的边缘上的各个像素点对应的二值化结果,确定属于所述目标区域的背景部分的目标像素点,包括:根据所述目标区域的边缘上的各个像素点对应的二值化结果,对所述各个像素点进行分类,得到两类像素点;将所述两类像素点中数量最多的一类像素点作为所述目标像素点。
在本发明的一些实施方式中,基于前述方案,根据所述目标区域的背景颜色生成所述目标区域对应的背景图,包括:对于所述目标区域中除所述目标像素点之外的其他像素点,根据所述其他像素点的邻域像素的颜色值,计算所述其他像素点的颜色值;根据所述目标像素点的颜色值和所述其他像素点的颜色值,生成所述背景图。
在本发明的一些实施方式中,基于前述方案,根据所述其他像素点的邻域像素的颜色值,计算所述其他像素点的颜色值,包括:对于所述其他像素点中的任一像素点,计算所述任一像素点的四邻域或八邻域内的像素点的颜色值均值;将计算得到的颜色值均值作为所述任一像素点的颜色值。
在本发明的一些实施方式中,基于前述方案,根据所述其他像素点的邻域像素的颜色值,计算所述其他像素点的颜色值,包括:对于所述目标区域,按照预定的遍历方向,依次计算所述其他像素点中的每个像素点的颜色值。
在本发明的一些实施方式中,基于前述方案,所述预定的遍历方向包括:从所述目标区域的左上角到右上角的方向。
在本发明的一些实施方式中,基于前述方案,在将所述背景图和所述翻译结果显示在所述目标区域内之前,还包括:对所述背景图进行中值滤波和边缘模糊处理。
在本发明的一些实施方式中,基于前述方案,将所述翻译结果显示在所述其它图像中与所述目标区域对应的区域内,包括:将所述翻译结果显示在所述其它图像中与所述目标区域对应的指定区域内并替换掉所述指定区域内的内容。
在本发明的一些实施方式中,基于前述方案,将所述翻译结果显示在所述其它图像中与所述目标区域对应的指定区域内并替换掉所述指定区域内的内容,包括:识别所述指定区域的背景颜色;根据所述指定区域的背景颜色生成所述指定区域对应的背景图;将所述指定区域对应的背景图和所述翻译结果显示在所述指定区域内。
在本发明的一些实施方式中,基于前述方案,所述的方法还包括:识别所述目标区域内的文字内容的文字颜色;基于所述文字颜色,对显示在所述目标区域内的所述翻译结果进行渲染。
在本发明的一些实施方式中,基于前述方案,识别所述文字内容的文字颜色,包括:根据对所述目标图像进行二值化处理得到的二值化结果,确定所述目标区域中的文字内容对应的各个像素点的颜色值;根据所述目标区域中的文字内容对应的各个像素点的颜色值,确定所述文字内容的文字颜色。
在本发明的一些实施方式中,基于前述方案,根据所述目标区域中的文字内容对应的各个像素点的颜色值,确定所述文字内容的文字颜色,包括:计算所述目标区域中的文字内容对应的各个像素点的颜色值均值;根据所述颜色值均值,确定所述文字内容的文字颜色。
在本发明的一些实施方式中,基于前述方案,根据所述颜色值均值,确定所述文字内容的文字颜色,包括:若所述颜色值均值与所述目标区域的颜色值之间的差值处于预定范围内,则将所述目标区域的颜色的相反色作为所述文字内容的文字颜色;若所述颜色值均值与所述目标区域的颜色值之间的差值未处于所述预定范围内,则将所述颜色值均值作为所述文字内容的文字颜色值。
在本发明的一些实施方式中,基于前述方案,所述的方法还包括:若所述其它图像与所述目标图像之间的差异大于所述预定值,则将所述其它图像作为新的目标图像,并重新识别所述新的目标图像中包含的文字内容。
在本发明的一些实施方式中,基于前述方案,所述的方法还包括:识别所述其它图像中与所述目标区域对应的指定区域内包含的内容的颜色;基于所述指定区域内包含的内容的颜色,对显示在所述指定区域内的所述翻译结果进行渲染。
在本发明的一些实施方式中,基于前述方案,在将所述目标图像之后输入的其它图像与所述目标图像进行对比之前,还包括:将所述其它图像和所述目标图像转换为灰度图,以基于所述其它图像的灰度图和所述目标图像的灰度图,将所述其它图像与所述目标图像进行对比。
根据本发明实施方式的第二方面,提供了一种介质,其上存储有程序,该程序被处理器执行时实现如上述实施例中所述的方法。
根据本发明实施方式的第三方面,提供了一种图像处理装置,包括:内容识别单元,用于识别输入的目标图像中需要翻译的文字内容及所述文字内容所在的目标区域;翻译单元,用于对所述文字内容进行翻译,得到翻译结果;第一显示单元,用于将所述翻译结果显示在所述目标区域内;对比单元,用于将所述目标图像之后输入的其它图像与所述目标图像进行对比;第二显示单元,用于在所述其它图像与所述目标图像之间的差异小于或等于预定值时,将所述翻译结果显示在所述其它图像中与所述目标区域对应的区域内。
在本发明的一些实施方式中,基于前述方案,所述第一显示单元用于:通过所述翻译结果替换所述文字内容显示在所述目标区域内。
在本发明的一些实施方式中,基于前述方案,所述第一显示单元包括:背景颜色识别单元,用于识别所述目标区域的背景颜色;背景生成单元,用于根据所述目标区域的背景颜色生成所述目标区域对应的背景图;执行单元,用于将所述背景图和所述翻译结果显示在所述目标区域内。
在本发明的一些实施方式中,基于前述方案,所述背景颜色识别单元用于:对所述目标图像进行二值化处理,得到二值化结果;确定所述目标区域的边缘上的各个像素点对应的二值化结果,以及所述各个像素点的颜色值;根据所述目标区域的边缘上的各个像素点对应的二值化结果,确定属于所述目标区域的背景部分的目标像素点;根据所述目标像素点的颜色值,确定所述目标区域的背景颜色。
在本发明的一些实施方式中,基于前述方案,所述背景颜色识别单元用于:将所述目标图像转换为灰度图;基于所述灰度图,通过自适应二值化装置获取所述二值化结果。
在本发明的一些实施方式中,基于前述方案,所述背景颜色识别单元用于:根据所述目标区域的边缘上的各个像素点对应的二值化结果,对所述各个像素点进行分类,得到两类像素点;将所述两类像素点中数量最多的一类像素点作为所述目标像素点。
在本发明的一些实施方式中,基于前述方案,所述背景颜色识别单元用于:对于所述目标区域中除所述目标像素点之外的其他像素点,根据所述其他像素点的邻域像素的颜色值,计算所述其他像素点的颜色值;根据所述目标像素点的颜色值和所述其他像素点的颜色值,生成所述背景图。
在本发明的一些实施方式中,基于前述方案,所述背景颜色识别单元用于:对于所述其他像素点中的任一像素点,计算所述任一像素点的四邻域或八邻域内的像素点的颜色值均值;将计算得到的颜色值均值作为所述任一像素点的颜色值。
在本发明的一些实施方式中,基于前述方案,所述背景颜色识别单元用于:对于所述目标区域,按照预定的遍历方向,依次计算所述其他像素点中的每个像素点的颜色值。
在本发明的一些实施方式中,基于前述方案,所述预定的遍历方向包括:从所述目标区域的左上角到右上角的方向。
在本发明的一些实施方式中,基于前述方案,所述的装置还包括:处理单元,用于所述执行单元将所述背景图和所述翻译结果显示在所述目标区域内之前,对所述背景图进行中值滤波和边缘模糊处理。
在本发明的一些实施方式中,基于前述方案,所述第二显示单元用于:将所述翻译结果显示在所述其它图像中与所述目标区域对应的指定区域内并替换掉所述指定区域内的内容。
在本发明的一些实施方式中,基于前述方案,所述第二显示单元用于:识别所述指定区域的背景颜色;根据所述指定区域的背景颜色生成所述指定区域对应的背景图;将所述指定区域对应的背景图和所述翻译结果显示在所述指定区域内。
在本发明的一些实施方式中,基于前述方案,所述的装置还包括:文字颜色识别单元,用于识别所述目标区域内的文字内容的文字颜色;第一渲染单元,用于基于所述文字颜色,对显示在所述目标区域内的所述翻译结果进行渲染。
在本发明的一些实施方式中,基于前述方案,所述文字颜色识别单元包括:第一确定单元,用于根据对所述目标图像进行二值化处理得到的二值化结果,确定所述目标区域中的文字内容对应的各个像素点的颜色值;第二确定单元,用于根据所述目标区域中的文字内容对应的各个像素点的颜色值,确定所述文字内容的文字颜色。
在本发明的一些实施方式中,基于前述方案,所述第二确定单元用于:计算所述目标区域中的文字内容对应的各个像素点的颜色值均值;根据所述颜色值均值,确定所述文字内容的文字颜色。
在本发明的一些实施方式中,基于前述方案,所述第二确定单元用于:若所述颜色值均值与所述目标区域的颜色值之间的差值处于预定范围内,则将所述目标区域的颜色的相反色作为所述文字内容的文字颜色;若所述颜色值均值与所述目标区域的颜色值之间的差值未处于所述预定范围内,则将所述颜色值均值作为所述文字内容的文字颜色值。
在本发明的一些实施方式中,基于前述方案,所述内容识别单元还用于:若所述其它图像与所述目标图像之间的差异大于所述预定值,则将所述其它图像作为新的目标图像,并重新识别所述新的目标图像中包含的文字内容。
在本发明的一些实施方式中,基于前述方案,所述的装置还包括:内容颜色识别单元,用于识别所述其它图像中与所述目标区域对应的指定区域内包含的内容的颜色;第二渲染单元,用于基于所述指定区域内包含的内容的颜色,对显示在所述指定区域内的所述翻译结果进行渲染。
在本发明的一些实施方式中,基于前述方案,所述对比单元还用于:在将所述目标图像之后输入的其它图像与所述目标图像进行对比之前,将所述其它图像和所述目标图像转换为灰度图,以基于所述其它图像的灰度图和所述目标图像的灰度图,将所述其它图像与所述目标图像进行对比。
根据本发明实施方式的第四方面,提供了一种计算设备,包括:处理器和存储器,所述存储器存储有可执行指令,所述处理器用于调用所述存储器存储的可执行指令执行如上述实施例中所述的方法。
根据本发明实施方式的图像处理方法、介质、装置和电子设备,通过识别输入的目标图像中需要翻译的文字内容,以基于识别到的文字内容进行翻译,使得能够基于所有需要翻译的文字内容来进行翻译,考虑到了段落内及段落之间的语义信息,提高了翻译质量。同时,通过在将翻译结果显示目标图像中的目标区域内之后,将目标图像之后输入的其它图像与该目标图像进行对比,并在其它图像与该目标图像之间的差异小于或等于预定值时,将翻译结果显示在其它图像中与该目标区域对应的区域,使得对于目标图像之后输入的其它图像,如果其与目标图像的差异较小(差异较小说明只是摄像头的细微抖动造成的),则无需对该其它图像中的文字内容重新进行识别及翻译,只需将之前得到的翻译结果显示在相应的区域内即可,避免了重复进行识别及翻译而导致增加处理器的负荷及降低实时翻译的效率,有利于提升用户的使用体验。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示意性示出了根据本发明的一个实施例的图像处理方法的流程图;
图2示意性示出了根据本发明的一个实施例的通过翻译结果替换文字内容显示在目标区域内的流程图;
图3示意性示出了根据本发明的一个实施例的识别目标区域的背景颜色的流程图;
图4示意性示出了根据本发明的一个实施例的对显示在目标区域内的文字颜色进行识别及渲染的处理流程图;
图5示意性示出了根据本发明的一个实施例的识别目标区域内的文字内容的文字颜色的流程图;
图6示出了根据本发明的实施例的对图像处理前后的对比效果示意图;
图7示意性示出了根据本发明的一个实施例的图像处理装置的框图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本发明更加透彻和完整,并且能够将本发明的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本发明可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种图像处理方法、介质、装置和电子设备。
在本文中,需要理解的是,所涉及的术语“OCR”主要是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。
术语“NMT”是Neural Machine Translation的缩写,中文含义为神经网络机器翻译,主要是指利用深度神经网络进行机器翻译的技术。
术语“RGB”是工业界的一种颜色标准,主要是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各种颜色,RGB即是代表红、绿、蓝三个通道的颜色,这个标准几乎包括了人类视力所能感知的所有颜色,是目前运用最广泛的颜色系统之一。
术语“灰度图”是指每个像素只有一个采样颜色的图像,这类图像通常显示为从最暗黑色到最亮的白色的灰度。
术语“二值化处理”是指将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的黑白效果的过程。
术语“AR”即为Augmented Reality,中文翻译为增强现实,是一种实时计算摄影机影像的位置及角度并加上相应图像、视频、3D模型的技术,这种技术的目标是在屏幕上把虚拟世界套在现实世界并进行互动。
此外,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
发明概述
本发明人发现,由于现有的增强现实翻译方案是按词来识别并进行翻译的,未考虑段落内及段落之间的语义信息,因此整段文字的翻译结果没有可读性,翻译质量差。同时由于现有的增强现实翻译方案需要对视频流中的每一帧图像进行文字识别及翻译处理,因此给处理器带来了较大的处理负荷,导致实时翻译效率低,有碍于用户体验的提升。
因此,本发明的实施方式提供了一种图像处理方法、介质、装置和计算设备,一方面可以提高图像中文字内容的翻译质量,另一方面避免了重复进行文字识别及翻译而导致增加处理器的负荷及降低实时翻译的效率,有利于提升用户的使用体验。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
应用场景总览
需要注意的是,下述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
应用场景:用户开启终端的摄像头,并通过摄像头的取景窗对准包含有需要翻译的文字内容的图像,进而终端能够识别到图像中需要翻译的文字内容,然后对识别到的文字内容进行翻译,最后将翻译结果显示在取景窗的相应位置处并覆盖原来的文字内容。如果由于终端的抖动或移动导致摄像头取景窗中的图像发生变动,那么可以通过比对摄像头采集到的视频流中新输入的图像与最初输入的图像之间的差异,若该差异较小,则无需对新输入的图像进行文字识别及翻译,只需将翻译结果显示在新输入的图像中的相应位置即可,避免了重复进行文字识别及翻译而导致增加处理器的负荷及降低实时翻译的效率。而在新输入的图像与最初输入的图像之间的差异较大时,说明更换了需要进行文字识别及翻译的图像,此时可以重新识别并翻译新输入的图像中的文字内容。
示例性方法
下面结合上述的应用场景,参考图1至图6来描述根据本发明示例性实施方式的图像处理方法。
图1示意性示出了根据本发明的一个实施例的图像处理方法的流程图,该方法的执行主体可以是具有处理功能的各种设备,比如智能手机、平板电脑、智能穿戴设备等,更具体地,可以是安装在智能手机、平板电脑、智能穿戴设备等中的应用程序。
参照图1所示,根据本发明的一个实施例的图像处理方法,包括如下步骤S110至步骤S150,以下对各个步骤的实现细节进行详细阐述:
在步骤S110中,识别输入的目标图像中需要翻译的文字内容及所述文字内容所在的目标区域。
在本发明的一个实施例中,可以通过OCR技术识别目标图像中需要翻译的文字内容。需要说明的是,目标图像可以是摄像头采集到的第一张图像,或者是采集到的第一张清晰的图像。
在步骤S120中,对所述文字内容进行翻译,得到翻译结果。
在本发明的一个实施例中,对文字内容进行翻译可以是根据本地存储的字典来进行翻译,也可以是将识别到的文字内容发送至其他设备(如NMT翻译引擎)进行翻译,然后再接收其他设备回传的翻译结果。
在步骤S130中,将所述翻译结果显示在所述目标区域内。
在本发明的一个实施例中,可以将翻译结果显示在所述目标区域内原本的内容之上(不替换原先的内容);或者也可以通过该翻译结果替换目标区域内的文字内容并显示在该目标区域内,这样使得在显示翻译结果时能够不对原来图像中的其它元素造成影响,提高了翻译结果在图像中的展示效果,同时能够增强可读性。
在本发明的一个实施例中,如图2所示,根据本发明的一个实施例的通过翻译结果替换文字内容显示在目标区域内的流程,包括如下步骤S210至步骤S230,以下分别进行说明:
在步骤S210中,识别所述目标区域的背景颜色。
在本发明的一个实施例中,如图3所示,根据本发明的一个实施例的识别目标区域的背景颜色的流程,包括如下步骤:
步骤S310,对所述目标图像进行二值化处理,得到二值化结果。
在本发明的一个实施例中,可以将目标图像转换为灰度图,然后基于得到的灰度图,通过自适应二值化方法获取对应的二值化结果。比如可以采用OpenCV中提供的自适应二值化方法来获取二值化结果,其中,OpenCV是一个开源的跨平台计算机视觉库,可以运行在Linux、Windows、Android和Mac OS等操作系统上。
步骤S320,确定所述目标区域的边缘上的各个像素点对应的二值化结果,以及所述各个像素点的颜色值。
需要说明的是,本发明的实施例中之所以对目标区域的边缘上的各个像素点进行处理是因为在目标区域的边缘上,文字内容通常占用的像素点个数较少,而文字内容与背景部分的颜色一般相差较大,因此可以根据目标区域的边缘上的像素点进行处理来确定哪些像素点是属于背景部分的像素点。
步骤S330,根据所述目标区域的边缘上的各个像素点对应的二值化结果,确定属于所述目标区域的背景部分的目标像素点。
在本发明的一个实施例中,可以根据目标区域的边缘上的各个像素点对应的二值化结果,对该各个像素点进行分类,得到两类像素点,然后将这两类像素点中数量最多的一类像素点作为所述目标像素点。
在该实施例中,如上所述,在目标区域的边缘上,文字内容通常占用的像素点个数较少,而文字内容与背景部分的颜色一般相差较大,因此当根据二值化结果对目标区域的边缘上的各个像素点进行分类之后,数量较多的那一类像素点就是背景部分的像素点。
步骤S340,根据所述目标像素点的颜色值,确定所述目标区域的背景颜色。
继续参照图2所示,在步骤S220中,根据所述目标区域的背景颜色生成所述目标区域对应的背景图。
在本发明的一个实施例中,步骤S220包括:对于所述目标区域中除所述目标像素点之外的其他像素点,根据所述其他像素点的邻域像素的颜色值,计算所述其他像素点的颜色值;根据所述目标像素点的颜色值和所述其他像素点的颜色值,生成所述背景图。
在本发明的一些实施方式中,对于其他像素点中的任一像素点,可以计算该任一像素点的四邻域或八邻域内的像素点的颜色值均值,然后将计算得到的颜色值均值作为该任一像素点的颜色值。
在本发明的一个实施例中,可以按照预定的遍历方向,依次计算文字区域内除所述目标像素点之外的其他像素点的颜色值,这样能够保证在计算某一像素点的颜色值时,其邻域内可以有较多的像素点已经具有了颜色值。
其中,预定的遍历方向可以是从文字区域的左上角到右上角的方向,当然也可以是从文字区域的右上角到左上角的方向,或者是其他方向。
继续参照图2所示,在步骤S230中,将所述背景图和所述翻译结果显示在所述目标区域内。
在本发明的一个实施例中,在将该背景图和该翻译结果显示在该目标区域内之前,还可以对背景图进行中值滤波和边缘模糊处理,以确保将背景图显示在目标区域内时,能够与目标图像中的其它区域相匹配,进而能够优化翻译结果的显示效果。
继续参照图1所示,在步骤S140中,将所述目标图像之后输入的其它图像与所述目标图像进行对比。
在本发明的一个实施例中,在将该目标图像之后输入的其它图像与该目标图像进行对比之前,还可以将其它图像和该目标图像转换为灰度图,以基于其它图像的灰度图和该目标图像的灰度图,将其它图像与该目标图像进行对比。该实施例的技术方案通过对灰度图进行对比,可以降低对比过程中的计算量,减少了处理资源的占用量,进而能够提高图像对比的效率。
继续参照图1所示,在步骤S150中,若所述其它图像与所述目标图像之间的差异小于或等于预定值,则将所述翻译结果显示在所述其它图像中与所述目标区域对应的区域内。
在本发明的一个实施例中,可以将该翻译结果显示在所述其它图像中与所述目标区域对应的指定区域内并替换掉所述指定区域内的内容,这样使得在显示翻译结果时能够提高翻译结果在图像中的展示效果,同时能够增强可读性。在本发明的另一个实施例中,还可以将翻译结果显示在该指定区域内原本的内容之上(即不替换原先的内容)。
在本发明的一个实施例中,还可以识别上述其它图像中与目标区域对应的指定区域的背景颜色,然后根据该指定区域的背景颜色生成该指定区域对应的背景图,并将该指定区域对应的背景图和该翻译结果显示在该指定区域内。其中,识别指定区域的背景颜色的方案及根据该指定区域的背景颜色生成该指定区域对应的背景图的方案类似于前述的识别目标区域的背景颜色及根据目标区域的背景颜色生成目标区域对应的背景图的方案。
在本发明的一个实施例中,若所述其它图像与所述目标图像之间的差异大于所述预定值,则将所述其它图像作为新的目标图像,并重新识别所述新的目标图像中包含的文字内容。需要说明的是,当其他图像与目标图像之间的差异较大时,说明摄像头采集到的图像发生了变化,因此需要重新进行文字内容的识别。
在上述实施方式提供的技术方案的基础上,本发明的实施方式还提出了对显示在目标区域内的文字颜色进行识别及渲染的处理过程,具体参照图4所示,包括步骤S410和步骤S420,以下对这两个步骤的实现细节进行阐述:
在步骤S410中,识别目标区域内的文字内容的文字颜色。
在本发明的一个实施例中,如图5所示,识别目标区域内的文字内容的文字颜色具体包括:
步骤S510,根据对所述目标图像进行二值化处理得到的二值化结果,确定所述目标区域中的文字内容对应的各个像素点的颜色值。
在本发明的一个实施例中,由于文字内容的颜色通常比背景颜色要深,因此在对目标图像进行二值化处理之后,可以根据目标区域对应的二值化结果来确定文字内容对应的各个像素点(这些像素点二值化的结果为255),然后确定目标区域中的文字内容对应的各个像素点的颜色值。
步骤S520,根据所述目标区域中的文字内容对应的各个像素点的颜色值,确定所述文字内容的文字颜色。
在本发明的一个实施例中,可以计算该目标区域中的文字内容对应的各个像素点的颜色值均值,然后根据该颜色值均值,确定该文字内容的文字颜色。比如,若该颜色值均值与目标区域的颜色值之间的差值处于预定范围内,则将目标区域的颜色的相反色作为文字内容的文字颜色,以突出文字颜色与目标区域颜色之间的差别;若所述颜色值均值与所述目标区域的颜色值之间的差值未处于所述预定范围内,则将所述颜色值均值作为所述文字内容的文字颜色值。
步骤S420,基于所述文字颜色,对显示在所述目标区域内的所述翻译结果进行渲染。
图4所示的技术方案使得将翻译结果显示在目标图像上之后,可以确保翻译结果能够与图像背景有较大的区别,保证能够清楚查看到翻译结果,提升了翻译结果在图像中的展示效果,同时能够增强可读性。
此外,在本发明的一个实施例中,还可以识别上述其它图像中与该目标区域对应的指定区域内包含的内容的颜色,然后基于该指定区域内包含的内容的颜色,对显示在该指定区域内的翻译结果进行渲染。其中,识别该指定区域内包含的内容的颜色的方案以及对显示在指定区域内的翻译结果进行渲染的方案类似于前述实施例中所述的识别目标区域内的文字内容的文字颜色和对目标区域内的翻译结果进行渲染的方案。
基于本发明上述实施例的技术方案,参照图6所示,当对摄像头采集到的图像上的文字内容进行翻译之后,可以在相应的位置上通过翻译结果替换掉原来的文字内容,保证了不对图像中的其它元素造成影响,能够进而便于理解原始图像所表达的含义。
以上介绍了根据本发明的实施方式的图像处理方法的各部分细节,总体而言,本发明实施方式中的图像处理方法主要包含三部分:计算图像之间的差异并实现图像跟随、生成背景图片并获取字体颜色,以及结果渲染,以下分别对这三部分进行简要说明:
计算图像之间的差异并实现图像跟随
在本发明的实施例中,可以设置一跟随模块将摄像头第一次采集到的图像输入作为模块初始图,然后计算后续输入的图像与该初始图之间的差异,比如可以选取MedianFlow算法来计算图像之间的差异,如果图像之间的差异过大则认为摄像头更换了采集目标,需要重新初始化。
每次初始化的同时,将图像输入给离线OCR和离线NMT完成逐行的文字内容和位置识别以及逐段翻译。因为该操作比较耗时,所以只在跟随模块初始化的时候进行,随后完全根据跟随模块的输出来变换结果位置以实现增强现实的跟随效果,即根据跟随模块输出的对比结果,将翻译结果显示在后续输入图像的相应位置。
由于图像跟随方案对图像的颜色并不敏感,因此在本发明的实施例中可以将输入的图像处理为灰度图,进而也能够减少跟随模块的运算量,优化了资源占用和处理效率。
生成背景图片并获取字体颜色
在本发明的一个实施例中,可以设置一取色模块来根据之前得到的离线OCR识别出的文本行的位置信息和段落信息来计算背景颜色。具体地,可以将图像二值化处理,然后分离出背景部分和前景部分,然后抠掉前景部分后对每一文本行的背景部分进行中值滤波和边缘模糊处理,进而能够得到不包含文字的纯净背景。
在本发明的一个实施例中,可以根据图像的二值化结果确定文字内容的位置,然后取其像素颜色的平均值作为文字内容的候选颜色,如果该候选颜色与背景颜色相近,则取背景颜色的反色作为文字内容的颜色,反之用候选颜色作为字的颜色。
由于光线对图像背景的识别影响较大,因此在本发明的实施例中,可以对每一帧图像都进行取色和渲染处理,使最终的翻译结果更贴合逼真。
结果渲染
在本发明的一个实施例中,为了保证跟随模块和取色模块处理的关键帧图片是清晰的,可以利用加速度计和陀螺仪数据判断设备的移动和抖动情况,然后通过调参确定清晰图像允许的抖动范围,丢弃输入的模糊图像。
同时,由于CPU(Central Processing Unit,中央处理器)资源应该更多的用作OCR和NMT翻译以及跟随算法,因此在实际处理过程中,可以充分发挥GPU(GraphicsProcessing Unit,图形处理器)处理图像的能力,利用GPU完成图像色彩空间转换和像素压缩,每两个像素采样一次,进而可以在保证图像清晰的情况下,尽可能减少图像大小,提高后续的处理效率。
之后可以将对每一帧处理后的图像作为前述跟随模块的输入,以确定如何跟随以及是否需要重新识别。同时将该图像作为取色模块的输入,计算该帧图像的背景颜色以及文字颜色。
最后,根据跟随模块的结果和取色模块的结果,将翻译后的内容渲染在屏幕上,渲染的关键在于用生成的背景图和翻译结果替换原帧相应位置的内容,实现了增强翻译的效果。
本发明上述实施例的技术方案能够快速有效的识别图像中文字区域的背景以及文字颜色,并且能够快速处理视频中每一帧图像并将结果重新渲染回视频,确保翻译结果的展示更为逼真,达到增强现实的效果。此外,由于本发明实施例中是对需要翻译的内容进行整体翻译,因此可以确保翻译结果更加接近人工翻译,提高了翻译结果的可读性。
示例性介质
在介绍了本发明示例性实施方式的方法之后,接下来,对本发明示例性实施方式的介质进行说明。
在一些可能的实施方式中,本发明的各个方面还可以实现为一种介质,其上存储有程序代码,当所述程序代码被设备的处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的图像处理方法中的步骤。
具体地,所述设备的处理器执行所述程序代码时用于实现如下步骤:识别输入的目标图像中需要翻译的文字内容及所述文字内容所在的目标区域;对所述文字内容进行翻译,得到翻译结果;将所述翻译结果显示在所述目标区域内;将所述目标图像之后输入的其它图像与所述目标图像进行对比;若所述其它图像与所述目标图像之间的差异小于或等于预定值,则将所述翻译结果显示在所述其它图像中与所述目标区域对应的区域内。
在本发明的一些实施方式中,所述设备的处理器执行所述程序代码时用于实现如下步骤:通过所述翻译结果替换所述文字内容显示在所述目标区域内。
在本发明的一些实施方式中,所述设备的处理器执行所述程序代码时用于实现如下步骤:识别所述目标区域的背景颜色;根据所述目标区域的背景颜色生成所述目标区域对应的背景图;将所述背景图和所述翻译结果显示在所述目标区域内。
在本发明的一些实施方式中,所述设备的处理器执行所述程序代码时用于实现如下步骤:对所述目标图像进行二值化处理,得到二值化结果;确定所述目标区域的边缘上的各个像素点对应的二值化结果,以及所述各个像素点的颜色值;根据所述目标区域的边缘上的各个像素点对应的二值化结果,确定属于所述目标区域的背景部分的目标像素点;根据所述目标像素点的颜色值,确定所述目标区域的背景颜色。
在本发明的一些实施方式中,所述设备的处理器执行所述程序代码时用于实现如下步骤:将所述目标图像转换为灰度图;基于所述灰度图,通过自适应二值化方法获取所述二值化结果。
在本发明的一些实施方式中,所述设备的处理器执行所述程序代码时用于实现如下步骤:根据所述目标区域的边缘上的各个像素点对应的二值化结果,对所述各个像素点进行分类,得到两类像素点;将所述两类像素点中数量最多的一类像素点作为所述目标像素点。
在本发明的一些实施方式中,所述设备的处理器执行所述程序代码时用于实现如下步骤:对于所述目标区域中除所述目标像素点之外的其他像素点,根据所述其他像素点的邻域像素的颜色值,计算所述其他像素点的颜色值;根据所述目标像素点的颜色值和所述其他像素点的颜色值,生成所述背景图。
在本发明的一些实施方式中,所述设备的处理器执行所述程序代码时用于实现如下步骤:对于所述其他像素点中的任一像素点,计算所述任一像素点的四邻域或八邻域内的像素点的颜色值均值;将计算得到的颜色值均值作为所述任一像素点的颜色值。
在本发明的一些实施方式中,所述设备的处理器执行所述程序代码时用于实现如下步骤:对于所述目标区域,按照预定的遍历方向,依次计算所述其他像素点中的每个像素点的颜色值。
在本发明的一些实施方式中,基于前述方案,所述预定的遍历方向包括:从所述目标区域的左上角到右上角的方向。
在本发明的一些实施方式中,所述设备的处理器执行所述程序代码时还用于实现如下步骤:在将所述背景图和所述翻译结果显示在所述目标区域内之前,对所述背景图进行中值滤波和边缘模糊处理。
在本发明的一些实施方式中,所述设备的处理器执行所述程序代码时用于实现如下步骤:将所述翻译结果显示在所述其它图像中与所述目标区域对应的指定区域内并替换掉所述指定区域内的内容。
在本发明的一些实施方式中,所述设备的处理器执行所述程序代码时用于实现如下步骤:识别所述指定区域的背景颜色;根据所述指定区域的背景颜色生成所述指定区域对应的背景图;将所述指定区域对应的背景图和所述翻译结果显示在所述指定区域内。
在本发明的一些实施方式中,所述设备的处理器执行所述程序代码时还用于实现如下步骤:识别所述目标区域内的文字内容的文字颜色;基于所述文字颜色,对显示在所述目标区域内的所述翻译结果进行渲染。
在本发明的一些实施方式中,所述设备的处理器执行所述程序代码时用于实现如下步骤:根据对所述目标图像进行二值化处理得到的二值化结果,确定所述目标区域中的文字内容对应的各个像素点的颜色值;根据所述目标区域中的文字内容对应的各个像素点的颜色值,确定所述文字内容的文字颜色。
在本发明的一些实施方式中,所述设备的处理器执行所述程序代码时用于实现如下步骤:计算所述目标区域中的文字内容对应的各个像素点的颜色值均值;根据所述颜色值均值,确定所述文字内容的文字颜色。
在本发明的一些实施方式中,所述设备的处理器执行所述程序代码时用于实现如下步骤:若所述颜色值均值与所述目标区域的颜色值之间的差值处于预定范围内,则将所述目标区域的颜色的相反色作为所述文字内容的文字颜色;若所述颜色值均值与所述目标区域的颜色值之间的差值未处于所述预定范围内,则将所述颜色值均值作为所述文字内容的文字颜色值。
在本发明的一些实施方式中,所述设备的处理器执行所述程序代码时还用于实现如下步骤:若所述其它图像与所述目标图像之间的差异大于所述预定值,则将所述其它图像作为新的目标图像,并重新识别所述新的目标图像中包含的文字内容。
在本发明的一些实施方式中,所述设备的处理器执行所述程序代码时还用于实现如下步骤:识别所述其它图像中与所述目标区域对应的指定区域内包含的内容的颜色;基于所述指定区域内包含的内容的颜色,对显示在所述指定区域内的所述翻译结果进行渲染。
在本发明的一些实施方式中,所述设备的处理器执行所述程序代码时还用于实现如下步骤:在将所述目标图像之后输入的其它图像与所述目标图像进行对比之前,将所述其它图像和所述目标图像转换为灰度图,以基于所述其它图像的灰度图和所述目标图像的灰度图,将所述其它图像与所述目标图像进行对比。
需要说明的是:上述的介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于:电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线、光缆、RF等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
示例性装置
在介绍了本发明示例性实施方式的介质之后,接下来,参考图7对本发明示例性实施方式的图像处理装置700进行说明。
图7示意性示出了根据本发明的一个实施例的图像处理装置的框图。
参照图7所示,根据本发明的一个实施例的图像处理装置700包括:
其中,内容识别单元701用于识别输入的目标图像中需要翻译的文字内容及所述文字内容所在的目标区域;翻译单元702用于对所述文字内容进行翻译,得到翻译结果;第一显示单元703用于将所述翻译结果显示在所述目标区域内;对比单元704用于将所述目标图像之后输入的其它图像与所述目标图像进行对比;第二显示单元705用于在所述其它图像与所述目标图像之间的差异小于或等于预定值时,将所述翻译结果显示在所述其它图像中与所述目标区域对应的区域内。
在本发明的一些实施方式中,基于前述方案,所述第一显示单元703用于:通过所述翻译结果替换所述文字内容显示在所述目标区域内。
在本发明的一些实施方式中,基于前述方案,所述第一显示单元703包括:背景颜色识别单元7031,用于识别所述目标区域的背景颜色;背景生成单元7032,用于根据所述目标区域的背景颜色生成所述目标区域对应的背景图;执行单元7033,用于将所述背景图和所述翻译结果显示在所述目标区域内。
在本发明的一些实施方式中,基于前述方案,所述背景颜色识别单元7031用于:对所述目标图像进行二值化处理,得到二值化结果;确定所述目标区域的边缘上的各个像素点对应的二值化结果,以及所述各个像素点的颜色值;根据所述目标区域的边缘上的各个像素点对应的二值化结果,确定属于所述目标区域的背景部分的目标像素点;根据所述目标像素点的颜色值,确定所述目标区域的背景颜色。
在本发明的一些实施方式中,基于前述方案,所述背景颜色识别单元7031用于:将所述目标图像转换为灰度图;基于所述灰度图,通过自适应二值化装置获取所述二值化结果。
在本发明的一些实施方式中,基于前述方案,所述背景颜色识别单元7031用于:根据所述目标区域的边缘上的各个像素点对应的二值化结果,对所述各个像素点进行分类,得到两类像素点;将所述两类像素点中数量最多的一类像素点作为所述目标像素点。
在本发明的一些实施方式中,基于前述方案,所述背景颜色识别单元7031用于:对于所述目标区域中除所述目标像素点之外的其他像素点,根据所述其他像素点的邻域像素的颜色值,计算所述其他像素点的颜色值;根据所述目标像素点的颜色值和所述其他像素点的颜色值,生成所述背景图。
在本发明的一些实施方式中,基于前述方案,所述背景颜色识别单元7031用于:对于所述其他像素点中的任一像素点,计算所述任一像素点的四邻域或八邻域内的像素点的颜色值均值;将计算得到的颜色值均值作为所述任一像素点的颜色值。
在本发明的一些实施方式中,基于前述方案,所述背景颜色识别单元7031用于:对于所述目标区域,按照预定的遍历方向,依次计算所述其他像素点中的每个像素点的颜色值。
在本发明的一些实施方式中,基于前述方案,所述预定的遍历方向包括:从所述目标区域的左上角到右上角的方向。
在本发明的一些实施方式中,基于前述方案,所述的装置700还包括:处理单元706,用于在所述执行单元7033将所述背景图和所述翻译结果显示在所述目标区域内之前,对所述背景图进行中值滤波和边缘模糊处理。
在本发明的一些实施方式中,基于前述方案,所述第二显示单元705用于:将所述翻译结果显示在所述其它图像中与所述目标区域对应的指定区域内并替换掉所述指定区域内的内容。
在本发明的一些实施方式中,基于前述方案,所述第二显示单元705用于:识别所述指定区域的背景颜色;根据所述指定区域的背景颜色生成所述指定区域对应的背景图;将所述指定区域对应的背景图和所述翻译结果显示在所述指定区域内。
在本发明的一些实施方式中,基于前述方案,所述的装置700还包括:文字颜色识别单元707,用于识别所述目标区域内的文字内容的文字颜色;第一渲染单元708,用于基于所述文字颜色,对显示在所述目标区域内的所述翻译结果进行渲染。
在本发明的一些实施方式中,基于前述方案,所述文字颜色识别单元707包括:第一确定单元7071,用于根据对所述目标图像进行二值化处理得到的二值化结果,确定所述目标区域中的文字内容对应的各个像素点的颜色值;第二确定单元7072,用于根据所述目标区域中的文字内容对应的各个像素点的颜色值,确定所述文字内容的文字颜色。
在本发明的一些实施方式中,基于前述方案,所述第二确定单元7072用于:计算所述目标区域中的文字内容对应的各个像素点的颜色值均值;根据所述颜色值均值,确定所述文字内容的文字颜色。
在本发明的一些实施方式中,基于前述方案,所述第二确定单元7072用于:若所述颜色值均值与所述目标区域的颜色值之间的差值处于预定范围内,则将所述目标区域的颜色的相反色作为所述文字内容的文字颜色;若所述颜色值均值与所述目标区域的颜色值之间的差值未处于所述预定范围内,则将所述颜色值均值作为所述文字内容的文字颜色值。
在本发明的一些实施方式中,基于前述方案,所述内容识别单元701还用于:若所述其它图像与所述目标图像之间的差异大于所述预定值,则将所述其它图像作为新的目标图像,并重新识别所述新的目标图像中包含的文字内容。
在本发明的一些实施方式中,基于前述方案,所述的装置700还包括:内容颜色识别单元709,用于识别所述其它图像中与所述目标区域对应的指定区域内包含的内容的颜色;第二渲染单元710,用于基于所述指定区域内包含的内容的颜色,对显示在所述指定区域内的所述翻译结果进行渲染。
在本发明的一些实施方式中,基于前述方案,所述对比单元704还用于:在将所述目标图像之后输入的其它图像与所述目标图像进行对比之前,将所述其它图像和所述目标图像转换为灰度图,以基于所述其它图像的灰度图和所述目标图像的灰度图,将所述其它图像与所述目标图像进行对比。
示例性计算设备
在介绍了本发明示例性实施方式的方法、介质和装置之后,接下来,介绍根据本发明的另一示例性实施方式的计算设备。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,根据本发明实施方式的计算设备可以至少包括至少一个处理器、以及至少一个存储器。其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的图像处理方法中的步骤。例如,所述处理器可以执行如图1中所示的步骤S110,识别输入的目标图像中需要翻译的文字内容及所述文字内容所在的目标区域;步骤S120,对所述文字内容进行翻译,得到翻译结果;步骤S130,将所述翻译结果显示在所述目标区域内;步骤S140,将所述目标图像之后输入的其它图像与所述目标图像进行对比;步骤S150,若所述其它图像与所述目标图像之间的差异小于或等于预定值,则将所述翻译结果显示在所述其它图像中与所述目标区域对应的区域内。又如,所述处理器也可以执行如图2至图5中所示的各个步骤。
应当注意,尽管在上文详细描述中提及了图像处理装置的若干单元或子单元,但是这种划分仅仅是示例性的,并非是强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或单元的特征和功能可以在一个模块或单元中具体化。反之,上文描述的一个模块或单元的特征和功能可以进一步划分为由多个模块或单元来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所发明的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (10)

1.一种图像处理方法,包括:
识别输入的目标图像中需要翻译的文字内容及所述文字内容所在的目标区域;
对所述文字内容进行翻译,得到翻译结果;
将所述翻译结果显示在所述目标区域内;
将所述目标图像之后输入的其它图像与所述目标图像进行对比;
若所述其它图像与所述目标图像之间的差异小于或等于预定值,则将所述翻译结果显示在所述其它图像中与所述目标区域对应的区域内。
2.根据权利要求1所述的方法,其中,将所述翻译结果显示在所述目标区域内,包括:
通过所述翻译结果替换所述文字内容显示在所述目标区域内。
3.根据权利要求2所述的方法,其中,通过所述翻译结果替换所述文字内容显示在所述目标区域内,包括:
识别所述目标区域的背景颜色;
根据所述目标区域的背景颜色生成所述目标区域对应的背景图;
将所述背景图和所述翻译结果显示在所述目标区域内。
4.根据权利要求3所述的方法,其中,识别所述目标区域的背景颜色,包括:
对所述目标图像进行二值化处理,得到二值化结果;
确定所述目标区域的边缘上的各个像素点对应的二值化结果,以及所述各个像素点的颜色值;
根据所述目标区域的边缘上的各个像素点对应的二值化结果,确定属于所述目标区域的背景部分的目标像素点;
根据所述目标像素点的颜色值,确定所述目标区域的背景颜色。
5.根据权利要求4所述的方法,其中,对所述目标图像进行二值化处理,得到二值化结果,包括:
将所述目标图像转换为灰度图;
基于所述灰度图,通过自适应二值化方法获取所述二值化结果。
6.根据权利要求4所述的方法,其中,根据所述目标区域的边缘上的各个像素点对应的二值化结果,确定属于所述目标区域的背景部分的目标像素点,包括:
根据所述目标区域的边缘上的各个像素点对应的二值化结果,对所述各个像素点进行分类,得到两类像素点;
将所述两类像素点中数量最多的一类像素点作为所述目标像素点。
7.根据权利要求4所述的方法,其中,根据所述目标区域的背景颜色生成所述目标区域对应的背景图,包括:
对于所述目标区域中除所述目标像素点之外的其他像素点,根据所述其他像素点的邻域像素的颜色值,计算所述其他像素点的颜色值;
根据所述目标像素点的颜色值和所述其他像素点的颜色值,生成所述背景图。
8.一种介质,其上存储有程序,该程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
9.一种图像处理装置,包括:
内容识别单元,用于识别输入的目标图像中需要翻译的文字内容及所述文字内容所在的目标区域;
翻译单元,用于对所述文字内容进行翻译,得到翻译结果;
第一显示单元,用于将所述翻译结果显示在所述目标区域内;
对比单元,用于将所述目标图像之后输入的其它图像与所述目标图像进行对比;
第二显示单元,用于在所述其它图像与所述目标图像之间的差异小于或等于预定值时,将所述翻译结果显示在所述其它图像中与所述目标区域对应的区域内。
10.一种计算设备,包括:处理器和存储器,所述存储器存储有可执行指令,所述处理器用于调用所述存储器存储的可执行指令执行如权利要求1至7中任一项所述的方法。
CN201810713149.2A 2018-06-29 2018-06-29 图像处理方法、介质、装置和计算设备 Pending CN108985201A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810713149.2A CN108985201A (zh) 2018-06-29 2018-06-29 图像处理方法、介质、装置和计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810713149.2A CN108985201A (zh) 2018-06-29 2018-06-29 图像处理方法、介质、装置和计算设备

Publications (1)

Publication Number Publication Date
CN108985201A true CN108985201A (zh) 2018-12-11

Family

ID=64539907

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810713149.2A Pending CN108985201A (zh) 2018-06-29 2018-06-29 图像处理方法、介质、装置和计算设备

Country Status (1)

Country Link
CN (1) CN108985201A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832680A (zh) * 2020-07-16 2020-10-27 网易有道信息技术(北京)有限公司 点阵码的编码方法、识读方法、编码装置和识读装置
CN112584252A (zh) * 2019-09-29 2021-03-30 深圳市万普拉斯科技有限公司 即时译文显示方法、装置、移动终端和计算机存储介质
WO2021056782A1 (zh) * 2019-09-25 2021-04-01 深圳传音控股股份有限公司 一种图片识别翻译方法、装置、终端及介质
CN112839185A (zh) * 2020-11-27 2021-05-25 北京百度网讯科技有限公司 用于处理图像的方法、装置、设备和介质
CN113609420A (zh) * 2021-08-10 2021-11-05 平安国际智慧城市科技股份有限公司 基于人工智能的页面渲染方法、装置、电子设备及介质
CN113687883A (zh) * 2020-05-18 2021-11-23 阿里巴巴集团控股有限公司 数据展示方法、装置、电子设备及计算机可读存储介质
CN118230203A (zh) * 2021-09-08 2024-06-21 荣耀终端有限公司 Ar翻译的处理方法及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339617A (zh) * 2007-07-06 2009-01-07 上海思必得通讯技术有限公司 手机拍照翻译装置
CN101350870A (zh) * 2007-07-18 2009-01-21 英华达(上海)电子有限公司 一种图文转换的方法、移动终端和ocr服务器
CN101562694A (zh) * 2009-05-26 2009-10-21 天津三星光电子有限公司 实现数码相机文字提取和自动翻译功能的方法
CN106937090A (zh) * 2017-04-01 2017-07-07 广东浪潮大数据研究有限公司 一种视频存储的方法以及装置
CN107609553A (zh) * 2017-09-12 2018-01-19 网易有道信息技术(北京)有限公司 图像处理方法、介质、装置和计算设备
CN108182183A (zh) * 2017-12-27 2018-06-19 北京百度网讯科技有限公司 图片文字翻译方法、应用及计算机设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339617A (zh) * 2007-07-06 2009-01-07 上海思必得通讯技术有限公司 手机拍照翻译装置
CN101350870A (zh) * 2007-07-18 2009-01-21 英华达(上海)电子有限公司 一种图文转换的方法、移动终端和ocr服务器
CN101562694A (zh) * 2009-05-26 2009-10-21 天津三星光电子有限公司 实现数码相机文字提取和自动翻译功能的方法
CN106937090A (zh) * 2017-04-01 2017-07-07 广东浪潮大数据研究有限公司 一种视频存储的方法以及装置
CN107609553A (zh) * 2017-09-12 2018-01-19 网易有道信息技术(北京)有限公司 图像处理方法、介质、装置和计算设备
CN108182183A (zh) * 2017-12-27 2018-06-19 北京百度网讯科技有限公司 图片文字翻译方法、应用及计算机设备

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021056782A1 (zh) * 2019-09-25 2021-04-01 深圳传音控股股份有限公司 一种图片识别翻译方法、装置、终端及介质
CN114402354A (zh) * 2019-09-25 2022-04-26 深圳传音控股股份有限公司 一种图片识别翻译方法、装置、终端及介质
CN112584252A (zh) * 2019-09-29 2021-03-30 深圳市万普拉斯科技有限公司 即时译文显示方法、装置、移动终端和计算机存储介质
CN112584252B (zh) * 2019-09-29 2022-02-22 深圳市万普拉斯科技有限公司 即时译文显示方法、装置、移动终端和计算机存储介质
CN113687883A (zh) * 2020-05-18 2021-11-23 阿里巴巴集团控股有限公司 数据展示方法、装置、电子设备及计算机可读存储介质
CN111832680A (zh) * 2020-07-16 2020-10-27 网易有道信息技术(北京)有限公司 点阵码的编码方法、识读方法、编码装置和识读装置
CN112839185A (zh) * 2020-11-27 2021-05-25 北京百度网讯科技有限公司 用于处理图像的方法、装置、设备和介质
CN113609420A (zh) * 2021-08-10 2021-11-05 平安国际智慧城市科技股份有限公司 基于人工智能的页面渲染方法、装置、电子设备及介质
CN118230203A (zh) * 2021-09-08 2024-06-21 荣耀终端有限公司 Ar翻译的处理方法及电子设备

Similar Documents

Publication Publication Date Title
CN108985201A (zh) 图像处理方法、介质、装置和计算设备
CN110163080B (zh) 人脸关键点检测方法及装置、存储介质和电子设备
Liu et al. Synthetically supervised feature learning for scene text recognition
Lin et al. Bedsr-net: A deep shadow removal network from a single document image
CN109657554B (zh) 一种基于微表情的图像识别方法、装置以及相关设备
US20210209459A1 (en) Processing method and system for convolutional neural network, and storage medium
US20240029272A1 (en) Matting network training method and matting method
CN111275034B (zh) 从图像中提取文本区域的方法、装置、设备和存储介质
KR20210107566A (ko) 이미지 처리 방법, 장치, 전자 기기 및 저장 매체
CN109522883A (zh) 一种人脸检测方法、系统、装置及存储介质
US20230005107A1 (en) Multi-task text inpainting of digital images
CN107609553A (zh) 图像处理方法、介质、装置和计算设备
JP2023535084A (ja) 施設平面図に含まれた記号分析装置及び方法
JP2024515532A (ja) 1つ以上のユーザ固有の頭皮分類を生成するために、ユーザの頭皮の頭皮領域の画素データを分析するためのデジタル撮像及び学習システム並びに方法
CN111709873A (zh) 图像转换模型生成器的训练方法和装置
US11670031B2 (en) System and method for automatically generating an avatar with pronounced features
CN110858277A (zh) 一种获得姿态分类模型的方法以及装置
WO2018151043A1 (ja) 画像処理方法、及びコンピュータプログラム
Qiao et al. Fgdnet: Fine-grained detection network towards face anti-spoofing
US12026231B2 (en) System for local optimization of object detector based on deep neural network and method of creating local database therefor
CN108877030B (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN110414522A (zh) 一种字符识别方法及装置
CN117689884A (zh) 一种医学图像分割模型的生成方法及医学图像的分割方法
CN110533020A (zh) 一种文字信息的识别方法、装置及存储介质
CN108491820B (zh) 图像中肢体表示信息的识别方法、装置及设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination