CN112634382A

CN112634382A - 一种非自然对象的图像识别、替换方法和装置

Info

Publication number: CN112634382A
Application number: CN202011537276.5A
Authority: CN
Inventors: 高灵超; 程志华; 李浩松; 王路涛; 刘文立; 郝赫; 王一梦; 郭敬林
Original assignee: Big Data Center Of State Grid Corp Of China; Beijing Guodiantong Network Technology Co Ltd
Current assignee: Big Data Center Of State Grid Corp Of China; Beijing Guodiantong Network Technology Co Ltd
Priority date: 2020-11-27
Filing date: 2020-12-23
Publication date: 2021-04-09
Anticipated expiration: 2040-12-23
Also published as: CN112634382B

Abstract

本发明公开了一种非自然对象的图像识别、替换方法和装置，所述方法包括：利用经过预先训练得到的神经网络从待识别的图像中，初步识别并输出非自然对象所在区域的图像；统计取样得到的像素点的色彩值在三维色彩模型下的三维空间分布，并进行主成分分析；根据主成分分析结果，确定图像二值化的阈值，并根据确定的阈值，对所述非自然对象所在区域的图像进行二值化；根据二值化的图像，对非自然对象进行识别。应用本发明可以提高图像识别的准确率、提高替换后的图像的清晰度。

Description

一种非自然对象的图像识别、替换方法和装置

技术领域

本发明涉及图像处理技术领域，特别是指一种非自然对象的图像识别、替换方法和装置。

背景技术

现有的图像识别技术，多对待识别的图像采用直接灰度化处理方式，利用图像灰度化后灰度值的梯度变化情况作为前景物与背景间边缘识别的关键信息；进而利用相关算子、变换进行边缘提取。

然而，在前景物与背景色灰度化后的灰度值过于接近的情况下，现有的图像识别技术会遇到识别困难，致使关键边缘信息破碎，复杂场景识别率较差。

发明内容

有鉴于此，本发明的目的在于提出一种非自然对象的图像识别、替换方法和装置，以提高图像识别的准确率、提高替换后的图像的清晰度。

基于上述目的，本发明提供一种非自然对象的图像识别方法，包括：

利用经过预先训练得到的神经网络从待识别的图像中，初步识别并输出非自然对象所在区域的图像；

统计取样得到的像素点的色彩值在三维色彩模型下的三维空间分布，并进行主成分分析；

根据主成分分析结果，确定图像二值化的阈值，并根据确定的阈值，对所述非自然对象所在区域的图像进行二值化；

根据二值化的图像，对非自然对象进行识别。

其中，所述根据主成分分析结果，确定图像二值化的阈值，具体包括：

利用所述非自然对象所在区域的图像的色彩值在主成分分析中的分布特征，选取贡献率最大的第一、第二主成分平面上小区域分布密度最大的像素点的颜色为目标颜色；

在以目标颜色的像素点组合的点集中，计算各像素点的色彩均值；

根据计算的色彩均值，并参考所述三维色彩模型下第一、第二主成分在各坐标轴上的贡献率，确定所述阈值。

本发明还提供一种非自然对象的图像替换方法，包括：

根据如上所述的图像识别方法，从待识别的图像中得到非自然对象所在区域的图像，并对其二值化得到二值化图像，进而识别出非自然对象；

根据识别结果，替换掉所述非自然对象所在区域的图像中的非自然对象，且对替换对象进行透视变换，得到替换后的图像；

将替换后的图像置入原图像；其中，所述原图像为所述待识别的图像。

较佳地，所述非自然对象具体为文字，以及

所述根据识别结果，替换掉所述非自然对象所在区域的图像中的非自然对象，具体包括：

根据识别出的文字的字体、大小，将相应字体、字号的文字替换掉所述非自然对象所在区域的图像中的文字。

其中，所述对替换对象进行透视变换，具体包括：

对所述二值化的图像进行边缘提取；

选取提取的任意一组可能的边缘直线，进行四边形构建尝试后，将包围所述非自然对象的最小面积的四边形，作为最终识别结果并输出该四边形的顶点坐标；

利用所述顶点坐标计算所述替换对象的透视变形参数，对所述替换对象进行透视变换。

较佳地，在所述将替换后的图像置入原图像后，还包括：

采用图像融合算法，通过以置入的图像的边界数据为初值的泊松方程的计算，对置入的图像在色彩上进行精细处理。

本发明还提供一种非自然对象的图像识别装置，包括：

初步识别模块，用于利用经过预先训练得到的神经网络从待识别的图像中，初步识别并输出非自然对象所在区域的图像；

色彩主成分分析模块，用于统计取样得到的像素点的色彩值在三维色彩模型下的三维空间分布，并进行主成分分析；

图像二值化模块，用于根据主成分分析结果，确定图像二值化的阈值，并根据确定的阈值，对所述非自然对象所在区域的图像进行二值化；

对象识别模块，用于根据二值化的图像，对非自然对象进行识别。

本发明还提供一种非自然对象的图像替换装置，包括：如上所述基于色彩主成分分析的图像识别装置中的各模块，以及还包括：

图像替换模块，用于根据所述对象识别模块的识别结果，替换掉所述非自然对象所在区域的图像中的非自然对象，且对替换对象进行透视变换，得到替换后的图像；

图像置入模块，用于将替换后的图像置入原图像；其中，所述原图像为所述待识别的图像。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如上所述的非自然对象的图像识别、替换方法。

本发明的技术方案中，利用经过预先训练得到的神经网络从待识别的图像中，初步识别并输出非自然对象所在区域的图像；统计取样得到的像素点的色彩值在三维色彩模型下的三维空间分布，并进行主成分分析；根据主成分分析结果，确定图像二值化的阈值，并根据确定的阈值，对所述非自然对象所在区域的图像进行二值化；根据二值化的图像，对非自然对象进行识别。相比于现有技术，本发明技术方案由于在对图像进行二值化之前，利用非自然对象在色彩上具有的一致性，通过三维色彩模型(RGB色彩模型)对图像像素点的分布情况进行统计分析，根据色彩的主成分分析结果来确定二值化的阈值，更能区别作为前景物的非自然对象以及背景色；尤其对于前景物与背景色灰度化后的灰度值过于接近的情况，通过色彩的主成分分析结果确定的阈值仍能很好地界定出前景物与背景之间的灰度值界限；从而二值化的图像中能够清晰体现出前景物与背景，提高从图像中识别作为前景物的非自然对象的准确率；

进一步，本发明的技术方案中，在识别出非自然对象后，可以使用识别结果替换掉图像中的非自然对象，且对替换对象进行透视变换，从而提高替换后的图像的清晰度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种非自然对象的图像识别方法流程图；

图2为本发明实施例提供的一种待识别的图像的示意图；

图3为本发明实施例提供的一种非自然对象所在区域的图像的示意图；

图4为本发明实施例提供的取样的像素点的色彩值在三维色彩模型下的三维空间分布的示意图；

图5a为本发明实施例提供的一种灰度化、二值化后的示意图；

图5b为本发明实施例提供的一种二值化的图像的边缘提取示意图；

图6为本发明实施例提供的一种对非自然对象所在区域的图像中的替换对象进行透视变换的方法流程图；

图7为本发明实施例提供的一种对图像中的非自然对象进行替换后的图像的示意图；

图8为本发明实施例提供的一种替换后的图像置入到原图像后得到的图像的示意图；

图9a、9b分别为本发明实施例提供的一种非自然对象的图像识别、替换装置的内部结构框图；

图10为本发明实施例提供的一种电子设备硬件结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，除非另外定义，本发明实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

本发明的发明人考虑到，利用非自然对象在色彩上具有的一致性，通过三维色彩模型(RGB色彩模型)对图像像素点的分布情况进行统计分析；及通过三维色彩模型对图像中的取样点进行主成分分析，确定图像中非自然对象的色彩构成；根据色彩的主成分分析结果来确定二值化的阈值，更能区别作为前景物的非自然对象以及背景色；尤其对于前景物与背景色灰度化后的灰度值过于接近的情况，通过色彩的主成分分析结果确定的阈值仍能很好地界定出前景物与背景之间的灰度值界限；从而二值化的图像中能够清晰体现出前景物与背景，提高从图像中识别作为前景物的非自然对象的准确率。

下面结合附图详细说明本发明实施例的技术方案。

本发明实施例提供的一种非自然对象的图像识别、替换方法，具体流程如图1所示，包括如下步骤：

步骤S101：利用经过预先训练得到的神经网络从待识别的图像中，初步识别并输出非自然对象所在区域的图像。

具体地，将待识别的图像作为输入数据，输入到预先训练得到的YOLOv3或者YOLOv4神经网络进行预处理操作，从待识别的图像中初步识别并输出非自然对象所在区域的图像。其中，待识别的图像可以是通过摄像设备拍摄得到的原图像。

例如，如图2所示的待识别的图像输入到预先训练得到的神经网络后，神经网络初步识别并输出如图3所示的非自然对象所在区域的图像。

其中，YOLOv3或者YOLOv4神经网络可以通过多个标记出非自然对象所在区域的图像作为训练样本，进行预先训练得到。训练YOLOv3或者YOLOv4神经网络的方法与现有的方法相同，此处不再赘述。

步骤S102：利用正态分布随机投点方法对非自然对象所在区域的图像进行像素点的取样，得到取样获得的样本点集。

步骤S103：统计取样得到的样本点集中的像素点的色彩值在三维色彩模型下的三维空间分布，并进行主成分分析。

例如，对从如图3所示的非自然对象所在区域的图像取样的像素点，统计得到的像素点的色彩值在三维色彩模型(RGB色彩模型)下的三维空间分布如图4所示。

步骤S104：根据主成分分析结果，确定图像二值化的阈值。

本步骤中，利用非自然对象所在区域的图像的色彩值在主成分分析中的分布特征，选取贡献率最大的第一、第二主成分平面上小区域分布密度(点/面积)最大的像素点的颜色为目标颜色，在以目标颜色的像素点组合的点集中，计算各像素点的色彩均值；根据计算的色彩均值，并参考所述三维色彩模型下第一、第二主成分在各坐标轴上的贡献率，确定所述阈值。

具体地，所述图像二值化的阈值可以包括：所述三维色彩模型中R值坐标轴的上、下阈值、G值坐标轴的上、下阈值、B值坐标轴的上、下阈值；并可以根据如下公式1～6分别计算出所述三维色彩模型中R值坐标轴的上、下阈值、G值坐标轴的上、下阈值、B值坐标轴的上、下阈值：

R_h＝W+S_R×P×Q_R (公式1)

R_l＝W-S_R×P×Q_R (公式2)

G_h＝W+S_G×P×Q_G (公式3)

G_l＝W-S_G×P×Q_G (公式4)

B_h＝W+S_B×P×Q_B (公式5)

B_l＝W-S_B×P×Q_B (公式6)

其中，W表示所述色彩均值，P表示所述非自然对象在所述非自然对象所在区域的图像中所占面积的预估比值参数，S_R、S_G、S_B分别表示第一、第二主成分在R、G、B值坐标轴的取值区域，Q_R、Q_G、Q_B分别表示第一、第二主成分在R、G、B值坐标轴上的贡献率，R_h、R_l分别表示R值坐标轴的上、下阈值，G_h、G_l分别表示G值坐标轴的上、下阈值，B_h、B_l分别表示B值坐标轴的上、下阈值。

步骤S105：根据确定的阈值，对所述非自然对象所在区域的图像进行二值化。

本步骤中，可以根据R值坐标轴的上、下阈值、G值坐标轴的上、下阈值、B值坐标轴的上、下阈值，对所述非自然对象所在区域的图像进行二值化：对于所述非自然对象所在区域的图像中的每个像素，将该像素的色彩值中的R值与R值坐标轴的上、下阈值进行比较，将该像素的色彩值中的G值与G值坐标轴的上、下阈值进行比较，将该像素的色彩值中的B值与B值坐标轴的上、下阈值进行比较；若该像素的R值在R值坐标轴的上、下阈值之间、并且该像素的G值在G值坐标轴的上、下阈值之间、并且该像素的B值在B值坐标轴的上、下阈值之间，则判断该像素为前景；否则，判断该像素为背景。

将判断为前景的像素二值化为1，将判断为背景的像素二值化为0，从而得到二值化的图像。

例如，如图3所示的非自然对象所在区域的图像进行二值化后得到如图5a所示的图像。

步骤S106：根据二值化的图像，对非自然对象进行识别。

其中，非自然对象可以是文字，例如，对如图5a所示的图像中的非自然对象进行识别，可以识别出“220KV”、“061号”的文字，且可以进一步识别出图像中的文字的字体、大小(字号)。

步骤S107：根据识别结果，替换掉所述非自然对象所在区域的图像中的非自然对象，且对替换对象进行透视变换，得到替换后的图像。

具体地，若识别出的非自然对象为文字，则可以根据识别出的文字的字体、大小，将相应字体、字号的文字替换掉所述非自然对象所在区域的图像中的文字。

对所述非自然对象所在区域的图像中的替换对象进行透视变换的具体方法，流程如图6所示，包括如下子步骤：

子步骤S601：对所述二值化的图像进行边缘提取；

子步骤S602：选取提取的任意一组可能的边缘直线，进行四边形构建尝试后，将包围所述非自然对象的最小面积的四边形，作为最终识别结果并输出该四边形的顶点坐标。

例如，对于如图5a所示的二值化的图像进行边缘提取，得到的边缘直线如图5b所示。

子步骤S603：利用所述顶点坐标计算替换对象的透视变形参数，对进行透视变换。

本子步骤中，利用所述顶点坐标计算替换对象的透视变形参数；根据计算的透视变形参数对所述非自然对象所在区域的图像中的替换对象进行透视变换，得到替换后的图像；进一步，还可对替换后的图像进行脱敏，即隐藏原有非自然对象的数字或文字信息，替换为其它数字或文字信息。

例如，对图3所示的非自然对象所在区域的图像，在对其中的替换对象进行替换、脱敏后得到的图像如图7所示；其中，图3中的“061”脱敏为图7中的“000”。

步骤S108：将替换后的图像置入原图像后，采用图像融合算法，对置入的图像在色彩上进行精细处理。

本步骤中，将替换后的图像置入原图像后，还可进一步采用图像融合算法，通过以置入的图像的边界数据为初值的泊松方程的计算，对置入的图像在色彩上进行精细处理，保持色彩效果一致性。

例如，将图7所示的替换、脱敏后得到的图像，置入到如图2所示的原图像中，并采用图像融合算法后得到如图8所示的图像。

基于上述的非自然对象的图像识别、替换方法，本发明实施例还提供了一种非自然对象的图像识别、替换装置；其中，非自然对象的图像识别装置的结构如图9a所示，包括：初步识别模块901、色彩主成分分析模块902、图像二值化模块903、对象识别模块904。

初步识别模块901用于利用经过预先训练得到的神经网络从待识别的图像中，初步识别并输出非自然对象所在区域的图像；

色彩主成分分析模块902用于统计取样得到的像素点的色彩值在三维色彩模型下的三维空间分布，并进行主成分分析；

图像二值化模块903用于根据主成分分析结果，确定图像二值化的阈值，并根据确定的阈值，对所述非自然对象所在区域的图像进行二值化；

对象识别模块904用于根据二值化的图像，对非自然对象进行识别。

本发明实施例提供了的一种非自然对象的图像替换装置的结构如图9b所示，包括：上述非自然对象的图像识别装置中的各模块，以及还包括：图像替换模块905、图像置入模块906。

图像替换模块905用于根据所述对象识别模块的识别结果，替换掉所述非自然对象所在区域的图像中的非自然对象，且对替换对象进行透视变换，得到替换后的图像；

图像置入模块906用于将替换后的图像置入原图像；其中，所述原图像为所述待识别的图像。

较佳地，图像置入模块906还可在将替换后的图像置入原图像后，采用图像融合算法，通过以置入的图像的边界数据为初值的泊松方程的计算，对置入的图像在色彩上进行精细处理。

本发明实施例提供的一种非自然对象的图像识别、替换装置中各模块的功能的具体实现方法可参考上述图1所示各步骤中的方法，此处不再赘述。

图10示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的一种非自然对象的图像识别、替换方法。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，可以与非线性接收机相连，从非线性接收机接收信息，实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种非自然对象的图像识别方法，其特征在于，包括：

根据二值化的图像，对非自然对象进行识别。

2.根据权利要求1所述的方法，其特征在于，所述根据主成分分析结果，确定图像二值化的阈值，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述图像二值化的阈值具体包括：所述三维色彩模型中R值坐标轴的上、下阈值、G值坐标轴的上、下阈值、B值坐标轴的上、下阈值；以及

所述根据计算的色彩均值，并参考所述三维色彩模型下第一、第二主成分在各坐标轴上的贡献率，确定所述阈值，具体包括：

根据如下公式1～6分别计算出所述三维色彩模型中R值坐标轴的上、下阈值、G值坐标轴的上、下阈值、B值坐标轴的上、下阈值：

R_h＝W+S_R×P×Q_R (公式1)

R_l＝W-S_R×P×Q_R (公式2)

G_h＝W+S_G×P×Q_G (公式3)

G_l＝W-S_G×P×Q_G (公式4)

B_h＝W+S_B×P×Q_B (公式5)

B_l＝W-S_B×P×Q_B (公式6)

4.一种非自然对象的图像替换方法，其特征在于，包括：

根据如权利要求1-3任一所述的图像识别方法，从待识别的图像中得到非自然对象所在区域的图像，并对其二值化得到二值化图像，进而识别出非自然对象；

5.根据权利要求4所述的方法，其特征在于，所述非自然对象具体为文字，以及

6.根据权利要求4所述的方法，其特征在于，所述对替换对象进行透视变换，具体包括：

对所述二值化的图像进行边缘提取；

7.根据权利要求4-6任一所述的方法，其特征在于，在所述将替换后的图像置入原图像后，还包括：

8.一种非自然对象的图像识别装置，其特征在于，包括：

9.一种非自然对象的图像替换装置，其特征在于，包括：如权利要求8所述装置中的各模块，以及还包括：

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一所述的方法。