CN116579915A

CN116579915A - 图像处理方法以及图像处理装置

Info

Publication number: CN116579915A
Application number: CN202310053836.7A
Authority: CN
Inventors: 鹈饲训史
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2022-02-10
Filing date: 2023-02-03
Publication date: 2023-08-11
Also published as: EP4227888A1; US20230254569A1; JP2023117149A

Abstract

提供一种无违和感地不输出特定的对象物的图像处理方法。图像处理方法从照相机取得第1输入图像，基于所述第1输入图像而生成背景图像，判定在所述第1输入图像中是否包含特定的对象物，在所述第1输入图像中包含所述特定的对象物的情况下，判断该特定的对象物是否满足规定的位置条件，将满足所述规定的位置条件的所述特定的对象物替换为所述背景图像。

Description

图像处理方法以及图像处理装置

技术领域

本发明的一个实施方式涉及处理从照相机输入的图像的图像处理方法以及图像处理装置。

背景技术

在专利文献1中公开了识别人物，使除了识别出的人物以外的图像模糊的系统。

专利文献1：日本特开2012-29209号公报

专利文献1的系统使背景模糊，因此会对使用者带来违和感。另外，专利文献1的系统有时也不使参加者(特定的对象物)以外的人物模糊就输出图像。

发明内容

考虑以上情况，本发明的一个方式的目的在于提供一种不会对使用者带来违和感，不输出特定的对象物的图像处理方法。

图像处理方法从照相机取得第1输入图像，基于所述第1输入图像而生成背景图像，判定在所述第1输入图像中是否包含特定的对象物，在所述第1输入图像中包含所述特定的对象物的情况下，判断该特定的对象物是否满足规定的位置条件，将满足所述规定的位置条件的所述特定的对象物替换为所述背景图像。

发明的效果

根据本发明的一个实施方式，不会对使用者带来违和感，能够不输出特定的对象物。

附图说明

图1是示出图像处理装置1的结构的框图。

图2是图像处理装置1的功能性框图。

图3是示出图像处理方法的动作的流程图。

图4是示出背景图像生成部102的动作的一个例子的流程图。

图5A是示出由照相机11拍摄到的图像的一个例子的图。

图5B是示出对象物判定部103的输出的一个例子的图。

图6是示出替换后的图像的一个例子的图。

图7是示出由照相机11拍摄到的图像的一个例子的图。

图8(A)是示出在显示器20显示的GUI的一个例子的图，图8(B)是示出由照相机11拍摄到的图像的一个例子的图。

图9(A)是示出在显示器20显示的GUI的一个例子的图，图9(B)是示出由照相机11拍摄到的图像的一个例子的图。

具体实施方式

图1是示出图像处理装置1的结构的框图。图像处理装置1具有：照相机11、CPU 12、DSP 13、闪存14、RAM 15、用户界面(I/F)

16、扬声器17、传声器18、通信部19以及显示器20。

照相机11、扬声器17以及传声器18例如朝向显示器20配置于上下左右的任意位置。照相机11取得位于显示器20的前方的使用者的图像。传声器18取得位于显示器20的前方的使用者的声音。扬声器17对位于显示器20的前方的使用者输出声音。

作为处理器的一个例子的CPU 12通过将动作用的程序从闪存14读取到RAM 15，而用作集中控制图像处理装置1的动作的控制部。此外，没有必要将程序存储于该装置的闪存14。CPU 12也可以每次从例如服务器等下载而读取到RAM 15。

DSP 13按照CPU 12的控制而对由照相机11取得的图像实施各种处理。另外，DSP13也对由传声器18取得的声音实施各种处理。然而，进行声音的处理在本发明中不是必需的构成。

通信部19将与由DSP 13处理之后的图像有关的影像信号发送到其它装置。另外，通信部19将由DSP 13处理之后的声音信号发送到其它装置。其它装置是指，经由例如因特网等连接的远端侧的PC等信息处理装置。另外，通信部19从其它装置接收影像信号以及声音信号。通信部19将接收到的影像信号输出到显示器20。通信部19将接收到的声音信号输出到扬声器17。显示器20显示由其它装置的照相机取得的图像。扬声器17输出由其它装置的传声器取得的说话者的声音。由此，图像处理装置1用作用于与远方进行语音对话的通信系统。

图2是示出由CPU 12以及DSP 13构成的图像处理功能的结构的框图。图像处理功能具有图像取得部101、背景图像生成部102、对象物判定部103、条件判断部104以及替换部105。

图3是示出图像处理方法的动作的流程图。图像取得部101取得由照相机11拍摄到的图像(第1输入图像)(S11)。背景图像生成部102基于第1输入图像而生成背景图像(S12)。对象物判定部103判定在第1输入图像是否包含特定的对象物(人物)(S13)。条件判断部104在第1输入图像包含人物的情况下，判断该人物是否满足规定的位置条件(S14)。替换部105将满足规定的位置条件的人物替换为背景图像(S15)。

图4是示出背景图像生成部102的动作的一个例子的流程图。背景图像生成部102首先将背景图像初始化(S21)。之后，背景图像生成部102判断第1输入图像的每个像素是否有时间性的变化(S22)。即，背景图像生成部102将在某第1定时(timing)取得的第1输入图像、与在不同于第1定时的第2定时取得的第2输入图像进行比较。背景图像生成部102将在第1输入图像以及第2输入图像中没有变化的像素生成为背景图像(S23)。所生成的背景图像输出到替换部105。

背景图像生成部102在判断为在第1输入图像和第2输入图像中存在有变化的像素的情况下，进一步地判断图像的所有像素是否都发生变化(S24)。背景图像生成部102在判断为图像的所有像素都发生了变化的情况下，返回至背景图像的初始化(S24：Yes→S21)。背景图像生成部102在判断为图像的所有像素未发生变化的情况下，返回到S22的判断。此外，S24的处理也可以不判断所有的像素，而是判断发生了变化的像素数相对于全像素数是否超过规定值(规定的比例)，例如50％等。

由此，没有时间性变化的区域成为背景图像。人物会移动，因此即使在某定时与人物对应的像素不能作为背景图像，但该像素中的人物会移动到不同的像素，因此随着时间经过而生成全像素的背景图像。

此外，第1输入图像以及第2输入图像各自不限于1帧的图像。另外，第1定时和第2定时没有必要在时间上连续。背景图像生成部102也可以将例如平均化了多个帧的图像用作第1输入图像以及第2输入图像。当然，即使是平均化后的图像，第1输入图像以及第2输入图像也分别对应于在时间上不同的定时取得的图像。

接下来，针对对象物判定部103进行说明。对象物判定部103判定在第1输入图像是否包含特定的对象物(人物)。对象物判定部103通过进行例如图像分割处理来确定描绘有1个人物的多个像素。图像分割处理是通过使用利用了例如神经网络等规定的算法，而识别人物和背景的边界的处理。

图5A是示出由照相机11拍摄到的图像的一个例子的图。在图5A的例子中，照相机11拍摄了沿桌子的长边方向(纵深方向)所在的多个人物的脸的图像。照相机11拍摄了在短边方向隔着桌子的左侧以及右侧所在的4个人物、以及处于远离桌子的位置的人物。

对象物判定部103从这样的照相机11拍摄到的图像识别人物的像素。在照相机11拍摄到的图像是在图5A示出的图像的情况下，对象物判定部103识别5名人物A1～A5的身体与背景的边界。对象物判定部103如图5B所示，对各像素生成使其像素与人物A1～A5或背景相对应的标签(C1～C5、C6)，输出到替换部105。标签C1～C5是与人物A1～A5相对应的标签。标签C6是与背景相对应的标签。此外，对象物判定部103也可以在识别到的人物的脸的位置设定如图中的四边形B1～B5所示那样的边界框(Bounding Box)。对象物判定部103也可以将边界框的位置信息输出到替换部105。

进一步地，对象物判定部103基于边界框的大小来求出与各人物的距离。在闪存14预先存储有表示出边界框的大小和距离之间的关系的表格或函数等。对象物判定部103将所设定的边界框的大小与在闪存14存储的表格进行比较，求出与人物的距离。

此外，对象物判定部103也可以根据持有表示特定的人物的标签的像素的总数、持有表示特定的人物的标签的像素在纵向上连续的最大数、在横向上连续的最大数，推定该人物的距离。此外，对象物判定部103也可以从由照相机11拍摄到的图像对人物的身体进行推定，对人物的位置进行推定。对象物判定部103通过神经网络等规定的算法，从由照相机11拍摄到的图像，求出人的骨骼(骨架)。骨架包含眼、鼻、头、肩以及手脚等。在闪存14预先存储有表示出骨架的大小和距离之间的关系的表格或函数等。对象物判定部103将识别出的骨架的大小与在闪存14存储的表格进行比较，以求出与人物的距离。

另外，距离的推定方法不限于上述例子。例如，在照相机11是立体照相机(具有2个以上的照相机)的情况下，对象物判定部103能够基于2个照相机的距离以及2个图像的视差而求出各人物的距离。另外，对象物判定部103也可以使用LiDAR(Light Detection andRanging)等测距机构来求出各人物的距离。

对象物判定部103将各像素的识别信息(例如A1、A2等的标签信息)输出到替换部105，将表示各人物的2维角度和照相机的距离的信息输出到条件判断部104。即，在该例子中，对象物判定部103将3维的位置信息作为各人物的位置信息向条件判断部104输出。

条件判断部104判断各人物的位置信息是否满足规定的位置条件。规定的位置条件是指，例如距离的值为规定值以上的情况。在图5A的例子中，人物A1、A2、A4、A5靠近照相机11，不满足规定的位置条件。人物A3从照相机11远离，满足规定的位置条件。

因此，条件判断部104将人物A3判断为满足规定的位置条件，将表示人物A3满足位置条件这一含义的信息输出到替换部105。

替换部105将满足位置条件的人物的图像替换为背景图像。在图5A的例子中，人物A3满足位置条件，因此将持有与人物A3相对应的标签C3的像素替换为由背景图像生成部102生成的背景图像。由此，如图6所示的那样，将持有与人物A3相对应的标签的像素C3替换为背景图像的像素。此外，替换部105在替换对象的像素中背景图像的生成尚未完成的情况下，可以将照相机11的图像直接输出，也可以将该像素替换为特定的颜色。替换部105也可以将替换对象的像素周围的像素的颜色信息平均化，以替换为平均值的颜色。由此，替换部105即使是在假设背景图像尚未生成的状态下，也能够替换为没有违和感的图像。

如以上那样，本实施方式的图像处理装置1将远处的人物替换为背景图像，因此能够不输出会议参加者之外的人物的图像而不会有违和感。

在上述的例子中，背景图像生成部102使用在时间上没有变化的像素来生成背景图像。但是，背景图像生成部102也可以使用对象物判定部103的判定结果来生成背景图像。背景图像生成部102对在第1输入图像以及第2输入图像中均不包含人物的区域进行确定，将该确定出的区域的图像生成为背景图像。在这种情况下，背景图像生成部102可以使用第1输入图像的像素，也可以使用第2输入图像的像素。

或者，背景图像生成部102即使在第1输入图像中存在包含人物的区域，在第2输入图像中存在没有人物的区域的情况下，也可以使用第2输入图像中的该区域的像素来生成背景图像。或者相反地，背景图像生成部102在第1输入图像中没有人物、在第2输入图像中存在有人物的区域的情况下，也可以使用第1输入图像中的该区域的像素来生成背景图像。

在上述实施方式中，作为“规定的位置条件”而示出了包含距离的3维位置的条件。但是，“规定的位置条件”不限于包含距离的3维位置的条件。条件判断部104也可以将例如视角处在规定角度以内作为规定的位置条件。在这种情况下，条件判断部104也可以从用户接受视角的设定。例如，用户在将照相机11的正面作为0度的情况下，指定从照相机11朝向左侧30度(-30度)～右侧30度(+30度)的范围。在这种情况下，条件判断部104从照相机11的图像，将与视角-30度～+30度对应的像素中的人物判断为不满足规定的位置条件。另外，条件判断部104从照相机11的图像，将与视角-30度～+30度的范围之外对应的像素的人物判断为满足规定的位置条件。

或者，条件判断部104也可以从照相机11的图像之中接受像素范围的指定。例如，在图7所示的那样，用户从照相机11的图像指定某个像素范围S1。条件判断部104从照相机11的图像将像素范围S1内的人物判断为不满足规定的位置条件。另外，条件判断部104从照相机11的图像将与像素范围S1的范围外对应的像素的人物判断为满足规定的位置条件。在图7的例子中，条件判断部104将表示人物A2、A3、A4满足位置条件这一含义的信息输出到替换部105。其结果是，替换部105将与人物A2、A3、A4对应的像素替换为背景图像。

如上所述，本实施方式的图像处理装置1也可以从使用者接受位置条件的指定。进一步地，本实施方式的图像处理装置1也可以将规定的空间显示于显示器20，接受针对该规定的空间的位置条件的指定。

图8(A)是示出在显示器20显示的GUI的一个例子的图。图像处理装置1的CPU 12将如图8(A)所示的那样的规定的空间显示于显示器20。CPU 12用作显示处理部。在图8(A)的例子中，CPU 12将模拟了室内的2维平面图像显示于显示器20。另外，CPU12也显示模拟了桌子以及椅子的平面图像。

CPU 12经由用户I/F 16接受针对2维平面图像的位置条件的指定。用户I/F 16由鼠标、键盘或重叠于显示器20的触摸面板构成，是接受部的一个例子。若用户选择在图8(A)示出的2维平面图像的任意位置，则CPU 12将与所选择的位置相对应的像素坐标(2维坐标)以及距离信息接受为“位置条件”。另外，CPU 12将表示所选择的位置的图像(在图8(A)的例子中是阴影图像)重叠显示。

在图8(A)示出的2维平面图像的左右的位置对应于像素坐标的X坐标。在图8(A)示出的2维平面图像的上下的位置对应于距离信息。像素坐标的Y坐标接受所选择的全像素。或者，像素坐标的Y坐标也可以从用户接受为了满足规定的位置条件的高度范围的数值(例如0.7～2m等数值)。或者，如在图8(B)所示的那样，CPU 12也可以在显示于显示器20的规定的空间重叠地显示出与位置条件相对应的图像(框S2)。在这种情况下，CPU 12也可以接受对框S2的上下的大小进行变更的操作。CPU 12使框S2的上下的大小对应于高度信息(像素坐标的Y坐标范围)。

条件判断部104从照相机11的图像根据在图8(A)的2维平面图像接受的位置条件，判断各人物是否满足规定的位置条件。在图8(A)的例子中，条件判断部104判断为人物A3满足规定的位置条件，将表示人物A3满足位置条件这个含义的信息输出到替换部105。其结果，替换部105将与人物A3相对应的像素替换为背景图像。

图9(A)是示出显示于显示器20的GUI的另一个例子的图。图像处理装置1的CPU 12与图8(A)同样地在显示器20显示规定的空间。

CPU 12经由用户I/F 16接受针对2维平面图像的位置条件的指定。在图9(A)的例子中，CPU 12将与位置条件对应的扇形的图像重叠于2维平面图像而显示在显示器20中。用户进行变更扇形的尺寸的操作。例如，如果用户触摸扇形的圆弧进行滑动操作，则能够变更扇形的半径。如果用户触摸扇形的直线部进行滑动操作，则能够变更扇形的内角。

CPU 12将与扇形的大小相对应的视角以及距离信息接受为“位置条件”。在图9(A)示出的扇形图像的半径对应于距离信息。在图9(A)示出的扇形图像的左右的打开角对应于视角，对应于像素坐标的X坐标。像素坐标的Y坐标接受所选择的全像素。或者，像素坐标的Y坐标也可以从用户接受高度信息的数值(例如0.7～2m等数值)。或者，如图9(B)所示的那样，CPU 12也可以在显示于显示器20的规定的空间重叠显示与扇形相对应的图像(框S3)。在这种情况下，CPU 12也可以接受对框S3的上下的大小进行变更的操作。CPU 12使框S3的上下的大小对应于高度信息(像素坐标的Y坐标)。

在这种情况下，条件判断部104也从照相机11的图像根据在图9(A)的2维平面图像接受到的位置条件，判断各人物是否满足规定的位置条件。在图9(A)的例子中，条件判断部104将人物A1、A3、A5判断为满足规定的位置条件，将表示人物A1、A3、A5满足位置条件这一含义的信息输出到替换部105。其结果，替换部105将与人物A1、A3、A5相对应的像素替换为背景图像。

此外，条件判断部104可以判定与各人物的图像相对应的边界框的全部范围是否都满足规定的位置条件，也可以判定边界框的一部分是否满足规定的位置条件。条件判断部104也可以在判定边界框的一部分是否满足规定的位置条件的情况下，例如在满足位置条件的像素数相对于边界框的全像素数是否超过规定值(规定的比例)，例如50％等的情况下，判断为该边界框的人物满足规定的位置条件。

本实施方式的说明在所有方面都应当被认为是例示而不是限制性的内容。本发明的范围不是由上述的实施方式表示，而是由权利要求书表示。进一步地，本发明的范围包含与权利要求书等同的范围。

例如，特定的对象物不限于人物。特定的对象物例如可以是动物，也可以是PC的画面或纸制资料等。例如，即使是在PC画面、纸制资料中记载有与会议无关的机密信息的情况下，本实施方式的图像处理装置也会将包含有这些机密信息的特定的对象物替换为背景图像。由此，本实施方式的图像处理装置能够在保护隐私的同时输出没有违和感的图像。

标号的说明

1…图像处理装置

11…照相机

12…CPU

13…DSP

14…闪存

15…RAM

16…用户I/F

17…扬声器

18…传声器

19…通信部

20…显示器

101…图像取得部

102…背景图像生成部

103…对象物判定部

104…条件判断部

105…替换部

Claims

1.一种图像处理方法，其中，

从照相机取得第1输入图像，

基于所述第1输入图像而生成背景图像，

判定在所述第1输入图像中是否包含特定的对象物，

在所述第1输入图像中包含所述特定的对象物的情况下，判断该特定的对象物是否满足规定的位置条件，

将满足所述规定的位置条件的所述特定的对象物替换为所述背景图像。

2.根据权利要求1所述的图像处理方法，其中，

在第1定时取得所述第1输入图像，在与所述第1定时不同的第2定时取得第2输入图像，

将所述第1输入图像以及所述第2输入图像进行比较，使用没有变化的区域来生成所述背景图像。

3.根据权利要求1所述的图像处理方法，其中，

在第1定时取得所述第1输入图像，在与所述第1定时不同的第2定时取得第2输入图像，使用以下(i)～(iii)的任意项来生成所述背景图像：

(i)对在所述第1输入图像且所述第2输入图像中均不包含特定的对象物的区域进行确定，使用所述第1输入图像或所述第2输入图像的任一输入图像中的所述确定的区域；

(ii)对所述第1输入图像中包含所述特定的对象物、且所述第2输入图像中不包含所述特定的对象物的区域进行确定，使用所述第2输入图像中的所述确定的区域；

(iii)对所述第1输入图像中不包含所述特定的对象物、且所述第2输入图像中包含所述特定的对象物的区域进行确定，使用所述第1输入图像中的所述确定的区域。

4.根据权利要求1至3中任一项所述的图像处理方法，其中，

所述规定的位置条件是包含距离的3维位置的条件。

5.根据权利要求4所述的图像处理方法，其中，

在所述距离超过规定值的情况下，判断为满足所述规定的位置条件。

6.根据权利要求1至5中任一项所述的图像处理方法，其中，

所述特定的对象物包含人物的图像。

7.根据权利要求1至5中任一项所述的图像处理方法，其中，

基于所述特定的对象物的大小来判断是否满足所述规定的位置条件。

8.根据权利要求1至7中任一项所述的图像处理方法，其中，

从使用者接受所述规定的位置条件的指定。

9.根据权利要求8所述的图像处理方法，其中，

将规定的空间显示于显示器，

接受针对所述规定的空间的所述规定的位置条件的指定。

10.根据权利要求9所述的图像处理方法，其中，

将与所述规定的位置条件相对应的图像重叠而显示于所述规定的空间。

11.一种图像处理装置，其具有：

图像取得部，其从照相机取得第1输入图像；

背景图像生成部，其基于所述第1输入图像而生成背景图像；

对象物判定部，其判定在所述第1输入图像中是否包含特定的对象物；

条件判断部，其在所述第1输入图像中包含所述特定的对象物的情况下，判断该特定的对象物是否满足规定的位置条件；以及

替换部，其将满足所述规定的位置条件的所述特定的对象物替换为所述背景图像。

12.根据权利要求11所述的图像处理装置，其中，

所述图像取得部在第1定时取得所述第1输入图像，在与所述第1定时不同的第2定时取得第2输入图像，

所述背景图像生成部将所述第1输入图像以及所述第2输入图像进行比较，使用没有变化的区域来生成所述背景图像。

13.根据权利要求11所述的图像处理装置，其中，

所述背景图像生成部使用以下(i)～(iii)的任意项来生成所述背景图像：

(i)对在所述第1输入图像且所述第2输入图像中均不包含所述特定的对象物的区域进行确定，使用所述第1输入图像或所述第2输入图像的任一输入图像中的所述确定的区域；

14.根据权利要求11至13中任一项所述的图像处理装置，其中，

所述规定的位置条件是包含距离的3维位置的条件。

15.根据权利要求14所述的图像处理装置，其中，

所述条件判断部在所述距离超过规定值的情况下，判断为满足所述规定的位置条件。

16.根据权利要求11至15中任一项所述的图像处理装置，其中，

所述特定的对象物包含人物的图像。

17.根据权利要求11至15中任一项所述的图像处理装置，其中，

所述条件判断部基于所述特定的对象物的大小来判断是否满足所述规定的位置条件。

18.根据权利要求11至17中任一项所述的图像处理装置，其中，

还具有接受部，该接受部从使用者接受所述规定的位置条件的指定。

19.根据权利要求18所述的图像处理装置，其中，

还具有显示处理部，该显示处理部将规定的空间显示于显示器，

所述接受部接受针对所述规定的空间的所述规定的位置条件的指定。

20.根据权利要求19所述的图像处理装置，其中，

所述显示处理部将与所述规定的位置条件相对应的图像重叠而显示于所述规定的空间。