CN101350906A

CN101350906A - 图像矫正方法和图像矫正装置

Info

Publication number: CN101350906A
Application number: CNA2008101196292A
Authority: CN
Inventors: 高飞; 王浩; 党宁娜; 冯宇宏
Original assignee: Vimicro Corp
Current assignee: Beijing Zhongxingtianshi Technology Co ltd
Priority date: 2008-09-04
Filing date: 2008-09-04
Publication date: 2009-01-21
Anticipated expiration: 2028-09-04
Also published as: CN101350906B

Abstract

本发明提出一种图像矫正装置，包括：音频采集与处理单元用于采集音频信号；音源识别单元用于根据音频采集与处理单元采集的音频信号判断声音的来源方向，并生成相应的水平视角；图像采集与处理单元，用于采集摄取的全景图像；图像矫正单元用于根据音源识别单元生成的水平视角，选择所述图像采集与处理单元采集的全景图像在所述水平视角上的窗口区域进行矫正，得到窗口区域的平面图像；压缩与传输单元，用于对图像矫正单元得到的所述窗口区域的平面图像及所述音频信号进行压缩并传输。本发明通过音频信号对输出的图像进行选取和矫正，无需输出全部的图像，能够减少传输的数据在目前网络带宽有限的情况下依然能够保证视频会议画面传输的流畅性。

Description

图像矫正方法和图像矫正装置

技术领域

本发明涉及图像处理技术领域，特别涉及一种图像矫正方法和图像矫正装置。

背景技术

随着网络技术的不断发展，视频会议因为其高效、成本低廉的优势得到了迅速普及。在视频会议中应用较为广泛的普通镜头要么只能拍整个会场的概况，要么需要人为控制来对需要关注的发言对象进行拍摄。相比普通镜头的摄像装置鱼眼摄像头无疑具有更宽广的视野，鱼眼摄像头的可视水平视角可以达到180度。因此可以拍下摄像头周围所有的场景，这样的图像可被成为全向图像，也可被称为鱼眼图像。然而虽然此类鱼眼摄像头具有视场大、摄取的图像信息多等优点，但是与普通摄像头摄取的图像相比，其所摄取的鱼眼图像会产生严重的变形，此时它看起来象将整幅图像映射到一个半球体上然后再将这个半球体压平。因此，需要对严重变形的鱼眼图像进行非线性处理，以根据该鱼眼图像重建出人们容易辨认的平面图像。

因此在视频会议系统中，就必须要对鱼眼摄像头所摄取的鱼眼图像进行处理，如图1所示，为现有技术中视频会议系统的结构示意图，在鱼眼镜头摄取到鱼眼图像后，图像采集与处理单元会对摄取到的鱼眼图像进行基本处理，鱼眼矫正单元对图像采集与处理单元进行基本处理后的鱼眼图像进行鱼眼矫正，得到正常的平面图像，再将矫正后的平面图像通过压缩与传输单元进行网络传输。

现有技术中鱼眼矫正的示意图可参考图2和图3，图2为现有技术中鱼眼矫正示意图的左视图，图3为现有技术中鱼眼矫正示意图的俯视图，鱼眼摄像头在图2和图3的O点位置处，图2中的OC，OD夹角表示垂直视角，图3中的OJ，OK的夹角表示水平视角。通常以0B点为视线中心进行矫正，OH为视线0B的垂直投影。如图3A-3C所示，鱼眼镜头成像后周围的矩形栅格会扭曲为扇面形，在矫正时需要将以A点为中心，LK(H)JI(G)为顶点的扇面矫正成矩形图像。其中LKJI为水平视线与视球面交线和垂直视线与视球面交线的4个交点在相平面的投影。图2可看到，A点为中心视线OB与视球面交点B在相平面的投影。G，H为上下两个视线在视球面上的交点E，F在相平面的投影。通过相应的几何映射就可以得到矫正后图像上各位置的点在鱼眼图像上的坐标，来进行矫正。因为现有技术中的鱼眼矫正算法已得到了普遍使用，因此在此不再赘述。

现有技术存在的缺点是由于对鱼眼图像进行矫正后的平面图像比较大，输出的数据也非常大，这样由于当前网络带宽的限制，因此视频会议时传输矫正后的平面图像往往不是很流畅。并且，对于一个放置在桌上的鱼眼摄像头来说，其摄取的是桌边的参加会议的所有人，如图4所示，鱼眼摄像头将桌边的四个人全部摄取，然而对于视频会议来说，收看者往往只关心正在发言的人，如果桌边参会的人比较多那么收看者经常会不知道当前谁在发言，从而影响视频会议的效果，用户体验度较差。

发明内容

本发明的目的旨在至少解决上述技术缺陷之一，特别是解决现有技术中由于矫正后平面图像较大而引起的网络传输不流畅的技术缺陷。

为达到上述目的，本发明一方面提出一种图像矫正装置，包括：音频采集与处理单元，用于采集音频信号；音源识别单元，用于根据所述音频采集与处理单元采集的音频信号判断声音的来源方向，并生成相应的水平视角；图像采集与处理单元，用于采集摄取的全景图像；图像矫正单元，用于根据所述音源识别单元生成的水平视角，选择所述图像采集与处理单元采集的所述全景图像在所述水平视角上的窗口区域进行矫正，得到所述窗口区域的平面图像；压缩与传输单元，用于对所述图像矫正单元得到的所述窗口区域的平面图像及所述音频信号进行压缩并传输。

作为本发明的一个实施例，所述图像采集与处理单元采集的全景图像由鱼眼镜头摄取或由一组普通镜头摄取。

在上述实施例中，还包括人脸检测单元，用于检测所述图像矫正单元得到的所述窗口区域的平面图像内是否有完整的人脸，并将人脸检测结果反馈给所述图像矫正单元；所述图像矫正单元，还用于当所述人脸检测单元在所述窗口区域的平面图像内未检测到完整的人脸时，移动所述窗口区域，当所述人脸检测单元在所述窗口区域的平面图像内检测到完整的人脸时，将所述窗口区域的平面图像输出给所述压缩与传输单元。

在上述实施例中，所述图像矫正单元移动所述窗口区域具体为：所述图像矫正单元通过调整一个或多个调整参数以移动所述窗口区域，所述调整参数包括水平视角、垂直视角和所述窗口区域的大小。

在上述实施例中，所述图像矫正单元通过调整水平视角、垂直视角和所述窗口区域的大小以移动所述窗口区域，具体包括：优先调整所述窗口区域的大小，在调整所述窗口区域的大小后仍无法检测到完整的人脸后调整所述垂直视角，如果还无法检测到完整的人脸，则再调整所述水平视角。

作为本发明的一个实施例，所述人脸检测单元还用于记录在所述窗口区域的平面图像内未检测到完整的人脸的次数，当所述未检测到完整的人脸的次数大于阈值n时，通知所述图像矫正单元对全部的所述全景图像进行矫正。

在上述实施例中，在人脸检测单元在窗口区域的平面图像内检测到完整的人脸之后，还包括：所述图像矫正单元以检测到的人脸中心为视角中心，以完全包含人脸区域的视角进行图像矫正。

在上述实施例中，所述音源识别单元包括声音方向判断模块和水平视角计算模块，所述声音方向判断模块，用于对声音的方向进行判别，判断声音来源的方向；所述水平视角计算模块，用于根据声音方向判断模块判断的声音来源方向计算相应的水平视角。

本发明另一方面还提出一种视频会议系统，包括权利要求1至8任一项的图像矫正装置，以及为所述图像矫正装置提供全景图像的鱼眼镜头或普通镜头组，和为所述图像矫正装置提供音频信号的麦克风阵列。

本发明再一方面还提出一种图像矫正方法，包括以下步骤：采集全景图像和音频信号；根据所述音频信号判断声音的来源，并生成相应的水平视角；根据所述水平视角选择所述全景图像在所述水平视角上的窗口区域进行矫正，得到所述窗口区域的平面图像；将得到的所述窗口区域的平面图像及所述音频信号进行压缩并传输。其中上述全景图像由鱼眼镜头摄取或由一组普通镜头摄取。

作为本发明的一个实施例，在所述根据水平视角选择全景图像在水平视角上的窗口区域进行矫正，得到所述窗口区域的平面图像之后，还包括以下步骤：判断在所述窗口区域的平面图像内是否检测到完整的人脸；如果判断未检测到完整的人脸，则移动所述窗口区域，并继续进行人脸检测；如果判断检测到完整的人脸，则输出所述窗口区域的平面图像。

作为本发明的一个实施例，所述移动窗口区域具体包括：通过调整一个或多个调整参数以移动所述窗口区域，所述调整参数包括水平视角、垂直视角和所述窗口区域的大小。

作为本发明的一个实施例，所述调整水平视角、垂直视角和所述窗口区域的大小以移动所述窗口区域具体包括以下步骤：按照预定步长调整所述窗口区域的大小；对调整后的窗口区域进行矫正，并检测是否包含有完整的人脸，如果检测到包含有完整的人脸，则输出调整后的窗口区域的平面图像，如果未检测到，则按照预定步长继续调整所述窗口区域的大小；如果所述窗口区域的大小调整完后依然没有在窗口区域内检测到完整的人脸，则继续调整所述垂直视角，并在所述调整后的垂直视角内再次调整所述窗口区域的大小以进行人脸检测；如果所述垂直视角调整完后依然没有在窗口区域内检测到完整的人脸，则继续调整所述水平视角，并在所述调整后的水平视角内再次依次调整所述垂直视角和所述窗口区域的大小以进行人脸检测。

在上述实施例中，还包括以下步骤：记录在所述窗口区域的平面图像内未检测到完整的人脸的次数；如果所述未检测到完整的人脸的次数大于阈值n，则对全部的所述全景图像进行矫正。

在上述实施例中，在所述窗口区域的平面图像内检测到完整的人脸之后，还包括：进一步在所述窗口区域内选择合适的人脸区域进行矫正。

在上述实施例中，所述进一步在所述窗口区域内选择合适的人脸区域进行矫正具体为：以检测到的人脸中心为视角中心，以完全包含人脸区域的视角进行图像矫正。

本发明通过音频信号对输出的图像进行选取和矫正，无需输出全部的图像，能够减少传输的数据在目前网络带宽有限的情况下依然能够保证视频会议画面传输的流畅性。并且通过本发明根据声音来源而输出发言者的图像，还进一步提高了用户的体验度。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为现有技术中视频会议系统的结构示意图；

图2为现有技术中鱼眼矫正示意图的左视图；

图3为现有技术中鱼眼矫正示意图的俯视图；

图3A-3C为现有技术中鱼眼矫正过程示意图；

图4为现有技术鱼眼图像示意图；

图5为本发明一个实施例的鱼眼镜头和麦克风阵列单元组合的俯视图；

图6为本发明一个实施例的鱼眼镜头和麦克风阵列单元组合的侧视图；

图7为本发明一个实施例的图像矫正装置的结构示意图；

图8为本发明一个实施例输出的窗口区域的过程图；

图9为本发明一个实施例图像矫正方法流程图；

图10为本发明另一个实施例的视频会议系统的结构示意图；

图11为本发明另一个实施例图像矫正方法流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本发明主要在于，将音源方向识别与图像的选取和输出相结合，只将声音来源处的图像进行矫正并传输，而非像现有技术那样输出全部采集的图像，从而在保证会议视频传输质量的前提下，减少了传输的数据，提高了视频会议画面的流畅性。更进一步的，为了提高画面的完整性，本发明进一步增加了人脸识别功能，在对音源方向的窗口区域矫正后还需进一步判断矫正的平面图像内是否包含完整的人脸，如果不包含则移动窗口区域，直至窗口区域能够包含完整的人脸，从而能够有效避免在会议视频中由于音源判断的误差出现发言者半个脸等问题，进一步提高用户满意度。本发明可通过鱼眼镜头采集鱼眼图像，也可通过一组普通镜头，例如相互配合的三个120度的镜头采集全景360度的图像。同样本发明不仅可以适用于视频会议系统中，也可适用于监控系统中。为了能够更好的理解本发明的上述思想，以下将以具体例子的方式介绍本发明，在此所述的具体例子是在视频会议系统中采用鱼眼镜头的方式，该方式仅是实现本发明的优选方案，并不是对本发明的限制。本领域普通技术人员能够想到还可采用一组普通镜头采集全景图像，或将本发明应用在监控系统等领域中。

作为本发明的一个实施例，本发明还提出一种鱼眼镜头和麦克风阵列单元结合的视频会议系统结构，如图5所示，为本发明一个实施例的鱼眼镜头和麦克风阵列单元组合的俯视图；如图6所示，为本发明一个实施例的鱼眼镜头和麦克风阵列单元组合的侧视图。其中，1为鱼眼镜头、2为麦克风阵列单元。当然本发明上述附图仅示出了鱼眼镜头和麦克风阵列单元结合较优的方式，麦克风阵列单元放置在鱼眼镜头所在平面的底部，不会遮挡鱼眼镜头。本领域技术人员能够根据本发明提出的结构做出修改或改变，同样也应为本发明保护范围所涵盖。

以下将以实施例的方式对本发明进行详细介绍，以下的实施例仅是为了能够更完全的理解本发明，而不是限制本发明。

实施例1

如图7所示，为本发明一个实施例的图像矫正装置的结构示意图，该视频会议系统包括图像采集与处理单元703、音频采集与处理单元704、图像矫正单元705、音源识别单元706和压缩与传输单元707。其中，还可包括鱼眼镜头和麦克风阵列单元，鱼眼镜头用于摄取鱼眼图像，在本发明中并未对鱼眼镜头做出任何限制，目前市场所出现的以及今后所发展的鱼眼镜头均可适用于本发明，当然如上所述还可包括一组镜头以获取所需的全景图像。麦克风阵列单元用于接收音频信号，在本发明中麦克风阵列单元可四面放置，单位为了提高音源方向的判断精度，还可设置多个方向的麦克风阵列。图像采集与处理单元703用于采集鱼眼镜头701摄取的鱼眼图像并进行基本的图像处理；音频采集与处理单元704用于采集麦克风阵列单元702接收的音频信号并进行基本的音频处理，上述的基本图像处理和基本音频处理为现有技术所惯用手段在此不再赘述。音源识别单元706用于根据音频采集与处理单元采集704的音频信号判断声音的来源方向，并生成相应的水平视角；图像采集与处理单元703用于采集鱼眼镜头701摄取的鱼眼图像；图像矫正单元705用于根据音源识别单元706生成的水平视角，选择图像采集与处理单元703采集的鱼眼图像在水平视角上的窗口区域进行矫正，得到该窗口区域的平面图像；压缩与传输单元707用于对图像矫正单元705得到的窗口区域的平面图像及音频信号进行压缩并传输，其中所述传输可通过IP网络或无线网络传输。

作为一个具体实施例，音源识别单元706包括声音方向判断模块和水平视角计算模块，声音方向判断模块用于对声音的方向进行判别，判断声音来源的方向；水平视角计算模块用于根据声音方向判断模块判断的声音来源方向计算相应的水平视角。

如图8所示，为本发明一个实施例输出的窗口区域的过程图，从该图中可以看出，通过本发明实施例，不再对全部鱼眼图像进行矫正，而仅仅是矫正发言者所在的窗口区域，从而在不影响会议效果的情况下有效减少了数据的传输。在该图中，经过声音检测发现生源方向来自于正上方，水平视角为90度，因此窗口区域按照给出的水平视角选择正上方的发言者，并对该窗口区域进行矫正，得到该窗口区域的平面图像并输出。

在本发明中仅输出发言者所在的窗口区域，然而本领域技术人员也可对本发明所提到的技术方案做出修改，如输出全部的鱼眼图像，但是对于发言者的位置做重点提示等。

由于本发明只对发言者所在的窗口区域进行矫正，因此可以适当提高窗口区域的校准精度，提供视频会议质量。这样虽然在一定程度上增加了需要传输的数据量，但是由于本发明仍然只是对窗口区域进行矫正，而不是全部的鱼眼图像，因此相对于现有技术中传输的数据量还是比较小的，依然不会影响视频的流畅性。

同样对于上述视频会议系统的实施例，本发明也同样提出了一种图像矫正方法，为了能够更好的理解本发明，该实施例以鱼眼镜头为例，然而还可由一组普通镜头为该实施例提供所需的全景图像，其工作过程与该实施例类似，在此不再赘述。如图9所示，为本发明一个实施例图像矫正方法流程图，包括以下步骤：

步骤S901，通过鱼眼镜头采集鱼眼图像，并通过麦克风阵列采集音频信号。

步骤S902，根据采集的音频信号判断声音的来源，并生成相应的水平视角。如图8中所示，发言者来自鱼眼镜头的正上方，因此此时水平视角为90度。

步骤S903，根据生成的水平视角选择鱼眼图像在该水平视角上的窗口区域进行矫正，得到窗口区域的平面图像。其中，窗口区域的大小(如高和宽等参数)为预设值，可根据需要进行选择和调整。

步骤S904，将得到的窗口区域的平面图像及采集的音频信号进行压缩并传输。

然而由于音源定为算法可能会存在一些误差，并且发言者可能会处在运动状态，因此如果仍然以音源定为给出的方向进行图像的矫正和传输可能得到的图像不能令人满意。可能会出现选择的窗口区域内中有发言者的半个脸，或者由于窗口区域的大小不是很合适而导致窗口区域太小只显示了人脸的一部分，如果这种情况出现在视频会议中，无疑是非常尴尬的。因此本发明在上述实施例的基础上，引入了人脸检测的方法对音源定为获取的方位进行校正，随时对选择的窗口区域进行移动以使其内能够包含有完整的人脸。其中，对窗口区域的移动可以采用调整水平视角、垂直视角或窗口区域大小的方式，当然也可同时采用上述多个调整参数一同对窗口区域进行调整，以达到尽快使窗口区域有包含完整人脸的目的。作为本发明的优选方案，由于水平视角是根据音源计算得到的，因此先不调整水平视角，在计算得到的水平视角基础上，依次调整垂直视角和窗口大小以寻找包含完整人脸的窗口区域。

在此还需要说明的是，对于目前的人脸识别算法来说，无法识别鱼眼图像，也就是说如果要对鱼眼图像中的人脸进行识别就必须要先将其矫正为平面图像，但是该矫正可以选择比输出的平面图像精度低的算法实现。然而本发明也并不排除使用出现的可以直接识别鱼眼图像的人脸识别算法，同样也可应用于本发明中，因此也同样应为本发明保护范围所涵盖。

为了能够更完整和深入的理解本发明，以下将以实施例的方式对本发明相对于实施例一的改进进行进一步的说明。

实施例二

该实施例相对于实施例一来说，增加了人脸识别功能，在得到实施例一的窗口区域矫正图像后，还需要进一步判断该窗口区域矫正后的平面图像内是否包含有完整的人脸，如果包含有完整的人脸则说明不会影响会议效果，因此直接将窗口区域的平面图像输出，当然如上所述也可以采用精度更高的矫正算法再次对窗口区域进行矫正得到精度更高的平面图像，提高会议效果；如果没有包含完整的人脸，则需要进一步移动窗口区域，并再次进行人脸检测，直至发现包含有完整的人脸时输出相应的窗口区域的平面图像。当然作为本发明的一个优选实施例，如果未检测到完整人脸的次数已达到阈值n次，则再不输出图像就会影响会议效果，因此该情况下直接将全部的鱼眼图像全部矫正并输出。

如图10所示，为本发明另一个实施例的视频会议系统的结构示意图，该视频会议系统包括鱼眼镜头1001、麦克风阵列单元1002、图像采集与处理单元1003、音频采集与处理单元1004、图像矫正单元1005、音源识别单元1006、人脸识别单元1008和压缩与传输单元1007。其中，鱼眼镜头1001用于摄取鱼眼图像，在本发明中并未对鱼眼镜头701做出任何限制，目前市场所出现的以及今后所发展的鱼眼镜头均可适用于本发明；麦克风阵列单元1002用于接收音频信号，在本发明中麦克风阵列单元1002可四面放置，单位为了提高音源方向的判断精度，还可设置多个方向的麦克风阵列。图像采集与处理单元1003用于采集鱼眼镜头1001摄取的鱼眼图像并进行基本的图像处理；音频采集与处理单元1004用于采集麦克风阵列单元1002接收的音频信号并进行基本的音频处理，上述的基本图像处理和基本音频处理为现有技术所惯用手段在此不再赘述。音源识别单元1006用于根据音频采集与处理单元采集1004的音频信号判断声音的来源方向，并生成相应的水平视角；图像采集与处理单元1003用于采集鱼眼镜头1001摄取的鱼眼图像；图像矫正单元1005用于根据音源识别单元1006生成的水平视角，选择图像采集与处理单元1003采集的鱼眼图像在水平视角上的窗口区域进行矫正，得到该窗口区域的平面图像；人脸检测单元1008用于检测图像矫正单元1005得到的窗口区域的平面图像内是否有完整的人脸，并将人脸检测结果反馈给图像矫正单元1005，图像矫正单元1005在人脸检测单元1008在窗口区域的平面图像内未检测到完整的人脸时，移动窗口区域，当人脸检测单元1008在窗口区域的平面图像内检测到完整的人脸时，将窗口区域的平面图像输出给压缩与传输单元1007。压缩与传输单元1007用于对图像矫正单元1005得到的窗口区域的平面图像及音频信号进行压缩并传输，其中所述传输可通过IP网络或无线网络传输。

作为一个具体实施例，音源识别单元1006包括声音方向判断模块和水平视角计算模块，声音方向判断模块用于对声音的方向进行判别，判断声音来源的方向；水平视角计算模块用于根据声音方向判断模块判断的声音来源方向计算相应的水平视角。

其中，在上述实施例中，图像矫正单元1005移动窗口区域可通过调整一个或多个调整参数以移动窗口区域，调整参数包括水平视角、垂直视角和窗口区域的大小。作为本发明的一个优选实施例，由于水平视角是根据音源方向计算得到的，因此为了提高调整效率，可依次调整窗口区域的大小和垂直视角，在调整窗口区域的大小和垂直视角仍然无法在窗口区域发现完整的人脸后，再调整水平视角。即优先调整所述窗口区域的大小，在调整所述窗口区域的大小后仍无法检测到完整的人脸后调整所述垂直视角，如果还无法检测到完整的人脸，则再调整所述水平视角。

并且，为了不影响正常的视频会议进度，人脸检测单元1008还用于记录在窗口区域的平面图像内未检测到完整的人脸的次数，当未检测到完整的人脸的次数大于阈值n时，通知图像矫正单元1005对全部的鱼眼图像进行矫正并输出给压缩与传输单元1007。

作为本发明的一个优选实施例，如果人脸检测单元1008在窗口区域中发现完整的人脸后，还可对该窗口区域进行进一步的处理，如在窗口区域内进一步选择合适的人脸区域进行矫正，这样不仅能够缩小窗口区域使传输的数据更小，而且能使发言者的容貌在视频会议中更加清晰。本发明可以检测到的人脸中心为视角中心，以完全包含人脸区域的视角进行图像矫正。

同样对于上述视频会议系统的实施例，本发明也同样提出了一种图像矫正方法，如图11所示，为本发明另一个实施例图像矫正方法流程图，通过该方法能够最终将适当人脸区域作为发言人显示，使整个系统具有良好的鲁棒性，该方法包括以下步骤：

步骤S1101，通过鱼眼镜头采集鱼眼图像，并通过麦克风阵列采集音频信号。

步骤S1102，根据采集的音频信号判断声音的来源，并生成相应的水平视角。如图8中所示，发言者来自鱼眼镜头的正上方，因此此时水平视角为90度。

步骤S1103，根据生成的水平视角选择鱼眼图像在该水平视角上的窗口区域进行矫正，得到窗口区域的平面图像。其中，窗口区域的大小(如高和宽等参数)为预设值，可根据需要进行选择和调整。由于对于目前的人脸识别算法无法识别鱼眼图像，因此需要先对窗口区域的平面图像进行矫正，转化为平面图像才能进行人脸识别。

步骤S1104，判断在窗口区域的平面图像内是否检测到完整的人脸；如果判断未检测到完整的人脸，则进行步骤S1105移动所述窗口区域，并继续进行人脸检测；如果判断检测到完整的人脸，则进行步骤S1106输出所述窗口区域的平面图像。

步骤S1105，移动窗口区域。其中，可通过调整一个或多个调整参数以移动所述窗口区域，调整参数包括水平视角、垂直视角和所述窗口区域的大小等。执行步骤S1104再次判断在窗口区域的平面图像内是否检测到完整的人脸，如果判断未检测到完整的人脸，则进行步骤S1105移动所述窗口区域，并继续进行人脸检测；如果判断检测到完整的人脸，则进行步骤S1106输出窗口区域的平面图像。

步骤S1106，将得到的窗口区域的平面图像及采集的音频信号进行压缩并传输。

作为本发明的一个优选实施例，由于水平视角是根据音源方向计算得到的，因此为了提高调整效率，可依次调整窗口区域的大小和垂直视角，在调整窗口区域的大小和垂直视角仍然无法在窗口区域发现完整的人脸后，再调整水平视角。具体为：按照预定步长调整窗口区域的大小；对调整后的窗口区域进行矫正，并检测矫正后的窗口区域内是否包含有完整的人脸，如果检测到包含有完整的人脸，则输出调整后的窗口区域的平面图像，如果未检测到，则按照预定步长继续调整所述窗口区域的大小，直至在窗口区域内发现完整的人脸或者按照预定步长将窗口区域的大小调整完毕；如果窗口区域的大小调整完后依然没有在窗口区域内检测到完整的人脸，则调整垂直视角，并在调整后的垂直视角内再次重新调整窗口区域的大小以进行人脸检测，通过如果窗口区域的大小调整完毕后没有在窗口区域发现完整的人脸，那么再次调整垂直视角；如果垂直视角调整完后依然没有在窗口区域内检测到完整的人脸，则继续调整水平视角，并在调整后的水平视角内再次依次调整垂直视角和所述窗口区域的大小以进行人脸检测。

在上述实施例中，优选地，为了不影响视频会议的进度，还需要记录在窗口区域的平面图像内未检测到完整的人脸的次数；如果未检测到完整的人脸的次数大于阈值n，则对全部的鱼眼图像进行矫正并输出。

作为本发明的一个优选实施例，在窗口区域中发现完整的人脸后，还可对该窗口区域进行进一步的处理，如在窗口区域内进一步选择合适的人脸区域进行矫正，这样不仅能够缩小窗口区域使传输的数据更小，而且能使发言者的容貌在视频会议中更加清晰。本发明可以检测到的人脸中心为视角中心，以完全包含人脸区域的视角进行图像矫正。

如图12A-12E所示，为本发明一个实施例调整窗口区域的示意图，首先根据采集的音频信号计算水平视角，根据得到的水平视角确定如图12A所示的中心视线，并在该水平视角的中心视线上选择窗口区域如图12B，在判断该图12B的窗口区域内无完整的人脸后，按照预定的规则和步长调整该窗口区域，包括移动该窗口区域或调整该窗口区域的大小，如图12C所示，直至如图12D所示在该窗口区域内发现完整的人脸，从而最终将适当的人脸区域作为发言者显示如图12E所示，提高用户的满意度和系统的鲁棒性。

本发明通过音频信号对输出的图像进行选取和矫正，无需输出全部的图像，能够减少传输的数据在目前网络带宽有限的情况下依然能够保证视频会议画面传输的流畅性。并且通过本发明根据声音来源而输出发言者的图像，还进一步提高了用户的体验度。作为本发明的一个具体实施例，本发明的视频会议系统将音源识别与鱼眼摄像头结合，从而可以仅对鱼眼图像中发言者对应的视频图像进行矫正并输出，减少了传输数据，而无需像现有技术那样输出全部的鱼眼图像的平面图像，在目前网络带宽有限的情况下依然能够保证视频会议画面传输的流畅性。并且通过本发明根据声音来源而输出发言者的图像，还进一步提高了用户的体验度。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同限定。

Claims

1、一种图像矫正装置，其特征在于，包括：

音频采集与处理单元，用于采集音频信号；

音源识别单元，用于根据所述音频采集与处理单元采集的音频信号判断声音的来源方向，并生成相应的水平视角；

图像采集与处理单元，用于采集摄取的全景图像；

图像矫正单元，用于根据所述音源识别单元生成的水平视角，选择所述图像采集与处理单元采集的所述全景图像在所述水平视角上的窗口区域进行矫正，得到所述窗口区域的平面图像；

压缩与传输单元，用于对所述图像矫正单元得到的所述窗口区域的平面图像及所述音频信号进行压缩并传输。

2、如权利要求1所述图像矫正装置，其特征在于，所述图像采集与处理单元采集的全景图像由鱼眼镜头摄取或由一组普通镜头摄取。

3、如权利要求1或2所述图像矫正装置，其特征在于，还包括人脸检测单元，用于检测所述图像矫正单元得到的所述窗口区域的平面图像内是否有完整的人脸，并将人脸检测结果反馈给所述图像矫正单元；

所述图像矫正单元，还用于当所述人脸检测单元在所述窗口区域的平面图像内未检测到完整的人脸时，移动所述窗口区域，当所述人脸检测单元在所述窗口区域的平面图像内检测到完整的人脸时，将所述窗口区域的平面图像输出给所述压缩与传输单元。

4、如权利要求3所述图像矫正装置，其特征在于，所述图像矫正单元移动所述窗口区域具体为：所述图像矫正单元通过调整一个或多个调整参数以移动所述窗口区域，所述调整参数包括水平视角、垂直视角和所述窗口区域的大小。

5、如权利要求4所述图像矫正装置，其特征在于，所述图像矫正单元通过调整水平视角、垂直视角和所述窗口区域的大小以移动所述窗口区域，具体包括：

优先调整所述窗口区域的大小，在调整所述窗口区域的大小后仍无法检测到完整的人脸后调整所述垂直视角，如果还无法检测到完整的人脸，则再调整所述水平视角。

6、如权利要求3所述图像矫正装置，其特征在于，所述人脸检测单元还用于记录在所述窗口区域的平面图像内未检测到完整的人脸的次数，当所述未检测到完整的人脸的次数大于阈值n时，通知所述图像矫正单元对全部的所述全景图像进行矫正。

7、如权利要求3所述图像矫正装置，其特征在于，在人脸检测单元在窗口区域的平面图像内检测到完整的人脸之后，还包括：

所述图像矫正单元以检测到的人脸中心为视角中心，以完全包含人脸区域的视角进行图像矫正。

8、如权利要求1或2所述图像矫正装置，其特征在于，所述音源识别单元包括声音方向判断模块和水平视角计算模块，

所述声音方向判断模块，用于对声音的方向进行判别，判断声音来源的方向；

所述水平视角计算模块，用于根据声音方向判断模块判断的声音来源方向计算相应的水平视角。

9、一种视频会议系统，其特征在于，包括权利要求1至8任一项的图像矫正装置，以及为所述图像矫正装置提供全景图像的鱼眼镜头或普通镜头组，和为所述图像矫正装置提供音频信号的麦克风阵列。

10、一种图像矫正方法，其特征在于，包括以下步骤：

采集全景图像和音频信号；

根据所述音频信号判断声音的来源，并生成相应的水平视角；

根据所述水平视角选择所述全景图像在所述水平视角上的窗口区域进行矫正，得到所述窗口区域的平面图像；

将得到的所述窗口区域的平面图像及所述音频信号进行压缩并传输。

11、如权利要求10所述图像矫正方法，其特征在于，所述全景图像由鱼眼镜头摄取或由一组普通镜头摄取。

12、如权利要求10或11所述图像矫正方法，其特征在于，在所述根据水平视角选择全景图像在水平视角上的窗口区域进行矫正，得到所述窗口区域的平面图像之后，还包括以下步骤：

判断在所述窗口区域的平面图像内是否检测到完整的人脸；

如果判断未检测到完整的人脸，则移动所述窗口区域，并继续进行人脸检测；

如果判断检测到完整的人脸，则输出所述窗口区域的平面图像。

13、如权利要求12所述图像矫正方法，其特征在于，所述移动窗口区域具体包括：

通过调整一个或多个调整参数以移动所述窗口区域，所述调整参数包括水平视角、垂直视角和所述窗口区域的大小。

14、如权利要求13所述图像矫正方法，其特征在于，所述调整水平视角、垂直视角和所述窗口区域的大小以移动所述窗口区域具体包括以下步骤：

按照预定步长调整所述窗口区域的大小；

对调整后的窗口区域进行矫正，并检测是否包含有完整的人脸，如果检测到包含有完整的人脸，则输出调整后的窗口区域的平面图像，如果未检测到，则按照预定步长继续调整所述窗口区域的大小；

如果所述窗口区域的大小调整完后依然没有在窗口区域内检测到完整的人脸，则继续调整所述垂直视角，并在所述调整后的垂直视角内再次调整所述窗口区域的大小以进行人脸检测；

如果所述垂直视角调整完后依然没有在窗口区域内检测到完整的人脸，则继续调整所述水平视角，并在所述调整后的水平视角内再次依次调整所述垂直视角和所述窗口区域的大小以进行人脸检测。

15、如权利要求12所述图像矫正方法，其特征在于，还包括以下步骤：

记录在所述窗口区域的平面图像内未检测到完整的人脸的次数；

如果所述未检测到完整的人脸的次数大于阈值n，则对全部的所述全景图像进行矫正。

16、如权利要求14所述图像矫正方法，其特征在于，在所述窗口区域的平面图像内检测到完整的人脸之后，还包括：

进一步在所述窗口区域内选择合适的人脸区域进行矫正。

17、如权利要求16所述图像矫正方法，其特征在于，所述进一步在所述窗口区域内选择合适的人脸区域进行矫正具体为：

以检测到的人脸中心为视角中心，以完全包含人脸区域的视角进行图像矫正。