CN113838128A - 视频图像音画映射的方法、系统、装置及视频会议设备 - Google Patents

视频图像音画映射的方法、系统、装置及视频会议设备 Download PDF

Info

Publication number
CN113838128A
CN113838128A CN202111389994.7A CN202111389994A CN113838128A CN 113838128 A CN113838128 A CN 113838128A CN 202111389994 A CN202111389994 A CN 202111389994A CN 113838128 A CN113838128 A CN 113838128A
Authority
CN
China
Prior art keywords
angle
target
determining
line
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111389994.7A
Other languages
English (en)
Other versions
CN113838128B (zh
Inventor
肖兵
许汉龙
曾庆林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Shixi Technology Co Ltd
Original Assignee
Zhuhai Shixi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Shixi Technology Co Ltd filed Critical Zhuhai Shixi Technology Co Ltd
Priority to CN202111389994.7A priority Critical patent/CN113838128B/zh
Publication of CN113838128A publication Critical patent/CN113838128A/zh
Application granted granted Critical
Publication of CN113838128B publication Critical patent/CN113838128B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请公开了一种视频图像音画映射的方法、系统、装置及视频会议设备,用于在满足应用需求的前提简化标定过程,减小视频图像音画映射过程中的计算量,适合大规模推广应用。本申请方法包括:根据声源角度最大范围和预设精度将声源角度等分为N份,得到N+1条角度线,所述N为大于1的整数;在各个角度线上分别选取至少两个目标数据点并将所述目标数据点标记在水平面上;获取目标图像,所述目标图像为包含所述目标数据点的图像;确定所述目标数据点在所述目标图像中的坐标;根据所述坐标确定所述角度线的目标方程系数;根据所述角度线的角度和所述目标方程系数建立标定表格;根据所述标定表格进行音画映射。

Description

视频图像音画映射的方法、系统、装置及视频会议设备
技术领域
本申请涉及视频图像技术领域,尤其涉及一种视频图像音画映射的方法、系统、装置及视频会议设备。
背景技术
当下,视频会议已较为普及。目前市面上已有一些智能会议系统能够在视频会议过程中自动对画面中的发言者给予特写画面,使其他与会者能清晰看到发言者的面部表情和肢体动作,极大地提升了会议效果。
为了确定画面中发言者的位置,现有技术常常将声源定位技术与图像识别技术相结合予以实现。声源定位是通过麦克风阵列和相应算法实现的,但考虑到经济性和结构紧凑性,市面上相关会议设备采用的麦克风阵列以线性阵列居多,其声源定位结果则对应为水平的声源角度。
在视频会议设备中,摄像头采集的视频图像存在透视以及畸变,且视频图像所处的像素坐标系与阵列麦克风的坐标系属于不同的坐标系,也就说根据声源角度还不能直接在视频图像中确定目标方位。现有技术中,为了实现音画映射,一般采用结合相机内参、外参并通过数学建模将图像中的坐标与声源角度关联起来,但是采用这种方法需要对相机标定获取内参、外参,相应的操作要求较高,并且建模和计算过程也比较繁琐,不适合推广应用。
发明内容
本申请提供了一种视频图像音画映射的方法、系统、装置及视频会议设备,用于在满足应用需求的前提简化标定过程,减小视频图像音画映射过程中的计算量,适合大规模推广应用。
本申请第一方面提供了一种视频图像音画映射的方法,包括:
根据声源角度最大范围和预设精度将声源角度等分为N份,得到N+1条角度线,所述N为大于1的整数;
在各个角度线上分别选取至少两个目标数据点并将所述目标数据点标记在水平面上;
获取目标图像,所述目标图像为包含所述目标数据点的图像;
确定所述目标数据点在所述目标图像中的坐标;
根据所述坐标确定所述角度线的目标方程系数;
根据所述角度线的角度和所述目标方程系数建立标定表格;
根据所述标定表格进行音画映射。
可选的,所述在各个角度线上分别选取至少两个目标数据点并将所述目标数据点标记在水平面上包括:
在各个角度线上直接选取至少两个目标数据点并将所述目标数据点标记在水平面上;
或,
选取至少两条水平线,将所述水平线与各个角度线的交点作为目标数据点并将所述目标数据点标记在水平面上。
可选的,所述在各个角度线上分别选取至少两个目标数据点并将所述目标数据点标记在水平面上包括:
仅在90°角度线及其一侧的角度线选取至少两个目标数据点并将所述目标数据点标记在水平面上。
可选的,所述根据所述标定表格进行音画映射包括:
获取所述标定表格,所述标定表格中预存有若干角度线的角度与目标方程系数之间的映射关系;
采集目标声源角度;
根据所述目标声源角度和预设角度容差确定声源角度范围;
根据所述声源角度范围和所述标定表格确定目标角度线方程;
根据所述目标角度线方程确定所述声源角度范围在视频画面中的像素区域;
或,
根据所述目标角度线方程确定目标位置是否位于所述声源角度范围内。
可选的,所述根据所述声源角度范围和所述标定表格确定目标角度线方程包括:
根据所述声源角度范围确定边界角度;
在所述标定表格中确定与所述边界角度对应的目标方程系数;
根据所述目标方程系数确定与所述边界角度对应的目标角度线方程。
可选的,若所述标定表格仅标定了90°角度线及其一侧的角度线且未标定所述边界角度,所述在所述标定表格中确定与所述边界角度对应的目标方程系数包括:
确定所述边界角度基于90°角度线的对称角度;
在所述标定表格中确定与所述对称角度对应的目标方程系数;
根据镜像原理得到与所述边界角度对应的目标方程系数。
可选的,所述根据所述目标角度线方程确定所述声源角度范围在视频画面中的像素区域包括:
根据所述目标角度线方程和预设图像高度确定所述声源角度范围在视频画面中的像素区域。
可选的,所述根据所述目标角度线方程确定目标位置是否位于所述声源角度范围内包括:
确定目标位置;
根据所述目标角度线方程确定所述目标位置是否位于目标角度线之间;
若是,则确定所述目标位置位于所述声源角度范围内;
若否,则确定所述目标位置位于所述声源角度范围外。
可选的,若所述标定表格仅标定了90°角度线及其一侧的角度线且所述目标位置位于未标定的一侧,所述根据所述目标角度线方程确定所述目标位置是否位于目标角度线之间包括:
确定所述目标位置基于90°角度线的镜像位置;
确定所述目标角度线基于90°角度线的镜像角度线;
在标定表格中确定所述镜像角度线的方程;
根据所述镜像角度线方程确定所述镜像位置是否位于所述镜像角度线之间。
可选的,所述目标位置为目标检测框的中心点位置。
可选的,所述根据所述标定表格进行音画映射包括:
获取所述标定表格,所述标定表格中预存有若干角度线的角度与目标方程系数之间的映射关系;
获取目标检测信息;
根据所述目标检测信息确定目标位置;
在所述标定表格中确定与所述目标位置相邻的第一角度线和第二角度线;
根据所述第一角度线和所述第二角度线确定所述目标位置在视频画面中的角度范围或角度。
可选的,所述根据所述第一角度线和所述第二角度线确定所述目标位置在视频画面中的角度包括:
确定所述目标位置到所述第一角度线和所述第二角度线的第一距离和第二距离;
根据所述第一距离和第二距离,通过目标公式确定所述目标位置在视频画面中的角度。
可选的,所述目标公式为:
θx=θ1+Δθ(d2/d1+d2);
其中,θx表示所述目标位置在视频画面中的角度值,θ1表示所述第一角度线对应的角度,d1表示第一距离,d2表示第二距离,Δθ表示预设角度间隔。
本申请第二方面提供了一种视频图像音画映射的系统,包括:
处理单元,用于根据声源角度最大范围和预设精度将声源角度等分为N份,得到N+1条角度线,所述N为大于1的整数;
标记单元,用于在各个角度线上分别选取至少两个目标数据点并将所述目标数据点标记在水平面上;
获取单元,用于获取目标图像,所述目标图像为包含所述目标数据点的图像;
第一确定单元,用于确定所述目标数据点在所述目标图像中的坐标;
第二确定单元,用于根据所述坐标确定所述角度线的目标方程系数;
建立单元,用于根据所述角度线的角度和所述目标方程系数建立标定表格;
映射单元,用于根据所述标定表格进行音画映射。
可选的,所述标记单元具体用于:
在各个角度线上直接选取至少两个目标数据点并将所述目标数据点标记在水平面上;
或,
选取至少两条水平线,将所述水平线与各个角度线的交点作为目标数据点并将所述目标数据点标记在水平面上。
可选的,所述标记单元具体还用于:
仅在90°角度线及其一侧的角度线选取至少两个目标数据点并将所述目标数据点标记在水平面上。
可选的,所述映射单元包括:
第一获取模块,用于获取所述标定表格,所述标定表格中预存有若干角度线的角度与目标方程系数之间的映射关系;
采集模块,用于采集目标声源角度;
第一确定模块,用于根据所述目标声源角度和预设角度容差确定声源角度范围;
第二确定模块,用于根据所述声源角度范围和所述标定表格中确定目标角度线方程;
第一映射模块,用于根据所述目标角度线方程确定所述声源角度范围在视频画面中的像素区域;
第二映射模块,用于根据所述目标角度线方程确定目标位置是否位于所述声源角度范围内。
可选的,所述第二确定模块具体用于:
根据所述声源角度范围确定边界角度;
在所述标定表格中确定与所述边界角度对应的目标方程系数;
根据所述目标方程系数确定与所述边界角度对应的目标角度线方程。
可选的,若所述标定表格仅标定了90°角度线及其一侧的角度线且未标定所述边界角度,所述第二确定模块具体还用于:
确定所述边界角度基于90°角度线的对称角度;
在所述标定表格中确定与所述对称角度对应的目标方程系数;
根据镜像原理得到与所述边界角度对应的目标方程系数。
可选的,所述第一映射模块具体用于:
根据所述目标角度线方程和预设图像高度确定所述声源角度范围在视频画面中的像素区域。
可选的,所述第二映射模块具体用于:
确定目标位置;
根据所述目标角度线方程确定所述目标位置是否位于目标角度线之间;
若是,则确定所述目标位置位于所述声源角度范围内;
若否,则确定所述目标位置位于所述声源角度范围外。
可选的,若所述标定表格仅标定了90°角度线及其一侧的角度线且所述目标位置位于未标定的一侧,所述第二映射模块具体还用于:
确定所述目标位置基于90°角度线的镜像位置;
确定所述目标角度线基于90°角度线的镜像角度线;
在标定表格中确定所述镜像角度线的方程;
根据所述镜像角度线的方程确定所述镜像位置是否位于所述镜像角度线之间。
可选的,所述目标位置为目标检测框的中心点位置。
可选的,所述映射单元还包括:
第二获取模块,用于获取所述标定表格,所述标定表格中预存有若干角度线的角度与目标方程系数之间的映射关系;
第三获取模块,用于获取目标检测信息;
第三确定模块,用于根据所述目标检测信息确定目标位置;
第四确定模块,用于在所述标定表格中确定与所述目标位置相邻的第一角度线和第二角度线;
第三映射模块,用于根据所述第一角度线和所述第二角度线确定所述目标位置在视频画面中的角度范围或角度。
可选的,所述第三映射模块具体用于:
确定所述目标位置到所述第一角度线和所述第二角度线的第一距离和第二距离;
根据所述第一距离和第二距离,通过目标公式确定所述目标位置在视频画面中的角度。
可选的,所述目标公式为:
θx=θ1+Δθ(d2/d1+d2);
其中,θx表示所述目标位置在视频画面中的角度值,θ1表示所述第一角度线对应的角度,d1表示第一距离,d2表示第二距离,Δθ表示预设角度间隔。
本申请第三方面提供了一种视频图像音画映射的装置,所述装置包括:
处理器、存储器、输入输出单元以及总线;
所述处理器与所述存储器、所述输入输出单元以及所述总线相连;
所述存储器保存有程序,所述处理器调用所述程序以执行第一方面以及第一方面中任一项可选的视频图像音画映射的方法。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上保存有程序,所述程序在计算机上执行时执行第一方面以及第一方面中任一项可选的视频图像音画映射的方法。
从以上技术方案可以看出,本申请具有以下优点:
通过将声源角度等分为若干角度线,再通过角度线上的数据点的理论坐标和拍摄其得到的图像中的实际坐标的预先建立角度、角度线与角度线方程之间的标定表格,使得在进行音画映射时,能够直接通过该标定表格实现声源角度到视频画面的映射以及视频画面到声源角度的映射,在能够满足应用需求的前提使得标定过程简单易操作,并且减小了映射过程中的计算量,适合大规模推广应用。
附图说明
为了更清楚地说明本申请中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的视频图像音画映射的方法一个实施例流程示意图;
图2为本申请提供的视频图像音画映射的方法中通过两条水平线与角度线的交点获取数据点的示意图;
图3为本申请提供的视频图像音画映射的方法中相机与地面标记的相对位置示意图;
图4为本申请提供的视频图像音画映射的方法中目标图像的示意图;
图5-a、图5-b和图5-c为本申请提供的视频图像音画映射的方法中目标坐标系的示意图;
图6为本申请提供的视频图像音画映射的方法中水平等距点标记插值计算数据点的示意图;
图7为本申请提供的视频图像音画映射的方法中声源角度映射到视频画面的一个实施例流程示意图;
图8为本申请提供的视频图像音画映射的方法中根据声源角度映射到视频画面中的像素区域示意图;
图9为本申请提供的视频图像音画映射的方法中视频画面映射到声源角度的一个实施例流程示意图;
图10为本申请提供的视频图像音画映射的系统一个实施例结构示意图;
图11为本申请提供的视频图像音画映射的装置一个实施例结构示意图。
具体实施方式
本申请提供了一种视频图像音画映射的方法、系统、装置及视频会议设备,用于在满足应用需求的前提简化标定过程,减小视频图像音画映射过程中的计算量,适合大规模推广应用。
需要说明的是,本申请提供的视频图像音画映射的方法,可以应用于终端,还可以应用于服务器上,例如终端可以是会议电视、会议电脑、会议平板、智能手机或电脑、平板电脑、智能电视、智能手表、便携计算机终端也可以是台式计算机等固定终端。为方便阐述,本申请中以终端为执行主体进行举例说明。
请参阅图1,图1为本申请提供的视频图像音画映射的方法的一个实施例,该方法包括:
101、根据声源角度最大范围和预设精度将声源角度等分为N份,得到N+1条角度线,N为大于1的整数;
音画映射是指将摄像头所采集的视频图像以及麦克风所采集的音频信息对应起来,具体应用包括根据声源定位技术得到的声源角度信息在视频图像中确定发言用户的目标方位,或者是根据图像识别或目标检测技术得到的目标方位来确定对应的声源角度。但是在市面上的大部分视频会议系统(或设备)中,由于摄像头采集的视频图像存在透视以及畸变,并且视频图像所处的像素坐标系与麦克风的坐标系属于不同的坐标系,因此需要有一种音画映射方法将两者对应起来,实现声源角度到视频画面或视频画面到声源角度的映射。
在本实施例中,为了实现上述音画映射方法,首先需要建立声源角度和视频画面之间的映射关系。终端根据声源角度最大范围、精度和应用需求,将声源角度等分为若干份,得到若干角度线。具体的,以地面坐标系原点为角度线出发点,声源角度最大范围为[θmin, θmax], 将其等分为N份,则角度间隔为Δθ,相应的角度线为[L0, L1, …, LN]。对于不同的设备,其声源角度最大范围、精度和应用需求不同,具体此处不做限定。
102、在各个角度线上分别选取至少两个目标数据点并将目标数据点标记在水平面上;
分别在步骤101中得到的各条角度线上选取两个数据点,计算其在地面坐标系的理论坐标,然后将其标记在空旷的水平地面上。
在一些具体的实施例中,数据点的选取方式有如下2种:
选取方式1(直接方式):直接在各角度线上选取两个数据点,并确定其理论坐标。
使用这种方式时需要保证选出的数据点在地面标记后在视频画面可视范围内。
选取方式2(间接方式):如图2所示,选取两条水平线l1和l0,将其与各条角度线的交点作为相应的数据点,计算出其理论坐标。
使用这种方式时同样需要保证选出的数据点在地面标记后在视频画面可视范围内。优选采取选取方式2中的选取方式。
在一些具体的实施例中,数据点的标记方式有如下2种:
标记方式1(直接方式):无论是选取方式1和选取方式2,都可以根据所选取的数据点的坐标直接在地面上进行标记。
标记方式2(间接方式):对于选取方式2,可以在选取的水平线上取等距点,并在地面上标记水平等距点。
103、获取目标图像,目标图像为包含所述目标数据点的图像;
如图3所示,将相机布置在预期高度和倾角,该预期高度和倾角此为已知量,可以根据不同视频会议系统或设备的拍摄场景和拍摄需求作具体设定,使相机处于地面坐标系原点正上方,使地面坐标系y轴与相机画面竖直中轴线重合,然后采集至少1张目标图像。
104、确定目标数据点在目标图像中的坐标;
如图4所示,终端根据所采集的目标图像,确定数据点在目标图像中的坐标。
进一步的,在确定数据点在目标画面中的坐标之前,需要先建立目标坐标系。目标坐标系的建立方式有多种,以下为优选的3种方式:
作为一种优选的实施方式,如图5-a所示,y轴方向朝上且y轴与图像竖直中轴线重合,x轴方向朝右且x轴与图像下边缘重合。
作为另一种优选的实施方式,如图5-b所示,y轴方向朝上且y轴与图像竖直中轴线重合,x轴与图像水平中轴线重合。
作为另一种优选的实施方式,如图5-c所示,y轴方向朝上且y轴与图像竖直中轴线重合,x轴与图像上边缘重合。
确定数据点在采集图像中的坐标具体步骤如下:
若在步骤102中进行数据点的标记时采用的是直接方式,终端则在采集的目标图像中直接根据数据点的像素位置计算出其在目标坐标系下的坐标。
若在步骤102中进行数据点的标记时采用的是间接方式,终端则在采集的图像中先找到与数据点相邻的等距点(这是由于相机透视和畸变等因素,等距点在采集的图像中是不等距的)的像素位置,再通过插值计算得出该数据点的位置,然后再转换成目标坐标系下的坐标。具体的,该插值计算可以为线性插值,相应地需要找到与数据点左右相邻的2个等距点;另外,也可以采取非线性插值,相应地需要找到与数据点处于同一水平线的超过2个等距点。(等距点与数据点位置关系如图6所示,插值具体计算公式相关技术人员不难知晓,此处不再赘述)
105、根据坐标确定角度线的目标方程系数;
选择一种直线方程,对于任一角度线,将步骤104中得到的2个数据点的坐标代入方程,求解二元一次方程组即可。
关于直线方程的选择:直线方程有多种,优先选用斜截式:y=kx+b,还可以选用一般式:Ax+By+C=0( A、B不同时为0)。
需要说明的是,若选择斜截式:y=kx+b,90°角度线需特殊处理。这是因为90°角度线不能通过方程表达,但由于其与y轴重合,故可直接得出而无需求解。
若选择一般式:Ax+By+C=0( A、B不同时为0), 90°角度线即对应x=0,也无需求解。其他角度线显然不经过原点,此时可以将C设置为非0常数,例如设置为1,这样用2个数据点坐标可求解A、B这两个未知数。
106、根据角度线的角度和目标方程系数建立标定表格;
根据各角度线的相关参数建立标定表格。具体的,对于任一角度线,相关参数至少包括角度和对应的直线方程系数(特例:90°角度线可以不需直线方程系数)。
107、根据标定表格进行音画映射。
本实施例中的步骤101至步骤106为标定表格的建立过程,在完成标定表格的建立后,则可以直接使用该标定表格中的数据进行声源角度到视频画面的映射或进行视频画面到声源角度的映射。
例如,声源角度最大范围[55°,125°],精度±5°,应用需求目标角度判定精度为±15°以内,则可将声源角度等分为14份,角度间隔为5°,则相应的角度线为[55°, 60°,…,120°,125°]。显然,90°角度线与y轴以及图像竖直中轴线是重合的。在后续步骤中提到的对称、镜像都是以之作为对称轴。需要说明的是,图2、图4、图6中标识的角度是针对此具体的示例所画出的,仅为说明原理,而非对角度做具体限定。
在一些具体的实施例中,基于对称性原理,在上述整个标定流程中,可以选择仅对90°角度线及其一侧的角度线进行标定,如图4和图6所示,也就是仅对90°角度线及其一侧的角度线选取数据点、标记、求解方程系数和建立标定表格。
在本实施例中,通过将声源角度等分为若干角度线,再通过角度线上的数据点的理论坐标和拍摄其得到的图像中的实际坐标的预先建立角度、角度线与角度线方程之间的标定表格,使得在进行音画映射时,能够直接通过该标定表格实现声源角度到视频画面的映射以及视频画面到声源角度的映射,在能够满足应用需求的前提使得标定过程简单易操作,并且减小了映射过程中的计算量,适合大规模推广应用。
以上是对本申请提供的视频图像音画映射方法中标定表格的标定过程进行详细描述,以下将分别对本申请提供的视频图像音画映射方法中使用该标定表格进行声源角度到视频画面的映射以及视频画面到声源角度的映射过程进行详细描述。
一、声源角度到视频画面的映射:
请参阅图7,图7为本申请提供的视频图像音画映射的方法的另一个实施例,该方法包括:
701、获取标定表格,标定表格中预存有若干角度线的角度与目标方程系数之间的映射关系;
终端获取预先建立的标定表格,该标定表格的建立过程如前述实施例步骤101至步骤107,此处不再赘述。
702、采集目标声源角度;
终端通过麦克风设备接收音频信息,并根据声源定位技术确定该音频信息中的声源定位信息,终端采集该声源定位信息中的目标声源角度。
703、根据目标声源角度和预设角度容差确定声源角度范围;
根据目标声源角度α和预设角度容差Δα,确定声源角度范围为:
[α-Δα,α+Δα];
该预设角度容差可根据不同的设备需求和设备精度作具体设定。
704、根据声源角度范围和标定表格中确定目标角度线方程;
终端首先根据声源角度范围的边界值,即α-Δα和α+Δα,在标定表格中选择邻近的角度线作为左右边界线,如图8所示,记为L1和L2,相应的左右边界角度记为α1和α2。
终端再根据α1和α2在标定表格中查找得出L1和L2对应的目标方程系数,即可以通过标定表格建立L1和L2的数学表达式(目标角度线方程)。
例如,左右边界角度α1和α2分别为85°、75°,则查询标定表格可以得到85°、75°角度线(即L1和L2)的相应参数,确定L1和L2的直线方程分别为:
L1:y=k1x+b1;
L2:y=k2x+b2。
其中,k1、b1、k2、b2为查表得到的目标方程系数。
705、根据目标角度线方程确定声源角度范围在视频画面中的像素区域;
在一种声源角度到视频画面的映射的应用场景中,可以根据声源角度确定视频画面中相应的像素区域:
终端根据得到的目标角度线方程,依据线性规划原理,即可根据这两条左右边界线在图像中确定对应的像素范围。终端具体根据目标角度线方程和预设图像高度来共同确定声源角度范围在视频画面中的像素区域。
具体的,L1和L2的直线方程分别为:
L1:y=k1x+b1;
L2:y=k2x+b2。
那么对应的图像区域数学表达式为
y≤k1x+b1;
y≥k2x+b2;
y≥0;
y<h。
其中,h为预设图像高度。
依据线性规划原理,如图8所示,图中L1和L2之间斜线填充区域即为目标声源角度在视频画面中的像素区域。
进一步的,若标定过程中使用了基于对称性的方案——仅对90°角度线及其一侧的角度线进行标定,则当左右边界线分别处于90°角度线两侧(即左右边界角度和一个比90°大,一个比90°小)时,则必有一个角度线是未标定的,相应的该角度就不能直接查表得出其参数。对于这种情况,可以基于对称性原理予以解决:首先找到该角度关于90°角度线的对称角度,查表得出该对称角度的角度线参数,接着再对该对称角度的角度线进行镜像处理,即可得到所需的未标定的角度线。
706、根据目标角度线方程确定目标位置是否位于声源角度范围内。
在另一种声源角度到视频画面的映射的应用场景中,还可以根据声源角度判断视频画面中的目标是否位于对应的声源角度范围内:
终端根据得到的目标角度线方程,确定目标位置是否位于两条左右边界线之间,如果目标位置位于左右边界线之间,则可确定目标位置位于声源角度范围内,如果目标位置位于左右边界线之外,则可确定目标位置位于声源角度范围外。
在一些具体的实施例中,目标位置可以是目标检测框的中心点位置,具体的位置坐标可以根据目标检测框的长和宽来共同确定。通过判断目标检测框的中心点位置是否位于声源角度范围内,从而确定被检测到的目标是否位于该声源角度范围内。进一步的,根据该判断,可以实现在视频画面中检测到多个目标时确定位于声源角度范围内的目标,即可确定其为发言者。
具体的,判定点在两条直线之间同样属于线性规划问题,其原理无需赘述。此处简要补充点与直线的关系判定:
对于斜截式(y=kx+b):
kx+b>y,点在直线上方;
kx+b =y,点在直线上;
kx+b <y,点在直线下方。
对于一般式(Ax+By+C=0, A、B不同时为0):
ax+by+c>0,点在直线下方;
ax+by+c=0,点在直线上;
ax+by+c=0,点在直线上方。
进一步的,若标定过程中使用了基于对称性的方案——仅对90°角度线及其一侧的角度线进行标定,当目标检测框中心点位于未标定的一侧时,除了使用上述步骤加以判定外,还可以:先将目标检测框中心点镜像至有标定的一侧得到其镜像点,声源角度也镜像至有标定的一侧得到其镜像角度,然后判别镜像位置是否在镜像声源角度范围内,若是,则确定目标位置处于声源角度范围内。
在本实施例中,通过标定表格即可实现声源角度到视频画面的映射,主要是通过给定的声源角度,在标定表格中确定声源角度范围的左右边界线,再确定左右边界线对应的目标角度线方程,通过两条目标角度线方程进行相应的计算,即可确定声源角度范围对应的视频图像区域以及判定目标位置是否位于该声源角度范围内。
二、视频画面到声源角度的映射:
从视频画面映射到声源角度具体是指:根据目标在视频画面中的坐标(目标检测框或像素点),估算目标所在的角度范围或角度。
请参阅图9,图9为本申请提供的视频图像音画映射方法另一个实施例,该方法包括:
901、获取标定表格,标定表格中预存有若干角度线的角度与目标方程系数之间的映射关系;
终端获取预先建立的标定表格,该标定表格的建立过程如前述实施例步骤101至步骤107,此处不再赘述。
902、获取目标检测信息;
终端通过摄像头设备接收视频信息,并根据图像识别技术确定该视频信息中的目标检测信息。具体的,目标检测信息中包含目标检测结果,即目标检测框,目标检测类型可以为人脸检测和/或人头检测和/或人体检测,优选为人脸检测。
903、根据目标检测信息确定目标位置;
终端根据目标检测信息中的目标检测结果确定目标的位置。具体的,如果目标检测结果为目标检测框,终端则以目标检测框的中心点位置坐标作为目标位置,如果目标检测结果为具体的坐标,终端则直接根据该坐标确定目标位置。
904、在标定表格中确定与目标位置相邻的第一角度线和第二角度线;
从标定表格中的角度线中依次选取与目标位置相邻的两条角度线,再基于线性规划原理,或点与直线位置关系判定其是否处于两条角度线之间,如果处于两条角度线之间,则可以将这两条角度线(称作目标所在的左右角度线)对应的角度作为目标所在的角度范围估算值。
905、根据第一角度线和第二角度线确定目标位置在视频画面中的角度范围或角度。
终端在确定第一角度线和第二角度线(左右角度线)之后,则可以在标定表格中确定该第一角度线和第二角度线的目标角度线方程,为后续计算做准备。
终端可以直接将第一角度线和第二角度线对应的角度之间的角度范围作为目标位置在视频画面中的角度范围。
进一步的,若要确定目标位置在视频画面中的具体角度,终端根据目标位置到左右角度线的距离以及上述角度范围估算值可以折算出目标所在角度的估算值。具体的,计算目标位置距离左右角度线的第一距离d1和第二距离d2,根据距离比值估算出目标所处角度,估算所用的目标公式如下:
θx=θ1+Δθ(d2/d1+d2);
其中,θx表示目标位置在视频画面中的角度值,θ1表示第一角度线对应的角度,d1表示第一距离,d2表示第二距离,Δθ表示预设角度间隔。具体的,通过前述标定过程可知该预设角度间隔Δθ=θ2-θ1,即等于两条角度线所对应的角度差值取绝对值。
在本实施例中,通过标定表格即可实现视频画面到声源角度的映射,具体是通过目标在视频画面中的坐标,确定与坐标相邻的两条角度线,再在标定表格中确定该角度线的目标角度线方程,通过点到直线的位置关系计算出目标到该左右角度线的距离,从而根据该距离估算出目标所处的角度。
请参阅图10,图10为本申请提供的视频图像音画映射的系统一个实施例,该系统包括:
处理单元001,用于根据声源角度最大范围和预设精度将声源角度等分为N份,得到N+1条角度线,N为大于1的整数;
标记单元002,用于在各个角度线上分别选取至少两个目标数据点并将目标数据点标记在水平面上;
获取单元003,用于获取目标图像,目标图像为包含所述目标数据点的图像;
第一确定单元004,用于确定目标数据点在目标图像中的坐标;
第二确定单元005,用于根据坐标确定角度线的目标方程系数;
建立单元006,用于根据角度线的角度和目标方程系数建立标定表格;
映射单元007,用于根据标定表格进行音画映射。
进一步的,标记单元002具体用于:
在各个角度线上直接选取至少两个目标数据点并将目标数据点标记在水平面上;
或,
选取至少两条水平线,将水平线与各个角度线的交点作为目标数据点并将目标数据点标记在水平面上。
进一步的,标记单元002具体还用于:
仅在90°角度线及其一侧的角度线选取至少两个目标数据点并将目标数据点标记在水平面上。
进一步的,映射单元007包括:
第一获取模块0071,用于获取标定表格,标定表格中预存有若干角度线的角度与目标方程系数之间的映射关系;
采集模块0072,用于采集目标声源角度;
第一确定模块0073,用于根据目标声源角度和预设角度容差确定声源角度范围;
第二确定模块0074,用于根据声源角度范围和标定表格中确定目标角度线方程;
第一映射模块0075,用于根据目标角度线方程确定声源角度范围在视频画面中的像素区域;
第二映射模块0076,用于根据目标角度线方程确定目标位置是否位于声源角度范围内。
进一步的,第二确定模块0074具体用于:
根据声源角度范围确定边界角度;
在标定表格中确定与边界角度对应的目标方程系数;
根据目标方程系数确定与边界角度对应的目标角度线方程。
进一步的,若标定表格仅标定了90°角度线及其一侧的角度线且未标定边界角度,第二确定模块0074具体还用于:
确定边界角度基于90°角度线的对称角度;
在标定表格中确定与对称角度对应的目标方程系数;
根据镜像原理得到与边界角度对应的目标方程系数。
进一步的,第一映射模块0075具体用于:
根据目标角度线方程和预设图像高度确定声源角度范围在视频画面中的像素区域。
进一步的,第二映射模块0076具体用于:
确定目标位置;
根据目标角度线方程确定目标位置是否位于目标角度线之间;
若是,则确定目标位置位于声源角度范围内;
若否,则确定目标位置位于声源角度范围外。
可选的,若标定表格仅标定了90°角度线及其一侧的角度线且目标位置位于未标定的一侧,第二映射模块0076具体还用于:
确定目标位置基于90°角度线的镜像位置;
确定目标角度线基于90°角度线的镜像角度线;
在标定表格中确定镜像角度线方程;
根据镜像角度线方程确定镜像位置是否位于镜像角度线之间。
可选的,目标位置为目标检测框的中心点位置。
进一步的,映射单元007还包括:
第二获取模块0077,用于获取标定表格,标定表格中预存有若干角度线的角度与目标方程系数之间的映射关系;
第三获取模块0078,用于获取目标检测信息;
第三确定模块0079,用于根据目标检测信息确定目标位置;
第四确定模块00710,用于在标定表格中确定与目标位置相邻的第一角度线和第二角度线;
第三映射模块00711,用于根据第一角度线和第二角度线确定目标位置在视频画面中的角度范围或角度。
进一步的,第三映射模块00711具体用于:
确定目标位置到第一角度线和第二角度线的第一距离和第二距离;
根据第一距离和第二距离,通过目标公式确定目标位置在视频画面中的角度。
进一步的,目标公式为:
θx=θ1+Δθ(d2/d1+d2);
其中,θx表示目标位置在视频画面中的角度值,θ1表示第一角度线对应的角度,d1表示第一距离,d2表示第二距离,Δθ表示预设角度间隔。
本实施例系统中,各单元及模块的功能与前述图1、图2及图3所示方法实施例中的步骤对应,此处不再赘述。
本申请还提供了一种视频图像音画映射的装置,请参阅图11,图11为本申请提供的视频图像音画映射的装置一个实施例,该装置包括:
处理器1101、存储器1102、输入输出单元1103、总线1104;
处理器1101与存储器1102、输入输出单元1103以及总线1104相连;
存储器1102保存有程序,处理器1101调用程序以执行如上任一视频图像音画映射的方法。
本申请还涉及一种计算机可读存储介质,计算机可读存储介质上保存有程序,其特征在于,当程序在计算机上运行时,使得计算机执行如上任一视频图像音画映射的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-only memory)、随机存取存储器(RAM,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (16)

1.一种视频图像音画映射的方法,其特征在于,所述方法包括:
根据声源角度最大范围和预设精度将声源角度等分为N份,得到N+1条角度线,所述N为大于1的整数;
在各个角度线上分别选取至少两个目标数据点并将所述目标数据点标记在水平面上;
获取目标图像,所述目标图像为包含所述目标数据点的图像;
确定所述目标数据点在所述目标图像中的坐标;
根据所述坐标确定所述角度线的目标方程系数;
根据所述角度线的角度和所述目标方程系数建立标定表格;
根据所述标定表格进行音画映射。
2.根据权利要求1所述的方法,其特征在于,所述在各个角度线上分别选取至少两个目标数据点并将所述目标数据点标记在水平面上包括:
在各个角度线上直接选取至少两个目标数据点并将所述目标数据点标记在水平面上;
或,
选取至少两条水平线,将所述水平线与各个角度线的交点作为目标数据点并将所述目标数据点标记在水平面上。
3.根据权利要求1所述的方法,其特征在于,所述在各个角度线上分别选取至少两个目标数据点并将所述目标数据点标记在水平面上包括:
仅在90°角度线及其一侧的角度线选取至少两个目标数据点并将所述目标数据点标记在水平面上。
4.根据权利要求1所述的方法,其特征在于,所述根据所述标定表格进行音画映射包括:
获取所述标定表格,所述标定表格中预存有若干角度线的角度与目标方程系数之间的映射关系;
采集目标声源角度;
根据所述目标声源角度和预设角度容差确定声源角度范围;
根据所述声源角度范围和所述标定表格确定目标角度线方程;
根据所述目标角度线方程确定所述声源角度范围在视频画面中的像素区域;
或,
根据所述目标角度线方程确定目标位置是否位于所述声源角度范围内。
5.根据权利要求4所述的方法,其特征在于,所述根据所述声源角度范围和所述标定表格确定目标角度线方程包括:
根据所述声源角度范围确定边界角度;
在所述标定表格中确定与所述边界角度对应的目标方程系数;
根据所述目标方程系数确定与所述边界角度对应的目标角度线方程。
6.根据权利要求5所述的方法,其特征在于,若所述标定表格仅标定了90°角度线及其一侧的角度线且未标定所述边界角度,所述在所述标定表格中确定与所述边界角度对应的目标方程系数包括:
确定所述边界角度基于90°角度线的对称角度;
在所述标定表格中确定与所述对称角度对应的目标方程系数;
根据镜像原理得到与所述边界角度对应的目标方程系数。
7.根据权利要求4所述的方法,其特征在于,所述根据所述目标角度线方程确定所述声源角度范围在视频画面中的像素区域包括:
根据所述目标角度线方程和预设图像高度确定所述声源角度范围在视频画面中的像素区域。
8.根据权利要求4所述的方法,其特征在于,所述根据所述目标角度线方程确定目标位置是否位于所述声源角度范围内包括:
确定目标位置;
根据所述目标角度线方程确定所述目标位置是否位于目标角度线之间;
若是,则确定所述目标位置位于所述声源角度范围内;
若否,则确定所述目标位置位于所述声源角度范围外。
9.根据权利要求8所述的方法,其特征在于,若所述标定表格仅标定了90°角度线及其一侧的角度线且所述目标位置位于未标定的一侧,所述根据所述目标角度线方程确定所述目标位置是否位于目标角度线之间包括:
确定所述目标位置基于90°角度线的镜像位置;
确定所述目标角度线基于90°角度线的镜像角度线;
在标定表格中确定所述镜像角度线的方程;
根据所述镜像角度线的方程确定所述镜像位置是否位于所述镜像角度线之间。
10.根据权利要求8所述的方法,其特征在于,所述目标位置为目标检测框的中心点位置。
11.根据权利要求1所述的方法,其特征在于,所述根据所述标定表格进行音画映射包括:
获取所述标定表格,所述标定表格中预存有若干角度线的角度与目标方程系数之间的映射关系;
获取目标检测信息;
根据所述目标检测信息确定目标位置;
在所述标定表格中确定与所述目标位置相邻的第一角度线和第二角度线;
根据所述第一角度线和所述第二角度线确定所述目标位置在视频画面中的角度范围或角度。
12.根据权利要求11所述的方法,其特征在于,所述根据所述第一角度线和所述第二角度线确定所述目标位置在视频画面中的角度包括:
确定所述目标位置到所述第一角度线和所述第二角度线的第一距离和第二距离;
根据所述第一距离和第二距离,通过目标公式确定所述目标位置在视频画面中的角度。
13.根据权利要求12所述的方法,其特征在于,所述目标公式为:
θx=θ1+Δθ(d2/d1+d2);
其中,θx表示所述目标位置在视频画面中的角度值,θ1表示所述第一角度线对应的角度,d1表示第一距离,d2表示第二距离,Δθ表示预设角度间隔。
14.一种视频会议设备,其特征在于,所述视频会议设备执行如权利要求1至13中任一项所述的视频图像音画映射的方法。
15.一种视频图像音画映射的系统,其特征在于,所述系统包括:
处理单元,用于根据声源角度最大范围和预设精度将声源角度等分为N份,得到N+1条角度线,所述N为大于1的整数;
标记单元,用于在各个角度线上分别选取至少两个目标数据点并将所述目标数据点标记在水平面上;
获取单元,用于获取目标图像,所述目标图像为包含所述目标数据点的图像;
第一确定单元,用于确定所述目标数据点在所述目标图像中的坐标;
第二确定单元,用于根据所述坐标确定所述角度线的目标方程系数;
建立单元,用于根据所述角度线的角度和所述目标方程系数建立标定表格;
映射单元,用于根据所述标定表格进行音画映射。
16.一种视频图像音画映射的装置,其特征在于,所述装置包括:
处理器、存储器、输入输出单元以及总线;
所述处理器与所述存储器、所述输入输出单元以及所述总线相连;
所述存储器保存有程序,所述处理器调用所述程序以执行如权利要求1至13中任一项所述方法。
CN202111389994.7A 2021-11-23 2021-11-23 视频图像音画映射的方法、系统、装置及视频会议设备 Active CN113838128B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111389994.7A CN113838128B (zh) 2021-11-23 2021-11-23 视频图像音画映射的方法、系统、装置及视频会议设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111389994.7A CN113838128B (zh) 2021-11-23 2021-11-23 视频图像音画映射的方法、系统、装置及视频会议设备

Publications (2)

Publication Number Publication Date
CN113838128A true CN113838128A (zh) 2021-12-24
CN113838128B CN113838128B (zh) 2022-03-08

Family

ID=78971510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111389994.7A Active CN113838128B (zh) 2021-11-23 2021-11-23 视频图像音画映射的方法、系统、装置及视频会议设备

Country Status (1)

Country Link
CN (1) CN113838128B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150312662A1 (en) * 2014-04-23 2015-10-29 Panasonic Intellectual Property Management Co., Ltd. Sound processing apparatus, sound processing system and sound processing method
US20170019744A1 (en) * 2015-07-14 2017-01-19 Panasonic Intellectual Property Management Co., Ltd. Monitoring system and monitoring method
CN106679651A (zh) * 2017-02-08 2017-05-17 北京地平线信息技术有限公司 声源定位方法、装置和电子设备
US20190200097A1 (en) * 2017-12-05 2019-06-27 Fdn. for Res.&Bus., Seoul Nat. Univ. of Sci.&Tech. System and method for predicting user viewpoint using location information of sound source in 360 vr contents
CN110426675A (zh) * 2019-06-28 2019-11-08 中国计量大学 一种基于图像处理的声相仪声源定位结果评定方法
CN110441737A (zh) * 2019-08-26 2019-11-12 上海声茵科技有限公司 一种采用鱼眼镜头的声源定位方法及其设备
CN110716180A (zh) * 2019-10-17 2020-01-21 北京华捷艾米科技有限公司 一种基于人脸检测的音频定位方法及装置
CN113093106A (zh) * 2021-04-09 2021-07-09 北京华捷艾米科技有限公司 一种声源定位方法及系统
CN113312985A (zh) * 2021-05-10 2021-08-27 中国地质大学(武汉) 一种视听双模态的360度全方位说话人定位方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150312662A1 (en) * 2014-04-23 2015-10-29 Panasonic Intellectual Property Management Co., Ltd. Sound processing apparatus, sound processing system and sound processing method
US20170019744A1 (en) * 2015-07-14 2017-01-19 Panasonic Intellectual Property Management Co., Ltd. Monitoring system and monitoring method
CN106679651A (zh) * 2017-02-08 2017-05-17 北京地平线信息技术有限公司 声源定位方法、装置和电子设备
US20190200097A1 (en) * 2017-12-05 2019-06-27 Fdn. for Res.&Bus., Seoul Nat. Univ. of Sci.&Tech. System and method for predicting user viewpoint using location information of sound source in 360 vr contents
CN110426675A (zh) * 2019-06-28 2019-11-08 中国计量大学 一种基于图像处理的声相仪声源定位结果评定方法
CN110441737A (zh) * 2019-08-26 2019-11-12 上海声茵科技有限公司 一种采用鱼眼镜头的声源定位方法及其设备
CN110716180A (zh) * 2019-10-17 2020-01-21 北京华捷艾米科技有限公司 一种基于人脸检测的音频定位方法及装置
CN113093106A (zh) * 2021-04-09 2021-07-09 北京华捷艾米科技有限公司 一种声源定位方法及系统
CN113312985A (zh) * 2021-05-10 2021-08-27 中国地质大学(武汉) 一种视听双模态的360度全方位说话人定位方法

Also Published As

Publication number Publication date
CN113838128B (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
WO2021115071A1 (zh) 单目内窥镜图像的三维重建方法、装置及终端设备
CN106251334B (zh) 一种摄像机参数调整方法、导播摄像机及系统
CN110830781B (zh) 一种基于双目视觉的投影图像自动校正方法及系统
WO2018209968A1 (zh) 摄像机标定方法及系统
US11282232B2 (en) Camera calibration using depth data
CN108629810B (zh) 双目相机的标定方法、装置及终端
CN108510540B (zh) 立体视觉摄像机及其高度获取方法
KR20140071330A (ko) 이미징 디바이스를 캘리브레이션하는 방법 및 장치
CN106981078B (zh) 视线校正方法、装置、智能会议终端及存储介质
WO2016155110A1 (zh) 图像透视畸变校正的方法及系统
US11785179B1 (en) Image and audio data processing to create mutual presence in a video conference
JP2011253376A (ja) 画像処理装置、および画像処理方法、並びにプログラム
CN104200454A (zh) 鱼眼图像畸变校正方法及装置
CN111383264B (zh) 一种定位方法、装置、终端及计算机存储介质
CN113450416B (zh) 一种应用于三目相机立体标定的tcsc方法
JP7326442B2 (ja) 広角画像からの視差推定
CN114742866A (zh) 图像配准方法、装置、存储介质及电子设备
CN113114975B (zh) 图像拼接方法、装置、电子设备和存储介质
CN113838128B (zh) 视频图像音画映射的方法、系统、装置及视频会议设备
CN112365530B (zh) 增强现实处理方法及装置、存储介质和电子设备
CN117115211A (zh) 点云着色方法、点云着色装置以及计算机可读存储介质
CN115174878B (zh) 投影画面校正方法、装置和存储介质
CN108307179A (zh) 一种3d立体成像的方法
CN113724141B (zh) 一种图像校正方法、装置及电子设备
CN113587895A (zh) 双目测距方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant