CN114173082B - 一种控制视频图像输出的装置、摄像设备及会议系统 - Google Patents

一种控制视频图像输出的装置、摄像设备及会议系统 Download PDF

Info

Publication number
CN114173082B
CN114173082B CN202111352320.XA CN202111352320A CN114173082B CN 114173082 B CN114173082 B CN 114173082B CN 202111352320 A CN202111352320 A CN 202111352320A CN 114173082 B CN114173082 B CN 114173082B
Authority
CN
China
Prior art keywords
sound
target
module
sound source
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111352320.XA
Other languages
English (en)
Other versions
CN114173082A (zh
Inventor
肖兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Shixi Technology Co Ltd
Original Assignee
Zhuhai Shixi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Shixi Technology Co Ltd filed Critical Zhuhai Shixi Technology Co Ltd
Priority to CN202111352320.XA priority Critical patent/CN114173082B/zh
Publication of CN114173082A publication Critical patent/CN114173082A/zh
Application granted granted Critical
Publication of CN114173082B publication Critical patent/CN114173082B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/22Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04JMULTIPLEX COMMUNICATION
    • H04J3/00Time-division multiplex systems
    • H04J3/02Details
    • H04J3/06Synchronising arrangements
    • H04J3/0635Clock or time synchronisation in a network
    • H04J3/0638Clock or time synchronisation among nodes; Internode synchronisation
    • H04J3/0658Clock or time synchronisation among packet nodes
    • H04J3/0661Clock or time synchronisation among packet nodes using timestamps
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请公开了一种控制视频图像输出的装置、摄像设备及会议系统,用于在实际应用中更准确、可靠的输出视频图像结果,提升用户体验。本申请提供的控制视频图像输出的装置包括:声源定位信息接收模块、目标检测信息接收模块、音画信息记录存储模块和输出图像计算模块;声源定位信息接收模块用于接收声源定位信息,并将声源定位处理结果写入音画信息记录存储模块;目标检测信息接收模块用于接收目标检测信息,从音画信息记录存储模块中读取数据并确定有效目标检测结果,将有效目标检测结果写入音画信息记录存储模块;输出图像计算模块用于从音画信息记录存储模块中读取音画信息,并根据音画信息计算并输出视频图像结果。

Description

一种控制视频图像输出的装置、摄像设备及会议系统
技术领域
本申请涉及视频图像处理技术领域,尤其涉及一种控制视频图像输出的装置、摄像设备及会议系统。
背景技术
当下视频会议已较为普及,目前市面上已有一些智能会议系统能够在视频会议过程中自动对画面中的发言者给予特写画面,使其他与会者能清晰看到发言者的面部表情和肢体动作,极大地提升了会议效果。
这其中,如何确定画面中发言者的位置尤为关键。现有技术中有采用阵列麦克风声源定位技术的,也有利用图像识别技术(例如人像检测、嘴部开合程度判别、起立动作检测、人脸动作信息辨识等)的,还有将声源定位技术与图像识别技术相结合的方案。
然而在实际场景中,由于声源定位模块与目标检测模块是相互独立的,通常都存在不同程度的延迟,尤其当两个模块工作在不同平台时,延迟差异会更大,这将影响到视频图像输出的最终结果,极大的影响了用户体验。
发明内容
本申请提供了一种控制视频图像输出的装置、摄像设备及会议系统,用于在实际应用中更准确、可靠的输出视频图像结果,提升用户体验。
本申请第一方面提供了一种控制视频图像输出的装置,包括:
声源定位信息接收模块、目标检测信息接收模块、音画信息记录存储模块和输出图像计算模块;
所述声源定位信息接收模块与所述音画信息记录存储模块单向连接,所述目标检测信息接收模块与所述音画信息记录存储模块双向连接,所述音画信息记录存储模块与所述输出图像计算模块单向连接;
所述声源定位信息接收模块用于接收声源定位信息,并将所述声源定位信息写入所述音画信息记录存储模块;
所述目标检测信息接收模块用于接收目标检测信息,从所述音画信息记录存储模块中读取数据并确定有效目标检测结果,将所述有效目标检测结果写入所述音画信息记录存储模块;
所述输出图像计算模块用于从所述音画信息记录存储模块中读取音画信息,并根据所述音画信息计算并输出视频图像结果。
可选的,所述声源定位信息包括:声源方位和音频时间戳;
所述音频时间戳为所述声源定位信息的声源时间戳;
或,
所述音频时间戳为所述音画信息记录存储模块接收到所述声源定位信息的时间戳。
可选的,所述目标检测信息包括:目标检测包围盒集合和画面时间戳;
所述画面时间戳为对应视频帧的采集时间戳;
或,
所述画面时间戳为对应视频帧被目标检测前的时间戳。
可选的,所述音画信息记录存储模块通过音画信息单元存储所述声源定位信息和所述有效目标检测结果;
所述音画信息记录存储模块用于将所述音画信息单元存储在目标队列中,所述目标队列的长度固定。
可选的,所述有效目标检测结果为有效目标数目或有效目标包围盒集合。
可选的,所述输出图像计算模块具体用于根据接收到的视频图像更新请求计算并输出视频图像结果。
可选的,所述输出图像计算模块具体用于根据预设时间间隔按时计算并输出视频图像结果。
可选的,所述输出图像计算模块具体用于根据预设时间间隔按时计算视频图像结果,在所述视频图像结果发生变化时输出所述视频图像结果。
可选的,所述视频图像结果为计算出的目标画面实际帧数据或计算出的目标画面对应的裁剪缩放参数。
可选的,所述声源定位信息接收模块、所述目标检测信息接收模块和所述输出图像计算模块并行工作。
本申请第二方面提供了一种摄像设备,所述摄像设备设置有如第一方面中任一项所述的控制视频图像输出的装置。
本申请第三方面提供了一种会议系统,所述会议系统设置有如第一方面中任一项所述的控制视频图像输出的装置。
从以上技术方案可以看出,本申请具有以下优点:
本申请提供的控制视频图像输出的装置采用了声源定位与图像识别相结合的方案,能够同时利用音、视频信息,在将目标检测信息写入音画信息存储模块之前,需要先根据音画信息记录存储模块中的声源定位信息对该目标检测信息进行一定处理,从而提高该目标检测信息与声源定位信息的同步度,将处理后的目标检测信息再写入音画信息存储模块,最后通过读取该音画信息存储模块中的音画信息计算并输出视频图像结果,由此对声源定位和目标检测的延迟具有较好的容忍度,在实际应用场景中能够更准确、可靠的确定视频图像输出的最终结果,从而提升用户体验。
附图说明
为了更清楚地说明本申请中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的一种控制视频图像输出的装置一个实施例结构示意图;
图2为本申请提供的一种控制视频图像输出的装置中音画信息单元和音画时间差的一个关系曲线图;
图3为本申请提供的一种控制视频图像输出的装置中音画信息单元和音画时间差的另一个关系曲线图;
图4为本申请提供的一种控制视频图像输出的装置的一种工作流程示意图;
图5为本申请提供的一种控制视频图像输出的装置的另一种工作流程示意图。
具体实施方式
本申请提供了一种控制视频图像输出的装置、摄像设备及会议系统,用于在实际应用中更准确、可靠的输出视频图像结果,提升用户体验。
请参阅图1,图1为本申请提供的控制视频图像输出的装置的一个实施例,该装置包括:
声源定位信息接收模块101、目标检测信息接收模块102、音画信息记录存储模块103和输出图像计算模块104;
该声源定位信息接收模块101与该音画信息记录存储模块103单向连接,该目标检测信息接收模块102与该音画信息记录存储模块103双向连接,该音画信息记录存储模块103与该输出图像计算模块104单向连接;
该声源定位信息接收模块101用于接收声源定位信息,并将该声源定位信息写入该音画信息记录存储模块103;
该目标检测信息接收模块102用于接收目标检测信息,从该音画信息记录存储模块103中读取数据并确定有效目标检测结果,将该有效目标检测结果写入该音画信息记录存储模块103;
该输出图像计算模块104用于从该音画信息记录存储模块103中读取音画信息,并根据该音画信息计算并输出视频图像结果。
需要说明的是,该声源定位信息具体是指通过声源定位技术所确定的音频信息中的方向和角度等信息,通过该声源定位信息可以大致确定发言者的位置。而目标检测信息是指通过目标检测技术所确定的视频信息中的人脸检测和/或人头检测和/或人体检测结果,优选为人脸检测结果。
由于接收音频信息的麦克风和接收视频信息的摄像头在实际工作时可能存在不同程度的延迟,导致装置所接收到的声源定位信息和目标检测信息可能存在音画不同步的问题,因此在计算视频图像结果之前,还需要进行音画信息的同步。该同步方法可以是通过声源定位信息中的音频时间戳和目标检测信息中的画面时间戳进行同步。具体的,在声源定位信息接收模块101将接收到的声源定位信息写入音画信息记录存储模块103后,目标检测信息模块102则从音画信息记录存储模块103读取该声源定位信息,并根据目标检测信息中携带的画面时间戳匹配时间最相近的音频时间戳,通过匹配结果确定相应的声源定位信息。
为了去除冗余信息,提高计算准确度,装置还需要进行目标检测信息的筛选,目标检测信息模块102结合匹配到的声源定位信息,在目标检测信息中统计该声源定位信息中对应的声源范围内的目标检测结果作为有效目标检测结果,目标检测信息接收模块102只将该有效目标检测结果写入音画信息记录存储模块103,对于声源范围外的目标检测信息则不予考虑。
本实施例提供的控制视频图像输出的装置采用了声源定位与图像识别相结合的方案,能够同时利用音、视频信息,在将目标检测信息写入音画信息存储模块之前,需要先根据音画信息记录存储模块中的声源定位信息对该目标检测信息进行一定处理,从而提高该目标检测信息与声源定位信息的同步度,将处理后的目标检测信息再写入音画信息存储模块,最后通过读取该音画信息存储模块中的音画信息计算并输出视频图像结果,由此对声源定位和目标检测的延迟具有较好的容忍度,在实际应用场景中能够更准确、可靠的确定视频图像输出的最终结果,从而提升用户体验。
可选的,该声源定位信息包括:声源方位和音频时间戳;
该音频时间戳为该声源定位信息的声源时间戳;
或,
该音频时间戳为该音画信息记录存储模块103接收到该声源定位信息的时间戳。
需要说明的是,声源定位信息接收模块101接收到的声源定位信息包括声源方位和音频时间戳,该声源方位可以是一维的声源角度,也可以是二维或三维的声源位置,具体此处不做限定。
声源定位信息接收模块101所获取的声源定位信息中的音频时间戳可以是声源时间戳,也可以是声源定位信息接收模块101接收到声源定位信息时的时间戳。前者比后者更接近真实时间戳,理论偏差更小,但往往不易获得。而后者理论偏差更大,但能很容易获得。而本实施例中在计算音画时间差的过程中还包含音画时间补偿,可根据实际情况对这种偏差进行修正。因此不论选择上述两种时间戳的任意一种,本装置均能计算得到较为准确的视频图像结果。
可选的,该目标检测信息包括:目标检测包围盒集合和画面时间戳;
该画面时间戳为对应视频帧的采集时间戳;
或,
该画面时间戳为对应视频帧被目标检测前的时间戳。
需要说明的是,目标检测信息接收模块102接收到的目标检测信息包含目标检测包围盒集合和画面时间戳,其中目标检测包围盒集合是指目标检测中产生的矩形目标检测框,用于定位对象在图像中的位置,一般使用其中心点的横纵坐标结合包围盒长宽确定。
同理,目标检测信息接收模块102所获取的目标检测信息中的画面时间戳可以是该视频帧的采集时间戳,也可以是该视频帧被目标检测前的时间戳。前者相比后者更接近真实时间,理论偏差更小,但同样未必能获得,因而实际一般使用后者。如前所述,本实施例提供的装置能很好地对音画时间偏差进行补偿,故具体选用哪种时间戳,对最终计算出的视频图像结果均无明显影响。
可选的,该音画信息记录存储模块103通过音画信息单元存储该声源定位信息和该有效目标检测结果;
该音画信息记录存储模块103用于将该音画信息单元存储在目标队列中,该目标队列的长度固定。
在一些具体的实施例中,音画信息记录存储模块103中预先创建有若干音画信息单元,该音画信息单元是用于存储时间戳、声源方位和有效目标检测结果的载体,声源定位信息接收模块101和目标检测信息接收模块102分别会将处理后的声源定位信息和有效目标检测结果写入该音画信息单元进行存储,从而在输出图像计算模块104需要计算特写画面时可以从该音画信息单元中读取时间戳、声源方位以及有效目标检测结果,并以这些数据作为依据来计算输出的视频图像结果。
进一步的,音画信息记录存储模块103将该音画信息单元存储在目标队列中,该目标队列的长度固定,新的音画信息单元由队尾加入,且在加入前需要先判断目标队列长度是否已达到设定值(预设长度),若没有达到设定值,则执行步骤a,若达到设定值,则执行步骤b。
a)如果目标队列的长度没有达到设定值,则直接将新的音画信息单元由队尾加入该目标队列。
b)如果目标队列的长度已达到设定值,则先从目标队列的队首删除一个音画信息单元,再将新的音画信息单元由队尾加入该目标队列。
声源定位信息接收模块101先将接收到的声源信息(包含音频时间戳)存储在音画信息记录存储模块103预先创建的音画信息单元中,该音画信息单元存储在目标队列中,使得目标检测信息接收模块102根据接收到的目标检测信息中的画面时间戳从该目标队列中匹配时间最邻近的目标音画信息单元,然后根据目标音画信息单元中的声源方位确定有效目标检测结果,再将该有效目标检测结果更新至该目标音画信息单元中。
具体的,下面对目标检测信息接收模块102根据接收到的目标检测信息中的画面时间戳从该目标队列中匹配时间最邻近的目标音画信息单元进行详细描述:
目标检测信息接收模块102逆序遍历音画信息记录存储模块103中的目标队列,对于各音画信息单元,根据目标公式计算音画时间差ΔT,若ΔT超过预设最大音频时间间隔则直接返回,否则继续遍历,直到找到ΔT开始由小变大的极值点位置,相应位置的音画信息单元即为匹配到的目标音画信息单元。该预设最大音频时间间隔可根据不同设备的录制情况做具体设定。
进一步的,目标公式如下:
ΔT(i)=abs(Tv-Ta(i)+Toffset);
其中ΔT为音画时间差,i为音画信息单元编号,Tv表示目标检测信息中的画面时间戳,Ta(i)表示第i个音画信息单元的音频时间戳,Toffset为预设音画时间补偿。具体的,该Toffset用于补偿音画不同步的问题,可根据不同设备的实际情况来设定和调整,若音频时间戳滞后于画面时间戳,则Toffset为正,反之Toffset为负,而当音频时间戳与画面时间戳延迟比较接近时,Toffset就趋近于0。
目标检测信息接收模块102将音画时间差由小变大的极值点位置确定为要匹配的位置,原因是在逆序遍历目标队列中的音画信息单元的过程中,由于新的音画信息单元是由队尾加入,相应的音频时间戳是由新到旧的,即越往前遍历,时间戳越早。ΔT未超过预设最大音频时间间隔的情况下,如图2和图3所示,由右至左只有两种变化趋势:
1)如图2所示,ΔT先变小后变大;
2)如图3所示,ΔT逐步增大。
因此只有当处于音画时间差由小变大的极值点(最低点)时,音频和画面的实际时间才最为接近,因而将该位置作为音画同步的匹配点,即将该位置的音画信息单元确定为目标音画信息单元。
进一步的,目标检测信息接收模块102在从音画信息记录存储模块103读取数据进行声源定位信息的匹配之前,还可以进行状态检查,下面进行详细描述:
一、检查输入的目标检测信息:
目标检测信息接收模块102检测接收到的的目标检测信息中检测到的目标数目,即检测到的人脸和/或人头和/或人体的数目,如果目标数目为0,则直接返回。如果目标数目不为0,则进行目标音画信息单元的匹配。
二、检查目标队列:
如果目标检测信息接收模块102确定目标队列中没有音画信息单元,则直接返回。如果目标队列中存在音画信息单元,则进行目标音画信息单元的匹配。
需要说明的是,上述两种状态不分先后顺序且可以同时进行。在确定状态检查通过后,目标检测信息接收模块102则根据目标检测信息中的画面时间戳从音画信息单元中匹配时间最邻近的目标音画信息单元。
可选的,该有效目标检测结果为有效目标数目或有效目标包围盒集合。
在一些具体的实施例中,目标检测信息接收模块102所确定的有效目标检测结果是有效目标包围盒集合,即统计声源方位范围内的目标包围盒,并将其确定为有效目标检测结果。其中目标包围盒指的是目标检测中产生的矩形目标检测框,用于定位对象在图像中的位置,一般使用其中心点的横纵坐标结合包围盒长宽确定。
在另一些具体的实施例中,目标检测信息接收模块102所确定的有效目标检测结果是有效目标数目,即统计声源方位范围内检测到的目标数目,并将其确定为有效目标检测结果。例如,目标检测任务为检测人脸信息,而声源方位为视频画面中的60°方向,预设范围为30°,目标检测信息接收模块102则统计视频画面中30°至90°范围内的目标检测结果(检测到的人脸个数),若范围内的目标检测结果有2个,则有效目标检测结果为2个。优选的,目标检测信息接收模块102所确定的有效目标检测结果为上述有效目标数目。
可选的,该输出图像计算模块104具体用于根据接收到的视频图像更新请求计算并输出视频图像结果。
请参阅图4,图4是本申请提供的控制视频图像输出的装置一种工作流程示意图。具体的,当输出图像计算模块104接收到视频图像更新请求时,则自动从音画信息记录存储模块103读取音画数据,根据该音画数据计算并输出视频图像结果。需要说明的是,该视频图像更新请求可以是在检测到有稳定的发言者或是检测到人脸时发出,也可以是在满足其它条件时发出,具体此处不做限定。
可选的,该输出图像计算模块104具体用于根据预设时间间隔按时计算并输出视频图像结果。
请参阅图5,图5是本申请提供的控制视频图像输出的装置另一种工作流程示意图。具体的,输出图像计算模块104可以无需接收视频图像更新请求,而是根据预先设定的时间间隔按时进行计算并输出结果。
可选的,该输出图像计算模块104具体用于根据预设时间间隔按时计算视频图像结果,在该视频图像结果发生变化时输出该视频图像结果。
请参阅图5,图5是本申请提供的控制视频图像输出的装置另一种工作流程示意图。具体的,输出图像计算模块104可以无需接收视频图像更新请求,而是根据预先设定的时间间隔按时进行计算,但仅在计算结果发生变化时才将结果输出。
可选的,该视频图像结果为计算出的目标画面实际帧数据或计算出的目标画面对应的裁剪缩放参数。
具体的,输出图像计算模块104输出的视频图像结果为目标画面的实际帧数据,或是目标画面的裁剪缩放参数。
可选的,该声源定位信息接收模块101、该目标检测信息接收模块102和该输出图像计算模块104并行工作。
在一些具体的实施例中,声源定位信息接收模块101、该目标检测信息接收模块102和该输出图像计算模块104三者可并行工作,并行工作可以保证整个控制视频输出的装置的处理效率。但需要说明的是,在音画信息记录存储模块103的数据被读写时需要注意互斥。
本申请还涉及一种摄像设备,该摄像设备上设置有用于接收音频信息的麦克风以及设置有用于接收视频信息的摄像头,该摄像设备还设置有本申请提供的控制视频输出的装置,以处理该麦克风和摄像头接收到的音视频信息并输出视频图像结果。
本申请还涉及一种会议系统,该会议系统上设置有用于接收音频信息的麦克风以及设置有用于接收视频信息的摄像头以及视频播放设备,该会议系统上还设置有本申请提供的控制视频输出的装置,以处理该麦克风和摄像头接收到的音视频信息并将视频图像结果输出至该视频播放设备进行播放。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-only memory)、随机存取存储器(RAM,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (11)

1.一种控制视频图像输出的装置,其特征在于,所述装置包括:声源定位信息接收模块、目标检测信息接收模块、音画信息记录存储模块和输出图像计算模块;
所述声源定位信息接收模块与所述音画信息记录存储模块单向连接,所述目标检测信息接收模块与所述音画信息记录存储模块双向连接,所述音画信息记录存储模块与所述输出图像计算模块单向连接;
所述声源定位信息接收模块用于接收声源定位信息,并将所述声源定位信息写入所述音画信息记录存储模块中的音画信息单元,所述音画信息单元存储在目标队列中,所述目标队列的长度固定;
所述目标检测信息接收模块用于接收目标检测信息,并根据所述目标检测信息中的画面时间戳从所述目标队列中匹配时间最邻近的目标音画信息单元;
所述目标检测信息接收模块还用于读取所述目标音画信息单元中的目标声源定位信息,结合所述目标检测信息将所述目标声源定位信息对应的声源范围内的目标检测结果确定为有效目标检测结果,并将所述有效目标检测结果写入所述目标音画信息单元;
所述输出图像计算模块用于从所述音画信息记录存储模块中读取所述目标音画信息单元,并根据所述目标音画信息单元计算并输出视频图像结果。
2.根据权利要求1所述的装置,其特征在于,所述声源定位信息包括:声源方位和音频时间戳;
所述音频时间戳为所述声源定位信息的声源时间戳;
或,
所述音频时间戳为所述音画信息记录存储模块接收到所述声源定位信息的时间戳。
3.根据权利要求1所述的装置,其特征在于,所述目标检测信息包括:目标检测包围盒集合和画面时间戳;
所述画面时间戳为对应视频帧的采集时间戳;
或,
所述画面时间戳为对应视频帧被目标检测前的时间戳。
4.根据权利要求1所述的装置,其特征在于,所述有效目标检测结果为有效目标数目或有效目标包围盒集合。
5.根据权利要求1所述的装置,其特征在于,所述输出图像计算模块具体用于根据接收到的视频图像更新请求计算并输出视频图像结果。
6.根据权利要求1所述的装置,其特征在于,所述输出图像计算模块具体用于根据预设时间间隔按时计算并输出视频图像结果。
7.根据权利要求1所述的装置,其特征在于,所述输出图像计算模块具体用于根据预设时间间隔按时计算视频图像结果,在所述视频图像结果发生变化时输出所述视频图像结果。
8.根据权利要求1至7中任一项所述的装置,其特征在于,所述视频图像结果为计算出的目标画面实际帧数据或计算出的目标画面对应的裁剪缩放参数。
9.根据权利要求1至7中任一项所述的装置,其特征在于,所述声源定位信息接收模块、所述目标检测信息接收模块和所述输出图像计算模块并行工作。
10.一种摄像设备,其特征在于,所述摄像设备设置有如权利要求1至9中任一项所述的控制视频图像输出的装置。
11.一种会议系统,其特征在于,所述会议系统设置有如权利要求1至9中任一项所述的控制视频图像输出的装置。
CN202111352320.XA 2021-11-16 2021-11-16 一种控制视频图像输出的装置、摄像设备及会议系统 Active CN114173082B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111352320.XA CN114173082B (zh) 2021-11-16 2021-11-16 一种控制视频图像输出的装置、摄像设备及会议系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111352320.XA CN114173082B (zh) 2021-11-16 2021-11-16 一种控制视频图像输出的装置、摄像设备及会议系统

Publications (2)

Publication Number Publication Date
CN114173082A CN114173082A (zh) 2022-03-11
CN114173082B true CN114173082B (zh) 2022-10-21

Family

ID=80479097

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111352320.XA Active CN114173082B (zh) 2021-11-16 2021-11-16 一种控制视频图像输出的装置、摄像设备及会议系统

Country Status (1)

Country Link
CN (1) CN114173082B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020031696A1 (ja) * 2018-08-10 2020-02-13 ソニー株式会社 情報処理装置及び情報処理方法、並びに映像音声出力システム
CN109683135A (zh) * 2018-12-28 2019-04-26 科大讯飞股份有限公司 一种声源定位方法及装置、目标抓拍系统
DE112019007660T5 (de) * 2019-09-25 2022-06-15 Lg Electronics Inc. Bildanzeigevorrichtung, lippensynchronisationskorrekturverfahren hierfür, und bildanzeigesystem
CN112929654B (zh) * 2021-03-16 2022-03-29 腾讯音乐娱乐科技(深圳)有限公司 检测音画同步的方法、装置、设备及存储介质
CN113612961A (zh) * 2021-07-13 2021-11-05 杭州海康威视数字技术股份有限公司 画面输出控制方法、装置、设备及机器可读存储介质

Also Published As

Publication number Publication date
CN114173082A (zh) 2022-03-11

Similar Documents

Publication Publication Date Title
US8363848B2 (en) Method, computer readable storage medium and system for localizing acoustic source
KR102452054B1 (ko) 미디어 캡처 및 보유를 위한 비디오 분석 및 관리 기술
US20060203098A1 (en) Method and apparatus for producing frame accurate position data in a PTZ dome camera with open loop control
CN111432115A (zh) 基于声音辅助定位的人脸追踪方法、终端及存储装置
US10250803B2 (en) Video generating system and method thereof
US20110012991A1 (en) Moving image recording method and apparatus, and moving image coding method and moving image coder
JPS63166370A (ja) 画像動き補正装置
CN113794813B (zh) 一种控制音画同步的方法、装置及计算机存储介质
CN111565298A (zh) 视频处理方法、装置、设备及计算机可读存储介质
CN113794814B (zh) 一种控制视频图像输出的方法、装置及存储介质
CN114173082B (zh) 一种控制视频图像输出的装置、摄像设备及会议系统
CN113596240B (zh) 录音方法、装置、电子设备及计算机可读介质
WO2022002214A1 (zh) 一种视频剪辑方法、装置、计算机可读存储介质及相机
WO2022028407A1 (zh) 一种全景视频剪辑方法、装置、存储介质及设备
CN111955005B (zh) 处理360度图像内容的方法和系统
CN111325790B (zh) 目标追踪方法、设备及系统
Rybski et al. Cameo: Camera assisted meeting event observer
CN108596858B (zh) 一种基于特征轨迹的交通视频去抖方法
CN114913239B (zh) 一种事件相机传感器与rgb相机联合标定方法和装置
KR100711950B1 (ko) 하이브리드 광학 및 가상 주밍 장치를 사용한 관심있는물체의 실시간 트래킹
CN112396639A (zh) 图像对齐方法
CN117859339A (zh) 媒体设备及其控制方法和装置、目标跟踪方法和装置
JP2022025878A (ja) 物体検出装置およびプログラム
KR101515404B1 (ko) 가상 카메라의 제어 장치 및 방법
TWI709337B (zh) 攝錄系統

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant