CN113676622A - 视频处理方法、摄像装置、视频会议系统及存储介质 - Google Patents

视频处理方法、摄像装置、视频会议系统及存储介质 Download PDF

Info

Publication number
CN113676622A
CN113676622A CN202010413702.8A CN202010413702A CN113676622A CN 113676622 A CN113676622 A CN 113676622A CN 202010413702 A CN202010413702 A CN 202010413702A CN 113676622 A CN113676622 A CN 113676622A
Authority
CN
China
Prior art keywords
sound source
panorama
sound
image
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010413702.8A
Other languages
English (en)
Inventor
徐新刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hikvision Digital Technology Co Ltd
Original Assignee
Hangzhou Hikvision Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hikvision Digital Technology Co Ltd filed Critical Hangzhou Hikvision Digital Technology Co Ltd
Priority to CN202010413702.8A priority Critical patent/CN113676622A/zh
Publication of CN113676622A publication Critical patent/CN113676622A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/50Constructional details
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/66Remote control of cameras or camera parts, e.g. by remote control devices
    • H04N23/661Transmitting camera control signals through networks, e.g. control via the Internet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/695Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/698Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Studio Devices (AREA)

Abstract

本申请提出了视频处理方法、摄像装置、视频会议系统及存储介质。其中,一种视频处理方法,包括:在视频会议场景中由摄像装置采集第一图像帧,并生成对应的第一全景图;基于声源定位方式,确定声源位置,所述声源位置为:声源相对于所述摄像装置的空间角度;确定第一全景图中的目标对象;在所述第一全景图的目标对象中,确定与声源位置对应的发声对象;判断第一发声对象的持续发声时长是否达到第一时长阈值,所述第一发声对象表示所述第一全景图中的任一个发声对象;在确定所述持续发声时长达到第一时长阈值时,生成所述第一发声对象的特写图像。

Description

视频处理方法、摄像装置、视频会议系统及存储介质
技术领域
本申请涉及视频技术领域,特别涉及视频处理方法、摄像装置、视频会议系统及存储介质。
背景技术
目前,在视频会议等应用场景中,摄像装置通常布置于现场的前端(例如会议桌的前端)或者后端。现场多个发言人的位置与摄像装置的距离存在较大差距。因此,在摄像装置拍摄的画面中,不同发言人的图像区域存在较大的尺寸差距,并且不同发言人在画面中存在遮挡。
由于不同发言人在画面中存在尺寸差距和遮挡,如何准确地确定画面中的发言人和确定发言人的特写图像是比较困难的。
因此,如何准确地自动跟踪视频会议中的发言人是需要解决的技术问题。
发明内容
本申请提出了视频处理方法、摄像装置、视频会议系统及存储介质,能够提高自动跟踪视频会议中的发言人的准确度。
根据本申请一个方面,提供一种视频处理方法,包括:
在视频会议场景中由摄像装置采集第一图像帧,并生成对应的第一全景图;
基于声源定位方式,确定声源位置,所述声源位置为:声源相对于所述摄像装置的空间角度;
确定第一全景图中的目标对象;
在所述第一全景图的目标对象中,确定与声源位置对应的发声对象;
判断第一发声对象的持续发声时长是否达到第一时长阈值,所述第一发声对象表示所述第一全景图中的任一个发声对象;
在确定所述持续发声时长达到第一时长阈值时,生成所述第一发声对象的特写图像。
在一些实施例中,上述方法进一步包括:
采集第二图像帧,并生成对应的第二全景图,所述第二图像帧的采集时间晚于所述第一图像帧;
在确定第二全景图的目标对象中的发声对象不包括所述第一发声对象时,判断所述第一发声对象的持续未发声时长是否达到第二时长阈值;
在所述第一发声对象的持续未发声时间未达到第二时长阈值时,生成所述第二全景图中第一发声对象的特写图像。
在一些实施例中,上述方法进一步包括:
将第一全景图和第一全景图对应的特写图像拼接为一个第一输出图像帧,并向显示设备传输该第一输出图像帧;或者
将第一全景图对应的各特写图像拼接为一个第二输出图像帧,并向显示设备传输所述第一全景图和所述第二输出图像帧;或者
向显示设备传输所述第一全景图和第一全景图对应的各特写图像。4、如权利要求1所述的方法,其特征在于,所述基于声源定位方式,确定声源位置,包括:
基于声源定位方式,确定声源相对于摄像装置的水平角度,声源位置包括声源相对于摄像装置的水平角度;或者
基于声源定位方式,确定声源相对于摄像装置的水平角度和相对于摄像装置的垂直角度,声源位置包括声源的水平角度和垂直角度。
在一些实施例中,所述在所述第一全景图的目标对象中,确定与声源位置对应的发声对象,包括:
确定所述声源位置是否处于所述第一全景图的目标对象的角度范围;
在确定一个所述声源位置处于一个目标对象的角度范围时,将该目标对象确定为与该声源位置对应的发声对象;
在确定一个所述声源位置未处于任一个目标对象的角度范围时,确定以所述声源位置为中心的一个预定角度区间是否与所述第一全景图的目标对象的角度范围存在重叠;
在确定预定角度区间与一个目标对象的角度范围存在重叠时,将该目标对象确定为相应声源位置对应的发声对象。
根据本申请一个方面,提供一种摄像装置,包括:
全景图获取单元,在视频会议场景中采集第一图像帧,并生成对应的第一全景图;
定位单元,基于声源定位方式,确定声源位置,所述声源位置为:声源相对于所述摄像装置的空间角度;
识别单元,确定第一全景图中的目标对象;
确定单元,在所述第一全景图的目标对象中,确定与声源位置对应的发声对象;
判断单元,判断第一发声对象的持续发声时长是否达到第一时长阈值,所述第一发声对象表示所述第一全景图中的任一个发声对象;
生成单元,在所述判断单元确定所述持续发声时长达到第一时长阈值时,生成所述第一发声对象的特写图像。
在一些实施例中,全景图获取单元还用于,采集第二图像帧,并生成对应的第二全景图,所述第二图像帧的采集时间晚于所述第一图像帧;
判断单元还用于,在确定第二全景图的目标对象中的发声对象不包括所述第一发声对象时,判断所述第一发声对象的持续未发声时长是否达到第二时长阈值;
在判断单元确定所述第一发声对象的持续未发声时间未达到第二时长阈值时,生成单元还用于生成所述第二全景图中第一发声对象的特写图像。
根据本申请一个方面,提供一种摄像装置,包括:
存储器;
处理器;
摄像头模组;
传声器阵列;
程序,存储在该存储器中并被配置为由所述处理器执行,所述程序包括用于执行根据本申请的视频处理方法的指令。
根据本申请一个方面,提供一种存储介质,存储有程序,所述程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行视频处理方法。
根据本申请一个方面,提供一种视频会议系统,包括:
摄像装置;
显示设备。
综上,根据本申请实施例的方案,通过生成全景图,能够避免出现检测到的目标对象尺寸差距大的情况,从而能够基于生源定位方式准确地确定发声对象。换言之,本申请的方法700通过将生成全景图和声源定位方式的组合,能够提高发言人跟踪(即确定发声对象)的准确度。进一步,根据本申请的方案基于第一时长阈值分析发声对象的持续发声时长,可以避免特写图像频繁切换造成的画面混乱,从而提高画面稳定性。例如,如果没有采用基于第一时长阈值的分析机制,很可能出现的情况是:由于一个发声对象频繁地在说话和停止说话之间进行切换,在显示设备的画面中该发声对象的特写图像频繁的出现和消失。
附图说明
图1示出了根据本申请一些实施例的应用场景的示意图;
图2示出了根据本申请一些实施例的摄像装置200的部署场景图;
图3A是示出了根据本申请一些实施例的摄像装置200的俯视图;
图3B示出了根据本申请一些实施例的摄像装置200的侧视图;
图4示出了根据本申请一些实施例的全景图的示意图;
图5A、图5B和图5C分别示出了根据本申请一些实施例的单层传声器组的布局示意图;
图6示出了根据本申请一些实施例的声源位置的定位结果的示意图;
图7示出了根据本申请一些实施例的视频处理方法700的流程图;
图8示出了根据本申请一些实施例的视频处理方法800的流程图;
图9示出了根据本申请一些实施例的确定发声对象的方法900的流程图;
图10示出了根据本申请一些实施例的全景图;
图11示出了根据本申请一些实施例的声源位置的垂直角度范围;
图12示出了根据本申请一些实施例的全景图;
图13示出了根据本申请一些实施例的摄像装置1300的示意图;
图14示出了根据本申请一些实施例的摄像装置的示意图。
具体实施方式
为使本申请的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本申请进一步详细说明。
图1示出了根据本申请一些实施例的应用场景的示意图。
如图1所示,应用场景包括第一视频会议系统和第二视频会议系统。第一视频会议系统110包括第一摄像装置111和第一显示设备112。第二视频会议系统120可以包括第二摄像装置121和第二显示设备122。
第一视频会议系统110和第二视频会议系统120可以部署在不同的地点,并通过网络130进行通讯。这里,网络130例如可以是有线网络、无线网络或者二者的组合。
例如,第一摄像装置111可以采集现场的画面并生成视频流,以便在第一显示设备112和\或第二显示设备122中显示。类似的,第二摄像装置121可以采集现场的画面并生成视频流,以便在第一显示设备112和\或第二显示设备122中显示。第一摄像装置111和第二摄像装置121可以是规格相同的图像采集设备。
图2示出了根据本申请一些实施例的摄像装置200的部署场景图。摄像装置200例如可以是第一摄像装置111或第二摄像装置121,但不限于此。摄像装置200可以部署在距离参会人员的距离尽可能相同的位置处,例如,部署在会议桌的中心位置处。另外,在扇形的阶梯会议室中,摄像装置200可以布置在扇形的圆心位置处。
图3A是示出了根据本申请一些实施例的摄像装置200的俯视图。图3B示出了根据本申请一些实施例的摄像装置200的侧视图。如图3A和3B所示,摄像装置200可以包括摄像头模组210和传声器阵列220。
在一些实施例中,摄像头模组210可以包括一个竖直向上的全景摄像头。全景摄像头的可视角超过200度。这样,全景摄像头可以对360度的水平角度范围(即全景范围)进行拍摄。基于全景摄像头拍摄的一个图像帧,摄像装置200可以生成一个全景图。例如,会议桌300周围包括6个参会人员。摄像装置200生成的全景图如图4所示。
在一些实施例中,摄像头模组210可以包括横向的2个摄像头。摄像头可视角度大于180度。两个摄像头朝向相差180度。这样,摄像装置200可以基于两个摄像头同一时刻采集的2个图像帧,拼接出一个全景图。
在一些实施例中,摄像头模组可以包括横向的3个摄像头。摄像头可视角度大于120度。3个摄像头朝向相差120度。这样,摄像装置200可以基于3个摄像头同一时刻采集的3个图像帧,拼接出一个全景图。
在一些实施例中,摄像头模组可以包括横向的4个摄像头。摄像头可视角度大于90度。4个摄像头朝向相差90度。这样,摄像装置200可以基于4个摄像头同一时刻采集的4个图像帧,拼接出一个全景图。
另外,传声器阵列220可以包括一层或多层传声器组。每层传声器组可以在同一个高度上,环形分布有多个传声器。例如图5A、图5B和图5C分别示出了根据本申请一些实施例的单层传声器组的布局示意图。在图5A中,单层传声器组包括4个传声器。在图5B中,单层传声器组包括6个传声器。在图5C中,单层传声器组包括8个传声器。总之,每层传声器组可以对摄像装置200四周进行声音采集。这样,传声器阵列可以在视频会议场景中进行声源定位。
在传声器阵列仅包括一层传声器组时,摄像装置200可以利用该传声器阵列,确定声源的水平角度。这里,声源例如为发言人或者发言人附近的播放装置。这里,播放装置例如为手机或笔记本电脑等等。这里,水平面内一个方向可以被设定为0度。例如图6中方向601为0度。从方向601开始,水平角度可以按照顺时针或者逆时针增加。图6中角度增加方式为按照逆时针增加。例如,发言人1对应的角度为32度。另外说明的是,声源的水平角度为声源相对于摄像装置(例如摄像装置的中心)的水平角度。
另外,在传声器阵列包括多层传声器组时,摄像装置200可以确定声源的水平角度和垂直角度。例如,在阶梯会议室中,摄像装置200可以利用水平角度确定声源的列位置(即列数),并根据垂直角度确定声源的行位置(即行数)。
图7示出了根据本申请一些实施例的视频处理方法700的流程图。视频处理方法700例如由摄像装置200执行。
在步骤S701中,在视频会议场景中由摄像装置采集第一图像帧,并生成对应的第一全景图。例如,步骤S701可以基于一个采集时刻的第一图像帧(即摄像头模组在该该采集时刻采集的图像),生成一个全景图。全景图例如图4所示。
在步骤S702中,基于声源定位方式,确定声源位置。声源位置为:声源相对于摄像装置的空间角度。在一些实施例中,空间角度为声源的水平角度。在一些实施例中,一个声源位置的空间角度包括声源的水平角度和垂直角度。
另外说明的是,本申请对步骤S701和S702的执行顺序不做限制。
在步骤S703中,确定第一全景图中的目标对象。在一些实施例中,步骤S703可以基于目标检测方式确定第一全景图中的目标对象。这里,目标对象为潜在的声源。目标对象例如为现场的参会人员。这里,目标检测方式例如为人脸检测、人肩部检测等等,本申请对此不做限制。人肩部检测为检测图像中包含头部和肩部的区域,并将检测的到的区域作为目标对象。实际上,在每次生成一个全景图时,本申请实施例都可以确定该全景图中的目标对象。
在步骤S704中,在第一全景图的目标对象中,确定与声源位置对应的发声对象。换言之,根据采集第一图像帧时的声源位置,步骤S704可以在第一全景图中,确定与该声源位置一致的目标对象,并将确定的目标对象作为发声对象。在步骤S705中,判断第一发声对象的持续发声时长是否达到第一时长阈值。第一发声对象表示第一全景图中的任一个发声对象。换言之,本申请实施例可以针对第一全景图中每个发声对象执行步骤S705。第一时长阈值例如为2秒,但不限于此。
在步骤S705确定持续发声时长达到第一时长阈值时,方法700可以执行步骤S706,生成第一发声对象的特写图像。这里,特写图像为从第一图像中提取到的与第一发声对象对应的图像区域。
综上,根据本申请实施例的方法700通过生成全景图,能够避免出现检测到的目标对象尺寸差距大的情况,从而能够基于生源定位方式准确地确定发声对象。换言之,本申请实施例的方法700通过将生成全景图和声源定位方式的组合,能够提高发言人跟踪(即确定发声对象)的准确度。进一步,方法700基于第一时长阈值分析发声对象的持续发声时长,可以避免特写图像频繁切换造成的画面混乱,从而提高画面稳定性。例如,如果没有采用基于第一时长阈值的分析机制(即步骤S705),很可能出现的情况是:由于一个发声对象频繁地在说话和停止说话之间进行切换,在显示设备(例如第一显示设备112或者第二显示设备122)的画面中该发声对象的特写图像频繁的出现和消失。
图8示出了根据本申请一些实施例的视频处理方法800的流程图。视频处理方法800例如由摄像装置200执行。
方法800可以包括步骤S801-S806。步骤S801-S806的实施方式与步骤S701-S706一致,这里不再赘述。
另外,方法800还可以包括步骤S807。
在步骤S807中,采集第二图像帧,并生成对应的第二全景图。第二图像帧的采集时间晚于所述第一图像帧。这里,步骤S807的实施方式与步骤S801类似。另外,本申请的实施例也会确定第二全景图中的目标对象。
在步骤S808中,在确定第二全景图的目标对象中的发声对象不包括第一发声对象时,判断第一发声对象的持续未发声时长是否达到第二时长阈值。
在步骤S808确定第一发声对象的持续未发声时间未达到第二时长阈值时,方法800可以执行步骤S809,生成第二全景图中第一发声对象的特写图像。
综上,在第一发声对象停止说话后,方法800通过步骤S807-S809,可以在停止说话后的较短的时间区间(即停止说话的时长小于第二时长阈值的时间段)内,继续生成第一发声对象的特写图像,从而可以避免频繁的变更用于显示跟踪目标的特写图像,进而提高画面稳定性。这样,如果第一发声对象在停止说话后的较短时间区间内重新开始说话,方法800能够避免对第一发声对象的特写图像进行频繁切换(即避免特写图像频繁的出现和消失)。另外,方法800还可以包括步骤S810,输出与全景图有关的图像。下面以第一全景图有关的图像为例进行说明。
在一些实施例中,摄像装置在向本地的显示设备输出图像时,步骤S810可以将第一全景图和第一全景图对应的特写图像拼接为一个第一输出图像帧,并向显示设备传输该第一输出图像帧。
在一些实施例中,步骤S810可以将第一全景图对应的各特写图像拼接为一个第二输出图像帧,并向显示设备传输第一全景图和第二输出图像帧。
在一些实施例中,步骤S810可以向显示设备传输第一全景图和第一全景图对应的各特写图像。
另外,在摄像装置通过网络远程输出图像时,步骤S810可以将待传输的图像进行编码并传输编码结果,以便显示设备对接收到的编码结果进行解码并显示。
综上,步骤S810可以根据需要采用多种方式对视频会议的画面进行显示,从而提高视频会议的展示灵活性。
在一些实施例中,在执行步骤S809等生成特写图像的过程中,当全景图(例如第一全景图或第二全景图)中位置相邻的多个目标对象均需要生成特写图像时,摄像装置可以为目标数量(例如为2个或更多)的目标对象共同生成一个特写图像。这里,这里,共同生成的特写图像满足:该特写图像未超过预定宽高比(例如,16:9等宽高比),并且特写图像中各目标对象的人脸像素点数量(即人脸区域的像素点数量)均超过像素点阈值。相似点阈值可以根据需要进行设置,例如为2000。这样,目标数量的目标对象可以同框显示,以使得同框显示的特写图像能够呈现出目标数量的目标对象之间的相对位置。
在一些实施例中,步骤S703可以实施为步骤S7031。在步骤S7031中,基于声源定位方式,确定与第一全景图对应的声源相对于摄像装置的水平角度。第一全景图对应的任一个声源的声源位置包括该声源相对于摄像装置的水平角度。
在一些实施例中,摄像装置200的传声器阵列包括多层传声器组。步骤S703可以实施为步骤S7032。在步骤S7032中,基于声源定位方式,确定与第一全景图对应的声源相对于摄像装置的水平角度和相对于摄像装置的垂直角度。第一全景图对应的任一个声源的声源位置包括该声源的水平角度和垂直角度。
在一些实施例中,步骤S704可以实施为方法900。
如图9所示,在步骤S901中,确定声源位置是否处于第一全景图的目标对象的角度范围。
在步骤S901确定一个所述声源位置处于一个目标对象的角度范围时,方法900可以执行步骤S902,将该目标对象确定为与该声源位置对应的发声对象。
在步骤S901确定一个所述声源位置未处于任一个目标对象的角度范围时,方法900可以执行步骤S903,确定以声源位置为中心的一个预定角度区间是否与第一全景图的目标对象的角度范围存在重叠。
在步骤S903确定预定角度区间与一个目标对象的角度范围存在重叠时,方法900可以执行步骤S904,将该目标对象确定为相应声源位置对应的发声对象。
综上,方法900通过确定声源位置是否处于目标对象的角度范围,以及声源位置有关的预定角度区间是否与目标对象的角度范围重叠,能够提高声源位置与目标对象之间的匹配准确度。
在一些实施例中,声源位置仅包括水平角度。以图10为例,图10中第一全景图的分辨率为4096*1080。在水平方向上,图10中像素点的角度范围为0~360°,对应的像素点数为4096。一个目标对象A在像素点阵列中,属于第624列到1560列的范围,每度对应的像素点数约为4096/360=39像素。因此,目标对象A对应的水平角度范围为16°~40°。一个声源位置的水平角度为32度。该声源位置处于目标对象A的角度范围内。因此,目标对象A为该声源位置对应的发声对象。
在一些实施例中,声源位置包括水平角度和垂直角度。图11示出了声源位置的垂直角度范围。垂直角度范围例如为210°,但不限于此。图12中第一全景图的分辨率为4096*1080。在水平方向上,图12中像素点的角度范围为0~360°,对应的像素点数为4096。在垂直方向上,图12中像素点的角度范围为0-105°,对应的像素点数为1080。在像素点阵列中,垂直方向的每度对应的像素点数约为1080/105=10像素。其中,第一行像素点对应的角度为105°。最后一行像素点对应的角度为0°。例如,目标对象B属于第624列到1560列,第150行到450行。因此,目标对象B的水平角度范围为16°~40°,垂直角度范围为60°~90°,一个声源位置的水平角度为32度,垂直角度为75°。因此,声源位置属于目标对象B的角度范围。因此,目标对象B为该声源位置的发声对象。
图13示出了根据本申请一些实施例的摄像装置1300的示意图。摄像装置1300的软件模块例如可以包括全景图获取单元1301、定位单元1302、识别单元1303、确定单元1304、判断单元1305和生成单元1306。
全景图获取单元1301在视频会议场景中采集第一图像帧,并生成对应的第一全景图。
定位单元1302可以基于声源定位方式,确定声源位置。声源位置为:声源相对于所述摄像装置的空间角度。
识别单元1303确定第一全景图中的目标对象。
确定单元1304在第一全景图的目标对象中,确定与声源位置对应的发声对象。
判断单元1305判断第一发声对象的持续发声时长是否达到第一时长阈值。第一发声对象表示所述第一全景图中的任一个发声对象;
生成单元1306在判断单元1305确定所述持续发声时长达到第一时长阈值时,生成第一发声对象的特写图像。摄像装置1300更具体的实施方式与方法700一致,这里不再赘述。
综上,摄像装置1300通过生成全景图,能够避免出现检测到的目标对象尺寸差距大的情况,从而能够基于生源定位方式准确地确定发声对象。换言之,本申请的摄像装置1300通过将生成全景图和声源定位方式的组合,能够提高发言人跟踪(即确定发声对象)的准确度。进一步,摄像装置1300基于第一时长阈值分析发声对象的持续发声时长,可以避免特写图像频繁切换造成的画面混乱,从而提高画面稳定性。例如,如果没有采用基于第一时长阈值的分析机制,很可能出现的情况是:由于一个发声对象频繁地在说话和停止说话之间进行切换,在显示设备(例如第一显示设备112或者第二显示设备122)的画面中该发声对象的特写图像频繁的出现和消失。
在一些实施例中,全景图获取单元1301还用于采集第二图像帧,并生成对应的第二全景图.第二图像帧的采集时间晚于第一图像帧。
判断单元1305还用于,在确定第二全景图的目标对象中的发声对象不包括第一发声对象时,判断第一发声对象的持续未发声时长是否达到第二时长阈值。
在判断单元1305确定第一发声对象的持续未发声时间未达到第二时长阈值时,生成单元1306还用于生成第二全景图中第一发声对象的特写图像。
在一些实施例中,生成单元1306还可以将第一全景图和第一全景图对应的特写图像拼接为一个第一输出图像帧,并向显示设备传输该第一输出图像帧。除了生成第一输出图像帧的方式之外,生成单元1306也可以将第一全景图对应的各特写图像拼接为一个第二输出图像帧,并向显示设备传输所述第一全景图和所述第二输出图像帧。另外,生成单元1306也可以向显示设备传输第一全景图和第一全景图对应的各特写图像。
在一些实施例中,定位单元1302可以基于声源定位方式,确定声源相对于摄像装置的水平角度,声源位置包括声源相对于摄像装置的水平角度。或者,定位单元1302可以基于声源定位方式,确定声源相对于摄像装置的水平角度和相对于摄像装置的垂直角度,声源位置包括声源的水平角度和垂直角度。
确定单元1304可以确定声源位置是否处于第一全景图的目标对象的角度范围。在确定一个声源位置处于一个目标对象的角度范围时,确定单元1304可以将该目标对象确定为与该声源位置对应的发声对象。在确定一个声源位置未处于任一个目标对象的角度范围时,确定单元1304确定以声源位置为中心的一个预定角度区间是否与第一全景图的目标对象的角度范围存在重叠。在确定预定角度区间与一个目标对象的角度范围存在重叠时,确定单元1304可以将该目标对象确定为相应声源位置对应的发声对象。
图14示出了根据本申请一些实施例的摄像装置的示意图。如图14所示,该摄像装置包括一个或者多个处理器(CPU)1402、通信模块1404、存储器1406、用于互联这些组件的通信总线1408、摄像头模组1410以及传声器阵列1412。
处理器1402可通过通信模块1404接收和发送数据以实现网络通信和/或本地通信。
存储器1406可以是高速随机存取存储器,诸如DRAM、SRAM、DDR RAM、或其他随机存取固态存储设备;或者非易失性存储器,诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备,或其他非易失性固态存储设备。
存储器1406存储处理器1402可执行的指令集,包括:
操作系统1414,包括用于处理各种基本系统服务和用于执行硬件相关任务的程序;
应用1416,包括用于实现上述检测包裹的各种程序。这种程序能够实现上述各实例中的处理流程,比如可以包括视频处理方法700或者800。
另外,本申请的每一个实施例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然,数据处理程序构成了本发明。此外,通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此,这样的存储介质也构成了本发明。存储介质可以使用任何类型的记录方式,例如纸张存储介质(如纸带等)、磁存储介质(如软盘、硬盘、闪存等)、光存储介质(如CD-ROM等)、磁光存储介质(如MO等)等。
因此本申请还公开了一种非易失性存储介质,其中存储有程序。该程序包括指令,所述指令当由处理器执行时,使得计算设备执行根据本申请的视频处理方法。
另外,本申请所述的方法步骤除了可以用数据处理程序来实现,还可以由硬件来实现,例如,可以由逻辑门、开关、专用集成电路(ASIC)、可编程逻辑控制器和嵌微控制器等来实现。因此这种可以实现本申请所述视频处理方法的硬件也可以构成本申请。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (10)

1.一种视频处理方法,其特征在于,包括:
在视频会议场景中由摄像装置采集第一图像帧,并生成对应的第一全景图;
基于声源定位方式,确定声源位置,所述声源位置为:声源相对于所述摄像装置的空间角度;
确定第一全景图中的目标对象;
在所述第一全景图的目标对象中,确定与声源位置对应的发声对象;
判断第一发声对象的持续发声时长是否达到第一时长阈值,所述第一发声对象表示所述第一全景图中的任一个发声对象;
在确定所述持续发声时长达到第一时长阈值时,生成所述第一发声对象的特写图像。
2.如权利要求1所述的视频处理方法,其特征在于,进一步包括:
采集第二图像帧,并生成对应的第二全景图,所述第二图像帧的采集时间晚于所述第一图像帧;
在确定第二全景图的目标对象中的发声对象不包括所述第一发声对象时,判断所述第一发声对象的持续未发声时长是否达到第二时长阈值;
在所述第一发声对象的持续未发声时间未达到第二时长阈值时,生成所述第二全景图中第一发声对象的特写图像。
3.如权利要求1所述的视频处理方法,其特征在于,进一步包括:
将第一全景图和第一全景图对应的特写图像拼接为一个第一输出图像帧,并向显示设备传输该第一输出图像帧;或者
将第一全景图对应的各特写图像拼接为一个第二输出图像帧,并向显示设备传输所述第一全景图和所述第二输出图像帧;或者
向显示设备传输所述第一全景图和第一全景图对应的各特写图像。
4.如权利要求1所述的视频处理方法,其特征在于,所述基于声源定位方式,确定声源位置,包括:
基于声源定位方式,确定声源相对于摄像装置的水平角度,声源位置包括声源相对于摄像装置的水平角度;或者
基于声源定位方式,确定声源相对于摄像装置的水平角度和相对于摄像装置的垂直角度,声源位置包括声源的水平角度和垂直角度。
5.如权利要求4所述的视频处理方法,其特征在于,所述在所述第一全景图的目标对象中,确定与声源位置对应的发声对象,包括:
确定所述声源位置是否处于所述第一全景图的目标对象的角度范围;
在确定一个所述声源位置处于一个目标对象的角度范围时,将该目标对象确定为与该声源位置对应的发声对象;
在确定一个所述声源位置未处于任一个目标对象的角度范围时,确定以所述声源位置为中心的一个预定角度区间是否与所述第一全景图的目标对象的角度范围存在重叠;
在确定预定角度区间与一个目标对象的角度范围存在重叠时,将该目标对象确定为相应声源位置对应的发声对象。
6.一种摄像装置,其特征在于,包括:
全景图获取单元,在视频会议场景中采集第一图像帧,并生成对应的第一全景图;
定位单元,基于声源定位方式,确定声源位置,所述声源位置为:声源相对于所述摄像装置的空间角度;
识别单元,确定第一全景图中的目标对象;
确定单元,在所述第一全景图的目标对象中,确定与声源位置对应的发声对象;
判断单元,判断第一发声对象的持续发声时长是否达到第一时长阈值,所述第一发声对象表示所述第一全景图中的任一个发声对象;
生成单元,在所述判断单元确定所述持续发声时长达到第一时长阈值时,生成所述第一发声对象的特写图像。
7.如权利要求1所述的摄像装置,其特征在于,
全景图获取单元还用于,采集第二图像帧,并生成对应的第二全景图,所述第二图像帧的采集时间晚于所述第一图像帧;
判断单元还用于,在确定第二全景图的目标对象中的发声对象不包括所述第一发声对象时,判断所述第一发声对象的持续未发声时长是否达到第二时长阈值;
在判断单元确定所述第一发声对象的持续未发声时间未达到第二时长阈值时,生成单元还用于生成所述第二全景图中第一发声对象的特写图像。
8.一种摄像装置,其特征在于,包括:
存储器;
处理器;
摄像头模组;
传声器阵列;
程序,存储在该存储器中并被配置为由所述处理器执行,所述程序包括用于执行权利要求1-5中任一项所述视频处理方法的指令。
9.一种存储介质,存储有程序,所述程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行如权利要求1-5中任一项所述的视频处理方法。
10.一种视频会议系统,其特征在于,包括:
如权利要求6-8中任一项所述的摄像装置;
和显示设备。
CN202010413702.8A 2020-05-15 2020-05-15 视频处理方法、摄像装置、视频会议系统及存储介质 Pending CN113676622A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010413702.8A CN113676622A (zh) 2020-05-15 2020-05-15 视频处理方法、摄像装置、视频会议系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010413702.8A CN113676622A (zh) 2020-05-15 2020-05-15 视频处理方法、摄像装置、视频会议系统及存储介质

Publications (1)

Publication Number Publication Date
CN113676622A true CN113676622A (zh) 2021-11-19

Family

ID=78537667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010413702.8A Pending CN113676622A (zh) 2020-05-15 2020-05-15 视频处理方法、摄像装置、视频会议系统及存储介质

Country Status (1)

Country Link
CN (1) CN113676622A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114495195A (zh) * 2021-12-17 2022-05-13 珠海视熙科技有限公司 一种应用于视频会议系统的人脸检测方法及视频会议系统
WO2023142266A1 (zh) * 2022-01-29 2023-08-03 深圳壹秘科技有限公司 远程交互方法、远程交互设备以及计算机存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030090564A1 (en) * 2001-11-13 2003-05-15 Koninklijke Philips Electronics N.V. System and method for providing an awareness of remote people in the room during a videoconference
US20080019495A1 (en) * 2006-03-30 2008-01-24 Pioneer Corporation & Pioneer Solutions Corporation Voice conference apparatus, method for confirming voice in voice conference system and program product
US20080218582A1 (en) * 2006-12-28 2008-09-11 Mark Buckler Video conferencing
CN101442654A (zh) * 2008-12-26 2009-05-27 深圳华为通信技术有限公司 视频通信中视频对象切换的方法、装置及系统
US20090244257A1 (en) * 2008-03-26 2009-10-01 Macdonald Alan J Virtual round-table videoconference
CN108933915A (zh) * 2017-05-26 2018-12-04 和硕联合科技股份有限公司 视频会议装置与视频会议管理方法
CN109492506A (zh) * 2017-09-13 2019-03-19 华为技术有限公司 图像处理方法、装置和系统
CN111163281A (zh) * 2020-01-09 2020-05-15 北京中电慧声科技有限公司 一种基于语音跟踪的全景视频录制方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030090564A1 (en) * 2001-11-13 2003-05-15 Koninklijke Philips Electronics N.V. System and method for providing an awareness of remote people in the room during a videoconference
US20080019495A1 (en) * 2006-03-30 2008-01-24 Pioneer Corporation & Pioneer Solutions Corporation Voice conference apparatus, method for confirming voice in voice conference system and program product
US20080218582A1 (en) * 2006-12-28 2008-09-11 Mark Buckler Video conferencing
US20090244257A1 (en) * 2008-03-26 2009-10-01 Macdonald Alan J Virtual round-table videoconference
CN101442654A (zh) * 2008-12-26 2009-05-27 深圳华为通信技术有限公司 视频通信中视频对象切换的方法、装置及系统
CN108933915A (zh) * 2017-05-26 2018-12-04 和硕联合科技股份有限公司 视频会议装置与视频会议管理方法
CN109492506A (zh) * 2017-09-13 2019-03-19 华为技术有限公司 图像处理方法、装置和系统
CN111163281A (zh) * 2020-01-09 2020-05-15 北京中电慧声科技有限公司 一种基于语音跟踪的全景视频录制方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114495195A (zh) * 2021-12-17 2022-05-13 珠海视熙科技有限公司 一种应用于视频会议系统的人脸检测方法及视频会议系统
WO2023142266A1 (zh) * 2022-01-29 2023-08-03 深圳壹秘科技有限公司 远程交互方法、远程交互设备以及计算机存储介质

Similar Documents

Publication Publication Date Title
US9860486B2 (en) Communication apparatus, communication method, and communication system
US9980040B2 (en) Active speaker location detection
US8102395B2 (en) Display apparatus, image processing apparatus and image processing method, imaging apparatus, and program
TWI311286B (zh)
EP2323425B1 (en) Method and device for generating audio signals
WO2017215295A1 (zh) 一种摄像机参数调整方法、导播摄像机及系统
JP4474013B2 (ja) 情報処理装置
US20020140804A1 (en) Method and apparatus for audio/image speaker detection and locator
US20100013738A1 (en) Image capture and display configuration
CN107439002B (zh) 深度成像
JPH11331827A (ja) テレビカメラ装置
US11477393B2 (en) Detecting and tracking a subject of interest in a teleconference
CN113676622A (zh) 视频处理方法、摄像装置、视频会议系统及存储介质
JP4451892B2 (ja) 映像再生装置、映像再生方法、及び映像再生プログラム
TW201734948A (zh) 用於在廣角圖像系統中生成相關的音頻和視覺信號的方法、系統及設備
JP2011217202A (ja) 画像取得装置
WO2015198964A1 (ja) 音声入出力機能付き撮像装置およびテレビ会議システム
JP2004193962A (ja) 画像通信装置、および画像通信方法、並びにコンピュータ・プログラム
JP2005094713A (ja) データ表示システム、データ表示方法、プログラムおよび記録媒体
WO2009119288A1 (ja) コミュニケーションシステム及びコミュニケーションプログラム
JP4373645B2 (ja) 映像配信システム、プログラム及び記録媒体
JP3954439B2 (ja) 映像記録システム、プログラム及び記録媒体
US20200389722A1 (en) Processing of data of a video sequence in order to zoom to a speaker detected in the sequence
JP2017108240A (ja) 情報処理装置、及び情報処理方法
JP4148252B2 (ja) 画像処理装置および画像処理方法、並びにプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20211119