CN106161985B - 一种浸入式视频会议的实现方法 - Google Patents

一种浸入式视频会议的实现方法 Download PDF

Info

Publication number
CN106161985B
CN106161985B CN201610534581.6A CN201610534581A CN106161985B CN 106161985 B CN106161985 B CN 106161985B CN 201610534581 A CN201610534581 A CN 201610534581A CN 106161985 B CN106161985 B CN 106161985B
Authority
CN
China
Prior art keywords
video
degree
image
video image
cutting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610534581.6A
Other languages
English (en)
Other versions
CN106161985A (zh
Inventor
朱国康
钱晓炯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo Chrysanthemum Wind System Softcom Ltd
Original Assignee
Ningbo Chrysanthemum Wind System Softcom Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo Chrysanthemum Wind System Softcom Ltd filed Critical Ningbo Chrysanthemum Wind System Softcom Ltd
Priority to CN201610534581.6A priority Critical patent/CN106161985B/zh
Publication of CN106161985A publication Critical patent/CN106161985A/zh
Application granted granted Critical
Publication of CN106161985B publication Critical patent/CN106161985B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/90Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明涉及一种浸入式视频会议的实现方法,其特征在于:包含如下步骤:步骤一、采集视频会议室内的大视野图像;步骤二、通过声源定位方法实时找到视频讲话人的声源定位点;步骤三、根据实时的声源定位点对采集的大视野图像进行裁剪,裁剪位置以声源定位点作为裁剪画面的中心位置,裁剪的视角大小为25~90度,获得裁减后的视频图像,将该裁减后的视频图像作为输出的视频图像。与现有技术相比,本发明的优点在于:能实现快速定位视频讲话人跟踪,具有模仿人类眼睛和注意力的沉浸式的效果,能捕捉视频会议室内的大视野图像,并能在大视野图像内定位说话人的画面,降低视频编码码率,节省带宽,无需转动摄像头,避免了需要机械结构而产生的问题。

Description

一种浸入式视频会议的实现方法
技术领域
本发明涉及一种浸入式视频会议的实现方法。
背景技术
视频会议的一种常见场景是,在会议室中多人参与视频通话;视频会议系统供应厂家为了实现更优秀的视频效果,大多会采用声源定位,通过声源定位的位置转动摄像头,将摄像头对准视频讲话人,实现讲话人跟踪。
发明内容
本发明所要解决的技术问题是无需转动摄像头就能实现快速定位视频讲话人跟踪的浸入式视频会议的实现方法。
本发明解决上述技术问题所采用的技术方案为:一种浸入式视频会议的实现方法,其特征在于:包含如下步骤:
步骤一、采集视频会议室内的大视野图像;
步骤二、通过声源定位方法实时找到视频讲话人的声源定位点;
步骤三、根据实时的声源定位点对采集的大视野图像进行裁剪,裁剪位置以声源定位点作为裁剪画面的中心位置,裁剪的视角大小为25~90度,获得裁剪后的视频图像,将该裁剪后的视频图像作为输出的视频图像。
所述步骤一中,可以采用广角镜头来采集视频会议室内的大视野图像,也可以多个镜头分别同步采集视频图像,然后将多个镜头同步采集的视频图像进行拼接获得大视野图像。
所述步骤一中采集视频会议室内的大视野图像中所采用的镜头距离人脸/景物最小的距离为20cm。
所述步骤三中,裁剪后的视频图像的大小由以下方式决定:
设步骤一中获得的大视野图像的总画面的视角为a,画面宽为D,裁剪的视角大小为x,根据比例关系,可得到裁剪后的视频图像宽度Wc为:
设视频讲话人像与镜头之间的距离为L,设m=10,n=60;
下面是计算x的具体计算步骤:
步骤(1)、输入L,如果L小于20cm,则设定L为20;
步骤(2)、通过如下两个公式计算x1和x2:
如果通过上述两个公式计算获得的x1和x2小于25度,则设x1为25度或30度,设x2为25度或30度;如果通过上述两个公式计算获得的x1和x2大于90度,则设则设x1和x2为90度;
步骤(3)、初始状态,x=0.5*(x2+x1);非初始状态,如果上一帧实际裁剪视角x∈(x2,x1),则保持不变,否则x设为
其中abs是求取绝对值的函数。
在步骤三获得裁剪后的视频图像中,以人脸为中心,如果检测不到人脸,则以画面为中心,然后在视角g度范围内保留原有画面精度,在g度外逐渐过渡为高斯模糊,其中视角g的计算公式为:
在步骤三获得裁剪后的视频图像中,以人脸为中心,如果检测不到人脸,则以画面为中心,在视角25度范围内保留原有画面精度,在25度外逐渐过渡为高斯模糊。
如果步骤二中采用声源定位方法定位出会场中同时有多人讲话,则裁剪后的视频图像需要覆盖到多人讲话的空间范围内;如果裁剪的视角大小为扩大到90度仍无法满足覆盖,则分别将多个讲话人的视频图像裁剪出来,然后拼接成一个视频图像,最后将这个拼接的视频图像作为输出的视频图像。
与现有技术相比,本发明的优点在于:能实现快速定位视频讲话人跟踪,具有模仿人类眼睛和注意力的沉浸式的效果,能捕捉视频会议室内的大视野图像,并能在大视野图像内定位说话人的画面,降低视频编码码率,节省带宽,无需转动摄像头,避免了需要机械结构而产生的问题。
附图说明
图1为本发明实施例中浸入式视频会议的实现方法流程部。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
如图1所示的浸入式视频会议的实现方法,包含如下步骤:
步骤一、采用广角镜头来采集视频会议室内的大视野图像,或采用多个镜头分别同步采集视频图像,然后将多个镜头同步采集的视频图像进行拼接获得大视野图像;该步骤中,采集视频会议室内的大视野图像中所采用的镜头距离人脸/景物的距离需满足最小距离为20cm;
步骤二、通过声源定位方法实时找到视频讲话人的声源定位点;
步骤三、根据实时的声源定位点对采集的大视野图像进行裁剪,裁剪位置以声源定位点作为裁剪画面的中心位置,裁剪的视角大小为25~90度,获得裁剪后的视频图像,将该裁剪后的视频图像作为输出的视频图像;该步骤中,裁剪后的视频图像的大小由以下方式决定:
设步骤一中获得的大视野图像的总画面的视角为a,画面宽为D,裁剪的视角大小为x,根据比例关系,可得到裁剪后的视频图像宽度Wc为:
设视频讲话人像与镜头之间的距离为L,设m=10,n=60;
下面是计算x的具体计算步骤:
步骤(1)、输入L,如果L小于20cm,则设定L为20;
步骤(2)、通过如下两个公式计算x1和x2:
如果通过上述两个公式计算获得的x1和x2小于25度,则设x1为25度或30度,设x2为25度或30度;如果通过上述两个公式计算获得的x1和x2大于90度,则设则设x1和x2为90度;
步骤(3)、初始状态,x=0.5*(x2+x1);非初始状态,如果上一帧实际裁剪视角x∈(x2,x1),则保持不变,否则x设为
其中abs是求取绝对值的函数;
步骤四、在获得裁剪后的视频图像中,以人脸为中心,如果检测不到人脸,则以画面为中心,然后在视角g度范围内保留原有画面精度,在g度外逐渐过渡为高斯模糊,其中视角g的计算公式为:
另外,也可以在得裁剪后的视频图像中,以人脸为中心,如果检测不到人脸,则以画面为中心,在视角25度范围内保留原有画面精度,在25度外逐渐过渡为高斯模糊。
如果步骤二中采用声源定位方法定位出会场中同时有多人讲话,则裁剪后的视频图像需要覆盖到多人讲话的空间范围内;如果裁剪的视角大小为扩大到90度仍无法满足覆盖,则分别将多个讲话人的视频图像裁剪出来,然后拼接成一个视频图像,最后将这个拼接的视频图像作为输出的视频图像。

Claims (7)

1.一种浸入式视频会议的实现方法,其特征在于:包含如下步骤:
步骤一、采集视频会议室内的大视野图像;
步骤二、通过声源定位方法实时找到视频讲话人的声源定位点;
步骤三、根据实时的声源定位点对采集的大视野图像进行裁剪,裁剪位置以声源定位点作为裁剪画面的中心位置,裁剪的视角大小为25~90度,获得裁剪后的视频图像,将该裁剪后的视频图像作为输出的视频图像;
所述步骤三中,裁剪后的视频图像的大小由以下方式决定:
设步骤一中获得的大视野图像的总画面的视角为a,画面宽为D,裁剪的视角大小为x,根据比例关系,可得到裁剪后的视频图像宽度Wc为:
设视频讲话人像与镜头之间的距离为L,设m=10,n=60;
下面是计算x的具体计算步骤:
步骤(1)、输入L,如果L小于20cm,则设定L为20;
步骤(2)、通过如下两个公式计算x1和x2:
如果通过上述两个公式计算获得的x1和x2小于25度,则设x1为25度或30度,设x2为25度或30度;如果通过上述两个公式计算获得的x1和x2大于90度,则设则设x1和x2为90度;
步骤(3)、初始状态,x=0.5*(x2+x1);非初始状态,如果上一帧实际裁剪视角x∈(x2,x1),则保持不变,否则x设为
其中abs是求取绝对值的函数。
2.根据权利要求1所述的浸入式视频会议的实现方法,其特征在于:所述步骤一中,采用广角镜头来采集视频会议室内的大视野图像。
3.根据权利要求1所述的浸入式视频会议的实现方法,其特征在于:所述步骤一中,采用多个镜头分别同步采集视频图像,然后将多个镜头同步采集的视频图像进行拼接获得大视野图像。
4.根据权利要求2或3所述的浸入式视频会议的实现方法,其特征在于:所述步骤一中采集视频会议室内的大视野图像中所采用的镜头距离人脸/景物最小的距离为20cm。
5.根据权利要求1所述的浸入式视频会议的实现方法,其特征在于:在步骤三获得裁剪后的视频图像中,以人脸为中心,如果检测不到人脸,则以画面为中心,然后在视角g度范围内保留原有画面精度,在g度外逐渐过渡为高斯模糊,其中视角g的计算公式为:
6.根据权利要求1所述的浸入式视频会议的实现方法,其特征在于:在步骤三获得裁剪后的视频图像中,以人脸为中心,如果检测不到人脸,则以画面为中心,在视角25度范围内保留原有画面精度,在25度外逐渐过渡为高斯模糊。
7.根据权利要求1所述的浸入式视频会议的实现方法,其特征在于:如果步骤二中采用声源定位方法定位出会场中同时有多人讲话,则裁剪后的视频图像需要覆盖到多人讲话的空间范围内;如果裁剪的视角大小为扩大到90度仍无法满足覆盖,则分别将多个讲话人的视频图像裁剪出来,然后拼接成一个视频图像,最后将这个拼接的视频图像作为输出的视频图像。
CN201610534581.6A 2016-07-05 2016-07-05 一种浸入式视频会议的实现方法 Active CN106161985B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610534581.6A CN106161985B (zh) 2016-07-05 2016-07-05 一种浸入式视频会议的实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610534581.6A CN106161985B (zh) 2016-07-05 2016-07-05 一种浸入式视频会议的实现方法

Publications (2)

Publication Number Publication Date
CN106161985A CN106161985A (zh) 2016-11-23
CN106161985B true CN106161985B (zh) 2019-08-27

Family

ID=58062104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610534581.6A Active CN106161985B (zh) 2016-07-05 2016-07-05 一种浸入式视频会议的实现方法

Country Status (1)

Country Link
CN (1) CN106161985B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7043255B2 (ja) 2017-12-28 2022-03-29 キヤノン株式会社 電子機器及びその制御方法
JP2019121857A (ja) 2017-12-28 2019-07-22 キヤノン株式会社 電子機器及びその制御方法
CN110830708A (zh) * 2018-08-13 2020-02-21 深圳市冠旭电子股份有限公司 一种追踪摄像方法、装置及终端设备
JP7256491B2 (ja) * 2018-09-13 2023-04-12 凸版印刷株式会社 映像伝送システム、映像伝送装置、および、映像伝送プログラム
CN109819306B (zh) * 2018-12-29 2022-11-04 花瓣云科技有限公司 一种媒体文件裁剪的方法、电子设备和服务器
CN110536101A (zh) * 2019-09-29 2019-12-03 广州视源电子科技股份有限公司 电子云台、视频会议系统及方法
CN111918127B (zh) * 2020-07-02 2023-04-07 影石创新科技股份有限公司 一种视频剪辑方法、装置、计算机可读存储介质及相机
CN115529435B (zh) * 2022-11-29 2023-05-23 广州朗国电子科技股份有限公司 一种高清会议画面无线传输方法、系统、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350906A (zh) * 2008-09-04 2009-01-21 北京中星微电子有限公司 图像矫正方法和图像矫正装置
CN102170552A (zh) * 2010-02-25 2011-08-31 株式会社理光 一种视频会议系统及其中使用的处理方法
JP5031016B2 (ja) * 2009-12-07 2012-09-19 株式会社リコー 画像処理装置、画像処理方法およびプログラム
CN103828349A (zh) * 2011-06-07 2014-05-28 英特尔公司 对视频会议流的自动隐私调整

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350906A (zh) * 2008-09-04 2009-01-21 北京中星微电子有限公司 图像矫正方法和图像矫正装置
JP5031016B2 (ja) * 2009-12-07 2012-09-19 株式会社リコー 画像処理装置、画像処理方法およびプログラム
CN102170552A (zh) * 2010-02-25 2011-08-31 株式会社理光 一种视频会议系统及其中使用的处理方法
CN103828349A (zh) * 2011-06-07 2014-05-28 英特尔公司 对视频会议流的自动隐私调整

Also Published As

Publication number Publication date
CN106161985A (zh) 2016-11-23

Similar Documents

Publication Publication Date Title
CN106161985B (zh) 一种浸入式视频会议的实现方法
WO2017215295A1 (zh) 一种摄像机参数调整方法、导播摄像机及系统
US10122972B2 (en) System and method for localizing a talker using audio and video information
US9633270B1 (en) Using speaker clustering to switch between different camera views in a video conference system
US8471889B1 (en) Adjusting an image for video conference display
WO2017208820A1 (ja) 映像音響処理装置および方法、並びにプログラム
EP3130138B1 (en) Use of face and motion detection for best view framing in video conference endpoint
CN109413359B (zh) 摄像跟踪方法、装置及设备
CN111263106B (zh) 一种视频会议的画面追踪方法及装置
WO2016183791A1 (zh) 一种语音信号处理方法及装置
US11076127B1 (en) System and method for automatically framing conversations in a meeting or a video conference
CN111062234A (zh) 一种监控方法、智能终端及计算机可读存储介质
JP2013536610A (ja) 距離測定を含むシーン背景ぼかし
CN103595953A (zh) 一种控制视频拍摄的方法和装置
CN111046850B (zh) 一种基于声音与图像融合的发言者定位方法
CN104902263A (zh) 一种图像信息展现系统和方法
CN104125405A (zh) 基于眼球追踪和自动对焦系统的图像感兴趣区域提取方法
KR101508092B1 (ko) 화상 회의를 지원하는 방법 및 시스템
EP3101838A1 (en) Method and apparatus for isolating an active participant in a group of participants
CN104378635A (zh) 基于麦克风阵列辅助的视频感兴趣区域的编码方法
CN116016836A (zh) 会议视频处理方法及系统
US11775834B2 (en) Joint upper-body and face detection using multi-task cascaded convolutional networks
US20140327730A1 (en) Optimized video snapshot
WO2015198964A1 (ja) 音声入出力機能付き撮像装置およびテレビ会議システム
CN108718402B (zh) 视频会议管理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant