CN113497944A - 多视角三维直播方法、系统、装置、终端和存储介质 - Google Patents
多视角三维直播方法、系统、装置、终端和存储介质 Download PDFInfo
- Publication number
- CN113497944A CN113497944A CN202010197059.XA CN202010197059A CN113497944A CN 113497944 A CN113497944 A CN 113497944A CN 202010197059 A CN202010197059 A CN 202010197059A CN 113497944 A CN113497944 A CN 113497944A
- Authority
- CN
- China
- Prior art keywords
- dimensional
- view
- picture
- live broadcast
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012545 processing Methods 0.000 claims abstract description 35
- 238000004891 communication Methods 0.000 claims abstract description 17
- 230000000007 visual effect Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000005259 measurement Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 239000011521 glass Substances 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010230 functional analysis Methods 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- QVFWZNCVPCJQOP-UHFFFAOYSA-N chloralodol Chemical compound CC(O)(C)CC(C)OC(O)C(Cl)(Cl)Cl QVFWZNCVPCJQOP-UHFFFAOYSA-N 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/21805—Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/414—Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance
- H04N21/41407—Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance embedded in a portable device, e.g. video client on a mobile phone, PDA, laptop
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
Abstract
本申请提供多视角三维直播方法、系统、装置、终端和存储介质,上述系统包括:多个视频采集设备,用于采集RGBD视频信息;图像处理设备,与所述多个视频采集设备通信连接,用于获取所述RGBD视频信息,并对所述多个视频采集设备进行帧级别画面同步,对RGBD视频画面进行多画面的三维重建,并根据重建的三维场景进行多画面间的平滑拼接,以供进行多视角播放。本发明利用人工智能、计算机视觉以及音频卷积的方法手段,能够实现以手机作为输入端的多视角三维直播。本发明的技术方案仅需手机即可完成多视角、三维的直播画面采集,具有较好的实时性;支持通过VR设备或全息显示设备实现三维直播的观看;还支持直接通过手机观看平滑拼接后的多视角直播画面。
Description
技术领域
本申请涉及视觉处理技术领域,特别是涉及多视角三维直播方法、系统、装置、终端和存储介质。
背景技术
随着手机行业及移动通信技术的发展,注重互动以及内容丰富性的网络直播产业逐渐兴起,如何给用户提供更加稳定、实时的直播服务以及更丰富的交互体验成为了重要的话题。
由于难以实时解决多设备间的画面时间同步问题,现有的网络直播在形式上更多只是提供给用户二维、单个机位的画面,信息量十分有限。5G技术的发展使多视角甚至三维的直播成为可能,但往往需要专业、大型的拍摄设备相加持,难以与将手机作为视频输入端的直播行业相融。
申请内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供多视角三维直播方法、系统、装置、终端和存储介质,用于解决现有技术中的三维视频直播难以与将手机作为视频输入端的直播行业相融问题。
为实现上述目的及其他相关目的,本申请的第一方面提供一种多视角三维直播方法,包括:获取来自多个视频采集设备的RGBD视频信息;对所述多个视频采集设备进行帧级别画面同步;对RGBD视频画面进行多画面的三维重建;根据重建的三维场景进行多画面间的平滑拼接,以供进行多视角播放。
于本申请的第一方面的一些实施例中,所述对所述多个视频采集设备进行帧级别画面同步,包括:通过音频和理想高频特征声波的卷积匹配高频特征声波位置;计算精细时间差,并结合画面时间戳所反映的粗差对所述多个视频采集设备进行帧级别画面同步。
于本申请的第一方面的一些实施例中,所述对RGBD视频画面进行多画面的三维重建,包括:利用计算机视觉算法对每个视频采集设备的RGBD视频画面进行三维建图并生成对应的三维点云;利用三维点集配准算法每个视频采集设备所生成的同一时刻的点云还原为三维场景。
于本申请的第一方面的一些实施例中,所述三维点集配准算法包括:迭代最近点算法。
为实现上述目的及其他相关目的,本申请的第二方面提供一种多视角三维直播系统,包括:多个视频采集设备,用于采集RGBD视频信息;图像处理设备,与所述多个视频采集设备通信连接,用于获取所述RGBD视频信息,并对所述多个视频采集设备进行帧级别画面同步,对RGBD视频画面进行多画面的三维重建,并根据重建的三维场景进行多画面间的平滑拼接,以供进行多视角播放。
于本申请的第二方面的一些实施例中,所述系统还包括:智能视觉设备,与所述图像处理设备通信连接,用于接收多视角播放画面;其中,所述智能视觉设备包括AR设备和/或VR设备。
于本申请的第二方面的一些实施例中,所述图像处理设备包括服务器;所述视频采集设备包括带有深度传感器的智能终端。
为实现上述目的及其他相关目的,本申请的第三方面提供一种多视角三维直播装置,包括:通信模块,用于接收来自多个视频采集设备的RGBD视频信息;多视角直播模块,用于对所述多个视频采集设备进行帧级别画面同步,对RGBD视频画面进行多画面的三维重建,并根据重建的三维场景进行多画面间的平滑拼接,以供进行多视角播放。
为实现上述目的及其他相关目的,本申请的第三方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述多视角三维直播方法。
为实现上述目的及其他相关目的,本申请的第四方面提供一种电子终端,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行所述多视角三维直播方法。
如上所述,本申请的多视角三维直播方法、系统、装置、终端和存储介质,具有以下有益效果:本发明利用人工智能、计算机视觉以及音频卷积的方法手段,能够实现以手机作为输入端的多视角三维直播。因此与现有技术相比,本发明的技术方案仅需手机即可完成多视角、三维的直播画面采集,具有较好的实时性;支持通过VR设备(如HTC VIVE)或全息显示设备(如Looking Glass)实现三维直播的观看;还支持直接通过手机观看平滑拼接后的多视角直播画面。
附图说明
图1显示为本申请一实施例中多视角三维直播系统的结构示意图。
图2显示为本申请一实施例中多视角三维直播方法的流程示意图。
图3显示为本申请一实施例中多视角三维直播装置的结构示意图。
图4显示为本申请一实施例中电子终端的结构示意图。
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,在下述描述中,参考附图,附图描述了本申请的若干实施例。应当理解,还可使用其他实施例,并且可以在不背离本申请的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的,并且本申请的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例,而并非旨在限制本申请。空间相关的术语,例如“上”、“下”、“左”、“右”、“下面”、“下方”、“下部”、“上方”、“上部”等,可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。
在本申请中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”、“固持”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
为了使本发明的目的、技术方案及优点更加清楚明白,通过下述实施例并结合附图,对本发明实施例中的技术方案的进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定发明。
实施例一:
如图1所示,展示了本发明一实施例中的多视角三维直播系统的结构示意图。本实施例的多视角三维直播系统包括多个视频采集设备11和图像处理设备12,每个视频采集设备11都和图像处理设备12通信连接。
应理解的是,网络直播技术是指在现场架设独立的信号采集设备(包括音频和视频)导入导播端(是指导播设备或平台),再通过网络上传至服务器,发布到网址供人观看的一种新兴技术。
可选的,视频采集设备11可以选用带有深度传感器的智能终端;上述智能终端包括但不限于手机、pad电脑、智能手环、智能头盔或者笔记本电脑等设备,本实施例不作限定。
进一步的,本实施例涉及的深度传感器是指能够探测环境深度特征的传感器;上述深度传感器可选用双目红外传感器,双目方案是将两个摄像头固定在同一个模块上,形成一个稳定的模块结构,利用三角测距的算法来进行深度探测;上述深度传感器也可采用结构光传感器,也是基于三角测量,原理是投射一个已知的图案到被测量的物体上,然后通过摄像头来获得返回光照反射的图案,再跟已知的图案进行对比,已知这个摄像头和投影仪之间的固定距离,就能通过三角测量的方案对比出深度信息;上述深度传感器还可使用ToF传感器,利用光在空间中飞行的时间乘以光的速度,可以得到人和被测物之间的距离。应理解的是,以上深度传感器只用于说明而非限定,事实上任何现有的能够探测深度特征的传感器都能应用于本实施例的技术方案中。
可选的,图像处理设备12可以选用服务器,且该服务器可以根据功能、负载等多种因素布置在一个或多个实体服务器上,也可以由分布的或集中的服务器集群构成;上述图像处理设备12也可选用包括存储器、存储控制器、一个或多个处理单元(CPU)、外设接口、RF电路、音频电路、扬声器、麦克风、输入/输出(I/O)子系统、显示屏、其他输出或控制设备,以及外部端口等组件的计算机;所述计算机包括但不限于如台式电脑、笔记本电脑、平板电脑、智能手机、智能电视、个人数字助理(Personal Digital Assistant,简称PDA)等个人电脑。
可选的,各视频采集设备11和图像处理设备12之间进行无线通信连接,连接方式包括但不限于Wi-FI连接、蓝牙连接、ZigBee连接、LoRa连接、3G/4G/5G蜂窝移动连接等等,本实施例不作限定。
为便于本领域技术人员理解,下文的实施例中采用带有深度传感器的手机作为视频采集设备,并采用服务器作为图像处理设备,手机和服务器通过通信基站建立通信连接。手机作为拍摄设备,利用摄像头和深度传感器采集RGBD视频流,并传送给服务器;服务器在接收到这些RGBD视频流之后进行多视角三维直播,具体处理过程如下。
首先,服务器对这些手机设备进行帧级别画面同步,具体是指服务器将音频和理想高频特征声波做卷积运算处理,从而匹配出高频特征声波位置;其中,卷积是指在泛函分析中通过两个函数f和g生成第三个函数的一种数学算子,表征函数f和g经过翻转和平移的重叠部分函数值乘积对重叠长度的积分。在匹配出高频特征声波位置后,计算不同手机之间的精细时间差,并结合画面时间戳所反映的粗差对多个手机进行帧级别的画面同步。所谓粗差是指在相同观测条件下做的一系列的观察,主要由测量过程中某些意外事件或不确定的意外因素引起。
其次,服务器对RGBD视频画面进行多画面的三维重建,具体是指服务器利用计算机视觉算法对每个视频采集设备的RGBD视频画面进行三维建图并生成对应的三维点云,并利用三维点集配准算法将每个视频采集设备所生成的同一时刻的点云还原为三维场景。
可选的,服务器对RGBD视频画面进行三维建图并生成三维点云的方式例如:首先,求取每一帧深度图像的位姿;其次,将每一帧深度图像转换为点云;最后,将点云转换到世界坐标系下。进一步的,可使用ORB-SLAM2算法或者3D SLAM算法来获得深度图像的位姿,可通过投影模型计算点云坐标,实现将深度图像转换为点云,并通过三维刚体变换将点云转换到世界坐标系下。应理解的是,出于说明性目的而提供以上示例,但以上示例不应被理解成是限制性的。
可选的,所述三维点集配准算法包括但不限于点标记法、自旋图像法、主曲率法、遗传算法、随机采样一致性算法或者迭代最近点算法(ICP)等。其中,优选为迭代最近点算法(ICP),该算法基于纯粹几何模型的三维物体对准算法,具有强大功能以及极高的精准度,该算法主要用于计算机视觉中深度图像的精确拼合,通过不断迭代最小化源数据与目标数据对应点来实现精确地拼合。已经有很多变种,主要热点是怎样高效、鲁棒的获得较好地拼合效果。
最后,服务器根据重建的三维场景进行多画面间的平滑拼接,以供进行多视角播放,具体是指服务器利用计三维信息完成多画面之间的平滑拼接,供视觉终端进行多视角观看。
在本实施例可选的实现方式中,所述多视角三维直播系统还包括智能视觉设备13;所述智能视觉设备13和图像处理设备12通信连接,用于接收多视角播放画面。本实施例涉及的所述智能视觉设备13,可采用AR/VR设备、全息设备或者直接采用手机也可以观看平滑的多机位三维直播。
由上述内容可知,本发明实施例利用人工智能、计算机视觉以及音频卷积的方法手段,能够实现以手机作为输入端的多视角三维直播。因此与现有技术相比,本发明的技术方案仅需手机即可完成多视角、三维的直播画面采集,具有较好的实时性;支持通过VR设备(如HTC VIVE)或全息显示设备(如Looking Glass)实现三维直播的观看;还支持直接通过手机观看平滑拼接后的多视角直播画面。
实施例二:
如图2所示,展示了本发明一实施例中的多视角三维直播方法的流程示意图。应理解的是,本实施例的多视角三维直播方法应用于上述多视角三维直播系统中的图像处理设备,本实施例涉及的多视角三维直播方法具体包括如下各步骤。
步骤S21:获取来自多个视频采集设备的RGBD视频信息。
本实施例涉及的视频采集设备可以选用带有深度传感器的智能终端;上述智能终端包括但不限于手机、pad电脑、智能手环、智能头盔或者笔记本电脑等设备。进一步的,上述深度传感器是指能够探测环境深度特征的传感器;上述深度传感器可选用双目红外传感器,双目方案是将两个摄像头固定在同一个模块上,形成一个稳定的模块结构,利用三角测距的算法来进行深度探测;上述深度传感器也可采用结构光传感器,也是基于三角测量,原理是投射一个已知的图案到被测量的物体上,然后通过摄像头来获得返回光照反射的图案,再跟已知的图案进行对比,已知这个摄像头和投影仪之间的固定距离,就能通过三角测量的方案对比出深度信息;上述深度传感器还可使用ToF传感器,利用光在空间中飞行的时间乘以光的速度,可以得到人和被测物之间的距离。应理解的是,以上深度传感器只用于说明而非限定,事实上任何现有的能够探测深度特征的传感器都能应用于本实施例的技术方案中。
步骤S22:对所述多个视频采集设备进行帧级别画面同步。
具体包括,通过音频和理想高频特征声波的卷积匹配高频特征声波位置;计算精细时间差,并结合画面时间戳所反映的粗差对所述多个视频采集设备进行帧级别画面同步。其中,卷积是指在泛函分析中通过两个函数f和g生成第三个函数的一种数学算子,表征函数f和g经过翻转和平移的重叠部分函数值乘积对重叠长度的积分。在匹配出高频特征声波位置后,计算不同手机之间的精细时间差,并结合画面时间戳所反映的粗差对多个手机进行帧级别的画面同步。本实施例涉及的精细时间差是指视频推流过程中不同设备的视频流上的时间戳之间的相对时间差;所谓粗差是指在相同观测条件下做的一系列的观察,主要由测量过程中某些意外事件或不确定的意外因素引起。
步骤S23:对RGBD视频画面进行多画面的三维重建。
具体包括,利用计算机视觉算法对每个视频采集设备的RGBD视频画面进行三维建图并生成对应的三维点云;利用三维点集配准算法每个视频采集设备所生成的同一时刻的点云还原为三维场景。
可选的,三维点云的产生方式例如是:首先,求取每一帧深度图像的位姿;其次,将每一帧深度图像转换为点云;最后,将点云转换到世界坐标系下。进一步的,可使用ORB-SLAM2算法或者3D SLAM算法来获得深度图像的位姿,可通过投影模型计算点云坐标,实现将深度图像转换为点云,并通过三维刚体变换将点云转换到世界坐标系下。应理解的是,出于说明性目的而提供以上示例,但以上示例不应被理解成是限制性的。
可选的,所述三维点集配准算法包括但不限于点标记法、自旋图像法、主曲率法、遗传算法、随机采样一致性算法或者迭代最近点算法(ICP)等。其中,优选为迭代最近点算法(ICP),该算法基于纯粹几何模型的三维物体对准算法,具有强大功能以及极高的精准度,该算法主要用于计算机视觉中深度图像的精确拼合,通过不断迭代最小化源数据与目标数据对应点来实现精确地拼合。已经有很多变种,主要热点是怎样高效、鲁棒的获得较好地拼合效果
步骤S24:根据重建的三维场景进行多画面间的平滑拼接,以供进行多视角播放。
具体包括,利用计三维信息完成多画面之间的平滑拼接,供视觉终端进行多视角观看。上述视觉终端例如是AR/VR设备、全息设备或者直接采用手机等设备,本实施例不作限定。
实施例三:
如图3所示,展示了本发明一实施例中的多视角三维直播装置的结构示意图。本实施例涉及的多视角三维直播装置包括通信模块31和多视角直播模块32。
通信模块31用于接收来自多个视频采集设备的RGBD视频信息;多视角直播模块32用于对所述多个视频采集设备进行帧级别画面同步,对RGBD视频画面进行多画面的三维重建,并根据重建的三维场景进行多画面间的平滑拼接,以供进行多视角播放。
需说明的是,本实施例提供的多视角三维直播装置的实施方式,与上文实施例提供的多视角三维直播方法或多视角三维直播系统的实施方式类似,因此不再赘述。另外应理解的是,以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,多视角直播模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上多视角直播模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital signal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
实施例四:
如图4所示,展示了本发明一实施例中的电子终端的结构示意图。本实施例提供的电子终端包括:处理器41、存储器42、通信器43;存储器42通过系统总线与处理器41和通信器43连接并完成相互间的通信,存储器42用于存储计算机程序,通信器43用于和其他设备进行通信,处理器41用于运行计算机程序,使电子终端执行如上多视角三维直播方法的各个步骤。
上述提到的系统总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
实施例五:
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述多视角三维直播方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
综上所述,本申请提供多视角三维直播方法、系统、装置、终端和存储介质,本发明利用人工智能、计算机视觉以及音频卷积的方法手段,能够实现以手机作为输入端的多视角三维直播。因此与现有技术相比,本发明的技术方案仅需手机即可完成多视角、三维的直播画面采集,具有较好的实时性;支持通过VR设备(如HTC VIVE)或全息显示设备(如Looking Glass)实现三维直播的观看;还支持直接通过手机观看平滑拼接后的多视角直播画面。所以,本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。
Claims (10)
1.一种多视角三维直播方法,其特征在于,包括:
获取来自多个视频采集设备的RGBD视频信息;
对所述多个视频采集设备进行帧级别画面同步;
对RGBD视频画面进行多画面的三维重建;
根据重建的三维场景进行多画面间的平滑拼接,以供进行多视角播放。
2.根据权利要求1所述的多视角三维直播方法,其特征在于,所述对所述多个视频采集设备进行帧级别画面同步,包括:
通过音频和理想高频特征声波的卷积匹配高频特征声波位置;
计算精细时间差,并结合画面时间戳所反映的粗差对所述多个视频采集设备进行帧级别画面同步。
3.根据权利要求1所述的多视角三维直播方法,其特征在于,所述对RGBD视频画面进行多画面的三维重建,包括:
利用计算机视觉算法对每个视频采集设备的RGBD视频画面进行三维建图并生成对应的三维点云;
利用三维点集配准算法每个视频采集设备所生成的同一时刻的点云还原为三维场景。
4.根据权利要求3所述的多视角三维直播方法,其特征在于,所述三维点集配准算法包括:迭代最近点算法。
5.一种多视角三维直播系统,其特征在于,包括:
多个视频采集设备,用于采集RGBD视频信息;
图像处理设备,与所述多个视频采集设备通信连接,用于获取所述RGBD视频信息,并对所述多个视频采集设备进行帧级别画面同步,对RGBD视频画面进行多画面的三维重建,并根据重建的三维场景进行多画面间的平滑拼接,以供进行多视角播放。
6.根据权利要求5所述的多视角三维直播系统,其特征在于,所述系统还包括:
智能视觉设备,与所述图像处理设备通信连接,用于接收多视角播放画面;其中,所述智能视觉设备包括AR设备和/或VR设备。
7.根据权利要求5所述的多视角三维直播系统,其特征在于,所述图像处理设备包括服务器;所述视频采集设备包括带有深度传感器的智能终端。
8.一种多视角三维直播装置,其特征在于,包括:
通信模块,用于接收来自多个视频采集设备的RGBD视频信息;
多视角直播模块,用于对所述多个视频采集设备进行帧级别画面同步,对RGBD视频画面进行多画面的三维重建,并根据重建的三维场景进行多画面间的平滑拼接,以供进行多视角播放。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的多视角三维直播方法。
10.一种电子终端,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行如权利要求1至4中任一项所述的多视角三维直播方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010197059.XA CN113497944A (zh) | 2020-03-19 | 2020-03-19 | 多视角三维直播方法、系统、装置、终端和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010197059.XA CN113497944A (zh) | 2020-03-19 | 2020-03-19 | 多视角三维直播方法、系统、装置、终端和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113497944A true CN113497944A (zh) | 2021-10-12 |
Family
ID=77993455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010197059.XA Pending CN113497944A (zh) | 2020-03-19 | 2020-03-19 | 多视角三维直播方法、系统、装置、终端和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113497944A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2835974A1 (en) * | 2013-08-05 | 2015-02-11 | TP Vision Holding B.V. | Multi-view 3D display system and method |
CN204539301U (zh) * | 2015-04-23 | 2015-08-05 | 国家体育总局体育科学研究所 | 一种无线音频同步系统 |
CN105791881A (zh) * | 2016-03-15 | 2016-07-20 | 深圳市望尘科技有限公司 | 一种基于光场摄像机的三维场景录播的实现方法 |
CN105979148A (zh) * | 2016-06-23 | 2016-09-28 | 努比亚技术有限公司 | 全景拍照设备、系统及方法 |
CN106210754A (zh) * | 2016-07-07 | 2016-12-07 | 腾讯科技(深圳)有限公司 | 一种控制视频直播的方法、相关设备及系统 |
CN106603926A (zh) * | 2017-01-05 | 2017-04-26 | 上海网达软件股份有限公司 | 通过多个移动终端实现360度摄影或录像的系统及方法 |
CN107395989A (zh) * | 2017-08-31 | 2017-11-24 | 广东欧珀移动通信有限公司 | 图像拼接方法、用于图像拼接的移动终端和系统 |
CN108337915A (zh) * | 2017-12-29 | 2018-07-27 | 深圳前海达闼云端智能科技有限公司 | 三维建图方法、装置、系统、云端平台、电子设备和计算机程序产品 |
CN110288712A (zh) * | 2019-03-30 | 2019-09-27 | 天津大学 | 室内场景的稀疏多视角三维重建方法 |
-
2020
- 2020-03-19 CN CN202010197059.XA patent/CN113497944A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2835974A1 (en) * | 2013-08-05 | 2015-02-11 | TP Vision Holding B.V. | Multi-view 3D display system and method |
CN204539301U (zh) * | 2015-04-23 | 2015-08-05 | 国家体育总局体育科学研究所 | 一种无线音频同步系统 |
CN105791881A (zh) * | 2016-03-15 | 2016-07-20 | 深圳市望尘科技有限公司 | 一种基于光场摄像机的三维场景录播的实现方法 |
CN105979148A (zh) * | 2016-06-23 | 2016-09-28 | 努比亚技术有限公司 | 全景拍照设备、系统及方法 |
CN106210754A (zh) * | 2016-07-07 | 2016-12-07 | 腾讯科技(深圳)有限公司 | 一种控制视频直播的方法、相关设备及系统 |
CN106603926A (zh) * | 2017-01-05 | 2017-04-26 | 上海网达软件股份有限公司 | 通过多个移动终端实现360度摄影或录像的系统及方法 |
CN107395989A (zh) * | 2017-08-31 | 2017-11-24 | 广东欧珀移动通信有限公司 | 图像拼接方法、用于图像拼接的移动终端和系统 |
CN108337915A (zh) * | 2017-12-29 | 2018-07-27 | 深圳前海达闼云端智能科技有限公司 | 三维建图方法、装置、系统、云端平台、电子设备和计算机程序产品 |
CN110288712A (zh) * | 2019-03-30 | 2019-09-27 | 天津大学 | 室内场景的稀疏多视角三维重建方法 |
Non-Patent Citations (1)
Title |
---|
郑志勇,王洪武: "金融数量分析 基于MATLAB编程", vol. 4, 北京航空航天大学出版社, pages: 18 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11354840B2 (en) | Three dimensional acquisition and rendering | |
US11270460B2 (en) | Method and apparatus for determining pose of image capturing device, and storage medium | |
CN107925753B (zh) | 利用动态相机进行3d图像捕捉的方法和系统 | |
US10547822B2 (en) | Image processing apparatus and method to generate high-definition viewpoint interpolation image | |
JP2024056955A (ja) | 光学式捕捉によるパーソナライズされたhrtf | |
JP7227969B2 (ja) | 三次元再構成方法および三次元再構成装置 | |
US20240046557A1 (en) | Method, device, and non-transitory computer-readable storage medium for reconstructing a three-dimensional model | |
TW201520973A (zh) | 三維立體模型之建立方法和裝置 | |
CN112270736B (zh) | 增强现实处理方法及装置、存储介质和电子设备 | |
CN110544273B (zh) | 运动捕捉方法、装置以及系统 | |
Reimat et al. | Cwipc-sxr: Point cloud dynamic human dataset for social xr | |
CN110099220A (zh) | 一种全景拼接方法及装置 | |
CN114640833A (zh) | 投影画面调整方法、装置、电子设备和存储介质 | |
CN114782647A (zh) | 一种模型重建方法、装置、设备及存储介质 | |
WO2016184285A1 (zh) | 物品图像处理方法、装置和系统 | |
CN114140536A (zh) | 位姿数据处理方法、装置、电子设备及存储介质 | |
CN116109684B (zh) | 面向变电场站在线视频监测二三维数据映射方法及装置 | |
CN115131507B (zh) | 图像处理方法、图像处理设备和元宇宙三维重建方法 | |
CN109166176B (zh) | 三维人脸图像的生成方法与装置 | |
CN113497944A (zh) | 多视角三维直播方法、系统、装置、终端和存储介质 | |
CN113706692B (zh) | 三维图像重构方法、装置、电子设备以及存储介质 | |
CN115002345A (zh) | 一种图像校正方法、装置、电子设备及存储介质 | |
CN114900743A (zh) | 基于视频推流的场景渲染过渡方法以及系统 | |
CN115344113A (zh) | 多视角人体运动捕捉方法、装置、系统、介质及终端 | |
WO2024016828A2 (zh) | 一种基于虚拟相机的图像采集方法和相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211012 |