CN115174959A - 视频3d音效设置方法及装置 - Google Patents

视频3d音效设置方法及装置 Download PDF

Info

Publication number
CN115174959A
CN115174959A CN202210702717.5A CN202210702717A CN115174959A CN 115174959 A CN115174959 A CN 115174959A CN 202210702717 A CN202210702717 A CN 202210702717A CN 115174959 A CN115174959 A CN 115174959A
Authority
CN
China
Prior art keywords
video
audio
sound
source object
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210702717.5A
Other languages
English (en)
Other versions
CN115174959B (zh
Inventor
李立锋
谢韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
MIGU Culture Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
MIGU Culture Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, MIGU Culture Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202210702717.5A priority Critical patent/CN115174959B/zh
Publication of CN115174959A publication Critical patent/CN115174959A/zh
Application granted granted Critical
Publication of CN115174959B publication Critical patent/CN115174959B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23424Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for inserting or substituting an advertisement
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Stereophonic System (AREA)

Abstract

本发明公开了一种视频3D音效设置方法及装置,方法包括:对源视频进行音视频分离处理,得到分离后的音频和视频;将音频进行音轨分离,得到至少一个音轨;识别确定视频中发声的声源对象,将至少一个音轨与声源对象进行匹配;根据声源对象在视频帧中的深度信息和/或位置信息,对匹配的音轨进行3D化修正处理;将修正处理后的音频与视频进行合成处理,得到3D音效视频。本发明通过分离源视频得到音频,根据视频中声源对象的深度信息和/或位置信息对音频进行3D化修正处理,可以实现对各个视频模拟还原3D音效的效果。

Description

视频3D音效设置方法及装置
技术领域
本发明实施例涉及视频音效处理技术领域,具体涉及一种视频3D音效设置方法及装置。
背景技术
3D音频可以呈现给用户立体逼真的声效,提升用户在观看视频时的沉浸感。
现有技术在录制音频时,将声音的声源位置信息,存储至音频介质中。解码时,通过声源位置信息进行声音调节,呈现3D音频效果。但大部分视频中的音频并没有提供声源位置信息,无法直接呈现3D音频效果。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的视频3D音效设置方法及装置。
根据本发明实施例的一个方面,提供了一种视频3D音效设置方法,其包括:
对源视频进行音视频分离处理,得到分离后的音频和视频;
将音频进行音轨分离,得到至少一个音轨;
识别确定视频中发声的声源对象,将至少一个音轨与声源对象进行匹配;
根据声源对象在视频帧中的深度信息和/或位置信息,对匹配的音轨进行3D化修正处理;
将修正处理后的音频与视频进行合成处理,得到3D音效视频。
根据本发明实施例的另一方面,提供了一种视频3D音效设置装置,其包括:
音视频分离模块,适于对源视频进行音视频分离处理,得到分离后的音频和视频;
音轨分离模块,适于将音频进行音轨分离,得到至少一个音轨;
匹配模块,适于识别确定视频中发声的声源对象,将至少一个音轨与声源对象进行匹配;
修正模块,适于根据声源对象在视频帧中的深度信息和/或位置信息,对匹配的音轨进行3D化修正处理;
合成模块,适于将修正处理后的音频与视频进行合成处理,得到3D音效视频。
根据本发明实施例的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述视频3D音效设置方法对应的操作。
根据本发明实施例的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述视频3D音效设置方法对应的操作。
根据本发明实施例的提供的视频3D音效设置方法及装置,通过分离源视频得到音频,根据视频中声源对象的深度信息和/或位置信息对音频进行3D化修正处理,可以实现对各个视频模拟还原3D音效的效果。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明实施例的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的视频3D音效设置方法的流程图;
图2示出了视频帧中对象识别的示意图;
图3示出了视频帧中对象的深度信息的示意图;
图4示出了根据声源对象位置信息进行左右声道音量修正的示意图;
图5示出了三维重建环境下根据声源对象位置信息进行左右声道音量修正的示意图;
图6示出了根据本发明一个实施例的视频3D音效设置装置的结构示意图;
图7示出了根据本发明一个实施例的一种计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的视频3D音效设置方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,对源视频进行音视频分离处理,得到分离后的音频和视频。
本实施例的3D音效通过对源视频中的音频进行处理得到。具体的,先将源视频进行音视频分离处理,得到分离后的音频以及单独的视频。分离处理可以利用如ffmpeg指令,如ffmpeg-i源视频.mkv-vn-acodec copy音频.ac3,得到分离后的音频和视频。
步骤S102,将音频进行音轨分离,得到至少一个音轨。
音轨分离可以通过将音频输入至预先训练得到的音轨分离模型中,分离得到至少一个音轨以及音轨声音类型。音轨分离模型可以采用如深度学习技术,将混合的声音分解为不同的音轨。音轨分离模型如tensorflow、spleeter等模型,基于各种声音分离数据集进行训练,最终输出分离后的各个音轨,以及各个音轨对应的音轨声音类型。音轨声音类型包括如物体发出的声音,汽车声、乐器声、开关声、水流声等,还包括如人物发出的声音、动物发出的声音等各种声音类型。
步骤S103,识别确定视频中发声的声源对象,将至少一个音轨与声源对象进行匹配。
考虑到视频中当镜头切换时,不同镜头单位中对象的位置、类型、深度等信息都会发生较大变化,因此在识别确定对象之前,先对视频进行镜头分割,得到镜头切换产生的多个镜头单位。具体的,计算视频中相邻视频帧的相似度,判断相似度是否小于相似度阈值;若是,确定视频中发生镜头切换,基于相邻视频帧进行镜头分割,得到镜头切换产生的多个镜头单位。针对任一镜头单元,进一步利用图像识别算法等识别镜头单元中出现的对象,如图2所示,识别出视频帧中的窗帘、灯、桌子等对象。
根据音轨声音类型,从识别的视频帧中的对象确定对应的声源对象。如音轨声音类型为灯开关声音,可以对应的确定声源对象为灯,如音轨声音类型为汽车声音,可以对应的确定声源对象为汽车,从而可以将音轨声音类型对应的音轨与声源对象进行匹配。
进一步,若音轨声音类型为人物,且声源对象中人物为多个时,若音轨为单人音轨,即多个人每次仅为一人说话时,可以利用声纹识别分析确定当前人声音轨,识别视频中声源对象中各个人物的唇部动作,确定当前发出声音的人物。将当前的人声音轨与发出声音的人物进行匹配。若音轨为多人音轨,即多个人同时说话时,可以先利用如定向人声分离技术将混音的人声音轨进行分离,得到多个独立的人声音轨。定向人声分离技术如VoiceFilter网络将混音的人声音轨进行分离。在分离之后,可以再结合如人物的唇语信息,将各个独立的人声音轨与视频中识别的各个人物进行匹配。人物的唇语信息可以通过唇语识别模型等获取,唇语信息可以确定视频中哪个人物说话的信息,通过与人声音轨进行比对,实现人声音轨与人物的匹配。
步骤S104,根据声源对象在视频帧中的深度信息和/或位置信息,对匹配的音轨进行3D化修正处理。
声源对象的深度信息为声源对象在视频帧中的相对深度信息,可以利用如GeoNet等深度估算网络,获取到视频帧中对象的相对深度信息,如图3的对象深度图所示,图2中包括窗帘、灯、桌子等不同对象,窗帘、灯、桌子等不同对象,分别对应图3中不同区域的色块,根据色块确定各个对象的深度信息。声源对象的位置信息可以在识别对象时一并获取,获取的是声源对象在视频帧中的位置信息,如声源对象在视频帧中的坐标信息,位于视频帧的左侧、右侧等。
音轨的声音大多无法直接呈现3D音效,一般多为后期配音,因此,还需要对音轨的声音进行3D化修正处理,以达到3D音效。对象在视频中深度信息发生变化时,其匹配的音轨的音量会随着深度信息的变化而变化,如人物距离镜头近(深度信息较小),说话音量较大声,人物距离镜头远(深度信息较大),说话音量较小声。对象在视频帧中的位置信息也影响了左右声道的不同音量,需要根据对象的位置信息进行修正处理,以呈现3D音效。
具体的,根据声音衰减公式:
Figure BDA0003704952980000051
其中,Lp为不计空气对声音的吸收时,声源移动距离增加后的声压级;Lw为不计空气对声音的吸收时,声源移动前的声压功级;Q为声源在室内指向因子;r为声源距离;R为房间常数。本实施例中不考虑环境因素影响,以自由声场处理。自由声场下,R=∞,Q=1。点声源在自由声场中,声波遵循球面发散规律,声压级基于声音衰减公式进行简化处理,得到以下公式:
Lp=LW-20lgr-11
本实施例中以音频首帧音量作为基准音量L1,以音频首帧对应的声源对象的深度信息作为基准深度信息r1。根据简化后的公式可知,声源对象在视频帧中的实时的深度信息r2,根据深度信息的变化,其对应的音量L2应按照如下公式计算:
L2=L1-20lg(r2/r1)
先计算声源对象在视频帧中的实时的深度信息r2与基准深度信息r1的比值r2/r1,根据比值r2/r1,按照匹配的音轨的基准音量L1,计算得到实时的深度信息r2所对应的音量L2
若声源对象为汽车、火车等可以发出线性声源的声源对象时,可以利用如下公式计算:
L2=L1-10lg(r2/r1)
在计算得到L2后,对匹配的音轨实时音量L2’需要进行修正处理,如当L2’的音量大小等于L2时,不对L2’进行音量修正。当L2’大于L2时,则减少该声源的当前音量至L2。当L2’小于L2时,则增大该声源当前音量至L2等。
根据深度信息修正音量是对左右声道同时进行音量的调整,除此之外,为进一步提升用户的听觉感受,本实施例还根据声源对象在视频帧中的实时的位置信息以及预设声音接收点位置信息,对左右声道的音量进行修正处理。如声源对象位于视频帧左侧,则左声道的音量应大于右声道的音量。
具体的,预设声音接收点可以设置为视频帧的中心,如图4所示,预设声音接收点为视频帧的正中心o,视频帧左侧的吉他为声源对象,对应发声位置为a1处,预设声音接收点o到声源对象吉他a1的直线距离记为oa1,声源对象吉他a1与预设声音接收点o的垂直交叉点为b1,预设声音接收点o到b1的距离记为ob1。ob1与oa1的比值为位置比值信息ob1/oa1。根据位置比值信息,对声源对象匹配的音轨实时的左右声道音量进行增减修正处理,如将当前声源对象吉他匹配的音轨的音量设置为L,当声源对象在视频帧左侧时,则对应的降低与声源对象相反侧的声道音量,即降低声源对象匹配音轨的右声道音量。左右声道的音量修正处理可以根据位置比值信息进行调整,以吉他匹配音轨的右声道为例,L=L-L*(ob1/oa1)*2。若声源对象在视频帧的右侧,则对应的修正声源对象对应音轨的左声道音量,如视频帧右侧小女孩说话,声源对象为小女孩唇部a2,声源对象小女孩唇部a2,声源对象小女孩唇部a2与预设声音接收点o的垂直交叉点为b2,根据预设声音接收点o到声源对象小女孩唇部a2的直线距离和预设声音接收点o到垂直交叉点为b2距离,可以对应的修正小女孩匹配音轨的右声道音量,此处不再赘述。以上以预设声音接收点为视频帧的正中心为例进行说明,预设声音接收点也可以设置为如视频帧的正下发中心点,此处不做限定。
或者,对视频进行三维环境重建,如将视频输入VidLoc模型或者LSM学习立体视觉机等,完成视频的三维环境重建,如图5所示。三维重建后,镜头作为预设声音接收点。以声源对象为小女孩为例,a2点对应小女孩的唇部位置信息在三维重建俯视图中的位置,b2点为镜头平行移动至声源对象小女孩唇部与视频帧的中心轴的交点。o点到a2距离为oa2,即三维环境重建后镜头到声源对象小女孩唇部的距离,o点到b2距离为ob2。根据ob2和oa2,计算得到位置比值信息oa2/ob2。根据位置比值信息,对声源对象匹配的音轨实时的左右声道音量进行增减修正处理。以图5中声源对象小女孩为例,当前小女孩匹配的音轨的音量为L,小女孩位于视频帧右侧,右声道音量为L,左声道音量为L=L-2*lg(oa2/ob2)。同理,如图5中视频帧左侧声源对象吉他,也可以按照三维环境重建的方式,来对应的调整匹配音轨的右声道的音量,此处不再赘述。
进一步,在拍摄视频时,若采用TOF镜头、激光传感器等距离测量传感器时,可以基于三维环境重建,在拍摄时获取声源对象的三维坐标。将声源对象的三维坐标与音频同时封装,解码时可以实现3D音效的播放效果。
以上两种对声源对象左右声道的修正处理方式可以根据实施情况任选其一进行修正处理,此处不做限定。
本实施例中以首帧音量作为基准音量按照深度信息进行音量调整时,是对左右声道的音量同时修正。再以修正后左右声道音量,按照位置信息进行修正,最终得到修正处理后的音频,既能体现对象移动随着深度信息的变化导致音量变化,又能体现出对象位于视频帧中不同位置发声时,左右声道音量不同,从而达到3D音效的效果。
步骤S105,将修正处理后的音频与视频进行合成处理,得到3D音效视频。
修正处理后的音频已经调整了各个时段音量大小以及左右声道的音量,将修正处理后的音频与视频进行合成处理,保障得到的视频为可以呈现出3D音效效果的视频。
根据本发明实施例提供的视频3D音效设置方法,通过分离源视频得到音频,根据视频中声源对象的深度信息和/或位置信息对音频进行3D化修正处理,可以实现对各个视频模拟还原3D音效的效果。
图6示出了本发明实施例提供的视频3D音效设置装置的结构示意图。如图6所示,视频3D音效设置装置包括:
音视频分离模块610,适于对源视频进行音视频分离处理,得到分离后的音频和视频;
音轨分离模块620,适于将音频进行音轨分离,得到至少一个音轨;
匹配模块630,适于识别确定视频中发声的声源对象,将至少一个音轨与声源对象进行匹配;
修正模块640,适于根据声源对象在视频帧中的深度信息和/或位置信息,对匹配的音轨进行3D化修正处理;
合成模块650,适于将修正处理后的音频与视频进行合成处理,得到3D音效视频。
可选地,音轨分离模块620进一步适于:
将音频输入至预先训练得到的音轨分离模型中,分离得到至少一个音轨以及音轨声音类型。
可选地,匹配模块630进一步适于:
识别各个视频帧中的对象,根据音轨声音类型确定对应的声源对象;
将音轨声音类型对应的音轨与声源对象进行匹配。
可选地,音轨声音类型为人物,且声源对象中人物为多个时;匹配模块630进一步适于:若音轨为单人音轨,利用声纹识别分析确定当前人声音轨;识别声源对象中各个人物的唇部动作,确定当前发出声音的人物;将当前的人声音轨与发出声音的人物进行匹配;
若音轨为多人音轨,将混音的人声音轨进行分离,得到多个独立的人声音轨;根据视频中识别的各个人物的唇语信息,将各个独立的人声音轨与视频中识别的各个人物进行匹配。
可选地,修正模块640进一步适于:
计算声源对象在视频帧中的实时的深度信息与基准深度信息的比值;其中,以音频首帧对应的声源对象的深度信息作为基准深度信息;
根据比值,按照匹配的音轨的基准音量,对声源对象匹配的音轨实时音量进行增减修正处理,得到修正处理后的音频;其中,以音频首帧音量作为基准音量。
可选地,修正模块640进一步适于:
根据声源对象在视频帧中的实时的位置信息以及预设声音接收点位置信息,计算得到位置比值信息;
根据位置比值信息,对声源对象匹配的音轨实时的左右声道音量进行增减修正处理,得到修正处理后的音频。
可选地,匹配模块630进一步适于:
对视频进行镜头分割,得到镜头切换产生的多个镜头单位;
针对任一镜头单元,识别镜头单元中发声的声源对象。
以上各模块的描述参照方法实施例中对应的描述,在此不再赘述。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有至少一可执行指令,可执行指令可执行上述任意方法实施例中的视频3D音效设置方法。
图7示出了根据本发明实施例的一种计算设备的结构示意图,本发明实施例的具体实施例并不对计算设备的具体实现做限定。
如图7所示,该计算设备可以包括:处理器(processor)702、通信接口(Communications Interface)704、存储器(memory)706、以及通信总线708。
其特征在于:
处理器702、通信接口704、以及存储器706通过通信总线708完成相互间的通信。
通信接口704,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器702,用于执行程序710,具体可以执行上述视频3D音效设置方法实施例中的相关步骤。
具体地,程序710可以包括程序代码,该程序代码包括计算机操作指令。
处理器702可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器706,用于存放程序710。存储器706可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序710具体可以用于使得处理器702执行上述任意方法实施例中的视频3D音效设置方法。程序710中各步骤的具体实现可以参见上述视频3D音效设置实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明实施例的内容,并且上面对特定语言所做的描述是为了披露本发明实施例的较佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明实施例并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其特征在于每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明实施例进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

Claims (10)

1.一种视频3D音效设置方法,其特征在于,其包括:
对源视频进行音视频分离处理,得到分离后的音频和视频;
将所述音频进行音轨分离,得到至少一个音轨;
识别确定所述视频中发声的声源对象,将所述至少一个音轨与所述声源对象进行匹配;
根据所述声源对象在视频帧中的深度信息和/或位置信息,对匹配的音轨进行3D化修正处理;
将修正处理后的音频与视频进行合成处理,得到3D音效视频。
2.根据权利要求1所述的方法,其特征在于,所述将所述音频进行音轨分离,得到至少一个音轨进一步包括:
将所述音频输入至预先训练得到的音轨分离模型中,分离得到至少一个音轨以及音轨声音类型。
3.根据权利要求2所述的方法,其特征在于,所述识别确定所述视频中发声的声源对象,将所述至少一个音轨与所述声源对象进行匹配进一步包括:
识别各个视频帧中的对象,根据音轨声音类型确定对应的声源对象;
将音轨声音类型对应的音轨与所述声源对象进行匹配。
4.根据权利要求3所述的方法,其特征在于,所述音轨声音类型为人物,且声源对象中人物为多个时;所述识别确定所述视频中发声的声源对象,将所述至少一个音轨与所述声源对象进行匹配进一步包括:
若音轨为单人音轨,利用声纹识别分析确定当前人声音轨;识别声源对象中各个人物的唇部动作,确定当前发出声音的人物;将当前的人声音轨与发出声音的人物进行匹配;
若音轨为多人音轨,将混音的人声音轨进行分离,得到多个独立的人声音轨;根据视频中识别的各个人物的唇语信息,将各个独立的人声音轨与视频中识别的各个人物进行匹配。
5.根据权利要求1所述的方法,其特征在于,所述根据所述声源对象在视频帧中的深度信息和/或位置信息,对匹配的音轨进行3D化修正处理进一步包括:
计算所述声源对象在视频帧中的实时的深度信息与基准深度信息的比值;其中,以所述音频首帧对应的声源对象的深度信息作为基准深度信息;
根据所述比值,按照匹配的音轨的基准音量,对声源对象匹配的音轨实时音量进行增减修正处理,得到修正处理后的音频;其中,以所述音频首帧音量作为基准音量。
6.根据权利要求1所述的方法,其特征在于,所述根据所述声源对象在视频帧中的深度信息和/或位置信息,对匹配的音轨进行3D化修正处理进一步包括:
根据所述声源对象在视频帧中的实时的位置信息以及预设声音接收点位置信息,计算得到位置比值信息;
根据所述位置比值信息,对声源对象匹配的音轨实时的左右声道音量进行增减修正处理,得到修正处理后的音频。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述识别确定所述视频中发声的声源对象进一步包括:
对所述视频进行镜头分割,得到镜头切换产生的多个镜头单位;
针对任一镜头单元,识别所述镜头单元中发声的声源对象。
8.一种视频3D音效设置装置,其特征在于,所述装置包括:
音视频分离模块,适于对源视频进行音视频分离处理,得到分离后的音频和视频;
音轨分离模块,适于将所述音频进行音轨分离,得到至少一个音轨;
匹配模块,适于识别确定所述视频中发声的声源对象,将所述至少一个音轨与所述声源对象进行匹配;
修正模块,适于根据所述声源对象在视频帧中的深度信息和/或位置信息,对匹配的音轨进行3D化修正处理;
合成模块,适于将修正处理后的音频与视频进行合成处理,得到3D音效视频。
9.一种计算设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的视频3D音效设置方法对应的操作。
10.一种计算机存储介质,其特征在于,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-7中任一项所述的视频3D音效设置方法对应的操作。
CN202210702717.5A 2022-06-21 2022-06-21 视频3d音效设置方法及装置 Active CN115174959B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210702717.5A CN115174959B (zh) 2022-06-21 2022-06-21 视频3d音效设置方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210702717.5A CN115174959B (zh) 2022-06-21 2022-06-21 视频3d音效设置方法及装置

Publications (2)

Publication Number Publication Date
CN115174959A true CN115174959A (zh) 2022-10-11
CN115174959B CN115174959B (zh) 2024-01-30

Family

ID=83487142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210702717.5A Active CN115174959B (zh) 2022-06-21 2022-06-21 视频3d音效设置方法及装置

Country Status (1)

Country Link
CN (1) CN115174959B (zh)

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030053680A1 (en) * 2001-09-17 2003-03-20 Koninklijke Philips Electronics N.V. Three-dimensional sound creation assisted by visual information
KR101462021B1 (ko) * 2013-05-23 2014-11-18 하수호 음원 재생을 위한 그래픽 유저 인터페이스 제공방법 및 이를 위한 단말
US20150131966A1 (en) * 2013-11-11 2015-05-14 Motorola Mobility Llc Three-dimensional audio rendering techniques
US9753119B1 (en) * 2014-01-29 2017-09-05 Amazon Technologies, Inc. Audio and depth based sound source localization
CN108279860A (zh) * 2017-06-14 2018-07-13 深圳市佳创视讯技术股份有限公司 一种提升虚拟现实临场音效体验的方法及系统
CN108806694A (zh) * 2018-06-13 2018-11-13 高艳艳 一种基于声音识别的教学考勤方法
CN109089112A (zh) * 2018-10-29 2018-12-25 中国传媒大学 一种多声道虚拟声像音视频在线检测方法及装置
CN109413563A (zh) * 2018-10-25 2019-03-01 Oppo广东移动通信有限公司 视频的音效处理方法及相关产品
CN109862393A (zh) * 2019-03-20 2019-06-07 深圳前海微众银行股份有限公司 视频文件的配乐方法、系统、设备及存储介质
CN111048113A (zh) * 2019-12-18 2020-04-21 腾讯科技(深圳)有限公司 声音方向定位处理方法、装置、系统、计算机设备及存储介质
CN111868823A (zh) * 2019-02-27 2020-10-30 华为技术有限公司 一种声源分离方法、装置及设备
CN112037738A (zh) * 2020-08-31 2020-12-04 腾讯音乐娱乐科技(深圳)有限公司 一种音乐数据的处理方法、装置及计算机存储介质
CN112492380A (zh) * 2020-11-18 2021-03-12 腾讯科技(深圳)有限公司 音效调整方法、装置、设备及存储介质
WO2021078116A1 (zh) * 2019-10-21 2021-04-29 维沃移动通信有限公司 视频处理方法及电子设备
CN113316078A (zh) * 2021-07-30 2021-08-27 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机设备及存储介质
CN113593572A (zh) * 2021-08-03 2021-11-02 深圳地平线机器人科技有限公司 在空间区域内进行音区定位方法和装置、设备和介质
JP6967735B1 (ja) * 2021-01-13 2021-11-17 パナソニックIpマネジメント株式会社 信号処理装置及び信号処理システム
CN113784274A (zh) * 2020-06-09 2021-12-10 美国Lct公司 三维音频系统
CN113850246A (zh) * 2021-11-30 2021-12-28 杭州一知智能科技有限公司 基于对偶一致网络的声源定位与声源分离的方法和系统
WO2022068608A1 (zh) * 2020-09-30 2022-04-07 华为技术有限公司 信号处理的方法和电子设备

Patent Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030053680A1 (en) * 2001-09-17 2003-03-20 Koninklijke Philips Electronics N.V. Three-dimensional sound creation assisted by visual information
KR101462021B1 (ko) * 2013-05-23 2014-11-18 하수호 음원 재생을 위한 그래픽 유저 인터페이스 제공방법 및 이를 위한 단말
US20150131966A1 (en) * 2013-11-11 2015-05-14 Motorola Mobility Llc Three-dimensional audio rendering techniques
US9753119B1 (en) * 2014-01-29 2017-09-05 Amazon Technologies, Inc. Audio and depth based sound source localization
CN108279860A (zh) * 2017-06-14 2018-07-13 深圳市佳创视讯技术股份有限公司 一种提升虚拟现实临场音效体验的方法及系统
CN108806694A (zh) * 2018-06-13 2018-11-13 高艳艳 一种基于声音识别的教学考勤方法
CN109413563A (zh) * 2018-10-25 2019-03-01 Oppo广东移动通信有限公司 视频的音效处理方法及相关产品
CN109089112A (zh) * 2018-10-29 2018-12-25 中国传媒大学 一种多声道虚拟声像音视频在线检测方法及装置
CN111868823A (zh) * 2019-02-27 2020-10-30 华为技术有限公司 一种声源分离方法、装置及设备
CN109862393A (zh) * 2019-03-20 2019-06-07 深圳前海微众银行股份有限公司 视频文件的配乐方法、系统、设备及存储介质
WO2021078116A1 (zh) * 2019-10-21 2021-04-29 维沃移动通信有限公司 视频处理方法及电子设备
CN111048113A (zh) * 2019-12-18 2020-04-21 腾讯科技(深圳)有限公司 声音方向定位处理方法、装置、系统、计算机设备及存储介质
CN113784274A (zh) * 2020-06-09 2021-12-10 美国Lct公司 三维音频系统
CN112037738A (zh) * 2020-08-31 2020-12-04 腾讯音乐娱乐科技(深圳)有限公司 一种音乐数据的处理方法、装置及计算机存储介质
WO2022068608A1 (zh) * 2020-09-30 2022-04-07 华为技术有限公司 信号处理的方法和电子设备
CN114333831A (zh) * 2020-09-30 2022-04-12 华为技术有限公司 信号处理的方法和电子设备
CN112492380A (zh) * 2020-11-18 2021-03-12 腾讯科技(深圳)有限公司 音效调整方法、装置、设备及存储介质
JP6967735B1 (ja) * 2021-01-13 2021-11-17 パナソニックIpマネジメント株式会社 信号処理装置及び信号処理システム
CN113316078A (zh) * 2021-07-30 2021-08-27 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机设备及存储介质
CN113593572A (zh) * 2021-08-03 2021-11-02 深圳地平线机器人科技有限公司 在空间区域内进行音区定位方法和装置、设备和介质
CN113850246A (zh) * 2021-11-30 2021-12-28 杭州一知智能科技有限公司 基于对偶一致网络的声源定位与声源分离的方法和系统

Also Published As

Publication number Publication date
CN115174959B (zh) 2024-01-30

Similar Documents

Publication Publication Date Title
CN110517705B (zh) 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统
US11551393B2 (en) Systems and methods for animation generation
Sargin et al. Analysis of head gesture and prosody patterns for prosody-driven head-gesture animation
KR20220062684A (ko) 3d 오디오 포지셔닝을 이용하는 가상 또는 증강 현실 프레젠테이션을 생성하기 위한 방법 및 장치
CN106683501A (zh) 一种ar儿童情景扮演投影教学方法及系统
CN113228163A (zh) 基于文本和音频的实时面部再现
WO2021120190A1 (zh) 数据处理方法、装置、电子设备和存储介质
WO2022179453A1 (zh) 声音录制方法及相关设备
CN113439447A (zh) 使用深度学习图像分析的房间声学仿真
US20230164509A1 (en) System and method for headphone equalization and room adjustment for binaural playback in augmented reality
CN114242069A (zh) 人机客服的切换方法、装置、设备及存储介质
Majumder et al. Active audio-visual separation of dynamic sound sources
CN111554281B (zh) 自动识别语种的车载人机交互方法、车载终端及存储介质
RU2721180C1 (ru) Способ генерации анимационной модели головы по речевому сигналу и электронное вычислительное устройство, реализующее его
Chen et al. Novel-view acoustic synthesis
Somayazulu et al. Self-Supervised Visual Acoustic Matching
Filntisis et al. Video-realistic expressive audio-visual speech synthesis for the Greek language
Gimeno-Gómez et al. Analysis of Visual Features for Continuous Lipreading in Spanish
CN115174959B (zh) 视频3d音效设置方法及装置
CN116912375A (zh) 面部动画生成方法、装置、电子设备及存储介质
KR20180012192A (ko) 유아동용 학습 장치 및 그 동작 방법
CN116755590A (zh) 虚拟图像的处理方法、装置、增强实现设备及存储介质
US11461948B2 (en) System and method for voice driven lip syncing and head reenactment
CN114049871A (zh) 基于虚拟空间的音频处理方法、装置和计算机设备
JP2006217183A (ja) マルチメディアデータを生成するためのデータ処理装置およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant