CN116156214A - 一种视频调音方法、装置、电子设备及存储介质 - Google Patents

一种视频调音方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116156214A
CN116156214A CN202310153642.4A CN202310153642A CN116156214A CN 116156214 A CN116156214 A CN 116156214A CN 202310153642 A CN202310153642 A CN 202310153642A CN 116156214 A CN116156214 A CN 116156214A
Authority
CN
China
Prior art keywords
features
fusion
video
tuning
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310153642.4A
Other languages
English (en)
Inventor
宋丹
彭程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China Zhongshan Institute
Original Assignee
University of Electronic Science and Technology of China Zhongshan Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China Zhongshan Institute filed Critical University of Electronic Science and Technology of China Zhongshan Institute
Priority to CN202310153642.4A priority Critical patent/CN116156214A/zh
Publication of CN116156214A publication Critical patent/CN116156214A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/02Arrangements for generating broadcast information; Arrangements for generating broadcast-related information with a direct linking to broadcast information or to broadcast space-time; Arrangements for simultaneous generation of broadcast information and broadcast-related information
    • H04H60/04Studio equipment; Interconnection of studios
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种视频调音方法、装置、电子设备及存储介质,该方法包括:获得包含人体的待处理视频;通过待处理视频,获得人体的关键点特征、表情特征、语音特征以及文本特征;通过第一融合模块,将语音特征以及文本特征进行融合,获得交叉融合特征;通过第二融合模块,将关键点特征、表情特征以及交叉融合特征进行融合,获得最终特征;根据最终特征,对待处理视频进行调音处理。通过第一融合模块和第二融合模块,能够有效提取、融合各通道信号的信息,建模多通道图像与语音、文本的相关性,自动提取与目标任务强相关的高层语义特征,实现准确调音操作。利用表情识别技术,读取用户的情绪状态,并自动匹配相应的调音命令,提高调音准确率。

Description

一种视频调音方法、装置、电子设备及存储介质
技术领域
本申请涉及数字音频处理技术领域,具体而言,涉及一种视频调音方法、装置、电子设备及存储介质。
背景技术
调音技术被广泛应用于各类演播室、音视频制作以及现场演出等场景。调音效果的好坏直接关系到观众的听觉愉悦程度。目前的调音处理主要靠专业调音师靠听力来判断和调试,通过在调音台操作界面上手动操作,下发调音命令实现调音。这种方法调音的质量受硬件设备的影响以及调音师个人的影响,容易出现较大误差。
发明内容
本发明实施例的目的在于一种视频调音方法、装置、电子设备及存储介质,通过使用基于深度学习的表情识别技术,对视频中的关键点特征、表情特征、语音特征以及文本特征进行处理,获得最终特征,根据最终特征对待处理视频进行调音处理。改善硬件设备以及调音师个人对调音的影响的情况,提高调音的准确率以及效率。
第一方面,本申请实施例提供了一种视频调音方法,包括:获得包含人体的待处理视频;通过待处理视频,获得人体的关键点特征、表情特征、语音特征以及文本特征;通过第一融合模块,将语音特征以及文本特征进行融合,获得交叉融合特征;通过第二融合模块,将关键点特征、表情特征以及交叉融合特征进行融合,获得最终特征;根据最终特征,对待处理视频进行调音处理。
在上述的实现过程中,根据待处理视频中获取到待处理视频对应的关键点特征、表情特征、语音特征以及文本特征,对这些特征分别进行融合处理,从不同的维度进行相关信息的获取,融合各通道信号的信息,自动提取与目标任务强相关的高层语义特征,实现准确调音操作。
可选地,在本申请实施例中,第一融合模块包括多个依次连接的第一单元,其中,每一第一单元包括第一交叉注意力模块和第二交叉注意力模块;通过第一融合模块,将语音特征以及文本特征进行融合,获得交叉融合特征,包括:根据语音特征获得语音查询向量、语音键向量和语音值向量;以及根据文本特征获得文本查询向量、文本键向量和文本值向量;将语音查询向量、文本键向量和文本值向量,输入第一个第一单元中的第一交叉注意力模块,获得第一注意力值;将文本查询向量、语音键向量和语音值向量,输入第一个第一单元中的第二交叉注意力模块,获得第二注意力值;根据第一注意力值和第二注意力值,获得交叉融合特征。
在上述的实现过程中,每一第一单元包括第一交叉注意力模块和第二交叉注意力模块,通过两个交叉注意力模块计算协同注意机制中不同尺度语音特征和文本特征的相互关系,交叉注意力模块具有全局学习能力和良好的并行性,可以在抑制无用噪声的同时,进一步突出融合表示中的关键信息,对特征信息得到更好的处理,使调音效果更好。
可选地,在本申请实施例中,每一第一单元还包括第一前馈层和第二前馈层;根据第一注意力值和第二注意力值,获得交叉融合特征,包括:将第一注意力值输入第一前馈层,获得第一中间信息;将第二注意力值输入第二前馈层,获得第二中间信息;根据第一中间信息和第二中间信息,获得交叉融合特征。
在上述的实现过程中,通过前馈层生成中间表示信息,已获得最后的交叉融合特征,通过前馈层的设置,增强了模型的处理能力,提高调音效果。
可选地,在本申请实施例中,交叉融合特征包括多个依次连接的第二单元,每一第二单元包括第一多头注意力模块和第二多头注意力模块;通过第二融合模块,将关键点特征、表情特征以及交叉融合特征进行融合,获得最终特征,包括:将关键点特征和表情特征输入第一个第二单元中的第一多头注意力模块,获得图像融合特征;将关键点特征和交叉融合特征输入第一个第二单元中的第二多头注意力模块,获得多头融合特征;通过关键点特征、图像融合特征以及多头融合特征,获得最终特征。
在上述的实现过程中,基于深度学习的表情识别技术,读取用户的情绪状态,以及考虑到视频中人体的肢体动作,通过第二融合模型将关键点特征、表情特征以及交叉融合特征进行融合,通过多头主力已机制,使用不同序列位置的不同子空间的表征信息来进行序列数据处理,改善不同位置的子空间由于取均值的操作,模型精度低的情况。
可选地,在本申请实施例中,每一第二单元包括残差标准化层;通过关键点特征、图像融合特征以及多头融合特征,获得最终特征,包括:根据关键点特征、图像融合特征以及多头融合特征,生成融合输出特征;将融合输出特征,输入残差标准化层,获得最终特征。
在上述的实现过程中,将融合输出特征,输入残差标准化层,获得最终特征,通过残差标准化层,改善网络梯度反向传播更新参数时,造成的梯度小时的问题,使模型的效果更好,从而提高调音的准确性。
可选地,在本申请实施例中,根据最终特征,对待处理视频进行处理,包括:将最终特征输入特征映射器,获得调音矩阵;调音矩阵包括控制参数以及每一控制参数的控制值;根据调音矩阵,对待处理视频中的音频信息进行调节。
在上述的实现过程中,将最终特征输入特征映射器,获得调音矩阵,调音矩阵包括控制参数以及每一控制参数的控制值,控制参数对应于调音命令,将最终特征匹配对应的调音命令,降低硬件设备以及调音师个人对调音的影响,提高调音的准确率以及效率。
可选地,在本申请实施例中,通过待处理视频,获得人体的关键点特征、表情特征、语音特征以及文本特征,包括:基于待处理视频,获得待处理视频中的人脸图像和音频信息,以及获得待处理视频对应的文本信息;对待处理视频进行人体关键点特征提取,获得关键点特征;对人脸图像进行特征提取,获得表情特征;对音频信息进行特征提取,获得音频特征;对文本信息进行特征提取,获得文本特征。
在上述的实现过程中,获取到待处理视频之后,在对待处理视频进行调音时,不仅考虑到文本信息,例如歌词和以及音频信息对应的情感色彩,还考虑到人体的肢体动作和表情状态,使调音处理具备“情绪反馈”能力,提高调音的准确性。
第二方面,本申请实施例还提供了一种视频调音装置,包括:视频获得模块,用于获得包含人体的待处理视频;特征获取模块,用于通过待处理视频,获得人体的关键点特征、表情特征、语音特征以及文本特征;第一特征融合模块,用于通过第一融合模块,将语音特征以及文本特征进行融合,获得交叉融合特征;第二特征融合模块,用于通过第二融合模块,将关键点特征、表情特征以及交叉融合特征进行融合,获得最终特征;调音模块,用于根据最终特征,对待处理视频进行调音处理。
第三方面,本申请实施例还提供了一种电子设备,包括:处理器和存储器,存储器存储有处理器可执行的机器可读指令,机器可读指令被处理器执行时执行如上面描述的方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上面描述的方法。
采用本申请提供视频调音方法、装置、电子设备及存储介质,通过使用基于深度学习的表情识别技术,不仅考虑到文本信息以及音频信息对应的情感色彩,还考虑到人体的肢体动作和表情状态。对视频中的关键点特征、表情特征、语音特征以及文本特征进行处理,获得最终特征,根据最终特征对待处理视频进行调音处理。通过交叉注意力以及多头注意力机制,融合各通道信号的信息,自动提取与目标任务强相关的高层语义特征,实现准确调音操作,使调音效果更好。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种视频调音方法的流程示意图;
图2为本申请实施例提供的特征融合方法的流程示意图;
图3示出的本申请实施例提供的视频调音装置的结构示意图;
图4为本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合附图对本申请技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本申请的技术方案,因此只作为示例,而不能以此来限制本申请的保护范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
在本申请实施例的描述中,技术术语“第一”、“第二”等仅用于区别不同对象,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量、特定顺序或主次关系。在本申请实施例的描述中,“多个”的含义是两个及以上,除非另有明确具体的限定。
在描述本申请提供视频调音方法、装置、电子设备及存储介质之前,先对调音操作进行描述。
随着数字音频处理技术的发展,调音台由过去的模拟系统发展为今天的数字系统。数字调音台的处理对象是经过采样、量化、编码后的音频信号。与模拟系统不同的是,数字调音台多出很多控制信号,其处理范围广、灵活、精确。例如,对于动态范围上限这一参数,模拟调音系统在60dB(分贝)左右;而内部运算在32bit(比特)的数字调音系统内,动态范围上限可在168dB~192dB。另外,数字调音台可以通过图形界面完成各种复杂的调音操作。
随着网络信息技术的进一步发展,数字调音系统朝着多元化、智能化、大众化发展。一方面,专业调音师们甚至可以远距离地在微信小程序上就完成工作,另一方面,数字调音系统的应用已经从专业人员拓展到普通大众,一部分线上唱歌的用户也购置了具备调音功能的专业声卡。
当前市面上的数字调音系统种类繁多,从应用对象上来分,可以将数字调音技术分为专门针对某些乐器的调音系统和综合型调音系统。
前者基于专业调音师的经验,应用LabVIEW(实验室虚拟仪器工程平台)等软件平台开发某些种类乐器,例如钢琴、吉它等的专门调音系统,其系统结构和功能简单,这些调音系统能够对模拟生成、或真实采集的乐器音频进行数字化分析,根据专业调音师的经验确定调音操作,这种调音系统多由乐器演奏者使用。
后者多应用于专业播音环境(如音乐会、广播室),多由专业调音师操作,输入输出复杂,涉及的参数较多,功能较强,能够满足专业级的需求。这种调音系统主要通过购置优良的硬件设备、聘请专业性强的调音师来改善调音效果。
不论是哪种数字调音系统,随着数字化、智能化进程的完善,调音系统逐渐区分为接口箱、处理单元、操作界面3个模块。其中,调音系统的处理单元模块,往往是通过DSP(Digital Signal Processing,数字信号处理)芯片来实现。目前来说,主流的调音方案,是调音师通过操作界面(硬件调音台或者软件调音台都会具备一个操作界面)上的按钮或推子,来给DSP芯片下达调音命令,DSP芯片负责执行命令,完成相关计算并输出得到的音频信号,最终实现符合要求的音质。DSP芯片的内部采用程序和数据分开的哈佛结构,具有专门的硬件乘法器,广泛采用流水线操作,提供特殊的DSP指令,可以用来快速的实现各种数字信号处理算法。
调音算法就是部署在DSP芯片上的计算机算法。传统的调音算法主要包括部署在均衡器、压限器、信号发生器等的算法。均衡器(Equalizer,EQ)对音频信号当中指定频率成分的信号分量幅度进行放大或衰减,从而形成不同风格的音乐(如流行、摇滚、金属、电子、乡村、爵士等)。压限器属于数字调音系统中动态控制部分,它降低压缩门限以上的信号的动态变化范围,其他的信号则不变,其主要用途是避免信号的强弱超出功放的正常处理范围,甚至烧毁高音扬声器,从而保护功放和扬声器。信号发生器主要用来装饰效果和测试。信号发生器产生的各种信号可以混入音频信号来实现装饰处理,而扫频信号可用来测试某个工作段所需的频响曲线。
调音师只需在调音台操作界面上手动操作(其本质是设置调音算法的各个参数并发送命令),下达的调音命令会分别传输给均衡器、压限器、信号发生器等,DSP芯片执行相应算法并输出结果。
这样传统的调音系统一般由专业调音师靠听力来判断和调试,个性化较强。其输出音质的高低,除了受硬件设备的影响外,还受调音师的生理、心理和外部客观环境影响,易出现较大误差,且价格昂贵,不便于推广使用。因此本申请实施例提供的视频调音方法基于表情识别的调音系统,通过使用基于深度学习的表情识别技术,读取用户的情绪状态,并自动匹配相应的调音命令,改善硬件设备以及调音师个人对调音的影响的情况,提高调音的准确率以及效率。
请参见图1示出的本申请实施例提供的一种视频调音方法的流程示意图。
步骤S110:获得包含人体的待处理视频。
上述步骤S110的实施方式包括:包含人体的待处理视频可以是表演者的表演视频,例如在音乐会、广播室或舞台的歌唱表演视频,还可以是包含人体的影视剧作品。待处理视频可以是通过录制获得的视频或通过剪辑获得的视频,也可以是通过摄像机采集到的现场直播的流媒体视频。
步骤S120:通过待处理视频,获得人体的关键点特征、表情特征、语音特征以及文本特征。
上述步骤S120的实施方式包括:对待处理视频进行处理,对每一帧视频图像中的人体进行关键点特征提取,获得关键点特征。获得待处理视频中的人脸图像,通过对人脸图像进行特征提取,获得表情特征。提取待处理视频中的音频信息,音频信息包括视频中的人物的歌声或台词音频等,还可以包括歌曲伴奏等。以及获取待处理视频中的文本信息,文本信息包括视频中演唱的歌曲的歌词,以及人物的台词文本。
步骤S130:通过第一融合模块,将语音特征以及文本特征进行融合,获得交叉融合特征。
上述步骤S130的实施方式包括:将语音特征以及文本特征输入第一融合模块,将语音特征以及文本特征进行融合,获得交叉融合特征。其中,特征融合的方式包括通过多个注意力模块进行计算,获得表征两个特征相互关系的交叉融合特征;还可以通过将语音特征的文本特征相加或拼接等方法实现特征融合。
步骤S140:通过第二融合模块,将关键点特征、表情特征以及交叉融合特征进行融合,获得最终特征。
上述步骤S140的实施方式包括:利用第二融合模块,将关键点特征、表情特征以及交叉融合特征进行融合,具体例如,先将关键点特征和表情特征进行融合,再将上述获得输出与交叉融合特征进行融合,获得最终特征。还可以是三种特征之间两两融合,然后再次进行融合特征之间的计算,获得最终特征。特征融合的方式包括通过多个注意力模块进行计算,还可以通过将语音特征的文本特征相加或拼接等方法实现特征融合。
步骤S150:根据最终特征,对待处理视频进行调音处理。
上述步骤S150的实施方式包括:根据最终特征,获得最终特征对应的调节参数或调节命令,根据调节参数或调节命令,对待处理视频进行调音处理。
在上述的实现过程中,根据待处理视频中获取到待处理视频对应的关键点特征、表情特征、语音特征以及文本特征,对这些特征分别进行融合处理,从不同的维度进行相关信息的获取,融合各通道信号的信息,自动提取与目标任务强相关的高层语义特征,实现准确调音操作。
请参见图2示出的本申请实施例提供的特征融合方法的流程示意图。
可选地,在本申请实施例中,第一融合模块包括多个依次连接的第一单元,其中,每一第一单元包括第一交叉注意力模块和第二交叉注意力模块;通过第一融合模块,将语音特征以及文本特征进行融合,获得交叉融合特征,包括:根据语音特征获得语音查询向量、语音键向量和语音值向量;以及根据文本特征获得文本查询向量、文本键向量和文本值向量;将语音查询向量、文本键向量和文本值向量,输入第一个第一单元中的第一交叉注意力模块,获得第一注意力值;将文本查询向量、语音键向量和语音值向量,输入第一个第一单元中的第二交叉注意力模块,获得第二注意力值;根据第一注意力值和第二注意力值,获得交叉融合特征。
在具体的实现过程中:第一融合模块包括多个依次连接的第一单元,其中,每一第一单元包括第一交叉注意力模块和第二交叉注意力模块;可以理解的,第一单元的个数可以是3个,也可以是更多或更少。本实施例通过以第一融合模块包括3个依次连接的第一单元为例进行描述。
根据语音特征,通过矩阵变换,获得语音查询向量、语音键向量和语音值向量。将语音查询向量、文本键向量和文本值向量,输入第一个第一单元中的第一交叉注意力模块,其中,第一个第一单元为连接特征提取模块的单元。共同注意机制从它们自己的模式获得查询矩阵,而从相反的模式获得键和值矩阵来执行交叉注意,具体例如,第一个第一单元的输入从上到下依次是语音查询向量、文本键向量和文本值向量,在经过一个前馈层,获得第一次迭代的语音特征向量。
根据第一次迭代的语音特征,获得对应的查询向量、键向量和值向量,从上到下依次输入第二个第一单元中的交叉注意力模块,经过一个前馈层,获得第二次迭代的语音特征。其中,第二个第一单元与第一个第一单元连接。
根据第二次迭代的语音特征,获得对应的查询向量、键向量和值向量,从上到下依次输入第三个第一单元中的交叉注意力模块,经过一个前馈层,获得第一注意力值。其中,第三个第一单元与第二个第一单元连接。
第一注意力值计算公式如下所示:
Figure BDA0004091613560000131
其中,q表示语音查询向量Query,k表示文本键向量Key,v表示文本值向量Value,
Figure BDA0004091613560000132
表示尺度标度。
首先q与k进行点乘,为防止结果过大,除以一个尺度标度
Figure BDA0004091613560000133
dk为q和k的向量维度,再利用softmax函数将结果归一化成概率分布,最终乘以矩阵v得到权重求和,获得第一注意力值。
根据文本特征,通过矩阵变换,获得文本查询向量、文本键向量和文本值向量。将文本查询向量、语音键向量和语音值向量,输入第一个第二单元中的第一交叉注意力模块,获得第一个第二单元的输出特征,第一个第二单元的输出特征一次经过第二个第二单元以及第三个第二单元的计算,获得第二注意力值。
将第三次迭代的语音特征与第三次迭代的文本特征进行相加,获得交叉融合特征。
在上述的实现过程中,每一第一单元包括第一交叉注意力模块和第二交叉注意力模块,通过两个交叉注意力模块计算协同注意机制中不同尺度语音特征和文本特征的相互关系,交叉注意力模块具有全局学习能力和良好的并行性,可以在抑制无用噪声的同时,进一步突出融合表示中的关键信息,使特征信息得到更好的处理,使调音效果更好。
可选地,在本申请实施例中,每一第一单元还包括第一前馈层和第二前馈层;根据第一注意力值和第二注意力值,获得交叉融合特征,包括:将第一注意力值输入第一前馈层,获得第一中间信息;将第二注意力值输入第二前馈层,获得第二中间信息;根据第一中间信息和第二中间信息,获得交叉融合特征。
在具体的实现过程中:每一第一单元还包括第一前馈层和第二前馈层;前馈层在每个节点中计算权重和输入的乘积之和,根据乘积之和激活神经元。通过前馈层生成中间表示信息,已获得最后的交叉融合特征,通过前馈层的设置,增强了模型的处理能力,提高调音效果。
可选地,在本申请实施例中,交叉融合特征包括多个依次连接的第二单元,每一第二单元包括第一多头注意力模块和第二多头注意力模块;通过第二融合模块,将关键点特征、表情特征以及交叉融合特征进行融合,获得最终特征,包括:将关键点特征和表情特征输入第一个第二单元中的第一多头注意力模块,获得图像融合特征;将关键点特征和交叉融合特征输入第一个第二单元中的第二多头注意力模块,获得多头融合特征;通过关键点特征、图像融合特征以及多头融合特征,获得最终特征。
在具体的实现过程中:交叉融合特征包括多个依次连接的第二单元,每一第二单元包括第一多头注意力模块和第二多头注意力模块。第二单元的数量可以为2个,也可以是更多。本实施例通过以第二融合模块包括2个依次连接的第二单元为例进行描述。
将关键点特征和表情特征输入第一个第二单元中的第一多头注意力模块,获得输出;将第一个第二单元中第一多头注意力的输出,输入第二个第二单元中第一多头注意力模块,获得图像融合特征。
将关键点特征和交叉融合特征输入第一个第二单元中的第二多头注意力模块,获得输出;将第一个第二单元中的第二多头注意力模块的输出,输入第二个第二单元中的第二多头注意力模块,获得多头融合特征。
多头自注意力利用多次并行查询从输入信息中提取到多组不同子空间进行相关信息的获取,从多方面捕获序列的关键信息。其计算方式如下:
Figure BDA0004091613560000151
其中,Q表示查询向量矩阵,K为键向量矩阵,V为值向量矩阵,WQ表示查询向量矩阵的转换矩阵,WK表示键向量矩阵的转换矩阵,WV表示值向量矩阵的转换矩阵,S表示特征抽取层的输出。
首先,将特征抽取层的输出S线性变换生成查询向量矩阵Q、键向量矩阵K、值向量矩阵V。将Q、K、V投影到h个不同子空间。
Figure BDA0004091613560000152
其中,Q1表示第1个查询向量矩阵,K1为第1个键向量矩阵,V1为第1个值向量矩阵,
Figure BDA0004091613560000153
表示为Q的第i个转换矩阵,/>
Figure BDA0004091613560000154
表示为K的第i个转换矩阵、/>
Figure BDA0004091613560000161
表示V的第i个转换矩阵。
Figure BDA0004091613560000162
其中,headi表示单头的注意力值,d是缩放因子。
通过缩放点积对Qi和Ki进行内积运算,并使用softmax函数归一化后与Vi相乘,得到单头的注意力值headi,并行地在h个子空间上计算注意力,将Q、K的内积变为标准的正态分布。最后融合所有子空间的注意力值。
A(Q,K,V)=Concat(head1,...,headh)WO
其中,A(Q,K,V)为所有子空间的注意力值,WO为转换矩阵。
输出层采用softmax分类器计算劣化度,公式如下所示:
Figure BDA0004091613560000163
其中,
Figure BDA0004091613560000164
表示劣化度,/>
Figure BDA0004091613560000165
表示最终特征。
在上述的实现过程中,基于深度学习的表情识别技术,读取用户的情绪状态,以及考虑到视频中人体的肢体动作,通过第二融合模型将关键点特征、表情特征以及交叉融合特征进行融合,通过多头主力已机制,使用不同序列位置的不同子空间的表征信息来进行序列数据处理,改善不同位置的子空间由于取均值的操作,模型精度低的情况。
可选地,在本申请实施例中,每一第二单元包括残差标准化层;通过关键点特征、图像融合特征以及多头融合特征,获得最终特征,包括:根据关键点特征、图像融合特征以及多头融合特征,生成融合输出特征;将融合输出特征,输入残差标准化层,获得最终特征。
在具体的实现过程中:每一第二单元包括残差标准化层,残差标准化层包括归一化层和前馈层。将第一多头注意力的输出图像融合特征以及第二多头注意力的输出多头融合特征与关键点特征相加,获得融合输出特征。
将融合输出特征输入归一化层和前馈层,获得最终特征。其中,前馈层用于将信息传递的更深,增强模型的拟合能力。归一化层对每一层计算后的数值进行规范化,提升模型表现。
在上述的实现过程中,将融合输出特征,输入残差标准化层,获得最终特征,通过残差标准化层,改善网络梯度反向传播更新参数是,造成的梯度小时的问题,使模型的效果更好,从而提高调音的准确性。
可选地,在本申请实施例中,根据最终特征,对待处理视频进行处理,包括:将最终特征输入特征映射器,获得调音矩阵;调音矩阵包括控制参数以及每一控制参数的控制值;根据调音矩阵,对待处理视频中的音频信息进行调节。
在具体的实现过程中:将最终特征输入特征映射器,获得调音矩阵,其中特征映射器包括全连接层。调音矩阵包括控制参数以及每一控制参数的控制值,具体例如表1所示,表1为调音矩阵。
控制参数 GAIN HIGH LOW PAN EFX.SEND right PAD
控制值 1 0.1 0.3 0 0.4 1 1
表1为调音矩阵
其中,控制参数GAIN为输入信号增益控制,控制参数GAIN对应的控制值为1;控制参数HIGH为高音电平控制,控制参数HIGH对应的控制值为0.1;控制参数LOW为低音电平控制,控制参数LOW对应的控制值为1;控制参数PAN为相位控制,控制参数PAN对应的控制值为1;控制参数EFX.SEND为分路效果信号控制,控制参数EFX.SEND对应的控制值为1;控制参数RIGHT为右路信号电平控制,控制参数RIGHT对应的控制值为1。
请参见表2示出的本申请实施例提供的控制参数以及参数说明。
调音矩阵的控制包含但不限于表2内容,每个参数的控制范围可以在0到1之间;如果是开关项的控制参数,则控制值0代表关,控制值1代表开。
Figure BDA0004091613560000181
/>
Figure BDA0004091613560000191
表2控制参数名称以及参数说明
在上述的实现过程中,将最终特征输入特征映射器,获得调音矩阵,调音矩阵包括控制参数以及每一控制参数的控制值,控制参数对应于调音命令,将最终特征匹配对应的调音命令,降低硬件设备以及调音师个人对调音的影响,提高调音的准确率以及效率。
可选地,在本申请实施例中,通过待处理视频,获得人体的关键点特征、表情特征、语音特征以及文本特征,包括:基于待处理视频,获得待处理视频中的人脸图像和音频信息,以及获得待处理视频对应的文本信息;对待处理视频进行人体关键点特征提取,获得关键点特征;对人脸图像进行特征提取,获得表情特征;对音频信息进行特征提取,获得音频特征;对文本信息进行特征提取,获得文本特征。
在具体的实现过程中:基于待处理视频,获得待处理视频中的人脸图像和音频信息,以及获得待处理视频对应的文本信息。对待处理视频进行人体关键点特征提取,获得关键点特征,具体例如,获取视频中的目标人物或所有人的动作信息,先经过动作编码器,然后经过解码器,解码器由多层反卷积组成,再通过注意力机制获取该段视频中人物的自注意力特征,即关键点特征。
对人脸图像进行特征提取,获得表情特征;具体例如,从待处理视频中提取到的人脸图像,用以提取人脸信息,先经过表情编码器,然后经过对应的解码器,然后通自过注意力机制获取人脸表情的注意力特征,即表情特征。
对音频信息进行特征提取,获得音频特征;具体例如,提取待处理视频中的音频信息,音频信息包括视频中的人物的歌声或台词音频等,还可以包括歌曲伴奏,依次经过音频编码器和对应的解码器,通过特征提取层获得音频特征。对文本信息进行特征提取,获得文本特征。将文本信息一次经过文本编码器和对应的解码器,以及通过特征提取层获得文本特征。
在上述的实现过程中,获取到待处理视频之后,在对待处理视频进行调音时,不仅考虑到文本信息,例如歌词和以及音频信息对应的情感色彩,还考虑到人体的肢体动作和表情状态,使调音处理具备“情绪反馈”能力,提高调音的准确性。
可选地,在本申请实施例中,在获得包含人体的待处理视频之前,方法还包括:将训练视频输入预设的神经网络模型,获得训练特征;通过预设的损失函数,根据训练特征,对神经网络模型进行反馈训练,获得视频调音模型;视频调音模型包括第一融合模块和第二融合模块。
具体例如,将预设的神经网络模型输入表演者的视频片段和该片段包含的人脸、对应的声音和歌词。通过编码器、卷积网络、第一融合模块和第二融合模块,获得该段视频的强表现力的特征,最后采用均方误差损失。前向传播得到各支路输出后根据上述损失函数计算梯度,进行反馈训练,迭代至模型收敛。
获得视频调音模型之后,可以对模型进行测试,将视频调音模型输入表演者的视频片段和该片段包含的人脸、对应的声音和歌词,输出为该段视频对应的调音矩阵。
通过第一融合模块和第二融合模块,能够有效提取、融合各通道信号的信息,建模多通道图像与语音、文本的相关性,自动提取与目标任务强相关的高层语义特征,实现准确调音操作。现有的调音方法无法充分形成与用户的良好互动,不论用户的精神和情绪状态如何(例如悲喜忧乐),调音算法都无法根据用户的情绪进行调音,本申请实施例的视频调音方法通过使用基于深度学习的表情识别技术,读取用户的情绪状态,并自动匹配相应的调音命令,使调音系统具备“情绪反馈”能力。
请参见图3示出的本申请实施例提供的视频调音装置的结构示意图;本申请实施例提供了一种视频调音装置200,包括:
视频获得模块210,用于获得包含人体的待处理视频;
特征获取模块220,用于通过待处理视频,获得人体的关键点特征、表情特征、语音特征以及文本特征;
第一特征融合模块230,用于通过第一融合模块,将语音特征以及文本特征进行融合,获得交叉融合特征;
第二特征融合模块240,用于通过第二融合模块,将关键点特征、表情特征以及交叉融合特征进行融合,获得最终特征;
调音模块250,用于根据最终特征,对待处理视频进行调音处理。
可选地,在本申请实施例中,视频调音装置,第一融合模块包括多个依次连接的第一单元,其中,每一第一单元包括第一交叉注意力模块和第二交叉注意力模块;第一特征融合模块230,具体用于根据语音特征获得语音查询向量、语音键向量和语音值向量;以及根据文本特征获得文本查询向量、文本键向量和文本值向量;将语音查询向量、文本键向量和文本值向量,输入第一个第一单元中的第一交叉注意力模块,获得第一注意力值;将文本查询向量、语音键向量和语音值向量,输入第一个第一单元中的第二交叉注意力模块,获得第二注意力值;根据第一注意力值和第二注意力值,获得交叉融合特征。
可选地,在本申请实施例中,视频调音装置,每一第一单元还包括第一前馈层和第二前馈层;第一特征融合模块230,还用于将第一注意力值输入第一前馈层,获得第一中间信息;将第二注意力值输入第二前馈层,获得第二中间信息;根据第一中间信息和第二中间信息,获得交叉融合特征。
可选地,在本申请实施例中,视频调音装置,交叉融合特征包括多个依次连接的第二单元,每一第二单元包括第一多头注意力模块和第二多头注意力模块;第二特征融合模块240,具体用于将关键点特征和表情特征输入第一个第二单元中的第一多头注意力模块,获得图像融合特征;将关键点特征和交叉融合特征输入第一个第二单元中的第二多头注意力模块,获得多头融合特征;通过关键点特征、图像融合特征以及多头融合特征,获得最终特征。
可选地,在本申请实施例中,视频调音装置,每一第二单元包括残差标准化层;第二特征融合模块240,还用于根据关键点特征、图像融合特征以及多头融合特征,生成融合输出特征;将融合输出特征,输入残差标准化层,获得最终特征。
可选地,在本申请实施例中,视频调音装置,调音模块250,具体用于将最终特征输入特征映射器,获得调音矩阵;调音矩阵包括控制参数以及每一控制参数的控制值;根据调音矩阵,对待处理视频中的音频信息进行调节。
可选地,在本申请实施例中,视频调音装置,特征获取模块220,具体用于基于待处理视频,获得待处理视频中的人脸图像和音频信息,以及获得待处理视频对应的文本信息;对待处理视频进行人体关键点特征提取,获得关键点特征;对人脸图像进行特征提取,获得表情特征;对音频信息进行特征提取,获得音频特征;对文本信息进行特征提取,获得文本特征。
应理解的是,该装置与上述的视频调音方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system,OS)中的软件功能模块。
请参见图4示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备300,包括:处理器310和存储器320,存储器320存储有处理器310可执行的机器可读指令,机器可读指令被处理器310执行时执行如上的方法。
本申请实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上的方法。
其中,存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-OnlyMemory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
本申请实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请实施例各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
以上的描述,仅为本申请实施例的可选实施方式,但本申请实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请实施例的保护范围之内。

Claims (10)

1.一种视频调音方法,其特征在于,包括:
获得包含人体的待处理视频;
通过所述待处理视频,获得所述人体的关键点特征、表情特征、语音特征以及文本特征;
通过第一融合模块,将所述语音特征以及文本特征进行融合,获得交叉融合特征;
通过第二融合模块,将所述关键点特征、所述表情特征以及所述交叉融合特征进行融合,获得最终特征;
根据所述最终特征,对所述待处理视频进行调音处理。
2.根据权利要求1所述的方法,其特征在于,所述第一融合模块包括多个依次连接的第一单元,其中,每一所述第一单元包括第一交叉注意力模块和第二交叉注意力模块;所述通过第一融合模块,将所述语音特征以及文本特征进行融合,获得交叉融合特征,包括:
根据所述语音特征获得语音查询向量、语音键向量和语音值向量;以及根据所述文本特征获得文本查询向量、文本键向量和文本值向量;
将所述语音查询向量、所述文本键向量和文本值向量,输入第一个第一单元中的第一交叉注意力模块,获得第一注意力值;
将所述文本查询向量、语音键向量和语音值向量,输入第一个第一单元中的第二交叉注意力模块,获得第二注意力值;
根据所述第一注意力值和所述第二注意力值,获得所述交叉融合特征。
3.根据权利要求2所述的方法,其特征在于,每一所述第一单元还包括第一前馈层和第二前馈层;所述根据所述第一注意力值和所述第二注意力值,获得所述交叉融合特征,包括:
将所述第一注意力值输入所述第一前馈层,获得第一中间信息;
将所述第二注意力值输入所述第二前馈层,获得第二中间信息;
根据所述第一中间信息和第二中间信息,获得所述交叉融合特征。
4.根据权利要求1所述的方法,其特征在于,所述交叉融合特征包括多个依次连接的第二单元,每一所述第二单元包括第一多头注意力模块和第二多头注意力模块;所述通过第二融合模块,将所述关键点特征、所述表情特征以及所述交叉融合特征进行融合,获得最终特征,包括:
将所述关键点特征和所述表情特征输入第一个第二单元中的第一多头注意力模块,获得图像融合特征;
将所述关键点特征和所述交叉融合特征输入第一个第二单元中的第二多头注意力模块,获得多头融合特征;
通过所述关键点特征、所述图像融合特征以及所述多头融合特征,获得所述最终特征。
5.根据权利要求4所述的方法,其特征在于,所述每一所述第二单元包括残差标准化层;所述通过所述关键点特征、所述图像融合特征以及所述多头融合特征,获得所述最终特征,包括:
根据所述关键点特征、所述图像融合特征以及所述多头融合特征,生成融合输出特征;
将所述融合输出特征,输入所述残差标准化层,获得所述最终特征。
6.根据权利要求1所述的方法,其特征在于,根据所述最终特征,对所述待处理视频进行处理,包括:
将所述最终特征输入特征映射器,获得调音矩阵;所述调音矩阵包括控制参数以及每一所述控制参数的控制值;
根据所述调音矩阵,对所述待处理视频中的音频信息进行调节。
7.根据权利要求1-6任一所述的方法,其特征在于,所述通过所述待处理视频,获得所述人体的关键点特征、表情特征、语音特征以及文本特征,包括:
基于所述待处理视频,获得所述待处理视频中的人脸图像和音频信息,以及获得所述待处理视频对应的文本信息;
对所述待处理视频进行人体关键点特征提取,获得所述关键点特征;
对所述人脸图像进行特征提取,获得所述表情特征;
对所述音频信息进行特征提取,获得所述音频特征;
对所述文本信息进行特征提取,获得所述文本特征。
8.一种视频调音装置,其特征在于,包括:
视频获得模块,用于获得包含人体的待处理视频;
特征获取模块,用于通过所述待处理视频,获得所述人体的关键点特征、表情特征、语音特征以及文本特征;
第一特征融合模块,用于通过第一融合模块,将所述语音特征以及文本特征进行融合,获得交叉融合特征;
第二特征融合模块,用于通过第二融合模块,将所述关键点特征、所述表情特征以及所述交叉融合特征进行融合,获得最终特征;
调音模块,用于根据所述最终特征,对所述待处理视频进行调音处理。
9.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的方法。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的方法。
CN202310153642.4A 2023-02-21 2023-02-21 一种视频调音方法、装置、电子设备及存储介质 Pending CN116156214A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310153642.4A CN116156214A (zh) 2023-02-21 2023-02-21 一种视频调音方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310153642.4A CN116156214A (zh) 2023-02-21 2023-02-21 一种视频调音方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116156214A true CN116156214A (zh) 2023-05-23

Family

ID=86373266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310153642.4A Pending CN116156214A (zh) 2023-02-21 2023-02-21 一种视频调音方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116156214A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117312992A (zh) * 2023-11-30 2023-12-29 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 多视角人脸特征与音频特征融合的情绪识别方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117312992A (zh) * 2023-11-30 2023-12-29 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 多视角人脸特征与音频特征融合的情绪识别方法及系统
CN117312992B (zh) * 2023-11-30 2024-03-12 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 多视角人脸特征与音频特征融合的情绪识别方法及系统

Similar Documents

Publication Publication Date Title
CN104080024B (zh) 音量校平器控制器和控制方法以及音频分类器
CN104079247B (zh) 均衡器控制器和控制方法以及音频再现设备
JP2019216408A (ja) 情報を出力するための方法、及び装置
TWI459828B (zh) 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統
WO2019116889A1 (ja) 信号処理装置および方法、学習装置および方法、並びにプログラム
CN101578659A (zh) 音质转换装置及音质转换方法
JP2008233672A (ja) マスキングサウンド生成装置、マスキングサウンド生成方法、プログラムおよび記録媒体
CN112992109B (zh) 辅助歌唱系统、辅助歌唱方法及其非瞬时计算机可读取记录媒体
Gontier et al. Estimation of the perceived time of presence of sources in urban acoustic environments using deep learning techniques
Seshadri et al. Cycle-consistent adversarial networks for non-parallel vocal effort based speaking style conversion
CN116156214A (zh) 一种视频调音方法、装置、电子设备及存储介质
Obin et al. On the generalization of Shannon entropy for speech recognition
Abraham et al. A deep learning approach for robust speaker identification using chroma energy normalized statistics and mel frequency cepstral coefficients
CN112837670B (zh) 语音合成方法、装置及电子设备
JP4799333B2 (ja) 楽曲分類方法、楽曲分類装置及びコンピュータプログラム
CN115273826A (zh) 歌声识别模型训练方法、歌声识别方法及相关装置
CN113781989A (zh) 一种音频的动画播放、节奏卡点识别方法及相关装置
Yun et al. Voice conversion of synthesized speeches using deep neural networks
JP6925995B2 (ja) 信号処理装置、音声強調装置、信号処理方法およびプログラム
Karbasi et al. Blind Non-Intrusive Speech Intelligibility Prediction Using Twin-HMMs.
CN113674735B (zh) 声音转换方法、装置、电子设备及可读存储介质
Nag et al. Automation in Audio Enhancement using Unsupervised Learning for Ubiquitous Computational Environment
JP7230085B2 (ja) 音声を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
CN114999508B (zh) 一种利用多源辅助信息的通用语音增强方法和装置
Thilakan et al. Classification of the perceptual impression of source-level blending between violins in a joint performance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination