CN114630238B - 舞台音箱音量控制方法、装置、电子设备及介质 - Google Patents

舞台音箱音量控制方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN114630238B
CN114630238B CN202210251589.7A CN202210251589A CN114630238B CN 114630238 B CN114630238 B CN 114630238B CN 202210251589 A CN202210251589 A CN 202210251589A CN 114630238 B CN114630238 B CN 114630238B
Authority
CN
China
Prior art keywords
noise
data
background noise
audio
stage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210251589.7A
Other languages
English (en)
Other versions
CN114630238A (zh
Inventor
林惜花
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Hongpai Audio Co ltd
Original Assignee
Guangzhou Hongpai Audio Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Hongpai Audio Co ltd filed Critical Guangzhou Hongpai Audio Co ltd
Priority to CN202210251589.7A priority Critical patent/CN114630238B/zh
Publication of CN114630238A publication Critical patent/CN114630238A/zh
Application granted granted Critical
Publication of CN114630238B publication Critical patent/CN114630238B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Acoustics & Sound (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明涉及人工智能技术,揭露了一种舞台音箱音量控制方法,包括:获取目标舞台中采集设备收集的音视频数据,对所述音视频数据进行数据编码,得到音频数据及视频数据,基于遗传算法对所述音频数据进行噪声增强,得到增强后的背景噪声,对所述背景噪声进行噪声识别,并根据识别结果计算背景噪声值,基于预训练的Adaboost分类器从所述视频数据中检测出人数统计值,对所述背景噪声值及所述人数统计值进行加权计算,并根据计算结果调整所述目标舞台中的音箱音量。本发明还提出一种舞台音箱音量控制方法装置、电子设备以及计算机可读存储介质。本发明可以解决无法准确控制舞台中音箱音量的问题。

Description

舞台音箱音量控制方法、装置、电子设备及介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种舞台音箱音量控制方法、装置、电子设备及计算机可读存储介质。
背景技术
随着现代科技的发展,舞台效果的呈现不仅仅和舞台上表演人员的技术水品有关,更是和舞台特效、舞台音箱等息息相关。现有技术下舞台音箱音量的调整主要是人工进行调节或通过检测环境噪声进行调节。
目前,传统的音量调节方法存在以下挑战和问题:1、在观众呼声较高或背景噪声较大时,人工根据经验被动调节时,往往会出现调节不及时,音量调节效率较低,经常出现音量持续较低或音量持续较大的情况,严重影响舞台效果的呈现;2、在舞台呈现中,影响音箱音量的因素众多,仅考虑环境噪声无法对音箱音量进行准确调整。
发明内容
本发明提供一种舞台音箱音量控制方法、装置、电子设备及可读存储介质,其主要目的在于解决无法准确控制舞台中音箱音量的问题。
为实现上述目的,本发明提供的一种舞台音箱音量控制方法,包括:
获取目标舞台中采集设备收集的音视频数据,对所述音视频数据进行数据编码,得到音频数据及视频数据;
基于遗传算法对所述音频数据进行噪声增强,得到增强后的背景噪声;
对所述背景噪声进行噪声识别,并根据识别结果计算背景噪声值;
基于预训练的Adaboost分类器从所述视频数据中检测出人数统计值;
对所述背景噪声值及所述人数统计值进行加权计算,并根据计算结果调整所述目标舞台中的音箱音量。
可选地,所述基于遗传算法对所述音频数据进行噪声增强,得到增强后的背景噪声,包括:
对所述音频数据进行小波包分解,得到混合音频信号集合;
对所述混合音频信号集合中的音频信号进行随机组合重构,得到重构音频信号集合;
对所述重构音频信号集合进行编码,并将编码后的集合作为初始种群;
基于所述遗传算法计算所述初始种群中重构音频信号的适应度,并选取适应度大于等于预设适应度阈值的重构音频信号作为优化种群;
对所述优化种群中的音频信号进行交叉及变异处理,并将交叉及变异处理后的优化种群作为初始种群,返回所述基于所述遗传算法计算所述初始种群中重构音频信号的适应度的步骤进行迭代,直至所述初始种群中重构音频信号的个数小于等于预设的信号个数时,将迭代完成的初始种群中的重构音频信号作为所述背景噪声。
可选地,所述对所述音频数据进行小波包分解,得到混合音频信号集合,包括:
利用Daubechies小波对所述音频信号进行小波包分解,得到初始低通滤波信号及初始高通滤波信号;
利用Daubechies小波分别重复对所述初始低通滤波信号及初始高通滤波信号进行预设尺度的参数分解,汇总所有分解得到的信号,得到所述混合音频信号集合。
可选地,所述对所述背景噪声进行噪声识别,并根据识别结果计算背景噪声值,包括:
利用K-means聚类算法对预设的原始噪声数据集合进行聚类,得到多个噪声聚类类别;
根据所述多个噪声聚类类别对所述背景噪声进行噪声匹配,将匹配成功的目标类别对应的预设权重值作为所述背景噪声值。
可选地,所述利用K-means聚类算法对预设的原始噪声数据集合进行聚类,得到多个噪声聚类类别,包括:
从所述原始噪声数据集合中随机选取多个数据作为初始的聚类中心;
依次计算所述原始噪声数据集合中噪声数据到多个所述聚类中心的欧氏距离,并将每个噪声数据分到欧式距离最小的聚类中心对应的类别中,得到多个类别簇;
重新计算每个类别簇的聚类中心,并返回依次计算所述原始噪声数据集合中噪声数据到多个所述聚类中心的欧氏距离的步骤,直至所述多个类别簇的聚类中心收敛,确定收敛的多个类别簇作为所述多个噪声聚类类别。
可选地,所述基于预训练的Adaboost分类器从所述视频数据中检测出人数统计值之前,所述方法还包括:
从所述采集设备中获取历史视频数据,逐帧读取所述历史视频数据,得到包含正样本及负样本的训练图像集合;
基于Adaboost算法,利用所述训练图像集合训练出预设个数的弱分类器;
从所述预设个数的弱分类器中选取错误率最小的分类器作为最优弱分类器;
调整所述训练图像集合中正样本及负样本的比例,得到调整后的训练图像集合,并返回所述利用所述训练图像集合训练出预设个数的弱分类器的步骤,直至满足预设的迭代次数,组合得到的所有最优弱分类器,得到所述Adaboost分类器。
可选地,所述对所述背景噪声值及所述人数统计值进行加权计算,并根据计算结果调整所述目标舞台中的音箱音量,包括:
根据预设的加权计算公式对所述背景噪声值及所述人数统计值进行加权计算,得到加权计算结果;
将所述加权计算结果作为所述目标舞台中的目标音量,将所述目标舞台中的音箱音量调整至所述目标音量。
为了解决上述问题,本发明还提供一种舞台音箱音量控制装置,所述装置包括:
数据编码模块,用于获取目标舞台中采集设备收集的音视频数据,对所述音视频数据进行数据编码,得到音频数据及视频数据;
噪声增强模块,用于基于遗传算法对所述音频数据进行噪声增强,得到增强后的背景噪声;
噪声识别模块,用于对所述背景噪声进行噪声识别,并根据识别结果计算背景噪声值;
人数统计模块,用于基于预训练的Adaboost分类器从所述视频数据中检测出人数统计值;
音量调整模块,用于对所述背景噪声值及所述人数统计值进行加权计算,并根据计算结果调整所述目标舞台中的音箱音量。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个计算机程序;及
处理器,执行所述存储器中存储的计算机程序以实现上述所述的舞台音箱音量控制方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的舞台音箱音量控制方法。
本实施例通过对目标舞台中采集的音视频数据进行数据编码,得到音频数据及视频数据,通过遗传算法进行噪声增强,并对增强后的噪声进行识别,可以更准确的识别出舞台周围环境中的背景噪声,同时,通过Adaboost分类器从视频数据中检测出人数统计值,根据背景噪声值及人数统计值加权得到的结果调整音箱音量,更充分考虑了影响舞台音箱音量的因素,因此使得音箱音量的调节更加准确。因此本发明提出的舞台音箱音量控制方法、装置、电子设备及计算机可读存储介质,可以解决无法准确控制舞台中音箱音量的问题。
附图说明
图1为本发明一实施例提供的舞台音箱音量控制方法的流程示意图;
图2为本发明一实施例提供的舞台音箱音量控制装置的功能模块图;
图3为本发明一实施例提供的实现所述舞台音箱音量控制方法的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种舞台音箱音量控制方法。所述舞台音箱音量控制方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述舞台音箱音量控制方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参照图1所示,为本发明一实施例提供的舞台音箱音量控制方法的流程示意图。在本实施例中,所述舞台音箱音量控制方法包括:
S1、获取目标舞台中采集设备收集的音视频数据,对所述音视频数据进行数据编码,得到音频数据及视频数据。
本发明实施例中,所述采集设备可以为嵌入式设备等,例如,在圆形舞台四周设置的IPC网络摄像机,通过IPC网络摄像机中的摄像头及麦克风不间断采集舞台现场周围的音视频类数据。所述数据编码是指将音频数据及视频数据进行分离,并进行不同的编码处理,例如,将音频数据和视频数据编码转换为连续的音视频流。
详细地,所述对所述音视频数据进行数据编码,得到音频数据及视频数据,包括:
利用预设的数据分离工具对所述音视频数据进行数据分离,并编码为连续的音频数据及视频数据。
本发明一可选实施例中,所述数据分离工具可以为FFMPEG工具、Replay MediaSplitter软件等来进行音频数据和视频数据分离,并编码转化为连续的流式数据。
S2、基于遗传算法对所述音频数据进行噪声增强,得到增强后的背景噪声。
本发明实施例中,由于舞台周围环境较为复杂,收集的音频数据中往往难以准确捕捉到背景噪声,通过遗传算法来对背景噪声进行信号增强,能够提高背景噪声识别的准确率。
具体的,所述基于遗传算法对所述音频数据进行噪声增强,得到增强后的背景噪声,包括:
对所述音频数据进行小波包分解,得到混合音频信号集合;
对所述混合音频信号集合中的音频信号进行随机组合重构,得到重构音频信号集合;
对所述重构音频信号集合进行编码,并将编码后的集合作为初始种群;
基于所述遗传算法计算所述初始种群中重构音频信号的适应度,并选取适应度大于等于预设适应度阈值的重构音频信号作为优化种群;
对所述优化种群中的音频信号进行交叉及变异处理,并将交叉及变异处理后的优化种群作为初始种群,返回所述基于所述遗传算法计算所述初始种群中重构音频信号的适应度的步骤进行迭代,直至所述初始种群中重构音频信号的个数小于等于预设的信号个数时,将迭代完成的初始种群中的重构音频信号作为所述背景噪声。
本发明一可选实施例中,所述对所述音频数据进行小波包分解,得到混合音频信号集合,包括:
利用Daubechies小波对所述音频信号进行小波包分解,得到初始低通滤波信号及初始高通滤波信号;
利用Daubechies小波分别重复对所述初始低通滤波信号及初始高通滤波信号进行预设尺度的参数分解,汇总所有分解得到的信号,得到所述混合音频信号集合。
本发明一可选实施例中,可以使用Daubechies小波对音频数据进行k尺度的参数分解,将其分解为2k个子信号,例如,对音频数据W进行尺度1的分解,得到低通滤波信号和高通滤波信号/>即小波包分解将原始信号分解为2个互相不重叠的低频段和高频段信号;将这2k个子信号进行随机组合重构,从而可以得到/>个重构音频信号,将每个重构音频信号与音频数据的背景噪声进行比较,判断哪一个更接近于背景噪声,从而得到更准确的背景噪声。
本发明实施例中,遗传算法的优化过程是采用一系列编码位串来描述问题的候选解,然后根据“适者生存”原则寻找最优解,具体包括编码、产生初始种群、适应度计算、选择、交叉和变异等。
具体地,遗传算法通过下述步骤进行噪声增强:
1、首先对重构音频信号集合中的信号进行二进制编码,即候选解的形式是一个0、1数据串,也称为染色体或个体。信号经过小波包分解得到2k个混合信号,所以染色体的长度是2k位,第γ位数据如果为1,则代表2k个子信号随机进行组合后的组合重构信号中包含信号为0则代表不包含该信号,这样2k位染色体就可以完全表示出2k个信号的随机组合;
2、随机产生N个2k位的染色体构成遗传算法的初始种群,其种群规模为N;计算每个染色体所表示的重构音频信号与初始的音频数据的适应度,可以用计算重构音频信号与初始的音频数据的2范数的平方表示;
3、从初始种群中选择出适应度更高的信号,可以使用锦标赛算法等;
4、对优化种群中的音频信号进行交叉和变异操作,以提高种群的多样性产生适应度更强的个体。交叉是在种群中随机选择两个个体交换部分数据位,变异是随机地改变染色体中的某一位的值,具体为根据特定随机函数的取值,例如使该数位由0变为1或由1变为0;
5、重复上述步骤1-4进行迭代,直至初始种群中的信号个数小于预设的个数要求,将迭代后的初始种群中的音频信号作为背景噪声。
本发明实施例中,通过小波包分解及遗传算法对背景噪声增强,可以减少环境、设备放电等因素对音频数据的影响,提高背景噪声识别的准确度。
S3、对所述背景噪声进行噪声识别,并根据识别结果计算背景噪声值。
本发明实施例中,以舞台音箱音量调整为例,由于背景噪声的多样性,对于不同噪声需要调整到不同的音量来提高舞台效果。
详细地,所述对所述背景噪声进行噪声识别,并根据识别结果计算背景噪声值,包括:
利用K-means聚类算法对预设的原始噪声数据集合进行聚类,得到多个噪声聚类类别;
根据所述多个噪声聚类类别对所述背景噪声进行噪声匹配,将匹配成功的目标类别对应的预设权重值作为所述背景噪声值。
进一步地,所述预设的原始噪声数据集合包括:说话声、哭声、汽车鸣笛声等噪声数据,通过K-means聚类算法聚类出相应噪声类别,并设置不同噪声类别的权重值,例如,哭声对应的权重值为40。
具体地,所述利用K-means聚类算法对预设的原始噪声数据集合进行聚类,得到多个噪声聚类类别,包括:
从所述原始噪声数据集合中随机选取多个数据作为初始的聚类中心;
依次计算所述原始噪声数据集合中噪声数据到多个所述聚类中心的欧氏距离,并将每个噪声数据分到欧式距离最小的聚类中心对应的类别中,得到多个类别簇;
重新计算每个类别簇的聚类中心,并返回依次计算所述原始噪声数据集合中噪声数据到多个所述聚类中心的欧氏距离的步骤,直至所述多个类别簇的聚类中心收敛,确定收敛的多个类别簇作为所述多个噪声聚类类别。
本发明一可选实施例中,所述计算每个类别簇的聚类中心,包括:
通过下述公式计算每个类别簇的聚类中心:
其中,Ei为第i个初始聚类中心,Ci为第i个类别簇,x为类别簇中的噪声数据。
S4、基于预训练的Adaboost分类器从所述视频数据中检测出人数统计值。
本发明实施例中,人流量也是影响舞台音箱效果的重要因素,由于人数统计本质上是一种二分类问题,而Adaboost算法是一种迭代算法,其核心的思想是针对同一个训练集训练不同的弱分类器,然后把这些弱分类器集合起来,构成一个强分类器,因此可以提高二分类问题的准确性,提高人数统计的准确率。
具体地,所述基于预训练的Adaboost分类器从所述视频数据中检测出人数统计值之前,所述方法还包括:
从所述采集设备中获取历史视频数据,逐帧读取所述历史视频数据,得到包含正样本及负样本的训练图像集合;
基于Adaboost算法,利用所述训练图像集合训练出预设个数的弱分类器;
从所述预设个数的弱分类器中选取错误率最小的分类器作为最优弱分类器;
调整所述训练图像集合中正样本及负样本的比例,得到调整后的训练图像集合,并返回所述利用所述训练图像集合训练出预设个数的弱分类器的步骤,直至满足预设的迭代次数,组合得到的所有最优弱分类器,得到所述Adaboost分类器。
本发明一可选实施例中,从舞台设置的网络摄像头中获取历史视频数据作为训练图像集合,其中将包括人头的图像作为正样本,不包括人头的图像作为负样本,利用Adaboost算法训练出T个弱分类器,根据每个弱分类器识别人数的错误率,选取错误率最低的分类器作为最优分类器,同时通过调整正样本及负样本的比例,减小最优弱分类器预测分类效果较好的数据的概率,增大弱分类器预测分类效果较差的数据的概率,最终通过T轮训练不断迭代,得到T个最优弱分类器并加权平均,得到强分类器,即所述Adaboost分类器。
进一步地,所述利用所述训练图像集合训练出预设个数的弱分类器,包括:
从所述训练图像集合中选取所述预设个数的子图像训练集合,基于积分图算法提取所述子训练图像集合中图像的特征值;
基于所述Adaboost算法对每个子图像训练集合生成一个初始弱分类器,并利用子图像训练集合中的特征值训练对应的初始弱分类器,得到所述预设个数的弱分类器。
本发明实施例中,积分图主要的思想是将图像从起点开始到各个点所形成的矩形区域像素之和作为一个数组的元素保存在内存中,当要计算某个区域的像素和时可以直接索引数组的元素,不用重新计算这个区域的像素和,从而加快了计算,所述特征值可以为Haar-Like特征。
详细地,通过逐帧读取所述视频数据,利用强分类器(即Adaboost分类器)可以准确识别出所述视频数据中的人数作为人流量。
S5、对所述背景噪声值及所述人数统计值进行加权计算,并根据计算结果调整所述目标舞台中的音箱音量。
本发明实施例中,由于背景噪声及人流量都会影响舞台音响的效果,通过对背景噪声值及人数统计值进行加权计算,可以考虑多种舞台音箱的影响因素,并根据计算结果自动调整目标舞台中的音箱音量,提高了舞台控制的智能化。
详细地,所述对所述背景噪声值及所述人数统计值进行加权计算,并根据计算结果调整所述目标舞台中的音箱音量,包括:
根据预设的加权计算公式对所述背景噪声值及所述人数统计值进行加权计算,得到加权计算结果;
将所述加权计算结果作为所述目标舞台中的目标音量,将所述目标舞台中的音箱音量调整至所述目标音量。
本发明一可选实施例中,所述根据预设的加权计算公式对所述背景噪声值及所述人数统计值进行加权计算,包括:
利用下述加权计算公式对所述背景噪声值及所述人数统计值进行加权计算:
V=αB+βP
其中,V为所述加权计算结果,B为所述背景噪声值,P为所述人数统计值,α、β为预设权重。
例如,B为60,α为0.5,P为500人,β为0.1,则V=80,则目标音量为80,将目标舞台中音箱音量调整至80。
本实施例通过对目标舞台中采集的音视频数据进行数据编码,得到音频数据及视频数据,通过遗传算法进行噪声增强,并对增强后的噪声进行识别,可以更准确的识别出舞台周围环境中的背景噪声,同时,通过Adaboost分类器从视频数据中检测出人数统计值,根据背景噪声值及人数统计值加权得到的结果调整音箱音量,更充分考虑了影响舞台音箱音量的因素,因此使得音箱音量的调节更加准确。因此本发明提出的舞台音箱音量控制方法,可以解决无法准确控制舞台中音箱音量的问题。
如图2所示,是本发明一实施例提供的舞台音箱音量控制装置的功能模块图。
本发明所述舞台音箱音量控制装置100可以安装于电子设备中。根据实现的功能,所述舞台音箱音量控制装置100可以包括数据编码模块101、噪声增强模块102、噪声识别模块103、人数统计模块104及音量调整模块105。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述数据编码模块101,用于获取目标舞台中采集设备收集的音视频数据,对所述音视频数据进行数据编码,得到音频数据及视频数据;
所述噪声增强模块102,用于基于遗传算法对所述音频数据进行噪声增强,得到增强后的背景噪声;
所述噪声识别模块103,用于对所述背景噪声进行噪声识别,并根据识别结果计算背景噪声值;
所述人数统计模块104,用于基于预训练的Adaboost分类器从所述视频数据中检测出人数统计值;
所述音量调整模块105,用于对所述背景噪声值及所述人数统计值进行加权计算,并根据计算结果调整所述目标舞台中的音箱音量。
详细地,所述舞台音箱音量控制装置100各模块的具体实施方式如下:
步骤一、获取目标舞台中采集设备收集的音视频数据,对所述音视频数据进行数据编码,得到音频数据及视频数据。
本发明实施例中,所述采集设备可以为嵌入式设备等,例如,在圆形舞台四周设置的IPC网络摄像机,通过IPC网络摄像机中的摄像头及麦克风不间断采集舞台现场周围的音视频类数据。所述数据编码是指将音频数据及视频数据进行分离,并进行不同的编码处理,例如,将音频数据和视频数据编码转换为连续的音视频流。
详细地,所述对所述音视频数据进行数据编码,得到音频数据及视频数据,包括:
利用预设的数据分离工具对所述音视频数据进行数据分离,并编码为连续的音频数据及视频数据。
本发明一可选实施例中,所述数据分离工具可以为FFMPEG工具、Replay MediaSplitter软件等来进行音频数据和视频数据分离,并编码转化为连续的流式数据。
步骤二、基于遗传算法对所述音频数据进行噪声增强,得到增强后的背景噪声。
本发明实施例中,由于舞台周围环境较为复杂,收集的音频数据中往往难以准确捕捉到背景噪声,通过遗传算法来对背景噪声进行信号增强,能够提高背景噪声识别的准确率。
具体的,所述基于遗传算法对所述音频数据进行噪声增强,得到增强后的背景噪声,包括:
对所述音频数据进行小波包分解,得到混合音频信号集合;
对所述混合音频信号集合中的音频信号进行随机组合重构,得到重构音频信号集合;
对所述重构音频信号集合进行编码,并将编码后的集合作为初始种群;
基于所述遗传算法计算所述初始种群中重构音频信号的适应度,并选取适应度大于等于预设适应度阈值的重构音频信号作为优化种群;
对所述优化种群中的音频信号进行交叉及变异处理,并将交叉及变异处理后的优化种群作为初始种群,返回所述基于所述遗传算法计算所述初始种群中重构音频信号的适应度的步骤进行迭代,直至所述初始种群中重构音频信号的个数小于等于预设的信号个数时,将迭代完成的初始种群中的重构音频信号作为所述背景噪声。
本发明一可选实施例中,所述对所述音频数据进行小波包分解,得到混合音频信号集合,包括:
利用Daubechies小波对所述音频信号进行小波包分解,得到初始低通滤波信号及初始高通滤波信号;
利用Daubechies小波分别重复对所述初始低通滤波信号及初始高通滤波信号进行预设尺度的参数分解,汇总所有分解得到的信号,得到所述混合音频信号集合。
本发明一可选实施例中,可以使用Daubechies小波对音频数据进行k尺度的参数分解,将其分解为2k个子信号,例如,对音频数据W进行尺度1的分解,得到低通滤波信号和高通滤波信号/>即小波包分解将原始信号分解为2个互相不重叠的低频段和高频段信号;将这2k个子信号进行随机组合重构,从而可以得到/>个重构音频信号,将每个重构音频信号与音频数据的背景噪声进行比较,判断哪一个更接近于背景噪声,从而得到更准确的背景噪声。
本发明实施例中,遗传算法的优化过程是采用一系列编码位串来描述问题的候选解,然后根据“适者生存”原则寻找最优解,具体包括编码、产生初始种群、适应度计算、选择、交叉和变异等。
具体地,遗传算法通过下述步骤进行噪声增强:
1、首先对重构音频信号集合中的信号进行二进制编码,即候选解的形式是一个0、1数据串,也称为染色体或个体。信号经过小波包分解得到2k个混合信号,所以染色体的长度是2k位,第γ位数据如果为1,则代表2k个子信号随机进行组合后的组合重构信号中包含信号为0则代表不包含该信号,这样2k位染色体就可以完全表示出2k个信号的随机组合;
2、随机产生N个2k位的染色体构成遗传算法的初始种群,其种群规模为N;计算每个染色体所表示的重构音频信号与初始的音频数据的适应度,可以用计算重构音频信号与初始的音频数据的2范数的平方表示;
3、从初始种群中选择出适应度更高的信号,可以使用锦标赛算法等;
4、对优化种群中的音频信号进行交叉和变异操作,以提高种群的多样性产生适应度更强的个体。交叉是在种群中随机选择两个个体交换部分数据位,变异是随机地改变染色体中的某一位的值,具体为根据特定随机函数的取值,例如使该数位由0变为1或由1变为0;
5、重复上述步骤1-4进行迭代,直至初始种群中的信号个数小于预设的个数要求,将迭代后的初始种群中的音频信号作为背景噪声。
本发明实施例中,通过小波包分解及遗传算法对背景噪声增强,可以减少环境、设备放电等因素对音频数据的影响,提高背景噪声识别的准确度。
步骤三、对所述背景噪声进行噪声识别,并根据识别结果计算背景噪声值。
本发明实施例中,以舞台音箱音量调整为例,由于背景噪声的多样性,对于不同噪声需要调整到不同的音量来提高舞台效果。
详细地,所述对所述背景噪声进行噪声识别,并根据识别结果计算背景噪声值,包括:
利用K-means聚类算法对预设的原始噪声数据集合进行聚类,得到多个噪声聚类类别;
根据所述多个噪声聚类类别对所述背景噪声进行噪声匹配,将匹配成功的目标类别对应的预设权重值作为所述背景噪声值。
进一步地,所述预设的原始噪声数据集合包括:说话声、哭声、汽车鸣笛声等噪声数据,通过K-means聚类算法聚类出相应噪声类别,并设置不同噪声类别的权重值,例如,哭声对应的权重值为40。
具体地,所述利用K-means聚类算法对预设的原始噪声数据集合进行聚类,得到多个噪声聚类类别,包括:
从所述原始噪声数据集合中随机选取多个数据作为初始的聚类中心;
依次计算所述原始噪声数据集合中噪声数据到多个所述聚类中心的欧氏距离,并将每个噪声数据分到欧式距离最小的聚类中心对应的类别中,得到多个类别簇;
重新计算每个类别簇的聚类中心,并返回依次计算所述原始噪声数据集合中噪声数据到多个所述聚类中心的欧氏距离的步骤,直至所述多个类别簇的聚类中心收敛,确定收敛的多个类别簇作为所述多个噪声聚类类别。
本发明一可选实施例中,所述计算每个类别簇的聚类中心,包括:
通过下述公式计算每个类别簇的聚类中心:
其中,Ei为第i个初始聚类中心,Ci为第i个类别簇,x为类别簇中的噪声数据。
步骤四、基于预训练的Adaboost分类器从所述视频数据中检测出人数统计值。
本发明实施例中,人流量也是影响舞台音箱效果的重要因素,由于人数统计本质上是一种二分类问题,而Adaboost算法是一种迭代算法,其核心的思想是针对同一个训练集训练不同的弱分类器,然后把这些弱分类器集合起来,构成一个强分类器,因此可以提高二分类问题的准确性,提高人数统计的准确率。
具体地,所述基于预训练的Adaboost分类器从所述视频数据中检测出人数统计值之前,所述方法还包括:
从所述采集设备中获取历史视频数据,逐帧读取所述历史视频数据,得到包含正样本及负样本的训练图像集合;
基于Adaboost算法,利用所述训练图像集合训练出预设个数的弱分类器;
从所述预设个数的弱分类器中选取错误率最小的分类器作为最优弱分类器;
调整所述训练图像集合中正样本及负样本的比例,得到调整后的训练图像集合,并返回所述利用所述训练图像集合训练出预设个数的弱分类器的步骤,直至满足预设的迭代次数,组合得到的所有最优弱分类器,得到所述Adaboost分类器。
本发明一可选实施例中,从舞台设置的网络摄像头中获取历史视频数据作为训练图像集合,其中将包括人头的图像作为正样本,不包括人头的图像作为负样本,利用Adaboost算法训练出T个弱分类器,根据每个弱分类器识别人数的错误率,选取错误率最低的分类器作为最优分类器,同时通过调整正样本及负样本的比例,减小最优弱分类器预测分类效果较好的数据的概率,增大弱分类器预测分类效果较差的数据的概率,最终通过T轮训练不断迭代,得到T个最优弱分类器并加权平均,得到强分类器,即所述Adaboost分类器。
进一步地,所述利用所述训练图像集合训练出预设个数的弱分类器,包括:
从所述训练图像集合中选取所述预设个数的子图像训练集合,基于积分图算法提取所述子训练图像集合中图像的特征值;
基于所述Adaboost算法对每个子图像训练集合生成一个初始弱分类器,并利用子图像训练集合中的特征值训练对应的初始弱分类器,得到所述预设个数的弱分类器。
本发明实施例中,积分图主要的思想是将图像从起点开始到各个点所形成的矩形区域像素之和作为一个数组的元素保存在内存中,当要计算某个区域的像素和时可以直接索引数组的元素,不用重新计算这个区域的像素和,从而加快了计算,所述特征值可以为Haar-Like特征。
详细地,通过逐帧读取所述视频数据,利用强分类器(即Adaboost分类器)可以准确识别出所述视频数据中的人数作为人流量。
步骤五、对所述背景噪声值及所述人数统计值进行加权计算,并根据计算结果调整所述目标舞台中的音箱音量。
本发明实施例中,由于背景噪声及人流量都会影响舞台音响的效果,通过对背景噪声值及人数统计值进行加权计算,可以考虑多种舞台音箱的影响因素,并根据计算结果自动调整目标舞台中的音箱音量,提高了舞台控制的智能化。
详细地,所述对所述背景噪声值及所述人数统计值进行加权计算,并根据计算结果调整所述目标舞台中的音箱音量,包括:
根据预设的加权计算公式对所述背景噪声值及所述人数统计值进行加权计算,得到加权计算结果;
将所述加权计算结果作为所述目标舞台中的目标音量,将所述目标舞台中的音箱音量调整至所述目标音量。
本发明一可选实施例中,所述根据预设的加权计算公式对所述背景噪声值及所述人数统计值进行加权计算,包括:
利用下述加权计算公式对所述背景噪声值及所述人数统计值进行加权计算:
V=αB+βP
其中,V为所述加权计算结果,B为所述背景噪声值,P为所述人数统计值,α、β为预设权重。
例如,B为60,α为0.5,P为500人,β为0.1,则V=80,则目标音量为80,将目标舞台中音箱音量调整至80。
本实施例通过对目标舞台中采集的音视频数据进行数据编码,得到音频数据及视频数据,通过遗传算法进行噪声增强,并对增强后的噪声进行识别,可以更准确的识别出舞台周围环境中的背景噪声,同时,通过Adaboost分类器从视频数据中检测出人数统计值,根据背景噪声值及人数统计值加权得到的结果调整音箱音量,更充分考虑了影响舞台音箱音量的因素,因此使得音箱音量的调节更加准确。因此本发明提出的舞台音箱音量控制装置,可以解决无法准确控制舞台中音箱音量的问题。
如图3所示,是本发明一实施例提供的实现舞台音箱音量控制方法的电子设备的结构示意图。
所述电子设备可以包括处理器10、存储器11、通信接口12和总线13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如舞台音箱音量控制程序。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如舞台音箱音量控制程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如舞台音箱音量控制程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
所述通信接口12用于上述电子设备与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
所述总线13可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线13可以分为地址总线、数据总线、控制总线等。所述总线13被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。
可选地,该电子设备还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备中的所述存储器11存储的舞台音箱音量控制程序是多个指令的组合,在所述处理器10中运行时,可以实现:
获取目标舞台中采集设备收集的音视频数据,对所述音视频数据进行数据编码,得到音频数据及视频数据;
基于遗传算法对所述音频数据进行噪声增强,得到增强后的背景噪声;
对所述背景噪声进行噪声识别,并根据识别结果计算背景噪声值;
基于预训练的Adaboost分类器从所述视频数据中检测出人数统计值;
对所述背景噪声值及所述人数统计值进行加权计算,并根据计算结果调整所述目标舞台中的音箱音量。
具体地,所述处理器10对上述指令的具体实现方法可参考附图对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
获取目标舞台中采集设备收集的音视频数据,对所述音视频数据进行数据编码,得到音频数据及视频数据;
基于遗传算法对所述音频数据进行噪声增强,得到增强后的背景噪声;
对所述背景噪声进行噪声识别,并根据识别结果计算背景噪声值;
基于预训练的Adaboost分类器从所述视频数据中检测出人数统计值;
对所述背景噪声值及所述人数统计值进行加权计算,并根据计算结果调整所述目标舞台中的音箱音量。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (8)

1.一种舞台音箱音量控制方法,其特征在于,所述方法包括:
获取目标舞台中采集设备收集的音视频数据,对所述音视频数据进行数据编码,得到音频数据及视频数据;
基于遗传算法对所述音频数据进行噪声增强,得到增强后的背景噪声;
对所述背景噪声进行噪声识别,并根据识别结果计算背景噪声值;
基于预训练的Adaboost分类器从所述视频数据中检测出人数统计值;
对所述背景噪声值及所述人数统计值进行加权计算,并根据计算结果调整所述目标舞台中的音箱音量;
所述基于遗传算法对所述音频数据进行噪声增强,得到增强后的背景噪声,包括:
对所述音频数据进行小波包分解,得到混合音频信号集合;
对所述混合音频信号集合中的音频信号进行随机组合重构,得到重构音频信号集合;
对所述重构音频信号集合进行编码,并将编码后的集合作为初始种群;
基于所述遗传算法计算所述初始种群中重构音频信号的适应度,并选取适应度大于等于预设适应度阈值的重构音频信号作为优化种群;
对所述优化种群中的音频信号进行交叉及变异处理,并将交叉及变异处理后的优化种群作为初始种群,返回所述基于所述遗传算法计算所述初始种群中重构音频信号的适应度的步骤进行迭代,直至所述初始种群中重构音频信号的个数小于等于预设的信号个数时,将迭代完成的初始种群中的重构音频信号作为所述背景噪声;
所述对所述音频数据进行小波包分解,得到混合音频信号集合,包括:
利用Daubechies小波对所述音频信号进行小波包分解,得到初始低通滤波信号及初始高通滤波信号;
利用Daubechies小波分别重复对所述初始低通滤波信号及初始高通滤波信号进行预设尺度的参数分解,汇总所有分解得到的信号,得到所述混合音频信号集合。
2.如权利要求1所述的舞台音箱音量控制方法,其特征在于,所述对所述背景噪声进行噪声识别,并根据识别结果计算背景噪声值,包括:
利用K-means聚类算法对预设的原始噪声数据集合进行聚类,得到多个噪声聚类类别;
根据所述多个噪声聚类类别对所述背景噪声进行噪声匹配,将匹配成功的目标类别对应的预设权重值作为所述背景噪声值。
3.如权利要求2所述的舞台音箱音量控制方法,其特征在于,所述利用K-means聚类算法对预设的原始噪声数据集合进行聚类,得到多个噪声聚类类别,包括:
从所述原始噪声数据集合中随机选取多个数据作为初始的聚类中心;
依次计算所述原始噪声数据集合中噪声数据到多个所述聚类中心的欧氏距离,并将每个噪声数据分到欧式距离最小的聚类中心对应的类别中,得到多个类别簇;
重新计算每个类别簇的聚类中心,并返回依次计算所述原始噪声数据集合中噪声数据到多个所述聚类中心的欧氏距离的步骤,直至所述多个类别簇的聚类中心收敛,确定收敛的多个类别簇作为所述多个噪声聚类类别。
4.如权利要求1所述的舞台音箱音量控制方法,其特征在于,所述基于预训练的Adaboost分类器从所述视频数据中检测出人数统计值之前,所述方法还包括:
从所述采集设备中获取历史视频数据,逐帧读取所述历史视频数据,得到包含正样本及负样本的训练图像集合;
基于Adaboost算法,利用所述训练图像集合训练出预设个数的弱分类器;
从所述预设个数的弱分类器中选取错误率最小的分类器作为最优弱分类器;
调整所述训练图像集合中正样本及负样本的比例,得到调整后的训练图像集合,并返回所述利用所述训练图像集合训练出预设个数的弱分类器的步骤,直至满足预设的迭代次数,组合得到的所有最优弱分类器,得到所述Adaboost分类器。
5.如权利要求1所述的舞台音箱音量控制方法,其特征在于,所述对所述背景噪声值及所述人数统计值进行加权计算,并根据计算结果调整所述目标舞台中的音箱音量,包括:
根据预设的加权计算公式对所述背景噪声值及所述人数统计值进行加权计算,得到加权计算结果;
将所述加权计算结果作为所述目标舞台中的目标音量,将所述目标舞台中的音箱音量调整至所述目标音量。
6.一种舞台音箱音量控制装置,其特征在于,所述装置包括:
数据编码模块,用于获取目标舞台中采集设备收集的音视频数据,对所述音视频数据进行数据编码,得到音频数据及视频数据;
噪声增强模块,用于基于遗传算法对所述音频数据进行噪声增强,得到增强后的背景噪声,包括:对所述音频数据进行小波包分解,得到混合音频信号集合;对所述混合音频信号集合中的音频信号进行随机组合重构,得到重构音频信号集合;对所述重构音频信号集合进行编码,并将编码后的集合作为初始种群;基于所述遗传算法计算所述初始种群中重构音频信号的适应度,并选取适应度大于等于预设适应度阈值的重构音频信号作为优化种群;对所述优化种群中的音频信号进行交叉及变异处理,并将交叉及变异处理后的优化种群作为初始种群,返回所述基于所述遗传算法计算所述初始种群中重构音频信号的适应度的步骤进行迭代,直至所述初始种群中重构音频信号的个数小于等于预设的信号个数时,将迭代完成的初始种群中的重构音频信号作为所述背景噪声;
其中,所述对所述音频数据进行小波包分解,得到混合音频信号集合,包括:利用Daubechies小波对所述音频信号进行小波包分解,得到初始低通滤波信号及初始高通滤波信号;利用Daubechies小波分别重复对所述初始低通滤波信号及初始高通滤波信号进行预设尺度的参数分解,汇总所有分解得到的信号,得到所述混合音频信号集合;
噪声识别模块,用于对所述背景噪声进行噪声识别,并根据识别结果计算背景噪声值;
人数统计模块,用于基于预训练的Adaboost分类器从所述视频数据中检测出人数统计值;
音量调整模块,用于对所述背景噪声值及所述人数统计值进行加权计算,并根据计算结果调整所述目标舞台中的音箱音量。
7.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至5中任意一项所述的舞台音箱音量控制方法。
8.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任意一项所述的舞台音箱音量控制方法。
CN202210251589.7A 2022-03-15 2022-03-15 舞台音箱音量控制方法、装置、电子设备及介质 Active CN114630238B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210251589.7A CN114630238B (zh) 2022-03-15 2022-03-15 舞台音箱音量控制方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210251589.7A CN114630238B (zh) 2022-03-15 2022-03-15 舞台音箱音量控制方法、装置、电子设备及介质

Publications (2)

Publication Number Publication Date
CN114630238A CN114630238A (zh) 2022-06-14
CN114630238B true CN114630238B (zh) 2024-05-17

Family

ID=81902712

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210251589.7A Active CN114630238B (zh) 2022-03-15 2022-03-15 舞台音箱音量控制方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN114630238B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115835087B (zh) * 2023-02-16 2023-05-19 广东万圣科技有限公司 一种音响系统运行智能控制方法

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0313109A (ja) * 1989-06-12 1991-01-22 Omron Corp 音量調節装置
KR970048168U (ko) * 1995-12-31 1997-07-31 시청자 수에 따른 음량조절장치
JPH11164386A (ja) * 1997-11-25 1999-06-18 Nec Corp 音量レベルの自動調節方式
CN101324926A (zh) * 2008-07-25 2008-12-17 重庆大学 一种面向复杂模式分类的特征选择方法
CN101980245A (zh) * 2010-10-11 2011-02-23 北京航空航天大学 一种基于自适应模板匹配的客流统计方法
KR20110032286A (ko) * 2009-09-22 2011-03-30 김은숙 텔레비전의 볼륨 자동 조절 방법 및 시스템
WO2014193056A1 (ko) * 2013-05-31 2014-12-04 주식회사 토페스 횡단보도에서의 안내 방송 음량 제어 장치 및 방법
WO2014205734A1 (en) * 2013-06-27 2014-12-31 Verizon Patent And Licensing Inc. Automated audio adjustment
CN105763736A (zh) * 2016-04-06 2016-07-13 上海斐讯数据通信技术有限公司 一种自适应噪音的音量调节装置及其方法、一种移动终端
CN106126177A (zh) * 2016-06-21 2016-11-16 中国农业大学 一种目标声音的音量调节系统及方法
CN106326839A (zh) * 2016-08-11 2017-01-11 中防通用河北电信技术有限公司 一种基于出操视频流的人数统计方法
CN108122310A (zh) * 2017-11-20 2018-06-05 电子科技大学 一种基于WiFi信道状态信息和动态时间规整的人流量统计方法
CN108694384A (zh) * 2018-05-14 2018-10-23 芜湖岭上信息科技有限公司 一种基于图像和声音的观众满意度调查装置和方法
KR101961793B1 (ko) * 2017-09-29 2019-03-25 (주)파워피디 노이즈 제거 장치 및 방법
CN110246481A (zh) * 2019-04-03 2019-09-17 吉林大学 一种预测发动机转速的汽车主动降噪方法
CN111208970A (zh) * 2020-01-06 2020-05-29 广东小天才科技有限公司 音频播放方法及音频播放装置
CN113191133A (zh) * 2021-04-21 2021-07-30 北京邮电大学 一种基于Doc2Vec的音频文本对齐方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8157730B2 (en) * 2006-12-19 2012-04-17 Valencell, Inc. Physiological and environmental monitoring systems and methods

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0313109A (ja) * 1989-06-12 1991-01-22 Omron Corp 音量調節装置
KR970048168U (ko) * 1995-12-31 1997-07-31 시청자 수에 따른 음량조절장치
JPH11164386A (ja) * 1997-11-25 1999-06-18 Nec Corp 音量レベルの自動調節方式
CN101324926A (zh) * 2008-07-25 2008-12-17 重庆大学 一种面向复杂模式分类的特征选择方法
KR20110032286A (ko) * 2009-09-22 2011-03-30 김은숙 텔레비전의 볼륨 자동 조절 방법 및 시스템
CN101980245A (zh) * 2010-10-11 2011-02-23 北京航空航天大学 一种基于自适应模板匹配的客流统计方法
WO2014193056A1 (ko) * 2013-05-31 2014-12-04 주식회사 토페스 횡단보도에서의 안내 방송 음량 제어 장치 및 방법
WO2014205734A1 (en) * 2013-06-27 2014-12-31 Verizon Patent And Licensing Inc. Automated audio adjustment
CN105763736A (zh) * 2016-04-06 2016-07-13 上海斐讯数据通信技术有限公司 一种自适应噪音的音量调节装置及其方法、一种移动终端
CN106126177A (zh) * 2016-06-21 2016-11-16 中国农业大学 一种目标声音的音量调节系统及方法
CN106326839A (zh) * 2016-08-11 2017-01-11 中防通用河北电信技术有限公司 一种基于出操视频流的人数统计方法
KR101961793B1 (ko) * 2017-09-29 2019-03-25 (주)파워피디 노이즈 제거 장치 및 방법
CN108122310A (zh) * 2017-11-20 2018-06-05 电子科技大学 一种基于WiFi信道状态信息和动态时间规整的人流量统计方法
CN108694384A (zh) * 2018-05-14 2018-10-23 芜湖岭上信息科技有限公司 一种基于图像和声音的观众满意度调查装置和方法
CN110246481A (zh) * 2019-04-03 2019-09-17 吉林大学 一种预测发动机转速的汽车主动降噪方法
CN111208970A (zh) * 2020-01-06 2020-05-29 广东小天才科技有限公司 音频播放方法及音频播放装置
CN113191133A (zh) * 2021-04-21 2021-07-30 北京邮电大学 一种基于Doc2Vec的音频文本对齐方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Spatial noise cancellation inside cars:Performance analysis and experomental results;Hanchi Chen;《2015 IEEE Workshop on Application of Signal Processing to Audio and Acoustics(WASPAA)》;全文 *
基于情感计算理论的老年人可穿戴产品交互方式研究;李豪;《中国优秀硕士学位论文全文数据库-工程科技II辑》;全文 *

Also Published As

Publication number Publication date
CN114630238A (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
US11636328B2 (en) L2 constrained softmax loss for discriminative face verification
US11158329B2 (en) Identification of fake audio content
CN108021908B (zh) 人脸年龄段识别方法及装置、计算机装置及可读存储介质
US11270684B2 (en) Generation of speech with a prosodic characteristic
CN106157972B (zh) 使用局部二进制模式进行声学情境辨识的方法和设备
CN113488063B (zh) 一种基于混合特征及编码解码的音频分离方法
US11457033B2 (en) Rapid model retraining for a new attack vector
CN114630238B (zh) 舞台音箱音量控制方法、装置、电子设备及介质
US20230386502A1 (en) Audio-Visual Separation of On-Screen Sounds based on Machine Learning Models
CN114155832A (zh) 基于深度学习的语音识别方法、装置、设备及介质
CN114065838B (zh) 一种低光照障碍物检测方法、系统、终端以及存储介质
CN112084887A (zh) 一种基于注意力机制的自适应视频分类方法及系统
CN113870863A (zh) 声纹识别方法及装置、存储介质及电子设备
CN113823303A (zh) 音频降噪方法、装置及计算机可读存储介质
CN115954019B (zh) 一种融合自注意力和卷积操作的环境噪声识别方法及系统
CN112750448B (zh) 声音场景的识别方法、装置、设备及存储介质
CN114945105A (zh) 一种结合声音补偿下的无线耳机音频滞后性抵消方法
CN115132181A (zh) 语音识别方法、装置、电子设备、存储介质及程序产品
CN111401317B (zh) 视频分类方法、装置、设备及存储介质
CN113762042A (zh) 视频识别方法、装置、设备以及存储介质
CN114627455A (zh) 一种输电线路缺销螺栓弱监督检测方法
CN116959489B (zh) 语音模型的量化方法、装置、服务器及存储介质
CN111611827A (zh) 一种图像处理方法及装置
US11869492B2 (en) Anomaly detection system and method using noise signal and adversarial neural network
US20240127838A1 (en) Media segment prediction for media generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240418

Address after: 510000 Xingwang Industrial Park, Hengling South Road, Shimen Street, Baiyun District, Guangzhou City, Guangdong Province

Applicant after: GUANGZHOU HONGPAI AUDIO CO.,LTD.

Country or region after: China

Address before: Room 0570, zone B, second floor, No. 8, Shengtang street, Cencun, Tianhe District, Guangzhou, Guangdong 510000

Applicant before: Guangzhou Kangsheng Network Technology Co.,Ltd.

Country or region before: China

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant