CN116469413B - 一种基于人工智能的压缩音频静默检测方法及装置 - Google Patents
一种基于人工智能的压缩音频静默检测方法及装置 Download PDFInfo
- Publication number
- CN116469413B CN116469413B CN202310350527.6A CN202310350527A CN116469413B CN 116469413 B CN116469413 B CN 116469413B CN 202310350527 A CN202310350527 A CN 202310350527A CN 116469413 B CN116469413 B CN 116469413B
- Authority
- CN
- China
- Prior art keywords
- compressed audio
- silence
- neural network
- convolutional neural
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 43
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 25
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 66
- 238000000034 method Methods 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 10
- 230000035945 sensitivity Effects 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000005055 memory storage Effects 0.000 abstract description 5
- 230000000875 corresponding effect Effects 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 8
- 230000006835 compression Effects 0.000 description 6
- 238000007906 compression Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开一种基于人工智能的压缩音频静默检测方法及装置,所述方法包括:确认压缩音频序列所采用的编码算法以及数据帧长度;根据所述编码算法选择对应的卷积神经网络;根据所述数据帧长度设置所述卷积神经网络的输入特征数量;根据所述输入特征数量调整数据帧长度,通过所述卷积神经网络对调整后的所述压缩音频序列进行识别,得所述到压缩音频序列的特征值;若所述特征值低于预设静默阈值,判断所述压缩音频序列为静默音频。采用本发明,检测静默状态时不需要解码基带音频数据,大大减少了运算量、检测设备的内存储存空间要求。
Description
技术领域
本发明涉及压缩音频处理技术领域,尤其涉及一种基于人工智能的压缩音频静默检测方法及装置。
背景技术
随着科技的发展,音频压缩技术广泛应用于各行各业,音频静默检测技术也服务于各种行业,例如会议对讲领域,VOIP电话会议。现有针对压缩音频的音频静默检测技术,通过处理器解码压缩音频获取音频基带信号,分析音频基带信号,采用包络检测,声音分贝或者过零检测方法来判断。
现有的针对压缩音频的音频静默检测技术存在以下不足:
一是由于需要分析基带音频数据,大量场景需要进行解码后再分析,运算量大;二是由于基带数据量大,对处理设备的内存储存空间要求大。
发明内容
本发明实施例提供一种基于人工智能的压缩音频静默检测方法及装置,在不需要解码的情况下实现静默检测。
为实现上述目的,本申请实施例的第一方面提供一种基于人工智能的压缩音频静默检测方法,包括:
确认压缩音频序列所采用的编码算法以及数据帧长度;
根据所述编码算法选择对应的卷积神经网络;
根据所述数据帧长度设置所述卷积神经网络的输入特征数量;
根据所述输入特征数量调整数据帧长度,通过所述卷积神经网络对调整后的所述压缩音频序列进行识别,得所述到压缩音频序列的特征值;
若所述特征值低于预设静默阈值,判断所述压缩音频序列为静默音频。
在第一方面的一种可能的实现方式中,所述对应的卷积神经网络的训练过程为:
采集不同静默状态下经过所述编码算法编码后的静默压缩音频数据和非静默状态下经过所述编码算法编码后的非静默压缩音频数据;
对所述静默压缩音频数据和所述非静默压缩音频数据进行补帧;
不断调整卷积神经网络的权重,使所述卷积神经网络对所述静默压缩音频数据的输出值为1,使所述卷积神经网络对所述非静默压缩音频数据的输出值为0。
在第一方面的一种可能的实现方式中,寻找所述压缩音频序列中最大的数据帧;
在全部大于或等于所述最大的数据帧长度的16公倍数中选出最小值作为输入特征数量的值。
在第一方面的一种可能的实现方式中,所述根据所述输入特征数量调整数据帧长度,具体包括:
将所述压缩音频序列中长度小于所述输入特征数量的数据帧进行填充补齐,使所述压缩音频序列中每一个数据帧长度均等于所述输入特征数量。
第一方面的一种可能的实现方式中,所述静默阈值是根据所述编码算法中的编码参数、卷积神经网络的权重和检测目标灵敏度设置的。
本申请实施例的第二方面提供一种基于人工智能的压缩音频静默检测装置,包括:
音频参数确认模块,用于确认压缩音频序列所采用的编码算法以及数据帧长度;
选择模块,用于根据所述编码算法选择对应的卷积神经网络;
网络参数设置模块,用于根据所述数据帧长度设置所述卷积神经网络的输入特征数量;
识别模块,用于根据所述输入特征数量调整数据帧长度,通过所述卷积神经网络对调整后的所述压缩音频序列进行识别,得所述到压缩音频序列的特征值;
判断模块,用于若所述特征值低于预设静默阈值,判断所述压缩音频序列为静默音频。
第二方面的一种可能的实现方式中,在所述选择模块中,所述对应的卷积神经网络的训练过程为:
采集不同静默状态下经过所述编码算法编码后的静默压缩音频数据和非静默状态下经过所述编码算法编码后的非静默压缩音频数据;
对所述静默压缩音频数据和所述非静默压缩音频数据进行补帧;
不断调整卷积神经网络的权重,使所述卷积神经网络对所述静默压缩音频数据的输出值为1,使所述卷积神经网络对所述非静默压缩音频数据的输出值为0。
第二方面的一种可能的实现方式中,所述网络参数设置模块具体用于:
寻找所述压缩音频序列中最大的数据帧;
在全部大于或等于所述最大的数据帧长度的16公倍数中选出最小值作为输入特征数量的值。
第二方面的一种可能的实现方式中,所述根据所述输入特征数量调整数据帧长度,具体包括:
将所述压缩音频序列中长度小于所述输入特征数量的数据帧进行填充补齐,使所述压缩音频序列中每一个数据帧长度均等于所述输入特征数量。
第二方面的一种可能的实现方式中,所述静默阈值是根据所述编码算法中的编码参数、卷积神经网络的权重和检测目标灵敏度设置的。
相比于现有技术,本发明实施例提供的一种基于人工智能的压缩音频静默检测方法及装置,在面对经过不同音频压缩编码技术压缩后的压缩音频时,选择对应的、预先训练好的卷积神经网络对所述压缩音频进行识别得到特征值,比较特征与预设静默阈值的大小关系,进而判断所述压缩音频是否为静默音频。由于卷积神经网络可在支持人工智能协处理器的终端上快速实现,不需要CPU处理器的介入,节省了检测系统的CPU算力。
上述音频静默状态判断过程可以看出本申请不需要解码基带音频数据,大大减少了运算量并降低了内存储存空间要求。因此本申请可应用在各种小型终端设备中部署,实现在终端即可静默检测后,去掉底噪减少编码数据量,提高网络吞吐量。
附图说明
图1是本发明一实施例提供的一种基于人工智能的压缩音频静默检测方法的流程示意图;
图2是本发明一实施例提供的一种基于人工智能的压缩音频静默检测装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,本发明一实施例提供一种基于人工智能的压缩音频静默检测方法,包括:
S10、确认压缩音频序列所采用的编码算法以及数据帧长度。
S11、根据所述编码算法选择对应的卷积神经网络。
S12、根据所述数据帧长度设置所述卷积神经网络的输入特征数量。
S13、根据所述输入特征数量调整数据帧长度,通过所述卷积神经网络对调整后的所述压缩音频序列进行识别,得所述到压缩音频序列的特征值。
S14、若所述特征值低于预设静默阈值,判断所述压缩音频序列为静默音频。
声音的产生是变化的震动引起的,在数字化后就是变化的数据。静默音频即基带音频数据不变化或者变化很小。针对目前音频压缩算法大部分使用固定长度基带音频数据作为一帧输入数据,并使用特定编码算法作为基础,如哈夫曼编码。重复或者连续变化小的数据具备明显特征,压缩后编码数据也具备明显特征。在具备明显隐藏特征的数据中,使用卷积神经网络检测能准确找到相关特征,并直接给出特征值,卷积网络输出的特征值与静音帧概率是正相关的,因此可直接通过设置静默阈值判断特征值是否满足静默条件。静默阈值的确定在实际应用中是根据编码算法的编码参数、相应的神经网络权重、运行时需要的检测(静默音频)共同灵敏度决定。
需要说明的是,针对不同编码算法而训练得到的卷积神经网络在结构上是相同的,具体地,各个网络不同的地方在于各个结构层中所设置的参数权重不同。如AC3即使用针对AC3的样本集训练的神经网络权重,神经网络结构并不改变。
综上,本申请实施例从输入获取的压缩音频数据序列化后,输入到预先训练好的基于一维卷积神经网络中,得到压缩音频的特征值。此特征值用于表示压缩音频数据为静音数据帧的概率。接下来可以通过连续多帧的卷积神经网络后输出特征值后分析,判断压缩音频序列是否在一段时间内音频静音,从而判断压缩音频是否为音频静默。
示例性地,所述对应的卷积神经网络的训练过程为:
采集不同静默状态下经过所述编码算法编码后的静默压缩音频数据和非静默状态下经过所述编码算法编码后的非静默压缩音频数据;
对所述静默压缩音频数据和所述非静默压缩音频数据进行补帧;
不断调整卷积神经网络的权重,使所述卷积神经网络对所述静默压缩音频数据的输出值为1,使所述卷积神经网络对所述非静默压缩音频数据的输出值为0。
若压缩音频序列采用的是AC3编码算法,本实施例需要通过采集不同静默状态下的AC3压缩编码数据,并以N(输入特征数量)=1024不足填充0的方式一帧一帧地保存,并制作标签即最后输出特征值为1.0。同时采集非静默状态的AC3压缩编码数据,标签为0.0作为负样本。用所述方法生成的多个数据形成训练、测试、验证数据集来训练AC3音频编码对应的卷积神经网络。
换言之,不同的编码算法不需要修改神经网络结构,只需要重新采用不同数据集进行训练,获得针对不同编码算法的神经网络权重对卷积神经网络设置。
示例性地,寻找所述压缩音频序列中最大的数据帧;
在全部大于或等于所述最大的数据帧长度的16公倍数中选出最小值作为输入特征数量的值。
示例性地,所述根据所述输入特征数量调整数据帧长度,具体包括:
将所述压缩音频序列中长度小于所述输入特征数量的数据帧进行填充补齐,使所述压缩音频序列中每一个数据帧长度均等于所述输入特征数量。
输入卷积神经网络的压缩音频序列需要为固定长度,如一帧数据长度不足则填充0补齐,输入特征数量为N,经过L层隐藏卷积层后,最后经过全连接层后降维输出一个特征值,即为输入压缩音频特征值为静音音频的概率。其中网络中的每一层隐藏卷积层,都对于上一层卷积核针对音频子序列进行卷积处理从而得到降维后的特征数组。每一层卷积核都由卷积层,激活函数层,池化层等组成。输入特征数量为N即为训练网络时决定的输入层特征数据,根据最大音频编码数据长度16字节向大对齐,例如最大音频编码数据是500字节,则N确定为512,一帧音频不足512即填充0补齐。
示例性地,所述静默阈值是根据所述编码算法中的编码参数、卷积神经网络的权重和检测目标灵敏度设置的。
如需要提高检测静默音频的灵敏度,即将较小声音也辨认为是静默,即可将静默阈值设置较低。反之需要降低检测静默音频的灵敏度,即极小声音或者完全无声音才认为是静默,则可将静默阈值的值接近1。
相比于现有技术,本发明实施例提供的一种基于人工智能的压缩音频静默检测方法及装置,在面对经过不同音频压缩编码技术压缩后的压缩音频时,选择对应的、预先训练好的卷积神经网络对所述压缩音频进行识别得到特征值,比较特征与预设静默阈值的大小关系,进而判断所述压缩音频是否为静默音频。由于卷积神经网络可在支持人工智能协处理器的终端上快速实现,不需要CPU处理器的介入,节省了检测系统的CPU算力。
上述音频静默状态判断过程可以看出本申请不需要解码基带音频数据,大大减少了运算量并降低了内存储存空间要求。因此本申请可应用在各种小型终端设备中部署,实现在终端即可静默检测后,去掉底噪减少编码数据量,提高网络吞吐量。
本申请实施例的第二方面提供一种基于人工智能的压缩音频静默检测装置,包括:音频参数确认模块201、选择模块202、网络参数设置模块203、识别模块204和判断模块205。
音频参数确认模块201,用于确认压缩音频序列所采用的编码算法以及数据帧长度。
选择模块202,用于根据所述编码算法选择对应的卷积神经网络。
网络参数设置模块203,用于根据所述数据帧长度设置所述卷积神经网络的输入特征数量。
识别模块204,用于根据所述输入特征数量调整数据帧长度,通过所述卷积神经网络对调整后的所述压缩音频序列进行识别,得所述到压缩音频序列的特征值。
判断模块205,用于若所述特征值低于预设静默阈值,判断所述压缩音频序列为静默音频。
示例性地,在所述选择模块中,所述对应的卷积神经网络的训练过程为:
采集不同静默状态下经过所述编码算法编码后的静默压缩音频数据和非静默状态下经过所述编码算法编码后的非静默压缩音频数据;
对所述静默压缩音频数据和所述非静默压缩音频数据进行补帧;
不断调整卷积神经网络的权重,使所述卷积神经网络对所述静默压缩音频数据的输出值为1,使所述卷积神经网络对所述非静默压缩音频数据的输出值为0。
示例性地,所述网络参数设置模块具体用于:
寻找所述压缩音频序列中最大的数据帧。
在全部大于或等于所述最大的数据帧长度的16公倍数中选出最小值作为输入特征数量的值。
示例性地,所述根据所述输入特征数量调整数据帧长度,具体包括:
将所述压缩音频序列中长度小于所述输入特征数量的数据帧进行填充补齐,使所述压缩音频序列中每一个数据帧长度均等于所述输入特征数量。
示例性地,所述静默阈值是根据所述编码算法中的编码参数、卷积神经网络的权重和检测目标灵敏度设置的。
相比于现有技术,本发明实施例提供的一种基于人工智能的压缩音频静默检测装置,在面对经过不同音频压缩编码技术压缩后的压缩音频时,选择对应的、预先训练好的卷积神经网络对所述压缩音频进行识别得到特征值,比较特征与预设静默阈值的大小关系,进而判断所述压缩音频是否为静默音频。由于卷积神经网络可在支持人工智能协处理器的终端上快速实现,不需要CPU处理器的介入,节省了检测系统的CPU算力。
上述音频静默状态判断过程可以看出本申请不需要解码基带音频数据,大大减少了运算量并降低了内存储存空间要求。因此本申请可应用在各种小型终端设备中部署,实现在终端即可静默检测后,去掉底噪减少编码数据量,提高网络吞吐量。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的定位装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (8)
1.一种基于人工智能的压缩音频静默检测方法,其特征在于,包括:
确认压缩音频序列所采用的编码算法以及数据帧长度;
根据所述编码算法选择对应的卷积神经网络,具体包括:根据所述编码算法选择对应的样本集进行训练,得到并设置卷积神经网络的神经网络权重;
根据所述数据帧长度设置所述卷积神经网络的输入特征数量,具体包括:寻找所述压缩音频序列中最大的数据帧;在全部大于或等于所述最大的数据帧长度的16公倍数中选出最小值作为输入特征数量的值;
根据所述输入特征数量调整数据帧长度,通过所述卷积神经网络对调整后的所述压缩音频序列进行识别,得到所述压缩音频序列的特征值;
若所述特征值低于预设静默阈值,判断所述压缩音频序列为静默音频。
2.如权利要求1所述基于人工智能的压缩音频静默检测方法,其特征在于,所述对应的卷积神经网络的训练过程为:
采集不同静默状态下经过所述编码算法编码后的静默压缩音频数据和非静默状态下经过所述编码算法编码后的非静默压缩音频数据;
对所述静默压缩音频数据和所述非静默压缩音频数据进行补帧;
不断调整卷积神经网络的权重,使所述卷积神经网络对所述静默压缩音频数据的输出值为1,使所述卷积神经网络对所述非静默压缩音频数据的输出值为0。
3.如权利要求1所述基于人工智能的压缩音频静默检测方法,其特征在于,所述根据所述输入特征数量调整数据帧长度,具体包括:
将所述压缩音频序列中长度小于所述输入特征数量的数据帧进行填充补齐,使所述压缩音频序列中每一个数据帧长度均等于所述输入特征数量。
4.如权利要求1所述基于人工智能的压缩音频静默检测方法,其特征在于,所述静默阈值是根据所述编码算法中的编码参数、卷积神经网络的权重和检测目标灵敏度设置的。
5.一种基于人工智能的压缩音频静默检测装置,其特征在于,包括:
音频参数确认模块,用于确认压缩音频序列所采用的编码算法以及数据帧长度;
选择模块,用于根据所述编码算法选择对应的卷积神经网络,具体为:根据所述编码算法选择对应的样本集进行训练,得到并设置卷积神经网络的神经网络权重;
网络参数设置模块,用于根据所述数据帧长度设置所述卷积神经网络的输入特征数量,具体为:寻找所述压缩音频序列中最大的数据帧;在全部大于或等于所述最大的数据帧长度的16公倍数中选出最小值作为输入特征数量的值;
识别模块,用于根据所述输入特征数量调整数据帧长度,通过所述卷积神经网络对调整后的所述压缩音频序列进行识别,得到所述压缩音频序列的特征值;
判断模块,用于若所述特征值低于预设静默阈值,判断所述压缩音频序列为静默音频。
6.如权利要求5所述基于人工智能的压缩音频静默检测装置,其特征在于,在所述选择模块中,所述对应的卷积神经网络的训练过程为:
采集不同静默状态下经过所述编码算法编码后的静默压缩音频数据和非静默状态下经过所述编码算法编码后的非静默压缩音频数据;
对所述静默压缩音频数据和所述非静默压缩音频数据进行补帧;
不断调整卷积神经网络的权重,使所述卷积神经网络对所述静默压缩音频数据的输出值为1,使所述卷积神经网络对所述非静默压缩音频数据的输出值为0。
7.如权利要求5所述基于人工智能的压缩音频静默检测装置,其特征在于,所述根据所述输入特征数量调整数据帧长度,具体包括:
将所述压缩音频序列中长度小于所述输入特征数量的数据帧进行填充补齐,使所述压缩音频序列中每一个数据帧长度均等于所述输入特征数量。
8.如权利要求5所述基于人工智能的压缩音频静默检测装置,其特征在于,所述静默阈值是根据所述编码算法中的编码参数、卷积神经网络的权重和检测目标灵敏度设置的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310350527.6A CN116469413B (zh) | 2023-04-03 | 2023-04-03 | 一种基于人工智能的压缩音频静默检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310350527.6A CN116469413B (zh) | 2023-04-03 | 2023-04-03 | 一种基于人工智能的压缩音频静默检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116469413A CN116469413A (zh) | 2023-07-21 |
CN116469413B true CN116469413B (zh) | 2023-12-01 |
Family
ID=87183584
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310350527.6A Active CN116469413B (zh) | 2023-04-03 | 2023-04-03 | 一种基于人工智能的压缩音频静默检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116469413B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05227119A (ja) * | 1992-02-14 | 1993-09-03 | Fuji Xerox Co Ltd | 音声・データ多重化方式 |
CN101431578A (zh) * | 2008-10-30 | 2009-05-13 | 南京大学 | 一种基于g.723.1静音检测技术的信息隐藏方法 |
CN106529605A (zh) * | 2016-11-28 | 2017-03-22 | 东华大学 | 基于免疫理论的卷积神经网络模型的图像识别方法 |
CN107393526A (zh) * | 2017-07-19 | 2017-11-24 | 腾讯科技(深圳)有限公司 | 语音静音检测方法、装置、计算机设备和存储介质 |
CN107481728A (zh) * | 2017-09-29 | 2017-12-15 | 百度在线网络技术(北京)有限公司 | 背景声消除方法、装置及终端设备 |
CN108428448A (zh) * | 2017-02-13 | 2018-08-21 | 芋头科技(杭州)有限公司 | 一种语音端点检测方法及语音识别方法 |
CN108446667A (zh) * | 2018-04-04 | 2018-08-24 | 北京航空航天大学 | 基于生成对抗网络数据增强的人脸表情识别方法和装置 |
CN109376264A (zh) * | 2018-11-09 | 2019-02-22 | 广州势必可赢网络科技有限公司 | 一种音频检测方法、装置、设备及计算机可读存储介质 |
CN110010153A (zh) * | 2019-03-25 | 2019-07-12 | 平安科技(深圳)有限公司 | 一种基于神经网络的静音检测方法、终端设备及介质 |
CN110782872A (zh) * | 2019-11-11 | 2020-02-11 | 复旦大学 | 基于深度卷积循环神经网络的语种识别方法及装置 |
CN113744730A (zh) * | 2021-09-13 | 2021-12-03 | 北京奕斯伟计算技术有限公司 | 声音检测方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11080591B2 (en) * | 2016-09-06 | 2021-08-03 | Deepmind Technologies Limited | Processing sequences using convolutional neural networks |
WO2018048945A1 (en) * | 2016-09-06 | 2018-03-15 | Deepmind Technologies Limited | Processing sequences using convolutional neural networks |
-
2023
- 2023-04-03 CN CN202310350527.6A patent/CN116469413B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05227119A (ja) * | 1992-02-14 | 1993-09-03 | Fuji Xerox Co Ltd | 音声・データ多重化方式 |
CN101431578A (zh) * | 2008-10-30 | 2009-05-13 | 南京大学 | 一种基于g.723.1静音检测技术的信息隐藏方法 |
CN106529605A (zh) * | 2016-11-28 | 2017-03-22 | 东华大学 | 基于免疫理论的卷积神经网络模型的图像识别方法 |
CN108428448A (zh) * | 2017-02-13 | 2018-08-21 | 芋头科技(杭州)有限公司 | 一种语音端点检测方法及语音识别方法 |
CN107393526A (zh) * | 2017-07-19 | 2017-11-24 | 腾讯科技(深圳)有限公司 | 语音静音检测方法、装置、计算机设备和存储介质 |
CN107481728A (zh) * | 2017-09-29 | 2017-12-15 | 百度在线网络技术(北京)有限公司 | 背景声消除方法、装置及终端设备 |
CN108446667A (zh) * | 2018-04-04 | 2018-08-24 | 北京航空航天大学 | 基于生成对抗网络数据增强的人脸表情识别方法和装置 |
CN109376264A (zh) * | 2018-11-09 | 2019-02-22 | 广州势必可赢网络科技有限公司 | 一种音频检测方法、装置、设备及计算机可读存储介质 |
CN110010153A (zh) * | 2019-03-25 | 2019-07-12 | 平安科技(深圳)有限公司 | 一种基于神经网络的静音检测方法、终端设备及介质 |
CN110782872A (zh) * | 2019-11-11 | 2020-02-11 | 复旦大学 | 基于深度卷积循环神经网络的语种识别方法及装置 |
CN113744730A (zh) * | 2021-09-13 | 2021-12-03 | 北京奕斯伟计算技术有限公司 | 声音检测方法及装置 |
Non-Patent Citations (1)
Title |
---|
数据压缩与解码技术探讨;祝 庚 等;数据压缩与解码技术探讨;第23卷(第5期);第72-78页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116469413A (zh) | 2023-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2417456C2 (ru) | Системы, способы и устройства для обнаружения изменения сигналов | |
US20050055201A1 (en) | System and method for real-time detection and preservation of speech onset in a signal | |
CN1494712A (zh) | 使用声学特征矢量修正的分布式语音识别系统 | |
CN102714034B (zh) | 信号处理的方法、装置和系统 | |
CN1741133A (zh) | 声音处理设备和输入声音处理方法 | |
CN115359807B (zh) | 一种用于城市噪声污染的噪声在线监测系统 | |
CN114627899A (zh) | 声音信号检测方法及装置、计算机可读存储介质、终端 | |
CN111341333B (zh) | 噪声检测方法、噪声检测装置、介质及电子设备 | |
CN1044293C (zh) | 背景音的编码/译码方法和设备 | |
CN116386612A (zh) | 语音检测模型的训练方法、语音检测方法、装置及设备 | |
CN116469413B (zh) | 一种基于人工智能的压缩音频静默检测方法及装置 | |
CN113782036A (zh) | 音频质量评估方法、装置、电子设备和存储介质 | |
KR20170088165A (ko) | 심층 신경망 기반 음성인식 방법 및 그 장치 | |
US7630891B2 (en) | Voice region detection apparatus and method with color noise removal using run statistics | |
US20230253010A1 (en) | Voice activity detection (vad) based on multiple indicia | |
JP3418005B2 (ja) | 音声ピッチ検出装置 | |
WO2007095247A2 (en) | Perceptual quality based automatic parameter selection for data compression | |
CN116386669A (zh) | 基于分组自动编码器的机器运行声学状态监测方法和系统 | |
US9215350B2 (en) | Sound processing method, sound processing system, video processing method, video processing system, sound processing device, and method and program for controlling same | |
CN116417015B (zh) | 一种压缩音频的静默检测方法及装置 | |
CN110931021B (zh) | 一种音频信号处理方法及装置 | |
CN104715761B (zh) | 一种音频有效数据检测方法和系统 | |
CN1898970A (zh) | 音调检测方法和系统 | |
CN111884729B (zh) | 录音通道选择方法、装置及电子设备 | |
US20020095297A1 (en) | Device and method for processing audio information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |