CN116469413B - 一种基于人工智能的压缩音频静默检测方法及装置 - Google Patents

一种基于人工智能的压缩音频静默检测方法及装置 Download PDF

Info

Publication number
CN116469413B
CN116469413B CN202310350527.6A CN202310350527A CN116469413B CN 116469413 B CN116469413 B CN 116469413B CN 202310350527 A CN202310350527 A CN 202310350527A CN 116469413 B CN116469413 B CN 116469413B
Authority
CN
China
Prior art keywords
compressed audio
silence
neural network
convolutional neural
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310350527.6A
Other languages
English (en)
Other versions
CN116469413A (zh
Inventor
王恒
郭永乐
张孝兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou DSPPA Audio Co Ltd
Original Assignee
Guangzhou DSPPA Audio Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou DSPPA Audio Co Ltd filed Critical Guangzhou DSPPA Audio Co Ltd
Priority to CN202310350527.6A priority Critical patent/CN116469413B/zh
Publication of CN116469413A publication Critical patent/CN116469413A/zh
Application granted granted Critical
Publication of CN116469413B publication Critical patent/CN116469413B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开一种基于人工智能的压缩音频静默检测方法及装置,所述方法包括:确认压缩音频序列所采用的编码算法以及数据帧长度;根据所述编码算法选择对应的卷积神经网络;根据所述数据帧长度设置所述卷积神经网络的输入特征数量;根据所述输入特征数量调整数据帧长度,通过所述卷积神经网络对调整后的所述压缩音频序列进行识别,得所述到压缩音频序列的特征值;若所述特征值低于预设静默阈值,判断所述压缩音频序列为静默音频。采用本发明,检测静默状态时不需要解码基带音频数据,大大减少了运算量、检测设备的内存储存空间要求。

Description

一种基于人工智能的压缩音频静默检测方法及装置
技术领域
本发明涉及压缩音频处理技术领域,尤其涉及一种基于人工智能的压缩音频静默检测方法及装置。
背景技术
随着科技的发展,音频压缩技术广泛应用于各行各业,音频静默检测技术也服务于各种行业,例如会议对讲领域,VOIP电话会议。现有针对压缩音频的音频静默检测技术,通过处理器解码压缩音频获取音频基带信号,分析音频基带信号,采用包络检测,声音分贝或者过零检测方法来判断。
现有的针对压缩音频的音频静默检测技术存在以下不足:
一是由于需要分析基带音频数据,大量场景需要进行解码后再分析,运算量大;二是由于基带数据量大,对处理设备的内存储存空间要求大。
发明内容
本发明实施例提供一种基于人工智能的压缩音频静默检测方法及装置,在不需要解码的情况下实现静默检测。
为实现上述目的,本申请实施例的第一方面提供一种基于人工智能的压缩音频静默检测方法,包括:
确认压缩音频序列所采用的编码算法以及数据帧长度;
根据所述编码算法选择对应的卷积神经网络;
根据所述数据帧长度设置所述卷积神经网络的输入特征数量;
根据所述输入特征数量调整数据帧长度,通过所述卷积神经网络对调整后的所述压缩音频序列进行识别,得所述到压缩音频序列的特征值;
若所述特征值低于预设静默阈值,判断所述压缩音频序列为静默音频。
在第一方面的一种可能的实现方式中,所述对应的卷积神经网络的训练过程为:
采集不同静默状态下经过所述编码算法编码后的静默压缩音频数据和非静默状态下经过所述编码算法编码后的非静默压缩音频数据;
对所述静默压缩音频数据和所述非静默压缩音频数据进行补帧;
不断调整卷积神经网络的权重,使所述卷积神经网络对所述静默压缩音频数据的输出值为1,使所述卷积神经网络对所述非静默压缩音频数据的输出值为0。
在第一方面的一种可能的实现方式中,寻找所述压缩音频序列中最大的数据帧;
在全部大于或等于所述最大的数据帧长度的16公倍数中选出最小值作为输入特征数量的值。
在第一方面的一种可能的实现方式中,所述根据所述输入特征数量调整数据帧长度,具体包括:
将所述压缩音频序列中长度小于所述输入特征数量的数据帧进行填充补齐,使所述压缩音频序列中每一个数据帧长度均等于所述输入特征数量。
第一方面的一种可能的实现方式中,所述静默阈值是根据所述编码算法中的编码参数、卷积神经网络的权重和检测目标灵敏度设置的。
本申请实施例的第二方面提供一种基于人工智能的压缩音频静默检测装置,包括:
音频参数确认模块,用于确认压缩音频序列所采用的编码算法以及数据帧长度;
选择模块,用于根据所述编码算法选择对应的卷积神经网络;
网络参数设置模块,用于根据所述数据帧长度设置所述卷积神经网络的输入特征数量;
识别模块,用于根据所述输入特征数量调整数据帧长度,通过所述卷积神经网络对调整后的所述压缩音频序列进行识别,得所述到压缩音频序列的特征值;
判断模块,用于若所述特征值低于预设静默阈值,判断所述压缩音频序列为静默音频。
第二方面的一种可能的实现方式中,在所述选择模块中,所述对应的卷积神经网络的训练过程为:
采集不同静默状态下经过所述编码算法编码后的静默压缩音频数据和非静默状态下经过所述编码算法编码后的非静默压缩音频数据;
对所述静默压缩音频数据和所述非静默压缩音频数据进行补帧;
不断调整卷积神经网络的权重,使所述卷积神经网络对所述静默压缩音频数据的输出值为1,使所述卷积神经网络对所述非静默压缩音频数据的输出值为0。
第二方面的一种可能的实现方式中,所述网络参数设置模块具体用于:
寻找所述压缩音频序列中最大的数据帧;
在全部大于或等于所述最大的数据帧长度的16公倍数中选出最小值作为输入特征数量的值。
第二方面的一种可能的实现方式中,所述根据所述输入特征数量调整数据帧长度,具体包括:
将所述压缩音频序列中长度小于所述输入特征数量的数据帧进行填充补齐,使所述压缩音频序列中每一个数据帧长度均等于所述输入特征数量。
第二方面的一种可能的实现方式中,所述静默阈值是根据所述编码算法中的编码参数、卷积神经网络的权重和检测目标灵敏度设置的。
相比于现有技术,本发明实施例提供的一种基于人工智能的压缩音频静默检测方法及装置,在面对经过不同音频压缩编码技术压缩后的压缩音频时,选择对应的、预先训练好的卷积神经网络对所述压缩音频进行识别得到特征值,比较特征与预设静默阈值的大小关系,进而判断所述压缩音频是否为静默音频。由于卷积神经网络可在支持人工智能协处理器的终端上快速实现,不需要CPU处理器的介入,节省了检测系统的CPU算力。
上述音频静默状态判断过程可以看出本申请不需要解码基带音频数据,大大减少了运算量并降低了内存储存空间要求。因此本申请可应用在各种小型终端设备中部署,实现在终端即可静默检测后,去掉底噪减少编码数据量,提高网络吞吐量。
附图说明
图1是本发明一实施例提供的一种基于人工智能的压缩音频静默检测方法的流程示意图;
图2是本发明一实施例提供的一种基于人工智能的压缩音频静默检测装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,本发明一实施例提供一种基于人工智能的压缩音频静默检测方法,包括:
S10、确认压缩音频序列所采用的编码算法以及数据帧长度。
S11、根据所述编码算法选择对应的卷积神经网络。
S12、根据所述数据帧长度设置所述卷积神经网络的输入特征数量。
S13、根据所述输入特征数量调整数据帧长度,通过所述卷积神经网络对调整后的所述压缩音频序列进行识别,得所述到压缩音频序列的特征值。
S14、若所述特征值低于预设静默阈值,判断所述压缩音频序列为静默音频。
声音的产生是变化的震动引起的,在数字化后就是变化的数据。静默音频即基带音频数据不变化或者变化很小。针对目前音频压缩算法大部分使用固定长度基带音频数据作为一帧输入数据,并使用特定编码算法作为基础,如哈夫曼编码。重复或者连续变化小的数据具备明显特征,压缩后编码数据也具备明显特征。在具备明显隐藏特征的数据中,使用卷积神经网络检测能准确找到相关特征,并直接给出特征值,卷积网络输出的特征值与静音帧概率是正相关的,因此可直接通过设置静默阈值判断特征值是否满足静默条件。静默阈值的确定在实际应用中是根据编码算法的编码参数、相应的神经网络权重、运行时需要的检测(静默音频)共同灵敏度决定。
需要说明的是,针对不同编码算法而训练得到的卷积神经网络在结构上是相同的,具体地,各个网络不同的地方在于各个结构层中所设置的参数权重不同。如AC3即使用针对AC3的样本集训练的神经网络权重,神经网络结构并不改变。
综上,本申请实施例从输入获取的压缩音频数据序列化后,输入到预先训练好的基于一维卷积神经网络中,得到压缩音频的特征值。此特征值用于表示压缩音频数据为静音数据帧的概率。接下来可以通过连续多帧的卷积神经网络后输出特征值后分析,判断压缩音频序列是否在一段时间内音频静音,从而判断压缩音频是否为音频静默。
示例性地,所述对应的卷积神经网络的训练过程为:
采集不同静默状态下经过所述编码算法编码后的静默压缩音频数据和非静默状态下经过所述编码算法编码后的非静默压缩音频数据;
对所述静默压缩音频数据和所述非静默压缩音频数据进行补帧;
不断调整卷积神经网络的权重,使所述卷积神经网络对所述静默压缩音频数据的输出值为1,使所述卷积神经网络对所述非静默压缩音频数据的输出值为0。
若压缩音频序列采用的是AC3编码算法,本实施例需要通过采集不同静默状态下的AC3压缩编码数据,并以N(输入特征数量)=1024不足填充0的方式一帧一帧地保存,并制作标签即最后输出特征值为1.0。同时采集非静默状态的AC3压缩编码数据,标签为0.0作为负样本。用所述方法生成的多个数据形成训练、测试、验证数据集来训练AC3音频编码对应的卷积神经网络。
换言之,不同的编码算法不需要修改神经网络结构,只需要重新采用不同数据集进行训练,获得针对不同编码算法的神经网络权重对卷积神经网络设置。
示例性地,寻找所述压缩音频序列中最大的数据帧;
在全部大于或等于所述最大的数据帧长度的16公倍数中选出最小值作为输入特征数量的值。
示例性地,所述根据所述输入特征数量调整数据帧长度,具体包括:
将所述压缩音频序列中长度小于所述输入特征数量的数据帧进行填充补齐,使所述压缩音频序列中每一个数据帧长度均等于所述输入特征数量。
输入卷积神经网络的压缩音频序列需要为固定长度,如一帧数据长度不足则填充0补齐,输入特征数量为N,经过L层隐藏卷积层后,最后经过全连接层后降维输出一个特征值,即为输入压缩音频特征值为静音音频的概率。其中网络中的每一层隐藏卷积层,都对于上一层卷积核针对音频子序列进行卷积处理从而得到降维后的特征数组。每一层卷积核都由卷积层,激活函数层,池化层等组成。输入特征数量为N即为训练网络时决定的输入层特征数据,根据最大音频编码数据长度16字节向大对齐,例如最大音频编码数据是500字节,则N确定为512,一帧音频不足512即填充0补齐。
示例性地,所述静默阈值是根据所述编码算法中的编码参数、卷积神经网络的权重和检测目标灵敏度设置的。
如需要提高检测静默音频的灵敏度,即将较小声音也辨认为是静默,即可将静默阈值设置较低。反之需要降低检测静默音频的灵敏度,即极小声音或者完全无声音才认为是静默,则可将静默阈值的值接近1。
相比于现有技术,本发明实施例提供的一种基于人工智能的压缩音频静默检测方法及装置,在面对经过不同音频压缩编码技术压缩后的压缩音频时,选择对应的、预先训练好的卷积神经网络对所述压缩音频进行识别得到特征值,比较特征与预设静默阈值的大小关系,进而判断所述压缩音频是否为静默音频。由于卷积神经网络可在支持人工智能协处理器的终端上快速实现,不需要CPU处理器的介入,节省了检测系统的CPU算力。
上述音频静默状态判断过程可以看出本申请不需要解码基带音频数据,大大减少了运算量并降低了内存储存空间要求。因此本申请可应用在各种小型终端设备中部署,实现在终端即可静默检测后,去掉底噪减少编码数据量,提高网络吞吐量。
本申请实施例的第二方面提供一种基于人工智能的压缩音频静默检测装置,包括:音频参数确认模块201、选择模块202、网络参数设置模块203、识别模块204和判断模块205。
音频参数确认模块201,用于确认压缩音频序列所采用的编码算法以及数据帧长度。
选择模块202,用于根据所述编码算法选择对应的卷积神经网络。
网络参数设置模块203,用于根据所述数据帧长度设置所述卷积神经网络的输入特征数量。
识别模块204,用于根据所述输入特征数量调整数据帧长度,通过所述卷积神经网络对调整后的所述压缩音频序列进行识别,得所述到压缩音频序列的特征值。
判断模块205,用于若所述特征值低于预设静默阈值,判断所述压缩音频序列为静默音频。
示例性地,在所述选择模块中,所述对应的卷积神经网络的训练过程为:
采集不同静默状态下经过所述编码算法编码后的静默压缩音频数据和非静默状态下经过所述编码算法编码后的非静默压缩音频数据;
对所述静默压缩音频数据和所述非静默压缩音频数据进行补帧;
不断调整卷积神经网络的权重,使所述卷积神经网络对所述静默压缩音频数据的输出值为1,使所述卷积神经网络对所述非静默压缩音频数据的输出值为0。
示例性地,所述网络参数设置模块具体用于:
寻找所述压缩音频序列中最大的数据帧。
在全部大于或等于所述最大的数据帧长度的16公倍数中选出最小值作为输入特征数量的值。
示例性地,所述根据所述输入特征数量调整数据帧长度,具体包括:
将所述压缩音频序列中长度小于所述输入特征数量的数据帧进行填充补齐,使所述压缩音频序列中每一个数据帧长度均等于所述输入特征数量。
示例性地,所述静默阈值是根据所述编码算法中的编码参数、卷积神经网络的权重和检测目标灵敏度设置的。
相比于现有技术,本发明实施例提供的一种基于人工智能的压缩音频静默检测装置,在面对经过不同音频压缩编码技术压缩后的压缩音频时,选择对应的、预先训练好的卷积神经网络对所述压缩音频进行识别得到特征值,比较特征与预设静默阈值的大小关系,进而判断所述压缩音频是否为静默音频。由于卷积神经网络可在支持人工智能协处理器的终端上快速实现,不需要CPU处理器的介入,节省了检测系统的CPU算力。
上述音频静默状态判断过程可以看出本申请不需要解码基带音频数据,大大减少了运算量并降低了内存储存空间要求。因此本申请可应用在各种小型终端设备中部署,实现在终端即可静默检测后,去掉底噪减少编码数据量,提高网络吞吐量。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的定位装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (8)

1.一种基于人工智能的压缩音频静默检测方法,其特征在于,包括:
确认压缩音频序列所采用的编码算法以及数据帧长度;
根据所述编码算法选择对应的卷积神经网络,具体包括:根据所述编码算法选择对应的样本集进行训练,得到并设置卷积神经网络的神经网络权重;
根据所述数据帧长度设置所述卷积神经网络的输入特征数量,具体包括:寻找所述压缩音频序列中最大的数据帧;在全部大于或等于所述最大的数据帧长度的16公倍数中选出最小值作为输入特征数量的值;
根据所述输入特征数量调整数据帧长度,通过所述卷积神经网络对调整后的所述压缩音频序列进行识别,得到所述压缩音频序列的特征值;
若所述特征值低于预设静默阈值,判断所述压缩音频序列为静默音频。
2.如权利要求1所述基于人工智能的压缩音频静默检测方法,其特征在于,所述对应的卷积神经网络的训练过程为:
采集不同静默状态下经过所述编码算法编码后的静默压缩音频数据和非静默状态下经过所述编码算法编码后的非静默压缩音频数据;
对所述静默压缩音频数据和所述非静默压缩音频数据进行补帧;
不断调整卷积神经网络的权重,使所述卷积神经网络对所述静默压缩音频数据的输出值为1,使所述卷积神经网络对所述非静默压缩音频数据的输出值为0。
3.如权利要求1所述基于人工智能的压缩音频静默检测方法,其特征在于,所述根据所述输入特征数量调整数据帧长度,具体包括:
将所述压缩音频序列中长度小于所述输入特征数量的数据帧进行填充补齐,使所述压缩音频序列中每一个数据帧长度均等于所述输入特征数量。
4.如权利要求1所述基于人工智能的压缩音频静默检测方法,其特征在于,所述静默阈值是根据所述编码算法中的编码参数、卷积神经网络的权重和检测目标灵敏度设置的。
5.一种基于人工智能的压缩音频静默检测装置,其特征在于,包括:
音频参数确认模块,用于确认压缩音频序列所采用的编码算法以及数据帧长度;
选择模块,用于根据所述编码算法选择对应的卷积神经网络,具体为:根据所述编码算法选择对应的样本集进行训练,得到并设置卷积神经网络的神经网络权重;
网络参数设置模块,用于根据所述数据帧长度设置所述卷积神经网络的输入特征数量,具体为:寻找所述压缩音频序列中最大的数据帧;在全部大于或等于所述最大的数据帧长度的16公倍数中选出最小值作为输入特征数量的值;
识别模块,用于根据所述输入特征数量调整数据帧长度,通过所述卷积神经网络对调整后的所述压缩音频序列进行识别,得到所述压缩音频序列的特征值;
判断模块,用于若所述特征值低于预设静默阈值,判断所述压缩音频序列为静默音频。
6.如权利要求5所述基于人工智能的压缩音频静默检测装置,其特征在于,在所述选择模块中,所述对应的卷积神经网络的训练过程为:
采集不同静默状态下经过所述编码算法编码后的静默压缩音频数据和非静默状态下经过所述编码算法编码后的非静默压缩音频数据;
对所述静默压缩音频数据和所述非静默压缩音频数据进行补帧;
不断调整卷积神经网络的权重,使所述卷积神经网络对所述静默压缩音频数据的输出值为1,使所述卷积神经网络对所述非静默压缩音频数据的输出值为0。
7.如权利要求5所述基于人工智能的压缩音频静默检测装置,其特征在于,所述根据所述输入特征数量调整数据帧长度,具体包括:
将所述压缩音频序列中长度小于所述输入特征数量的数据帧进行填充补齐,使所述压缩音频序列中每一个数据帧长度均等于所述输入特征数量。
8.如权利要求5所述基于人工智能的压缩音频静默检测装置,其特征在于,所述静默阈值是根据所述编码算法中的编码参数、卷积神经网络的权重和检测目标灵敏度设置的。
CN202310350527.6A 2023-04-03 2023-04-03 一种基于人工智能的压缩音频静默检测方法及装置 Active CN116469413B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310350527.6A CN116469413B (zh) 2023-04-03 2023-04-03 一种基于人工智能的压缩音频静默检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310350527.6A CN116469413B (zh) 2023-04-03 2023-04-03 一种基于人工智能的压缩音频静默检测方法及装置

Publications (2)

Publication Number Publication Date
CN116469413A CN116469413A (zh) 2023-07-21
CN116469413B true CN116469413B (zh) 2023-12-01

Family

ID=87183584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310350527.6A Active CN116469413B (zh) 2023-04-03 2023-04-03 一种基于人工智能的压缩音频静默检测方法及装置

Country Status (1)

Country Link
CN (1) CN116469413B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05227119A (ja) * 1992-02-14 1993-09-03 Fuji Xerox Co Ltd 音声・データ多重化方式
CN101431578A (zh) * 2008-10-30 2009-05-13 南京大学 一种基于g.723.1静音检测技术的信息隐藏方法
CN106529605A (zh) * 2016-11-28 2017-03-22 东华大学 基于免疫理论的卷积神经网络模型的图像识别方法
CN107393526A (zh) * 2017-07-19 2017-11-24 腾讯科技(深圳)有限公司 语音静音检测方法、装置、计算机设备和存储介质
CN107481728A (zh) * 2017-09-29 2017-12-15 百度在线网络技术(北京)有限公司 背景声消除方法、装置及终端设备
CN108428448A (zh) * 2017-02-13 2018-08-21 芋头科技(杭州)有限公司 一种语音端点检测方法及语音识别方法
CN108446667A (zh) * 2018-04-04 2018-08-24 北京航空航天大学 基于生成对抗网络数据增强的人脸表情识别方法和装置
CN109376264A (zh) * 2018-11-09 2019-02-22 广州势必可赢网络科技有限公司 一种音频检测方法、装置、设备及计算机可读存储介质
CN110010153A (zh) * 2019-03-25 2019-07-12 平安科技(深圳)有限公司 一种基于神经网络的静音检测方法、终端设备及介质
CN110782872A (zh) * 2019-11-11 2020-02-11 复旦大学 基于深度卷积循环神经网络的语种识别方法及装置
CN113744730A (zh) * 2021-09-13 2021-12-03 北京奕斯伟计算技术有限公司 声音检测方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11080591B2 (en) * 2016-09-06 2021-08-03 Deepmind Technologies Limited Processing sequences using convolutional neural networks
WO2018048945A1 (en) * 2016-09-06 2018-03-15 Deepmind Technologies Limited Processing sequences using convolutional neural networks

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05227119A (ja) * 1992-02-14 1993-09-03 Fuji Xerox Co Ltd 音声・データ多重化方式
CN101431578A (zh) * 2008-10-30 2009-05-13 南京大学 一种基于g.723.1静音检测技术的信息隐藏方法
CN106529605A (zh) * 2016-11-28 2017-03-22 东华大学 基于免疫理论的卷积神经网络模型的图像识别方法
CN108428448A (zh) * 2017-02-13 2018-08-21 芋头科技(杭州)有限公司 一种语音端点检测方法及语音识别方法
CN107393526A (zh) * 2017-07-19 2017-11-24 腾讯科技(深圳)有限公司 语音静音检测方法、装置、计算机设备和存储介质
CN107481728A (zh) * 2017-09-29 2017-12-15 百度在线网络技术(北京)有限公司 背景声消除方法、装置及终端设备
CN108446667A (zh) * 2018-04-04 2018-08-24 北京航空航天大学 基于生成对抗网络数据增强的人脸表情识别方法和装置
CN109376264A (zh) * 2018-11-09 2019-02-22 广州势必可赢网络科技有限公司 一种音频检测方法、装置、设备及计算机可读存储介质
CN110010153A (zh) * 2019-03-25 2019-07-12 平安科技(深圳)有限公司 一种基于神经网络的静音检测方法、终端设备及介质
CN110782872A (zh) * 2019-11-11 2020-02-11 复旦大学 基于深度卷积循环神经网络的语种识别方法及装置
CN113744730A (zh) * 2021-09-13 2021-12-03 北京奕斯伟计算技术有限公司 声音检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
数据压缩与解码技术探讨;祝 庚 等;数据压缩与解码技术探讨;第23卷(第5期);第72-78页 *

Also Published As

Publication number Publication date
CN116469413A (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
RU2417456C2 (ru) Системы, способы и устройства для обнаружения изменения сигналов
US20050055201A1 (en) System and method for real-time detection and preservation of speech onset in a signal
CN1494712A (zh) 使用声学特征矢量修正的分布式语音识别系统
CN102714034B (zh) 信号处理的方法、装置和系统
CN1741133A (zh) 声音处理设备和输入声音处理方法
CN115359807B (zh) 一种用于城市噪声污染的噪声在线监测系统
CN114627899A (zh) 声音信号检测方法及装置、计算机可读存储介质、终端
CN111341333B (zh) 噪声检测方法、噪声检测装置、介质及电子设备
CN1044293C (zh) 背景音的编码/译码方法和设备
CN116386612A (zh) 语音检测模型的训练方法、语音检测方法、装置及设备
CN116469413B (zh) 一种基于人工智能的压缩音频静默检测方法及装置
CN113782036A (zh) 音频质量评估方法、装置、电子设备和存储介质
KR20170088165A (ko) 심층 신경망 기반 음성인식 방법 및 그 장치
US7630891B2 (en) Voice region detection apparatus and method with color noise removal using run statistics
US20230253010A1 (en) Voice activity detection (vad) based on multiple indicia
JP3418005B2 (ja) 音声ピッチ検出装置
WO2007095247A2 (en) Perceptual quality based automatic parameter selection for data compression
CN116386669A (zh) 基于分组自动编码器的机器运行声学状态监测方法和系统
US9215350B2 (en) Sound processing method, sound processing system, video processing method, video processing system, sound processing device, and method and program for controlling same
CN116417015B (zh) 一种压缩音频的静默检测方法及装置
CN110931021B (zh) 一种音频信号处理方法及装置
CN104715761B (zh) 一种音频有效数据检测方法和系统
CN1898970A (zh) 音调检测方法和系统
CN111884729B (zh) 录音通道选择方法、装置及电子设备
US20020095297A1 (en) Device and method for processing audio information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant