CN116417015B - 一种压缩音频的静默检测方法及装置 - Google Patents

一种压缩音频的静默检测方法及装置 Download PDF

Info

Publication number
CN116417015B
CN116417015B CN202310350610.3A CN202310350610A CN116417015B CN 116417015 B CN116417015 B CN 116417015B CN 202310350610 A CN202310350610 A CN 202310350610A CN 116417015 B CN116417015 B CN 116417015B
Authority
CN
China
Prior art keywords
data
occurrence
compressed audio
data values
sum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310350610.3A
Other languages
English (en)
Other versions
CN116417015A (zh
Inventor
王恒
郭永乐
赵群英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou DSPPA Audio Co Ltd
Original Assignee
Guangzhou DSPPA Audio Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou DSPPA Audio Co Ltd filed Critical Guangzhou DSPPA Audio Co Ltd
Priority to CN202310350610.3A priority Critical patent/CN116417015B/zh
Publication of CN116417015A publication Critical patent/CN116417015A/zh
Application granted granted Critical
Publication of CN116417015B publication Critical patent/CN116417015B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开一种压缩音频的静默检测方法及装置,所述方法包括:获取经过哈夫曼编码算法处理且数据帧长度固定的压缩音频数据;持续监测所述压缩音频数据单位时间内的数据量,若所述单位时间内的数据量小于预设数据阈值,统计一段时间窗内所述压缩音频数据中全部单字节数据值的出现概率;根据所述全部单字节数据值的出现概率,统计有效数据值出现的概率总和;出现连续多次所述有效数据值出现的概率总和大于占比阈值的情况,判断所述压缩音频数据为静默音频。采用本发明,检测静默状态时不需要解码基带音频数据,大大减少了运算量、检测设备的内存储存空间要求。

Description

一种压缩音频的静默检测方法及装置
技术领域
本发明涉及压缩音频处理技术领域,尤其涉及一种压缩音频的静默检测方法及装置。
背景技术
随着科技的发展,音频压缩技术广泛应用于各行各业,音频静默检测技术也服务于各种行业,例如会议对讲领域,VOIP电话会议。现有针对压缩音频的音频静默检测技术,通过处理器解码压缩音频获取音频基带信号,分析音频基带信号,采用包络检测,声音分贝或者过零检测方法来判断。
现有的针对压缩音频的音频静默检测技术存在以下不足:
一是由于需要分析基带音频数据,大量场景需要进行解码后再分析,运算量大;二是由于基带数据量大,对处理设备的内存储存空间要求大。
发明内容
本发明实施例提供一种压缩音频的静默检测方法及装置,在不需要解码的情况下实现静默检测。
为实现上述目的,本申请实施例的第一方面提供一种压缩音频的静默检测方法,包括:
获取经过哈夫曼编码算法处理且数据帧长度固定的压缩音频数据;
持续监测所述压缩音频数据单位时间内的数据量,若所述单位时间内的数据量小于预设数据阈值,统计一段时间窗内所述压缩音频数据中全部单字节数据值的出现概率;
根据所述全部单字节数据值的出现概率,统计有效数据值出现的概率总和;所述有效数据值是指出现概率大小为前N个的单字节数据值,N为正整数;
出现连续多次所述有效数据值出现的概率总和大于占比阈值的情况,判断所述压缩音频数据为静默音频。
在第一方面的一种可能的实现方式中,在所述出现连续多次所述有效数据值出现的概率总和大于占比阈值的情况之后,还包括:
比较出现概率最大的单字节数据值与预设极值判断阈值的大小,若所述出现概率最大的单字节数据值大于所述预设极值判断阈值,进行后续步骤;
若所述出现概率最大的单字节数据值小于或等于所述预设极值判断阈值,判断所述压缩音频数据为非静默音频,不进行后续步骤。
在第一方面的一种可能的实现方式中,所述根据所述全部单字节数据值的出现概率,统计有效数据值出现的概率总和,具体包括:
将全部单字节数据值的出现概率中最大的出现概率作为有效数据值出现的概率总和。
在第一方面的一种可能的实现方式中,所述根据所述全部单字节数据值的出现概率,统计有效数据值出现的概率总和,具体包括:
将全部单字节数据值的出现概率中前二大的两个出现概率之和作为有效数据值出现的概率总和。
第一方面的一种可能的实现方式中,所述时间窗的长度为500ms。
本申请实施例的第二方面提供一种压缩音频的静默检测装置,包括:
音频获取模块,用于获取经过哈夫曼编码算法处理且数据帧长度固定的压缩音频数据;
第一统计模块,用于持续监测所述压缩音频数据单位时间内的数据量,若所述单位时间内的数据量小于预设数据阈值,统计一段时间窗内所述压缩音频数据中全部单字节数据值的出现概率;
第二统计模块,用于根据所述全部单字节数据值的出现概率,统计有效数据值出现的概率总和;所述有效数据值是指出现概率大小为前N个的单字节数据值,N为正整数;
判断模块,用于出现连续多次所述有效数据值出现的概率总和大于占比阈值的情况,判断所述压缩音频数据为静默音频。
第二方面的一种可能的实现方式中,在所述出现连续多次所述有效数据值出现的概率总和大于占比阈值的情况之后,还包括:
比较出现概率最大的单字节数据值与预设极值判断阈值的大小,若所述出现概率最大的单字节数据值大于所述预设极值判断阈值,进行后续步骤;
若所述出现概率最大的单字节数据值小于或等于所述预设极值判断阈值,判断所述压缩音频数据为非静默音频,不进行后续步骤。
第二方面的一种可能的实现方式中,所述第二统计模块具体用于:
将全部单字节数据值的出现概率中最大的出现概率作为有效数据值出现的概率总和。
第二方面的一种可能的实现方式中,所述第二统计模块具体用于:
将全部单字节数据值的出现概率中前二大的两个出现概率之和作为有效数据值出现的概率总和。
第二方面的一种可能的实现方式中,所述时间窗的长度为500ms。
相比于现有技术,本发明实施例提供的一种压缩音频的静默检测方法及装置,采用统计学方法,在一定时间内,统计编码数据里出现各数据值的概率,根据各数据值的概率区分出有效数据值并统计有效数据值出现的概率总和,有效数据值出现的概率总和反映了音频数据的整体分布情况,根据概率总和进而判断压缩音频的静默状态。进一步地,比较出现概率最大的单字节数据值与预设极值判断阈值的大小,将比较结果也作为判断静默状态的条件。由于出现概率最大的单字节数据值反映了数据的峰值以及波动程度,若所述出现概率最大的单字节数据值大于所述预设极值判断阈值,反映了数据的波动程度小,因此可以辅助判断静默状态。
上述音频静默状态判断过程可以看出本申请不需要解码基带音频数据,大大减少了运算量,内存储存空间要求。因此本申请可应用在各种小型终端设备中部署,实现在终端即可静默检测后,去掉底噪减少编码数据量,提高网络吞吐量。
附图说明
图1是本发明一实施例提供的一种压缩音频的静默检测方法的流程示意图;
图2是本发明一实施例提供的一种压缩音频的静默检测装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,本发明一实施例提供一种压缩音频的静默检测方法,包括:
S10、获取经过哈夫曼编码算法处理且数据帧长度固定的压缩音频数据。
S11、持续监测所述压缩音频数据单位时间内的数据量,若所述单位时间内的数据量小于预设数据阈值,统计一段时间窗内所述压缩音频数据中全部单字节数据值的出现概率。
S12、根据所述全部单字节数据值的出现概率,统计有效数据值出现的概率总和;所述有效数据值是指出现概率大小为前N个的单字节数据值,N为正整数。
S13、出现连续多次所述有效数据值出现的概率总和大于占比阈值的情况,判断所述压缩音频数据为静默音频。
声音的产生是变化的震动引起的,在数字化后就是变化的数据。静默音频即数据不变化或者变化很小。目前音频压缩算法大部分使用固定长度基带音频数据作为一帧输入数据,并使用哈夫曼编码算法作为基础,根据哈夫曼编码原理,重复出现数据越多,压缩率越大,数据量越小,出来的连续重复数据概率会越大,定长编码出来的重复数值出现的概率就大。对于不断变化的原始音频基带数据,连续重复出现的数据概率就小,即压缩率小,数据量大,编码出来重复数据出现的概率就小。因此,针对输入压缩音频数据,S11中在数据量上设置一个阈值。当小于此阈值,统计一段时间窗内,编码数据里出现的每个单字节数据值的出现概率,对出现的有效数据值的概率总和与非有效数据值的概率总和分布情况进行判断,如果连续多次达到设置的占比阈值,判断所述压缩音频数据为静默音频。
需要说明的是,各单字节编码数据值指的是压缩编码后的单个字节数据的值范围,即一字节表示值的取值范围为0~255。
本申请针对固定数据帧长度并使用哈夫曼编码算法为编码基础的音频数据,采用统计学方法,在一定时间内,统计压缩音频数据里出现的每个单字节数据值的出现概率,对有效数据值的概率总和进行判断,可快速有效的检测到静默状态。
总体来说,本申请的实质是系统通过分析输入一帧压缩音频数据量,压缩音频数据量达到设置阈值后再将连续多帧压缩音频数据各值出现的概率进行统计。连续统计并多次判断出现概率占比大于设置的阈值即判断为静默音频。目前由于带宽限制与音频压缩算法的普及,音频在各系统中都是传输通过压缩基带后的编码数据。而本发明不需要解码基带音频数据,大大减少了运算量以及内存储存空间要求,可在各种小型终端设备中部署,进而实现在终端即可静默检测后,去掉底噪减少编码数据量,提高网络吞吐量。
示例性地,在所述出现连续多次所述有效数据值出现的概率总和大于占比阈值的情况之后,还包括:
比较出现概率最大的单字节数据值与预设极值判断阈值的大小,若所述出现概率最大的单字节数据值大于所述预设极值判断阈值,进行后续步骤;
若所述出现概率最大的单字节数据值小于或等于所述预设极值判断阈值,判断所述压缩音频数据为非静默音频,不进行后续步骤。
示例性地,所述根据所述全部单字节数据值的出现概率,统计有效数据值出现的概率总和,具体包括:
将全部单字节数据值的出现概率中最大的出现概率作为有效数据值出现的概率总和。
示例性地,所述根据所述全部单字节数据值的出现概率,统计有效数据值出现的概率总和,具体包括:
将全部单字节数据值的出现概率中前二大的两个出现概率之和作为有效数据值出现的概率总和。
示例性地,所述时间窗的长度为500ms。
下面结合一个实际应用的例子说明上述实施例的运行过程:
首先分析压缩编码数据量,当压缩编码数据量一帧中的数据量小于100kbps(换言之固定码率低于100kbps,这里将预设数据阈值设置为100kbp)。进行500毫秒的时间窗内(500ms可以视情况调整)出现的0到255的数值出现的次数进行统计。若出现了100音频数据,即统计总共出现100个。其中单字节数据值为0的有10个、1的有5个、100的有30个、200的有55个。统计出现最大的2个单字节数据值(一般是1~2个,这里相当于N取2)对应的出现概率,即100跟200,加起来是85个,即85%概率。超过了预设的占比阈值(例如预设的占比阈值设置成60%),即判断为静默音频。
接上条件与数据,针对特定编码参数的算法,当超过60%时,仍需要进行一个判断,即先确认出现概率最大的数值,如上述即55%对应的200,未超过设置的极值判断阈值,如250,则不判断为静默音频。如果上述55%对应的数据是251,则判断为静默音频。此处的“250”阈值需要根据不同音频编码参数与算法决定。如果设置为0即此判断条件不启用。
相比于现有技术,本发明实施例提供的一种压缩音频的静默检测方法及装置,采用统计学方法,在一定时间内,统计编码数据里出现各数据值的概率,根据各数据值的概率区分出有效数据值并统计有效数据值出现的概率总和,有效数据值出现的概率总和反映了音频数据的整体分布情况,根据概率总和进而判断压缩音频的静默状态。进一步地,比较出现概率最大的单字节数据值与预设极值判断阈值的大小,将比较结果也作为判断静默状态的条件。由于出现概率最大的单字节数据值反映了数据的峰值以及波动程度,若所述出现概率最大的单字节数据值大于所述预设极值判断阈值,反映了数据的波动程度小,因此可以辅助判断静默状态。
上述音频静默状态判断过程可以看出本申请不需要解码基带音频数据,大大减少了运算量,内存储存空间要求。因此本申请可应用在各种小型终端设备中部署,实现在终端即可静默检测后,去掉底噪减少编码数据量,提高网络吞吐量。
本申请实施例一实施例提供一种压缩音频的静默检测装置,包括:音频获取模块201、第一统计模块202、第二统计模块203和判断模块204。
音频获取模块201,用于获取经过哈夫曼编码算法处理且数据帧长度固定的压缩音频数据。
第一统计模块202,用于持续监测所述压缩音频数据单位时间内的数据量,若所述单位时间内的数据量小于预设数据阈值,统计一段时间窗内所述压缩音频数据中全部单字节数据值的出现概率。
第二统计模块203,用于根据所述全部单字节数据值的出现概率,统计有效数据值出现的概率总和;所述有效数据值是指出现概率大小为前N个的单字节数据值,N为正整数。
判断模块204,用于出现连续多次所述有效数据值出现的概率总和大于占比阈值的情况,判断所述压缩音频数据为静默音频。
示例性地,在所述出现连续多次所述有效数据值出现的概率总和大于占比阈值的情况之后,还包括:
比较出现概率最大的单字节数据值与预设极值判断阈值的大小,若所述出现概率最大的单字节数据值大于所述预设极值判断阈值,进行后续步骤;
若所述出现概率最大的单字节数据值小于或等于所述预设极值判断阈值,判断所述压缩音频数据为非静默音频,不进行后续步骤。
示例性地,所述第二统计模块203具体用于:
将全部单字节数据值的出现概率中最大的出现概率作为有效数据值出现的概率总和。
示例性地,所述第二统计模块203具体用于:
将全部单字节数据值的出现概率中前二大的两个出现概率之和作为有效数据值出现的概率总和。
示例性地,所述时间窗的长度为500ms。
相比于现有技术,本发明实施例提供的一种压缩音频的静默检测方法及装置,采用统计学方法,在一定时间内,统计编码数据里出现各数据值的概率,根据各数据值的概率区分出有效数据值并统计有效数据值出现的概率总和,有效数据值出现的概率总和反映了音频数据的整体分布情况,根据概率总和进而判断压缩音频的静默状态。进一步地,比较出现概率最大的单字节数据值与预设极值判断阈值的大小,将比较结果也作为判断静默状态的条件。由于出现概率最大的单字节数据值反映了数据的峰值以及波动程度,若所述出现概率最大的单字节数据值大于所述预设极值判断阈值,反映了数据的波动程度小,因此可以辅助判断静默状态。
上述音频静默状态判断过程可以看出本申请不需要解码基带音频数据,大大减少了运算量,内存储存空间要求。因此本申请可应用在各种小型终端设备中部署,实现在终端即可静默检测后,去掉底噪减少编码数据量,提高网络吞吐量。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的定位装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种压缩音频的静默检测方法,其特征在于,包括:
获取经过哈夫曼编码算法处理且数据帧长度固定的压缩音频数据;
持续监测所述压缩音频数据单位时间内的数据量,若所述单位时间内的数据量小于预设数据阈值,统计一段时间窗内所述压缩音频数据中全部单字节数据值的出现概率;
根据所述全部单字节数据值的出现概率,统计有效数据值出现的概率总和;所述有效数据值是指出现概率大小为前N个的单字节数据值,N为正整数;
出现连续多次所述有效数据值出现的概率总和大于占比阈值的情况,判断所述压缩音频数据为静默音频。
2.如权利要求1所述压缩音频的静默检测方法,其特征在于,在所述出现连续多次所述有效数据值出现的概率总和大于占比阈值的情况之后,还包括:
比较出现概率最大的单字节数据值与预设极值判断阈值的大小,若所述出现概率最大的单字节数据值大于所述预设极值判断阈值,进行后续步骤;
若所述出现概率最大的单字节数据值小于或等于所述预设极值判断阈值,判断所述压缩音频数据为非静默音频,不进行后续步骤。
3.如权利要求1所述压缩音频的静默检测方法,其特征在于,所述根据所述全部单字节数据值的出现概率,统计有效数据值出现的概率总和,具体包括:
将全部单字节数据值的出现概率中最大的出现概率作为有效数据值出现的概率总和。
4.如权利要求1所述压缩音频的静默检测方法,其特征在于,所述根据所述全部单字节数据值的出现概率,统计有效数据值出现的概率总和,具体包括:
将全部单字节数据值的出现概率中前二大的两个出现概率之和作为有效数据值出现的概率总和。
5.如权利要求1所述压缩音频的静默检测方法,其特征在于,所述时间窗的长度为500ms。
6.一种压缩音频的静默检测装置,其特征在于,包括:
音频获取模块,用于获取经过哈夫曼编码算法处理且数据帧长度固定的压缩音频数据;
第一统计模块,用于持续监测所述压缩音频数据单位时间内的数据量,若所述单位时间内的数据量小于预设数据阈值,统计一段时间窗内所述压缩音频数据中全部单字节数据值的出现概率;
第二统计模块,用于根据所述全部单字节数据值的出现概率,统计有效数据值出现的概率总和;所述有效数据值是指出现概率大小为前N个的单字节数据值,N为正整数;
判断模块,用于出现连续多次所述有效数据值出现的概率总和大于占比阈值的情况,判断所述压缩音频数据为静默音频。
7.如权利要求6所述压缩音频的静默检测装置,其特征在于,在所述出现连续多次所述有效数据值出现的概率总和大于占比阈值的情况之后,还包括:
比较出现概率最大的单字节数据值与预设极值判断阈值的大小,若所述出现概率最大的单字节数据值大于所述预设极值判断阈值,进行后续步骤;
若所述出现概率最大的单字节数据值小于或等于所述预设极值判断阈值,判断所述压缩音频数据为非静默音频,不进行后续步骤。
8.如权利要求6所述压缩音频的静默检测装置,其特征在于,所述第二统计模块具体用于:
将全部单字节数据值的出现概率中最大的出现概率作为有效数据值出现的概率总和。
9.如权利要求6所述压缩音频的静默检测装置,其特征在于,所述第二统计模块具体用于:
将全部单字节数据值的出现概率中前二大的两个出现概率之和作为有效数据值出现的概率总和。
10.如权利要求6所述压缩音频的静默检测装置,其特征在于,所述时间窗的长度为500ms。
CN202310350610.3A 2023-04-03 2023-04-03 一种压缩音频的静默检测方法及装置 Active CN116417015B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310350610.3A CN116417015B (zh) 2023-04-03 2023-04-03 一种压缩音频的静默检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310350610.3A CN116417015B (zh) 2023-04-03 2023-04-03 一种压缩音频的静默检测方法及装置

Publications (2)

Publication Number Publication Date
CN116417015A CN116417015A (zh) 2023-07-11
CN116417015B true CN116417015B (zh) 2023-09-12

Family

ID=87057677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310350610.3A Active CN116417015B (zh) 2023-04-03 2023-04-03 一种压缩音频的静默检测方法及装置

Country Status (1)

Country Link
CN (1) CN116417015B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101221762A (zh) * 2007-12-06 2008-07-16 上海大学 一种mp3压缩域音频分割方法
CN101930746A (zh) * 2010-06-29 2010-12-29 上海大学 一种mp3压缩域音频自适应降噪方法
CN106601230A (zh) * 2016-12-19 2017-04-26 苏州金峰物联网技术有限公司 基于连续混合高斯hmm模型的物流分拣地名语音识别方法、系统及物流分拣系统
JP2017216603A (ja) * 2016-05-31 2017-12-07 パナソニックIpマネジメント株式会社 電話装置
CN111107284A (zh) * 2019-12-31 2020-05-05 洛阳乐往网络科技有限公司 一种视频字幕实时生成系统及生成方法
WO2020192009A1 (zh) * 2019-03-25 2020-10-01 平安科技(深圳)有限公司 一种基于神经网络的静音检测方法、终端设备及介质
CN111883181A (zh) * 2020-06-30 2020-11-03 海尔优家智能科技(北京)有限公司 音频检测方法、装置、存储介质及电子装置
JP2022017740A (ja) * 2020-07-14 2022-01-26 シャープ株式会社 無音区間検出装置および無音区間検出方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1393301B1 (en) * 2001-05-11 2007-01-10 Koninklijke Philips Electronics N.V. Estimating signal power in compressed audio

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101221762A (zh) * 2007-12-06 2008-07-16 上海大学 一种mp3压缩域音频分割方法
CN101930746A (zh) * 2010-06-29 2010-12-29 上海大学 一种mp3压缩域音频自适应降噪方法
JP2017216603A (ja) * 2016-05-31 2017-12-07 パナソニックIpマネジメント株式会社 電話装置
CN106601230A (zh) * 2016-12-19 2017-04-26 苏州金峰物联网技术有限公司 基于连续混合高斯hmm模型的物流分拣地名语音识别方法、系统及物流分拣系统
WO2020192009A1 (zh) * 2019-03-25 2020-10-01 平安科技(深圳)有限公司 一种基于神经网络的静音检测方法、终端设备及介质
CN111107284A (zh) * 2019-12-31 2020-05-05 洛阳乐往网络科技有限公司 一种视频字幕实时生成系统及生成方法
CN111883181A (zh) * 2020-06-30 2020-11-03 海尔优家智能科技(北京)有限公司 音频检测方法、装置、存储介质及电子装置
JP2022017740A (ja) * 2020-07-14 2022-01-26 シャープ株式会社 無音区間検出装置および無音区間検出方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
网络化协同设计技术研究与系统开发;何鹤立;中国优秀硕士学位论文全文数据库;全文 *

Also Published As

Publication number Publication date
CN116417015A (zh) 2023-07-11

Similar Documents

Publication Publication Date Title
US7412376B2 (en) System and method for real-time detection and preservation of speech onset in a signal
US6223162B1 (en) Multi-level run length coding for frequency-domain audio coding
EP0409248A2 (en) Signal encoding apparatus
CN1462427A (zh) 估算压缩声频中的信号功率
US8909521B2 (en) Coding method, coding apparatus, coding program, and recording medium therefor
EP1187338A2 (en) Method and apparatus for performing variable-size vector entropy coding
US20120197642A1 (en) Signal processing method, device, and system
CN113938682A (zh) 视频编码方法、装置和电子设备
EP3069449B1 (en) Split gain shape vector coding
CN101895788A (zh) 一种视频编码性能客观评价方法及系统
CN116417015B (zh) 一种压缩音频的静默检测方法及装置
US8571112B2 (en) Specification method and apparatus for coding and decoding
US8060362B2 (en) Noise detection for audio encoding by mean and variance energy ratio
CN1364287A (zh) 降低语音编码所需处理容量的方法以及网络单元
CN1291826A (zh) 可变长编码方法和装置
KR100668319B1 (ko) 오디오 신호의 변환방법 및 장치와 오디오 신호에적응적인 부호화방법 및 장치, 오디오 신호의 역변환 방법및 장치와 오디오 신호에 적응적인 복호화 방법 및 장치
CN106656201B (zh) 一种基于采样数据幅频特性的压缩方法
US20070192086A1 (en) Perceptual quality based automatic parameter selection for data compression
JP2003216188A (ja) オーディオ信号符号化方法、符号化装置、及び記憶媒体
JP3418005B2 (ja) 音声ピッチ検出装置
CN106612168A (zh) 一种基于pcm编码特征的语音失步检测方法
EP1424684A1 (en) Voice activity detection apparatus and method
KR101078378B1 (ko) 오디오 부호화기의 양자화 방법 및 장치
CN102547371A (zh) 一种基于h.264/avc视频二次压缩检测方法
CN116469413B (zh) 一种基于人工智能的压缩音频静默检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant