CN117636907B - 基于广义互相关的音频数据处理方法、装置及存储介质 - Google Patents
基于广义互相关的音频数据处理方法、装置及存储介质 Download PDFInfo
- Publication number
- CN117636907B CN117636907B CN202410103476.1A CN202410103476A CN117636907B CN 117636907 B CN117636907 B CN 117636907B CN 202410103476 A CN202410103476 A CN 202410103476A CN 117636907 B CN117636907 B CN 117636907B
- Authority
- CN
- China
- Prior art keywords
- audio
- paths
- audio data
- data
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 122
- 239000000872 buffer Substances 0.000 claims abstract description 52
- 239000012634 fragment Substances 0.000 claims abstract description 42
- 238000004364 calculation method Methods 0.000 claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 18
- 230000001105 regulatory effect Effects 0.000 claims abstract description 8
- 238000001228 spectrum Methods 0.000 claims description 19
- 230000005236 sound signal Effects 0.000 claims description 17
- 238000005314 correlation function Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 13
- 238000012423 maintenance Methods 0.000 claims description 10
- 230000001276 controlling effect Effects 0.000 claims description 8
- 230000003595 spectral effect Effects 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 230000037433 frameshift Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 2
- 230000005540 biological transmission Effects 0.000 abstract description 11
- 230000008859 change Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 7
- 230000007704 transition Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000005311 autocorrelation function Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 241000470001 Delaya Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H60/00—Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
- H04H60/29—Arrangements for monitoring broadcast services or broadcast-related services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Noise Elimination (AREA)
Abstract
本发明提供一种基于广义互相关的音频数据处理方法、装置及存储介质,其中方法包括通过计算窗口取出两路音频流的当前处理数据,并分别放入到两路音频片段缓冲区;采用短时平均能量特征对所述两路音频片段缓冲区的数据进行静音段处理;采用广义互相关延迟算法对经过静音段处理的数据进行延迟估计处理,获取两路音频数据之间的延迟估计值;根据所述两路音频数据之间的延迟估计值,采用皮尔森相关系数对所述两路音频片段缓冲区的数据进行门限判决;通过状态机对延迟估计处理以及门限判决进行控制调控,实现两路音频数据对齐。利用本发明,能够解决各路音频传输延迟不确定、音频延迟实时变化的问题,从而实现各路音频数据实时精确对齐。
Description
技术领域
本发明涉及音频技术领域,更为具体地,涉及一种基于广义互相关的音频数据处理方法、装置及存储介质。
背景技术
广播电台在节目播出过程中,由于设备故障、非法信号干扰等原因,存在着插播、错播等安全事故。为了及时发现安全播出事故,减轻值班员工作压力,通常采用音频节目内容一致性比对技术,对播出环节中各个节点的音频节目进行实时监测,以保证全天后安全播出的要求。
音频节目内容一致性比对,是对广播电台同一节目不同传输节点的音频信号,进行节目内容的一致性比对,实时监测节目内容的正确性。音频节目传输通常采用卫星信号传输、有线网络传输、数字音频光传输、互联网宽带传输等方式,不同传输方式的信号延迟各不相同,并且存在实时的延迟抖动。在音频节目内容一致性比对处理之前,音频数据的精确对齐是音频比对处理的前提。
发明内容
鉴于上述问题,本发明的目的是提供一种基于广义互相关的音频数据处理方法、装置及存储介质,以解决各路音频传输延迟不确定、音频延迟实时变化的问题,从而实现各路音频数据实时精确对齐。
本发明提供一种基于广义互相关的音频数据处理方法,包括:
通过计算窗口取出两路音频流的当前处理数据,并分别放入到两路音频片段缓冲区;
采用短时平均能量特征对所述两路音频片段缓冲区的数据进行静音段处理;
采用广义互相关延迟算法对经过静音段处理的数据进行延迟估计处理,获取两路音频数据之间的延迟估计值;
根据所述两路音频数据之间的延迟估计值,采用皮尔森相关系数对所述两路音频片段缓冲区的数据进行门限判决;
通过状态机对延迟估计处理以及门限判决进行控制调控,实现两路音频数据对齐。
此外,优选的方案是,所述采用短时平均能量特征对所述两路音频片段缓冲区的数据进行静音段处理包括:
读取所述两路音频片段缓冲区的一帧数据;
通过短时平均能量特征公式对读取的一帧数据进行短时平均能量特征提取;
将提取的短时平均能量特征与设定的阈值进行比较;
若所述短时平均能量特征大于阈值,则此音频片段进行延迟估计处理,否则滑动至下一个计算窗口直到所述短时平均能量特征值大于阈值。
此外,优选的方案是,所述通过短时平均能量特征公式对读取的一帧数据进行短时平均能量特征提取包括:
第i帧音频满足公式为:
,
其中,表示第i帧音频,/>表示音频信号;/>表示窗函数,/>表示帧移,/>表示第i帧的起始点数值,n表示第n个样值,/>表示第i帧的第n个音频样值;
第i帧音频信号的短时平均能量计算公式为:,
其中,L为每帧信号的数据长度。
此外,优选的方案是,所述采用广义互相关延迟算法对经过静音段处理的数据进行延迟估计处理,获取两路音频数据之间的延迟估计值包括:
对两路音频信号进行FFT变换,获取两路信号的互功率谱;
对所述互功率谱、加权函数进行加权滤波处理,得到互功率谱密度;
对所述互功率谱密度经过IFFT逆变换处理,获取广义互相关函数;
对所述广义互相关函数进行峰值检测处理,获取两路音频数据之间的延迟估计值。
此外,优选的方案是,所述两路信号的互功率谱的公式为:
,
其中,表示两路信号的互功率谱,/>表示第一路音频信号,/>表示第二路音频信号;
所述互功率谱密度的公式为:
,
其中,表示互功率谱密度,/>表示对信号x1加权滤波函数,/>表示对信号x2的加权滤波函数;
所述广义互相关函数的公式为:
,
,
其中,表示延迟值;/>表示加权滤波函数。
此外,优选的方案是,所述根据所述两路音频数据之间的延迟估计值,采用皮尔森相关系数对所述两路音频片段缓冲区的数据进行门限判决包括:
根据所述两路音频数据之间的延迟估计值,将所述两路音频片段缓冲区的音频对齐;
采用皮尔森相关系数对从两路音频片段缓冲区对齐后的音频数据进行处理,获取皮尔森系数值;
将所述皮尔森系数值与预设的阈值进行比较;
若所述皮尔森系数值大于预设的阈值,则判定成功,否则滑动到下一个计算窗口重新进行延迟估计处理。
此外,优选的方案是,所述皮尔森相关系数的公式为:
,
其中,X、Y为两个变量,表示X和Y的协方差,/>表示变量X的方差,表示变量Y的方差,/>表示变量X的均值,/>表示变量Y的均值。
此外,优选的方案是,所述通过状态机对延迟估计处理以及门限判决进行控制调控包括:
开始运行时,所述状态机处于初始化状态,进行所述大窗口音频数据处理;
如果大窗口音频数据处理状态门限判决成功,则所述状态机进入小窗口音频数据处理状态;
对所述小窗口音频数据处理状态进行处理,如果所述小窗口音频数据处理状态门限判决成功,则所述状态机进入跟踪保持状态;
对所述跟踪保持状态进行处理,如果所述跟踪保持状态判决成功则保持在所述跟踪保持状态,如果所述跟踪保持状态判决失败则返回所述初始化状态;其中,在所述跟踪保持状态中,实时进行小窗口音频数据对齐。
本发明还提供一种基于广义互相关的音频数据处理装置,包括:
预处理模块,用于通过计算窗口取出两路音频流的当前处理数据,并分别放入到两路音频片段缓冲区;
静音段处理模块,用于采用短时平均能量特征对所述两路音频片段缓冲区的数据进行静音段处理;
延迟估计模块,用于采用广义互相关延迟算法对经过静音段处理的数据进行延迟估计处理,获取两路音频数据之间的延迟估计值;
门限判决模块,用于根据所述两路音频数据之间的延迟估计值,采用皮尔森相关系数对所述两路音频片段缓冲区的数据进行门限判决;
状态机控制模块,用于通过状态机对延迟估计处理以及门限判决进行控制调控,实现两路音频数据对齐。
本发明还提供一种计算机可读的存储介质,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述基于广义互相关的音频数据处理方法。
从上面的技术方案可知,本发明提供的基于广义互相关的音频数据处理方法、装置及存储介质,通过计算窗口取出两路音频流的当前处理数据,并分别放入到两路音频片段缓冲区;采用短时平均能量特征对所述两路音频片段缓冲区的数据进行静音段处理;采用广义互相关延迟算法对经过静音段处理的数据进行延迟估计处理,获取两路音频数据之间的延迟估计值;根据所述两路音频数据之间的延迟估计值,采用皮尔森相关系数对所述两路音频片段缓冲区的数据进行门限判决;通过状态机对延迟估计处理以及门限判决进行控制调控,实现两路音频数据对齐;以解决各路音频传输延迟不确定、音频延迟实时变化的问题,从而实现各路音频数据实时精确对齐。
为了实现上述以及相关目的,本发明的一个或多个方面包括后面将详细说明的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而,这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外,本发明旨在包括所有这些方面以及它们的等同物。
附图说明
通过参考以下结合附图的说明,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
图1为根据本发明实施例的基于广义互相关的音频数据处理方法流程示意图;
图2为根据本发明实施例的状态机的工作状态转移图;
图3为根据本发明实施例的基于广义互相关的音频数据处理装置逻辑结构示意图;
图4为根据本发明实施例的基于互相关的音频数据处理装置总体框图;
图5为根据本发明实施例的静音段处理模块流程图
图6为根据本发明实施例的广义互相关延迟估计原理图;
图7为根据本发明实施例的大窗口音频数据对齐状态处理流程示意图
图8为根据本发明实施例的小窗口音频数据对齐状态处理流程示意图;
图9为根据本发明实施例的跟踪保持状态处理流程示意图。
在所有附图中相同的标号指示相似或相应的特征或功能。
具体实施方式
在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。
以下将结合附图对本发明的具体实施例进行详细描述。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
实施例1
为了说明本发明提供的基于广义互相关的音频数据处理方法,图1示出了根据本发明实施例的基于广义互相关的音频数据处理方法流程。
如图1所示,本发明提供的基于广义互相关的音频数据处理方法包括:
S110:通过计算窗口取出两路音频流的当前处理数据,并分别放入到两路音频片段缓冲区;
S120:采用短时平均能量特征对所述两路音频片段缓冲区的数据进行静音段处理;
S130:采用广义互相关延迟算法对经过静音段处理的数据进行延迟估计处理,获取两路音频数据之间的延迟估计值;
S140:根据所述两路音频数据之间的延迟估计值,采用皮尔森相关系数对所述两路音频片段缓冲区的数据进行门限判决;
S150:通过状态机对延迟估计处理以及门限判决进行控制调控,实现两路音频数据对齐。
在本发明的实施例中,基于广义互相关的音频数据处理方法,包括:静音段处理过程、延迟估计处理过程、门限判决处理过程、状态机控制过程。即:节目一音频流和节目二音频流,为需要进行数据处理的音频节目,通过计算窗口取出当前处理数据,放入节目一音频片段缓冲区和节目二音频片段缓冲区,经过静音段处理、延迟估计、门限判决,实时估计出节目一和节目二的延迟差,并调整缓冲区,实现音频数据对齐。
在步骤S120中,所述采用短时平均能量特征对所述两路音频片段缓冲区的数据进行静音段处理包括:
S121:读取所述两路音频片段缓冲区的一帧数据;
S122:通过短时平均能量特征公式对读取的一帧数据进行短时平均能量特征提取;
S123:将提取的短时平均能量特征与设定的阈值进行比较;
S124:若所述短时平均能量特征大于阈值,则此音频片段进行延迟估计处理,否则滑动至下一个计算窗口直到所述短时平均能量特征值大于阈值。
所述通过短时平均能量特征公式对读取的一帧数据进行短时平均能量特征提取包括:
第i帧音频满足公式为:
,
其中,表示第i帧音频,/>表示音频信号;/>表示窗函数,/>表示帧移,/>表示第i帧的起始点数值,n表示第n个样值,/>表示第i帧的第n个音频样值;
第i帧音频信号的短时平均能量计算公式为:,
其中,L为每帧信号的数据长度。
在步骤S130中,所述采用广义互相关延迟算法对经过静音段处理的数据进行延迟估计处理,获取两路音频数据之间的延迟估计值包括:
S131:对两路音频信号进行FFT变换,获取两路信号的互功率谱;
S132:对所述互功率谱、加权函数进行加权滤波处理,得到互功率谱密度;
S133:对所述互功率谱密度经过IFFT逆变换处理,获取广义互相关函数;
S134:对所述广义互相关函数进行峰值检测处理,获取两路音频数据之间的延迟估计值。
所述两路信号的互功率谱的公式为:
,
其中,表示两路信号的互功率谱,/>表示第一路音频信号,/>表示第二路音频信号;
所述互功率谱密度的公式为:
,
其中,表示互功率谱密度,/>表示对信号x1加权滤波函数,/>表示对信号x2的加权滤波函数;
所述广义互相关函数的公式为:
,
,
其中,表示延迟值;/>表示加权滤波函数。
步骤S140中,根据所述两路音频数据之间的延迟估计值,采用皮尔森相关系数对所述两路音频片段缓冲区的数据进行门限判决包括:
S141:根据所述两路音频数据之间的延迟估计值,将所述两路音频片段缓冲区的音频对齐;
S142:采用皮尔森相关系数对从两路音频片段缓冲区对齐后的音频数据进行处理,获取皮尔森系数值;
S143:将所述皮尔森系数值与预设的阈值进行比较;
S144:若所述皮尔森系数值大于预设的阈值,则判定成功,否则滑动到下一个计算窗口重新进行延迟估计处理。
其中,所述皮尔森相关系数的公式为:
,
其中,X、Y为两个变量,表示X和Y的协方差,/>表示变量X的方差,表示变量Y的方差,/>表示变量X的均值,/>表示变量Y的均值。
在步骤S150中,所述通过状态机对延迟估计处理以及门限判决进行控制调控包括:
开始运行时,所述状态机处于初始化状态,进行所述大窗口音频数据处理;
如果大窗口音频数据处理状态门限判决成功,则所述状态机进入小窗口音频数据处理状态;
对所述小窗口音频数据处理状态进行处理,如果所述小窗口音频数据处理状态门限判决成功,则所述状态机进入跟踪保持状态;
对所述跟踪保持状态进行处理,如果所述跟踪保持状态判决成功则保持在所述跟踪保持状态,如果所述跟踪保持状态判决失败,则返回所述初始化状态其中,在所述跟踪保持状态中,实时进行小窗口音频数据对齐。
在本发明的实施例中,如图2所示状态机的工作状态可以分为初始化状态、大窗口音频数据处理状态、小窗口音频数据处理状态、跟踪保持状态。图2示出了状态机的状态转移图,当算法首次运行时,处于初始化状态,进行大窗口音频数据处理,门限判决成功,进入小窗口音频数据处理状态,门限判决成功,进入跟踪保持状态,在跟踪保持状态中,实时进行小窗口音频数据处理,满足判决条件保持在该状态,不满足判决条件返回初始化状态。
从上面的技术方案可知,通过计算窗口取出两路音频流的当前处理数据,并分别放入到两路音频片段缓冲区;采用短时平均能量特征对所述两路音频片段缓冲区的数据进行静音段处理;采用广义互相关延迟算法对经过静音段处理的数据进行延迟估计处理,获取两路音频数据之间的延迟估计值;根据所述两路音频数据之间的延迟估计值,采用皮尔森相关系数对所述两路音频片段缓冲区的数据进行门限判决;通过状态机对延迟估计处理以及门限判决进行控制调控,实现两路音频数据对齐;以解决各路音频传输延迟不确定、音频延迟实时变化的问题,从而实现各路音频数据实时精确对齐。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
实施例2
与上述方法相对应,本发明还提供一种基于广义互相关的音频数据处理装置,图3示出了根据本发明实施例的在基于广义互相关的音频数据处理装置逻辑结构。
如图3所示,本发明提供一种基于广义互相关的音频数据处理装置300,包括:预处理模块310,用于通过计算窗口取出两路音频流的当前处理数据,并分别放入到两路音频片段缓冲区;
静音段处理模块320,用于采用短时平均能量特征对所述两路音频片段缓冲区的数据进行静音段处理;
延迟估计模块330,用于采用广义互相关延迟算法对经过静音段处理的数据进行延迟估计处理,获取两路音频数据之间的延迟估计值;
门限判决模块340,用于根据所述两路音频数据之间的延迟估计值,采用皮尔森相关系数对所述两路音频片段缓冲区的数据进行门限判决;
状态机控制模块350,用于通过状态机对延迟估计处理以及门限判决进行控制调控,实现两路音频数据对齐。
具体地,基于广义互相关的音频数据处理装置300包括:静音段处理模块、延迟估计模块、门限判决模块、状态机控制模块,四大模块。如图4所示,节目一音频流和节目二音频流,为需要进行处理的音频节目,通过计算窗口取出当前处理数据,放入节目一音频片段缓冲区和节目二音频片段缓冲区,经过静音段处理、延迟估计、门限判决,实时估计出节目一和节目二的延迟差,并调整缓冲区,实现音频数据对齐。
在本发明的实施例中,静音段处理模块320中,广播音频节目播出过程中静音时间段总是存在,如相邻两节目之间的空隙、访谈节目中说话人的停顿、歌曲的开头和结尾等。广义互相关延迟估计算法是通过计算互相关函数峰值所在的时刻位置来进行延迟估计的,但静音段的互相关函数值近似为零,此时难以找到互相关函数峰值、无法进行音频数据对齐。因此设计静音段处理模块,采用短时平均能量特征的方法,对静音时间段的音频数据进行处理。
短时平均能量特征是音频的时域特征,计算简单运算量小,是音频信号分析领域中的一个重要特征指标。假设现有音频信号,窗函数/>,帧移是/>,则第i帧音频/>满足公式(1)。
(1)
第i帧音频信号的短时平均能量计算公式如下所示:
(2)
其中,L为每帧信号的数据长度。
在图5所示的实施例中,静音段处理模块的工作流程,先从节目一音频流缓冲区和节目二音频流缓冲区中,读取1帧数据,然后根据公式(1)公式(2),分别对节目一音频片段和节目二音频片段进行短时平均能量特征提取,然后将其与设定的阈值进行比较:若大于阈值则使用该音频片段进行延迟估计,否则滑动至下一个计算窗口直到音频短时平均能量特征值大于阈值。
在本发明的实施例中,延迟估计模块330基于广义互相关延迟估计算法来实现音频数据对齐,该算法是一种在时域内比较两个信号相似程度的基本方法,其核心思想是通过计算两个接收信号和/>的相关函数来估计时间延迟:,
(3)
式(3)中:、/>是两个独立接收的带有噪声信号,s(t)是原始信号,和/>分别是背景噪声(方差为1,均值为0的高斯白噪声),信号与噪声是相互独立的,/>为信号的相对延迟。那么信号的相关函数为
(4)
式(4)中:是数学期望,/>是原始信号s(t)的自相关函数,并且有
(5)
这意味着原始信号与噪声是完全正交的。另外,自相关函数的性质:
(6)
这表明,只有当时,即两个信号之间的相关性最大时,/>才是取得最大值。因此,在这个最大值位置处的时间被认为是两个信号之间的延迟时间。
广义互相关延迟估计(Generalized cross correlation, GCC)原理如图6所示,首先对两路输入的音频信号、/>进行FFT变换,然后求得两个信号的互功率谱,经过加权函数/>,进行加权滤波,得到/>,经过IFFT逆变换,得到广义互相关函数/>,通过峰值检测模块,求出/>最大值,及最大值所对应的延迟位置,输出延迟估计值。
其中:
(7)
(8)
(9)
(10)
其中,为信号/>、/>的互功率谱密度;/>为信号加权滤波后的互功率谱密度;/>为加权(滤波)函数;/>为广义互相关函数;加权函数通常根据环境噪声特点、信号信噪比大小等因素进行选择,由于广播音频信号信噪比普遍较高(通常/>),故本设计中可以选择加权函数为1。
在延迟估计模块330中,采用广义互相关延迟算法,设计大窗口延迟估计和小窗口延迟估计两次延迟估计的计算处理,来实现对大延迟的粗延迟估计和对小范围抖动延迟的精确延迟估计。
大窗口延迟估计参数及性能如下:1)互相关计算中使用的音频采样率为2KHz的音频数据;2)互相关计算窗长为20s的音频数据;3)进行一次延迟估计,算法运算量为(乘加运算次数):0.61*1e6;4)延迟估计精度为一个采样点=1/2KHz(约0.5毫秒)。
小窗口延迟估计参数及性能如下:1)互相关计算中使用的音频采样率为48KHz的音频数据;2)互相关计算窗长为1s的音频数据;3)进行一次延迟估计,算法运算量为(乘加运算次数):3*1e6;4)延迟估计精度为一个采样点=1/48KHz(约21微秒)。
在本发明的实施例中,门限判决模块340根据延迟估计模块输出的两路音频数据之间的延迟估计值,使用皮尔森相关系数进行门限判决。
其中,皮尔森相关系数能够反映出两个变量的之间线性相关程度,它的数值范围从-1到1,绝对值越高表示相关性越强。如果有两个变量为X、Y,则X、Y之间的皮尔森相关系数计算如式(11)所示。
(11)
其中,是X和Y的协方差,/>是是变量X的方差,/>是变量Y的方差,/>为变量X的均值,/>为变量Y的均值。
在本发明的实施例中,状态机控制模块350完成延迟估计模块和门限判决模块的控制调度,状态机的工作状态可以分为初始化状态、大窗口音频数据处理状态、小窗口音频数据处理状态、跟踪保持状态。
其中,初始化状态,包括音频缓冲区复位,系统变量初始化;大窗口音频数据处理状态,包括大窗口延迟估计及门限判决,具体如图7所示;小窗口音频数据处理状态,包括小窗口延迟估计及门限判决,如图8所示;跟踪保持状态,包括小窗口延迟估计及门限判决,如图9所示。
具体地,如图7所示,大窗口延迟估计模块估算出延迟估计值;根据延迟估计值对齐缓冲区节目1和节目2分别读取数据40000个样值;然后通过皮尔森相关系数计算皮尔森系数P;如果P大于等于PSL_th(PSL_th=0.5),则输出延迟估计值门限判决成功,如果P不满足大于等于PSL_th(PSL_th=0.5),则滑动下一个计算窗口重新进行大窗口延迟估计。
如图8所示,小窗口延迟估计模块估算出延迟估计值;根据延迟估计值对齐缓冲区节目1和节目2分别读取数据48000个样值;然后通过皮尔森相关系数计算皮尔森系数P;如果P大于等于PSL_th(PSL_th=0.7),则输出延迟估计值门限判决成功,如果P不满足大于等于PSL_th(PSL_th=0.5),则滑动下一个计算窗口重新进行小窗口延迟估计。
如图9所示,小窗口延迟估计模块估算出延迟估计值;根据延迟估计值对齐缓冲区节目1和节目2分别读取数据48000个样值;然后通过皮尔森相关系数计算皮尔森系数P;如果P大于等于PSL_th1(PSL_th1=0.5),则输出延迟估计值保持在跟踪保持状态,如果P不满足大于等于PSL_th1(PSL_th1=0.5),则比较P与PSL_th2&&CNT与CNTmax的大小,如果P小于PSL_th2(PSL_th2=0.3)&&CNT大于CNTmax,则延迟估计值=0跳转到初始化状态,否则,CNT=CNT+1不更新延迟估计值保持在跟踪保持状态。
从上面的技术方案可知,通过预处理模块310、静音段处理模块320、延迟估计模块330、门限判决模块340、状态机控制模块350相互作用以解决各路音频传输延迟不确定、音频延迟实时变化的问题,从而实现各路音频数据实时精确对齐。
实施例3
本实施例提供的计算机可读的存储介质,该计算机可读的存储介质上存储有计算机程序,该计算机程序被处理器执行时实现实施例1中基于广义互相关的音频数据处理方法,为避免重复,这里不再赘述。或者,该计算机程序被处理器执行时实现实施例2中基于广义互相关的音频数据处理装置中各模块/单元的功能,为避免重复,这里不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于广义互相关的音频数据处理方法,其特征在于,包括:
通过计算窗口取出两路音频流的当前处理数据,并分别放入到两路音频片段缓冲区;
采用短时平均能量特征对所述两路音频片段缓冲区的数据进行静音段处理;
采用广义互相关延迟算法对经过静音段处理的数据进行延迟估计处理,获取两路音频数据之间的延迟估计值;
根据所述两路音频数据之间的延迟估计值,采用皮尔森相关系数对所述两路音频片段缓冲区的数据进行门限判决;
通过状态机对延迟估计处理以及门限判决进行控制调控,实现两路音频数据对齐。
2.根据权利要求1所述的基于广义互相关的音频数据处理方法,其特征在于,所述采用短时平均能量特征对所述两路音频片段缓冲区的数据进行静音段处理包括:
读取所述两路音频片段缓冲区的一帧数据;
通过短时平均能量特征公式对读取的一帧数据进行短时平均能量特征提取;
将提取的短时平均能量特征与设定的阈值进行比较;
若所述短时平均能量特征大于阈值,则此音频片段进行延迟估计处理,否则滑动至下一个计算窗口直到所述短时平均能量特征值大于阈值。
3.根据权利要求2所述基于广义互相关的音频数据处理方法,其特征在于,所述通过短时平均能量特征公式对读取的一帧数据进行短时平均能量特征提取包括:
第i帧音频满足公式为:
,
其中,表示第i帧音频,/>表示音频信号;/>表示窗函数,/>表示帧移,/>表示第i帧的起始点数值,n表示第n个样值,/>表示第i帧的第n个音频样值;
第i帧音频信号的短时平均能量计算公式为:,
其中,L为每帧信号的数据长度。
4.根据权利要求1所述的基于广义互相关的音频数据处理方法,其特征在于,所述采用广义互相关延迟算法对经过静音段处理的数据进行延迟估计处理,获取两路音频数据之间的延迟估计值包括:
对两路音频信号进行FFT变换,获取两路信号的互功率谱;
对所述互功率谱、加权函数进行加权滤波处理,得到互功率谱密度;
对所述互功率谱密度经过IFFT逆变换处理,获取广义互相关函数;
对所述广义互相关函数进行峰值检测处理,获取两路音频数据之间的延迟估计值。
5.根据权利要求4所述的基于广义互相关的音频数据处理方法,其特征在于, 所述两路信号的互功率谱的公式为:
,
其中,表示两路信号的互功率谱,/>表示第一路音频信号,/>表示第二路音频信号;
所述互功率谱密度的公式为:
,
其中,表示互功率谱密度,/>表示对信号x1加权滤波函数,/>表示对信号x2的加权滤波函数;
所述广义互相关函数的公式为:
,
,
其中,表示延迟值;/>表示加权滤波函数。
6.根据权利要求1所述的基于广义互相关的音频数据处理方法,其特征在于,根据所述两路音频数据之间的延迟估计值,采用皮尔森相关系数对所述两路音频片段缓冲区的数据进行门限判决包括:
根据所述两路音频数据之间的延迟估计值,将所述两路音频片段缓冲区的音频对齐;
采用皮尔森相关系数对从两路音频片段缓冲区对齐后的音频数据进行处理,获取皮尔森系数值;
将所述皮尔森系数值与预设的阈值进行比较;
若所述皮尔森系数值大于预设的阈值,则判定成功,否则滑动到下一个计算窗口重新进行延迟估计处理。
7.根据权利要求6所述的基于广义互相关的音频数据处理方法,其特征在于,所述皮尔森相关系数的公式为:
,
其中,X、Y为两个变量,表示X和Y的协方差,/>表示变量X的方差,表示变量Y的方差,/>表示变量X的均值,/>表示变量Y的均值。
8.根据权利要求1所述的基于广义互相关的音频数据处理方法,其特征在于,所述通过状态机对延迟估计处理以及门限判决进行控制调控包括:
开始运行时,所述状态机处于初始化状态,进行大窗口音频数据处理;
如果大窗口音频数据处理状态门限判决成功,则所述状态机进入小窗口音频数据处理状态;
对所述小窗口音频数据处理状态进行处理,如果所述小窗口音频数据处理状态门限判决成功,则所述状态机进入跟踪保持状态;
对所述跟踪保持状态进行处理,如果所述跟踪保持状态判决成功则保持在所述跟踪保持状态,如果所述跟踪保持状态判决失败则返回所述初始化状态;其中,在所述跟踪保持状态中,实时进行小窗口音频数据对齐。
9.一种基于广义互相关的音频数据处理装置,其特征在于,包括:
预处理模块,用于通过计算窗口取出两路音频流的当前处理数据,并分别放入到两路音频片段缓冲区;
静音段处理模块,用于采用短时平均能量特征对所述两路音频片段缓冲区的数据进行静音段处理;
延迟估计模块,用于采用广义互相关延迟算法对经过静音段处理的数据进行延迟估计处理,获取两路音频数据之间的延迟估计值;
门限判决模块,用于根据所述两路音频数据之间的延迟估计值,采用皮尔森相关系数对所述两路音频片段缓冲区的数据进行门限判决;
状态机控制模块,用于通过状态机对延迟估计处理以及门限判决进行控制调控,实现两路音频数据对齐。
10.一种计算机可读的存储介质,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行所述权利要求1至8任一项中所述的基于广义互相关的音频数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410103476.1A CN117636907B (zh) | 2024-01-25 | 2024-01-25 | 基于广义互相关的音频数据处理方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410103476.1A CN117636907B (zh) | 2024-01-25 | 2024-01-25 | 基于广义互相关的音频数据处理方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117636907A CN117636907A (zh) | 2024-03-01 |
CN117636907B true CN117636907B (zh) | 2024-04-12 |
Family
ID=90021964
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410103476.1A Active CN117636907B (zh) | 2024-01-25 | 2024-01-25 | 基于广义互相关的音频数据处理方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117636907B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101292280A (zh) * | 2005-10-17 | 2008-10-22 | 皇家飞利浦电子股份有限公司 | 导出音频输入信号的一个特征集的方法 |
FR2943875A1 (fr) * | 2009-03-31 | 2010-10-01 | France Telecom | Procede et dispositif de classification du bruit de fond contenu dans un signal audio. |
WO2010119216A1 (fr) * | 2009-04-17 | 2010-10-21 | France Telecom | Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal |
CN110782910A (zh) * | 2019-11-06 | 2020-02-11 | 大连理工大学 | 一种高检出率的啸叫音频检测系统 |
CN114424583A (zh) * | 2019-09-23 | 2022-04-29 | 杜比实验室特许公司 | 混合近场/远场扬声器虚拟化 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10681475B2 (en) * | 2018-02-17 | 2020-06-09 | The United States Of America As Represented By The Secretary Of The Defense | System and method for evaluating speech perception in complex listening environments |
-
2024
- 2024-01-25 CN CN202410103476.1A patent/CN117636907B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101292280A (zh) * | 2005-10-17 | 2008-10-22 | 皇家飞利浦电子股份有限公司 | 导出音频输入信号的一个特征集的方法 |
FR2943875A1 (fr) * | 2009-03-31 | 2010-10-01 | France Telecom | Procede et dispositif de classification du bruit de fond contenu dans un signal audio. |
WO2010119216A1 (fr) * | 2009-04-17 | 2010-10-21 | France Telecom | Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal |
CN114424583A (zh) * | 2019-09-23 | 2022-04-29 | 杜比实验室特许公司 | 混合近场/远场扬声器虚拟化 |
CN110782910A (zh) * | 2019-11-06 | 2020-02-11 | 大连理工大学 | 一种高检出率的啸叫音频检测系统 |
Non-Patent Citations (2)
Title |
---|
多版本音乐识别技术研究综述;肖川;李伟;殷;薛敏;朱碧磊;冯瑞;;小型微型计算机系统;20120815(第08期);全文 * |
数字音频同源复制和异源拼接篡改检测算法研究;余颖娟;中国优秀硕士学位论文全文数据库 信息科技辑 (月刊);20190115(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117636907A (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109357749B (zh) | 一种基于dnn算法的电力设备音频信号分析方法 | |
CN112735456B (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
EP0807305B1 (en) | Spectral subtraction noise suppression method | |
CN101790752B (zh) | 多麦克风声音活动检测器 | |
CN105023572A (zh) | 一种含噪语音端点鲁棒检测方法 | |
Dev et al. | Robust features for noisy speech recognition using mfcc computation from magnitude spectrum of higher order autocorrelation coefficients | |
KR101082839B1 (ko) | 다채널 잡음처리 장치 및 방법 | |
CN113744725B (zh) | 一种语音端点检测模型的训练方法及语音降噪方法 | |
Poovarasan et al. | Speech enhancement using sliding window empirical mode decomposition and hurst-based technique | |
CN117636907B (zh) | 基于广义互相关的音频数据处理方法、装置及存储介质 | |
CN117727298A (zh) | 基于深度学习的手提电脑语音识别方法及系统 | |
Zhang et al. | Noise-Aware Speech Separation with Contrastive Learning | |
Batina et al. | Noise power spectrum estimation for speech enhancement using an autoregressive model for speech power spectrum dynamics | |
CN114401168B (zh) | 适用复杂强噪声环境下短波莫尔斯信号的语音增强方法 | |
KR100835993B1 (ko) | 마스킹 확률을 이용한 음성 인식 전처리 방법 및 전처리장치 | |
Esch et al. | Model-based speech enhancement using SNR dependent MMSE estimation | |
CN117174102A (zh) | 音频信号噪声抑制的系统和方法 | |
KR20090065181A (ko) | 잡음 검출 방법 및 장치 | |
Selvaraj et al. | Ideal ratio mask estimation using supervised DNN approach for target speech signal enhancement | |
China Venkateswarlu et al. | A wavelet-based de-noising speech signal performance with objective measures | |
Cui et al. | Evaluation of noise robust features on the Aurora databases. | |
Gao et al. | Low Complexity and Robust Echo Delay Estimation by Combining Two Binarized Feature Matching Methods | |
CN113990341B (zh) | 一种融合滤波与学习的在线语音增强方法及装置 | |
Win et al. | Speech enhancement techniques for noisy speech in real world environments | |
Seyedin et al. | Robust MVDR-based feature extraction for speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |