CN113409817A - 一种基于声纹技术的音频信号实时追踪比对方法 - Google Patents

一种基于声纹技术的音频信号实时追踪比对方法 Download PDF

Info

Publication number
CN113409817A
CN113409817A CN202110704405.3A CN202110704405A CN113409817A CN 113409817 A CN113409817 A CN 113409817A CN 202110704405 A CN202110704405 A CN 202110704405A CN 113409817 A CN113409817 A CN 113409817A
Authority
CN
China
Prior art keywords
audio
delay time
voiceprint
target
dxs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110704405.3A
Other languages
English (en)
Other versions
CN113409817B (zh
Inventor
许国法
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Songhui Technology Co ltd
Original Assignee
Zhejiang Songhui Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Songhui Technology Co ltd filed Critical Zhejiang Songhui Technology Co ltd
Priority to CN202110704405.3A priority Critical patent/CN113409817B/zh
Publication of CN113409817A publication Critical patent/CN113409817A/zh
Application granted granted Critical
Publication of CN113409817B publication Critical patent/CN113409817B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/29Arrangements for monitoring broadcast services or broadcast-related services

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明属于信号处理领域,公开了一种基于声纹技术的音频信号实时追踪比对方法。首先获取源声纹和目标声纹向量置入相应矩阵缓存;然后计算源声纹与目标声纹的欧式距离,得到欧式距离矩阵Dxs;判断上次延迟时间、Dxs最小值对应延迟时间、Dxs行算数平均数最小值对应延迟时间;分别计算延迟时间对应相似度,通过相似度进行延迟时间二次判定;对于延迟时间相似与不相似状态跃变,引入延迟处理机制;通过输出延迟时间对齐源音频与目标音频;计算相应通道在线指标;如此重复循环动态跟踪源音频与目标音频。本发明基于声纹技术,利用倒谱分析,在环境干扰较大时,播出信号和空收信号能持续动态对齐,计算出播出信号和空收信号的延迟量。

Description

一种基于声纹技术的音频信号实时追踪比对方法
技术领域
本发明属于信号处理领域,尤其涉及一种基于声纹技术的音频信号实时追踪比对方法。
背景技术
在广播转播台的安全播出监测中,为了客观分析和度量发射机的性能指标,需要对送入发射机的播出信号(以下简称播出信号)和发射后播出空收回传信号(以下简称空收信号)进行对比。
广播信号,特别是中波信号极易受到天气、环境等影响和干扰,诸如太阳黑子活动、大气层变化的影响,空收信号与播出信号差异较大。因此,播出信号和空收信号对齐一直是难题,传统采用音频包络对比和能量值比对的方法,在一定程度内可以实现信号的动态对齐,但是随着干扰的增大,极易造成对齐同步丢失。
发明内容
本发明目的在于提供一种基于声纹技术的音频信号实时追踪比对方法,以解决当环境干扰较大时,播出信号和空收信号对齐同步丢失的技术问题。
为解决上述技术问题,本发明的一种基于声纹技术的音频信号实时追踪比对方法的具体技术方案如下:
一种基于声纹技术的音频信号实时追踪比对方法,包括如下步骤:
P1:计算声纹,定义播出音频为源音频,空收音频为目标音频,对播出音频和空收音频进行预处理,分别获取源声纹和目标声纹向量,并置入相应矩阵缓存;
P2:计算向量距离,以目标声纹为轴,按最小步进以秒为单位分别计算源声纹与目标声纹的欧式距离,计算得到欧式距离矩阵Dxs;
P3:初步判定延时时间,通过欧式距离矩阵Dxs,判断上次延迟时间tlast、Dxs最小值对应延迟时间tmin、Dxs行算数平均数最小值对应延迟时间tline
P4:细化判定延迟时间,分别计算tlast、tmin 、tline对应相似度,通过相似度进行延迟时间二次判定;
P5:跃变判定,对于延迟时间相似与不相似状态跃变,引入延迟处理机制;
P6:对齐音频,通过输出延迟时间对齐源音频与目标音频;
P7:计算源音频与目标音频相应通道在线指标;
P8:重复P1- P7,循环动态跟踪源音频与目标音频。
进一步地,所述预处理包括如下步骤:
S1:预加重,补偿高频部分;
S2:分帧,多个采样点划分为帧;
S3:加窗,使用汉明窗用于平滑信号,减弱FFT以后旁瓣大小以及频谱泄露;
S4:快速傅里叶变换,将时域特征转换为频域上分布;
S5:幅度谱平方,转换为功率谱;
S6:梅尔带通滤波器滤波,对频谱进行平滑化,消除谐波,突显共振峰;
S7:对数功率,加上一帧的对数能量;
S8:离散余弦变换,把梅尔滤波器的对数能量进行离散余弦变换,取低频部分,得出L阶的MFCC系数;
S9:动态差分提取(包括一阶差分和二阶差分),语音的动态特性用静态特征的差分谱来描述;
S10:计算声纹,MFCC系数与一阶差分、二阶差分叠加为最终声纹。
进一步地,所述P1是对比方法的起点,对源音频进行预处理,音频采样频率为16Khz,hop=500,1秒MFCC特征信息输出{13*32}矩阵,MFCC特征信息、Deltas一阶微分系数、Delta-Deltas二阶加速度系数三组向量叠加{39*32},并以20s为分析时隙,输出{39*640}矩阵;同样对目标音频进行预处理,获取到39维目标声纹特征向量,输出{39*640}矩阵。
进一步地,所述P2的欧式距离矩阵Dxs,从目的音频中间n/2秒处,逐秒顺序计算与源音频的欧几里得距离,计算秒数n/2;设置目标音频步进为1,对应音频偏移Rate/hop,重复上述计算,得到下一组;直至目标音频步进到矩阵最后一秒为止,最终生成对角线矩阵Dxs。
进一步地,所述P3初步判定延时时间,对上次延迟时间tlast、Dxs最小值对应延迟时间tmin、Dxs行算数平均数最小值对应延迟时间tline判定,如果三者对应延时一致,则无需进行二次细化判定,如计算延时超出阈值,则判定为不相似音频。
进一步地,所述P4细化判定延迟时间,把上次延迟时间tlast、Dxs最小值对应延迟时间tmin、Dxs行算数平均数最小值对应延迟时间tline代入到音频波形中,分别计算经过延时对齐的音频的余弦相似度,若相似度大于规范值,则选择余弦相似度最高值对应延时,如均小于规范值,则二次判定为不相似。
进一步地,所述P5跃变判定,若发生相似到不相似状态跃变,或者不相似到相似状态跃变,则定义sim_min下限阈值和sim_max上限阈值,分别对应两个状态的跃变,如n次均低于或高于阈值,表示状态跃变成功。
进一步地,所述P6对齐音频,若源音频与目标音频波形相似,则输出延迟时间,并对齐源音频与目标音频;使用对齐后的波形,计算音频通道在线指标。
本发明的一种基于声纹技术的音频信号实时追踪比对方法具有以下优点:
本发明基于声纹技术,利用倒谱分析,在环境干扰较大时,播出信号和空收信号能持续动态对齐,计算出播出信号和空收信号的延迟量。
附图说明
图1为本发明的倒谱分析流程框图;
图2为本发明的基于声纹技术的音频信号实时追踪比对方法流程图;
图3为本发明基于声纹技术的音频信号实时追踪比对方法具体应用流程图。
具体实施方式
为了更好地了解本发明的目的、结构及功能,下面结合附图,对本发明一种基于声纹技术的音频信号实时追踪比对方法做进一步详细的描述。
本发明基于声纹技术为基础。根据语音生成的理论模型,语音信号是由激励信号和信道冲激响应信号卷积产生的,而解卷就是把卷积信号的各种分量分开。发明方法采用声纹向量技术,本质是非参数解卷(又叫同态解卷积),也就是倒谱分析。
梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC),MFCC特征提取包含梅尔声谱图、倒谱分析两个关键步骤。
梅尔声谱图首先对时域信号进行傅里叶变换转换到频域,然后使用梅尔频率刻度的滤波器组对应频域信号进行切分,最后每个频率段对应一个数值。
梅尔刻度是一种基于人耳对等距的音高(pitch)变化的听觉特性,与频率关系为:
Figure 402126DEST_PATH_IMAGE001
,其中m为梅尔刻度,f为频率。
频谱由频谱包络和频谱细节,倒谱分析目的是从频谱中分离得到频谱包络,声音频域的包络是辨别声音的重要信息,用于作为语音特征。倒谱分析首先对梅尔声谱图取log,然后做离散余弦变换DCT,保留前13个系数就得到了MFCC特征值。
MFCC获取一帧语音上的能量谱包络,为提高语音识别力,提升对噪声的鲁棒性,提高抗干扰能力,加入语音信号的动态信息,一阶差分deltas和二阶差分deltas-deltas表示微分系数和加速度系数。其中,
Figure 319267DEST_PATH_IMAGE002
,t为帧序列,N为帧的大小。
首先对语音信号进行预处理,如图1所示,为本发明的预处理流程,用来获取播出信号和空收信号的声纹。主要包含以下步骤:
S1:预加重,补偿高频部分;
S2:分帧,多个采样点划分为帧;
S3:加窗,使用汉明窗用于平滑信号,减弱FFT以后旁瓣大小以及频谱泄露;
S4:快速傅里叶变换,将时域特征转换为频域上分布;
S5:幅度谱平方,转换为功率谱;
S6:梅尔带通滤波器滤波,对频谱进行平滑化,消除谐波,突显共振峰;
S7:对数功率,音量也是语音的重要特征,加上一帧的对数能量;
S8:离散余弦变换,把梅尔滤波器的对数能量进行离散余弦变换,取低频部分,得出L阶的MFCC系数;
S9:动态差分提取(包括一阶差分和二阶差分),语音的动态特性用静态特征的差分谱来描述,提高系统的识别性能;
S10:声纹,MFCC与一阶、二阶差分叠加为最终声纹。
其中,S1预加重,设定
Figure 99004DEST_PATH_IMAGE003
高通滤波器,
Figure 494213DEST_PATH_IMAGE004
=0.97。实施中使用公式
Figure 121635DEST_PATH_IMAGE005
S2分帧,音频监测中,采样频率为16KHz,帧长度为512采样点,帧时间为512/16000×1000=32ms。
S3加汉明窗,实施中使用公式
Figure 944097DEST_PATH_IMAGE006
,其中,N为帧的大 小。
S4-S5快速傅里叶变化,实现时域信号转化到频域分析,过程包括转换为幅度谱,然后平方转换到功率谱。
S6梅尔滤波,采用的滤波器为三角滤波器。音频采样率为16KHz,最低频率为0Hz, fmax=8KHz滤波器个数为26,帧大小为512,则傅里叶变换点数为512。利用
Figure 211131DEST_PATH_IMAGE007
,换算Mel频率,最低Mel频率为0,最高Mel频率为2840.02,中心频率 距离为:(2840.02-0)/(26+1)=105.19,得到Mel滤波器组的中心频率:[0,105.19, 210.38,...,2840.02],最后计算实际频率组对应的FFT点下标组:[0,2,4,7,10,13, 16,...,256]。
S8离散余弦变换,把每个滤波器的对数能量带入离散余弦变换,取L阶MFCC系数,本方法L=13。
S9 动态差分提取声纹向量为MFCC向量叠加一阶差分系数、二阶差分系数,获取39维向量,即N维声纹向量=(N/3 MFCC系数+ N/3 一阶差分参数+ N/3 二阶差分参数),N=39。
如图2所示,为本发明的音频信号动态追踪对比方法,主要包含以下步骤:
P1计算声纹,定义播出音频为源音频,空收音频为目标音频,按照预处理的算法分别获取源声纹和目标声纹向量,并置入相应矩阵缓存;
P2计算向量距离,以目标声纹为轴,按最小步进以秒为单位分别计算源声纹与目标声纹的欧式距离,计算得到欧式距离矩阵Dxs;
P3初步判定延时时间,通过欧式距离矩阵Dxs,判断上次延迟时间tlast、Dxs最小值对应延迟时间tmin、Dxs行算数平均数最小值对应延迟时间tline
P4 细化判定延迟时间,分别计算tlast、tmin 、tline对应相似度,通过相似度进行延迟时间二次判定;
P5 跃变判定,对于延迟时间相似与不相似状态跃变,为了提升系统稳定性,引入延迟处理机制;
P6对齐音频,通过输出延迟时间对齐源音频与目标音频;
P7 计算音频与目标音频通道在线指标。以此循环动态跟踪。
其中,P1是对比方法的起点,对源音频进行预处理,音频采样频率为16Khz,hop=500,1秒MFCC特征信息输出{13*32}矩阵,MFCC特征信息、Deltas一阶微分系数、Delta-Deltas二阶加速度系数三组向量叠加{39*32},并以20s为分析时隙,输出{39*640}矩阵。同样对目标音频进行预处理,获取到39维目标声纹特征向量,输出{39*640}矩阵。
P2中欧式距离矩阵Dxs,考虑到目的音频滞后于源音频,从目的音频中间n/2秒处,逐秒顺序计算与源音频的欧几里得距离,注意目标音频不可能超前与源音频,计算秒数n/2。设置目标音频步进为1,对应音频偏移Rate/hop,重复上述计算,得到下一组。直至目标音频步进到矩阵最后一秒为止,最终生成对角线矩阵Dxs。
P3初步判定延时时间,对上次延迟时间tlast、Dxs最小值对应延迟时间tmin、Dxs行算数平均数最小值对应延迟时间tline判定,如果三者对应延时一致,则无需进行二次细化判定,如计算延时超出阈值,则判定为不相似音频。
P4细化判定延迟时间,把三项延迟时间代入到音频波形中,分别计算经过延时对齐的音频的余弦相似度,若相似度大于规范值,则选择余弦相似度最高值对应延时,如均小于规范值,则二次判定为不相似。
P5跃变判定,若发生相似到不相似状态跃变,或者不相似到相似状态跃变,则定义sim_min下限阈值和sim_max上限阈值,分别对应两个状态的跃变,如n次均低于或高于阈值,表示状态跃变成功。
P6对齐音频,若源音频与目标音频波形相似,则输出延迟时间,并对齐源音频与目标音频。使用对齐后的波形,计算音频通道在线指标。
以此循环,实现在线动态的实时追踪比对。
如图3所示,本发明专利已经在新昌转播台投入实际应用,用以对浙江之声、中国之声和中国经济三个频率中波广播的播出信号进行实时监测,同时监测通道的指标情况。
可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims (8)

1.一种基于声纹技术的音频信号实时追踪比对方法,其特征在于,包括如下步骤:
P1:计算声纹,定义播出音频为源音频,空收音频为目标音频,对播出音频和空收音频进行预处理,分别获取源声纹和目标声纹向量,并置入相应矩阵缓存;
P2:计算向量距离,以目标声纹为轴,按最小步进以秒为单位分别计算源声纹与目标声纹的欧式距离,计算得到欧式距离矩阵Dxs;
P3:初步判定延时时间,通过欧式距离矩阵Dxs,判断上次延迟时间tlast、Dxs最小值对应延迟时间tmin、Dxs行算数平均数最小值对应延迟时间tline
P4:细化判定延迟时间,分别计算tlast、tmin 、tline对应相似度,通过相似度进行延迟时间二次判定;
P5:跃变判定,对于延迟时间相似与不相似状态跃变,引入延迟处理机制;
P6:对齐音频,通过输出延迟时间对齐源音频与目标音频;
P7:计算源音频与目标音频相应通道在线指标;
P8:重复P1- P7,循环动态跟踪源音频与目标音频。
2.根据权利要求1所述的基于声纹技术的音频信号实时追踪比对方法,其特征在于,所述预处理包括如下步骤:
S1:预加重,补偿高频部分;
S2:分帧,多个采样点划分为帧;
S3:加窗,使用汉明窗用于平滑信号,减弱FFT以后旁瓣大小以及频谱泄露;
S4:快速傅里叶变换,将时域特征转换为频域上分布;
S5:幅度谱平方,转换为功率谱;
S6:梅尔带通滤波器滤波,对频谱进行平滑化,消除谐波,突显共振峰;
S7:对数功率,加上一帧的对数能量;
S8:离散余弦变换,把梅尔滤波器的对数能量进行离散余弦变换,取低频部分,得出L阶的MFCC系数;
S9:动态差分提取(包括一阶差分和二阶差分),语音的动态特性用静态特征的差分谱来描述;
S10:计算声纹,MFCC系数与一阶差分、二阶差分叠加为最终声纹。
3.根据权利要求2所述的基于声纹技术的音频信号实时追踪比对方法,其特征在于,所述P1是对比方法的起点,对源音频进行预处理,音频采样频率为16Khz,hop=500,1秒MFCC特征信息输出{13*32}矩阵,MFCC特征信息、Deltas一阶微分系数、Delta-Deltas二阶加速度系数三组向量叠加{39*32},并以20s为分析时隙,输出{39*640}矩阵;同样对目标音频进行预处理,获取到39维目标声纹特征向量,输出{39*640}矩阵。
4.根据权利要求1所述的基于声纹技术的音频信号实时追踪比对方法,其特征在于,所述P2的欧式距离矩阵Dxs,从目的音频中间n/2秒处,逐秒顺序计算与源音频的欧几里得距离,计算秒数n/2;设置目标音频步进为1,对应音频偏移Rate/hop,重复上述计算,得到下一组;直至目标音频步进到矩阵最后一秒为止,最终生成对角线矩阵Dxs。
5.根据权利要求1所述的基于声纹技术的音频信号实时追踪比对方法,其特征在于,所述P3初步判定延时时间,对上次延迟时间tlast、Dxs最小值对应延迟时间tmin、Dxs行算数平均数最小值对应延迟时间tline判定,如果三者对应延时一致,则无需进行二次细化判定,如计算延时超出阈值,则判定为不相似音频。
6.根据权利要求5所述的基于声纹技术的音频信号实时追踪比对方法,其特征在于,所述P4细化判定延迟时间,把上次延迟时间tlast、Dxs最小值对应延迟时间tmin、Dxs行算数平均数最小值对应延迟时间tline代入到音频波形中,分别计算经过延时对齐的音频的余弦相似度,若相似度大于规范值,则选择余弦相似度最高值对应延时,如均小于规范值,则二次判定为不相似。
7.根据权利要求1所述的基于声纹技术的音频信号实时追踪比对方法,其特征在于,所述P5跃变判定,若发生相似到不相似状态跃变,或者不相似到相似状态跃变,则定义sim_min下限阈值和sim_max上限阈值,分别对应两个状态的跃变,如n次均低于或高于阈值,表示状态跃变成功。
8.根据权利要求1所述的基于声纹技术的音频信号实时追踪比对方法,其特征在于,所述P6对齐音频,若源音频与目标音频波形相似,则输出延迟时间,并对齐源音频与目标音频;使用对齐后的波形,计算音频通道在线指标。
CN202110704405.3A 2021-06-24 2021-06-24 一种基于声纹技术的音频信号实时追踪比对方法 Active CN113409817B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110704405.3A CN113409817B (zh) 2021-06-24 2021-06-24 一种基于声纹技术的音频信号实时追踪比对方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110704405.3A CN113409817B (zh) 2021-06-24 2021-06-24 一种基于声纹技术的音频信号实时追踪比对方法

Publications (2)

Publication Number Publication Date
CN113409817A true CN113409817A (zh) 2021-09-17
CN113409817B CN113409817B (zh) 2022-05-13

Family

ID=77682953

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110704405.3A Active CN113409817B (zh) 2021-06-24 2021-06-24 一种基于声纹技术的音频信号实时追踪比对方法

Country Status (1)

Country Link
CN (1) CN113409817B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104125022A (zh) * 2013-11-27 2014-10-29 腾讯科技(成都)有限公司 音频传输延时的测量方法及系统
CN105898502A (zh) * 2016-04-11 2016-08-24 深圳Tcl新技术有限公司 音视频同步播放的方法及装置
US20160337779A1 (en) * 2014-01-03 2016-11-17 Dolby Laboratories Licensing Corporation Methods and systems for designing and applying numerically optimized binaural room impulse responses
CN110767204A (zh) * 2018-07-27 2020-02-07 华为技术有限公司 声音处理方法、装置及存储介质
CN111556467A (zh) * 2020-03-31 2020-08-18 惠州市德赛西威汽车电子股份有限公司 一种手机互联音频播放处理方法
CN111640411A (zh) * 2020-05-29 2020-09-08 腾讯音乐娱乐科技(深圳)有限公司 音频合成方法、装置及计算机可读存储介质
CN112735459A (zh) * 2019-10-28 2021-04-30 清华大学 基于分布式麦克风的语音信号增强方法、服务器及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104125022A (zh) * 2013-11-27 2014-10-29 腾讯科技(成都)有限公司 音频传输延时的测量方法及系统
US20160337779A1 (en) * 2014-01-03 2016-11-17 Dolby Laboratories Licensing Corporation Methods and systems for designing and applying numerically optimized binaural room impulse responses
CN105898502A (zh) * 2016-04-11 2016-08-24 深圳Tcl新技术有限公司 音视频同步播放的方法及装置
CN110767204A (zh) * 2018-07-27 2020-02-07 华为技术有限公司 声音处理方法、装置及存储介质
CN112735459A (zh) * 2019-10-28 2021-04-30 清华大学 基于分布式麦克风的语音信号增强方法、服务器及系统
CN111556467A (zh) * 2020-03-31 2020-08-18 惠州市德赛西威汽车电子股份有限公司 一种手机互联音频播放处理方法
CN111640411A (zh) * 2020-05-29 2020-09-08 腾讯音乐娱乐科技(深圳)有限公司 音频合成方法、装置及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邓晓东: "音频比对系统在调频广播播出中的作用", 《卫星电视与宽带多媒体》 *

Also Published As

Publication number Publication date
CN113409817B (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
CN111816218B (zh) 语音端点检测方法、装置、设备及存储介质
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
CN103236260B (zh) 语音识别系统
CN102543073B (zh) 一种沪语语音识别信息处理方法
CN105788603A (zh) 一种基于经验模态分解的音频识别方法及系统
CN109767776B (zh) 一种基于密集神经网络的欺骗语音检测方法
CN104978507A (zh) 一种基于声纹识别的智能测井评价专家系统身份认证方法
CN111261147A (zh) 一种面向语音识别系统的音乐嵌入攻击防御方法
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN110265065B (zh) 一种构建语音端点检测模型的方法及语音端点检测系统
CN102789779A (zh) 一种语音识别系统及其识别方法
CN113823293B (zh) 一种基于语音增强的说话人识别方法及系统
CN108922543A (zh) 模型库建立方法、语音识别方法、装置、设备及介质
CN103021405A (zh) 基于music和调制谱滤波的语音信号动态特征提取方法
CN112786059A (zh) 一种基于人工智能的声纹特征提取方法及装置
CN107293306A (zh) 一种基于输出的客观语音质量的评估方法
CN109036470A (zh) 语音区分方法、装置、计算机设备及存储介质
CN114783418B (zh) 基于稀疏自注意力机制的端到端语音识别方法及系统
Jing et al. Speaker recognition based on principal component analysis of LPCC and MFCC
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
CN113409817B (zh) 一种基于声纹技术的音频信号实时追踪比对方法
CN105741853A (zh) 一种基于共振峰频率的数字语音感知哈希方法
CN102201230A (zh) 一种突发事件语音检测方法
CN113012684B (zh) 一种基于语音分割的合成语音检测方法
CN114267361A (zh) 一种高识别度的说话人识别系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant