CN113488074A - 一种音频信号的长时变q时频转换算法及其应用 - Google Patents
一种音频信号的长时变q时频转换算法及其应用 Download PDFInfo
- Publication number
- CN113488074A CN113488074A CN202110961351.9A CN202110961351A CN113488074A CN 113488074 A CN113488074 A CN 113488074A CN 202110961351 A CN202110961351 A CN 202110961351A CN 113488074 A CN113488074 A CN 113488074A
- Authority
- CN
- China
- Prior art keywords
- frequency
- time
- window
- audio signal
- long
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 28
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 16
- 238000001228 spectrum Methods 0.000 claims abstract description 16
- 238000005070 sampling Methods 0.000 claims description 12
- 238000009432 framing Methods 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims description 2
- 238000001514 detection method Methods 0.000 abstract description 15
- 230000007774 longterm Effects 0.000 abstract description 11
- 238000000034 method Methods 0.000 abstract description 5
- 238000012549 training Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种音频信号的长时变Q时频转换算法(L‑VQT)及其应用。L‑VQT包括步骤:设置呈幂函数变化的频率分布;预设最大时域窗口长度,得到最小频带宽度;如果存在一个以上频带宽度小于最小频带宽度,则重新设置频率分布并计算幂函数的系数、每个频率的频带宽度和Q因子;计算每个频率对应的时域窗口长度;计算每个频率对应的频域信号。L‑VQT在低频通过长时窗口来捕获音频时域信号的长时依赖关系,通过设置不同的幂函数指数获取充分高频信息。应用于合成语音检测时,在低频通过长时窗口来捕获合成语音痕迹,并通过设置不同的幂函数指数得到具有充分高频信息的对数频谱特征来提取合成语音在高频的共性痕迹,为合成语音检测提供了有效的方法。
Description
技术领域
本发明涉及音频信号处理技术领域,特别是一种音频信号的长时变Q时频转换算法及其应用。
背景技术
音频信号能表示和传达丰富的信息,对音频信号进行分析需要通过时频转换算法转换为频域信号,从频域信号中得到各种频谱幅度及相位特征。传统的时频转换算法包括傅里叶变换(DFT)和恒Q变换(CQT)。DFT通常采用短时窗口,无法捕获音频信号在时域的长时依赖关系,同时恒定的频带宽度和线性变化的频率分布无法准确表示某些音频信号特性,例如音乐信号等。另一方面,CQT的频率呈指数分布,符合西方音阶频率变化,但是指数分布的频率导致频域信息中高频部分信息占比很少,无法充分满足对高频信息的需要,例如合成语音检测等。
语音信号被广泛使用在身份认证,例如自动说话人识别系统。随着语音转换(Voice Conversion,VC)和文本语音转换(Text-To-Speech,TTS)技术的发展,合成语音的质量越来越高,很容易欺骗现有的说话人识别系统。因此,合成语音检测成为信息安全领域多媒体取证技术的一个急需解决的问题。合成语音算法可以分为拼接合成语音和统计参数合成语音,拼接合成语音会在语音拼接处留下特有痕迹,这种痕迹需要捕获语音的长时依赖关系来提取,同时统计参数合成语音会在语音的高频部分留下特有痕迹。现有的合成语音检测特征包括基于DFT和基于CQT的频谱相位以及倒谱特征,然而DFT采用短时窗口,无法捕获合成语音在时域留下的长时依赖痕迹;CQT的频率呈指数分布,高频占比很少,无法充分捕获合成语音在高频的特有痕迹。因此,现有的时频转换算法无法充分提取合成语音的共性痕迹来进行通用检测。
发明内容
本发明的目的是提供一种音频信号的长时变Q时频转换算法(Long-termvariable Qtransform,L-VQT)及其应用。
实现本发明目的的技术方案如下:
一种音频信号的长时变Q时频转换算法,包括:
步骤1,预设音频信号的频率总个数K和幂函数的指数β,设置呈幂函数变化的频率分布:
fk=αkβ,k=0,1,…,K-1;
其中,fk表示第k个频率;
步骤3,计算每个频率对应的时域窗口长度:
步骤4,计算每个频率对应的频域信号:
其中,x(n)表示所述音频信号的时域信号;w(n,k)表示窗函数,其长度等于N(k);[·]表示四舍五入取整。
进一步的技术方案,所述幂函数的指数β设为1.15、1.25、1.5、2、3、4或5。
进一步的技术方案,所述窗函数为汉宁窗、海明窗或blackman窗。
一种音频信号的长时变Q时频转换算法的应用,包括步骤:
将合成语音分帧得到L帧;
将每帧信号通过所述音频信号的长时变Q时频转换算法,得到K个频域信号X(k);
相对于现有技术,本发明的有益效果在于,
1.L-VQT在低频通过长时窗口来捕获音频时域信号的长时依赖关系,通过设置不同的幂函数指数获取充分高频信息。
2.L-VQT应用于合成语音检测时,在低频通过长时窗口来捕获合成语音痕迹,并通过设置不同的幂函数指数得到具有充分高频信息的对数频谱特征来提取合成语音在高频的共性痕迹,为合成语音检测提供了有效的方法。
附图说明
图1是L-VQT的流程图。
图2是L-VQT设置不同幂函数得到的频率分布对比图。
图3是L-VQT设置不同幂函数得到的频带宽度对比图。
图4是L-VQT设置不同幂函数得到的Q因子对比图。
图5是L-VQT设置不同幂函数得到的时域窗口长度对比图。
图6是L-VQT应用于合成语音检测的流程图。
具体实施方式
下面结合附图和具体实施例,对本发明进一步说明。
如图1所示,本发明L-VQT具体包括如下步骤:
S1:设置呈幂函数变化的频率分布,具体表示为:fk=αkβ,k=0,1,...,K-1,其中fk表示第k个频率,k表示频率的索引,K表示频率总个数,α是幂函数的系数,β表示幂函数的指数,通过设置不同的幂函数指数可以得到不同的频率分布。
S2:预先设置K,β值,根据已知的音频信号采样频率计算出奈奎斯特频率FNq,奈奎斯特频率为音频信号采样频率的一半。当k=K时,频率分布中fk所能表示的最大频率即为奈奎斯特频率,具体表示为:fK=αKβ=FNq。计算系数计算S1设置的频率分布:fk=αkβ,k=0,1,…,K-1;计算频带宽度:Q因子:
S3:如果存在一个或多个频带宽度小于设置的最小频带宽度需要重新计算频率分布。其中fs表示音频信号采样频率,Nmax表示已知的最大时域窗口长度;新的频率分布表示为重新计算幂函数系数α: 重新计算频带宽度和Q因子过程如S2所述。
上述L-VQT的实施例,如图2-图5所示,图中还对比了DFT和CQT。
K设为256,β分别设为1.15、1.25、1.5、2、3、4和5,对应的L-VQT分别表示为:L-VQT-1.15、L-VQT-1.25、L-VQT-1.5、Typical-L-VQT(β=2)、L-VQT-3、L-VQT-4和L-VQT-5。音频信号采样频率为16KHz,奈奎斯特频率为采样频率的一半8KHz,从而计算出对应的系数α、频率分布、频带宽度和Q因子。
设置最大的时域窗口长度为8000个采样点,即采样频率为16KHz的半秒语音数据,从而计算得到最小的频带宽度为2Hz。当幂函数指数为2、3、4、5时,根据S2得到的频带宽度中远小于最小频带宽度因此根据S3所述公式重新计算系数、频率分布、频带宽度和Q因子。
实施例中采用的窗函数为汉宁窗(hanning),也可以采用其它窗函数。例如海明窗(hamming),blackman窗等等。因为每个频域信号对应的窗口大小不一致,所以对频谱信号用窗口长度进行归一化来消除这种差异。
将L-VQT应用于合成语音检测,如图6所示。
将语音分帧,设为L帧,每帧信号即为待分析语音的时域信号x(n)。通过L-VQT得到频域信号,再对得到的频域信号分别进行取模平方得到频谱,再进行对数运算,提取得到一维的对数频谱信号将所有帧的对数频谱特征在频率方向保持一致(均为K维),沿语音帧序号增大的方向(L维)拼接得到二维的时频特征用于检测合成语音。
合成语音检测的实施例为:采样频率为16KHz的语音时长为4秒,即包含64000个采样点。帧长为计算出的最大时域窗口,帧移设为256个采样点。每条语音包含251帧,每帧信号和所有窗口N(k)中心保持一致。每帧经过长时变Q时频转换算法,得到一维对数频谱特征,包含256个频谱信号。所有帧拼接得到二维时频特征,维度为256x251,将其作为分类器Densely Connected Convolutional Network(DenseNet)的输入进行训练测试。也可以采用其他分类器,例如ResNet、VGG等等。
本实施例采用Automatic Speaker Verification Spoofing andCountermeasures Challenge(ASVspoof2019)竞赛公开数据集logical access(LA)部分进行训练测试。LA包含训练集,开发集和验证集三部分,分别包括25380、24844、71237条语音,其中验证集中包含13种合成语音方法来验证本实施例的检测泛化性。
采用等错率(Equal Error Rate,EER,%)作为评价指标,7种幂函数取值的L-VQT和DFT、CQT对应的检测结果如下表所示:
从表中可以看到,相比于DFT和CQT,L-VQT可以获得更良好的检测结果,即更低的等错率。当幂函数指数为2,由于充分考虑了长时窗口和高频信息两项因素,显著提升了合成语音的检测性能。
除此之外,L-VQT还可以用于检测语音重放攻击等信息安全领域的多媒体取证应用。
Claims (4)
1.一种音频信号的长时变Q时频转换算法,其特征在于,包括:
步骤1,预设音频信号的频率总个数K和幂函数的指数β,设置呈幂函数变化的频率分布:
fk=αkβ,k=0,1,…,K-1;
其中,fk表示第k个频率;
步骤3,计算每个频率对应的时域窗口长度:
步骤4,计算每个频率对应的频域信号:
其中,x(n)表示所述音频信号的时域信号;w(n,k)表示窗函数,其长度等于N(k);[·]表示四舍五入取整。
2.如权利要求1所述的一种音频信号的长时变Q时频转换算法,其特征在于,所述幂函数的指数β设为1.15、1.25、1.5、2、3、4或5。
3.如权利要求1所述的一种音频信号的长时变Q时频转换算法,其特征在于,所述窗函数为汉宁窗、海明窗或blackman窗。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110961351.9A CN113488074B (zh) | 2021-08-20 | 2021-08-20 | 一种用于检测合成语音的二维时频特征生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110961351.9A CN113488074B (zh) | 2021-08-20 | 2021-08-20 | 一种用于检测合成语音的二维时频特征生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113488074A true CN113488074A (zh) | 2021-10-08 |
CN113488074B CN113488074B (zh) | 2023-06-23 |
Family
ID=77945879
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110961351.9A Active CN113488074B (zh) | 2021-08-20 | 2021-08-20 | 一种用于检测合成语音的二维时频特征生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113488074B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4063030A (en) * | 1975-11-25 | 1977-12-13 | Zurcher Jean Frederic | Detection circuit for significant peaks of speech signals |
FR2835125A1 (fr) * | 2002-01-24 | 2003-07-25 | Telediffusion De France Tdf | Procede d'evaluation d'un signal audio numerique |
US9299364B1 (en) * | 2008-06-18 | 2016-03-29 | Gracenote, Inc. | Audio content fingerprinting based on two-dimensional constant Q-factor transform representation and robust audio identification for time-aligned applications |
WO2017143334A1 (en) * | 2016-02-19 | 2017-08-24 | New York University | Method and system for multi-talker babble noise reduction using q-factor based signal decomposition |
CN107978323A (zh) * | 2017-12-01 | 2018-05-01 | 腾讯科技(深圳)有限公司 | 音频识别方法、装置及存储介质 |
CN108986824A (zh) * | 2018-07-09 | 2018-12-11 | 宁波大学 | 一种回放语音检测方法 |
CN109256127A (zh) * | 2018-11-15 | 2019-01-22 | 江南大学 | 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法 |
CN109285538A (zh) * | 2018-09-19 | 2019-01-29 | 宁波大学 | 一种基于常q变换域的加性噪声环境下手机来源识别方法 |
US20190043528A1 (en) * | 2017-08-03 | 2019-02-07 | Spotify Ab | Extracting signals from paired recordings |
CN111653289A (zh) * | 2020-05-29 | 2020-09-11 | 宁波大学 | 一种回放语音检测方法 |
CN111816203A (zh) * | 2020-06-22 | 2020-10-23 | 天津大学 | 基于音素级分析抑制音素影响的合成语音检测方法 |
WO2021058858A1 (en) * | 2019-09-24 | 2021-04-01 | Nokia Technologies Oy | Audio processing |
CN112927694A (zh) * | 2021-03-08 | 2021-06-08 | 中国地质大学(武汉) | 一种基于融合声纹特征的语音指令合法性判别方法 |
CN112967712A (zh) * | 2021-02-25 | 2021-06-15 | 中山大学 | 一种基于自回归模型系数的合成语音检测方法 |
CN113012684A (zh) * | 2021-03-04 | 2021-06-22 | 电子科技大学 | 一种基于语音分割的合成语音检测方法 |
US11410685B1 (en) * | 2021-09-23 | 2022-08-09 | Institute Of Automation, Chinese Academy Of Sciences | Method for detecting voice splicing points and storage medium |
-
2021
- 2021-08-20 CN CN202110961351.9A patent/CN113488074B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4063030A (en) * | 1975-11-25 | 1977-12-13 | Zurcher Jean Frederic | Detection circuit for significant peaks of speech signals |
FR2835125A1 (fr) * | 2002-01-24 | 2003-07-25 | Telediffusion De France Tdf | Procede d'evaluation d'un signal audio numerique |
US9299364B1 (en) * | 2008-06-18 | 2016-03-29 | Gracenote, Inc. | Audio content fingerprinting based on two-dimensional constant Q-factor transform representation and robust audio identification for time-aligned applications |
WO2017143334A1 (en) * | 2016-02-19 | 2017-08-24 | New York University | Method and system for multi-talker babble noise reduction using q-factor based signal decomposition |
US20190043528A1 (en) * | 2017-08-03 | 2019-02-07 | Spotify Ab | Extracting signals from paired recordings |
CN107978323A (zh) * | 2017-12-01 | 2018-05-01 | 腾讯科技(深圳)有限公司 | 音频识别方法、装置及存储介质 |
CN108986824A (zh) * | 2018-07-09 | 2018-12-11 | 宁波大学 | 一种回放语音检测方法 |
CN109285538A (zh) * | 2018-09-19 | 2019-01-29 | 宁波大学 | 一种基于常q变换域的加性噪声环境下手机来源识别方法 |
CN109256127A (zh) * | 2018-11-15 | 2019-01-22 | 江南大学 | 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法 |
WO2021058858A1 (en) * | 2019-09-24 | 2021-04-01 | Nokia Technologies Oy | Audio processing |
CN111653289A (zh) * | 2020-05-29 | 2020-09-11 | 宁波大学 | 一种回放语音检测方法 |
CN111816203A (zh) * | 2020-06-22 | 2020-10-23 | 天津大学 | 基于音素级分析抑制音素影响的合成语音检测方法 |
CN112967712A (zh) * | 2021-02-25 | 2021-06-15 | 中山大学 | 一种基于自回归模型系数的合成语音检测方法 |
CN113012684A (zh) * | 2021-03-04 | 2021-06-22 | 电子科技大学 | 一种基于语音分割的合成语音检测方法 |
CN112927694A (zh) * | 2021-03-08 | 2021-06-08 | 中国地质大学(武汉) | 一种基于融合声纹特征的语音指令合法性判别方法 |
US11410685B1 (en) * | 2021-09-23 | 2022-08-09 | Institute Of Automation, Chinese Academy Of Sciences | Method for detecting voice splicing points and storage medium |
Non-Patent Citations (2)
Title |
---|
CANGHONG SHI: "Learned Dictionaries-Based Watermarking for Speech Authentication", 《2020 IEEE 5TH INTERNATIONAL CONFERENCE ON CLOUD COMPUTING AND BIG DATA ANALYTICS (ICCCBDA)》, no. 1 * |
尚雯: "基于指纹的5G通信说话人身份追踪方案", 《信息网络安全》, vol. 21, no. 3 * |
Also Published As
Publication number | Publication date |
---|---|
CN113488074B (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107610715B (zh) | 一种基于多种声音特征的相似度计算方法 | |
US8428949B2 (en) | Apparatus and method for classification and segmentation of audio content, based on the audio signal | |
US8140331B2 (en) | Feature extraction for identification and classification of audio signals | |
KR101269296B1 (ko) | 모노포닉 오디오 신호로부터 오디오 소스를 분리하는 뉴럴네트워크 분류기 | |
CN109147796B (zh) | 语音识别方法、装置、计算机设备及计算机可读存储介质 | |
CN113327626B (zh) | 语音降噪方法、装置、设备及存储介质 | |
Dubey et al. | Non-intrusive speech quality assessment using several combinations of auditory features | |
CN104021791B (zh) | 数字音频波形突变的检测方法 | |
Chu et al. | A noise-robust FFT-based auditory spectrum with application in audio classification | |
CN112863517A (zh) | 基于感知谱收敛率的语音识别方法 | |
CN113488074B (zh) | 一种用于检测合成语音的二维时频特征生成方法 | |
KR20210033853A (ko) | 유넷 기반의 음원 대역 변환장치 및 방법 | |
Huizen et al. | Feature extraction with mel scale separation method on noise audio recordings | |
CN112233693B (zh) | 一种音质评估方法、装置和设备 | |
Marković et al. | Reverberation-based feature extraction for acoustic scene classification | |
Prasasti et al. | Identification of baby cry with discrete wavelet transform, mel frequency cepstral coefficient and principal component analysis | |
Uhle et al. | Speech enhancement of movie sound | |
Ganapathy et al. | Temporal resolution analysis in frequency domain linear prediction | |
Shiran et al. | Enhanced PESQ algorithm for objective assessment of speech quality at a continuous varying delay | |
Andrews et al. | Robust pitch determination via SVD based cepstral methods | |
CN110634473A (zh) | 一种基于mfcc的语音数字识别方法 | |
Adiloglu et al. | An uncertainty estimation approach for the extraction of source features in multisource recordings | |
Pop et al. | On forensic speaker recognition case pre-assessment | |
Ponraj et al. | Extraction of speech signal based on power normalized cepstral coefficient and mel frequency cepstral coefficient: A comparison | |
Nosan et al. | Descend-Delta-Mean Algorithm for Feature Extraction of Isolated THAI Digit Speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |