CN105741853A - 一种基于共振峰频率的数字语音感知哈希方法 - Google Patents

一种基于共振峰频率的数字语音感知哈希方法 Download PDF

Info

Publication number
CN105741853A
CN105741853A CN201610049423.1A CN201610049423A CN105741853A CN 105741853 A CN105741853 A CN 105741853A CN 201610049423 A CN201610049423 A CN 201610049423A CN 105741853 A CN105741853 A CN 105741853A
Authority
CN
China
Prior art keywords
perception hash
voice
perception
hash
coarse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610049423.1A
Other languages
English (en)
Other versions
CN105741853B (zh
Inventor
王宏霞
任刘姣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN201610049423.1A priority Critical patent/CN105741853B/zh
Publication of CN105741853A publication Critical patent/CN105741853A/zh
Application granted granted Critical
Publication of CN105741853B publication Critical patent/CN105741853B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval

Abstract

本发明公开了一种基于共振峰频率的数字语音感知哈希方法,应用于大数据背景下的语音检索,分别提取能反映说话人音色特征的共振峰频率作为语音段的粗略特征和鲁棒性较强的时域能量差作为语音段的细节特征。匹配过程首先对语音的粗略特征进行匹配,筛选出与目标语音具有相似音色的语音片段,然后对筛选出的具有相似音色的语音进行细节特征匹配,最后获得精确匹配结果。应用于海量语音信号处理时可以省去大量不必要的匹配计算量,匹配效率将明显提高。

Description

一种基于共振峰频率的数字语音感知哈希方法
技术领域
本发明涉及一种新颖的针对大数据应用背景下如何提高海量语音信号处理效率的语音感知哈希方案。
背景技术
随着“互联网+”时代的到来,移动互联网,云计算,大数据和人工智能飞速发展,人们迫切希望能够直接通过语音与计算机进行交互,这使得语音的大规模存储和处理成为研究热点。感知哈希作为多媒体内容识别、检索、认证等信息服务的技术支撑,将面临如何降低计算复杂度和计算效率两大难题。目前的感知哈希算法主要关注特征提取方法和哈希构造方法的性能好坏,没有考虑在大数据背景下将感知哈希应用于实际中的效率和复杂度。同时语音和音频之间存在很大差异,针对音频的感知哈希方法并不完全适用于语音,所以需要专门针对语音信号的特征设计适用于语音的感知哈希算法。
现有的语音感知哈希算法大多是单独针对时域或频域的特性,选取某种鲁棒性强,区分性好的特征生成感知哈希,常见的主要是基于频域特征构造感知哈希序列,例如梅尔倒谱系数,离散余弦变换,小波变换等。文献“Robustaudiohashingbasedondiscrete-wavelettransformandnon-negativematrixfactorisation”(ChenN,WanW,XiaoH,IETCommun.2010,23(9):1722-1731)提出了基于离散小波变换(DWT)和非负矩阵分解(NMF)的音频鲁棒哈希算法。文献“音频感知哈希算法研究”(焦玉华.哈尔滨工业大学博士学位论文.2009)给出了感知哈希各项性质的数学推导和定义,并提出了用熵率来评价算法区分性和压缩性的联合性能。现有的感知哈希算法虽然性能不断提升,但并没有从大数据应用背景的角度考虑,算法复杂度和实际应用效率之间无法达到平衡。
综上所述,目前的感知哈希算法主要关注特征提取方法和哈希构造方法的性能好坏,没有考虑在大数据背景下将感知哈希应用于实际中的效率和复杂度。同时语音和音频之间存在很大差异,针对音频的感知哈希方法并不完全适用于语音,所以需要专门针对语音信号的特征设计适用于语音的感知哈希算法。针对上述问题提出一种基于共振峰频率和时域能量差的语音感知哈希方案。
发明内容
本发明的目的是针对上述问题提出一种基于共振峰频率和时域能量差的语音感知哈希方案使之克服现有技术的以上不足。其具体手段如下:
一种基于共振峰频率的数字语音感知哈希算法,应用于大数据背景下的语音检索,分别提取能反映说话人音色特征的共振峰频率作为语音段的粗略特征和鲁棒性较强的时域能量差作为语音段的细节特征;将粗略特征和细节特征分别量化为感知哈希,匹配过程通过粗略特征的匹配初步确定目标语音所在的范围,筛选出与目标语音具有相似音色的语音段,然后对筛选出的相似语音片段进行细节特征匹配,最后获得精确匹配结果;包含如下主要步骤:
(1)基于共振峰频率的粗糙感知哈希生成:对语音进行频域分析,利用共振峰能够表征说话人音色特征这一特性,选取语音的共振峰频率作为粗略特征,采用不重叠分帧方法,提取每帧的前k个共振峰,这k个共振峰值分别与对应共振峰频率的中值进行比较,大于等于中值则当前帧的感知哈希值为1,小于中值则为0,将提取的感知哈希值按分帧的顺序排列,量化为反映语音粗略特征的粗糙感知哈希序列H1
(2)细节感知哈希序列的获得:细节感知哈希生成过程采用重叠分帧,计算每帧时域短时能量,相邻帧的短时能量差作为语音的细节特征,并量化为反映语音细节特征的细节感知哈希序列H2
(3)粗糙感知哈希与细节感知哈希结合:每帧的粗糙感知哈希H1置于细节感知哈希H2的前面,H1与H2顺序拼接起来作为当前帧最终的感知哈希序列H。
这样,本发明将构造感知哈希的方法分为三部分,第一部分针对语音信号的特点,利用共振峰能表征说话人音色特征这一特性,提取语音段的共振峰频率作为语音信号的粗略特征参数,将其量化为语音的粗糙感知哈希序列。第二部分则选取能表征语音信号细节特征的时域能量差作为细节特征参数,时域能量差的计算复杂度相对较低并且具有较强的鲁棒性,同样将时域能量差量化为语音的细节感知哈希序列。第三部分将粗糙感知哈希和细节感知哈希结合使用,匹配过程首先对语音的粗糙感知哈希进行匹配,筛选出与目标语音具有相似音色的语音片段,然后对筛选出的具有相似音色的语音进行细节感知哈希匹配,最后获得精确匹配结果。这样做提高了匹配效率,省去匹配剩余不相似语音的计算量。实验结果表明,本发明有较强的鲁棒性和较好的区分性,实验语音样本越多,匹配效率提高更为明显,进一步展开的具体步骤如下:
(1)粗糙感知哈希生成过程:对语音信号进行不重叠分帧,帧长约等于一个元音或一个字词的发音时间。提取每帧的前k个共振峰,这k个共振峰值分别与对应共振峰频率的中值进行比较,若大于等于中值,则当前帧的感知哈希值为1,若小于中值,则当前感知哈希值为0,将提取的感知哈希值按分帧的顺序排列,量化为反映语音粗略特征的粗糙感知哈希序列H1
(2)细节感知哈希生成过程:对语音信号进行重叠分帧,帧移为帧长的2/3长度。对于分帧后的语音,以帧为单位计算每帧时域短时能量作为语音的细节特征,相邻帧的短时能量进行比较,从第二帧开始,将每帧的时域能量值与前一帧的时域能量值进行比较,若大于前一帧表示当前帧提取的时域感知哈希值为1,否则表示0。这样,除第一帧外,每帧都提取了1bit感知哈希值,将所有提取的细节感知哈希值按分帧的顺序结合起来就形成了细节感知哈希序列H2
(3)因为粗略特征提取过程采用不重叠分帧,细节特征提取过程采用重叠分帧,所以对于同一段语音,粗糙感知哈希序列比细节感知哈希序列的长度短很多,至少是细节感知哈希序列长度的一半。将每帧的粗糙感知哈希H1置于细节感知哈希H2的前面,H1与H2顺序拼接起来作为当前帧最终的感知哈希H。检索匹配时就可以利用少量比特的粗糙感知哈希H1进行初步筛选,再利用细节感知哈希H2对筛选出的候选语音段进行精确匹配,省去不必要的计算量,大大提高匹配效率。
本发明从感知哈希技术应用于海量信息处理的角度出发,如感知哈希在语音检索中的应用,让计算机能像人耳一样,拥有“听音识人”的功能,初步筛选出与目标语音具有相似音色的语音段,然后只针对筛选出的这些少量语音段进行精确匹配,从而大大减少不必要的计算量,提高检索效率。因此本发明与其他算法感知哈希序列长度相同时,匹配速度至少提高一倍。实验结果表明,感知哈希的区分性和鲁棒性均非常出色,说明本发明在实际应用中将更有意义。
附录说明
图1为整体的算法框图。
图2为基于共振峰频率生成粗糙感知哈希框图。
图3为基于时域能量差生成细节感知哈希框图。
图4为粗糙感知哈希与细节感知哈希结合框图。
图5为本发明实验测试区分性的比特误码率统计直方图。
图6为本发明实验的比特误码率与正态分布对比结果。
图7为本发明在不同阈值下的错误接受率FAR值。
图8为对常规语音信号处理的鲁棒性测试列表。
具体实施方式
以下结合附录和实施例对本发明的技术方案作进一步描述。
本发明对语音信号分别进行粗略特征和细节特征提取。提取粗略特征时,对语音进行频域分析,选取语音的共振峰频率作为特征,采用不重叠分帧方法,提取每帧的前k个共振峰,分别与对应共振峰频率的中值进行比较,量化为反映语音粗略特征的粗糙感知哈希序列;本发明采用线性预测编码(LPC)算法提取语音的共振峰频率,之所以选取LPC算法是因为LPC在语音信号分析和语音信号编码应用中是最有效的方式之一,它提供了一组简洁的语音信号模型参数精确表征语音信号的幅度谱,所需的计算量相对较小,适合应用于大规模语音数据处理中。提取细节特征时,采用重叠分帧,使分帧后的语音信号更接近于平稳信号,计算每帧时域短时能量作为语音的细节特征,相邻帧的短时能量进行做差比较,得到反映语音细节特征的细节感知哈希序列。最后,将生成的两组感知哈希结合起来,作为最终的感知哈希值。过程框图如图1所示。
1、粗糙感知哈希生成过程:
(1)对语音信号进行不重叠分帧,加汉明窗,语音帧的长度为d1,每帧的长度等于一个元音或一个字词的发音时间;
(2)计算各帧语音信号的p阶线性预测系数,记为:{ak;k=1,2,...,p}
(3)线性预测(LPC)模型中传递函数的极点模型如下:
H ( z ) = 1 Π ( 1 - Z k Z - k )
其中,Zk=rkexp(jθk)是H(z)在z-平面上第k个极点。计算由线性预测系数ak构成的多项式的极点,保留所有的非负根,记为Zk=rkexp(jθk);
(4)根据极点值计算出非负根的弧度θk,然后计算第k个共振峰的频率Fk,共振峰频率的计算公式如下:
Fk=θk/2πT
T为语音信号的采样周期,θk为极点的弧度。
(5)将k个共振峰频率进行排序,计算每一个共振峰频率的平均值,记为M_F(k),逐个比较共振峰值与M_F(k)的差值,取差值最小的四个共振峰为当前帧的前四个共振峰频率;
(6)取出每帧的第一共振峰(实际应用中,第一共振峰就足以表征说话人的音色特征),记为F1(i),i=1,2,…,m,其中m为语音的帧数,最后按如下公式进行量化:
H 1 ( i ) = 1 i f F 1 ( i ) &GreaterEqual; F _ m e d 0 i f F 1 ( i ) < F _ m e d
其中,F_med为第一共振峰的中值,H1(i)表示第i帧的由粗略特征生成的感知哈希序列;
(7)将每帧生成的1bit感知哈希值,按分帧的顺序拼接起来,作为整段语音由粗略特征生成的感知哈希序列H1
基于共振峰频率生成粗糙感知哈希框图如图2所示。
2、细节感知哈希生成过程:
(1)将语音信号重叠分帧,加汉明窗处理,帧长为d2,帧移为帧长的2/3长度;
(2)计算各帧的短时能量,记为E(i),i=1,2,…,n,短时能量的计算公式如下:
E ( i ) = &Sigma; f = 1 d 2 | w i ( f ) |
其中,n为语音的帧数,wi(f)为第i帧中第f个采样点的值;
(3)将前后两帧间的能量两两计算差值,然后按照以下公式进行量化:
H 2 ( i ) = 1 i f E ( i + 1 ) - E ( i ) &GreaterEqual; 0 0 i f E ( i + 1 ) - E ( i ) < 0
其中,H2(i)表示第i帧的由细节特征生成的感知哈希序列,E(i)表示第i帧的短时能量;
(4)将每帧生成的1bit哈希值,按分帧的顺序拼接起来,作为整段语音由细节特征生成的感知哈希序列H2
基于时域能量差生成细节感知哈希框图如图3所示。
3、粗糙感知哈希与细节感知哈希结合:
粗略特征提取过程采用不重叠分帧方法,细节特征提取过程采用重叠分帧,帧移为帧长的2/3长度,粗糙感知哈希序列的长度是细节感知哈希序列长度的一半。将每帧的粗糙感知哈希H1置于细节感知哈希H2的前面,H1与H2前后拼接起来作为当前帧最终的感知哈希H。匹配过程中就可以利用少量比特的粗糙感知哈希H1进行初步筛选,再利用细节感知哈希H2对筛选出的候选语音段进行精确匹配,省去不必要的计算量,这样,就可以在处理大规模语音信号时,大幅提高匹配效率。
粗糙感知哈希与细节感知哈希的结合过程如图4所示。
本发明的实验效果可以通过下面的性能分析验证:
一个理想的感知哈希算法应具备区分性,感知鲁棒性,摘要性等性质,这三者之间相互制约,若需区分性更好,则必定牺牲一定的摘要性和鲁棒性,反之亦然。
1、感知哈希的区分性
实验中采用的语音库共2000段内容不相同的语音片段,时长均为6s、采样频率8kHz以及量化位数为16位的单声道语音。采用本发明提出的方案提取每段语音的感知哈希序列,得到2000段感知哈希序列,将它们两两之间进行匹配并计算其比特误码率,共得到(2000×1999/2=1999000)个比特误码率值,其统计直方图如图4所示,可以看出,归一化汉明距离分布在0.35~0.65之间。比特误码率的分布基本服从正态分布,其概率分布参数为:均值μ=0.4999,标准差σ=0.0281。比特误码率的统计直方图如图5所示。
实现更好的区分性,等价于得到更低的错误识别率(FAR)。其在不同阈值下的错误接受率(FAR)计算公式为:
F A R ( &tau; ) = &Integral; - &infin; &tau; f ( &alpha; | &mu; , &sigma; ) d &alpha; = &Integral; - &infin; &tau; 1 &sigma; 2 &pi; e - ( &alpha; - &mu; ) 2 2 &sigma; 2 d &alpha;
图7列出了在不同阈值下,本发明的错误识别率FAR值。从图7可以看出,本发明在不同阈值的情况下,都取得了较低的FAR值,可见本发明算法获得了很好的区分性。
2、感知哈希的鲁棒性
对语音库中的1000段语音进行各种内容保持操作处理,包括MP3压缩、振幅增加、振幅减小、重量化、翻转等。首先提取原始语音的感知哈希序列,然后提取各种内容保持操作处理后语音的感知哈希序列并进行匹配,语音库共1000个语音片段,因此每种内容保持操作都要匹配1000次,得到1000个比特误码率(BER)值。图8列出了各种内容保持操作对应的1000个比特误码率(BER)值中的平均值与最大值。这两个值越小,表示语音经过内容保持操作前后所提取的感知哈希序列的数学距离越小,则说明算法的鲁棒性越好,实验结果表明,在各种内容保持操作后,本发明都获得了较强的鲁棒性。
3、感知哈希的熵率
文献“音频感知哈希算法研究”(焦玉华.哈尔滨工业大学博士学位论文.2009)提出由于错误接受率(FAR)、错误拒绝率(FRR)和等错误率(ERR)会受感知哈希尺寸的影响,所以仅用这三项指标评价算法的性能是不全面的,文中提到使用信源熵率作为区分性和压缩性的联合评价指标,从本质上评价算法性能好坏,熵率的计算公式如下:
H=-[qlog2q+(1-q)log2(1-q)]
其中为转移概率,σ为实际标准差,σ0为理想标准差。熵率的取值范围是[0,1),熵率的值越接近1,说明感知哈希的整体性能越好。对语音库中的2000段语音按照本发明提出的算法提取2000段感知哈希序列,得到其转移概率q,然后根据熵率的计算公式计算得出本发明的熵率为0.9463,可以看出本发明区分性和压缩性的联合性能非常出色。

Claims (1)

1.一种基于共振峰频率的数字语音感知哈希方法,应用于大数据背景下的语音检索,分别提取能反映说话人音色特征的共振峰频率作为语音段的粗略特征和鲁棒性较强的时域能量差作为语音段的细节特征;将粗略特征和细节特征分别量化为感知哈希,匹配过程通过粗略特征的匹配初步确定目标语音所在的范围,筛选出与目标语音具有相似音色的语音段,然后对筛选出的相似语音片段进行细节特征匹配,最后获得精确匹配结果;
(1)基于共振峰频率的粗糙感知哈希生成:对语音进行频域分析,利用共振峰能够表征说话人音色特征这一特性,选取语音的共振峰频率作为粗略特征,采用不重叠分帧方法,提取每帧的前k个共振峰,这k个共振峰值分别与对应共振峰频率的中值进行比较,大于等于中值则当前帧的感知哈希值为1,小于中值则为0,将提取的感知哈希值按分帧的顺序排列,量化为反映语音粗略特征的粗糙感知哈希序列H1
(2)细节感知哈希序列的获得:细节感知哈希生成过程采用重叠分帧,计算每帧时域短时能量,相邻帧的短时能量差作为语音的细节特征,并量化为反映语音细节特征的细节感知哈希序列H2
(3)粗糙感知哈希与细节感知哈希结合:每帧的粗糙感知哈希H1置于细节感知哈希H2的前面,H1与H2顺序拼接起来作为当前帧最终的感知哈希序列H。
CN201610049423.1A 2016-01-25 2016-01-25 一种基于共振峰频率的数字语音感知哈希方法 Expired - Fee Related CN105741853B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610049423.1A CN105741853B (zh) 2016-01-25 2016-01-25 一种基于共振峰频率的数字语音感知哈希方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610049423.1A CN105741853B (zh) 2016-01-25 2016-01-25 一种基于共振峰频率的数字语音感知哈希方法

Publications (2)

Publication Number Publication Date
CN105741853A true CN105741853A (zh) 2016-07-06
CN105741853B CN105741853B (zh) 2019-03-29

Family

ID=56246394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610049423.1A Expired - Fee Related CN105741853B (zh) 2016-01-25 2016-01-25 一种基于共振峰频率的数字语音感知哈希方法

Country Status (1)

Country Link
CN (1) CN105741853B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107195028A (zh) * 2017-04-27 2017-09-22 贾华淇 一种高精度无线语音识别门禁系统
CN108108699A (zh) * 2017-12-25 2018-06-01 重庆邮电大学 融合深度神经网络模型和二进制哈希的人体动作识别方法
EP3882788A4 (en) * 2018-11-14 2022-08-10 Neosapience, Inc. METHOD OF SEARCHING FOR CONTENT WITH THE SAME VOICE AS A TARGET SPEAKER'S VOICE AND DEVICE FOR IMPLEMENTING THE SAME

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1940926A (zh) * 2006-03-15 2007-04-04 中国人民大学 一种基于哼唱的音乐数据库高效查询方法
JP2010098431A (ja) * 2008-10-15 2010-04-30 Fujitsu Ltd 音声データの管理方法、音声データの管理プログラム
CN102779527A (zh) * 2012-08-07 2012-11-14 无锡成电科大科技发展有限公司 基于窗函数共振峰增强的语音增强方法
CN102881291A (zh) * 2012-10-24 2013-01-16 兰州理工大学 语音感知哈希认证的感知哈希值提取方法及认证方法
CN102915740A (zh) * 2012-10-24 2013-02-06 兰州理工大学 可实现篡改定位的语音感知哈希内容认证方法
CN104134443A (zh) * 2014-08-14 2014-11-05 兰州理工大学 对称三进制串表示的语音感知哈希序列构造和认证方法
CN104835499A (zh) * 2015-05-13 2015-08-12 西南交通大学 基于时-频域趋势变化的密文语音感知哈希及检索方案

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1940926A (zh) * 2006-03-15 2007-04-04 中国人民大学 一种基于哼唱的音乐数据库高效查询方法
JP2010098431A (ja) * 2008-10-15 2010-04-30 Fujitsu Ltd 音声データの管理方法、音声データの管理プログラム
CN102779527A (zh) * 2012-08-07 2012-11-14 无锡成电科大科技发展有限公司 基于窗函数共振峰增强的语音增强方法
CN102881291A (zh) * 2012-10-24 2013-01-16 兰州理工大学 语音感知哈希认证的感知哈希值提取方法及认证方法
CN102915740A (zh) * 2012-10-24 2013-02-06 兰州理工大学 可实现篡改定位的语音感知哈希内容认证方法
CN104134443A (zh) * 2014-08-14 2014-11-05 兰州理工大学 对称三进制串表示的语音感知哈希序列构造和认证方法
CN104835499A (zh) * 2015-05-13 2015-08-12 西南交通大学 基于时-频域趋势变化的密文语音感知哈希及检索方案

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李金凤,等: "基于MFCC相关系数的语音感知哈希认证算法", 《北京邮电大学学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107195028A (zh) * 2017-04-27 2017-09-22 贾华淇 一种高精度无线语音识别门禁系统
CN108108699A (zh) * 2017-12-25 2018-06-01 重庆邮电大学 融合深度神经网络模型和二进制哈希的人体动作识别方法
EP3882788A4 (en) * 2018-11-14 2022-08-10 Neosapience, Inc. METHOD OF SEARCHING FOR CONTENT WITH THE SAME VOICE AS A TARGET SPEAKER'S VOICE AND DEVICE FOR IMPLEMENTING THE SAME
US11664015B2 (en) 2018-11-14 2023-05-30 Neosapience, Inc. Method for searching for contents having same voice as voice of target speaker, and apparatus for executing same

Also Published As

Publication number Publication date
CN105741853B (zh) 2019-03-29

Similar Documents

Publication Publication Date Title
CN109599093B (zh) 智能质检的关键词检测方法、装置、设备及可读存储介质
Tiwari MFCC and its applications in speaker recognition
US8731936B2 (en) Energy-efficient unobtrusive identification of a speaker
CN102509547B (zh) 基于矢量量化的声纹识别方法及系统
WO2019232829A1 (zh) 声纹识别方法、装置、计算机设备及存储介质
Hu et al. Pitch‐based gender identification with two‐stage classification
CN107293306B (zh) 一种基于输出的客观语音质量的评估方法
Dubey et al. Non-intrusive speech quality assessment using several combinations of auditory features
Zhang et al. An efficient perceptual hashing based on improved spectral entropy for speech authentication
CN113823293B (zh) 一种基于语音增强的说话人识别方法及系统
CN112735435A (zh) 具备未知类别内部划分能力的声纹开集识别方法
CN108922543A (zh) 模型库建立方法、语音识别方法、装置、设备及介质
Revathi et al. Text independent speaker recognition and speaker independent speech recognition using iterative clustering approach
Awais et al. Speaker recognition using mel frequency cepstral coefficient and locality sensitive hashing
CN105741853A (zh) 一种基于共振峰频率的数字语音感知哈希方法
Pahar et al. Coding and decoding speech using a biologically inspired coding system
Mu et al. Voice activity detection optimized by adaptive attention span transformer
CN113129908B (zh) 基于循环帧级特征融合的端到端猕猴声纹验证方法及系统
Nirjon et al. sMFCC: exploiting sparseness in speech for fast acoustic feature extraction on mobile devices--a feasibility study
Singh et al. Novel feature extraction algorithm using DWT and temporal statistical techniques for word dependent speaker’s recognition
Li et al. A Convolutional Neural Network with Non-Local Module for Speech Enhancement.
El-Henawy et al. Recognition of phonetic Arabic figures via wavelet based Mel Frequency Cepstrum using HMMs
Abushariah et al. Voice based automatic person identification system using vector quantization
Sahidullah et al. On the use of perceptual Line Spectral pairs Frequencies and higher-order residual moments for Speaker Identification
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190329

Termination date: 20210125