CN1242377C - 广州话声纹鉴定方法 - Google Patents
广州话声纹鉴定方法 Download PDFInfo
- Publication number
- CN1242377C CN1242377C CNB031139418A CN03113941A CN1242377C CN 1242377 C CN1242377 C CN 1242377C CN B031139418 A CNB031139418 A CN B031139418A CN 03113941 A CN03113941 A CN 03113941A CN 1242377 C CN1242377 C CN 1242377C
- Authority
- CN
- China
- Prior art keywords
- sample
- overbar
- centerdot
- speaker
- sample speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种针对中国广州话声纹鉴定的方法,该方法包括下列步骤:从检材语音中选出K个音节,用语图仪分别测定各音节的P项语音特征参量值;选定M个样本发音人,每人对K个音节各重复发音n次,要求n>P,用语图仪分别测定所发各音节的P项语音特征参量值;对于男性样本发音人,电脑程序应用马氏距离模型对检材发音人和样本发音人进行同一人的判别;对于女性样本发音人,电脑程序应用引进了模糊数学概念的费歇模型对检材发音人和样本发音人进行同一人的判别。本发明可以应用于刑事、民事、行政治安等案件中音像资料的司法鉴定,该发明使用定量分析方法提高了鉴定工作的准确性及效率,从而有力地打击犯罪分子。
Description
技术领域
本发明涉及司法声学的声纹鉴定方法,尤其是一种针对中国方言广州话进行声纹鉴定的方法。
背景技术
二战以后,特别是五、六十年代的美国,由于现代通讯技术的推广普及,电话深入各行各业、各家各户。与此同时,违法犯罪分子也在利用它,特别是在绑架、敲诈勒索、恐吓、诽谤和爆炸等案件中更多的使用电话,以致有人将使用电话犯罪的案件统称为“电话犯罪”。“电话犯罪”留下的唯一线索是罪犯的电话录音,如何利用电话录音去鉴别罪犯,便迫切地提到了法庭科学家的面前。
最先进行声纹鉴定研究的是贝尔实验室的克斯塔(L·G·Kesta)。1960年他受美国司法当局的委托,利用声谱仪的图谱匹配进行声纹鉴定的研究,于1962年发表了名为《声纹鉴定》的研究报告。他通过对123名健康美国人的“I、YOU、IT”等声样地25000个声纹图进行了50000多项分析鉴定,得出的实验准确率尾99.65%。
声纹鉴定是指应用语图仪对涉案材料(检材)中的说话人与已知人(样本)的语音声学特征进行检测比对和综合分析,作出是否为同一人的判断过程。声纹鉴定不仅仅是对几个音节语图的视觉检验,而是充分利用声纹所携带的所有言语信息,以听觉和视觉、定性和定量相结合的方法来完成的。现有声纹鉴定方法主要是从语音听辩及语图观测方面进行。
听辩是通过听觉感知分辨说话人的音质、音强等语音要素,对有关方言、言语习惯、言语缺陷等等语音中特定说话人信息的后天行为因素判断其相似及差异程度的过程。
语图观测分析是通过语图比较说话人的共振峰特性、振幅曲线形态等语音特征参量值在语图整体轮廓方面的相似或差异程度的过程。
但是,语音听辩及语图观测均是一种凭借人为直觉来进行语音识别判断的非定量分析的方法,因而在语音判断时容易带有主观倾向性。该方法的鉴定结果依赖鉴定人的专业知识和实践经验,容易受鉴定人感知直觉的影响,缺乏客观的标准。
在我国声纹鉴定工作尚处于起步阶段,语音学及司法语音学对声学特征量化方面的研究,特别是具有个人特征的高频部分缺乏系统的研究,一些关于声纹鉴定的基础性研究、特征参量的定量分析数据和鉴定方法还不够健全完善。然而,我国地域辽阔,人口众多,各地区存在语音不同的方言。粤方言是汉语方言中与民族共同语差别较大的方言,广州话是粤方言的代表方言,其在粤方言地区是地域标准音。由于历史上的诸多原因,使得广州话与北方方言的发音差距较大,广州话一方面继承并发展了许多古代汉语中的因素,另一方面又吸收了一些非汉语成分,从而形成了与众不同的方言特点。跟汉语普通话相比较,广州话的韵母要多出三分之一以上,而且大部分韵母与汉语普通话有很大的区别。所以现有的语音听辩及语图观测的声纹鉴定方法对于辨别广州话方言,更显得不一掌握,鉴定的准确率和效率均较低,这给语音鉴定的司法实践带来了较大的困难。
发明内容
本发明要解决声纹鉴定工作中凭借人为直觉、依赖个人专业知识和实践经验来进行语音识别的判断,而非采用定量分析的手段,使得判别者在语音判别时缺乏客观标准,容易带有主观倾向性的技术问题,而提出一种客观的声纹鉴定的定量分析方法。
本发明的技术解决方案是依据声纹鉴定的原理:一个人的声纹绝对不会和其他人的声纹完全相同,个人语音变异小于与不同人之间语音的差异。声纹鉴定与指纹、DNA基因谱等一样,可以认定人身。从定量分析方面研究声纹鉴定的声学特征参量,利用数学理论的工具,进行了大量的计算和分析,比较各种不同的统计方法,最后建立了一套符合语音自然规律的判别数学模型,提出一种适合广州话方言的声纹鉴定方法,其包括以下步骤:
从检材语音中选出K个音节,分别用语图仪测定各音节的P项语音特征参量值;选定M个样本发音人,每人对所述的K个音节各重复发音n次,要求n>P,分别用语图仪测定各人各次发各音节的所述P项语音特征参量值;对于男性样本发音人,电脑程序应用马氏距离模型对检材发音人和样本发音人进行同一人的判别;对于女性样本发音人,电脑程序应用引进了模糊数学概念的费歇模型对检材发音人和样本发音人进行同一人的判别。
一、应用马氏距离模型判别方法的步骤包括:
1.测量数据
设定从检材语音中选出的音节K为10个音节,重复发音次数n为7次,所须测定的语音特征参量值项数P为4项,即测定音节的第2、第3、第4共振峰频率值、第1共振峰的振幅值与第2共振峰的振幅值之间的差值,记:
样本发音人语音特征参量值:
t=1、2、…7,j=1、2、…、10,m=1、2、…、M;
检材发音人语音特征参量值:
j=1、2、…、10;
2.计算马氏距离
对每个音节,分别计算检材发音人的语音特征参量值到各样本发音人均值向量之间的马氏距离MD(m):
MD(m)=(Y(j)-
X(m))′(S(m))-1(Y(j)-
X(m)),m=1、2、…、M,j=1、2、…、10式中
X(m)为均值向量,S(m)为以均值向量为中心的离差矩阵:
3.判断最可疑者
对每个音节,找出各样本发音人中MD(1)、MD(2)、…、MD(M)的最小者假定为MD(m),则检验MD(m)是否满足:
如果满足,则判定该发音人为最可疑者;
4.认定
(1)若有9个至10个音节的最可疑者均为某一样本发音人,则认定检材语音发自该样本发音人;
(2)若有7至8个音节的最可疑者均为某一样本发音人,则倾向认定检材语音发自该样本发音人;
(3)其余情况,不能判定。
二、应用引进了模糊数学概念的费歇模型判别方法的步骤包括:
1.测量数据
样本发音人M为2,重复发音次数n为7次,须测定的语音特征参量值项数P为5项,即测定音节的第1共振峰频率值、第2共振峰频率值、第3共振峰频率值、第4共振峰频率值、第1共振峰的振幅值和第2共振峰的振幅值,利用F1、F2、F3、F4、L1-L2作为模型参量,记:
样本发音人语音特征参量值:
t=1、2、…7,j=1、2、…、10,m=1、2;
检材发音人语音特征参量值:
j=1、2、…、10;
2.计算判别函数
对每个音节,计算费歇判别函数:
y=Cj′X,j=1、2、…、10;
其中Cj′为最大特征λj的根特征向量;
3.引进模糊数学中的隶属度概念,计算隶属度
计算两个样本发音人的样本判别函数值Wt (j,m)、均值
w(j,m)和检材发音人的判别函数值Z(j),t=1,2,…,n,j=1,2,…,n,m=1,2;
计算检材发音人对每个音属于两样本发音人的隶属度L1 (j)、L2 (j):
计算检材发音人属于两样本发音人的隶属度,即综合隶属度:
4.认定
(1)当检材发音人属于某一样本发音人的综合隶属度≥70%时,可以认定检材语音发自该样本发音人;
(2)当检材发音人属于某一样本发音人的综合隶属度≥50%,但<70%时,倾向认定检材语音发自该样本发音人;
(3)其他情况,不能判定。
近年来,对于受理的22宗声纹鉴定案件,其中包括绑架、敲诈勒索、恐吓、诽谤、行贿受贿、赌博和爆炸等,把本发明应用到声纹鉴定中,对多名嫌疑人语音进行了检验鉴定。从送检单位反馈的结案情况统计,侦查结果与鉴定结论一致,被鉴定人没有对鉴定结论提出异议,此时案件检验鉴定的正判率为100%。
经过多年大量的抽样测试,建立了一套符合广州话语音自然规律的语音判别数学模型系统,对该系统输入须要比对的语音特征参量,经电脑数据处理,便可自动得出客观的比对结果。近年来,对于受理的22宗声纹鉴定案件,其中包括绑架、敲诈勒索、恐吓、诽谤、行贿受贿、赌博和爆炸等,把本发明应用到声纹鉴定中,对多名嫌疑人语音进行了检验鉴定。从送检单位反馈的结案情况统计,侦查结果与鉴定结论一致,被鉴定人没有对鉴定结论提出异议,此时案件检验鉴定的正判率为100%。
粤方言流行区域广,使用人数多,粤方言除广泛用于广东、广西及香港、澳门地区外,还流行于东南亚和北美等地区的海外华侨及华裔群体中。椐不完全统计,全球使用粤方言的人数近八千万人。随着广东地区经济的快速发展和人员的频繁流动,广州话的使用范围更加大了。由于深圳地处粤方言区,在对犯罪嫌疑人语音进行声纹鉴定时,经常遇到广州话语音,因为广州话语音的特殊性,目前国内尚无针对性的鉴定的方法。本发明这套完整的适合广州化方言特点的声纹鉴定方法和程序,为充分发挥声纹鉴定在打击犯罪中的作用,满足本单位办案的客观需要,以及为周边地区的公检法机关提供检验鉴定服务,作出了积极的贡献,影响深远。同时也为其他地区方言的声纹鉴定探索提供了一种可借鉴的方法。
本发明可以应用于刑事案件、民事案件、行政治安案件中音像资料的司法鉴定,为准确地揭露和证实犯罪提供鉴定结论或破案线索,从而有力地打击了犯罪分子,保护公民权利,维护社会治安及经济秩序,产生了较大的社会效益和经济效益,具有良好的推广应用前景。实验结果及鉴定结果表明本发明具有科学性、可操作性及先进性,它提高了鉴定工作的准确性及效率,同时也是成熟的。本发明在物证鉴定中有重要的实用价值,可降低诉讼成本和提高鉴定队伍的整体素质及业务水平,是保证鉴定结论准确性、科学性的重要因素。
附图说明
下面结合附图和实施方式对本实用模型作进一步详细说明,其中:
图1是本发明的工作流程图。
具体实施方式
如图所示,为本发明实施方式的流程。
第1步:从检材语音中选出发音较为清晰而相互之间语音特征信息交叉、重叠较少的音节个数K为10个。
对于判别男性检材发音人的语音时,用语图仪分别测定各音节语音特征参量值的项数P为4项,即测定各音节的第2、第3、第4共振峰的频率值F2、F3、F4和第1共振峰振幅L1与第2共振峰振幅L2之间的差值L1-L2,记作: j=1、2、…10;选定3个样本发音人,从样本发音人语音中选出同样10个音节,重复发音7次,用语图仪分别测定各音节的第2共振峰频率值F2、第3共振峰频率值F3、第4共振峰频率值F4、第1共振峰的振幅值L1、第2共振峰的振幅值L2,利用F2、F3、F4、L1-L2作为模型参量,记样本发音人语音特征参量值:
t=1、2、…7,j=1、2、…、10,m=1、2、3;
对于判别女性检材发音人的语音时,用语图仪分别测定各音节语音特征参量值的项数P为5项,即测定各音节的第1、第2、第3、第4共振峰频率F1、F2、F3、F4和第1共振峰振幅L1与第2共振峰振幅L2之间的差值L1-L2,记作:
j=1、2、…10;选定2个样本发音人,从样本发音人语音中选出同样10个音节,重复发音次数7,须用语图仪分别测定的语音特征参量值项数P为5项,即测定音节的第1共振峰频率值、第2共振峰频率值、第3共振峰频率值、第4共振峰频率值、第1共振峰的振幅值和第2共振峰的振幅值,利用F1、F2、F3、F4、L1-L2作为模型参量,记样本发音人语音特征参量值:
t=1、2、…7,j=1、2、…、10,m=1、2 ;
第2步:将上述语图仪所测定的检材和样本发音人的语音特征参量数据输入电脑,电脑程序根据样本发音人的性别,自动选择数学判别模型进行语音同一的判别;
对于男性,电脑采用马氏距离判别模型:
第301步:对每个音节,分别计算均值向量
X(m)和以均值向量为中心的离差矩阵S(m),m=1、2、3:
第401步:分别计算检材发音人的语音特征参量值到各样本发音人均值向量之间的马氏距离MD(m):
MD(m)=(Y(j)-
X(m)′(S(m))-1(Y(j)-
X(m)),m=1、2、3
第501步:最后电脑根据已输入的判别条件,自动对检材发音人和样本发音人进行同一人的判别。找出各样本发音人中MD(1)、MD(2)、MD(3)的最小者假定为MD(m),则检验MD(m)是否满足:
如果满足,则判定该发音人为最可疑者;
第6步:若有9至10个音节的最可疑者均为某一样本发音人,则认定检材语音发自该样本发音人;
若有7至8个音节的最可疑者均为某一样本发音人,则倾向认定检材语音发自该样本发音人;
其他情况,不能判定。
对于女性,电脑采用费歇判别模型:
第302步:对每个音节,计算费歇判别函数和特征根,首先记
i=1,2,...,5,j=1,2,...,10,m=1,2
记λj为(S(j))-1D(j)的最大特征根,Cj′为所对应的特征向量,j=1、2、…、10,得到费歇判别函数:
y=Cj′X,j=1、2、…、10;
第402步:引进模糊数学中的隶属度概念,计算检材发音人属于两个样本发音人的隶属度,记wi (j,m)为两个样本发音人的样本判别函数值,
w(j,m)为均值:
t=1,2,Λ,n,j=1,2,Λ,10,m=1,2
记检材发音人的判别函数值为Z(j):
Z(j)=Cj′V(j),j=1,2,Λ,10
计算检材发音人对每个音属于两样本发音人的隶属度L1 (j)、L2 (j):
第502步:计算检材发音人属于两个样本发音人的隶属度,即综合隶属度:
第6步:根据样本发音人的综合隶属度电脑自动进行判别:
当检材发音人属于某一样本发音人的综合隶属度≥70%时,可以认定检材语音发自该样本发音人;
当检材发音人属于某一样本发音人的综合隶属度≥50%,但<70%时,倾向认定检材语音发自该样本发音人;
其他情况,不能判定。
在进行声纹鉴定的实际工作中,若一次鉴定出现倾向认定或不能判定时则应加测或重测,或结合语音听辩及语图观测进行综合判断。
通过数万人次的抽样测试,对男性判断应用马氏距离数学模型,实验结果正判率在98%以上;对女性判断应用费歇判别数学模型,在费歇判别数学模型中引入模糊数学中的隶属度概念,实验正判率为93.5%。一般情况在应用本发明进行声纹鉴定时,结合语音听辩、语音特征的语图观测和其他侦查手段,实验结果的综合正判率为100%。
Claims (1)
1.一种广州话声纹鉴定的方法,包括下列步骤:
一、从检材语音中选出10个音节;
二、对于男性用语图仪分别测定各音节的语音特征参量值:第2共振峰频率值F2、第3共振峰频率值F3、第4共振峰频率值F4、第1共振峰的振幅值L1、第2共振峰的振幅值L2,利用F2、F3、F4、L1-L2作为方法利用的特征参量,记为:
j=1、2、…、10;对于女性用语图仪分别测定各音节的语音特征参量值:第1共振峰频率值F1、第2共振峰频率值F2、第3共振峰频率值F3、第4共振峰频率值F4、第1共振峰的振幅值L1、第2共振峰的振幅值L2,利用F1、F2、F3、F4、L1-L2作为方法利用的特征参量,记为:
j=1、2、…、10;
三、对于男性,选定M个样本发音人,每人对检材语音重复发音n次,要求n>4,用语图仪分别测定各人各次发各10个音节的与步骤二相同的语音特征参量值,为:
t=1、2、…n,j=1、2、…、10,m=1、2、…、M;对于女性,选定2个样本发音人,每人对检材语音重复发音n次,要求n>5,用语图仪分别测定各人各次发各10个音节的与步骤二相同的语音特征参量值,对于女性记为:
四、电脑程序对检材发音人和样本发音人进行同一人的判别:
(一)对于男性
1).计算马氏距离
对每个音节,分别计算检材发音人的语音特征参量值到各样本发音人均值向量之间的马氏距离MD(m):
2).判断最可疑者
对每个音节,找出各样本发音人中MD(1)、MD(2)、…MD(M)的最小者假定为MD(m),则检验MD(m)是否满足:
如果满足,则判定该发音人为最可疑者;
3).认定
(1)若有9至10个的音节的最可疑者均为某一样本发音人,则认定检材语音发自该样本发音人;
(2)若有7至8个音节的最可疑者均为某一样本发音人,则倾向认定检材语音发自该样本发音人;
(3)其余情况,不能判定;
(二)对于女性
1).对每个音节,计算费歇判别函数,首先记
i=1,2,...,5,j=1,2,...,10,m=1,2记λj为(S(j))-1D(j)的最大特征根,Cj′为所对应的特征向量,j=1、2、...、10,得到费歇判别函数:
t=1,2,Λ,n,j=1,2,Λ,10,m=1,2记检材发音人的判别函数值为Z(j):
记检材发音人对每个音属于两样本发音人的隶属度为
计算检材发音人属于两样本发音人的隶属度,即综合隶属度:
3).认定
(1)当检材发音人属于某一样本发音人的综合隶属度≥70%时,可以认定检材语音发自该样本发音人;
(2)当检材发音人属于某一样本发音人的综合隶属度≥50%,但<70%时,倾向认定检材语音发自该样本发音人;
(3)其他情况,不能判定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB031139418A CN1242377C (zh) | 2003-03-16 | 2003-03-16 | 广州话声纹鉴定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB031139418A CN1242377C (zh) | 2003-03-16 | 2003-03-16 | 广州话声纹鉴定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1530925A CN1530925A (zh) | 2004-09-22 |
CN1242377C true CN1242377C (zh) | 2006-02-15 |
Family
ID=34283859
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB031139418A Expired - Fee Related CN1242377C (zh) | 2003-03-16 | 2003-03-16 | 广州话声纹鉴定方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1242377C (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101447188B (zh) * | 2007-11-27 | 2011-06-15 | 北京金运昭德数字科技有限公司 | 数字声纹鉴定系统及确认和辨认方法 |
CN109087651B (zh) * | 2018-09-05 | 2021-01-19 | 广州势必可赢网络科技有限公司 | 一种基于视频与语谱图的声纹鉴定方法、系统及设备 |
CN110164454B (zh) * | 2019-05-24 | 2021-08-24 | 广州国音智能科技有限公司 | 一种基于共振峰偏差的音频同一性判别方法及装置 |
WO2021127998A1 (zh) * | 2019-12-24 | 2021-07-01 | 广州国音智能科技有限公司 | 一种声纹鉴定方法和相关装置 |
CN117198321B (zh) * | 2023-11-08 | 2024-01-05 | 方图智能(深圳)科技集团股份有限公司 | 一种基于深度学习的复合音频实时传输方法及系统 |
-
2003
- 2003-03-16 CN CNB031139418A patent/CN1242377C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN1530925A (zh) | 2004-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107680601B (zh) | 一种基于语谱图和音素检索的身份同一性检验方法及装置 | |
Singh et al. | Multimedia utilization of non-computerized disguised voice and acoustic similarity measurement | |
CN103310788B (zh) | 一种语音信息识别方法及系统 | |
French et al. | The UK position statement on forensic speaker comparison: a rejoinder to Rose and Morrison. | |
CN108831485A (zh) | 基于语谱图统计特征的说话人识别方法 | |
Gillespie et al. | Cross-Database Models for the Classification of Dysarthria Presence. | |
CN111329494B (zh) | 抑郁症参考数据的获取方法及装置 | |
CN103440864A (zh) | 基于语音的人格特征预测方法 | |
Nolan et al. | Some Acoustic Correlates of Perceived (Dis) Similarity between Same-accent Voices. | |
CN106782603A (zh) | 智能语音评测方法及系统 | |
Levitan et al. | Combining Acoustic-Prosodic, Lexical, and Phonotactic Features for Automatic Deception Detection. | |
Morrison et al. | Introduction to forensic voice comparison | |
CN101650944A (zh) | 基于保类内核Fisher判别法的说话人辨别实现方法 | |
CN110490428A (zh) | 空中交通管制工作质量评估方法及相关装置 | |
JP3908965B2 (ja) | 音声認識装置及び音声認識方法 | |
Deb et al. | Fourier model based features for analysis and classification of out-of-breath speech | |
CN110797032A (zh) | 一种声纹数据库建立方法及声纹识别方法 | |
CN101419799A (zh) | 基于混合t模型的说话人识别方法 | |
CN106205635A (zh) | 语音处理方法及系统 | |
CN1242377C (zh) | 广州话声纹鉴定方法 | |
Zhao et al. | Detecting depression from speech through an attentive LSTM network | |
Wang et al. | MFCC-based deep convolutional neural network for audio depression recognition | |
Jacob et al. | Prosodic feature based speech emotion recognition at segmental and supra segmental levels | |
Gerlach et al. | Automatic assessment of voice similarity within and across speaker groups with different accents | |
Greeley et al. | Field study evaluation of cepstrum coefficient speech analysis for fatigue in aviation cabin crew |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20060215 Termination date: 20100316 |