CN1530925A

CN1530925A - 广州话声纹鉴定方法

Info

Publication number: CN1530925A
Application number: CNA031139418A
Authority: CN
Inventors: 李康生; 李敬阳; 熊志强; 麦耘; 余锦华; 杨维权; 贾笑玲; 禤英韶; 苌伟力
Original assignee: SHENZHEN PEOPLE'S PROCURATORATE GUANGDONG PROV
Current assignee: SHENZHEN PEOPLE'S PROCURATORATE GUANGDONG PROV
Priority date: 2003-03-16
Filing date: 2003-03-16
Publication date: 2004-09-22
Anticipated expiration: 2023-03-16
Also published as: CN1242377C

Abstract

本发明公开了一种针对中国广州话声纹鉴定的方法，该方法包括下列步骤：从检材语音中选出K个音节，用语图仪分别测定各音节的P项语音特征参量值；选定M个样本发音人，每人对K个音节各重复发音n次，要求n＞P，用语图仪分别测定所发各音节的P项语音特征参量值；对于男性样本发音人，电脑程序应用马氏距离模型对检材发音人和样本发音人进行同一人的判别；对于女性样本发音人，电脑程序应用引进了模糊数学概念的费歇模型对检材发音人和样本发音人进行同一人的判别。本发明可以应用于刑事、民事、行政治安等案件中音像资料的司法鉴定，该发明使用定量分析方法提高了鉴定工作的准确性及效率，从而有力地打击犯罪分子。

Description

广州话声纹鉴定方法

技术领域

本发明涉及司法声学的声纹鉴定方法，尤其是一种针对中国方言广州话进行声纹鉴定的方法。

背景技术

二战以后，特别是五、六十年代的美国，由于现代通讯技术的推广普及，电话深入各行各业、各家各户。与此同时，违法犯罪分子也在利用它，特别是在绑架、敲诈勒索、恐吓、诽谤和爆炸等案件中更多的使用电话，以致有人将使用电话犯罪的案件统称为“电话犯罪”。“电话犯罪”留下的唯一线索是罪犯的电话录音，如何利用电话录音去鉴别罪犯，便迫切地提到了法庭科学家的面前。

最先进行声纹鉴定研究的是贝尔实验室的克斯塔(L G·Kesta)。1960年他受美国司法当局的委托，利用声谱仪的图谱匹配进行声纹鉴定的研究，于1962年发表了名为《声纹鉴定》的研究报告。他通过对123名健康美国人的“I、YOU、IT”等声样地25000个声纹图进行了50000多项分析鉴定，得出的实验准确率为99.65％。

声纹鉴定是指应用语图仪对涉案材料(检材)中的说话人与已知人(样本)的语音声学特征进行检测比对和综合分析，作出是否为同一人的判断过程。声纹鉴定不仅仅是对几个音节语图的视觉检验，而是充分利用声纹所携带的所有言语信息，以听觉和视觉、定性和定量相结合的方法来完成的。现有声纹鉴定方法主要是从语音听辩及语图观测方面进行。

听辩是通过听觉感知分辨说话人的音质、音强等语音要素，对有关方言、言语习惯、言语缺陷等等语音中特定说话人信息的后天行为因素判断其相似及差异程度的过程。

语图观测分析是通过语图比较说话人的共振峰特性、振幅曲线形态等语音特征参量值在语图整体轮廓方面的相似或差异程度的过程。

但是，语音听辩及语图观测均是一种凭借人为直觉来进行语音识别判断的非定量分析的方法，因而在语音判断时容易带有主观倾向性。该方法的鉴定结果依赖鉴定人的专业知识和实践经验，容易受鉴定人感知直觉的影响，缺乏客观的标准。

在我国声纹鉴定工作尚处于起步阶段，语音学及司法语音学对声学特征量化方面的研究，特别是具有个人特征的高频部分缺乏系统的研究，一些关于声纹鉴定的基础性研究、特征参量的定量分析数据和鉴定方法还不够健全完善。然而，我国地域辽阔，人口众多，各地区存在语音不同的方言。粤方言是汉语方言中与民族共同语差别较大的方言，广州话是粤方言的代表方言，其在粤方言地区是地域标准音。由于历史上的诸多原因，使得广州话与北方方言的发音差距较大，广州话一方面继承并发展了许多古代汉语中的因素，另一方面又吸收了一些非汉语成分，从而形成了与众不同的方言特点。跟汉语普通话相比较，广州话的韵母要多出三分之一以上，而且大部分韵母与汉语普通话有很大的区别。所以现有的语音听辩及语图观测的声纹鉴定方法对于辨别广州话方言，更显得不易掌握，鉴定的准确率和效率均较低，这给语音鉴定的司法实践带来了较大的困难。

发明内容

本发明要解决声纹鉴定工作中凭借人为直觉、依赖个人专业知识和实践经验来进行语音识别的判断，而非采用定量分析的手段，使得判别者在语音判别时缺乏客观标准，容易带有主观倾向性的技术问题，而提出一种客观的声纹鉴定的定量分析方法。

本发明的技术解决方案是依据声纹鉴定的原理：一个人的声纹绝对不会和其他人的声纹完全相同，个人语音变异小于与不同人之间语音的差异。声纹鉴定与指纹、DNA基因谱等一样，可以认定人身。从定量分析方面研究声纹鉴定的声学特征参量，利用数学理论的工具，建立一套符合语音自然规律的判别数学模型，提出一种适合广州话方言的声纹鉴定方法，其包括以下步骤：

从检材语音中选出K个音节，分别用语图仪测定各音节的P项语音特征参量值；选定M个样本发音人，每人对所述的K个音节各重复发音n次，要求n＞P，分别用语图仪测定各人各次发各音节的所述P项语音特征参量值；对于男性样本发音人，电脑程序应用马氏距离模型对检材发音人和样本发音人进行同一人的判别；对于女性样本发音人，电脑程序应用引进了模糊数学概念的费歇模型对检材发音人和样本发音人进行同一人的判别。

应用马氏距离模型判别方法的步骤包括：

A.测量数据

设定从检材语音中选出的音节K为10个音节，重复发音次数n为7次，所须测定的语音特征参量值项数P为4项，即测定音节的第2、第3、第4共振峰频率值、第1共振峰的振幅值与第2共振峰的振幅值之间的差值，则记：

样本发音人语音特征参量值：

X_{t}^{(j, m)} = {(x_{t 1}^{(j, m)}, x_{t 2}^{(j, m)}, x_{t 3}^{(j, m)}, x_{t 4}^{(j, m)})}^{'},

t＝1、2、...7，j＝1、2、...、10，m＝1、2、...、M；

检材发音人语音特征参量值：

Y^{(j)} = {(x_{1}^{(j)}, x_{2}^{(j)}, x_{3}^{(j)}, x_{4}^{(j)})}^{'},

j＝1、2、...、10；

B.计算马氏距离

对每个音节，分别计算检材发音人的语音特征参量值到各样本发音人均值向量之间的马氏距离MD^(m)：MD^(m)＝(Y^(j)- X^(m))′(S^(m))^-1(Y^(j)- X^(m)，m＝1、2、...、M，j＝1、2、...、10式中 X^(m)为均值向量，S^(m)为以均值向量为中心的离差矩阵。

C.判断最可疑者

对每个音节，找出各样本发音人中MD⁽¹⁾、MD⁽²⁾、...MD^(M)的最小者假定为MD^(m)，则检验MD^(m)是否满足：

{MD}^{(m)} \leq \frac{n + 1}{n (n - 1)} x_{p}^{2} (α) .

如果满足，则判定该发音人为最可疑者。

D.认定

(1)若有9至10个音节的最可疑者均为某一样本发音人，则认定检材语音发自该样本发音人；

(2)若有7至8个音节的最可疑者均为某一样本发音人，则倾向认定检材语音发自该样本发音人；

(3)其余情况，不能判定。

应用引进了模糊数学概念的费歇模型判别方法的步骤包括：

A.测量数据

重复发音次数n为7次，须测定的语音特征参量值项数P为5项，即测定音节的第1共振峰频率值、第2共振峰频率值、第3共振峰频率值、第4共振峰频率值、第1共振峰的振幅值和第2共振峰的振幅值，利用F₁、F₂、F₃、F₄、L₁-L₂作为模型参量，记：

样本发音人语音特征参量值：

U_{t}^{(j, m)} = {(u_{t 1}^{(j, m)}, u_{t 2}^{(j, m)}, u_{t 3}^{(j, m)}, u_{t 4}^{(j, m)} u_{t 5}^{(j, m)})}^{'},

t＝1、2、...7，j＝1、2、...、10，m＝1、2、...、M；

检材发音人语音特征参量值：

V^{(j)} = {(v_{1}^{(j)}, v_{2}^{(j)}, v_{3}^{(j)}, v_{4}^{(j)}, v_{5}^{(j)})}^{'},

j＝1、2、...、10；

B.计算判别函数

费歇模型判别要求样本发音人个数M＞1，对每个音节，计算费歇判别函数：

y＝C′_jX，j＝1、2、...、10；其中C′_j为特征向量，X为语音特征参量。

L_{m} = Σ_{j = 1}^{10} λ_{j} L_{m}^{(j)},

j＝1，2，...，10，m＝1、2、...、M

其中：λ_j为最大特征根，A和B为各样本判别函数值均值按大小排序后相邻的两样本发音人， y(A)^(j)和 y(B)^(j)分别为A和B的样本判别函数值均值，

L_{A}^{(j)} = \frac{| Y^{(j)} - \overset{&OverBar;}{y} {(B)}^{(j)} |}{| \overset{&OverBar;}{y} {(B)}^{(j)} - \overset{&OverBar;}{y} {(A)}^{(j)} |},

L_{B}^{(j)} = \frac{| Y^{(j)} - \overset{&OverBar;}{y} {(A)}^{(j)} |}{| \overset{&OverBar;}{y} {(B)}^{(j)} - \overset{&OverBar;}{y} {(A)}^{(j)} |},

D.判定

(1)当检材发音人属于某一样本发音人的综合隶属度≥70％时，可以认定检材语音发自该样本发音人；

(2)当检材发音人属于某一样本发音人的综合隶属度≥50％，但＜70％时，倾向认定检材语音发自该样本发音人；

(3)其他情况，不能判定。

经过多年大量的抽样测试，建立了一套符合广州话语音自然规律的语音判别数学模型系统，对该系统输入须要比对的语音特征参量，经电脑数据处理，便可自动得出客观的比对结果。近年来，对于受理的22宗声纹鉴定案件，其中包括绑架、敲诈勒索、恐吓、诽谤、行贿受贿、赌博和爆炸等，把本发明应用到声纹鉴定中，对多名嫌疑人语音进行了检验鉴定。从送检单位反馈的结案情况统计，侦查与审判结果与鉴定结论一致，被鉴定人没有对鉴定结论提出异议，案件检验鉴定的正判率为100％。

粤方言流行区域广，使用人数多，粤方言除广泛用于广东、广西及香港、澳门地区外，还流行于东南亚和北美等地区的海外华侨及华裔群体中。椐不完全统计，全球使用粤方言的人数近八千万人。随着广东地区经济的快速发展和人员的频繁流动，广州话的使用范围更加大了。由于深圳地处粤方言区，在对犯罪嫌疑人语音进行声纹鉴定时，经常遇到广州话语音，因为广州话语音的特殊性，目前国内尚无针对性的鉴定的方法。本发明这套完整的适合广州话方言特点的声纹鉴定方法和程序，为充分发挥声纹鉴定在打击犯罪中的作用，满足本单位办案的客观需要，以及为周边地区的司法机关提供检验鉴定服务，作出了积极的贡献，影响深远。同时也为其他地区方言的声纹鉴定探索提供了一种可借鉴的方法。

本发明可以应用于刑事案件、民事案件、行政治安案件中音像资料的司法鉴定，为准确地揭露和证实犯罪提供鉴定结论或破案线索，从而有力地打击了犯罪分子，保护公民权利，维护社会治安及经济秩序，产生了较大的社会效益和经济效益，具有良好的推广应用前景。实验结果及鉴定结果表明本发明具有科学性、可操作性及先进性，它使用定量分析方法提高了鉴定工作的准确性及效率，同时也是成熟的。本发明在物证鉴定中有重要的实用价值，可降低诉讼成本和提高鉴定队伍的整体素质及业务水平，是保证鉴定结论准确性、科学性的重要因素。

附图说明

下面结合附图和实施方式对本实用新型作进一步详细说明，其中：

图1是本发明的工作流程图。

具体实施方式

如图1所示，为本发明实施方式的流程。第1步：从检材语音中选出发音较为清晰而相互之间语音特征信息交叉、重叠较少的音节个数K为10个。

对于判别男性检材发音人的语音时，用语图仪分别测定各音节语音特征参量值的项数P为4项，即测定各音节的第2、第3、第4共振峰的频率值F₂、F₃、F₄和第1共振峰振幅L₁与第2共振峰振幅L₂之间的差值L₁-L₂，记作：

Y^{(j)} = {(y_{1}^{(j)}, y_{2}^{(j)}, y_{3}^{(j)}, y_{4}^{(j)})}^{'},

j＝1、2、...10；选定3个样本发音人，从样本发音人语音中选出同样10个音节，重复发音7次，用语图仪分别测定各音节的第2共振峰频率值F₂、第3共振峰频率值F₃、第4共振峰频率值F₄、第1共振峰的振幅值L₁、第2共振峰的振幅值L₂，利用F₂、F₃、F₄、L₁-L₂作为模型参量，记样本发音人语音特征参量值：

X_{t}^{(j, m)} = {(x_{t 1}^{(j, m)}, x_{t 2}^{(j, m)}, x_{t 3}^{(j, m)}, x_{t 4}^{(j, m)})}^{'},

t＝1、2、...7，j＝1、2、...、10，m＝1、2、...、M；

对于判别女性检材发音人的语音时，用语图仪分别测定各音节语音特征参量值的项数P为5项，即测定各音节的第1、第2、第3、第4共振峰频率F₁、F₂、F₃、F₄和第1共振峰振幅L₁与第2共振峰振幅L₂之间的差值L₁-L₂，记作：

V^{(j)} = {(v_{1}^{(j)}, v_{2}^{(j)}, v_{3}^{(j)}, v_{4}^{(j)}, v_{5}^{(j)})}^{'},

j＝1、2、...10；选定2个样本发音人，假定为A和B，从样本发音人语音中选出同样10个音节，重复发音次数7，须用语图仪分别测定的语音特征参量值项数P为5项，即测定音节的第1共振峰频率值、第2共振峰频率值、第3共振峰频率值、第4共振峰频率值、第1共振峰的振幅值和第2共振峰的振幅值，利用F₁、F₂、F₃、F₄、L₁-L₂作为模型参量，记样本发音人语音特征参量值：

U_{t}^{(j, m)} = {(u_{t 1}^{(j, m)}, u_{t 2}^{(j, m)}, u_{t 3}^{(j, m)}, u_{t 4}^{(j)} u_{t 5}^{(j, m)})}^{'},

t＝1、2、...7，j＝1、2、...、10，m＝1、2、...、M；

第2步：将上述语图仪所测定的检材和样本发音人的语音特征参量数据输入电脑，电脑程序根据样本发音人的性别，自动选择数学判别模型进行语音同一的判别。

对于男性，电脑采用马氏距离判别模型：

第301步：对每个音节，分别计算均值向量 X^(m)，以均值向量为中心的离差矩阵S^(m)，m＝1、2、3：

{\overset{&OverBar;}{X}}^{(m)} = \frac{1}{7} Σ_{t = 1}^{7} X_{t}^{(m)},

S^{(m)} = Σ_{t = 1}^{7} (X_{t}^{(m)} - {\overset{&OverBar;}{X}}^{(m)}) {(X_{t}^{(m)} - {\overset{&OverBar;}{X}}^{(m)})}^{'}

第401步：分别计算检材发音人的语音特征参量值到各样本发音人均值向量之间的马氏距离MD^(m)：

MD^(m)＝(Y^(j)- X^(m))′(S^(m))^-1(Y^(j)- X^(m))，m＝1、2、3第501步：最后电脑根据已输入的判别条件，自动对检材发音人和样本发音人进行同一人的判别。找出各样本发音人中MD⁽¹⁾、MD⁽²⁾、MD⁽³⁾的最小者假定为MD^(m)，则检验MD^(m)是否满足：

{MD}^{(m)} \leq \frac{n + 1}{n (n - 1)} χ_{p}^{2} (α),

如果满足，则判定该发音人为最可疑者。

第6步：若有9至10个音节的最可疑者均为某一样本发音人，则认定检材语音发自该样本发音人；

若有7至8个音节的最可疑者均为某一样本发音人，则倾向认定检材语音发自该样本发音人；

其他情况，不能判定。

对于女性，电脑采用费歇判别模型：首先记

{\overset{&OverBar;}{u}}_{i}^{(j, m)} = \frac{1}{7} Σ_{t = 1}^{7} u_{t 1}^{(j, m)}

{\overset{&OverBar;}{u}}_{i}^{(j)} = \frac{1}{14} Σ_{m = 1}^{2} Σ_{t = 1}^{7} u_{ti}^{(j, m)} = \frac{1}{14} Σ_{m = 1}^{2} {\overset{&OverBar;}{u}}_{i}^{(j, m)}

D^{(j)} = {(d_{rs}^{(j)})}_{5 \times 5}

d_{rs}^{(j)} = Σ_{m = 1}^{2} 7 ({\overset{&OverBar;}{u}}_{r}^{(j, m)} - {\overset{&OverBar;}{u}}_{r}^{(j)}) ({\overset{&OverBar;}{u}}_{s}^{(j, m)} - {\overset{&OverBar;}{u}}_{s}^{(j)})

S^{(j)} = {(s_{rs}^{(j)})}_{5 \times 5}

s_{rs}^{(j)} = Σ_{m = 1}^{2} Σ_{t = 1}^{7} (u_{tr}^{(j, m)} - {\overset{&OverBar;}{u}}_{r}^{(m)}) (u_{ts}^{(j, m)} - {\overset{&OverBar;}{u}}_{s}^{(m)})

i＝1，2，...，5，j＝1，2，...，10，m＝1，2，...，M记λ_j为(S^(j))^-1D^(j)的最大特征根，C′_j为所对应的特征向量，j＝1、2、...、10。

第302步：电脑根据输入的检材和样本发音人的语音特征参量计算得到特征根λ_j和费歇判别函数：

y＝C_j′X，j＝1、2、...、10；计算临界值

y = \frac{1}{2} [\overset{&OverBar;}{y} {(A)}^{(j)} + \overset{&OverBar;}{y} {(B)}^{(j)}],

其中 y(A)^(j)和 y(B)^(j)分别为样本发音人A和B的样本判别函数值的均值。

第402步：计算检材发音人属于A和B两样本发音人的隶属度为：

L_{A}^{(j)} = \frac{| Y^{(j)} - \overset{&OverBar;}{y} {(B)}^{(j)} |}{| \overset{&OverBar;}{y} {(B)}^{(j)} - \overset{&OverBar;}{y} {(A)}^{(j)} |},

L_{B}^{(j)} = \frac{| Y^{(j)} - \overset{&OverBar;}{y} {(A)}^{(j)} |}{| \overset{&OverBar;}{y} {(B)}^{(j)} - \overset{&OverBar;}{y} {(A)}^{(j)} |},

j＝1、2、...、10

第502步：计算综合隶属度

L_{A} = Σ_{j = 1}^{10} λ_{j} L_{A}^{(j)},

L_{B} = Σ_{j = 1}^{10} λ_{j} L_{B}^{(j)},

第6步：根据样本发音人的综合隶属度电脑自动进行判别：

当检材发音人属于某一样本发音人的综合隶属度≥70％时，可以认定检材语音发自该样本发音人；

当检材发音人属于某一样本发音人的综合隶属度≥50％，但＜70％时，倾向认定检材语音发自该样本发音人；

其他情况，不能判定。

在进行声纹鉴定的实际工作中，若一次鉴定出现倾向认定或不能判定时则应加测或重测，或结合语音听辩及语图观测进行综合判断。

通过数万人次的抽样测试，对男性判断应用马氏距离数学模型，实验结果正判率在98％以上；对女性判断应用费歇判别数学模型，在费歇判别数学模型中引入模糊数学中的隶属度概念，实验正判率为93.5％。应用本发明进行声纹鉴定时，结合语音听辩、语音特征的语图观测，实验结果的综合正判率为100。

Claims

1、一种广州话声纹鉴定的方法，该方法包括下列步骤：

A、从检材语音中选出K个音节，用语图仪分别测定各音节的P项语音特征参量值；

B、选定M个样本发音人，每人对所述的K个音节各重复发音n次，要求n＞P，用语图仪分别测定各人各次发各音节的所述P项语音特征参量值；

C、对于男性样本发音人，电脑程序应用马氏距离模型对检材发音人和样本发音人进行同一人的判别；

D、对于女性样本发音人，电脑程序应用引进了模糊数学概念的费歇模型对检材发音人和样本发音人进行同一人的判别。

2、如权利要求1所述的声纹鉴定方法，其特征在于：所述的从检材语音中选出的音节个数K为10个音节。

3、如权利要求2所述的声纹鉴定方法，其特征在于：所述对男性发音人应用马氏距离模型判别方法的步骤包括：

A.测量数据

重复发音7次，测定各音节的4项特征参量：第2共振峰频率值F₂、第3共振峰频率值F₃、第4共振峰频率值F₄、第1共振峰的振幅值L₁、第2共振峰的振幅值L₂，利用F₂、F₃、F₄、L₁-L₂作为模型参量，记：

样本发音人语音特征参量值：

X_{t}^{(j, m)} = {(x_{t 1}^{(j, m)}, x_{t 2}^{(j, m)}, x_{t 3}^{(j, m)}, x_{t 4}^{(j, m)})}^{'},

t＝1、2、…7，j＝1、2、…、10，m＝1、2、…、M；

检材发音人语音特征参量值：

Y^{(j)} = {(y_{1}^{(j)}, y_{2}^{(j)}, y_{3}^{(j)}, y_{4}^{(j)})}^{'},

j＝1、2、…、10；

B.计算马氏距离

对每个音节，分别计算检材发音人的语音特征参量值到各样本发音人均值向量之间的马氏距离MD^(m)：

MD^(m)＝(Y^(j)- X^(m))′(S^(m))^-1(Y^(j)- X^(m))，m＝1、2、…、M，j＝1、2、…、10式中 X^(m)为均值向量，S^(m)为以均值向量为中心的离差矩阵。

C.判断最可疑者

对每个音节，找出各样本发音人中MD⁽¹⁾、MD⁽²⁾、…MD^(M)的最小者假定为MD^(m)，则检验MD^(m)是否满足：

{MD}^{(m)} \leq \frac{n + 1}{n (n - 1)} χ_{p}^{2} (α) .

如果满足，则判定该发音人为最可疑者。

D.认定

(3)其余情况，不能判定。

4、如权利要求2所述的声纹鉴定方法，其特征在于：所述对女性发音人引进了模糊数学概念的费歇模型判别方法的步骤包括：

A.测量数据

重复发音次数7，须测定的语音特征参量值项数P为5项，即测定音节的第1共振峰频率值、第2共振峰频率值、第3共振峰频率值、第4共振峰频率值、第1共振峰的振幅值和第2共振峰的振幅值，利用F₁、F₂、F₃、F₄、L₁-L₂作为模型参量，记：

样本发音人语音特征参量值：

U_{t}^{(j, m)} = {(u_{t 1}^{(j, m)}, u_{t 2}^{(j, m)}, u_{t 3}^{(j, m)}, u_{t 4}^{(j)} u_{t 5}^{(j, m)})}^{'},

t＝1、2、…7，j＝1、2、…、10，m＝1、2、…、M；

检材发音人语音特征参量值：

V^{(j)} = {(v_{1}^{(j)}, v_{2}^{(j)}, v_{3}^{(j)}, v_{4}^{(j)}, v_{5}^{(j)})}^{'},

j＝1、2、…、10；

B.计算判别函数

y＝C′_jX，j＝1、2、…、10；

其中C′为特征向量，X为语音特征参量。

C.计算综合隶属度

L_{m} = Σ_{j = 1}^{10} λ_{j} L_{m}^{(j)}, j = 1,2, . . ., 10, m = 1, 2, . . ., M

L_{A}^{(j)} = \frac{| Y^{(j)} - \overset{&OverBar;}{y} {(B)}^{(j)} |}{| \overset{&OverBar;}{y} {(B)}^{(j)} - \overset{&OverBar;}{y} {(A)}^{(j)} |}, L_{B}^{(j)} = \frac{| Y^{(j)} - \overset{&OverBar;}{y} {(A)}^{(j)} |}{| \overset{&OverBar;}{y} {(B)}^{(j)} - \overset{&OverBar;}{y} {(A)}^{(j)} |}

D.判定

(3)其他情况，不能判定。