CN106340299A

CN106340299A - 一种复杂环境下的说话人识别系统及方法

Info

Publication number: CN106340299A
Application number: CN201610839912.7A
Authority: CN
Inventors: 谢敏
Original assignee: Chengdu Chuanghui Keda Technology Co Ltd
Current assignee: Chengdu Chuanghui Keda Technology Co Ltd
Priority date: 2016-09-21
Filing date: 2016-09-21
Publication date: 2017-01-18

Abstract

本发明提供了一种复杂环境下的说话人识别系统及方法，涉及导航领域。其特征在于，所述系统包括：训练语音预处理装置；所述训练语音预处理装置信号连接于训练语音特征提取单元；所述训练语音特征提取单元信号连接于训练建模单元；所述训练建模单元信号连接于模型参数库；系统还包括：测试语音预处理装置；所述测试语音预处理装置信号连接于测试语音特征提取单元；所述测试语音特征提取单元信号连接于模式匹配单元；所述模式匹配单元分别信号连接于判决输出单元和模型参数库。本发明具有识别准确、成本低、智能化和运行效率高等优点。

Description

一种复杂环境下的说话人识别系统及方法

技术领域

本发明涉及生物识别领域，特别涉及一种复杂环境下的说话人识别系统及方法。

背景技术

随着网络信息化技术的迅猛发展，身份验证的数字化、隐性化、便捷化显得越来越重要。语言作为人类的自然属性之一，说话人语言具有各自的生物特征，这使得通过语音分析进行说话人识别（Speaker Recognition, RS）成为可能。人的语音可以非常自然的产生，训练和识别时并不需要特别的输入设备，诸如个人电脑普遍配置的麦克风和到处都有的电话都可以作为输入设备，因此采用说话人语音进行说话人识别和其他传统的生物识别技术相比，具有更为简便、准确、经济及可扩展性良好等众多优势。

发明内容

鉴于此，本发明提供了一种复杂环境下的说话人识别系统及方法，本发明具有识别准确、成本低、智能化和运行效率高等优点。

本发明采用的技术方案如下：

一种复杂环境下的说话人识别系统，其特征在于，所述系统包括：训练语音预处理装置；所述训练语音预处理装置信号连接于训练语音特征提取单元；所述训练语音特征提取单元信号连接于训练建模单元；所述训练建模单元信号连接于模型参数库；系统还包括：测试语音预处理装置；所述测试语音预处理装置信号连接于测试语音特征提取单元；所述测试语音特征提取单元信号连接于模式匹配单元；所述模式匹配单元分别信号连接于判决输出单元和模型参数库。

所述训练语音预处理装置包括：语音采集单元、预加重单元、分帧加窗单元和端点检测单元；所述语音采集单元信号连接于预加重单元，用于采集语音信号，将该模拟的语音信号转换为数字语音信号，将转换后的信号发送到预加重单元；所述预加重单元信号连接于分帧加窗单元，用于对接收到的数字语音信号进行预加重处理，将处理后的信号发送至分帧加窗单元；所述分帧加窗处理单元信号连接于端点检测单元，用于对接收到的信号进行端点检测，将检测处理后的信号发送至训练语音特征提取单元。

所述训练语音特征提取单元包括：DFT变换模块和特征矢量提取模块；所述DFT变换模块信号连接于特征量提取模块，用于对接收到的信号进行DFT变换，得到DFT变换后的信号，将信号发送至特征矢量提取模块；所述特征适量提取模块信号连接于训练建模单元，用于对接收到的信号进行特征矢量提取，将提取结果发送到训练建模单元。

所述训练建模单元包括：闪存和模型建立单元；所述模型建立单元信号连接于闪存，用于对特征量提取模块发送过来的信号进行特征量提取，将提取后的特征量发送到闪存中进行暂存，当提取的特征量数量达到设定的阈值时，对闪存中存储的特征量求取平均值，将平均值发送至模型参数库中进行存储。

所述模式匹配单元包括：阈值设定单元和距离度量计算单元；所述阈值设定单元，信号连接于判决输出单元，用于设定判决阈值，将设定的阈值发送给判决输出单元；所述距离度量计算单元，用于计算测试语音的特征量和模型参数库中的特征量的距离度量，将计算得到的距离度量发送给判决输出单元。

一种基于复杂语音下的说话人识别系统的方法，其特征在于，所述方法包括以下步骤：

步骤1：系统启动，系统初始化；

步骤2：训练语音预处理装置采集到用于建立匹配模板的训练语音信号，对采集到的训练语音信号进行预加重、分帧加窗和端点检测处理，将处理后的结果发送给训练语音特征提取单元；

步骤3：训练语音特征提取单元对接收到的信号进行特征矢量提取，将得到的结果发送给训练建模单元；

步骤4：训练建模单元对接收到的特征矢量进行特征量求取，根据求取的特征量监理模型参数库；

步骤5：测试语音预处理装置在有多种声音信号环境下采集到说话人的语音信号，将采集到的语音信号进行预加重、分帧加窗和端点检测处理，将处理后的结果发送给测试语音特征提取单元；

步骤6：测试语音特征提取单元对接收到的信号进行特征矢量提取，将得到的结果发送给模式匹配单元；

步骤7：模式匹配单元对接收到的信号进行模式匹配，得到距离度量，将距离度量发送给判决输出单元；

步骤8：判决输出单元对接收到的信号进行判定，根据判定结果得出识别结果。

所述训练建模单元对接收到的信号进行预加重处理的方法为：采用如下公式对接收到的信号进行变换处理：，对语音信号的高频部分加以提升，使信号的频谱变得平坦。

所述分帧加窗单元对接收到的信号进行分帧加窗的方法包括以下步骤：

步骤1：对接受到的信号进行采样频率为：22020Hz的采样处理；采样后的帧长为256，帧移为128；

步骤2：分帧后，对每帧信号进行加窗处理，处理公式如下：

。

采用以上技术方案，本发明产生了以下有益效果：

1：成本低：本发明的说话人识别系统各个部分不同于常见的语音识别系统，主要过程在于对语音信号的预处理；一般的语音识别系统主要是在语音的匹配和模式建立上投入较大。相较于这样的系统，本发明的系统无需性能强大的处理器对接收到的信号进行处理，对于语音的匹配和判断，采用一般的单片机就能完成。而语音的预处理相较于语音的匹配处理器来说成本较低，整体上降低了整个系统的成本。

2、运行效率高：本发明对于模式建立的部分和识别的部分采用了独立的预处理装置和特征提取单元，提升了系统处理的效率，还可以针对识别过程和训练建立过程中的不同进行不同的操作。

采用以上技术方案，本发明产生了以下有益效果：

3、识别准确：本发明的系统采用独特的预加重算法和分帧加窗算法，针对语音信号的不同，采用不同的频率进行处理，保证语音信号不会在处理的过程中失真，提升识别的准确性。

4、智能化：本发明的系统对于训练集的建立和语音信号的识别都采用自动识别，最大程度保证了系统的智能化。

附图说明

图1是本发明的一种复杂环境下的说话人识别系统及方法的系统结构示意图。

具体实施方式

本说明书中公开的所有特征，或公开的所有防跌倒方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

本说明书（包括任何附加权利要求、摘要）中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

本发明实施例1中提供了一种复杂环境下的说话人识别系统，系统结构如图1所示：

本发明实施例2中提供了一种复杂环境下的说话人识别系统的方法：

步骤1：系统启动，系统初始化；

步骤2：分帧后，对每帧信号进行加窗处理，处理公式如下：

。

本发明实施例3中提供了一种复杂环境下的说话人识别系统及方法，系统结构如图1所示：

步骤1：系统启动，系统初始化；

步骤2：分帧后，对每帧信号进行加窗处理，处理公式如下：

。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的防跌倒方法或过程的步骤或任何新的组合。

Claims

1.一种复杂环境下的说话人识别系统，其特征在于，所述系统包括：训练语音预处理装置；所述训练语音预处理装置信号连接于训练语音特征提取单元；所述训练语音特征提取单元信号连接于训练建模单元；所述训练建模单元信号连接于模型参数库；系统还包括：测试语音预处理装置；所述测试语音预处理装置信号连接于测试语音特征提取单元；所述测试语音特征提取单元信号连接于模式匹配单元；所述模式匹配单元分别信号连接于判决输出单元和模型参数库。

2.如权利要求1所述的复杂环境下的说话人识别系统，其特征在于，所述训练语音预处理装置包括：语音采集单元、预加重单元、分帧加窗单元和端点检测单元；所述语音采集单元信号连接于预加重单元，用于采集语音信号，将该模拟的语音信号转换为数字语音信号，将转换后的信号发送到预加重单元；所述预加重单元信号连接于分帧加窗单元，用于对接收到的数字语音信号进行预加重处理，将处理后的信号发送至分帧加窗单元；所述分帧加窗处理单元信号连接于端点检测单元，用于对接收到的信号进行端点检测，将检测处理后的信号发送至训练语音特征提取单元。

3.如权利要求1或2所述的复杂语音下的说话人识别系统，其特征在于，所述训练语音特征提取单元包括：DFT变换模块和特征矢量提取模块；所述DFT变换模块信号连接于特征量提取模块，用于对接收到的信号进行DFT变换，得到DFT变换后的信号，将信号发送至特征矢量提取模块；所述特征适量提取模块信号连接于训练建模单元，用于对接收到的信号进行特征矢量提取，将提取结果发送到训练建模单元。

4.如权利要求3所述的复杂语音下的说话人识别系统，其特征在于，所述训练建模单元包括：闪存和模型建立单元；所述模型建立单元信号连接于闪存，用于对特征量提取模块发送过来的信号进行特征量提取，将提取后的特征量发送到闪存中进行暂存，当提取的特征量数量达到设定的阈值时，对闪存中存储的特征量求取平均值，将平均值发送至模型参数库中进行存储。

5.如权利要求4所述的复杂语音下的说话人识别系统，其特征在于，所述模式匹配单元包括：阈值设定单元和距离度量计算单元；所述阈值设定单元，信号连接于判决输出单元，用于设定判决阈值，将设定的阈值发送给判决输出单元；所述距离度量计算单元，用于计算测试语音的特征量和模型参数库中的特征量的距离度量，将计算得到的距离度量发送给判决输出单元。

6.一种基于权利要去1至5之一所述的复杂语音下的说话人识别系统的方法，其特征在于，所述方法包括以下步骤：

步骤1：系统启动，系统初始化；

7.如权利要求6所述的复杂语音下的说话人识别方法，其特征在于，所述训练建模单元对接收到的信号进行预加重处理的方法为：采用如下公式对接收到的信号进行变换处理：，对语音信号的高频部分加以提升，使信号的频谱变得平坦。

8.如权利要求7所述的复杂语音下的说话人识别方法，其特征在于，所述分帧加窗单元对接收到的信号进行分帧加窗的方法包括以下步骤：

步骤2：分帧后，对每帧信号进行加窗处理，处理公式如下：

。