CN108717854A

CN108717854A - 基于优化gfcc特征参数的说话人识别方法

Info

Publication number: CN108717854A
Application number: CN201810434414.3A
Authority: CN
Inventors: 兰朝凤; 韩旭
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2018-05-08
Filing date: 2018-05-08
Publication date: 2018-10-30

Abstract

本发明公开了基于优化GFCC特征参数的说话人识别方法，它涉及语音识别技术领域；它的方法如下：将语音识别器与安装在计算机内部的降噪处理模块连接，同时降噪处理模块与字符串记模块连接，根据输入的声音经过降噪处理模块进行初处理，同时处理后，通过GFCC特征参数进行识别并采用小波包进行优化，然后使用深度学习进行建模；根据建模后在人说话后进行数据采集，并产生相关的音标、单词、声调以及语速，其经过分析模块进行分析，将分析结果进行输出并存储；将数据进行汇总并进行标记，其标记出相同的部分，将相同的部分进行筛选、优化；本发明能提高处理数据速度与识别率，节省时间，同时数据库全面；在使用时能实现快速筛选与过滤，效率高。

Description

基于优化GFCC特征参数的说话人识别方法

技术领域

本发明属于语音识别技术领域，具体涉及基于优化GFCC特征参数的说话人识别方法。

背景技术

语音是指人类通过发音器官发出来的、具有一定意义的、目的是用来进行社会交际的声音。在语言的形、音、义三个基本属性当中，语音是第一属性，人类的语言首先是以语音的形式形成，世界上有无文字的语言，但没有无语音的语言，语音在语言中起决定性的支撑作用。

语音即语言的声音，是语言符号系统的载体。它由人的发音器官发出，负载着一定的语言意义。语言依靠语音实现它的社会功能。语言是音义结合的符号系统，语言的声音和语言的意义是紧密联系着的，因此，语言虽是一种声音，但又与一般的声音有着本质的区别。语音是人类发音器官发出的具有区别意义功能的声音，不能把语音看成纯粹的自然物质；语音是最直接地记录思维活动的符号体系，是语言交际工具的声音形式。

语音识别是通过用机器识别用户声音命令来实现人机交互的关键技术，其可以显著改进人机交互的方式以使得用户可以在说出命令的同时完成更多任务。语音识别是通过在线或离线训练得到的语音识别引擎来实现的。语音识别过程通常可以分为训练阶段和识别阶段。在训练阶段中，根据语音识别引擎所基于的数学模型，从训练数据中统计地得到声学模型（acoustic model，AM）和词汇表（lexicon）。在识别阶段中，语音识别引擎使用声学模型和词汇表对输入的语音进行处理，得到语音识别结果。例如，从输入声音的声波图进行特征提取以获得特征向量，然后根据声学模型得到音素序列，最后从词汇表中定位与音素序列匹配度较高的单词，甚至是句子。

现有的语音识别时其速度慢，且不能实现优化，导致数据库不全的现象。

发明内容

为解决上述背景技术中所提到的现有的语音识别时其速度慢，且不能实现优化，导致数据库不全的现象的问题；本发明的目的在于提供基于优化GFCC特征参数的说话人识别方法。

本发明的基于优化GFCC特征参数的说话人识别方法，它的方法如下：

步骤一：将语音识别器与安装在计算机内部的降噪处理模块连接，同时降噪处理模块与字符串记模块连接，其计算机内安装有处理器、存储器、输出器；

步骤二：根据输入的声音经过降噪处理模块进行初处理，同时处理后，通过GFCC特征参数进行识别并采用小波包进行优化，然后使用深度学习进行建模；

步骤三：根据建模后在人说话后进行数据采集，并产生相关的音标、单词、声调以及语速，其经过分析模块进行分析，将分析结果进行输出并存储；

步骤四：将数据进行汇总并进行标记，其标记出相同的部分，将相同的部分进行筛选、优化；

步骤五：将优化与筛选的数据进行整合成数据库，并经过验证后存储数据。

作为优选，所述步骤四中标记的方法是通过单独的标记方式，同时在单独标记时通过标记器进行标记。

作为优选，所述字符串记模块将语音识别器生成识别结果的过程中生成的字符。

作为优选，所述降噪处理模块采用二次降噪方式进行降噪。

与现有技术相比，本发明的有益效果为：

一、能提高处理数据速度与识别率，节省时间，同时数据库全面；

二、在使用时能实现快速筛选与过滤，效率高。

具体实施方式：

本具体实施方式采用以下技术方案：它的方法如下：

进一步的，所述步骤四中标记的方法是通过单独的标记方式，同时在单独标记时通过标记器进行标记。

进一步的，所述字符串记模块将语音识别器生成识别结果的过程中生成的字符。

进一步的，所述降噪处理模块采用二次降噪方式进行降噪。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.基于优化GFCC特征参数的说话人识别方法，其特征在于：它的方法如下：

2.根据权利要求1所述的基于优化GFCC特征参数的说话人识别方法，其特征在于：所述步骤四中标记的方法是通过单独的标记方式，同时在单独标记时通过标记器进行标记。

3.根据权利要求1所述的基于优化GFCC特征参数的说话人识别方法，其特征在于：所述字符串记模块将语音识别器生成识别结果的过程中生成的字符。

4.根据权利要求1所述的基于优化GFCC特征参数的说话人识别方法，其特征在于：所述降噪处理模块采用二次降噪方式进行降噪。