CN111489745A

CN111489745A - 一种应用于人工智能的汉语语音识别系统

Info

Publication number: CN111489745A
Application number: CN201910078666.1A
Authority: CN
Inventors: 裘俊
Original assignee: Shanghai Feibi Culture Media Co ltd
Current assignee: Shanghai Feibi Culture Media Co ltd
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2020-08-04

Abstract

本发明涉及语音识别技术领域，提供一种应用于人工智能的汉语语音识别系统，所述语音识别系统对语音信号处理包括以下操作步骤：步骤1：预滤波处理；步骤2：特征提取：将预滤波处理后的wav格式语音信号通过梅尔倒频谱算法转换为神经网络需要的二维频谱图像信号；步骤3：获得学模型；步骤4：解码：对声学模型的输出中连续相同的符号进行合并，并去除静音分隔标记符，获得语音拼音符号序列；步骤5：使用统计语言模型，将拼音转换为最终的识别文本并输出本发明旨在提供一种运算速度快、识别准确的汉语智能语音识别系统。

Description

一种应用于人工智能的汉语语音识别系统

技术领域

本发明涉及语音识别技术领域，具体涉及一种应用于人工智能的汉语语音识别系统。

背景技术

语音信号处理是目前发展最为迅速的信息科学研究领域中的一个，是目前极为活跃和热门的研究领域，其研究成果具有重要的学术及应用价值。语音信号处理的研究，对于机器语言、语音识别、语音合成等领域都具有很大的意义。

近年来，深度学习在人工智能领域兴起，其对语音识别也产生了深远影响，深层的神经网络逐步替代了原来的GMM-HMM模型。在人类的交流和知识传播中，大约70％的信息是来自于语音。未来，语音识别将必然成为智能生活里重要的一部分，它可以为语音助手、语音输入等提供必不可少的基础，这将会成为一种新的人机交互方式。因此，我们需要让机器听懂人的声音。

发明内容

解决的技术问题

针对现有技术的不足，本发明提供了一种应用于人工智能的汉语语音识别系统，旨在提供一种运算速度快、识别准确的汉语智能语音识别系统。

技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

一种应用于人工智能的汉语语音识别系统，所述语音识别系统对语音信号处理包括以下操作步骤：

步骤1：预滤波处理：用于抑制电源工频干扰和防止混叠干扰；

步骤2：特征提取：将预滤波处理后的wav格式语音信号通过梅尔倒频谱算法转换为神经网络需要的二维频谱图像信号；

步骤3：声学模型：基于TensorFlow框架搭建，采用基于CNN的深层的卷积神经网络作为网络模型，并通过语音数据进行训练获得，输入是特征向量，输出为音素信息；

步骤4：解码：对声学模型的输出中连续相同的符号进行合并，并去除静音分隔标记符，获得语音拼音符号序列；

步骤5：使用统计语言模型，将拼音转换为最终的识别文本并输出。

更进一步地，所述语音识别系统的客户端分为UWP客户端和WPF客户端，源码均需要使用VS2017来开发和编译，使用C#和XAML编写。

更进一步地，所述客户端引入arm指令集，做多指令集优化，加速运算，对于耗时的运算采用多线程并发处理。

更进一步地，所述客户端可选取人声频段，并剔除非人声频段减少冗余计算；同时具备静音检测功能，减少不必要的时间片段。

更进一步地，步骤2中所述的梅尔倒频谱算法包括如下操作步骤：

输入声音文件，解析成原始的声音数据(时域信号)；

通过短时傅里叶变换，加窗分帧将时域信号转换为频域信号；

通过梅尔频谱变换，将频率转换成人耳能感知的线性关系；

采用DCT变换将直流信号分量和正弦信号分量分离；

提取声音频谱特征向量，并将向量转换为图像。

更进一步地，所述语音识别系统设有增大型训练语料库，所述训练语料库可自主选取不同的语料库适应不同的说话场景。

有益效果

本发明提供了一种应用于人工智能的汉语语音识别系统，与现有公知技术相比，本发明的具有如下有益效果：

本发明的语音识别系统采用采用基于CNN的深层的卷积神经网络作为网络模型，并采用梅尔倒频谱算法将语音文件直接转换为语谱图像作为网络模型的输入，在输出端通过解码处理，实现整个模型的端到端训练，将声音波形信号直接转录为中文普通话拼音序列。在语言模型上采用马尔可夫模型，同时客户端通过指令集优化和算法加速提高人声语音识别的处理速度，较现有技术的语音识别系统具有更快的运算处理速度和准确的语音、语境识别能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的语音识别系统流程示意图；

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：

本实施例的一种应用于人工智能的汉语语音识别系统，参照图1：语音识别系统对语音信号处理包括以下操作步骤：

语音识别系统的客户端分为UWP客户端和WPF客户端，源码均需要使用VS2017来开发和编译，使用C#和XAML编写。

客户端引入arm指令集，做多指令集优化，加速运算，对于耗时的运算采用多线程并发处理。

客户端可选取人声频段，并剔除非人声频段减少冗余计算；同时具备静音检测功能，减少不必要的时间片段。

步骤2中的梅尔倒频谱算法包括如下操作步骤：输入声音文件，解析成原始的声音数据(时域信号)；通过短时傅里叶变换，加窗分帧将时域信号转换为频域信号；通过梅尔频谱变换，将频率转换成人耳能感知的线性关系；采用DCT变换将直流信号分量和正弦信号分量分离；提取声音频谱特征向量，并将向量转换为图像。

其中加窗分帧是为了满足语音在时域的短时平稳特性，梅尔频谱变换是为了将人耳对频率的感知度转化为线性关系，倒谱分析的重点是理解傅里叶变换，任何信号都可以通过傅里叶变换而分解成一个直流分量和若干个正弦信号的和。

语音识别系统设有增大型训练语料库，训练语料库可自主选取不同的语料库适应不同的说话场景；如果你应用与新闻，那么最好直接选取新闻语料，应用于搜索引擎，就最好直接选取普通互联网语料，如果是语音识别，那么普通人说话的场景下的语料更合适些。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种应用于人工智能的汉语语音识别系统，其特征在于，所述语音识别系统对语音信号处理包括以下操作步骤：

2.根据权利要求1所述的一种应用于人工智能的汉语语音识别系统，其特征在于，所述语音识别系统的客户端分为UWP客户端和WPF客户端，源码均需要使用VS2017来开发和编译，使用C#和XAML编写。

3.根据权利要求2所述的一种应用于人工智能的汉语语音识别系统，其特征在于，所述客户端引入arm指令集，做多指令集优化，加速运算，对于耗时的运算采用多线程并发处理。

4.根据权利要求2所述的一种应用于人工智能的汉语语音识别系统，其特征在于，所述客户端可选取人声频段，并剔除非人声频段减少冗余计算；同时具备静音检测功能，减少不必要的时间片段。

5.根据权利要求1所述的一种应用于人工智能的汉语语音识别系统，其特征在于，步骤2中所述的梅尔倒频谱算法包括如下操作步骤：

输入声音文件，解析成原始的声音数据(时域信号)；

通过梅尔频谱变换，将频率转换成人耳能感知的线性关系；

采用DCT变换将直流信号分量和正弦信号分量分离；

提取声音频谱特征向量，并将向量转换为图像。

6.根据权利要求1所述的一种应用于人工智能的汉语语音识别系统，其特征在于，所述语音识别系统设有增大型训练语料库，所述训练语料库可自主选取不同的语料库适应不同的说话场景。