CN109192197A

CN109192197A - 基于互联网的大数据语音识别系统

Info

Publication number: CN109192197A
Application number: CN201811086883.7A
Authority: CN
Inventors: 胡瑞
Original assignee: Hubei Functional Technology Co Ltd
Current assignee: Hubei Functional Technology Co Ltd
Priority date: 2018-09-18
Filing date: 2018-09-18
Publication date: 2019-01-11

Abstract

本发明提出了一种基于互联网的大数据语音识别系统，包括声学词典模块、特征分类模块、特征提取模块、声学训练模块、语音识别模块和识别输出模块；所述特征分类模块的输出端与特征提取模块的输入端信号连接，特征提取模块的输出端与声学训练模块的输入端信号连接，声学训练模块的输出端和声学词典模块的输出端均与语音识别模块的输入端信号连接，语音识别模块的输出端与识别输出模块的输入端信号连接。通过互联网大数据来获取标准词或者因素以及自然语言中的词序，在构建词典、语法方面具有数据数量上的优势，可以节省大量的系统训练时间；系统事先将语言内容进行过领域，并通过已识别的内容作为再次识别的基础，修正效率高。

Description

基于互联网的大数据语音识别系统

技术领域

本发明涉及大数据的数据分析和挖掘领域，尤其涉及一种基于互联网的大数据语音识别系统。

背景技术

大数据分析是指对规模巨大的数据进行分析，大数据具有数据量大、速度快、类型多、价值高等特点。伴随着大数据的普及，对应的数据管理、数据安全、数据分析、数据挖掘等深度利用场景成为行业热点。随着大数据的应用越来越广泛，从海量大数据中找出规律，提炼具有价值的关键信息，变得越来越重要。随着互联网、移动网络的高速发展，网络带宽瓶颈得到了有效缓解，传输速率和可靠性得到了极大提高，基于大数据进行高效、实时数据分析提炼的网络条件已经成熟。

近年来，语音识别技术取得了显著的进步，在很多日常场景中，语音智能识别替代其他输入，给人们的生活带来了极大的便利。但是，语音识别的辨识率总体还不高，个人情绪、语调、口音、语速、方言等发音特征和发音习惯都会影响语音的准确识别。正是由于语音识别率不理想，语音识别替代其他信息输入还有很长的路要走。

发明内容

有鉴于此，本发明提出了一种数据来源广泛、能高效提取声学特征、语音识别比较可靠的基于互联网的大数据语音识别系统。

本发明的技术方案是这样实现的：本发明提供了一种基于互联网的大数据语音识别系统，包括声学词典模块、特征分类模块、特征提取模块、声学训练模块、语音识别模块和识别输出模块；所述特征分类模块的输出端与特征提取模块的输入端信号连接，特征提取模块的输出端与声学训练模块的输入端信号连接，声学训练模块的输出端和声学词典模块的输出端均与语音识别模块的输入端信号连接，语音识别模块的输出端与识别输出模块的输入端信号连接；

所述声学词典模块是从大数据中搜集标准词或者因素以及自然语言中的词序，构建语音识别训练用的标准信息，形成声学词典；特征分类模块从大数据中获取需要识别的语音信息，按照语音上下文的内容进行领域分类，；经特征分类模块进行领域分类的语音信息输出至特征提取模块，特征提取模块对分类后的语音信息进行降噪、语速调整和分段处理，然后将处理后的信息输出至语音识别模块，语音识别模块内预设有声学模型，声学模型结合声学词典对降噪、语速调整和分段处理后的语音信息进行匹配和识别，识别出的结果作为基础进行再次识别和纠错，直到需要识别的语音信息完全被识别后，语音识别模块将识别后的语音信息发送至识别输出模块输出。

在以上技术方案的基础上，优选的，所述特征提取模块对分类后的语音信息进行降噪，采用的高斯低通滤波算法。

在以上技术方案的基础上，优选的，所述声学词典模块形成声学词典采用训练构建，其构建过程为：

假设A＝(m₁,m₂,...m_n)m_n为词的最小组成元素，A为词拆除词素的结果，L(D_w,θ)为损失函数，D_w为供训练用的词的列表，θ为模型参数，通过损失函数来确定模型参数θ，定义最大后验概率θ_MAX如下：

θ_MAX＝arg maxp(θ|D_w)＝arg maxp(θ)p(D_w|θ)

其中p(θ)为最大化模型先验，p(D_w|θ)为数据似然概率，对上式换算得到：

L(D_w,θ)＝-logp(θ)-p(D_w|θ)

通过对瞬时函数L(D_w,θ)取最小值得到模型参数θ，通过上述训练，构建词的最小组成元素A的发音信息。

在以上技术方案的基础上，优选的，所述语音识别模块内设的声学模型，定义为：给定语音观测序列x，x对应的词的序列的公式为：

w是观测序列x对应的所有词的序列合集，p(w|x)为观测序列x对应的词的概率，W为词集合中发生最大概率的词序列；根据贝叶斯公式：

上式可转换为：

上式中，p(x|w)为声学模型，p(w)为词序列在自然语言中的先验概率。

在以上技术方案的基础上，优选的，所述语音识别模块通过HMM-GMM模型进行语音识别。

本发明提出了一种基于互联网的大数据语音识别系统，该系统相对于现有技术具有以下有益效果：

(1)通过互联网大数据来获取标准词或者因素以及自然语言中的词序，在构建词典、语法方面具有数据数量上的优势，可以节省大量的系统训练时间；

(2)系统事先将语言内容进行过领域分类，对行业、地域、方言、习惯都进行细分，待识别的语音信息需要对比的数据范围大大缩小；

(3)系统通过已识别的内容作为再次识别的基础，修正效率高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于互联网的大数据语音识别系统的模块控制图。

具体实施方式

下面将结合本发明实施方式，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

图1为本发明基于互联网的用户行为大数据分析系统的模块控制图。如图1所示，本发明提供了一种基于互联网的大数据语音识别系统，包括声学词典模块、特征分类模块、特征提取模块、声学训练模块、语音识别模块和识别输出模块。特征分类模块的输出端与特征提取模块的输入端信号连接，特征提取模块的输出端与声学训练模块的输入端信号连接，声学训练模块的输出端和声学词典模块的输出端均与语音识别模块的输入端信号连接，语音识别模块的输出端与识别输出模块的输入端信号连接。

声学词典模块是从大数据中搜集标准词或者因素以及自然语言中的词序，构建语音识别训练用的标准信息，形成声学词典；特征分类模块从大数据中获取需要识别的语音信息，按照语音上下文的内容进行领域分类，；经特征分类模块进行领域分类的语音信息输出至特征提取模块，特征提取模块对分类后的语音信息进行降噪、语速调整和分段处理，此处降噪采用高斯低通滤波算法，分段处理是将语音信息分割为25ms一帧的片段，相邻帧有10ms的重叠部分。然后将处理后的信息输出至语音识别模块，语音识别模块内预设有声学模型，声学模型结合声学词典对降噪、语速调整和分段处理后的语音信息进行匹配和识别，语音识别模块通过HMM-GMM模型进行语音识别。识别出的结果作为基础进行再次识别和纠错，直到需要识别的语音信息完全被识别后，语音识别模块将识别后的语音信息发送至识别输出模块输出。

上述声学词典模块形成声学词典采用训练构建，其构建过程为：

θ_MAX＝argmaxp(θ|D_w)＝argmaxp(θ)p(D_w|θ)

L(D_w,θ)＝-logp(θ)-p(D_w|θ)

上述语音识别模块内设的声学模型，定义为：给定语音观测序列x，x对应的词的序列的公式为：

上式可转换为：

上式中，p(x|w)为声学模型，p(w)为词序列在自然语言中的先验概率，即常用语法中的词序。

本发明提出的基于互联网的大数据语音识别系统系统，通过互联网大数据来获取标准词或者因素以及自然语言中的词序，在构建词典、语法方面具有数据数量上的优势，可以节省大量的系统训练时间；系统事先将语言内容进行过领域分类，对行业、地域、方言、习惯都有细分，待识别的语音信息需要对比的数据范围大大缩小；系统通过已识别的内容作为再次识别的基础，修正效率高。本发明能很好的改善现有语音识别技术中存在的识别率不够理想的问题，具有很好的识别效果。

以上所述仅为本发明的较佳实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于互联网的大数据语音识别系统，包括声学词典模块、特征分类模块、特征提取模块、声学训练模块、语音识别模块和识别输出模块；其特征在于：所述特征分类模块的输出端与特征提取模块的输入端信号连接，特征提取模块的输出端与声学训练模块的输入端信号连接，声学训练模块的输出端和声学词典模块的输出端均与语音识别模块的输入端信号连接，语音识别模块的输出端与识别输出模块的输入端信号连接；

所述声学词典模块是从大数据中搜集标准词或者因素以及自然语言中的词序，构建语音识别训练用的标准信息，形成声学词典；特征分类模块从大数据中获取需要识别的语音信息，按照语音上下文的内容进行领域分类；经特征分类模块进行领域分类的语音信息输出至特征提取模块，特征提取模块对分类后的语音信息进行降噪、语速调整和分段处理，然后将处理后的信息输出至语音识别模块，语音识别模块内预设有声学模型，声学模型结合声学词典对降噪、语速调整和分段处理后的语音信息进行匹配和识别，识别出的结果作为基础进行再次识别和纠错，直到需要识别的语音信息完全被识别后，语音识别模块将识别后的语音信息发送至识别输出模块输出。

2.如权利要求1所述的基于互联网的大数据语音识别系统，其特征在于：所述特征提取模块对分类后的语音信息进行降噪，采用的高斯低通滤波算法。

3.如权利要求1所述的基于互联网的大数据语音识别系统，其特征在于：所述声学词典模块形成声学词典采用训练构建，其构建过程为：

θ_MAX＝arg max p(θ|D_w)＝arg max p(θ)p(D_w|θ)

L(D_w,θ)＝-log p(θ)-p(D_w|θ)

4.如权利要求1所述的基于互联网的大数据语音识别系统，其特征在于：所述语音识别模块内设的声学模型，定义为：给定语音观测序列x，x对应的词的序列的公式为：

上式可转换为：

5.如权利要求1所述的基于互联网的大数据语音识别系统，其特征在于：所述语音识别模块通过HMM-GMM模型进行语音识别。