CN113470652A

CN113470652A - 一种基于工业互联网的语音识别及处理方法

Info

Publication number: CN113470652A
Application number: CN202110733947.3A
Authority: CN
Inventors: 张永文; 杨磊; 季东滨
Original assignee: Shandong Ever Grand Intelligent Technology Co ltd
Current assignee: Shandong Ever Grand Intelligent Technology Co ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-10-01

Abstract

本发明公开了一种基于工业互联网的语音识别及处理方法，涉及语音识别技术领域。本发明包括如下步骤：构建工业互联网相应的文本数据库；获取待识别语音数据；对待识别语音数据进行预处理；对处理后的语音数据进行特征提取；将待识别的语音特征同声学模型进行匹配比较得到识别结果；将识别结果输入语言模型进行语言处理，获取语法和语义分析结果。本发明通过构建工业互联网文本数据库，将待识别的语音数据进行预处理和特征提取，将提取的特征与声学模型进行匹配，获取识别结果并输入语音模型分析得到语法和语义分析结，能够提高语音识别的精准度，并排除杂音造成的干扰。

Description

一种基于工业互联网的语音识别及处理方法

技术领域

本发明属于语音识别技术领域，特别是涉及一种基于工业互联网的语音识别及处理方法。

背景技术

工业互联网是全球工业系统与高级计算、分析、感应技术以及互联网连接融合的一种结果。工业互联网的本质是通过开放的、全球化的工业级网络平台把设备、生产线、工厂、供应商、产品和客户紧密地连接和融合起来，高效共享工业经济中的各种要素资源，从而通过自动化、智能化的生产方式降低成本、增加效率，帮助制造业延长产业链，推动制造业转型发展。

随着当今人工智能的迅速发展，语音识别技术取得了较大的突破，在商业、军事、民用等方面语音识别都得到了广泛的运用。目前国内外已有许多对语音识别领域的研究和产品，如苹果手机的Siri，微软的Cortana，百度的智能音箱，科大讯飞的讯飞语音输入等产品。语音识别之所以得到空前重视，从根本上说，也就是源于语音识别所带来的简便性。在人工智能中，尤其重要的一点就是要让机器人知道人类要做什么，所以务必要将人的指令转化为计算机可以识别的代码数字，常见的方式有图像、动作、语音转换等。而语言就是最直接最简单的转换方式，但在工业互联网系统中，一般要将其在理想环境下训练成运用于复杂含噪环境中的语音识别系统，如何减轻异常语音识别文本对用户的干扰，成为业界需要解决的一个问题。

发明内容

本发明的目的在于提供一种基于工业互联网的语音识别及处理方法，通过构建工业互联网文本数据库，将待识别的语音数据进行预处理和特征提取，将提取的特征与声学模型进行匹配，获取识别结果并输入语音模型分析得到语法和语义分析结果，解决了现有的问题。

为解决上述技术问题，本发明是通过以下技术方案实现的：

本发明为一种基于工业互联网的语音识别及处理方法，包括如下步骤：

步骤S1：构建工业互联网相应的文本数据库；

步骤S2：获取待识别语音数据；

步骤S3：对待识别语音数据进行预处理；

步骤S4：对处理后的语音数据进行特征提取；

步骤S5：将待识别的语音特征同声学模型进行匹配比较得到识别结果；

步骤S6：将识别结果输入语言模型进行语言处理，获取语法和语义分析结果。

优选地，所述步骤S1中，文本数据库在数据上来源主要包括网络信息、平台信息和安全信息；所述文本数据库在数据上来源按照类型将器分别存储到磁盘的不同目录中，对相关信息进行提取，并将其存储到相应的关系数据表中；所述关系数据表对原始文件中的文本进行提取，并进行句子切分、符号转换、错误修正后，处理成纯文本，并存储到特定的文件中。

优选地，所述步骤S2中，对待识别语音数据进行语音识别，得到语音数据对应的语音识别结果，并将语音识别结果转换成对应的识别文本。

优选地，所述待识别语音数据还需要进行异常语音检测；所述异常语音检测包括依次获取语音数据中的待检测语音片段；根据语音识别结果计算待检测语音片段的后验概率和/或置信度；并基于验概率和/或置信度来确定待检测语音频段是否为异常语音。

优选地，所述步骤S3中，对待识别语音数据进行预处理的步骤如下：

步骤S31、时域分析：对原始语音信息报进行时域分析，获取原始语音信息中的有声段、无声端和浊音端；

步骤S32、端点检测：区分有声段、无声端和浊音端的信号来划分语音的开头和结尾；

步骤S33、预加重：预先添加与原始语音高频信号，通过叠加之后，原始语音信息在高频和低频端的能量相当；

步骤S34、去加重：在输出端，则做反向处理去加重；

步骤S35、分帧处理：对整段语音通过带通滤波器进行分帧处理切成多段；

步骤S36、加窗处理：对每段语音使用带通滤波器进行窗函数过滤处理；

步骤S37：重采样：限定采样器的采样频率为最高频率的5-8倍进行采样。

优选地，所述步骤S32中，采用双门眼检测法来计算门限能量的方式来判断语音端点，分别计算每个时刻的语音能量；所述语音能量的计算公式为：

；

式中，

为双门的门限，

为第i点的语音广义分贝值；

当能量大于门限阈值，则新生产的门限序列为1，反之则为0；获得门限序列后，将其点乘原始语音序列，得到有效语音序列。

优选地，所述步骤S36中，窗函数包括矩形窗、汉明窗和汉宁窗；

其中，矩形窗的计算公式如下：

；

汉明窗的计算公式如下：

；

汉宁窗的计算公式如下：

。

优选地，所述步骤S5中，声学模型内预先制定好分类判决规则，在根据判别规则完成模糊文本分类，并将分类结果迭加入知识库。

优选地，所述模糊文本分类的步骤如下：

步骤S51：对文本进行人工分类标注；

步骤S52：计算文本与训练文本的模糊集关联度；

步骤S53：根据步骤S51和步骤S52确定分类阈值，实现模糊分类；

步骤S54：计算分类的准确率和召回率。

本发明具有以下有益效果：

本发明通过构建工业互联网文本数据库，将待识别的语音数据进行预处理和特征提取，将提取的特征与声学模型进行匹配，获取识别结果并输入语音模型分析得到语法和语义分析结，能够提高语音识别的精准度，并排除杂音造成的干扰。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种基于工业互联网的语音识别及处理方法步骤图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，本发明为一种基于工业互联网的语音识别及处理方法，包括如下步骤：

步骤S1：构建工业互联网相应的文本数据库；

步骤S2：获取待识别语音数据；

步骤S3：对待识别语音数据进行预处理；

步骤S4：对处理后的语音数据进行特征提取；

其中，步骤S1中，文本数据库在数据上来源主要包括网络信息、平台信息和安全信息；文本数据库在数据上来源按照类型将器分别存储到磁盘的不同目录中，对相关信息进行提取，并将其存储到相应的关系数据表中；关系数据表对原始文件中的文本进行提取，并进行句子切分、符号转换、错误修正后，处理成纯文本，并存储到特定的文件中。在在构建文件数据库时，需要控制其数据冗余，也就是在数据库中进行文本添加时预防不同文件URI中出现相同的文档内容；对数据冗余的控制主要有两种方法，分别是基于URI的冗余控制与基于文件内容的。

其中，步骤S2中，对待识别语音数据进行语音识别，得到语音数据对应的语音识别结果，并将语音识别结果转换成对应的识别文本。

其中，待识别语音数据还需要进行异常语音检测；异常语音检测包括依次获取语音数据中的待检测语音片段；根据语音识别结果计算待检测语音片段的后验概率和/或置信度；并基于验概率和/或置信度来确定待检测语音频段是否为异常语音。

其中，步骤S3中，对待识别语音数据进行预处理的步骤如下：

步骤S32、端点检测：区分有声段、无声端和浊音端的信号来划分语音的开头和结尾；检测则是通过区分以上不同段的信号来达到区划语音的开头与结尾，端点检测的唯一目的就是找到语音信号的起始点与结束点。

步骤S33、预加重：预先添加与原始语音高频信号，通过叠加之后，原始语音信息在高频和低频端的能量相当；在实际应用过程中，语音信息往往夹杂着环境中的各种其他声音信息，由于人类发音的特性，语音信息经过频率转换后往往大部分集中于低频带，从而使得低频能量过大，高频能量过低，计算机难以有效提取高频语音信息；为了抵消掉这种情况，预处理阶段使用预加重技术。

步骤S34、去加重：在输出端，则做反向处理去加重；而在语音识别系统的输出端，则需要做相反的处理，也就是去加重，采用相反的负能量信号将添加的高频成分去掉，从而还原原来的信号分布，有效提高声音信号的信噪比。

步骤S35、分帧处理：对整段语音通过带通滤波器进行分帧处理切成多段；分帧从简单来说，一段信号整体是不稳定的，但从局部来看，信号是稳定的，所以要想接收端接收平稳的信号，就需对整段语音进行分帧，也就是切成几段。但是需要注意的是，根据香农定理，分帧越多地声音片段，其开始段和结束段会存在声音不连续的现象，导致了分帧的帧长越短，信号的误差就越大，因此就需要再进行下述的加窗处理方法来解决。

步骤S36、加窗处理：对每段语音使用带通滤波器进行窗函数过滤处理；实际系统中，语音信号处理一般加汉明窗，就可以满足绝大多数种语音情况。语音识别的加窗类型受到许多因素的影响，包括不同说话人的发音方式、说话方式、环境噪音、传输信道衰落等，实际应用时需要根据不同的情况选择窗。

根据信号学中的奈奎斯特采样定理，再信号采集时，如果采样频率满足采样频率大于2倍最高频率时，经过采样后的信息可以原本保持的所有特征信息。根据这一定理，语音识别系统中通常采用重采样技术，也就是限定采样器的采样频率为最高频率的5~ 8倍。根据人类语音信号50Hz ~ 6kHz的频率范围，可以得出重采样器的采样频率为约16kHz 左右，重采样可以保证语音中的所有信息均被送至特征识别环节中；不同的语音识别在预处理顺序上有一定差别。

其中，步骤S32中，采用双门眼检测法来计算门限能量的方式来判断语音端点，分别计算每个时刻的语音能量；语音能量的计算公式为：

；

式中，

为双门的门限，

为第i点的语音广义分贝值；

其中，步骤S36中，窗函数包括矩形窗、汉明窗和汉宁窗；

其中，矩形窗的计算公式如下：

；

汉明窗的计算公式如下：

；

汉宁窗的计算公式如下：

。

其中，步骤S5中，声学模型内预先制定好分类判决规则，在根据判别规则完成模糊文本分类，并将分类结果迭加入知识库。

其中，模糊文本分类的步骤如下：

步骤S51：对文本进行人工分类标注；

步骤S52：计算文本与训练文本的模糊集关联度；

步骤S54：计算分类的准确率和召回率。

值得注意的是，上述系统实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

另外，本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，相应的程序可以存储于一计算机可读取存储介质中。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于工业互联网的语音识别及处理方法，其特征在于，包括如下步骤：

步骤S1：构建工业互联网相应的文本数据库；

步骤S2：获取待识别语音数据；

步骤S3：对待识别语音数据进行预处理；

步骤S4：对处理后的语音数据进行特征提取；

2.根据权利要求1所述的一种基于工业互联网的语音识别及处理方法，其特征在于，所述步骤S1中，文本数据库在数据上来源主要包括网络信息、平台信息和安全信息；所述文本数据库在数据上来源按照类型将器分别存储到磁盘的不同目录中，对相关信息进行提取，并将其存储到相应的关系数据表中；所述关系数据表对原始文件中的文本进行提取，并进行句子切分、符号转换、错误修正后，处理成纯文本，并存储到特定的文件中。

3.根据权利要求1所述的一种基于工业互联网的语音识别及处理方法，其特征在于，所述步骤S2中，对待识别语音数据进行语音识别，得到语音数据对应的语音识别结果，并将语音识别结果转换成对应的识别文本。

4.根据权利要求3所述的一种基于工业互联网的语音识别及处理方法，其特征在于，所述待识别语音数据还需要进行异常语音检测；所述异常语音检测包括依次获取语音数据中的待检测语音片段；根据语音识别结果计算待检测语音片段的后验概率和/或置信度；并基于验概率和/或置信度来确定待检测语音频段是否为异常语音。

5.根据权利要求1所述的一种基于工业互联网的语音识别及处理方法，其特征在于，所述步骤S3中，对待识别语音数据进行预处理的步骤如下：

步骤S34、去加重：在输出端，则做反向处理去加重；

6.根据权利要求5所述的一种基于工业互联网的语音识别及处理方法，其特征在于，所述步骤S32中，采用双门眼检测法来计算门限能量的方式来判断语音端点，分别计算每个时刻的语音能量；所述语音能量的计算公式为：