CN118136022A

CN118136022A - 一种智能语音识别系统及方法

Info

Publication number: CN118136022A
Application number: CN202410424080.7A
Authority: CN
Inventors: 文强
Original assignee: Haishi Yantai Information Technology Co ltd
Current assignee: Haishi Yantai Information Technology Co ltd
Priority date: 2024-04-09
Filing date: 2024-04-09
Publication date: 2024-06-04

Abstract

本发明提供了一种智能语音识别系统及方法，首先对待识别的语音进行信号采集，获得语音模拟信号，对采集到的语音模拟信号进行预处理后利用能量迭代循环法进行端点检测得到待识别的语音数字信号，随后对待识别的数字信号提取相关特征信息；将待识别语音信号与其特征矢量通过声学模型组件、发声字典组件、语言模型组件形成的网络，得到与之所有相匹配的识别文字以及单个字或词相互关联的概率关系，最后利用解码器模块对所得数据进行维特比解码译码，得到最终语音识别文字输出。本发明解决了在语音识别过程中系统计算量较大、识别结果较差，匹配的准确率较低的问题，为解决上述问题。

Description

一种智能语音识别系统及方法

技术领域

本发明涉及人工智能、语音识别领域，尤其涉及一种智能语音识别系统及方法。

背景技术

智能语音识别技术，简单来说其实就是利用计算机将语音信号自动转换为文本的一项技术。这项技术同时也是机器理解人类言语的第一个也是很重要的一个过程。对于语音识别的方法有很多，周柳阳等学者提出的“202111178759.5”“一种智能语音识别处理方法及系统”通过多组录音信息和传感信息对周边的生物进行定位，并获得声音发出生物的位置信息，从而根据该位置信息对录音信息进行聚焦处理，使其能够更为清晰和突出。

但本申请发明人在实现本申请实施例中发明技术方案的过程中，发现上述技术至少存在如下技术问题：语音识别系统的识别过程较复杂、识别结果准确性较差。

发明内容

本发明通过提供一种智能语音识别系统及方法，解决了现有技术中语音识别系统的识别过程较复杂、识别结果准确性较差的技术问题。

本发明提供了一种智能语言识别系统及方法，具体包括以下技术方案：

一种智能语音识别系统，包括以下部分：

语音信号采集组件，预处理组件，语音信号精准处理组件，特征提取组件块，声学模型组件，语言模型组件，发声词典组件和解码器组件；

所述语音信号采集组件，对语音信号进行采集，然后采集到的信号即待识别语音转换成可操作的模拟信号；

所述预处理组件，将所述语音信号采集组件采集到的语音模拟信号进行预处理，将语音信号从原始信号中提取出来转换成了帧序列的加窗短时语音数字信号；

所述语音信号精准处理组件，对所述预处理组件获得的短时语音数字信号进行精准处理工作，得到更接近原语音信号信息的语音信号，同时提取到更能代表语音信号的相关特征信息；

所述特征提取组件，对经过所述萃取模块后的语音信号的相关特征进行提取，并将语音信号的特征构建特征向量用于进一步语言信号处理；

所述声学模型组件，根据声学特性计算所述特征提取组件提供的每一个特征向量在声学特征上的得分以及其权重得分，经组合计算优选出得分最高对应的特征向量，并将信息输出；

所述语言模型组件，将通过待识别语音信号输入至预先训练好的语音识别模型中，根据语言学相关的理论，计算该声音信号对应可能词组序列的概率；

所述发声词典模块，用来对识别出的信号提供参考对比；

所述解码器模块，对词组序列进行解码，得到最后文本输出表示。

一种智能语音识别方法，包括以下步骤：

S1.首先对待识别的语音进行信号采集，获得语音模拟信号，对采集到的语音模拟信号进行预处理后利用能量迭代循环法进行端点检测得到待识别的语音数字信号，随后对待识别的数字信号提取相关特征信息；

S2.将待识别语音信号与其特征矢量通过声学模型组件、发声字典组件、语言模型组件形成的网络，得到与之所有相匹配的识别文字以及单个字或词相互关联的概率关系，最后利用解码器模块对所得数据进行维特比解码译码，得到最终语音识别文字输出。

进一步，所述步骤S1包括：

将短时语音数字信号S(n)经语音信号精准处理组件进行精准处理，其中n表示采样点位置；引入能量迭代循环因子：

其中，E[·]表示能量，S_i表示第i次迭代语音信号，E[S₀]＝0；利用能量迭代循环语音端点检测算法对语音数字信号S(n)进行检测得到更接近原语音信息的语音信号

进一步，所述步骤S1包括：

将待识别短时语音数字信号S(n)发送到语音信号特征提取组件进行声学特征提取，所提取的特征有语音数字信号的线性预测倒谱系数(LPCC)、梅尔频率倒谱系数(MFCC)；

所述线性预测倒谱系数：

其中，l(j)为倒谱系数，a_j、a_k为预测系数，k∈(1，2，...，j-1}，p为预测系数的阶数，j为倒谱系数的阶数；

所述梅尔频谱倒谱系数：

其中，k表示第k个滤波器，K为滤波器个数，H(k)表示k个梅尔滤波器组，i表示一个序列取值为：i∈{1，2，...，K/2}。

进一步，所述步骤S2包括：

构造七维声学模型，用以下七个参数来进行描述，即：

M＝{Y，Print,Sate，P_B，FS,May,Cor}

其中，Y表示模型中所包含的有限隐含状态的集合；Print表示输出的可观测序列的集合；Sate表示状态之间转移概率的集合；P_B表示给定状态下输出相应输出观察值的概率；Fs表示系统初始状态概率的集合，May表示所有可能出现状态的权重集合，Cor表示所有可能状态之间的相关系数集合。

本发明至少具有如下技术效果或优点：

1.本发明增加了语音信号精准处理组件，对经过预处理的语音信号进行进一步精准处理，得到更准确的数字信号，可以获得更具有代表性的信号特征信息，从而提高系统识别准确率。

2.本发明引入能量迭代循环因子利用循环迭代语音检测算法对语音数字信号进行端点检测，从数字语音信号中检测出语音信号段和噪音段，得到相对准确的语音信号，结合语音信号自身的能量特性利用该端点检测算法不仅可以减少系统计算量，还提高了语音识别系统的准确率。

3.本发明构造七个参数的声学模型，对语音信号的信息特征概括的更为全面，通过参考引入拟合因子的混合高斯模型来拟合语音信号，两者相结合对语音信号的拟合更为准确，提供了匹配准确率，进一步提高系统性能。

附图说明

图1为本发明所述一种智能语音识别系统框图；

图2为本发明所述一种智能语音识别预处理能量循环迭代算法过程流程图。

具体实施方式

本申请实施例通过提供一种智能语音识别系统及方法，解决了在语音识别过程中系统计算量较大、识别结果较差，匹配的准确率较低的问题，为解决上述问题，总体思路如下：

首先对要识别的语音进行信号采集，获得语音模拟信号，对采集到的模拟信号进行预处理后利用本发明提出的能量迭代循环因子进行端点检测得到待识别的语音数字信号，随后对待识别的数字信号提取相关特征信息；将待识别语音信号与特征矢量通过声学模型模块、发声字典模块、语言模型模块构造网络得到与之所有相匹配的识别文字以及单个字或者词相互关联的概率，最后利用解码器对所得数据进行解码，得到最终语音文字输出。通过增加语音信号精准处理组件，对经过预处理的语音信号进行进一步精准处理，得到更准确的数字信号，可以获得更具有代表性的信号特征信息，从而提高系统识别准确率；通过引入能量迭代循环因子利用循环迭代语音检测算法对语音数字信号进行端点检测，从数字语音信号中检测出语音信号段和噪音段，得到相对准确的语音信号，结合语音信号自身的能量特性利用该端点检测算法不仅可以减少系统计算量，还提高了语音识别系统的准确率；最后构造七个参数的声学模型，对语音信号的信息特征概括的更为全面，通过参考引入拟合因子的混合高斯模型来拟合语音信号，两者相结合对语音信号的拟合更为准确，提供了匹配准确率，进一步提高系统性能。

为了更好的理解上述技术方案，下面结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

参照图1，本发明所述一种智能中的语音识别系统包括以下部分：

语音信号采集组件010，预处理组件020，语音信号精准处理组件030，特征提取组件040，声学模型组件050，语言模型组件060，发声词典组件070和解码器组件080。

所述语音信号采集组件010，对语音信号进行采集，然后采集到的信号即待识别语音转换成可操作的模拟信号；

所述预处理组件020，将所述语音信号采集组件010采集到的语音模拟信号进行预处理，将语音信号从原始信号中提取出来转换成了帧序列的加窗短时语音数字信号；

所述语音信号精准处理组件030，对所述预处理组件020获得的短时语音数字信号进行精准处理工作，得到更接近原语音信号信息的语音信号，同时提取到更能代表语音信号的相关特征信息；

所述特征提取组件040，对经过所述萃取模块030后的语音信号的相关特征进行提取，并将语音信号的特征构建特征向量用于进一步语言信号处理；

所述声学模型组件050，根据声学特性计算所述特征提取组件040提供的每一个特征向量在声学特征上的得分以及其权重得分，经组合计算优选出得分最高对应的特征向量，并将信息输出；

所述语言模型组件060，将通过待识别语音信号输入至预先训练好的语音识别模型中，根据语言学相关的理论，计算该声音信号对应可能词组序列的概率；

所述发声词典模块070，用来对识别出的信号提供参考对比；

所述解码器模块080，对词组序列进行解码，得到最后文本输出表示。

本发明所述一种智能语音识别方法的执行方法具体包括以下步骤：

S11.通过语音信号采集组件010对待识别语音进行信号采集，得到语音模拟信号S(t)，其中t表示时刻，将采集到的语音信号通过预处理组件020进行预处理，即对语音模拟信号利用先有技术进行预加重、语音滤波、采样、分帧、A/D转换实现模拟信号数字化得到计算机可处理的数字信号，即获得在短时间内随时间变化很缓慢的短时语音数字信号S(n)，其中n表示采样点位置，所述短时语音信号具有在10～30ms范围内语音信号频谱特性和语音特征参数保持相对稳定的特征。

将短时语音数字信号S(n)送入语音信号精准处理组件030中，本发明引入能量迭代循环因子：

其中，E[·]表示能量，S_i表示第i次迭代语音信号，E[S₀]＝0。通过对相邻三个信号能量计算得到能量迭代循环因子进行迭代运算，使得该算法具有更准确的处理结果，具体迭代滑动过程参照图2。本发明利用能量迭代循环的语音端点检测算法对语音数字信号S(n)进行处理得到信号S(n)。

本发明增加了语音信号精准处理组件，对经过预处理的语音信号进行进一步精准处理，得到更准确的数字信号，可以获得更具有代表性的信号特征信息，从而提高系统识别准确率。

本发明引入能量迭代循环因子利用循环迭代语音检测算法对语音数字信号进行端点检测，从数字语音信号中检测出语音信号段和噪音段，得到相对准确的语音信号，结合语音信号自身的能量特性利用该端点检测算法不仅可以减少系统计算量，还提高了语音识别系统的准确率。

S12.将步骤S11中得到的待识别短时语音数字信号S(n)发送到语音信号特征提取组件040进行声学特征提取，所提取的特征有语音数字信号的线性预测倒谱系数(LPCC)、梅尔频率倒谱系数(MFCC)。

所述线性预测倒谱系数：

其中，l(j)为倒谱系数，a_j、a_k为预测系数，k∈{1，2，...，j-1}，p为预测系数的阶数，j为倒谱系数的阶数。

所述梅尔频谱倒谱系数：

对语音数字信号提取特征之后，本发明优选的对原始特征做归一化处理以此增强了语音识别系统的鲁棒性。同时对待识别信号进行特征提取后将每一帧波形变成一个包含声音信息的多维向量L(特征矢量)。

S21.将步骤S12中提取的信号特性构成的特征矢量L经过训练得到构造的声学模型，依据声学模型来计算它属于每个基元的概率值，通过最大似然准则得出与特征序列对应的状态序列；

本发明构造七维声学模型，用以下七个参数来进行描述，即：

M＝{Y，Print,Sate，P_B，FS,May，Cor}

本发明参考采用引入拟合因子的混合高斯模型来拟合语音信号，使得对语音信号的拟合更为准确，拟合因子表示为：

通过混合高斯函数来表示输出概率P_B，优选的输出概率表示为：

其中，Print表示输出状态；i和j分别对应相邻两个要转换的状态；p表示混合数；μ_ij和V_ij分别表示从状态i转换到j输出状态的均值和方差。

本发明构造七个参数的声学模型，对语音信号的信息特征概括的更为全面，通过参用引入拟合因子的混合高斯模型来拟合语音信号，两者相结合对语音信号的拟合更为准确，提供了匹配准确率，进一步提高系统性能。

S22.将声学模型、语言模型、发声词典组成网络，其中在给定语音特征序列L^T＝{l₁，l₂，...，l_T}后，T表示特征序列元素个数，结合声学模型和语言模型，根据最大后验概率算法输出词序列其数学表示为：

其中，P(Word)为语言模型，代表特定词序列Word出现的先验概率；P(Word|O^T)为声学模型，表示给定词序列为Word时，输出L^T的声学特征时的概率；P(L^T)是声学特征L^T的概率，与词序列无关。

将上述输出的状态序列送入解码器组件进行解码，通过在一个由语言模型、发声词典、声学模型构成的网络空间中搜索得分最高的状态序列，利用现有技术维特比解码算法，运用动态规划在由多个状态构成的搜索空间中寻找一条最佳的状态序列路径，最终得到语音识别的文字输出。

综上所述，便完成了本发明所述的一种智能语音识别系统及方法。

上述本申请实施例中的技术方案，至少具有如下的技术效果或优点：

效果调研：

本发明增加了语音信号精准处理组件，对经过预处理的语音信号进行进一步精准处理，得到更准确的数字信号，可以获得更具有代表性的信号特征信息，从而提高系统识别准确率；通过引入能量迭代循环因子利用循环迭代语音检测算法对语音数字信号进行端点检测，从数字语音信号中检测出语音信号段和噪音段，得到相对准确的语音信号，结合语音信号自身的能量特性利用该端点检测算法不仅可以减少系统计算量，还提高了语音识别系统的准确率；最后构造七个参数的声学模型，对语音信号的信息特征概括的更为全面，通过参考引入拟合因子的混合高斯模型来拟合语音信号，两者相结合对语音信号的拟合更为准确，提供了匹配准确率，进一步提高系统性能。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种智能语音识别系统，其特征在于，包括以下部分：

所述发声词典模块，用来对识别出的信号提供参考对比；

2.一种智能语音识别方法，其特征在于，包括以下步骤：

3.根据权利要求2所述的一种智能语音识别方法，其特征在于，所述步骤S1包括：

4.根据权利要求3所述的一种智能语音识别方法，其特征在于，所述步骤S1还包括：

将待识别短时语音数字信号发送到语音信号特征提取组件进行声学特征提取，所提取的特征有语音数字信号的线性预测倒谱系数(LPCC)、梅尔频率倒谱系数(MFCC)；

所述线性预测倒谱系数：

其中，l(j)为倒谱系数，a_j、a_k为预测系数，k∈{1，2，...，j-1}，p为预测系数的阶数，j为倒谱系数的阶数；

所述梅尔频谱倒谱系数：

5.根据权利要求2所述的一种智能语音识别方法，其特征在于，所述步骤S2包括：

构造七维声学模型，用以下七个参数来进行描述，即：

M＝{Y，Print,Sate，PB，FS,May,Cor}