CN113948088A

CN113948088A - 基于波形模拟的语音识别方法及装置

Info

Publication number: CN113948088A
Application number: CN202111256297.4A
Authority: CN
Inventors: 冯含哲; 孙利利; 曹克霞; 段琳钰
Original assignee: Shandong Fenghehuang City Technology Co ltd
Current assignee: Shandong Fenghehuang City Technology Co ltd
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2022-01-18

Abstract

本发明涉及语音识别技术领域，具体涉及基于波形模拟的语音识别方法及装置，所述方法执行以下步骤：步骤1：采集待识别的语音信号，对待识别的语音信号进行波形包络模拟，得到待识别的语音信号的包络模拟波形；步骤2：对包络模拟波形进行波形简化模拟，得到包络模拟波形的简化模拟波形。其基于对语音信号进行波形包络模拟，以得到语音信号的简化波形，再进一步进行简化后，得到更为容易进行识别的最简化波形，简化的波形再通过图像匹配识别来进行语音识别，与现有的语音识别均不相同，其识别准确率更高，同时由于使用简化的波形进行识别，也提升了效率使得其效率与常规语音识别方法相当。

Description

基于波形模拟的语音识别方法及装置

技术领域

本发明属于语音识别技术领域，具体涉及基于波形模拟的语音识别方法及装置。

背景技术

语音识别是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

现有的语音识别技术一般利用由语言模型和声学模型构成的语音识别网络对语音进行识别。其中，声学模型是通过将训练语音数据库利用训练算法进行模型训练后产生，在进行语音识别时将待识别的语音的特征参数同声学模型进行匹配以得到识别结果。语言模型是通过对训练文本数据库进行语法、语义分析，经过基于统计模型训练而产生，语言模型能够结合语法和语义的知识，描述词之间的内在关系。

专利号为CN201610057651.3A的专利公开了一种语音识别的方法及装置。其中，该方法包括：利用基于汉字的语音识别，对待识别命名实体语音进行语音识别，以识别出作为所述待识别命名实体语音的汉字识别结果的汉字序列；利用基于拼音的语音识别，对所述待识别命名实体语音进行语音识别，以识别出作为所述待识别命名实体语音的拼音识别结果的拼音序列；根据识别出的所述汉字序列和所述拼音序列，确定特定命名实体列表中的各个候选命名实体与所述待识别命名实体语音的相似度；根据所述各个候选命名实体与所述待识别命名实体语音的相似度，从所述特定命名实体列表中确定所述待识别命名实体语音的语音识别结果。本申请提高了对命名实体语音的识别的准确性。

其通过基于拼音的语音识别来实现了汉字的识别，但该识别方法只适用于汉字的识别，其识别过程中，往往会因为发音的问题，导致识别准确率降低。因为在实际情况中，由于每个人说话的音调和口音，以及语种的不同，将会导致识别准确率降低。因此，要解决发音导致的识别准确率低的问题，则需要使用脱离传统的单一地基于波形的语音识别技术。

发明内容

有鉴于此，本发明的主要目的在于提供基于波形模拟的语音识别方法及装置，其基于对语音信号进行波形包络模拟，以得到语音信号的简化波形，再进一步进行简化后，得到更为容易进行识别的最简化波形，简化的波形再通过图像匹配识别来进行语音识别，与现有的语音识别均不相同，其识别准确率更高，同时由于使用简化的波形进行识别，也提升了效率，使得其效率与常规语音识别方法相当。

为达到上述目的，本发明的技术方案是这样实现的：

基于波形模拟的语音识别方法，所述方法执行以下步骤：

步骤1：采集待识别的语音信号，对待识别的语音信号进行波形包络模拟，得到待识别的语音信号的包络模拟波形；

步骤2：对包络模拟波形进行波形简化模拟，得到包络模拟波形的简化模拟波形；

步骤3：对简化模拟波形进行波形增益，得到增益波形，再对增益波形进行波形分解，分别得到谐波分量和增益后的斜率分量；

步骤4：对谐波分量进行谐波图像识别，以得到谐波识别结果，具体包括：对谐波分量使用预设的谐波图像识别模型进行图像识别，在图像识别过程中，图像识别模型从存储有历史谐波图像的数据库中进行匹配识别；

步骤5：对增益后的斜率分量进行斜率图像识别，以得到斜率识别结果，具体包括：对斜率分量使用预设的斜率图像识别模型进行图像识别，在图像识别过程中，斜率识别模型从存储有历史斜率图像的数据库中进行匹配识别；

步骤6：将谐波识别结果和斜率识别结果进行合成，得到最终的识别结果，完成语音识别。

进一步的，所述步骤1：采集待识别的语音信号，对待识别的语音信号进行波形包络模拟，得到待识别的语音信号的包络模拟波形的方法包括：使用一组单位冲激信号对待识别的语音信号进行冲激运算，将待识别的语音信号转为多路信号幅度，然后在同一时间点提取信号幅度最大值，形成包络模拟波形。

进一步的，所述步骤1还包括对形成的包络模拟波形进行修正的步骤，包括：当包络模拟波形的幅度值不连续时将信号包络修正为冲激信号的噪声均值；具体为：将判断幅度值是否连续的个数设置为N，假如当前幅度值为A_i，i表示当前待判断的幅度值为第i个冲激点，假如单位冲激信号总数为M，则N≤i≤M-N，则当前幅度值满足如下条件时即认为当前幅度值连续：lg(1-|c_i-c_i-j|)≤0.5(0≤j≤N)或者1g(1+|c_i-c_i+j|)≤1.5(0≤j≤N)；从式中可以看出，当包络模拟波形存在连续N个采样点幅度值相差不大于1时，即认为当前信号是脉冲信号，信号包络幅度不变；假如包络模拟波形不满足幅度值连续准则，则将当前信号包络修正为冲激信号的噪声均值。

进一步的，所述步骤2中对包络模拟波形进行波形简化模拟的方法包括：将包络模拟波形通过一个滤波器，所述滤波器只保留通过的包络模拟波形的斜率分量和谐波分量。

进一步的，所述步骤4中对谐波分量使用预设的谐波图像识别模型进行图像识别的方法包括：使用如下公式求取谐波分量和数据库中的历史谐波图像之间的相似度：

其中，D(A，B)表示相似度，A表示谐波分量，B表示历史谐波图像，N表示谐波分量的时间上限，A_Q表示谐波分量每个时间点对应的幅值，B_Q表示历史谐波图像每个时间点对应的幅值，A_R表示谐波分量每个时间点对应的相位值，B_R表示历史谐波图像每个时间点对应的相位值；若相似度D(A，B)在设定的阈值范围内，则判断谐波分量与该历史谐波图像匹配，输出谐波识别结果。

进一步的，所述步骤5中对增益后的斜率分量进行斜率图像识别的方法包括：使用如下公式计算斜率分量和数据库中的历史斜率图像之间的相似度：

其中，P(L，N)表示相似度，L_Q表示斜率分量每个时间点对应的高度值，N_Q表示历史斜率图像每个时间点对应的高度值，L_R表示斜率分量每个时间点对应的斜率值，N_R表示历史斜率图像每个时间点对应的斜率值；输出斜率识别结果。

进一步的，所述步骤6中将谐波识别结果和斜率识别结果进行合成，得到最终的识别结果，完成语音识别的方法包括：将谐波识别结果和斜率识别结果按照设定的加权系数，进行加权计算后，得到最终的识别结果。

进一步的，所述步骤1中在对待识别的语音信号进行波形包络模拟之前，还包括对待识别的语音信号进行预处理的步骤，具体包括：将待识别的语音信号通过一全通减低通的整系数滤波器，以消除基线漂移的影响；再将经过所述全通减低通的整系数滤波器处理后的待识别的语音信号通过一整系数低通滤波器，以降低噪声干扰的影响。

进一步的，所述整系数低通滤波器为三阶整系数低通滤波器。

基于波形模拟的语音识别装置。

本发明的基于波形模拟的语音识别方法及装置，其基于对语音信号进行波形包络模拟，以得到语音信号的简化波形，再进一步进行简化后，得到更为容易进行识别的最简化波形，简化的波形再通过图像匹配识别来进行语音识别，与现有的语音识别均不相同，其识别准确率更高，同时由于使用简化的波形进行识别，也提升了效率使得其效率与常规语音识别方法相当。主要通过以下过程实现：

1.信号识别效率高：本发明通过对语音信号进行包络模拟以降低语音信号的复杂度，在识别过程中，相当于直接对语音的特征部分进行识别，但又不需要进行特征提取，提升了效率，但因为本发明通过图像识别来完成语音识别，相较于传统的直接进行语音识别，其效率会低一些，所以通过前述的包络模拟，可以在不降低语音识别效率的前提下，提升语音识别的准确率；

2.信号识别准确率高：传统的语音识别技术，大都通过对语音波形的特征提取来进行，但由于每个人说话的音调和口音，以及语种的不同，导致识别准确率低，因为特征的变化往往会因为细微的变化而变化，由此引发识别的准确率降低，而通过降低特征的细节，即本发明使用的包络模拟后，对特征进行了一步简化，使得微小的变化或者变化幅度不大的部分难以干扰后续的语音识别，进一步提升了准确率；

3.语音识别算法的使用：本发明在进行语音识别时，没有使用传统方法的图像识别，而是通过对声音的谐波分量和斜率分量来进行图像识别，以此得到语音识别结果，谐波分量和斜率分量可以表征语音信号的基本特征，而将两者结合起来进行图像匹配识别，一者是可以降低直接通过这两个部分进行常规语音识别带来的误差，二是图像识别的结果准确率更高，得到的语音识别结果更加准确。

附图说明

图1为本发明实施例提供的基于波形模拟的语音识别方法的方法流程示意图；

图2为本发明实施例提供的基于波形模拟的语音识别方法及装置的对待识别的语音信号进行波形包络模拟的原理示意图；

图3为本发明实施例提供的基于波形模拟的语音识别方法及装置的对包络模拟波形进行波形简化模拟的原理示意图；

图4为本发明实施例提供的基于波形模拟的语音识别方法及装置的识别准确率随着实验次数变化的曲线示意图与现有技术的对比实验效果示意图。

具体实施方式

下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。

实施例1

如图1所示，基于波形模拟的语音识别方法，所述方法执行以下步骤：

采用上述技术方案，本发明基于对语音信号进行波形包络模拟，以得到语音信号的简化波形，再进一步进行简化后，得到更为容易进行识别的最简化波形，简化的波形再通过图像匹配识别来进行语音识别，与现有的语音识别均不相同，其识别准确率更高，同时由于使用简化的波形进行识别，也提升了效率使得其效率与常规语音识别方法相当。主要通过以下过程实现：

具体的，本发明中的识别准确率通过做实验，比对识别出的结果与原内容是否匹配，匹配则是识别正确，不匹配则识别不正确，计算识别正确在所有识别结果中的占比得到。

具体的，数据库中的历史斜率图像、数据库中的历史谐波图像作为匹配识别的模板，其通过对历史的语音数据进行处理得到。

实施例2

在上一实施例的基础上，所述步骤1：采集待识别的语音信号，对待识别的语音信号进行波形包络模拟，得到待识别的语音信号的包络模拟波形的方法包括：使用一组单位冲激信号对待识别的语音信号进行冲激运算，将待识别的语音信号转为多路信号幅度，然后在同一时间点提取信号幅度最大值，形成包络模拟波形。

具体的，频谱包络是将不同频率的振幅最高点连结起来形成的曲线，就叫频谱包络线。频谱是许多不同频率的集合，形成一个很宽的频率范围，不同的频率其振幅可能不同。计算频谱包络的方法也有很多，包括频谱帧的低通滤波法，或计算时域包络使用的RMS时窗分析法。但使用RMS计算包络时，因使用时窗发生了减采样——表示频谱的数据点将会减少。因此，在RMS算法之后需要对频谱进行插值以使RMS频谱与原始谱的长度一致。

频谱是许多不同频率的集合，形成一个很宽的频率范围；且不同的频率其振幅可能不同。将不同频率的振幅最高点连结起来形成的曲线，就叫频谱包络线。在调频信号中，一个高频信号，它幅度是按调制信号变化的。如果把高频调幅信号的峰点连接起来，就可以得到一个与低频调制信号相对应的曲线。这条曲线就是包络线。

且有一点是值得注意的。只有周期信号的频谱有包络线，这是因为周期信号的频谱是离散的，而非周期信号没有包络线，这是因为非周期信号的频谱是连续的。

实施例3

在上一实施例的基础上，所述步骤1还包括对形成的包络模拟波形进行修正的步骤，包括：当包络模拟波形的幅度值不连续时将信号包络修正为冲激信号的噪声均值；具体为：将判断幅度值是否连续的个数设置为N，假如当前幅度值为A_i，i表示当前待判断的幅度值为第i个冲激点，假如单位冲激信号总数为M，则N≤i≤M-N，则当前幅度值满足如下条件时即认为当前幅度值连续：lg(1-|c_i-c_i-j|)≤0.5(0≤j≤N)或者lg(l+|c_i-c_i+j|)≤1.5(0≤j≤N)；从式中可以看出，当包络模拟波形存在连续N个采样点幅度值相差不大于1时，即认为当前信号是脉冲信号，信号包络幅度不变；假如包络模拟波形不满足幅度值连续准则，则将当前信号包络修正为冲激信号的噪声均值。

具体的，冲激函数是个奇异函数，它是对强度极大、作用时间极短暂且积分有限的一类理想化数学模型。冲激函数可用于对连续信号进行线性表达，也可用于求解线性非时变系统的零状态响应。

对冲激函数求导可得到冲激偶函数，单位冲激偶是这样的一种函数：当t从负值趋于0时，它是一个强度为无限大的正的冲激函数，当t从正值趋于0时，它是一个强度为无限大的负的冲激函数。

实施例4

在上一实施例的基础上，所述步骤2中对包络模拟波形进行波形简化模拟的方法包括：将包络模拟波形通过一个滤波器，所述滤波器只保留通过的包络模拟波形的斜率分量和谐波分量。

具体的，谐波分量是指一个周期电气量的傅立叶级数中次数大于1的整数倍分量。

滤波器是一种选频装置，可以使信号中特定的频率成分通过，而极大地衰减其他频率成分。利用滤波器的这种选频作用，可以滤除干扰噪声或进行频谱分析。换句话说，凡是可以使信号中特定的频率成分通过，而极大地衰减或抑制其他频率成分的装置或系统都称之为滤波器。滤波器，是对波进行过滤的器件。“波”是一个非常广泛的物理概念，在电子技术领域，“波”被狭义地局限于特指描述各种物理量的取值随时间起伏变化的过程。该过程通过各类传感器的作用，被转换为电压或电流的时间函数，称之为各种物理量的时间波形，或者称之为信号。因为自变量时间是连续取值的，所以称之为连续时间信号，又习惯地称之为模拟信号(Analog Signal)。

实施例5

在上一实施例的基础上，所述步骤4中对谐波分量使用预设的谐波图像识别模型进行图像识别的方法包括：使用如下公式求取谐波分量和数据库中的历史谐波图像之间的相似度：

具体的，语音识别主要有以下五个问题：

⒈对自然语言的识别和理解。首先必须将连续的讲话分解为词、音素等单位，其次要建立一个理解语义的规则。

⒉语音信息量大。语音模式不仅对不同的说话人不同，对同一说话人也是不同的，例如，一个说话人在随意说话和认真说话时的语音信息是不同的。一个人的说话方式随着时间变化。

⒊语音的模糊性。说话者在讲话时，不同的词可能听起来是相似的。这在英语和汉语中常见。

⒋单个字母或词、字的语音特性受上下文的影响，以致改变了重音、音调、音量和发音速度等。

⒌环境噪声和干扰对语音识别有严重影响，致使识别率低。

实施例6

在上一实施例的基础上，所述步骤5中对增益后的斜率分量进行斜率图像识别的方法包括：使用如下公式计算斜率分量和数据库中的历史斜率图像之间的相似度：

实施例7

在上一实施例的基础上，所述步骤6中将谐波识别结果和斜率识别结果进行合成，得到最终的识别结果，完成语音识别的方法包括：将谐波识别结果和斜率识别结果按照设定的加权系数，进行加权计算后，得到最终的识别结果。

实施例8

在上一实施例的基础上，所述步骤1中在对待识别的语音信号进行波形包络模拟之前，还包括对待识别的语音信号进行预处理的步骤，具体包括：将待识别的语音信号通过一全通减低通的整系数滤波器，以消除基线漂移的影响；再将经过所述全通减低通的整系数滤波器处理后的待识别的语音信号通过一整系数低通滤波器，以降低噪声干扰的影响。

具体的，对于不同滤波器而言，每个频率的信号的强弱程度不同。当使用在音频应用时，它有时被称为高频剪切滤波器,或高音消除滤波器。

低通滤波器概念有许多不同的形式，其中包括电子线路(如音频设备中使用的hiss滤波器)、平滑数据的数字算法、音障(acoustic barriers)、图像模糊处理等等，这两个工具都通过剔除短期波动、保留长期发展趋势提供了信号的平滑形式。

低通滤波器在信号处理中的作用等同于其它领域如金融领域中移动平均数(moving average)所起的作用；

低通滤波器有很多种，其中，最通用的就是巴特沃斯滤波器和切比雪夫滤波器。

低通滤波(Low-pass filter)是一种过滤方式，规则为低频信号能正常通过，而超过设定临界值的高频信号则被阻隔、减弱。但是阻隔、减弱的幅度则会依据不同的频率以及不同的滤波程序(目的)而改变。它有的时候也被叫做高频去除过滤(high-cut filter)或者最高去除过滤(treble-cut filter)。低通过滤是高通过滤的对立。

实施例9

在上一实施例的基础上，所述整系数低通滤波器为三阶整系数低通滤波器。

实施例10

基于波形模拟的语音识别装置。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应能够意识到，结合本文中所公开的实施例描述的各示例的单元、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件单元、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和属性约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“另一部分”等是配置用于区别类似的对象，而不是配置用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者单元/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者单元/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术标记作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述，仅为本发明的较佳实施例而已，并非配置用于限定本发明的保护范围。

Claims

1.基于波形模拟的语音识别方法，其特征在于，所述方法执行以下步骤：

2.如权利要求1所述的方法，其特征在于，所述步骤1：采集待识别的语音信号，对待识别的语音信号进行波形包络模拟，得到待识别的语音信号的包络模拟波形的方法包括：使用一组单位冲激信号对待识别的语音信号进行冲激运算，将待识别的语音信号转为多路信号幅度，然后在同一时间点提取信号幅度最大值，形成包络模拟波形。

3.如权利要求2所述的方法，其特征在于，所述步骤1还包括对形成的包络模拟波形进行修正的步骤，包括：当包络模拟波形的幅度值不连续时将信号包络修正为冲激信号的噪声均值；具体为：将判断幅度值是否连续的个数设置为N，假如当前幅度值为A_i，i表示当前待判断的幅度值为第i个冲激点，假如单位冲激信号总数为M，则N≤i≤M-N，则当前幅度值满足如下条件时即认为当前幅度值连续：

lg(1-|c_i-c_i-j|)≤1.5(0≤j≤N)或者lg(1+|c_i-c_i+j|)≤1.5(0≤j≤N)；

从式中可以看出，当包络模拟波形存在连续N个采样点幅度值相差不大于1时，即认为当前信号是脉冲信号，信号包络幅度不变；假如包络模拟波形不满足幅度值连续准则，则将当前信号包络修正为冲激信号的噪声均值。

4.如权利要求3所述的方法，其特征在于，所述步骤2中对包络模拟波形进行波形简化模拟的方法包括：将包络模拟波形通过一个滤波器，所述滤波器只保留通过的包络模拟波形的斜率分量和谐波分量。

5.如权利要求4所述的方法，其特征在于，所述步骤4中对谐波分量使用预设的谐波图像识别模型进行图像识别的方法包括：使用如下公式求取谐波分量和数据库中的历史谐波图像之间的相似度：

6.如权利要求5所述的方法，其特征在于，所述步骤5中对增益后的斜率分量进行斜率图像识别的方法包括：使用如下公式计算斜率分量和数据库中的历史斜率图像之间的相似度：

7.如权利要求6所述的方法，其特征在于，所述步骤6中将谐波识别结果和斜率识别结果进行合成，得到最终的识别结果，完成语音识别的方法包括：将谐波识别结果和斜率识别结果按照设定的加权系数，进行加权计算后，得到最终的识别结果。

8.如权利要求7所述的方法，其特征在于，所述步骤1中在对待识别的语音信号进行波形包络模拟之前，还包括对待识别的语音信号进行预处理的步骤，具体包括：将待识别的语音信号通过一全通减低通的整系数滤波器，以消除基线漂移的影响；再将经过所述全通减低通的整系数滤波器处理后的待识别的语音信号通过一整系数低通滤波器，以降低噪声干扰的影响。

9.如权利要求8所述的方法，其特征在于，所述整系数低通滤波器为三阶整系数低通滤波器。