CN111508473B

CN111508473B - 一种语音识别率分析装置、方法及存储介质

Info

Publication number: CN111508473B
Application number: CN202010244409.3A
Authority: CN
Inventors: 潘浩贤; 蔡伟雄; 严冬; 冼佳莉; 陈南洲; 陈晓燕
Original assignee: Foshan University
Current assignee: Foshan University
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2023-03-14
Anticipated expiration: 2040-06-12
Also published as: CN111508473A

Abstract

本发明涉及一种语音识别率分析装置、方法及存储介质，包括以下：步骤201、获取用户的操作请求指令，所述操作请求指令包括，距离测试、噪声测试、偏移值测试以及自动测试；步骤202、当用户的操作请求指令为距离测试时，控制测距模块测量被测试的语音模块与语音识别率分析装置的距离，当用户的操作请求指令为噪声测试时，控制噪声测试模块计算环境分贝大小，当用户的操作请求指令为偏移值测试时，控制偏移值测试模块计算本次测试的语音信息的偏移值，当用户的操作请求指令为自动测试时，自动进行上述测试；步骤203、将上述步骤202中的测试结果在显示模块中予以显示。能够更好的适应不同的待测试设备，让测试过程更兼容，更具通用性。

Description

一种语音识别率分析装置、方法及存储介质

技术领域

本发明涉及数据采集领域，尤其涉及一种语音识别率分析装置、方法及存储介质。

背景技术

语音识别作为当下十分流行的技术，已经被较多的行业进行合理利用。

现有语音产品的语音识别率参考价值低，原因在于测试过程中缺乏对识别状态下环境参数与功能参数的分析；

现有的语音识别率测试方法主要有两种：软件模拟测试和人工测试。前者通过软件向语音模块输入音频信号，在电脑上得到测试识别结果，此测试方法忽略人为因素、环境因素，得到的结果过于理想。后者通过安排大量测试者现场重复进行测试、记录、上传数据和统计分析，此测试方法耗费大量人力资源，同时实际操作步骤繁琐，效率低下；

目前也存在少量通过搭建硬件系统对语音识别设备进行测试，但其所测试的参数缺乏判断、分析和衡量语音模块性能的价值，且硬件架构较为复杂；

目前存在的少量硬件测试系统中，大部分的测试对象为完整的语音识别产品，因此对于不同的设备，测试难以兼容，通用性较低。

因此，当今市场急需一种语音识别率分析装置及相应的测试方法，能够更好的适应不同的设备，让测试过程更兼容，更具通用性。

发明内容

本发明的目的是解决现有技术的不足，提供一种语音识别率分析装置、方法及存储介质，能够建立语音识别率分析系统，对需要测试的设备进行测试音频的采集，后经过处理得到能用来进行语音验证的音频，能够更好的适应不同的设备，让测试过程更兼容，更具通用性。

为了实现上述目的，本发明采用以下的技术方案：

提出一种语音识别率分析装置，包括：

语音获取模块，用于获取需要进行测试的语音信息；

操作请求指令获取模块，用于获取用户的操作请求指令，所述操作请求指令包括，距离测试、噪声测试、偏移值测试以及自动测试；

测距模块，用于测量被测试的语音模块与语音识别率分析装置的距离，包括激光发射器以及SPAD红外接收器，所述激光发射器用于向被测试的语音模块发射激光，反射回的激光被所述SPAD红外接收器接收；

噪声测试模块，包括，

多媒体编码器，所述多媒体编码器用于对测试的语音信息进行声信号到电信号的转化得到环境的瞬时声压，

环境分贝计算单元，所述环境分贝计算单元用于根据所述环境的瞬时声压计算出环境分贝的大小；

偏移值测试模块，包括，

采样单元，所述采样单元用于对获取的语音信息进行采样，

滤波单元，所述滤波单元用于对采样的语音信息进行滤波降噪得到第一语音信息，

语音识别单元，所述语音识别单元用于对所述第一语音信息进行特征提取，并根据提取的Mel频率的特征，代入DNN-HMM混合语音模型得到语音信息的偏移值；

显示模块，用于显示测试结果；

红外发射模块以及红外接收模块，所述红外发射模块设置于被测试的语音模块处，所述红外接收模块固定设置于所述语音识别率分析装置处，所述红外发射模块以及红外接收模块用于相互配合接收测试对象的语音模块的反馈信息。

本发明还提出一种语音识别率分析方法，其特征在于，包括以下：

步骤201、获取用户的操作请求指令，所述操作请求指令包括，距离测试、噪声测试、偏移值测试以及自动测试；

步骤202、当用户的操作请求指令为距离测试时，控制测距模块测量被测试的语音模块与语音识别率分析装置的距离，

当用户的操作请求指令为噪声测试时，控制噪声测试模块计算环境分贝大小，

当用户的操作请求指令为偏移值测试时，控制偏移值测试模块计算本次测试的语音信息的偏移值，

当用户的操作请求指令为自动测试时，自动进行距离测试、噪声测试以及偏移值测试；

步骤203、将上述步骤202中的测试结果在显示模块中予以显示。

进一步，上述步骤201中的距离测试具体实现方式包括以下：

当接收到距离测试的指令时，控制测距模块的激光发射器向被测试的语音模块发射激光，根据SPAD红外接收器接收到激光的时间t，结合距离S＝C_光*t/2得到被测试的语音模块与语音识别率分析装置的距离。

进一步，上述步骤201中的噪声测试具体实现方式包括以下：

当接收到噪声测试的指令时，控制多媒体编码器对测试的语音信息进行声信号到电信号的转化得到环境的瞬时声压，并根据下式计算出环境分贝的大小：

其中，L_p是声压级，单位为dB；T是噪声测试的时间间隔，单位为s；p(t)是环境瞬时声压，P₀是参考声压，P₀＝2×10^-5，单位为Pa。

进一步，上述步骤201中的偏移值测试具体实现方式包括以下：

步骤501、获取用户的偏移值测试指令，当接收到所述偏移值测试指令时，获取测试的语音信息；

步骤502、对测试的所述语音信息进行采样，并对采样后的语音信息进行滤波处理得到第一语音信息；

步骤503、对所述第一语音信息进行特征提取后进行语音识别，得到本次测试的语音信息的偏移值。

进一步，上述步骤503中的特征提取以及语音识别具体包括以下：

通过下式进行Mel频率的提取：

根据提取的Mel频率的特征，代入DNN-HMM混合语音模型得到语音信息的偏移值。

进一步，还包括反馈信息检测方法，具体包括以下：

获取红外接收模块接收的数据信息，对数据信息进行识别，当检测到起始码时，判断数据开始接收，当接收到的数据信息中，数据反码为数据码的反向，则判断测试的语音识别模块的数据帧完整发送。

本发明还提出一种计算机可读存储的介质，所述计算机可读存储的介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如任一项所述一种语音识别率分析方法的步骤。

本发明的有益效果为：

本发明在采用上述的装置以及方法时能够获得以下有益效果：

本发明能够建立语音识别率分析系统，对需要测试的设备进行测试音频的采集，后经过处理得到能用来进行语音验证的音频，能够更好的适应不同的设备，让测试过程更兼容，更具通用性。

附图说明

图1所示为本发明一种语音识别率分析方法流程图；

图2所示为本发明一种语音识别率分析方法的红外通信数据格式示意图；

图3所示为本发明一种语音识别率分析方法的解码方式示意图；

图4所示为本发明一种语音识别率分析方法的深度神经网络模型示意图；

图5所示为本发明一种语音识别率分析装置的运行功能流程示意图；

图6所示为本发明一种语音识别率分析方法的仿真结果示意图。

具体实施方式

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本发明的目的、方案和效果。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。附图中各处使用的相同的附图标记指示相同或相似的部分。

本发明提出一种语音识别率分析装置，包括：

语音获取模块，用于获取需要进行测试的语音信息；

噪声测试模块，包括，

偏移值测试模块，包括，

采样单元，所述采样单元用于对获取的语音信息进行采样，

显示模块，用于显示测试结果，具体的，本实施方式采用TFTLCD作为显示模块的元件；

具体的在实施时，通过在所述语音识别率分析装置处设置第一麦克风阵列，用来随即检测并接收声音信号，采集后的声音信号通过滤波电路进入多媒体编码器。编码器内部集成了可调采样频率的ADC(模拟信号-数字信号转换器)来完成模数转换，生成的WAV(一种无压缩的音频格式)文件可输出编码器存储至存储器中，如FLASH(闪存)。当需要被提取出来做语音测试时，上位机将发出指令，从FLASH中把语音提取出来，通过SPI(串行外设接口)协议把音频数据高速向多媒体解码器发送，通过高性能DAC解码后，经功放电路和设置在语音识别率分析装置的第一扬声器播放测试语音；

参照图1以及图5，本发明还提出一种语音识别率分析方法，其特征在于，包括以下：

作为本发明的优选实施方式，上述步骤201中的距离测试具体实现方式包括以下：

作为本发明的优选实施方式，上述步骤201中的噪声测试具体实现方式包括以下：

作为本发明的优选实施方式，上述步骤201中的偏移值测试具体实现方式包括以下：

作为本发明的优选实施方式，上述步骤503中的特征提取以及语音识别具体包括以下：

通过下式进行Mel频率的提取：

在本实施方式中，

模式匹配是语音识别系统的核心。将输入语音的特征矢量与模板库进行相似度比较，将相似度最高者作为识别结果输出。DNN是对输入信号的后验概率进行建模，得到后验概率需要和先验概率相结合，转化得到状态的观察概率。输入样本为x，输出状态为s，P(s丨x)表示DNN后验概率的输出，即：

其中，P(s)为建模单元的先验概率，P(x)为观测样本的先验概率。得到的观察概率可结合HMM以及语言模型进行解码。

经深度神经网络-隐马尔科夫混合模型算法输出的概率数值可被有效利用，从而计算得出当前被识别的语音与校正后标准语音之间的差值，即误差值或偏移值，如图4所示。在输入层中，输入两个有效值imput_1和imput_2，分别经过权重W、激活函数的运算，最后输出output_1和output_2的同时输出误差值，反向传导对权重进行更新，以此得到训练数据。当经过训练得到相对的成熟神经网络架构，此时的输出数据可作为标准语音数据，而每当新的语音输入网络，通过运算后输出计算得到的误差值e为所求偏移值。

作为本发明的优选实施方式，还包括反馈信息检测方法，具体包括以下：

在本实施方式中，参照图2，红外接收设备由红外接收电路、红外解码芯片、电源和应用电路组成。通过把二进制数据信号调制成为脉冲信号，经红外发射管发射。而红外发射端为了提高抗干扰性能和降低电源消耗，发射端常用载波的方式传送二进制编码。本实施方式设计的载波频率为38kHz，这是由发射端所使用的455kHz晶振决定。在发射端要对晶振进行整数分频，分频系数取12，所以455kHz÷12≈37.9kHz≈38kHz。

如图2所示，数据格式包括了起始码、用户码、数据码和数据码反码，总占32位。数据反码是数据码反相后的编码，编码时可用于对数据的纠错。本系统红外通信协议以PWM(Pulse Width8Modulation，脉冲宽度调制)方式进行编码，接收端通过图3方式解码，逻辑“0”如图3中(a)所示的传输需要1.125ms，其间560us的低电平后经560us的高电平；逻辑“1”如图3中的(b)所示的传输需要2.250ms，其间560us的低电平后经1680us的高电平。当STM32开始等待来自语音模块的反馈信息时，红外接收端进入工作状态，利用接收端时刻检测空间中的红外信号。图2中，若检测到通信协议中的起始码时，即9ms的低电平后出现4.5ms的高电平，意味着数据开始接收，反之，持续等待接收。经过识别起始码后将会出现一帧32位的数据，前16位为用户码，然后是8位数据码，最后8位数据反码。用户码可用作识别多个设备，因为本系统目前只考虑一个发射端，用户码仅用作排除无关信号。数据码承载着识别的核心信息，每当语音模块反馈出不同语音，都将输出不同电信号，接收端通过解码此信号从而判断语音模块的各种动作，若此动作与测试系统的期望相符合，则此次识别记为识别正确；反之，出现与期望不相符，则记为识别错误。数据反码用作最后的数据校验，若数据反码确实为数据码的反相，证明数据帧被完整发送了。

另外，如图6所示是本装置的仿真结果示意了，其中折线1代表人工测试时针对不同的词条的语音识别率的变化，折线2代表采用本装置后针对不同的语音识别率的变化，可以看到采用本装置后，明显比人工测试时折线的波动程度小了很多。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储的介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

尽管本发明的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释，从而有效地涵盖本发明的预定范围。此外，上文以发明人可预见的实施例对本发明进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本发明的非实质性改动仍可代表本发明的等效改动。

以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，都应属于本发明的保护范围。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

Claims

1.一种语音识别率分析装置，其特征在于，包括：

语音获取模块，用于获取需要进行测试的语音信息；

噪声测试模块，包括，

偏移值测试模块，包括，

采样单元，所述采样单元用于对获取的语音信息进行采样，

显示模块，用于显示测试结果；

2.一种基于权利要求1所述的语音识别率分析装置的分析方法，其特征在于，包括以下：

3.根据权利要求2所述的分析方法，其特征在于，上述步骤201中的距离测试具体实现方式包括以下：

4.根据权利要求2所述的分析方法，其特征在于，上述步骤201中的噪声测试具体实现方式包括以下：

5.根据权利要求2所述的分析方法，其特征在于：上述步骤201中的偏移值测试具体实现方式包括以下：

6.根据权利要求5所述的分析方法，其特征在于：上述步骤503中的特征提取以及语音识别具体包括以下：

通过下式进行Mel频率的提取：

7.根据权利要求2所述的分析方法，其特征在于：还包括反馈信息检测方法，具体包括以下：

8.一种计算机可读存储的介质，所述计算机可读存储的介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求2-7中任一项所述的分析方法的步骤。