CN116705009A

CN116705009A - 一种机场保障人员的语音识别方法、系统及手持终端

Info

Publication number: CN116705009A
Application number: CN202310967114.2A
Authority: CN
Inventors: 范珍艳; 陈娟; 张芳; 孙瀚博; 倪守娟; 张丽; 刘伟; 刘青; 刘晓疆
Original assignee: Qingdao Civil Aviation Cares Co ltd
Current assignee: Qingdao Civil Aviation Cares Co ltd
Priority date: 2023-08-03
Filing date: 2023-08-03
Publication date: 2023-09-05

Abstract

本发明属于语音识别技术领域，公开了一种机场保障人员的语音识别方法、系统及手持终端。该方法将获取的语音信号进行稀疏表示；使用K‑SVD算法对稀疏表示后的语音信号进行字典学习，训练出多个清音字典和多个浊音字典；将多个清音字典构成组合清音字典，将多个浊音字典构成浊音组合字典；将待测语音信号分别在组合浊音字典和组合清音字典上进行稀疏表示；分别计算组合清音的稀疏度和组合浊音的稀疏度，通过比较稀疏度进行清浊音判别。本发明根据稀疏度的大小判别清音和浊音，检测出待测语音信号的有效语音，提高清浊音判决的准确性，提升机场保障人员上报保障节点的准确性，有助于机场指挥中心监管保障环节的上报进度、上报正常率。

Description

一种机场保障人员的语音识别方法、系统及手持终端

技术领域

本发明属于语音识别技术领域，尤其涉及一种机场保障人员的语音识别方法、系统及手持终端。

背景技术

“智慧机场”是运用各种信息化和通信技术手段，感测、分析、整合机场各种关键信息，实现对机场安全、服务、运营、保障等各种需求做出数字化处理、智能化响应的建设和再造过程，是协同工作与决策机制、资源优化的整合，是云计算、物联网、大数据与低碳节能等新技术的应用结合。通过数字化手段监控机场保障人员的任务完成情况，更好地完成机场各项保障任务的调度也是智慧机场的一部分。机场保障人员在执行任务时外部环境复杂，且存在各样的噪声，导致在手持终端语音上报保障节点的到位、开始和完成出现语音识别不精准的情况。因此需要一种语音识别算法来提升语音识别的准确度。

语音是人类交流最重要的手段之一，是人们传递信息最快捷和最直接的方式。随着人工智能的发展，语音交流不再限制于人与人之间，如何让机器听懂人类的语言是人工智能技术研究的重点。语音识别技术是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别过程主要有语音信号采集、语音信号预处理、特征提取、模式匹配、语音识别。在进行语音识别之前，语音信号预处理中的端点检测是非常关键的一步，端点检测是从包含语音的一段信号中确定出语音的起点和终点。有效的端点检测不仅能减少处理时间，而且能排除无声段的噪声干扰，提高语音识别的正确率。研究表明，即使在安静的环境下，语音识别系统一半以上的错误可能主要来源于端点检测。根据人类的发声原理，语音可根据是否具有周期性分为浊音和清音，浊音具有明显的周期性，清音则具有随机噪声的特征。利用语音信号的这一特性可以进行清浊音判决及语音端点检测。目前常用的清浊音判决方法有短时平均过零率，短时能量和自相关函数等方法，这些传统方法计算复杂，对清浊音的判决准确度不高，因此需要一种高准确度的清浊音判决方法，在语音识别之前进行清音和浊音的判决，降低语音识别误判率。

通过上述分析，现有技术存在的问题及缺陷为：实际机场保障人员上报语音常有连续发音、单音素发音过短或者语音中含有噪声的情况出现，目前各种清浊音判别的方法（短时能量、过零率、自相关函数）都是基于传统奈奎斯特采样，对噪声敏感，具有运算量大和复杂度高的缺点，且存在语音识别中清浊音判别和端点检测判别准确率不高。

发明内容

为克服相关技术中存在的问题，本发明公开实施例提供了一种机场保障人员的语音识别方法、系统及手持终端。

所述技术方案如下：机场保障人员的语音识别方法，应用于手持终端，该方法包括以下步骤：

S1，将获取的语音信号进行稀疏表示；

S2，使用K-SVD算法对稀疏表示后的语音信号进行字典学习，训练出多个清音字典和多个浊音字典；

S3，将多个清音字典构成组合清音字典，将多个浊音字典构成浊音组合字典；

S4，将待测语音信号分帧后，分别在组合浊音字典和组合清音字典上进行稀疏表示，获得每段语音信号在组合清音字典和组合浊音字典上的稀疏系数；

S5，通过每段待测语音信号的稀疏系数分别计算组合清音的稀疏度和组合浊音的稀疏度，通过比较稀疏度进行清浊音判别。

在步骤S1中，将获取的语音信号进行稀疏表示包括稀疏编码和更新字典，采用OMP算法对输入信号进行稀疏分解并计算重构误差，采用 K-SVD算法对字典进行构造更新。

所述OMP算法将正交化的机场语音输入信号作为局部最优解，从过完备字典中选择与匹配信号进行稀疏逼近并求解残差，通过反复迭代计算获得全局最优解，当达到预设迭代次数N时，停止迭代。

所述OMP算法具体包括：

输入：过完备字典，原始语音信号/>，稀疏度/>；

输出：稀疏系数的稀疏度/>约束下的稀疏逼近/>；

初始化：残差，索引集/>；

循环执行步骤（1）-步骤（5）：

（1）找出残差与过完备字典/>中某列/>内积最大所对应的下标；

（2）更新索引，更新字典原子构成的集合/>；

（3）最小二乘法计算得J阶逼近；

（4）更新残差；

（5）如果，迭代结束；否则重复步骤（1）。

在步骤S2中，K-SVD算法使用K个原子的线性组合来表示信号，通过计算与原始信号的误差，选择误差/>最小项进行SVD后分解，作为字典的新原子，并更新字典；具体包括：

通过得到对原始样本进行学习的冗余字典，利用原子的线性组合表示；

对于样本集合，稀疏表示为：

；

其中，为样本集合，/>为矩阵的第/>列，/>表示矩阵中的数均为实数，/>为/>行，/>为/>列，/>为过完备字典，/>为/>对应稀疏系数构成的矩阵，/>，；算法表示为：

；

其中，为稀疏度，/>为重构误差，在一定的稀疏约束L下，利用最小化重构误差对/>进行求解。

所述利用最小化重构误差对进行求解，包括：

初始化，在/>中随机选取/>个样本对字典进行初始化，稀疏度/>；

稀疏编码，将公式（2）转换为采用OMP算法，求解对应的系数矩阵，将正交化的输入信号作为局部最优解，从过完备字典中选择与其最匹配的信号进行稀疏逼近并求解残差，通过反复迭代计算获得全局最优解，达到预设的稀疏度/>，停止迭代；

字典更新，交替优化求解和/>，在更新时对/>中的非零列逐次更新，将式（2）转换为：

；

式中，为/>的第/>列，/>为/>的第/>行，/>为去掉/>列的残差，进行SVD分解，得到更新后的/>和/>，得到奇异值分解SVD的公式：

；

通过不断地迭代，分别计算出最优解和/>，为最优字典，/>为稀疏系数矩阵。

在步骤S3中，将多个清音字典构成组合清音字典，将多个浊音字典构成浊音组合字典，包括：

将清音信号和浊音信号进行分帧处理，帧长为128ms，帧移设置为32ms，通过K-SVD算法求解出多个清音字典和多个浊音字典/>，将求得的多个清音字典构成组合清音字典/>，将多个浊音字典构成组合浊音字典/>。

在步骤S5中，将求得的多个清音字典构成组合清音字典，将多个浊音字典构成组合浊音字典/>，包括：

采用范数分别计算组合清音系数/>的稀疏度/>和组合浊音系数/>的稀疏度，计算公式为：

；

当组合清音系数的稀疏度/>大于组合浊音系数/>的系数度/>时，判别为浊音；当组合清音系数/>的稀疏度/>小于组合浊音系数/>的系数度/>时，判别为清音。

本发明的另一目的在于提供一种机场保障人员的语音识别系统，实施所述的机场保障人员的语音识别方法，该系统包括：

字典学习模块，用于使用K-SVD算法对稀疏表示后的语音信号进行字典学习，训练出多个清音字典和多个浊音字典；

组合浊音字典构成模块，用于将多个清音字典构成组合清音字典，将多个浊音字典构成浊音组合字典；

稀疏表示模块，用于将待测语音信号分帧后，分别在组合浊音字典和组合清音字典上进行稀疏表示，获得每段语音信号在组合清音字典和组合浊音字典上的稀疏系数；

浊音清音判别模块，用于通过每段待测语音信号的稀疏系数分别计算组合清音的稀疏度和组合浊音的稀疏度，通过比较稀疏度进行清浊音判别。

本发明的另一目的在于提供一种机场保障人员的语音识别手持终端，该手持终端搭载所述的机场保障人员的语音识别系统。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明提供了一种基于K-SVD和稀疏度的清浊音判别方法，该方法通过对待测语音进行字典学习、稀疏表示及稀疏度计算，根据其稀疏度的大小判别清音和浊音，检测出待测语音信号的有效语音，提高清浊音判决的准确性，来提升机场保障人员上报保障节点的准确性，有助于机场指挥中心监管保障环节的上报进度、上报正常率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理；

图1是本发明实施例提供的机场保障人员的语音识别方法流程图；

图2是本发明实施例提供的K-SVD算法更新字典的流程图；

图3是本发明实施例提供的机场保障人员的语音识别系统示意图；

图中：1、字典学习模块；2、组合浊音字典构成模块；3、稀疏表示模块；4、浊音清音判别模块。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其他方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施的限制。

本发明针对语音识别中清浊音判别和端点检测不精准的问题，提出一种机场保障人员的语音识别方法包括：首先使用K-SVD算法对语音库中的纯净语音进行字典学习，训练出多个清音字典和多个浊音字典；将清音字典构成组合清音字典，浊音字典构成组合浊音字典；将机场获取的保障人员语音信号采用OMP算法分别在组合清音字典和组合浊音字典上进行稀疏表示，采用l0范数分别计算组合清音系数的稀疏度/>和组合浊音系数/>的稀疏度/>。当/>的稀疏度/>大于/>的系数度/>时，判别为浊音；当/>的稀疏度/>小于的系数度/>时，判别为清音。本发明的清浊音判决方法不受阈值的干扰，可以很好地判决清音和浊音，并且具有较高的准确性，大大提升了语音识别的准确性。

本发明的创新点还在于将算法应用于语音信号处理方向且应用于机场语音识别方向。

实施例1，如图1所示，本发明实施例提供的一种机场保障人员的语音识别方法包括（基于K-SVD和稀疏度的清浊音语音判别方法），保障人员在手持终端上报保障任务时进行语音识别。包括以下步骤：

S1，将获取的语音信号进行稀疏表示；

在本发明实施例中，所述步骤S1所提到的稀疏表示是在给定的过完备字典中用尽可能少的原子来对语音信号进行线性表示。其实质是在稀疏度不变的情况下，对过完备字典上的信号进行稀疏逼近，有效提取语音信号内部结构和本质特征，以便于对信号进行进一步压缩、编码等处理。语音信号的稀疏表示主要分为稀疏编码和更新字典两部分。本发明采用 OMP算法对输入信号进行稀疏分解并计算重构误差，采用 K-SVD算法对字典进行构造更新。

OMP算法是一种典型的贪婪算法，其基本思想是将正交化的机场语音输入信号作为局部最优解，从过完备字典中选择与其最匹配的信号进行稀疏逼近并求解残差，通过反复迭代计算来获得全局最优解，当达到预设迭代次数N时停止迭代。具体的算法过程如下：

输入：过完备字典，原始语音信号/>，稀疏度/>；

输出：稀疏系数的稀疏度/>约束下的稀疏逼近/>；

初始化：残差，索引集/>；

循环执行步骤（1）-步骤（5）：

（2）更新索引，更新字典原子构成的集合/>；

（3）最小二乘法计算得J阶逼近；

（4）更新残差；

（5）如果，迭代结束；否则重复步骤（1）。

在本发明实施例中，所述步骤S2所提到的K-SVD算法是在 K-means算法的基础上发展起来的一种聚类字典构建算法。K-SVD算法以误差最小原则作为基本思想、聚类最大值作为分类中心，使用K个原子的线性组合来表示信号，通过计算其与原始信号的误差，选择误差/>最小项进行SVD后分解作为字典的新原子，从而达到更新字典的目的。

K-SVD算法是将K-Means与SVD进行了有机结合。通过得到一个对原始样本进行学习的冗余字典，利用其原子的线性组合来实现近似表示。

对于样本集合，稀疏表示为：

；

所述求解过程分为三步：

；

初始化字典；

使用OMP算法计算稀疏系数，计算/>是否小于/>；若小于/>则进行下一步；若不小于/>，则结束；

K-SVD算法更新字典并计算残差；

计算，若等式成立则进行下一步；若等式不成立，则结束；

是否更新完全部原子；若是，则进行下一步，若否，则返回K-SVD算法更新字典并计算残差步骤；

输出D；

结束。

所述步骤S3中，将多个清音字典构成组合清音字典，将多个浊音字典构成浊音组合字典包括：

在本发明实施例中，S3中将获取的机场语音信号分别表示在组合清音字段和组合浊音字典上，得到组合清音系数和组合浊音系数/>。

稀疏性指的是稀疏系数的范数，因此在S5中，采用/>范数分别计算组合清音系数/>的稀疏度/>和组合浊音系数/>的稀疏度/>，计算公式为：

；

通过上述实施例，本发明通过上述公式中阐述的更新字典和稀疏表示，不断迭代优化，寻找最优的稀疏系数矩阵和字典，使得清浊音判别的效果达到最佳，从而提升手持端语音识别的效果；

同时本发明应用于机场保障人员使用手持终端的语音识别中，通过算法中字典学习及字典更新，可更好地分割清音和浊音语音，提升保障人员上报保障任务时语音识别的效果，消除机场杂音对保障人员语音上报的影响。可应用于机场等多种场景，为机场监管保障环节的完成情况带来便利。

目前各种清浊音判别的方法（短时能量、过零率、自相关函数）都是基于传统奈奎斯特采样，对噪声敏感，具有运算量大和复杂度高的缺点，且存在语音识别中清浊音判别和端点检测判别准确率不高。本发明的清浊音判别算法可以提升判别准确率，提升语音识别的效果。

实施例2，如图3所示，本发明实施例提供的机场保障人员的语音识别系统包括：

字典学习模块1，用于使用K-SVD算法对稀疏表示后的语音信号进行字典学习，训练出多个清音字典和多个浊音字典；

组合浊音字典构成模块2，用于将多个清音字典构成组合清音字典，将多个浊音字典构成浊音组合字典；

稀疏表示模块3，用于将待测语音信号分帧后，分别在组合浊音字典和组合清音字典上进行稀疏表示，获得每段语音信号在组合清音字典和组合浊音字典上的稀疏系数；

浊音清音判别模块4，用于通过每段待测语音信号的稀疏系数分别计算组合清音的稀疏度和组合浊音的稀疏度，通过比较稀疏度进行清浊音判别。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

上述装置/单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程。

基于上述本发明实施例记载的技术方案，进一步的可提出以下应用例。

根据本申请的实施例，本发明还提供了一种计算机设备，该计算机设备包括：至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。

本发明实施例还提供了一种信息数据处理终端，所述信息数据处理终端用于实现于电子装置上执行时，提供用户输入接口以实施如上述各方法实施例中的步骤，所述信息数据处理终端不限于手机、电脑、交换机。

本发明实施例还提供了一种服务器，所述服务器用于实现于电子装置上执行时，提供用户输入接口以实施如上述各方法实施例中的步骤。

本发明实施例还提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行时可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random AccessMemory，RAM）、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。

为进一步证明上述实施例的积极效果，本发明基于上述技术方案进行如下实验。本发明用于机场保障人员上报保障任务，将本发明中清浊音判别算法应用于手持终端语音识别。在本发明算法中不断迭代进行字典学习求取最优字典和最优稀疏系数矩阵，相较传统的清浊音判别算法，清浊音判别的效果更好，可以大大提升清浊音判别准确性，提升机场保障人员上报保障任务时的语音识别效果。

以上所述，仅为本发明较优的具体的实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种机场保障人员的语音识别方法，其特征在于，应用于手持终端，该方法包括以下步骤：

S1，将获取的语音信号进行稀疏表示；

2.根据权利要求1所述的机场保障人员的语音识别方法，其特征在于，在步骤S1中，将获取的语音信号进行稀疏表示包括稀疏编码和更新字典，采用 OMP算法对输入信号进行稀疏分解并计算重构误差，采用 K-SVD算法对字典进行构造更新。

3.根据权利要求2所述的机场保障人员的语音识别方法，其特征在于，所述OMP算法将正交化的机场语音输入信号作为局部最优解，从过完备字典中选择与匹配信号进行稀疏逼近并求解残差，通过反复迭代计算获得全局最优解，当达到预设迭代次数N时，停止迭代。

4.根据权利要求3所述的机场保障人员的语音识别方法，其特征在于，所述OMP算法具体包括：

输入：过完备字典，原始语音信号/>，稀疏度/>；

输出：稀疏系数的稀疏度/>约束下的稀疏逼近/>；

初始化：残差，索引集/>；

循环执行步骤（1）-步骤（5）：

（2）更新索引，更新字典原子构成的集合/>；

（3）最小二乘法计算得J阶逼近；

（4）更新残差；

（5）如果，迭代结束；否则重复步骤（1）。

5.根据权利要求1所述的机场保障人员的语音识别方法，其特征在于，在步骤S2中，K-SVD算法使用K个原子的线性组合来表示信号，通过计算与原始信号的误差，选择误差/>最小项进行SVD后分解，作为字典的新原子，并更新字典；具体包括：

对于样本集合，稀疏表示为：

；

其中，为样本集合，/>为矩阵的第/>列，/>表示矩阵中的数均为实数，/>为/>行，/>为列，/>为过完备字典，/>为/>对应稀疏系数构成的矩阵，/>，；算法表示为：

；

其中，为稀疏度，/>为重构误差，在一定的稀疏约束/>下，利用最小化重构误差对/>进行求解。

6.根据权利要求5所述的机场保障人员的语音识别方法，其特征在于，所述利用最小化重构误差对进行求解，包括：

稀疏编码，将公式（2）转换为采用OMP算法，求解对应的系数矩阵，将正交化的输入信号作为局部最优解，从过完备字典中选择与其最匹配的信号进行稀疏逼近并求解残差/>，通过反复迭代计算获得全局最优解，达到预设的稀疏度/>，停止迭代；

；

7.根据权利要求1所述的机场保障人员的语音识别方法，其特征在于，在步骤S3中，将多个清音字典构成组合清音字典，将多个浊音字典构成浊音组合字典，包括：

8.根据权利要求1所述的机场保障人员的语音识别方法，其特征在于，在步骤S5中，将求得的多个清音字典构成组合清音字典，将多个浊音字典构成组合浊音字典/>，包括：

采用范数分别计算组合清音系数/>的稀疏度/>和组合浊音系数/>的稀疏度/>，计算公式为：

；

9.一种机场保障人员的语音识别系统，其特征在于，实施权利要求1-8任意一项所述的机场保障人员的语音识别方法，该系统包括：

字典学习模块（1），用于使用K-SVD算法对稀疏表示后的语音信号进行字典学习，训练出多个清音字典和多个浊音字典；

组合浊音字典构成模块（2），用于将多个清音字典构成组合清音字典，将多个浊音字典构成浊音组合字典；

稀疏表示模块（3），用于将待测语音信号分帧后，分别在组合浊音字典和组合清音字典上进行稀疏表示，获得每段语音信号在组合清音字典和组合浊音字典上的稀疏系数；

浊音清音判别模块（4），用于通过每段待测语音信号的稀疏系数分别计算组合清音的稀疏度和组合浊音的稀疏度，通过比较稀疏度进行清浊音判别。

10.一种机场保障人员的语音识别手持终端，其特征在于，该手持终端搭载权利要求9所述的机场保障人员的语音识别系统。