CN116705009A - 一种机场保障人员的语音识别方法、系统及手持终端 - Google Patents
一种机场保障人员的语音识别方法、系统及手持终端 Download PDFInfo
- Publication number
- CN116705009A CN116705009A CN202310967114.2A CN202310967114A CN116705009A CN 116705009 A CN116705009 A CN 116705009A CN 202310967114 A CN202310967114 A CN 202310967114A CN 116705009 A CN116705009 A CN 116705009A
- Authority
- CN
- China
- Prior art keywords
- dictionary
- voiced
- unvoiced
- combined
- sparsity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 48
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000000354 decomposition reaction Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 230000037433 frameshift Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 230000007547 defect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000005311 autocorrelation function Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008092 positive effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012850 discrimination method Methods 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
- G10L2025/932—Decision in previous or following frames
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明属于语音识别技术领域,公开了一种机场保障人员的语音识别方法、系统及手持终端。该方法将获取的语音信号进行稀疏表示;使用K‑SVD算法对稀疏表示后的语音信号进行字典学习,训练出多个清音字典和多个浊音字典;将多个清音字典构成组合清音字典,将多个浊音字典构成浊音组合字典;将待测语音信号分别在组合浊音字典和组合清音字典上进行稀疏表示;分别计算组合清音的稀疏度和组合浊音的稀疏度,通过比较稀疏度进行清浊音判别。本发明根据稀疏度的大小判别清音和浊音,检测出待测语音信号的有效语音,提高清浊音判决的准确性,提升机场保障人员上报保障节点的准确性,有助于机场指挥中心监管保障环节的上报进度、上报正常率。
Description
技术领域
本发明属于语音识别技术领域,尤其涉及一种机场保障人员的语音识别方法、系统及手持终端。
背景技术
“智慧机场”是运用各种信息化和通信技术手段,感测、分析、整合机场各种关键信息,实现对机场安全、服务、运营、保障等各种需求做出数字化处理、智能化响应的建设和再造过程,是协同工作与决策机制、资源优化的整合,是云计算、物联网、大数据与低碳节能等新技术的应用结合。通过数字化手段监控机场保障人员的任务完成情况,更好地完成机场各项保障任务的调度也是智慧机场的一部分。机场保障人员在执行任务时外部环境复杂,且存在各样的噪声,导致在手持终端语音上报保障节点的到位、开始和完成出现语音识别不精准的情况。因此需要一种语音识别算法来提升语音识别的准确度。
语音是人类交流最重要的手段之一,是人们传递信息最快捷和最直接的方式。随着人工智能的发展,语音交流不再限制于人与人之间,如何让机器听懂人类的语言是人工智能技术研究的重点。语音识别技术是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别过程主要有语音信号采集、语音信号预处理、特征提取、模式匹配、语音识别。在进行语音识别之前,语音信号预处理中的端点检测是非常关键的一步,端点检测是从包含语音的一段信号中确定出语音的起点和终点。有效的端点检测不仅能减少处理时间,而且能排除无声段的噪声干扰,提高语音识别的正确率。研究表明,即使在安静的环境下,语音识别系统一半以上的错误可能主要来源于端点检测。根据人类的发声原理,语音可根据是否具有周期性分为浊音和清音,浊音具有明显的周期性,清音则具有随机噪声的特征。利用语音信号的这一特性可以进行清浊音判决及语音端点检测。目前常用的清浊音判决方法有短时平均过零率,短时能量和自相关函数等方法,这些传统方法计算复杂,对清浊音的判决准确度不高,因此需要一种高准确度的清浊音判决方法,在语音识别之前进行清音和浊音的判决,降低语音识别误判率。
通过上述分析,现有技术存在的问题及缺陷为:实际机场保障人员上报语音常有连续发音、单音素发音过短或者语音中含有噪声的情况出现,目前各种清浊音判别的方法(短时能量、过零率、自相关函数)都是基于传统奈奎斯特采样,对噪声敏感,具有运算量大和复杂度高的缺点,且存在语音识别中清浊音判别和端点检测判别准确率不高。
发明内容
为克服相关技术中存在的问题,本发明公开实施例提供了一种机场保障人员的语音识别方法、系统及手持终端。
所述技术方案如下:机场保障人员的语音识别方法,应用于手持终端,该方法包括以下步骤:
S1,将获取的语音信号进行稀疏表示;
S2,使用K-SVD算法对稀疏表示后的语音信号进行字典学习,训练出多个清音字典和多个浊音字典;
S3,将多个清音字典构成组合清音字典,将多个浊音字典构成浊音组合字典;
S4,将待测语音信号分帧后,分别在组合浊音字典和组合清音字典上进行稀疏表示,获得每段语音信号在组合清音字典和组合浊音字典上的稀疏系数;
S5,通过每段待测语音信号的稀疏系数分别计算组合清音的稀疏度和组合浊音的稀疏度,通过比较稀疏度进行清浊音判别。
在步骤S1中,将获取的语音信号进行稀疏表示包括稀疏编码和更新字典,采用OMP算法对输入信号进行稀疏分解并计算重构误差,采用 K-SVD算法对字典进行构造更新。
所述OMP算法将正交化的机场语音输入信号作为局部最优解,从过完备字典中选择与匹配信号进行稀疏逼近并求解残差,通过反复迭代计算获得全局最优解,当达到预设迭代次数N时,停止迭代。
所述OMP算法具体包括:
输入:过完备字典,原始语音信号/>,稀疏度/>;
输出:稀疏系数的稀疏度/>约束下的稀疏逼近/>;
初始化:残差,索引集/>;
循环执行步骤(1)-步骤(5):
(1)找出残差与过完备字典/>中某列/>内积最大所对应的下标;
(2)更新索引,更新字典原子构成的集合/>;
(3)最小二乘法计算得J阶逼近;
(4)更新残差;
(5)如果,迭代结束;否则重复步骤(1)。
在步骤S2中,K-SVD算法使用K个原子的线性组合来表示信号,通过计算与原始信号的误差,选择误差/>最小项进行SVD后分解,作为字典的新原子,并更新字典;具体包括:
通过得到对原始样本进行学习的冗余字典,利用原子的线性组合表示;
对于样本集合,稀疏表示为:
;
其中,为样本集合,/>为矩阵的第/>列,/>表示矩阵中的数均为实数,/>为/>行,/>为/>列,/>为过完备字典,/>为/>对应稀疏系数构成的矩阵,/>,;算法表示为:
;
其中,为稀疏度,/>为重构误差,在一定的稀疏约束L下,利用最小化重构误差对/>进行求解。
所述利用最小化重构误差对进行求解,包括:
初始化,在/>中随机选取/>个样本对字典进行初始化,稀疏度/>;
稀疏编码,将公式(2)转换为采用OMP算法,求解对应的系数矩阵,将正交化的输入信号作为局部最优解,从过完备字典中选择与其最匹配的信号进行稀疏逼近并求解残差,通过反复迭代计算获得全局最优解,达到预设的稀疏度/>,停止迭代;
字典更新,交替优化求解和/>,在更新时对/>中的非零列逐次更新,将式(2) 转换为:
;
式中,为/>的第/>列,/>为/>的第/>行,/>为去掉/>列的残差,进行SVD分解,得到更新后的/>和/>,得到奇异值分解SVD的公式:
;
通过不断地迭代,分别计算出最优解和/>,为最优字典,/>为稀疏系数矩阵。
在步骤S3中,将多个清音字典构成组合清音字典,将多个浊音字典构成浊音组合字典,包括:
将清音信号和浊音信号进行分帧处理,帧长为128ms,帧移设置为32ms,通过K-SVD算法求解出多个清音字典和多个浊音字典/>,将求得的多个清音字典构成组合清音字典/>,将多个浊音字典构成组合浊音字典/>。
在步骤S5中,将求得的多个清音字典构成组合清音字典,将多个浊音字典构成组合浊音字典/>,包括:
采用范数分别计算组合清音系数/>的稀疏度/>和组合浊音系数/>的稀疏度,计算公式为:
;
;
当组合清音系数的稀疏度/>大于组合浊音系数/>的系数度/>时,判别为浊音;当组合清音系数/>的稀疏度/>小于组合浊音系数/>的系数度/>时,判别为清音。
本发明的另一目的在于提供一种机场保障人员的语音识别系统,实施所述的机场保障人员的语音识别方法,该系统包括:
字典学习模块,用于使用K-SVD算法对稀疏表示后的语音信号进行字典学习,训练出多个清音字典和多个浊音字典;
组合浊音字典构成模块,用于将多个清音字典构成组合清音字典,将多个浊音字典构成浊音组合字典;
稀疏表示模块,用于将待测语音信号分帧后,分别在组合浊音字典和组合清音字典上进行稀疏表示,获得每段语音信号在组合清音字典和组合浊音字典上的稀疏系数;
浊音清音判别模块,用于通过每段待测语音信号的稀疏系数分别计算组合清音的稀疏度和组合浊音的稀疏度,通过比较稀疏度进行清浊音判别。
本发明的另一目的在于提供一种机场保障人员的语音识别手持终端,该手持终端搭载所述的机场保障人员的语音识别系统。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明提供了一种基于K-SVD和稀疏度的清浊音判别方法,该方法通过对待测语音进行字典学习、稀疏表示及稀疏度计算,根据其稀疏度的大小判别清音和浊音,检测出待测语音信号的有效语音,提高清浊音判决的准确性,来提升机场保障人员上报保障节点的准确性,有助于机场指挥中心监管保障环节的上报进度、上报正常率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理;
图1是本发明实施例提供的机场保障人员的语音识别方法流程图;
图2是本发明实施例提供的K-SVD算法更新字典的流程图;
图3是本发明实施例提供的机场保障人员的语音识别系统示意图;
图中:1、字典学习模块;2、组合浊音字典构成模块;3、稀疏表示模块;4、浊音清音判别模块。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其他方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。
本发明针对语音识别中清浊音判别和端点检测不精准的问题,提出一种机场保障人员的语音识别方法包括:首先使用K-SVD算法对语音库中的纯净语音进行字典学习,训练出多个清音字典和多个浊音字典;将清音字典构成组合清音字典,浊音字典构成组合浊音字典;将机场获取的保障人员语音信号采用OMP算法分别在组合清音字典和组合浊音字典上进行稀疏表示,采用l0范数分别计算组合清音系数的稀疏度/>和组合浊音系数/>的稀疏度/>。当/>的稀疏度/>大于/>的系数度/>时,判别为浊音;当/>的稀疏度/>小于的系数度/>时,判别为清音。本发明的清浊音判决方法不受阈值的干扰,可以很好地判决清音和浊音,并且具有较高的准确性,大大提升了语音识别的准确性。
本发明的创新点还在于将算法应用于语音信号处理方向且应用于机场语音识别方向。
实施例1,如图1所示,本发明实施例提供的一种机场保障人员的语音识别方法包括(基于K-SVD和稀疏度的清浊音语音判别方法),保障人员在手持终端上报保障任务时进行语音识别。包括以下步骤:
S1,将获取的语音信号进行稀疏表示;
S2,使用K-SVD算法对稀疏表示后的语音信号进行字典学习,训练出多个清音字典和多个浊音字典;
S3,将多个清音字典构成组合清音字典,将多个浊音字典构成浊音组合字典;
S4,将待测语音信号分帧后,分别在组合浊音字典和组合清音字典上进行稀疏表示,获得每段语音信号在组合清音字典和组合浊音字典上的稀疏系数;
S5,通过每段待测语音信号的稀疏系数分别计算组合清音的稀疏度和组合浊音的稀疏度,通过比较稀疏度进行清浊音判别。
在本发明实施例中,所述步骤S1所提到的稀疏表示是在给定的过完备字典中用尽可能少的原子来对语音信号进行线性表示。其实质是在稀疏度不变的情况下,对过完备字典上的信号进行稀疏逼近,有效提取语音信号内部结构和本质特征,以便于对信号进行进一步压缩、编码等处理。语音信号的稀疏表示主要分为稀疏编码和更新字典两部分。本发明采用 OMP算法对输入信号进行稀疏分解并计算重构误差,采用 K-SVD算法对字典进行构造更新。
OMP算法是一种典型的贪婪算法,其基本思想是将正交化的机场语音输入信号作为局部最优解,从过完备字典中选择与其最匹配的信号进行稀疏逼近并求解残差,通过反复迭代计算来获得全局最优解,当达到预设迭代次数N时停止迭代。具体的算法过程如下:
输入:过完备字典,原始语音信号/>,稀疏度/>;
输出:稀疏系数的稀疏度/>约束下的稀疏逼近/>;
初始化:残差,索引集/>;
循环执行步骤(1)-步骤(5):
(1)找出残差与过完备字典/>中某列/>内积最大所对应的下标;
(2)更新索引,更新字典原子构成的集合/>;
(3)最小二乘法计算得J阶逼近;
(4)更新残差;
(5)如果,迭代结束;否则重复步骤(1)。
在本发明实施例中,所述步骤S2所提到的K-SVD算法是在 K-means算法的基础上发展起来的一种聚类字典构建算法。K-SVD算法以误差最小原则作为基本思想、聚类最大值作为分类中心,使用K个原子的线性组合来表示信号,通过计算其与原始信号的误差,选择误差/>最小项进行SVD后分解作为字典的新原子,从而达到更新字典的目的。
K-SVD算法是将K-Means与SVD进行了有机结合。通过得到一个对原始样本进行学习的冗余字典,利用其原子的线性组合来实现近似表示。
对于样本集合,稀疏表示为:
;
其中,为样本集合,/>为矩阵的第/>列,/>表示矩阵中的数均为实数,/>为/>行,/>为/>列,/>为过完备字典,/>为/>对应稀疏系数构成的矩阵,/>,;算法表示为:
;
其中,为稀疏度,/>为重构误差,在一定的稀疏约束L下,利用最小化重构误差对/>进行求解。
所述求解过程分为三步:
初始化,在/>中随机选取/>个样本对字典进行初始化,稀疏度/>;
稀疏编码,将公式(2)转换为采用OMP算法,求解对应的系数矩阵,将正交化的输入信号作为局部最优解,从过完备字典中选择与其最匹配的信号进行稀疏逼近并求解残差,通过反复迭代计算获得全局最优解,达到预设的稀疏度/>,停止迭代;
字典更新,交替优化求解和/>,在更新时对/>中的非零列逐次更新,将式(2) 转换为:
;
式中,为/>的第/>列,/>为/>的第/>行,/>为去掉/>列的残差,进行SVD分解,得到更新后的/>和/>,得到奇异值分解SVD的公式:
;
通过不断地迭代,分别计算出最优解和/>,为最优字典,/>为稀疏系数矩阵。
初始化字典;
使用OMP算法计算稀疏系数,计算/>是否小于/>;若小于/>则进行下一步;若不小于/>,则结束;
K-SVD算法更新字典并计算残差;
计算,若等式成立则进行下一步;若等式不成立,则结束;
是否更新完全部原子;若是,则进行下一步,若否,则返回K-SVD算法更新字典并计算残差步骤;
输出D;
结束。
所述步骤S3中,将多个清音字典构成组合清音字典,将多个浊音字典构成浊音组合字典包括:
将清音信号和浊音信号进行分帧处理,帧长为128ms,帧移设置为32ms,通过K-SVD算法求解出多个清音字典和多个浊音字典/>,将求得的多个清音字典构成组合清音字典/>,将多个浊音字典构成组合浊音字典/>。
在本发明实施例中,S3中将获取的机场语音信号分别表示在组合清音字段和组合浊音字典上,得到组合清音系数和组合浊音系数/>。
稀疏性指的是稀疏系数的范数,因此在S5中,采用/>范数分别计算组合清音系数/>的稀疏度/>和组合浊音系数/>的稀疏度/>,计算公式为:
;
;
当组合清音系数的稀疏度/>大于组合浊音系数/>的系数度/>时,判别为浊音;当组合清音系数/>的稀疏度/>小于组合浊音系数/>的系数度/>时,判别为清音。
通过上述实施例,本发明通过上述公式中阐述的更新字典和稀疏表示,不断迭代优化,寻找最优的稀疏系数矩阵和字典,使得清浊音判别的效果达到最佳,从而提升手持端语音识别的效果;
同时本发明应用于机场保障人员使用手持终端的语音识别中,通过算法中字典学习及字典更新,可更好地分割清音和浊音语音,提升保障人员上报保障任务时语音识别的效果,消除机场杂音对保障人员语音上报的影响。可应用于机场等多种场景,为机场监管保障环节的完成情况带来便利。
目前各种清浊音判别的方法(短时能量、过零率、自相关函数)都是基于传统奈奎斯特采样,对噪声敏感,具有运算量大和复杂度高的缺点,且存在语音识别中清浊音判别和端点检测判别准确率不高。本发明的清浊音判别算法可以提升判别准确率,提升语音识别的效果。
实施例2,如图3所示,本发明实施例提供的机场保障人员的语音识别系统包括:
字典学习模块1,用于使用K-SVD算法对稀疏表示后的语音信号进行字典学习,训练出多个清音字典和多个浊音字典;
组合浊音字典构成模块2,用于将多个清音字典构成组合清音字典,将多个浊音字典构成浊音组合字典;
稀疏表示模块3,用于将待测语音信号分帧后,分别在组合浊音字典和组合清音字典上进行稀疏表示,获得每段语音信号在组合清音字典和组合浊音字典上的稀疏系数;
浊音清音判别模块4,用于通过每段待测语音信号的稀疏系数分别计算组合清音的稀疏度和组合浊音的稀疏度,通过比较稀疏度进行清浊音判别。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
上述装置/单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程。
基于上述本发明实施例记载的技术方案,进一步的可提出以下应用例。
根据本申请的实施例,本发明还提供了一种计算机设备,该计算机设备包括:至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。
本发明实施例还提供了一种信息数据处理终端,所述信息数据处理终端用于实现于电子装置上执行时,提供用户输入接口以实施如上述各方法实施例中的步骤,所述信息数据处理终端不限于手机、电脑、交换机。
本发明实施例还提供了一种服务器,所述服务器用于实现于电子装置上执行时,提供用户输入接口以实施如上述各方法实施例中的步骤。
本发明实施例还提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行时可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
为进一步证明上述实施例的积极效果,本发明基于上述技术方案进行如下实验。本发明用于机场保障人员上报保障任务,将本发明中清浊音判别算法应用于手持终端语音识别。在本发明算法中不断迭代进行字典学习求取最优字典和最优稀疏系数矩阵,相较传统的清浊音判别算法,清浊音判别的效果更好,可以大大提升清浊音判别准确性,提升机场保障人员上报保障任务时的语音识别效果。
以上所述,仅为本发明较优的具体的实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种机场保障人员的语音识别方法,其特征在于,应用于手持终端,该方法包括以下步骤:
S1,将获取的语音信号进行稀疏表示;
S2,使用K-SVD算法对稀疏表示后的语音信号进行字典学习,训练出多个清音字典和多个浊音字典;
S3,将多个清音字典构成组合清音字典,将多个浊音字典构成浊音组合字典;
S4,将待测语音信号分帧后,分别在组合浊音字典和组合清音字典上进行稀疏表示,获得每段语音信号在组合清音字典和组合浊音字典上的稀疏系数;
S5,通过每段待测语音信号的稀疏系数分别计算组合清音的稀疏度和组合浊音的稀疏度,通过比较稀疏度进行清浊音判别。
2.根据权利要求1所述的机场保障人员的语音识别方法,其特征在于,在步骤S1中,将获取的语音信号进行稀疏表示包括稀疏编码和更新字典,采用 OMP算法对输入信号进行稀疏分解并计算重构误差,采用 K-SVD算法对字典进行构造更新。
3.根据权利要求2所述的机场保障人员的语音识别方法,其特征在于,所述OMP算法将正交化的机场语音输入信号作为局部最优解,从过完备字典中选择与匹配信号进行稀疏逼近并求解残差,通过反复迭代计算获得全局最优解,当达到预设迭代次数N时,停止迭代。
4.根据权利要求3所述的机场保障人员的语音识别方法,其特征在于,所述OMP算法具体包括:
输入:过完备字典,原始语音信号/>,稀疏度/>;
输出:稀疏系数的稀疏度/>约束下的稀疏逼近/>;
初始化:残差,索引集/>;
循环执行步骤(1)-步骤(5):
(1)找出残差与过完备字典/>中某列/>内积最大所对应的下标;
(2)更新索引,更新字典原子构成的集合/>;
(3)最小二乘法计算得J阶逼近;
(4)更新残差;
(5)如果,迭代结束;否则重复步骤(1)。
5.根据权利要求1所述的机场保障人员的语音识别方法,其特征在于,在步骤S2中,K-SVD算法使用K个原子的线性组合来表示信号,通过计算与原始信号的误差,选择误差/>最小项进行SVD后分解,作为字典的新原子,并更新字典;具体包括:
通过得到对原始样本进行学习的冗余字典,利用原子的线性组合表示;
对于样本集合,稀疏表示为:
;
其中,为样本集合,/>为矩阵的第/>列,/>表示矩阵中的数均为实数,/>为/>行,/>为列,/>为过完备字典,/>为/>对应稀疏系数构成的矩阵,/>,;算法表示为:
;
其中,为稀疏度,/>为重构误差,在一定的稀疏约束/>下,利用最小化重构误差对/>进行求解。
6.根据权利要求5所述的机场保障人员的语音识别方法,其特征在于,所述利用最小化重构误差对进行求解,包括:
初始化,在/>中随机选取/>个样本对字典进行初始化,稀疏度/>;
稀疏编码,将公式(2)转换为采用OMP算法,求解对应的系数矩阵,将正交化的输入信号作为局部最优解,从过完备字典中选择与其最匹配的信号进行稀疏逼近并求解残差/>,通过反复迭代计算获得全局最优解,达到预设的稀疏度/>,停止迭代;
字典更新,交替优化求解和/>,在更新时对/>中的非零列逐次更新,将式(2) 转换为:
;
式中,为/>的第/>列,/>为/>的第/>行,/>为去掉/>列的残差,进行SVD分解,得到更新后的/>和/>,得到奇异值分解SVD的公式:
;
通过不断地迭代,分别计算出最优解和/>,为最优字典,/>为稀疏系数矩阵。
7.根据权利要求1所述的机场保障人员的语音识别方法,其特征在于,在步骤S3中,将多个清音字典构成组合清音字典,将多个浊音字典构成浊音组合字典,包括:
将清音信号和浊音信号进行分帧处理,帧长为128ms,帧移设置为32ms,通过K-SVD算法求解出多个清音字典和多个浊音字典/>,将求得的多个清音字典构成组合清音字典/>,将多个浊音字典构成组合浊音字典/>。
8.根据权利要求1所述的机场保障人员的语音识别方法,其特征在于,在步骤S5中,将求得的多个清音字典构成组合清音字典,将多个浊音字典构成组合浊音字典/>,包括:
采用范数分别计算组合清音系数/>的稀疏度/>和组合浊音系数/>的稀疏度/>,计算公式为:
;
;
当组合清音系数的稀疏度/>大于组合浊音系数/>的系数度/>时,判别为浊音;当组合清音系数/>的稀疏度/>小于组合浊音系数/>的系数度/>时,判别为清音。
9.一种机场保障人员的语音识别系统,其特征在于,实施权利要求1-8任意一项所述的机场保障人员的语音识别方法,该系统包括:
字典学习模块(1),用于使用K-SVD算法对稀疏表示后的语音信号进行字典学习,训练出多个清音字典和多个浊音字典;
组合浊音字典构成模块(2),用于将多个清音字典构成组合清音字典,将多个浊音字典构成浊音组合字典;
稀疏表示模块(3),用于将待测语音信号分帧后,分别在组合浊音字典和组合清音字典上进行稀疏表示,获得每段语音信号在组合清音字典和组合浊音字典上的稀疏系数;
浊音清音判别模块(4),用于通过每段待测语音信号的稀疏系数分别计算组合清音的稀疏度和组合浊音的稀疏度,通过比较稀疏度进行清浊音判别。
10.一种机场保障人员的语音识别手持终端,其特征在于,该手持终端搭载权利要求9所述的机场保障人员的语音识别系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310967114.2A CN116705009A (zh) | 2023-08-03 | 2023-08-03 | 一种机场保障人员的语音识别方法、系统及手持终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310967114.2A CN116705009A (zh) | 2023-08-03 | 2023-08-03 | 一种机场保障人员的语音识别方法、系统及手持终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116705009A true CN116705009A (zh) | 2023-09-05 |
Family
ID=87824286
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310967114.2A Pending CN116705009A (zh) | 2023-08-03 | 2023-08-03 | 一种机场保障人员的语音识别方法、系统及手持终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116705009A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102332268A (zh) * | 2011-09-22 | 2012-01-25 | 王天荆 | 基于自适应冗余字典的语音信号稀疏表示方法 |
CN107305770A (zh) * | 2016-04-21 | 2017-10-31 | 华为技术有限公司 | 一种音频信号的采样和重建方法、装置及系统 |
-
2023
- 2023-08-03 CN CN202310967114.2A patent/CN116705009A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102332268A (zh) * | 2011-09-22 | 2012-01-25 | 王天荆 | 基于自适应冗余字典的语音信号稀疏表示方法 |
CN107305770A (zh) * | 2016-04-21 | 2017-10-31 | 华为技术有限公司 | 一种音频信号的采样和重建方法、装置及系统 |
Non-Patent Citations (2)
Title |
---|
刘煜,刘进,李海峰,张茂军著: "《稀疏表示基础理论与典型应用》", 长沙:国防科学技术大学出版社, pages: 178 - 181 * |
王莲子等: "基于K-SVD算法和组合字典的语音信号清浊音判决研究", 青岛大学学报(工程技术版), pages 1 - 7 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113792818B (zh) | 意图分类方法、装置、电子设备及计算机可读存储介质 | |
WO2021174757A1 (zh) | 语音情绪识别方法、装置、电子设备及计算机可读存储介质 | |
CN110704621A (zh) | 文本处理方法、装置及存储介质和电子设备 | |
Kamper et al. | Fully unsupervised small-vocabulary speech recognition using a segmental bayesian model | |
CN113837299B (zh) | 基于人工智能的网络训练方法及装置、电子设备 | |
CN116110405B (zh) | 一种基于半监督学习的陆空通话说话人识别方法及设备 | |
Räsänen et al. | A method for noise-robust context-aware pattern discovery and recognition from categorical sequences | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN117115581A (zh) | 一种基于多模态深度学习的智能误操作预警方法及系统 | |
CN115394287A (zh) | 混合语种语音识别方法、装置、系统及存储介质 | |
CN106448660B (zh) | 一种引入大数据分析的自然语言模糊边界确定方法 | |
CN116661805A (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
Wang et al. | Deep learning approaches for voice activity detection | |
Ahmed et al. | CNN-based speech segments endpoints detection framework using short-time signal energy features | |
Musaev et al. | Automatic recognition of Uzbek speech based on integrated neural networks | |
Ameen et al. | Machine learning for Arabic phonemes recognition using electrolarynx speech | |
Shekofteh et al. | MLP-based isolated phoneme classification using likelihood features extracted from reconstructed phase space | |
CN112307179A (zh) | 文本匹配方法、装置、设备及存储介质 | |
CN112818688B (zh) | 文本处理方法、装置、设备及存储介质 | |
Tailor et al. | Deep learning approach for spoken digit recognition in Gujarati language | |
CN116705009A (zh) | 一种机场保障人员的语音识别方法、系统及手持终端 | |
Slívová et al. | Isolated word automatic speech recognition system | |
Khalid et al. | ORVAE: one-class residual variational autoencoder for voice activity detection in noisy environment | |
Räsänen et al. | A noise robust method for pattern discovery in quantized time series: the concept matrix approach | |
CN112951270A (zh) | 语音流利度检测的方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230905 |