CN103268765B - 民航管制语音稀疏编码方法 - Google Patents

民航管制语音稀疏编码方法 Download PDF

Info

Publication number
CN103268765B
CN103268765B CN201310218874.XA CN201310218874A CN103268765B CN 103268765 B CN103268765 B CN 103268765B CN 201310218874 A CN201310218874 A CN 201310218874A CN 103268765 B CN103268765 B CN 103268765B
Authority
CN
China
Prior art keywords
voice
sparse
coding method
civil aviation
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310218874.XA
Other languages
English (en)
Other versions
CN103268765A (zh
Inventor
邱燕霖
吴戈
潘庆革
杨术轩
杨术森
林琳
刘哲
张磊
朱恩营
屈长鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHENYANG ATM(AIR TRAFFIC MANAGEMENT) TECHNOLOGY DEVELOPMENT Co Ltd
Original Assignee
SHENYANG ATM(AIR TRAFFIC MANAGEMENT) TECHNOLOGY DEVELOPMENT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENYANG ATM(AIR TRAFFIC MANAGEMENT) TECHNOLOGY DEVELOPMENT Co Ltd filed Critical SHENYANG ATM(AIR TRAFFIC MANAGEMENT) TECHNOLOGY DEVELOPMENT Co Ltd
Priority to CN201310218874.XA priority Critical patent/CN103268765B/zh
Publication of CN103268765A publication Critical patent/CN103268765A/zh
Application granted granted Critical
Publication of CN103268765B publication Critical patent/CN103268765B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

民航管制语音稀疏编码方法属于语音传输技术领域,尤其涉及一种民航管制语音稀疏编码方法。本发明提供一种编码速率低、语音质量好、安全性高、节省带宽的民航管制语音稀疏编码方法。本发明包括以下步骤:1)将待处理一段语音信号x(n)进行无交叠分帧处理,帧长为M=512,得到N帧短时平稳语音序列,构成NM维的矩阵:。2)对X进行中心化,从中去除X的均值,令其为,处理后的数据为,其稀疏分量为:,去除S中零元素,取少数非零分量组合得到新的系数为:。3)将通过稀疏变换矩阵进行反变换,得到压缩后的矩阵: 。4)由得压缩语音信号:

Description

民航管制语音稀疏编码方法
技术领域
本发明属于语音传输技术领域,尤其涉及一种民航管制语音稀疏编码方法。
背景技术
民用航空空中交通服务,是管制员利用地空通信传输话音、气象等信息,对管辖区域内民航飞行器实施指挥、管制与引导等行为的总称。其中,语音通信是整个民航安全生产过程中最重要的环节。飞机飞行中的安全性主要靠语音通信指挥和保障。2006年以来,我国民用航空运输总量稳居世界第2,且以年均15%的速率持续增长,航班密度不断增大,导致空中交通管制语音通信容量急剧增加,找寻一种占用带宽更小、语音质量好的压缩方法成为一种必然的趋势。
卫星等窄带传输是民航语音通信的重要手段,要满足这样的传输方式,除了要保证传输语音的实时性和准确性,还要具备延时小、复杂度低等特点。
语音编码主要有三种方式: 波形编码、声码器和混合编码, 通常把编码速率低于64kbps的语音编码方式称为语音压缩编码技术。波形编码是将语音信号当作一般波形信号来处理,使重构的语音波形与原始语音波形尽可能保持一致,即在编码时以波形逼近为原则对语音信号进行编码。波形编码具有适应能力强、语音质量好和抗噪性强等优点,但是其编码速率较高,一般在16kb/s~64kb/s范围内。常见的编码方式包括脉冲编码调制(PCM)、自适应差分脉码调制(ADPCM)等。参数编码的基本思想是通过提取语音信号的特征参数来进行编码,力图使重构的语音具有尽可能高的可懂度,其优点是编码速率比较低,通常在16kb/s以下,甚至在2.4kb/s以下。但它的主要缺点是合成语音质量较差,自然度低,而且对说话环境要求苛刻,需要在安静的场合下才能有较高的可懂度。由于以上两种编码方法的先天性不足,后来人们提出了混合编码方法,它与参数编码相同的是,也采用了合成分析技术,同时又利用了语音的波形信息,增强了重构语音的自然度,使得合成语音质量有了明显的提高,其代价是编码速率有所上升,一般都在2.4kb/s~16kb/s之间。这类编码器主要有低延时码激励线性预测编码(LD-CELP)、规则脉冲激励线形预测编码(RPE-LPC)和码激励线形预测编码(CELP)等。
稀疏编码的概念源于视神经网络的研究,是对只有一小部分神经元同时处于活跃状态的多维数据的神经网络的表示方法。生物学实验表明,视皮层对外界刺激的处理采用神经稀疏表示原则,这既对繁杂冗余的信息提供了简单表示,又利于上层传感神经抽取刺激中最本质的特征。
从数学的角度讲,稀疏编码目前被假设为是对多维数据进行线性分解的一种表示方法。假设输入数据                                                n维随机向量,用表示线性转换后的m维向量,那么线性转换矩阵则为维,记为,线性转换表达式如下:
 (1)W又称为稀疏变换矩阵,其每一个行向量类似小波变换中的小波基;S为线性转换后的稀疏分量,满足稀疏(超高斯)分布的要求,并且向量尽可能地相互独立。“稀疏性”的概念是指随机向量中的大部分元素都为零,只有极少数元素不为零。典型的稀疏分布如图1所示,其概率密度函数在原点处有尖锋,两旁有较重的拖尾。
发明内容
本发明就是针对上述问题,提供一种编码速率低、语音质量好、安全性高、节省带宽的民航管制语音稀疏编码方法。
为实现上述目的,本发明采用如下技术方案,本发明包括以下步骤:
1)将待处理一段语音信号x(n)进行无交叠分帧处理,帧长为M=512,得到N帧短时平稳语音序列,构成NM维的矩阵:
2)对X进行中心化,从中去除X的均值,令其为,处理后的数据为,其稀疏分量为:
      
去除S中零元素,,取少数非零分量组合得到新的系数为:
  
3)将通过稀疏变换矩阵进行反变换,得到压缩后的矩阵:
        
4)由得压缩语音信号:
作为一种优选方案,对所述压缩语音信号的进行判断,查看内容是否相同;若是,直接传输一次内容相同的部分,并将数据长度附加发送。
作为另一种优选方案,本发明所述
A=,即 
A是对a(n)进行无交叠分帧处理,帧长为M=512,得到N帧短时的平稳语音序列,即
a(n)是与所述x(n)具有相同的统计特性的已知语音信号。
其次,本发明所述矩阵X中各参数为:
P为人耳可听见语音幅值最小值。
另外,本发明所述P为-10分贝。                                  
本发明有益效果:本发明采用稀疏编码方法对语音进行压缩并加以实验验证,经过客观评价和多位管制员的实际评测可知,编解码前后的语音具有较好的相似度,且质量可达到4~5分。由此可以看出,稀疏编码法与其它语音编码方法相比,具有编码速率低、语音质量好的优势。结果表明,该方法能够改善空管话音质量及其传输方式,对飞行安全和效率的提升起到促进作用。另外,本发明采用稀疏编码算法压缩过的语音数据,封装成32个字节的小数据包进行交换传输,通过实测,该方法在保证语音质量的同时,带宽节省一倍以上,达到4kb/s。
附图说明
图1是稀疏分布示意图。
具体实施方式
设待处理一段语音信号x(n),将x(n)进行无交叠分帧处理,帧长为M=512,得到N帧短时平稳语音序列,构成NM维的矩阵:
(2)
进行处理,其中P为人耳可听见语音幅值最小值约-10分贝。
矩阵中各参数的确定:
其中
对X进行中心化,即从中去除X的均值,令其为,处理后的数据为,其稀疏分量:
(7)
去除S中零元素,取少数非零分量组合得到新的系数为:
(8)
即为S的各个稀疏分量经压缩后得到的矩阵,将通过神经元进行反变换便可得到压缩后的矩阵:
(9)
可得:
(10)
此时的帧长分别压缩为32,即语音传输率压缩到4kb/s,传输延时仅为9ms;更好地满足了民航卫星通信窄带(64k)传输需求,提高了实时性,杜绝了漏、吃字等指令丢失现象,使语音口令准确、及时、稳定地到达目的地。
将压缩后语音信号的进行判断,查看内容是否相同,若是,可直接传输一次内容相同的部分,并将数据长度附加发送即可,此方法可进一步达到对语音信号压缩的目的,进一步节省了带宽的占用。
由上述可以看出,利用稀疏编码进行语音压缩,计算复杂度低,传输延时小,在保证语音清晰度同时,带宽节省一倍以上,大大提高了民航管制语音的实时性和鲁棒性。
转换矩阵W的确定:由(1)式可知,稀疏编码语音压缩的关键是要寻找合适的转换矩阵,使语音信号经转换后得到的输出分量尽可能具有稀疏分布。
为了确定最优矩阵,设已知语音信号为a(n),a(n)与x(n)具有相同的统计特性,对a(n)进行无交叠分帧处理,帧长为M=512,得到N帧短时平稳语音序列,构成NM维的矩阵:
(11)
根据语音信号的特点,我们可以假设矩阵(12)
存在一个非零矩阵,使得矩阵A满足A=,其中设A是由N个源信号混叠而成,
(13)
进一步表示为:
(14)
在矩阵B的第j列的投影构成了语音信号的基本组成,因此语音数据A可以看作是由N个基函数的线性组合构成,矩阵B的每一列都是A的特征基函数,这些基函数反映了a(n)的本质特性,
(15)
其中即为转换矩阵,则有,这样的每一行对应语音信号a(n)的特征基函数。分离矩阵即为特征基函数矩阵,反映了原始语音信号a(n)的统计特性,因此求解出该特征矩阵也就得到了稀疏编码压缩中所需的神经元网络转换矩阵。
语音质量评价及比较:语音编码器的质量评价可分为客观质量评价和主观质量评价两种。客观质量评价是人们利用一些客观误差的测量方法来测量原始语音与编码重建语音之间的差别,给出一个定量的结果。主观评价是把编码的重建语音播放给有经验的管制员听,由管制员给语音信号的质量打分,这里所采用的方法为MOS法。采用客观评价和部分主观评价相结合的方法,可以更有效地评价语音质量。其中,管制员人数为30人,采用的语音尽量包括男女、中英文、大人和小孩等各种类型。
客观质量评价及比较,将稀疏编码法与标准宽带语音编码算法中G.723.1的语音进行比较。因为本发明算法的传输比特率是4kbit/s,因此采用比特率为6.3kbit/s的G.723.1编解码语音进行比较,比较的方法采用共轭谱距离测度法(CEP)、信噪比距离测度法(SNR)和似然比距离测度法(LR),其结果相似度越大,评价值的绝对值就越小,且所有的评价值都是平均值。表2和表3分别为语音在G.723.1和本发明稀疏编码方法下的客观评价值,由表中数据可以看出,稀疏编码法比G.723.1具有更好的相似度。
表2 语音在G.723.1的6.3kbit/s下的客观评价值
表3 语音在本发明稀疏编码方法下的客观评价值
主观质量评价及比较:
在主观质量的评价中,可采用MOS的评价方法,还有降低等级(DCR)的评定方法。DCR方法是让听音者把编码后语音与编码前的语音相比,并评定出降低的程度,没有降低的给5分,对降低非常差的给1分,依次分为5个等级。表4为3种语音的MOS测试值,从表中可以看出,本发明稀疏编码法与G.723.1和LPC法相比语音质量较高。
表4各种语音的MOS测试值
下表是对传统语音压缩编码方法与本发明稀疏编码方法优缺点的比较。
可以理解的是,以上关于本发明的具体描述,仅用于说明本发明而并非受限于本发明实施例所描述的技术方案,本领域的普通技术人员应当理解,仍然可以对本发明进行修改或等同替换,以达到相同的技术效果;只要满足使用需要,都在本发明的保护范围之内。

Claims (4)

1.民航管制语音稀疏编码方法,其特征在于包括以下步骤:
1)将待处理一段语音信号x(n)进行无交叠分帧处理,帧长为M=512,得到N帧短时平稳语音序列 ,构成NM维的矩阵:
2)对X进行中心化,从中去除X的均值,令其为,处理后的数据为,其稀疏分量为:
去除S中零元素,,取少数非零分量组合得到新的系数为:
  
3)将通过稀疏变换矩阵进行反变换,得到压缩后的矩阵:
        
4)由得压缩语音信号:
所述
A=,即 
A是对a(n)进行无交叠分帧处理,帧长为M=512,得到N帧短时的平稳语音序列,即
a(n)是与所述x(n)具有相同的统计特性的已知语音信号;
A是由N个源信号混叠而成,矩阵B的每一列都是A的特征基函数。
2.根据权利要求1所述民航管制语音稀疏编码方法,其特征在于对所述压缩语音信号的进行判断,查看内容是否相同;若是,直接传输一次内容相同的部分,并将数据长度附加发送。
3.根据权利要求1所述民航管制语音稀疏编码方法,其特征在于所述矩阵X中各参数为:
P为人耳可听见语音幅值最小值。
4.根据权利要求3所述民航管制语音稀疏编码方法,其特征在于所述P为-10分贝。
CN201310218874.XA 2013-06-04 2013-06-04 民航管制语音稀疏编码方法 Active CN103268765B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310218874.XA CN103268765B (zh) 2013-06-04 2013-06-04 民航管制语音稀疏编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310218874.XA CN103268765B (zh) 2013-06-04 2013-06-04 民航管制语音稀疏编码方法

Publications (2)

Publication Number Publication Date
CN103268765A CN103268765A (zh) 2013-08-28
CN103268765B true CN103268765B (zh) 2015-06-17

Family

ID=49012391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310218874.XA Active CN103268765B (zh) 2013-06-04 2013-06-04 民航管制语音稀疏编码方法

Country Status (1)

Country Link
CN (1) CN103268765B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978972B (zh) * 2015-05-07 2018-08-10 大连民族学院 基于超完备傅里叶基的语音信号稀疏表示方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1099216A1 (en) * 1999-05-21 2001-05-16 Koninklijke Philips Electronics N.V. Audio signal time scale modification
JP2001515230A (ja) * 1997-09-02 2001-09-18 テレフォンアクチーボラゲット エル エム エリクソン(パブル) コード化音声信号のスパースネス低減法
CN102419974A (zh) * 2010-09-24 2012-04-18 国际商业机器公司 处理语音识别的稀疏表示特征的方法和系统
CN102789783A (zh) * 2011-07-12 2012-11-21 大连理工大学 一种基于矩阵变换的欠定盲分离方法
CN102915735B (zh) * 2012-09-21 2014-06-04 南京邮电大学 一种基于压缩感知的含噪语音信号重构方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001515230A (ja) * 1997-09-02 2001-09-18 テレフォンアクチーボラゲット エル エム エリクソン(パブル) コード化音声信号のスパースネス低減法
EP1099216A1 (en) * 1999-05-21 2001-05-16 Koninklijke Philips Electronics N.V. Audio signal time scale modification
CN102419974A (zh) * 2010-09-24 2012-04-18 国际商业机器公司 处理语音识别的稀疏表示特征的方法和系统
CN102789783A (zh) * 2011-07-12 2012-11-21 大连理工大学 一种基于矩阵变换的欠定盲分离方法
CN102915735B (zh) * 2012-09-21 2014-06-04 南京邮电大学 一种基于压缩感知的含噪语音信号重构方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
叶蕾;郭海燕;杨震;.基于压缩感知重构信号的说话人识别系统抗噪方法研究.《中国期刊全文数据库》.2010,全文. *
基于压缩感知的语音稀疏基和投影矩阵构造技术的研究;唐力;《中国优秀硕士学位论文全文数据库》;20120428;全文 *
雷颖,钱永青,孙洪.帧间自适应语音信号压缩感知.《中国期刊全文数据库》.2012,全文. *

Also Published As

Publication number Publication date
CN103268765A (zh) 2013-08-28

Similar Documents

Publication Publication Date Title
CN103778919B (zh) 基于压缩感知和稀疏表示的语音编码方法
CN105070293B (zh) 基于深度神经网络的音频带宽扩展编码解码方法及装置
CN101140759B (zh) 语音或音频信号的带宽扩展方法及系统
CN107945811A (zh) 一种面向频带扩展的生成式对抗网络训练方法及音频编码、解码方法
EP3910630B1 (en) Transient speech or audio signal encoding method and device, decoding method and device, processing system and computer-readable storage medium
CN101510424A (zh) 基于语音基元的语音编码与合成方法及系统
CN105023580A (zh) 基于可分离深度自动编码技术的无监督噪声估计和语音增强方法
CN106653056A (zh) 基于lstm循环神经网络的基频提取模型及训练方法
CN105118513B (zh) 一种基于混合激励线性预测MELP的1.2kb/s低速率语音编解码方法
CN103531205A (zh) 基于深层神经网络特征映射的非对称语音转换方法
CN101521014A (zh) 音频带宽扩展编解码装置
CN101206860A (zh) 一种可分层音频编解码方法及装置
CN108109629A (zh) 一种基于线性预测残差分类量化的多描述语音编解码方法和系统
CN104992707A (zh) 一种腭裂语音喉塞音自动识别算法及装置
CN110444224A (zh) 一种基于生成式对抗网络的语音处理方法及装置
CN103915097B (zh) 一种语音信号处理方法、装置和系统
CN103093757B (zh) 一种窄带码流转换为宽带码流的转换方法
CN103268765B (zh) 民航管制语音稀疏编码方法
CN103456307B (zh) 音频解码器中帧差错隐藏的谱代替方法及系统
CN102982807B (zh) 用于对语音信号lpc系数进行多级矢量量化的方法和系统
CN103338534B (zh) 卫星传输路由器
CN203313426U (zh) 卫星传输路由器
CN101604524B (zh) 立体声编码方法及其装置、立体声解码方法及其装置
CN102314873A (zh) 一种语音基元的编码与合成系统
CN103824561B (zh) 一种语音线性预测编码模型的缺失值非线性估算方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant