CN103268765A - 民航管制语音稀疏编码方法 - Google Patents
民航管制语音稀疏编码方法 Download PDFInfo
- Publication number
- CN103268765A CN103268765A CN201310218874XA CN201310218874A CN103268765A CN 103268765 A CN103268765 A CN 103268765A CN 201310218874X A CN201310218874X A CN 201310218874XA CN 201310218874 A CN201310218874 A CN 201310218874A CN 103268765 A CN103268765 A CN 103268765A
- Authority
- CN
- China
- Prior art keywords
- voice
- coding method
- sparse
- sparse coding
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
技术领域
本发明属于语音传输技术领域,尤其涉及一种民航管制语音稀疏编码方法。
背景技术
民用航空空中交通服务,是管制员利用地空通信传输话音、气象等信息,对管辖区域内民航飞行器实施指挥、管制与引导等行为的总称。其中,语音通信是整个民航安全生产过程中最重要的环节。飞机飞行中的安全性主要靠语音通信指挥和保障。2006年以来,我国民用航空运输总量稳居世界第2,且以年均15%的速率持续增长,航班密度不断增大,导致空中交通管制语音通信容量急剧增加,找寻一种占用带宽更小、语音质量好的压缩方法成为一种必然的趋势。
卫星等窄带传输是民航语音通信的重要手段,要满足这样的传输方式,除了要保证传输语音的实时性和准确性,还要具备延时小、复杂度低等特点。
语音编码主要有三种方式: 波形编码、声码器和混合编码, 通常把编码速率低于64kbps的语音编码方式称为语音压缩编码技术。波形编码是将语音信号当作一般波形信号来处理,使重构的语音波形与原始语音波形尽可能保持一致,即在编码时以波形逼近为原则对语音信号进行编码。波形编码具有适应能力强、语音质量好和抗噪性强等优点,但是其编码速率较高,一般在16kb/s~64kb/s范围内。常见的编码方式包括脉冲编码调制(PCM)、自适应差分脉码调制(ADPCM)等。参数编码的基本思想是通过提取语音信号的特征参数来进行编码,力图使重构的语音具有尽可能高的可懂度,其优点是编码速率比较低,通常在16kb/s以下,甚至在2.4kb/s以下。但它的主要缺点是合成语音质量较差,自然度低,而且对说话环境要求苛刻,需要在安静的场合下才能有较高的可懂度。由于以上两种编码方法的先天性不足,后来人们提出了混合编码方法,它与参数编码相同的是,也采用了合成分析技术,同时又利用了语音的波形信息,增强了重构语音的自然度,使得合成语音质量有了明显的提高,其代价是编码速率有所上升,一般都在2.4kb/s~16kb/s之间。这类编码器主要有低延时码激励线性预测编码(LD-CELP)、规则脉冲激励线形预测编码(RPE-LPC)和码激励线形预测编码(CELP)等。
稀疏编码的概念源于视神经网络的研究,是对只有一小部分神经元同时处于活跃状态的多维数据的神经网络的表示方法。生物学实验表明,视皮层对外界刺激的处理采用神经稀疏表示原则,这既对繁杂冗余的信息提供了简单表示,又利于上层传感神经抽取刺激中最本质的特征。
发明内容
本发明就是针对上述问题,提供一种编码速率低、语音质量好、安全性高、节省带宽的民航管制语音稀疏编码方法。
为实现上述目的,本发明采用如下技术方案,本发明包括以下步骤:
去除S中零元素,,取少数非零分量组合得到新的系数为:
作为另一种优选方案,本发明所述,
A是对a(n)进行无交叠分帧处理,帧长为M=512,得到N帧短时的平稳语音序列,即
a(n)是与所述x(n)具有相同的统计特性的已知语音信号。
其次,本发明所述矩阵X中各参数为:
P为人耳可听见语音幅值最小值。
另外,本发明所述P为-10分贝。
本发明有益效果:本发明采用稀疏编码方法对语音进行压缩并加以实验验证,经过客观评价和多位管制员的实际评测可知,编解码前后的语音具有较好的相似度,且质量可达到4~5分。由此可以看出,稀疏编码法与其它语音编码方法相比,具有编码速率低、语音质量好的优势。结果表明,该方法能够改善空管话音质量及其传输方式,对飞行安全和效率的提升起到促进作用。另外,本发明采用稀疏编码算法压缩过的语音数据,封装成32个字节的小数据包进行交换传输,通过实测,该方法在保证语音质量的同时,带宽节省一倍以上,达到4kb/s。
附图说明
图1是稀疏分布示意图。
具体实施方式
(2)
矩阵中各参数的确定:
(7)
去除S中零元素,取少数非零分量组合得到新的系数为:
此时的帧长分别压缩为32,即语音传输率压缩到4kb/s,传输延时仅为9ms;更好地满足了民航卫星通信窄带(64k)传输需求,提高了实时性,杜绝了漏、吃字等指令丢失现象,使语音口令准确、及时、稳定地到达目的地。
由上述可以看出,利用稀疏编码进行语音压缩,计算复杂度低,传输延时小,在保证语音清晰度同时,带宽节省一倍以上,大大提高了民航管制语音的实时性和鲁棒性。
进一步表示为:
其中即为转换矩阵,则有,这样的每一行对应语音信号a(n)的特征基函数。分离矩阵即为特征基函数矩阵,反映了原始语音信号a(n)的统计特性,因此求解出该特征矩阵也就得到了稀疏编码压缩中所需的神经元网络转换矩阵。
语音质量评价及比较:语音编码器的质量评价可分为客观质量评价和主观质量评价两种。客观质量评价是人们利用一些客观误差的测量方法来测量原始语音与编码重建语音之间的差别,给出一个定量的结果。主观评价是把编码的重建语音播放给有经验的管制员听,由管制员给语音信号的质量打分,这里所采用的方法为MOS法。采用客观评价和部分主观评价相结合的方法,可以更有效地评价语音质量。其中,管制员人数为30人,采用的语音尽量包括男女、中英文、大人和小孩等各种类型。
客观质量评价及比较,将稀疏编码法与标准宽带语音编码算法中G.723.1的语音进行比较。因为本发明算法的传输比特率是4kbit/s,因此采用比特率为6.3kbit/s的G.723.1编解码语音进行比较,比较的方法采用共轭谱距离测度法(CEP)、信噪比距离测度法(SNR)和似然比距离测度法(LR),其结果相似度越大,评价值的绝对值就越小,且所有的评价值都是平均值。表2和表3分别为语音在G.723.1和本发明稀疏编码方法下的客观评价值,由表中数据可以看出,稀疏编码法比G.723.1具有更好的相似度。
表2 语音在G.723.1的6.3kbit/s下的客观评价值
表3 语音在本发明稀疏编码方法下的客观评价值
主观质量评价及比较:
在主观质量的评价中,可采用MOS的评价方法,还有降低等级(DCR)的评定方法。DCR方法是让听音者把编码后语音与编码前的语音相比,并评定出降低的程度,没有降低的给5分,对降低非常差的给1分,依次分为5个等级。表4为3种语音的MOS测试值,从表中可以看出,本发明稀疏编码法与G.723.1和LPC法相比语音质量较高。
表4各种语音的MOS测试值
下表是对传统语音压缩编码方法与本发明稀疏编码方法优缺点的比较。
可以理解的是,以上关于本发明的具体描述,仅用于说明本发明而并非受限于本发明实施例所描述的技术方案,本领域的普通技术人员应当理解,仍然可以对本发明进行修改或等同替换,以达到相同的技术效果;只要满足使用需要,都在本发明的保护范围之内。
Claims (5)
5.根据权利要求4所述民航管制语音稀疏编码方法,其特征在于所述P为-10分贝。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310218874.XA CN103268765B (zh) | 2013-06-04 | 2013-06-04 | 民航管制语音稀疏编码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310218874.XA CN103268765B (zh) | 2013-06-04 | 2013-06-04 | 民航管制语音稀疏编码方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103268765A true CN103268765A (zh) | 2013-08-28 |
CN103268765B CN103268765B (zh) | 2015-06-17 |
Family
ID=49012391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310218874.XA Active CN103268765B (zh) | 2013-06-04 | 2013-06-04 | 民航管制语音稀疏编码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103268765B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104978972A (zh) * | 2015-05-07 | 2015-10-14 | 大连民族学院 | 基于超完备傅里叶基的语音信号稀疏表示方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1099216A1 (en) * | 1999-05-21 | 2001-05-16 | Koninklijke Philips Electronics N.V. | Audio signal time scale modification |
JP2001515230A (ja) * | 1997-09-02 | 2001-09-18 | テレフォンアクチーボラゲット エル エム エリクソン(パブル) | コード化音声信号のスパースネス低減法 |
CN102419974A (zh) * | 2010-09-24 | 2012-04-18 | 国际商业机器公司 | 处理语音识别的稀疏表示特征的方法和系统 |
CN102789783A (zh) * | 2011-07-12 | 2012-11-21 | 大连理工大学 | 一种基于矩阵变换的欠定盲分离方法 |
CN102915735B (zh) * | 2012-09-21 | 2014-06-04 | 南京邮电大学 | 一种基于压缩感知的含噪语音信号重构方法及装置 |
-
2013
- 2013-06-04 CN CN201310218874.XA patent/CN103268765B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001515230A (ja) * | 1997-09-02 | 2001-09-18 | テレフォンアクチーボラゲット エル エム エリクソン(パブル) | コード化音声信号のスパースネス低減法 |
EP1099216A1 (en) * | 1999-05-21 | 2001-05-16 | Koninklijke Philips Electronics N.V. | Audio signal time scale modification |
CN102419974A (zh) * | 2010-09-24 | 2012-04-18 | 国际商业机器公司 | 处理语音识别的稀疏表示特征的方法和系统 |
CN102789783A (zh) * | 2011-07-12 | 2012-11-21 | 大连理工大学 | 一种基于矩阵变换的欠定盲分离方法 |
CN102915735B (zh) * | 2012-09-21 | 2014-06-04 | 南京邮电大学 | 一种基于压缩感知的含噪语音信号重构方法及装置 |
Non-Patent Citations (3)
Title |
---|
叶蕾; 郭海燕; 杨震;: "基于压缩感知重构信号的说话人识别系统抗噪方法研究", 《中国期刊全文数据库》, 31 March 2010 (2010-03-31) * |
唐力: "基于压缩感知的语音稀疏基和投影矩阵构造技术的研究", 《中国优秀硕士学位论文全文数据库》, 28 April 2012 (2012-04-28) * |
雷颖,钱永青,孙洪: "帧间自适应语音信号压缩感知", 《中国期刊全文数据库》, 30 June 2012 (2012-06-30) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104978972A (zh) * | 2015-05-07 | 2015-10-14 | 大连民族学院 | 基于超完备傅里叶基的语音信号稀疏表示方法 |
CN104978972B (zh) * | 2015-05-07 | 2018-08-10 | 大连民族学院 | 基于超完备傅里叶基的语音信号稀疏表示方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103268765B (zh) | 2015-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105118513B (zh) | 一种基于混合激励线性预测MELP的1.2kb/s低速率语音编解码方法 | |
CN105070293B (zh) | 基于深度神经网络的音频带宽扩展编码解码方法及装置 | |
CN103778919B (zh) | 基于压缩感知和稀疏表示的语音编码方法 | |
CN105469611B (zh) | 一种短时交通流预测模型方法 | |
CN101510424A (zh) | 基于语音基元的语音编码与合成方法及系统 | |
US8560329B2 (en) | Signal compression method and apparatus | |
CN109410917A (zh) | 基于改进型胶囊网络的语音数据分类方法 | |
WO2004104817A3 (en) | Sharing method and apparatus using directed graphs | |
CN108109629A (zh) | 一种基于线性预测残差分类量化的多描述语音编解码方法和系统 | |
CN103280224A (zh) | 基于自适应算法的非对称语料库条件下的语音转换方法 | |
Mallidi et al. | Novel neural network based fusion for multistream ASR | |
CN102543090A (zh) | 一种应用于变速率语音和音频编码的码率自动控制系统 | |
CN103268765B (zh) | 民航管制语音稀疏编码方法 | |
CN103456307B (zh) | 音频解码器中帧差错隐藏的谱代替方法及系统 | |
CN103474075B (zh) | 语音信号发送方法及系统、接收方法及系统 | |
CN101256774B (zh) | 用于嵌入式语音编码的帧擦除隐藏方法及系统 | |
CN103338534B (zh) | 卫星传输路由器 | |
CN203313426U (zh) | 卫星传输路由器 | |
CN102982807A (zh) | 用于对语音信号lpc系数进行多级矢量量化的方法和系统 | |
CN101604524B (zh) | 立体声编码方法及其装置、立体声解码方法及其装置 | |
CN105469601A (zh) | 一种基于lzw编码的道路交通空间数据压缩方法 | |
CN105575401B (zh) | 一种基于C-MAC特征的AACHuffman域隐写分析方法 | |
CN102314873A (zh) | 一种语音基元的编码与合成系统 | |
CN202487155U (zh) | 一种应用于变速率语音和音频编码的码率自动控制系统 | |
CN102314880A (zh) | 一种语音基元的编码与合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |