CN103956163B

CN103956163B - 普通语音与加密语音的相互转换系统及方法

Info

Publication number: CN103956163B
Application number: CN201410165065.1A
Authority: CN
Inventors: 熊英; 陈娟
Original assignee: CHENGDU LINGGUANG QUANTUM TECHNOLOGY Co Ltd
Current assignee: Shenzhen Zhaoneng XunTong Technology Co. Ltd.
Priority date: 2014-04-23
Filing date: 2014-04-23
Publication date: 2017-01-11
Anticipated expiration: 2034-04-23
Also published as: CN103956163A

Abstract

本发明公开了一种普通语音与加密语音的相互转换系统及方法，主要解决了现有技术中存在的语音编码技术不能完全消除误码、无法实现移动通信网络中的无障碍通信，且技术实现难度大，用户体验较差的问题。该系统包括将输入语音转换为文本，提取输入语音的声纹特征的语音转文本模块；将文本转换为具有特定声纹特征的合成语音的文本转语音模块；根据由2ⁿ个语音识别词库元素构成的数据库，及语音识别词库元素与n比特随机数据之间固定的一一对应映射关系进行编解码的文本映射编/解码模块；文本数据加/解密模块。通过上述方案，本发明达到了可以在移动通信网络中传输，且安全性、隐蔽性较高的目的，具有很高的实用价值和推广价值。

Description

普通语音与加密语音的相互转换系统及方法

技术领域

本发明涉及一种普通语音与加密语音的相互转换系统及方法。

背景技术

现今，移动通信已普及全球，移动通信系统在为公众提供便捷通信的同时，通信安全问题日益突出。据资料分析，美国建立的“梯队”全球监测网可以侦听世界上90％以上的移动通信，伪基站等监听手段的出现使得无线截听、搭线窃听防不胜防，给手机用户造成巨大损失。

当前，移动通信市场呈现出多种网络并存发展的格局，这种多网络的并存发展意味着在用技术的多样性和复杂性，各网络采用的多址方式、调制技术、频率分配、信道带宽、语音编码等技术各有不同，提供的业务类型也有差异。第二代移动通信系统针对话音业务设计；第三代移动通信系统则遵循国际上的三大主流制式标准WCDMA、CDMA2000和TD-SCDMA，每个标准各有特点。网络的复杂性为进行加密语音传输带来了非常大的技术障碍，移动话音业务采用二次编解码方案，在无线链路和地面链路上采用不同的语音编码方式，地面链路采用PCM编码，而无线链路则由运营商根据无线资源利用率、信道容量、话音质量等选用不同的语音压缩编码算法，对于GSM-GSM网络连接，语音信号在传输过程中历经四个声码器、进行了四次编解码转换。为了克服噪音干扰，移动通信系统通常还采用噪声平滑处理技术，由于加密语音数据不满足声码器要求，在经过多次转换后误码率很大，造成无法正常解密，这对于加密语音数据传输来说是一个很难克服的技术瓶颈。

目前，基于移动通信网进行保密通信的方法主要有基于数据通道和基于语音通道的方法。基于数据通道实现端到端语音加密的方法在技术上比较成熟，但是，这种方法还存在一些缺陷，主要体现在呼叫建立时间较长、端到端的延迟较大、隐蔽性差等问题；基于语音通道进行保密通信基本上都采用类语音编码技术。类语音编码技术通过把加密语音数据转换为类似语音的模拟数据，但是这种类似语音模拟数据并不是真实的语音数据，经过声码器有损压缩及语音代码转换后将引入一定的误差，这直接影响加密语音的正常解密。另外，类语音编码存在编码速率低、计算精确度低和抗干扰性能差等问题。

目前已有的基于类语音编码技术的方案还不能完全消除误码，还不能实现移动通信网络中的无障碍通信，并且技术实现难度大，相关产品用户体验差，实际用户非常少。因此，研发新型的语音保密通信方案对于确保手机通信安全尤为必要，而解决加密语音在移动通信网络中的无障碍传输对解决手机通信安全问题具有十分重要的实际意义。

发明内容

本发明的目的在于提供一种普通语音与加密语音的相互转换方法，主要解决现有技术中存在的语音编码技术不能完全消除误码、无法实现移动通信网络中的无障碍通信，且技术实现难度大，用户体验较差的问题。

为了实现上述目的，本发明采用的技术方案如下：

普通语音与加密语音的相互转换系统，包括：

语音转文本模块，将通过音频接口输入的语音转换为文本，提取输入语音的声纹特征；

文本数据加/解密模块，加密时将文本数据加密为随机的加密文本数据，解密时把随机数据解密为文本数据；

文本映射编/解码模块，建立由2ⁿ个语音识别词库元素构成的数据库，并建立语音识别词库元素与n比特随机数据之间固定的一一对应映射关系，编码时将加密数据分成若干个n比特数据分组，将每一个n比特数据分组作为索引，在数据库中查找该索引所对应的元素文本；解码时在数据库中查找元素文本所对应元素的索引，并将该索引转换为相应的随机数据；

文本转语音模块，将文本转换为具有特定声纹特征的合成语音，并通过音频接口输出。

基于上述系统，本发明公开了一种普通语音与加密语音的相互转换方法，包括以下步骤：

在本地存储器上建立由2n个语音识别词库元素构成的数据库，其中n=6、7、8、9或10，并建立语音识别词库元素与n比特随机数据之间固定的一一对应映射关系；

（1）进行保密语音通信时，发送端的语音转文本模块将输入的原始语音转换为文本数据并提取原始语音的声纹特征，文本数据加/解密模块对转换的文本数据进行加密，并得到随机的加密文本数据，文本映射编/解码模块将加密文本数据进行文本映射编码，得到加密映射文本，文本转语音模块将加密映射文本转换为具有特定声纹特征的加密合成语音，之后将该加密合成语音传输至接收端；

（2）接收端的语音转文本模块将接收到的加密合成语音转换为加密映射文本，文本映射编/解码模块将加密映射文本解码为文本加密数据，文本数据加/解密模块将文本加密数据进行解密得到解密后的文本，文本转语音模块将解密后的文本转换为具有特定声纹特征的合成语音。

具体地说，所述声纹特征包括谱包络参数、基音轮廓、倒谱系数、共振峰频率和/或线谱；所述语音识别词库元素包括字、词或/和句子。

进一步地，所述文本数据加/解密模块采用一次一密加密或利用密码算法对文本数据进行加/解密。

与现有技术相比，本发明具有以下有益效果：

（1）本发明中把加密语音数据转换为正常的语音并在移动通信网络中传输，用户可以更换数据加密密钥及其使用方法，加密过程对用户透明，因而具有较高的防范追踪的隐蔽性，可以解决广大移动通信用户的通信安全和数据传输安全问题，具有广阔的应用市场。

附图说明

图1为本发明的流程示意图。

图2为本发明中文本映射编/解码模块的工作原理示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明，本发明的实施方式包括但不限于下列实施例。

实施例

为了解决现有技术中存在的语音编码技术不能完全消除误码、无法实现移动通信网络中的无障碍通信，且技术实现难度大，用户体验较差的问题。如图1、图2所示，本发明公开了一种通过建立随机数据与语音识别词库元素之间的固定映射关系，即依次通过语音转文本、文本数据加密、文本映射编码和文本转语音技术，把普通语音转换为加密的合成语音，并通过语音转文本、文本映射解码、文本数据解码和文本转语音进行语音获取接收。该加密的合成语音可以在移动通信网络中进行无障碍的传输，从而可以解决加密语音在移动通信网络中的无障碍传输问题。

本发明的安全性包括用户可控的加密和通信过程的隐蔽性，即用户可以更换数据加密密钥及其使用方法，如：通信双方事先共享一个保密的随机数，通信时随机协商一个会话密钥，根据该会话密钥对共享的随机数进行密码变换并得到当次通信的数据加密密钥，当共享的随机数存在安全风险时，则更新共享随机数，加密过程对用户透明。

本发明具体包括：

语音转文本模块：把输入语音转换为文本，并提取输入语音的声纹特征，其中，声纹特征包括谱包络参数、基音轮廓、倒谱系数、共振峰频率、线谱等。提取的这些声纹特征用于合成具有特定声纹特征的语音，以及用于基于声纹特征的身份识别。

在实施时，为了提高语音转换为文本的精确度，可以采用多个基于不同语音识别方案的语音转文本芯片并行工作，并采用大数判决的方法确定语音转文本的结果，即，如果这些语音转文本芯片超过一半的识别结果是相同的，就认为结果是正确的。

文本转语音模块：把文本转换为具有特定声纹特征的合成语音。

文本映射编/解码模块：其工作原理如图2所示，在本地存储器上建立由2ⁿ个（其中n=6、7、8、9或10）语音识别词库元素构成的数据库，其中，词库元素包括字、词或/和句子。所有2ⁿ个语音片段的语音参数索引与2ⁿ个n比特的数据分组000…000（n比特）、000…001（n比特）、…、111…111（n比特）形成一个固定的一一对应的文本映射关系。在进行编码时，文本映射编/解码模块首先把加密数据分成若干个n比特数据分组，然后把每一个n比特数据分组作为索引，在语音识别词库中查找该索引所对应的元素文本；在进行解码时，文本映射编/解码模块首先在语音识别词库中查找文本所对应元素的索引，再把这个索引转换为相应的随机数据。

文本数据加/解密模块：利用通信双方共享的随机数进行一次一密加密或利用商用密码算法对文本数据进行加/解密；加密时把文本数据加密为随机数据；解密时把随机数据解密为文本数据，根据用户操作习惯，实施时用户可以更换数据加密密钥及其使用方法。

实施时，只需将上述系统集成在通信终端上，便可实现普通语音与加密语音的转换，具体实现过程如下：

发送端首先采用语音转文本模块把输入的原始语音转换为文本数据并提取声纹特征；文本数据加/解密模块对文本数据进行加密，并得到随机的加密数据；文本映射编/解码模块把加密数据进行文本映射编码并得到映射文本；再通过文本转语音模块把文本转换为具有特定声纹特征的加密合成语音；最后经由通信终端，如手机音频输入接口传送给手机，手机再通过移动通信网络的语音通道把该语音信号传送给接收端。

接收端经由手机音频输出接口把接收到的加密合成语音传送给语音转文本模块，并把接收到的加密合成语音转换为映射文本；文本映射编/解码模块把映射文本解码为文本加密数据；然后文本数据加/解密模块对文本加密数据进行解密得到解密后的文本；最后通过文本转语音模块把解密后的文本转换为具有特定声纹特征的合成语音，完成通信。

基于本发明的产品可以实现与普通手机的即插即用并进行手机保密通信，也可以实现一个内置模块嵌入手机并形成一个具有保密通信模式的手机，该产品也可以用于手机银行交易数据的保密传输等，应用范围较广。

按照上述实施例，便可很好地实现本发明。

Claims

1.普通语音与加密语音的相互转换系统，其特征在于，包括：

文本转语音模块，将文本转换为具有声纹特征的合成语音，并通过音频接口输出。

2.普通语音与加密语音的相互转换方法，其特征在于，包括以下步骤：

在本地存储器上建立由2ⁿ个语音识别词库元素构成的数据库，并建立语音识别词库元素与n比特随机数据之间固定的一一对应映射关系；

（1）进行保密语音通信时，发送端的语音转文本模块将输入的原始语音转换为文本数据并提取原始语音的声纹特征，文本数据加/解密模块对转换的文本数据进行加密，并得到随机的加密文本数据，文本映射编/解码模块将加密文本数据进行文本映射编码，得到加密映射文本，文本转语音模块将加密映射文本转换为具有声纹特征的加密合成语音，之后将该加密合成语音传输至接收端；

（2）接收端的语音转文本模块将接收到的加密合成语音转换为加密映射文本，文本映射编/解码模块将加密映射文本解码为文本加密数据，文本数据加/解密模块将文本加密数据进行解密得到解密后的文本，文本转语音模块将解密后的文本转换为具有声纹特征的合成语音。

3.根据权利要求2所述的普通语音与加密语音的相互转换方法，其特征在于，所述声纹特征包括谱包络参数、基音轮廓、倒谱系数、共振峰频率和/或线谱。

4.根据权利要求2所述的普通语音与加密语音的相互转换方法，其特征在于，所述语音识别词库元素包括字、词或/和句子。

5.根据权利要求2所述的普通语音与加密语音的相互转换方法，其特征在于，所述文本数据加/解密模块采用一次一密加密或利用密码算法对文本数据进行加/解密。