CN102652337B

CN102652337B - 用于声通信的设备和方法

Info

Publication number: CN102652337B
Application number: CN201080056013.0A
Authority: CN
Inventors: 郑熙远; 高俊豪; 李相默; 李起相; S.智德科夫
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2009-12-10
Filing date: 2010-12-09
Publication date: 2014-02-19
Anticipated expiration: 2030-12-09
Also published as: JP5722912B2; WO2011071322A3; EP2510517A2; WO2011071322A2; US20130346070A1; EP2510517A4; KR101764926B1; EP2510517B1; CN102652337A; US9251807B2; US8521518B2; JP2013512474A; US20110144979A1; KR20110066085A

Abstract

公开一种声通信方法，包括：将音频信号滤波以衰减该音频信号的高频部分；产生与该音频信号和滤波信号之间的差对应的残余信号；基于预定心理声学模型产生用于该音频信号的心理声学掩蔽；通过将该残余信号与该心理声学掩蔽组合来产生心理声学谱掩蔽；通过根据该心理声学谱掩蔽调制数字数据来产生声通信信号；以及将该声通信信号与该滤波信号组合。

Description

用于声通信的设备和方法

技术领域

本发明一般涉及其中使用声信号在移动设备之间传输数字数据的用于声通信的设备和方法，而且更具体地，涉及使用心理声学模型的用于声通信的设备和方法。

背景技术

声通信是在移动设备之间传送数字信息的一种可能的方式。声通信的优点在于，可以仅使用软件在现有设备上实现数据通信协议，而不需要添加如基于无线电的通信系统所需要的诸如天线和RF前端的任何硬件元件。

已经提出几种方法用于通过音乐或语音信号来掩蔽（mask）声通信，以使得声通信让人耳听起来舒适，并且传达附加的人能够理解的信息。这样的方法包括“回声隐藏”或在噪声等级以下添加扩频信号，如D.Gruhl等,EchoHiding,Proceedings of the First International Workshop on Information Hiding,Cambridge,U.K.,May 30-June 1,1996,pp.293-315、以及L.Boney等,Digitalwatermarks for audio signals,IEEE Intl.Conf.on Multimedia Computing andSystems,pp.473-480,March 1996中分别讨论的。

图1示出用于将音频节目与声通信信号混合的常规方法。用于实现这样的方法的设备100包括声通信信号产生器110、组合器120和扬声器130。上述方法中，将诸如扩频信号的低等级通信信号简单地添加到诸如音乐、语音、警报声等音频节目。通过组合器120组合（或混合）音频节目和从声通信信号产生器110输出的声通信信号。通过扬声器以声波的形式发射组合信号。

遗憾的是，常规方法未能充分开发声通信信道的容量，因而仅实现非常低的比特率，即，每秒几个比特。

诸如Y.Nakashima等在Evaluation and Demonstration of Acoustic OFDM,Proc.Fortieth Asilomar Conference on Signals,Systems and Computers,2006(ACSSC 2006),pp.1747-1751中描述的类型的较好的方法是基于利用谱整形通信信号替换语音/音乐音频节目的高频成分。

图2示出使用已知的频率替换技术产生与声通信信号混合的音频信号的方法。用于实现这样的方法的设备200包括快速傅立叶变换（FFT）块210、频带分离器220、逆快速傅立叶变换（IFFT）块230、前向纠错（FEC）编码块240、正交频分复用（OFDM）调制器250、组合器260和扬声器270。

FFT块210对诸如音乐或语音的原始音频信号（或节目）执行FFT。之后，频带分离器220将FFT音频信号划分为高频区（bin）和低频区，向IFFT块230输出低频区，并向OFDM调制器250输出高频区。IFFT块230对去除高频区的原始音频信号执行IFFT。

FEC编码块240对输入的数字数据执行FEC编码并输出数据。OFDM调制器250根据高频区对编码数字数据执行OFDM并输出数据，而且来自OFDM调制器的声通信信号具有与高频区类似整形的谱包络。换句话说，利用声通信信号替换高频区。

图3a和3b示出根据频率替换技术产生的信号。图3a示出原始音频信号330的频谱，而图3b示出具有替换声通信信号的修改的音频信号330a的频谱。在每个频谱中，沿水平轴示出频率，并且沿垂直轴示出信号强度。如图3a中所示，基于频分将原始音频信号330划分为高频区（或区域）320和低频区310。如图3b中所示，修改的音频信号330a的低频区310与原始音频信号的相同，而原始音频信号的高频区320被替换为修改的音频信号的声通信信号325。

发明内容

技术问题

该方法允许声信号接收器的简单实现，因为原始音频信号和声通信信号在分开的频带中传输。然而，该方法有两个缺点。

首先，该方法降低原始音频信号（即，音乐/语音信号）的质量，因为原始音频信号与声通信信号之间在频域中有急剧的转变，参见图3b。

其次，由于声通信信号仅仅集中在相对高的音频频率，该方法未能充分利用可用的信号带宽。因此，如果音乐/语音音频节目不包含高频区，或者如果接收方设备麦克风不能捕获包括高频区的整个宽带音频频谱，则声数据通信将是不可能的（即便降低比特率）。

解决方案

因此，作出本发明以解决上面提到的现有技术中出现的问题，而且本发明的一个方面提供其中可以避免原始音频信号与替换声通信信号之间的陡峭边界的用于声通信的设备和方法。

本发明的另一个方面提供使用原始音频信号的整个频谱的用于声通信的设备和方法。

根据本发明的一个方面，提供一种声通信方法，包括：将音频信号滤波以衰减该音频信号的高频部分；产生与该音频信号和滤波信号之间的差对应的残余信号；基于预定心理声学模型产生用于该音频信号的心理声学掩蔽；通过将该残余信号与该心理声学掩蔽组合来产生心理声学谱掩蔽；通过根据该心理声学谱掩蔽调制数字数据来产生声通信信号；以及将该声通信信号与该滤波信号组合。

有益效果

根据本发明的用于声通信的方法和设备提供至少以下优点。

首先，根据本发明，可以降低通过将声通信信号插入音频节目导致的失真信号的音频敏感度。

其次，根据本发明，有效地使用整个频带，使得即便接收方麦克风不检测整个宽带音频频谱，或者音频节目不包括高频区，也允许数据传输。

附图说明

通过结合附图的以下详细说明，本发明的以上和其他方面、特征和优点将变得更加显而易见，其中：

图1示出用于将音频节目与声通信信号混合的常规方法；

图2示出使用已知的频率替换技术与声通信信号混合的音频信号；

图3a和3b示出根据频率替换技术产生的信号；

图4示出根据本发明的实施例的用于执行声通信的设备；

图5a至5f示出根据本发明的实施例的信号产生过程的不同的步骤中的信号谱；

图6示出用于计算频率掩蔽阈值和用于在阈值以下布置声通信信号的方法；以及

图7是示出根据本发明的实施例的用于计算心理声学掩蔽的方法的主要步骤的流程图。

具体实施方式

本领域技术人员显然可知，为简单和清楚起见，附图中的元件被示出作为示例，而不是基于其尺度示出。例如，附图中的一些元件的尺寸与其他元件相比可以夸大以便帮助理解。

另外，方法的步骤和设备的元件由附图中的一般符号表示，而且应当注意，仅仅示出本发明的细节。本领域技术人员已知的细节可以略去。说明书中，诸如“第一”和“第二”的相对术语可以用于将一个元件与另一个元件分开，而并不表示这些元件之间的任何实际关系或顺序。

在本发明的实施例中，阐述两个基本想法。首先，避免原始音频信号与替换声通信信号之间的陡峭边界。其次，在整个可用音频信号谱中添加很小的量的声通信信号到这样的程度，以使得这样的添加不能够被人耳察觉。

为了产生根据本发明的声通信信号，在逐渐地衰减高频区的高架（high-shelf）滤波器中滤波诸如音乐或语音的原始音频信号。例如参见这里描述的图5b。之后，计算原始信号与衰减信号之间的差。存储这样的残余信号的频谱形状。进一步，根据原始音频信号的频谱形状来计算所谓的心理声学（或频率）掩蔽（mask）阈值。心理声学掩蔽阈值的计算是基于在一些频率上存在强音频信号时邻近频率上的声音信号对一般听众将变得无法听到的事实。参照图6示出和解释该效应。

该效应被称为频率掩蔽效应，而且在有损音频压缩算法中被广泛使用，其中在可听阈值以下的信号频率区被去除。本发明中，计算频率掩蔽阈值以便在掩蔽阈值以下布置声通信信号，从而使其无法被听到。

最后，组合两个频谱形状（即，残余谱和从频率掩蔽阈值导出的心理声学掩蔽谱）以产生用于声通信信号的最终谱包络掩蔽。

图4是示出根据本发明的实施例的用于执行声通信的设备的图。图5a至5f是示出根据本发明的实信号产生过程的不同的步骤中的信号谱的图。

如图4中所示，提供设备400，设备400包括高频衰减滤波器410、第一组合器422、FFT块430、包络估计块440、心理声学建模块450、第二组合器424、对象编码块460、多载波调制器470、第三组合器426和扬声器480。

图5a示出原始音频信号510的频谱。图5a以及5c至5f中，沿水平轴示出频率，并且沿垂直轴示出信号强度。虽然仅示出频谱的轮廓，即，包络，但是这些包络包括多个频率区。

高频衰减滤波器410具有滤波器响应特性，使得滤波器在中频和高频区域中逐渐地减少频谱能量。图5b示出高频衰减滤波器410的滤波器响应特性520，其中沿水平轴示出频率，并且沿垂直轴示出信号透射率（transmittance）。参照图5b，可以看出，高频衰减滤波器410在低频区域中通过多数信号而没有任何改变，并且在中频和高频区域中逐渐地减少信号。

通过高频衰减（或高架）滤波器410滤波原始音频信号。如图5b中所示，在滤波器响应特性中没有陡峭的截止频率（例如，参见图5b）。因而，由高频衰减滤波器410带来的谱失真较少地造成人耳的不适。

图5c示出原始音频信号510和滤波信号530的频谱。

原始音频信号和滤波信号被输入到第一组合器422，其输出原始音频信号与滤波信号之间的差，即，残余信号。

图5d示出从第一组合器422输出的残余信号540的频谱。残余信号540对应于原始音频信号510与滤波信号530之间的差。

FFT块430对残余信号执行FFT。换句话说，FFT块430将时域中的残余信号转换为频域中的信号。

包络估计块440分析经转换的残余信号并估计（或检测）包络，其是残余信号的频谱形状。

由于残余信号被从原始音频信号（或节目）中去除，其必须通过具有相同的频谱形状的声通信信号来补偿。然而，如上所述，如果其谱掩蔽不超过频率掩蔽阈值（可听性的阈值），则也可以添加额外的声通信信号而不对音频质量进行折衷。本发明的实施例中，为了避免两次产生声通信信号，将两个谱掩蔽简单地组合在一起。

心理声学建模块450根据例如在ISO-IEC 11172第3部分附件D中定义的普通心理声学模型来从原始音频计算心理声学掩蔽。

图6示出用于计算频率掩蔽阈值和用于在阈值以下布置声通信信号的方法。图6示出具有一个掩蔽器（masker）610的用于原始音频信号的频率掩蔽阈值（即，实际可听性阈值）640。

绝对可听性阈值630示出人耳在安静氛围中难以听到的每个频率的阈值强度分布。该一个掩蔽器610是原始音频信号中与邻近频率区（被掩蔽区（maskee））620相比具有最大信号强度的频率区。没有掩蔽器610，超过绝对可听性阈值630的被掩蔽区620可以被听到。该示例中，被掩蔽区（即，小声音）620被掩蔽器（即，大声音）610遮掩，使得被掩蔽区620不被听到。该效应被称为掩蔽效应。反映这样的掩蔽效应，被掩蔽区620的实际可听性阈值上升（或增加）超过绝对可听性阈值630，上升的可听性阈值被称为频率掩蔽阈值640。换句话说，频率掩蔽阈值640以下的频率区无法被听到。

回来参照图4，由心理声学建模块450计算的心理声学掩蔽对应于频率掩蔽阈值与原始音频信号之间的差。

图5e示出从心理声学建模块450输出的心理声学掩蔽550。图5e中，原始音频信号510也被示出，用于比较。

第二组合器424将从包络估计块440输入的第一掩蔽（即，残余谱）与从心理声学建模块450输入的第二掩蔽（即，原始音频信号的心理声学掩蔽）组合，并产生最终声信号谱掩蔽，并接着向多载波调制器470输出产生的最终声信号谱掩蔽。最终声信号谱掩蔽用于产生声通信谱。

图5f示出从第二组合器424输出的声信号谱掩蔽560。声信号谱掩蔽560对应于分别在图5e和5d中示出的心理声学掩蔽550和残余信号540的和。

对象编码块460将输入数字数据编码为码元或对象，并输出它们。例如，对象编码块460可以执行正交幅度调制（QAM）。

多载波调制器470根据从第二组合器424输入的声信号谱掩蔽对编码的数字数据（即，码元）执行多载波调制，并输出产生的信号。例如，多载波调制器470可以执行OFDM，其中从对象编码块460输入的码元被从第二组合器424输入的声信号谱掩蔽中的频率区复用，然后产生的值被组合并输出。从多载波调制器470输出的声通信信号包括与声信号谱中包括的类似的频谱。

第三组合器426将从高频衰减滤波器410输入的滤波信号与从多载波调制器470输出的声通信信号组合。扬声器480以声波的形式发射组合信号。

在本发明的示例中，考虑对于多载波信号易于形成任意频谱形状，优选的是，使用多载波通信信号作为声通信信号。然而，这不是必要的，而且也可以使用其他类型的通信信号，例如，码分多址（CDMA）或扩频信号。

心理声学掩蔽计算方法优选地在有损音频压缩编解码器中使用，例如，其可以基于在ISO-IEC 11172第3部分附件D中定义的来自MPEG层II标准的心理声学模型。应当注意，心理声学掩蔽阈值的计算比仅仅计算来自单个掩蔽器的掩蔽效应更为复杂。

如上所述，由于本发明中使用的心理声学掩蔽是根据普通心理声学模型计算，具有下面提供的简化的描述。

图7是示出根据本发明的实施例的用于计算心理声学掩蔽的方法的主要步骤的流程图，其包括片段提取步骤S10、FFT步骤S20、音调成分检测步骤S30、非音调成分检测步骤S40、无关音调和非音调成分消除步骤S50、个别频率掩蔽产生步骤S60、全局掩蔽产生步骤S70以及心理声学掩蔽产生步骤S80。

在片段提取步骤S10，从原始音频信号中提取时间上的短片段，在每个片段单元中重复该步骤。

在FFT步骤S20，原始音频信号经受FFT。换句话说，将原始音频信号从时域转换为频域的信号。

在音调成分检测步骤S30，从原始音频信号的频率成分中检测具有大于邻近频率成分的强度的最大频率成分。在最大频率成分中，当邻近频率成分与最大频率成分在强度上的差等于或大于预定值时，将最大频率成分确定为音调成分。即，在音调成分检测步骤S30，在原始音频信号的频率成分中检测与正弦曲线类似的音调成分，即，纯音成分。

在非音调成分检测步骤S40，将最大频率成分当中除音调成分之外的最大频率成分确定为非音调成分。即，在非音调成分检测步骤中，从原始音频信号的频率成分中检测与噪声类似的非音调成分，即，噪声成分。

换句话说，音调和非音调成分对应于原始音频信号的峰成分；音调成分检测步骤S30对应于从峰成分中检测具有正弦曲线特性的纯音成分；而非音调成分检测步骤S40对应于从峰成分中检测与纯音对照的噪声成分。

在无关音调和非音调成分消除步骤S50中，从音调和非音调成分中消除具有小于绝对可听性阈值的强度的音调和非音调成分。即，在无关音调和非音调成分消除步骤S50，仅消除无关音调和非音调不可听成分以确定主成分。

在个别（individual）频率掩蔽产生步骤S60，计算用于每个主成分（音调和非音调）的个别频率掩蔽。通过将主成分的强度和对应的心理声学模型中使用的与预定掩蔽相关的函数（例如，掩蔽索引和掩蔽函数）的值相加来计算频率掩蔽。这里，依赖于音调和非音调成分不同地设置掩蔽索引，而且掩蔽函数被设置为对于音调和非音调成分相同。例如，可以通过主成分的Bark频率（或关键频带频率）z的函数（诸如，a-b*z-c dB）来给出掩蔽索引。可以通过主成分的强度X和Bark距离dz（相邻的Bark频率之间的距离）的函数（诸如，d*dz(dz+1)-(e*X+f)dB）来给出掩蔽函数。这里，a到f的值是恒定的。

在全局掩蔽产生步骤S70，将个别频率掩蔽与绝对可听性阈值组合以形成单个全局掩蔽。

在心理声学掩蔽产生步骤S80，产生与全局掩蔽和原始音频信号之间的差对应的心理声学掩蔽。

如上所述，所述步骤应该在每个相继的信号片段上执行，而且片段持续时间可以为大约20-40ms，其是音频信号的典型准稳定持续时间。因而，用于分析残余信号谱的FFT分析窗口的持续时间和用于多载波信号码元的持续时间可以被设置为相同，以便带来最佳性能和简单实现。

进一步，本发明在原始音频信号中的失真与由声通信信号中的累积信号噪声比确定的通信数据速率之间提供非常灵活的控制。实践中，可以通过调整衰减滤波器的形状来轻松地折衷失真和数据速率。如果滤波器引入较少的衰减，则原始信号的失真将较少，声通信信号中的总信号噪声比也将减少。然而，这将减少总数据速率，反之亦然。这里，‘信号’意味着声通信信号自身，而‘噪声’意味着原始音频信号，因为其被声通信接收器处理为随机噪声，假定声通信接收器不知道原始音频信号。

本发明可以在用于诸如移动电话机、便携多媒体设备、上网本等移动设备之间的数据传送的声通信系统中使用。例如，本发明可以与RU2009119776和2010年5月18日向美国专利商标局提交的分配序列号12/782,520的题为“Encoder,Decoder,Encoding Method,And Decoding Method”的美国公开2010-0290484A1（它们的内容通过引用合并于此）中描述的用于对象传输的声通信系统结合使用。本发明可以以使用通用处理器、或数字信号处理器芯片以软件实现，或者可以以硬件实现或作为两者的组合。

可以看出，本发明的实施例可以通过硬件、软件、或二者的组合实现。例如，这样的软件可以存储在易失性或诸如ROM的非易失性存储设备（不管其是否可以被擦除或重写）、或诸如RAM、存储芯片、设备或集成电路的存储器、或诸如CD、DVD、磁盘或磁带的光或磁介质上。可以看出，存储设备和存储介质示范性地由处理器实现，其可以由适合存储包括用于实现本发明的实施例的指令的程序的机器读取。因而，实施例提供包括用于实现本发明要求的系统或方法的代码的程序、以及存储这样的程序的可以由机器读取的存储设备。另外，这样的程序可以通过诸如通过有线或无线连接传输的通信信号的任何介质电子地传送，而且实施例适当地包括等价物。

虽然已经参照其特定实施例示出和描述本发明，但是本领域技术人员不难理解，这里可以在形式和细节上进行各种改变而不背离由所附权利要求限定的本发明的精神和范围。

Claims

1.一种声通信方法，包括：

将音频信号滤波以衰减该音频信号的高频部分；

产生与该音频信号和滤波信号之间的差对应的残余信号；

基于预定心理声学模型产生用于该音频信号的心理声学掩蔽；

通过将该残余信号与该心理声学掩蔽组合来产生心理声学谱掩蔽；

通过根据该心理声学谱掩蔽调制数字数据来产生声通信信号；以及

将该声通信信号与该滤波信号组合。

2.如权利要求1所述的声通信方法，其中通过具有从低频到高频降低的频率响应的频率选择衰减滤波器来执行音频信号的滤波。

3.如权利要求1所述的声通信方法，进一步包括：

检测残余信号的谱包络。

4.如权利要求3所述的声通信方法，其中检测谱包络包括：

对残余信号执行快速傅立叶变换（FFT）；以及

估计经转换的残余信号的谱包络。

5.如权利要求1所述的声通信方法，其中产生心理声学掩蔽包括：

检测音频信号的峰成分；

计算用于峰成分的个别频率掩蔽；以及

通过将个别频率掩蔽与绝对可听性阈值组合来产生全局掩蔽，

其中产生心理声学掩蔽对应于全局掩蔽与音频信号之间的差。

6.如权利要求5所述的声通信方法，进一步包括：

在检测峰成分之前对音频信号执行快速傅立叶变换（FFT）。

7.如权利要求5所述的声通信方法，其中检测峰成分包括：

检测音频信号的音调和非音调成分；以及

消除音调和非音调成分当中具有小于绝对可听性阈值的强度的音调和非音调成分。

8.如权利要求1所述的声通信方法，其中声通信信号是多载波信号。

9.如权利要求1所述的声通信方法，进一步包括：

使用扬声器以声波的形式发射组合的声通信信号和滤波信号。

10.一种声通信装置，包括：

用于将音频信号滤波以衰减该音频信号的高频部分的装置；

用于产生与该音频信号和滤波信号之间的差对应的残余信号的装置；

用于基于预定心理声学模型产生用于该音频信号的心理声学掩蔽的装置；

用于通过将该残余信号与该心理声学掩蔽组合来产生心理声学谱掩蔽的装置；

用于通过根据该心理声学谱掩蔽调制数字数据来产生声通信信号的装置；以及

用于将该声通信信号与该滤波信号组合的装置。