CN102257566A

CN102257566A - 用于适配通信的方法和系统

Info

Publication number: CN102257566A
Application number: CN2009801510282A
Authority: CN
Inventors: D.布罗肯; N.H.范席恩德尔; M.T.约翰逊; J.H.D.M.韦斯特林克; P.M.C.莱门斯
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2008-12-19
Filing date: 2009-12-15
Publication date: 2011-11-23
Also published as: JP2012513147A; EP2380170A1; ATE557388T1; US20110264453A1; KR20110100283A; WO2010070584A1; EP2380170B1

Abstract

在包括至少两个终端（1，2）的通信系统中适配通信的方法中，至少携带在第一终端（1）处捕获的音频信号的至少部分信息内容的表示并且表示语音的信号在第一终端（1）和第二终端（2）之间被传送。使该音频信号的修改版本可用于第二终端（2）处的再现。终端（1，2）中的至少一个，通过以修改成使得所表示的语音的至少一个韵律方面根据在所述终端（1，2）中的至少一个处提供的输入数据（22）来适配的版本、来重建该音频信号，从而产生修改版本。

Description

用于适配通信的方法和系统

技术领域

本发明涉及通信系统中适配通信的方法、用于在至少两个终端之间适配通信的系统。本发明还涉及计算机程序。

背景技术

US2004/0225640 A1公开了一种方法，其中通信通过提供用于任何类型的通信的目的设置而得到增强。此外，通过分析通信内容或基于发送方的选择，发送方可以指示发送通信所处的一般情绪或心情。可以通过分析预见到预期接收方将理解该目的设置的框架。通信中提供的声音、视频和图形内容被分析以确定响应。声音内容可包括语音邮件、声音剪辑或其它音频附件。对声音内容的预见和预期的响应通过例如调节声音的音调、声音的音量或声音的其他属性来执行以增强含义。

已知方法的问题在于总体的声音设置（如音调和音量）并非很适合于控制所感知的人的情绪。

发明内容

期望的是提供一种使至少一个参与者能够控制远程终端之间传递的通信的情绪方面的方法、系统和计算机程序。

这通过在包括至少两个终端的通信系统中适配通信的方法来实现，

其中，至少携带在第一终端处捕获的音频信号的至少一部分信息内容的表示并且表示语音的信号在第一终端和第二终端之间被传送，

其中，使该音频信号的修改版本可用于第二终端处的再现，以及

其中，终端中的至少一个，通过以修改成使得所表示的语音的至少一个韵律方面根据在所述终端中的至少一个处提供的输入数据来适配的版本、重建该音频信号，从而产生修改版本。

所述方法基于以下见识：韵律（包括语音声音的音节长度、响度、音调和共振峰频率的变化）在很大程度上确定语音传递的情绪水平。通过适配语音信号的韵律方面（其涉及重建该语音信号），可以修改情绪水平。通过根据终端中的至少一个处可用或由其可用的输入数据来这样做，终端中的至少一个可以影响传送给其它方的语音中传递的情绪水平。这在认识到终端中的一个的用户易于发脾气或者被感知为冷淡的情况下可以是有用的。它对于使另一终端的用户的语音柔和也可以是有用的。该方法基于如下令人惊讶的理解：基于所捕获的语音信号，这些类型的修改因而在远程通信中获得有用的应用。所述方法可以利用用于远程通信的至少一个常规终端来实现，以便适配所感知的送往或从该终端传来的语音的情绪性。具体地，该方法的用户可以使来自另一个人的语音通信“变柔和”或者控制他或她如何被所述另一个人所感知、以及所述另一个人正在何处使用常规的终端（例如电话终端）。

在一实施例中，所述输入数据包括表示提供给所述终端中的至少一个的用户输入的数据。

该特征向用户提供控制传递给他们或由他们传递的语音的音调的能力。

该实施例的变形包括获得至少按某尺度的值的形式的用户输入。

因此，提供修改版本中重建音频信号时所瞄准的目标值。例如，用户可以借助于转盘或滑块（实的或虚的）来指示期望的情绪水平。可以使用用户输入来设置多个目标值中的一个或多个，每个值用于情绪的不同方面。因此，该实施例还适合用于实现本方法的系统使用情绪的多维模型的情况下。

在一实施例中，在第二终端处提供用户输入，并且表示用户输入的信息被传送给第一终端并使得被提供为通过第一终端处的用户接口的输出。

效果在于向第一终端处的人（例如讲话者）提供反馈。这样，在用户输入对应于使语音柔和的命令时，该事实被传递给讲话者，该讲话者随后将首先认识到他或她对待的人不能够理解例如他生气，而且该另一个人很可能感知到他或她太情绪化。

在包含至少两个终端的通信系统中适配通信的方法的一个实施例包括：根据用于表征讲话者的情绪状态的至少一个分析例行程序，分析在第一终端处捕获并表示语音的音频信号的至少一部分。

效果在于使该系统能够执行所述方法以确定修改音频信号的必要性以及必要程度。所述分析提供了基于可采取哪种行动的分类。

在一种变形中，至少一个分析例行程序包括用于按一定尺度对讲话者的情绪状态的至少一方面进行量化的例行程序。

效果在于提供可与目标值进行比较以及可被控制的变量。

另一变形包括使得表示分析结果的至少部分的信息被提供为通过第二终端处的用户接口的输出。

效果在于将情绪的传达与所传送的语音分隔开。这样，可以使音频信号中表示的语音听起来不那么生气，但是第二终端处的那一方仍然能意识到他或她的对话者生气的事实。由于包含分析结果的信息是模棱两可的，因此该特征可用于帮助避免文化上的误解，而附属于语音的特定特性的含义是与文化相关的。

在一实施例中，联系人数据库在终端的至少一个上维护，输入数据的至少部分是基于终端对身份的确定来获取的，所述身份与终端中的至少另一个关联，所述终端之间建立了用于传送至少携带所捕获的音频信号的至少部分信息内容的表示的信号的有效通信链路。

因此，用于远程通信的系统和终端的特性特征（包括联系人列表和标识符（如电话号码或网络地址））被用于减少使语音通信的情感方面适配于目标水平所需的用户交互量。用户可以基于例如他或她对潜在的通信伙伴的感知仅提供一次设置。为了与他们中的一个建立会话，用户仅需要接通。

在一实施例中，通过确定用户对在所述终端的一个处提供的用户接口的至少一个输入设备的物理操纵的至少一个特性来获得输入数据的至少部分。

因此，表示用户输入或其部分的数据被隐式地获得，同时用户提供某些其它输入。实现本方法的该实施例所需的用户接口被简化。例如，对输入设备的有力和/或快速的操纵可以指示高度情绪性。根据该输入的适配因而可以是使该音频信号柔和从而使其更中性。

本方法的实施例包括按照用于表征讲话者的情绪状态的至少一个分析例行程序，根据通过分析音频信号的修改版本可获得的数据，替换第一终端和第二终端之间传送的信息的文本表示中的至少一个词。

效果在于避免了当在第二终端处再现时所传递的信息内容和音频信号的修改版本的情感内容之间的不一致。音频信号的修改版本不需要实际地被分析来实现该实施例。由于它是基于输入数据产生，因此该输入数据是词语替换的充分依据。

根据另一方面，按照本发明用于在至少两个终端之间适配通信的系统被设置成制作在第一终端处捕获并表示可用于在第二终端处再现的语音的音频信号的修改版本，并且包括信号处理系统，该系统被配置成通过以修改成使得所表示的语音的至少一个韵律方面根据所述终端的至少一个处所提供的输入数据来适配的版本、来重建音频信号，从而产生修改版本。

这样的系统可以在第一和第二终端中的一个或两者中提供，或者在第一和第二终端之间中继通信的终端中提供。在一实施例中，所述系统被配置成执行按照本发明的方法。

按照本发明的另一方面，提供了包括一组指令的计算机程序，当该指令被合并于可机读介质中时，能够使具有信息处理能力的系统执行按照本发明的方法。

附图说明

将参考附图更详细解释本发明，其中：

图1是两个终端的示意图，在两个终端之间可以建立用于语音通信的网络链路；以及

图2是概述在终端之间适配通信的方法的流程图。

具体实施方式

在图1中，第一终端1被详细示出，并概要地示出了具有通常相似的组成的第二终端2。第一和第二终端1、2被配置用于经由网络3的远程通信。在所示的实施例中，可以进行至少语音和数据通信。网络3的特定实现包括网络的融合，例如极大区域网络和广域网的融合，后者是例如WiFi网络或WiMax网络。网络3的特定实现包括蜂窝电话网络。实际上，第一和第二终端1、2或者它们中的至少一个可以实现为移动电话手机。

第一终端1包括数据处理单元4和主存储器5，并被配置成执行编码在软件中的指令，包括使第一终端1能够适配将与第二终端2交换的信息的那些指令。第一终端1包括对网络3的接口6、显示器7以及用于获取用户输入的至少一个输入设备8。输入设备8包括用于用户操纵的一个或多个物理按键或按钮，在某些变形中还处于滚轮或操纵杆的形式。另一输入设备被集成在显示器7中，使得它形成触摸屏。音频信号可以用麦克风9和A/D转换器10捕获。可以使用音频输出级11和至少一个扬声器12来以可听形式再现音频信息。

类似地，第二终端2包括屏幕13、麦克风14、扬声器15、键区16和滚轮17。

在下文中，将描述表示语音的音频信号如何在第一终端1处被捕获、被适配，以及被传递以便被第二终端2再现的各种变形。当然，所述方法还用于在其它方向上的通信。这些方法使终端1、2的至少一个用户能够控制通信信号的情感（即情绪）内容，同时保持被传送的功能信息。

为此，使在第一终端1处捕获的音频信号的修改版本可用于第二终端2处的可听再现。通过以修改成使得所表示的语音的至少一个韵律方面被适配的版本、重建音频信号，终端1、2中的至少一个产生修改版本。在第一终端1产生所捕获的音频信号的修改版本的情况下，该修改版本通过网络3被传送给第二终端2。在第二终端2产生修改版本的情况下，其接收来自第一终端1的对应于所捕获的音频信号的音频信号。在任一变形中，所捕获的音频信号的至少部分信息内容的表示被传送。两个终端1、2还可以都执行修改步骤，使得第二终端的动作取代或增强由第一终端1进行的修改。

假定仅一个终端进行了修改，产生音频信号的该修改版本的该终端接收表示在第一步骤18（图2）中原始捕获的音频信号的数字数据。附带地，这可以是由麦克风9捕获的音频信号的过滤版本。

产生音频信号的修改版本的终端中的适配模块增强或减小了音频信号的情绪内容。实现其的技术包括基于简单的波形操纵来修改语音的持续时间和基频。持续时间的修改实质上改变语音节奏和速度。基频的修改改变语调。适当的方法在人工语音合成领域是已知的。在Kortekaas, R.和Kohlrausch, A.的“Psychoacoustical evaluation of the pitch-synchronous overlap-and-add speech-waveform manipulation technique using single-formant stimuli”，J. Ac.Soc.Am.,JASA, 101(4), pp. 2202-2213中给出了通常由缩写PSOLA指代的方法的示例。

该适配模块利用例如快速傅立叶变换来分解音频信号（步骤19）。如果需要增强情绪水平，则向基频分量增加更多的变化（步骤20）。然后（步骤21），音频信号从修改的以及未修改的分量再次合成。

对这样的过程的输入数据22提供了将被包含在音频信号的修改版本中的情绪度的基础。

为了组合输入数据22，若干方法都是可以的，所述方法可以被组合。在某些实施例中，仅使用一个方法。

通常，输入数据22包括优选的情绪度并且可选地包括在第一步骤18中获得的音频信号所源自的人的实际情绪度、预期所针对的人的实际情绪度或者这两者的实际情绪度。所述情绪度可以基于例如唤醒度－愉悦度（valence－arousal）模型用多个维度来参数化，所述模型如在例如Russel, J.A., “A circumplex model of affect”, Journal of Personality and Social Psychology 39 (6), 1980, pp. 1161-1178中所描述。在可替换实施例中，一组基本情绪或分层结构提供了用于表征情绪的基础。

在所示实施例中，在步骤19、21（其中音频信号以修改版本被重建）之前或与分解步骤19结合的步骤23中，根据至少一个分析例行程序来分析音频输入以确定讲话者的实际情绪水平。

与分解步骤19相结合，所述分析可以包含音频信号中表示的语音韵律的自动分析，以发现讲话者正经历的紧张度。使用音频信号的频率变换，例如快速傅立叶变换，讲话者语音的基频被确定。基频中的变化（例如以标准变化形式量化）指示所经历的情绪的强度。增加的变化与增加的情绪强度相关联。其它的语音参数也可以被确定并用于分析情绪水平，所述参数如平均幅度、分段或暂停持续时间。

在可选的另一步骤24中，通过确定用户对设置在所述终端中的一个处的用户接口的至少一个输入设备的物理操纵的至少一个特性，获取表示用户的实际情绪度的输入数据22的至少部分分量。该步骤可以包含在输入设备8中包括的键盘上敲击的时刻、速度和力量中的至少一个的分析，或者对显示器7所包括的触摸屏上所进行的敲击的时刻、速度和力量中的至少一个的分析，从而确定第一终端1的用户的情绪水平。可以执行对第二终端2的键区16或滚轮17的操纵方式的类似分析。这样的分析不需要与音频信号的处理同时执行，而是一般还可用于表征用户。然而，考虑到心情变化，对这种辅助输入的分析最好基于用户输入来执行，所述用户输入在不超过在从第一终端1到第二终端2的音频信号的信息内容的通信之前的预定时间间隔中提供。

另一类型的分析包含对在第一终端1和第二终端2之间传递的数据的信息内容的分析。这可以是包括文本信息并在所捕获的音频信号之外提供的消息，在此情况下，该分析包括在（可选的）步骤24中。它还可以是通过对所捕获的音频信号的部分或全部进行语音－文本转换所获得的文本信息，在此情况下，该分析是分析音频输入的步骤23的部分。所述分析通常使用情绪词数据库（“情感字典”）以及与该词关联的情绪的量级。在先进的实施例中，数据库包括情绪词对多个情绪维度例如唤醒度、愉悦度和控制度（valence, arousal, power）的映射。

控制情绪水平并指示优选情绪水平的输入数据22的分量还包括第一终端1的用户、第二终端2的用户或两者偏好的数据特性。因此，该数据在适配音频信号分量和重建音频信号的步骤20、21之前获取（步骤25），并且它可被重复地执行以获得当前的用户偏好数据。

可选地，所述输入的该分量包括基于由执行该方法的终端确定与所述终端中的至少另一个相关联的身份来获取的数据，其中在所述终端之间建立了用于传递至少携带所捕获的音频信号的至少部分信息内容的表示的信号的有效通信链路。第一和第二终端1、2维护联系人数据库，其针对每个联系人包括一字段，该字段包含缺省的情感内容过滤设置。可替换地或附加地，每个联系人可以与一个或多个组相关联，并且各个缺省的情感内容设置可以与这些组相关联。因此，当终端1，2之一的用户设置输出呼叫或接受输入呼叫时，所述终端1、2的另一方或者至少另一方的身份被确定并用于获取缺省的情感内容过滤设置。通常，针对如下的至少一种情况这些设置采取情绪的目标水平的形式：a)在另一终端处捕获的音频信号的修改版本（输入通信的适配）；以及b)在同一终端处捕获的音频信号的修改版本（输出通信的适配）。

在通信会话期间或恰在通信会话之前提供的用户输入可以取代缺省的设置。

通常，这样的用户输入为按某尺度的值的形式。具体地，给第一终端1的用户和/或第二终端2的用户提供一种装置，其利用适当的以及用户友好的接口来手动控制所捕获的音频信号的修改版本中的情感内容。

因此，在用户输入由第二终端2的用户提供的情况下，可以操纵滚轮17来按某尺度增加或减小情绪水平。表示这种操纵的数据被提供给执行合成音频信号的修改版本的步骤20、21的终端。这样，用户可以控制情感内容的量级和/或被再现或输入到他或她的终端1、2的语音的情感风格。为了使该适应性方法的这种变形实现和使用更简单，用户操纵的接口单元可具有双重功能。例如，滚轮17可以在一种模式下提供音量控制而在另一模式下提供情绪内容水平控制。在一种简单的实现方式中，对滚轮17施加推力或某些其它类型的二进制输入允许用户在模式之间切换。

另一类型的用户接口部件使用户能够部分或全部地从表示语音的音频信号中清除所有情感内容。在一个变形中，该用户接口部件包括单个按钮，其可以是图形用户界面中的虚按钮。

在第二终端2使用用户输入来控制从第一终端1传送到第二终端2以便再现的语音的情感内容的情况下，表示在第二终端2处提供的用户输入的信息可以被传送到第一终端1并导致被提供为通过第一终端1的用户接口的输出。这可以是通过扬声器12的可听输出、显示器7上的可视输出或其组合。在另一实施例中，提供触觉反馈信号。因此，例如如果第二终端2的用户按压键区16上的按钮以从第二终端2处再现的语音中清除所有的情感内容，则该事实被传送给第一终端1。第一终端1的用户可以调节他的音调或考虑如下事实：对另一方的任何非语言提示将不会被该另一方所感知。

本方法的另一特征包括：使表示在分析步骤23、24中执行的分析的结果的信息被提供为通过第二终端2处的用户接口的输出。这样，在第一终端1执行图2的方法的情况下，表示第一终端1处的讲话者的情绪水平的信息被传送给第二终端2，该第二终端2例如在屏幕13上提供适当的输出。在第二终端2对传入的音频信号执行图2的方法的情况下，由它直接提供分析步骤23、24的结果。该特征通常在如下情况中实现：当对重构步骤21的输入使得导致情绪的显著部分从所捕获的音频信号的修改版本中缺失。分析输出的提供允许第一终端1的用户的情绪状态以中性方式表达。这给用户提供了对情绪的控制而不丢失关于讲话者状态的潜在有用的信息。另外，它可以帮助第二终端2的用户辨认情绪，因为情绪可能容易被错误地理解（例如理解为生气而非心烦），尤其在文化和区域差异的情况下。可替换地或附加地，情绪理解和显示特征也可以在第一终端1上实现，以允许其用户利用如此提供的反馈来控制他或她的情绪。

为了避免第二终端2上再现的功能信息内容和其如何再现之间的不一致，图2的方法包括可选步骤26：按照用于确定讲话者的情绪水平的至少一个分析例行程序，根据通过分析修改的音频信号可获得的数据，替换第一和第二终端2之间传送的信息的文本表示中的至少一个词。为此，音频输入被转换成文本使得词能够被识别。这些具有特定情绪含义的词被替换或修改。替换词和修改词利用文本－语音转换方法来合成，并被插入到音频信号中。该步骤26因此还可以在重构步骤21之后执行。对于词的替换，使用词的数据库，其使得词能够用具有相同功能含义但是例如表示用于相同唤醒度的愉悦度的按某尺度增大或减小的值的词来替换。对于修改，替换与该情绪词接近的形容词或者插入形容词以便减轻或加强该情绪词的含义。

至少在图2的变形中，所得到的信息内容在第二终端2处再现，其中韵律特性与由第一终端1的用户和第二终端2的用户中的至少一个确定的情绪水平相一致，从而提供了对远程语音通信的非语言方面的一定程度的控制。

应注意到，上面提及的实施例说明而非限制本发明，本领域的普通技术人员将能够设计许多可替换的实施例而不背离所附权利要求的范围。在权利要求书中，置于括号中的任何参考标记不应被解释为限制权利要求。词语“包括”不排除权利要求中所列单元或步骤之外的单元或步骤的存在。单元前的字眼“一”或“一个”不排除多个这样的单元的存在。在相互不同的从属权利要求中记载特定措施的单纯事实并不表示这些措施的组合不能被有利地使用。

尽管图1提到了移动通信终端，但是以上概括的本方法还适合于在例如呼叫中心或视频会议系统中实现。音频信号可以用模拟或数字形式来传送。第一和第二终端1、2之间的链路不必是点到点连接，而是可以为广播链路，并且通信可以是基于分组的。在后一实施例中，与其它终端关联的标识可以从分组中获得并用于获取情绪水平的缺省设置。

在提及情绪水平时，例如在使用多维参数空间来表征讲话者的情绪时，它们可以是值的组合，或者它们可以仅是那些多个参数之一的值。

Claims

1. 一种在包括至少两个终端（1，2）的通信系统中适配通信的方法，

其中至少携带在第一终端（1）处捕获的音频信号的至少部分信息内容的表示并且表示语音的信号在第一终端（1）和第二终端（2）之间被传送，

其中使该音频信号的修改版本可用于第二终端（2）处的再现，以及

其中终端（1，2）中的至少一个，通过以修改成使得所表示的语音的至少一个韵律方面根据在所述终端（1，2）中的至少一个处提供的输入数据（22）来适配的版本、重建该音频信号，从而产生修改版本。

2. 按照权利要求1的方法，其中所述输入数据（22）包括表示提供给所述终端（1，2）中的至少一个的用户输入的数据。

3. 按照权利要求2的方法，包括：

获取以至少按某尺度的值的形式的用户输入。

4. 按照权利要求2的方法，

其中在第二终端（2）处提供用户输入，并且表示该用户输入的信息被传送给第一终端（1）并使得被提供为通过第一终端（1）处的用户接口（12，7）的输出。

5. 按照权利要求1的方法，包括：

根据用于表征讲话者的情绪状态的至少一个分析例行程序，分析在第一终端（1）处捕获并表示语音的音频信号的至少一部分。

6. 按照权利要求5的方法，

其中至少一个分析例行程序包括用于按一定尺度对讲话者的情绪状态的至少一方面进行量化的例行程序。

7. 按照权利要求5的方法，包括：

使得表示分析结果的至少一部分的信息被提供为通过第二终端（2）处的用户接口（13，15）的输出。

8. 按照权利要求1的方法，

其中联系人数据库在终端（1，2）的至少一个上维护，并且其中输入数据（22）的至少部分基于终端（1，2）对身份的确定来获取，所述身份与所述终端（1，2）中的至少另一个关联，终端（1，2）之间建立了用于传递至少携带所捕获音频信号的至少部分信息内容的表示的信号的有效通信链路。

9. 按照权利要求1的方法，

其中通过确定用户对在所述终端（1，2）的一个处提供的用户接口的至少一个输入设备（8，16，17）的物理操纵的至少一个特性来获得所述输入数据（22）的至少部分。

10. 按照权利要求1的方法，还包括：

按照用于表征讲话者的情绪状态的至少一个分析例行程序，根据通过分析音频信号的修改版本可获得的数据，替换第一终端（1）和第二终端（2）之间传递的信息的文本表示中的至少一个词。

11. 一种用于在至少两个终端（1，2）之间适配通信的系统，

所述系统被设置成制作在第一终端（1）处捕获并表示可用于在第二终端（2）处再现的语音的音频信号的修改版本，该系统包括：

信号处理系统（4，5），其被配置成：通过以修改成使得所表示的语音的至少一个韵律方面根据在所述终端（1，2）中的至少一个处所提供的输入数据（22）来适配的版本、来重建音频信号，从而产生修改版本。

12. 一种包括一组指令的计算机程序，当该指令被合并在可机读介质中时能够使具有信息处理能力的系统执行按照权利要求1－10中任一项的方法。