CN102254556B

CN102254556B - 基于听者和说者的讲话风格比较估计听者理解说者的能力

Info

Publication number: CN102254556B
Application number: CN201110184213.0A
Authority: CN
Inventors: 保罗·若勒·麦克里斯
Original assignee: Avaya Inc
Current assignee: Avaya Inc
Priority date: 2010-05-17
Filing date: 2011-05-17
Publication date: 2013-04-10
Anticipated expiration: 2031-05-17
Also published as: CN102254556A; GB2480537A; US8386252B2; GB201108150D0; US20110282669A1

Abstract

本发明涉及基于听者和说者的讲话风格比较估计听者理解说者的能力。描述了一种自动通讯系统附件，该附件“聆听”一个或多个参与者的说话风格，标识表示他们的风格的差异的具体特性，特别是口音，但也包括发音准确性，语速，语调，节奏，声调，协同发音，音节重读和音节持续时间中的一者或多者，并且例如利用对可能影响特定听者的可理解性的独立可测量讲话分量进行适当加权并且然后组合成指示所估计出的听者可理解所说内容的容易度的单个整体评分的数学模型，并且基于该评分向讲话者呈现实时反馈。此外，该系统可以为讲话者提供关于如何提高可理解性的建议。

Description

基于听者和说者的讲话风格比较估计听者理解说者的能力

技术领域

一个示例性方面涉及对通信的改进。更具体地，一个示例性方面涉及辅助在诸如会议电话之类的通信环境中的各方之间的可理解性(understandability)。

背景技术

即使两个人使用相同的语言讲话，并且精通该语言的词汇和语法，然而他们说话方式之间的差异，例如，口音、发音准确度、韵律、语音、语调、节奏、声调，协同发音、音节重读，音节持续时间等等的差异，可以影响他们理解对方讲话的容易度。虽然这些差异可发生在作为使用同一语言的母语讲话者的人们当中，但是，当由于一个谈话者习惯的是听者所习惯的语言以外的语言而使得该谈话者的讲话模式受到了影响时，这种问题可能尤其明显。

发明内容

发生该情况的一个很有意思的场景是在离岸联络中心(off-shorecontact center)。

当具有不同说话方式的人们之间面对面地进行交谈时，讲话者可以观察听者并且接收到非口头的关于他们是否被理解的反馈。察觉到听者有困难时讲话者可以调整他或她的说话方式，并且然后从接下来的非口头反馈中感觉这(一种或多种)调整是否有帮助。重点在于，在面对面的交谈中，有一个持续的反馈和调整循环。

如同各种各样的其它领域中的系统一样，可以预期到持续的反馈和调整循环的缺少会引起“漂移(drift)”—在这种情况下，讲话者越来越远地偏离了听者最容易懂的讲话风格。被认为可能导致这种漂移的因素包括讲话者的情感状态，对迅速表达观点的期望，以及讲话者是否做出了刻意努力去以听者-友好的方式说话。这里讨论的实施例所解决的一个问题是存在于仅语音的电话交谈中的唯一反馈机制是来自听者的口头反馈—由于它打断了交谈的流畅并被一些人认为是粗鲁的，因此这个选择很少被使用。

可用技术涉及基于计算机的系统，其中该系统“聆听”正在学习说外语的人并且向他们提供关于该学生发音错误的反馈。类似的系统被丧失听力的人所使用，给予他们关于如何提高他们的讲话的可理解性的指导。

在这里讨论的实施例和帮助学生的自动化技术之间的根本区别是，用于学生的帮助软件将学生的讲话与描述了完美发音的模板做比较。通过比较，实施例分析电话中的一个或多个通话方的说话风格，并且基于他或她的说话风格与听者的说话风格的不同程度来提供反馈给讲话者。例如，对于一个从书本上学习法语的美国人来说去理解一个说着完美法语的人是很困难的，但是去理解一个以类似于听者说法语的速度(即，非常慢)，带有和所述听者相似的夸张美国人风格的口音说出来的法语是相对简单的。

另一有意思的场景是在空中交通控制领域。更具体地，世界上所有控制员都被要求说英语。这明显呈现出一种潜在的危险情况并且提供了另一种环境，在这种环境中，这里所讨论的技术可能是有用的。在这个场景中，中国人向德国人讲英语的想法并不那么牵强。

因此，一个示例性方面涉及一种自动通讯系统附件，该附件“聆听”一个或多个参与者的说话风格，标识表示他们的风格的差异的具体特性，特别是口音，但也包括发音准确性，语速，语调，节奏，声调，协同发音，音节重读，音节持续时间，语法，词汇(或者有限的词汇的识别)以及习语(idiom)中的一者或多者，并且例如利用对可能影响特定听者的可理解性的独立可测量讲话分量进行适当加权并且然后组合成指示所估计出的听者可理解所说内容的容易度的单个整体评分的数学模型，并且基于该评分向讲话者呈现实时反馈。此外，该系统可以为讲话者提供关于如何提高可理解性的建议。

根据另一个示例性实施例，一种分析可以被执行来判断信号的减弱是否也可能导致可懂性问题，例如分组丢失，延迟时间，噪声，等等。此外，交谈动态也可被分析，例如听者是否正说“你可以再说一遍么”或者，相反，表现出完全沉浸在交谈中，这两者都给出了听者理解讲话者的能力的暗示。

在语音识别技术中，隐式马可夫模型(HMM)被用来分析样本，并且在这之后执行统计分析。此外，该模型被用作与模板进行比较的一种匹配处理。通常地，隐式马可夫模型是输出符号或数量序列的统计模型。通过HMM建模的讲话信号可以被看作是分段平稳(stationary)信号或短期平稳信号。这就是说，可以假设在例如10毫秒范围的短时间内，语音可以被近似成平稳过程。因此对于许多随机过程，语音可被认为是马可夫模型。

HMM的另一个优点是它们可以自动被训练并且使用时是简单的并在计算上是可行的。在语音识别时，HMM可以输出一N维实数值向量序列，每x毫秒输出其中一个。这些向量可以由倒谱系数(cepstralcoefficient)组成，这些倒谱系数是通过对语音进行短时窗的傅里叶变换并且使用余弦变换对频谱进行去相关，然后挑选第一(最重要的)系数而得到的。(美尔频率倒谱(MFC)是声音的短期功率谱的表示，其是基于非线性美尔频率范围上的对数功率谱的线性余弦变换的—美尔频率倒谱系数(MFCC)是总体地构成MFC的系数。MFCC通常被用作语音识别系统，例如可以自动识别对电话讲出的数字的系统中的特征。在任务是从声音来识别人的讲话者识别中它们也是普遍的。)

HMM将趋向于在每个状态中具有一个统计分布，其中该统计分布是将对每一个所观察向量给出似然性的对角协变高斯分布(diagonalcovariant gaussians)的混合。每个词，或者对更通用的语音识别系统而言，每个音节，都将具有不同的输出分布；用于词或音节序列的隐式马可夫模型是通过连接用于分离的词或音节的各个已训练的隐式马可夫模型而得到的。

在这里描述的方面的一个潜在假设是，如果口音被确定是相同的或非常相似的，那么两个说着口音很重的英语的人理解对方是没有问题的。另一方面，如果系统确定说话风格显著不同，例如，如果一个人说着带有印度口音的英语而另一个人说着带有西班牙口音的英语，则系统将向讲话者提供关于所估计出的听者对他或她的语音的“可理解性”的实时反馈。

一个重要方面是提供实时反馈和使得该反馈实质上持续的能力。重申上面讨论的任何问题，可以预期到持续的反馈和调整循环的缺失会导致讲话者越来越远地偏离了听者最容易懂的讲话风格。

在简单的实现方式中，给讲话者的反馈可以是持续被更新的“可理解性”评分，其可以表现为例如电话的字母数字显示装置上的数字或滑块(sliding bar)或可理解度的其它标记。在更复杂的实现方式中，利用标准的字母数字显示装置和/或图形用户界面，系统将会提出讲话者可以执行的具体动作，例如“减慢速度”或者“强调以h开头的单词中的“h””。

一种替代实现方式可以提供非视觉形式的反馈，例如通过只能被正在说话的人听到的“耳语”机构。如果与用户的电话端点相关联的显示器可以呈现可频繁刷新的复杂图像，那么更加复杂的反馈机制就变得切实可行。例如，不是将反馈限制在信号的一维可理解性评分，这类显示器可以通过多维视图来补充可理解性评分，其中组成整体可理解性的独立可测量分量被单独地显示出来。例如，反馈可以通过柱状图被提供，其中与独立因素有关的评分在伸长和缩短的分离的条柱中被指示出。讲话者可以观察这些单独的条柱，尝试对他们的讲话做出特定于因素的调整，并且接着观察这些调整是否是有益的。记住，一些因素比其它因素对讲话的可理解性具有更大的影响，并且还注意，可以期望因素的重要性取决于讲话者/收听者失配的性质进行改变，这种显示器的一个示例性实施例将指示出哪些因素应该被讲话者优先地或较优先地考虑。

另一示例性实施例包括特定于人口的模板，当收听者的说话风格不能被取样时，该模板能够用作用于讲话者/收听者比较的基础。可使用该方法的一个例子是，通用的“德国收听者”模板可被用作针对正用英语向德国听众发言的中国讲话者的一种辅助。类似地，比较不必必须实时地执行，而是可以基于与讲话者有关的简档，该简档是从该讲话者已经进行的一个或多个先前谈话得出的。

根据另一个示例性实施例，并且在上述的识别出说话风格可基于讲话者的活跃度、讲话者所说的内容等等而变化的实现方式上进行扩展，多个简档可被与用户相关联，其中每个简档被联系到一种具体风格。例如，如果讲话者正对朋友说话，则开始点可以是基于听者、上下文以及谈话内容中的一者或多者的简档，其中该朋友可以通过联系方式或呼叫方ID信息来被确定。例如，如果参与者A正在呼叫参与者B，并且正在讨论喜欢的爱好，则与参与者A和B都有关的简档可以被检索到，其中这些简档是特定于正讨论的爱好的。历史简档信息可以被作为用于基于一个或多个先前谈话来提供反馈的基准。以类似的方式，如果参与者A正与参与者B和C讨论与工作有关的具体涉及到特定项目的项，则在通话开始时，讲话者可以被提醒关于哪些可理解性问题已在一次或多次先前谈话中存在，从而给另两个参与者提供更即时的理解方面的帮助。

因此，一个示例性方面涉及分析例如电话通话中的一方或多方的讲话风格，并且向所有讲话者提供基于他们的讲话与收听者的讲话的不同程度的、可执行的持续的实时反馈。

其它方面涉及利用谈话动态来辅助向讲话者提供关于他们的讲话的可理解性的反馈。

另外的方面涉及利用信道特性作为输入并且分析讲话者的可理解性。

其它方面涉及以视觉的、非视觉的和/或口头形式中的一者或多者向讲话者提供有关他们的讲话的可理解性的实时反馈。

其它方面涉及当不能直接对听者的讲话风格进行取样时，利用特定于人口的模板来作为讲话者/听者比较的基础。

其它方面涉及利用特定于人口的模板来在一个国籍的讲话者正向另一国籍的听者发言的场合中提供帮助。

其它方面涉及检测讲话风格的差别，例如口音、发音准确度、语速、语调、节奏、声调、协同发音、音节重读以及音节持续时间，并且提供对参与谈话的一方或多方的相互可理解性的指示。

将从这里包含的内容中清楚这些和其它的优点。上述的实施例和配置既不是全部的也不是详尽的。如将会理解的，本发明的其它实施例可以单独地或联合地利用上述的或接下来将要详述的特征中的一个或多个。

正如这里所使用的，“至少一个”、“一个或多个”以及“和/或”是在运用时既连接又分离的开放式表达。例如，如下表达“A、B和C中的至少一个”、“A、B或C中的至少一个”、“A、B和C中的一个或多个”、“A、B或C中的一个或多个”以及“A、B和/或C”中的每一种的意思是A单独的、B单独的、C单独的、A和B一起、A和C一起、B和C一起或者A、B和C一起。

附图说明

本发明的示例实施方式将参考以下附图进行详细描述，其中：

图1图示出了示例性通信环境；

图2是图示出用来增强两个参与者之间的可理解性的示例性方法的流程图；以及

图3是图示出用来增强若干个参与者之间的可理解性的示例性方法的流程图。

具体实施方式

下面将结合示例性通信系统来图示说明一些实施例。虽然在具有诸如(一个或多个)交换机、(一个或多个)服务器和/或(一个或多个)数据库的系统中使用是很合适的，但是实施例并不局限于用于任何特殊类型的通信系统或系统部件的配置。本领域的技术人员将会认识到，所公开的技术可以用在希望提供增强的另一方对一方的可理解性的任何通信应用中。

首先参考图1，将根据至少一些实施例来描述示例性通信环境1。该通信系统包括一通信网络，该通信网络可选地将多个通信设备例如连接到会议桥接器。

在一个实施例中，通信系统可以包括交换机，该交换机可以包括专用小交换机(PBX)系统或者能够提供电话服务给与该交换机相关联的一个或多个诸如企业之类的实体的任何类似类型的交换系统。交换机可以是多个已知交换系统中的一个，其中多个已知交换系统包括但并不局限于专用自动小交换机(PABX)、计算机化小交换机(CBX)、数字小交换机(DBX)，或者集成小交换机(IBX)。交换机也可以包括交换结构，该交换结构提供诸如与会议桥接器相关联的通信设备之类的多个端点、服务器和数据库的连接。该交换结构可以提供将来电和/或去电引导至各个端点的功能并且还提供端点之间的会议功能。

在另一实施例中，例如上述的空中交通场景中，端点可能是无线电或类似的通信设备并且通信网是无线/有线网络。在该场景中，这里公开的技术可在机场信号楼等地方实现。通常，这里公开的技术可以位于用于服务一个或多个端点的任何合适的地方。

与参与者相关联的通信设备可以是分组交换式的或电路交换式的，并且可以包括，例如，如Avaya公司的4600系列IP电话^TM之类的IP硬电话，如Avaya公司的IP软电话^TM之类的IP软电话，个人数字助理或PDA，个人电脑或者PC，笔记本电脑，基于分组的H.320视频电话以及会议单元，基于分组的语音消息传输和响应单元，基于分组的传统计算机电话附属物，和传统的有线或无线电话。

图1图示出了示例性通信环境。该通信环境1包括可理解性增强系统100，具有可选的反馈设备210的端点A 200和具有可选的反馈设备310的端点B 300，它们通过一个或多个网络10和链路5相互连接。可理解性增强系统100包括分析模块110、简档模块120、控制器130、存储器140、存储装置150、建模模块160、反馈模块170、关键词模块180、参与度(engagement)模块190，以及信号质量模块195。可理解性增强系统100还包括建议数据库或贮藏库105。

如所讨论的，示例性实施例贯涉及增强各方之间的通信可理解性。为了促进该好处，一个示例性实施例利用与端点相关联的一个或多个反馈设备来向与端点相关联的人提供一个或多个可听见的，视频的，或多媒体的反馈，如后面将讨论的。

具体地，并且在操作中，诸如与端点A 200相关联的参与者A以及与端点B 300相关联的参与者B之类的人建立起通信会话。这些端点可以是任何类型的通信设备，例如电话，智能电话、具有多媒体能力的端点、扬声器电话、蜂窝电话，或者一般地，允许通过一个或多个网络10和链路5通信的任何类型的通信设备。例如，可以通过公共交换电话网络、分组交换电话网络、通过VOIP，利用SIP来进行通信，或者通常地通过任何类型的通信协议或形态来进行通信。

为了有助于增强可理解性，并且在通信会话开始之后或者与之相当时，与简档模块120协作的分析模块110开始监听参与者A的讲话。此外，分析模块110开始监听参与者B的讲话。如将会理解的，在通信会话开始时，几乎没有数据可用来帮助提供关于其它方对讲话者的可理解性的反馈。

因此，根据一个示例性实施例，并且与简档模型120，控制器130，存储器140，以及存储装置150进行协作，可以检索到个人简档和模板中的一个或多个，其具有例如关于讲话者的讲话特性的历史信息。这些历史示例可以基于例如一个或多个先前的谈话，可以包括该特定讲话者的讲话特性的总结，并且可选地可以是更具体的，例如基于情景和/或交谈的。例如，分析模块110可以识别出通信会话是在已经有过先前的(一次或多次)交谈的两方之间。在这一次或多次先前的交谈期间，可理解性信息在简档模型120的帮助下可以被遵从(comply)并被存储。因此，当两方再次开始通信会话时，该先前的历史信息可以被检索回并被利用来，正如以下所讨论的，为多方中的一者或多者提供反馈。

根据一个示例性实施例，并且在通信会话开始时，参与者可以被提供具有提高了该听者的可理解性的、与先前讲话特性的改变有关的方向的历史信息的大纲。这种类型的历史信息在通信会话开始时减少用于提高可理解性所花费的时间可以是非常有用的。

替代地，或者另外地，特定于人口(population-specific)的模板可以被引入用于参与者的一个或多个。例如，当不能够对听者的讲话风格进行取样时，该特定于人口的模板可以被用作用于讲话者/听者比照的初始基础。作为可以采用这样的方法的一个示例，一般性的“德国听者”模板可被用来帮助正用英语向德国听众发言的中国讲话者。

以类似方式，这些特定于人口的模板可被用来通过提供关于哪些类型的讲话特性通常会提高两个国籍的人之间的可理解性的初始指南，来进一步增强初始可理解性。例如，如果一个具有纽约口音的以英语为母语的讲话者正在对一个以日语为母语的听者说话，对该纽约讲话者的初始指导可以是放慢速度，使用更短的句子，以及减少使用地道的英语。通常，模板可以是基于讲话者/听者比照的任意组合而产生的，并且这被利用来可选地补充由分析模块110所获得的实际样本。

对一个或多个参与者的讲话的持续监听，以及可选择地对每一个参与者，分析模块110与控制器130、存储器140和存储装置150协作来标识表示风格的差异的一个或多个特性，风格例如是口音、发音准确度、语速、语调、节奏、声调、协同发音、音节重读、音节持续时间、母语信息，等等。可以针对通信会话的任何部分或者全部来实时地监听这些特性，并且可以进一步地被用来更新与一个参与者或者参与者的组合有关的简档，如上面在模板被存储用于各方之间的通信会话时所提及的。

建模模块160然后通过对可以影响可理解性的一个或多个独立可测量的讲话分量进行加权并将它们组合成单个整体评分来利用这些分量，该单个整体评分指示出所估计出的其它参与者可理解所说内容的容易度。该评分可以被用作反馈模块170确定并向讲话者呈现反馈的基础，该反馈具有关于如何提高听者的可理解性的一个或多个建议。更具体地，反馈模块170然后解释该可理解性评分，如所讨论的，该可理解性评分着眼于人之间的差异，当与建议数据库105核对时可关联到应当增强可理解性的建议。在反馈模块170的协作下，该建议可被提供给诸如反馈设备210或反馈设备310之类的反馈设备。

根据第二示例性实施例，可理解性增强系统100被扩展为包括具有多个参与者的情形，并且进一步包括对信号衰减(degradation)、交谈参与度因素中的一个或多个的动态监听和评估，以及对通信会话的动态更新。

更具体地，并且类似于上面讨论的实施例，每个参与者的讲话都被监听以标识一个或多个讲话特性。替代地或者另外地，可以检索该参与者的简档。此外，替代地或者另外地，可以检索参与者的特定组合的简档。如将理解地，如果有多个参与者，则当基于多个不同收听者的建议彼此矛盾时，可能难以者向讲话者提供建议。

因此，根据一个示例性实施例，例如可以基于针对多个收听者的建议的加权平均来修改给讲话者的反馈。根据另一个实施例，反馈设备也可用于收集关于(一个或多个)参与者的信息。例如，如果讲话者正对一端点处的听众讲话，则该端点处的听众可以使用反馈设备来向可理解性增强系统100提供诸如“我们是母语为汉语的讲话者，想要听英语。”之类的信息。以类似的方式，对于通过监听参与者讲话得到的信息以及讲话特性，该信息还可以被用于与可理解性评分相组合来辅助反馈模块170以及向讲话者给出一个或多个建议。

对每一个参与者，该分析模块110然后标识表示风格上的差异的一个或多个特性，风格例如是口音，发音准确度，语速，语调，节奏，声调，协同发音，音节重读，音节持续时间，母语信息，等等。此外，并且在信号质量模块195的协作下，进行关于信号衰减是否存在于通信体系结构的任何一个或多个分支中的评估。另外，关键词模块180监视各方之间缺乏理解的指示符。例如，关键词模块180被编程来寻找这样的指示符，例如“对不起，你可以再说一遍么”，“什么？”，“请重复你刚才所说的”，“你可以说得大声点么”，等等。一般地，关键词模块180可以通过任何数量的关键词被编程，这些关键词通常指示收听方的理解的缺乏。作为另一个例子，关键词模块180可以监视诸如“嗯哼？”之类的发声或类似发声的发生，这些发声通常也趋向于指示缺乏理解或者收听者没有听见讲话者的能力。

上述指示符的一个或多个接着被建模模块160用来确定指示所评估出的一个或多个其它参与者可以理解所说内容的容易度的评分。该评分然后被反馈模块170用来与建议模块105协作地确定可选地具有关于如何提高可理解性的建议的反馈并呈现给正讲话的参与者。这些建议可以经由反馈设备以听觉方式、图形方式、作为评分、以多媒体方式，或者一般地利用任意的(一种或多种)通信类型而被提供。此外，反馈可以通过图形用户界面，耳语通道，显示器(未示出)等而被提供。例如，并且取决于反馈设备的类型，反馈建议的复杂度可以是不同的。

例如，在简单的基于文本的反馈设备中，诸如放慢速度、更大声地说等的指示可被用来辅助收听方的可理解性。一个特定于语言的示例可以是，如果讲完美法语的某人在对从书本上学习法语的以英语为母语的人说话时被系统指示“对无声字母发音”。”在更复杂的图形用户界面类型的环境中，除了建议以外，额外信息可以可选地被提供给各个端点中一个或多个端点处的(一个或多个)参与者，其中该信息不仅包括建议，还包括关于端点的一般信息。例如，如参与者是如何参与交谈的，参与者是否输入了诸如母语之类的任何信息，等等的信息可以被显示出来。此外，系统可以被扩展为使得关键词模块180不仅聆听可以指示理解的缺乏的关键词或发声，而且在与反馈设备的协作下，该关键词模块180可以监视参与者是否输入了指示缺乏可理解性的信息。例如，当反馈设备(210，310)被扩展为包括输入能力时，其可被编程以使得当选择特定输入时，诸如说大声点、放慢速度、我听不见你等的输入可类似地被用来辅助建模模块160并且与反馈模块170协作地确定向讲话者提供何种反馈。

图2图示出了可理解性增强系统的操作的示例性方法。具体地，控制开始于步骤S200并且继续到步骤S210。在步骤S210处，参与者A的讲话被监听和/或检索。正如所讨论的，例如，当所监听的讲话数据不足以提供建议时，参与者A的讲话简档可以从存储位置被检索回并且将该简档利用来例如辅助提供更多的即时建议。接下来，在步骤S220处，并且以类似的方式，参与者B的讲话被监听和/或检索。然后，在步骤S230处，特定于人口的模版可以可选地被输入。接着，控制继续到步骤S240。

在步骤240处，并且对于每个参与者，表示风格上的差异的一个或多个特征被标识出，风格例如是口音，发音准确度，语速，语调，节奏，声调，协同发音，音节重读，音节持续时间，母语信息，语法，词汇，习语，等等。然后在步骤S250处，一个或多个独立可测量的讲话分量通过被加权并被组合成单个整体评分而被利用，该单个整体评分指示出所估计出的其它参与者可理解所说内容的容易度。控制接着继续到步骤S260。

在步骤S260处，具有关于如何提高可理解性的一个或多个建议的反馈被确定并被呈现给正在讲话的参与者。控制接着继续到步骤S270，在其中此控制序列结束。

图3概述了可理解性增强系统的操作的另一示例性实施例。具体地，控制开始于步骤S300并且继续到步骤S305。在步骤S305处，参与者A的讲话被监听和/或例如从简档检索回。接着，在步骤S310处，参与者B的讲话被监听和/或/或从简档中检索回。接着，在步骤S315处，一个或多个另外的参与者的讲话可以类似方式被监听和/或检索。对于每一个另外的参与者的讲话，监听和/或检索可以基于个人来进行，或者，例如，可以基于一定数目的参与者而被组合以形成加权平均。控制接着继续到步骤S320。

在步骤S320处，并且对于每一个参与者，或者例如，对于这些参与者的加权平均，如上面所讨论的表示风格上的差异的一个或多个特性被标识。接着，在步骤S325处，进行关于在通信体系结构的任何一个或多个分支上是否存在信号衰减的评估。该信号衰减信息还可以通过建模技术被利用来将如下情形考虑在内：可理解性不是基于讲话者的讲话特性，而是由于差的通信链路引起的。这在如下情形下可以是尤其重要的：其中，通信信道状况在通信会话的进行期间随着噪声水平逐渐变高并且随后下降而变化。明显地，在这种情形下，建议讲话者改变他们的讲话模式或者特性对收听者理解他们的能力几乎没有什么作用。作为可选的另外一个实施例，该信息可以被用来例如告诉讲话者中断他们的讲话直到噪声降低到可接受的水平。控制接着继续到步骤S330。

在步骤S330中，在整个通信会话期间，缺乏理解的指示符可以可选择地额外地被监听。例如，指示符可以是关键词、发声，或者一般地指示(一个或多个)收听者对讲话者所说内容的理解有困难的任何指示符。此外，在步骤S335中，额外的因素可以被进一步地考虑，例如谈话中的收听者的参与程度。例如，该系统可以被编程来识别是否存在活跃的谈话，在该谈话中多个参与者正快速地交换观点，可能在参与者之间具有高的互相理解程度。替代地，如果讲话者没有从一个或多个收听者那里获得任何反馈，则这种参与度的缺乏也可以用作指示符，该指示符指示了可能由于讲话者的讲话特性、通信信道衰落问题、基于音量问题导致的不能听见讲话者等等而使得收听者缺乏理解。控制接着继续到步骤S340。

在步骤S340处，并且除了上述的被监听特性以外，影响可理解性的讲话分量被评估并且指示其他参与者中的一个或多个能够理解所说内容的所估计出的容易度的评分被确定。接着，在步骤S345中，信号衰减信息、参与度信息和指示符信息中的一个或多个以及该评分被用来确定可选地具有关于如何提高可理解性的一个或多个建议的反馈并将反馈呈现给讲话者。如同先前的实施例，这一个或多个建议可以通过一个或多个反馈设备，如在图形用户界面，耳语通道等中，以图形方式，听觉方式等来提供。控制接着继续到步骤S350，在步骤S350中结束该控制流程。

各个实施例包括基本上如这里(包括各个实施例，子组合和它的子集)所图示并描述的部件、方法、处理、系统和/或装置。本领域的技术人员在理解本公开后将明白如何作出和使用本发明。在各个实施例中，本发明包括在缺少未在此处或其各个实施例中示出和/或记载的各项的情况下，包括缺少可能已在先前的设备或处理中例如用于提高性能、实现容易度和/或降低实施成本的各项的情况下，来提供设备和处理。

前面的讨论以说明和描述为目的而被给出。前面并不旨在将本发明局限于这里所公开的一种或多种形式。在前述的具体实施方式中，例如，为了精简本公开，本发明的各个特点在一个或多个实施例中被组合在一起。这种公开方法不应被理解成反映了要求保护的发明需要比明确记载在每个权利要求中的特征更多的特征的意图。而是，正如下面的权利要求所反映的，发明点在于少于前面公开的单个实施例中的所有特征。因此，下面的权利要求由此被并入此具体实施方式中，其中每个权利要求作为分离的优选实施方式而独立存在。

此外，虽然本发明的描述已经包括了对一个或多个实施例以及某些变形和修改的描述，但是其它的变形和修改也落在本公开的范围内，例如，在理解了本公开后，可落入本领域技术人员的技术和知识中。希望在准许的范围内获得包括要求保护的实施例的替代实施例的权利，替代实施例包括可替换的、可互换的和/或等同的结构、功能、范围或步骤，而不论这些可替换的、可互换的和/或等同的结构、功能、范围或步骤是否在本发明中被公开，并且并不希望向公众贡献任何可专利的主题。

虽然上述的流程图已经结合特定的事件序列进行了讨论，然而应当理解，可以在本质上不影响本发明的操作的情况下对该序列进行改变。此外，并不需要出现如示例性实施例中所记载的那样的精确事件序列。这里所给出的示例性技术并不局限于以特定方式描述的实施例，而是还可以被用于其它的示例性实施例，并且每个所描述的特征都可以分别地单独要求保护。

这里描述的系统、方法和协议还可以在除了或者替代所描述的通信设备以外的如下装置上来实现：专用计算机、编程微处理器或微控制器和(一个或多个)外围集成电路元件、ASIC或其它集成电路、数字信号处理器、诸如分立元件电路之类的硬连线电路或逻辑电路、诸如PLD、PLA、FPGA、PAL之类的可编程逻辑器件、诸如电话机之类的通信设备、任何类似装置，等等。一般地，能够实现状态机，其进而能够实现这里所述的方法的任何设备可以用来实现这里公开的各种通信方法、协议和技术。

此外，可以用利用对象的软件或面向对象的软件开发环境来容易地实现所公开的方法，这些软件和开发环境提供了可在各种计算机或工作站平台上使用的可移植源代码。替代地，可以用使用标准逻辑电路或VLSI设计的硬件来部分地或全部地实现所公开的系统。是用硬件还是软件来实现根据本发明的系统取决于系统的速度和/或效率要求、具体的功能，以及所利用的具体软件或硬件系统或微处理器或微计算机系统。可应用领域的技术人员可以根据这里提供的功能描述并利用计算机和通信领域的一般基本知识，利用任何已知的或以后开发出的系统或结构、设备和/或软件，来以硬件和/或软件容易地实现这里说明的通信系统、方法和协议。

此外，可以用被存储在非易失性存储介质中，并且在与控制器和存储器协同操作的经编程通用计算机、专用计算机、微处理器等上运行的软件来容易地实现所公开的方法。在这些情况中，本发明的系统和方法可以被实现为被嵌入在个人计算机上的程序(例如小应用程序(applet)、JAVA

或CGI脚本)、驻留在服务器或计算机工作站上资源、被嵌入在专用通信系统或系统组件等中的例程等等。还可以通过将系统和/或方法物理地结合到软件和/或硬件系统(例如通信设备或系统的硬件和软件系统)中来实现本系统。

因此，根据本发明，显然已提供了用于增强通信可理解性的系统，装置和方法。虽然已结合多个实施例描述了本发明，但是很明显，许多替换方式、修改和变形对可应用领域的普通技术人员而言是显而易见的。因此，希望包括在本公开的精神和范围内的所有这样的替换方式、修改、等同物和变形。

Claims

1.一种用于增强通信可理解性的方法，包括：

监听与第二参与者之间的对话和/或从简档中检索与第一参与者有关的语音特性；

监听与所述第一参与者之间的对话和/或从简档中检索与所述第二参与者有关的语音特性；

标识表示所述第一参与者和所述第二参与者之间的语音风格差异的特性；并且

利用可能影响可理解性的一个或多个独立可测的讲话分量来在计算机的辅助下向一个或多个参与者提供对所估计出的、正在收听的参与者可以理解正在讲话的参与者的容易度的指示，其中每个正在讲话的参与者能够接收对所估计出的、正在收听的参与者的理解的容易度的相应指示。

2.根据权利要求1所述的方法，进一步包括：对表示参与者之间的风格差异的特性进行加权并将它们组合成评分，并且将该评分提供给讲话方。

3.根据权利要求1所述的方法，其中，所述风格差异是口音、发音准确性、语速、语调、节奏、声调、协同发音、音节重读、音节持续时间、母语信息、语法、词汇和习语中的一者或多者。

4.根据权利要求1所述的方法，进一步包括：

评估一个或多个参与度指示符；

评估通信体系结构的一个或多个分支上是否存在信号衰减；

监听或者从简档中检索与另外的参与者有关的特性；并且

确定并呈现与如何提高可理解性有关的一个或多个建议，其中所述一个或多个建议通过耳语通道、图形用户界面、显示器和听觉中的一者或多者被提供。

5.一种用于增强通信可理解性的系统，包括：

分析模块，所述分析模块监听与第二参与者之间的对话和/或从简档中检索与第一参与者有关的语音特性，并且还监听与所述第一参与者之间的对话和/或从简档中检索与所述第二参与者有关的语音特性；

建模模块，所述建模模块标识表示所述第一参与者和所述第二参与者之间的语音风格差异的特性；以及

反馈模块和计算机，所述反馈模块和计算机利用可能影响可理解性的一个或多个独立可测的讲话分量来向一个或多个参与者提供对所估计出的、正在收听的参与者可以理解正在讲话的参与者的容易度的指示，其中每个正在讲话的参与者能够接收对所估计出的、正在收听的参与者的理解的容易度的相应指示。

6.根据权利要求5所述的系统，进一步包括：处理器，该处理器对表示参与者之间的风格差异的特性进行加权，将它们组合成评分；以及反馈模块，该反馈模块将该评分提供给讲话方，其中，所述风格差异是口音、发音准确性、语速、语调、节奏、声调、协同发音、音节重读、音节持续时间、母语信息、语法、词汇和习语中的一者或多者。

7.根据权利要求5所述的系统，进一步包括：参与度模块，该参与度模块评估一个或多个参与度指示符；以及信号质量模块，该信号质量模块评估在通信体系结构的一个或多个分支上是否存在信号衰减，其中，所述分析模块还监听或者从简档中检索与另外的参与者有关的特性。

8.根据权利要求5所述的系统，其中，关于如何提高可理解性的一个或多个建议被提供。

9.根据权利要求8所述的系统，其中，所述一个或多个建议通过耳语通道、图形用户界面、显示器和听觉中的一者或多者被提供。