CN104767652B

CN104767652B - 监视数字传输环境性能的方法

Info

Publication number: CN104767652B
Application number: CN201410008285.3A
Authority: CN
Inventors: 李凯; 格伦·迪金斯; 孙学京
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2014-01-08
Filing date: 2014-01-08
Publication date: 2020-01-17
Anticipated expiration: 2034-01-08
Also published as: CN104767652A; EP3092784A1; US9871912B2; EP3092784B1; WO2015105764A1; US20160337510A1

Abstract

本公开涉及一种监视数字传输环境性能的方法。一种在具有多个参与者的电话会议中分配传输资源水平的方法，其中该多个参与者在数字传输环境中的会议信息交换中交互，该交互在可变网络传输资源上进行，该方法包括以下步骤：(a)监视参与者在电话会议期间的行为的预定方面；(b)确定参与者行为相对于规范值的偏差；(c)将任意偏差用作参与者的异常操作的指示；以及(d)分配对参与者行为相对于规范值的偏差起决定性作用的资源。

Description

监视数字传输环境性能的方法

技术领域

本发明涉及电话会议等的监视，具体地涉及根据参与者的行为检测电话会议性能的技术。

背景技术

本说明书中对背景技术的任何讨论决不应当被视为承认这种技术是广泛已知的或形成本领域中的常见的一般知识的一部分。

在电话会议中，用户通话质量体验的测量和管理(有时宽泛地称作服务质量——QoS)是组装的和/或集成的语音和视频会议系统的重要部分。

QoS用作用户体验的测量和抱怨服务质量的可能性。由于较高质量网络链路的提供通常直接涉及操作的成本，所以QoS测量常规地用于均衡资源分配以匹配针对溢价结构的要求的QoS以及客户保留的需求。由于在昂贵时客户抱怨，并且使客户流失(客户在服务提供商之间的迁移)最小化是重要的，所以这两个因素的均衡对于任何语音或视频会议运营商的运营效率和收益是关键的。总之，使用基于QoS的用户体验的测量(客观的、主观的或基于抱怨的)、由于带宽的服务提供成本、服务器处理负荷、服务器位置或管理的接近程度和网络链路质量，来均衡这两个因素。

归因于运营商的感知到的故障状况增加客户抱怨的等级，降低用户体验并最终可以导致客户流失。

有许多用于QoS测量的已知系统。具体地，技术中流行估计单独链路并且聚合QoS。单独链路质量的最常见的测量是在(ITU 1996)中定义的平均意见得分(MOS)。已知的系统经常与对以下测量的估计相关联：该测量与针对语音、背景噪声、交互和整体会议体验的MOS有关。引用下列现有技术作为该领域中的示例性公开内容：

美国专利公开US 2009/0257361提出了使用影子服务器来监视链路质量并且与通话链路质量相关联；

(ETSI_TC-TM 1996)公开了具有通话信道质量的估计的低计算复杂度手段的E模型；

(Ramachandran和Beeram 2009)美国专利公开US20090237240和US20090201824提供了用于组合对通话问题起作用的物理参数的集合的方法。

美国专利公开US2009/0225670提供了聚合单独链路QoS测量以提供整体会议QoS的手段。

IT(ITU-T G.1142003)提供了与网络链路延迟有关的MOS劣化的预测。

美国专利7,403,487和6,343,313也提供了用于联网的会议环境中的QoS水平的测量的示例系统。

在第一次检查时，大多数已知的系统在QoS的估计中似乎专注于通信信道中的用户间的时间延时(即，延迟(latency))，以及还专注于(即，装置连接本身的)连接和断开次数。因此，度量的参考和服务的质量与以下方面有关：音频质量的标准度量、交互延迟以及因此过讲话(over talk)的可能程度、以及其他简单的度量(如包丢失)。这些可以称为“物理度量”，因为它们表示物理(或相关联的软件和网络)系统及其性能的一些想当简单和可测量的方面。根据物理可观察的参数使用模型如(ETSI_TC-TM1996)推断通话质量的劣化水平。

“在线监视(In Service Monitory)”(ISM)通常是现有技术语音系统中的关键特征。ISM用于监视系统并且在流失客户之前觉察到质量的劣化。在一些情况下，这可以用于通过维持用户可接受的最低质量来实现最低成本。然而，音频和系统性能的可检测的问题并不经常与用户抱怨联系起来。有时故障模式是用户已知的并且被用户接受(例如，在嘈杂的公共空间中使用电话给出较差的音频质量)。在其他情况下，尽管一些常规的客观测量指出失真较高，但失真的形成可能会在感知上不显著。

参考文献

Blundell，N.和L.Mathy(2004)。Towards(perceived)latency minimisation in audio-conferencing systems over application-level multicast。Systems，Man andCybernetics，2004 IEEE International Conference on。

Dong，W.，B.Lepri等人(2012)。Automatic Prediction of Small Group Performance in Information Sharing Tasks。Collective Intelligence，MIT，Cambridge。

ETSI_TC-TM(1996)。ETR 250：Transmission and Multiplexing(TM)；Speechcommunication quality from mouth to ear for 3.1kHz handset telephony acrossnetworks。European Telecommunications Standards Institute。

ITU-T G.114(2003)。One-way transmission time，ITU。Report on the impactof mouth to ear delay on the quality of voice。

ITU(1996)。“P.800：Methods for subjective determination of transmissionquality”。Terminals and subjective and objective assessment methods。来自http://www.itu.int/rec/T-REC-P.800-199608-I/en。

Ramachandran，K.和S.Beeram(2009)。Supporting Enterprise-Grade Audio Conferencing on the Internet。PAM'09 Proceedings of the 10th InternationalConference on Passive and Active Network Measurement Springer-Verlag Berlin，Heidelberg。

Wei，P.，D.Wen等人(2012)。“Modeling Dynamical Influence in HumanInteraction：Using data to make better inferences about influence withinsocial systems”。Signal Processing Magazine，IEEE 29(2)：77-86。

Yin，B.和F.Chen(2007)。Towards Automatic Cognitive Load Measurementfrom Speech Analysis。Human-Computer Interaction.Interaction Design and Usability。J.Jacko，Springer Berlin/Heidelberg。4550：1011-1020。

C.Goodwin，Conversational Organization：Interaction Between Speakersand Hearers，Academic Press，New York，NY，1981。

H.H.Clark和T.B.Carlson，Hearers and speech acts，Language,58(2)：332-373，1982年6月。

发明内容

本发明的目的是以其优选形式提供用于监视电话会议等的系统，具体地，根据参与者的行为检测电话会议性能的技术。

根据本发明的第一方面，提供一种在具有多个参与者的电话会议中分配传输源的水平的方法，其中多个参与者在数字传输环境中的会议信息交换中进行交互，该交互在可变网络传输资源上进行，该方法包括以下步骤：(a)监视电话会议期间参与者的行为的预定方面；(b)确定参与者行为与规范值之间的偏差；(c)利用任意偏差作为参与者的异常工作的指示；以及(d)分配对参与者行为与规范值之间的偏差起决定性作用的资源。

优选地，监视步骤可以包括：(a)使用第一分类器来监视规范行为；(b)使用至少第二分类器来监视会议相互沉默、单方讲话分析、重叠讲话分析、话音交替速率、麦克风静音分析或链路故障率中之一；以及(c)使用组合单元将来自至少第一分类器和第二分类器的输出组合以产生异常工作的可能程度的输出。

根据本发明的另一方面，提供一种用于确定提供至联网的会议系统中的端点处的参与者的服务的潜在质量的系统，该系统包括：一系列采集单元，用于采集和聚合来自会议的参与端点的系统状态信息；第一分类单元，用于将会议活动分类为参与者之间的规范的有效会议；至少第二分类单元，用于将会议活动分类为参与者之间的非规范的有效会议；以及聚合器，其与第一分类单元和至少第二分类单元互连，聚合器基于来自第一分类单元和第二分类单元的输出来根据其确定故障可能性水平和置信水平。

在一些实施方式中，采集单元中的至少之一采集信息，该信息包括每个端点处的参与者的同步语音或通信活动。在一些实施方式中，系统状态信息优选地能够包括每个端点处的语音水平随时间的变化。在一些实施方式中，系统状态信息优选地能够包括每个端点处的残余回声水平随时间的变化。在一些实施方式中，系统状态信息优选地能够包括每个端点处的参与者的随时间的相互沉默。在一些实施方式中，系统状态信息优选地能够包括参与者的话音的重叠程度。在一些实施方式中，系统状态信息优选地能够包括参与者的麦克风静音变化。在一些实施方式中，系统状态信息优选地能够包括每个端点处的参与者的随时间的单方讲话。在一些实施方式中，系统状态信息优选地能够包括参与者的链路故障和重新连接。

附图说明

现在将参照附图仅通过示例来描述本发明的实施方式，在附图中：

图1示意性示出包括实现上下文感知(context aware)处理的额外监视设施的VoIP环境；

图2示出图1的布置的一部分；

图3示出多点会议的三态马尔科夫过程建模；

图4示出参数会议分析的流程图；

图5示出来自示出AGC水平、输入水平、噪声水平和回声水平的有效统计记录的输出；

图6示出会议的持续时间中来自扬声器的语音活动的示例记录；以及

图7示出一系列会议会话的示例传输脉冲(burst)长度分布。

具体实施方式

本发明的优选实施方式提出在电话会议期间呼叫参与者的明面表现和行为的度量。虽然可能不知道问题的直接来源，如果在电话会议内观察到异常的人类行为，则这在测量中被利用，其可以归因于通话提供基础设施的故障而不是具体端点故障。

优选实施方式总体上涉及集成的会议系统，其中，可以直接访问将在会议的中央服务器或主要主机上可得到的所有的客户端动作和/或会议的状态变量的集合。实施方式具体呈现为涉及语音会议系统，然而应当明白和设想的是，本发明也可以涉及附加参与方之间的视频和/或其他传感和通信信息的系统。一些示例包括共享介质、文本、书写板(whiteboard)、视觉幻灯片、其他音频内容、控制数据(如在游戏和在线合作系统中使用的)、文件传输以及一般可简化为以实时方式在参与方之间发送和消耗的数字数据的任何事物。

优选实施方式的核心提供对算法、启发式分类器和训练的分类器(机器学习)的使用以识别会议活动的状态之间的转换，专注于能够指示会议系统的一些故障或不期望的性能的异常的人类行为的特定模式。

优选实施方式提供评定如下系统中的会议QoS的手段具有特别指出的重要性，该系统动态地利用会议中的会议动态以提供配置资源的不均匀的分布(Blundell和Mathy2004)。通过具体示例，正在收听但没有直接贡献很多的特定会议参与者可以被分配在一个或两个方向中较差的网络链路。下行链路上的音频可能具有到会议的主体的较大的延迟，并且利用冗余编码或前向纠错(然而这招致延迟)，将会在较差的网络链路上产生可接受的QoS。上行链路上的音频是不频繁的，并且仅需要一旦参与者进行与其他参与者交互时具有实质质量。会议中的资源的这种动态分配对项目是合理的，然而，基于根据物理参数和适当的模型得到的MOS来测量QoS的现有技术不是很好地适合于会议中的这种优化的资源分配。

最终，可能根据到对于一个或更多个用户来说变成有问题的点的服务提供而使电话会议劣化。因此，应当依赖于会议参与者的相对重要性和需求而不只是为链路的集合获得的MOS。优选实施方式提供通过观察用户的行为来评定整个会议的适当质量的手段。

优选实施方式提供上下文感知处理，在于通过利用在电话会议和用户端点上获得的信息的广泛的集合来实现结果或成果。

首先参照图1，示出了经由服务器6进行电话会议的上下文感知客户端2至4的优选实施方式1的示例操作环境。经由VoIP连接8、9进行会议。服务器6负责实施会议系统。在该实施方式中，示例IP网络语音(VoIP)被示为具有客户端之间的三个通信链路的1，并且维持每个客户端与服务器之间的单独的相关数据流、信息流以及实施规则。

上下文感知会议系统的优选实施方式1的网络环境可以是有线网络条件或无线网络条件如LAN/WAN、WiFi、2G/3G/4G、蓝牙等。客户端的类型可以是个人计算机(PC)、平板电脑或移动客户端等。

还提供了单独的分析网络。其包括数据流20、21，信息22、23以及规则25、26。

在端点20或会议服务器的在参与者中的每个参与者上的边缘21处采集数据。该数据可以包括下列中的一些或全部：与会议参与者中的其余参与者对准的语音活动时间；连接和断开；讲话的音量水平的变化——对任何增加的水平的强调；重复；噪声水平；随着时间的特性和变化；损害(nuisance)水平；回声或残余回声水平；在端点处使用的具体类型和硬件；端点处的装置配置或硬件的变化。可以被记录的其他数据可以包括：电话会议连接和断开的时间；每个端点处以及因此横跨电话会议的语音活动；每个端点处的噪声、语音和损害水平；端点的静音。

每个端点监视数据的集合(例如，噪声水平、VAD(语音活动检测)活动)，并且对于信息将其减少(例如，问题端点，最近语音活动百分比)，并且这可以用于由规则单元例如25对动作实施的规则的集合中。针对每个客户端到服务器的接口复制数据、信息和规则的相似结构21、23、26，并且针对服务器整体复制数据、信息和规则的相似结构28、29、30。具有来自所有端点例如20、22、25和服务器接口21、23、26的数据流的服务器上的规则30可以用于基于异常的人类行为生成有效的会议度量。

优选实施方式基于如下观察：有效的会议将遵循多方之间的特征行为模式。

该信息的聚合用于检测会议问题所特有的潜在故障行为或相应的集合。一些示例可以包括：会议中的非预期的较长沉默停顿(“我们仍然在线吗？”)；已经很积极的参与者在没有任何来自他人的关于他们的迫切离开的确认或响应的情况下退出进行中的对话；长的沉默之后是停顿和“你们还在吗”之类响应；特定的人退出会议并且活动变得停止、沉默或偶发直到他们返回以及重新开始典型的有效的对话；局部端点静音的使用(即使当存在被抑制的较小语音活动(本地对话)时)；具有表示困难通信的增大的语音水平的语音讨论的重复；异常“什么？”，然后较响的响应；由较短的非语音传输的有规律的和/或增大的频率指示的导致损害的端点(假定损害控制不在适当位置)；主扬声器的中断，随后是指示各方确定谁导致“干扰”的活动然后一方迅速静音；尝试的通信——加入会议的某人仅稍后离开，或重复尝试和重新连接；诸如回声水平或增益控制的参数的异常趋势，其导致传异常输特性或损害水平。

从(机器学习)分类器得出的所涉及的规则和数据的集合可以用于提供识别异常的人类行为的某种可靠性。通过连续的利用和数据采集，分类器系统和规则可以不断地进展。因为具有多种多样的会议使用情况，系统设计还可以包括在会议中的某个点检测“正常”活动的分类器，并且任何异常的活动的存在被使用该分类中的置信水平指示，并且对照至少一些参与者之间存在正常会议活动的置信度进行测量。

机器学习可以提供在完整的通话链路或会议故障(归因于较差QoS的一个或更多个用户断开连接)之前出现的异常行为的检测和预测水平。近来的工作在分析会议中的模式方面指出这是成熟的区域(Dong，Lepri等人，2012)，然而，其通常被用在监视和改进小会议中个体的性能和有效性方面。

下面的伪码表示整体结构或算法。

在每个端点处：

针对每帧捕获数据；

确定聚合信息；

如果信息中具有实质性变化，通知或更新服务器；

在服务器处：

接收来自端点的每个信息更新作为数据；

将数据聚合为信息；

针对会议状态信息执行分类和/或规则的集合；

使用逻辑块中的计数和平均将其聚合以创建会议故障可能性和置信度的测量。这可以根据会导致所识别的异常的人类行为的性能的已知可接受的水平而折合成会议的MOS。

返回图2，示出了实施方式的服务器处理部分。第一分类器41用于识别正常会议的动态。这用于推断任何所识别的异常事件区别于正常会议活动的置信度，并且避免非常见使用情况的会议的假报警。这可以是数据训练部件。

其余分类器42、43、44被提出作为能够根据上面的示例故障行为的列表来推断出的规则。这些可以根据需要详细地被列出作为决策规则。

在替选实施方式中，提供了一种用于将所有原始数据记录至档案系统以用于随后的“离线”分析的方法。由此，可以单独地训练分类器。因此，这允许分析处理的属性中的较大的灵活性、易于整理整个会议的数据、对来自每个端点和用户的历史数据的访问、以及对于可应用于分析的当前算法和未来算法的灵活性。

优选实施方式基于如下观察：有效会议和异常会议可以具有不同的会议动态模式。因此，可以基于会议动态分析来构造异常的人类行为置信水平。作为实施方式的示例，可以将多点会议建模为三态马尔科夫过程，从而异常置信水平估计方法可以基于会议动态分析。

至于会议模型，ITU-T P.59给出了用于生成仿真会话话音的两方会话模型。K.Hoeldtke和A.Raake将两方模型扩展成三方[K.Hoeldtke和A.Raake 2011]。这些会话模型是简洁的，并且当参与方的数量小(例如，两方)时描述会话。然而，当参与方的数量增大时，会话模型的状态将快速增加。为了简化状态的数量，如图3所示，可以将多点会议建模为如下三态马尔科夫过程50：单方讲话状态(ST)51：表示会议中的单方在讲话的情形；重叠讲话状态(OT)52：在会议中两方或更多方同时讲话；相互沉默状态(MS)53：反映所有参与方都沉默的情形。

对于典型的多点会议，当存在异常的人类行为时，三态马尔科夫过程将示出一些异常统计。例如：

1)当存在两方的非预期的较长沉默停顿时，相互沉默和单方讲话的统计将异常；

2)当由于会议系统的延迟增加而使不同参与方的话音碰撞(speech collision)增加很多时，重叠讲话的统计将异常；

3)当特定的人退出会议时，来自特定参与方的单方讲话统计将异常；

4)当由于网络的链路故障而使会议中参与者的数量异常时，某个特定参与方的单方讲话统计将异常；

5)当存在尝试的通信行为、加入会议的某人稍后便离开、或重复尝试和重新连接时，特定参与方的单方讲话统计将异常。

为了获得多点会议的统计，可以基于图3的三态多点会议模型进行参数会议分析。

在图4中可以看到算法的流程图。在语音活动之后，针对每个分析片段，收集多点会议中的每个参与方的静音和故障信息61，第一活动参与方将首先被识别63，然后将逐段进行会话分析64。除了单方讲话66、重叠讲话67和相互沉默分析65之外，还可以分析扬声器交替速率68和链路故障率69。

参数会议分析(PMA)的模型可以被如下表示：

PMA(k)＝{λ_ST(k),λ_MS(k),λ_OT(k),SAR(k),LFR(k)}

其中，λ_ST(k)是第k个会话分析片段中的单方讲话的帧数；λ_MS(k)是第k个会话分析片段中的相互沉默的帧数；λ_OT(k)是第k个会话分析片段中的重叠讲话的帧数；SAR(k)是第k个会话分析片段中的扬声器交替速率；LFR(k)是第k个会话分析片段中的链路故障率。

异常置信水平(ACL)估计

基于参数会议分析，可以基于启发式规则或机器学习来估计异常置信水平。作为示例，下面概述基于启发式规则的一种实施方式。

将N定义为多点会议中的参与方的总数，将i定义为参与方的索引。参与方i中的异常物理参数行为(回声水平、噪声水平、损害水平或AGC水平)的指示符可以被定义如下：

其中，λⁱ(k)是物理参数的统计，ξ_th是参与方i的物理参数的异常统计的阈值。

最终异常的人类行为置信水平可以被估计如下：

其中，γ_th是相互沉默的异常统计的阈值；ζ_th是重叠讲话的异常统计的阈值；η_th是链路故障率的异常统计的阈值；κ_th是百分比的阈值。

可用于区别有效会议与异常会议的另一特征是“会议熵”。将第k个会话分析片段中的整体帧数定义如下：

λ(k)＝λ_ST(k)+λ_OT(k)+λ_MS(k)

第k个会话分析片段中的单方讲话的概率可以被定义为：

第k个会话分析片段中的重叠讲话的概率可以被定义为：

第k个会话分析片段中的相互沉默的概率可以被定义为：

那么，多点会议的“会议熵”可以被推导为如下：

所识别的异常事件的会议熵相比于正常会议活动可以示出不同的特性。会议熵测量可以由图2的机器学习(ML)分类器45使用。

会议动态

以下三种会议类型是非常常见的(http://www.meeting-studyguide.com/type-meeting.htm)：1)提供信息、2)获取信息、以及3)解决问题。小的组中的会话动态的分析是社会心理学和非语言通信中的基本领域[Goodwin，1981；Clark和Carlson，1982]。会话模式存在于多个时间尺度下，包括知道如何和何时称呼或打断某人、如何获得或保持会话、以及如何在进行讨论的过渡。这些机制中的大多数是多模式的，包括用于他们的显示和解释的多个语言和非语言线索[Knapp和Hall，2005]，并且在人们如何被社会认知——例如他们是否是主导的、能胜任的或外向的——具有重要的影响[Knapp and Hall，2005，Pentland，2008]。本发明的实施方式可以在整体学习系统中利用这些教示，以确定本发明的操作特性。

示例和说明

使用统计收集方法根据会议状态的分析来描绘下面的示例。首先转向图5，示出了输出81至84，其根据示出AGC水平(例如85)、输入水平、噪声水平和回声水平的电话会议的统计记录。

明显的是，左下角82中表示的用户在增益控制中具有异常且连续缓慢的增加。这是被称为“爬行”的典型问题，其中，将系统调平(levelling)至某个偶发背景活动。当进行对来自该会议的讲话活动的分析时，会看到该用户的讲话活动似乎与其他会议参与者冲突，指示不配合的用户，或更可能是某个端点故障。这在如下情况下被确认：查看到讲话脉冲长度轮廓示出短活动的普遍程度(prevalence of short activity)在AGC随着时间斜升时增大。

从而(结合已知的典型人类行为而使用的)端点和记录的行为的分析提供了有力的故障分析工具。增益控制的稳定增加以及因此噪声水平不表征正常情形，端点以非合作方式传输，并且讲话片段的持续时间太短而不是会话。相对于预期的人类活动的偏差指示该故障情况。

图6示出了示例会议的持续期间中来自扬声器的语音活动的记录。注意到，在10秒标记附近用户3中的活动91对应于低输入水平或SNR，并且还似乎与其他方无关——指示不适当的人类行为或某种系统问题。

图7示出了不同用户101至104的示例会议的传输脉冲时间的分析。大多数用户示出根据这种会议中的正常的人类行为的分析得出的从1秒延伸至6秒的讲话脉冲的典型轮廓。左下用户示出很短的传输的异常百分比，再次指示假报警检测和蠕变(creep)问题。

扩展

可以以如下方式使用基于简单的可观察物理参数的测量：使得创建用于准备实现特定用户体验QoS所需要的会议服务资源的反馈控制回路。在本实施方式中，设想故障或异常的人类行为的测量将以较低频率出现(一般地)。优选实施方式可以具有以下实现特性：

识别会议的分组和具有相似的网络接近(network proximity)或服务提供的用户。

对于每个组：

注意由于异常行为测量的QoS的当前较长期平均。

如果其较高：

行动以将额外资源分配给该组的成员以降低用户抱怨的可能性(提高QoS)；

如果较长期平均当前较低，并且猜测可以降低资源分配而不会有抱怨的显著增加：

选择具有最低溢价成本或最低客户保留值的组的子样本

将特定资源减少关于服务提供的当前过量而估计的量

监视指示故障或会议问题的异常行为的普遍性(按照本公开内容)

在这种随时间的行为不存在的情况下，则相似地调整所识别的相似性组的其他成员的资源。

作为优选实施方式的扩展，可以针对认知负荷或压力水平分析参与者语音模式。已有提供根据语音特性监视主体认知负荷或压力等级的测量的近期工作(Yin和Chen2007)。该工作可以直接用于提供测量输入。假定这种处理可以以整体会议系统体系架构的较小成本在客户端系统上运行，测量输入可以形成另一信息输入以用于识别有问题的会议服务提供。

在替选实施方式中，系统也可以包括与物理参数(如网络性能)有关的数据或具体语音质量的采集，并且将其用在关于用户行为的质量和影响的同时估计中。

自适应目标模型开发

优选实施方式的令人关注的扩展是利用实时操作系统中的人类行为的观察来改进用于预测性能的目标模型。行为的某些效率可以合理地与性能良好的系统相关联，而某些无效或异常行为可以与差的性能有关。

目标模型中的现有技术基于大量的收听音频的很短的片段。实际上，有很多因素建议这种受控且受约束的收听不适用于预测系统用途应用，尤其在音频会议的领域中。另外，常规目标模型的集合仅是由结构化测试产生的受限的数据的集合的预测。在标准ITU-TP.862和ITU-T P.863(PESQ/POLQA)中建立了一般标准和围绕该标准的工作主体。

通过进行系统的有效性的更直接的测量——用户使用时间、会议熵、接合(engagement)、关注的端点等，可以获得关于系统的现场性能和值的有可能甚至更有意思的结果。由于该系统内有很多常规的特征和预测，所以具有进行针对根据操作数据预测异常人类行为的大数据分析练习的直接能力。

在一些实施方式中，可以聚合不确定的客观测量以预测会议质量体验。所给出的变换方法是跟踪行为以估计会议用户的操作效率。在这一点，出现新的质量测量(其中，质量与功能效率有关)，然后可以创建预测该质量测量的模型。在操作系统包括大量用户和很大程度的访问的情况下，聚合和分析跟踪数据以创建行为的预测模型的潜力也是有意义的。

另外的实施方式—混合模型

在一些实施方式中，物理参数的重要性可以被加权，使得基于异常的人类行为和物理参数的混合模型来预测会议系统性能。

在组合两种方法中可以利用不同的方法学。例如，使用物理参数(包丢失/突发性、延迟、编解码比特率、SNR、回声、端点装置等)和人类动态(会话分析、参与者数量、韵律分析、情感分析、其他人口统计信息等)。此外，维度减小预处理技术如主成分分析(PCA)可以用于减小训练数据的量。在另外的替选中，可以通过使用诸如典型相关(CCA)的技术在物理动态特征与人类动态特征之间确定相关性，典型相关(CCA)在处理具有不同维度的随机变量中提供足够的灵活性。

由于特征可以在不同的时间和质量标度上操作并且具有对特征提取和统计模型选择的不同的处理，所以可以单独训练各种模型。例如，物理参数经常在连续标度上，连续标度会适合于基于回归的方法。另一方面，人类动态特征中的一些可以是分类的(categorical)，这使得基于决策树的分类器是一个好的选择。当然，实际物理实现以任何最终形式都将是有影响的。另外，一些机器学习算法能够处理分类的输入和数值的输入两者，并且输出离散的分类输出(分类)或具有适当的修改的连续的值(回归)。使用两个单独训练的模型，可以通过依赖于输出是否需要标签或数值的简单投票/平均来生成最终输出。

在更加分层的方法中，可以根据哪个模型具有较高的置信度(例如，关于测试数据集的较好的预测准确度)将模型之一选择为主导模型。在其他实施方式中，其他因素可以用于主导模型选择，例如，复杂度、实时因素等。作为示例，如果物理模型被选择为主导模型，则可以生成指示潜在较差会议和置信度得分的第一结果，这可以用作结果的可靠性指示。如果置信度得分低，则人类动态模型被触发和评估。如果人类动态模型也指示可能的较差会议体验，则我们将会以较高的置信度将其标记为问题会议。

另一修改是采集用于离线处理的视频和音频数据。联合视频运动和空间(单声道)音频分析是经相当好地研究的领域，其中很多技术可以被开发用于人类动态分析。

存在与用于估计语音和视频会议的服务质量(QoS)的已知系统的组合的另外的机会。这种已知系统通常专注于确定或估计可能影响系统性能的物理参数并且将其与用户体验相关联。一般参数可以包括网路链路质量和延迟。很多QoS系统不被集成到实际的会议系统中，其他QoS系统与每个单个端点的链路质量有关，然后将这些聚合以创建完整的会议QoS测量。明显的是，QoS的大多数严重问题导致会议故障或指示问题会议的人类行为序列的集合。优选实施方式使用异常的人类行为的存在来指示本会议体验的问题，这很有可能产生抱怨或用户不满意。由于测量包括本会议的功能和参与者的重要性的所有方面(其中，关键链路的质量具有较高的重要性)，该方法自然适用于较大的范围的利用会议不对称性的通话QoS最优算法。

将对本领域普通技术人员明显的是，本发明应用于网络环境上的大多数形式的群体交互。虽然应当参照电话类型电话会议讨论优选实施方式，本发明设想了参与者之间的其他会议形式。本发明同样应用于实时群体交互的其他形式。

解释

贯穿本说明书提及“一种实施方式”、“一些实施方式”或“实施方式”表示结合该实施方式描述的特定特征、结构或特性包括在本发明的至少一种实施方式中。从而，在本说明书中不同位置中的短语“在一种实施方式中”、“在一些实施方式中”或“在实施方式中”的出现不一定都指代同一实施方式，但是可以指代同一实施方式。此外，根据本公开内容，对于本领域普通技术人员将明显的是，在一种或更多种实施方式中，可以以任何适当的方式组合特定的特征、结构或特性。

如本文中所使用的，除非另外指明，描述共同对象的顺序形容词“第一”、“第二”、“第三”等仅表示指代相似对象的不同示例，并且不意在暗示这样描述的对象必须以给出的时间、空间、排序或任何其他方式的顺序。

在下面的权利要求和本文的描述中，术语包括(comprising)、包括(comprisedof)或其包括中的任何一个是开放式术语，表示至少包括其后的元件/特征，但不排除其他。从而，当在权利要求中使用时，术语包括不应当被理解为限于其后列出的装置或元件或步骤。例如，装置包括A和B的表述的范围不应当限于装置仅由元件A和B组成。本文中所使用的术语包括(including)或这包括或其包括也是开放式术语，也表示至少包括该术语之后的元件/特征，但不排除其他。从而，包括(including)与包括(comprising)同义，并且表示包括(comprising)。

如本文中所使用的，术语“示例性”以提供示例的含义来使用，与表示质量相反。也就是说，“示例性实施方式”是作为示例提供的实施方式，与必须是示例质量的实施方式相反。

应当理解的是，在本发明的示例性实施方式的上面的描述中，为了简化本公开内容并且辅助理解各种发明方面中的一个或更多个，本发明的各种特征有时被一起分组在单个实施方式、附图或其描述中。然而，本公开内容的方法不被理解为反映如下意图：所要求保护的发明需要比在每个权利要求中明确记述的特征更多的特征。反而，如下面的权利要求所反映的，发明方面在于小于单个前面公开的实施方式的所有特征。从而，具体实施方式之后的权利要求在此明确地合并到该具体实施方式中，每个权利要求依赖其自身作为本发明的独立实施方式。

此外，尽管本文中所描述的一些实施方式包括一些特征但不包括其他实施方式中的其他特征，不同实施方式的特征的组合旨在在本发明的范围内，并且形成不同的实施方式，如本领域中的普通技术人员会理解的。例如，在下面的权利要求中，可以以任何组合使用所要求保护的实施方式中的任何实施方式。

此外，在本文中将实施方式中的一些描述为可以由计算机系统的处理器或执行该功能的其他装置实现的方法或方法的元件的组合。从而，具有用于执行这种方法或方法的元件的必要指令的处理器形成用于执行该方法或方法的元件的装置。此外，本文中所描述的设备实施方式的元件是用于执行由用于执行本发明的目的的元件执行的功能的装置的示例。

在本文所提供的描述中，阐述了大量具体细节。然而，应当理解，本发明的实施方式可以在不具有这些具体细节的情况下来实施。在其他实例中，为了不模糊本说明书的理解，未详细示出已知的方法、结构和技术。

类似地，应当注意的是，术语耦合当在权利要求中使用时不应当被理解为仅限于直接连接。可以使用术语“耦合”和“连接”连同他们的派生词。应当理解的是，这些术语不意在作为彼此的同义词。从而，表达装置A耦合至装置B不应当限于其中装置A的输出直接连接至装置B的输入的装置或系统。其表示在A的输出与B的输入之间存在路径，该路径可以是包括其他设备或装置的路径。“耦合”可以表示两个或更多个元件处于直接物理或电接触，或两个或更多个元件不处于彼此直接接触但仍然彼此合作或交互。

从而，尽管已经描述了被认为是本发明的优选实施方式的内容，本技术领域技术人员将会认识到，在不偏离本发明的精神的情况下，可以对此做出其他的修改和进一步的修改，并且意在要求这种变化和修改落入本发明的范围内。例如，上面给出的任何公式仅表示可以使用的过程。可以从框图中添加或删除功能，并且可以在功能块之间互换操作。在本发明的范围内可以将步骤添加至所描述的方法或从所描述的方法删除步骤。

Claims

1.一种在具有多个参与者的电话会议中监视数字传输环境性能的工作的方法，其中所述多个参与者在数字传输环境中的会议信息交换中交互，所述交互在可变网络传输资源上进行，所述方法包括以下步骤：

(a)监视在所述电话会议期间所述多个参与者的行为的预定方面；

(b)确定所述多个参与者之一的行为相对于规范值的偏差；

(c)将任意偏差用作所述数字传输环境的异常工作的指示；以及

(d)针对参与者表现出异常行为，调整所述传输资源的水平，

其中，所述步骤(a)包括监视下列中的至少之一：

参与者的语音音调的变化；参与者的话音结构的变化；参与者的话音能量水平的变化；或参与者的话音速率的变化。

2.根据权利要求1所述的方法，其中，调整的幅度与所述参与者行为相对于所述规范值的偏差的程度相关。

3.根据权利要求1所述的方法，其中，将所述数字传输环境的异常工作的所述指示用在与其他参数的加权组合中，以作为整体数字传输环境性能的测量，其中，所述其他参数包括包丢失/突发性、延迟、编解码比特率、SNR和回声。

4.根据权利要求1所述的方法，其中，所述监视步骤包括：

(a)将第一分类器用于监视规范行为；

(b)将至少第二分类器用于监视下述方面之一：会议相互沉默、单方讲话分析、重叠讲话分析、话音交替速率或链路故障率；以及

(c)将组合单元用于将来自至少所述第一分类器和所述第二分类器的输出组合以产生异常工作的可能程度的输出。