CN102239519A

CN102239519A - 对话主观质量测试工具

Info

Publication number: CN102239519A
Application number: CN2009801484042A
Authority: CN
Inventors: 尼古拉斯·川考特
Original assignee: Alcatel Optical Networks Israel Ltd
Current assignee: Alcatel Lucent SAS; Alcatel Optical Networks Israel Ltd
Priority date: 2008-12-05
Filing date: 2009-11-24
Publication date: 2011-11-09
Also published as: EP2194525A1; US20110313765A1; JP2012511273A; KR20110106844A; WO2010063608A1

Abstract

一种用于评估通信网络(1)的节点之间的对话话音质量的方法，包括：经由通信网络(1)，在用户终端(2)处的用户和虚拟主体系统(4)之间建立语音通信会话，所述虚拟主体系统(4)以及用户终端(2)与所述通信网络(1)相连接，所述用户终端使用户能够通过语音与所述虚拟主体系统(4)进行通信；在所述会话期间，作为与所述虚拟主体系统(4)进行语音对话的对话方，所述虚拟主体系统装配有：话音产生模块(42)，用于在所述会话期间实现讲话；以及语音识别模块(41)，用于在所述会话期间实现对用户话音的解译；以及基于所述会话期间的语音对话，评估通信网络上的话音质量，所述评估通过用户执行。

Description

对话主观质量测试工具

技术领域

本发明涉及话音质量评估，更具体地，涉及针对语音通信系统的话音质量评估的对话测试。

背景技术

作为在无线/有线电信网络中稳定进步的部分，系统的语音和话音质量评估在过去的几年得到极大的重视。它聚焦于与评估通过电信系统的语音和话音的听觉质量相关的过程。单词“评估”在这里指针对一个或多个标准的系统性能的测量。

实际上，随着新的电信技术的到来，诸如通过IP(因特网协议)、ATM(异步传输模式)、FR(帧中继)、PSTN(公共电话交换网络)、ISDN(综合服务数字网)、移动网络(GSM、WiMAX、UMTS等)、或任何混合组合(IP、ATM、FR、PSTN、ISDN、移动网络)之类的语音通信系统的多样性已经造成诸如分组丢失、非稳定噪声、话音失真、网络抖动等之类的话音质量的各种降级因素。因此，已经开发了针对语音质量评估的各种装置，从而可靠地测量整体话音质量和特定的降级因素。“话音质量”在这里指所感觉的与所期望的相比较的感知和判断过程，换言之，话音质量指面对面的模仿和通过语音通信系统所听到的之间的差异。可以通过诸如“极好”、“良好”、“一般”、“不好”、“差”之类的描述符或通过每个降级因素或全部的数值来进行定义。

发明内容

一些实施例提供了用于调节针对话音质量评估的受控对话方法的方法和设备。

一些实施例提供了在只有一个人的对话上下文中用于主观话音质量评估的方法和设备。

一些实施例提供了使端用户能够在没有第二人的对话上下文中评估语音通信系统的话音质量的方法和设备。

一些实施例提供了话音识别的利用和用于语音通信系统的话音质量评估的话音产生工具。

各种实施例涉及用于评估通信网络的节点之间的对话话音质量的方法，包括：

-通过通信网络，在用户终端处的用户和虚拟主体系统之间建立语音通信会话，所述虚拟主体系统以及用户终端与所述通信网络相连接，所述用户终端使用户能够通过语音与所述虚拟主体系统进行通信；

-在所述会话期间，充当与所述虚拟主体系统进行语音对话的对话方，其中，所述虚拟主体系统装配有：话音产生模块，用于在所述会话期间实现讲话；以及语音识别模块，用于在所述会话期间实现对用户话音的解译；以及

-基于所述会话期间的语音对话，评估通信网络上的话音质量，所述评估由用户执行。

各种实施例涉及用于测试通信网络的节点之间的对话话音质量的设备，包括：

-虚拟主体系统，装配有话音识别模块和话音产生模块，并被配置用于响应于用户通过与所述通信网络相连的远程用户终端开始与所述虚拟主体系统进行通信会话，作为收听者和说话者参与与用户的语音对话。

-其中所述虚拟主体系统被配置用于识别话音评估测试，以辅助远程用户基于与所述虚拟主体系统的语音对话，估计所述通信网络上的对话质量。

有利地，用户可以评估话音质量或话音质量对连接的所选条件的依赖性。

附图说明

图1是示出了语音通信系统的框图，其中可以执行对话测试方法的各种实施例。

图2是示出了根据本发明的对话上下文中话音质量评估的步骤的流程图。

尽管附图和具体实施方式描述了一些实施例，但是本发明可以有其它的形式，并不限于附图和具体实施方式中描述的这些。

具体实施方式

可以根据话音质量度量将针对这种话音质量评估的方法分为两大类。

第一个主观方法是基于请参与者在不同类型和/或数量的降级的情况下测试电信系统，并以记数法对相应的话音质量进行打分。为了减小单个参与者造成的主观效果，可以平均参与者的打分。这会产生广泛用作主观度量的平均意见得分(MOS)。

此外，话音质量感知取决于将参与者置于其中的上下文，即，收听上下文、说话上下文、或对话上下文。

在收听测试中，参与者收听根据不同类型和/或数量的降级制作的直播或录播的音频信号。然后，参与者建立他所感知和他/她所希望的之间的关系。作为针对收听测试中话音质量评估的标准，可以考虑话音失真(产生人类说话者不能明白的声音的自然话音波形的变形)、活跃状态与完全状态的噪声比(说话时的级别与不说话时的噪声比之比)。值得注意的是，可以考虑诸如音量和可懂度的其它质量标准。这里，可懂度意味着话音的可理解度，即允许说话者的听力和理解力满足收听者。国际电信联盟(ITU)在推荐P.800中详细描述如何进行该测试，以及如何标注话音质量。作为话音质量记数的示例，可以提及绝对分类比率(ACR)方法以及降级分类比率(DCR)方法。

在说话测试中，一个参与者必须在语音通信系统的一端说话，以及另一个参与者收听从语音通信系统的另一端传来的话音。然后，每个参与者意识到是否存在可感知的回声(说话者的话音信号以足够的能量和时延反射回来源，以使其像话音一样可听到和可感知)、以及远处的说话者是否容易被听到、易于被理解以及能够检测清晰度的细微差别。作为示例性示例，参与者可以利用在ITU的推荐P.800中定义的方法之一来评估所测试的条件。

在对话测试中，每对参与者通过测试中的语音通信系统进行对话。除了在收听和说话上下文中所遇到的条件，对话测试可以包括(用户停止说话的时间与用户听到响应的时间之间的不寻常的长时间暂停所造成的)对话节奏的中断、以及双向通信中的话音降级。短暂的对话测试场景已经由ITU(P.800以及ITU-T P.805)为了该目的而创建。

不像以上描述的主观方法，第二类使用客观度量，以及通过使用参考模型(插入方法)或通过监测降级的业务量(非插入方法)而依赖于计算话音失真。作为插入方法的示例，人们可以提及PAQM、PSQM、PSQM+MNB、PAMS、PEAQ、TOSQA、TOSQA2100、EMBSD、以及PESQ。非插入方法可以用于直播网络中的话音质量评估。ITU-T E模型是最广泛使用的非插入语音质量评估方法。

在所有这些技术中，属于第二类的技术既不消耗时间，也不消耗成本。然而，就精确度而言，它们的结果通常需要由主观的方法进行验证或确认。此外，它们不能估计对话上下文中的语音质量。另外，在一些条件下稳健的客观度量不必要在其它条件下具有相同的性能。

相反地，主观方法精确地执行，因为由人类主体给出质量评估。更具体地，对话测试考虑所有的降级因素，以及综合主观方法的所有上下文。

因此，从话音质量评估的角度来看，由于以下原因，对话测试看起来是以上引用的方法中最有意思的工具：

-测试环境反映电信系统的具体使用(具体地，几乎所有的电信技术实现对话上下文，即双向通信)；

-由于对话方法受到收听方法中遇到的降级、说话方法中遇到的降级、以及影响对话(双向通信)的交互性的降级的影响，可以对更广范围的质量标准进行联合评估。

-所述测试允许以直接的方式获得用户的感知，因为响应来自将使用语音通信系统的人。

因此，对话测试是用于话音质量评估的最可靠的媒介物。然而，这种主观方法的优势被以下相抵：

-这种测试所需要的时间，因为它们需要整个对话期间对话方中的每一个都有空；

-成本，因为它们在直播语音通信网络上进行操作；

-在语音通信系统的对话信道的端点处的对话方的可用性；

-话音质量评估是路径相关的，且如果两个接入点之间的路径改变，则典型地应该再次进行测试。

这些缺点将在以下常用的示例中更显而易见。

语音通信服务的质量已变成演进的在线商务的重要问题。实际上，正如商品的提供者或消费者所感知的，话音通信质量必须满足特定的质量等级，从而可以正确地进行交易。作为示例性示例，通过使用语音输入/输出的固定或移动电话上的商业交易的扩展在进行任何金融交易或传递任何保密数据之前需要精确地对话测试。

想要在直播广播事件(例如直播电视或广播节目)中参与语音通信系统(VoIP、VoATM、VoFR、PSTN)的远处的用户可以通过首先参与对话测试来进行，从而在任何直播插入之前评估话音质量。

如果被呼叫的人没空，则几个移动电信运营商不考虑话音质量，提出邀请呼叫者在音调信号之后留下语音消息的服务。该步骤会导致由于话音失真或高噪声电平而造成的不能理解的语音消息。

作为非限制性示例，在与对话方相关的路径中的大量的中间网络节点的情况下，或复杂的中间语音呼叫数据处理(编码、交织等)的情况下，或通过网络设备损坏(电磁噪声、网络资源不可用、异机种网络)的情况下，话音质量会降级。因而，电信和数据运营商和制造商必须有规律地评估话音质量，从而保持它们的客户满意度。

结果，对话测试针对通信系统的话音质量评估是可靠的。但是，上文中所提到的它们的缺点影响它们的适合性。

可以在图1中示出的数据通信系统中执行这里描述的方法的各种实施例。

-通信网络1，例如ISDN、PSTN和/或因特网网络或支持至少语音通信服务的任何协同网络；

-实现通信网络1上的至少语音通信的用户终端2。作为非限制性示例，用户终端1可以包括移动或固定电话、PDA(个人数字助理)、或配置用于通过分组交换网络(VoIP、VoATM等)进行通信的任何其它电话。

-与通信网络1连接的服务器3。作为非限制性示例，服务器3可以是用户终端2；

-虚拟主体系统4；

-用于语音音频数据调度和传输的声音或电子音频接口5。

声音或电子音频接口5起到服务器3和虚拟主体系统4之间的控制和通信接口的作用。

虚拟主体系统4包括：

-能够解释话音的话音识别模块41；

-话音产生器42；

-控制模块43，可以模拟不同的话音降级因素和/或远程控制用户终端2和/或远程控制通信网络1。

虚拟主体系统4在所估计的通信上下文下必须具有响应时间和比率方面的特定性能。

响应时间指虚拟主体系统4应答其通信者所花费的时间。这包括通信这所说的话音识别时间，以及产生响应所需的时间。经常地，话音识别时间花费大部分的响应时间。

一般表示为百分比的话音识别率指话音识别模块41识别来自接口5的所接收的话音的能力。

根据REC ITU G.114，如果响应时间超过300ms(或等同地，150ms的最大传输单向延迟)，则不再确保对话中的交互性。针对话音识别模块41的话音识别的最大时间应该基本上低于针对交互式对话的语音通信系统所允许的预选最大单向延迟。

NUANCE公司所生产和销售的语音识别模块NUANCE8.5揭示了大约20ms的单词识别时间和大约50ms的单句识别时间(自然语言理解)。因而，具有这些类型的话音识别模块的虚拟主体系统4的实施例将能够满足REC ITU-T G.114的时间约束。

与150ms相比，具有较少响应时间的话音识别模块41平缓地保持对话中的交互性。此外，响应时间独立于通过话音质量评估检测其影响的降级因素。

话音识别模块41的响应时间和通过语音通信网络1上的链接用户终端2和服务器3的通信路径的传输时间之比影响话音质量评估。该比越低，话音识别对评估的影响就越小。不考虑通过链接用户终端2和服务器3的通信路径的传输时间，具有大约1ms或更少的响应时间的话音识别模块41应该适合这里描述的许多实施例。

在话音质量评估期间，话音识别比率优选地高，例如至少90％的比率以及优选地大约100％的比率(不考虑降级因素)，从而防止虚拟主体系统4和使用用户终端2的人之间的受控对话中的中断。话音识别模块也应该具有低的响应时间。尤其是，模块的响应时间应该足够低，从而虚拟主体系统4以不会可察觉地降低与人的语音对话的交互性的方式，控制与人类对话方的语音对话。

有利地，Alcatel-Lucent公司关于语音识别模块NUANCE 8.5进行的先进的研究(Docman Documentn°3EU_29000_0045_UUZZA，“Etude du temps de réponse du CCivr 4625associé au module de reconnaissance vocale Nuance 8.5”，DocmanDocument n°3EU_29000_0031_UUZZB，“Rapport d’étude de la relationentre taux de reconnaissance vocale Nuance et note PESQ surarchitecture OXE IP Basic Link Gateway-Gateway en réseau IP perturbé”)总结出，以针对句子大约100％的识别率，针对不同的IP损害(随机和猝发损失达12％、抖动达200ms、以及耦合损失和抖动)是不敏感的。

在话音识别模块41是语音识别模块NUANCE 8.5或在时延和识别率方面具有类似性能或更好性能的任何其它等同产品的实施例中，不考虑通过链接虚拟主体系统4和用户终端2的通信路径的传输时间，虚拟主体系统4可以直接取代传统测试中的人。

话音产生器42包括：

-能够将任何文本转换为口语单词的文本至话音产生器(TTS)；和/或

-语音音频文件产生器。

在通信网络1的两个节点之间的连接的不同条件下的话音质量评估的情况下，控制模块43允许改变第一节点(用户终端2)和第二节点(服务器3)之间的通信连接的一个或多个条件，从而用户终端2的用户可以针对不同的连接条件评估对话话音的质量。

控制模块43能够针对所建立的语音对话同时或单独地模拟不同降级因素的效果。例如，控制模块43允许添加具有不同电平的噪声、应用话音失真、模拟回声等。控制模块43能够例如通过改变语音编码，远程控制用户终端2和/或通信网络1。

网络1上的用户终端2和虚拟主体系统4之间的评估对话可以是适合的受控对话，换言之，可以从预定的短对话测试(SCT)场景中进行选择。这种对话称为受控对话，因为它们不是用户之间的自由或自发对话。

已经在文献(ITU-Rec P.805，Wiegelmann-1997，

)中描述了不同类型的短对话测试(SCT)场景，其中对话方具有它们各自的角色。相应的测试场景代表诸如预定飞机票、订购披萨饼等之类的实际生活的电话场景。短对话测试场景导致短持续时间的自然和均衡的对话。

短对话测试场景允许包括在经典对话中的所有阶段(即，包括对话参与者导致的中断的听、说、和双向通信阶段)的重新创建。

也可以在文献中区分更加不切实际的对话测试场景，如在电话上玩游戏，尽可能快地读取随机数字(Kitawaki和ltoh-1991)。使用游戏(play)具有更容易地建立识别模块41的优势，然而，需要相互中断的预期实现。

在REC ITU-T P.805中定义的交互式短对话场景的使用需要具有复杂语法的语音识别模块的实施方式，以及优选地具有自然发生的中断的实施方式。

虚拟主体系统4称为“虚拟”是因为主体4是扮演传统对话测试中第二个人的角色的机器。

有利地，可以通过实现语音激活检测(VAD)模块(没有在附图中示出)，在虚拟主体系统4侧管理人和虚拟主体系统4之间的中断。

语音激活检测可以容易地在接口5上实现，以检测当前帧(输入/输出)是正在接收话音的间隔，还是应该传送话音的间隔，并相应地控制虚拟主体4(转发、静音等)。

可以通过使用用户终端2的人主观地进行话音质量评估。当然，该评估可以表示为诸如“极好”、“良好”、“一般”、“不好”、“差”之类的分类主观描述符，或将数值分配给主观描述符中的每个，或表达关于所用系统的整体印象和满意度。

此外，该对话测试可以评估整体的话音质量或每降级因素的话音质量。

现在参照图2，可以如以下实现话音质量评估：

-在用户终端2和服务器3之间建立(10)语音通信会话。可以通过用户终端2或服务器3直接或间接地发起该会话；

-发起(20)虚拟主体系统4和用户终端2的用户之间的语音对话。语音对话发起允许从游戏列表或短对话测试场景列表中选择语音对话场景。它也允许定义将会评估对话话音的连接条件。

-根据所选择的对话场景和连接条件，进行(30)用户终端2的用户和虚拟主体系统4之间的语音对话；

-通过用户终端2的用户，评估(40)语音对话内的话音质量。可以在语音对话期间、在语音对话结束时、或两者完成话音质量的评估。

-附加步骤(50)可以添加至前述步骤，以及可以包括基于话音质量评估结果的任何行为，例如：转发通信会话，关闭通信会话等。

通过定义默认对话场景和/或默认连接条件，可以跳过发起(20)语音对话的步骤。

在语音对话发起(20)期间，虚拟主体可以邀请用户终端2的用户从对话场景的预定列表中选择对话场景，以及从连接条件的预定列表中选择一个或多个连接条件。

对话场景的预定列表可以包括短对话测试(SCT)场景、播放场景或属性。该属性要传送到用户，从而由其评估语音对话期间属性的值。

一旦发起语音通信会话，话音识别模块41根据所选择的连接条件配置控制模块43。在另一个实施例中，不需要应用连接条件。在这种情况下，控制模块43是被动的。

当用户终端2的用户在语音对话中说话时，将他的话音引导至话音识别模块41进行解译。

通过话音识别模块41对用户终端2的用户的话音的识别启动话音产生器42(话音音频文件产生器或文本至话音产生器)来产生链接至控制模块43所模拟的连接条件下所识别的用户话音的话音。

Claims

1.一种用于评估通信网络(1)的节点之间的对话话音质量的方法，包括：

-经由通信网络(1)，在用户终端(2)处的用户和虚拟主体系统(4)之间建立语音通信会话，所述虚拟主体系统(4)以及用户终端(2)与所述通信网络(1)相连接，所述用户终端使用户能够通过语音与所述虚拟主体系统(4)进行通信；

-在所述会话期间，充当与所述虚拟主体系统(4)进行语音对话的对话方，其中，所述虚拟主体系统装配有：话音产生模块(42)，用于在所述会话期间实现讲话；以及语音识别模块(41)，用于在所述会话期间实现对用户话音的解译；以及

2.如权利要求1所述的方法，其中由描述符和/或数值来表示对话音质量的评估。

3.如权利要求1所述的方法，其中所述话音对话是预定对话测试场景。

4.如权利要求1或3所述的方法，其中所述语音对话是短对话测试(SCT)场景或游戏场景。

5.一种用于测试通信网络(1)的节点之间的话音质量的方法，包括：

-经由通信网络建立与远程终端(2)处的用户的语音通信会话，所述通信会话在虚拟主体系统(4)和远程终端(2)处的用户之间，所述虚拟主体系统(4)以及用户终端(2)与所述通信网络(1)相连接；

-在所述会话期间，参与与用户的语音对话，由虚拟主体系统(4)来执行参与行为，所述虚拟主体系统装配有话音产生模块(42)和语音识别模块(41)，从而虚拟主体系统(4)能够作为对话参与者进行操作；以及

-其中所述虚拟主体系统被配置为辅助用户评估所述通信网络上的对话话音质量。

6.如权利要求5所述的方法，其中所述虚拟主体系统不评估对话期间的话音质量。

7.如权利要求5所述的方法，其中所述虚拟主体系统将属性列表传送至用户，从而用户能够评估在语音对话期间的属性值。

8.如权利要求5所述的方法，其中所述虚拟主体系统被配置为改变所述会话期间通信连接的一个或多个条件，从而用户能够针对不同的连接条件来估计对话话音的质量。

9.一种用于测试通信网络(1)的节点之间的对话话音质量的设备，包括：

-虚拟主体系统(4)，装配有话音识别模块(41)和话音产生模块(42)，以及被配置为：响应于用户经由与所述通信网络连接的远程用户终端开始与所述虚拟主体系统(4)进行通信会话，作为收听者和说话者参与与用户的语音对话。

-其中所述虚拟主体系统被配置为：识别话音评估测试，以辅助远程用户基于与所述虚拟主体系统(4)的语音对话，估计所述通信网络上的对话质量。

10.如权利要求9所述的设备，其中所述虚拟主体系统不能评估对话期间的话音质量。

11.如权利要求9所述的设备，其中所述虚拟主体系统被配置为：将属性列表传送至用户，从而用户能够评估语音对话期间的属性值。

12.如权利要求9所述的设备，其中所述虚拟主体系统被配置为：改变所述会话期间通信连接的一个或多个条件，从而用户能够针对不同的连接条件来估计对话话音的质量。

13.如权利要求9所述的设备，其中所述话音识别模块(41)具有至少90％的话音识别率，以及足够短的、基本不减少语音对话中的所感知的交互性的响应时间。