CN103250205A

CN103250205A - 用于端到端体验质量测量的音频指纹差

Info

Publication number: CN103250205A
Application number: CN2010800700761A
Authority: CN
Inventors: E·克鲁格里克
Original assignee: Empire Technology Development LLC
Current assignee: Empire Technology Development LLC
Priority date: 2010-12-07
Filing date: 2010-12-07
Publication date: 2013-08-14
Anticipated expiration: 2030-12-07
Also published as: EP2649742A4; EP2649742A1; US9218820B2; KR101521478B1; CN103250205B; JP5750167B2; KR20130103787A; US8989395B2; US20150170666A1; WO2012078142A1; US20120140935A1; JP2014505393A

Abstract

本发明涉及，尤其涉及与VoIP电话一起使用的，用于确定移动通信网络中体验质量(QoE)的方法、系统和计算机程序产品，其中在接收方接收根据数字音频信号生成的第一音频指纹，在接收器端根据数字音频信号生成第二音频指纹。两个音频指纹的比较用于确定QoE度量。在一个单独的实施方式中，在接收方响应于数字音频信号的接收方的麦克风捕获的音频，生成第三音频指纹，将所述第三音频指纹与第一音频指纹和第二音频指纹中的一方进行比较，以确定QoE度量值。

Description

用于端到端体验质量测量的音频指纹差

背景技术

除非在本文中另外指出，否则此部分所描述的方法不是针对本申请的权利要求的现有技术，并且也不通过被包括在此部分中而被认为是现有技术。

最初发展并且增强了服务质量(QoS)度量以用于交换陆地线电话。这些QoS度量被很好地描述并且形成了提供商提供服务时的重要工具。最近IP语音(VoIP)电话服务的急剧增加极大地改变了陆地线电话，并且近期的3G/4G的发展使得能够在移动环境下使用电话的用于VoIP的因特网连接。不幸的是，这些VoIP应用中的大多数应用都不包含遗留陆地线系统的内置端到端QoS监控机制，并且也缺乏开发了前一代陆地线系统标准的工业协会和团体。因此，用户和/或提供方可能难以在移动设备上测量针对VoIP呼叫的QoS和整体体验质量(QoE)。

水印是可以用于监控数据退化的常用技术。通常，水印被添加到数据流，可以根据随着数据信号在网络上传输时在水印中所观察到的变化来推断数据退化。然而，水印要求改变数据信号，并且只能提供数据退化的间接评估。

音频或声学指纹技术可以在不要求改变数据信号的情况下，用于描绘和/或保护音频内容。音频指纹可以提供精简的数字摘要，直接由音频信号确定性地生成并可通常用于识别音频样本或者在音频数据库中迅速定位类似的项目。

发明内容

根据一些实现方式，用于确定移动体验质量的方法可以通常包括接收根据数字音频信号产生的音频指纹。从而，接着可以至少部分地基于音频指纹和在数字音频信号接收方根据数字音频信号产生的另一个音频指纹的比较来确定体验质量(QoE)度量值。

根据一些实现方式，还一般性地描述了包括计算机程序产品的制品，其中该产品存储有指令，如果执行这些指令，则可以通过接收根据数字音频信号产生的音频指纹，并且至少部分地基于所述音频指纹和在数字音频信号接收方根据数字音频信号产生的另一个音频指纹的比较来确定体验质量(QoE)度量值，从而确定移动体验质量。

根据一些实现方式，一般性地描述了一种系统，该系统可以包括：被配置为接收根据数字音频信号产生的音频指纹的一个或更多个模块。所述一个或更多个模块接着可以被配置为至少部分地基于所述音频指纹和根据数字音频信号产生的另一个音频指纹的比较来确定体验质量(QoE)度量值，其中，所述另一个音频指纹是在数字音频信号接收方产生的。

以上概述仅是例示性的，并不旨在以任何方式进行限制。除了以上描述的示例性方面、实施方式和特征以外，其它的方面、实施方式和特征将通过参照附图和以下具体描述变得明显。

附图说明

在说明书的结论部分具体指出并明确要求保护本公开的主题。结合附图并根据以下描述和所附权利要求书，本公开的前述特征和其它特征将变得更加充分明显。理解到这些附图仅描绘了根据本公开的几种实施方式，因此，不将这些附图认为限制了本公开的范围，将利用附加的特征和细节通过使用附图来描述本公开。

在附图中：

图1是示例系统的示意图；

图2是示例过程的例示图；

图3是另一个示例系统的示意图；

图4是另一个示例系统的示意图；

图5是示例计算机程序产品的例示图；并且

图6是根据全部本公开的至少一些实施方式进行设置的示例计算装置的例示图。

具体实施方式

以下描述连同具体细节阐述了各种示例，以提供对所要求保护的主题的彻底理解。然而，本领域技术人员应理解的是，可以实践所要保护的主题而无需本文所公开的一些或更多的特定细节。此外，在一些情况下，没有详细地描述熟知的方法、过程、系统、组件和/或电路，以免不必要地掩盖所要求保护的主题。在以下详细描述中，参照构成本发明一部分的附图。在附图中，除非上下文另外规定，否则相同的符号通常标识相同的组件。在具体实施方式、附图和权利要求书中所描述的示例性实施方式不是意在进行限制。在不脱离本文所展示的主题的精神或范围的情况下，可以利用其它实施方式，并且可以进行其它修改。容易理解的是，如本文总体描述并在附图中例示的本公开的实施方式可以被设置、替代、组合并设计为多种不同的配置，这些都是明确地预期的并成为本公开的一部分。

本公开尤其涉及与在移动通信系统中采用音频指纹来提供服务质量(QoS)度量相关的方法、装置和系统。

根据本公开的各个实现方式，可以在源通信设备和目的地通信设备两者处生成音频指纹，进而可以生成音频指纹之间的差。这种音频指纹之间的发散度可以提供对偏离最优服务水平的测量，进而可以提供关于编解码、压缩和/或信道问题的一个或更多个可量化的QoE/QoS度量(在下文中称为“QoE”度量)。在一些示例中，可以通过对音频输出采样来生成音频指纹，以便于入耳的QoE测量。在一些示例中，可以在包括诸如服务器这样的中间网络节点的通信网络的各个位置生成音频指纹。此外，在各个示例中，可以在特定通信事件发生期间和/或之后生成音频指纹。

根据本公开的各个实现方式，可以当捕获用户的语音以便发送时，在移动设备的送受话器处计算或者生成发端指纹或者“源”指纹。发指纹可以与音频信号一起使用例如因特网协议语音(VoIP)技术而被发送到接收送受话器。在一些示例中，源指纹可以与对应的音频信号分开提供。在各个实现方式中，可以在接收送受话器生成接收到的音频信号的音频指纹或“接收”指纹。在一些示例中，可以在将接收到的音频信号从数字信号形式转换成模拟信号形式之前计算接收指纹。接着，可以把源指纹与接收指纹比较，并且两个指纹之间的任何差异可以提供诸如传输媒介质量、编码效果等的一个或更多个特征的QoE测量。

根据本公开的各个实现方式，可以使用包括一个或更多个集成麦克风的移动设备从接收设备的扬声器捕获音频信号。在这些实现方式中，可以生成接收设备的物理听觉信号的音频指纹或“听觉”指纹，然后将其与源指纹和/或接收指纹进行比较。这种比较可以提供用于辨识恶劣的连接或送受话器、嘈杂的环境等的QoE测量。

根据本公开的各种实现方式，服务提供商和/或用户可以比较源音频指纹、接收音频指纹和/或听觉音频指纹来获得各种的QoE度量。在各个示例中，服务提供商可以沿网络路径在各个点处生成音频指纹，并且可以比较各个“中间”指纹中的各个来隔离与不同网络部分、部件等有关的服务问题。在一些示例中，零差(例如，源指纹等于接收指纹)可以表示可接受的传输，而非零的差可以表示次优传输。在一些示例中，可以在接近实时的环境中比较音频指纹和/或可以通过使用送受话器的数据能力在后处理中来比较音频指纹。为了便于同步，在一些实现方式中可以使用分组定时和标识。在各个示例中，可以采用不在人类听力范围的同步音调来辅助音频指纹之间的同步。

根据本公开的各种实现方式，比较音频指纹可以包括直接比较指纹的二进制表示和/或可以包括指纹特征向量之间的距离测量。在一些示例中，指纹特征向量可以指定音频信号的感知特性，例如平均过零率、估计节拍、平均谱、谱平坦度、在一组频段上的主要音调、和/或带宽。

图1示出根据本公开的至少一些实施方式的示例系统100的部分。系统100包括源设备102和目的地或汇设备104。设备102和104可以是能够生成数字音频信号、经由诸如蜂窝通信网络这样的网络106接收和/或发送数字音频信号的任何类型的设备。例如，在各种实现方式中，设备102和104可以是蜂窝电话送受话器。设备102和104包括能够将各种信号在模拟格式和数字格式之间进行转换的相应转换模块108和110。进一步地，设备102和104还包括能够生成音频指纹的相应指纹模块112和114，以下将对其进行详细说明。

源设备102还包括能够将(例如由用户的语音提供的)音频输入转换为模拟音频信号的麦克风116。接着，模块108可以将该模拟音频信号转换为数字音频信号。接着，可以通过使用例如VoIP技术经由网络106把数字音频信号以通信方式传送给目的地设备104。指纹模块112可以响应于模块108提供的数字音频信号而生成音频指纹(“源”指纹)。可以认识到的是设备102和104可以包括附加组件和/或模块，例如发送/接收模块、存储器组件、处理器，天线等，为了清楚起见，在图1中省略了这些组件和/或模块。

在各个实现方式中，指纹模块112和114可以是能够利用各种已知音频指纹技术中的任一种来生成源指纹的软件、固件和/或硬件的任意组合。在各个实现方式中，模块112和/或114可以至少部分地由在一个或更多个处理器内核(诸如数字信号处理器(DSP)的一个或更多个处理器内核)上执行的软件和/或固件算法来实现。源设备102还可以经由网络106向目的地设备104以通信的方式传输源指纹。

目的地设备104包括能够将(例如由用户语音提供的)音频输入转换成模拟音频信号的麦克风118。接着，模块110可以将该模拟音频信号转换为可以被提供给指纹模块114的数字音频信号。进一步地，模块110可以将从源设备102接收的数字音频信号转换为扬声器120可用来生成音频输出(例如再现以数字音频信号形式传送的设备102的用户的语音)的模拟音频信号。接着，扬声器120的音频输出可以被麦克风118捕获，并且被模块110转换成数字音频信号。接着，模块110可以将该数字音频信号提供给指纹模块114。

设备的指纹模块114可以根据从源设备102接收的数字音频信号生成音频指纹(“汇”指纹)。模块114还可以根据麦克风118捕获的音频输入获得的数字音频信号生成另一个音频指纹(“听觉”指纹)。源指纹和汇指纹可以被提供给比较模块122，它们在比较模块122中可以被相互比较以生成一个或更多个QoE度量值，此后将对其进行进一步的详细描述。此外，比较模块122还可以接收听觉指纹，并且可以将听觉指纹与源指纹和/或汇指纹中的一个或两者进行比较，从而生成一个或更多个QoE度量值，此后也会对其进行进一步的详细描述。

图2示出了根据本公开的各个实现方式的示例过程200的流程图。如一个或更多个框202和/或框204所示，处理200可以包括一个或更多个操作、功能或动作。处理200可以从框202开始。

在框202，可以接收音频指纹，其中该音频指纹是根据数字音频信号生成的。在一些示例中，参照图1，框202可以涉及在设备104处接收设备102生成的源指纹。指纹模块112可以使用多种已知指纹技术中的任一种根据数字音频信号生成源指纹。在一些示例中，数字音频信号可以是VoIP信号的至少一部分。

在生成指纹的过程中，可以执行多个信号处理功能。最初，被表示为强度值的时间序列的数字音频信号可以通过将其转换为诸如16比特脉冲编码调制(PCM)格式这样的标准格式而被预处理。还可以进行其他预处理，诸如左右声道单声道平均、带通滤波等。接着，该数字音频信号可以被分段为一系列的帧，这些帧可以交叠也可以不交叠。接着，可以使用诸如快速傅里叶(Fourier)变换(FFT)、离散傅里叶变换(DFT)、哈尔(Haar)变换、沃尔什-阿达马(Walsh-Hadamard)变换等各种变换，将这些帧从时域变换到频域。

接着，生成指纹可以涉及从信号帧中提取一个或更多个特征。在一些实现方式中，所提取的特征可以是感知特性，诸如但是不局限于，平均过零率、估计节拍、平均谱、谱平坦度、在一个或更多个频段上的主要音调、和/或带宽。例如，可以通过估计帧信号频谱中的频带的类似音调质量或类似噪音质量来获得对应于谱平坦度的特征。在另一个示例中，所提取的特征可以包括具有帧中的主音调的频带索引的有序列表。

所生成的指纹可以包括排列在一个或更多个特征向量中的一个或更多个特征。进一步地，指纹可以被量化。例如，指纹的向量可以被二进制编码。此外，可以通过将特征向量聚集为序列，随后用与码书关联的代表性编码向量来近似特征向量，来以紧凑形式提供指纹。

在框204处，可以至少部分地基于在框202接收的音频指纹和根据数字音频信号生成的第二音频指纹的比较来确定QoE度量值，其中，第二音频指纹是在接收所述数字音频信号的设备处生成的。在一些示例中，参照图1，框204可以涉及设备104采用比较模块112将从设备102接收的源指纹与汇指纹进行比较，其中，设备104使用指纹模块114根据从设备102接收的数字音频信号生成汇指纹。

在各个实现方式中，在框204比较指纹可以包括确定指纹特征向量之间的距离度量，其中距离度量可以提供被比较的各特征向量的相似度测量。例如，对于量化的特征向量，可以确定曼哈顿(Manhattan)距离或汉明(Hamming)距离。随后，可以通过比较距离度量和阈值得到QoE度量。例如，在各个实现方式中，如果距离度量满足或超过阈值，因此被比较指纹的一个或更多个特征向量可以被认为显著不同，则对应的QoE度量可以被指派失败(FAILED)值。在另一方面，如果距离度量降低到阈值以下，因此被比较指纹的一个或更多个特征向量可以被认为相似，则对应的QoE度量可以被指派通过(PASS)值。

尽管在图1的示例系统100的环境下，描述了处理200的实现方式，但是在各个实现方式中，可以在各种环境下实现处理200。例如，图3示出了根据本公开的至少一些实施方式的另一个示例网络300的一些部分。网络300可以是诸如蜂窝通信网络这样的任何类型的网络。网络300包括：第一网络节点(节点“A”)302和第二网络节点(节点“B”)304。节点302和节点304可以是能够经由网络300接收和/或发送数字音频信号的任意类型的网络节点。例如，在各个实现方式中，节点302和/或节点304可以是网络服务器、网络网关等。可以认识到的是节点302和/或节点304可以包括附加的组件和/或模块，例如发送/接收模块、存储器组件、处理器等，为了清楚起见，图3中省略了这些组件和/或模块。

节点302和304包括能够如本文所描述地生成音频指纹的相应的指纹模块306和308。在各个实现方式中，指纹模块306和/或308可以是能够利用各种已知的音频指纹技术中的一种来生成源指纹的软件、固件和/或硬件的任意组合。在各个实现方式中，模块306和/或308可以至少部分地由在一个或更多个处理器内核(诸如数字信号处理器(DSP)的一个或更多个处理器内核)上执行的软件和/或固件算法来实现。

节点302可以接收数字音频信号并且可以使用指纹模块306来如本文所描述地生成该信号的指纹(“节点A指纹”)。节点302还可以接收由诸如另一个网络节点或该数字音频信号的生成设备这样的另一个设备根据数字音频信号生成的源指纹。接着，节点302可以使用比较模块310比较节点A指纹和源指纹，以生成一个或更多个QoE度量值。节点302可以向节点304传送数字音频信号、节点A指纹和/或源指纹。

节点304可以接收数字音频信号，并且可以使用指纹模块308来如本文所描述地生成该信号的指纹(“节点B指纹”)。节点304还可以接收源指纹和节点A指纹。接着，如本文所描述的那样，节点304可以使用比较模块312比较节点B指纹和源指纹，以生成一个或更多个QoE度量值。此外，如本文所描述的那样，节点304还可以使用模块312比较节点B指纹和节点A指纹，以生成一个或更多个QoE度量值。

尽管图3描述了节点302直接可通信地耦接到节点304，但是可以认识到的是，可以存在将节点302可通信地耦接到节点304的一个或者更多个中间网络节点(未示出)。此外，尽管图3描述了在节点302和节点304之间传送数字音频信号，但是在一些示例中，数字音频信号可以被转换为模拟格式，在节点302和节点304之间进行传输，因此，节点302和/或节点304可以包括用于将数字音频信号转换为模拟音频信号以及反之亦然的转换模块(未示出)。

图4示出了根据本公开的至少一些实施方式的另一个示例网络400的一些部分。网络400可以是诸如蜂窝通信网络这样的任意类型的网络。网络400包括第一网络节点(节点“A”)402、第二网络节点(节点“B”)404和第三节点(节点“C”)406。节点402、404和406可以是能够经由网络400接收和/或发送数字音频信号的任意类型的网络节点。例如，在各个实现方式中，节点402、404和/或406可以是网络服务器、网络网关等。

在系统400的示例中，各个节点402和节点404可以采用指纹模块(未示出)以如本文所描述地根据数字音频信号生成相应的指纹。进一步地，节点406除了分别来自节点402和404的指纹还可以接收源指纹，并且可以采用一个或更多个比较模块(未示出)以如本文所描述地生成一个或更多个相应QoE度量值。例如，节点406可以从节点402和404两者接收指纹，并且可以通过把各个节点指纹分别与源指纹进行比较和/或通过把节点指纹相互比较，来生成不同的QoE度量值。

可以认识到的是，节点402、404和/或406可以包括附加的组件和/或模块，例如发送/接收模块、存储部组件、处理器等，为了清楚起见，图4中省略了上述组件和/或模块。尽管图4中描述了节点402、404和406彼此直接可通信地耦接，但是可以认识到的是，可以存在将图4的各个节点彼此可通信地耦接的一个或者更多个中间网络节点(未示出)。例如，节点406可以是远离节点402和节点404的服务器，节点402和节点404可以是通过一个或更多个中间节点彼此分开的相应网络网关。

图5例示了根据本公开的至少一些示例所设置的示例性计算机程序产品500。程序产品500可以包括信号承载媒介502。信号承载媒介502可以包括一条或更多条指令504，当这些指令例如被处理器执行时，可以提供以上参照图2所描述的功能。因而，例如，参照图1和图3的系统，设备102、104和/或节点302和/或304中的一个或更多个可以响应于由媒介502所传送的指令504进行图2中所示的一个或更多个框。

在一些实现方式中，信号承载媒介502可以包括计算机可读介质506，诸如(但不限于)硬盘驱动器、质密盘(CD)、数字通用盘(DVD)、数字磁带、存储器等。在一些实现方式中，信号承载媒介502可以包括可记录介质508，例如(但不限于)存储器、读/写(R/W)CD、R/W DVD等。在一些实现方式中，信号承载媒介502可以包括通信媒介510，例如(但不限于)数字和/或模拟通信媒介(例如，光缆、波导、有线通信链路、无线通信链路等)。因而，例如，参照图1的系统，程序产品500通过信号承载媒介502可以无线地传送至设备102，其中，信号承载媒介502通过无线通信媒介510(例如，符合802.11标准的无线通信媒介)被传送到设备108。

图6是例示了根据本公开的各种实现方式的示例性计算装置600的框图。在非常基本的配置601中，计算装置600一般包括一个或更多个处理器610以及系统存储器620。存储器总线630可以用于进行处理器610和系统存储器620之间的通信。

依赖于所期望的配置，系统存储器620可以是任意类型的存储器，包括(但不限于)易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪速存储器等)或者它们的任意组合。系统存储器620通常包括操作系统621、一个或更多个应用622以及程序数据624。应用622可以包括被设置为执行包括针对图2所示的流程图所描述的动作的本文所描述的功能的指令。程序数据624可以包括对于实现指令623有用的与指纹有关的数据625、诸如数字音频信号帧值、指纹向量数据等。在一些示例中，可以将应用622设置为在操作系统621上结合程序数据624进行操作，使得可以提供如本文所描述的本公开的实现。在图6中通过虚线601内的这些部件例示了所描述的基本配置。

计算装置600可以具有附加特征或功能以及附加接口，以便于基本配置601和任何所需的装置和接口之间的通信。例如，可以使用总线/接口控制器640，以便于通过存储接口总线641在基本配置601和一个或更多个数据存储装置650之间的通信。数据存储装置650可以是可拆卸的存储装置651、不可拆卸的存储装置652或者它们的组合。可拆卸的存储装置和不可拆卸的存储装置的示例包括，仅作为示例，诸如软盘驱动器和硬盘驱动器(HDD)这样的磁盘驱动器、诸如质密盘(CD)驱动器或数字通用盘(DVD)驱动器这样的光盘驱动器、固态驱动器(SSD)以及磁带驱动器等。示例性计算机存储介质可以包括以任何方法或技术实现的用于存储诸如计算机可读指令、数据指令、程序模块或其它数据这样的信息的易失性和非易失性、可拆卸和不可拆卸的介质。

系统存储器620、可拆卸存储器651以及不可拆卸存储器652都是计算机存储介质的示例。计算机存储介质包括(但是不限于)RAM、ROM、EEPROM、闪速存储器或其它存储技术、CD-ROM、数字通用盘(DVD)或其它光学存储器、磁带盒、磁带、磁盘存储器或其它磁存储装置，或者可以用于存储期望信息并且可以被计算装置600访问的任何其它介质。任何这种计算机存储介质可以是装置600的一部分。

计算装置600也可以包括用于便于通过总线/接口控制器640从各种接口装置(例如，输出接口、外围接口和通信接口)到基本配置601的通信的接口总线642。示例性输出接口660包括图形处理单元661和音频处理单元662，它们可以被配置为通过一个或更多个A/V端口663与例如显示器或扬声器这样的各种外部装置通信。示例性外围接口660包括串行接口控制器671或并行接口控制器672，它们可以被配置为通过一个或更多个I/O接口673与诸如输入装置(例如，键盘、鼠标、笔、语音输入装置、触摸输入装置等)或其它外围装置(例如，打印机、扫描仪等)这样的外部装置进行通信。示例性通信接口680包括网络控制器681，其可以被设置为便于经由一个或更多个通信端口682通过网络通信与一个或更多个其它计算装置690进行通信。网络通信连接是通信媒介的一种示例。通信媒介通常可以通过诸如载波或其它传输机制这样的已调制数据信号中的计算机可读指令、数据结构、程序模块或其它数据来具体实现，并且包括任何信息传递媒介。“已调制数据信号”可以是这样的信号，即，该信号具有以在信号中对信息编码的方式设置或改变的一个或者更多个特征。作为示例，但不限于此，通信媒介可以包括诸如有线网络或者直接有线连接这样的有线媒介，以及诸如声波、射频(RF)、红外(IR)和其它无线媒介的无线媒介。本文所使用的计算机可读介质的术语可以包括存储介质和通信媒介两者。

计算装置600可以被实现为小型的便携式(或移动)电子装置的一部分，诸如，移动电话、智能电话、个人数据助理(PDA)、个人媒体播放装置、无线网络收看装置、个人耳机装置、专用装置或者包括任何上述功能的混合装置。计算装置600也可以被实现为包括膝上型计算机和非膝上型计算机装置在内的个人计算机，或被实现为工作站或服务器装置。

在本公开中对措辞“响应于”或者“对……的响应”的引用不限于仅对特定的特征和/或结构的响应性。特征还可以响应于其它特征和/或结构，并且还可以位于该特征和/或结构中。此外，当在本文中或在权利要求中使用诸如“耦接”或“响应于”或“对……的响应”或“与……通信”等这样的术语或短语时，这些术语应该被广义地解释。例如，短语“耦接至”可以针对短语所使用的上下文适当地表示可通信地、电地和/或可操作地耦接。

上述具体描述的一些部分以对存储在计算系统存储器(诸如，计算机存储器)内的数据比特或二进制数字信号进行操作的算法或符号表示来呈现。这些算法描述或表示是数据处理领域的技术人员将他们的工作的实质传达给其它技术人员所使用的技术示例。这里的算法通常被认为是得到期望结果的前后一致的一序列操作或者类似处理。在这个上下文中，操作或处理涉及物理量的物理操作。一般地，尽管不是必须的，但是这些量可以采用能够被存储、传送、组合、比较或进行其它操作的电信号或磁信号的形式。有时，为了方便，主要是为了一般的使用，将这样的信号称为比特、数据、值、元件、符号、字符、术语、编号、数字等。但是，应理解的是，所有这些术语和相似的术语都与适当的物理量相关，并且仅仅是方便的标记。如根据以下讨论明显可见，除非另外特别规定，否则应理解的是，在该说明书，利用例如“处理”、“计算”、“推算”、“确定”等这样的措辞的讨论是指计算装置的动作或处理，这些动作或处理操纵或转换被表示为计算装置的存储器、寄存器或其它信息存储装置、发送装置或显示装置内的物理的电量或磁量的数据。

以上详细描述通过使用框图、流程图和/或示例阐述了装置和/或处理的各种实施方式。在这种框图、流程图和/或示例包含一个或更多个功能和/或操作的范围内，本领域技术人员应理解的是，在这种框图、流程图或示例内的各功能和/或操作可以由宽范围的硬件、软件、固件或实质上它们的任何组合单独地和/或共同地实现。在一种实施方式中，本文所描述的主题的几个部分可以经由专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或其它集成格式实现。然而，本领域技术人员将认识到，本文所公开的实施方式的一些方面在整体上或部分上可以作为在一个或更多个计算机上运行的一个或更多个计算机程序(例如，作为在一个或更多个计算机系统上运行的一个或更多个程序)，作为在一个或更多个处理器上运行的一个或更多个程序(例如，作为在一个或更多个微处理器上运行的一个或更多个程序)、作为固件或者实质上作为它们的任何组合等同地实现为集成电路；并且，设计电路和/或编写用于软件和或固件的代码鉴于本公开将在本领域技术人员的技能之内。此外，本领域技术人员将理解的是，本文所描述的主题的机制能够作为多种形式的程序产品分配，并且应用本文所描述的主题的示例性实施方式，而与用于实际进行分配的特定类型的信号承载媒介无关。信号承载媒介的示例包括(但不限于)以下各项：诸如软盘、硬盘驱动器(HDD)、质密盘(CD)、数字通用盘(DVD)、数字磁带、计算机存储器等的可记录型介质；以及诸如数字和/或模拟通信媒介(例如，光缆、波导、有线通信链路、无线通信链路等)这样的传输型媒介。

本领域技术人员将认识到以本文所阐述的方式来描述装置和/或处理，并在其后利用工程实践将这种所描述的装置和/或处理集成到数据处理系统中在本领域是常见的。也就是说，通过合理数量的实验，可以将本文所描述的至少一部分装置和/或处理集成到数据处理系统中。本领域技术人员将认识到，一般的数据处理系统通常包括以下中的一个或者更多个：系统单元壳体、视频显示装置、诸如易失性存储器和非易失性存储器这样的存储器、诸如微处理器和数字信号处理器这样的处理器、诸如操作系统、驱动器、图形用户接口和应用程序这样的计算实体、诸如触摸板或触摸屏这样的一个或更多个交互装置和/或包括反馈环和控制马达(例如，用于感测位置和/或速度的反馈；用于移动和/或调整部件和/或量的控制马达)在内的控制系统。可以利用任何合适的市售部件(例如，在数据计算/通信和/或网络计算/通信系统中通常可以找到的部件)来实现一般的数据处理系统。

本文所描述的主题有时例示了包括在不同的其它部件内的或者连接至不同的其它部件的不同的部件。应理解的是，所描述的这种架构仅仅是示例性的，并且实际上可以实现达到相同功能的许多其它架构。在概念层面上，为了实现相同功能的任何部件的设置被有效地“相关”，使得实现期望功能。因此，在这里相结合以实现特定功能的任意两个部件可以被视为彼此“相关”，使得实现期望功能，而与架构或中间部件无关。同样地，这样相关的任何两个部件也可以被视为被彼此“可操作地连接”或“可操作地耦接”以实现所期望的功能，并且能够如此相关的任何两个部件也可以被视为彼此“可操作地可连接”以实现期望功能。可操作地可连接的特定示例包括(但不限于)物理上可配对和/或物理上交互的部件和/或无线可交互和/或无线交互的部件和/或逻辑上交互和/或逻辑上可交互的部件。

对于本文中大量使用的任何复数的和/或单数的术语，本领域技术人员可以根据适合于上下文和/或应用的情况从复数转换为单数和/或从单数转换为复数。为了清楚，可以在本文明确地阐述各种单数/复数置换。

本领域技术人员应理解的是，一般地，本文所使用的措辞，特别是在所附权利要求中(例如，所附权利要求的主体)所使用的措辞一般意在是“开放式”措辞(例如，措辞“包括”应被解释为“包括但不限于”，措辞“具有”应被解释为“至少具有”，措辞“包含”应被解释为“包含但不限于”等)。本领域技术人员还将理解的是，如果意在特定数目的所引入权利要求记载，则将在权利要求中明确地记载这种意图，并且在没有这种记载时没有这种意图。例如，为了帮助理解，以下所附权利要求可以包含使用引导性短语“至少一个”和“一个或更多个”来引入权利要求记载。然而，这种短语的使用不应被解读为意指通过不定冠词“一(a)”或“一(an)”对权利要求记载的引入将包含这种所引入的权利要求记载的任何特定的权利要求限制于包含仅一个这种记载的实现方式，即使当相同的权利要求包括引导性短语“一个或更多个”或“至少一个”以及诸如“一(a)”或“一(an)”(例如，“一(a)”和/或“一(an)”一般应被解读为表示“至少一个”或“一个或更多个”)这样的不定冠词时；这也适用于使用用于引入权利要求记载的定冠词的情况。此外，即使明确地记载了特定数目的所引入的权利要求记载，本领域技术人员将认识到这种记载应当通常被解读为表示至少所记载的数量(例如，没有其它修饰的“两个记载”的无限定记载一般表示至少两个记载或两个或更多个记载)。此外，在其中使用了类似于“A、B和C等中的至少之一”的语句的实例中，这种结构一般意在本领域技术人员会理解该语句(例如，“具有A、B和C中至少之一的系统”将包括但不限于这样的系统：仅具有A、仅具有B、仅具有C、具有A连同B、具有A连同C、具有B连同C、和/或A、B以及C一起等)。在使用了类似于“A、B或C等中至少之一”的语句的示例中，一般，这种结构意在本领域技术人员会理解该语句(例如，“具有A、B或C中至少之一的系统”将包括但不限于这样的系统：仅具有A、仅具有B、仅具有C、具有A连同B、具有A连同C、具有B连同C、和/或A、B以及C一起等)。本领域技术人员还将理解的是，实际上，呈现出两个或更多个候选措辞的任何分隔的词语和/或短语，无论是在说明书、权利要求还是在附图中，都应被理解为包括一个措辞、措辞中之一或两个措辞的可能性。例如，短语“A或B”将被理解为包括“A”或“B”或“A和B”的可能性。

还应理解的是，措辞“优化”可以包括最大化和/或最小化。本文所使用的措辞“最小化”和/或此类措辞可以包括全局最小化、局部最小化、近似全局最小化和/或近似局部最小化。同样地，还应理解的是，本文所使用的措辞“最大化”和/或此类措辞可以包括全局最大化、局部最大化、近似全局最大化和/或近似局部最大化。

在说明书中对“实现方式”、“一个实现方式”、“一些实现方式”或“其它实现方式”的描述可以表示结合一个或更多个实现方式而描述的特定特征、结构或特性可以包括在至少一些实现方式中，但不必包括在所有实现方式中。在前述描述中的“实现方式”、“一个实现方式”或“一些实现方式”的各种表现形式未必全部表示相同的实现方式。

尽管在本文利用各种方法和系统已经描述并示出了特定示例性技术，但本领域技术人员应理解的是，在不脱离所保护的主题的情况下可以做出各种其它修改并可以用等同物来替换。此外，在不脱离本文所描述的中心概念的情况下可以做出许多修改，以使具体的情况适应于所要求保护的教导。因此，所要求保护的主题不意在限于所公开的特定的示例，并且所要求保护的主题还可以包括落入所附权利要求及其等同物的范围内的全部实现方式。

Claims

1.一种用于确定移动体验质量的方法，所述方法包括以下步骤：

接收根据数字音频信号生成的第一音频指纹；

至少部分地基于所述第一音频指纹和根据数字音频信号生成的第二音频指纹的比较来确定体验质量(QoE)度量值，其中，所述第二音频指纹是在所述数字音频信号的接收方生成的。

2.根据权利要求1所述的方法，其中，所述数字音频信号包括基于IP的语音(VoIP)信号。

3.根据权利要求1所述的方法，其中，所述第一音频指纹是在所述数字音频信号的发送源处生成的。

4.根据权利要求1所述的方法，其中，确定QoE度量值包括：至少部分地基于所述第一音频指纹和所述第二音频指纹中的至少一方与第三音频指纹的比较来确定所述QoE度量值，其中，所述第三音频指纹是在所述数字音频信号的接收方至少部分地响应于位于所述数字音频信号的接收方处的至少一个麦克风捕获的音频而生成的。

5.根据权利要求4所述的方法，其中，所述数字音频信号的发送源包括第一蜂窝电话送受话器，并且其中，所述数字音频信号的接收方包括第二蜂窝电话送受话器。

6.根据权利要求1所述的方法，其中，所述第一音频指纹是在第一网络节点处生成的，其中，所述数字音频信号的接收方包括第二网络节点，并且其中，所述第二音频指纹是在所述第二网络节点处生成的。

7.根据权利要求6所述的方法，其中，所述第一网络节点和/或所述第二网络节点中的至少一方包括服务器。

8.根据权利要求1所述的方法，其中，至少部分地基于所述第一音频指纹和所述第二音频指纹的比较来确定所述QoE度量值包括：至少部分地基于所述第一音频指纹的感知特性和所述第二音频指纹的感知特性的比较来确定所述QoE度量值。

9.根据权利要求8所述的方法，其中，感知特性包括以下各项中的至少一个：平均过零率、估计节拍、平均谱、谱平坦度、在一个或更多个谱段上的主要音调、或带宽。

10.一种包括计算机程序产品的制品，其中，所述计算机程序产品内存储了指令，如果所述指令被执行则导致：

接收根据数字音频信号生成的第一音频指纹；以及

至少部分地基于所述第一音频指纹和根据所述数字音频信号生成的第二音频指纹的比较来确定体验质量(QoE)度量值，其中，所述第二音频指纹是在所述数字音频信号的接收方生成的。

11.根据权利要求10所述的制品，其中，所述数字音频信号包括基于IP的语音(VoIP)信号。

12.根据权利要求10所述的制品，其中，确定QoE度量值包括：至少部分地基于所述第一音频指纹和所述第二音频指纹中的至少一方与第三音频指纹的比较来确定所述QoE度量值，其中，所述第三音频指纹是在所述数字音频信号的接收方至少部分地响应于位于所述数字音频信号的接收方处的至少一个麦克风捕获的音频而生成的。

13.根据权利要求12所述的制品，其中，所述数字音频信号的发送源包括第一蜂窝电话送受话器，并且其中，所述数字音频信号的接收方包括第二蜂窝电话送受话器。

14.根据权利要求10所述的制品，其中，所述第一音频指纹是在第一网络节点生成的，其中，所述数字音频信号的接收方包括第二网络节点，并且其中，所述第二音频指纹是在所述第二网络节点生成的。

15.根据权利要求10所述的制品，其中，至少部分地基于所述第一音频指纹和所述第二音频指纹的比较来确定所述QoE度量值包括：至少部分地基于所述第一音频指纹的感知特性和所述第二音频指纹的感知特性的比较来确定所述QoE度量值。

16.根据权利要求10所述的制品，其中，感知特性包括以下各项中的至少一项：平均过零率、估计节拍、平均谱、谱平坦度、在一个或更多个谱段上的主要音调、或带宽。

17.一种系统包括：

一个或更多个模块，所述一个或更多个模块被配置为：

接收根据数字音频信号生成的第一音频指纹；以及

18.根据权利要求17所述的系统，其中，确定QoE度量值包括：至少部分地基于所述第一音频指纹和所述第二音频指纹中的至少一方与第三音频指纹的比较来确定所述QoE度量值，其中，所述第三音频指纹是在所述数字音频信号的接收方至少部分地响应于位于所述数字音频信号的接收方处的至少一个麦克风捕获的音频而生成的。

19.根据权利要求17所述的系统，其中，至少部分地基于所述第一音频指纹和所述第二音频指纹的比较来确定所述QoE度量值包括：至少部分地基于所述第一音频指纹的感知特性和所述第二音频指纹的感知特性的比较来确定所述QoE度量值。

20.根据权利要求19所述的系统，其中，感知特性包括以下各项中的至少一项：平均过零率、估计节拍、平均谱、谱平坦度、在一个或更多个谱段上的主要音调、或带宽。