CN102460190A

CN102460190A - 用于移动通信网络的方法和装置

Info

Publication number: CN102460190A
Application number: CN2009801600452A
Authority: CN
Inventors: 托·比约·明德
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2009-06-23
Filing date: 2009-06-23
Publication date: 2012-05-16
Also published as: EP2446282A4; US20120069767A1; WO2010151183A1; EP2446282A1

Abstract

本发明涉及用于提供如何在通信服务中自动更新移动设备中的呈现状态(例如，聊天服务中的好友列表)的解决方案的用户设备和方法。该解决方案基于：用户设备分析音频环境的背景“噪声”5(声音)，并利用该分析来确定移动设备的用户的呈现状态。

Description

用于移动通信网络的方法和装置

技术领域

本发明涉及移动通信系统中的方法和装置，且具体地涉及用于自动检测和更新IP多媒体子系统或类似通信系统中的呈现状态的解决方案。

背景技术

互联网协议(IP)多媒体子系统(IMS)是用于在通信网络中传输IP多媒体服务的架构。如图1所示，IMS 101可以连接到固定网络102、104或无线网络103，并控制由各种内容提供方提供的基于IP的服务。因此，IMS是无线和IP技术的汇聚。

用户可以通过使用会话发起协议(SIP)，以各种方式连接到IMS网络。诸如移动电话、个人数字助理PDA和膝上型计算机之类的IMS终端即使正在另一网络或国家中漫游时，也可以直接在IMS网络上注册。唯一的要求是他们可以使用IP，并运行会话发起协议(SIP)用户代理。如图1所示，固定接入、移动接入(例如，3G、4G系统)和无线接入(例如，WLAN、WiMAX)全都支持。其他电话系统，比如老式电话服务(POTS-老式模拟电话)、H.323以及IMS不兼容的VoIP系统通过网关支持。

呈现是IMS可以提供的服务。呈现允许用户订阅与其他用户相关的呈现信息，其中，呈现信息是状态指示符，其传递计算机和通信网络中潜在通信的能力和意愿。用户的客户端经由网络连接向呈现服务提供呈现信息(呈现状态)。存储该状态，其构成个人可用性记录，且可以让其可用于向其他用户(被称为观察者)分发，以传递通信的可用性。呈现信息在很多通信服务中具有广泛的应用。其是使得即时通讯或基于IP的语音客户端的最新实现日益流行的创新之一。

因此，用户客户端可以发布呈现状态，以指示其当前通信状态。发布的该状态向希望联系该用户的其他人通知该用户的可用性，以及该用户进行通信的意愿。当今的呈现的最常见的用途是在即时通讯客户端上显示指示符图标(一般是从具有容易传递含义的图形符号中进行选择)以及与每种状态对应的文本描述的列表。

通过使用呈现和通讯软件，用户能够创建“好友列表”，其指示了列表中的人的当前状态。当用户被指示为可用时，有可能例如使用即时通讯(IM)服务来发送和接收实时消息。从而，呈现信息可以用于选择开始通信的最恰当时间，以及最合适的通信工具。呈现状态信息的示例是“我在会议中”，“我在线”，“我离线”，“我很忙”，“不要打扰”等等。还可以提供与用户偏好的通信工具相关的其他信息，比如，“打我的手机”，“有空聊天”，“离开”，“不要打扰”，“午饭中”。这些状态以很多变型存在于不同的现代即时通讯客户端中。当前的标准支持对附加呈现属性的丰富选择，其可以用于呈现信息，比如用户情绪、位置、或自由文本状态。

在大多数情况下，从联系人列表中发起通信。最终用户可以通过IMS中服务节点提供的功能，创建并管理联系人列表。这些列表存储在IMS网络中，且可以由用户的不同应用来重复使用。

一个问题是对呈现状态的手动更新对于用户来说是麻烦的。当在不同任务之间切换并移动时，很难记住要改变状态。用户必须手动选择状态。

为了维持让呈现信息更新，期望能够自动更新呈现状态信息。

在基于PC或台式计算机的呈现功能中，某种自动更新功能是可用的。可以检测到PC空闲几分钟，且可以执行对呈现状态的更新。可以通过检查其他软件(比如文档处理、游戏等等)是否正在运行来进行对用户活动的检测。其他可能的解决方案是使用上下文信息(比如，位置、日历信息)来计算呈现状态。

WO 2007/037679和US 2005/0228882提到了可以使用音频来确定呈现状态，但是其并未公开如何实现。

发明内容

本发明的目标问题是提供一种关于如何在通信服务中对移动设备中的呈现状态(例如，聊天服务中的好友列表)进行自动更新的解决方案。

本发明通过以下步骤来解决该目标问题：让移动设备分析音频环境的背景“噪声”(声音)，且使用该分析来确定移动设备的用户的呈现状态。本发明展示了一种用于如何执行对呈现状态的分析和确定的解决方案。

根据本发明的第一方面，提供一种在适于与移动通信网络通信的用户设备中的方法。在所述方法中，接收表示周围背景噪声的音频信号，且导出至少表示所述周围背景噪声的频谱向量。通过频谱分类器将所导出的频谱向量分类为预定义的向量类别，且至少基于所述频谱向量所属的所述预定义的向量类别，来确定呈现状态。然后将所确定的呈现状态发送至呈现服务器。

根据本发明的第二方面，提供一种适于与移动通信网络通信的用户设备。所述用户设备包括：接收机，用于接收表示周围背景噪声的音频信号；以及频谱分析器，用于导出至少表示所述周围背景噪声的频谱向量。此外，所述用户设备包括：分类器，用于通过频谱分类器将所导出的频谱向量分类为预定义的向量类别；以及呈现状态计算器，用于至少基于所述频谱向量所属的所述预定义的向量类别，来确定呈现状态。此外，所述用户设备包括：发射机，用于将所确定的呈现状态发送至呈现服务器。

本发明的优点是：由于自动计算呈现状态，因而克服了用户使用呈现服务的障碍。从而，用户不再有记住去更新状态的手动麻烦。

附图说明

图1示出了实现本发明的实施例的场景。

图2示意性地示出了根据本发明的实施例的移动设备

图3示意性地示出了根据本发明的另一实施例的移动设备。

图4是根据本发明的实施例的方法的流程图。

具体实施方式

下文中将参照附图来更完全地描述本发明，在附图中示出了本发明的优选实施例。然后，可以用很多不同的形式来体现本发明，且不应当将本发明理解为受限于本文阐述的实施例；而是，提供这些实施例使得本公开全面和完整，且将向本领域技术人员完全地传达本发明的范围。在附图中，相似的附图标记指代相似的单元。

此外，本领域技术人员将意识到：可以使用软件功能结合已编程的微处理器或通用计算机和/或使用专用集成电路(ASIC)来实现本文下面解释的手段和功能。还将意识到：虽然本发明主要以方法和设备的形式来描述，但是本发明还可以体现在计算机程序产品中，以及体现在包括计算机处理器和耦合到处理器的存储器在内的系统中，其中，利用可以执行本文公开的功能的一个或多个程序对该存储器进行编码。

本发明的实施例的基本理念是让移动设备分析音频环境的背景“噪声”，并使用该分析用于确定呈现状态。

如图1所示，在移动设备110的麦克风298处接收连续的音频信号130。分析该音频信号130，且至少基于该分析来确定呈现状态。然后向IMS系统中的呈现服务器120发送所确定的呈现状态140。

现在参见图2，其示出了根据一个实施例的如何分析音频信号230以确定呈现状态。基于音频的呈现状态自动确定包括三个主要部分：音频环境频谱分析器235、音频频谱分类器245以及呈现状态计算器255。

频谱分析器计算来自麦克风的音频信号的频谱向量240，即频谱表示。音频信号是从移动设备的A/D转换器(未示出)接收的音频采样的时间序列。频谱向量是对例如当前短期频谱、长期频谱和频谱改变的表示。频谱分类器245将音频频谱向量分类为表示环境的类别。在频谱类别向量250中指示这些类别。此外，呈现状态计算器255计算当前呈现状态260，并创建包括当前呈现状态在内的呈现状态向量260，呈现状态向量260被发送至IMS网络中的呈现服务器。

根据另一实施例，用户设备110包括用于检测用户活动的第一检测器232。在该实施例中，频谱分类器245被配置为导出至少表示周围背景噪声和检测到的用户活动的频谱类别向量。

此外，用户设备110可以包括被配置为检测背景噪声的改变的第二检测器247。呈现状态计算器255被配置为至少基于频谱向量和检测到的改变来确定呈现状态。

频谱分析器可以使用不同类型的频谱表示，比如傅立叶变换、LPC频谱模型(AR或ARMA)或倒频谱(Cepstrums)。这在附录中进一步解释。该分类还可以具有不同类型，比如，神经网络、朴素贝叶斯分类、k-近邻(k-nearest neighbor)，并支持向量机等等。

呈现状态是具有低通平均函数的模型。输出呈现状态由具有类别的向量构成，类别表示背景环境的不同方面。在呈现状态模型中，在时间上对呈现状态向量的不同部分进行低通滤波。

可以将音频环境分类为预定的呈现状态类别，比如：活动(activity)、占用(occupation)、环境(environment)和改变(change)。活动类别的示例是：会议中、步行中、站立中、驾驶中、骑车中、就座中等等。占用类别是例如：交谈中、编辑中、吃饭中、休息中、观看中、电话中、工作中等等。环境类别是例如：办公室房间、办公室走廊、室外城镇、室外森林、室外街道、室内商业街、室内家中、地铁、汽车、飞机等等。通过从一个状态到另一个可能的状态的转移来对音频环境(即，背景噪声)的改变进行分类。

让分类器经受大型数据集合的训练，该大型数据集合包含呈现模型的所有状态，即，将针对呈现状态的很多不同可能类别的音频环境加以记录，手动分类并用作训练材料。

可以使用(但不一定需要)个人简档来定义分层策略。与个人简档一起，用户可以定义应当如何使用呈现状态的规则(策略)。更详细的呈现状态向其他用户提供了更多的信息，且提供了如何处理用户的呈现的更多可能性。例如，在商务设置中，诸如朋友和家庭之类的私人联系人也可能具有特定的优先级，管理者、同事和下级可以具有已定义的优先级。作为示例，如果观察者(即，另一用户)具有较高的优先级，则分层策略定义了向观察者揭示的呈现状态的多少细节。因此，用户可以定义允许家庭和朋友监视该用户是在汽车还是在地铁中，但是仅可以允许其他观察者监视用户是离开还是正在移动。作为另一示例，可以允许管理者监视用户是否正在打电话、在会议还是在咖啡屋，而其他观察者仅可以查看用户是忙碌中还是有空闲。

可以将对用户的呈现状态的自动检测与手动呈现状态信息和其他上下文相关呈现状态信息相结合。图3示出了根据本发明的实施例的移动设备，其中，信息280还可以与个人简档结合，以计算呈现状态向量290。图3的布置公开了图2所示的布置，除了图3包括分类器训练算法275和结合呈现状态计算器265。

分类器训练算法275通过使用频谱向量和呈现状态向量的对，来改进了频谱分类器230的分类。这可以通过使用以不同呈现状态类别来手动标记的已记录音频文件来实现。根据音频文件来计算频谱向量，且使用手动标记的呈现状态作为来自分类器的正确输出，作为监督训练材料。

结合呈现状态计算器265将自动计算的呈现状态260与手动输入状态280、上下文信息280和/或个人简档280结合。手动输入可以由文本、简单的在线/离线状态和被提示的用户反馈构成。上下文信息可以由定位信息、日历信息或其他软件呈现状态信息构成。个人简档包含用户定义的如何使用呈现状态信息的规则和如上所述针对不同观察者(用户)的优先级。

还可以请求用户确认计算出的呈现状态。这也可以用于在线训练频谱分类器，其将改进呈现状态计算器并让计算更适合用户的正常音频环境。此外，用户可以被提示检测到的呈现状态，并接受或拒绝自动检测，这将改进可用性。

本发明的实施例还涉及在图4的流程图中示出的方法。在步骤401，接收表示周围背景噪声的音频信号。除了可以检测402用户活动之外，还可以接收403附加呈现状态信息，例如，用户手动输入的信息、上下文信息、个人简档信息。在步骤404中导出至少表示周围背景噪声的频谱向量，且通过频谱分类器至少基于导出的频谱向量，将导出的频谱向量分类505为预定义的向量类别。在可选步骤(步骤406)中，可以检测406背景噪声的改变，例如，用户离开汽车。至少基于频谱向量所属的预定义的向量类别来确定407呈现状态。然后向呈现服务器发送(发布)408所确定的呈现状态。

为了改进频谱分类器，可以使用训练算法。如果使用训练算法，则分类步骤405包括以下其他步骤：从之前确定的呈现状态接收(405a)呈现状态反馈，，以及如上所述地基于所接收的呈现状态反馈，更新(405b)频谱分类器。

在附录中提供了可以在本发明中使用的频谱分析的背景。然而应当理解附录是本申请文本的一部分。

本发明不受限于上述优选实施例。可以使用各种备选、修改和等价物。因此，不应当将上述实施例视为限制了由所附权利要求限定的本发明的范围。

附录

频谱分析背景

频谱分析意味着将某些复杂的东西分解为更简单的、更基本的部分。对声音进行建模存在物理基础，因为声音由各种量的完全不同的频率构成。可以将对各种量vs.频率进行量化的任何过程称为频谱分析。可以在很多短的时间段上进行频谱分析，或在较长的时间段上不那么频繁地进行频谱分析，或对于确定性函数仅进行一次频谱分析。

对函数的傅立叶变换产生了频谱，根据该频谱可以通过逆变换来重构(也称为合成)原始函数，使其可逆。为了这么做，其不仅保留每个频率分量的量值，还保留其相位。可以将该信息表示为2维向量或复数，或表示为量值和相位(极坐标)。在图形表示中，通常仅示出量值(或平方量值)分量。这也被称为功率频谱。

由于可逆性，傅立叶变换被称为函数的表示(在频率而不是时间方面)，从而，其是频域表示。可以在时域中执行的线性运算具有在频域中通常更容易执行的对应运算。

随机(也称为随机，stochastic)波形(也称为噪声)的傅立叶变换也是随机的。需要某种类型的平均，以创建底层频率内容(也称为频率分布)的清晰图像。一般而言，将数据分为具有所选时间长度的时间段，并对每个时间段执行变换。然后，将变换的量值或(通常)平方量值求和为平均变换。这是对使用离散傅立叶变换(参见Welch方法)所数字化(也称为采样)的时间-数据执行的非常常见的运算。

LPC背景

线性预测编码(LPC)是在音频信号处理和语音处理中最常使用的工具，用于使用线性预测模型的信息，以压缩形式来表示语音的数字信号的频谱包络。其是最强力的语音分析技术之一，且是用于以低比特率对良好质量语音进行编码的最有用的方法之一，并提供了对语音参数的极度准确的估计。

LPC开始于以下假设：语音信号由在管端处的蜂鸣器产生(有声的声音)，且偶尔添加了嘶嘶声和爆裂声(齿擦音和爆破音)。尽管明显很粗糙，但是该模型实际上是对语音产生的逼真的近似。声门(在声带之间的空间)产生了蜂鸣，其特征在于其强度(响度)和频率(音调)。声道(喉咙和嘴)形成管，其特征在于其的被称为共振峰的共振。在齿擦音和爆破音期间，通过舌头、嘴唇和喉咙的动作来产生嘶嘶声和爆裂声。

LPC通过估计共振峰，从语音信号中移除其影响、以及估计剩余蜂鸣的强度和频率，来分析语音信号。将移除共振峰的过程称为逆滤波，且减去已滤波的建模信号之后的剩余信号称为残余。

由于语音信号随着时间变化，该过程在被称为帧的短的语音信号段上进行；一般每秒30至50帧给出具有良好压缩的可理解的语音。

倒频谱背景

倒频谱(cepstrum，发音为

)是对分贝频谱(假如其为信号)的傅立叶变换(FT)的结果。其名称得自将“频谱(spectrum)”的头四个字母倒转。存在复数倒频谱和实数倒频谱。

在(Bogert等人的)1963年的论文中定义了倒频谱。可以将其定义为：

●用语言来表达：(信号的)倒频谱是(信号的)傅立叶变换的对数(具有未展开的相位)的傅立叶变换。有时称为频谱的频谱。

●用数学来表达：信号的倒频谱＝FT(log(|FT(信号)|)+j2πm)(其中，m是正确展开复对数函数的角度或虚部所需的整数)。

●用算法来表达：信号→FT→abs()→log→相位展开→FT→倒频谱。

“实数”倒频谱使用针对实数值定义的对数函数。复数倒频谱使用针对复数值定义的复数对数函数。

复数倒频谱保持了与初始频谱的量值和相位相关的信息，允许对信号的重构。实数倒频谱仅使用频谱的量值的信息。

分类背景

统计分类是：基于与项(item)固有的一个或多个特征(称为特性(trait)、变量、特征等等)相关的定量信息以及基于之前标记的项的训练集合，将单个项放入组中的过程。

形式上，可以如下陈述该问题：给定的训练数据产生了将对象映射到其分类标签的分类器。例如，如果问题是过滤垃圾邮件，则x是电子邮件的某种表示，且y是“垃圾邮件”还是“非垃圾邮件”。

尽管有很多分类方法，他们都尝试解决下列数学问题之一。

第一个问题是找到特征空间(其一般是多维向量空间)到标签集合的映射。这等价于将特征空间分为区域，然后向每个区域赋予标签。这种算法(例如最近邻居算法)一般不产生置信度或类别概率，除非应用了后处理。解决该问题的另一算法集合首先对特征空间应用无监督聚类，然后尝试标记每个聚类或区域。

第二个问题是将分类考虑为估计问题，其中，目标是估计具有以下形式的函数：

P (class | \overset{&RightArrow;}{x}) = f (\overset{&RightArrow;}{x}; \overset{&RightArrow;}{θ})

其中，特征向量输入是

且函数f一般由一些参数

来参数化。在针对本问题的贝叶斯方案中，取代选择单一参数向量将结果在所有可能的theta(θ)上积分，同时用向它们给予训练数据D的可能性对theta加权：

P (class | \overset{&RightArrow;}{x}) = &Integral; f (\overset{&RightArrow;}{x}; \overset{&RightArrow;}{θ}) P (\overset{&RightArrow;}{θ} | D) d \overset{&RightArrow;}{θ}

第三个问题涉及第二个问题，但是问题是：估计类别条件概率

然后使用贝叶斯规则，以与第二问题中一样产生类别概率。

分类算法的示例包括：

●线性分类

●Fisher的线性判别式

●逻辑回归

●朴素贝叶斯分类

●感知器

●二次分类

●k-近邻

●Boosting

●决策树

●神经网络

●贝叶斯网络

●支持向量机

●隐马尔科夫模型

在模式识别中待解决的让人感兴趣的问题是在要解决的问题(要分类的数据)和各种模式识别算法(分类器)的性能之间的关系。Vander Walt和Barnard(参见参考文献节)调查了非常特定的人工数据集合，以确定特定分类器比其他分类器执行的更好和更差所处的条件。

分类器性能极大地取决于要分类的数据的特征。没有单一一种分类器可以在所有给定的问题上都最佳工作(一种可以由“没有免费午餐”理论来解释的现象)。已执行了各种实际测试来比较分类器性能并发现确定分类器性能的数据的特征。然而针对给定问题来确定合适的分类器依然更像是门技术而不是科学。

最广泛使用的分类器是神经网络(多层感知)、支持向量机、k近邻、高斯混合模型、高斯、朴素贝叶斯、决策树和RBF分类器。

Claims

1.一种在适于与移动通信网络通信的用户设备中的方法，所述方法包括以下步骤：

-接收(401)表示周围背景噪声的音频信号，

-导出(404)至少表示所述周围背景噪声的频谱向量，

-通过频谱分类器将所导出的频谱向量分类(405)为预定义的向量类别，

-至少基于所述频谱向量所属的所述预定义的向量类别，来确定(407)呈现状态，以及

-将所确定的呈现状态发送(408)至呈现服务器。

2.根据权利要求1所述的方法，其中，所述方法包括以下其他步骤：

-检测(402)用户活动，以及所述分类步骤包括：导出至少表示所述周围背景噪声和所检测到的用户活动的频谱类别向量。

3.根据权利要求1至2中任一项所述的方法，其中，所述方法包括以下其他步骤：

-检测(406)所述背景噪声的改变，以及对所述呈现状态的确定至少基于所述频谱向量和所检测到的改变。

4.根据权利要求1至3中任一项所述的方法，其中，所述方法包括以下其他步骤：

-接收(403)附加呈现状态信息(280)，

-基于所述频谱向量所属的所述预定义的向量类别以及所接收的附加呈现信息(280)，确定(407)所述呈现状态。

5.根据前述权利要求中任一项所述的方法，其中，所述附加呈现状态信息(280)包括上下文信息。

6.根据前述权利要求中任一项所述的方法，其中，所述附加呈现状态信息(280)包括个人简档信息。

7.根据前述权利要求中任一项所述的方法，其中，所述附加呈现状态信息(280)包括由所述用户设备的用户手动输入的信息。

8.根据前述权利要求中任一项所述的方法，其中，所述分类的步骤(405)包括以下其他步骤：

-从之前确定的呈现状态接收(405a)呈现状态反馈，以及

-基于所接收的呈现状态反馈，更新(405b)所述频谱分类器。

9.一种适于与移动通信网络通信的用户设备(110)，其特征在于：接收机(298)，用于接收表示周围背景噪声的音频信号；频谱分析器(235)，用于导出至少表示所述周围背景噪声的频谱向量；分类器(245)，用于通过频谱分类器将所导出的频谱向量分类为预定义的向量类别；呈现状态计算器(255)，用于至少基于所述频谱向量所属的所述预定义的向量类别，来确定呈现状态；以及发射机(299)，用于将所确定的呈现状态发送至呈现服务器。

10.根据权利要求9所述的用户设备(110)，其中，所述用户设备(110)还包括用于检测用户活动的第一检测器(232)，以及所述分类器(245)被配置为：导出至少表示所述周围背景噪声和所检测到的用户活动的频谱向量。

11.根据权利要求9至10中任一项所述的用户设备(110)，其中，所述用户设备包括被配置为检测所述背景噪声的改变的第二检测器(247)，以及所述呈现状态计算器(255)被配置为：至少基于所述频谱向量和所检测到的改变，确定所述呈现状态。

12.根据权利要求9至11中任一项所述的用户设备(110)，其中，所述接收机(298)还被配置为：接收附加呈现状态信息(280)，以及所述呈现状态计算器(265)被配置为：基于所述频谱向量所属的所述预定义的向量类别以及所接收的附加呈现信息(280)，确定所述呈现状态。

13.根据前述权利要求9至12中任一项所述的用户设备(110)，其中，所述附加呈现状态信息(280)包括上下文信息。

14.根据前述权利要求中任一项所述的用户设备(110)，其中，所述附加呈现状态信息(280)包括个人简档信息。

15.根据前述权利要求中任一项所述的用户设备(110)，其中，所述附加呈现状态信息(280)包括由所述用户设备的用户手动输入的信息。

16.根据前述权利要求中任一项所述的用户设备(110)，其中，所述分类器(245)还被配置为：通过使用分类器训练单元(275)，基于来自之前确定的呈现状态的呈现状态反馈，确定所述呈现状态，以及还被配置为：基于所接收的呈现状态反馈，更新所述分类器(245)的向量类别。