CN102224543A

CN102224543A - 用于将与用户设备之间的基于IP的语音的语音通信会话相关的话音同基于web的应用进行组合的方法、媒体服务器、计算机程序和计算机程序产品

Info

Publication number: CN102224543A
Application number: CN2009801464301A
Authority: CN
Inventors: 凯瑟琳·穆里根; 马格纳斯·奥尔森; 乌尔夫·奥尔森
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2008-11-21
Filing date: 2009-11-20
Publication date: 2011-10-19
Also published as: EP2351022A1; WO2010059120A1; EP2351022A4

Abstract

本发明提供了一种媒体服务器、用于该媒体服务器的方法、计算机程序和计算机程序产品，用于将与用户设备A和用户设备B之间的基于IP的语音(VoIP)的语音通信会话相关的话音同基于web的应用进行组合。所述方法还包括所述媒体服务器执行以下步骤：捕获与VoIP语音通信会话相关的话音；将所述话音转换为文本；通过使用所述文本添加来自基于web的应用的服务，创建上下文数据。所述媒体服务器包括：用于捕获VoIP语音通信会话的话音的捕获单元；用于将所述话音转换为文本的转换单元；用于通过使用所述文本添加来自基于web的应用的服务来创建上下文数据的创建单元。还提供了针对所述媒体服务器的计算机程序和计算机程序产品。

Description

用于将与用户设备之间的基于IP的语音的语音通信会话相关的话音同基于web的应用进行组合的方法、媒体服务器、计算机程序和计算机程序产品

技术领域

本发明涉及电信领域，更具体地，涉及用于将与用户设备之间的基于IP的语音(VoIP)的语音通信会话相关的话音同基于web的应用进行组合的媒体服务器、方法、计算机程序和计算机程序产品。

背景技术

第三代合作伙伴计划(3GPP)开发了一种称作IMS(IP多媒体子系统)的网络架构，作为用于处理和控制多媒体服务和会话的平台，统称为IMS网络。不论使用何种接入技术，IMS网络都可以用于针对与各种接入网相连接的“具有IMS能力的”终端建立和控制多媒体会话。IMS概念可以用于固定和移动IP终端。

多媒体会话由IMS网络中的特定会话控制节点(如节点P-CSCF(代理呼叫会话控制功能)、S-CSCF(服务呼叫会话控制功能)和I-CSCF(询问呼叫会话控制功能))来处理。此外，在IMS网络中使用数据库节点HSS(归属订户服务器)来存储订户和认证数据。

媒体资源功能(MRF)提供媒体相关功能，如媒体操控(例如，语音流混合)以及音调和公告的播放。每个MRF还被分为媒体资源功能控制器(MRFC)和媒体资源功能处理器(MRFP)。MRFC是充当对S-CSCF的SIP(会话发起协议)用户代理且对MRFP进行控制的信令平面节点。MRFP是实现所有媒体相关功能的媒体平面节点。

背靠背用户代理(B2BUA)充当对SIP呼叫的两端的用户代理。B2BUA负责处理从呼叫建立到终止的呼叫的两端之间的所有SIP信令。自始至终跟踪每个呼叫，允许B2BUA的运营商向呼叫提供添加值特征。对SIP客户端，B2BUA在一侧充当用户代理服务器，并在另一(背靠背)侧充当用户代理客户端。

IMS网络还可以包括各个应用服务器和/或连接至外部服务器。这些服务器可以提供不同的多媒体服务或IP服务。

IMS网络的一个基本应用是语音。现今，该服务有一些问题。一个示例是：用户必须讲相同的语言。也不可以进行组合，从而以便利的方式将语音服务与其他服务进行整合。

存在“实时翻译”方案，即，US6980953B1，然而，该系统仅被设计为在正确的翻译者(即，实体的人)中链接至语音流中。然后，该人提供针对两个终端用户的翻译。这是一种可能的方案，并且，尽管其避免了与翻译相关联的许多技术问题，但是其被限制在翻译人坐在呼叫中心中接电话的可用性。其成本还明显高于以下描述的系统，这对大多数用户来说非常重要。对于较差的翻译可能使各方承担法律责任的重要商业协商或其他情形，翻译人是必要的。

随着互联网、IMS网络和无线电网络的演进，终端用户面临着如何有效管理其内容及其通信的问题。目前，存在多种不同的方案来存储、保持、搜索和处理基于文本的信息。此外，在文化水平较低的欠发达国家，部署了许多终端用户：结果，他们却被排除在形成互联网的基于文本的文献的知识之外。因此，提供对移动宽带网络的接入还需要创建对这些终端用户的语音通信进行存储、交换、处理和搜索的有效手段。那么，强烈需要一种“基于语音的互联网”，使终端用户能够接触到对其个人方面、经济方面和社交方面的生活来说相关且重要的知识。

IMS网络是被设计为与使用移动宽带手机和网络的其他互联网服务结合使用的平台。目前，不存在有效地将正在进行的基于IMS的语音呼叫的内容(语音)与其他IP服务(例如互联网上的服务)进行组合或“捣混(mash-up)”的方法。目前，不存在与取得终端用户的对话的内容(即，对话的主题、终端用户实际上正在谈论的内容)和将其与其他服务(如互联网上可用的互联网服务)进行组合相关的现有技术。存在与实时翻译相关的某些现有技术，例如WO2009011549A2，然而，该方案被嵌入移动设备中，并使用WAP。更重要的是，本发明并不捕获终端用户正在谈论的内容；本发明仅提供对话的翻译。

此外，目前不存在供终端用户捕获其语音服务的实际对话内容的上下文并以与互联网类似的形式存储该上下文的手段；这允许例如一个人留下另一个人可“搜索”和“阅读”的基于语音的(或基于视频的)“网页”。在其他与基于IP的语音(VoIP)相关的技术(如Skype技术)中存在类似的限制。

发明内容

本发明的目的是提供一种针对例如发往终端用户的正在进行的语音对话和/或IPTV广播的翻译和字幕的翻译应用，使得能够管理对基于语音的内容的存储、保持、搜索和处理。这由以下描述的本发明的不同方面来实现。

在本发明的一方面，提供了一种媒体服务器中的方法，用于将与用户设备A(UE-A)和用户设备B(UE-B)之间的基于IP的语音(VoIP)的语音通信会话相关的话音同基于web的应用进行组合，所述方法还包括所述媒体服务器执行以下步骤：

-捕获与VoIP语音通信会话相关的话音；

-将所述话音转换为文本；

-通过使用所述文本，添加来自基于web的应用的服务，来创建上下文数据。

在所述方法的实施例中，所述上下文数据是字幕，所述方法还包括将所述字幕发送至UE-B的步骤。

在所述方法的实施例中，所述上下文数据是翻译，所述方法还包括将所述翻译发送至UE-B的步骤。

在所述方法的实施例中，所述方法还包括以下步骤：

-将所述翻译转换为翻译后的话音；

-将翻译后的话音发送至UE-B。

在所述方法的实施例中，创建上下文数据的步骤包括以下子步骤：

-将所述文本发送至广告应用服务器；

-接收具有广告的形式的上下文文本；以及

-将广告发送至UE-B和/或UE-A。

在所述方法的实施例中，UE-A是机顶盒。

在所述方法的实施例中，存在将所述上下文数据实时提供给UE-A和/或UE-B的操作。

在所述方法的实施例中，存在与IMS语音会话并行地提供所述字幕的实时输出的操作。

在所述方法的实施例中，存在与IMS语音会话并行地提供所述翻译的实时输出的操作。

在所述方法的实施例中，存在将翻译后的话音的实时输出提供给UE-B的操作。

在所述方法的实施例中，存在创建上下文数据的操作，以及，根据本实施例的方法还包括以下子步骤：

-将所述文本发送至基于位置的服务的应用服务器；

-接收具有位置信息的形式的上下文文本；以及

-将位置信息发送至UE-B和/或UE-A。

在所述方法的实施例中，存在将上下文数据存储在web技术应用服务器中的操作。

在所述方法的实施例中，存在以下操作：

-向搜索单元请求对上下文数据的内容的搜索；

-接收来自所述搜索的网页链接的列表；以及

-向UE-A和/或UE-B输出并返回来自所述搜索的网页链接的列表。

在所述方法的实施例中，存在将上下文数据和/或网页链接存储为互联网的基于文本的文献/web查看格式的操作，其中，存储的步骤可以在web技术应用服务器和/或存储单元和/或媒体服务器存储单元中进行。

在所述方法的实施例中，存在以下操作：

-从web技术应用服务器中检索上下文数据；以及

-将上下文数据转换为翻译后的话音，以供UE-A和/或UE-B重放。

在本发明的另一方面，提供了一种媒体服务器，用于将与用户设备A(UE-A)和用户设备B(UE-B)之间的基于IP的语音(VoIP)的语音通信会话相关的话音同基于web的应用进行组合，所述媒体服务器包括：

-用于捕获VoIP语音通信会话的话音的捕获单元；

-用于将所述话音转换为文本的转换单元；

-用于通过使用所述文本添加来自基于web的应用的服务来创建上下文数据的创建单元。

在所述媒体服务器的一个实施例中，所述媒体服务器包括：

-用于将所述文本转换为字幕的字幕单元；以及

-用于将所述字幕发送至UE-B的输出单元。

在一个实施例中，所述媒体服务器可以包括：

-用于将所述文本转换为翻译的翻译单元；以及

-用于将所述翻译发送至UE-B的输出单元。

所述媒体服务器可以包括：

-用于将所述翻译转换为翻译后的话音的话音单元；以及

-用于将所述翻译发送至UE-B的输出单元。

所述媒体服务器可以包括：

-用于将所述文本发送至广告应用服务器的广告单元；

-用于接收具有广告的形式的上下文文本的输入单元；以及

-用于将广告发送至UE-B和/或UE-A的输出单元。

在所述媒体服务器的一个实施例中，UE-A可以是机顶盒。

所述媒体服务器可以将所述上下文数据实时提供给UE-A和/或UE-B。

所述媒体服务器可以与IMS语音会话并行地提供所述字幕的实时输出。

所述媒体服务器可以与IMS语音会话并行地提供所述翻译的实时输出。

所述媒体服务器可以将翻译后的话音的实时输出提供给UE-B。

在一个实施例中，所述媒体服务器可以包括：

-基于位置的单元，用于将所述文本发送至基于位置的服务的应用服务器；

-用于接收具有位置信息的形式的上下文文本的输入单元；以及

-用于将位置信息发送至UE-B和/或UE-A的输出单元。

所述媒体服务器可以包括：用于发送要存储在web技术应用服务器和/或存储单元和/或媒体服务器存储单元上的上下文数据的输出单元。

在一个实施例中，所述媒体服务器可以包括：

-用于向搜索单元请求对上下文数据的内容的搜索的输出单元；

-用于接收来自所述搜索的网页链接的列表的输入单元；以及

-用于向UE-A和/或UE-B输出并返回来自所述搜索的网页链接的列表的输出单元。

在一个实施例中，所述媒体服务器可以包括用于发送上下文数据和/或网页链接的列表以作为基于互联网的文献/web查看格式而存储在web技术应用服务器上的输出单元。

在一个实施例中，所述媒体服务器可以包括：

-用于从web技术应用服务器中检索上下文数据的输入单元；以及

-用于将上下文数据转换为翻译后的话音以供UE-A和/或UE-B重放的话音单元。

在本发明的另一方面，提供了一种包括计算机可读代码装置的计算机程序，所述计算机可读代码装置在媒体服务器上运行时使所述媒体服务器执行以下操作：

-捕获与基于IP的语音(VoIP)的语音通信会话相关的话音；

-将所述话音翻译为文本；

在所述计算机程序的实施例中，所述计算机可读代码装置在媒体服务器上运行时使所述媒体服务器执行将所述文本转换为字幕的步骤。

在所述计算机程序的实施例中，所述计算机可读代码装置在媒体服务器上运行时使所述媒体服务器执行将所述文本转换为翻译的步骤。

在所述计算机程序的实施例中，所述计算机可读代码装置在媒体服务器上运行时使所述媒体服务器执行将所述字幕和所述翻译转换为话音的步骤。

在所述计算机程序的实施例中，所述计算机可读代码装置在媒体服务器上运行时使所述媒体服务器执行将所述文本转换为针对UE-A和/或UE-B的广告的步骤。

在所述计算机程序的实施例中，所述计算机可读代码装置在媒体服务器上运行时使所述媒体服务器执行向UE-A和/或UE-B输出基于位置的信息的步骤。

在本发明的另一方面，提供了一种用于媒体服务器的计算机程序产品，所述媒体服务器与基于IP的语音(VoIP)的语音通信会话相连接，所述媒体服务器具有处理单元，所述计算机程序产品包括上述计算机程序以及存储器，其中，所述计算机程序存储在所述存储器中。

存在如何将语音呼叫的内容/上下文与其他服务(例如，使用当前在互联网域内开发的服务)进行组合的许多不同示例，该其他服务的非穷尽列表如下：实时翻译、将字幕插入正在进行的视频流、基于语音的搜索引擎、基于上下文的广告等等。

可添加的基于web的应用/功能的示例如下：

-允许广告商通过对对话内的话音的分析来响应终端用户之间的正在进行的对话的上下文。

-提供针对语音网络(移动语音网络或固定语音网络)的实时翻译或实时字幕。可以在运行基于移动或IP连接的TV(如IPTV)的网络上使用类似的机制。

-基于运营商的语音“数据”(即，对话的内容)服务来提供广告机制，以将其功效与互联网技术的功效进行组合。

-提供正在进行的对话的实时翻译，例如从瑞典语到中文普通话，反之亦然。

-提供针对听力受损的终端用户的对话的实时字幕或针对正在进行的电话会议的对话的翻译后的字幕。

-提供针对终端用户的与其正在进行的对话相关的上下文参考。作为示例，在Narrabeen，Sydney的两个终端用户之间关于水上活动的对话中，可以弹出对附近滑水撬租赁商店的web链接。在点击该链接时，终端用户将被提供有地图等并组织在该位置见面。这将对话“水上活动”的“上下文”与地图服务的位置机制进行组合。

附图说明

可以从具体实施方式以及附图得出对本发明的更全面理解，在附图中：

-图1示意了根据本发明实施例的呼叫会话的流程图。

-图1a示意了基于IPTV的实施例的流程图。

-图2示意了第二实施例的流程图。

-图3示意了第三实施例的流程图。

-图4示意了图3中的实施例的详细流程图。

-图4a示意了根据本发明实施例的媒体服务器600。

-图4b示意了媒体服务器600的创建单元640。

-图4c示意了包括媒体服务器600和基于web的应用170的基于语音的互联网服务。

-图5示意了第四实施例的流程图。

-图6示意了具有计算机程序产品和计算机程序的媒体服务器600的另一方面。

具体实施方式

现在将结合附图，借助实施例来更详细地描述本发明。

基于web的应用的数目持续增长。示例是基于web的社区和所提供的服务，例如社交网站、wiki和日志，其旨在促进创造力、协作以及用户之间的共享。Web 2.0技术是这种基于web的应用170(见图4c)的示例。

在本发明的一方面，提供了媒体服务器600，用于将与用户之间的基于IP的语音(VoIP)的语音通信会话相关的话音同基于web的应用170进行组合，从而改进基于IP的语音(VoIP)会话(如Skype技术)或由第三代合作伙伴计划(3GPP)开发的称作IMS(IP多媒体子系统)的网络架构(例如IMS核心120)中的语音服务。在本发明的另一方面，提供了一种媒体服务器600中的方法，用于将与用户之间的VoIP语音通信会话相关的话音同基于web的应用170进行组合。在另一方面，提供了一种用于媒体服务器600的计算机程序。在另一方面，提供了一种用于媒体服务器600的计算机程序产品。本发明的概念是：捕获语音内容，即，VoIP会话(即，Skype或IMS会话中)的话音，并将该内容与基于web的应用170进行“捣混”/组合。现在将描述本发明的多个实施例。

希望使用向正在进行的语音呼叫添加值的服务之一的终端用户通过建立呼叫并指示他们希望例如针对正在进行的对话使用字幕来达到目的。这可以通过从PC或移动终端点击web链接而进行。然后，加字幕应用可以经由IMS核心120在用户设备A(UE-A)110与用户设备B(UE-B)140之间建立呼叫，在媒体服务器600(如媒体资源功能代理/处理器(MRFP))中链接至语音会话中。对于IPTV情形，UE-A还可以是机顶盒(STB)110a，例如，建立TV会话的IPTV广播。终端用户A和B之间的话音由媒体服务器600捕获/截获，并被转换为文本，被转换为上下文数据，该上下文数据(例如经由UE-B 140)继续传送至接收用户。话音至文本的变换和转换(例如变为上下文数据形式)可以由在互联网域中运行且与业务(如来自IMS网络的语音)“捣混”/组合的服务来创建。在具体实施方式的后续部分更详细地描述这一点。

该服务可以通过多种方法之一来调用；通过在与终端用户的呼叫建立期间在链接至翻译服务中的HSS中供应初始过滤准则。

备选地，可以使用诸如Parlay-X之类的机制来调用该服务。使用这些应用编程接口(API)的呼叫方向机制，媒体服务器600可以通过例如将主叫方-被叫方对进行匹配来分析呼叫情况，以评估哪些对话需要调用捣混服务，例如翻译成另一种语言或加字幕；如果呼叫需要翻译，则IMS核心120链接至正确的媒体服务器600中，而不是直接向B方转发呼叫。使用该方法，被叫方还可以调用被呼叫方的相反方；例如，被叫方进行瑞典语到中文普通话的翻译，而被呼叫方进行中文普通话到瑞典语的翻译。

图1示意了在IMS语音会话期间加字幕的可能呼叫流程100。基于以上段落中描述的如何调用服务，其他呼叫流程也是可能的。图1包括以下元件：

-存在两个用户设备UE-A 110和UE-B 140；

-IMS核心120：语音会话通过IMS网络进行；

-翻译应用单元130，包括媒体服务器600和基于web的应用170；

-语音至文本转换器应用132：语音/话音至文本翻译器应用；

-翻译文本转换器133应用：用于将文本翻译成另一种语言的应用。

在本实施例中，图1所示的步骤中的流程如下：

1.UE-A 110使用包括在媒体服务器600中的翻译应用单元130来向UE-B 140发出呼叫，请求在例如瑞典语和中文普通话之间提供字幕。

2.翻译应用单元130包含作为背靠背用户代理(B2BUA)而执行的媒体服务器600功能。媒体服务器600功能通过向IMS核心120发送INVITE消息来建立两个呼叫段；一个去往UE-A 110，一个去往UE-B140。

3.IMS核心120向UE-A 110发送具有媒体服务器B2BUA的IP地址和端口号的INVITE消息。

4.IMS核心120向UE-B 140发送具有媒体服务器B2BUA的IP地址和端口号的INVITE消息。

5.UE-A 110利用200OK消息进行响应。

6.UE-B 140利用200OK消息进行响应。现在，语音媒体经由B2BUA的媒体服务器600功能流动。

7.终端用户A照常讲瑞典语。

8.媒体服务器600捕获来自UE-A的呼叫段的话音。

9.媒体服务器600使用语音至文本转换器应用132将其转换为文本。该文本是可与基于web的应用170中的互联网技术捣混的所提取的文本。如图4c所示，媒体服务器600充当面向基于web的应用170的网关。

10.现在，可以通过将由此从话音中提取的文本发送至基于web的应用170上的翻译文本转换器应用133，将由此从话音中提取的文本转换为上下文数据，从而输出翻译。一个示例是Alta vista的“babel fish”；采用UE-B 140的语言，以文本形式来返回翻译。

11.备选地或附加地，现在，可以通过将由此从话音中提取的文本馈入例如Google的API中来将所提取的文本转换为上下文数据，以提供作为正在进行的对话的上下文的广告。

12.将上下文数据(如字幕)发送回到媒体服务器600，以与话音/语音会话一起发送。

13.媒体服务器B2BUA发送话音和字幕，作为多媒体会话。

对于IPTV，媒体服务器600捕获视频流的语音部分。媒体服务器600将话音转换为文本，并允许终端用户选择该节目的字幕语言。执行以下步骤：

-选择节目以及应当以何种语言提供字幕；

-捕获IPTV通信会话的话音；

-将话音翻译为文本；

-将所述文本翻译成正确的语言；以及

-将字幕插入IPTV通信会话。

图1a示意了在IPTV会话期间加字幕的呼叫流程100a。基于以上段落中描述的如何调用服务，其他呼叫流程也是可能的。图1a包括以下元件：

-存在一个用户设备，例如，具有例如IPTV广播的形式的STB110a；

-存在将TV频道流传输至STB 110a的媒体服务器600；

-IMS核心120：IPTV会话通过IMS网络进行；

-翻译应用单元130，包括媒体服务器600和基于web的应用170；

-语音至文本转换器应用132：语音/话音至文本翻译器应用；

-翻译文本转换器应用133：用于将文本翻译成另一种语言的应用；

-字幕应用130a，包括语音至文本转换器应用132和翻译文本转换器应用133。

在本实施例中，图1a所示的步骤中的流程如下：

i.STB 110a使用翻译应用单元130(即，包括媒体服务器600)来向IPTV提供商发出TV频道请求，请求提供字幕，例如瑞典语或中文普通话。

ii IMS核心120通过从IMS核心120发送INVITE来建立两个会话；一个去往字幕应用130a，一个去往媒体服务器600。

iii.字幕应用130a和媒体服务器600均向IMS核心120返回200OK消息。

iv.IMS核心120向STB 110a发送200OK消息，其中，会话描述协议(SDP)与两个媒体流组合，例如，一个媒体流针对频道X，一个媒体流针对字幕。

v.媒体服务器600向STB 110a和字幕应用130a发送媒体，例如频道X。

vi.字幕应用130a将媒体转换为文本，并翻译成目标语言。

vii字幕应用130a向STB 110a发送字幕。STB 110a具有基于输入字幕流中的时间标签的协调机制。

以上方案还适于与例如新闻广播结合使用，以在IPTV服务上提供字幕。这将向终端用户提供更好的可配置性，而不是在TV节目上传统地加字幕。终端用户可能能够精确地选择他们想要看到字幕的语言。

图2示意了在语音会话期间翻译语音的呼叫流程200。图2包括以下元件：

-存在两个用户设备，UE-A 110和UE-B 140；

-IMS核心120：语音会话通过IMS网络进行；

-翻译应用单元130，包括媒体服务器600和web技术170功能；

-语音至文本转换器应用132：语音至文本翻译器应用；

-文本至语音转换器应用134：文本至语音翻译器的应用。

在本具体实施例中，流程如下(图2)：

a)UE-A 110使用包括媒体服务器600的翻译服务应用130来向UE-B 140发出呼叫，请求在例如瑞典语和中文普通话之间提供字幕。

b)翻译服务应用包含作为B2BUA而执行的媒体服务器600功能。媒体服务器600功能通过向IMS核心120发送INVITE消息来建立两个呼叫段；一个去往UE-A 110，一个去往UE-B 140。

c)IMS核心120向UE-A 110发送具有媒体服务器B2BUA的IP地址和端口号的INVITE消息。

d)IMS核心120向UE-B 140发送具有媒体服务器B2BUA的IP地址和端口号的INVITE消息。

e)UE-A 110利用200OK进行响应。

f)UE-B 140利用200OK进行响应。现在，语音媒体经由B2BUA的媒体服务器600功能流动。

g)终端用户A照常讲瑞典语。

h)媒体服务器600捕获来自UE-A 110的呼叫段的话音。

i)媒体服务器600使用语音至文本转换器应用132将其转换为文本。其为可与基于web的应用170中的互联网技术捣混且形成上下文数据的“数据”。如图4c所示，媒体服务器600充当面向基于web的应用170的网关。

j)现在，可以通过将由此从话音中提取的文本发送至基于web的应用170上的翻译文本转换器应用133，来将由此从话音中提取的文本转换为上下文数据，从而转换为上下文数据。一个示例是用于语言翻译的、Alta vista的“babel fish”；采用UE-B 140的语言，以文本格式来返回上下文数据，即翻译。从而，该上下文数据是语言翻译。

k)使用文本至话音转换器应用134将由此从捣混/组合中检索到的上下文数据(即翻译)转换回到以所选语言表示的翻译后的话音。

l)针对要发送的翻译后的话音的OK消息。

m)媒体服务器B2BUA向UE-B 140发送翻译后的话音。

类似的方法可以用于不同的其他方案，例如，在TV等上的实况广播的字幕中链接。

图3描述了由媒体服务器600执行的过程步骤300，用于将与UE-A110和UE-B 140之间的VoIP语音通信会话(如基于IMS的语音通信会话)相关的话音同基于web的应用170进行组合。在过程300中，媒体服务器600执行以下步骤，将IMS语音通信会话与基于web的应用170进行组合。在第一步骤310，媒体服务器600捕获与IMS语音通信会话相关的话音。在图1中，如前所述，初始化过程由UE-A 110/UE-B 140在步骤1-7中以及在步骤8的捕获过程中发起，在图2中，类似地，初始化过程由步骤a-g发起。在第二步骤320，媒体服务器600将话音转换为文本；即，图1中的步骤9和图2中的步骤i。在第三步骤330，媒体服务器600通过使用该文本添加来自基于web的应用170的服务，来创建上下文数据。执行上下文数据的创建并随后执行将上下文数据传送至UE-A 110和/或UE-B 140，即，在图1中的步骤10-12以及图2中的步骤j-m中。

本发明允许通过从正在进行的语音会话中检索语音数据来从IMS连接导出更大的值。然后，使用该对话数据(即，所提取的文本)，通过将该数据与基于web的应用170(例如web 2.0技术)进行捣混，向IMS核心120的终端用户提供更大的值。

图4示意性地描述了流程400，其为涉及将所提取的文本转换为上下文数据(例如，在图3的步骤320、330等中)的不同形式。在步骤410，与基于web的应用170相结合，媒体服务器600可以将文本转换为字幕。在步骤420，与基于web的应用170相结合，媒体服务器600可以将文本转换为翻译，例如，翻译成不同的语言。在步骤430，与基于web的应用170相结合，媒体服务器600可以将字幕和翻译转换为话音。在步骤440，可以将文本发送至广告应用服务器160，广告应用服务器160将文本转换为对用户有意义的广告，即，上下文文本。在步骤450，可以将文本发送至基于位置的应用服务器150，以向用户输出例如基于位置的信息。此外，在步骤460，将步骤410-450的输出发送至用户。步骤410-450可以分别或者相结合地执行，作为向用户的输出。

图4a示意性地示出了媒体服务器600的实施例。媒体服务器600具有：

-捕获单元，执行步骤310；

-转换单元630，执行步骤320；

-创建单元640，执行步骤330；

-输入单元660和输出单元670。

此外，如图4b所示，创建单元640具有：

-字幕单元641，执行步骤410；

-翻译单元642，执行步骤420；

-话音单元643，执行步骤430；

-广告单元644，执行步骤440；

-基于位置的单元641，执行步骤450。

图4c示意性地描述了本发明的另一实施例。图4c示出了媒体服务器600与基于web的应用170之间的用于创建基于语音的互联网服务的功能关系。此外，基于位置的应用服务器150和广告应用服务器160可以连接至基于web的应用170或媒体服务器600。后续在图5中描述这种基于语音的互联网服务的过程。应当认识到，其他设备(如基于web的应用170)可以包括图4a和4b所示的媒体服务器600的一些类似组件。基于web的应用170可以包括搜索单元172和存储单元173。

为了使本发明用于创建基于语音的互联网平台，可以经由在“基于语音的互联网服务”中链接的IMS核心120来建立呼叫。该服务可以提供以下功能：

-使用即基于web的应用170来存储正在进行的语音会话的内容作为语音文献的一部分的能力。这可以使得能够创建完全由语音构造的网页。

-搜索语音、视频或其他多媒体文献的内容并返回终端用户可能感兴趣的web链接页的集合的能力。

-将语音内容转换为文本并存储它作为互联网的传统的基于文本的文献/web查看格式的一部分的能力。

-用于将文本文献转换为话音以向无法例如阅读网页的终端用户重放的机制。

该服务可以用作多种不同类型的应用的基础，例如以下应用：

-存储与机构(如银行)的语音通信，这可以形成不识字的终端用户可将标签存储于其上并置于其上的流通票据(formal contract)的基础，因此，他们可以在随后某日在其中仔细搜索以找到在该时间点处相关的票据的特定部分。

-终端用户可以提交基于语音的“网页”，以存储在多媒体文献中，以便其他人能够使用。例如。某些人记录与“在受干旱影响的区域中使用的给水灌溉”有关的语音网页，而不是将他们所讲的内容键入他们的电话或其他IMS终端中。终端用户指示他们完成记录他们的消息，然后，服务提示终端用户提交用于描述该片段的关键字。在本示例中，其可以是“干旱”、“灌溉”、“将对水的使用降至最低限度”、“将对肥料的使用降至最低限度”等等。然后，其由服务捕获并以适当的格式存储。

-可以将语音保存在公众可在“公共”互联网上访问的服务器中或保存在“私有”网络中。为了记录电话呼叫，可以在运营商的网络内部署私有存储区域。

-如果终端用户希望，则他们还可以指示他们希望将基于语音的网页转换为文本并针对可能希望阅读它的用户以基于文本的格式将它存储在互联网上，而不是收听它。

-然后，可以使用多种不同的机制来搜索语音或其他多媒体文献；XML或其他自然语言处理(NLP)机制。

-最后，使用基于语音的互联网服务，终端用户可以利用该服务来搜索基于文本的文献并将文本转换为话音。

图5非常示意性地描述了过程流500，涉及与存储、检索和转换上下文数据相关的多个其他实施例。在第一步骤510，可以将上下文数据存储在web技术应用服务器171(如互联网或基于IP的应用服务器)中。在第二步骤520，例如，可以利用搜索单元172，借助于web技术应用服务器171，在web上搜索上下文数据的所存储内容。在第三步骤530，与基于web的应用170相结合，媒体服务器600可以向UE-A 110和/或UE-B 140输出并返回从搜索上下文数据的内容而得到的网页链接的列表。在步骤540，可以将搜索结果和上下文数据存储在web上(例如，存储在web技术应用服务器171上)。在步骤550，媒体服务器600可以检索上下文数据并将上下文数据转换为翻译后的话音，随后，可以将翻译后的话音存储在例如web技术应用服务器171上以供后续查看和访问。在步骤560，可以将翻译后的话音输出至用户以供重放。在备选实施例中，对于前述步骤510和540，可以利用存储单元173。存储单元173可以利用云计算来进行存储优化。在备选实施例中，如图6所示，对于前述步骤510和540，可以利用媒体服务器存储单元614。搜索单元172可访问在媒体服务器存储单元614和存储单元173中存储的用户数据。

图6示意性地示出了媒体服务器600的实施例。在媒体服务器600中包括处理单元613(例如具有DSP(数字信号处理器))以及编码和解码模块。处理单元613可以是用于执行过程300、400和500的不同步骤的单个单元或多个单元。媒体服务器600还包括用于与IMS核心120、基于web的应用170、基于位置的应用服务器150和广告应用服务器160进行通信的输入单元660和输出单元670。在媒体服务器600的硬件中，输入单元660和输出单元670可以被布置为一个端口或被布置在一个连接器中。

此外，媒体服务器600包括具有非易失性存储器的形式的至少一个计算机程序产品610(如EEPROM和闪存或盘驱动器)。计算机程序产品610包括计算机程序611，计算机程序611包括计算机可读代码装置，计算机可读代码装置在媒体服务器600上运行时使媒体服务器600执行前述过程300、400和500的步骤。

因此，在前述示例行实施例中，媒体服务器600的计算机程序611中的计算机可读代码装置包括：用于捕获IMS语音会话的话音的捕获模块611a；用于将话音转换为文本的转换模块611b；以及用于使用文本来添加来自基于web的应用170的服务的创建模块611c；这些模块具有在计算机程序模块中构造的计算机程序代码的形式。模块611a-c实质上执行流程300的步骤以模拟图4a中描述的设备。换言之，当不同模块611a-c在处理单元613上运行时，它们与图4a的相应单元620、630、640相对应。

此外，创建模块611c可以包括：用于将文本转换为字幕的基于位置的模块611c-1；用于将文本转换为翻译(例如翻译成不同语言)的翻译模块611c-2；用于将字幕和翻译转换为话音的话音模块611c-3；用于将文本转换为对用户有意义的广告的广告模块611c-4；以及用于向用户输出基于位置的信息的基于位置的模块611c-5；这些模块具有在计算机程序模块中构造的计算机程序代码的形式。模块611c-1至611c-5实质上执行流程400的步骤以模拟图4b中描述的设备。换言之，当不同模块611c-1至611c-5在处理单元613上运行时，它们与图4b的相应单元641-645相对应。

以上结合图6公开的实施例中的计算机可读代码装置被实现为在媒体服务器600上运行时使媒体服务器600执行例如结合上述附图描述的步骤的计算机程序模块。计算机可读代码装置的对应功能中的至少一个可以被至少部分地实现为前述备选实施例中的硬件电路。计算机可读代码装置可以被实现在媒体服务器数据库610内。

当然，本发明不限于上面描述的并且在附图中示出的实施例。

Claims

1.一种媒体服务器中的方法，用于将与用户设备A(UE-A)和用户设备B(UE-B)之间的基于IP的语音(VoIP)的语音通信会话相关的话音同基于web的应用进行组合，所述方法还包括所述媒体服务器执行以下步骤：

-捕获与VoIP语音通信会话相关的话音；

-将所述话音转换为文本；

2.根据权利要求1所述的方法，其中，所述上下文数据是字幕，所述方法还包括将所述字幕发送至UE-B的步骤。

3.根据权利要求1所述的方法，其中，所述上下文数据是翻译，所述方法还包括将所述翻译发送至UE-B的步骤。

4.根据权利要求3所述的方法，还包括以下步骤：

-将所述翻译转换为翻译后的话音；

-将翻译后的话音发送至UE-B。

5.根据权利要求1所述的方法，其中，创建上下文数据的步骤包括以下子步骤：

-将所述文本发送至广告应用服务器；

-接收具有广告的形式的上下文文本；

-将广告发送至UE-B和/或UE-A。

6.根据权利要求1至5中任一项所述的方法，其中，UE-A是机顶盒。

7.根据权利要求1至6中任一项所述的方法，包括将所述上下文数据实时提供给UE-A和/或UE-B的步骤。

8.根据权利要求2所述的方法，包括与IMS语音会话并行地提供所述字幕的实时输出的步骤。

9.根据权利要求3所述的方法，包括与IMS语音会话并行地提供所述翻译的实时输出的步骤。

10.根据权利要求4所述的方法，包括将翻译后的话音的实时输出提供给UE-B的步骤。

11.根据权利要求1所述的方法，其中，创建上下文数据的步骤还包括以下子步骤：

-将所述文本发送至基于位置的服务的应用服务器；

-接收具有位置信息的形式的上下文文本；

-将位置信息发送至UE-B和/或UE-A。

12.根据权利要求1至6中任一项所述的方法，还包括将上下文数据存储在web技术应用服务器中的步骤。

13.根据权利要求12所述的方法，包括以下步骤：

-向搜索单元请求对上下文数据的内容的搜索；

-接收来自所述搜索的网页链接的列表；以及

-向UE-A和/或UE-B输出并返回来自所述搜索的网页链接的列表。

14.根据权利要求12或13所述的方法，包括将上下文数据和/或网页链接存储为基于互联网的文本的文献/web查看格式的步骤，存储的步骤能够在web技术应用服务器和/或存储单元173和/或媒体服务器存储单元614中进行。

15.根据权利要求12至14所述的方法，还包括以下步骤：

-从web技术应用服务器中检索上下文数据；以及

-将上下文数据转换为翻译后的话音，以供UE-A和/或UE-B重放。

16.一种媒体服务器，用于将与用户设备A(UE-A)和用户设备B(UE-B)之间的基于IP的语音(VoIP)的语音通信会话相关的话音同基于web的应用进行组合，所述媒体服务器包括：

-用于捕获VoIP语音通信会话的话音的捕获单元；

-用于将所述话音转换为文本的转换单元；

-用于通过使用所述文本，添加来自基于web的应用的服务，来创建上下文数据的创建单元。

17.根据权利要求16所述的媒体服务器，其中，所述媒体服务器包括：

-用于将所述文本转换为字幕的字幕单元；以及

-用于将所述字幕发送至UE-B的输出单元。

18.根据权利要求16所述的媒体服务器，其中，所述媒体服务器包括：

-用于将所述文本转换为翻译的翻译单元；以及

-用于将所述翻译发送至UE-B的输出单元。

19.根据权利要求18所述的媒体服务器，其中，所述媒体服务器包括：

-用于将所述翻译转换为翻译后的话音的话音单元；以及

-用于将所述翻译发送至UE-B的输出单元。

20.根据权利要求16所述的媒体服务器，其中，所述媒体服务器包括：

-用于将所述文本发送至广告应用服务器的广告单元；

-用于接收具有广告的形式的上下文文本的输入单元；以及

-用于将广告发送至UE-B和/或UE-A的输出单元。

21.根据权利要求16至20所述的媒体服务器，其中，UE-A是机顶盒。

22.根据权利要求16至21所述的媒体服务器，其中，所述媒体服务器将所述上下文数据实时提供给UE-A和/或UE-B。

23.根据权利要求17所述的媒体服务器，其中，所述媒体服务器与IMS语音会话并行地提供所述字幕的实时输出。

24.根据权利要求18所述的媒体服务器，其中，所述媒体服务器与IMS语音会话并行地提供所述翻译的实时输出。

25.根据权利要求19所述的媒体服务器，其中，所述媒体服务器将翻译后的话音的实时输出提供给UE-B。

26.根据权利要求16所述的媒体服务器，其中，所述媒体服务器包括：

-用于将位置信息发送至UE-B和/或UE-A的输出单元。

27.根据权利要求16至21所述的媒体服务器，其中，所述媒体服务器包括：用于发送上下文数据以存储在web技术应用服务器和/或存储单元173和/或媒体服务器存储单元614上的输出单元。

28.根据权利要求27所述的媒体服务器，其中，所述媒体服务器包括：

-用于接收来自所述搜索的网页链接的列表的输入单元；以及

29.根据权利要求27或28所述的媒体服务器，其中，所述媒体服务器包括：用于发送上下文数据和/或网页链接的列表以作为基于互联网的文献/web查看格式而存储在web技术应用服务器上的输出单元。

30.根据权利要求27至29所述的媒体服务器，其中，所述媒体服务器包括：

31.一种包括计算机可读代码装置的计算机程序，所述计算机可读代码装置在媒体服务器上运行时使所述媒体服务器执行以下步骤：

-捕获与基于IP的语音(VoIP)的语音通信会话相关的话音；

-将所述话音翻译为文本；

32.根据权利要求31所述的计算机程序，包括在媒体服务器上运行时使所述媒体服务器执行将所述文本转换为字幕的步骤的计算机可读代码装置。

33.根据权利要求31所述的计算机程序，包括在媒体服务器上运行时使所述媒体服务器执行将所述文本转换为翻译的步骤的计算机可读代码装置。

34.根据权利要求32和33所述的计算机程序，包括在媒体服务器上运行时使所述媒体服务器执行将所述字幕和所述翻译转换为话音的步骤的计算机可读代码装置。

35.根据权利要求31所述的计算机程序，包括在媒体服务器上运行时使所述媒体服务器执行将所述文本转换为针对用户设备A(UE-A)和/或用户设备B(UE-B)的广告的步骤的计算机可读代码装置。

36.根据权利要求31所述的计算机程序，包括在媒体服务器上运行时使所述媒体服务器执行向用户设备A(UE-A)和/或用户设备B(UE-B)输出基于位置的信息的步骤的计算机可读代码装置。

37.一种用于媒体服务器的计算机程序产品，所述媒体服务器与基于IP的语音(VoIP)的语音通信会话相连接，所述计算机程序产品包括根据权利要求31至36中任一项所述的计算机程序以及存储器，其中，所述计算机程序存储在所述存储器中。