ES2472715T3

ES2472715T3 - Barrido de audio en una conferencia con múltiples participantes

Info

Publication number: ES2472715T3
Application number: ES11192109.4T
Authority: ES
Inventors: Hyeonkuk Jeong; Ryan Salsbury
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2005-04-28
Filing date: 2006-04-27
Publication date: 2014-07-02
Anticipated expiration: 2026-04-27
Also published as: EP1877148A4; WO2006116644A2; US8456508B2; EP1877148A2; ES2445923T3; US20110074914A1; EP2457625A1; EP2479986B1; EP1877148B1; ES2388179T3; US20060247045A1; US7864209B2; WO2006116644A3; EP2439945A1; EP2439945B1; EP2479986A1

Abstract

Un medio legible por ordenador de un primer dispositivo de participante en una conferencia con múltiples participantes, almacenando el medio legible por ordenador un programa de ordenador que cuando es ejecutado por al menos una unidad de procesamiento del primer dispositivo participante crea un efecto de barrido estéreo, comprendiendo el programa de ordenador instrucciones para: mostrar representaciones de cada uno de al menos dos participantes diferentes en lugares distintos en un área de visualización; caracterizado porque el programa de ordenador comprende además instrucciones para: recibir una única señal de audio (220), en donde la única señal de audio (220) comprende audio mixto que comprende audio capturado a partir de dos o más de los al menos dos participantes, comprendiendo la única señal de audio recibida (220) datos indicativos de una intensidad de señal para cada uno de los diferentes participantes; y barrer la única señal de audio recibida (220) a lo largo de altavoces de audio utilizando el conjunto de los datos de intensidad de señal con el fin de crear un efecto que una ubicación percibida de una señal de audio de un participante en particular coincide con la ubicación del participante en particular en el área de visualización.

Description

Barrido de audio en una conferencia con múltiples participantes

CAMPO DE LA INVENCIÓN

La presente invención se refiere al procesado de audio en una conferencia con múltiples participantes.

ANTECEDENTES DE LA INVENCIÓN

Con la proliferaci�n de los ordenadores de propósito general, ha habido un aumento de la demanda para la realización de conferencias a través de ordenadores personales o de negocios. En tales conferencias, es deseable identificar rápidamente a los participantes que est�n hablando en un momento dado. Tal identificación, sin embargo, se vuelve difícil a medida que se añaden más participantes, en especial para los participantes que sólo reciben datos de audio. Esto se debe a que las aplicaciones de conferencia anteriores no proporcionan ningún pista visual o auditiva para ayudar a identificar hablantes activos durante una conferencia. Por lo tanto, existe una necesidad en la técnica de aplicaciones de conferencia que ayuden a un participante a identificar rápidamente los participantes que hablan activamente en la conferencia.

El documento US5548346 se refiere a un procedimiento de comunicación de múltiples ubicaciones para un sistema de videoconferencia adaptado para localizar la imagen de sonido al área central de la ventana en la que se muestra el interlocutor participante. Al localizar la imagen e sonido, se controlan el balance, la fase, y el retardo de los sonidos reproducidos por los altavoces.

RESUMEN DE LA INVENCIÓN

Algunas realizaciones proporcionan una arquitectura para establecer conferencias de audio con múltiples participantes a través de una red de ordenadores. Esta arquitectura tiene un distribuidor central que recibe señales de audio de uno o más participantes. El distribuidor central mezcla las señales recibidas y las transmite de vuelta a los participantes. En algunas realizaciones, el distribuidor central elimina eco eliminando la señal de audio de cada participante de la señal mezclada que el distribuidor central envía al participante en particular.

En algunas realizaciones, el distribuidor central calcula un indicador de intensidad de señal para la señal de audio de cada participante y pasa los indicios calculados junto con la señal de audio mezclado a cada participante. Algunas realizaciones utilizan entonces los signos de intensidad de señal para mostrar medidores de nivel de audio que indican los niveles de volumen de los diferentes participantes. En algunas realizaciones, los medidores de nivel de audio se muestran junto a la imagen o icono de cada participante. Algunas realizaciones utilizan los indicios intensidad de la señal para activar el barrido de audio.

En algunas realizaciones, el distribuidor central produce una única señal mezclada que incluye el audio de todos los participantes. Esta corriente (junto con los indicios de intensidad de señal) se envía a todos los participantes. Durante la reproducción de este flujo, un participante silenciar� la reproducción de fondo si el participante mismo es el principal contribuyente. Este plan proporciona supresión de eco sin necesidad de flujos separados y distintos para cada participante. Este sistema requiere menos computación del distribuidor central. También, a través de multidifusi�n IP, el distribuidor central puede reducir sus necesidades de ancho de banda.

Los ordenadores del distribuidor central y de los participantes pueden tomar distintas formas. En otras palabras, estos ordenadores pueden integrarse en cualquier tipo de dispositivo, como un ordenadore de mesa independiente, ordenador portátil, y/o ordenador de mano u otro dispositivo de electrónica de consumo o de comunicación, centro multimedia, concentrador, etc.

BREVE DESCRIPCIÓN DE LOS DIBUJOS

Las características novedosas de la invención se exponen en las reivindicaciones adjuntas. Sin embargo con fines de explicación, se exponen varias realizaciones en las siguientes figuras.

La Figura 1 ilustra un ejemplo de la arquitectura de conferencia de audio/video de algunas realizaciones de la invención.

Las Figuras 2 y 3 ilustran cómo algunas realizaciones intercambian contenido de audio en una conferencia de audio/video con múltiples participantes.

La Figura 4 muestra los componentes software de la aplicación de conferencia de audio/video de algunas realizaciones de la invención.

La Figura 5 ilustra el módulo de punto focal de algunas realizaciones de la invención.

La Figura 6 es un diagrama de flujo que muestra la generación de audio mezclado por el punto focal en algunas de las realizaciones.

La Figura 7 ilustra cómo el protocolo RTP es utilizado por el módulo de punto focal en algunas realizaciones para transmitir el contenido de audio.

La Figura 8 ilustra el punto no focal de algunas realizaciones de la invención.

La Figura 9 ilustra cómo el protocolo RTP es utilizado por el módulo de punto no focal en algunas realizaciones para transmitir el contenido de audio.

La Figura 10 ilustra conceptualmente el flujo de la operación de decoficicaci�n del punto no focal no en algunas realizaciones.

La Figura 11 ilustra los medidores de nivel de audio que se muestran en algunas realizaciones de la invención.

La Figura 12 muestra una disposición ejemplar de las imágenes de los participantes sobre una de los pantallas de los participantes.

La Figura 13 es un diagrama de flujo que ilustra el proceso mediante el cual algunas realizaciones de la invención realizan el barrido de audio.

DESCRIPCI�N DETALLADA DE LA INVENCIÓN

En la siguiente descripción, se exponen numerosos detalles con fines de explicación. Sin embargo, un experto en la técnica se dar� cuenta de que la invención puede ser llevada a cabo sin el uso de estos detalles específicos. En otros casos, se muestran estructuras y dispositivos bien conocidos en forma de diagrama de bloques para no oscurecer la descripción de la invención con detalles innecesarios.

Algunas realizaciones proporcionan una arquitectura para establecer conferencias de audio/video con múltiples participantes. Esta arquitectura tiene un distribuidor central que recibe las señales de audio de uno o más participantes. El distribuidor central mezcla las señales recibidas y las transmite de vuelta a los participantes. En algunas realizaciones, el distribuidor central elimina eco eliminando de señal de audio de cada participante de la señal mezclada que el distribuidor central envía al participante en particular.

En algunas realizaciones, el distribuidor central calcula un indicador de intensidad de señal para la señal de audio de cada participante y pasa los indicios calculados junto con la señal de audio mezclado a cada participante. Algunas realizaciones a continuación, utilizan los indicios de intensidad de señal para mostrar medidores de nivel de audio que indican los niveles de volumen de los diferentes participantes. En algunas realizaciones, los medidores de nivel de audio se muestran junto a la imagen o icono de cada participante. Algunas realizaciones utilizan los indicios intensidad de señal para activar el barrido de audio.

Varias realizaciones detalladas de la invención se describen a continuación. En estas realizaciones, el distribuidor central es el ordenador de uno de los participantes en la conferencia de audio/video. Un experto se dar� cuenta de que otras realizaciones se implementan de forma diferente. Por ejemplo, en algunas realizaciones el distribuidor central no es el ordenador de ninguno de los participantes en la conferencia.

I. VISIÓN GENERAL

La Figura 1 ilustra un ejemplo de arquitectura de conferencia 100 de algunas realizaciones de la invención. Esta arquitectura permite que varios participantes participen en una conferencia a través de varios ordenadores que est�n conectados mediante una red de ordenadores. En el ejemplo ilustrado en Figura 1, cuatro participantes A, B, C y D se participan en la conferencia a través de sus cuatro ordenadores y una red 105-120 (no mostrada) que conecta estos ordenadores. La red que conecta a estos ordenador s pueden ser cualquier red, como una red de área local, una red de área extensa, una red de redes (por ejemplo, Internet), etc.

La conferencia puede ser una conferencia de audio/video, o una conferencia solamente de audio, o una conferencia de audio/video para algunos de los participantes y una conferencia sólo de audio para los demás participantes. Durante la conferencia, el ordenador 105 de uno de los participantes (participante D en este ejemplo) sirve como distribuidor central de contenido de audio y/o vídeo (es decir, contenido de audio/video), como se muestra en Figura

1. Este distribuidor central 125 se denomina más adelante punto focal de la conferencia de múltiples participantes. Los ordenadores de los demás participantes se denominan a continuación máquinas no focales u ordenadores no focales.

Adem�s, la discusión a continuación se centra en las operaciones de audio de los ordenadores focales y no focales. El funcionamiento de vídeo de estos ordenadores se describe más detalladamente en la solicitud de patente estadounidense 11/118,553 titulada "Video Processing in a Multi-Participant Video Conference", presentada con el número expediente de abogado APLE.P0091. Además, en la solicitud de patente estadounidense 11/118,931 titulada " Multi-Participant Video Conference Setup", presentada con el número expediente de abogado APLE.P0084, describe cómo establecen algunas realizaciones una conferencia con múltiples participantes a través de una arquitectura de punto focal, como la que se ilustra en la Figura 1. Ambas solicitudes se incorporan aquí por referencia.

Como distribuidor central de contenidos de audio/video, el punto focal 125 recibe las señales de audio de cada participante, mezcla y codifica estas señales, y luego transmite la señal mezclada a cada una de los ordenadores no focales. La Figura 2 muestra un ejemplo de dicho intercambio de señales de audio para el ejemplo con cuatro participantes de Figura 1. Específicamente, la Figura 2 ilustra al punto focal 125 recibiendo las señales de audio comprimidas 205-215 de otros participantes. A partir de las señales de audio recibidas 205-215, el punto focal 125 genera una señal de audio mezclado 220 que incluye cada una de las señales recibidas de audio y la señal de audio del participante utilizando el ordenador de punto focal. El punto focal 125 comprime y transmite la señal de audio mezclado 220 a cada máquina no focal 110, 115, y 120.

En el ejemplo ilustrado en la Figura 2, la señal de audio mezclado 220 que se transmite a cada participante no focal en particular incluye también la señal de audio del participante no focal particular. En algunas realizaciones, sin embargo, el punto focal elimina una señal de audio de participante no focal particular de la señal de audio mezclado que el punto focal transmite al particular no focal particular. En estas realizaciones, el punto focal 125 elimina la señal de audio propia de cada participante de su señal de audio mezclado correspondiente con el fin de eliminar el eco cuando el audio mezclado se reproduce en altavoces del ordenador del participante.

La Figura 3 ilustra un ejemplo de esta eliminación para el ejemplo ilustrado en la Figura 2. Específicamente, la Figura 3 ilustra (1) para un participante, una señal de audio mezclado 305 que no tiene A la señal de audio 205 propia del participante A, (2) para el participante B, una señal de audio mezclado 310 que no tiene la señal de audio propia del participante B 210, y (3) para el participante C, una señal de audio mezclado 315 que no tiene la señal de audio propia del participante C 215.

Como se muestra en Figura 3, el punto focal 125 en algunas realizaciones calcula indicios de intensidad de señal para las señales de audio de los participantes, y adjunta los indicios de intensidad de señal mezclada a las señales que envía a cada participante. Los ordenadores no focales a continuación, utilizanr los indicios de intensidad de señal adjuntos para mostrar medidores de nivel de audio que indican los niveles de volumen de los diferentes participantes. En algunas realizaciones, los medidores de nivel de audio se muestran junto a la imagen o icono de cada participante.

Algunas realizaciones también utilizan los indicios de intensidad de señal transmitida para barrer el audio a lo largo de los altavoces del ordenador de un participante, con el fin de ayudar a identificar oradores durante la conferencia. Este barrido crea un efecto tal que el audio asociado con un participante en particular se percibe como originario de una dirección que refleja la posición en la pantalla de la imagen o icono de ese participante. El efecto de barrido se crea mediante la introducción de pequeños retrasos de los canales izquierdo o derecho. El efecto posicional se basa en la percepción cerebral de pequeños retrasos y diferencias de fase. Los medidores de nivel de audio y el barrido de audio se describen a continuación más detalladamente.

Algunas realizaciones son implementadas por una aplicación de conferencia de audio/video que puede llevar a cabo tanto operaciones focales como no focales. La Figura 4 ilustra una arquitectura de software para una aplicación como esta. En concreto, esta Figura muestra una aplicación de conferencia de audio/video 405 que consta de dos módulos, un módulo de punto focal 410 y un módulo de punto no focal 415. Estos dos módulos 410 y 415, y la aplicación de conferencia de audio/video 405, se ejecutan sobre un sistema operativo del ordenador 420 de un participante en la conferencia.

Durante una conferencia con múltiples participantes, la aplicación de conferencia de audio/video 405 utiliza el módulo de punto focal 410, cuando esta aplicación est� sirviendo como punto focal de la conferencia, o utiliza el módulo de punto no focal 415 cuando no est� actuando como punto focal. El módulo de punto focal 410 lleva a cabo operaciones de procesado de audio de punto focal cuando la aplicación de conferencia de audio/video 405 es el punto focal de una conferencia de audio/video con múltiples participantes. Por otro lado, el módulo de punto focal 415 lleva a cabo las operaciones de procesado de audio de punto no focal cuando la aplicación 405 no es el punto focal de la conferencia. En algunas realizaciones, los módulos de punto focal y no focal 410 y 415 comparten determinados recursos.

El módulo de punto focal 410 se describe en la Sección II de este documento, mientras que el módulo de punto no focal 415 se describe en la Sección III.

II. EL MÓDULO DE PUNTO FOCAL

La Figura 5 ilustra el módulo de punto focal 410 de algunas realizaciones de la invención. El módulo de punto focal 410 se muestra durante una conferencia de audio/video con múltiples participantes. Con el fin de generalizar las operaciones de punto focal, el ejemplo de Figura 5 se ilustra teniendo un número arbitrario de participantes. Este número arbitrario se denota como "n", que representa un número mayor que 2. El módulo de punto focal genera 410 5 señales de audio mezclados para transmitir a los participantes no focales y lleva a cabo la presentación de audio para el participante de la conferencia que est� utilizando el ordenador de punto focal durante la videoconferencia. Para su funcionamiento de mezcla de audio, el módulo de punto focal 410 utiliza (1) un decodificador 525 y una memoria temporal intermedia 530 para cada señal de audio entrante, (2) una memoria temporal intermedia 532 para la señal de audio de punto focal, (3) un módulo de captura de audio 515, (3) una calculadora de intensidad de señal

10 de audio 580, y (4) un mezclador de audio 535 para cada señal de audio mezclado transmitida, y un codificador 550 para cada señal de audio mezclado transmitida. Para su funcionamiento de presentación de audio el ordenador de punto focal, el módulo de punto focal 410 también utiliza un mezclador de audio 545, un control de barrido de audio 560 y un control de medidor de nivel 570.

El funcionamiento de mezcla de audio del módulo de punto focal 410 se describir� ahora con referencia al proceso

15 de mezcla 600 que ilustra conceptualmente el flujo de funcionamiento en la Figura 6. El funcionamiento de la presentación de audio del módulo de punto focal se describe a continuación en la Sección III, junto con la presentación de audio del módulo de punto no focal.

Durante el proceso de mezcla de audio 600, dos o más decodificadores 525 reciben (en 605) dos o más señales de audio digitales 510 que contienen muestras de audio de dos o más módulos de puntos no focales. En algunas

20 realizaciones, las señales de audio recibidas est�n codificadas por los mismos o diferentes codecs de audio en los ordenadores no focales. Ejemplos de estos c�decs incluyen Qualcomm PureVoice, GSM, G.711 y codecs de audio ILBC.

El decodificador 525 decodifica y almacena (en 605) las señales de audio decodificadas en dos o más memorias temporales intermedias 530. En algunas realizaciones, el decodificador 525 para el flujo de audio de cada ordenador

25 que no sea el focal, utiliza un algoritmo de decodificación que es adecuado para el c�dec de audio utilizado por el ordenador no focal. Este decodificador se especifica durante el proceso que establece la conferencia de audio/video.

El módulo de punto focal 410 también captura audio del participante que est� utilizando el ordenador de punto focal, a través del micrófono 520 y el módulo de captura de audio 515. En consecuencia, después de 605, el módulo de

30 punto focal (en 610) capta una señal de audio del participante de punto focal y almacena esta señal de audio capturada en su memoria temporal intermedia correspondiente 532.

A continuación, en 615, el calculador de intensidad de señal de audio 580 calcula indicios de intensidad de señal correspondientes a la intensidad de cada señal recibida. El calculador de intensidad de señal de audio 580 asigna un peso a cada señal. En algunas realizaciones, el calculador de intensidad de señal de audio 580 calcula indicios de

35 intensidad de señal como la potencia en valor cuadrático medio (RMS) del flujo de audio proveniente del participante al punto focal. La intensidad RMS se calcula a partir de la siguiente fórmula:

donde N es el número de muestras utilizadas para calcular la intensidad RMS y Muestrai es la amplitud de i-�sima muestra. El número de muestras, N, que el calculador de intensidad de señal de audio 580 utiliza para calcular el

40 valor RMS depende de la tasa de muestreo de la señal. Por ejemplo, en algunas realizaciones de la invención donde la tasa de muestreo es de 8 KHz, la intensidad RMS puede ser calculada utilizando un trozo de 20 ms de datos de audio que contiene 160 muestras. Otras tasas de muestreo pueden requerir un número diferente de muestras.

A continuación, en 620, el proceso 600 utiliza los mezcladores de audio 535 y 545 para mezclar las señales de audio alacenadas temporalmente. Cada mezclador de audio 535 y 545 genera señales de audio mezclado de uno de los 45 participantes. La señal de audio mezclado para cada participante en particular incluye las señales de audio de todos los participantes, excepto la señal de audio del participante en particular. La eliminación de la señal de audio de un participante en particular de la mezcla que el participante en particular recibe elimina el eco cuando el sonido mezclado se reproduce en los altavoces del ordenador del participante. Los mezcladores 535 y 545 mezclan las

se�ales de audio generando (en 620) una suma ponderada de estas señales. Para obtener un valor de muestra de audio en un instante de muestreo en particular, se añaden todas las muestras en un momento de muestreo en particular en base a los valores de ponderaci�n calculados por el calculador de intensidad de señal de audio 580. En algunas realizaciones, los valores de ponderaci�n se determinan din�micamente en base a indicios de intensidad de señal calculados en 615 para alcanzar ciertos objetivos. Ejemplos de tales objetivos incluyen (1) la eliminación de las señales más débiles, que son típicamente atribuibles al ruido, y (2) la prevención de que una señal de audio de un participante abrume las señales de otros participantes, lo que acontece a menudo cuando uno de los participantes siempre habla más fuerte que otro o tiene mejor equipo de audio que el otro.

En algunas realizaciones, los mezcladores 535 y 545 adjuntan (en 625) los indicios de intensidad de señal de todas las señales de audio que se sumaron para generar la señal mezclada. Por ejemplo, la Figura 7 ilustra un paquete RTP (Protocolo de Transporte de Tiempo Real) 700 que algunas realizaciones utilizan para enviar una señal de audio mezclado 705 a un participante en particular. Como se muestra en esta Figura, los indicios de intensidad de señal 710-720 se adjuntan al final del paquete RTP 705.

A continuación, para el audio de los ordenadores no focales, los codificadores (550 a 630) codifican las señales de audio mezclado y las envian (en 635) a sus correspondientes módulos no focales. La señal de audio mezclado para el ordenador de punto focal se envía (en 635) sin codificar al control de barrido de audio 560. Además, en 635, los indicios de intensidad de señal se envían al medidor de nivel 570 del módulo de punto focal, el cual genera entonces los indicadores de nivel de volumen adecuados para su visualización en el dispositivo de visualización 575 del ordenador de punto focal.

Despu�s de 635, el procesos de mezcla de audio 600 determina (en 640) si el participante de conferencia de audio/video con múltiples participantes ha finalizado. Si es as�, el proceso 600 finaliza. De lo contrario, el proceso vuelve a 605 para recibir y decodificar señales de audio entrantes.

Un experto medio se dar� cuenta de que otras realizaciones podrían implementar el módulo de punto focal 410 de forma diferente. Por ejemplo, en algunas realizaciones, el punto focal 410 produce una única señal mezclada que incluye audio de cada participante. Este flujo junto con los indicios de intensidad de señal se envía a todos los participantes. Durante la reproducción de este flujo, un participante silenciar� la reproducción si el participante mismo es el principal contribuyente. Este sistema ahorra tiempo de computación en el punto focal y proporciona supresión de eco sin necesidad de flujos separados y distintos para cada participante. También, durante multidifusi�n IP, se puede reducir el ancho de banda del flujo de punto focal. En estas realizaciones, el punto focal 410 tiene un mezclador de audio 535 y un codificador 550.

III. EL MÓDULO DE PUNTO NO FOCAL

La Figura 8 ilustra un módulo de punto no focal 415 de una conferencia de audio/video de algunas realizaciones de la invención. En este ejemplo, el módulo de punto no focal 415 utiliza un decodificador 805, dos memorias temporales 810 y 880, un control de medidor de nivel 820, un control de barrido de audio 845, un módulo de captura de audio 875 y un codificador 870.

El módulo de punto focal no lleva a cabo operaciones de codificación y decodificación. Durante la operación de codificación, la señal de audio del micrófono del participante punto no foco de 860 es capturado por el módulo de captura de audio 875 y se almacena en su 880 correspondiente tampón intermedia. El codificador 870 codifica entonces el contenido del buffer intermedio 880 y lo envía al módulo de punto focal 410.

En algunas realizaciones que utilizan Protocolo de Transporte en Tiempo Real (RTP) para intercambiar señales de audio, la señal codificada de audio del participante no focal se envía al módulo de punto focal en un paquete 900 que incluye cabeceras RTP 910 junto con audio codificado 920, como se muestra en Figura 9.

El funcionamiento de decodificación del módulo de punto no focal 415 se describir� ahora con referencia al proceso 1000 que ilustra conceptualmente el flujo de operación en la Figura 10. Durante la operación de decodificación, el decodificador 805 recibe (en 1005) paquetes de audio del módulo de punto focal 410. El decodificador 805 decodifica (en 1010) cada paquete de audio recibido para obtener datos de audio mezclado e indicios de intensidad de señal asociados con los datos de audio. El decodificador 805 guarda (en 1010) los resultados en la memoria temporal 810.

Los indicios de intensidad de señal se envían al control de medidor de nivel 820 para mostrar (en 1015) los medidores de nivel de audio en la pantalla del participante no focal 830. En una conferencia de audio/video con múltiples participantes, es deseable identificar altavoces activos. Una característica novedosa de la presente invención es la de representar las intensidades de audio mediante la visualización del nivel de audio correspondiente a la intensidad de voz de cada orador. Los medidores de nivel que aparecen en la pantalla de cada participante expresan el nivel de volumen de los diferentes participantes, mientras que la señal de audio mezclado se est� escuchando por los altavoces 855. El nivel de volumen de cada participante puede representarse mediante un medidor de nivel separado, con lo cual se permite al espectador conocer los altavoces activos y el nivel de audio de cada participante en cualquier momento.

Los medidores de nivel son particularmente útiles cuando algunos de los participantes sólo reciben señales de audio durante la conferencia (es decir, algunos de los participantes son " participantes solo de audio"). Estos participantes no tienen las imágenes de vídeo para ayudar a proporcionar una indicación visual de los participantes que est�n hablando. La Figura 11 ilustra un ejemplo del uso de medidores de nivel en una conferencia solamente de audio de algunas realizaciones. En esta figura, el nivel de audio de cada participante 1110-1115 se coloca al lado del icono de ese participante 1120-1125. Tal y como se ilustra en Figura 11, algunas realizaciones muestran el nivel de voz del micrófono local 1130 por separado en la parte inferior de la pantalla. Un experto en la técnica debería comprender que la Figura 11 es sólo un ejemplo de la forma de mostrar los medidores de nivel en la pantalla de un participante. Pueden hacerse otras disposiciones de visualización sin alejarse de las enseñanzas de esta invención para calcular y la visualizar la intensidad relativa de las señales de audio en una conferencia.

Tras 1015, la señal de audio mezclado decodificada y los indicios de intensidad de señal almacenados en la memoria temporal intermedia 810 se envían (en 1020) al control de barrido audio 845 para controlar los altavoces de los participantes no focales 855. La operación de barrido de audio se describe más adelante con referencia a las Figuras 12 y 13.

Despu�s de 1020, el proceso de decodificación de audio 1000 determina (en 1025) si la conferencia de audio/video con múltiples participantes ha terminado. Si es as�, el proceso 1000 finaliza. De lo contrario, el proceso vuelve a 1005 para recibir y decodificar señales de audio entrantes.

El uso de barrido de audio para hacer que la ubicación de audio percibida coincida con la ubicación de vídeo es otra característica novedosa de la invención actual. Con el fin de ilustrar cómo se realiza el barrido de audio, la Figura 12 ilustra un ejemplo de una presentación en pantalla 1200 de videoconferencia en el caso de cuatro participantes en una videoconferencia. Como se muestra en la Figura 12, las imágenes de los otros tres participantes 1205-1215 se muestran horizontalmente en la pantalla de presentación 1200. La imagen propia del participante local 1220 se muestra opcionalmente con un tamaño más pequeño en relación a las imágenes de los otros participantes 12051215 en la parte inferior de la presentación de pantalla 1200.

Algunas realizaciones logran barrido de audio mediante una combinación de retardo de la señal y ajuste de la amplitud de la señal. Por ejemplo, cuando habla el participante cuya imagen 1205 se coloca en el lado izquierdo de la pantalla, el sonido procedente del altavoz derecho se cambia mediante una combinación de introducir un retardo y ajustar la amplitud para dar la sensación de que la voz viene desde el altavoz izquierdo.

La Figura 13 ilustra un proceso 1300 mediante el que funciona el control de barrido de audio del módulo no focal 845 en algunas realizaciones de la invención. Los indicios de intensidad de señal de cada señal de audio en la señal de audio mezclado se utiliza (en 1310) para identificar al participante que más contribuye a la señal de audio mezclado decodificada. A continuación, el proceso identifica (en 1315) la ubicación del participante o participantes identificados en 1310. El proceso utiliza entonces (en 1320-1330) una combinación de ajuste de amplitud y retardo de la señal para crear el efecto estéreo. Por ejemplo, si est� hablando el participante cuya imagen 1205 se muestra en el lado izquierdo del dispositivo de visualización de 1200, se introduce un retraso (en 1325) en el altavoz derecho y la amplitud del altavoz derecho se reduce opcionalmente para hacer que la señal desde el altavoz izquierdo parezca ser más fuerte.

De manera similar, si est� hablando el participante cuya imagen 1215 se muestra en el lado derecho del dispositivo de visualización de 1200, se introduce un retraso (en 1330) en el altavoz izquierdo y la amplitud del altavoz izquierdo se reduce opcionalmente para hacer que la señal del altavoz derecho parezca ser más fuerte. En contraste, si est� hablando el participante cuya imagen 1210 se muestra en el centro del dispositivo de visualización de 1200, no se hacen ajustes a las señales enviadas a los altavoces.

El barrido de audio ayuda a identificar la ubicación de los participantes que est�n hablando en la pantalla y produce efectos estéreo para una ubicación. En algunas realizaciones de la invención, se introduce un retardo de aproximadamente 1 milisegundo (1/1000 segundo) y la amplitud se reduce en un 5 a 10 por ciento durante el funcionamiento del barrido de audio. Un experto en la técnica, sin embargo, se dar� cuenta de que podrían utilizarse otras combinaciones de ajustes de amplitud y retrasos para crear un efecto similar.

En algunas realizaciones, algunas acciones de los participantes, tales como unirse a la conferencia, abandonar la conferencia, etc, pueden activar efectos de sonido de la interfaz en los ordenadores de otros participantes. Estos efectos de sonido también pueden ser barridos para indicar qué participante realiza la acción asociada.

En las realizaciones en las que el punto focal es también un participante en la conferencia (tales como la realización ilustrada en Figura 1), el módulo de punto focal también utiliza los procedimientos anteriormente descritos para presentar el audio al participante cuyo ordenador sirve como punto focal de la conferencia.

Aunque la invención ha sido descrita con referencia a numerosos detalles específicos, un experto en la técnica reconocer� que la invención puede realizarse de otras formas específicas. En otros lugares, pueden hacerse diversos cambios, y pueden sustituirse equivalentes por elementos descritos sin alejarse del verdadero alcance de la presente invención. As�, un experto en la técnica comprender� que la invención no est� limitada por los detalles ilustrativos anteriores, sino que debe estar definida por las reivindicaciones adjuntas.

Claims

REIVINDICACIONES

1. Un medio legible por ordenador de un primer dispositivo de participante en una conferencia con múltiples participantes, almacenando el medio legible por ordenador un programa de ordenador que cuando es ejecutado por al menos una unidad de procesamiento del primer dispositivo participante crea un efecto de barrido estéreo, comprendiendo el programa de ordenador instrucciones para:

mostrar representaciones de cada uno de al menos dos participantes diferentes en lugares distintos en un área de visualización;

caracterizado porque

el programa de ordenador comprende además instrucciones para:

recibir una única señal de audio (220), en donde la única señal de audio (220) comprende audio mixto que comprende audio capturado a partir de dos o más de los al menos dos participantes, comprendiendo la única señal de audio recibida (220) datos indicativos de una intensidad de señal para cada uno de los diferentes participantes; y

barrer la única señal de audio recibida (220) a lo largo de altavoces de audio utilizando el conjunto de los datos de intensidad de señal con el fin de crear un efecto que una ubicación percibida de una señal de audio de un participante en particular coincide con la ubicación del participante en particular en el área de visualización.
2. El medio legible por ordenador según la reivindicación 1, en el que el conjunto de instrucciones a barrer comprende conjuntos de instrucciones para:

identificar la ubicación de la representación de la participante en particular visualizado en dicha área de visualización, y

crear un retraso en al menos uno de los altavoces de audio para tener en cuenta la ubicación identificada de la representación del participante en particular.
3.

El medio legible por ordenador según la reivindicación 1, en el que el único audio recibido est� en el protocolo de transferencia en tiempo real (RTP) que comprenden los paquetes de los datos de intensidad de señal.
4.

El medio legible por ordenador según la reivindicación 1, en el que al menos una de las representaciones que aparecen en dicha área de visualización es al menos una de un icono, una imagen y un vídeo.
5.

El medio legible por ordenador según la reivindicación 1, en el que la única señal de audio comprende una primera señal de audio capturada por un segundo dispositivo de la conferencia y una segunda señal de audio capturada por un tercer dispositivo de la conferencia.
6.

El medio legible por ordenador según la reivindicación 5, en el que la única señal de audio es generada por el segundo dispositivo de la conferencia.
7.

El medio legible por ordenador según la reivindicación 6, en el que los datos de intensidad de señal para una señal de audio en particular son calculados por el segundo dispositivo como una potencia de raíz cuadrada media (RMS) de la señal de audio en particular.
8.

El medio legible por ordenador según la reivindicación 1, en el que las representaciones comprenden imágenes de vídeo capturadas por otros dispositivos participantes de la conferencia de vídeo.
9.

El medio legible por ordenador según la reivindicación 8, en el que las representaciones comprenden imágenes de vídeo capturadas en el primer dispositivo participante.
10.

Un procedimiento para proporcionar una aplicación de los medios de comunicación de conferencia para un primer dispositivo participante en una conferencia con múltiples participantes, comprendiendo el procedimiento:

mostrar, en lugares distintos en un área de visualización de una interfaz gráfica de usuario (GUI), imágenes de vídeo de cada uno de una pluralidad de dispositivos de participantes de la conferencia de múltiples participantes;

caracterizado por recibir una única señal de audio (220), en el que la única señal de audio (220) comprende audio mixto que comprende audio capturado a partir de dos o más de los al menos dos participantes, comprendiendo la única señal de audio recibida (220) datos indicativos de la intensidad de la señal de un componente de señal de audio de cada una de la pluralidad de dispositivos participantes; y

especificar al menos un parámetro de reproducción para reproducir la única señal de audio (220) en base al menos en parte en la intensidad de señal del componente de señal de audio desde un dispositivo participante en particular para determinar que la señal de audio componente respectiva se origin� desde el participante en particular para crear un efecto de barrido en que una ubicación percibida del componente de señal de audio respectivo del dispositivo participante en particular coincide con la ubicación concreta de la imagen de vídeo del dispositivo participante en particular en el área de visualización.
11.

El procedimiento según la reivindicación 10, en el que el primer dispositivo participante tiene un conjunto de altavoces estéreo y el efecto de barrido hace que el dispositivo reproduzca una señal de audio particular de un dispositivo participante en particular, de manera tal que la señal de audio particular sea percibida como procedente de un altavoz que est� más cerca de la ubicación distintiva de la imagen de vídeo desde el dispositivo participante en particular que un altavoz que est� más lejos de la ubicación distintiva.
12.

El procedimiento según la reivindicación 10, en el que el primer dispositivo participante tiene un conjunto de altavoces estéreo con un primer altavoz más cerca de la ubicación distintiva de una imagen de vídeo particular, desde un dispositivo participante en particular, en donde el parámetro de reproducción especificado hace que la única señal de audio a reproducir a través del primer altavoz antes que a través del segundo altavoz cuando los datos de intensidad de señal indican que est� hablando un participante en el dispositivo determinado participante.
13.

El procedimiento según la reivindicación 10, en el que el primer dispositivo participante tiene un conjunto de altavoces estéreo y el parámetro de reproducción especificado hace que la señal de audio se reproduzca a través de uno de los altavoces con una amplitud alterada.
14.

El procedimiento según la reivindicación 10, que comprende capturar una señal de audio en el primer dispositivo participante.
15.

El procedimiento según la reivindicación 10, que comprende descodificar la única señal de audio recibida.

11

12

13

14

15

16

17

Figura 11

Figura 12

18

19