FR2797132A1

FR2797132A1 - Procede et systeme de restitution sonore a effet spatial, et terminal de telephone incorporant un tel systeme

Info

Publication number: FR2797132A1
Application number: FR9909243A
Authority: FR
Inventors: Gael Richard; Philip Lockwood; Francois Capman; Jerome Boudy
Original assignee: Matra Nortel Communications SAS
Current assignee: Nortel Networks France SAS
Priority date: 1999-07-16
Filing date: 1999-07-16
Publication date: 2001-02-02
Anticipated expiration: 2019-07-16
Also published as: AU6452200A; EP1195043A1; WO2001006742A1; FR2797132B1

Abstract

On analyse un signal audio d'entrée (S) de manière à effectuer une discrimination entre des portions de signal issues de différents locuteurs (A-D), cette discrimination pouvant comporter une identification des locuteurs. On effectue une restitution sonore de certaines au moins des portions de signal avec un effet spatial dépendant du résultat de la discrimination.

Description

-I 2797132

PROCEDE ET SYSTEME DE RESTITUTION SONORE A EFFET SPATIAL,

ET TERMINAL DE TELEPHONIE INCORPORANT UN TEL SYSTEME

La présente invention concerne les techniques de spatialisation de sources sonores. Elle trouve une application particulière, non exclusive, dans le domaine de la téléconférence. Dans certains systèmes de téléconférence, le confort d'écoute de l'utilisateur est amélioré en produisant un effet de localisation des sources sonores dans l'espace. En général, un tel système de téléconférence est organisé de telle sorte que les signaux de phonie issus d'une source sont accompagnés d'indications sur l'origine de cette source ou sur son positionnement, que le récepteur utilise pour produire l'effet de localisation (voir par exemple les brevets US 5 020 098 et 5 335 011). Mais dans de nombreux cas, de telles indications ne sont pas disponibles. Par exemple, un terminal téléphonique recevant par des lignes téléphoniques ordinaires des signaux audio comportant des contributions de plusieurs locuteurs ne pourra pas

séparer spatialement ces locuteurs par la méthode ci-dessus.

On connaît d'autre part des systèmes téléphoniques utilisant des fonctions de vérification vocale de l'appelant, dans le but d'autoriser l'accès à des services sécurisés. Pour cela, la signature vocale de l'appelant est confrontée avec celle enregistrée dans un module de vérification (voir brevets US 5 623 539, 5 465 290 ou 5 414 755). Une telle vérification est parfois utilisée pour accomplir une fonction analogue à celle d'un mot de passe (voir

brevet américain 5 365 574 ou 5 517 558).

Un but de la présente invention est de permettre de spatialiser des sources sonores, sans requérir d'information spécifique sur la position des sources. L'invention propose ainsi un procédé de restitution sonore à partir d'un signal audio d'entrée, dans lequel on analyse le signal d'entrée de manière à effectuer une discrimination entre des portions de signal issues de différents locuteurs, et on effectue une restitution sonore de certaines au moins des portions de signal avec un effet spatial dépendant du résultat de la discrimination. Le procédé associe des techniques de discrimination de locuteurs et des techniques de spatialisation audio. La séparation entre les différentes sources est effectuée sur la base du signal audio lui-même et non d'une -2 -

information extrinsèque.

On peut ainsi améliorer l'ergonomie de la restitution sonore d'un simple signai audio, en plaçant virtuellement les sources représentées par les différents locuteurs dans un espace sonore tridimensionnel. Les effets spatiaux appliqués dans la restitution sonore peuvent éventuellement comprendre des effets autres que la localisation d'une source, comme par exemple des effets

de distance, de réverbération ou tout autre effet de salle.

La discrimination entre les portions de signal issues des différents locuteurs peut notamment comporter une identification d'un locuteur parmi un ensemble de locuteurs déterminés. Dans une application audiovisuelle, la restitution sonore d'une portion de signal est alors accompagnée par la présentation d'une image du locuteur identifié, qui est avantageusement positionnée de manière dépendante d'une direction de perception du son

restitué. On peut ainsi former une sorte de salle de conférence virtuelle.

Il est à noter que le procédé n'a pas à reproduire les places exactes des locuteurs distants. Les directions de perception des sources sont au

contraire arbitraires. Elles peuvent éventuellement être définies par l'utilisateur.

Le procédé peut s'appliquer au domaine de la téléconférence, la restitution sonore étant effectuée dans un terminal de téléphonie. L'analyse du signal d'entrée peut être effectuée soit dans le même terminal de téléphonie, soit dans un réseau d'acheminement du signal d'entrée (par exemple au

niveau d'un autocommutateur).

Les applications du procédé ne sont pas limitées à la téléconférence.

On peut par exemple l'utiliser également dans un habitacle d'automobile, pour restituer différentes sources sonores dans un espace tridimensionnel. Le placement des sources peut être fait dans le même but que dans le cas de l'application à la téléconférence, mais il peut aussi être fait dans le but de placer à certains endroits des sources sonores contenant des informations prioritaires ou plus importantes ou provenant de système différents (systèmes

de navigation, téléphone, autoradio,...).

Le procédé est encore applicable à des systèmes de guidage,

d'information routière,...

Un autre aspect de la présente invention se rapporte à un système de restitution sonore comprenant des moyens d'analyse d'un signal audio d'entrée, propres à effectuer une discrimination entre des portions de signal issues de différents locuteurs, et des moyens de restitution sonore de certaines -3- au moins des portions de signal avec un effet spatial dépendant du résultat de la discrimination effectuée par les moyens d'analyse. Dans une application

particulière, ce système est incorporé dans un terminal de téléphonie.

D'autres particularités et avantages de la présente invention

apparaîtront dans la description ci-après d'exemples de réalisation non

limitatifs, en référence aux dessins annexés, dans lesquels: - la figure 1 est un schéma de principe d'un système de téléconférence mettant en oeuvre le procédé selon l'invention; et - la figure 2 est un schéma synoptique d'un système de restitution sonore

incorporé dans un terminal de téléphonie du système de la figure 1.

Dans la téléconférence illustrée schématiquement par la figure 1, un utilisateur Z est en communication avec plusieurs locuteurs distants A, B, C, D. Les locuteurs distants peuvent être situés au même endroit ou à des endroits différents. Dans l'exemple dessiné, chacun des locuteurs A et B utilise un terminal téléphonique propre, alors que les locuteurs C et D partagent le même terminal. Un réseau public et/ou privé de télécommunications 5 met en communication l'utilisateur Z et ses interlocuteurs A-D. Le signal audio S envoyé du réseau 5 vers le terminal téléphonique 6 de l'utilisateur Z se compose ainsi d'une superposition de portions de signal respectivement issues

des locuteurs A-D.

A partir de ce signal audio unique, le terminal 6 est capable de procéder à une restitution sonore avec des effets spatiaux dépendant du

locuteur distant en train de parler.

La partie du terminal téléphonique 6 traitant le signal audio reçu S est illustrée schématiquement sur la figure 2. Un module de traitement de signal 10 analyse le signal audio S afin de discriminer lequel des locuteurs A-D est à

l'origine de la portion de signal courante.

Dans un mode de réalisation préféré de l'invention, le module 10 fonctionne sans connaissance a priori sur les différents locuteurs. Il peut ainsi comporter une unité 20 qui effectue une discrimination avec un processus

d'apprentissage à mesure que les différents interlocuteurs A-D parlent.

L'apprentissage ne nécessite aucune donnée vocale préalable, et peut éventuellement être paramétré par l'utilisateur Z. Le module 10 peut aussi comporter une unité 21 qui utilise une base de données 22 permettant de différencier diverses catégories de voix, et -4- affecte chaque portion du signal audio S à l'une de ces catégories, par exemple selon un critère de maximum de vraisemblance, afin de discriminer

entre les différents locuteurs.

Comme indiqué sur la figure 2, le module 10 peut encore comporter une unité 23 procédant à une discrimination par identification du locuteur distant. Cette unité 23 peut notamment mettre en ceuvre l'une des méthodes utilisées classiquement à des fins de vérification d'identité d'un locuteur (cf. par

exemple brevets US 5 623 539, 5 465 290, 5 414 755, 5 365 574 et 5 517 558).

Dans ce cas, le module d'identification 10 dispose de fichiers stockés dans une mémoire 24, contenant des données vocales représentatives des différents locuteurs en conférence. De tels fichiers peuvent être échangés préalablement à la communication, ou être partagés entre différents utilisateurs d'un même groupe. L'information de discrimination du locuteur produite par le module 10

est adressée à un module 12 qui contrôle la restitution sonore par le terminal.

Afin d'inclure des effets spatiaux dans cette restitution, le terminal comprend par exemple plusieurs haut-parleurs 13. Le module 12 affecte une direction de perception du son à chaque locuteur discriminé par le module 10, et commande les haut-parleurs 13 de façon que la portion du signal correspondante soit perçue par l'utilisateur Z comme provenant de cette direction. Diverses méthodes classiques peuvent être employées par le module 12 afin de produire un effet spatial dépendant d'une direction simulée de perception du son, par exemple les méthodes décrites dans les brevets américains 5 335 011 et 5 020 098 dans des applications de téléconférence, ou

encore la méthode décrite dans la demande W094/10816.

Grâce au procédé combinant la discrimination du locuteur et la spatialisation appliquée à la restitution sonore, I'utilisateur peut percevoir des portions de parole issues de différents locuteurs mais comprises dans un même signal S comme provenant de différentes directions, comme l'illustre

schématiquement la figure 1.

Notamment lorsque le module de traitement de signal 10 effectue une identification de locuteur, le terminal téléphonique 6 peut être associé à des moyens aptes à présenter des images des locuteurs distants A-D, comme par exemple un écran d'affichage 15. L'affichage de ces images est commandé par

un module 16 du terminal, à partir d'images stockées dans une mémoire 17.

-5- Comme les données vocales contenues dans la mémoire 24, les images stockées dans la mémoire 17 peuvent être chargées avant le début de la communication. Elles peuvent aussi être transmises par un signal audiovisuel, et être générées par l'intermédiaire de moyens d'enregistrement associés au terminal téléphonique 6, tels qu'une caméra. Dans le cas o le signal S est un signal audiovisuel, I'identification du locuteur peut de plus être effectuée à partir

des données vocales et visuelles.

Différentes méthodes peuvent être appliquées par le module 16 pour commander l'affichage sur l'écran 15. Une possibilité est de présenter sur I'écran 15 une image de chacun des locuteurs distants A-D présents dans la communication. De façon avantageuse, l'image de chacun des locuteurs A-D est alors positionnée d'une façon correspondant aux positions virtuelles des sources sonores générées par le module de restitution 12. Ceci permet d'attirer l'attention de l'utilisateur Z sur l'image du locuteur en train de parler. Un autre possibilité est d'afficher la même image des différents locuteurs, et de signaler de façon particulière (surbrillance, changement de couleur,...) celui des locuteurs identifié par le module 10. Une autre possibilité encore est de

n'afficher que l'image du locuteur identifié.

Le terminal téléphonique 6 peut être un téléphone ordinaire associé à une unité comportant les modules de traitement de signal 10 et de restitution sonore avec effets spatiaux 12, ces modules 10,12 fonctionnant typiquement sur des signaux numériques, par exemple à l'aide de processeurs de traitement de signal (DSP). Le terminal 6 peut encore être de type " webphone ", ou comprendre un ordinateur équipé de logiciels de téléphonie ou de logiciels pour la commande d'un téléphone externe. Dans ce dernier cas, l'écran 15 peut être celui de l'ordinateur, et les modules 10, 12, 16 relèvent

d'applications exécutées par l'ordinateur.

Dans une variante de réalisation, le module 10 qui effectue l'analyse du signal audio d'entrée S n'est pas situé dans le terminal téléphonique, mais dans le réseau 5 qui achemine le signal S. Il peut notamment être placé dans un autocommutateur privé qui transmet avec le signal audio S des données

indiquant le locuteur discriminé.

Le procédé selon l'invention a été décrit ci-dessus dans son application à la téléconférence. On notera qu'il peut être prévu dans d'autres contextes, en

particulier dans un véhicule.

-6-

Claims

REVENDICATIONS R E V E N D I C A T I O N S

1. Procédé de restitution sonore à partir d'un signal audio d'entrée (S), caractérisé en ce qu'on analyse le signal d'entrée de manière à effectuer une discrimination entre des portions de signal issues de différents locuteurs (A-D), et on effectue une restitution sonore de certaines au moins des portions de

signal avec un effet spatial dépendant du résultat de la discrimination.

2. Procédé selon la revendication 1, dans lequel la discrimination

comporte une identification de locuteur.

3. Procédé selon la revendication 2, dans lequel ladite identification

s'effectue parmi un ensemble de locuteurs (A-D).

4. Procédé selon la revendication 2 ou 3, dans lequel la restitution sonore d'au moins une portion de signal est accompagnée par la présentation

d'une image d'un locuteur identifié.

5. Procédé selon la revendication 4, dans lequel ladite image du locuteur identifié est positionnée de manière dépendante d'une direction de

perception du son restitué.

6. Procédé selon l'une quelconque des revendications 1 à 5, dans

lequel l'analyse du signal d'entrée (S) et la restitution sonore sont effectuées

dans un terminal de téléphonie (6).

7. Procédé selon l'une quelconque des revendications 1 à 5, dans

lequel la restitution sonore est effectuée dans un terminal de téléphonie (6), et l'analyse du signal d'entrée (S) est effectuée dans un réseau d'acheminement

du signal d'entrée (5).

8. Système de restitution sonore, caractérisé en ce qu'il comprend des moyens (10) d'analyse d'un signal audio d'entrée (S), propres à effectuer une discrimination entre des portions de signal issues de différents locuteurs (A-D), et des moyens (12, 13) de restitution sonore de certaines au moins des portions de signal avec un effet spatial dépendant du résultat de la

discrimination effectuée par les moyens d'analyse.

-7-

9. Système selon la revendication 8, dans lequel la discrimination effectuée par les moyens d'analyse (10, 23) comporte une identification de locuteur.

10. Système selon la revendication 9, dans lequel ladite identification s'effectue parhni un ensemble de locuteurs (A-D).

11. Système selon la revendication 9 ou 10, comprenant en outre des moyens (15, 16) de présentation d'une image d'un locuteur identifié en relation avec une portion de signal, positionnée de manière dépendante d'une direction

de perception du son restitué.

0

12. Terminal de téléphonie (6), incorporant un système de restitution

sonore selon l'une quelconque des revendications 8 à 11.