FR2797132A1 - Procede et systeme de restitution sonore a effet spatial, et terminal de telephone incorporant un tel systeme - Google Patents

Procede et systeme de restitution sonore a effet spatial, et terminal de telephone incorporant un tel systeme Download PDF

Info

Publication number
FR2797132A1
FR2797132A1 FR9909243A FR9909243A FR2797132A1 FR 2797132 A1 FR2797132 A1 FR 2797132A1 FR 9909243 A FR9909243 A FR 9909243A FR 9909243 A FR9909243 A FR 9909243A FR 2797132 A1 FR2797132 A1 FR 2797132A1
Authority
FR
France
Prior art keywords
signal
sound
speakers
sound reproduction
discrimination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR9909243A
Other languages
English (en)
Other versions
FR2797132B1 (fr
Inventor
Gael Richard
Philip Lockwood
Francois Capman
Jerome Boudy
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nortel Networks France SAS
Original Assignee
Matra Nortel Communications SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matra Nortel Communications SAS filed Critical Matra Nortel Communications SAS
Priority to FR9909243A priority Critical patent/FR2797132B1/fr
Priority to EP00951648A priority patent/EP1195043A1/fr
Priority to PCT/FR2000/001996 priority patent/WO2001006742A1/fr
Priority to AU64522/00A priority patent/AU6452200A/en
Publication of FR2797132A1 publication Critical patent/FR2797132A1/fr
Application granted granted Critical
Publication of FR2797132B1 publication Critical patent/FR2797132B1/fr
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • H04M3/569Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants using the instant speaker's algorithm

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

On analyse un signal audio d'entrée (S) de manière à effectuer une discrimination entre des portions de signal issues de différents locuteurs (A-D), cette discrimination pouvant comporter une identification des locuteurs. On effectue une restitution sonore de certaines au moins des portions de signal avec un effet spatial dépendant du résultat de la discrimination.

Description

-I 2797132
PROCEDE ET SYSTEME DE RESTITUTION SONORE A EFFET SPATIAL,
ET TERMINAL DE TELEPHONIE INCORPORANT UN TEL SYSTEME
La présente invention concerne les techniques de spatialisation de sources sonores. Elle trouve une application particulière, non exclusive, dans le domaine de la téléconférence. Dans certains systèmes de téléconférence, le confort d'écoute de l'utilisateur est amélioré en produisant un effet de localisation des sources sonores dans l'espace. En général, un tel système de téléconférence est organisé de telle sorte que les signaux de phonie issus d'une source sont accompagnés d'indications sur l'origine de cette source ou sur son positionnement, que le récepteur utilise pour produire l'effet de localisation (voir par exemple les brevets US 5 020 098 et 5 335 011). Mais dans de nombreux cas, de telles indications ne sont pas disponibles. Par exemple, un terminal téléphonique recevant par des lignes téléphoniques ordinaires des signaux audio comportant des contributions de plusieurs locuteurs ne pourra pas
séparer spatialement ces locuteurs par la méthode ci-dessus.
On connaît d'autre part des systèmes téléphoniques utilisant des fonctions de vérification vocale de l'appelant, dans le but d'autoriser l'accès à des services sécurisés. Pour cela, la signature vocale de l'appelant est confrontée avec celle enregistrée dans un module de vérification (voir brevets US 5 623 539, 5 465 290 ou 5 414 755). Une telle vérification est parfois utilisée pour accomplir une fonction analogue à celle d'un mot de passe (voir
brevet américain 5 365 574 ou 5 517 558).
Un but de la présente invention est de permettre de spatialiser des sources sonores, sans requérir d'information spécifique sur la position des sources. L'invention propose ainsi un procédé de restitution sonore à partir d'un signal audio d'entrée, dans lequel on analyse le signal d'entrée de manière à effectuer une discrimination entre des portions de signal issues de différents locuteurs, et on effectue une restitution sonore de certaines au moins des portions de signal avec un effet spatial dépendant du résultat de la discrimination. Le procédé associe des techniques de discrimination de locuteurs et des techniques de spatialisation audio. La séparation entre les différentes sources est effectuée sur la base du signal audio lui-même et non d'une -2 -
information extrinsèque.
On peut ainsi améliorer l'ergonomie de la restitution sonore d'un simple signai audio, en plaçant virtuellement les sources représentées par les différents locuteurs dans un espace sonore tridimensionnel. Les effets spatiaux appliqués dans la restitution sonore peuvent éventuellement comprendre des effets autres que la localisation d'une source, comme par exemple des effets
de distance, de réverbération ou tout autre effet de salle.
La discrimination entre les portions de signal issues des différents locuteurs peut notamment comporter une identification d'un locuteur parmi un ensemble de locuteurs déterminés. Dans une application audiovisuelle, la restitution sonore d'une portion de signal est alors accompagnée par la présentation d'une image du locuteur identifié, qui est avantageusement positionnée de manière dépendante d'une direction de perception du son
restitué. On peut ainsi former une sorte de salle de conférence virtuelle.
Il est à noter que le procédé n'a pas à reproduire les places exactes des locuteurs distants. Les directions de perception des sources sont au
contraire arbitraires. Elles peuvent éventuellement être définies par l'utilisateur.
Le procédé peut s'appliquer au domaine de la téléconférence, la restitution sonore étant effectuée dans un terminal de téléphonie. L'analyse du signal d'entrée peut être effectuée soit dans le même terminal de téléphonie, soit dans un réseau d'acheminement du signal d'entrée (par exemple au
niveau d'un autocommutateur).
Les applications du procédé ne sont pas limitées à la téléconférence.
On peut par exemple l'utiliser également dans un habitacle d'automobile, pour restituer différentes sources sonores dans un espace tridimensionnel. Le placement des sources peut être fait dans le même but que dans le cas de l'application à la téléconférence, mais il peut aussi être fait dans le but de placer à certains endroits des sources sonores contenant des informations prioritaires ou plus importantes ou provenant de système différents (systèmes
de navigation, téléphone, autoradio,...).
Le procédé est encore applicable à des systèmes de guidage,
d'information routière,...
Un autre aspect de la présente invention se rapporte à un système de restitution sonore comprenant des moyens d'analyse d'un signal audio d'entrée, propres à effectuer une discrimination entre des portions de signal issues de différents locuteurs, et des moyens de restitution sonore de certaines -3- au moins des portions de signal avec un effet spatial dépendant du résultat de la discrimination effectuée par les moyens d'analyse. Dans une application
particulière, ce système est incorporé dans un terminal de téléphonie.
D'autres particularités et avantages de la présente invention
apparaîtront dans la description ci-après d'exemples de réalisation non
limitatifs, en référence aux dessins annexés, dans lesquels: - la figure 1 est un schéma de principe d'un système de téléconférence mettant en oeuvre le procédé selon l'invention; et - la figure 2 est un schéma synoptique d'un système de restitution sonore
incorporé dans un terminal de téléphonie du système de la figure 1.
Dans la téléconférence illustrée schématiquement par la figure 1, un utilisateur Z est en communication avec plusieurs locuteurs distants A, B, C, D. Les locuteurs distants peuvent être situés au même endroit ou à des endroits différents. Dans l'exemple dessiné, chacun des locuteurs A et B utilise un terminal téléphonique propre, alors que les locuteurs C et D partagent le même terminal. Un réseau public et/ou privé de télécommunications 5 met en communication l'utilisateur Z et ses interlocuteurs A-D. Le signal audio S envoyé du réseau 5 vers le terminal téléphonique 6 de l'utilisateur Z se compose ainsi d'une superposition de portions de signal respectivement issues
des locuteurs A-D.
A partir de ce signal audio unique, le terminal 6 est capable de procéder à une restitution sonore avec des effets spatiaux dépendant du
locuteur distant en train de parler.
La partie du terminal téléphonique 6 traitant le signal audio reçu S est illustrée schématiquement sur la figure 2. Un module de traitement de signal 10 analyse le signal audio S afin de discriminer lequel des locuteurs A-D est à
l'origine de la portion de signal courante.
Dans un mode de réalisation préféré de l'invention, le module 10 fonctionne sans connaissance a priori sur les différents locuteurs. Il peut ainsi comporter une unité 20 qui effectue une discrimination avec un processus
d'apprentissage à mesure que les différents interlocuteurs A-D parlent.
L'apprentissage ne nécessite aucune donnée vocale préalable, et peut éventuellement être paramétré par l'utilisateur Z. Le module 10 peut aussi comporter une unité 21 qui utilise une base de données 22 permettant de différencier diverses catégories de voix, et -4- affecte chaque portion du signal audio S à l'une de ces catégories, par exemple selon un critère de maximum de vraisemblance, afin de discriminer
entre les différents locuteurs.
Comme indiqué sur la figure 2, le module 10 peut encore comporter une unité 23 procédant à une discrimination par identification du locuteur distant. Cette unité 23 peut notamment mettre en ceuvre l'une des méthodes utilisées classiquement à des fins de vérification d'identité d'un locuteur (cf. par
exemple brevets US 5 623 539, 5 465 290, 5 414 755, 5 365 574 et 5 517 558).
Dans ce cas, le module d'identification 10 dispose de fichiers stockés dans une mémoire 24, contenant des données vocales représentatives des différents locuteurs en conférence. De tels fichiers peuvent être échangés préalablement à la communication, ou être partagés entre différents utilisateurs d'un même groupe. L'information de discrimination du locuteur produite par le module 10
est adressée à un module 12 qui contrôle la restitution sonore par le terminal.
Afin d'inclure des effets spatiaux dans cette restitution, le terminal comprend par exemple plusieurs haut-parleurs 13. Le module 12 affecte une direction de perception du son à chaque locuteur discriminé par le module 10, et commande les haut-parleurs 13 de façon que la portion du signal correspondante soit perçue par l'utilisateur Z comme provenant de cette direction. Diverses méthodes classiques peuvent être employées par le module 12 afin de produire un effet spatial dépendant d'une direction simulée de perception du son, par exemple les méthodes décrites dans les brevets américains 5 335 011 et 5 020 098 dans des applications de téléconférence, ou
encore la méthode décrite dans la demande W094/10816.
Grâce au procédé combinant la discrimination du locuteur et la spatialisation appliquée à la restitution sonore, I'utilisateur peut percevoir des portions de parole issues de différents locuteurs mais comprises dans un même signal S comme provenant de différentes directions, comme l'illustre
schématiquement la figure 1.
Notamment lorsque le module de traitement de signal 10 effectue une identification de locuteur, le terminal téléphonique 6 peut être associé à des moyens aptes à présenter des images des locuteurs distants A-D, comme par exemple un écran d'affichage 15. L'affichage de ces images est commandé par
un module 16 du terminal, à partir d'images stockées dans une mémoire 17.
-5- Comme les données vocales contenues dans la mémoire 24, les images stockées dans la mémoire 17 peuvent être chargées avant le début de la communication. Elles peuvent aussi être transmises par un signal audiovisuel, et être générées par l'intermédiaire de moyens d'enregistrement associés au terminal téléphonique 6, tels qu'une caméra. Dans le cas o le signal S est un signal audiovisuel, I'identification du locuteur peut de plus être effectuée à partir
des données vocales et visuelles.
Différentes méthodes peuvent être appliquées par le module 16 pour commander l'affichage sur l'écran 15. Une possibilité est de présenter sur I'écran 15 une image de chacun des locuteurs distants A-D présents dans la communication. De façon avantageuse, l'image de chacun des locuteurs A-D est alors positionnée d'une façon correspondant aux positions virtuelles des sources sonores générées par le module de restitution 12. Ceci permet d'attirer l'attention de l'utilisateur Z sur l'image du locuteur en train de parler. Un autre possibilité est d'afficher la même image des différents locuteurs, et de signaler de façon particulière (surbrillance, changement de couleur,...) celui des locuteurs identifié par le module 10. Une autre possibilité encore est de
n'afficher que l'image du locuteur identifié.
Le terminal téléphonique 6 peut être un téléphone ordinaire associé à une unité comportant les modules de traitement de signal 10 et de restitution sonore avec effets spatiaux 12, ces modules 10,12 fonctionnant typiquement sur des signaux numériques, par exemple à l'aide de processeurs de traitement de signal (DSP). Le terminal 6 peut encore être de type " webphone ", ou comprendre un ordinateur équipé de logiciels de téléphonie ou de logiciels pour la commande d'un téléphone externe. Dans ce dernier cas, l'écran 15 peut être celui de l'ordinateur, et les modules 10, 12, 16 relèvent
d'applications exécutées par l'ordinateur.
Dans une variante de réalisation, le module 10 qui effectue l'analyse du signal audio d'entrée S n'est pas situé dans le terminal téléphonique, mais dans le réseau 5 qui achemine le signal S. Il peut notamment être placé dans un autocommutateur privé qui transmet avec le signal audio S des données
indiquant le locuteur discriminé.
Le procédé selon l'invention a été décrit ci-dessus dans son application à la téléconférence. On notera qu'il peut être prévu dans d'autres contextes, en
particulier dans un véhicule.
-6-

Claims (12)

REVENDICATIONS R E V E N D I C A T I O N S
1. Procédé de restitution sonore à partir d'un signal audio d'entrée (S), caractérisé en ce qu'on analyse le signal d'entrée de manière à effectuer une discrimination entre des portions de signal issues de différents locuteurs (A-D), et on effectue une restitution sonore de certaines au moins des portions de
signal avec un effet spatial dépendant du résultat de la discrimination.
2. Procédé selon la revendication 1, dans lequel la discrimination
comporte une identification de locuteur.
3. Procédé selon la revendication 2, dans lequel ladite identification
s'effectue parmi un ensemble de locuteurs (A-D).
4. Procédé selon la revendication 2 ou 3, dans lequel la restitution sonore d'au moins une portion de signal est accompagnée par la présentation
d'une image d'un locuteur identifié.
5. Procédé selon la revendication 4, dans lequel ladite image du locuteur identifié est positionnée de manière dépendante d'une direction de
perception du son restitué.
6. Procédé selon l'une quelconque des revendications 1 à 5, dans
lequel l'analyse du signal d'entrée (S) et la restitution sonore sont effectuées
dans un terminal de téléphonie (6).
7. Procédé selon l'une quelconque des revendications 1 à 5, dans
lequel la restitution sonore est effectuée dans un terminal de téléphonie (6), et l'analyse du signal d'entrée (S) est effectuée dans un réseau d'acheminement
du signal d'entrée (5).
8. Système de restitution sonore, caractérisé en ce qu'il comprend des moyens (10) d'analyse d'un signal audio d'entrée (S), propres à effectuer une discrimination entre des portions de signal issues de différents locuteurs (A-D), et des moyens (12, 13) de restitution sonore de certaines au moins des portions de signal avec un effet spatial dépendant du résultat de la
discrimination effectuée par les moyens d'analyse.
-7-
9. Système selon la revendication 8, dans lequel la discrimination effectuée par les moyens d'analyse (10, 23) comporte une identification de locuteur.
10. Système selon la revendication 9, dans lequel ladite identification s'effectue parhni un ensemble de locuteurs (A-D).
11. Système selon la revendication 9 ou 10, comprenant en outre des moyens (15, 16) de présentation d'une image d'un locuteur identifié en relation avec une portion de signal, positionnée de manière dépendante d'une direction
de perception du son restitué.
0
12. Terminal de téléphonie (6), incorporant un système de restitution
sonore selon l'une quelconque des revendications 8 à 11.
FR9909243A 1999-07-16 1999-07-16 Procede et systeme de restitution sonore a effet spatial, et terminal de telephone incorporant un tel systeme Expired - Fee Related FR2797132B1 (fr)

Priority Applications (4)

Application Number Priority Date Filing Date Title
FR9909243A FR2797132B1 (fr) 1999-07-16 1999-07-16 Procede et systeme de restitution sonore a effet spatial, et terminal de telephone incorporant un tel systeme
EP00951648A EP1195043A1 (fr) 1999-07-16 2000-07-11 Procede et systeme de restitution sonore a effet spatial, et terminal de telephonie incorporant un tel systeme
PCT/FR2000/001996 WO2001006742A1 (fr) 1999-07-16 2000-07-11 Procede et systeme de restitution sonore a effet spatial, et terminal de telephonie incorporant un tel systeme
AU64522/00A AU6452200A (en) 1999-07-16 2000-07-11 Sound retrieval system with spatial effect, and telephone terminal incorporatingsame

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR9909243A FR2797132B1 (fr) 1999-07-16 1999-07-16 Procede et systeme de restitution sonore a effet spatial, et terminal de telephone incorporant un tel systeme

Publications (2)

Publication Number Publication Date
FR2797132A1 true FR2797132A1 (fr) 2001-02-02
FR2797132B1 FR2797132B1 (fr) 2001-10-05

Family

ID=9548178

Family Applications (1)

Application Number Title Priority Date Filing Date
FR9909243A Expired - Fee Related FR2797132B1 (fr) 1999-07-16 1999-07-16 Procede et systeme de restitution sonore a effet spatial, et terminal de telephone incorporant un tel systeme

Country Status (4)

Country Link
EP (1) EP1195043A1 (fr)
AU (1) AU6452200A (fr)
FR (1) FR2797132B1 (fr)
WO (1) WO2001006742A1 (fr)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013142731A1 (fr) 2012-03-23 2013-09-26 Dolby Laboratories Licensing Corporation Techniques pour mettre en valeur des interlocuteurs dans une scène de conférence bidimensionnelle (2d) ou tridimensionnelle (3d)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5020098A (en) * 1989-11-03 1991-05-28 At&T Bell Laboratories Telephone conferencing arrangement
GB2303516A (en) * 1995-07-20 1997-02-19 Plessey Telecomm Teleconferencing

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001511991A (ja) * 1997-10-01 2001-08-14 エイ・ティ・アンド・ティ・コーポレーション マルチメディア・レコードのためのラベル・インターバル・データの格納および取得の方法及び装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5020098A (en) * 1989-11-03 1991-05-28 At&T Bell Laboratories Telephone conferencing arrangement
GB2303516A (en) * 1995-07-20 1997-02-19 Plessey Telecomm Teleconferencing

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHOJI SHIMADA ET AL: "A NEW TALKER LOCATION RECOGNITION THROUGH SOUND IMAGE LOCALIZATION CONTROL IN MULTIPOINT TELECONFERENCES SYSTEM", ELECTRONICS & COMMUNICATIONS IN JAPAN, PART I - COMMUNICATIONS,US,SCRIPTA TECHNICA. NEW YORK, vol. 72, no. 2, 1 February 1989 (1989-02-01), pages 20 - 27, XP000124912, ISSN: 8756-6621 *

Also Published As

Publication number Publication date
WO2001006742A1 (fr) 2001-01-25
EP1195043A1 (fr) 2002-04-10
FR2797132B1 (fr) 2001-10-05
AU6452200A (en) 2001-02-05

Similar Documents

Publication Publication Date Title
US20070263823A1 (en) Automatic participant placement in conferencing
CN110113316B (zh) 会议接入方法、装置、设备及计算机可读存储介质
US9083822B1 (en) Speaker position identification and user interface for its representation
CN114402631B (zh) 用于回放捕获的声音的方法和电子设备
FR3059191B1 (fr) Dispositif a casque audio perfectionne
US11432086B2 (en) Centrally controlling communication at a venue
KR100487409B1 (ko) 다중회선 녹음 시스템에서의 통화내용 기록 방법
US20120027217A1 (en) Apparatus and method for merging acoustic object information
FR3071689A1 (fr) Presentation de communications
WO2020017284A1 (fr) Haut-parleur de collecte de sons, son procédé et programme
HUE029900T2 (en) Spatial audio processing, program product, electronic device and system
EP2009891B1 (fr) Transmission de signal audio dans un système de conférence audio immersive
EP1658755B1 (fr) Systeme de spatialisation de sources sonores
WO2020027061A1 (fr) Système d'assistance à la conversation, procédé et programme
FR2797132A1 (fr) Procede et systeme de restitution sonore a effet spatial, et terminal de telephone incorporant un tel systeme
CN116057928A (zh) 信息处理装置、信息处理终端、信息处理方法和程序
US20200184973A1 (en) Transcription of communications
CN116114241A (zh) 信息处理装置、信息处理终端、信息处理方法和程序
CN113096674B (zh) 一种音频处理方法、装置及电子设备
US20230421702A1 (en) Distributed teleconferencing using personalized enhancement models
FR3049417A1 (fr) Procede et dispositif de commande d’un systeme d’intercommunication.
FR2775407A1 (fr) Poste telephonique avec reconnaissance de parole, et systeme de commande vocale comportant un tel poste
FR3147754A1 (fr) Procédé et dispositif de rendu d’un contenu sonore dans un véhicule en fonction de l’environnement du véhicule
CN112331179A (zh) 一种数据处理方法和耳机收纳装置
FR2947077A1 (fr) Procede d'identification par mots clefs d'utilisateurs d'un reseau de telecommunication.

Legal Events

Date Code Title Description
CA Change of address
CD Change of name or company name
ST Notification of lapse

Effective date: 20060331