FR3101725A1

FR3101725A1 - Procédé de détection de la position de participants à une réunion à l’aide des terminaux personnels des participants, programme d’ordinateur correspondant.

Info

Publication number: FR3101725A1
Application number: FR1911008A
Authority: FR
Inventors: Julien Faure; Patrick Losquin; Laetitia NAUDET; Sonia Laurent
Original assignee: Orange SA
Current assignee: Orange SA
Priority date: 2019-10-04
Filing date: 2019-10-04
Publication date: 2021-04-09
Anticipated expiration: 2039-10-04
Also published as: FR3101725B1

Abstract

L’invention concerne un procédé de détection d’une position d’au moins trois terminaux les uns par rapport aux autres, chacun desdits au moins trois terminaux étant associé à un locuteur. Ce procédé comprend :- une réception, en provenance de chacun desdits au moins trois terminaux, d’au moins un paquet audio d’un flux audio enregistré par chacun desdits au moins trois terminaux. Selon l’invention un tel procédé comprend :- une détermination d’une position desdits au moins trois terminaux les uns par rapport aux autres, en fonction d’une détermination d’au moins un ratio d’amplitude sonore entre un premier et un deuxième paquet audio reçu. Les premier et deuxième paquet audio reçu provenant de deux terminaux différents parmi lesdits au moins trois terminaux. FIGURE 2

Description

Procédé de détection de la position de participants à une réunion à l’aide des terminaux personnels des participants, programme d’ordinateur correspondant.

Domaine technique de l'invention

Le domaine de l’invention est celui des services de réunion. Plus précisément, l’invention concerne la détection automatique de la position des participants à une réunion les uns par rapport aux autres, notamment à l’aide d’un terminal personnel comme par exemple un téléphone intelligent (en anglais « smartphone »).

Art antérieur

Les réunions, ou assemblées, sous leurs différentes formes sont un mode d'échange très répandu notamment en entreprise. Ces réunions sont souvent l’occasion de rassembler un ensemble de participants pour traiter en groupe d’un ou plusieurs sujets, comme par exemple faire un point d'avancement sur des projets en cours au sein d’une équipe, synchroniser et coordonner les membres d’une équipe impliqués dans la réalisation d’un projet, diffuser des informations d’ordre générales concernant l'entreprise.

On parle de « réunion » lorsque plus de deux participants interviennent au cours de la réunion, c’est-à-dire que le nombre de présents est égal ou supérieur à 3 personnes.

À l’issue de la réunion il est fréquent qu’un compte rendu soit diffusé. Il se présente couramment sous la forme d’un document écrit ou audio qui reprend de manière plus ou moins exhaustive les échanges ayant eu lieu au cours de la réunion. L’un des objectifs de ce compte rendu est notamment de garder une trace des échanges et discussions observés ou de communiquer sur les décisions prises et les actions lancées à cette occasion auprès de l'ensemble des participants et autres parties prenantes.

Afin de pouvoir restituer le plus fidèlement possible les nombreux échanges ayant eu lieu au cours de la réunion, il est de plus en plus courant de l’enregistrer de manière audio à l’aide de systèmes d'enregistrement comme par exemple des microphones placés en face de chaque participant ou de manière centrale sur la table de réunion. Dans un autre exemple, l’enregistrement de la réunion se fait grâce à l’utilisation du microphone des smartphones des participants.

Pour rendre ce compte rendu de réunion plus immersif, l’enregistrement audio de la réunion peut également être associé au plan de table de la réunion, c’est-à-dire au positionnement des participants les uns par rapport aux autres autour de cette table. Ainsi, l’association de la position des participants à l’enregistrement audio de la réunion permet de spatialiser virtuellement les voix des autres participants, ou locuteurs, recréant ainsi les sensations ressenties lors d'une conversation réelle.

Dans le contexte actuel, de plus en plus de réunions sont enregistrées grâce aux smartphones des participants.

Cependant, dans l’état de l’art actuel, pour établir le plan de table d’une réunion, les participants doivent faire une action manuelle qui permet d’enregistrer leur position dans la salle de réunion. C’est par exemple le cas lors d’une saisie manuelle d’une position sur une table virtuelle dans une application ou flash d’un QR Code posé sur la table de réunion.

Il existe donc un besoin d’une technique de détection de participants à une réunion qui ne présente pas ces différents inconvénients de l’art antérieur. Notamment, il existe un besoin d’une telle technique qui permette de localiser les participants à une réunion les uns par rapports aux autres afin d’obtenir de manière automatique un plan de table de la réunion et ainsi restituer la réunion de manière immersive.

Présentation de l'invention

L’invention répond à ce besoin en proposant un procédé de détection d’une position d’au moins trois terminaux les uns par rapport aux autres, chacun desdits au moins trois terminaux étant associé à un locuteur. Ce procédé comprend :
- une réception, en provenance de chacun desdits au moins trois terminaux, d’au moins un paquet audio d’un flux audio enregistré par chacun desdits au moins trois terminaux.

Selon l’invention un tel procédé comprend :
- une détermination d’une position desdits au moins trois terminaux les uns par rapport aux autres, en fonction d’une détermination d’au moins un ratio d’amplitude sonore entre un premier et un deuxième paquet audio reçu. Les premier et deuxième paquet audio reçu provenant de deux terminaux différents parmi lesdits au moins trois terminaux.

Ainsi, le procédé selon l’invention permet de positionner les terminaux de chacun des locuteurs, ou participants à une réunion, les uns par rapport aux autres. En d’autres termes, le procédé selon l’invention, permet par exemple de déterminer un plan de table de réunion en détectant la position de chaque participant autour de cette table.

Ces terminaux peuvent être par exemple un smartphone, une tablette, ou tout autre équipement personnel comprenant un microphone.

La détection de la position des locuteurs se fait avantageusement de manière automatique grâce à l’enregistrement par chaque terminal de chaque participant, d’un flux audio émis par un des participants ayant pris la parole au cours de la réunion. Ce flux audio est ensuite reçu, par exemple par un serveur, sous forme de paquet audio de taille identique. L’analyse des amplitudes sonores de chaque paquet audio provenant de chaque terminal permet alors de déterminer la position de chaque participant.

En d’autres termes, lorsque qu’un locuteur, ou participant, prend la parole, les terminaux de chaque participant à la réunion enregistrent le flux audio émis par ce locuteur et le transmettent par exemple à un serveur, sous la forme de paquets audio de taille identique. Chaque paquet audio correspondant à un fragment du flux audio enregistré par chaque terminal pris individuellement. Le serveur, par exemple, analyse ensuite l’amplitude sonore de chaque paquet audio (par exemple en moyennant l’amplitude sonore de chaque échantillon audio du paquet audio) et les compare entre elles. Un ratio d’amplitude sonore entre un premier et un deuxième paquet audio est ensuite déterminé, les premier et deuxième paquet audio provenant de flux audio différents et donc de terminaux différents. Il est possible à partir de ce ratio d’ensuite déterminer la position de chaque participant les uns par rapport autre.

Les participants ou un auditeur tiers à la réunion peuvent ainsi lors d’une restitution de la réunion, comme par exemple sous la forme d’un compte rendu audio spatialisée, avoir l'impression que la voix de chaque locuteur provient d'une position particulière de l'espace. La spatialisation des voix contribue à améliorer l'intelligibilité, le confort d'écoute, la compréhension et la reconnaissance des locuteurs.

De manière avantageuse, le procédé selon l’invention permet de déterminer le plan de table de la réunion et ainsi permettre une restitution de la réunion comprenant une spatialisation virtuelle des voix des autres participants, ou locuteurs, recréant ainsi les sensations ressenties lors d'une conversation réelle.

Selon l’invention, le premier paquet audio reçu correspond à un paquet audio ayant l’amplitude sonore la plus élevée.

Ainsi, l’invention se propose de déterminer la position de participants à une réunion les uns par rapport aux autres grâce à l’analyse des amplitudes sonores des paquets audio provenant de chaque terminal des participants.

Le paquet audio ayant la plus élevée des amplitudes sonores correspond au paquet audio provenant du terminal du locuteur ayant pris la parole au cours de la réunion. Les paquets audio du flux audio enregistré par chacun des autres terminaux des participants n’intervenant pas, (i.e. n’étant pas en train de parler) ont donc une amplitude sonore plus faible puisque les autres participants sont éloignés de celui ayant actuellement pris la parole.

L’identification du paquet audio ayant la plus élevée des amplitudes permet de déterminer un ratio d’amplitudes sonores entre un premier paquet audio d’amplitude sonore élevée et représentatif du locuteur actuel, c’est-à-dire provenant du terminal du locuteur ayant pris la parole, et un deuxième paquet audio d’amplitude sonore plus faible et représentatif d’un participant auditeur, c’est-à-dire provenant d’un terminal d’un participant auditeur. Ce ratio permet alors de déterminer la position des auditeurs par rapport au locuteur.

Selon un aspect particulier, la détermination comprend une construction d’une matrice de distances entre lesdits au moins trois terminaux à partir dudit au moins un ratio d’amplitude sonore entre le premier et le deuxième paquet audio reçu.

Ainsi selon l’invention, après avoir identifié le paquet audio ayant la plus forte amplitude sonore, il est possible de construire une matrice de distances en prenant en compte un ratio d’amplitude sonore du paquet audio ayant l’amplitude la plus élevée, et d’un autre paquet audio d’amplitude sonore plus faible provenant d’un autre terminal.

Ainsi, lorsqu’un premier participant intervient, le paquet audio provenant de son terminal est celui ayant la plus élevée des amplitudes sonores. Après identification de ce paquet audio, un ratio d’amplitude entre ce paquet audio et chacun des autres paquets audio provenant de chacun des différents terminaux des autres participants permet de déterminer la position de chaque participant par rapport à l’actuel locuteur.

Selon un autre aspect particulier, la matrice de distances est construite en remplissant une ligne de la matrice, cette ligne étant associée au terminal ayant émis le paquet audio ayant l’amplitude sonore la plus élevée, à l’aide dudit au moins un ratio d’amplitude sonore déterminé.

Selon une caractéristique particulière, la construction de la matrice de distances comprend une mise à jour de la matrice de distances lors d’une réception de nouveaux paquets audio en provenance de chacun desdits au moins trois terminaux.

De manière avantageuse, la construction de la matrice de distances se fait progressivement au cours de la réunion, au fur et à mesure de l’enregistrement des flux audio par les terminaux. Cette mise à jour de la matrice de distances permet de préciser au fur et à mesure de la prise de parole des participants, leur position les uns par rapport aux autres.

Ainsi, pour chaque participant prenant la parole au cours de la réunion, un paquet audio d’amplitude la plus élevée est identifié (correspondant à l’enregistrement du flux audio de l’actuel locuteur par son terminal) et des ratios d’amplitude sonore entre des paquets d’amplitude sonore la plus élevée et des paquets audio de plus faible amplitude sonore sont déterminés, permettant ainsi d’ajouter de la redondance dans la matrice et d’affiner la position des participants les uns par rapport aux autres.

L’ensemble de ces différents ratios permet de positionner l’actuel locuteur par rapport aux participants auditeurs. Ainsi, plus le nombre de participants intervenant est élevé au cours de la réunion, plus la matrice de distances se complète et permet de déterminer précisément la position des participants.

Par ailleurs, lorsque les microphones de deux terminaux sont de fabrication différente, le procédé selon l’invention permet une compensation de la différence de gain entre terminaux. Ainsi, il est possible de déterminer de manière redondante la position entre deux participants grâce à la symétrie de la matrice de distances, et de compenser d’éventuelles erreurs liées par exemple à la différence d’origine des microphones des terminaux.

Selon un aspect particulier, la mise à jour comprend :
- une détermination d’un terminal parmi les trois terminaux pour lequel un nouveau paquet audio reçu est celui ayant l’amplitude sonore la plus élevée parmi les nouveaux paquets audio reçus,
- lorsque le terminal déterminé correspond à un terminal associé à une ligne de la matrice déjà remplie lors d’une précédente réception de paquets audio, la mise à jour comprend en outre :
i. un calcul de ratios d’amplitude sonore entre le nouveau paquet audio reçu en provenance du terminal déterminé et les autres nouveaux paquets audio,
ii. la mise à jour de la ligne de la matrice pour le terminal déterminé à l’aide d’une somme pondérée de la valeur du ratio dans la matrice et du ratio calculé.

De manière avantageuse, lorsque le même participant est toujours identifié comme le locuteur actuel, c’est-à-dire qu’une succession de paquet audio provenant toujours du même terminal ont une amplitude la plus élevée, alors la matrice de distances prend en compte une moyenne glissante des ratios d’amplitude sonore.

Selon un mode de réalisation de l’invention, la construction de la matrice de distances comprend le remplissage d’au moins une ligne de la matrice associée à un terminal n’ayant émis aucun paquet audio ayant l’amplitude sonore la plus élevée parmi lesdits au moins trois terminaux, la ligne étant remplie par des valeurs de distance calculées à partir de ratio symétriques de la matrice.

Ainsi, le procédé selon l’invention se propose notamment de déterminer la distance entre les participants à une réunion, même si l’un des participants n’intervient jamais. En effet, lorsqu’un premier locuteur prend la parole, le procédé selon l’invention permet de le positionner par rapport aux autres. On peut ainsi par triangulation obtenir la position d’un participant qui n’a pas parlé mais qui a écouté les autres participants et enregistré à l’aide de son terminal le flux audio provenant des autres participants.

Selon un autre mode de réalisation de l’invention, la matrice de distance est tronquée par suppression d’une ligne et d’une colonne associées à un terminal n’ayant émis aucun paquet audio ayant l’amplitude sonore la plus élevée parmi lesdits au moins trois terminaux.

Ainsi, il est possible de ne pas prendre en compte des ratios d’amplitude non disponibles afin de pouvoir positionner les autres locuteurs.

Dans un mode de réalisation particulier, la détermination d’une position desdits au moins trois terminaux les uns par rapport aux autres est faite à la fin de ladite réception.

Ainsi, le procédé selon l’invention permet de détecter la position de chacun des participants à une réunion après la tenue de celle-ci par exemple.

Avantageusement, le compte rendu audio issue de la réunion restitue la réunion avec une impression que la voix de chaque locuteur provient d'une position particulière de l'espace, permettant ainsi de s’immerger plus facilement dans la réunion.

Dans un autre mode de réalisation particulier, la détermination d’une position desdits au moins trois terminaux les uns par rapport aux autres est faite en temps réel.

Ainsi, le procédé selon l’invention permet notamment de détecter les mouvements ou changement de position d’un locuteur au cours de la réunion.

L’invention concerne également un dispositif de détection d’une position d’au moins trois terminaux les uns par rapport aux autres, chacun desdits au moins trois terminaux étant associé à un locuteur, le dispositif comprenant :
- un module de réception, en provenance de chacun desdits au moins trois terminaux, d’au moins un paquet audio d’un flux audio enregistré par chacun desdits au moins trois terminaux. Ce dispositif comprend également :
- un module de détermination d’une position desdits au moins trois terminaux les uns par rapport aux autres, en fonction d’une détermination d’au moins un ratio d’amplitude sonore entre un premier et un deuxième paquet audio reçu, lesdits premier et deuxième paquet audio reçu provenant de deux terminaux différents parmi lesdits au moins trois terminaux.

L’invention vise également un produit programme d’ordinateur comprenant des instructions de code de programme pour la mise en œuvre d’un procédé de détection d’une position d’au moins trois terminaux les uns par rapport aux autres, tel que décrit précédemment, lorsqu’il est exécuté par un processeur.

L’invention vise également un support d’enregistrement lisible par un ordinateur sur lequel est enregistré un programme d’ordinateur comprenant des instructions de code de programme pour l’exécution des étapes du procédé de détection de la position de participants à une réunion selon l’invention tel que décrit ci-dessus.

Un tel support d'enregistrement peut être n'importe quelle entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple une clé USB ou un disque dur.

D'autre part, un tel support d'enregistrement peut être un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens, de sorte que le programme d’ordinateur qu’il contient est exécutable à distance. Le programme selon l'invention peut être en particulier téléchargé sur un réseau par exemple le réseau Internet.

Alternativement, le support d'enregistrement peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé précité.

Le dispositif de détection, et le programme d'ordinateur correspondants précités présentent au moins les mêmes avantages que ceux conférés par le procédé de détection d’une position d’au moins trois terminaux les uns par rapport aux autres selon la présente invention.

Brève description des figures

D'autres buts, caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante, donnée à titre de simple exemple illustratif, et non limitatif, en relation avec les figures, parmi lesquelles :

: représente un exemple de contexte d’exécution du procédé selon l’invention.;

: représente un exemple de résultat de l’analyse des flux audio provenant des terminaux des participants;

: un exemple des étapes du procédé de détection d’une position des terminaux, et donc par extension des participants, les uns par rapport aux autres selon l’invention, selon un mode particulier de réalisation de l’invention ;

: représente un schéma synoptique simplifié de la structure matérielle d’un dispositif de détection d’une position d’au moins trois terminaux les uns par rapport aux autres, selon un mode particulier de réalisation de l’invention.

Description détaillée de l'invention

Le principe général de l’invention repose sur la détection automatique de la position autour d’une table de réunion de participants les uns par rapports aux autres, grâce au microphone de leur terminal, comme par exemple un smartphone, une tablette ou un ordinateur portable, sans qu’aucune action de leur part ne soit requise.

Par ailleurs, le procédé selon l’invention permet également par ce biais de détecter la forme de la table de réunion lorsque les participants sont répartis tout autour.

Pour cela, un calcul des distances relatives entre participants est réalisé en analysant le flux audio enregistré par les microphones des terminaux des participants. En particulier, le procédé selon l’invention se base sur l’analyse des amplitudes sonores de l’audio (ou niveaux sonores) captées par chaque smartphone.

Ainsi, tout smartphone ou terminal équipé d’un microphone apporté en réunion contribue à produire une visualisation du plan de table en réunion et une restitution au plus juste de l’emplacement des participants dès lors que le smartphone est posé à proximité de son propriétaire.

Ce procédé peut être utilisé dans un contexte professionnel : dans des applications produisant des compte-rendu de réunions multimédia ou dans l’audio-visuel pour exploiter les flux audio des smartphones et/ou en complément d’un microphone central et pour produire une scène avec son spatialisé en utilisant par exemple des méthodes comme le rendu binaural ou HOA.

On présente en lien avec laFigure 1, un exemple de contexte d’exécution du procédé selon l’invention.

Dans cet exemple, huit participants à une réunion sont répartis autour d’une table. Ces participants peuvent être placés autour d’une table ronde, ou dans un autre exemple autour d’une table triangulaire.

Avant le début de la réunion, chaque participant place son terminal, comme par exemple son smartphone devant lui sur la table, ou bien sur un support dédié. Lorsque débute la réunion, chaque participant, commence l’enregistrement de la réunion en lançant par exemple une application dédiée à l’enregistrement audio.

Par « participant » on entend une personne assistant à la réunion. Le participant peut être locuteur, c’est à dire qu’il prend la parole à un moment donné au cours de la réunion, ou auditeur, c’est-à-dire qu’il écoute l’intervention des autres participants. Un locuteur peut devenir auditeur et vice versa au cours de la réunion.

Dans un mode particulier de réalisation de l’invention, le procédé se propose donc de déterminer la position de chaque participant, les uns par rapport aux autres autour la table de réunion.

Pour cela, les flux audio émis par un ou plusieurs participants au cours de la réunion sont enregistrés par les terminaux de chacun des participants, puis transmis sous forme de paquets audio de taille fixe, comme par exemple 1 seconde, à un serveur. Les flux audio, et plus particulièrement l’amplitude sonore de chaque paquet audio réceptionnés par le serveur et provenant de chacun des terminaux des participants est analysée.

Dans un autre mode de réalisation, le procédé selon l’invention permet également de déterminer la forme de la table de réunion.

LaFigure 2représente un exemple de résultat de l’analyse des flux audio provenant des terminaux des participants. Dans l’exemple en lien avec laFigure 1, lorsque qu’un locuteur A, ou participant, prend la parole, les terminaux de chaque participant à la réunion enregistrent le flux audio émis par ce locuteur A et le transmettent par exemple à un serveur, sous la forme de paquets audio de taille fixe. Chaque paquet audio correspondant à un fragment du flux audio enregistré par chaque terminal pris individuellement. Le serveur, par exemple, analyse ensuite l’amplitude sonore de chaque paquet audio (par exemple en moyennant l’amplitude sonore de chaque échantillon audio du paquet audio) et les compare entre elles.

Ainsi il est possible de déterminer le plan de table de la réunion, c’est-à-dire que le procédé selon l’invention permet de déterminer par exemple que Eliot Reid est placé à la gauche de Léo Getz et que Perry Cox est placé entre John Dorian et Carla Espinosa.

Plus particulièrement, dans un autre exemple en lien avec laFigure 3, on présente en détail les étapes du procédé de détection d’une position des terminaux, et donc par extension des participants, les uns par rapport aux autres.

Dans cet exemple, on considère trois participants A, B et C à une réunion qui disposent de smartphones ou tout terminal équipé de microphone (ordinateur portable ou tablette). Chaque participant A, B et C place près de lui son terminal, dans cet exemple leur smartphone, sur la table ou sur des supports dédiés sur la table.

Ainsi, les trois participants A, B et C disposent de smartphones sA, sB et sC positionnés en face d’eux sur la table, de tel manière que lorsque l’on détecte la position d’un des terminaux par rapport aux autres, par extension on détecte la position du participant associé au terminal par rapport aux autres participants.

Les smartphones des participants sont connectés à un serveur. Les flux audio référencés FA, FB et FC sont enregistrés par les terminaux sA, sB et sC, puis transmis à un serveur et analysés

Le serveur réceptionne dans une étape 301 les flux audio FA, FB, FC enregistrés respectivement par les terminaux sA, sB et sC, sous la forme de paquets audio, PA_1…m, PB_1…met PC_1…m, en provenance respectivement des terminaux sA, sB et sC. Ces paquets audio sont de taille fixe, par exemple 1 seconde.

Dans un mode de réalisation selon l’invention, l’analyse de l’amplitude sonore de ces flux audio FA, FB et FC est faite en temps réel. En d’autres termes, la détection de la position des terminaux, et donc des participants, les uns par rapport aux autres se fait au cours de la réunion. Ainsi, le repositionnement des personnes autour de la table peut être détecté.

Dans un autre mode de réalisation selon l’invention, l’analyse de l’amplitude sonore des flux audio FA, FB et FC est faite à la fin de leur enregistrement et de leur réception par le serveur. En d’autres termes, une fois la réunion achevée, la détection de la position des terminaux, et donc des participants, les uns par rapport aux autres se fait à posteriori.

Pour chaque paquet audio PA₁, PB₁, PC₁provenant de chacun des terminaux sA, sB et sC des participants, on détermine une position des trois terminaux sA, sB et sC les uns par rapport aux autres, en fonction de la détermination d’au moins un ratio d’amplitude sonore entre un premier et un deuxième paquet audio reçu. Les premier et deuxième paquet audio reçu proviennent de deux terminaux différents parmi les trois terminaux.

Pour cela, les étapes suivantes sont mises en œuvre :

1. synchronisation des paquets audio.

Dans une étape 302, les paquets audio PA₁, PB₁et PC₁des flux audio FA, FB et FC enregistrés par les terminaux des participants sA, sB et sC sont synchronisés. La synchronisation des paquets audio est faite en utilisant un procédé connu somme par exemple une méthode de cross-corrélation.

Dans un mode de réalisation selon l’invention, l’amplitude sonore des paquets audio de transmission du flux audio PA₁, PB₁et PC₁est analysée pour l’ensemble des échantillons de chaque paquet.

Dans un autre mode de réalisation particulier, les paquets audio PA₁, PB₁et PC₁sont redimensionnés dans une sous étape de redécoupage ou de concaténation, et l’analyse de l’amplitude sonore se fait pour chaque sous-paquet ou ensemble de paquets concaténés. Ainsi, la taille des paquets de transmission du flux audio au serveur PA₁, PB₁et PC₁peut être différente de la taille de paquets utilisés pour l’analyse.

2. détermination de l’amplitude totale.

Dans une étape 303, une fois les paquets audio synchronisés, pour chaque paquet audio, on détermine une amplitude sonore totale, ou amplitude sonore. L’amplitude sonore totale EA, EB, EC des paquets PA₁, PB₁et PC₁est donnée par :

où n est le nombre d’échantillons dans le paquet audio.

Pour un calcul d’amplitude sonore totale moyenne, une division par n est nécessaire. Cependant, comme présenté par la suite, des ratios d’amplitude sonore sont déterminés, la division par n n’est donc pas nécessaire.

3. détermination d’une matrice d’amplitude entre participants.

3.1. Détermination d’un ratio d’amplitude sonore totale.

Dans une étape 304, le procédé selon l’invention se propose de faire le ratio entre les amplitudes sonores totales des différents paquets audio PA₁, PB₁, PC₁, afin de construire une matrice dite de “ratio d’amplitude”.

Pour cela, on identifie dans un premier temps un premier paquet audio parmi les paquets audio réceptionnés par le serveur, ici PA₁, PB₁, PC₁, ayant l’amplitude sonore la plus élevée. Le paquet audio ayant la plus élevée des amplitudes sonores correspond au paquet audio provenant du terminal du locuteur ayant pris la parole au cours de la réunion. Les paquets audio du flux audio enregistré par chacun des autres terminaux des participants n’intervenant pas, (i.e. n’étant pas en train de parler) ont donc une amplitude sonore plus faible puisque les autres participants sont éloignés de celui ayant actuellement pris la parole.

Ainsi, si EA est l’amplitude sonore totale la plus élevée par rapport aux amplitudes sonores EB et EC, le ratio d’amplitude sonore entre les paquets PA₁et PB₁, c’est-à-dire entre les terminaux sA et sB, est déterminé par RAB=EA/EB. Le ratio d’amplitude entre les paquets PA₁et PC₁, c’est-à-dire entre les terminaux sA et sC est déterminé par RAC=EA/EC.

Dans un autre exemple, si EB est l’amplitude sonore la plus élevée par rapport aux amplitudes sonores EA et EC, le ratio d’amplitude entre les paquets PB₁et PA₁, c’est-à-dire entre les terminaux sA et sB, est déterminé par RBA=EB/EA. Le ratio d’amplitude entre les paquets PB₁et PC₁, c’est-à-dire entre les terminaux sB et sC, est déterminé par RBC=EB/EC.

Ainsi, les ratios d’amplitude sonore sont toujours supérieurs à 1.

Par la suite dans une étape 305, une matrice de ratios d’amplitude sonore est construite à partir des ratios d’amplitude sonore entre le paquet audio ayant l‘amplitude sonore la plus élevée, ici PA₁et un des autres paquet audio reçu, PB₁et/ou PC₁.

Pour chaque paquet audio PA₁, PB₁, PC₁, seule une partie de la matrice de ratio d’amplitude sonore AM, représentée ci-dessous, est remplie. En d’autres termes, la matrice est construite en remplissant une ligne associée au terminal ayant émis le paquet audio ayant l’amplitude sonore la plus élevée, dans notre exemple sA, à l’aide des ratios d’amplitude sonore déterminés RAB et RAC.

En effet, dans l’exemple où EA est identifiée comme étant l’amplitude sonore totale la plus élevée parmi les amplitudes sonores EB, EC, les ratios d’amplitude sonore entre EB et EC ne sont pas représentatifs des distances entre participants lorsque l’amplitude sonore EA est la plus importante.

3.2. Détermination d’une moyenne glissante.

Dans un mode de réalisation, pour les paquets audio suivants PA_m, PB_m,PC_m, lorsque EA est encore l’amplitude sonore la plus forte, le procédé selon l’invention propose de faire une moyenne glissante sur les valeurs d’amplitude sonore totale, comme par exemple en utilisant un filtre moyenneur avec un coefficient C égale à 0.99. Ainsi, la nouvelle matrice de ratio est donnée par :

3.3. Mise à jour de la matrice de ratio d’amplitude

De la même manière, lorsque la source audio provenant des participants B ou C est la plus énergétique, c’est-à-dire lorsque l’amplitude sonore totale EB, EC de nouveaux paquets audio PB_mou PC_mest la plus élevée, la matrice est mise à jour, ce qui permet au fil de la réunion de remplir totalement la matrice de ratio d’amplitude.

Ainsi, pour chaque participant prenant la parole au cours de la réunion des ratios d’amplitude sonore entre des paquets d’amplitude sonore la plus élevée et des paquets audio de plus faible amplitude sonore sont déterminés, permettant ainsi d’ajouter de la redondance dans la matrice et d’affiner la position des participants les uns par rapport aux autres.

Plus particulièrement, lors de la mise à jour on détermine un terminal parmi les trois terminaux pour lequel un nouveau paquet audio reçu est celui ayant l’amplitude sonore la plus élevée parmi les nouveaux paquets audio reçus. Lorsque le terminal déterminé correspond à un terminal associé à une ligne de la matrice déjà remplie lors d’une précédente réception de paquets audio, alors on calcule des ratios d’amplitude sonore entre le nouveau paquet audio reçu en provenance du terminal déterminé et les autres nouveaux paquets audio. La mise à jour de la ligne de la matrice pour le terminal déterminé se fait alors à l’aide d’une somme pondérée de la valeur du ratio dans la matrice et du ratio calculé.

Dans un autre mode de réalisation, on peut également avoir la même démarche avec des ratios d’énergie ou directement des distances calculées selon l’étape 4 présentée ci-dessous.

Il est aussi nécessaire de fixer un seuil, par exemple inférieur ou égal à 0, en dessous duquel l’amplitude ne peut pas être considérée comme valide.

4. Détermination d’une matrice de distance

Afin de déterminer une position des terminaux sA, sB, sC, c’est-à-dire des participants A, B, C, les uns par rapport aux autres, la matrice de ratio d’amplitude sonore A, est transformée en matrice de pression DBA dans une étape 306, en prenant le Log10 de chaque élément de la matrice, c’est-à-dire de chaque ratio d’amplitude sonore.

Ainsi, on détermine une matrice de pression DBA:

Dans une étape 307, en considérant que la pression acoustique décroit de 6dB par doublement de la distance, et en se basant sur une hypothèse de distance entre les participants A et B, par exemple de 1m, il est possible de déterminer les distances entre les autres participants. Les distances sont alors déterminées à un facteur homothétique près (facteur d’échelle) par :

Il apparaît que la distance entre participants peut être obtenu directement par la construction de la matrice de distances D à partir des ratios d’amplitude calculés. Une telle matrice est mise à jour au fur et à mesure de la réunion comme expliqué précédemment pour la matrice de ratio.

En toute logique, le ratio d’amplitude RAB devrait être égale au ratio d’amplitude RBA. Toutefois, il existe des différences de gains entre terminaux qui font que RBA et RAB peuvent être différents. Dans ce cas-là, les différences de gain entre terminaux sont avantageusement compensées en prenant en compte les deux valeurs.

En effet, un gain plus fort pour le terminal sA que pour le terminal sB a tendance à éloigner les participants du point de vue du participant A (le ratio d’amplitude RAB est alors plus grand que si les terminaux sA et sB ont le même gain), mais à les rapprocher du point de vue du participant B (le ratio d’amplitude RBA est plus petit que si les terminaux sA et sB ont le même gain). On peut lors de cette étape faire une moyenne des ratios d’amplitude RBA et RAB pour annuler les contributions de gains respectifs.

Néanmoins, l’analyse multidimensionnelle décrite par la suite dans la section 5 permet aussi de prendre en compte ces différences.

5. Détermination de la position entre participants .

5.1 Cas des matrices complètes.

Dans cette variante de réalisation, on considère que la matrice de distance est complète. Autrement dit, on considère ici que chaque participant a pris la parole au cours de la réunion, de sorte que chaque ligne de la matrice de distance est remplie.Lors de l’étape 307, pour déterminer les positions des participants à la réunion on peut utiliser une méthode d’analyse multidimensionnelle sur la matrice des distances D. Dans un exemple, on utilise un algorithme MDS classic (« MultiDimentional Scaling ») décrit par Torgerson Warren S. (Theory & Methods of Scaling. New York : Wiley. ISBN 978-0-89874-722-5). Le gain des microphones sont ainsi compensés.

5.2. Cas des valeurs manquantes : matrices incomplètes.

Il peut arriver que les matrices de distances ne soient pas complètes, notamment en début de réunion, ou dans le cas où peu de personnes parlent durant la réunion.

Dans le cas de valeurs manquantes, on peut remplacer certaines valeurs manquantes par leur valeur symétrique. En effet, le procédé selon l’invention propose de remplir au moins une ligne de la matrice associée à un terminal n’ayant émis aucun paquet audio ayant l’amplitude sonore la plus élevée parmi les trois terminaux. Cette ligne est alors remplie par des valeurs de ratio symétriques de la matrice.

Dans notre exemple, si seulement les locuteurs A et B ont parlé, la matrice de distance D ainsi obtenue est :

La matrice de distance D peut alors être complétée par des ratios symétriques. On obtient alors la matrice de distance D’:

On peut ainsi par triangulation obtenir la position d’une personne qui n’a pas parlé, mais qui a écouté deux personnes qui parlaient lors de la réunion.

Plus le nombre de participants est élevé, plus le positionnement est précis du fait de la redondance d’informations sur les distances.

Dans un autre mode de réalisation selon l’invention, il est aussi possible de ne pas prendre en compte les lignes et colonnes qui contiennent des valeurs non disponibles afin de positionner les autres locuteurs. Dans un exemple, on a la matrice de distance D :

Cette matrice de distance peut alors être complétée par les valeurs symétriques et donner la matrice de distance D’:

La matrice D’ peut alors être tronquée pour obtenir :

où seuls les participants A et B sont positionnés.

On présente désormais en lien avec laFigure 4un schéma synoptique simplifié de la structure matérielle du dispositif de détection d’une position d’au moins trois terminaux les uns par rapport aux autres, selon un mode particulier de réalisation de l’invention. Ce dispositif de détection comprend un module de réception M1 apte à réceptionner au moins un paquet audio d’un flux audio enregistré par chacun des trois terminaux et un module de détermination d’une position M2, apte à déterminer une position des trois terminaux les uns par rapport aux autres, en fonction d’une détermination d’au moins un ratio d’amplitude sonore entre un premier et un deuxième paquet audio reçu. Les premier et deuxième paquet audio reçu provenant de deux terminaux différents parmi lesdits au moins trois terminaux.

Ainsi, la détection de la position des locuteurs se fait avantageusement de manière automatique grâce à l’enregistrement par chaque terminal de chaque participant, d’un flux audio émis par un des participants ayant pris la parole au cours de la réunion. Ce flux audio est ensuite reçu par le module M1, sous forme de paquet audio de taille identique. L’analyse, par le module M2, des amplitudes sonores de chaque paquet audio provenant de chaque terminal permet alors de déterminer la position de chaque participant.

Dans un mode particulier de l’invention, ce dispositif de détection est intégré à un serveur.

On notera que le terme module, ou unité, peut correspondre aussi bien à un composant logiciel qu’à un composant matériel ou un ensemble de composants matériels et logiciels, un composant logiciel correspondant lui-même à un ou plusieurs programmes ou sous-programmes d’ordinateur ou de manière plus générale à tout élément d’un programme apte à mettre en œuvre une fonction ou un ensemble de fonctions telles que décrites pour les modules concernés. De la même manière, un composant matériel correspond à tout élément d’un ensemble matériel (ou hardware) apte à mettre en œuvre une fonction ou un ensemble de fonctions pour le module concerné (circuit intégré, carte à puce, carte à mémoire, etc.).

Plus généralement, un tel dispositif de détection comprend une mémoire vive MEM (par exemple une mémoire RAM), une unité de traitement équipée par exemple d'un processeur CPU, et pilotée par un programme d’ordinateur, et comportant des instructions de code représentatives des modules de réception M1, et de détermination d’une position M2, stocké dans une mémoire morte (par exemple une mémoire ROM ou un disque dur). A l'initialisation, les instructions de code du programme d'ordinateur sont par exemple chargées dans la mémoire vive avant d'être exécutées par le processeur CPU de l'unité de traitement. Le processeur de l’unité de traitement pilote la détermination d’une position des trois terminaux les uns par rapport aux autres, en fonction d’une détermination d’au moins un ratio d’amplitude sonore entre un premier et un deuxième paquet audio reçu comme illustrés dans laFigure 3.

Claims

Procédé de détection d’une position d’au moins trois terminaux les uns par rapport aux autres, chacun desdits au moins trois terminaux étant associé à un locuteur, ledit procédé comprenant :
- une réception, en provenance de chacun desdits au moins trois terminaux, d’au moins un paquet audio d’un flux audio enregistré par chacun desdits au moins trois terminaux,
caractérisé en ce qu’il comprend :
- une détermination d’une position desdits au moins trois terminaux les uns par rapport aux autres, en fonction d’une détermination d’au moins un ratio d’amplitude sonore entre un premier et un deuxième paquet audio reçu, lesdits premier et deuxième paquet audio reçu provenant de deux terminaux différents parmi lesdits au moins trois terminaux.
Procédé de détection selon la revendication 1,caractérisé en ce queledit premier paquet audio reçu correspond à un paquet audio ayant l’amplitude sonore la plus élevée.
Procédé de détection selon l’une quelconque des revendications 1 à 2,caractérisé en ce queladite détermination comprend une construction d’une matrice de distances entre lesdits au moins trois terminaux à partir dudit au moins un ratio d’amplitude sonore entre ledit premier et ledit deuxième paquet audio reçu.
Procédé de détection selon la revendication 3,caractérisé en ce queladite matrice de distances est construite en remplissant une ligne de la matrice, ladite ligne étant associée au terminal ayant émis le paquet audio ayant l’amplitude sonore la plus élevée, à l’aide dudit au moins un ratio d’amplitude sonore déterminé.
Procédé de détection selon l’une quelconque des revendications 3 à 4,caractérisé en ce queladite construction de ladite matrice de distances comprend une mise à jour de ladite matrice de distances lors d’une réception de nouveaux paquets audio en provenance de chacun desdits au moins trois terminaux.
Procédé de détection selon la revendication 5,caractérisé en ce queladite mise à jour comprend :
- une détermination d’un terminal parmi les trois terminaux pour lequel un nouveau paquet audio reçu est celui ayant l’amplitude sonore la plus élevée parmi lesdits nouveaux paquets audio reçus,
- lorsque ledit terminal déterminé correspond à un terminal associé à une ligne de ladite matrice déjà remplie lors d’une précédente réception de paquets audio, ladite mise à jour comprend en outre :
i. un calcul de ratios d’amplitude sonore entre ledit nouveau paquet audio reçu en provenance dudit terminal déterminé et lesdits autres nouveaux paquets audio,
ii. ladite mise à jour de ladite ligne de la matrice pour le terminal déterminé à l’aide d’une somme pondérée de la valeur du ratio dans la matrice et du ratio calculé.
Procédé de détection selon l’une des revendications 3 à 6,caractérisé en ce queladite construction de ladite matrice de distances comprend le remplissage d’au moins une ligne de la matrice associée à un terminal n’ayant émis aucun paquet audio ayant l’amplitude sonore la plus élevée parmi lesdits au moins trois terminaux, ladite ligne étant remplie par des valeurs de distance calculées à partir de ratio symétriques de ladite matrice.
Procédé de détection selon l’une quelconque des revendications 3 à 6,caractérisé en ce queladite matrice de distance est tronquée par suppression d’une ligne et d’une colonne associées à un terminal n’ayant émis aucun paquet audio ayant l’amplitude sonore la plus élevée parmi lesdits au moins trois terminaux.
Procédé de détection selon l’une quelconque des revendications 1 à 8,caractérisé en ce queladite détermination d’une position desdits au moins trois terminaux les uns par rapport aux autres est faite à la fin de ladite réception.
Procédé de détection selon l’une quelconque des revendications 1 à 8,caractérisé en ce queladite détermination d’une position desdits au moins trois terminaux les uns par rapport aux autres est faite en temps réel.
Dispositif de détection d’une position d’au moins trois terminaux les uns par rapport aux autres, chacun desdits au moins trois terminaux étant associé à un locuteur, ledit dispositif comprenant :
- un module de réception, en provenance de chacun desdits au moins trois terminaux, d’au moins un paquet audio d’un flux audio enregistré par chacun desdits au moins trois terminaux,
caractérisé en ce qu’il comprend :
- un module de détermination d’une position desdits au moins trois terminaux les uns par rapport aux autres, en fonction d’une détermination d’au moins un ratio d’amplitude sonore entre un premier et un deuxième paquet audio reçu, lesdits premier et deuxième paquet audio reçu provenant de deux terminaux différents parmi lesdits au moins trois terminaux.
Programme d’ordinateur comprenant des instructions de code de programme pour la mise en œuvre d’un procédé de détection d’une position d’au moins trois terminaux les uns par rapport aux autres, chacun desdits au moins trois terminaux étant associé à un locuteur selon l'une quelconque des revendications 1 à 10, lorsqu’il est exécuté par un processeur.