FR3124593A1 - VIDEOCONFERENCING SIGNAL RECEPTION SCORE - Google Patents

VIDEOCONFERENCING SIGNAL RECEPTION SCORE Download PDF

Info

Publication number
FR3124593A1
FR3124593A1 FR2106694A FR2106694A FR3124593A1 FR 3124593 A1 FR3124593 A1 FR 3124593A1 FR 2106694 A FR2106694 A FR 2106694A FR 2106694 A FR2106694 A FR 2106694A FR 3124593 A1 FR3124593 A1 FR 3124593A1
Authority
FR
France
Prior art keywords
terminal
signal
user
videoconference
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR2106694A
Other languages
French (fr)
Other versions
FR3124593B1 (en
Inventor
Olivier Lepetit
Christian COLETTE
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
Orange SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange SA filed Critical Orange SA
Priority to FR2106694A priority Critical patent/FR3124593B1/en
Publication of FR3124593A1 publication Critical patent/FR3124593A1/en
Application granted granted Critical
Publication of FR3124593B1 publication Critical patent/FR3124593B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2227Quality of service monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/567Multimedia conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/008Visual indication of individual signal levels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/42Graphical user interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/50Aspects of automatic or semi-automatic exchanges related to audio conference
    • H04M2203/5036Aspects of automatic or semi-automatic exchanges related to audio conference using conference for collection of feedback

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Otolaryngology (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

SCORE DE RÉCEPTION D’UN SIGNAL DE VISIOCONFÉRENCE La présente description concerne le traitement de données de visioconférence établie entre un premier terminal, émetteur (TER), et au moins un deuxième terminal, récepteur (TER’). Le premier terminal comportant au moins :- un capteur (MIC, CAM) pour acquérir des données d’un signal de visioconférence, - une connexion (COM) à un réseau pour transmettre le signal de visioconférence au terminal récepteur via le réseau (RES), et- une interface homme-machine (ECR) à disposition d’un utilisateur du premier terminal.Le procédé prévoit un pilotage d’émission par l’interface homme-machine d’un signal représentatif d’un score de perception du signal de visioconférence reçu par le terminal récepteur, permettant à l’utilisateur du premier terminal d’améliorer au moins sa position par rapport audit capteur. Figure de l’abrégé : Figure 1VIDEOCONFERENCE SIGNAL RECEPTION SCORE This description concerns the processing of videoconference data established between a first terminal, sender (TER), and at least one second terminal, receiver (TER'). The first terminal comprising at least:- a sensor (MIC, CAM) for acquiring data from a videoconference signal, - a connection (COM) to a network for transmitting the videoconference signal to the receiver terminal via the network (RES) , and- a man-machine interface (ECR) available to a user of the first terminal. videoconference received by the receiver terminal, allowing the user of the first terminal to improve at least his position with respect to said sensor. Abstract Figure: Figure 1

Description

SCORE DE RÉCEPTION D’UN SIGNAL DE VISIOCONFÉRENCEVIDEOCONFERENCING SIGNAL RECEPTION SCORE

La présente description concerne un traitement de données de visioconférence.This description relates to videoconference data processing.

Plus particulièrement, elle concerne le traitement de données sonores acquises par un terminal d’un participant pendant une séance de visioconférence.More specifically, it relates to the processing of sound data acquired by a terminal of a participant during a videoconference session.

Typiquement, lorsqu’un participant a besoin de prendre la parole dans une séance de visioconférence, ce participant ne sait jamais si les autres participants l’entendent correctement (ou le voient correctement), ce qui l’oblige à demander aux autres participants s’ils l'entendent (ou le voient) bien. Avec l’augmentation actuelle de la fréquence des réunions en visioconférence, il est courant en effet que l’utilisateur prenant la parole soit obligé de demander aux autres participants s’il est bien entendu, ce qui coupe la conversation en cours et rend l’utilisation fastidieuse avec un mauvais ressenti de l’utilisateur et des autres participants.Typically, when a participant needs to speak in a videoconference session, this participant never knows if the other participants hear him correctly (or see him correctly), which forces him to ask the other participants to they hear it (or see it) well. With the current increase in the frequency of videoconference meetings, it is indeed common for the user taking the floor to be forced to ask the other participants if they are heard correctly, which cuts off the conversation in progress and makes the tedious use with a bad feeling for the user and other participants.

La présente description vient améliorer cette situation.The present description improves this situation.

Il est proposé un procédé de traitement de données de visioconférence établie entre un premier terminal, émetteur, et au moins un deuxième terminal, récepteur, le premier terminal comportant au moins :
- un capteur pour acquérir des données d’un signal de visioconférence,
- une connexion à un réseau pour transmettre le signal de visioconférence au terminal récepteur via le réseau, et
- une interface homme-machine à disposition d’un utilisateur du premier terminal,
le procédé comportant :
- un pilotage d’émission par l’interface homme-machine d’un signal représentatif d’un score de perception du signal de visioconférence reçu par le terminal récepteur, permettant à l’utilisateur du premier terminal d’améliorer au moins sa position par rapport audit capteur.
A method for processing videoconference data established between a first terminal, sender, and at least one second terminal, receiver, is proposed, the first terminal comprising at least:
- a sensor for acquiring data from a videoconference signal,
- a connection to a network for transmitting the videoconference signal to the receiving terminal via the network, and
- a man-machine interface available to a user of the first terminal,
the process comprising:
- emission control by the man-machine interface of a signal representative of a perception score of the videoconference signal received by the receiving terminal, allowing the user of the first terminal to improve at least his position by report to said sensor.

Le capteur précité peut être un microphone (référence MIC de la commentée plus loin) ou une caméra (CAM) que peut comporter le premier terminal. L’interface homme-machine du premier terminal peut comporter un écran d’affichage (ECR) ou encore en variante ou en complément des haut-parleurs pour émettre un signal sonore donnant le score estimé précité.The aforementioned sensor can be a microphone (reference MIC of the commented on below) or a camera (CAM) that the first terminal may include. The man-machine interface of the first terminal can include a display screen (ECR) or alternatively or in addition to loudspeakers to emit an audible signal giving the aforementioned estimated score.

Ainsi, grâce notamment à ce guidage par l’interface homme-machine, l’utilisateur du premier terminal peut savoir d’une part s’il est bien perçu par ses interlocuteurs pendant la séance de visioconférence sans devoir interrompre une discussion en cours en posant cette question à ses interlocuteurs, et peut d’autre part, prendre des mesures pour améliorer ce score, par exemple en se rapprochant de son microphone et/ou de sa caméra et en se positionnant face à ce ou ces capteurs. L’utilisateur du premier terminal peut en outre régler éventuellement le gain du microphone du premier terminal, par exemple pour augmenter le niveau sonore du signal de visioconférence que délivre le premier terminal. Dans une réalisation particulière décrite plus loin, le procédé peut permettre en outre d’évaluer un score de dégradation des données reçues par le deuxième terminal, et liée à des conditions de transmission via le réseau. Dans ce cas, l’utilisateur peut prendre d’autres dispositions telles que par exemple arrêter le flux vidéo et ne conserver que le flux audio à transmettre au deuxième terminal, ou encore éventuellement changer de réseau de transmission (en passant par exemple d’un connexion à une passerelle (ou « box ») internet à une connexion partagée offerte par un terminal mobile connecté à un réseau cellulaire).Thus, thanks in particular to this guidance by the man-machine interface, the user of the first terminal can know on the one hand if he is well perceived by his interlocutors during the videoconference session without having to interrupt a discussion in progress by asking this question to his interlocutors, and can on the other hand, take measures to improve this score, for example by moving closer to his microphone and/or his camera and by positioning himself in front of this or these sensors. The user of the first terminal can also optionally adjust the gain of the microphone of the first terminal, for example to increase the sound level of the videoconference signal delivered by the first terminal. In a particular embodiment described below, the method can also make it possible to evaluate a degradation score of the data received by the second terminal, and linked to transmission conditions via the network. In this case, the user can take other measures such as, for example, stopping the video stream and keeping only the audio stream to be transmitted to the second terminal, or even possibly changing the transmission network (by passing for example from a connection to an Internet gateway (or "box") to a shared connection offered by a mobile terminal connected to a cellular network).

Dans une réalisation où les données du signal de visioconférence acquises par le capteur comportent au moins des données sonores, le score de perception précité peut être estimé via une analyse des données sonores afin d’estimer au moins un score de prépondérance d’un signal de parole de l’utilisateur du premier terminal relativement à du bruit.In an embodiment where the data of the videoconference signal acquired by the sensor includes at least sound data, the aforementioned perception score can be estimated via an analysis of the sound data in order to estimate at least a preponderance score of a signal of speech of the user of the first terminal relative to noise.

Par exemple, l’analyse des données sonores peut comporter une détermination de paramètres vocaux dans un domaine spectral, propres à une fréquence fondamentale et à des formants, dans le signal de parole de l’utilisateur. Typiquement ici, la fréquence fondamentale précitée est propre à la tonalité de la voix, et les formats peuvent être caractérisés par des modulations notamment en fréquence, liées à la forme du conduit de la voix défini par la position des lèvres, de la langue, de la glotte, etc.For example, the analysis of sound data may include a determination of vocal parameters in a spectral domain, specific to a fundamental frequency and to formants, in the user's speech signal. Typically here, the aforementioned fundamental frequency is specific to the tone of the voice, and the formats can be characterized by modulations, in particular in frequency, linked to the shape of the voice duct defined by the position of the lips, the tongue, the glottis, etc.

Dans une réalisation, l’analyse des données sonores peut comporter en outre une détermination d’un niveau sonore dudit signal de parole.In one embodiment, the analysis of the sound data may further comprise a determination of a sound level of said speech signal.

Dans une réalisation où les données du signal de visioconférence acquises par le capteur comportent au moins des données d’image de l’utilisateur du premier terminal, l’estimation dudit score de perception peut comporter une analyse des données d’image pour estimer au moins un score de présence de surface de peau de l’utilisateur du premier terminal dans des images du signal de visioconférence.In an embodiment where the videoconference signal data acquired by the sensor includes at least image data of the user of the first terminal, the estimation of said perception score may include an analysis of the image data to estimate at least a skin surface presence score of the user of the first terminal in images of the videoconference signal.

Dans une première réalisation, le score de perception est estimé à partir d’une comparaison entre le signal de visioconférence transmis au deuxième terminal et un signal de référence correspondant à un signal de visioconférence de l’utilisateur, préenregistré par le capteur. Par exemple, ce signal de référence peut être préenregistré dans des conditions optimales de captation en recommandant à l’utilisateur du premier terminal de se positionner face au capteur de son terminal et à une distance optimale pour une bonne captation.In a first embodiment, the perception score is estimated from a comparison between the videoconference signal transmitted to the second terminal and a reference signal corresponding to a videoconference signal from the user, prerecorded by the sensor. For example, this reference signal can be pre-recorded under optimal capture conditions by recommending the user of the first terminal to position himself facing the sensor of his terminal and at an optimal distance for good capture.

Dans une deuxième réalisation, complémentaire ou alternative à la première réalisation, l’estimation du score de perception est effectuée en particulier par le deuxième terminal, récepteur.In a second embodiment, complementary or alternative to the first embodiment, the estimation of the perception score is carried out in particular by the second terminal, receiver.

Ainsi, dans les première et deuxième réalisations, combinées, le signal de référence peut être enregistré auprès d’un serveur de visioconférence en correspondance d’un identifiant de l’utilisateur du premier terminal, et le deuxième terminal obtient du serveur, en fonction de l’identifiant de l’utilisateur du premier terminal des données du signal de référence, pour comparer le signal de visioconférence reçu du premier terminal au signal de référence, et de là estimer le score de perception.Thus, in the first and second embodiments, combined, the reference signal can be recorded with a videoconferencing server in correspondence of an identifier of the user of the first terminal, and the second terminal obtains from the server, according to the identifier of the user of the first terminal of the data of the reference signal, to compare the videoconference signal received from the first terminal with the reference signal, and from there estimate the perception score.

Le deuxième terminal peut, dans la deuxième réalisation en particulier, renvoyer à destination du premier terminal un signal représentatif du score de perception pour piloter l’émission par l’interface homme-machine précitée du signal représentatif du score de perception (par exemple en pilotant un affichage sur l’écran ECR d’un signal représentatif du score afin d’avertir l’utilisateur du premier terminal). Le score peut être évalué de 0 à 5 par exemple et être clignotant pour attirer l’attention de l’utilisateur notamment s’il est bas. Comme présenté ci-dessus, le score peut refléter des conditions de captation par le capteur, mais aussi des conditions de transmission via le réseau. Il est proposé ci-après une réalisation permettant de distinguer les dégradations possibles du score, liées à ces conditions respectives.The second terminal can, in the second embodiment in particular, send back to the first terminal a signal representative of the perception score to control the transmission by the aforementioned man-machine interface of the signal representative of the perception score (for example by controlling a display on the ECR screen of a signal representative of the score in order to warn the user of the first terminal). The score can be evaluated from 0 to 5 for example and be flashing to attract the user's attention, especially if it is low. As presented above, the score can reflect conditions of capture by the sensor, but also conditions of transmission via the network. There is proposed below an embodiment making it possible to distinguish the possible degradations of the score, linked to these respective conditions.

Par exemple dans la réalisation où le signal de visioconférence comporte des données sonores, le premier terminal peut déterminer un premier jeu de paramètres vocaux du type précité, dans un signal que capte directement le capteur, et le deuxième terminal peut quant à lui déterminer (étape S6 de la ) un deuxième jeu de paramètres vocaux dans le signal (SIG’) par le deuxième terminal (TER’). Le deuxième terminal (TER’) peut recevoir du premier terminal (TER) ledit premier jeu de paramètres vocaux pour comparer (étape S10 de la ) le deuxième jeu au premier jeu, et de là, estimer une dégradation du signal (SIG’) reçu par le deuxième terminal par rapport au signal (SIG) capté par le capteur, cette dégradation étant alors liée à des conditions de transmission via le réseau (RES).For example, in the embodiment where the videoconference signal includes sound data, the first terminal can determine a first set of voice parameters of the aforementioned type, in a signal that the sensor picks up directly, and the second terminal can determine (step S6 of the ) a second set of voice parameters in the signal (SIG') by the second terminal (TER'). The second terminal (TER') can receive from the first terminal (TER) said first set of voice parameters to compare (step S10 of the ) the second game to the first game, and from there, estimate a degradation of the signal (SIG') received by the second terminal with respect to the signal (SIG) picked up by the sensor, this degradation then being linked to transmission conditions via the network (RES).

Dans une telle réalisation, on peut prévoir par exemple que :
- si le score de perception est inférieur à un premier score (S9), typiquement un mauvais score (de 2 ou 3 sur 5 par exemple), et
- si en outre une différence estimée entre le premier jeu et le deuxième jeu est inférieure à un deuxième score (S12), ce qui typiquement est représentatif d’une faible dégradation par le réseau,
alors le deuxième terminal (TER’) peut transmet au premier terminal (TER) un message de recommandations destiné à l’utilisateur (UT) du premier terminal (TER) pour améliorer au moins sa position par rapport audit capteur (MIC).
In such an embodiment, it is possible, for example, to provide that:
- if the perception score is lower than a first score (S9), typically a bad score (2 or 3 out of 5 for example), and
- if in addition an estimated difference between the first game and the second game is less than a second score (S12), which typically is representative of low degradation by the network,
then the second terminal (TER') can transmit to the first terminal (TER) a message of recommendations intended for the user (UT) of the first terminal (TER) to improve at least his position with respect to said sensor (MIC).

En effet, dans ce cas, les conditions de transmission via le réseau ne sont pas la cause principale du mauvais score de perception estimé par le deuxième terminal (TER’) et ainsi, il peut être donné des recommandations à l’utilisateur du premier terminal (TER) d’améliorer sa position par rapport au capteur de son terminal.Indeed, in this case, the transmission conditions via the network are not the main cause of the poor perception score estimated by the second terminal (TER') and thus, recommendations can be given to the user of the first terminal. (TER) to improve its position relative to the sensor of its terminal.

Par ailleurs, dans la réalisation où le signal de visioconférence comporte des données d’image, le deuxième terminal (TER’) peut:
- détecter si des données d’image du signal de visioconférence reçu (SIG’) sont perdues (étape S21 de la ), conduisant à un affichage d’une image figée sur le deuxième terminal (TER’),
- et, dans ce cas, assigner un premier score de perception (S22).
Furthermore, in the embodiment where the videoconference signal includes image data, the second terminal (TER') can:
- detecting whether image data of the received videoconference signal (SIG') is lost (step S21 of the ), leading to a display of a frozen image on the second terminal (TER'),
- and, in this case, assign a first perception score (S22).

Ce premier score peut être fixé à zéro par exemple. Il peut être affiché en clignotant (en rouge par exemple) sur le premier terminal pour que l’utilisateur comprenne vite que les dégradations de transmission via le réseau sont importantes et qu’il peut arrêter la transmission du flux vidéo pour préserver la bande passante pour le signal audio typiquement.This first score can be set to zero for example. It can be displayed flashing (in red for example) on the first terminal so that the user quickly understands that the transmission degradations via the network are significant and that he can stop the transmission of the video stream to preserve the bandwidth for the audio signal typically.

Selon un autre aspect, il est proposé un programme informatique comportant des instructions pour la mise en œuvre de tout ou partie d’un procédé tel que défini dans les présentes lorsque ce programme est exécuté par un processeur. Selon un autre aspect, il est proposé un support d’enregistrement non transitoire, lisible par un ordinateur, sur lequel est enregistré un tel programme.According to another aspect, there is provided a computer program comprising instructions for the implementation of all or part of a method as defined herein when this program is executed by a processor. In another aspect, there is provided a non-transitory, computer-readable recording medium on which such a program is recorded.

En particulier, ce programme informatique comporte des instructions pour la mise en œuvre du procédé ci-avant, lorsque ces instructions sont exécutées par un processeur d’un circuit de traitement, notamment d’un terminal.In particular, this computer program includes instructions for implementing the method above, when these instructions are executed by a processor of a processing circuit, in particular of a terminal.

Il est visé également un tel terminal comportant alors un circuit de traitement configuré pour mettre en œuvre au moins :
- une estimation d’un score de perception d’un signal de visioconférence reçu, et
- un pilotage d’émission par une interface homme-machine d’un signal représentatif de ce score, dans le procédé tel que présenté ci-dessus.
It is also aimed at such a terminal then comprising a processing circuit configured to implement at least:
- an estimation of a perception score of a videoconference signal received, and
- Control of transmission by a man-machine interface of a signal representative of this score, in the method as presented above.

Il est visé également un système comportant un premier terminal, émetteur d’un signal de visioconférence, et un deuxième terminal récepteur dudit signal de visioconférence, le premier terminal comportant au moins :
- un capteur (MIC, CAM) pour acquérir des données d’un signal de visioconférence,
- une connexion (COM) à un réseau pour transmettre le signal de visioconférence au terminal récepteur via le réseau (RES), et
- une interface homme-machine (ECR) à disposition d’un utilisateur du premier terminal,
dans lequel le deuxième terminal comporte un circuit de traitement configuré pour mettre en œuvre au moins :
- un pilotage d’émission par une interface homme-machine d’un signal représentatif d’un score de perception d’un signal de visioconférence reçu, dans le procédé présenté ci-dessus.
It is also aimed at a system comprising a first terminal, transmitter of a videoconference signal, and a second terminal receiving said videoconference signal, the first terminal comprising at least:
- a sensor (MIC, CAM) to acquire data from a videoconference signal,
- a connection (COM) to a network for transmitting the videoconference signal to the receiver terminal via the network (RES), and
- a man-machine interface (ECR) available to a user of the first terminal,
in which the second terminal comprises a processing circuit configured to implement at least:
- piloting of transmission by a man-machine interface of a signal representative of a perception score of a received videoconference signal, in the method presented above.

D’autres caractéristiques, détails et avantages apparaîtront à la lecture de la description détaillée ci-après, et à l’analyse des figures annexées présentées à titre d’exemples non limitatifs, et sur lesquelles :Other characteristics, details and advantages will appear on reading the detailed description below, and on analyzing the appended figures presented by way of non-limiting examples, and on which:

Fig. 1Fig. 1

illustre un système selon un mode de réalisation pour la mise en œuvre du procédé selon les présentes. illustrates a system according to one embodiment for implementing the method herein.

Fig. 2Fig. 2

illustre à titre d’exemple deux situations de captation distinctes d’un signal de visioconférence de l’utilisateur d’un terminal émetteur. illustrates by way of example two distinct capture situations of a videoconference signal from the user of a transmitting terminal.

Fig. 3Fig. 3

illustre à titre d’exemple les étapes d’un procédé selon un mode de réalisation pour le traitement de données sonores d’un signal de visioconférence. illustrates by way of example the steps of a method according to one embodiment for the processing of sound data of a videoconference signal.

Fig. 4Fig. 4

illustre à titre d’exemple l’affichage, sur un écran du terminal émetteur, de signaux visuels représentatifs de scores de réception auprès de terminaux récepteurs respectifs. illustrates by way of example the display, on a screen of the transmitter terminal, of visual signals representative of reception scores with respective receiver terminals.

Fig. 5Fig. 5

illustre à titre d’exemple les étapes d’un procédé selon un mode de réalisation pour le traitement de données d’image d’un signal de visioconférence. illustrates by way of example the steps of a method according to one embodiment for the processing of image data of a videoconference signal.

En référence à la pour la mise en œuvre d’une séance de visioconférence, un terminal TER d’un utilisateur UT comporte une connexion COM à au moins un terminal distant TER’ via un réseau RES. On a illustré en outre sur la un serveur SER de visioconférence pouvant s’interfacer entre les deux terminaux TER et TER’.With reference to the for the implementation of a videoconference session, a terminal TER of a user UT comprises a COM connection to at least one remote terminal TER′ via a network RES. We have further illustrated on the a videoconference server SER that can interface between the two terminals TER and TER'.

Un microphone MIC du terminal TER à disposition de l’utilisateur UT peut capter un signal sonore dans son environnement. Ce signal SIG comporte éventuellement un signal de parole prononcé par l’utilisateur, ainsi qu’éventuellement du bruit (par exemple du bruit de fond ou autre bruit dans l’environnement de l’utilisateur UT). On entend par « signal de parole » typiquement un signal comportant au moins une fréquence, telle que la fréquence fondamentale liée à la tonalité de la voix de l’utilisateur, et des « formants » dans des bandes de fréquences différentes de la fréquence fondamentale et propres à des modulations qu’entrainent les positions des lèvres, de la langue, la forme du conduit vocal, etc. pour prononcer par exemple des consonnes.A microphone MIC of the terminal TER available to the user UT can pick up a sound signal in his environment. This signal SIG possibly includes a speech signal spoken by the user, as well as possibly noise (for example background noise or other noise in the environment of the user UT). The term "speech signal" typically means a signal comprising at least one frequency, such as the fundamental frequency linked to the tone of the user's voice, and "formants" in frequency bands different from the fundamental frequency and specific to modulations caused by the positions of the lips, the tongue, the shape of the vocal tract, etc. to pronounce, for example, consonants.

Dans une première forme de réalisation, ces paramètres vocaux (fréquences caractéristiques) de l’utilisateur sont analysés par le terminal TER dans le signal capté SIG et comparés à un niveau de bruit dans le signal SIG, afin par exemple d’assigner un score d’audition possible de l’utilisateur UT. Ce score peut alors être affiché sur l’écran ECR du terminal TER pour renseigner l’utilisateur quant aux conditions de captation favorables ou non de son terminal TER, comme illustré dans les deux cas de la . Sur la figure 2A, l’utilisateur UT se tient de profil et loin du microphone MIC de son terminal TER : le score de perception est faible. En revanche, sur la figure 2B, l’utilisateur UT est face au microphone et proche de ce dernier : le score est plus élevé.In a first embodiment, these voice parameters (characteristic frequencies) of the user are analyzed by the terminal TER in the received signal SIG and compared with a noise level in the signal SIG, in order for example to assign a score of possible hearing of the UT user. This score can then be displayed on the ECR screen of the TER terminal to inform the user as to the favorable or unfavorable capture conditions of his TER terminal, as illustrated in the two cases of the . In FIG. 2A, the user UT stands in profile and away from the microphone MIC of his terminal TER: the perception score is low. On the other hand, in FIG. 2B, the user UT is facing the microphone and close to the latter: the score is higher.

Dans un deuxième mode de réalisation, le signal SIG est encodé et transmis aux terminaux des autres participants, dont une partie au moins TER’ peut analyser dans le signal reçu SIG’ les paramètres vocaux de l’utilisateur UT prenant la parole, et comparer des valeurs de ces paramètres à un niveau de bruit dans le signal reçu SIG’ (éventuellement avec un accroissement de bruit par rapport au signal capté SIG, dû à la quantification pendant l’encodage, aux conditions de transmission et de réception du signal, etc.). Tout ou partie des terminaux TER’ des autres participants peuvent ainsi assigner un score d’audition possible de l’utilisateur UT et piloter un affichage de ce score au moins sur l’écran ECR du terminal TER de l’utilisateur UT prenant la parole, comme illustré sur la . Dans l’exemple de la , le score donné par le terminal de l’utilisateur UTA (interlocuteur de l’utilisateur UT prenant la parole) est de 3 sur 5 alors que celui donné par le terminal de l’utilisateur (interlocuteur) UTB est de 2 sur 5. La différence entre les deux scores peut s’expliquer par les conditions de réception du signal SIG’ via le réseau RES qui peuvent être différente d’un terminal récepteur à l’autre. En revanche, dans les deux cas, le score reste assez bas et l’utilisateur UT prenant la parole peut alors ajuster sa position relativement au microphone MIC de son terminal pour tenter d’augmenter ces scores.In a second embodiment, the signal SIG is encoded and transmitted to the terminals of the other participants, at least part of which TER' can analyze in the received signal SIG' the voice parameters of the user UT taking the floor, and compare values of these parameters to a noise level in the received signal SIG' (possibly with an increase in noise compared to the received signal SIG, due to quantification during encoding, to the conditions of transmission and reception of the signal, etc. ). All or part of the terminals TER' of the other participants can thus assign a possible hearing score of the user UT and control a display of this score at least on the screen ECR of the terminal TER of the user UT taking the floor, as shown on the . In the example of the , the score given by the terminal of the user UTA (interlocutor of the user UT speaking) is 3 out of 5 while that given by the terminal of the user (interlocutor) UTB is 2 out of 5. difference between the two scores can be explained by the reception conditions of the signal SIG′ via the network RES which can be different from one receiver terminal to another. On the other hand, in both cases, the score remains quite low and the user UT taking the floor can then adjust his position relative to the microphone MIC of his terminal in an attempt to increase these scores.

Ainsi, dans cette deuxième forme de réalisation, les paramètres de fréquence vocale de l’utilisateur UT peuvent être déterminés en continu dans le flux de visioconférence reçu par les terminaux TER’ des autres participants à la visioconférence. Sur au moins un terminal TER’ par exemple, les fréquences et le niveau sonores reçus en provenance du terminal émetteur TER sont testés de manière logicielle. Cette estimation peut être grossière et telle que décrite en détails ci-après, et n’a pas nécessairement vocation à reconnaître spécifiquement l’utilisateur UT prenant la parole.Thus, in this second embodiment, the voice frequency parameters of the user UT can be determined continuously in the videoconference stream received by the terminals TER' of the other participants in the videoconference. On at least one TER terminal, for example, the frequencies and the sound level received from the TER transmitting terminal are tested in software. This estimate may be coarse and as described in detail below, and is not necessarily intended to specifically recognize the user UT speaking.

En faisant ce test logiciel, certains au moins des terminaux récepteurs peuvent être configurés par exemple pour ne pas activer leurs haut-parleurs, de sorte que les utilisateurs de ces terminaux n’ont pas de son tant que le score de détection du signal de parole dans le signal reçu SIG’ n’est pas calculé. Ensuite, ces terminaux peuvent calculer le score de réception du signal de parole basé sur l’analyse des paramètres spectraux, typiquement de fréquence vocale et de niveau reçu.By doing this software test, at least some of the receiving terminals can be configured, for example, not to activate their loudspeakers, so that the users of these terminals do not have sound until the speech signal detection score in the received signal SIG' is not calculated. Then, these terminals can calculate the reception score of the speech signal based on the analysis of the spectral parameters, typically voice frequency and level received.

Le score évalué sur ces terminaux, par exemple sur une échelle de 0 à 5, est renvoyé au terminal TER de l’utilisateur UT prenant la parole, de sorte que ce dernier UT puisse disposer en direct d’un affichage visuel de jauges de réception de sa voix sur les différents terminaux des participants à la visioconférence comme illustré sur la , ce qui lui est alors utile lorsqu’il prend la parole.The score evaluated on these terminals, for example on a scale of 0 to 5, is sent back to the terminal TER of the user UT taking the floor, so that the latter UT can have a live visual display of reception gauges of his voice on the various terminals of the participants in the videoconference as illustrated in the , which is then useful to him when he speaks.

Dans un exemple de réalisation détaillé ci-après, les paramètres vocaux de l’utilisateur sont issus de l’analyse spectrale (analyse en fréquence du signal) illustrée par l’ordinogramme de la .In an embodiment detailed below, the user's voice parameters come from the spectral analysis (frequency analysis of the signal) illustrated by the flowchart of the .

Un terminal (émetteur selon le premier mode de réalisation, ou récepteur selon le deuxième mode de réalisation) calcule au préalable les paramètres vocaux (fréquences caractéristiques) de l’utilisateur de manière grossière. Les paramètres vocaux de l’utilisateur UT, notés (Pi)Uci-après, sont issus de l’analyse en fréquence du signal (SIG ou SIG’ respectivement).A terminal (transmitter according to the first embodiment, or receiver according to the second embodiment) calculates beforehand the vocal parameters (characteristic frequencies) of the user in a rough manner. The voice parameters of the user UT, denoted (Pi) U below, come from the frequency analysis of the signal (SIG or SIG' respectively).

Dans une première étape S1, le signal audio est filtré avec un passe-bande fréquentiel pour ne garder que les fréquences de la voix humaine allant de 100 à 300 Hertz.In a first step S1, the audio signal is filtered with a frequency band pass to keep only the frequencies of the human voice ranging from 100 to 300 Hertz.

Dans une deuxième étape S2, une analyse spectrale du signal (analyse en fréquence du signal) est effectuée dans le but de déterminer son contenu fréquentiel (par exemple après une transformée en sous-bandes).In a second step S2, a spectral analysis of the signal (frequency analysis of the signal) is carried out with the aim of determining its frequency content (for example after a transform into sub-bands).

Les paramètres vocaux (Pi)Ude l’utilisateur UT sont ainsi issus de cette analyse spectrale à l’étape S3.The voice parameters (Pi) U of the user UT are thus derived from this spectral analysis in step S3.

Les caractéristiques extraites sont en relation avec le contenu fréquentiel de la parole, la forme du conduit vocal (position des lèvres, de la langue, de la glotte etc.), l’intonation, etc. Elles concernent les fréquences les plus présentes dans la voix, ainsi qu’une information de transition entre les fréquences à chaque instant. Pour au moins une trame de parole, on peut extraire ainsi par exemple un vecteur de caractéristiques qui peuvent être des coefficients dits « cepstraux » (transformée de Fourier inverse d’un module spectral exprimé en échelle logarithmique), leurs dérivées, l’énergie du signal, et/ou autres.The extracted characteristics are related to the frequency content of speech, the shape of the vocal tract (position of the lips, tongue, glottis, etc.), intonation, etc. They concern the frequencies most present in the voice, as well as transition information between the frequencies at each instant. For at least one speech frame, it is thus possible to extract, for example, a vector of characteristics which may be so-called "cepstral" coefficients (inverse Fourier transform of a spectral module expressed on a logarithmic scale), their derivatives, the energy of the signal, and/or others.

Ces caractéristiques sont donc liées au contenu fréquentiel du signal de l’utilisateur et correspondent aux paramètres vocaux de celui-ci.These characteristics are therefore linked to the frequency content of the user's signal and correspond to the voice parameters of the latter.

Dans une réalisation particulière, les paramètres vocaux de l’utilisateur UT peuvent être déterminés dans une phase préalable à tout usage de visioconférence. Alternativement, ils peuvent aussi être déterminés lors des premières prises de parole de l’utilisateur UT dans une première séance de visioconférence. Ces paramètres notés (P0)Upeuvent alors, dans ce cas alternatif, être déterminés d’une manière transparente pour l’utilisateur UT. Plus particulièrement, dans cette phase préalable, il est possible à l’étape S4 d’enregistrer un échantillon (de quelques secondes par exemple) de la voix de l’utilisateur UT. Au cours du calcul des paramètres (P0)Usur ce premier échantillon, il est alors possible de déterminer aussi le niveau sonore moyen de l’utilisateur UT. L’ensemble de ces paramètres notés (P0)U, propres à l’utilisateur UT et déterminés sur un signal capté et reçu correctement, est stocké à l’étape S5 comme premier jeu de paramètres de référence. Par exemple, ce jeu de paramètres vocaux (P0)Ude l’utilisateur UT peuvent être envoyés au serveur de visioconférence SER pour stockage, en correspondance d’un identifiant Id(UT) de l’utilisateur (nom de l’utilisateur UT, ou adresse IP de son terminal ou autre).In a particular embodiment, the voice parameters of the user UT can be determined in a phase prior to any use of videoconferencing. Alternatively, they can also be determined during the first speeches of the user UT in a first videoconference session. These parameters denoted (P 0 ) U can then, in this alternative case, be determined transparently for the user UT. More particularly, in this preliminary phase, it is possible at step S4 to record a sample (of a few seconds for example) of the voice of the user UT. During the calculation of the parameters (P 0 ) U on this first sample, it is then possible to also determine the average sound level of the user UT. All of these parameters denoted (P 0 ) U , specific to the user UT and determined on a signal picked up and received correctly, is stored in step S5 as the first set of reference parameters. For example, this set of voice parameters (P 0 ) U of the user UT can be sent to the videoconferencing server SER for storage, in correspondence of an identifier Id(UT) of the user (user name UT , or IP address of his terminal or other).

En phase d’utilisation, les paramètres (P0)Uissus de l’échantillon vocal de l’utilisateur émetteur UT à l’étape S5, ainsi qu’un identifiant de l’utilisateur UT (nom, adresse IP ou autre), sont par exemple transmis par le serveur SER via le réseau RES à tout ou partie des terminaux des participants à la visioconférence. Par exemple, un terminal récepteur TER’ en communication avec le terminal émetteur TER de l’utilisateur UT peut transmettre au serveur l’identifiant Id(UT) de l’utilisateur du terminal émetteur pour récupérer les paramètres (P0)Udu signal de référence préenregistré.In the use phase, the parameters (P 0 ) U from the voice sample of the sender user UT in step S5, as well as an identifier of the user UT (name, IP address or other), are for example transmitted by the server SER via the network RES to all or part of the terminals of the participants in the videoconference. For example, a receiver terminal TER' in communication with the sender terminal TER of the user UT can transmit to the server the identifier Id(UT) of the user of the sender terminal to retrieve the parameters (P 0 ) U of the signal from pre-recorded reference.

Ensuite, le test de ces paramètres spectraux est effectué sur le signal reçu par une partie au moins de ces terminaux, comme suit.Then, the test of these spectral parameters is performed on the signal received by at least part of these terminals, as follows.

Un terminal récepteur peut tester en continu de manière logicielle les fréquences et le niveau sonores reçus en provenance du terminal émetteur de l’utilisateur UT, en calculant, sur le signal reçu SIG’, les paramètres vocaux [(Pi)U]rà l’étape S6. Puis il est possible de comparer à l’étape S7 ces paramètres vocaux reçus aux gabarits de fréquences théoriques de l’utilisateur UT préalablement enregistrés auprès du serveur de visioconférence.A receiver terminal can continuously test in software the frequencies and the sound level received from the user's transmitter terminal UT, by calculating, on the received signal SIG', the voice parameters [(Pi) U ] r to l step S6. Then it is possible to compare in step S7 these voice parameters received with the theoretical frequency templates of the user UT previously recorded with the videoconferencing server.

Cette opération S7 peut être mise en œuvre en comparant les paramètres vocaux calculés au niveau du terminal sur le signal SIG’, aux coefficients de fréquence référence de l’utilisateur que ce terminal peut récupérer du serveur de visioconférence grâce à l’identifiant précité de l’utilisateur UT. Ce terminal compare ainsi les valeurs de paramètres [(Pi)U]rcalculées au niveau du terminal et qui reflètent les altérations subies par le signal vocal au travers de la transmission via le réseau, aux paramètres théoriques (P0)Udonnés par le serveur de la visioconférence. Les deux séries de valeurs de paramètres ne sont pas identiques, car la transmission via le réseau peut dégrader la voix de l’utilisateur UT notamment par la perte de paquets d’octets, de perte de fréquences audio, etc.This operation S7 can be implemented by comparing the voice parameters calculated at the level of the terminal on the signal SIG', with the user's reference frequency coefficients that this terminal can retrieve from the videoconference server thanks to the aforementioned identifier of the user UT. This terminal thus compares the parameter values [(Pi) U ] r calculated at the level of the terminal and which reflect the alterations undergone by the voice signal through transmission via the network, with the theoretical parameters (P 0 ) U given by the videoconference server. The two sets of parameter values are not identical, because the transmission via the network can degrade the voice of the user UT in particular by the loss of packets of bytes, loss of audio frequencies, etc.

Le terminal récepteur TER’ peut également tester de manière logicielle ses haut-parleurs (tester éventuellement leur activité). A l’étape S8, le terminal TER’ peut en outre calculer un score (référence « SCORE1 » de la ) de réception du signal de l’utilisateur UT, basé sur l’analyse des paramètres et niveaux reçus sur chacun des paramètres spectraux, reçus [(Pi)U]ret de référence (P0)U, qui peut être évalué par exemple comme suit :The receiver terminal TER' can also test its loudspeakers in a software manner (possibly test their activity). At step S8, the terminal TER' can also calculate a score (reference "SCORE1" of the ) of reception of the user signal UT, based on the analysis of the parameters and levels received on each of the spectral parameters, received [(Pi) U ] r and reference (P0) U , which can be evaluated for example as follows:

Score de qualité audio(U) = SCORE 1 (U) = f ([(Pi)U]r- (P0)U)Audio quality score(U) = SCORE 1 (U) = f ([(Pi) U ] r - (P 0 ) U )

Le score évalué en fonction du temps sur au moins un terminal TER’ de participant à la conférence, sur une échelle de 0 à 5 par exemple, peut alors être renvoyé à l’étape S14 au terminal de l’utilisateur UT en vue d’un affichage sur l’écran ECR. L’utilisateur UT dispose ainsi en direct de jauges de réception de sa voix sur différents terminaux des participants à la visioconférence.The score evaluated as a function of time on at least one terminal TER' of a participant in the conference, on a scale of 0 to 5 for example, can then be sent back in step S14 to the terminal of the user UT with a view to a display on the ECR screen. The user UT thus has live reception gauges of his voice on different terminals of the participants in the videoconference.

Dans une réalisation où typiquement ce score de perception est faible à l’issue du test S9 (par exemple inférieur ou égal à un seuil THR1 tel que par exemple 3 sur 5), il est possible d’évaluer en outre si la dégradation est liée à de mauvaises conditions du réseau. Dans cette réalisation, il est alors possible d’évaluer aussi un deuxième score SCORE2 de dégradation du signal original SIG, liée aux conditions du réseau RES, comme suit. A l’étape S10, le terminal récepteur TER’ récupère (sur requête auprès du terminal émetteur TER) les paramètres (Pi)Uque peut évaluer le terminal émetteur TER directement à partir du signal SIG, pour comparer ces paramètres (Pi)Uaux paramètres [(Pi)U]rdéterminés par le terminal récepteur TER’ sur le signal reçu SIG’. A l’étape S11, le terminal récepteur TER’ peut évaluer le score SCORE2 de dégradation liée aux conditions du réseau comme suit :In an embodiment where typically this perception score is low at the end of the S9 test (for example less than or equal to a THR1 threshold such as for example 3 out of 5), it is possible to further assess whether the degradation is linked to poor network conditions. In this embodiment, it is then possible to also evaluate a second score SCORE2 of degradation of the original signal SIG, linked to the conditions of the network RES, as follows. At step S10, the receiver terminal TER' retrieves (on request from the transmitter terminal TER) the parameters (Pi) U that the transmitter terminal TER can evaluate directly from the signal SIG, to compare these parameters (Pi) U with the parameters [(Pi) U ] r determined by the receiver terminal TER' on the received signal SIG'. At step S11, the receiver terminal TER' can evaluate the degradation score SCORE2 linked to the conditions of the network as follows:

SCORE2 (U) = f [ [(Pi)U]r- (Pi)U]SCORE2 (U) = f [ [(Pi) U ] r - (Pi) U ]

Ensuite, à l’étape S12, si ce score SCORE2 est inférieur à un deuxième seuil THR2, c’est-à-dire que la différence entre :
- les paramètres (Pi)Utirés du signal original SIG, et
- les paramètres [(Pi)U]rtirés du signal reçus SIG’,
n’est pas réellement significative (pas supérieure au seuil THR2 en valeur absolue par exemple), alors la dégradation du signal SIG par sa transmission via le réseau n’est pas la cause du mauvais score de perception SCORE1 calculé à l’étape S8.
Then, in step S12, if this score SCORE2 is lower than a second threshold THR2, that is to say that the difference between:
- the parameters (Pi) U taken from the original SIG signal, and
- the parameters [(Pi) U ] r drawn from the received signal SIG',
is not really significant (not greater than the threshold THR2 in absolute value for example), then the degradation of the signal SIG by its transmission via the network is not the cause of the bad perception score SCORE1 calculated in step S8.

Dans ce cas (flèche OK en sortie du test S12), le terminal récepteur TER’ peut transmettre au terminal émetteur TER un message d’activation d’une interface homme machine du terminal émetteur TER (par exemple un affichage sur l’écran ECR) pour suggérer à l’étape S13, des recommandations destinées à l’utilisateur UT telles que :
- s’approcher de son microphone MIC, ou
- augmenter le gain de son microphone MIC (via une carte son de son terminal TER), et/ou autres.
In this case (OK arrow at the output of the test S12), the receiver terminal TER' can transmit to the sender terminal TER a message for activating a man-machine interface of the sender terminal TER (for example a display on the screen ECR) to suggest at step S13, recommendations intended for the UT user such as:
- approach his microphone MIC, or
- increase the gain of his microphone MIC (via a sound card of his terminal TER), and/or others.

Dans un mode de réalisation complémentaire ou alternatif, une méthode similaire peut être mise en œuvre avec l’image de l’utilisateur UT captée par une caméra CAM que peut comporter en outre le terminal émetteur TER.In a complementary or alternative embodiment, a similar method can be implemented with the image of the user UT captured by a camera CAM that the transmitter terminal TER may also include.

A titre d’exemple, il peut être prévu de mesurer si l’image est de profil, en estimant si la surface de peau apparente est inférieure à une surface de peau théorique de l’utilisateur UT lorsqu’il est face à la caméra de son terminal.By way of example, provision may be made to measure whether the image is in profile, by estimating whether the apparent skin surface is less than a theoretical skin surface of the user UT when he is facing the camera of his terminal.

Les paramètres propres à l’utilisateur UT sont ici des positions et paramètres géométriques des yeux, du nez, de la mâchoire, des sourcils de l’utilisateur UT qui peuvent être obtenus par des techniques de reconnaissance faciale. Les paramètres initiaux d’image, notés ici (PP0)U, peuvent être calculés au préalable (et stockés sur le serveur de visioconférence SER indexés par un identifiant de l’utilisateur UT) en demandant par exemple à l’utilisateur de se tenir droit face à la caméra de son terminal. Ces paramètres peuvent par exemple quantifier des surfaces de peau de l’utilisateur UT apparentes à l’image.The parameters specific to the user UT are here positions and geometric parameters of the eyes, the nose, the jaw, the eyebrows of the user UT which can be obtained by facial recognition techniques. The initial image parameters, denoted here (PP 0 ) U , can be calculated beforehand (and stored on the videoconferencing server SER indexed by a user identifier UT) by asking the user, for example, to stand straight in front of the camera of his terminal. These parameters can for example quantify skin surfaces of the user UT apparent in the image.

Les paramètres d’image correspondant, couramment obtenus par un terminal tiers et notés [(PPi)U]rsont calculés sur un terminal récepteur à partir de l’image de l’utilisateur UT captée à un instant courant t par la caméra du terminal émetteur TER de l’utilisateur UT et envoyée par le réseau au terminal récepteur.The corresponding image parameters, commonly obtained by a third-party terminal and denoted [(PPi) U ] r are calculated on a receiving terminal from the image of the user UT captured at a current instant t by the camera of the terminal transmitter TER of the user UT and sent by the network to the receiver terminal.

Un terminal récepteur TER’ d’un participant peut ainsi calculer un score de réception de l’image de l’utilisateur UT basé sur l’analyse de ces paramètres :A receiver terminal TER' of a participant can thus calculate a reception score for the image of the user UT based on the analysis of these parameters:

Score de qualité vidéo (U) = f ( [(PPi)U]r- (PP0)U)Video quality score (U) = f ( [(PPi) U ] r - (PP 0 ) U )

Le score de qualité du signal d’image (vidéo) en fonction du temps t peut être alors calibré sur une échelle de 0 à 5.The quality score of the image (video) signal as a function of time t can then be calibrated on a scale of 0 to 5.

Il est présenté ci-après un exemple de réalisation relatif aux conditions de réception du signal vidéo par le terminal récepteur TER’ en référence à la . Lors d'une première étape S20, le terminal récepteur TER’ décode par exemple le signal vidéo reçu SIG’ et peut alors déterminer si des données d’images ne sont pas reçues (car des trames de données vidéo correspondantes ont été perdues pendant la transmission via le réseau typiquement). Ainsi, dans ce cas, l’image de l’utilisateur UT du terminal émetteur TER apparait figée sur l’écran du terminal récepteur TER’ (flèche OK en sortie du test S21). Il peut être déterminé alors dans ce cas que le score de perception assigné est de zéro à l’étape S22 et cette donnée peut être transmise du terminal récepteur TER’ au terminal émetteur TER pour afficher à l’étape S24, sur l’écran ECR du terminal émetteur TER, un score de perception vidéo de « 0 », clignotant par exemple, et signifiant que l’image de l’utilisateur UT apparait figée pour son interlocuteur.An exemplary embodiment relating to the conditions of reception of the video signal by the receiver terminal TER' is presented below with reference to the . During a first step S20, the receiver terminal TER' decodes, for example, the received video signal SIG' and can then determine whether image data is not received (because corresponding video data frames have been lost during transmission via the network typically). Thus, in this case, the image of the user UT of the transmitter terminal TER appears frozen on the screen of the receiver terminal TER' (arrow OK at the output of the test S21). It can then be determined in this case that the assigned perception score is zero at step S22 and this datum can be transmitted from the receiver terminal TER' to the sender terminal TER to display at step S24, on the screen ECR of the transmitter terminal TER, a video perception score of "0", flashing for example, and signifying that the image of the user UT appears frozen for his interlocutor.

En revanche, si les données d’images sont bien reçues par le terminal récepteur TER’, ce dernier peut évaluer à l’étape S23 un score de qualité vidéo comme défini précédemment et transmettre les données de ce score de perception vidéo au terminal émetteur TER pour affichage à l’étape S24.On the other hand, if the image data is indeed received by the receiver terminal TER', the latter can evaluate in step S23 a video quality score as defined previously and transmit the data of this video perception score to the transmitter terminal TER for display at step S24.

La mise en œuvre du traitement ci-avant permet ainsi à l’utilisateur, du fait de l’affichage du score de réception des données de visioconférence, de mieux se positionner par rapport au microphone et/ou à la caméra de son terminal, sans interrompre la conversation en cours en demandant aux participants s’il est entendu ou vu. Une telle réalisation participe ainsi à l’amélioration de l'expérience utilisateur dans tout type de visioconférence.The implementation of the above processing thus allows the user, due to the display of the videoconference data reception score, to better position themselves in relation to the microphone and/or the camera of their terminal, without interrupt the current conversation by asking the participants if it is heard or seen. Such an achievement thus contributes to improving the user experience in any type of videoconference.

Claims (10)

1. Procédé de traitement de données de visioconférence établie entre un premier terminal, émetteur (TER), et au moins un deuxième terminal, récepteur (TER’), le premier terminal comportant au moins :
- un capteur (MIC, CAM) pour acquérir des données d’un signal de visioconférence,
- une connexion (COM) à un réseau pour transmettre le signal de visioconférence au terminal récepteur via le réseau (RES), et
- une interface homme-machine (ECR) à disposition d’un utilisateur du premier terminal,
le procédé comportant :
- un pilotage d’émission (S14) par l’interface homme-machine d’un signal représentatif d’un score de perception du signal de visioconférence reçu par le terminal récepteur, permettant à l’utilisateur du premier terminal d’améliorer au moins sa position par rapport audit capteur.
1. Method for processing videoconference data established between a first terminal, sender (TER), and at least one second terminal, receiver (TER'), the first terminal comprising at least:
- a sensor (MIC, CAM) to acquire data from a videoconference signal,
- a connection (COM) to a network for transmitting the videoconference signal to the receiver terminal via the network (RES), and
- a man-machine interface (ECR) available to a user of the first terminal,
the process comprising:
- emission control (S14) by the man-machine interface of a signal representative of a perception score of the videoconference signal received by the receiver terminal, allowing the user of the first terminal to improve at least its position relative to said sensor.
2. Procédé selon la revendication 1, dans lequel les données du signal de visioconférence acquises par le capteur comportent au moins des données sonores, et dans lequel ledit score de perception est estimé via une analyse des données sonores (S2) afin d’estimer au moins un score de prépondérance d’un signal de parole de l’utilisateur du premier terminal relativement à du bruit.2. Method according to claim 1, in which the data of the videoconference signal acquired by the sensor comprises at least sound data, and in which said perception score is estimated via an analysis of the sound data (S2) in order to estimate at least minus a score of preponderance of a speech signal of the user of the first terminal with respect to noise. 3. Procédé selon la revendication 2, dans lequel l’analyse des données sonores comporte une détermination (S3 ; S6) de paramètres vocaux dans un domaine spectral, propres à une fréquence fondamentale et à des formants, dans le signal de parole de l’utilisateur.3. Method according to claim 2, in which the analysis of the sound data comprises a determination (S3; S6) of vocal parameters in a spectral domain, specific to a fundamental frequency and to formants, in the speech signal of the user. 4. Procédé selon la revendication 3, dans lequel l’analyse des données sonores comporte en outre une détermination d’un niveau sonore dudit signal de parole.4. Method according to claim 3, in which the analysis of the sound data further comprises a determination of a sound level of said speech signal. 5. Procédé selon la revendication 1, dans lequel les données du signal de visioconférence acquises par le capteur comportent au moins des données d’image de l’utilisateur du premier terminal, et dans lequel l’estimation dudit score de perception comporte une analyse des données d’image (S20, S21) pour estimer au moins un score (S23) de présence de surface de peau de l’utilisateur du premier terminal dans des images du signal de visioconférence.5. Method according to claim 1, in which the data of the videoconference signal acquired by the sensor comprises at least image data of the user of the first terminal, and in which the estimation of the said perception score comprises an analysis of the image data (S20, S21) for estimating at least one skin surface presence score (S23) of the user of the first terminal in images of the videoconference signal. 6. Procédé selon l'une des revendications précédentes, dans lequel le score de perception est estimé à partir d’une comparaison entre ledit signal de visioconférence transmis au deuxième terminal et un signal de référence correspondant à un signal de visioconférence de l’utilisateur, préenregistré par le capteur.6. Method according to one of the preceding claims, in which the perception score is estimated from a comparison between said videoconference signal transmitted to the second terminal and a reference signal corresponding to a videoconference signal from the user, pre-recorded by the sensor. 7. Procédé selon l'une des revendications précédentes, dans lequel l’estimation du score de perception est effectuée par le deuxième terminal, récepteur (TER’).7. Method according to one of the preceding claims, in which the estimation of the perception score is carried out by the second terminal, receiver (TER'). 8. Procédé selon la revendication 6, prise en combinaison avec la revendication 7, dans lequel le signal de référence est enregistré (S4, S5) auprès d’un serveur de visioconférence en correspondance d’un identifiant de l’utilisateur du premier terminal, et dans lequel le deuxième terminal (TER’) obtient du serveur (SER), en fonction de l’identifiant de l’utilisateur du premier terminal (TER) des données dudit signal de référence, pour comparer (S7) le signal de visioconférence reçu du premier terminal au signal de référence, et de là estimer ledit score de perception (S8).8. Method according to claim 6, taken in combination with claim 7, in which the reference signal is recorded (S4, S5) with a videoconference server in correspondence of an identifier of the user of the first terminal, and in which the second terminal (TER') obtains from the server (SER), according to the identifier of the user of the first terminal (TER), data of said reference signal, to compare (S7) the videoconference signal received from the first terminal to the reference signal, and from there estimating said perception score (S8). 9. Procédé selon l’une des revendications 7 et 8, dans lequel le deuxième terminal renvoie (S14) à destination du premier terminal un signal représentatif dudit score de perception pour piloter l’émission par ladite interface homme-machine dudit signal représentatif du score de perception.9. Method according to one of claims 7 and 8, in which the second terminal returns (S14) to the first terminal a signal representative of said perception score to control the transmission by said man-machine interface of said signal representative of the score of perception. 10. Procédé selon l’une des revendications 7 à 9, prises en combinaison avec la revendication 5, dans lequel le deuxième terminal (TER’) :
- détecte si des données d’image du signal de visioconférence reçu (SIG’) sont perdues (S21), conduisant à un affichage d’une image figée sur le deuxième terminal (TER’),
- et, dans ce cas, assigne un premier score de perception (S22).
10. Method according to one of claims 7 to 9, taken in combination with claim 5, in which the second terminal (TER'):
- detects whether image data of the received videoconference signal (SIG') is lost (S21), leading to display of a frozen image on the second terminal (TER'),
- and, in this case, assigns a first perception score (S22).
FR2106694A 2021-06-23 2021-06-23 RECEPTION SCORE OF A VIDEO CONFERENCE SIGNAL Active FR3124593B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR2106694A FR3124593B1 (en) 2021-06-23 2021-06-23 RECEPTION SCORE OF A VIDEO CONFERENCE SIGNAL

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR2106694A FR3124593B1 (en) 2021-06-23 2021-06-23 RECEPTION SCORE OF A VIDEO CONFERENCE SIGNAL
FR2106694 2021-06-23

Publications (2)

Publication Number Publication Date
FR3124593A1 true FR3124593A1 (en) 2022-12-30
FR3124593B1 FR3124593B1 (en) 2024-02-16

Family

ID=77411849

Family Applications (1)

Application Number Title Priority Date Filing Date
FR2106694A Active FR3124593B1 (en) 2021-06-23 2021-06-23 RECEPTION SCORE OF A VIDEO CONFERENCE SIGNAL

Country Status (1)

Country Link
FR (1) FR3124593B1 (en)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070112563A1 (en) * 2005-11-17 2007-05-17 Microsoft Corporation Determination of audio device quality
EP2247082A1 (en) * 2009-04-30 2010-11-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Telecommunication device, telecommunication system and method for telecommunicating voice signals
US20110096137A1 (en) * 2009-10-27 2011-04-28 Mary Baker Audiovisual Feedback To Users Of Video Conferencing Applications
US20140354826A1 (en) * 2013-05-28 2014-12-04 Apple Inc. Reference and non-reference video quality evaluation
EP2814244A1 (en) * 2013-06-11 2014-12-17 Alcatel Lucent A method and a system for improving communication quality of a video conference
US20170085600A1 (en) * 2015-09-21 2017-03-23 Fuji Xerox Co., Ltd. Methods and Systems for Electronic Communications Feedback
US20170249939A1 (en) * 2014-09-30 2017-08-31 Hewlett-Packard Development Company, L.P. Sound conditioning

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070112563A1 (en) * 2005-11-17 2007-05-17 Microsoft Corporation Determination of audio device quality
EP2247082A1 (en) * 2009-04-30 2010-11-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Telecommunication device, telecommunication system and method for telecommunicating voice signals
US20110096137A1 (en) * 2009-10-27 2011-04-28 Mary Baker Audiovisual Feedback To Users Of Video Conferencing Applications
US20140354826A1 (en) * 2013-05-28 2014-12-04 Apple Inc. Reference and non-reference video quality evaluation
EP2814244A1 (en) * 2013-06-11 2014-12-17 Alcatel Lucent A method and a system for improving communication quality of a video conference
US20170249939A1 (en) * 2014-09-30 2017-08-31 Hewlett-Packard Development Company, L.P. Sound conditioning
US20170085600A1 (en) * 2015-09-21 2017-03-23 Fuji Xerox Co., Ltd. Methods and Systems for Electronic Communications Feedback

Also Published As

Publication number Publication date
FR3124593B1 (en) 2024-02-16

Similar Documents

Publication Publication Date Title
US10930262B2 (en) Artificially generated speech for a communication session
US8284922B2 (en) Methods and systems for changing a communication quality of a communication session based on a meaning of speech data
KR101626438B1 (en) Method, device, and system for audio data processing
US20110274293A1 (en) Method, device and communication terminal for adjusting volume adaptively
USRE40054E1 (en) Video-assisted audio signal processing system and method
US7965650B2 (en) Method and system for quality monitoring of media over internet protocol (MOIP)
KR20190027820A (en) Hearing tests and modification of audio signals
JP2004514327A (en) Measuring conversational quality of telephone links in telecommunications networks
US20120239746A1 (en) Device, Method and Computer Program Product for Responding to Media Conference Deficiencies
WO2014152272A1 (en) Audio transmission channel quality assessment
CN109120947A (en) A kind of the voice private chat method and client of direct broadcasting room
KR20190111134A (en) Methods and devices for improving call quality in noisy environments
EP1849157A1 (en) Method of measuring annoyance caused by noise in an audio signal
US20170287495A1 (en) Distributed suppression or enhancement of audio features
CN110996238A (en) Binaural synchronous signal processing hearing aid system and method
KR20070060861A (en) Method for measuring interactive speech quality in voip network
CN107967921B (en) Volume adjusting method and device of conference system
KR101746178B1 (en) APPARATUS AND METHOD OF VoIP PHONE QUALITY MEASUREMENT USING WIDEBAND VOICE CODEC
FR3124593A1 (en) VIDEOCONFERENCING SIGNAL RECEPTION SCORE
US20200301651A1 (en) Selecting a microphone based on estimated proximity to sound source
US11290815B2 (en) Method for personalizing the audio signal of an audio or video stream
EP1763163A1 (en) Apparatus and method for obtaining audience rating information pertaining to programs broadcasted through a communication network
CN113031904B (en) Control method and electronic equipment
FR2817096A1 (en) Packet telephone network non intrusive fault detection having speech reconstituted/fault library compared and faults detected with calculation displayed providing degradation statistical analysis.
Fernández et al. Monitoring of audio visual quality by key indicators: Detection of selected audio and audiovisual artefacts

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20221230

PLFP Fee payment

Year of fee payment: 3

PLFP Fee payment

Year of fee payment: 4