FR3124593A1 - VIDEOCONFERENCING SIGNAL RECEPTION SCORE - Google Patents
VIDEOCONFERENCING SIGNAL RECEPTION SCORE Download PDFInfo
- Publication number
- FR3124593A1 FR3124593A1 FR2106694A FR2106694A FR3124593A1 FR 3124593 A1 FR3124593 A1 FR 3124593A1 FR 2106694 A FR2106694 A FR 2106694A FR 2106694 A FR2106694 A FR 2106694A FR 3124593 A1 FR3124593 A1 FR 3124593A1
- Authority
- FR
- France
- Prior art keywords
- terminal
- signal
- user
- videoconference
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 claims abstract description 11
- 230000008447 perception Effects 0.000 claims description 28
- 238000000034 method Methods 0.000 claims description 23
- 230000005540 biological transmission Effects 0.000 claims description 16
- 230000003595 spectral effect Effects 0.000 claims description 6
- 230000001755 vocal effect Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 2
- 230000015556 catabolic process Effects 0.000 description 10
- 238000006731 degradation reaction Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 3
- 238000010183 spectrum analysis Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 210000004704 glottis Anatomy 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241001678235 Hister Species 0.000 description 1
- 101000712600 Homo sapiens Thyroid hormone receptor beta Proteins 0.000 description 1
- 102100033451 Thyroid hormone receptor beta Human genes 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/40—Support for services or applications
- H04L65/403—Arrangements for multi-party communication, e.g. for conferences
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/80—Responding to QoS
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
- H04M3/2227—Quality of service monitoring
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/567—Multimedia conference systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/008—Visual indication of individual signal levels
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/42—Graphical user interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2203/00—Aspects of automatic or semi-automatic exchanges
- H04M2203/50—Aspects of automatic or semi-automatic exchanges related to audio conference
- H04M2203/5036—Aspects of automatic or semi-automatic exchanges related to audio conference using conference for collection of feedback
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Human Computer Interaction (AREA)
- Computer Networks & Wireless Communication (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Otolaryngology (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
Abstract
SCORE DE RÉCEPTION D’UN SIGNAL DE VISIOCONFÉRENCE La présente description concerne le traitement de données de visioconférence établie entre un premier terminal, émetteur (TER), et au moins un deuxième terminal, récepteur (TER’). Le premier terminal comportant au moins :- un capteur (MIC, CAM) pour acquérir des données d’un signal de visioconférence, - une connexion (COM) à un réseau pour transmettre le signal de visioconférence au terminal récepteur via le réseau (RES), et- une interface homme-machine (ECR) à disposition d’un utilisateur du premier terminal.Le procédé prévoit un pilotage d’émission par l’interface homme-machine d’un signal représentatif d’un score de perception du signal de visioconférence reçu par le terminal récepteur, permettant à l’utilisateur du premier terminal d’améliorer au moins sa position par rapport audit capteur. Figure de l’abrégé : Figure 1VIDEOCONFERENCE SIGNAL RECEPTION SCORE This description concerns the processing of videoconference data established between a first terminal, sender (TER), and at least one second terminal, receiver (TER'). The first terminal comprising at least:- a sensor (MIC, CAM) for acquiring data from a videoconference signal, - a connection (COM) to a network for transmitting the videoconference signal to the receiver terminal via the network (RES) , and- a man-machine interface (ECR) available to a user of the first terminal. videoconference received by the receiver terminal, allowing the user of the first terminal to improve at least his position with respect to said sensor. Abstract Figure: Figure 1
Description
La présente description concerne un traitement de données de visioconférence.This description relates to videoconference data processing.
Plus particulièrement, elle concerne le traitement de données sonores acquises par un terminal d’un participant pendant une séance de visioconférence.More specifically, it relates to the processing of sound data acquired by a terminal of a participant during a videoconference session.
Typiquement, lorsqu’un participant a besoin de prendre la parole dans une séance de visioconférence, ce participant ne sait jamais si les autres participants l’entendent correctement (ou le voient correctement), ce qui l’oblige à demander aux autres participants s’ils l'entendent (ou le voient) bien. Avec l’augmentation actuelle de la fréquence des réunions en visioconférence, il est courant en effet que l’utilisateur prenant la parole soit obligé de demander aux autres participants s’il est bien entendu, ce qui coupe la conversation en cours et rend l’utilisation fastidieuse avec un mauvais ressenti de l’utilisateur et des autres participants.Typically, when a participant needs to speak in a videoconference session, this participant never knows if the other participants hear him correctly (or see him correctly), which forces him to ask the other participants to they hear it (or see it) well. With the current increase in the frequency of videoconference meetings, it is indeed common for the user taking the floor to be forced to ask the other participants if they are heard correctly, which cuts off the conversation in progress and makes the tedious use with a bad feeling for the user and other participants.
La présente description vient améliorer cette situation.The present description improves this situation.
Il est proposé un procédé de traitement de données de visioconférence établie entre un premier terminal, émetteur, et au moins un deuxième terminal, récepteur, le premier terminal comportant au moins :
- un capteur pour acquérir des données d’un signal de visioconférence,
- une connexion à un réseau pour transmettre le signal de visioconférence au terminal récepteur via le réseau, et
- une interface homme-machine à disposition d’un utilisateur du premier terminal,
le procédé comportant :
- un pilotage d’émission par l’interface homme-machine d’un signal représentatif d’un score de perception du signal de visioconférence reçu par le terminal récepteur, permettant à l’utilisateur du premier terminal d’améliorer au moins sa position par rapport audit capteur.A method for processing videoconference data established between a first terminal, sender, and at least one second terminal, receiver, is proposed, the first terminal comprising at least:
- a sensor for acquiring data from a videoconference signal,
- a connection to a network for transmitting the videoconference signal to the receiving terminal via the network, and
- a man-machine interface available to a user of the first terminal,
the process comprising:
- emission control by the man-machine interface of a signal representative of a perception score of the videoconference signal received by the receiving terminal, allowing the user of the first terminal to improve at least his position by report to said sensor.
Le capteur précité peut être un microphone (référence MIC de la
Ainsi, grâce notamment à ce guidage par l’interface homme-machine, l’utilisateur du premier terminal peut savoir d’une part s’il est bien perçu par ses interlocuteurs pendant la séance de visioconférence sans devoir interrompre une discussion en cours en posant cette question à ses interlocuteurs, et peut d’autre part, prendre des mesures pour améliorer ce score, par exemple en se rapprochant de son microphone et/ou de sa caméra et en se positionnant face à ce ou ces capteurs. L’utilisateur du premier terminal peut en outre régler éventuellement le gain du microphone du premier terminal, par exemple pour augmenter le niveau sonore du signal de visioconférence que délivre le premier terminal. Dans une réalisation particulière décrite plus loin, le procédé peut permettre en outre d’évaluer un score de dégradation des données reçues par le deuxième terminal, et liée à des conditions de transmission via le réseau. Dans ce cas, l’utilisateur peut prendre d’autres dispositions telles que par exemple arrêter le flux vidéo et ne conserver que le flux audio à transmettre au deuxième terminal, ou encore éventuellement changer de réseau de transmission (en passant par exemple d’un connexion à une passerelle (ou « box ») internet à une connexion partagée offerte par un terminal mobile connecté à un réseau cellulaire).Thus, thanks in particular to this guidance by the man-machine interface, the user of the first terminal can know on the one hand if he is well perceived by his interlocutors during the videoconference session without having to interrupt a discussion in progress by asking this question to his interlocutors, and can on the other hand, take measures to improve this score, for example by moving closer to his microphone and/or his camera and by positioning himself in front of this or these sensors. The user of the first terminal can also optionally adjust the gain of the microphone of the first terminal, for example to increase the sound level of the videoconference signal delivered by the first terminal. In a particular embodiment described below, the method can also make it possible to evaluate a degradation score of the data received by the second terminal, and linked to transmission conditions via the network. In this case, the user can take other measures such as, for example, stopping the video stream and keeping only the audio stream to be transmitted to the second terminal, or even possibly changing the transmission network (by passing for example from a connection to an Internet gateway (or "box") to a shared connection offered by a mobile terminal connected to a cellular network).
Dans une réalisation où les données du signal de visioconférence acquises par le capteur comportent au moins des données sonores, le score de perception précité peut être estimé via une analyse des données sonores afin d’estimer au moins un score de prépondérance d’un signal de parole de l’utilisateur du premier terminal relativement à du bruit.In an embodiment where the data of the videoconference signal acquired by the sensor includes at least sound data, the aforementioned perception score can be estimated via an analysis of the sound data in order to estimate at least a preponderance score of a signal of speech of the user of the first terminal relative to noise.
Par exemple, l’analyse des données sonores peut comporter une détermination de paramètres vocaux dans un domaine spectral, propres à une fréquence fondamentale et à des formants, dans le signal de parole de l’utilisateur. Typiquement ici, la fréquence fondamentale précitée est propre à la tonalité de la voix, et les formats peuvent être caractérisés par des modulations notamment en fréquence, liées à la forme du conduit de la voix défini par la position des lèvres, de la langue, de la glotte, etc.For example, the analysis of sound data may include a determination of vocal parameters in a spectral domain, specific to a fundamental frequency and to formants, in the user's speech signal. Typically here, the aforementioned fundamental frequency is specific to the tone of the voice, and the formats can be characterized by modulations, in particular in frequency, linked to the shape of the voice duct defined by the position of the lips, the tongue, the glottis, etc.
Dans une réalisation, l’analyse des données sonores peut comporter en outre une détermination d’un niveau sonore dudit signal de parole.In one embodiment, the analysis of the sound data may further comprise a determination of a sound level of said speech signal.
Dans une réalisation où les données du signal de visioconférence acquises par le capteur comportent au moins des données d’image de l’utilisateur du premier terminal, l’estimation dudit score de perception peut comporter une analyse des données d’image pour estimer au moins un score de présence de surface de peau de l’utilisateur du premier terminal dans des images du signal de visioconférence.In an embodiment where the videoconference signal data acquired by the sensor includes at least image data of the user of the first terminal, the estimation of said perception score may include an analysis of the image data to estimate at least a skin surface presence score of the user of the first terminal in images of the videoconference signal.
Dans une première réalisation, le score de perception est estimé à partir d’une comparaison entre le signal de visioconférence transmis au deuxième terminal et un signal de référence correspondant à un signal de visioconférence de l’utilisateur, préenregistré par le capteur. Par exemple, ce signal de référence peut être préenregistré dans des conditions optimales de captation en recommandant à l’utilisateur du premier terminal de se positionner face au capteur de son terminal et à une distance optimale pour une bonne captation.In a first embodiment, the perception score is estimated from a comparison between the videoconference signal transmitted to the second terminal and a reference signal corresponding to a videoconference signal from the user, prerecorded by the sensor. For example, this reference signal can be pre-recorded under optimal capture conditions by recommending the user of the first terminal to position himself facing the sensor of his terminal and at an optimal distance for good capture.
Dans une deuxième réalisation, complémentaire ou alternative à la première réalisation, l’estimation du score de perception est effectuée en particulier par le deuxième terminal, récepteur.In a second embodiment, complementary or alternative to the first embodiment, the estimation of the perception score is carried out in particular by the second terminal, receiver.
Ainsi, dans les première et deuxième réalisations, combinées, le signal de référence peut être enregistré auprès d’un serveur de visioconférence en correspondance d’un identifiant de l’utilisateur du premier terminal, et le deuxième terminal obtient du serveur, en fonction de l’identifiant de l’utilisateur du premier terminal des données du signal de référence, pour comparer le signal de visioconférence reçu du premier terminal au signal de référence, et de là estimer le score de perception.Thus, in the first and second embodiments, combined, the reference signal can be recorded with a videoconferencing server in correspondence of an identifier of the user of the first terminal, and the second terminal obtains from the server, according to the identifier of the user of the first terminal of the data of the reference signal, to compare the videoconference signal received from the first terminal with the reference signal, and from there estimate the perception score.
Le deuxième terminal peut, dans la deuxième réalisation en particulier, renvoyer à destination du premier terminal un signal représentatif du score de perception pour piloter l’émission par l’interface homme-machine précitée du signal représentatif du score de perception (par exemple en pilotant un affichage sur l’écran ECR d’un signal représentatif du score afin d’avertir l’utilisateur du premier terminal). Le score peut être évalué de 0 à 5 par exemple et être clignotant pour attirer l’attention de l’utilisateur notamment s’il est bas. Comme présenté ci-dessus, le score peut refléter des conditions de captation par le capteur, mais aussi des conditions de transmission via le réseau. Il est proposé ci-après une réalisation permettant de distinguer les dégradations possibles du score, liées à ces conditions respectives.The second terminal can, in the second embodiment in particular, send back to the first terminal a signal representative of the perception score to control the transmission by the aforementioned man-machine interface of the signal representative of the perception score (for example by controlling a display on the ECR screen of a signal representative of the score in order to warn the user of the first terminal). The score can be evaluated from 0 to 5 for example and be flashing to attract the user's attention, especially if it is low. As presented above, the score can reflect conditions of capture by the sensor, but also conditions of transmission via the network. There is proposed below an embodiment making it possible to distinguish the possible degradations of the score, linked to these respective conditions.
Par exemple dans la réalisation où le signal de visioconférence comporte des données sonores, le premier terminal peut déterminer un premier jeu de paramètres vocaux du type précité, dans un signal que capte directement le capteur, et le deuxième terminal peut quant à lui déterminer (étape S6 de la
Dans une telle réalisation, on peut prévoir par exemple que :
- si le score de perception est inférieur à un premier score (S9), typiquement un mauvais score (de 2 ou 3 sur 5 par exemple), et
- si en outre une différence estimée entre le premier jeu et le deuxième jeu est inférieure à un deuxième score (S12), ce qui typiquement est représentatif d’une faible dégradation par le réseau,
alors le deuxième terminal (TER’) peut transmet au premier terminal (TER) un message de recommandations destiné à l’utilisateur (UT) du premier terminal (TER) pour améliorer au moins sa position par rapport audit capteur (MIC).In such an embodiment, it is possible, for example, to provide that:
- if the perception score is lower than a first score (S9), typically a bad score (2 or 3 out of 5 for example), and
- if in addition an estimated difference between the first game and the second game is less than a second score (S12), which typically is representative of low degradation by the network,
then the second terminal (TER') can transmit to the first terminal (TER) a message of recommendations intended for the user (UT) of the first terminal (TER) to improve at least his position with respect to said sensor (MIC).
En effet, dans ce cas, les conditions de transmission via le réseau ne sont pas la cause principale du mauvais score de perception estimé par le deuxième terminal (TER’) et ainsi, il peut être donné des recommandations à l’utilisateur du premier terminal (TER) d’améliorer sa position par rapport au capteur de son terminal.Indeed, in this case, the transmission conditions via the network are not the main cause of the poor perception score estimated by the second terminal (TER') and thus, recommendations can be given to the user of the first terminal. (TER) to improve its position relative to the sensor of its terminal.
Par ailleurs, dans la réalisation où le signal de visioconférence comporte des données d’image, le deuxième terminal (TER’) peut:
- détecter si des données d’image du signal de visioconférence reçu (SIG’) sont perdues (étape S21 de la
- et, dans ce cas, assigner un premier score de perception (S22).Furthermore, in the embodiment where the videoconference signal includes image data, the second terminal (TER') can:
- detecting whether image data of the received videoconference signal (SIG') is lost (step S21 of the
- and, in this case, assign a first perception score (S22).
Ce premier score peut être fixé à zéro par exemple. Il peut être affiché en clignotant (en rouge par exemple) sur le premier terminal pour que l’utilisateur comprenne vite que les dégradations de transmission via le réseau sont importantes et qu’il peut arrêter la transmission du flux vidéo pour préserver la bande passante pour le signal audio typiquement.This first score can be set to zero for example. It can be displayed flashing (in red for example) on the first terminal so that the user quickly understands that the transmission degradations via the network are significant and that he can stop the transmission of the video stream to preserve the bandwidth for the audio signal typically.
Selon un autre aspect, il est proposé un programme informatique comportant des instructions pour la mise en œuvre de tout ou partie d’un procédé tel que défini dans les présentes lorsque ce programme est exécuté par un processeur. Selon un autre aspect, il est proposé un support d’enregistrement non transitoire, lisible par un ordinateur, sur lequel est enregistré un tel programme.According to another aspect, there is provided a computer program comprising instructions for the implementation of all or part of a method as defined herein when this program is executed by a processor. In another aspect, there is provided a non-transitory, computer-readable recording medium on which such a program is recorded.
En particulier, ce programme informatique comporte des instructions pour la mise en œuvre du procédé ci-avant, lorsque ces instructions sont exécutées par un processeur d’un circuit de traitement, notamment d’un terminal.In particular, this computer program includes instructions for implementing the method above, when these instructions are executed by a processor of a processing circuit, in particular of a terminal.
Il est visé également un tel terminal comportant alors un circuit de traitement configuré pour mettre en œuvre au moins :
- une estimation d’un score de perception d’un signal de visioconférence reçu, et
- un pilotage d’émission par une interface homme-machine d’un signal représentatif de ce score, dans le procédé tel que présenté ci-dessus.It is also aimed at such a terminal then comprising a processing circuit configured to implement at least:
- an estimation of a perception score of a videoconference signal received, and
- Control of transmission by a man-machine interface of a signal representative of this score, in the method as presented above.
Il est visé également un système comportant un premier terminal, émetteur d’un signal de visioconférence, et un deuxième terminal récepteur dudit signal de visioconférence, le premier terminal comportant au moins :
- un capteur (MIC, CAM) pour acquérir des données d’un signal de visioconférence,
- une connexion (COM) à un réseau pour transmettre le signal de visioconférence au terminal récepteur via le réseau (RES), et
- une interface homme-machine (ECR) à disposition d’un utilisateur du premier terminal,
dans lequel le deuxième terminal comporte un circuit de traitement configuré pour mettre en œuvre au moins :
- un pilotage d’émission par une interface homme-machine d’un signal représentatif d’un score de perception d’un signal de visioconférence reçu, dans le procédé présenté ci-dessus.It is also aimed at a system comprising a first terminal, transmitter of a videoconference signal, and a second terminal receiving said videoconference signal, the first terminal comprising at least:
- a sensor (MIC, CAM) to acquire data from a videoconference signal,
- a connection (COM) to a network for transmitting the videoconference signal to the receiver terminal via the network (RES), and
- a man-machine interface (ECR) available to a user of the first terminal,
in which the second terminal comprises a processing circuit configured to implement at least:
- piloting of transmission by a man-machine interface of a signal representative of a perception score of a received videoconference signal, in the method presented above.
D’autres caractéristiques, détails et avantages apparaîtront à la lecture de la description détaillée ci-après, et à l’analyse des figures annexées présentées à titre d’exemples non limitatifs, et sur lesquelles :Other characteristics, details and advantages will appear on reading the detailed description below, and on analyzing the appended figures presented by way of non-limiting examples, and on which:
Fig. 1Fig. 1
Fig. 2Fig. 2
Fig. 3Fig. 3
Fig. 4Fig. 4
Fig. 5Fig. 5
En référence à la
Un microphone MIC du terminal TER à disposition de l’utilisateur UT peut capter un signal sonore dans son environnement. Ce signal SIG comporte éventuellement un signal de parole prononcé par l’utilisateur, ainsi qu’éventuellement du bruit (par exemple du bruit de fond ou autre bruit dans l’environnement de l’utilisateur UT). On entend par « signal de parole » typiquement un signal comportant au moins une fréquence, telle que la fréquence fondamentale liée à la tonalité de la voix de l’utilisateur, et des « formants » dans des bandes de fréquences différentes de la fréquence fondamentale et propres à des modulations qu’entrainent les positions des lèvres, de la langue, la forme du conduit vocal, etc. pour prononcer par exemple des consonnes.A microphone MIC of the terminal TER available to the user UT can pick up a sound signal in his environment. This signal SIG possibly includes a speech signal spoken by the user, as well as possibly noise (for example background noise or other noise in the environment of the user UT). The term "speech signal" typically means a signal comprising at least one frequency, such as the fundamental frequency linked to the tone of the user's voice, and "formants" in frequency bands different from the fundamental frequency and specific to modulations caused by the positions of the lips, the tongue, the shape of the vocal tract, etc. to pronounce, for example, consonants.
Dans une première forme de réalisation, ces paramètres vocaux (fréquences caractéristiques) de l’utilisateur sont analysés par le terminal TER dans le signal capté SIG et comparés à un niveau de bruit dans le signal SIG, afin par exemple d’assigner un score d’audition possible de l’utilisateur UT. Ce score peut alors être affiché sur l’écran ECR du terminal TER pour renseigner l’utilisateur quant aux conditions de captation favorables ou non de son terminal TER, comme illustré dans les deux cas de la
Dans un deuxième mode de réalisation, le signal SIG est encodé et transmis aux terminaux des autres participants, dont une partie au moins TER’ peut analyser dans le signal reçu SIG’ les paramètres vocaux de l’utilisateur UT prenant la parole, et comparer des valeurs de ces paramètres à un niveau de bruit dans le signal reçu SIG’ (éventuellement avec un accroissement de bruit par rapport au signal capté SIG, dû à la quantification pendant l’encodage, aux conditions de transmission et de réception du signal, etc.). Tout ou partie des terminaux TER’ des autres participants peuvent ainsi assigner un score d’audition possible de l’utilisateur UT et piloter un affichage de ce score au moins sur l’écran ECR du terminal TER de l’utilisateur UT prenant la parole, comme illustré sur la
Ainsi, dans cette deuxième forme de réalisation, les paramètres de fréquence vocale de l’utilisateur UT peuvent être déterminés en continu dans le flux de visioconférence reçu par les terminaux TER’ des autres participants à la visioconférence. Sur au moins un terminal TER’ par exemple, les fréquences et le niveau sonores reçus en provenance du terminal émetteur TER sont testés de manière logicielle. Cette estimation peut être grossière et telle que décrite en détails ci-après, et n’a pas nécessairement vocation à reconnaître spécifiquement l’utilisateur UT prenant la parole.Thus, in this second embodiment, the voice frequency parameters of the user UT can be determined continuously in the videoconference stream received by the terminals TER' of the other participants in the videoconference. On at least one TER terminal, for example, the frequencies and the sound level received from the TER transmitting terminal are tested in software. This estimate may be coarse and as described in detail below, and is not necessarily intended to specifically recognize the user UT speaking.
En faisant ce test logiciel, certains au moins des terminaux récepteurs peuvent être configurés par exemple pour ne pas activer leurs haut-parleurs, de sorte que les utilisateurs de ces terminaux n’ont pas de son tant que le score de détection du signal de parole dans le signal reçu SIG’ n’est pas calculé. Ensuite, ces terminaux peuvent calculer le score de réception du signal de parole basé sur l’analyse des paramètres spectraux, typiquement de fréquence vocale et de niveau reçu.By doing this software test, at least some of the receiving terminals can be configured, for example, not to activate their loudspeakers, so that the users of these terminals do not have sound until the speech signal detection score in the received signal SIG' is not calculated. Then, these terminals can calculate the reception score of the speech signal based on the analysis of the spectral parameters, typically voice frequency and level received.
Le score évalué sur ces terminaux, par exemple sur une échelle de 0 à 5, est renvoyé au terminal TER de l’utilisateur UT prenant la parole, de sorte que ce dernier UT puisse disposer en direct d’un affichage visuel de jauges de réception de sa voix sur les différents terminaux des participants à la visioconférence comme illustré sur la
Dans un exemple de réalisation détaillé ci-après, les paramètres vocaux de l’utilisateur sont issus de l’analyse spectrale (analyse en fréquence du signal) illustrée par l’ordinogramme de la
Un terminal (émetteur selon le premier mode de réalisation, ou récepteur selon le deuxième mode de réalisation) calcule au préalable les paramètres vocaux (fréquences caractéristiques) de l’utilisateur de manière grossière. Les paramètres vocaux de l’utilisateur UT, notés (Pi)Uci-après, sont issus de l’analyse en fréquence du signal (SIG ou SIG’ respectivement).A terminal (transmitter according to the first embodiment, or receiver according to the second embodiment) calculates beforehand the vocal parameters (characteristic frequencies) of the user in a rough manner. The voice parameters of the user UT, denoted (Pi) U below, come from the frequency analysis of the signal (SIG or SIG' respectively).
Dans une première étape S1, le signal audio est filtré avec un passe-bande fréquentiel pour ne garder que les fréquences de la voix humaine allant de 100 à 300 Hertz.In a first step S1, the audio signal is filtered with a frequency band pass to keep only the frequencies of the human voice ranging from 100 to 300 Hertz.
Dans une deuxième étape S2, une analyse spectrale du signal (analyse en fréquence du signal) est effectuée dans le but de déterminer son contenu fréquentiel (par exemple après une transformée en sous-bandes).In a second step S2, a spectral analysis of the signal (frequency analysis of the signal) is carried out with the aim of determining its frequency content (for example after a transform into sub-bands).
Les paramètres vocaux (Pi)Ude l’utilisateur UT sont ainsi issus de cette analyse spectrale à l’étape S3.The voice parameters (Pi) U of the user UT are thus derived from this spectral analysis in step S3.
Les caractéristiques extraites sont en relation avec le contenu fréquentiel de la parole, la forme du conduit vocal (position des lèvres, de la langue, de la glotte etc.), l’intonation, etc. Elles concernent les fréquences les plus présentes dans la voix, ainsi qu’une information de transition entre les fréquences à chaque instant. Pour au moins une trame de parole, on peut extraire ainsi par exemple un vecteur de caractéristiques qui peuvent être des coefficients dits « cepstraux » (transformée de Fourier inverse d’un module spectral exprimé en échelle logarithmique), leurs dérivées, l’énergie du signal, et/ou autres.The extracted characteristics are related to the frequency content of speech, the shape of the vocal tract (position of the lips, tongue, glottis, etc.), intonation, etc. They concern the frequencies most present in the voice, as well as transition information between the frequencies at each instant. For at least one speech frame, it is thus possible to extract, for example, a vector of characteristics which may be so-called "cepstral" coefficients (inverse Fourier transform of a spectral module expressed on a logarithmic scale), their derivatives, the energy of the signal, and/or others.
Ces caractéristiques sont donc liées au contenu fréquentiel du signal de l’utilisateur et correspondent aux paramètres vocaux de celui-ci.These characteristics are therefore linked to the frequency content of the user's signal and correspond to the voice parameters of the latter.
Dans une réalisation particulière, les paramètres vocaux de l’utilisateur UT peuvent être déterminés dans une phase préalable à tout usage de visioconférence. Alternativement, ils peuvent aussi être déterminés lors des premières prises de parole de l’utilisateur UT dans une première séance de visioconférence. Ces paramètres notés (P0)Upeuvent alors, dans ce cas alternatif, être déterminés d’une manière transparente pour l’utilisateur UT. Plus particulièrement, dans cette phase préalable, il est possible à l’étape S4 d’enregistrer un échantillon (de quelques secondes par exemple) de la voix de l’utilisateur UT. Au cours du calcul des paramètres (P0)Usur ce premier échantillon, il est alors possible de déterminer aussi le niveau sonore moyen de l’utilisateur UT. L’ensemble de ces paramètres notés (P0)U, propres à l’utilisateur UT et déterminés sur un signal capté et reçu correctement, est stocké à l’étape S5 comme premier jeu de paramètres de référence. Par exemple, ce jeu de paramètres vocaux (P0)Ude l’utilisateur UT peuvent être envoyés au serveur de visioconférence SER pour stockage, en correspondance d’un identifiant Id(UT) de l’utilisateur (nom de l’utilisateur UT, ou adresse IP de son terminal ou autre).In a particular embodiment, the voice parameters of the user UT can be determined in a phase prior to any use of videoconferencing. Alternatively, they can also be determined during the first speeches of the user UT in a first videoconference session. These parameters denoted (P 0 ) U can then, in this alternative case, be determined transparently for the user UT. More particularly, in this preliminary phase, it is possible at step S4 to record a sample (of a few seconds for example) of the voice of the user UT. During the calculation of the parameters (P 0 ) U on this first sample, it is then possible to also determine the average sound level of the user UT. All of these parameters denoted (P 0 ) U , specific to the user UT and determined on a signal picked up and received correctly, is stored in step S5 as the first set of reference parameters. For example, this set of voice parameters (P 0 ) U of the user UT can be sent to the videoconferencing server SER for storage, in correspondence of an identifier Id(UT) of the user (user name UT , or IP address of his terminal or other).
En phase d’utilisation, les paramètres (P0)Uissus de l’échantillon vocal de l’utilisateur émetteur UT à l’étape S5, ainsi qu’un identifiant de l’utilisateur UT (nom, adresse IP ou autre), sont par exemple transmis par le serveur SER via le réseau RES à tout ou partie des terminaux des participants à la visioconférence. Par exemple, un terminal récepteur TER’ en communication avec le terminal émetteur TER de l’utilisateur UT peut transmettre au serveur l’identifiant Id(UT) de l’utilisateur du terminal émetteur pour récupérer les paramètres (P0)Udu signal de référence préenregistré.In the use phase, the parameters (P 0 ) U from the voice sample of the sender user UT in step S5, as well as an identifier of the user UT (name, IP address or other), are for example transmitted by the server SER via the network RES to all or part of the terminals of the participants in the videoconference. For example, a receiver terminal TER' in communication with the sender terminal TER of the user UT can transmit to the server the identifier Id(UT) of the user of the sender terminal to retrieve the parameters (P 0 ) U of the signal from pre-recorded reference.
Ensuite, le test de ces paramètres spectraux est effectué sur le signal reçu par une partie au moins de ces terminaux, comme suit.Then, the test of these spectral parameters is performed on the signal received by at least part of these terminals, as follows.
Un terminal récepteur peut tester en continu de manière logicielle les fréquences et le niveau sonores reçus en provenance du terminal émetteur de l’utilisateur UT, en calculant, sur le signal reçu SIG’, les paramètres vocaux [(Pi)U]rà l’étape S6. Puis il est possible de comparer à l’étape S7 ces paramètres vocaux reçus aux gabarits de fréquences théoriques de l’utilisateur UT préalablement enregistrés auprès du serveur de visioconférence.A receiver terminal can continuously test in software the frequencies and the sound level received from the user's transmitter terminal UT, by calculating, on the received signal SIG', the voice parameters [(Pi) U ] r to l step S6. Then it is possible to compare in step S7 these voice parameters received with the theoretical frequency templates of the user UT previously recorded with the videoconferencing server.
Cette opération S7 peut être mise en œuvre en comparant les paramètres vocaux calculés au niveau du terminal sur le signal SIG’, aux coefficients de fréquence référence de l’utilisateur que ce terminal peut récupérer du serveur de visioconférence grâce à l’identifiant précité de l’utilisateur UT. Ce terminal compare ainsi les valeurs de paramètres [(Pi)U]rcalculées au niveau du terminal et qui reflètent les altérations subies par le signal vocal au travers de la transmission via le réseau, aux paramètres théoriques (P0)Udonnés par le serveur de la visioconférence. Les deux séries de valeurs de paramètres ne sont pas identiques, car la transmission via le réseau peut dégrader la voix de l’utilisateur UT notamment par la perte de paquets d’octets, de perte de fréquences audio, etc.This operation S7 can be implemented by comparing the voice parameters calculated at the level of the terminal on the signal SIG', with the user's reference frequency coefficients that this terminal can retrieve from the videoconference server thanks to the aforementioned identifier of the user UT. This terminal thus compares the parameter values [(Pi) U ] r calculated at the level of the terminal and which reflect the alterations undergone by the voice signal through transmission via the network, with the theoretical parameters (P 0 ) U given by the videoconference server. The two sets of parameter values are not identical, because the transmission via the network can degrade the voice of the user UT in particular by the loss of packets of bytes, loss of audio frequencies, etc.
Le terminal récepteur TER’ peut également tester de manière logicielle ses haut-parleurs (tester éventuellement leur activité). A l’étape S8, le terminal TER’ peut en outre calculer un score (référence « SCORE1 » de la
Score de qualité audio(U) = SCORE 1 (U) = f ([(Pi)U]r- (P0)U)Audio quality score(U) = SCORE 1 (U) = f ([(Pi) U ] r - (P 0 ) U )
Le score évalué en fonction du temps sur au moins un terminal TER’ de participant à la conférence, sur une échelle de 0 à 5 par exemple, peut alors être renvoyé à l’étape S14 au terminal de l’utilisateur UT en vue d’un affichage sur l’écran ECR. L’utilisateur UT dispose ainsi en direct de jauges de réception de sa voix sur différents terminaux des participants à la visioconférence.The score evaluated as a function of time on at least one terminal TER' of a participant in the conference, on a scale of 0 to 5 for example, can then be sent back in step S14 to the terminal of the user UT with a view to a display on the ECR screen. The user UT thus has live reception gauges of his voice on different terminals of the participants in the videoconference.
Dans une réalisation où typiquement ce score de perception est faible à l’issue du test S9 (par exemple inférieur ou égal à un seuil THR1 tel que par exemple 3 sur 5), il est possible d’évaluer en outre si la dégradation est liée à de mauvaises conditions du réseau. Dans cette réalisation, il est alors possible d’évaluer aussi un deuxième score SCORE2 de dégradation du signal original SIG, liée aux conditions du réseau RES, comme suit. A l’étape S10, le terminal récepteur TER’ récupère (sur requête auprès du terminal émetteur TER) les paramètres (Pi)Uque peut évaluer le terminal émetteur TER directement à partir du signal SIG, pour comparer ces paramètres (Pi)Uaux paramètres [(Pi)U]rdéterminés par le terminal récepteur TER’ sur le signal reçu SIG’. A l’étape S11, le terminal récepteur TER’ peut évaluer le score SCORE2 de dégradation liée aux conditions du réseau comme suit :In an embodiment where typically this perception score is low at the end of the S9 test (for example less than or equal to a THR1 threshold such as for example 3 out of 5), it is possible to further assess whether the degradation is linked to poor network conditions. In this embodiment, it is then possible to also evaluate a second score SCORE2 of degradation of the original signal SIG, linked to the conditions of the network RES, as follows. At step S10, the receiver terminal TER' retrieves (on request from the transmitter terminal TER) the parameters (Pi) U that the transmitter terminal TER can evaluate directly from the signal SIG, to compare these parameters (Pi) U with the parameters [(Pi) U ] r determined by the receiver terminal TER' on the received signal SIG'. At step S11, the receiver terminal TER' can evaluate the degradation score SCORE2 linked to the conditions of the network as follows:
SCORE2 (U) = f [ [(Pi)U]r- (Pi)U]SCORE2 (U) = f [ [(Pi) U ] r - (Pi) U ]
Ensuite, à l’étape S12, si ce score SCORE2 est inférieur à un deuxième seuil THR2, c’est-à-dire que la différence entre :
- les paramètres (Pi)Utirés du signal original SIG, et
- les paramètres [(Pi)U]rtirés du signal reçus SIG’,
n’est pas réellement significative (pas supérieure au seuil THR2 en valeur absolue par exemple), alors la dégradation du signal SIG par sa transmission via le réseau n’est pas la cause du mauvais score de perception SCORE1 calculé à l’étape S8.Then, in step S12, if this score SCORE2 is lower than a second threshold THR2, that is to say that the difference between:
- the parameters (Pi) U taken from the original SIG signal, and
- the parameters [(Pi) U ] r drawn from the received signal SIG',
is not really significant (not greater than the threshold THR2 in absolute value for example), then the degradation of the signal SIG by its transmission via the network is not the cause of the bad perception score SCORE1 calculated in step S8.
Dans ce cas (flèche OK en sortie du test S12), le terminal récepteur TER’ peut transmettre au terminal émetteur TER un message d’activation d’une interface homme machine du terminal émetteur TER (par exemple un affichage sur l’écran ECR) pour suggérer à l’étape S13, des recommandations destinées à l’utilisateur UT telles que :
- s’approcher de son microphone MIC, ou
- augmenter le gain de son microphone MIC (via une carte son de son terminal TER), et/ou autres.In this case (OK arrow at the output of the test S12), the receiver terminal TER' can transmit to the sender terminal TER a message for activating a man-machine interface of the sender terminal TER (for example a display on the screen ECR) to suggest at step S13, recommendations intended for the UT user such as:
- approach his microphone MIC, or
- increase the gain of his microphone MIC (via a sound card of his terminal TER), and/or others.
Dans un mode de réalisation complémentaire ou alternatif, une méthode similaire peut être mise en œuvre avec l’image de l’utilisateur UT captée par une caméra CAM que peut comporter en outre le terminal émetteur TER.In a complementary or alternative embodiment, a similar method can be implemented with the image of the user UT captured by a camera CAM that the transmitter terminal TER may also include.
A titre d’exemple, il peut être prévu de mesurer si l’image est de profil, en estimant si la surface de peau apparente est inférieure à une surface de peau théorique de l’utilisateur UT lorsqu’il est face à la caméra de son terminal.By way of example, provision may be made to measure whether the image is in profile, by estimating whether the apparent skin surface is less than a theoretical skin surface of the user UT when he is facing the camera of his terminal.
Les paramètres propres à l’utilisateur UT sont ici des positions et paramètres géométriques des yeux, du nez, de la mâchoire, des sourcils de l’utilisateur UT qui peuvent être obtenus par des techniques de reconnaissance faciale. Les paramètres initiaux d’image, notés ici (PP0)U, peuvent être calculés au préalable (et stockés sur le serveur de visioconférence SER indexés par un identifiant de l’utilisateur UT) en demandant par exemple à l’utilisateur de se tenir droit face à la caméra de son terminal. Ces paramètres peuvent par exemple quantifier des surfaces de peau de l’utilisateur UT apparentes à l’image.The parameters specific to the user UT are here positions and geometric parameters of the eyes, the nose, the jaw, the eyebrows of the user UT which can be obtained by facial recognition techniques. The initial image parameters, denoted here (PP 0 ) U , can be calculated beforehand (and stored on the videoconferencing server SER indexed by a user identifier UT) by asking the user, for example, to stand straight in front of the camera of his terminal. These parameters can for example quantify skin surfaces of the user UT apparent in the image.
Les paramètres d’image correspondant, couramment obtenus par un terminal tiers et notés [(PPi)U]rsont calculés sur un terminal récepteur à partir de l’image de l’utilisateur UT captée à un instant courant t par la caméra du terminal émetteur TER de l’utilisateur UT et envoyée par le réseau au terminal récepteur.The corresponding image parameters, commonly obtained by a third-party terminal and denoted [(PPi) U ] r are calculated on a receiving terminal from the image of the user UT captured at a current instant t by the camera of the terminal transmitter TER of the user UT and sent by the network to the receiver terminal.
Un terminal récepteur TER’ d’un participant peut ainsi calculer un score de réception de l’image de l’utilisateur UT basé sur l’analyse de ces paramètres :A receiver terminal TER' of a participant can thus calculate a reception score for the image of the user UT based on the analysis of these parameters:
Score de qualité vidéo (U) = f ( [(PPi)U]r- (PP0)U)Video quality score (U) = f ( [(PPi) U ] r - (PP 0 ) U )
Le score de qualité du signal d’image (vidéo) en fonction du temps t peut être alors calibré sur une échelle de 0 à 5.The quality score of the image (video) signal as a function of time t can then be calibrated on a scale of 0 to 5.
Il est présenté ci-après un exemple de réalisation relatif aux conditions de réception du signal vidéo par le terminal récepteur TER’ en référence à la
En revanche, si les données d’images sont bien reçues par le terminal récepteur TER’, ce dernier peut évaluer à l’étape S23 un score de qualité vidéo comme défini précédemment et transmettre les données de ce score de perception vidéo au terminal émetteur TER pour affichage à l’étape S24.On the other hand, if the image data is indeed received by the receiver terminal TER', the latter can evaluate in step S23 a video quality score as defined previously and transmit the data of this video perception score to the transmitter terminal TER for display at step S24.
La mise en œuvre du traitement ci-avant permet ainsi à l’utilisateur, du fait de l’affichage du score de réception des données de visioconférence, de mieux se positionner par rapport au microphone et/ou à la caméra de son terminal, sans interrompre la conversation en cours en demandant aux participants s’il est entendu ou vu. Une telle réalisation participe ainsi à l’amélioration de l'expérience utilisateur dans tout type de visioconférence.The implementation of the above processing thus allows the user, due to the display of the videoconference data reception score, to better position themselves in relation to the microphone and/or the camera of their terminal, without interrupt the current conversation by asking the participants if it is heard or seen. Such an achievement thus contributes to improving the user experience in any type of videoconference.
Claims (10)
- un capteur (MIC, CAM) pour acquérir des données d’un signal de visioconférence,
- une connexion (COM) à un réseau pour transmettre le signal de visioconférence au terminal récepteur via le réseau (RES), et
- une interface homme-machine (ECR) à disposition d’un utilisateur du premier terminal,
le procédé comportant :
- un pilotage d’émission (S14) par l’interface homme-machine d’un signal représentatif d’un score de perception du signal de visioconférence reçu par le terminal récepteur, permettant à l’utilisateur du premier terminal d’améliorer au moins sa position par rapport audit capteur.1. Method for processing videoconference data established between a first terminal, sender (TER), and at least one second terminal, receiver (TER'), the first terminal comprising at least:
- a sensor (MIC, CAM) to acquire data from a videoconference signal,
- a connection (COM) to a network for transmitting the videoconference signal to the receiver terminal via the network (RES), and
- a man-machine interface (ECR) available to a user of the first terminal,
the process comprising:
- emission control (S14) by the man-machine interface of a signal representative of a perception score of the videoconference signal received by the receiver terminal, allowing the user of the first terminal to improve at least its position relative to said sensor.
- détecte si des données d’image du signal de visioconférence reçu (SIG’) sont perdues (S21), conduisant à un affichage d’une image figée sur le deuxième terminal (TER’),
- et, dans ce cas, assigne un premier score de perception (S22).10. Method according to one of claims 7 to 9, taken in combination with claim 5, in which the second terminal (TER'):
- detects whether image data of the received videoconference signal (SIG') is lost (S21), leading to display of a frozen image on the second terminal (TER'),
- and, in this case, assigns a first perception score (S22).
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR2106694A FR3124593B1 (en) | 2021-06-23 | 2021-06-23 | RECEPTION SCORE OF A VIDEO CONFERENCE SIGNAL |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR2106694A FR3124593B1 (en) | 2021-06-23 | 2021-06-23 | RECEPTION SCORE OF A VIDEO CONFERENCE SIGNAL |
FR2106694 | 2021-06-23 |
Publications (2)
Publication Number | Publication Date |
---|---|
FR3124593A1 true FR3124593A1 (en) | 2022-12-30 |
FR3124593B1 FR3124593B1 (en) | 2024-02-16 |
Family
ID=77411849
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR2106694A Active FR3124593B1 (en) | 2021-06-23 | 2021-06-23 | RECEPTION SCORE OF A VIDEO CONFERENCE SIGNAL |
Country Status (1)
Country | Link |
---|---|
FR (1) | FR3124593B1 (en) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070112563A1 (en) * | 2005-11-17 | 2007-05-17 | Microsoft Corporation | Determination of audio device quality |
EP2247082A1 (en) * | 2009-04-30 | 2010-11-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Telecommunication device, telecommunication system and method for telecommunicating voice signals |
US20110096137A1 (en) * | 2009-10-27 | 2011-04-28 | Mary Baker | Audiovisual Feedback To Users Of Video Conferencing Applications |
US20140354826A1 (en) * | 2013-05-28 | 2014-12-04 | Apple Inc. | Reference and non-reference video quality evaluation |
EP2814244A1 (en) * | 2013-06-11 | 2014-12-17 | Alcatel Lucent | A method and a system for improving communication quality of a video conference |
US20170085600A1 (en) * | 2015-09-21 | 2017-03-23 | Fuji Xerox Co., Ltd. | Methods and Systems for Electronic Communications Feedback |
US20170249939A1 (en) * | 2014-09-30 | 2017-08-31 | Hewlett-Packard Development Company, L.P. | Sound conditioning |
-
2021
- 2021-06-23 FR FR2106694A patent/FR3124593B1/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070112563A1 (en) * | 2005-11-17 | 2007-05-17 | Microsoft Corporation | Determination of audio device quality |
EP2247082A1 (en) * | 2009-04-30 | 2010-11-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Telecommunication device, telecommunication system and method for telecommunicating voice signals |
US20110096137A1 (en) * | 2009-10-27 | 2011-04-28 | Mary Baker | Audiovisual Feedback To Users Of Video Conferencing Applications |
US20140354826A1 (en) * | 2013-05-28 | 2014-12-04 | Apple Inc. | Reference and non-reference video quality evaluation |
EP2814244A1 (en) * | 2013-06-11 | 2014-12-17 | Alcatel Lucent | A method and a system for improving communication quality of a video conference |
US20170249939A1 (en) * | 2014-09-30 | 2017-08-31 | Hewlett-Packard Development Company, L.P. | Sound conditioning |
US20170085600A1 (en) * | 2015-09-21 | 2017-03-23 | Fuji Xerox Co., Ltd. | Methods and Systems for Electronic Communications Feedback |
Also Published As
Publication number | Publication date |
---|---|
FR3124593B1 (en) | 2024-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10930262B2 (en) | Artificially generated speech for a communication session | |
US8284922B2 (en) | Methods and systems for changing a communication quality of a communication session based on a meaning of speech data | |
KR101626438B1 (en) | Method, device, and system for audio data processing | |
US20110274293A1 (en) | Method, device and communication terminal for adjusting volume adaptively | |
USRE40054E1 (en) | Video-assisted audio signal processing system and method | |
US7965650B2 (en) | Method and system for quality monitoring of media over internet protocol (MOIP) | |
KR20190027820A (en) | Hearing tests and modification of audio signals | |
JP2004514327A (en) | Measuring conversational quality of telephone links in telecommunications networks | |
US20120239746A1 (en) | Device, Method and Computer Program Product for Responding to Media Conference Deficiencies | |
WO2014152272A1 (en) | Audio transmission channel quality assessment | |
CN109120947A (en) | A kind of the voice private chat method and client of direct broadcasting room | |
KR20190111134A (en) | Methods and devices for improving call quality in noisy environments | |
EP1849157A1 (en) | Method of measuring annoyance caused by noise in an audio signal | |
US20170287495A1 (en) | Distributed suppression or enhancement of audio features | |
CN110996238A (en) | Binaural synchronous signal processing hearing aid system and method | |
KR20070060861A (en) | Method for measuring interactive speech quality in voip network | |
CN107967921B (en) | Volume adjusting method and device of conference system | |
KR101746178B1 (en) | APPARATUS AND METHOD OF VoIP PHONE QUALITY MEASUREMENT USING WIDEBAND VOICE CODEC | |
FR3124593A1 (en) | VIDEOCONFERENCING SIGNAL RECEPTION SCORE | |
US20200301651A1 (en) | Selecting a microphone based on estimated proximity to sound source | |
US11290815B2 (en) | Method for personalizing the audio signal of an audio or video stream | |
EP1763163A1 (en) | Apparatus and method for obtaining audience rating information pertaining to programs broadcasted through a communication network | |
CN113031904B (en) | Control method and electronic equipment | |
FR2817096A1 (en) | Packet telephone network non intrusive fault detection having speech reconstituted/fault library compared and faults detected with calculation displayed providing degradation statistical analysis. | |
Fernández et al. | Monitoring of audio visual quality by key indicators: Detection of selected audio and audiovisual artefacts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PLFP | Fee payment |
Year of fee payment: 2 |
|
PLSC | Publication of the preliminary search report |
Effective date: 20221230 |
|
PLFP | Fee payment |
Year of fee payment: 3 |
|
PLFP | Fee payment |
Year of fee payment: 4 |