FR3120491A1 - Process for rendering audiovisual streams, electronic terminal and corresponding computer program product - Google Patents
Process for rendering audiovisual streams, electronic terminal and corresponding computer program product Download PDFInfo
- Publication number
- FR3120491A1 FR3120491A1 FR2102172A FR2102172A FR3120491A1 FR 3120491 A1 FR3120491 A1 FR 3120491A1 FR 2102172 A FR2102172 A FR 2102172A FR 2102172 A FR2102172 A FR 2102172A FR 3120491 A1 FR3120491 A1 FR 3120491A1
- Authority
- FR
- France
- Prior art keywords
- stream
- rendering
- audiovisual
- text
- audiovisual stream
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000009877 rendering Methods 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000004590 computer program Methods 0.000 title claims abstract description 12
- 230000008569 process Effects 0.000 title description 3
- 238000004891 communication Methods 0.000 claims description 36
- 238000013518 transcription Methods 0.000 claims description 4
- 230000035897 transcription Effects 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims 1
- 230000005540 biological transmission Effects 0.000 description 16
- 238000004458 analytical method Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 10
- 230000015556 catabolic process Effects 0.000 description 8
- 238000006731 degradation reaction Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 7
- 230000006872 improvement Effects 0.000 description 7
- 238000001514 detection method Methods 0.000 description 5
- 230000033001 locomotion Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 206010047571 Visual impairment Diseases 0.000 description 1
- 239000011449 brick Substances 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010921 in-depth analysis Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004377 microelectronic Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
- H04N21/440236—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/80—Responding to QoS
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42202—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] environmental sensors, e.g. for detecting temperature, luminosity, pressure, earthquakes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42203—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44227—Monitoring of local network, e.g. connection or bandwidth variations; Detecting new devices in the local network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Environmental & Geological Engineering (AREA)
- Environmental Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Ecology (AREA)
- Emergency Management (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Remote Sensing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Procédé de rendu de flux audiovisuel, terminal électronique et produit programme d’ordinateur correspondant L’invention concerne un procédé mis en œuvre dans un terminal électronique comprenant : une obtention d’un flux audiovisuel; une obtention d’un flux textuel associé au flux audiovisuel ; un contrôle du rendu dudit flux textuel pendant le rendu du flux audiovisuel, en fonction d’un contexte dynamique de rendu du flux audiovisuel. L’invention concerne aussi le terminal électronique, le produit programme d’ordinateur et le support correspondant. Figure pour l'abrégé : Fig. 3Audiovisual stream rendering method, electronic terminal and corresponding computer program product The invention relates to a method implemented in an electronic terminal comprising: obtaining an audiovisual stream; obtaining a text stream associated with the audiovisual stream; a control of the rendering of said text stream during the rendering of the audiovisual stream, according to a dynamic context of rendering of the audiovisual stream. The invention also relates to the electronic terminal, the computer program product and the corresponding medium. Figure for the abstract: Fig. 3
Description
1. Domaine technique1. Technical area
La présente application se rapporte au domaine du traitement d’un flux audiovisuel en vue de son rendu sur une interface utilisateur couplé à un terminal électronique et concerne notamment un procédé de rendu de flux multimédia, ainsi qu’un terminal électronique, un produit programme d’ordinateur et un médium correspondants.This application relates to the field of processing an audiovisual stream with a view to its rendering on a user interface coupled to an electronic terminal and relates in particular to a process for rendering multimedia streams, as well as an electronic terminal, a program product of computer and a corresponding medium.
2. Etat de la technique2. State of the art
De nombreux terminaux électroniques permettent à des utilisateurs d’accéder à des flux audiovisuels. Par audiovisuel, on entend ici un flux ayant une composante audio et/ou une composante vidéo. Il peut s’agir par exemple d’un flux véhiculé lors d’une communication synchrone entre des terminaux (par exemple lors d’un appel vocal (sans composante vidéo) ou d’un appel vidéo entre les deux terminaux), ou lors d’une communication asynchrone (par exemple dans un message vocal ou vidéo) ou encore lors de la consommation d’un contenu mis à disposition sur un serveur de contenu audiovisuel (tel qu’un serveur de téléchargement ou de diffusion en temps réel (ou « streaming » selon la terminologie anglaise).Many electronic terminals allow users to access audiovisual streams. By audiovisual is meant here a stream having an audio component and/or a video component. It may be for example a stream conveyed during a synchronous communication between terminals (for example during a voice call (without video component) or a video call between the two terminals), or during an asynchronous communication (for example in a voice or video message) or even when consuming content made available on an audiovisual content server (such as a download or real-time streaming server (or " streaming” according to the English terminology).
Un utilisateur peut avoir accès à un flux audiovisuel par le biais d’un terminal fixe et/ou mobile, tel qu’ordinateur personnel, d’une tablette, d’un téléphone intelligent (ou « smartphone ») et/ou d’un objet connecté.A user can access an audiovisual stream via a fixed and/or mobile terminal, such as a personal computer, a tablet, a smart telephone (or "smartphone") and/or a connected object.
La présente demande a pour objet de proposer des améliorations visant à améliorer l’expérience utilisateur d’un utilisateur d’un terminal électronique accédant à un flux audiovisuel.The purpose of this application is to propose improvements aimed at improving the user experience of a user of an electronic terminal accessing an audiovisual stream.
3. Exposé de l'invention3. Disclosure of Invention
La présente demande vise à améliorer la situation à l'aide d'un procédé mis en œuvre au moins partiellement dans un terminal électronique et comprenant:The present application aims to improve the situation using a method implemented at least partially in an electronic terminal and comprising:
- une obtention d’un flux audiovisuel;obtaining an audiovisual stream;
- une obtention d’un flux textuel associé audit flux audiovisuel ;obtaining a text stream associated with said audiovisual stream;
- un contrôle du rendu dudit flux textuel pendant le rendu dudit flux audiovisuel, en fonction d’un contexte dynamique de rendu dudit flux audiovisuel.a control of the rendering of said text stream during the rendering of said audiovisual stream, according to a dynamic context of rendering of said audiovisual stream.
En effet, l’expérience d’un utilisateur consommant un flux audiovisuel peut fluctuer en fonction du contexte physique dans lequel se déroule cette consommation.Indeed, the experience of a user consuming an audiovisual stream can fluctuate depending on the physical context in which this consumption takes place.
De ce fait, il n’est pas rare qu’un utilisateur soit contraint, dans le cas d’une communication vocale, de demander à son interlocuteur de répéter ses propos, ou encore de suspendre la communication, jusqu’à s’être déplacé dans une zone géographie plus appropriée à une communication vocale (par exemple une zone géographique offrant une meilleure couverture réseau et/ou localisée dans un environnement moins bruyant), ou de mettre fin à la communication.As a result, it is not uncommon for a user to be forced, in the case of a voice communication, to ask his interlocutor to repeat his remarks, or even to suspend the communication, until he has moved in a geographical area more suitable for voice communication (for example a geographical area offering better network coverage and/or located in a less noisy environment), or to end the call.
Au moins certains modes de réalisation de la présente demande proposent de pallier à de telles situations par un rendu, en fonction du contexte de rendu du flux audiovisuel en cours de consommation, d’un flux complémentaire susceptible de faciliter la compréhension par un utilisateur du flux consommé.At least certain embodiments of the present application propose to remedy such situations by rendering, depending on the rendering context of the audiovisual stream being consumed, of an additional stream capable of facilitating the understanding by a user of the stream consumes.
Par obtention, on entend notamment une réception, une acquisition et/ou une lecture depuis un support de stockage accessible au terminal.Obtaining means in particular receiving, acquiring and/or reading from a storage medium accessible to the terminal.
Dans au moins certains modes de réalisation, ledit contrôle du rendu dudit flux textuel comprend un affichage et/ou une interruption d’affichage d’au moins une partie dudit flux textuel sur au moins un écran couplé audit terminal électronique.In at least some embodiments, said rendering control of said text stream comprises displaying and/or interrupting the display of at least part of said text stream on at least one screen coupled to said electronic terminal.
De tels modes de réalisation, où le flux textuel complémentaire n’est rendu que de façon conditionnelle, peuvent permettre ainsi d’éviter de consacrer des ressources (par exemple en termes d’interface de sortie ou de temps de traitement) au rendu d’un flux textuel lorsque qu’il ne paraît pas nécessaire. En effet, comme cela peut aisément se comprendre dans le cas d‘un terminal équipé d’un écran de petite taille tel qu’un smartphone, l’affichage d’un texte sur cet écran lors du visionnage d’un flux multimédia pourrait se faire au détriment de la visibilité d’une composante vidéo de ce flux. Il est également susceptible de détourner l’attention de l’utilisateur du flux audiovisuel consommé.Such embodiments, where the complementary text stream is rendered only conditionally, can thus make it possible to avoid devoting resources (for example in terms of output interface or processing time) to rendering a text flow when it does not seem necessary. Indeed, as can easily be understood in the case of a terminal equipped with a small screen such as a smartphone, the display of a text on this screen during the viewing of a multimedia stream could be to the detriment of the visibility of a video component of this stream. It is also likely to divert the user's attention from the audiovisual stream consumed.
Dans au moins certains modes de réalisation, ledit contrôle du rendu dudit flux textuel comprend un affichage et/ou une interruption d’affichage d’au moins une partie dudit flux textuel sur au moins un écran couplé audit terminal électronique.In at least some embodiments, said rendering control of said text stream comprises displaying and/or interrupting the display of at least part of said text stream on at least one screen coupled to said electronic terminal.
Dans au moins certains modes de réalisation, ledit contrôle du rendu dudit flux textuel comprend un rendu et/ou une interruption de rendu d’un flux audio obtenu par transformation du flux textuel par synthèse vocale.In at least certain embodiments, said rendering control of said textual stream comprises rendering and/or interruption of rendering of an audio stream obtained by transformation of the textual stream by voice synthesis.
Dans au moins certains modes de réalisation, ledit contrôle du rendu dudit flux textuel tient compte d’au moins un élément contextuel appartenant à un groupe comprenant :In at least certain embodiments, said rendering control of said text stream takes into account at least one contextual element belonging to a group comprising:
- un niveau de bruit audio et/ou visuel ambiant dudit terminal électronique ;an ambient audio and/or visual noise level of said electronic terminal;
- une variation d’au moins une composante audio et/ou vidéo dudit flux audiovisuel ;a variation of at least one audio and/or video component of said audiovisual stream;
- une capacité de rendu dudit terminal;a rendering capability of said terminal;
- un évènement détecté via une interface utilisateur couplée audit terminal électronique;an event detected via a user interface coupled to said electronic terminal;
- un positionnement dudit terminal.a positioning of said terminal.
Ainsi, le rendu du flux textuel peut être mis en œuvre dans différentes situations, traduisant un contexte physique ou réseau du terminal non optimal.Thus, the rendering of the text stream can be implemented in different situations, reflecting a non-optimal physical or network context of the terminal.
L’activation d’un élément d’interfaçage du dispositif comme un élément d’entrée (activation d’une touche du clavier ou d’un écran tactile du terminal), ou de sortie (haut-parleur) peut être l’expression implicite ou explicite d’un besoin de l’utilisateur du terminal d’une assistance à la compréhension de la communication, ou au contraire de la fin d’un tel besoin, et donc d’une commande de rendu ou de fin de rendu du flux textuel.The activation of an interfacing element of the device such as an input element (activation of a key on the keyboard or of a touch screen of the terminal), or output (loudspeaker) can be the implicit expression or explicit of a need of the user of the terminal for assistance in understanding the communication, or on the contrary of the end of such a need, and therefore of a command to render or end rendering of the stream textual.
Dans au moins certains modes de réalisation, le procédé comprend une réception dudit flux audiovisuel et/ou textuel, depuis au moins un dispositif électronique distant, accessible via au moins un réseau de communication.In at least certain embodiments, the method comprises reception of said audiovisual and/or textual stream, from at least one remote electronic device, accessible via at least one communication network.
Dans certains modes de réalisation, les deux flux peuvent être reçus via au moins un réseau de communication. Notamment, le flux textuel peut être reçu, en association avec le flux audiovisuel, par exemple parce qu’il correspond à une des composantes du flux audiovisuel, ou à une composante d’un flux plus complexe auquel appartient le flux audiovisuel. Ainsi, le flux textuel peut être véhiculé dans des métadata du flux audiovisuel. Le flux textuel peut aussi être reçu de façon indépendante au flux audiovisuel (par exemple les deux flux peuvent être reçus via des réseaux de communication distincts, des protocoles et/ou des dispositifs distincts).In certain embodiments, the two streams can be received via at least one communication network. In particular, the text stream can be received, in association with the audiovisual stream, for example because it corresponds to one of the components of the audiovisual stream, or to a component of a more complex stream to which the audiovisual stream belongs. Thus, the text stream can be conveyed in metadata of the audiovisual stream. The textual stream can also be received independently from the audiovisual stream (for example the two streams can be received via distinct communication networks, protocols and/or distinct devices).
Dans d’autres modes de réalisation, le flux textuel peut être généré par ledit terminal, lors de la réception du flux audiovisuel, ou même après sa réception, avec un rendu différé du flux audiovisuel.In other embodiments, the textual stream can be generated by said terminal, during reception of the audiovisual stream, or even after its reception, with deferred rendering of the audiovisual stream.
Dans au moins certains modes de réalisation, l’obtention du flux textuel comprend une transcription au moins partielle d’au moins une composante audio et/ou vidéo dudit flux audiovisuel.In at least some embodiments, obtaining the textual stream includes an at least partial transcription of at least one audio and/or video component of said audiovisual stream.
Le flux textuel peut par exemple être obtenu par une technique de conversion de voix vers du texte (« STT » de l’anglais « Speech To Text ») d’une composante audio du flux audiovisuel. Il peut s’agir également d’une transcription textuelle d’un discours en langue des signes ou d’un résumé d’une scène vidéo ne comportant pas de dialogue.The text stream can for example be obtained by a voice-to-text conversion technique (“STT” for “Speech To Text”) of an audio component of the audiovisual stream. It can also be a verbatim transcript of a speech in sign language or a summary of a video scene that does not include dialogue.
Dans au moins certains modes de réalisation, le procédé comprend une modification de ladite composante transcrite.In at least some embodiments, the method includes modifying said transcribed component.
En effet, certain flux textuels, obtenus par exemple par conversion automatique, peuvent comprendre des erreurs de conversion. De plus, des flux textuels obtenus à partir d’une composante « hachée » du flux audiovisuel (en cas de mauvaise couverture réseau par exemple, ou en cas de bruit ambiant gênant l’acquisition du flux audiovisuel) peuvent se révéler eux-mêmes « hachés ». (Dis simplement, de tels flux peuvent présenter des « trous »). De ce fait, certains modes de réalisation de la présente demande peuvent comprendre une analyse, par exemple une analyse sémantique, et/ou mettre en œuvre une brique d’intelligence artificielle, adapté à une détection d’erreurs de conversion et/ou de « trous » dans la composante transcrite et à une modification en conséquence de cette composante transcrite. L’analyse peut aussi produire une version textuelle résumée de la composante transcrite, pour une prise en considération plus rapide par un utilisateur par exemple.Indeed, certain text streams, obtained for example by automatic conversion, may include conversion errors. In addition, textual streams obtained from a "chopped" component of the audiovisual stream (in the event of poor network coverage for example, or in the event of ambient noise interfering with the acquisition of the audiovisual stream) can reveal themselves chopped”. (Simply say, such streams can have “holes”). Therefore, certain embodiments of the present application may comprise an analysis, for example a semantic analysis, and/or implement an artificial intelligence brick, suitable for detecting conversion errors and/or holes” in the transcribed component and a consequent modification of this transcribed component. The analysis can also produce a summarized textual version of the transcribed component, for faster consideration by a user for example.
Dans au moins certains modes de réalisation, ledit flux textuel est accessible depuis un serveur de contenu audiovisuel dudit réseau de communication.In at least certain embodiments, said text stream is accessible from an audiovisual content server of said communication network.
Le flux audiovisuel peut par exemple correspondre à un contenu diffusé en temps réel (« streaming ») sur le terminal.The audiovisual stream can for example correspond to content broadcast in real time (“streaming”) on the terminal.
Dans au moins certains modes de réalisation, ledit flux textuel est accessible depuis un autre terminal dudit réseau de communication.In at least certain embodiments, said text stream is accessible from another terminal of said communication network.
Le flux audiovisuel peut par exemple correspondre à un flux média reçu lors d’une communication entre au moins deux terminaux, par exemple un appel audio et/ou vidéo.The audiovisual stream can for example correspond to a media stream received during a communication between at least two terminals, for example an audio and/or video call.
Les caractéristiques, présentées isolément dans la présente demande en lien avec certains modes de réalisation du procédé de la présente demande peuvent être combinées entre elles selon d’autres modes de réalisation du présent procédé.The characteristics, presented separately in the present application in connection with certain embodiments of the method of the present application can be combined with each other according to other embodiments of the present method.
Selon un autre aspect, la présente demande concerne également un terminal électronique adapté à mettre en œuvre le procédé de la présente demande dans l’un quelconque de ses modes de réalisations. Par exemple, la présente demande concerne ainsi un terminal électronique comprenant un moins un processeur configuré pour :According to another aspect, the present application also relates to an electronic terminal adapted to implement the method of the present application in any one of its embodiments. For example, the present application thus relates to an electronic terminal comprising at least one processor configured for:
- une obtention d’un flux audiovisuel;obtaining an audiovisual stream;
- une obtention d’un flux textuel associé audit flux audiovisuel ;obtaining a text stream associated with said audiovisual stream;
- un contrôle du rendu dudit flux textuel pendant le rendu dudit flux audiovisuel, en fonction d’un contexte dynamique de rendu dudit flux audiovisuel.a control of the rendering of said text stream during the rendering of said audiovisual stream, according to a dynamic context of rendering of said audiovisual stream.
La présente demande concerne aussi un programme d'ordinateur comprenant des instructions pour la mise en œuvre des divers modes de réalisation du procédé ci-dessus, lorsque programme est exécuté par un processeur et un support d’enregistrement lisible par un terminal électronique et sur lequel est enregistré les programme d’ordinateur.The present application also relates to a computer program comprising instructions for the implementation of the various embodiments of the above method, when the program is executed by a processor and a recording medium readable by an electronic terminal and on which is recorded the computer program.
Par exemple, la présente demande concerne ainsi un programme d'ordinateur comprenant des instructions pour la mise en œuvre, lorsque le programme est exécuté par un processeur d’un terminal électronique, d’un procédé comprenant:For example, the present application thus relates to a computer program comprising instructions for the implementation, when the program is executed by a processor of an electronic terminal, of a method comprising:
- une obtention d’un flux audiovisuel;obtaining an audiovisual stream;
- une obtention d’un flux textuel associé audit flux audiovisuel ;obtaining a text stream associated with said audiovisual stream;
- au contrôle du rendu dudit flux textuel pendant le rendu dudit flux audiovisuel, en fonction d’un contexte dynamique de rendu dudit flux audiovisuel.controlling the rendering of said textual stream during the rendering of said audiovisual stream, according to a dynamic context of rendering of said audiovisual stream.
Par exemple, la présente demande concerne aussi un support d’enregistrement lisible par un processeur d’un terminal électronique et sur lequel est enregistré un programme d’ordinateur comprenant des instructions pour la mise en œuvre, lorsque le programme est exécuté par le processeur, d’un procédé comprenant :For example, the present application also relates to a recording medium readable by a processor of an electronic terminal and on which is recorded a computer program comprising instructions for the implementation, when the program is executed by the processor, of a method comprising:
- une obtention d’un flux audiovisuel;obtaining an audiovisual stream;
- une obtention d’un flux textuel associé audit flux audiovisuel ;obtaining a text stream associated with said audiovisual stream;
- un contrôle du rendu dudit flux textuel pendant le rendu dudit flux audiovisuel, en fonction d’un contexte dynamique de rendu dudit flux audiovisuel.a control of the rendering of said text stream during the rendering of said audiovisual stream, according to a dynamic context of rendering of said audiovisual stream.
Les programmes mentionnés ci-dessus peuvent utiliser n’importe quel langage de programmation, et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet, tel que dans une forme partiellement compilée, ou dans n’importe quelle autre forme souhaitable.The programs mentioned above may use any programming language, and be in the form of source code, object code, or intermediate code between source code and object code, such as in partially compiled form, or in n any other desirable shape.
Les supports d'informations mentionnés ci-dessus peuvent être n'importe quelle entité ou dispositif capable de stocker le programme. Par exemple, un support peut comporter un moyen de stockage, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique.The information carriers mentioned above can be any entity or device capable of storing the program. For example, a medium may comprise a storage means, such as a ROM, for example a CD ROM or a microelectronic circuit ROM, or even a magnetic recording means.
Un tel moyen de stockage peut par exemple être un disque dur, une mémoire flash, etc.Such a storage means can for example be a hard disk, a flash memory, etc.
D'autre part, un support d'informations peut être un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Un programme selon l'invention peut être en particulier téléchargé sur un réseau de type Internet.On the other hand, an information medium can be a transmissible medium such as an electrical or optical signal, which can be conveyed via an electrical or optical cable, by radio or by other means. A program according to the invention can in particular be downloaded from an Internet-type network.
Alternativement, un support d'informations peut être un circuit intégré dans lequel un programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution de l’un quelconque des modes de réalisation du procédé objet de la présente demande de brevet.Alternatively, an information medium may be an integrated circuit in which a program is incorporated, the circuit being adapted to execute or to be used in the execution of any one of the embodiments of the method which is the subject of the present application for patent.
4. Brève description des dessins4. Brief description of drawings
D’autres caractéristiques et avantages de l’invention apparaîtront plus clairement à la lecture de la description suivante de modes de réalisation particuliers, donnés à titre de simples exemples illustratifs et non limitatifs, et des dessins annexés, parmi lesquels :Other characteristics and advantages of the invention will appear more clearly on reading the following description of particular embodiments, given by way of simple illustrative and non-limiting examples, and the appended drawings, among which:
La
La
La
La
5. Description des modes de réalisation5. Description of embodiments
La présente demande vise à aider un utilisateur (ou un groupe d’utilisateurs) d’au moins un dispositif électronique, tel qu’un terminal de communication, à appréhender (c’est-à-dire comprendre plus complètement et/ou plus rapidement) un flux audiovisuel restitué (i.e. rendu) au moins partiellement via ce dispositif, et ceci malgré des perturbations liées au contexte de consommation du flux audiovisuel et susceptibles de détériorer une composante audio et/ou vidéo du flux et/ou son rendu.The present application aims to help a user (or a group of users) of at least one electronic device, such as a communication terminal, to understand (that is to say to understand more completely and/or more quickly ) an audiovisual stream rendered (i.e. rendered) at least partially via this device, and this despite disturbances linked to the context of consumption of the audiovisual stream and likely to deteriorate an audio and/or video component of the stream and/or its rendering.
Dans la présente demande, on entend par contexte (ou conditions) de rendu (ou de consommation) du flux audiovisuel, l’environnement physique et réseau du dispositif, lors de sa restitution du flux audiovisuel. Cet environnement inclut les capacités du rendu du dispositif (en terme d’interfaces « de sorties » utilisateur, comme détaillé plus précisément ci-après) et l’environnement extérieur au dispositif.In the present application, context (or conditions) of rendering (or consumption) of the audiovisual stream is understood to mean the physical and network environment of the device, during its restitution of the audiovisual stream. This environment includes the rendering capabilities of the device (in terms of user “output” interfaces, as detailed further below) and the environment external to the device.
Ainsi, selon un premier exemple, une composante audio du flux audiovisuel peut devenir difficilement audible en présence de bruit ambiant (par exemple, lors d’un appel audio et/ou vidéo passé depuis un chantier de travaux publics).Thus, according to a first example, an audio component of the audiovisual stream can become difficult to hear in the presence of ambient noise (for example, during an audio and/or video call made from a public works site).
Selon un second exemple, lorsque le terminal, ou un de ses interlocuteurs, se trouve dans une zone de faible couverture réseau, il est possible qu’un flux audiovisuel parvienne au terminal de façon « hachée », rendant de ce fait difficile la compréhension de phrases d’une composante audio ou de gestes (traduisant ses phrases notamment) dans une composante vidéo. According to a second example, when the terminal, or one of its interlocutors, is located in an area of weak network coverage, it is possible that an audiovisual stream reaches the terminal in a "choppy" way, thereby making it difficult to understand sentences of an audio component or gestures (translating its sentences in particular) in a video component .
Ainsi, il n’est pas rare que la qualité du rendu du flux audiovisuel varie au fil du rendu. Par exemple, dans le cas d’un appel téléphonique, la qualité des paramètres audio de l’appel peut être très bonne au début de l’appel, pour se dégrader rapidement en fonction de la mobilité des interlocuteurs, qui peut avoir des impacts en terme de perte et/ou de détérioration des données transmises (du fait par exemple d’une qualité d’un réseau de communication par lequel transite le flux audiovisuel), ou de la présence de bruit ambiant dans l’environnement de l’un des interlocuteurs.Thus, it is not uncommon for the quality of the rendering of the audiovisual stream to vary over the rendering. For example, in the case of a telephone call, the quality of the audio parameters of the call can be very good at the start of the call, to deteriorate rapidly depending on the mobility of the interlocutors, which can have impacts in term of loss and/or deterioration of the data transmitted (due for example to the quality of a communication network through which the audiovisual stream passes), or the presence of ambient noise in the environment of one of the interlocutors.
De même, lors d’une consommation d’un contenu via une solution de streaming (dans des transports en commun notamment), un consommateur peut être momentanément perturbé du fait de son environnement physique personnel (présence d’un groupe bruyant de passagers autour de lui par exemple, ou annonce vocale sur haut-parleur par exemple) ou du fait de passage par des zones de mauvaise couverture réseau.Similarly, when consuming content via a streaming solution (in public transport in particular), a consumer may be momentarily disturbed by his personal physical environment (presence of a noisy group of passengers around him for example, or voice announcement on loudspeaker for example) or because of passing through areas with poor network coverage.
La présente demande propose à un utilisateur d’un dispositif électronique une solution de mise en œuvre automatique, ou quasi automatique, lui permettant de prendre connaissance au moins partiellement des informations véhiculées dans un flux audiovisuel consommé, lorsqu’il doit faire face à de tels aléas. La solution proposée permet également de ne pas interrompre (ou suspendre) la consommation du flux audiovisuel et donc de ne pas perturber une dynamique d’échange entre des interlocuteurs ou une dynamique de consommation d’un contenu en streaming.The present application offers a user of an electronic device an automatic, or quasi-automatic implementation solution, allowing him to learn at least partially of the information conveyed in a consumed audiovisual stream, when he has to deal with such hazards. The proposed solution also makes it possible not to interrupt (or suspend) the consumption of the audiovisual stream and therefore not to disturb a dynamic of exchange between interlocutors or a dynamic of consumption of streaming content.
Ainsi, selon au moins certains modes de réalisation, le procédé de rendu de la présente demande comprend en parallèle à une restitution du flux audiovisuel, et en fonction du contexte physique et réseau du dispositif, une restitution d’un flux textuel associé à ce flux audiovisuel. Il peut s’agir par exemple d’un flux textuel correspondant à au moins une partie d’une composante audio du flux audiovisuel. Par exemple, le flux textuel peut correspondre à des données de type voix d’une composante audio du flux audiovisuel.Thus, according to at least certain embodiments, the rendering method of the present application comprises, in parallel with a restitution of the audiovisual stream, and depending on the physical and network context of the device, a restitution of a textual stream associated with this stream audio-visual. It may for example be a text stream corresponding to at least part of an audio component of the audiovisual stream. For example, the text stream may correspond to voice type data of an audio component of the audiovisual stream.
Le flux audiovisuel et/ou le flux textuel peut avoir été généré localement, être obtenu via un moyen de stockage local ou distant ou via un réseau de communication (par exemple depuis un terminal émetteur du flux). De façon générale, le flux textuel peut avoir été généré, selon les modes de réalisation, lors de divers traitements du flux audiovisuel. Par traitement, on entend des tâches diverses de manipulation au moins partiellement automatique d’au moins une partie d’un flux audiovisuel, comme par exemple sa génération, son enrichissement, son encodage et/ou son décodage, sa transmission et/ou sa réception, et/ou son rendu.The audiovisual stream and/or the textual stream may have been generated locally, be obtained via a local or remote storage means or via a communication network (for example from a terminal transmitting the stream). In general, the text stream may have been generated, according to the embodiments, during various processing of the audiovisual stream. By processing, we mean various tasks for the at least partially automatic manipulation of at least part of an audiovisual stream, such as for example its generation, its enrichment, its encoding and/or its decoding, its transmission and/or its reception. , and/or its rendering.
On décrit à présent, en lien avec la
La
Le système peut également comprendre des éléments (non représentés) de gestion et/ou d’interconnexion réseau.The system may also include network management and/or interconnection elements (not shown).
Comme illustré en
Au moins certains des dispositifs des utilisateurs leur permettent de consommer des flux audiovisuels accessibles via le réseau de communication 120 (par exemple des contenus disponibles sur un serveur de contenus 140 ou sur un espace de stockage distant 150). Certains dispositifs peuvent également permettre à des utilisateurs d’échanger entre eux un flux audiovisuel, par exemple après établissement d’une communication entre ces dispositifs.At least some of the user devices allow them to consume audiovisual streams accessible via the communication network 120 (for example content available on a content server 140 or on a remote storage space 150). Certain devices can also allow users to exchange an audiovisual stream between them, for example after establishment of a communication between these devices.
La
Le dispositif 200 comprend notamment au moins une mémoire M 210. Le dispositif 200 peut notamment comprendre une mémoire tampon, une mémoire volatile, par exemple de type RAM (pour « Random Access Memory » selon la terminologie anglaise), et/ou une mémoire non volatile (par exemple de type ROM (pour « Read Only Memory » selon la terminologie anglaise). Le dispositif 200 peut également comprendre une unité de traitement UT 220, équipée par exemple d'au moins un processeur P 222, et pilotée par un programme d'ordinateur PG 212 stocké en mémoire M 210. A l'initialisation, les instructions de code du programme d'ordinateur PG sont par exemple chargées dans une mémoire RAM avant d'être exécutées par le processeur P. L’au moins un processeur P 222 de l'unité de traitement UT 220 peut notamment mettre en œuvre, individuellement ou collectivement, l'un quelconque des modes de réalisation du procédé de la présente demande (décrit notamment en relation avec la
Le dispositif peut également comporter, ou être couplé à, au moins un module d’entrée/ sortie I/O 230, tel qu’un module de communication, permettant par exemple au dispositif 200 de communiquer avec d’autres dispositifs du système 100, via des interfaces de communication filaires ou sans fils, et/ou tel qu’un module d’interfaçage avec un utilisateur du dispositif. Un tel module d’interfaçage est aussi appelé plus simplement dans cette demande « interface utilisateur ».The device can also comprise, or be coupled to, at least one I/O input/output module 230, such as a communication module, allowing for example the device 200 to communicate with other devices of the system 100, via wired or wireless communication interfaces, and/or such as an interfacing module with a user of the device. Such an interface module is also called more simply in this application "user interface".
Par interface utilisateur du dispositif, on entend par exemple une interface intégrée au dispositif 200, ou une partie d’un dispositif tiers couplé à ce dispositif par des moyens de communication filaires ou sans fils. Par exemple, il peut s’agir d’un écran secondaire du dispositif ou d’un ensemble de hauts parleurs connectés par une technologie sans fils au dispositifBy user interface of the device is meant, for example, an interface integrated into the device 200, or part of a third-party device coupled to this device by wired or wireless communication means. For example, it can be a secondary screen of the device or a set of speakers connected by wireless technology to the device
Une interface utilisateur peut notamment être une interface utilisateur, dite «de sortie», adaptée à un rendu (ou au contrôle d’un rendu) d’un flux audiovisuel et/ou textuel. Des exemples d’interface utilisateur de sortie du dispositif incluent un ou plusieurs écrans, notamment au moins un écran graphique (tactile par exemple), un ou plusieurs haut-parleurs, un casque connecté.A user interface can in particular be a so-called “output” user interface, suitable for rendering (or controlling rendering) of an audiovisual and/or text stream. Examples of output user interface of the device include one or more screens, in particular at least one graphic screen (touchscreen for example), one or more loudspeakers, a connected helmet.
Par rendu, on entend ici une restitution (ou « output » selon la terminologie anglaise) sur au moins une interface utilisateur, sous une forme quelconque, par exemple comprenant des composantes textuelle, audio et/ou vidéo, ou une combinaison de telles composantes.By rendering, we mean here a restitution (or “output” according to the English terminology) on at least one user interface, in any form, for example comprising textual, audio and/or video components, or a combination of such components.
Par ailleurs, une interface utilisateur peut être une interface utilisateur, dite «d’entrée», adaptée à une acquisition d’une commande d’un utilisateur du dispositif 200. Il peut s’agir notamment d’une action à effectuer en lien avec un item restitué, et/ou d’une commande à transmettre à une application informatique utilisée par le dispositif 200, par exemple une application s’exécutant au moins partiellement sur le dispositif 200 ou une application « en ligne » s’exécutant au moins partiellement à distance, par exemple sur le serveur 140 du système 100. Des exemples d’interface utilisateur d’entrée du dispositif 200 incluent un capteur (tel qu’un capteur de position, qu’un capteur de mouvement, qu’un capteur de température, un gyroscope, etc..), un moyen d’acquisition audio et/ou vidéo (microphone, caméra ou webcam, par exemple), un clavier, une souris, un écran tactile. L’interface du dispositif 200 peut par exemple être adaptée à la détection d’une position et/ou d’un mouvement du dispositif, comme un positionnement du dispositif apte à permettre une consommation par un utilisateur d’un contenu rendu sur un écran du dispositif (telle qu’une lecture d’un texte affiché sur cet écran). Il peut s’agir ainsi d’une interface (caméra, gyroscope, etc. ) apte à permettre une détection d’un mouvement du dispositif entre une première position d’écoute, dans laquelle une interface de sortie audio du dispositif est située à proximité d’une oreille d’un utilisateur, vers une seconde position d’écoute, dans laquelle un écran couplé au dispositif dans le champ de vision d’un utilisateur du dispositif (par exemple une position dans laquelle l’écran fait face au visage d’un utilisateur).Furthermore, a user interface can be a so-called “input” user interface, suitable for acquiring a command from a user of the device 200. It can be in particular an action to be performed in connection with an item returned, and/or a command to be transmitted to a computer application used by the device 200, for example an application running at least partially on the device 200 or an "online" application running at least partially remotely, such as on server 140 of system 100. Examples of device 200 input user interfaces include a sensor (such as a position sensor, a motion sensor, a temperature sensor , a gyroscope, etc.), an audio and/or video acquisition means (microphone, camera or webcam, for example), a keyboard, a mouse, a touch screen. The interface of the device 200 can for example be adapted to the detection of a position and/or a movement of the device, such as a positioning of the device capable of allowing consumption by a user of a content rendered on a screen of the device (such as a reading of a text displayed on this screen). It may thus be an interface (camera, gyroscope, etc.) able to allow detection of a movement of the device between a first listening position, in which an audio output interface of the device is located near from a user's ear, to a second listening position, in which a screen coupled to the device is in the field of view of a user of the device (for example, a position in which the screen faces the face of 'an user).
Il peut s’agir aussi d’un ou plusieurs microphones, couplé par exemple à un module d’analyse vocale du dispositif, de façon à détecter par exemple qu’un utilisateur du dispositif demande à un interlocuteur distant avec qui une communication vocale est établie via le dispositif, de répéter ce qu’il vient de dire.It can also be one or more microphones, coupled for example to a voice analysis module of the device, so as to detect, for example, that a user of the device is asking a remote interlocutor with whom a voice communication is established. via the device, to repeat what he has just said.
Ledit au moins un microprocesseur du dispositif 200 peut notamment être adapté pour :Said at least one microprocessor of device 200 can in particular be adapted for:
- une obtention d’un flux audiovisuel;obtaining an audiovisual stream;
- une obtention d’un flux textuel associé au flux audiovisuel ;obtaining a text stream associated with the audiovisual stream;
- un contrôle du rendu dudit flux textuel pendant le rendu du flux audiovisuel, en fonction d’un contexte dynamique de rendu du flux audiovisuel.a control of the rendering of said text stream during the rendering of the audiovisual stream, according to a dynamic context of rendering of the audiovisual stream.
Certains des modules d‘entrée -sorties ci-dessus sont optionnels et peuvent donc être absents du dispositif 200 dans certains modes de réalisation. Notamment, si la présente demande est parfois détaillée en lien avec un dispositif communiquant avec au moins un autre dispositif du système 100, le procédé peut également être mis en œuvre localement par un dispositif, pour un rendu par exemple d’un flux audiovisuel stocké sur le dispositif.Some of the above input-output modules are optional and may therefore be absent from device 200 in some embodiments. In particular, if the present application is sometimes detailed in connection with a device communicating with at least one other device of the system 100, the method can also be implemented locally by a device, for rendering for example of an audiovisual stream stored on the device.
Au contraire, dans certains de ses modes de réalisation, le procédé peut être mis en œuvre de façon distribuée entre au moins deux dispositifs 110, 130, 132, 134, 136, 140 et/ou 150 du système 100.On the contrary, in some of its embodiments, the method can be implemented in a distributed manner between at least two devices 110, 130, 132, 134, 136, 140 and/or 150 of the system 100.
Dans la présente demande, on entend par le terme « module », le terme « composant » ou le terme «élément » du dispositif, un élément matériel, notamment câblé, ou un élément logiciel, ou une combinaison d’au moins un élément matériel et d’au moins un élément logiciel. Le procédé selon l’invention peut donc être mis en œuvre de diverses manières, notamment sous forme câblée et/ou sous forme logicielle.In the present application, the term "module", the term "component" or the term "element" of the device is understood to mean a hardware element, in particular wired, or a software element, or a combination of at least one hardware element and at least one software element. The method according to the invention can therefore be implemented in various ways, in particular in wired form and/or in software form.
La
Dans l’exemple illustré en
Dans l’exemple illustré en
Le flux textuel peut être généré par exemple par le dispositif distant, puis transmis au dispositif 200 lors de la transmission du flux audiovisuel. Selon les modes de réalisation, les deux flux peuvent être transmis sous forme de flux distincts, parallèles, ou dans un même flux intégrant à la fois le flux audiovisuel et le flux textuel.The textual stream can be generated for example by the remote device, then transmitted to the device 200 during the transmission of the audiovisual stream. According to the embodiments, the two streams can be transmitted in the form of distinct, parallel streams, or in the same stream integrating both the audiovisual stream and the textual stream.
Générer un flux textuel au plus proche de l’acquisition du flux audiovisuel, et en particulier avant sa transmission sur un réseau de communication (et donc potentiellement sa détérioration), peut notamment aider à obtenir un flux textuel plus proche du flux audiovisuel acquis. De plus, un tel mode de réalisation est peu pénalisant en termes d’occupation réseau, la bande passante nécessaire à la transmission du flux textuel, en parallèle au flux audiovisuel, étant très faible en rapport à la bande passante nécessaire à la transmission du flux audiovisuel lui-même. La transmission d’un flux textuel est aussi souvent moins impactée qu’une transmission d’un flux audio ou vidéo par des problèmes de fluctuation de qualité de réseau.Generating a text stream as close as possible to the acquisition of the audiovisual stream, and in particular before its transmission over a communication network (and therefore potentially its deterioration), can notably help to obtain a text stream closer to the acquired audiovisual stream. In addition, such an embodiment is not penalizing in terms of network occupation, the bandwidth necessary for the transmission of the text stream, in parallel with the audiovisual stream, being very low compared to the bandwidth necessary for the transmission of the stream. audiovisual itself. The transmission of a text stream is also often less impacted than the transmission of an audio or video stream by problems of network quality fluctuation.
Dans une variante, le flux textuel peut être obtenu via un dispositif tiers, autre que le dispositif 200 et le dispositif distant générant et/ou transmettant le flux audiovisuel.In a variant, the text stream can be obtained via a third-party device, other than the device 200 and the remote device generating and/or transmitting the audiovisual stream.
Dans certaines modes de réalisation, adaptés notamment à une communication asynchrone entre aux moins deux dispositifs, le flux textuel peut être transmis avant la transmission du flux audiovisuel (ou avant le rendu du flux audiovisuel sur le dispositif 200). Le flux textuel peut aussi être généré par le dispositif 200 récepteur du flux audiovisuel, durant l’obtention du audiovisuel. Il peut également, dans le cas d’un rendu ultérieur à la transmission du flux audiovisuel, être généré par le dispositif récepteur après l’obtention du flux audiovisuel t préalablement au rendu du flux audiovisuel.In certain embodiments, adapted in particular to asynchronous communication between at least two devices, the textual stream can be transmitted before the transmission of the audiovisual stream (or before the rendering of the audiovisual stream on the device 200). The textual stream can also be generated by the device 200 receiving the audiovisual stream, during the obtaining of the audiovisual. It can also, in the case of rendering subsequent to the transmission of the audiovisual stream, be generated by the receiver device after obtaining the audiovisual stream t prior to the rendering of the audiovisual stream.
De tels modes de réalisation offrent l’avantage de disposer de façon certaine d’un flux textuel de secours, en cas de dégradation du rendu du flux audiovisuel.Such embodiments offer the advantage of having a backup text flow in a certain way, in the event of degradation of the rendering of the audiovisual flow.
Comme illustré en
L’analyse 331 peut notamment être effectuée « au fil de l’eau », de façon continue ou itérative, pour détecter dynamiquement pendant le rendu du flux audiovisuel une survenance d’évènements susceptibles de nuire à l’expérience d’un utilisateur lors de sa consommation du flux audiovisuel et de contrôler au rendu du flux textuel obtenu en conséquence, ou l’absence ou la fin de tels évènements. Un tel évènement peut être par exemple une variation (altération ou amélioration) d’une qualité du flux audiovisuel reçu (se traduisant par exemple en termes de pourcentage de paquets de données audiovisuelles reçues, perdues ou réémises à un instant courant,.. ) ou une variation (altération ou amélioration) d’un environnement de restitution (par exemple une augmentation d’un niveau de bruit ambiant rendant mal aisé une compréhension d’une composante audio du flux audiovisuel ou de fortes variations, brutales, de luminosité dans un environnement ambiant (faisceaux de phares de voiture par exemple) rendant mal aisé une visualisation des détails de certaines vidéo couramment restituées du flux audiovisuel.The analysis 331 can in particular be carried out "on the fly", continuously or iteratively, to dynamically detect during the rendering of the audiovisual stream the occurrence of events likely to harm the experience of a user during its consumption of the audiovisual stream and to control the rendering of the textual stream obtained as a result, or the absence or the end of such events. Such an event can be for example a variation (alteration or improvement) of the quality of the audiovisual stream received (translated for example in terms of percentage of audiovisual data packets received, lost or retransmitted at a current instant, etc.) or a variation (alteration or improvement) of a reproduction environment (for example an increase in an ambient noise level making it difficult to understand an audio component of the audiovisual stream or strong, sudden variations in brightness in an environment ambient (beams of car headlights for example) making it difficult to view the details of certain videos commonly restored from the audiovisual stream.
L’analyse dynamique peut de ce fait mettre en œuvre des techniques d’analyse de la qualité d’un flux audio et/ou vidéo, ou d’une qualité de transmission de données, d’une qualité de restitution d’un flux audio et/ou vidéo. Ainsi, par exemple, un niveau de bruit ambiant peut être mesuré par l’intermédiaire d’un microphone du dispositif 200, le rendu étant considéré comme dégradé lorsque le niveau de bruit ambiant dépasse une première valeur seuil (par exemple 70, 80 ou 90 dB). Dans certains modes de réalisation, la première valeur peut être constante (il peut s’agir ainsi d’un paramètre constructeur). Elle peut aussi être obtenue par configuration, par exemple via un calibrage préalable par un utilisateur du dispositif. Un tel mode de réalisation peut permettre de tenir compte des particularités d’un utilisateur (en termes d’audition et de sensibilité auditive et/ou visuelle par exemple).Dynamic analysis can therefore implement techniques for analyzing the quality of an audio and/or video stream, or the quality of data transmission, the quality of reproduction of an audio stream and/or video. Thus, for example, an ambient noise level can be measured via a microphone of the device 200, rendering being considered as degraded when the ambient noise level exceeds a first threshold value (for example 70, 80 or 90 dB). In some embodiments, the first value may be constant (thus it may be a constructor parameter). It can also be obtained by configuration, for example via prior calibration by a user of the device. Such an embodiment can make it possible to take into account the particularities of a user (in terms of hearing and auditory and/or visual sensitivity for example).
Dans certains modes de réalisation, la première valeur peut varier dynamiquement. Par exemple, elle peut dépendre de certaines caractéristiques du flux audiovisuel à restituer, susceptibles d’avoir un impact sur une facilité de compréhension du flux restitué. Par exemple, elle peut dépendre d’une fréquence d’une voix restituée et varier selon que la voix soit plus ou moins grave ou aigüe.In some embodiments, the first value may vary dynamically. For example, it may depend on certain characteristics of the audiovisual stream to be restored, likely to have an impact on the ease of understanding of the restored stream. For example, it can depend on a frequency of a restored voice and vary depending on whether the voice is more or less low-pitched or high-pitched.
Dans une variante, adaptée notamment à des modes de réalisation où le flux textuel est reçu conjointement au flux audiovisuel transmis, l’analyse peut comprendre une obtention d’un second flux textuel à partir du flux audiovisuel reçu (ou en cours de réception) et une détection d’une dégradation ou d’une amélioration d’une qualité du flux audiovisuel tenant compte de l’existence et de la quantité de différences entre le flux textuel reçu avec le second flux obtenu. Un tel mode de réalisation peut permettre de détecter de façon simple une dégradation ou une amélioration du flux audiovisuel à rendre, sans avoir à mener une analyse poussée de la qualité de transmission du flux audiovisuel.In a variant, adapted in particular to embodiments where the text stream is received together with the transmitted audiovisual stream, the analysis may comprise obtaining a second text stream from the audiovisual stream received (or being received) and detection of a degradation or an improvement in the quality of the audiovisual stream taking into account the existence and the quantity of differences between the textual stream received with the second stream obtained. Such an embodiment can make it possible to detect in a simple manner a degradation or an improvement in the audiovisual stream to be rendered, without having to carry out an in-depth analysis of the transmission quality of the audiovisual stream.
L’analyse dynamique 331 peut également prendre en compte des évènements de l’environnement physique du dispositif 200, comme par exemple certains mouvements de l’utilisateur (par exemple des froncements de sourcil détectés grâce à une caméra) ou une modification du positionnement relatif d’un utilisateur et du dispositif (éloignement d’un dispositif de type smartphone de l’oreille d’un utilisateur par exemple), susceptible de traduire un besoin et/ou une demande implicite d’assistance d’un utilisateur, ou encore sur une acquisition d’une commande plus explicite d’un utilisateur (comme un actionnement d’une touche d’un clavier ou d’une zone d’un écran tactile du dispositif, ou une commande gestuelle ou vocale dédiée au rendu d’un flux textuel). De ce fait, de tels mouvements sont dans la présente demande assimilés à une dégradation du contexte de rendu du flux audiovisuel.The dynamic analysis 331 can also take into account events in the physical environment of the device 200, such as for example certain movements of the user (for example frowns detected using a camera) or a modification of the relative positioning of a user and the device (moving a smartphone-type device away from a user's ear, for example), likely to reflect a need and/or an implicit request for assistance from a user, or even on a acquisition of a more explicit command from a user (such as pressing a key on a keyboard or an area of a touch screen of the device, or a gesture or voice command dedicated to rendering a text stream ). As a result, such movements are in the present application assimilated to a degradation of the rendering context of the audiovisual stream.
A l’opposé, l’analyse 331 peut bien sûr permettre de détecter la survenue d’évènements traduisant une amélioration des conditions de consommation du flux audiovisuel, ou une volonté exprimée de façon implicite ou explicite d’un utilisateur de ne pas consommer un flux textuel (comme par exemple si l’utilisateur porte son téléphone à son oreille).On the other hand, the analysis 331 can of course make it possible to detect the occurrence of events reflecting an improvement in the conditions of consumption of the audiovisual stream, or a desire expressed implicitly or explicitly by a user not to consume a stream textual (such as if the user holds their phone to their ear).
Selon la
Dans certains modes de réalisation, le procédé peut comprendre une transformation sous forme audio par synthèse vocale (« Speech To Text » (STT) selon la terminologie anglaise) du flux textuel et un rendu audio du flux transformé. Un tel mode de réalisation peut être adapté à un des situations de rendu d’un flux audiovisuel haché (le flux transformé prenant le relais sur les périodes où une composante audio du flux est absente ou inintelligible), notamment lorsque l’environnement du dispositif est pas adapté à une restitution textuelle (environnement trop lumineux pour permettre une lecture d’un texte par un utilisateur, ou dispositif ne comportant pas d’écran).In certain embodiments, the method may comprise a transformation into audio form by voice synthesis (“Speech To Text” (STT) according to the English terminology) of the text stream and an audio rendering of the transformed stream. Such an embodiment can be adapted to one of the rendering situations of a chopped audiovisual stream (the transformed stream taking over during the periods when an audio component of the stream is absent or unintelligible), in particular when the environment of the device is not suitable for textual reproduction (environment too bright to allow a user to read a text, or device not comprising a screen).
De façon optionnelle, le procédé peut comprendre avant ou au moment du rendu de la partie du flux textuel une synchronisation temporelle 334 des deux rendus, c’est-à-dire un alignement temporel des deux rendus par rapport à un même référentiel temporel (de façon à ce que la partie du flux textuelle rendu à un instant t selon ce référentiel commun corresponde à la partie du flux audiovisuel en cours de restitution à cet instant t, ou sur un intervalle temporel [t-t1;t+t2] englobant cet instant t. La partie rendue du flux textuel peut ainsi être une transcription au moins partielle du flux audiovisuel en cours de restitution ou, dans une variante, comprendre une transcription d’une partie déjà restituée ou non encore restituée du flux audiovisuel en cours de restitution. Une telle variante peut permettre à un utilisateur de bénéficier d’un rendu textuel relatif à une partie intelligible déjà consommée du flux audiovisuel. Par exemple, il peut s’agir d’une partie immédiatement antérieure ou immédiatement postérieure, à la partie du flux audiovisuel en cours de restitution.Optionally, the method can include before or at the time of rendering of the part of the text stream a temporal synchronization 334 of the two renderings, that is to say a temporal alignment of the two renderings with respect to the same temporal reference (from so that the part of the text stream rendered at a time t according to this common frame of reference corresponds to the part of the audiovisual stream being reproduced at this time t, or over a time interval [t-t1;t+t2] encompassing this instant t. The rendered part of the text stream can thus be an at least partial transcription of the audiovisual stream being rendered or, alternatively, include a transcription of a part already rendered or not yet rendered of the audiovisual stream being rendered Such a variant can allow a user to benefit from a textual rendering relating to an intelligible part of the audiovisual stream that has already been consumed. For example, it can be a part immediately preceding or immediately subsequent to the part of the audiovisual stream being restored.
Dans une variante, le procédé peut comprendre une traduction avant rendu d’au moins une partie du flux textuel dans une langue différente, mettant en œuvre par exemple une application de traduction automatique accessible via un serveur distant).In a variant, the method may comprise a translation before rendering of at least part of the textual stream into a different language, implementing for example an automatic translation application accessible via a remote server).
Certaines consommations de flux audiovisuels peuvent mettre en œuvre plusieurs dispositifs en communication restituant chacun au moins partiellement le flux audiovisuel. Dans ce cas, un flux textuel peut être rendu selon le procédé de la présente demande sur un ou plusieurs de ces dispositifs implémentant le procédé selon le procédé de la présente demande. Dans certains modes de réalisation, le procédé peut comprendre, après détection d’une dégradation du rendu du flux audiovisuel par le dispositif 200, une transmission d’une partie du flux textuel vers un autre dispositif restituant également au moins partiellement le flux audiovisuel. Cette partie peut correspondre à la partie du flux textuel à restituer par le dispositif 200. Elle peut par exemple être transmise par un message de type SMS vers l’autre dispositif.Certain consumptions of audiovisual streams can implement several devices in communication each restoring at least partially the audiovisual stream. In this case, a text stream can be rendered according to the method of the present application on one or more of these devices implementing the method according to the method of the present application. In certain embodiments, the method may comprise, after detection of a degradation of the rendering of the audiovisual stream by the device 200, a transmission of part of the textual stream to another device also restoring at least partially the audiovisual stream. This part can correspond to the part of the text stream to be restored by the device 200. It can for example be transmitted by an SMS type message to the other device.
La
L’obtention du flux peut dans certains modes de réalisation comprendre une émission via un réseau de communication, d’une commande de transmission d’un flux textuel associé au flux audiovisuel en cours de restitution et une réception du flux textuel en réponse à cette commande. La commande peut par exemple être émise à destination d’au moins un dispositif générant au moins partiellement le flux audiovisuel comme exposé ci-avant.Obtaining the stream may in some embodiments include sending via a communication network, a command to transmit a textual stream associated with the audiovisual stream being played back and receiving the textual stream in response to this command. . The command can for example be sent to at least one device generating at least partially the audiovisual stream as explained above.
La présente demande a été détaillée en lien avec un dispositif adapté à un rendu d’un flux audiovisuel. Un autre aspect de la présente demande concerne un procédé d’émission, mis en œuvre dans un dispositif de communication, comprenant pendant une transmission d’un flux audiovisuel, une émission d’un flux textuel associé au flux audiovisuel transmis. Divers modes de réalisation de ce procédé peuvent être mis en œuvre selon la présente demande, comme présenté ci-dessus en lien notamment avec les modes de réalisation déjà détaillés du procédé mis en œuvre dans le dispositif de rendu d’un flux audiovisuel. Le procédé d’émission peut par exemple être mis en œuvre sur demande d’un dispositif destinataire du flux audiovisuel transmis. Il peut s’agir notamment d’un flux audiovisuel transmis par le dispositif de communication, par exemple pendant une communication synchrone entre le dispositif de communication et le terminal destinataire (par exemple un appel audio ou vidéo). La structure du dispositif de communication peut être similaire à la structure du dispositif 200 décrit en liaison avec la
La présente demande concerne aussi un programme d'ordinateur comprenant des instructions pour la mise en œuvre des divers modes de réalisation du procédé ci-dessus, lorsque programme est exécuté par un processeur. La présente demande concerne également un support d’enregistrement lisible par un processeur d’un dispositif électronique et sur lequel est enregistré un programme d’ordinateur comprenant des instructions pour la mise en œuvre, lorsque le programme est exécuté par le processeur, du procédé ci-dessus dans l’un quelconque de ses modes de réalisation.The present application also relates to a computer program comprising instructions for the implementation of the various embodiments of the method above, when the program is executed by a processor. The present application also relates to a recording medium readable by a processor of an electronic device and on which is recorded a computer program comprising instructions for the implementation, when the program is executed by the processor, of the method herein. above in any of its embodiments.
Claims (10)
- une obtention d’un flux audiovisuel;
- une obtention d’un flux textuel associé audit flux audiovisuel ;
- un contrôle du rendu dudit flux textuel pendant le rendu dudit flux audiovisuel, en fonction d’un contexte dynamique de rendu dudit flux audiovisuel.
- obtaining an audiovisual stream;
- obtaining a text stream associated with said audiovisual stream;
- a control of the rendering of said text stream during the rendering of said audiovisual stream, according to a dynamic context of rendering of said audiovisual stream.
- une obtention d’un flux audiovisuel;
- une obtention d’un flux textuel associé audit flux audiovisuel ;
- un contrôle du rendu dudit flux textuel pendant le rendu dudit flux audiovisuel, en fonction d’un contexte dynamique de rendu dudit flux audiovisuel
- obtaining an audiovisual stream;
- obtaining a text stream associated with said audiovisual stream;
- a control of the rendering of said text stream during the rendering of said audiovisual stream, according to a dynamic context of rendering of said audiovisual stream
- une obtention d’un flux audiovisuel;
- une obtention d’un flux textuel associé audit flux audiovisuel ;
- un contrôle du rendu dudit flux textuel pendant le rendu dudit flux audiovisuel, en fonction d’un contexte dynamique de rendu dudit flux audiovisuel.
- obtaining an audiovisual stream;
- obtaining a text stream associated with said audiovisual stream;
- a control of the rendering of said text stream during the rendering of said audiovisual stream, according to a dynamic context of rendering of said audiovisual stream.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR2102172A FR3120491A1 (en) | 2021-03-05 | 2021-03-05 | Process for rendering audiovisual streams, electronic terminal and corresponding computer program product |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR2102172A FR3120491A1 (en) | 2021-03-05 | 2021-03-05 | Process for rendering audiovisual streams, electronic terminal and corresponding computer program product |
FR2102172 | 2021-03-05 |
Publications (1)
Publication Number | Publication Date |
---|---|
FR3120491A1 true FR3120491A1 (en) | 2022-09-09 |
Family
ID=75539576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR2102172A Pending FR3120491A1 (en) | 2021-03-05 | 2021-03-05 | Process for rendering audiovisual streams, electronic terminal and corresponding computer program product |
Country Status (1)
Country | Link |
---|---|
FR (1) | FR3120491A1 (en) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003143256A (en) * | 2001-10-30 | 2003-05-16 | Nec Corp | Terminal and communication control method |
US20060069548A1 (en) * | 2004-09-13 | 2006-03-30 | Masaki Matsuura | Audio output apparatus and audio and video output apparatus |
US20070143103A1 (en) * | 2005-12-21 | 2007-06-21 | Cisco Technology, Inc. | Conference captioning |
US7917178B2 (en) * | 2005-03-22 | 2011-03-29 | Sony Ericsson Mobile Communications Ab | Wireless communications device with voice-to-text conversion |
EP2562747A1 (en) * | 2011-08-25 | 2013-02-27 | Harris Corporation | Communications system with speech-to-text conversion and associated methods |
US20140201637A1 (en) * | 2013-01-11 | 2014-07-17 | Lg Electronics Inc. | Electronic device and control method thereof |
US20190121605A1 (en) * | 2017-06-21 | 2019-04-25 | Motorola Mobility Llc | Monitoring Environmental Noise and Data Packets to Display a Transcription of Call Audio |
US10298742B2 (en) * | 2016-03-11 | 2019-05-21 | Sony Mobile Communications Inc. | Transferring information from a sender to a recipient during a telephone call under noisy environment |
-
2021
- 2021-03-05 FR FR2102172A patent/FR3120491A1/en active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003143256A (en) * | 2001-10-30 | 2003-05-16 | Nec Corp | Terminal and communication control method |
US20060069548A1 (en) * | 2004-09-13 | 2006-03-30 | Masaki Matsuura | Audio output apparatus and audio and video output apparatus |
US7917178B2 (en) * | 2005-03-22 | 2011-03-29 | Sony Ericsson Mobile Communications Ab | Wireless communications device with voice-to-text conversion |
US20070143103A1 (en) * | 2005-12-21 | 2007-06-21 | Cisco Technology, Inc. | Conference captioning |
EP2562747A1 (en) * | 2011-08-25 | 2013-02-27 | Harris Corporation | Communications system with speech-to-text conversion and associated methods |
US20140201637A1 (en) * | 2013-01-11 | 2014-07-17 | Lg Electronics Inc. | Electronic device and control method thereof |
US10298742B2 (en) * | 2016-03-11 | 2019-05-21 | Sony Mobile Communications Inc. | Transferring information from a sender to a recipient during a telephone call under noisy environment |
US20190121605A1 (en) * | 2017-06-21 | 2019-04-25 | Motorola Mobility Llc | Monitoring Environmental Noise and Data Packets to Display a Transcription of Call Audio |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9418063B2 (en) | Determining delay for language translation in video communication | |
US20230245661A1 (en) | Video conference captioning | |
US7746986B2 (en) | Methods and systems for a sign language graphical interpreter | |
US9443518B1 (en) | Text transcript generation from a communication session | |
US9800950B2 (en) | Context aware geo-targeted advertisement in a communication session | |
CN102143382A (en) | Apparatus and method for providing in a terminal a pause function for a broadcast stream | |
US20190019067A1 (en) | Multimedia conferencing system for determining participant engagement | |
CN112423081B (en) | Video data processing method, device and equipment and readable storage medium | |
US11727940B2 (en) | Autocorrection of pronunciations of keywords in audio/videoconferences | |
JP2020021025A (en) | Information processing device, information processing method and program | |
CN110933485A (en) | Video subtitle generating method, system, device and storage medium | |
US20080225110A1 (en) | Virtual camera system and instant communication method | |
US20220345780A1 (en) | Audience feedback for large streaming events | |
US11580954B2 (en) | Systems and methods of handling speech audio stream interruptions | |
KR102506604B1 (en) | Method for providing speech video and computing device for executing the method | |
CN113014950A (en) | Live broadcast synchronization method and system and electronic equipment | |
US12010161B1 (en) | Browser-based video production | |
FR3120491A1 (en) | Process for rendering audiovisual streams, electronic terminal and corresponding computer program product | |
US10762913B2 (en) | Image-based techniques for audio content | |
WO2019122578A1 (en) | Voice assistant | |
EP2846520B1 (en) | Method and device for enriching communication | |
US9830946B2 (en) | Source data adaptation and rendering | |
US12075115B2 (en) | Supplemental audio generation system in an audio-only mode | |
US11830120B2 (en) | Speech image providing method and computing device for performing the same | |
US20230153547A1 (en) | System for accurate video speech translation technique and synchronisation with the duration of the speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PLFP | Fee payment |
Year of fee payment: 2 |
|
PLSC | Publication of the preliminary search report |
Effective date: 20220909 |
|
PLFP | Fee payment |
Year of fee payment: 3 |
|
PLFP | Fee payment |
Year of fee payment: 4 |