FR2850821A1 - Systeme de sous-titrage dynamique de signaux de television et radiophoniques - Google Patents

Systeme de sous-titrage dynamique de signaux de television et radiophoniques Download PDF

Info

Publication number
FR2850821A1
FR2850821A1 FR0301286A FR0301286A FR2850821A1 FR 2850821 A1 FR2850821 A1 FR 2850821A1 FR 0301286 A FR0301286 A FR 0301286A FR 0301286 A FR0301286 A FR 0301286A FR 2850821 A1 FR2850821 A1 FR 2850821A1
Authority
FR
France
Prior art keywords
signal
audio signal
subtitling
language
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR0301286A
Other languages
English (en)
Other versions
FR2850821B1 (fr
Inventor
Ghislain Moncomble
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Priority to FR0301286A priority Critical patent/FR2850821B1/fr
Priority to PCT/FR2004/000175 priority patent/WO2004080072A1/fr
Publication of FR2850821A1 publication Critical patent/FR2850821A1/fr
Application granted granted Critical
Publication of FR2850821B1 publication Critical patent/FR2850821B1/fr
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234336Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4856End-user interface for client configuration for language selection, e.g. for the menu or subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/16Analogue secrecy systems; Analogue subscription systems
    • H04N7/162Authorising the user terminal, e.g. by paying; Registering the use of a subscription channel, e.g. billing
    • H04N7/165Centralised control of user terminal ; Registering at central
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/08Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division
    • H04N7/087Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division with signal insertion during the vertical blanking interval only
    • H04N7/088Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division with signal insertion during the vertical blanking interval only the inserted signal being digital
    • H04N7/0884Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division with signal insertion during the vertical blanking interval only the inserted signal being digital for the transmission of additional display-information, e.g. menu for programme or channel selection
    • H04N7/0885Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division with signal insertion during the vertical blanking interval only the inserted signal being digital for the transmission of additional display-information, e.g. menu for programme or channel selection for the transmission of subtitles

Abstract

Le système sous-titre automatiquement et en temps réel un signal audio. Des paramètres d'affichage (PAF) déterminés par un usager de l'équipement (EQm) sont mémorisés. Un convertisseur linguistique (CL) convertit le signal audio (SAV) en un signal de sous-titrage (ST), le signal audio étant mémorisé temporairement pendant la durée de conversion. Un générateur de sous-titrage (GS) combine le signal audio mémorisé temporairement et le signal de sous-titrage en un signal audio sous-titré (SAVST) appliqué à l'équipement (EQm), avec des sous-titres formatés selon les paramètres d'affichage (PAF).

Description

Système de sous-titrage dynamique de signaux de télévision et
radiophoniques
La présente invention concerne un système pour 5 sous-titrer dynamiquement des signaux de télévision et radiophoniques.
L'adaptation des programmes télévisés aux personnes sourdes et malentendantes ou de langues 10 étrangères est déjà connue depuis plusieurs années mais n'est pas suffisante. Actuellement, le volume d'heures sous-titrées par l'ensemble des chaînes de télévision françaises représente une proportion de 12 % environ du total des heures de programmes 15 diffusées. Même si les chaînes de télévision offrent bien plus d'heures de sous-titrage que le quota imposé dans leurs cahiers des charges, elles ne satisfont pas la demande et les 12 % sous-titrés restent largement en dessous des pays voisins comme 20 l'Allemagne ou la Suisse.
Le principal problème rencontré est le cot du sous-titrage. Actuellement, le cot moyen d'une heure de sous-titrage est de l'ordre de 25 euros HT la minute, soit 1500 euros HT l'heure. Le surcot des 25 sous-titrages est directement imputable aux chaînes et représente jusqu'à 2 % du budget d'une émission télévisée.
Le sous-titrage traditionnel impose une phase 30 dite de détection durant laquelle un opérateur visionne l'émission, transcrit en texte les dialogues, et marque des repères temporels ("time codes") au début et à la fin de chaque zone de soustitrage de l'image continue. Puis une phase de 35 montage produit une copie du signal vidéo initial (master vidéo) avec des sous-titres correctement positionnés en fonction des repères temporels.
Il manque parmi les programmes télévisuels soustitrés surtout le soustitrage de programmes en 5 direct, à cause des difficultés techniques pour effectuer très rapidement ce sous-titrage. En effet la technique décrite précédemment n'est pas applicable en temps réel du fait des nombreuses manipulations. Une technique de sténotypie avec 10 transcription par ordinateur en temps réel a alors été mise en place. Les marques temporelles de l'image auxquelles la parole se rapporte sont mémorisées en correspondance avec les signes sténographiques saisis. Le texte transcrit par l'ordinateur est ainsi 15 indexé à l'image dès la saisie, et non lors de la phase de détection, phase extrêmement longue et fastidieuse. La sténotypie supprime pratiquement la phase de montage, puisque les sous-titres sont déjà indexés sur les marques temporelles. La transcription 20 en texte des signes sténographiques entre deux marques temporelles dure environ 3 secondes. Toutes les marques temporelles sont décalées de 2 secondes environ pour que les sous-titres soient synchronisés de manière optimale. L'un des atouts de la sténotypie 25 est la production de sous-titres en direct à l'aide d'un module d'incrustation qui les diffuse en temps réel.
Cependant le sous-titrage par sténotypie en direct nécessite une très grande vitesse de saisie, à 30 raison de plus de 220 mots à la minute, et une très grande qualité de frappe. De plus le cot de la transcription à la charge de la chaîne de télévision reste encore élevé.
En parallèle, un décodeur de télétexte généralement incorporé dans les téléviseurs est apparu afin d'activer à distance un sous-titrage avec une meilleure lisibilité par impression de sous5 titres clairs sur un bandeau noir, une position du sous-titre variant en fonction du locuteur, des couleurs différentes pour des voix ("off") externes à l'image et pour des descriptions d'ambiance sonore, un calage du texte sur le rythme des images, etc. Le 10 sous-titrage est véhiculé directement dans le signal télévisuel sur au moins deux lignes de trame prévues à cet effet.
Avec le brassage culturel accentué par l'Europe, la population francophone ne maîtrisant pas la langue à l'oral a besoin d'un appui écrit. Le sous-titrage linguistique, non compris les sous-titrages classiques pour des films en version originale, n'est pas envisageable dans n'importe quelle langue du fait du nombre restreint d'usagers. Le cot du sous20 titrage serait prohibitif en comparaison au nombre d'usagers. Le sous-titrage virtuel répond à cette problématique mais dans un cadre bien précis, celui des films projetés sur écran. Le sous-titrage virtuel présenté au public est basé sur une copie d'un film 25 sous-titré au moyen d'un système générant des soustitres par micro-ordinateur et les projetant avec un vidéo-projecteur synchronisé au projecteur du film.
Ce système évite de graver la copie et offre une réduction du cot, une meilleure souplesse pour un 30 changement de sous-titre correspondant par exemple à un changement de langue, et une grande liberté dans la position du sous-titre, sur, au-dessous ou audessus de l'image. Mais ce système reste cantonné à ce cadre précis.
Toutes ces techniques reposent soit sur une préparation du programme avant diffusion de celui-ci, soit sur une intervention au cours de la diffusion du programme mais toujours à l'aide d'une action humaine 5 rapide et coteuse et sans aucune véritable action du téléspectateur sur le sous-titrage.
L'objectif de la présente invention est de soustitrer automatiquement et en temps réel un signal 10 audio, notamment de télévision ou radiophonique, en remédiant à la contrainte temporelle due à la durée de traitement des signaux tout en offrant une personnalisation du soustitrage à l'usager.
Pour atteindre cet objectif, un système pour sous-titrer dynamiquement un signal audio reçu en continu par un équipement récepteur est caractérisé en ce qu'il comprend: - un moyen pour mémoriser des paramètres 20 d'affichage déterminés préalablement par un usager de l'équipement, - un moyen pour convertir le signal audio reçu en un signal de sous- titrage incluant des soustitres, - un moyen tampon pour mémoriser temporairement le signal audio reçu en un signal audio retardé de la durée de conversion dans le moyen pour convertir, et - un moyen pour combiner le signal audio retardé et le signal de sous- titrage en un signal audio sous30 titré appliqué à l'équipement et dans lequel les sous-titres sont formatés selon les paramètres d'affichage.
Lorsque le signal audio comprend déjà un soustitrage, le système peut comprendre un moyen pour 35 détecter un signal de sous-titrage dans le signal audio afin que le moyen pour combiner formate des sous-titres du signal de sous-titrage détecté en fonction des paramètres d'affichage.
L'invention offre également la possibilité à 5 l'usager d'afficher le sous-titrage généré par le moyen pour convertir, ou détecté dans le signal audio, selon une langue choisie par l'usager. Dans ce cas, le moyen pour mémoriser mémorise un identificateur définissant une langue déterminée 10 préalablement par l'usager de l'équipement. Le système comprend alors de préférence un moyen pour déterminer un identificateur d'une langue du signal de sous-titrage détecté, un moyen pour comparer l'identificateur de langue mémorisé à l'identificateur de langue du signal de sous-titrage, et au moins un moyen pour traduire les sous- titres du signal de sous-titrage en des sous-titres de la langue déterminée préalablement lorsque les identificateurs de langue sont différents afin 20 d'appliquer les sous-titres de la langue déterminée sous la forme du signal de sous-titrage au moyen pour combiner.
Selon une réalisation préférée de l'invention, le moyen pour convertir peut comprendre un moyen pour 25 filtrer le signal audio continu en un signal vocal et un signal bruité, un moyen pour analyser le signal vocal afin de produire des paramètres vocaux, un moyen de reconnaissance vocale convertissant le signal vocal en un signal textuel, un moyen pour 30 segmenter le signal vocal en des segments textuels temporels périodiques, un moyen pour déterminer un contexte de chaque segment textuel en fonction de moyennes des paramètres vocaux sur la durée du segment textuel et en fonction du segment textuel 35 afin que les contextes soient impliqués dans la conversion du signal vocal en le signal textuel exécutée par le moyen de reconnaissance vocale, et un moyen pour agréger les segments textuels en un signal de sous-titrage. Le système peut comprendre également 5 un moyen pour déterminer une langue du segment courant du signal vocal afin que le moyen pour convertir détermine dynamiquement le signal de soustitrage en fonction de la langue déterminée.
Selon une autre réalisation, le système de 10 l'invention peut être également utilisé pour soustitrer un signal audio vidéo. Dans cette réalisation, le système peut comprendre un moyen pour extraire le signal audio d'un signal audio vidéo qui est reçu par le système et l'équipement et qui est appliqué au 15 moyen pour convertir et au moyen tampon à la place du signal audio.
D'autres caractéristiques et avantages de la présente invention apparaîtront plus clairement à la 20 lecture de la description suivante de plusieurs réalisations préférées de l'invention en référence aux dessins annexés correspondants dans lesquels: - la figure 1 est un bloc-diagramme schématique d'un système de sous- titrage selon une première 25 réalisation de l'invention, dans l'environnement d'une installation terminale d'usager comprenant plusieurs équipements récepteurs et de plusieurs serveurs de sous-titrage; - la figure 2 est un algorithme d'étapes 30 exécutées par le système de sous-titrage selon la première réalisation pour sous-titrer un signal audio vidéo; et - la figure 3 est un bloc-diagramme schématique d'une réalisation préférée d'un convertisseur linguistique inclus dans, le système de sous- titrage selon l'invention.
Dans la suite, le terme "chaîne" désigne 5 indifféremment un canal ou une voie de transmission pour diffuser un programme de radiodiffusion sonore ou un programme de télévision, et la société de programme diffusant ledit programme. Le terme "programme" désigne une succession d'émissions de 10 radiodiffusion sonore ou de télévision, appelées également magazines, diffusées par une chaîne déterminée.
En référence à la figure 1, le système de sous15 titrage selon une première réalisation de l'invention comprend essentiellement une installation terminale d'usager IT et un serveur de sous-titrage STT, ou plus généralement plusieurs serveurs de sous-titrage.
L'installation terminale d'usager IT comprend M 20 équipements récepteurs EQ1, ... EQm, ... EQM avec 1 < m < M. Par exemple, l'un EQ1 des équipements est un récepteur de radiodiffusion sonore muni d'un afficheur pouvant recevoir sélectivement les émissions de plusieurs chaînes (stations) de 25 radiodiffusion sonore. Un autre équipement EQm est un ordinateur personnel (PC) par exemple relié à un réseau de paquets du type réseau Internet, ou relié à un réseau câblé de distribution de programme d'émission de télévision et/ou de radiodiffusion 30 sonore. Un dernier équipement EQM est un récepteur de télévision qui est par exemple doté de moyens de réception de signaux de télévision pour recevoir des programmes de télévision prédéterminés et doté d'un ou de plusieurs décodeurs pour recevoir des programmes transmis via un satellite et/ou via un réseau câblé de distribution.
Les équipements EQ1 à EQM sont pilotés à travers un bus distribué BU par une unité centrale de 5 traitement UCit dans l'installation IT. En variante, tout ou partie du bus BU peut être remplacé par une liaison radioélectrique de proximité de type Bluetooth ou selon la norme 802.11b.
L'unité centrale UCit comprend essentiellement 10 un microcontrôleur relié à divers périphériques tels qu'une mémoire tampon Mit, un générateur de soustitrage GS, une interface de communication IC et optionnellement un clavier et un écran. L'unité centrale, la mémoire tampon, le générateur de sous15 titrage et l'interface de communication sont inclus physiquement dans un boîtier indépendant des équipements. En variante, l'unité centrale UCit avec les périphériques est intégrée dans l'ordinateur ou le récepteur de radiodiffusion ou le récepteur de 20 télévision EQm. L'unité centrale UCit constitue un module de base qui peut desservir divers équipements domotiques tels que ceux illustrés à la figure 1 ainsi qu'un ou plusieurs téléphones et radiotéléphones mobiles, une centrale d'alarme, etc. 25 L'interface de communication IC est adaptée à une liaison de télécommunications LT reliée à un réseau d'accès RA de l'installation IT. La liaison LT et le réseau RA peuvent être classiquement une ligne téléphonique et le réseau téléphonique commuté RTC 30 lui-même connecté à un réseau de transmission de paquets à haut débit RP de type internet. Selon d'autres variantes, la liaison de télécommunications LT est une ligne xDSL (Digital Subscriber Line) ou une ligne RNIS (Réseau Numérique à Intégration de 35 Services) reliée au réseau d'accès correspondant. La liaison LT peut être aussi confondue avec l'une des liaisons desservant l'un EQm des équipements à travers l'un de réseaux de distribution RD définis ci-dessous.
Selon une autre variante, l'installation terminale IT peut être organisée autour d'une plateforme DVB-MHP (Digital Video Broadcasting-Multimedia Home Platform) pour laquelle la liaison de télécommunications LT est asymétrique avec une voie 10 de retour à débit faible vers le réseau d'accès RA.
La figure 1 montre également d'une manière schématique le système de télécommunications environnant l'installation terminale d'usager IT. En 15 particulier, les repères RD et TR désignent respectivement un ou plusieurs réseaux de distribution d'émissions programmées de radiodiffusion sonore et de télévision et une ou plusieurs têtes de réseau diffusant des émissions et 20 gérées par diverses sociétés de programme de radiodiffusion sonore et de télévision. L'ensemble des réseaux de distribution RD comprend notamment des réseaux de radiodiffusion analogiques et/ou numériques pour diffuser des émissions capables 25 d'être reçues par le récepteur radio EQ1, des réseaux câblés, hertziens (radioélectriques) terrestres analogiques et numériques, par satellites en modes analogique et numérique pour diffuser des émissions de télévision et éventuellement de radiodiffusion 30 sonore susceptibles d'être reçues par le récepteur de télévision EQM. L'ensemble des réseaux de distribution RD comprend également le réseau Internet à travers lequel l'ordinateur EQm est capable de recevoir des émissions radio et/ou de télévision que 35 diffusent certaines sociétés de programme.
Chaque serveur de sous-titrage STT est relié au réseau de distribution d'émissions RD et à l'installation terminale de l'usager IT via le réseau 5 de paquets RP et le réseau d'accès RA. Selon une autre variante, les fonctionnalités du serveur de sous-titrage STT sont situées dans une tête de réseau TR, ou plus généralement, le serveur STT est relié aux réseaux de distribution d'émissions RD. Dans ce 10 cas le sous-titrage est effectué au moins en partie avant diffusion.
Les programmes prévus, sauf ceux en direct, sont sous-titrés par légère anticipation, au moins quelques minutes environ avant leur diffusion, ce qui 15 offre un sous-titrage quasiment sans décalage temporel. En effet comme expliqué par la suite, le traitement d'un signal audio vidéo par le système de sous-titrage a une certaine durée qui engendre un retard ou décalage temporel relativement faible entre 20 le signal entrant SAV dans le système et le signal sous-titré SAVST sortant du système. Lorsque le soustitrage intervient au cours de l'affichage d'un signal audio vidéo continu, le retard d au soustitrage est comblé par le signal audio vidéo continu 25 qui sera alors dupliqué mais avec des sous-titres au début du sous-titrage, ou par un message du type "sous-titrage en cours", ou par tout autre séquence prédéterminée audio/vidéo.
Le serveur STT comporte une unité centrale de 30 traitement UCs et un ensemble de périphériques dont au moins une base de données, un convertisseur linguistique CL décrit en détail ci-dessous et un analyseur vidéo AV.
De nombreuses variantes de la répartition 35 matérielle des composants de l'installation terminale d'usager IT et du serveur de sous-titrage STT peuvent être déduites de la réalisation de l'invention illustrée à la figure 1.
Selon une première variante d'architecture 5 appelée "client léger/serveur lourd", la mémoire tampon Mit et le générateur GS sont inclus dans le serveur STT afin de simplifier l'installation de l'usager, au même titre qu'une partie du traitement réalisée par l'unité centrale de traitement UCit est 10 alors exécutée dans l'unité centrale UCs du serveur STT.
Selon une deuxième variante d'architecture appelée "client lourd/serveur léger", le convertisseur linguistique CL, l'analyseur vidéo AV 15 et la base de données BD sont implantés dans l'installation d'usager IT, et le traitement qui était réalisé par l'unité centrale UCs est alors exécuté dans l'unité de traitement UCit.
D'autres variantes intermédiaires entre l'architecture client léger/serveur lourd et l'architecture client lourd/serveur léger comme celle de la réalisation préférée présentée à la figure 1 sont envisageables.
Selon une autre réalisation, l'ensemble des 25 traitements réalisés par la suite sont exécutés en amont de la diffusion des programmes, dans une tête de réseau TR. Dans ce cas, l'installation terminale de l'usager est réduite quasiment aux équipements EQ1 à EQM.
Les termes "paramètres de sous-titrage" désignent des paramètres d'activation PAC, des paramètres d'affichage PAF et un identificateur de langue IL. Les paramètres d'activation caractérisent 35 une période d'activation du système de sous-titrage selon l'invention en fonction de dates et d'heures de début et de fin et/ou du type de programme. Les paramètres d'activation PAC font référence entre autre à des grilles de programme d'une chaîne. Les 5 paramètres d'affichage PAF caractérisent l'affichage des sous-titres sur l'afficheur inclus dans un équipement récepteur de l'usager, comme le positionnement, la fonte des caractères, les couleurs allouées aux différents locuteurs, l'affichage par 10 défilement continu du texte ou par phrases statiques, etc. L'identificateur de langue IL définit une langue des sous-titres.
Dans une autre réalisation de l'invention, un 15 programme de préférences sert à mémoriser dans la base de données BD et paramétrer des préférences sur le sous-titrage souhaité par l'usager afin d'établir et mémoriser des paramètres PAC, PAF et IL et les modifier si cela est souhaité. Le programme de 20 préférence est exécuté par le serveur STT via le réseau de paquets RP, ou directement par l'unité centrale UCit de l'installation terminale IT lorsque la base de données BD est incluse dans l'installation IT.
Par exemple, le programme de préférence présente une liste complète des équipements EQ1 à EQM de l'usager via un afficheur dans l'installation IT afin que l'usager sélectionne l'équipement pour lequel il souhaite modifier les paramètres de sous-titrage 30 lorsque les identificateurs de plusieurs équipements de l'usager ont été enregistrés lors de son abonnement. Des paramètres de sous-titrage peuvent être proposés par défaut à l'usager, ou bien les paramètres actuels si l'usager a déjà sélectionné ou 35 modifié ces paramètres. Une première page invite l'usager à saisir des paramètres d'activation PAC programmables par l'usager selon des dates et des heures ou directement selon des émissions choisies à partir d'une grille de programme. A chaque validation 5 de l'usager d'une page de saisie, les valeurs saisies des paramètres sont envoyées au serveur STT pour mémorisation dans la base de données BD, ou directement dans la base de données BD de l'installation terminale pour l'architecture "client 10 lourd/serveur léger". Il en est de même pour les paramètres d'affichage PAF et les identificateurs de langue IL.
Si l'installation terminale IT ne dispose pas de moyen d'interface hommemachine comme une souris ou 15 un clavier, les paramètres correspondant aux préférences de l'usager sont sélectionnés par défaut.
Si le sous-titrage de l'invention est réalisé dans une tête de réseau TR et l'installation terminale IT est réduite essentiellement aux équipements EQ1 à 20 EQM, les paramètres sont modifiés par l'usager via tout autre moyen, par exemple par un terminal téléphonique ou radiotéléphonique ou par une opératrice lors de la souscription au service de sous-titrage selon l'invention. 25 La figure 2 montre un algorithme d'étapes El à Ell exécutées par le système de sous-titrage selon la première réalisation pour sous-titrer un signal audio vidéo SAV transmis par le réseau de distribution RD 30 vers l'un EQm des équipements récepteurs de l'installation IT.
A l'étape El, l'usager U de l'installation IT met sous tension celle-ci et sélectionne un équipement EQm afin d'activer globalement le système 35 de sous-titrage de l'invention. Par exemple, une pression prédéterminée d'une télécommande de l'équipement sélectionné EQm lorsque cet équipement sélectionné contient l'unité centrale UCit, ou un basculement à la position de mise en marche d'un 5 bouton sur le boîtier intégrant l'unité centrale UCit met sous tension l'unité UCit. Celle-ci lit en mémoire et transmet alors automatiquement un identificateur IU de l'usager U et un identificateur IEQm de l'équipement EQm sélectionné par l'usager U 10 au serveur STT. La mise sous tension de l'unité centrale UCit vide la mémoire tampon Mit.
Le serveur STT identifie l'usager U qui a souscrit au service de soustitrage, en comparant l'identificateur reçu IU avec les identificateurs des 15 usagers abonnés dans la base de données BD, à l'étape E2. Dans une variante, le serveur STT demande à l'usager de saisir dans l'installation IT l'identificateur IU et un mot de passe qui lui a été attribué lors de l'abonnement au service afin de 20 transmettre l'identificateur et le mot de passe au serveur STT pour vérification. Puis à l'étape E2, l'unité centrale UCs lit les paramètres de soustitrage PAC, PAF et IL dans la base de données BD en correspondance avec l'identificateur d'usager IU afin 25 de les analyser selon les étapes suivantes en vue de produire les sous-titres dans l'équipement sélectionné EQm pour la chaîne sélectionnée. Les paramètres d'activation PAC sont considérés par l'unité centrale UCS, afin que le générateur GS et le 30 convertisseur CL, ou plus généralement le système, ne soient actifs seulement pendant la durée d'activation déterminée par les paramètres PAC.
Après l'identification de l'usager à l'étape E2, l'unité centrale UCs dans le serveur STT invite 35 l'usager à sélectionner une chaîne dans l'équipement EQm qui transmet ensuite un identificateur ICM de la chaîne sélectionnée au serveur STT via l'unité UCit, à l'étape E3.
En variante, l'équipement EQm et la chaîne du 5 signal audio vidéo à soustitrer ont été présélectionnés par l'usager U notamment lors de la souscription au service de sous-titrage, et les identificateurs IEQm et ICM ont été inscrits en correspondance avec l'identificateur IU de l'usager U 10 dans la base de données BD. Dans cette variante, l'équipement EQm est simplement mis sous tension en attente d'un soustitrage.
A l'étape suivante E4, le signal audio vidéo SAV de la chaîne sélectionnée reçu par l'équipement 15 sélectionné est mémorisé en continu temporairement dans la mémoire tampon Mit en un signal audio retardé SAVR. Comme tout signal audio vidéo SAV, celui-ci inclut des repères temporels périodiques tels que des mots de verrouillage de trame, des mots de 20 synchronisation de paquet, des signaux de synchronisation de trame vidéo ou de ligne, etc. Ces repères temporels sont comptés modulo au nombre prédéterminé et mémorisé dans la mémoire tampon Mit en réponse à la sélection de l'identificateur ICH de 25 la chaîne par l'usager. L'unité UCit transmet alors un repère temporel de synchronisation déterminé du serveur ST afin que celui-ci débute le sous-titrage pour la chaîne sélectionnée relativement à l'usager U en réponse au repère temporel de synchronisation. La 30 durée de mémorisation du signal SAV dépend du temps de traitement pour le sous-titrage du signal SAV par le dispositif, y compris le temps d'acheminement des messages échangés entre l'installation terminale IT de l'usager U et le serveur de sous-titrage STT. En 35 parallèle, l'unité centrale UCs du serveur STT sélectionne la chaîne désignée par l'identificateur reçu ICH parmi toutes les chaînes disponibles au niveau du serveur à l'étape E5.
En variante, l'unité centrale vérifie si la 5 signal audio vidéo SAV identifié par l'identificateur de chaîne ICH est en cours de sous-titrage par le serveur STT et si les paramètres de sous-titrage pour le soustitrage actuel correspondent aux paramètres PAC et IL sélectionnés par l'usager. Lorsque les 10 paramètres correspondent, le sous-titrage est poursuivi à l'étape E8, dans le cas contraire le signal SAV continue le traitement à l'étape E6.
A l'étape E6, l'unité centrale UCs déclenche le traitement du signal SAV de la chaîne sélectionnée en 15 réponse au repère temporel de synchronisation reçu avec les paramètres IU, IEQm et ICH. A partir du repère temporel de synchronisation, les repères temporels suivants dans le signal SAV sont détectés et inclus dans le signal par l'unité centrale UCs. 20 L'unité centrale UCs traite le signal SAV afin que l'analyseur vidéo AV détecte un sous-titrage dans le signal SAV.
Lorsque le signal SAV comporte déjà un soustitrage, l'analyseur vidéo AV extrait les sous-titres 25 ST du signal SAV et une unité de détermination de langue 8 (figure 3) du convertisseur linguistique CL détermine l'identificateur IL de la langue du soustitrage à l'étape E61. L'unité centrale UCs le compare à l'identificateur IL de la langue déterminée 30 préalablement par l'usager lu dans la base de données BD, à l'étape E62. Si les identificateurs de langue sont identiques, le serveur STT poursuit le procédé par l'étape ultérieure ES.
Par exemple, si le sous-titrage n'est pas séparé 35 du signal reçu SAV ou s'il n'est pas récupérable automatiquement, comme pour un signal audiovidéo MPEG4 avec un marquage descriptif via le langage SMIL (Synchronized Multimedia Integration Language), l'analyseur AV détecte le sous-titrage par une 5 reconnaissance optique de caractère (OCR) . La durée nécessaire à l'analyse d'image par cette reconnaissance de forme n'est pas pénalisante pour les raisons suivantes. Les sous-titres étant très souvent positionnés dans une portion basse d'une 10 image, l'analyse en est considérablement limitée.
Pour être visible de l'usager, les sous-titres sont en gros caractères dactylographiés généralement avec un bon contraste par rapport à l'image. Ils sont donc simples à reconnaître, ce qui limite la puissance de 15 reconnaissance optique de caractères et donc sa durée. Un temps de perception minimal est tel que le sous-titrage change en moyenne toutes les cinq secondes environ, et au minimum toutes les trois secondes environ. L'analyseur audio AV analyse ainsi 20 seulement une portion (le cinquième) inférieure des images par période de trois secondes minimum.
Dans le cas contraire, à l'étape E62 o l'identificateur de langue du sous-titrage dans le signal SAV n'est pas identique à l'identificateur de 25 langue IL déterminé par l'usager, un module de traduction 41 (figure 3) inclus dans le convertisseur linguistique CL traduit les sous-titresextraits du signal SAV en des sous-titres de la langue déterminée par les identificateurs de langue IL de l'usager, à 30 l'étape E63 qui est suivie par l'étape E8.
En revenant à l'étape E6, lorsque l'analyseur vidéo AV ne détecte aucun sous-titre dans le signal SAV, le convertisseur linguistique CL détermine dynamiquement le sous-titrage ST du signal SAV en 35 fonction du signal audio SA dans celui-ci et de la langue utilisée dans ce signal audio et traduit le sous-titrage dans la langue définie par l'usager en fonction de l'identificateur de langue IL déterminé par celui-ci comme cela est ultérieurement plus détaillé en référence à la figure 3.
Le signal de sous-titrage ST comportant les sous-titres déduits du signal SAV correspondant et les paramètres d'affichage PAF ainsi que les repères temporels détectés précédemment dans le signal SAV et 10 retardés par l'opération de sous-titrage sont envoyés continuellement pendant le traitement progressif du signal SAV par le serveur STT à l'installation terminale IT à l'étape E8.
Toutes les étapes de traitement jusqu'à l'étape 15 E8 ont engendré un retard nécessaire à l'exécution du traitement dans le serveur STT.
A l'étape E9, le générateur de sous-titrage GS dans l'installation terminale IT synchronise en fonction des repères temporels et combine le signal 20 de sous-titrage ST reçu par l'installation IT avec le signal audio vidéo retardé SAVR de la chaîne sélectionnée ICH lu dans la mémoire tampon Mit, c'est-à-dire les sous-titres avec le signal audio de dialogue du signal SAV afin de produire un signal 25 audio vidéo sous-titré SAVST.
Le générateur de sous-titrage utilise des techniques d'alignement de parole connues comme une détection de changement de plan de caméra dans le signal SAVR. Si un sous-titre est présent lors de 30 changement de plan, l'usager a tendance à regarder l'image puis à revenir vers le texte. L'usager perd à ce moment l'endroit de lecture dans le sous-titre présent et reprend la lecture au début du même soustitre au risque de ne pas le lire en entier. Le générateur GS prend soin que chaque sous-titre ne soit pas perturbé par un changement de plan.
Ensuite à l'étape E10, le générateur de soustitrage GS génère dynamiquement un signal audio vidéo 5 sous-titré SAVST selon les paramètres d'affichage PAF lus dans la base de données BD et reçus par l'unité centrale UCit de l'installation terminale à l'étape E8. Les paramètres d'affichage PAF sont transmis par le serveur STT afin que le générateur GS reçoive le 10 plus rapidement possible d'éventuelles modifications de ces paramètres pour adapter en conséquence le soustitrage au cours du fonctionnement du système.
Le signal audio vidéo sous-titré SAVST avec les soustitres incrustés dans les images du signal initial 15 SAV est affiché à l'étape E11 par l'afficheur de l'équipement récepteur sélectionné EQm de l'usager U avec un retard par rapport au signal initial reçu SAV. La combinaison des signaux SAVR et ST dans le générateur GS, tout comme notamment la conversion 20 dans le convertisseur CL, est terminée à l'expiration de la durée d'activation en fonction de laquelle les paramètres d'activation PAC sont déterminés et surveillés par l'autre unité UCs.
Si le signal SAV comporte déjà un sous-titrage 25 (étape E6, oui), le générateur de sous-titrage GS appose les nouveaux textes au lieu et place de ceux déduits d'une traduction et/ou du format selon les paramètres d'affichage PAF. Dans les autres cas, le sous-titrage est positionné dans la partie inférieure 30 des images. Le générateur GS détermine une durée d'affichage de chaque sous-titre en fonction de la longueur du sous-titre à afficher et d'un temps de lecture moyen. Cette durée d'affichage est au moins égale à trois secondes environ et peut déborder sensiblement dans un sens ou dans l'autre par rapport aux phrases reconnues.
Le serveur de sous-titrage STT comporte un 5 convertisseur linguistique CL dont le fonctionnement est décrit ci-dessous en référence à la figure 3.
Le convertisseur linguistique selon l'invention comprend un extracteur audio 1, un filtre audio 2, un analyseur vocal 3, un module de reconnaissance vocale 10 4, un module de traduction 41, une unité de segmentation 51, une unité de détermination de contexte de segment 5, une base de données contextuelle 45, une unité de détermination de contexte général 6, un comparateur audio 7, une base 15 de données audio 71, et une unité de détermination de langue 8.
Dans la suite le terme "contexte" désigne une liste de mots ou expressions clés et de leurs équivalents. Chaque mot ou expression clé caractérise 20 un contexte susceptible d'être abordé dans n'importe quel document multimédia. Certains contextes sont des combinaisons de contextes, ou dans le cas de contextes d'actualités ou régionaux, des combinaisons de contextes précisés par un nom propre, telles que 25 par exemple: Météo Bretagne, Guerre Afghanistan, etc. Un signal audio continu SA de durée indéterminée est extrait du signal audio vidéo SAV dans l'extracteur audio 1 adapté à la norme relative au signal SAV, et est appliqué au filtre audio 2. Il 30 sera supposé que le signal audio SA reçu par le serveur STT est numérique; sinon, le signal audio reçu est analogique et converti par un convertisseur analogique-numérique inclus dans le filtre audio 2.
L'unité 12 comporte en outre une mémoire tampon 35 mémorisant en continu le signal audio SA pendant une durée supérieure à une durée prédéterminée DS de segments de signal audio. En pratique, la capacité de la mémoire tampon est telle qu'elle enregistre au maximum une portion du signal audio SA ayant une 5 durée au moins dix fois environ supérieure à celle DS des segments. L'unité 12 segmente le signal audio SA en segments temporels et périodiques..., Sn, ... au fur et à mesure de la réception du signal audio. La durée prédéterminée DS des segments de signal audio 10 dépend du rapport entre la qualité de la conversion et le temps de traitement des segments du signal SA souhaité par le convertisseur CL. Une durée minimale de 15 secondes est typiquement suffisante au convertisseur pour assurer une qualité minimale.
Dans une autre réalisation préférée de l'invention, la segmentation n'est pas fondée sur une caractéristique temporelle mais dépend d'un élément syntaxique comme un mot, ou un groupe de mots ou une phrase. Un élément syntaxique est par exemple défini 20 par un niveau sonore supérieur à un seuil prédéterminé et encadré d'intervalles du signal audio ayant un niveau sonore inférieur au seuil prédéterminé et considérés comme des silences.
Le filtre 2 filtre par soustraction spectrale ou 25 filtrage adaptatif le signal audio SA afin de le dissocier en un signal comprenant uniquement de la voix et appelée "signal vocal" SV et un signal comprenant des bruits de fond et appelée "signal bruité" SB. Le filtre 2 est par exemple basé sur une 30 analyse prédictive linéaire LPC (Linear Predictive Coding) et isole différentes composantes acoustiques dans un signal audio comme la voix, le bruit vocal et la musique pure.
Le signal vocal SV est ensuite traité en parallèle par l'analyseur vocal 3 et le module de reconnaissance vocale 4.
L'analyseur vocal 3 analyse le signal vocal SV 5 afin de déterminer en continu une liste de paramètres PVSn caractérisant le segment vocal SV, appelée "liste de paramètres vocaux". La liste de paramètres vocaux n'est pas fixe mais comporte entre autre des paramètres acoustiques et particulièrement prosodiques comme la fréquence de vibration, l'intensité, le débit, le timbre et également d'autres paramètres comme l'âge relatif du locuteur.
En parallèle à l'analyse vocale, le signal vocal SV est soumis au module de reconnaissance vocale 4. 15 Lorsque la langue du signal vocal SV est considérée comme inconnue, l'unité de détermination de langue connue 8 est insérée entre le filtre 2 et le module de reconnaissance vocale 4. L'unité 8 détermine dynamiquement la langue du signal vocal SV si celle20 ci n'est pas préalablement connue. Pour des informations multi-langues par exemple, la langue du signal vocal est reconnue ainsi en continue. Si la langue du signal audio est prédéterminée et prise comme langue par défaut, alors l'unité de 25 détermination de langue 8 n'est pas nécessaire. Le module de reconnaissance vocale 4 transforme le signal vocal SV en un signal textuel ST, dit signal de sous-titrage. Plusieurs modules de reconnaissance vocale peuvent être utilisés à des fins 30 d'optimisation du traitement.
Dans une variante, le module 4 considère les résultats d'une étude de contexte effectuée préalablement afin d'affiner la reconnaissance et la transcription du signal vocal SV. Le module de 35 reconnaissance vocale 4 considère les résultats d'étude de contexte effectuée préalablement afin d'affiner la reconnaissance et la traduction du signal vocal. Le contexte se traduit en des éléments syntaxiques, c'est-à-dire des mots et expressions 5 clés, présentant des probabilités élevées pour être inclus dans une portion du signal vocal. Par exemple, le contexte d'un spot publicitaire ou d'actualités relativement périodique ou fréquent dans un signal audio émis par une station de radiodiffusion sonore 10 est prédit en connaissant le programme détaillé de cette station, ou en le déduisant de spots publicitaires ou d'actualités précédents. Divers contextes sous la forme de mots et expressions clés, comme définis ci-dessus, constituent des contextes 15 pré-mémorisés et gérés dans une base de données contextuelle 45 liée au module 4 et aux unités 5 et 6. Les contextes dans la base 45 sont également complétés et affinés par consultation automatique de base de données externes en fonction des contextes 20 récemment détectés. Les contextes sont ainsi améliorés progressivement au cours du traitement du signal audio SA pour faciliter la reconnaissance vocale dans le module de reconnaissance vocale 4. Le module 4 peut s'appuyer sur un logiciel de 25 compréhension en langage naturel (Natural Language Understanding NLU).
L'unité de segmentation 51 segmente le signal textuel ST en segments textuels temporels et périodiques... Sn, ... au fur et à mesure de la 30 réception du signal vocal SV dans une mémoire tampon et en synchronisme avec les repères temporels dans le signal SAV. En effet l'unité de segmentation 51 comporte en outre une mémoire tampon mémorisant en continu le signal vocal SV pendant une durée 35 supérieure à une durée prédéterminée DS de segments de signal vocal SV. En pratique, la capacité de la mémoire tampon est telle qu'elle enregistre au maximum une portion du signal vocal SV ayant une durée au moins dix fois environ supérieure à celle DS 5 des segments. La durée prédéterminée DS des segments de signal textuel dépend du rapport entre la qualité de la conversion et le temps de traitement du signal SA souhaité par le convertisseur CL. Une durée minimale de 15 secondes est typiquement suffisante au 10 système pour assurer une qualité minimale.
Dans une autre réalisation préférée de l'invention la segmentation n'est pas fondée sur une caractéristique temporelle mais dépend d'un élément syntaxique comme un mot, ou un groupe de mots ou une 15 phrase.
L'unité 5 détermine un ou plusieurs contextes CSn du segment textuel courant Sn en fonction de la moyenne PVSn de chaque paramètre vocal PVS sur le segment textuel courant et en fonction du contenu du 20 segment textuel courant Sn* Dans une variante préférée, des contextes établis et mémorisés précédemment servent également à la détermination du contexte dans l'unité 5 et contribuent à augmenter la pertinence de nouveaux contextes de segment qui 25 participeront à leur tour à la détermination de contextes de prochains segments.
Dans une autre variante, un contexte général est déterminé initialement avant toute indexation pour sous-titrage du signal audio SA en fonction de 30 paramètres externes au système et liés entre autre à la source du signal audio vidéo SAV. Lorsque le signal audio SA à traiter est celui reçu par un récepteur radiophonique ou de télévision, des grilles de programme ou des informations sur celles-ci ainsi 35 que toutes informations susceptibles de renseigner le contexte du signal vocal SV enrichissent la base de données contextuelle 45. Ce contexte général est basé par l'unité 5 sur le contexte d'un nombre déterminé de segment précédant le segment courant Sn lorsque le 5 contexte du segment immédiatement précédent n'est pas déterminé.
L'unité de détermination de contexte général 6 compare le contexte CSn du segment textuel courant Sn au contexte CSn-1 du segment textuel précédent Sn-l 10 afin de déterminer des bornes temporelles d'un contexte général courant CGk. L'unité 6 détermine une borne temporelle supérieure de contexte général qui est confondue avec une borne temporelle supérieure du segment courant Sn lorsque les contextes CSn, CSn-1 15 du segment courant et du segment précédant le segment courant sont similaires, et qui est maintenue confondue avec la borne temporelle supérieure du segment Sn-l précédant le segment courant lorsque le contexte CSn du segment courant n'est pas similaire 20 au contexte CSn-1 du segment précédent.
Le contexte général CGk comparativement à un contexte de segment textuel demeure inchangé au cours d'un ou plusieurs segments textuels consécutifs dont les contextes définissent en commun le contexte 25 général. L'ensemble des segments textuels consécutifs définissant le contexte général CGk est limité par des bornes temporelles respectivement confondues avec la borne inférieure, dite également borne antérieure, du premier segment textuel traité de l'ensemble et la 30 borne supérieure BSk, dite également borne postérieure, du dernier segment textuel traité de l'ensemble.
A des fins d'optimisation de la conversion du signal audio SA, des portions périodiques du signal 35 vocal SV ayant une durée supérieure et 2 6 proportionnelle à la durée DS des segments textuels Sn périodiques du signal audio SA sont traitées chacun plusieurs fois par les moyens fonctionnels 3 à 6. Par exemple, un passage d'une portion du signal 5 vocal SV deux à K fois à travers les moyens 2 à 6 affine la pertinence des contextes de cette portion.
Le nombre K de cycles de traitement d'une portion de signal audio, comme indiqué schématiquement en 36 dans la figure 3, dépend des contraintes de temps, de 10 la qualité de chaque traitement dans les moyens 2 à 6 et de la capacité de la mémoire tampon dans l'unité de segmentation 51. Plus le convertisseur linguistique CL doit traiter rapidement le signal audio vidéo SAV, plus le nombre K est petit.
Egalement à des fins d'optimisation du convertisseur linguistique, l'unité 5 détermine quelques contextes du segment textuel courant Sn pour segmenter davantage le signal textuel ST en différents contextes généraux dans l'unité 6. Ainsi 20 des intervalles de différents contextes généraux n'ayant pas a priori des bornes temporelles inférieures et supérieures confondues sont juxtaposés pendant des segments vocaux communs, ce qui augmente la précision des informations générales relatives au 25 signal audio.
Comme montré à la figure 3, le convertisseur linguistique CL comprend également le comparateur audio 7 en relation avec une base de données audio 71 dans laquelle sont mémorisées des morceaux de données 30 audio tels que des musiques, des chansons, des jingles publicitaires, des flashs d'information et des bruitages. Plus généralement, la base de données 71 a enregistré préalablement tout morceau de donnée audio de préférence qualifiée par des paramètres 35 audio PASp et des contextes CAP dont les bornes temporelles sont échelonnées par rapport à un repère fixe d'une donnée audio, telle que le début d'une chanson ou d'un jingle. La base de données 71 contient ainsi des morceaux de données audio typés 5 qui sont utilisés pour interrompre le signal audio continu SA relativement à un contexte général, lors d'un "saut de contexte", tel que spot publicitaire, pour un encart court ayant un contexte différent de celui d'un sujet ou thème relativement long dans le 10 signal SA.
Le comparateur audio 7 comprend une mémoire tampon et une unité de segmentation. Le comparateur compare des échantillons de morceaux audio contenus dans la base de données audio 71. Les échantillons 15 sensiblement identiques permettent au comparateur de déterminer des portions de signal audio SA correspondant à des morceaux complets ou des parties de morceaux audio contenus dans la base 71. Les paramètres PASp et le contexte CAp de la portion 20 identifiée du signal audio SA sont appliqués à l'unité 5 sur toute la durée de la portion déterminée, en remplacement des moyennes PVSn des paramètres vocaux sur le segment courant du contenu du segment textuel Sn. Les segments textuels Sn sont 25 ainsi qualifiés respectivement par des paramètres vocaux PASp et des contextes audio CAP lus dans la base de données 71.
Le comparateur audio 7 participe également à l'amélioration de la qualité de détermination des 30 contextes puisque les paramètres PASp et les contextes CAp associés aux données audio et contenus dans la base de données audio 71 sont déterminés aussi bien manuellement et donc très précisément, qu'automatiquement.
Dans un souci d'amélioration de la détermination des contextes, le signal bruité SB comportant la partie non vocale résiduelle du segment courant SA produite par le filtre 2 est appliqué par le filtre 2 5 au comparateur audio 7, afin de tenter de qualifier le signal bruité SB par des paramètres PAS et des contextes CA provenant de la base de données audio 71 et ainsi d'améliorer la détermination de contexte dans l'unité 5 et de renseigner la base contextuelle 10 45 par de nouveaux contextes. Afin de constituer rapidement des données audio dans la base 71, les machines hébergeant le moyen de gestion gérant la base de données audio 71 peuvent être mutualisées.
Dans une autre variante, le moyen de gestion est 15 associé au comparateur audio 7.
En variante, le convertisseur linguistique CL ne dispose pas de comparateur audio 7 ni de base de données audio 71.
S'il s'agit du sous-titrage d'un signal audio 20 émis par une station de radiodiffusion sonore ou autre, l'extracteur audio 1 peut être également supprimé.
Le convertisseur linguistique CL comprend au moins un module de traduction 41. Le module 41 est 25 activé lorsque l'unité 8 constate que la langue désignée par l'identificateur de langue IL lu en correspondance avec l'identificateur d'usager IU dans la base de données BD est différente de la langue du signal SV déterminée par l'unité 8. Le module de traduction 41 traduit le signal textuel ST en un signal textuel traduit STR dans ladite langue désignée et appliqués à l'unité de segmentation 51.
De préférence, le module de reconnaissance vocale 4 et le module de traduction 41 exploitent une analyse 35 de contexte commune afin d'améliorer le résultat de ces deux modules. Dans une autre réalisation, le convertisseur linguistique CL ne comporte pas de module de traduction.
Des segments textuels Sn du signal audio vidéo 5 SAV éventuellement traduits sont ainsi appliqués en continu à l'unité centrale UCs en sortie du convertisseur CL. De préférence, les unités 5 et 6 agrègent les segments textuels Sn en un signal de sous-titrage ST. Cependant en variante, les segments 10 textuels Sn sont envoyés directement à l'installation terminale IT via les réseaux RP et RA et sont agrégés dans le générateur de sous-titrage GS.
Le service de sous-titrage proposé par le 15 système de l'invention peut être assujetti à une facturation selon la chaîne sous-titrée, sa fréquence d'écoute, et les paramètres sélectionnés par l'usager, comme ceux imposant une traduction du soustitrage dans une autre langue que celle du signal 20 audio d'origine.
Le système de sous-titrage est applicable également à n'importe quelle installation recevant un signal audio SA et disposant d'un moyen d'affichage 25 des sous-titres ST et d'un moyen d'écoute du signal audio. Par exemple, l'installation comporte au moins un récepteur radiophonique, ou bien un terminal téléphonique ou radiotéléphonique notamment pour sous-titrer le signal de parole, en tant que signal 30 audio, de l'interlocuteur éloigné pendant une conversation téléphonique. Selon d'autres réalisations, le système de sous-titrage est applicable au domaine de l'audioconférence ou de la visioconférence et plus généralement d'une conférence pour sous-titrer le signal audio d'un locuteur pendant la conférence.
Toutes ces réalisations sont particulièrement utiles pour les malentendants participant à une conférence.

Claims (10)

REVENDICATIONS
1 - Système pour sous-titrer dynamiquement un signal audio (SAV) reçu en continu par un équipement récepteur (EQm), caractérisé en ce qu'il comprend: - un moyen (BD) pour mémoriser des paramètres d'affichage (PAF) déterminés préalablement par un usager de l'équipement (EQm), - un moyen (CL) pour convertir le signal audio 10 reçu (SAV) en un signal de sous-titrage (ST) incluant des sous-titres, - un moyen tampon (Mit) pour mémoriser temporairement le signal audio reçu (SAV) en un signal audio retardé (SAVR) de la durée de conversion 15 dans le moyen pour convertir, et - un moyen (GS) pour combiner le signal audio retardé et le signal de sous-titrage en un signal audio sous-titré (SAVST) appliqué à l'équipement (EQm) et dans lequel les sous-titres sont formatés 20 selon les paramètres d'affichage (PAF).
2 - Système conforme à la revendication 1, comprenant un moyen (AV) pour détecter un signal de sous-titrage dans le signal audio (SAV) afin que le 25 moyen pour combiner (GS) formate des sous-titres du signal de soustitrage détecté en fonction des paramètres d'affichage (PAF).
3 - Système conforme à la revendication 2, 30 caractérisé en ce que le moyen pour mémoriser (BD) mémorise un identificateur (IL) définissant une langue déterminée préalablement par l'usager de l'équipement (EQm), et en ce que le système comprend un moyen (8) pour déterminer un identificateur d'une 35 langue du signal de sous-titrage détecté, un moyen (UCs) pour comparer l'identificateur de langue mémorisé à l'identificateur de langue du signal de sous-titrage, et au moins un moyen (41) pour traduire les sous-titres du signal de sous-titrage (ST) en des 5 sous-titres de la langue déterminée préalablement lorsque les identificateurs de langue sont différents afin d'appliquer les sous- titres de la langue déterminée sous la forme du signal de sous-titrage (ST) au moyen pour combiner (GS).
4 - Système conforme à l'une quelconque des revendications 1 à 3, dans lequel le moyen pour convertir (CL) comprend un moyen (2) pour filtrer le signal audio continu en un signal vocal (SV) et un 15 signal bruité (SB), un moyen (3) pour analyser le signal vocal (SV) afin de produire des paramètres vocaux (PVS), un moyen de reconnaissance vocale (4) convertissant le signal vocal (SV) en un signal textuel (ST), un moyen (51) pour segmenter le signal 20 vocal (SV) en des segments textuels temporels périodiques (Sn), un moyen (5, 6) pour déterminer un contexte (CSn) de chaque segment textuel en fonction de moyennes (PVSn) des paramètres vocaux sur la durée du segment textuel et en fonction du segment textuel 25 (Sn) afin que les contextes soient impliqués dans la conversion du signal vocal (SV) en. le signal textuel (ST) exécutée par le moyen de reconnaissance vocale (4), et un moyen (5, 6). pour agréger les segments textuels (Sn) en un signal de sous-titrage (ST). 30 - Système conforme à la revendication 4, comprenant un moyen (8) pour déterminer une langue du signal vocal (SV) afin que le moyen pour convertir (CL) détermine dynamiquement le signal de sous35 titrage (ST) en fonction de la langue déterminée.
6 - Système conforme à la revendication 4 ou 5, caractérisé en ce que le moyen pour mémoriser (BD) mémorise un identificateur (IL) définissant une 5 langue déterminée préalablement par l'usager de l'équipement (EQm), et en ce que le système comprend au moins un moyen (41) pour traduire le signal textuel (ST) en un signal traduit (STR) selon la langue désignée par l'identificateur de langue (IL), 10 le signal textuel traduit (STR) étant appliqué au moyen pour segmenter (51).
7 - Système conforme à la revendication 6, dans lequel le moyen de reconnaissance vocale (4) et le 15 moyen pour traduire (41) exploitent une analyse de contexte commune.
8 - Système conforme à l'une quelconque des revendications 1 à 7, comprenant un moyen (BD) pour 20 mémoriser des paramètres d'activation (PAC) déterminés par l'usager en fonction d'une durée d'activation du système, afin que le moyen pour convertir (CL) convertisse et le moyen pour combiner (GS) combine seulement pendant la durée d'activation. 25 9 Système conforme à l'une quelconque des revendications 1 à 8, comprenant un moyen (UCit) pour sélectionner une chaîne de réception afin que le signal audio reçu (SAV) à convertir corresponde à la 30 chaîne de réception sélectionnée.
- Système conforme à l'une quelconque des revendications 1 à 9, comprenant un moyen (1) pour extraire le signal audio (SA) d'un signal audio vidéo 35 (SAV) qui est reçu par le système et l'équipement (EQm) et qui est appliqué au moyen pour convertir (CL) et au moyen tampon (Mit) à la place du signal audio (SAV).
11 - Système conforme à l'une quelconque des revendications 1 à 10, dans lequel le moyen tampon (Mit) et le moyen pour combiner (GS) sont inclus dans une installation terminale (IT) de l'usager reliée au moins à l'équipement récepteur (EQm), et le moyen 10 pour mémoriser (BD) et le moyen pour convertir (CL) sont inclus dans un serveur (STT).
12 -, Système conforme à l'une quelconque des revendications 1 à 10, inclus dans une installation 15 terminale (IT) de l'usager reliée au moins à l'équipement récepteur (EQm).
13 - Système conforme à l'une quelconque des revendications 1 à 10, inclus dans un moyen serveur 20 (STT; TR) pour transmettre le signal audio soustitré (SAVST) au moins à l'équipement récepteur (EQm).
FR0301286A 2003-02-04 2003-02-04 Systeme de sous-titrage dynamique de signaux de television et radiophoniques Expired - Fee Related FR2850821B1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
FR0301286A FR2850821B1 (fr) 2003-02-04 2003-02-04 Systeme de sous-titrage dynamique de signaux de television et radiophoniques
PCT/FR2004/000175 WO2004080072A1 (fr) 2003-02-04 2004-01-27 Systeme de sous-titrage dynamique de signaux de television et radiophoniques

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0301286A FR2850821B1 (fr) 2003-02-04 2003-02-04 Systeme de sous-titrage dynamique de signaux de television et radiophoniques

Publications (2)

Publication Number Publication Date
FR2850821A1 true FR2850821A1 (fr) 2004-08-06
FR2850821B1 FR2850821B1 (fr) 2005-04-29

Family

ID=32696354

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0301286A Expired - Fee Related FR2850821B1 (fr) 2003-02-04 2003-02-04 Systeme de sous-titrage dynamique de signaux de television et radiophoniques

Country Status (2)

Country Link
FR (1) FR2850821B1 (fr)
WO (1) WO2004080072A1 (fr)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007086860A1 (fr) * 2006-01-27 2007-08-02 Thomson Licensing Procédé et système 'closed-caption' -sous-titrage pour malentendant -
EP1854756A1 (fr) * 2005-03-03 2007-11-14 Mitsubishi Electric Corporation Affichage a l'interieur d'une cabine d'ascenceur
WO2010122483A1 (fr) * 2009-04-20 2010-10-28 Ericsson Television Inc. Systèmes et procédés permettant de fournir des traductions de sous-titrages codés déterminées dynamiquement pour un contenu vod
WO2019012364A1 (fr) * 2017-07-11 2019-01-17 Sony Corporation Positionnement par l'utilisateur de sous-titrage codé
CN110415706A (zh) * 2019-08-08 2019-11-05 常州市小先信息技术有限公司 一种在视频通话中实时叠加字幕的技术及其应用

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7711543B2 (en) 2006-04-14 2010-05-04 At&T Intellectual Property Ii, Lp On-demand language translation for television programs
US9959872B2 (en) 2015-12-14 2018-05-01 International Business Machines Corporation Multimodal speech recognition for real-time video audio-based display indicia application
EP3422203A1 (fr) * 2017-06-29 2019-01-02 Vestel Elektronik Sanayi ve Ticaret A.S. Procédé de traduction simultanée, mis en oeuvre par ordinateur, dispositif de traduction simultanée
TWI739377B (zh) * 2020-04-08 2021-09-11 瑞昱半導體股份有限公司 字幕影像產生裝置及方法
CN113596355B (zh) * 2020-04-14 2024-04-16 瑞昱半导体股份有限公司 字幕图像产生装置及方法
CN112086095B (zh) * 2020-09-10 2024-01-19 深圳前海微众银行股份有限公司 数据处理方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5815196A (en) * 1995-12-29 1998-09-29 Lucent Technologies Inc. Videophone with continuous speech-to-subtitles translation
WO2001095631A2 (fr) * 2000-06-09 2001-12-13 British Broadcasting Corporation Production de sous-titres ou de legendes pour images animees
US20020087569A1 (en) * 2000-12-07 2002-07-04 International Business Machines Corporation Method and system for the automatic generation of multi-lingual synchronized sub-titles for audiovisual data

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1158799A1 (fr) * 2000-05-18 2001-11-28 Deutsche Thomson-Brandt Gmbh Procédé et récepteur permettant de fournir des données de sous-titre en plusieurs langues à la demande
US7013273B2 (en) * 2001-03-29 2006-03-14 Matsushita Electric Industrial Co., Ltd. Speech recognition based captioning system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5815196A (en) * 1995-12-29 1998-09-29 Lucent Technologies Inc. Videophone with continuous speech-to-subtitles translation
WO2001095631A2 (fr) * 2000-06-09 2001-12-13 British Broadcasting Corporation Production de sous-titres ou de legendes pour images animees
US20020087569A1 (en) * 2000-12-07 2002-07-04 International Business Machines Corporation Method and system for the automatic generation of multi-lingual synchronized sub-titles for audiovisual data

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1854756A1 (fr) * 2005-03-03 2007-11-14 Mitsubishi Electric Corporation Affichage a l'interieur d'une cabine d'ascenceur
EP1854756A4 (fr) * 2005-03-03 2012-07-25 Mitsubishi Electric Corp Affichage a l'interieur d'une cabine d'ascenceur
WO2007086860A1 (fr) * 2006-01-27 2007-08-02 Thomson Licensing Procédé et système 'closed-caption' -sous-titrage pour malentendant -
WO2010122483A1 (fr) * 2009-04-20 2010-10-28 Ericsson Television Inc. Systèmes et procédés permettant de fournir des traductions de sous-titrages codés déterminées dynamiquement pour un contenu vod
WO2019012364A1 (fr) * 2017-07-11 2019-01-17 Sony Corporation Positionnement par l'utilisateur de sous-titrage codé
US10425696B2 (en) 2017-07-11 2019-09-24 Sony Corporation User placement of closed captioning
US11115725B2 (en) 2017-07-11 2021-09-07 Saturn Licensing Llc User placement of closed captioning
CN110415706A (zh) * 2019-08-08 2019-11-05 常州市小先信息技术有限公司 一种在视频通话中实时叠加字幕的技术及其应用

Also Published As

Publication number Publication date
FR2850821B1 (fr) 2005-04-29
WO2004080072A1 (fr) 2004-09-16

Similar Documents

Publication Publication Date Title
US20230245661A1 (en) Video conference captioning
US8768703B2 (en) Methods and apparatus to present a video program to a visually impaired person
US9547642B2 (en) Voice to text to voice processing
WO2017191397A1 (fr) Procédé et dispositif de synchronisation de sous-titres
FR2850821A1 (fr) Systeme de sous-titrage dynamique de signaux de television et radiophoniques
CN111836062A (zh) 视频播放方法、装置及计算机可读存储介质
WO2005029860A1 (fr) Procede et module de reception de signaux de television
FR3025925A1 (fr) Procede de controle de modes de presentation de sous-titres
US20220414132A1 (en) Subtitle rendering based on the reading pace
EP3556102B1 (fr) Procede d&#39;enregistrement d&#39;un programme telediffuse a venir
US20230107968A1 (en) Systems and methods for replaying a content item
US11416530B1 (en) Subtitle rendering based on the reading pace
FR3025926A1 (fr) Procede de controle de la vitesse d&#39;affichage des sous-titres
FR2894104A1 (fr) Procede de fourniture sur demande de menus interactifs a des terminaux couples a un reseau de communication
FR2904170A1 (fr) Appareil de terminaison mobile et procede de reception de diffusion numerique de ce dernier
JP2008294722A (ja) 動画再生装置および動画再生方法
FR2852438A1 (fr) Systeme de traduction pour audioconference multilingue
WO2024052372A1 (fr) Synthèse vocale intelligente
FR2851352A1 (fr) Systeme de conversion d&#39;un signal audio continu en un signal audiot traduit et synthetise
Costa-Montenegro et al. SubTitleMe, subtitles in cinemas in mobile devices
US11934438B2 (en) Subtitle rendering based on the reading pace
WO2005069617A1 (fr) Sous-titrage d’un flux audio ou video dans un document multimedia
FR2979465A1 (fr) Procede et dispositif de ralentissement d&#39;un signal audionumerique
US11665392B2 (en) Methods and systems for selective playback and attenuation of audio based on user preference
WO2020188097A1 (fr) Procédé de restitution de contenus de personnalisation d&#39;un flux radiophonique principal

Legal Events

Date Code Title Description
ST Notification of lapse

Effective date: 20061031