FR2963471A1 - Procede et dispositif automatique de production d'une bande son par combinaison de composantes sonores - Google Patents

Procede et dispositif automatique de production d'une bande son par combinaison de composantes sonores Download PDF

Info

Publication number
FR2963471A1
FR2963471A1 FR1056396A FR1056396A FR2963471A1 FR 2963471 A1 FR2963471 A1 FR 2963471A1 FR 1056396 A FR1056396 A FR 1056396A FR 1056396 A FR1056396 A FR 1056396A FR 2963471 A1 FR2963471 A1 FR 2963471A1
Authority
FR
France
Prior art keywords
sound
during
period
components
soundtrack
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
FR1056396A
Other languages
English (en)
Inventor
Ghislain Moncomble
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEVISTO SA
Original Assignee
NEVISTO SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEVISTO SA filed Critical NEVISTO SA
Priority to FR1056396A priority Critical patent/FR2963471A1/fr
Publication of FR2963471A1 publication Critical patent/FR2963471A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • G10H1/0025Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/46Volume control
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/038Cross-faders therefor
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • G11B27/30Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on the same track as the main recording
    • G11B27/3027Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on the same track as the main recording used signal is digitally coded
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/02Arrangements for generating broadcast information; Arrangements for generating broadcast-related information with a direct linking to broadcast information or to broadcast space-time; Arrangements for simultaneous generation of broadcast information and broadcast-related information
    • H04H60/04Studio equipment; Interconnection of studios
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/101Music Composition or musical creation; Tools or processes therefor
    • G10H2210/125Medley, i.e. linking parts of different musical pieces in one single piece, e.g. sound collage, DJ mix

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

La présente invention concerne un procédé automatique de production d'une bande son d'un format prédéterminé (TPR) par combinaison de composantes sonores (CSi) de format prédéterminé, caractérisé en ce qu'il comporte, en outre, une étape 3 d'ordonnancement des différentes composantes sonores (CSi) au cours de laquelle en fonction du format prédéterminé de la bande son (TPR), d'une part, les composantes sonores (CSi) sont positionnées temporellement les unes par rapport aux autres selon un axe temporel (TB) et, d'autre part, la durée totale de la bande son est divisée en portions temporelles (PTj), une étape 4 de définition de l'ajustement des niveaux sonores au cours de laquelle en fonction des résultats des étapes précédentes et du format de la bande son (TPR) sont définis des ajustements des niveaux sonores qui seront appliqués aux différentes composantes sonores (CSi) pendant les portions temporelles (PTj), une étape 5 de définition des traitements à appliquer à chaque composante sonore pour que le niveau sonore (CSi) de chacune de ces composantes sonores soit ajusté pendant chaque portion temporelle selon l'un des ajustements de niveau sonore ainsi définis, et une étape 6 de définition des traitements à appliquer entre portions temporelles consécutives selon le format de la bande son et ce pour produire des effets sonores pour enchaîner les composantes sonores de ces portions temporelles consécutives. Elle concerne également un dispositif pour mettre en œuvre ce procédé.

Description

La présente invention concerne un procédé et dispositif de production d'une bande son d'un format prédéterminé par combinaison de composantes sonores de format prédéterminé. Il existe de nombreux outils de montage de son tels que par exemple ceux qui permettent d'ordonner temporellement différentes composantes sonores entre elles et d'ajuster, d'une part, les niveaux sonores de ces composantes pour qu'elles n'interfèrent pas les unes avec les autres et, d'autre part, pour réaliser des effets sonores au niveau des enchaînements de ces différentes composantes. L'ordonnancement temporel des composantes sonores est réalisé manuellement en positionnant ces composantes sonores sur des axes temporels, souvent appelés pistes de montage, qui sont chacun positionnés par rapport à un axe temporel de référence représentant le déroulement temporel de la bande son à produire. Plusieurs pistes de montage sont généralement utilisées portant chacune au moins une composante sonore. Par exemple, une de ces pistes de montage peut porter un bruitage musical tel qu'un bruit de porte qui claque, de coup de feu, ou encore un cri, une autre une musique de fond, une autre une voix préenregistrée, etc... L'ajustement des niveaux sonores des différentes composantes sonores est réalisé par exécution de traitements numériques qui consistent par exemple à augmenter (diminuer) le niveau sonore d'une composante sonore particulière pendant une portion temporelle de la bande son pour mieux (moins) la faire `ressortir' par rapport aux autres composantes de la bande son. Un tel ajustement peut être utilisé, par exemple, pour diminuer le niveau sonore d'un fond musical lorsque celui-ci est juxtaposé à une voix d'une personne qui parle afin que ce fond musical n'interfère pas avec l'élocution de la personne. Il peut aussi être utilisé pour augmenter le niveau sonore d'un fond musical pour intensifier un suspense. Un traitement numérique peut également être appliqué à plusieurs composantes sonores se déroulant simultanément pendant une portion temporelle et ce pour homogénéiser leurs niveaux sonores. Ceci est d'autant plus utile lorsque ces composantes sonores sont des voix de fréquences vocales différentes qui ne sont pas perçues à un même niveau sonore. Le traitement consiste alors à augmenter/diminuer le niveau sonore de ces composantes selon leur fréquence vocale. Il est également connu des traitements numériques qui ajustent le niveau sonore de composantes sonores en équilibrant le niveau sonore des différentes portions temporelles d'une composante sur le niveau sonore le plus faible qui est relatif à l'une de ces portions temporelles. Il est enfin connu des traitements numériques qui permettent d'insérer des effets sonores entre deux portions temporelles consécutives de la bande son. Ces effets sonores assurent l'enchaînement continu des différentes composantes sonores de la bande son à produire. Les outils de montage de son actuels présentent une grande diversité pour ajuster des composantes sonores entre elles. Toutefois, ces outils demandent une intervention d'un utilisateur qui s'avère être longue et fastidieuse, même pour un expert qui doit, en particulier, positionner des marqueurs sur les différentes pistes de montage pour appliquer des traitements numériques à ces différentes composantes. Ce travail est réalisé empiriquement selon la bande son que l'utilisateur souhaite réaliser et il est répétitif lorsque cet utilisateur veut produire plusieurs bandes son aux scénarii identiques.
Le problème résolu par la présente invention consiste à définir un procédé automatique de production d'une bande son par combinaison de composantes sonores ou futures composantes sonores dans le cas d'un texte destiné à être traité par une synthèse vocale. A cet effet, un format de bande son et un format de chaque composante sonore 20 de cette bande son sont prédéterminés. Le format d'une composante sonore définit un moyen pour accéder à cette composante, par exemple une adresse de type URL qui pointe vers une page d'un site en ligne, ou une chaîne de caractère qui définit le chemin pour accéder à un fichier d'un répertoire d'une arborescence de fichiers, ou une voire plusieurs instructions 25 d'un programme d'accès à un document stocké dans une base de données. Une composante sonore peut également faire partie d'un document multimédia. Dans ce cas, le format d'une composante sonore comporte également des indications, dites d'identification, qui permettent d'une part d'identifier dans ce document chaque type de données nécessaires à la production de la bande son et, d'autre part, de définir 30 le type de chacune de ces données (texte, voix, bruitage, musique...). Enfin, le format d'une composante sonore comporte des indications, dites d'organisation, qui permettent de définir l'organisation les unes par rapport aux autres des données de ce document qui sont nécessaires à la production de la bande son.
En effet, le contenu d'un document peut se limiter à une simple donnée de type textuel, de type son ou de type vidéo par exemple. Cependant, un document est plus généralement un document composite qui allie plusieurs types de données telles que des images, des parties textuelles, des vidéos, des sons, des animations, des hyperliens pointant sur des données hébergées par des machines distantes, etc. Ces données sont alors organisées les unes par rapport aux autres, c'est-à-dire positionnées spatialement les unes par rapport aux autres et/ou indexées entre elles dans ce document. Les indications d'identification permettent alors de distinguer les données nécessaires à la production de la bande son des autres données de ce document et les indications d'organisation permettent de conserver le lien sémantique entre les données de ce document qui sont nécessaires à la production de la bande son. La bande son produite est généralement composée de plusieurs composantes sonores qui sont donc, de manière générale, de type différent. Par exemple, une composante sonore peut se présenter sous la forme d'un texte qui devra être vocalisé pour devenir une composante sonore lors de la production de la bande son. Une composante sonore peut aussi être un morceau de musique, un bruitage ou encore une voix préenregistrée. Un format de bande son, en plus de définir sous quel format la bande son sera éventuellement enregistrée, définit le type, la durée (ou indications qui permettent de la calculer) et le niveau sonore de chaque composante sonore, l'ordonnancement temporel de ces différents types de composantes sonores qui composent cette bande son ainsi que des types d'enchaînements entre ces types de composantes sonores. L'usage de format prédéterminé permet donc de définir un procédé et dispositif de production qui ne demandent pas d'intervention humaine pour positionner temporellement les différentes composantes sonores de la bande son à produire sur des pistes de montage ni pour ajuster les niveaux sonores de ces composantes sonores y compris lorsque des effets sonores sont utilisés pour enchaîner harmonieusement les différentes portions temporelles de la bande son. Selon la présente invention, le procédé comporte - une étape 1 de récupération du format prédéterminé de la bande son et du format prédéterminé de chaque composante sonore, - une étape 2 de récupération des composantes sonores en fonction de leurs formats, - une étape 3 d'ordonnancement des différentes composantes sonores au cours de laquelle en fonction du format prédéterminé de la bande son, d'une part, les composantes sonores sont positionnées temporellement les unes par rapport aux autres selon un axe temporel et, d'autre part, la durée totale de la bande son est divisée en portions temporelles, - une étape 4 de définition de l'ajustement des niveaux sonores au cours de laquelle en fonction des résultats des étapes précédentes et du format de la bande son sont définis des ajustements des niveaux sonores qui seront appliqués aux différentes composantes sonores pendant les portions temporelles, - une étape 5 de définition des traitements à appliquer à chaque composante sonore pour que le niveau sonore de chacune de ces composantes sonores soit ajusté pendant chaque portion temporelle selon l'un des ajustements de niveau sonore ainsi définis, - une étape 6 de définition des traitements à appliquer entre portions temporelles consécutives selon le format de la bande son et ce pour produire des effets sonores pour enchaîner les composantes sonores de ces portions temporelles consécutives, et - une étape 7 d'ajustement de la bande son au cours de laquelle les traitements ainsi définis aux étapes 5 et 6 sont appliqués aux différentes composantes sonores et à leurs enchaînements entre portions temporelles.
Ainsi, le procédé permet à partir d'un format de bande son de retrouver les composantes sonores d'un format prédéterminé à partir de un ou plusieurs documents, et de produire automatiquement cette bande son par combinaison de ces composantes sonores en respectant le modèle de combinaison défini par le format de bande son. L'un des avantages de la présente invention est que le contenu des documents n'est pas limité à des données de type son, morceau de musique ou encore bruitage, car ils peuvent également inclure des données de type textuel. Les portions temporelles peuvent être de durées très variables (très courtes pour un évènement tel qu'un coup de feu, plus longues pour une bande vocale), de même que les durées des effets sonores permettant d'enchaîner les portions temporelles.
De plus, les durées de chaque portion temporelle ne sont pas forcément explicitement prédéfinies. C'est le cas par exemple si le format de bande son utilise un message texte destiné à être synthétisé vocalement. Une évaluation de la durée de cette composante sonore est alors évaluée, d'une part, à partir de ce message texte et, d'autre part, en fonction d'informations du format de bande son tel que par exemple une vitesse d'élocution moyenne définie en caractères par seconde en fonction d'une des voix de synthèse prédéfinie. Le procédé peut être mis en oeuvre en tant qu'outil de montage son ou encore être intégré dans un outil de production de document audiovisuel.
En particulier, ce procédé peut être intégré avantageusement dans un outil de production de vidéos tel que celui décrit dans la demande de brevet français n°07/08119 publiée le 22 mai 2009. Cet outil fait intervenir une étape de production d'un document audiovisuel résultat à partir d'au moins un document d'origine dans laquelle le format du document résultat et celui des documents d'origine sont prédéterminés et associés en couple. Ce document résultat est composé de plusieurs séquences audiovisuelles. Le séquencement temporel du document résultat qui est alors déterminé en fonction du format du document résultat, consiste à ordonner temporellement, d'une part, les données extraites de chaque séquence et, d'autre part, les séquences entre elles. A cet effet, il est choisi une classe, dite principale, parmi les classes auxquelles les types de données d'une séquence appartiennent. Les autres classes sont dites secondaires. La classe principale d'une séquence est celle sur laquelle est calé le déroulement temporel de la séquence. Toutes les autres informations temporelles des classes secondaires de la séquence sont alors définies à partir de cette classe principale. Ainsi, le format de la bande son peut être intégré dans celui du document résultat tandis que les formats des composantes sonores peuvent être intégrés dans celui (ou ceux) du (des) document(s) d'origine. De plus, la durée de chaque composante sonore peut être déduite du séquencement temporel du document résultat et les différentes composantes sonores sont donc positionnées temporellement séquence par séquence sur les différentes pistes de montage du document audiovisuel résultat, selon les différentes classes principales. On peut noter que les portions temporelles ne correspondent pas aux séquences de la demande de brevet suscitées et plusieurs portions temporelles peuvent se succéder au sein d'une même séquence. Par exemple, si une séquence consiste en un texte à vocaliser suivi de l'affichage scénarisé de quelques photos sans bande vocale, une première portion temporelle peut correspondre à la voix issue de la synthèse vocale et une seconde portion temporelle peut correspondre au solde de la séquence sans bande vocale.
A l'inverse, une portion temporelle telle qu'un fond musical peut couvrir, au moins partiellement, plusieurs séquences. Selon son aspect matériel, la présente invention concerne un dispositif comportant des moyens pour mettre en oeuvre le procédé ci-dessus.
Elle concerne également un programme d'ordinateur stocké sur un support d'informations, ledit programme comportant des instructions permettant de mettre en oeuvre le procédé ci-dessus lorsqu'il est chargé et exécuté par le dispositif ci-dessus. Les caractéristiques de l'invention mentionnées ci-dessus, ainsi que d'autres, apparaîtront plus clairement à la lecture de la description suivante d'un exemple de réalisation, ladite description étant faite en relation avec les dessins joints, parmi lesquels: La Fig. 1 représente un synoptique des étapes du procédé selon la présente invention, et La Fig. 2 représente une illustration d'un mode de réalisation du procédé dans le cas d'une bande son produite à partir de deux composantes sonores. La présente invention concerne un procédé de production d'une bande son d'un format prédéterminé TPR par combinaison de composantes sonores CSi de format prédéterminé. Le procédé comporte une étape 1 de récupération du format TPR et du format 20 prédéterminé de chaque composante sonore. Le format TPR peut être récupéré à partir d'une mémoire via, éventuellement, un accès à un réseau de communication, et les formats des composantes sonores sont, par exemple récupérés après lecture d'informations dans le format TPO. En variante, le format TPR et celui de chaque composante sonore sont associés en mémoire. Le 25 format PTR peut être variable selon différents critères, en particulier dans le cas de nombreuses bandes sonores à produire. Par exemple, une musique de fond sonore à inclure dans la bande son peut être choisie en aléatoire parmi une liste de musiques prédéfinies. Il peut en être de même pour la voix de synthèse utilisée pour lire un texte (choisie aléatoirement parmi plusieurs). 30 En variante, ces choix ne sont pas aléatoires, mais définis en fonction des choix effectués lors des productions antérieures d'une production en série, afin par exemple que deux productions consécutives n'aient ni la même voix ni la même musique, ou au moins une variation parmi ces paramètres.
Le procédé comporte également une étape 2 de récupération des composantes sonores en fonction de leurs formats. Le procédé comporte une étape 3 d'ordonnancement des différentes composantes sonores CSi au cours de laquelle en fonction du format TPR, d'une part, les composantes sonores CSi sont positionnées temporellement les unes par rapport aux autres selon un axe temporel TB, habituellement appelé time base en anglais, et la durée totale de la bande son est divisée en portions temporelles PTj. Le procédé comporte également une étape 4 de définition de l'ajustement des niveaux sonores au cours de laquelle en fonction des résultats des étapes précédentes et du format TPR sont définis des ajustements des niveaux sonores qui seront appliqués aux différentes composantes sonores CSi pendant les portions temporelles PTj. Le procédé comporte également une étape 5 de définition des traitements à appliquer à chaque composante sonore pour que le niveau sonore CSi de chacune de ces composantes sonores soit ajusté pendant chaque portion temporelle PTj selon l'un des ajustements de niveau sonore ainsi définis. Le procédé comporte, de plus, une étape 6 de définition des traitements à appliquer entre portions temporelles consécutives selon le format de la bande son et ce pour produire des effets sonores pour enchaîner les composantes sonores de ces portions temporelles consécutives. Enfin, le procédé comporte une étape 7 d'ajustement de la bande son au cours de laquelle les traitements ainsi définis aux étapes 5 et 6 sont appliqués aux différentes composantes sonores et à leurs enchaînements entre portions temporelles. La bande son alors produite par combinaison des composantes sonores ainsi traitées est éventuellement enregistrée sur un support mémoire. Selon un mode de réalisation de l'étape 3, des marqueurs sont positionnés le long de l'axe temporel TB. Un marqueur peut être utilisé pour indiquer le début de l'application d'un (voire plusieurs) traitement(s) pour ajuster le niveau sonore d'une composante sonore pendant une portion temporelle (étapes 5 et 7) mais aussi pour indiquer le début de l'application d'un (voire plusieurs) traitement(s) pour produire un effet sonore lors de l'enchaînement des composante sonores (étapes 6 et 7). Le positionnement des marqueurs sur l'axe temporel TB est défini à partir du format TPR et ces marqueurs définissent une division de la durée totale de la bande son en portions temporelles PTj.
La Fig. 2 représente une illustration de ce mode de réalisation du procédé dans le cas où une bande son doit être produite par combinaison de deux composantes sonores, en l'occurrence une voix CS 1 issue de la synthèse vocale d'un message texte et une musique de fond CS2.
En haut de la Fig. 2, l'axe temporel TB est représenté comme portant sept marqueurs tO à t6. Au milieu de la Fig. 2, une piste de montage TS est représentée. Cette piste de montage est utilisée pour porter la voix synthétisée CS1. En bas de la Fig. 2 est représentée une piste de montage TBM qui est utilisée pour porter la musique de fond CS2.
Les marqueurs tO et t6 délimitent la durée totale de la bande son qui est ici égale à celle de la musique de fond CS2 et divisent cette durée en 4 portions temporelles PT1 à PT4. La portion temporelle PT1, délimitée par tO et tl, comporte uniquement la musique de fond CS2 qui est prévue pour être jouée à un niveau sonore spécifié par le 15 format TPR pendant cette portion temporelle. La portion temporelle PT2, délimitée par tl et t4, est une période de transition entre deux portions temporelles consécutives, ici PT1 et PT3, au cours de laquelle les niveaux sonores des composantes sonores CS1 et CS2 sont ajustés selon le format TPR comme on le verra par la suite. 20 La portion temporelle PT3, délimitée par t4 et t5, comporte la musique de fond CS2 et la voix CS2 qui sont prévues pour être jouées à leurs niveaux sonores ajustés. Enfin, la portion temporelle PT4, délimitée par t5 et t6, comporte uniquement la musique de fond CS2 dont le niveau sonore subit à nouveau un ajustement pendant cette portion temporelle pour revenir à un niveau sonore défini par le format TPR dès 25 t6. Selon un mode de réalisation de l'étape 3, une période de transition entre deux portions temporelles consécutives, ici PT2, est divisée en trois périodes appelées période d'ajustement antérieure PT21, période d'accoutumance PT22 et période d'ajustement postérieure PT23 (Fig. 2). 30 Au cours de la période d'ajustement antérieure PT21, un traitement est appliqué aux composantes sonores de la portion temporelle PT1, qui est antérieure à la période de transition PT2. Par exemple, un fondu à la baisse (- 5 décibels par exemple) est appliqué à la composante CS2 pendant la période PT21 de manière à ce qu'à t2 la composante CS2 soit à un niveau sonore défini par le format TPR pour ne pas interférer avec la voix CS1 une fois que celle-ci débutera (à t4). Au cours de la période d'ajustement postérieure PT23, un traitement est appliqué aux composantes sonores de la portion temporelle PT3, qui est postérieure à la période de transition PT2. Par exemple, lors de cette période d'ajustement PT23, une voix est synthétisée et le niveau sonore de la voix de synthèse, ici CS2, est corrigé selon, par exemple, des paramètres du moteur de synthèse utilisé. La période d'accoutumance PT22 est aménagée entre les périodes d'ajustement antérieure PT21 et postérieure PT23 et la durée de la période d'accoutumance est définie pour permettre à un auditeur de s'accoutumer à l'ajustement des niveaux sonores des composantes sonores qui a eu lieu pendant la période d'ajustement antérieure PT21. La durée de la période d'accoutumance PT22 est relativement brève (de 0,5 à 2 secondes en général).
Selon un mode de réalisation, la durée de la période d'accoutumance PT22 est définie en fonction du niveau sonore appliqué à une composante sonore pendant la portion temporelle postérieure à la période de transition, ici PT3, et en fonction du niveau sonore appliqué à une composante sonore pendant la portion temporelle antérieure à la période de transition, ici PT1.
Selon un mode de réalisation, la durée de la période d'accoutumance PT22 est déterminée en fonction d'abaques qui déterminent le temps d'adaptation moyen nécessaire que ce soit en fonction de la fréquence d'une voix ou de la fréquence et du rythme d'un morceau de musique. On peut noter que les informations de ces abaques doivent être définies par plage de temps dans le cas d'un morceau de musique, chaque plage de temps d'un morceau de musique donné étant définie et caractérisée par ses valeurs de rythme et fréquence du fait que ces valeurs varient au cours du temps. En variante, un analyseur est utilisé pour déterminer les paramètres d'un morceau de musique joué pendant la portion temporelle antérieure à la période 30 d'accoutumance PT22. De plus, la fréquence de voix synthétisée est soit donnée par des abaques qui présentent la fréquence de chaque voix de synthèse disponible ou possible, soit transmise en tant que paramètre d'un moteur de synthèse.
Par ailleurs, dans le cas où une voix de synthèse fluctue en fonction de paramètres de contrôles associés au texte à vocaliser (modification du débit de la synthèse, de la fréquence, ...) , la durée de la période d'accoutumance PT22 est déterminée sur la voix corrigée par ces paramètres pour la portion temporelle considérée, et plus exactement sur les bornes de cette portion temporelle (par exemple paramètres relatifs au début du texte à vocaliser, pour déterminer le temps de latence nécessaire juste avant le début de la voix de synthèse). Dans le cas de voix humaines (par exemple un enregistrement en direct ou une bande vocale contenant un enregistrement de voix humaines, la durée de la période 10 d'accoutumance PT22 est maximisée (par exemple fixée à 2 secondes). En variante, un analyseur vocal est utilisé pour déterminer les paramètres d'une voix, et de disposer ainsi des informations permettant d'ajuster la durée de la période d'accoutumance PT22. Selon un mode de réalisation, la durée de la période d'accoutumance PT22 est 15 définie en fonction du niveau sonore concomitant appliqué à des composantes sonores pendant différentes portions temporelles. Selon un mode de réalisation, la durée de la période d'ajustement antérieure PT21 et/ou postérieure PT23 est proportionnelle à la différence entre les niveaux sonores de cette composante au début et à la fin de cette période d'ajustement. Plus 20 l'ajustement de niveau est important et plus la durée de la période sera longue, sans toutefois excéder une valeur limite imposée par exemple à 3 secondes. Selon un mode de réalisation de l'étape 4, l'ajustement du niveau sonore d'une composante sonore, ici CS2, est défini en fonction du niveau sonore appliqué à une composante sonore, ici CS1, pendant une portion temporelle postérieure, ici PT3, à la 25 période de transition, ici PT2. Ainsi, selon l'exemple de la Fig. 2, le niveau sonore de la composante CS2 est ajusté, pendant la période d'ajustement antérieure PT21, de manière à ce qu'à t2 cette composante sonore ne nuise pas à la bonne compréhension de la voix (jouée pendant la portion temporelle PT3). 30 Le niveau sonore ajusté est alors soit similaire à celui qui est prévu d'être appliqué à d'autres composantes sonores pendant la portion temporelle postérieure, c'est-à-dire en l'occurrence au niveau sonore appliqué à la composante CS1 (ajustement dit de base), soit inférieur si au moins une composante sonore pendant la portion temporelle postérieure, ici la composante CS1, le nécessite (ajustement dit additionnel). Dans le cas où l'une des composantes sonores de la portion temporelle postérieure, ici PT3, est une voix, respectivement un morceau de musique, l'ajustement additionnel de niveau sonore est fonction de la fréquence de cette voix, respectivement de la fréquence et du rythme du morceau de musique, et cet ajustement additionnel est défini, selon un mode de réalisation, par un abaque donnant pour chaque fréquence de voix, respectivement pour la fréquence et le rythme d'un morceau de musique ou d'une partie de ce morceau, le niveau d'ajustement nécessaire, la plage d'ajustement du niveau sonore variant alors de quelques dixièmes à 3 ou 4 décibels en général. Cet abaque est préalablement réalisé empiriquement suite à des résultats obtenus sur plusieurs auditeurs. Selon un mode de réalisation, une liste de référence des usages prévus de la bande son est utilisée pour établir les différents ajustements de niveau sonore.
Une référence, dite étalon, qui est par exemple relative à un usage de messages commerciaux, est donnée par un ajustement de base. Les autres références sont chacune dédiées à un usage autre que celui de la référence étalon et font chacune référence à un ajustement de niveau qui est un multiple de l'ajustement de base. Par exemple, si l'ajustement de base définit, pour une portion temporelle donnée, une baisse de 10 décibels pendant la portion temporelle PT2, une autre référence, par exemple dédiée à un usage musical pour lequel la voix CS 1 aurait moins d'importance, appliquerait un coefficient multiplicateur de 0,7, pour limiter la baisse à 7 décibels. En variante, la même liste de référence, ou une liste de référence dédiée peut être appliquée aux ajustements additionnels.
En alternative aux listes de référence, les différents ajustements de niveau sonore sont définis à partir d'abaques. Ces abaques sont définis par rapport au format TPR et au format des différentes composantes sonores qui, combinées, forment la bande son. Selon un mode de réalisation, le niveau sonore d'une composante sonore est 30 augmenté dès le début de la portion temporelle pendant laquelle cette composante sonore est prévue d'être jouée et ce pendant une durée prédéterminée. Ce mode de réalisation est avantageux lorsque cette composante sonore est une voix issue de la synthèse vocale d'un message textuel car il permet d'améliorer la perception par un auditeur du début de ce message vocal. En effet, le début d'un message vocal est souvent mal perçu lorsqu'il est précédé d'une composante sonore au niveau élevé, tel qu'un morceau de musique de fond. L'augmentation du niveau sonore de cette composante reste dans les limites de l'effet de saturation et se limite, en général, de quelques dixièmes à 2 décibels 5 maximum. Selon l'exemple de la Fig. 2, le niveau de la composante CS2 est augmenté pendant la période d'ajustement postérieure PT23. Selon une variante de ce mode de réalisation, au cours d'une période d'ajustement postérieure, ici PT23, l'augmentation du niveau sonore est effective dès 10 le début de cette période d'ajustement, ici t3, puis le niveau sonore subit un fondu à la baisse pour revenir à la fin de cette période (à t4) au niveau sonore qui doit être appliqué pendant la portion temporelle au cours de laquelle cette composante sonore doit être jouée, ici PT3. Selon un mode de réalisation, la durée de la période d'ajustement postérieure et 15 le niveau d'augmentation sont fonction du format TPR. Selon son aspect matériel, la présente invention concerne un dispositif comportant des moyens pour mettre en oeuvre l'un des procédés ci-dessus. Ces moyens se présentent, selon un mode de réalisation sous la forme d'un ordinateur comportant des mémoires, processeurs et interfaces graphiques.
20 Elle concerne également un programme d'ordinateur stocké sur un support d'informations, ledit programme comportant des instructions permettant de mettre en oeuvre le procédé ci-dessus lorsqu'il est chargé et exécuté par un tel dispositif.

Claims (14)

  1. REVENDICATIONS1) Procédé de production d'une bande son d'un format prédéterminé (TPR) par combinaison de composantes sonores (CSi) de format prédéterminé, caractérisé en ce qu'il comporte - une étape 1 de récupération du format prédéterminé de la bande son et du 5 format prédéterminé de chaque composante sonore, - une étape 2 de récupération des composantes sonores en fonction de leurs formats, - une étape 3 d'ordonnancement des différentes composantes sonores (CSi) au cours de laquelle en fonction du format prédéterminé de la bande son (TPR), d'une 10 part, les composantes sonores (CSi) sont positionnées temporellement les unes par rapport aux autres selon un axe temporel (TB) et, d'autre part, la durée totale de la bande son est divisée en portions temporelles (PTj), - une étape 4 de définition de l'ajustement des niveaux sonores au cours de laquelle en fonction des résultats des étapes précédentes et du format de la bande son 15 (TPR) sont définis des ajustements des niveaux sonores qui seront appliqués aux différentes composantes sonores (CSi) pendant les portions temporelles (PTj), - une étape 5 de définition des traitements à appliquer à chaque composante sonore pour que le niveau sonore (CSi) de chacune de ces composantes sonores soit ajusté pendant chaque portion temporelle selon l'un des ajustements de niveau sonore 20 ainsi définis, - une étape 6 de définition des traitements à appliquer entre portions temporelles consécutives selon le format de la bande son et ce pour produire des effets sonores pour enchaîner les composantes sonores de ces portions temporelles consécutives, et - une étape 7 d'ajustement de la bande son au cours de laquelle les traitements 25 ainsi définis aux étapes 5 et 6 sont appliqués aux différentes composantes sonores (CSi) et à leurs enchaînements entre portions temporelles (PTj).
  2. 2) Procédé selon la revendication 1, dans lequel au cours de l'étape 3, des marqueurs sont positionnés le long de l'axe temporel (TB), pour indiquer le début de 30 l'application d'un traitement pour ajuster le niveau sonore d'une composante sonore pendant une portion temporelle mais aussi pour indiquer le début de l'application d'untraitement pour produire un effet sonore lors de l'enchaînement des composantes sonores.
  3. 3) Procédé selon la revendication 2, dans lequel au cours de l'étape 3, une période de transition entre deux portions temporelles consécutives (PT2) est divisée en trois périodes appelées période d'ajustement antérieure (PT21), période d'accoutumance (PT22) et période d'ajustement postérieure (PT23), au cours de la période d'ajustement antérieure (PT21), un traitement est appliqué aux composantes sonores de la portion temporelle (PT1), qui est antérieure à la période de transition (PT2), au cours de la période d'ajustement postérieure (PT23), un traitement est appliqué aux composantes sonores de la portion temporelle (PT3), qui est postérieure à la période de transition (PT2), la période d'accoutumance (PT22) est aménagée entre les périodes d'ajustement antérieure (PT21) et postérieure (PT23) et la durée de la période d'accoutumance est définie pour permettre à un auditeur de s'accoutumer à l'ajustement des niveaux sonores des composantes sonores qui a eu lieu pendant la période d'ajustement antérieure (PT21).
  4. 4) Procédé selon la revendication 3, dans lequel la durée de la période d'accoutumance (PT22) est définie en fonction du niveau sonore appliqué à une composante sonore pendant la portion temporelle postérieure à la période de transition (PT3) et en fonction du niveau sonore appliqué à une composante sonore pendant la portion temporelle antérieure à la période de transition (PT1).
  5. 5) Procédé selon la revendication 4, dans lequel la durée de la période d'accoutumance (PT22) est déterminée en fonction d'abaques qui déterminent le temps d'adaptation moyen nécessaire que ce soit en fonction de la fréquence d'une voix ou de la fréquence et du rythme d'un morceau de musique.
  6. 6) Procédé selon l'une des revendications 3 à 5, dans lequel la durée de la 30 période d'accoutumance (PT22) est définie en fonction du niveau sonore concomitant appliqué à des composantes sonores pendant différentes portions temporelles.
  7. 7) Procédé selon l'une des revendications 3 à 6, dans lequel la durée de la période d'ajustement antérieure (PT21) et/ou postérieure (PT23) est proportionnelle àla différence entre les niveaux sonores de cette composante au début et à la fin de cette période d'ajustement.
  8. 8) Procédé selon l'une des revendications 3 à 7, dans lequel au cours de l'étape 4, l'ajustement du niveau sonore d'une composante sonore (CS2) est défini en fonction du niveau sonore appliqué à une composante sonore (CS1) pendant une portion temporelle postérieure (PT3) à la période de transition (PT2).
  9. 9) Procédé selon l'une des revendications précédentes, dans lequel une liste de 10 référence des usages prévus de la bande son est utilisée pour établir les différents ajustements de niveau sonore.
  10. 10) Procédé selon l'une des revendications précédentes, dans lequel le niveau sonore d'une composante sonore est augmenté dès le début de la portion temporelle 15 pendant laquelle cette composante sonore est prévue d'être jouée et ce pendant une durée prédéterminée.
  11. 11) Procédé selon l'une des revendications 3 à 10, dans lequel au cours de la période d'ajustement postérieure (PT23), l'augmentation d'un niveau sonore est 20 effective dès le début de cette période d'ajustement (t3) puis le niveau sonore subit un fondu à la baisse pour revenir à la fin de cette période (à t4) au niveau sonore qui doit être appliqué pendant la portion temporelle au cours de laquelle cette composante sonore doit être jouée (PT3). 25
  12. 12) Procédé selon la revendication 11, dans lequel la durée de la période d'ajustement postérieure et le niveau d'augmentation sont fonction du format de bande son (TPR). 30
  13. 13) Disposition de production d'une bande son d'un format prédéterminé (TPR) par combinaison de composantes sonores (CSi) de format prédéterminé (TPO), caractérisé en ce qu'il comporte des moyens pour mettre en oeuvre un procédé conforme à l'une des revendications 1 à 12.
  14. 14) Programme d'ordinateur stocké sur un support d'informations, ledit programme comportant des instructions permettant de mettre en oeuvre le procédé selon l'une des revendications 1 à 12, lorsqu'il est chargé et exécuté par un dispositif de production confonüe à la revendication 13.
FR1056396A 2010-08-02 2010-08-02 Procede et dispositif automatique de production d'une bande son par combinaison de composantes sonores Withdrawn FR2963471A1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR1056396A FR2963471A1 (fr) 2010-08-02 2010-08-02 Procede et dispositif automatique de production d'une bande son par combinaison de composantes sonores

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR1056396A FR2963471A1 (fr) 2010-08-02 2010-08-02 Procede et dispositif automatique de production d'une bande son par combinaison de composantes sonores

Publications (1)

Publication Number Publication Date
FR2963471A1 true FR2963471A1 (fr) 2012-02-03

Family

ID=43562256

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1056396A Withdrawn FR2963471A1 (fr) 2010-08-02 2010-08-02 Procede et dispositif automatique de production d'une bande son par combinaison de composantes sonores

Country Status (1)

Country Link
FR (1) FR2963471A1 (fr)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3038595A1 (de) * 1980-10-13 1982-05-06 Alan Vydra Studios Filmproduktion GmbH, 2000 Hamburg Verfahren zum bearbeiten von filmen und videoaufzeichnungen
EP0911829A1 (fr) * 1997-04-12 1999-04-28 Sony Corporation Systeme d'edition et procede d'edition
EP1959427A1 (fr) * 2005-12-09 2008-08-20 Sony Corporation Dispositif d'edition musicale, procede de creation d' informations d'edition musicale, et support d'enregistrement d' informations d'edition musicale
US20080314232A1 (en) * 2007-06-25 2008-12-25 Sony Ericsson Mobile Communications Ab System and method for automatically beat mixing a plurality of songs using an electronic equipment
FR2923927A1 (fr) * 2007-11-20 2009-05-22 Nevisto Sa Procede et dispositif de production d'un document audiovisuel d'un format predetermine a partir d'un document d'origine d'un format predetermine.
US7825322B1 (en) * 2007-08-17 2010-11-02 Adobe Systems Incorporated Method and apparatus for audio mixing

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3038595A1 (de) * 1980-10-13 1982-05-06 Alan Vydra Studios Filmproduktion GmbH, 2000 Hamburg Verfahren zum bearbeiten von filmen und videoaufzeichnungen
EP0911829A1 (fr) * 1997-04-12 1999-04-28 Sony Corporation Systeme d'edition et procede d'edition
EP1959427A1 (fr) * 2005-12-09 2008-08-20 Sony Corporation Dispositif d'edition musicale, procede de creation d' informations d'edition musicale, et support d'enregistrement d' informations d'edition musicale
US20080314232A1 (en) * 2007-06-25 2008-12-25 Sony Ericsson Mobile Communications Ab System and method for automatically beat mixing a plurality of songs using an electronic equipment
US7825322B1 (en) * 2007-08-17 2010-11-02 Adobe Systems Incorporated Method and apparatus for audio mixing
FR2923927A1 (fr) * 2007-11-20 2009-05-22 Nevisto Sa Procede et dispositif de production d'un document audiovisuel d'un format predetermine a partir d'un document d'origine d'un format predetermine.

Similar Documents

Publication Publication Date Title
US8818175B2 (en) Generation of composited video programming
US11595612B2 (en) Creating and disseminating of user generated content over a network
US8406608B2 (en) Generation of composited video programming
US10728354B2 (en) Slice-and-stitch approach to editing media (video or audio) for multimedia online presentations
US20150071619A1 (en) Method for editing multiple video files and matching them to audio files
CN111083138B (zh) 短视频制作系统、方法、电子设备及可读存储介质
JP2012505492A (ja) オーディオ及びビデオメディアの自動化されたカスタム化のためのシステム及び方法
FR2959037A1 (fr) Procede de creation d'une sequence media par groupes coherents de fichiers medias
JP2000350159A (ja) 視覚画像編集システム
WO2015120333A1 (fr) Procédé et système permettant de produire une transition entre des clips vidéo combinés avec une piste son
JP2004048735A (ja) ビデオ合成を表示するための方法およびグラフィカルユーザインターフェース
WO2014100893A1 (fr) Système et procédé pour personnalisation automatisée d'un média audio et vidéo
FR3049418A1 (fr) Procede et dispositif de controle du reglage d'au moins un parametre audio et/ou video, terminal et programme d'ordinateur correspondants
FR2963471A1 (fr) Procede et dispositif automatique de production d'une bande son par combinaison de composantes sonores
FR3039349A1 (fr) Procede de synchronisation d'un flux d'images avec des evenements audio
EP3941076B1 (fr) Procédé, système et programme de diffusion de signaux audio/vidéo avec un ajustement automatique de latence
EP1772851A1 (fr) Système de karaoké pour l'affichage du texte correspondant à la partie vocale d'un flux audiovisuel sur un écran d'un système audiovisuel
JP2009118117A (ja) スライドショー作成システム及びスライドショー作成方法並びにスライドショー作成プログラム
FR3044852A1 (fr) Procede de gestion de contenus video pour leur edition
JP3814168B2 (ja) ビデオ編集ソフトウェア及び編集方法
CN109963087A (zh) 一种多端互动视频处理方法、装置及系统
Jorgensen Making Podcasts
EP4320870A1 (fr) Capture, production et systèmes de diffusion vidéo
Hirai Frame Wise Video Editing based on Audio-Visual Continuity
JP5941867B2 (ja) 画像再生システム

Legal Events

Date Code Title Description
ST Notification of lapse

Effective date: 20150430