FR3037707A1 - METHOD AND DEVICE FOR PRODUCING A SOUND FILE - Google Patents
METHOD AND DEVICE FOR PRODUCING A SOUND FILE Download PDFInfo
- Publication number
- FR3037707A1 FR3037707A1 FR1555699A FR1555699A FR3037707A1 FR 3037707 A1 FR3037707 A1 FR 3037707A1 FR 1555699 A FR1555699 A FR 1555699A FR 1555699 A FR1555699 A FR 1555699A FR 3037707 A1 FR3037707 A1 FR 3037707A1
- Authority
- FR
- France
- Prior art keywords
- file
- musical
- power
- sound
- producing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 25
- 238000004519 manufacturing process Methods 0.000 claims abstract description 10
- 238000003860 storage Methods 0.000 claims description 9
- 230000001755 vocal effect Effects 0.000 claims description 6
- 238000009877 rendering Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000003936 working memory Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- KJLLKLRVCJAFRY-UHFFFAOYSA-N mebutizide Chemical compound ClC1=C(S(N)(=O)=O)C=C2S(=O)(=O)NC(C(C)C(C)CC)NC2=C1 KJLLKLRVCJAFRY-UHFFFAOYSA-N 0.000 description 1
- 239000000155 melt Substances 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
- G11B27/038—Cross-faders therefor
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/102—Programmed access in sequence to addressed parts of tracks of operating record carriers
- G11B27/105—Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/53—Centralised arrangements for recording incoming messages, i.e. mailbox systems
- H04M3/5307—Centralised arrangements for recording incoming messages, i.e. mailbox systems for recording messages comprising any combination of audio and non-audio components
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/53—Centralised arrangements for recording incoming messages, i.e. mailbox systems
- H04M3/533—Voice mail systems
- H04M3/53366—Message disposing or creating aspects
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
L'invention se rapporte à un procédé de production, par un dispositif de traitement, d'un fichier sonore caractérisé en ce qu'il comporte les étapes suivantes : - acquisition d'un premier fichier musical, - acquisition d'un deuxième fichier vocal, - acquisition d'un fichier de placements - production, par duplication, d'un troisième et d'un quatrième fichier musical à partir du premier fichier musical, - mixage des deuxième, troisième et quatrième fichiers : - le troisième et le quatrième fichier commencent simultanément - le deuxième fichier commence selon un paramètre de placement lu dans le fichier de placements - à une première date égale au paramètre de placement moins une valeur prédéterminée on applique un fondu à la fermeture pour couper progressivement la puissance du troisième fichier durant un intervalle de fondu allant de la première date à la valeur du paramètre de placement, - à la fin du deuxième fichier on applique un fondu à l'ouverture pour restaurer progressivement la puissance du troisième fichier depuis la fin du deuxième fichier et sur une durée sensiblement égale à celle du fondu en ouverture.The invention relates to a method for producing, by a processing device, a sound file characterized in that it comprises the following steps: - acquisition of a first musical file, - acquisition of a second voice file , - acquisition of a file of placements - production, by duplication, of a third and a fourth musical file starting from the first musical file, - mixing of the second, third and fourth files: - the third and the fourth file start simultaneously - the second file starts according to a placement parameter read in the investment file - at a first date equal to the placement parameter minus a predetermined value a fade is applied at closure to gradually cut the power of the third file during an interval from the first date to the value of the placement parameter, - at the end of the second file a fade is applied to the opening to gradually restore the power of the third file since the end of the second file and for a period substantially equal to that of the fade in opening.
Description
1 Procédé et dispositif de production d'un fichier sonore DOMAINE TECHNIQUE DE L'INVENTION [0001] L'invention se rapporte à un procédé de production d'un fichier sonore.FIELD OF THE INVENTION [0001] The invention relates to a method for producing a sound file.
L'invention se rapporte également à un dispositif de production d'un fichier sonore. [0002] Plus particulièrement l'invention se rapporte à la production de fichier sonore mélangeant un fichier musical avec un fichier vocal. Encore plus particulièrement l'invention se rapporte à la production d'un message destiné à être utilisé par des serveurs vocaux de type répondeur ou interactif. Un tel message est aussi apte à être utilisé par un IPBX, un PABX, un CENTREX et les réseaux de télécommunications en général. [0003] De tels serveurs vocaux incluent au moins les répondeurs et messages d'accueil, ainsi que les dispositifs de diffusion de messages d'ambiance ou d'annonce dans les lieux publics. Cette énumération n'est pas limitative. Les fonctions de ces dispositifs sont en général : le pré-décroché, l'attente musicale, répondeur, les boîtes vocales, menu interactif (aussi appelé serveur vocal interactif),... l'énumération n'est pas limitative. D'une manière générale les messages produits sont destinés à être remixé musicalement de façon automatique, instantanée et à volonté.The invention also relates to a device for producing a sound file. More particularly the invention relates to the production of sound file mixing a musical file with a voice file. Even more particularly, the invention relates to the production of a message intended to be used by answering or interactive voice servers. Such a message is also suitable for use by an IPBX, a PABX, a CENTREX and telecommunications networks in general. [0003] Such voice servers include at least answering machines and greeting messages, as well as devices for broadcasting ambience messages or announcements in public places. This list is not exhaustive. The functions of these devices are in general: the pre-hook, the music waiting, answering machine, the mailboxes, interactive menu (also called interactive voice server), ... the enumeration is not limiting. In general, the messages produced are intended to be remixed musically automatically, instantaneously and at will.
ETAT DE LA TECHNIQUE ANTERIEURE [0004] Dans un souci de professionnalisme il est souhaitable de pouvoir présenter des messages vocaux mixés avec une musique, par exemple des messages vocaux d'absence ou d'attente, qui aient le meilleur rendu possible, c'est-à-dire des messages qui soient parfaitement audible à l'oreille, notamment lors d'une écoute téléphonique où les gammes de fréquence sont restreintes, de 300Hz à 3400Hz en analogique par exemple. [0005] Un tel message est un message dans lequel on distingue clairement la voix qui énonce le message sans avoir à se concentrer, au-delà de la concentration requise par une conversation téléphonique courante, à cette fin. [0006] II faut aussi que le message global soit agréable à entendre et laisse une bonne impression, d'où l'accompagnement musical de ce type de message. 3037707 2 [0007] Une solution pour réaliser un tel message est de recourir aux services d'un studio d'enregistrement. Il faut alors mobiliser différentes compétences, acteur, monteur, ingénieurs du son... C'est une première étape, incontournable si on souhaite le meilleur rendu possible. 5 [0008] II est donc illusoire de vouloir changer un fond sonore d'un message acquis, par le recours aux services dudit studio d'enregistrement : les coûts deviennent tout simplement trop importants. [0009] Une autre solution, par exemple pour changer le fond sonore d'un message, est d'utiliser les capacités stéréophoniques des formats des fichiers 10 sonores. Une piste, par exemple la droite, comporte une musique, l'autre piste, ici la gauche, comporte le message vocal. Les dispositifs de restitution étant monophoniques, ils restituent les deux pistes en une seule mélangeant les deux. [0010] L'inconvénient de cette solution est que : - Soit la voix est trop faible et donc le message inaudible même avec une 15 concentration accrue, - Soit la voix est trop forte ce qui peut provoquer des saturations, - Soit la musique est trop faible et donc inaudible ce qui induit une impression générale négative.STATE OF THE PRIOR ART [0004] In the interests of professionalism, it is desirable to be able to present voice messages mixed with a music, for example voicemail messages of absence or waiting, which have the best possible results; that is to say, messages that are perfectly audible to the ear, especially during a wiretapping where the frequency ranges are restricted, from 300Hz to 3400Hz analog for example. Such a message is a message in which one clearly distinguishes the voice that states the message without having to focus, beyond the concentration required by a current telephone conversation, for this purpose. It is also necessary that the overall message is pleasant to hear and leaves a good impression, hence the musical accompaniment of this type of message. One solution for carrying out such a message is to use the services of a recording studio. It is then necessary to mobilize different skills, actor, editor, engineers of the sound ... It is a first step, essential if one wishes the best possible rendering. [0008] It is therefore illusory to want to change a background of an acquired message by using the services of said recording studio: the costs simply become too important. Another solution, for example to change the sound of a message, is to use the stereophonic capacities of 10 sound file formats. A track, for example the right, has a music, the other track, here the left, includes the voice message. The rendering devices are monophonic, they restore the two tracks in one mixing the two. The disadvantage of this solution is that: - either the voice is too weak and therefore the inaudible message even with increased concentration, - either the voice is too loud which can cause saturation, - or the music is too weak and therefore inaudible which induces a general negative impression.
20 EXPOSE DE L'INVENTION [0011] L'invention vise à remédier à tout ou partie des inconvénients de l'état de la technique identifiés ci-dessus, et notamment à proposer des moyens pour permettre de produire un fichier sonore dans lequel un message vocal se mêle harmonieusement à un fond musical tout en permettant une audition claire du 25 message vocal. [0012] Dans ce dessein, un aspect de l'invention se rapporte à un procédé de production, par un dispositif de traitement, d'un fichier sonore caractérisé en ce qu'il comporte les étapes suivantes : - acquisition d'un premier fichier musical, 30 - acquisition d'un deuxième fichier vocal, - acquisition d'un fichier de placements - production d'un troisième fichier musical et d'un quatrième fichier musical à partir du premier fichier musical, la puissance du troisième 3037707 3 fichier musical et la puissance du quatrième fichier musical correspondant à des fractions de la puissance du premier fichier musical - mixage des deuxième fichier, troisième fichier et quatrième fichier : 5 - le troisième fichier et le quatrième fichier commencent simultanément - le deuxième fichier commence selon un paramètre de placement lu dans le fichier de placements - à une première date égale au paramètre de placement moins 10 une valeur prédéterminée on applique un fondu à la fermeture pour couper progressivement la puissance du troisième fichier durant un intervalle de fondu allant de la première date à la valeur du paramètre de placement, - à la fin du deuxième fichier on applique un fondu à 15 l'ouverture pour restaurer progressivement la puissance du troisième fichier depuis la fin du deuxième fichier et sur une durée sensiblement égale à celle du fondu en ouverture. [0013] Outre les caractéristiques principales qui viennent d'être mentionnées dans le paragraphe précédent, le procédé selon l'invention peut présenter une ou 20 plusieurs caractéristiques complémentaires parmi les suivantes, considérées individuellement ou selon les combinaisons techniquement possibles: - le fichier de placements comporte au moins une date de départ du fichier vocal relativement à une date de départ du fichier sonore produit, cette date est aussi appelée paramètre de placement dans la mesure 25 ou elle contribue à placer un fichier dans le fichier final; - les dates et paramètres ont une précision au centième de seconde ; - les dates et paramètres ont une précision au millième de seconde ; - la puissance du troisième fichier musical correspond à 40 à 50 pour cent de la puissance du premier fichier musical ; 30 - la puissance du troisième fichier musical correspond à 50 à 60 pour cent de la puissance du premier fichier musical ; - l'intervalle de fondu est sensiblement égal à une demi-seconde ; - l'intervalle de fondu est sensiblement égal à une seconde. 3037707 4 [0014] L'invention se rapporte également à un dispositif de stockage numérique comportant un fichier correspondant à des codes instructions de mise en oeuvre d'un procédé selon l'une combinaison possible des caractéristiques précédentes. 5 [0015] L'invention se rapporte également à un dispositif de mise en oeuvre d'un procédé selon une combinaison possible des caractéristiques précédentes BREVE DESCRIPTION DES FIGURES [0016] D'autres caractéristiques et avantages de l'invention ressortiront à la 10 lecture de la description qui suit, en référence aux figures annexées, qui illustrent : - la figure 1, une illustration d'un dispositif de mise en oeuvre du procédé selon l'invention ; - la figure 2, une illustration de la répartition des puissances des différents fichiers dans le fichier sonore final ; 15 - la figure 3, une illustration d'étapes du procédé selon l'invention. [0017] Pour plus de clarté, les éléments identiques ou similaires sont repérés par des signes de référence identiques sur l'ensemble des figures. [0018] L'invention sera mieux comprise à la lecture de la description qui suit et à l'examen des figures qui l'accompagnent. Celles-ci sont présentées à titre 20 indicatif et nullement limitatives de l'invention. DESCRIPTION DETAILLEE D'UN MODE DE REALISATION [0019] La figure 1 montre un dispositif 100 de traitement. Le dispositif de traitement comporte : 25 - un microprocesseur 110 ; - des moyens de stockage 120, par exemple un disque dur qu'il soit local ou distant, qu'il soit simple ou en grille (par exemple RAID) ; - une interface 130 de communication, par exemple une carte de communication selon le protocole Ethernet. D'autres protocoles sont 30 envisageables comme « Fibre Channel » ou InfiniBand. [0020] Le microprocesseur 110 du dispositif de stockage, les moyens 120 de stockage du dispositif de traitement et l'interface 130 de communication du dispositif de traitement sont interconnectés par un bus 150. 3037707 5 [0021] Lorsque l'on prête une action à un dispositif celle-ci est en fait effectuée par un microprocesseur du dispositif commandé par des codes instructions enregistrés dans une mémoire du dispositif. Si l'on prête une action à une application, celle-ci est en fait effectuée par un microprocesseur du dispositif dans 5 une mémoire duquel les codes instructions correspondant à l'application sont enregistrés. Lorsqu'un dispositif, ou une application émet un message, ce message est émis via une interface de communication dudit dispositif ou de la dite application. [0022] La figure 1 montre que les moyens 120 de stockage du dispositif 100 10 de traitement comportent : - une zone 120.1 de mixage comportant des codes instructions correspondant à une mise en oeuvre du procédé selon l'invention ; - une zone 120.2 correspondant à un premier fichier musical ; - une zone 120.3 correspondant à un deuxième fichier vocal ; 15 - une zone 120.4 correspondant à un fichier de paramètres de placements, aussi appelé fichier de placements. [0023] On ne représente ici que des zones directement utiles pour l'invention. On omet aussi volontairement de décrire une mémoire de travail sa présence étant une évidence. On note ici que tout ou partie des fichiers parmi le premier 20 fichier musical, le deuxième fichier vocal et le fichier de placements peuvent n'être présents qu'en mémoire de travail. [0024] La figure 3 montre une étape 301 d'acquisition d'un premier fichier musical. Dans cette demande on entend par acquisition le fait de préciser à un programme mettant en oeuvre le procédé selon l'invention comment il peut 25 accéder audit fichier. On parle aussi de désigner audit programme ledit fichier. Il s'agit donc de passer des paramètres à un programme. [0025] Pour cette description, sauf stipulation contraire, les étapes de procédé décrite sont mise en oeuvre par le dispositif 100 de traitement. [0026] Des modes de désignation classique sont, par exemple : 30 - un fichier de configuration, ici cela peut être le fichier de placements ; - un paramètre en ligne de commande. [0027] Dans un exemple le premier fichier musical est enregistré sur les moyens de stockage du dispositif de traitement. La désignation du fichier se fait 3037707 6 par la précision d'un chemin d'accès sur les moyens de stockages. Un tel chemin a, par exemple la syntaxe suivante : [protocole://][chemin]/[nom du fichier] [0028] Dans cette syntaxe générale, protocole peut prendre les valeurs parmi 5 au moins la liste formée de : file, http, https, ftp, smb... Cette liste n'est pas exhaustive. On aura reconnu ici une version simplifiée d'un Localisateur Universel de Ressource ou URL. Cela permet surtout d'illustrer que la mise en oeuvre de l'invention n'est pas limitée par la localisation des fichiers, ni par le mode d'accès aux fichiers. 10 [0029] La figure 3 montre une étape 302 d'acquisition d'un deuxième fichier vocal. L'étape 302 d'acquisition du deuxième fichier est identique à l'étape 301 d'acquisition du premier fichier. [0030] Les premier et deuxième fichiers diffèrent par leurs destinations. Dans cette description le premier fichier est destiné à être un fond sonore, le deuxième 15 fichier est destiné à être le message. Pour ces raisons, on qualifie le premier fichier de musical car la plupart du temps il contiendra une musique. Ici par musical on entend toute forme de musique, y compris des musiques comportant des paroles, donc des données vocales, chantées ou non. Pour ces raisons encore, on qualifie le deuxième fichier de vocal car le deuxième fichier est destiné 20 à contenir un message vocal et uniquement un message vocal, c'est-à-dire à ne pas contenir de musique. Un tel fichier est un enregistrement d'un comédien, un enregistrement d'une voix personnelle, ou un fichier issu d'un logiciel de texte vers voix (aussi connu sous le nom de Text To Speech) [0031] La figure 3 montre une étape 303 d'acquisition d'un fichier de 25 placements. Cette étape est identique aux autres étapes d'acquisition. [0032] Un fichier de placements est un fichier structuré qui comporte des informations relatives au placement du fichier vocal dans le fichier sonore final. Un tel placement s'exprime, par une date relative au début du fichier sonore final. Une telle date relative s'exprime, dans une variante préférée avec une précision à la 30 milliseconde. Dans une autre variante la précision peut être le centième de seconde mais alors le rendu final sera de moins bonne qualité. [0033] Dans cette description, lorsque l'on parle d'une précision pour un paramètre cela signifie que non seulement le paramètre est exprimé avec cette 3037707 7 précision, mais également qu'il est exploité avec cette précision, c'est-à-dire que, pour un paramètre à la milliseconde, la synchronisation se fait à plus ou moins une milliseconde. A contrario une synchronisation à la seconde se fait à plus ou moins une seconde. C'est-à-dire qu'avec une synchronisation à la seconde le 5 troisième fichier musical et le quatrième fichier musical pourraient être en décalage de deux secondes. [0034] Un fichier de placements comporte donc, par exemple, au moins une ligne ayant la structure suivante : [désignation du deuxième fichier][séparateur][date relative] 10 [0035] La [date relative] permet de placer le [deuxième fichier] dans le fichier à produire. [0036] Dans cette structure le séparateur est classiquement un ;, une tabulation ou un autre caractère. On comprendra que la structuration peut également se faire par l'utilisation d'un format hiérarchique comme par exemple 15 XML ou JSON. [0037] En ajoutant un niveau de structuration il est également possible de définir un type. On a alors un fichier de placements comme suit : [typel];[désignation du premier fichier] [type2];[désignation du deuxième fichier];[date relative] 20 [type2];[désignation d'un second deuxième fichier];[date relative] [0038] Dans cet exemple, typel est un code qui permet de désigner la ligne, ou d'une manière plus général l'enregistrement, comme étant la désignation d'un premier fichier musical. Dans cet exemple, type2 est un code qui permet de 25 désigner la ligne, ou d'une manière plus général l'enregistrement, comme étant la désignation d'un deuxième fichier vocal. Cette structuration n'est pas limitée à deux valeurs de codes, on peut l'étendre au besoin, par exemple avec un code pour désigner le nom du fichier sonore à produire, et/ou un code pour désigner la durée d'un fondu. On parle aussi d'un intervalle de fondu pour désigner cette 30 durée. [0039] Dans cet exemple on a deux lignes dont le code vaut type 2. Cela illustre le fait qu'avec l'invention il est possible de traiter plusieurs fichiers vocaux pour les intégrer dans un fichier sonore final. 3037707 8 [0040] La figure 3 montre une étape 310 dans laquelle on produit un troisième fichier 210 musical et un quatrième fichier 220 musical. Le troisième fichier musical et le quatrième fichier musical sont des atténuations du premier fichier musical. C'est-à-dire que le troisième fichier musical correspond à x% de la 5 puissance du premier fichier musical et le quatrième fichier musical correspond à y% de la puissance du premier fichier musical. X et y désigne des fractions, ou parties, du premier fichier musical. On a en général x + y = 100. Cependant cette règle est à adapter en fonction de l'atténuation initiale du premier fichier musical. En effet si ce premier fichier musical est atténué, il faut en augmenter le 10 puissance, et cela est faisable en ayant x + y supérieur à 100. On applique le même raisonnement s'il faut atténuer la puissance du premier fichier musical, à savoir que l'on peut avoir x + y < 100. En d'autres termes le mixage simple des troisième et quatrième fichiers permettrait d'obtenir une copie du premier fichier musical avec une puissance d'écoute convenable. Dans une variante préférée, 15 les troisième et quatrième fichiers sont présents uniquement en mémoire de travail. Le procédé selon l'invention est également valable si on enregistre ces fichiers sur les moyens de stockage du dispositif de traitement. [0041] Le troisième fichier musical et le quatrième fichier musical sont des copies du premier fichier musical à une atténuation près. 20 [0042] Dans cette description on entend par puissance, la puissance sonore aussi appelée volume. [0043] Dans une variante préférée x vaut 40 donc y 60. Dans une autre variante x vaut 60 donc y vaut 40. x peut ainsi varier de 40 à 60 avec un rendu final satisfaisant. 25 [0044] Un principe de l'invention, qui est de diviser le premier fichier musical en deux fichiers musicaux, reste valable quelques soient les valeurs de x et y. On ne fait ici que décrire les valeurs les plus à même de produire un résultat ayant le meilleur rendu possible. [0045] La figure 3 montre une étape 320 de mixage produisant un fichier 30 sonore final. Dans l'étape 320 de mixage on effectue les opérations suivantes : - lancement 321 simultané des troisième et quatrième fichiers ; - a une date dO, issue du fichier de placement, création (322) d'un fondu en fermeture sur le troisième fichier musical et sur une durée de fondu 3037707 9 pf, la puissance du troisième fichier musical passe donc de x à O. La date dO est égale à une date lue dans le fichier de placements moins la durée du fondu. La date lue est la date relative à laquelle doit commencer le message vocal ; 5 - à une date dO + pf, lancement (323) du premier deuxième fichier vocal ; - à la fin du deuxième fichier vocal, création d'un fondu en ouverture sur le troisième fichier musical et sur une période pf, la puissance du troisième fichier musical passe donc de 0 à x. [0046] La simultanéité est à la précision des paramètres et dates près. Par 10 exemple, dans une variante dans laquelle on donne des paramètres à la milliseconde, la synchronisation se fera à la milliseconde. [0047] La valeur de la durée de fondu est prédéterminée ou obtenue via un paramétrage. Un tel paramétrage se fait par un commutateur de ligne de commande ou par le fichier de placements. Dans une variante préférée, la durée 15 du fondu est sensiblement égale à une demi-seconde. [0048] Dans la présente demande on entend par sensiblement plus ou moins dix pour cent. [0049] Dans une autre variante de l'invention la durée du fondu est sensiblement égale à une seconde. Dans d'autres variantes la durée du fondu est 20 comprise entre une demi-seconde et deux secondes. [0050] Le mixage se termine à une date relative prédéterminée. Cette date est relative par rapport à la date de lancement des troisième et quatrième fichiers. Il s'agit de la durée du message sonore à produire. Dans la pratique cette durée est supérieure à la durée du deuxième message vocal et inférieure ou égale à la 25 durée du premier fichier musical. Cette durée est prédéterminée, c'est-à-dire déterminée avant le lancement du procédé décrit. Dans la pratique cette durée est soit obtenue par un paramètre de ligne de commande, soit par le fichier de placements, soit par une valeur par défaut. [0051] A la fin de l'étape de mixage le résultat du mixage est un fichier sonore 30 comportant un fond sonore musical s'atténuant progressivement avant la diffusion du message vocal et persistant à un volume atténué durant la diffusion du message. La puissance du fond sonore est à nouveau augmentée progressivement à la fin du message vocal. 3037707 10 [0052] Avec le procédé décrit il est possible d'automatiser la production d'un fichier sonore. Le fichier sonore ainsi produit est apte à être utilisé sur des serveurs vocaux, et plus généralement par tout type de dispositif de diffusion de messages. Il est en effet simple de modifier la désignation du premier fichier 5 musical pour obtenir un nouveau message sonore avec un fond musical correspondant. Les étapes du procédé selon l'invention peuvent donc être exécutées de manière automatique par une application comme par exemple un site web. Un utilisateur d'un tel site web peut alors lui-même adapter un message vocal en changeant le fond sonore et obtenir un résultat professionnel, c'est-à-dire 10 le meilleur rendu possible. [0053] Avec le procédé décrit il est également possible de produire un fichier sonore comportant plusieurs messages vocaux. Il suffit de spécifier autant de deuxième fichier vocal qu'il le faut avec leurs dates de départ relatives correspondantes. 15 [0054] Avec le procédé décrit il est aussi possible de prévoir une répétition du message vocal, c'est-à-dire de mixer plusieurs fois le deuxième fichier vocal. On note que dans la pratique, un serveur vocal est déjà pourvu d'une option de répétition d'un message sonore. 20SUMMARY OF THE INVENTION [0011] The invention aims to remedy all or some of the disadvantages of the state of the art identified above, and in particular to propose means for producing a sound file in which a message vocal harmonizes harmoniously with a musical background while allowing a clear hearing of the voice message. In this purpose, one aspect of the invention relates to a production method, by a processing device, of a sound file characterized in that it comprises the following steps: - acquisition of a first file musical, 30 - acquisition of a second vocal file, - acquisition of a file of placements - production of a third musical file and a fourth musical file from the first musical file, the power of the third 3037707 3 musical file and the power of the fourth musical file corresponding to fractions of the power of the first music file - mixing the second file, third file and fourth file: 5 - the third file and the fourth file begin simultaneously - the second file starts according to a parameter of placement read in the investment file - at a first date equal to the placement parameter minus 10 a predetermined value a fade is applied to the f closes to gradually cut the power of the third file during a fade interval from the first date to the value of the setting parameter, - at the end of the second file fade is applied to the opening to gradually restore the power of the third file. file since the end of the second file and for a period substantially equal to that of the fade in opening. In addition to the main features which have just been mentioned in the preceding paragraph, the method according to the invention may have one or more additional characteristics among the following, considered individually or according to the technically possible combinations: - the file of placements has at least one departure date of the voice file relative to a departure date of the sound file product, this date is also called placement parameter in the measure 25 or it contributes to place a file in the final file; - the dates and parameters have a precision to the hundredth of a second; the dates and parameters have a precision to the thousandth of a second; the power of the third musical file corresponds to 40 to 50 percent of the power of the first musical file; The power of the third musical file corresponds to 50 to 60 percent of the power of the first musical file; the fade interval is substantially equal to half a second; the fade interval is substantially equal to one second. The invention also relates to a digital storage device comprising a file corresponding to instruction codes for implementing a method according to a possible combination of the preceding characteristics. The invention also relates to a device for implementing a method according to a possible combination of the preceding features. BRIEF DESCRIPTION OF THE FIGURES [0016] Other characteristics and advantages of the invention will become apparent on reading of the description which follows, with reference to the appended figures, which illustrate: - Figure 1, an illustration of a device for implementing the method according to the invention; - Figure 2, an illustration of the distribution of power of the various files in the final sound file; FIG. 3 is an illustration of steps of the method according to the invention. For clarity, identical or similar elements are identified by identical reference signs throughout the figures. The invention will be better understood on reading the description which follows and the examination of the figures that accompany it. These are presented as indicative and in no way limitative of the invention. DETAILED DESCRIPTION OF AN EMBODIMENT [0019] FIG. 1 shows a processing device 100. The processing device comprises: a microprocessor 110; storage means 120, for example a hard disk, whether local or remote, whether simple or in a grid (for example RAID); a communication interface 130, for example a communication card according to the Ethernet protocol. Other protocols are conceivable such as Fiber Channel or InfiniBand. The microprocessor 110 of the storage device, the storage means 120 of the processing device and the communication interface 130 of the processing device are interconnected by a bus 150. When one lends an action to a device it is in fact carried out by a microprocessor of the device controlled by instruction codes stored in a memory of the device. If an action is taken on an application, it is actually performed by a microprocessor of the device in a memory of which the instruction codes corresponding to the application are recorded. When a device, or an application sends a message, this message is sent via a communication interface of said device or of said application. FIG. 1 shows that the storage means 120 for the processing device 100 comprise: a mixing zone 120.1 comprising instruction codes corresponding to an implementation of the method according to the invention; a zone 120.2 corresponding to a first musical file; a zone 120.3 corresponding to a second voice file; 15 - an area 120.4 corresponding to an investment parameter file, also called investment file. Here we represent only areas directly useful for the invention. One also deliberately fails to describe a working memory, its presence being obvious. It should be noted here that all or part of the files among the first musical file, the second vocal file and the placement file may only be present in working memory. Figure 3 shows a step 301 of acquiring a first musical file. In this application acquisition means the fact of specifying to a program implementing the method according to the invention how it can access said file. There is also talk of designating said program. It is therefore a question of passing parameters to a program. For this description, unless otherwise stated, the process steps described are implemented by the processing device 100. [0026] Typical designation modes are, for example: - a configuration file, here it may be the placement file; - a command line parameter. In one example, the first musical file is recorded on the storage means of the processing device. The designation of the file is 3037707 6 by the precision of a path on the storage means. Such a path has, for example the following syntax: [protocol: //] [path] / [filename] [0028] In this general syntax, protocol can take the values among at least 5 the list consisting of: file, http, https, ftp, smb ... This list is not exhaustive. We have recognized here a simplified version of a Universal Resource Locator or URL. This allows especially to illustrate that the implementation of the invention is not limited by the location of the files, nor by the file access mode. Figure 3 shows a step 302 of acquiring a second voice file. The step 302 of acquisition of the second file is identical to step 301 of acquisition of the first file. The first and second files differ by their destinations. In this description the first file is intended to be a background sound, the second file is intended to be the message. For these reasons, we qualify the first music file because most of the time it will contain music. Here by musical means any form of music, including music with lyrics, so vocal data, sung or not. For these reasons again, the second voice file is qualified because the second file is intended to contain a voice message and only a voice message, that is to say, not to contain music. Such a file is a comedian's recording, a recording of a personal voice, or a text-to-speech file (also known as Text To Speech). [0031] FIG. step 303 of acquiring a file of 25 placements. This step is identical to the other acquisition steps. An investment file is a structured file that includes information relating to the placement of the voice file in the final sound file. Such an investment is expressed by a date relative to the beginning of the final sound file. Such a relative date is expressed in a preferred variant with an accuracy of 30 milliseconds. In another variant the accuracy may be the hundredth of a second but then the final rendering will be of less good quality. In this description, when we speak of a precision for a parameter it means that not only is the parameter expressed with this precision, but also that it is operated with this precision, that is to say that is, for a millisecond parameter, the synchronization is more or less one millisecond. On the other hand, synchronization with the second is more or less a second. That is, with one second synchronization the third music file and the fourth music file could be two seconds off. An investment file therefore comprises, for example, at least one line having the following structure: [designation of the second file] [separator] [relative date] 10 [0035] The [relative date] makes it possible to place the [second file] in the file to be produced. In this structure the separator is conventionally a; a tabulation or other character. It will be understood that the structuring can also be done by using a hierarchical format such as for example XML or JSON. By adding a structuring level it is also possible to define a type. We then have a file of placements as follows: [typel]; [designation of the first file] [type2]; [designation of the second file]; [relative date] 20 [type2]; [designation of a second second file]; [relative date] [0038] In this example, typel is a code that makes it possible to designate the line, or, more generally, the recording, as being the designation of a first musical file. In this example, type2 is a code that makes it possible to designate the line, or, more generally, the record, as the designation of a second voice file. This structuring is not limited to two code values, it can be extended if necessary, for example with a code to designate the name of the sound file to produce, and / or a code to designate the duration of a fade. We also speak of a fade interval to designate this duration. In this example we have two lines whose code is type 2. This illustrates the fact that with the invention it is possible to process several voice files for integration into a final sound file. Figure 3 shows a step 310 in which a third musical file 210 and a fourth musical file 220 are produced. The third music file and the fourth music file are attenuations of the first music file. That is, the third music file corresponds to x% of the power of the first music file and the fourth music file corresponds to y% of the power of the first music file. X and y designate fractions, or parts, of the first musical file. In general, we have x + y = 100. However, this rule has to be adapted according to the initial attenuation of the first musical file. Indeed, if this first musical file is attenuated, the power must be increased, and this is feasible by having x + y greater than 100. The same reasoning is applied if it is necessary to attenuate the power of the first musical file, namely that we can have x + y <100. In other words, the simple mixing of the third and fourth files would make it possible to obtain a copy of the first musical file with a suitable listening power. In a preferred embodiment, the third and fourth files are present only in working memory. The method according to the invention is also valid if these files are recorded on the storage means of the processing device. The third musical file and the fourth musical file are copies of the first musical file attenuation. In this description, power is understood to mean the sound power also called volume. In a preferred variant x is 40 and 60. In another variant x is 60 so y is 40. x can thus vary from 40 to 60 with a satisfactory final result. A principle of the invention, which is to divide the first musical file into two musical files, remains valid regardless of the values of x and y. We only describe here the values most likely to produce a result with the best possible results. [0045] FIG. 3 shows a mixing step 320 producing a final sound file. In step 320 of mixing, the following operations are performed: simultaneous launching of the third and fourth files; - has a date of O, from the file of placement, creation (322) of a fade in closing on the third musical file and on a duration of fade 3037707 9 pf, the power of the third musical file thus passes from x to O. The date d0 is equal to a date read from the investment file minus the duration of the fade. The date read is the relative date on which the voice message should begin; 5 - at a date of 0 + pf, launching (323) the first second voice file; at the end of the second vocal file, creating an opening fade on the third musical file and over a period pf, the power of the third musical file thus passes from 0 to x. Simultaneity is the accuracy of the parameters and dates. For example, in a variant in which parameters are given to the millisecond, the synchronization will be at the millisecond. The value of the fade duration is predetermined or obtained via a parameterization. Such setting is done by a command line switch or by the placement file. In a preferred variant, the duration of the melt is substantially equal to half a second. In this application is meant by substantially plus or minus ten percent. In another variant of the invention the duration of the fade is substantially equal to one second. In other variations, the duration of the fade is between one-half second and two seconds. The mix ends at a predetermined relative date. This date is relative to the launch date of the third and fourth files. This is the duration of the sound message to produce. In practice, this duration is greater than the duration of the second voice message and less than or equal to the duration of the first musical file. This duration is predetermined, that is to say determined before launching the described method. In practice this duration is either obtained by a command line parameter, or by the file of placements, or by a default value. At the end of the mixing step, the result of the mixing is a sound file 30 having a musical background gradually attenuating before the broadcast of the voice message and persistent to an attenuated volume during the broadcast of the message. The power of the background sound is increased again gradually at the end of the voice message. With the described method it is possible to automate the production of a sound file. The sound file thus produced is suitable for use on voice servers, and more generally by any type of message broadcasting device. It is indeed simple to change the designation of the first musical file 5 to obtain a new sound message with a corresponding musical background. The steps of the method according to the invention can therefore be executed automatically by an application such as for example a website. A user of such a website can himself adapt a voice message by changing the background and obtain a professional result, that is to say the best rendering possible. With the method described it is also possible to produce a sound file with several voice messages. Just specify as many second voice files as you need with their corresponding relative start dates. With the method described it is also possible to provide a repetition of the voice message, that is to say, to mix the second voice file several times. Note that in practice, a voice server is already provided with a repeat option of a sound message. 20
Claims (10)
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1555699A FR3037707B1 (en) | 2015-06-22 | 2015-06-22 | METHOD AND DEVICE FOR PRODUCING A SOUND FILE |
PCT/EP2016/064242 WO2016207128A1 (en) | 2015-06-22 | 2016-06-21 | Method and device for producing an audio file |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1555699A FR3037707B1 (en) | 2015-06-22 | 2015-06-22 | METHOD AND DEVICE FOR PRODUCING A SOUND FILE |
Publications (2)
Publication Number | Publication Date |
---|---|
FR3037707A1 true FR3037707A1 (en) | 2016-12-23 |
FR3037707B1 FR3037707B1 (en) | 2017-06-23 |
Family
ID=53776865
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR1555699A Active FR3037707B1 (en) | 2015-06-22 | 2015-06-22 | METHOD AND DEVICE FOR PRODUCING A SOUND FILE |
Country Status (2)
Country | Link |
---|---|
FR (1) | FR3037707B1 (en) |
WO (1) | WO2016207128A1 (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030120726A1 (en) * | 2001-11-15 | 2003-06-26 | Edward Archibald | Method and apparatus for a mixed-media messaging delivery system |
US20090171487A1 (en) * | 2008-01-02 | 2009-07-02 | International Business Machines Corporation | Method and system for synchronizing playing of an ordered list of auditory content on multiple playback devices |
-
2015
- 2015-06-22 FR FR1555699A patent/FR3037707B1/en active Active
-
2016
- 2016-06-21 WO PCT/EP2016/064242 patent/WO2016207128A1/en active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030120726A1 (en) * | 2001-11-15 | 2003-06-26 | Edward Archibald | Method and apparatus for a mixed-media messaging delivery system |
US20090171487A1 (en) * | 2008-01-02 | 2009-07-02 | International Business Machines Corporation | Method and system for synchronizing playing of an ordered list of auditory content on multiple playback devices |
Non-Patent Citations (1)
Title |
---|
JEFF AYARS ET AL: "Synchronized Multimedia Integration Language (SMIL 2.0), W3C Proposed Edited Recommendation - THE SMIL 2.0 TIMING AND SYNCHRONIZATION MODULE - THE SMIL 2.0 TIME MANIPULATIONS MODULE", INTERNET CITATION, 5 November 2004 (2004-11-05), pages 1 - 15,1, XP002509689, Retrieved from the Internet <URL:http://www.w3.org/TR/2004/PER-smil20-20040706/> [retrieved on 20090107] * |
Also Published As
Publication number | Publication date |
---|---|
WO2016207128A1 (en) | 2016-12-29 |
FR3037707B1 (en) | 2017-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0829145B1 (en) | Data broadcasting system using the human ear properties | |
CA3060748A1 (en) | Automated transcript generation from multi-channel audio | |
EP2042001B1 (en) | Binaural spatialization of compression-encoded sound data | |
EP2571286A1 (en) | Method for reinforcing the bass frequencies in a digital audio signal | |
CA2706046A1 (en) | Method for determining the on-hold status in a call | |
US20120166188A1 (en) | Selective noise filtering on voice communications | |
FR2905488A1 (en) | User terminal e.g. Internet protocol radio, for accessing e.g. advertisement, has communication unit for communicating with service platforms, emitting requests towards platform and receiving request with format from platform | |
EP1938556B1 (en) | Streaming distribution of multimedia digital documents via a telecommunication network | |
FR3051092A1 (en) | METHOD AND DEVICE FOR SYNCHRONIZING SUBTITLES | |
EP1886535A1 (en) | Method of producing a plurality of time signals | |
CA2616484A1 (en) | Sound broadcasting system | |
FR3037707A1 (en) | METHOD AND DEVICE FOR PRODUCING A SOUND FILE | |
FR3013885A1 (en) | METHOD AND SYSTEM FOR SEPARATING SPECIFIC CONTRIBUTIONS AND SOUND BACKGROUND IN ACOUSTIC MIXING SIGNAL | |
CN104157287A (en) | Audio processing method and device | |
FR3001325A3 (en) | ENCODER AND AUDIO DECODER WITH SOUND INTENSITY PROCESS METADATA | |
US20220130409A1 (en) | Systems and methods for multi-party media management | |
EP1811759A1 (en) | Conference call recording system with user defined tagging | |
EP2362392B1 (en) | Method for browsing audio content | |
CN104599689A (en) | Recording permission setting method | |
FR3075443A1 (en) | PROCESSING A MONOPHONIC SIGNAL IN A 3D AUDIO DECODER RESTITUTING A BINAURAL CONTENT | |
KR102065994B1 (en) | The method of matching an audio contents with the other audio contents using sound triggers | |
WO2024052372A1 (en) | Intelligent voice synthesis | |
JP2013228459A (en) | Sound listening device, and method and program for the same | |
FR2928766A1 (en) | METHOD FOR MANAGING AUDIONUMERIC FLOWS | |
US10348880B2 (en) | System and method for generating audio data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PLFP | Fee payment |
Year of fee payment: 2 |
|
PLSC | Publication of the preliminary search report |
Effective date: 20161223 |
|
PLFP | Fee payment |
Year of fee payment: 3 |
|
PLFP | Fee payment |
Year of fee payment: 4 |
|
PLFP | Fee payment |
Year of fee payment: 6 |
|
PLFP | Fee payment |
Year of fee payment: 7 |
|
PLFP | Fee payment |
Year of fee payment: 8 |
|
PLFP | Fee payment |
Year of fee payment: 9 |
|
PLFP | Fee payment |
Year of fee payment: 10 |