EP3113180B1

EP3113180B1 - Procédé et appareil permettant d'effectuer des retouches audio sur un signal vocal

Info

Publication number: EP3113180B1
Application number: EP15306085.0A
Authority: EP
Inventors: Pierre Prablanc; Quang Khanh Ngoc DUONG; Alexey Ozerov; Patrick Perez
Original assignee: InterDigital CE Patent Holdings SAS
Current assignee: InterDigital CE Patent Holdings SAS
Priority date: 2015-07-02
Filing date: 2015-07-02
Publication date: 2020-01-22
Anticipated expiration: 2035-07-02
Also published as: EP3113180A1; PL3113180T3

Claims

Procédé (50) comprenant :
- une obtention (51) des caractéristiques vocales d'un signal vocal ;

- une détection (52) d'une partie manquante dans le signal vocal ;

- une synthèse automatique (53), à partir d'une transcription, de parole au moins pour la partie manquante dans le signal vocal ;

- une conversion en voix (54) de la parole synthétisée selon les caractéristiques vocales obtenues du signal vocal ; et

- une retouche (55) du signal vocal, où la parole synthétisée convertie en voix est insérée dans la partie manquante.
Procédé selon la revendication 1, comprenant une génération automatique (56) de ladite transcription à partir du signal vocal.
Procédé selon la revendication 1 ou 2, comprenant un traitement (57) du signal vocal, dans lequel la partie manquante survient pendant le traitement et dans lequel la transcription est générée avant le traitement.
Procédé selon l'une quelconque des revendications 1 à 3, dans lequel la synthèse automatique (53), à partir d'une transcription, de la parole au moins pour la partie manquante comprend une extraction à partir d'une base de données de données vocales enregistrées par une voix humaine.
Procédé selon l'une quelconque des revendications 1 à 4, comprenant les étapes consistant à :
- détecter (581) que la transcription ne couvre pas la partie manquante ;

- déterminer (582) un ou plusieurs mots ou sons omis dans la partie manquante ; et

- ajouter (583) le mot ou le son déterminé à la transcription avant la synthèse de la parole à partir de la transcription.
Procédé selon la revendication 5, dans lequel la détermination (582) est effectuée en estimant ou en devinant le ou les mots ou sons.
Procédé selon la revendication 5, dans lequel la détermination (582) s'effectue en extrayant une transcription complète de la parole via d'autres canaux.
Procédé selon l'une quelconque des revendications 1 à 7, dans lequel les caractéristiques vocales comprennent des paramètres pour une enveloppe spectrale et une fréquence fondamentale.
Procédé selon l'une des revendications 1 à 8, comprenant une adaptation de paramètres pour une trajectoire d'enveloppe spectrale, une fréquence fondamentale et une phase temporelle au niveau d'une ou des deux limites de la partie manquante afin d'établir une correspondance avec les paramètres correspondants du signal vocal adjacent disponible avant et/ou après la partie manquante.
Procédé selon l'une des revendications 1 à 9, comprenant une mise à l'échelle temporelle du signal vocal converti en voix avant son insertion dans la partie manquante.
Appareil (60) comprenant :
- un analyseur vocal (61) pour détecter une partie manquante dans un signal vocal ;

- un synthétiseur vocal (62) pour synthétiser automatiquement, à partir d'une transcription, une parole au moins pour une partie manquante dans le signal vocal ;

- un moyen pour obtenir les caractéristiques vocales du signal vocal :

- un convertisseur vocal (63) pour convertir la parole synthétisée selon les caractéristiques vocales obtenues du signal vocal ; et

- un mélangeur (64) pour retoucher le signal vocal, où la parole synthétisée convertie en voix est insérée dans la partie manquante du signal vocal.
Appareil selon la revendication 11, dans lequel ledit moyen d'obtention comprend un analyseur vocal (65) pour obtenir les caractéristiques vocales du signal vocal.
Appareil selon la revendication 11 ou 12, comprenant un convertisseur voix-texte (66) pour générer automatiquement une transcription du signal vocal.
Appareil selon l'une des revendications 11 à 13, comprenant une base de données contenant des données vocales d'exemples de phonèmes ou de mots de voix humaine, dans lequel le synthétiseur vocal (62) extrait des données vocales de la base de données pour synthétiser automatiquement la parole au moins pour la partie manquante.
Appareil selon l'une des revendications 11 à 14, comprenant une interface (67) pour recevoir une transcription complète du signal vocal, la transcription couvrant au moins le texte omis par la partie manquante.