HK1155552B

HK1155552B - Audio encoder and decoder for encoding and decoding audio samples

Info

Publication number: HK1155552B
Application number: HK11109877.6A
Authority: HK
Inventors: Jeremie Lecomte; Philippe Gournay; Stefan Bayer; Markus Multrus; Bruno Bessette; Bernhard Grill
Original assignee: Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V.
Priority date: 2008-07-11
Filing date: 2009-06-26
Publication date: 2016-08-12

Claims

Codeur audio (100) pour coder des échantillons audio, comprenant:
un premier codeur d'introduction de repliement dans le domaine temporel (110) destiné à coder, à l'aide du codage AAC, des échantillons audio dans un premier domaine de codage, le premier codeur d'introduction de repliement dans le domaine temporel (110) présentant une première règle de division en trames, une fenêtre de départ et une fenêtre d'arrêt et comprenant un transformateur dans le domaine fréquentiel destiné à transformer une première trame d'échantillons audio successifs au domaine fréquentiel sur base d'une transformation cosinusoïdale discrète modifiée, MDCT, le premier codeur d'introduction de repliement dans le domaine temporel (110) étant configuré pour adapter une grandeur de MDCT aux fenêtres départ et d'arrêt;

un deuxième codeur (120) destiné à coder, à l'aide du codage AMR-WB+, des échantillons dans un deuxième domaine de codage, le deuxième codeur (120) présentant un nombre de grandeurs de trame prédéterminé d'échantillons audio, et un nombre de périodes d'échauffement de codage d'échantillons audio, le deuxième codeur (120) présentant une deuxième règle de division en trames différente, une trame du deuxième codeur (120) étant une représentation codée d'un nombre d'échantillons audio successifs dans le temps, le nombre étant égal au nombre de grandeurs de trame prédéterminé d'échantillons audio; et

un contrôleur (130) destiné à commuter du premier codeur (110) au deuxième codeur (120) en réponse à une caractéristique des échantillons audio et à modifier, lors de la commutation du premier codeur (110) au deuxième codeur (120), la fenêtre de départ du premier codeur (110) dans la mesure où
la fenêtre de départ est d'une longueur de 2048 échantillons et est utilisée dans une MDCT de 1024 points,

la fenêtre de départ commence immédiatement par une partie de bord montant présentant un premier axe de pliage de MDCT en son centre qui s'étend sur un premier et un deuxième quart de la fenêtre de départ vers un centre de la fenêtre de départ,

une partie de dérivation s'étend du centre à une partie de bord descendant,

la partie de bord descendant créant un segment de transition avec une fenêtre sinusoïdale est d'une longueur de 64 échantillons et s'étend vers un deuxième axe de pliage de MDCT entre un troisième et un quatrième quart de la fenêtre de départ, et

une partie zéro s'étend à travers le deuxième axe de pliage de MDCT vers une extrémité de la fenêtre de départ, et

dans lequel la partie gauche des échantillons audio dans le deuxième domaine de codage est divisée en fenêtres avec une fenêtre sinusoïdale de fondu enchaîné d'une longueur de 64 échantillons,

ou à commuter du deuxième codeur (120) au premier codeur (110) en réponse à une caractéristique différente des échantillons audio, et à modifier, lors de la commutation du deuxième codeur (120) au premier codeur (110), la fenêtre d'arrêt du premier codeur (110) dans la mesure où
la fenêtre d'arrêt est d'une longueur de 2304 échantillons et est utilisée dans une MDCT de 1152 points,

une partie zéro de la fenêtre d'arrêt s'étend à travers un premier quart de la fenêtre d'arrêt,

une partie de bord montant de la fenêtre d'arrêt, qui est une fenêtre sinusoïdale d'une longueur de 64 échantillons, commence dans un deuxième quart de la fenêtre d'arrêt de sorte qu'un fondu enchaîné commence juste au-delà d'un premier axe de pliage de MDCT positionné entre la partie zéro et la partie de bord montant,

une partie de dérivation de la fenêtre d'arrêt s'étend de la partie de bord montant vers le centre de la fenêtre d'arrêt, et

une partie de bord descendant de la fenêtre d'arrêt s'étend du centre de la fenêtre d'arrêt en passant par un deuxième axe de pliage de MDCT entre un troisième et un quatrième quart de la fenêtre d'arrêt vers une extrémité de la fenêtre d'arrêt,

dans lequel la deuxième règle de division en trames reste non modifiée.
Codeur audio (100) selon la revendication 1, dans lequel le premier codeur de repliement dans le domaine temporel (110) comprend un codeur AAC selon Codage Générique d'Images Animées et Audio Associé: Codage Audio Avancé, Norme Internationale 13818-7, ISO/IEC JTC1/SC29/WG11 Groupe d'Experts en Images Animées, 1997.
Procédé de codage de trames audio, comprenant les étapes consistant à:
coder, par un premier codeur d'introduction de repliement dans le domaine temporel (110), à l'aide du codage AAC, des échantillons audio dans un premier domaine de codage à l'aide d'une première règle de division en trames, d'une fenêtre de départ et d'une fenêtre d'arrêt, et en transformant une première trame d'échantillons audio successifs au domaine fréquentiel sur base d'une transformation cosinusoïdale discrète modifiée, MDCT, le premier codeur d'introduction de repliement dans le domaine temporel repliement (110) étant configuré pour adapter une grandeur de MDCT aux fenêtres de départ et d'arrêt;

coder, à l'aide du codage AMR-WB+, des échantillons audio dans un deuxième domaine de codage à l'aide d'un nombre de grandeurs de trame prédéterminé d'échantillons audio et d'un nombre de périodes d'échauffement de codage d'échantillons audio et à l'aide d'une deuxième règle de division en trames différente, la trame du deuxième domaine de codage étant une représentation codée d'un nombre d'échantillons audio successifs dans le temps, le nombre étant égal au nombre de grandeurs de trame prédéterminé d'échantillons audio; et

commuter du premier domaine de codage (110) au deuxième domaine de codage (120) en réponse à une caractéristique des échantillons audio, et modifier, lors de la commutation du premier au deuxième domaine de codage, la fenêtre de départ du premier domaine de codage (110) dans la mesure où
la fenêtre de départ est d'une longueur de 2048 échantillons et est utilisée dans une MDCT de 1024 points,

la fenêtre de départ commence immédiatement par une partie de bord montant présentant un premier axe de pliage de MDCT en son centre qui s'étend sur un premier et un deuxième quart de la fenêtre de départ vers un centre de la fenêtre de départ,

une partie de dérivation s'étend du centre à une partie de bord descendant,

la partie de bord descendant créant un segment de transition avec une fenêtre sinusoïdale est d'une longueur de 64 échantillons et s'étend vers un deuxième axe de pliage de MDCT entre un troisième et un quatrième quart de la fenêtre de départ, et

une partie zéro s'étend à travers le deuxième axe de pliage de MDCT vers une extrémité de la fenêtre de départ, et

dans lequel la partie gauche des échantillons audio dans le deuxième domaine de codage est divisée en fenêtres avec une fenêtre sinusoïdale de fondu enchaîné d'une longueur de 64 échantillons,

ou commuter du deuxième domaine de codage (120) au premier domaine de codage (110) en réponse à une caractéristique différente des échantillons audio, et modifier, lors de la commutation du deuxième au premier domaine de codage, la fenêtre d'arrêt du premier domaine de codage (110) dans la mesure où
la fenêtre d'arrêt est d'une longueur de 2304 échantillons et est utilisée dans une MDCT de 1152 points,

une partie zéro de la fenêtre d'arrêt s'étend à travers un premier quart de la fenêtre d'arrêt,

une partie de bord montant de la fenêtre d'arrêt, qui est une fenêtre sinusoïdale d'une longueur de 64 échantillons, commence dans un deuxième quart de la fenêtre d'arrêt de sorte qu'un fondu enchaîné commence juste au-delà d'un premier axe de pliage de MDCT positionné entre la partie zéro et la partie de bord montant,

une partie de dérivation de la fenêtre d'arrêt s'étend de la partie de bord montant vers le centre de la fenêtre d'arrêt, et

une partie de bord descendant de la fenêtre d'arrêt s'étend du centre de la fenêtre d'arrêt en passant par un deuxième axe de pliage de MDCT entre un troisième et un quatrième quart de la fenêtre d'arrêt vers une extrémité de la fenêtre d'arrêt,

dans lequel la deuxième règle de division en trames reste non modifiée.
Décodeur audio (150) pour décoder des trames codées d'échantillons audio, comprenant:
un premier décodeur d'introduction de repliement dans le domaine temporel (160) destiné à décoder, à l'aide du décodage AAC, des échantillons audio dans un premier domaine de décodage, le premier décodeur d'introduction de repliement dans le domaine temporel (160) présentant une première règle de division en trames, une fenêtre de départ et une fenêtre d'arrêt, le premier décodeur (160) comprenant un transformateur dans le domaine temporel destiné à transformer une première trame d'échantillons audio décodés au domaine temporel sur base d'une transformation cosinusoïdale discrète modifiée inverse, IMDCT, le premier décodeur d'introduction de repliement dans le domaine temporel (160) étant configuré pour adapter une grandeur d'IMDCT aux fenêtres de départ et d'arrêt;

un deuxième décodeur (170) destiné à décoder, à l'aide du décodage AMR-WB+, des échantillons audio dans un deuxième domaine de décodage et le deuxième décodeur (170) présentant un nombre de grandeurs de trame prédéterminé d'échantillons audio et un nombre de périodes d'échauffement de codage d'échantillons audio, le deuxième décodeur (170) présentant une deuxième règle de division en trames différente, une trame du deuxième décodeur (170) étant une représentation codée d'un nombre d'échantillons audio successifs dans le temps, le nombre étant égal au nombre de grandeurs de trame prédéterminé d'échantillons audio; et

un contrôleur (180) destiné à commuter du premier décodeur au deuxième décodeur sur base d'une indication de la trame codée d'échantillons audio ou à commuter du deuxième décodeur (170) au premier décodeur (160) sur base d'une indication de la trame codée d'échantillons audio, et à modifier, lors de la commutation du premier décodeur au deuxième décodeur, la fenêtre de départ du premier décodeur dans la mesure où
la fenêtre de départ est d'une longueur de 2048 échantillons et est utilisée dans une IMDCT de 1024 points,

la fenêtre de départ commence immédiatement par une partie de bord montant présentant un premier axe de pliage de MDCT en son centre qui s'étend sur un premier et un deuxième quart de la fenêtre de départ vers un centre de la fenêtre de départ,

une partie de dérivation s'étend du centre à une partie de bord descendant,

la partie de bord descendant créant un segment de transition avec une fenêtre sinusoïdale est d'une longueur de 64 échantillons et s'étend vers un deuxième axe de pliage de MDCT entre un troisième et un quatrième quart de la fenêtre de départ, et

une partie zéro s'étend à travers le deuxième axe de pliage de MDCT vers une extrémité de la fenêtre de départ, et

dans lequel la partie gauche des échantillons audio dans le deuxième domaine de décodage est divisée en fenêtres avec une fenêtre sinusoïdale de fondu enchaîné d'une longueur de 64 échantillons,

ou commuter du deuxième décodeur au premier décodeur en réponse à une caractéristique différente des échantillons audio, et modifier, lors de la commutation du deuxième décodeur au premier décodeur, la fenêtre d'arrêt du premier décodeur dans la mesure où
la fenêtre d'arrêt est d'une longueur de 2304 échantillons et est utilisée dans une IMDCT de 1152 points,

une partie zéro de la fenêtre d'arrêt s'étend à travers un premier quart de la fenêtre d'arrêt,

une partie de bord montant de la fenêtre d'arrêt, qui est une fenêtre sinusoïdale d'une longueur de 64 échantillons, commence dans un deuxième quart de la fenêtre d'arrêt de sorte qu'un fondu enchaîné commence juste au-delà d'un premier axe de pliage de MDCT positionné entre la partie zéro et la partie de bord montant,

une partie de dérivation de la fenêtre d'arrêt s'étend de la partie de bord montant vers le centre de la fenêtre d'arrêt, et

une partie de bord descendant de la fenêtre d'arrêt s'étend du centre de la fenêtre d'arrêt en passant par un deuxième axe de pliage de MDCT entre un troisième et un quatrième quart de la fenêtre d'arrêt vers une extrémité de la fenêtre d'arrêt, et

dans lequel les 64 derniers échantillons audio décodés dans le premier domaine de décodage sont divisés en fenêtres avec une fenêtre sinusoïdale carrée d'une longueur de 64 échantillons,

dans lequel la deuxième règle de division en trames reste non modifiée.
Procédé pour décoder des trames codées d'échantillons audio, comprenant les étapes consistant à
décoder, à l'aide du décodage AAC, des échantillons audio dans un premier domaine de décodage, le premier domaine de décodage introduisant un repliement temporel présentant une première règle de division en trames, une fenêtre de départ et une fenêtre d'arrêt, et à l'aide d'une transformation d'une première trame d'échantillons audio décodés au domaine temporel sur base d'une transformation cosinusoïdale discrète modifiée inverse, IMDCT, le premier décodeur d'introduction de repliement dans le domaine temporel (160) étant configuré pour adapter une grandeur d'IMDCT aux fenêtres de départ et d'arrêt;

décoder, à l'aide du décodage AMR-WB+, des échantillons audio dans un deuxième domaine de décodage, le deuxième domaine de décodage présentant un nombre de grandeurs de trame prédéterminé d'échantillons audio et un nombre de périodes d'échauffement de codage d'échantillons audio, le deuxième domaine de décodage présentant une deuxième règle de division en trames différente, une trame du deuxième domaine de décodage étant une représentation décodée d'un nombre d'échantillons audio successifs dans le temps, le nombre étant égal au nombre de grandeurs de trame prédéterminé d'échantillons audio; et

commuter du premier domaine de décodage au deuxième domaine de décodage sur base d'une indication de la trame codée d'échantillons audio

ou commuter du deuxième domaine de décodage (170) au premier domaine de décodage (160) sur base d'une indication de la trame codée d'échantillons audio, et modifier, lors de la commutation du premier domaine de décodage au deuxième domaine de décodage, la fenêtre de départ du premier domaine de décodage dans la mesure où
la fenêtre de départ est d'une longueur de 2048 échantillons et est utilisée dans une IMDCT de 1024 points,

la fenêtre de départ commence immédiatement par une partie de bord montant présentant un premier axe de pliage de MDCT en son centre qui s'étend sur un premier et un deuxième quart de la fenêtre de départ vers un centre de la fenêtre de départ,

une partie de dérivation s'étend du centre à une partie de bord descendant,

la partie de bord descendant créant un segment de transition avec une fenêtre sinusoïdale est d'une longueur de 64 échantillons et s'étend vers un deuxième axe de pliage de MDCT entre un troisième et un quatrième quart de la fenêtre de départ, et

une partie zéro s'étend transversalement du deuxième axe de pliage de MDCT vers une extrémité de la fenêtre de départ, et

dans lequel la partie gauche des échantillons audio dans le deuxième domaine de décodage est divisée en fenêtres avec une fenêtre sinusoïdale de fondu enchaîné d'une longueur de 64 échantillons;

ou commuter du deuxième domaine de décodage au premier domaine de décodage en réponse à une caractéristique différente des échantillons audio, et modifier, lors de la commutation du deuxième domaine de décodage au premier domaine de décodage, la fenêtre d'arrêt du premier domaine de décodage dans la mesure où
la fenêtre d'arrêt est d'une longueur de 2304 échantillons et est utilisée dans une IMDCT de 1152 points,

une partie zéro de la fenêtre d'arrêt s'étend à travers un premier quart de la fenêtre d'arrêt,

une partie de bord montant de la fenêtre d'arrêt, qui est une fenêtre sinusoïdale d'une longueur de 64 échantillons, commence dans un deuxième quart de la fenêtre d'arrêt de sorte qu'un fondu enchaîné commence juste au-delà d'un premier axe de pliage de MDCT positionné entre la partie zéro et la partie de bord montant,

une partie de dérivation de la fenêtre d'arrêt s'étend de la partie de bord montant vers le centre de la fenêtre d'arrêt, et

une partie de bord descendant de la fenêtre d'arrêt s'étend du centre de la fenêtre d'arrêt en passant par un deuxième axe de pliage de MDCT entre un troisième et un quatrième quart de la fenêtre d'arrêt vers une extrémité de la fenêtre d'arrêt, et

dans lequel les 64 derniers échantillons audio décodés dans le premier domaine de décodage sont divisés en fenêtres avec une fenêtre sinusoïdale carrée d'une longueur de 64 échantillons,

dans lequel la deuxième règle de division en trames reste non modifiée.
Programme d'ordinateur présentant un code de programme adapté pour réaliser le procédé selon la revendication 3 ou 5 lorsque le code de programme est exécuté sur un ordinateur ou un processeur.