EA046317B1 - INTERNAL COLOR PREDICTION IN VIDEO CODING AND DECODING - Google Patents

INTERNAL COLOR PREDICTION IN VIDEO CODING AND DECODING Download PDF

Info

Publication number
EA046317B1
EA046317B1 EA202292258 EA046317B1 EA 046317 B1 EA046317 B1 EA 046317B1 EA 202292258 EA202292258 EA 202292258 EA 046317 B1 EA046317 B1 EA 046317B1
Authority
EA
Eurasian Patent Office
Prior art keywords
samples
prediction
block
reconstructed
chroma
Prior art date
Application number
EA202292258
Other languages
Russian (ru)
Inventor
Марк Горриз Бланш
Марта Мрак
Саверио Блази
Original Assignee
Бритиш Бродкастинг Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Бритиш Бродкастинг Корпорейшн filed Critical Бритиш Бродкастинг Корпорейшн
Publication of EA046317B1 publication Critical patent/EA046317B1/en

Links

Description

Область техники, к которой относится изобретениеField of technology to which the invention relates

Настоящее изобретение относится к кодированию и декодированию видео.The present invention relates to video encoding and decoding.

Предшествующий уровень техникиPrior Art

Цифровое видео может быть закодировано для передачи и/или хранения. Такая кодировка имеет преимущество в эффективности, с точки зрения спроса на полосу пропускания канала, требований к памяти, а также обнаружения и/или исправления ошибок.Digital video may be encoded for transmission and/or storage. This encoding has efficiency advantages in terms of channel bandwidth demand, memory requirements, and error detection and/or correction.

Методы сжатия видео включают в себя получение блоков видеоданных и использование различных подходов для использования преимущества избыточности. Например, внутреннее прогнозирование представляет собой пространственный подход, который включает в себя кодирование видеоблока со ссылкой на другой (прогнозирующий) видеоблок в том же кадре видеоданных. С другой стороны, внутреннее прогнозирование - это временной подход, включающий кодирование видеоблока видеокадра со ссылкой на соответствующий (прогнозирующий) блок другого кадра видеоданных.Video compression techniques involve taking blocks of video data and using different approaches to take advantage of redundancy. For example, intraprediction is a spatial approach that involves encoding a video block with reference to another (predictive) video block in the same frame of video data. Intra-prediction, on the other hand, is a timing approach that involves encoding a video block of a video frame with reference to a corresponding (prediction) block of another frame of video data.

Как правило, видеоданные содержат данные яркости и данные цветности. Данные яркости представляют собой яркость изображения без привязки к цвету. По сути, данные яркости описывают чернобелое изображение, и фактически такое изображение может быть реконструировано только из данных яркости. Данные цветности представляют информацию о цвете, которую можно использовать для восстановления цвета на черно-белом изображении.Typically, video data includes luma data and chrominance data. Luminance data represents the brightness of the image without reference to color. Essentially, luminance data describes a black-and-white image, and in fact such an image can only be reconstructed from luminance data. Chroma data represents color information that can be used to restore color to a black-and-white image.

При кодировании данных яркости и цветности можно использовать различные подходы. Человеческий глаз гораздо более чувствителен к яркости, чем к цветности; это дает возможность сжимать данные цветности больше, чем данные яркости.Various approaches can be used to encode luma and chrominance data. The human eye is much more sensitive to brightness than to chrominance; this makes it possible to compress chrominance data more than luma data.

Перечень фигур чертежейList of drawing figures

На фиг. 1 показано схематическое представление сети связи в соответствии с вариантом осуществления изобретения;In fig. 1 is a schematic diagram of a communication network in accordance with an embodiment of the invention;

на фиг. 2 показано схематическое изображение излучателя сети связи с фиг. 1;in fig. 2 shows a schematic representation of the communication network emitter from FIG. 1;

на фиг. 3 показана схема, иллюстрирующая кодер, реализованный на излучателе с фиг. 2;in fig. 3 is a diagram illustrating an encoder implemented on the emitter of FIG. 2;

на фиг. 4 показана технологическая схема структуры и функций модуля прогнозирования кодера с фиг. 3;in fig. 4 is a flow diagram of the structure and functions of the encoder prediction module of FIG. 3;

на фиг. 5 показано схематическое изображение приемника сети связи с фиг. 1;in fig. 5 is a schematic representation of the communication network receiver of FIG. 1;

на фиг. 6 показана схема, иллюстрирующая декодер, реализованный на приемнике с фиг. 4; и;in fig. 6 is a diagram illustrating a decoder implemented on the receiver of FIG. 4; And;

на фиг. 7 показана технологическая схема структуры и функций модуля прогнозирования декодера с фиг. 6.in fig. 7 is a flow diagram of the structure and functions of the decoder prediction module of FIG. 6.

Сведения, подтверждающие возможность осуществления изобретенияInformation confirming the possibility of implementing the invention

Универсальное кодирование видео (УКВ) (MPEG-I часть 3) - это стандарт сжатия видео, который в настоящее время разрабатывается Объединенной группой экспертов по видеоматериалам (JVET), объединенной группой экспертов по видеоматериалам MPEG рабочей группы ISO/IEC JTC 1 и VCEG рабочей группы ITU-T.Universal Video Coding (UVC) (MPEG-I Part 3) is a video compression standard currently being developed by the Joint Video Experts Team (JVET), a joint group of ISO/IEC JTC 1 Working Group MPEG Video Experts and the VCEG Working Group ITU-T.

Внутреннее прогнозирование обычно используется для использования пространственной избыточности внутри кадра путем вычисления прогнозов на основе уже реконструированных выборок в непосредственной близости от текущего блока. Последний проект УКВ (далее по тексту - УКВ) позволяет использовать большое количество возможных режимов внутреннего прогнозирования (далее - внутренние режимы) для прогнозирования компонента яркости, включая до 65 угловых (направленных) режимов, планарное прогнозирование и DC-прогнозирование, а также другие передовые методы прогнозирования.Intra-prediction is typically used to exploit spatial redundancy within a frame by computing predictions based on already reconstructed samples in the immediate vicinity of the current block. The latest VHF (hereinafter referred to as VHF) design allows the use of a large number of possible internal prediction modes (hereinafter internal modes) for predicting the brightness component, including up to 65 angular (directional) modes, planar prediction and DC prediction, as well as other advanced methods forecasting.

Это большое количество опций достигается за счет значительного объема сигнализирующих данных, чтобы указать, какой из внутренних режимов был использован в блоке данных яркости. И, наоборот, чтобы ограничить влияние сигнализирующих внутренних режимов, используется уменьшенное количество внутренних режимов для внутреннего прогнозирования компонентов цветности. Сюда входит подмножество режимов, доступных для прогнозирования яркости, включая, например, Производный режим (DM, соответствующий использованию режима, используемого для прогнозирования яркости), а также небольшой набор фиксированных кандидатов, включая планарный, DC, чисто горизонтальный и чисто вертикальный режимы.This large number of options is achieved at the expense of a significant amount of signaling data to indicate which of the internal modes was used in the luminance data block. Conversely, to limit the influence of signaling internal modes, a reduced number of internal modes is used to internally predict the chrominance components. This includes a subset of modes available for brightness prediction, including, for example, Derived Mode (DM, corresponding to the use of the mode used for brightness prediction), as well as a small set of fixed candidates, including planar, DC, pure horizontal, and pure vertical modes.

Кроме того, УКВ определяет использование внутренних режимов Межкомпонентной линейной модели (МКЛМ). При использовании МКЛМ компонент цветности прогнозируется на основе уже реконструированных выборок яркости с использованием линейной модели. Параметры модели выводятся с помощью простой линейной регрессии, применяемой к реконструированным соседним выборкам яркости и цветности, извлеченным из верхних левых границ блока кодирования. В настоящее время в УКВ используются три режима МКЛМ, в том числе общий режим ЛМ, использующий доступные выборки в верхнем левом углу, и два направленных режима ЛМ, использующие расширенные массивы эталонных выборок, извлеченных исключительно сверху или слева от текущего блока соответственно.In addition, VHF determines the use of internal modes of the Intercomponent Linear Model (ICLM). When using MCLM, the chrominance component is predicted from already reconstructed luminance samples using a linear model. Model parameters are derived using simple linear regression applied to the reconstructed neighboring luma and chrominance samples extracted from the upper-left boundaries of the encoding block. Currently, VHF uses three MCLM modes, including a general LM mode that uses the available samples in the upper left corner, and two directional LM modes that use extended arrays of reference samples extracted exclusively from above or to the left of the current block, respectively.

Было установлено, что использование ЛМ-прогнозирования эффективно для повышения эффективности внутреннего прогнозирования цветности. Однако варианты осуществления изобретения, описанные в настоящем документе, направлены на получение дополнительных преимуществ от других подходов.The use of LM prediction has been found to be effective in improving the performance of internal color prediction. However, the embodiments of the invention described herein are intended to provide additional benefits from other approaches.

- 1 046317- 1 046317

Здесь замечено, что использование простых линейных прогнозов может быть ограничивающим. Варианты осуществления изобретения, описанные в настоящем документе, могут обеспечить улучшенную производительность по сравнению с существующими технологиями за счет использования более сложных архитектур, основанных на механизмах Машинного обучения (МО).It is noted here that the use of simple linear forecasts can be limiting. Embodiments of the invention described herein can provide improved performance compared to existing technologies through the use of more complex architectures based on Machine Learning (ML) mechanisms.

Гибридная нейронная сеть для внутреннего прогнозирования цветности описана в разделе Гибридная нейронная сеть для внутреннего прогнозирования цветности (Ли, Юэ, Ли Ли, Чжу Ли, Цзяньчао Ян, Нин Сюй, Донг Лю и Хоуцян Ли; 2018 25-я Международная конференция IEEE по обработке изображений (ICIP), стр. 1797-1801. IEEE, 2018)], в котором конволюционная нейронная сеть (CNN) для извлечения признаков из реконструированных выборок яркости текущего блока была объединена с существующими полносвязными архитектурами для извлечения межкомпонентных корреляций между соседними выборками яркости и цветности. Используя такую архитектуру, можно получить сложные нелинейные отображения для сквозного прогнозирования каналов Cb и Cr. Однако такая архитектура обычно игнорирует пространственную корреляцию граничащих выборок при прогнозировании соответствующих местоположений в прогнозируемом блоке.The Hybrid Neural Network for Intra-Chroma Prediction is described in Hybrid Neural Network for Intra-Chroma Prediction (Li, Yue, Li Li, Zhu Li, Jianchao Yang, Ning Xu, Dong Liu, and Houqiang Li; 2018 25th IEEE International Conference on Image Processing (ICIP), pp. 1797-1801. IEEE, 2018)], in which a convolutional neural network (CNN) for extracting features from reconstructed luminance samples of the current block was combined with existing fully connected architectures to extract inter-component correlations between neighboring luminance and chrominance samples. Using such an architecture, complex nonlinear mappings can be obtained for end-to-end prediction of Cb and Cr channels. However, such an architecture typically ignores the spatial correlation of adjacent samples when predicting corresponding locations in a predicted block.

Варианты осуществления изобретения, описанные в настоящем документе, обеспечивают архитектуру нейронной сети, которая включает в себя модуль внимания для управления вкладом каждой эталонной соседней выборки при вычислении прогноза для местоположения каждой выборки, гарантируя, что пространственная информация учитывается при вычислении прогноза. Подобно вышеупомянутой гибридной нейронной сети, способ согласно раскрытому здесь варианту осуществления изобретения использует схему, основанную на трех ветвях сети, которые объединяются для создания выборок прогнозирования. Первые две ветви работают одновременно для извлечения признаков из доступных реконструированных выборок, включая уже реконструированный блок яркости, а также соседние эталонные выборки яркости и цветности. Первая ветвь (называемая межкомпонентной граничной ветвью) предназначена для извлечения межкомпонентной информации из соседних реконструированных выборок с использованием расширенного эталонного массива слева от текущего блока и над ним. Вторая ветвь (называемая конволюционной ветвью яркости) извлекает пространственные шаблоны над совмещенным реконструированным блоком яркости, применяя конволюционные операции. Варианты осуществления изобретения, описанные в настоящем документе, представляют процесс объединения признаков, выдаваемых первой и второй ветвями, с использованием модуля внимания. Примеры модуля внимания будут описаны ниже. Наконец, выходные данные модуля внимания подаются в третью ветвь сети для получения результирующих прогнозов выходной цветности Cb и Cr.Embodiments of the invention described herein provide a neural network architecture that includes an attention module for controlling the contribution of each reference neighbor sample in calculating a prediction for the location of each sample, ensuring that spatial information is taken into account when calculating the prediction. Similar to the aforementioned hybrid neural network, the method according to the embodiment disclosed herein uses a design based on three branches of the network that are combined to create prediction samples. The first two branches work simultaneously to extract features from the available reconstructed samples, including the already reconstructed luma block as well as the adjacent luma and chrominance reference samples. The first branch (called the intercomponent boundary branch) is designed to extract intercomponent information from neighboring reconstructed samples using an extended reference array to the left of and above the current block. The second branch (called the luminance convolutional branch) extracts spatial patterns over the aligned reconstructed luminance block by applying convolutional operations. The embodiments described herein present a process for combining features output by the first and second branches using an attention module. Examples of the attention module will be described below. Finally, the output of the attention module is fed to the third branch of the network to obtain the resulting output chrominance predictions Cb and Cr.

Данный подход, где нейронные сети используются для реализации прогнозирования цветности, можно рассматривать как расширение существующих режимов прогнозирования цветности, определенных в УКВ. Таким образом, в варианте осуществления изобретения может быть реализована архитектура на основе нейронной сети, чтобы конкурировать с установленными режимами для поддерживаемых настроек 4x4, 8x8, 16x16. Затем для каждой единицы прогнозирования кодер выбирает между традиционными угловыми режимами, моделями ЛМ или раскрытым режимом нейронной сети; путем минимизации критерия стоимости искажения скорости.This approach, where neural networks are used to implement chroma prediction, can be considered as an extension of the existing chroma prediction modes defined in VHF. Thus, in an embodiment of the invention, a neural network based architecture can be implemented to compete with established modes for supported settings of 4x4, 8x8, 16x16. Then, for each prediction unit, the encoder chooses between traditional angular modes, LM models, or the disclosed neural network mode; by minimizing the speed distortion cost criterion.

Вышеупомянутая компоновка может быть реализована в сети видеосвязи, предназначенной для обработки видеопрезентации с помощью методов кодирования, позволяющих передавать (или сохранять) его для декодирования устройством воспроизведения.The above arrangement may be implemented in a video communication network designed to process a video presentation using encoding techniques that allow it to be transmitted (or stored) for decoding by a playback device.

В общих чертах, аспект настоящего изобретения обеспечивает внутреннее прогнозирование выборок цветности на основе выборок яркости и маски внимания, при этом маска внимания настраивается посредством конволюционной нейронной сети.In general terms, an aspect of the present invention provides internal prediction of chroma samples based on luminance samples and an attention mask, wherein the attention mask is adjusted by a convolutional neural network.

Как проиллюстрировано на фиг. 1, устройство проиллюстрировано как включающее схематическую сеть видеосвязи 10, в которой излучатель 20 и приемник 30 обмениваются данными через канал связи 40. На практике канал связи 40 может включать спутниковый канал связи, кабельную сеть, наземную сеть радиовещания, канал связи, реализованный на основе POTS, например, используемый для предоставления интернет-услуг в жилых помещениях и помещениях малого бизнеса, волоконно-оптические системы связи или комбинация любого из вышеперечисленного и любого другого средства связи.As illustrated in FIG. 1, the apparatus is illustrated to include a schematic video communications network 10 in which emitter 20 and receiver 30 communicate via communications link 40. In practice, communications link 40 may include a satellite link, a cable network, a terrestrial broadcast network, or a POTS link. , such as those used to provide Internet service to residential and small business premises, fiber-optic communications systems, or a combination of any of the above and any other communications media.

Кроме того, изобретение также распространяется на передачу посредством физической передачи носителя данных, на котором хранится машиночитаемая запись кодированного битового потока, для прохождения к соответствующим образом сконфигурированному приемнику, способному считывать носитель и получать из него битовый поток. Примером этого является предоставление цифрового универсального диска (DVD) или его эквивалента. Следующее описание сосредоточено на передаче сигнала, например, с помощью носителя электронного или электромагнитного сигнала, но не должно рассматриваться как исключающее вышеупомянутый подход, включающий носители данных.In addition, the invention also extends to transmitting, by physical transmission, a storage medium on which a machine-readable record of an encoded bitstream is stored for passage to a suitably configured receiver capable of reading the medium and deriving the bitstream from it. An example of this is the provision of a Digital Versatile Disc (DVD) or equivalent. The following description focuses on signal transmission, for example, using an electronic or electromagnetic signal carrier, but should not be construed as excluding the above-mentioned approach including storage media.

Как показано на фиг. 2, излучатель 20 по структуре и функции представляет собой компьютерное устройство. Он может иметь некоторые признаки, общие с компьютерным устройством общего назначения, но некоторые признаки могут быть специфичными для реализации, учитывая специализированную функцию, для которой должен быть использован излучатель 20. Читатель поймет, какие функции могут быть обусловлены общим назначением, а для каких может потребоваться конфигурация, специальнаяAs shown in FIG. 2, the emitter 20 is a computer device in structure and function. It may have some features in common with a general purpose computing device, but some features may be implementation specific given the specialized function for which the emitter 20 is to be used. The reader will appreciate which functions may be general purpose specific and which may require configuration, special

- 2 046317 для использования в видеоизлучателе.- 2 046317 for use in a video emitter.

Таким образом, излучатель 20 содержит процессор графического вывода (GPU) 202, сконфигурированный для конкретного использования в обработке графики и аналогичных операциях. Излучатель 20 также содержит один или более других процессоров 204, либо в целом подготовленных, либо сконфигурированных для других целей, таких как математические операции, обработка звука, управление каналом связи и так далее.Thus, the emitter 20 includes a graphics processor (GPU) 202 configured for specific use in graphics processing and the like. The emitter 20 also contains one or more other processors 204, either generally provisioned or configured for other purposes, such as mathematical operations, audio processing, communications link control, and so on.

Входной интерфейс 206 обеспечивает средство для приема действий пользователя по вводу. Такие действия пользователя могут, например, быть вызваны взаимодействием пользователя с конкретным блоком ввода, содержащим одну или более кнопок управления и/или переключателей, клавиатурой, мышью или другим указывающим устройством, блоком распознавания речи, выполненным с возможностью приема и обработки речи в команды управления, сигнальным процессором, выполненным с возможностью приема и управления процессами от другого устройства, такого как планшет или смартфон, или приемником дистанционного управления. Этот перечень будет воспринят как неисчерпывающий, и читатель может предусмотреть другие формы ввода, будь то инициированные пользователем или автоматизированные.Input interface 206 provides a means for receiving user input. Such user actions may, for example, be caused by user interaction with a particular input unit containing one or more control buttons and/or switches, a keyboard, mouse or other pointing device, a speech recognition unit configured to receive and process speech into control commands, a signal processor configured to receive and control processes from another device, such as a tablet or smartphone, or a remote control receiver. This list is intended to be non-exhaustive and the reader is encouraged to envisage other forms of input, whether user-initiated or automated.

Аналогично, выходной интерфейс 214 выполнен с возможностью обеспечения средства для вывода сигналов пользователю или другому устройству. Такой вывод может включать в себя сигнал дисплея для управления локальным блоком отображения видеосигнала (VDU) или любым другим устройством.Likewise, output interface 214 is configured to provide a means for outputting signals to a user or other device. Such a pin may include a display signal for driving a local video display unit (VDU) or any other device.

Интерфейс 208 передачи данных реализует канал связи, будь то широковещательный или сквозной, с одним или более получателями сигналов. В контексте настоящего варианта осуществления интерфейс передачи данных выполнен с возможностью вызывать излучение сигнала, несущего битовый поток, определяющий видеосигнал, кодируемый излучателем 20.Data interface 208 implements a communication channel, whether broadcast or end-to-end, with one or more signal recipients. In the context of the present embodiment, the data interface is configured to cause emission of a signal carrying a bitstream defining a video signal encoded by the emitter 20.

Процессоры 204, и, в частности, для пользы настоящего изобретения, GPU 202, выполнены с возможностью выполнения компьютерных программ при работе кодера. При этом используются средства хранения данных, предоставляемые запоминающим устройством большой емкости 208, которое выполнено с возможностью обеспечения крупномасштабного хранения данных, хотя и на основе относительно медленного доступа, и на практике будет хранить компьютерные программы и, в текущем контексте, данные видеопрезентации при подготовке к выполнению процесса кодирования.The processors 204, and in particular for the benefit of the present invention, the GPU 202, are configured to execute computer programs while the encoder is operating. This utilizes the data storage facilities provided by mass storage device 208, which is configured to provide large-scale data storage, albeit on a relatively slow access basis, and in practice will store computer programs and, in the current context, video presentation data in preparation for execution. coding process.

Постоянное запоминающее устройство (ПЗУ) 210 предварительно сконфигурировано с исполняемыми программами, предназначенными для обеспечения ядра функциональности излучателя 20, а Оперативное запоминающее устройство (ОЗУ) 212 предусмотрено для быстрого доступа и хранения данных и программных инструкций в процессе выполнения компьютерной программы.Read Only Memory (ROM) 210 is pre-configured with executable programs designed to provide the core functionality of emitter 20, and Random Access Memory (RAM) 212 is provided for quickly accessing and storing data and program instructions during execution of a computer program.

Далее будет описана функция излучателя 20 со ссылкой на фиг. 3. На фиг. 3 показан процесс обработки, выполняемый кодером, реализованным на излучателе 20 с помощью исполняемых команд, на файле данных, представляющем собой видеопрезентацию, содержащую множество кадров для последовательного отображения в виде последовательности изображений.Next, the function of the emitter 20 will be described with reference to FIG. 3. In FIG. 3 shows the processing performed by the encoder implemented on the emitter 20 using executable commands on a data file that is a video presentation containing a plurality of frames for sequential display as a sequence of images.

Файл данных может также содержать информацию о воспроизведении звука, сопровождающую видеопрезентацию, и прочую дополнительную информацию, такую как электронная информация о руководстве по программе, субтитры или метаданные для обеспечения возможности каталогизации презентации. Обработка этих аспектов файла данных не имеет отношения к настоящему изобретению.The data file may also contain audio playback information accompanying the video presentation and other additional information, such as electronic program manual information, subtitles, or metadata to enable cataloging of the presentation. The handling of these aspects of the data file is not relevant to the present invention.

Как показано на фиг. 3, текущее изображение или кадр в последовательности изображений передается в модуль 230 разделения, где он разбивается на прямоугольные блоки заданного размера для обработки кодером. Эта обработка может быть последовательной или параллельной. Подход может зависеть от возможностей обработки конкретной реализации.As shown in FIG. 3, the current image or frame in a sequence of images is sent to the division module 230, where it is divided into rectangular blocks of a given size for processing by the encoder. This processing can be serial or parallel. The approach may depend on the processing capabilities of the particular implementation.

Каждый блок затем вводится в модуль 232 прогнозирования, который стремится устранить временное и пространственное избыточное количество данных, присутствующее в последовательности, и получить сигнал прогнозирования с использованием ранее закодированного содержимого. Информация, позволяющая вычислять такое прогнозирование, кодируется в битовом потоке. Эта информация должна быть достаточной для выполнения расчетов, включая возможность извлечения посредством анализа на приемнике другой информации, необходимой для завершения прогнозирования. Дальнейшие подробности модуля прогнозирования данного варианта осуществления изобретения будут предоставлены ниже.Each block is then input to prediction module 232, which seeks to eliminate the temporal and spatial redundancy of data present in the sequence and obtain a prediction signal using the previously encoded content. The information that allows such a prediction to be computed is encoded in the bitstream. This information must be sufficient to perform calculations, including the ability to extract, through analysis at the receiver, other information necessary to complete the prediction. Further details of the prediction module of this embodiment of the invention will be provided below.

Сигнал прогнозирования вычитается из исходного сигнала для получения остаточного сигнала. Затем его вводят в модуль 234 преобразования, который пытается дополнительно уменьшить пространственное избыточное количество данных внутри блока путем использования более подходящего представления данных. Как отмечено выше, в данном варианте осуществления изобретения предполагается, что трансформация домена не может быть реализована для каждого набора остатков, и в зависимости от вероятной эффективности выполнения этого, вместо этого может быть реализован пропуск преобразования. Использование пропуска преобразования может сигнализироваться в битовом потоке.The prediction signal is subtracted from the original signal to obtain the residual signal. It is then input to transform module 234, which attempts to further reduce the spatial redundancy of data within the block by using a more appropriate data representation. As noted above, this embodiment assumes that a domain transformation cannot be implemented for every set of residues, and depending on the likely efficiency of doing so, skipping the transformation may be implemented instead. The use of skip conversion may be signaled in the bitstream.

Затем результирующий сигнал обычно квантуется модулем 236 квантования, и, наконец, результирующие данные, сформированные из коэффициентов и информации, необходимой для вычисления прогнозирования для текущего блока, вводятся в модуль 238 энтропийного кодирования, который использует статистическую избыточность для представления сигнала в компактной форме с помощью короткихThe resulting signal is then typically quantized by a quantization module 236, and finally the resulting data, formed from the coefficients and information needed to calculate the prediction for the current block, is input to an entropy encoding module 238, which uses statistical redundancy to represent the signal in a compact form using short

- 3 046317 двоичных кодов. Читатель заметит, что если использовался пропуск с преобразованием, используется остаточное кодирование с пропуском преобразования (TSRC).- 3 046317 binary codes. The reader will note that if transform skipping was used, transform skip residual coding (TSRC) is used.

При повторном воздействии средства кодирования излучателя 20 может быть построен битовый поток информационных элементов блока для передачи приемнику или множеству приемников, в зависимости от обстоятельств. Поток битов может также содержать информационные элементы, которые применяются к множеству информационных элементов блока и, таким образом, удерживаются в синтаксисе потока битов, независимо от информационных элементов блока. Примеры таких информационных элементов включают в себя варианты конфигурации, параметры, применимые к последовательности кадров, и параметры, относящиеся к видеопрезентации в целом.Upon repeated exposure to the emitter encoding means 20, a bit stream of block information elements can be constructed for transmission to a receiver or multiple receivers, as appropriate. The bitstream may also contain information elements that apply to multiple block information elements and are thus held in the bitstream syntax independent of the block information elements. Examples of such information elements include configuration options, parameters applicable to a sequence of frames, and parameters related to the video presentation as a whole.

Далее модуль 232 прогнозирования будет описан более подробно со ссылкой на фиг. 4. Как будет понятно, это всего лишь пример, и могут быть рассмотрены другие подходы в рамках настоящего изобретения и прилагаемой формулы изобретения.Next, the prediction module 232 will be described in more detail with reference to FIG. 4. As will be appreciated, this is just an example and other approaches may be contemplated within the scope of the present invention and the appended claims.

Следующий процесс выполняется на каждом блоке в кадре.The following process is executed on each block in the frame.

Модуль 232 прогнозирования сконфигурирован для обработки входных выборок яркости и выборок цветности для получения данных прогнозирования, которые затем можно использовать для создания остатков для дальнейшей обработки, как описано выше.Prediction module 232 is configured to process the input luma samples and chrominance samples to produce prediction data, which can then be used to generate residuals for further processing as described above.

Теперь опишем структуру и функции модуля 232 прогнозирования со ссылкой на фиг. 4.We will now describe the structure and functions of the prediction module 232 with reference to FIG. 4.

В целом, модуль 232 прогнозирования содержит архитектуру нейронной сети, которая включает в себя модуль внимания 250 для управления вкладом каждой эталонной соседней выборки при вычислении прогноза для местоположения каждой выборки, обеспечивая учет пространственной информации при вычислении прогноза. Модуль 232 прогнозирования имеет три ветви сети, которые объединяются для создания выборок прогнозирования. Как показано, первая и вторая ветви реализуются параллельно для извлечения признаков из доступных выборок, включая блок яркости, а также соседние эталонные выборки яркости и цветности. Первая ветвь (называемая межкомпонентной граничной ветвью) предназначена для извлечения межкомпонентной информации из соседних реконструированных выборок с использованием расширенного эталонного массива слева от текущего блока и над ним. Вторая ветвь (называемая конволюционной ветвью яркости) извлекает пространственные шаблоны над совмещенным блоком яркости, применяя конволюционные операции. Модуль внимания объединяет функции, выводимые первой и второй ветвями.In general, prediction module 232 comprises a neural network architecture that includes attention module 250 for controlling the contribution of each reference neighbor sample in calculating a prediction for each sample location, allowing spatial information to be taken into account in calculating the prediction. Prediction module 232 has three network branches that combine to create prediction samples. As shown, the first and second branches are implemented in parallel to extract features from the available samples, including the luma block as well as the adjacent luma and chrominance reference samples. The first branch (called the inter-component boundary branch) is designed to extract inter-component information from neighboring reconstructed samples using an extended reference array to the left of and above the current block. The second branch (called the luminance convolutional branch) extracts spatial patterns over the aligned luminance block by applying convolutional operations. The attention module combines the functions output by the first and second branches.

Вывод модуля 250 внимания, наконец, подается в третью ветвь сети для получения результирующих прогнозов цветности Cb и Cr на выходе.The output of the attention module 250 is finally fed to the third branch of the network to obtain the resulting output chrominance predictions Cb and Cr.

Обучение на основе внимания, используемое в рамках глубокого обучения, используется для повышения производительности обученных сетей в сложных задачах прогнозирования. Модели внимания могут уменьшить количество сложных задач, прогнозируя более мелкие области внимания, которые обрабатываются последовательно, чтобы способствовать более эффективному обучению. В частности, собственное внимание (или внутреннее внимание) используется для оценки влияния определенных входных переменных на выходные данные, при этом прогноз вычисляется с упором на наиболее релевантные элементы той же последовательности. Модуль 250 внимания описанного варианта осуществления изобретения пытается объединить признаки из первой и второй ветвей сети, чтобы оценить влияние каждой входной переменной в отношении их пространственного положения.Attention-based learning used within deep learning is used to improve the performance of trained networks on complex prediction tasks. Attention models can reduce task complexity by predicting smaller areas of attention that are processed sequentially to promote more efficient learning. Specifically, self-attention (or internal attention) is used to evaluate the influence of certain input variables on outputs, with a prediction computed focusing on the most relevant elements of the same sequence. The attention module 250 of the described embodiment attempts to combine features from the first and second branches of the network to estimate the influence of each input variable with respect to their spatial location.

Этот подход может устранить важное ограничение аналогичных методов для вычисления выборок с внутренним прогнозированием на основе МО, которые обычно полностью отбрасывают информацию, содержащуюся в пространственном расположении входных и выходных выборок.This approach can address an important limitation of similar methods for computing intrapredictive ML-based samples, which typically completely discard the information contained in the spatial location of input and output samples.

В примере использования варианта осуществления изобретения предполагается, что внутреннее прогнозирование уже было выполнено для компонента яркости и что окончательные реконструированные выборки яркости доступны. В зависимости от используемой подвыборки цветности этот блок затем подвергается понижению дискретизации с использованием обычных фильтров, доступных в УКВ, для получения блока совмещенных выборок яркости с теми же размерами NxN в пространстве, что и соответствующие компоненты цветности. Для простоты в этой версии алгоритма рассматриваются только квадратные блоки. Можно использовать блоки большего размера, а также усовершенствованные фильтры понижения частоты дискретизации без потери общности.In an example use of an embodiment of the invention, it is assumed that intraprediction has already been performed on the luminance component and that the final reconstructed luminance samples are available. Depending on the chroma subsample used, this block is then downsampled using conventional filters available in VHF to produce a block of fused luminance samples with the same NxN dimensions in space as the corresponding chroma components. For simplicity, this version of the algorithm considers only square blocks. Larger block sizes, as well as advanced downsampling filters, can be used without loss of generality.

Совмещенный блок яркости обозначается X е RNxN. Массив эталонных выборок в левом верхнем углу текущего блока обозначается Bc е R2N+1, b = 2N+1, где c = Y, Cb, Cr для трех компонентов соответственно, где B построен следующим образом.The combined luminance block is denoted X e R NxN . The array of reference samples in the upper left corner of the current block is denoted by B c e R 2N+1 , b = 2N+1, where c = Y, Cb, Cr for the three components respectively, where B is constructed as follows.

Во-первых, выборки на левой границе рассматриваются, начиная с самой нижней выборки; затем считается угол; затем рассматриваются выборки сверху, начиная с самой левой выборки. Если некоторые эталонные выборки недоступны, они дополняются заранее определенным значением.First, the samples on the left boundary are considered starting with the lowest sample; then the angle is calculated; then the samples from the top are considered, starting with the leftmost sample. If some reference samples are not available, they are padded with a predetermined value.

Наконец, межкомпонентный объем, полученный конкатенацией трех эталонных массивов By, BCb, BCr, обозначается S е R3xb. После применения межкомпонентной граничной ветви над S и конволюционной ветви яркости над X получаются преобразованные объемы признаков X ε ;κΝχΝχΰ=Ν2χ<- и § е rRbxD соответственно.Finally, the intercomponent volume obtained by concatenating the three reference arrays B y , B Cb , B Cr is denoted S e R 3xb . After applying the intercomponent boundary branch over S and the convolutional brightness branch over X, the transformed feature volumes X ε ;κ ΝχΝχΰ=Ν2χ <- and § e rR bxD are obtained, respectively.

- 4 046317- 4 046317

Рисунок 4 иллюстрирует архитектуру подсети для обеих ветвей (для частного случая блока 8x8). В таблице представлено раскрытие выбранных сетевых гиперпараметров для блоков других размеров. Подробные сведения о построении и реализации обеих ветвей не приводятся из-за использования структуры, аналогичной вышеупомянутому современному гибридному методу на основе нейронной сети.Figure 4 illustrates the subnet architecture for both branches (for the special case of an 8x8 block). The table shows the disclosure of selected network hyperparameters for other block sizes. Details of the construction and implementation of both branches are not given due to the use of a structure similar to the above-mentioned modern hybrid method based on a neural network.

Таблица - гиперпараметры сети в зависимости от размера блока. В частности, глубина конволюционных ядер применяется к различным ветвям предлагаемой архитектуры.______Table - network hyperparameters depending on block size. In particular, the depth of convolutional kernels is applied to different branches of the proposed architecture.______

Ветка Branch 4x4 4x4 8x8 8x8 16 х 16 16 x 16 Межкомпонентная граничная ветвь Intercomponent boundary branch 16, 32 16, 32 32, 64 32, 64 64, 96 64, 96 Конволюционная ветвь яркости Convolutional brightness branch 32, 32 32, 32 64, 64 64, 64 96, 96 96, 96 Модуль внимания Attention module 16, 16, 32 16, 16, 32 16, 16, 64 16, 16, 64 16, 16, 96 16, 16, 96 Выходная ветвь Output branch 32,2 32.2 64,2 64.2 96,2 96.2

Уже в рамках предлагаемого модуля слияния на основе внимания каждая из этих двух карт признаков свернута с использованием ядра 1x1, чтобы спроецировать их на два соответствующих уменьшенных пространства признаков. В частности, S свернут с фильтром WF е RhxD для получения h-мерной матрицы признаков F. Аналогичным образом X свернут с фильтром WG x RhxC для получения h-мерной матрицы признаков G. Две матрицы перемножаются, чтобы получить карту предварительного внимания M=GTF. Наконец, получается матрица внимания AeAN2xb, применяя операцию многопеременной логистической функции к каждому элементу M для произведения вероятности того, что каждое местоположение границы сможет прогнозировать местоположение каждой выборки в блоке. Формально, для каждого элемента ai,j в A, где j = 0 ... N2-1 представляет собой местоположение выборки в прогнозируемом блоке, a j = 0 ... b - 1$ представляет местоположение эталонной выборки, применяется следующее:Already within the proposed attention-based fusion module, each of these two feature maps is convolved using a 1x1 kernel to project them onto two corresponding reduced feature spaces. Specifically, S is convolved with the filter W F e Rhx D to obtain an h-dimensional feature matrix F. Similarly, X is convolved with the filter WG x R h x C to obtain an h-dimensional feature matrix G. The two matrices are multiplied to obtain a preliminary map attention M=G T F. Finally, the attention matrix AeA N2xb is obtained by applying the multivariable logistic function operation to each element of M to product the probability that each edge location can predict the location of each sample in the block. Formally, for each element ai,j in A, where j = 0...N2-1 represents the sample location in the forecast block, aj = 0...b - 1$ represents the reference sample location, the following applies:

mj,j е т где T - температурный параметр многопеременной логистической функции, управляющий гладкостью генерируемых вероятностей, при 0<T<1. Обратите внимание, что чем меньше значение T, тем более локализованными являются полученные области внимания, что приводит к соответственно меньшему количеству граничных выборок, вносящих вклад в данное прогнозируемое местоположение.mj,j е Т where T is the temperature parameter of the multivariable logistic function, which controls the smoothness of the generated probabilities, for 0<T<1. Note that the smaller the value of T, the more localized the resulting attention regions are, resulting in a correspondingly smaller number of edge samples contributing to a given predicted location.

Весовая сумма вклада каждой эталонной выборки в прогнозирование заданного выходного местоположения получается путем вычисления скалярного произведения межкомпонентных граничных признаков S и матрицы A внимания, или формально &А>, где О - скалярное произведение. Для дальнейшего уточнения <§, А) эту взвешенную сумму можно умножить на выход ветви яркости. Для этого выход ветви яркости должен быть преобразован для изменения его размеров посредством конволюции 1x1 с использованием матрицы wx , чтобы получить преобразованное представление X eT?N2*D. Эта операция применяется для обеспечения того, чтобы размеры выходных данных конволюционной ветви яркости были совместимы с <ЯА). Наконец, выход модели внимания 0 е /?Ν2χΕ) получается следующим образом: Хо?А>, где о - поэлементное произведение.The weighted sum of the contribution of each reference sample to predicting a given output location is obtained by calculating the dot product of the intercomponent boundary features S and the attention matrix A, or formally &A>, where O is the dot product. To further refine <§, A) this weighted sum can be multiplied by the output of the brightness branch. To do this, the luma branch output must be transformed to resize it through a 1x1 convolution using the w x matrix to obtain the transformed representation X eT? N2 * D . This operation is used to ensure that the output sizes of the luminance convolutional branch are compatible with <YA). Finally, the output of the attention model is 0 e/? Ν2χΕ) is obtained as follows: X o? A>, where o is the element-wise product.

Например, для параметра измерения h в модуле внимания установлено значение 16 для всех обученных моделей, что является оптимальным компромиссом между производительностью и сложностью. Значение T = 0,5 является перекрестным, обеспечивая оптимальный баланс между информативными выборками и зашумленными от остальных граничных местоположений.For example, the dimension parameter h in the attention module is set to 16 for all trained models, which is an optimal trade-off between performance and complexity. The value of T = 0.5 is cross-sectional, providing an optimal balance between samples that are informative and those that are noisy from the remaining edge locations.

Дополнительно следует отметить, что модуль 232 прогнозирования может быть сконфигурирован для использования одного из множества предопределенных режимов взаимного прогнозирования, но взаимное прогнозирования не имеет отношения к объему настоящего изобретения. Более того, приведенное выше изобретение не исключает возможности реализации существующих режимов внутреннего прогнозирования, указанных, например, в УКВ.Additionally, it should be noted that prediction module 232 may be configured to use one of a variety of predefined inter-prediction modes, but inter-prediction is not within the scope of the present invention. Moreover, the above invention does not exclude the possibility of implementing existing internal forecasting modes specified, for example, in VHF.

Структурная архитектура приемника показана на фиг. 5. Он имеет элементы, представляющие собой компьютерное устройство. Таким образом, приемник 30 содержит графический процессор 302, сконфигурированный для конкретного использования в обработке графики и аналогичных операциях. Приемник 30 также содержит один или более других процессоров 304, либо в целом подготовленных, либо сконфигурированных для других целей, таких как математические операции, обработка звука, управление каналом связи и так далее.The structural architecture of the receiver is shown in FIG. 5. It has elements that represent a computer device. Thus, receiver 30 includes a graphics processor 302 configured for specific use in graphics processing and the like. Receiver 30 also contains one or more other processors 304, either generally provisioned or configured for other purposes, such as mathematical operations, audio processing, communications link control, and so on.

Как будет понятно читателю, приемник 30 может быть реализован в виде приставки, переносного персонального электронного устройства, персонального компьютера или любого другого устройства, подходящего для воспроизведения видеопрезентаций.As will be appreciated by the reader, receiver 30 may be implemented as a set-top box, portable personal electronic device, personal computer, or any other device suitable for playing video presentations.

Входной интерфейс 306 обеспечивает средство для приема действий пользователя по вводу. Такие действия пользователя по вводу могут, например, быть вызваны взаимодействием пользователя с конкретным блоком ввода, содержащим одну или более кнопок управления и/или переключателей, клавиатурой, мышью или другим указывающим устройством, блоком распознавания речи, выполненным с возInput interface 306 provides means for receiving user input. Such user input actions may, for example, be caused by the user interacting with a particular input block containing one or more control buttons and/or switches, a keyboard, mouse or other pointing device, a speech recognition block configured with

- 5 046317 можностью приема и обработки речи в команды управления, сигнальным процессором, выполненным с возможностью приема и управления процессами от другого устройства, такого как планшет или смартфон, или приемником дистанционного управления. Этот перечень будет воспринят как неисчерпывающий, и могут быть предусмотрены другие формы ввода, будь то инициированные пользователем или автоматизированные.- 5 046317 the ability to receive and process speech into control commands, a signal processor configured to receive and control processes from another device, such as a tablet or smartphone, or a remote control receiver. This list is intended to be non-exhaustive and other forms of input, whether user initiated or automated, may be provided.

Аналогичным образом, выходной интерфейс 314 выполнен с возможностью обеспечения средства для вывода сигналов пользователю или другому устройству. Такой вывод может включать в себя телевизионный сигнал в подходящем формате для управления местным телевизионным устройством.Likewise, output interface 314 is configured to provide a means for outputting signals to a user or other device. Such output may include a television signal in a suitable format for driving a local television device.

Интерфейс 308 передачи данных реализует канал связи, будь то широковещательный или сквозной, с одним или более получателями сигналов. В контексте настоящего варианта осуществления интерфейс передачи данных выполнен с возможностью вызывать излучение сигнала, несущего битовый поток, определяющий видеосигнал, кодируемый приемником 30.Data interface 308 implements a communication channel, whether broadcast or end-to-end, with one or more signal recipients. In the context of the present embodiment, the data interface is configured to cause emission of a signal carrying a bitstream defining a video signal to be encoded by the receiver 30.

Процессоры 304, и, в частности, для пользы настоящего изобретения, графический процессор GPU 302, выполнены с возможностью выполнения компьютерных программ при работе приемника. При этом используются средства хранения данных, предоставляемые запоминающим устройством 308 большой емкости, которое выполнено с возможностью обеспечения крупномасштабного хранения данных, хотя и на основе относительно медленного доступа, и на практике будет хранить компьютерные программы и, в текущем контексте, данные видеопрезентации, полученные в результате выполнения процесса приема.The processors 304, and in particular for the benefit of the present invention, the GPU 302, are configured to execute computer programs while the receiver is operating. This utilizes the data storage facilities provided by mass storage device 308, which is configured to provide large-scale data storage, albeit on a relatively slow access basis, and in practice will store computer programs and, in the current context, video presentation data resulting from completing the admission process.

Постоянное запоминающее устройство (ПЗУ) 310 предварительно сконфигурировано с исполняемыми программами, предназначенными для обеспечения ядра функциональности приемника 30, а Оперативное запоминающее устройство 312 предусмотрено для быстрого доступа и хранения данных и программных инструкций в процессе выполнения компьютерной программы.Read Only Memory (ROM) 310 is preconfigured with executable programs to provide the core functionality of receiver 30, and Random Access Memory 312 is provided for quickly accessing and storing data and program instructions during execution of a computer program.

Далее будет описана функция приемника 30 со ссылкой на фиг. 6. На фиг. 6 показан процесс обработки, выполняемый декодером, реализованным на приемнике 20 с помощью исполняемых инструкций, на битовом потоке, принятом в приемнике 30, содержащем структурированную информацию, из которой может быть получена видеопрезентация, содержащая реконструкцию кадров, закодированных функциональностью кодера излучателя 20.Next, the function of the receiver 30 will be described with reference to FIG. 6. In FIG. 6 shows the processing performed by the decoder implemented on the receiver 20 using executable instructions on a bit stream received at the receiver 30 containing structured information from which a video presentation can be derived containing a reconstruction of the frames encoded by the encoder functionality of the emitter 20.

Процесс декодирования, показанный на фиг. 6, направлен на то, чтобы обратить процесс, выполняемый на кодере. Читателю будет понятно, что это не означает, что процесс декодирования является строго обратным процессу кодирования.The decoding process shown in FIG. 6 aims to reverse the process performed on the encoder. The reader will appreciate that this does not mean that the decoding process is strictly the reverse of the encoding process.

Принятый битовый поток содержит последовательность кодированных информационных элементов, причем каждый элемент связан с некоторым блоком. Информационный элемент блока декодируют в модуле 330 энтропийного декодирования для получения блока коэффициентов и информации, необходимой для вычисления прогнозирования для текущего блока. Блок коэффициентов, как правило, деквантизируется в модуле 332 деквантизации и, как правило, обратно преобразовывается в пространственную область с помощью модуля 334 преобразования, если только декодеру не сообщается о пропуске преобразования.The received bit stream contains a sequence of encoded information elements, with each element associated with a block. The block information element is decoded in entropy decoding module 330 to obtain a block of coefficients and information necessary to compute a prediction for the current block. The block of coefficients is typically dequantized in dequantization module 332 and typically converted back to the spatial domain by transform module 334, unless the decoder is notified to skip conversion.

Как отмечалось выше, читатель поймет, что декодирование энтропии, деквантизация и обратное преобразование должны использоваться в приемнике только в том случае, если на излучателе использовались кодирование энтропии, квантование и преобразование, соответственно.As noted above, the reader will understand that entropy decoding, dequantization, and inverse conversion should only be used at the receiver if entropy encoding, quantization, and conversion, respectively, were used at the emitter.

Сигнал прогнозирования генерируется, как и раньше, из ранее декодированных выборок из текущих или предыдущих кадров и с использованием информации, декодированной из битового потока, модулем 336 прогнозирования. Затем получают реконструкцию исходного блока изображения из декодированного остаточного сигнала и вычисленного блока прогнозирования в блоке 338 реконструкции. В вариантах осуществления, модуль 336 прогнозирования реагирует на информацию о потоке битов, сигнализирующую об использовании внутреннего прогнозирования и, если такая информация присутствует, на показания из этой информации о потоке битов, которые позволяют декодеру определить, какой режим внутреннего прогнозирования был использован и, таким образом, какой метод прогнозирования должен быть использован при реконструкции выборки данных блока.The prediction signal is generated, as before, from previously decoded samples from current or previous frames and using information decoded from the bitstream by prediction module 336. A reconstruction of the original image block is then obtained from the decoded residual signal and the calculated prediction block in reconstruction block 338. In embodiments, prediction module 336 responds to bitstream information signaling the use of intra prediction and, if such information is present, to readings from that bitstream information that allow the decoder to determine which intra prediction mode was used and thus , which prediction method should be used when reconstructing a block data sample.

При повторном воздействии функциональности декодирования на последовательно принятые информационные элементы блока, графические блоки могут быть реконструированы в кадры, которые затем могут быть собраны для создания видеопрезентации для воспроизведения.By repeatedly exposing sequentially received block information elements to the decoding functionality, the graphic blocks can be reconstructed into frames, which can then be assembled to create a video presentation for playback.

Пример алгоритма декодера, дополняющий алгоритм кодера, описанный ранее, показан на фиг. 7. Этот алгоритм относится к использованию режима прогнозирования цветности, реализованного нейронной сетью, если реализация позволяет также реализовать другие режимы прогнозирования цветности, как такие режимы в настоящее время определены в УКВ, то это также может быть сообщено декодеру.An example of a decoder algorithm complementary to the encoder algorithm described previously is shown in FIG. 7. This algorithm refers to the use of a chroma prediction mode implemented by a neural network, if the implementation also allows other chroma prediction modes to be implemented as such modes are currently defined in VHF, then this can also be communicated to the decoder.

Как отмечалось ранее, декодирующая функциональность приемника 30 извлекает из битового потока последовательность информационных элементов блока, закодированных средством кодирования излучателя 20, определяющую информацию блока и сопутствующую информацию конфигурации.As noted previously, the decoding functionality of the receiver 30 extracts from the bitstream the sequence of block information elements encoded by the emitter encoder 20, the block defining information, and associated configuration information.

Следующий процесс выполняется для каждого кодированного блока в кадре, подлежащим декодированию.The following process is performed for each encoded block in the frame to be decoded.

Модуль 332 прогнозирования выполнен с возможностью обработки входных закодированных данThe prediction module 332 is configured to process the input encoded data

--

Claims (10)

ных яркости и закодированных данных цветности для получения реконструированных выборочных данных яркости и цветности, которые затем можно использовать для дальнейшей обработки, как описано выше.luminance and encoded chrominance data to obtain reconstructed sample luminance and chrominance data, which can then be used for further processing as described above. Теперь опишем структуру и функцию модуля 332 прогнозирования со ссылкой на фиг. 7.We will now describe the structure and function of the prediction module 332 with reference to FIG. 7. В целом, модуль 332 прогнозирования содержит архитектуру нейронной сети, которая включает в себя модуль 350 внимания для управления вкладом каждой эталонной соседней выборки при вычислении прогноза для местоположения каждой выборки, обеспечивая учет пространственной информации при вычислении прогноза. Модуль прогнозирования 332 имеет три ветви сети, которые объединяются для создания выборок прогнозирования. Как показано, первая и вторая ветви реализуются параллельно для извлечения признаков из доступных реконструированных выборок, включая уже реконструированный блок яркости, а также соседние эталонные выборки яркости и цветности. Первая ветвь (называемая межкомпонентной граничной ветвью) предназначена для извлечения межкомпонентной информации из соседних реконструированных выборок с использованием расширенного эталонного массива слева от текущего блока и над ним. Вторая ветвь (называемая конволюционной ветвью яркости) извлекает пространственные шаблоны над совмещенным блоком яркости, применяя конволюционные операции. Модуль внимания объединяет функции, выводимые первой и второй ветвями.In general, prediction module 332 comprises a neural network architecture that includes attention module 350 for controlling the contribution of each reference neighbor sample in calculating a prediction for each sample location, allowing spatial information to be taken into account in calculating the prediction. Prediction module 332 has three network branches that combine to create prediction samples. As shown, the first and second branches are implemented in parallel to extract features from the available reconstructed samples, including the already reconstructed luma block, as well as the adjacent luma and chrominance reference samples. The first branch (called the inter-component boundary branch) is designed to extract inter-component information from neighboring reconstructed samples using an extended reference array to the left of and above the current block. The second branch (called the luminance convolutional branch) extracts spatial patterns over the aligned luminance block by applying convolutional operations. The attention module combines the functions output by the first and second branches. Вывод модуля 350 внимания, наконец, подается в третью ветвь сети для получения результирующих прогнозирование цветности Cb и Cr на выходе.The output of the attention module 350 is finally fed to the third branch of the network to obtain the resulting Cb and Cr chrominance prediction outputs. В декодере используется тот же подход к работе модуля внимания, что и в кодере. Ожидается, что модуль внимания в декодере обучен таким же образом, как и в кодере, для воспроизведения решений внутреннего прогнозирования, принятых в кодере. Это обеспечивает восстановление данных цветности в декодере.The decoder uses the same approach to the operation of the attention module as the encoder. The attention module in the decoder is expected to be trained in the same way as in the encoder to reproduce the internal prediction decisions made in the encoder. This ensures that the chroma data is restored in the decoder. Следует понимать, что изобретение не ограничивается описанными выше вариантами, и различные модификации и усовершенствования могут быть сделаны без отступления от описанных концепций. Кроме случаев взаимоисключения, любой из признаков может быть использован отдельно или в комбинации с любыми другими признаками, и настоящее изобретение распространяется и включает в себя все комбинации и подкомбинации одного или более признаков, описанных в настоящем документе.It should be understood that the invention is not limited to the embodiments described above, and various modifications and improvements can be made without departing from the concepts described. Unless mutually exclusive, any of the features may be used alone or in combination with any other features, and the present invention extends to include all combinations and subcombinations of one or more of the features described herein. ФОРМУЛА ИЗОБРЕТЕНИЯCLAIM 1. Способ декодирования видеоданных, который включает в себя:1. A method for decoding video data, which includes: извлечение эталонных выборок из реконструированных выборок яркости и реконструированных выборок цветности; и построение по меньшей мере одного блока выборок прогнозирования цветности из эталонных выборок, где построение выборок прогнозирования цветности зависит от пространственного расположения эталонных выборок, и в котором построение выборок прогнозирования цветности зависит от использования модуля внимания.extracting reference samples from the reconstructed luma samples and the reconstructed chroma samples; and constructing at least one block of chroma prediction samples from the reference samples, wherein the construction of the chroma prediction samples depends on the spatial arrangement of the reference samples, and wherein the construction of the chroma prediction samples depends on the use of the attention module. 2. Способ по п.1, в котором эталонные выборки включают реконструированные выборки цветности из соседних блоков указанного блока выборок прогнозирования цветности.2. The method of claim 1, wherein the reference samples include reconstructed chroma samples from adjacent blocks of said block of chroma prediction samples. 3. Способ по п.1 или 2, в котором эталонные выборки включают реконструированные выборки яркости, расположенные рядом с блоком выборок прогнозирования цветности.3. The method of claim 1 or 2, wherein the reference samples include reconstructed luma samples adjacent to the block of chroma prediction samples. 4. Способ по п.1, 2 или 3, в котором эталонные выборки включают реконструированные выборки яркости из соседних блоков блока расположенных рядом реконструированных выборок яркости.4. The method of claim 1, 2, or 3, wherein the reference samples include reconstructed luminance samples from adjacent blocks of a block of adjacent reconstructed luminance samples. 5. Способ по любому из предшествующих пунктов, в котором модуль внимания сконфигурирован как глубокая нейронная сеть.5. The method as claimed in any one of the preceding claims, wherein the attention module is configured as a deep neural network. 6. Способ по любому из предшествующих пунктов, в котором построение выборок прогнозирования цветности зависит от вычисления межкомпонентной информации.6. The method as claimed in any one of the preceding claims, wherein the construction of color prediction samples depends on the calculation of intercomponent information. 7. Способ по любому из предшествующих пунктов, в котором построение выборок прогнозирования цветности зависит от извлечения данных пространственного изображения над блоком данных яркости с помощью по меньшей мере одной конволюционной операции.7. The method as claimed in any one of the preceding claims, wherein the construction of the chrominance prediction samples depends on retrieving spatial image data over a block of luminance data using at least one convolutional operation. 8. Способ по любому из предшествующих пунктов, включающий управление, с помощью модуля внимания, вкладом каждой эталонной соседней выборки в вычислении прогнозирования для местоположения выборки.8. The method as claimed in any one of the preceding claims, including controlling, by the attention module, the contribution of each reference neighbor sample to a prediction calculation for the sample location. 9. Способ по любому из предшествующих пунктов, в котором дополнительно реализуют один или несколько других режимов построения по меньшей мере одного блока данных цветности, и в котором режим построения по меньшей мере одного блока данных цветности определяется на основе принятого сигнала.9. The method of any one of the preceding claims, further comprising one or more other construction modes of the at least one chrominance data block, and wherein the construction mode of the at least one chrominance data block is determined based on the received signal. 10. Декодер для декодирования видеоданных, включающий в себя:10. A decoder for decoding video data, including: экстрактор эталонных выборок для извлечения эталонных выборок из реконструированных выборок яркости и реконструированных выборок цветности; и конструктор выборок прогнозирования цветности для построения по меньшей мере одного блока выборок прогнозирования цветности из эталонных выборок, где конструктор выборок прогнозированияa reference sample extractor for extracting reference samples from the reconstructed luma samples and the reconstructed chrominance samples; and a chroma prediction sample constructor for constructing at least one block of chroma prediction samples from the reference samples, where the prediction sample constructor --
EA202292258 2020-02-07 2020-11-19 INTERNAL COLOR PREDICTION IN VIDEO CODING AND DECODING EA046317B1 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
GB2001722.4 2020-02-07

Publications (1)

Publication Number Publication Date
EA046317B1 true EA046317B1 (en) 2024-02-28

Family

ID=

Similar Documents

Publication Publication Date Title
RU2701080C1 (en) Video encoding method and a video encoding device and a video decoding method and a video decoding device for sao parameter signaling
RU2760849C2 (en) Methods, devices and systems for parallel encoding and decoding of video information
US20230062509A1 (en) Chroma intra prediction in video coding and decoding
US11265549B2 (en) Method for image coding using convolution neural network and apparatus thereof
CN108353175B (en) Method and apparatus for processing video signal using coefficient-induced prediction
JP2022511860A (en) Video coding method based on secondary conversion and its equipment
US20230239464A1 (en) Video processing method with partial picture replacement
JP7448558B2 (en) Methods and devices for image encoding and decoding
TW202234883A (en) Intra block copy scratch frame buffer
JP2022527774A (en) Video coding method based on conversion and its equipment
CN113992914B (en) Inter-frame prediction method and device, equipment and storage medium
RU2630180C1 (en) Video encoding method with motion prediction, video encoding device with motion prediction, video encoding program with motion prediction, video decoding method with motion prediction, video decoding device with motion prediction, and video decoding program with motion prediction
EA046317B1 (en) INTERNAL COLOR PREDICTION IN VIDEO CODING AND DECODING
US20220377342A1 (en) Video encoding and video decoding
KR20220088939A (en) Deep intra prediction of image blocks
WO2020120948A1 (en) Video encoding and video decoding
US20240236378A1 (en) Encoding method, decoding method, and decoder
RU2820843C1 (en) Bdpcm-based image encoding method and device for this
US20240114147A1 (en) Systems, methods and bitstream structure for hybrid feature video bitstream and decoder
RU2806813C2 (en) Method and device for image coding based on bdpcm
RU2815810C2 (en) Encoding information on set of transformation kernels
RU2786626C2 (en) Method and device for image separation
GB2587363A (en) Method of signalling in a video codec
CN116998156A (en) Transform skipped coefficient symbol prediction
WO2022047129A1 (en) Methods and systems for combined lossless and lossy coding