EA043568B1 - Способ и система для определения синтетически измененных изображений лиц на видео - Google Patents

Способ и система для определения синтетически измененных изображений лиц на видео Download PDF

Info

Publication number
EA043568B1
EA043568B1 EA202192996 EA043568B1 EA 043568 B1 EA043568 B1 EA 043568B1 EA 202192996 EA202192996 EA 202192996 EA 043568 B1 EA043568 B1 EA 043568B1
Authority
EA
Eurasian Patent Office
Prior art keywords
video
image
face
images
faces
Prior art date
Application number
EA202192996
Other languages
English (en)
Inventor
Кирилл Евгеньевич Вышегородцев
Александр Викторович Балашов
Григорий Алексеевич Вельможин
Валентин Валерьевич Сысоев
Original Assignee
Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) filed Critical Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк)
Publication of EA043568B1 publication Critical patent/EA043568B1/ru

Links

Description

Область техники
Изобретение относится к области компьютерных технологий, применяемых в области обработки данных, в частности к способу и системе для определения синтетически измененных изображений лиц на видео.
Уровень техники
На сегодняшний день применение технологий для формирования синтетических изображений, накладываемых на изображения лиц реальных людей, основано, как правило, на применении алгоритмов машинного обучения, например, искусственных нейронных сетей (ИНС). Такие подходы направлены на наложение цифровых масок, имитирующих лица людей. Примером такой технологии является методика DeepFake, основанная на искусственном интеллекте и применяемая для синтеза изображений (см. http s://ru. wikipedia. org/ wiki/D e ep fake).
Известен способ распознавания синтетически измененных изображений лиц людей, в частности DeepFake изображений (Tolosana et al. DeepFakes Evolution: Analysis of Facial Regionsand Fake Detection Performance // Biometrics and Data Pattern Analytics - BiDA Lab, Universidad Autonoma de Madrid. 2020), который основан на анализе сегментов, формирующих изображения лица. Анализ осуществляется с помощью ИНС, обученной на реальных и синтетических изображениях лиц людей, в частности, знаменитостей, что может применяться для выявления подложных (фейковых) видео. Способ позволяет анализировать сегменты лица, на основании которых выдается классификация соответствующего изображения как содержащего синтетические изменения или нет.
Недостатком такого подхода является низкая эффективность в связи с отсутствием применения интегральной оценки, которая бы формировалась исходя из геометрических параметров изображения лица, так и на основании пространственно-временной характеристики лица человека в видео. Другим недостатком является отсутствие в некоторых решениях обработки нескольких людей, если на видео присутствует нескольких человек. В других известных открытых решениях (https://www.kaggle.com/c/deepfakedetection-challenge, https://ai.facebook.com/datasets/dfdc/) такая обработка осуществляется путём независимой оценки каждого изображения лица, каждого человека, на каждом анализируемом кадре видео и дальнейшем усреднением всех таких оценок. Все такие решения показывают низкую эффективность при обработке видео с несколькими людьми.
Сущность изобретения
Заявленные способ и система направлены на решение технической проблемы, заключающейся в эффективном и точном определении синтетических изменений изображений лиц на видео.
Техническим результатом является повышение точности и эффективности обнаружения синтетического изменения изображений лиц людей в видео. В первой предпочтительной реализации изобретения предложен компьютерно-реализуемый способ определения синтетически измененных изображений лиц на видео, выполняемый с помощью процессора, при котором:
a) получают по меньшей мере одно изображение из видео;
b) выявляют изображения лиц на упомянутом изображении;
c) рассчитывают векторное представление геометрических характеристик выявленных изображений лиц, с помощью по меньшей мере алгоритма сравнения опорных точек лиц, для определения изображений по меньшей мере лица одного человека;
d) с помощью покадрового анализа видео рассчитывают пространственно-временную значимость каждого изображения лица каждого человека на упомянутом изображении, которая определяется как векторное представление пространственной характеристики лица, характеризующей размер области лица по отношению к кадру, и векторное представление временной характеристики изображения лица, характеризующей время отображения анализируемого изображения лица на кадрах видео;
e) рассчитывают вектор оценок вероятности синтетических изменений для изображений лиц человека, характеризующий наличие синтетических изменений изображений лиц этого человека в каждом кадре
f) рассчитывают общую оценку вероятности синтетических изменений на основании векторных преставлений пространственного, временного распределения и вектора оценок синтетических изменений для изображений лиц каждого человека в видео;
g) формируют итоговую оценку наличия на видео синтетического изменения изображения по меньшей мере одного лица;
h) формируют интегральную оценку наличия на видео синтетически измененного изображения лица по меньшей мере по одной итоговой оценке модели и генерируют уведомление о наличии синтетически измененного лица в видео. В одной из частных реализаций способа этапы с) - h) выполняются моделью машинного обучения или ансамблем моделей, при этом модель машинного обучения или ансамбль моделей натренированы на наборе данных, содержащих синтезированные изображения лиц людей.
В другой частной реализации способа модель машинного обучения использует функцию автоматической корректировки разметки, обеспечивающей исправление некорректной разметки каждого лица на кадрах, путём сравнения изображений лиц на синтезированном видео с их изображениями на исходном видео.
- 1 043568
В другой частной реализации способа сравнение лиц осуществляется на основании значения векторной близости опорных точек, формирующих геометрические характеристики исходного изображения лица и синтезированного изображения на его основе.
В другой частной реализации способа сравнение лиц осуществляется с помощью анализа координат областей исходного изображения лица и синтезированного изображения лица.
В другой частной реализации способа пространственно-временная значимость рассчитывается как общая матрица на основании значений векторных представлений, а оценка наличия синтетических изменений изображений лиц отдельного человека формируется моделью машинного обучения по полученной общей матрице.
В другой частной реализации способа ансамбль моделей машинного обучения состоит из группы моделей, каждая из которых обучена на выявление определенного алгоритма формирования синтетических изображений.
В другой частной реализации способа содержит интегральный классификатор, получающий на вход оценки, формируемые с помощью моделей, входящих в ансамбль.
В другой частной реализации способа общая оценка рассчитывается с помощью интегрального классификатора.
В другой частной реализации способа дополнительно определяется алгоритм формирования синтетического изображения лица в анализируемом видеопотоке.
В другой частной реализации способа видео представляет собой онлайн видеоконференцию.
В другой частной реализации способа при определении синтетически измененного изображения лица в области его отображения формируется уведомление.
В другой частной реализации способа при определении синтетически измененного изображения лица осуществляется блокирование соединения с данным пользователем.
В другой частной реализации способа анализируемое изображение получают из системы биометрической идентификации или биометрической аутентификации.
В другой частной реализации способа при определении синтетически измененного изображения лица осуществляется блокировка доступа или запрашиваемого действия со стороны пользователя.
В другой частной реализации способа при определении синтетически измененного изображения лица дополнительно запрашивают данные аутентификации пользователя, выбираемые из группы: логин, код, пароль, двухфакторная аутентификация или их сочетания.
В другой частной реализации способа формируется сигнал в виде количественной оценки вероятности присутствия синтетически измененного изображения лица.
В другой частной реализации способа изображения получают из видео системы мониторинга медиапространства и анализа социальных медиа и СМИ, выполняющей проверку контента в социальных медиа и СМИ.
В другой частной реализации способа при определении синтетически измененного изображения лица формируется уведомление для информирования человека, который был подвержена созданию измененного изображения лица.
Во второй предпочтительной реализации изобретения предложена система определения синтетически измененных изображений лиц на видео, содержащая по меньшей мере один процессор и по меньшей мере одну память, хранящую машиночитаемые инструкции, которые при их выполнении процессором реализуют вышеуказанный способ.
Краткое описание фигур
Фиг. 1 иллюстрирует блок-схему реализации заявленного способа.
Фиг. 2 иллюстрирует пример формирования векторного представления изображений лиц в видео.
Фиг. 3А-Б иллюстрируют пример формирования векторных представлений пространственно-временных характеристик.
Фиг. 4 иллюстрирует блок-схему формирования вектора оценок синтетических изображений лиц, вектора пространственной характеристики изображений лиц и вектора временной характеристики изображений лиц для изображений лиц каждого человека на видео.
Фиг. 5 иллюстрирует блок-схему независимого формирования итоговых пространственной и временной характеристик, и общей оценки синтетических изображений лиц.
Фиг. 6 иллюстрирует блок-схему обработки итоговых пространственной и временной характеристик, при их независимом формировании от общей оценки синтетических изображений лиц, для исключения лиц людей из расчёта оценки синтетических изменений в видео.
Фиг. 7 иллюстрирует блок-схему формирования уведомления с интегральной оценкой наличия синтетических изображений лиц людей в видео, уведомления о вероятном алгоритме генерации данных синтетических изменений, при использовании совокупности ансамблей обученных моделей машинного обучения, когда модели каждого ансамбля обучены на наборе данных с одним конкретным алгоритмом генерации синтетических изменений лиц, а, по меньше мере, модели одного ансамбля обучены на наборе данных с несколькими алгоритмами генерации синтетических изменений лиц.
Фиг. 8 иллюстрирует блок-схему, когда уведомление формируется интегральным классификатором
- 2 043568 на основании оценок нескольких обученных моделей машинного обучения или их ансамблей, а на видео присутствует несколько людей.
Фиг. 9 иллюстрирует общий вид вычислительного устройства.
Осуществление изобретения
В настоящем решении под термином синтетически измененное изображения лица здесь и далее по тексту будет пониматься любой тип формирования цифрового изображения, имитирующего лицо или часть лица другого человека, в том числе путем наложения цифровых масок, искажение/изменение частей лица и т.п. Под синтетически измененным изображением лица следует понимать, как полностью сгенерированные изображения, например, масок с помощью технологии DeepFake, накладываемых на лицо реального человека в кадре с сохранением мимической активности изображения, так и формирование частичного изменения отдельных частей лица (глаз, носа, губ, ушей и т.п.).
Как представлено на фиг. 1, реализация заявленного способа (100) определения синтетически измененных изображений лиц в видео заключается в выполнении вычислительным компьютерным устройством, в частности, с помощью одного или нескольких процессоров в автоматизированном режиме программного алгоритма, представленного в виде последовательности этапов (101)-(107), обеспечивающих выполнение материальных действий в виде обработки электронных сигналов, порождаемых при исполнении процессором вычислительного устройства своих функций в целях реализации выполнения обработки данных в рамках исполнения способа (100).
На первом этапе (101) осуществляется получение и сохранение в память вычислительного устройства, выполняющего способ (100), одного или нескольких изображений, получаемых из видео. В настоящих материалах заявки под термином видео будет пониматься видеоизображение, видеопоток (например, с ip-камеры, камеры электронного устройства, виртуальной камеры, с Интернет-приложения), упорядоченная последовательность кадров (изображений), подвыборка кадров, в том числе вплоть и до одного изображения.
На этапе (102) полученные изображения анализируются на предмет наличия на них изображений лиц для определения наличия его синтетического изменения. Последующий анализ полученных изображений может выполняться с помощью одной или нескольких (ансамбля) моделей машинного обучения, которые обучены на детектирование и классификацию изображений лиц.
При выявлении синтетического изменения изображений лиц в видео могут использоваться различные модели машинного обучения, например, архитектуры нейронных сетей, таких как полносвязанные нейронные сети, CNN (сверточные сети), RNN (рекуррентные сети), Transformer (сети трансформеры), CapsNet (капсульные сети) и их совокупности.
При своем обучении сети могут выявлять одну или несколько особенностей синтетически измененных изображений лиц, в частности: анатомическая пропорция лица и головы; анатомическая особенность расположения частей лица; пропорции частей лица; пластика и рельеф мимического разнообразия; особенности пластики деталей лица: бровей, глаз, носа, ушей, губ, кожи; общая характеристику мышц лица и шеи; строение и распределение мышц на группы (мимические, жевательные, подзатылочные и прочие), место расположения; неестественность теней, света, бликов, полутеней, рефлексов освещенности и окружения деталей лица и окружающего пространства; температурное распределение по элементам лица; размытие, сглаживание при отрисовке элементов лица, головы и других элементов изображения; повышение резкости (шарпности) и искусственное усиление черт при отрисовке элементов лица, головы и других элементов изображения; графические артефакты, оставляемые алгоритмами генерации и/или их конкретными реализациями в программном обеспечении при создании синтетических изображений.
Так же возможно использование предобученных нейронных сетей с дальнейшим их обучение или без такового. В случае использования архитектур со сверточными сетями могут использоваться такие предобученные модели как: AlexNet, VGG, NASNet-A, DenseNet, DenseNet-B, DenseNet-BC, Inception, Xception, GoogleNet, PReLU-net, BN-inception, AmoebaNet, SENet, ResNet-18, ResNet-34, ResNet-50, ResNet-101, ResNet-152, XResNet, Squeeze-and-Excitation ResNet (SE-ResNet), EfficientNet-B0, EfficientNet EfficientNet-B1, EfficientNet-B2, EfficientNet-B3, EfficientNet-B4, EfficientNet-B5, EfficientNet-B6, EfficientNet-B7, YOLO и наследуемых от них.
Обучение модели машинного обучения производилось как минимум с одним этапом из следующих: получение классифицированных (размеченных, с проставленными классами) данных в одном или нескольких форматов: видеопоток, видеофайл, кадры (кадр) видео;
выделение кадров в случае получения видеопотока или видеофайла;
обнаружение лица (лиц) на кадрах. Их вырезка из кадра с некоторой окрестностью вокруг лица и получение массивов данных лиц;
для данных класса Синтетически измененное изображение в случае наличия исходного кадра изображения - кадр из которого формировалось такое измененное изображение, проверка правильности проставленного класса;
для каждого лица производится трансформация его массива данных (значений пикселей, bmpкарты) по алгоритму предобработки (стандартизация данных, масштабирование изображения и другие);
аугментация данных;
- 3 043568 формирование пакета данных и подача его на обучение нейронной сети;
подсчет значения целевой функции и обратное распространении ошибки пакета данных для обучения сети. В качестве показателей качества могут применяться: LogLoss, accuracy, precision (точность), recall (полнота), F-мера, AUC-ROC, AUC-PR, коэффициент/индекс Джини (Gini coefficient), confusion matrix (матрица ошибок).
В качестве алгоритма тренировки модели машинного обучения может использоваться один или несколько следующих алгоритмов: Adagrad (Adaptive gradient algorithm), RMS (Root mean square), RMSProp (Root mean square propagation), Rprop (Resilient backpropagation algorithm), SGD (Stochastic Gradient Descent), BGD (Batch Gradient Descent), MBGD (Mini-batch Gradient Descent), Momentum, Nesterov Momentum, NAG (Nesterov Accelerated Gradient), FussySGD, SGDNesterov (SGD + Nesterov Momentum), AdaDelta, Adam (Adaptive Moment Estimation), AMSGrad, AdamW, ASGD (Averaged Stochastic Gradient Descent), LBFGS (L-BFGS algorithm - алгоритм Бройдена-Флетчера-Гольдфарба-Шанно с ограниченным использованием памяти), а так же оптимизаторы второго порядка, такие как: Метод Ньютона, Квазиньютоновский метод, Алгоритм Гаусса-Ньютона, Метод сопряженного градиента, Алгоритм ЛевенбергаМарквардта.
В качестве целевой функции при обучении модели машинного обучения используется по крайней мере одна из следующих функций: L1Loss, MSELoss, CrossEntropyLoss, CTCLoss, NLLLoss, PoissonNLLLoss, GaussianNLLLoss, KLDivLoss, BCELoss, BCEWithLogitsLoss, MarginRankingLoss, HingeEmbeddingLoss, MultiLabelMarginLoss, HuberLoss, SmoothL1Loss, SoftMarginLoss, MultiLabelSoftMarginLoss, CosineEmbeddingLoss, MultiMarginLoss, TripletMarginLoss, TripletMarginWithDistanceLoss.
При обучении модели машинного обучения может применяться этап самопроверки разметки (автоматической корректировки разметки), на котором проводится проверка каждого лица на изображении (кадре), которое размечено как содержащее синтетическое изменение, что оно действительно содержит признаки такого изменения.
Данная проверка реализуется в случае наличия исходного видео (кадров, изображений). Исходное видео (кадры, изображения) это реальное (неизменённое внедрением синтетического изменения) видео из которого формировались синтетически измененное видео учебного (дополнительно и тестового) набора. Данная особенность реализуется следующим образом и может содержать следующие шаги:
Алгоритмом обнаружения лица на изображении на кадре синтетически измененного видео обнаруживается лицо. Вырезается часть изображения с лицом и некоторой окрестностью вокруг него. Размер окрестности может варьироваться.
В соответствующем кадре исходного видео обнаруживаются все лица. Выбирается лицо с наиболее близкими характеристиками к лицу с предыдущего шага. В качестве меры близости, в зависимости от используемого алгоритма детектирования лиц, используется близость по одной или нескольким точкам (совокупность точек) лица: носа; ноздрей; линии волос; линии растительности на лице (борода, усы); рта; губ (верхней и нижней); лба; глаз; зрачков; ушей; бровей; век; головы; скул; подбородка; носогубного треугольника; координат прямоугольника лица.
В качестве алгоритма для детектирования лиц людей могут использоваться такие подходы, как: адаптированное улучшение и основанный на нём метод Виолы-Джонса, MTCNN, метод гибкого сравнения на графах (Elastic graph matching), DeepFace Facebook, скрытые Марковские модели (СММ, HMM), Метод главных компонент и алгоритмы на основе разложения матрицы данных (РСА, SVD, LDA), Active Appearance Models (AAM), Active Shape Models (ASM), FERET (face recognition technology), SURF, NeoFace, SHORE, ROI, Template Matching Methods, DPM (модель деформируемой детали), Искусственные нейронные сети (Neural network: Multilayer Perceptrons), Факторного анализа (ФА), Линейный дискриминантный анализ (Linear Discriminant Analysis), Метод опорных векторов (Support Vector Machines (SVM)), Наивный байесовский классификатор (Naive Bayes classifier), Скрытые Марковские модели (Hidden Markov model), Метод распределения (Distribution-based method), Совмещение ФА и метода главных компонент (Mixture of PCA, Mixture of factor analyzers), Разреженная сеть окон (Sparse network of winnows (SNoW)).
Под близостью понимаем минимальность расстояния для числовых данных по метрике БреяКёртиса, Канберры, Ружичка, Кульчинского, Жаккара, Евклидова расстояния, метрики Манхэттена, расстояние размера Пенроуза, расстояние формы Пенроуза, Лоренцевское расстояние, расстояние Хеллинджера, расстояние Минковского меры р, расстояние Махаланобиса, статистическое расстояние, корреляционные подобности и расстояния (корреляция Пирсона, подобность Орчини, нормированное скалярное произведение) или иное. При вычислении близости для расчета берутся координаты точек на кадре синтетически измененного видео и координаты таких точек на кадре исходного видео, далее выбирается наиболее близкое изображения лица, как лица с минимальными расстояниями между используемыми точками.
В одном из частных примеров реализации также возможно выделение (получение координат) области лица на кадре синтетически измененного видео, после чего выполняется вырезание области с такими же координатами на кадре исходного видео. В другом частном примере реализации может выполняться обратный вид обработки - на кадре исходного видео обнаруживается лицо, а на кадрах синтетиче- 4 043568 ски измененного видео вырезается область с такими же координатами. По итогу выполненных операций получается два изображения, которые представляют собой область с лицом с кадра исходного видео и лица с кадром синтетически измененного видео.
полученная пара изображений сравнивается между собой по заданной метрике для оценки уровня искажения изображения. В качестве такой метрики может использоваться:
пиковое отношение сигнала к шуму (PSNR - peak signal-to-noise ratio). https://ru.wikipedia.org/wiki/Пиковое_отношение_сигнала_к_шуму ;
среднеквадратичная ошибка (MSE - mean square error). https://m.wrkrpedia.org/wrkr/Среднеквадратическое_отkлонение;
квадратный корень функции среднеквадратической ошибки (RMSE - root-mean-square error). https://m.wikipedia.org/wiki/Пиковое_отношение_сигнала_к_шуму;
относительное среднее отклонение (RMD - Root mean squared deviation);
среднеквадратичное отклонение (RMS - Root Mean Squared);
индекс структурного сходства (SSIM - structure similarity). https://ru.wikipedia.org/wiki/SSIM;
структурные отличия (DSSIM - structural dissimilarity). https://ru.wikipedia.org/wiki/SSIM ;
отношение сигнал/шум (ОСШ; SNR - signal-to-noise ratio). https://ru.wikrpedia.org/wrkr/Отношение_сигнал/шум/;
абсолютная разница между пикселями и наследуемые от нее показатели (средняя, относительная и прочие).
При этом если анализируются цветные изображений (с несколькими компонентами на пиксель) применяются аналогичные с дальнейшим взвешенным усреднением по каждой из компонент. Например, для RGB изображения для расчета PSNR или MSE считается по всем трем компонентам (и делится на утроенный размер изображения). Для синтетического изображения хорошего качества и хорошего качества видео (без помех у шумов) предпочтительно использовать PSNR. Если наложению синтетического изображения подлежит только часть лица, то предпочтительно применять PSNR. Если видео с помехами, или высокой зернистостью, то предпочтительно использовать DSSIM или SSIM. При наличии множества помех предпочтительно применяться ОСШ. Если качество видео крайне низкого качества, например, с высокой степенью сжатия, то предпочтительно применять MSE или RMD. Если размеры лица по отношению к кадру маленькие, то применяется абсолютная разница между пикселями. По применяемой метрике выбирается граничное значение, при этом если значение метрики между двумя полученными изображениями больше данного граничного значения, то лицо на кадре принимается как синтетически измененное. Если значение меньше или равно, то, не смотря на разметку данного изображения как синтетически измененного, то данное изображение лица принимается за реальное.
При выполнении трансформации массивов данных лиц могут использоваться такие элементы как: нормировка данных, стандартизация данных, приведение размера к заданному, алгоритмы масштабирование изображения.
Аугментация данных для тренировки одной или нескольких моделей машинного обучения может проводится с использование как минимум одного из следующих подходов: масштабирование изображения (увеличения, уменьшения); обрезка изображения; затемнение всего изображения, отдельных каналов изображения; осветление всего изображения, отдельных каналов изображения; повышение контрастности; цветовые преобразования: перемена мест (перемешивание) цветовых каналов, усиление, уменьшения одного или несколько цветовых каналов, получение изображения в градациях серого, получение монохромного изображения, удаление цветового канала; сдвиги и децентровка изображения; повороты изображения на различные углы в различных направлениях, вращение изображения или его части; наклоны, перекосы изображения; зеркальное отображение вдоль произвольной оси, линии; дополнительные линии или геометрические объекты на изображении: с прозрачностью своего цвета, без прозрачности, цветные объекты; серые объекты (от белого до черного цвета), в том числе и удаление части изображения (помещение черного объекта на изображение) на геометрических или смысловых позициях изображения; добавление любого фона на изображение; блики и затемнения частей изображения; дефокус (размытие) изображения или его частей; повышение зернистости, шарпности (резкости) изображения; сжатия и растяжения вдоль осей, линий; зашумление изображение по всему изображению или его части, помещение белого или иного шума; добавление одного или несколько элементов гауссового шума (Blur), пятнистого шума; совмещение (наложение) двух или нескольких изображений из тренировочной выборки (частей изображений) с различными весами; эластическая трансформация изображения (Elastic Transform); сеточное искажение изображения (GridDistortion); сжатие данных изображения различными алгоритмами обработки изображения с некоторым качеством (например, сжатие исходного bmp-изображения по стандарту JPEG некоторого качества, а затем получения из него снова bmp-изображения); изотропные, аффинные и другие преобразования (https://github.com/albumentations-team/albumentations).
При этом все вышеуказанные применимы во всевозможных видах графического представления или его каналах: RGB, sRGB, RGBA, ProPhoto, CMYK, XYZ, LMS, HKS, HSV, HSB, HSL, AHSL, RYB, LAB, NCS, RAL, YUV. YCbCr. YPbPr, YDbDr, YIQ, PMS (Пантон), Манселла. Указанные методы аугментации могут применяться и к одному изображению, в любой последовательности, с вероятностью применения
- 5 043568 или без нее. С помощью обученной модели или алгоритма детектирования лиц людей или на этапе (102) выделяются лица. На этапе (103) выполняется обработка изображений лиц, выделенных на этапе (102), с целью определения какие изображения лиц принадлежат одному человеку. Для этого на этапе (103) осуществляется расчет векторного представления геометрических характеристик изображений лиц. В общем случае это выполняется с помощью алгоритма сравнения опорных точек лиц. С помощью определения геометрических характеристик определяются изображения лиц, принадлежащие непосредственно одному и тому же человеку. Формирование данного вектора позволяет оценить вероятность наличия лица реального человека. Алгоритм работы может осуществляться следующим образом. На i-ом кадре выделяется j-oe лицо. Данное j-oe лицо ищется на последующих кадрах.
В одном из частных примеров реализации изобретения поиск осуществляется путём выделения наиболее близкого изображения лица в пространстве среди всех обнаруженных лиц на i+1-ом кадре. В качестве меры близости, в зависимости от используемого алгоритма детектирования лиц, используется близость (числовых данных по метрике Брея-Кёртиса, Канберры, Ружичка, Кульчинского, Жаккара, Евклидова расстояния, метрики Манхэттена, расстояние размера Пенроуза, расстояние формы Пенроуза, Лоренцевское расстояние, расстояние Хеллинджера, расстояние Минковского меры р, расстояние Махаланобиса, статистическое расстояние, корреляционные подобности и расстояния - корреляция Пирсона, подобность Орчини, нормированное скалярное произведение, или иное) по одной или нескольким точкам лица (опорным точкам лица): носа, ноздрей, линии волос, линии растительности на лице (борода, усы), рта, губ (верхней и нижней), лба, глаз, зрачков, ушей, бровей, век, головы, скул, подбородка, носогубного треугольника, координат прямоугольника лица.
Осуществляется расчет расстояния между соответствующими опорными точками j-го лица на i-ом кадре и точками каждого лица на i+1-ом кадре. Затем выбирается лицо с i+1-го кадра с наименьшими расстояниями по опорным точкам. В другом частном примере осуществлении изобретения на i+1-ом кадре ищется лицо с наиболее близкими характеристиками между данными опорными точками (взаимным расположением точек). В этом случае считаются геометрические характеристики (размерами) расположения опорных точек j-го изображения лица и на i+1 кадре ищется изображения лица с наиболее похожими геометрическими характеристиками. В еще одном примере осуществления для каждого лица выделяется некоторая пространственная окрестность (область расположения) на кадре и проверяется есть ли какое-либо изображения лица в i+1-ом кадре. Реализация подходов при осуществлении заявленного способа (100) не ограничивает иные возможные способы поиска изображения лица на кадрах.
Далее на этапе (104) для каждого обнаруженного изображения лица на кадрах определяется рассчитывается оценка вероятности его синтетического изменения по используемой обученной модели машинного обучения детектирования и классификации синтетических изменений. Данная оценка добавляется в вектор оценок изображений лиц j-ого человека. Если на очередном кадре (или серии кадров) упорядоченной последовательности кадров изображение j-ого лица не обнаруживается, то формирование вектора оценок может завершиться. Пример формирования вектора оценок для изображения лица человека на кадрах видео представлен на фиг. 2. В другом из вариантов реализации формирование вектора оценок для изображений лиц j-го человека происходит по всему видео, а не завершается, если на последующем кадре изображение лица не обнаруживается.
Далее на этапе (104) для каждого определенного изображения лица человека определяются его пространственная и временная значимость, которая определяется как векторное представление пространственной характеристики лица человека, характеризующей размер области лица по отношению к кадру, и векторное представление временной характеристики изображения лица, характеризующей время отображения анализируемого изображения лица на кадрах видео. На фиг. 4 представлена схема этапа 104. Расчёты вектора оценок синтетических изменений изображений лица j-го человека на видео, который состоит из оценок изменений изображения лица в каждом анализируемом кадре, расчёт вектора пространственной и временной характеристик (пространственного вектора и временного вектора) могут проводится последовательно, как это представлено на фиг. 4, или параллельно, независимо друг от друга. Описание изобретения не ограничивает порядок и способ расчёта данных векторов, а описывает их применение для повышения качества выявления синтетических изменений изображений лиц на видео.
На фиг. 3А-Б представлен пример расчета векторов пространственной и временной значимостей и вектора оценок синтетических изменений. На представленном примере для каждого кадра (К1)-(К6) полученного на этапе (101) видео рассчитывается вектор оценок синтетически измененного лица, вектор пространственного распределения лиц на кадрах, а также временная характеристика лица на кадрах. Пространственная характеристика может рассчитываться исходя из занимаемой доли площади лица от размера кадра. Например, прямоугольник, в который вписано лицо в кадре, имеет координаты: X1=100, Y1=50 - верхний левый угол; Х2=300, Y2=150 - нижний правый угол. Площадь такого прямоугольника 200x100=20000. Видео получено в разрешении 1280x1920 пикселей и его площадь равна 2457600. Доля площади лица в кадре составит 20000/2457600=0,8%. Временная характеристика для каждого лица может рассчитываться как скалярная величина, например, время его отображения на видео. В другой реализации может формироваться вектор, при котором 1 присваивается если человек присутствует в кадре, или 0 - если его нет в кадре. Пространственную и временную значимости можно представить, в частности, как
- 6 043568 общую матрицу на основании значений сформированных векторных представлений.
На этапе (105) формируется общая оценка синтетических изменений изображений лиц человека на видео на основании векторов, полученных на этапах (103)-(104). То есть расчет оценки вероятности синтетического изменения изображения для каждого лица человека в видео выполняется на основании векторов временного распределения, пространственного распределения и вектора оценок вероятности, что изображение лица на кадре было подвержено синтетическим изменениям.
Для формирования общей оценки синтетических изменений изображений лиц j-го человека может использоваться отдельная модель машинного обучения. Для формирования упомянутой общей оценки полученные вектора пространственного и временного распределения, вектор оценок синтетических изменений изображения лица объединяются в общую двумерную матрицу, представленную в табл. 1 для примера на фиг. 3А. Полученная матрица подаётся на вход модели машинного обучения для формирования общей оценки синтетического изменения лица j-го человека на видео. Данная модель может представлять собой рекуррентную нейронную сеть, сверточную нейронную сеть, полносвязанную нейронную сеть. Подобное объединение рекомендуется использовать для случая, когда человек присутствует на разных временных отрезках видео, а не только в одной последовательной серии кадров.
Таблица 1
Двумерная матрица векторного представления пространственно-временного распределения и вектора оценок синтетических изменений лиц.
0,5 0,04 0,03 0,01 0,02 0,5
0 0,45 0,45 0,45 0,45 0
0 1 1 1 1 0
В другом частном примере реализации изобретения в общую двумерную матрицу объединяются вектор пространственного распределения изображения лица человека и вектор оценок присутствия синтетических изменений. Но их объединение происходит только по кадрам, на которых есть лицо данного человека. Пример представлен в табл. 2 для фиг. 3А. Подобное объединение рекомендуется использоваться для случая, когда человек присутствует в одной последовательной серии кадров.
Таблица 2 Двумерная матрица векторного представления пространственно-временного распределения.
0,04 0,03 0,01 0,02
0,45 0,45 0,45 0,45
Один из вариантов формирование уведомления наличия изменений в видео, при способе расчёта общей оценки синтетических изменений изображений лиц j-го человека на этапе 105 с помощью обученной модели, которая использует матрицу объединения векторов пространственно-временного представления и вектора оценок, представлена на фиг. 8.
В другом частном примере реализации изобретения на этапе (105) вектор оценок, характеризующий то, что изображение лица на кадре было подвержено синтетическим изменениям, анализируется отдельно от векторов временного и пространственного распределения. Пример данной схемы приведён на фиг. 5. В этом случае общая оценка синтетического изменения лица j-го человека строится только на векторе оценок синтетических изменений. Для формирования общей оценки может использоваться отдельная модель машинного обучения или отдельный алгоритм. В одном из частных примеров реализации изобретения, приведенного на фиг. 5, вектор оценок подаётся на вход отдельно обученной модели. Данная модель может представлять собой рекуррентную нейронную сеть, сверточную нейронную сеть, полносвязанную нейронную сеть. В подобных случаях может использоваться вектор определённой длины. В случае если полученный вектор оценок изображения лица меньше заданной длины вектора, то такой вектор дополняется значениями, например, 0,5 с определённого конца. Если вектор больше заданной длины, то он обрезается с определённого конца.
В другом частном примере реализации изобретения производится подсчёт количества оценок по заданным интервалам или частоты интервалов оценок. Например, берутся интервалы с шагом 0,1: [0-0,1; 0,1-0,2; 0,2-0,3; 0,3-0,4; 0,4-0,5; 0,5-0,6; 0,6-0,7; 0,7-0,8; 0,8-0,9; 0,9-1] и подсчитывается частота оценок из вектора в данных интервалах. Полученные значения подаются на модель машинного обучения, например, опорных векторов (SVM), K-соседей (K-nearest neighbour), линейной (нелинейной) регрессии, модель деревьев классификации. Описание изобретения не ограничивает вид модели машинного обучения, а описывает ее применение к полученному вектору оценок. В еще одном частном примере реализации изобретения общая оценка синтетический изменений изображений лица человека получается усреднением вектора оценок, или получается извлечением максимального значения, или по всему вектору или по его части.
В одном из частных примеров реализации изобретения, приведенного на фиг. 5, для дальнейшего анализа строятся общие пространственные и временные характеристики изображений лица человека.
- 7 043568
Общая пространственная характеристика рассчитывается как средняя по пространственному вектору данного лица. Общая временная характеристика получается как длина вектора временной характеристики по отношению к длине видео, то есть, является долей времени присутствия данного человека на видео от всего времени на видео. В другом частном варианте для расчета общей пространственной характеристики выбирается максимальное значение или минимальное.
На этапе (106) вычисляется итоговая оценка присутствия синтетических изменений лиц для всего видео. Данная оценка строится с помощью каждой общей оценки синтетический изменений изображений лиц людей. Другими словами, на этапах (104)-(105) получаем оценки синтетических изменений для каждого человека на видео (отдельный человек выделяется на этапе 103), а на этапе (106) по оценкам для людей рассчитываем оценку для видео. Данный этап совокупного анализа оценок всех людей на видео позволяет повысить качество работы изобретения по сравнению с существующими. Например, если на видео множество людей и по всем им имеем высокую оценку синтетического изменения, то вероятно всего исследуемое видео очень сильно сжато, и мы имеем ложное положительное решение моделей при анализе изображений лиц. Совокупный анализ оценок на этапе (106) позволит в таком случае сформировать итоговую оценку для видео как видео без синтетических изменений.
В одном из частных вариантов реализации изобретения, представленном на фиг. 1, используем общие оценки лиц всех людей для формирования итоговой оценки видео могут применяться следующим образом:
Определяется средневзвешенное значение оценок используемых лиц людей. В одном из частных вариантов изобретения весами для оценок могут быть произведение среднего размера изображений лиц данного человека и доли времени присутствия на видео.
Вычисляется простое среднее по оценкам синтетических изменений изображений используемых лиц людей.
Формируется максимальная оценка среди оценок используемых лиц людей.
В другом частном варианте реализации изобретения для указанного выше примера может использоваться обученная модель. Данная модель может представлять метод опорных векторов (SVM), Kсоседей (K-nearest neighbour), линейной (нелинейной) регрессии, модель деревьев классификации, одну или несколько нейронных сетей. Подобная модель может принимать на вход вектор (векторное представление данных), который характеризует количество использования интервалов оценок синтетических изменений по лицам.
В другом частном варианте реализации изобретения, пример этапов которого приведены на фиг. 5, формируются общие пространственные и временные характеристики изображений лица человека. На этапе (106) эти характеристики сравниваются с соответствующими граничными значениями. Если по итоговой характеристике размер изображения лица или время его присутствия меньше граничного значения, то оценка данного лица человека не учитывается при расчёте вероятности синтетического изменения видео (оценка None). Схема данного примера приведена на фиг. 6. Оставшиеся оценки синтетических изменений лиц людей анализируются далее выше описанными способами.
В другом частном варианте изобретения двумерные матрицы векторных представлений пространственно-временного распределения и оценок синтетических изменений лиц различных людей, формирование которых описано выше, подаются на вход этапа (106), где выполняется формирование итоговой оценки наличия синтетических изменений лиц людей на видео. Этот этап может выполняться также с помощью отдельной модели машинного обучения или ансамбля обученных моделей.
На этапе (107) формируется интегральная оценка наличия на видео синтетически измененного изображения лица по итоговым оценка наличия синтетических изменений лиц людей на видео. Для этого используются по меньшей мере одна итоговая оценка наличия синтетических изменений лиц на видео, которая формируется по отдельной модели классификации и детектирования синтетических изменений лиц. По завершению этапа (107) генерируют уведомление о наличии синтетически измененного лица в видео.
Уведомление может отображаться непосредственно в графическом интерфейсе пользователя, например, при проведении онлайн-конференции (Zoom, Skype, MS Teams). Также, уведомление может отображаться непосредственно в области выявления синтетического изменения лица, например, в области с изображением лица человека. Дополнительным эффектом от применения изобретения может являться его использование в системах биометрического контроля, например, при получении услуг (например, банковских услуг) или доступа (система контроля доступа, турникет с биометрическим сенсором). При выявлении синтетически измененного изображения лица осуществляется блокировка доступа или запрашиваемого действия со стороны пользователя. В этом случае может дополнительно запрашиваться данные аутентификации пользователя, выбираемые из группы: логин, код, пароль, двухфакторная аутентификация или их сочетания.
Заявленное решение может применяться в системах мониторинга медиапространства и анализа социальных медиа и СМИ, для выявления публичных известных людей (первые лица государства, медийные личности, известные люди и т.п.), на которых может производиться попытка их компрометации. Такие системы будут являться источником получаемого видео для его последующего анализа, и, в случае
- 8 043568 выявления синтетических изменений изображений лиц таких людей, им или соответствующей службе может быть направлено уведомление о подложно сформированной информации. Для такого вида уведомления может также сохраняться информация о времени выявленного события, источнике события.
В одном частном варианте изобретения используется несколько моделей выявления синтетических изменений в изображениях лиц, каждая из которых, по меньшей мере одна модель, обучена на свой алгоритм генерирования синтетических изменений.
В другом частном варианте на каждый алгоритм генерирования синтетических изменений обучен ансамбль моделей. Оценки с нескольких моделей в данном ансамбле усредняются.
Для итоговой классификации полученные оценки обрабатываются интегральным классификатором, что позволяет выявлять скрытые взаимосвязи между предсказаниями моделей для различных алгоритмов генерирования синтетических изменений. Это качество позволяет достичь сверхаддитивного эффекта (синергетического) и повысить качество выявления видео с присутствием синтетических изменений изображений лиц. Общая схема представлена на фиг. 7. Более подробная схема представлена на фиг. 8.
В другом частном варианте изобретения интегральным классификатором формирует не только интегральную оценку наличия синтетических изменений лиц людей на видео, но и наиболее вероятный алгоритм, с помощью которого был созданы данные синтетические изменения. Данный пример представлен на фиг. 7.
На фиг. 9 представлен общий вид вычислительного устройства (600), пригодного для реализации заявленного решения. Устройство (600) может представлять собой, например, компьютер, сервер или иной тип вычислительного устройства, который может применяться для реализации заявленного технического решения. В том числе входить в состав облачной вычислительной платформы.
В общем случае вычислительное устройство (600) содержит объединенные общей шиной информационного обмена один или несколько процессоров (601), средства памяти, такие как ОЗУ (602) и ПЗУ (603), интерфейсы ввода/вывода (604), устройства ввода/вывода (605), и устройство для сетевого взаимодействия (606).
Процессор (601) (или несколько процессоров, многоядерный процессор) могут выбираться из ассортимента устройств, широко применяемых в текущее время, например, компаний Intel™, AMD™, Apple™, Samsung Exynos™, MediaTEK™, Qualcomm Snapdragon™ и т.п. В качестве процессора (601) может также применяться графический процессор, например, Nvidia, AMD, Graphcore и пр.
ОЗУ (602) представляет собой оперативную память и предназначено для хранения исполняемых процессором (601) машиночитаемых инструкций для выполнение необходимых операций по логической обработке данных. ОЗУ (602), как правило, содержит исполняемые инструкции операционной системы и соответствующих программных компонент (приложения, программные модули и т.п.).
ПЗУ (603) представляет собой одно или более устройств постоянного хранения данных, например, жесткий диск (HDD), твердотельный накопитель данных (SSD), флэш- память (EEPROM, NAND и т.п.), оптические носители информации (CD-R/RW, DVD-R/RW, BlueRay Disc, MD) и др.
Для организации работы компонентов устройства (600) и организации работы внешних подключаемых устройств применяются различные виды интерфейсов В/В (604). Выбор соответствующих интерфейсов зависит от конкретного исполнения вычислительного устройства, которые могут представлять собой, не ограничиваясь: PCI, AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS/Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232 и т.п.
Для обеспечения взаимодействия пользователя с вычислительным устройством (600) применяются различные средства (605) В/В информации, например, клавиатура, дисплей (монитор), сенсорный дисплей, тач-пад, джойстик, манипулятор мышь, световое перо, стилус, сенсорная панель, трекбол, динамики, микрофон, средства дополненной реальности, оптические сенсоры, планшет, световые индикаторы, проектор, камера, средства биометрической идентификации (сканер сетчатки глаза, сканер отпечатков пальцев, модуль распознавания голоса) и т.п.
Средство сетевого взаимодействия (606) обеспечивает передачу данных устройством (600) посредством внутренней или внешней вычислительной сети, например, Интранет, Интернет, ЛВС и т.п. В качестве одного или более средств (606) может использоваться, но не ограничиваться: Ethernet карта, GSM модем, GPRS модем, LTE модем, 5G модем, модуль спутниковой связи, NFC модуль, Bluetooth и/или BLE модуль, Wi-Fi модуль и др.
Дополнительно могут применяться также средства спутниковой навигации в составе устройства (600), например, GPS, ГЛОНАСС, BeiDou, Galileo.
Представленные материалы заявки раскрывают предпочтительные примеры реализации технического решения и не должны трактоваться как ограничивающие иные, частные примеры его воплощения, не выходящие за пределы испрашиваемой правовой охраны, которые являются очевидными для специалистов соответствующей области техники.
-

Claims (15)

  1. ФОРМУЛА ИЗОБРЕТЕНИЯ
    1. Компьютерно-реализуемый способ определения синтетически измененных изображений лиц на видео, выполняемый с помощью процессора и содержащий этапы, на которых:
    a) получают по меньшей мере одно изображение из видео;
    b) выявляют изображения лиц на упомянутом изображении;
    c) рассчитывают векторное представление геометрических характеристик выявленных изображений лиц, с помощью по меньшей мере алгоритма сравнения опорных точек лиц, для определения изображений по меньшей мере лица одного человека;
    d) с помощью покадрового анализа видео рассчитывают пространственно-временную значимость каждого изображения лица каждого человека на упомянутом изображении, которая определяется как векторное представление пространственной характеристики лица, характеризующей размер области лица по отношению к кадру, и векторное представление временной характеристики изображения лица, характеризующей время отображения анализируемого изображения лица на кадрах видео;
    e) рассчитывают вектор оценок вероятности синтетических изменений для изображений лиц человека, характеризующий наличие синтетических изменений изображений лиц этого человека в каждом кадре;
    f) рассчитывают общую оценку вероятности синтетических изменений на основании векторных преставлений пространственного, временного распределения и вектора оценок синтетических изменений для изображений лиц каждого человека в видео;
    g) формируют итоговую оценку наличия на видео синтетического изменения изображения по меньшей мере одного лица;
    h) формируют интегральную оценку наличия на видео синтетически измененного изображения лица по меньшей мере по одной итоговой оценке модели и генерируют уведомление о наличии синтетически измененного лица в видео.
  2. 2. Способ по п.1, характеризующийся тем, что этапы с)-h) выполняются моделью машинного обучения или ансамблем моделей, при этом модель машинного обучения или ансамбль моделей натренированы на наборе данных, содержащих синтезированные изображения лиц людей.
  3. 3. Способ по п.2, характеризующийся тем, что модель машинного обучения использует функцию автоматической корректировки разметки, обеспечивающей исправление некорректной разметки каждого лица на кадрах, путём сравнения изображений лиц на синтезированном видео с их изображениями на исходном видео.
  4. 4. Способ по п.3, характеризующийся тем, что сравнение лиц осуществляется на основании значения векторной близости опорных точек, формирующих геометрические характеристики исходного изображения лица и синтезированного изображения на его основе.
  5. 5. Способ по п.3, характеризующийся тем, что сравнение лиц осуществляется с помощью анализа координат областей исходного изображения лица и синтезированного изображения лица.
  6. 6. Способ по п.1, характеризующийся тем, что пространственно-временная значимость рассчитывается как общая матрица на основании значений векторных представлений, а оценка наличия синтетических изменений изображений лиц отдельного человека формируется моделью машинного обучения по полученной общей матрице.
  7. 7. Способ по п.2, характеризующийся тем, что ансамбль моделей машинного обучения состоит из группы моделей, каждая из которых обучена на выявление определенного алгоритма формирования синтетических изображений.
  8. 8. Способ по п.7, характеризующийся тем, что содержит интегральный классификатор, получающий на вход оценки, формируемые с помощью моделей, входящих в ансамбль.
  9. 9. Способ по п.8, характеризующийся тем, что итоговая оценка рассчитывается с помощью интегрального классификатора.
  10. 10. Способ по п.9, характеризующийся тем, что дополнительно определяется алгоритм формирования синтетического изображения лица в анализируемом видеопотоке.
  11. 11. Способ по п.1, характеризующийся тем, что видео представляет собой онлайн видеоконференцию.
  12. 12. Способ по п.11, характеризующийся тем, что при определении синтетически измененного изображения лица в области его отображения формируется уведомление.
  13. 13. Способ по п.11, характеризующийся тем, что при определении синтетически измененного изображения лица осуществляется блокирование соединения с данным пользователем.
  14. 14. Способ по п.1, характеризующийся тем, что анализируемое изображение получают из системы биометрической идентификации или биометрической аутентификации.
  15. 15. Способ по п.14, характеризующийся тем, что при определении синтетически измененного изображения лица осуществляется блокировка доступа или запрашиваемого действия со стороны пользователя.
    -
EA202192996 2021-10-19 2021-11-30 Способ и система для определения синтетически измененных изображений лиц на видео EA043568B1 (ru)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2021130421 2021-10-19

Publications (1)

Publication Number Publication Date
EA043568B1 true EA043568B1 (ru) 2023-06-01

Family

ID=

Similar Documents

Publication Publication Date Title
US10574883B2 (en) System and method for guiding a user to take a selfie
US11380119B2 (en) Pose-aligned networks for deep attribute modeling
WO2019184125A1 (zh) 基于微表情的风险识别方法、装置、设备及介质
US10049262B2 (en) Method and system for extracting characteristic of three-dimensional face image
Das et al. SSERBC 2017: Sclera segmentation and eye recognition benchmarking competition
Ahuja et al. Convolutional neural networks for ocular smartphone-based biometrics
CN109271930B (zh) 微表情识别方法、装置与存储介质
WO2021196721A1 (zh) 一种舱内环境的调整方法及装置
US10936868B2 (en) Method and system for classifying an input data set within a data category using multiple data recognition tools
RU2768797C1 (ru) Способ и система для определения синтетически измененных изображений лиц на видео
CN110598638A (zh) 模型训练方法、人脸性别预测方法、设备及存储介质
JP6071002B2 (ja) 信頼度取得装置、信頼度取得方法および信頼度取得プログラム
CN111008971B (zh) 一种合影图像的美学质量评价方法及实时拍摄指导系统
US20220164852A1 (en) Digital Imaging and Learning Systems and Methods for Analyzing Pixel Data of an Image of a Hair Region of a User's Head to Generate One or More User-Specific Recommendations
Zhao et al. Applying contrast-limited adaptive histogram equalization and integral projection for facial feature enhancement and detection
WO2021088640A1 (zh) 一种基于启发式高斯云变换的人脸识别技术
Vitek et al. Exploring bias in sclera segmentation models: A group evaluation approach
Mayer et al. Adjusted pixel features for robust facial component classification
CN113436735A (zh) 基于人脸结构度量的体重指数预测方法、设备和存储介质
Szankin et al. Influence of thermal imagery resolution on accuracy of deep learning based face recognition
Gowda Age estimation by LS-SVM regression on facial images
EA043568B1 (ru) Способ и система для определения синтетически измененных изображений лиц на видео
Thomas et al. Real Time Face Mask Detection and Recognition using Python
Mabuza-Hocquet et al. Predicting and Classifying Gender from the Human Iris: A Survey on Recent Advances
Emadi et al. Human face detection in color images using fusion of Ada Boost and LBP feature