BR102019024569A2 - video recognition method capable of encoding temporal and spatial relationships of concepts using contextual information - Google Patents

video recognition method capable of encoding temporal and spatial relationships of concepts using contextual information Download PDF

Info

Publication number
BR102019024569A2
BR102019024569A2 BR102019024569-7A BR102019024569A BR102019024569A2 BR 102019024569 A2 BR102019024569 A2 BR 102019024569A2 BR 102019024569 A BR102019024569 A BR 102019024569A BR 102019024569 A2 BR102019024569 A2 BR 102019024569A2
Authority
BR
Brazil
Prior art keywords
temporal
egocentric
concept
video
concepts
Prior art date
Application number
BR102019024569-7A
Other languages
Portuguese (pt)
Inventor
Jesimon Barreto Santos
Victor Hugo Cunha De Melo
William Robson Schwartz
Otávio AUGUSTO BIZETTO PENATTI
Original Assignee
Samsung Eletrônica da Amazônia Ltda.
Universidade Federal De Minas Gerais - Ufmg
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Eletrônica da Amazônia Ltda., Universidade Federal De Minas Gerais - Ufmg filed Critical Samsung Eletrônica da Amazônia Ltda.
Priority to BR102019024569-7A priority Critical patent/BR102019024569A2/en
Priority to US16/849,350 priority patent/US11416774B2/en
Publication of BR102019024569A2 publication Critical patent/BR102019024569A2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • G06V40/25Recognition of walking or running movements, e.g. gait recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06K9/00348
    • G06K9/00369
    • G06K9/00765
    • G06K9/6267
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Abstract

A invenção proposta visa codificar informações contextuais para análise e compreensão de vídeo, codificando relações espaciais e temporais de objetos e o agente principal em uma cena. A principal aplicação alvo da invenção é o reconhecimento da atividade humana. A codificação dessas relações espaciais e temporais pode ser crucial para distinguir diferentes categorias de atividades humanas e pode ser importante para ajudar na discriminação de diferentes categorias de vídeo, visando a classificação de vídeo, recuperação, categorização e outras aplicações de análise de vídeo.

Figure 102019024569-7-abs
The proposed invention aims to encode contextual information for video analysis and comprehension, encoding spatial and temporal relationships of objects and the main agent in a scene. The main target application of the invention is the recognition of human activity. Encoding these spatial and temporal relationships can be crucial to distinguishing different categories of human activities and can be important in helping to discriminate different categories of video for video classification, retrieval, categorization, and other video analytics applications.
Figure 102019024569-7-abs

Description

MÉTODO DE RECONHECIMENTO DE VÍDEO CAPAZ DE CODIFICAR RELAÇÕES TEMPORAIS E ESPACIAIS DE CONCEITOS UTILIZANDO INFORMAÇÕES CONTEXTUAISVIDEO RECOGNITION METHOD CAPABLE OF CODING TEMPORAL AND SPATIAL RELATIONS OF CONCEPTS USING CONTEXTUAL INFORMATION Campo técnicotechnical field

[0001] A presente invenção refere-se a um método de reconhecimento de atividades humanas que considera ocorrências de objetos e suas relações temporais e espaciais. Inicialmente, a invenção pode ser incorporada em câmeras, a fim de permitir a compreensão dos dados de vídeo em termos de atividades humanas. Além disso, os sistemas de monitoramento baseados em visão podem fazer uso da invenção para análise e compreensão de vídeo. Uma vasta gama de aplicações pode se beneficiar da invenção, incluindo, por exemplo, o reconhecimento de atividades em vídeos esportivos, monitoramento de atividades suspeitas em sistemas de vídeo-vigilância (por exemplo, em aeroportos, estações de ônibus, estações de metrô e outros locais públicos), monitoramento de saúde usando câmeras para detectar quedas e outros eventos (por exemplo, cuidados com idosos), sistemas de monitoramento de tráfego baseado em vídeo (por exemplo, para detectar acidentes de trânsito), localizador/organizador de biblioteca de vídeos pessoal (por exemplo, encontrar atividades relevantes em vídeos pessoais), etc.[0001] The present invention refers to a method of recognition of human activities that considers occurrences of objects and their temporal and spatial relationships. Initially, the invention could be incorporated into cameras in order to allow understanding of video data in terms of human activities. Furthermore, vision-based monitoring systems can make use of the invention for video analysis and comprehension. A wide range of applications can benefit from the invention, including, for example, recognizing activities in sports videos, monitoring suspicious activity in video surveillance systems (eg, in airports, bus stations, subway stations and others public places), health monitoring using cameras to detect falls and other events (eg elderly care), video-based traffic monitoring systems (eg to detect traffic accidents), video library locator/organizer personal (eg finding relevant activities in personal videos), etc.

[0002] A invenção proposta pode efetivamente fazer uso de informações de contexto codificando a relação espacial e temporal dos elementos que aparecem na cena do vídeo. Por exemplo, a invenção proposta pode ser usada para reconhecer quais as atividades que estão sendo executadas em um vídeo, por exemplo no YouTube, e ajuda com a recuperação e recomendação. O reconhecimento de atividade também pode ser usado para acionar a gravação em câmeras de monitoramento, como no Google Clips ou em outras câmeras pessoais e profissionais.[0002] The proposed invention can effectively make use of context information encoding the spatial and temporal relationship of the elements that appear in the video scene. For example, the proposed invention can be used to recognize what activities are being performed in a video, for example on YouTube, and help with retrieval and recommendation. Activity recognition can also be used to trigger recording on surveillance cameras such as Google Clips or other personal and professional cameras.

Antecedentes da invençãoBackground of the invention

[0003] Sistemas de monitoramento de vídeo estão ficando mais importantes, dada a alta disponibilidade de câmeras em muitos lugares e cenários diferentes. A compreensão desta enorme quantidade de informações de vídeo torna-se extremamente importante para tornar os dados de vídeo úteis, para eliminar ou reduzir o custo de análise de vídeo manual, e para melhorar o processo de tomada de decisão com base em informações de vídeo, apenas para citar alguns benefícios.[0003] Video monitoring systems are becoming more important given the high availability of cameras in many different places and scenarios. Understanding this huge amount of video information becomes extremely important to make video data useful, to eliminate or reduce the cost of manual video analytics, and to improve the decision-making process based on video information, just to name a few benefits.

[0004] Dada a recente popularidade de dispositivos móveis equipados com câmeras de alta resolução e a disseminação de vídeos e imagens na Internet, a compreensão de dados visuais também é crucial para a extração de conhecimento de vídeos e imagens geradas por pessoas.[0004] Given the recent popularity of mobile devices equipped with high-resolution cameras and the dissemination of videos and images on the Internet, understanding visual data is also crucial for extracting knowledge from human-generated videos and images.

[0005] Atualmente, a inteligência artificial (IA) desempenha um papel importante em todas as organizações, possibilitando um novo conjunto de aplicações e funcionalidades que têm impacto na vida de milhões de pessoas. A compreensão de vídeo, especialmente o reconhecimento de atividade humana, é um dos principais tópicos da IA para dados de vídeo.[0005] Currently, artificial intelligence (AI) plays an important role in all organizations, enabling a new set of applications and functionalities that impact the lives of millions of people. Video comprehension, especially recognition of human activity, is one of the main AI topics for video data.

[0006] Muitas das técnicas atuais de compreensão de vídeo não têm a análise de informações contextuais, o que pode contribuir ou até mesmo determinar a interpretação correta do conteúdo de vídeo. Especificamente, para o reconhecimento da atividade humana, o contexto desempenha um papel importante. Certas atividades estão fortemente relacionadas com os seus arredores, que proporcionam importantes indicações para a discriminação da atividade.[0006] Many of the current video comprehension techniques lack the analysis of contextual information, which can contribute or even determine the correct interpretation of video content. Specifically, for the recognition of human activity, context plays an important role. Certain activities are strongly related to their surroundings, which provide important indications for the discrimination of the activity.

[0007] Objetos, pessoas, pose, cena, informações de fundo e outros elementos disponíveis em uma cena de vídeo são aqui considerados como contexto. Não apenas a presença de tais elementos, mas também suas relações espaciais e temporais são muito importantes para determinar as informações de contexto.[0007] Objects, people, pose, scene, background information and other elements available in a video scene are here considered as context. Not only the presence of such elements, but also their spatial and temporal relationships are very important to determine context information.

[0008] Para o reconhecimento da atividade, por exemplo, para diferenciar vídeos de esportes jogados com bola (por exemplo, futebol, voleibol, basquetebol, etc.), as relações espaciais e temporais da bola com os atores são muito relevantes. O arranjo espacial da bola com os jogadores pode ajudar a diferenciar entre esportes jogados com a mão (voleibol e basquetebol) versus esportes jogados com os pés (futebol), enquanto pistas temporais ajudarão a diferenciar entre voleibol e basquetebol (o jogador nunca segura uma bola por muito tempo em uma partida de voleibol).[0008] For activity recognition, for example, to differentiate videos of sports played with the ball (for example, football, volleyball, basketball, etc.), the spatial and temporal relationships of the ball with the actors are very relevant. The spatial arrangement of the ball with players can help differentiate between sports played with the hand (volleyball and basketball) versus sports played with the feet (football), while temporal cues will help differentiate between volleyball and basketball (player never holds a ball for a long time in a volleyball match).

[0009] A codificação de tais informações contextuais pelas relações espaciais e temporais dos objetos disponíveis no vídeo é o principal aspecto da invenção proposta. Portanto, a invenção proposta pode beneficiar um grande conjunto de aplicações relacionadas com a análise de vídeo e compreensão.[0009] The encoding of such contextual information by the spatial and temporal relationships of the objects available in the video is the main aspect of the proposed invention. Therefore, the proposed invention can benefit a wide range of applications related to video analysis and comprehension.

[0010] Documento de patente WO2014146463 A1, intitulado: " BEHAVIOUR RECOGNITION METHOD BASED ON HIDDEN STRUCTURE REASONING", pelo INSTITUTE OF AUTOMATION, CHINESE ACADEMY OF SCIENCES, publicado em 25 de setembro de 2014, divulga como modelar partes do corpo de um esqueleto humano estimado usando um gráfico direcionado, que usa descritores como HOG3D, HOG e HOF para classificação usando SVM, que não é uma arquitetura de aprendizado de ponta a ponta. A presente invenção, por outro lado, pode usar conceitos semânticos de nível mais alto ou de nível inferior e explora diretamente as relações entre conceitos usando uma rede relacional egocêntrica temporal, diferenciável de ponta a ponta. O método do documento de patente WO2014146463 A1 não codifica as relações espaciais e temporais de conceitos e agentes, como a presente invenção faz.[0010] Patent document WO2014146463 A1, entitled: "BEHAVIOUR RECOGNITION METHOD BASED ON HIDDEN STRUCTURE REASONING", by the INSTITUTE OF AUTOMATION, CHINESE ACADEMY OF SCIENCES, published on September 25, 2014, discloses how to model parts of the body of a human skeleton estimated using a directed graph, which uses descriptors such as HOG3D, HOG, and HOF for classification using SVM, which is not an end-to-end learning architecture. The present invention, on the other hand, can use higher-level or lower-level semantic concepts and directly explores the relationships between concepts using an end-to-end differentiable end-to-end differentiable temporal egocentric relational network. The method of patent document WO2014146463 A1 does not encode the spatial and temporal relationships of concepts and agents, as the present invention does.

[0011] Documento de patente US2017091537, intitulado: " ACTIVITY RECOGNITION SYSTEMS AND METHODS", por NANT Holdings IP LLC, publicado em 30 de março de 2016, explora uma ampla gama de descritores de características. Tais descritores são modelados usando grafos de atividade, que são atribuídos uma pontuação usando técnicas de comparação e similaridade entre grafos. Em contraste, a presente invenção utiliza uma rede relacional egocêntrica temporal para aprender as relações espaciais e temporais entre os conceitos em um arcabouço totalmente diferenciável de ponta a ponta, o que permite aprender as relações entre objetos que importam para a atividade-alvo.[0011] Patent document US2017091537, entitled: "ACTIVITY RECOGNITION SYSTEMS AND METHODS", by NANT Holdings IP LLC, published March 30, 2016, explores a wide range of feature descriptors. Such descriptors are modeled using activity graphs, which are assigned a score using graph comparison and similarity techniques. In contrast, the present invention uses a temporal egocentric relational network to learn the spatial and temporal relationships between concepts in a fully differentiable end-to-end framework, which allows learning the relationships between objects that matter to the target activity.

[0012] Documento de patente CN104091167 A intitulado: "FEATURE EXTRACTION METHOD BASED ON HUMAN BODY ACTIVITY RECOGNITION OF MOTION SENSING CAMERA", pela UNIV ELECTRONIC SCIENCE & TECH, publicada em 08 de outubro de 2014, propõe um método de reconhecimento de atividade baseado no corpo humano. Para tal finalidade, o método no documento de patente CN104091167 A extrai descritores de características, como histogramas de fluxo de luz, histogramas de gradiente e características de profundidade local. As características de profundidade local são extraídas similarmente ao método Word Spatial Arrangement (WSA) ("Visual word spatial arrangement for image retrieval and classification", Penatti et al., Pattern Recognition, 2014), usando cada ponto de interesse dentro do corpo humano como o centro. Em contraste com a presente invenção, o método descrito no documento de patente CN104091167 A funciona em conceitos de mais baixo nível, enquanto a presente invenção beneficia-se de semântica de mais alto nível. Além disso, a patente carece de um módulo para aprender relações semânticas entre as características, como a presente invenção. Finalmente, a patente é adaptada às tarefas que compreendem imagens de profundidade, enquanto a presente invenção é mais ampla, permitindo ser aplicada em conjuntos de dados com/sem imagens de profundidade.[0012] Patent document CN104091167 A titled: "FEATURE EXTRACTION METHOD BASED ON HUMAN BODY ACTIVITY RECOGNITION OF MOTION SENSING CAMERA", by UNIV ELECTRONIC SCIENCE & TECH, published on October 8, 2014, proposes a method of activity recognition based on Human Body. To that end, the method in patent document CN104091167 A extracts feature descriptors such as light flux histograms, gradient histograms and local depth features. The local depth characteristics are extracted similarly to the Word Spatial Arrangement (WSA) method ("Visual word spatial arrangement for image retrieval and classification", Penatti et al., Pattern Recognition, 2014), using each point of interest within the human body as the center. In contrast to the present invention, the method described in patent document CN104091167 A works on lower level concepts, while the present invention benefits from higher level semantics. In addition, the patent lacks a module to learn semantic relationships between features, like the present invention. Finally, the patent is adapted to tasks that comprise depth images, while the present invention is broader, allowing it to be applied to datasets with/without depth images.

[0013] Documento intitulado: "Object Bank: A HighLevel Image Representation for Scene Classification & Semantic Feature Sparsification", Li et al., NIPS, 2010) usa várias detecções de objetos e, a partir destas, extrai histogramas de maneira piramidal de modo a codificar a granularidade de objetos e as relações espaciais. No entanto, a pirâmide espacial utilizada é uma grade uniformemente espaçada construída no centro do quadro sem apontar para qualquer objeto específico, ou seja, não é construída em torno de um objeto, como a pessoa que executa a ação. Assim, o método no artigo captura apenas a distribuição de objetos global da cena, desconsiderando quais objetos são mais importantes. Em contrapartida, a presente invenção é mais geral, considerando várias pistas contextuais, como informações espaciais e temporais. Além disso, a representação do objeto da presente invenção se concentra na captura do contexto local em relação ao agente que executa a atividade. A presente invenção atribui mais importância aos principais objetos relacionados a uma atividade. Além disso, o método no artigo centra-se no reconhecimento de cena, enquanto a presente invenção é voltada para o reconhecimento de atividade.[0013] Document titled: "Object Bank: A HighLevel Image Representation for Scene Classification & Semantic Feature Sparsification", Li et al., NIPS, 2010) uses various object detections and, from these, extracts histograms in a pyramidal way. to encode object granularity and spatial relationships. However, the spatial pyramid used is an evenly spaced grid built in the center of the frame without pointing to any specific object, ie it is not built around an object such as the person performing the action. Thus, the method in the article only captures the global object distribution of the scene, disregarding which objects are more important. In contrast, the present invention is more general, considering various contextual clues, such as spatial and temporal information. Furthermore, the representation of the object of the present invention focuses on capturing the local context in relation to the agent that performs the activity. The present invention attaches more importance to the main objects related to an activity. Furthermore, the method in the article focuses on scene recognition, while the present invention is focused on activity recognition.

[0014] Documento intitulado: "WSA - Visual word spatial arrangement for image retrieval and classification", por Penatti et al., Pattern Recognition, 2014 propõe o método WSA para codificar a relação espacial de palavras visuais para recuperação de imagens e classificação. As pirâmides egocêntricas presentes nesta invenção podem ser consideradas como o método WSA empregadas para codificar o arranjo espacial de detecções de objetos. No entanto, o WSA é um descritor de baixo nível que modela o arranjo de pontos de interesse, enquanto a pirâmide egocêntrica é orientada para conceitos semânticos mais elevados. Além disso, a representação egocêntrica da presente invenção inclui outras informações contextuais, como a temporalidade, que não é codificada pelo método WSA. Finalmente, o WSA carece de um módulo para aprender relações semânticas entre as características como a presente invenção.[0014] Document titled: "WSA - Visual word spatial arrangement for image retrieval and classification", by Penatti et al., Pattern Recognition, 2014 proposes the WSA method to encode the spatial relationship of visual words for image retrieval and classification. The egocentric pyramids present in this invention can be considered as the WSA method employed to encode the spatial arrangement of object detections. However, the WSA is a low-level descriptor that models the arrangement of points of interest, while the egocentric pyramid is oriented towards higher semantic concepts. Furthermore, the egocentric representation of the present invention includes other contextual information, such as temporality, which is not encoded by the WSA method. Finally, the WSA lacks a module to learn semantic relationships between features like the present invention.

[0015] Documento intitulado: " What do 15,000 object categories tell us about classifying and localizing actions?", Jain et al., CVPR, 2015, explora o uso de objetos na tarefa de reconhecimento de atividades, mostrando que os objetos ajudam a reconhecer ações. Para detectar objetos, os autores treinaram uma arquitetura do tipo AlexNet com uso de 15.000 categorias de objetos do ImageNet. A rede foi então usada para detectar a presença de cada objeto, gerando um bag-of-words com a probabilidade de cada classe. A rede usa a codificação de objeto e os descritores de movimento HOG, HOF e MBH calculados ao longo de trajetórias melhoradas — uma técnica para compensar o movimento da câmera. A abordagem proposta por Jain et al. é diferente da presente invenção nos seguintes aspectos: primeiro, os autores se concentraram apenas em informações sobre objetos. A presente invenção explora outras fontes de sinais contextuais além de objetos, como relacionamentos temporais. Em segundo lugar, o método no artigo não considera as relações espaciais e temporais entre objetos. Por fim, o método no artigo não explora como as informações contextuais se relacionam com o agente principal realizando uma ação, a qual é capturada na presente invenção.[0015] Document titled: "What do 15,000 object categories tell us about classifying and localizing actions?", Jain et al., CVPR, 2015, explores the use of objects in the task of activity recognition, showing that objects help to recognize actions. To detect objects, the authors trained an AlexNet-type architecture using 15,000 ImageNet object categories. The network was then used to detect the presence of each object, generating a bag-of-words with the probability of each class. The network uses object coding and HOG, HOF, and MBH motion descriptors calculated along improved trajectories — a technique to compensate for camera movement. The approach proposed by Jain et al. it differs from the present invention in the following respects: First, the authors focused only on information about objects. The present invention explores other sources of contextual signals in addition to objects, such as temporal relationships. Second, the method in the article does not consider the spatial and temporal relationships between objects. Finally, the method in the article does not explore how contextual information relates to the main agent performing an action, which is captured in the present invention.

[0016] Documento intitulado: "Harnessing Object and Scene Semantics for Large-Scale Video Understanding", Wu et al., CVPR, 2016, aproveita a semântica de objeto e cena para compreensão de vídeo em larga escala. Em vez de somar a resposta média de objetos para cada ação, os autores treinam uma rede neural discriminativa, a rede de fusão semântica de objeto-cena (OSF, Object-Scene Fusion). A OSF é um perceptron multicamada (MLP, multilayer perceptron) que aprende a fundir a cena, o objeto e vetores de características (feature vectors). Ele possui três camadas, uma para cada fluxo de entrada, ou seja, objeto, cena e vetores de características. Embora a abordagem no artigo também use outras fontes para sinais contextuais além de objetos, não explora a hipótese egocêntrica e suas relações temporais e espaciais de objetos como a presente invenção.[0016] Paper titled: "Harnessing Object and Scene Semantics for Large-Scale Video Understanding", Wu et al., CVPR, 2016, takes advantage of object and scene semantics for large-scale video comprehension. Instead of summing the average object response for each action, the authors train a discriminative neural network, the Object-Scene Semantic Fusion (OSF) network. OSF is a multilayer perceptron (MLP) that learns to fuse scene, object, and feature vectors. It has three layers, one for each input stream, namely object, scene and feature vectors. Although the approach in the article also uses other sources for contextual signals in addition to objects, it does not explore the egocentric hypothesis and its temporal and spatial relationships of objects like the present invention.

[0017] Documento intitulado: "Spatio-temporal humanobject interactions for action recognition in videos”, Escorcia and Niebles, ICCVW, 2013, constrói elipses concêntricas em torno de um agente realizando uma ação, além de outros descritores, como tamanho relativo e ocupação. O método no artigo tem limitações, como o uso de anotações do conjunto de dados para fornecer a posição do agente, além de presumir que haja apenas um único objeto na cena (ou seja, ele não considera vários objetos como a presente invenção). A presente invenção também constrói uma pirâmide, mas como uma grade, e mais importante, uma abordagem centrada em dados é empregada para aprender as relações semânticas entre as características, que podem incluir objetos, o agente, características temporais, entre outros.[0017] Document titled: "Spatio-temporal humanobject interactions for action recognition in videos", Escorcia and Niebles, ICCVW, 2013, builds concentric ellipses around an agent performing an action, in addition to other descriptors, such as relative size and occupation. The method in the article has limitations, such as using dataset annotations to provide the agent's position, as well as assuming that there is only a single object in the scene (ie, it does not consider multiple objects like the present invention). The present invention also builds a pyramid, but as a grid, and more importantly, a data-centric approach is employed to learn the semantic relationships between features, which can include objects, the agent, temporal features, and others.

[0018] Documento intitulado: “Two-Stream SR-CNNs for Action Recognition in Videos", Wang et al., BMVC, 2016, explora informações contextuais com base em objetos. Os dados de entrada para esta rede são os mesmos de redes convencionais de duas vias (conventional two-stream networks), ou seja, RGB e modalidades de fluxo óptico. No entanto, o SR-CNN propõe adicionar duas vias além das tradicionais após a última camada convolucional. A primeira via permanece a mesma, tendo como entrada as ativações da última camada convolucional, capturando a aparência global de todo o quadro. A segunda e a terceira vias processam informações contextuais recebendo ativações da bounding box (caixa delimitadora) do agente principal e das ativações de bounding boxes de objetos. Cada via é alimentada para suas respectivas camadas totalmente conectadas (fully-connected layers). SR-CNN é diferente da presente invenção pois SR-CNN aproveita detecções de objetos em conjunto com a rede de duas-vias em um arcabouço de ponta a ponta. Por outro lado, a presente invenção busca incorporar contexto adicional de outras fontes contextuais e suas representações de objetos são baseadas em pirâmides egocêntricas e pareamentos de objetos. Além disso, o SR-CNN utiliza ativações de bounding boxes, impedindo-a de capturar a disposição espacial dos objetos. O SR-CNN também não captura as relações espaciais de objetos em relação ao agente principal, pois só é capaz de explorar correlações entre ocorrências de objetos e o principal agente na camada de fusão. Finalmente, a presente invenção também emprega uma rede relacional egocêntrica temporal para números arbitrários de objetos, enquanto o SRCNN usa a aprendizagem de várias instâncias (multipleinstance learning) para selecionar objetos relevantes.[0018] Document titled: "Two-Stream SR-CNNs for Action Recognition in Videos", Wang et al., BMVC, 2016, explores contextual information based on objects. The input data for this network are the same as for conventional networks two-way (conventional two-stream networks), ie RGB and optical flow modalities. However, the SR-CNN proposes to add two lanes in addition to the traditional ones after the last convolutional layer. The first lane remains the same, having as input the last convolutional layer triggers, capturing the overall appearance of the entire frame. The second and third way process contextual information by receiving bindings from the main agent bounding box and from object bounding box triggers. SR-CNN is different from the present invention in that SR-CNN takes advantage of object detections together with the two-way network in a d framework. and end to end. On the other hand, the present invention seeks to incorporate additional context from other contextual sources and its representations of objects are based on egocentric pyramids and object pairings. In addition, SR-CNN uses bounding box activations, preventing it from capturing the spatial arrangement of objects. SR-CNN also does not capture the spatial relationships of objects in relation to the main agent, as it is only able to explore correlations between object occurrences and the main agent in the fusion layer. Finally, the present invention also employs an egocentric temporal relational network for arbitrary numbers of objects, while SRCNN uses multi-instance learning to select relevant objects.

[0019] Documento intitulado: "Going deeper into first-person activity recognition", Ma et al., CVPR, 2016, propõe uma abordagem que utiliza rótulos de objetos e ações para o reconhecimento de atividades egocêntricas. Em atividades egocêntricas, objetos importantes geralmente estão próximos das mãos do agente. Assim, os autores argumentam que a detecção de mãos pode ser útil para reconhecer com precisão o objeto principal e sua localização. Ma et al. aproveitam informações de mão para detecção de objetos, ajustando uma arquitetura FCN32-s treinada na segmentação de mão para gerar propostas de coordenadas de objeto. Em seguida, as propostas de objeto são alimentadas para outra rede neural convolucional (CNN, convolutional neural network), denominada ObjectNet, para prever o rótulo do objeto. Em estágios posteriores, o método proposto no artigo combina as previsões geradas por uma rede de ação (ActionNet) e ObjectNet para gerar o rótulo de atividade. A abordagem no artigo é diferente da presente invenção, uma vez que se concentra em prever com precisão rótulos de objetos usando informações de segmentação da mão. O método no artigo, em seguida, usa os recursos extraídos da bounding box de objeto para classificação globalmente, ou seja, ele não aborda como o arranjo espacial e temporal de informações contextuais e suas relações com o agente principal pode ajudar no reconhecimento de atividade, como faz a invenção presente.[0019] Document titled: "Going deeper into first-person activity recognition", Ma et al., CVPR, 2016, proposes an approach that uses object and action labels for the recognition of egocentric activities. In egocentric activities, important objects are usually close to the agent's hands. Thus, the authors argue that hand detection can be useful to accurately recognize the main object and its location. Ma et al. leverage handheld information for object detection by tuning an FCN32-s architecture trained in hand segmentation to generate object coordinate proposals. The object proposals are then fed to another convolutional neural network (CNN), called ObjectNet, to predict the object label. In later stages, the method proposed in the article combines the predictions generated by an action network (ActionNet) and ObjectNet to generate the activity label. The approach in the article is different from the present invention as it focuses on accurately predicting object labels using hand segmentation information. The method in the article then uses the resources extracted from the object bounding box for classification globally, that is, it does not address how the spatial and temporal arrangement of contextual information and its relationships with the principal agent can help in activity recognition, as does the present invention.

[0020] Documento intitulado: "A simple neural network module for relational reasoning", Santoro et al., Corr, 2017, tem um conceito semelhante à presente invenção, em termos de codificação da relação entre objetos. No entanto, o artigo apresenta diversas diferenças na presente invenção. Primeiro, ele não foi originalmente concebido para o reconhecimento de atividades, por isso não codifica informações temporais como a presente invenção permite fazêlo. Em segundo lugar, a entrada para a presente invenção considera objetos e pareamentos de agentes usando pirâmides egocêntricas.[0020] Document titled: "A simple neural network module for relational reasoning", Santoro et al., Corr, 2017, has a similar concept to the present invention, in terms of encoding the relationship between objects. However, the article presents several differences in the present invention. First, it was not originally designed for activity recognition, so it does not encode temporal information as the present invention allows it to do. Second, the input to the present invention considers objects and agent pairings using egocentric pyramids.

[0021] Documento intitulado: "Egocentric activity recognition with multimodal fisher vector", Song et al., ICASSP, 2016, propõe uma técnica para a fusão de descritores de características extraídos de vídeos egocêntricos e dados de sensores usando um kernel de Fisher. Diferentemente da presente invenção, a abordagem no artigo não tem como alvo um agente principal para capturar relacionamentos espaciais/temporais, nem aproveita um arcabouço totalmente diferenciável de ponta a ponta para extrair relações semânticas entre um número variável de características/objetos, como a presente invenção faz.[0021] Document titled: "Egocentric activity recognition with multimodal fisher vector", Song et al., ICASSP, 2016, proposes a technique for the fusion of feature descriptors extracted from egocentric videos and sensor data using a Fisher kernel. Unlike the present invention, the approach in the article does not target a principal agent to capture spatial/temporal relationships, nor does it take advantage of a fully differentiable end-to-end framework to extract semantic relationships between a variable number of features/objects, like the present invention does.

[0022] Documento intitulado: "Temporal Relational Reasoning in Videos" por Zhou et al., ECCV, 2018, propõe uma arquitetura para compreensão de relações temporais baseado em redes relacionais. Essa abordagem cria uma pirâmide hierárquica de rede relacionais, com escalas de tempo variadas, para codificar informações temporais dadas as características obtidas por uma CNN. Em contrapartida, a presente invenção modela as relações espaciais e temporais entre os objetos dados por um detector de conceitos. As relações espaciais são obtidas pelas coordenadas dos conceitos e pela pirâmide egocêntrica, enquanto as informações temporais são codificadas por meio da posição do quadro normalizado e da estrutura de redes de segmento temporal.[0022] Document titled: "Temporal Relational Reasoning in Videos" by Zhou et al., ECCV, 2018, proposes an architecture for understanding temporal relations based on relational networks. This approach creates a hierarchical relational network pyramid, with varying time scales, to encode temporal information given the characteristics obtained by a CNN. In contrast, the present invention models the spatial and temporal relationships between objects given by a concept detector. Spatial relationships are obtained through the coordinates of concepts and the egocentric pyramid, while temporal information is encoded through the position of the normalized frame and the structure of temporal segment networks.

Sumáriosummary

[0023] A invenção proposta visa codificar informações contextuais para análise e compreensão de vídeo, codificando relações espaciais e temporais de objetos e o principal agente em uma cena. A principal aplicação alvo da invenção é o reconhecimento da atividade humana. A codificação dessas relações espaciais e temporais pode ser crucial para distinguir diferentes categorias de atividades humanas e pode ser importante para ajudar na discriminação de diferentes categorias de vídeo, visando a classificação de vídeo, recuperação, categorização e outras aplicações de análise de vídeo.
Uma vantagem da invenção proposta é que ela permite um processo de treinamento de ponta a ponta, o que significa que a máquina pode automaticamente aprender os melhores parâmetros para entender as informações contextuais em termos de relacionamentos espaciais e temporais, recebendo como entrada o vídeo em si. Portanto, isso elimina a necessidade de projetar manualmente os descritores de características que melhor codificam os dados de entrada, tornando possível obter taxas de precisão mais elevadas e fornecer um classificador melhor para o produto-alvo.
[0023] The proposed invention aims to encode contextual information for analysis and understanding of video, encoding spatial and temporal relationships of objects and the main agent in a scene. The main target application of the invention is the recognition of human activity. Encoding these spatial and temporal relationships can be crucial to distinguishing different categories of human activities and can be important in helping to discriminate different categories of video for video classification, retrieval, categorization, and other video analytics applications.
An advantage of the proposed invention is that it allows an end-to-end training process, which means that the machine can automatically learn the best parameters to understand contextual information in terms of spatial and temporal relationships, receiving the video itself as input. . Therefore, this eliminates the need to manually design feature descriptors that better encode the input data, making it possible to achieve higher accuracy rates and provide a better classifier for the target product.

Exemplos de aplicações diretas da invenção propostaExamples of direct applications of the proposed invention

[0024] Gatilhos para a câmera do smartphone: alguns recursos da câmera podem ser iniciados de acordo com a cena que está sendo gravada. Por exemplo, se algumas ações específicas forem detectadas usando o método proposto (tal como uma tacada de beisebol durante uma partida de beisebol), os recursos de slow-motion ou super slow-motion poderiam começar. O método proposto pode ser executado toda vez que a câmera está sendo usada.[0024] Triggers for smartphone camera: some camera features may be started according to the scene being recorded. For example, if some specific actions are detected using the proposed method (such as a baseball swing during a baseball game), the slow-motion or super slow-motion features could start. The proposed method can be executed every time the camera is being used.

[0025] Otimizador de cena da câmera: otimizador de cena pode ser ajustado não só com base em propriedades de imagem estática (como é feito atualmente), mas também com base na categoria de vídeo. Usando o método proposto para analisar um conjunto de quadros de câmera (por exemplo, alguns segundos), a categoria de vídeo pode ser determinada e, em seguida, os recursos da câmera podem ser ajustados para melhorar a qualidade da imagem durante a gravação de vídeo ou imagem.[0025] Camera Scene Optimizer: Scene optimizer can be adjusted not only based on still image properties (as is currently done), but also based on video category. Using the proposed method to analyze a set of camera frames (eg a few seconds), the video category can be determined and then camera resources can be adjusted to improve image quality during video recording. or image.

[0026] Galeria aprimorada: a galeria de vídeo de smartphones pode ter uma opção de organização/classificação com base em categorias de vídeo. A pesquisa de vídeo também pode ser melhorada usando a invenção proposta para categorizar vídeos. Os usuários poderiam melhor procurar vídeos de atividades específicas ou categorias (por exemplo, eventos esportivos, corridas de carros, dança, etc.) A invenção proposta poderia funcionar ao mesmo tempo que o analisador da imagem funciona a fim de categorizar e indexar o conteúdo da galeria.[0026] Enhanced Gallery: Smartphone video gallery may have a sorting/sorting option based on video categories. Video search can also be improved using the proposed invention to categorize videos. Users could better search for videos of specific activities or categories (eg sporting events, car racing, dancing, etc.) The proposed invention could work at the same time as the image analyzer works in order to categorize and index the content of the gallery.

[0027] Gatilhos para sistemas de monitoramento da saúde: a invenção proposta poderia funcionar para todo o conteúdo que está sendo gravado/monitorado neste tipo de sistema e, se algumas ações específicas são detectadas (por exemplo, quedas), um alerta de emergência poderia ser dado aos operadores do sistema para solicitar atenção.[0027] Triggers for health monitoring systems: the proposed invention could work for all content being recorded/monitored in this type of system and, if some specific actions are detected (eg falls), an emergency alert could be given to system operators to request attention.

[0028] Gatilhos para sistemas de vídeo-vigilância: a invenção proposta poderia ser executada em segundo plano para todo o conteúdo que está sendo gravado neste tipo de sistema e, no caso de uma ação específica ser detectada (por exemplo, luta, pessoa correndo entre a multidão, várias pessoas correndo), um alerta de emergência poderia ser mostrado aos operadores do sistema, a fim de pedir por atenção.[0028] Triggers for video surveillance systems: the proposed invention could run in the background for all content being recorded in this type of system and, in case a specific action is detected (eg fight, person running among the crowd, several people running), an emergency alert could be shown to the system operators in order to call for attention.

Breve descrição dos desenhosBrief description of the drawings

[0029] Os objetivos e vantagens da presente invenção tornar-se-ão mais claros através da seguinte descrição detalhada do exemplo e dos desenhos não limitativos apresentados no final deste documento:[0029] The objectives and advantages of the present invention will become clearer through the following detailed description of the example and the non-limiting drawings presented at the end of this document:

[0030] A Figura 1 mostra um cenário da invenção proposta sendo utilizada, em que um cenário ou pessoas estão sendo gravadas por câmeras que geram vídeos digitais.[0030] Figure 1 shows a scenario of the proposed invention being used, in which a scenario or people are being recorded by cameras that generate digital videos.

[0031] A Figura 2A retrata o fluxograma da abordagem proposta para o sistema.[0031] Figure 2A depicts the flowchart of the proposed approach to the system.

[0032] A Figura 2B mostra o fluxograma da abordagem proposta para o método.[0032] Figure 2B shows the flowchart of the proposed approach to the method.

[0033] A Figura 3 compara uma pirâmide espacial comum com a pirâmide egocêntrica proposta.[0033] Figure 3 compares a common spatial pyramid with the proposed egocentric pyramid.

[0034] A Figura 4 mostra os resultados experimentais da invenção proposta em comparação com os métodos de referência baseados em ocorrências de objeto.[0034] Figure 4 shows the experimental results of the proposed invention in comparison with reference methods based on object occurrences.

[0035] A Figura 5 mostra os resultados experimentais de uma concretização da invenção proposta (TERN) combinada com outras arquiteturas do estado da técnica para reconhecimento de ação, que também consideram informações de movimento.[0035] Figure 5 shows the experimental results of an embodiment of the proposed invention (TERN) combined with other state of the art architectures for action recognition, which also consider motion information.

[0036] A Figura 6 apresenta as diferenças de precisão entre a invenção proposta isoladamente (TERN) e a invenção proposta combinada com a abordagem do estado da técnica (TERN + Duas-Vias (TSN)).[0036] Figure 6 shows the differences in precision between the proposed invention alone (TERN) and the proposed invention combined with the prior art approach (TERN + Two-Way (TSN)).

Descrição detalhadaDetailed Description Características da invençãoFeatures of the invention

[0037] A invenção proposta descreve uma abordagem para o reconhecimento de atividade humana em vídeos, que pode codificar informações contextuais por relações espaciais e temporais de objetos e o agente principal em uma cena. As relações espaciais são codificadas por meio da Rede Relacional Egocêntrica Temporal (TERN, acrônimo de Temporal Egocentric Relational Network), ocorrências de objetos e pirâmides egocêntricas, nas quais esta última é uma técnica proposta para codificar o arranjo espacial de objetos em torno do agente principal na cena. As relações temporais são codificadas combinando redes relacionais e redes de segmentos temporais. Todas as etapas de codificação são diferenciáveis, permitindo um processo de aprendizado de ponta a ponta, o que possibilita obter taxas de reconhecimento mais elevadas e fornecer um classificador melhor para o produto-alvo. A abordagem proposta, embora validada para o reconhecimento da atividade humana, pode ser utilizada para outras tarefas relacionadas à análise e compreensão do vídeo.[0037] The proposed invention describes an approach for recognizing human activity in videos, which can encode contextual information by spatial and temporal relationships of objects and the main agent in a scene. Spatial relationships are encoded through the Temporal Egocentric Relational Network (TERN, acronym for Temporal Egocentric Relational Network), occurrences of objects and egocentric pyramids, in which the latter is a technique proposed to encode the spatial arrangement of objects around the main agent in the scene. Temporal relations are coded by combining relational networks and temporal segment networks. All coding steps are differentiable, allowing an end-to-end learning process, which makes it possible to obtain higher recognition rates and provide a better classifier for the target product. The proposed approach, although validated for the recognition of human activity, can be used for other tasks related to video analysis and comprehension.

[0038] Com base na descrição dos métodos existentes e na descrição da invenção proposta, as seguintes vantagens para a invenção podem ser enumeradas:

  • 1) A codificação de informações contextuais, ou seja, as relações espaciais e temporais de objetos em relação ao agente principal na cena, melhora a precisão para sistemas de reconhecimento de atividade humana com base em dados de vídeo;
  • 2) Essa codificação de informações contextuais pode beneficiar outras aplicações de análise de vídeo e compreensão de vídeo;
  • 3) Sistemas de compreensão de vídeo mais precisos permitem uma melhor extração de conhecimento de conjuntos de dados de vídeo, incluindo melhor categorização de vídeo, melhor pesquisa de vídeo, etiquetagem automática de vídeo, sumarização de vídeo, entre outras aplicações;
  • 4) Melhores sistemas de compreensão de vídeo exigem menos anotação humana/manual de conteúdo de vídeo;
  • 5) Incorporar a invenção em dispositivos móveis permite melhores aplicações de inteligência artificial (IA) para os usuários;
  • 6) Melhor categorização de vídeo e pesquisa de vídeo em aplicativos móveis (por exemplo, Galeria).
[0038] Based on the description of the existing methods and the description of the proposed invention, the following advantages for the invention can be enumerated:
  • 1) The encoding of contextual information, that is, the spatial and temporal relationships of objects in relation to the main actor in the scene, improves the accuracy for human activity recognition systems based on video data;
  • 2) This encoding of contextual information can benefit other video analytics and video comprehension applications;
  • 3) More accurate video comprehension systems allow better knowledge extraction from video datasets, including better video categorization, better video search, automatic video tagging, video summarization, among other applications;
  • 4) Better video comprehension systems require less human/manual annotation of video content;
  • 5) Embedding the invention in mobile devices allows better artificial intelligence (AI) applications for users;
  • 6) Better video categorization and video search in mobile apps (eg Gallery).

[0039] O principal objetivo da invenção proposta é o reconhecimento das atividades humanas com base em vídeos. No entanto, a invenção também pode ser usada para qualquer outro aplicativo de análise de vídeo. Os vídeos de entrada são gravados por câmeras e podem estar disponíveis a partir de diferentes fontes, como o YouTube, câmeras de vigilância, smartphones, etc. Os algoritmos de reconhecimento podem entender as atividades executadas em vídeo, como corridas de cavalos, andar de caiaque, aplicar batom, andar com cachorro, tocar violoncelo, e outros.[0039] The main objective of the proposed invention is the recognition of human activities based on videos. However, the invention can also be used for any other video analytics application. Incoming videos are recorded by cameras and may be available from different sources such as YouTube, surveillance cameras, smartphones, etc. Recognition algorithms can understand activities performed on video, such as horse racing, kayaking, applying lipstick, walking a dog, playing the cello, and others.

[0040] Como mostrado na Figura 1, um usuário ou cenário (101) é gravado por uma câmera (102), gerando um vídeo (103). Este vídeo (103) é então processado pela presente invenção (104), que pode ser executado em um computador, servidor remoto, dispositivo móvel ou outro dispositivo, incluindo servidores em nuvem. Esses vídeos são então processados pela invenção proposta, a fim de produzir uma saída, que são as categorias de atividade humana reconhecida. As atividades reconhecidas são a saída (105) do sistema proposto. O dispositivo de câmera (102) pode ser uma câmera IP, um smartphone, uma câmera de vigilância, ou qualquer outro dispositivo que compreenda uma câmera. A invenção proposta tem a vantagem de permitir que os sistemas de reconhecimento aprendam relações contextuais para melhorar a precisão.[0040] As shown in Figure 1, a user or scenario (101) is recorded by a camera (102), generating a video (103). This video (103) is then processed by the present invention (104), which can run on a computer, remote server, mobile device or other device including cloud servers. These videos are then processed by the proposed invention in order to produce an output, which are the recognized human activity categories. The recognized activities are the output (105) of the proposed system. The camera device (102) can be an IP camera, a smartphone, a surveillance camera, or any other device that comprises a camera. The proposed invention has the advantage of allowing recognition systems to learn contextual relationships to improve accuracy.

[0041] A Figura 2A ilustra o sistema onde a invenção proposta é realizada. A Figura 2A retrata o fluxograma do sistema, no qual os dados de vídeo de entrada (201A) passam pelo módulo de detecção de conceitos (202A) a fim de obter os conceitos (por exemplo, objetos), a seguir as características contextuais são capturadas pela Pirâmide Egocêntrica (203A) e pelo Módulo de Pareamentos de Conceitos (204A), cujas saídas são processadas pela rede relacional egocêntrica temporal (205A), considerando as relações espaciais e temporais dos conceitos, gerando a saída (206A) do sistema. As relações são computadas para ambos pareamentos objeto-agente e objeto-objeto e usadas como a entrada para uma rede neural, que aprende as melhores combinações de conceitos e parâmetros.[0041] Figure 2A illustrates the system where the proposed invention is performed. Figure 2A depicts the system flowchart, in which the input video data (201A) goes through the concept detection module (202A) in order to obtain the concepts (for example, objects), then the contextual characteristics are captured by the Egocentric Pyramid (203A) and by the Concept Pairing Module (204A), whose outputs are processed by the temporal egocentric relational network (205A), considering the spatial and temporal relations of the concepts, generating the output (206A) of the system. The relationships are computed for both object-agent and object-object pairings and used as input to a neural network, which learns the best combinations of concepts and parameters.

[0042] A Figura 2B ilustra as etapas do método da invenção proposta. A Figura 2B mostra o fluxograma de reconhecimento vídeo usando descritores contextuais capazes de codificar relações espaciais e temporais de conceitos compreendendo as etapas de:
a. adquirir dados de vídeo de entrada (201B);
b. processar os dados de vídeo de entrada a fim de detectar conceitos no vídeo (202B);
c. computar descritores contextuais dos conceitos detectados, compreendendo ainda as seguintes sub etapas:

  • i. computar, pela pirâmide egocêntrica, relações espaciais de conceitos detectados em relação ao principal agente da cena (203B) (pareamentos conceito-agente);
  • II. computar pareamentos entre conceitos (204B) (pareamentos conceito-conceito);
  • III. fazer uso de pareamentos de conceito e pareamentos egocêntricos para aprender suas relações temporais, pela Rede Relacional Egocêntrica Temporal, para gerar vetores de características (205B);
d. emitir as predições obtidas pela Rede Relacional Egocêntrica Temporal (206B).[0042] Figure 2B illustrates the steps of the method of the proposed invention. Figure 2B shows the video recognition flowchart using contextual descriptors capable of encoding spatial and temporal relationships of concepts comprising the steps of:
The. acquiring input video data (201B);
B. processing the input video data to detect concepts in the video (202B);
ç. compute contextual descriptors of the detected concepts, including the following sub-steps:
  • i. compute, through the egocentric pyramid, spatial relations of detected concepts in relation to the main agent of the scene (203B) (concept-agent pairings);
  • II. compute pairings between concepts (204B) (concept-concept pairings);
  • III. make use of concept pairings and egocentric pairings to learn their temporal relationships, through the Temporal Egocentric Relational Network, to generate feature vectors (205B);
d. issue the predictions obtained by the Temporal Egocentric Relational Network (206B).

[0043] O objetivo da invenção é reconhecer as atividades humanas baseadas em vídeo, que é a entrada de dados (201A) do sistema. Os dados de vídeo de entrada (201A) são processados a fim de detectar conceitos (202B). Os conceitos podem ser objetos, pessoas, partes de objeto, etc. Os conceitos são passados então ao módulo para gerar as características contextuais, a pirâmide egocêntrica (203A). Esse módulo é dividido em dois submódulos. A pirâmide egocêntrica (203A) obtém informações sobre as relações espaciais de objetos e o principal agente na cena. Já o módulo de pareamentos de conceito (204A) obtém relações espaciais de pareamentos de objetos. As relações espaciais são usadas como entrada para uma Rede Relacional Egocêntrica Temporal (TERN, Temporal Egocentric Relational Network) (205a), que não só aprende os melhores pareamentos de objetos, mas também suas relações temporais. A saída (206A) do método são as predições em termos de atividades humanas, considerando o reconhecimento de atividade humana, ou qualquer outra tarefa de classificação de vídeo.[0043] The purpose of the invention is to recognize human activities based on video, which is the data input (201A) of the system. Input video data (201A) is processed in order to detect concepts (202B). Concepts can be objects, people, object parts, etc. The concepts are then passed to the module to generate the contextual characteristics, the egocentric pyramid (203A). This module is divided into two sub-modules. The egocentric pyramid (203A) obtains information about the spatial relationships of objects and the main actor in the scene. The concept pairing module (204A) obtains spatial relationships from object pairings. Spatial relationships are used as input to a Temporal Egocentric Relational Network (TERN) (205a), which not only learns the best object pairings, but also their temporal relationships. The output (206A) of the method is the predictions in terms of human activities, considering human activity recognition, or any other video classification task.

[0044] Os dados de vídeo de entrada (201A) podem ser obtidos a partir de, incluindo, mas não limitado a câmeras de vídeo, telefones inteligentes, câmeras vestíveis, câmeras de vigilância, sites como o YouTube, e outros. Os dados de vídeo de entrada (201A) são divididos inicialmente em t segmentos de tamanho T. De cada segmento, um trecho aleatório é amostrado com comprimento |Si| tal que |Si| ≤ T. Os segmentos de vídeo podem ser usados como entrada para o módulo de detecção de conceito (202A).[0044] Input video data (201A) can be obtained from, including, but not limited to, video cameras, smart phones, wearable cameras, surveillance cameras, websites such as YouTube, and others. The input video data (201A) is initially divided into t segments of size T. From each segment, a random chunk is sampled with length |Si| such that |Si| ≤ T. Video segments can be used as input to the concept detection module (202A).

[0045] A detecção de conceitos, que podem ser objetos, pessoas, partes de objeto e outros, pode ser baseado em detectores de objeto, incluindo, mas não limitado a YOLO (“YOLO9000: Better, Faster, Stronger”, Redmon e Farhadi, CVPR, 2017), SSD ("SSD: Single shot multibox detector", Liu et al., ECCV, 2016), Faster-RCNN ("Faster R-CNN: Towards real-time object detection with region proposal networks", Ren et al., NIPS, 2015), etc. O módulo de detecção de conceito (202A) produz todos os conceitos detectados nos dados de vídeo de entrada (201A).[0045] The detection of concepts, which can be objects, people, object parts and others, can be based on object detectors, including, but not limited to YOLO ("YOLO9000: Better, Faster, Stronger", Redmon and Farhadi , CVPR, 2017), SSD ("SSD: Single shot multibox detector", Liu et al., ECCV, 2016), Faster-RCNN ("Faster R-CNN: Towards real-time object detection with region proposal networks", Ren et al., NIPS, 2015), etc. The concept detection module (202A) produces all concepts detected in the input video data (201A).

[0046] A pirâmide egocêntrica (203A) é responsável por codificar as relações espaciais entre os conceitos e o agente principal na cena (pareamentos de conceito-agente). A Figura 3 mostra uma pirâmide egocêntrica em comparação com uma pirâmide espacial comum. A pirâmide egocêntrica divide o espaço da imagem de acordo com o agente principal na cena. Uma pirâmide egocêntrica leva um agente como referência, e constrói uma pirâmide espacial centrada sobre ele. Um agente é escolhido como o conceito central que executa uma atividade. Isso pode ser determinado de várias maneiras, incluindo, mas não limitado a, escolher o conceito com a maior probabilidade atribuída pelo detector de conceitos; rastreamento do conceito com as maiores probabilidades, entre outros.[0046] The egocentric pyramid (203A) is responsible for encoding the spatial relationships between the concepts and the main agent in the scene (concept-agent pairings). Figure 3 shows an egocentric pyramid compared to an ordinary spatial pyramid. The egocentric pyramid divides the image space according to the main actor in the scene. An egocentric pyramid takes an agent as a reference, and builds a spatial pyramid centered on it. An agent is chosen as the central concept that performs an activity. This can be determined in a number of ways, including, but not limited to, choosing the concept with the highest probability assigned by the concept detector; tracking the concept with the greatest probabilities, among others.

[0047] Uma vantagem da pirâmide egocêntrica (203A) sobre as pirâmides espaciais comuns é que os elementos que cercam um determinado agente são invariantes a sua posição. Como uma pirâmide espacial tradicional leva o centro do quadro como referência, ela pode estar suscetível a problemas porque presume que todas as atividades são sempre executadas no centro do vídeo, o que não é necessariamente verdadeiro. Por exemplo, se a atividade de caminhar com o cão está sendo abordada e a pessoa que passeia com o cão começa no canto superior-esquerdo do quadro e, em seguida, se move para o canto inferior direito, o bin correspondente a ‘cão’ será atribuído para os histogramas correspondentes ao segundo e quarto quadrantes. Isso irá gerar uma assinatura de histograma diferente para a mesma atividade, como em um caso em que a pessoa com o cão começa no canto inferior esquerdo e se move para o canto inferior direito. No entanto, isso é prevenido pela pirâmide egocêntrica, pois ela leva a posição do agente como referência em vez do centro do quadro, uma vez que os elementos relevantes se movem ao redor do que executa a ação.[0047] An advantage of the egocentric pyramid (203A) over the common spatial pyramids is that the elements surrounding a given agent are position-invariant. Since a traditional spatial pyramid takes the center of the frame as a reference, it can be susceptible to problems because it assumes that all activities are always performed in the center of the video, which is not necessarily true. For example, if the dog walking activity is being addressed and the person walking the dog starts in the upper left corner of the frame and then moves to the lower right corner, the bin corresponding to 'dog' will be assigned to the histograms corresponding to the second and fourth quadrants. This will generate a different histogram signature for the same activity, as in a case where the person with the dog starts in the lower left corner and moves to the lower right corner. However, this is prevented by the egocentric pyramid, as it takes the agent's position as a reference instead of the center of the frame, since the relevant elements move around the one performing the action.

[0048] Na pirâmide egocêntrica (203A), no caso de um conceito estar no limite de mais de um quadrante ou um conceito ser dividido em vários quadrantes, há diferentes opções para atualizar os histogramas do quadrante correspondente. Uma opção é atualizar apenas o histograma em que o conceito ocupa a maior parte. Outra opção é usar as dimensões do conceito (determinadas pela caixa delimitadora calculada pelo detector de conceito) para atualizar todos os histogramas do quadrante ponderados pela porção do conceito que pertence a cada quadrante.[0048] In the egocentric pyramid (203A), in case a concept is in the limit of more than one quadrant or a concept is divided into several quadrants, there are different options to update the corresponding quadrant histograms. One option is to update only the histogram where the concept occupies the most part. Another option is to use the concept dimensions (determined by the bounding box calculated by the concept detector) to update all quadrant histograms weighted by the portion of the concept that belongs to each quadrant.

[0049] A pirâmide egocêntrica (203A) também pode ser usada no caso de haver mais de um agente proeminente na cena. Isso pode acontecer quando as probabilidades do detector de conceito são semelhantes para mais de um conceito (por exemplo, três conceitos com pontuações em torno de 0,3). Neste caso, todos os conceitos com probabilidades elevadas similares são usados como agentes e uma pirâmide egocêntrica separada é computada usando cada conceito como o agente principal. Todas estas pirâmides egocêntricas podem então ser utilizadas como entrada para a Rede Relacional Egocêntrica Temporal (TERN) (205A).[0049] The egocentric pyramid (203A) can also be used in case there is more than one prominent agent in the scene. This can happen when concept detector probabilities are similar for more than one concept (eg three concepts with scores around 0.3). In this case, all concepts with similar high probabilities are used as agents and a separate egocentric pyramid is computed using each concept as the main agent. All of these egocentric pyramids can then be used as input to the Temporal Egocentric Relational Network (TERN) (205A).

[0050] O módulo de pareamento de conceito (204A) obtém as relações espaciais de todos os pareamentos de um conceito com outros conceitos (pareamentos conceitoconceito).[0050] The concept pairing module (204A) obtains the spatial relationships of all pairings of a concept with other concepts (concept-concept pairings).

[0051] Os pareamentos conceito-agente e os pareamentos conceito-conceito obtidos respectivamente por pirâmides egocêntricas (203A) e módulos de pareamentos de conceito (204A), podem ser usados como entrada para uma rede relacional egocêntrica temporal (TERN). Isto é, as características contextuais podem ser computadas pelo TERN considerando somente a informação do conceito-agente, somente informação do conceito-conceito ou ambos os tipos de pareamentos.[0051] The concept-agent pairings and the concept-concept pairings obtained respectively by egocentric pyramids (203A) and concept pairing modules (204A), can be used as input to a temporal egocentric relational network (TERN). That is, contextual characteristics can be computed by TERN considering only concept-agent information, only concept-concept information, or both types of pairings.

[0052] Devido a possuir um sistema de aprendizado de máquina, é necessário primeiro treinar o método. Essa fase de aprendizado pode ser baseada em um determinado conjunto de dados de vídeo, no qual o sistema aprenderá os parâmetros e gerará um modelo de classificação. Isso pode acontecer separadamente do local de uso do sistema, ou seja, da fase de inferência. Por exemplo, o classificador pode ser treinado em um computador/servidor e, em seguida, o modelo aprendido pode ser usado em um dispositivo móvel. Também é possível ter as duas fases no mesmo local. Além disso, é possível atualizar ou re-treinar o classificador em determinados períodos de tempo usando novos dados, que podem vir de conjuntos de dados do usuário. A invenção proposta não tem nenhuma restrição sobre onde ocorrem as fases de treinamento e inferência.[0052] Due to having a machine learning system, it is necessary to first train the method. This learning phase can be based on a certain set of video data, in which the system will learn the parameters and generate a classification model. This can happen separately from where the system is used, that is, from the inference phase. For example, the classifier can be trained on a computer/server and then the learned model can be used on a mobile device. It is also possible to have both phases in the same location. In addition, it is possible to update or retrain the classifier at certain time periods using new data, which may come from user datasets. The proposed invention has no restriction on where the training and inference phases occur.

[0053] A rede relacional egocêntrica temporal (TERN) (205A) faz uso dos pareamentos a fim de aprender características e efetuar a classificação de forma unificada. A TERN é projetada para relacionar sobre as informações do conceito ao longo do tempo, o que significa que a TERN aprenderá as relações espaciais e temporais para os descritores de características contextuais. Dada uma sequência de trechos de vídeo S = {S1,S2,...,St} compreendendo t trechos amostrados uniformemente ou aleatoriamente, a rede relacional egocêntrica temporal é definida como
TERN(S) = G(RΦ(S1), RΦ(S2), ..., RΦ(St)),
onde St é um trecho de vídeo, RΦ é uma rede relacional com parâmetros Φ, e G é uma operação de agregação/pooling. Em particular, uma rede relacional RΦ, dado parâmetros Φ = [Φ1,Φ2] , é definida como

Figure img0001
[0053] The temporal egocentric relational network (TERN) (205A) makes use of the pairings in order to learn characteristics and perform the classification in a unified way. TERN is designed to relate over concept information over time, which means that TERN will learn the spatial and temporal relationships to contextual feature descriptors. Given a sequence of video clips S = {S1,S2,...,St} comprising t clips sampled uniformly or randomly, the temporal egocentric relational network is defined as
TERN(S) = G(RΦ(S1), RΦ(S2), ..., RΦ(St)),
where St is a video clip, RΦ is a relational network with parameters Φ, and G is an aggregation/pooling operation. In particular, a relational network RΦ, given parameters Φ = [Φ1,Φ2] , is defined as
Figure img0001

[0054] Aqui, 0 = {0i}ni=1 representa um conjunto de n entradas de conceitos detectados (por exemplo, objetos), onde 0i é o i-ésimo conceito tal que 0i ∈ ℝf; e funções fΦ1 e gΦ2 são perceptrons multicamada (MLP) parametrizados por parâmetros Φ1 e Φ2, respectivamente.[0054] Here, 0 = {0i}ni=1 represents a set of n inputs of detected concepts (for example, objects), where 0i is the i-th concept such that 0i ∈ ℝf; and functions fΦ1 and gΦ2 are multilayer perceptrons (MLP) parameterized by parameters Φ1 and Φ2, respectively.

[0055] O procedimento de aprendizado gera um modelo que será empregado durante o uso do sistema para extração de características e classificação. Nesta configuração de treinamento, a amostragem de trechos aleatórios é uma técnica de aumento de dados (data augmentation) onde a cada iteração um trecho diferente é visto pela rede. Ao mesmo tempo, é garantido que o vídeo é visto como um todo, de acordo com o número de segmentos e o comprimento do trecho. Por exemplo, se três segmentos são escolhidos, é assegurado que a rede irá ver os dados do início, meio e fim do vídeo. A camada de consenso, em seguida, faz a rede aprender pesos que favorecem a consistência entre eles. A TERN se beneficia da reutilização eficiente de pesos entre pareamentos de conceitos e segmentos temporais. Isso impõe restrições que atuam como regularizadores, ao mesmo tempo em que reduzem o número de parâmetros, como apontado pela literatura.[0055] The learning procedure generates a model that will be used while using the system for feature extraction and classification. In this training configuration, sampling random chunks is a data augmentation technique where at each iteration a different chunk is seen by the network. At the same time, it is guaranteed that the video is seen as a whole, according to the number of segments and the length of the excerpt. For example, if three segments are chosen, it is ensured that the network will see the data for the beginning, middle and end of the video. The consensus layer then makes the network learn weights that favor consistency between them. TERN benefits from the efficient reuse of weights between concept pairings and time segments. This imposes restrictions that act as regularizers, while reducing the number of parameters, as pointed out in the literature.

[0056] Todo o processo de obtenção de recursos contextuais na invenção proposta (203B-204B-205B) é diferenciável, o que significa que o sistema pode ser treinado de ponta a ponta, desde detecções de conceito até previsões de atividade. Isso permite que o sistema obtenha os melhores parâmetros automaticamente, sem exigir intervenção humana ou conhecimento especializado para o domínio do problema.[0056] The entire process of obtaining contextual resources in the proposed invention (203B-204B-205B) is differentiable, which means that the system can be trained end-to-end, from concept detections to activity predictions. This allows the system to obtain the best parameters automatically, without requiring human intervention or specialized knowledge for the problem domain.

[0057] Experimentos no conjunto de dados de reconhecimento de atividade humana UCF101 demonstram as melhorias na acurácia com relação aos métodos de referência existentes ao usar a invenção proposta. Inicialmente, experimentos preliminares são conduzidos na 1ª divisão do conjunto de dados UCF101 para avaliar a pirâmide egocêntrica isoladamente e os métodos de referência baseados em ocorrências de objetos, a saber, pirâmide espacial, probabilidades de objetos, conforme relatado por Jain et al., a implementação usando um detector de objetos, e a extensão com base em ocorrências. A Figura 4 mostra os resultados experimentais da invenção proposta em comparação com os métodos de referência baseados em ocorrências de objetos. Em primeiro lugar, pode-se ver que o uso do detector SSD para reproduzir o método de referência produz um ganho de 5 pontos percentuais (p.p.) quando comparado ao relatório original de Jain et al. (“What do 15,000 object categories tell us about classifying and localizing actions?”, Jain et al., CVPR, 2015). Além disso, avaliando a representação do número de ocorrências isoladamente, um resultado semelhante à linha de base (65%) é alcançado. Ele mostra que as ocorrências por si só não são tão representativas quanto as probabilidades de objetos. Finalmente, a combinação de probabilidades e ocorrências obtém uma acurácia de 72%, o que mostra que eles são complementares. Posteriormente, a arquitetura de aprendizagem profunda da rede relacional egocêntrica temporal (TERN) é avaliada. Comparando-se os resultados da TERN com a pirâmide egocêntrica isoladamente, há uma melhora de 1,92 p.p., o que sugere que existem outras características contextuais não explícitas que podem ser exploradas além de arranjos espaciais, como sinais temporais de posições relativas do quadro e múltiplos trechos, e outras indicações espaciais tais como o tamanho e a localização precisa.[0057] Experiments on the UCF101 human activity recognition dataset demonstrate the improvements in accuracy over existing reference methods when using the proposed invention. Initially, preliminary experiments are conducted in the 1st division of the UCF101 dataset to evaluate the egocentric pyramid alone and reference methods based on object occurrences, namely, spatial pyramid, object probabilities, as reported by Jain et al., a implementation using an object detector, and extension based on occurrences. Figure 4 shows the experimental results of the proposed invention in comparison with reference methods based on occurrences of objects. First, it can be seen that using the SSD detector to reproduce the reference method produces a gain of 5 percentage points (p.p.) when compared to the original report by Jain et al. (“What do 15,000 object categories tell us about classifying and localizing actions?”, Jain et al., CVPR, 2015). Furthermore, by evaluating the representation of the number of occurrences alone, a result similar to the baseline (65%) is achieved. It shows that occurrences alone are not as representative as object probabilities. Finally, the combination of probabilities and occurrences obtains an accuracy of 72%, which shows that they are complementary. Subsequently, the deep learning architecture of the temporal egocentric relational network (TERN) is evaluated. Comparing the TERN results with the egocentric pyramid alone, there is an improvement of 1.92 pp, which suggests that there are other non-explicit contextual features that can be explored in addition to spatial arrangements, such as temporal signals of relative frame positions and multiple stretches, and other spatial indications such as size and precise location.

[0058] A Figura 5 mostra os resultados experimentais de uma concretização da invenção proposta (TERN) fundida com outras arquiteturas de última geração para reconhecimento de ação, que também consideram informações de movimento. Os resultados mostram a competitividade da invenção proposta com outras abordagens.[0058] Figure 5 shows the experimental results of an implementation of the proposed invention (TERN) merged with other latest generation architectures for action recognition, which also consider motion information. The results show the competitiveness of the proposed invention with other approaches.

[0059] A Figura 5 apresenta a TERN avaliada nas três divisões do UCF101, onde a última coluna é a média das acurácias. Estes resultados são comparados com as conhecidas redes de duas-vias, com modificações de Wang et al. (“Towards good practices for very deep Two-Stream convnets”, Jain et al., arxiv, 2015). Os resultados de Wang et al. foram obtidos pela execução do código fornecido pelos autores. Para fazer uma comparação justa, as redes de segmento temporal (TSN, Temporal Segment Networks) também estão incluídas. Comparado à via espacial, a TERN obtém um resultado semelhante, o que pode sugerir que ela esteja codificando parte das informações espaciais necessárias codificadas pela via espacial. No entanto, quando a via espacial é também embutida na estrutura TSN, a diferença entre as duas abordagens aumenta. A razão pode ser que a TSN permite que a rede convolucional espacial aprenda padrões visuais temporalmente consistentes que não estão disponíveis a partir de detecções de objeto sozinhas, como cena/plano de fundo e sugestões de pose. A fusão de previsões TERN com a via temporal produz uma melhoria próxima da rede duas-vias, sugerindo complementaridade entre as duas modalidades. Comparando com a rede de duas-vias sozinha, deve-se notar que a fusão de TERN + Duas-Vias é capaz de melhorar ligeiramente o reconhecimento (1,34 p.p.). No entanto, esse ganho é menor quando fundido com a TSN (0,04 p.p.), demonstrando uma menor complementaridade entre as duas abordagens.[0059] Figure 5 shows the TERN evaluated in the three divisions of the UCF101, where the last column is the mean of the accuracy. These results are compared with the known two-way networks, with modifications by Wang et al. (“Towards good practices for very deep Two-Stream convnets”, Jain et al., arxiv, 2015). The results of Wang et al. were obtained by executing the code provided by the authors. For a fair comparison, Temporal Segment Networks (TSN) are also included. Compared to the spaceway, TERN obtains a similar result, which may suggest that it is encoding part of the necessary spatial information encoded by the spaceway. However, when the spaceway is also embedded in the TSN framework, the difference between the two approaches increases. The reason could be that TSN allows the spatial convolutional network to learn temporally consistent visual patterns that are not available from object detections alone, such as scene/background and pose suggestions. The merger of TERN forecasts with the temporal lane produces an improvement close to the two-way network, suggesting complementarity between the two modalities. Comparing with the two-way network alone, it should be noted that the TERN + Two-Way fusion is able to slightly improve the recognition (1.34 p.p.). However, this gain is smaller when merged with TSN (0.04 p.p.), demonstrating a lower complementarity between the two approaches.

[0060] Para compreender melhor como TERN e TSN afetam-se, é analisada a diferença na acurácia entre a invenção proposta isoladamente (TERN) e a invenção proposta fundida com a abordagem do estado da técnica (TERN + DuasVias (TSN)). A Figura 6 mostra um resumo dos cenários que a TERN + Duas-Vias (TSN) executou melhor (barras positivas) e pior (barras negativas) do que a rede de Duas-Vias (TSN) sozinha. O gráfico mostra que as atividades que têm objetos são mais fáceis de reconhecer, como tiro com arco, saco de pancadas de boxe, shotput, e digitação, enquanto a TERN obtém um desempenho inferior para as classes que os objetos estão ausentes ou são de difícil detecção (aplicar maquiagem nos olhos), aparência e/ou movimento desempenha um papel importante (salto em distância, soco), ou objetos estão ausentes entre as categorias de detectores (arremesso de vara). Comparando TERN sozinha com TSN, TERN obteve melhor desempenho em situações que os objetos desempenharam um papel importante, como tocar guitarra ou equitação. Ainda assim, a aparência e o movimento executam melhor na maioria das classes, como esperado. No entanto, como mostrado nas Figuras 5 e 6, há categorias de atividade que se beneficiam da fusão com TERN, sugerindo que existem pistas contextuais que podem ser exploradas por arquiteturas de reconhecimento de ação além da aparência/movimento.[0060] To better understand how TERN and TSN affect each other, the difference in accuracy between the proposed invention alone (TERN) and the proposed invention merged with the prior art approach (TERN + Two-Way (TSN)) is analyzed. Figure 6 shows a summary of the scenarios that the TERN + Two-Way (TSN) performed better (positive bars) and worse (negative bars) than the Two-Way network (TSN) alone. The graph shows that activities that have objects are easier to recognize, such as archery, punching bag, shotput, and typing, while TERN performs poorly for classes where objects are missing or difficult. detection (applying eye makeup), appearance and/or movement plays an important role (long jump, punch), or objects are absent among the detector categories (stick throw). Comparing TERN alone with TSN, TERN performed better in situations where objects played an important role, such as playing guitar or riding. Still, looks and movement perform better in most classes, as expected. However, as shown in Figures 5 and 6, there are activity categories that benefit from merging with TERN, suggesting that there are contextual clues that can be explored by action recognition architectures beyond appearance/movement.

[0061] Embora a presente invenção tenha sido descrita em conexão com certas concretizações preferenciais, deve-se entender que ela não se destina a limitar a invenção a essas concretizações particulares. Em vez disso, a presente invenção destina-se a cobrir todas as alternativas, modificações e equivalentes possíveis dentro do espírito e âmbito desta divulgação, tal como definido pelas reivindicações anexadas.[0061] Although the present invention has been described in connection with certain preferred embodiments, it is to be understood that it is not intended to limit the invention to those particular embodiments. Rather, the present invention is intended to cover all possible alternatives, modifications and equivalents within the spirit and scope of this disclosure as defined by the appended claims.

Claims (11)

Método de reconhecimento de vídeo usando descritores de características contextuais capazes de codificar relações temporais e espaciais de conceitos caracterizado pelo fato de que compreende as etapas de:
a. adquirir dados de vídeo de entrada (201B);
b. processar os dados de vídeo de entrada a fim de detectar conceitos no vídeo (202B);
c. computar descritores de características contextuais dos conceitos detectados, além disso, compreendendo as seguintes sub etapas:
  • i. computar, pela pirâmide egocêntrica, as relações espaciais de conceitos detectados em relação ao principal agente da cena (pareamentos conceito-agente) (203B);
  • ii. computar pareamentos entre conceitos (pareamentos conceito-conceito) (204B);
  • iii. fazer uso de pareamentos para aprender suas relações temporais, pela Rede Relacional Egocêntrica Temporal (TERN), para gerar vetores de características (205B);
d. emitir as predições geradas pela Rede Relacional Egocêntrica Temporal (206B).
Video recognition method using contextual feature descriptors capable of encoding temporal and spatial relationships of concepts characterized by the fact that it comprises the steps of:
The. acquiring input video data (201B);
B. processing the input video data to detect concepts in the video (202B);
ç. compute contextual characteristics descriptors of the detected concepts, in addition, comprising the following sub-steps:
  • i. compute, through the egocentric pyramid, the spatial relationships of detected concepts in relation to the main agent of the scene (concept-agent pairings) (203B);
  • ii. compute pairings between concepts (concept-concept pairings) (204B);
  • iii. make use of pairings to learn their temporal relations, through the Temporal Egocentric Relational Network (TERN), to generate feature vectors (205B);
d. issue the predictions generated by the Temporal Egocentric Relational Network (206B).
Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o passo de aquisição de dados de vídeo de entrada (201B) compreende dividir o vídeo em t segmentos de vídeo de igual tamanho T e, em seguida, a partir de cada segmento, um trecho aleatório Si é amostrado com comprimento |Si| tal que |Si| ≤ T.Method according to claim 1, characterized in that the input video data acquisition step (201B) comprises dividing the video into t video segments of equal size T and then from each segment , a random stretch Si is sampled with length |Si| such that |Si| ≤ T. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a etapa de computar os conceitos detectados atribui probabilidades ao contexto capturado a fim de determinar os conceitos e o (s) agente(es) nos trechos de vídeo.Method, according to claim 1, characterized in that the step of computing the detected concepts assigns probabilities to the captured context in order to determine the concepts and the agent(s) in the video excerpts. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a pirâmide egocêntrica considera como o principal agente na cena o conceito com a maior pontuação de detecção obtida pelo detector de conceito.Method, according to claim 1, characterized by the fact that the egocentric pyramid considers as the main agent in the scene the concept with the highest detection score obtained by the concept detector. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que quando mais de um agente está na cena, o número de agentes resulta no mesmo número de pirâmides egocêntricas, cada um deles considerando um conceito separado como o agente na cena.Method, according to claim 1, characterized by the fact that when more than one agent is in the scene, the number of agents results in the same number of egocentric pyramids, each of them considering a separate concept as the agent in the scene. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a Rede Relacional Egocêntrica Temporal aprende relações temporais de ambos os pareamentos egocêntricos e pareamentos de conceito.Method, according to claim 1, characterized by the fact that the Temporal Egocentric Relational Network learns temporal relationships of both egocentric pairings and concept pairings. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a Rede Relacional Egocêntrica Temporal aprende relacionamentos temporais a partir de pareamentos egocêntricos.Method, according to claim 1, characterized by the fact that the Temporal Egocentric Relational Network learns temporal relationships from egocentric pairings. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a Rede Relacional Egocêntrica Temporal aprende relacionamentos temporais a partir de pareamentos de conceito.Method, according to claim 1, characterized by the fact that the Temporal Egocentric Relational Network learns temporal relationships from concept pairings. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a Rede Relacional Egocêntrica Temporal faz uso dos pareamentos, a fim de aprender características e classificar de forma unificada.Method, according to claim 1, characterized by the fact that the Temporal Egocentric Relational Network makes use of pairings in order to learn characteristics and classify in a unified way. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a Rede Relacional Egocêntrica Temporal foi projetada para relacionar informações de conceito ao longo do tempo.Method, according to claim 1, characterized by the fact that the Temporal Egocentric Relational Network was designed to relate concept information over time. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a Rede Relacional Egocêntrica Temporal é definida como:
TERN(S) = G(RΦ(S1), RΦ(S2), ..., RΦ(St)),
onde St é um trecho de vídeo, RΦ é uma rede relacional com parâmetros Φ, G é uma operação de agrupamento/pooling. Em particular, uma rede relacional RΦ, dado parâmetros Φ = [Φ1,Φ2] , é definida como
Figure img0002
onde, 0 = {0i}ni=1 representa um conjunto de n entradas de conceitos detectados (por exemplo, objetos), onde 0i é o i-ésimo conceito tal que 0i ∈ ℝ3; e funções fΦ1 e gΦ2 são perceptrons multicamada (MLP) parametrizados por parâmetros Φ1 e Φ2 respectivamente.
Method, according to claim 1, characterized in that the Temporal Egocentric Relational Network is defined as:
TERN(S) = G(RΦ(S1), RΦ(S2), ..., RΦ(St)),
where St is a video clip, RΦ is a relational network with parameters Φ, G is a grouping/pooling operation. In particular, a relational network RΦ, given parameters Φ = [Φ1,Φ2] , is defined as
Figure img0002
where, 0 = {0i}ni=1 represents a set of n inputs of detected concepts (for example, objects), where 0i is the i-th concept such that 0i ∈ ℝ3; and functions fΦ1 and gΦ2 are multilayer perceptrons (MLP) parameterized by parameters Φ1 and Φ2 respectively.
BR102019024569-7A 2019-10-23 2019-11-21 video recognition method capable of encoding temporal and spatial relationships of concepts using contextual information BR102019024569A2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
BR102019024569-7A BR102019024569A2 (en) 2019-11-21 2019-11-21 video recognition method capable of encoding temporal and spatial relationships of concepts using contextual information
US16/849,350 US11416774B2 (en) 2019-10-23 2020-04-15 Method for video recognition capable of encoding spatial and temporal relationships of concepts using contextual features

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
BR102019024569-7A BR102019024569A2 (en) 2019-11-21 2019-11-21 video recognition method capable of encoding temporal and spatial relationships of concepts using contextual information

Publications (1)

Publication Number Publication Date
BR102019024569A2 true BR102019024569A2 (en) 2021-05-25

Family

ID=76269437

Family Applications (1)

Application Number Title Priority Date Filing Date
BR102019024569-7A BR102019024569A2 (en) 2019-10-23 2019-11-21 video recognition method capable of encoding temporal and spatial relationships of concepts using contextual information

Country Status (1)

Country Link
BR (1) BR102019024569A2 (en)

Similar Documents

Publication Publication Date Title
Zhou et al. Tracking objects as points
Ullah et al. Action recognition using optimized deep autoencoder and CNN for surveillance data streams of non-stationary environments
US10614310B2 (en) Behavior recognition
Ballan et al. Event detection and recognition for semantic annotation of video
Özyer et al. Human action recognition approaches with video datasets—A survey
Wang et al. Deep appearance and motion learning for egocentric activity recognition
Liang et al. Learning latent spatio-temporal compositional model for human action recognition
US11416774B2 (en) Method for video recognition capable of encoding spatial and temporal relationships of concepts using contextual features
Wang et al. Video event detection using motion relativity and feature selection
Ravì et al. Real-time food intake classification and energy expenditure estimation on a mobile device
Xia et al. Real time violence detection based on deep spatio-temporal features
Ma et al. A survey of human action recognition and posture prediction
Liu et al. Salient pairwise spatio-temporal interest points for real-time activity recognition
Zhu et al. A comprehensive solution for detecting events in complex surveillance videos
Topham et al. Human body pose estimation for gait identification: A comprehensive survey of datasets and models
Wang et al. Action recognition using edge trajectories and motion acceleration descriptor
Chen et al. Efficient activity detection in untrimmed video with max-subgraph search
Weng et al. Action recognition using length-variable edge trajectory and spatio-temporal motion skeleton descriptor
Zhang et al. Realistic human action recognition: When cnns meet lds
Akila et al. Highly refined human action recognition model to handle intraclass variability & interclass similarity
Dasari et al. Mpeg cdvs feature trajectories for action recognition in videos
Aakur et al. Action localization through continual predictive learning
Zhang et al. Human action recognition using salient region detection in complex scenes
Zhang et al. Action detection with two-stream enhanced detector
BR102019024569A2 (en) video recognition method capable of encoding temporal and spatial relationships of concepts using contextual information

Legal Events

Date Code Title Description
B03A Publication of a patent application or of a certificate of addition of invention [chapter 3.1 patent gazette]
B15W Others matters related to applications: legal action concerning application

Free format text: INPI NO 52402.009797/2022-03 ORIGEM: 13A VARA FEDERAL DO RIO DE JANEIRO PROCESSO NO: 5062276-41.2022.4.02.5101/RJ SUBJUDICE AUTOR: SAMSUNG ELETRONICA DA AMAZONIA LTDA REU(S): INPI - INSTITUTO NACIONAL DA PROPRIEDADE INDUSTRIAL