BR112015005282B1 - Métodos de detecção de indivíduos humanos em um vídeo - Google Patents

Métodos de detecção de indivíduos humanos em um vídeo Download PDF

Info

Publication number
BR112015005282B1
BR112015005282B1 BR112015005282-7A BR112015005282A BR112015005282B1 BR 112015005282 B1 BR112015005282 B1 BR 112015005282B1 BR 112015005282 A BR112015005282 A BR 112015005282A BR 112015005282 B1 BR112015005282 B1 BR 112015005282B1
Authority
BR
Brazil
Prior art keywords
human subject
video
image
predetermined
foreground
Prior art date
Application number
BR112015005282-7A
Other languages
English (en)
Other versions
BR112015005282A2 (pt
BR112015005282A8 (pt
Inventor
Zhong Zhang
Weihong Yin
Peter Venetianer
Original Assignee
Motorola Solutions, Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US13/838,511 external-priority patent/US9165190B2/en
Application filed by Motorola Solutions, Inc filed Critical Motorola Solutions, Inc
Publication of BR112015005282A2 publication Critical patent/BR112015005282A2/pt
Publication of BR112015005282A8 publication Critical patent/BR112015005282A8/pt
Publication of BR112015005282B1 publication Critical patent/BR112015005282B1/pt

Links

Abstract

MÉTODOS DE DETECÇÃO DE INDIVÍDUOS HUMANOS EM UM VÍDEO. A invenção refere-se a métodos, dispositivos e sistemas para executar análise de conteúdo de vídeo para detectar humanos ou outros objetos de interesse em uma imagem de vídeo. A detecção de humanos pode ser usada para contar um número de humanos, para determinar um local de cada humano e/ou executar análises de agrupamento de áreas monitoradas.

Description

REFERÊNCIA CRUZADA AO PEDIDO RELACIONADO
[0001] Este pedido reivindica o benefício da prioridade para o Pe dido no U.S. 13/838.511, depositado em 15 de março de 2013, e para o Pedido de Patente Provisório no U.S. 61/700.033, depositado em 12 de setembro de 2012, sendo que o conteúdo de cada um dos quais é incorporado ao presente documento a título de referência, em sua totalidade.
ANTECEDENTES 1. CAMPO
[0002] Esta revelação refere-se à vigilância por vídeo, como méto dos e sistemas de vigilância por vídeo e métodos e sistemas de verificação por vídeo. Os sistemas, dispositivos e métodos de vigilância por vídeo revelados podem detectar indivíduos humanos. Os sistemas, dispositivos e métodos de verificação por vídeo podem contar indivíduos humanos e/ou monitorar cenários de agrupamento de indivíduos humanos em fluxos de vídeo.
2. ANTECEDENTES
[0003] O sistema de Vigilância por Vídeo Inteligente (IVS) pode ser usado para detectar eventos de interesse em transmissões de vídeo em tempo real ou offline (por exemplo, ao rever o vídeo previamente gravado e armazenado). Tipicamente, essa tarefa é alcançada através da detecção e rastreamento de alvos de interesse. Isso geralmente funciona bem quando a cena não é apinhada de gente. No entanto, o desempenho de tal sistema pode ser reduzido significativamente em cenas apinhadas. Na realidade, tais cenas apinhadas ocorrem frequentemente, assim, a capacidade de detectar indivíduos humanos em agrupamentos é de grande interesse. Tal detecção de indivíduos humanos pode ser usada para contagem e outras análises de agru- pamento, como densidade de agrupamento, formação de agrupamento e dispersão de agrupamento.
[0004] O trabalho de análise de agrupamento anterior trata de al guns cenários agrupados extremamente específicos como determinados eventos esportivos ou religiosos. No entanto, há uma necessidade de se concentrar, também, em cenários de vigilância mais comuns em que grandes agrupamentos podem, ocasionalmente, se formar. Esses incluem locais públicos como ruas, shopping centers, aeroportos, estações de ônibus e trem, etc.
[0005] Recentemente, o problema de estimativa de densidade de agrupamento ou contagem de pessoas no agrupamento está recebendo atenção significativa da comunidade de pesquisa, assim como da indústria. As abordagens existentes incluem, principalmente, abordagens (indiretas) baseadas em mapa e/ou abordagens (diretas) baseadas em detecção.
[0006] Uma abordagem baseada em mapa pode tentar mapear a quantidade de alvos humanos para extrair recursos de imagem, como a quantidade de pixels de movimento, o tamanho de objeto grande binário em primeiro plano, margens de primeiro plano, grupos de cantos em primeiro plano e outros recursos de imagem. A abordagem baseada em mapa, geralmente, exige treinamento para diferentes tipos de cenários de vídeo. A pesquisa se concentra principalmente na busca por recursos confiáveis que correspondem bem à contagem de pessoas e em como lidar com algumas questões específicas, como sombras e perspectiva de vista de câmera. Em alguns cenários, a abordagem baseada em mapa pode fornecer estimativas de contagem de indivíduos humanos razoavelmente precisa dados os vídeos de treinamento suficientes. No entanto, o desempenho é, geralmente, dependente de cena e os locais atuais de cada indivíduo podem não estar disponíveis.
[0007] Uma abordagem baseada em detecção pode contar a quan- tidade de pessoas na cena através da identificação de cada alvo de indivíduo humano individual. A pesquisa se concentrou na detecção de indivíduos humanos, na detecção de partes de indivíduos humanos e na consideração conjunta de detecção e rastreamento. Essas abordagens podem fornecer a detecção e a contagem mais precisa em cenários ligeiramente agrupados. Se o local de cada indivíduo puder ser disponibilizado, pode ser possível computar a densidade de agrupamento do local. Os desafios chave dessas abordagens são os custos de computação mais altos, aprendizagem dependente do ponto de vista e exigência de tamanho de imagem de indivíduo humano relativa-mente grande.
[0008] As modalidades descritas no presente documento tratam alguns desses problemas dos sistemas existentes.
SUMÁRIO
[0009] As modalidades reveladas fornecem métodos, dispositivos e sistemas para análise inteligente de imagens de vídeo para detectar objetos, como indivíduos humanos.
[0010] Em determinadas modalidades, um método de detecção de indivíduos humanos em um vídeo compreende determinar que determinados pixels de uma imagem de vídeo são pixels em primeiro plano, sendo que o grupo de pixels em primeiro plano constitui um conjunto de objeto grande binário em primeiro plano (“foreground blob set”) de um ou mais objetos grandes binários em primeiro plano; para cada um dos N locais na imagem de vídeo, em que N é um número inteiro, comparar um formato predeterminado com o conjunto de objeto grande binário em primeiro plano para obter a probabilidade correspondente de um indivíduo humano no local, obtendo, por meio disso, N probabilidades que corresponde aos N locais; e ao usar as N probabilidades, determinar que X indivíduos humanos são representados pelo conjunto de objeto grande binário em primeiro plano, em que X é o número inteiro.
[0011] Um método de detecção de indivíduos humanos em um ví deo pode compreender determinar que os pixels de uma imagem de vídeo de uma cena do mundo real são pixels em primeiro plano, sendo que o grupo de pixels em primeiro plano constitui um conjunto de objeto grande binário em primeiro plano de um ou mais objetos grandes binários em primeiro plano; e para cada de N locais na imagem de vídeo, em que N é um número inteiro, comparar a formato predeterminado com o conjunto de objeto grande binário em primeiro plano para determinar que X indivíduos humanos são representados pelo conjunto de objeto grande binário em primeiro plano, em que X é o número inteiro.
[0012] Os métodos podem incluir determinar um local de cada um dos X indivíduos humanos. Os locais de cada um dos X indivíduos humanos podem ser determinados como um local em um plano horizontal do mundo real, como um local em um plano terrestre físico do mundo real.
[0013] A detecção dos indivíduos humanos pode ser usada para contar indivíduos humanos, para as análises de agrupamento e para outras detecções de evento.
[0014] O sistema e os dispositivos são revelados, os quais podem ser configurados para realizar tais métodos.
[0015] Meios legíveis por computador que contém software que pode ser usado para configurar um computador para realizar as operações são descritos no presente documento e compreendem mais modalidades da invenção.
BREVE DESCRIÇÃO DOS DESENHOS
[0016] As modalidades exemplificativas serão mais claramente compreendidas a partir da descrição detalhada a seguir tomada em conjunto com os desenhos anexos. As Figuras representam modalida- des exemplificativas não limitantes, conforme descritas no presente documento.
[0017] A Figura 1 ilustra um sistema de vigilância por vídeo exem- plificativo de acordo com uma modalidade exemplificativa da invenção.
[0018] A Figura 2 ilustra um quadro exemplificativo de um fluxo de vídeo do sistema de vigilância por vídeo de acordo com uma modalidade exemplificativa da invenção.
[0019] A Figura 3A ilustra um diagrama de fluxo exemplificativo para a detecção e a contagem de alvo de acordo com uma modalidade exemplificativa da invenção.
[0020] A Figura 3B ilustra um exemplo em que diversos modelos de indivíduo humano ocupam uma imagem de vídeo bidimensional, sendo que cada uma corresponde um local diferente em relação à imagem de vídeo bidimensional.
[0021] A Figura 3C ilustra uma única fileira de coordenadas de identificação (x, y) 321, sendo cada uma associada a um modelo de indivíduo humano correspondente 320.
[0022] A Figura 3D ilustra um método exemplificativo para calcular um mapa de probabilidade de indivíduo humano.
[0023] A Figura 3E ilustra um método exemplificativo para realizar a única passagem do mapa de probabilidade como parte de achar um número melhor de modelos de indivíduo humano em uma imagem de vídeo.
[0024] A Figura 3F ilustra um método para realizar diversas passagens do mapa de probabilidade quanto a achar o melhor número de modelos de indivíduo humano em uma imagem de vídeo.
[0025] A Figura 4 ilustra um modelo de indivíduo humano genérico que inclui um modelo de cilindro em 3D e seu modelo de envoltório convexo em 2D correspondente.
[0026] A Figura 5 ilustra um modelo de câmera de planisférica ge- nérica que pode ser calibrada com o uso de diversas amostras de imagem de indivíduo humano.
[0027] As Figuras 6A, 6B e 6C mostram resultados de detecção exemplificativa.
[0028] As Figuras 7A, 7B e 7C ilustram um exemplo relacionado à densidade de agrupamento de indivíduos humanos com base nos resultados de detecção de indivíduos humanos.
[0029] A Figura 8 ilustra implantações exemplificativas para detectar vários eventos relacionados a agrupamento.
[0030] A Figura 9 ilustra um método exemplificativo de como definir e detectar uma área agrupada.
[0031] A Figura 10 ilustra um processo exemplificativo em cada alvo humano detectado.
[0032] A Figura 11 ilustra um processo exemplificativo em cada região de agrupamento.
[0033] A Figura 12 ilustra um método que pode ser usado para definir e detectar eventos de “reunião” e “dispersão” de agrupamento.
[0034] A Figura 13 ilustra um exemplo de definição de um ponto de reunião de agrupamento.
[0035] As Figuras 14A e 14B mostram um exemplo de um ponto de reunião de agrupamento.
[0036] A Figura 15 ilustra um método exemplificativo de detecção dos pontos de reunião de agrupamento.
[0037] A Figura 16 ilustra um método exemplificativo de atualização dos pontos de reunião de agrupamento e de detecção de eventos de “reunião” e “dispersão” de agrupamento.
[0038] A Figura 17 ilustra uma implantação exemplificativa que usa diversas câmeras de vídeo.
DESCRIÇÃO DETALHADA
[0039] Várias modalidades exemplificativas serão descritas mais completamente doravante com referência aos desenhos anexos, em que algumas modalidades exemplificativas são mostradas. A presente invenção pode, no entanto, ser incorporada em muitas formas diferentes e não deve ser interpretada como limitada às modalidades exem- plificativas estabelecidas no presente documento. Essas modalidades exemplificativas são apenas isso - exemplos - e muitas implantações e variações são possíveis, que não exigem os detalhes fornecidos no presente documento. Também deve ser enfatizado que a revelação fornece detalhes de exemplos alternativos, mas tal listagem de alternativas não é exaustiva. Ademais, qualquer consistência de detalhes entre os vários exemplos não devem ser interpretados como exigindo tais detalhes - não é prático listar toda variação possível para todo recurso descrito no presente documento. A linguagem das reivindicações deve ser referida na determinação de exigências da invenção. Nos desenhos, os tamanhos e tamanhos relativos de camadas e regiões podem ser exagerados por questão de clareza. Os numerais iguais se referem aos elementos semelhantes por todo o documento.
[0040] Deve-se compreender que, muito embora os termos primei ro, segundo, terceiro, etc. possam ser usados no presente documento para descrever vários elementos, esses elementos não devem ser limitados por esses termos. Esses termos são usados para distinguir um elemento do outro. Assim, um primeiro elemento discutido abaixo poderia ser designado como um segundo elemento sem se afastar dos ensinamentos do presente conceito inventivo. Conforme usado no presente documento, o termo “e/ou” inclui quaisquer e todas as combinações de um ou mais dos itens listados associados.
[0041] Será compreendido que, quando um elemento for referido como estando “conectado” ou “acoplado” a outro elemento, o mesmo pode ser diretamente conectado ou acoplado ao outro elemento ou os elementos intervenientes podem estar presentes. Em contrapartida, quando um elemento for referido como sendo “diretamente conectado” ou “diretamente acoplado” a outro elemento, não há elementos intervenientes presentes. Outras palavras usadas para descrever a relação entre os elementos poderiam ser interpretadas de uma maneira semelhante (por exemplo, “entre” contra “diretamente entre”, “adjacente” contra “diretamente adjacente”, etc.).
[0042] A terminologia usada no presente documento é para fins de descrição das modalidades exemplificativas específicas apenas e não é destinada a ser limitante ao presente conceito inventivo. Conforme usado presente conceito inventivo, as formas no singular “um”, “uma” e “o/a” são destinadas a incluir as formas no plural também, a menos que o contexto indique claramente o contrário. Será ainda mais compreendido que os termos “compreende” e/ou “que compreende”, quando usados neste relatório descritivo, especificam a presença de recursos, números inteiros, etapas, operações, elementos e/ou componentes determinados, mas não exclui a presença ou adição de um ou mais dentre outros recursos, números inteiros, etapas, operações, elementos, componentes e/ou grupos dos mesmos.
[0043] A menos que seja definido de outro modo, todos os termos (inclusive termos técnicos e científicos) usados no presente documento têm o mesmo significado conforme comumente compreendido por um indivíduo de habilidade comum na técnica para ao qual esse conceito inventivo pertence. Será adicionalmente compreendido que os termos, como aqueles definidos em dicionários comumente usados, devem ser interpretados como tendo um significado que é consistente com seu significado no contexto da técnica relevante e não serão interpretados em um sentido idealizado ou excessivamente formal a menos que seja expressamente definido no presente documento.
[0044] Definições. Na descrição da invenção, as definições a se guir são aplicáveis por todo o documento (inclusive acima).
[0045] “Vídeo” pode se referir às imagens em movimento represen tadas na forma analógica e/ou digital. Os exemplos de vídeo podem incluir: televisão; um filme; uma sequência de imagens de uma câmera de vídeo ou outro observador; uma sequência de imagens de uma transmissão ao vivo; uma sequência de imagens gerada por computador; uma sequência de imagens de um motor de gráfico de computador; uma sequência de imagens de um dispositivo de armazenamento, como um meio legível por computador, um disco de vídeo digital (DVD) ou um disco de alta definição (HDD); uma sequência de imagens de uma interface baseada em IEEE 1394; uma sequência de imagens de um digitalizador de vídeo; ou uma sequência de imagens de uma rede.
[0046] Uma “sequência de vídeo” pode se referir a alguns ou a to do um vídeo.
[0047] Uma “câmera de vídeo” pode se referir a um aparelho para gravação visual. Os exemplos de uma câmera de vídeo podem incluir um ou mais dentre os seguintes: um formador de imagem de vídeo e aparelho de lente; uma câmera de vídeo; uma câmera de vídeo digital; uma câmera colorida; uma câmera monocromática; uma câmera; uma filmadora; uma câmera de PC; uma webcam; uma câmera de vídeo com infravermelho (IR); uma câmera de vídeo com luz baixa; uma câmera de vídeo térmica; uma câmera de televisão com circuito fechado (CCTV); uma panorâmica, inclinação, câmera com zoom (PTZ); e um dispositivo de detecção de vídeo. Uma câmera de vídeo pode ser posicionada para realizar vigilância de uma área de interesse.
[0048] “Processamento de vídeo” pode se referir a qualquer mani pulação e/ou análise de vídeo, inclusive, por exemplo, compressão, edição, vigilância e/ou verificação.
[0049] Um “quadro” pode se referir a uma imagem em particular ou outra unidade discreta em um vídeo.
[0050] Um “computador” pode se referir a um ou mais aparelhos e/ou um ou mais sistemas que tenham a capacidade de aceitar uma entrada estruturada, processar a entrada estruturada de acordo com as regras prescritas e produzir resultados do processamento como saída. Os exemplos de um computador podem incluir: um computador; um computador estacionário e/ou portátil; um computador que tem um único processador, múltiplos processadores ou processadores de múltiplos núcleos, que podem operar em paralelo e/ou não em paralelo; um computador para fins gerais; um supercomputador; um computador de grande porte; um superminicomputador; um minicomputador; uma estação de trabalho; um microcomputador; um servidor; um cliente; uma televisão interativa; um utensílio de rede; um dispositivo de telecomunicações com acesso à internet; uma combinação hibrida de um computador e uma televisão interativa; um computador portátil; um computador pessoal do tipo tablet (PC); um assistente pessoal digital (PDA); um telefone portátil; hardware de aplicação específica para emular um computador e/ou software, como, por exemplo, um processador de sinal digital (DSP), um arranjo de porta programável em campo (FPGA), um circuito integrado de aplicação específica (ASIC), um processador definido por instrução de aplicação específica (ASIP), uma placa, placas ou um conjunto de placas; um sistema em uma placa (SoC) ou um sistema em placa com múltiplos processadores (MPSoC); um computador óptico; um computador quântico; um computador biológico; e um aparelho que pode aceitar dados, pode processar os dados de acordo com um ou mais programas de software armazenados, pode gerar resultados e, tipicamente, pode incluir unidades de entrada, saída armazenamento, aritmética, lógica e de controle.
[0051] “Software” pode se referir às regras prescritas para operar um computador. Os exemplos de software podem incluir: software; segmentos de código; instruções; miniaplicativos; código pré- compilado; código compilado; código interpretado; programas de computador; e lógica programada.
[0052] Um “meio legível por computador” pode se referir a qual quer dispositivo de armazenamento usado para armazenar os dados acessíveis por um computador. Os exemplos de um meio legível por computador podem incluir: um disco rígido magnético; um disco flexível; um disco óptico, como um CD-ROM e um DVD; uma fita magnética; uma memória removível rápida; uma placa de memória; e/ou outros tipos de mídia que possam armazenar nela instruções legíveis por máquina.
[0053] Um “sistema de computador” pode se referir a um sistema que tem um ou mais computadores, em que cada computador pode incluir um meio legível por computador que incorpora o software para operar o computador. Os exemplos de um sistema de computador podem incluir: um sistema de computador distribuído para processar informações por meio dos sistemas de computador ligados por uma rede; dois ou mais sistemas de computador conectados juntos por meio de uma rede para transmitir e/ou receber informações entre os sistemas de computador; e um ou mais aparelhos e/ou um ou mais sistemas que podem aceitar dados, podem processar dados de acordo com um ou mais programas de software armazenados, podem gerar resultados e, tipicamente, podem incluir unidades de entrada, saída, armazenamento, aritmética, lógica e de controle.
[0054] Uma “rede” pode se referir a inúmeros computadores e dis positivos associados que podem ser conectados por instalações de comunicação. Uma rede pode envolver conexões permanentes como cabos ou conexões temporárias como aquelas feitas através de telefone ou outros enlaces de comunicação. Uma rede pode incluir, adicionalmente, conexões cabeadas (por exemplo, cabo coaxial, par torcido, fibra óptica, guias de onda, etc.) e/ou conexões sem fio (por exemplo, formas de onda de radiofrequência, formas de onda ópticas de espaço livre, formas de onda acústicas, etc.). Os exemplos de uma rede podem incluir: uma internet, como a Internet; uma intranet; uma rede de área local (LAN); uma rede de área ampla (WAN); e uma combinação de redes, como uma internet e uma intranet. As redes exemplificativas podem operar com quaisquer de inúmeros protocolos, como o protocolo de Internet (IP), modo de transferência assíncrona (ATM) e/ou rede óptica síncrona (SONET), protocolo de datagrama de usuário (UDP), IEEE 802.x, etc.
[0055] Em algumas modalidades, um método, sistema e dispositi vo de estimativa de densidade de agrupamento podem ser baseados em métodos, sistemas e dispositivos de análise de conteúdo de vídeo existente. Além da exigência de precisão de estimativa básica, a abordagem pode incluir um ou mais dentre os seguintes: • A independência de visualização da câmera pode permitir que modalidades funcionem em uma ampla faixa de cenários de aplicação independente de variações no local da câmera, ângulo de visualização, quantidade de pixels no alvo, etc. • O custo de computação relativamente baixo que pode correr em tempo real. As modalidades podem ser implantadas em um sistema embutido. • A configuração inicial complexa e o treinamento podem ser reduzidos e/ou eliminados, permitindo-se mais conveniência e um custo mais baixo de propriedade.
[0056] Alguns exemplos revelados no presente documento incluem uma abordagem baseada em detecção e nenhum treinamento pode ser exigido. Os exemplos podem ser implantados com um sistema de IVS geral, que já realiza as tarefas de detecção e treinamento básicas e fornece uma máscara em primeiro plano confiável. Um modelo de imagem de indivíduo humano em região convexa pode ser computado para todo pixel de imagem, que pode ser usado para estimar a quantidade de alvos humanos em cada região em primeiro plano. Os dados de calibração de câmera podem fornecer o mapeamento a partir do plano de imagem para o plano terrestre no mundo físico, que pode ser usado para fornecer medições de densidade de agrupamento reais em áreas na visualização da câmera. Usar a(s) medição(ões) de densidade de agrupamento real(is), outros eventos de interesse podem ser detectados, por exemplo, “ponto de acesso de agrupamento”, “reunião de agrupamento”, “dispersão de agrupamento”, etc.
[0057] A Figura 1 ilustra um sistema de vigilância por vídeo 101 de acordo com as modalidades exemplificativas da invenção. O sistema de vigilância por vídeo pode ser configurado para detectar e monitorar atividades de agrupamento de indivíduos humanos em fluxos de vídeo. O sistema de vigilância por vídeo 101 pode ser usado em uma variedade de aplicativos em que a detecção de indivíduos humanos é de interesse, tal como o uso para as análises de densidade de agrupamento. Por exemplo, as modalidades podem ser usadas para detecção de reunião suspeita de pessoas, coleta de estatísticas de tráfego de pedestre, formação anormal de agrupamento e/ou dispersão, etc. O sistema de vigilância por vídeo 101 pode incluir uma fonte de vídeo 102 (por exemplo, uma câmera de vídeo ou memória, como um disco rígido, com vídeo armazenado), um módulo de detecção de alteração 103, um módulo de detecção de movimento 104, um módulo de detecção de objeto grande binário em primeiro plano 105, um módulo de detecção de indivíduos humanos 106, um módulo de rastreamento de alvo 107 e um módulo de detecção de evento 108. Nesse exemplo, a fonte de vídeo (por exemplo, câmera de vídeo) é estacionária. No entanto, um indivíduo de habilidade comum irá reconhecer que a invenção também se aplica às fontes de vídeo móveis. Nesse exemplo, a fonte de vídeo fornece um único fluxo de vídeo. No entanto, a invenção também contempla o uso e o processamento de diversos fluxos de vídeo.
[0058] O sistema de vigilância por vídeo pode ser implantado com um típico sistema de IVS de plataforma estacionária. Por meio de exemplo, consulte a Patente no U.S. 7.868.912, expedida por Venetia- ner et al., e a Patente no U.S. 7.932.923, expedida por Lipton et al, ambas as quais são incorporadas no presente documento a título de referência, em sua totalidade, para os detalhes exemplificativos de um sistema de IVS que pode ser usado para implantar as modalidades descritas no presente documento. A Patente no U.S. 7.868.912 e a Patente no U.S. 7.932.923 também são incorporadas a título de referência para os detalhes exemplificativos de geração primitiva de vídeo (ou metadados) e o processamento de a jusante (que pode ser o proces-samento em tempo real ou o processamento posterior) para obter informações do vídeo, como a detecção de evento, usar os vídeos primitivos gerados, que podem ser usados com as modalidades reveladas no presente documento. Cada módulo 103 a 108, assim como seus componentes individuais, sozinhos ou conforme combinados com outros módulos/componentes, pode ser implantado através de hardware (conjunto de circuitos), software e/ou firmware dedicados. Por exemplo, um computador para fins gerais programado com software pode implantar todos os módulos. Como tal, os meios legíveis por computador que contém software que podem ser usados para configurar um computador para realizar as operações descritas no presente documento compreendem modalidades adicionais da invenção. Como outro exemplo, para implantar os sistemas, dispositivos e métodos descritos no presente documento, vários componentes de computação e ópticos podem ser usados, como um ou mais dentre os seguintes: um computador para fins gerais; supercomputador; um computador de grande porte; um super-minicomputador; um minicomputador; uma estação de trabalho; um microcomputador; um servidor; uma televisão interativa; uma combinação híbrida de um computador e uma televisão interativa; um smart phone; um computador do tipo tablet; e hardware de aplicação específica para emular um computador e/ou software. Esses podem incluir um ou mais processadores, um ou mais arranjos de porta programáveis em campo (FPGAs), memória de computador, um meio legível por computador como, por exemplo, qualquer dispositivo de armazenamento usado para armazenar dados acessíveis por um computador (por exemplo, um processador pode realizar vários algoritmos em dados recebidos de um dispositivo de câmera e uma memória de computador pode, então, armazenar as informações sobre os vários pixels e pode armazenar resultados de detecção de objeto grande binário, detecção de alvo e detecção de evento). Os exemplos de um meio legível por computador incluem: um disco rígido magnético; um disco flexível; um disco óptico, como um CD-ROM e um DVD; uma fita magnética; uma placa de memória; um dispositivo de armazenamento em estado sólido; e uma onda de portador usada para carregar dados eletrônicos legíveis por computador, como aqueles usados na transmissão e no recebimento de e-mail ou no acesso a uma rede. Um meio legível por computador tangível inclui meios legíveis por computador, conforme listados acima, que são fisicamente tangí-veis. Adicionalmente, o software pode ser usado em combinação com os componentes de computação e/ou de ópticos para implantar os métodos descritos no presente documento. O software pode incluir regras e/ou algoritmos para operar um computador e podem incluir, por exemplo, segmentos de código, instruções, programas de computador e lógica programada. A fonte de vídeo 102 e os módulos 103 a 108 podem estar em um único sistema ou podem ser dispersos. Por exemplo, a fonte de vídeo 102 pode compreender uma câmera de ví- deo na área a ser monitorada. A fonte de vídeo 102 que fornece um fluxo de vídeo a um local de monitoramento (por exemplo, um segundo local separado fora do local a ser monitorado) em que os módulos 103 a 107 estão localizados. O módulo de detecção de evento 108 pode ser fornecido em um terceiro local (por exemplo, uma estação central) separado do local de monitoramento e do segundo local. Os vários módulos, computadores, câmeras e outro equipamento de imagem descritos no presente documento podem ser conectados através de uma rede, que pode envolver conexões permanentes como cabos ou conexões temporárias como aquelas feitas através de telefone ou outros enlaces de comunicação e também podem incluir enlaces de comunicação sem fio. Os exemplos de uma rede incluem: uma internet, como a Internet; uma intranet; uma rede de área local (LAN); uma rede de área ampla (WAN); e uma combinação de redes, como uma internet e uma intranet. Os vários exemplos de hardware e software descritos acima também são descritos em mais detalhes nos documentos de patente incorporados a título de referência no presente documento.
[0059] Os pixels de alteração podem ser detectados através do módulo de detecção de alteração 103 como pixels da imagem de vídeo fornecidos pela fonte de vídeo 102 que são diferentes de uma imagem em segundo plano previamente obtida. A imagem em segundo plano pode ser dinâmica. O modelo de imagem dinâmica em segundo plano pode ser continuamente construído e atualizado a partir de quadros de vídeo de entrada. Assim, as alterações na iluminação, clima, etc., que modificam a imagem de vídeo podem ser responsáveis pela imagem em segundo plano. Em 104, a diferenciação de quadro pode ser usada para detectar os pixels móveis. Em 105, um ou ambos os pixels de alteração do módulo 103 e os pixels móveis do módulo 104 são considerados para determinar pixels em primeiro plano que são espacialmente agrupados em objetos grandes binários em primei- ro plano. A imagem de vídeo pode ser processada através de sistemas e métodos de análise de conteúdo de vídeo existente para extrair do primeiro plano, objetos grandes binários em primeiro plano e objetos grandes binários em primeiro plano de interesse (como objetos grandes binários em primeiro plano de indivíduo humano), como descrito na Patente no U.S. 7.825.954 de Zhang et al, publicada em 2 de novembro de 2010, cujo conteúdo é incorporado ao presente documento a título de referência, em sua totalidade. As informações de sensor de profundidade podem, opcionalmente, ser usadas para estimar uma altura ou tamanho em tempo real de cada objeto detectado como um ser humano em potencial e, como um resultado, os objetos grandes binários que correspondem a alvos humanos em potencial (em oposição aos objetos grandes binários sem interesse) podem ser mais precisamente identificados. As informações de sensor de profundidade podem, opcionalmente, ser usadas para eliminar sombras, especulações, objetos detectados como fora da área de interesse, objetos muito distantes (por exemplo, que não podem estar próximos o bastante para permitir as análises precisas) ou outros elementos da imagem de vídeo que podem aumentar o risco de análise defeituosa da imagem de vídeo. Os detalhes exemplificativos do uso de informações de profundidade podem ser encontrados no Pedido de Patente de no de série U.S. 13/744.254 de Zhang et al., cujo conteúdo é incorporado a título de referência, em sua totalidade. Os objetos grandes binários são ras- treados com o decorrer do tempo para formar alvos espaço-temporais no módulo de rastreamento de alvo 107 e, por fim, o módulo de detecção de evento 108 detecta o evento de interesse definido pelo usuário com o uso do produto do processo de detecção e rastreamento de alvo. Em vez disso ou adicionalmente ao simples agrupamento espacial de pixels em primeiro plano nos objetos grandes binários, o módulo de detecção de indivíduos humanos 106 usa as informações de calibra- ção e um modelo de indivíduo humano em formato de região convexa para detectar indivíduos humanos mesmo em cenários agrupados. Em alguns exemplos, nenhum ou pouco treinamento é exigido antecipadamente para detectar os indivíduos humanos na cena. E no módulo de detecção de evento 108, algumas abordagens de detecção de evento inovadoras podem ser implantadas, as quais podem usar os resultados de detecção de indivíduos humanos no módulo de detecção de indivíduos humanos 106.
[0060] A Figura 2 mostra imagens de vídeo que correspondem a alguns típicos cenários de aplicação para o sistema de IVS 101, inclusive praças ao ar livre, ruas, atrações turísticas, estações de trem, centros comerciais, paradas de metrô, etc. Conforme pode ser visto, dependendo da posição da câmera em relação à cena que é gravada, o tamanho e o formato relativos das pessoas que ocupam as imagens de vídeo diferem.
[0061] A Figura 3A mostra um diagrama de blocos que fornece detalhes mais exemplificativos do sistema de vigilância por vídeo 101. O módulo de detecção de objeto grande binário em primeiro plano 105 pode ser o mesmo que aquele na Figura 1. Os módulos 301, 302, 303, 304, 305 e 306 podem ser elementos do módulo de detecção de indivíduos humanos 106 da Figura 1. O módulo de detecção de pixel de corpo humano 301 detecta os pixels de corpo humano com base nos resultados de pixel de alteração do módulo de detecção de alteração 103. Esses pixels são ou significativamente diferentes do modelo de imagem em segundo plano (por exemplo, uma diferença de brilho e/ou uma diferença de cor excede um respectivo limite) ou são localizados entre os pixels de margem de primeiro plano altamente confiantes. Os mesmos são considerados, mais provavelmente, como pixels de corpo humano legítimos na imagem. Consulte, por exemplo, 301a da Figura 6A como um exemplo de pixels de corpo humano detectados. Outros pixels de alteração podem ser excluídos do processamento adicional de detecção de indivíduos humanos, uma vez que os mesmos, mais provavelmente, representam sombras ou reflexões. O módulo de detecção de pixel de limite de indivíduo humano 302 detecta os pixels de limite de indivíduo humano em que o limite dos objetos grandes binários em primeiro plano se alinha com as margens da imagem do quadro de vídeo atual. Consulte, por exemplo, 302a da Figura 6A como um exemplo de pixels de limite de indivíduo humano detectados. Quando se realiza a detecção de indivíduos humanos, outras análises podem ser implantadas (além daquelas descritas acima ou em substituição) para ajudar na determinação de que um corpo humano foi de-tectado. Por exemplo, pode ser exigido que cada objeto grande binário de indivíduo humano em potencial tenha que conter um determinado número de pixels de margem em primeiro plano limite. Como outro exemplo, outro processamento pode reconhecer objeto(s) grande(s) binário(s) como, provavelmente, sendo associado(s) a um objeto diferente de um indivíduo humano (como um veículo) e pode excluir tal(is) objeto(s) grande(s) binário(s) do processamento adicional de detecção de indivíduos humanos. Outros objetos grandes binários em primeiro plano não considerados como um indivíduo humano em potencial podem ser excluídos do conjunto de objeto grande binário em primeiro plano. Alternativamente, qualquer objeto grande binário detectado pode ser parte do conjunto de objeto grande binário em primeiro plano.
[0062] O módulo de modelo de indivíduo humano genérico 303 fornece um modelo de indivíduo humano em 3D e em 2D genérico. Por exemplo, o módulo de modelo de indivíduo humano genérico 303 pode converter um modelo de indivíduo humano em 3D em um modelo de indivíduo humano em 2D através de mapeamento ou projeção de um modelo de indivíduo humano em 3D no mundo real em um plano de imagem em 2D da imagem de vídeo. A Figura 4 mostra um modelo em 3D exemplificativo 303a mapeado para um modelo de indivíduo humano em 2D correspondente 303b no plano de imagem 330. O modelo de indivíduo humano em 3D 303a pode ser um conjunto de formatos em 3D simples, como um grupo de cilindros (por exemplo, um cilindro para as pernas, um cilindro para o torso e um cilindro para a cabeça). O mesmo modelo de indivíduo humano em 3D 303a (por exemplo, o modelo de cilindro) pode ser usado com várias posições de câmera de vídeo para que um ângulo diferente da câmera de vídeo em relação ao chão (plano terrestre do mundo real) possa ser usado para obter um modelo de indivíduo humano em 2D 303b com formato diferente no plano de imagem da câmera de vídeo. Por exemplo, tomando-se um modelo de indivíduo humano de cilindro em 3D como um exemplo, um ângulo de câmera que fornece uma vista de cabeça para baixo de um local específico pode mapear um círculo no plano de imagem em 2D, enquanto um ângulo de câmera que tem uma vista oblíqua do mesmo local pode mapear o modelo de indivíduo humano de cilindro em 3D para um formato diferente que tem uma forma alongada. No exemplo mostrado na Figura 17, a câmera 1702 pode ter mais de uma vista de cabeça para baixo do modelo de indivíduo humano em 3D 303a em comparação com a câmera 1704, que pode ter mais de uma vista lateral do modelo de indivíduo humano em 3D 303a em comparação com a câmera 1702. Se as distâncias das câmeras 1702 e 1704 do modelo de indivíduo humano em 3D 303a forem as mesmas, o modelo de indivíduo humano em 2D correspondente mapeado para o plano de imagem da câmera 1702 é mais compacto (por exemplo, mais curto) do que o modelo de indivíduo humano em 2D mapeado para o plano de imagem da câmera 1704. O modelo de indivíduo humano em 2D pode ter um formato convexo que pode ser obtido através de pontos de interpolação de margens externas da projeção do modelo de indivíduo humano em 3D para o plano de imagem em 2D.
[0063] A Figura 4 ilustra um modelo de indivíduo humano genérico que inclui um modelo de cilindro em 3D 303a e seu modelo de envoltório convexo em 2D correspondente 303b mapeado para o plano de imagem em 2D 330. O modelo de indivíduo humano em 3D 303a consiste em um cilindro de perna, um cilindro de torso e um cilindro de cabeça. O comprimento e o raio de cada cilindro podem corresponder aos dados estatísticos físicos que representam as típicas dimensões de um típico indivíduo humano comum. Conforme mostrado na Figura 4, esses três cilindros têm quatro planos chave: plano de cabeça, plano de ombro, plano de quadril e plano de pé. Para obter o modelo de indivíduo humano em 2D correspondente em um local específico, pode-se amostrar, uniformemente, ao longo do perímetro dos quatro planos chaves e projetar cada ponto de amostra em 3D no plano de imagem em 2D com o uso de parâmetros de calibração de câmera para determinar o tamanho e a orientação apropriados em relação a um local específico no espaço de imagem em 2D. Esses pontos de amostra de imagem correspondentes podem, então, ser usados para formar um envoltório convexo na imagem através de um método de formação de convexo, que pode ser usado como o modelo de indivíduo humano de imagem em 2D.
[0064] A Figura 5 ilustra um modelo de câmera planisférica genérico que pode ser calibrado com o uso de diversas amostras de imagem de indivíduo humano. O modelo de câmera pode conter apenas três parâmetros: a altura da câmera em relação ao chão, seu ângulo de inclinação para cima e o comprimento focal da câmera. Esses parâmetros podem ser estimados usando-se três ou mais amostras de indivíduo humano dos quadros de vídeo conforme descrito em “A Robust Human Detection and Tracking System Using a Human-Model-Based Camera Calibration” (O 8o Seminário Internacional sobre Vigilância Vi- sual, 2008, Z. Zhang, P. L. Venetianer e A. J. Lipton) e na Patente no U.S. 7.801.330, de Zhang et al, publicada em 21 de setembro de 2010, cujo conteúdo de cada um é incorporado no presente documento a título de referência, em sua totalidade.
[0065] Alternativa ou adicionalmente, o módulo de modelo de indivíduo humano genérico 303 pode ter um modelo em 2D predeterminado que pode ser modificado (por exemplo, esticado, encolhido, inclinado em relação a um eixo geométrico vertical do plano de imagem em 2D, etc.) em resposta a um ângulo de câmera da câmera de vídeo que faz a imagem de vídeo. Diversos modelos de indivíduo humano genéricos podem ser fornecidos pelo módulo de modelo de indivíduo humano genérico 303. Os modelos de indivíduo humano também podem incluir a modelagem para típicos acessórios. Por exemplo, quando se usa o sistema ao ar livre, um primeiro modelo de indivíduo humano pode ser usado para o clima quente, um segundo modelo de indivíduo humano maior pode ser usado em clima frio (em que se espera que se vistam casacos e estes sejam considerados parte do modelo de indivíduo humano) e um terceiro modelo de indivíduo humano pode ser usado para o clima chuvoso (em que se espera que se usem guarda- chuvas e sejam considerados parte do modelo de indivíduo humano).
[0066] O módulo de modelo de indivíduo humano genérico 303 também fornece uma estimativa de vários tamanhos do modelo de indivíduo humano em 2D em locais correspondentes no espaço de imagem. O espaço de imagem pode corresponder ao espaço bidimensional de uma imagem em um quadro de vídeo fornecido através da fonte de vídeo 102. Um espaço de imagem pode ser medido em incrementos de pixel, de tal modo que os locais no espaço de imagem sejam identificados por coordenadas de pixel. Uma câmera de vídeo pode fazer uma imagem de vídeo, que compreende uma imagem bidimensional do mundo real tridimensional. Quando um indivíduo humano esti ver presente em um determinado local no mundo real, pode-se esperar que o indivíduo humano ocupe uma determinada porção do primeiro plano em um determinado local na imagem de vídeo bidimensional. Se o indivíduo humano estiver muito distante da câmera de vídeo, pode- se esperar que o tamanho de imagem do indivíduo humano seja relativamente pequeno em comparação com o tamanho de imagem de um indivíduo humano perto da câmera de vídeo. Para cada um da pluralidade de locais no espaço de imagem de vídeo bidimensional, o módulo de modelo de indivíduo humano genérico 303 pode fornecer um modelo de indivíduo humano que tem um tamanho que corresponde ao local no espaço de imagem bidimensional. Para cada local, o modelo de indivíduo humano em 2D pode ter dimensões e/ou um tamanho responsivo ao respectivo local no espaço de imagem da imagem de vídeo bidimensional. A orientação desses modelos de indivíduo humano também pode ser responsiva ao local no espaço de imagem bidimensional. Por exemplo, algumas lentes de câmera (por exemplo, lentes grandes angulares) podem representar uma direção vertical no mundo real com uma primeira direção em um lado da imagem de quadro de vídeo e uma segunda direção diferente em um segundo lado da imagem de quadro de vídeo. Os modelos de indivíduo humano em 2D podem ter orientações diferentes em lados diferentes da imagem de quadro de vídeo (e outros locais) em resposta às representações diferentes da direção vertical do mundo real.
[0067] Os locais de cada um dentre os diversos modelos de indiví duo humano no espaço de imagem de vídeo em 2D podem estar associados às coordenadas de identificação no espaço de imagem de vídeo em 2D. As coordenadas de identificação podem corresponder aos locais de pixel de um vídeo que tem o espaço de imagem de vídeo em 2D. Por exemplo, um local que corresponde à 10a fileira, 22a coluna de um arranjo de pixel pode corresponder a uma coordenada de identificação de (10, 22). Para cada um dentre os diversos locais no espaço de imagem de vídeo em 2D, o módulo de modelo de indivíduo humano genérico 303 pode mapear um ponto em particular do modelo de indivíduo humano à coordenada de identificação associada. Por exemplo, o ponto em particular do modelo de indivíduo humano pode ser o topo do modelo de indivíduo humano que corresponde à cabeça do indivíduo humano, a base do modelo de indivíduo humano corresponde ao pé do indivíduo humano, o centroide do formato do modelo de indivíduo humano corresponde a um centro de um indivíduo humano. O restante do modelo de indivíduo humano pode ser mapeado para o espaço de imagem de vídeo em 2D em relação à coordenada de identificação associada e ao tamanho do modelo de indivíduo humano com base em uma relação fixa entre o ponto em particular do modelo de indivíduo humano e do restante do modelo de indivíduo humano. Como um exemplo, supõe-se que o modelo de indivíduo humano seja um círculo. Para cada pixel no espaço de imagem de vídeo em 2D, o centro de um círculo correspondente é mapeado (por exemplo, associado às coordenadas (x, y) do espaço de imagem de vídeo em 2D), em que o restante do formato do círculo é mapeado para o espaço de imagem de vídeo em 2D levando-se em consideração o tamanho do círculo (e a relação conhecida do círculo com seu centro). Um local de porção específica do indivíduo humano (como o topo da cabeça do indivíduo humano, a base do pé do indivíduo humano, o centro do indivíduo humano) no mundo real tridimensional pode ter uma correspondência única com seu local na imagem de vídeo bidimensional e, assim, a existência desse ponto em particular do indivíduo humano na imagem de vídeo bidimensional pode ser usada para determinar um local do indivíduo humano no mundo real tridimensional.
[0068] O módulo de modelo de indivíduo humano genérico 303 também pode determinar um tamanho do modelo de indivíduo humano para cada local de identificação no espaço de imagem em 2D. O tamanho do modelo de indivíduo humano pode ser obtido a partir da ca- libração do sistema de vigilância por vídeo 101. Por exemplo, um modelo de calibração de tamanho conhecido pode mover-se ao redor da área para ser monitorado enquanto o sistema de vigilância por vídeo 101 faz o vídeo para fins de calibração. O modelo de calibração pode ser uma pessoa de altura conhecida andando ao redor da área monitorada. Durante a calibração, o sistema pode identificar o modelo de ca- libração no vídeo como um objeto grande binário em primeiro plano e reconhecer (por exemplo, acessando-se as informações de calibração fornecidas ao sistema de vigilância por vídeo 101 em relação ao tamanho do modelo de calibração) que o objeto grande binário em primeiro plano corresponde a um tamanho predeterminado (por exemplo, uma altura predeterminada). No presente documento, à medida que o modelo de calibração se move através da área a ser monitorada durante a calibração de vídeo, para vários locais na imagem de vídeo, o sistema pode correlacionar a altura conhecida do modelo de calibração com um tamanho na imagem de vídeo em 2D. Por exemplo, quando um centro do modelo de calibração estiver no local (x1, y1), a altura do modelo de calibração pode ser 15 pixels (ou pode ser medida em alguma outra medição). Quando o centro do modelo de calibração estiver no local (x2, y2), o modelo de calibração pode ser 27 pixels de altura. Assim, o sistema de vigilância por vídeo 101 pode correlacionar as dimensões da imagem de vídeo em 2D em locais específicos (por exemplo, coordenadas (x, y)) na imagem de vídeo em 2D aos tama-nhos (por exemplo, alturas) no mundo real correlacionando-se o tamanho da imagem de vídeo em 2D ao tamanho conhecido (por exemplo, altura) do modelo de calibração. Com base na correlação conhecida (obtida através dessa calibração) entre os tamanhos do mundo real e as dimensões na imagem de vídeo em 2D em locais específicos (por exemplo, coordenadas (x, y)) na imagem em 2D, o tamanho em 2D do modelo de indivíduo humano no espaço de imagem de vídeo em 2D pode ser calculado para cada um dos vários locais (coordenadas (x, y)) na imagem de vídeo em 2D para corresponder a um tamanho de indivíduo humano médio no mundo real em 3D.
[0069] Para os exemplos de procedimentos de calibração, consulte a Patente no U.S. 7.932.923, expedida por Lipton et al., e a Patente no U.S. 7.801.330, expedida por Zhang et al., cujo conteúdo de cada uma é incorporado ao presente documento a título de referência, em sua totalidade. Em geral, usando-se parâmetros de entrada ou obtidos através de um procedimento de calibração, como uma altura de câmera (H), ângulos de campo de visão de câmera vertical e horizontal (OH, θv) e ângulo de inclinação de câmera (α) e outras informações, como limites externos detectados de um objeto (por exemplo, um topo e uma base de uma pessoa), o sistema de câmera pode, geralmente, determinar o tamanho e o formato no mundo real de um objeto para fins de identificação.
[0070] O modelo de calibração de câmera baseado em indivíduo humano 304 pode receber e armazenar o modelo de indivíduo humano com o tamanho apropriado do módulo de modelo de indivíduo humano genérico 303 junto com os locais correspondentes apropriados no espaço de imagem de vídeo. Esses modelos de indivíduo humano e locais correspondentes podem ser armazenados em uma tabela de pesquisa. Por exemplo, cada uma das diversas coordenadas (x, y) no espaço de imagem de vídeo e fora dele pode ser usada para identificar um modelo de indivíduo humano correspondente. Por exemplo, quando a coordenada de identificação (x, y) corresponder a um centroide do modelo de indivíduo humano, na estimativa da existência de um objeto humano em uma imagem de vídeo centralizado no local (x1, y1), a tabela de pesquisa do modelo de calibração de câmera baseado em indivíduo humano 304 pode receber o local (x1, y1) como uma entrada e fornece um modelo de indivíduo humano correspondente (inclusive seu tamanho e local no espaço de imagem em 2D). Por exemplo, a saída pode compreender um limite no espaço de imagem em 2D ou pode compreender o conjunto completo de pixels (por exemplo, coordenadas (x, y) de todos os pixels) no espaço de imagem para descrever o modelo de indivíduo humano correspondente.
[0071] A Figura 3B ilustra um exemplo em que diversos modelos de indivíduo humano ocupam uma imagem de vídeo bidimensional, sendo que cada uma corresponde a um local diferente em relação à imagem de vídeo bidimensional. Conforme ilustrado, quatro modelos de indivíduo humano 320a, 320b, 320c e 320d são associados às diferentes coordenadas de identificação (x, y) em relação à imagem de vídeo bidimensional. O modelo de indivíduo humano 320a é o menor, que corresponde a um local que é o mais distante da fonte de vídeo no mundo real tridimensional. Os modelos de indivíduo humano 320b, 320c e 320d correspondem aos locais no mundo real tridimensional que estão, sucessivamente, mais próximos da fonte de vídeo. Os modelos de indivíduo humano 320a, 320b, 320c e 320d podem ser, todos, derivados do mesmo modelo de formato de indivíduo humano. No entanto, deve-se estimar que apenas uma porção de todo o modelo de formato de indivíduo humano pode ocupar a imagem de vídeo bidimensional em determinados locais. No presente documento, estima-se que todo o modelo de formato de indivíduo humano corresponde aos formatos de indivíduo humano 320c e 320d ocupando, parcialmente, o espaço de imagem de vídeo bidimensional 330; o modelo de indivíduo humano 320c é estimado como uma combinação de torso e cabeça de todo o modelo de formato de indivíduo humano, em que o modelo de indivíduo humano 320d corresponde apenas a uma porção de cabeça de todo o modelo de formato de indivíduo humano.
[0072] Cada modelo de indivíduo humano 320a, 320b, 320c e 320d é associado a uma coordenada de identificação (x, y) em relação à imagem de vídeo bidimensional. Nesse exemplo, as coordenadas de identificação de modelos de indivíduo humano 320a, 320b 320c correspondem ao centroide do modelo de indivíduo humano. As coordenadas de identificação (x, y) associadas aos formatos estimados 320a, 320b e 320c são 321a, 321b e 321c, respectivamente, e são abrangidas pelas coordenadas (x, y) da imagem de vídeo. A coordenada de identificação (x, y) associada ao formato estimado 320d não é abrangida pelas coordenadas (x, y) da imagem de vídeo. Ou seja, nesse exemplo, o centroide do modelo de formato de indivíduo humano as-sociado a 320d está situado abaixo da imagem de vídeo e, então, sua coordenada de identificação (x, y) tem um valor de eixo geométrico y negativo, que, nesse exemplo, está fora das coordenadas da imagem de vídeo (e não são mostradas na Figura 3B). Para facilitar os cálculos, as coordenadas de identificação (x, y) podem aumentar as unidades de pixel para que as coordenadas de identificação 321a, 321b e 321c também identifiquem pixels da imagem de vídeo.
[0073] A Figura 3B ilustra apenas quatro modelos de indivíduo humano associados às quatro respectivas coordenadas de identificação, para fins de facilitar a explicação. No entanto, o modelo de cali- bração de câmera baseado em indivíduo humano 304 pode armazenar um modelo de indivíduo humano para uma grande quantidade de coordenadas de identificação (x, y), como diversos dessas que os modelos de indivíduo humano podem sobrepor umas às outras. A Figura 3C ilustra uma única fileira de coordenadas de identificação (x, y) 321, cada uma associada a um modelo de indivíduo humano correspondente 320. Para facilitar a ilustração, apenas uma única fileira é ilustrada, mas os modelos de indivíduo humano podem ser fornecidos para diversas fileiras de coordenadas de identificação (x, y), que podem ser regularmente distribuídas nas direções x e y sobre o espaço de imagem 330. Conforme discutido, o tamanho dos formatos pode diferir para os locais diferentes (embora os mesmos sejam mostrados como tendo o mesmo na Figura 3C). Por exemplo, o modelo de calibração de câmera baseado em indivíduo humano 304 pode armazenar um formato de indivíduo humano para todo pixel no espaço de imagem em 2D 330 como coordenadas de identificação (x, y) do espaço de imagem em 2D 330 assim como para as coordenadas (x, y) fora do espaço de imagem em 2D 330 associado a um modelo de indivíduo humano que é, pelo menos parcialmente, situado no espaço de imagem em 2D 330. Por exemplo, para todas as coordenadas de pixel (x, y) no espaço de imagem de vídeo 330, o modelo de calibração de câmera baseado em indivíduo humano 304 pode armazenar uma coordenada de identificação (x, y) e um modelo de indivíduo humano associado (que pode compreender um limite ou um conjunto de pixels) de um subes- paço no espaço de imagem de vídeo 330 que se espera que seja ocupado por um indivíduo humano quando o centroide do modelo de indivíduo humano for situado nessa coordenada de identificação (x, y) no espaço de imagem de vídeo 330 de uma imagem de vídeo. As coordenadas de identificação (x, y) também podem incluir todas as coordenadas de identificação (x, y) fora do espaço de imagem de vídeo 330 que são associadas a um modelo de indivíduo humano em um subespaço no espaço de imagem de vídeo 330 (ou seja, uma porção de todo o modelo de indivíduo humano pode estar situada em um su- bespaço do espaço de imagem de vídeo 330). Para algumas situações, o subespaço referido acima pode incluir todo o espaço de imagem de vídeo 330 (que corresponde a uma estimativa de quando um indivíduo humano está posicionado para ocupar completamente a imagem de vídeo). O modelo de calibração de câmera baseado em indivíduo humano 304 pode armazenar as coordenadas de identifica- ção (x, y) e o modelo de indivíduo humano associado como uma tabela de pesquisa. Muito embora o centroide do modelo de formato de indivíduo humano completo corresponda às coordenadas de identificação (x, y) do modelo de indivíduo humano nesse exemplo, outros pontos de identificação do modelo de formato de indivíduo humano podem ser usados (por exemplo, um olho, nariz, centro da cabeça, topo da cabeça, dedo do pé, base do pé, etc.).
[0074] O módulo de computação de mapa de probabilidade de in divíduo humano 305 usa o conjunto de objeto grande binário em primeiro plano de um quadro em particular de uma imagem de vídeo emitida pelo módulo de detecção de objeto grande binário em primeiro plano 105 e os modelos de indivíduo humano com suas coordenadas de identificação correspondentes emitidas pelo modelo de calibração de câmera baseado em indivíduo humano 304 para computar a probabilidade de alvo de indivíduo humano para cada um de diversos locais na imagem de vídeo bidimensional, como para cada local de pixel de imagem. As diversas probabilidades calculadas podem ser associadas aos diversos locais para criar um mapa de probabilidade. Os diversos locais podem ser os mesmos que as coordenadas de identificação (x, y) dos modelos de indivíduo humano.
[0075] Para cada coordenada de identificação (x, y), é feito um cálculo para determinar uma probabilidade correspondente de uma existência de objeto humano em uma imagem de vídeo. Quando as coordenadas de identificação (x, y) têm uma correspondência de um para um com os pixels da imagem de vídeo, então, um cálculo de probabilidade é feito para cada um dos pixels da imagem de vídeo. Por exemplo, para cada pixel de imagem, uma probabilidade de indivíduo humano correspondente pode ser calculada como a possibilidade da existência de um alvo de indivíduo humano cujo centro de imagem está no pixel em consideração. Um mapa de probabilidade pode ser cri- ado mapeando-se cada um dentre os cálculos de probabilidade para cada coordenada de identificação (x, y). O mapa de probabilidade pode ser armazenado em uma tabela de pesquisa, associando-se cada uma das coordenadas (x, y) (como uma entrada) à probabilidade calculada associada. Essa tabela de pesquisa pode ser a mesma que a tabela de pesquisa do módulo de modelo de calibração de câmera baseado em indivíduo humano 304 (que armazena os modelos de indivíduo humano como uma entrada) ou pode ser uma segunda tabela de pesquisa separada.
[0076] Conforme notado acima, as coordenadas de identificação podem estar fora do espaço de imagem de vídeo e, então, os cálculos podem ser feitos para determinar probabilidade correspondente de uma existência do objeto humano na imagem de vídeo (em relação à porção de todo o modelo em 2D de indivíduo humano correspondente que é abrangido no espaço de imagem (o modelo de indivíduo humano) associado a essas coordenadas de identificação). Por exemplo, se um centroide de um modelo de indivíduo humano completo em 2D corresponder às coordenadas de identificação, o mesmo pode estar situado fora do espaço de imagem de vídeo, mas pode corresponder a um modelo de indivíduo humano em 2D no espaço de imagem de vídeo que é uma porção de todo o modelo de indivíduo humano. Por exem-plo, os ombros e a cabeça de um modelo de indivíduo humano completo podem constituir o modelo de indivíduo humano em 2D (os ombros e a cabeça estão abrangidos no espaço de imagem) embora o centroide desse modelo de indivíduo humano completo (por exemplo, perto do umbigo do modelo de indivíduo humano completo) esteja fora do espaço de imagem (o centroide que corresponde às coordenadas de identificação é usado para identificar o modelo de indivíduo humano em 2D de ombro/cabeça correspondente). Em alguns exemplos, uma determinada porcentagem do modelo em 2D de indivíduo humano completo deve estar abrangida no espaço de imagem para um cálculo de probabilidade a ser feito (ou considerado). Por exemplo, quando menos que 10% ou menos que 20% do modelo em 2D de indivíduo humano completo estiver dentro do espaço de imagem (ou quando o modelo de indivíduo humano for menor que 10% ou menor que 20% do modelo em 2D de indivíduo humano completo), o valor de probabilidade associado às coordenadas de identificação pode ser ajustado para zero ou ser ignorado. Em alguns exemplos, quando menos que 40% do modelo em 2D de indivíduo humano completo estiver dentro do espaço de imagem, o valor de probabilidade associado às coordenadas de identificação pode ser ajustado para zero.
[0077] O cálculo de probabilidade para cada coordenada de identi ficação (x, y) pode ser a chamada (“recall”) do modelo de indivíduo humano associado à coordenada de identificação (x, y) e ao conjunto de objeto grande binário em primeiro plano correspondentes. Por exemplo, o cálculo de probabilidade para cada coordenada de identificação (x, y) pode ser a chamada dos pixels de corpo humano e dos pixels de limite de indivíduo humano no modelo de indivíduo humano associado à coordenada de identificação (x, y) correspondente. O modelo de indivíduo humano associado à coordenada de identificação (x, y) correspondente pode ser produzido a partir do módulo de modelo de calibração de câmera baseado em indivíduo humano 304 (por exemplo, armazenado em uma tabela de pesquisa do módulo 304). O conjunto de objeto grande binário em primeiro plano pode ser produzido a partir do módulo de detecção de objeto grande binário em primeiro plano 105. A chamada do formato estimado com o conjunto de objeto grande binário em primeiro plano pode ser calculada como a razão da área do modelo de indivíduo humano que se sobrepõe com o conjunto de objeto grande binário em primeiro plano para a área do modelo de indivíduo humano. Os cálculos de probabilidade que não excedem um determinado limite podem ser ignorados. Por exemplo, as probabilidades calculadas menores que 0,4 (em uma escala de 0 a 1) podem indicar que não há alvo de indivíduo humano no centro desse local. Cálculos diferentes de um cálculo de chamada podem ser feitos para determinar uma probabilidade da existência de um objeto humano na imagem de vídeo que corresponde a cada um dos diversos formatos estimados. Será compreendido que as probabilidades calculadas são estimadas. Assim, uma probabilidade calculada de 1 (em uma escala de 0 a 1) não indica a certeza da existência de um indivíduo humano no local correspondente relevante.
[0078] A Figura 3D ilustra um método exemplificativo para calcular um mapa de probabilidade de indivíduo humano, que pode ser implantado pelo sistema da Figura 3A. Na etapa S340, o modelo de câmera calibrado em 304 pode ser usado para mapear o plano de imagem do espaço de imagem em 2D no plano terrestre do mundo real. Na etapa S342, um modelo de indivíduo humano pode ser obtido para N locais no espaço de imagem em 2D (sendo N um número inteiro igual ou maior que 2). O modelo de câmera calibrado 304 pode ser usado para obter o modelo de indivíduo humano com formato de envoltório convexo correspondente como o modelo de indivíduo humano para toda po-sição de pixel de imagem no espaço de imagem em 2D. Cada um dos modelos de indivíduo humano pode ser associado a uma coordenada de identificação no espaço de imagem em 2D. Por exemplo, o ponto centroide de indivíduo humano do modelo de indivíduo humano pode ser usado como o ponto de referência quando se realiza o mapeamento para a coordenada de identificação. Supondo-se que a coordenada de identificação do espaço de imagem em 2D seja o centroide de um indivíduo humano no espaço de imagem, seu local de base físico correspondente no plano terrestre do mundo real pode ser computado através do modelo de câmera calibrado (por exemplo, conforme mos- trado na Figura 5). Um modelo de indivíduo humano em 3D genérico (por exemplo, múltiplos cilindros) é, então, colocado nesse local base. O tamanho do modelo em 3D pode corresponder aos dados de cali- bração previamente obtidos. O modelo de indivíduo humano genérico em 3D pode ser projetado ou mapeado para o plano de imagem em 2D para se obter o modelo de indivíduo humano no espaço de imagem em 2D. Por exemplo, a projeção de um modelo de indivíduo humano de múltiplos cilindros em 3D pode ser usada para formar um envoltório convexo de imagem em 2D correspondente como o modelo de indivíduo humano de imagem com o centroide na coordenada de identificação associada (por exemplo, o ponto de imagem em consideração). Desse modo, todo pixel de imagem válido pode ter um modelo de indivíduo humano em formato de região convexa correspondente (como o modelo de indivíduo humano) que mostra o tamanho e o formato aproximado do indivíduo humano nesse local de imagem. Para reduzir o custo de computação, os modelos de indivíduo humano com formato de região convexa podem ser pré-computados na inicialização do sistema, a caixa delimitadora retangular do modelo convexo de indivíduo humano pode ser usada para obter a razão de chamada aproximada de indivíduo humano com o uso de imagem integral. Na etapa S344, o conjunto de objeto grande binário em primeiro plano pode ser extraído de uma imagem de vídeo. O conjunto de objeto grande binário em primeiro plano pode compreender um ou mais objetos grandes binários em primeiro plano detectados usando-se os pixels em primeiro plano de indivíduo humano extraídos pelo módulo 301 e/ou os pixels de limite de indivíduo humano extraídos pelo módulo 302. Na etapa S346, para cada um dos N locais, uma probabilidade da existência de um indivíduo humano nesse local é calculada para se obter um mapa de probabilidade. A medição da probabilidade de indivíduo humano pode ser definida como a razão de chamada de indivíduo humano da do que há pixels de limite de indivíduo humano suficientes no modelo convexo de indivíduo humano de imagem. A razão de chamada de indivíduo humano, nesse exemplo, é a quantidade de pixels em primeiro plano de indivíduo humano computados em 301 em um modelo convexo de indivíduo humano de imagem sobre a área total desse modelo convexo de indivíduo humano. A ordem das etapas do processo da Figura 3D pode ser realizada em uma ordem diferente daquela mostrada. Por exemplo, a etapa 344 pode ser realizada antes de uma ou ambas as etapas 340 e 342.
[0079] Referindo-se à Figura 3A, com base no mapa de probabili dade de indivíduo humano computado na 305, um módulo de estimativa de alvo de indivíduo humano 306 pode encontrar a melhor quantidade de modelos de indivíduo humano (por exemplo, indivíduos humanos) na imagem de vídeo e seus locais. Um método de otimização global pode ser usado para encontrar a melhor quantidade de modelos de indivíduo humano e seus locais. Se m (m1,..., mM) denotar o conjunto de modelos de indivíduo humano M a partir de todos os modelos de indivíduo humano em potencial no espaço de imagem, o objetivo é encontrar o conjunto ideal n* para que uma função de critérios f(n*) alcance a máxima global. Ou seja, o objetivo é encontrar:
[0080] em que n é um conjunto em particular dos diversos modelos de indivíduo humano no espaço de imagem e f(n) é uma função calculada para esse conjunto de modelos de indivíduo humano.
[0081] Conforme discutido mais abaixo, a função f(n) é calculada para cada um dos diversos conjuntos selecionados de modelos de indivíduo humano, sendo que cada conjunto seleciona mi locais a partir do mapa de probabilidade (sendo que mi locais são selecionados para cada passagem, em que o número mi pode diferir para cada uma des sas passagens). Cada conjunto de modelos de indivíduo humano pode ser selecionado com uma passagem (ou varredura) do mapa de probabilidade, com determinados critérios de restrição usados para selecionar os locais que são alterados para cada passagem. No presente documento, a função f(n) é definida como:
[0082] em que R é a razão de chamada de indivíduo humano, que é definida como a porcentagem da área em primeiro plano de indivíduo humano sobre toda a área do grupo de n modelos de indivíduo humano selecionados; P é a precisão de indivíduo humano, que é a porcentagem da área em primeiro plano que se sobrepões com o grupo de n modelos de indivíduo humano selecionados e O é a razão de sobreposição de indivíduo humano, que é a razão da área de sobreposição de quaisquer dos n modelos de indivíduo humano selecionados entre si para a área ocupada por todos os n modelos de indivíduo humano selecionados e wR, wP e wO são os pesos. Pode ser vantajoso encontrar a melhor equiparação entre a região em primeiro plano (conjunto de objeto grande binário em primeiro plano) e a união dos modelos de indivíduo humano (o conjunto de m modelos de indivíduo humano) sem muitas sobreposições de indivíduo humano. Na prática, como determinar os três pesos acima pode impactar, significativamente, nos resultados de detecção, por exemplo, se mais peso for colocado reduzindo a razão de sobreposição de indivíduo humano, isso pode resultar em uma contagem de indivíduo humano inferior.
[0083] Cada um dos mi modelos de indivíduo humano seleciona dos pode ser selecionado a título de referência para o mapa de probabilidade produzido pelo método de computação de mapa de probabilidade de indivíduo humano 305. Diversas passagens podem ser feitas para realizar um cálculo f(n), sendo que cada passagem seleciona um subconjunto de mi modelos de indivíduo humano a partir dos modelos de indivíduo humano em 2D fornecidos pelo módulo de modelo de indivíduo humano genérico 303 e associados a uma coordenada de identificação (x, y) no modelo de calibração de câmera baseado em indivíduo humano 304 (por exemplo, em uma tabela de pesquisa). Conforme notado, o valor de mi pode diferir para cada uma dessas passagens. Os critérios de seleção dos modelos de indivíduo humano podem diferir para cada passagem de tal modo que os diferentes modelos de indivíduo humano sejam selecionados para as diferentes passagens (e, possivelmente, um número diferente mi de modelos de indivíduo humano é selecionado para as diferentes passagens). Os critérios de seleção podem incluir exigir que o modelo de indivíduo humano selecionado seja associado a um limite de probabilidade Pth conforme estabelecido pelo mapa de probabilidade. Os critérios de seleção também podem incluir que o próximo modelo de indivíduo humano selecionado em 2D seja uma distância mínima Dmín em oposição a quaisquer modelos de indivíduo humano em 2D previamente selecionados. A distância mínima Dmín pode ser uma distância no plano terrestre do mundo real. Por exemplo, os centroides dos modelos de indivíduo humano em 2D podem ser mapeados ou traduzidos para os locais no mundo real em 3D e as distâncias entre os mesmos podem ser calculadas. As distâncias mínimas Dmín podem ser calculadas no plano de imagem em 2D, mas as distâncias no plano de imagem em 2D podem refletir os locais em 3D correspondentes, como para os modelos de indivíduo humano próximos da imagem de fonte de vídeo, a separação maior pode ser exigida no plano de imagem em 2D do que para os modelos de indivíduo humano mais distantes.
[0084] Em algumas modalidades exemplificativas, uma ou mais varreduras de uma passagem rápidas do mapa de probabilidade são usadas para determinar a contagem de indivíduo humano e as posições correspondentes. A Figura 3E ilustra um método de realizar uma única passagem do mapa de probabilidade como parte de encontrar uma melhor quantidade de modelos de indivíduo humano em uma imagem de vídeo. O método da Figura 3E pode ser implantado através do módulo de estimativa de alvo de indivíduo humano 306. Na etapa S350, o mapa de probabilidade é varrido para encontrar um máximo de local (que pode ser qualificado por determinados critérios de seleção). O mapa de probabilidade pode ser varrido para localizar um máximo de local não selecionado disponível que corresponda a um local no mundo real mais próximo da fonte de vídeo. A base do mapa de probabilidade pode corresponder à base da imagem de vídeo. Em muitas implantações, uma câmera de vídeo que desempenha uma função de vigilância pode ser encaixada em um local mais alto do que o nível da cabeça de indivíduos humanos na área a ser monitorada. Assim, a base da imagem de vídeo pode corresponder a um local mais próximo da fonte de vídeo. A varredura do mapa de probabilidade da base ao topo, nesse exemplo, permite a seleção de modelos de indivíduo humano menos prováveis a corresponder a um objeto ocluído na imagem de vídeo.
[0085] O mapa de probabilidade pode ser varrido da base ao topo para encontrar um ponto de máximo de local, representando um máximo de local das probabilidades previamente calculadas (armazenado no mapa de probabilidade) para cada um dos diversos locais no espaço de imagem. Um máximo de local pode ser uma coordenada de identificação (x, y) (por exemplo, pixel) que tem um valor de probabilidade maior do que os valores de probabilidade de cada uma das coordenadas de identificação (x, y) imediatamente vizinhas (por exemplo, pixels imediatamente vizinhos). Uma vez que um ponto máximo de local é encontrado, o modelo de indivíduo humano associado a esse ponto máximo de local como suas coordenadas de identificação é selecionado como um do conjunto de mi modelos de indivíduo humano na etapa S352. Na etapa S354, todos os pixels nessa região interna de modelo selecionado (por exemplo, abrangidos no limite do modelo de indivíduo humano em 2D) e os pixels que correspondem a uma distância mínima Dmín em oposição a esse modelo selecionado (por exemplo, pixels na imagem de vídeo que representam uma distância mínima no plano terrestre do mundo real) são excluídos de mais consideração nessa passagem (e podem ser temporariamente removidos do mapa de probabilidade para essa passagem). Nota-se que, nesse exemplo, os pixels correspondem às coordenadas de identificação dos modelos de indivíduo humano e essa descrição é igualmente aplicável às coordenadas de identificação que não são locais de pixel. Em al-guns exemplos, a própria imagem de vídeo não precisa ser mais analisada nesse estágio e os pixels podem ser excluídos de mais consideração simplesmente por sua remoção temporária do mapa de probabilidade. O mapa de probabilidade é varrido novamente para selecionar outro ponto máximo de local das probabilidades do mapa de probabilidade de indivíduo humano associado aos pixels que são maiores do que o limite de probabilidade Pth e não foram excluídos. Na etapa S356, determina-se se quaisquer pixels válidos foram considerados. Ou seja, a probabilidade pode ser revisada para os valores que não foram excluídos pelos critérios de seleção nem excluídos pela seleção de outros modelos de indivíduo humano nessa varredura do mapa de probabilidade. A varredura do mapa de probabilidade é continuada até que todos os pixels válidos sejam considerados e removidos do mapa. Assim, os mi modelos de indivíduo humano podem ser selecionados com essa varredura do mapa de probabilidade. Para essa passagem, a função f(mi) é calculada para esse conjunto de mi modelos de indivíduo humano.
[0086] As varreduras adicionais do mapa de probabilidade podem ser realizadas, sendo que cada uma das varreduras de uma passagem tem um conjunto diferente de critérios de seleção. A Figura 3F ilustra um método de realizar diversas passagens do mapa de probabilidade de modo a encontrar a melhor quantidade de modelos de indivíduo humano em uma imagem de vídeo. O método da Figura 3F pode ser implantado através do módulo de estimativa de alvo de indivíduo humano 306. No presente documento, o valor de pelo menos um dentre Dmín (distância mínima) e Pth (limite de probabilidade) pode ser diferente para cada varredura. Na etapa S360, os critérios de seleção são definidos para uma varredura de uma passagem em particular. A quantidade de alterações dos critérios de seleção (e, então, quantas varreduras) pode ser determinada com base em caso a caso, levando- se em consideração a precisão desejada e a sobrecarga computacional. Na etapa S362, uma varredura do mapa de probabilidade é feita para selecionar um conjunto de m modelos de indivíduo humano de acordo com os critérios de seleção. O valor m é um número inteiro igual a zero ou mais e pode diferir para cada seleção (por exemplo, para cada laço da Figura 3F que realiza a etapa S362). A etapa S362 pode corresponder ao método da Figura 3E. Na etapa S364, uma função de critérios é calculada para os mi modelos de indivíduo humano selecionados, por exemplo, uma f(mi) correspondente é calculada para os mi modelos de indivíduo humano selecionados nessa varredura. As varreduras adicionais podem ser realizadas com novos critérios de seleção (S366). Quando todas as varreduras do mapa de probabilidade forem concluídas, o máximo de f(n), ne{mi, ... mM} do grupo de varreduras é determinado. O conjunto de modelos de indivíduo humano que corresponde a esse valor máximo é determinado para corresponder aos indivíduos humanos na imagem de vídeo (S368). Usando-se as coordenadas de identificação (x, y) (por exemplo, locais de pixel) dos modelos de indivíduo humano determinados para representar os indivíduos humanos na imagem de vídeo, o local no mundo real no plano terrestre pode ser determinado.
[0087] Em uma modalidade alternativa, se m denotar o conjunto de modelos de indivíduo humano a partir de todos os modelos de indivíduo humano em potencial no espaço de imagem, o objetivo pode ser encontrar o conjunto ideal m* para que uma função de critérios g(m*) alcance o máximo global. Ou seja, o objetivo é encontrar um máximo de:
[0088] em que n é um modelo em particular dos diversos modelos de indivíduo humano no espaço de imagem, m é uma quantidade de modelos de indivíduo humano selecionados (que pode variar para diferentes cálculos de soma), e f(n) é uma função calculada para cada um dos m modelos de indivíduo humano, em vez do grupo de modelos.
[0089] No presente documento, a função f(n) é definida como:
[0090] em que R é a razão de chamada de indivíduo humano, que é definida como a porcentagem da área em primeiro plano de indivíduo humano sobre toda a área dos modelos de indivíduo humano selecionados; P é a precisão de indivíduo humano, que é a porcentagem da área em primeiro plano que se sobrepõe com os modelos de indivíduo humano selecionados e O é a razão de sobreposição de indivíduo humano, que é a sobreposição do n-ésimo modelo de indivíduo humano selecionado com áreas ocupada pelo 1o ao n-ésimo modelos de indivíduo humano [as áreas ocupada pelos modelos de indivíduo humano anteriormente selecionadas na passagem atual no cálculo ∑f(n)] e wR, wP e wO são os pesos]. Cada uma das passagens de varredura do mapa de probabilidade discutido acima pode ser associada ao cálculo de ∑f(n), com diferentes restrições nos critérios de seleção na seleção dos máximos de local do mapa de probabilidade para cada pas- sagem. Outras funções f(n) podem ser usadas além daquelas descritas no presente documento.
[0091] As Figuras 6A, 6B e 6C mostram os resultados de detecção do sistema de vigilância por vídeo 101 de acordo com um exemplo. Para um quadro de entrada, a Figura 6A é o produto do módulo de detecção de corpo humano 301 e do módulo de detecção de pixel de limite de indivíduo humano 302, em que os pixels 301a indicam os pixels de corpo humano detectados e os pixels 302a mostram os pixels de limite de indivíduo humano. O conjunto de objeto grande binário em primeiro plano é representado na Figura 6A como a combinação dos pixels de corpo humano detectados 301a e os pixels de limite de indivíduo humano 302a. Os pixels de corpo humano detectados e os pixels de limite de indivíduo humano são sobrepostos sobre a imagem de quadro de vídeo original que define o espaço de imagem de vídeo 330. Nesse exemplo, o restante da imagem de vídeo nessa imagem de quadro de vídeo (além do conjunto de objeto grande binário em primeiro plano) é parte da imagem em segundo plano.
[0092] A Figura 6B ilustra o mapa de probabilidade de indivíduo humano computado da Figura 6A. Nesse exemplo, o mapa de probabilidade de indivíduo humano representa as probabilidades calculadas em uma escala de cinza, sendo o preto correspondente a uma probabilidade de zero (0) e brando correspondente a uma probabilidade de um (1). Cada uma das probabilidades calculadas é representada em um local no espaço de imagem 330 que corresponde ao pixel que corresponde às coordenadas de identificação de um modelo de indivíduo humano correspondente.
[0093] A Figura 6C mostra o resultado da detecção de indivíduos humanos final, ilustrando uma pluralidade de modelos de indivíduo humano 320 (esboço de formato convexo rosa) que corresponde ao indivíduo humano detectado. Cada um desses modelos de indivíduo humano pode ser associado por uma coordenada de identificação (como um centroide) que pode identificar o local do indivíduo humano detectado no mundo real em 3D e mapeado para o plano terrestre do mundo real (não mostrado).
[0094] As Figuras 7A, 7B e 7C ilustram um exemplo de medição de densidade de agrupamento de indivíduos humanos com base nos resultados de detecção de indivíduos humanos. A Figura 7A ilustra um resultado exemplificativo dos resultados de detecção do sistema de vigilância por vídeo 101, que mostra diversos modelos de indivíduo humano em 2D 320 (envoltórios convexos rosas), sendo que cada um corresponde a um indivíduo humano detectado, sobrepondo-se a imagem de vídeo original. A Figura 7B ilustra o mapeamento dos indivíduos humanos detectados para o plano terrestre físico do mundo real, mostrando uma representação de cabeça para baixo da imagem de vídeo da Figura 7A, sendo que dada um dos círculos representa o modelo de indivíduo humano 320 conforme mapeado para o plano terrestre físico do mundo real e, então, identifica um local do indivíduo humano detectado no mundo real. Os alvos humanos detectados podem ser mapeados em um plano terrestre físico à medida que a calibração forneceu uma correlação entre um tamanho conhecido do modelo de calibração, um local na imagem em 2D e um tamanho correspondente no espaço de imagens. Com os locais conhecidos, os cálculos podem ser feitos para contar a quantidade de gente em uma determinada área identificada (por exemplo, selecionada por um usuário) ou em toda a cena. Os cálculos também podem ser feitos para determinar uma quantidade de gente por área. As medições reais de densidade de agrupamento em cada local no solo também podem ser diretamente computadas. A definição real da medição de densidade de agrupamento pode depender da aplicação real, em particular, do tamanho do agrupamento a ser monitorado. Por exemplo, para o cenário mostrado nas Figuras 6A, 6B e 6C, pode-se usar a quantidade de pessoas em um raio de 2 metros como a medição da densidade de agrupamento. Enquanto para o cenário nas Figuras 7A, 7B e 7C, a densidade de agrupamento de um local possa ser definida como a quantidade pessoas em um raio de 6 metros. A Figura 7C ilustrou o mapa de densidade de agrupamento com o uso de um raio de 6 metros com rosa de maior intensidade significando maior densidade de agrupamento.
[0095] Com base nas medições de densidade de agrupamento pa ra cada quadro de vídeo, podem-se detectar muitos eventos relacionados a agrupamento, conforme mostrado na Figura 8, inclusive detecção de agrupamento, reunião de agrupamento e dispersão de agrupamento, que podem ser detectados pelos módulos 801, 802 e 803, respectivamente, do módulo de detecção de evento 108 da Figura 1. A Figura 9 ilustra um método exemplificativo de como definir e detectar uma área agrupada. O bloco 901 ilustra como definir um evento de região de agrupamento. O usuário pode, primeiro, selecionar uma região de interesse na imagem (por exemplo, no espaço de imagem). Em seguida, algum limite de densidade de agrupamento pode ser usado para determinar o quanto o agrupamento é de interesse. Os limites podem ser a quantidade de pessoas em um determinado raio de área. Os limites de histerese podem ser usados para o desempenho mais sólido. Por exemplo, se for definida a densidade de agrupamento como a quantidade de pessoas dentre de uma área de raio de 3 metros, pode-se ajustar os dois limites de densidade de agrupamento: Talto = 10 e Tbaixo = 8. Uma região pode ser considerada como uma região de agrupamento apenas se a densidade de agrupamento correspondente for maior ou igual a Talto. Uma região de agrupamento se torna não agrupada apenas se a densidade de agrupamento correspondente se tornar menor ou igual a Tbaixo. A região de agrupamento pode ser definida pelo agrupamento identificado e pode alterar o local e/ou o formato de quadro para quadro. Um centroide da região de agrupamento pode ser usado para descrever o local de agrupamento. O limite de duração mínimo pode definir a duração de tempo mínimo que uma região de agrupamento deve se manter como agrupamento antes de acionar a detecção de evento. Para uma nova entrada de quadro de vídeo, o bloco 902 examina todos os alvos humanos detectados para ver se o mesmo pertence a uma região de agrupamento, então, o bloco 903 verifica todas as regiões de agrupamento para atualizar sua situação. Uma vez detectados, os agrupamentos e seus locais podem ser rastreados quadro por quadro da imagem de vídeo. Por exemplo, contanto que um agrupamento seja detectado e continue a satisfazer o limite mínimo Tbaixo, os modelos de indivíduo humano associados à região de agrupamento podem definir o agrupamento nos quadros subsequentes da imagem de vídeo, contanto que os mesmos permaneçam em uma área que satisfaz a densidade de agrupamento mínima. Os modelos de indivíduo humano adicionais podem ser adicionados ao agrupamento detectado à medida que os mesmos se movem na região de agrupamento detectada.
[0096] A Figura 10 ilustra um processo exemplificativo em cada alvo humano detectado. O bloco 1001 verifica se o alvo atual está dentro ou próximo de uma região de agrupamento existente. Se “sim”, o bloco 1001 atualiza a contagem de pessoa para aquela região. Se “não”, o bloco 1002 computa a densidade de agrupamento no local do alvo atual, então, o bloco 1004 verifica se a medição de densidade de agrupamento é maior ou igual a um limite Talto. Se “sim”, uma nova região de agrupamento é criada centralizada no alvo atual. Se “não”, continua a processar o próximo alvo humano.
[0097] A Figura 11 ilustra um processo exemplificativo em cada região de agrupamento. O bloco 1101 atualiza a área da região e a contagem de agrupamento com base nos resultados do processo alvo; o bloco 1102 verifica se a contagem de densidade ainda é maior do que um usuário definiu no limite; se “não”, a região de agrupamento é removida da lista de monitoramento. O bloco 1104 verifica, adicionalmente, se a duração do agrupamento da região de agrupamento sob processo é mais longa ou igual a um limite definido pelo usuário. Se “sim”, o bloco 1105 verifica, adicionalmente, se o evento de agrupamento correspondente foi relatado ou não, se não, o bloco 1106 irá agir, como relatar o evento de agrupamento e marcar essa região de agrupamento como “relatada”.
[0098] A Figura 12 ilustra um método que pode ser usado para definir e detectar os eventos de “reunião” e “dispersão” de agrupamento. No presente documento, “reunião” e “dispersão” se referem aos dois processos de formação e de finalização de um ponto de reunião de agrupamento. Nesse exemplo, um ponto de reunião de agrupamento se refere a uma região com alta densidade de agrupamento estacionário local e é diferente de um agrupamento e movimento como em um desfile. No entanto, a invenção não se limita a isso e esse método também pode ser aplicado à detecção de pontos de reunião de agrupamento móveis. O bloco 1201 ilustra como um ponto de reunião de agrupamento pode ser definido. O usuário pode selecionar, primeiro, uma região de interesse na imagem. Em seguida, algum limite de densidade de agrupamento pode ser usado para determinar o quanto o agrupamento é de interesse. O limite de duração mínimo pode definir a duração de tempo mínima que uma região de agrupamento deve manter como agrupamento para ser considerado como um ponto de reunião válido. O bloco 1202 detecta os pontos de reunião de agrupamento. O bloco 1203 atualiza e monitora os pontos de reunião de agrupamento detectados e detectar os eventos de “reunião” e “dispersão” de agrupamento.
[0099] A Figura 13 ilustra um exemplo para definir um ponto de reunião de agrupamento. O mesmo inclui uma região interna conforme indicado por 1301 e uma região externa conforme indicado por 1302. As duas regiões podem ser definidas por um ponto central O, um raio curto r e um raio longo R. Nesse exemplo, o ponto de reunião de agrupamento pode satisfazer os dois critérios seguintes:
[00100] • A densidade de agrupamento da região interna deve ser maior ou igual a um limite predefinido;
[00101] • A contagem de pessoa na região externa deve ser menor (por exemplo, 2 vezes, 4 vezes, 10 vezes, etc. menor) do que a contagem de pessoa na região interna. Alternativamente, a densidade de agrupamento na região externa deve ser menor (por exemplo, 2 vezes, 4 vezes, 10 vezes, etc., menor) do que a densidade de agrupamento na região interna.
[00102] Os dois critérios acima podem indicar que a região interna é um ponto de reunião de agrupamento, não apenas uma região em um agrupamento grande.
[00103] As Figuras 14A e 14B mostram um exemplo de um ponto de reunião de agrupamento. A Figura 14A e a Figura 14B, cada uma, mostram um quadro de vídeo e os alvos humanos detectados mapeados para um plano terrestre físico do mundo real. Embora a Figura 14A tenha mais alvos humanos, apenas a Figura 14B contém um ponto de reunião de agrupamento conforme definido acima.
[00104] A Figura 15 ilustra um método exemplificativo de detecção dos pontos de reunião de agrupamento. Para cada alvo humano detectado, os blocos 1501 verificam se o mesmo pertence a um ponto de reunião de agrupamento existente. Se “sim”, o mesmo é usado para atualizar a situação atual do ponto de reunião de agrupamento correspondente no bloco 1502. Se “não”, o bloco 1503 verifica adicionalmente se o alvo atual é o centro de um novo ponto de reunião de agrupamento. Se “sim”, o bloco 1504 começa um novo ponto de reunião de agrupamento para o monitoramento adicional. Se “não”, o módulo continua a verificar a próxima detecção de indivíduos humanos.
[00105] A Figura 16 ilustra um método exemplificativo de atualização dos pontos de reunião de agrupamento e de detecção de eventos de “reunião” e “dispersão” de agrupamento. O bloco 1601 atualiza o local e a área do ponto de reunião de agrupamento com o uso dos novos resultados de detecção de indivíduos humanos no quadro de vídeo em consideração. O bloco 1602 verifica se o evento de “reunião” de agrupamento foi detectado a partir do ponto de reunião de agrupamento atual. Se “não”, o bloco 1603 continua a detectar o evento de “reunião” verificando-se se um ponto de reunião de agrupamento foi atualizado com sucesso por determinada duração. Esse limite de duração pode ser definido pelo usuário no momento de definição de regra. Uma vez que um ponto de reunião de agrupamento tiver gerado um evento de “reunião”, o bloco 1604 monitora, adicionalmente, o ponto de reunião para detectar o evento de “dispersão”. No presente documento, um evento de “dispersão” de agrupamento que é definido como um ponto de reunião de agrupamento se torna um ponto vazio ou um ponto com baixa densidade (por exemplo, abaixo do limite de densidade de agrupamento mínimo Tbaixo) em um período de tempo curto. O bloco 1604 detecta dois movimentos específicos de um ponto de reunião de agrupamento: o momento em que o mesmo não se tor-na agrupado e o momento em que se torna vazio ou baixo em densidade. Se o momento entre esses dois momentos for mais curto do que um limite definido por usuário, um evento de “dispersão” de agrupamento é detectado.
[00106] A Figura 17 ilustra um exemplo de um sistema de múltiplas câmeras ao qual esta invenção pode ser aplicada. Nesse exemplo, duas câmeras 1702 e 1704 fazem imagens de vídeo, separadamente, de uma cena de interesse de diferentes perspectivas. O sistema e os métodos de vigilância por vídeo 101 descritos no presente documento podem ser os mesmos que os descritos no presente documento para cada câmera 1702 e 1704 para o módulo de detecção de alteração 103, o módulo de detecção de movimento 104, módulo de detecção de objeto grande binário em primeiro plano 105, módulo de modelo de indivíduo humano genérico 303, modelo de calibração de câmera baseado em indivíduo humano 304 e método de computação de mapa de probabilidade de indivíduo humano 305 - ou seja, cada câmera pode ter seu próprio módulo ou funcionalidade de módulo (se o conjunto de circuitos for compartilhado) para esses módulos.
[00107] Os modelos de indivíduo humano em 2D para o respectivo espaço de imagem fornecido pelo modelo de calibração de câmera baseado em indivíduo humano 304 de cada câmera de vídeo 1702, 1704, também podem ser associados a uma coordenada do plano terrestre físico do mundo real. Por exemplo, para o módulo de modelo de calibração de câmera baseado em indivíduo humano 304 para cada câmera, uma entrada adicional pode ser feita para uma coordenada de plano terrestre físico correspondente para, desse modo, associar cada um dos N modelos de indivíduo humano a um mesmo. No cálculo de um mapa de probabilidade de indivíduo humano para cada uma das câmeras 1702, 1704, as probabilidades de cada mapa de probabilidade podem ser mapeadas para o plano terrestre físico em vez de para o espaço de imagem em 2D.
[00108] Em um exemplo, o módulo de estimativa de alvo de indivíduo humano 306 que detecta a melhor quantidade de indivíduos humanos pode realizar varreduras de um primeiro mapa de probabilidade de uma câmera de uma maneira descrita acima, ou seja, nas restrições dos critérios de pesquisa, busca por um máximo de local do primeiro mapa de probabilidade. No cálculo da função de critérios para determinar um máximo para o M conjuntos de modelos de indivíduo humano m(m1,... mM), o objetivo é encontrar:
[00109] em que n é o conjunto em particular de diversos modelos de indivíduo humano em 3D, que pode ter coordenadas de identificação no plano terrestre físico para as quais as probabilidades são mapeadas de cada um dos dois mapas de probabilidade de indivíduo humano. Ou seja, na seleção de um ponto no mundo real conforme associado a um modelo de indivíduo humano para um conjunto de modelo, os modelos de indivíduo humano de espaço de imagem em 2D associados a esse ponto são identificados para cada sistema de câmera, com um modelo de indivíduo humano usado para calcular f1(n) e o outro para calcular f2(n). f1(n) e f2(n) podem ser os mesmos que as funções descritas no presente documento (respectivos ao conjunto de objeto grande binário em primeiro plano de indivíduo humano ou área em primeiro plano de indivíduo humano extraído da imagem de vídeo apropriada):
[00110] em que (para os respectivos n modelos de indivíduo humano em 2D selecionados associados à imagem de vídeo e à área em primeiro plano de indivíduo humano daquela imagem de vídeo) R é a razão de chamada de indivíduo humano, que é definida como a porcentagem da área em primeiro plano de indivíduo humano sobre toda a área do grupo de n modelos de indivíduo humano selecionados; P é a precisão de indivíduo humano, que é a porcentagem da área em primeiro plano que se sobrepõe com o grupo de n modelos de indivíduo humano selecionados e O é a razão de sobreposição de indivíduo humano, que é a razão da área de sobreposição de qualquer um dos n modelos de indivíduo humano selecionados entre si para a área ocupada por todos os n modelos de indivíduo humano selecionados, o n- ésimo modelo de indivíduo humano selecionado com áreas ocupadas pelo 1o ao n-ésimo modelos de indivíduo humano [as áreas ocupadas pelos modelos de indivíduo humano previamente selecionados na passagem atual no cálculo de f(n)], e wR, wP e wO são os pesos. Nota- se que os pesos podem diferir entre as funções f1(n) e f2(n). A exclusão de pixels para mais consideração na seleção do próximo máximo de local pode projetar o modelo de indivíduo humano em 3D associado à coordenada de plano terrestre do modelo de indivíduo humano previamente selecionado de volta para cada um dos dois mapas de probabilidade no respectivo plano de imagem.
[00111] Em uma alternativa adicional, um único mapa de probabilidade pode ser usado para múltiplas câmeras. No exemplo da Figura 17, os cálculos de probabilidade podem ser feitos para cada uma das imagens de vídeo em 2D, conforme descrito no documento e criam dois mapas de probabilidade em plano de imagem, sendo que cada um corresponde ao respectivo plano de imagem em 2D. As probabilidades do mapa de probabilidade de plano de imagem podem ser ajustadas para zero se as mesmas não excederem um determinado limite (que podem ser as mesmas ou diferentes para cada mapa de probabilidade de plano de imagem). As coordenadas de identificação em cada mapa de probabilidade de plano de imagem podem ser traduzidas para uma coordenada de plano terrestre no mundo real para cada um dos mapas de probabilidade de plano de imagem, criando-se um mapa de probabilidade de plano terrestre para cada imagem de vídeo. Os dois mapas de probabilidade de plano terrestre podem ser fundidos multiplicando-se as probabilidades que compartilham as mesmas coordenadas de plano terrestre para criar um mapa de probabilidade fundido. O mapa de probabilidade de plano terrestre fundido pode ser varrido para encontrar máximos de local. Cada máximo de local en-contrado pode identificar modelos de indivíduo humano separados para cada uma das imagens de vídeo em seu respectivo espaço de ima- gem que pode ser, então, usado para calcular f1(n) ou f2(n) (descrito acima), conforme apropriado. A realização de diversas varreduras do mapa de probabilidade de plano terrestre fundido para diversos máximos de local pode ser feita para encontrar os modelos de indivíduo humano subsequentes (um para cada uma das imagens de vídeo) e para calcular
[00112] As restrições de seleção (como o limite de probabilidade mínimo e a distância mínima no mundo real em 3D) podem ser alteradas e uma nova passagem de varredura implantada para encontrar o conjunto ideal de m modelos em 3D de indivíduo humano (que corresponde, nesse exemplo, a 2m modelos de indivíduo humano em 2D).
[00113] Em outro exemplo, o módulo de estimativa de alvo de indivíduo humano 306, que detecta uma melhor quantidade de indivíduos humanos pode realizar varreduras de um primeiro mapa de probabilidade de uma câmera de uma maneira descrita acima, ou seja, nas restrições dos critérios de pesquisa, pesquisa para um máximo de local do primeiro mapa de probabilidade. No cálculo da função de critérios para determinar um máximo para os conjuntos de m modelos de indivíduo humano, o objetivo é encontrar um máximo de:
[00114] em que n é a coordenada de identificação no plano terrestre físico para a qual as probabilidades são mapeadas de cada um dos dois mapas de probabilidade de indivíduo humano. Ou seja, na seleção de um ponto no mundo real, os modelos de indivíduo humano de espaço de imagem em 2D associados a esse ponto são identificados para cada sistema de câmera, com um modelo de indivíduo humano usado para calcular f1(n) e o outro para calcular f2(n). f1(n) e f2(n) podem ser as mesmas que a função descrita acima (respectiva ao conjunto de objeto grande binário em primeiro plano de indivíduo humano ou área em primeiro plano de indivíduo humano extraído da imagem de vídeo apropriada):
[00115] em que R é a razão de chamada de indivíduo humano, que é definida como a porcentagem da área em primeiro plano de indivíduo humano sobre toda a área dos modelos de indivíduo humano selecionados; P é a precisão de indivíduo humano, que é a porcentagem da área em primeiro plano que se sobrepõe com os modelos de indivíduo humano selecionados e O é a razão de sobreposição de indivíduo humano, que é a sobreposição do n-ésimo modelo de indivíduo humano selecionado com áreas ocupadas pelo 1o ao n-ésimo modelos de indivíduo humano [as áreas ocupadas pelos modelos de indivíduo humano previamente selecionados na passagem atual no cálculo de ∑f(n)], e wR, wP e wO são os pesos. Nota-se que os pesos podem diferir entre as funções f1(n) e f2(n). A exclusão de pixels para mais consideração na seleção do próximo máximo de local pode projetar o modelo de indivíduo humano em 3D associado à coordenada de plano terrestre do modelo de indivíduo humano previamente selecionado de volta para cada um dos dois mapas de probabilidade no respectivo plano de imagem.
[00116] Em uma alternativa adicional, um único mapa de probabilidade pode ser usado para múltiplas câmeras. No exemplo da Figura 17, os cálculos de probabilidade podem ser feitos para cada uma das imagens de vídeo em 2D, conforme descrito no presente documento e criam dois mapas de probabilidade de plano de imagem, sendo que cada um corresponde ao respectivo plano de imagem em 2D. As probabilidades do mapa de probabilidade de plano de imagem podem ser ajustadas para zero se as mesmas não excederem um determinado limite (que podem ser as mesmas ou diferentes para cada mapa de probabilidade de plano de imagem). As coordenadas de identificação em cada mapa de probabilidade de plano de imagem podem ser traduzidas para uma coordenada de plano terrestre no mundo real para cada um dos mapas de probabilidade de plano de imagem, criando-se um mapa de probabilidade de plano terrestre para cada imagem de vídeo. Os dois mapas de probabilidade de plano terrestre podem ser fundidos multiplicando-se as probabilidades que compartilham as mesmas coordenadas de plano terrestre para criar um mapa de probabilidade fundido. O mapa de probabilidade de plano terrestre fundido pode ser varrido para encontrar a máxima de local. Cada máximo de local encontrado pode identificar os modelos de indivíduo humano separados para cada uma das imagens de vídeo em seu respectivo espaço de imagem que pode, então, ser usado para calcular f1(n) ou f2(n) (descrita acima) conforme apropriado. O desempenho de múltiplas varreduras do mapa de probabilidade de plano terrestre fundido para os diversos máximos de local pode ser feito para encontrar modelos de indivíduo humano subsequentes (um para cada uma das imagens de vídeo) e para calcular
[00117] As restrições de seleção (como o limite de probabilidade mínimo e a distância mínima no mundo real em 3D) podem ser alteradas e uma nova passagem de varredura implantada para encontrar o conjunto ideal de m modelos em 3D de indivíduo humano (que corresponde, nesse exemplo, a 2m modelos de indivíduo humano em 2D).
[00118] O que antecede é ilustrativo das modalidades exemplificati- vas e não deve ser interpretado como limitante das mesmas. Embora poucas modalidades exemplificativas tenham sido descritas, aqueles versados na técnica irão observar, prontamente, que muitas modificações são possíveis nas modalidades exemplificativas sem se afastar, materialmente, dos ensinamentos inovadores e das vantagens da presente revelação. Por exemplo, embora a revelação tenha descrito a detecção de indivíduos humanos em uma imagem de vídeo, a invenção não deve ser considerada como limitada a isso e outros objetos de interesse também podem ser detectados.

Claims (32)

1. Método de detecção de indivíduos humanos em um vídeo, caracterizado pelo fato de que compreende as etapas de: determinar se os pixels de uma imagem de vídeo são pixels em primeiro plano, em que um grupo dos pixels em primeiro plano constitui um conjunto de objeto grande binário em primeiro plano de um ou mais objetos grandes binários em primeiro plano; para cada um dos N formatos predeterminados nos correspondentes de N locais predeterminados dentro da imagem de vídeo, em que N é um número inteiro superior a um, comparar o formato predeterminado correspondente com o conjunto de objeto grande binário em primeiro plano para obter uma probabilidade correspondente de um humano no correspondente local predeterminado, obtendo, por meio disso, N probabilidades correspondentes aos N locais predeterminados; usar as N probabilidades, determinando se X humanos são representados pelo conjunto de objeto grande binário em primeiro plano, em que X é um número inteiro; usar a determinação da representação de X humanos, determinando uma densidade de agrupamento dentro de uma primeira área do mundo real; comparar a densidade de agrupamento com um limiar; e fornecer pelo menos um dentre um relatório, um alarme, e uma detecção de eventos que usa a determinação da representação de X humanos quando a densidade de agrupamento excede o limiar, em que um formato de indivíduo humano predeterminado correspondente é um formato predeterminado cujo tamanho para cada um dos N locais é determinado em resposta a uma calibração de um sistema de vídeo usado para obter a imagem de vídeo, a calibração sendo realizada usando diversas amostras de imagem de indivíduo humano.
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que ainda compreende usar as N probabilidades para determinar um local de cada um dos X humanos.
3. Método, de acordo com a reivindicação 2, caracterizado pelo fato de que o local determinado de cada X humanos é um local dentro de um plano de imagem que corresponde à imagem de vídeo.
4. Método, de acordo com a reivindicação 2, caracterizado pelo fato de que o local determinado de cada X humanos é um local em relação a um plano terrestre físico que corresponde ao mundo real.
5. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que determinar pixels em primeiro plano da imagem de vídeo compreende a uma comparação de um primeiro quadro de uma imagem de vídeo sem objetos em primeiro plano com um segundo quadro da imagem de vídeo que contém os objetos em primeiro plano.
6. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o formato predeterminado é igual para cada um dos N locais predeterminados.
7. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o formato predeterminado para pelo menos alguns dos N locais predeterminados tem um tamanho diferente.
8. Método, de acordo com a reivindicação 7, caracterizado pelo fato de que um tamanho do formato predeterminado para cada um dos N locais predeterminados é determinado em reposta a calibra- ção de um sistema de vídeo, e em que o sistema de vídeo é usado para obter a imagem de vídeo.
9. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a calibração do sistema de vídeo compreende determinar um tamanho de imagem de uma porção da imagem de vídeo que corresponde a um tamanho de humano médio em cada um dos N locais predeterminados, e em que o tamanho do formato predeterminado para cada um dos N locais predeterminados é determinado em resposta ao tamanho de imagem correspondente.
10. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que compreende ainda antes da determinação de pixels da imagem de vídeo que são pixels em primeiro plano, para cada um dos N locais predeterminados, determinar o formato predeterminado correspondente por estimar uma parte de imagem em primeiro plano a ser ocupada na imagem de vídeo quando um humano existe no local correspondente.
11. Método, de acordo com a reivindicação 10, caracterizado pelo fato de que estimar a parte de imagem em primeiro plano para cada um dos N locais predeterminados é baseada em uma projeção de um modelo de um humano no mundo real sobre um plano de imagem da imagem de vídeo.
12. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a imagem de vídeo compreende uma pluralidade de quadros de imagem, em que cada quadro de imagem compreende uma imagem bidimensional que tem os N locais predeterminados, em que cada um dos N locais predeterminados é identificado por um par de coordenadas x, y correspondentes dentro da imagem bidimensional.
13. Método, de acordo com a reivindicação 12, caracterizado pelo fato de que cada um dos N locais predeterminados é associado a um dos N formatos predeterminados correspondentes em relação a um plano de imagem que corresponde à imagem de vídeo.
14. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que ainda compreende, para cada um dos N locais predeterminados, calcular uma razão de chamada do formato predeterminado correspondente e do conjunto de objeto grande binário em primeiro plano para determinar uma probabilidade associada.
15. Método, de acordo com a reivindicação 14, caracterizado pelo fato de que para cada um dos N locais, o cálculo da razão de chamada compreende determinar uma razão de (a) uma área que compreende uma sobreposição de uma área ocupada pelo formato predeterminado e pelo conjunto de objeto grande binário em primeiro plano e (b) a área ocupada pelo formato predeterminado.
16. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que ainda compreende as etapas de: criar um mapa de probabilidade com as N probabilidades; e determinar máximos de local de probabilidades do mapa de probabilidade.
17. Método, de acordo com a reivindicação 16, caracterizado pelo fato de que ainda compreende: selecionar um primeiro local dos N locais predeterminados que corresponde a um máximo de local do mapa de probabilidade; obter um primeiro formato predeterminado que corresponde ao primeiro local; e analisar uma quantidade de uma sobreposição de uma área ocupada pelo primeiro formato predeterminado e pelo conjunto de objeto grande binário em primeiro plano.
18. Método, de acordo com a reivindicação 16, caracterizado pelo fato de que a primeira razão é usada para determinar que X humanos são representados pelo conjunto de objeto grande binário em primeiro plano.
19. Método, de acordo com a reivindicação 17, caracterizado pelo fato de que compreende ainda, calcular uma primeira relação de uma área (a) que compre- ende uma sobreposição de uma área ocupada pelo primeiro formato predeterminado e o conjunto de objeto grande binário em primeiro plano e (b) uma área do conjunto de objeto grande binário em primeiro plano, em que a primeira relação é usada para determinar que X humanos são representados pelo conjunto de objeto grande binário em primeiro plano.
20. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que ainda compreende: selecionar um subconjunto dos N formatos predeterminados com base nas N probabilidades; e analisar uma sobreposição de uma área ocupada pelo subconjunto selecionado dos N formatos predeterminados e uma área ocupada pelo conjunto de objeto grande binário em primeiro plano.
21. Método, de acordo com a reivindicação 16, caracterizado pelo fato de que ainda compreende calcular um valor de precisão e um valor de chamada para cada um dos m locais dos N locais predeterminados, em que m é um número inteiro, cada um dos m locais corresponde a um máximo de local do mapa de probabilidade.
22. Método, de acordo com a reivindicação 21, caracterizado pelo fato de que compreede ainda selecionar sequencialmente de 1 a m dos N locais predeterminados, sendo que uma seleção de um (m-1)_ésimo local exclui a seleção de um dos subsequentes N locais predeterminados que se enquadra em uma primeira distância predeterminada do (m-1)_ésimo local.
23. Método, de acordo com a reivindicação 22, caracterizado pelo fato de que compreende ainda selecionar sequencialmente de 1 a m dos N locais predeterminados, em que a seleção de um próximo local dos N locais predeterminados compreende selecionar um local com base em sua proximidade a uma borda de fundo da imagem de vídeo.
24. Método de detecção de indivíduos humanos em um vídeo, caracterizado pelo fato de que compreende as etapas de: determinar se pixels de uma imagem de vídeo de uma cena de mundo real são pixels em primeiro plano, em que um grupo de pixels no primeiro plano constitui um conjunto de objeto grande binário em primeiro plano de um ou mais objetos grandes binários em primeiro plano; para cada um dos N formatos predeterminados nos correspondentes de N locais predeterminados dentro da imagem de vídeo, em que N é um número inteiro maior que um, comparar o formato predeterminado correspondente com o conjunto de objeto grande binário em primeiro plano para determinar se X humanos são representados pelo conjunto de objeto grande binário em primeiro plano, em que X é número inteiro e um local de cada um dos X humanos é determinado como um local dentro de um plano horizontal do mundo real; e usar a determinação da representação de X humanos, determinando uma densidade de agrupamento dentro de uma primeira área do mundo real; comparar a densidade de agrupamento com um limiar; e fornecer pelo menos um dentre um relatório, um alarme, e uma detecção de eventos quando a densidade de agrupamento excede o limiar, usando a determinação da representação de X humanos, em que um formato de indivíduo humano predeterminado cor-respondente é um formato predeterminado cujo tamanho para cada um dos N locais é determinado em resposta a uma calibração de um siste-ma de vídeo usado para obter a imagem de vídeo, a calibra- ção sendo realizada usando diversas amostras de imagem de indivíduo humano.
25. Método, de acordo com a reivindicação 24, caracteri- zado pelo fato de que ainda compreende detectar a existência de um agrupamento através da análise de pelo menos alguns dos locais dos X humanos.
26. Método, de acordo com a reivindicação 24, caracterizado pelo fato de que ainda compreende determinar uma existência de um agrupamento quando se determina que Y dos X humanos estão localizados dentro de uma primeira área do plano horizontal do mundo real.
27. Método, de acordo com a reivindicação 26, caracterizado pelo fato de que a primeira área compreende um formato geométrico predeterminado tendo um tamanho de área predeterminado dentro do mundo real.
28. Método, de acordo com a reivindicação 26, caracterizado pelo fato de que a primeira área compreende uma área definida por um círculo.
29. Método, de acordo com a reivindicação 26, caracterizado pelo fato de que compreende ainda determinar uma densidade de agrupamento dentro da primeira área.
30. Método, de acordo com a reivindicação 29, caracterizado pelo fato de que compreende ainda comparar a densidade de agrupamento a um limiar e enviar pelo menos um de um relatório e um alarme quando a densidade de agrupamento excede um limiar.
31. Método, de acordo com a reivindicação 24, caracterizado pelo fato de que ainda compreende determinar uma primeira densidade de agrupamento dentro da primeira área que corresponde a um primeiro quadro da imagem de vídeo; determinar uma segunda densidade de agrupamento dentro da primeira área que corresponde a um segundo quadro da imagem de vídeo; determinar um evento de reunião de agrupamento em res- posta à primeira densidade de agrupamento e à segunda densidade de agrupamento.
32. Método, de acordo com a reivindicação 24, caracterizado pelo fato de que ainda compreende: determinar uma primeira densidade de agrupamento dentro da primeira área que corresponde a um primeiro quadro da imagem de vídeo; determinar uma segunda densidade de agrupamento dentro da primeira área que corresponde a um segundo quadro da imagem de vídeo; determinar um evento de dispersão de agrupamento em resposta à primeira densidade de agrupamento e à segunda densidade de agrupamento.
BR112015005282-7A 2012-09-12 2013-09-12 Métodos de detecção de indivíduos humanos em um vídeo BR112015005282B1 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261700033P 2012-09-12 2012-09-12
US61/700,033 2012-09-12
US13/838,511 US9165190B2 (en) 2012-09-12 2013-03-15 3D human pose and shape modeling
US13/838,511 2013-03-15
PCT/US2013/059471 WO2014043353A2 (en) 2012-09-12 2013-09-12 Methods, devices and systems for detecting objects in a video

Publications (3)

Publication Number Publication Date
BR112015005282A2 BR112015005282A2 (pt) 2017-07-04
BR112015005282A8 BR112015005282A8 (pt) 2022-10-04
BR112015005282B1 true BR112015005282B1 (pt) 2024-03-19

Family

ID=

Similar Documents

Publication Publication Date Title
AU2013315491B2 (en) Methods, devices and systems for detecting objects in a video
Shao et al. Real-time and accurate UAV pedestrian detection for social distancing monitoring in COVID-19 pandemic
US10977818B2 (en) Machine learning based model localization system
Seer et al. Kinects and human kinetics: A new approach for studying pedestrian behavior
US20190188533A1 (en) Pose estimation
Führ et al. Camera self-calibration based on nonlinear optimization and applications in surveillance systems
Xie et al. Event-based stereo matching using semiglobal matching
Brenner et al. RGB-D and thermal sensor fusion: a systematic literature review
Revaud et al. Did it change? learning to detect point-of-interest changes for proactive map updates
Perez-Yus et al. Peripheral expansion of depth information via layout estimation with fisheye camera
WO2021248564A1 (zh) 一种全景大数据应用监测管控系统
US20240104776A1 (en) Camera calibration apparatus, camera calibration method, and non-transitory computer readable medium storing camera calibration program
CN116883981A (zh) 一种车牌定位识别方法、系统、计算机设备及存储介质
Yang et al. Simultaneous active camera array focus plane estimation and occluded moving object imaging
Elassal et al. Unsupervised crowd counting
Zhao Camera planning and fusion in a heterogeneous camera network
BR112015005282B1 (pt) Métodos de detecção de indivíduos humanos em um vídeo
Xu et al. Robust object detection with real-time fusion of multiview foreground silhouettes
Feng et al. Collaboration calibration and three-dimensional localization in multi-view system
Yeh et al. An Aerial Crowd-Flow Analyzing System for Drone Under YOLOv5 and StrongSort
Ciou et al. Indoor positioning using convolution neural network to regress camera pose
Grewe et al. Health crisis situation awareness using mobile multiple modalities
Islam et al. 3D kinematic measurement of human movement using low cost fish-eye cameras
Huang et al. Multi-target detection and positioning in crowds using multiple camera surveillance
CN112613417A (zh) 应用于公共卫生的行人接触程度判断系统