BRPI0720802B1 - Método e sistema para gerar uma sinopse de vídeo de uma fonte de fluxo de vídeo ininterrupta como a gerada por uma câmera de segurança de vídeo - Google Patents

Método e sistema para gerar uma sinopse de vídeo de uma fonte de fluxo de vídeo ininterrupta como a gerada por uma câmera de segurança de vídeo Download PDF

Info

Publication number
BRPI0720802B1
BRPI0720802B1 BRPI0720802-2A BRPI0720802A BRPI0720802B1 BR PI0720802 B1 BRPI0720802 B1 BR PI0720802B1 BR PI0720802 A BRPI0720802 A BR PI0720802A BR PI0720802 B1 BRPI0720802 B1 BR PI0720802B1
Authority
BR
Brazil
Prior art keywords
video
synopsis
objects
source
time
Prior art date
Application number
BRPI0720802-2A
Other languages
English (en)
Inventor
Shmuel Peleg
Yael Pritch
Alexander Rav-Acha
Avital Gutman
Original Assignee
Briefcam, Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=39261922&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=BRPI0720802(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Briefcam, Ltd. filed Critical Briefcam, Ltd.
Publication of BRPI0720802A2 publication Critical patent/BRPI0720802A2/pt
Publication of BRPI0720802B1 publication Critical patent/BRPI0720802B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F17/3079
    • G06F17/30843
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

método e sistema para gerar uma sinopse de vídeo de uma fonte de fluxo de vídeo substancialmente ininterrupta como a gerada por uma c mera de segurança de vídeo e programa de computador trata-se de um sistema e método para gerar uma sinopse de vídeo de uma fonte de vídeo, em que pelo menos três diferentes objetos fonte são selecionados de acordo com uma ou mais restrições definidas, cada objeto fonte sendo um subconjunto conectado de pontos de imagem de pelo menos três quadros diferentes do vídeo fonte. um ou mais objetos de sinopse são amostrados de cada objeto fonte selecionados por amostragem temporal usando pontos de imagem derivados de períodos de tempo específicos. para cada objeto de sinopse um respectivo tempo para iniciar sua exibição na sinopse do vídeo é determinado, e para cada objeto de sinopse e cada quadro uma respectiva transformação de cor para exibição do objeto de sinopse pode ser determinada. a sinopse do vídeo é exibida através da exibição de objetos de sinopse selecionados em seus respectivos tempos e transformações de cor, tal que na sinopse do vídeo pelo menos três pontos, em que cada um deriva de diferentes tempos respectivos no vídeo fonte, são exibidos simultaneamente.

Description

CAMPO DA INVENÇÃO
[001] A presente descrição refere-se ao campo de sumarização de vídeo e indexação de vídeo.
ANTECEDENTES DA INVENÇÃO
[002] Referências ao estado da técnica consideradas relevantes como fundamento para a invenção são listadas abaixo, e seu conteúdo é incorporado aqui por referência. Referências adicionais são acima mencionadas nos pedidos provisórios. Nos US60/898.698, US60/11.839 e US60/971.582 e seus conteúdos são incorporados aqui por referência. O conhecimento das referências aqui não deve ser inferido como tendo o significado de que estes são de alguma maneira relevante para a patenteabilidade da invenção aqui revelada. Cada referência é identificada por um número cercado por colchetes e desta maneira o estado da técnica será referenciado ao longo do relatório descritivo pelos números entre colchetes.
[003] Documento do estado da técnica [1] A. Agarwala, M. Dontcheva, M. Agrawala, S. Drucker, A.Colburn, B. Curless, D. Salesin, and M. Cohen. Interactive digital photomontage. Em SIGGRAPH, páginas 294 a 302, 2004.
[004] Documento do estado da técnica [2] Y. Boykov e V. Kolmogorov. An experimental comparison of min-cut/max-flow algorithms for energy minimization invision. IEEE Trans. em Pattern Analysis and Machine Intelligence, 26(9):1124 a 1137, setembro 2004.
[005] Documento do estado da técnica [3] S. Cohen. Background estimation as a labeling problem. em ICCV’05, páginas 1034 a 1041, Washington, DC, 2005.
[006] Documento do estado da técnica [4] A. Divakaran, K. Peker, R. Radhakrishnan, Z. Xiong, e R. Cabasson. Video summarization using mpeg-7 motion activity and audio descriptors. Technical Report TR-2003-34, MERL - A Mitsubishi Electric Research Laboratory, Cambridge, Massachusetts, maio de 2003.
[007] Documento do estado da técnica [5] G. Doretto, A. Chiuso, Y. Wu, e S. Soatto. Dynamic textures. Int. J. Computer Vision, 51:91 a 109, 2003.
[008] Documento do estado da técnica [6] M. Irani, P. Anandan, J. Bergen, R. Kumar, e S. Hsu. Efficient representations of video sequences and their applications. Signal Processing: Image Communication, 8(4):327 a 351, 1996.
[009] Documento do estado da técnica [7] H. Kang, Y. Matsushita, X. Tang, e X. Chen. Space-time video montage. Em CVPR’06, páginas 1331 a 1338, New York, junho de 2006.
[0010] Documento do estado da técnica [8] C. Kim e J. Hwang. An integrated scheme for object-based video abstraction. Em ACM Multimedia, páginas 303 a 311, New York, 2000.
[0011] Documento do estado da técnica [9] S. Kirkpatrick, C. D. Gelatt, e M. P. Vecchi. Optimization by simulated annealing. Science, 4598(13):671 a 680, 1983.
[0012] Documento do estado da técnica [10] V. Kolmogorov e R. Zabih. What energy functions can be minimized via graph cuts? Em ECCV, páginas 65 a 81, 2002.
[0013] Documento do estado da técnica [11] Y. Li, T. Zhang, e D. Tretter. An overview of video abstraction techniques. Technical Report HPL- 2001-191, HP Laboratory, 2001.
[0014] Documento do estado da técnica [12] J. Nam e A. Tewfik. Video abstract of video. Em 3rd IEEE Workshop on Multimedia Signal Processing, páginas 117 a 122, Copenhagen, setembro de 1999.
[0015] Documento do estado da técnica [13] J. Oh, Q. Wen, J. lee, e S. Hwang. Video abstraction. En S. Deb, editor, Video Data Management and Information Retrieval, páginas 321 a 346. Idea Group Inc. e IRM Press, 2004.
[0016] Documento do estado da técnica [14] M. Oren, C. Papageorgiou, P. Shinha, E. Osuna, e T. Poggio. A trainable system for people detection. Em Proceedings of Image Understanding Workshop, páginas 207 a 214, 1997.
[0017] Documento do estado da técnica [15] M. Gangnet P. Perez e A. Blake. Poisson image editing. Em SIGGRAPH, páginas 313 a 318, julho de 2003.
[0018] Documento do estado da técnica [16] C. Pal e N. Jojic. Interactive montages of sprites for indexing and summarizing security video. Em Video Proceedings of CVPR05, páginas II: 1192, 2005.
[0019] Documento do estado da técnica [17] R. Patil, P. Rybski, T. Kanade, e M. Veloso. People detection and tracking in high resolution panoramic video mosaic. Em Int. Conf. on Intelligent Robots and Systems (IROS 2004), volume 1, páginas 1323 a 1328, outubro de 2004.
[0020] Documento do estado da técnica [18] N. Petrovic, N. Jojic, e T. Huang. Adaptive video fast forward. Multimedia Tools and Applications, 26(3):327 a 344, agosto de 2005.
[0021] Documento do estado da técnica [19] A. Pope, R. Kumar, H. Sawhney, e C.Wan. Video abstraction: Summarizing video content for retrieval and visualization. Em Signals, Systems and Computers, páginas 915 a 919, 1998.
[0022] Documento do estado da técnica [20] A. Rav-Acha, Y. Pritch, e S. Peleg. Making a long video short: Dynamic video synopsis. EM CVPR’06, páginas 435 a 441, New York, junho de 2006.
[0023] Documento do estado da técnica [21] A. M. Smith e T. Kanade. Video skimming and characterization through the combination of image and language understanding. Em CAIVD, páginas 61 a 70, 1998.
[0024] [22] J. Sun, W. Zhang, X. Tang, e H. Shum. Background cut. Em ECCV, páginas 628 a 641, 2006.
[0025] Documento do estado da técnica [23] Y. Weiss e W.T. Freeman. On the optimality of solutions of the max-product belief propagation algorithm in arbitrary graphs. IEEE Transactions on Information Theory, 47(2):723 a 735, 2001.
[0026] Documento do estado da técnica [24] X. Zhu, X. Wu, J. Fan, A. K. Elmagarmid, e W. G. Aref. Exploring video content structure for hierarchical summarization. Multimedia Syst., 10(2):98 a 115, 2004.
[0027] Documento do estado da técnica [25] S. Peleg e A. Rav- Acha, WO2007/057893 “Method and system for producing a video synopsis”
[0028] Documento do estado da técnica [26] J. Assa, Y. Caspi, e D. Cohen-Or. Action synopsis: Pose selection and illustration. Em SIGGRAPH, páginas 667 a 676, 2005.
[0029] Documento do estado da técnica [27] Carsten Rother, Lucas Bordeaux, Youssef Hamadi, e Andrew Blake. Autocollage. ACM Transactions on Graphics, 25(3):847 a 852, julho de 2006.
[0030] Documento do estado da técnica [28] Aseem Agarwala. Efficient gradient-domain compositing using quadtrees. ACM Transactions on Graphics (Proceedings of SIGGRAPH 2007), 2007.
[0031] Documento do estado da técnica [29] G. Brostow e I. Essa. Motion based decompositing of video. In ICCV’99, páginas 8 a 13, Corfu, 1999.
[0032] Documento do estado da técnica [30] J. Shi e J. Malik, Normalized cuts and image segmentation, IEEE Transactions on Pattern Analysis and Machine Intelligence, 22(8):888 a 905, 2000.
[0033] Documento do estado da técnica [31] O. Boiman e M. Irani. Detecting irregularities in images and in video. In ICCV, páginas I: 462 a 469, Beijing, 2005.
[0034] Documento do estado da técnica [32] B.M. Carvalho, G.T. Herman, e T.Y. Kong. Simultaneous fuzzy segmentation of multiple objects. Discrete Applied Mathematics, Vol 151, No 1-3, outubro de 2005, páginas 55 a 77.
[0035] Documento do estado da técnica [33] G.T. Herman e B.M. Carvalho. Multiseeded Segmentation Using Fuzzy Connectedness. IEEE Transactions on Pattern Analysis and Machine Intelligence, v.23 no.5, páginas 460 a 474, maio de 2001.
[0036] Documento do estado da técnica [34] A. Levin, A. Rav- Acha, e D. Lischinski. Spectral Matting. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), Minneapolis, junho de 2007.
[0037] Documento do estado da técnica [35] N.E. Apostoloff e A.W. Fitzgibbon. Bayesian video matting using learnt image priors. Em Proceedings IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), junho de 2004, Washington DC.
[0038] Separar através de uma coleção de vídeo bruto consome tempo, visto que é necessário ver um vídeo clipe para determinar se alguma coisa de interesse foi gravada. Enquanto esta tarefa tediosa pode ser feita em coleções de vídeo pessoais, isto é impossível quando está envolvido vídeo ininterrupto, como o gravado por câmeras de segurança e webcams. Milhões de webcams estão cobrindo o mundo capturando seu campo de visão 24 horas por dia. É dito que somente no Reino Unido existem milhões de câmeras de segurança cobrindo as ruas das cidades. Muitas webcams igualmente transmitem seus vídeos publicamente na internet para qualquer um assistir. Muitas câmeras também estão disponíveis em linha em lojas, aeroportos e outras áreas públicas.
[0039] Um dos problemas em utilizar webcams é que elas fornecem dados brutos, sem edição. A maioria dos vídeos de segurança, portanto nunca á assistido ou examinado. No pedido anterior WO2007/057893 [25] foi proposto um método para sinopse de vídeo para criar vídeos encurtados pela combinação de porções selecionadas de múltiplas imagens originais de uma cena. Um vídeo clipe descreve atividades visuais ao longo do tempo, e comprimindo o eixo do tempo, permite visualizar um sumário de tal clipe em um tempo mais curto. Avanço rápido, em que alguns quadros são pulados entre quadros selecionados, é a ferramenta mais comum usada para sumarização de vídeo. Um caso especial de avanço rápido é chamado “lapso de tempo”, gerando um vídeo de processos muito lentos, como crescimento de flores, etc. Desde que o avanço rápido pode perder atividades rápidas durante os quadros suprimidos, foram desenvolvidos métodos adaptáveis de avanço rápido [12, 18, 4]. Tais métodos tentam pular quadros em períodos de menor interesse ou menor atividade, e manter quadros em períodos de maior interesse ou maior atividade. Uma abordagem similar extrai do vídeo uma coleção de pequenas seqüências de vídeo melhor representando seus conteúdos [21].
[0040] Muitas abordagens para sumário de vídeo eliminam completamente o eixo do tempo, e mostram uma sinopse do vídeo selecionando poucos quadros chaves [8,24]. Estes quadros chaves podem ser selecionados arbitrariamente, ou selecionados de acordo com algum critério importante. Mas a representação de quadros chaves perde no aspecto dinâmico do vídeo. Pesquisas amplas em abstração de vídeo aparecem em [11,13].
[0041] Em ambas as abordagens acima, os quadros inteiros são usados como blocos de construção fundamentais. Uma metodologia diferente usa imagens em mosaico junto com metadados para indexação de vídeo [6, 19, 16]. Neste caso a imagem de sinopse estática inclui objetos de tempos diferentes.
[0042] Abordagens baseadas em objetos para sinopse de vídeo foram primeiramente apresentadas em [20, 7], em que objetos móveis são representados no domínio espaço-tempo. As concatenações de porções de imagens representando objetos ou atividades ao longo de quadros sucessivos de um vídeo são chamadas de “tubos”. Como os objetos são representados por tubos no volume espaço-tempo, os termos “objetos” e “tubos” são usados intercambiados na descrição a seguir. Estas dissertações [20, 7] introduziram um novo conceito: criar uma sinopse de vídeo que combina atividades de diferentes tempos (ver Figura 1).
[0043] Um exemplo de uma abordagem baseada em objeto é descrita no WO2007/057893 [25], anexada ao presente pedido, sendo que é obtido um subconjunto de quadros de um vídeo de entrada, que mostra movimento de um ou mais objetos. Porções selecionadas do subconjunto que mostra aparições sobrepostas não espaciais dos objetos na primeira cena dinâmica são copiadas de múltiplos quadros de entrada para um número reduzido de quadros na seqüência de vídeo de saída, tal que as múltiplas localizações dos objetos como vistos em tempos diferentes no vídeo de entrada são mostradas simultaneamente no vídeo de saída.
[0044] As abordagens descritas nas referências [20, 7] são baseadas na observação de que mais atividades podem ser mostradas em um vídeo menor, se a ordem cronológica não é executada. Seria útil estender tal abordagem à sinopse de seqüências de um vídeo ininterrupto, tal como as obtidas usando câmeras de segurança, para limitar a duração do vídeo de saída para um limite desejado enquanto, contudo, fazendo isto de maneira controlada que reduza o risco de perda de aspectos.
[0045] Indexação eficiente, recuperação e navegação de vídeos longos estão crescendo em importância, especialmente dado o rápido aumento na quantidade de câmeras de segurança que coletam vídeo ininterruptamente. A indexação convencional de vídeo usa anotação manual do vídeo com palavras chaves, mas este método consome tempo e não é prático para câmeras de segurança. Métodos adicionais de indexação de vídeo têm sido propostos, baseados na seleção de quadros chaves representativos ou intervalos de tempo representativos do vídeo de entrada.
[0046] A sinopse de vídeo pode ser usada para indexar, recuperar e navegar quantos objetos sejam mostrados em um período coberto pelo tempo, criar uma sinopse de um curto vídeo. Entretanto, desde que muitos objetos diferentes são mostrados simultaneamente, examinar uma simples sinopse de vídeo, pode ser confuso.
[0047] A US20060117356 (Microsoft) descreve um navegador de vídeo que fornece navegação interativa de eventos únicos ocorrendo dentro de uma gravação total de vídeo. Em particular, o navegador de vídeo processa o vídeo para gerar um conjunto de vídeos espectrais representando eventos únicos ocorridos dentro do período total do vídeo. Uma vez que o vídeo tenha sido processado para identificar os espectros, os espectros são então organizados sobre uma imagem de fundo extraída do vídeo, para criar uma montagem de vídeo estática interativa. A montagem de vídeo interativa ilustra todos os eventos ocorridos dentro do vídeo em um único quadro estático. A seleção de espectros dentro da montagem causa ou a exibição de uma porção do vídeo na qual os espectros foram identificados, ou a exibição concorrente dos espectros selecionados dentro de uma montagem dinâmica de vídeo.
[0048] A WO0178050 (Inmotion Technologies Ltd.) descreve um sistema e método para usar comprimento de vídeo padrão mesmo que de uma única câmera para obter, de maneira automática, uma seqüência estroboscópica de um evento esportivo, por exemplo. A seqüência pode ser representada como uma imagem estática de natureza fotográfica, ou por uma seqüência de vídeo na qual o movimento da câmera permanece presente, neste caso a seqüência de vídeo pode ser renderizada como um movimento panorâmico de câmera em uma imagem estroboscópica ou como uma seqüência estroboscópica animada na qual o objeto em movimento, deixa um rastro de vestígios de cópias ao longo de seu caminho. Podem ser usadas múltiplas câmeras para um campo de visão expandido ou para comparação, de múltiplas seqüências, por exemplo.
[0049] A JP-2004-336172 descreve um sistema para diminuir um vídeo de segurança, o qual mantém a ordem cronológica dos eventos, sem separação entre objetos móveis concorrentes. Manter a ordem cronológica limita substancialmente as possibilidades de diminuição. Também não há sugestão de indexar os objetos, para que o tempo original de um objeto na sinopse do vídeo possa ser facilmente determinado.
DESCRIÇÃO DA INVENÇÃO
[0050] De acordo com um primeiro aspecto da invenção é fornecido um método implantado em computador para gerar uma sinopse de vídeo de uma fonte do fluxo de vídeo substancialmente ininterrupta como a gerada por uma câmera de vídeo de segurança, compreendendo o método: receber em tempo real descrições baseadas em objetos de pelo menos três objetos de fontes diferentes na dita fonte de fluxo de vídeo, cada objeto fonte sendo um subconjunto conectado de pontos de imagem de pelo menos três quadros diferentes da fonte de fluxo de vídeo; continuamente manter uma fila das ditas descrições baseadas em objetos incluindo para cada respectivo objeto sua duração e localização; selecionar um subconjunto de pelo menos três objetos da dita fila baseado em um critério determinado; amostrar de cada objeto fonte selecionado um ou mais objetos da sinopse por amostragem temporal; determinar para cada objeto da sinopse um tempo de exibição respectivo para iniciar sua exibição na sinopse do vídeo; e gerar uma sinopse de vídeo pela exibição dos objetos das sinopses selecionados ou objetos derivados daqueles, cada um no seu respectivo tempo de exibição pré-determinado; tal que pelo menos três pontos, cada um deriva respectivamente de um tempo diferente na fonte de fluxo de vídeo, são exibidos simultaneamente na sinopse do vídeo e pelo menos dois pontos, ambos derivados do mesmo tempo, são exibidos em tempos diferentes na sinopse do vídeo.
[0051] De acordo com um segundo aspecto da invenção é fornecido um sistema para gerar uma sinopse do vídeo de uma fonte de fluxo de vídeo substancialmente ininterrupta tal como gerada por uma câmera de vídeo de segurança, compreendendo o método: um seletor de objeto fonte, adaptado para ser acoplado a uma memória de objeto, que armazena e mantém uma fila continuamente, descrições baseadas em objetos de pelo menos três objetos fonte no dito fluxo da fonte de vídeo, as ditas descrições baseadas em objetos, incluindo para cada respectivo objeto fonte, sua duração e sua localização, o seletor de objeto fonte sendo adaptado para selecionar pelo menos três diferentes objetos fonte, de acordo com uma ou mais restrições definidas, cada objeto fonte sendo um subconjunto conectado de pontos de imagem de pelo menos três quadros diferentes do fluxo da fonte de vídeo; um amostrador de objeto de sinopse acoplado ao seletor de objeto fonte para mostrar de cada objeto fonte selecionado um ou mais objetos de sinopse por amostragem temporal usando pontos de imagem derivados dos períodos de tempo especificados; uma unidade seletora de tempo acoplada ao amostrador de objetos de sinopse para determinar para cada objeto de sinopse um tempo de exibição respectivo para iniciar sua exibição na sinopse do vídeo; uma unidade de deformação acoplada a unidade seletora de tempo para pontear cada um dos objetos de sinopse selecionados ou objetos derivados daqueles em um tempo de exibição específico para assim gerar sucessivos quadros de sinopse do vídeo, tal que no quadros de sinopse do vídeo, pelo menos três pontos, em que cada um deriva respectivamente de um tempo diferente na fonte de fluxo de vídeo, são exibidos simultaneamente; e uma memória de quadro de sinopse acoplada a unidade de costura para armazenar os ditos quadros da sinopse do vídeo.
[0052] A sinopse do vídeo revelada pela presente invenção é uma representação compacta temporária do vídeo que habilita a navegação de vídeo, recuperação e permite a indexação de diferentes características para assim permitir as características selecionadas a serem isoladas e para sua progressão temporal em um intervalo de tempo especificado a ser exibida. De acordo com algumas realizações da invenção, uma indexação de vídeo hierárquica baseada na sinopse do vídeo é empregada, sendo que a indexação é baseada em primeiro selecionar a classe dos objetos ou atividades desejados, e apenas depois selecionar um objeto ou atividade individual. Este procedimento pode ser repetido para assim permitir indexação hierárquica multinível.
[0053] Um exemplo de um tipo geral de sinopse de vídeo com o qual a invenção está envolvida é descrito no [25] com referência ao volume espaço-tempo mostrada na Figura 1.
[0054] O vídeo começa com uma pessoa andando no chão, e após um período de inatividade um pássaro está voando no céu. Os quadros inativos são omitidos na maioria dos métodos de abstração de vídeo. A sinopse do vídeo é substancialmente mais compacta, passando a pessoa e o pássaro simultaneamente. Isto faz um uso ótimo das regiões da imagem pela troca de eventos de seus intervalos de tempo originais para outros intervalos de tempo quando nenhuma outra atividade acontece nestas locações espaciais. Tais manipulações relaxam a consistência cronológica dos eventos. Na medida em que técnicas similares podem ser empregadas pela presente invenção, elas não serão repetidas aqui e o leitor pode referenciar a WO2007/057893 para uma descrição completa. Com o objetivo de ser breve e para não ofuscar a presente invenção, a qual em alguns aspectos pode ser vista como um aprimoramento da WO2007/057893, apenas aquelas características que se relacionam a presente invenção serão descritas em detalhes.
[0055] Aplicar este princípio ao vídeo infinito como o obtido por webcams e câmeras de segurança, envolve muitos desafios adicionais: • Como nenhum armazenamento é infinito, existe uma necessidade de “esquecer” eventos quando um vídeo infinito é sumarizado. • A aparência do fundo varia substancialmente em um vídeo longo, por exemplo, do dia para a noite. Estas mudanças deveriam ser endereçadas quando forem criados no fundo da sinopse e quando são inseridos nos objetos de fundo. • Devido às diferentes horas de atividades, poderem aparecer simultaneamente e em um fundo até mesmo de outra hora, deveria ser tomado especial cuidado quando se deforma todos estes, para dar o vídeo de saída. • Resposta rápida a indagações do usuário é requerida a despeito das grandes quantidades de dados.
[0056] A sinopse do vídeo pode fazer câmeras de segurança e webcams mais úteis por dar ao usuário a capacidade de se ver sumários do vídeo ininterruptamente, adicionando ao fluxo do vídeo ao vivo. Para permitir isto, um servidor de sinopse pode ver o vídeo alimentado ao vivo, analisar o vídeo por eventos de interesse, e gravar uma descrição do vídeo baseada em objeto. Estas descrições listam para cada webcam os objetos de interesse, sua duração, localização, e sua aparência.
[0057] Uma indagação que poderia ser respondida pelo sistema pode ser similar a “Eu gostaria de assistir em um minuto uma sinopse do vídeo desta webcam capturado durante a última hora”, ou “Eu gostaria de assistir em cinco minutos uma sinopse da última semana”, etc. Respondendo a tais indagações, os eventos mais interessantes (“tubos”) são coletados do período desejado, e são reunidos em uma sinopse do vídeo do tamanho desejado. A sinopse do vídeo é um índice para o vídeo original, pois cada objeto inclui um ponteiro para sua hora original.
[0058] Enquanto o vídeo de webcam é ininterrupto, e a quantidade de objetos é ilimitada, o armazenamento de dados disponível para cada webcam pode ser limitado. Para manter uma fila de objetos finita é proposto um procedimento para remover objetos desta fila quando o espaço é esgotado. Remover objetos da fila deveria ser feito de acordo com um critério de importância, semelhante ao que é feito quando se seleciona objetos para inclusão na sinopse, permitindo a otimização final para examinar poucos objetos.
[0059] Dentro do contexto da invenção e das reivindicações anexadas, o termo “vídeo” é sinônimo de “filme” em seu termo mais geral apenas estipulando que ele é acessível como um arquivo de imagem de computador receptivo ao pós-processamento e inclui qualquer tipo de filme, por exemplo, digital e analógico. A câmera fica preferencialmente em uma localização fixa pelo que se entende que ela pode girar e fazer aproximação - mas não está sujeita a movimento de translação como é feito nas técnicas propostas até aqui. As cenas com as quais a presente invenção está preocupada são dinâmicas pelo menos em parte do tempo.
[0060] Para descrever a invenção será feito o uso de uma construção a qual se referencia como “volume espaço-tempo” para criar as sinopses do vídeo. O volume espaço-tempo pode ser construído da seqüência de imagens de entrada empilhando seqüencialmente todos os quadros ao longo do eixo do tempo. Entretanto, deve ser entendido que até em que a implementação real é concebida, não é necessário realmente construir o volume espaço-tempo, por exemplo, realmente empilhando no tempo quadros de 2 dimensões de uma fonte dinâmica da cena. Mais tipicamente, quadros fonte são processados individualmente para construir quadros alvo, mas a referência ao volume espaço-tempo como sendo uma construção física em vez de uma construção conceitual, auxiliará o entendimento.
BREVE DESCRIÇÃO DOS DESENHOS
[0061] Para se entender a invenção e para ver como ela pode ser executada na prática, serão descritas realizações da mesma, apenas como formas de exemplo não limitantes, com referências aos desenhos anexos, nos quais: - a Figura 1 é uma representação pictórica, mostrando uma abordagem do estado da técnica para produzir uma sinopse do vídeo compacta, passando simultaneamente características temporalmente deslocadas; - as Figuras 2a a 2d mostram imagens de fundo de uma câmera de segurança no aeroporto de Stuttgart em tempos diferentes; - as Figuras 3a a 3d mostram quatro tubos extraídos, mostrados “justapostos” sobre os fundos correspondentes das Figuras 2a a 2d; - as Figuras 4a e 4b mostram dois tubos extraídos de uma cena de “Bilhar”; - as Figuras 5a e 5b mostram a distribuição espacial da atividade na cena do aeroporto mostrada na Figura 2; - a Figura 6 mostra graficamente a distribuição temporal de atividades na cena do aeroporto mostrada na Figura 2, medida pelo número de objetos em movimento; - a Figura 7 é um diagrama de bloco mostrando a arquitetura da indexação de vídeo hierárquica baseada em sinopse e pesquisa de acordo com uma realização da invenção; - a Figura 8 mostra o resultado do agrupamento de objetos que aparecem no vídeo de segurança de um estacionamento mostrado na Figura 12; - a Figura 9 mostra um quadro de uma “sinopse de alto nível” na hierarquia de indexação do vídeo do estacionamento mostrado na Figura 13 em que representações de diferentes agrupamentos são apresentadas simultaneamente; - as Figuras 10a e 10b mostram quadros de sinopses de um vídeo capturado durante 24 horas no aeroporto de Stuttgart; - a Figura 11 mostra um quadro sinopse gerada de três quadros tirados de um vídeo capturado por 9 horas em um clube de bilhar; - as Figuras 12a e 12b mostram quadros de sinopses gerados de um vídeo capturado à noite em São Petersburgo; - as Figuras 13a e 13b mostram quadros de sinopses gerados de uma webcam tirados durante cinco horas de um estacionamento tranqüilo; - a Figura 14 é um diagrama de bloco mostrando a funcionalidade central de um sistema de acordo com a invenção; e - a Figura 15 é um fluxograma mostrando a principal operação executada de acordo com a invenção.
[0062] Exemplos de sinopses do vídeo mostradas como quadros representativos nas figuras são, naturalmente, melhor visualizados em vídeo. Exemplos podem ser acessados em http://www.vision.huji.a.il/video-synopsis/.
DESCRIÇÃO DE REALIZAÇÕES DA INVENÇÃO COMPUTANDO TUBOS DE ATIVIDADES
[0063] São criados segmentos de cada objeto, selecionando subconjuntos de quadros nos quais o objeto aparece. Tais segmentos podem representar diferentes intervalos de tempo, opcionalmente tomados em diferentes taxas de amostragem.
[0064] Para aplicar tal técnica para gerar uma sinopse útil de vídeo ininterrupto, objetos e atividades de interesse deveriam ser identificados. Embora se utilize o movimento do objeto como uma indicação de interesse em muitos exemplos, podem ser notadas exceções. Alguns movimentos podem ter pouca importância, como folhas em uma árvore ou nuvens no céu. Pessoas ou outros grandes animais na cena podem ser importantes mesmo quando não estão se movendo. Embora estas exceções não sejam endereçadas, é possível incorporar o reconhecimento de objetos (por exemplo, detecção de pessoas [14, 17]), texturas dinâmicas [5], ou detecção de atividades não usuais [31]. Utiliza- se um único exemplo de sinopse do vídeo dando preferência a diferentes classes de objetos.
CONSTRUÇÃO DO FUNDO
[0065] Para permitir segmentação de movimento de objetos em primeiro plano inicia-se com a construção do fundo. Em pequenos vídeos clipes a aparência do fundo não muda, e ele pode ser construído usando uma média temporal do clipe inteiro. No caso de câmeras de segurança, a aparência do fundo muda no tempo devido a mudanças de iluminação, mudanças de objetos de fundo, etc. Neste caso o fundo para cada tempo pode ser computado usando uma média temporal antes e após cada quadro. Normalmente usa-se uma média de quatro minutos. Outros métodos para construção de fundo são possíveis, mesmo quando usando uma janela temporal menor [3, 19], mas a média é usada devido a sua eficácia.
[0066] As Figuras 2a a 2d mostram imagens de fundo de uma câmera de segurança no aeroporto de Stuttgart. As Figuras 2a e 2b mostram imagens diurnas enquanto as Figuras 2c e 2d são a noite. Carros estacionados e aeronaves estacionadas se tornam parte do fundo.
[0067] Usa-se uma simplificação de [22] para computar os tubos espaço-tempo representando objetos dinâmicos. Isto é feito pela combinação da subtração do fundo junto com corte mínimo para ter uma segmentação suave dos objetos de fundo. Tal como em [22], os gradientes de imagem que coincidem com os gradientes de fundo são atenuados, pois eles são menos prováveis de estarem relacionados com fronteiras de movimento. Os tubos resultantes são componentes conectados em volume espaço tempo 3D, e sua geração é brevemente descrita abaixo.
[0068] Deixemos B ser a imagem corrente de fundo e deixemos I ser a imagem corrente a ser processada. Deixamos V ser o conjunto de todos os pixels em I, e deixemos N ser o conjunto de todos os pixels pares adjacentes em I. Uma função rotuladora f rotula cada pixel r na imagem como primeiro plano (fr=1) ou fundo (fr=0). Um rotulador desejável f, usualmente minimiza a energia Gibbs [2]:
Figure img0001
em que E1(fr)é o termo de cor unário, E2(fr,fs) o termo contraste em pares entre os pixels adjacentes r e s, e /é um peso definido pelo usuário.
[0069] Como um termo de contraste em pares, usa-se a fórmula sugerida por [22]:
Figure img0002
em que
Figure img0003
é um fator de peso (<.>é a expectativa sobre as amostras de imagem), e drssão os gradientes de imagem, atenuados pelos gradientes de fundo, e dados por:
Figure img0004
[0070] Nesta equação, zrs mede a dessimilaridade entre o primeiro plano e o fundo:
Figure img0005
e K e Ozsão parâmetros, fixados em 5 e 10 respectivamente como sugerido por [22].
[0071] Como para o termo de cor unário, deixar
Figure img0006
ser a diferença de cores entre a Imagem I e o fundo corrente B. Os custos de primeiro plano (1) e de fundo (0) para um pixel r são fixados em:
Figure img0007
em que k1 e k2 são limites definidos pelo usuário. Empiricamente k1 = 30/255 e k2 = 60/255 funcionaram bem nos exemplos.
[0072] Não se usa limites mais baixos com pesos infinitos, desde que os últimos estágios do algoritmo podem manipular de forma robusta os pixels que são erroneamente identificados como de primeiro plano. Pela mesma razão, constrói-se uma máscara de todos os pixels de primeiro plano no volume espaço- tempo, e aplica-se uma dilatação morfológica 3D nesta máscara. Este fato será usado posteriormente pelo algoritmo de deformação.
[0073] Finalmente, a máscara 3D é agrupada em componentes conectados, denotados como “tubos de atividade”. As Figuras 3a a 3d mostram quatro tubos extraídos mostrados “justapostos” sobre os fundos correspondentes da Figura 2. Os tubos à esquerda correspondem aos veículos terrestres, enquanto os tubos à direita correspondem às aeronaves partindo ao fundo. As Figuras 4a e 4b mostram quadros sinopses derivados, usando dois tubos extraídos de uma cena de “Bilhar” assim retratando um grande número de jogadores temporalmente separados em um único quadro.
[0074] Cada tubo bé representado pela sua função característica
Figure img0008
em que B(x,y,t)é um pixel na imagem de fundo, I(x,y,t)é o respectivo pixel em uma imagem de entrada e tbé o intervalo de tempo no qual este objeto existe.
[0075] Outros métodos para segmentação de objetos móveis são possíveis. Por exemplo, na segmentação binária, todo elemento na imagem pode ser classificado como pertencendo a um objeto ou não pertencendo a um objeto. A segmentação também pode ser indistinta, atribuindo a cada elemento em uma imagem um grau de associação em um objeto. Abordagens adequadas são descritas em [32, 33, 34, 35]. A noção de conectividade indistinta é explicada em [33]. A segmentação indistinta é algumas vezes chamada entrelaçamento indistinto [35], e é extensivamente usado em gráficos para inserção de objetos de diferentes fundos [35]. Neste trabalho todos os objetos são tratados como binários. Entretanto, uma extensão para objetos indistinta é fácil de entender. Por exemplo, todos os elementos de funções de custo podem ser multiplicados pelos valores de associação indistinta dos elementos envolvidos. Também, quando um objeto indistinto é inserido em uma imagem, o valor de associação pode ser usado “entrelaçamento alfa”, permitindo um efeito de transparência.
ENERGIA ENTRE TUBOS
[0076] Define-se a energia de interação entre tubos. Esta energia será usada posteriormente pelo estágio de otimização, criando uma sinopse, tendo máxima atividade enquanto evita conflitos e sobreposições entre objetos. Deixar B ser fixado para todos os tubos de atividade. Cada tubo b é definido sobre um segmento de tempo finito no fluxo de vídeo original
Figure img0009
.
[0077] A sinopse do vídeo é gerada com base em um mapeamento temporal M, deslocando objetos b no tempo a partir de seu tempo original no vídeo de entrada, dentro do segmento de tempo
Figure img0010
, na sinopse do vídeo M(b) = b indica o deslocamento de tempo do tubo b dentro da sinopse, e quando b não é mapeado para a sinopse de saída
Figure img0011
. Define-se uma sinopse de vídeo ótima como a que minimiza a seguinte função de energia:
Figure img0012
em que Ea é o valor da atividade, Et é o valor de consistência temporal e Ec é o valor de colisão, todos definidos abaixo. Os pesos αe βsão fixados pelo usuário de acordo com sua importância relativa para uma indagação particular. Reduzir os valores dos pesos de colisão, por exemplo, irá resultar em um vídeo mais denso em que os objetos podem se sobrepor. Aumentar este peso irá resultar em um vídeo mais esparso em que os objetos não se sobrepõem e menos atividade é apresentada. Um exemplo para diferentes sinopses obtidas pela variação de βé dado na figura 10b.
[0078] Após extrair os tubos de atividade o valor baseado em pixel pode ser substituído com um valor baseado em objeto. Especificamente, o valor da deformação, associado com abordagem do estado da técnica, tal como debatido em [25] é substituído pelo valor de Colisão na Equação (7) (descrita abaixo). Este custo penaliza por costurar dois diferentes objetos juntos, mesmo se sua aparência é similar (por exemplo, duas pessoas). Adicionalmente, um valor de “Consistência Temporal” é definido, penalizando pela violação das relações temporais entre objetos (ou tubos). Tais características das sinopses são difíceis de expressar em termos de custos baseados em pixels.
CUSTO DE ATIVIDADE
[0079] O custo de atividade favorece filmes de sinopse com atividade máxima. Ele penaliza por objetos que não são mapeados para um tempo válido na sinopse. Quando um tubo é excluído da sinopse, no exemplo,
Figure img0013
então
Figure img0014
em que Xb(x,y,t) é afunção característica como definida na Equação (6). Para cada tubo b, cujo mapeamento
Figure img0015
é parcialmente incluído na sinopse final, define-se o custo de atividade similar a Equação (8), mas apenas pixels que não foram incluídos dentro da sinopse são adicionados ao custo de atividade.
CUSTO DE COLISÃO
[0080] Para todos os dois tubos “deslocados” e todo deslocamento de tempo relativo entre eles, define-se o valor de colisão como o volume de sua sobreposição tempo-espaço pesada por suas medições de atividade:
Figure img0016
em que
Figure img0017
é a interseção de tempo de b e b’ na sinopse do vídeo. Esta expressão dará uma penalidade baixa para pixel cuja cor é similar ao fundo, mas foi adicionado a um tubo de atividade no processo de dilatação morfológica. Mudar o peso do valor de colisão Ec muda a densidade dos objetos na sinopse do vídeo como mostrado na figura 10b.
CUsTo DE CoNsIsTÊNCIA TEMPoRAL
[0081] O custo de consistência temporal adiciona uma tendência em direção a preservação da ordem cronológica dos eventos. A preservação da ordem cronológica é mais importante para tubos que têm uma forte interação. Por exemplo - seria preferível manter o tempo relativo de duas pessoas falando uma com a outra, ou manter a ordem cronológica de dois eventos com uma relação racional. Ainda, é muito difícil detectar tais interações. Em vez disso, a quantidade de interação d(b, b’) entre cada par de tubos é estimada pela sua distância espaço-temporal como descrito abaixo:
Figure img0018
em que d(b,b’,t)é a distância Euclidiana entre o par de pixels ativos mais próximos de b e b’ no quadro t e Ospacedetermina a extensão da interação espacial entre tubos.
[0082] Se os tubos b e b’ não compartilham um tempo comum na sinopse do vídeo, e assumindo que b é mapeado para um tempo anterior a b’, sua interação diminui exponencialmente com o tempo:
Figure img0019
em que Otime é um parâmetro, definindo a extensão de tempo na qual eventos ainda são como tendo interação temporal.
[0083] O valor de consistência temporal cria uma preferência por manter as relações temporais entre objetos penalizando casos em que estasrelações são violadas:
Figure img0020
em que Cé uma penalização constante para eventos que não preservam consistência temporal.
MINIMIZAÇÃO DE ENERGIA
[0084] Visto que a função de energia global nas Equações (7) e (15) é escrita como uma soma de termos de energia definidos em tubos simples ou pares de tubos, ela pode ser minimizada por várias técnicas baseadas em MRF tais como Belief Propagation [23] ou Graph Cuts [10]. Nesta implementação, foi usado o método mais simples de recozimento simulado [9] que deu bons resultados. O recozimento simulado foi aplicado de todos os possíveis mapeamentos temporais M, incluindo o caso especial quando o tubo não é usado na sinopse do vídeo.
[0085] Cada estado descreve o subconjunto de tubos que são incluídos na sinopse, e estados vizinhos são definidos como estados nos quais um tubo de atividade única é removido ou muda seu mapeamento dentro de sinopse. Como um estado inicial usa-se o estado no qual todos os tubos são deslocados para o início do filme da sinopse. Para acelerar a computação, também é possível restringir o deslocamento temporal dos tubos para ser em saltos de 10 quadros.
SINOPSE DE VÍDEO ININTERRUPTO
[0086] Como mencionado anteriormente, milhões de webcams e câmeras de segurança estão cobrindo o mundo, capturando em seus campos de visão 24 horas por dia. Um dos problemas na utilização destas câmeras é que elas fornecem dados brutos não editados. Um filme com duas horas de duração, por exemplo, é usualmente criado de centenas ou mesmo milhares de horas de metragem de vídeo bruto. Sem edição, a maioria dos dados de webcams é irrelevante. Visualizar uma câmera em outro continente também pode ser possível apenas durante horas sem atividade devido às diferenças de zona de tempo.
[0087] Uma característica importante da presente invenção é fazer o recurso da webcam mais útil dando ao espectador a habilidade de ver sumários do vídeo ininterrupto, adicionalmente ao fluxo de vídeo ao vivo fornecido pela câmera. Um usuário pode querer assistir em cinco minutos uma sinopse de todo o conteúdo capturado durante a semana anterior. Para permitir isto, é descrito um sistema que pode ser baseado na sinopse baseada em objeto como descrito no WO2007/057893, mas inclui componentes adicionais que permitem lidar com vídeos ininterruptos.
[0088] Neste sistema, um servidor pode ver o vídeo de alimentação ao vivo, analisar o vídeo por eventos de interesse, e gravar uma descrição do vídeo baseada em objetos. Esta descrição lista para cada câmera os objetos de interesse, sua duração, localização, e sua aparência.
[0089] Um processo de duas fases é proposto para sinopse de vídeo ininterrupto: 1) Fase Em Linha durante a captura do vídeo. Esta fase é feita em tempo real. • Detecção e segmentação de objeto (tubo). • Inserção de objetos detectados na fila de objetos. • Remoção de objetos da fila quando alcançado um limite de espaço. 2) Fase de Resposta construir a sinopse de acordo com a duvida do usuário. Esta fase pode tomar alguns minutos, dependendo da quantidade de atividade no período de tempo de interesse. Esta fase inclui: • Construir um vídeo de lapso de tempo da mudança de fundo. As mudanças de fundo são usualmente causadas pelas diferenças noite-dia, mas também podem ser um resultado de um objeto que começa (para) a se mover. • Selecionar tubos que serão incluídos na sinopse de vídeo e computar uma organização temporal visualmente atrativa destes tubos. • Deformar os tubos e fundos em um vídeo coerente. Esta ação poderia levar em conta em que as atividades de tempos diferentes podem aparecer simultaneamente, e mesmo no fundo de outro tempo.
PRÉ-PROCESSAMENTO - FILTRAGEM DE QUADROS ESTACIONÁRIO
[0090] Muitas imagens e cenas de câmeras de segurança e webcams que não exibem atividade por longos períodos. Para eficácia de armazenamento, quadros correspondendo a tais períodos de tempo são comumente retirados por filtragem durante a fase em linha. O tempo original dos quadros remanescentes é gravado junto com cada quadro. Em uma implementação, os quadros foram gravados de acordo com dois critérios: (1) Uma mudança global na cena, medida pela soma da diferença do quadrado (SSD) entre o quadro entrante e o último quadro mantido. Este critério rastreia as mudanças de luz expressas por uma mudança gradual de iluminação no quadro inteiro. (2) Existência de objeto em movimento, medida pela máxima SSD em pequena janela.
[0091] Assumindo que os objetos em movimento com duração muito pequena (por exemplo, menos de um segundo) não são importantes, a atividade de vídeo pode ser medida apenas uma vez em alguns poucos quadros.
A FILA DE OBJETOS
[0092] Um dos desafios mais importantes no manuseio de vídeos ininterruptos é desenvolver um esquema para “esquecer” objetos antigos quando novos objetos chegam. O esquema ingênuo de descartar a atividade mais antiga não é bom, como um usuário pode querer buscar um sumário de uma longa duração de tempo, a qual pode incluir objetos do período inteiro. Em vez disso, é proposto um esquema alternativo que objetiva estimar a importância de cada objeto para possíveis indagações futuras, e descartar objetos desta maneira.
[0093] Todos os objetos detectados, representados como tubos no volume espaço-tempo, são armazenados em uma fila esperando indagações de usuário. Quando um objeto é inserido na fila, seu custo de atividade (Equação (8)) é computado para acelerar a futura construção da sinopse de vídeo. Como o vídeo gerado pela webcam é ininterrupto, é provável que em algum ponto do espaço alocado será exaurido, e os objetos terão que ser removidos da fila.
[0094] Quando da remoção de objetos (tubos) da fila, prefere-se remover objetos que são menos prováveis de serem incluídos em uma sinopse final. No exemplo usam-se três critérios simples que podem ser computados com eficácia: “importância” (atividade), “colisão potencial”, e “idade”. Mas outras opções são possíveis, por exemplo, quando aparência ou atividade são de interesse.
[0095] Uma medida possível para a importância de um objeto é a soma de suas funções características como definido na Equação (8).
[0096] Desde que o valor da colisão não pode ser computado antes de receber a duvida do usuário, uma estimativa para o valor da colisão dos tubos é feita usando a distribuição de atividade espacial na cena. Esta atividade espacial é representada por uma imagem que é a soma dos pixels ativos de todos os objetos em cada localização espacial, normalizados para somar a um. Uma distribuição de atividade espacial é computada para cada objeto individual (desta vez não normalizada). A correlação entre estas duas distribuições de atividades é usada como um custo de “colisão potencial” para este objeto. As Figuras 5a e 5b mostram a distribuição espacial de atividade na cena do aeroporto mostrada na Figura 2, em que a intensidade é o log do valor da atividade. A Figura 5a mostra a distribuição de atividade de um tubo único, e a Figura 5b mostra a média de todos os tubos. Como esperado, a maior atividade é na linha dos carros e na partida. O potencial de colisão de tubos é maior em regiões, tendo uma atividade maior.
[0097] Existem algumas abordagens possíveis para endereçar a remoção de objetos antigos da fila, levando em consideração a distribuição de objetos desejada na sinopse. Por exemplo, o usuário pode estar interessado a focar em eventos novos, mas deixa alguma representação para eventos antigos no caso de serem significativos. Alternativamente, a sinopse deveria ter uma representação uniforme de todo o intervalo de tempo. Por exemplo, em uma sinopse de 24 horas um usuário pode estar interessado em ver objetos de cada e toda hora se aplicável.
[0098] Nesta primeira abordagem podemos assumir que a densidade de objetos na fila deveria decrescer exponencialmente com a idade dos objetos. Por exemplo, se dividir-se o eixo de idade em intervalos discretos, o número de objetos no intervalo t’s, Nt, deveria ser proporcional a
Figure img0021
em que oé o coeficiente de deteriorização, e K é determinado para controlar o número total de objetos na fila. Quando um objeto poderia ser removido da fila, o número de objetos no intervalo em cada intervalo de tempo t é comparado a Nt. Somente objetos de intervalos de tempo t cuja população exceder Ntserão avaliados usando o custo de atividade e potencial de colisão. O objeto com mínima atividade e máxima colisão será removido.
[0099] Um exemplo de distribuição temporal de objetos chegando à fila aparece na Figura 6, a qual mostra graficamente a distribuição temporal de atividades, como medido pelo número de objetos móveis, na cena do aeroporto da Figura 2 em 29 horas. Lá estão 1920 objetos durante este período. A diminuição exponencial na fila vai resultar em uma distribuição etária a qual é proporcional a distribuição de chegada multiplicada por um exponencial de diminuição.
GERAÇÃO DA SINOPSE
[00100] A fila de objetos pode ser acessada via por uma duvida, tais como “eu gostaria de ter uma sinopse de um minuto da disseminação desta câmera durante o dia passado”. Dado o período desejado do vídeo de entrada, e o tamanho desejado da sinopse, a sinopse do vídeo é gerada usando quatro operações. (i) Gerar um fundo do vídeo. (ii) Uma vez que o fundo do vídeo está definido, um valor de consistência é computado para cada objeto a para cada tempo possível na sinopse. (iii) Uma etapa de minimização de energia determina quais tubos (objetos espaço-tempo) aparecem na sinopse e em que tempo. (iv) Os tubos selecionados são descritos nesta seção. A redução do vídeo original a uma representação baseada em objeto permite uma resposta rápida às perguntas.
[00101] Após a pergunta do usuário, uma segunda (menor) fila de objetos é gerada, tendo apenas objetos do período de tempo desejado. Para permitir uma otimização rápida, o valor de colisão na Equação (9) entre todos os dois menores objetos da fila, é computado antecipadamente.
LAPSO DE TEMPO DE FUNDO
[00102] O fundo da sinopse do vídeo é um lapso de tempo de vídeo de fundo, gerado antes da atividade de adicionar tubos à sinopse. O fundo de vídeo tem duas tarefas: (i) Ele deveria representar as mudanças do fundo ao longo do tempo (por exemplo, transições noite-dia, etc.). (ii) Ele deveria representar o fundo dos tubos de atividades. Estas duas metas são conflitantes, pois representar o fundo de tubos de atividades será mais bem feito quando o fundo do vídeo cobrir apenas períodos ativos, ignorando, por exemplo, a maioria das horas noturnas.
[00103] Busca-se este equilíbrio pela construção de duas distribuições temporais. (i) Uma distribuição de atividade temporal Ha do fluxo de vídeo como mostrado na Figura 6. (ii) Uma distribuição temporal uniforme Ht. Computa-se uma terceira distribuição temporal pela interpolação de duas distribuições temporais À. Ha+(1- À).Ht, em que À é um peso dado pelo usuário. Com À=0 o lapso de tempo de fundo de vídeo será uniforme em tempo independente das atividades, enquanto com À=1 o lapso de tempo de fundo de vídeo irá incluir o fundo apenas dos períodos ativos. O valor usual é 0,25<À<0,5.
[00104] Quadros de fundo são selecionados para lapsos de tempo de fundo de vídeo de acordo com distribuição temporal interpolada. Esta seleção é feita tal que a área do histograma entre todos dois quadros de fundo selecionados seja igual. Mais quadros são selecionados das durações de tempo ativo, enquanto não abandonados totalmente pelos períodos inativos.
[00105] Alternativamente, o fundo pode ser substituído por um fundo sintético, e os objetos serão colocados em cima deste fundo sintético.
CONSISTÊNCIA COM O FUNDO
[00106] Desde que não se assume a segmentação precisa dos objetos em movimento, prefere-se deformar tubos a imagens de fundo tendo uma aparência similar. Esta consistência do tubo para o fundo pode ser levada em conta somando um novo termo de energia Eb(M). Este termo medirá o custo de deformar um objeto ao lapso de tempo de fundo. Formalmente, deixa-se I (x, y,t) serem os valores de cor dos tubos mapeados b e deixa-se B (x, y,t) serem os valores de cor do lapso de tempo de fundo fixado:
Figure img0022
em que o(b) é o conjunto de pixels na borda do tubo de atividade mapeado b e tout é a duração da sinopse de saída. Este custo assume que cada tubo é circundado por pixels de seu fundo original (resultando da dilatação morfológica da atividade de mascaramento).
[00107] O termo de consistência de fundo na Equação (14) é adicionado à função de energia descrita na Equação (7), dando:
Figure img0023
em que α, β, y são pesos selecionados pelo usuário que são dependentes da duvida.
COSTURANDO A SINOPSE DO VÍDEO
[00108] A costura dos tubos de diferentes períodos de tempo propõe um desafio aos métodos existentes (tais como [1, 16]). Costurar todos os tubos de uma vez pode resultar em uma mistura de cores de diferentes objetos, que é um efeito indesejado. É melhor preservar as transições pronunciadas entre objetos diferentes, enquanto são eliminados as costuras apenas entre os objetos e os fundos. Uma segmentação precisa dos objetos pode resolver este problema, mas uma segmentação precisa é irrealista. Em vez disso, as fronteiras de cada tubo consistem de pixels de fundo devido à dilatação morfológica aplicada quando da geração dos tubos de atividade.
[00109] A Mistura de Imagem Poisson-α, proposta pelo [27] pode ser uma boa solução para a costura entre objetos, mas não tão boa quanto a Edição Poisson [15] para costurar os objetos ao fundo. A abordagem sugerida é usar a observação de que todos os objetos têm fundos similares (afora as mudanças de iluminação), e costurar cada tubo independentemente do lapso de tempo de fundo. Qualquer método de mistura é possível, e usou-se uma modificação da edição Poisson. Adicionou-se uma regularização que preserva a aparência original dos objetos mesmo se eles foram costurados à imagens de fundo com condições de iluminação diferentes (por exemplo, pessoas vistas durante o dia, costuras sobre um fundo do período noturno).
[00110] Também deveria ser notado que os objetos colados ao fundo não precisam ser graficamente idênticos aos objetos correspondentes no vídeo fonte. Por exemplo, pelo menos um objeto na sinopse do vídeo pode ser formado por deformação espacial do objeto ou substituição de um objeto correspondente no vídeo fonte por um símbolo ou ícone pré-determinado. Também, quando objetos são adicionados na sinopse do vídeo, o valor de pixel dos objetos pode não necessariamente substituir o valor do fundo. O novo valor pode ser uma média do fundo e do objeto, criando um efeito de transparência.
[00111] Deixe-se Q ser uma imagem com fronteira dQ. Deixe f, b ser o objeto (tubo) de fundo e pixels de cor de fundo (lapso de tempo), e deixe s serem os valores desconhecidos de objetos deformados sobre o interior de Q. O resultado da mistura Poisson com regularização é dado por:
Figure img0024
em que / é o peso do termo de regularização. No [28] foi mostrado que deformar no domínio gradiente pode ser feito muito eficientemente.
[00112] Após costurar cada tubo ao fundo, os tubos sobrepostos são misturados juntos deixando cada pixel ser uma média ponderada dos pixels correspondentes dos tubos de atividades deformadas b , com pesos proporcionais as medidas de atividades %.(x,y, t). Alternativamente, transparência pode ser evitada tornando o pixel como medida de atividade máxima em vez de média ponderada.
[00113] Pode ser possível usar ordenação por profundidade quando “tubos de objetos” são combinados, em que tubos próximos vão obstruir tubos adicionais. Um único “plano de chão” heurístico pode ser usado, assume- se que um objeto cuja posição de imagem vertical é mais baixa, também está mais próximo. Outros métodos de ordenação de profundidade incluem [29]. A freqüência de casos de oclusão de objeto depende dos pesos relativos dos valores de colisão (que evita tais casos) em respeito a outros custos.
INDEXAÇÃO
[00114] Sinopses baseadas em indexação de vídeo hierárquica objetiva fornecem um método compacto e fácil de representar e navegar no conteúdo do vídeo, usando indagações visuais, mesmo para um vídeo ininterrupto como é o caso das câmeras de segurança. A Figura 7 mostra uma arquitetura conceitual de indexação e pesquisa de vídeo hierárquico baseado em sinopse. Neste sistema assume-se que o vídeo dentro do qual a indexação é desejada, também foi selecionado, por exemplo, “última hora”, “últimas 36 horas”, etc.
[00115] Para construir o índice proposto, o vídeo primeiramente é analisado e os objetos ativos/importantes são extraídos do vídeo para gerar uma representação do vídeo baseada em objetos.
[00116] No segundo estágio da indexação os objetos são agrupados em grupos de objetos similares usando qualquer método de agrupamento. Uma forma possível de executar tal agrupamento é construir uma matriz de afinidade (similaridade) baseada em algumas medidas de similaridade entre todos os pares de objetos.
AFINIDADE (SIMILARIDADE) ENTRE OBJETOS
[00117] Uma medida de afinidade entre objetos pode ser baseada em várias características incluindo, mas não limitado a, uma correlação entre as representações espaço tempo dos objetos. Para executar medições de similaridade eficientes, os objetos que são representados como tubos 3D em uma representação espaço tempo do vídeo, podem ser primeiramente deformadas para um sistema e coordenadas comuns e um alinhamento espaço- tempo pode ser executado para superar suas possíveis diferenças de localização e escala. Tal deformação pode ser útil, pois ela resulta em uma medida de similaridade que é constante para a localização espaço-tempo dos objetos no vídeo e várias transformações projetivas. Objetos similares que têm caminhos de movimentos similares, mas em diferentes localizações no vídeo, serão considerados como similares mesmo se suas aparências originais forem diferentes por causa de efeitos de perspectiva. Medidas de afinidade adicionais podem ser o formato, tamanho ou cor dos objetos, e muitas outras medidas de similaridade possíveis como conhecido na técnica.
AGRUPAMENTO
[00118] Uma vez que a matriz de afinidade tenha sido construída, um método de agrupamento tal como [30] pode ser usado para classificar cada objeto dentro de sua classe correspondente. É importante notar que o processo de agrupamento pode também ser usado para ajudar a identificar objetos e comportamentos “irregulares”. Um objeto que não é bem agrupado a qualquer das classes pode-se suspeitar como sendo “único” ou irregular e pode ser visualizado com marcação especial no processo de geração da sinopse o qual é descrito posteriormente.
[00119] Um exemplo de tal processo automático de agrupamento dos objetos extraídos de uma seqüência de vídeo de 24 horas, tirado em um estacionamento, é ilustrado na Figura 8. Nos seis quadros retratados ali, objetos de seis classes são mostrados: (i) pessoas andando para a direita; (ii) pessoas andando para a esquerda; (iii) pessoas andando próximas ao edifício; (iv) carros se movendo para a direita; (v) carro se movendo para a esquerda; (vi) carros entrando ou saindo do estacionamento.
[00120] Alternativamente, pode ser usado agrupamento probabilístico por meio do qual em vez de ter uma decisão difícil como, qual objeto pertence a qual classe, um vetor de probabilidade pode ser definido para cada objeto e as diferentes classes. Isto pode ser usado no processo de indexação hierárquico. Por exemplo, um objeto pode ser associado com mais do que uma classe se ele se adapta bem a estas classes. Ele pode também ser usado no caso em que é detectada atividade irregular como manifestado por um objeto que tem probabilidades substancialmente iguais de pertencer a classes diferentes.
ÍNDICE HIERÁRQUICO
[00121] Uma vez que os agrupamentos estão determinados, e os objetos estão agrupados dentro de grupos, uma coleção de seqüências de sinopses de vídeo hierárquica para indexação pode ser gerada baseada neste agrupamento (Sinopses de Grupos - SFC).
[00122] Uma possível indexação hierárquica poderia primeiramente apresentar ao usuário uma “sinopse de alto nível”: uma sinopse do vídeo contendo apenas uns poucos representantes de cada grupo. Por exemplo, dos grupos mostrados na Figura 8, a sinopse de “alto nível” pode representar um objeto de cada classe: um carro se movendo para a direita, um carro se movendo para a esquerda, uma pessoa andando para a direita, uma pessoa andando para a esquerda, etc. Um único quadro de tal sinopse pode ser visto na Figura 9, em que representantes de diferentes grupos são apresentados simultaneamente. O usuário pode selecionar uma classe inteira de objetos, selecionando um dos objetos na sinopse de “alto nível”. Esta seleção resultará em apresentar ao usuário uma sinopse do vídeo mostrando apenas objetos do grupo selecionado.
[00123] A sinopse de “alto nível pode ser usada como uma ferramenta de indexação interativa para chegar a cada objeto desejado ou atividade no vídeo original. Uma vez o usuário tendo selecionado um grupo específico ou coleção de grupos, a próxima sinopse na hierarquia é exibida. Tal sinopse irá conter mais representantes, ou mesmo todos os objetos daqueles grupos. Neste estágio o usuário pode especificar seu objeto desejado e chegar a seu tempo original no vídeo de entrada. No caso em que há muitos objetos em cada classe, e é difícil de gerar uma sinopse curta, é possível adicionar mais níveis a hierarquia e gerar alguns subgrupos de cada grupo original. Por exemplo, selecionar o grupo “carros se movendo para a direita” pode gerar dois subgrupos de caminhões e sedans. Neste caso será necessário selecionar um dos subgrupos antes de chegar ao resultado final da pesquisa, mostrando uma sinopse com a maioria dos objetos originais.
[00124] Tal abordagem fornece uma pesquisa muito rápida e ferramenta de indexação dentro de um vídeo muito grande a qual é baseada em indagações visuais e habilita todos os objetos e atividades no vídeo original a serem achados em um tempo razoável.
EXEMPLOS
[00125] Foram testadas sinopses de vídeo em poucos fluxos capturados da Internet. Como a taxa de quadros não é constante pela Internet, e os quadros se perdem periodicamente, quando se usou uma vizinhança temporal não se contou o número de quadros, mas usou-se o tempo total da cada quadro.
[00126] As Figuras 10 e 12 são de câmeras colocadas externamente, enquanto a Figura 11 é de uma câmera colocada internamente com iluminação constante. Na maioria dos exemplos o principal “interesse” de cada tubo foi o número de pixels se movendo nele.
[00127] As Figuras 10a e 10b mostram o efeito da escolha do custo de colisão da densidade dos objetos na sinopse de vídeo. A Figura 10 mostra um quadro de uma sinopse de 20 segundos de um vídeo capturado por 24 horas no aeroporto de Stuttgart. A Figura 10b mostra que reduzindo a “penalidade de colisão” na função de custo, aumenta substancialmente a densidade de objetos, desse modo permitindo mais sobreposição entre objetos. A Figura 12 mostra preferências baseadas em formas. Na Figura 12a a função de custo regular foi usada, e os objetos maiores (carros se movendo) foram preferidos. Na Figura 12b objetos pequenos, escuros foram preferidos, mostrando uma atividade de pedestres completamente diferentes. A Figura 11 mostra um quadro de uma pequena sinopse de um vídeo capturado por 9 horas em um clube de bilhar. Notam-se os múltiplos jogadores por mesa na sinopse.
FUNÇÕES DE ENERGIA CUSTOMIZADAS
[00128] Na maioria dos casos nem todos os objetos são de interesse. Uma câmera de segurança de tráfego pode estar interessada apenas em carros, enquanto outra aplicação pode preferir pedestres. A filtragem dos objetos pode ser feita em vários lugares. Os objetos podem ser excluídos na filtragem antes de entrar na fila, e neste caso nunca será possível recuperá-los. Alternativamente, os objetos podem ser filtrados apenas no estágio de indagação. Neste caso a fila incluirá todos os objetos, e diferentes indagações podem extrair diferentes objetos da fila. Também é possível criar uma função de energia customizada para cada aplicação.
[00129] Um exemplo simples de customização é mostrado na Figura 12b, em que apenas objetos pequenos, escuros foram selecionados da fila. Enquanto a sinopse original inclui principalmente os carros, a nova sinopse inclui principalmente pedestres. Outro exemplo aparece na Figura 13, em que a função de energia inclui o elemento de uma “transição de fase” quando um objeto em movimento para e se torna parte do fundo. A Figura 13a mostra um quadro de uma pequena sinopse tirada em cinco horas de uma webcam assistindo um estacionamento calmo. Um alto escore foi dado para transições de fase (por exemplo, objetos em movimento que param e se tornam parte do fundo). A sinopse de vídeo inclui principalmente carros envolvidos em estacionar. A Figura 13b mostra uma sinopse alternativa em que os objetos sem transição de fase são preferidos, assim apenas carros de passagem e pedestres são mostrados.
ESPECIFICAÇÃO DA SINOPSE
[00130] Existem uns poucos esquemas para especificar a duração e qualidade da sinopse de vídeo. (a) Deixa-se o usuário especificar a duração desejada da sinopse do vídeo e a penalidade por colisão de objetos. Neste caso, o estágio de otimização irá maximizar a quantidade de atividade que pode ser incluída na sinopse sob as restrições especificadas. (b) Deixa-se o usuário especificar a duração desejada da sinopse de vídeo e a percentagem de atividade a ser incluída na mesma. O estágio de otimização irá gerar uma sinopse do vídeo tendo um mínimo de colisões sob as restrições especificadas. (c) deixa-se o usuário especificar a percentagem permitida de objetos perdidos e a penalidade por colisão de objetos. O estágio de otimização irá minimizar a duração da sinopse sob as restrições especificadas.
[00131] Nas experimentações foi implementada a opção (a), em que a duração da sinopse de vídeo foi determinada pelo usuário como uma restrição dura. Os vídeos de segurança podem preferir as opções (b) ou (c), assegurando que a maioria dos objetos será representada na sinopse
MUDANÇAS DE VELOCIDADE BASEADAS EM OBJETOS
[00132] Avanço rápido é a ferramenta mais comum usada para a sumarização de vídeo, e sempre tem sido aplicada a quadros inteiros. Por exemplo, vídeos por “lapso de tempo” exibem em um pequeno tempo processos como o crescimento de flores, etc. Alguns métodos correntes sugerem um avanço rápido adaptativo [12, 18, 4], mas ainda estão limitados a estrutura de quadros inteiros. Com a sinopse de vídeo cada objeto pode ter seu próprio “avanço rápido” baseado em sua importância, ou baseado em sua velocidade original. Objetos lentos podem ser acelerados, mas não os objetos rápidos. Alternativamente a mudança de velocidade de objetos pode ser executada pela amostragem de pixels de um objeto em alguns períodos de tempo selecionados.
[00133] Se o número de períodos de tempo selecionados é menor do que o número de quadros no tubo, o efeito geral é que o objeto é acelerado. Se o número de períodos de tempo selecionado é maior do que o número de quadros no tubo, o objeto tem a velocidade diminuída. Alternativamente, a mudança de velocidade dos objetos pode ser determinada durante o estágio de otimização, dando alguma penalidade às mudanças de velocidade dos objetos. Adicionar mudanças de velocidade baseadas em objetos ao estágio de otimização pode adicionalmente aumentar a taxa de compressão temporal da sinopse do vídeo, à custa de aumentar a complexidade da otimização.
[00134] Mudanças de velocidade de um objeto podem ser executadas pela amostragem de pixels de um objeto em alguns períodos de tempo selecionados. Se o número de períodos de tempo selecionados é menor do que o número de quadros no tubo, o efeito geral é que o objeto é acelerado. Se o número de períodos de tempo selecionado é maior do que o número de quadros no tubo, o objeto é tem a velocidade diminuída. Quando um período de tempo selecionado não cai exatamente em um quadro, o pixel neste tempo pode ser interpolado com os próximos pixels nos próximos quadros mais próximos em tempo do tempo selecionado. Qualquer método de interpolação possível pode ser utilizado.
TRANSIÇÕES DE FASE PRIMEIRO PLANO - FUNDO
[00135] As transições de fase ocorrem quando um objeto em movimento torna-se estacionário e incorpora-se ao fundo, ou quando um objeto estacionário começa a se mover. Exemplos são carros sendo estacionados ou saindo do estacionamento. Na maioria dos casos as transições de fase são eventos significativos, e cada transição de fase é detectada e marcada para uso no estágio de indagação.
[00136] É possível localizar transições de fase, procurando mudanças no fundo que correspondem ao início e fim de tubos. Desde que transições de fase correspondem a mudanças no fundo, a deformação de transições de fase dentro do fundo deveria ter atenção especial. Dois efeitos podem ocorrer na sinopse do vídeo quando transições de fase não são inseridas no fundo no tempo correto. (i) Objetos de fundo vão aparecer e desaparecer sem razão causando um efeito oscilante. (ii) Objetos em movimento vão desaparecer quando pararem de se mover, em vez de se tornarem parte do fundo. Para minimizar tais efeitos na sinopse do vídeo, as transições de fase poderiam ser inseridas dentro do lapso de tempo, de fundo em um tempo que corresponde ao seu tempo original.
HARDWARE DO SISTEMA
[00137] Referenciando a Figura 14, lá é mostrado um diagrama de bloco de um sistema 10 de acordo com a invenção para geração de uma sinopse de vídeo de uma fonte de vídeo capturada de uma câmera 11. O sistema 10 inclui uma memória de vídeo 12 para armazenar um subconjunto de quadros de vídeo da primeira fonte de vídeo que mostra o movimento de pelo menos um objeto compreendendo uma pluralidade de pixels localizados nas respectivas coordenadas x, y. Um pré-processador 13 processa o vídeo capturado em linha. O pré-processador pode incluir uma unidade de alinhamento14 para pré-alinhar os quadros de vídeo. Neste caso, a câmera 11 será acoplada a unidade de alinhamento 14 para assim armazenar os quadros de vídeo pré-alinhados na memória de vídeo 12. A unidade de alinhamento pode operar por: computar parâmetros de movimento da imagem entre quadros no vídeo fonte; costurar os quadros de vídeo no vídeo fonte, para que os objetos estacionários na imagem da cena sejam estacionários no vídeo.
[00138] O pré-processador 13 inclui um detector de objetos fonte 15 que detecta objetos no vídeo fonte e enfileira os objetos detectados em uma memória de objetos 16. Como notado acima, quando um objeto é inserido na fila, seu custo de atividade (Equação (8)) é computado para acelerar a futura construção da sinopse do vídeo, isto também é feito pelo pré-processador 13. Deve ser entendido que o pré-processador 13 é mostrado em atenção à totalidade em virtude de seu uso quando criando uma sinopse do vídeo de uma fonte de vídeo ininterrupta. A invenção também contempla um sistema reduzido sem o pré-processador 13 que é adaptado para ser acoplada a memória de objeto 16 para manipular a fila de objetos, para assim criar uma sinopse do vídeo de acordo com critérios definidos. Tal sistema é realizado pelos componentes remanescentes na Figura 14, como será descrito.
[00139] Desta maneira, uma interface de usuário 17 é acoplada a memória de objeto 16 para permitir a definição de restrições definidas pelo usuário. Tais restrições podem ser usadas, por exemplo, para definir uma janela de tempo para ser sumarizada dentro do vídeo fonte. Ela também pode ser usada para definir a duração requerida da sinopse do vídeo. A interface do usuário 17 também é usada para selecionar objetos ou classes de objetos para propósito de indexação. Será apreciado que as restrições também podem ser pré-definidas, casos nos quais algumas realizações da invenção não irão requerer a interface de usuário 17.
[00140] Um seletor de objeto fonte 18 é acoplado à memória de objeto 16, para selecionar de um subconjunto pelo menos três diferentes objetos fontes de acordo com as restrições definidas pelo usuário ou a restrições default definidas pelo sistema. Cada um dos diferentes objetos fonte é um subconjunto conectado de pontos de imagem de pelo menos três quadros diferentes do vídeo fonte. Uma unidade de agrupamento 19 pode ser opcionalmente ser acoplado ao seletor de objeto fonte 18 para agrupar objetos de acordo com critérios definidos, os quais podem ser especificados pelo usuário usando a interface de usuário 17. Um amostrador de objetos de sinopse 20 é acoplado ao seletor de objetos fonte 18 ou a unidade de agrupamento 19 quando fornecida, para tirar amostras de um ou mais objetos de sinopse, de cada objeto fonte selecionado, por seleção temporal usando pontos de imagem derivados de alguns quadros selecionados. O “amostrador” pode ser usado para mudar a velocidade de objetos individuais. Um gerador de quadros 21 inclui um seletor de grupos 22 que permite apenas grupos selecionados serem incluídos na sinopse do vídeo. O gerador de quadros 21 também inclui um seletor de tempo 23 para selecionar para cada objeto de sinopse um tempo respectivo para iniciar sua exibição na sinopse do vídeo. O gerador de quadros 21 adicionalmente inclui uma unidade de transformação de cor 24 para selecionar para cada objeto de sinopse e cada quadro uma respectiva transformação de cor para exibir o objeto de sinopse. Opcionalmente, o gerador de quadros 21 pode incluir uma unidade de deformação 25 para deformar espacialmente os objetos antes de deformá-los na sinopse do vídeo. Dentro do contexto da descrição e das reivindicações anexas, o termo “deformar” tem a intenção de incorporar qualquer edição espacial de um objeto. Como notado acima, isto pode incluir substituir um objeto em sua inteireza por outro objeto tal como um ícone; ou pode simplesmente envolver leves efeitos de ajustes geométricos a um objeto antes que ele seja deformado na sinopse do vídeo. Uma unidade de costura 26 dentro do gerador de quadros 21 costura os objetos de sinopse com cor transformada selecionados para assim gerar sucessivos quadros da sinopse do vídeo. Os quadros da sinopse do vídeo são armazenados em uma memória de quadros de sinopse 27 para processamento subseqüente ou exibição por uma unidade de exibição 28 que exibe os objetos deslocados temporalmente em seus tempos especificados e cores transformadas.
[00141] O sistema 10 pode na prática ser realizado por um computador programado adequado tendo um cartão gráfico ou estação de trabalho e periféricos adequados, todos como são bem conhecidos na técnica.
[00142] A Figura 15 é um diagrama de fluxo mostrando a principal operação realizada pelo sistema 10 de acordo com uma realização da invenção.
NOTAS DE CONCLUSÃO
[00143] A sinopse baseada em objetos pode ser usada para criar um vídeo curto que é uma sinopse de um fluxo de vídeo ininterrupto, tal como gravado por câmeras de segurança. O método inclui duas fases. Na fase de entrada, a qual é executada em tempo real, o fluxo de vídeo é analisado e objetos de interesse são detectados e segmentados de seus fundos. Enquanto uma função de interesse em objeto baseada em movimento foi descrita, qualquer outra abordagem para a detecção, reconhecimento e segmentação de objeto pode ser usada para a geração de “tubos” - as representações espaço-tempo 3D de cada objeto.
[00144] O gerenciamento de fila é necessário para transpor a lacuna entre vídeo infinito e armazenamento finito, a para permitir respostas rápidas a indagações do usuário. Algumas metodologias têm sido descritas para determinar quais objetos deveriam ser removidos da fila uma vez que ela fique cheia, mas outras metodologias são possíveis. Mesmo uma seleção randômica dos objetos para remoção da fila pode funcionar bem.
[00145] A segunda fase ocorre após a indagação de o usuário ser conhecida. Um subconjunto da fila é extraído baseado no período de interesse, e os tubos de objetos são organizados (por deslocamentos temporais) para gerar a sinopse de vídeo ótima. Este estágio, o qual requer computação fora de linha, entrega a sinopse do vídeo ao usuário.
[00146] Alguns aspectos muito interessantes dizem respeito à periodicidade no fundo. Períodos noite-dia são particularmente receptivos à detecção. Na maioria dos casos quando uns poucos dias são cobertos por uma única sinopse, o lapso de tempo de fundo pode cobrir apenas um único dia, enquanto as atividades virão de todos os dias. Esta poderia ser uma opção dada ao usuário especificando a indagação.
[00147] Será entendido que referência a “pontos de imagem” a menos que especificamente limitados a segmentação binária, entende-se abranger também pontos de imagem como determinados por interpolação ou por métodos de segmentação não binária tal como segmentação indistinta.
[00148] Também deve ser entendido que quando um vídeo fonte é monocromático, a unidade de transformação de cor pode ser usada para determinar uma transformação de escala de cinza apropriada para ser aplicada aos objetos de sinopse selecionados antes de costurá-los. Portanto, dentro do contexto das reivindicações anexas, o termo “cor” não tem a intenção de ser limitado apenas a RGB, mas também pode ser monocromático.
[00149] Também deveria ser notado que a transformação de cor ou escala de cinza é apenas um tipo de transformação que pode ser aplicado aos objetos de sinopse selecionados antes de deformar. Como explicado acima, é particularmente benéfico quando gerando uma sinopse do vídeo de uma fonte de vídeo que se estende por uma longa duração para assegurar consistência do fundo. Mas isto pode ser menos crítico quando uma sinopse de vídeo é derivada de uma fonte de vídeo na qual a cor de fundo é suficientemente constante durante a janela de tempo requerida.
[00150] Também será entendido que o sistema de acordo com a invenção pode ser um computador programado adequado. Da mesma maneira, a invenção contempla um programa de computador sendo lido por um computador para executar o método da invenção. A invenção contempla adicionalmente uma memória legível por máquina tangível incluindo um programa de instruções executáveis pela máquina para executar o método da invenção.

Claims (34)

1. MÉTODO PARA GERAR UMA SINOPSE DO VÍDEO DE UMA FONTE DE FLUXO DE VÍDEO ININTERRUPTA COMO A GERADA POR UMA CÂMERA DE SEGURANÇA DE VÍDEO, sendo que o método é caracterizado por compreender as etapas de: receber em tempo real descrições de pelo menos três diferentes objetos fonte no fluxo de vídeo fonte, cada objeto fonte sendo um subconjunto conectado de pontos de imagem de pelo menos três quadros diferentes do fluxo de vídeo fonte; manter continuamente uma fila das descrições baseadas em objeto de pelo menos três objetos de fontes diferentes em uma fonte de vídeo, em que as descrições compreendem para cada respectivo objeto fonte, sua duração e localização em cada quadro; selecionar um subconjunto de pelo menos três objetos fonte da fila baseado em um critério determinado, e retirar amostras de um ou mais objetos de sinopse de cada objeto fonte selecionado por amostragem temporal; determinar para cada objeto de sinopse um respectivo tempo de exibição para iniciar sua exibição na sinopse do vídeo; e gerar uma sinopse do vídeo, exibindo objetos de sinopse selecionados ou objetos derivados destes, cada um em seu respectivo tempo de exibição pré-determinado; pelo menos três objetos de sinopse que são exibidos simultaneamente na sinopse do vídeo serem gerados a partir dos objetos fonte que são capturados em tempos diferentes na fonte de vídeo, e em que dois ou mais objetos de sinopse são gerados a partir de objetos fonte que são capturados simultaneamente na fonte de vídeo com uma sobreposição temporal entre eles, sendo exibidos na sinopse de vídeo com sobreposição temporal entre eles, que é diferente da sobreposição temporal específica ou sem sobreposição temporal entre eles, e sendo exibidos em tempos diferentes na sinopse do vídeo; em que os objetos fonte são selecionados da fila e um respectivo tempo para iniciar a exibição de cada objeto de sinopse é determinado para otimizar uma função de custo para costurar o objeto de sinopse na sinopse do vídeo; e selecionar objetos de sinopse para os quais a função de custo é considerada tão perto do ótimo quanto possível.
2. MÉTODO, de acordo com a reivindicação 1, caracterizado por incluir adicionalmente as etapas de: determinar para cada objeto de sinopse e cada quadro na sinopse do vídeo uma respectiva transformação de cor para exibir o objeto de sinopse; e exibir os objetos de sinopse selecionados ou os objetos derivados destes em sua respectiva transformação de cor.
3. MÉTODO, de acordo com a reivindicação 1, caracterizado pelo objeto ser um objeto de fundo.
4. MÉTODO, de acordo com a reivindicação 3, caracterizado por incluir a etapa de costurar os objetos e o fundo em um vídeo sem emendas.
5. MÉTODO, de acordo com qualquer uma das reivindicações 1 a 4, caracterizado pelo objeto de fundo ser gerado sinteticamente.
6. MÉTODO, de acordo com qualquer uma das reivindicações 1 a 5, caracterizado por cada objeto na sinopse do vídeo apontar para um segmento de tempo no fluxo de fonte de vídeo em que o respectivo objeto é visível.
7. MÉTODO, de acordo com a reivindicação 6, caracterizado pela seleção de um objeto fazer com que o segmento de tempo no fluxo de vídeo fonte apontado pelo objeto selecionado seja exibido.
8. MÉTODO, de acordo com qualquer uma das reivindicações 1 a 7, caracterizado por pelo menos um objeto na sinopse do vídeo ser formado pela substituição de um objeto correspondente no fluxo de vídeo fonte por um símbolo pré-determinado.
9. MÉTODO, de acordo com qualquer uma das reivindicações 1 a 8, caracterizado pelos objetos serem primeiro agrupados em classes similares, e a sinopse do vídeo incluir objetos de pelo menos um número pré- determinado de classes.
10. MÉTODO, de acordo com qualquer uma das reivindicações 1 a 9, caracterizado pelos objetos serem primeiro agrupados em classes similares, e os objetos de pelo menos uma classe selecionada deixam de ser exibidos.
11. MÉTODO, de acordo com qualquer uma das reivindicações 6 a 7, caracterizado pelos objetos serem primeiro agrupados em classes similares e a seleção de um objeto aponta para uma sinopse do vídeo que inclui apenas objetos da mesma classe do objeto selecionado.
12. MÉTODO, de acordo com qualquer uma das reivindicações 1 a 11, caracterizado pela etapa de seleção de pelo menos três objetos fonte não sobrepostos da fila incluir subetapas de filtrar os objetos fonte baseado nas restrições definidas pelo usuário e limitar os objetos fonte filtrados aos objetos filtrados que aparecem dentro de uma janela de tempo especificada.
13. MÉTODO, de acordo com qualquer uma das reivindicações 1 a 12, caracterizado pela etapa de selecionar pelo menos três objetos fonte não sobrepostos, incluir uma subetapa de determinar um escore de interesse.
14. MÉTODO, de acordo com a reivindicação 13, caracterizado pelo escore de interesse ser uma medida de atividade.
15. MÉTODO, de acordo com qualquer uma das reivindicações 1 a 14, caracterizado pela sinopse do vídeo conter todos os objetos de interesse do fluxo de vídeo fonte.
16. MÉTODO, de acordo com qualquer uma das reivindicações 1 a 14, caracterizado por um número de objetos de interesse no fluxo de vídeo fonte que aparecem também na sinopse do vídeo ser uma troca entre maximizar o número ao mesmo tempo em que mantém o apelo visual da sinopse do vídeo.
17. MÉTODO, de acordo com qualquer uma das reivindicações 1 a 16, caracterizado pelo fluxo de vídeo fonte ser capturado por uma única câmera.
18. MÉTODO, de acordo com a reivindicação 17, caracterizado por incluir manter a única câmera em uma localização fixa.
19. MÉTODO, de acordo com a reivindicação 18, caracterizado pela câmera ser rotacionada em relação a um eixo geométrico na localização fixa.
20. MÉTODO, de acordo com qualquer uma das reivindicações 1 a 19, caracterizado por incluir uma etapa de deformação espacial de pelo menos um dos objetos de sinopse antes de exibir o mesmo.
21. MÉTODO, de acordo com qualquer uma das reivindicações 1 a 20, caracterizado por incluir uma etapa de pré-alinhar o fluxo de vídeo fonte para produzir um fluxo de vídeo fonte estabilizado por meio das subetapas de: (a) computar parâmetros de movimento de imagem entre quadros no fluxo de vídeo fonte; e (b) costurar os quadros de vídeo no fluxo de fonte de vídeo para que os objetos estacionários apareçam estacionários no fluxo de fonte de vídeo estabilizado.
22. MÉTODO, de acordo com qualquer uma das reivindicações 1 a 21, caracterizado por ser usado para vídeo de segurança.
23. MÉTODO, de acordo com qualquer uma das reivindicações 1 a 21, caracterizado por ser usado para pelo menos um dentre o grupo definido por: indexação de vídeo, navegação de vídeo e recuperação de vídeo.
24. MÉTODO, de acordo com a reivindicação 23, caracterizado por incluir uma etapa de manter um ponteiro para os pixels na sinopse do vídeo para os pixels correspondentes no fluxo de fonte de vídeo.
25. SISTEMA (10) PARA GERAR UMA SINOPSE DO VÍDEO DE UMA FONTE DE FLUXO DE VÍDEO ININTERRUPTA COMO A GERADA POR UMA CÂMERA DE SEGURANÇA DE VÍDEO, o sistema caracterizado por compreender: um seletor de objetos fonte (18) adaptado para ser acoplado a uma memória de objeto (16) que armazena e mantém continuamente uma fila de descrições baseadas em objeto de pelo menos três objetos fonte diferentes em uma fonte de vídeo, em que as descrições compreendem para cada respectivo objeto fonte, sua duração e localização; o seletor de objetos fonte (18) configurado para selecionar um subconjunto pelo menos três objetos fonte da fila de acordo com um ou mais critérios definidos, cada objeto fonte sendo um subconjunto conectado de pontos de imagem de pelo menos três quadros diferentes do fluxo de vídeo fonte; um amostrador de objetos de sinopse (20) acoplado ao seletor de objetos fonte (18) e configurado para tirar amostras de um ou mais objetos de sinopse de cada objeto fonte selecionado por amostragem temporal usando pontos de imagem derivados dos períodos de tempo especificados; uma unidade de seleção de tempo (23) acoplada ao amostrador de objetos e configurada para determinar para cada objeto de sinopse um respectivo tempo de exibição para iniciar sua exibição na sinopse do vídeo; uma unidade de costura (26) acoplada à unidade de seleção de tempo (23) para costurar os objetos de sinopse selecionados ou objetos derivados destes, cada um em seu determinado tempo de exibição para gerar sucessivos quadros da sinopse do vídeo, de modo que, nos quadros de sinopse do vídeo, pelo menos três pontos, em que cada um deriva respectivamente de um tempo diferente na fonte de fluxo de vídeo, são exibidos simultaneamente; e uma memória de quadros de sinopse (27) acoplada à unidade de costura (26) para armazenar os quadros da sinopse de vídeo; pelo menos três objetos de sinopse que são exibidos simultaneamente na sinopse de vídeo, serem gerados a partir de objetos de fonte que são capturados em tempos diferentes na fonte de vídeo, e em que dois ou mais objetos de sinopse que são gerados a partir de objetos de fonte capturados simultaneamente na fonte de vídeo com uma sobreposição temporal entre eles, sendo apresentados no vídeo de sinopse com sobreposição de tempo entre estes, sendo diferente da sobreposição temporal específica ou sem sobreposição temporal entre eles; em que os objetos fonte são selecionados da fila e um respectivo tempo para iniciar a exibição de cada objeto de sinopse é determinado para otimizar uma função de custo para costurar o objeto de sinopse na sinopse do vídeo; e em que os objetos de sinopse são selecionados para os quais a função de custo é considerada tão perto do ótimo quanto possível.
26. SISTEMA, de acordo com a reivindicação 25, caracterizado por incluir adicionalmente uma unidade de exibição (28) acoplada à unidade de deformação (25) para exibir uma sinopse do vídeo.
27. SISTEMA, de acordo com qualquer uma das reivindicações 25 a 26, caracterizado por incluir uma unidade de transformação de cor (24) acoplada à unidade de seleção de tempo (23) para determinar para cada objeto de sinopse e cada quadro uma respectiva transformação de cor para exibir o objeto de sinopse; a unidade de costura (26) é acoplada à unidade de transformação de cor (24) para costurar os objetos de sinopse selecionados ou objetos derivados destes em suas respectivas transformações de cores.
28. SISTEMA, de acordo com qualquer uma das reivindicações 25 a 27, caracterizado por incluir adicionalmente uma interface de usuário (17) acoplada à memória de objeto (16) para permitir a definição de restrições definidas pelo usuário.
29. SISTEMA, de acordo com qualquer uma das reivindicações 25 a 28, caracterizado por incluir adicionalmente uma unidade de agrupamento (19) para agrupar objetos de acordo com um critério definido.
30. SISTEMA, de acordo com qualquer uma das reivindicações 25 a 29, caracterizado por incluir adicionalmente um pré-processador (13) para processar vídeo capturado em linha para detectar os objetos no fluxo de vídeo fonte, o pré-processador (13) sendo adaptado para acoplar a memória de objeto (16) para armazenar os objetos.
31. SISTEMA, de acordo com a reivindicação 30, caracterizado pelo pré-processador (13) incluir uma unidade de alinhamento (14) para pré- alinhar os quadros de vídeo no fluxo de vídeo fonte.
32. SISTEMA, de acordo com a reivindicação 31, caracterizado pela unidade de alinhamento (14) ser adaptada para: computar parâmetros de movimento de imagem entre quadros na primeira sequência; e costurar os quadros de vídeo na primeira sequência para que objetos estacionários na primeira cena dinâmica estejam estacionários no vídeo.
33. SISTEMA, de acordo com qualquer uma das reivindicações 25 a 32, caracterizado pelo gerador de quadros incluir uma unidade de deformação (25) para deformar espacialmente pelo menos um objeto antes de costurá-lo à sinopse do vídeo.
34. SISTEMA, de acordo com qualquer uma das reivindicações 25 a 33, caracterizado por ser adaptado para pelo menos um dentre o grupo definido por: indexação de vídeo, navegação de vídeo e recuperação de vídeo.
BRPI0720802-2A 2007-02-01 2007-12-09 Método e sistema para gerar uma sinopse de vídeo de uma fonte de fluxo de vídeo ininterrupta como a gerada por uma câmera de segurança de vídeo BRPI0720802B1 (pt)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US89869807P 2007-02-01 2007-02-01
US60/898,698 2007-02-01
US91183907P 2007-04-13 2007-04-13
US60/911,839 2007-04-13
US97158207P 2007-09-12 2007-09-12
US60/971,582 2007-09-12
PCT/IL2007/001520 WO2008093321A1 (en) 2007-02-01 2007-12-09 Method and system for video indexing and video synopsis

Publications (2)

Publication Number Publication Date
BRPI0720802A2 BRPI0720802A2 (pt) 2014-03-11
BRPI0720802B1 true BRPI0720802B1 (pt) 2021-10-19

Family

ID=39261922

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0720802-2A BRPI0720802B1 (pt) 2007-02-01 2007-12-09 Método e sistema para gerar uma sinopse de vídeo de uma fonte de fluxo de vídeo ininterrupta como a gerada por uma câmera de segurança de vídeo

Country Status (9)

Country Link
US (2) US8311277B2 (pt)
EP (2) EP2119224A1 (pt)
JP (1) JP5355422B2 (pt)
KR (1) KR101456652B1 (pt)
CN (1) CN101689394B (pt)
AU (1) AU2007345938B2 (pt)
BR (1) BRPI0720802B1 (pt)
CA (1) CA2676632C (pt)
WO (1) WO2008093321A1 (pt)

Families Citing this family (131)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10271017B2 (en) * 2012-09-13 2019-04-23 General Electric Company System and method for generating an activity summary of a person
US8949235B2 (en) 2005-11-15 2015-02-03 Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. Methods and systems for producing a video synopsis using clustering
DK1955205T3 (da) 2005-11-15 2012-10-15 Yissum Res Dev Co Metode og system til produktion af en videosynopsis
CA2676632C (en) 2007-02-01 2017-11-07 Yissum Research Development Company Of The Hebrew University Of Jerusalem Method and system for video indexing and video synopsis
US8666590B2 (en) * 2007-06-22 2014-03-04 Inthinc Technology Solutions, Inc. System and method for naming, filtering, and recall of remotely monitored event data
KR100919247B1 (ko) * 2008-03-12 2009-09-30 중앙대학교 산학협력단 파노라마 영상 생성장치 및 방법, 그리고 이를 이용한 객체추적장치 및 방법
FR2935498B1 (fr) * 2008-08-27 2010-10-15 Eads Europ Aeronautic Defence Procede d'identification d'un objet dans une archive video.
CN101370126B (zh) 2008-09-24 2012-02-08 中兴通讯股份有限公司 一种监控录像的播放控制方法及系统
EP2224357A1 (en) 2009-02-27 2010-09-01 BRITISH TELECOMMUNICATIONS public limited company Video segmentation
US9497386B1 (en) * 2009-09-22 2016-11-15 Altia Systems Inc. Multi-imager video camera with automatic exposure control
US8787618B2 (en) * 2010-04-13 2014-07-22 Sony Corporation Content information processing device, content information processing method, content information processing program, and personal digital assistant
US8599316B2 (en) * 2010-05-25 2013-12-03 Intellectual Ventures Fund 83 Llc Method for determining key video frames
CN101887459B (zh) * 2010-06-28 2012-07-11 中国科学院计算技术研究所 网络视频话题检测的方法及其系统
DE102010031429A1 (de) 2010-07-16 2012-01-19 Robert Bosch Gmbh Verfahren zum Bereitstellen eines Kombinations-Videos
US9361523B1 (en) * 2010-07-21 2016-06-07 Hrl Laboratories, Llc Video content-based retrieval
US9171578B2 (en) * 2010-08-06 2015-10-27 Futurewei Technologies, Inc. Video skimming methods and systems
US20120162412A1 (en) * 2010-12-22 2012-06-28 Electronics And Telecommunications Research Institute Image matting apparatus using multiple cameras and method of generating alpha maps
WO2012089262A1 (en) * 2010-12-29 2012-07-05 Tele Atlas Polska Sp.Z.O.O Method and apparatus for use in forming an image
US8773532B2 (en) * 2011-06-13 2014-07-08 Alcatel Lucent Video surveillance system integrating real and logical video streams
US20130063556A1 (en) * 2011-09-08 2013-03-14 Prism Skylabs, Inc. Extracting depth information from video from a single camera
RU2471231C1 (ru) 2011-09-30 2012-12-27 Общество с ограниченной ответственностью "Ай Ти Ви групп" Способ поиска объектов в последовательности изображений, полученных от стационарной видеокамеры
TWI495339B (zh) * 2011-11-11 2015-08-01 Univ Nat Cheng Kung 摘要影像的製造方法
US8719687B2 (en) 2011-12-23 2014-05-06 Hong Kong Applied Science And Technology Research Method for summarizing video and displaying the summary in three-dimensional scenes
US9077932B2 (en) * 2012-04-06 2015-07-07 Realtek Semiconductor Corp. Multimedia system, relevant multimedia information display device and multimedia information transmission method
CN102708182B (zh) * 2012-05-08 2014-07-02 浙江捷尚视觉科技有限公司 一种快速视频浓缩摘要方法
US8787730B2 (en) * 2012-05-21 2014-07-22 Yahoo! Inc. Creating video synopsis for use in playback
US9274678B2 (en) * 2012-09-13 2016-03-01 Google Inc. Identifying a thumbnail image to represent a video
US20140278210A1 (en) * 2013-03-13 2014-09-18 International Business Machines Corporation Real-time Spatial Path Comparison
CN103279481B (zh) * 2013-04-23 2016-08-03 四川天翼网络服务有限公司 智慧天网情报图侦系统
US11165994B2 (en) 2013-05-13 2021-11-02 Texas Instruments Incorporated Analytics-driven summary views for surveillance networks
US20140365395A1 (en) * 2013-06-08 2014-12-11 Onekarte, Inc. Electronic business card application software and its system
US9210319B2 (en) * 2013-07-11 2015-12-08 Magisto Ltd. Method and system for capturing important objects using a camera based on predefined metrics
US9363431B2 (en) * 2013-07-11 2016-06-07 Magisto Ltd. Method and system for capturing important objects using a camera based on predefined metrics
US9508390B2 (en) * 2013-07-12 2016-11-29 Apple Inc. Trick play in digital video streaming
US9208385B2 (en) * 2013-07-23 2015-12-08 TCL Research America Inc. System and method for moving object detection and processing
JP6413134B2 (ja) * 2013-08-23 2018-10-31 国立大学法人山梨大学 映像内活動度可視化装置、方法及びプログラム
KR102072022B1 (ko) * 2013-09-02 2020-01-31 에스케이 텔레콤주식회사 관심영역 기반의 영상요약 장치와 그를 위한 컴퓨터로 읽을 수 있는 기록 매체
US9323993B2 (en) * 2013-09-05 2016-04-26 Xerox Corporation On-street parking management methods and systems for identifying a vehicle via a camera and mobile communications devices
US9202116B2 (en) * 2013-10-29 2015-12-01 National Taipei University Of Technology Image processing method and image processing apparatus using the same
US9172477B2 (en) 2013-10-30 2015-10-27 Inthinc Technology Solutions, Inc. Wireless device detection using multiple antennas separated by an RF shield
CN104717457B (zh) 2013-12-13 2018-05-18 华为技术有限公司 一种视频浓缩方法及装置
KR101804383B1 (ko) * 2014-01-14 2017-12-04 한화테크윈 주식회사 요약 영상 브라우징 시스템 및 방법
KR102070924B1 (ko) 2014-01-20 2020-01-29 한화테크윈 주식회사 영상 기록 시스템
CN103826125B (zh) * 2014-01-20 2017-10-27 北京创鑫汇智科技发展有限责任公司 用于已压缩监控视频的浓缩分析方法和装置
CN103763562B (zh) * 2014-01-22 2016-11-16 复旦大学 一种基于线裁剪的视频浓缩方法
US9877086B2 (en) * 2014-01-26 2018-01-23 BriefCam Ltd. Method and system for producing relevance sorted video summary
CN103778237B (zh) * 2014-01-27 2017-02-15 北京邮电大学 一种基于活动事件时空重组的视频摘要生成方法
US9786321B2 (en) 2014-05-07 2017-10-10 Sony Mobile Communications Inc. Electronic device and method for controlling navigation in a video
KR101482924B1 (ko) * 2014-05-13 2015-01-15 주식회사 다이나맥스 시놉시스 영상을 생성하여 영상감시 기능을 수행하는 cctv 통합관제시스템
KR101482226B1 (ko) * 2014-05-13 2015-01-22 주식회사 다이나맥스 시놉시스 영상감시 기능을 수행하는 cctv 통합관제시스템을 구현하기 위한 방법
EP2960811A1 (en) * 2014-06-26 2015-12-30 Thomson Licensing Method and device for analyzing a database comprising a large number of video images
KR102170694B1 (ko) 2014-07-07 2020-10-27 한화테크윈 주식회사 비디오써머리를 제공하는 영상재생장치 및 영상재생장치에서 비디오써머리를 제공하는 방법
CN208027742U (zh) 2014-07-28 2018-10-30 菲力尔洛莱施公司 视频浓缩系统
US10102285B2 (en) 2014-08-27 2018-10-16 International Business Machines Corporation Consolidating video search for an event
US9449395B2 (en) 2014-09-15 2016-09-20 Winbond Electronics Corp. Methods and systems for image matting and foreground estimation based on hierarchical graphs
KR101849365B1 (ko) 2014-11-05 2018-04-16 한화테크윈 주식회사 영상 처리 장치 및 방법
US10424341B2 (en) 2014-11-12 2019-09-24 Massachusetts Institute Of Technology Dynamic video summarization
US9363449B1 (en) * 2014-11-13 2016-06-07 Futurewei Technologies, Inc. Parallax tolerant video stitching with spatial-temporal localized warping and seam finding
US9436876B1 (en) 2014-12-19 2016-09-06 Amazon Technologies, Inc. Video segmentation techniques
KR102278945B1 (ko) * 2015-01-27 2021-07-19 삼성전자주식회사 이미지 처리 방법 및 이를 지원하는 전자 장치
KR102375864B1 (ko) 2015-02-10 2022-03-18 한화테크윈 주식회사 요약 영상 브라우징 시스템 및 방법
US9582882B2 (en) 2015-03-02 2017-02-28 Nokia Technologies Oy Method and apparatus for image registration in the gradient domain
US9466108B1 (en) * 2015-03-31 2016-10-11 Nokia Technologies Oy Method and apparatus for multiple image registration in the gradient domain
US9762846B2 (en) 2015-05-08 2017-09-12 Microsoft Technology Licensing, Llc Real-time hyper-lapse video creation via frame selection
US10242441B2 (en) * 2015-05-21 2019-03-26 Koninklijke Philips N.V. Identifying living skin tissue in a video sequence using color and spatial similarities
JP6665203B2 (ja) * 2015-05-21 2020-03-13 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. ビデオシーケンスからのパルス信号の決定
CN107635457B (zh) * 2015-05-21 2021-05-25 皇家飞利浦有限公司 识别视频序列中的活的皮肤组织
CN104935830B (zh) * 2015-06-03 2019-05-07 广东威创视讯科技股份有限公司 拼接显示装置视频信息渲染、显示方法和系统
US10593007B1 (en) 2015-06-11 2020-03-17 Digimarc Corporation Methods and arrangements for configuring industrial inspection systems
US9721350B2 (en) * 2015-06-26 2017-08-01 Getalert Ltd. Methods circuits devices systems and associated computer executable code for video feed processing
CN105100718B (zh) * 2015-07-29 2018-11-23 西安冉科信息技术有限公司 一种基于视频摘要的智能视频分析方法
CN105141923B (zh) * 2015-09-08 2018-12-28 东方网力科技股份有限公司 一种视频浓缩方法及装置
US9313556B1 (en) 2015-09-14 2016-04-12 Logitech Europe S.A. User interface for video summaries
US10299017B2 (en) 2015-09-14 2019-05-21 Logitech Europe S.A. Video searching for filtered and tagged motion
EP3142117B1 (en) * 2015-09-14 2020-01-01 TP Vision Holding B.V. Content playback apparatus including a playback resume function
WO2017046704A1 (en) 2015-09-14 2017-03-23 Logitech Europe S.A. User interface for video summaries
US9805567B2 (en) 2015-09-14 2017-10-31 Logitech Europe S.A. Temporal video streaming and summaries
KR102345579B1 (ko) 2015-12-15 2021-12-31 삼성전자주식회사 이미지 관련 서비스를 제공하기 위한 방법, 저장 매체 및 전자 장치
CN105554456B (zh) * 2015-12-21 2018-11-23 北京旷视科技有限公司 视频处理方法和设备
KR102592904B1 (ko) * 2016-02-19 2023-10-23 삼성전자주식회사 영상 요약 장치 및 방법
EP3249651B1 (en) * 2016-05-23 2018-08-29 Axis AB Generating a summary video sequence from a source video sequence
KR101805018B1 (ko) * 2016-07-08 2017-12-06 한양대학교 산학협력단 컴팩트 비디오 생성 장치, 방법 및 컴퓨터 프로그램이 기록된 기록매체
WO2018022853A1 (en) * 2016-07-28 2018-02-01 Kodak Alaris Inc. A method for dynamic creation of collages from mobile video
TWI604323B (zh) 2016-11-10 2017-11-01 財團法人工業技術研究院 視訊索引建立方法及應用其之裝置
TR201702177A2 (pt) 2017-02-14 2018-09-21 Akif Ekin
US10929685B2 (en) 2017-03-02 2021-02-23 Ricoh Company, Ltd. Analysis of operator behavior focalized on machine events
US10720182B2 (en) 2017-03-02 2020-07-21 Ricoh Company, Ltd. Decomposition of a video stream into salient fragments
US10956494B2 (en) 2017-03-02 2021-03-23 Ricoh Company, Ltd. Behavioral measurements in a video stream focalized on keywords
US10949463B2 (en) 2017-03-02 2021-03-16 Ricoh Company, Ltd. Behavioral measurements in a video stream focalized on keywords
US10956773B2 (en) 2017-03-02 2021-03-23 Ricoh Company, Ltd. Computation of audience metrics focalized on displayed content
US10719552B2 (en) 2017-03-02 2020-07-21 Ricoh Co., Ltd. Focalized summarizations of a video stream
US10708635B2 (en) 2017-03-02 2020-07-07 Ricoh Company, Ltd. Subsumption architecture for processing fragments of a video stream
US10943122B2 (en) 2017-03-02 2021-03-09 Ricoh Company, Ltd. Focalized behavioral measurements in a video stream
US10713391B2 (en) 2017-03-02 2020-07-14 Ricoh Co., Ltd. Tamper protection and video source identification for video processing pipeline
US10949705B2 (en) 2017-03-02 2021-03-16 Ricoh Company, Ltd. Focalized behavioral measurements in a video stream
US10929707B2 (en) 2017-03-02 2021-02-23 Ricoh Company, Ltd. Computation of audience metrics focalized on displayed content
US10956495B2 (en) 2017-03-02 2021-03-23 Ricoh Company, Ltd. Analysis of operator behavior focalized on machine events
CN107707975A (zh) * 2017-09-20 2018-02-16 天津大学 基于监控平台的视频智能剪辑方法
JP2019057836A (ja) * 2017-09-21 2019-04-11 キヤノン株式会社 映像処理装置、映像処理方法、コンピュータプログラム、及び記憶媒体
CN108012202B (zh) * 2017-12-15 2020-02-14 浙江大华技术股份有限公司 视频浓缩方法、设备、计算机可读存储介质及计算机装置
US10379718B2 (en) * 2017-12-22 2019-08-13 Palo Alto Research Center Incorporated System and method for providing ambient information to user through layered visual montage
KR102108618B1 (ko) * 2018-01-19 2020-05-07 한국기술교육대학교 산학협력단 비디오 시놉시스를 이용한 범죄 확인 방법
US10740618B1 (en) * 2018-04-30 2020-08-11 Amazon Technologies, Inc. Tracking objects in live 360 video
US20200036909A1 (en) 2018-07-27 2020-01-30 BriefCam Ltd. System and method allowing simultaneous viewing of live and recorded video content
US10666877B2 (en) 2018-09-14 2020-05-26 Motorola Solutions, Inc. Synopsizing videos from multiple moving video cameras
CN112714913A (zh) * 2018-09-26 2021-04-27 法弗人工智能有限公司 结构注释
US10958854B2 (en) 2018-11-02 2021-03-23 BriefCam Ltd. Computer-implemented method for generating an output video from multiple video sources
US11675853B2 (en) * 2018-12-28 2023-06-13 Nbcuniversal Media, Llc Systems and methods for processing metadata
US10999534B2 (en) 2019-03-29 2021-05-04 Cisco Technology, Inc. Optimized video review using motion recap images
CN110996183B (zh) * 2019-07-12 2022-01-21 北京达佳互联信息技术有限公司 视频摘要的生成方法、装置、终端及存储介质
KR102271929B1 (ko) 2019-09-17 2021-07-02 한국과학기술연구원 장면 이해를 통해 비디오 요약을 생성하는 방법 및 이를 위한 시스템
US11354909B2 (en) * 2019-09-26 2022-06-07 International Business Machines Corporation Adaptive queue management system
JP7446760B2 (ja) 2019-10-07 2024-03-11 キヤノン株式会社 情報処理装置、映像の要約方法、およびプログラム
US11238093B2 (en) * 2019-10-15 2022-02-01 Adobe Inc. Video retrieval based on encoding temporal relationships among video frames
JP2021064870A (ja) * 2019-10-15 2021-04-22 キヤノン株式会社 情報処理装置、情報処理システム、情報処理方法およびプログラム
JP7451172B2 (ja) 2019-12-24 2024-03-18 キヤノン株式会社 情報処理装置、映像の要約方法、およびプログラム
US10972655B1 (en) 2020-03-30 2021-04-06 Logitech Europe S.A. Advanced video conferencing systems and methods
US10965908B1 (en) 2020-03-30 2021-03-30 Logitech Europe S.A. Advanced video conferencing systems and methods
US10951858B1 (en) 2020-03-30 2021-03-16 Logitech Europe S.A. Advanced video conferencing systems and methods
US10904446B1 (en) 2020-03-30 2021-01-26 Logitech Europe S.A. Advanced video conferencing systems and methods
CN111601033A (zh) * 2020-04-27 2020-08-28 北京小米松果电子有限公司 视频处理方法、装置及存储介质
US11430142B2 (en) * 2020-04-28 2022-08-30 Snap Inc. Photometric-based 3D object modeling
US11328160B2 (en) * 2020-06-10 2022-05-10 Ionetworks Inc. Video condensation and recognition method and system thereof
CN111783649B (zh) * 2020-06-30 2024-01-23 北京百度网讯科技有限公司 视频类型检测方法、装置、电子设备与存储介质
KR102223010B1 (ko) 2020-07-15 2021-03-05 (주)비상정보통신 객체 인식 기반의 채널 재조정 편집이 가능한 다중화면 검색기술 지원 시스템 및 방법
US11653052B2 (en) * 2020-10-26 2023-05-16 Genetec Inc. Systems and methods for producing a privacy-protected video clip
CN113326399A (zh) * 2021-06-16 2021-08-31 中国人民解放军91388部队 一种视频浓缩的方法、装置、电子设备及存储介质
KR102570126B1 (ko) * 2021-07-26 2023-08-22 세종대학교산학협력단 이상 객체 탐지 기반 영상 시놉시스 생성 방법 및 장치
WO2023042166A1 (en) * 2021-09-19 2023-03-23 Glossai Ltd Systems and methods for indexing media content using dynamic domain-specific corpus and model generation
US11729445B2 (en) * 2021-12-28 2023-08-15 The Adt Security Corporation Video rights management for an in-cabin monitoring system
US11928145B1 (en) 2022-12-09 2024-03-12 International Business Machines Corporation Creating a knowledge graph for a video

Family Cites Families (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5850352A (en) * 1995-03-31 1998-12-15 The Regents Of The University Of California Immersive video, including video hypermosaicing to generate from multiple video views of a scene a three-dimensional video mosaic from which diverse virtual video scene images are synthesized, including panoramic, scene interactive and stereoscopic images
US5774593A (en) 1995-07-24 1998-06-30 University Of Washington Automatic scene decomposition and optimization of MPEG compressed video
US5767922A (en) * 1996-04-05 1998-06-16 Cornell Research Foundation, Inc. Apparatus and process for detecting scene breaks in a sequence of video frames
US5911008A (en) 1996-04-30 1999-06-08 Nippon Telegraph And Telephone Corporation Scheme for detecting shot boundaries in compressed video data using inter-frame/inter-field prediction coding and intra-frame/intra-field coding
TW303555B (en) 1996-08-08 1997-04-21 Ind Tech Res Inst Digital data detecting method
US6735253B1 (en) 1997-05-16 2004-05-11 The Trustees Of Columbia University In The City Of New York Methods and architecture for indexing and editing compressed video over the world wide web
DE60038880D1 (de) 1999-03-18 2008-06-26 Pirelli Lkw-reifen für schwere und mittelschwere transporte
US7184100B1 (en) * 1999-03-24 2007-02-27 Mate - Media Access Technologies Ltd. Method of selecting key-frames from a video sequence
US6514081B1 (en) * 1999-08-06 2003-02-04 Jeffrey L. Mengoli Method and apparatus for automating motion analysis
US6792411B1 (en) * 1999-08-27 2004-09-14 Eugene Howard Massey, Jr. Method for the sale of movies prior to the production thereof
US7016540B1 (en) 1999-11-24 2006-03-21 Nec Corporation Method and system for segmentation, classification, and summarization of video images
US6549643B1 (en) 1999-11-30 2003-04-15 Siemens Corporate Research, Inc. System and method for selecting key-frames of video data
US6665423B1 (en) 2000-01-27 2003-12-16 Eastman Kodak Company Method and system for object-oriented motion-based video description
AUPQ535200A0 (en) 2000-01-31 2000-02-17 Canon Kabushiki Kaisha Extracting key frames from a video sequence
KR100698106B1 (ko) 2000-03-07 2007-03-26 엘지전자 주식회사 엠펙(mpeg)압축 비디오 환경에서 계층적 혼합형장면 변화 검출 방법
DE60143081D1 (de) * 2000-04-07 2010-10-28 Dartfish Sa Automatisiertes stroboskop-verfahren für videosequenzen
US6879332B2 (en) 2000-05-16 2005-04-12 Groxis, Inc. User interface for displaying and exploring hierarchical information
US20020051077A1 (en) 2000-07-19 2002-05-02 Shih-Ping Liou Videoabstracts: a system for generating video summaries
US6697523B1 (en) 2000-08-09 2004-02-24 Mitsubishi Electric Research Laboratories, Inc. Method for summarizing a video using motion and color descriptors
WO2002041190A2 (en) 2000-11-15 2002-05-23 Holbrook David M Apparatus and method for organizing and/or presenting data
US6925455B2 (en) 2000-12-12 2005-08-02 Nec Corporation Creating audio-centric, image-centric, and integrated audio-visual summaries
US7110458B2 (en) 2001-04-27 2006-09-19 Mitsubishi Electric Research Laboratories, Inc. Method for summarizing a video using motion descriptors
US7009638B2 (en) * 2001-05-04 2006-03-07 Vexcel Imaging Gmbh Self-calibrating, digital, large format camera with single or multiple detector arrays and single or multiple optical systems
US6904420B2 (en) 2001-05-17 2005-06-07 Honeywell International Inc. Neuro/fuzzy hybrid approach to clustering data
US20060247070A1 (en) * 2001-06-11 2006-11-02 Recognition Insight, Llc Swing position recognition and reinforcement
US7296231B2 (en) * 2001-08-09 2007-11-13 Eastman Kodak Company Video structuring by probabilistic merging of video segments
US7480864B2 (en) 2001-10-12 2009-01-20 Canon Kabushiki Kaisha Zoom editor
US7149755B2 (en) 2002-07-29 2006-12-12 Hewlett-Packard Development Company, Lp. Presenting a collection of media objects
US7143352B2 (en) * 2002-11-01 2006-11-28 Mitsubishi Electric Research Laboratories, Inc Blind summarization of video content
US7375731B2 (en) 2002-11-01 2008-05-20 Mitsubishi Electric Research Laboratories, Inc. Video mining using unsupervised clustering of video content
US7131059B2 (en) 2002-12-31 2006-10-31 Hewlett-Packard Development Company, L.P. Scalably presenting a collection of media objects
US7127127B2 (en) 2003-03-04 2006-10-24 Microsoft Corporation System and method for adaptive video fast forward using scene generative models
JP4344534B2 (ja) * 2003-04-30 2009-10-14 セコム株式会社 画像処理システム
JP4155118B2 (ja) * 2003-06-13 2008-09-24 カシオ計算機株式会社 静止画合成装置、及び動画像からの静止画合成方法
US7406123B2 (en) 2003-07-10 2008-07-29 Mitsubishi Electric Research Laboratories, Inc. Visual complexity measure for playing videos adaptively
JP4168940B2 (ja) * 2004-01-26 2008-10-22 三菱電機株式会社 映像表示システム
US7409407B2 (en) 2004-05-07 2008-08-05 Mitsubishi Electric Research Laboratories, Inc. Multimedia event detection and summarization
JP4727342B2 (ja) * 2004-09-15 2011-07-20 ソニー株式会社 画像処理装置、画像処理方法、画像処理プログラム及びプログラム格納媒体
US7852370B2 (en) 2004-11-05 2010-12-14 Yissum Research Development Company Of The Hebrew University Of Jerusalem Method and system for spatio-temporal video warping
US7982738B2 (en) * 2004-12-01 2011-07-19 Microsoft Corporation Interactive montages of sprites for indexing and summarizing video
US7594177B2 (en) 2004-12-08 2009-09-22 Microsoft Corporation System and method for video browsing using a cluster index
US7550404B2 (en) 2005-09-30 2009-06-23 Pq Corporation Wood-polymer-zeolite composites
US8949235B2 (en) * 2005-11-15 2015-02-03 Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. Methods and systems for producing a video synopsis using clustering
DK1955205T3 (da) * 2005-11-15 2012-10-15 Yissum Res Dev Co Metode og system til produktion af en videosynopsis
JP4229168B2 (ja) 2006-10-23 2009-02-25 コベルコクレーン株式会社 建設機械のブームフットピン着脱装置
CA2676632C (en) * 2007-02-01 2017-11-07 Yissum Research Development Company Of The Hebrew University Of Jerusalem Method and system for video indexing and video synopsis

Also Published As

Publication number Publication date
KR101456652B1 (ko) 2014-11-04
US8818038B2 (en) 2014-08-26
US20130027551A1 (en) 2013-01-31
US8311277B2 (en) 2012-11-13
AU2007345938A1 (en) 2008-08-07
WO2008093321A1 (en) 2008-08-07
JP5355422B2 (ja) 2013-11-27
EP3297272A1 (en) 2018-03-21
BRPI0720802A2 (pt) 2014-03-11
CA2676632A1 (en) 2008-08-07
AU2007345938B2 (en) 2011-11-10
EP2119224A1 (en) 2009-11-18
JP2010518673A (ja) 2010-05-27
CN101689394A (zh) 2010-03-31
KR20090117771A (ko) 2009-11-12
US20100092037A1 (en) 2010-04-15
CA2676632C (en) 2017-11-07
CN101689394B (zh) 2014-03-26

Similar Documents

Publication Publication Date Title
BRPI0720802B1 (pt) Método e sistema para gerar uma sinopse de vídeo de uma fonte de fluxo de vídeo ininterrupta como a gerada por uma câmera de segurança de vídeo
Pritch et al. Nonchronological video synopsis and indexing
Pritch et al. Webcam synopsis: Peeking around the world
EP1955205B1 (en) Method and system for producing a video synopsis
Nie et al. Compact video synopsis via global spatiotemporal optimization
Li et al. Surveillance video synopsis via scaling down objects
Borgo et al. State of the art report on video‐based graphics and video visualization
Chen et al. Visual storylines: Semantic visualization of movie sequence
Baskurt et al. Video synopsis: A survey
Li et al. Video synopsis in complex situations
JP5432677B2 (ja) クラスタリングを使用したビデオ概要の生成方法とシステム
Zhang et al. VideoGraph: a non-linear video representation for efficient exploration
Barnes Patchmatch: a fast randomized matching algorithm with application to image and video
Zhu et al. Automatic scene detection for advanced story retrieval
Pritch et al. Video Synopsis and Indexing
IL199678A (en) Method and system for video indexing and video synopsis
Ionescu et al. Automatic abstraction of laparoscopic medical footage through visual activity analysis
Hua et al. Photo2Video
JP6219808B2 (ja) 映像検索装置の動作方法、映像検索方法および映像検索装置
Sumiya et al. A Spatial User Interface for Browsing Video Key Frames
Tompkin et al. Videoscapes: Exploring Unstructured Video Collections

Legal Events

Date Code Title Description
B15K Others concerning applications: alteration of classification

Ipc: G11B 27/28 (2006.01), G06F 17/30 (2006.01), G11B 2

B15K Others concerning applications: alteration of classification

Ipc: H04N 5/32 (2006.01), G06F 17/30 (2006.01), G11B 27

B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B25A Requested transfer of rights approved

Owner name: BRIEFCAM, LTD. (IL)

B07A Application suspended after technical examination (opinion) [chapter 7.1 patent gazette]
B09B Patent application refused [chapter 9.2 patent gazette]
B12B Appeal against refusal [chapter 12.2 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 09/12/2007, OBSERVADAS AS CONDICOES LEGAIS. PATENTE CONCEDIDA CONFORME ADI 5.529/DF, QUE DETERMINA A ALTERACAO DO PRAZO DE CONCESSAO.