BRPI0708456A2 - método para prover um sumário de diversas imagens, dispositivo adaptado para gerar um sumário de diversas imagens, sistema, código de programa executável por computador, e, portador de dados - Google Patents

método para prover um sumário de diversas imagens, dispositivo adaptado para gerar um sumário de diversas imagens, sistema, código de programa executável por computador, e, portador de dados Download PDF

Info

Publication number
BRPI0708456A2
BRPI0708456A2 BRPI0708456-0A BRPI0708456A BRPI0708456A2 BR PI0708456 A2 BRPI0708456 A2 BR PI0708456A2 BR PI0708456 A BRPI0708456 A BR PI0708456A BR PI0708456 A2 BRPI0708456 A2 BR PI0708456A2
Authority
BR
Brazil
Prior art keywords
segments
segment
weights
relationships
relationship
Prior art date
Application number
BRPI0708456-0A
Other languages
English (en)
Inventor
Mauro Barbieri
Lalitha Agnihotri
Nevenka Dimitrova
Original Assignee
Koninkl Philips Electronics Nv
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninkl Philips Electronics Nv filed Critical Koninkl Philips Electronics Nv
Publication of BRPI0708456A2 publication Critical patent/BRPI0708456A2/pt

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

MéTODO PARA PROVER UM SUMARIO DE DIVERSAS IMAGENS, DISPOSITIVO ADAPTADO PARA GERAR UM SUMARIO DE DIVERSAS IMAGENS, SISTEMA, CóDIGO DE PROGRAMA EXECUTAVEL POR COMPUTADOR, E, PORTADOR DE DADOS Método e dispositivo para prover um sumário de diversas imagens, por exemplo, uma seqúência de vídeo. O método inclui dividir a seqúência de vídeo em diversos segmentos. Os segmentos são analisados com respeito ao conteúdo e um conjunto de descritores de conteúdo é associado aos segmentos. Preferivelmente, informação textual adicional sobre os segmentos, roteiro, etc., é usada para determinar os descritores de conteúdo. Um gráfico representando relações entre os segmentos é construído indicando relações entre segmentos. Pesos são associados às relações, de modo a representar uma medida da relação, por exemplo, uma correlação lógica, entre segmentos. Os pesos são baseados nos descritores de conteúdo calculados. Uma medida de relevância para um segmento é determinada com base em todos os pesos associados a relações com o citado segmento. Finalmente, um sumário é gerado selecionando os segmentos mais relevantes. O método podecriar um sumário automático ou um filme que preserva todo o enredo lógico do original, porém é mais curto em duração (por exemplo, 70% do filme original) enquanto a taxa de reprodução de gravação original é preservada.

Description

"MÉTODO PARA PROVER UM SUMÁRIO DE DIVERSAS IMAGENS,DISPOSITIVO ADAPTADO PARA GERAR UM SUMÁRIO DEDIVERSAS IMAGENS, SISTEMA, CÓDIGO DE PROGRAMAEXECUTÁVEL POR COMPUTADOR, E, PORTADOR DE DADOS"
A presente invençãoo relaciona-se ao campo de extrair umsumário de conteúdo de diversas imagens, por exemplo, uma seqüência devídeo. Mais especificamente, a invenção provê um método e um dispositivopara geração automática de um sumário de diversas imagens, onde uma linhade história ou o enredo lógico é preservado.
Sumarização tem se tornado uma ferramenta altamentenecessária na navegação e busca de coleções de vídeo doméstico e arquivosde vídeo produzidos ou arquivos de fotos, poupando tempo dos usuários eoferecendo grande controle e visão geral. Vários tipos de métodos desumarização tem sido oferecidos na literatura: tabela visual de conteúdos,exame superficial, e sumários multimídia. Também, vários domínios tem sidoexplorados, tais como sumarização de vídeo estruturada para noticias, vídeosde música, e esportes.
Usuários gostariam de assistir a um filme em um tempo maiscurto que a duração original, embora entendendo o enredo lógico, isto é, éuma exigência que a linha de história global do filme seja preservada. Temsido propostos algoritmos para avanço rápido e compressão de áudio, quepermitem acelerar o ritmo de visualização até 1,5-2 vezes. Uma possibilidadeé aumentar a velocidade de reprodução da gravação, entretanto, a reproduçãoda gravação rápida exige um nível de atenção muito alto dos observadores epode se tornar cômica e incompreensível.
Então, ainda permanece uma meta de ser sumarização de vídeonarrativa, que inclui métodos para sumarização de conteúdo narrativo de umaseqüência de vídeo, tais como filmes, documentários e vídeos domésticos. Asumarização para conteúdo de multimídia narrativo tal como filme é umtópico de pesquisa ativo, entretanto, o objetivo usual é criar previsões que nãoconduzam toda a informação sobre a história do filme original.
WO 03/090444 descreve métodos para selecionar umasubseqüência de quadros de um vídeo, a partir de uma seqüência de vídeo.
Uma função de distância relacionando dois quadros de vídeo um ao outro édefinida na seqüência de quadros de vídeo, por exemplo, uma distância entrehistogramas RGB dos quadros. Um critério de otimização é definido paraexpressar uma característica de diversas subseqüências de quadros de vídeoselecionados da seqüência de quadros de vídeo. Uma subseqüência dequadros de vídeo é então determinada, otimizando os valores de uma funçãode critério de otimização definida em todas as subseqüências, por exemplo,uma função de energia. Em WO 03/090444, a função de distânciarelacionando quadros uns aos outros é baseada em uma distância visual entrequadros. Então, a subseqüência selecionada de quadros será um conjunto dequadros de código que são os quadros mais diferentes com respeito aconteúdo visual, e então em um sentido serem representativos da seqüência devídeo. Entretanto, uma vez que dois quadros são apenas inter-relacionados poruma distância visual, a subseqüência selecionada não representaránecessariamente um sumário refletindo a linha de história e o significado realda seqüência de vídeo.
Daí, é um objetivo prover um método e sistema desumarização capaz de prover uma seqüência de sumário refletindo o enredológico de diversas imagens, por exemplo, uma seqüência de vídeo, e aindacom a mesma taxa de reprodução de gravação que a seqüência de vídeooriginal.
Este objetivo e vários outros objetivos são obtidos em umprimeiro aspecto da invenção, provendo um método para prover um sumáriode diversas imagens, o método compreendendo:
a) dividir as diversas imagens em diversos segmentos, cadasegmento compreendendo pelo menos uma imagem,
b) analisar cada segmento com respeito a conteúdo e associarum conjunto de descritores de conteúdo resultante da análise do citadosegmento,
c) estabelecer relações entre os segmentos, com base nosdescritores de conteúdo, onde cada relação entre o primeiro e segundosegmentos tem um ou mais pesos associada a ela, o um ou mais pesosrepresentando uma medida da relação entre o primeiro e segundo segmentos,
d) determinar, para cada segmento, uma medida de relevância10 baseada nos pesos associados com relações do citado segmento,
e) gerar um sumário, selecionando um subconjunto desegmentos a partir dos diversos segmentos, com base nos parâmetros derelevância associados aos segmentos.
Por "diversas imagens" é entendido um conjunto de imagens,tal como um arquivo de fotos ou uma seqüência de vídeo de quadros deimagem. Por "medida da relação" deve ser entendida uma medidarepresentando um grau de relação entre dois segmentos. Por exemplo, a"medida da relação" pode ser uma medida representando correlação lógicaentre segmentos ou pode simplesmente ser uma medida de quão similares sãoos segmentos, com respeito a um descritor de conteúdo específico.
A invenção é particularmente, porém não exclusivamente,vantajosa para gerar automaticamente um sumário de um filme ou um vídeodoméstico, etc. Em realizações preferidas, é possível gerar automaticamenteum sumário que incluirá a essência da seqüência de vídeo de entrada original,e uma vez que o sumário é gerado a partir de segmentos selecionados oucenas da seqüência de vídeo original, o sumário terá um taxa de reproduçãode gravação natural, isto é, sem introduzir uma alta velocidade forçada e nãonatural.
O método pode também ser usado para gerar um sumário deum arquivo de fotos, por exemplo, um arquivo de fotos de férias, etc., onde édesejado ter um sumário representativo do conteúdo das fotos. No caso defotos, um segmento pode ser uma única foto ou um conjunto de fotos.
No caso de, por exemplo, uma seqüência de vídeo que já tenhasido dividida em segmentos, por exemplo, um capítulo para cada cena daseqüência de vídeo, deve ser entendido que a etapa a) pode ser omitida. Casocontrário, a etapa a) pode incluir uma segmentação temporal, por exemplo,baseada na detecção de contornos de segmento usando um método dedetecção de diferença de quadro, conforme conhecido na técnica.
Na etapa c), é estabelecida uma representação muito compactadas diversas imagens, usando uma quantidade muito limitada de dados. Porexemplo, um filme de 1,5 horas pode ser representado usando 5-10descritores de conteúdo e tipicamente uma divisão em 700-1000 segmentos.
Preferivelmente, a etapa e) inclui selecionar os segmentos como valor de medida de relevância mais alto. Em outras palavra, o um ou maissegmentos com o menor grau de relação com os segmentos restantes dasdiversas imagens, são omitidos primeiro, e então excluídos só sumário. Destemodo, é efetivamente assegurado que o sumário será baseado em segmentoscom o conteúdo semântico máximo possível das diversas imagens, e então osumário refletirá no melhor grau possível o núcleo do significado das diversasimagens.
Uma vez que os pesos indicam em que grau dois segmentosestão relacionados (valor de peso alto reflete alto grau de relação; o pesopoderia, por exemplo, ser determinado como fator de correlação entreconjuntos de parâmetros de dois segmentos, os conjuntos compreendendopelo menos um parâmetro), a medida de relevância é preferivelmentecalculada com base em uma soma de todos os pesos associados a relaçõescom um segmento particular. A medida de relevância pode especialmente serigual à soma de todos os pesos associados a relações com o segmentoparticular.
Nas realizações preferidas, informação textual adicionalassociada a um segmento é levada em conta na análise de conteúdo do citadosegmento, por exemplo, na etapa b) e preferivelmente também paraestabelecer uma relação entre o citado segmento e outros segmentos. Ainformação textual pode ser embutida no conteúdo de vídeo, por exemplo,subtítulos ou armazenada no mesmo portador físico ou lógico com umaseqüência de vídeo, por exemplo, subtítulos em discos DVD ou legendastransmitidas juntamente com radiodifusões de TV.
Então, informação textual adicional pode ser usada parasuportar a análise de conteúdo que pode, caso contrário, ser baseada somenteem um algoritmo automático aplicado às próprias diversas imagens. No casoda informação textual adicional ser embutida nas próprias diversas imagens,por exemplo, como subtítulos, uma etapa extra preferida inclui a etapa deextrair tal informação textual adicional dos diversos segmentos, no sentido deser capaz de levar em conta para análise adicional. A extração da informaçãotextual adicional pode incluir reconhecimento de voz no caso da informaçãotextual ter que ser extraída, por exemplo, de conversação narrativa embutidaem uma parte da áudio, em conexão com as diversas imagens.
Pode ser preferido incluir, no sumário, parte relevante dainformação textual adicional. Isto pode ser feito como subtítulos em umaparte de vídeo do sumário e/ou convertendo a informação textual adicionalem voz, usando um método de síntese de voz.
As diversas imagens podem ser somente imagens ou quadrosde imagens, ou adicionalmente uma parte de áudio associada às diversasimagens, por exemplo, uma trilha sonora de um filme. A informação textualadicional pode incluir um breve texto que descreve uma cena de um filme, porexemplo, com informação incluindo quem, onde e quando. Em geral, ainformação textual adicional pode incluir, por exemplo: subtítulos (porexemplo, introduzidos manualmente e sincronizados por humanos), um scriptde filme (por exemplo, escrito por humanos e automaticamente alinhado auma seqüência de vídeo), uma transcrição de voz (por exemplo, escrita porhumano ou gerada por meio de reconhecimento automático de voz).
Informação textual adicional pode ser provida como um serviço separado paraprover anotações manuais sincronizadas com a seqüência de vídeo, para afinalidade de facilitar a coleção personalizada do leitor, por exemplo, dadossobre "quem está em cena", "o que está em cena", "onde é a cena", "porquealgo está acontecendo ou sendo mostrado", etc.
No caso, as diversas imagens incluem ambas parte de vídeo eparte de áudio, descritores de conteúdo levando em conta ambas parte devídeo e parte de áudio são preferivelmente incluídos. Por exemplo, ambasimagens e um sinal de voz podem ser analisados e usados para extrairinformação relativa a qual(is) pessoa(s) ou caracter(es) de filme está/estãopresentes em um certo segmento de uma seqüência de vídeo. Preferivelmente,as relações incluem pelo menos uma relação baseada na parte de áudio e umarelação baseada na parte de vídeo. Deste modo, a melhor utilização possíveldos dados disponíveis em conexão com as diversas imagens, isto é, ambosdados de vídeo e áudio, é provida.
Preferivelmente, as relações incluem pelo menos uma relaçãobaseada em um ou mais dentre:
1) uma distância no tempo entre o primeiro e segundosegmentos,
2) ocorrência simultânea de palavras chave na informaçãotextual associada aos respectivos primeiro e segundo segmentos,
3) aparecimento simultâneo de uma pessoa no primeiro esegundo segmentos,
4) um campo de visualização em uma parte de vídeo dossegmentos.Com respeito a 1), segmentos afastados no tempo deveriam serdesignados a uma grande distância, e portanto, um peso entre dois segmentosvisualmente similares porém distante no tempo não deveria ser tão grandequanto os segmentos estão também próximos um do outro no tempo, porexemplo, quando estes realmente pertencem à mesma cena ou capítulo.
Com respeito a 3), identificação de pessoa baseada em, porexemplo, detecção de face, e/ou reconhecimento de voz deveria ser incluídona etapa b).
Com respeito a 4), é entendido como campo de visualização,uma distância da câmera do assunto, e a distância focai da lente usada nosegmento particular, por exemplo, aproximação, distância longa, distânciamédia, etc.
Preferivelmente, as etapas c) a e) são repetidas no sentido dereduzir um número de segmentos, por exemplo, um por um, até que osubconjunto de segmento selecionado satisfaça a um critério de paradapredeterminado. Tal critério de parada pode ser um tempo de reprodução degravação máximo predeterminado do subconjunto selecionado de segmentos.Por exemplo, um usuário deseja ver uma redução de 45 minutos de um filmede 1,5 horas. Então, os segmentos são removidos até que o tempo dereprodução de gravação total dos segmentos restante seja igual ou menor que45 minutos.
Em geral, o sumário pode ser gerado levando em contapreferências introduzidas por um usuário, por exemplo, com respeito a tempode reprodução de gravação, conforme mencionado acima. Entretanto,preferências do usuário relativas a tópicos específicos ou caracteres do filmepodem ser introduzidas pelo usuário e levadas em conta em qualquer uma oumais etapas c), d) e e), e assim o sumário reflete preferências especiais pelousuário. Por ex:emplo, o usuário pode estar interessado em perseguições decarros e então segmentos incluindo perseguições de carro são removidos maistarde em relação a outros segmentos, por exemplo, manipulando uma medidade relevância para ser mais alta em segmentos com cenas de perseguição decarros. Especialmente, os pesos da etapa c) podem ser calculados como umafunção das preferências introduzidas pelo usuário.
Em um segundo aspecto, a invenção se relaciona a um códigode programa de computador executável, adaptado para habilitar umcomputador a executar o método de acordo com o primeiro aspecto. O códigode programa pode ser um código de programa genérico ou um código deprograma específico do processador. O código de programa pode ser adaptadopara ser executado em um Computador Pessoal ou em qualquer dispositivoincluindo um processador de dados. Este aspecto da invenção éparticularmente, porém não exclusivamente vantajoso em que a presenteinvenção pode ser implementada por um produto de programa de computadorhabilitando um sistema de computador a executar as operações do primeiroaspecto da invenção. Então, é contemplado que algum aparelho conhecidopode ser mudado para operar de acordo com a presente invenção, instalandoum produto de programa de computador no aparelho e então habilitar oaparelho a executar o método de acordo com o primeiro aspecto.
Em um terceiro aspecto, a invenção relaciona-se a um portadorde dados incluindo um código de programa de computador executável deacordo com o segundo aspecto. O portador de dados de qualquer espécie demeio legível por computador, por exemplo, meio baseado magneticamente ouopticamente, ou através de uma rede baseada em computador, por exemplo, aInternet.
Em um quarto aspecto, a invenção provê um dispositivocompreendendo meios de processamento adaptados para executar o métodode acordo com o primeiro aspecto. O dispositivo pode incluir meio dearmazenagem para armazenar um sumário gerado, e/ou meio de exibiçãoadaptado para mostrar o sumário. O dispositivo pode ser tal como umgravador de vídeo pessoal, um gravador de disco rígido, um reprodutor deDVD, uma câmera de vídeo, um servidor de mídia doméstico, umComputador Pessoal (PC), um dispositivo e-concentrador, um sistema devídeo sob demanda, etc.
Em um quinto aspecto, invenção relaciona-se a um sistemaincluindo um dispositivo de acordo com o quarto aspecto e meio de exibiçãoarranjado para exibir uma parte de vídeo do sumário. O sistema pode tambémincluir um alto-falante, no sentido de ser capaz de apresentar também umaparte de áudio do sumário gerado pelo dispositivo. O sistema pode serintegrado com um dispositivo, por exemplo, um aparelho de TV incluindo umcontrolador de disco rígido e meio de processamento adaptado para gerar osumário e, ou apresentá-lo na tela da TV ou armazená-lo no disco rígido.Alternativamente, o sistema pode ser formado por componentes separados,por exemplo, onde o dispositivo adaptado para gerar o sumário é um aparelhoindependente e outras partes do sistema incluem, por exemplo, meio deexibição e meio de armazenagem. Como um exemplo, o sistema pode ser umPC com software adaptado para gerar o sumário, baseado em seqüências devídeo ou fotos armazenadas em um servidor remoto conectado ao PC viaInternet.
E verificado que vantagens e realizações mencionadas para oprimeiro aspecto também se aplicam para o segundo, terceiro e quartoaspectos da invenção. Então, qualquer aspecto da presente invenção pode sercombinado com quaisquer dos outros aspectos.
BREVE DESCRIÇÃO DOS DESENHOS
A presente invenção será agora explicada, somente por meiode exemplo, com referência às figuras que a acompanham, onde
Figura 1 ilustra um fluxograma de uma realização preferida dométodo de acordo com a invenção,
Figura 2 ilustra o princípio de remover segmentos de umaseqüência de vídeo inicial de segmentos no sentido de chegar a um sumário,sendo um subconjunto de segmentos dos segmentos iniciais, e
Figura 3 ilustra um esboço de um dispositivo preferido deacordo com a invenção.
Figura 1 mostra um método preferido para gerar um sumáriode vídeo 3, de uma seqüência de vídeo 1, por exemplo, um filme comconteúdo audiovisual. Preferivelmente, informação textual adicional 2 estádisponível em adição à seqüência de vídeo 1. Tal informação textual adicional2 pode incluir subtítulos, legendas, transcrição de voz, roteiro, etc.
Especialmente, a informação textual adicional 2 pode ser extraída de umaparte de áudio da seqüência de vídeo 1, usando reconhecimento de voz paraprover texto representando linguagem falada. Ver, por exemplo, WO05/055196 A2 relacionada a identificação ou caracteres de filme usandoroteiro, transcrição, apresentações da rede e de áudio.
Primeiramente, uma segmentação temporal automática 10 daseqüência de vídeo 1 é executada. Aqui, a seqüência de vídeo 1 é dividida emsegmentos lógicos coerentes, onde cada segmento representa um instantâneoou cena do filme. A segmentação temporal pode ser baseada na detecção decontornos instantânea tal como conhecido na técnica, isto é, incluindo váriosdescritores de nível baixo que são usados para detectar diferenças entrequadros simples da seqüência de vídeo 1. deve ser entendido, que a etapa desegmentação temporal automática 10 pode ser omitida caso a seqüência devídeo 1 já esteja dividida em segmentos temporais, por exemplo, capítulosrepresentando instantâneos ou cenas.
A seguir, uma análise de conteúdo 20 é executada nossegmentos, no sentido de ser capaz de representar seu conteúdo calculando,para cada segmento, um conjunto de diferentes descritores de conteúdo.
Descritores de conteúdo em um nível algo baixo podem ser incluídos, bemcomo descritores de conteúdo em um nível realmente alto de abstração podemser usados. Se disponível, a análise de conteúdo 20 é preferivelmenteauxiliada por informação textual adicional 2 associada a cada segmento, porexemplo, informação sobre quais pessoas estão presentes na cena, etc.
Ambas parte de áudio e vídeo dos segmentos podem serusadas para calcular descritores de conteúdo - seja separadamente ou emcombinação. Uma lista não exaustiva de descritores de conteúdo é:
- distribuição de cor, por exemplo, calculando um histogramade cor,
- classe de áudio, analisando uma parte de áudio dossegmentos e categorizando seu conteúdo como, por exemplo, voz, silêncio,música, etc.,
- localização e presença de faces
- identificação de pessoa tal como usando reconhecimento deface e/ou voz,
- campo de visualização da cena, por exemplo, aproximação,média, distante, extremamente distante, etc.
Caso a informação textual adicional 2 esteja disponível, talcomo legendas ou screenplay tal informação é analisada para extrairdescritores textuais na forma de palavras chave sobre quais pessoas estãopresentes no segmento, o que está acontecendo, onde e quando (no tempo danarrativa) o evento está tendo lugar. Ver também WO 05/055196 A2relacionada a identificação ou caracteres de filme usando apresentações descreenplay transcrição, rede e áudio.
Após um número de descritores de conteúdo ter sido associadoa segmentos, relações entre os segmentos são estabelecidas 30, e umarepresentação muito compacta da seqüência de vídeo é então provida. Emconexão com as relações, são aplicados pesos com a finalidade de refletir sedois segmentos são logicamente relacionados (alto valor de peso) ou nãorelacionados logicamente (baixo valor de peso). Especialmente, tais pesos,para uma relação entre dois segmentos, podem ser vetores de pesos, ondecada peso representa uma medida de similaridade com respeito a um descritorde conteúdo. Então, para cada relação entre dois segmentos, existe umconjunto de pesos que descreve a relação lógica entre os segmentos emdiferentes aspectos.
Após os pesos terem sido aplicados às relações, a etapa dedeterminar uma medida de relevância 40 é executada para cada segmento. Amedida de relevância é preferivelmente determinada como a soma de todos ospesos associados a relações concernentes ao segmento particular. Então, se asoma de todos os pesos é alta, o segmento é considerado relevante, enquantoum segmento é considerado não relevante se a soma de todos os pesos forbaixa.
A próxima etapa inclui selecionar um subconjunto dossegmentos 50. Esta seleção pode ser feita, etapa por etapa, selecionandoprimeiro os segmentos com a medida mais alta de valores de relevância, porexemplo, omitindo um por um com um recálculo intermediário de pesos emedidas de relevância ou simplesmente efetuando a seleção omitindo umnúmero maior de segmentos de uma só vez, isto é, omitindo os segmentoscom os valores de medidas de relevância mais baixos.
A etapa final 60 é então gerar o sumário 3, considerando ossegmentos selecionados na seqüência de vídeo, isto é, os segmentos quetenham sido selecionados na etapa 50. Em uma realização simples, o sumário3 é simplesmente gerado concatenando os segmentos selecionados em ordemcronológica.
Como será verificado, o sumário 3 pode ser provido dequalquer forma como um sinal analógico ou digital ou em qualquer tipo derepresentação de dados adequada para reprodução imediata e/ouarmazenagem em um meio de armazenagem. Então, o método pode seraplicado para geração on-line do sumário 3, no caso da potência deprocessamento de dados necessária estar disponível, ou sumários deseqüências de vídeo de um arquivo de vídeo inteiro podem ser gerados off-line.
Em qualquer das etapas 30, 40, 50 e 60, uma entrada deusuário 4 pode ser levada em conta, no sentido de adequar o sumário final 3 apreferências pelo usuário, e então é possível personalizar a informaçãoapresentada no sumário, com base nas preferências 4 introduzidas pelousuário. Esta entrada 4 pode ter sido armazenada antecipadamente. Com basenas preferências pessoais, o sumário pode incluir elementos diferentes. Se a pessoa está mais interessada em certas partes de um filme, então segmentospertencentes a aquelas partes são selecionados através de segmentosenvolvendo outros elementos da história, etc. Para obter este tipo depersonalização, a entrada de usuário 4 pode incluir um perfil de usuário, porexemplo, palavras chave com pesos de importância associados, que sãoadicionados a segmentos casados durante a construção do sumário, isto é, emqualquer uma das etapas 30, 40, 50 e 60.
No caso da entrada de usuário 4 indicar preferências muitoespecíficas, isto pode também ser levado em conta já na etapa 10 ou 20, eestas etapas podem então ser arranjadas de tal modo a focar nos aspectos queinteressam ao usuário, e possivelmente outros aspectos podem ser omitidos,limitando deste modo a quantidade de potência de computação necessáriapara executar a etapa 20 e também possivelmente etapas subseqüentes, umavez que certas características dos segmentos podem ser irrelevantes para ousuário.
Em algumas realizações, o sumário pode também ser de multi-nível, por exemplo, um sumário com uma estrutura hierárquica. Deste modo,é possível para o usuário selecionar entre um conjunto de segmentos em umnível mais alto. A qualquer tempo, o usuário pode ir "mais fundo" na árvore eobter mais segmentos relacionados ao que está visualizando. E similarmente,o usuário pode retornar inesperadamente para um nível mais alto. Arepresentação de dados e processamento a serem descritos a seguir sãoadequados para tal seleção hierárquica de partes de segmentos.
Figura 2 ilustra em mais detalhe com esboços típicos as etapas30, 40 e 50. Um caso simples de uma seqüência de vídeo dividida em quatrosegmentos sl, s2, s3, s4 é ilustrada em 110 e então representa uma realizaçãoda etapa 30. Linhas conectando os segmentos sl, s2, s3, s4 indicam relaçõesentre os segmentos sl, s2, s3, s4. Vetores wl2, wl3, wl4, w23, w24, w34representam conjunto de pesos, cada peso representando um valor refletindouma medida da relação, por exemplo, uma correlação de similaridade oulógica entre os dois segmentos aos quais a relação se aplica. Um vetor incluipreferivelmente pesos separados para cada um dos descritores de conteúdoextraídos na etapa de análise de segmento 20. Então, o vetor wl2 inclui umconjunto de pesos indicativo de uma similaridade do conjunto de descritoresde conteúdo associados aos segmentos sl e s2. Conforme visto em 110, todosos dados são representados em um gráfico.
Os pesos aplicados a uma relação entre dois segmentos podemser baseados em uma grande variedade de descritores de conteúdo. Unspoucos exemplos de tipo de relações e como os pesos são aplicados com basenos descritores de conteúdo associados a cada um dos dois segmentos:
- sucessão, isto é, um peso indica se dois segmentos sãosegmentos sucessivos,
- ocorrência simultânea de palavra chave, isto é, segmentoscom as mesmas palavras chave ou similares tem um peso dados pelo númerode ocorrências simultâneas,
- aparecimento de pessoa ou caracter, isto é, o peso é dado pelaquantidade relativa total de tempo superposto em que a mesma pessoa oucaracter aparece nos dois segmentos,
- similaridade de conteúdo baseada em características de sinal,isto é, os pesos são dados pela função de similaridade real,
- similaridade de conteúdo baseada em classe de áudio, isto é,um peso alto indica a presença da mesma classe de áudio (voz, música, etc.)em um certo período de tempo nos dois segmentos,
- similaridade de conteúdo baseada no campo de visualização,isto é, um peso alto indica a presença do mesmo campo de visualização (porexemplo, aproximação, longa distância, média distância, etc.) em um certoperíodo de tempo nos dois segmentos.
A ocorrência simultânea de palavra chave e aparecimento depessoa ou caracter parecem ser características importantes para oestabelecimento de uma relação entre segmentos, que resulta em um sumário130 refletindo o enredo lógico dos segmentos de entrada sl, s2, s3, s4.
O gráfico 110 é uma representação muito compacta daseqüência de vídeo somente com uma quantidade limitada de valores dedados únicos. Sua estrutura provê indícios da importância relativa doconteúdo dos segmentos, e o gráfico 110 é uma representação útil para asetapas subseqüentes 40, 50 e 60.
Na etapa 40, uma medida de relevância é designada a cada umdos segmentos sl, s2, s3, s4 com base nos vetores wl2, wl3, wl4, w23, w24,w34. Preferivelmente, uma medida de relevância para um segmento é baseadaem uma soma de todos os pesos aplicados a relações para o segmento. Porexemplo, uma medida de relevância para o segmento sl pode ser expressacomo um vetor soma de wl2, wl3 e wl4. No caso de uma entrada de usuário4 indicar, por exemplo, uma preferência por um caracter específico em umfilme, a medida de relevância pode ser influenciada por esta preferência, porexemplo, aplicando peso extra ao peso dos vetores wl2, wl3, .wl4 indicandoa presença deste caracter quando a soma de pesos é calculada. Então, osumário final 3 pode ser sob medida no sentido que o usuário pode especificaruma versão mínima do sumário 3 que contém a essência da história e suaresolução ou uma versão ótima que inclui mais informação. Isto é tornadopossível devido à quantidade de informação e metadados que tem sidoextraída para a seqüência de vídeo e a representação gráfica 110 dos dados.
Na etapa 50, uma "poda do gráfico" é efetuada com base namedida relevante. Preferivelmente, a seleção de segmentos e as decisões dequais segmentos incluir no sumário são baseadas nos pesos dentro do gráficototal.
Isto é ilustrado em 120, onde o segmento s3 foi removido, umavez que é suposto que s3 foi o segmento dos quatro segmentos sl, s2, s3, s4com a medida de relevância mais baixa, e então o segmento que pode sersuposto ter um conteúdo que é o menos relevante para representar o núcleosemântico da seqüência de vídeo 1. Uma poda adicional é efetuada entre 120e 130, onde o segmento sl foi removido, uma vez que este é considerado osegmento menos relevante dos três segmentos restantes sl, s2, s4. Em geral, apoda de segmentos é continuada até que um critério de interrupção sejaalcançado. Por exemplo, o critério de interrupção é baseado em uma entradade usuário 4 indicando o tempo de reprodução máximo preferido do sumário,e então a poda é continuada até que os segmentos restantes possuam umtempo de execução total que é igual ou menor que o tempo de reproduçãoindicado na entrada de usuário 4. Alternativamente, o critério de interrupçãopode ser uma percentagem do tempo de execução da seqüência de vídeo 1inteira, por exemplo, o sumário pode ser escolhido para aproximar 70% dotempo de reprodução da seqüência de vídeo original.
Finalmente, quando um critério de interrupção é satisfeito, aetapa de gerar o sumário 60 pode ser executada. Em um execução simples, osumário é uma concatenação dos segmentos restantes, por exemplo, na Figura20 sumário 130 inclui segmentos s2 e s4, e o sumário 130 pode sersimplesmente o conteúdo de áudio-vídeo destes segmentos s2, s4,preferivelmente reproduzidos em ordem cronológica, de modo a melhorrefletir possivelmente a reprodução da gravação cronológica da seqüência devídeo 1.
Para criar o sumário, nós com o peso mínimo são removidosum por um, até que a extensão desejada seja alcançada. O peso do nó é asoma dos pesos dos arcos que estão conectados ao nó.
Figura 3 ilustra um sistema incluindo um dispositivo 210 comum processador 211 adaptado para executar o método de acordo com oprimeiro aspecto da invenção, isto é, o dispositivo 210 inclui meios de divisão211a, meios de análise 211b, meios de análise de relação 211c, meios dedeterminação de relevância 21 Id e um gerador de sumário 21 le. Odispositivo 210 pode ser um gravador de vídeo pessoal, um servidor de mídiadoméstico, um PC centro de mídia, um dispositivo e-concentrador, umsistema de vídeo sob demanda, etc. O dispositivo recebe um sinal incluindouma seqüência de vídeo 201, por exemplo, um vídeo MPEG compatível e umsinal de áudio recebido de um reprodutor de DVD integrado com odispositivo 210 ou com um reprodutor de DVD externo conectado aodispositivo 210. Em adição à seqüência de vídeo, o dispositivo 210 tambémrecebe informação textual adicional 202, associada à seqüência de vídeo 201.O dispositivo processa o sinal de entrada 201, 202 no processador 211 e geraem resposta um sumário 220. Conforme indicado com linhas tracejadas, odispositivo pode armazenar o sinal de entrada 201, 202 em um meio dearmazenagem incorporado 212, por exemplo, um disco rígido 212 e entãogerar o sumário 220 sob requisição. Alternativamente, o sumário 220 é geradoimediatamente e emitido, ou o sumário 220 é gerado e armazenado no meiode armazenagem 212, até que o sumário 220 seja requisitado.
O sistema da Figura 3 também mostra meio de apresentação desumário 230 adaptado para apresentar uma parte de vídeo 221 e uma parte deáudio 222 do sumário 220. A parte de vídeo 221 é apresentada em uma tela deexibição 231, por exemplo, um visor de LCD, enquanto a parte de áudio 222 éapresentada usando um alto-falante 232. Opcionalmente, o sumário 220 podeincluir partes da informação textual adicional 202. Estas partes da informaçãotextual adicional 202 podem ser exibidas na tela de exibição 231 ou em umainterface de usuário/visor adicional, e/ou as partes da informação textualadicional 202 podem ser apresentadas via alto-falante 232 no caso do texto serconvertido para conversação artificial por meio de síntese de voz. O meio deapresentação do sumário 230 pode ser um aparelho de TV com um alto-falante incorporado, etc.
A invenção pode ser implementada de qualquer formaadequada incluindo hardware, software, firmware ou qualquer combinaçãodestes. A invenção ou algumas características da invenção podem serimplementadas como software de computador executada em um ou maisprocessadores de dados e/ou processadores de sinal digital. Os elementos ecomponentes de uma realização da invenção podem ser fisicamente,funcionalmente e logicamente implementados de qualquer modo adequado.Realmente, a funcionalidade pode ser implementada em uma única unidade,em diversas unidades ou como parte de outras unidades funcionais. Como tal,a invenção pode ser implementada em uma única unidade, ou pode serfisicamente e funcionalmente distribuída entre diferentes unidades eprocessadores.
Embora a presente invenção tenha sido descrita em conexãocom as realizações especificadas, esta não é destinada a ser limitada à formaespecífica aqui relatada. Ao invés disso, o escopo da presente invenção élimitado apenas pelas reivindicações que a acompanham. Nas reivindicações,o termo "compreendendo" não exclui a presença de outros elementos ouetapas. Adicionalmente, embora características individuais possam serincluídas em reivindicações diferentes, estas podem ser possivelmentevantajosamente combinadas e a inclusão em reivindicações diferentes nãoimplica em que uma combinação de características não seja factível e/ouvantajosa. Em adição, referências no singular não excluem diversas. Então,referências a "um", "uma", "primeiro", "segundo", etc., não impedemdiversas. Ainda mais, sinais de referência nas reivindicações não serãoconsiderados como limitando o escopo.
Ainda mais, a invenção pode também ser realizada com menoscomponentes dos que os providos nas realizações aqui descritas, onde umcomponente realiza funções múltiplas. Também a invenção pode ser realizadausando mais elementos do que os exibidos na Figura 2, onde funçõesrealizadas por um componente na realização provida são distribuídos atravésde componentes múltiplos.
Uma pessoa especialista na técnica rapidamente verificará quevários parâmetros descritos na descrição podem ser modificados e que váriasrealizações descritas e/ou reivindicadas podem ser combinadas, sem se afastardo escopo da invenção.

Claims (19)

1. Método para prover um sumário de diversas imagens (1),caracterizado pelo fato de compreender:a) dividir as diversas imagens (1) em diversos segmentos (sl,s2, s3, s4), cada segmento (sl, s2, s3, s4) compreendendo pelo menos umaimagem,b) analisar cada segmento (sl, s2, s3, s4) com respeito aoconteúdo e associar um conjunto de descritores de conteúdo resultante daanálise do citado segmento (sl, s2, s3, s4),c) estabelecer relações entre os segmentos (sl, s2, s3, s4) combase nos descritores de conteúdo, onde cada relação entre o primeiro esegundo segmentos (sl, s2) tem um ou mais pesos (wl2) associados a ela, oum ou mais pesos (wl2) representando uma medida da relação entre oprimeiro e segundo segmentos (sl, s2),d) determinar, para cada segmento (sl) uma medida derelevância baseada nos pesos (wl2, wl3, wl4) associados a relações para ocitado segmento (sl),e) gerar um sumário (130) selecionando um subconjunto desegmentos (s2, s4) a partir dos diversos segmentos (sl, s2, s3, s4) com basenos parâmetros de relevância associados aos segmentos (sl, s2, s3, s4).
2. Método de acordo com a reivindicação 1, caracterizadopelo fato de que informação textual adicional disponível (2) associada a umsegmento (sl, s2, s3, s4) é levada em conta na análise de conteúdo do citadosegmento e ao estabelecer uma relação entre citado segmento e outrossegmentos.
3. Método de acordo com a reivindicação 2, caracterizadopelo fato de que a informação textual adicional (2) é extraída das diversasimagens (1).
4. Método de acordo com a reivindicação 1, caracterizadopelo fato de que as diversas imagens (1) incluem uma parte de vídeo e umaparte de áudio, e onde descritores de conteúdo são incluídos, levando emconta ambas parte de vídeo e parte de áudio.
5. Método de acordo com a reivindicação 4, caracterizadopelo fato de que as relações incluem pelo menos uma relação baseada na partede áudio e uma relação baseada na parte de vídeo.
6. Método de acordo com a reivindicação 1, caracterizadopelo fato de que as relações incluem pelo menos uma relação baseada em umadistância no tempo entre o primeiro e segundo segmentos.
7. Método de acordo com a reivindicação 1, caracterizadopelo fato de que as relações incluem pelo menos uma relação baseada naocorrência simultânea de palavras chave na primeira e segunda informaçãotextuais associadas aos respectivos primeiro e segundo segmentos.
8. Método de acordo com a reivindicação 1, caracterizadopelo fato de que as relações incluem pelo menos uma relação baseada noaparecimento simultâneo de uma pessoa no primeiro e segundo segmentos.
9. Método de acordo com a reivindicação 1, caracterizadopelo fato de que as relações incluem pelo menos uma relação baseada em umcampo de visualização em uma parte de vídeo dos segmentos.
10. Método de acordo com a reivindicação 1, caracterizadopelo fato de que a etapa e) inclui remover o segmento com a medida do valorde relevância mais baixo.
11. Método de acordo com a reivindicação 10, caracterizadopelo fato de que a medida de relevância para cada segmento (sl) é baseada emuma soma de todos os pesos (wl2, wl3, wl4) associados a relações para ocitado segmento (sl).
12. Método de acordo com a reivindicação 1, caracterizadopelo fato de que as etapas c) a e) são repetidas no sentido de reduzir umnúmero de segmentos até que o subconjunto de segmentos selecionado (s2,s4) satisfaça a um critério de interrupção predeterminado.
13. Método de acordo com a reivindicação 12, caracterizadopelo fato de que o critério de interrupção inclui um tempo de reprodução degravação máximo predeterminado do subconjunto selecionado de segmentos (s2, s4).
14. Método de acordo com a reivindicação 1, caracterizadopelo fato de que o sumário é gerado, levando em conta preferências (4)introduzidas por um usuário.
15. Método de acordo com a reivindicação 14, caracterizadopelo fato de que os pesos da etapa c) são calculados como uma função daspreferências (4) introduzidas pelo usuário.
16. Dispositivo (210) adaptado para gerar um sumário (220) dediversas imagens (201), caracterizado pelo fato de compreender meios deprocessamento (211) incluindo- meios de divisão (211a) arranjados para dividir as diversasimagens (201) em diversos segmentos, cada segmento compreendendo pelomenos uma imagem,- meios de análise (211b) arranjados para analisar cadasegmento com respeito ao conteúdo e associar um conjunto de descritores deconteúdo resultante da análise do citado segmento,- meios de análise de relação (211c) arranjados paraestabelecer relações entre os segmentos, onde cada relação entre primeiro esegundo segmentos possui um ou mais pesos baseados nos descritores deconteúdo associados a ela, o um ou mais pesos representando uma medida darelação entre o primeiro e segundo segmentos,- meios de determinação de relevância (211 d) arranjados paradeterminar, para cada segmento, uma medida de relevância baseada nos pesosassociados com relações para citado segmento,- gerador de sumário (2lie) arranjado para gerar o sumário(220) selecionando um subconjunto de segmentos a partir dos diversossegmentos com base nos parâmetros de relevância associados aos segmentos.
17. Sistema, caracterizado pelo fato de compreender umdispositivo (210) como definido na reivindicação 16, e meios de exibição(231) arranjados para exibir uma parte de vídeo (221) do sumário (220).
18. Código de programa executável por computador,caracterizado pelo fato de ser adaptado para executar o método como definidona reivindicação 1.
19. Portador de dados, caracterizado pelo fato de compreenderum código de programa executável por computador como definido nareivindicação 18.
BRPI0708456-0A 2006-03-03 2007-02-27 método para prover um sumário de diversas imagens, dispositivo adaptado para gerar um sumário de diversas imagens, sistema, código de programa executável por computador, e, portador de dados BRPI0708456A2 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP06300198.6 2006-03-03
EP06300198 2006-03-03
PCT/IB2007/050622 WO2007099496A1 (en) 2006-03-03 2007-02-27 Method and device for automatic generation of summary of a plurality of images

Publications (1)

Publication Number Publication Date
BRPI0708456A2 true BRPI0708456A2 (pt) 2011-05-31

Family

ID=38109469

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0708456-0A BRPI0708456A2 (pt) 2006-03-03 2007-02-27 método para prover um sumário de diversas imagens, dispositivo adaptado para gerar um sumário de diversas imagens, sistema, código de programa executável por computador, e, portador de dados

Country Status (8)

Country Link
US (1) US8204317B2 (pt)
EP (1) EP1999646A1 (pt)
JP (1) JP2009528756A (pt)
KR (1) KR20080114786A (pt)
CN (1) CN101395607B (pt)
BR (1) BRPI0708456A2 (pt)
RU (1) RU2440606C2 (pt)
WO (1) WO2007099496A1 (pt)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8392183B2 (en) 2006-04-25 2013-03-05 Frank Elmo Weber Character-based automated media summarization
US20080288537A1 (en) * 2007-05-16 2008-11-20 Fuji Xerox Co., Ltd. System and method for slide stream indexing based on multi-dimensional content similarity
US20090028517A1 (en) * 2007-07-27 2009-01-29 The University Of Queensland Real-time near duplicate video clip detection method
JP2010245853A (ja) * 2009-04-07 2010-10-28 Hitachi Ltd 動画インデクシング方法及び動画再生装置
US8856636B1 (en) * 2009-09-22 2014-10-07 Adobe Systems Incorporated Methods and systems for trimming video footage
KR101118536B1 (ko) * 2009-10-23 2012-03-12 세종대학교산학협력단 상호 작용이 가능한 콘텐츠 저작 수단을 제공하는 방법
WO2011069291A1 (en) * 2009-12-10 2011-06-16 Nokia Corporation Method, apparatus or system for image processing
EP2596626B8 (en) * 2010-07-20 2018-11-21 InterDigital Madison Patent Holdings Method for content presentation during trick mode operations
US8665345B2 (en) * 2011-05-18 2014-03-04 Intellectual Ventures Fund 83 Llc Video summary including a feature of interest
US9069850B2 (en) 2011-11-08 2015-06-30 Comcast Cable Communications, Llc Content descriptor
US9846696B2 (en) * 2012-02-29 2017-12-19 Telefonaktiebolaget Lm Ericsson (Publ) Apparatus and methods for indexing multimedia content
EP2823754A4 (en) 2012-03-07 2015-12-30 Olympus Corp Image processing device, program and image processing method
CN104203065B (zh) * 2012-03-08 2017-04-12 奥林巴斯株式会社 图像处理装置和图像处理方法
EP2839770A4 (en) 2012-04-18 2015-12-30 Olympus Corp Image processing device, program and image processing method
US9633015B2 (en) 2012-07-26 2017-04-25 Telefonaktiebolaget Lm Ericsson (Publ) Apparatus and methods for user generated content indexing
US20140089803A1 (en) * 2012-09-27 2014-03-27 John C. Weast Seek techniques for content playback
US10691737B2 (en) * 2013-02-05 2020-06-23 Intel Corporation Content summarization and/or recommendation apparatus and method
CN105075244A (zh) * 2013-03-06 2015-11-18 汤姆逊许可公司 视频的图示概要
KR20150127070A (ko) * 2013-03-06 2015-11-16 톰슨 라이센싱 비디오를 위한 픽토리얼 요약
US10445367B2 (en) 2013-05-14 2019-10-15 Telefonaktiebolaget Lm Ericsson (Publ) Search engine for textual content and non-textual content
US10289810B2 (en) 2013-08-29 2019-05-14 Telefonaktiebolaget Lm Ericsson (Publ) Method, content owner device, computer program, and computer program product for distributing content items to authorized users
WO2015030645A1 (en) 2013-08-29 2015-03-05 Telefonaktiebolaget L M Ericsson (Publ) Methods, computer program, computer program product and indexing systems for indexing or updating index
US9583105B2 (en) * 2014-06-06 2017-02-28 Microsoft Technology Licensing, Llc Modification of visual content to facilitate improved speech recognition
CN104202658A (zh) * 2014-08-29 2014-12-10 北京奇虎科技有限公司 视频分组播放的方法及系统
CN104202657B (zh) * 2014-08-29 2018-09-18 北京奇虎科技有限公司 对同主题视频组中的多个视频选择播放的方法及装置
CN104268504B (zh) * 2014-09-02 2017-10-27 百度在线网络技术(北京)有限公司 图片识别方法和装置
KR102340196B1 (ko) * 2014-10-16 2021-12-16 삼성전자주식회사 동영상 처리 장치 및 방법
CN105989067B (zh) * 2015-02-09 2019-09-03 华为技术有限公司 从图片生成文本摘要的方法、用户设备及训练服务器
WO2016209400A1 (en) * 2015-06-24 2016-12-29 Technicolor Usa, Inc. Optimized delivery of sequential content by skipping redundant segments
CN105228033B (zh) * 2015-08-27 2018-11-09 联想(北京)有限公司 一种视频处理方法及电子设备
US10939187B1 (en) * 2016-08-11 2021-03-02 Amazon Technologies, Inc. Traversing a semantic graph to process requests for video
RU2637998C1 (ru) * 2016-09-12 2017-12-08 Общество С Ограниченной Ответственностью "Яндекс" Способ и система создания краткого изложения цифрового контента
US10362340B2 (en) 2017-04-06 2019-07-23 Burst, Inc. Techniques for creation of auto-montages for media content
US10255502B2 (en) 2017-05-18 2019-04-09 Wipro Limited Method and a system for generating a contextual summary of multimedia content
US11363352B2 (en) 2017-09-29 2022-06-14 International Business Machines Corporation Video content relationship mapping
US11102523B2 (en) * 2019-03-19 2021-08-24 Rovi Guides, Inc. Systems and methods for selective audio segment compression for accelerated playback of media assets by service providers
US11039177B2 (en) 2019-03-19 2021-06-15 Rovi Guides, Inc. Systems and methods for varied audio segment compression for accelerated playback of media assets
US10708633B1 (en) 2019-03-19 2020-07-07 Rovi Guides, Inc. Systems and methods for selective audio segment compression for accelerated playback of media assets
CN110324709A (zh) * 2019-07-24 2019-10-11 新华智云科技有限公司 一种视频生成的处理方法、装置、终端设备及存储介质
US11361515B2 (en) * 2020-10-18 2022-06-14 International Business Machines Corporation Automated generation of self-guided augmented reality session plans from remotely-guided augmented reality sessions
CN113784174B (zh) * 2021-01-21 2024-07-16 北京沃东天骏信息技术有限公司 生成视频预览动态图的方法、装置、电子设备及介质
CN114697760B (zh) 2022-04-07 2023-12-19 脸萌有限公司 一种处理方法、装置、电子设备及介质
CN114697762B (zh) * 2022-04-07 2023-11-28 脸萌有限公司 一种处理方法、装置、终端设备及介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3250467B2 (ja) * 1996-10-04 2002-01-28 松下電器産業株式会社 映像要約方法および映像表示方法
US6744922B1 (en) 1999-01-29 2004-06-01 Sony Corporation Signal processing method and video/voice processing device
US6535639B1 (en) * 1999-03-12 2003-03-18 Fuji Xerox Co., Ltd. Automatic video summarization using a measure of shot importance and a frame-packing method
US6331859B1 (en) * 1999-04-06 2001-12-18 Sharp Laboratories Of America, Inc. Video skimming system utilizing the vector rank filter
US6763069B1 (en) 2000-07-06 2004-07-13 Mitsubishi Electric Research Laboratories, Inc Extraction of high-level features from low-level features of multimedia content
US6925455B2 (en) * 2000-12-12 2005-08-02 Nec Corporation Creating audio-centric, image-centric, and integrated audio-visual summaries
US7203620B2 (en) * 2001-07-03 2007-04-10 Sharp Laboratories Of America, Inc. Summarization of video content
US7339992B2 (en) 2001-12-06 2008-03-04 The Trustees Of Columbia University In The City Of New York System and method for extracting text captions from video and generating video summaries
US7333712B2 (en) * 2002-02-14 2008-02-19 Koninklijke Philips Electronics N.V. Visual summary for scanning forwards and backwards in video content
WO2003090444A2 (en) 2002-04-15 2003-10-30 The Trustees Of Columbia University In The City Of New York Methods for selecting a subsequence of video frames from a sequence of video frames
US20040088723A1 (en) 2002-11-01 2004-05-06 Yu-Fei Ma Systems and methods for generating a video summary
US7480442B2 (en) 2003-07-02 2009-01-20 Fuji Xerox Co., Ltd. Systems and methods for generating multi-level hypervideo summaries
WO2005055196A2 (en) 2003-12-05 2005-06-16 Koninklijke Philips Electronics N.V. System & method for integrative analysis of intrinsic and extrinsic audio-visual data
US8200063B2 (en) * 2007-09-24 2012-06-12 Fuji Xerox Co., Ltd. System and method for video summarization

Also Published As

Publication number Publication date
US8204317B2 (en) 2012-06-19
JP2009528756A (ja) 2009-08-06
WO2007099496A1 (en) 2007-09-07
RU2440606C2 (ru) 2012-01-20
CN101395607B (zh) 2011-10-05
US20090041356A1 (en) 2009-02-12
EP1999646A1 (en) 2008-12-10
KR20080114786A (ko) 2008-12-31
CN101395607A (zh) 2009-03-25
RU2008139306A (ru) 2010-04-10

Similar Documents

Publication Publication Date Title
BRPI0708456A2 (pt) método para prover um sumário de diversas imagens, dispositivo adaptado para gerar um sumário de diversas imagens, sistema, código de programa executável por computador, e, portador de dados
Sundaram et al. A utility framework for the automatic generation of audio-visual skims
KR101994592B1 (ko) 비디오 콘텐츠의 메타데이터 자동 생성 방법 및 시스템
Sundaram et al. Determining computable scenes in films and their structures using audio-visual memory models
Truong et al. Video abstraction: A systematic review and classification
US10134440B2 (en) Video summarization using audio and visual cues
US20020051077A1 (en) Videoabstracts: a system for generating video summaries
US20070101266A1 (en) Video summary description scheme and method and system of video summary description data generation for efficient overview and browsing
JP2006319980A (ja) イベントを利用した動画像要約装置、方法及びプログラム
JP2004533756A (ja) 自動コンテンツ分析及びマルチメデイア・プレゼンテーションの表示
KR20060008897A (ko) 콘텐트 분석을 사용하여 뮤직 비디오를 요약하기 위한 방법및 장치
TW200849030A (en) System and method of automated video editing
EP2104937A1 (fr) Procede de creation d'un nouveau sommaire d'un document audiovisuel comportant deja un sommaire et des reportages et recepteur mettant en uvre le procede
US20100131464A1 (en) Method and apparatus for enabling simultaneous reproduction of a first media item and a second media item
Gagnon et al. A computer-vision-assisted system for videodescription scripting
Tseng et al. Hierarchical video summarization based on context clustering
Tseng et al. Personalized video summary using visual semantic annotations and automatic speech transcriptions
Darabi et al. Video summarization by group scoring
Xu et al. Users tagging visual moments: timed tags in social video
Brachmann et al. Keyframe-less integration of semantic information in a video player interface
Pastra Beyond Multimedia Integration: corpora and annotations for cross-media decision mechanisms.
Dong et al. Educational documentary video segmentation and access through combination of visual, audio and text understanding
WO2021023397A1 (fr) Procede et appareil d'enrichissement de contenu multimedia par des meta-informations
Kang Video abstraction techniques for a digital library
Georgantopoulos et al. Cross-media summarization in a retrieval setting

Legal Events

Date Code Title Description
B08F Application dismissed because of non-payment of annual fees [chapter 8.6 patent gazette]

Free format text: REFERENTE A 7A ANUIDADE.

B08K Patent lapsed as no evidence of payment of the annual fee has been furnished to inpi [chapter 8.11 patent gazette]

Free format text: REFERENTE AO DESPACHO 8.6 PUBLICADO NA RPI 2246 DE 21/01/2014.