BRPI0708456A2

BRPI0708456A2 - método para prover um sumário de diversas imagens, dispositivo adaptado para gerar um sumário de diversas imagens, sistema, código de programa executável por computador, e, portador de dados

Info

Publication number: BRPI0708456A2
Application number: BRPI0708456-0A
Authority: BR
Inventors: Mauro Barbieri; Lalitha Agnihotri; Nevenka Dimitrova
Original assignee: Koninkl Philips Electronics Nv
Priority date: 2006-03-03
Filing date: 2007-02-27
Publication date: 2011-05-31
Also published as: US8204317B2; JP2009528756A; WO2007099496A1; RU2440606C2; CN101395607B; US20090041356A1; EP1999646A1; KR20080114786A; CN101395607A; RU2008139306A

Abstract

MéTODO PARA PROVER UM SUMARIO DE DIVERSAS IMAGENS, DISPOSITIVO ADAPTADO PARA GERAR UM SUMARIO DE DIVERSAS IMAGENS, SISTEMA, CóDIGO DE PROGRAMA EXECUTAVEL POR COMPUTADOR, E, PORTADOR DE DADOS Método e dispositivo para prover um sumário de diversas imagens, por exemplo, uma seqúência de vídeo. O método inclui dividir a seqúência de vídeo em diversos segmentos. Os segmentos são analisados com respeito ao conteúdo e um conjunto de descritores de conteúdo é associado aos segmentos. Preferivelmente, informação textual adicional sobre os segmentos, roteiro, etc., é usada para determinar os descritores de conteúdo. Um gráfico representando relações entre os segmentos é construído indicando relações entre segmentos. Pesos são associados às relações, de modo a representar uma medida da relação, por exemplo, uma correlação lógica, entre segmentos. Os pesos são baseados nos descritores de conteúdo calculados. Uma medida de relevância para um segmento é determinada com base em todos os pesos associados a relações com o citado segmento. Finalmente, um sumário é gerado selecionando os segmentos mais relevantes. O método podecriar um sumário automático ou um filme que preserva todo o enredo lógico do original, porém é mais curto em duração (por exemplo, 70% do filme original) enquanto a taxa de reprodução de gravação original é preservada.

Description

"MÉTODO PARA PROVER UM SUMÁRIO DE DIVERSAS IMAGENS,DISPOSITIVO ADAPTADO PARA GERAR UM SUMÁRIO DEDIVERSAS IMAGENS, SISTEMA, CÓDIGO DE PROGRAMAEXECUTÁVEL POR COMPUTADOR, E, PORTADOR DE DADOS"

A presente invençãoo relaciona-se ao campo de extrair umsumário de conteúdo de diversas imagens, por exemplo, uma seqüência devídeo. Mais especificamente, a invenção provê um método e um dispositivopara geração automática de um sumário de diversas imagens, onde uma linhade história ou o enredo lógico é preservado.

Sumarização tem se tornado uma ferramenta altamentenecessária na navegação e busca de coleções de vídeo doméstico e arquivosde vídeo produzidos ou arquivos de fotos, poupando tempo dos usuários eoferecendo grande controle e visão geral. Vários tipos de métodos desumarização tem sido oferecidos na literatura: tabela visual de conteúdos,exame superficial, e sumários multimídia. Também, vários domínios tem sidoexplorados, tais como sumarização de vídeo estruturada para noticias, vídeosde música, e esportes.

Usuários gostariam de assistir a um filme em um tempo maiscurto que a duração original, embora entendendo o enredo lógico, isto é, éuma exigência que a linha de história global do filme seja preservada. Temsido propostos algoritmos para avanço rápido e compressão de áudio, quepermitem acelerar o ritmo de visualização até 1,5-2 vezes. Uma possibilidadeé aumentar a velocidade de reprodução da gravação, entretanto, a reproduçãoda gravação rápida exige um nível de atenção muito alto dos observadores epode se tornar cômica e incompreensível.

Então, ainda permanece uma meta de ser sumarização de vídeonarrativa, que inclui métodos para sumarização de conteúdo narrativo de umaseqüência de vídeo, tais como filmes, documentários e vídeos domésticos. Asumarização para conteúdo de multimídia narrativo tal como filme é umtópico de pesquisa ativo, entretanto, o objetivo usual é criar previsões que nãoconduzam toda a informação sobre a história do filme original.

WO 03/090444 descreve métodos para selecionar umasubseqüência de quadros de um vídeo, a partir de uma seqüência de vídeo.

Uma função de distância relacionando dois quadros de vídeo um ao outro édefinida na seqüência de quadros de vídeo, por exemplo, uma distância entrehistogramas RGB dos quadros. Um critério de otimização é definido paraexpressar uma característica de diversas subseqüências de quadros de vídeoselecionados da seqüência de quadros de vídeo. Uma subseqüência dequadros de vídeo é então determinada, otimizando os valores de uma funçãode critério de otimização definida em todas as subseqüências, por exemplo,uma função de energia. Em WO 03/090444, a função de distânciarelacionando quadros uns aos outros é baseada em uma distância visual entrequadros. Então, a subseqüência selecionada de quadros será um conjunto dequadros de código que são os quadros mais diferentes com respeito aconteúdo visual, e então em um sentido serem representativos da seqüência devídeo. Entretanto, uma vez que dois quadros são apenas inter-relacionados poruma distância visual, a subseqüência selecionada não representaránecessariamente um sumário refletindo a linha de história e o significado realda seqüência de vídeo.

Daí, é um objetivo prover um método e sistema desumarização capaz de prover uma seqüência de sumário refletindo o enredológico de diversas imagens, por exemplo, uma seqüência de vídeo, e aindacom a mesma taxa de reprodução de gravação que a seqüência de vídeooriginal.

Este objetivo e vários outros objetivos são obtidos em umprimeiro aspecto da invenção, provendo um método para prover um sumáriode diversas imagens, o método compreendendo:

a) dividir as diversas imagens em diversos segmentos, cadasegmento compreendendo pelo menos uma imagem,

b) analisar cada segmento com respeito a conteúdo e associarum conjunto de descritores de conteúdo resultante da análise do citadosegmento,

c) estabelecer relações entre os segmentos, com base nosdescritores de conteúdo, onde cada relação entre o primeiro e segundosegmentos tem um ou mais pesos associada a ela, o um ou mais pesosrepresentando uma medida da relação entre o primeiro e segundo segmentos,

d) determinar, para cada segmento, uma medida de relevância10 baseada nos pesos associados com relações do citado segmento,

e) gerar um sumário, selecionando um subconjunto desegmentos a partir dos diversos segmentos, com base nos parâmetros derelevância associados aos segmentos.

Por "diversas imagens" é entendido um conjunto de imagens,tal como um arquivo de fotos ou uma seqüência de vídeo de quadros deimagem. Por "medida da relação" deve ser entendida uma medidarepresentando um grau de relação entre dois segmentos. Por exemplo, a"medida da relação" pode ser uma medida representando correlação lógicaentre segmentos ou pode simplesmente ser uma medida de quão similares sãoos segmentos, com respeito a um descritor de conteúdo específico.

A invenção é particularmente, porém não exclusivamente,vantajosa para gerar automaticamente um sumário de um filme ou um vídeodoméstico, etc. Em realizações preferidas, é possível gerar automaticamenteum sumário que incluirá a essência da seqüência de vídeo de entrada original,e uma vez que o sumário é gerado a partir de segmentos selecionados oucenas da seqüência de vídeo original, o sumário terá um taxa de reproduçãode gravação natural, isto é, sem introduzir uma alta velocidade forçada e nãonatural.

O método pode também ser usado para gerar um sumário deum arquivo de fotos, por exemplo, um arquivo de fotos de férias, etc., onde édesejado ter um sumário representativo do conteúdo das fotos. No caso defotos, um segmento pode ser uma única foto ou um conjunto de fotos.

No caso de, por exemplo, uma seqüência de vídeo que já tenhasido dividida em segmentos, por exemplo, um capítulo para cada cena daseqüência de vídeo, deve ser entendido que a etapa a) pode ser omitida. Casocontrário, a etapa a) pode incluir uma segmentação temporal, por exemplo,baseada na detecção de contornos de segmento usando um método dedetecção de diferença de quadro, conforme conhecido na técnica.

Na etapa c), é estabelecida uma representação muito compactadas diversas imagens, usando uma quantidade muito limitada de dados. Porexemplo, um filme de 1,5 horas pode ser representado usando 5-10descritores de conteúdo e tipicamente uma divisão em 700-1000 segmentos.

Preferivelmente, a etapa e) inclui selecionar os segmentos como valor de medida de relevância mais alto. Em outras palavra, o um ou maissegmentos com o menor grau de relação com os segmentos restantes dasdiversas imagens, são omitidos primeiro, e então excluídos só sumário. Destemodo, é efetivamente assegurado que o sumário será baseado em segmentoscom o conteúdo semântico máximo possível das diversas imagens, e então osumário refletirá no melhor grau possível o núcleo do significado das diversasimagens.

Uma vez que os pesos indicam em que grau dois segmentosestão relacionados (valor de peso alto reflete alto grau de relação; o pesopoderia, por exemplo, ser determinado como fator de correlação entreconjuntos de parâmetros de dois segmentos, os conjuntos compreendendopelo menos um parâmetro), a medida de relevância é preferivelmentecalculada com base em uma soma de todos os pesos associados a relaçõescom um segmento particular. A medida de relevância pode especialmente serigual à soma de todos os pesos associados a relações com o segmentoparticular.

Nas realizações preferidas, informação textual adicionalassociada a um segmento é levada em conta na análise de conteúdo do citadosegmento, por exemplo, na etapa b) e preferivelmente também paraestabelecer uma relação entre o citado segmento e outros segmentos. Ainformação textual pode ser embutida no conteúdo de vídeo, por exemplo,subtítulos ou armazenada no mesmo portador físico ou lógico com umaseqüência de vídeo, por exemplo, subtítulos em discos DVD ou legendastransmitidas juntamente com radiodifusões de TV.

Então, informação textual adicional pode ser usada parasuportar a análise de conteúdo que pode, caso contrário, ser baseada somenteem um algoritmo automático aplicado às próprias diversas imagens. No casoda informação textual adicional ser embutida nas próprias diversas imagens,por exemplo, como subtítulos, uma etapa extra preferida inclui a etapa deextrair tal informação textual adicional dos diversos segmentos, no sentido deser capaz de levar em conta para análise adicional. A extração da informaçãotextual adicional pode incluir reconhecimento de voz no caso da informaçãotextual ter que ser extraída, por exemplo, de conversação narrativa embutidaem uma parte da áudio, em conexão com as diversas imagens.

Pode ser preferido incluir, no sumário, parte relevante dainformação textual adicional. Isto pode ser feito como subtítulos em umaparte de vídeo do sumário e/ou convertendo a informação textual adicionalem voz, usando um método de síntese de voz.

As diversas imagens podem ser somente imagens ou quadrosde imagens, ou adicionalmente uma parte de áudio associada às diversasimagens, por exemplo, uma trilha sonora de um filme. A informação textualadicional pode incluir um breve texto que descreve uma cena de um filme, porexemplo, com informação incluindo quem, onde e quando. Em geral, ainformação textual adicional pode incluir, por exemplo: subtítulos (porexemplo, introduzidos manualmente e sincronizados por humanos), um scriptde filme (por exemplo, escrito por humanos e automaticamente alinhado auma seqüência de vídeo), uma transcrição de voz (por exemplo, escrita porhumano ou gerada por meio de reconhecimento automático de voz).

Informação textual adicional pode ser provida como um serviço separado paraprover anotações manuais sincronizadas com a seqüência de vídeo, para afinalidade de facilitar a coleção personalizada do leitor, por exemplo, dadossobre "quem está em cena", "o que está em cena", "onde é a cena", "porquealgo está acontecendo ou sendo mostrado", etc.

No caso, as diversas imagens incluem ambas parte de vídeo eparte de áudio, descritores de conteúdo levando em conta ambas parte devídeo e parte de áudio são preferivelmente incluídos. Por exemplo, ambasimagens e um sinal de voz podem ser analisados e usados para extrairinformação relativa a qual(is) pessoa(s) ou caracter(es) de filme está/estãopresentes em um certo segmento de uma seqüência de vídeo. Preferivelmente,as relações incluem pelo menos uma relação baseada na parte de áudio e umarelação baseada na parte de vídeo. Deste modo, a melhor utilização possíveldos dados disponíveis em conexão com as diversas imagens, isto é, ambosdados de vídeo e áudio, é provida.

Preferivelmente, as relações incluem pelo menos uma relaçãobaseada em um ou mais dentre:

1) uma distância no tempo entre o primeiro e segundosegmentos,

2) ocorrência simultânea de palavras chave na informaçãotextual associada aos respectivos primeiro e segundo segmentos,

3) aparecimento simultâneo de uma pessoa no primeiro esegundo segmentos,

4) um campo de visualização em uma parte de vídeo dossegmentos.Com respeito a 1), segmentos afastados no tempo deveriam serdesignados a uma grande distância, e portanto, um peso entre dois segmentosvisualmente similares porém distante no tempo não deveria ser tão grandequanto os segmentos estão também próximos um do outro no tempo, porexemplo, quando estes realmente pertencem à mesma cena ou capítulo.

Com respeito a 3), identificação de pessoa baseada em, porexemplo, detecção de face, e/ou reconhecimento de voz deveria ser incluídona etapa b).

Com respeito a 4), é entendido como campo de visualização,uma distância da câmera do assunto, e a distância focai da lente usada nosegmento particular, por exemplo, aproximação, distância longa, distânciamédia, etc.

Preferivelmente, as etapas c) a e) são repetidas no sentido dereduzir um número de segmentos, por exemplo, um por um, até que osubconjunto de segmento selecionado satisfaça a um critério de paradapredeterminado. Tal critério de parada pode ser um tempo de reprodução degravação máximo predeterminado do subconjunto selecionado de segmentos.Por exemplo, um usuário deseja ver uma redução de 45 minutos de um filmede 1,5 horas. Então, os segmentos são removidos até que o tempo dereprodução de gravação total dos segmentos restante seja igual ou menor que45 minutos.

Em geral, o sumário pode ser gerado levando em contapreferências introduzidas por um usuário, por exemplo, com respeito a tempode reprodução de gravação, conforme mencionado acima. Entretanto,preferências do usuário relativas a tópicos específicos ou caracteres do filmepodem ser introduzidas pelo usuário e levadas em conta em qualquer uma oumais etapas c), d) e e), e assim o sumário reflete preferências especiais pelousuário. Por ex:emplo, o usuário pode estar interessado em perseguições decarros e então segmentos incluindo perseguições de carro são removidos maistarde em relação a outros segmentos, por exemplo, manipulando uma medidade relevância para ser mais alta em segmentos com cenas de perseguição decarros. Especialmente, os pesos da etapa c) podem ser calculados como umafunção das preferências introduzidas pelo usuário.

Em um segundo aspecto, a invenção se relaciona a um códigode programa de computador executável, adaptado para habilitar umcomputador a executar o método de acordo com o primeiro aspecto. O códigode programa pode ser um código de programa genérico ou um código deprograma específico do processador. O código de programa pode ser adaptadopara ser executado em um Computador Pessoal ou em qualquer dispositivoincluindo um processador de dados. Este aspecto da invenção éparticularmente, porém não exclusivamente vantajoso em que a presenteinvenção pode ser implementada por um produto de programa de computadorhabilitando um sistema de computador a executar as operações do primeiroaspecto da invenção. Então, é contemplado que algum aparelho conhecidopode ser mudado para operar de acordo com a presente invenção, instalandoum produto de programa de computador no aparelho e então habilitar oaparelho a executar o método de acordo com o primeiro aspecto.

Em um terceiro aspecto, a invenção relaciona-se a um portadorde dados incluindo um código de programa de computador executável deacordo com o segundo aspecto. O portador de dados de qualquer espécie demeio legível por computador, por exemplo, meio baseado magneticamente ouopticamente, ou através de uma rede baseada em computador, por exemplo, aInternet.

Em um quarto aspecto, a invenção provê um dispositivocompreendendo meios de processamento adaptados para executar o métodode acordo com o primeiro aspecto. O dispositivo pode incluir meio dearmazenagem para armazenar um sumário gerado, e/ou meio de exibiçãoadaptado para mostrar o sumário. O dispositivo pode ser tal como umgravador de vídeo pessoal, um gravador de disco rígido, um reprodutor deDVD, uma câmera de vídeo, um servidor de mídia doméstico, umComputador Pessoal (PC), um dispositivo e-concentrador, um sistema devídeo sob demanda, etc.

Em um quinto aspecto, invenção relaciona-se a um sistemaincluindo um dispositivo de acordo com o quarto aspecto e meio de exibiçãoarranjado para exibir uma parte de vídeo do sumário. O sistema pode tambémincluir um alto-falante, no sentido de ser capaz de apresentar também umaparte de áudio do sumário gerado pelo dispositivo. O sistema pode serintegrado com um dispositivo, por exemplo, um aparelho de TV incluindo umcontrolador de disco rígido e meio de processamento adaptado para gerar osumário e, ou apresentá-lo na tela da TV ou armazená-lo no disco rígido.Alternativamente, o sistema pode ser formado por componentes separados,por exemplo, onde o dispositivo adaptado para gerar o sumário é um aparelhoindependente e outras partes do sistema incluem, por exemplo, meio deexibição e meio de armazenagem. Como um exemplo, o sistema pode ser umPC com software adaptado para gerar o sumário, baseado em seqüências devídeo ou fotos armazenadas em um servidor remoto conectado ao PC viaInternet.

E verificado que vantagens e realizações mencionadas para oprimeiro aspecto também se aplicam para o segundo, terceiro e quartoaspectos da invenção. Então, qualquer aspecto da presente invenção pode sercombinado com quaisquer dos outros aspectos.

BREVE DESCRIÇÃO DOS DESENHOS

A presente invenção será agora explicada, somente por meiode exemplo, com referência às figuras que a acompanham, onde

Figura 1 ilustra um fluxograma de uma realização preferida dométodo de acordo com a invenção,

Figura 2 ilustra o princípio de remover segmentos de umaseqüência de vídeo inicial de segmentos no sentido de chegar a um sumário,sendo um subconjunto de segmentos dos segmentos iniciais, e

Figura 3 ilustra um esboço de um dispositivo preferido deacordo com a invenção.

Figura 1 mostra um método preferido para gerar um sumáriode vídeo 3, de uma seqüência de vídeo 1, por exemplo, um filme comconteúdo audiovisual. Preferivelmente, informação textual adicional 2 estádisponível em adição à seqüência de vídeo 1. Tal informação textual adicional2 pode incluir subtítulos, legendas, transcrição de voz, roteiro, etc.

Especialmente, a informação textual adicional 2 pode ser extraída de umaparte de áudio da seqüência de vídeo 1, usando reconhecimento de voz paraprover texto representando linguagem falada. Ver, por exemplo, WO05/055196 A2 relacionada a identificação ou caracteres de filme usandoroteiro, transcrição, apresentações da rede e de áudio.

Primeiramente, uma segmentação temporal automática 10 daseqüência de vídeo 1 é executada. Aqui, a seqüência de vídeo 1 é dividida emsegmentos lógicos coerentes, onde cada segmento representa um instantâneoou cena do filme. A segmentação temporal pode ser baseada na detecção decontornos instantânea tal como conhecido na técnica, isto é, incluindo váriosdescritores de nível baixo que são usados para detectar diferenças entrequadros simples da seqüência de vídeo 1. deve ser entendido, que a etapa desegmentação temporal automática 10 pode ser omitida caso a seqüência devídeo 1 já esteja dividida em segmentos temporais, por exemplo, capítulosrepresentando instantâneos ou cenas.

A seguir, uma análise de conteúdo 20 é executada nossegmentos, no sentido de ser capaz de representar seu conteúdo calculando,para cada segmento, um conjunto de diferentes descritores de conteúdo.

Descritores de conteúdo em um nível algo baixo podem ser incluídos, bemcomo descritores de conteúdo em um nível realmente alto de abstração podemser usados. Se disponível, a análise de conteúdo 20 é preferivelmenteauxiliada por informação textual adicional 2 associada a cada segmento, porexemplo, informação sobre quais pessoas estão presentes na cena, etc.

Ambas parte de áudio e vídeo dos segmentos podem serusadas para calcular descritores de conteúdo - seja separadamente ou emcombinação. Uma lista não exaustiva de descritores de conteúdo é:

- distribuição de cor, por exemplo, calculando um histogramade cor,

- classe de áudio, analisando uma parte de áudio dossegmentos e categorizando seu conteúdo como, por exemplo, voz, silêncio,música, etc.,

- localização e presença de faces

- identificação de pessoa tal como usando reconhecimento deface e/ou voz,

- campo de visualização da cena, por exemplo, aproximação,média, distante, extremamente distante, etc.

Caso a informação textual adicional 2 esteja disponível, talcomo legendas ou screenplay tal informação é analisada para extrairdescritores textuais na forma de palavras chave sobre quais pessoas estãopresentes no segmento, o que está acontecendo, onde e quando (no tempo danarrativa) o evento está tendo lugar. Ver também WO 05/055196 A2relacionada a identificação ou caracteres de filme usando apresentações descreenplay transcrição, rede e áudio.

Após um número de descritores de conteúdo ter sido associadoa segmentos, relações entre os segmentos são estabelecidas 30, e umarepresentação muito compacta da seqüência de vídeo é então provida. Emconexão com as relações, são aplicados pesos com a finalidade de refletir sedois segmentos são logicamente relacionados (alto valor de peso) ou nãorelacionados logicamente (baixo valor de peso). Especialmente, tais pesos,para uma relação entre dois segmentos, podem ser vetores de pesos, ondecada peso representa uma medida de similaridade com respeito a um descritorde conteúdo. Então, para cada relação entre dois segmentos, existe umconjunto de pesos que descreve a relação lógica entre os segmentos emdiferentes aspectos.

Após os pesos terem sido aplicados às relações, a etapa dedeterminar uma medida de relevância 40 é executada para cada segmento. Amedida de relevância é preferivelmente determinada como a soma de todos ospesos associados a relações concernentes ao segmento particular. Então, se asoma de todos os pesos é alta, o segmento é considerado relevante, enquantoum segmento é considerado não relevante se a soma de todos os pesos forbaixa.

A próxima etapa inclui selecionar um subconjunto dossegmentos 50. Esta seleção pode ser feita, etapa por etapa, selecionandoprimeiro os segmentos com a medida mais alta de valores de relevância, porexemplo, omitindo um por um com um recálculo intermediário de pesos emedidas de relevância ou simplesmente efetuando a seleção omitindo umnúmero maior de segmentos de uma só vez, isto é, omitindo os segmentoscom os valores de medidas de relevância mais baixos.

A etapa final 60 é então gerar o sumário 3, considerando ossegmentos selecionados na seqüência de vídeo, isto é, os segmentos quetenham sido selecionados na etapa 50. Em uma realização simples, o sumário3 é simplesmente gerado concatenando os segmentos selecionados em ordemcronológica.

Como será verificado, o sumário 3 pode ser provido dequalquer forma como um sinal analógico ou digital ou em qualquer tipo derepresentação de dados adequada para reprodução imediata e/ouarmazenagem em um meio de armazenagem. Então, o método pode seraplicado para geração on-line do sumário 3, no caso da potência deprocessamento de dados necessária estar disponível, ou sumários deseqüências de vídeo de um arquivo de vídeo inteiro podem ser gerados off-line.

Em qualquer das etapas 30, 40, 50 e 60, uma entrada deusuário 4 pode ser levada em conta, no sentido de adequar o sumário final 3 apreferências pelo usuário, e então é possível personalizar a informaçãoapresentada no sumário, com base nas preferências 4 introduzidas pelousuário. Esta entrada 4 pode ter sido armazenada antecipadamente. Com basenas preferências pessoais, o sumário pode incluir elementos diferentes. Se a pessoa está mais interessada em certas partes de um filme, então segmentospertencentes a aquelas partes são selecionados através de segmentosenvolvendo outros elementos da história, etc. Para obter este tipo depersonalização, a entrada de usuário 4 pode incluir um perfil de usuário, porexemplo, palavras chave com pesos de importância associados, que sãoadicionados a segmentos casados durante a construção do sumário, isto é, emqualquer uma das etapas 30, 40, 50 e 60.

No caso da entrada de usuário 4 indicar preferências muitoespecíficas, isto pode também ser levado em conta já na etapa 10 ou 20, eestas etapas podem então ser arranjadas de tal modo a focar nos aspectos queinteressam ao usuário, e possivelmente outros aspectos podem ser omitidos,limitando deste modo a quantidade de potência de computação necessáriapara executar a etapa 20 e também possivelmente etapas subseqüentes, umavez que certas características dos segmentos podem ser irrelevantes para ousuário.

Em algumas realizações, o sumário pode também ser de multi-nível, por exemplo, um sumário com uma estrutura hierárquica. Deste modo,é possível para o usuário selecionar entre um conjunto de segmentos em umnível mais alto. A qualquer tempo, o usuário pode ir "mais fundo" na árvore eobter mais segmentos relacionados ao que está visualizando. E similarmente,o usuário pode retornar inesperadamente para um nível mais alto. Arepresentação de dados e processamento a serem descritos a seguir sãoadequados para tal seleção hierárquica de partes de segmentos.

Figura 2 ilustra em mais detalhe com esboços típicos as etapas30, 40 e 50. Um caso simples de uma seqüência de vídeo dividida em quatrosegmentos sl, s2, s3, s4 é ilustrada em 110 e então representa uma realizaçãoda etapa 30. Linhas conectando os segmentos sl, s2, s3, s4 indicam relaçõesentre os segmentos sl, s2, s3, s4. Vetores wl2, wl3, wl4, w23, w24, w34representam conjunto de pesos, cada peso representando um valor refletindouma medida da relação, por exemplo, uma correlação de similaridade oulógica entre os dois segmentos aos quais a relação se aplica. Um vetor incluipreferivelmente pesos separados para cada um dos descritores de conteúdoextraídos na etapa de análise de segmento 20. Então, o vetor wl2 inclui umconjunto de pesos indicativo de uma similaridade do conjunto de descritoresde conteúdo associados aos segmentos sl e s2. Conforme visto em 110, todosos dados são representados em um gráfico.

Os pesos aplicados a uma relação entre dois segmentos podemser baseados em uma grande variedade de descritores de conteúdo. Unspoucos exemplos de tipo de relações e como os pesos são aplicados com basenos descritores de conteúdo associados a cada um dos dois segmentos:

- sucessão, isto é, um peso indica se dois segmentos sãosegmentos sucessivos,

- ocorrência simultânea de palavra chave, isto é, segmentoscom as mesmas palavras chave ou similares tem um peso dados pelo númerode ocorrências simultâneas,

- aparecimento de pessoa ou caracter, isto é, o peso é dado pelaquantidade relativa total de tempo superposto em que a mesma pessoa oucaracter aparece nos dois segmentos,

- similaridade de conteúdo baseada em características de sinal,isto é, os pesos são dados pela função de similaridade real,

- similaridade de conteúdo baseada em classe de áudio, isto é,um peso alto indica a presença da mesma classe de áudio (voz, música, etc.)em um certo período de tempo nos dois segmentos,

- similaridade de conteúdo baseada no campo de visualização,isto é, um peso alto indica a presença do mesmo campo de visualização (porexemplo, aproximação, longa distância, média distância, etc.) em um certoperíodo de tempo nos dois segmentos.

A ocorrência simultânea de palavra chave e aparecimento depessoa ou caracter parecem ser características importantes para oestabelecimento de uma relação entre segmentos, que resulta em um sumário130 refletindo o enredo lógico dos segmentos de entrada sl, s2, s3, s4.

O gráfico 110 é uma representação muito compacta daseqüência de vídeo somente com uma quantidade limitada de valores dedados únicos. Sua estrutura provê indícios da importância relativa doconteúdo dos segmentos, e o gráfico 110 é uma representação útil para asetapas subseqüentes 40, 50 e 60.

Na etapa 40, uma medida de relevância é designada a cada umdos segmentos sl, s2, s3, s4 com base nos vetores wl2, wl3, wl4, w23, w24,w34. Preferivelmente, uma medida de relevância para um segmento é baseadaem uma soma de todos os pesos aplicados a relações para o segmento. Porexemplo, uma medida de relevância para o segmento sl pode ser expressacomo um vetor soma de wl2, wl3 e wl4. No caso de uma entrada de usuário4 indicar, por exemplo, uma preferência por um caracter específico em umfilme, a medida de relevância pode ser influenciada por esta preferência, porexemplo, aplicando peso extra ao peso dos vetores wl2, wl3, .wl4 indicandoa presença deste caracter quando a soma de pesos é calculada. Então, osumário final 3 pode ser sob medida no sentido que o usuário pode especificaruma versão mínima do sumário 3 que contém a essência da história e suaresolução ou uma versão ótima que inclui mais informação. Isto é tornadopossível devido à quantidade de informação e metadados que tem sidoextraída para a seqüência de vídeo e a representação gráfica 110 dos dados.

Na etapa 50, uma "poda do gráfico" é efetuada com base namedida relevante. Preferivelmente, a seleção de segmentos e as decisões dequais segmentos incluir no sumário são baseadas nos pesos dentro do gráficototal.

Isto é ilustrado em 120, onde o segmento s3 foi removido, umavez que é suposto que s3 foi o segmento dos quatro segmentos sl, s2, s3, s4com a medida de relevância mais baixa, e então o segmento que pode sersuposto ter um conteúdo que é o menos relevante para representar o núcleosemântico da seqüência de vídeo 1. Uma poda adicional é efetuada entre 120e 130, onde o segmento sl foi removido, uma vez que este é considerado osegmento menos relevante dos três segmentos restantes sl, s2, s4. Em geral, apoda de segmentos é continuada até que um critério de interrupção sejaalcançado. Por exemplo, o critério de interrupção é baseado em uma entradade usuário 4 indicando o tempo de reprodução máximo preferido do sumário,e então a poda é continuada até que os segmentos restantes possuam umtempo de execução total que é igual ou menor que o tempo de reproduçãoindicado na entrada de usuário 4. Alternativamente, o critério de interrupçãopode ser uma percentagem do tempo de execução da seqüência de vídeo 1inteira, por exemplo, o sumário pode ser escolhido para aproximar 70% dotempo de reprodução da seqüência de vídeo original.

Finalmente, quando um critério de interrupção é satisfeito, aetapa de gerar o sumário 60 pode ser executada. Em um execução simples, osumário é uma concatenação dos segmentos restantes, por exemplo, na Figura20 sumário 130 inclui segmentos s2 e s4, e o sumário 130 pode sersimplesmente o conteúdo de áudio-vídeo destes segmentos s2, s4,preferivelmente reproduzidos em ordem cronológica, de modo a melhorrefletir possivelmente a reprodução da gravação cronológica da seqüência devídeo 1.

Para criar o sumário, nós com o peso mínimo são removidosum por um, até que a extensão desejada seja alcançada. O peso do nó é asoma dos pesos dos arcos que estão conectados ao nó.

Figura 3 ilustra um sistema incluindo um dispositivo 210 comum processador 211 adaptado para executar o método de acordo com oprimeiro aspecto da invenção, isto é, o dispositivo 210 inclui meios de divisão211a, meios de análise 211b, meios de análise de relação 211c, meios dedeterminação de relevância 21 Id e um gerador de sumário 21 le. Odispositivo 210 pode ser um gravador de vídeo pessoal, um servidor de mídiadoméstico, um PC centro de mídia, um dispositivo e-concentrador, umsistema de vídeo sob demanda, etc. O dispositivo recebe um sinal incluindouma seqüência de vídeo 201, por exemplo, um vídeo MPEG compatível e umsinal de áudio recebido de um reprodutor de DVD integrado com odispositivo 210 ou com um reprodutor de DVD externo conectado aodispositivo 210. Em adição à seqüência de vídeo, o dispositivo 210 tambémrecebe informação textual adicional 202, associada à seqüência de vídeo 201.O dispositivo processa o sinal de entrada 201, 202 no processador 211 e geraem resposta um sumário 220. Conforme indicado com linhas tracejadas, odispositivo pode armazenar o sinal de entrada 201, 202 em um meio dearmazenagem incorporado 212, por exemplo, um disco rígido 212 e entãogerar o sumário 220 sob requisição. Alternativamente, o sumário 220 é geradoimediatamente e emitido, ou o sumário 220 é gerado e armazenado no meiode armazenagem 212, até que o sumário 220 seja requisitado.

O sistema da Figura 3 também mostra meio de apresentação desumário 230 adaptado para apresentar uma parte de vídeo 221 e uma parte deáudio 222 do sumário 220. A parte de vídeo 221 é apresentada em uma tela deexibição 231, por exemplo, um visor de LCD, enquanto a parte de áudio 222 éapresentada usando um alto-falante 232. Opcionalmente, o sumário 220 podeincluir partes da informação textual adicional 202. Estas partes da informaçãotextual adicional 202 podem ser exibidas na tela de exibição 231 ou em umainterface de usuário/visor adicional, e/ou as partes da informação textualadicional 202 podem ser apresentadas via alto-falante 232 no caso do texto serconvertido para conversação artificial por meio de síntese de voz. O meio deapresentação do sumário 230 pode ser um aparelho de TV com um alto-falante incorporado, etc.

A invenção pode ser implementada de qualquer formaadequada incluindo hardware, software, firmware ou qualquer combinaçãodestes. A invenção ou algumas características da invenção podem serimplementadas como software de computador executada em um ou maisprocessadores de dados e/ou processadores de sinal digital. Os elementos ecomponentes de uma realização da invenção podem ser fisicamente,funcionalmente e logicamente implementados de qualquer modo adequado.Realmente, a funcionalidade pode ser implementada em uma única unidade,em diversas unidades ou como parte de outras unidades funcionais. Como tal,a invenção pode ser implementada em uma única unidade, ou pode serfisicamente e funcionalmente distribuída entre diferentes unidades eprocessadores.

Embora a presente invenção tenha sido descrita em conexãocom as realizações especificadas, esta não é destinada a ser limitada à formaespecífica aqui relatada. Ao invés disso, o escopo da presente invenção élimitado apenas pelas reivindicações que a acompanham. Nas reivindicações,o termo "compreendendo" não exclui a presença de outros elementos ouetapas. Adicionalmente, embora características individuais possam serincluídas em reivindicações diferentes, estas podem ser possivelmentevantajosamente combinadas e a inclusão em reivindicações diferentes nãoimplica em que uma combinação de características não seja factível e/ouvantajosa. Em adição, referências no singular não excluem diversas. Então,referências a "um", "uma", "primeiro", "segundo", etc., não impedemdiversas. Ainda mais, sinais de referência nas reivindicações não serãoconsiderados como limitando o escopo.

Ainda mais, a invenção pode também ser realizada com menoscomponentes dos que os providos nas realizações aqui descritas, onde umcomponente realiza funções múltiplas. Também a invenção pode ser realizadausando mais elementos do que os exibidos na Figura 2, onde funçõesrealizadas por um componente na realização provida são distribuídos atravésde componentes múltiplos.

Uma pessoa especialista na técnica rapidamente verificará quevários parâmetros descritos na descrição podem ser modificados e que váriasrealizações descritas e/ou reivindicadas podem ser combinadas, sem se afastardo escopo da invenção.

Claims

1. Método para prover um sumário de diversas imagens (1),caracterizado pelo fato de compreender:a) dividir as diversas imagens (1) em diversos segmentos (sl,s2, s3, s4), cada segmento (sl, s2, s3, s4) compreendendo pelo menos umaimagem,b) analisar cada segmento (sl, s2, s3, s4) com respeito aoconteúdo e associar um conjunto de descritores de conteúdo resultante daanálise do citado segmento (sl, s2, s3, s4),c) estabelecer relações entre os segmentos (sl, s2, s3, s4) combase nos descritores de conteúdo, onde cada relação entre o primeiro esegundo segmentos (sl, s2) tem um ou mais pesos (wl2) associados a ela, oum ou mais pesos (wl2) representando uma medida da relação entre oprimeiro e segundo segmentos (sl, s2),d) determinar, para cada segmento (sl) uma medida derelevância baseada nos pesos (wl2, wl3, wl4) associados a relações para ocitado segmento (sl),e) gerar um sumário (130) selecionando um subconjunto desegmentos (s2, s4) a partir dos diversos segmentos (sl, s2, s3, s4) com basenos parâmetros de relevância associados aos segmentos (sl, s2, s3, s4).

2. Método de acordo com a reivindicação 1, caracterizadopelo fato de que informação textual adicional disponível (2) associada a umsegmento (sl, s2, s3, s4) é levada em conta na análise de conteúdo do citadosegmento e ao estabelecer uma relação entre citado segmento e outrossegmentos.

3. Método de acordo com a reivindicação 2, caracterizadopelo fato de que a informação textual adicional (2) é extraída das diversasimagens (1).

4. Método de acordo com a reivindicação 1, caracterizadopelo fato de que as diversas imagens (1) incluem uma parte de vídeo e umaparte de áudio, e onde descritores de conteúdo são incluídos, levando emconta ambas parte de vídeo e parte de áudio.

5. Método de acordo com a reivindicação 4, caracterizadopelo fato de que as relações incluem pelo menos uma relação baseada na partede áudio e uma relação baseada na parte de vídeo.

6. Método de acordo com a reivindicação 1, caracterizadopelo fato de que as relações incluem pelo menos uma relação baseada em umadistância no tempo entre o primeiro e segundo segmentos.

7. Método de acordo com a reivindicação 1, caracterizadopelo fato de que as relações incluem pelo menos uma relação baseada naocorrência simultânea de palavras chave na primeira e segunda informaçãotextuais associadas aos respectivos primeiro e segundo segmentos.

8. Método de acordo com a reivindicação 1, caracterizadopelo fato de que as relações incluem pelo menos uma relação baseada noaparecimento simultâneo de uma pessoa no primeiro e segundo segmentos.

9. Método de acordo com a reivindicação 1, caracterizadopelo fato de que as relações incluem pelo menos uma relação baseada em umcampo de visualização em uma parte de vídeo dos segmentos.

10. Método de acordo com a reivindicação 1, caracterizadopelo fato de que a etapa e) inclui remover o segmento com a medida do valorde relevância mais baixo.

11. Método de acordo com a reivindicação 10, caracterizadopelo fato de que a medida de relevância para cada segmento (sl) é baseada emuma soma de todos os pesos (wl2, wl3, wl4) associados a relações para ocitado segmento (sl).

12. Método de acordo com a reivindicação 1, caracterizadopelo fato de que as etapas c) a e) são repetidas no sentido de reduzir umnúmero de segmentos até que o subconjunto de segmentos selecionado (s2,s4) satisfaça a um critério de interrupção predeterminado.

13. Método de acordo com a reivindicação 12, caracterizadopelo fato de que o critério de interrupção inclui um tempo de reprodução degravação máximo predeterminado do subconjunto selecionado de segmentos (s2, s4).

14. Método de acordo com a reivindicação 1, caracterizadopelo fato de que o sumário é gerado, levando em conta preferências (4)introduzidas por um usuário.

15. Método de acordo com a reivindicação 14, caracterizadopelo fato de que os pesos da etapa c) são calculados como uma função daspreferências (4) introduzidas pelo usuário.

16. Dispositivo (210) adaptado para gerar um sumário (220) dediversas imagens (201), caracterizado pelo fato de compreender meios deprocessamento (211) incluindo- meios de divisão (211a) arranjados para dividir as diversasimagens (201) em diversos segmentos, cada segmento compreendendo pelomenos uma imagem,- meios de análise (211b) arranjados para analisar cadasegmento com respeito ao conteúdo e associar um conjunto de descritores deconteúdo resultante da análise do citado segmento,- meios de análise de relação (211c) arranjados paraestabelecer relações entre os segmentos, onde cada relação entre primeiro esegundo segmentos possui um ou mais pesos baseados nos descritores deconteúdo associados a ela, o um ou mais pesos representando uma medida darelação entre o primeiro e segundo segmentos,- meios de determinação de relevância (211 d) arranjados paradeterminar, para cada segmento, uma medida de relevância baseada nos pesosassociados com relações para citado segmento,- gerador de sumário (2lie) arranjado para gerar o sumário(220) selecionando um subconjunto de segmentos a partir dos diversossegmentos com base nos parâmetros de relevância associados aos segmentos.

17. Sistema, caracterizado pelo fato de compreender umdispositivo (210) como definido na reivindicação 16, e meios de exibição(231) arranjados para exibir uma parte de vídeo (221) do sumário (220).

18. Código de programa executável por computador,caracterizado pelo fato de ser adaptado para executar o método como definidona reivindicação 1.

19. Portador de dados, caracterizado pelo fato de compreenderum código de programa executável por computador como definido nareivindicação 18.