BRPI0622048B1

BRPI0622048B1 - método, aparelho e sistema para gerar regiões de interesse em conteúdo de vídeo

Info

Publication number: BRPI0622048B1
Application number: BRPI0622048A
Authority: BR
Inventors: Hekmat Izzat Izzat; Lin Shu
Original assignee: Thomson Licensing
Priority date: 2006-10-20
Filing date: 2006-10-20
Publication date: 2018-09-18
Also published as: WO2008048268A1; KR101334699B1; CN101529467B; JP5591538B2; KR20090086951A; BRPI0622048A2; CN101529467A; US20100034425A1; EP2074588A1; JP2010507327A

Description

(54) Título: MÉTODO, APARELHO E SISTEMA PARA GERAR REGIÕES DE INTERESSE EM CONTEÚDO DE VÍDEO (51) Int.CI.: G06T 7/00 (73) Titular(es): THOMSON LICENSING (72) Inventor(es): SHU LIN; IZZAT HEKMAT IZZAT (85) Data do Início da Fase Nacional: 24/03/2009

Λ

MÉTODO, APARELHO E SISTEMA PARA GERAR REGIÕES DE INTERESSE EM CONTEÚDO DE VÍDEO”

Campo técnico

A presente invenção geralmente refere-se ao processamento de vídeo, e mais particularmente, a um sistema e método para gerar regiões de interesse (ROI) em conteúdo de vídeo, em particular, para exibição em dispositivos de reprodução de vídeo.

Antecedentes

Os dispositivos de mão e móveis com visores de vídeo têm se tornados muito populares nos últimos anos. Entretanto, devido ao seu tamanho pequeno, a maioria dos dispositivos de mão não pode exibir vídeo ou imagem em alta resolução. Tipicamente, após um dispositivo de mão receber um sinal de vídeo, tal como, a partir da definição padrão de radio difusão (SD) ou alta definição (HD), o vídeo tem que ter sua resolução reduzida ao tamanho da resolução da tela do dispositivo de mão, ao formato intermediário comum (CIF) ou até mesmo a um quarto de formato intermediário comum (QCIF). Um CIF é comumente definido como um quarto da resolução “completa” do sistema de vídeo para qual é destinado.

Como resultado de tal redução de tamanho, as partes mais interessantes do vídeo, às vezes são perdidas. Por exemplo, as bolas podem se tornar invisíveis nos vídeos de esporte, tais como futebol, tênis, etc. Como tal, a redução de resolução normal não funcionará bem em tais casos e com tais dispositivos. Adicionalmente, o corte simples de uma imagem também não é viável, devido ao fato de que a região de interesse está freqüentemente em movimento, e além do mais, uma câmera pode ser movida em movimento panorâmico ou em posição de zum.

Alguns esforços (por exemplo, Xinding Sun et. al, “Region of Interest Extraction e Virtual Camera Control Based on Panoramic Video Capturing”, IEEE Trans. Multimedia, Vol. 7 No. 5, pp. 981-990, 11 de outrubro de 2005) tem sido feitos para gerar regiões de interesse no lado codificador. Por exemplo, um ROI pode ser gerado de acordo com o senso comum ou com base em um modelo de atenção visual. Em tais casos, exige-se o metadados de um ROI para ser enviado a um decodificador. O decodificador usa a informação para reproduzir o vídeo dentro do ROI.

Entretanto, existem inúmeras desvantagens para esta abordagem. Primeiramente, cada receptor obtém o mesmo ROI, ainda que pessoas diferentes tenham diferentes preferências no que consideram uma região de interesse para visualização. Em segundo lugar, visto que o ROI é gerado automaticamente, se alguma coisa der errada, então, todos receberão a informação errada, a quai, além disso, não pode ser corrigida no receptor. Em terceiro lugar, o metadados é exigido para ser enviado com os sinais de vídeo, o qual, deste modo, aumenta a taxa de bit. Concordantemente, um sistema e um método para gerar regiões de interesse em um vídeo que evitem as limitações e deficiências da técnica anterior são altamente desejáveis.

Sumário da invenção

Um método, aparelho e sistema, de acordo com diversas modalidades da presente invenção, dirigem-se às deficiências da técnica anterior através do fornecimento da detec5 ção e geração de região de interesse (ROI) com base na(s), em uma modalidade, preferência^) do usuário, por exemplo, no lado receptor.

Em uma modalidade da presente invenção, um método para gerar uma região de interesse em conteúdo de vídeo inclui a identificação de ao menos um tipo de programação no conteúdo de vídeo, a categorização das cenas dos tipos de programação do conteúdo de vídeo e a definição de ao menos uma região de interesse em pelo menos uma das cenas categorizadas através da identificação de ao menos um de um local e de um objeto de interesse nas cenas. Em uma modalidade da invenção, uma região de interesse é definida com o uso da informação da preferência do usuário para o conteúdo do programa identificado e do conteúdo da cena caracterizada.

Em uma modalidade alternativa da presente invenção, um aparelho para gerar uma região de interesse em conteúdo de vídeo inclui um módulo de processamento configurado para executar as etapas de identificar ao menos um tipo de programação do conteúdo de vídeo, categorizar as cenas de ao menos um dos tipos de programação e definir pelo menos uma região de interesse em ao menos uma das cenas através da identificação de ao menos um de um local e de um objeto de interesse nas cenas. Em uma modalidade da presente invenção, o aparelho inclui uma memória para armazenar os tipos de programação identificados e as cenas categorizadas do conteúdo de vídeo e uma interface de usuário para possibilitar que um usuário identifique as preferências para definir as regiões de interesse nos tipos de programação identificados e nas cenas categorizadas do conteúdo de vídeo.

Em uma modalidade alternativa da presente invenção, um sistema para gerar uma região de interesse em conteúdo de vídeo inclui uma fonte de conteúdo para a radiodifusão do conteúdo de vídeo, um dispositivo de recepção para receber o conteúdo de vídeo e configurar o conteúdo de vídeo recebido para exibição, um dispositivo de exibição para exibir o conteúdo de vídeo a partir do dispositivo de recepção e um módulo de processamento con30 figurado para executar as etapas de identificar ao menos um tipo de programação do conteúdo de vídeo, categorizar as cenas de ao menos um dos tipos de programação, e definir pelo menos uma região de interesse em ao menos uma das ditas cenas categorizadas através da identificação de ao menos um de um local e de um objeto de interesse nas cenas. Em uma modalidade da presente invenção, o módulo de processamento está localizado no dispositivo de recepção e o dispositivo de recepção inclui uma memória para armazenar os tipos de programação identificados e as cenas categorizadas do conteúdo de vídeo. Em tal modalidade, o dispositivo de recepção pode incluir, ainda, uma interface de usuário para possibilitar que um usuário identifique as preferências para definir as regiões de interesse nos tipos de programação identificados e nas cenas categorizadas do conteúdo de vídeo. Em uma modalidade alternativa, o módulo de processamento está localizado na fonte de conteúdo e a fonte de conteúdo inclui uma memória para armazenar os tipos de programa5 ção identificados e as cenas categorizadas do conteúdo de vídeo. Em tal modalidade, a fonte de conteúdo pode incluir, ainda, uma interface de usuário para possibilitar que um usuário identifique as preferências para definir as regiões de interesse nos tipos de programação identificados e nas cenas categorizadas do conteúdo de vídeo.

Breve descrição dos desenhos

As instruções da presente invenção podem ser prontamente compreendidas levando em consideração a descrição detalhada seguinte, junto com os desenhos em anexo, nos quais:

A Figura 1 descreve um diagrama de bloco de alto nível de um receptor para definição e geração de uma região de interesse, de acordo com uma modalidade da presente invenção;

A Figura 2 descreve um diagrama de bloco de alto nível de um sistema para definição e geração de uma região de interesse, de acordo com uma modalidade da presente invenção;

A Figura 3 descreve um diagrama de bloco de alto nível de uma interface de usuá20 rio adequada para o uso no receptor das Figuras 1 e 2, de acordo com uma modalidade da presente invenção;

A Figura 4 descreve um diagrama de fluxo de um método da presente invenção, de acordo com uma modalidade da presente invenção; e

A Figura 5 descreve um diagrama de fluxo de um método para definição de uma 25 região de interesse com base na entrada do usuário, de acordo com uma modalidade da presente invenção.

Deve-se compreender que os desenhos são para propósitos de ilustração dos conceitos da invenção e não necessariamente a única configuração possível para ilustrar a invenção. Para facilitar a compreensão, numerais de referência idênticos têm sido usados, onde possível, para designar os elementos idênticos que são comuns para as figuras.

Descrição detalhada da invenção

A presente invenção fornece, vantajosamente, um método, um aparelho e um sistema para gerar regiões de interesse (ROI) em conteúdo de vídeo. Visto que a presente invenção será primeiramente descrita dentro do contexto de um ambiente de vídeo de radiodi35 fusão e de um dispositivo receptor, as modalidades específicas da presente invenção não deveríam ser tratadas com caráter limitativo para o escopo da invenção. Deverá ser apreciado por aqueles versados na técnica e informado através das instruções da presente inven4 ção que os conceitos da presente invenção podem ser aplicados, vantajosamente, em qualquer ambiente e ou dispositivo de transmissão e recepção para gerar regiões de interesse (ROI) em conteúdo de vídeo. Por exemplo, os conceitos da presente invenção podem ser implantados em qualquer dispositivo configurado para receber/processar/exibir/transmitir conteúdo de vídeo, tais como dispositivos de reprodução de vídeo de mão portáteis, TV’s de mão, PDAs, telefones celulares com capacidades de AV, computadores portáteis, transmissores, servidores, e similares.

As funções dos diversos elementos mostrados nas figuras podem ser fornecidas através do uso de hardware dedicado, assim como o hardware capaz de executar o software em associação com o software apropriado. Quando fornecido por um processador, as funções podem ser fornecidas através de um único processador dedicado, através de um único processador compartilhado ou através de uma pluralidade de processadores individuais, alguns dos quais podem ser compartilhados. Além disso, o uso explícito do termo processador ou controlador não deve ser construído para referir exclusivamente ao hardware capaz de executar o software, e pode incluir implicitamente, sem caráter limitativo, o hardware (DSP) processador de sinal digital, memória apenas para leitura (ROM) para armazenar o software, memória de acesso aleatório (RAM) e armazenamento não-volátil. Além disso, todas as declarações, no presente documento, que estão de acordo com os princípios, aspectos e modalidades da invenção, assim como os exemplos específicos dos mes20 mos, são destinados a abranger tanto os equivalentes estruturais como funcionais, dos mesmos. Adicionalmente, pretende-se que tais equivalentes incluam ambos equivalentes conhecidos atualmente, assim como os equivalentes desenvolvidos no futuro (isto é, quaisquer elementos desenvolvidos que execute a mesma função, independente da estrutura).

Deste modo, por exemplo, deve ser apreciado por aqueles versados na técnica que os diagramas de bloco apresentados no presente documento representam as vistas conceituais dos componentes ilustrativos do sistema e/ou conjunto de circuitos que incorporam os princípios da invenção. Semelhantemente, deve-se apreciar que quaisquer fluxogramas, diagramas de fluxo, diagramas de transição de estado, pseudocódigo, e similares, representam os diversos processos que podem ser substancialmente representados em mídia legível por computador e, então, executados através de um computador ou processador, se ou não, tal computador ou processador for explicitamente mostrado.

De acordo com diversas modalidades da presente invenção, um método, um aparelho e um sistema para gerar uma região de interesse (ROI) em conteúdo de vídeo fornecem uma biblioteca de programa, uma biblioteca de cena e uma biblioteca de objeto/local, e inclui um módulo de região de interesse em comunicação com as bibliotecas, sendo que o módulo é configurado para gerar regiões de interesse personalizadas no conteúdo de vídeo recebido com base nos dados a partir das bibliotecas e das preferências do usuário. Em diversas modalidades, os usuários são capacitados para definir sua(s) preferência(s) com referência, ¹ por exemplo, a que área/objeto no vídeo gostariam de selecionar como um ROl para a visualização. Em uma modalidade da invenção, na qual um servidor está radiodifundindo o conteúdo de vídeo para receptores múltiplos, se alguma coisa der errada em um receptor local, os erros afetaram somente um receptor e podem ser facilmente corrigidos. Um sistema, de acordo com os presentes princípios é, deste modo, mais robusto do que os sistemas anteriores disponíveis e possibilita que um usuário controle e veja uma região ou objeto de interesse no conteúdo de vídeo com resolução relativamente mais lata do que o disponível anteriormente.

Por exemplo, a Figura 1 descreve um receptor para definir e gerar uma região de interesse, de acordo com uma modalidade da presente invenção. O receptor 100 da Figura 1 compreende, de modo ilustrativo, um meio de memória 101, uma interface de usuário 109 e um decodificador 111.0 receptor 100 da Figura 1 compreende, de modo ilustrativo, um banco de dados 103 e um módulo de região de interesse (ROl) 105. O banco de dados 103 do receptor 100 da Figura 1 compreende, de modo ilustrativo, uma biblioteca de programa 107, uma biblioteca de cena 102 e uma biblioteca de objeto/local 104. Em uma modalidade da presente invenção, a biblioteca de programa 107, a biblioteca de cena 102 e a biblioteca de objeto 104 são configuradas para armazenar diversos tipos de programa, tipos de cena e tipos de objetos classificados, respectivamente, conforme será descrito em maiores detalhes abaixo. O módulo de ROl 105 do receptor 100 da Figura 1 pode ser configurado para criar uma(s) região(ões) de interesse no conteúdo de vídeo recebido de acordo com as entradas do observador e/ou informação pré-armazenada na biblioteca de programa 107, na biblioteca de cena 102 e na biblioteca de objeto 104. Isto é, um observador pode fornecer a entrada ao receptor 100 através de uma interface de usuário 109, com a(s) região(ões) de interesse resultante(s) sendo exibidas para o observador sobre um visor.

Por exemplo, a Figura 2 descreve um diagrama de bloco de alto nível de um sistema para definir e gerar uma região de interesse de acordo com uma modalidade da presente invenção. O sistema 200 da Figura 2 compreende, de modo ilustrativo, uma fonte de conteúdo de vídeo (um servidor, de modo ilustrativo) 206 para fornecer o conteúdo de vídeo ao receptor 100 da presente invenção. O receptor, conforme descrito acima, pode ser configurado para criar uma(s) região(ões) de interesse no conteúdo de vídeo recebido de acordo com as entradas do observador que entraram através da interface de usuário 109 e/ou a informação pré-armazenada na biblioteca de programa 107, na biblioteca de cena 102 e na biblioteca de objeto 104. A(s) região(ões) de interesse criada(s) resultante(s) são, então, exibidas para o observador sobre o visor 207 do sistema 200. Embora, na Figura 1, seja descrito, de modo ilustrativo, que o receptor 100 compreende a interface de usuário 109 e o decodificador 111, nas modalidades alternativas da presente invenção, a interface de usuá-

rio 109 e/ou o decodificador 111 podem compreender componentes separados em comunicação com o receptor 100. Adicionalmente, visto que no sistema 200 da Figura 2, o banco de dados 103 e o módulo de ROI 105 são descritos, de modo ilustrativo, como sendo localizados dentro do receptor 100, nas modalidades alternativas da presente invenção, um banco de dados e um módulo de ROI da presente invenção podem ser incluídos no servidor 206, no lugar de ou adicionado a um banco de dados e um módulo de ROI no receptor 100. Em tais modalidades da presente invenção, as seleções de região de interesse no conteúdo de vídeo podem ser executadas no servidor 206 e como tal, um receptor recebe o conteúdo de vídeo que tenha as regiões de interesse já designadas. Como tal, o módulo de ROI no receptor detectaria as regiões de interesse ROI definidas através do servidor e aplicaria tais regiões de interesse ROI no conteúdo a ser exibido. Adicionalmente, em tais modalidades da presente invenção, um servidor que inclui um banco de dados e um módulo de ROI da presente invenção pode incluir, ainda, uma interface de usuário para fornecer as entradas de usuário para criar as regiões de interesse de acordo com a presente invenção.

A Figura 3 descreve um diagrama de bloco de alto nível de uma interface de usuário 109 adequada para o uso no receptor 100 das Figuras 1 e 2, de acordo com uma modalidade da presente invenção. Conforme descrito acima, a interface de usuário 109 é fornecida para comunicar as entradas do observador para criar as regiões de interesse no conteúdo de vídeo recebido, de acordo com uma modalidade da presente invenção. A interface de usuário 109 pode incluir um painel de controle 300 dotado de uma tela ou visor 302 ou pode ser implantado no software como uma interface de usuário gráfica. Os controles 310 e 326 podem incluir manípulos/manetes reais 310, bloco de teclas/teclados 324, botões 318 e 322 manípulos/manetes virtuais e/ou botões 314, um mouse 326, uma alavanca de controle (joystick) 330, e similares, dependendo da implantação da interface de usuário 109.

Na modalidade da presente invenção da Figura 2, o servidor 206 comunica o conteúdo de vídeo ao receptor 100. No receptor 100, é determinado se o conteúdo de vídeo recebido é codificado e precisa ser decodificado. Nesse caso, o conteúdo de vídeo é decodificado através do decodificador 111. Após a decodificação do conteúdo de vídeo, a programação do conteúdo de vídeo é identificada. Isto é, em uma modalidade da presente invenção, a informação (por exemplo, a informação de guia de programa eletrônico) obtida a partir da fonte de conteúdo de vídeo (por exemplo, o transmissor) 206 pode ser usada para identificar os tipos de programa no conteúdo de vídeo recebido. Tal informação da fonte de conteúdo de vídeo 206 pode ser armazenada no receptor 100, por exemplo, na biblioteca de programa 107. Nas modalidades alternativas da presente invenção, as entradas de usuário, por exemplo, a partir da interface de usuário 109 podem ser usadas para identificar a programação do conteúdo de vídeo recebido. Isto é, em uma modalidade, um usuário pode prévisualizar o conteúdo de vídeo, por exemplo, com o uso do visor 207 e identificar os tipos de

Á programa diferentes no visor 207 através do nome ou título. Os títulos ou identificadores dos diversos tipos de programação do conteúdo de vídeo, identificados através da entrada de usuário, podem ser armazenados no meio de memória 101 do receptor 100, por exemplo, na biblioteca de programa 107. Ainda, nas modalidades alternativas da presente invenção, uma combinação de ambas, a informação recebida a partir da fonte de conteúdo 206 e as entradas de usuário a partir da interface de usuário 109 podem ser usadas para identificar a programação do conteúdo de vídeo recebido.

Em diversas modalidades da presente invenção, os tipos de programa que não podem ser precisamente categorizados, com o uso da informação pré-armazenada e/ou das entradas de usuário, podem ser tratados como um novo tipo de programa, e podem ser conformemente adicionados à biblioteca de programa 107. Abaixo, a Tabela 1 descreve alguns tipos de programas exemplificadores.

Tabela 1

TIPOS DE PROGRAMA

Futebol

Corrida de carro

Basquete

Tênis

Programa de entrevistas Filme da Disney Notícias Faroeste

Geral

Após a identificação dos tipos de programa no conteúdo de vídeo, as cenas dos ti15 pos de programa são categorizadas. Isto é, semelhante à identificação dos tipos de programa, em uma modalidade da presente invenção, a informação (por exemplo, a informação de guia de programa eletrônico) obtida a partir da fonte de conteúdo de vídeo (por exemplo, o transmissor) 206 pode ser usada para categorizar as cenas dos tipos de programa identificados. Tal informação a partir da fonte de conteúdo de vídeo 206 pode ser armazenada no receptor 100, por exemplo, na biblioteca de cena 102. Em modalidades alternativas da presente invenção, as entradas de usuário a partir, por exemplo, da interface de usuário 109 podem ser usadas para categorizar as cenas dos tipos de programa identificados. Isto é, semelhante à identificação dos tipos de programa, um usuário pode pré-visualizar o conteúdo de vídeo com o uso, por exemplo, do visor 207 e identificar as diferentes categorias de cena dos tipos de programa no visor 207 através do nome ou título. Os títulos ou identifica8 dores das diversas categorias de cena identificadas através da entrada de usuário podem ser armazenados no meio de memória 101 do receptor 100, por exemplo, na biblioteca de cena 102. Ainda, nas modalidades alternativas da presente invenção, uma combinação de ambas, a informação recebida a partir da fonte de conteúdo 206 e as entradas de usuário a partir da interface de usuário 109 podem ser usadas para categorizar as cenas dos tipos de programa identificados do conteúdo de vídeo.

Em diversas modalidades da presente invenção, as cenas que não podem ser precisamente categorizadas, com o uso da informação pré-armazenada e/ou das entradas de usuário, podem ser tratadas como um novo tipo de cena, e podem ser conformemente adi10 cionados à biblioteca de cena 107. A Tabela 2 descreve, de modo ilustrativo, algumas categorias de cenas exemplificadoras, de acordo com a presente invenção.

Tabela 2

CATEGORIAS DE CENA

Futebol - término Futebol - meio Futebol - remoto Futebol - campo Futebol - audiência Futebol - muitos jogadores Futebol - gol Futebol - linha lateral

Gerai

Após a identificação das categorias de cena e dos tipos de programa no conteúdo, uma local(is) e/ou um objeto(s) de interesse nos campos classificados anteriormente (por exemplo, nos tipos de programa e nas categorias de cena) podem ser definidos. Em uma modalidade da presente invenção, um usuário pode configurar um sistema da presente invenção para adicionar automaticamente os objetos e/ou as localizações à biblioteca de objeto/locai 104, ou para tê-los armazenados em uma memória temporária (não mostrada), os quais, mais tarde, podem ser adicionados ou descartados. Adicionalmente, em diversas mo20 dalidades da presente invenção, a informação obtida a partir da fonte de conteúdo de vídeo (por exemplo, o transmissor) 206 pode ser usada para definir um objeto(s) ou local(is) de interesse. Tal informação a partir da fonte de conteúdo de vídeo 206 pode ser armazenada no receptor 100, por exemplo, na biblioteca de objeto/local 104. Tal informação a partir da fonte de vídeo pode ser gerada por um usuário em um sítio receptor. Isto é, em diversas modalidades da presente invenção, uma fonte de conteúdo de vídeo 206 pode fornecer múl9

Μ, tiplas versões do conteúdo da fonte, cada um com áreas de interesse variadas associadas com as diversas versões, qualquer uma delas podem ser selecionadas por um usuário em um local do receptor. Em resposta a uma seleção do usuário de uma versão disponível do conteúdo da fonte, as regiões de interesse associadas podem ser comunicadas ao receptor para o processamento no local do receptor. Entretanto, em uma modalidade alternativa da presente invenção, em resposta a uma seleção do usuário de uma versão disponível do conteúdo da fonte, o conteúdo de vídeo que contém somente o vídeo associado com as regiões de interesse associadas é comunicado ao receptor.

Em modalidades alternativas da presente invenção, as entradas de usuário a partir, por exemplo, da interface do usuário 109 podem ser usadas para selecionar as regiões de interesse nos tipos de programa definidos e nas cenas categorizadas. Isto é, semelhante à identificação dos tipos de programa e à categorização das cenas, um usuário pode prévisualizar o conteúdo de vídeo com uso, por exemplo, do visor 207 e definir as diferentes regiões de interesse no visor 207 através do objeto e/ou local. Em diversas modalidades da presente invenção, tais seleções do usuário podem ser feitas na fonte de conteúdo de vídeo ou no receptor. Os títulos ou identificadores das diversas regiões de interesse definidas através da entrada de usuário podem ser armazenadas no meio de memória 101 do receptor 100, por exemplo, na biblioteca de objeto/local 104. Ainda, nas modalidades alternativas da presente invenção, uma combinação de ambas, a informação recebida a partir da fonte de conteúdo 206 e as entradas de usuário a partir da interface de usuário 109 podem ser usadas para definir as regiões de interesse no conteúdo de vídeo. De acordo com a presente invenção, um usuário pode selecionar manualmente os objetos e/ou locais desejados a serem observados, ou pode alternativamente ajustar determinado(s) objeto(s), tipos de objeto e/ou local como regiões de interesse desejadas a serem vistas em toda programação. Os tipos de objetos exemplificadores são descritos na Tabela 3 em relação ao conteúdo de vídeo recebido que contém a programação de futebol.

Tabela 3

OBJETOS	DESCRICÃO
Futebol - jogador 1	Nome, time,...
Futebol - jogador 2	Nome, time,...
Futebol - jogador 3	Nome, time,...
Futebol - jogador 4	Nome, time,...
Futebol - treinador	Nome, time,...
Futebol
...
Geral

Conforme descrito na Tabela 3 acima, em uma cena de futebol de perto, os objetos tais como futebol, os jogadores podem ser definidos como objetos de interesse. Após a definição das regiões de interesse para um tema de conteúdo de vídeo, as regiões de interesse selecionadas do conteúdo de vídeo podem ser exibidas, por exemplo, no visor 207.

A Figura 4 descreve um diagrama de fluxo de um método da presente invenção, de acordo com uma modalidade da presente invenção. O método 400 começa na etapa 401, na qual, um receptor da presente invenção recebe um sinal de programa de vídeo e/ou um sinal audiovisual (AV) que compreende conteúdo de vídeo. O método 400, então, prossegue a etapa 403.

Na etapa 403, é determinado se o sinal de programa/AV é codificado e se precisa ser decodificado. Se o sinal for codificado e precisa ser decodificado, o método 400 prossegue a etapa 405. Se o sinal não precisa ser decodificado, o método 400 pula para a etapa 407.

Na etapa 405, o sinal é decodificado. O método, então, prossegue a etapa 407.

Na etapa 407, uma região(ões) de interesse (ROI) é definida. O método 400, então, prossegue a etapa 409.

Na etapa 409, as regiões de interesse definidas podem ser exibidas. Isto é, na etapa 409, as regiões correspondentes do sinal de vídeo, conforme definidas pelas regiões de interesse definidas e selecionadas, são exibidas ou transmitidas pelo visor. O método 400, então, sai.

A Figura 5 descreve um diagrama de fluxo de um método para definir uma região de interesse conforme relacionado na etapa 407 do método 400 da Figura 4. O método 500 começa na etapa 501, na qual, o conteúdo de vídeo é recebido, por exemplo, através de um módulo de ROÍ da presente invenção. O método 500, então, prossegue a etapa 503.

Na etapa 503, a programação do conteúdo de vídeo recebido é identificada. Isto é, na etapa 503, a informação (por exemplo, a informação de guia de programa eletrônico) obtida a partir da fonte de conteúdo de vídeo (por exemplo, um transmissor) 206 e/ou as entradas de usuário a partir, por exemplo, de uma interface de usuário 106 podem ser usadas para identificar os tipos de programação do conteúdo de vídeo recebido. Depois que o tipo de programação é definido, o método 500 prossegue a etapa 505.

Na etapa 505, a classificação (categorização) e a detecção de mudança de cena podem ser determinadas. Isto é, e conforme descrito acima, um banco de dados pode ser fornecido com a informação pré-armazenada (504) que inclui uma biblioteca de cena que tem tipos de cena predeterminados que estão armazenados e disponíveis para ajudar no processo de classificação de cena. Em diversas modalidades da presente invenção, as cenas que não podem ser precisamente classificadas, com o uso da informação préarmazenada (504) e/ou as entradas de usuário, são tratadas como um novo tipo de cena, e podem ser conformemente adicionadas ao banco de dados. Depois que os temas das cenas são classificados, o método 500 prossegue a etapa 507.

Na etapa 507, um objeto(s) de interesse nos campos classificados anteriormente (por exemplo, nos tipos de programa e nas categorias de cena) pode ser identificado. Por exemplo, em uma modalidade da presente invenção, em uma cena de futebol de perto, nos objetos tais como futebol, os jogadores podem ser identificados como objetos de interesse. Depois que o(s) objeto(s) de interesse é(são) identificado(s), o método, então, prossegue a etapa 509.

Na etapa 509, uma região de interesse personalizada (ROI) é criada em torno do(s) objeto(s) especificado(s) definido(s) na etapa 507. O método, então, sai na etapa 511.

Nas modalidades alternativas da presente invenção, um ROI pode ser também criado automaticamente, de acordo com a presente invenção, conforme os hábitos ou os ‘favoritos’ do objeto preferido pré-especificado do observador, por exemplo, um jogador favorito, um local favorito, etc. De acordo com a presente invenção, depois que uma região(ões) de interesse é definida, os objetos ou locais de interesse desejados podem ser rastreados de quadro a quadro e conseqüentemente exibido a um observador. Deve-se notar que o tamanho de um ROI pode estar em constante mudança durante a reprodução dependendo do número especificado dos objetos favoritos e/ou seus locais.

De acordo com a presente invenção, um usuário pode definir vários níveis ou tama20 nhos de um ROI. Como tal, um ROI pode ser refinado por um usuário para especificar quais dos níveis ou tamanhos de um ROI o usuário deseja. Como tal, e de acordo com as modalidades da presente invenção, um módulo de ROI pode criar um nível/tamanho de ROI especial ou personalizado para alcançar as necessidades ou preferências do usuário. Em diversas modalidades da presente invenção, uma ausência de nível/tamanho pode compreender um nível/tamanho de um ROI mais freqüentemente usado, por exemplo.

Embora os métodos 400 e 500 acima, das Figuras 4 e 5, sejam descritos para uma aplicação na qual, de preferência, o conteúdo de vídeo é transmitido na íntegra a um dispositivo receptor, de acordo com uma modalidade dos princípios presentes, nas modalidades alternativas da presente invenção, uma fonte de conteúdo (por exemplo, transmis30 sor/servidor) pode incluir pelo menos um módulo de Rol da presente invenção. Tal módulo de ROI da fonte pode ser adicional ao ou no lugar de um módulo de ROI localizado em um receptor da presente invenção. Por exemplo, em uma modalidade da presente invenção, na qual, um conteúdo de vídeo está para ser comunicado a somente um receptor, o receptor pode comunicar para a fonte (por exemplo, transmissor) as preferências do usuário e o transmissor pode gerar a(s) região(ões) de interesse conformemente. Em tais modalidades, a quantidade de conteúdo de vídeo transmitida ao receptor é reduzida, por conseguinte, reduzindo a largura de banda exigida para a transmissão do conteúdo para o receptor, e a quantidade de processamento necessária no receptor é reduzida também (o qual é particularmente vantajoso já que os servidores/transmissores têm mais potência de processamento).

Em uma modalidade alternativa da presente invenção, diversos RÓIS podem ser fornecidos em um lado fonte (por exemplo, em um lado servidor/transmissor) e fornecidos para a seleção através de um usuário em um lado receptor. Isto é, o emissor (servidor) pode gerar diversas regiões de interesse preferidas e transmitir cada ROI sobre um canal de multidifusão separado. Como tal, um usuário pode selecionar/subscrever a um canal que tem um ROI preferido. Tais modalidades reduzem vantajosamente o tempo de processamento e o número de bits transmitidos a partir do transmissor/servidor.

Ainda, em uma modalidade alternativa da presente invenção, um ROI da presente invenção pode ser gerado no transmissor/emissor de acordo com as preferências populares do usuário. Mais especificamente, os ROls respectivos podem ser predeterminados por receptores respectivos de acordo com as escolhas populares dos receptores respectivos e, como tal, os ROls determinados podem ser transmitidos aos receptores respectivos. Devese notar que as modalidades alternativas mencionadas acima que envolvem o processamento de ROI no lado transmissor, de acordo com a presente invenção, podem ser especialmente úteis em situações, nas quais, a capacidade de processamento/transmissão é um problema.

Com as modalidades preferidas descritas para um método, aparelho e sistema para gerar regiões de interesse (ROI) no conteúdo de vídeo (os quais são destinados a serem ilustrativos, e não com caráter limitativo), deve-se notar que modificações e variações podem ser feitas por pessoas versadas na técnica levando em consideração as instruções acima. Portanto, deve-se compreender que as mudanças podem ser feitas nas modalidades particulares da invenção reveladas, as quais estão dentro do escopo e espírito da invenção conforme descrito em linhas gerais através das reivindicações em anexo. Enquanto que o antecedente é voltado para as diversas modalidades da presente invenção, outras e adicionais modalidades da invenção podem ser planejadas sem se afastarem do escopo básico da mesmá.

Claims

REIVINDICAÇÕES

1. Método para gerar uma região de interesse no conteúdo de vídeo, CARACTERIZADO pelo fato de que compreende:

identificar, pelo uso de informação obtida a partir do conteúdo de vídeo, pelo menos 5 um tipo de programação do dito conteúdo de vídeo, em que o tipo de informação é uma informação armazenada em uma memória em uma primeira biblioteca de tipos de programas; categorizar, pelo uso de informação obtida a partir do conteúdo de vídeo, cenas de pelo menos um dos ditos tipos de programação, em que a categoria cena é uma informação armazenada na memória em uma segunda biblioteca de tipos de cena; e

10 definir pelo menos uma região de interesse em pelo menos uma das ditas cenas através da identificação, nas ditas cenas, de pelo menos um de um local e/ou um objeto de interesse armazenado na memória em uma terceira biblioteca de objetos e locais associados com o tipo de programa identificado e a categoria de cena.
2. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que a

15 dita pelo menos uma região de interesse é definida através de uma entrada de usuário, local correspondente ou objeto sendo associado com o tipo de programação identificado e a categoria de cena, e adicionado à terceira boblioteca.
3. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que \ dita pelo menos uma região de interesse é definida através de uma combinação de uma

20 entrada de usuário e pelo menos um dentre um local e/ou objeto de interesse armazenado na terceira biblioteca.
4. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que a dita pelo menos uma região de interesse é definida através da aplicação das seleções anteriores do usuário.

25
5. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que a dita pelo menos uma região de interesse é definida através da aplicação da informação recebida a partir de uma fonte remota.
6. Método, de acordo com a reivindicação 5, CARACTERIZADO pelo fato de que a dita informação recebida a partir da fonte remota compreende pelo menos um dentre sele30 ções de usuário, locais e objetos de interesse determinados na dita fonte remota.
7. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que a dita pelo menos uma região de interesse definida é determinada em um receptor.
8. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que a dita pelo menos uma região de interesse definida é determinada em uma fonte de conteúdo

35 de vídeo e comunicada a um receptor remoto.
9. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que informações para identificar e categorizar o dito pelo menos um tipo de programação e as

Petição 870180055665, de 27/06/2018, pág. 11/13 ditas cenas são recebidas a partir de uma fonte remota do dito conteúdo de vídeo.
10. Aparelho para gerar uma região de interesse no conteúdo de vídeo, CARACTERIZADO pelo fato de que compreende:

uma memória associada a um processador configurado para executar as etapas de: 5 identificar, pelo uso de informação obtida a partir do conteúdo de vídeo, pelo menos um tipo de programação do dito conteúdo de vídeo, em que o tipo de informação é uma informação armazenada em uma memória em uma primeira biblioteca de tipos de programas; categorizar, pelo uso de informação obtida a partir do conteúdo de vídeo, cenas de pelo menos um dos ditos tipos de programação, em que a categoria cena é uma informação 10 armazenada na memória em uma segunda biblioteca de tipos de cena; e definir pelo menos uma região de interesse em pelo menos uma das ditas cenas através da identificação, nas ditas cenas, de pelo menos um de um local e/ou um objeto de interesse armazenado na memória em uma terceira biblioteca de objetos e locais associados com o tipo de programa identificado e a categoria de cena.

15
11. Aparelho, de acordo com a reivindicação 10, CARACTERIZADO pelo fato de que compreende um decodificador para decodificar conteúdo de vídeo codificado recebido.
12. Aparelho, de acordo com a reivindicação 10, CARACTERIZADO pelo fato de que compreende ainda uma interface de usuário para possibilitar que um usuário identifique as preferências para definir as regiões de interesse e associar regiões definidas com tipos

20 de programação e categorias de cena.
13. Aparelho, de acordo com a reivindicação 12, CARACTERIZADO pelo fato de que a dita interface de usuário compreende pelo menos um dentre um controle remoto sem fio, um dispositivo de indicação, tais como um mouse ou um esfera de deslocamento (“trackball”), um sistema de reconhecimento de voz, uma tela sensível ao toque, sobre me25 nus de tela, botões e manípulos.
14. Aparelho, de acordo com a reivindicação 10, CARACTERIZADO pelo fato de que o dito aparelho compreende um dispositivo de reprodução.
15. Aparelho, de acordo com a reivindicação 10, CARACTERIZADO pelo fato de que o dito aparelho compreende um receptor.

30
16. Aparelho, de acordo com a reivindicação 10, CARACTERIZADO pelo fato de que o dito aparelho compreende um dispositivo transmissor.
17. Sistema para gerar uma região de interesse no conteúdo de vídeo, CARACTERIZADO pelo fato de que compreende:

uma fonte de conteúdo para a radiodifusão do dito conteúdo de vídeo;

35 um dispositivo de recepção para receber o dito conteúdo de vídeo e configurar o dito conteúdo de vídeo recebido para exibição;

um dispositivo de visor para exibir o dito conteúdo de vídeo a partir do dito dispositiPetição 870180055665, de 27/06/2018, pág. 12/13 vo de recepção; e uma memória associada a um processador configurado para executar as etapas de: identificar, pelo uso de informação obtida a partir do conteúdo de vídeo, pelo menos um tipo de programação do dito conteúdo de vídeo, em que o tipo de informação é uma in5 formação armazenada em uma memória em uma primeira biblioteca de tipos de programas;

categorizar, pelo uso de informação obtida a partir do conteúdo de vídeo, cenas de pelo menos um dos ditos tipos de programação, em que a categoria cena é uma informação armazenada na memória em uma segunda biblioteca de tipos de cena; e definir pelo menos uma região de interesse em pelo menos uma das ditas cenas 10 através da identificação, nas ditas cenas, de pelo menos um de um local e/ou um objeto de interesse armazenado na memória em uma terceira biblioteca de objetos e locais associados com o tipo de programa identificado e a categoria de cena.
18. Sistema, de acordo com a reivindicação 17, CARACTERIZADO pelo fato de que o dito dispositivo de recepção compreende ainda uma interface de usuário para possibi15 litar que um usuário identifique preferências para definir regiões de interesse.
19. Sistema, de acordo com a reivindicação 17, CARACTERIZADO pelo fato de que a dita fonte de conteúdo compreende ainda uma interface de usuário para possibilitar que um usuário identifique preferências para definir regiões de interesse.
20. Sistema, de acordo com a reivindicação 17, CARACTERIZADO pelo fato de 20 que o dito dispositivo de recepção compreende um dispositivo de reprodução de vídeo/áudio.
21. Sistema, de acordo com a reivindicação 17, CARACTERIZADO pelo fato de que a dita fonte de conteúdo compreende um servidor.

Petição 870180055665, de 27/06/2018, pág. 13/13

RECEPTOR 100

INTERFACE DE USUÁRIO

109

DECODIFICADOR

MEMÓRIA )0t

BANCO DE DADOS 103 BIBL. DE CENA 102 BIBL. DE OBJETO 104 BIBL. DE PROGRAMA 1SZ

MÓDULO DE ROI

105

F/G. 1

RECEPTOR 100

INTERFACE DE USUÁRIO

109

DECODIFICADOR

111

MEMÓRIA 101

BANCO DE DADOS 103 BIBL. DE CENA 102 ⁵ BIBL. DE OBJETO 104 BIBL. DE PROGRAMA 107

MÓDULO DE ROI

105 visor 207